人工智能平民化自Prisma始
matthew 2016.08.11 09:04 人工智能概念股
先有Alpha Go在數(shù)億人的眼皮底下,五戰(zhàn)四勝將人類(lèi)從圍棋神壇上“拉下馬”。后有Prisma風(fēng)靡全球,一時(shí)間人人皆開(kāi)了梵高、葛飾北齋的“金手指”,深度神經(jīng)網(wǎng)絡(luò)漸漸開(kāi)始從幕后走到臺(tái)前,從不可見(jiàn)變得可見(jiàn)可觸,從賦能于企業(yè)走向“賦能”與每一個(gè)普通人。
如果說(shuō)Alpha Go還讓普通人仰之彌高,可望不可及的話,那么上至總統(tǒng)下至中學(xué)生,人人皆可“調(diào)戲”的Prisma可謂是第一款人工智能平民化應(yīng)用。在手機(jī)的硬件軍備競(jìng)賽人困馬乏、了無(wú)新意的時(shí)代,利用人工智能技術(shù),通過(guò)“云端算法”的遠(yuǎn)程助力,可以在硬件瓶頸之下大幅提高手機(jī)的“智能化”水平。
如果說(shuō)Alpha Go出盡風(fēng)頭是因?yàn)楸晨縂oogle在深度學(xué)習(xí)領(lǐng)域的深厚功底,成功非一般創(chuàng)業(yè)公司可復(fù)制,那么四人團(tuán)隊(duì)一個(gè)半月時(shí)間內(nèi)開(kāi)發(fā)出的Prisma則意味著:站在人工智能領(lǐng)域前人的成果之上,小團(tuán)隊(duì)也有可能touch the sky。
將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于“圖片合成”乃至“藝術(shù)品濾鏡”,Prisma并不是第一個(gè)。早在去年,DeepArt團(tuán)隊(duì)的三名成員就通過(guò)兩篇論文《Texture Synthesis Using Convolutional Neural Networks》和《A Neural Algorithm of Artistic Style》分步拆解,提出了合成名畫(huà)風(fēng)格的照片的具體方法。去年上線的DeepArt.io也得到了WIRED、The Washington Post等媒體的廣泛報(bào)道,只不過(guò)由于是網(wǎng)頁(yè)版收費(fèi)服務(wù)、處理時(shí)間長(zhǎng)達(dá)半個(gè)小時(shí),所以未能如Prisma這般引爆流行。
卷積神經(jīng)網(wǎng)絡(luò)是如何生成“星月夜濾鏡”?
即使將卷積神經(jīng)網(wǎng)絡(luò)用于“藝術(shù)品濾鏡”,Prisma也不是第一個(gè)。這個(gè)領(lǐng)域的先驅(qū)是DeepArt團(tuán)隊(duì),幾篇論文記錄了它們從“物體識(shí)別——紋理合成——風(fēng)格提取——圖片合成”一步步的研究軌跡。也像我們展示了用于識(shí)別貓的圖片的卷積神經(jīng)網(wǎng)絡(luò)是如何用來(lái)讓《星月夜》變成一款濾鏡的。
不同光照環(huán)境之下的同一張人臉?
同一張人臉在不同光線之下,輪廓、形狀可能完全不同,而物體識(shí)別的難點(diǎn)也就是在不同的變量(比如光照條件)之下對(duì)物體存在的感知,這意味著神經(jīng)網(wǎng)絡(luò)要把圖片的內(nèi)容從風(fēng)格中抽離出來(lái),也意味著物體識(shí)別的神經(jīng)網(wǎng)絡(luò)中內(nèi)在地存在著Prisma的運(yùn)作機(jī)制:從圖片中提取藝術(shù)風(fēng)格特征。
問(wèn)題是如何把梵高的《星月夜》中旋流不息的筆觸與夢(mèng)幻一般的用色“抽象”成一種風(fēng)格濾鏡,然后用在所有的照片之上?這就涉及到卷積神經(jīng)網(wǎng)絡(luò)的“過(guò)濾原理”。
就像Alpha Go的12層神經(jīng)網(wǎng)絡(luò)劃被劃分為負(fù)責(zé)選擇落子的‘策略網(wǎng)絡(luò)’(policy network)和則負(fù)責(zé)計(jì)算棋面優(yōu)劣的‘價(jià)值網(wǎng)絡(luò)’(value network)一樣。卷積神經(jīng)網(wǎng)絡(luò)也是通過(guò)一些可供“調(diào)教”的參數(shù),分層處理圖片以便實(shí)現(xiàn)某些目的,例如目前應(yīng)用最為廣泛的物體識(shí)別,圖片分類(lèi),也可以用于圖片降噪或去模糊。
卷積神經(jīng)網(wǎng)絡(luò)運(yùn)行原理圖示
也正如其他的人工智能神經(jīng)網(wǎng)絡(luò)一樣,卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)行方式是前向分層處理。一張圖片相繼通過(guò)神經(jīng)網(wǎng)絡(luò)的各個(gè)分層,最后一層產(chǎn)生的圖片即為最終結(jié)果。每一層都有一組參數(shù),在運(yùn)行過(guò)程中被不斷訓(xùn)練。這些可以調(diào)教的參數(shù)決定了每個(gè)“過(guò)濾層”的功能。圖像每經(jīng)過(guò)一個(gè)“過(guò)濾層”都會(huì)產(chǎn)生一組“濾后圖像”,被稱(chēng)為feature map(特征映射)。每一張feature map都代表了原始圖像的某一特征(邊緣、角度、輪廓等)。
通常,當(dāng)一張圖像經(jīng)過(guò)了多層過(guò)濾之后,后面留下的特征會(huì)越來(lái)越抽象。例如,如果卷積神經(jīng)網(wǎng)絡(luò)被訓(xùn)練用于物體識(shí)別,更深層次的“過(guò)濾層”更能“感知”到物體的存在而非具體的像素值。
經(jīng)過(guò)多年發(fā)展,用于物體識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)表現(xiàn)已經(jīng)越來(lái)越好,挑戰(zhàn)門(mén)檻也越增越高。ImageNet圖像識(shí)別挑戰(zhàn)賽2014年的獲獎(jiǎng)?wù)呤且粋€(gè)有19層“過(guò)濾層”和相對(duì)更小過(guò)濾器的深度卷積網(wǎng)絡(luò),這就是DeepArt系統(tǒng)的基礎(chǔ)VGG網(wǎng)絡(luò)。
? ? ? ?人造紋理的合成步驟
在《Texture Synthesis Using Convolutional Neural Networks》中,DeepArt團(tuán)隊(duì)介紹了用于物體識(shí)別的卷積網(wǎng)絡(luò)是如何用來(lái)合成人造紋理的,意即模仿原始圖像的紋理創(chuàng)造一張人工合成的圖像。一般來(lái)說(shuō),可以被“打散重組”的圖片都包含某一特定的圖樣,比如沙子、紙張、碎云、木紋、混凝土的特寫(xiě)圖片,整體布局對(duì)于這類(lèi)圖片來(lái)講并不像對(duì)于地標(biāo)建筑那樣是重要。
合成圖片的產(chǎn)生過(guò)程就是不斷迭代“升級(jí)”這些含有“隨機(jī)噪音”的圖片,直至產(chǎn)生與原始圖像相似的圖片。“相似性”的標(biāo)準(zhǔn)就是色彩和局部細(xì)節(jié)被保留,而總體布局發(fā)生改變。
我們想要的結(jié)果是去除空間信息,保留紋理。問(wèn)題在于一張?zhí)卣鲌D本來(lái)就是原始圖像的“過(guò)濾版”,肯定會(huì)保留空間信息。如何加以去除呢?DeepArt團(tuán)隊(duì)采取的方法計(jì)算一個(gè)去除了空間信息的過(guò)濾層中,不同feature map之間的相關(guān)性(只要兩張feature map之間的相關(guān)系數(shù)是單一值,那么空間信息就肯定被去除了)。作者計(jì)算了一個(gè)過(guò)濾層中所有特征圖的相關(guān)性,得到了一個(gè)N×N的格拉姆矩陣(Gramian matrix),其中N是這一層中feature map的數(shù)量。
迭代升級(jí)程序不斷修改“噪聲圖”,直至它的格拉姆矩陣接近原始圖像。這種迭代升級(jí)可以通過(guò)多層神經(jīng)網(wǎng)絡(luò)標(biāo)準(zhǔn)的誤差反向傳播(BackPropagation)算法來(lái)完成,通過(guò)這一程序,就可以創(chuàng)造出與原始圖像相似的紋理。
在后一篇論文《A Neural Algorithm of Artistic Style》中,DeepArt為原來(lái)的紋理合成方法增加了新的一步,目標(biāo)是模擬VGG網(wǎng)絡(luò)中特征圖的格拉姆矩陣,以得到一張風(fēng)格相似但內(nèi)容不同的圖片。
而格拉姆矩陣從某種意義上來(lái)說(shuō)就相當(dāng)于一名藝術(shù)家的風(fēng)格。他再現(xiàn)一張臉的方式與再現(xiàn)一棵樹(shù)、一幢房的方式有某種相關(guān)性。只要捕捉到了這種相關(guān)性就捕捉到了風(fēng)格。
模擬圖片的內(nèi)容與紋理合成的方法類(lèi)似,只不過(guò)標(biāo)準(zhǔn)不同:目標(biāo)是直接模擬VGG網(wǎng)絡(luò)深層過(guò)濾層的數(shù)值。步驟可以概括如下:
讓藝術(shù)家畫(huà)作經(jīng)過(guò)VGG神經(jīng)網(wǎng)絡(luò),計(jì)算并保存格拉姆矩陣 G。然后再讓用戶(hù)的照片通過(guò)VGG神經(jīng)網(wǎng)絡(luò),保存特征圖F。生成一張白噪音圖片,通過(guò)誤差反向傳播算法,不斷升級(jí)這張圖片直到它的特征圖接近F,格拉姆矩陣接近G。
通過(guò)很難找到一張完美匹配G和F的圖片,所以就需要做出一定程度的妥協(xié)。是更接近G還是更接近F?如果生成的圖片更側(cè)重于格拉姆矩陣接近G,那么它就更接近藝術(shù)品的風(fēng)格。如果生成的圖片更側(cè)重于特征圖接近F,那么它就保留更多照片的內(nèi)容。下面的幾張圖片演示了這種妥協(xié),從左至右,藝術(shù)風(fēng)格越來(lái)越淡化,圖片內(nèi)容越來(lái)越凸顯。
為什么Prisma注定曇花一現(xiàn)?
Prisma的濾鏡更像臉萌而不是Instagram、Faceu,是娛樂(lè)型產(chǎn)品而不是工具型產(chǎn)品,更不用說(shuō)進(jìn)階為社交應(yīng)用了。實(shí)際上,很多新奇酷產(chǎn)品都把握不好娛樂(lè)產(chǎn)品和工具型產(chǎn)品的界限——是可以日常使用還是偶爾玩耍?使用場(chǎng)景是什么?Faceu之所以沒(méi)有曇花一現(xiàn),是因?yàn)樗梢杂糜谧耘?、美顏、自帶表情聊天,那么Prisma則只是為了追求新鮮炫酷。Faceu是錦上添花,Prisma則是改頭換面。
而對(duì)于圖片工具的主要應(yīng)用場(chǎng)景——社交網(wǎng)絡(luò)而言,被發(fā)在那里的照片主要是為了凸顯內(nèi)容而不是彰顯風(fēng)格,追求真實(shí)性大于效果炫酷,過(guò)度使用濾鏡、使用過(guò)度“失真”的濾鏡乃是一大忌諱。
更為重要的是,美顏是國(guó)內(nèi)用戶(hù)“修圖”的首要驅(qū)動(dòng)力,一切不能美顏的修圖工具都是“耍流氓”,而Prisam過(guò)度“風(fēng)格化”的濾鏡在人像尤其是面部處理方面很難令人滿(mǎn)意。美顏需要的是對(duì)面部細(xì)微之處的修修補(bǔ)補(bǔ),輕抹慢涂,而不是狂放藝術(shù)家的筆刷橫掃,顏料潑灑。
一方面要用藝術(shù)家的風(fēng)格讓人耳目一新、為之驚嘆,一方面又要保留每一張照片的內(nèi)容,這就意味著Prisma只能選取印象派之后、現(xiàn)代主義之前的藝術(shù)流派,正如一位學(xué)藝術(shù)的朋友所言:“它的智能尚不能學(xué)著像畢加索那樣去解構(gòu)人體,更不消說(shuō)康定斯基完全不依實(shí)物作畫(huà)?!倍液蠊诺渲髁x時(shí)代的審美(擺脫對(duì)于“像不像”的糾纏,同時(shí)注重內(nèi)容與表現(xiàn)形式)目前在大眾中尚未被普遍接受,Prisma的“日常化”尚不具備群眾基礎(chǔ)。
人工智能正在讓智能手機(jī)更“智能”
機(jī)器學(xué)習(xí)在互聯(lián)網(wǎng)應(yīng)用中已經(jīng)無(wú)處不在:Facebook利用它來(lái)決定哪條新聞出現(xiàn)在你的時(shí)間線上,Google圖片用它來(lái)做面部識(shí)別。微軟的Skype Translator利用機(jī)器學(xué)習(xí)把演講實(shí)時(shí)轉(zhuǎn)換成不同的語(yǔ)言。Google還利用DeepMind 為它晝夜運(yùn)行的數(shù)據(jù)中心節(jié)能降耗。而基于深度神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別技術(shù)已經(jīng)廣泛應(yīng)用于線下的身份認(rèn)證。
然而,這些面向企業(yè)用戶(hù)、運(yùn)行于后臺(tái)的的人工智能技術(shù)還沒(méi)有“把玩”在普通用戶(hù)手中,響應(yīng)他們的每一次需求,使智能手機(jī)真正變得智能起來(lái)。
Prisma的風(fēng)行,標(biāo)志智能手機(jī)的硬件時(shí)代已經(jīng)過(guò)去,人工智能時(shí)代已經(jīng)到來(lái)。Prisma使用的卷積神經(jīng)網(wǎng)絡(luò)技術(shù),正是現(xiàn)在人工智能的前沿。以后各種頂尖的人工智能技術(shù)將繼續(xù)平民化,實(shí)現(xiàn)在各種移動(dòng)硬件上。實(shí)際上,除了Prisma這樣的娛樂(lè)化應(yīng)用,人工智能也正在被用于解決智能手機(jī)用戶(hù)的真正“痛點(diǎn)”。
如果你是個(gè)拍照達(dá)人,不知不覺(jué)中相冊(cè)中已經(jīng)泛濫成災(zāi)了上千張照片,讓你有心去整理而又不知從何下手?,F(xiàn)在,Apple Photos、Flickr、 Google Photos等都開(kāi)始利用圖像識(shí)別技術(shù)幫助你自動(dòng)整理、歸類(lèi)圖片。
應(yīng)用了人工神經(jīng)網(wǎng)絡(luò)之后,Swiftkey的預(yù)測(cè)準(zhǔn)確性有了明顯提升
而今年,人工智能技術(shù)也第一次應(yīng)用在輸入法上,7月份,全球擁有3億用戶(hù)的Swiftkey發(fā)布了一款利用人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)用戶(hù)輸入內(nèi)容的輸入法SwiftKey Neural Alpha,相比于過(guò)去只能根據(jù)最新鍵入的兩個(gè)詞進(jìn)行“局部預(yù)測(cè)”,SwiftKey Neural Alpha通過(guò)對(duì)每個(gè)單詞編碼,然后尋找句子中不同詞語(yǔ)之間的相關(guān)性,基于云端數(shù)百萬(wàn)的語(yǔ)料庫(kù),從而實(shí)現(xiàn)基于句子的“全局預(yù)測(cè)”。這是神經(jīng)網(wǎng)絡(luò)技術(shù)首次應(yīng)用在輸入法上,SwiftKey的聯(lián)合創(chuàng)始兼CTO Ben Medlock稱(chēng),他們的一些想法是受到了英國(guó)著名科學(xué)家圖靈的啟發(fā)。
人工智能概念股:埃斯頓、科大智能、漢王科技、江南化工、華東數(shù)控、和而泰、中科曙光、永創(chuàng)智能、北京君正、通富微電、永創(chuàng)智能、勁拓股份。
人工智能概念股
那么問(wèn)題來(lái)了:最值得配置的人工智能概念股是哪只?即刻申請(qǐng)進(jìn)入國(guó)內(nèi)首個(gè)免費(fèi)的非公開(kāi)主題投資交流社區(qū)概念股論壇參與討論!
申明:本文為作者投稿或轉(zhuǎn)載,在概念股網(wǎng) http://www.guangshenggb.com/ 上發(fā)表,為其獨(dú)立觀點(diǎn)。不代表本網(wǎng)立場(chǎng),不代表本網(wǎng)贊同其觀點(diǎn),亦不對(duì)其真實(shí)性負(fù)責(zé),投資決策請(qǐng)建立在獨(dú)立思考之上。