人工智能平民化自Prisma始
matthew 2016.08.11 09:04 人工智能概念股
先有Alpha Go在數(shù)億人的眼皮底下,五戰(zhàn)四勝將人類從圍棋神壇上“拉下馬”。后有Prisma風靡全球,一時間人人皆開了梵高、葛飾北齋的“金手指”,深度神經(jīng)網(wǎng)絡漸漸開始從幕后走到臺前,從不可見變得可見可觸,從賦能于企業(yè)走向“賦能”與每一個普通人。
如果說Alpha Go還讓普通人仰之彌高,可望不可及的話,那么上至總統(tǒng)下至中學生,人人皆可“調(diào)戲”的Prisma可謂是第一款人工智能平民化應用。在手機的硬件軍備競賽人困馬乏、了無新意的時代,利用人工智能技術(shù),通過“云端算法”的遠程助力,可以在硬件瓶頸之下大幅提高手機的“智能化”水平。
如果說Alpha Go出盡風頭是因為背靠Google在深度學習領域的深厚功底,成功非一般創(chuàng)業(yè)公司可復制,那么四人團隊一個半月時間內(nèi)開發(fā)出的Prisma則意味著:站在人工智能領域前人的成果之上,小團隊也有可能touch the sky。
將卷積神經(jīng)網(wǎng)絡應用于“圖片合成”乃至“藝術(shù)品濾鏡”,Prisma并不是第一個。早在去年,DeepArt團隊的三名成員就通過兩篇論文《Texture Synthesis Using Convolutional Neural Networks》和《A Neural Algorithm of Artistic Style》分步拆解,提出了合成名畫風格的照片的具體方法。去年上線的DeepArt.io也得到了WIRED、The Washington Post等媒體的廣泛報道,只不過由于是網(wǎng)頁版收費服務、處理時間長達半個小時,所以未能如Prisma這般引爆流行。
卷積神經(jīng)網(wǎng)絡是如何生成“星月夜濾鏡”?
即使將卷積神經(jīng)網(wǎng)絡用于“藝術(shù)品濾鏡”,Prisma也不是第一個。這個領域的先驅(qū)是DeepArt團隊,幾篇論文記錄了它們從“物體識別——紋理合成——風格提取——圖片合成”一步步的研究軌跡。也像我們展示了用于識別貓的圖片的卷積神經(jīng)網(wǎng)絡是如何用來讓《星月夜》變成一款濾鏡的。
不同光照環(huán)境之下的同一張人臉?
同一張人臉在不同光線之下,輪廓、形狀可能完全不同,而物體識別的難點也就是在不同的變量(比如光照條件)之下對物體存在的感知,這意味著神經(jīng)網(wǎng)絡要把圖片的內(nèi)容從風格中抽離出來,也意味著物體識別的神經(jīng)網(wǎng)絡中內(nèi)在地存在著Prisma的運作機制:從圖片中提取藝術(shù)風格特征。
問題是如何把梵高的《星月夜》中旋流不息的筆觸與夢幻一般的用色“抽象”成一種風格濾鏡,然后用在所有的照片之上?這就涉及到卷積神經(jīng)網(wǎng)絡的“過濾原理”。
就像Alpha Go的12層神經(jīng)網(wǎng)絡劃被劃分為負責選擇落子的‘策略網(wǎng)絡’(policy network)和則負責計算棋面優(yōu)劣的‘價值網(wǎng)絡’(value network)一樣。卷積神經(jīng)網(wǎng)絡也是通過一些可供“調(diào)教”的參數(shù),分層處理圖片以便實現(xiàn)某些目的,例如目前應用最為廣泛的物體識別,圖片分類,也可以用于圖片降噪或去模糊。
卷積神經(jīng)網(wǎng)絡運行原理圖示
也正如其他的人工智能神經(jīng)網(wǎng)絡一樣,卷積神經(jīng)網(wǎng)絡的運行方式是前向分層處理。一張圖片相繼通過神經(jīng)網(wǎng)絡的各個分層,最后一層產(chǎn)生的圖片即為最終結(jié)果。每一層都有一組參數(shù),在運行過程中被不斷訓練。這些可以調(diào)教的參數(shù)決定了每個“過濾層”的功能。圖像每經(jīng)過一個“過濾層”都會產(chǎn)生一組“濾后圖像”,被稱為feature map(特征映射)。每一張feature map都代表了原始圖像的某一特征(邊緣、角度、輪廓等)。
通常,當一張圖像經(jīng)過了多層過濾之后,后面留下的特征會越來越抽象。例如,如果卷積神經(jīng)網(wǎng)絡被訓練用于物體識別,更深層次的“過濾層”更能“感知”到物體的存在而非具體的像素值。
經(jīng)過多年發(fā)展,用于物體識別的卷積神經(jīng)網(wǎng)絡表現(xiàn)已經(jīng)越來越好,挑戰(zhàn)門檻也越增越高。ImageNet圖像識別挑戰(zhàn)賽2014年的獲獎者是一個有19層“過濾層”和相對更小過濾器的深度卷積網(wǎng)絡,這就是DeepArt系統(tǒng)的基礎VGG網(wǎng)絡。
? ? ? ?人造紋理的合成步驟
在《Texture Synthesis Using Convolutional Neural Networks》中,DeepArt團隊介紹了用于物體識別的卷積網(wǎng)絡是如何用來合成人造紋理的,意即模仿原始圖像的紋理創(chuàng)造一張人工合成的圖像。一般來說,可以被“打散重組”的圖片都包含某一特定的圖樣,比如沙子、紙張、碎云、木紋、混凝土的特寫圖片,整體布局對于這類圖片來講并不像對于地標建筑那樣是重要。
合成圖片的產(chǎn)生過程就是不斷迭代“升級”這些含有“隨機噪音”的圖片,直至產(chǎn)生與原始圖像相似的圖片?!跋嗨菩浴钡臉藴示褪巧屎途植考毠?jié)被保留,而總體布局發(fā)生改變。
我們想要的結(jié)果是去除空間信息,保留紋理。問題在于一張?zhí)卣鲌D本來就是原始圖像的“過濾版”,肯定會保留空間信息。如何加以去除呢?DeepArt團隊采取的方法計算一個去除了空間信息的過濾層中,不同feature map之間的相關性(只要兩張feature map之間的相關系數(shù)是單一值,那么空間信息就肯定被去除了)。作者計算了一個過濾層中所有特征圖的相關性,得到了一個N×N的格拉姆矩陣(Gramian matrix),其中N是這一層中feature map的數(shù)量。
迭代升級程序不斷修改“噪聲圖”,直至它的格拉姆矩陣接近原始圖像。這種迭代升級可以通過多層神經(jīng)網(wǎng)絡標準的誤差反向傳播(BackPropagation)算法來完成,通過這一程序,就可以創(chuàng)造出與原始圖像相似的紋理。
在后一篇論文《A Neural Algorithm of Artistic Style》中,DeepArt為原來的紋理合成方法增加了新的一步,目標是模擬VGG網(wǎng)絡中特征圖的格拉姆矩陣,以得到一張風格相似但內(nèi)容不同的圖片。
而格拉姆矩陣從某種意義上來說就相當于一名藝術(shù)家的風格。他再現(xiàn)一張臉的方式與再現(xiàn)一棵樹、一幢房的方式有某種相關性。只要捕捉到了這種相關性就捕捉到了風格。
模擬圖片的內(nèi)容與紋理合成的方法類似,只不過標準不同:目標是直接模擬VGG網(wǎng)絡深層過濾層的數(shù)值。步驟可以概括如下:
讓藝術(shù)家畫作經(jīng)過VGG神經(jīng)網(wǎng)絡,計算并保存格拉姆矩陣 G。然后再讓用戶的照片通過VGG神經(jīng)網(wǎng)絡,保存特征圖F。生成一張白噪音圖片,通過誤差反向傳播算法,不斷升級這張圖片直到它的特征圖接近F,格拉姆矩陣接近G。
通過很難找到一張完美匹配G和F的圖片,所以就需要做出一定程度的妥協(xié)。是更接近G還是更接近F?如果生成的圖片更側(cè)重于格拉姆矩陣接近G,那么它就更接近藝術(shù)品的風格。如果生成的圖片更側(cè)重于特征圖接近F,那么它就保留更多照片的內(nèi)容。下面的幾張圖片演示了這種妥協(xié),從左至右,藝術(shù)風格越來越淡化,圖片內(nèi)容越來越凸顯。
為什么Prisma注定曇花一現(xiàn)?
Prisma的濾鏡更像臉萌而不是Instagram、Faceu,是娛樂型產(chǎn)品而不是工具型產(chǎn)品,更不用說進階為社交應用了。實際上,很多新奇酷產(chǎn)品都把握不好娛樂產(chǎn)品和工具型產(chǎn)品的界限——是可以日常使用還是偶爾玩耍?使用場景是什么?Faceu之所以沒有曇花一現(xiàn),是因為它可以用于自拍、美顏、自帶表情聊天,那么Prisma則只是為了追求新鮮炫酷。Faceu是錦上添花,Prisma則是改頭換面。
而對于圖片工具的主要應用場景——社交網(wǎng)絡而言,被發(fā)在那里的照片主要是為了凸顯內(nèi)容而不是彰顯風格,追求真實性大于效果炫酷,過度使用濾鏡、使用過度“失真”的濾鏡乃是一大忌諱。
更為重要的是,美顏是國內(nèi)用戶“修圖”的首要驅(qū)動力,一切不能美顏的修圖工具都是“耍流氓”,而Prisam過度“風格化”的濾鏡在人像尤其是面部處理方面很難令人滿意。美顏需要的是對面部細微之處的修修補補,輕抹慢涂,而不是狂放藝術(shù)家的筆刷橫掃,顏料潑灑。
一方面要用藝術(shù)家的風格讓人耳目一新、為之驚嘆,一方面又要保留每一張照片的內(nèi)容,這就意味著Prisma只能選取印象派之后、現(xiàn)代主義之前的藝術(shù)流派,正如一位學藝術(shù)的朋友所言:“它的智能尚不能學著像畢加索那樣去解構(gòu)人體,更不消說康定斯基完全不依實物作畫?!倍液蠊诺渲髁x時代的審美(擺脫對于“像不像”的糾纏,同時注重內(nèi)容與表現(xiàn)形式)目前在大眾中尚未被普遍接受,Prisma的“日?;鄙胁痪邆淙罕娀A。
人工智能正在讓智能手機更“智能”
機器學習在互聯(lián)網(wǎng)應用中已經(jīng)無處不在:Facebook利用它來決定哪條新聞出現(xiàn)在你的時間線上,Google圖片用它來做面部識別。微軟的Skype Translator利用機器學習把演講實時轉(zhuǎn)換成不同的語言。Google還利用DeepMind 為它晝夜運行的數(shù)據(jù)中心節(jié)能降耗。而基于深度神經(jīng)網(wǎng)絡的人臉識別技術(shù)已經(jīng)廣泛應用于線下的身份認證。
然而,這些面向企業(yè)用戶、運行于后臺的的人工智能技術(shù)還沒有“把玩”在普通用戶手中,響應他們的每一次需求,使智能手機真正變得智能起來。
Prisma的風行,標志智能手機的硬件時代已經(jīng)過去,人工智能時代已經(jīng)到來。Prisma使用的卷積神經(jīng)網(wǎng)絡技術(shù),正是現(xiàn)在人工智能的前沿。以后各種頂尖的人工智能技術(shù)將繼續(xù)平民化,實現(xiàn)在各種移動硬件上。實際上,除了Prisma這樣的娛樂化應用,人工智能也正在被用于解決智能手機用戶的真正“痛點”。
如果你是個拍照達人,不知不覺中相冊中已經(jīng)泛濫成災了上千張照片,讓你有心去整理而又不知從何下手?,F(xiàn)在,Apple Photos、Flickr、 Google Photos等都開始利用圖像識別技術(shù)幫助你自動整理、歸類圖片。
應用了人工神經(jīng)網(wǎng)絡之后,Swiftkey的預測準確性有了明顯提升
而今年,人工智能技術(shù)也第一次應用在輸入法上,7月份,全球擁有3億用戶的Swiftkey發(fā)布了一款利用人工神經(jīng)網(wǎng)絡預測用戶輸入內(nèi)容的輸入法SwiftKey Neural Alpha,相比于過去只能根據(jù)最新鍵入的兩個詞進行“局部預測”,SwiftKey Neural Alpha通過對每個單詞編碼,然后尋找句子中不同詞語之間的相關性,基于云端數(shù)百萬的語料庫,從而實現(xiàn)基于句子的“全局預測”。這是神經(jīng)網(wǎng)絡技術(shù)首次應用在輸入法上,SwiftKey的聯(lián)合創(chuàng)始兼CTO Ben Medlock稱,他們的一些想法是受到了英國著名科學家圖靈的啟發(fā)。
人工智能概念股:埃斯頓、科大智能、漢王科技、江南化工、華東數(shù)控、和而泰、中科曙光、永創(chuàng)智能、北京君正、通富微電、永創(chuàng)智能、勁拓股份。
人工智能概念股
那么問題來了:最值得配置的人工智能概念股是哪只?即刻申請進入國內(nèi)首個免費的非公開主題投資交流社區(qū)概念股論壇參與討論!
申明:本文為作者投稿或轉(zhuǎn)載,在概念股網(wǎng) http://www.guangshenggb.com/ 上發(fā)表,為其獨立觀點。不代表本網(wǎng)立場,不代表本網(wǎng)贊同其觀點,亦不對其真實性負責,投資決策請建立在獨立思考之上。