人工智能平民化自Prisma始

matthew 2016.08.11 09:04 人工智能概念股

Prisma雖曇花一現(xiàn)，但人工智能平民化時代才剛剛開始

先有Alpha Go在數(shù)億人的眼皮底下，五戰(zhàn)四勝將人類從圍棋神壇上“拉下馬”。后有Prisma風靡全球，一時間人人皆開了梵高、葛飾北齋的“金手指”，深度神經(jīng)網(wǎng)絡漸漸開始從幕后走到臺前，從不可見變得可見可觸，從賦能于企業(yè)走向“賦能”與每一個普通人。

如果說Alpha Go還讓普通人仰之彌高，可望不可及的話，那么上至總統(tǒng)下至中學生，人人皆可“調(diào)戲”的Prisma可謂是第一款人工智能平民化應用。在手機的硬件軍備競賽人困馬乏、了無新意的時代，利用人工智能技術(shù)，通過“云端算法”的遠程助力，可以在硬件瓶頸之下大幅提高手機的“智能化”水平。

如果說Alpha Go出盡風頭是因為背靠Google在深度學習領域的深厚功底，成功非一般創(chuàng)業(yè)公司可復制，那么四人團隊一個半月時間內(nèi)開發(fā)出的Prisma則意味著：站在人工智能領域前人的成果之上，小團隊也有可能touch the sky。

將卷積神經(jīng)網(wǎng)絡應用于“圖片合成”乃至“藝術(shù)品濾鏡”，Prisma并不是第一個。早在去年，DeepArt團隊的三名成員就通過兩篇論文《Texture Synthesis Using Convolutional Neural Networks》和《A Neural Algorithm of Artistic Style》分步拆解，提出了合成名畫風格的照片的具體方法。去年上線的DeepArt.io也得到了WIRED、The Washington Post等媒體的廣泛報道，只不過由于是網(wǎng)頁版收費服務、處理時間長達半個小時，所以未能如Prisma這般引爆流行。

卷積神經(jīng)網(wǎng)絡是如何生成“星月夜濾鏡”？

即使將卷積神經(jīng)網(wǎng)絡用于“藝術(shù)品濾鏡”，Prisma也不是第一個。這個領域的先驅(qū)是DeepArt團隊，幾篇論文記錄了它們從“物體識別——紋理合成——風格提取——圖片合成”一步步的研究軌跡。也像我們展示了用于識別貓的圖片的卷積神經(jīng)網(wǎng)絡是如何用來讓《星月夜》變成一款濾鏡的。

Prisma雖曇花一現(xiàn)，但人工智能平民化時代才剛剛開始

不同光照環(huán)境之下的同一張人臉?

同一張人臉在不同光線之下，輪廓、形狀可能完全不同，而物體識別的難點也就是在不同的變量（比如光照條件）之下對物體存在的感知，這意味著神經(jīng)網(wǎng)絡要把圖片的內(nèi)容從風格中抽離出來，也意味著物體識別的神經(jīng)網(wǎng)絡中內(nèi)在地存在著Prisma的運作機制：從圖片中提取藝術(shù)風格特征。

問題是如何把梵高的《星月夜》中旋流不息的筆觸與夢幻一般的用色“抽象”成一種風格濾鏡，然后用在所有的照片之上？這就涉及到卷積神經(jīng)網(wǎng)絡的“過濾原理”。

就像Alpha Go的12層神經(jīng)網(wǎng)絡劃被劃分為負責選擇落子的‘策略網(wǎng)絡’（policy network）和則負責計算棋面優(yōu)劣的‘價值網(wǎng)絡’（value network）一樣。卷積神經(jīng)網(wǎng)絡也是通過一些可供“調(diào)教”的參數(shù)，分層處理圖片以便實現(xiàn)某些目的，例如目前應用最為廣泛的物體識別，圖片分類，也可以用于圖片降噪或去模糊。

Prisma雖曇花一現(xiàn)，但人工智能平民化時代才剛剛開始

卷積神經(jīng)網(wǎng)絡運行原理圖示

也正如其他的人工智能神經(jīng)網(wǎng)絡一樣，卷積神經(jīng)網(wǎng)絡的運行方式是前向分層處理。一張圖片相繼通過神經(jīng)網(wǎng)絡的各個分層，最后一層產(chǎn)生的圖片即為最終結(jié)果。每一層都有一組參數(shù)，在運行過程中被不斷訓練。這些可以調(diào)教的參數(shù)決定了每個“過濾層”的功能。圖像每經(jīng)過一個“過濾層”都會產(chǎn)生一組“濾后圖像”，被稱為feature map（特征映射）。每一張feature map都代表了原始圖像的某一特征（邊緣、角度、輪廓等）。

通常，當一張圖像經(jīng)過了多層過濾之后，后面留下的特征會越來越抽象。例如，如果卷積神經(jīng)網(wǎng)絡被訓練用于物體識別，更深層次的“過濾層”更能“感知”到物體的存在而非具體的像素值。

經(jīng)過多年發(fā)展，用于物體識別的卷積神經(jīng)網(wǎng)絡表現(xiàn)已經(jīng)越來越好，挑戰(zhàn)門檻也越增越高。ImageNet圖像識別挑戰(zhàn)賽2014年的獲獎者是一個有19層“過濾層”和相對更小過濾器的深度卷積網(wǎng)絡，這就是DeepArt系統(tǒng)的基礎VGG網(wǎng)絡。

Prisma雖曇花一現(xiàn)，但人工智能平民化時代才剛剛開始

? ? ? ?人造紋理的合成步驟

在《Texture Synthesis Using Convolutional Neural Networks》中，DeepArt團隊介紹了用于物體識別的卷積網(wǎng)絡是如何用來合成人造紋理的，意即模仿原始圖像的紋理創(chuàng)造一張人工合成的圖像。一般來說，可以被“打散重組”的圖片都包含某一特定的圖樣，比如沙子、紙張、碎云、木紋、混凝土的特寫圖片，整體布局對于這類圖片來講并不像對于地標建筑那樣是重要。

合成圖片的產(chǎn)生過程就是不斷迭代“升級”這些含有“隨機噪音”的圖片，直至產(chǎn)生與原始圖像相似的圖片?！跋嗨菩浴钡臉藴示褪巧屎途植考毠?jié)被保留，而總體布局發(fā)生改變。

我們想要的結(jié)果是去除空間信息，保留紋理。問題在于一張?zhí)卣鲌D本來就是原始圖像的“過濾版”，肯定會保留空間信息。如何加以去除呢？DeepArt團隊采取的方法計算一個去除了空間信息的過濾層中，不同feature map之間的相關性（只要兩張feature map之間的相關系數(shù)是單一值，那么空間信息就肯定被去除了）。作者計算了一個過濾層中所有特征圖的相關性，得到了一個N×N的格拉姆矩陣（Gramian matrix），其中N是這一層中feature map的數(shù)量。

迭代升級程序不斷修改“噪聲圖”，直至它的格拉姆矩陣接近原始圖像。這種迭代升級可以通過多層神經(jīng)網(wǎng)絡標準的誤差反向傳播（BackPropagation）算法來完成，通過這一程序，就可以創(chuàng)造出與原始圖像相似的紋理。

Prisma雖曇花一現(xiàn)，但人工智能平民化時代才剛剛開始

在后一篇論文《A Neural Algorithm of Artistic Style》中，DeepArt為原來的紋理合成方法增加了新的一步，目標是模擬VGG網(wǎng)絡中特征圖的格拉姆矩陣，以得到一張風格相似但內(nèi)容不同的圖片。

而格拉姆矩陣從某種意義上來說就相當于一名藝術(shù)家的風格。他再現(xiàn)一張臉的方式與再現(xiàn)一棵樹、一幢房的方式有某種相關性。只要捕捉到了這種相關性就捕捉到了風格。

模擬圖片的內(nèi)容與紋理合成的方法類似，只不過標準不同：目標是直接模擬VGG網(wǎng)絡深層過濾層的數(shù)值。步驟可以概括如下：

讓藝術(shù)家畫作經(jīng)過VGG神經(jīng)網(wǎng)絡，計算并保存格拉姆矩陣 G。然后再讓用戶的照片通過VGG神經(jīng)網(wǎng)絡，保存特征圖F。生成一張白噪音圖片，通過誤差反向傳播算法，不斷升級這張圖片直到它的特征圖接近F，格拉姆矩陣接近G。

通過很難找到一張完美匹配G和F的圖片，所以就需要做出一定程度的妥協(xié)。是更接近G還是更接近F？如果生成的圖片更側(cè)重于格拉姆矩陣接近G，那么它就更接近藝術(shù)品的風格。如果生成的圖片更側(cè)重于特征圖接近F，那么它就保留更多照片的內(nèi)容。下面的幾張圖片演示了這種妥協(xié)，從左至右，藝術(shù)風格越來越淡化，圖片內(nèi)容越來越凸顯。

Prisma雖曇花一現(xiàn)，但人工智能平民化時代才剛剛開始

為什么Prisma注定曇花一現(xiàn)？

Prisma的濾鏡更像臉萌而不是Instagram、Faceu，是娛樂型產(chǎn)品而不是工具型產(chǎn)品，更不用說進階為社交應用了。實際上，很多新奇酷產(chǎn)品都把握不好娛樂產(chǎn)品和工具型產(chǎn)品的界限——是可以日常使用還是偶爾玩耍？使用場景是什么？Faceu之所以沒有曇花一現(xiàn)，是因為它可以用于自拍、美顏、自帶表情聊天，那么Prisma則只是為了追求新鮮炫酷。Faceu是錦上添花，Prisma則是改頭換面。

而對于圖片工具的主要應用場景——社交網(wǎng)絡而言，被發(fā)在那里的照片主要是為了凸顯內(nèi)容而不是彰顯風格，追求真實性大于效果炫酷，過度使用濾鏡、使用過度“失真”的濾鏡乃是一大忌諱。

更為重要的是，美顏是國內(nèi)用戶“修圖”的首要驅(qū)動力，一切不能美顏的修圖工具都是“耍流氓”，而Prisam過度“風格化”的濾鏡在人像尤其是面部處理方面很難令人滿意。美顏需要的是對面部細微之處的修修補補，輕抹慢涂，而不是狂放藝術(shù)家的筆刷橫掃，顏料潑灑。

一方面要用藝術(shù)家的風格讓人耳目一新、為之驚嘆，一方面又要保留每一張照片的內(nèi)容，這就意味著Prisma只能選取印象派之后、現(xiàn)代主義之前的藝術(shù)流派，正如一位學藝術(shù)的朋友所言：“它的智能尚不能學著像畢加索那樣去解構(gòu)人體，更不消說康定斯基完全不依實物作畫?！倍液蠊诺渲髁x時代的審美（擺脫對于“像不像”的糾纏，同時注重內(nèi)容與表現(xiàn)形式）目前在大眾中尚未被普遍接受，Prisma的“日?；鄙胁痪邆淙罕娀A。

人工智能正在讓智能手機更“智能”

機器學習在互聯(lián)網(wǎng)應用中已經(jīng)無處不在：Facebook利用它來決定哪條新聞出現(xiàn)在你的時間線上，Google圖片用它來做面部識別。微軟的Skype Translator利用機器學習把演講實時轉(zhuǎn)換成不同的語言。Google還利用DeepMind 為它晝夜運行的數(shù)據(jù)中心節(jié)能降耗。而基于深度神經(jīng)網(wǎng)絡的人臉識別技術(shù)已經(jīng)廣泛應用于線下的身份認證。

然而，這些面向企業(yè)用戶、運行于后臺的的人工智能技術(shù)還沒有“把玩”在普通用戶手中，響應他們的每一次需求，使智能手機真正變得智能起來。

Prisma的風行，標志智能手機的硬件時代已經(jīng)過去，人工智能時代已經(jīng)到來。Prisma使用的卷積神經(jīng)網(wǎng)絡技術(shù)，正是現(xiàn)在人工智能的前沿。以后各種頂尖的人工智能技術(shù)將繼續(xù)平民化，實現(xiàn)在各種移動硬件上。實際上，除了Prisma這樣的娛樂化應用，人工智能也正在被用于解決智能手機用戶的真正“痛點”。

如果你是個拍照達人，不知不覺中相冊中已經(jīng)泛濫成災了上千張照片，讓你有心去整理而又不知從何下手?，F(xiàn)在，Apple Photos、Flickr、 Google Photos等都開始利用圖像識別技術(shù)幫助你自動整理、歸類圖片。

Prisma雖曇花一現(xiàn)，但人工智能平民化時代才剛剛開始

應用了人工神經(jīng)網(wǎng)絡之后，Swiftkey的預測準確性有了明顯提升

而今年，人工智能技術(shù)也第一次應用在輸入法上，7月份，全球擁有3億用戶的Swiftkey發(fā)布了一款利用人工神經(jīng)網(wǎng)絡預測用戶輸入內(nèi)容的輸入法SwiftKey Neural Alpha，相比于過去只能根據(jù)最新鍵入的兩個詞進行“局部預測”，SwiftKey Neural Alpha通過對每個單詞編碼，然后尋找句子中不同詞語之間的相關性，基于云端數(shù)百萬的語料庫，從而實現(xiàn)基于句子的“全局預測”。這是神經(jīng)網(wǎng)絡技術(shù)首次應用在輸入法上，SwiftKey的聯(lián)合創(chuàng)始兼CTO Ben Medlock稱，他們的一些想法是受到了英國著名科學家圖靈的啟發(fā)。

人工智能概念股：埃斯頓、科大智能、漢王科技、江南化工、華東數(shù)控、和而泰、中科曙光、永創(chuàng)智能、北京君正、通富微電、永創(chuàng)智能、勁拓股份。