卿勝藍
今年7月,圖片社交軟件Prisma迅速走紅,它可以把普通照片轉化成畢加索、莫奈等名家的畫作風格,比如讓一張吃了一半的漢堡照片演化為抽象主義畫作,或者將一個擁擠的候車站的影像變成一幅印象派油畫。
最近,很多人又發(fā)現了一個Prisma的“升級版”。在一個名為Ostagram的網站上,上傳一張目標圖片,再在其數據庫中選擇一幅“風格圖片”—它們大多是一些名畫、漫畫,這款軟件就會為你自動將目標圖片“畫”成與風格圖片畫風相同的新圖片,而圖片上部的分享和點贊標識,讓這個平臺具備了簡單的社交功能。
Prisma和Ostagram都來自俄羅斯,兩款軟件使用的也都是人工智能技術中的深度機器學習模型“卷積神經網絡”(CNN)。
“這個技術在圖像識別、人臉識別、物體識別和等領域中都有應用?!敝袊斯ぶ悄軐W會模式識別專委會秘書長孫哲南對《第一財經周刊》說。卷積神經網絡的核心是用一個有很多層數、很多參數的神經網絡去模擬樣本特征建模的過程,通過大量的樣本學習,對樣本特征形成復雜的映射關系。在Prisma和Ostagram中,各種名畫和其畫風就形成了映射。
人們更熟悉的圖片社交軟件,是Instagram或者美圖秀秀上的各種圖像濾鏡,它們是通過對像素點的逐個計算和蒙版覆蓋實現圖片美化的。去年,Google公布了圖像處理程序DeepDream,它使用的是一種名為Inception的卷積神經網絡,這個詞來源于電影《盜夢空間》的英文原名。通過DeepDream制作的圖片也和電影《盜夢空間》一樣玄幻,這樣的藝術風格被命名為“Inceptionism”。
Google隨后對其代碼開源,促使這一領域的研究進一步發(fā)展。與此同時,德國的科學家也在嘗試將藝術作品與類似的技術結合,并發(fā)表了相關論文。終于,今年夏天,Prisma在全球范圍的走紅,讓所有人都開始認識到了用卷積神經網絡處理圖片的神奇效果。
不僅是圖片,人工智能技術也應用在視頻領域。比如Snapchat就推出了在視頻中使用的動態(tài)濾鏡,它結合了增強現實(AR)和人工智能中的人臉識別技術。今年10月初,Prisma同樣推出了視頻功能,可以制作不同畫風的短視頻,但這對技術提出一個更大的考驗。
視頻是由一幀幀的圖片構成的,處理1秒的視頻相當于處理24張圖片。目前,Prisma的視頻功能只支持iOS 10以上的版本,暫不支持安卓操作系統。制作一支15秒左右的視頻,大概需要一分鐘。譚峰認為,這樣的計算能力,尚不能支持卷積神經網絡技術在視頻中的普及。
由于基礎技術比較完善,圖像領域目前算是人工智能技術應用得相對成熟的一個領域?!耙话闱闆r下,一個良好運作的神經網絡,至少需要上百萬張圖片,才能把神經網絡訓練出來。大家比的是能不能收集到更好的數據,設計出更好的用戶體驗?!蔽④泚喼藁ヂ摼W工程院開發(fā)總監(jiān)周力對《第一財經周刊》說。
雖然同樣使用深度機器學習技術,但作為一款App,使用Prisma“修圖”,正常情況下只需要幾秒。Prisma對算法做了優(yōu)化,讓機器學習更簡單的畫風,以此來提升速度,但犧牲的則是圖片的質量。
只有網頁版的Ostagram,目前合成圖像也需要很長的時間。但它對畫面觸筆的粗細(style scale)和重力(style weight)分別有12個和10個調節(jié)梯度,用戶可以選擇付費調節(jié)圖片分辨率和迭代次數,從而獲得質量更高的圖片。
不論Prisma還是Ostagram,或是Google的DeepDream,基本都需要通過互聯網在線生成圖片?!霸赑risma中,雖然有的畫風是不需要網絡的,但復雜度較高的畫風仍需要將圖片上傳至服務器處理后再下發(fā)給用戶。”供職于技術公司的互聯網工程師譚峰對《第一財經周刊》說。Prisma曾遇到過服務器癱瘓的窘境,許多Ostagram的用戶也抱怨,免費在網站上生成一張圖片需要排隊等待長達一兩天。
除了用戶體驗的問題,圖片社交軟件即便使用了一些有趣的新技術,也常常逃不出“紅不過3個月”的命運。今年里約奧運會前很多人都在玩的Prisma,現在就已在朋友圈中基本消失。類似的還有去年5月成為朋友圈“爆款”,卻很快又銷聲匿跡的微軟顏齡軟件HowOld,這款軟件同樣使用的是人工智能技術,通過和樣本特征匹配(對人臉和年齡形成映射關系),它能估算出照片中人物的年齡。
所以,光有炫酷的人工智能技術還不足以保證用戶的黏性。“人工智能不能只‘秀肌肉,顯示‘我很聰明不是人工智能對用戶的價值?!敝芰φf,“目前來講,人工智能在感官、對話上還無法跟人類相比。如果要讓用戶喜歡它,它一定要對用戶產生一些額外的價值,而不僅僅是很酷的玩具?!?/p>
微軟在這方面的探索是智能助手“小冰”,其內部嵌入了多種識圖功能,這些功能不僅僅局限于識別圖片內容,機器還能猜測或評價圖片內部的人物關系、人物衣著(當然還有之前已開發(fā)的顏齡預測)等等。周力認為,因為人類本身都不能為這些內容提供一個標準答案,機器所提供的評價可能會持續(xù)激發(fā)用戶的興趣,讓用戶不斷對產品做出反饋。人工智能產品需要通曉人性,才能提供更好的用戶體驗。
其實,人工智能中的神經網絡技術在圖片上的應用潛力還有很多。比如美國康奈爾和德州大學奧斯汀分校的研究者今年就成功用深度學習的方法,高度還原了帶有馬賽克的圖片。他們讓系統學習了加上馬賽克和不加馬賽克的圖片之間對應的關系,經過大量的樣本訓練,系統看到一張帶有馬賽克或者做過模糊處理的新圖片后,就有可能估計出低分辨率區(qū)域的真實圖像。
一旦這種技術識別的準確率不斷提高,它就可以用到公共安全等領域,當然,相應的,普通人的隱私也可能由此受到越來越大的威脅。
孫哲南認為,人工智能圖像識別技術比較有價值的應用領域是社交網絡的廣告投放,通過用戶上傳的圖片了解用戶的性格和喜好,并據此向用戶推送廣告。
2010年Instagram發(fā)布,新穎的濾鏡功能和圖片社交方式迅速吸引了用戶的注意,借助社交網站上升期的紅利,它迅速成為全球最大的圖片社交平臺。而名字與Instagram只有細微差別的Ostagram或許也懷有這樣的野心。不過目前,因為用戶體驗以及技術發(fā)展的限制,“更智能的Instagram”還未出現。