文/張崢 編輯/甄知
“藝術創(chuàng)造是人獨有的,人工智能不會”,不止一次聽過這種介乎安慰和宣言之間的說法。從這里出發(fā),引申出的一個推論是,等機器人把臟活累活包了,人類可以安心地享受藝術創(chuàng)造了。
天底下有兩種職業(yè)貴在原創(chuàng):科學研究和藝術創(chuàng)作。這兩方面的素養(yǎng)很重要,但它們作為職業(yè),從古至今,都是小眾活動。在人機共存的未來,和機器人搶活兒干倒更有可能,也應該搶,必然會搶——藝術創(chuàng)作領域很可能類似。
人工智能能不能從事藝術創(chuàng)作?一開始的幾年,業(yè)界端出來的“作品”是不忍看的。其中一類,讓模型把看過的樣本“吐”出來,計算過程中有意無意地隨機采樣生產出一堆猶如惡夢中的怪物的作品。比如訓練樣本中狗的圖片多,就變成這樣。(見右上圖)
這和二十世紀初的達達主義很相似,當年所謂的“自動寫作”就可以視為隨機采樣的過程,產生的文字效果是一樣的。達達主義的貢獻在于矯枉必須過正,所以很快讓位于超現實主義,曇花一現。
▲ 來源:https://thenewstack.io/deeplearning-neural-networks-google-deep-dream/
還有一種是照葫蘆畫瓢,更容易讓人接受——只是“手抖”得有技巧,學了梵高的抖法就都成了向日葵、星空,學了蒙克就處處驚叫。
這些都和藝術創(chuàng)作的精髓相去甚遠。攝影如要精進,除了勤按快門外,要花同樣多的時間看好照片,花更多的時間去挑照片。把好的藝術品喂給模型不是難事,難的是怎么“挑”。藝術創(chuàng)作不是胡亂踩點,要緊的是如何判斷,有一度我覺得這一點是死穴:AlphaGo可以判定局勢的好壞,但應該不懂如何評判藝術吧?
▲ 來源:https://arxiv.org/abs/1508.06576
不過,這幾年人工智能學界的一個現象就是,不要把話說得太死了。
最近,很火的一個深度學習分支叫“生成對抗網絡”:把隨機數推送給一個生成網絡,合成偽數據(圖片或聲音),然后再把這些偽數據送進判別網絡,判別網絡比較真?zhèn)螖祿?,再產生讓生成網絡努力“造假”的壓力。
這個框架的最終目的,是以少量樣本充盈分布空間。兩個網絡共生共長、陰陽互補。這雖然和AlphaGo用強化學習左右手互博是兩種不同的訓練方式,但在精神上都相當辯證。
最近,我注意到一項工作(CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms),讓一個模型學習從十五世紀到二十世紀超過七萬幅的美術作品,從巴洛克開始涵蓋二十五種風格。這個模型的創(chuàng)新點在于判決網絡有意為之的“四不像標準”,要求生成的圖片既要像某種風格,又不能太像。
有人會說,那不過是已有風格的混雜而已,但熟悉藝術史的應該知道,混雜和遷移本身就是風格突破的重要源泉之一。令人驚訝的是,至少在網上“公投”的結果來看,已經是雌雄難辨。
我個人不是很關心這個問題。烏鎮(zhèn)圍棋大戰(zhàn)之后我的總結是,圍棋永遠是人類腦力健身房中的寶貝,只是棋手的健身房中多了一個AlphaGo。藝術的“下場”也一樣。該下棋下棋,該畫畫就畫畫。只是不要再說機器不會藝術創(chuàng)造了。
藝術的美學標準,藝術家的“手抖”規(guī)律,AI作為神偷,已經化作自己的創(chuàng)造力。我認為(也十分期待)的下一個引爆點,是對藝術聯(lián)覺的運用。簡單地說,聯(lián)覺是缺乏某類感官刺激,但被他類刺激引發(fā)的感知經驗,就像納博科夫在字母中“看”到、李斯特在音符中“聽”到的顏色。
再比如詩歌,其充滿張力的想象裹挾了視、聽、樂感,是詩人對聯(lián)覺的有意無意的挖掘,也是讀詩的快感之一。不具備聯(lián)覺功能的AI詩歌創(chuàng)作,在技巧上經不起推敲。我讀過微軟小冰的“詩作”,如果認為其想象力的背后有聯(lián)覺的作用,也是我們讀者自己在腦補。至于一些詩人的批評,因為對人工智能缺乏了解,也都沒說到點上。
聯(lián)覺的技術基礎在于符合大腦計算機制的多模態(tài)信號處理。上文已經說過,大腦能夠處理海量數據但又不需要強標注,之所以能這樣,除了大腦的預測功能之外,還有賴于多模態(tài)信號之間的自洽和互相監(jiān)督。而人工智能在這個領域的工作,還非常粗糙。我的看法是,這里的瓶頸在于單信號的處理還沒做對。
即便完成了聯(lián)覺,人工智能離真正的創(chuàng)作還差得遠。AlphaGo能給自己的故事拍一部紀錄片嗎?能發(fā)明一個游戲嗎?要做到這些,不把人工智能推到“神似”人腦的高度是不可能完成的。
討論了這么多,大眾普遍關心的一個事關未來的問題是下一步人工智能會如何發(fā)展?從2012年到現在,短短幾年,人工智能的研究發(fā)展之快令人吃驚。如果有一個準確的預測,那就是測不準。不過,嚴肅的從業(yè)者都知道路途有多遠。
在幾年前的一個學術討論中,我問幾個專家,解決下面這個問題需要多久:樹上五只鳥,開槍打了一只,還剩幾只?
這個問題的設定本身是模糊的,從一只沒有到五只都是可能的答案,不管答案是什么,無一例外我們都能說出為什么。換句話說,信息和信息的處理過程是透明的,可傳遞,可解釋。解決和回答的過程包括轉換、推理、同理心、常識的運用、語言的組織等。一位專家的三歲女兒的回答是還剩下三只鳥。專家問為什么?她回答說:“因為被打死的那只鳥的朋友也走了?!辈坏貌徽f,這是我聽過的最具人性的回答。相比來說,如今的聊天機器人會說:你當我傻子???機器人的這種賣萌很可愛,但完全不是真正的智能。
類腦計算到底是什么,該怎么做,既令人興奮,又讓人困惑。把大腦想得太復雜,把電腦想得太簡單,可能是尋不到主動脈、找不到銜接橋梁的原因。把“神似”的層次提高、做深,和腦科學進行比照,螺旋性地上升,將為今后人工智能的遠航提供燃料。比如單模態(tài)信號處理中有機整合自上而下的預測和自底向上的顯著性,多模態(tài)信號處理中的協(xié)同學習機制,結構化信息在生成網絡中的挖掘,帶模型預測(model-based)、層次化(hierarchical)的強化學習等,這其中的任何突破都讓人期待。
最后,我想談幾句相關的“題外話”,也是有關技術之外的另一種“勘誤”:中國人工智能研究已經走在世界前沿。
我相信,若單把人工智能作為服務落地,中國有可能成為世界第一,但若論人工智能的研究,目前國內的狀況不容樂觀。
從學界的統(tǒng)計數字來看,發(fā)自中國的論文總量居世界第二位,和GDP同步。但另有一個關于影響因子的統(tǒng)計,在34位。把這兩個數字放在一起看,顯然落差非常大。這兩個數字很籠統(tǒng),計算標準也沒有定論,但是中國學術界總體缺乏原創(chuàng)性,而且缺口相當大,應該沒有疑問。2017年的頂級AI會議NIPS(Neural Information Processing Systems,神經信息處理系統(tǒng)進展大會),錄用論文六百多篇,中國各高校加起來入選二十多篇,而一個小小的紐約大學就有十篇。
另有報道,在2017年的國際計算機視覺與模式識別領域的頂級會議CVPR(Computer Vision and Pattern Recognition)中,華人學者占了近半。這個統(tǒng)計數字可喜,但也不是沒有問題。大概十年前,我還在系統(tǒng)研究領域工作,在和麻省理工學院的一位教授共同創(chuàng)辦亞太地區(qū)系統(tǒng)研討會的時候,對該領域頂級會議做了一個類似的統(tǒng)計,但添加了另外一個指標:除了參與的文章外,統(tǒng)計了華人學者作為指導老師的文章數,結果兩者比例十分懸殊,而且連年如此。換句話說,當年攻城拔寨的華人學生,畢業(yè)后很少成長為有視野、有創(chuàng)造力、有野心的指揮官。就像一把好槍,一出了廠就丟了瞄準鏡。
中國學術界原創(chuàng)乏力,原因在哪?我認為原創(chuàng)之殤,在于“原”字缺了三點水。資本驅動之下加上過度注重實用;短期、“有用”的研究蔚然成風;日積月累之后,對“源”頭發(fā)問的習慣在工作中缺席。
在研究剛起步的時候,吃透別人的方法,想辦法改進,這時候問的是“毛病在哪,怎么能更好?”這種提問,是在問題鏈的末端。往上回溯,可以問“這是正確的、有意義的衡量手段嗎?”或者“這問題的假設對不對?”。更進一步可以問,“這一類方法的共性是什么?缺點在哪?”“這是個真問題嗎?這問題背后的問題是什么?”等等。
這一步步的追問離源頭越來越近,離當前的“潮流”也越來越遠,也就越來越可能在性能上輸給流行的、打磨了太久太多的模型,但也越有可能做出原創(chuàng)的工作。
有一次,一個年輕的創(chuàng)業(yè)者和我聊天,談起他們最近在做一個把深度網絡稀疏化、降低功耗和減少內存消耗的工作。這工作顯然對優(yōu)化現在的模型很有意義,但我問他知不知道人在解讀一張圖片的時候由注意力驅動,看幾眼就夠了,而每眼只消耗幾個字節(jié)的帶寬?有沒有意識到,這是我們睜眼就有的視覺行為。
相比之下,現在流行的深度學習框架從一張圖上并行檢測幾千個小窗口,完全違背人腦視覺系統(tǒng)的計算過程。如果真要降低功耗,是不是應該想想這個框架是不是對?所謂機器已經在識圖問題上超過人類,只是在特定的幾個子領域,這不是學界常識嗎?
流行的框架不但浪費資源,還會丟失信息。下面是斯坦福大學李飛飛教授開的網課“卷積神經網絡和計算機視覺”第一講里的一張圖。這張圖在說什么?
喂給AI大批這樣的圖片,加上“戶外運動”這樣的標簽后,模型甚至可以吐出“草地上四個人在玩飛盤”這樣靠譜的回答。人腦解讀這樣的圖片,是個串行的時序過程,比如從姿態(tài)、眼神,追蹤到左邊第一人手上的飛盤。一個依賴并行探測的模型,很難或者不可能恢復其中豐富的信息。能恢復時序、恢復時序中隱蔽的語義的模型,更類似腦,更難實現,但顯然更有泛化能力,也更省能耗。
人工智能必須向大腦學習,并不是說要在細枝末節(jié)上進行高仿真的拷貝。一味追求“形似”,反過來會阻礙人工智能的發(fā)展。應該認真思考的,是如何做到“神似”,得其精髓而不拘泥枝節(jié)。顯然,這里要問的,還是“源”在哪。唯有如此,才能在飛鳥的背后,捕捉到飛行。
學術要做最先,落地要做最好;原創(chuàng)的責任歸學術界,落地的責任歸產業(yè)界,前者從0到1,后者從1到無窮大。反之,如果學術界追求體量而不是原創(chuàng)和影響力,那將是對資源的巨大浪費。
事實上,對原創(chuàng)的重視分布在整個生態(tài)環(huán)境。谷歌、臉譜等一線大公司在實驗室里圈養(yǎng)大批優(yōu)秀人工智能專家,其開源和長線的基礎研究,質和量都不輸,甚至超過學校實驗室。除了推進科學,這樣的布局也有商業(yè)上的考慮。舉例說,卷積和長短程循環(huán)這兩個基礎部件,如果不是因為它們的專利已經過期,那么今天幾乎所有的深度網絡模型都要交專利費??梢韵胂螅w量如此大的中國市場,要交的份額只會最多。
向“源”而問,才有原創(chuàng),才能培育真正的科學精神,才能避免未來的巨額“原創(chuàng)稅”。