任紅雨
對于圍棋人機大戰(zhàn),很多人折服于AlphaGo的精準、聰明和大局意識。AlphaGo的技術架構采用的是模仿人類大腦神經(jīng)的模式,通過深度學習把人工神經(jīng)網(wǎng)絡的層級大大增加,提升了計算能力。AlphaGo的勝利,讓如今已經(jīng)很火的深度學習益發(fā)成為人工智能領域的焦點。
對于圍棋人機大戰(zhàn),很多人折服于AlphaGo的精準、聰明和大局意識。人們問AlphaGo為什么如此厲害,工程師給出的答案是它有“兩個大腦”:一個輸入了3000萬盤人類頂級棋手對弈數(shù)據(jù),通過“自我對戰(zhàn)”來進行增強學習,改善此前的決策網(wǎng)絡;另一個通過價值網(wǎng)絡來進行整體局面判斷,決策網(wǎng)絡與價值網(wǎng)絡協(xié)作決定落子位置。
AlphaGo的技術架構采用的是模仿人類大腦神經(jīng)的模式,通過深度學習把人工神經(jīng)網(wǎng)絡的層級大大增加,提升了計算能力。AlphaGo的勝利,讓如今已經(jīng)很火的深度學習益發(fā)成為人工智能領域的焦點。
人工神經(jīng)網(wǎng)絡起伏
2011年,谷歌X實驗室的研究人員從YouTube視頻中抽取了1000萬張靜態(tài)圖片,把它“喂”給谷歌大腦,在這些圖片中尋找重復出現(xiàn)的模式。谷歌大腦就是一個采用了深度學習技術的大型神經(jīng)網(wǎng)絡模型,由1000臺電腦組成。三天后,谷歌大腦在沒有人類幫助的情況下,從這些圖片中發(fā)現(xiàn)了“貓”。這在人工智能界引起了很大轟動,被認為是深度學習復興的里程碑。
簡單地說,人工神經(jīng)網(wǎng)絡是一種從信息處理角度對人腦神經(jīng)元網(wǎng)絡進行抽象,按不同的連接方式組成不同網(wǎng)絡的算法數(shù)學模型。它由一層一層的神經(jīng)元構成,層數(shù)越多就越深。而所謂深度學習就是用多層神經(jīng)元構成的神經(jīng)網(wǎng)絡,以達到機器學習的功能。這些多層的電腦網(wǎng)絡像人類大腦一樣,可以收集信息,并基于收集到的信息產(chǎn)生相應的行為,也就是“認識”事物,并做出行動。
人工智能的發(fā)展和人們對大腦的認知水平相輔相成。1943年,神經(jīng)生理學家沃倫·麥卡洛克(Warren McCulloch)與精通數(shù)學的學生沃爾特·皮茨(Walter Pitts)合作,一起提出了神經(jīng)元網(wǎng)絡模型,沿著圖靈關于通用計算機的論述,他們認為人類神經(jīng)元具有計算機1和0那樣的邏輯功能,指出了神經(jīng)元的數(shù)學描述和網(wǎng)絡結構。數(shù)學概念的介入,為人類理解并創(chuàng)造智能提供了途徑,開啟了人工神經(jīng)網(wǎng)絡時代。
在上世紀四五十年代,計算機還是一個新鮮產(chǎn)物,第一代人工智能研究者急切地幻想成熟的人工智能技術近在眼前。但當研究者發(fā)現(xiàn)實際的知識里蘊含著巨大復雜度時,他們漸漸不再樂觀,尤其是遇到一個感知問題,比如說人臉與面具或猴子臉的區(qū)別到底在哪里。許多研究者與學者花了幾十年時間對計算機識別物體所必備的不同特征的規(guī)則進行手動編程。但是找出特征是件難事,耗費很多時間,并且需要專業(yè)知識,急需研究者找到更好的解決方法。
當時有位叫馬文·明斯基(Marvin Minsky)的科學家,在1951年建造了第一臺神經(jīng)網(wǎng)絡機SNARC,后來被譽“人工智能之父”。
1957年,康奈爾大學的實驗心理學家弗蘭克·羅森布拉特(Frank Rosenblatt)在一臺IBM-704計算機上模擬實現(xiàn)了一種他發(fā)明的叫“感知器”的神經(jīng)網(wǎng)絡模型,依據(jù)的原理是當時人們理解的學習機制:當一個神經(jīng)元反復激活另一個神經(jīng)元,細胞就提高了它們的連接效率。
感知器占據(jù)了整個實驗室,它包括三層結構,運作機制并不復雜。感知器的一端,400個光傳感器模擬視網(wǎng)膜;傳感器多次連接一組512個電子觸發(fā)器,當它通過一個特定的可調節(jié)的興奮閾值時就會像神經(jīng)元一樣激發(fā)。這些觸發(fā)器連接到最后一層,當一個物體與感知器受訓見過的對象相互匹配時,它就會發(fā)出信號。這個模型可以完成一些簡單的視覺處理任務。
1958年夏,羅森布拉特和他的贊助方美國海軍舉行新聞發(fā)布會?!都~約時報》報道說:“海軍透露了一種電子計算機的雛形,它將能夠走路、說話、看、寫、自我復制并感知到自己的存在……據(jù)預測,不久以后,感知器將能夠識別出人并叫出他們的名字,立即把演講內容翻譯成另一種語言并寫下來?!?/p>
明斯基于1969年出版了《感知器》一書,暗示感知器具有重大局限,不能解決人工智能的問題。這本書的殺傷力是巨大的,隨即神經(jīng)網(wǎng)絡研究便因為聯(lián)結主義的式微被打入冷宮,所有原來的政府資助機構也逐漸停止對神經(jīng)網(wǎng)絡的研究。1971年,羅森布拉特43歲生日那天因游船事故去世,有傳言他是自殺。后來神經(jīng)網(wǎng)絡得勢后,當時受壓迫的科學家認為明斯基不可原諒,紛紛對其口誅筆伐。美國電氣電子工程師協(xié)會(IEEE)于2004年設立了羅森布拉特獎,以獎勵在神經(jīng)網(wǎng)絡領域的杰出研究。
上世紀80年代初,加州理工生物物理教授霍普菲爾德(Hopfield)提出了一種新的神經(jīng)網(wǎng)絡,可以解決一大類模式識別問題,還可以給出一類組合優(yōu)化問題的近似解。一幫早期神經(jīng)網(wǎng)絡研究的幸存者,在DNA雙螺旋結構發(fā)現(xiàn)者弗朗西斯·克里克(Francis Crick)和認知科學家唐·諾曼(Don Norman)的鼓勵下,以加州大學圣地亞哥分校為基地開始了“聯(lián)結主義”運動,領導者是兩位心理學家外加一位計算機科學家杰夫·辛頓(Geoffrey Hinton)。
在學術上,人工智能有三種學派:符號主義、聯(lián)結主義和行為主義。符號主義認為人工智能源于數(shù)理邏輯,行為主義認為人工智能源于控制論,而聯(lián)結主義認為人工智能源于仿生學,特別是對人腦模型的研究,人工神經(jīng)網(wǎng)絡是這一理論的殺手锏。人類大腦的思維分為抽象(邏輯)思維、形象(直觀)思維和靈感(頓悟)思維三種方式。20世紀80年代,在符號主義學派影響下,許多人工智能的專家系統(tǒng)被制造出來。它們的抽象思維異常強大,在解決邏輯性強的專業(yè)問題上,速度比人類快很多,比如醫(yī)療診斷、礦產(chǎn)勘探等問題。但是這類人工智能欠缺人類最基本的感知能力,連貓和狗都區(qū)別不開,人工神經(jīng)網(wǎng)絡有機會展示出它解決機器形象思維的能力。
起初,辛頓等人的研究并不順利,但是他們相信,計算能力的增強以及數(shù)字數(shù)據(jù)爆炸將會再次推動人工神經(jīng)網(wǎng)絡的發(fā)展,自己的算法將給世界帶來驚奇。
2006年,辛頓在《科學》雜志上發(fā)表了有關深度學習的論文,重新審視深度學習方法,將深度學習的性能提升到了一個新的臺階。
2009年,辛頓小組獲得了意外成功,他們的深度學習神經(jīng)網(wǎng)絡在語音識別應用中取得了重大突破,轉換精度突破世界紀錄,錯誤率比以前少了25%。有評論說,辛頓小組的研究讓語音識別領域縮短了至少10年的時間。他們的突破吸引了各大公司的注意,蘋果公司把研究成果應用到了Siri語音識別系統(tǒng)上。從此,深度學習的流行便一發(fā)不可收。
2010年,美國國防部DARPA計劃首次資助深度學習項目,參與方有斯坦福大學、紐約大學和NEC美國研究院。2012年,深度學習技術在圖像識別領域取得驚人的成果,在ImageNet評測上將錯誤率從26%降低到15%。同年,制藥公司將深度神經(jīng)網(wǎng)絡應用于藥物活性預測問題取得世界范圍內最好結果。2013年4月,麻省理工學院《技術評論》雜志將深度學習列為2013年十大突破性技術之首。
研究人員認為,深度學習是個很好的解決方案。它能從抓取的數(shù)據(jù)中生成自己的規(guī)則,提供一種采用受大腦啟發(fā)機制的對稱性來完成類大腦功能。這種策略需要模擬神經(jīng)元并將之組織成多個層次。拿人臉識別來說,當系統(tǒng)面對一張圖片時,學習系統(tǒng)的第一層僅能簡單區(qū)分其中的明暗像素點。下一層就能意識到某些像素點構成了邊界,再往下一層就能區(qū)別水平和垂直線條。最后一層能識別出眼睛,并且認識到人臉中通常有的兩只眼睛。
如今,神經(jīng)網(wǎng)絡研究如日中天。由于擅長處理語音、視覺以及其他復雜人機交互,神經(jīng)網(wǎng)絡已經(jīng)被谷歌、Facebook、微軟、百度等技術先驅欣然采納。在這些公司里,神經(jīng)網(wǎng)絡已經(jīng)證明了一種有效的可以吸收大量數(shù)據(jù)并從中進行有價值預測的處理方式,比如怎樣讓你的數(shù)據(jù)中心更高效節(jié)能、此用戶之后有買車的意愿嗎?科技公司對每一位擅長神經(jīng)網(wǎng)絡的程序員展開了激烈角逐,重金聘用人才,不惜到研究機構去挖角。后來,辛頓和兩個學生開創(chuàng)了一家專注深度學習的公司DNNresearch。沒多久,谷歌和微軟就對這家公司動了收購的念頭,后來百度也加入競標,最終2013年谷歌出了幾千萬美元收購了這家只有3名員工的公司。此次收購不如說是收編更準確,谷歌把包括辛頓在內的3位人才收歸麾下。
有人問,人工神經(jīng)網(wǎng)絡起起伏伏,為何會復興于這個時代?神經(jīng)網(wǎng)絡需要學習大量實例,就像小孩收集現(xiàn)實世界的信息一樣。上世紀80年代到90年代,由于沒有太多的數(shù)字信息可用,計算機要花費很長的時間去確定有些什么信息。因此,這一時期的技術應用非常少,其中一個是由深度學習的大佬之一燕樂存(Yann LeCun)開發(fā)的技術,現(xiàn)在被銀行用于手寫支票識別。
當我們將超大規(guī)模的訓練數(shù)據(jù)喂給深度學習模型的時候,這些具備深層次結構的神經(jīng)網(wǎng)絡就搖身一變,成為擁有感知和學習能力的大腦,表現(xiàn)出了遠遠好于傳統(tǒng)神經(jīng)網(wǎng)絡的學習能力。
業(yè)內人士描述深度學習和大數(shù)據(jù)的關系,就像火箭和燃料一樣:火箭雖然厲害,但是沒有大數(shù)據(jù)這個燃料也只是一堆廢鐵。而且這個模型對原始數(shù)據(jù)來者不拒,無論屬于圖像識別、語言識別、NLP、生物醫(yī)藥等哪個領域,都可以“喂”給神經(jīng)網(wǎng)絡學習處理。而且,喂給它的數(shù)據(jù)越多,它就變得能力越強、越聰明,并且只會吃不飽,不會消化不良。這和大腦的工作原理很相似,大腦用同一套算法解決視覺、聽覺、嗅覺等感知問題。因為大數(shù)據(jù)的必不可少,我們也看到深度學習做得最好的地方是我們熟知的那些擁有大量數(shù)據(jù)的IT巨頭。
如今,深度學習似乎無孔不入:深度學習識別出患有自閉癥風險的基因;深度學習為圖片和視頻自動添加標題;深度學習識別大型強子對撞機中的粒子;使用深度學習來制造無人駕駛汽車和機器人。
即便如此,深度學習也不是萬能的。人工智能包括三個方面。第一是感知,就是知道周圍環(huán)境是什么,知道和對方交互的時候對方在說什么,要表達什么意思,感知不是感覺但包含感覺。第二是認知,在感知的基礎上去理解。比如機器已經(jīng)能識別人類的語言,但它能不能聽懂意思、理解人類的話?第三是決策,依據(jù)理解做出行動。
目前,感知和決策智能已取得巨大進步,甚至在某些方面已經(jīng)超越人類,但是在認知方面還有很大的差距,機器依然聽不懂人的意思。機器學習不是萬能的模型,將來還會出現(xiàn)更好的解決方式。
模擬人腦
既然深度學習模型成功的秘訣之一就在于它模仿了人類大腦的深層體系結構,那么我們?yōu)槭裁床恢苯幽M人類的大腦呢?事實上,科學家們已經(jīng)行動起來了。
例如,德國海德堡大學的FACETS計劃就是一個利用硬件來模擬大腦部分功能的項目。他們采用數(shù)以千計的芯片,創(chuàng)造出一個包含10億神經(jīng)元和1013突觸的回路的人工腦,復雜程度相當于人類大腦的十分之一。與此對應,由瑞士洛桑理工學院和IBM公司聯(lián)合發(fā)起的“藍腦計劃”則是通過軟件來模擬人腦的實踐。他們計劃2020年左右制造出科學史上第一臺會“思考”的機器,將可能擁有感覺、痛苦、愿望甚至恐懼感。
然而,這類研究計劃也有很大的局限性。其中最大的問題就在于,迄今為止,我們對大腦的結構以及動力學的認識還相當初級,尤其是神經(jīng)元活動與生物體行為之間的關系還遠遠沒有建立。盡管科學家早在30年前就已經(jīng)弄清楚了秀麗隱桿線蟲302個神經(jīng)元之間的連接方式,但到現(xiàn)在仍然不清楚這種低等生物的生存方式,比如進食和交配是如何產(chǎn)生的。盡管科學家已經(jīng)做過諸多嘗試,但是還不足以解釋不斷變化的電信號是如何產(chǎn)生特定認知過程的。
于是,為了進一步深入了解大腦的運行機制,一些大科學項目先后啟動。2013年1月,奧巴馬政府宣布“腦計劃”啟動,該計劃在2014年的啟動資金為1億多美元,致力于開發(fā)能記錄大群神經(jīng)元甚至是整片腦區(qū)電活動的新技術。
同年4月,歐盟也發(fā)起了“人類大腦計劃”,這一計劃為期10年,耗資16億美元,致力于構建能真正模擬人腦的超級計算機。2014年10月,日本發(fā)起了本國的大腦研究計劃,主要是通過對狨猴大腦的研究來加快對人類大腦疾病,如老年性癡呆和精神分裂癥的研究。
中國不甘落后,“十三五”規(guī)劃綱要草案已經(jīng)把腦科學和類腦研究列入國家重大科技項目,主要有兩個研究方向:以探索大腦秘密、攻克大腦疾病為導向的腦科學研究,以及以建立和發(fā)展人工智能技術為導向的類腦研究。
這似乎讓人們想到了第二次世界大戰(zhàn)后的情景,各國爭相發(fā)展大科學項目:核武器、太空探索、計算機等等。腦科學的時代已經(jīng)來臨,人工智能能否借助腦科學的發(fā)展,獲得下一步的飛躍?