□文/梁霄
?
AlphaGo打開新世界
□文/梁霄
從3月9日開始的Google人機(jī)大戰(zhàn), AlphaGo對(duì)決韓國圍棋手李世石,一時(shí)間引起了全世界人民的關(guān)注。四勝一負(fù)的AlphaGo好似向人類宣告了一個(gè)新的時(shí)代——人工智能時(shí)代來臨。
早在2016年1月28日,《自然》雜志發(fā)表論文,并以封面故事展示了由谷歌旗下人工智能公司DeepMind研發(fā)的計(jì)算機(jī)圍棋程序“AlphaGo”,這項(xiàng)程序在此前一項(xiàng)競(jìng)賽中以5比0的成績(jī)戰(zhàn)勝了歐洲圍棋冠軍樊麾,2016年3月又以4比1的成績(jī)戰(zhàn)勝了世界圍棋冠軍李世石。這是有史以來第一次,計(jì)算機(jī)程序在不讓子的情況下,在圍棋游戲中擊敗人類專業(yè)高手,而這原本被認(rèn)為是人工智能在10年后才能達(dá)到的成就。
“AlphaGo以無數(shù)的棋譜數(shù)據(jù)為基礎(chǔ)‘深度學(xué)習(xí)’,不斷完善,又通過自我模擬對(duì)局提高實(shí)力。此外,我們有針對(duì)性地進(jìn)行了很多測(cè)試。所以短短幾個(gè)月AlphaGO的棋力就能得到顯著的提高?!盌eepMind公司的CEO兼谷歌副總裁戴密斯·哈薩比斯(Demis Hassabis)在接受采訪時(shí)表示。
20多年來,人工智能在大眾棋類領(lǐng)域同人類的較量一直存在。從上世紀(jì)90年代中期戰(zhàn)勝全世界跳棋頂尖高手的“Chinook”程序,到戰(zhàn)勝國際象棋大師卡斯帕羅夫的“深藍(lán)”,通過一代代的更新發(fā)展,在這類以智力博弈著稱的游戲中,人工智能打敗人類,創(chuàng)下紀(jì)錄。
然而,一直以來,圍棋卻是個(gè)例外。在這次AlphaGo取得突破性勝利之前,計(jì)算機(jī)圍棋程序雖屢次向人類高手發(fā)出挑戰(zhàn),但其博弈水平遠(yuǎn)遠(yuǎn)低于人類。在同職業(yè)高段位頂尖棋手的較量中往往只能在“讓子”的情況下才能打個(gè)平手或是略勝一籌。2013年日本電腦圍棋“Crazy Stone”讓四子打敗了圍棋九段高手石田芳夫,2015年11月韓國專家林宰范研發(fā)的“DolBaram”程序在讓四子的情況下?lián)魯×饲俺涣髌迨众w治勛九段。
出現(xiàn)這種情況的原因就在于圍棋特別復(fù)雜。國際象棋平均一回合有35種可能的下法,圍棋卻高達(dá)250種可能。而且每個(gè)走法之后還有另外250種走法。以此類推。這意味著,即使最大的超級(jí)計(jì)算機(jī)也難以預(yù)測(cè)出每個(gè)可能下法的結(jié)果。因?yàn)閲逭蟹ǖ淖兓嗔恕U绱髅芩埂す_比斯說的,“可能的位置比宇宙原子數(shù)量還要多。為了破解圍棋,你需要一種不光會(huì)計(jì)算的人工智能。它需要多少模仿人類, 甚至是人類直覺。你需要會(huì)學(xué)習(xí)的東西?!?/p>
在此前一次次累積的失敗經(jīng)驗(yàn)過后,谷歌研究者開發(fā)出了這款名為“AlphaGo”的人工智能程序,祭出了終極殺器——“深度學(xué)習(xí)”(Deep Learning)。Deepmind 公司在《自然》雜志發(fā)表的論文中介紹了 AlphaGo 程序的細(xì)節(jié)。AlphaGo 的核心是兩種不同的深度神經(jīng)網(wǎng)絡(luò):“策略網(wǎng)絡(luò)”(policy network)和 “值網(wǎng)絡(luò)”(value network)。它們的任務(wù)在于合作“挑選”出那些比較有前途的棋步,拋棄明顯的差棋,從而將計(jì)算量控制在計(jì)算機(jī)可以完成的范圍里,本質(zhì)上和人類棋手所做的一樣。
其中,“值網(wǎng)絡(luò)”負(fù)責(zé)減少搜索的深度,其作用是在當(dāng)前局面下判斷下一步可以在哪里走子。它有兩種學(xué)習(xí)模式。一個(gè)是簡(jiǎn)單模式,它通過觀察 KGS(一個(gè)圍棋對(duì)弈服務(wù)器)上的對(duì)局?jǐn)?shù)據(jù)來訓(xùn)練。粗略地說,這可以理解為讓大腦學(xué)習(xí)“定式”,也就是在一個(gè)給定的局面下人類一般會(huì)怎么走,這種學(xué)習(xí)不涉及對(duì)優(yōu)劣的判斷。另一個(gè)是自我強(qiáng)化學(xué)習(xí)模式,它通過自己和自己的海量對(duì)局來學(xué)習(xí)評(píng)價(jià)每一步走子的優(yōu)劣。研究者們用許多專業(yè)棋局訓(xùn)練人工智能,其中監(jiān)督學(xué)習(xí)(supervised learning)讓人工智能和自己對(duì)弈,而強(qiáng)化學(xué)習(xí)(reinforcement learning)讓每次對(duì)弈都使AlphaGo 棋力精進(jìn)。
另一個(gè)大腦“策略網(wǎng)絡(luò)”負(fù)責(zé)減少搜索的寬度——面對(duì)眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。將這些信息放入一個(gè)概率函數(shù),人工智能就不用給每一步以同樣的重視程度,而可以重點(diǎn)分析那些有價(jià)值的棋著。
AlphaGo通過這兩個(gè)不同神經(jīng)網(wǎng)絡(luò)“大腦”合作來改進(jìn)下棋。這些大腦多層神經(jīng)網(wǎng)絡(luò)跟那些Google圖片搜索引擎識(shí)別圖片在結(jié)構(gòu)上是相似的。它們從多層啟發(fā)式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網(wǎng)絡(luò)處理圖片一樣。經(jīng)過過濾,13個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)層產(chǎn)生對(duì)它們看到的局面判斷。這些層能夠做分類和邏輯推理。
神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)在過去十年里躍進(jìn)式的發(fā)展,確實(shí)讓人工智能做到了許多之前只有人腦才能做到的事。但許多專家認(rèn)為這并不意味著人工智能的思維方式與人類相當(dāng)。《與機(jī)器人共舞》作者、《紐約時(shí)報(bào)》資深科技記者馬爾科夫就認(rèn)為,在圍棋的高手對(duì)決中,時(shí)常會(huì)有超出前人的神來之筆,人類的優(yōu)勢(shì)就是比AlphaGo更好地應(yīng)對(duì)這些招式。而人類的劣勢(shì)則在于我們會(huì)疲倦,會(huì)有心理情緒的波動(dòng),AlphaGo卻永遠(yuǎn)不會(huì)有這樣的困擾。
同時(shí)有專家也指出,這兩個(gè)大腦的工作方式確實(shí)和人類很相似,一個(gè)判斷細(xì)部,一個(gè)縱覽全局。但 AlphaGo 最終將兩者結(jié)合的方式比較簡(jiǎn)單粗暴:讓兩者各自評(píng)估一下每種可能的優(yōu)劣,然后取一個(gè)平均數(shù)。這并不是人類的思維方式。
對(duì)人類來說,這兩種思考問題方式的結(jié)合要復(fù)雜得多。人們并不總是同時(shí)對(duì)事態(tài)做出宏觀和微觀的判斷,而是有時(shí)候側(cè)重于大局,有時(shí)候側(cè)重于細(xì)部。具體的精力分配取決于事態(tài)本身,也取決于人在當(dāng)時(shí)的情緒、心理和潛意識(shí)的應(yīng)激反應(yīng)。這當(dāng)然是人類不完美之處,但也是人類行為豐富性的源泉。
哈薩比斯在被問及AlphaGo能否感知“氣勢(shì)”、“外勢(shì)”、“厚味”等圍棋特有的要素時(shí)也承認(rèn):“這是無法用數(shù)理分析的部分,所以很難用算法體現(xiàn)。是屬于計(jì)算機(jī)無法感知的人類獨(dú)有的領(lǐng)域?!?/p>
AlphaGo引入整體盤面評(píng)估確實(shí)是它勝于許多別的圍棋人工智能的地方,但從根本上來說,這只是人們讓人工智能具有“戰(zhàn)略思維”嘗試的第一步,還有太多可以改進(jìn)的可能性。
2014年年初,谷歌以4億美元的價(jià)格收購了這家創(chuàng)造出AlphaGo“神機(jī)”的深度學(xué)習(xí)算法公司—DeepMind,公司創(chuàng)始人哈薩比斯是一位橫跨游戲開發(fā)、神經(jīng)科學(xué)和人工智能等多領(lǐng)域的天才人物。7月,谷歌以DeepMind為主體與牛津大學(xué)的兩支人工智能研究隊(duì)伍建立了合作關(guān)系。
DeepMind也很快發(fā)布了研究成果,它在10月份公布了一種新的模擬神經(jīng)網(wǎng)絡(luò),旨在模仿人類大腦的工作記憶原理,擁有更加強(qiáng)大的歸納整理和聯(lián)想演繹等邏輯處理能力,從而帶來更快的任務(wù)處理速度,還可以通過訓(xùn)練去自行處理任務(wù),這種全新的深度學(xué)習(xí)算法可用于計(jì)算機(jī)視覺和語音識(shí)別等領(lǐng)域。
正如深度學(xué)習(xí)創(chuàng)業(yè)公司Skymind的CEO兼創(chuàng)始人Chris Nicholson指出,圍棋證實(shí)這類人工智能幾乎能用于解決任何可被視為某種游戲的難題。
這就是谷歌要解決圍棋這個(gè)難題的原因。如果他們能夠解決如此復(fù)雜的問題,那么,他們也能將研究所得作為跳板,邁向處理更實(shí)際現(xiàn)實(shí)生活問題的人工智能。哈薩比斯說:“這些技術(shù)和機(jī)器人學(xué)是天作之合。它們能讓機(jī)器人更好地了解環(huán)境并對(duì)環(huán)境中不可預(yù)測(cè)的變化做出響應(yīng)?!彼嘈牛@些技術(shù)能增進(jìn)科學(xué)研究,提供可以為研究人員指明下一個(gè)重大突破的人工智能助手。
對(duì)于AlphaGo與李世石的“人機(jī)大戰(zhàn)”,其實(shí)科技界的大佬更關(guān)心的是目前人工智能對(duì)現(xiàn)有業(yè)務(wù)能力或競(jìng)爭(zhēng)力的提升和科技企業(yè)轉(zhuǎn)型之需。
2015年,谷歌推出了一種名為“RankBrain”人工智能的系統(tǒng)來處理復(fù)雜或罕見的搜索查詢,而谷歌利用所謂的“深度學(xué)習(xí)”人工智能技術(shù)構(gòu)建了“RankBrain”人工智能系統(tǒng),向其輸入了此前的問答信息,使其能向用戶做出最好的應(yīng)答。
Facebook應(yīng)用人工智能就是為了在這個(gè)信息超載的時(shí)代保證人們的關(guān)系不會(huì)變成三分鐘熱度。Facebook的人工智能將會(huì)為自家算法提供協(xié)助,以便提供更多用戶感興趣的內(nèi)容。2015年,F(xiàn)acebook推出了聊天應(yīng)用助理“M”,希望能用一個(gè)界面替換多數(shù)的網(wǎng)絡(luò)搜索和應(yīng)用。
作為硬件廠商的蘋果公司,其未來業(yè)務(wù)還將以移動(dòng)設(shè)備為核心,但僅僅依靠現(xiàn)有的交互方式將難以持續(xù)發(fā)展。2015年10月,蘋果公司收購了創(chuàng)業(yè)公司VocalIQ。VocalIQ是一家英國公司,該公司的技術(shù)可以理解自然語言,用戶能以休閑會(huì)話的方式與設(shè)備進(jìn)行交互,而不是一般設(shè)備所理解的冷冰冰的提示性語言。蘋果通過該公司的技術(shù)來強(qiáng)化Siri功能。
對(duì)于傳統(tǒng)IT大佬微軟,其推出的“微軟小娜”與“微軟小冰”便是人工智能在當(dāng)下的兩種不同表現(xiàn)形態(tài)。兩個(gè)產(chǎn)品都是來自于微軟的人工智能,前者讓W(xué)indows Phone變得更加易用與人性化,而后者則活躍在社交平臺(tái)上,成為和用戶溝通的人工智能機(jī)器人伙伴。比起其他初級(jí)的語音智能搜索,“小娜”更像一個(gè)智能的私人語音助理。需要說明的是,微軟為“小娜”進(jìn)行了長時(shí)間的籌備,在整個(gè)研發(fā)過程中,微軟在締造“小娜”私人語音助理的時(shí)候真正把她當(dāng)作“人”來研發(fā)。即自然語言理解讓“小娜”能夠聽懂我們所說的話,而機(jī)器學(xué)習(xí)能夠讓“小娜”像一個(gè)真的私人助理一樣,更加了解它的主人。借由微軟“必應(yīng)”提供的大數(shù)據(jù)支持,“小娜”能夠變得更加聰明。
另外一家傳統(tǒng)IT大佬IBM于2014年正式對(duì)外宣布旗下的Watson系統(tǒng)投入使用,而Watson背后的核心技術(shù)支撐正是認(rèn)知計(jì)算,涵蓋了如排序?qū)W習(xí)、邏輯推理、遞歸神經(jīng)網(wǎng)絡(luò)等來自5個(gè)不同領(lǐng)域的技術(shù),包括大數(shù)據(jù)與分析、人工智能、認(rèn)知體驗(yàn)、認(rèn)知知識(shí)、計(jì)算基礎(chǔ)架構(gòu)。
對(duì)于這次“人機(jī)大戰(zhàn)”我們看到的不僅是人工智能的飛速發(fā)展,更是對(duì)于各大科技巨頭現(xiàn)有業(yè)務(wù)競(jìng)爭(zhēng)力提升或轉(zhuǎn)型的務(wù)實(shí),從這個(gè)意義看,這些巨頭在“大戰(zhàn)”背后的“動(dòng)作”更值得我們關(guān)注和研究。