□文/孫佑先
走,跟AlphaGo下棋去!
孫佑先
本刊特約撰稿人
□文/孫佑先
AlphaGo2.0來中國了,在5月23日-27日在烏鎮(zhèn)舉行的中國烏鎮(zhèn)·圍棋峰會,AlphaGo2.0與圍棋現(xiàn)排名世界第一的柯潔九段進行了三番賽對弈(此前都是五番賽),結(jié)局雖然在預見中,但這一從去年夏天就“被謠言”的消息,在各方的期待中變?yōu)榱爽F(xiàn)實,意義就不僅僅局限在圍棋領域。當下,在金融、醫(yī)療、教育等各個領域,人工智能對于人類社會的基礎性變革影響力已經(jīng)展開。這種變革的過程進展飛快,它把我們又卷入了一波技術浪潮帶來的、打破均衡、再造均衡的過程。
人工智能(AI)和機器人領域的從業(yè)者,都對2016年3月李世石與AlphaGo的對決印象深刻。這場“人機大戰(zhàn)”讓AI從幕后走向了臺前,幾乎每一位地球人都意識到了AI的發(fā)展已經(jīng)走進了日常生活,未來,還將顛覆我們的生活。
追根溯源,AlphaGo是一款由Google旗下DeepMind團隊研發(fā)的圍棋人工智能程序?!捌平庵悄埽盟鼇碜屖澜缱兊酶谩笔谴蜷_DeepMind官網(wǎng)后,清晰可見的口號,DeepMind公司早在2014年就以4億英鎊的價格被谷歌收購,今時今日仍是Google截至目前在歐洲地區(qū)的最大收購案。而在Google之前,包括特斯拉創(chuàng)始人馬斯克、Facebook創(chuàng)始人扎克伯格在內(nèi)的許多硅谷大佬們也都曾向DeepMind拋出過橄欖枝。
人工智能程序AlphaGo首次被大眾熟知是在2015年,因其在沒有讓子的前提下以5:0擊敗中國旅歐職業(yè)棋手、歐洲冠軍樊麾。
圍棋九段高手柯潔
隨后,AlphaGo以4:1戰(zhàn)勝世界圍棋名將李世石,這場被稱為全球頂級“人機大戰(zhàn)”的對抗中,AlphaGo的實力首次被世人真正認可。
但是,圍棋界人士也表示,李世石心態(tài)上準備不足,在比賽中未必發(fā)揮出真實的最高水準。
DeepMind創(chuàng)始人Demis Hassabis在賽后也表達,希望AlphaGo能與中國的高水平棋手對弈,比如柯潔。但因為種種原因頂尖對決被推遲。
AlphaGo在未能“華山論劍”的時間里,江湖還是有它的各種傳說,比如“化身” Master標注為韓國九段,在圍棋網(wǎng)站弈城與野狐上不斷發(fā)起挑戰(zhàn),先后擊敗了包括世界冠軍常昊、時越、羋昱廷、唐韋星、古力在內(nèi)的諸多好手,以及“韓國第一人”樸廷桓與“日本第一人”井山裕太都敗北。世界排名第一的柯潔也在與Master的對抗中敗下陣來。直到最后,Master宣布自己就是AlphaGo,而代為執(zhí)子的就是AlphaGo團隊的黃士杰博士。
在結(jié)束了Master的測試后,DeepMind團隊于1月下旬宣布推出新版“AlphaGo”,也就是這次來中國的AlphaGo 2.0。這一版本的升級亮點是——摒棄人類棋譜,即僅通過監(jiān)督學習和強化學習,再度進化出新的“圍棋機器人”。
柯潔遭遇了一個全新的、更強大的對手。
在AlphaGo出現(xiàn)之前,基于傳統(tǒng)算法的圍棋程序僅能達到業(yè)余棋手的水平,遠遠不能令人滿意。而AlphaGo橫空出世后,首戰(zhàn)即以5:0大勝歐洲圍棋冠軍樊麾二段,展現(xiàn)出不俗的實力。因此,說AlphaGo的出現(xiàn)嚴重動搖了人類智能在圍棋上的壟斷,是毫無問題的。那么,AlphaGo及其研發(fā)團隊DeepMind都有什么亮點呢?
在談及AlphaGo及其開發(fā)團隊DeepMind之前,必須先介紹一下其領導者Demis Hassabis,可以說,在他出現(xiàn)之前,幾乎所有研究者都認為在十年內(nèi)人工智能戰(zhàn)勝圍棋大師的機會是渺茫的。而在他出現(xiàn)以后,幾乎所有人都在驚呼人工智能已破解了圍棋這一歷史難題,甚至在極短的時間內(nèi)兩次讓研究成果上了《Nature》雜志的封面。因此,英國《衛(wèi)報》直呼Hassabis就是人工智能領域的超級英雄。Hassabis個人完全配得上這個稱謂。
據(jù)《衛(wèi)報》報道,Hassabis的終生目標就是開發(fā)出“通用”的人工智能程序,來解決生活中的一切問題。他分別取得了劍橋大學和倫敦大學學院的計算機科學和神經(jīng)科學學位。Hassabis稱自己領導的項目就是“21世紀的阿波羅項目”,這也難怪AlphaGo在擊敗了李世石九段之后,Hassabis第一時間在Twitter對團隊的祝賀中用“登月”形容圍棋程序擊敗人類頂尖棋手的意義。而在此之前,DeepMind通過對近期人工智能技術中最熱門的一項技術——深度學習網(wǎng)絡,加上“強化學習”的方法使計算機通過自學的方式在上世紀七八十年代的雅達利經(jīng)典游戲中,獲得了近乎人類的表現(xiàn)。而這一成果在更早先的時候登上了《Nature》雜志的封面。擁有千年歷史的古老游戲與三十年前的像素游戲紛紛被人工智能攻破,恐怕在未來若干年間,人工智能在任何游戲中都強于人類也不會是太令人震驚的事情吧。
以上所有人工智能領域的發(fā)展,都離不開一項技術在近年來的突破,那就是深度學習(Deep Learning),深度學習是傳統(tǒng)的神經(jīng)網(wǎng)絡技術的再發(fā)展。何為神經(jīng)網(wǎng)絡?神經(jīng)網(wǎng)絡就是人類提出的一套模擬大腦工作方式的計算機算法。人的大腦有100億個神經(jīng)元,人類對于環(huán)境的感知,對于未知事物的認知與神經(jīng)元的“可塑性”息息相關,人腦通過對特定的人物或者感興趣的知識進行“建?!保窠?jīng)元形成相互連接的“神經(jīng)網(wǎng)絡”,并通過互聯(lián)神經(jīng)元的連接強度,即突觸權值來儲存知識。而所謂人工神經(jīng)網(wǎng)絡,就是將化簡后人腦的神經(jīng)元模型實現(xiàn)于電子計算機之上,從而得到類似于人腦的功能,使計算機可以通過“學習”從外界環(huán)境中獲取知識。
最初等的人工神經(jīng)網(wǎng)絡出現(xiàn)在20世紀50年代末的“感知機”模型,初步展現(xiàn)了人工神經(jīng)網(wǎng)絡的學習能力,后來的研究表明感知機模型只能解決很有限的幾類問題。神經(jīng)網(wǎng)絡的最新發(fā)展——深度學習方法源于Geoffrey Hinton教授等人三十多年來的不懈努力研究和推廣,自誕生之日起,即在機器學習領域中大放異彩,通過深度學習方法訓練出來的模型,在某些特別的圖像識別和語音識別的任務中,甚至有超過人類的表現(xiàn)。在當下,深度學習方法是最接近人類大腦的人工智能學習算法。那么將深度學習網(wǎng)絡應用于圍棋程序AlphaGo又與傳統(tǒng)的國際象棋程序深藍有什么區(qū)別呢?
據(jù)AlphaGo官方博客介紹,AlphaGo采用了一種更加“通用”的人工智能方法,即采用將改進的蒙特卡洛決策樹算法與深度神經(jīng)網(wǎng)絡算法相結(jié)合的方法構建最終的學習系統(tǒng)。其中,深度神經(jīng)網(wǎng)絡由一個多達12層的包含上百萬個神經(jīng)元節(jié)點的神經(jīng)網(wǎng)絡構成,其包括兩個部分:策略網(wǎng)絡與價值網(wǎng)絡。具體的技術細節(jié)在此不贅言,僅說說其發(fā)揮的作用。策略網(wǎng)絡在當前給定的棋局中,負責預測下一步的走棋,并對下一步走棋的好壞進行打分,如果是好棋,就打高分,最終,最高分的走法被策略網(wǎng)絡選為下一步棋的走法。而這個最高分要如何評定呢?此時,現(xiàn)存于人類數(shù)據(jù)庫中的圍棋棋譜的作用就體現(xiàn)出來了。對比以往高手對決的棋譜,如果如此走法能得到最終的勝利,那就是好棋,這步就可以評高分,因為以往棋譜的勝負是已知的,反之亦然。在這里,人類歷史上的大量圍棋起了訓練數(shù)據(jù)的作用,好比老師在“監(jiān)督”學生做練習,答對了就給高分,答錯了不給分。通過對于三千萬步人類棋譜的學習,AlphaGo對于人類棋手下一步走棋的預測準確率高達57%(之前為43%)。策略網(wǎng)絡的作用好比“模仿”人類棋手的各種走法,以達到預測的效果。
然而僅憑模仿無法擊敗最頂級的人類高手。因此,AlphaGo增加了價值網(wǎng)絡來判斷當前的局面,到底對哪一方有利。這一步類似于國際象棋程序中的估值函數(shù),而具體的實現(xiàn)方法卻有所不同。象棋程序中需要人工調(diào)整估值函數(shù)中的權重,以達到最好的效果,甚至需要水平極高的國際特級大師參與調(diào)整參數(shù)。而圍棋程序的局勢評估相當困難,只能通過深度學習網(wǎng)絡之間自我訓練的方法來達到良好的效果。與國際象棋程序相比,圍棋好比人類用自己的知識訓練電腦,使其達到人類高手的水平。而國際象棋程序則是人類親自將行棋的方法與邏輯設計為電腦程序,最終由計算機代表人類與人類高手進行對弈。根據(jù)Facebook人工智能組研究員田淵棟博士介紹,為了得到合適的價值網(wǎng)絡模型,AlphaGo通過自我對局三千萬盤的方式訓練得到了強有力的價值網(wǎng)絡模型,最后再通過傳統(tǒng)的蒙特卡洛搜索樹方法結(jié)合以上兩種深度神經(jīng)網(wǎng)絡模型,最終得到了完整的AlphaGo圍棋程序。可以說AlphaGo的研發(fā)是當今人工智能領域各類技術的集大成者,體現(xiàn)了人工智能技術的最高水平。
AlphaGo下圍棋的原理和人類有相似之處,一是判斷局部,二是把握全局。但是,AlphaGo就不會輸嗎?并不竟然。從原理上來說,在大數(shù)據(jù)時代,更加復雜且更加強大的深度學習模型能深刻揭示海量數(shù)據(jù)里所承載的復雜而豐富的信息,并對未來或未知事件做更精準的預測。但是,深度學習也有瓶頸——延遲反饋的問題。
所以AlphaGo下圍棋也不是深度學習包下所有的,它還有強化學習的一部分,反饋是直到最后那一步才知道你的輸贏。還有很多其他的學習任務都不一定是深度學習才能來完成的。
AlphaGo下圍棋背后的DeepMind 方法其實就是深度學習和強化學習混合體,被稱為“深度強化學習(deep reinforcement learning)”。簡單來說,在這之中,深度學習是主體,強化學習解決了延時反饋的問題。
目前,AlphaGo取得的研究成果正在快速復制到各行各業(yè),谷歌旗下的DeepMind做的第一件事情是用機器學習來管理數(shù)據(jù)中心。為了解決服務器集群的冷卻管理問題,DeepMind訓練了三個神經(jīng)網(wǎng)絡,并在某一個數(shù)據(jù)中心進行了應用,比人管理的時候節(jié)電40%。DeepMind認為,這個神經(jīng)網(wǎng)絡不只可以用于數(shù)據(jù)中心,具有一定的通用性,準備把它發(fā)展到發(fā)電廠、半導體制造等行業(yè)。
DeepMind也將神經(jīng)網(wǎng)絡帶到了醫(yī)療領域。有數(shù)據(jù)顯示每11個成年人里就有1個會得糖尿病,糖尿病讓患者失明的概率提高了25倍,如果失明的癥狀能在早期發(fā)現(xiàn),那么有98%的可能性治愈。DeepMind與一家叫Moorfields的機構合作,拿到了近百萬的原始數(shù)據(jù)。用這些數(shù)據(jù)來訓練神經(jīng)網(wǎng)絡,然后從圖片中提取特征,神經(jīng)網(wǎng)絡在圖像識別上的錯誤率比人低,未來準確率會越來越高。
資深的程序員和性能強大的電腦對AI業(yè)務至關重要,但獲取真實環(huán)境數(shù)據(jù)也至關重要。利用AI和機器學習技術改進醫(yī)院、電網(wǎng)和工廠等場合的不同系統(tǒng)時,需要具體的操作數(shù)據(jù)。
當然,它所屬的Google公司擁有海量可服務于這些目的的數(shù)據(jù),以供DeepMind“挖寶”。但有關每個細分領域,DeepMind現(xiàn)有的數(shù)據(jù)還遠遠滿足不了需求。最近它參與了一個研究讀唇語的項目,并取得了成功,而成功的關鍵就在于研究團隊掌握了一個龐大的數(shù)據(jù)集。該項目的研究團隊主要來自牛津大學,并以計算機視覺研究者安德魯·西塞曼(Andrew Zisserman)為首。BBC向研究團隊提供了數(shù)十萬小時的新聞剪輯資料。如果沒有這些資料,他們根本無法讓AI系統(tǒng)接受讀唇語的訓練。
DeepMind CEO Demis Hassabis
數(shù)據(jù)獲取對DeepMind未來的重要性,Hassabis持輕描淡寫的態(tài)度。他稱,讓人類工程師打造出模擬待解決問題的模型就足夠了,再在這些模型中部署AI學習工具。但這并不是目前大多數(shù)機器學習系統(tǒng)的運作方式。如果DeepMind需要收集大量個人信息,它將需要考慮清楚:如何應對消費者對企業(yè)訪問個人數(shù)據(jù)這類行為的擔憂?
近期就有類似問題曝光,DeepMind 被指控通過非法交易獲取160萬份 NHS(英國國民醫(yī)療服務體系)患者病歷。英國國家數(shù)據(jù)監(jiān)護機構(National Data Guardian) Fiona Caldicott 女爵于2月20日在致皇家自由醫(yī)院信托會醫(yī)療負責人 Stephen Powis 的信件中披露了這一信息。這封信被泄露給 Sky News 并于5月初被公之于眾。
如果DeepMind能夠解決這類問題,它將是人工智能推向行業(yè)的無價之寶:一個算法工廠。它將遠不僅僅是Google的AI研究機構和人才集聚地。DeepMind處理過的數(shù)據(jù)仍屬于原本的擁有者,但從數(shù)據(jù)中學習的軟件將屬于Google。無疑,在未來,DeepMind將把AI程序用來解決復雜問題,但它或許無法靠這種方式來創(chuàng)造大量營收。然而,AI軟件通過分析數(shù)據(jù)獲取的知識或技能將極具價值,讓Google為曾經(jīng)的天價競標付出的一切努力物有所值。
手機掃碼閱讀
李世石在圍棋人機大戰(zhàn)第一盤中的失利,幾乎掀起了軒然大波,似乎一夜之間人工智能已經(jīng)戰(zhàn)勝人類智能,甚至人工智能完全超越人類智能的那一天似乎也不會遙遠了。為此,需要對“人工智能”的概念做一個簡單的澄清。
對于人工智能的看法,一直分兩派不同的觀點,一派是強人工智能,即通過不斷地發(fā)展機器終將獲得類人的自我意識,最終通過不斷地自我進化獲得遠強于人類的智能水平。而另一派則認為人工智能只是對人類勞動的接管,僅在部分領域超越人類,全面超越人類智能只是一個夢想而已。
從目前的研究現(xiàn)狀看,強人工智能的研究幾乎陷入了停滯,遠超過人類智能的強人工智能是否存在依然是個很有爭議的話題,更不要說具體的研究方向了。而主流的機器學習技術,依然集中于對人類技能的學習,并通過學習的成果來解決實際的問題。比如說圍棋程序AlphaGo,盡管比起國際象棋機器深藍進步很大,然而本質(zhì)上依然是在給定規(guī)則具體游戲上的探究,一旦改變了規(guī)則,甚至換不同規(guī)格的棋盤,AlphaGo就必須推倒重來,重新搜集相應棋譜來獲得棋力了。很明顯,這和人類所認識的“舉一反三”類型的“創(chuàng)造知識”的智慧是不相符的。如果要問當今的人工智能是否達到了三歲小孩的智力水平,那也是一件無法比較的事情,因為通過不斷地訓練機器可以在特定技能上完勝小孩子,但是在一些看似簡單的學習上,小孩子需要花費的精力卻遠小于機器。比如拿起桌子上的杯子喝水,對于小孩來說很容易學會,但對于智能機器來說,卻是件連問題是什么都很難描述清楚的事情,更不要說自主學習了。因此,在未來很長一段時間內(nèi),所謂人工智能,依然只是對人類技能的補充,好比工具,是對人類智慧的拓寬,即“機器使用人類的知識戰(zhàn)勝了人類”,而遠非到了遠超人類智慧的地步。
當然,人類對于智能的理解還很淺。就拿上文所提的深度學習舉例,雖然在實用中獲得了廣泛的應用,然而人們對其背后的數(shù)學機制依然不太清楚,不知道機器做出結(jié)論的依據(jù)是什么,甚至連Hassabis本人也說不清楚AlphaGo的棋力到底幾何。或許直到人類對“智能是什么”這種問題的本質(zhì)了解透徹之時,對于“人工智能能否超越人類”這個話題才能得到令人滿意的答案吧。