當?shù)貢r間10月18日,谷歌人工智能團隊DeepMind團隊在國際學術期刊《自然》上發(fā)表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導的情況下學習,其水平超過此前所有AlphaGo(阿爾法狗),僅用3天就碾壓了此前擊敗李世石的舊阿爾法狗。
AlphaGo Zero僅擁有4個TPU,零人類經驗,所以,它的名字叫作零(Zero),Nature這篇論文——《Mastering the game of Go without human knowledge》中,DeepMind展示新版本圍棋程序AlphaGo Zero在數(shù)百萬局自我對弈后,隨著程序訓練的進行,獨立發(fā)現(xiàn)了人類用幾千年才總結出來的圍棋規(guī)則,還建立了新的戰(zhàn)略?!蹲匀弧窞樵撜撐呐浒l(fā)兩篇評論文章,一篇來自計算機科學家,一篇來自圍棋選手。
今年5月烏鎮(zhèn)大會上,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨后DeepMind創(chuàng)始人得米斯·哈薩比斯( DemisHassabis)宣布,AlphaGo將永久退出競技舞臺,不再進行比賽。
同時哈薩比斯表示:“我們計劃在今年稍晚時候發(fā)布最后一篇學術論文,詳細介紹我們在算法效率上所取得的一系列進展,以及應用在其他更全面領域中的可能性。就像第一篇 AlphaGo 論文一樣,我們希望更多的開發(fā)者能夠接過接力棒,利用這些全新的進展開發(fā)出屬于自己的強大圍棋程序?!?/p>
DeepMind如約在Nature發(fā)布了這篇論文《Mastering the game of Go without human knowledge》。
論文中,DeepMind展示了AlphaGo Zero一種新的強化學習方式,通過自我對弈學習AlphaGo Zero 成為自己的老師。這個學習系統(tǒng)從一個對圍棋游戲完全沒有任何知識的神經網(wǎng)絡開始。然后,通過將這個神經網(wǎng)絡與一種強大的搜索算法相結合,它就可以自己和自己下棋了。
在它自我對弈的過程中,神經網(wǎng)絡被調整、更新,以預測下一個落子位置以及對局的最終贏家。這個更新后的神經網(wǎng)絡又將與搜索算法重新組合,進而創(chuàng)建一個新的、更強大的 AlphaGo Zero 版本,再次重復這個過程。在每一次迭代中,系統(tǒng)的性能都得到一點兒的提高,自我對弈的質量也在提高,這就使得神經網(wǎng)絡的預測越來越準確,得到更加強大的 AlphaGo Zero版本。
這種技術比上一版本的 AlphaGo 更強大,因為它不再受限于人類知識的局限。在進行了3天的自我訓練后,AlphaGo Zero在100局比賽中以100:0擊敗了上一版本的 AlphaGo——而上一版本的 AlphaGo 擊敗了曾18次獲得圍棋世界冠軍的韓國九段棋士李世石。經過 40 天的自我訓練后,AlphaGo Zero 變得更加強大,超越了“Master”版本的 AlphaGo——Master 曾擊敗世界上最優(yōu)秀的棋士、世界第一的柯潔。endprint