AlphaGo再次登上世界頂級(jí)科學(xué)雜志《自然》。2017年5月,這個(gè)人工智能程序以3:0贏下中國(guó)棋手柯潔后,AlphaGo宣布退役,但DeepMind公司并沒(méi)有停下研究的腳步。10月18日,DeepMind團(tuán)隊(duì)公布了最強(qiáng)版AlphaGo,代號(hào)AlphaGo Zero。它的獨(dú)門秘籍是“自學(xué)成才”,而且是從一張白紙開(kāi)始,零基礎(chǔ)學(xué)習(xí),在短短3天內(nèi),AlphaGo Zero的水平已經(jīng)超過(guò)之前所有版本的AlphaGo。在對(duì)陣曾贏下韓國(guó)棋手李世石那版AlphaGo時(shí),AlphaGo Zero取得了100:0的壓倒性戰(zhàn)績(jī)。AlphaGo此前的版本,結(jié)合了數(shù)百萬(wàn)人類圍棋專家的棋譜,以及強(qiáng)化學(xué)習(xí)的監(jiān)督學(xué)習(xí)進(jìn)行了自我訓(xùn)練。在戰(zhàn)勝人類圍棋職業(yè)高手之前,它經(jīng)過(guò)了好幾個(gè)月的訓(xùn)練,依靠的是多臺(tái)機(jī)器和48個(gè)TPU(谷歌專為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的芯片)。AlphaGo Zero的能力則在這個(gè)基礎(chǔ)上有了質(zhì)的提升,最大的區(qū)別是,它不再需要人類數(shù)據(jù)。也就是說(shuō),它一開(kāi)始就沒(méi)有接觸過(guò)人類棋譜,它自由隨意地在棋盤上下棋,然后進(jìn)行自我博弈。值得一提的是,AlphaGo Zero還非?!暗吞肌?,只用到了一臺(tái)機(jī)器和4個(gè)TPU,極大地節(jié)省了資源。endprint