10月18日,《自然》雜志網(wǎng)站公布的論文顯示,此前戰(zhàn)勝人類圍棋世界冠軍的電腦程序AlphaGo(阿爾法狗)的開發(fā)團(tuán)隊(duì)又出力作——新程序AlphaGo Zero(阿爾法元)不依靠人類指導(dǎo)和經(jīng)驗(yàn),僅憑自身算法強(qiáng)化學(xué)習(xí),就以100:0的戰(zhàn)績(jī)擊敗了AlphaGo。
對(duì)于這個(gè)程序,人類的輸入僅僅限于一張棋盤和一副棋子,沒有任何人類數(shù)據(jù)參與?!鞍柗ㄔ敝挥玫搅艘粡埳窠?jīng)網(wǎng)絡(luò),這張網(wǎng)絡(luò)經(jīng)過訓(xùn)練,專門預(yù)測(cè)程序自身的棋步和棋局的贏家,讓“阿爾法元”在每次自我對(duì)弈中進(jìn)步。
通過3天的訓(xùn)練——包括近500萬局自我對(duì)弈——“阿爾法元”已能超越人類并打敗之前的“阿爾法狗”版本。英國(guó)倫敦深度思維公司AlphaGo項(xiàng)目的主要負(fù)責(zé)人戴維·西爾弗表示,“阿爾法元”遠(yuǎn)比“阿爾法狗”強(qiáng)大,它已不再為人類的知識(shí)所限,而能夠自行發(fā)現(xiàn)新知識(shí)。endprint