10月18日,《自然》雜志網(wǎng)站公布的論文顯示,此前戰(zhàn)勝人類(lèi)圍棋世界冠軍的電腦程序AlphaGo(阿爾法狗)的開(kāi)發(fā)團(tuán)隊(duì)又出力作——新程序AlphaGo Zero(阿爾法元)不依靠人類(lèi)指導(dǎo)和經(jīng)驗(yàn),僅憑自身算法強(qiáng)化學(xué)習(xí),就以100:0的戰(zhàn)績(jī)擊敗了AlphaGo。
對(duì)于這個(gè)程序,人類(lèi)的輸入僅僅限于一張棋盤(pán)和一副棋子,沒(méi)有任何人類(lèi)數(shù)據(jù)參與。“阿爾法元”只用到了一張神經(jīng)網(wǎng)絡(luò),這張網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練,專(zhuān)門(mén)預(yù)測(cè)程序自身的棋步和棋局的贏家,讓“阿爾法元”在每次自我對(duì)弈中進(jìn)步。
通過(guò)3天的訓(xùn)練——包括近500萬(wàn)局自我對(duì)弈——“阿爾法元”已能超越人類(lèi)并打敗之前的“阿爾法狗”版本。英國(guó)倫敦深度思維公司AlphaGo項(xiàng)目的主要負(fù)責(zé)人戴維·西爾弗表示,“阿爾法元”遠(yuǎn)比“阿爾法狗”強(qiáng)大,它已不再為人類(lèi)的知識(shí)所限,而能夠自行發(fā)現(xiàn)新知識(shí)。endprint