近日,英國(guó)DeepMind 公司的研究人員宣布,新的人工智能算法 MuZero 無(wú)須知道規(guī)則即可精通游戲。此前,DeepMind 公司研發(fā)的 AlphaGo 需要從人類的對(duì)局中學(xué)習(xí)圍棋,其后繼者 AlphaZero 僅需知道規(guī)則即可精通圍棋。如今 MuZero 更進(jìn)一步:它不需要知道規(guī)則,而是通過(guò)不斷試錯(cuò)來(lái)了解規(guī)則所允許的動(dòng)作和特定動(dòng)作帶來(lái)的獎(jiǎng)勵(lì),并不斷尋找更容易獲得獎(jiǎng)勵(lì)和獲得更大獎(jiǎng)勵(lì)的方法。
測(cè)試表明,MuZero 在國(guó)際象棋、將棋和圍棋中都能追平甚至略微超過(guò) AlphaZero,并且打破了57個(gè)測(cè)試用雅達(dá)利游戲(包括經(jīng)典的《吃豆人》)中37個(gè)的歷史記錄。研究人員認(rèn)為,MuZero 所使用的方法有望應(yīng)用于游戲以外的領(lǐng)域并創(chuàng)造出普適性更強(qiáng)的人工智能。