張夢(mèng)然
近日,美國(guó)團(tuán)隊(duì)報(bào)告了一類增強(qiáng)學(xué)習(xí),可回溯過(guò)去、解決復(fù)雜任務(wù),真正改善了對(duì)復(fù)雜環(huán)境的探索方式,有望應(yīng)用于機(jī)器人、語(yǔ)言理解和藥物設(shè)計(jì)領(lǐng)域。這類算法被統(tǒng)稱為“Go-Explore”,其已經(jīng)在一款經(jīng)典游戲的算法挑戰(zhàn)中得分超過(guò)了人類玩家和先進(jìn)的人工智能系統(tǒng)。該成果被認(rèn)為正朝著實(shí)現(xiàn)真正“智能學(xué)習(xí)體”邁出了重要一步。
研究人員表示,“Go-Explore”可以對(duì)環(huán)境進(jìn)行全面探索,同時(shí)構(gòu)建一個(gè)檔案庫(kù)來(lái)記住它去過(guò)的地方,確保自己不會(huì)忘記通往有望成功的期中階段或是最終勝利的路線。其在雅達(dá)利經(jīng)典游戲中的得分,超過(guò)了人類玩家和先進(jìn)的人工智能系統(tǒng),研究人員用這類算法,解決了之前未能解決的2600個(gè)雅達(dá)利游戲,驗(yàn)證了這類算法的潛力。
研究人員指出,記住并回到有望成功的探索區(qū)域的簡(jiǎn)單原則是一種強(qiáng)大、通用的探索方法。他們認(rèn)為最新的算法有望應(yīng)用于機(jī)器人、語(yǔ)言理解和藥物設(shè)計(jì)。