《自然》雜志2月24日發(fā)表了一項(xiàng)人工智能研究成果:美國(guó)團(tuán)隊(duì)報(bào)告了一類增強(qiáng)學(xué)習(xí),可回溯過(guò)去、解決復(fù)雜任務(wù),真正改善了對(duì)復(fù)雜環(huán)境的探索方式,有望應(yīng)用于機(jī)器人、語(yǔ)言理解和藥物設(shè)計(jì)領(lǐng)域。這類算法被統(tǒng)稱為“Go-Explore”,已經(jīng)在一款經(jīng)典游戲的算法挑戰(zhàn)中得分超過(guò)了人類玩家和先進(jìn)的人工智能系統(tǒng)。該成果被認(rèn)為正朝著實(shí)現(xiàn)真正“智能學(xué)習(xí)體”邁出了重要一步。
據(jù)了解,增強(qiáng)學(xué)習(xí),可讓人工智能系統(tǒng)通過(guò)探索和理解復(fù)雜環(huán)境來(lái)進(jìn)行決策,并學(xué)習(xí)如何以最優(yōu)的方式獲得獎(jiǎng)勵(lì)。然而,當(dāng)遇到很少給予反饋的復(fù)雜環(huán)境時(shí),現(xiàn)階段的加強(qiáng)學(xué)習(xí)算法就很容易碰壁。
美國(guó)科學(xué)家艾德蘭·艾克菲特、朱斯特·赫伊津哈及團(tuán)隊(duì),提出了有效探索面臨的兩個(gè)主要障礙,并設(shè)計(jì)了一類算法來(lái)解決這些障礙。