亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度強(qiáng)化學(xué)習(xí)研究綜述

        2021-12-20 12:34:46楊思明李剛偉
        計(jì)算機(jī)工程 2021年12期
        關(guān)鍵詞:動(dòng)作策略方法

        楊思明,單 征,丁 煜,李剛偉

        (1.數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,鄭州 450001;2.中國人民解放軍94162 部隊(duì),西安 710600;3.中國人民解放軍78100 部隊(duì),成都 610031)

        0 概述

        近年來,深度學(xué)習(xí)(Deep Learning,DL)技術(shù)不斷發(fā)展,憑借深度神經(jīng)網(wǎng)絡(luò)優(yōu)異的特征表示能力,解決了許多學(xué)術(shù)界和工業(yè)界的難題并取得了重要的研究成果。強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為解決序列決策的重要方法,賦予智能體自監(jiān)督學(xué)習(xí)能力,能夠自主與環(huán)境進(jìn)行交互,通過獲得的獎(jiǎng)勵(lì)不斷修正策略。深度神經(jīng)網(wǎng)絡(luò)的引入,使得強(qiáng)化學(xué)習(xí)取得了很大的進(jìn)步并衍生出深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)。

        深度強(qiáng)化學(xué)習(xí)近幾年在各領(lǐng)域相繼取得重大突破。在游戲領(lǐng)域:Atari 系列視頻游戲中的智能體使用DRL 算法直接學(xué)習(xí)圖像像素,表現(xiàn)超越了人類水平;DeepMind 公司開發(fā)的AlphaGo[1]戰(zhàn)勝了頂尖人類棋手,最終版的AlphaZero[2]更是經(jīng)過自學(xué)習(xí)的方式,戰(zhàn)勝了AlphaGo;騰訊AI Lab 開發(fā)的絕悟AI 在《王者榮耀》游戲中擊敗頂尖人類選手[3],又在Kaggle 的足球AI比賽中獲得冠軍[4];Open AI 的AlphaStar[5]在《星際爭霸2》游戲中以5∶0 戰(zhàn)勝了職業(yè)選手,展現(xiàn)了AI 在多智能體、復(fù)雜狀態(tài)動(dòng)作空間中的優(yōu)秀表現(xiàn)。在商業(yè)領(lǐng)域:Facebook 開源了Horizon 強(qiáng)化學(xué)習(xí)平臺(tái),用于開發(fā)和部署基于DRL 的推薦系統(tǒng);阿里在雙十一活動(dòng)中,使用深度強(qiáng)化學(xué)習(xí)來提高用戶點(diǎn)擊率;Sliver 提出使用深度強(qiáng)化學(xué)習(xí)構(gòu)建針對(duì)客戶交互的系統(tǒng)[6]。在控制領(lǐng)域,目前已經(jīng)可以利用DRL 方法實(shí)現(xiàn)從現(xiàn)實(shí)世界攝像機(jī)輸入中學(xué)習(xí)機(jī)器人的控制策略[7-8],例如斯坦福大學(xué)使用DRL 方法實(shí)現(xiàn)對(duì)直升機(jī)的控制完成特技飛行,達(dá)到了人類同等水平。

        本文介紹深度強(qiáng)化學(xué)習(xí)的發(fā)展歷程,結(jié)合當(dāng)前深度強(qiáng)化學(xué)習(xí)的研究進(jìn)展,按照研究目標(biāo)將DRL 方法分為解決高維狀態(tài)動(dòng)作空間任務(wù)上的算法收斂、復(fù)雜應(yīng)用場景下的算法樣本效率提高、獎(jiǎng)勵(lì)函數(shù)稀疏或難以定義情況下的算法探索以及多任務(wù)場景下的算法泛化能力增強(qiáng)問題4 類,并對(duì)DRL 方法的未來發(fā)展方向進(jìn)行展望。

        1 深度強(qiáng)化學(xué)習(xí)

        深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合,深度學(xué)習(xí)[9]使用表示學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行提煉,不需要選擇特征、壓縮維度、轉(zhuǎn)換格式等數(shù)據(jù)處理方式,擁有比傳統(tǒng)機(jī)器學(xué)習(xí)方法更強(qiáng)的特征表示能力,通過組合低層特征形成更加抽象的高層特征,實(shí)現(xiàn)數(shù)據(jù)的分布表示。強(qiáng)化學(xué)習(xí)[10]起源于控制論中的最優(yōu)控制理論,主要用來解決時(shí)序決策問題,通過不斷與環(huán)境的交互和試錯(cuò),最終得到特定任務(wù)的最優(yōu)策略并使得任務(wù)累計(jì)期望收益最大化。

        傳統(tǒng)強(qiáng)化學(xué)習(xí)的主流方法主要包含蒙特卡洛類方法和時(shí)序差分類方法[11-12],前者是無偏估計(jì),方差較大,后者使用有限步數(shù)自舉法,方差較小,但會(huì)引入偏差。實(shí)驗(yàn)驗(yàn)證表明,上述方法在高維狀態(tài)動(dòng)作空間任務(wù)上效果不理想,甚至算法難以收斂。原因在于上述方法需要先進(jìn)行策略評(píng)估,得到狀態(tài)價(jià)值函數(shù)或動(dòng)作價(jià)值函數(shù)信息,再利用值函數(shù)信息改善當(dāng)前的策略。算法使用表格型強(qiáng)化學(xué)習(xí)方法對(duì)值函數(shù)進(jìn)行評(píng)估,建立一個(gè)表格,對(duì)于狀態(tài)價(jià)值函數(shù),索引是狀態(tài),對(duì)于動(dòng)作價(jià)值函數(shù),索引是狀態(tài)行為對(duì)。值函數(shù)的迭代更新就是這個(gè)表中數(shù)據(jù)的更新。對(duì)于高維狀態(tài)動(dòng)作空間任務(wù),表格法難以對(duì)所有狀態(tài)動(dòng)作對(duì)應(yīng)的值函數(shù)進(jìn)行評(píng)估處理。

        為解決表格法在處理高維狀態(tài)動(dòng)作空間任務(wù)時(shí)產(chǎn)生的維度災(zāi)難問題,研究人員提出使用函數(shù)逼近的方法進(jìn)行預(yù)測,利用參數(shù)化的方法對(duì)于值函數(shù)進(jìn)行近似,近似的價(jià)值函數(shù)不再表示成一個(gè)表格,而是一個(gè)具有權(quán)值向量的參數(shù)化函數(shù),通過調(diào)整權(quán)值可以得到不同的函數(shù)。根據(jù)逼近的方法不同,可以分為線性逼近方法和非線性逼近方法。線性逼近方法包括多項(xiàng)式基、傅里葉基[13]、粗編碼、瓦片編碼等方法,優(yōu)點(diǎn)在于可以收斂到全局最優(yōu),缺點(diǎn)在于表示能力有限。由于基函數(shù)是固定的,對(duì)于復(fù)雜的函數(shù),數(shù)量太少且形式固定的基函數(shù)無法得到較好的逼近效果。非線性逼近方法表現(xiàn)力較強(qiáng),包括核函數(shù)逼近[14]、基于記憶的函數(shù)逼近[15]等方法,相比線性逼近方法有了很大進(jìn)步,但是實(shí)驗(yàn)結(jié)果表明對(duì)于復(fù)雜任務(wù)的性能表現(xiàn)仍然不好。直到深度學(xué)習(xí)的出現(xiàn),結(jié)合了深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了算法效能的大幅提升。

        深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)的結(jié)構(gòu)和強(qiáng)化學(xué)習(xí)的思想,用于解決決策問題。借助深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力去擬合強(qiáng)化學(xué)習(xí)的任何組成部分,包括狀態(tài)價(jià)值函數(shù)、動(dòng)作價(jià)值函數(shù)、策略、模型等,將深度神經(jīng)網(wǎng)絡(luò)中的權(quán)重作為擬合參數(shù)。DRL 主要用于解決高維狀態(tài)動(dòng)作空間任務(wù),集成了深度學(xué)習(xí)在特征表示問題上強(qiáng)大的理解能力以及強(qiáng)化學(xué)習(xí)的決策能力,實(shí)現(xiàn)了端到端學(xué)習(xí)。深度強(qiáng)化學(xué)習(xí)的出現(xiàn)使得強(qiáng)化學(xué)習(xí)技術(shù)真正走向?qū)嵱茫靡越鉀Q現(xiàn)實(shí)場景中的復(fù)雜問題。最具代表的DQN 算法[16]是在Atari 系列視頻游戲中被提出,通過端到端的方法直接從圖像像素中進(jìn)行學(xué)習(xí),并取得了超過人類選手的成績,至此深度強(qiáng)化學(xué)習(xí)開始蓬勃發(fā)展。

        2 高維狀態(tài)動(dòng)作空間任務(wù)上的算法收斂問題

        傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法由于使用表格法進(jìn)行價(jià)值函數(shù)評(píng)估,對(duì)于高維狀態(tài)動(dòng)作空間任務(wù)表現(xiàn)不佳。DRL 方法利用深度神經(jīng)網(wǎng)絡(luò)優(yōu)異的特征表示能力,可以對(duì)不同狀態(tài)、動(dòng)作下的價(jià)值函數(shù)進(jìn)行擬合。根據(jù)優(yōu)化過程中動(dòng)作選取方式的不同,又可以分為值函數(shù)算法(基于價(jià)值的算法)和策略梯度(Policy Gradient,PG)算法(基于概率的算法)。策略梯度算法使策略參數(shù)化,將神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)作為價(jià)值函數(shù)的參數(shù),能通過分析所處的狀態(tài),直接輸出下一步要采取的各種動(dòng)作的概率,然后根據(jù)概率采取行動(dòng),每種動(dòng)作都有相應(yīng)的概率被選中。值函數(shù)算法輸出所有動(dòng)作的價(jià)值,然后根據(jù)最高價(jià)值來選擇動(dòng)作,相比策略梯度算法,基于價(jià)值的決策更為準(zhǔn)確,只選價(jià)值最高的決策,而基于概率的決策則會(huì)為每一個(gè)可能的動(dòng)作分配一個(gè)對(duì)應(yīng)的概率值。

        2.1 值函數(shù)算法

        值函數(shù)算法利用神經(jīng)網(wǎng)絡(luò)擬合不同狀態(tài)-動(dòng)作組合的價(jià)值函數(shù),深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取和泛化能力使得智能體在面對(duì)未遇到的狀態(tài)、動(dòng)作組合時(shí),仍然可以較為準(zhǔn)確地進(jìn)行價(jià)值函數(shù)預(yù)測。但由于值函數(shù)算法架構(gòu)設(shè)計(jì)原因,對(duì)于高維動(dòng)作空間或連續(xù)動(dòng)作空間任務(wù)學(xué)習(xí)效果不理想。

        DQN[16]作為重要的值函數(shù)算法,使用深度學(xué)習(xí)模型直接從高維感官輸入中學(xué)習(xí)控制策略,利用深度卷積神經(jīng)網(wǎng)絡(luò)逼近值函數(shù),并結(jié)合經(jīng)驗(yàn)回放及目標(biāo)網(wǎng)絡(luò),極大地提高了價(jià)值函數(shù)的估計(jì)精度和穩(wěn)定性,并打破了數(shù)據(jù)間的關(guān)聯(lián)性。實(shí)驗(yàn)結(jié)果證明,在Atari 系列游戲中,DQN 算法在43 項(xiàng)游戲中都取得了超過當(dāng)時(shí)最佳強(qiáng)化學(xué)習(xí)方法的性能表現(xiàn),同時(shí)在49 項(xiàng)游戲中達(dá)到或超過了人類頂尖選手的水平,其中有29 項(xiàng)游戲得分超過75%人類選手的得分。但是,在《蒙特祖瑪?shù)膹?fù)仇》等獎(jiǎng)勵(lì)函數(shù)稀疏的游戲中表現(xiàn)不佳。DQN 算法作為DRL 中值函數(shù)算法的典型代表,后續(xù)基于其不斷進(jìn)行迭代改進(jìn),產(chǎn)生了許多重要算法,提升了DRL 值函數(shù)算法的實(shí)用性,如圖1所示。

        圖1 DQN 算法的改進(jìn)Fig.1 Improvement of DQN algorithm

        過估計(jì)是DQN 的一大缺陷,使得估計(jì)的值函數(shù)比真實(shí)值函數(shù)要大,并且這種過估計(jì)的影響會(huì)累積,導(dǎo)致所有價(jià)值函數(shù)估計(jì)不準(zhǔn)確,從而影響最優(yōu)策略的學(xué)習(xí)。為了解決DQN 過估計(jì)的問題,Double DQN[17]將動(dòng)作選擇與值函數(shù)評(píng)估解耦,有效減少過估計(jì),使得算法更加健壯,對(duì)于Atari 系列游戲的得分相比DQN 提高了接近1 倍。但是,Double DQN 容易受到噪聲的干擾,從而影響收斂性能。優(yōu)先級(jí)采樣算法[18]創(chuàng)新地將TD偏差作為重要性考量,確??梢詢?yōu)先重放學(xué)習(xí)重要的經(jīng)驗(yàn),大幅提高了DQN 學(xué)習(xí)效率,應(yīng)用于Atari 系列游戲后,使得其中49 項(xiàng)游戲得分相比單純使用DQN 算法獲得了48%到106%不等的性能提升。Dueling DQN 算法[19]解耦價(jià)值函數(shù)和優(yōu)勢函數(shù)的學(xué)習(xí)網(wǎng)絡(luò),提高了對(duì)于動(dòng)作價(jià)值函數(shù)的預(yù)測準(zhǔn)確性,并且由于通用性強(qiáng)可以與其他算法相結(jié)合。為解決DQN 算法前期值預(yù)測函數(shù)偏差較大,導(dǎo)致訓(xùn)練初期速度慢的問題,研究人員提出DQN 冷啟動(dòng)技術(shù)[20],將RL 與監(jiān)督學(xué)習(xí)相結(jié)合,利用預(yù)先準(zhǔn)備好的優(yōu)質(zhì)采樣軌跡加快模型前期的訓(xùn)練速度,而該技術(shù)的局限性在于過度依賴用于監(jiān)督學(xué)習(xí)的經(jīng)驗(yàn)軌跡,如果軌跡存在噪聲或樣本過少將會(huì)導(dǎo)致算法無法收斂或產(chǎn)生過擬合。

        鑒于DQN 算法預(yù)測的目標(biāo)值都是一個(gè)動(dòng)作價(jià)值函數(shù)的期望值,所能提供的信息量過少,Distributional DQN 算法C51[21]構(gòu)建模型使得輸出為一個(gè)價(jià)值的分布估計(jì)以獲得相比期望值更多的信息,對(duì)于部分可觀察馬爾科夫過程(POMDP),避免了價(jià)值函數(shù)的混淆,最重要的是該算法保留了價(jià)值分布的多模態(tài),使得學(xué)習(xí)更加穩(wěn)定,缺點(diǎn)在于C51 在理論上無法保證策略評(píng)估過程下,貝爾曼算子在多輪迭代后結(jié)果可以收斂,同時(shí)也無法保證當(dāng)所表示的概率分布和樣本集上距離最小時(shí),與真實(shí)分布距離也最小。QR-DQN[22]不僅具有以上算法的優(yōu)點(diǎn),而且可確保多輪迭代后貝爾曼算子收斂,并減少了超參數(shù)的設(shè)置,但QR-DQN 對(duì)于任務(wù)風(fēng)險(xiǎn)不敏感,在高風(fēng)險(xiǎn)任務(wù)中表現(xiàn)不佳。IQN[23]通過調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)容量,調(diào)整擬合精度,設(shè)置超參數(shù),決定風(fēng)險(xiǎn)偏好。為了增強(qiáng)DQN 的探索能力,使得智能體可以有效探索未知狀態(tài)動(dòng)作對(duì),評(píng)估其動(dòng)作價(jià)值函數(shù),研究人員設(shè)計(jì)Noisy Network[24],使用更加平滑的添加噪聲的方式替代傳統(tǒng)的ε-greedy 方法,使智能體具有更強(qiáng)的探索能力,同時(shí)較好地平衡噪聲效果和參數(shù)數(shù)量并保證目標(biāo)函數(shù)無偏。Rainbow 算法[25]集成了上述所有算法的優(yōu)點(diǎn),實(shí)驗(yàn)結(jié)果表明,Rainbow算法遠(yuǎn)超DQN算法,在Atari 系列游戲中表現(xiàn)超過人類選手,相比DQN 算法性能提升了3倍,相比double DQN 算法提升了2倍。分析并研究這些改進(jìn)算法對(duì)于DQN 的優(yōu)化程度,優(yōu)先級(jí)采樣算法是對(duì)于DQN 改進(jìn)效果最顯著的算法。

        2.2 策略梯度算法

        對(duì)于離散型動(dòng)作空間,神經(jīng)網(wǎng)絡(luò)擬合的是一個(gè)離散型分布,即執(zhí)行每種動(dòng)作的概率。對(duì)于連續(xù)型動(dòng)作空間,神經(jīng)網(wǎng)絡(luò)擬合概率密度函數(shù)的參數(shù),這就使得策略梯度算法可以很好地處理高維或者連續(xù)動(dòng)作空間的任務(wù),通過優(yōu)化參數(shù),直接對(duì)策略進(jìn)行更新迭代,使得累積期望回報(bào)最大。相比值函數(shù)算法,策略梯度算法更簡單、收斂性也更好,缺點(diǎn)在于算法方差較高、收斂速度較慢、學(xué)習(xí)步長不容易確定,針對(duì)以上不足,近年來研究人員提出多種改進(jìn)思路,如圖2 所示。

        圖2 策略梯度算法的改進(jìn)Fig.2 Improvement of policy gradient algorithm

        原始的策略梯度算法將策略參數(shù)化,通過采樣一系列軌跡之后,使用策略梯度定理求得參數(shù)增量,對(duì)參數(shù)進(jìn)行更新。該算法雖然無偏但是方差很大,所以帶有基線的REINFORCE 算法[26]對(duì)此進(jìn)行了改進(jìn),引入當(dāng)前時(shí)刻的狀態(tài)價(jià)值函數(shù)作為基線,減小方差,同時(shí)仍然可以保證無偏。但是,REINFORCE 算法中狀態(tài)價(jià)值函數(shù)僅作為基線函數(shù),不具備判定器功能,所以方差依舊很大。為進(jìn)一步減小方差,研究人員提出了使用自舉法的actor-critic 算法[27],使得狀態(tài)價(jià)值函數(shù)不僅用作基線,而且可作為判定器,用于自舉法進(jìn)行價(jià)值預(yù)測,大幅降低了方差,并且是完全在線和增量式的,缺點(diǎn)在于引入了偏差。REINFORCE 和actor-critic 算法分別使用蒙特卡洛法和單步時(shí)序差分法估計(jì)誤差,前者方差很大,但是沒有偏差,后者偏差較大,但是方差很小。兩者都過于極端,為了更好地調(diào)和方差和偏差,研究人員提出了GAE(Generalized Advantage Estimation)算法[28],該算法是一種新的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)算法,通過調(diào)節(jié)超參數(shù)可以平衡收益的方差、偏差帶來的影響,廣泛應(yīng)用于各種策略梯度法的獎(jiǎng)勵(lì)設(shè)計(jì)中,缺陷在于為了得到合適的獎(jiǎng)勵(lì)函數(shù)形式,需要對(duì)超參數(shù)進(jìn)行精確調(diào)整。

        為解決策略梯度算法難以確定學(xué)習(xí)步長的問題,需要找到使損失函數(shù)單調(diào)非增的最優(yōu)步長,因此研究人員提出置信域類算法。TRPO 算法[29]引入KL 散度表示新舊策略之間的差距大小,最終可以求解得到一個(gè)置信區(qū)域內(nèi)能夠使策略單調(diào)提升的最大步長。TRPO減少了訓(xùn)練時(shí)的波動(dòng),使得策略單調(diào)穩(wěn)步提升。為了解決TRPO 存在的計(jì)算量較大、速度較慢、實(shí)現(xiàn)復(fù)雜問題,PPO 算法[30]創(chuàng)新地使用Clipped 替代函數(shù),縮小新舊策略的差距,保證形式簡潔。該算法有效降低了實(shí)現(xiàn)難度,提升了求解效率,同時(shí)依然保證策略單調(diào)穩(wěn)步提升。ACKTR 算法[31]優(yōu)化置信域類算法并結(jié)合克羅內(nèi)克曲率應(yīng)用于RL,可大幅減少計(jì)算量,使該類算法能夠用于大型模型,但是樣本效率較低。

        為加快策略梯度算法的學(xué)習(xí)速率,研究人員提出確定性策略梯度算法,相比隨機(jī)策略梯度算法,一個(gè)狀態(tài)只對(duì)應(yīng)一個(gè)動(dòng)作,在參數(shù)更新梯度計(jì)算時(shí),可在最大限度上加快計(jì)算速度,減少數(shù)據(jù)空間和對(duì)于樣本的依賴,同時(shí)使用離線學(xué)習(xí)(off-policy)方法彌補(bǔ)探索性差的問題。該類算法需要采樣的數(shù)據(jù)少,算法效率高,無須在動(dòng)作空間中進(jìn)行數(shù)據(jù)采樣。DPG[32]是最早的確定性策略梯度算法,但DPG 中使用的仍是線性函數(shù)近似器,因此性能較差。DDPG[33]對(duì)DPG 做了改進(jìn),使用actor-critic 架構(gòu),通過神經(jīng)網(wǎng)絡(luò)代替線性函數(shù)進(jìn)行值函數(shù)預(yù)測,同時(shí)引入DQN的相關(guān)優(yōu)勢方法大大提升了DPG算法的效能,解決了端到端的策略學(xué)習(xí),并且擁有更高的采樣效率。為解決DDPG 對(duì)于Q 值的高估,并且在超參數(shù)和其他參數(shù)調(diào)整方面存在脆弱性的問題,F(xiàn)UJIMOTO 等[34]提出TD3 算法,可緩解動(dòng)作價(jià)值高估的影響,并消除方差累計(jì)問題,使得訓(xùn)練過程波動(dòng)較小,同時(shí)避免了DDPG 中可能發(fā)生的特性故障,但是TD3參數(shù)較多,使用者需要有較好的調(diào)參功底。

        3 復(fù)雜應(yīng)用場景下的算法樣本效率提高問題

        樣本效率低是DRL 的主要缺陷,為解決該問題,具體思路為:對(duì)于無模型類方法使用off-policy 學(xué)習(xí);對(duì)于model-based方法進(jìn)行策略學(xué)習(xí),本節(jié)將對(duì)兩種方法進(jìn)行具體分析。

        3.1 在線學(xué)習(xí)方法

        在線學(xué)習(xí)(on-policy)和off-policy 的分類是依據(jù)產(chǎn)生數(shù)據(jù)的策略(行動(dòng)策略)和正在通過訓(xùn)練來優(yōu)化的策略(目標(biāo)策略)是否一致。對(duì)于on-policy 而言,行為策略和目標(biāo)策略是一致的;對(duì)于off-policy 而言,使用行動(dòng)策略產(chǎn)生樣本,存入經(jīng)驗(yàn)池,然后使用重要性采樣手段將樣本作用于優(yōu)化目標(biāo)策略。智能體在面對(duì)一個(gè)陌生的環(huán)境時(shí),希望學(xué)到的動(dòng)作可以使隨后的智能體行為是最優(yōu)的,但是為了搜索所有動(dòng)作,以保證找到最優(yōu)動(dòng)作,需要采取非最優(yōu)的行動(dòng),因此在遵循試探策略采取行動(dòng)的同時(shí)學(xué)習(xí)到最優(yōu)策略中產(chǎn)生了矛盾。

        on-policy 方法不學(xué)習(xí)最優(yōu)策略的動(dòng)作值,而是學(xué)習(xí)一個(gè)接近最優(yōu)而且仍能進(jìn)行探索的策略的動(dòng)作值。off-policy 更加直接,使用多個(gè)策略,一個(gè)用來學(xué)習(xí)并最終成為最優(yōu)策略,另外的策略更具試探性,用來產(chǎn)生智能體的行為樣本。離線方法通過重放不同策略的采樣經(jīng)驗(yàn)來優(yōu)化目標(biāo)策略,不僅提高了樣本效率,也降低了樣本復(fù)雜度,這種思路已經(jīng)廣泛應(yīng)用于各種算法,DQN算法以及確定性策略梯度算法都屬于off-policy 方法。

        Retrace 算法[35]定義了一種新的重要性采樣算法,可避免方差爆炸問題,同時(shí)保證策略改進(jìn)的安全性,并且有更強(qiáng)的收斂性。ACER 算法[36]利用Retrace 思想,融合對(duì)抗性網(wǎng)絡(luò)結(jié)構(gòu)和置信域優(yōu)化方法,在對(duì)策略進(jìn)行有效優(yōu)化的同時(shí),提高了樣本效率。但在復(fù)雜任務(wù)中,ACER 并沒有表現(xiàn)出很好的效果,為進(jìn)一步提高在復(fù)雜任務(wù)中的采樣效率和訓(xùn)練效果,SAC 算法[37]創(chuàng)新地引入了energy-based 模型,將熵的概念融入到策略改進(jìn)中。與其他離線方法相比,該算法更穩(wěn)定,對(duì)于環(huán)境探索更積極,采樣效率明顯優(yōu)于DDPG。實(shí)驗(yàn)結(jié)果表明,SAC 在復(fù)雜任務(wù)上優(yōu)于DDPG、PPO、TD3 等算法,并且減少了超參數(shù)數(shù)量。同時(shí),基于off-policy 可建立并行架構(gòu),更高效地收集經(jīng)驗(yàn)樣本,提高學(xué)習(xí)速度。A3C算法[38]使用一個(gè)多核CPU 實(shí)現(xiàn)快速的DRL 訓(xùn)練,使多個(gè)智能體并行地在線程中收集經(jīng)驗(yàn)樣本,并異步地將參數(shù)更新到全局的模型參數(shù)中。該算法極大提升了樣本多樣性,使得學(xué)習(xí)得到的策略更加魯棒,但是A3C 使用異步方式進(jìn)行更新,由于策略不同,可能會(huì)導(dǎo)致主網(wǎng)絡(luò)累計(jì)更新效果不是最優(yōu)。基于A3C 算法,改進(jìn)得到的同步版本A2C 算法[39]與A3C 差別在于各個(gè)環(huán)境中智能體僅負(fù)責(zé)收集經(jīng)驗(yàn)數(shù)據(jù),然后同步地將經(jīng)驗(yàn)傳到主網(wǎng)絡(luò)統(tǒng)一進(jìn)行計(jì)算,更新參數(shù)。A2C 可使訓(xùn)練更加協(xié)調(diào)一致,從而加快收斂。實(shí)驗(yàn)結(jié)果證明,A2C相比A3C對(duì)于硬件利用率更高,對(duì)于相同任務(wù)的性能更好,但由于A2C 在經(jīng)驗(yàn)收集和策略學(xué)習(xí)步驟上仍然是串行的,因此效率仍然有提升的空間。IMPALA 算法[40]是一種大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練算法,融合了A3C 的結(jié)構(gòu)和A2C的思想。IMPALA 將經(jīng)驗(yàn)收集和策略學(xué)習(xí)分開異步運(yùn)行,并使用V-trace 對(duì)off-policy 偏差進(jìn)行糾正,極大地提高了算法速率、數(shù)據(jù)效率和穩(wěn)定性。憑借優(yōu)化的模型,與傳統(tǒng)agent 相比,IMPALA 可多處理一到兩個(gè)數(shù)量級(jí)的經(jīng)驗(yàn),并且可推廣至超大規(guī)模實(shí)驗(yàn)。APE-X 算法[41]屬于分布式架構(gòu),在DQN 經(jīng)驗(yàn)回放的基礎(chǔ)上進(jìn)行改進(jìn),結(jié)構(gòu)沒有變化,但分布式使用多個(gè)actor 來生成數(shù)據(jù),擁有更大的經(jīng)驗(yàn)回放池,能容納數(shù)百個(gè)actor 采集的數(shù)據(jù),大幅加快了訓(xùn)練速度。同時(shí),通過不同的并行環(huán)境得到不同優(yōu)先級(jí)的經(jīng)驗(yàn)回放,提升樣本多樣性,防止過擬合。

        3.2 model-based 方法

        off-policy 方法與model-free 結(jié)合,使得樣本效率有了很大提高,但是由于不掌握狀態(tài)轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)的具體形式,因此所有經(jīng)驗(yàn)數(shù)據(jù)依然依靠與環(huán)境交互來得到。為進(jìn)一步提高樣本效率,研究人員對(duì)modelbased 方法進(jìn)行深入研究,從采樣數(shù)據(jù)中對(duì)環(huán)境進(jìn)行建模,之后在內(nèi)部通過模擬仿真自動(dòng)生成大量的樣本數(shù)據(jù),使用規(guī)劃的手段快速進(jìn)行策略學(xué)習(xí)。當(dāng)前modelbased 方法最大的挑戰(zhàn)就是模型誤差,在數(shù)據(jù)量很少的情況下,學(xué)到得到的模型不準(zhǔn)確,而使用不準(zhǔn)確的模型預(yù)測就會(huì)產(chǎn)生更大的誤差。針對(duì)此類問題,近年來研究人員提出了許多解決方案,如圖3 所示。

        圖3 model-based 方法的發(fā)展歷程Fig.3 Development course of model-based method

        PILCO 算法[42]將模型誤差納入考慮范圍,建立了概率動(dòng)力學(xué)模型,將不確定性集成到長期的規(guī)劃和決策中,提高了算法的魯棒性和樣本效率。PILCO 算法成立的前提是狀態(tài)完全可觀和可測。然而,在實(shí)際中狀態(tài)并非完全可觀,而且觀測值存在噪聲,因此研究人員將濾波器引入到PILCO 算法的執(zhí)行步和預(yù)測步,解決了PILCO 算法中的POMDP 問題[43]。由于PILCO 優(yōu)化過程僅考慮了當(dāng)前最優(yōu),對(duì)于未知模型系統(tǒng),智能體需要兼顧策略優(yōu)化與環(huán)境探索兩方面的問題,因此提出基于貝葉斯優(yōu)化的有向探索方法[44]解決該問題。I2A算法[45]建立一種結(jié)合model-based 和model-free 的新型體系結(jié)構(gòu),提高了數(shù)據(jù)處理效率以及存在模型誤差情況下的算法魯棒性,可在幾乎沒有領(lǐng)域知識(shí)的低水平觀測值上直接進(jìn)行訓(xùn)練并得到了較好的結(jié)果,但僅限于較為簡單的環(huán)境。MB-MPO 算法[46]使用元學(xué)習(xí)的方法學(xué)習(xí)策略,使得算法可以不依賴于模型的精度,對(duì)任意一個(gè)模型都具有較好的學(xué)習(xí)效果,增強(qiáng)了算法魯棒性。

        PILCO、I2A 等算法在對(duì)復(fù)雜的動(dòng)力學(xué)模型建模時(shí)不能取得較好的效果,原因在于動(dòng)力學(xué)模型規(guī)模較大,并且過長視界的動(dòng)力學(xué)預(yù)測進(jìn)一步加劇了模型的不準(zhǔn)確性。MBMF 算法[47]將model-based 方法擴(kuò)展到具有表達(dá)能力的高容量模型,實(shí)現(xiàn)了與模型預(yù)測控制(MPC)相結(jié)合,在復(fù)雜任務(wù)中實(shí)現(xiàn)穩(wěn)定的動(dòng)作控制,但由于MPC實(shí)時(shí)性較差,因此MBMF 一般僅用于為無模型算法通過前期監(jiān)督初始化,加快初期學(xué)習(xí)速率。MVE 算法[48]致力于解決視界過長導(dǎo)致的模型不穩(wěn)定問題,融合了model-based 的短期穩(wěn)定預(yù)估以及model-free 的長期預(yù)估,提高預(yù)測值準(zhǔn)確率,有效抑制模型預(yù)測不準(zhǔn)確問題。STEVE 算法[49]改進(jìn)自MVE 算法,目的是解決MVE 算法手動(dòng)設(shè)置展開步數(shù)不準(zhǔn)確導(dǎo)致的精度下降問題。算法在不同的視界長度之間進(jìn)行插值,得到不同視界的加權(quán)組合目標(biāo)值,相比MVE可以更準(zhǔn)確地預(yù)測目標(biāo)值。ME-TRPO 算法[50]通過使用多個(gè)不同的環(huán)境模型進(jìn)行規(guī)劃,減少過擬合現(xiàn)象,使得學(xué)習(xí)更加穩(wěn)定。STEVE 與ME-TRPO 算法的共同缺陷在于模型規(guī)劃時(shí)間較長,速度較慢。

        4 獎(jiǎng)勵(lì)函數(shù)稀疏或無明確定義情況下的算法探索問題

        很多任務(wù)的反饋是稀疏的,比如走迷宮的任務(wù),只有在走出迷宮時(shí)才能得到一個(gè)正反饋,其余的動(dòng)作不會(huì)獲得任何正反饋,可見只有在成功完成任務(wù)時(shí)才會(huì)獲得獎(jiǎng)勵(lì)。如果使智能體隨機(jī)進(jìn)行探索,則將很難得到任何正反饋,并且無法進(jìn)行有效的策略評(píng)估,進(jìn)而造成無法學(xué)到有用的經(jīng)驗(yàn)。此外,獎(jiǎng)勵(lì)函數(shù)難以準(zhǔn)確定義,即使使用人工方法也很難確定其形式。獎(jiǎng)勵(lì)函數(shù)的定義與總結(jié)如圖4 所示。

        圖4 獎(jiǎng)勵(lì)函數(shù)的定義與總結(jié)Fig.4 Definition and summary of reward function

        4.1 獎(jiǎng)勵(lì)函數(shù)稀疏情況下的算法探索問題

        為解決獎(jiǎng)勵(lì)函數(shù)稀疏的問題,可通過設(shè)置內(nèi)部獎(jiǎng)勵(lì)及使用分層強(qiáng)化學(xué)習(xí)方法來增強(qiáng)算法探索能力。

        設(shè)置內(nèi)部獎(jiǎng)勵(lì)的方法將智能體的獎(jiǎng)勵(lì)分為內(nèi)部獎(jiǎng)勵(lì)和外部獎(jiǎng)勵(lì),當(dāng)外部獎(jiǎng)勵(lì)很稀疏時(shí),就需要使用內(nèi)部獎(jiǎng)勵(lì)來激勵(lì)指引智能體進(jìn)行探索。內(nèi)部獎(jiǎng)勵(lì)又分為基于curiosity和基于計(jì)數(shù),基于curiosity的內(nèi)部獎(jiǎng)勵(lì)傾向于探索未知,對(duì)預(yù)測誤差比較大或是不確定程度比較大的狀態(tài)動(dòng)作對(duì)賦予一個(gè)較大的內(nèi)部獎(jiǎng)勵(lì)值?;谟?jì)數(shù)的內(nèi)部獎(jiǎng)勵(lì)是使用狀態(tài)的訪問頻率來衡量狀態(tài)的不確定性,傳統(tǒng)方式是定義表格,若遇到相關(guān)的狀態(tài),相應(yīng)的計(jì)數(shù)就加上1,但如今為了解決高維狀態(tài)動(dòng)作空間任務(wù),表格法已經(jīng)難以滿足要求。

        在基于curiosity 的內(nèi)部獎(jiǎng)勵(lì)方面,VIME 算法[51]使用信息增益作為內(nèi)在獎(jiǎng)勵(lì),成功將內(nèi)部獎(jiǎng)勵(lì)方法推廣至高維任務(wù)中,并通過實(shí)驗(yàn)證明,相比啟發(fā)式探索方法,VIME 算法探索能力更強(qiáng)。BURDA 等[52]在僅使用基于curiosity 的內(nèi)在獎(jiǎng)勵(lì)的情況下完成了探索,并取得了很好的效果,但該算法和VIME 一樣存在缺陷,當(dāng)環(huán)境出現(xiàn)與智能體無關(guān)的隨機(jī)性時(shí),智能體會(huì)因?yàn)槭冀K不能預(yù)測下一步的狀態(tài),而在相應(yīng)的狀態(tài)中進(jìn)行停滯。為了解決該問題,PATHAK 等[53]提出ICM 算法,定義正反兩個(gè)模型,通過兩個(gè)相反的操作提取圖像中的有用信息,對(duì)于環(huán)境中無關(guān)的信息則能自動(dòng)忽略,解決了環(huán)境噪音對(duì)內(nèi)部獎(jiǎng)勵(lì)設(shè)置的影響。RND 算法[54]通過內(nèi)部獎(jiǎng)勵(lì)和外部獎(jiǎng)勵(lì)靈活結(jié)合的方法和網(wǎng)絡(luò)結(jié)構(gòu),對(duì)于復(fù)雜問題的探索能力顯著提高。ICM 和RND 算法的缺陷在于面對(duì)復(fù)雜任務(wù)時(shí),僅使用探索的手段很難提升效能。

        在基于計(jì)數(shù)的內(nèi)部獎(jiǎng)勵(lì)方面,CTS-based Pseudo Counts 算法[55]將虛擬技術(shù)引入DRL,使用CTS 模型作為概率模型來估計(jì)狀態(tài)計(jì)數(shù),以此作為衡量不確定性的指標(biāo),進(jìn)而得到內(nèi)在獎(jiǎng)勵(lì)。實(shí)驗(yàn)結(jié)果表明,該算法可以直接作用在像素游戲中顯著改善探索能力,但穩(wěn)定性較差?;谏鲜龀晒?,研究人員將概率模型改為PixelCNN,得到基于PixelCNN 的偽計(jì)數(shù)方法[56],該方法重新構(gòu)建了內(nèi)在激勵(lì)形式,使得算法效果更加穩(wěn)定。由于PixelCNN 模型只能用于圖像,在連續(xù)控制中無法使用,并且顯式的概率模型計(jì)算復(fù)雜,因此TANG 等[57]提出Hash-based Counts 算法,使用自編碼器代表哈希函數(shù),將狀態(tài)映射到低維特征空間中,在特征空間中進(jìn)行計(jì)數(shù),加快了算法速度,并且可以應(yīng)用在連續(xù)動(dòng)作空間中。

        分層強(qiáng)化學(xué)習(xí)(Hierarchy Reinforcement Learning,HRL)方法將一個(gè)任務(wù)分解設(shè)定為一系列小目標(biāo),在完成這些小目標(biāo)的過程中,智能體將不再關(guān)注環(huán)境本身的反饋。整個(gè)架構(gòu)分為兩部分,頂層負(fù)責(zé)制定小目標(biāo),底層負(fù)責(zé)完成小目標(biāo)。頂層被稱為元控制器,負(fù)責(zé)接收環(huán)境的狀態(tài)和反饋,并根據(jù)這些信息產(chǎn)生小目標(biāo)。底層被稱為執(zhí)行器,接收環(huán)境狀態(tài)和小目標(biāo),并根據(jù)這些信息產(chǎn)生行動(dòng)。通過使用HRL 方法使得智能體更容易找到探索方向,加快解決問題的速度,解決稀疏獎(jiǎng)勵(lì)問題。

        H-DQN 算法[58]建立雙層網(wǎng)絡(luò)結(jié)構(gòu),兩層都采用DQN 網(wǎng)絡(luò),在Atari系列游戲和《蒙特祖瑪?shù)膹?fù)仇》中取得了遠(yuǎn)超DQN 算法的成績,但對(duì)于《蒙特祖瑪?shù)膹?fù)仇》做了太多條件設(shè)定,使得該算法對(duì)于其他任務(wù)可能并不普遍適用。RAFATI 等[59]使用增量無監(jiān)督學(xué)習(xí)方法和H-DQN 架構(gòu)開發(fā)新的無模型HRL 方法,進(jìn)一步在稀疏獎(jiǎng)勵(lì)問題上提高了算法效能。SUKHBAATAR等[60]使用分層自學(xué)習(xí)算法增強(qiáng)探索能力,同時(shí)使得策略能夠不斷自我改進(jìn)優(yōu)化。Fun 算法[61]利用上下兩層的架構(gòu),定義一個(gè)端到端模型,可以很好地解決獎(jiǎng)勵(lì)函數(shù)稀疏問題,但并未較好地解決控制權(quán)轉(zhuǎn)移問題,頂層每步都會(huì)發(fā)出同步信號(hào),使得子目標(biāo)容易快速變換,影響底層策略執(zhí)行。HIRO 算法[62]使用off-policy 的分層強(qiáng)化學(xué)習(xí)算法,算法思路和Fun 相近,區(qū)別在于直接使用狀態(tài)觀測值作為目標(biāo),并將狀態(tài)觀測值的改變量作為高級(jí)策略的動(dòng)作空間,相比Fun 算法提高了下級(jí)策略效率和樣本效率,但實(shí)驗(yàn)環(huán)境與Fun 算法的實(shí)驗(yàn)環(huán)境并不相同,F(xiàn)un 算法使用視頻作為輸入,而HIRO 算法使用低維輸入,所以并不能證明其在性能上的優(yōu)勢。optioncritic 架構(gòu)[63]將頂層策略和底層策略的控制權(quán)移交問題轉(zhuǎn)換為函數(shù)學(xué)習(xí)問題,通過學(xué)習(xí)跨度不同的子策略,增大模型容量。

        4.2 獎(jiǎng)勵(lì)函數(shù)無明確定義情況下的算法探索問題

        獎(jiǎng)勵(lì)函數(shù)是影響學(xué)習(xí)速率的一個(gè)重要因素,如果獎(jiǎng)勵(lì)函數(shù)形式不明確或者獎(jiǎng)勵(lì)函數(shù)設(shè)置不合理,難以進(jìn)行高效學(xué)習(xí)。但在實(shí)際任務(wù)中,多數(shù)情況的獎(jiǎng)勵(lì)難以準(zhǔn)確定義,沒有準(zhǔn)確的獎(jiǎng)勵(lì)函數(shù),智能體就難以通過迭代手段正確修正自身策略。逆向強(qiáng)化學(xué)習(xí)(Inverse Reinforcement Learning,IRL)的思路和RL 相反,RL 通常在回報(bào)已知的情況下求出值函數(shù)和策略,IRL 通過策略求回報(bào),將專家經(jīng)驗(yàn)看作最優(yōu)策略與環(huán)境交互得到的結(jié)果,智能體做出符合專家經(jīng)驗(yàn)的動(dòng)作獲得高回報(bào),反之獲得低回報(bào),是一種類似監(jiān)督學(xué)習(xí)的方式。通過不斷迭代使智能體的策略逼近專家經(jīng)驗(yàn)策略,專家經(jīng)驗(yàn)一般根據(jù)人類處理相關(guān)任務(wù)記錄得到[63-64]。對(duì)于IRL 而言,機(jī)制是通過示范策略來反推回報(bào)函數(shù),基于設(shè)計(jì)良好的獎(jiǎng)勵(lì)函數(shù),智能體便可學(xué)習(xí)到泛化的策略。

        對(duì)于一條專家經(jīng)驗(yàn)軌跡可以找到許多獎(jiǎng)勵(lì)函數(shù)進(jìn)行解釋,這就會(huì)使得到的獎(jiǎng)勵(lì)函數(shù)不確定,導(dǎo)致學(xué)習(xí)的策略較差,因此需要對(duì)環(huán)境反饋信號(hào)進(jìn)行建模。FIRL 算法[64]使用基于邏輯聯(lián)結(jié)的合成特征,實(shí)現(xiàn)非線性反饋信號(hào)的建模,之后結(jié)合深度信念網(wǎng)絡(luò)設(shè)計(jì)DGP-IRL 算法[65],極大增強(qiáng)了反饋信號(hào)的表示能力。

        隨著DL 的發(fā)展,使用神經(jīng)網(wǎng)絡(luò)對(duì)反饋信號(hào)進(jìn)行建模的方法成為主流方法?;谏窠?jīng)網(wǎng)絡(luò)的最大熵逆強(qiáng)化學(xué)習(xí)方法解決了數(shù)據(jù)噪聲問題。GCL 算法[66]基于最大熵模型,使用神經(jīng)網(wǎng)絡(luò)表示獎(jiǎng)勵(lì)函數(shù),解決了需要已知?jiǎng)恿W(xué)模型進(jìn)行獎(jiǎng)勵(lì)函數(shù)提取的問題,并將逆強(qiáng)化學(xué)習(xí)方法推廣至高維動(dòng)作空間任務(wù),解決了現(xiàn)實(shí)場景中復(fù)雜系統(tǒng)的相關(guān)問題。但是,GCL需要先學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)后,再利用獎(jiǎng)勵(lì)函數(shù)進(jìn)行策略優(yōu)化,實(shí)現(xiàn)復(fù)雜且效率低下。為解決上述問題,GAIL 算法[67]使用對(duì)抗生成網(wǎng)絡(luò)來完成逆強(qiáng)化學(xué)習(xí),與GCL 算法不同,GAIL 算法可以直接從專家數(shù)據(jù)中學(xué)到策略。目前,GAIL 算法已經(jīng)廣泛用于各種復(fù)雜機(jī)械控制任務(wù),但由于對(duì)抗性模型不穩(wěn)定,因此研究人員提出VAIL 算法[68],通過對(duì)內(nèi)部表示之間的互信息進(jìn)行約束保持訓(xùn)練穩(wěn)定性。

        5 多任務(wù)場景下的算法泛化性能增強(qiáng)問題

        當(dāng)前的強(qiáng)化學(xué)習(xí)方法都是通過與環(huán)境交互,根據(jù)獎(jiǎng)勵(lì)函數(shù)動(dòng)態(tài)優(yōu)化策略。這就造成了策略是與環(huán)境緊密相關(guān)的,是用來處理單個(gè)任務(wù)的。然而現(xiàn)實(shí)世界問題本質(zhì)是多模態(tài)的,生物大腦的數(shù)據(jù)處理也是遵循多任務(wù)處理策略的。當(dāng)前算法在環(huán)境或目標(biāo)發(fā)生變動(dòng)后,算法的泛化性較差,制約RL 在實(shí)際物理空間任務(wù)中的應(yīng)用。近年來為了解決這個(gè)問題,學(xué)術(shù)界也提出了新的思路。

        5.1 多任務(wù)強(qiáng)化學(xué)習(xí)

        多任務(wù)強(qiáng)化學(xué)習(xí)本質(zhì)上是利用前期輔助任務(wù)訓(xùn)練得到的先驗(yàn)知識(shí),提高面對(duì)新任務(wù)時(shí)的模型效果,核心思想是在不同但相關(guān)的源任務(wù)和目標(biāo)任務(wù)之間遷移知識(shí),以提高用于學(xué)習(xí)目標(biāo)任務(wù)的機(jī)器學(xué)習(xí)算法的性能。

        多任務(wù)強(qiáng)化學(xué)習(xí)的一種思路是使用多個(gè)輔助任務(wù)對(duì)網(wǎng)絡(luò)架構(gòu)進(jìn)行訓(xùn)練,優(yōu)化任務(wù)間共享的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)。之前的學(xué)習(xí)經(jīng)驗(yàn)遷移類似于參數(shù)微調(diào),實(shí)質(zhì)上是一種破壞性的過程,會(huì)使得原本學(xué)習(xí)到的策略被遺忘。RUSU 等[69]提出漸進(jìn)神經(jīng)網(wǎng)絡(luò),并開發(fā)一個(gè)能夠在學(xué)習(xí)過程中將特征層次的每一層納入先驗(yàn)知識(shí)的系統(tǒng),使得經(jīng)驗(yàn)遷移的同時(shí)不會(huì)遺忘先驗(yàn)知識(shí),但是缺點(diǎn)在于參數(shù)數(shù)量、網(wǎng)絡(luò)復(fù)雜度會(huì)隨著任務(wù)數(shù)量的增加而增加,并且通過輔助任務(wù)添加的網(wǎng)絡(luò)結(jié)構(gòu)是固定的。PathNet[70]是基于漸進(jìn)神經(jīng)網(wǎng)絡(luò)開發(fā)的一種新型學(xué)習(xí)網(wǎng)絡(luò),在學(xué)習(xí)期間使用遺傳算法通過神經(jīng)網(wǎng)絡(luò)進(jìn)行復(fù)制和突變選擇路徑,可以進(jìn)行靈活連接,同時(shí)可以避免災(zāi)難性遺忘,得到比漸進(jìn)神經(jīng)網(wǎng)絡(luò)更好的泛化性能,但劣勢在于遺傳算法樣本效率較低,并且收斂速度慢。Policy Distillation方法[71]將復(fù)雜模型學(xué)習(xí)到的特征壓縮為比例更小、速度更快并保持性能不變的簡化模型,可以使用該方法提取智能體策略,用于訓(xùn)練一個(gè)在專家級(jí)別上具有較小規(guī)模和較高效率的新網(wǎng)絡(luò)。Actor-Mimic方法[72]使智能體能夠?qū)W習(xí)如何同時(shí)執(zhí)行多個(gè)任務(wù),將積累的知識(shí)推廣到新領(lǐng)域,可被視為通過使用一組相關(guān)源任務(wù)來訓(xùn)練單個(gè)深度策略網(wǎng)絡(luò)的方法。使用Actor-Mimic 訓(xùn)練的模型可在許多游戲中達(dá)到專家級(jí)的性能,并可推廣到未訓(xùn)練過的新任務(wù)中。

        多任務(wù)強(qiáng)化學(xué)習(xí)的另一種思路是使用基于目標(biāo)的價(jià)值函數(shù)。UVFA 算法[73]使用基于目標(biāo)的價(jià)值函數(shù),該價(jià)值函數(shù)是通用的,可以根據(jù)不同的任務(wù)目標(biāo)對(duì)當(dāng)前的狀態(tài)進(jìn)行評(píng)價(jià),綜合了狀態(tài)和目標(biāo)的價(jià)值函數(shù),有助于泛化到相似但未見過的狀態(tài)目標(biāo)對(duì)。這類算法不僅針對(duì)狀態(tài)進(jìn)行概括,而且針對(duì)目標(biāo)進(jìn)行概括,并且可對(duì)沒有見過的狀態(tài)和目標(biāo)進(jìn)行預(yù)測,這使得UVFA 可以作用于狀態(tài)動(dòng)作空間大的多任務(wù)模型中,使智能體進(jìn)行多任務(wù)學(xué)習(xí),但實(shí)驗(yàn)結(jié)果表明UVFA 在多類型、高維度狀態(tài)動(dòng)作空間任務(wù)中的性能有待提升。UNREAL 算法[74]可看作UVFA 的并行版本,使用并行架構(gòu),加入若干無監(jiān)督輔助任務(wù),任務(wù)之間共享一些網(wǎng)絡(luò)參數(shù),用于學(xué)習(xí)更好的表示方式。通過訓(xùn)練多個(gè)面向同一個(gè)最終目標(biāo)的任務(wù)來提升行動(dòng)網(wǎng)絡(luò)的表達(dá)能力和水平。HER 算法[75]使用基于目標(biāo)的價(jià)值函數(shù)建立經(jīng)驗(yàn)池,并構(gòu)建目標(biāo)空間和狀態(tài)空間的映射,高效利用了采樣得到的樣本經(jīng)驗(yàn),不但在多目標(biāo)任務(wù)中完成泛化,而且在一定程度上緩解了稀疏獎(jiǎng)勵(lì)問題,但該方法的主要限制在于規(guī)定了目標(biāo)和狀態(tài)之間的對(duì)應(yīng)關(guān)系,狀態(tài)維度很低并且有明確的語義。如果狀態(tài)維度高或者語義不明確,則不便于基于狀態(tài)來制定有語義的目標(biāo),這一點(diǎn)可能限制了HER 算法在多任務(wù)上的應(yīng)用拓展。

        5.2 元強(qiáng)化學(xué)習(xí)

        元學(xué)習(xí)(Meta-Learning)是近幾年的研究熱點(diǎn),目的是基于少量無標(biāo)簽數(shù)據(jù)實(shí)現(xiàn)快速有效的學(xué)習(xí)模型,使其推廣到在訓(xùn)練期間從未遇到過的新任務(wù)和新環(huán)境中。元學(xué)習(xí)首先通過學(xué)習(xí)與相似任務(wù)匹配的內(nèi)部表示,為機(jī)器提供一種使用少量樣本快速適應(yīng)新任務(wù)的方法。學(xué)習(xí)這種表示的方法主要有基于模型的元學(xué)習(xí)(Model-Based Meta-Learning,MBML)和模型不可知的元學(xué)習(xí)(Model-Agnostic Meta-Learning,MAML)兩類?;谀P偷脑獙W(xué)習(xí)方法利用少量樣本的任務(wù)標(biāo)記來調(diào)整模型參數(shù),使用模型完成新任務(wù),該方法最大的問題是設(shè)計(jì)適用于未知任務(wù)的元學(xué)習(xí)策略非常困難。模型不可知的元學(xué)習(xí)方法通過初始化模型參數(shù),執(zhí)行少量的梯度更新步驟就能成功完成新的任務(wù)。

        元強(qiáng)化學(xué)習(xí)過程大致可以分為兩步:1)構(gòu)建inner loop 的快速學(xué)習(xí)過程;2)設(shè)計(jì)out loop 的元學(xué)習(xí)器,使得能夠利用inner loop 的樣本來優(yōu)化目標(biāo)。RL2算法[76]的inner loop 部分采用RNN 網(wǎng)絡(luò)的隱藏狀態(tài)來代表記憶和經(jīng)驗(yàn),核心是使用之前經(jīng)驗(yàn)的獎(jiǎng)勵(lì),通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)使得智能體能夠自動(dòng)學(xué)習(xí)判斷任務(wù)層面的信息,從而加快新任務(wù)的訓(xùn)練過程。RL2無論是在小規(guī)模還是大規(guī)模實(shí)驗(yàn)中都有優(yōu)異的表現(xiàn),缺點(diǎn)在于有時(shí)會(huì)忘記優(yōu)化目標(biāo),進(jìn)而無法重用先前先驗(yàn)信息,因此需要設(shè)計(jì)更好的outer-loop 算法。為避免在元強(qiáng)化學(xué)習(xí)中使用手工設(shè)計(jì)特征,SNAIL 算法[77]基于通用的元學(xué)習(xí)器架構(gòu),將時(shí)間卷積和軟注意力相組合。前者從過去的經(jīng)驗(yàn)中收集信息;后者用于確定特定的信息,在因果關(guān)系上聚集過去經(jīng)驗(yàn)中的有用信息,使得學(xué)習(xí)的泛化性更強(qiáng)。MQL 算法[78]有效回收并利用訓(xùn)練任務(wù)中采集的數(shù)據(jù),最大化智能體在當(dāng)前所有任務(wù)上的表現(xiàn),但算法實(shí)現(xiàn)過于復(fù)雜,待調(diào)參數(shù)也很多。與MQL 算法思路不同,MAML 算法[79]的目標(biāo)不是使智能體在當(dāng)前所有任務(wù)上表現(xiàn)最佳,而是學(xué)習(xí)一個(gè)初始化參數(shù)規(guī)則,該初始化的參數(shù)規(guī)則在參數(shù)空間中具有對(duì)每個(gè)任務(wù)最優(yōu)參數(shù)解的高度敏感性,使其能夠在一步梯度下降中沿著梯度方向快速達(dá)到最優(yōu)點(diǎn)。MAML 算法優(yōu)化參數(shù)在各個(gè)任務(wù)上的梯度方向矢量和,并且由于學(xué)習(xí)的是對(duì)于多個(gè)任務(wù)最敏感的初始化參數(shù)位置,可以用于解決各種類型的任務(wù),是一個(gè)適應(yīng)性很強(qiáng)的通用算法,但當(dāng)前MAML 算法主要集中于解決較為簡單的任務(wù),對(duì)于復(fù)雜任務(wù)的性能表現(xiàn)并不理想。PEARL 算法[80]使用任務(wù)編碼方式從前期學(xué)習(xí)的任務(wù)中針對(duì)新的任務(wù)獲取有效信息,并對(duì)新任務(wù)的不確定性做出更準(zhǔn)確的判斷,提高元強(qiáng)化學(xué)習(xí)中樣本的利用率。

        根據(jù)不同的研究目標(biāo),本文對(duì)DRL 分類情況、算法優(yōu)缺點(diǎn)和適用范圍進(jìn)行分析總結(jié),如表1 所示,對(duì)于其他不常見的DRL 研究分類,本文不再論述。

        表1 深度強(qiáng)化學(xué)習(xí)方法分類Table 1 Classification of DRL method

        6 未來展望

        近幾年,關(guān)于強(qiáng)化學(xué)習(xí)研究的論文在人工智能領(lǐng)域頂級(jí)會(huì)議中的錄用數(shù)量逐年增加,在2021年ICLR 會(huì)議中論文占比僅次于深度學(xué)習(xí),位列第二。斯坦福大學(xué)AI 實(shí)驗(yàn)室負(fù)責(zé)人Christopher D.MANNING 等專家都對(duì)強(qiáng)化學(xué)習(xí)的崛起表示認(rèn)同,也十分看好這一領(lǐng)域的發(fā)展前景。筆者認(rèn)為深度強(qiáng)化學(xué)習(xí)未來將成為智能決策方向的主流技術(shù),在機(jī)器人、自動(dòng)駕駛、兵棋推演、金融投資等領(lǐng)域都會(huì)產(chǎn)生深遠(yuǎn)影響。

        當(dāng)前,DRL 算法仍存在諸多挑戰(zhàn)有待解決,例如:在高維狀態(tài)動(dòng)作空間任務(wù)中的收斂性能和速度無法保障,難以應(yīng)用在實(shí)時(shí)性要求較高的場景中;樣本效率較低,難以應(yīng)用在采樣成本較高的任務(wù)中;高度依賴獎(jiǎng)勵(lì)函數(shù),如果獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)不合理或者難以定義,會(huì)使智能體學(xué)到不符合要求的策略;泛化性能較低,限制了在復(fù)雜任務(wù)場景中的應(yīng)用。針對(duì)以上挑戰(zhàn),筆者認(rèn)為DRL 未來的研究方向主要包括:

        1)提升算法收斂性。off-policy 方法將行動(dòng)策略和目標(biāo)策略分開,很好地解決了探索利用困境,并且較高的樣本效率加強(qiáng)了算法收斂性。如何進(jìn)行有效的重要性采樣是off-policy 方法未來的研究熱點(diǎn),為保證目標(biāo)策略可以有效利用行動(dòng)策略采樣得到樣本,同時(shí)要對(duì)軌跡進(jìn)行安全裁剪,避免模型發(fā)生較大波動(dòng)影響收斂,可以考慮將重要性采樣方法結(jié)合偏差糾正方法來平衡經(jīng)驗(yàn)偏差和方差,保證模型不會(huì)發(fā)生較大波動(dòng)。

        2)提高算法樣本效率。model-based 方法通過建??捎行岣邩颖拘?,但是模型誤差導(dǎo)致學(xué)習(xí)到次優(yōu)策略的問題依然存在,雖然很多DRL 算法致力于解決該問題,但是仍然不能完全避免模型缺陷,并且當(dāng)前model-based 方法對(duì)于復(fù)雜環(huán)境應(yīng)用效果不佳。未來可以考慮研究off-policy 與on-policy 相結(jié)合的方法,例如Q-Prop[81]、PCL[82]、trust-pcl[83]等方法通過結(jié)合兩種學(xué)習(xí)方式,兼顧了穩(wěn)定性和樣本效率。

        3)分層強(qiáng)化學(xué)習(xí)。在獎(jiǎng)勵(lì)函數(shù)稀疏或難以定義的任務(wù)中,內(nèi)在獎(jiǎng)勵(lì)會(huì)受到環(huán)境中內(nèi)在隨機(jī)性的影響,逆強(qiáng)化學(xué)習(xí)使用人類經(jīng)驗(yàn)作為樣本,不一定能學(xué)到最優(yōu)的策略,并且泛化性較差,所以逆強(qiáng)化學(xué)習(xí)發(fā)展前景不明朗。未來可以針對(duì)分層強(qiáng)化學(xué)習(xí)進(jìn)行重點(diǎn)研究,主要集中在3 個(gè)方面:(1)自動(dòng)分層能力,不再受限于由人工進(jìn)行層次劃分的設(shè)定;(2)結(jié)合大規(guī)模并行架構(gòu),使用強(qiáng)大的算力提升學(xué)習(xí)效率;(3)融合多目標(biāo)學(xué)習(xí)和元學(xué)習(xí),提高策略的通用性。

        4)增強(qiáng)算法適應(yīng)性。多任務(wù)下的策略遷移和元學(xué)習(xí)可以考慮結(jié)合并行架構(gòu)下不同的模擬環(huán)境進(jìn)行樣本收集和訓(xùn)練,提高樣本多樣性和訓(xùn)練速度,例如Distral 框架[84]、Impala 框架[40]和PopArt 框架[85],借鑒遷移學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)復(fù)用架構(gòu),以及基于目標(biāo)的強(qiáng)化學(xué)習(xí)算法中提取包含任務(wù)目標(biāo)的價(jià)值函數(shù)的方法,同時(shí)關(guān)注神經(jīng)科學(xué)、認(rèn)知心理學(xué)等交叉領(lǐng)域,融合多領(lǐng)域知識(shí)優(yōu)化強(qiáng)化學(xué)習(xí)算法。

        7 結(jié)束語

        本文對(duì)近年來深度強(qiáng)化學(xué)習(xí)的研究進(jìn)展進(jìn)行概述,回顧深度強(qiáng)化學(xué)習(xí)的發(fā)展歷程,依據(jù)研究目標(biāo)對(duì)當(dāng)前主流方法進(jìn)行分類。在處理高維狀態(tài)動(dòng)作空間任務(wù)時(shí),利用值函數(shù)算法,通過深度神經(jīng)網(wǎng)絡(luò)近似相應(yīng)的動(dòng)作價(jià)值函數(shù),并使用策略梯度法,將動(dòng)作選擇的概率參數(shù)化,通過優(yōu)化參數(shù)直接對(duì)策略進(jìn)行更新迭代。在提高算法樣本效率方面,使用off-policy 方法,分離行動(dòng)策略和目標(biāo)策略,平衡智能體探索和利用之間的矛盾,并利用model-based 方法,通過學(xué)習(xí)任務(wù)模型來提升算法效率。在面對(duì)獎(jiǎng)勵(lì)函數(shù)稀疏或難以表示的任務(wù)時(shí),使用基于計(jì)數(shù)或curiosity 的內(nèi)部獎(jiǎng)勵(lì),引導(dǎo)智能體優(yōu)化策略,并利用分層強(qiáng)化學(xué)習(xí),將任務(wù)分解成為一系列小任務(wù),使得智能體更容易找到探索方向,加快學(xué)習(xí)速度,同時(shí)采用逆強(qiáng)化學(xué)習(xí)方法,以人類經(jīng)驗(yàn)為模板進(jìn)行學(xué)習(xí)。在提高算法泛化能力方面,多任務(wù)強(qiáng)化學(xué)習(xí)和元強(qiáng)化學(xué)習(xí)都取得了較好的學(xué)習(xí)效果。當(dāng)前深度強(qiáng)化學(xué)習(xí)技術(shù)受到越來越多的關(guān)注,并在電子游戲、機(jī)械控制、推薦系統(tǒng)、金融投資等諸多領(lǐng)域得到了廣泛應(yīng)用并取得了大量研究成果,后續(xù)將針對(duì)深度強(qiáng)化學(xué)習(xí)算法的學(xué)習(xí)效率、運(yùn)行速度、泛化性能等方面做進(jìn)一步研究。

        猜你喜歡
        動(dòng)作策略方法
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        動(dòng)作描寫要具體
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        畫動(dòng)作
        動(dòng)作描寫不可少
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        非同一般的吃飯動(dòng)作
        1000部精品久久久久久久久 | 看中文字幕一区二区三区| 在线视频免费自拍亚洲| 亚洲国产精品高清一区| 国产激情电影综合在线看| 最新国产乱人伦偷精品免费网站| 久久久久久久无码高潮| 97超级碰碰碰久久久观看| 丝袜美腿在线观看视频| 又色又爽又黄的视频软件app | 亚洲国产综合久久精品| 国产一区二区三区在线综合视频| 亚洲综合成人婷婷五月网址| 欧美性大战久久久久久久| 中文毛片无遮挡高潮| 国产精品国产三级厂七| 熟女人妻中文字幕av| 国产黄在线观看免费观看不卡| 麻豆国产乱人伦精品一区二区 | 免费a级毛片无码| 国产爆乳乱码女大生Av| 亚洲国产中文字幕九色| 久久亚洲中文字幕精品一区| 色婷婷久久一区二区三区麻豆| 亚洲AV乱码毛片在线播放| 日韩美腿丝袜三区四区| 亚洲男同gay在线观看| 91久久青青草原免费| 精品久久亚洲一级α| 国产美女高潮流白浆视频| 特黄熟妇丰满人妻无码| 两个黑人大战嫩白金发美女| 国内自拍第一区二区三区| 日韩一区在线精品视频| 中文字幕乱伦视频| 日韩av中出在线免费播放网站| 久久久熟女一区二区三区| 国产成人精品白浆久久69| 国产露脸精品产三级国产av| 久久精品视频中文字幕无码| 国产三级黄色免费网站|