亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于內(nèi)在動機的深度強化學習探索方法綜述

        2023-10-27 02:51:00曾俊杰徐浩添尹全軍
        計算機研究與發(fā)展 2023年10期
        關(guān)鍵詞:動作智能環(huán)境

        曾俊杰 秦 龍 徐浩添 張 琪 胡 越 尹全軍

        (國防科技大學系統(tǒng)工程學院 長沙 410073)

        強化學習(reinforcement learning,RL)是監(jiān)督學習、無監(jiān)督學習之外的另一機器學習范式,通過設(shè)置反映目標任務(wù)的獎勵函數(shù),驅(qū)動智能體在與環(huán)境的交互與試錯中學習能使累計收益最大化的策略[1].強化學習一般采用馬爾可夫決策過程(Markov decision process,MDP)進行問題形式化描述.MDP 可表示為五元組M=(S,A,P,R,γ),其中S表示一個有限的狀態(tài)集合;A表示一個有限的動作集合;P:S×A→PS表示狀態(tài)轉(zhuǎn)移分布,即P(s,a)為智能體在狀態(tài)s∈S下采取動作a∈A的后繼狀態(tài)的概率分布;R:S×A→PR表示獎勵分布,即R(s,a)為智能體在狀態(tài)s下采取動作a能夠獲得的獎勵值的概率分布;γ ∈[0,1]為折扣因子.

        初始時,智能體處于按照某種規(guī)則設(shè)定的初始狀態(tài)s0∈S,然后采取動作a0將環(huán)境狀態(tài)轉(zhuǎn)移至s1~P(s0,a0),并獲得即時獎勵r0~R(s0,a0).按此步驟,循環(huán)往復.強化學習智能體的目標是學習一個策略π:S→PA,表示從狀態(tài)到動作概率的映射.在該策略下定義的價值函數(shù)為Vπ(st),動作價值函數(shù)為Qπ(st,at),其中st∈S和at∈A為時刻t下的狀態(tài)和動作.價值函數(shù)公式為

        其中期望值E在P和R的概率分布下計算得到.所有可行策略中的最優(yōu)策略記為

        在最優(yōu)策略下的價值函數(shù)為最優(yōu)價值函數(shù),記為

        深度強化學習(deep reinforcement learning,DRL)是在強化學習提供的最優(yōu)決策能力的基礎(chǔ)上,結(jié)合深度學習(deep learning,DL)強大的高維數(shù)據(jù)表征能力來擬合價值函數(shù)或策略,進而基于交互樣本訓練得到最優(yōu)價值函數(shù)或最優(yōu)策略,被認為是結(jié)合感知智能和認知智能的有效方法.

        深度強化學習在游戲人工智能、機器人、自然語言處理、金融等諸多領(lǐng)域取得了超越人類的性能表現(xiàn)[2-3],但在具備稀疏獎勵、隨機噪聲等特性的環(huán)境中,難以通過隨機探索方法獲得包含有效獎勵信息的狀態(tài)動作樣本,導致訓練過程效率低下甚至無法學習到有效策略[4].具體來說,一方面現(xiàn)實應(yīng)用中往往存在大量獎勵信號十分稀疏甚至沒有獎勵的場景.智能體在這類場景探索時需要執(zhí)行一系列特定的動作,以到達少數(shù)特定的狀態(tài)來獲得獎勵信號,這使得在初始時缺乏所處環(huán)境知識的智能體很難收集到有意義的獎勵信號來進行學習.例如,多自由度機械臂在執(zhí)行移動物體任務(wù)中,需要通過系列復雜的位姿控制將物體抓取并放置到指定位置,才能獲得獎勵.另一方面,現(xiàn)實環(huán)境往往具有高度隨機性,存在意料之外的無關(guān)環(huán)境要素(如白噪聲等),大大降低了智能體的探索效率,使其難以構(gòu)建準確的環(huán)境模型來學習有效策略.例如,部署應(yīng)用在商場的服務(wù)機器人在執(zhí)行視覺導航任務(wù)時,既要受到商場中大量的動態(tài)廣告圖片或視頻的傳感干擾,又可能面臨動作執(zhí)行器與環(huán)境交互時的結(jié)果不確定性,同時長距離的導航任務(wù)也使其難以獲得有效正獎勵信號.因此深度強化學習領(lǐng)域亟需解決探索困難問題,這對提高DRL 的策略性能和訓練效率都十分重要.

        針對獎勵稀疏、隨機噪聲等引起的探索困難問題,研究者們提出了基于目標、不確定性度量、模仿學習等的探索方法,但對任務(wù)指標的提升效果有限,并增加了額外的數(shù)據(jù)獲取的代價.近年來,源自心理學的內(nèi)在動機(intrinsic motivation)概念因?qū)θ祟惏l(fā)育過程的合理解釋,逐漸被廣泛應(yīng)用在DRL 的獎勵設(shè)計中以解決探索問題,成為了ICML,ICLR,NeurIPS,ICRA 等頂級學術(shù)會議上的熱點方向,受到來自清華、斯坦福、牛津、谷歌等頂級高校與研究機構(gòu)的關(guān)注.雖然已有文獻[5-8]介紹內(nèi)在動機在深度強化學習領(lǐng)域的研究現(xiàn)狀,但據(jù)我們所知,尚沒有文獻全面深入研究各類基于內(nèi)在動機的DRL 探索方法,并逐步深入討論其應(yīng)用于貼近真實世界的復雜動態(tài)場景中所面臨的關(guān)鍵問題以及未來的發(fā)展方向.我們從出發(fā)點、研究角度分析了相關(guān)綜述文獻與本文的主要區(qū)別,如表1 所示.

        Table 1 Similarities and Differences of Our Paper Compared with Published Related Papers表1 本文與已發(fā)表相關(guān)論文的異同

        基于上文梳理的深度強化學習面臨的探索困難問題,本文首先介紹3 種經(jīng)典探索方法以及它們在高維或連續(xù)場景下的局限性,接著全面梳理3 類不同的基于內(nèi)在動機的DRL 探索方法的基本原理、優(yōu)勢和缺陷,隨后介紹上述基于內(nèi)在動機的方法在不同領(lǐng)域的應(yīng)用情況,最后總結(jié)亟需解決的關(guān)鍵問題以及發(fā)展方向.

        1 經(jīng)典探索方法

        為提高智能體在未知環(huán)境中的探索效率,研究者們提出了簡單的隨機擾動方法,例如 ε-貪婪方法.除此之外,研究者們在小規(guī)模狀態(tài)動作空間下提出了許多具有理論保證的經(jīng)典探索方法,并推導出對應(yīng)的累計后悔值或樣本復雜度的理論上界.根據(jù)統(tǒng)計學中認識世界不確定性的觀點,本文將它們分為頻率派方法與貝葉斯派方法.

        1.1 隨機擾動方法

        隨機擾動方法可按照加入噪聲的位置差異分為2 類: 一是在動作選擇的過程中增加隨機性或噪聲,如在ε-貪婪算法中,以1-ε的概率選擇當前估值最高的動作,以 ε的概率在所有動作中隨機選擇.在此基礎(chǔ)上,Boltzmann 策略在學習初期設(shè)置較大的 ε值以促進探索,使 ε值隨學習過程逐漸減小,當策略收斂后完全利用當前模型以持續(xù)獲得最大獎勵.類似地,深度確定性策略梯度算法[9]對策略網(wǎng)絡(luò)輸出的動作加入隨機噪聲過程進行擾動,以此增加探索.二是在擬合策略的網(wǎng)絡(luò)參數(shù)上加入噪聲,比如參數(shù)空間噪聲模型[10]和NoisyNet 模型[11]等.

        1.2 頻率派方法

        頻率派基于實際數(shù)據(jù)樣本的估計來衡量狀態(tài)的不確定性,在數(shù)據(jù)量有限的情況下一般采用帶有置信水平的區(qū)間估計方法.以隨機多臂賭博機(multiarm bandit,MAB)問題為例[12],假設(shè)某賭博機有K∈N+條垂臂,每次可拉下其中1 條i∈{1,2,…,K},即動作at∈{1,2,…,K}.每條垂壁對應(yīng)的獎勵值符合概率分布ri~Ri,期望為ui,基于當前樣本的均值為ui.記當前總步數(shù)為T,nt(a)為到時刻t為止動作a被選中的次數(shù),因此有=T.根據(jù)大數(shù)定理,有=u(a).又根據(jù)Hoeffding 集中不等式,u(a)所在的區(qū)間的置信度為,如式(4)所示:

        據(jù)此提出的UCB 算法按照“面對不確定性的樂觀”(optimism in the face of uncertainty,OFU)哲學[13],在時刻t遵循原則選擇動作:

        除MAB 問題外,大量研究成果將帶有置信水平的區(qū)間估計作為工具擴展到不同的MDP 場景中,推導出不同的值函數(shù)更新策略以及對應(yīng)的樣本復雜度.例如,MBIE-EB(model-based interval estimationexploration bonus)[14]在回合制MDP 的背景下,通過推導狀態(tài)動作對獎勵值和狀態(tài)轉(zhuǎn)移向量的上置信界,提出在狀態(tài)動作值更新公式中加入探索獎勵:

        其中 β是該算法的輸入,是一個常量,n(s,a)是對狀態(tài)動作對(s,a)的已訪問次數(shù).

        此外,依托基于模型的RL 方法有UCRL2[15]和UCBVI[16]等基于UCB 的探索方法,依托無模型的RL方法包括UCB-H 和UCB-B 等[17].

        1.3 貝葉斯派方法

        貝葉斯學派觀點認為,面對未知環(huán)境人們維護著對于所有可能模型的概率分布以表達其不確定性,隨著觀測證據(jù)的增多,后驗分布一般比先驗分布更能反映不同備選模型與真實模型的接近程度.由于在選擇動作時不僅依據(jù)觀測狀態(tài),也必須考慮對信念狀態(tài)的更新,貝葉斯強化學習方法被認為有助于提高探索效率,防止陷入局部最優(yōu),且同時考慮利用現(xiàn)有策略最大化累積收益[18].其在無折扣MDP 下對應(yīng)的貝爾曼最優(yōu)方程為

        其中s和s′為前狀態(tài)與后繼狀態(tài),b和b′為前信念狀態(tài)與后繼信念狀態(tài),H表示從s開始接下來H個步長.然而,信念狀態(tài)的數(shù)量與觀測狀態(tài)和動作數(shù)量成指數(shù)關(guān)系,難以用值迭代等方法精確計算得到最優(yōu)貝葉斯策略.為此,研究者們設(shè)計了許多近似或采樣方法以在多項式步數(shù)內(nèi)得到貝葉斯意義上的次優(yōu)策略.例如,基于啟發(fā)式貝葉斯的BEB(Bayesian exploration bonus)[18]算法,通過在式(7)對應(yīng)的更新公式右側(cè)加入探索獎勵:

        貝葉斯方法中另一類經(jīng)典方法是湯普森采樣框架[19],它以狀態(tài)轉(zhuǎn)移概率等系統(tǒng)參數(shù)的先驗概率分布為起始,通過迭代逐步接近真實的模型參數(shù).在此框架基礎(chǔ)上,研究者們提出了各種利用采樣方法近似求解貝葉斯MDP 模型的方法[20-21].

        1.4 小結(jié)

        隨機擾動方法缺少對具體狀態(tài)和動作探索作用的評估,難以依據(jù)對狀態(tài)的某種度量引導探索過程,因此無法形成有啟發(fā)性的探索過程,也被稱為無指導探索[22].頻率派方法或貝葉斯派方法,大多僅是在小規(guī)模場景中推導出了樣本復雜度或期望后悔值的上界,具有一定理論保證,但很難直接應(yīng)用到更加復雜的環(huán)境如具有動態(tài)性和不確定性的實際場景.例如MEIB-EB[14]和BEB[18]算法都需要對狀態(tài)動作對有準確的計數(shù),在小規(guī)模的狀態(tài)和動作空間條件下是可行的,但無法應(yīng)用于動態(tài)、高維或連續(xù)場景中,亟需啟發(fā)性更強、計算效率更高的探索方法.

        2 基于內(nèi)在動機的深度強化學習探索方法

        為解決大規(guī)模狀態(tài)動作空間中由稀疏獎勵、隨機噪聲干擾等產(chǎn)生的探索困難問題,研究者們提出了基于目標、不確定性度量和內(nèi)在動機等深度強化學習探索方法[7-8].基于目標探索的方法通過對興趣狀態(tài)進行分析來生成探索性子目標,同時對如何到達子目標的過程進行控制,以提高智能體在復雜環(huán)境中的探索效率.這類方法偏規(guī)劃,重點在于存儲狀態(tài)和軌跡信息,并根據(jù)存儲的信息規(guī)劃生成子目標點,然后學習如何到達子目標點.基于不確定性度量的方法通常采用價值函數(shù)的貝葉斯后驗來顯示建模認知不確定性,或者采用分布式價值函數(shù)來額外評估環(huán)境內(nèi)在不確定性,以鼓勵智能體探索具有高度認知不確定性的狀態(tài)動作對,并盡量避免訪問具有高度內(nèi)在不確定性的區(qū)域.該方法更多偏向于挖掘價值函數(shù)中的不確定性,體現(xiàn)的是計算思維.

        與基于目標探索的方法和基于不確定性度量的方法相比,本文所關(guān)注的基于內(nèi)在動機的方法從行為學和心理學中內(nèi)在動機驅(qū)動高等生物自主探索未知環(huán)境的機理出發(fā),將“新穎性”等多種源自內(nèi)在動機的啟發(fā)式概念形式化為內(nèi)在獎勵信號,以驅(qū)動智能體自主高效探索環(huán)境,體現(xiàn)的是一種更抽象和擬人的思維.具體來說,內(nèi)在動機源于高等生物在追求提高自主性和能力或掌控力的過程中獲得的愉悅感,是驅(qū)動無外界刺激條件下探索未知環(huán)境的動力.內(nèi)在動機在DRL 中,可以被映射為內(nèi)在獎勵信號[23],與基于值函數(shù)或策略梯度的深度強化學習方法相結(jié)合,形成具備強啟發(fā)性的探索策略,以提高智能體探索復雜未知環(huán)境的效率.

        如何在內(nèi)在獎勵信號中形式化“新穎性”“好奇心”“學習提升”“多樣性”“控制力”等源自內(nèi)在動機的啟發(fā)式概念,是設(shè)計基于內(nèi)在動機的DRL 探索方法的關(guān)鍵內(nèi)容.根據(jù)內(nèi)在獎勵信號的不同啟發(fā)式來源并參考文獻[24]中設(shè)想的各類基于內(nèi)在動機的計算框架,本文將基于內(nèi)在動機的深度強化學習探索方法主要分為3 類: 基于計數(shù)的方法、基于知識的方法和基于能力的方法,如圖1 所示.

        Fig.1 Method classification of exploration approaches in deep reinforcement learning based on intrinsic motivation圖1 基于內(nèi)在動機的深度強化學習探索方法分類

        2.1 內(nèi)在動機的背景

        為便于深入理解基于內(nèi)在動機的DRL 探索方法構(gòu)建的強啟發(fā)性探索策略,本節(jié)從行為學和心理學的角度闡述了內(nèi)在動機的概念和功能.

        2.1.1 概念

        內(nèi)在動機是源自行為學和心理學的概念,對它的發(fā)現(xiàn)和討論最早見于1950 年Harlow[25]對于獼猴在無任何外界獎勵條件下數(shù)小時樂此不疲地解決特制機械謎題現(xiàn)象的解釋.類似現(xiàn)象的不斷發(fā)生打破了此前動機理論或驅(qū)動力理論的觀點,即所有行為都是受生理需求(如饑渴、疼痛、性需求)的直接驅(qū)動[26].此后數(shù)十年間,心理學家、神經(jīng)生物學家等對內(nèi)在動機的機理和功能的研究持續(xù)不斷[27-28].

        總體上說,內(nèi)在動機來自人們對各類能夠提供新穎性、驚奇、好奇心或挑戰(zhàn)的活動的最自然的興趣[29].在進行這類活動時,大腦能夠感受到動態(tài)的愉悅、興奮或滿足感,驅(qū)使人們關(guān)注過程本身(例如探索未知環(huán)境、了解未知知識、掌握新技能等過程),而非關(guān)注外界的獎懲信號.從技能學習角度出發(fā),有研究人員認為對認知的挑戰(zhàn)在一定限度內(nèi)(既不過分困難又不過于容易),學習提升明顯的探索任務(wù)是最能激發(fā)大腦興趣的場景[30].此外,設(shè)定符合發(fā)育心理學觀點的難度和復雜度遞增的學習進程,能夠穩(wěn)步推進對多元化技能和知識的掌握,從而有效提升探索未知環(huán)境的效率和能力[31].總而言之,內(nèi)在動機的本質(zhì)可以理解為大腦對實現(xiàn)自主性和提高能力或掌控力的追求[32].

        2.1.2 功能

        內(nèi)在動機有別于以外在獎勵的形式為人們所熟知的外在動機(extrinsic motivation).從進化意義上來說,2 種動機驅(qū)動的行為都能夠提高生物體對環(huán)境的適應(yīng)能力、增加存活和繁殖的概率,但卻具有各自不同的實現(xiàn)途徑[33].外在動機以身體恢復內(nèi)穩(wěn)態(tài)為目標,通過生物體與外部環(huán)境的交互來學習特定的策略,以增強個體對外界動態(tài)環(huán)境的適應(yīng)力.因此外在動機產(chǎn)生的學習信號強弱與內(nèi)穩(wěn)態(tài)需求緊密相關(guān).內(nèi)在動機產(chǎn)生的信號則來源于大腦神經(jīng)信號,通常不與身體的內(nèi)穩(wěn)態(tài)、特定任務(wù)目標直接相關(guān),會促使生物體在探索環(huán)境的過程中獲取更豐富的知識,提升自身技能水平,以產(chǎn)生和掌握有助于完成外界任務(wù)的復雜長序列行為[34].因此內(nèi)在動機信號的強弱與獲得知識或提升技能的過程密切相關(guān).

        2.2 常用測試環(huán)境

        本節(jié)梳理了基于內(nèi)在動機的DRL 探索方法的常用測試基準環(huán)境,以方便比較各類探索方法的性能表現(xiàn):

        1)Atari 街機游戲集[35]①https://github.com/mgbellemare/Arcade-Learning-Environment.該游戲集中共57 個游戲,其中有7 個獎勵非常稀疏、探索難度較高的游戲(Atari hard exploration games,Atari-HEG),其包括Atari-MR(Atari Montezuma’s Revenge)和Atari-FW(Atari Freeway)等,如圖2(a)(c)所示.

        Fig.2 Examples of common test environments圖2 常用測試環(huán)境示例

        2)多自由度的連續(xù)控制任務(wù)環(huán)境rllab[36]②https://github.com/rllab/rllab.該環(huán)境包括基本任務(wù)(如Pendulum)和多類型的運動控制(如Swimmer,Ant,Half-Cheetah 等),見圖2(b).

        3)游戲Doom 的3 維仿真環(huán)境VizDoom[37]③https://github.com/mwydmuch/ViZDoom.高維的圖像輸入、部分可觀的場景以及結(jié)構(gòu)復雜的迷宮環(huán)境,如Doom-MWH(Doom MyWayHome),見圖2(d).一般要求在初始環(huán)境未知條件下,進行探索或目標驅(qū)動的導航.

        4)OpenAI Gym[38]①https://gym.openai.com.OpenAI 開發(fā)的工具箱,集成了包括Atari、棋類游戲、采用MuJoCo 物理引擎的rllab 任務(wù)和Doom 等,并設(shè)計了公共接口.

        2.3 基于計數(shù)的方法

        在高維連續(xù)環(huán)境中,難以采用表格化的方式來表示狀態(tài),并且?guī)缀鯖]有任何2 個觀測狀態(tài)完全相同,絕大多數(shù)狀態(tài)的真實訪問次數(shù)都不會超過1 次,直接采用經(jīng)典探索理論方法中基于頻率派或貝葉斯派的方法,得到的計數(shù)值無法有效衡量狀態(tài)新穎性.針對上述問題,基于計數(shù)的方法一方面借鑒了UCB算法的思路,繼承了“面對不確定性的樂觀”思想,即向訪問次數(shù)較少的狀態(tài)或狀態(tài)動作對賦予更高的獎勵,以鼓勵智能體盡快探索狀態(tài)空間的未知部分;另一方面采用基于相似性的狀態(tài)泛化的解決思路.該類方法的實現(xiàn)途徑包括偽計數(shù)方法[39]和狀態(tài)抽象方法[40],其中偽計數(shù)方法可細分為基于密度模型的偽計數(shù)和間接偽計數(shù)方法.

        2.3.1 基于密度模型的偽計數(shù)方法

        由于在高維或連續(xù)環(huán)境條件下無法對狀態(tài)或狀態(tài)動作對的出現(xiàn)次數(shù)進行準確計量,那么一個自然的思路便是尋找具有類似性質(zhì)的變量以代替真實計數(shù).具有開創(chuàng)性和奠基性的工作是Bellemare 等人[39]發(fā)表于2016 年的基于密度模型的偽計數(shù)(pseudocount,PC)算法.它隱性地利用了狀態(tài)間的相似性,若當前狀態(tài)與此前出現(xiàn)過的其他狀態(tài)較為相似,則將其賦予相近計數(shù)值,從而一定程度實現(xiàn)了鄰近狀態(tài)間的泛化,并避免了統(tǒng)計真實次數(shù)的需要.其中用到的上下文樹切換(context tree switching,CTS)的密度模型[41-42],其本質(zhì)是生成式模型.式(9)(10)(11)簡要說明了PC 的計算過程:

        加入額外探索獎勵的改進DDQN(double deep qnetwork)[43]算法在探索難度巨大的Atari-MR 游戲中,將分數(shù)從此前算法的基本0 分提高到了均值超過3 000分,成為一大突破.該算法可將基于計數(shù)的探索方法泛化到大規(guī)模狀態(tài)空間,且存在理論上最優(yōu)性保證,然而其采用的CTS 模型在可解釋性、可擴展性和數(shù)據(jù)高效性方面受限.

        為解決CTS 模型面臨的問題,Ostrovski 等人[44]采用基于PixelCNN(pixel convolutional neural networks)[45]的卷積神經(jīng)網(wǎng)絡(luò)密度模型替換CTS 模型.PixelCNN估計的計數(shù)更為準確和更具可解釋性,且提高了訓練速度和穩(wěn)定性.在Atari-MR 場景中,與PC 算法相比,PixelCNN 的預測收益更加平滑,在新穎事件出現(xiàn)時才會給予更強烈的信號,使其得分達到了6 600 分.

        然而,PixelCNN 和PC 這2 種算法都是在原始狀態(tài)空間上構(gòu)建密度模型來估計計數(shù),對于未訪問過的高維復雜狀態(tài)的泛化性較差.針對此問題,Martin等人[46]提出的 φ-EB(φ-exploration bonus)算法在基于原始狀態(tài)空間編碼得到的特征空間上構(gòu)建密度函數(shù),提高了訓練數(shù)據(jù)的利用率,增強了在大規(guī)模狀態(tài)空間的泛化性.

        總之,這類偽計數(shù)方法通過密度模型在一定程度上實現(xiàn)了鄰近狀態(tài)間的計數(shù)值泛化,并基于OFU設(shè)計額外探索獎勵,可有效應(yīng)對大規(guī)模狀態(tài)空間中的探索困難問題,但是當觀察數(shù)據(jù)更為復雜時,比如VizDoom[37]中以自我為中心的圖像觀察,會導致其依賴的生成式模型的訓練非常困難.

        2.3.2 間接偽計數(shù)方法

        與基于密度模型的偽計數(shù)方法不同,間接偽計數(shù)方法無需構(gòu)建狀態(tài)或觀察的生成式模型,可通過設(shè)計相關(guān)的變量或模型,來間接估計狀態(tài)或狀態(tài)動作對的真實訪問次數(shù),然后在此基礎(chǔ)上設(shè)計內(nèi)在獎勵,以啟發(fā)智能體在復雜環(huán)境下進行探索.

        例如,UC Berkeley 的Fu 等人[47]提出的EX2(exploration with exemplar models)算法通過訓練模板模型作為分類器,輸出當前狀態(tài)與此前訪問的各個狀態(tài)的差異程度以衡量狀態(tài)的新穎性,并推導出這一輸出與狀態(tài)訪問次數(shù)間的關(guān)系.該算法的優(yōu)點是不需要依賴密度模型等生成式或預測模型,可以有效應(yīng)對觀察或狀態(tài)更為復雜的環(huán)境,然而其模板模型在訓練過程中遇到過擬合和欠擬合問題時,僅能通過手動調(diào)節(jié)超參數(shù)來緩解.基于這一隱式計數(shù)的內(nèi)在獎勵,該算法在更為復雜的Doom-MWH 任務(wù)的性能表現(xiàn)明顯優(yōu)于其他基于生成式模型的方法.

        Choshen 等人[48]提出了DORA(directed outreaching reinforcement action-selection)算法,提出了探索價值(E-value)的概念,可作為泛化的計數(shù)器來估計訪問次數(shù).類似于動作價值函數(shù)的定義,狀態(tài)動作對(s,a)的探索價值,不僅代表在(s,a)處值得探索的知識,還應(yīng)反映(s,a)的后續(xù)狀態(tài)序列蘊含的潛在知識.因此,DORA 模仿Q-learning 的狀態(tài)動作值更新方式設(shè)定了E-value 的更新規(guī)則.該算法設(shè)計的探索價值不僅考慮了當前狀態(tài)的不確定性,還考慮了后續(xù)狀態(tài)的不確定性,可以更精確地估計訪問次數(shù).DORA 算法在Atari-FW 游戲中取得了30 左右的均分,是基于CTS密度模型的偽計數(shù)方法[39]得分的2 倍.

        Machado 等人[49]受后繼表示(successor representation,SR)對環(huán)境結(jié)構(gòu)的表達能力的啟發(fā)[50],采用SR范數(shù)的倒數(shù)作為內(nèi)在獎勵來鼓勵探索.該算法無需依賴任務(wù)領(lǐng)域相關(guān)知識(如密度模型等)來估計狀態(tài)計數(shù),對于進一步研究表征學習與探索之間的聯(lián)系有較好的啟發(fā)作用.與CTS[39]和PixcelCNN[44]密度模型的偽計數(shù)方法相比,該算法在Atari-MR 等探索困難的場景中,取得了性能相當?shù)男Ч?

        總之,間接偽計數(shù)方法無需依賴觀察或狀態(tài)的生成式模型,可借鑒其他領(lǐng)域的思想來靈活設(shè)計相關(guān)變量與模型對狀態(tài)的真實計數(shù)進行估計,大大提高了偽計數(shù)方法的泛化性以及處理復雜高維觀察的能力,進一步擴展了偽計數(shù)方法的應(yīng)用范圍.

        2.3.3 基于狀態(tài)抽象的計數(shù)方法

        針對大規(guī)?;蜻B續(xù)狀態(tài)空間中難以采用真實計數(shù)獲得啟發(fā)信息的問題,基于密度模型和間接的偽計數(shù)方法采用偽計數(shù)方式來估計訪問次數(shù),但計數(shù)值的估計在絕大多數(shù)的情況下存在一定偏差,會影響由此計算得到的內(nèi)在獎勵的準確性.與這2 類方法相比,基于狀態(tài)抽象的計數(shù)方法采用抽象狀態(tài)的方式壓縮狀態(tài)空間來避免或降低偽計數(shù)的偏差.其核心是相似性度量[51],使得在狀態(tài)轉(zhuǎn)移關(guān)系中相近的具體狀態(tài)可以獲得相似的抽象表示[52].

        例如,UC Berkeley 的Tang 等人[53]提出#Exploration算法運用Hash 函數(shù)將高維狀態(tài)映射到整數(shù)空間,即φ:S→Z,再定義探索獎勵為.為在Hash 碼上將差異明顯的狀態(tài)區(qū)分開,該算法采用局部敏感Hash 中的SimHash 技術(shù),用角距離度量狀態(tài)間的相似度[54].此外還提出了基于自編碼器(autoencoder,AE)學習的AE-SimHash,以適應(yīng)特征提取較困難的高維狀態(tài)環(huán)境.該算法采用Hash 函數(shù)離散化狀態(tài)空間的方法,可有效解決高維連續(xù)狀態(tài)空間中的狀態(tài)計數(shù)問題,但是其嚴重依賴Hash 函數(shù)的選擇來確保合適的離散化粒度.

        為解決抽象狀態(tài)僅依賴觀測相似性而忽視了任務(wù)相關(guān)特征的問題,Choi 等人[40]提出了CoEX(contingency-aware exploration)算法.該算法借鑒了認知科學中常用的概念contingency awareness[55],即大腦在發(fā)育過程中逐漸能夠意識到自身行為在周圍環(huán)境中能夠產(chǎn)生影響的部分,從而構(gòu)建了可解釋性強的狀態(tài)抽象模型——注意動力學模型(attentive dynamics model,ADM).該模型主要采用3 類信息構(gòu)成具體狀態(tài)的表示 ψ(st),如式(13)所示:

        其中:αt表示整個可觀區(qū)域中智能體的可控部分,一般用2 維坐標表示;c(st)表示在Atari-MR 等游戲中不同房間的標識,與 αt構(gòu)成了2 層的空間位置表示;表示當前的累積外在獎勵,被用于提供智能體行為的上下文.CoEX 算法得到的抽象狀態(tài)更關(guān)注于環(huán)境中可控動力學信息,使得智能體能夠獲取自身位置等任務(wù)特征信息.得益于合理的抽象狀態(tài)表示,在Atari-MR 游戲中,該算法結(jié)合PPO(proximal policy optimization)[56]算法,通過20 億幀的訓練,取得了超過11 000 分的成績,但是其未能有效抽象環(huán)境中不可控元素的動力學信息.

        受contingency awareness 思想和圖像分割方法啟發(fā),Song 等人[57]提出了Mega-Reward 算法,認為抽象狀態(tài)的關(guān)鍵在于提取環(huán)境中實體控制特征信息.文獻[57]將環(huán)境中實體的控制區(qū)分為直接控制和隱式控制,前者可直接采用ADM[40]進行抽象,后者需要關(guān)系轉(zhuǎn)移模型來建立其與前者的聯(lián)系.該算法對不同控制力進行量化學習與加權(quán)求和得到累計的控制力,并以其數(shù)值的時間差分作為內(nèi)在獎勵.雖然該算法與ADM[40]提供了新的狀態(tài)抽象思路,但 αt等抽象特征都與Atari 游戲全局可觀的像素環(huán)境緊密相關(guān),通用性較為有限.

        2.3.4 小結(jié)

        表2 簡要總結(jié)了本節(jié)介紹的主要方法.盡管基于計數(shù)的方法不僅有較強的理論保證(如MEIB-EB[14]和BEB[18]等),并且能有效擴展到高維環(huán)境中(如PC[39],AE-SimHash[53]等),但其對探索效率的作用依賴于一個基本假設(shè),即狀態(tài)訪問次數(shù)的增加必然能提升模型估計的確定性.這一假設(shè)在靜態(tài)環(huán)境中能夠一定程度被滿足,但在動態(tài)變化的場景或狀態(tài)/動作空間層次性較強的場景中,訪問次數(shù)與模型估計精度之間很難具有明確關(guān)系[62].因此僅采用基于計數(shù)值或蘊含計數(shù)信息的變量的函數(shù)作為內(nèi)在獎勵,在面對動態(tài)場景或動作空間層次性較強的場景時,其探索效率將顯著降低.另一方面,這類方法均衡對待所有的狀態(tài)或區(qū)域,忽略了它們在引導探索進程或積累模型知識方面潛在的差異性,這種一致性可能導致計算資源分配的不合理以及影響下游任務(wù)完成的效果[6].此外,O’Donoghue 等人[63]指出基于OFU 原則對MDP 進行區(qū)間估計可能導致上置信界過分樂觀的累計效應(yīng),從而影響探索效率.

        Table 2 Summary of Main Methods Based on Count表2 基于計數(shù)的主要方法小結(jié)

        2.4 基于知識的方法

        第2 大類方法認為人們自主探索的一大動力來自于降低外部環(huán)境的不確定性[64].人在發(fā)育過程中逐漸形成對于環(huán)境運行的知識,大腦因此對未來的觀測狀態(tài)存在自上而下的期望,當未來狀態(tài)與該期望差異明顯時,“好奇心”“驚奇”“學習提升”“多樣化”等啟發(fā)性信息將會驅(qū)使個體對這一現(xiàn)象進行探究.這種認知現(xiàn)象在自適應(yīng)共振[65]和內(nèi)在動機[33]等理論中都有描述.照此不斷修正自我認知的DRL 探索方法,稱為基于知識的方法[24],大致可以分為基于預測模型[66]和基于信息論的方法.

        2.4.1 基于預測模型的方法

        現(xiàn)有大量方法為智能體建立和維護一個對動作結(jié)果和狀態(tài)轉(zhuǎn)移進行預測的模型,以模型精度表達外部環(huán)境的不確定性.以此預測模型為基礎(chǔ),智能體根據(jù)某些新穎性或可預測性的衡量指標學習價值函數(shù)或策略.依據(jù)產(chǎn)生內(nèi)在獎勵指標的不同,基于預測模型的方法可以分為基于預測誤差、預測結(jié)果不一致性和預測精度提升的方法.

        1)預測誤差

        早在DRL 成為研究熱點之前,基于預測誤差的強化學習方法就已受到關(guān)注[23,67-68].預測誤差是指預測模型的輸出與預測對象的真實取值之間的差別,用來形式化“驚奇”“好奇心”等概念,也被稱為對抗式好奇心[69].這類方法在預測對象是可學習的、確定性的或帶有同質(zhì)噪聲的情況下,學習效率較高[70].然而,在更實際或復雜的場景中,它們?nèi)菀妆画h(huán)境中的不可控成分(如白噪聲)嚴重影響,而陷入局部狀態(tài)空間中,導致探索進程受阻.因此這類方法的研究重點在于預測模型的建構(gòu)(包括對狀態(tài)的表示和/或?qū)恿W的預測)能否有效反映與探索相關(guān)的觀測信息.

        較早期的工作包括Stadie 等人[71]2015 年提出的模塊化框架: 對觀測狀態(tài)進行特征提取 σ:S→Rd,再為智能體建立動力學預測模型 M:σ(S)×A→σ(S).σ(st)由自編碼器的隱藏層提供,σ′(st+1)=M(σ(st),at)則由全連接網(wǎng)絡(luò)訓練得到,而內(nèi)在獎勵則是預測誤差的函數(shù).雖然該算法實現(xiàn)了構(gòu)建正向動力學預測模型,以預測誤差的形式提供內(nèi)在獎勵,但是其編碼器易受來自環(huán)境的隨機噪聲干擾,且在部分Atari 游戲上相對Boltzmann 策略、Thompson 采樣和DQN(deep q-network)[72]的優(yōu)勢比較有限.

        除正向的動力學預測模型外,Pathak 等人[61]為去除狀態(tài)表示中與智能體動作無關(guān)的隨機部分,設(shè)計逆動力學模型a?t=g(?(st),?(st+1);θI)從狀態(tài)轉(zhuǎn)移中預測動作.其中,? 為狀態(tài)表示函數(shù),θI為逆動力學模型的網(wǎng)絡(luò)參數(shù).此模型與正向模型at;θF)聯(lián)合,以自監(jiān)督學習方式進行訓練,同時以狀態(tài)預測誤差的2 范數(shù)平方為內(nèi)在獎勵訓練智能體的動作策略.內(nèi)在獎勵生成模型稱為ICM(intrinsic curiosity module)算法.在稀疏獎勵下的VizDoom[37]環(huán)境的導航、空間探索任務(wù)下ICM 算法的均分是當時的SOTA 算法VIME[58]的2 倍以上.ICM 算法依靠逆動力學模型可以在一定程度上緩解白噪聲問題,但是其僅考慮動作的即時效果,無法解決長周期決策中動作效果延時的問題.

        與ICM 算法類似,Kim 等人[73]提出的EMI(exploration with mutual information)算法除構(gòu)建正向動力學預測模型外,也構(gòu)建了相似的動作預測模型,但其在狀態(tài)和動作的嵌入向量基礎(chǔ)上人為施加線性的動力學約束和誤差.此外,EMI 算法將嵌入特征和動力學模型的學習與內(nèi)在獎勵的生成分離,規(guī)避了ICM 算法中逆動力學特征(inverse dynamics features,IDF)預測誤差不穩(wěn)定的問題[61].在探索難度較大的Atari 游戲和機器人控制任務(wù)中EMI 算法取得了相較EX2[47],ICM[61],AE-SimHash[53]等方法更優(yōu)或可比的結(jié)果,但是無法有效應(yīng)對長周期決策問題.

        為探究不同的狀態(tài)特征提取方法和不同測試環(huán)境對基于動力學模型的ICM 效果的影響,Burda 等人[74]將像素級特征(pixels)、權(quán)重隨機初始化后固定其權(quán)重的網(wǎng)絡(luò)的輸出特征向量、變分自編碼器(variational autoencoders,VAE)[75]和ICM 算法的IDF分別作為ICM 算法中的?(st).在不同類型的54 個測試場景的實驗結(jié)果表明,利用Pixels 特征難以學到有效的預測模型,基于VAE 的好奇心模塊則表現(xiàn)不穩(wěn)定;但意想不到的是,RF 則在所有環(huán)境中取得了與IDF 相當?shù)谋憩F(xiàn),但其在向未見過的新環(huán)境泛化時不如IDF.上述結(jié)果說明,即使隨機的特征提取也能較好地用于表征狀態(tài)間的差異,從而表達出環(huán)境信息的不確定性.另外,當面對狀態(tài)轉(zhuǎn)移隨機性較強的環(huán)境(如存在noisy TV 等白噪聲干擾)時,RF 和IDF 的學習效率都受到劇烈影響.

        相對IDF 特征,隨機網(wǎng)絡(luò)輸出的特征是確定的,不隨訓練過程而改變,因此能夠提供更穩(wěn)定的預測誤差.基于這一觀察,Burda 等人[60]提出非動力學的預測誤差形式化算法,即預測對象并非狀態(tài)轉(zhuǎn)移,而是狀態(tài)的嵌入式特征向量.預測目標產(chǎn)生于隨機初始化且權(quán)重固定的神經(jīng)網(wǎng)絡(luò)f:S→Rk,預測信號則來自于同結(jié)構(gòu)的預測網(wǎng)絡(luò)f? :S→Rk,其訓練目標是均方誤差的最小化,即將隨機網(wǎng)絡(luò)的權(quán)重向預測網(wǎng)絡(luò)蒸餾.因此這一算法稱為隨機網(wǎng)絡(luò)蒸餾(random network distillation,RND).這一預測誤差有效避免了動力學預測中的狀態(tài)遷移隨機性、預測目標不穩(wěn)定以及預測信號與目標間未知的異質(zhì)性等問題.在多個探索困難的Atari 場景中,包括Atari-MR 等,RND 算法在表現(xiàn)上顯著優(yōu)于基于動力學預測誤差的方法,但其訓練步長顯著增加,達到了1.97×109步.此外,文獻[60]承認RND 僅能解決短期決策中的局部探索問題,不能解決長周期的全局探索問題.

        針對環(huán)境觀察中存在白噪聲干擾問題,一些研究人員考慮利用時序上鄰接狀態(tài)間天然的相似性,降低新穎性判別時與智能體行為無關(guān)的成分[76-77].例如,Savinov 等人[76]提出的EC(episodic curiosity)算法以間隔k步以內(nèi)的狀態(tài)對為正樣本、k步以外的狀態(tài)對為負樣本訓練一個比對網(wǎng)絡(luò)CNet,用于狀態(tài)新穎性判別.EC 算法在探索過程中建立情節(jié)記憶時,通過CNet判斷當前狀態(tài)與記憶中狀態(tài)的差異性,若差異顯著則加入情節(jié)記憶.其內(nèi)在獎勵是CNet輸出值的函數(shù).EC 算法可以有效應(yīng)對干擾,在存在噪聲干擾的DMLab 場景中,其均分達到了26,是ICM 算法得分的4 倍以上.然而,EC 算法在計算內(nèi)在獎勵時需要比較當前狀態(tài)和情節(jié)記憶中的每個狀態(tài)的差異,導致其在大規(guī)模狀態(tài)空間中計算代價過高.Ermolov 等人[77]利用鄰近狀態(tài)對訓練了特定的狀態(tài)隱特征提取網(wǎng)絡(luò),從而在特征表示中去除隨機成分,以其為基礎(chǔ)構(gòu)建前饋的隱世界模型(latent world model,LWM),將狀態(tài)預測誤差作為內(nèi)在獎勵.得益于時序關(guān)系啟發(fā)式思想的利用,LWM 算法在多個Atari-HEG 環(huán)境中取得了優(yōu)于EMI 算法的分數(shù).

        另一個引起關(guān)注的問題是,在截斷式設(shè)定下,開始新情節(jié)時,某些尚未探索到的區(qū)域直接因基于預測模型的內(nèi)在獎勵較低無法得到訪問.為解決此問題,NGU(never give up)[78]算法中設(shè)計了雙層的內(nèi)在獎勵機制:情節(jié)內(nèi)(per-episode),基于初始清空的情節(jié)記憶進行狀態(tài)相似性比較,鼓勵在多個情節(jié)中周期性地重訪熟悉但尚未充分探索的狀態(tài);情節(jié)間(inter-episode),訓練RND 模型輸出預測誤差作為降調(diào)制因子,逐步降低已熟悉狀態(tài)的獎勵值.得益于該獎勵設(shè)計,NGU 在Atari-MR 上取得了當時最高的得分表現(xiàn)——16 800 分.

        2)預測結(jié)果不一致性

        1)中提及的基于預測誤差的方法僅采用單一預測模型的預測誤差作為內(nèi)在獎勵,容易使探索進程受到隨機因素影響.最近有研究者提出可以利用多個模型預測結(jié)果間的不一致性,表示狀態(tài)空間的探索程度.

        Pathak 等人[79]提出了Disagreement 算法,采用極大似然估計訓練一組隨機初始化的前向動力學模型,以不同模型預測的下一時刻狀態(tài)特征的方差作為內(nèi)在獎勵.在探索程度較低的區(qū)域,此方差值較大,可激勵智能體加強探索;在較為熟悉的區(qū)域,這些模型的輸出都趨向均值,因此方差較小,從而避免單模型輸出與受隨機因素的真實觀測間差異較大的情況.而Shyam 等人[80]提出的MAX(model-based active exploration)算法則利用模型間的信息熵度量其不一致性.這2 種算法利用多模型集成的方式,可以在一定程度上解決隨機噪聲干擾的問題,但由于需要訓練多個前向動力學模型導致計算復雜度較高.

        Ratzlaff 等人[81]利用生成式模型估計智能體對環(huán)境動力學信念的貝葉斯不確定性,基于此模型的多次采樣近似環(huán)境的后驗表示,以采樣輸出的方差作為內(nèi)在獎勵.在機械臂操控、機器人導航等獎勵稀疏的連續(xù)場景上的實驗結(jié)果表明,該算法的性能表現(xiàn)優(yōu)于基于模型集成方法[79-80],且數(shù)據(jù)利用率更高.

        3)預測精度提升

        利用基于預測誤差值設(shè)計的內(nèi)在獎勵啟發(fā)智能體探索環(huán)境容易因預測誤差自身的偏差影響探索過程的穩(wěn)定性.針對此問題,早在1991 年,Schmidhuber[51]提出可以量化預測模型的精度提升,以產(chǎn)生內(nèi)在獎勵信號,在量化內(nèi)在動機和驅(qū)動探索方面更具魯棒性.具體而言,在對于降低預測誤差沒有幫助的任務(wù)場景(如遠遠超出當前技能的挑戰(zhàn)、早已熟練掌握的任務(wù)以及完全隨機而不可控不可學習的環(huán)境狀態(tài)),智能體不會陷入其中而會尋找對于學習效果更有提升的狀態(tài)動作空間.因此這類內(nèi)在獎勵的形式化方法能促進智能體像人類一般具有穩(wěn)健而循序漸進的心智發(fā)育和技能掌握[23,70].

        早期的一些工作包括Oudeyer 等人[70]在2007 年提出的基于區(qū)域劃分的預測誤差進步評估方法.Lopes 等人[62]在2012 年以負對數(shù)似然作為預測誤差,以k步內(nèi)誤差的提升作為精度提升的量化,用它替代BEB[18]算法中的訪問計數(shù),在簡單環(huán)境下的探索效率取得顯著提升.近些年,Graves 等人[82]在模型預測的損失函數(shù)基礎(chǔ)上,漸進地設(shè)計了多種損失降低(即精度提升)或模型復雜度(即數(shù)據(jù)編碼的容量)提升的獎勵信號.該算法在合成語言建模等任務(wù)上顯著提升了學習效率,在某些情況下甚至提高了1 倍的學習效率.

        4)小結(jié)

        為方便對比,表3 對各類基于預測模型的主要算法進行了簡要總結(jié),列寫了它們的內(nèi)在獎勵設(shè)計形式、狀態(tài)表示方法、抗噪能力以及實驗效果等.從文獻數(shù)量和年份來看,預測誤差仍然是這類方法中最主要的“好奇心”內(nèi)在動機形式.其中因為對環(huán)境狀態(tài)的預測天然地容易受到環(huán)境噪聲的影響,必須輔以謹慎的狀態(tài)特征提取方法,才能使智能體僅關(guān)注具有探索價值的狀態(tài)子空間.例如,盡管ICM[61]考慮利用逆動力學預測任務(wù),在狀態(tài)表示中僅保留對智能體有影響的特征,但當噪聲與智能體動作存在關(guān)聯(lián)時,ICM 也無法較好地從噪聲區(qū)域擺脫[74].而LWM[77]所依靠的輔助任務(wù)則與狀態(tài)間的時序關(guān)系相關(guān),其特征表示的意義更加明確.另外,RND[60]提供了改變預測對象來提升探索效率的新思路.

        Table 3 Summary of Main Algorithms Based on Predictive Models表3 基于預測模型的主要算法小結(jié)

        從另一個角度看,基于誤差的方法依賴于單一預測模型的質(zhì)量和其預測結(jié)果的置信程度,容易受到模型構(gòu)建方法(例如神經(jīng)網(wǎng)絡(luò))本身固有缺陷(如過擬合、欠擬合等)的影響[79].相較而言,基于多模型[79]和單模型誤差的二階形式(即精度提升)[82]的方法,則能更系統(tǒng)性地避免此問題.目前,運用這種學習提升概念的形式化方法在基于預測模型類方法中研究較少,而在基于信息論的方法中較多.

        2.4.2 基于信息論的方法

        信息論中以熵(entropy)為基礎(chǔ)的一系列概念,天然地為衡量現(xiàn)實世界中的不確定性而生,因此信息度量也成為形式化啟發(fā)式概念,生成內(nèi)在獎勵的重要工具[83],用于促進智能體高效探索未知區(qū)域.以離散變量為例,熵的定義式[84]為

        與之緊密相關(guān)的互信息(mutual information,MI)則指通過觀測隨機變量Y而獲得關(guān)于X的信息量,即2 個變量的相互依賴程度,其定義為

        相對熵,又稱KL 散度(Kullback-Leibler divergence),表達2 個分布P和Q間的差異,表示為

        其中 X 為2 個分布共同的概率空間.

        在上述互信息、相對熵等度量基礎(chǔ)上,受“學習提升”“多樣性”“控制力”等啟發(fā)式概念的影響,研究者們從不同視角提出了多種內(nèi)在獎勵量化方法[85-87],可大致分為基于信息增益、基于最大熵和基于互信息的探索方法.

        1)信息增益

        Sun 等人[88]從貝葉斯法則角度指出,估計的環(huán)境模型參數(shù)分布 Θ在智能體接收到新觀測數(shù)據(jù)時進行更新,可用此時的 Θ′與 Θ間的相對熵表征信息增益(information gain,IG),作為智能體探索過程的學習提升.在此基礎(chǔ)上,Houthooft 等人[58]提出最大化動力學上的累計熵減,對應(yīng)每一時刻,即最大化式(17)所描述的變量.

        其中ξt={s1,a1,s2,a2,…,st,at}是當前軌跡.然而,要在高維環(huán)境中將此KL 散度作為內(nèi)在獎勵,必須解決后驗p(θ|ξt,at,st+1)的近似計算問題.為此,該工作提出VIME(variational information maximizing exploration)算法,將此問題轉(zhuǎn)化為變分推斷的ELBO(evidence lower bound)優(yōu)化問題,并用貝葉斯神經(jīng)網(wǎng)絡(luò)對環(huán)境模型參數(shù)化.在基于稀疏獎勵的高維連續(xù)控制任務(wù)中,VIME 算法性能顯著優(yōu)于基于貝葉斯神經(jīng)網(wǎng)絡(luò)預測誤差的內(nèi)在獎勵方法.然而,該算法的內(nèi)在獎勵計算需要高額的計算代價,導致其難以應(yīng)用到復雜場景中.

        在VIME 算法的基礎(chǔ)上,Chien 等人[89]提出同時最大化ELBO、基于隱狀態(tài)的預測誤差和抽象空間中st+1與at之間的互信息來驅(qū)動探索.該算法整合了多種內(nèi)在獎勵,可以有效提升探索過程的樣本利用率,其在任務(wù)型對話系統(tǒng)PyDial 中的表現(xiàn)優(yōu)于VIME[58]算法和ICM[61]算法.然而,在稀疏獎勵下的超級馬里奧兄弟游戲中,其僅取得了與ICM[61]算法相當?shù)谋憩F(xiàn),且算法復雜度更高.

        為解決VIME[58]面臨的計算復雜度過高的問題,Achiam 等人[90]采用基于神經(jīng)網(wǎng)絡(luò)擬合的全因子高斯分布代替基于貝葉斯網(wǎng)絡(luò)的環(huán)境模型,此外,將“驚奇”定義為真實轉(zhuǎn)移概率和模型之間的KL 散度.由于真實模型無從獲得,因此給出2 種近似的內(nèi)在獎勵,分別是“驚奇”(surprisal)和k步學習提升,對應(yīng)-logP?(s′|s,a)和logP?t(s′|s,a)-logP?t-k(s′|s,a).與VIME算法相比,文獻[90]算法可擴展性好,計算效率顯著提升,然而在連續(xù)控制任務(wù)場景中,該算法性能提升非常有限,甚至在個別任務(wù)上表現(xiàn)出了負提升,且還存在內(nèi)存耗費過高的問題.為解決此問題,Kim 等人[69]采用指數(shù)衰減的加權(quán)混合方法表示舊的環(huán)境模型,該方法雖然在視覺元素多樣而復雜的環(huán)境中取得顯著高于Surprisal[90],RND[60],Disagreement[79],ICM[61]等方法的模型精度,但并未指出如何解決此類環(huán)境中面向多類物體的結(jié)構(gòu)化表示學習問題[91].

        2)最大熵

        除了基于信息增益的方法,受基于計數(shù)方法的啟發(fā),研究者們還提出了一種思路,即最大化狀態(tài)分布的熵以激勵智能體充分探索不同狀態(tài)的方法.

        Hazan 等人[92]提出MaxEnt 算法將探索策略誘導下的狀態(tài)分布的信息熵最大化,促使智能體充分訪問不同狀態(tài);同時指出相關(guān)優(yōu)化思路也可以用于優(yōu)化其他信息度量,如最小化狀態(tài)分布與某指定的目標分布間的KL 散度或目標分布與狀態(tài)分布的交叉熵.對于MaxEnt 算法中涉及的基于狀態(tài)分布匹配的優(yōu)化過程,Lee 等人[93]指出可將其作為一種通用框架,將基于預測誤差或互信息等度量的方法視為分布匹配框架中的特例.

        考慮到MaxEnt 算法在原始狀態(tài)空間上進行狀態(tài)分布匹配的優(yōu)化時存在計算代價過高的問題,Vezzani 等人[94]提出利用相關(guān)任務(wù)采集到的先期數(shù)據(jù),學習與任務(wù)相關(guān)的狀態(tài)表示、去除不相關(guān)的特征維度,以壓縮狀態(tài)空間,從而提高探索策略效率.

        在Vezzani 等人[94]工作的基礎(chǔ)上,后續(xù)還有一些研究者提出在高維環(huán)境中利用狀態(tài)抽象表示的最大熵方法,包括Novelty[52],APT(active pre-training)[95],RE3(random encoders for efficient exploration)[96]等.其中Novelty 和APT 分別利用前向預測和對比學習等任務(wù)輔助完成狀態(tài)編碼,RE3 則直接采用權(quán)重隨機初始化的卷積網(wǎng)絡(luò)輸出狀態(tài)的低維特征向量,去除了表示學習的復雜過程.同時,為避免復雜的狀態(tài)密度建模,Novelty,APT,RE3 算法都采用了k近鄰方法對狀態(tài)熵進行估計.

        3)互信息

        互信息可以反映2 個變量間的依賴程度.一種很自然地在探索中應(yīng)用互信息的方式,就是最大化環(huán)境動力學模型中,從當前狀態(tài)動作對到下一個狀態(tài)的互信息,以增加智能體在探索過程中對環(huán)境的認知.根據(jù)香農(nóng)的信息率失真理論[84],Still 等人[97]認為可將從狀態(tài)st到動作at的映射看作有損壓縮,而后解碼為下一時刻狀態(tài)st+1.以信道兩端互信息量I({st,at},st+1)的最大化為優(yōu)化目標,則能使智能體在好奇心驅(qū)使下不斷追求提升自身對外部環(huán)境的預測能力.

        另一種在探索過程中應(yīng)用互信息的方式,是量化重要的內(nèi)在動機概念Empowerment[98]. 量化Empowerment 并不直接強調(diào)提升對觀測數(shù)據(jù)的理解或預測,而是指對動作結(jié)果有較強控制能力,能在后續(xù)時刻獲得更多的狀態(tài)選擇,因此也被稱為多樣性啟發(fā)式[99].如果將環(huán)境模型中的狀態(tài)轉(zhuǎn)移考慮為將動作a轉(zhuǎn)換為未來狀態(tài)s′的信道,信道容量則可看作是Empowerment.直觀講,Empowerment 代表智能體能夠通過動作序列a向未來狀態(tài)注入的最大信息量.Mohamed 等人[100]提出VMI(variational mutual information)算法,以互信息為基礎(chǔ)描述為

        其中 ω為探索策略.以E(s)為內(nèi)在獎勵,可使智能體能觀測到最大數(shù)量未來狀態(tài)的中間狀態(tài)轉(zhuǎn)移.由于高維條件下沒有快速有效的互信息計算方法,該工作借助變分推斷近似表達了動作的后驗分布,從而推導出了可用深度神經(jīng)網(wǎng)絡(luò)優(yōu)化的變分下界.

        在此基礎(chǔ)上,若將式(18)中的原子動作a擴展為option(即在原子動作基礎(chǔ)上的抽象動作、技能或策略)[101],則有公式[99,102]

        其中Z和S分別表示option 的隱變量和狀態(tài)變量.對其反向形式的最大化優(yōu)化過程,意味著提高option 的多樣性和給定終止狀態(tài)時option 的確定性(或辨識度);對其正向形式的最大化,則意味著增強option 對環(huán)境不確定性的削弱作用.

        以反向形式為例,Gregor 等人[99]于2016 年提出了該研究方向的奠基性算法——VIC(variational intrinsic control)算法.該算法將提前預設(shè)的動作序列(被稱為開環(huán)options)擴展為以終止狀態(tài)區(qū)分的options(被稱為閉環(huán)options).具體來說,在開環(huán)options 中智能體在執(zhí)行option 時,將盲目地遵循對應(yīng)的動作序列,而不考慮環(huán)境狀態(tài);而在閉環(huán)options 中,智能體的每一次動作選擇都是基于當前環(huán)境狀態(tài)慎重考慮的,大大提高了智能體對于環(huán)境狀態(tài)的Empowerment.在實驗環(huán)境為存在噪聲的網(wǎng)格世界中,VIC 算法顯著優(yōu)于開環(huán)options,可有效修正環(huán)境噪聲,但是該算法在2 維網(wǎng)格世界中學習的options 相對較為簡單,面臨難以應(yīng)用于復雜環(huán)境的問題.為解決該問題,研究者們在其基礎(chǔ)上開展了一系列工作.

        例如,為克服VIC 集中學習少數(shù)技能的問題,Eysenbach 等人[103]提出了DIAYN(diversity is all you need)算法,在最大化I(S;Z)的同時,還將先驗p(z)固定為均勻分布,提升了技能豐富性.針對VIC 在隨機環(huán)境中的偏差問題,Kwon[104]利用轉(zhuǎn)移概率模型和高斯混合模型來構(gòu)建環(huán)境的動力學模型,以達到最大化的Empowerment.Achiam 等人[105]提出了VALOR(variational autoencoding learning of options by reinforcement)算法,其設(shè)計了更為通用的框架,將終止狀態(tài)或單一狀態(tài)延伸為狀態(tài)動作軌跡,VIC 和DIAYN 等方法都成為其中特例.針對VIC[99],DIAYN[103],VALOR[105]等方法中存在的狀態(tài)空間覆蓋有限問題,Campos 等人[102]提出一個基于固定狀態(tài)分布的3 階段分解方案EDL(explore,discover and learn)以更充分地探索狀態(tài)空間.另外,為解決VIC[99]等option 發(fā)現(xiàn)方法中存在的泛化性差和推斷低效問題,Hansen 等人[106]提出將行為互信息與后繼特征結(jié)合互補,提高option 內(nèi)插泛化的效率.

        目前采用正向形式進行技能學習的方法相對較少.Sharma 等人[107]提出的DADS(dynamics-aware discovery of skills)算法利用條件熵H(s′|s,z)的最小化作為優(yōu)化目標之一,提高在技能z條件下狀態(tài)轉(zhuǎn)移的可預測性,從而能夠?qū)㈩A訓練階段得到的options 及其對應(yīng)的動力學過程有效應(yīng)用到基于模型預測控制的任務(wù)規(guī)劃中.

        上述無論是基于反向形式還是正向形式的方法都能一定程度使智能體自主演化出復雜程度遞增的生存技能,可為時間跨度更長或結(jié)構(gòu)復雜的下游任務(wù)提供有效的初始化基礎(chǔ).

        4)小結(jié)

        表4 簡要總結(jié)了信息論基礎(chǔ)上各類內(nèi)在獎勵設(shè)計方法.不難看出,基于信息增益的方法與2.4.1 節(jié)中基于預測模型精度提升的方法有較強關(guān)聯(lián),是用KL散度等指標對學習提升概念更理論化的描述,可以看作預測模型方法的延展.基于最大熵的方法通過最大化原始/抽象狀態(tài)分布的熵來提高探索效率,可有效結(jié)合其他狀態(tài)表示方法來進一步提高算法性能.基于互信息度量的方法通過量化Empowerment,以多樣性啟發(fā)的方式來鼓勵探索,成為解決自動技能發(fā)現(xiàn)問題的重要工具.這些方法以自動演化出的原子行為為基礎(chǔ),正逐漸服務(wù)于具有更強層次性的技能組織、技能遷移、任務(wù)規(guī)劃等下游場景[107].為提高信息度量指標的計算效率,可對信息度量進行一定程度近似,如變分下界[58]和模型估計的差分[90],但如何進一步提升信息度量的計算或近似效率仍是許多研究者關(guān)心的問題.

        Table 4 Summary of Main Methods Based on Information Theory表4 基于信息論的主要方法小結(jié)

        2.5 基于能力的方法

        基于能力的方法重點在于權(quán)衡達到目標的挑戰(zhàn)性和能否達成的能力,與其直接相關(guān)的心理學理論還包括效能、自我決定和心流等學說[24].Mirolli 等人[108]認為以內(nèi)在動機為基礎(chǔ)的學習是層次化的,不同類型的動機在不同層次上發(fā)揮功能性角色.其中基于知識的動機驅(qū)動個體在理解未預期事件的過程中,學習如何發(fā)現(xiàn)可用技能和訓練技能;基于能力的動機則工作在更高層次上,負責在不同場景中對已有能力進行調(diào)度使用和效果監(jiān)測,從而階段化完成自身設(shè)定的子目標和總目標.因此,對此類動機進行量化的核心是對自定目標實現(xiàn)難度的衡量和對動作效果的觀測.

        在Barto 等人[23]于2004 年提出的IMRL(intrinsically motivated reinforcement learning)算法中,內(nèi)在獎勵基于option 的目標狀態(tài)而產(chǎn)生,可認為是一種基于能力的內(nèi)在動機的形式化方法.

        與Barto 等人[23]提出的算法相比,Schembri 等人[109]提出了更直接的基于能力的模型.該模型既包含很多由actor-critic 神經(jīng)網(wǎng)絡(luò)模型構(gòu)成的“專家”,采用時序差分的方式學習動作策略;又包含一個“選擇者”,以“專家”的時序差分誤差為內(nèi)在動機負責在不同條件下將控制權(quán)分配給不同“專家”.在仿真機器人場景下,該模型可用于訓練智能體學習多種不同的導航任務(wù).Santucci 等人[110]提出了GRAIL(goaldiscovering robotic architecture for intrisically-motivated learning)算法.該算法采用一個4 層的內(nèi)在動機學習框架,能夠?qū)崿F(xiàn)對動作效應(yīng)的觀察、基于內(nèi)在動機的目標選擇、為實現(xiàn)目標進行資源調(diào)度以及對實現(xiàn)進程的監(jiān)控等功能.

        然而,盡管Oudeyer 等人[24]在2007 年就提出了多種基于能力的內(nèi)在動機學習的模型設(shè)想,但目前將此類動機顯式應(yīng)用到DRL 的方法并不多.一個可能的原因是在高維或動態(tài)條件下,該模型涉及對復雜環(huán)境和任務(wù)空間的分解、層次化和漸進式的技能獲得等,需要與多種方法結(jié)合來實現(xiàn).

        2.6 小結(jié)

        與UCB[111]和BEB[18]為代表的傳統(tǒng)方法相比,基于內(nèi)在動機的DRL 方法雖然缺乏對最(次)優(yōu)性和采樣復雜度的嚴格理論保證,但能一定程度解決公共測試集中高維狀態(tài)動作空間中的探索,從而幫助學習環(huán)境動力學模型或動作策略.具體來說,基于計數(shù)的內(nèi)在動機方法受新穎性的啟發(fā),一方面繼承了UCB 方法中“面向不確定性的樂觀”思想,另一方面采用基于相似性的狀態(tài)泛化,能夠有效應(yīng)對大規(guī)模狀態(tài)動作空間的探索問題,但其多用于靜態(tài)環(huán)境中,難以有效應(yīng)對動態(tài)性較強和隨機噪聲干擾較多的環(huán)境.

        基于知識的方法采用“好奇心”“驚奇”“學習提升”“多樣化”等啟發(fā)性信息來快速積累對于環(huán)境演化的知識,以降低外部環(huán)境不確定性對決策的影響.對于這類方法而言,復雜動態(tài)環(huán)境中隨機噪聲(包括環(huán)境白噪聲、動作執(zhí)行中不可預期的噪聲等)的處理直接關(guān)系探索效率.一方面,可以通過學習隱特征空間一定程度過濾隨機成分: 最基本地,采用通用設(shè)計的CNN 或自編碼器等特征提取模塊[47,53];更進一步,設(shè)計輔助任務(wù)僅學習與任務(wù)相關(guān)的特征,如ICM[61],CoEX[40]中的逆動力學預測任務(wù),以及獎勵預測任務(wù)[94]等.然而,當噪聲源和智能體的動作存在關(guān)聯(lián)時,上述方法的抗噪能力也十分有限[74].另一方面,多模型集成[79]和信息增益[69]等方法則能夠更系統(tǒng)性地評估智能體動作對于提升環(huán)境模型表達能力的價值.然而,在高維的連續(xù)空間等條件下,此類方法的難點在于計算復雜度和相關(guān)信息量估值精度間的平衡.

        與基于知識的方法相比,受控制力啟發(fā)的基于能力的方法從智能體本身出發(fā),工作在更高抽象的層次,負責在不同場景中通過對自定目標實現(xiàn)難度的定量分析,來調(diào)度使用已有能力并對效果進行檢測,從而實現(xiàn)高效引導探索過程.該類方法研究重點包括如何恰當表達智能體動作或option 與環(huán)境狀態(tài)之間的影響,以及互信息的高效且無偏的估計算法.

        3 應(yīng)用研究

        基于內(nèi)在動機的DRL 探索方法起初應(yīng)用于游戲領(lǐng)域的智能體策略生成,隨著DRL 算法在現(xiàn)實場景中的落地應(yīng)用,基于內(nèi)在動機的DRL 探索方法目前也擴展到機器人運動、機械臂操控、空間探索與導航等諸多應(yīng)用領(lǐng)域.

        3.1 機器人運動

        在機器人運動領(lǐng)域中,基于內(nèi)在動機的DRL 探索方法主要應(yīng)用于獎勵稀疏的多自由度復雜運動控制任務(wù)中,為受DRL 驅(qū)動的機器人增強探索過程的啟發(fā)性,進一步提高采樣效率,從而實現(xiàn)高效學習各關(guān)節(jié)的控制策略.例如,針對rllab[36]的多足仿真機器人運動任務(wù),Houthooft 等人[58]提出了基于信息增益的VIME 算法,將其與TRPO[59]深度強化學習算法相結(jié)合,可高效學習復雜運動控制策略.在S ∈R335,A ∈R35的復雜類人機器人Toddler 的仿真環(huán)境中,Achiam等人[105]提出的基于互信息的VALOR 算法經(jīng)過15 000次迭代能學習到40 種運動技能.針對四旋翼飛行器的激進運動控制任務(wù),Sun 等人[112]提出了基于預測模型的DRL 探索方法,并引入了基于相似性的好奇心模塊來加速訓練過程,其在模擬環(huán)境中訓練的策略可以直接遷移到現(xiàn)實世界中應(yīng)用.在多機器人運動控制任務(wù)中,Perovic 等人[113]引入了受人類好奇行為啟發(fā)的內(nèi)在獎勵來應(yīng)對稀疏獎勵問題,并在構(gòu)建的3 維物理仿真環(huán)境中檢驗了算法的有效性.

        3.2 機械臂操作

        在機械臂操作應(yīng)用中,基于內(nèi)在動機的DRL 探索方法能夠幫助真實機械臂在沒有關(guān)于自身動作空間先驗知識的條件下,嘗試對其他物體完成移動、抓取、推動、移動等的操作任務(wù)[114].例如,Lee 等人[93]提出的基于最大熵的SMM(state marginal matching)算法,在仿真環(huán)境中的Fetch 任務(wù)和現(xiàn)實世界的爪形機械臂抓取任務(wù)中,能夠探索到比PC[39]和ICM[61]算法更高的狀態(tài)熵,幫助完成復雜的機械臂操作策略學習.在更為復雜的任務(wù)設(shè)置中,要求現(xiàn)實世界的機械臂抓取隨機擺放的多個物體,其動作空間被離散化為224×224×16×16的規(guī)模,Pathak 等人[79]提出的基于預測模型的Disagreement 算法在抓取從未見過的物品的準確率上達到了67%.

        3.3 空間探索與導航

        在空間探索與導航領(lǐng)域,基于內(nèi)在動機的DRL探索方法除了可用于解決全局可觀的Atari 環(huán)境中空間探索等相關(guān)問題,還可在一定程度上解決類似現(xiàn)實場景中環(huán)境初始未知、局部可觀條件下的空間探索和目標導向的導航問題.在這類復雜探索與導航問題上,基于內(nèi)在動機的方法主要用于實現(xiàn)探索效率高的移動策略.例如,在Doom-MWH 任務(wù)中,A3C(asynchronous advantage actor-critic)算法結(jié)合基于預測誤差的ICM 算法,經(jīng)過預訓練和700 萬步的再訓練后導航成功率能達到66%左右[61],EX2在類似任務(wù)中的成功率能達到74%[47].針對復雜環(huán)境中機器人無地圖導航任務(wù),Shi 等人[115]提出了一種基于預測模型的DRL 探索方法,以基于稀疏的激光測距輸入,克服障礙物和陷阱等影響,可將仿真環(huán)境中訓練得到的策略擴展到真實場景中進行實際應(yīng)用.下一步,可考慮在基于內(nèi)在動機探索方法的基礎(chǔ)上,結(jié)合表示學習方法從局部觀測信息中估計當前位置或姿態(tài),以及利用緊湊而準確的空間記憶表示形式來進一步提升在空間探索與導航領(lǐng)域的應(yīng)用效果.

        3.4 小結(jié)

        基于內(nèi)在動機的DRL 探索方法通過構(gòu)建強啟發(fā)性的探索策略,可有效應(yīng)對機器人運動、機械臂操控、空間探索與導航等領(lǐng)域面臨的探索困難問題.此外,在量化投資、自然語言處理等領(lǐng)域,基于內(nèi)在動機的DRL 探索方法也發(fā)揮著重要作用.例如,針對股票市場的自動金融交易策略學習問題,Hirchoua 等人[116]將PPO 算法與基于好奇心驅(qū)動的風險學習的內(nèi)在獎勵相結(jié)合進行交易策略學習,并在8 個真實股票交易上對其訓練得到的策略的適用性和有效性進行了驗證;針對面向目標的對話策略學習問題,Wesselmann等人[117]采用基于好奇心的內(nèi)在獎勵來克服稀疏獎勵問題,以改進狀態(tài)動作空間的探索效率,從而獲取更多有關(guān)用戶目標的知識來訓練對話策略.

        4 關(guān)鍵問題與發(fā)展方向

        雖然基于內(nèi)在動機的DRL 探索方法在機器人運動等諸多應(yīng)用中取得了較好效果,但將其應(yīng)用于貼近真實世界的復雜動態(tài)場景時,仍面臨難以構(gòu)建有效的狀態(tài)表示、環(huán)境認知效率低、復雜任務(wù)空間探索效果差等關(guān)鍵問題.未來基于內(nèi)在動機的方法可結(jié)合表示學習、知識積累、獎勵設(shè)計、目標空間探索、課程學習、多智能體強化學習等領(lǐng)域方向來開展研究.

        4.1 關(guān)鍵問題

        4.1.1 有效的狀態(tài)表示

        如何構(gòu)建有效的狀態(tài)表示一直是將基于內(nèi)在動機的DRL 探索方法應(yīng)用于高維連續(xù)狀態(tài)動作空間所面臨的基礎(chǔ)且重要的問題.特別是隨著場景不斷向現(xiàn)實應(yīng)用逼近,環(huán)境中要素的種類和數(shù)量越來越多,要素間的關(guān)聯(lián)越來越復雜,往往包含層次性、級聯(lián)性等關(guān)系,并且動態(tài)性也越來越顯著.在這些情況下,現(xiàn)有方法難以提取與智能體決策直接或間接相關(guān)的狀態(tài)特征,因此很難單純依靠內(nèi)在獎勵的驅(qū)動對上述類型的狀態(tài)空間進行探索.

        在基于狀態(tài)抽象方法中,Choi 等人[40]提出的注意動力學模型可有效抽取可控區(qū)域的動力學信息.而Song 等人[57]提出了Mega-Reward,在直接可控特征信息[40]的基礎(chǔ)上,抽取了隱式控制的特征信息.這2 個工作在Atari-MR 上都取得了較好的表現(xiàn).然而,在機器人導航、自動駕駛等應(yīng)用中,存在更為復雜的多元異構(gòu)高維信息,在這類場景下構(gòu)建有效狀態(tài)表示是亟需解決的難題.

        4.1.2 環(huán)境認知效率

        對于外部環(huán)境形成較為充分的認知是基于知識的方法促使智能體探索的關(guān)鍵所在,但是隨著外部環(huán)境進一步復雜化,如存在隨機噪聲干擾、不可控的動態(tài)環(huán)境要素等,面臨環(huán)境動力學模型學習效率低等問題.

        在基于預測模型的方法中,Burda 等人[60]提出的RND 算法大大提高了預測誤差精度,且可以有效應(yīng)對隨機噪聲干擾,但是在Atari-MR 等場景中,該算法需要10 億級的訓練步長才能使其環(huán)境模型收斂,達到較好表現(xiàn).與Atari-MR 相比,在星際爭霸2 等存在自適應(yīng)的對手,或更為復雜要素的場景中,如何提高環(huán)境認知效率是基于知識的方法所要解決的重要挑戰(zhàn).

        4.1.3 復雜任務(wù)空間

        復雜任務(wù)空間往往存在多個可控要素或干擾要素,且其內(nèi)部呈現(xiàn)結(jié)構(gòu)化特征,宛如“迷宮”,僅依靠內(nèi)在動機提供的探索方面的引導信息,難以實現(xiàn)對該類任務(wù)空間的有效探索.

        Savinov 等人[76]提出的EC 算法,依托基于情節(jié)記憶的狀態(tài)新穎度判別方法,可引導智能體完成在仿真3 維場景下的導航任務(wù),但由于情節(jié)記憶的容量限制,難以應(yīng)用于大規(guī)模狀態(tài)空間.在機器人運動、操控、自主導航等復雜現(xiàn)實應(yīng)用中,如何將情節(jié)記憶、先驗知識等相關(guān)任務(wù)空間信息與基于內(nèi)在動機的方法結(jié)合,是提高復雜任務(wù)空間探索效果的難點.

        4.1.4 小結(jié)

        基于內(nèi)在動機的DRL 探索方法在解決復雜現(xiàn)實應(yīng)用問題時所面臨的難以構(gòu)建有效的狀態(tài)表示等關(guān)鍵問題,不是單純依靠內(nèi)在動機可以解決的,往往需要與其他領(lǐng)域方向有機結(jié)合,充分發(fā)揮基于內(nèi)在動機的啟發(fā)式探索策略的潛力,以應(yīng)對復雜動態(tài)場景中的探索困難挑戰(zhàn).

        4.2 發(fā)展方向

        Silver 等人[118]撰文分析了獎勵函數(shù)在促進智能體演化出各種形式的智能方面的重要作用.鑒于現(xiàn)實世界任務(wù)的復雜性(環(huán)境要素多元、空間結(jié)構(gòu)復雜、感知信息高維、任務(wù)反饋延遲等),本文對未來基于內(nèi)在動機方法的研究方向提出6 方面的展望.

        4.2.1 表示學習

        1)狀態(tài)表示

        本文簡述的方法所采用的狀態(tài)表示方法大多以自動特征提取為主,各個特征無明確語義,不能顯式描述環(huán)境中的要素及其關(guān)系,因此難以針對性提取與智能體決策相關(guān)的環(huán)境要素來構(gòu)建有效的狀態(tài)表示.

        在智能體與環(huán)境交互獲取樣本的過程中,算法一方面應(yīng)關(guān)注行為策略的演化,但更應(yīng)該注重環(huán)境的表示學習.具體來說,先識別和分割環(huán)境中的各種要素及其關(guān)系,然后在此基礎(chǔ)上,利用場景中各要素間的層次性、交互關(guān)系和局部的動力學等特征信息,構(gòu)建蘊含豐富環(huán)境信息的有效狀態(tài)表示.近年來出現(xiàn)了一些基于無監(jiān)督或自監(jiān)督的方法用于構(gòu)建這些狀態(tài)表示,如解耦學習[119]、對比學習[120]以及它們與好奇心探索的結(jié)合[121].

        目前已有一些研究者認為智能體只會對狀態(tài)空間中可學習、可控制的部分感興趣,其他部分由于不會對下游任務(wù)產(chǎn)生顯著影響,因此不應(yīng)對其浪費探索時間.研究者們[40,57,61]從控制性角度設(shè)計輔助任務(wù)進行表示學習,但多以黑盒形式輸出隱特征,缺乏對環(huán)境中任務(wù)相關(guān)要素的顯式建模.更具可解釋性的狀態(tài)表示與基于內(nèi)在動機的探索方法的結(jié)合,將會使智能體更專注于關(guān)鍵區(qū)域的探索,從而提高復雜場景下的策略學習效率.

        2)動作表示

        動作表示是通過對原子動作的合理抽象,幫助智能體更好地利用探索方法解決復雜問題,典型方法包括分層強化學習(hierarchical reinforcement learning,HRL).

        HRL 是一類將復雜問題空間層次化地分解為子問題和子任務(wù)的強化學習方法,文獻[101]提及的option 框架是其中的典型模型.該框架的底層以狀態(tài)觀測和子目標為輸入,輸出達成此目標的原子動作序列的抽象表示,即option;框架的上層是基于option而非原子動作的策略,時間尺度相較底層更長.針對這類框架一般無法自動為底層策略的學習提供獎勵函數(shù)的問題,研究人員提出一系列基于內(nèi)在動機形成的內(nèi)在獎勵,以提高底層策略的學習效率.例如,Kulkarni 等人[122]提出h-DQN(hierarchical-DQN),其上層的元控制器從預定義的可能目標中為下層的控制器選擇當前目標,并以目標達成與否作為標識為控制器生成二元的內(nèi)在獎勵.Vezhnevets 等人[123]提出的FuNs(feudal networks)則采用了端到端的學習方式,不僅使上層的“管理者”可自動生成代表狀態(tài)空間中優(yōu)勢方向的子目標,還為下層的“工作者”設(shè)計狀態(tài)差分與目標方向的余弦相似度作為內(nèi)在獎勵,以衡量“工作者”對子目標方向的趨近程度.然而,目前研究更多關(guān)注在底層策略中利用內(nèi)在動機提供豐富的獎勵信號,后續(xù)可結(jié)合內(nèi)在動機解決HRL 中更為關(guān)鍵的自動化學習層次結(jié)構(gòu)問題[124].

        4.2.2 知識積累

        盡管內(nèi)在動機為提高DRL 的采樣效率提供了有力工具,但由于內(nèi)在獎勵僅能為智能體提供探索方面的指導性信息,難以根據(jù)問題性質(zhì)對智能體行為施加約束和引導,可能使得部分探索動作并不誘導知識的增加.因此,本文認為利用探索過程中的累積知識可以有效輔助智能體以簡潔的行為模式進行探索.例如,在最近備受關(guān)注的Go-Explore[125]算法將人類面對未知環(huán)境的探索經(jīng)驗顯式地在智能體行為框架中表達出來,在Atari-MR 等任務(wù)中取得了數(shù)倍于NGU[78]等此前算法得到的最高分數(shù).另外,該算法對有價值狀態(tài)的回訪得益于其對過往經(jīng)歷的記錄和提取.類似地,EC[76]算法借助情節(jié)記憶對不同狀態(tài)間的可達性進行判別來量化狀態(tài)新穎性,在Doom-MWH中以較小的訓練代價得到接近100%的成功率;Chen等人[126]結(jié)合空間記憶、模仿學習以及探索覆蓋率內(nèi)在獎勵,在逼真的3 維SUNCG 環(huán)境中,單純依賴板載傳感器可有效探索未知環(huán)境.

        除此之外,對問題進行適當?shù)貙哟蝿澐諿127]、區(qū)域分割[53]或拓撲提取[128],可以降低子空間探索的難度,產(chǎn)生更流暢的探索行為模式,從而引導智能體更快積累環(huán)境空間的知識.例如,Chaplot 等人[127]將端到端的學習方式改進為模塊化分層框架,其中全局策略學習空間環(huán)境結(jié)構(gòu),局部策略應(yīng)對狀態(tài)估計的誤差,顯著降低了采樣復雜度.

        4.2.3 獎勵設(shè)計

        1)任務(wù)相關(guān)的內(nèi)在獎勵設(shè)計

        從內(nèi)在動機的角度出發(fā),源于不同啟發(fā)思想設(shè)計的各種通用的內(nèi)在獎勵函數(shù),在各類公共測試任務(wù)中驗證了各自效果.在通用內(nèi)在獎勵函數(shù)的基礎(chǔ)上,研究者在實際應(yīng)用中可以根據(jù)任務(wù)特點,設(shè)計更能直接反映目前需求的內(nèi)在動機.例如,Berseth 等人[129]提出的SMiRL(surprise minimizing reinforcement learning)算法以熵的最小化為優(yōu)化目標,使智能體在非穩(wěn)定環(huán)境中產(chǎn)生趨利避害行為.更一般地,信息增益是不同環(huán)境模型的KL 散度,比如環(huán)境覆蓋任務(wù)中的探索面積、追逃任務(wù)中與目標態(tài)勢的差距、多智能體通信中的信息容量等.如果智能體所需達到的目標是復合性的,獎勵信號的來源也可以是多源的,可以通過學習自適應(yīng)的調(diào)度策略依據(jù)當前環(huán)境信息和已有的探索軌跡確定當前階段的子任務(wù)目標和獎勵信號.

        2)內(nèi)在獎勵的自動化獲取

        除人工設(shè)計獎勵外,部分研究者考慮將基于內(nèi)在動機的內(nèi)在獎勵函數(shù)看做函數(shù)空間的抽象特征向量,可采用搜索或?qū)W習的方法自動獲取與任務(wù)匹配的內(nèi)在獎勵函數(shù).這類方法的基礎(chǔ)是Singh 等人[130]提出的最佳獎勵框架,其中將可使RL 智能體獲得最大外在獎勵的內(nèi)在獎勵定義為最佳內(nèi)在獎勵.在該工作[130]的基礎(chǔ)上,研究者們在小規(guī)模離散狀態(tài)動作空間中采用了簡單的遍歷式搜索的方法確定最優(yōu)內(nèi)在獎勵,但難以擴展至大規(guī)模或連續(xù)狀態(tài)動作空間的場景中.

        為解決此問題,研究者們提出了基于策略梯度的內(nèi)在獎勵參數(shù)化學習方法,用于優(yōu)化蒙特卡洛樹搜索等規(guī)劃算法在稀疏獎勵場景下的表現(xiàn)[131-132].在此基礎(chǔ)上,為解決多智能體場景中基于單一的團隊獎勵區(qū)分不同智能體貢獻的問題,Zheng 等人[133]將內(nèi)在獎勵的學習與DRL 智能體的策略學習相融合,以最大化與任務(wù)相關(guān)的累計外在獎勵.該工作采用基于雙層優(yōu)化架構(gòu)的元強化學習方法,外層對參數(shù)化的內(nèi)在獎勵函數(shù)進行學習,內(nèi)層將內(nèi)在獎勵函數(shù)作為超參數(shù)來優(yōu)化策略.目前內(nèi)在獎勵自動獲取方面的研究大多采用神經(jīng)網(wǎng)絡(luò)來擬合內(nèi)在獎勵函數(shù),雖然該方式無需特定問題背景下的領(lǐng)域知識以及心理學相關(guān)的設(shè)計方法,但是其生成的內(nèi)在獎勵函數(shù)可解釋性差,后續(xù)可以考慮利用基于心理學等方面的設(shè)計機理來增強自動化獲取的內(nèi)在獎勵函數(shù)的可解釋性.

        4.2.4 目標空間探索

        為提高智能體在高維、連續(xù)和高度非平穩(wěn)的目標/任務(wù)空間中的探索效率,近年來有大量研究者將內(nèi)在動機應(yīng)用于目標空間探索領(lǐng)域.例如,Forestier等人[134]提出了一個機器人控制背景下的基于內(nèi)在動機的目標探索過程(intrinsically motivated goal exploration processes,IMGEP)機制,即基于已有技能衡量各目標任務(wù)可能帶來的能力進步,以此組織對目標/任務(wù)空間的探索策略.為降低目標空間復雜度,Colas 等人[135]采用靈活的模塊化表示方式對目標空間進行編碼,在進行模塊和目標選擇時考慮預估的學習進步的絕對值,因此使智能體選擇當前能夠取得最大進展的目標或因遺忘而可能表現(xiàn)下降的過往目標.還可以考慮將無監(jiān)督學習的目標空間表示[136]以及解耦的目標空間表示[91]與內(nèi)在動機相結(jié)合,進一步提高探索效率.

        4.2.5 課程學習

        研究者們認為自然智能顯著超過目前的機器學習系統(tǒng)的一大能力,是通過觀察外部環(huán)境、自我設(shè)定目標而持續(xù)不斷學習并獲得技能和知識的漸進提升[137-138].這種復雜程度和難度遞增的學習過程在機器學習領(lǐng)域被稱為課程學習(curriculum learning,CL)[139].為降低課程學習對于領(lǐng)域知識的需求,研究者們提出了內(nèi)在動機與課程學習結(jié)合的各種形式.

        例如,Jaderberg 等人[140]通過設(shè)計輔助的預測任務(wù),為智能體提供額外的內(nèi)在獎勵,在增強對環(huán)境理解程度的同時提高了應(yīng)對后續(xù)復雜任務(wù)的能力.Graves 等人[82]則提出了基于模型預測能力的提升和模型復雜程度有限提高的2 類內(nèi)在獎勵,以解決課程學習中的任務(wù)選擇問題.Sukhbaatar 等人[141]提出一個非對稱自博弈機制,該機制基于任務(wù)難度設(shè)計內(nèi)在獎勵,自動形成任務(wù)探索的課程表.后續(xù)可考慮結(jié)合內(nèi)在動機進一步優(yōu)化課程學習中難度評分器和訓練調(diào)度器的性能.

        4.2.6 多智能體強化學習

        多智能體深度強化學習將DRL 的思想和算法用于多智能體系統(tǒng)的學習和控制中,以開發(fā)具有群體智能的多智能體系統(tǒng)來高效優(yōu)化地完成任務(wù)[142].在研究者們重點關(guān)注的協(xié)同與通信問題中,可結(jié)合內(nèi)在動機的探索方法產(chǎn)生多樣化的協(xié)同行為,或增加對于環(huán)境及其他智能體的認知,來實現(xiàn)更有效的協(xié)同與通信.

        例如,Iqbal 等人[143]在多智能體協(xié)同空間探索的設(shè)定下,基于共享信息針對不同的任務(wù)需求設(shè)計了多種類型的內(nèi)在獎勵,并學習高層控制器在實際任務(wù)環(huán)境下選擇不同獎勵訓練得到的策略.Jaques 等人[144]基于反事實推理,使智能體能夠通過仿真獲得自身動作對于其他智能體的因果影響,以此作為內(nèi)在獎勵能夠自發(fā)地使智能體學習到有意義的通信協(xié)議,促進更加有效的相互協(xié)同.文獻[144]還證明該獎勵形式等價于最大化不同智能體動作間的互信息.不僅協(xié)同行為可以通過內(nèi)在獎勵生成,Guckelsberger 等人[145]的工作也表明通過最小化Empowerment 等手段也可產(chǎn)生對抗性行為.目前多智能體強化學習領(lǐng)域的探索仍處在起步階段,可考慮在集中式控制分布式執(zhí)行架構(gòu)下結(jié)合現(xiàn)有的基于內(nèi)在動機的方法,提高每個智能體的探索效率,以增加聯(lián)合動作價值函數(shù)估計的準確性.

        5 總結(jié)

        本文首先描述了DRL 方法對高效率探索方法的需求、經(jīng)典方法的原理和局限性,接著引入了內(nèi)在動機的概念和功能,在此基礎(chǔ)上重點梳理了內(nèi)在動機與DRL 結(jié)合的不同形式,主要包括:1)受新穎性動機驅(qū)動的基于計數(shù)的內(nèi)在獎勵形式化;2)受好奇心驅(qū)動的預測誤差的獎勵設(shè)計;3)受學習提升期望驅(qū)動的精度提升和信息增益近似方法;4)以狀態(tài)多樣性為啟發(fā)式的最大熵方法;5)追求自主性和控制力的互信息量化方法.然后介紹了基于內(nèi)在動機的DRL 探索技術(shù)在機器人運動、機械臂操作、空間探索與導航等領(lǐng)域的應(yīng)用情況.最后深入分析了基于內(nèi)在動機的DRL 探索方法在應(yīng)用于貼近真實的復雜場景時,仍面臨著難以構(gòu)建有效的狀態(tài)表示、環(huán)境認知效率低、復雜目標/任務(wù)空間探索效果差等關(guān)鍵問題,并對基于內(nèi)在動機的探索方法結(jié)合表示學習、知識積累、獎勵設(shè)計、目標空間探索、課程學習、多智能體強化學習等領(lǐng)域進行了展望.

        作者貢獻聲明:曾俊杰、秦龍共同負責調(diào)研和論文撰寫;徐浩添、張琪對論文提出指導意見并完成論文格式修訂;胡越負責論文審閱,并給出詳細修改指導意見;尹全軍對論文提出指導意見并完成論文格式修訂;曾俊杰、秦龍作為共同一作,對本文做出同等貢獻.

        猜你喜歡
        動作智能環(huán)境
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學習的虛擬仿真環(huán)境
        孕期遠離容易致畸的環(huán)境
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動作描寫要具體
        畫動作
        一片内射视频在线观看| 久青草久青草视频在线观看| 欧美人与动牲交片免费| 手机AV片在线| 各类熟女熟妇激情自拍| 夹得好湿真拔不出来了动态图| 亚洲av无码第一区二区三区| 青青青伊人色综合久久亚洲综合| 国产精品日本一区二区三区在线| 黑人巨大精品欧美| 人妻在线日韩免费视频| 国产在线精品福利大全| 国产黄色一区二区三区,| 少妇久久久久久被弄高潮| 朝鲜女子内射杂交bbw| 丁香六月久久| 亚洲av专区一区二区| 丰满少妇人妻无码专区| 国产黄页网站在线观看免费视频 | 亚洲熟妇中文字幕日产无码| 亚洲岛国一区二区三区| 久久精品国产亚洲7777| 84pao强力打造免费视频34| 在线观看中文字幕一区二区三区| 亚洲男人av天堂久久资源| 亚洲日韩一区二区三区| 国产成人美女AV| 不卡av一区二区在线| 国产又猛又黄又爽| 亚洲自偷自偷偷色无码中文| 亚洲精品熟女乱色一区| 国产99一区二区三区四区| 变态 另类 欧美 大码 日韩 | 区久久aaa片69亚洲| 丰满少妇人妻无码超清| 中文字幕免费人成在线网站| 末发育娇小性色xxxx| 最新国产成人在线网站| 国产色av一区二区三区| 超碰cao已满18进入离开官网 | 中文字幕乱伦视频|