劉旖菲
摘要:深度強化學習在可以手動設計獎勵函數(shù)的領域取得了優(yōu)異的效果。逆向強化學習利用專家演示數(shù)據(jù)推斷獎勵函數(shù),可以有效解決強化學習的獎勵函數(shù)設計困難的問題。為了全面反映逆向強化學習的研究進展,本文對國內外公開發(fā)表的具有代表性的論文進行了概述。本文首先介紹了逆向強化學習的簡介,然后概述了逆向強化學習的研究進展,最后提出了逆向強化學習存在的問題以及未來的研究方向。
關鍵詞:人工智能;深度學習;逆向強化學習
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)15-0190-02
近年來,強化學習在復雜問題的處理上取得了不錯的效果。強化學習利用獎勵函數(shù)表示優(yōu)化目標,優(yōu)化目標決定了智能體的所學策略的最終形式。但是,好的獎勵函數(shù)的設計是困難的。一方面,獎勵函數(shù)的設計具有主觀性和經驗性;另一方面,一些任務的獎勵信號是稀疏的,無法用嚴格的理論知識推導獎勵函數(shù)的設計。因此,獎勵函數(shù)的設計是阻礙強化學習算法得到普遍應用的一個難點。
Ng等人提出[1],專家在完成某項任務時,其決策往往是最優(yōu)的或接近最優(yōu)的,當所有的策略產生的累積回報函數(shù)期望都不比專家策略產生的累積回報期望大時,強化學習所對應的回報函數(shù)就是根據(jù)示例學到的回報函數(shù)。通過逆向強化學習算法,智能體從專家的演示數(shù)據(jù)中推斷出獎勵函數(shù),并利用該獎勵函數(shù)學習策略,使得在該獎勵函數(shù)下所學習的最優(yōu)策略與專家的執(zhí)行策略接近。因此,逆向強化學習是解決強化學習的獎勵函數(shù)設計困難的問題的一個解決方案。
1 逆向強化學習的簡介
馬爾可夫決策過程(Markov Decision Process, MDP)由一個四元組構成,[M={S,A,T,r}]。其中,S表示狀態(tài)空間,A表示動作空間,T表示狀態(tài)轉移概率模型,r表示獎勵函數(shù)。在已知MDP的前提下,[π*]是累計獎勵值最大的最優(yōu)策略。此外,考慮到未來對現(xiàn)在的影響,故引入了貼現(xiàn)系數(shù)[γ]。
逆向強化學習考慮的情況是MDP的獎勵函數(shù)未知,提供一組從專家的執(zhí)行策略[π]中采樣得到的演示數(shù)據(jù)[D={?1,?2,…,?N}],每個演示數(shù)據(jù)由一組狀態(tài)動作對組成,[?i={(s0,a0),(s1,a1),…(sN,aN)}]。逆向強化學習的目標是利用演示數(shù)據(jù)學習隱藏的獎勵函數(shù)。
2 逆向強化學習的研究進展
早期的研究假設獎勵函數(shù)是特征向量的線性組合。Abbeel等人[2]利用線性函數(shù)表示獎勵函數(shù),雖然無法保證算法可以正確地學習專家所執(zhí)行的策略產生的累計匯報函數(shù),但是結果表明,該算法所學習的策略的表現(xiàn)效果與專家所執(zhí)行的策略的表現(xiàn)效果相當。Ziebart等人[3]提出基于最大熵的逆向強化學習,它可以有效地模擬大規(guī)模用戶的駕駛行為。在給定的起點和終點之間有多條行駛路徑,專家在任意一條路徑上行駛的概率與沿著該條路徑行駛所獲得的獎勵的指數(shù)成比例關系,通過最大化專家的行駛軌跡的后驗概率學習獎勵函數(shù)。該算法能通過改變行駛軌跡的分布特征解決專家的演示數(shù)據(jù)的次優(yōu)和隨機的問題。
Levine等人[4]使用擴展的高斯過程學習非線性化的獎勵函數(shù),同時還確定了每個特征與專家策略的相關性。該基于概率模型的算法可以從次優(yōu)和隨機的演示數(shù)據(jù)中學習復雜的行為,同時可以自動平衡智能體學到的獎勵函數(shù)的簡單性和觀察到的動作的一致性。
逆向強化學習有兩個基本挑戰(zhàn),其一是獎勵函數(shù)存在模糊性的問題,即智能體可以從一組專家演示數(shù)據(jù)中推斷出不同的獎勵函數(shù),其二是控制任務所涉及的系統(tǒng)動力學的復雜性的問題,許多早期的方法都是在每次迭代優(yōu)化的內循環(huán)中求解MDP,而這些方法需要完善的系統(tǒng)動力學知識體系和一個有效的離線解算器,因此限制了它們在復雜的現(xiàn)實場景中的應用,如機器人控制。Finn等人[5]提出引導成本學習,該方法可以學習復雜的非線性成本表示,如神經網絡,這消除了對成本特征的手工設計的精細程度的要求。此外,它可以應用于具有未知動力學特征的高維系統(tǒng)。它是基于最大熵的逆向強化學習模型,且是一種基于樣本的有效近似方法,其中,通過基于局部線性模型的策略學習算法生成樣本。將該方法應用于各種真實世界的機器人操作任務,評估表明,在一組模擬基準上,該方法優(yōu)于先前的逆向強化學習算法,并在多個真實世界的任務上取得了良好的結果。
3 存在的問題與未來研究方向
逆向強化學習學到的策略往往是次優(yōu)的,其表現(xiàn)效果低于專家的表現(xiàn)效果。這主要是由于兩個原因,一方面,樣本不具有完整性,考慮到訓練示例是由專家執(zhí)行的參考策略抽樣得到,從而導致用于訓練獎勵函數(shù)的訓練集是按照專家策略執(zhí)行時所訪問的狀態(tài)的子集,因此在大部分情況下,智能體的演示水平低于專家水平。此外,為智能體提供高質量的演示數(shù)據(jù)是困難的,因此,實際的最優(yōu)水平有可能遠高于專家水平。另一方面,逆向強化學習的目標僅僅是找到專家的執(zhí)行策略的隱含的獎勵函數(shù),卻沒有對專家的執(zhí)行策略的改進做進一步的探索。Brown等人[6]研究了傳統(tǒng)的逆向強化學習的學習效果不能超越專家的原因,并提出了軌跡排名獎勵外推(trajectory-ranked reward extrapolation, T-REX)。T-REX首先根據(jù)每個軌跡中的累積獎勵對采樣軌跡進行排序。然后,T-REX推斷一個由深度神經網絡參數(shù)化的獎勵函數(shù)。最后,對該網絡進行訓練。該方法遵循最大似然法的模式,該模式通過推斷的獎勵函數(shù)來解釋觀測的和排序得到的軌跡。TREX探索潛在的獎勵空間以推斷高質量的獎勵函數(shù),從而學習有效的策略。仿真結果表明,T-REX在多個Atari和MuJoCo基準任務上優(yōu)于最先進的模仿學習和逆向強化學習方法,且其性能往往可以達到最佳演示性能的兩倍以上。此外,即使在存在顯著的排名噪聲的情況下,T-REX也表現(xiàn)良好。
大多數(shù)逆向強化學習算法是兩階段的,即首先推斷一個獎勵函數(shù),然后通過強化學習學習策略。由于采用了兩個獨立的過程,從而導致兩階段的逆向強化學習算法的計算復雜度高,魯棒性差。與兩階段算法相比,單階段算法具有更高的效率和魯棒性。Justin等人[7]提出了對抗性逆強化學習,它在推斷獎勵函數(shù)的同時學習策略。對抗性逆強化學習將逆強化學習問題轉化為生成對抗方式,即策略產生軌跡,并由判別器判別軌跡是否來自專家。同時,將判別器的評判分數(shù)設置為策略的獎勵函數(shù)。為了使累計回報最大化,策略應與專家的執(zhí)行策略高度匹配,從而獲得更高的分數(shù)。訓練結束后,智能體同時學會了獎勵函數(shù)和策略。對抗性逆強化學習算法是一種特殊的單階段算法,它基于推斷的獎勵函數(shù)學習策略。此外,獎勵函數(shù)的推斷與策略的學習密切相關,實現(xiàn)了相互監(jiān)督,并有效地減小了方差。
4 結語
綜上所述,強化學習的目標是使智能體學習決策過程以產生行為,并使某些預定義的累計獎勵最大化。但是設計一個可以有效優(yōu)化并表征所學策略的最終形式的獎勵函數(shù)是困難的,因此獎勵函數(shù)的設計是阻礙強化學習算法得到普遍應用的一大障礙。逆向強化學習的目標是從專家的演示數(shù)據(jù)中提取獎勵函數(shù),它可以有效解決手動設定獎勵函數(shù)存在困難的問題。在已知獎勵函數(shù)的情況下,問題可以簡化為利用強化學習方法使智能體學習最優(yōu)策略。由于演示數(shù)據(jù)的不完整性和質量較低,可能導致逆向強化學習學到的策略是次優(yōu)的,其表現(xiàn)效果低于專家的表現(xiàn)效果。此外,兩階段的逆向強化學習算法的計算復雜度高,魯棒性差。因此,超越演示的逆向強化學習算法和單階段的逆向強化學習算法將是未來的一大發(fā)展趨勢。
參考文獻:
[1]? Ng A Y, Russell S J. Algorithms for inverse reinforcement learning[C]//Icml. 2000(1): 2.
[2] Abbeel P,Ng A Y.Apprenticeship learning via inverse reinforcement learning[C]//Twenty-first international conference on Machine learning - ICML '04.July 4-8,2004.Banff,Alberta,Canada.New York:ACM Press,2004:1.
[3]? Ziebart B D, Maas A L, Bagnell J A, et al. Maximum entropy inverse reinforcement learning[C]//Aaai,2008(8):1433-1438.
[4] Levine S, Popovic Z, Koltun V. Nonlinear inverse reinforcement learning with gaussian processes[J]. Advances in neural information processing systems, 2011, 24: 19-27.
[5]? Finn C, Levine S, Abbeel P. Guided cost learning: Deep inverse optimal control via policy optimization[C]//International conference on machine learning. PMLR, 2016: 49-58.
[6]? Brown D, Goo W, Nagarajan P, et al. Extrapolating beyond suboptimal demonstrations via inverse reinforcement learning from observations[C]//International Conference on Machine Learning. PMLR, 2019: 783-792.
[7]? Fu J, Luo K, Levine S. Learning robust rewards with adversarial inverse reinforcement learning[J]. arXiv preprint arXiv:1710.11248, 2017.
【通聯(lián)編輯:李雅琪】