亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

稀疏獎(jiǎng)勵(lì)環(huán)境中的分層強(qiáng)化學(xué)習(xí)①

2022-08-24 09:33:18歐陽(yáng)名三馮舒心

佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年2期

歐陽(yáng)名三, 馮舒心

(安徽理工大學(xué)電氣與信息工程學(xué)院,安徽淮南 232001)

0 引言

強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)是一種通過與環(huán)境進(jìn)行交互試錯(cuò),使積累獎(jiǎng)勵(lì)最大化的機(jī)器學(xué)習(xí)方法[1],作為人工智能的重點(diǎn)研究領(lǐng)域之一在各個(gè)領(lǐng)域取得了突出的成就。但強(qiáng)化學(xué)習(xí)應(yīng)用在獎(jiǎng)勵(lì)稀疏分布的環(huán)境時(shí)[2],智能體會(huì)缺乏即時(shí)的獎(jiǎng)勵(lì)反饋導(dǎo)致學(xué)習(xí)緩慢甚至失敗,分層強(qiáng)化學(xué)習(xí)(Hierarchical reinforcement learning,HRL)通過在多個(gè)時(shí)間抽象上學(xué)習(xí)動(dòng)作選擇策略來(lái)解決問題[3]。文獻(xiàn)[4]提出一種分層DQN算法,給強(qiáng)化學(xué)習(xí)引入了分層框架,有效解決了稀疏獎(jiǎng)勵(lì)問題;文獻(xiàn)[5]在基于子目標(biāo)的分層基礎(chǔ)上結(jié)合了事后經(jīng)驗(yàn)回放方法,實(shí)現(xiàn)了多層并行學(xué)習(xí);文獻(xiàn)[6]通過K-means聚類方法形成子目標(biāo)集。在基于子目標(biāo)的分層強(qiáng)化學(xué)習(xí)框架上,結(jié)合啟發(fā)式異常檢測(cè)和密度峰值聚類算法,實(shí)現(xiàn)了子目標(biāo)集的無(wú)監(jiān)督發(fā)現(xiàn),可以在獎(jiǎng)勵(lì)稀疏的環(huán)境里穩(wěn)定學(xué)習(xí)。

1 分層強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí)

強(qiáng)化學(xué)習(xí)研究的問題都建立在馬爾科夫決策過程(Markov decision processes,MDP)的基礎(chǔ)上,MDP可表示為一個(gè)五元集合(S,A,P,R,γ),分別表示狀態(tài)、動(dòng)作、狀態(tài)轉(zhuǎn)移概率方程、獎(jiǎng)勵(lì)函數(shù)和折扣系數(shù),其中P(s^′|s,a)表示智能體在狀態(tài)s時(shí)執(zhí)行動(dòng)作a后達(dá)到狀態(tài)s’的概率。與MDP不同的是,半馬爾科夫決策過程(Semi-Markov decision process,SMDP)的狀態(tài)轉(zhuǎn)移概率是s和τ的聯(lián)合概率P(s^′,τ|s,a),即從當(dāng)前狀態(tài)s到下一狀態(tài)s’的步數(shù)為一個(gè)隨機(jī)變量τ。分層強(qiáng)化學(xué)習(xí)正是是基于SMDP,將復(fù)雜的學(xué)習(xí)問題在時(shí)間抽象上分解為簡(jiǎn)單的子問題,通過分別解決子問題,最終完成復(fù)雜的學(xué)習(xí)任務(wù)[7]。常見的分層強(qiáng)化學(xué)習(xí)方法有基于選項(xiàng)、基于分層抽象機(jī)、端到端以及基于子目標(biāo)的學(xué)習(xí)方法。

2 DPC-HRL算法介紹

2.1 分層學(xué)習(xí)框架

將學(xué)習(xí)任務(wù)分為了兩個(gè)級(jí)別的時(shí)間抽象,分為上層控制器Q1和底層控制器Q2,控制器內(nèi)部使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)進(jìn)行學(xué)習(xí):

(a)Q1將狀態(tài)st作為輸入,選擇一個(gè)新的子目標(biāo);

(b)Q2將狀態(tài)st和選定的子目標(biāo)gt作為輸入,進(jìn)行動(dòng)作的選擇和策略的更新,直到完成子目標(biāo)或完成整個(gè)學(xué)習(xí)任務(wù)。

如果子目標(biāo)被完成,上層控制器就會(huì)根據(jù)策略選擇新的子目標(biāo),重復(fù)上述過程直到整個(gè)任務(wù)結(jié)束。

如圖1所示,智能體使用由上層控制器Q1和底層控制器Q2組成的兩級(jí)分層結(jié)構(gòu)。在時(shí)間t,Q1接收到環(huán)境的狀態(tài)s=st,根據(jù)控制器自身的策略從子目標(biāo)集合G中選擇一個(gè)子目標(biāo)。然后,Q2選擇可以到達(dá)給定子目標(biāo)g的動(dòng)作。Q2的目標(biāo)是使積累的內(nèi)部獎(jiǎng)勵(lì)值最大化,如式(1):

圖1 分層學(xué)習(xí)框架

式(1)中T是到達(dá)子目標(biāo)g的最大步長(zhǎng)。同樣,Q1的目標(biāo)是使積累的外部獎(jiǎng)勵(lì)最大化,如式(2):

式(2)中τ是最后一步。用兩個(gè)不同的值函數(shù)來(lái)學(xué)習(xí)上層控制器Q1和底層控制器Q2的策略。Q2估算以下Q值,如式(3):

式(3)中g(shù)是狀態(tài)s是上層控制器給定的子目標(biāo),πag=P(a|s,g)是Q2到達(dá)g的策略。同樣,上層控制器需要估算以下Q值,如式(4):

式(4)中πg(shù)是Q1選擇子目標(biāo)的策略。

在上層控制器Q1中,通過估計(jì)每個(gè)子目標(biāo)的價(jià)值函數(shù)Q(s,g;ω)來(lái)更新策略,并選擇估值最高的子目標(biāo)。選擇當(dāng)前子目標(biāo)后,底層控制器Q2以當(dāng)前狀態(tài)s和當(dāng)前子目標(biāo)g為輸入,選擇價(jià)值函數(shù)q(s,g,a;ω)估值最高的動(dòng)作,而Q2內(nèi)部的批判函數(shù)監(jiān)視當(dāng)前狀態(tài),將其與當(dāng)前子目標(biāo)進(jìn)行比較,并在每個(gè)時(shí)間步長(zhǎng)向Q2提供適當(dāng)?shù)膬?nèi)部獎(jiǎng)勵(lì)r’。每個(gè)過渡經(jīng)驗(yàn)集合(s,r,a,r',s')都記錄在Q2的經(jīng)驗(yàn)記憶集D2中,以便于智能體學(xué)習(xí)。當(dāng)達(dá)到子目標(biāo)或達(dá)到最大時(shí)間步長(zhǎng)時(shí),Q1觀察狀態(tài)s t'=s t+T+1,并選擇另一個(gè)子目標(biāo)g'=g t+T+1,Q1的經(jīng)驗(yàn)記憶集D1記錄Q1的過渡經(jīng)驗(yàn)集合(s,g,G,s t'),然后重復(fù)上述操作,直到任務(wù)結(jié)束。

值函數(shù)的參數(shù)根據(jù)最近的經(jīng)驗(yàn)集合進(jìn)行調(diào)整,為訓(xùn)練Q1的值函數(shù)逼近器,我們通過外部環(huán)境反饋的獎(jiǎng)勵(lì)值來(lái)最小化損失函數(shù),如式(5)-(6):

其中y是Q1選擇子目標(biāo)g時(shí)的預(yù)期回報(bào),γ是折扣系數(shù),ω是Q1值函數(shù)逼近器參數(shù),G是選擇連續(xù)子目標(biāo)之間的外部累計(jì)獎(jiǎng)勵(lì)。

底層控制器Q2通過經(jīng)驗(yàn)記憶集D2學(xué)習(xí)值函數(shù)q(s,g,a;ω')來(lái)更新其策略π(a|s,g),并更新其值函數(shù)逼近器參數(shù)ω',以最小化損失函數(shù),如式(7):

2.2 內(nèi)在動(dòng)機(jī)學(xué)習(xí)

內(nèi)在動(dòng)機(jī)學(xué)習(xí)是分層學(xué)習(xí)方法的核心思想,在某些延遲反饋稀疏的環(huán)境中,強(qiáng)化學(xué)習(xí)的智能體無(wú)法有效地探索狀態(tài)空間,從而沒有足夠的經(jīng)驗(yàn)集來(lái)學(xué)習(xí)如何使獎(jiǎng)勵(lì)最大化。在我們分層強(qiáng)化學(xué)習(xí)框架中的內(nèi)部批判家可以向底層控制器Q2發(fā)送更多的常規(guī)獎(jiǎng)勵(lì)反饋,因?yàn)樗腔谧幽繕?biāo)而不是基于任務(wù)的最終目標(biāo)。舉例來(lái)說(shuō),當(dāng)智能體到達(dá)當(dāng)前子目標(biāo)g和其他的狀態(tài)轉(zhuǎn)換時(shí),會(huì)有+1的固有獎(jiǎng)勵(lì)。成功解決復(fù)雜的任務(wù)不僅取決于這種學(xué)習(xí)機(jī)制,還取決于如何確定一組子目標(biāo)集以及上層控制器Q1學(xué)習(xí)如何從子目標(biāo)集中為當(dāng)前狀態(tài)選擇正確子目標(biāo)的能力。

我們假設(shè)子目標(biāo)g∈G由上層控制器Q1提供,底層控制器Q2接收狀態(tài)s t和子目標(biāo)g作為輸入,輸出動(dòng)作a t。智能體會(huì)感知到下一個(gè)狀態(tài),并從批判函數(shù)那里收到一個(gè)內(nèi)部的獎(jiǎng)勵(lì)信號(hào)r't+1,形式如式(8):

控制器的值函數(shù)逼近器用多層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),如圖2所示。底層控制器網(wǎng)絡(luò)q(s,g,a;ω')將狀態(tài)s和子目標(biāo)g作為輸入,狀態(tài)s以笛卡爾坐標(biāo)的形式輸入進(jìn)網(wǎng)絡(luò),坐標(biāo)的兩個(gè)維度都有單獨(dú)的輸入池,子目標(biāo)g最初是從發(fā)現(xiàn)的子目標(biāo)集中隨機(jī)選擇,這是智能體早期隨機(jī)學(xué)習(xí)期間無(wú)監(jiān)督發(fā)現(xiàn)子目標(biāo)的結(jié)果。Q1值函數(shù)接收當(dāng)前狀態(tài)s的Onehot(一位有效)編碼,該編碼通過將當(dāng)前狀態(tài)轉(zhuǎn)換為相應(yīng)子目標(biāo)的索引來(lái)計(jì)算,值函數(shù)輸出的是最佳子目標(biāo)的One-hot編碼。底層控制器接收由子目標(biāo)門控的當(dāng)前狀態(tài)變量(笛卡爾坐標(biāo))的高斯模糊表示,并使用Winners-take-all(贏者通吃)機(jī)制在隱藏層上產(chǎn)生稀疏聯(lián)合編碼,然后映射到值函數(shù)的動(dòng)作輸出上。值函數(shù)訓(xùn)練網(wǎng)絡(luò)設(shè)置為16層,超參數(shù)迭代次數(shù)為100次,學(xué)習(xí)率為0.001。

圖2 控制器值函數(shù)訓(xùn)練網(wǎng)絡(luò)

2.3 子目標(biāo)無(wú)監(jiān)督發(fā)現(xiàn)

為上層控制器選擇合適的子目標(biāo)集是分層學(xué)習(xí)框架的關(guān)鍵,子目標(biāo)的特點(diǎn)為處于一種有獎(jiǎng)勵(lì)的狀態(tài)或者是過渡到更接近獎(jiǎng)勵(lì)狀態(tài)的一組狀態(tài)。路徑導(dǎo)航環(huán)境里,鑰匙和鎖就是一種獎(jiǎng)勵(lì)狀態(tài),而房間之間的門道可以看做是過渡狀態(tài)。基于智能體初期探索的經(jīng)驗(yàn)集合應(yīng)用啟發(fā)式異常檢測(cè)方法發(fā)現(xiàn)獎(jiǎng)勵(lì)異常值,即子目標(biāo)集,并結(jié)合密度峰值方法實(shí)現(xiàn)子目標(biāo)集的聚類。

啟發(fā)式異常檢測(cè)方法是一種半監(jiān)督的識(shí)別檢測(cè)方法,將正常的數(shù)據(jù)建立一個(gè)高斯概率模型,可以隨著新數(shù)據(jù)加入調(diào)整模型以提高擬合度,在模型中會(huì)定義一個(gè)邊界,落在邊界外的數(shù)據(jù)點(diǎn)標(biāo)記為異常。該無(wú)需異常數(shù)據(jù)進(jìn)行訓(xùn)練,可應(yīng)用在陌生或異常數(shù)據(jù)難以獲取的環(huán)境中。

密度峰值聚類(Desity Peaks Clustering,DPC)算法是一種不基于密度的聚類算法,無(wú)需迭代即可完成數(shù)據(jù)的聚類。DPC算法的思想是:在數(shù)據(jù)集合中,聚類中心的局部密度較高,且高局部密度點(diǎn)之間的距離較遠(yuǎn)。局部密度ρi和高局部密度點(diǎn)距離δi的定義如式(9)-(11):

式(9),(10)中dc為截?cái)嗑嚯x,i的距離小于dc的數(shù)據(jù)的個(gè)數(shù)即為數(shù)據(jù)點(diǎn)i的局部密度。

在智能體進(jìn)行探索的時(shí)期,啟發(fā)式異常檢測(cè)會(huì)建立高斯模型檢測(cè)出環(huán)境的獎(jiǎng)勵(lì)狀態(tài)和過渡狀態(tài),然后DPC算法根據(jù)數(shù)據(jù)點(diǎn)的局部密度和高局部密度點(diǎn)距離,繪制關(guān)系散點(diǎn)圖,選取聚類中心并分配剩余數(shù)據(jù)點(diǎn)。

3 仿真實(shí)驗(yàn)與分析

選擇一個(gè)帶鑰匙和鎖的四房間環(huán)境進(jìn)行路徑導(dǎo)航模擬實(shí)驗(yàn),該任務(wù)需要智能體先取得鑰匙再到達(dá)鎖,鎖和鑰匙會(huì)在每次任務(wù)開始時(shí)隨機(jī)刷新位置,環(huán)境具有時(shí)空的層次結(jié)構(gòu)和獎(jiǎng)勵(lì)稀疏延時(shí)反饋的特點(diǎn),具體場(chǎng)景如圖3所示。

圖3 仿真實(shí)驗(yàn)環(huán)境

在每次任務(wù)開始時(shí),智能體A會(huì)在任意房間的任意位置初始化,該智能體具有東南西北四個(gè)可移動(dòng)的方向。將獎(jiǎng)勵(lì)值設(shè)置為到達(dá)鑰匙時(shí)r=+10,攜帶鑰匙到達(dá)鎖時(shí)r=+40,撞到房間邊界r=-2。在任務(wù)初期允許智能體探索100次的房間環(huán)境,每次任務(wù)在達(dá)到200的時(shí)間步長(zhǎng)或者完成任務(wù)后結(jié)束。從兩個(gè)方面分別對(duì)提出的DPC-HRL算法與Kmeans-HRL算法、SARSA-RL算法進(jìn)行評(píng)價(jià):一是任務(wù)的平均回報(bào);二是任務(wù)的平均成功率。算法的參數(shù)設(shè)置為:學(xué)習(xí)率α=0.001,折扣系數(shù)γ=0.99,探索率□=0.2,最大步長(zhǎng)為100000。仿真實(shí)驗(yàn)結(jié)果如圖4和圖5所示。

圖4 任務(wù)的平均回報(bào)

圖5 任務(wù)的平均成功率

從圖4中可以看到,由于稀疏獎(jiǎng)勵(lì)問題,常規(guī)的RL算法會(huì)困在鑰匙區(qū)域,盡管設(shè)置了較高的探索率,但智能體并沒有動(dòng)機(jī)去探索其他區(qū)域以到達(dá)鎖的位置,所以只能得到鑰匙的獎(jiǎng)勵(lì)回報(bào),而DPC-HRL和Kmeans-HRL的分層學(xué)習(xí)結(jié)構(gòu)都能在內(nèi)部生成常規(guī)的獎(jiǎng)勵(lì)反饋可以得到最高的獎(jiǎng)勵(lì)回報(bào)。圖5的任務(wù)平均成功率顯示了DPC-HRL和Kmeans-HRL都能有效的解決稀疏獎(jiǎng)勵(lì)問題,完成路徑導(dǎo)航的任務(wù),且與Kmeans-HRL算法相比,提出的DPC-HRL算法可更快快收斂,但在初期的學(xué)習(xí)效率較低。

4 結(jié) 語(yǔ)

基于分層學(xué)習(xí)框架將控制器分為兩層進(jìn)行學(xué)習(xí),控制器通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)訓(xùn)練價(jià)值函數(shù),底層控制器可以有效接收到上層控制器的子目標(biāo)和內(nèi)部獎(jiǎng)勵(lì),不會(huì)因獎(jiǎng)勵(lì)稀疏無(wú)法學(xué)習(xí)。啟發(fā)式異常檢測(cè)方法可以檢測(cè)到環(huán)境中的獎(jiǎng)勵(lì)狀態(tài)和過渡狀態(tài),結(jié)合密度峰值聚類算法,能快速完成子目標(biāo)的無(wú)監(jiān)督發(fā)現(xiàn)。仿真實(shí)驗(yàn)結(jié)果表明,該方法可以有效解決稀疏獎(jiǎng)勵(lì)問題,具有較高的穩(wěn)定性和較快的收斂速度。尚未考慮到復(fù)雜任務(wù)的學(xué)習(xí)層數(shù)問題及異常值密集問題,今后將進(jìn)一步研究改進(jìn)。