摘要:強(qiáng)化學(xué)習(xí)由于具有出色的數(shù)據(jù)效率和快速學(xué)習(xí)的能力,開始應(yīng)用于許多實(shí)際問題以學(xué)習(xí)復(fù)雜策略。但是高維環(huán)境中的強(qiáng)化學(xué)習(xí)常常受限于維度災(zāi)難或者災(zāi)難性干擾,性能表現(xiàn)不佳甚至導(dǎo)致學(xué)習(xí)失敗。圍繞表征學(xué)習(xí),提出了一種符合Lasso 類型優(yōu)化的稀疏卷積深度強(qiáng)化學(xué)習(xí)方法。首先,對(duì)稀疏表征的理論和優(yōu)勢(shì)進(jìn)行綜述,將稀疏卷積方法引入深度強(qiáng)化學(xué)習(xí)中,提出了一種新的稀疏表征方法;其次,對(duì)由稀疏卷積編碼定義的可微優(yōu)化層進(jìn)行了數(shù)學(xué)推導(dǎo)并給出了優(yōu)化算法,為了驗(yàn)證新的稀疏表征方法的有效性,將其應(yīng)用于相關(guān)文獻(xiàn)常見的基準(zhǔn)環(huán)境中進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,應(yīng)用稀疏卷積編碼的算法具有更好的性能和魯棒性,在降低了50% 以上模型開銷的前提下,取得了相當(dāng)甚至更優(yōu)的性能。此外,還研究了稀疏程度對(duì)算法性能的影響,結(jié)果顯示適當(dāng)?shù)南∈瓒饶塬@得更優(yōu)的性能。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);災(zāi)難性干擾;稀疏表征;隱式層;Lasso 優(yōu)化
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A
在深度神經(jīng)網(wǎng)絡(luò)的加持下,深度強(qiáng)化學(xué)習(xí)(DeepReinforcement Learning, DRL) 在處理含有大量狀態(tài)和動(dòng)作的決策任務(wù)中取得了令人矚目的進(jìn)展,因而備受關(guān)注。例如,自動(dòng)駕駛[1] 和空戰(zhàn)決策系統(tǒng)[2] 就是DRL 對(duì)于實(shí)際問題有意義的應(yīng)用。強(qiáng)化學(xué)習(xí)的核心問題是預(yù)測(cè)從不同狀態(tài)可以獲得的預(yù)期收益,其被廣泛使用的技術(shù)是值函數(shù)估計(jì)。在求解和優(yōu)化值函數(shù)估計(jì)問題的過程中,由于非局部表征存在重疊,基于當(dāng)前狀態(tài)更新的經(jīng)驗(yàn)很可能會(huì)改變值函數(shù)的所有參數(shù),繼而嚴(yán)重干擾或遺忘基于早期狀態(tài)轉(zhuǎn)移樣本更新的經(jīng)驗(yàn),這種現(xiàn)象就是災(zāi)難性干擾,在高維連續(xù)的現(xiàn)實(shí)問題中更為嚴(yán)重。
一些傳統(tǒng)的稀疏表征方法[3-4] 已經(jīng)被證明能有效緩解強(qiáng)化學(xué)習(xí)中的災(zāi)難性干擾。在信號(hào)理論中,一個(gè)信號(hào)可以被分解為有限的基本信號(hào)的線性組合。類似地,稀疏編碼考慮用有限的特征來表示狀態(tài)在決策層面的本質(zhì)信息,這些基本特征即為稀疏表征。如何從狀態(tài)輸入構(gòu)造有效的稀疏表征是一個(gè)有趣的問題,但它仍然面臨一些挑戰(zhàn)。
目前,深度卷積網(wǎng)絡(luò)已經(jīng)成為處理圖像數(shù)據(jù)的主流方法,而傳統(tǒng)的稀疏建模方法[4-5] 往往只考慮最后幾層網(wǎng)絡(luò)表征的稀疏性。這些方法沒有充分利用神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)特性,不僅造成網(wǎng)絡(luò)的大量冗余,而且難以構(gòu)造圖像數(shù)據(jù)的有效表征,導(dǎo)致算法性能低甚至學(xué)習(xí)失敗。也有學(xué)者采用正則化策略[5-6]作為稀疏化方法,提出在最后一個(gè)隱藏層上使用稀疏正則化器。這些工作只考慮了最終表示的稀疏性,但忽略了可能嚴(yán)重影響模型性能的其他隱藏層中的狀態(tài)表示。不少研究者著力于改進(jìn)現(xiàn)有的卷積網(wǎng)絡(luò),Gould 等[7] 和Agrawal 等[8] 通過固定點(diǎn)迭代定義一個(gè)隱式層,但是沒有對(duì)隱式層輸入的建模做出明確的解釋。也有研究者[9-10] 挖掘了潛在稀疏表示的互補(bǔ)性信息,構(gòu)建了高效求解方法。更進(jìn)一步,Deng 等[11] 提出的稀疏子空間聚類方法用“必須鏈接”和“不能鏈接”的思想構(gòu)建了一個(gè)不完全數(shù)據(jù)的鄰接矩陣。而可微優(yōu)化層的工作[12-14] 則是通過將凸優(yōu)化問題嵌入隱藏層中,從而將隱藏層之間的復(fù)雜依賴關(guān)系包含其中。不過,這些研究都沒有考慮特定的信號(hào)模型,如稀疏模型。Xia 等[15] 和Zhao 等[16] 提出的深度稀疏表示網(wǎng)絡(luò)對(duì)每一層的稀疏模型進(jìn)行求解,具有更優(yōu)的性能,但是,這些方法都存在計(jì)算成本較高的問題。
為了解決上述問題,受可微優(yōu)化層[17] 啟發(fā),對(duì)其進(jìn)行明確的數(shù)據(jù)建模,提出了一種基于組稀疏優(yōu)化的稀疏表征方法。新的可微優(yōu)化層可以簡(jiǎn)單替換一般卷積層,這保證了方法的適用性。現(xiàn)有的稀疏編碼方法通常只考慮最后幾層的稀疏性,而由于每一層的表征只是對(duì)上一層的近似解釋,學(xué)習(xí)表征在傳播過程中不可避免地受到其他表征的嚴(yán)重干擾。本研究的可微優(yōu)化層作用于狀態(tài)輸入,這樣構(gòu)造的稀疏表征可以提取更精確的隱藏特征[18],從而緩解災(zāi)難性干擾。
本文考慮了深度強(qiáng)化學(xué)習(xí)中卷積網(wǎng)絡(luò)的稀疏建模,在深度強(qiáng)化學(xué)習(xí)中引入可微的隱式層,利用稀疏卷積誘導(dǎo)生成深度稀疏表征,并通過實(shí)驗(yàn)驗(yàn)證該方法的有效性,結(jié)果表明其能夠緩解高維強(qiáng)化學(xué)習(xí)問題中的災(zāi)難性干擾問題。同時(shí),研究了學(xué)習(xí)表征稀疏程度對(duì)網(wǎng)絡(luò)性能的影響,通過實(shí)驗(yàn)確定了合適的稀疏表征率。
1 問題形式化
1.1 稀疏表征模型
稀疏表征原理可簡(jiǎn)單定義為x = D×α,即信號(hào)x可由來自信號(hào)空間的元素集合D的線性組合表示或近似表示[19],其中α表示一個(gè)系數(shù)向量?,F(xiàn)將一張單通道圖像輸入表示為二維矩陣xi∈ RH×W,它可以看作是定義在離散域上的二維信號(hào)。假設(shè)一個(gè)強(qiáng)化學(xué)習(xí)智能體的狀態(tài)輸入是多通道圖像,則以一個(gè)多維信號(hào)x∈ RM×H×W表示環(huán)境狀態(tài),其中M為信號(hào)x的通道數(shù)。
根據(jù)稀疏表征原理,進(jìn)一步假設(shè)狀態(tài)表示可以由一個(gè)C通道的卷積字典多維核D ∈ RM×C×k×k和一個(gè)C通道的稀疏編碼z ∈ RC×H×W卷積產(chǎn)生,這一過程如圖1 中I 所示。圖1 中左下角為整體框架,虛線框內(nèi)為整體框架的具體化,φ(si)為經(jīng)過稀疏卷積后的結(jié)果,同時(shí)是流程Ⅱ的輸入。其他變量符號(hào)和表達(dá)式定義見下文。
為了更好地解釋這一過程,進(jìn)行如下定義:
z ˙=(α1,…αi,…,αc) (1)
該算法首先對(duì) z 進(jìn)行隨機(jī)初始化,并且令 zt 表示第t 次迭代,有如下迭代過程:
其中,[·]+= max(·,0) ,(zt+1)G符合式 (6)。式 (11) 和式(12) 交替進(jìn)行,一旦在擴(kuò)展特征空間中獲得了解決方案,就將其按照原始空間的組結(jié)構(gòu)重新組合以獲得結(jié)果。
為盡快獲得結(jié)果,在訓(xùn)練過程中采用交替迭代的方法。對(duì)于每一輪迭代,首先固定多維核D和θ更新稀疏編碼z,接著固定z 和θ更新D,最后通過反向傳播更新θ。實(shí)驗(yàn)中,持續(xù)執(zhí)行迭代直到zt+1 - zt的元素l2 范數(shù)小于一個(gè)規(guī)定的界限值(例如10-5),或者達(dá)到最大迭代步長(zhǎng)。這一算法偽代碼如算法1 所示。
算法1:SOGL 迭代求解算法
輸入:經(jīng)驗(yàn)回放緩存,D,γ,a,b
1 初始化網(wǎng)絡(luò) θ ,隨機(jī)初始化 z
2 repeat:
3 while ( i ? Kmax ): # Kmax 為最大迭代步長(zhǎng)
4 通過式 (11) 計(jì)算 z?
5 通過式 (12) 計(jì)算 zt+1
6 ifzt+1 - zt 收斂: # 以 10?5 為界限
7 break
7 通過式(10) 更新D
8 反向傳播更新 θ
輸出:z,D
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)設(shè)置
本文在性能表現(xiàn)、模型開銷等方面對(duì)所提出的方法進(jìn)行了測(cè)試,同時(shí)研究了學(xué)習(xí)表征稀疏程度對(duì)網(wǎng)絡(luò)性能的影響。
3.1.1 環(huán)境設(shè)置
本文所用強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)環(huán)境有Atari 游戲中隨機(jī)選取的6 個(gè)游戲(Mspacman,Breakout, Seaquest, Qbert, SpaceInvaders 和Enduro)和vizdoom,這些環(huán)境都有著高維的狀態(tài)空間。在Atari 實(shí)驗(yàn)環(huán)境中,智能體會(huì)訓(xùn)練100 個(gè)epoch,每個(gè)epoch 為106 步;而在vizdoom 環(huán)境中則是訓(xùn)練300個(gè)epoch。
3.1.2 對(duì)比算法
為了驗(yàn)證稀疏表征方法的有效性,將該方法在DQN(Deep Q-Network)[22], Rainbow[23] 和PPO (Proximal Policy Optimization)[24] 這3 個(gè)基準(zhǔn)算法中進(jìn)行了測(cè)試。在對(duì)比實(shí)驗(yàn)中,本文只將對(duì)應(yīng)網(wǎng)絡(luò)中的第1 層卷積層替換為所提出的稀疏表征層,具體來說,是將pytorch 框架中的“Conv2d”替換為稀疏表征層,并保證狀態(tài)張量的輸入輸出的維度和形狀保持一致。將與DQN、Rainbow、PPO 對(duì)應(yīng)的新網(wǎng)絡(luò)分別稱為SRDQN,SRRainbow和SRPPO,目的是為了驗(yàn)證本文方法的通用性。
3.2 性能表現(xiàn)
3.2.1 Atari環(huán)境中的模型性能
為驗(yàn)證稀疏表征方法的性能優(yōu)勢(shì),在模型訓(xùn)練過程中監(jiān)控并記錄了每個(gè)算法所需的計(jì)算資源,在訓(xùn)練結(jié)束后統(tǒng)計(jì)了模型非零權(quán)重的個(gè)數(shù),并將其作為模型大小的依據(jù)。之后,對(duì)每個(gè)訓(xùn)練模型在對(duì)應(yīng)的Atari 環(huán)境中測(cè)試50次并記錄其平均獎(jiǎng)勵(lì)。SRDQN,SRRainbow,SRPPO及各自的對(duì)比算法的實(shí)驗(yàn)結(jié)果在表1 中列出。
可以看到,稀疏表征方法的模型更小,并且訓(xùn)練的開銷更低。與對(duì)比算法模型相比,稀疏表征模型只有原網(wǎng)絡(luò)大小的25%~50%,并且在這一前提下獲得了相當(dāng)或者略優(yōu)的性能,在Breakout 環(huán)境中SRPPO甚至有兩倍以上的優(yōu)異表現(xiàn),表明本研究的稀疏表征網(wǎng)絡(luò)作為現(xiàn)有的深度強(qiáng)化學(xué)習(xí)模型的替代方案具有強(qiáng)大潛力。
3.2.2 Vizdoom環(huán)境中的模型性能
本文進(jìn)一步在Vizdoom 環(huán)境中測(cè)試稀疏表征層。Vizdoom 環(huán)境需要智能體同時(shí)完成探索路徑、收集裝備、躲避陷阱和殺死怪物等諸多任務(wù)。在300 個(gè)epoch 的訓(xùn)練下,每經(jīng)過一個(gè)epoch 就對(duì)智能體在當(dāng)前參數(shù)下的算法表現(xiàn)進(jìn)行一次測(cè)試,訓(xùn)練過程中獎(jiǎng)勵(lì)變化曲線圖如圖2所示。
圖2 中橫坐標(biāo)是訓(xùn)練步數(shù),縱坐標(biāo)是當(dāng)前參數(shù)下的獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)越高,表明算法表現(xiàn)越好。圖中陰影部分的范圍則代表算法學(xué)習(xí)過程的獎(jiǎng)勵(lì)方差。在Vizdoom 環(huán)境中,SRPPO 和SRRainbow 比原方法能夠更快地收斂并獲得略多的獎(jiǎng)勵(lì);SRPPO 和SRRainbow的陰影范圍更小,表明本研究的稀疏表征模型對(duì)環(huán)境狀態(tài)變化有更高的魯棒性,能夠有效緩解強(qiáng)化學(xué)習(xí)中面臨的災(zāi)難性干擾。
3.2.3 稀疏度的影響
為進(jìn)一步研究稀疏表征程度對(duì)模型性能的影響,在Vizdoom 環(huán)境中測(cè)試3 個(gè)算法在不同λ 值下的性能表現(xiàn)。λ 越大,學(xué)習(xí)表征越稀疏。以λ 為零時(shí)的表現(xiàn)作為基準(zhǔn)表現(xiàn),并進(jìn)行多次測(cè)試,以評(píng)估在不同λ 值下稀疏表征方法的性能。實(shí)驗(yàn)中,在每個(gè)階段都監(jiān)控并記錄了性能,它們與基線的性能對(duì)比如圖3 所示。隨著λ 值的增加,本文的稀疏表征模型的性能先提高,但在某個(gè)階段之后迅速下降。
如前文所述,本文的稀疏模型符合SOGL 優(yōu)化問題,其中參數(shù)λ 用于平衡z 的稀疏性和殘差x-D(z)。當(dāng)λ較?。?.4左右)時(shí),z 不夠稀疏,稀疏模型可能無法充分利用稀疏表征的優(yōu)勢(shì);隨著λ 的增加,z 變得更稀疏。稀疏表征模型能更好地緩解災(zāi)難性干擾,表現(xiàn)出算法性能提高。然而,當(dāng)λ 繼續(xù)增大時(shí),z 變得過于稀疏。由于強(qiáng)化學(xué)習(xí)中的智能體是通過與環(huán)境交互來學(xué)習(xí)的,當(dāng)z 過于稀疏時(shí),可能會(huì)導(dǎo)致環(huán)境狀態(tài)信息的丟失,給智能體學(xué)習(xí)帶來困難,從而引發(fā)了算法性能的迅速下降。
4 結(jié) 論
強(qiáng)化學(xué)習(xí)算法的成功通常取決于良好的數(shù)據(jù)表征,研究強(qiáng)化學(xué)習(xí)中表征學(xué)習(xí)方法的目的是更好地表示數(shù)據(jù)以提高智能體的學(xué)習(xí)和泛化能力。本文針對(duì)高維環(huán)境中強(qiáng)化學(xué)習(xí)智能體面臨的災(zāi)難性干擾問題,分別給出了模型訓(xùn)練角度和泛化性角度的分析,提出了基于組稀疏優(yōu)化的稀疏表征方法,并結(jié)合稀疏表征的理論和優(yōu)勢(shì)推導(dǎo)出由稀疏卷積編碼定義的可微優(yōu)化層和求解算法。最后通過實(shí)驗(yàn)驗(yàn)證了這種設(shè)計(jì)可以擴(kuò)展到基于圖像的強(qiáng)化學(xué)習(xí),同時(shí)保持在平均獎(jiǎng)勵(lì)、模型大小和內(nèi)存方面穩(wěn)定的性能。實(shí)驗(yàn)結(jié)果展示了這種網(wǎng)絡(luò)設(shè)計(jì)在緩解災(zāi)難性干擾方面所具有的明顯優(yōu)勢(shì)。
參考文獻(xiàn):
[ 1 ]KUUTTI S, BOWDEN R, JIN Y, et al. A survey of deeplearning applications to autonomous vehicle control[J].IEEE Transactions on Intelligent Transportation Systems,2021, 22(2): 712-733.
[ 2 ]HU D, YANG R, ZUO J, et al. Application of deep reinforcementlearning in maneuver planning of beyond-visualrangeair combat[J]. IEEE Access, 2021, 9: 32282-32297.
[ 3 ]MAKHZANI A, FREY B J. Winner-take-all autoencoders[J]. Advances in Neural Information Processing Systems,2015, 28: 2791-2799.
[ 4 ]RAFATI J, NOELLE D C. Learning representations inmodel-free hierarchical reinforcement learning [J/OL].(2018-10-23) [2023-10-10]. https://arxiv.org/abs/1810.10096.
[ 5 ]LIU V, KUMARASWAMY R, LE L. The utility of sparserepresentations for control in reinforcement learning [C]//The Thirty-Third AAAI Conference on Artificial Intelligence.Honolulu, HI: [s.n.], 2019: 4384-4391.
[ 6 ]LI Z, ZHAO H, GUO Y, et al. Accelerated log-regularizedconvolutional transform learning and its convergence guarantee[J]. IEEE Transactions on Cybernetics, 2022, 52(10):10785-10799.
[ 7 ]GOULD S, HARTLEY R, CAMPBELL D. Deep declarativenetworks[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence, 2021, 44(8): 3988-4004.
[ 8 ]AGRAWAL A, AMOS B, BARRATT S, et al. Differentiableconvex optimization layers[J]. Advances in NeuralInformation Processing Systems, 2019, 32: 9558-9570.
[ 9 ]陳凱旋, 吳小俊. 基于對(duì)稱正定流形潛在稀疏表示分類算法[J]. 軟件學(xué)報(bào), 2020, 31(8): 2530-2542.
[10]張茁涵, 曹容瑋, 李晨, 等. 隱式低秩稀疏表示的多視角子空間聚類[J]. 模式識(shí)別與人工智能, 2020, 33(4): 344-352.
[11]DENG T, WANG J, JIA Q. Semi-supervised sparse representationcollaborative clustering of incomplete data[J].Applied Intelligence, 2023, 53(24): 31077-31105.
[12]AMOS B. Differentiable optimization-based modeling formachine learning [D]. PA: United States Carnegie MellonUniversity, 2019.
[13]BLONDEL M, BERTHET Q, CUTURI M, et al. Efficientand modular implicit differentiation[J]. Advances in NeuralInformation Processing Systems, 2022, 35: 5230-5242.
[14]BERTHET Q, BLONDEL M, TEBOUL O, et al. Learningwith differentiable pertubed optimizers[J]. Advances inNeural Information Processing Systems, 2020, 33: 9508-9519.
[15]XIA T, CHENG C, CUI W. A deep sparse representationwith random dictionary for hyperspectral image classification[J]. International Journal of Wavelets, Multiresolutionand Information Processing, 2023, 21(5): 2350010.
[16]ZHAO H L, WU J Q, LI Z N, et al. Double sparse deepreinforcement learning via multilayer sparse coding andnonconvex regularized pruning[J]. IEEE Transactions onCybernetics, 2023, 53(2): 765-778.
[17]SANDER M E, PUIGCERVER J, DJOLONGA J, et al.Fast, differentiable and sparse top-k: A convex analysis perspective[C]// Proceedings of International Conference onMachine Learning. [s.l.]: [s.n.], 2023: 29919-29936.
[18]YANG G, YANG J, LU Z, LIU D. A convolutional neuralnetwork with sparse representation[J]. Knowledge-BasedSystems, 2020, 209: 106419.
[19]董雋碩, 吳玲達(dá), 郝紅星. 稀疏表示技術(shù)與應(yīng)用綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用, 2021, 30(7): 13-21.
[20]QIAO L B, ZHANG B F, SU J S, et al. A systematicreview of structured sparse learning[J]. Frontiers of Information Technology amp; Electronic Engineering, 2017,18: 445-463.
[21]RAO N, NOWAK R, COX C, et al. Classification with thesparse group lasso[J]. IEEE Transactions on Signal Processing,2016, 64(2): 448-463.
[22]MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playingatari with deep reinforcement learning [J/OL]. (2013-12-19)[2023-10-23]. https://arxiv.org/abs/1312.5602.
[23]HESSEL M, MODAYIL J, VAN HASSELT H, et al. Rainbow:Combining improvements in deep reinforcementlearning [C]// Proceedings of Proceedings of the AAAIConference on Artificial Intelligence. Honolulu, HI: [s.n.],2018: 3215-3222.
[24]SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximalpolicy optimization algorithms [J/OL]. (2017-07-20)[2023-10-10]. https://arxiv.org/abs/1707.06347.
(責(zé)任編輯:張欣)
基金項(xiàng)目: 國(guó)家自然科學(xué)基金面上項(xiàng)目(62276097, 62372174);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(62136003);國(guó)家重點(diǎn)研發(fā)計(jì)劃(2020YFB1711700);上海市經(jīng)信委“信息化發(fā)展專項(xiàng)資金”(XX-XXFZ-02-20-2463);上海市科技創(chuàng)新行動(dòng)計(jì)劃(21002411000)