亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于組稀疏優(yōu)化的強(qiáng)化學(xué)習(xí)稀疏表征

2024-01-03 00:00:00蔡林逸馮翔虞慧群

華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2024年6期

摘要：強(qiáng)化學(xué)習(xí)由于具有出色的數(shù)據(jù)效率和快速學(xué)習(xí)的能力，開始應(yīng)用于許多實(shí)際問題以學(xué)習(xí)復(fù)雜策略。但是高維環(huán)境中的強(qiáng)化學(xué)習(xí)常常受限于維度災(zāi)難或者災(zāi)難性干擾，性能表現(xiàn)不佳甚至導(dǎo)致學(xué)習(xí)失敗。圍繞表征學(xué)習(xí)，提出了一種符合Lasso 類型優(yōu)化的稀疏卷積深度強(qiáng)化學(xué)習(xí)方法。首先，對(duì)稀疏表征的理論和優(yōu)勢(shì)進(jìn)行綜述，將稀疏卷積方法引入深度強(qiáng)化學(xué)習(xí)中，提出了一種新的稀疏表征方法；其次，對(duì)由稀疏卷積編碼定義的可微優(yōu)化層進(jìn)行了數(shù)學(xué)推導(dǎo)并給出了優(yōu)化算法，為了驗(yàn)證新的稀疏表征方法的有效性，將其應(yīng)用于相關(guān)文獻(xiàn)常見的基準(zhǔn)環(huán)境中進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明，應(yīng)用稀疏卷積編碼的算法具有更好的性能和魯棒性，在降低了50% 以上模型開銷的前提下，取得了相當(dāng)甚至更優(yōu)的性能。此外，還研究了稀疏程度對(duì)算法性能的影響，結(jié)果顯示適當(dāng)?shù)南∈瓒饶塬@得更優(yōu)的性能。

關(guān)鍵詞：強(qiáng)化學(xué)習(xí)；災(zāi)難性干擾；稀疏表征；隱式層；Lasso 優(yōu)化

中圖分類號(hào)：TP181 文獻(xiàn)標(biāo)志碼：A

在深度神經(jīng)網(wǎng)絡(luò)的加持下，深度強(qiáng)化學(xué)習(xí)（DeepReinforcement Learning， DRL）在處理含有大量狀態(tài)和動(dòng)作的決策任務(wù)中取得了令人矚目的進(jìn)展，因而備受關(guān)注。例如，自動(dòng)駕駛[1] 和空戰(zhàn)決策系統(tǒng)[2] 就是DRL 對(duì)于實(shí)際問題有意義的應(yīng)用。強(qiáng)化學(xué)習(xí)的核心問題是預(yù)測(cè)從不同狀態(tài)可以獲得的預(yù)期收益，其被廣泛使用的技術(shù)是值函數(shù)估計(jì)。在求解和優(yōu)化值函數(shù)估計(jì)問題的過程中，由于非局部表征存在重疊，基于當(dāng)前狀態(tài)更新的經(jīng)驗(yàn)很可能會(huì)改變值函數(shù)的所有參數(shù)，繼而嚴(yán)重干擾或遺忘基于早期狀態(tài)轉(zhuǎn)移樣本更新的經(jīng)驗(yàn)，這種現(xiàn)象就是災(zāi)難性干擾，在高維連續(xù)的現(xiàn)實(shí)問題中更為嚴(yán)重。

一些傳統(tǒng)的稀疏表征方法[3-4] 已經(jīng)被證明能有效緩解強(qiáng)化學(xué)習(xí)中的災(zāi)難性干擾。在信號(hào)理論中，一個(gè)信號(hào)可以被分解為有限的基本信號(hào)的線性組合。類似地，稀疏編碼考慮用有限的特征來表示狀態(tài)在決策層面的本質(zhì)信息，這些基本特征即為稀疏表征。如何從狀態(tài)輸入構(gòu)造有效的稀疏表征是一個(gè)有趣的問題，但它仍然面臨一些挑戰(zhàn)。

目前，深度卷積網(wǎng)絡(luò)已經(jīng)成為處理圖像數(shù)據(jù)的主流方法，而傳統(tǒng)的稀疏建模方法[4-5] 往往只考慮最后幾層網(wǎng)絡(luò)表征的稀疏性。這些方法沒有充分利用神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)特性，不僅造成網(wǎng)絡(luò)的大量冗余，而且難以構(gòu)造圖像數(shù)據(jù)的有效表征，導(dǎo)致算法性能低甚至學(xué)習(xí)失敗。也有學(xué)者采用正則化策略[5-6]作為稀疏化方法，提出在最后一個(gè)隱藏層上使用稀疏正則化器。這些工作只考慮了最終表示的稀疏性，但忽略了可能嚴(yán)重影響模型性能的其他隱藏層中的狀態(tài)表示。不少研究者著力于改進(jìn)現(xiàn)有的卷積網(wǎng)絡(luò)，Gould 等[7] 和Agrawal 等[8] 通過固定點(diǎn)迭代定義一個(gè)隱式層，但是沒有對(duì)隱式層輸入的建模做出明確的解釋。也有研究者[9-10] 挖掘了潛在稀疏表示的互補(bǔ)性信息，構(gòu)建了高效求解方法。更進(jìn)一步，Deng 等[11] 提出的稀疏子空間聚類方法用“必須鏈接”和“不能鏈接”的思想構(gòu)建了一個(gè)不完全數(shù)據(jù)的鄰接矩陣。而可微優(yōu)化層的工作[12-14] 則是通過將凸優(yōu)化問題嵌入隱藏層中，從而將隱藏層之間的復(fù)雜依賴關(guān)系包含其中。不過，這些研究都沒有考慮特定的信號(hào)模型，如稀疏模型。Xia 等[15] 和Zhao 等[16] 提出的深度稀疏表示網(wǎng)絡(luò)對(duì)每一層的稀疏模型進(jìn)行求解，具有更優(yōu)的性能，但是，這些方法都存在計(jì)算成本較高的問題。

為了解決上述問題，受可微優(yōu)化層[17] 啟發(fā)，對(duì)其進(jìn)行明確的數(shù)據(jù)建模，提出了一種基于組稀疏優(yōu)化的稀疏表征方法。新的可微優(yōu)化層可以簡(jiǎn)單替換一般卷積層，這保證了方法的適用性。現(xiàn)有的稀疏編碼方法通常只考慮最后幾層的稀疏性，而由于每一層的表征只是對(duì)上一層的近似解釋，學(xué)習(xí)表征在傳播過程中不可避免地受到其他表征的嚴(yán)重干擾。本研究的可微優(yōu)化層作用于狀態(tài)輸入，這樣構(gòu)造的稀疏表征可以提取更精確的隱藏特征[18]，從而緩解災(zāi)難性干擾。

本文考慮了深度強(qiáng)化學(xué)習(xí)中卷積網(wǎng)絡(luò)的稀疏建模，在深度強(qiáng)化學(xué)習(xí)中引入可微的隱式層，利用稀疏卷積誘導(dǎo)生成深度稀疏表征，并通過實(shí)驗(yàn)驗(yàn)證該方法的有效性，結(jié)果表明其能夠緩解高維強(qiáng)化學(xué)習(xí)問題中的災(zāi)難性干擾問題。同時(shí)，研究了學(xué)習(xí)表征稀疏程度對(duì)網(wǎng)絡(luò)性能的影響，通過實(shí)驗(yàn)確定了合適的稀疏表征率。

1 問題形式化

1.1 稀疏表征模型

稀疏表征原理可簡(jiǎn)單定義為x = D×α，即信號(hào)x可由來自信號(hào)空間的元素集合D的線性組合表示或近似表示[19]，其中α表示一個(gè)系數(shù)向量?，F(xiàn)將一張單通道圖像輸入表示為二維矩陣xi∈ RH×W，它可以看作是定義在離散域上的二維信號(hào)。假設(shè)一個(gè)強(qiáng)化學(xué)習(xí)智能體的狀態(tài)輸入是多通道圖像，則以一個(gè)多維信號(hào)x∈ RM×H×W表示環(huán)境狀態(tài)，其中M為信號(hào)x的通道數(shù)。

根據(jù)稀疏表征原理，進(jìn)一步假設(shè)狀態(tài)表示可以由一個(gè)C通道的卷積字典多維核D ∈ RM×C×k×k和一個(gè)C通道的稀疏編碼z ∈ RC×H×W卷積產(chǎn)生，這一過程如圖1 中I 所示。圖1 中左下角為整體框架，虛線框內(nèi)為整體框架的具體化，φ（si）為經(jīng)過稀疏卷積后的結(jié)果，同時(shí)是流程Ⅱ的輸入。其他變量符號(hào)和表達(dá)式定義見下文。

為了更好地解釋這一過程，進(jìn)行如下定義：

z ˙=（α1，…αi，…，αc）（1）

該算法首先對(duì) z 進(jìn)行隨機(jī)初始化，并且令 zt 表示第t 次迭代，有如下迭代過程：

其中，[·]+= max（·，0），（zt+1）G符合式（6）。式（11）和式（12）交替進(jìn)行，一旦在擴(kuò)展特征空間中獲得了解決方案，就將其按照原始空間的組結(jié)構(gòu)重新組合以獲得結(jié)果。

為盡快獲得結(jié)果，在訓(xùn)練過程中采用交替迭代的方法。對(duì)于每一輪迭代，首先固定多維核D和θ更新稀疏編碼z，接著固定z 和θ更新D，最后通過反向傳播更新θ。實(shí)驗(yàn)中，持續(xù)執(zhí)行迭代直到zt+1 - zt的元素l2 范數(shù)小于一個(gè)規(guī)定的界限值（例如10-5），或者達(dá)到最大迭代步長(zhǎng)。這一算法偽代碼如算法1 所示。

算法1：SOGL 迭代求解算法

輸入：經(jīng)驗(yàn)回放緩存，D，γ，a，b

1 初始化網(wǎng)絡(luò) θ ，隨機(jī)初始化 z

2 repeat：

3 while （ i ? Kmax ）： # Kmax 為最大迭代步長(zhǎng)

4 通過式（11）計(jì)算 z?

5 通過式（12）計(jì)算 zt+1

6 ifzt+1 - zt 收斂： # 以 10?5 為界限

7 break

7 通過式（10）更新D

8 反向傳播更新 θ

輸出：z，D

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)設(shè)置

本文在性能表現(xiàn)、模型開銷等方面對(duì)所提出的方法進(jìn)行了測(cè)試，同時(shí)研究了學(xué)習(xí)表征稀疏程度對(duì)網(wǎng)絡(luò)性能的影響。

3.1.1 環(huán)境設(shè)置

本文所用強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)環(huán)境有Atari 游戲中隨機(jī)選取的6 個(gè)游戲（Mspacman，Breakout， Seaquest， Qbert， SpaceInvaders 和Enduro）和vizdoom，這些環(huán)境都有著高維的狀態(tài)空間。在Atari 實(shí)驗(yàn)環(huán)境中，智能體會(huì)訓(xùn)練100 個(gè)epoch，每個(gè)epoch 為106 步；而在vizdoom 環(huán)境中則是訓(xùn)練300個(gè)epoch。

3.1.2 對(duì)比算法

為了驗(yàn)證稀疏表征方法的有效性，將該方法在DQN（Deep Q-Network）[22]， Rainbow[23] 和PPO （Proximal Policy Optimization）[24] 這3 個(gè)基準(zhǔn)算法中進(jìn)行了測(cè)試。在對(duì)比實(shí)驗(yàn)中，本文只將對(duì)應(yīng)網(wǎng)絡(luò)中的第1 層卷積層替換為所提出的稀疏表征層，具體來說，是將pytorch 框架中的“Conv2d”替換為稀疏表征層，并保證狀態(tài)張量的輸入輸出的維度和形狀保持一致。將與DQN、Rainbow、PPO 對(duì)應(yīng)的新網(wǎng)絡(luò)分別稱為SRDQN，SRRainbow和SRPPO，目的是為了驗(yàn)證本文方法的通用性。

3.2 性能表現(xiàn)

3.2.1 Atari環(huán)境中的模型性能

為驗(yàn)證稀疏表征方法的性能優(yōu)勢(shì)，在模型訓(xùn)練過程中監(jiān)控并記錄了每個(gè)算法所需的計(jì)算資源，在訓(xùn)練結(jié)束后統(tǒng)計(jì)了模型非零權(quán)重的個(gè)數(shù)，并將其作為模型大小的依據(jù)。之后，對(duì)每個(gè)訓(xùn)練模型在對(duì)應(yīng)的Atari 環(huán)境中測(cè)試50次并記錄其平均獎(jiǎng)勵(lì)。SRDQN，SRRainbow，SRPPO及各自的對(duì)比算法的實(shí)驗(yàn)結(jié)果在表1 中列出。

可以看到，稀疏表征方法的模型更小，并且訓(xùn)練的開銷更低。與對(duì)比算法模型相比，稀疏表征模型只有原網(wǎng)絡(luò)大小的25%～50%，并且在這一前提下獲得了相當(dāng)或者略優(yōu)的性能，在Breakout 環(huán)境中SRPPO甚至有兩倍以上的優(yōu)異表現(xiàn)，表明本研究的稀疏表征網(wǎng)絡(luò)作為現(xiàn)有的深度強(qiáng)化學(xué)習(xí)模型的替代方案具有強(qiáng)大潛力。

3.2.2 Vizdoom環(huán)境中的模型性能

本文進(jìn)一步在Vizdoom 環(huán)境中測(cè)試稀疏表征層。Vizdoom 環(huán)境需要智能體同時(shí)完成探索路徑、收集裝備、躲避陷阱和殺死怪物等諸多任務(wù)。在300 個(gè)epoch 的訓(xùn)練下，每經(jīng)過一個(gè)epoch 就對(duì)智能體在當(dāng)前參數(shù)下的算法表現(xiàn)進(jìn)行一次測(cè)試，訓(xùn)練過程中獎(jiǎng)勵(lì)變化曲線圖如圖2所示。

圖2 中橫坐標(biāo)是訓(xùn)練步數(shù)，縱坐標(biāo)是當(dāng)前參數(shù)下的獎(jiǎng)勵(lì)，獎(jiǎng)勵(lì)越高，表明算法表現(xiàn)越好。圖中陰影部分的范圍則代表算法學(xué)習(xí)過程的獎(jiǎng)勵(lì)方差。在Vizdoom 環(huán)境中，SRPPO 和SRRainbow 比原方法能夠更快地收斂并獲得略多的獎(jiǎng)勵(lì)；SRPPO 和SRRainbow的陰影范圍更小，表明本研究的稀疏表征模型對(duì)環(huán)境狀態(tài)變化有更高的魯棒性，能夠有效緩解強(qiáng)化學(xué)習(xí)中面臨的災(zāi)難性干擾。

3.2.3 稀疏度的影響

為進(jìn)一步研究稀疏表征程度對(duì)模型性能的影響，在Vizdoom 環(huán)境中測(cè)試3 個(gè)算法在不同λ 值下的性能表現(xiàn)。λ 越大，學(xué)習(xí)表征越稀疏。以λ 為零時(shí)的表現(xiàn)作為基準(zhǔn)表現(xiàn)，并進(jìn)行多次測(cè)試，以評(píng)估在不同λ 值下稀疏表征方法的性能。實(shí)驗(yàn)中，在每個(gè)階段都監(jiān)控并記錄了性能，它們與基線的性能對(duì)比如圖3 所示。隨著λ 值的增加，本文的稀疏表征模型的性能先提高，但在某個(gè)階段之后迅速下降。

如前文所述，本文的稀疏模型符合SOGL 優(yōu)化問題，其中參數(shù)λ 用于平衡z 的稀疏性和殘差x-D（z）。當(dāng)λ較?。?.4左右）時(shí)，z 不夠稀疏，稀疏模型可能無法充分利用稀疏表征的優(yōu)勢(shì)；隨著λ 的增加，z 變得更稀疏。稀疏表征模型能更好地緩解災(zāi)難性干擾，表現(xiàn)出算法性能提高。然而，當(dāng)λ 繼續(xù)增大時(shí)，z 變得過于稀疏。由于強(qiáng)化學(xué)習(xí)中的智能體是通過與環(huán)境交互來學(xué)習(xí)的，當(dāng)z 過于稀疏時(shí)，可能會(huì)導(dǎo)致環(huán)境狀態(tài)信息的丟失，給智能體學(xué)習(xí)帶來困難，從而引發(fā)了算法性能的迅速下降。

4 結(jié) 論

強(qiáng)化學(xué)習(xí)算法的成功通常取決于良好的數(shù)據(jù)表征，研究強(qiáng)化學(xué)習(xí)中表征學(xué)習(xí)方法的目的是更好地表示數(shù)據(jù)以提高智能體的學(xué)習(xí)和泛化能力。本文針對(duì)高維環(huán)境中強(qiáng)化學(xué)習(xí)智能體面臨的災(zāi)難性干擾問題，分別給出了模型訓(xùn)練角度和泛化性角度的分析，提出了基于組稀疏優(yōu)化的稀疏表征方法，并結(jié)合稀疏表征的理論和優(yōu)勢(shì)推導(dǎo)出由稀疏卷積編碼定義的可微優(yōu)化層和求解算法。最后通過實(shí)驗(yàn)驗(yàn)證了這種設(shè)計(jì)可以擴(kuò)展到基于圖像的強(qiáng)化學(xué)習(xí)，同時(shí)保持在平均獎(jiǎng)勵(lì)、模型大小和內(nèi)存方面穩(wěn)定的性能。實(shí)驗(yàn)結(jié)果展示了這種網(wǎng)絡(luò)設(shè)計(jì)在緩解災(zāi)難性干擾方面所具有的明顯優(yōu)勢(shì)。

參考文獻(xiàn)：

[ 1 ]KUUTTI S， BOWDEN R， JIN Y， et al. A survey of deeplearning applications to autonomous vehicle control[J].IEEE Transactions on Intelligent Transportation Systems，2021， 22（2）： 712-733.

[ 2 ]HU D， YANG R， ZUO J， et al. Application of deep reinforcementlearning in maneuver planning of beyond-visualrangeair combat[J]. IEEE Access， 2021， 9： 32282-32297.

[ 3 ]MAKHZANI A， FREY B J. Winner-take-all autoencoders[J]. Advances in Neural Information Processing Systems，2015， 28： 2791-2799.

[ 4 ]RAFATI J， NOELLE D C. Learning representations inmodel-free hierarchical reinforcement learning [J/OL].（2018-10-23） [2023-10-10]. https：//arxiv.org/abs/1810.10096.

[ 5 ]LIU V， KUMARASWAMY R， LE L. The utility of sparserepresentations for control in reinforcement learning [C]//The Thirty-Third AAAI Conference on Artificial Intelligence.Honolulu， HI： [s.n.]， 2019： 4384-4391.

[ 6 ]LI Z， ZHAO H， GUO Y， et al. Accelerated log-regularizedconvolutional transform learning and its convergence guarantee[J]. IEEE Transactions on Cybernetics， 2022， 52（10）：10785-10799.

[ 7 ]GOULD S， HARTLEY R， CAMPBELL D. Deep declarativenetworks[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence， 2021， 44（8）： 3988-4004.

[ 8 ]AGRAWAL A， AMOS B， BARRATT S， et al. Differentiableconvex optimization layers[J]. Advances in NeuralInformation Processing Systems， 2019， 32： 9558-9570.

[ 9 ]陳凱旋，吳小俊. 基于對(duì)稱正定流形潛在稀疏表示分類算法[J]. 軟件學(xué)報(bào)， 2020， 31（8）： 2530-2542.

[10]張茁涵，曹容瑋，李晨，等. 隱式低秩稀疏表示的多視角子空間聚類[J]. 模式識(shí)別與人工智能， 2020， 33（4）： 344-352.

[11]DENG T， WANG J， JIA Q. Semi-supervised sparse representationcollaborative clustering of incomplete data[J].Applied Intelligence， 2023， 53（24）： 31077-31105.

[12]AMOS B. Differentiable optimization-based modeling formachine learning [D]. PA： United States Carnegie MellonUniversity， 2019.

[13]BLONDEL M， BERTHET Q， CUTURI M， et al. Efficientand modular implicit differentiation[J]. Advances in NeuralInformation Processing Systems， 2022， 35： 5230-5242.

[14]BERTHET Q， BLONDEL M， TEBOUL O， et al. Learningwith differentiable pertubed optimizers[J]. Advances inNeural Information Processing Systems， 2020， 33： 9508-9519.

[15]XIA T， CHENG C， CUI W. A deep sparse representationwith random dictionary for hyperspectral image classification[J]. International Journal of Wavelets， Multiresolutionand Information Processing， 2023， 21（5）： 2350010.

[16]ZHAO H L， WU J Q， LI Z N， et al. Double sparse deepreinforcement learning via multilayer sparse coding andnonconvex regularized pruning[J]. IEEE Transactions onCybernetics， 2023， 53（2）： 765-778.

[17]SANDER M E， PUIGCERVER J， DJOLONGA J， et al.Fast， differentiable and sparse top-k： A convex analysis perspective[C]// Proceedings of International Conference onMachine Learning. [s.l.]： [s.n.]， 2023： 29919-29936.

[18]YANG G， YANG J， LU Z， LIU D. A convolutional neuralnetwork with sparse representation[J]. Knowledge-BasedSystems， 2020， 209： 106419.

[19]董雋碩，吳玲達(dá)，郝紅星. 稀疏表示技術(shù)與應(yīng)用綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用， 2021， 30（7）： 13-21.

[20]QIAO L B， ZHANG B F， SU J S， et al. A systematicreview of structured sparse learning[J]. Frontiers of Information Technology amp; Electronic Engineering， 2017，18： 445-463.

[21]RAO N， NOWAK R， COX C， et al. Classification with thesparse group lasso[J]. IEEE Transactions on Signal Processing，2016， 64（2）： 448-463.

[22]MNIH V， KAVUKCUOGLU K， SILVER D， et al. Playingatari with deep reinforcement learning [J/OL]. （2013-12-19）[2023-10-23]. https：//arxiv.org/abs/1312.5602.

[23]HESSEL M， MODAYIL J， VAN HASSELT H， et al. Rainbow：Combining improvements in deep reinforcementlearning [C]// Proceedings of Proceedings of the AAAIConference on Artificial Intelligence. Honolulu， HI： [s.n.]，2018： 3215-3222.

[24]SCHULMAN J， WOLSKI F， DHARIWAL P， et al. Proximalpolicy optimization algorithms [J/OL]. （2017-07-20）[2023-10-10]. https：//arxiv.org/abs/1707.06347.

（責(zé)任編輯：張欣）

基金項(xiàng)目：國(guó)家自然科學(xué)基金面上項(xiàng)目（62276097， 62372174）；國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目（62136003）；國(guó)家重點(diǎn)研發(fā)計(jì)劃（2020YFB1711700）；上海市經(jīng)信委“信息化發(fā)展專項(xiàng)資金”（XX-XXFZ-02-20-2463）；上海市科技創(chuàng)新行動(dòng)計(jì)劃（21002411000）