亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于組稀疏優(yōu)化的強(qiáng)化學(xué)習(xí)稀疏表征

        2024-01-03 00:00:00蔡林逸虞慧群
        關(guān)鍵詞:優(yōu)化

        摘要:強(qiáng)化學(xué)習(xí)由于具有出色的數(shù)據(jù)效率和快速學(xué)習(xí)的能力,開始應(yīng)用于許多實際問題以學(xué)習(xí)復(fù)雜策略。但是高維環(huán)境中的強(qiáng)化學(xué)習(xí)常常受限于維度災(zāi)難或者災(zāi)難性干擾,性能表現(xiàn)不佳甚至導(dǎo)致學(xué)習(xí)失敗。圍繞表征學(xué)習(xí),提出了一種符合Lasso 類型優(yōu)化的稀疏卷積深度強(qiáng)化學(xué)習(xí)方法。首先,對稀疏表征的理論和優(yōu)勢進(jìn)行綜述,將稀疏卷積方法引入深度強(qiáng)化學(xué)習(xí)中,提出了一種新的稀疏表征方法;其次,對由稀疏卷積編碼定義的可微優(yōu)化層進(jìn)行了數(shù)學(xué)推導(dǎo)并給出了優(yōu)化算法,為了驗證新的稀疏表征方法的有效性,將其應(yīng)用于相關(guān)文獻(xiàn)常見的基準(zhǔn)環(huán)境中進(jìn)行測試。實驗結(jié)果表明,應(yīng)用稀疏卷積編碼的算法具有更好的性能和魯棒性,在降低了50% 以上模型開銷的前提下,取得了相當(dāng)甚至更優(yōu)的性能。此外,還研究了稀疏程度對算法性能的影響,結(jié)果顯示適當(dāng)?shù)南∈瓒饶塬@得更優(yōu)的性能。

        關(guān)鍵詞:強(qiáng)化學(xué)習(xí);災(zāi)難性干擾;稀疏表征;隱式層;Lasso 優(yōu)化

        中圖分類號:TP181 文獻(xiàn)標(biāo)志碼:A

        在深度神經(jīng)網(wǎng)絡(luò)的加持下,深度強(qiáng)化學(xué)習(xí)(DeepReinforcement Learning, DRL) 在處理含有大量狀態(tài)和動作的決策任務(wù)中取得了令人矚目的進(jìn)展,因而備受關(guān)注。例如,自動駕駛[1] 和空戰(zhàn)決策系統(tǒng)[2] 就是DRL 對于實際問題有意義的應(yīng)用。強(qiáng)化學(xué)習(xí)的核心問題是預(yù)測從不同狀態(tài)可以獲得的預(yù)期收益,其被廣泛使用的技術(shù)是值函數(shù)估計。在求解和優(yōu)化值函數(shù)估計問題的過程中,由于非局部表征存在重疊,基于當(dāng)前狀態(tài)更新的經(jīng)驗很可能會改變值函數(shù)的所有參數(shù),繼而嚴(yán)重干擾或遺忘基于早期狀態(tài)轉(zhuǎn)移樣本更新的經(jīng)驗,這種現(xiàn)象就是災(zāi)難性干擾,在高維連續(xù)的現(xiàn)實問題中更為嚴(yán)重。

        一些傳統(tǒng)的稀疏表征方法[3-4] 已經(jīng)被證明能有效緩解強(qiáng)化學(xué)習(xí)中的災(zāi)難性干擾。在信號理論中,一個信號可以被分解為有限的基本信號的線性組合。類似地,稀疏編碼考慮用有限的特征來表示狀態(tài)在決策層面的本質(zhì)信息,這些基本特征即為稀疏表征。如何從狀態(tài)輸入構(gòu)造有效的稀疏表征是一個有趣的問題,但它仍然面臨一些挑戰(zhàn)。

        目前,深度卷積網(wǎng)絡(luò)已經(jīng)成為處理圖像數(shù)據(jù)的主流方法,而傳統(tǒng)的稀疏建模方法[4-5] 往往只考慮最后幾層網(wǎng)絡(luò)表征的稀疏性。這些方法沒有充分利用神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)特性,不僅造成網(wǎng)絡(luò)的大量冗余,而且難以構(gòu)造圖像數(shù)據(jù)的有效表征,導(dǎo)致算法性能低甚至學(xué)習(xí)失敗。也有學(xué)者采用正則化策略[5-6]作為稀疏化方法,提出在最后一個隱藏層上使用稀疏正則化器。這些工作只考慮了最終表示的稀疏性,但忽略了可能嚴(yán)重影響模型性能的其他隱藏層中的狀態(tài)表示。不少研究者著力于改進(jìn)現(xiàn)有的卷積網(wǎng)絡(luò),Gould 等[7] 和Agrawal 等[8] 通過固定點迭代定義一個隱式層,但是沒有對隱式層輸入的建模做出明確的解釋。也有研究者[9-10] 挖掘了潛在稀疏表示的互補(bǔ)性信息,構(gòu)建了高效求解方法。更進(jìn)一步,Deng 等[11] 提出的稀疏子空間聚類方法用“必須鏈接”和“不能鏈接”的思想構(gòu)建了一個不完全數(shù)據(jù)的鄰接矩陣。而可微優(yōu)化層的工作[12-14] 則是通過將凸優(yōu)化問題嵌入隱藏層中,從而將隱藏層之間的復(fù)雜依賴關(guān)系包含其中。不過,這些研究都沒有考慮特定的信號模型,如稀疏模型。Xia 等[15] 和Zhao 等[16] 提出的深度稀疏表示網(wǎng)絡(luò)對每一層的稀疏模型進(jìn)行求解,具有更優(yōu)的性能,但是,這些方法都存在計算成本較高的問題。

        為了解決上述問題,受可微優(yōu)化層[17] 啟發(fā),對其進(jìn)行明確的數(shù)據(jù)建模,提出了一種基于組稀疏優(yōu)化的稀疏表征方法。新的可微優(yōu)化層可以簡單替換一般卷積層,這保證了方法的適用性。現(xiàn)有的稀疏編碼方法通常只考慮最后幾層的稀疏性,而由于每一層的表征只是對上一層的近似解釋,學(xué)習(xí)表征在傳播過程中不可避免地受到其他表征的嚴(yán)重干擾。本研究的可微優(yōu)化層作用于狀態(tài)輸入,這樣構(gòu)造的稀疏表征可以提取更精確的隱藏特征[18],從而緩解災(zāi)難性干擾。

        本文考慮了深度強(qiáng)化學(xué)習(xí)中卷積網(wǎng)絡(luò)的稀疏建模,在深度強(qiáng)化學(xué)習(xí)中引入可微的隱式層,利用稀疏卷積誘導(dǎo)生成深度稀疏表征,并通過實驗驗證該方法的有效性,結(jié)果表明其能夠緩解高維強(qiáng)化學(xué)習(xí)問題中的災(zāi)難性干擾問題。同時,研究了學(xué)習(xí)表征稀疏程度對網(wǎng)絡(luò)性能的影響,通過實驗確定了合適的稀疏表征率。

        1 問題形式化

        1.1 稀疏表征模型

        稀疏表征原理可簡單定義為x = D×α,即信號x可由來自信號空間的元素集合D的線性組合表示或近似表示[19],其中α表示一個系數(shù)向量。現(xiàn)將一張單通道圖像輸入表示為二維矩陣xi∈ RH×W,它可以看作是定義在離散域上的二維信號。假設(shè)一個強(qiáng)化學(xué)習(xí)智能體的狀態(tài)輸入是多通道圖像,則以一個多維信號x∈ RM×H×W表示環(huán)境狀態(tài),其中M為信號x的通道數(shù)。

        根據(jù)稀疏表征原理,進(jìn)一步假設(shè)狀態(tài)表示可以由一個C通道的卷積字典多維核D ∈ RM×C×k×k和一個C通道的稀疏編碼z ∈ RC×H×W卷積產(chǎn)生,這一過程如圖1 中I 所示。圖1 中左下角為整體框架,虛線框內(nèi)為整體框架的具體化,φ(si)為經(jīng)過稀疏卷積后的結(jié)果,同時是流程Ⅱ的輸入。其他變量符號和表達(dá)式定義見下文。

        為了更好地解釋這一過程,進(jìn)行如下定義:

        z ˙=(α1,…αi,…,αc) (1)

        該算法首先對 z 進(jìn)行隨機(jī)初始化,并且令 zt 表示第t 次迭代,有如下迭代過程:

        其中,[·]+= max(·,0) ,(zt+1)G符合式 (6)。式 (11) 和式(12) 交替進(jìn)行,一旦在擴(kuò)展特征空間中獲得了解決方案,就將其按照原始空間的組結(jié)構(gòu)重新組合以獲得結(jié)果。

        為盡快獲得結(jié)果,在訓(xùn)練過程中采用交替迭代的方法。對于每一輪迭代,首先固定多維核D和θ更新稀疏編碼z,接著固定z 和θ更新D,最后通過反向傳播更新θ。實驗中,持續(xù)執(zhí)行迭代直到zt+1 - zt的元素l2 范數(shù)小于一個規(guī)定的界限值(例如10-5),或者達(dá)到最大迭代步長。這一算法偽代碼如算法1 所示。

        算法1:SOGL 迭代求解算法

        輸入:經(jīng)驗回放緩存,D,γ,a,b

        1 初始化網(wǎng)絡(luò) θ ,隨機(jī)初始化 z

        2 repeat:

        3 while ( i ? Kmax ): # Kmax 為最大迭代步長

        4 通過式 (11) 計算 z?

        5 通過式 (12) 計算 zt+1

        6 ifzt+1 - zt 收斂: # 以 10?5 為界限

        7 break

        7 通過式(10) 更新D

        8 反向傳播更新 θ

        輸出:z,D

        3 實驗與分析

        3.1 實驗設(shè)置

        本文在性能表現(xiàn)、模型開銷等方面對所提出的方法進(jìn)行了測試,同時研究了學(xué)習(xí)表征稀疏程度對網(wǎng)絡(luò)性能的影響。

        3.1.1 環(huán)境設(shè)置

        本文所用強(qiáng)化學(xué)習(xí)實驗環(huán)境有Atari 游戲中隨機(jī)選取的6 個游戲(Mspacman,Breakout, Seaquest, Qbert, SpaceInvaders 和Enduro)和vizdoom,這些環(huán)境都有著高維的狀態(tài)空間。在Atari 實驗環(huán)境中,智能體會訓(xùn)練100 個epoch,每個epoch 為106 步;而在vizdoom 環(huán)境中則是訓(xùn)練300個epoch。

        3.1.2 對比算法

        為了驗證稀疏表征方法的有效性,將該方法在DQN(Deep Q-Network)[22], Rainbow[23] 和PPO (Proximal Policy Optimization)[24] 這3 個基準(zhǔn)算法中進(jìn)行了測試。在對比實驗中,本文只將對應(yīng)網(wǎng)絡(luò)中的第1 層卷積層替換為所提出的稀疏表征層,具體來說,是將pytorch 框架中的“Conv2d”替換為稀疏表征層,并保證狀態(tài)張量的輸入輸出的維度和形狀保持一致。將與DQN、Rainbow、PPO 對應(yīng)的新網(wǎng)絡(luò)分別稱為SRDQN,SRRainbow和SRPPO,目的是為了驗證本文方法的通用性。

        3.2 性能表現(xiàn)

        3.2.1 Atari環(huán)境中的模型性能

        為驗證稀疏表征方法的性能優(yōu)勢,在模型訓(xùn)練過程中監(jiān)控并記錄了每個算法所需的計算資源,在訓(xùn)練結(jié)束后統(tǒng)計了模型非零權(quán)重的個數(shù),并將其作為模型大小的依據(jù)。之后,對每個訓(xùn)練模型在對應(yīng)的Atari 環(huán)境中測試50次并記錄其平均獎勵。SRDQN,SRRainbow,SRPPO及各自的對比算法的實驗結(jié)果在表1 中列出。

        可以看到,稀疏表征方法的模型更小,并且訓(xùn)練的開銷更低。與對比算法模型相比,稀疏表征模型只有原網(wǎng)絡(luò)大小的25%~50%,并且在這一前提下獲得了相當(dāng)或者略優(yōu)的性能,在Breakout 環(huán)境中SRPPO甚至有兩倍以上的優(yōu)異表現(xiàn),表明本研究的稀疏表征網(wǎng)絡(luò)作為現(xiàn)有的深度強(qiáng)化學(xué)習(xí)模型的替代方案具有強(qiáng)大潛力。

        3.2.2 Vizdoom環(huán)境中的模型性能

        本文進(jìn)一步在Vizdoom 環(huán)境中測試稀疏表征層。Vizdoom 環(huán)境需要智能體同時完成探索路徑、收集裝備、躲避陷阱和殺死怪物等諸多任務(wù)。在300 個epoch 的訓(xùn)練下,每經(jīng)過一個epoch 就對智能體在當(dāng)前參數(shù)下的算法表現(xiàn)進(jìn)行一次測試,訓(xùn)練過程中獎勵變化曲線圖如圖2所示。

        圖2 中橫坐標(biāo)是訓(xùn)練步數(shù),縱坐標(biāo)是當(dāng)前參數(shù)下的獎勵,獎勵越高,表明算法表現(xiàn)越好。圖中陰影部分的范圍則代表算法學(xué)習(xí)過程的獎勵方差。在Vizdoom 環(huán)境中,SRPPO 和SRRainbow 比原方法能夠更快地收斂并獲得略多的獎勵;SRPPO 和SRRainbow的陰影范圍更小,表明本研究的稀疏表征模型對環(huán)境狀態(tài)變化有更高的魯棒性,能夠有效緩解強(qiáng)化學(xué)習(xí)中面臨的災(zāi)難性干擾。

        3.2.3 稀疏度的影響

        為進(jìn)一步研究稀疏表征程度對模型性能的影響,在Vizdoom 環(huán)境中測試3 個算法在不同λ 值下的性能表現(xiàn)。λ 越大,學(xué)習(xí)表征越稀疏。以λ 為零時的表現(xiàn)作為基準(zhǔn)表現(xiàn),并進(jìn)行多次測試,以評估在不同λ 值下稀疏表征方法的性能。實驗中,在每個階段都監(jiān)控并記錄了性能,它們與基線的性能對比如圖3 所示。隨著λ 值的增加,本文的稀疏表征模型的性能先提高,但在某個階段之后迅速下降。

        如前文所述,本文的稀疏模型符合SOGL 優(yōu)化問題,其中參數(shù)λ 用于平衡z 的稀疏性和殘差x-D(z)。當(dāng)λ較?。?.4左右)時,z 不夠稀疏,稀疏模型可能無法充分利用稀疏表征的優(yōu)勢;隨著λ 的增加,z 變得更稀疏。稀疏表征模型能更好地緩解災(zāi)難性干擾,表現(xiàn)出算法性能提高。然而,當(dāng)λ 繼續(xù)增大時,z 變得過于稀疏。由于強(qiáng)化學(xué)習(xí)中的智能體是通過與環(huán)境交互來學(xué)習(xí)的,當(dāng)z 過于稀疏時,可能會導(dǎo)致環(huán)境狀態(tài)信息的丟失,給智能體學(xué)習(xí)帶來困難,從而引發(fā)了算法性能的迅速下降。

        4 結(jié) 論

        強(qiáng)化學(xué)習(xí)算法的成功通常取決于良好的數(shù)據(jù)表征,研究強(qiáng)化學(xué)習(xí)中表征學(xué)習(xí)方法的目的是更好地表示數(shù)據(jù)以提高智能體的學(xué)習(xí)和泛化能力。本文針對高維環(huán)境中強(qiáng)化學(xué)習(xí)智能體面臨的災(zāi)難性干擾問題,分別給出了模型訓(xùn)練角度和泛化性角度的分析,提出了基于組稀疏優(yōu)化的稀疏表征方法,并結(jié)合稀疏表征的理論和優(yōu)勢推導(dǎo)出由稀疏卷積編碼定義的可微優(yōu)化層和求解算法。最后通過實驗驗證了這種設(shè)計可以擴(kuò)展到基于圖像的強(qiáng)化學(xué)習(xí),同時保持在平均獎勵、模型大小和內(nèi)存方面穩(wěn)定的性能。實驗結(jié)果展示了這種網(wǎng)絡(luò)設(shè)計在緩解災(zāi)難性干擾方面所具有的明顯優(yōu)勢。

        參考文獻(xiàn):

        [ 1 ]KUUTTI S, BOWDEN R, JIN Y, et al. A survey of deeplearning applications to autonomous vehicle control[J].IEEE Transactions on Intelligent Transportation Systems,2021, 22(2): 712-733.

        [ 2 ]HU D, YANG R, ZUO J, et al. Application of deep reinforcementlearning in maneuver planning of beyond-visualrangeair combat[J]. IEEE Access, 2021, 9: 32282-32297.

        [ 3 ]MAKHZANI A, FREY B J. Winner-take-all autoencoders[J]. Advances in Neural Information Processing Systems,2015, 28: 2791-2799.

        [ 4 ]RAFATI J, NOELLE D C. Learning representations inmodel-free hierarchical reinforcement learning [J/OL].(2018-10-23) [2023-10-10]. https://arxiv.org/abs/1810.10096.

        [ 5 ]LIU V, KUMARASWAMY R, LE L. The utility of sparserepresentations for control in reinforcement learning [C]//The Thirty-Third AAAI Conference on Artificial Intelligence.Honolulu, HI: [s.n.], 2019: 4384-4391.

        [ 6 ]LI Z, ZHAO H, GUO Y, et al. Accelerated log-regularizedconvolutional transform learning and its convergence guarantee[J]. IEEE Transactions on Cybernetics, 2022, 52(10):10785-10799.

        [ 7 ]GOULD S, HARTLEY R, CAMPBELL D. Deep declarativenetworks[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence, 2021, 44(8): 3988-4004.

        [ 8 ]AGRAWAL A, AMOS B, BARRATT S, et al. Differentiableconvex optimization layers[J]. Advances in NeuralInformation Processing Systems, 2019, 32: 9558-9570.

        [ 9 ]陳凱旋, 吳小俊. 基于對稱正定流形潛在稀疏表示分類算法[J]. 軟件學(xué)報, 2020, 31(8): 2530-2542.

        [10]張茁涵, 曹容瑋, 李晨, 等. 隱式低秩稀疏表示的多視角子空間聚類[J]. 模式識別與人工智能, 2020, 33(4): 344-352.

        [11]DENG T, WANG J, JIA Q. Semi-supervised sparse representationcollaborative clustering of incomplete data[J].Applied Intelligence, 2023, 53(24): 31077-31105.

        [12]AMOS B. Differentiable optimization-based modeling formachine learning [D]. PA: United States Carnegie MellonUniversity, 2019.

        [13]BLONDEL M, BERTHET Q, CUTURI M, et al. Efficientand modular implicit differentiation[J]. Advances in NeuralInformation Processing Systems, 2022, 35: 5230-5242.

        [14]BERTHET Q, BLONDEL M, TEBOUL O, et al. Learningwith differentiable pertubed optimizers[J]. Advances inNeural Information Processing Systems, 2020, 33: 9508-9519.

        [15]XIA T, CHENG C, CUI W. A deep sparse representationwith random dictionary for hyperspectral image classification[J]. International Journal of Wavelets, Multiresolutionand Information Processing, 2023, 21(5): 2350010.

        [16]ZHAO H L, WU J Q, LI Z N, et al. Double sparse deepreinforcement learning via multilayer sparse coding andnonconvex regularized pruning[J]. IEEE Transactions onCybernetics, 2023, 53(2): 765-778.

        [17]SANDER M E, PUIGCERVER J, DJOLONGA J, et al.Fast, differentiable and sparse top-k: A convex analysis perspective[C]// Proceedings of International Conference onMachine Learning. [s.l.]: [s.n.], 2023: 29919-29936.

        [18]YANG G, YANG J, LU Z, LIU D. A convolutional neuralnetwork with sparse representation[J]. Knowledge-BasedSystems, 2020, 209: 106419.

        [19]董雋碩, 吳玲達(dá), 郝紅星. 稀疏表示技術(shù)與應(yīng)用綜述[J].計算機(jī)系統(tǒng)應(yīng)用, 2021, 30(7): 13-21.

        [20]QIAO L B, ZHANG B F, SU J S, et al. A systematicreview of structured sparse learning[J]. Frontiers of Information Technology amp; Electronic Engineering, 2017,18: 445-463.

        [21]RAO N, NOWAK R, COX C, et al. Classification with thesparse group lasso[J]. IEEE Transactions on Signal Processing,2016, 64(2): 448-463.

        [22]MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playingatari with deep reinforcement learning [J/OL]. (2013-12-19)[2023-10-23]. https://arxiv.org/abs/1312.5602.

        [23]HESSEL M, MODAYIL J, VAN HASSELT H, et al. Rainbow:Combining improvements in deep reinforcementlearning [C]// Proceedings of Proceedings of the AAAIConference on Artificial Intelligence. Honolulu, HI: [s.n.],2018: 3215-3222.

        [24]SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximalpolicy optimization algorithms [J/OL]. (2017-07-20)[2023-10-10]. https://arxiv.org/abs/1707.06347.

        (責(zé)任編輯:張欣)

        基金項目: 國家自然科學(xué)基金面上項目(62276097, 62372174);國家自然科學(xué)基金重點項目(62136003);國家重點研發(fā)計劃(2020YFB1711700);上海市經(jīng)信委“信息化發(fā)展專項資金”(XX-XXFZ-02-20-2463);上海市科技創(chuàng)新行動計劃(21002411000)

        猜你喜歡
        優(yōu)化
        超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
        PEMFC流道的多目標(biāo)優(yōu)化
        能源工程(2022年1期)2022-03-29 01:06:28
        民用建筑防煙排煙設(shè)計優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
        圍繞“地、業(yè)、人”優(yōu)化產(chǎn)業(yè)扶貧
        事業(yè)單位中固定資產(chǎn)會計處理的優(yōu)化
        4K HDR性能大幅度優(yōu)化 JVC DLA-X8 18 BC
        幾種常見的負(fù)載均衡算法的優(yōu)化
        電子制作(2017年20期)2017-04-26 06:57:45
        欧美成人在线视频| 亚洲一区二区日韩精品| 免费黄片小视频在线播放| 夜夜躁狠狠躁日日躁2022| 天堂sv在线最新版在线| 国产成人久久精品77777综合| 日本不卡不二三区在线看| 久久精品国产字幕高潮| 欧美gv在线观看| 中文字幕第一页亚洲观看| 国产一区二区不卡av| 亚洲一区二区三区四区五区黄| 午夜秒播久久精品麻豆| 欧美黑人性暴力猛交喷水| 日韩免费一区二区三区在线| 一区二区三区岛国av毛片| 精品国产一区二区三区av天堂| 人妻聚色窝窝人体www一区| 国产午夜亚洲精品不卡福利| 国产精品三级国产精品高| 精品人妻一区二区三区久久| 国产麻豆精品一区| 亚洲另在线日韩综合色| 精品亚洲国产亚洲国产| 天天做天天摸天天爽天天爱| 精品人妻潮喷久久久又裸又黄| 亚洲色欲色欲www成人网| 手机在线免费观看av不卡网站| 精品国产av色一区二区深夜久久| 在线观看91精品国产免费免费| 国产成人亚洲合色婷婷| 人妻少妇哀求别拔出来| 天堂а√在线中文在线新版 | 亚洲最新版无码AV| av大片网站在线观看| 中文无码人妻有码人妻中文字幕| 亚洲精品国产成人| jk制服黑色丝袜喷水视频国产| 国产一区二区三区色哟哟| 久久久老熟女一区二区三区 | 亚洲中文字幕久久精品色老板|