本文引用格式:,,,等.基于監(jiān)督式 DDPG 算法的小型ROV 運(yùn)動(dòng)控制方法[J].自動(dòng)化與信息工程,2025,46(3):23-29.HUANG Zhaojun, ZHANG Yanjia, ZUO Xiaowen, et al. Motion control method for small ROV based on super-vised DDPG algorithm[J]. Automation amp; Information Engineering,2025,46(3):23-29.
關(guān)鍵詞:監(jiān)督式DDPG;小型ROV;運(yùn)動(dòng)控制;專(zhuān)家經(jīng)驗(yàn);強(qiáng)化學(xué)習(xí)中圖分類(lèi)號(hào):TP242.3 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-2605(2025)03-0004-07DOI: 10.12475/aie.20250304 開(kāi)放獲取
Motion Control Method for Small ROV Based on Supervised DDPG Algorithm
HUANG Zhaojun ZHANG Yanjia ZUO Xiaowen CHEN Zexun (Zhuhai City Polytechnic, Zhuhai 519090, China)
Abstract:To adressthe issues of prolonged learning time and diffculty inconvergence when using the Deep Deterministic Policy Gradient (DDPG)algorithm formotioncontrolofremotelyoperatedtetheredunderwatervehicles (ROVs),this paper proposesasupervisedDDPG-basedmotioncontrolmethodforsmallROVs.During theinitialleamingphaseoftheDDPGalgorith, asupervisedleamingapproachisintroduced toaccelerateneural networkconvergenceandreduceleaingtimebyleveragingexpert experience.Simulationresults demonstrate that te supervised DDPGalgorithmachieves superiorcontrolperformancecomparedto the standard DDPG algorithm.
Keywords: supervised DDPG; small ROV; motion control; expert experience; reinforcement learning
0 引言
無(wú)人遙控有纜水下機(jī)器人(remotelyoperatedvehicle,ROV)因在開(kāi)發(fā)難度、研制周期、資金投入和產(chǎn)業(yè)化等方面具有優(yōu)勢(shì),成為水下機(jī)器人領(lǐng)域的研究重點(diǎn),并己廣泛應(yīng)用于海水養(yǎng)殖、海洋勘探、水下搜救和石油開(kāi)發(fā)等領(lǐng)域。運(yùn)動(dòng)控制是ROV的核心技術(shù)之一,包括PID控制、模糊控制、滑膜變結(jié)構(gòu)控制和S面控制等方法。但這些方法均存在一定的局限性如PID控制在處理非線性復(fù)雜耦合系統(tǒng)時(shí)面臨挑戰(zhàn);
模糊控制受限于規(guī)則庫(kù)的完備性和規(guī)則結(jié)構(gòu)的合理性,當(dāng)系統(tǒng)復(fù)雜度較高時(shí)易出現(xiàn)“規(guī)則爆炸”問(wèn)題;滑膜變結(jié)構(gòu)控制和S面控制存在實(shí)現(xiàn)困難且易產(chǎn)生抖動(dòng)等問(wèn)題[1],制約了ROV的產(chǎn)業(yè)化進(jìn)程。
近年來(lái),隨著人工智能技術(shù)的快速發(fā)展,智能控制算法逐漸應(yīng)用于ROV運(yùn)動(dòng)控制領(lǐng)域[2]。其中,深度確定性策略梯度(deep deterministic policy gradi- ent,DDPG)算法作為機(jī)器學(xué)習(xí)的一種深度強(qiáng)化學(xué)習(xí)算法,無(wú)需精確的數(shù)學(xué)模型,通過(guò)智能體與環(huán)境的交互即可實(shí)現(xiàn)控制策略的優(yōu)化,具有環(huán)境自適應(yīng)性,適用于連續(xù)、實(shí)時(shí)決策且不確定性較高的水下環(huán)境,成為當(dāng)前ROV運(yùn)動(dòng)控制領(lǐng)域的重要研究方向。但DDPG算法存在學(xué)習(xí)時(shí)間長(zhǎng)、虛實(shí)遷移效果差和收斂難等問(wèn)題,導(dǎo)致其在ROV運(yùn)動(dòng)控制中的實(shí)際應(yīng)用效果并不理想目前多數(shù)研究仍停留在仿真實(shí)驗(yàn)階段。
為此,本文對(duì)DDPG算法進(jìn)行改進(jìn),提出基于監(jiān)督式DDPG算法的小型ROV運(yùn)動(dòng)控制方法,旨在改善算法的收斂性和穩(wěn)定性。
一 DDPG算法理論
DDPG算法是一種為解決連續(xù)控制問(wèn)題而提出的深度強(qiáng)化學(xué)習(xí)算法[3]。該算法采用Actor-Critic架構(gòu),結(jié)合策略神經(jīng)網(wǎng)絡(luò)和價(jià)值神經(jīng)網(wǎng)絡(luò),對(duì)輸入的高維數(shù)據(jù)進(jìn)行擬合處理和決策,實(shí)現(xiàn)端對(duì)端的策略?xún)?yōu)化和控制,在連續(xù)狀態(tài)空間下,輸出一個(gè)確定的動(dòng)作[4]。
DDPG算法可分為采樣、訓(xùn)練、參數(shù)更新3個(gè)流程[5],如圖1所示。
采樣流程是智能體與環(huán)境交互以收集經(jīng)驗(yàn)數(shù)據(jù)的過(guò)程。Actor網(wǎng)絡(luò)根據(jù)智能體的初始狀態(tài) S 輸出一個(gè)連續(xù)動(dòng)作 A ,并作用于環(huán)境Env;環(huán)境變化影響智能體,使其轉(zhuǎn)移到下一個(gè)新?tīng)顟B(tài) S′ ,并同步反饋一個(gè)獎(jiǎng)勵(lì)信號(hào) R ;將這一完整的交互經(jīng)驗(yàn)元組(當(dāng)前狀態(tài)S, 動(dòng)作 Ai ,獎(jiǎng)勵(lì) R, 新?tīng)顟B(tài) S′ 終止標(biāo)志done)存儲(chǔ)到經(jīng)驗(yàn)池中,并將新?tīng)顟B(tài) S′ 返回賦值為新的初始狀態(tài),持續(xù)循環(huán)上述流程,直到經(jīng)驗(yàn)池填滿,進(jìn)入訓(xùn)練流程。
訓(xùn)練流程獨(dú)立于智能體與環(huán)境的實(shí)時(shí)交互,利用經(jīng)驗(yàn)池中存儲(chǔ)的歷史數(shù)據(jù)進(jìn)行離線學(xué)習(xí),更新網(wǎng)絡(luò)參數(shù)以?xún)?yōu)化控制策略。首先,隨機(jī)從經(jīng)驗(yàn)池中提取規(guī)定數(shù)量(Batchsize)的經(jīng)驗(yàn)元組;然后,Critic網(wǎng)絡(luò)計(jì)算當(dāng)前狀態(tài) S 和執(zhí)行動(dòng)作 A 對(duì)應(yīng)的預(yù)測(cè)回報(bào)值 ,并基于平均誤差計(jì)算Actorloss損失;同時(shí),目標(biāo)Critic網(wǎng)絡(luò)基于新?tīng)顟B(tài) S 和目標(biāo)動(dòng)作 A 計(jì)算目標(biāo)回報(bào)值 Q′ (考慮折扣因子 γ *和獎(jiǎng)勵(lì) R );最后,基于
和 Q′ 的均方差計(jì)算Criticloss損失。
參數(shù)更新流程基于訓(xùn)練流程計(jì)算的Actor_loss損失和Criticloss損失來(lái)調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)。Critic網(wǎng)絡(luò)通過(guò)梯度下降法最小化Criticloss損失更新參數(shù)ω ;Actor網(wǎng)絡(luò)通過(guò)最大化Critic網(wǎng)絡(luò)評(píng)估的 值方向更新參數(shù)θ。但為了穩(wěn)定訓(xùn)練過(guò)程,防止劇烈波動(dòng),上述更新參數(shù)并非直接復(fù)制到相應(yīng)的網(wǎng)絡(luò)中,而是采用“軟更新”的方式間接進(jìn)行。即通過(guò)指數(shù)平滑的方式將Critic網(wǎng)絡(luò)參數(shù)和Actor網(wǎng)絡(luò)參數(shù)緩慢混合到對(duì)應(yīng)的目標(biāo)Critic網(wǎng)絡(luò)參數(shù) ω′ 和目標(biāo)Actor網(wǎng)絡(luò)參數(shù) θ′ 中,以確保目標(biāo)網(wǎng)絡(luò)參數(shù)的變化是漸進(jìn)且穩(wěn)定的,從而提升DDPG算法學(xué)習(xí)的穩(wěn)定性。
DDPG算法是以累積獎(jiǎng)勵(lì)最大化為目標(biāo),使智能體在與環(huán)境的交互中不斷學(xué)習(xí)最優(yōu)策略的一種非監(jiān)督式機(jī)器學(xué)習(xí)算法。因缺乏監(jiān)督,該算法策略學(xué)習(xí)過(guò)程和動(dòng)作訓(xùn)練均是隨機(jī)的,導(dǎo)致學(xué)習(xí)時(shí)間較長(zhǎng)且神經(jīng)網(wǎng)絡(luò)難以收斂,造成大量數(shù)據(jù)浪費(fèi),存儲(chǔ)開(kāi)銷(xiāo)增加,神經(jīng)網(wǎng)絡(luò)的泛化能力降低,實(shí)用性較差。
2 監(jiān)督式DDPG算法
為改善上述問(wèn)題,本文在DDPG算法的基礎(chǔ)上引入監(jiān)督學(xué)習(xí)算法,提出一種監(jiān)督式DDPG算法。該算法通過(guò)監(jiān)督學(xué)習(xí)算法的專(zhuān)家經(jīng)驗(yàn)來(lái)指導(dǎo)ROV的策略學(xué)習(xí)凹,使最優(yōu)策略的探索和學(xué)習(xí)具有一定的方向性和目的性[8],從而縮短學(xué)習(xí)時(shí)間,加快神經(jīng)網(wǎng)絡(luò)收斂。監(jiān)督式DDPG算法的原理如圖2所示。
設(shè)DDPG算法對(duì)ROV的選擇動(dòng)作為 a?R ,則監(jiān)督式DDPG算法對(duì)ROV的選擇動(dòng)作為
a=ka?R+(1-k)a?S
式中: as 為監(jiān)督學(xué)習(xí)算法提供的指導(dǎo)動(dòng)作; k 為DDPG算法與監(jiān)督學(xué)習(xí)算法的融合度權(quán)重系數(shù),取值范圍為[0,1]。
監(jiān)督式DDPG算法不修改DDPG算法的策略。但監(jiān)督學(xué)習(xí)算法的介入時(shí)長(zhǎng)和性能占比通常需要人為設(shè)定,這可能導(dǎo)致DDPG算法在已學(xué)習(xí)到比監(jiān)督學(xué)習(xí)算法更優(yōu)的策略時(shí),監(jiān)督學(xué)習(xí)算法產(chǎn)生阻礙作用[10-12].本文利用融合度權(quán)重系數(shù) k 分階段自動(dòng)調(diào)整監(jiān)督學(xué)習(xí)算法[,即隨著監(jiān)督式DDPG算法逐步逼近最優(yōu)策略,監(jiān)督學(xué)習(xí)算法逐步退出,以免影響DDPG算法的性能。
1)當(dāng) k∈{0,1} 時(shí), k=0 ,表示監(jiān)督式DDPG算法在初始學(xué)習(xí)階段,智能體在監(jiān)督學(xué)習(xí)算法下進(jìn)行動(dòng)作選擇和訓(xùn)練; k=1 ,表示監(jiān)督式DDPG算法在訓(xùn)練階段后期,監(jiān)督學(xué)習(xí)算法完全退出,智能體在DDPG算法下進(jìn)行運(yùn)動(dòng)控制。
2)當(dāng) k∈(0,1) 時(shí),表示監(jiān)督學(xué)習(xí)算法和DDPG算法同時(shí)存在,若DDPG算法沒(méi)有向最優(yōu)策略逼近,則 k 需選擇較小的值,使監(jiān)督學(xué)習(xí)算法占主導(dǎo)地位;隨著DDPG算法不斷向最優(yōu)策略逼近,需逐漸增加 k 值,使DDPG算法逐步占主導(dǎo)地位。
2.1 監(jiān)督采樣
監(jiān)督式DDPG 算法根據(jù) DDPG 算法選擇動(dòng)作 a?R 和監(jiān)督學(xué)習(xí)算法指導(dǎo)動(dòng)作 as 的誤差梯度進(jìn)行參數(shù)更新,即Actor網(wǎng)絡(luò)參數(shù)更新引入了DDPG算法和監(jiān)督學(xué)習(xí)算法的誤差,使策略神經(jīng)網(wǎng)絡(luò)向監(jiān)督學(xué)習(xí)算法的專(zhuān)家示范策略 πs 逼近。Actor網(wǎng)絡(luò)的參數(shù)更新公式為
θ←θ+kΔθR+(1-k)Δθs
式中: θ 為Actor網(wǎng)絡(luò)參數(shù), ΔθR 和 Δθs 分別為DDPG算法和監(jiān)督學(xué)習(xí)算法的網(wǎng)絡(luò)參數(shù)變化量。
考慮到策略學(xué)習(xí)時(shí), Q 值是從采樣數(shù)據(jù)中泛化訓(xùn)練得到的,因此可以利用監(jiān)督學(xué)習(xí)算法得到的監(jiān)督數(shù)據(jù)來(lái)提升策略神經(jīng)網(wǎng)絡(luò)的收斂速度,從而加快DDPG算法的學(xué)習(xí)進(jìn)程。借助監(jiān)督數(shù)據(jù)對(duì)動(dòng)作加以指導(dǎo),這相當(dāng)于減小了包含最優(yōu)動(dòng)作的動(dòng)作集和需要處理的狀態(tài)數(shù)量,因此監(jiān)督式DDPG 算法可以更快地進(jìn)行 值估計(jì)和最優(yōu) Qmax(s′,a′) 逼近。
在監(jiān)督式DDPG算法強(qiáng)化學(xué)習(xí)的過(guò)程中,采樣數(shù)據(jù)中包含監(jiān)督數(shù)據(jù)的概率較大,尤其在訓(xùn)練階段的前期,此時(shí)損失函數(shù)的計(jì)算公式為
式中: λ 為監(jiān)督學(xué)習(xí)采樣數(shù)據(jù)占總采樣數(shù)據(jù)的比例, LR 為強(qiáng)化學(xué)習(xí)數(shù)據(jù)誤差, LS 為監(jiān)督學(xué)習(xí)數(shù)據(jù)誤差。
在監(jiān)督式DDPG算法策略?xún)?yōu)化的過(guò)程中,專(zhuān)家示范策略引導(dǎo)網(wǎng)絡(luò)參數(shù)加快收斂[13]。在向目標(biāo)值逼近的過(guò)程中,Critic 網(wǎng)絡(luò)的 、融合監(jiān)督學(xué)習(xí)后的
均比無(wú)監(jiān)督信號(hào)的 Q(s,a) 大,因此引入監(jiān)督學(xué)習(xí)后更容易逼近目標(biāo)值。
通過(guò)Critic網(wǎng)絡(luò)和目標(biāo)Critic網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)參數(shù)更新時(shí),策略梯度變?yōu)?/p>
因?yàn)? 值更大,所以更逼近目標(biāo)值,更新梯度也向正方向優(yōu)化,這使Critic網(wǎng)絡(luò)計(jì)算的
值更準(zhǔn)確:
基于上述更新策略,Actor網(wǎng)絡(luò)在策略學(xué)習(xí)過(guò)程中更快地向最優(yōu)策略逼近,縮短了強(qiáng)化學(xué)習(xí)的時(shí)間。
2.2 行為克隆
在DDPG算法中,深度神經(jīng)網(wǎng)絡(luò)的隱藏層較多且神經(jīng)節(jié)點(diǎn)連接復(fù)雜,本文利用反向傳播(back propaga-tion,BP)算法進(jìn)行網(wǎng)絡(luò)參數(shù)更新。在訓(xùn)練樣本充足的情況下,以監(jiān)督學(xué)習(xí)算法的專(zhuān)家示范策略為指導(dǎo)標(biāo)簽來(lái)訓(xùn)練策略神經(jīng)網(wǎng)絡(luò),可實(shí)現(xiàn)專(zhuān)家示范策略的克隆[12]
基于監(jiān)督學(xué)習(xí)算法的專(zhuān)家示范策略,將狀態(tài) s 的估計(jì)誤差 es 作為輸入,采用監(jiān)督回歸的方法引導(dǎo)策略神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)專(zhuān)家控制器輸出的控制軌跡:
{τ1,τ1,…,τn}
每條專(zhuān)家控制軌跡樣本都基于同樣的狀態(tài)-動(dòng)作空間:
τi={S1i,S2i,…,Sni}
從專(zhuān)家控制軌跡樣本中隨機(jī)采樣,以每條控制軌
跡所包含的狀態(tài)-動(dòng)作對(duì)作為監(jiān)督學(xué)習(xí)算法采樣的數(shù)據(jù)集,通過(guò)監(jiān)督學(xué)習(xí)從該數(shù)據(jù)集采樣并進(jìn)行訓(xùn)練:
D={(s1.a1),(s2.a2),…,(sn.an)}
為有效解決同一狀態(tài)下連續(xù)采樣導(dǎo)致的神經(jīng)網(wǎng)絡(luò)泛化能力下降的問(wèn)題,在對(duì)監(jiān)督學(xué)習(xí)采樣數(shù)據(jù)集進(jìn)行回歸擬合時(shí),需采樣多條不同的控制軌跡樣本。以控制動(dòng)作為指導(dǎo)標(biāo)簽,狀態(tài)誤差為特征,通過(guò)DDPG神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸學(xué)習(xí)來(lái)擬合逼近最優(yōu)策略。需要注意的是,如果狀態(tài)空間的樣本數(shù)據(jù)較多,僅基于監(jiān)督學(xué)習(xí)算法更新網(wǎng)絡(luò)參數(shù)會(huì)帶來(lái)時(shí)間累積誤差,因此需要合理控制監(jiān)督學(xué)習(xí)算法的介入程度。
2.3監(jiān)督式DDPG算法的Actor網(wǎng)絡(luò)參數(shù)更新
DDPG算法是以Actor網(wǎng)絡(luò)最終的學(xué)習(xí)策略為最優(yōu)策略,基于梯度下降原理進(jìn)行網(wǎng)絡(luò)參數(shù)更新:
式中: α 為梯度更新步長(zhǎng)。
Critic網(wǎng)絡(luò)的 估計(jì)值基于動(dòng)作 a 求導(dǎo)數(shù)獲得梯度,并與Actor網(wǎng)絡(luò)對(duì)其他參數(shù)的導(dǎo)數(shù)相乘得到更新梯度。
融合監(jiān)督學(xué)習(xí)算法后,通過(guò)調(diào)整損失函數(shù)使策略更新向?qū)<沂痉恫呗苑较虮平?,從而完成?zhuān)家示范策略的克隆。在Critic網(wǎng)絡(luò)參數(shù)更新時(shí),引入邊界函數(shù),增加當(dāng)前狀態(tài) s 下Actor網(wǎng)絡(luò)的選擇動(dòng)作與專(zhuān)家示范策略下選擇動(dòng)作之間的差值,其損失函數(shù)也會(huì)同步增大。用 πs(s) 表示專(zhuān)家示范策略函數(shù),示教差距定義為
以監(jiān)督學(xué)習(xí)數(shù)據(jù)為指導(dǎo)標(biāo)簽的DDPG神經(jīng)網(wǎng)絡(luò)參數(shù)更新可以表示為
Δθs←αδ(as,aπ)?θπθ(s)
式中: δ 為監(jiān)督學(xué)習(xí)算法下的TD-error,可用示教差距來(lái)計(jì)算:
δ(as,aπ)=E(s)
以監(jiān)督學(xué)習(xí)算法的每個(gè)采樣狀態(tài)誤差來(lái)計(jì)算損失函數(shù),使神經(jīng)網(wǎng)絡(luò)輸出向?qū)<沂痉恫呗苑较虮平?/p>
與DDPG算法原有的損失函數(shù)合并后,監(jiān)督式DDPG神經(jīng)網(wǎng)絡(luò)的損失函數(shù)為
采用最速梯度下降法對(duì)DDPG神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行啟發(fā)式更新,通過(guò)損失函數(shù)對(duì)誤差的負(fù)梯度進(jìn)行調(diào)整:
Δθs=-α?θEθ(s)
基于鏈?zhǔn)椒▌t將公式(15)展開(kāi),并將同一狀態(tài) s 下的專(zhuān)家示范動(dòng)作替換為采樣動(dòng)作,則監(jiān)督學(xué)習(xí)部分的神經(jīng)網(wǎng)絡(luò)參數(shù)梯度可表示為
最終,監(jiān)督式DDPG 算法歸一化處理 Q 值梯度和監(jiān)督誤差梯度的合并值,從而得到包含監(jiān)督學(xué)習(xí)算法的目標(biāo)Actor網(wǎng)絡(luò)參數(shù)更新公式:
式中: β 為權(quán)重系數(shù),可通過(guò)人為調(diào)整 β 值來(lái)調(diào)整DDPG算法和監(jiān)督學(xué)習(xí)算法的梯度比例。
在融合應(yīng)用DDPG算法和監(jiān)督學(xué)習(xí)算法時(shí),需將DDPG控制器和監(jiān)督學(xué)習(xí)控制器串聯(lián)使用。兩種算法的控制策略均要求智能體與環(huán)境進(jìn)行交互,通過(guò)經(jīng)驗(yàn)回放機(jī)制存儲(chǔ)狀態(tài)信息和專(zhuān)家示范策略信息,在損失函數(shù)中引入監(jiān)督誤差,使參數(shù)更新過(guò)程中在探索更大獎(jiǎng)勵(lì)值的同時(shí)向?qū)<沂痉恫呗员平?/p>
3監(jiān)督式DDPG控制器的設(shè)計(jì)
基于本文提出的監(jiān)督式DDPG算法設(shè)計(jì)監(jiān)督式DDPG控制器,其框架如圖3所示。
監(jiān)督式DDPG控制器的工作原理如下:在訓(xùn)練初期,利用預(yù)訓(xùn)練的監(jiān)督控制器提供專(zhuān)家示范策略,主導(dǎo)決策以確保策略安全探索;同時(shí),將DDPG控制器的Actor-Critic機(jī)制(Critic網(wǎng)絡(luò)評(píng)估動(dòng)作價(jià)值,Actor網(wǎng)絡(luò)生成初始策略)與監(jiān)督控制器提供的專(zhuān)家示范策略融合,通過(guò)調(diào)整融合度權(quán)重系數(shù)實(shí)現(xiàn)控制權(quán)從模仿到自主決策的平滑過(guò)渡。在此過(guò)程中,Actor網(wǎng)絡(luò)持續(xù)受到專(zhuān)家示范策略與獎(jiǎng)勵(lì)的雙重引導(dǎo),使DDPG控制器在保障安全性的前提下漸進(jìn)優(yōu)化策略,最終形成適應(yīng)復(fù)雜動(dòng)態(tài)環(huán)境的自主控制能力。
DDPG算法采用在線探索和離線策略結(jié)合的方式進(jìn)行訓(xùn)練和學(xué)習(xí)。為了更好地發(fā)揮監(jiān)督學(xué)習(xí)算法的引導(dǎo)作用,設(shè)計(jì)了2個(gè)獨(dú)立的經(jīng)驗(yàn)池:一個(gè)用于存放DDPG算法的經(jīng)驗(yàn)數(shù)據(jù);另一個(gè)用于存放監(jiān)督學(xué)習(xí)算法的監(jiān)督示范經(jīng)驗(yàn)數(shù)據(jù)。在訓(xùn)練階段,從這2個(gè)經(jīng)驗(yàn)池中并行采樣,并利用監(jiān)督示范經(jīng)驗(yàn)數(shù)據(jù)引導(dǎo)DDPG神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方向。
監(jiān)督式DDPG算法融合度權(quán)重系數(shù) k 按以下方式自動(dòng)調(diào)節(jié):
1)訓(xùn)練初始階段( k=1 ),此時(shí)監(jiān)督控制器完全主導(dǎo)控制運(yùn)動(dòng)過(guò)程,每完成一個(gè)訓(xùn)練回合, k 減小為原來(lái)的 90% (即 k←k×0.9 ),直到 k=0.5 :2)當(dāng) k=0.5 時(shí),經(jīng)驗(yàn)池已填滿,DDPG神經(jīng)網(wǎng)絡(luò)開(kāi)始更新網(wǎng)絡(luò)參數(shù),此時(shí)監(jiān)督學(xué)習(xí)算法和DDPG算法并行發(fā)揮作用,每完成一次網(wǎng)絡(luò)參數(shù)更新, k 值減小為原來(lái)的 90% (即 k←k×0.9 ),直到 k=0 監(jiān)督控制器完成引導(dǎo)使命,完全退出,DDPG控制器完全主導(dǎo)控制運(yùn)動(dòng)過(guò)程。
4仿真試驗(yàn)與分析
通過(guò)仿真試驗(yàn)驗(yàn)證本文提出的監(jiān)督式DDPG算法對(duì)小型ROV的控制效果。設(shè)定Actor網(wǎng)絡(luò)的更新速率和Critic網(wǎng)絡(luò)的學(xué)習(xí)速率均為0.002,折扣因子 γ =0.9 。為便于仿真,當(dāng)前網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)均采用軟更新的方式,更新速率為0.01,經(jīng)驗(yàn)池訓(xùn)練樣本的容量為2000個(gè),仿真步長(zhǎng)為0.01s,試驗(yàn)周期為600個(gè)回合,每回合步數(shù)為500步。
以ROV偏航角姿態(tài)定位控制為例進(jìn)行仿真驗(yàn)證。設(shè)ROV的初始偏航角 ψ0=0° ,經(jīng)過(guò)訓(xùn)練后,ROV能夠在2節(jié)航速下維持 ψt=60° ;同時(shí),在定航運(yùn)行時(shí),在第 20~25s 期間引入幅度為 2° ,均值為0的隨機(jī)擾動(dòng)。DDPG算法和監(jiān)督式DDPG算法的獎(jiǎng)勵(lì)值變化趨勢(shì)對(duì)比如圖4所示,監(jiān)督式DDPG算法下的偏航角鎮(zhèn)定過(guò)程如圖5所示。
由圖4可知,監(jiān)督式DDPG算法能更快地學(xué)習(xí)到具有更大獎(jiǎng)勵(lì)值的動(dòng)作,且融合監(jiān)督學(xué)習(xí)算法后,穩(wěn)定后的獎(jiǎng)勵(lì)平均值由約300增加到400多,至少增加了 33% ,證明了監(jiān)督式DDPG算法的有效性。
由圖5可知:不同學(xué)習(xí)次數(shù)的學(xué)習(xí)效果存在差異,學(xué)習(xí)次數(shù)越多,控制性能越優(yōu)異。在第300次學(xué)習(xí)后,監(jiān)督式DDPG算法對(duì)偏航角的控制性能基本上達(dá)到了預(yù)期要求;對(duì)比第50次學(xué)習(xí)和第600次學(xué)習(xí)的情況,偏航角超調(diào)量由 30% 下降到 3% ,鎮(zhèn)定耗時(shí)由15s縮短至4s,說(shuō)明融合監(jiān)督學(xué)習(xí)算法后的DDPG算法學(xué)習(xí)效果有明顯提升。
5結(jié)論
本文在DDPG算法中引入監(jiān)督學(xué)習(xí)算法,提出了監(jiān)督式DDPG算法。從仿真試驗(yàn)結(jié)果可知,本文提出的監(jiān)督式DDPG算法與DDPG算法相比,控制效果有明顯提升。但將該算法應(yīng)用于小型ROV運(yùn)動(dòng)控制時(shí),仍然存在虛實(shí)遷移效果差的問(wèn)題,后續(xù)仍需對(duì)該問(wèn)題進(jìn)行深入研究。
? The author(s) 2024.This is an open access article under the CC BY-NC-ND 4.0 License (htps://creativecommons.org/licenses/ by-nc-nd/4.0/)
參考文獻(xiàn)
[1]李若霆.基于深度強(qiáng)化學(xué)習(xí)的視覺(jué)導(dǎo)航算法研究[D].太原:中北大學(xué),2023.
[2]蔡軍,茍文耀,劉顏.基于actor-critic框架的在線積分強(qiáng)化學(xué)習(xí)算法研究[J].電子測(cè)量與儀器學(xué)報(bào),2023,37(3):194-201.
[3]張嚴(yán)心,孔涵,殷辰堃,等.一類(lèi)基于概率優(yōu)先經(jīng)驗(yàn)回放機(jī)制的分布式多智能體軟行動(dòng)-評(píng)論者算法[J北京工業(yè)大學(xué)學(xué)報(bào),2023,49(4):459-466.
[4]陳愷豐,田博睿,李和清,等.基于DDPG算法的雙輪腿機(jī)器人運(yùn)動(dòng)控制研究[J]系統(tǒng)工程與電子技術(shù),2023,45(4):1144-1151.
[5]李凌霄,王偉明,賀佳飛,等.基于DDPG的自主水下機(jī)器人角度控制研究[J].計(jì)算機(jī)仿真,2023,40(4):422-426;503.
[6] 王鵑,張沖,龔家新,等.基于機(jī)器學(xué)習(xí)的模糊測(cè)試研究綜述[J].信息網(wǎng)安全,2023,23(8):1-16.
[7]江鈴燚,鄭藝峰,陳澈,等.有監(jiān)督深度學(xué)習(xí)的優(yōu)化方法研究綜述[J].中國(guó)圖象圖形學(xué)報(bào),2023,2(4):963-983.
[8] Uc-cetina V. Supervised reinforce learning using behaviormodels[C]//Sixth Intemational Conference on Learning andApplications(ICMLA 2007).IEEE,2007:336-341.
[9] 楊輝,王禹,李中奇,等.專(zhuān)家監(jiān)督的SAC 強(qiáng)化學(xué)習(xí)重載列車(chē)運(yùn)行優(yōu)化控制[J].控制理論與應(yīng)用,2022.39(5):799-808.
[10]蘇萌韜,曾碧.基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的多任務(wù)強(qiáng)化學(xué)習(xí)算法[J].機(jī)電工程技術(shù),2022,51(11):21-25.
[11]曾紀(jì)鈞,梁哲恒.監(jiān)督式強(qiáng)化學(xué)習(xí)在路徑規(guī)劃中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(10):185-188.
[12]王亦晨,劉雪梅.基于沖突搜索增強(qiáng)深度強(qiáng)化學(xué)習(xí)的多AGV路徑規(guī)劃方法[J].機(jī)電工程技術(shù),2024,53(8):23-27;88.
[13] ARGALL B D, CHERNOVA S, VELOSO M, et al. A surveyofrobot learning from demonstration[J]. Robotics and Auto-nomous Systems,2009,57(5):469-483).
[14] ROSENSTEIN MT,BARTO AG, SI J, et al. Supervisedactor-critic reinforcement learming[J].Learning and Appro-ximate Dynamic Programming:Scaling Up to the RealWORLD,2004:359-380.
作者簡(jiǎn)介:
黃兆軍,男,1982年生,碩士研究生,高級(jí)工程師,主要研究方向:智能控制。E-mail:hzj4735@126.com張彥佳,女,2003年生,專(zhuān)科,主要研究方向:電氣自動(dòng)化技術(shù)。
左曉雯,女,2002年生,專(zhuān)科,主要研究方向:電氣自動(dòng)化技術(shù)。
陳澤汛,男,2002年生,專(zhuān)科,主要研究方向:電氣自動(dòng)化技術(shù)。