郭可建,林曉波,郝程鵬,侯朝煥
(1.中國(guó)科學(xué)院大學(xué) 集成電路學(xué)院,北京,100049;2.中國(guó)科學(xué)院 聲學(xué)研究所,北京,100190)
基于神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器的高速AUV強(qiáng)化學(xué)習(xí)控制
郭可建1,2,林曉波2,郝程鵬2,侯朝煥2
(1.中國(guó)科學(xué)院大學(xué) 集成電路學(xué)院,北京,100049;2.中國(guó)科學(xué)院 聲學(xué)研究所,北京,100190)
隨著海洋研究與開(kāi)發(fā)的日益擴(kuò)大,高速自主水下航行器(AUV)作為重要的無(wú)人水下工作平臺(tái)受到廣泛關(guān)注。然而由于其模型具有多輸入多輸出、強(qiáng)耦合欠驅(qū)動(dòng)以及強(qiáng)非線(xiàn)性特性,因此依賴(lài)精確模型的傳統(tǒng)控制方法在實(shí)際應(yīng)用中常受到限制。針對(duì)此問(wèn)題,文中提出一種不依賴(lài)精確模型的強(qiáng)化學(xué)習(xí)位姿控制器,該控制器通過(guò)姿態(tài)環(huán)和位置環(huán)的配合不僅可以實(shí)現(xiàn)高速AUV的快速姿態(tài)穩(wěn)定,還可以更快地完成下潛到指定深度的動(dòng)作;同時(shí),為了降低獲取用于訓(xùn)練強(qiáng)化學(xué)習(xí)控制器數(shù)據(jù)的成本,結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)提出了一種改進(jìn)的高速AUV狀態(tài)估計(jì)器,該估計(jì)器可以在已知當(dāng)前時(shí)刻AUV的狀態(tài)以及所受控制量的情況下估計(jì)出下一時(shí)刻的狀態(tài),從而為強(qiáng)化學(xué)習(xí)控制方法提供大量的訓(xùn)練數(shù)據(jù)。仿真實(shí)驗(yàn)結(jié)果表明,估計(jì)器達(dá)到了較高的估計(jì)精度,基于神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器訓(xùn)練得到的強(qiáng)化學(xué)習(xí)控制器可以完成原AUV的平穩(wěn)快速控制,從而驗(yàn)證了所提方法的可行性及有效性。
自主水下航行器;強(qiáng)化學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);狀態(tài)估計(jì)
近年來(lái),隨著海洋開(kāi)發(fā)活動(dòng)的日益頻繁,自主水下航行器(autonomous undersea vehicle,AUV)以其功能豐富、性?xún)r(jià)比高和便捷性等優(yōu)點(diǎn)成為重要的水下工作平臺(tái),并在水下搜索、海洋搜救、海洋環(huán)境數(shù)據(jù)搜集以及海洋資源開(kāi)發(fā)等領(lǐng)域發(fā)揮著越來(lái)越重要的作用[1-2]。
由于應(yīng)用場(chǎng)景的不斷擴(kuò)展以及任務(wù)對(duì)性能要求的提高,AUV的運(yùn)行速度不斷提升,這給AUV的控制以及狀態(tài)的估計(jì)帶來(lái)一定困難。典型AUV是一個(gè)多輸入多輸出、欠驅(qū)動(dòng)強(qiáng)耦合的不確定非線(xiàn)性系統(tǒng),因而如何對(duì)其進(jìn)行高機(jī)動(dòng)控制一直是研究的難點(diǎn)。傳統(tǒng)AUV一般根據(jù)機(jī)理模型設(shè)計(jì)控制器,如反步(back-stepping)控制方法[3-4]、比例-積分-微分(proportion itegral differential,PID)控制方法[5-6]、線(xiàn)性二次型調(diào)節(jié)器(linear quadratic regulator,LQR)控制方法[7-8]等;同時(shí)根據(jù)系統(tǒng)的擾動(dòng)、不確定特性設(shè)計(jì)相應(yīng)的補(bǔ)償策略,如魯棒控制方法[9]、自適應(yīng)控制方法[10-11]等。上述方法在系統(tǒng)的機(jī)理模型較為精確時(shí)可取得高精度的控制性能,然而AUV是一個(gè)強(qiáng)耦合的非線(xiàn)性系統(tǒng),對(duì)其進(jìn)行精確建模十分困難。相比于典型的低速AUV,高速AUV具有機(jī)動(dòng)性強(qiáng)(高水流航速帶來(lái)更強(qiáng)的舵效)的顯著優(yōu)點(diǎn),但也存在控制方面的困難:首先,建模和參數(shù)辨識(shí)更困難(高速的水動(dòng)力環(huán)境模擬較為困難),需要不依賴(lài)精確模型的控制算法;其次,高速AUV一般不安裝多普勒測(cè)速儀(Doppler velocity log,DVL)等測(cè)量水流速度的傳感器(外置突出的傳感器會(huì)影響機(jī)體的光滑表面),因此一般需要高性能的狀態(tài)估計(jì)器來(lái)估計(jì)當(dāng)前的航速;最后,高速AUV需要經(jīng)常工作在陌生的海域,對(duì)其外部干擾進(jìn)行提前建模也是不現(xiàn)實(shí)的??紤]到上述問(wèn)題,需要研究不依賴(lài)精確模型的控制方法,并通過(guò)實(shí)時(shí)經(jīng)驗(yàn)數(shù)據(jù)抵抗未建模的干擾。
在不依賴(lài)精確模型的控制方法中,強(qiáng)化學(xué)習(xí)控制方法是一個(gè)很好的選擇。首先,強(qiáng)化學(xué)習(xí)方法可以在不建立模型的情況下獲得性能最優(yōu)的控制器。強(qiáng)化學(xué)習(xí)控制器是通過(guò)AUV與海洋環(huán)境的交互進(jìn)行學(xué)習(xí)獲得的,具體言之,即通過(guò)AUV控制器的控制輸出以及AUV的運(yùn)動(dòng)狀態(tài)數(shù)據(jù)進(jìn)行自主學(xué)習(xí),從而在不需要模型的情況下,按照預(yù)定要求自主獲得最優(yōu)的控制性能。同時(shí),強(qiáng)化學(xué)習(xí)的控制相較于傳統(tǒng)的反饋控制更加迅捷,由于強(qiáng)化學(xué)習(xí)的控制是通過(guò)訓(xùn)練得到的控制策略來(lái)實(shí)現(xiàn)的,因此其控制器在面對(duì)某一狀態(tài)時(shí),會(huì)直接按照既有的控制策略生成相應(yīng)的符合預(yù)定要求的控制量,因此其控制不是一個(gè)嘗試性的慢調(diào)節(jié)過(guò)程。此外,強(qiáng)化學(xué)習(xí)追求的是最優(yōu)的綜合性能。在實(shí)際情況下,除了追求任意環(huán)境下良好的自主控制性能,還可能會(huì)對(duì)AUV的續(xù)航力、容錯(cuò)控制等綜合性能提出要求,強(qiáng)化學(xué)習(xí)可以通過(guò)對(duì)獎(jiǎng)勵(lì)函數(shù)的合理設(shè)置,自主學(xué)習(xí)到最優(yōu)的控制策略,以實(shí)現(xiàn)對(duì)控制效果、續(xù)航力、容錯(cuò)等性能的最優(yōu)兼顧,從而獲得最優(yōu)的綜合性能。目前已經(jīng)提出的眾多強(qiáng)化學(xué)習(xí)算法主要分為值迭代(value iteration,VI)[12],策略迭代(policy iteration,PI)[13-14]及動(dòng)作器-評(píng)價(jià)器(actor-critic,AC)[15-18]3種類(lèi)型。文獻(xiàn)[19]提出一種改進(jìn)的VI類(lèi)算法——Q-learning算法,該算法可以同時(shí)進(jìn)行單障礙物和多障礙物下的避障控制;文獻(xiàn)[20]通過(guò)將容錯(cuò)控制轉(zhuǎn)化成最優(yōu)控制器求解問(wèn)題,利用PI求解HJB(Hamilton-Jacobi-Bellman)方程,進(jìn)行AUV推進(jìn)器故障以及海流擾動(dòng)下的容錯(cuò)跟蹤控制,仿真實(shí)驗(yàn)證明了提出方法的有效性;文獻(xiàn)[21]結(jié)合滑??刂?sliding-mode control,SMC)和深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法(AC類(lèi)),提出了SMC-DDPG算法,用以進(jìn)行不同速度的AUV控制,仿真結(jié)果表明,該算法可以實(shí)現(xiàn)穩(wěn)定、高精度的控制,且可以快速收斂。
強(qiáng)化學(xué)習(xí)控制方法雖然可以解決AUV的未建模干擾和非線(xiàn)性控制問(wèn)題,但需要大量的經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練,而AUV實(shí)時(shí)運(yùn)行采集的經(jīng)驗(yàn)數(shù)據(jù)十分有限,這限制了強(qiáng)化學(xué)習(xí)在AUV上的應(yīng)用。為解決這一問(wèn)題,必須研究AUV的狀態(tài)估計(jì)技術(shù)。AUV的狀態(tài)估計(jì)是指根據(jù)AUV當(dāng)前時(shí)刻的狀態(tài)和當(dāng)前時(shí)刻的控制輸入預(yù)測(cè)下個(gè)時(shí)刻的狀態(tài)。AUV的狀態(tài)估計(jì)器通過(guò)仿真運(yùn)行給強(qiáng)化學(xué)習(xí)控制算法提供充足的訓(xùn)練數(shù)據(jù)。
傳統(tǒng)的狀態(tài)預(yù)測(cè)方法通?;贏UV的動(dòng)態(tài)模型,因此,部分研究致力于通過(guò)建立更精確的AUV動(dòng)態(tài)模型來(lái)提升狀態(tài)估計(jì)精度[22-23]。文獻(xiàn)[24]提出了一種基于線(xiàn)性離散時(shí)間觀測(cè)卡爾曼濾波器的識(shí)別方法來(lái)進(jìn)行AUV的狀態(tài)估計(jì)。然而,由于AUV的運(yùn)動(dòng)模型是非線(xiàn)性的,因此線(xiàn)性的估計(jì)方法通常只能工作在很小的范圍內(nèi),為解決這一問(wèn)題,研究人員提出了一系列非線(xiàn)性的狀態(tài)估計(jì)方法,包括采用基于動(dòng)態(tài)模型的狀態(tài)估計(jì)器以提升估計(jì)性能,通過(guò)流體動(dòng)力學(xué)計(jì)算獲取更為精確的流體動(dòng)力學(xué)因數(shù)從而構(gòu)建性能更優(yōu)的狀態(tài)估計(jì)器等方法[25-26]。然而,以上非線(xiàn)性的估計(jì)方法仍依賴(lài)精確的AUV動(dòng)態(tài)模型,大大限制了其在實(shí)際情況下的應(yīng)用。
隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,無(wú)模型的狀態(tài)估計(jì)方法得以實(shí)現(xiàn)。文獻(xiàn)[27]提出了一種線(xiàn)性回歸方法用以估計(jì)AUV的速度、角速度以及運(yùn)動(dòng)半徑,并在實(shí)際估計(jì)預(yù)測(cè)實(shí)驗(yàn)中取得了良好的效果。但是線(xiàn)性回歸方法很難學(xué)習(xí)更為復(fù)雜的AUV運(yùn)動(dòng)學(xué)特性,因此,基于神經(jīng)網(wǎng)絡(luò)的非線(xiàn)性方法在實(shí)際情況下得到了更為廣泛的應(yīng)用。文獻(xiàn)[28]提出了一種單層神經(jīng)網(wǎng)絡(luò)的控制器,該控制器通過(guò)預(yù)測(cè)AUV所受的力及力矩進(jìn)行控制,并取得了優(yōu)于傳統(tǒng)控制器的控制性能。文獻(xiàn)[29]提出了一種多層的神經(jīng)網(wǎng)絡(luò)控制器,能夠?qū)UV動(dòng)態(tài)特性以及所受干擾進(jìn)行估計(jì),通過(guò)跟蹤性能實(shí)驗(yàn)證明,跟蹤誤差得到了有效抑制。
目前針對(duì)高速AUV的狀態(tài)估計(jì)方法較少,由于運(yùn)動(dòng)學(xué)特性上的差異,直接將普通的狀態(tài)估計(jì)器應(yīng)用在高速AUV上會(huì)造成實(shí)際應(yīng)用中的性能損失。為了解決這一問(wèn)題,文中提出一種基于神經(jīng)網(wǎng)絡(luò)的狀態(tài)估計(jì)器和與之適配的強(qiáng)化學(xué)習(xí)控制方法。構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器的方法包括:1)間接估計(jì);2)控制量的非線(xiàn)性變換;3)訓(xùn)練數(shù)據(jù)的歸一化;4)雙網(wǎng)絡(luò)結(jié)構(gòu)。同時(shí),為了評(píng)估狀態(tài)估計(jì)器的估計(jì)精度,文中提出2種指標(biāo):1)統(tǒng)計(jì)性能指標(biāo)(statistics performance index,SPI),用以表征估計(jì)器輸出的狀態(tài)估計(jì)值與真實(shí)值之間的誤差情況;2)趨勢(shì)性能指標(biāo)(tendency performance index,TPI)用以表征估計(jì)器對(duì)AUV運(yùn)動(dòng)學(xué)特性的學(xué)習(xí)情況。在以上估計(jì)器構(gòu)建完成后,在AC結(jié)構(gòu)之下,結(jié)合文獻(xiàn)[30]以及DDPG算法提出一種改進(jìn)的雙環(huán)補(bǔ)償控制器。該控制器包括姿態(tài)環(huán)和位置環(huán)2個(gè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),姿態(tài)環(huán)負(fù)責(zé)輸出控制量進(jìn)行AUV姿態(tài)角度的快速調(diào)整和跟蹤,位置環(huán)主要根據(jù)目標(biāo)位置給出最優(yōu)的參考姿態(tài)角度,雙環(huán)合作進(jìn)行高速AUV的控制。仿真實(shí)驗(yàn)驗(yàn)證了所構(gòu)建的訓(xùn)練神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器和基于強(qiáng)化學(xué)習(xí)的雙環(huán)補(bǔ)償控制方法的可行性及有效性。
高速AUV通常是指運(yùn)行速度超過(guò)30kn的長(zhǎng)條形AUV[31],由于水下環(huán)境惡劣加之AUV的高速運(yùn)動(dòng),使得AUV模型變得更為復(fù)雜。為了描述AUV的運(yùn)動(dòng),分別引入了大地坐標(biāo)系和體坐標(biāo)系,如圖1所示。
圖1 AUV運(yùn)動(dòng)坐標(biāo)系Fig.1 Motion coordinate system of the AUV
其中,大地坐標(biāo)系固結(jié)于大地某處,體坐標(biāo)系通常固結(jié)于AUV的浮心Ob,其坐標(biāo)[x0,y0,z0]代表AUV的浮心Ob相對(duì)于大地坐標(biāo)系的位置,而其姿態(tài)角,即橫滾角φ、俯仰角θ以及偏航角ψ是通過(guò)兩坐標(biāo)系之間的轉(zhuǎn)動(dòng)角度來(lái)表征的。基于以上坐標(biāo)系建立的AUV的運(yùn)動(dòng)模型如式(1)~(10)所示[32-33]。
式中:v=[vx,vy,vz]和ω=[ωx,ωy,ωz]分別為AUV的速度和角速度在體坐標(biāo)系的分量;為無(wú)量綱的角速度;xc,yc,zc分別為AUV的質(zhì)心在體坐標(biāo)系上的分量;α和β分別為攻角和側(cè)滑角;δe,δr,δd分別為水平舵角、垂直舵角和差分舵角;T為AUV所受的額定推力;m和G分別為質(zhì)量和重力;?G為負(fù)浮力;ρ為水的密度;S和L分別為AUV最大橫截面積和長(zhǎng)度;Jxx,Jyy,Jzz分別為AUV在體坐標(biāo)系3個(gè)軸向所受的轉(zhuǎn)動(dòng)慣量;?Mxp為失衡力矩。此外,,CxS以及λ11,λ22,λ33,λ44,λ55,λ66,λ26,λ35為與流體動(dòng)力相關(guān)的參數(shù);和為與流體動(dòng)力矩相關(guān)的參數(shù)。
由以上運(yùn)動(dòng)方程可見(jiàn),AUV的運(yùn)動(dòng)模型中存在著大量的流體動(dòng)力參數(shù),這造成了對(duì)AUV進(jìn)行精確建模時(shí)大量的資源消耗。文中擬在不基于機(jī)理進(jìn)行建模的情況下,建立一個(gè)“黑盒”模型的方程,即
該方程可以在輸入某一時(shí)刻的狀態(tài)s(t)和控制量a(t)時(shí),估計(jì)出下一時(shí)刻的狀態(tài)s(t+1),文中稱(chēng)其為狀態(tài)估計(jì)器。其中,AUV的狀態(tài)如下:所受控制量主要指a(t)=[δe(t),δr(t),δd(t),T]。
為了評(píng)價(jià)狀態(tài)估計(jì)器的估計(jì)精度,提出SPI和TPI兩種指標(biāo)。
1)SPI
SPI指標(biāo)是根據(jù)各個(gè)被估計(jì)狀態(tài)項(xiàng)的估計(jì)值與標(biāo)簽值之間的相對(duì)誤差得到的統(tǒng)計(jì)結(jié)果提出的。統(tǒng)計(jì)對(duì)象是與標(biāo)簽值的相對(duì)誤差大于所設(shè)門(mén)限的估計(jì)器的輸出值,該輸出值被稱(chēng)為離群值。SPI的計(jì)算如式(12)所示,當(dāng)只針對(duì)某狀態(tài)進(jìn)行統(tǒng)計(jì)時(shí)即為該狀態(tài)的單項(xiàng)SPI,當(dāng)對(duì)所有被估計(jì)狀態(tài)進(jìn)行統(tǒng)計(jì)時(shí)即為總體SPI。二者對(duì)比可以反映估計(jì)精度的均衡性。
式中:M為狀態(tài)項(xiàng)數(shù)(當(dāng)只針對(duì)某一狀態(tài)計(jì)算時(shí),M=1);N為從測(cè)試集中抽取的用于測(cè)試的數(shù)據(jù)量;siE為估計(jì)方程輸出的對(duì)下一時(shí)刻狀態(tài)的估計(jì)值;siL為對(duì)應(yīng)被估計(jì)狀態(tài)項(xiàng)的標(biāo)簽值;th為相對(duì)誤差門(mén)限。
根據(jù)SPI可以得出目前估計(jì)方程輸出的估計(jì)值與真值之間的誤差情況。
2)TPI
為了反映狀態(tài)估計(jì)器對(duì)原AUV運(yùn)動(dòng)模型運(yùn)動(dòng)學(xué)特性的學(xué)習(xí)情況,分別讓狀態(tài)估計(jì)器和原模型在同一初始狀態(tài)下對(duì)AUV進(jìn)行控制,并計(jì)算其在一定時(shí)間內(nèi)各個(gè)狀態(tài)控制曲線(xiàn)的時(shí)間平均誤差,進(jìn)而得出
式中:T為控制時(shí)間;M為狀態(tài)項(xiàng)數(shù);sEi基于狀態(tài)估計(jì)方程的控制曲線(xiàn);sMi為基于模型的控制曲線(xiàn),同時(shí)為了避免各個(gè)狀態(tài)之間數(shù)量級(jí)之差的影響,對(duì)各狀態(tài)的控制誤差進(jìn)行了相應(yīng)的歸一化處理。
最后,該估計(jì)器訓(xùn)練完成后可以產(chǎn)生數(shù)據(jù)供給強(qiáng)化學(xué)習(xí)控制器進(jìn)行訓(xùn)練。由于AUV控制中位置和姿態(tài)的響應(yīng)時(shí)間差距較大,因此可將位置和姿態(tài)分成2個(gè)部分構(gòu)造雙環(huán)補(bǔ)償控制器。該控制器具有位置環(huán)和姿態(tài)環(huán)2個(gè)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),其中,位置環(huán)主要結(jié)合位置信息輸出參考姿態(tài)αref(t),姿態(tài)環(huán)主要負(fù)責(zé)輸出控制量u(t)追蹤參考姿態(tài),雙環(huán)合作進(jìn)行高速AUV的控制。訓(xùn)練最優(yōu)強(qiáng)化學(xué)習(xí)控制器的過(guò)程即為最優(yōu)化性能指標(biāo)的過(guò)程。該基于強(qiáng)化學(xué)習(xí)的雙環(huán)補(bǔ)償控制網(wǎng)絡(luò)的性能指標(biāo)為
式中:V代表的價(jià)值函數(shù)即為該強(qiáng)化學(xué)習(xí)控制器的長(zhǎng)期性能指標(biāo);ra和rp分別為姿態(tài)環(huán)和位置環(huán)的獎(jiǎng)勵(lì)函數(shù)。當(dāng)?shù)玫阶顑?yōu)價(jià)值函數(shù)V?時(shí),即為獲得最高的姿態(tài)環(huán)獎(jiǎng)勵(lì)和位置環(huán)獎(jiǎng)勵(lì),此時(shí)該強(qiáng)化學(xué)習(xí)控制器的2個(gè)網(wǎng)絡(luò)分別輸出最優(yōu)的控制量u?和最優(yōu)的參考姿態(tài)。
由于AUV運(yùn)動(dòng)模型本身的復(fù)雜性,在建立高精度的狀態(tài)估計(jì)器時(shí),傳統(tǒng)方法往往難以勝任,而機(jī)器學(xué)習(xí)(machine learning,ML)技術(shù)的發(fā)展為解決這一問(wèn)題提供了新的方案。由于AUV模型的強(qiáng)耦合以及非線(xiàn)性特性,擬采用具有無(wú)限逼近能力的神經(jīng)網(wǎng)絡(luò)進(jìn)行這一狀態(tài)估計(jì)器的回歸訓(xùn)練。為了在盡量少的數(shù)據(jù)需求下訓(xùn)練得到高精度的神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器,提出以下改進(jìn)方案。
1)通過(guò)?s(t)間接估計(jì)s(t+1)
直接估計(jì)是指輸入某一時(shí)刻的狀態(tài)s(t)和控制量a(t),由神經(jīng)網(wǎng)絡(luò)輸出下一時(shí)刻的狀態(tài)s(t+1),然而這種估計(jì)方法存在搜索空間過(guò)大的不足,即在2個(gè)不同狀態(tài)之下輸入同一控制量a(t),在運(yùn)動(dòng)特性上是相似的,但是其各自的輸出卻可能存在較大的差距,這在一定程度上增大了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的負(fù)擔(dān),因而文中采用間接估計(jì)的方法,即神經(jīng)網(wǎng)絡(luò)的估計(jì)結(jié)果是狀態(tài)的增量?s(t),此時(shí),對(duì)下一時(shí)刻的狀態(tài)估計(jì)可以表示為s(t+1)=s(t)+?s(t)。仿真實(shí)驗(yàn)證明,這一改進(jìn)降低了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的負(fù)擔(dān),顯著提升了估計(jì)精度。
2)控制量的非線(xiàn)性變換
高速AUV在運(yùn)行中,機(jī)體所受的流體動(dòng)力和流體動(dòng)力矩與速度矢量的模的二次方v2呈線(xiàn)性關(guān)系。此外,由第1章中AUV的運(yùn)動(dòng)模型可知,參數(shù)v2作為控制量的非線(xiàn)性變換因子對(duì)AUV狀態(tài)的變化會(huì)產(chǎn)生較大的影響。因此,為了提升神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率,對(duì)輸入特征中的控制量進(jìn)行類(lèi)似的非線(xiàn)性變換,即,其中。仿真實(shí)驗(yàn)表明,該非線(xiàn)性變換在一定程度上提升了神經(jīng)網(wǎng)絡(luò)估計(jì)器的估計(jì)精度。
3)訓(xùn)練數(shù)據(jù)的歸一化
由于用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)估計(jì)器的數(shù)據(jù)在數(shù)量級(jí)上有著較大的差距,如AUV的位置和速度在數(shù)量級(jí)上遠(yuǎn)大于其他狀態(tài)(如姿態(tài)角和角速度),因此,若不對(duì)數(shù)據(jù)進(jìn)行歸一化處理則可能造成訓(xùn)練過(guò)程中數(shù)量級(jí)較小的狀態(tài)被忽略,進(jìn)而影響估計(jì)器的估計(jì)精度。為了提高訓(xùn)練的效率,對(duì)神經(jīng)網(wǎng)絡(luò)的輸入和輸出數(shù)據(jù)同時(shí)進(jìn)行了歸一化。
4)雙網(wǎng)絡(luò)結(jié)構(gòu)
為了能在使用簡(jiǎn)單的全連接網(wǎng)絡(luò)的同時(shí)高效率地訓(xùn)練神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器,提出雙網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建估計(jì)器,即以姿態(tài)網(wǎng)絡(luò)對(duì)AUV的深度y0,姿態(tài)角,以及角速度ωx,ωy,ωz進(jìn)行回歸訓(xùn)練,如圖2所示;以速度網(wǎng)絡(luò)對(duì)速度vx,vy,vz進(jìn)行回歸訓(xùn)練,如圖3所示。
圖2 估計(jì)器姿態(tài)網(wǎng)絡(luò)Fig.2 The attitude network of estimator
圖3 估計(jì)器速度網(wǎng)絡(luò)Fig.3 The velocity network of estimator
由于2個(gè)網(wǎng)絡(luò)在結(jié)構(gòu)和所使用的激活函數(shù)上基本相同,因此訓(xùn)練的復(fù)雜度并未明顯增加,其計(jì)算公式如式(15)所示,對(duì)于姿態(tài)網(wǎng)絡(luò),其輸出,而對(duì)于速度網(wǎng)絡(luò),其輸出。
同時(shí),其梯度的反向傳播公式
式中:zL為標(biāo)簽值,?z=z?zL;J為損失函數(shù);⊙為哈達(dá)瑪積。
在完成基于神經(jīng)網(wǎng)絡(luò)的AUV狀態(tài)估計(jì)器后,設(shè)計(jì)了基于上述估計(jì)器的強(qiáng)化學(xué)習(xí)控制器。
在AUV的控制過(guò)程中,由于位置環(huán)和姿態(tài)環(huán)的控制響應(yīng)時(shí)間明顯不同,因此針對(duì)位置和姿態(tài)分別設(shè)計(jì)了一個(gè)強(qiáng)化學(xué)習(xí)控制器,采用了強(qiáng)化學(xué)習(xí)中經(jīng)典的DDPG,如圖4所示結(jié)構(gòu)。
當(dāng)賦予AUV的狀態(tài)初值s(k+1)之后,右側(cè)的位置環(huán)結(jié)合當(dāng)前時(shí)刻AUV的位置(包括在s(k)中)以及預(yù)定到達(dá)的位置輸出參考姿態(tài)ref(k)(即后文的αd),左側(cè)的姿態(tài)環(huán)結(jié)合AUV當(dāng)前的姿態(tài)(包括在s(k)中),學(xué)習(xí)控制舵角,輸出控制量a(k)=[δe(k),δr(k),δd(k),T(k)],將當(dāng)前時(shí)刻的狀態(tài)s(k)以及控制量a(k)輸入狀態(tài)估計(jì)器(即圖中的AUV,它在實(shí)際訓(xùn)練中可被狀態(tài)估計(jì)器代替),可得下一時(shí)刻的狀態(tài)s(k+1),如此循環(huán)將相應(yīng)的狀態(tài)項(xiàng)以及獲得的獎(jiǎng)勵(lì)值保存進(jìn)姿態(tài)經(jīng)驗(yàn)池和位置經(jīng)驗(yàn)池,即可進(jìn)行強(qiáng)化學(xué)習(xí)控制器的訓(xùn)練,最終,右側(cè)的位置環(huán)經(jīng)過(guò)學(xué)習(xí)能夠輸出最優(yōu)的參考姿態(tài),左側(cè)的姿態(tài)環(huán)能夠快速穩(wěn)定地對(duì)參考狀態(tài)進(jìn)行跟蹤,雙環(huán)合作即可實(shí)現(xiàn)對(duì)AUV的快速控制。
由于二者學(xué)習(xí)目標(biāo)不同,因此分別對(duì)位置環(huán)和姿態(tài)環(huán)進(jìn)行獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)。由于AUV既需要快速的姿態(tài)調(diào)整,又需要保持平穩(wěn),因此姿態(tài)環(huán)的獎(jiǎng)勵(lì)函數(shù)同時(shí)對(duì)姿態(tài)角、角速度以及控制量進(jìn)行了約束,其獎(jiǎng)勵(lì)函數(shù)
式中:α=[φ,θ,ψ]T為AUV當(dāng)前時(shí)刻的姿態(tài)角;為參考姿態(tài)角;為AUV的角速度;為AUV所受控制量;分別為對(duì)各個(gè)狀態(tài)以及控制量的權(quán)值;ca為常數(shù)。
對(duì)于位置網(wǎng)絡(luò),其獎(jiǎng)勵(lì)函數(shù)
圖4 雙環(huán)強(qiáng)化學(xué)習(xí)控制器結(jié)構(gòu)圖Fig.4 Structure of the double-loop controller with reinforcement learning
為了驗(yàn)證提出的基于神經(jīng)網(wǎng)絡(luò)的AUV狀態(tài)估計(jì)器和配套的強(qiáng)化學(xué)習(xí)控制器的有效性,進(jìn)行了一系列仿真實(shí)驗(yàn)。首先,對(duì)基于前文提出的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器的性能進(jìn)行評(píng)估;然后,基于該狀態(tài)估計(jì)器產(chǎn)生的數(shù)據(jù),對(duì)提出的強(qiáng)化學(xué)習(xí)雙環(huán)補(bǔ)償控制器進(jìn)行訓(xùn)練,并對(duì)其控制性能進(jìn)行測(cè)試。
由于暫時(shí)無(wú)法獲取真實(shí)的AUV航行數(shù)據(jù),結(jié)合某533mm口徑高速AUV的相關(guān)參數(shù)建立參考模型,用以驗(yàn)證提出的構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器方法的可行性并分析其性能表現(xiàn)。參考模型的相關(guān)參數(shù)如表1所示。
表1 高速AUV參考模型參數(shù)Table 1 Parameters of the reference model of the high speed AUV
基于以上參數(shù)所建立模型產(chǎn)生的數(shù)據(jù)可以被看作AUV航行時(shí)傳感器記錄的數(shù)據(jù),此后的神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器的訓(xùn)練以及性能評(píng)價(jià)工作都建立在數(shù)據(jù)集[s(t),a(t),s(t+1)]的基礎(chǔ)之上。該數(shù)據(jù)集是在隨機(jī)初始化的狀態(tài)下,由參考模型運(yùn)行產(chǎn)生的。
為了盡量保持網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單且易于實(shí)現(xiàn)和訓(xùn)練,雙網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器采用全連接網(wǎng)絡(luò),且隱藏層都為4層,隱藏層中的神經(jīng)元數(shù)為256個(gè),采用Relu作為激活函數(shù),輸入層和輸出層的激活函數(shù)為tanh函數(shù),訓(xùn)練過(guò)程中采用Adam優(yōu)化器,學(xué)習(xí)率lr設(shè)置在[10?7,10?5],隨訓(xùn)練代數(shù)逐漸降低以提升訓(xùn)練的穩(wěn)定性,神經(jīng)網(wǎng)絡(luò)的搭建以及訓(xùn)練均基于Tensorflow平臺(tái)。
通過(guò)前文所述方法及參數(shù)訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器后,從測(cè)試集中隨機(jī)抽取1 000組數(shù)據(jù)進(jìn)行估計(jì)器的估計(jì)精度測(cè)試,并計(jì)算各個(gè)狀態(tài)的SPI以及總體的SPI,相對(duì)誤差門(mén)限th設(shè)置為0.1。最終統(tǒng)計(jì)結(jié)果表明,估計(jì)器除了對(duì)速度vx進(jìn)行估計(jì)時(shí)SPI高于0.1,其余各個(gè)狀態(tài)項(xiàng)的SPI幾乎都在0.05左右,同時(shí)總體SPI也在0.05以下,說(shuō)明估計(jì)器總體的估計(jì)性能較均衡,且間接說(shuō)明了估計(jì)值與真實(shí)值之間的相對(duì)誤差低于0.1,實(shí)現(xiàn)了較高的估計(jì)精度。
為了評(píng)估神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器對(duì)參考模型的運(yùn)動(dòng)學(xué)特性的學(xué)習(xí)情況,在同一初始狀態(tài)下,分別基于狀態(tài)估計(jì)器和參考模型進(jìn)行AUV的控制,得到各個(gè)狀態(tài)的控制曲線(xiàn)如圖5~圖7所示。
圖5 基于原模型和估計(jì)器的姿態(tài)控制曲線(xiàn)Fig.5 The attitude control curves of the original model and the estimator
由以上結(jié)果對(duì)比可見(jiàn),神經(jīng)網(wǎng)絡(luò)估計(jì)器基本可以實(shí)現(xiàn)與參考模型同等水平的控制,從TPI上看,圖5所示情況下的TPI為0.11,而與參考模型控制曲線(xiàn)相對(duì)誤差為5%時(shí)計(jì)算得到的TPI為0.14,因此,當(dāng)總體上估計(jì)器輸出的估計(jì)值與實(shí)際值的相對(duì)誤差低于0.1時(shí),估計(jì)器與參考模型控制的相對(duì)誤差將低于5%,可以認(rèn)為估計(jì)器基本學(xué)習(xí)到了參考模型的運(yùn)動(dòng)學(xué)特性。具體的基于SPI以及TPI的性能分析及結(jié)論參考文獻(xiàn)[34]。
圖6 基于原模型和估計(jì)器的角速度控制曲線(xiàn)Fig.6 The angular speed control curves of the original model and the estimator
圖7 基于原模型和估計(jì)器的速度控制曲線(xiàn)Fig.7 The velocity control curves of the original model and the estimator
文中結(jié)合估計(jì)器以及基于強(qiáng)化學(xué)習(xí)的雙環(huán)補(bǔ)償控制器進(jìn)行了高速AUV的姿態(tài)和深度的控制測(cè)試??刂频哪繕?biāo)是以隨機(jī)姿態(tài)入水后迅速下潛到水下30m并保持姿態(tài)平穩(wěn),經(jīng)過(guò)仿真測(cè)試,將姿態(tài)環(huán)的獎(jiǎng)勵(lì)函數(shù)參數(shù)設(shè)置為ca=1,wα=[12,1,30]T,wω=[0.02,0.001,0.001]T,wδ=[0,0,0.001,0]T,將位置環(huán)的獎(jiǎng)勵(lì)函數(shù)參數(shù)設(shè)置為cp=1,wp=[0,1,0]T。
將估計(jì)器作為參考模型,進(jìn)行姿態(tài)環(huán)以及位置環(huán)的訓(xùn)練。訓(xùn)練400輪后得到獎(jiǎng)勵(lì)值曲線(xiàn)如圖8所示,通過(guò)獎(jiǎng)勵(lì)值曲線(xiàn)可以發(fā)現(xiàn),姿態(tài)環(huán)和位置環(huán)的訓(xùn)練過(guò)程收斂迅速,均可在100輪左右達(dá)到穩(wěn)定。
圖8 控制器在訓(xùn)練過(guò)程中所獲獎(jiǎng)勵(lì)值Fig.8 The reward values during the training process of the controller
此后用訓(xùn)練好的補(bǔ)償控制器進(jìn)行運(yùn)動(dòng)控制,得到運(yùn)動(dòng)過(guò)程中的速度曲線(xiàn)和姿態(tài)曲線(xiàn)如圖9和圖10所示。由圖9結(jié)果可見(jiàn),AUV的運(yùn)行速度最終達(dá)到了26m/s(約52kn),這已屬于高速AUV的范疇。由圖10可見(jiàn),在強(qiáng)化學(xué)習(xí)控制器的控制之下,AUV的橫滾角和偏航角可在2s內(nèi)恢復(fù)至0°,機(jī)身快速穩(wěn)定,俯仰角也可在2.5s內(nèi)實(shí)現(xiàn)對(duì)參考俯仰角的跟蹤。因此,此時(shí)的雙環(huán)補(bǔ)償控制器已達(dá)到了較好的姿態(tài)控制效果。此外,由圖11可見(jiàn),基于補(bǔ)償控制器進(jìn)行的深度控制可以在10s左右到達(dá)目標(biāo)深度,而基于PID進(jìn)行深度控制時(shí),需要近17s才能到達(dá)目標(biāo)深度,說(shuō)明位置環(huán)為姿態(tài)環(huán)提供了更優(yōu)的參考姿態(tài),使得AUV在雙環(huán)補(bǔ)償控制器下快速達(dá)到目標(biāo)深度。這進(jìn)一步證明了文中使用的強(qiáng)化學(xué)習(xí)雙環(huán)補(bǔ)償控制器的優(yōu)越性。
圖9 AUV運(yùn)行速度曲線(xiàn)Fig.9 The velocity curves during the AUV running
圖10 雙環(huán)補(bǔ)償控制器下的AUV姿態(tài)控制曲線(xiàn)Fig.10 The attitude curves of the AUV controlled by the double-loop complementary controller
圖11 基于雙環(huán)補(bǔ)償控制器與PID控制器的AUV深度控制曲線(xiàn)Fig.11 The depth curves of the AUV controlled by the double-loop complementary controller and the PID controller
文中針對(duì)高速AUV的控制問(wèn)題,提出了一種基于強(qiáng)化學(xué)習(xí)的雙環(huán)補(bǔ)償控制器,并構(gòu)造基于神經(jīng)網(wǎng)絡(luò)的高速AUV狀態(tài)估計(jì)器為其提供訓(xùn)練數(shù)據(jù)。其中,針對(duì)神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器的構(gòu)建以及訓(xùn)練方法提出的改進(jìn)技術(shù)包括:1)通過(guò)?s(t)間接估計(jì)s(t+1);2)控制量的非線(xiàn)性變換;3)訓(xùn)練數(shù)據(jù)的歸一化;4)雙網(wǎng)絡(luò)結(jié)構(gòu)。同時(shí),基于強(qiáng)化學(xué)習(xí)的雙環(huán)補(bǔ)償控制器,通過(guò)姿態(tài)環(huán)和位置環(huán)的協(xié)作,可以在保證姿態(tài)平穩(wěn)控制的基礎(chǔ)上實(shí)現(xiàn)AUV的快速下潛。隨后設(shè)計(jì)仿真實(shí)驗(yàn),通過(guò)估計(jì)器運(yùn)行產(chǎn)生的數(shù)據(jù)訓(xùn)練得到的強(qiáng)化學(xué)習(xí)控制器進(jìn)行高速AUV的姿態(tài)及深度控制。仿真結(jié)果表明,基于估計(jì)器數(shù)據(jù)訓(xùn)練得到的控制器不僅使得以隨機(jī)姿態(tài)入水的AUV能夠迅速調(diào)整姿態(tài)達(dá)到平穩(wěn),并且能夠快速下潛至預(yù)定深度。這驗(yàn)證了采用狀態(tài)估計(jì)器配合文中的強(qiáng)化學(xué)習(xí)控制器進(jìn)行訓(xùn)練具有可行性及有效性。文中尚未針對(duì)強(qiáng)化學(xué)習(xí)控制器的魯棒性進(jìn)行進(jìn)一步的改進(jìn)與探究,這將留待后續(xù)進(jìn)一步完善。
[1]杜度.基于RBF神經(jīng)網(wǎng)絡(luò)參數(shù)自整定的AUV深度控制[J].水下無(wú)人系統(tǒng)學(xué)報(bào),2019,27(3):284-289.
Du Du.Parameters Self-Tuning for Depth Control of AUV Based on RBF Neural Network[J].Journal of Unmanned Undersea System,2019,27(3):284-289.
[2]李鑫,黃茹楠,丁寧.輸入受限的自主水下航行器自適應(yīng)反演控制[J].水下無(wú)人系統(tǒng)學(xué)報(bào),2019,27(6):624-628.
Li Xin,Huang Ru-nan,Ding Ning.Adaptive Backstepping Control of Autonomous Undersea Vehicle with Input Limitation[J].Journal of Unmanned Undersea System,2019,27(6):624-628.
[3]Chen W,Wei Y,Zeng J.Back-stepping Control of Underactuated AUV’s Depth based on Nonlinear Disturbance Observer[C]//2015 34th Chinese Control Conference(CCC).Hangzhou,China:IEEE,2015:6061-6065.
[4]Wang H J,Chen Z Y,Jia H M,et al.NN-Backstepping for Diving Control of an Underactuated AUV[C]//2011 Oceans’11 MTS/IEEE KONA.Waikoloa,HI,USA:IEEE,2011:1-6.
[5]Hu B,Tian H,Qian J,et al.A Fuzzy-PID Method to Improve the Depth Control of AUV[C]//2013 IEEE International Conference on Mechatronics and Automation.Takamatsu,Japan:IEEE,2013:1528-1533.
[6]Liu W,Ding X,Wan J,et al.An Effective Motion Control Based on 2-DOF PID and ELM for AUV[C]//2018 OCEANS 2018 MTS/IEEE Charleston.Charleston,SC,USA:IEEE,2018:1-4.
[7]呂建國(guó),王育才,崔昊.基于LQR方法的水下航行器熱動(dòng)力推進(jìn)系統(tǒng)控制研究[J].彈箭與制導(dǎo)學(xué)報(bào),2007,27(1):174-176.
Lü Jian-guo,Wang Yu-cai,Cui Hao.Research of Control for Propulsion System of Thermal Power Underwater Vehicle Based on LQR[J].Journal of Projectiles,Rockets,Missiles,and Guidance,2007,27(1):174-176.
[8]Lakhwani D A,Adhyaru D M.Performance Comparison of PD,PI and LQR controller of Autonomous under water vehicle[C]//2013 Nirma University International Conference on Engineering(NUiCONE).Ahmedabad,India:IEEE,2013:1-6.
[9]趙旭,龔時(shí)華,楊進(jìn).基于LMI的無(wú)人水下航行器干擾補(bǔ)償控制[J].水下無(wú)人系統(tǒng)學(xué)報(bào),2020,28(3):271-277.
Zhao Xu,Gong Shi-hua,Yang Jin.Disturbance Compensation Control for Unmanned Undersea Vehicle Based on LMI[J].Journal of Unmanned Undersea System,2020,28(3):271-277.
[10]Makavita C D,Nguyen H D,Jayasinghe S G,et al.Predictor-Based Model Reference Adaptive Control of an Unmanned Underwater Vehicle[C]//2016 14th International Conference on Control,Automation,Robotics and Vision.Phuket,Thailand:IEEE,2016:1-7.
[11]Nayak N,Das P,Das S R.Heading Plane Control of an Autonomous Underwater Vehicle:A Novel Fuzzy and Model Reference Adaptive Control Approach[C]//2020 Third International Conference on Advances in Electronics,Computers and Communications(ICAECC).Bengaluru,India:IEEE,2020:1-5.
[12]Riedmiller M.Neural Fitted Q Iteration-First Experiences with a Data Efficient Neural Reinforcement Learning method[C]//2005 Machine Learning:ECML 2005.Oporto,Portugal:ECML,2005:317-328.
[13]Parr R,Russell S.Reinforcement Learning with Hierarchies of Machines[C]//1997 11th Annual Conference on Neural Information Processing Systems(NIPS).Denver,CO:Massachusetts Institute of Technology Press,1998:1043-1049.
[14]Xu X,Hu D,Lu X.Kernel-based Least Squares Policy Iteration for Reinforcement Learning[J].IEEE Transactions on Neural Networks,2007,18(4):973-992.
[15]Barto A G,Sutton R S,Anderson C W.Neuronlike Adaptive Elements That Can Solve Difficult Learning Control-Problems[J].IEEE Transactions on Systems Man and Cybernetics,1983,13(5):834-846.
[16]Konda V R,Tsitsiklis J N.Actor-Critic Algorithms[C]//Advances in Neural Information Processing Systems 12.Cambridge:Mit Press,2000:1008-1014.
[17]Peters J,Vijayakumar S,Schaal S.Natural Actor-Critic[J].Neurocomputing 2008,71(7-9):1180-1190.
[18]Vamvoudakis K G,Lewis F L.Online Actor Critic Algorithm to Solve the Continuous-Time Infinite Horizon Optimal Control Problem[C]//2009 International Joint Conference on Neural Networks.New York:IEEE,2009:58-65.
[19]Bhopale P,Kazif,Singh N.Reinforcement Learning Based Obstacle Avoidance for Autonomous Underwater Vehicle[J].Journal of Marine Science and Application,2019,18(2):228-238.
[20]Che G F,Yu Z.Neural-Network Estimators Based Fault-Tolerant Tracking Control for AUV via ADP with Rudders Faults and Ocean Current Disturbance[J].Neurocomputing,2020,411:442-454.
[21]Wang D,Shen Y,Sha W,et al.Adaptive DDPG Design-Based Sliding-Mode Control for Autonomous Underwater Vehicles at Different Speeds[C]//2019 IEEE Underwater Technology(UT).Kaohsiung,Taiwan:IEEE,2019:1-5.
[22]Wang S,Su Y M,Wang Z L,et al.Numerical and Experimental Analysis of Transverse Static Stability Loss of Planning Craft Sailing at High Forward Speed[J].Engineering Applications of Computational Fluid Mechanics,2014,8(1):44-54.
[23]Wang S X,Sun X J,Wang Y H,et al.Dynamic Modeling and Motion Simulation for a Winged Hybrid-Driven Underwater Glider[J].China Ocean Engineering,2011,25(1):97-112.
[24]Tiano A,Sutton R,Lozowicki A,et al.Observer Kalman Filter Identification of An Autonomous Underwater Vehicle[J].Control Engineering Practice,2007,15(6):727-739.
[25]Dantas J L D,Barros E D A.Numerical Analysis of Control Surface Effects on AUV Manoeuvrability[J].Applied Ocean Research,2013,42:168-181.
[26]Martin S C,Whitcomb L L.Preliminary Experiments in Comparative Experimental Identification of Six Degree-Of-Freedom Coupled Dynamic Plant Models for Underwater Robot Vehicles[C]//2013 IEEE International Conference on Robotics and Automation.Karlsruhe,Germany:IEEE,2013:2962-2969.
[27]Zheng X W,Wang W,Xiong M L,et al.Online State Estimation of a Fin-Actuated Underwater Robot Using Artificial Lateral Line System[J].IEEE Transactions on Robotics,2020,36(2):472-487.
[28]Jagannathan S,Galan G.One-Layer Neural-Network Controller with Preprocessed Inputs for Autonomous Underwater Vehicles[J].IEEE Transactions on Vehicular Technology,2003,52(5):1342-1355.
[29]Duan K R,Fong S,Chen C L P.Multilayer Neural Networks-Based Control of Underwater Vehicles with Uncertain Dynamics And Disturbances[J].Nonlinear Dynamics,2020,100(4):3555-3573.
[30]Lin X B,Yu Y,Sun C Y.Supplementary Reinforcement Learning Controller Designed for Quadrotor UAVs[J].IEEE Access,2019,7:26422-26431.
[31]王超,胡志強(qiáng),衣瑞文,等.高速水下機(jī)器人通氣空化減阻技術(shù)的水洞實(shí)驗(yàn)研究[J].機(jī)器人,2018,40(6):779-785.
Wang Chao,Hu Zhi-qiang,Yi Rui-wen,et al.Water Tunnel Experiment Research of Ventilated Cavitation Drag Reduction Technology for a High Speed AUV[J].Robot,2018,40(6):779-785.
[32]嚴(yán)衛(wèi)生,徐德民,李俊,等.遠(yuǎn)程自主水下航行器建模研究[J].西北工業(yè)大學(xué)學(xué)報(bào),2004,22(4):500-504.
Yan Wei-sheng,Xu De-min,Li Jun,et al.A New Method for Modeling Long Distance Autonomous Underwater Vehicle(AUV)[J].Journal of Northwestern Polytechnical University,2004,22(4):500-504.
[33]Willy C J.Attitude Control of An Underwater Vehicle Subjected to Waves[D].Massachusetts Ave,Cambridge:Massachusetts Institute of Technology,1994.
[34]Guo K J,Lin X B,Hao C P,et al.An Improved State Estimator for High-Speed AUV with NN[C]//2021 40th Chinese Control Conference.Shanghai,China:IEEE,2021.
Reinforcement-Learning Control for the High-Speed AUV Based on the Neural-Network State Estimator
GUO Ke-jian1,2,LIN Xiao-bo2,HAO Cheng-peng2,HOU Chao-huan2
(1.School of Integrated Circuits,University of Chinese Academy of Sciences,Beijing 100049,China;2.China Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China)
With the development of ocean research and exploitation,high-speed autonomous undersea vehicle(AUV)has attracted increasing attention as important unmanned underwater platforms.However,the high-speed AUV model is multiinput-multi-output(MIMO),strong-coupling,underactuated,and strongly nonlinear;therefore,the traditional control method that relies on the exact model is often limited in practical applications.To address these problems,a position-attitude controller based on reinforcement learning(RL)that does not rely on an exact model is proposed.The RL controller can not only regulate the attitude of the AUV but also the driver,as it reaches the target depth faster with the aid of the attitude and position loops.An improved state estimator of a high-speed AUV is designed based on a neural network(NN)to decrease the cost of collecting data,which is employed to train the RL controller.The improved state estimator can estimate the state at the next time instant according to the current state of the high-speed AUV and the control input.The simulation results demonstrate that the NN-state-estimator can estimate the state of a high-speed AUV with high precision,and the RL controller trained by the estimator achieves fast and steady performance,which verifies the feasibility and effectiveness of the proposed method..
autonomous undersea vehicle;reinforcement learning;neural network;state estimation
U674.941;U661
A
2096-3920(2022)02-0147-10
10.11993/j.issn.2096-3920.2022.02.002
郭可建,林曉波,郝程鵬,等.基于神經(jīng)網(wǎng)絡(luò)狀態(tài)估計(jì)器的高速AUV強(qiáng)化學(xué)習(xí)控制[J].水下無(wú)人系統(tǒng)學(xué)報(bào),2022,30(2):147-156.
2021-06-22;
修回日期:2021-08-03.
國(guó)家自然科學(xué)基金項(xiàng)目資助(61971412).
郭可建(1997-),男,碩士,主要研究方向?yàn)楦咚偎潞叫衅骺刂?
(責(zé)任編輯:楊力軍)