沈智鵬, 代昌盛
(大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)
?
欠驅(qū)動(dòng)船舶路徑跟蹤的強(qiáng)化學(xué)習(xí)迭代滑??刂?/p>
沈智鵬, 代昌盛
(大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)
針對(duì)三自由度欠驅(qū)動(dòng)船舶的路徑跟蹤問題,本文提出一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)迭代滑??刂品椒?。該方法引入雙曲正切函數(shù)對(duì)系統(tǒng)狀態(tài)進(jìn)行迭代滑模設(shè)計(jì),并采用神經(jīng)網(wǎng)絡(luò)對(duì)控制參數(shù)進(jìn)行優(yōu)化,增強(qiáng)控制器的自適應(yīng)性。通過定義一種控制量抖振測量變量和強(qiáng)化學(xué)習(xí)信號(hào),實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)進(jìn)行在線調(diào)整,能進(jìn)一步抑制控制量的抖振作用。應(yīng)用5446TEU集裝箱船的數(shù)學(xué)模型進(jìn)行控制仿真,結(jié)果表明所設(shè)計(jì)控制器能有效地處理風(fēng)和流等外界擾動(dòng),具有較強(qiáng)的魯棒性,與迭代滑??刂破飨啾榷娼堑亩墩駵p小明顯,控制舵角信號(hào)符合船舶的實(shí)際操作要求,更符合工程實(shí)際要求。
欠驅(qū)動(dòng)船舶;路徑跟蹤;控制器設(shè)計(jì);自適應(yīng);迭代滑??刂?;滑模面反饋;神經(jīng)網(wǎng)絡(luò);強(qiáng)化學(xué)習(xí)
目前,海上航行的大多數(shù)船舶僅裝備螺旋槳主推進(jìn)器和舵裝置,用以推進(jìn)和操縱船舶。當(dāng)需要依靠舵裝置產(chǎn)生的轉(zhuǎn)船力矩和螺旋槳的縱向推力,同時(shí)控制船舶水平面和航向角3個(gè)自由度的運(yùn)動(dòng)時(shí),船舶控制系統(tǒng)便屬于欠驅(qū)動(dòng)系統(tǒng)。由于欠驅(qū)動(dòng)船舶的非線性和非完整特性,要實(shí)現(xiàn)欠驅(qū)動(dòng)船舶的精確路徑跟蹤控制,對(duì)傳統(tǒng)的控制策略帶來了挑戰(zhàn)。
近年來,對(duì)船舶航跡跟蹤控制問題的研究,已有很多的研究成果。Michiel使用了輸出反饋的方法跟蹤航跡,最后仿真在一個(gè)1∶70的實(shí)際模型上實(shí)現(xiàn)[1]。Ghommam利用backstepping的方法,達(dá)到全局漸進(jìn)穩(wěn)定,實(shí)現(xiàn)欠驅(qū)動(dòng)船舶的軌跡跟蹤[2]。付明玉設(shè)計(jì)的是半全局一致指數(shù)穩(wěn)定控制器[3]。文獻(xiàn)[1-3]的不足在于都是在理想條件下,即沒有干擾或者只是恒定干擾。Yang也是使用了backstepping的方法,在有時(shí)變干擾的情況下實(shí)現(xiàn)軌跡跟蹤[4]。王昊提出了一種基于神經(jīng)網(wǎng)絡(luò)自適應(yīng)動(dòng)態(tài)面控制的協(xié)同路徑跟蹤算法,在存在未知干擾的條件下實(shí)現(xiàn)路徑跟蹤[5]。Annamalai則利用模型預(yù)測控制,在線適應(yīng)環(huán)境,針對(duì)船舶受到突然的干擾進(jìn)行控制,效果良好[6]。將滑模控制應(yīng)用于船舶航跡跟蹤的研究也有相當(dāng)?shù)难芯砍晒?,有些學(xué)者用滑模方法和迭代滑模解決參數(shù)不確定和干擾不確定的問題[7-9]。為得到更好的控制效果,邢道奇利用坐標(biāo)變化,將系統(tǒng)轉(zhuǎn)化為鏈?zhǔn)较到y(tǒng),設(shè)計(jì)指數(shù)控制律,在非線性模型基礎(chǔ)上設(shè)計(jì)了滑??刂破?,并在仿真過程中取得了良好的控制效果[10]。Hebertt針對(duì)氣墊船設(shè)計(jì)了一種結(jié)合微分單調(diào)性與高階滑??刂频亩A航跡控制器,在獲得平滑控制效果的同時(shí)具有更強(qiáng)的魯棒性[11]。隨著滑??刂评碚摰陌l(fā)展,單純的使用滑模已經(jīng)不能滿足人們對(duì)控制性能的要求。廖煜雷采用反演自適應(yīng)和滑模相結(jié)合的方法,使船舶航跡跟蹤系統(tǒng)指數(shù)漸近穩(wěn)定[12]。朱齊丹把滑??刂坪妥赃m應(yīng)魯棒控制相結(jié)合來解決干擾不確定和參數(shù)不確定的船舶航跡跟蹤問題[13]。
在上述研究中,船舶航跡跟蹤控制方法的處理過程通常較為復(fù)雜,工程實(shí)現(xiàn)困難。為了簡化計(jì)算的復(fù)雜程度, Hang采用計(jì)算復(fù)雜度較低的線性遞歸滑模方法獲取控制量的遞推算法[14]。一些學(xué)者采用非線性迭代滑模法分別對(duì)水面船舶、UUV、AUV進(jìn)行了航向、航跡跟蹤控制,取得了良好的控制效果,該方法一方面避免對(duì)模型線性化處理,同時(shí)也避免了估計(jì)模型中不確定量及外界的不確定干擾[15-17],然而該控制方法中參數(shù)是固定不變的,無法確保控制器參數(shù)在不同環(huán)境下取得最優(yōu)值。Liu使用了自適應(yīng)分層滑??刂茖?duì)軌跡進(jìn)行跟蹤,但是魯棒性不強(qiáng)[18]。
本文在文獻(xiàn)[15-17]基礎(chǔ)上,引入神經(jīng)網(wǎng)絡(luò)對(duì)控制參數(shù)進(jìn)行自適應(yīng)調(diào)節(jié),并借鑒文獻(xiàn)[19]的強(qiáng)化學(xué)習(xí)思想,提出一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)迭代滑??刂破?,應(yīng)用于欠驅(qū)動(dòng)船舶路徑跟蹤控制中??紤]抖振對(duì)實(shí)際工程的影響,在控制器設(shè)計(jì)中定義了一種抖振測量函數(shù),用該函數(shù)輸出的強(qiáng)化信號(hào)可評(píng)價(jià)控制參數(shù)優(yōu)化效果,并對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行在線調(diào)整。最后,以5446TEU集裝箱船為目標(biāo),設(shè)計(jì)基于強(qiáng)化學(xué)習(xí)的自適應(yīng)迭代滑模控制器,在風(fēng)浪等干擾環(huán)境下進(jìn)行船舶路徑跟蹤控制仿真,并將仿真結(jié)果與迭代滑模控制器的仿真結(jié)果進(jìn)行對(duì)比分析。
目前關(guān)于船舶路徑跟蹤控制的研究,大都采用的是fossen模型,例如文獻(xiàn)[1-4]、[8-11]和[13-14]。采用fossen模型所得到的控制量是船舶的橫向推力、縱向推力和轉(zhuǎn)船力矩,對(duì)于全驅(qū)動(dòng)船舶,需要把這些控制力和力矩進(jìn)行優(yōu)化計(jì)算后分配到各個(gè)推進(jìn)器去實(shí)現(xiàn)控制;而對(duì)于常規(guī)的單槳單舵欠驅(qū)動(dòng)船舶,則需要將這些控制力和力矩經(jīng)過進(jìn)一步轉(zhuǎn)換,映射為舵角和柴油機(jī)油門量,所以采用fossen模型得到的控制量與船舶控制系統(tǒng)的實(shí)際工程應(yīng)用存在一定差距。本文采用分離型模型(mathematical model group,MMG),可直接表示出舵角和柴油機(jī)油門等控制量,與實(shí)際工程應(yīng)用一致。根據(jù)文獻(xiàn)[20],三自由度船舶運(yùn)動(dòng)MMG模型可表示為
(1)
式中:X和Y表示坐標(biāo)軸方向受力,N表示力矩,H表示裸船體,P表示螺旋槳,R表示舵機(jī),u縱向速度,v是橫向速度,r是艏揺角速度,m是船舶質(zhì)量,mx是在附體坐標(biāo)系下水的附加質(zhì)量在X方向上的分量,my是Y方向上的分量,Jxx是附體坐標(biāo)系下x軸的附加轉(zhuǎn)動(dòng)慣量,Jzz是附體坐標(biāo)系下z軸的附加轉(zhuǎn)動(dòng)慣量,x、y是船舶重心在固定坐標(biāo)系的位置,uc是水流的流速,ψc是水流的方向,ψ是航向角。在式(1)中,Xwind、Ywind、Nwind表示風(fēng)產(chǎn)生的力和力矩,由平均風(fēng)和擾動(dòng)風(fēng)疊加而成;而Xwave、Ywave、Nwave表示浪產(chǎn)生的力和力矩,這里只考慮規(guī)則波浪對(duì)船舶運(yùn)動(dòng)的影響[20],具體如下
(2)
式中:L為船長,k為波數(shù),h為波高,χ為波向角,ωe為遭遇頻率,ρ為海水密度,g重力加速度,d為吃水,b為船寬。其中a=ρg(1-e-kd)/k2,b=(kL/2)·cosχ,s(t)=(kh/2)sin(ωet),c=(kB/2)·sinχ,ζ(t)=(h/2)cos(ωet)。
需要注意的是,在實(shí)際的船舶操作過程中,由于受到船舶自身特性限制,常規(guī)船舶的舵角通常小于35°,最大轉(zhuǎn)艏角速度通常為0.01~0.02rad/s,滿舵旋回需要5~10min。
當(dāng)船舶要跟蹤某個(gè)光滑曲線路徑時(shí),跟蹤的航跡偏差可由圖1表示。假設(shè)曲線上的任意一點(diǎn)都可以表示成某半徑為R的圓上一點(diǎn)。ψ是船舶的實(shí)際航向,ψr表示期望的航向,ye表示位置偏差,帶撇的量與不帶撇的量分別表示兩個(gè)不同時(shí)刻的值。理論上可以近似認(rèn)為,只要船舶能跟蹤圓路徑,就可以跟蹤任何光滑曲線路徑。
圖1 船舶路徑跟蹤航跡偏差示意圖Fig.1 Track error schematic on tracking ship path
根據(jù)幾何學(xué)知識(shí)可知,船舶跟蹤圓弧路徑的航跡偏差和航跡上的切線方向都可以用解析方程表示。圓在二維坐標(biāo)系中用二元二次方程表示為(x-x0)2+(y-y0)2=R2,其中(x0,y0)是圓心坐標(biāo),R是半徑。船舶航跡偏差可定義為實(shí)際位置到圓心的距離減去半徑,圓周上的切線方向可以用以圓心為原點(diǎn)的極坐標(biāo)表示:
(3)
式中:ye表示航跡偏差,ψr表示切線方向,也就是期望的航向,另外因?yàn)楹桔E跟蹤需要確定正方向,順時(shí)針時(shí)ψr取“+”,逆時(shí)針時(shí)取“-”。定義航向偏差為ψe=ψ-ψr。
在船舶路徑跟蹤控制的實(shí)際操縱中,當(dāng)外界干擾有界時(shí)系統(tǒng)是可控的,根據(jù)船舶常速航行時(shí)的特性做出如下假設(shè):
假設(shè)2 系統(tǒng)速度、加速度以及外界干擾有界,且在t∈R+是光滑的。
系統(tǒng)控制目標(biāo):針對(duì)船舶運(yùn)動(dòng)數(shù)學(xué)模型式(1),在假設(shè)1和假設(shè)2的情況下,設(shè)計(jì)船舶路徑跟蹤自適應(yīng)控制器,使得船舶在有限時(shí)間內(nèi),跟蹤上設(shè)定的曲線路徑,并且保證系統(tǒng)內(nèi)所有信號(hào)一致最終有界。
為便于控制器設(shè)計(jì),先給出以下定理。
定理1 考慮一零階非線性標(biāo)量系統(tǒng)
y=f(x,us,t)
(4)
式中:y∈R為系統(tǒng)輸出,x∈R為系統(tǒng)狀態(tài),us∈R為控制輸入。如果
2)f(x,us,t)是連續(xù)有界非線性函數(shù);
若采用如下的增量反饋控制律
(5)
式中:kp、ε∈R+,那么系統(tǒng)(3)在控制律(4)作用下能夠?qū)崿F(xiàn)一致漸近穩(wěn)定。
證明:對(duì)式(4)求導(dǎo),可得
(6)
取李亞普諾夫函數(shù)為
(7)
對(duì)式(7)求導(dǎo),并將式(5)和式(6)代入,可得
(8)
(9)
因此有
(10)
根據(jù)李亞普諾夫穩(wěn)定性判據(jù)可知,系統(tǒng)(4)一致漸近穩(wěn)定,定理1成立。
2.1 非線性迭代滑??刂破鞯脑O(shè)計(jì)
為實(shí)現(xiàn)式(1)中船舶路徑跟蹤目標(biāo),利用非線性雙曲正切函數(shù)設(shè)計(jì)迭代滑模函數(shù),構(gòu)造出包含航跡偏差ye和航向偏差ψe的多階迭代滑模函數(shù)如下
(11)
式中:k0、k1、k2、k3、k4∈R+,并且有k3≤k4。式(11)中一階滑模面σ1是關(guān)于航跡偏差ye的函數(shù),最高階滑模面σ4包含航向偏差ψe的二階導(dǎo)數(shù)項(xiàng),即蘊(yùn)含了滑模面σ4與控制舵角δ的關(guān)系。在滑模面σ2中加入積分項(xiàng),是為了利用雙曲正切函數(shù)的嚴(yán)格有界性限制驅(qū)動(dòng)船舶轉(zhuǎn)首的最大速率,以適應(yīng)船舶旋回角速度和控制輸入的約束條件。
以下非線性迭代滑模控制器設(shè)計(jì)的基本思想是考慮到船舶縱向速度遠(yuǎn)大于橫向速度(假設(shè)1),且舵力在縱、橫向的分力相對(duì)于轉(zhuǎn)矩小的多,同時(shí)假設(shè)初始航向偏差角小于直角,根據(jù)雙曲正切函數(shù)的嚴(yán)格有界,設(shè)法推導(dǎo)出所構(gòu)造最高階滑模面σ4與舵角δ之間的單調(diào)函數(shù)關(guān)系,再利用定理1,設(shè)計(jì)滑模面反饋控制律,并證明航跡偏差ye漸近收斂。
根據(jù)式(11)的數(shù)學(xué)關(guān)系可以知道當(dāng)σ4→0時(shí),有σ3→0,σ2→0。而當(dāng)σ2→0時(shí),存在
(12)
以及
(13)
根據(jù)船舶運(yùn)動(dòng)MMG式(1),可把σ1展開:
σ1=k1tanh(k0ye)+vcosψe+
usinψe+ucsinψc
(14)
把σ1看成形如式(4)所述的系統(tǒng)輸出y,由于σ1受ψe控制,可將ψe作為控制量us,明顯σ1是連續(xù)有界非線性函數(shù),且可得
(15)
(16)
根據(jù)定理1,那么在控制律式(16)作用下,式(14)可以達(dá)到漸進(jìn)穩(wěn)定,即σ1→0,由式(11)第一個(gè)式子可得
(17)
因此航跡偏差ye也是漸近穩(wěn)定的。所以只要實(shí)現(xiàn)σ4→0,就能確保航跡偏差ye穩(wěn)定收斂。
為實(shí)現(xiàn)σ4→0,采用如下的滑模面反饋控制律
圖4為在純水飽和狀態(tài)下不同摻砂率混合物的剪應(yīng)力與位移關(guān)系.由圖可知,純膨潤土出現(xiàn)了應(yīng)變軟化現(xiàn)象,而摻砂混合物只有應(yīng)變硬化現(xiàn)象;純膨潤土的抗剪應(yīng)力大于摻砂混合物的抗剪應(yīng)力,并且摻砂率越高,抗剪應(yīng)力越小.當(dāng)剪切位移達(dá)到5 mm時(shí),純膨潤土強(qiáng)度與摻砂混合物強(qiáng)度幾乎相等.
(18)
式中:k5、ε∈R+。
根據(jù)式(11)把σ4全部展開可得
(19)
將式(19)對(duì)δ求偏導(dǎo),考慮到只有舵轉(zhuǎn)矩NR、舵橫向分力XR、舵縱向分力YR三項(xiàng)表達(dá)式與輸入舵角δ有關(guān),可得:
(20)
式中:NR=h(x)cos(δ)sin(αR),αR為有效沖角,αR大小與舵角輸入δ有關(guān)且符號(hào)相同,h(x)為一個(gè)恒正的函數(shù),因此可知NR對(duì)δ求導(dǎo)在δ∈(-35°,35°)是恒正的??紤]實(shí)際操舵時(shí),舵力在縱、橫向的分力XR和YR及其增益相對(duì)于轉(zhuǎn)矩NR小的多。根據(jù)三角函數(shù)和雙曲三角函數(shù)的有界性可知,存在k2使
(21)
因此,由式(18)、(21)及定理1,可得σ4漸近收斂至0,從而確保航跡偏差ye漸近收斂,實(shí)現(xiàn)路徑跟蹤目標(biāo)。
2.2 基于強(qiáng)化學(xué)習(xí)的控制參數(shù)優(yōu)化
由船舶操縱特性可知,船舶的橫搖和干擾,都會(huì)使控制舵角來回波動(dòng),如果控制器設(shè)計(jì)不合理或者參數(shù)不合適,則會(huì)加大這種波動(dòng)的頻率和幅值。為延長設(shè)備壽命,并使控制效果接近實(shí)際操舵要求,應(yīng)盡可能減少舵的抖振輸出。因此所設(shè)計(jì)的非線性迭代滑模控制器器如果有自適應(yīng)性,那么系統(tǒng)控制性能將得到提升。
由式(18)可看出滑模面反饋參數(shù)k5對(duì)系統(tǒng)的控制品質(zhì)和魯棒性有很大影響。為此,設(shè)計(jì)控制參數(shù)神經(jīng)網(wǎng)絡(luò)系統(tǒng)以航跡偏差為輸入,根據(jù)航跡偏差變化調(diào)節(jié)控制器參數(shù)k5,同時(shí),為了減小控制舵角的輸出抖振量,定義一種抖振測量變量,并基于強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)參數(shù)的在線學(xué)習(xí)?;谏鲜鰠?shù)優(yōu)化思想,設(shè)計(jì)出一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)迭代滑模船舶路徑跟蹤控制結(jié)構(gòu),如圖2所示。
圖2 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)迭代滑模船舶路徑跟蹤控制結(jié)構(gòu)圖Fig.2 Adaptive iterative sliding mode ship path track control based on reinforcement learning
參數(shù)優(yōu)化器中的神經(jīng)網(wǎng)絡(luò)采用RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其為輸入層神經(jīng)元數(shù)量1個(gè),表示位置誤差ye;隱含層神經(jīng)元10個(gè);輸出層神經(jīng)元也是1個(gè),表示參數(shù)k5。RBF神經(jīng)網(wǎng)絡(luò)隱含層的激活函數(shù)采用高斯函數(shù):
(22)
式中:hj是第j個(gè)高斯基函數(shù)的輸出值,x表示網(wǎng)絡(luò)的輸入,cj是第j個(gè)高斯基函數(shù)的中心,σj是第j個(gè)高斯基函數(shù)的寬度。
最終RBF神經(jīng)網(wǎng)絡(luò)的輸出可表示為
k5=W·h(ye)
(23)
式中:W是權(quán)重向量,h(ye)是隱含層輸出向量。因此,所構(gòu)造RBF神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)參數(shù)包括各基函數(shù)的中心cj和寬度σj,以及隱含層到輸出層的權(quán)重向量W,其初始參數(shù)值選取如下
(24)
為實(shí)現(xiàn)RBF神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí),通常采用有導(dǎo)師的學(xué)習(xí)算法,但對(duì)于本結(jié)構(gòu)中的輸出參數(shù)k5,在不同工況下參數(shù)k5的期望值并不知道,即沒有明確的導(dǎo)師信號(hào)。根據(jù)文獻(xiàn)[19]可知,強(qiáng)化學(xué)習(xí)算法可以采用比較粗糙的訓(xùn)練數(shù)據(jù),僅僅使用“評(píng)價(jià)”信號(hào),即強(qiáng)化信號(hào),通過與環(huán)境的交互來評(píng)價(jià)控制作用的優(yōu)劣,采用“獎(jiǎng)”、“罰”算法訓(xùn)練網(wǎng)絡(luò)。為此,本文根據(jù)控制舵角δ的抖振測量值計(jì)算得到強(qiáng)化信號(hào),采用強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)RBF神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)。
在每一個(gè)學(xué)習(xí)周期中,每個(gè)神經(jīng)網(wǎng)絡(luò)的輸出會(huì)對(duì)應(yīng)一個(gè)權(quán)重的變化量Δwt,權(quán)重向量W將按式(25)進(jìn)行參數(shù)調(diào)整。
Wt+1=Wt+Δwt
(25)
式中:Wt表示t時(shí)刻權(quán)重,Wt+1為下一周期的權(quán)重。定義神經(jīng)網(wǎng)絡(luò)的輸出誤差Et為
(26)
式中:d是參數(shù)k5的期望值,顯然是不可知的,但是系統(tǒng)的控制效果可以間接的反應(yīng)參數(shù)是否合適,故采用控制舵角的抖振情況來近似代替這個(gè)誤差。即
(27)
(28)
式中:T是仿真周期,δ(t-lT)和δ[t-(l-1)T]是前后不同周期的舵角值,n表示積累的次數(shù)(取n=50),而ρk(l)定義為
(29)
在系統(tǒng)輸出產(chǎn)生抖振時(shí),輸出的變化趨勢會(huì)發(fā)生改變。在式(29)中,當(dāng)且僅當(dāng)舵角變化量符號(hào)反向時(shí)ρk(l)記為1,否則記為0。結(jié)合式(28),即可描述最近n個(gè)周期內(nèi)系統(tǒng)輸出的抖振變化情況。因此,權(quán)重的變化量Δwt可表示為
(30)
式中η1是學(xué)習(xí)率。
則權(quán)重向量W的學(xué)習(xí)過程可表示為
(31)
同理,可得參數(shù)cj和σj的學(xué)習(xí)算法為
(32)
(33)
參數(shù)優(yōu)化神經(jīng)網(wǎng)絡(luò)系統(tǒng)根據(jù)實(shí)時(shí)測量的舵角抖振變化情況,其參數(shù)W、cj和σj按照式(31)~(33)的學(xué)習(xí)算法進(jìn)行在線學(xué)習(xí),進(jìn)而能夠更準(zhǔn)確地輸出調(diào)節(jié)參數(shù)k5,從而增強(qiáng)控制器的自適應(yīng)性。
本文以5446TEU集裝箱船為對(duì)象進(jìn)行路徑跟蹤控制仿真,驗(yàn)證所設(shè)計(jì)控制器的性能,該船的主要參數(shù)如表1所示。
表1 5446TEU集裝箱船主要參數(shù)
Table 1 Principal parameters 5446 TEU container ship′s
集裝箱船物理屬性參數(shù)集裝箱船物理屬性參數(shù)船長/m280.0兩柱間長/m267.0船寬/m39.8型深/m23.6設(shè)計(jì)船速/kn24.5方形系數(shù)0.62總噸位/t65531凈噸位/t35453空船重量/t24696載重量/t69192設(shè)計(jì)吃水/m12.5滿載吃水/m14.0螺旋槳槳葉數(shù)5直徑/m9.2螺距9.657盤面比0.668
圖3~6是船舶在設(shè)定工況下跟蹤圓路徑,分別是跟蹤路徑、誤差、舵角以及參數(shù)變化的曲線。從圖3可以看出用迭代滑模方法跟蹤和用基于強(qiáng)化學(xué)習(xí)的迭代滑模算法都很快跟上了目標(biāo)路徑,但是迭代滑模控制算法跟蹤的不準(zhǔn)確。由圖4更能直觀的看出迭代滑??刂品椒ê突趶?qiáng)化學(xué)習(xí)的迭代滑模控制算法都在300s左右跟蹤上路徑,但是迭代滑??刂品椒ㄒ恢贝嬖谳^大誤差。由圖5不難發(fā)現(xiàn),用迭代滑??刂扑惴ǖ拇岸娼欠逯禐?0°左右,而用基于強(qiáng)化學(xué)習(xí)的迭代滑模控制算法的船舶舵角峰值僅有12°,并且舵角的振蕩程度更小,不會(huì)過多的損耗舵機(jī),更符合實(shí)際的船舶航行要求。通過圖6可以發(fā)現(xiàn)剛開始參數(shù)k5的變化劇烈,相對(duì)幅度較大,在沒有跟蹤上設(shè)定路徑的時(shí)候,較大幅度地去調(diào)節(jié)k5,盡快減小誤差;跟蹤上以后,小范圍調(diào)節(jié)參數(shù),僅是為了消除抖振,神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)參數(shù)的動(dòng)態(tài)調(diào)節(jié)。綜合圖3~6可以明顯看出,使用基于強(qiáng)化學(xué)習(xí)的迭代滑??刂扑惴ū扔玫?刂扑惴ǖ目刂菩Ч?,更穩(wěn),更準(zhǔn),更符合工程的實(shí)際要求。
圖3 圓路徑跟蹤的路徑跟蹤曲線Fig.3 Path tracking curves of round path tracking
圖4 圓路徑跟蹤的誤差曲線Fig.4 Error curves of round path tracking
圖5 圓路徑跟蹤的舵角變化曲線Fig.5 Rudder angle curves of round path tracking
圖6 圓路徑跟蹤的參數(shù)k5變化曲線Fig.6 The parameter k5 curve of round path tracking
圖7~10是船舶在設(shè)定工況下跟蹤正弦路徑,分別是跟蹤路徑和舵角的變化曲線,由圖7和8可以看出用迭代滑模的控制算法跟蹤效果差,不能完全跟蹤上正弦路徑;基于強(qiáng)化學(xué)習(xí)的迭代滑??刂扑惴ㄔ?00s左右時(shí)就幾乎跟蹤上了目標(biāo)路徑,并且相同時(shí)間內(nèi)用基于強(qiáng)化學(xué)習(xí)的迭代滑??刂扑惴ǖ母櫨嚯x更遠(yuǎn),偏差更小。圖9可以發(fā)現(xiàn)用迭代滑模的控制算法舵角的抖振明顯減小,舵角峰值也有所下降。由圖10可以看出,在600s之前,參數(shù)k5抖動(dòng)比較厲害,而這時(shí)的迭代滑模控制器的舵角抖動(dòng)很大,是參數(shù)的抖動(dòng)抵消了舵角的抖振。綜上,可以明顯看出用迭代滑模的方法跟蹤速度較慢,而且一直存在偏差,跟蹤不準(zhǔn)確;用基于強(qiáng)化學(xué)習(xí)的迭代滑??刂扑惴▌t具有更快跟蹤速度,舵角幾乎沒有抖振,誤差更小。
圖7 正弦路徑跟蹤的路徑跟蹤曲線 Fig.7 Path tracking curves of Sine path tracking
圖8 正弦路徑跟蹤的誤差曲線Fig.8 Error curves of Sine path tracking
圖9 正弦路徑跟蹤的舵角變化曲線Fig.9 Rudder angle curves of Sine path tracking
圖10 圓路徑跟蹤的參數(shù)k5變化曲線Fig.10 The parameter k5 curve of round path tracking
1)相較于迭代滑模控制器,基于強(qiáng)化學(xué)習(xí)的迭代滑模控制器的自適應(yīng)性和魯棒性更強(qiáng),路徑跟蹤更準(zhǔn)確,相同時(shí)間航行的更遠(yuǎn),效率更高,有利于節(jié)省能源。
2)使用基于強(qiáng)化學(xué)習(xí)的迭代滑??刂品椒ǖ玫降亩娼牵啾容^迭代滑模,舵角抖振明顯下降,可以有效的保護(hù)舵機(jī)裝置,更符合實(shí)際工程需求。
[1]WONDERGEM M, LEFEBER E, PETTERSEN K Y, et al. Output feedback tracking of ships[J]. IEEE transactions on control systems technology, 2011, 19(2): 442-448.
[2]GHOMMAM J, MNIF F, DERBEL N. Global stabilisation and tracking control of underactuated surface vessels[J]. Control theory & applications, 2010, 4(1): 71-88.
[3]付明玉, 張愛華, 徐金龍. 船舶軌跡跟蹤半全局一致指數(shù)穩(wěn)定觀測控制器[J]. 控制與決策, 2013, 28(6): 920-924.
FU Mingyu, ZHANG Aihua, XU Jinlong. Semi-global uniform exponential stable observer-controller for trajectory tracking of ships[J]. Control and decision, 2013, 28(6): 920-924.
[4]YANG Y, DU J, LIU H, et al. A trajectory tracking robust controller of surface vessels with disturbance uncertainties[J]. IEEE transactions on control systems technology, 2014, 22(4): 1511-1518.
[5]王昊, 王丹, 彭周華,等. 多自主船協(xié)同路徑跟蹤的自適應(yīng)動(dòng)態(tài)面控制[J]. 控制理論與應(yīng)用, 2013, 30(5): 637-643.
WANG Hao, WANG Dan, PENG Zhouhua, et al. Adaptive dynamic surface control for cooperative path following of multiple autonomous surface vessels[J]. Control theory & applications. 2013, 30(5): 637-643.
[6]ANNAMALAI A S K, SUTTON R, YANG C, et al. Robust adaptive control of an uninhabited surface vehicle[J]. Journal of intelligent & robotic systems, 2015, 78(2): 319-338.
[7]YU R, ZHU Q, XIA G, et al. Sliding mode tracking control of an underactuated surface vessel[J]. Control theory & applications, 2012, 6(3): 461-466.
[8]ASHRAFIUON H, MUSKE K R, MCNINCH L C, et al. Sliding-mode tracking control of surface vessels[J]. IEEE transactions on industrial electronics, 2008, 55(11): 4004-4012.
[9]孟威, 郭晨, 孫富春, 等. 欠驅(qū)動(dòng)水面船舶的非線性滑模軌跡跟蹤控制[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2012, 33(5): 585-589.
MENG Wei, GUO Chen, SUN Funchun, et al. Nonlinear sliding mode tracking control of underatuated surface vessels[J]. Journal of Harbin Engineering University, 2012, 33(5): 585-589.
[10]邢道奇, 張良欣.船舶航跡跟蹤的滑??刂芠J].船舶, 2011,22(5): 10-14.
XING Daoqi, ZHANG Liangxin. Sliding-model control for trajectory tracking of surface vessels[J]. Ship & boat, 2011,22(5): 10-14.
[11]SIRA R H. Dynamic second-order sliding mode control of the hovercraft vessel[J]. IEEE transactions on control systems technology, 2002, 10(6): 860-865.
[12]廖煜雷, 萬磊, 莊佳園. 欠驅(qū)動(dòng)船路徑跟蹤的反演自適應(yīng)動(dòng)態(tài)滑模控制方法[J]. 中南大學(xué)學(xué)報(bào):自然科學(xué)版, 2012, 43(7): 2655-2661.
LIAO Yulei, WAN Lei, ZHUANG Jiayuan. Back stepping adaptive dynamical sliding mode control method for path following of under actuated surface vessel[J]. Journal of central south university (science and technology), 2012, 43(7): 2655-2661.
[13]朱齊丹, 于瑞亭, 夏桂華,等. 風(fēng)浪流干擾及參數(shù)不確定欠驅(qū)動(dòng)船舶航跡跟蹤的滑模魯棒控制[J]. 控制理論與應(yīng)用, 2012, 29(7): 959-964.
ZHU Qidan, YU Ruiting, XIA Guihua, et al. Sliding-mode robust tracking control for underactuated surface vessels with parameter uncertainties and external disturbances[J]. Control theory & applications, 2012, 29(7): 959-964.
[14]HUANG Z, EDWARDS R M, LEE K Y. Fuzzy-adapted recursive sliding-mode controller design for a nuclear power plant control[J]. IEEE transactions on nuclear science, 2004, 51(1): 256-266.
[15]卜仁祥, 劉正江, 李鐵山. 迭代滑模增量反饋及在船舶航向控制中的應(yīng)用[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2007, 28(3): 268-272.
BU Renxiang, LIU Zhengjiang, LI Tieshan. Iterative sliding mode based increment feedback control and its application to ship autopilot[J]. Journal of Harbin Engineering University, 2007, 28(3): 268-272.
[16]邊信黔, 程相勤, 賈鶴鳴, 等. 基于迭代滑模增量反饋的欠驅(qū)動(dòng) AUV 地形跟蹤控制[J]. 控制與決策, 2011, 26(2): 289-292.
BIAN Xinqian, CHENG Xiangqin, JIA Heming, et al. A bottom-following controller for underactuated AUV based on iterative sliding and increment feedback[J]. Control and decision, 2011, 26(2): 289-292.
[17]賈鶴鳴, 張利軍, 程相勤, 等. 基于非線性迭代滑模的欠驅(qū)動(dòng) UUV 三維航跡跟蹤控制[J]. 自動(dòng)化學(xué)報(bào), 2012, 38(2): 308-314.
JIA Heming, ZHANG Lijun, CHENG Xiangqin, et al. Three-dimensional path following control for an underactuated UUV based on nonlinear iterative sliding mode[J]. Acta automatica sinica, 2012, 38(2): 308-314.
[18]LIU C, ZOU Z, HOU X. Stabilization and tracking of underactuated surface vessels in random waves with fin based on adaptive hierarchical sliding mode technique[J]. Asian journal of control, 2014, 16(5): 1492-1500.
[19]SHEN Zhipeng, GUO Chen, ZHANG Ning. A general fuzzied CMAC based reinforcement learning control for ship steering using recursive least-squares algorithm[J]. Neurocomputing, 2010, 73:700-706.[20]賈欣樂,楊鹽生.船舶運(yùn)動(dòng)數(shù)學(xué)模型:機(jī)理建模與辯識(shí)建模[M].大連海事大學(xué)出版社,1999:49-138,328-331.
JIA Xinle, YANG Yansheng. Ship motion mathematical model: the mechanism modeling and identification modeling[M]. Dalian maritime university press, 1999: 49-138, 328-331.
本文引用格式:
沈智鵬, 代昌盛.欠驅(qū)動(dòng)船舶路徑跟蹤的強(qiáng)化學(xué)習(xí)迭代滑??刂芠J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2017, 38(5): 697-704.
SHEN Zhipeng, DAI Changsheng. Iterative sliding mode control based on reinforced learning and used for path tracking of under-actuated ship[J]. Journal of Harbin Engineering University, 2017, 38(5): 697-704.
Iterative sliding mode control based on reinforced learning and used for path tracking of under-actuated ship
SHEN Zhipeng, DAI Changsheng
(School of Information Science and Technology, Dalian Maritime University, Dalian 116026, China)
An adaptive iterative sliding mode control method based on reinforced learning was proposed for the path tracking of a 3-DOF under-actuated ship. The method introduces a hyperbolic tangent function to design the iterative sliding mode for system states and uses a neural network to optimize the control parameters to enhance the adaptivity of the controller. The structure and parameters of the neural network were adjusted online by defining a type of control amount chattering measurement variable and reinforced learning signal, which could further inhibit the chattering of the control amount. The mathematical model of a 5446TEU container ship was used for the controller and simulation. The results show that the designed controller can manage the wind, flow, and other external disturbances effectively; this, the controller has strong robustness. Compared with the iterative sliding mode controller, the chattering of the rudder angle is obviously reduced, and the control signal of the rudder angle complies with the actual operation requirements of the ship and even more with the actual requirements of the project.
under-actuated ship; path tracking; controller design; self-adaptive; iterative sliding mode control; surface feed-back; neural network; reinforced learning
2015-12-02.
日期:2017-04-26.
國家高技術(shù)研究計(jì)劃項(xiàng)目(2012AA112702);國家自然科學(xué)基金項(xiàng)目(51579024);中央高?;究蒲袠I(yè)務(wù)費(fèi)項(xiàng)目(3132017126).
沈智鵬(1977-), 男,教授.
沈智鵬, E-mail: shenbert@dlmu.edu.cn
10.11990/jheu.201512005
TP273
A
1006-7043(2017)05-0697-08
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1390.u.20170426.1152.048.html