亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于PILCO算法的智能浮體運動控制方法

2021-11-08 05:10:28張尚,楊睿,2,陳震,2,黎明,2

水下無人系統(tǒng)學(xué)報 2021年5期

關(guān)鍵詞：控制策略智能模型

張尚, 楊睿,2, 陳震,2, 黎明,2

張尚1, 楊睿1,2, 陳震1,2, 黎明1,2

(1.中國海洋大學(xué) 工程學(xué)院, 山東青島, 266100; 2.山東省海洋智能裝備技術(shù)工程研究中心, 山東青島, 266100)

隨著人們對海洋探索的不斷深入, 開發(fā)一種自主性強、靈活度高、可重構(gòu)的智能浮體(ASV)至關(guān)重要。文中以四推進器ASV為研究對象, 建立了其動力學(xué)模型, 基于概率推理的學(xué)習(xí)控制算法設(shè)計了控制器, 并進行了定點控制和軌跡跟蹤的仿真實驗。仿真結(jié)果表明: ASV僅需進行少量的實驗即可獲得自主學(xué)習(xí)控制策略, 在有水流擾動或采用近似動力學(xué)模型時, 能夠?qū)崿F(xiàn)對其的運動控制, 從而驗證了文中算法的有效性。

智能浮體; 基于概率推理的學(xué)習(xí)控制; 定點控制; 軌跡跟蹤

0 引言

隨著各國對海洋開發(fā)的重視, 針對海上安全保護、水文氣象信息采集及海面搜救等方面的需求大幅增加, 開發(fā)一種自主性強、靈活度高、可重構(gòu)的海面智能浮體(autonomous surface vehicle, ASV)平臺至關(guān)重要。如圖1所示, 多個浮體拼接成不同形狀以適應(yīng)不同作業(yè)場景, 可快速形成柔性運輸通道、自動浮橋搭建和形成作業(yè)平臺等, 也可以抵抗更大的干擾以提高系統(tǒng)穩(wěn)定性。為解決在運河中運輸貨物和廢棄物的問題, 2016年, 麻省理工學(xué)院智慧城市實驗室啟動了“Roboat”項目, 目標(biāo)是使多個浮體可以自主拼接成浮動平臺, 以適應(yīng)阿姆斯特丹城市中復(fù)雜的航道, 完成河道運輸任務(wù)[1]?！癛oboat”項目的應(yīng)用也使得對智能浮體的研究越來越深入。智能浮體的優(yōu)點是自主性強, 運動靈活, 多浮體可拼接成不同形狀以完成不同的任務(wù)。智能浮體不僅需要具備較強的機動性和靈活性, 也需要具備先進的控制策略, 因此對單浮體運動控制的研究是完成可重構(gòu)目標(biāo)的基礎(chǔ)。

圖1 小型智能浮體集群

智能浮體因較強的機動性和靈活性需要合理配置推進器。Lu等[2]所使用的浮體采用一個推進器用于驅(qū)動, 一個舵機實現(xiàn)轉(zhuǎn)向, 這也是目前較常見的方案, 缺點是浮體有較大的轉(zhuǎn)彎半徑, 也無法單獨對航向進行調(diào)整, 靈活性較差。Woo等[3]設(shè)計的浮體安裝了2個推進器, 且左右對稱, 通過分別控制推力的大小實現(xiàn)前進和轉(zhuǎn)向, 雖然浮體航向可以靈活調(diào)整, 但無法完成橫蕩運動。Paulos等[4]使用的浮體采用了四推進器方案, 推進器呈“X”型分布, 浮體可實現(xiàn)縱蕩、橫蕩和艏搖運動, 浮體的靈活性大大提高。Wang等[5]在浮體中使用了4個呈“+”型分布的推進器, 該浮體機動性強, 推進器效率更高。單浮體是一個多輸入、多輸出的非線性系統(tǒng), 多浮體拼接后動力學(xué)模型也發(fā)生了變化, 推進器數(shù)量隨著拼接浮體數(shù)量的增加而增多, 且浮體的工作環(huán)境復(fù)雜多變, 因此開發(fā)高性能控制器將面臨巨大的挑戰(zhàn)。Park等[1]利用四推進器浮體, 提出了一種多浮體可重構(gòu)的反饋控制系統(tǒng), 每個浮體都可以鎖定到其他浮體, 形成相連的剛性體, 提高了對環(huán)境的適應(yīng)能力。Wang等[5]提出了非線性模型預(yù)測控制(nonlinear model predictive control, NMPC)方案, 在室內(nèi)水池中進行了浮體運動控制的實驗。隨著理論和技術(shù)的逐步發(fā)展, 特別是在強化學(xué)習(xí)和深度學(xué)習(xí)方面, 無人系統(tǒng)的發(fā)展得到了極大的提升。Mnih等[6]提出了一個深度學(xué)習(xí)模型, 可以直接從高維感知輸入中學(xué)習(xí)控制策略, 該方法具備通用性, 但只能學(xué)習(xí)短時間內(nèi)的經(jīng)驗, 無法學(xué)習(xí)長時間的控制策略, 且網(wǎng)絡(luò)不一定能夠收斂, 需要對深度網(wǎng)絡(luò)的參數(shù)不斷進行優(yōu)化調(diào)整。Lu等[2]根據(jù)深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法提出了一種基于無模型強化學(xué)習(xí)控制器, 該控制器經(jīng)過反復(fù)的路徑跟蹤訓(xùn)練和實驗, 驗證了該方法具備路徑跟蹤和自主學(xué)習(xí)能力。Deisenroth等[7]提出一種學(xué)習(xí)控制的概率推理(pr- obabilistic inference learning to control, PILCO)方法, 基于模型強化學(xué)習(xí)算法在連續(xù)狀態(tài)動作域中實現(xiàn)了數(shù)據(jù)的高效利用, 可直接應(yīng)用于物理系統(tǒng)。Ramirez等[8]探討了基于PILCO算法學(xué)習(xí)控制欠驅(qū)動自主水下航行器的能力, 通過少量的現(xiàn)場實驗來優(yōu)化控制策略, 不足之處是未考慮給定模型與實際模型不一致的情況, 且仿真實驗中未考慮水流擾動對結(jié)果的影響?；跓o模型強化學(xué)習(xí)方法不需要建立模型, 智能體的所有決策都是通過與環(huán)境交互得到的, 需要大量試錯, 數(shù)據(jù)的利用率低, 而且當(dāng)環(huán)境發(fā)生變化時, 需要重新進行學(xué)習(xí), 不具備泛化能力。而基于模型強化學(xué)習(xí)方法可以利用已有的數(shù)據(jù)學(xué)習(xí)系統(tǒng)模型, 利用學(xué)習(xí)到的模型預(yù)測其他未知狀態(tài)。相比無模型強化學(xué)習(xí), 基于模型強化學(xué)習(xí)具有較強的泛化能力[9]。

文中以四推進器智能浮體的建模和控制器設(shè)計為核心展開研究, 將基于模型強化學(xué)習(xí)理論應(yīng)用于控制器設(shè)計中, 使浮體在有水流擾動或采用近似動力學(xué)模型的情況下, 通過少量實驗快速學(xué)習(xí)控制策略, 并完成定點控制及軌跡跟蹤的目標(biāo), 可為海上大型浮體協(xié)同控制提供參考。

1 智能浮體動力學(xué)模型建立

1.1 智能浮體推進器配置

使用四推進器的小型浮體進行實驗分析, 通過4個推進器的配合能夠確保浮體的靈活性和穩(wěn)定性。對浮體建立大地坐標(biāo)系和運動坐標(biāo)系O-XYZ, 系統(tǒng)結(jié)構(gòu)如圖2所示。

圖2 智能浮體系統(tǒng)結(jié)構(gòu)圖

文中的智能浮體由4個推進器(1～4)組成, 能夠完成縱蕩()、橫蕩()以及艏搖()運動, 推進器分別位于浮體4條邊的中點處, 呈“+”型分布, 如圖3所示, 箭頭指向表示推力正方向。

圖3 智能浮體推進器分布

對于智能浮體水平方向的控制有下述關(guān)系

1.2 動力學(xué)模型

根據(jù)Fossen[10]所提出的流體中剛體動力學(xué)公式, 建立浮體的動力學(xué)模型為

運動坐標(biāo)系向大地坐標(biāo)系的變換矩陣

運動坐標(biāo)系下智能浮體線速度和角速度向量

智能浮體慣性矩陣

假定運動坐標(biāo)系原點與浮體重心重合, 則智能浮體的科里奧利項與向心項的斜對稱矩陣

考慮智能浮體的運動速度較小, 且相對于長、寬的中軸線對稱, 則智能浮體流體阻力矩陣

通常當(dāng)浮體的航行速度較慢時, 可以將其的動力學(xué)模型近似為一個線性模型

經(jīng)變形可得

2 基于PILCO算法的控制器設(shè)計

2.1 PILCO算法基本原理

PILCO算法是基于模型的策略搜索方法, 把模型誤差納入考慮范圍, 將模型不確定性視為時間上不相關(guān)的噪聲, 它解決模型偏差的方法不是集中于一個單獨的動力學(xué)模型, 而是建立了概率動力學(xué)模型[8]。PILCO算法的層次結(jié)構(gòu)如圖4所示。

圖4 PILCO算法層次結(jié)構(gòu)圖

PILCO算法的結(jié)構(gòu)可分為以下3層。

1) 底層: 學(xué)習(xí)一個狀態(tài)轉(zhuǎn)移的概率模型。

假定系統(tǒng)的動力學(xué)模型表示為

PILCO算法的偽代碼表示如下:

2: loop;

3: 執(zhí)行控制策略;

4: 記錄收集的經(jīng)驗;

5: 學(xué)習(xí)概率動力學(xué)模型;

6: loop;

9: 進行策略優(yōu)化;

10: end loop;

11: end loop。

2.2 控制器設(shè)計

基于PILCO算法原理, 智能浮體的控制策略優(yōu)化分為以下2個階段。

1) 獲取初始控制策略

首先對給定模型加入隨機策略產(chǎn)生初始數(shù)據(jù), 并學(xué)習(xí)概率動力學(xué)模型。文中被控對象是四推進器的智能浮體, 在每一個控制周期產(chǎn)生的隨機控制策略定義為

2) 控制策略優(yōu)化

將初始控制策略應(yīng)用于實際智能浮體中, 將獲得的實際數(shù)據(jù)繼續(xù)訓(xùn)練概率動力學(xué)模型, 并通過策略搜索方法優(yōu)化控制策略, 從而獲得更好的控制效果。

為加快控制策略網(wǎng)絡(luò)的學(xué)習(xí)速度, 滿足實時性應(yīng)用的要求, 控制策略網(wǎng)絡(luò)采用徑向基函數(shù)(radical basis function, RBF)神經(jīng)網(wǎng)絡(luò)?？刂撇呗员硎緸?/p>

基于PILCO算法的控制器設(shè)計如圖5所示。概率動力學(xué)模型為高斯模型, 給定模型為被控對象建立的動力學(xué)模型, 在實際應(yīng)用中, 該模型與實際模型存在一定的誤差。

圖5 基于PILCO算法的控制器結(jié)構(gòu)框圖

由圖5可得, 初始狀態(tài)時=0, 對給定的動力學(xué)模型輸入隨機控制策略產(chǎn)生初始隨機數(shù)據(jù), 經(jīng)過訓(xùn)練獲得初始高斯模型; 策略搜索算法使成本函數(shù)最小以產(chǎn)生控制策略; 然后將置為1, 生成的策略在實際機器人模型上進行測試, 并獲得數(shù)據(jù)再次進行策略優(yōu)化。

2.3 NMPC與PILCO控制器對比

NMPC在工程上已有較成功的應(yīng)用, 該控制算法是經(jīng)典與現(xiàn)代控制的結(jié)合, 在處理多變量約束問題上是一種十分有效的方法[11]。NMPC的結(jié)構(gòu)框圖如圖6所示。

圖6 NMPC結(jié)構(gòu)框圖

對比圖5和圖6可知, NMPC與PILCO控制器的共同點是: 兩者均需要一個給定模型。NMPC控制器利用給定模型預(yù)測系統(tǒng)的未來響應(yīng); PILCO控制器利用給定模型獲取初始數(shù)據(jù), 并建立概率動力學(xué)模型。

當(dāng)給定模型與實際模型一致時, NMPC控制器的預(yù)測輸出與實際系統(tǒng)輸出相同, 通過在線優(yōu)化獲得較好的控制策略; PILCO控制器利用給定模型產(chǎn)生數(shù)據(jù)擬合一個概率動力學(xué)模型, 加快控制策略的學(xué)習(xí), 并優(yōu)化控制策略。

PILCO控制器提高了數(shù)據(jù)的利用率, 通過離線學(xué)習(xí)能夠不斷優(yōu)化控制策略; 而經(jīng)典的NMPC控制器在求解多變量非線性系統(tǒng)是一種有效方法, 但對給定模型的精度有一定的要求, 且模型精度越高, 控制效果越好。為驗證PILCO控制器在智能浮體運動控制上的有效性, 并展示PILCO控制器具備的學(xué)習(xí)能力, 設(shè)計仿真實驗對比NMPC控制器與PILCO控制器在智能浮體運動控制上的控制效果。

3 仿真實驗與分析

3.1 仿真條件

智能浮體的模型參數(shù)如表1所示[5], 流體阻尼公式的參數(shù)如表2所示。

表1 浮體模型參數(shù)

表2 流體阻尼公式參數(shù)

仿真實驗選用的電腦處理器為Intel Core i5- 3470 3.20 GHz, 內(nèi)存8 GB; MATLAB 2019b。

3.2 實驗設(shè)計

首先在算法結(jié)構(gòu)和訓(xùn)練過程上對比了PILCO算法與DDPG算法, 其次對浮體的運動控制設(shè)計了3組實驗, 對比了PILCO算法與NMPC算法的控制效果。

PILCO算法是一種基于模型強化學(xué)習(xí)算法, 可根據(jù)先驗知識建立的動力學(xué)模型大大提高數(shù)據(jù)的利用率及學(xué)習(xí)的速度。而DDPG算法是一種基于無模型強化學(xué)習(xí)算法, 可應(yīng)用于連續(xù)系統(tǒng)的控制中, 通過自學(xué)習(xí)對復(fù)雜控制任務(wù)具備較強的控制能力。但需要與環(huán)境不斷進行交互與試錯, 學(xué)習(xí)速度慢且對數(shù)據(jù)的利用率低[12]。在相同硬件條件下, DDPG算法應(yīng)用在智能浮體的運動控制上, 與PILCO算法的結(jié)果對比如表3所示。

表3 PILCO算法與DDPG算法對比

DDPG算法存在學(xué)習(xí)速度慢, 數(shù)據(jù)利用率低等問題, 而PILCO算法的優(yōu)勢在于:

1) 根據(jù)先驗知識對被控對象初步建立模型, 并從給定模型中產(chǎn)生訓(xùn)練數(shù)據(jù), 該方法大大提高了數(shù)據(jù)的利用率;

2) PILCO算法不直接對系統(tǒng)的動力學(xué)建模, 而是引入一個差分變量, 與直接學(xué)習(xí)函數(shù)值相比, 學(xué)習(xí)差分更有優(yōu)勢, 因為相鄰周期內(nèi), 狀態(tài)的變化較小, 學(xué)習(xí)差分近似于學(xué)習(xí)函數(shù)的梯度, 加快了學(xué)習(xí)的速度。

文中選擇PILCO算法設(shè)計強化學(xué)習(xí)控制器, 共設(shè)計了3組對比實驗, 分別是:

1) 當(dāng)給定的預(yù)測模型與真實系統(tǒng)模型一致, NMPC與PILCO控制器的定點控制與軌跡跟蹤仿真結(jié)果對比;

2) 在實驗1的基礎(chǔ)上, 在環(huán)境中加入在和方向、大小均為0.3 m/s的水流, 驗證在固定水流干擾下, 2種控制器的控制結(jié)果;

3) 考慮當(dāng)動力學(xué)模型建立不準(zhǔn)確時, 驗證PILCO控制器具備學(xué)習(xí)控制的能力。

NMPC控制器設(shè)計采用MATLAB提供的非線性模型預(yù)測控制工具箱, 具體參數(shù)如表4所示, 其他參數(shù)均使用工具箱默認(rèn)設(shè)置。

表4 NMPC控制器參數(shù)

3.2.1 靜水環(huán)境

由圖7可知, 當(dāng)預(yù)測模型及給定模型與實際模型一致, NMPC與PILCO控制器均能較好地控制智能浮體到達(dá)目標(biāo)位置, 這表明了PILCO控制器在給定模型精確的情況下, 通過策略搜索獲得的初始策略能夠完成定點控制的目標(biāo), 且控制效果與NMPC控制器的結(jié)果接近。

圖7 給定模型與實際模型一致時仿真結(jié)果對比曲線

在無水流干擾時, PILCO控制器在初始控制策略下具備一定的軌跡跟蹤能力。當(dāng)給定跟蹤目標(biāo)為正弦軌跡時, NMPC控制器與PILCO控制器的仿真結(jié)果如圖8所示。

圖8 無水流干擾時跟蹤正弦軌跡曲線

由圖8可知, 在沒有水流干擾且給定目標(biāo)軌跡為正弦軌跡時, NMPC控制器與PILCO控制器的控制誤差均較小, 控制效果接近, 均能夠完成軌跡跟蹤的目標(biāo)。通過在靜水環(huán)境中2組仿真實驗可以得到: 當(dāng)給定模型與真實模型一致時, PILCO控制器具備較好的控制性能, 可以完成定點控制和軌跡跟蹤的目標(biāo)。

3.2.2 水流擾動環(huán)境

圖9 0.3 m/s水流擾動下仿真結(jié)果對比曲線

由圖9分析可得, 當(dāng)浮體受到水流擾動時, 水流大小0.3 m/s, 根據(jù)流體阻尼公式計算可得, 水流對浮體產(chǎn)生的阻力最大達(dá)到4.32 N, 而推進器在同一方向最大推力為10 N, 水流最大阻力占推進器最大推力的43.2%。在給定模型中未考慮水流干擾模型, 通過仿真分析可得, NMPC控制器由于存在較大的環(huán)境擾動, 不能準(zhǔn)確到達(dá)目標(biāo)位置, 在,及航向角控制上均存在一定的穩(wěn)態(tài)誤差, 而PILCO控制器經(jīng)過對運行數(shù)據(jù)的收集并學(xué)習(xí)后, 能夠克服環(huán)境擾動到達(dá)目標(biāo)位置, 且穩(wěn)態(tài)誤差小于0.1 m, 運動路徑也接近起點至終點的直接路徑。

浮體跟蹤正方形軌跡比跟蹤正弦軌跡更有挑戰(zhàn), 分析圖10可得, 在有水流干擾情況下, 浮體共進行了5次實驗。第1次跟蹤目標(biāo)軌跡存在較大誤差, 通過對控制策略的優(yōu)化, 浮體的運動軌跡逐漸接近參考軌跡, 能夠完成跟蹤正方形軌跡的目標(biāo)。這表明PILCO控制器具備一定的學(xué)習(xí)控制能力, 能夠通過對控制策略的不斷優(yōu)化, 克服環(huán)境的擾動并獲得更優(yōu)的運動軌跡。

圖10 跟蹤正方形軌跡學(xué)習(xí)結(jié)果

3.2.3 給定模型為近似模型

模型預(yù)測控制需要一個描述對象動態(tài)行為的模型, 該模型的作用是預(yù)測系統(tǒng)未來的動態(tài), 所以經(jīng)典NMPC控制器對給定模型有一定要求, 模型越精確控制效果越好。然而, 對智能浮體的精確建模存在一定的困難, 在該仿真實驗中, 討論了當(dāng)動力學(xué)模型簡化為線性模型時, PILCO控制器的學(xué)習(xí)控制能力。

圖11 給定模型與實際模型不一致時仿真結(jié)果對比曲線

分析圖11可得, 如果內(nèi)部模型建立不準(zhǔn)確或者僅以一個線性模型做近似替代, NMPC控制器的控制將不能完成定點控制的任務(wù), 而PILCO控制器能夠完成定點控制的目標(biāo), 并獲得較好的控制效果, 表明了PILCO控制器不依賴被控對象的精確模型, 即便模型誤差較大, PILCO控制器也能夠在運行過程中快速學(xué)習(xí)到控制策略。PILCO控制器學(xué)習(xí)過程代價函數(shù)的變化如圖12所示。

圖12 PILCO學(xué)習(xí)過程代價函數(shù)變化曲線

由圖12可得, 在給定模型與實際模型有較大差異的情況下, PILCO控制器能夠在運行過程中不斷學(xué)習(xí), 代價函數(shù)值逐漸變小, 表明智能浮體的運動軌跡越接近目標(biāo)軌跡。經(jīng)過15次的訓(xùn)練后, PILCO控制器已經(jīng)達(dá)到一個較好的控制效果, 而NMPC控制器在預(yù)測模型存在較大誤差時, 不能準(zhǔn)確到達(dá)目標(biāo)位置。

4 結(jié)束語

為提高智能浮體的靈活性, 使其具備一定學(xué)習(xí)控制的能力, 文中采用了一種基于PILCO算法的控制器設(shè)計方法, 研究了PILCO算法在控制過驅(qū)動智能浮體的適用性, 并在MATLAB上進行了仿真驗證。采用的控制器把模型誤差納入考慮范圍, 建立了概率動力學(xué)模型, 提高了浮體的自適應(yīng)性。針對水流擾動、模型建立不準(zhǔn)確的情況, 提供一種解決浮體運動控制問題的新思路。對比PILCO控制器與NMPC控制器的控制結(jié)果可得: 在靜水和水流干擾情況下, PILCO控制器可以在少量的實驗中使浮體學(xué)習(xí)到控制策略, 完成定點控制, 并且具備較好的軌跡跟蹤能力; 當(dāng)被控對象以簡單的線性系統(tǒng)代替非線性系統(tǒng)時, 該控制器經(jīng)過一定次數(shù)的學(xué)習(xí), 能夠不斷優(yōu)化控制策略, 提高了控制器性能。下一步將對該控制器在真實浮體中進行實物測試, 并進行多浮體的協(xié)同控制研究。

[1] Park S, Kayacan E, Ratti C, et al.Coordinated Control of a Reconfigurable Multi-vessel Platform: Robust Control Approach[C]//2019 International Conference on Robotics and Automation(ICRA).Montreal, Canada: IEEE, 2019.

[2] Lu Y, Zhang G, Qiao L, et al.Adaptive Output-feedback Formation Control for Underactuated Surface Vessels[J].International Journal of Control, 2020, 93(3): 400-409.

[3] Woo J, Yu C, Kim N.Deep Reinforcement Learning-based Controller for Path Following of an Unmanned Surface Vehicle[J].Ocean Engineering, 2019, 183: 155-166.

[4] Paulos J, Eckenstein N, Tosun T, et al.Automated Self-assembly of Large Maritime Structures by a Team of Robotic Boats[J].IEEE Transactions on Automation Science and Engineering, 2015, 12(3): 958-968.

[5] Wang W, Mateos L A, Park S, et al.Design, Modeling, and Nonlinear Model Predictive Tracking Control of a Novel Autonomous Surface Vehicle[C]//2018 IEEE International Conference on Robotics and Automation(ICRA).Brisbane, Australia: IEEE, 2018: 6189-6196.

[6] Mnih V, Kavukcuoglu K, Silver D, et al.Playing Atari with Deep Reinforcement Learning[J].arXiv, (2013-12-19) [2021-09-01].https://arxiv.org/abs/1312.5602.

[7] Deisenroth M, Rasmussen C E.PILCO: A Model-based and Data-efficient Approach to Policy Search[C]// Proceedings of the 28th International Conference on Machine Learning(ICML-11).Bellevue, Washington, USA: ICML, 2011: 465-472.

[8] Ramirez W A, Leong Z Q, Nguyen H D, et al.Exploration of the Applicability of Probabilistic Inference for Learning Control in Underactuated Autonomous Underwater Vehicles[J].Autonomous Robots, 2020, 44(6): 1121-1134.

[9] 郭憲.深入淺出強化學(xué)習(xí): 原理入門[M].北京: 電子工業(yè)出版社, 2018.

[10] Fossen T I.Guidance and Control of Ocean Vehicles[M].New Jersey: John Wiley & Sons, 1994.

[11] 陳虹, 劉志遠(yuǎn), 解小華.非線性模型預(yù)測控制的現(xiàn)狀與問題[J].控制與決策, 2001, 16(4): 385-391.

Chen Hong, Liu Zhi-yuan, Xie Xiao-hua.Nonlinear Model Predictive Control: The State and Open Problems[J].Control and Decision, 2001, 16(4): 385-391.

[12] Lillicrap T P, Hunt J J, Pritzel A, et al.Continuous Control with Deep Reinforcement Learning[EB/OL].ArXiv, (2015 -09-01) [2021-09-01].https://www.researchgate.net/publ- ication/281670459_Continuous_control_with_deep_rein- forcement_learning.

Motion Control Method of Autonomous Surface Vehicle Based on the PILCO Algorithm

ZHANG Shang1, YANG Rui1,2, CHEN Zhen1,2, LI Ming1,2

(1.College of Engineering, Ocean University of China, Qingdao 266100, China; 2.Shandong Marine Intelligent Equipment Technology Engineering Research Center, Qingdao 266100, China)

A highly autonomous, flexible, and reconfigurable autonomous surface vehicle(ASV) must be developed to fulfill the needs for ocean exploration.In this study, an ASV composed of four thrusters is analyzed by establishing the dynamic model of the ASV, designing its controller based on the probabilistic inference learning to control(PILCO) algorithm, and conducting simulation experiments of fixed-point control and trajectory tracking.The simulation results show that the ASV model can autonomously learn the control strategy in a small number of experiments and realize motion control during a water flow disturbance or when using an approximate dynamic model, thereby verifying the effectiveness of the proposed algorithm.

autonomous surface vehicle(ASV); probabilistic inference learning to control(PILCO); fixed-point control; trajectory tracking

張尚, 楊睿, 陳震, 等.一種基于PILCO算法的智能浮體運動控制方法[J].水下無人系統(tǒng)學(xué)報, 2021, 29(5): 541- 549.

U674.38; TP242.6;TP181

2096-3920(2021)05-0541-09

10.11993/j.issn.2096-3920.2021.05.005

2020-10-20;

2020-12-17.

國家自然科學(xué)基金項目資助(51709245); 國家重點研究發(fā)展計劃項目資助(2017YFC1405203).

張尚(1996-), 男, 在讀碩士, 主要研究方向為海上可重構(gòu)智能浮體控制系統(tǒng)研究.

(責(zé)任編輯: 楊力軍)