亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        仿蝠鲼航行器游動規(guī)律智能控制與優(yōu)化方法

        2022-01-19 05:18:10魏旭飛劉洲陽魏先利
        數(shù)字海洋與水下攻防 2021年6期
        關鍵詞:胸鰭游動航行

        魏旭飛,劉洲陽,魏先利

        (航天科工集團第三研究院水下裝備總體部,北京 100074)

        0 引言

        海洋中的魚類等生物經(jīng)歷了億萬年的演化,在水下運動和環(huán)境適應能力上展現(xiàn)出優(yōu)越特性,研究人員“道法自然”,開展了大量仿生水下航行器的研究[1-3]。然而,受限于傳感器、材料、結構和控制等技術,仿生水下航行器相較于真實魚類在許多指標上還有較大差距。以推進效率為例,依靠尾和鰭的協(xié)調(diào)運動,普通魚類的推進效率可達80%,鲹科魚類則超過90%,而普通螺旋槳推進器的平均效率僅為 40%~50%[4]。因此,如何提高游動性能已經(jīng)成為仿生水下航行器領域一個重要的科學問題。

        游動性能的提升涉及水動力構形、結構機構、驅(qū)動方式、運動控制等多學科的優(yōu)化,是個非常復雜的耦合問題。Anderson設計了升沉和俯仰2個自由度的二維平板擺動實驗,通過測量尾鰭輸入和輸出的功率來計算推進效率,證明了仿生機器魚推進效率優(yōu)于傳統(tǒng)機械方式[5]。哈工程的蘇玉民團隊從水動力性能出發(fā),通過計算流體力學仿真發(fā)現(xiàn)調(diào)整弦向變形相位角可以使尾鰭節(jié)省能量[6]。中科院自動化所喻俊志團隊從驅(qū)動裝置優(yōu)化的角度出發(fā),設計曲柄滑塊裝置,避免了電機因不斷加速和減速而造成的能量損失,從而提升了性能[7]。北航梁建宏團隊通過水動力學定性觀察和定量測量實驗發(fā)現(xiàn)游動能耗會隨著擺動頻率和相對波長的增大而增大[8]。國防科大王光明團隊通過樣機試驗研究了波動鰭條結構、鰭面材料、擺動頻率和波形數(shù)目對波動鰭推進效果的影響,發(fā)現(xiàn)擺動頻率和幅值對推進性能影響最大[9]。

        可以發(fā)現(xiàn),目前仿生游動性能的研究主要采用計算流體力學和樣機試驗方法,通過人為控制各運動參數(shù)來探究游動性能的影響因素,獲得的往往是一套固化的游動參數(shù)。然而,真實魚類的游動規(guī)律會隨著水下環(huán)境的變化而變化,若采用固化的游動規(guī)律,仿生航行器的表現(xiàn)顯然是差強人意的。為了解決這一問題,本文將采用深度強化學習(deep reinforcement learning,DRL)方法,在初始游動規(guī)律的基礎上進一步挖掘仿生航行器游動性能的提升空間,通過仿生航行器的自我試錯,在游動參數(shù)空間中學習高效的游動策略。

        1 深度強化學習訓練環(huán)境

        訓練環(huán)境主要包括航行器運動特性的模擬,狀態(tài)空間、動作空間與回報函數(shù)的設計,并承擔著數(shù)據(jù)歸一化、游動性能評價、回報函數(shù)計算等作用。

        1.1 仿蝠鲼運動模型

        仿蝠鲼航行器通過柔性胸鰭擺動提供矢量推力實現(xiàn)機動航行。胸鰭運動可簡化為沿展向的周期性擺動運動和沿弦向的周期性扭轉(zhuǎn)運動,其數(shù)學描述如下:

        式中:下標flap代表擺動;θflap(t)為t時刻的擺動角;Aflap為胸鰭最大擺幅;fflap為胸鰭擺動頻率;φ0flap為胸鰭擺動初始時刻相位,Bflap為胸鰭擺動角偏置;下標twist代表扭轉(zhuǎn);θtwist(t)為t時刻的扭轉(zhuǎn)角;Atwist為胸鰭最大扭幅;ftwist為胸鰭扭轉(zhuǎn)頻率;φ0twist為胸鰭扭轉(zhuǎn)初始時刻相位;Btwist為胸鰭扭轉(zhuǎn)角偏置;Δφ是胸鰭扭轉(zhuǎn)角初始相位與擺動角初始相位的差值,簡稱扭擺相位差。

        1.2 狀態(tài)量和動作量設計

        仿蝠鲼航行器的游動過程可用馬爾科夫決策過程建模描述??紤]仿蝠鲼航行器智能體與環(huán)境的交互軌跡:

        式中:st表示t時刻智能體的狀態(tài);at表示t時刻智能體執(zhí)行的動作。對于深度強化學習而言,選取何種狀態(tài)量作為智能體的觀測進行訓練直接影響算法的收斂能力,需要精心設計。為充分描述航行器前向游動狀態(tài),本文選取5維向量st=[dvx,vx,vy,?,wz]作為狀態(tài)量,包括期望前向速度與當前前向速度的差dvx、前向速度vx、航行器y軸速度vy、俯仰角?和俯仰角速度wz。其中各參數(shù)的取值范圍及含義詳見表1所示。

        表1 智能體觀測狀態(tài)量Tab.1 Observation variables of the agent

        考慮到設計目標是提升航行器直航過程中的游動性能,為了降低問題的維度,減少不必要的試錯成本,本文選用左右胸鰭對稱運動的方式。此外,為降低仿蝠鲼航行器往復的俯仰運動對游動平穩(wěn)性的影響,設計PD控制器以期望俯仰角為零進行俯仰控制。綜上,本文選取at=[Aflap,Atwist,Δφ]作為智能體的動作量,包括胸鰭擺幅Aflap,胸鰭扭幅Atwist和扭擺相位差Δφ,各動作量的取值范圍和含義如表2所示。

        表2 環(huán)境模型動作量Tab.2 Action variables of environment model

        此外,胸鰭的運動頻率設置為fflap=ftwist=0.5 Hz,擺動角偏置Bflap和扭轉(zhuǎn)角偏置Btwist設置為 0°。為降低數(shù)據(jù)的方差,提高深度神經(jīng)網(wǎng)絡收斂速度,狀態(tài)量和動作量在送入深度神經(jīng)網(wǎng)絡前進行歸一化處理,將其取值歸一化到[-1,1]范圍內(nèi)。

        1.3 回報函數(shù)設計

        回報函數(shù)設計是深度強化學習研究中的重要環(huán)節(jié),需要根據(jù)任務進行人工設計和調(diào)優(yōu)。本文選用如下的直航游動性能評價方式:

        基于上述評價方式,回報函數(shù)設計如下:

        式中:W為航行器在一個周期內(nèi)航行所耗費的功;reward0為回報函數(shù)基準;0.35是期望速度,m/s。

        2 基于DDPG的仿蝠鲼航行器游動性能優(yōu)化控制

        DDPG算法非常適合解決連續(xù)動作空間問題[10],在此基礎上,本文利用經(jīng)驗回放池(replay experience buffer)和預熱輪(warm up)方式提高樣本利用率,改善DDPG的學習能力。

        2.1 算法結構

        DDPG由4個網(wǎng)絡組成,分別是:Actor當前網(wǎng)絡、Actor目標網(wǎng)絡、Critic當前網(wǎng)絡、Critic目標網(wǎng)絡。為了穩(wěn)定學習過程,采用軟更新機制更新網(wǎng)絡參數(shù),即

        為了增加算法的探索性,DDPG的動作A會增加噪聲N:

        Critic當前網(wǎng)絡的損失函數(shù)是:

        Actor當前網(wǎng)絡的損失函數(shù)是:

        2.2 訓練樣本

        經(jīng)驗回放池replay buffer的總存儲量1 000 000,在warm up至其中有256個樣本后開始訓練。每批次在 replay buffer中隨機選取 128個樣本進行學習,取訓練總步數(shù)為500 000。

        2.3 控制模型設計

        控制算法模型為多層感知機。Actor網(wǎng)絡采用節(jié)點數(shù)分別為64和32的兩層全連接隱層,激活函數(shù)使用Relu。輸出層選用全連接層,維度為3,激活函數(shù)選用 tanh,保證 Actor網(wǎng)絡的輸出在-1~1之間。Actor網(wǎng)絡使用Adam優(yōu)化器進行參數(shù)優(yōu)化,學習率0.001。

        Critic網(wǎng)絡采用節(jié)點數(shù)分別為64和32的兩層全連接隱層,激活函數(shù)使用Relu。輸出層為狀態(tài)-動作值Q,維度為1。Critic網(wǎng)絡使用Adam優(yōu)化器進行參數(shù)優(yōu)化,學習率0.001。

        同經(jīng)典 DDPG算法一致,本文使用目標網(wǎng)絡增強神經(jīng)網(wǎng)絡收斂的穩(wěn)定性,取更新系數(shù)τ= 0.001。在控制策略探索方面,為保證算法具有一定的探索性,在歸一化的動作量上添加期望為 0,方差為ε= 0.1的高斯噪聲。

        2.4 訓練周期

        仿蝠鲼航行器選取 0.5 Hz的胸鰭運動頻率,胸鰭控制信號 1 s更新一次,尾鰭控制信號 0.1 s更新一次。為了更加準確地評估胸鰭運動方式對游動性能的影響,強化學習的步長與胸鰭運動周期保持一致。航行器運動5個周期構成一次訓練輪次。

        2.5 終止條件設計

        每輪訓練的終止條件是完成全程航行或失穩(wěn)。

        完成全程航行主要根據(jù)該輪次的終止時間判斷,若終止時間等于該輪次的設計航行總時間則判定航行器成功完成全程航行。

        失穩(wěn)判定主要依據(jù)姿態(tài)角和速度,標準為

        當一輪訓練終止而當前訓練總步數(shù)未達設計訓練總步數(shù)時,重置環(huán)境,開始新一輪訓練。

        3 訓練及仿真試驗結果

        3.1 訓練結果分析

        訓練持續(xù)2 000步左右時模型收斂,繼續(xù)訓練到45 000步提前終止訓練,圖1為訓練過程中回報函數(shù)值隨訓練步數(shù)變化曲線。

        圖1 訓練過程中回報函數(shù)值變化情況Fig.1 Variation of train reward during training

        圖2為訓練過程中每隔100步進行測試的回報函數(shù)曲線,可以看出神經(jīng)網(wǎng)絡模型的收斂較為穩(wěn)定,即使因為隨機樣本導致學習偶爾進入局部最優(yōu)也能很快恢復到較好的水平。

        圖2 訓練過程中測試時的回報函數(shù)值變化情況Fig.2 Variation of evaluate reward during training

        3.2 控制結果分析

        為評估神經(jīng)網(wǎng)絡控制模型的控制效果,首先考察基準控制策略的控制效果。以擺幅30°,扭幅30°,相位差90°這一固化游動控制策略作為基準進行控制仿真。仿真中取初速度0.35 m/s,仿真40 s,過程中狀態(tài)量變化情況如圖3所示。從圖中可以看出,航行器平均速度約為0.32 m/s,俯仰角在±30°以內(nèi)。

        圖3 基準控制策略下系統(tǒng)狀態(tài)變化情況Fig.3 System state variation during baseline swimming strategy

        圖4展示了胸鰭擺動和扭轉(zhuǎn)運動的實際變化情況,其中上方為實時控制指令,下方為經(jīng)過舵機模型后的實際執(zhí)行指令,相比實時控制指令存在一個較小的延遲??梢钥闯?,航行器胸鰭擺動和扭轉(zhuǎn)均以正弦形式運動,運動曲線平滑連續(xù)。

        圖4 基準控制策略控制擺幅和扭幅實際值Fig.4 Variation of the amplitude of flap and the amplitude of twist during baseline swimming strategy

        經(jīng)統(tǒng)計,在基準游動控制策略下,航行器平均速度0.325 7 m/s,游動能效為0.052 7 m/J。

        接下來驗證基于DRL的控制模型。令航行器以初速度0.35 m/s開始航行40 s,完成任務后查看航行狀態(tài),統(tǒng)計平均游速和游動能效值。

        圖5展示了收斂后的神經(jīng)網(wǎng)絡模型控制狀態(tài)變化。從圖中可以看出,航行器平均速度在0.4 m/s附近,俯仰角保持在±40°以內(nèi)。3個執(zhí)行機構的可控維度均參與了控制,擺幅在12°~30°之間變化,扭幅變化不大,基本維持在 30°附近,相位差在125°~180°之間變化。

        圖5 神經(jīng)網(wǎng)絡模型系統(tǒng)狀態(tài)變化情況及動作量)Fig.5 The variation of system state and action during NN-based swimming strategy

        圖6展示了胸鰭擺動和扭轉(zhuǎn)運動的實際變化情況,其中上方為實時控制指令,下方為經(jīng)過舵機模型后的實際執(zhí)行指令??梢钥闯?,航行器胸鰭擺動和扭轉(zhuǎn)均以正弦形式運動,運動曲線在指令切換時存在較小的抖動但仍處于可用狀態(tài)。

        圖6 神經(jīng)網(wǎng)絡模型控制擺幅和扭幅實際值Fig.6 The variation of flap amplitude(left)and twist amplitude(right)during NN-based swimming strategy

        經(jīng)統(tǒng)計,在基于DDPG的游動控制策略下,航行器平均速度0.372 8 m/s,游動能效為0.065 6 m/J。相比基準游動控制策略,航行速度提升0.047 1 m/s(14.46%),游動能效提升0.012 9 m/J(24.48%)。

        4 結束語

        本文從控制策略優(yōu)化的角度出發(fā),以仿蝠鲼航行器為研究對象,使用基于DDPG的DRL方法對直航游動規(guī)律進行優(yōu)化。訓練完成后與固化的游動策略進行了比較,在 40 s的游動時間內(nèi),優(yōu)化后的游動策略在航行速度上相比基準游動控制策略提升了14.46%,在游動能效上降低了24.48%,在降低能量消耗的同時獲取了更快的前向游速,從而實現(xiàn)了游動性能的提升。該方法同樣適用于其他仿生推進方式的水下航行器游動規(guī)律優(yōu)化設計。

        猜你喜歡
        胸鰭游動航行
        仿牛鼻鲼機器魚倒游性能胸鰭結構設計與實驗
        永不停歇的魚
        到慧骃國的航行
        球軸承用浪型保持架徑向游動量的測量
        哈爾濱軸承(2021年1期)2021-07-21 05:43:16
        把手放進袋子里
        小學科學(2020年11期)2020-03-04 11:39:00
        金魚如何辨雌雄
        小舟在河上航行
        中學生英語(2017年6期)2017-07-31 21:28:55
        機器鱈魚胸鰭/尾鰭協(xié)同推進直線游動動力學建模與實驗研究
        船舶力學(2017年5期)2017-06-05 14:14:11
        “水中飛鳥”:豹魴鮄
        科學Fans(2017年3期)2017-04-13 07:32:13
        航行
        青年歌聲(2017年6期)2017-03-13 00:57:56
        欧美村妇激情内射| 人妻av中文字幕精品久久| 日本女优中文字幕在线播放| 麻豆亚洲av熟女国产一区二| 久久久无码中文字幕久...| 精品亚洲国产探花在线播放| 蜜桃在线观看视频在线观看| 日韩乱码中文字幕在线| 无码国模国产在线观看| 日日摸夜夜欧美一区二区| 91九色国产在线观看| 日韩av一区二区网址| 亚洲色精品aⅴ一区区三区| 国产白丝网站精品污在线入口| 丝袜美腿av免费在线观看| 中文字幕国产精品一二三四五区 | av 日韩 人妻 黑人 综合 无码| 亚洲中文字幕无码中字| 视频精品亚洲一区二区| 亚洲精品成人网线在线播放va| 一二三四在线观看韩国视频| 精品无码久久久久久久久| 国产精品久久久| 国产亚洲欧美在线播放网站| 精品私密av一区二区三区| 久久久久av无码免费网| 亚洲自拍另类制服在线| 亚洲一本之道高清在线观看| 国产精品人成在线观看免费| 人妻精品动漫h无码网站| 日本女优中文字幕看片| 青青草视频在线观看精品在线| 国精品人妻无码一区二区三区性色| а中文在线天堂| 久久精品国产亚洲av高清蜜臀 | 日韩人妻无码一区二区三区| 亚洲激情人体艺术视频| 亚洲国产国语对白在线观看| 亚洲av无码乱码在线观看裸奔 | 国产又爽又黄又不遮挡视频| 亚洲免费女女在线视频网站|