亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于課程式雙重DQN的水下無人航行器路徑規(guī)劃

        2022-08-04 09:28:02王瑩瑩周佳加管鳳旭
        實(shí)驗(yàn)室研究與探索 2022年3期
        關(guān)鍵詞:障礙物航行規(guī)劃

        王瑩瑩, 周佳加, 高 峰, 管鳳旭

        (哈爾濱工程大學(xué) 智能科學(xué)與工程學(xué)院, 哈爾濱 150001)

        0 引 言

        水下無人航行器(Unmanned Underwater Vehicle, UUV)的工作環(huán)境中存在著大量的干擾因素,如海岸、大小島嶼、海上漂浮物、暗礁、來往船只、風(fēng)浪流等[1]。為了保證UUV在復(fù)雜工作環(huán)境下的安全性,自主路徑規(guī)劃能力就顯得非常重要。但是,受到路徑規(guī)劃智能技術(shù)的發(fā)展限制,自主路徑規(guī)劃難以適應(yīng)于動態(tài)、復(fù)雜的環(huán)境[2]。這導(dǎo)致UUV的避碰系統(tǒng)無法滿足實(shí)際環(huán)境下的工作需要。

        對于UUV來說,路徑規(guī)劃是最重要的自主航海技術(shù)之一,路徑規(guī)劃的目的是避免與靜態(tài)或運(yùn)動障礙物相撞以確保安全。典型的運(yùn)動規(guī)劃方法包括:智能優(yōu)化方法[3]、啟發(fā)式搜索方法[4]、模糊邏輯方法[5]、神經(jīng)網(wǎng)絡(luò)方法[6]、人工勢場法等。智能優(yōu)化算法適合解決類似路徑規(guī)劃的復(fù)雜優(yōu)化問題。遺傳算法[7],模擬退火算法是具有代表性的智能優(yōu)化算法。Singh等[8]提出了一種A*方法,設(shè)計(jì)了圓形邊界包圍無人水面艇(Unmanned Surface Vehicle, USV),以此生成最佳航路點(diǎn)的安全距離約束,從而解決了USV在海上環(huán)境中的運(yùn)動規(guī)劃問題。Oral等[9]提出了一種新的增量搜索算法,該算法擴(kuò)展了D*算法,提出的增量搜索算法可以在多個目標(biāo)的條件下優(yōu)化路徑質(zhì)量。Sun等[10]針對模糊邊界選擇的主觀性,所產(chǎn)生的路徑不能保證是最優(yōu)的問題,比較了兩種優(yōu)化方法來進(jìn)行模糊集的優(yōu)化,在水下三維環(huán)境下生成了最優(yōu)的3D路徑。Solari等[11]基于掃描聲吶的聲特征,研究了人工勢場方法在水下無人航行器避障中的應(yīng)用。在不同環(huán)境下進(jìn)行了模擬測試,證明了該方法在水下無人航行器的避障系統(tǒng)中的可行性。Li等[12]針對特征值較小區(qū)域的地形匹配精度低的問題,提出了一種自主水下航行器最優(yōu)路徑規(guī)劃方法。該方法引入了由反向傳播神經(jīng)網(wǎng)絡(luò)計(jì)算的聯(lián)合判據(jù)和模糊判據(jù),并通過仿真實(shí)驗(yàn)證明了可行性。

        隨著UUV所擔(dān)負(fù)的科研、軍事任務(wù)日益復(fù)雜,從而對UUV的運(yùn)動規(guī)劃能力也提出更高的要求[13],多層級決策融合、提升智能水平成為UUV運(yùn)動規(guī)劃技術(shù)的重要發(fā)展趨勢和研究方向[14]。近年來,強(qiáng)化學(xué)習(xí)算法常常與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合來解決序列決策問題。深度強(qiáng)化學(xué)習(xí)算法[15]已被用于解決復(fù)雜和不確定環(huán)境中的許多任務(wù)。深度強(qiáng)化學(xué)習(xí)在解決路徑規(guī)劃和實(shí)時避障問題上具有很強(qiáng)的潛力。

        1 課程式強(qiáng)化學(xué)習(xí)理論基礎(chǔ)

        1.1 強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)是基于“行為”的學(xué)習(xí)過程,它是通過學(xué)習(xí)系統(tǒng)與環(huán)境的直接交互進(jìn)行的。強(qiáng)化學(xué)習(xí)系統(tǒng)的響應(yīng)采用標(biāo)量獎勵或回報來評估,以表明其對環(huán)境的響應(yīng)是否適當(dāng),然后系統(tǒng)根據(jù)這個標(biāo)量進(jìn)行自我調(diào)整,從而提高未來的性能。

        如圖1所示,強(qiáng)化學(xué)習(xí)問題常用智能體—環(huán)境來研究,在本文中,智能體就是UUV。

        圖1 智能體—環(huán)境系統(tǒng)示意圖

        在時刻t,從狀態(tài)St=s和動作At=a跳轉(zhuǎn)到下一狀態(tài)St+1=s′和獎勵Rt+1=r的過程中,獎勵Rt+1和下一狀態(tài)St+1僅僅依賴于當(dāng)前的狀態(tài)St和動作At,而不依賴于更早的狀態(tài)和動作。這樣的性質(zhì)稱之為馬爾可夫性。這意味著當(dāng)前狀態(tài)包含了可能對未來產(chǎn)生影響的所有信息。強(qiáng)化學(xué)習(xí)的核心概念是獎勵,強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化長期的獎勵。回報Gt可以定義為未來獎勵的和:Gt=Rt+1+Rt+2+…+RT。

        1.2 課程式學(xué)習(xí)

        課程式學(xué)習(xí)主要思想是模仿人類學(xué)習(xí)的特點(diǎn),主張讓模型先從容易的樣本開始學(xué)習(xí),并逐漸進(jìn)階到復(fù)雜的樣本和任務(wù)。在訓(xùn)練過程中,對樣本進(jìn)行權(quán)重動態(tài)分配,課程初始階段簡易樣本居多,課程末尾階段樣本難度增加。課程式學(xué)習(xí)對于機(jī)器學(xué)習(xí)有如下兩個層面的幫助:① 在達(dá)到相同的模型性能條件下,課程式學(xué)習(xí)可以有效加速機(jī)器學(xué)習(xí)模型的訓(xùn)練,減少訓(xùn)練迭代步數(shù)。② 可以使模型獲得更好的泛化性能,即能讓模型訓(xùn)練到更好的局部最優(yōu)值狀態(tài)。先用簡單的知識訓(xùn)練對模型的提高會有幫助,并且簡單的知識學(xué)得越好,則對模型最終的泛化性能越有利。

        1.3 目標(biāo)網(wǎng)絡(luò)與經(jīng)驗(yàn)回放

        目標(biāo)網(wǎng)絡(luò)是在原有的神經(jīng)網(wǎng)絡(luò)之外再搭建一份結(jié)構(gòu)完全相同的網(wǎng)絡(luò),原神經(jīng)網(wǎng)絡(luò)稱為評估網(wǎng)絡(luò)。具有雙網(wǎng)絡(luò)結(jié)構(gòu)的Q學(xué)習(xí)算法稱為雙重深度Q學(xué)習(xí)網(wǎng)絡(luò)(Double Deep Q Network, Double DQN)算法。

        經(jīng)驗(yàn)回放是一種讓經(jīng)驗(yàn)的概率分布變得穩(wěn)定的技術(shù),它能提高訓(xùn)練的穩(wěn)定性。經(jīng)驗(yàn)回放主要有“存儲”和“采樣回放”兩大關(guān)鍵步驟。存儲是指將軌跡以(St,At,Rt+1,St+1)等形式儲存起來;采樣回放是指使用某種規(guī)則從存儲的(St,At,Rt+1,St+1)中隨機(jī)取出一條或多條經(jīng)驗(yàn)。經(jīng)驗(yàn)回放有以下好處:在訓(xùn)練Q網(wǎng)絡(luò)時,可以消除數(shù)據(jù)的關(guān)聯(lián),使得數(shù)據(jù)更像是獨(dú)立同分布的。這樣可以減少參數(shù)更新的方差,加快收斂。

        2 UUV路徑規(guī)劃模型設(shè)計(jì)

        2.1 環(huán)境狀態(tài)模型

        (1)

        式中,(xob0,yob0)為障礙物初始位置;(xobt,yobt)為t時刻障礙物位置;mod(t,tback)是取余函數(shù),得到的是t整除tback之后的余數(shù)。用上述方法可以表示環(huán)境中的障礙物信息,然而這些信息UUV是不知道的,它只能憑借聲吶的返回值來確定某個方向上障礙物和船體的距離來做實(shí)時避障規(guī)劃。

        水下環(huán)境信息感知手段采用多波束前視聲吶,由換能器陣列經(jīng)過相控發(fā)射與信號接收,同一層的 91 條波束與UUV保持相同的相對縱傾,對應(yīng)于 91個相對航向。前視聲吶探測信息表現(xiàn)為極坐標(biāo)形式,包括障礙物與 UUV 的相對航向、相對縱傾和相對距離。為了適用于路徑規(guī)劃和提高計(jì)算效率,將聲吶探測數(shù)據(jù)簡化為:前向100°的扇形區(qū)域每隔10°劃分一個區(qū)域,一共發(fā)射11條波束,離散化處理后聲吶探測的返回值d={d0,d1,…,d10},其中di表示探測范圍內(nèi)障礙物和UUV的相對距離。

        除了考慮障礙物信息以外,全局規(guī)劃需要考慮UUV與目標(biāo)點(diǎn)的相對關(guān)系,在實(shí)際操作中,關(guān)于目標(biāo)點(diǎn)的位置是提前已知的,而UUV的布放位置也是已知的,因此,可以在初始化階段就算出目標(biāo)點(diǎn)和UUV的相對位置關(guān)系:

        (2)

        式中:(xo,yo)為目標(biāo)點(diǎn)位置;(xt,yt)為t時刻UUV的位置;α是在以UUV當(dāng)前位置為原點(diǎn)的坐標(biāo)系中,目標(biāo)點(diǎn)所在的角度。UUV當(dāng)前偏航角為ψ,則可以推出UUV航行方向和當(dāng)前位置與目標(biāo)點(diǎn)位置連線的角度差αe=α-ψ。由圖2可見,在UUV航行速度為定值的情況下,αe越接近于0,航行速度在目標(biāo)點(diǎn)相對連線上分量越大,速度越快。

        圖2 UUV與目標(biāo)點(diǎn)的相對關(guān)系

        αe可以很好地體現(xiàn)在全局規(guī)劃中的環(huán)境信息,且在UUV采取行為之后,可以根據(jù)上一時刻的狀態(tài)和采取的行動計(jì)算下一時刻的αe并更新,然后作為下一時刻環(huán)境狀態(tài)的一部分輸入到神經(jīng)網(wǎng)絡(luò)。把αe和聲吶信息d={d0,d1,…,d10}結(jié)合起來,可以作為雙重Q網(wǎng)絡(luò)中路徑規(guī)劃的輸入信息。環(huán)境狀態(tài)可以表示為一組12維的向量:s=[d0,d1,…,d10,αe]。

        2.2 行為動作和獎勵函數(shù)模型

        考慮到航行器操縱機(jī)構(gòu)對于運(yùn)動控制的限制,結(jié)合實(shí)時規(guī)劃的快速性,將行為動作設(shè)計(jì)為:左轉(zhuǎn)(15°,30°),前行,右轉(zhuǎn)(15°,30°)這5種情況。仿真過程中每秒交互一次,選取的角度變化量在(-30°,30°)的區(qū)間內(nèi),符合航行器的可實(shí)現(xiàn)操縱效果。這5個行為動作是雙重深度Q網(wǎng)絡(luò)的輸出,決定了UUV接下來的航行方向和速度。

        獎勵函數(shù)包括實(shí)時獎勵函數(shù)和延時獎勵函數(shù)。在全局路徑規(guī)劃中,實(shí)時獎勵分為正獎勵和負(fù)獎勵:當(dāng)αe具有一個相對小的角度時給予正獎勵,期望UUV能夠快速地沿著起始點(diǎn)和目標(biāo)點(diǎn)直線最短距離行駛,設(shè)置一個正獎勵用來鼓勵航行器不要偏航。實(shí)時負(fù)獎勵是關(guān)于時間的,UUV航行時間越長,代表繞了遠(yuǎn)路,負(fù)獎勵會對這種行為給予懲罰。延時獎勵函數(shù)為到達(dá)目標(biāo)點(diǎn),到達(dá)目標(biāo)點(diǎn)是全局路徑規(guī)劃的核心任務(wù),所以設(shè)置了較大的獎勵值。為了避免程序無窮盡的運(yùn)行下去,設(shè)置了999作為一個回合內(nèi)交互的最大步數(shù),超過這個次數(shù)之后,環(huán)境自動初始化進(jìn)行下一回合的訓(xùn)練。獎勵函數(shù)的設(shè)計(jì)決定了UUV對目標(biāo)任務(wù)的理解和學(xué)習(xí)能力,在UUV局部路徑規(guī)劃中設(shè)計(jì)了如下的獎勵函數(shù):

        (3)

        式中,d為船體和障礙物的距離。

        圖3所示為根據(jù)當(dāng)前的環(huán)境狀態(tài)信息判斷UUV行為價值的流程圖,其中,導(dǎo)致回合結(jié)束的狀態(tài)有交互次數(shù)>999,到達(dá)目標(biāo)點(diǎn),發(fā)生碰撞3種。其他3種狀態(tài)不會導(dǎo)致回合結(jié)束,所以在給出當(dāng)前交互獎勵值后進(jìn)入下一時刻交互。

        圖3 交互結(jié)果判斷流程圖

        3 路徑規(guī)劃仿真實(shí)驗(yàn)及結(jié)果

        UUV的路徑規(guī)劃學(xué)習(xí)課程如下:

        步驟1全局路徑規(guī)劃:不設(shè)置障礙物,僅考慮趨向目標(biāo)體運(yùn)動。

        步驟2在全局規(guī)劃的路徑中加入單個靜態(tài)障礙物,UUV探索其他行為以期避開障礙物到達(dá)目標(biāo)點(diǎn)。

        步驟3增加靜態(tài)障礙物的個數(shù)到5,設(shè)置復(fù)雜地圖環(huán)境對決策網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

        步驟4設(shè)置2個不同移動方向、速度的動態(tài)障礙物,3個靜態(tài)障礙物,訓(xùn)練UUV的障礙物特征提取能力和綜合避障能力。

        3.1 全局路徑規(guī)劃訓(xùn)練過程及結(jié)果

        使用的仿真平臺是Gym,實(shí)現(xiàn)了UUV與環(huán)境接口中的環(huán)境部分。使用Keras庫來搭建雙重DQN。深度強(qiáng)化學(xué)習(xí)中,環(huán)境狀態(tài)維數(shù)等于輸入神經(jīng)元個數(shù),設(shè)置為12;行為動作個數(shù)等于輸出神經(jīng)元個數(shù),設(shè)置為5。激活函數(shù)為ReLU,優(yōu)化器為Adam。

        全局路徑規(guī)劃中,環(huán)境的初始化信息包括:UUV初始位置(xt,yt)、UUV初始偏航角ψ、進(jìn)而求出UUV起始航行方向與目標(biāo)點(diǎn)的相對夾角αe、聲吶探測值d={d0,d1,…,d10}。為了訓(xùn)練結(jié)果的泛化,UUV初始位置和UUV初始偏航角會設(shè)置一個合理的區(qū)間,每次初始化會在區(qū)間內(nèi)隨機(jī)選取值。水下訓(xùn)練環(huán)境的大?。洪L300 m,寬200 m;航行器的大?。洪L10 m,寬4 m;可被判定為到達(dá)目標(biāo)點(diǎn)的范圍:設(shè)置半徑為8 m;仿真過程中每秒交互一次,UUV恒定速度為2 m/s。

        圖4所示為UUV在全局規(guī)劃中的回合獎勵變化圖,共訓(xùn)練了1 400回合。起始階段并沒有學(xué)習(xí)到趨向于目標(biāo)點(diǎn)運(yùn)動,在訓(xùn)練環(huán)境中隨機(jī)選取行為進(jìn)行交互,獎勵值很低。訓(xùn)練1 000次后,UUV找到了最優(yōu)路徑,獎勵值可以穩(wěn)定在最高點(diǎn)20左右。

        3.2 靜態(tài)障礙物避碰訓(xùn)練過程及結(jié)果

        如圖5所示,增加了障礙物個數(shù)后,學(xué)習(xí)難度明顯加大,在前1 000回合獎勵值波動明顯,并不穩(wěn)定。在1 500回合后尋找到最優(yōu)路徑,獎勵值穩(wěn)定在20。UUV成功找到最優(yōu)路徑并到達(dá)目標(biāo)點(diǎn),證明了在復(fù)雜障礙物環(huán)境下,經(jīng)過訓(xùn)練的UUV依然能做出快速且有效的避障路徑規(guī)劃。

        (a) 訓(xùn)練200次

        (a) 單靜態(tài)障礙物訓(xùn)練結(jié)果

        3.3 動態(tài)障礙物避碰訓(xùn)練過程及結(jié)果

        圖6所示是在動態(tài)障礙物環(huán)境下的訓(xùn)練結(jié)果。圖7所示是動態(tài)障礙物環(huán)境下的回合獎勵變化圖,其最優(yōu)路徑與直接趨向于目標(biāo)體運(yùn)動的路徑接近,可以長期得到在-10°≤αe≤10°情況下的0.1正獎勵。所以雖然環(huán)境更復(fù)雜,但是獎勵值較高,趨近穩(wěn)定后最優(yōu)回合獎勵大于20。

        (a) 遭遇動態(tài)障礙物

        圖7 動態(tài)障礙物訓(xùn)練回合獎勵變化

        4 結(jié) 語

        針對雙重DQN算法在復(fù)雜規(guī)劃任務(wù)中學(xué)習(xí)效率低的問題,提出的課程式雙重DQN加快了雙重DQN在復(fù)雜規(guī)劃任務(wù)中的學(xué)習(xí)速度。在全局路徑規(guī)劃中,對訓(xùn)練樣本進(jìn)行權(quán)重動態(tài)分配,將路徑規(guī)劃任務(wù)由簡到繁分解為全局路徑規(guī)劃,靜態(tài)、動態(tài)障礙物的實(shí)時避碰。利用神經(jīng)網(wǎng)絡(luò)在靜態(tài)障礙物、動態(tài)障礙物環(huán)境完成仿真訓(xùn)練。仿真實(shí)驗(yàn)結(jié)果表明,課程式學(xué)習(xí)在訓(xùn)練過程中有顯著的引導(dǎo)作用,并驗(yàn)證了課程式雙重DQN算法的有效性。

        猜你喜歡
        障礙物航行規(guī)劃
        到慧骃國的航行
        高低翻越
        SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計(jì)和處理
        規(guī)劃引領(lǐng)把握未來
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        小舟在河上航行
        航行
        青年歌聲(2017年6期)2017-03-13 00:57:56
        多管齊下落實(shí)規(guī)劃
        迎接“十三五”規(guī)劃
        土釘墻在近障礙物的地下車行通道工程中的應(yīng)用
        狠狠久久亚洲欧美专区| 日本中文字幕一区二区有码在线| 国产永久免费高清在线| 国产精品 视频一区 二区三区| 久久久国产精品ⅤA麻豆百度| 91国产熟女自拍视频| 无码中文字幕人妻在线一区| 国产在线精品一区二区| 国产欧美日韩不卡一区二区三区| 国产av一区二区日夜精品剧情 | 亚洲精品在线国产精品| 久久亚洲国产成人精品性色| 国产精品自产拍在线18禁| 国产av在线观看91| 日本三级吃奶头添泬| 1000部夫妻午夜免费| 国产乱人视频在线观看播放器 | 中文字幕亚洲综合久久| 伊人久久亚洲综合影院首页| 久久本道久久综合一人| 最新国产激情视频在线观看| 国产成人无码精品久久久露脸| 韩国19禁主播深夜福利视频| 制服丝袜视频国产一区| 蜜桃成人精品一区二区三区| 久久婷婷五月综合色高清| 午夜精品久久久久久中宇| 日本国产一区二区三区在线观看 | 无套内射在线无码播放| 久久99久久99精品免观看| 欧美日本视频一区| 免费一区二区在线观看视频在线 | 亚洲成a人片在线观看中| 91九色最新国产在线观看| 无码人妻久久一区二区三区免费 | 顶级高清嫩模一区二区| 久久无码av一区二区三区| 一级做a爰片久久毛片| 91自国产精品中文字幕| 国产一品二品精品在线| 日本一道综合久久aⅴ免费|