亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多任務(wù)約束條件下基于強化學(xué)習(xí)的水面無人艇路徑規(guī)劃算法

        2020-01-14 02:30:38封佳祥江坤頤袁志豪
        艦船科學(xué)技術(shù) 2019年12期
        關(guān)鍵詞:浮標約束條件水面

        封佳祥,江坤頤,周 彬,袁志豪

        (哈爾濱工程大學(xué)水下機器人技術(shù)重點實驗室,黑龍江 哈爾濱 150001)

        0 引 言

        水面無人艇在海洋科研、海洋開發(fā)和軍事領(lǐng)域具有極其廣泛的應(yīng)用前景,已經(jīng)成為國內(nèi)外智能化裝備的研究方向之一。環(huán)境感知與路徑規(guī)劃是無人艇完成任務(wù)的重要部分,也是無人艇執(zhí)行任務(wù)的基礎(chǔ)。無人艇依據(jù)環(huán)境感知信息自主完成路徑規(guī)劃的能力,體現(xiàn)了無人艇的智能水平。

        隨著人工智能領(lǐng)域的發(fā)展,強化學(xué)習(xí)在路徑規(guī)劃領(lǐng)域得到了應(yīng)用。M.C.Su 等[1]提出將強化學(xué)習(xí)加入路徑規(guī)劃的理論。G.Tan 等[2]提出基于 Dijkstra 算法的強化學(xué)習(xí)路徑規(guī)劃的理論。T.L.Lee 等[3]提出未知環(huán)境下移動機器人的模糊運動規(guī)劃方法。Z.Hong 等[4]提出基于分層強化學(xué)習(xí)的路徑規(guī)劃的方法。Y.Song 等[5]提出一種有效的移動機器人Q 學(xué)習(xí)方法。強化學(xué)習(xí)在機器人路徑規(guī)劃中的的應(yīng)用已經(jīng)有較多的研究,而在無人艇領(lǐng)域的研究較少,并且當(dāng)前對于無人艇路徑規(guī)劃的研究,大都是以尋找最短的無碰路徑,而對無人艇執(zhí)行任務(wù)過程中,任務(wù)約束條件下的路徑規(guī)劃研究幾乎沒有。

        針對海上環(huán)境的特點,本文提出一種利用灰色預(yù)測輔助區(qū)域建議神經(jīng)網(wǎng)絡(luò)的水面目標檢測方法,快速準確地獲得海上無人艇的任務(wù)環(huán)境信息。以Maritime RobotX Chanllenge 比賽中的任務(wù)為背景,提出一種多任務(wù)約束條件下基于強化學(xué)習(xí)的路徑規(guī)劃算法。依據(jù)任務(wù)條件,以獲得的任務(wù)感知信息為輸入,通過強化學(xué)習(xí)訓(xùn)練,使無人艇能夠在隨機起始狀態(tài)下,尋找到完成任務(wù)的最優(yōu)路徑,并通過仿真試驗和實船試驗對其進行驗證。

        1 強化學(xué)習(xí)

        強化學(xué)習(xí)是一種基于環(huán)境交互的學(xué)習(xí)算法,強化學(xué)習(xí)的過程如圖1 所示。強化學(xué)習(xí)可以簡單描述為:智能體處于某個環(huán)境中,通過感知系統(tǒng)感知到當(dāng)前的環(huán)境狀態(tài),并在該環(huán)境狀態(tài)下采取某個動作,作用于該環(huán)境狀態(tài),當(dāng)前的環(huán)境狀態(tài)按照某種概率轉(zhuǎn)移到另一個狀態(tài),同時環(huán)境也會根據(jù)潛在的獎賞函數(shù)反饋給機器一個獎賞值。強化學(xué)習(xí)的目的就是使智能體獲得的累計獎賞值最大。

        圖 1 強化學(xué)習(xí)示意圖Fig.1 Schematic diagram of reinforcement learning

        Q_learning 是一種行之有效的強化學(xué)習(xí)方法。Q_learing 算法通過訓(xùn)練得到Q-table,Q-table 代表了智能體學(xué)到的知識。探索環(huán)境(environment)之前,Q-table 會給出相同的任意設(shè)定值(大多數(shù)情況下是0)。隨著對環(huán)境的持續(xù)探索,這個 Q-table 會通過迭代地使用動態(tài)規(guī)劃方程更新來給出越來越好的近似。

        Q-table 的遞歸方程形式如下:

        式中:r(s, a)為在s 狀態(tài)下采取a 行動所得到的獎賞值;s′為s 狀態(tài)后的下一個狀態(tài);?為學(xué)習(xí)率,代表學(xué)習(xí)知識的程度,?∈[0,1];γ 為折扣率,代表考慮未來報酬的程度,γ∈[0,1]如果γ 越接近于0,智能體更趨向于僅僅考慮即時獎勵;如果γ 更接近于1,智能體將以更大的權(quán)重考慮未來的獎勵,更愿意將獎勵延遲。

        2 多任務(wù)約束條件下基于強化學(xué)習(xí)的水面無人艇路徑規(guī)劃算法

        2.1 任務(wù)約束條件

        本文水面無人艇執(zhí)行的任務(wù)以Maritime RobotX Chanllenge 國際水面無人艇比賽中的基礎(chǔ)過門任務(wù)和避障任務(wù)為背景。

        基礎(chǔ)過門任務(wù)描述如圖2 所示。無人艇必須依靠導(dǎo)航和感知信息全自主無碰撞通過2 組紅綠浮標(圖中深淺)表示。其中紅色浮標和綠色浮標的距離約為10 m,兩組紅綠浮標間的距離約為30 m。該任務(wù)的約束條件為無人艇能夠從開始門進入,從結(jié)束門出去,且不能夠碰撞浮標,不能夠從2 組紅綠浮標間穿過。

        圖 2 基礎(chǔ)過門任務(wù)示意圖Fig.2 Schematic diagram of task of entrance and exit gates

        避障任務(wù)描述如圖3 所示。無人艇必須依靠導(dǎo)航的感知設(shè)備自主穿過障礙物區(qū)域,且不能夠碰撞任何障礙物。障礙物的直徑約為1 m。該任務(wù)的約束條件為無人艇能夠以最短路徑穿過障礙物區(qū)域,并且不能夠碰任何障礙物。

        圖 3 避障任務(wù)示意圖Fig.3 Schematic diagram of task of avoid obstacles

        本文將2 種任務(wù)融合在一起,在基礎(chǔ)過門任務(wù)的紅綠浮標外側(cè)布置障礙物,無人艇從起點出發(fā),穿過障礙物區(qū)域,并且完成基礎(chǔ)過門任務(wù)。

        2.2 環(huán)境建模

        在執(zhí)行路徑規(guī)劃算法之前,首先需要將水面無人艇周圍的環(huán)境信息表示出來。由任務(wù)描述可知,要完任務(wù)水面無人艇必須能夠準確分辨出浮標和障礙物,并且能夠得到浮標顏色及浮標和障礙物的準確位置。為了在有風(fēng)浪流等干擾因素的復(fù)雜環(huán)境下快速準確得到水面目標信息,本文提出一種利用灰色預(yù)測輔助區(qū)域建議神經(jīng)網(wǎng)絡(luò)的水面目標檢測方法。在得到任務(wù)信息及目標信息后,采用柵格法表示環(huán)境。

        2.2.1 利用灰色預(yù)測輔助區(qū)域建議神經(jīng)網(wǎng)絡(luò)的水面目標檢測方法

        利用灰色預(yù)測進行區(qū)域建議,提升神經(jīng)網(wǎng)絡(luò)檢測連續(xù)視頻幀中水面目標的速度和準確率,具體流程如圖4 所示。

        圖 4 算法流程圖Fig.4 Algorithm flow chart

        水面目標多出現(xiàn)在樣本圖片中的水天線附近,且連續(xù)視頻幀間同一水面目標在視頻幀中的位置存在內(nèi)在聯(lián)系。本文提出的方法利用這一特點,使用灰色預(yù)測與海天線檢測布置錨點和候選框,輔助Faster RCNN 網(wǎng)絡(luò)識別水面目標,提升水面目標識別的快速性和準確性。

        利用經(jīng)典的Faster RCNN 方法識別水面目標,并記錄下目標識別框中心點在視頻幀中的像素坐標(u, v),設(shè)置采樣時間間隔t=0.2 s,采樣幀數(shù)為5 幀。

        利用初始目標幀中的采樣信息建立灰色預(yù)測模型,其初始元素序列數(shù)據(jù)為其中分別為第k 幀采樣幀中目標識別框的中心點橫坐標u;對 X(0)做 一次累加生成得到序列其 中,令為的緊鄰均值生成序列,其 中建 立G M(1,1)的灰微分方程模型為,其中a 為發(fā)展系數(shù),b 為灰色作用量?;椅⒎址匠痰淖钚《斯烙媴?shù)列滿足,其中:

        建立灰色微分方程的白化方程,求其解并做累減還原可得最終預(yù)測結(jié)果如下:

        即為灰色預(yù)測得到的下一視頻幀中水面目標識別框的中心點橫坐標。

        對計算得到的灰色預(yù)測模型相對殘差 ε(k)進行檢驗。

        改進經(jīng)典Faster RCNN 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用灰色預(yù)測的結(jié)果進行區(qū)域建議。改進后的Faster RCNN 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。首先使用海天線檢測獲取視頻幀中海天線的位置,隨后在海天線上、灰色預(yù)測獲取的水面目標橫坐標附近按照高斯分布布置錨點,在每個錨點處仍然選用3 種大小與3 種長寬比的共9 種候選框,將這些候選框輸入?yún)^(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN),使得區(qū)域建議更加精確。另一方面,得益于精確的區(qū)域建議和較單一的背景特征,精簡特征提取網(wǎng)絡(luò)層數(shù),使用VGG13 網(wǎng)絡(luò)代替VGG16網(wǎng)絡(luò),提升網(wǎng)絡(luò)運行速度。隨后進行池化,目標分類與邊界框回歸操作,獲取最終的檢測結(jié)果。

        判斷是否檢測到目標。若檢測到目標,則利用新息對灰色模型進行實時更新,防止模型預(yù)測結(jié)果隨時間發(fā)散,然后利用新模型重新進行預(yù)測和檢測。若沒有檢測到目標,說明水面目標可能已經(jīng)離開視野或預(yù)測不準確,此時應(yīng)停止本次檢測過程,將新息作為目標初始幀,重新開始下一個檢測過程。

        圖 5 改進Faster RCNN 算法網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 Improved Faster RCNN algorithm network structure diagram

        2.2.2 環(huán)境模型

        依據(jù)得到的任務(wù)信息和感知信息建立環(huán)境模型,本文建立多任務(wù)環(huán)境模型。由于無人艇在航行過程中自身位置是連續(xù)狀態(tài)的空間,而連續(xù)性的高維狀態(tài)空間會使強化學(xué)習(xí)算法難以收斂,需要將無人艇環(huán)境狀態(tài)空間離散化。在Maritime RobotX Chanllenge 水面無人艇比賽中,水面無人艇任務(wù)區(qū)域一般為40 m*40 m,該區(qū)域一般在無人艇的感知范圍之內(nèi),考慮到無人艇的航行性能,并且使?fàn)顟B(tài)空間盡量合理,本文將任務(wù)區(qū)域劃分為40*40 的柵格區(qū)域。

        圖 6 多任務(wù)環(huán)境模型Fig.6 Environment Model of multi-task

        以得到的門的浮標位置為中心建立柵格環(huán)境模型,如圖6 所示。圖中深灰淺灰柵格表示感知信息檢測到的門浮標位置,上邊的門為入口門,下邊的門為出口門。黑色柵格表示障礙物區(qū)域,黃色柵格為無人艇起始位置。

        2.3 基于任務(wù)分解獎賞函數(shù)的Q_learning 算法

        依據(jù)水面無人艇所要執(zhí)行的不同任務(wù)設(shè)計不同的獎賞函數(shù),能夠有效提高強化學(xué)習(xí)算法的收斂速度。面對多任務(wù)約束條件下的水面無人艇路徑規(guī)劃,獎賞函數(shù)的設(shè)計決定了其能否快速收斂到最優(yōu)解。為提高多任務(wù)約束條件下Q_learning 算法的收斂速度,本文設(shè)計了任務(wù)分解獎賞函數(shù)。

        2.3.1 任務(wù)分解獎賞函數(shù)的設(shè)計

        依據(jù)任務(wù)的優(yōu)先級,對無人艇所要執(zhí)行的任務(wù)進行優(yōu)先級劃分,避障任務(wù)始終處于任務(wù)第1 位。將水面無人艇路徑規(guī)劃的獎賞函數(shù)表示為各個分任務(wù)獎賞函數(shù)的加權(quán)和,如下式:

        其中:R 表示總的獎賞函數(shù);Ri(i=1, 2, ···, n)表示分任務(wù)的獎賞函數(shù);n 表示無人艇可以執(zhí)行任務(wù)的數(shù)量;ωi(i=1,2,…,n)表示分任務(wù)獎賞函數(shù)的權(quán)值,ωi∈[0,1],ωi值越大表示任務(wù)優(yōu)先級越高,需要優(yōu)先考慮該任務(wù)的獎賞函數(shù),通常無人艇周圍有障礙物時,優(yōu)先將避障任務(wù)權(quán)值調(diào)整為最大。

        針對本文中水面無人艇要執(zhí)行的任務(wù),設(shè)計如下的獎賞函數(shù):

        式中:R 為總的獎賞函數(shù), R0(St,at)與 R1(St,at)分別表示避障任務(wù)約束中St狀態(tài)下采取at行動的獎賞值和基礎(chǔ)過門任務(wù)約束中St狀態(tài)下采取at行動的獎賞值。r0為碰到障礙物的獎賞值,r0=-5;r1為沒有碰到障礙物的獎賞值,r1=0。DL,DR,D′L,D′R為環(huán)境感知信息的輸入值,分別表示入口左邊浮標狀態(tài)值,入口門右邊浮標狀態(tài)值,出口門左邊浮標狀態(tài)值,出口門右邊浮標狀態(tài)值;N 為環(huán)境模型大小,N=40;St+1為St狀態(tài)下采取at行動后的狀態(tài);r2為到達目標區(qū)域的最終報酬值,r2=10;r3為門中心區(qū)域狀態(tài)的報酬值,r3=2;r4和r5為撞到門浮標和從門側(cè)面穿過的報酬值,r4=-5,r5=-5;r6為可以自由航行的區(qū)域,r6=0。ω0為避碰任務(wù)獎賞函數(shù)的權(quán)重,ω1為避碰任務(wù)獎賞函數(shù)的權(quán)重,初始時ω0=1,ω1=0,隨著無人艇穿過障礙物區(qū)域,ω0逐漸減小,ω1逐漸增加。

        依據(jù)任務(wù)對獎賞函數(shù)進行分解,通過對不同任務(wù)獎賞函數(shù)權(quán)重的分配,使無人艇在訓(xùn)練過程中,能夠根據(jù)當(dāng)前執(zhí)行的任務(wù)選擇該任務(wù)的獎賞函數(shù),從而使其能夠得到最優(yōu)的獎賞值。

        2.3.2 策略選擇

        動作的選取策略需要考慮“探索”與“利用”平衡問題,“探索”即智能體對為止環(huán)境的探索,“利用”即智能體選擇當(dāng)前最優(yōu)策略。初始訓(xùn)練時,由于智能體對環(huán)境一無所知,應(yīng)該以較大“探索”概率進行環(huán)境探索;當(dāng)訓(xùn)練一段時間后,智能體對環(huán)境有了一定的了解,應(yīng)該以較大的“利用”概率選擇最優(yōu)策略。

        本文采用經(jīng)典的?-貪心策略,? 值表示“探索”概率,即在訓(xùn)練過程中隨機選擇動作的概率。1-? 表示“利用”概率,即在訓(xùn)練過程中選擇最優(yōu)動作的概率。由于在訓(xùn)練前期,智能體對環(huán)境信息一無所知,需要以較大概率進行“探索”,而在訓(xùn)練一段時間后,智能體對環(huán)境信息有了一定的了解后,可以依據(jù)之前的訓(xùn)練情況選擇最優(yōu)動作。因此,本文中? 的值隨著訓(xùn)練次數(shù)線性遞減,即

        式中:n 為訓(xùn)練總次數(shù);t 為當(dāng)前訓(xùn)練次數(shù)。

        3 試驗

        3.1 仿真試驗

        基于Windows 操作系統(tǒng),在VS2012 開發(fā)環(huán)境下編寫多任務(wù)約束條件下基于強化學(xué)習(xí)的水面無人艇路徑規(guī)劃算法。仿真試驗的參數(shù)設(shè)置如下:學(xué)習(xí)率α=0.9,折扣率γ=0.8,總的訓(xùn)練次數(shù)為10 000 次。仿真試驗動作的選取策略為?-貪心策略,? 初始值設(shè)為1,確保在初始時無人艇有較大隨機探索概率;隨著訓(xùn)練次數(shù)的增加線性遞減,即每訓(xùn)練一次? 值減少0.000 1,確保在多次訓(xùn)練后采取回報值較大的動作。

        圖7 為水面無人艇單個任務(wù)的仿真結(jié)果。通過強化學(xué)習(xí)的訓(xùn)練之后,無人艇能夠自主規(guī)劃出完成任務(wù)的路徑。經(jīng)過多次試驗,訓(xùn)練的時間約為100 ms,能夠滿足無人艇航行過程中實時在線訓(xùn)練的要求,并且能夠較好地規(guī)劃出完成任務(wù)的路徑。

        圖 7 水面無人艇單個任務(wù)路徑規(guī)劃仿真結(jié)果Fig.7 Simulation results of single task path planning for USV

        圖 8 多任務(wù)約束條件下基于強化學(xué)習(xí)的無人艇路徑規(guī)劃仿真結(jié)果Fig.8 Simulation results of path planning of USV based on reinforcement learning under multi-tasking constraints

        圖8 為多任務(wù)約束條件下基于強化學(xué)習(xí)的水面無人艇路徑規(guī)劃結(jié)果。經(jīng)過強化學(xué)習(xí)訓(xùn)練,水面無人艇能夠安全穿越障礙區(qū),并且完成基礎(chǔ)過門任務(wù)。

        圖 9 累積獎賞值隨訓(xùn)練次數(shù)的變化曲線Fig.9 Curve of cumulative reward value with training times

        圖9 為強化學(xué)習(xí)訓(xùn)練過程中每次訓(xùn)練的累計獎賞。在訓(xùn)練過程中,無人艇碰撞或者違反任務(wù)規(guī)則會得到一個負的獎賞,當(dāng)無人艇沿任務(wù)規(guī)則航行會得到一個正的獎賞,當(dāng)無人艇到達目標區(qū)域會得到一個更大的正獎賞。

        可以看出,基于任務(wù)分解獎賞函數(shù)的Q_learning 算法能夠很好地收斂。在訓(xùn)練前期無人艇處于探索時期,會經(jīng)常發(fā)生碰撞或違反任務(wù)規(guī)則,所以開始的時候累計獎賞大多為負值。隨著訓(xùn)練的不斷進行,無人艇能夠利用之前訓(xùn)練的“知識”選擇獎賞較好的動作,獎賞值逐漸增大最終收斂到一定范圍。

        圖 10 基于任務(wù)分解獎賞函數(shù)的Q_lea rning 算法與經(jīng)典Q_learning 算法成功率對比圖Fig.10 Comparison chart of success rate of Q_learning algorithm and classic Q_learning algorithm based on task decomposition reward function

        圖 11 基于任務(wù)分解獎賞函數(shù)的Q_lea rning 算法與經(jīng)典Q_learning 算法成功率對比圖Fig.11 Comparison chart of Convergence of Q_learning algorithm and classic Q_learning algorithm based on task decomposition reward function

        圖10 與圖11 分別對比了基于任務(wù)分解獎賞函數(shù)的Q_learning 算法和經(jīng)典Q_learning 算法的成功率和收斂性。可以看出,基于任務(wù)分解獎賞函數(shù)的Q_learning 算法能夠有效提高訓(xùn)練過程中尋找路徑的成功率,并且能夠快速收斂到最優(yōu)解。由于采用?-貪心策略會有一定概率隨機選擇動作,因此圖中會有許多“毛刺”。

        通過仿真試驗可以看出,在多任務(wù)的約束條件下,基于任務(wù)分解獎賞函數(shù)的Q_learning 算法能夠加快訓(xùn)練收斂速度,從而節(jié)省訓(xùn)練時間,保證水面無人艇路徑規(guī)劃的實時性。通過強化學(xué)習(xí)訓(xùn)練,水面無人艇能夠較好規(guī)劃出完成任務(wù)的路徑。

        3.2 實物試驗

        3.2.1 無人艇試驗平臺搭建

        無人艇硬件系統(tǒng)結(jié)構(gòu)如圖12 所示。導(dǎo)航設(shè)備主要有:GPS 和電子羅盤(TCM);感知設(shè)備主要有:激光雷達和攝像頭;艇上有2 臺工控機,分別用來執(zhí)行規(guī)劃控制算法和感知系統(tǒng)中的算法。感知工控機與規(guī)劃控制工控機之間的通信采用網(wǎng)絡(luò)通信(TCP/IP 協(xié)議)。

        圖 12 無人艇硬件系統(tǒng)結(jié)構(gòu)Fig.12 Hardware system structure of USV

        3.2.2 無人艇軟件系統(tǒng)結(jié)構(gòu)

        無人艇軟件系統(tǒng)結(jié)構(gòu)如圖13 所示。

        任務(wù)規(guī)劃匯總來自各個模塊的數(shù)據(jù),依據(jù)當(dāng)前艇的狀態(tài)及任務(wù)信息,決定完成任務(wù)的最佳策略。任務(wù)規(guī)劃器將導(dǎo)航和感知信息匯總分析后,將信息傳送到環(huán)境建模模塊完成任務(wù)執(zhí)行的環(huán)境建模。路徑規(guī)劃器依據(jù)當(dāng)前的環(huán)境模型,基于強化學(xué)習(xí)尋找最優(yōu)路徑,完成任務(wù)執(zhí)行的任務(wù)路徑規(guī)劃。

        3.2.3 試驗結(jié)果分析

        本文提出的方法在2018Maritime RobotX Chanllenge 中得到了成功應(yīng)用并取得了預(yù)期效果。在試驗中,無人艇首先采用利用灰色預(yù)測輔助區(qū)域建議神經(jīng)網(wǎng)絡(luò)的水面目標檢測方法得到任務(wù)區(qū)域中入口門浮標的位置和顏色,之后,由任務(wù)規(guī)劃器依據(jù)感知信息完成當(dāng)前要執(zhí)行任務(wù)的決策,并計算出出口門的位置,同時完成任務(wù)環(huán)境建模,最后,基于強化學(xué)習(xí)完成執(zhí)行任務(wù)的路徑規(guī)劃。

        在基礎(chǔ)過門任務(wù)與避障任務(wù)的執(zhí)行中,使用與仿真試驗相同的參數(shù),無人艇能夠完成基于強化學(xué)習(xí)的在線學(xué)習(xí),并成功規(guī)劃出完成任務(wù)的最優(yōu)路徑,無人艇執(zhí)行任務(wù)過程如圖13 所示。經(jīng)過試驗驗證本文提出的任務(wù)約束條件下基于強化學(xué)習(xí)的水面無人艇路徑規(guī)劃方法能夠滿足實際要求。

        圖 13 無人艇軟件系統(tǒng)結(jié)構(gòu)圖Fig.13 Software system structure of USV

        4 結(jié) 語

        本文提出一種利用灰色預(yù)測輔助區(qū)域建議神經(jīng)網(wǎng)絡(luò)的水面目標檢測方法和一種多任務(wù)約束條件下基于強化學(xué)習(xí)的水面無人艇路徑規(guī)劃算法。采用灰色預(yù)測進行區(qū)域建議,提升神經(jīng)網(wǎng)絡(luò)檢測連續(xù)視頻幀中水面目標的速度和準確率,提高了獲得水面任務(wù)環(huán)境信息的準確性,利用感知系統(tǒng)得到的環(huán)境信息完成環(huán)境建模,并基于強化學(xué)習(xí)在線訓(xùn)練,完成任務(wù)約束條件下的無人艇路徑規(guī)劃。以Maritime RobotX Chanllenge 中的基礎(chǔ)過門任務(wù)為背景,通過仿真試驗,驗證了在任務(wù)約束條件下,采用強化學(xué)習(xí)進行路徑規(guī)劃的可行性,并通過實物試驗,驗證了這2 種算法能夠滿足實際要求。

        猜你喜歡
        浮標約束條件水面
        受了委屈的浮標君
        受了委屈的浮標君
        受了委屈的浮標君
        家教世界(2023年7期)2023-03-22 12:11:24
        受了委屈的浮標君
        家教世界(2023年4期)2023-03-04 07:31:28
        基于一種改進AZSVPWM的滿調(diào)制度死區(qū)約束條件分析
        水黽是怎樣浮在水面的
        A literature review of research exploring the experiences of overseas nurses in the United Kingdom (2002–2017)
        創(chuàng)造足以亂真的水面反光
        爭奪水面光伏
        能源(2016年3期)2016-12-01 05:11:02
        線性規(guī)劃的八大妙用
        亚洲 欧美 综合 在线 精品| 亚洲国产综合精品久久av| 亚洲精品综合一区二区| 国产亚洲自拍日本亚洲| 亚洲av日韩av天堂一区二区三区 | 国产免费破外女真实出血视频| 五月天婷婷一区二区三区久久| 日韩精品免费av一区二区三区 | 国产真实偷乱视频| 人人妻人人添人人爽日韩欧美| 爆乳午夜福利视频精品| 国产3p一区二区三区精品| 亚洲av无码一区二区三区网址 | 专区亚洲欧洲日产国码AV| 日韩中文字幕乱码在线| 亚洲精品宾馆在线精品酒店| 亚洲人成网站18禁止久久影院| 午夜亚洲AV成人无码国产| 国产美女冒白浆视频免费| 亚洲一区二区三区日韩在线观看 | 国产国语按摩对白av在线观看| 无码专区一ⅴa亚洲v天堂 | 大香视频伊人精品75| 青青青伊人色综合久久| 青青草小视频在线播放| 欧洲熟妇色| 丝袜足控一区二区三区| 中文字幕麻豆一区二区| 宅男天堂亚洲一区二区三区| 国产成人精品久久亚洲高清不卡| 国产福利姬喷水福利在线观看| 亚洲成A人A∨久在线观看| 一区二区三区国产色综合| 久久久老熟女一区二区三区| 一本一道波多野结衣av中文| 国产麻豆极品高清另类| 91九色人妻精品一区二区三区 | 久久精品国产亚洲片| 久久精品国产亚洲av四叶草| 曰韩无码二三区中文字幕| 亚洲AV无码久久精品成人|