亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進強化學習的無人機規(guī)避決策控制算法

        2022-07-08 08:03:58TajmihirIslamTeethi卞志昂
        探測與控制學報 2022年3期
        關鍵詞:動作智能

        Tajmihir Islam Teethi,盧 虎,閔 歡,卞志昂

        (空軍工程大學信息與導航學院,陜西 西安 710077)

        0 引言

        無人機自主飛行、自主導航是提高無人系統(tǒng)智能化水平的重要基礎。在與真實世界的交互過程中,避障是無人機應當具有的最基本的功能之一。目前,很多無人機廠商,如中國的大疆、法國的PARROT等公司也都將自主避障能力作為其無人機產(chǎn)品的一項重要技術指標。當前,無人機的自主避障主要是通過機載傳感器獲取障礙物的距離、位置、速度等有效信息,再根據(jù)障礙物信息自主規(guī)劃出合理的路徑,從而保證其在運行的過程中避開障礙[1-2]。

        傳統(tǒng)的無人機自主避障技術主要由障礙感知與避障規(guī)劃兩大功能模塊組成。障礙感知是指無人機通過機載傳感器實時獲取周邊障礙物的信息。避障所常用的傳感器主要包括超聲波傳感器、激光雷達、雙目視覺傳感器等。SLAM(simultaneous localization and mapping)技術可以為避障提供更加豐富全面的地圖環(huán)境信息,因此在近幾年的研究中,SLAM技術被廣泛應用于移動機器人自主導航避障[3-4]。但基于SLAM的避障方法仍需要手動調(diào)試大量的構圖模型參數(shù)以達到良好的建圖效果和可靠的路徑規(guī)劃,且在一架無人機上調(diào)試好的一套構圖參數(shù),由于平臺、傳感器載荷等的性能差異并不完全適用于另一架無人機。

        當前,人工智能正在飛速發(fā)展,基于強化學習的避障方法通過訓練深度神經(jīng)網(wǎng)絡進行端到端動作決策,使得無人機避障無須“額外”的建圖過程,取而代之的是一種即時自主的行為,并且避免了復雜的建模和大量的參數(shù)調(diào)整,而且因其不需要建圖的特性,此類基于學習的避障方法也能更好地適應于未知無圖的應用場景[5-6]。

        1 強化學習的馬爾可夫決策表示

        強化學習作為機器學習的一大分支[7],其基本思想是,智能體在完成某項任務時,通過動作與環(huán)境進行交互,環(huán)境在動作的作用下會返回新的狀態(tài)和獎勵值,獎勵值越高說明該動作越好,反之則說明該動作應該被舍棄,經(jīng)過數(shù)次迭代之后,智能體最終會學到完成某項任務的最優(yōu)策略。強化學習基本的原理框架如圖1所示。

        圖1 強化學習基本原理框架Fig.1 The principle framework of reinforcement learning

        圖2 馬爾可夫決策過程示例Fig.2 An example of Markov decision process

        在強化學習中,從初始狀態(tài)S1到終止狀態(tài)的序列過程S1,S2,…,ST,被稱為一個片段,一個片段的累積獎勵定義為式(1),式中,rτ為智能體在τ時刻從環(huán)境獲得的即時獎勵值,T為智能體達到終止狀態(tài)時的時刻

        (1)

        除此之外,強化學習還在馬爾可夫決策過程的基礎上,定義了智能體的策略π(a|s),策略π表示的是智能體在狀態(tài)s下的動作的概率分布,其定義為:

        π(a|s)=P[At=a|St=s]。

        (2)

        強化學習的目的就是通過不斷試錯來改善智能體的策略π(a|s),以最大化其獲得的累積獎勵,因此引入了值函數(shù)來評價某個策略獲得的累積獎勵。一般來說值函數(shù)分為兩種:狀態(tài)值函數(shù)(V函數(shù))和狀態(tài)動作值函數(shù)(Q函數(shù))。V函數(shù)的定義是,從狀態(tài)s開始,使用策略π得到的期望獎勵值,其定義式

        Vπ(s)=E[Gt|St=s]。

        (3)

        Q函數(shù)的定義為,從狀態(tài)s開始,執(zhí)行動作a,然后使用策略π得到的期望獎勵值,其定義式

        Qπ(s,a)=Ε[Gt|St=s,At=a,π]。

        (4)

        最終得到V函數(shù)的貝爾曼期望方程

        Vπ(s)=E[rt+γVπ(St+1)|St=s]。

        (5)

        貝爾曼期望方程將V函數(shù)的求取分為了兩部分,一部分是當前的即時獎勵rt,另一部分是后繼狀態(tài)St+1的V值。同理,也可以推導出Q函數(shù)的貝爾曼期望方程

        Qπ(s,a)=E[rt+γQπ(St+1,At+1)|St=s,At=a,π]。

        (6)

        定義最優(yōu)值函數(shù)為所有策略中最大的值函數(shù),即

        V*(s)=maxπVπ(s),

        (7)

        Q*(s,a)=maxπQπ(s,a)。

        (8)

        2 基于改進強化學習的無人機規(guī)避決策控制算法

        2.1 無人機視覺避障的馬爾可夫決策模型

        無人機視覺避障的強化學習問題可以表述為無人機通過視覺傳感器與環(huán)境交互的馬爾可夫決策過程:無人機獲取當前時刻t的視覺圖像st,根據(jù)策略π(a|s)執(zhí)行動作at,觀測環(huán)境反饋的獎勵值rt,然后轉移到后繼狀態(tài)st+1,其中t∈(0,T],at∈A,A為智能體的動作集,T為每個交互片段的終止時刻。

        Qπ(st,at)=E[Gt|st,at,π]。

        (9)

        根據(jù)貝爾曼期望方程,當前Q值可以進一步通過當前獎勵和后繼狀態(tài)的Q值求出:

        Qπ(st,at)=E[rt+γQπ(st+1,at+1)|st,at,π]。

        (10)

        智能體的動作決策依據(jù)是每個動作的最優(yōu)Q值:

        Q*(st,at)=maxπQπ(st,at)=maxπE[Gt|st,at,π]。

        (11)

        因此,將Q函數(shù)的貝爾曼期望方程進一步轉化為貝爾曼最優(yōu)方程的形式,即當前的最優(yōu)Q值可以通過當前獎勵和后繼狀態(tài)的最優(yōu)Q值中的最大值求出:

        (12)

        在求得每個狀態(tài)動作對(st,at)的最優(yōu)Q值之后,智能體便可以在不同的輸入狀態(tài)下進行最優(yōu)動作決策,從而生成最優(yōu)策略π*(a|s),其決策的核心思想是貪婪思想,即選擇輸入狀態(tài)下最大的最優(yōu)Q值所對應的動作作為最優(yōu)動作:

        (13)

        2.2 深度Q網(wǎng)絡的改進方法

        在強化學習問題中,狀態(tài)是智能體選擇動作的重要依據(jù),狀態(tài)的設置可以是智能體對環(huán)境的觀測,也可以是智能體的自身狀態(tài)。在無人機避障過程中,無人機需要感知與障礙物之間的距離,因此選擇無人機視覺傳感器采集的深度圖作為無人機的狀態(tài)。

        為了能使無人機更好地做出合理的決策,設計無人機的狀態(tài)為連續(xù)抓取深度圖組成的深度圖堆,如圖3所示。這樣設計的好處在于使狀態(tài)中既包含了深度信息又隱含了無人機的運動信息,考慮到無人機運行時的實時性,最終決定以連續(xù)抓取4幀深度圖來組成一個深度圖堆。

        圖3 無人機狀態(tài)空間設置Fig.3 State space configuration of drone

        動作空間是無人機能夠執(zhí)行的具體動作,為了使網(wǎng)絡經(jīng)過訓練能得到更加可靠的避障策略,需要以無人機能及時規(guī)避障礙為目標,合理地設計無人機的動作空間。本文所設計的離散動作空間如圖4所示,分為前進和轉向兩大動作組。前進動作組控制無人機的前進速度,其中包含快速前進和慢速前進2個動作:v∈(4,2)m/s。轉向動作組控制無人機偏航角速率,其包含快速左轉、左轉、停止轉向、右轉、快速右轉5個動作:yawrate∈(π/6,π/12,0,-π/12,-π/6)rad/s。動作空間總共包含7個動作,通過前進動作和轉向動作的組合共能生成10種動作指令,基本包含了無人機常見的機動方式。

        圖4 無人機離散動作空間Fig.4 Discrete action space of drone

        為了提高訓練過程的穩(wěn)定性和學習效率,本節(jié)結合double Q-learning[10]和dueling network[11]方法,設計了用于無人機視覺避障的D3QN(dueling double DQN)網(wǎng)絡,如圖5所示。

        圖5 無人機視覺避障D3QN網(wǎng)絡結構Fig.5 D3QN network structure for drone visual obstacle avoidance

        本文所設計的D3QN網(wǎng)絡的輸入是連續(xù)4幀的深度圖,尺寸為160×128×4,經(jīng)過3層卷積神經(jīng)網(wǎng)絡提取特征后,按照dueling network分為兩個數(shù)據(jù)流,再通過兩層全連接層,網(wǎng)絡的最終輸出是動作空間內(nèi)各個動作的Q值。網(wǎng)絡的損失函數(shù)為:

        (14)

        網(wǎng)絡規(guī)避訓練算法如下:

        1:初始化在線網(wǎng)絡權重參數(shù)θ,初始化目標網(wǎng)絡權重參數(shù)θ-=θ;

        2:初始化記憶回放單元D;

        3:For episode=1,Mdo;

        4:讀取初始狀態(tài)st;

        5:Fort=1,Tdo;

        6:計算當前狀態(tài)下所有動作的Q值Q(st,a,θ),a∈A;

        7:根據(jù)小概率ε選擇隨機動作at∈A,否則選擇動作at=argmaxa∈AQ(st,a,θ);

        8:無人機執(zhí)行動作a,觀測獎勵值和后繼狀態(tài)rt和后繼狀態(tài)st+1;

        9:將五元組{st,at,rt,st+1,reset}存入D,reset用于判斷st+1是否終止狀態(tài);

        10:狀態(tài)轉移st=st+1;

        11:從記憶回放單元隨機采樣n個樣本數(shù)據(jù){st,at,rt,st+1,reset}i,i=1,…,n;

        12:計算YtDDQN=

        14:每C步更新目標網(wǎng)絡參數(shù)θ-=θ。

        3 實驗驗證與分析

        3.1 仿真平臺搭建

        為了驗證本文所提出的視覺自主避障算法的可行性與有效性,在AirSim仿真平臺[12]上開展了無人機避障仿真實驗。

        無人機視覺自主避障的訓練環(huán)境,為40 m×40 m×30 m的方盒世界,如圖6所示,其全局坐標系位于方盒的中心,無人機的初始位置設置于坐標系的原點,然后在其中布置了三種不同形狀的障礙物,在訓練環(huán)境中以算法訓練無人機感知障礙、規(guī)避障礙的能力。隨后搭建了如圖7所示的泛化測試環(huán)境,測試場景1在訓練環(huán)境的基礎上,對原來的3個柱形障礙物進行了移動,測試場景2則是在方盒世界中加入了更多的障礙物。

        圖6 無人機避障訓練環(huán)境 Fig.6 UAV obstacle avoidance training environment

        圖7 泛化測試場景Fig.7 Generalization test scenario

        為了測試基于D3QN的無人機導航避障算法能力,搭建了如圖8所示的未知測試場景:無人機按照從初始位置→目標位置的路徑執(zhí)行多航點任務,導航途中面臨多個障礙物,以模擬復雜城市低空復雜場景。

        圖8 未知測試場景Fig.8 Unknown test scenario

        3.2 網(wǎng)絡性能對比

        首先,為了分析所設計的D3QN網(wǎng)絡的優(yōu)勢,分別采用了D3QN、DDQN、DQN三種不同網(wǎng)絡在訓練環(huán)境中進行訓練,網(wǎng)絡訓練的硬件條件為CPU:2.70 GHz×8,GPU:RTX2080ti 11 GB,三種網(wǎng)絡訓練的總片段數(shù)均設置為1 000,每次從記憶回放單元采樣32個樣本數(shù)據(jù)進行梯度下降,訓練過程中的獎勵值曲線如圖9所示。

        可以看出,D3QN模型最先開始收斂(約600片段),DDQN和DQN收斂較慢(約800片段),D3QN的訓練速度相比DDQN和DQN提升了約25%,并且平均每個片段的累積獎勵高于DDQN和DQN模型;DDQN相比于DQN,兩者的收斂速度相差不大,但DDQN的平均獎勵水平高于DQN。這可能是由于D3QN和DDQN模型都運用了Double Q-learning,改善了DQN的過估計問題,給予智能體更多的探索機會,使其能夠獲得更高的獎勵值。綜合對比來看,D3QN模型的訓練效率最高,達到了預期的改進效果。

        圖9 不同網(wǎng)絡訓練獎勵曲線對比Fig.9 Comparison of reward curves for different network training

        3.3 規(guī)避決策控制算法泛化測試

        為了進一步測試訓練好的D3QN網(wǎng)絡的泛化性能,接下來分別在泛化測試場景1和2中加載D3QN網(wǎng)絡模型,并運行算法進行實際飛行測試,簡明起見僅給出場景1的飛行過程中記錄的運動軌跡以及無人機的轉向控制動作,如圖10所示。

        圖10 泛化測試結果Fig.10 Generalization test results

        在場景1的泛化測試中,無人機沒有事先對環(huán)境構建全局地圖,由記錄的運行軌跡可以看出,無人機在未知的新環(huán)境下也能進行無碰撞的自主飛行,通過學習得到的規(guī)避決策能力具有較好的自適應性,在圖10(b)記錄的轉向控制動作中雖然出現(xiàn)了較多的跳變現(xiàn)象,但是其不影響整體的避障性能。

        綜上可以看出,本文算法訓練出的避障策略,對環(huán)境的改變具有較好的自適應能力,訓練后的D3QN網(wǎng)絡也表現(xiàn)出了較好的泛化性能。

        3.4 導航避障算法測試

        為了進一步測試把規(guī)避決策應用到具體任務中的表現(xiàn)性能,在搭建的圖8的未知測試場景中對算法進行了測試,測試結果如圖11所示。

        從仿真測試結果可以看出,無人機在執(zhí)行航點導航任務的過程中,能夠判斷出前方是否存在障礙,并能做出合理決策,及時進行規(guī)避,在避開障礙之后繼續(xù)朝著設置的航點飛行。

        圖11 飛行軌跡(多航點任務)導航避障算法測試飛行軌跡Fig.11 Flight trajectory (multi-waypoint task) navigation obstacle avoidance algorithm test flight trajectory

        相比于基于地圖和規(guī)劃的避障方法,基于學習的避障方法直接根據(jù)圖像作出相應決策,其優(yōu)勢在于不依賴地圖,能較好地適用于未知無圖的環(huán)境。但是在建圖良好的情況下,基于地圖和規(guī)劃的避障方法可以依據(jù)規(guī)劃好的路徑,控制無人機以盡可能快的速度飛行,其動作連續(xù),控制更加精準,最大運行速度可達10 m/s。而在本章的仿真實驗中,考慮到圖像處理、網(wǎng)絡計算量以及動作空間的離散性,無人機自主飛行的最大速度為4 m/s。

        4 結論

        無人機規(guī)避決策的導航控制問題是無人機的核心技術之一,論文研究成果有助于進一步完善無人機智能化、集群化的相關算法與技術,提升無人機中低空飛行的導航控制性能。但本文提出的基于改進強化學習的無人機視覺避障算法,仍有較大性能提升空間。如文中提出的D3QN網(wǎng)絡只能輸出離散動作空間,且只適用于旋翼無人機,為了進一步提升避障控制的精準程度以及算法的通用性,還應當研究旋翼無人機和固定翼無人機飛行控制的共性與區(qū)別,設置維度更大的動作空間來組合形成不同的運動模式,或是改用基于策略梯度的深度強化學習算法學習連續(xù)化的避障策略;其次是所提避障算法從仿真到真實環(huán)境的泛化問題,在仿真器中訓練無人機避障時,仿真器所提供的深度圖過于理想,不存在任何噪聲,實踐中應對其進行加噪聲處理,從而使仿真器提供的環(huán)境更加逼近真實環(huán)境。上述問題都有待進一步的深入研究、技術拓展并逐步完善。

        猜你喜歡
        動作智能
        下一個動作
        智能制造 反思與期望
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        智能制造·AI未來
        商周刊(2018年18期)2018-09-21 09:14:46
        動作描寫要具體
        畫動作
        讓動作“活”起來
        国产精品高清免费在线| 在线一区不卡网址观看| 日本aⅴ大伊香蕉精品视频| 好看的日韩精品视频在线| 黄片国产一区二区三区| 极品少妇一区二区三区| 中文字幕亚洲高清精品一区在线 | 亚洲色图片区| 大胸少妇午夜三级| a级毛片成人网站免费看| 伊伊人成亚洲综合人网香| 国产av无码专区亚洲av极速版| 人妻aⅴ无码一区二区三区| 国产精品爽爽va在线观看无码| 国内揄拍国内精品| аⅴ天堂国产最新版在线中文 | 国产又黄又爽又无遮挡的视频| 北条麻妃毛片在线视频| 99视频这里有精品| 青青青伊人色综合久久| 美女被插到高潮嗷嗷叫| 亚洲综合网中文字幕在线| 国产精品二区三区在线观看| av大片网站在线观看| 久久伊人精品中文字幕有| 亚洲一区二区三区激情在线观看| 成人在线观看av毛片| 人成综合视频在线播放| 无码熟妇人妻av在线网站| 国产精品无码一区二区三级| 亚洲熟女综合色一区二区三区 | 亚洲中文字幕无码一久久区| 99久久免费国产精品| 欧美成人午夜精品久久久| 国产精品午夜无码av天美传媒| 亚洲国产精品特色大片观看完整版| 97久久超碰国产精品2021| 色综合久久久久综合999| 国产亚洲精品高清视频| 日本一区二区三区不卡在线| 极品av一区二区三区|