亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于IMM-PPO的無人機機動目標追蹤

2022-03-20 09:06:46成旭明叢玉華歐陽權王志勝

彈箭與制導學報 2022年6期

成旭明，叢玉華，歐陽權，王志勝

(南京航空航天大學自動化學院，南京 210016)

0 引言

隨著航空、軍事領域的發(fā)展，空中偵察追逃、災后搜索救援等任務的危險和損耗與日俱增。無人機因其高機動性、低成本性，在這些任務中得到廣泛的應用[1-2]。如何使無人機在復雜環(huán)境下具備自主避障導航與跟蹤機動目標的能力是在實際應用中需要解決的難題，為此國內外學者進行了深入研究。

智能體在復雜環(huán)境中進行自主避障跟蹤可以視為一類具有動態(tài)目標點的路徑規(guī)劃問題，在常見的路徑規(guī)劃問題上，Duchoň等[3]通過生成詳細網格地圖為智能體提供全局信息，采用改進的A*算法完成路徑規(guī)劃。Huang等[4]采用RRT算法在環(huán)境不確定性下規(guī)劃智能體軌跡。Li等[5]將規(guī)劃問題轉換為目標優(yōu)化問題，并提出了一種基于牛頓引力的啟發(fā)式算法進行搜索尋優(yōu)。上述的路徑規(guī)劃策略在全局規(guī)劃上具備一定的優(yōu)勢，但對智能體模型與地圖環(huán)境的信息有較高的要求。

隨著計算機技術與人工智能的發(fā)展，一些研究者嘗試將強化學習應用于無人機導航任務中，取得了不錯的成果。Q-learning是強化學習中一種較為常用的算法，能夠通過判斷長期折扣獎勵評估智能體的學習優(yōu)劣[6]。Zhao等[7]設計了基于Q-learning的自適應路徑探索與避障策略，用以無人機導航。Chao等[8]改進了Q-learning的動作選擇策略并采用新的Q值初始化方法，使無人機具有更強的探索最優(yōu)路徑的能力。深度神經網絡以其強大的函數逼近擬合能力，與強化學習結合衍生出許多改進算法，Jiang等[9]將經驗回放思想引入DQN提出了MP-Dueling DQN，相比DQN在無人機避障與跟蹤任務上具有更快的收斂速度與更強的泛化性。Guo等[10]采用分布式深度強化學習框架，利用LSTM神經網絡處理時序問題的能力，提出了分層RQN的學習方法，能夠在高動態(tài)環(huán)境中完成導航。以上方法雖然具備完成導航任務的能力，但也存在智能體動作空間離散的局限性。與這些方法中的離散動作空間不同，在實際應用中，無人機的動作空間往往是連續(xù)的，在現有的研究中，Li等[11-12]基于連續(xù)動作空間的DDPG算法框架，改進了演員-評價者(Actor-Critic)網絡結構，使其對歷史觀測具備更好的擬合能力，對地面目標跟蹤性能更優(yōu)。在DDPG探索中引入混合噪聲，對飛行任務解構并基于遷移學習的思想進行預訓練權重，在面對不確定環(huán)境時具有良好的泛化性。以上研究通過強化學習訓練決策網絡，能夠對移動目標進行有效避障跟蹤，但在面對具有混合運動模型的機動目標時，缺少了對目標的狀態(tài)估計步驟，在實際任務中具有較大的偏差。

針對上述缺陷，提出一種基于交互式多模型濾波(IMM)和近端策略優(yōu)化(PPO)的機動目標追蹤跟隨策略，定義了以無人機運動模型為基礎的動作空間以及用來表示環(huán)境信息的狀態(tài)空間，根據追蹤時間、跟蹤性能以及避障約束構建獎懲函數，設計避障跟蹤決策網絡并進行訓練。根據仿真實驗分析，提出的方法相比傳統算法在動態(tài)環(huán)境中具備更優(yōu)秀的追蹤避障及跟蹤性能。

1 問題描述

1.1 無人機運動模型

研究無人機在三維空間中的動態(tài)目標追蹤任務，假設能夠通過自動駕駛儀使無人機運動在某一固定高度，無人機在二維坐標系中滿足如下的連續(xù)運動方程：

(1)

式中：x(t),y(t)為t時刻無人機在二維坐標系中的位置；v(t)表示t時刻無人機朝向方向的線速度；ψ(t),w(t)分別為t時刻無人機的偏航角與偏航角速度。將運動方程離散化可以得到從t時刻到(t+1)時刻的無人機狀態(tài)更新方程為：

(2)

式中Δt為離散時間間隔。

1.2 任務目標及約束

無人機在復雜障礙物環(huán)境中追蹤并跟隨移動目標需要綜合考慮目標跟蹤性能與追蹤耗時，同時需要滿足任務過程中的避障約束。

1.2.1 目標跟蹤性能

對機動目標的跟蹤性能通?？梢杂脽o人機與目標的距離表示，提升跟蹤性能即縮短無人機在單位時間內與目標的距離。跟蹤性能對應的目標函數可以表示為：

(3)

1.2.2 追蹤耗時

在無人機實際執(zhí)行目標跟蹤任務時，會存在起始位置與目標起始位置相距較大的問題。在這種情況下，無人機需要自主規(guī)劃路徑以快速追蹤并逼近機動目標，因此縮短無人機追蹤目標的時間是需要考慮的另一個重要目標。追蹤時間的待優(yōu)化目標函數可以表示為：

minJ2=NΔt

(4)

式中N為無人機到達目標跟蹤范圍內的采樣步數。

1.2.3 避障約束

在無人機的飛行域內存在大小、方位均未知的靜止障礙物，可視為移動障礙物的敵方無人機，追蹤無人機在感知到敵方無人機后能夠獲取其最大半徑及當前時刻的狀態(tài)信息。在復雜障礙物環(huán)境下，考慮到算法學習的收斂性，將實際觀測窗信息進行處理，壓縮至9條激光束，且每個激光束的相隔角度為22.5°，如圖1所示。

圖1 基于激光測距的無人機障礙物檢測

圖中:vuav為無人機當前的速度矢量;{di|d1,d2,…,dn}為第i個從無人機出發(fā)的激光束測得的與障礙物的距離，且di≤dmax。任務環(huán)境中存在靜止障礙與運動狀態(tài)已知的移動障礙，若在無人機導航過程中發(fā)生碰撞，則任務失敗，因此無人機需要與障礙物保持合理安全的距離，約束條件為：

min(d1,d2,…,dn)>rsafe

(5)

式中rsafe為安全避障距離。

2 基于IMM-PPO的無人機避障跟蹤

為了實現復雜環(huán)境下對機動目標更準確的跟蹤，將IMM與PPO算法結合，對機動目標進行多模型融合狀態(tài)估計，并將融合輸出結合其他觀測量構建狀態(tài)空間，作為強化學習算法Actor-Critic網絡的輸入，訓練無人機自主跟蹤決策模型。作為一種基于策略的算法，PPO算法解決了傳統策略梯度算法收斂依賴步長選擇的問題并提高了經驗利用率，使訓練過程能夠更快收斂。

2.1 跟蹤目標狀態(tài)估計

卡爾曼濾波常用于運動目標的狀態(tài)估計，而在復雜環(huán)境下，機動目標的運動模型往往不是單一的，基于IMM的濾波方法能夠考慮多個運動模型的轉移概率，通過馬爾可夫轉移矩陣完成模型概率更新，從而得到多個濾波器的融合輸出估計。IMM的優(yōu)化過程如圖2所示。

圖2 交互式多模型濾波融合估計

定義模型間的概率轉移矩陣P為:

(6)

其中pij(i=1,2,…,n;j=1,2,…,n)代表由模型i轉換到模型j的概率，根據轉移概率及概率更新計算模型混合概率為：

(7)

(8)

(9)

模型j的概率更新采用最大似然函數法，選取似然函數為：

(10)

式中vj(k),Sj(k)分別為濾波殘差與其協方差，由對應于模型j的濾波器輸出得到，概率更新方式為：

(11)

(12)

至此完成了k時刻運動目標的狀態(tài)估計。

2.2 基于強化學習的目標跟蹤框架

2.2.1 動作空間和狀態(tài)空間設計

參照1.1節(jié)中無人機運動模型，以無人機朝向方向的線速度v與偏航角速度w作為控制量輸入，強化學習動作空間可表示為：

A=(v,w)

(13)

狀態(tài)空間從3個角度構建：1)無人機自身信息；2)對障礙物和動態(tài)威脅的觀測量；3)機動目標的狀態(tài)估計。在強化學習算法中，為了消除狀態(tài)信息的維度不同對訓練效果造成的影響，對狀態(tài)空間St=(Sb,So,Star)中不同量綱的分量進行歸一化處理，分別表示為：

(14)

(15)

(16)

其中：(xuav,yuav)為當前時間步下無人機于坐標系下的位置坐標；xmax,ymax分別為矩形飛行域的長、寬；ψ為無人機偏航角；vmax為無人機最大允許線速度；Svo表示碰撞域的狀態(tài)信息；θ表示當前無人機和目標的連線與坐標系x軸所成夾角。無人機追蹤機動目標的過程如圖3所示。

圖3 無人機追蹤機動目標示意圖

2.2.2 獎懲函數設計

針對無人機自主避障跟蹤的獎懲函數設計建立在指標函數與約束條件的基礎之上。一種常用的設計思路是采用稀疏獎懲，即智能體僅在回合結束的情況下得到獎懲，這就需要智能體以不加引導的隨機動作不斷探索環(huán)境以獲得獎懲，會導致算法的收斂速度降低，并且容易陷入局部最優(yōu)解。因此在任務中，獎懲函數由稀疏獎懲與單步獎懲組成，稀疏獎懲僅在特定任務完成或回合結束時產生，單步獎懲則在智能體與環(huán)境的每一步交互后產生，旨在引導智能體更快地完成追蹤任務。

1)障礙物懲罰函數

根據狀態(tài)空間及避障約束條件設計障礙物懲罰函數，利用狀態(tài)信息{di|d1,d2,…,dn}構造虛擬斥力場的思想，在無人機接近障礙物時給以較大的懲罰，而在遠離障礙物時給以較小的懲罰，在未檢測到障礙物時懲罰為0，設置單步懲罰函數的數學形式為：

(17)

式中αso為障礙物懲罰系數。在面對具有避障功能的移動障礙物時，基于碰撞域提出一種考慮碰撞時間的懲罰函數設計方法。為了方便計算，將障礙物與無人機形狀簡化為其最小外接圓。如圖4所示，其中va,ra分別為無人機速度矢量和半徑，vb,rb分別為障礙物速度矢量和半徑。

圖4 無人機與移動障礙物示意圖

圖5 碰撞域示意圖

(18)

ACC=RCC⊕vb

(19)

根據碰撞域的數學形式，當無人機的線速度矢量處于碰撞域ACC內時，經過時間tc，智能體將與移動障礙物發(fā)生碰撞?；陬A期碰撞時間的單步懲罰函數構造為：

(20)

ro=rso+rvo

(21)

此外，為了縮減訓練時間使其更快收斂，在無人機撞到障礙物或邊界時將得到稀疏懲罰：

(22)

2)快速追蹤獎勵函數

復雜環(huán)境下追蹤目標需要無人機以較短的時間完成避障導航并快速進入目標跟蹤范圍，因此在避障導航階段決策網絡需要提供較大的速度決策量，設置單步獎勵函數為：

(23)

rt=-αtkLk

(24)

rf=rv1+rt

(25)

此外，為了鼓勵無人機到達跟蹤范圍，在完成避障導航后，給以稀疏獎勵：

(26)

3)跟蹤性能獎勵函數

為了實現更精準的無人機地面目標跟蹤，需要使跟蹤階段的無人機具有與目標接近的速度，且在二維平面上無人機與目標的距離越小代表跟蹤性能越好。因此設置基于速度、距離和角度的獎懲函數分別為：

(27)

rL=αL(Lk-1-Lk)

(28)

(29)

rc=rv2+rL+ra

(30)

將以上獎懲函數按照重要性分配權重系數，則總獎懲函數的數學表達形式為：

r=woro+wfrf+wcrc+rdone1+rdone2

(31)

2.3 基于IMM-PPO的目標追蹤策略訓練

PPO算法采用了Actor-Critic網絡，這種網絡結構能夠同時進行值函數與策略函數學習，其中Actor學習策略函數，Critic學習策略的近似值函數。

圖6 Actor-Critic網絡

在Actor-Critic框架下的策略更新[13]可以表示為：

(32)

圖7 無人機導航跟蹤策略訓練框架

Actor網絡用于接收智能體與環(huán)境交互的狀態(tài)信息St=(Sbody,Sobs,Star)，并輸出動作(v,w)的采樣Dt，Critic網絡通過對優(yōu)勢函數的估計來評估策略的優(yōu)劣。網絡權重及學習參數的更新本質上是學習關于(a,s)的策略函數，將待優(yōu)化的導航跟蹤策略函數近似參數化：

Π(a|s)～Πθ(a,s)

(33)

式中：a為無人機動作(v,w)；s為狀態(tài)信息St。通過策略梯度算法對策略參數進行基于梯度的優(yōu)化[14]，定義策略梯度估計為：

(34)

(35)

式中：VΠ(st)表示無人機在t時刻下的狀態(tài)st時采用策略Π的價值；Rt′表示在t′時刻智能體得到的獎勵；γ為獎勵折扣因子。無人機導航跟蹤策略更新的目的是尋找到一個優(yōu)于原策略Πθ的Π′θ，以舊的策略Πθ與環(huán)境交互，將采集到的樣本用于更新策略Π′θ，為了防止新舊策略相差過大，使用一種截斷方式限制策略更新。因此采用優(yōu)勢函數估計描述策略更新的目標函數表示為：

(36)

式中：Π′θ為新的策略，ε為超參數。clip()函數用來將新舊策略的比值限定在(1-ε)與(1+ε)之間，具體函數形式如圖8所示。

圖8 截斷函數示意圖

若在t時刻采取動作at的回報大于平均回報，即優(yōu)勢函數為正，則增大該動作概率，反之減小該動作概率。

2.4 無人機目標追蹤策略網絡決策

對網絡權重參數訓練完成后，決策網絡將無人機與環(huán)境交互采集到的狀態(tài)信息St=(Sb,So,Star)=(s1,s2,…,sn)作為輸入，其中n為狀態(tài)空間維度。采用權重參數和偏置計算網絡輸入的加權和，并得到神經元的輸出，其表達式為：

(37)

圖9 決策神經網絡結構圖

3 仿真驗證

為驗證IMM-PPO算法在無人機追蹤任務上的有效性，進行仿真實驗。首先進行仿真環(huán)境的搭建以及參數設置，然后分析了策略訓練過程中強化學習算法的獎勵變化曲線，最后分別采用IMM-PPO算法與DWA算法進行無人機機動目標追蹤仿真實驗，比較兩種算法的性能。

3.1 仿真環(huán)境

3.2 基于IMM-PPO的無人機跟蹤策略訓練

采用IMM濾波算法對目標狀態(tài)進行估計，將估計值作為強化學習算法狀態(tài)空間的一部分進行無人機跟蹤策略訓練。訓練過程中的回報隨回合數變化如圖10所示。

圖10 獎勵變化曲線

從圖中可以看出，在訓練初始時刻，無人機在復雜環(huán)境中處于探索階段，得到的回合獎勵較少。在多個回合訓練后，無人機逐漸具備避障跟蹤能力，能夠與障礙物保持安全距離并縮短與目標之間的最小距離，回報呈逐漸上升趨勢。在900回合后無人機避障跟蹤決策網絡權重趨于收斂，表明無人機能夠在獎勵函數的指引下學習到最優(yōu)的跟蹤策略。

3.3 與傳統DWA算法對比

為了突出IMM-PPO算法在障礙物環(huán)境中追蹤機動目標的優(yōu)越性，與傳統DWA算法作比較，設置兩種算法下無人機具備相同的初始狀態(tài)以及約束條件，在同樣的環(huán)境中追蹤運動模式相同的機動目標。

3.3.1 快速性對比

針對單位時間決策網絡的動作輸出，給出IMM-PPO算法和DWA算法下的無人機避障導航的過程圖如圖11所示。

圖11 避障導航過程圖

從圖中可以看出，IMM-PPO算法與DWA算法均能指引無人機躲避障礙并到達目標跟蹤范圍。在t=16 s時，IMM-PPO算法下的無人機檢測到障礙物并調整偏航角，在獎勵函數的引導下以較快的速度躲避障礙并飛往下一個跟蹤點，如圖11(a)所示。在t=21 s時DWA算法下的無人機檢測到障礙物并判斷后續(xù)k步的路徑指標函數，選擇最優(yōu)的避障路徑，并在t=31 s時完成避障，如圖11(d)所示。從t=36 s至t=42 s，IMM-PPO決策網絡根據環(huán)境信息預測的碰撞時間，結合快速追蹤的獎勵函數，調整輸出的動作，使無人機能夠快速且以較低代價遠離碰撞域，如圖11(e)、圖11(f)所示。t=50 s時，IMM-PPO算法下的無人機到達機動目標的跟蹤范圍并開始執(zhí)行跟蹤任務，而在t=79 s時，DWA算法指導的無人機才進入目標的跟蹤范圍，如圖11(g)、圖11(h)所示。兩種算法下無人機完成追蹤避障并進入目標跟蹤范圍的路徑長度如表1所示。

表1 IMM-PPO與DWA避障導航路徑長度比較

3.3.2 跟蹤性能對比

為了體現IMM-PPO在跟蹤性能方面的優(yōu)勢，無人機飛行過程中的速度控制量和目標相對距離變化曲線及跟蹤任務軌跡分別如圖12～圖14所示。

圖12 IMM-PPO，DWA速度變化圖

圖13 無人機與目標相對距離圖

圖14 機動目標跟蹤任務軌跡圖

從圖12可以看出，在任務起始時刻，IMM-PPO算法與DWA算法都輸出較大的速度控制量，從而使無人機能夠快速接近目標，在檢測到障礙物并進入避障任務環(huán)節(jié)時，IMM-PPO算法的速度控制量仍舊穩(wěn)定在最大允許速度附近，而DWA算法下無人機的速度控制量具有較大振幅。當任務進行到跟蹤階段，即無人機到達機動目標的跟蹤范圍內時，IMM-PPO策略網絡輸出一個接近機動目標真實速度的速度控制量進行跟蹤，并且直到仿真結束均能夠穩(wěn)定在目標速度附近；而DWA算法下的無人機速度振蕩明顯，無法達到穩(wěn)定在目標速度附近的跟蹤效果。圖13描述了任務過程中無人機與目標相對位置變化，可以看出，從t=50 s至t=149 s，IMM-PPO決策網絡能夠使無人機以平穩(wěn)的速度穩(wěn)定在跟蹤范圍內，相比于DWA算法，IMM-PPO算法下的無人機具有更多的有效跟蹤步數。圖14展示了從初始時刻到最大時間步數的無人機運動軌跡，從圖中可以看出，IMM-PPO算法下的無人機具有更加平滑的運動軌跡，DWA算法犧牲了部分跟蹤性能而進行避障，軌跡具有較明顯的突變。根據以上結果分析，基于IMM-PPO算法的無人機在線避障跟蹤策略明顯具有更好的跟蹤性能。

3.4 強化學習在線跟蹤策略

為了進一步體現IMM-PPO的在線感知避障跟蹤能力，改變環(huán)境中障礙物的大小，分別設置無人機與移動障礙物位于與上述仿真不同的初始位置(110 m,10 m)，(182 m,204 m)并且移動障礙物具有不同的避障軌跡，仿真結果如圖15所示。

由圖15可以得到，無人機能夠在無碰撞的情況下，在41 s時到達目標跟蹤范圍執(zhí)行跟蹤任務并始終保持與目標的相對距離在20 m內。由此可以看出，在環(huán)境改變的情況下，訓練后的無人機避障跟蹤策略網絡仍然能夠指導無人機進行靜止與移動障礙躲避并跟蹤機動目標。

圖15 不同環(huán)境下的無人機在線避障跟蹤仿真

總之，傳統的避障算法DWA能夠通過指標函數選取最優(yōu)的無人機控制量(v,w)，但在面對復雜障礙物時將得到較大的減速度，從而無法保持較高的速度追蹤機動目標，延長了無人機導航的路徑長度與耗時，在執(zhí)行跟蹤任務時無法保持與目標接近的速度。而文中所提算法能夠在線自適應調整動作，根據無人機與移動障礙的預期碰撞時間避免其在追蹤過程中陷入碰撞域內，從而快速躲避障礙物并到達目標跟蹤范圍，在跟蹤目標時速度能夠穩(wěn)定在目標速度附近，更適用于無人機機動目標跟蹤場景。

4 結論

針對復雜環(huán)境下無人機機動目標追蹤的問題，提出一種基于IMM-PPO的目標追蹤策略，首先采用交互式濾波算法對機動模型進行濾波估計，接著根據優(yōu)化目標及約束設計獎懲函數，并對策略網絡權重進行訓練，訓練好的神經網絡根據智能體與環(huán)境交互得到的信息更新輸出動作的概率分布，在避開靜止與移動障礙物的前提下在線完成快速導航并對機動目標進行穩(wěn)定跟蹤。從仿真結果來看，相較于傳統避障算法DWA，文中所提算法能夠兼顧目標跟蹤過程的安全性、快速性并且能夠保持更好的跟蹤性能，在環(huán)境改變時也能夠執(zhí)行目標追蹤任務，具備一定的泛化性。