基于GA-OCPA學(xué)習(xí)系統(tǒng)的無人機(jī)路徑規(guī)劃方法

2017-12-20 11:04:16劉鑫楊霄鵬劉雨帆姚昆

航空學(xué)報 2017年11期

關(guān)鍵詞：規(guī)劃系統(tǒng)

劉鑫，楊霄鵬，劉雨帆，姚昆

1. 空軍工程大學(xué) 信息與導(dǎo)航學(xué)院，西安 710077 2. 北京航空航天大學(xué) 電子信息工程學(xué)院，北京 100083

基于GA-OCPA學(xué)習(xí)系統(tǒng)的無人機(jī)路徑規(guī)劃方法

劉鑫1，*，楊霄鵬1，劉雨帆2，姚昆1

1. 空軍工程大學(xué) 信息與導(dǎo)航學(xué)院，西安 710077 2. 北京航空航天大學(xué) 電子信息工程學(xué)院，北京 100083

為解決未知空域中無人機(jī)路徑規(guī)劃方法實時性和適用性不足的問題，以生物應(yīng)激條件反射理論為基礎(chǔ)，將無人機(jī)實時路徑規(guī)劃類比為在外界條件刺激下的一種自學(xué)習(xí)行為。首先，將概率自動機(jī)與遺傳算法相結(jié)合，設(shè)計了基于Skinner操作條件反射理論框架(GA-OCPA)的學(xué)習(xí)系統(tǒng)；然后，將無人機(jī)規(guī)避機(jī)動的飛行速度、滾轉(zhuǎn)加速度和拉升加速度作為系統(tǒng)學(xué)習(xí)的行為，并計算每次學(xué)習(xí)嘗試之后的選擇概率和個體適應(yīng)度，通過遺傳算法搜索最優(yōu)行為進(jìn)而得到最優(yōu)路徑；最后，運(yùn)用增量多層判別回歸樹(IHDR)對學(xué)習(xí)得到的最優(yōu)行為建立知識庫，形成威脅狀態(tài)與路徑規(guī)劃的匹配映射。實驗結(jié)果表明GA-OCPA學(xué)習(xí)系統(tǒng)對于無人機(jī)路徑規(guī)劃具備有效性和適用性。

無人機(jī)；路徑規(guī)劃；遺傳算法；操作條件反射；概率自動機(jī)

路徑規(guī)劃的常規(guī)模式是通過傳感器感知周圍環(huán)境信息，進(jìn)而完成實時路徑規(guī)劃。傳統(tǒng)方法主要有：拓?fù)浞?、柵格法、動態(tài)規(guī)劃法、勢場法、最優(yōu)控制法等[1-7]。這些方法存在迭代次數(shù)多、計算復(fù)雜度高、實時性不足等缺點，無法良好地適用于無人機(jī)技術(shù)高速發(fā)展背景下空域中多種威脅因素并存時的路徑規(guī)劃需求。

無人機(jī)的動力學(xué)模型復(fù)雜程度高，同時所面向的空域環(huán)境也具有高度不確定性[8]。因此，在面臨威脅時完全依靠飛控計算機(jī)進(jìn)行編程實現(xiàn)路徑規(guī)劃會使無人機(jī)的規(guī)避機(jī)動滯后，極大地制約了無人機(jī)性能的發(fā)揮[9]?？紤]到無人機(jī)面臨空中威脅的突發(fā)性且具有相對運(yùn)動速度大的特點，通過模仿生物體的學(xué)習(xí)活動，使無人機(jī)在其性能約束的條件下具備自主學(xué)習(xí)能力，可以大大提高威脅出現(xiàn)時路徑規(guī)劃的實時性、準(zhǔn)確性和適用性。這種基于自學(xué)習(xí)的人工智能方法已經(jīng)在無人機(jī)和機(jī)器人控制領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)[10]將博弈學(xué)習(xí)理論應(yīng)用于多無人機(jī)匯聚問題，各個無人機(jī)智能體之間通過學(xué)習(xí)算法得到任務(wù)要求的路徑規(guī)劃結(jié)果。文獻(xiàn)[11-12]分別提出了幾何協(xié)作學(xué)習(xí)算法和幾何強(qiáng)化學(xué)習(xí)算法，提高了單機(jī)和多機(jī)協(xié)同下的路徑規(guī)劃能力。文獻(xiàn)[13]提出了基于Q學(xué)習(xí)的機(jī)器人和無人機(jī)路徑規(guī)劃算法，通過智能體與環(huán)境的信息交互實現(xiàn)了在線學(xué)習(xí)。文獻(xiàn)[14]基于證據(jù)推理理論對無人機(jī)水面艦艇的碰撞風(fēng)險進(jìn)行評估，并通過學(xué)習(xí)得到最優(yōu)互惠避撞策略，可借鑒到無人機(jī)應(yīng)對空中威脅的路徑規(guī)劃方法中。

強(qiáng)化學(xué)習(xí)算法雖然具有較好的實時性，其對于機(jī)器人可以實現(xiàn)簡單的控制需求，而無人機(jī)的任務(wù)復(fù)雜程度更高，單一強(qiáng)化學(xué)習(xí)方法不能保證適用性。因此，針對未知空域中的無人機(jī)路徑規(guī)劃問題，本文以Skinner操作條件反射理論(Operant Conditioning, OC)[15]為框架，結(jié)合遺傳算法(Genetic Algorithm, GA)，在概率自動機(jī)(Probabilistic Automata, PA)的平臺基礎(chǔ)上設(shè)計了基于遺傳算法的操作條件概率自動機(jī)(Genetic Algorithm-Operant Conditioning Probabilistic Automata, GA-OCPA)學(xué)習(xí)系統(tǒng)。通過學(xué)習(xí)系統(tǒng)對路徑規(guī)劃中無人機(jī)的飛行速度、滾轉(zhuǎn)加速度和拉升加速度進(jìn)行學(xué)習(xí)，根據(jù)這3個參數(shù)的變化建立無人機(jī)動態(tài)避撞區(qū)模型。再運(yùn)用操作條件反射機(jī)制學(xué)習(xí)最優(yōu)行為并與環(huán)境進(jìn)行交互獲得反饋信息，進(jìn)而完成信息熵值的更新，同時采用增量多層判別回歸樹(Incremental Hierarchical Discriminant Reqression, IHDR)方法對最優(yōu)狀態(tài)下的行為建立知識庫[16-17]。最后，通過仿真驗證了所提方法的適用性、必要性、有效性及其優(yōu)勢。

1 GA-OCPA學(xué)習(xí)系統(tǒng)設(shè)計

仿生學(xué)是根據(jù)生物體在特定條件下的行為與環(huán)境交互后得到的反饋符合個體的取向性，則在相似條件下生物體完成類似行為的概率會增大。因為無人機(jī)采取避撞機(jī)動時的飛行速度、滾轉(zhuǎn)加速度和拉升加速度均為可控參數(shù)，所以可通過建立仿生學(xué)習(xí)系統(tǒng)對采集到的行為信息進(jìn)行學(xué)習(xí)。

將遺傳算法(GA)思想與概率自動機(jī)(PA)相結(jié)合設(shè)計GA-OCPA仿生學(xué)習(xí)系統(tǒng)的結(jié)構(gòu)如圖1所示。

其中每個個體代表無人機(jī)采取避撞機(jī)動行為方式的一個集合，通過作用于環(huán)境獲得的反饋實現(xiàn)狀態(tài)更新和性能評價，采用Skinner OC理論對個體的最優(yōu)行為方式進(jìn)行學(xué)習(xí)，并計算信息熵值作用于GA對個體行為方式的集合進(jìn)行尋優(yōu)，進(jìn)而使無人機(jī)適應(yīng)環(huán)境中的威脅。

圖1 GA-OCPA學(xué)習(xí)系統(tǒng)結(jié)構(gòu)圖Fig.1 Structure diagram of GA-OCPA learning system

1.1 學(xué)習(xí)系統(tǒng)數(shù)學(xué)定義

根據(jù)PA的定義形式，GA-OCPA系統(tǒng)的數(shù)學(xué)定義為

GA-OCPA=(x,N,Q,o,F,φ,S,H,G)

(1)

該九元組的各部分含義為:

1)x=x(t)為系統(tǒng)的內(nèi)部狀態(tài)，是實際控制系統(tǒng)的狀態(tài)值。

2)N={ni|i=1,2,…,m}為對系統(tǒng)內(nèi)部狀態(tài)x=x(t)進(jìn)行離散化之后的結(jié)果，是系統(tǒng)內(nèi)部所有離散化狀態(tài)組成的集合，且m為離散化個數(shù)，ni∈N為第i個離散的狀態(tài)。

3)Q={Aj|j=1,2,…,M}為系統(tǒng)的種群，其中每個種群包含N個個體，Aj∈Q為第j個個體，且個體Aj={ajk|k=1,2,…,r}即學(xué)習(xí)系統(tǒng)行為方式的集合，ajk為個體Aj中的第k個行為方式，個體A對其包含的r個行為方式進(jìn)行編碼。

(2)

5)F:ni(t)×ajk(t)→ni(t+1)為狀態(tài)轉(zhuǎn)移，F(xiàn)是由無人機(jī)采取機(jī)動行為引起的狀態(tài)變化ni(t)→ni(t+1),且狀態(tài)ni(t+1)只與前一時刻狀態(tài)ni(t)和該時刻行為ajk(t)有關(guān)。

6)φ={φ1,φ2,…,φm}為系統(tǒng)的取向函數(shù)，狀態(tài)ni(t)的取向值可以用φi表示。當(dāng)某一狀態(tài)的取向值φ→0時，表示對該狀態(tài)的取向程度高且學(xué)習(xí)性能好；當(dāng)某一狀態(tài)的取向值φ→1時，表示對該狀態(tài)的取向程度低且學(xué)習(xí)性能差。因此，系統(tǒng)的概率矢量Pj通過φi(t)的變化趨勢進(jìn)行更新。

7)S:oj(t)→oj(t+1)為Skinner OC學(xué)習(xí)算法，通過算法完成對最優(yōu)行為方式的選取。

(3)

9)G:ni(t)→Aj表示系統(tǒng)通過遺傳算法的進(jìn)化思想獲得最優(yōu)個體Aj。

1.2 Skinner OC算法設(shè)計

因為與系統(tǒng)進(jìn)行交互的位置環(huán)境的狀態(tài)是動態(tài)的，所以引入獎勵概率作為行為的評價信號，系統(tǒng)狀態(tài)ni(t)獲得獎勵的概率為

(4)

式中：wik(t)為行為ajk獲得累計獎勵的總和；zik(t)為系統(tǒng)狀態(tài)為ni(t)時，行為ajk被選擇的次數(shù)。

當(dāng)a(t)=ajk時，有

(5)

zik(t+1)=zik(t)+1

(6)

(7)

當(dāng)a(t)=ajk1且k≠k1時，有

wik(t+1)=wik(t)

(8)

zik(t+1)=zik(t)

(9)

dik(t+1)=dik(t)

(10)

算法通過對前后兩時刻之間的取向值之差對行為概率p(t)進(jìn)行更新。

當(dāng)φi(t+1)-φi(t)<0時，有

(11)

(12)

其中

(13)

(14)

(15)

當(dāng)φi(t+1)-φi(t)>0時，有

(16)

(17)

其中

(18)

(19)

(20)

式(11)～式(20)中:α(t)和β(t)為算法的學(xué)習(xí)速率，且0<α(t)<1,0<β(t)<1；η1和η2均為大于0的常數(shù)；Δ為行為概率的增量部分。

將取向值函數(shù)φi(t)加入行為選擇概率公式能夠改變系統(tǒng)學(xué)習(xí)速度，同時使學(xué)習(xí)系統(tǒng)更好地表現(xiàn)出生物體的取向性特點。當(dāng)任意狀態(tài)取向值增大時，其行為選擇概率更新的增量值就會隨α(t)的減小而減小，進(jìn)而使學(xué)習(xí)速度降低；同理，當(dāng)狀態(tài)取向值減小時會使系統(tǒng)學(xué)習(xí)速度加快。且行為選擇概率更新使得第j個個體的行為熵更新為

(21)

1.3 算法學(xué)習(xí)流程

無人機(jī)基于GA-OCPA學(xué)習(xí)系統(tǒng)的路徑規(guī)劃流程可以分為6個步驟：

步驟1建立避撞區(qū)模型

由于無人機(jī)在空間中遭遇碰撞威脅多數(shù)采用向右滾轉(zhuǎn)并拉升、向左滾轉(zhuǎn)并拉升或拉升的機(jī)動方式，且無人機(jī)避撞機(jī)動時的飛行速度、滾轉(zhuǎn)加速度和拉升加速度均對避撞區(qū)的形狀和大小造成影響，故通過對參數(shù)的學(xué)習(xí)以增強(qiáng)無人機(jī)應(yīng)對威脅的避撞能力是十分必要的。

因此，通過分析無人機(jī)與威脅的空間幾何關(guān)系，根據(jù)相對飛行狀態(tài)信息和無人機(jī)采取的規(guī)避機(jī)動措施建立三維動態(tài)避撞區(qū)模型。

步驟2學(xué)習(xí)系統(tǒng)初始化

初始階段將學(xué)習(xí)系統(tǒng)的迭代次數(shù)t設(shè)置為0，根據(jù)無人機(jī)本身具備的路徑規(guī)劃能力隨機(jī)獲取r個初始數(shù)據(jù)組成個體Aj={ajk|k=1,2,…,r}。

步驟3遺傳算法對個體進(jìn)行訓(xùn)練

將pjk(0)=1/r代入式(3)求得系統(tǒng)的初始信息熵，即此時個體Aj的適應(yīng)度值?；谶z傳算法的進(jìn)化思想在N個個體組成的種群中選取最優(yōu)個體作為Skinner OC算法的行為方式集合。

步驟4基于Skinner OC算法選擇最優(yōu)行為

步驟5判定是否結(jié)束一次實驗

設(shè)定無人機(jī)的最小安全間隔R0,計算比較無人機(jī)實施以上行為之后形成的避撞區(qū)與威脅之間的距離是否大于R0。若大于，則進(jìn)入步驟6；否則，跳轉(zhuǎn)至步驟2。

步驟6運(yùn)用IHDR對適用的路徑規(guī)劃方法進(jìn)行知識存儲，實現(xiàn)“威脅-行為”的映射。存儲具體方法參見文獻(xiàn)[17]。

2 無人機(jī)三維動態(tài)避撞區(qū)建模

2.1 空間幾何關(guān)系

本文采用最接近點(Closest Point of Approach, CPA)的幾何算法，計算無人機(jī)與威脅之間最接近點的距離[18]，將最接近點距離與無人機(jī)規(guī)定的最小安全間隔相比較，從而判定無人機(jī)與威脅是否存在碰撞的可能。

無人機(jī)A的速度矢量可以表示為

VA=VAxx+VAyy+VAzz

(22)

又由幾何關(guān)系可得

(23)

故

(24)

同理

(25)

其中：x,y,z分別為x,y,z方向上的單位矢量。無人機(jī)與威脅速度矢量夾角的余弦值為

(26)

根據(jù)幾何關(guān)系可得

圖2 無人機(jī)與威脅的幾何關(guān)系Fig.2 Geometric relationship between UAV and threat

sinσAsinσB)

(27)

sinσAsinσB)

(28)

故

cos(∠VA,VB)=sinσAsinσB+

(29)

威脅與無人機(jī)的相對速度為

Vr=VB-VA

(30)

且相對速度大小為

(31)

又因為

(32)

故相對速度與坐標(biāo)系的夾角為

(33)

(34)

2.2 緊急避撞區(qū)模型

模型建立的基礎(chǔ)是認(rèn)為無人機(jī)通過廣播式自動相關(guān)監(jiān)視技術(shù)(Automatic Dependent Surveillance-Broadcast, ADS-B)和第二代空中交通警戒與防撞系統(tǒng)(Traffic Alert and Collision Avoidance System Ⅱ,TCAS Ⅱ)等監(jiān)視技術(shù)[19]能夠準(zhǔn)確獲得威脅的位置和速度等狀態(tài)信息。無人機(jī)在三維空間遭遇威脅，為了避免碰撞通常采用水平方向滾轉(zhuǎn)機(jī)動、垂直機(jī)動或兩者相結(jié)合的機(jī)動措施[20]。因此，根據(jù)無人機(jī)的避撞機(jī)動方式將避撞區(qū)域分為向右滾轉(zhuǎn)并拉升、向左滾轉(zhuǎn)并拉升和拉升3種類型。

圖3 向上拉升機(jī)動的幾何關(guān)系Fig.3 Geometric relationship of climbing maneuver

經(jīng)過t時間后，當(dāng)無人機(jī)與威脅之間的最近距離恰好為最小安全間隔R0時達(dá)到避撞區(qū)的臨界情況，初始位置為避撞區(qū)的邊界值，忽略飛行過程中可能存在的側(cè)滑角等誤差影響，可以得到t時刻無人機(jī)與威脅之間的距離R(t)為

(35)

根據(jù)無人機(jī)與威脅達(dá)到最近距離時恰好等于最小安全間隔R0,可以建立二元方程組：

{R′(t)=0

R(t)=R0

(36)

由于對R(t)求導(dǎo)可簡化為對R2(t)求導(dǎo)，整理可得：

(37)

同理，當(dāng)同時進(jìn)行水平方向上最大程度右滾轉(zhuǎn)和垂直方向上最大程度向上拉升機(jī)動時，即產(chǎn)生一個y軸上的大小為a1的加速度和一個z軸上的大小為a2的加速度，得到：

(38)

根據(jù)式(36)，由R2(t)求導(dǎo)代替對R(t)求導(dǎo)，整理得：

(39)

同理，當(dāng)同時進(jìn)行水平方向上最大程度左滾轉(zhuǎn)和垂直方向上最大程度拉升機(jī)動時，令a1<0即可得到數(shù)學(xué)模型方程，此處不做贅述。

三維避撞區(qū)的模型方程為二元非線性方程組，因此，可以采取迭代法進(jìn)行求解，用逐次逼近的方法得到未知量t和RL的數(shù)值解。根據(jù)無人機(jī)避撞的物理過程，將t<0的部分舍棄，令此時的緊急避撞區(qū)的邊界值為RL=R0。

2.3 影響因素分析

由式(37)和式(39)得到3種條件下避撞區(qū)的邊界，當(dāng)威脅進(jìn)入3種避撞區(qū)的交集時，無人機(jī)采取任何機(jī)動都無法避免碰撞。因此無人機(jī)要在避撞區(qū)交集以外的區(qū)域采取拉升、向右滾轉(zhuǎn)并拉升或向左滾轉(zhuǎn)并拉升的機(jī)動完成實時路徑規(guī)劃。

圖4 緊急避撞區(qū)模型Fig.4 Model for emergency collision avoidance area

2.3.1 無人機(jī)飛行速度對避撞區(qū)的影響

當(dāng)無人機(jī)飛行速度VA=80 m/s,其他條件不發(fā)生改變時，緊急避撞區(qū)如圖5所示。通過對比可見，改變無人機(jī)的速度，威脅與無人機(jī)的相對速度就會改變，因此對緊急避撞區(qū)而言，隨著相對速度的變化，無人機(jī)與威脅之間接近的速度更快，在x軸上表現(xiàn)最明顯，將使其區(qū)域范圍增大；相反，會使其區(qū)域范圍減小，威脅的速度改變原理相同。

2.3.2 無人機(jī)拉升加速度對避撞區(qū)的影響

當(dāng)無人機(jī)的拉升加速度g=20 m/s2,其他條件不發(fā)生改變時，緊急避撞區(qū)如圖6所示。

通過對比可見，對緊急避撞區(qū)而言，增大拉升加速度，無人機(jī)的機(jī)動性得到增強(qiáng)，縮短了與威脅之間的避撞時間，在z軸上表現(xiàn)最明顯，將使其區(qū)域范圍減小；相反，會使其區(qū)域范圍增大，滾轉(zhuǎn)加速度的改變原理相同。

圖5 飛行速度對緊急避撞區(qū)的影響Fig.5 Effect of flight speed on emergency collision avoidance area

圖6 拉升加速度對緊急避撞區(qū)的影響Fig.6 Effect of climbing acceleration on emergency collision avoidance area

通過實驗仿真可以看出，無人機(jī)速度、威脅速度、滾轉(zhuǎn)加速度和拉升加速度是所構(gòu)建避撞區(qū)的主要影響因素。分析避撞的物理過程，當(dāng)增大無人機(jī)或威脅的速度時，導(dǎo)致相對速度增大，互相接近的速度加快，為了達(dá)到避撞的目的，碰撞區(qū)會相應(yīng)增大；當(dāng)無人機(jī)滾轉(zhuǎn)加速度或拉升加速度增大時，無人機(jī)的機(jī)動性得到增強(qiáng)，縮短避撞時間，碰撞區(qū)也會相應(yīng)減小，得到的仿真結(jié)果和分析結(jié)果一致。無人機(jī)的飛行速度、滾轉(zhuǎn)加速度和拉升加速度都是可控因素，故利用GA-OCPA學(xué)習(xí)系統(tǒng)進(jìn)行路徑規(guī)劃時，可以將對無人機(jī)速度、滾轉(zhuǎn)加速度和拉升加速度的控制考慮在內(nèi)。

3 仿真實驗

為了驗證本文所提基于GA-OCPA學(xué)習(xí)系統(tǒng)路徑規(guī)劃方法的適用性、必要性、有效性及其優(yōu)勢，首先對未經(jīng)過學(xué)習(xí)的無人機(jī)在簡單地形威脅場景下的路徑規(guī)劃進(jìn)行了實驗，然后通過實驗對系統(tǒng)的學(xué)習(xí)效果進(jìn)行了分析，最后分別對經(jīng)過學(xué)習(xí)后無人機(jī)的路徑規(guī)劃能力在地形威脅、單一動態(tài)威脅、連續(xù)動態(tài)威脅和多種類型威脅場景下進(jìn)行了仿真驗證。

當(dāng)無人機(jī)未經(jīng)過學(xué)習(xí)時，其應(yīng)對威脅時的路徑規(guī)劃能力較弱，仿真結(jié)果如圖7所示。在簡單地形威脅條件下無法有效規(guī)避威脅，故通過學(xué)習(xí)系統(tǒng)提高無人機(jī)規(guī)避威脅能力具有必要性。

圖7 未進(jìn)行學(xué)習(xí)的路徑規(guī)劃圖Fig.7 Path planning without learning

3.1 系統(tǒng)性能分析

本文對所提GA-OCPA學(xué)習(xí)系統(tǒng)與文獻(xiàn)[12-13]提出的幾何強(qiáng)化學(xué)習(xí)(Geometric Reinforcement Learning,GRL)算法和Q-學(xué)習(xí)算法進(jìn)行了性能比較，3種學(xué)習(xí)算法均進(jìn)行100次迭代，種群中包含個體數(shù)量N=50,且個體內(nèi)包含行為方式個數(shù)r=10,初始概率pjk(0)=0.1。圖8為適應(yīng)度和概率值變化曲線，在學(xué)習(xí)進(jìn)化的過程中最大適應(yīng)度對應(yīng)最小熵值，最小適應(yīng)度對應(yīng)最大熵值。

當(dāng)個體被多次選擇時，其包含的行為方式被選取的概率也會增加。3種學(xué)習(xí)算法對最優(yōu)行為的選擇概率無限趨近于1，故包含該型的個體熵值趨近于0，此時個體具有最大適應(yīng)度值。由圖8(a)可知，GA-OCPA系統(tǒng)的收斂速度最快且適應(yīng)度值最早趨近于穩(wěn)定。

圖8 適應(yīng)度和概率變化趨勢曲線Fig.8 Curve of changes in fitness and probability

在學(xué)習(xí)的過程中某些行為方式被選擇的概率逐漸增加到0.9左右時趨于平緩且最終趨近于1。由圖8(b)可以看出，GA-OCPA學(xué)習(xí)系統(tǒng)在3種算法中的概率值學(xué)習(xí)曲線變化率最大，說明該系統(tǒng)在學(xué)習(xí)中經(jīng)驗積累的速度最快，最早由初始階段的隨機(jī)性學(xué)習(xí)方式變?yōu)榇_定性學(xué)習(xí)，進(jìn)而得到最優(yōu)的行為方式，并通過IHDR對最優(yōu)行為進(jìn)行知識存儲，形成威脅到路徑規(guī)劃映射的知識庫。

實驗表明GA-OCPA學(xué)習(xí)系統(tǒng)在動態(tài)變化的學(xué)習(xí)過程中可以較快地積累學(xué)習(xí)經(jīng)驗和更新行為方式，更早地由初始隨機(jī)搜索階段進(jìn)入最優(yōu)行為學(xué)習(xí)，具有良好的適應(yīng)性，更有利于空中環(huán)境復(fù)雜的無人機(jī)路徑規(guī)劃。

3.2 地形威脅場景

無人機(jī)經(jīng)過GA-OCPA學(xué)習(xí)系統(tǒng)的學(xué)習(xí)已具備一定的路徑規(guī)劃能力，采用地形威脅場景對無人機(jī)應(yīng)對靜態(tài)威脅的路徑規(guī)劃能力進(jìn)行驗證，場景仿真結(jié)果如圖9所示。

本機(jī)以30 m/s的速度在第0 s啟動，在進(jìn)入山峰的避撞區(qū)范圍時，通過先前學(xué)習(xí)經(jīng)驗從知識庫中得出最優(yōu)路徑規(guī)劃策略，同時對每次規(guī)劃行為進(jìn)行學(xué)習(xí)更新，根據(jù)不同地形的避撞區(qū)范圍，無人機(jī)完成規(guī)避機(jī)動的飛行速度、滾轉(zhuǎn)加速度和拉升加速度趨向最優(yōu)。

圖9 地形威脅路徑規(guī)劃圖Fig.9 Path planning in terrain threat

3.3 動態(tài)威脅場景

針對無人機(jī)在現(xiàn)實環(huán)境中動靜態(tài)威脅類型并存時的路徑規(guī)劃能力[21]，在地形威脅基礎(chǔ)上分別對單一動態(tài)威脅和連續(xù)動態(tài)威脅場景進(jìn)行驗證。

單一動態(tài)威脅場景仿真結(jié)果如圖10所示。

與地形威脅場景相同，無人機(jī)在第0 s開始以速度30 m/s飛行，威脅機(jī)在第6 min啟動，并且在第2.3 min進(jìn)入本機(jī)避撞區(qū)范圍，無人機(jī)根據(jù)學(xué)習(xí)得到的最優(yōu)行為進(jìn)行規(guī)避機(jī)動，采用增大左滾轉(zhuǎn)加速的方式在短時間內(nèi)完成實時路徑規(guī)劃。

連續(xù)動態(tài)威脅場景仿真結(jié)果如圖11所示。

在連續(xù)威脅場景中，威脅1與本機(jī)第0 s同時啟動，在第1.6 min進(jìn)入本機(jī)避撞區(qū)范圍，本機(jī)通過右滾轉(zhuǎn)并拉升的方式完成規(guī)避；威脅2在第5 min啟動，并在啟動后第3.6 min進(jìn)入本機(jī)避撞區(qū)范圍，無人機(jī)通過左滾轉(zhuǎn)實現(xiàn)有效規(guī)避。

圖10 單一動態(tài)威脅路徑規(guī)劃圖Fig.10 Path planning in singly dynamic threat

圖11 連續(xù)動態(tài)威脅路徑規(guī)劃圖Fig.11 Path planning in continuously dynamic threats

3.4 多種類型威脅場景

無人機(jī)飛行過程中還可能面臨敵方武器和大氣氣旋造成的禁飛區(qū)等威脅因素，在多種類型威脅場景中無人機(jī)路徑規(guī)劃難度更大。因此，實驗中加入雷達(dá)、導(dǎo)彈和大氣威脅以驗證無人機(jī)經(jīng)過學(xué)習(xí)后的路徑規(guī)劃能力。

本機(jī)啟動時間和初速度與前3種場景相同，無人機(jī)通過地形威脅和動態(tài)威脅場景的學(xué)習(xí)具有較強(qiáng)的路徑規(guī)劃能力。由仿真結(jié)果圖12可得，無人機(jī)有效規(guī)避大氣威脅造成的禁飛區(qū)域；同時，分別以較大滾轉(zhuǎn)加速的左滾轉(zhuǎn)和右滾轉(zhuǎn)機(jī)動實現(xiàn)對雷達(dá)威脅和導(dǎo)彈威脅的規(guī)避；并且在接近目標(biāo)點時通過連續(xù)左滾轉(zhuǎn)方式規(guī)避連續(xù)動態(tài)威脅。

仿真結(jié)果表明，無人機(jī)通過GA-OCPA學(xué)習(xí)系統(tǒng)的學(xué)習(xí)和經(jīng)驗知識的積累，能夠在不同威脅場景下采取最優(yōu)規(guī)避機(jī)動措施，以最小的代價完成實時路徑規(guī)劃，提高了無人機(jī)飛行的空域資源利用率和安全系數(shù)。

圖12 多種類型威脅路徑規(guī)劃圖Fig.12 Path planning in the multiple types of threats

4 結(jié) 論

1) 針對現(xiàn)有路徑規(guī)劃方法不能滿足無人機(jī)飛行過程中應(yīng)對突發(fā)威脅的問題，提出GA-OCPA學(xué)習(xí)系統(tǒng)，證明了其具有良好的自學(xué)習(xí)能力和自組織能力，且收斂時間短。

2) 建立無人機(jī)空間三維動態(tài)避撞區(qū)模型，分析了避撞區(qū)發(fā)生變化的影響因素，提出無人機(jī)可通過多種規(guī)避動作應(yīng)對威脅，進(jìn)而提高其飛行安全系數(shù)和空域利用率。

3) 無人機(jī)通過學(xué)習(xí)系統(tǒng)對路徑規(guī)劃過程中的規(guī)避機(jī)動行為進(jìn)行學(xué)習(xí)，并建立行為知識庫，多種場景仿真驗證無人機(jī)的學(xué)習(xí)效果，證明了GA-OCPA學(xué)習(xí)系統(tǒng)對于無人機(jī)路徑規(guī)劃具有適用性和有效性。

致謝

感謝空軍工程大學(xué)信息與導(dǎo)航學(xué)院楊霄鵬副教授對本文無人機(jī)避撞技術(shù)及相關(guān)內(nèi)容的指導(dǎo)，同時感謝北京航空航天大學(xué)電子信息工程學(xué)院劉雨帆碩士對本文系統(tǒng)學(xué)習(xí)理論的建議。

[1] KAVRAKI L E, SVESTKA P, LATOMBE J C, er al. Randomized preprocessing of configuration space for fast path planning[C]∥IEEE International Conference on Robotics and Automation. Piscataway, NJ: IEEE Press, 1994: 3020-3026.

[2] XIAO Q K, GAO X G, FU X W, et al. New local path replanning algorithm for unmanned combat air vehicle[C]∥Proceedings of the 6th World Congress on Intelligent Control and Automation. Piscataway, NJ: IEEE Press, 2006: 4033-4037.

[3] 丁家如, 杜昌平, 趙耀, 等. 基于改進(jìn)人工勢場法的無人機(jī)路徑規(guī)劃算法[J]. 計算機(jī)應(yīng)用, 2016, 36(1): 287-290.

DING J R, DU C P, ZHAO Y, et al. Path planning algorithm for unmanned aerial vehicles based on improved artificial potential field[J]. Journal of Computer Applications, 2016, 36(1): 287-290 (in Chinese).

[4] CHEN T B, ZHANG Q S. Robot motion planning based on improved artificial potential field[C]∥3rd 2013 International Conference on Computer Science and Network Technology. Piscataway, NJ: IEEE Press, 2013: 1208-1211.

[5] JU H S, TSAI C C. Design of intelligent flight control law following the optical payload[C]∥Proceedings of the 2004 IEEE International Conference on Networking, Science & Network. Piscataway, NJ: IEEE Press, 2004: 761-766.

[6] LUGO G I, FLORES G, SALAZAR S, et al. Dubins path generation for a fixed wing UAV[C]∥International Conference on Unmanned Aircraft Systems. Piscataway, NJ: IEEE Press, 2014: 339-346.

[7] LEE D, SHIM D H. Spline-RRT*based optimal path planning of terrain following flight for fixed-wing UAVs[C]∥The 11th International Conference on Ubiquitous Robots and Intelligence. Piscataway, NJ: IEEE Press, 2014: 257-261.

[8] GUAN X M, ZHANG X J, WEI J, et al. A strategic conflict avoidance approach based on cooperative coevolutionary with the dynamic grouping strategy[J]. International Journal of Systems Science, 2016, 47(9): 1995-2008.

[9] 魏瑞軒, 何仁珂, 張啟瑞, 等. 基于Skinner理論的無人機(jī)應(yīng)急威脅規(guī)避方法[J]. 北京理工大學(xué)學(xué)報, 2016, 36(6): 620-624.

WEI R X, HE R K, ZHANG Q R, et al. Skinner-based emergency collision avoidance mechanism for UAV[J]. Transactions of Beijing Institute of Technology, 2016, 36(6): 620-624 (in Chinese).

[10] LIN Z J, LIU H T. Consensus based on learning game theory with a UAV rendezvous application[J]. Chinese Journal of Aeronautics, 2015, 28(1): 191-199.

[11] ZHANG B, LIU W, MAO Z, et al. Cooperative and Ge-ometric Learning Algorithm(CGLA) for path planning of UAVs with limited information[J]. Automatica, 2014, 50(3): 809-820.

[12] ZHANG B, MAO Z, LIU W, et al. Geometric reinforcement learning for path planning of UAVs[J]. Journal of Intelligent & Robotic Systems, 2015, 77(2): 391-409.

[13] 郝釧釧, 方舟, 李平. 基于Q學(xué)習(xí)的無人機(jī)三維航跡規(guī)劃算法[J]. 上海交通大學(xué)學(xué)報, 2012, 46(12): 1931-1935.

HAO C C, FANG Z, LI P. A 3-D route planning algorithm for unmanned aerial vehicle based on Q-learning[J]. Journal of Shanghai Jiaotong University, 2012, 46(12): 1931-1935 (in Chinese).

[14] ZHAO Y, LI W, SHI P. A real-time collision avoidance learning system for unmanned surface vessels[J]. Neurocomputing, 2016, 182: 255-266.

[15] WOLF R, HEISENBERG M. Basic organization of operant-behavior as revealed in drosophila flight orientation[J]. Journal of Comparative Physiology A, 1991: 169(6): 699-705.

[16] HWANG W S, WENG J. Hierarchical discriminant regression[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11): 1277-1293.

[17] WENG J, HWANG W S. Incremental hierarchical discriminant regression[J]. IEEE Transactions on Neural Networks, 2013, 56(11): 2745-2761.

[18] KNEPPER R A, MASON M T. Realtime informed path sampling for motion planning search[J]. International Journal of Robotics Research, 2017, 31(11): 1231-1250.

[19] 張軍. 空域監(jiān)視技術(shù)的新進(jìn)展及應(yīng)用[J]. 航空學(xué)報, 2011, 32(1): 1-14.

ZHANG J. New development and application of airspace surveillance technology[J]. Acta Aeronautica et Astronautica Sinica, 2011, 32(1): 1-14 (in Chinese).

[20] MELEGA M, LAZARUS S, SAVVARIS A, et al. Multiple threats sense and avoid algorithm for static and dynamic obstacles[J]. Journal of Intelligent & Robotic Systems, 2015, 77(1): 630-635.

[21] CHEN Y, YU J, MEI Y, et al. Modified central force optimization (MCFO) algorithm for 3D UAV path planning[J]. Neurocomputing, 2016, 171: 878-888.

UAVpathplanningbasedonGA-OCPAlearningsystem

LIUXin1,*,YANGXiaopeng1,LIUYufan2,YAOKun1

1.InformationandNavigationInstitute,AirForceEngineeringUniversity,Xi’an710077,China2.SchoolofElectronicsandInformationEngineering,BeihangUniversity,Beijing100083,China

Tosolvetheproblemofdeficiencyinreal-timelinessandapplicabilityofpathplanningfortheUnmannedAerialVehicle(UAV)intheunknownairspace,thereal-timepathplanningoftheUAVissimulatedasaself-learningbehaviorundertheconditionofexternalstimuli,basedonthebiologicaloperantconditioningtheory.TheprobabilisticautomatoniscombinedwiththegeneticalgorithmtoconstructalearningsystemofGeneticAlgorithm-OperantConditioningProbabilisticAutomaton(GA-OCPA)accordingtotheSkinneroperantconditioning.TheUAVs’evasionmaneuveringflightspeed,rollingaccelerationandclimbingaccelerationaretakenasthelearningbehaviorsofthesystem,andtheprobabilityofselectionandindividualfitnessarecalculatedaftereachlearningattempt.Theoptimalpathcanthenbeobtainedbysearchingforthebestbehaviorusingthegeneticalgorithm.TheknowledgebaseofthebestlearnedbehaviorsisestablishedusingIncrementalHierarchicalDiscriminantRegression(IHDR),andthematchingmappingbetweenthethreatstateandpathplanningisthenformed.TheresultshowstheviabilityandapplicabilityoftheGA-OCPAlearningsystemforUAVpathplanning.

UnmannedAerialVehicle(UAV);pathplanning;geneticalgorithm;operantconditioning;probabilisticautomaton

2017-03-27；Revised2017-06-12；Accepted2017-07-17；Publishedonline2017-07-232103

URL：http://hkxb.buaa.edu.cn/CN/html/20171127.html

s：NationalNaturalScienceFoundationofChina(61202490);AeronauticalScienceFoundationofChina(20150896010)

.E-mailkdyliuxin@163.com

http://hkxb.buaa.edu.cnhkxb@buaa.edu.cn

10.7527/S1000-6893.2017.321275

V249.1

1000-6893(2017)11-321275-11

2017-03-27；退修日期2017-06-12；錄用日期2017-07-17；< class="emphasis_bold">網(wǎng)絡(luò)出版時間

時間：2017-07-232103

http://hkxb.buaa.edu.cn/CN/html/20171127.html

國家自然科學(xué)基金(61202490)；航空科學(xué)基金(20150896010)

.E-mailkdyliuxin@163.com

劉鑫，楊霄鵬，劉雨帆，等．基于GA-OCPA學(xué)習(xí)系統(tǒng)的無人機(jī)路徑規(guī)劃方法J．航空學(xué)報,2017,38(11):321275.LIUX,YANGXP,LIUYF,etal.UAVpathplanningbasedonGA-OCPAlearningsystemJ.ActaAeronauticaetAstronauticaSinica,2017,38(11):321275.

(責(zé)任編輯：蘇磊)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于GA-OCPA學(xué)習(xí)系統(tǒng)的無人機(jī)路徑規(guī)劃方法

1 GA-OCPA學(xué)習(xí)系統(tǒng)設(shè)計

1.1 學(xué)習(xí)系統(tǒng)數(shù)學(xué)定義

1.2 Skinner OC算法設(shè)計

1.3 算法學(xué)習(xí)流程

2 無人機(jī)三維動態(tài)避撞區(qū)建模

2.1 空間幾何關(guān)系

2.2 緊急避撞區(qū)模型

2.3 影響因素分析

3 仿真實驗

3.1 系統(tǒng)性能分析

3.2 地形威脅場景

3.3 動態(tài)威脅場景

3.4 多種類型威脅場景

4 結(jié) 論