劉鑫,楊霄鵬,劉雨帆,姚昆
1. 空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,西安 710077 2. 北京航空航天大學(xué) 電子信息工程學(xué)院,北京 100083
基于GA-OCPA學(xué)習(xí)系統(tǒng)的無人機(jī)路徑規(guī)劃方法
劉鑫1,*,楊霄鵬1,劉雨帆2,姚昆1
1. 空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,西安 710077 2. 北京航空航天大學(xué) 電子信息工程學(xué)院,北京 100083
為解決未知空域中無人機(jī)路徑規(guī)劃方法實時性和適用性不足的問題,以生物應(yīng)激條件反射理論為基礎(chǔ),將無人機(jī)實時路徑規(guī)劃類比為在外界條件刺激下的一種自學(xué)習(xí)行為。首先,將概率自動機(jī)與遺傳算法相結(jié)合,設(shè)計了基于Skinner操作條件反射理論框架(GA-OCPA)的學(xué)習(xí)系統(tǒng);然后,將無人機(jī)規(guī)避機(jī)動的飛行速度、滾轉(zhuǎn)加速度和拉升加速度作為系統(tǒng)學(xué)習(xí)的行為,并計算每次學(xué)習(xí)嘗試之后的選擇概率和個體適應(yīng)度,通過遺傳算法搜索最優(yōu)行為進(jìn)而得到最優(yōu)路徑;最后,運(yùn)用增量多層判別回歸樹(IHDR)對學(xué)習(xí)得到的最優(yōu)行為建立知識庫,形成威脅狀態(tài)與路徑規(guī)劃的匹配映射。實驗結(jié)果表明GA-OCPA學(xué)習(xí)系統(tǒng)對于無人機(jī)路徑規(guī)劃具備有效性和適用性。
無人機(jī);路徑規(guī)劃;遺傳算法;操作條件反射;概率自動機(jī)
路徑規(guī)劃的常規(guī)模式是通過傳感器感知周圍環(huán)境信息,進(jìn)而完成實時路徑規(guī)劃。傳統(tǒng)方法主要有:拓?fù)浞?、柵格法、動態(tài)規(guī)劃法、勢場法、最優(yōu)控制法等[1-7]。這些方法存在迭代次數(shù)多、計算復(fù)雜度高、實時性不足等缺點,無法良好地適用于無人機(jī)技術(shù)高速發(fā)展背景下空域中多種威脅因素并存時的路徑規(guī)劃需求。
無人機(jī)的動力學(xué)模型復(fù)雜程度高,同時所面向的空域環(huán)境也具有高度不確定性[8]。因此,在面臨威脅時完全依靠飛控計算機(jī)進(jìn)行編程實現(xiàn)路徑規(guī)劃會使無人機(jī)的規(guī)避機(jī)動滯后,極大地制約了無人機(jī)性能的發(fā)揮[9]??紤]到無人機(jī)面臨空中威脅的突發(fā)性且具有相對運(yùn)動速度大的特點,通過模仿生物體的學(xué)習(xí)活動,使無人機(jī)在其性能約束的條件下具備自主學(xué)習(xí)能力,可以大大提高威脅出現(xiàn)時路徑規(guī)劃的實時性、準(zhǔn)確性和適用性。這種基于自學(xué)習(xí)的人工智能方法已經(jīng)在無人機(jī)和機(jī)器人控制領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)[10]將博弈學(xué)習(xí)理論應(yīng)用于多無人機(jī)匯聚問題,各個無人機(jī)智能體之間通過學(xué)習(xí)算法得到任務(wù)要求的路徑規(guī)劃結(jié)果。文獻(xiàn)[11-12]分別提出了幾何協(xié)作學(xué)習(xí)算法和幾何強(qiáng)化學(xué)習(xí)算法,提高了單機(jī)和多機(jī)協(xié)同下的路徑規(guī)劃能力。文獻(xiàn)[13]提出了基于Q學(xué)習(xí)的機(jī)器人和無人機(jī)路徑規(guī)劃算法,通過智能體與環(huán)境的信息交互實現(xiàn)了在線學(xué)習(xí)。文獻(xiàn)[14]基于證據(jù)推理理論對無人機(jī)水面艦艇的碰撞風(fēng)險進(jìn)行評估,并通過學(xué)習(xí)得到最優(yōu)互惠避撞策略,可借鑒到無人機(jī)應(yīng)對空中威脅的路徑規(guī)劃方法中。
強(qiáng)化學(xué)習(xí)算法雖然具有較好的實時性,其對于機(jī)器人可以實現(xiàn)簡單的控制需求,而無人機(jī)的任務(wù)復(fù)雜程度更高,單一強(qiáng)化學(xué)習(xí)方法不能保證適用性。因此,針對未知空域中的無人機(jī)路徑規(guī)劃問題,本文以Skinner操作條件反射理論(Operant Conditioning, OC)[15]為框架,結(jié)合遺傳算法(Genetic Algorithm, GA),在概率自動機(jī)(Probabilistic Automata, PA)的平臺基礎(chǔ)上設(shè)計了基于遺傳算法的操作條件概率自動機(jī)(Genetic Algorithm-Operant Conditioning Probabilistic Automata, GA-OCPA)學(xué)習(xí)系統(tǒng)。通過學(xué)習(xí)系統(tǒng)對路徑規(guī)劃中無人機(jī)的飛行速度、滾轉(zhuǎn)加速度和拉升加速度進(jìn)行學(xué)習(xí),根據(jù)這3個參數(shù)的變化建立無人機(jī)動態(tài)避撞區(qū)模型。再運(yùn)用操作條件反射機(jī)制學(xué)習(xí)最優(yōu)行為并與環(huán)境進(jìn)行交互獲得反饋信息,進(jìn)而完成信息熵值的更新,同時采用增量多層判別回歸樹(Incremental Hierarchical Discriminant Reqression, IHDR)方法對最優(yōu)狀態(tài)下的行為建立知識庫[16-17]。最后,通過仿真驗證了所提方法的適用性、必要性、有效性及其優(yōu)勢。
仿生學(xué)是根據(jù)生物體在特定條件下的行為與環(huán)境交互后得到的反饋符合個體的取向性,則在相似條件下生物體完成類似行為的概率會增大。因為無人機(jī)采取避撞機(jī)動時的飛行速度、滾轉(zhuǎn)加速度和拉升加速度均為可控參數(shù),所以可通過建立仿生學(xué)習(xí)系統(tǒng)對采集到的行為信息進(jìn)行學(xué)習(xí)。
將遺傳算法(GA)思想與概率自動機(jī)(PA)相結(jié)合設(shè)計GA-OCPA仿生學(xué)習(xí)系統(tǒng)的結(jié)構(gòu)如圖1所示。
其中每個個體代表無人機(jī)采取避撞機(jī)動行為方式的一個集合,通過作用于環(huán)境獲得的反饋實現(xiàn)狀態(tài)更新和性能評價,采用Skinner OC理論對個體的最優(yōu)行為方式進(jìn)行學(xué)習(xí),并計算信息熵值作用于GA對個體行為方式的集合進(jìn)行尋優(yōu),進(jìn)而使無人機(jī)適應(yīng)環(huán)境中的威脅。
圖1 GA-OCPA學(xué)習(xí)系統(tǒng)結(jié)構(gòu)圖Fig.1 Structure diagram of GA-OCPA learning system
根據(jù)PA的定義形式,GA-OCPA系統(tǒng)的數(shù)學(xué)定義為
GA-OCPA=(x,N,Q,o,F,φ,S,H,G)
(1)
該九元組的各部分含義為:
1)x=x(t)為系統(tǒng)的內(nèi)部狀態(tài),是實際控制系統(tǒng)的狀態(tài)值。
2)N={ni|i=1,2,…,m}為對系統(tǒng)內(nèi)部狀態(tài)x=x(t)進(jìn)行離散化之后的結(jié)果,是系統(tǒng)內(nèi)部所有離散化狀態(tài)組成的集合,且m為離散化個數(shù),ni∈N為第i個離散的狀態(tài)。
3)Q={Aj|j=1,2,…,M}為系統(tǒng)的種群,其中每個種群包含N個個體,Aj∈Q為第j個個體,且個體Aj={ajk|k=1,2,…,r}即學(xué)習(xí)系統(tǒng)行為方式的集合,ajk為個體Aj中的第k個行為方式,個體A對其包含的r個行為方式進(jìn)行編碼。
(2)
5)F:ni(t)×ajk(t)→ni(t+1)為狀態(tài)轉(zhuǎn)移,F(xiàn)是由無人機(jī)采取機(jī)動行為引起的狀態(tài)變化ni(t)→ni(t+1),且狀態(tài)ni(t+1)只與前一時刻狀態(tài)ni(t)和該時刻行為ajk(t)有關(guān)。
6)φ={φ1,φ2,…,φm}為系統(tǒng)的取向函數(shù),狀態(tài)ni(t)的取向值可以用φi表示。當(dāng)某一狀態(tài)的取向值φ→0時,表示對該狀態(tài)的取向程度高且學(xué)習(xí)性能好;當(dāng)某一狀態(tài)的取向值φ→1時,表示對該狀態(tài)的取向程度低且學(xué)習(xí)性能差。因此,系統(tǒng)的概率矢量Pj通過φi(t)的變化趨勢進(jìn)行更新。
7)S:oj(t)→oj(t+1)為Skinner OC學(xué)習(xí)算法,通過算法完成對最優(yōu)行為方式的選取。
(3)
9)G:ni(t)→Aj表示系統(tǒng)通過遺傳算法的進(jìn)化思想獲得最優(yōu)個體Aj。
因為與系統(tǒng)進(jìn)行交互的位置環(huán)境的狀態(tài)是動態(tài)的,所以引入獎勵概率作為行為的評價信號,系統(tǒng)狀態(tài)ni(t)獲得獎勵的概率為
(4)
式中:wik(t)為行為ajk獲得累計獎勵的總和;zik(t)為系統(tǒng)狀態(tài)為ni(t)時,行為ajk被選擇的次數(shù)。
當(dāng)a(t)=ajk時,有
(5)
zik(t+1)=zik(t)+1
(6)
(7)
當(dāng)a(t)=ajk1且k≠k1時,有
wik(t+1)=wik(t)
(8)
zik(t+1)=zik(t)
(9)
dik(t+1)=dik(t)
(10)
算法通過對前后兩時刻之間的取向值之差對行為概率p(t)進(jìn)行更新。
當(dāng)φi(t+1)-φi(t)<0時,有
(11)
(12)
其中
(13)
(14)
(15)
當(dāng)φi(t+1)-φi(t)>0時,有
(16)
(17)
其中
(18)
(19)
(20)
式(11)~式(20)中:α(t)和β(t)為算法的學(xué)習(xí)速率,且0<α(t)<1,0<β(t)<1;η1和η2均為大于0的常數(shù);Δ為行為概率的增量部分。
將取向值函數(shù)φi(t)加入行為選擇概率公式能夠改變系統(tǒng)學(xué)習(xí)速度,同時使學(xué)習(xí)系統(tǒng)更好地表現(xiàn)出生物體的取向性特點。當(dāng)任意狀態(tài)取向值增大時,其行為選擇概率更新的增量值就會隨α(t)的減小而減小,進(jìn)而使學(xué)習(xí)速度降低;同理,當(dāng)狀態(tài)取向值減小時會使系統(tǒng)學(xué)習(xí)速度加快。且行為選擇概率更新使得第j個個體的行為熵更新為
(21)
無人機(jī)基于GA-OCPA學(xué)習(xí)系統(tǒng)的路徑規(guī)劃流程可以分為6個步驟:
步驟1建立避撞區(qū)模型
由于無人機(jī)在空間中遭遇碰撞威脅多數(shù)采用向右滾轉(zhuǎn)并拉升、向左滾轉(zhuǎn)并拉升或拉升的機(jī)動方式,且無人機(jī)避撞機(jī)動時的飛行速度、滾轉(zhuǎn)加速度和拉升加速度均對避撞區(qū)的形狀和大小造成影響,故通過對參數(shù)的學(xué)習(xí)以增強(qiáng)無人機(jī)應(yīng)對威脅的避撞能力是十分必要的。
因此,通過分析無人機(jī)與威脅的空間幾何關(guān)系,根據(jù)相對飛行狀態(tài)信息和無人機(jī)采取的規(guī)避機(jī)動措施建立三維動態(tài)避撞區(qū)模型。
步驟2學(xué)習(xí)系統(tǒng)初始化
初始階段將學(xué)習(xí)系統(tǒng)的迭代次數(shù)t設(shè)置為0,根據(jù)無人機(jī)本身具備的路徑規(guī)劃能力隨機(jī)獲取r個初始數(shù)據(jù)組成個體Aj={ajk|k=1,2,…,r}。
步驟3遺傳算法對個體進(jìn)行訓(xùn)練
將pjk(0)=1/r代入式(3)求得系統(tǒng)的初始信息熵,即此時個體Aj的適應(yīng)度值?;谶z傳算法的進(jìn)化思想在N個個體組成的種群中選取最優(yōu)個體作為Skinner OC算法的行為方式集合。
步驟4基于Skinner OC算法選擇最優(yōu)行為
步驟5判定是否結(jié)束一次實驗
設(shè)定無人機(jī)的最小安全間隔R0,計算比較無人機(jī)實施以上行為之后形成的避撞區(qū)與威脅之間的距離是否大于R0。若大于,則進(jìn)入步驟6;否則,跳轉(zhuǎn)至步驟2。
步驟6運(yùn)用IHDR對適用的路徑規(guī)劃方法進(jìn)行知識存儲,實現(xiàn)“威脅-行為”的映射。存儲具體方法參見文獻(xiàn)[17]。
本文采用最接近點(Closest Point of Approach, CPA)的幾何算法,計算無人機(jī)與威脅之間最接近點的距離[18],將最接近點距離與無人機(jī)規(guī)定的最小安全間隔相比較,從而判定無人機(jī)與威脅是否存在碰撞的可能。
無人機(jī)A的速度矢量可以表示為
VA=VAxx+VAyy+VAzz
(22)
又由幾何關(guān)系可得
(23)
故
(24)
同理
(25)
其中:x,y,z分別為x,y,z方向上的單位矢量。無人機(jī)與威脅速度矢量夾角的余弦值為
(26)
根據(jù)幾何關(guān)系可得
圖2 無人機(jī)與威脅的幾何關(guān)系Fig.2 Geometric relationship between UAV and threat
sinσAsinσB)
(27)
sinσAsinσB)
(28)
故
cos(∠VA,VB)=sinσAsinσB+
(29)
威脅與無人機(jī)的相對速度為
Vr=VB-VA
(30)
且相對速度大小為
(31)
又因為
(32)
故相對速度與坐標(biāo)系的夾角為
(33)
(34)
模型建立的基礎(chǔ)是認(rèn)為無人機(jī)通過廣播式自動相關(guān)監(jiān)視技術(shù)(Automatic Dependent Surveillance-Broadcast, ADS-B)和第二代空中交通警戒與防撞系統(tǒng)(Traffic Alert and Collision Avoidance System Ⅱ,TCAS Ⅱ)等監(jiān)視技術(shù)[19]能夠準(zhǔn)確獲得威脅的位置和速度等狀態(tài)信息。無人機(jī)在三維空間遭遇威脅,為了避免碰撞通常采用水平方向滾轉(zhuǎn)機(jī)動、垂直機(jī)動或兩者相結(jié)合的機(jī)動措施[20]。因此,根據(jù)無人機(jī)的避撞機(jī)動方式將避撞區(qū)域分為向右滾轉(zhuǎn)并拉升、向左滾轉(zhuǎn)并拉升和拉升3種類型。
圖3 向上拉升機(jī)動的幾何關(guān)系Fig.3 Geometric relationship of climbing maneuver
經(jīng)過t時間后,當(dāng)無人機(jī)與威脅之間的最近距離恰好為最小安全間隔R0時達(dá)到避撞區(qū)的臨界情況,初始位置為避撞區(qū)的邊界值,忽略飛行過程中可能存在的側(cè)滑角等誤差影響,可以得到t時刻無人機(jī)與威脅之間的距離R(t)為
(35)
根據(jù)無人機(jī)與威脅達(dá)到最近距離時恰好等于最小安全間隔R0,可以建立二元方程組:
{R′(t)=0
R(t)=R0
(36)
由于對R(t)求導(dǎo)可簡化為對R2(t)求導(dǎo),整理可得:
(37)
同理,當(dāng)同時進(jìn)行水平方向上最大程度右滾轉(zhuǎn)和垂直方向上最大程度向上拉升機(jī)動時,即產(chǎn)生一個y軸上的大小為a1的加速度和一個z軸上的大小為a2的加速度,得到:
(38)
根據(jù)式(36),由R2(t)求導(dǎo)代替對R(t)求導(dǎo),整理得:
(39)
同理,當(dāng)同時進(jìn)行水平方向上最大程度左滾轉(zhuǎn)和垂直方向上最大程度拉升機(jī)動時,令a1<0即可得到數(shù)學(xué)模型方程,此處不做贅述。
三維避撞區(qū)的模型方程為二元非線性方程組,因此,可以采取迭代法進(jìn)行求解,用逐次逼近的方法得到未知量t和RL的數(shù)值解。根據(jù)無人機(jī)避撞的物理過程,將t<0的部分舍棄,令此時的緊急避撞區(qū)的邊界值為RL=R0。
由式(37)和式(39)得到3種條件下避撞區(qū)的邊界,當(dāng)威脅進(jìn)入3種避撞區(qū)的交集時,無人機(jī)采取任何機(jī)動都無法避免碰撞。因此無人機(jī)要在避撞區(qū)交集以外的區(qū)域采取拉升、向右滾轉(zhuǎn)并拉升或向左滾轉(zhuǎn)并拉升的機(jī)動完成實時路徑規(guī)劃。
圖4 緊急避撞區(qū)模型Fig.4 Model for emergency collision avoidance area
2.3.1 無人機(jī)飛行速度對避撞區(qū)的影響
當(dāng)無人機(jī)飛行速度VA=80 m/s,其他條件不發(fā)生改變時,緊急避撞區(qū)如圖5所示。通過對比可見,改變無人機(jī)的速度,威脅與無人機(jī)的相對速度就會改變,因此對緊急避撞區(qū)而言,隨著相對速度的變化,無人機(jī)與威脅之間接近的速度更快,在x軸上表現(xiàn)最明顯,將使其區(qū)域范圍增大;相反,會使其區(qū)域范圍減小,威脅的速度改變原理相同。
2.3.2 無人機(jī)拉升加速度對避撞區(qū)的影響
當(dāng)無人機(jī)的拉升加速度g=20 m/s2,其他條件不發(fā)生改變時,緊急避撞區(qū)如圖6所示。
通過對比可見,對緊急避撞區(qū)而言,增大拉升加速度,無人機(jī)的機(jī)動性得到增強(qiáng),縮短了與威脅之間的避撞時間,在z軸上表現(xiàn)最明顯,將使其區(qū)域范圍減小; 相反, 會使其區(qū)域范圍增大,滾轉(zhuǎn)加速度的改變原理相同。
圖5 飛行速度對緊急避撞區(qū)的影響Fig.5 Effect of flight speed on emergency collision avoidance area
圖6 拉升加速度對緊急避撞區(qū)的影響Fig.6 Effect of climbing acceleration on emergency collision avoidance area
通過實驗仿真可以看出,無人機(jī)速度、威脅速度、滾轉(zhuǎn)加速度和拉升加速度是所構(gòu)建避撞區(qū)的主要影響因素。分析避撞的物理過程,當(dāng)增大無人機(jī)或威脅的速度時,導(dǎo)致相對速度增大,互相接近的速度加快,為了達(dá)到避撞的目的,碰撞區(qū)會相應(yīng)增大;當(dāng)無人機(jī)滾轉(zhuǎn)加速度或拉升加速度增大時,無人機(jī)的機(jī)動性得到增強(qiáng),縮短避撞時間,碰撞區(qū)也會相應(yīng)減小,得到的仿真結(jié)果和分析結(jié)果一致。無人機(jī)的飛行速度、滾轉(zhuǎn)加速度和拉升加速度都是可控因素,故利用GA-OCPA學(xué)習(xí)系統(tǒng)進(jìn)行路徑規(guī)劃時,可以將對無人機(jī)速度、滾轉(zhuǎn)加速度和拉升加速度的控制考慮在內(nèi)。
為了驗證本文所提基于GA-OCPA學(xué)習(xí)系統(tǒng)路徑規(guī)劃方法的適用性、必要性、有效性及其優(yōu)勢,首先對未經(jīng)過學(xué)習(xí)的無人機(jī)在簡單地形威脅場景下的路徑規(guī)劃進(jìn)行了實驗,然后通過實驗對系統(tǒng)的學(xué)習(xí)效果進(jìn)行了分析,最后分別對經(jīng)過學(xué)習(xí)后無人機(jī)的路徑規(guī)劃能力在地形威脅、單一動態(tài)威脅、連續(xù)動態(tài)威脅和多種類型威脅場景下進(jìn)行了仿真驗證。
當(dāng)無人機(jī)未經(jīng)過學(xué)習(xí)時,其應(yīng)對威脅時的路徑規(guī)劃能力較弱,仿真結(jié)果如圖7所示。在簡單地形威脅條件下無法有效規(guī)避威脅,故通過學(xué)習(xí)系統(tǒng)提高無人機(jī)規(guī)避威脅能力具有必要性。
圖7 未進(jìn)行學(xué)習(xí)的路徑規(guī)劃圖Fig.7 Path planning without learning
本文對所提GA-OCPA學(xué)習(xí)系統(tǒng)與文獻(xiàn)[12-13]提出的幾何強(qiáng)化學(xué)習(xí)(Geometric Reinforcement Learning,GRL)算法和Q-學(xué)習(xí)算法進(jìn)行了性能比較,3種學(xué)習(xí)算法均進(jìn)行100次迭代,種群中包含個體數(shù)量N=50,且個體內(nèi)包含行為方式個數(shù)r=10,初始概率pjk(0)=0.1。圖8為適應(yīng)度和概率值變化曲線,在學(xué)習(xí)進(jìn)化的過程中最大適應(yīng)度對應(yīng)最小熵值,最小適應(yīng)度對應(yīng)最大熵值。
當(dāng)個體被多次選擇時,其包含的行為方式被選取的概率也會增加。3種學(xué)習(xí)算法對最優(yōu)行為的選擇概率無限趨近于1,故包含該型的個體熵值趨近于0,此時個體具有最大適應(yīng)度值。由圖8(a)可知,GA-OCPA系統(tǒng)的收斂速度最快且適應(yīng)度值最早趨近于穩(wěn)定。
圖8 適應(yīng)度和概率變化趨勢曲線Fig.8 Curve of changes in fitness and probability
在學(xué)習(xí)的過程中某些行為方式被選擇的概率逐漸增加到0.9左右時趨于平緩且最終趨近于1。由圖8(b)可以看出,GA-OCPA學(xué)習(xí)系統(tǒng)在3種算法中的概率值學(xué)習(xí)曲線變化率最大,說明該系統(tǒng)在學(xué)習(xí)中經(jīng)驗積累的速度最快,最早由初始階段的隨機(jī)性學(xué)習(xí)方式變?yōu)榇_定性學(xué)習(xí),進(jìn)而得到最優(yōu)的行為方式,并通過IHDR對最優(yōu)行為進(jìn)行知識存儲,形成威脅到路徑規(guī)劃映射的知識庫。
實驗表明GA-OCPA學(xué)習(xí)系統(tǒng)在動態(tài)變化的學(xué)習(xí)過程中可以較快地積累學(xué)習(xí)經(jīng)驗和更新行為方式,更早地由初始隨機(jī)搜索階段進(jìn)入最優(yōu)行為學(xué)習(xí),具有良好的適應(yīng)性,更有利于空中環(huán)境復(fù)雜的無人機(jī)路徑規(guī)劃。
無人機(jī)經(jīng)過GA-OCPA學(xué)習(xí)系統(tǒng)的學(xué)習(xí)已具備一定的路徑規(guī)劃能力,采用地形威脅場景對無人機(jī)應(yīng)對靜態(tài)威脅的路徑規(guī)劃能力進(jìn)行驗證,場景仿真結(jié)果如圖9所示。
本機(jī)以30 m/s的速度在第0 s啟動,在進(jìn)入山峰的避撞區(qū)范圍時,通過先前學(xué)習(xí)經(jīng)驗從知識庫中得出最優(yōu)路徑規(guī)劃策略,同時對每次規(guī)劃行為進(jìn)行學(xué)習(xí)更新,根據(jù)不同地形的避撞區(qū)范圍,無人機(jī)完成規(guī)避機(jī)動的飛行速度、滾轉(zhuǎn)加速度和拉升加速度趨向最優(yōu)。
圖9 地形威脅路徑規(guī)劃圖Fig.9 Path planning in terrain threat
針對無人機(jī)在現(xiàn)實環(huán)境中動靜態(tài)威脅類型并存時的路徑規(guī)劃能力[21],在地形威脅基礎(chǔ)上分別對單一動態(tài)威脅和連續(xù)動態(tài)威脅場景進(jìn)行驗證。
單一動態(tài)威脅場景仿真結(jié)果如圖10所示。
與地形威脅場景相同,無人機(jī)在第0 s開始以速度30 m/s飛行,威脅機(jī)在第6 min啟動,并且在第2.3 min進(jìn)入本機(jī)避撞區(qū)范圍,無人機(jī)根據(jù)學(xué)習(xí)得到的最優(yōu)行為進(jìn)行規(guī)避機(jī)動,采用增大左滾轉(zhuǎn)加速的方式在短時間內(nèi)完成實時路徑規(guī)劃。
連續(xù)動態(tài)威脅場景仿真結(jié)果如圖11所示。
在連續(xù)威脅場景中,威脅1與本機(jī)第0 s同時啟動,在第1.6 min進(jìn)入本機(jī)避撞區(qū)范圍,本機(jī)通過右滾轉(zhuǎn)并拉升的方式完成規(guī)避;威脅2在第5 min啟動,并在啟動后第3.6 min進(jìn)入本機(jī)避撞區(qū)范圍,無人機(jī)通過左滾轉(zhuǎn)實現(xiàn)有效規(guī)避。
圖10 單一動態(tài)威脅路徑規(guī)劃圖Fig.10 Path planning in singly dynamic threat
圖11 連續(xù)動態(tài)威脅路徑規(guī)劃圖Fig.11 Path planning in continuously dynamic threats
無人機(jī)飛行過程中還可能面臨敵方武器和大氣氣旋造成的禁飛區(qū)等威脅因素,在多種類型威脅場景中無人機(jī)路徑規(guī)劃難度更大。因此,實驗中加入雷達(dá)、導(dǎo)彈和大氣威脅以驗證無人機(jī)經(jīng)過學(xué)習(xí)后的路徑規(guī)劃能力。
本機(jī)啟動時間和初速度與前3種場景相同,無人機(jī)通過地形威脅和動態(tài)威脅場景的學(xué)習(xí)具有較強(qiáng)的路徑規(guī)劃能力。由仿真結(jié)果圖12可得,無人機(jī)有效規(guī)避大氣威脅造成的禁飛區(qū)域;同時,分別以較大滾轉(zhuǎn)加速的左滾轉(zhuǎn)和右滾轉(zhuǎn)機(jī)動實現(xiàn)對雷達(dá)威脅和導(dǎo)彈威脅的規(guī)避;并且在接近目標(biāo)點時通過連續(xù)左滾轉(zhuǎn)方式規(guī)避連續(xù)動態(tài)威脅。
仿真結(jié)果表明,無人機(jī)通過GA-OCPA學(xué)習(xí)系統(tǒng)的學(xué)習(xí)和經(jīng)驗知識的積累,能夠在不同威脅場景下采取最優(yōu)規(guī)避機(jī)動措施,以最小的代價完成實時路徑規(guī)劃,提高了無人機(jī)飛行的空域資源利用率和安全系數(shù)。
圖12 多種類型威脅路徑規(guī)劃圖Fig.12 Path planning in the multiple types of threats
1) 針對現(xiàn)有路徑規(guī)劃方法不能滿足無人機(jī)飛行過程中應(yīng)對突發(fā)威脅的問題,提出GA-OCPA學(xué)習(xí)系統(tǒng),證明了其具有良好的自學(xué)習(xí)能力和自組織能力,且收斂時間短。
2) 建立無人機(jī)空間三維動態(tài)避撞區(qū)模型,分析了避撞區(qū)發(fā)生變化的影響因素,提出無人機(jī)可通過多種規(guī)避動作應(yīng)對威脅,進(jìn)而提高其飛行安全系數(shù)和空域利用率。
3) 無人機(jī)通過學(xué)習(xí)系統(tǒng)對路徑規(guī)劃過程中的規(guī)避機(jī)動行為進(jìn)行學(xué)習(xí),并建立行為知識庫,多種場景仿真驗證無人機(jī)的學(xué)習(xí)效果,證明了GA-OCPA學(xué)習(xí)系統(tǒng)對于無人機(jī)路徑規(guī)劃具有適用性和有效性。
致 謝
感謝空軍工程大學(xué)信息與導(dǎo)航學(xué)院楊霄鵬副教授對本文無人機(jī)避撞技術(shù)及相關(guān)內(nèi)容的指導(dǎo),同時感謝北京航空航天大學(xué)電子信息工程學(xué)院劉雨帆碩士對本文系統(tǒng)學(xué)習(xí)理論的建議。
[1] KAVRAKI L E, SVESTKA P, LATOMBE J C, er al. Randomized preprocessing of configuration space for fast path planning[C]∥IEEE International Conference on Robotics and Automation. Piscataway, NJ: IEEE Press, 1994: 3020-3026.
[2] XIAO Q K, GAO X G, FU X W, et al. New local path replanning algorithm for unmanned combat air vehicle[C]∥Proceedings of the 6th World Congress on Intelligent Control and Automation. Piscataway, NJ: IEEE Press, 2006: 4033-4037.
[3] 丁家如, 杜昌平, 趙耀, 等. 基于改進(jìn)人工勢場法的無人機(jī)路徑規(guī)劃算法[J]. 計算機(jī)應(yīng)用, 2016, 36(1): 287-290.
DING J R, DU C P, ZHAO Y, et al. Path planning algorithm for unmanned aerial vehicles based on improved artificial potential field[J]. Journal of Computer Applications, 2016, 36(1): 287-290 (in Chinese).
[4] CHEN T B, ZHANG Q S. Robot motion planning based on improved artificial potential field[C]∥3rd 2013 International Conference on Computer Science and Network Technology. Piscataway, NJ: IEEE Press, 2013: 1208-1211.
[5] JU H S, TSAI C C. Design of intelligent flight control law following the optical payload[C]∥Proceedings of the 2004 IEEE International Conference on Networking, Science & Network. Piscataway, NJ: IEEE Press, 2004: 761-766.
[6] LUGO G I, FLORES G, SALAZAR S, et al. Dubins path generation for a fixed wing UAV[C]∥International Conference on Unmanned Aircraft Systems. Piscataway, NJ: IEEE Press, 2014: 339-346.
[7] LEE D, SHIM D H. Spline-RRT*based optimal path planning of terrain following flight for fixed-wing UAVs[C]∥The 11th International Conference on Ubiquitous Robots and Intelligence. Piscataway, NJ: IEEE Press, 2014: 257-261.
[8] GUAN X M, ZHANG X J, WEI J, et al. A strategic conflict avoidance approach based on cooperative coevolutionary with the dynamic grouping strategy[J]. International Journal of Systems Science, 2016, 47(9): 1995-2008.
[9] 魏瑞軒, 何仁珂, 張啟瑞, 等. 基于Skinner理論的無人機(jī)應(yīng)急威脅規(guī)避方法[J]. 北京理工大學(xué)學(xué)報, 2016, 36(6): 620-624.
WEI R X, HE R K, ZHANG Q R, et al. Skinner-based emergency collision avoidance mechanism for UAV[J]. Transactions of Beijing Institute of Technology, 2016, 36(6): 620-624 (in Chinese).
[10] LIN Z J, LIU H T. Consensus based on learning game theory with a UAV rendezvous application[J]. Chinese Journal of Aeronautics, 2015, 28(1): 191-199.
[11] ZHANG B, LIU W, MAO Z, et al. Cooperative and Ge-ometric Learning Algorithm(CGLA) for path planning of UAVs with limited information[J]. Automatica, 2014, 50(3): 809-820.
[12] ZHANG B, MAO Z, LIU W, et al. Geometric reinforcement learning for path planning of UAVs[J]. Journal of Intelligent & Robotic Systems, 2015, 77(2): 391-409.
[13] 郝釧釧, 方舟, 李平. 基于Q學(xué)習(xí)的無人機(jī)三維航跡規(guī)劃算法[J]. 上海交通大學(xué)學(xué)報, 2012, 46(12): 1931-1935.
HAO C C, FANG Z, LI P. A 3-D route planning algorithm for unmanned aerial vehicle based on Q-learning[J]. Journal of Shanghai Jiaotong University, 2012, 46(12): 1931-1935 (in Chinese).
[14] ZHAO Y, LI W, SHI P. A real-time collision avoidance learning system for unmanned surface vessels[J]. Neurocomputing, 2016, 182: 255-266.
[15] WOLF R, HEISENBERG M. Basic organization of operant-behavior as revealed in drosophila flight orientation[J]. Journal of Comparative Physiology A, 1991: 169(6): 699-705.
[16] HWANG W S, WENG J. Hierarchical discriminant regression[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11): 1277-1293.
[17] WENG J, HWANG W S. Incremental hierarchical discriminant regression[J]. IEEE Transactions on Neural Networks, 2013, 56(11): 2745-2761.
[18] KNEPPER R A, MASON M T. Realtime informed path sampling for motion planning search[J]. International Journal of Robotics Research, 2017, 31(11): 1231-1250.
[19] 張軍. 空域監(jiān)視技術(shù)的新進(jìn)展及應(yīng)用[J]. 航空學(xué)報, 2011, 32(1): 1-14.
ZHANG J. New development and application of airspace surveillance technology[J]. Acta Aeronautica et Astronautica Sinica, 2011, 32(1): 1-14 (in Chinese).
[20] MELEGA M, LAZARUS S, SAVVARIS A, et al. Multiple threats sense and avoid algorithm for static and dynamic obstacles[J]. Journal of Intelligent & Robotic Systems, 2015, 77(1): 630-635.
[21] CHEN Y, YU J, MEI Y, et al. Modified central force optimization (MCFO) algorithm for 3D UAV path planning[J]. Neurocomputing, 2016, 171: 878-888.
UAVpathplanningbasedonGA-OCPAlearningsystem
LIUXin1,*,YANGXiaopeng1,LIUYufan2,YAOKun1
1.InformationandNavigationInstitute,AirForceEngineeringUniversity,Xi’an710077,China2.SchoolofElectronicsandInformationEngineering,BeihangUniversity,Beijing100083,China
Tosolvetheproblemofdeficiencyinreal-timelinessandapplicabilityofpathplanningfortheUnmannedAerialVehicle(UAV)intheunknownairspace,thereal-timepathplanningoftheUAVissimulatedasaself-learningbehaviorundertheconditionofexternalstimuli,basedonthebiologicaloperantconditioningtheory.TheprobabilisticautomatoniscombinedwiththegeneticalgorithmtoconstructalearningsystemofGeneticAlgorithm-OperantConditioningProbabilisticAutomaton(GA-OCPA)accordingtotheSkinneroperantconditioning.TheUAVs’evasionmaneuveringflightspeed,rollingaccelerationandclimbingaccelerationaretakenasthelearningbehaviorsofthesystem,andtheprobabilityofselectionandindividualfitnessarecalculatedaftereachlearningattempt.Theoptimalpathcanthenbeobtainedbysearchingforthebestbehaviorusingthegeneticalgorithm.TheknowledgebaseofthebestlearnedbehaviorsisestablishedusingIncrementalHierarchicalDiscriminantRegression(IHDR),andthematchingmappingbetweenthethreatstateandpathplanningisthenformed.TheresultshowstheviabilityandapplicabilityoftheGA-OCPAlearningsystemforUAVpathplanning.
UnmannedAerialVehicle(UAV);pathplanning;geneticalgorithm;operantconditioning;probabilisticautomaton
2017-03-27;Revised2017-06-12;Accepted2017-07-17;Publishedonline2017-07-232103
URL:http://hkxb.buaa.edu.cn/CN/html/20171127.html
s:NationalNaturalScienceFoundationofChina(61202490);AeronauticalScienceFoundationofChina(20150896010)
.E-mailkdyliuxin@163.com
http://hkxb.buaa.edu.cnhkxb@buaa.edu.cn
10.7527/S1000-6893.2017.321275
V249.1
A
1000-6893(2017)11-321275-11
2017-03-27;退修日期2017-06-12;錄用日期2017-07-17;< class="emphasis_bold">網(wǎng)絡(luò)出版時間
時間:2017-07-232103
http://hkxb.buaa.edu.cn/CN/html/20171127.html
國家自然科學(xué)基金(61202490); 航空科學(xué)基金(20150896010)
.E-mailkdyliuxin@163.com
劉鑫,楊霄鵬,劉雨帆,等.基于GA-OCPA學(xué)習(xí)系統(tǒng)的無人機(jī)路徑規(guī)劃方法J.航空學(xué)報,2017,38(11):321275.LIUX,YANGXP,LIUYF,etal.UAVpathplanningbasedonGA-OCPAlearningsystemJ.ActaAeronauticaetAstronauticaSinica,2017,38(11):321275.
(責(zé)任編輯:蘇磊)