亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GA-OCPA學(xué)習(xí)系統(tǒng)的無人機(jī)路徑規(guī)劃方法

        2017-12-20 11:04:16劉鑫楊霄鵬劉雨帆姚昆
        航空學(xué)報 2017年11期
        關(guān)鍵詞:規(guī)劃系統(tǒng)

        劉鑫,楊霄鵬,劉雨帆,姚昆

        1. 空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,西安 710077 2. 北京航空航天大學(xué) 電子信息工程學(xué)院,北京 100083

        基于GA-OCPA學(xué)習(xí)系統(tǒng)的無人機(jī)路徑規(guī)劃方法

        劉鑫1,*,楊霄鵬1,劉雨帆2,姚昆1

        1. 空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,西安 710077 2. 北京航空航天大學(xué) 電子信息工程學(xué)院,北京 100083

        為解決未知空域中無人機(jī)路徑規(guī)劃方法實時性和適用性不足的問題,以生物應(yīng)激條件反射理論為基礎(chǔ),將無人機(jī)實時路徑規(guī)劃類比為在外界條件刺激下的一種自學(xué)習(xí)行為。首先,將概率自動機(jī)與遺傳算法相結(jié)合,設(shè)計了基于Skinner操作條件反射理論框架(GA-OCPA)的學(xué)習(xí)系統(tǒng);然后,將無人機(jī)規(guī)避機(jī)動的飛行速度、滾轉(zhuǎn)加速度和拉升加速度作為系統(tǒng)學(xué)習(xí)的行為,并計算每次學(xué)習(xí)嘗試之后的選擇概率和個體適應(yīng)度,通過遺傳算法搜索最優(yōu)行為進(jìn)而得到最優(yōu)路徑;最后,運(yùn)用增量多層判別回歸樹(IHDR)對學(xué)習(xí)得到的最優(yōu)行為建立知識庫,形成威脅狀態(tài)與路徑規(guī)劃的匹配映射。實驗結(jié)果表明GA-OCPA學(xué)習(xí)系統(tǒng)對于無人機(jī)路徑規(guī)劃具備有效性和適用性。

        無人機(jī);路徑規(guī)劃;遺傳算法;操作條件反射;概率自動機(jī)

        路徑規(guī)劃的常規(guī)模式是通過傳感器感知周圍環(huán)境信息,進(jìn)而完成實時路徑規(guī)劃。傳統(tǒng)方法主要有:拓?fù)浞?、柵格法、動態(tài)規(guī)劃法、勢場法、最優(yōu)控制法等[1-7]。這些方法存在迭代次數(shù)多、計算復(fù)雜度高、實時性不足等缺點,無法良好地適用于無人機(jī)技術(shù)高速發(fā)展背景下空域中多種威脅因素并存時的路徑規(guī)劃需求。

        無人機(jī)的動力學(xué)模型復(fù)雜程度高,同時所面向的空域環(huán)境也具有高度不確定性[8]。因此,在面臨威脅時完全依靠飛控計算機(jī)進(jìn)行編程實現(xiàn)路徑規(guī)劃會使無人機(jī)的規(guī)避機(jī)動滯后,極大地制約了無人機(jī)性能的發(fā)揮[9]??紤]到無人機(jī)面臨空中威脅的突發(fā)性且具有相對運(yùn)動速度大的特點,通過模仿生物體的學(xué)習(xí)活動,使無人機(jī)在其性能約束的條件下具備自主學(xué)習(xí)能力,可以大大提高威脅出現(xiàn)時路徑規(guī)劃的實時性、準(zhǔn)確性和適用性。這種基于自學(xué)習(xí)的人工智能方法已經(jīng)在無人機(jī)和機(jī)器人控制領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)[10]將博弈學(xué)習(xí)理論應(yīng)用于多無人機(jī)匯聚問題,各個無人機(jī)智能體之間通過學(xué)習(xí)算法得到任務(wù)要求的路徑規(guī)劃結(jié)果。文獻(xiàn)[11-12]分別提出了幾何協(xié)作學(xué)習(xí)算法和幾何強(qiáng)化學(xué)習(xí)算法,提高了單機(jī)和多機(jī)協(xié)同下的路徑規(guī)劃能力。文獻(xiàn)[13]提出了基于Q學(xué)習(xí)的機(jī)器人和無人機(jī)路徑規(guī)劃算法,通過智能體與環(huán)境的信息交互實現(xiàn)了在線學(xué)習(xí)。文獻(xiàn)[14]基于證據(jù)推理理論對無人機(jī)水面艦艇的碰撞風(fēng)險進(jìn)行評估,并通過學(xué)習(xí)得到最優(yōu)互惠避撞策略,可借鑒到無人機(jī)應(yīng)對空中威脅的路徑規(guī)劃方法中。

        強(qiáng)化學(xué)習(xí)算法雖然具有較好的實時性,其對于機(jī)器人可以實現(xiàn)簡單的控制需求,而無人機(jī)的任務(wù)復(fù)雜程度更高,單一強(qiáng)化學(xué)習(xí)方法不能保證適用性。因此,針對未知空域中的無人機(jī)路徑規(guī)劃問題,本文以Skinner操作條件反射理論(Operant Conditioning, OC)[15]為框架,結(jié)合遺傳算法(Genetic Algorithm, GA),在概率自動機(jī)(Probabilistic Automata, PA)的平臺基礎(chǔ)上設(shè)計了基于遺傳算法的操作條件概率自動機(jī)(Genetic Algorithm-Operant Conditioning Probabilistic Automata, GA-OCPA)學(xué)習(xí)系統(tǒng)。通過學(xué)習(xí)系統(tǒng)對路徑規(guī)劃中無人機(jī)的飛行速度、滾轉(zhuǎn)加速度和拉升加速度進(jìn)行學(xué)習(xí),根據(jù)這3個參數(shù)的變化建立無人機(jī)動態(tài)避撞區(qū)模型。再運(yùn)用操作條件反射機(jī)制學(xué)習(xí)最優(yōu)行為并與環(huán)境進(jìn)行交互獲得反饋信息,進(jìn)而完成信息熵值的更新,同時采用增量多層判別回歸樹(Incremental Hierarchical Discriminant Reqression, IHDR)方法對最優(yōu)狀態(tài)下的行為建立知識庫[16-17]。最后,通過仿真驗證了所提方法的適用性、必要性、有效性及其優(yōu)勢。

        1 GA-OCPA學(xué)習(xí)系統(tǒng)設(shè)計

        仿生學(xué)是根據(jù)生物體在特定條件下的行為與環(huán)境交互后得到的反饋符合個體的取向性,則在相似條件下生物體完成類似行為的概率會增大。因為無人機(jī)采取避撞機(jī)動時的飛行速度、滾轉(zhuǎn)加速度和拉升加速度均為可控參數(shù),所以可通過建立仿生學(xué)習(xí)系統(tǒng)對采集到的行為信息進(jìn)行學(xué)習(xí)。

        將遺傳算法(GA)思想與概率自動機(jī)(PA)相結(jié)合設(shè)計GA-OCPA仿生學(xué)習(xí)系統(tǒng)的結(jié)構(gòu)如圖1所示。

        其中每個個體代表無人機(jī)采取避撞機(jī)動行為方式的一個集合,通過作用于環(huán)境獲得的反饋實現(xiàn)狀態(tài)更新和性能評價,采用Skinner OC理論對個體的最優(yōu)行為方式進(jìn)行學(xué)習(xí),并計算信息熵值作用于GA對個體行為方式的集合進(jìn)行尋優(yōu),進(jìn)而使無人機(jī)適應(yīng)環(huán)境中的威脅。

        圖1 GA-OCPA學(xué)習(xí)系統(tǒng)結(jié)構(gòu)圖Fig.1 Structure diagram of GA-OCPA learning system

        1.1 學(xué)習(xí)系統(tǒng)數(shù)學(xué)定義

        根據(jù)PA的定義形式,GA-OCPA系統(tǒng)的數(shù)學(xué)定義為

        GA-OCPA=(x,N,Q,o,F,φ,S,H,G)

        (1)

        該九元組的各部分含義為:

        1)x=x(t)為系統(tǒng)的內(nèi)部狀態(tài),是實際控制系統(tǒng)的狀態(tài)值。

        2)N={ni|i=1,2,…,m}為對系統(tǒng)內(nèi)部狀態(tài)x=x(t)進(jìn)行離散化之后的結(jié)果,是系統(tǒng)內(nèi)部所有離散化狀態(tài)組成的集合,且m為離散化個數(shù),ni∈N為第i個離散的狀態(tài)。

        3)Q={Aj|j=1,2,…,M}為系統(tǒng)的種群,其中每個種群包含N個個體,Aj∈Q為第j個個體,且個體Aj={ajk|k=1,2,…,r}即學(xué)習(xí)系統(tǒng)行為方式的集合,ajk為個體Aj中的第k個行為方式,個體A對其包含的r個行為方式進(jìn)行編碼。

        (2)

        5)F:ni(t)×ajk(t)→ni(t+1)為狀態(tài)轉(zhuǎn)移,F(xiàn)是由無人機(jī)采取機(jī)動行為引起的狀態(tài)變化ni(t)→ni(t+1),且狀態(tài)ni(t+1)只與前一時刻狀態(tài)ni(t)和該時刻行為ajk(t)有關(guān)。

        6)φ={φ1,φ2,…,φm}為系統(tǒng)的取向函數(shù),狀態(tài)ni(t)的取向值可以用φi表示。當(dāng)某一狀態(tài)的取向值φ→0時,表示對該狀態(tài)的取向程度高且學(xué)習(xí)性能好;當(dāng)某一狀態(tài)的取向值φ→1時,表示對該狀態(tài)的取向程度低且學(xué)習(xí)性能差。因此,系統(tǒng)的概率矢量Pj通過φi(t)的變化趨勢進(jìn)行更新。

        7)S:oj(t)→oj(t+1)為Skinner OC學(xué)習(xí)算法,通過算法完成對最優(yōu)行為方式的選取。

        (3)

        9)G:ni(t)→Aj表示系統(tǒng)通過遺傳算法的進(jìn)化思想獲得最優(yōu)個體Aj。

        1.2 Skinner OC算法設(shè)計

        因為與系統(tǒng)進(jìn)行交互的位置環(huán)境的狀態(tài)是動態(tài)的,所以引入獎勵概率作為行為的評價信號,系統(tǒng)狀態(tài)ni(t)獲得獎勵的概率為

        (4)

        式中:wik(t)為行為ajk獲得累計獎勵的總和;zik(t)為系統(tǒng)狀態(tài)為ni(t)時,行為ajk被選擇的次數(shù)。

        當(dāng)a(t)=ajk時,有

        (5)

        zik(t+1)=zik(t)+1

        (6)

        (7)

        當(dāng)a(t)=ajk1且k≠k1時,有

        wik(t+1)=wik(t)

        (8)

        zik(t+1)=zik(t)

        (9)

        dik(t+1)=dik(t)

        (10)

        算法通過對前后兩時刻之間的取向值之差對行為概率p(t)進(jìn)行更新。

        當(dāng)φi(t+1)-φi(t)<0時,有

        (11)

        (12)

        其中

        (13)

        (14)

        (15)

        當(dāng)φi(t+1)-φi(t)>0時,有

        (16)

        (17)

        其中

        (18)

        (19)

        (20)

        式(11)~式(20)中:α(t)和β(t)為算法的學(xué)習(xí)速率,且0<α(t)<1,0<β(t)<1;η1和η2均為大于0的常數(shù);Δ為行為概率的增量部分。

        將取向值函數(shù)φi(t)加入行為選擇概率公式能夠改變系統(tǒng)學(xué)習(xí)速度,同時使學(xué)習(xí)系統(tǒng)更好地表現(xiàn)出生物體的取向性特點。當(dāng)任意狀態(tài)取向值增大時,其行為選擇概率更新的增量值就會隨α(t)的減小而減小,進(jìn)而使學(xué)習(xí)速度降低;同理,當(dāng)狀態(tài)取向值減小時會使系統(tǒng)學(xué)習(xí)速度加快。且行為選擇概率更新使得第j個個體的行為熵更新為

        (21)

        1.3 算法學(xué)習(xí)流程

        無人機(jī)基于GA-OCPA學(xué)習(xí)系統(tǒng)的路徑規(guī)劃流程可以分為6個步驟:

        步驟1建立避撞區(qū)模型

        由于無人機(jī)在空間中遭遇碰撞威脅多數(shù)采用向右滾轉(zhuǎn)并拉升、向左滾轉(zhuǎn)并拉升或拉升的機(jī)動方式,且無人機(jī)避撞機(jī)動時的飛行速度、滾轉(zhuǎn)加速度和拉升加速度均對避撞區(qū)的形狀和大小造成影響,故通過對參數(shù)的學(xué)習(xí)以增強(qiáng)無人機(jī)應(yīng)對威脅的避撞能力是十分必要的。

        因此,通過分析無人機(jī)與威脅的空間幾何關(guān)系,根據(jù)相對飛行狀態(tài)信息和無人機(jī)采取的規(guī)避機(jī)動措施建立三維動態(tài)避撞區(qū)模型。

        步驟2學(xué)習(xí)系統(tǒng)初始化

        初始階段將學(xué)習(xí)系統(tǒng)的迭代次數(shù)t設(shè)置為0,根據(jù)無人機(jī)本身具備的路徑規(guī)劃能力隨機(jī)獲取r個初始數(shù)據(jù)組成個體Aj={ajk|k=1,2,…,r}。

        步驟3遺傳算法對個體進(jìn)行訓(xùn)練

        將pjk(0)=1/r代入式(3)求得系統(tǒng)的初始信息熵,即此時個體Aj的適應(yīng)度值?;谶z傳算法的進(jìn)化思想在N個個體組成的種群中選取最優(yōu)個體作為Skinner OC算法的行為方式集合。

        步驟4基于Skinner OC算法選擇最優(yōu)行為

        步驟5判定是否結(jié)束一次實驗

        設(shè)定無人機(jī)的最小安全間隔R0,計算比較無人機(jī)實施以上行為之后形成的避撞區(qū)與威脅之間的距離是否大于R0。若大于,則進(jìn)入步驟6;否則,跳轉(zhuǎn)至步驟2。

        步驟6運(yùn)用IHDR對適用的路徑規(guī)劃方法進(jìn)行知識存儲,實現(xiàn)“威脅-行為”的映射。存儲具體方法參見文獻(xiàn)[17]。

        2 無人機(jī)三維動態(tài)避撞區(qū)建模

        2.1 空間幾何關(guān)系

        本文采用最接近點(Closest Point of Approach, CPA)的幾何算法,計算無人機(jī)與威脅之間最接近點的距離[18],將最接近點距離與無人機(jī)規(guī)定的最小安全間隔相比較,從而判定無人機(jī)與威脅是否存在碰撞的可能。

        無人機(jī)A的速度矢量可以表示為

        VA=VAxx+VAyy+VAzz

        (22)

        又由幾何關(guān)系可得

        (23)

        (24)

        同理

        (25)

        其中:x,y,z分別為x,y,z方向上的單位矢量。無人機(jī)與威脅速度矢量夾角的余弦值為

        (26)

        根據(jù)幾何關(guān)系可得

        圖2 無人機(jī)與威脅的幾何關(guān)系Fig.2 Geometric relationship between UAV and threat

        sinσAsinσB)

        (27)

        sinσAsinσB)

        (28)

        cos(∠VA,VB)=sinσAsinσB+

        (29)

        威脅與無人機(jī)的相對速度為

        Vr=VB-VA

        (30)

        且相對速度大小為

        (31)

        又因為

        (32)

        故相對速度與坐標(biāo)系的夾角為

        (33)

        (34)

        2.2 緊急避撞區(qū)模型

        模型建立的基礎(chǔ)是認(rèn)為無人機(jī)通過廣播式自動相關(guān)監(jiān)視技術(shù)(Automatic Dependent Surveillance-Broadcast, ADS-B)和第二代空中交通警戒與防撞系統(tǒng)(Traffic Alert and Collision Avoidance System Ⅱ,TCAS Ⅱ)等監(jiān)視技術(shù)[19]能夠準(zhǔn)確獲得威脅的位置和速度等狀態(tài)信息。無人機(jī)在三維空間遭遇威脅,為了避免碰撞通常采用水平方向滾轉(zhuǎn)機(jī)動、垂直機(jī)動或兩者相結(jié)合的機(jī)動措施[20]。因此,根據(jù)無人機(jī)的避撞機(jī)動方式將避撞區(qū)域分為向右滾轉(zhuǎn)并拉升、向左滾轉(zhuǎn)并拉升和拉升3種類型。

        圖3 向上拉升機(jī)動的幾何關(guān)系Fig.3 Geometric relationship of climbing maneuver

        經(jīng)過t時間后,當(dāng)無人機(jī)與威脅之間的最近距離恰好為最小安全間隔R0時達(dá)到避撞區(qū)的臨界情況,初始位置為避撞區(qū)的邊界值,忽略飛行過程中可能存在的側(cè)滑角等誤差影響,可以得到t時刻無人機(jī)與威脅之間的距離R(t)為

        (35)

        根據(jù)無人機(jī)與威脅達(dá)到最近距離時恰好等于最小安全間隔R0,可以建立二元方程組:

        {R′(t)=0

        R(t)=R0

        (36)

        由于對R(t)求導(dǎo)可簡化為對R2(t)求導(dǎo),整理可得:

        (37)

        同理,當(dāng)同時進(jìn)行水平方向上最大程度右滾轉(zhuǎn)和垂直方向上最大程度向上拉升機(jī)動時,即產(chǎn)生一個y軸上的大小為a1的加速度和一個z軸上的大小為a2的加速度,得到:

        (38)

        根據(jù)式(36),由R2(t)求導(dǎo)代替對R(t)求導(dǎo),整理得:

        (39)

        同理,當(dāng)同時進(jìn)行水平方向上最大程度左滾轉(zhuǎn)和垂直方向上最大程度拉升機(jī)動時,令a1<0即可得到數(shù)學(xué)模型方程,此處不做贅述。

        三維避撞區(qū)的模型方程為二元非線性方程組,因此,可以采取迭代法進(jìn)行求解,用逐次逼近的方法得到未知量t和RL的數(shù)值解。根據(jù)無人機(jī)避撞的物理過程,將t<0的部分舍棄,令此時的緊急避撞區(qū)的邊界值為RL=R0。

        2.3 影響因素分析

        由式(37)和式(39)得到3種條件下避撞區(qū)的邊界,當(dāng)威脅進(jìn)入3種避撞區(qū)的交集時,無人機(jī)采取任何機(jī)動都無法避免碰撞。因此無人機(jī)要在避撞區(qū)交集以外的區(qū)域采取拉升、向右滾轉(zhuǎn)并拉升或向左滾轉(zhuǎn)并拉升的機(jī)動完成實時路徑規(guī)劃。

        圖4 緊急避撞區(qū)模型Fig.4 Model for emergency collision avoidance area

        2.3.1 無人機(jī)飛行速度對避撞區(qū)的影響

        當(dāng)無人機(jī)飛行速度VA=80 m/s,其他條件不發(fā)生改變時,緊急避撞區(qū)如圖5所示。通過對比可見,改變無人機(jī)的速度,威脅與無人機(jī)的相對速度就會改變,因此對緊急避撞區(qū)而言,隨著相對速度的變化,無人機(jī)與威脅之間接近的速度更快,在x軸上表現(xiàn)最明顯,將使其區(qū)域范圍增大;相反,會使其區(qū)域范圍減小,威脅的速度改變原理相同。

        2.3.2 無人機(jī)拉升加速度對避撞區(qū)的影響

        當(dāng)無人機(jī)的拉升加速度g=20 m/s2,其他條件不發(fā)生改變時,緊急避撞區(qū)如圖6所示。

        通過對比可見,對緊急避撞區(qū)而言,增大拉升加速度,無人機(jī)的機(jī)動性得到增強(qiáng),縮短了與威脅之間的避撞時間,在z軸上表現(xiàn)最明顯,將使其區(qū)域范圍減小; 相反, 會使其區(qū)域范圍增大,滾轉(zhuǎn)加速度的改變原理相同。

        圖5 飛行速度對緊急避撞區(qū)的影響Fig.5 Effect of flight speed on emergency collision avoidance area

        圖6 拉升加速度對緊急避撞區(qū)的影響Fig.6 Effect of climbing acceleration on emergency collision avoidance area

        通過實驗仿真可以看出,無人機(jī)速度、威脅速度、滾轉(zhuǎn)加速度和拉升加速度是所構(gòu)建避撞區(qū)的主要影響因素。分析避撞的物理過程,當(dāng)增大無人機(jī)或威脅的速度時,導(dǎo)致相對速度增大,互相接近的速度加快,為了達(dá)到避撞的目的,碰撞區(qū)會相應(yīng)增大;當(dāng)無人機(jī)滾轉(zhuǎn)加速度或拉升加速度增大時,無人機(jī)的機(jī)動性得到增強(qiáng),縮短避撞時間,碰撞區(qū)也會相應(yīng)減小,得到的仿真結(jié)果和分析結(jié)果一致。無人機(jī)的飛行速度、滾轉(zhuǎn)加速度和拉升加速度都是可控因素,故利用GA-OCPA學(xué)習(xí)系統(tǒng)進(jìn)行路徑規(guī)劃時,可以將對無人機(jī)速度、滾轉(zhuǎn)加速度和拉升加速度的控制考慮在內(nèi)。

        3 仿真實驗

        為了驗證本文所提基于GA-OCPA學(xué)習(xí)系統(tǒng)路徑規(guī)劃方法的適用性、必要性、有效性及其優(yōu)勢,首先對未經(jīng)過學(xué)習(xí)的無人機(jī)在簡單地形威脅場景下的路徑規(guī)劃進(jìn)行了實驗,然后通過實驗對系統(tǒng)的學(xué)習(xí)效果進(jìn)行了分析,最后分別對經(jīng)過學(xué)習(xí)后無人機(jī)的路徑規(guī)劃能力在地形威脅、單一動態(tài)威脅、連續(xù)動態(tài)威脅和多種類型威脅場景下進(jìn)行了仿真驗證。

        當(dāng)無人機(jī)未經(jīng)過學(xué)習(xí)時,其應(yīng)對威脅時的路徑規(guī)劃能力較弱,仿真結(jié)果如圖7所示。在簡單地形威脅條件下無法有效規(guī)避威脅,故通過學(xué)習(xí)系統(tǒng)提高無人機(jī)規(guī)避威脅能力具有必要性。

        圖7 未進(jìn)行學(xué)習(xí)的路徑規(guī)劃圖Fig.7 Path planning without learning

        3.1 系統(tǒng)性能分析

        本文對所提GA-OCPA學(xué)習(xí)系統(tǒng)與文獻(xiàn)[12-13]提出的幾何強(qiáng)化學(xué)習(xí)(Geometric Reinforcement Learning,GRL)算法和Q-學(xué)習(xí)算法進(jìn)行了性能比較,3種學(xué)習(xí)算法均進(jìn)行100次迭代,種群中包含個體數(shù)量N=50,且個體內(nèi)包含行為方式個數(shù)r=10,初始概率pjk(0)=0.1。圖8為適應(yīng)度和概率值變化曲線,在學(xué)習(xí)進(jìn)化的過程中最大適應(yīng)度對應(yīng)最小熵值,最小適應(yīng)度對應(yīng)最大熵值。

        當(dāng)個體被多次選擇時,其包含的行為方式被選取的概率也會增加。3種學(xué)習(xí)算法對最優(yōu)行為的選擇概率無限趨近于1,故包含該型的個體熵值趨近于0,此時個體具有最大適應(yīng)度值。由圖8(a)可知,GA-OCPA系統(tǒng)的收斂速度最快且適應(yīng)度值最早趨近于穩(wěn)定。

        圖8 適應(yīng)度和概率變化趨勢曲線Fig.8 Curve of changes in fitness and probability

        在學(xué)習(xí)的過程中某些行為方式被選擇的概率逐漸增加到0.9左右時趨于平緩且最終趨近于1。由圖8(b)可以看出,GA-OCPA學(xué)習(xí)系統(tǒng)在3種算法中的概率值學(xué)習(xí)曲線變化率最大,說明該系統(tǒng)在學(xué)習(xí)中經(jīng)驗積累的速度最快,最早由初始階段的隨機(jī)性學(xué)習(xí)方式變?yōu)榇_定性學(xué)習(xí),進(jìn)而得到最優(yōu)的行為方式,并通過IHDR對最優(yōu)行為進(jìn)行知識存儲,形成威脅到路徑規(guī)劃映射的知識庫。

        實驗表明GA-OCPA學(xué)習(xí)系統(tǒng)在動態(tài)變化的學(xué)習(xí)過程中可以較快地積累學(xué)習(xí)經(jīng)驗和更新行為方式,更早地由初始隨機(jī)搜索階段進(jìn)入最優(yōu)行為學(xué)習(xí),具有良好的適應(yīng)性,更有利于空中環(huán)境復(fù)雜的無人機(jī)路徑規(guī)劃。

        3.2 地形威脅場景

        無人機(jī)經(jīng)過GA-OCPA學(xué)習(xí)系統(tǒng)的學(xué)習(xí)已具備一定的路徑規(guī)劃能力,采用地形威脅場景對無人機(jī)應(yīng)對靜態(tài)威脅的路徑規(guī)劃能力進(jìn)行驗證,場景仿真結(jié)果如圖9所示。

        本機(jī)以30 m/s的速度在第0 s啟動,在進(jìn)入山峰的避撞區(qū)范圍時,通過先前學(xué)習(xí)經(jīng)驗從知識庫中得出最優(yōu)路徑規(guī)劃策略,同時對每次規(guī)劃行為進(jìn)行學(xué)習(xí)更新,根據(jù)不同地形的避撞區(qū)范圍,無人機(jī)完成規(guī)避機(jī)動的飛行速度、滾轉(zhuǎn)加速度和拉升加速度趨向最優(yōu)。

        圖9 地形威脅路徑規(guī)劃圖Fig.9 Path planning in terrain threat

        3.3 動態(tài)威脅場景

        針對無人機(jī)在現(xiàn)實環(huán)境中動靜態(tài)威脅類型并存時的路徑規(guī)劃能力[21],在地形威脅基礎(chǔ)上分別對單一動態(tài)威脅和連續(xù)動態(tài)威脅場景進(jìn)行驗證。

        單一動態(tài)威脅場景仿真結(jié)果如圖10所示。

        與地形威脅場景相同,無人機(jī)在第0 s開始以速度30 m/s飛行,威脅機(jī)在第6 min啟動,并且在第2.3 min進(jìn)入本機(jī)避撞區(qū)范圍,無人機(jī)根據(jù)學(xué)習(xí)得到的最優(yōu)行為進(jìn)行規(guī)避機(jī)動,采用增大左滾轉(zhuǎn)加速的方式在短時間內(nèi)完成實時路徑規(guī)劃。

        連續(xù)動態(tài)威脅場景仿真結(jié)果如圖11所示。

        在連續(xù)威脅場景中,威脅1與本機(jī)第0 s同時啟動,在第1.6 min進(jìn)入本機(jī)避撞區(qū)范圍,本機(jī)通過右滾轉(zhuǎn)并拉升的方式完成規(guī)避;威脅2在第5 min啟動,并在啟動后第3.6 min進(jìn)入本機(jī)避撞區(qū)范圍,無人機(jī)通過左滾轉(zhuǎn)實現(xiàn)有效規(guī)避。

        圖10 單一動態(tài)威脅路徑規(guī)劃圖Fig.10 Path planning in singly dynamic threat

        圖11 連續(xù)動態(tài)威脅路徑規(guī)劃圖Fig.11 Path planning in continuously dynamic threats

        3.4 多種類型威脅場景

        無人機(jī)飛行過程中還可能面臨敵方武器和大氣氣旋造成的禁飛區(qū)等威脅因素,在多種類型威脅場景中無人機(jī)路徑規(guī)劃難度更大。因此,實驗中加入雷達(dá)、導(dǎo)彈和大氣威脅以驗證無人機(jī)經(jīng)過學(xué)習(xí)后的路徑規(guī)劃能力。

        本機(jī)啟動時間和初速度與前3種場景相同,無人機(jī)通過地形威脅和動態(tài)威脅場景的學(xué)習(xí)具有較強(qiáng)的路徑規(guī)劃能力。由仿真結(jié)果圖12可得,無人機(jī)有效規(guī)避大氣威脅造成的禁飛區(qū)域;同時,分別以較大滾轉(zhuǎn)加速的左滾轉(zhuǎn)和右滾轉(zhuǎn)機(jī)動實現(xiàn)對雷達(dá)威脅和導(dǎo)彈威脅的規(guī)避;并且在接近目標(biāo)點時通過連續(xù)左滾轉(zhuǎn)方式規(guī)避連續(xù)動態(tài)威脅。

        仿真結(jié)果表明,無人機(jī)通過GA-OCPA學(xué)習(xí)系統(tǒng)的學(xué)習(xí)和經(jīng)驗知識的積累,能夠在不同威脅場景下采取最優(yōu)規(guī)避機(jī)動措施,以最小的代價完成實時路徑規(guī)劃,提高了無人機(jī)飛行的空域資源利用率和安全系數(shù)。

        圖12 多種類型威脅路徑規(guī)劃圖Fig.12 Path planning in the multiple types of threats

        4 結(jié) 論

        1) 針對現(xiàn)有路徑規(guī)劃方法不能滿足無人機(jī)飛行過程中應(yīng)對突發(fā)威脅的問題,提出GA-OCPA學(xué)習(xí)系統(tǒng),證明了其具有良好的自學(xué)習(xí)能力和自組織能力,且收斂時間短。

        2) 建立無人機(jī)空間三維動態(tài)避撞區(qū)模型,分析了避撞區(qū)發(fā)生變化的影響因素,提出無人機(jī)可通過多種規(guī)避動作應(yīng)對威脅,進(jìn)而提高其飛行安全系數(shù)和空域利用率。

        3) 無人機(jī)通過學(xué)習(xí)系統(tǒng)對路徑規(guī)劃過程中的規(guī)避機(jī)動行為進(jìn)行學(xué)習(xí),并建立行為知識庫,多種場景仿真驗證無人機(jī)的學(xué)習(xí)效果,證明了GA-OCPA學(xué)習(xí)系統(tǒng)對于無人機(jī)路徑規(guī)劃具有適用性和有效性。

        致 謝

        感謝空軍工程大學(xué)信息與導(dǎo)航學(xué)院楊霄鵬副教授對本文無人機(jī)避撞技術(shù)及相關(guān)內(nèi)容的指導(dǎo),同時感謝北京航空航天大學(xué)電子信息工程學(xué)院劉雨帆碩士對本文系統(tǒng)學(xué)習(xí)理論的建議。

        [1] KAVRAKI L E, SVESTKA P, LATOMBE J C, er al. Randomized preprocessing of configuration space for fast path planning[C]∥IEEE International Conference on Robotics and Automation. Piscataway, NJ: IEEE Press, 1994: 3020-3026.

        [2] XIAO Q K, GAO X G, FU X W, et al. New local path replanning algorithm for unmanned combat air vehicle[C]∥Proceedings of the 6th World Congress on Intelligent Control and Automation. Piscataway, NJ: IEEE Press, 2006: 4033-4037.

        [3] 丁家如, 杜昌平, 趙耀, 等. 基于改進(jìn)人工勢場法的無人機(jī)路徑規(guī)劃算法[J]. 計算機(jī)應(yīng)用, 2016, 36(1): 287-290.

        DING J R, DU C P, ZHAO Y, et al. Path planning algorithm for unmanned aerial vehicles based on improved artificial potential field[J]. Journal of Computer Applications, 2016, 36(1): 287-290 (in Chinese).

        [4] CHEN T B, ZHANG Q S. Robot motion planning based on improved artificial potential field[C]∥3rd 2013 International Conference on Computer Science and Network Technology. Piscataway, NJ: IEEE Press, 2013: 1208-1211.

        [5] JU H S, TSAI C C. Design of intelligent flight control law following the optical payload[C]∥Proceedings of the 2004 IEEE International Conference on Networking, Science & Network. Piscataway, NJ: IEEE Press, 2004: 761-766.

        [6] LUGO G I, FLORES G, SALAZAR S, et al. Dubins path generation for a fixed wing UAV[C]∥International Conference on Unmanned Aircraft Systems. Piscataway, NJ: IEEE Press, 2014: 339-346.

        [7] LEE D, SHIM D H. Spline-RRT*based optimal path planning of terrain following flight for fixed-wing UAVs[C]∥The 11th International Conference on Ubiquitous Robots and Intelligence. Piscataway, NJ: IEEE Press, 2014: 257-261.

        [8] GUAN X M, ZHANG X J, WEI J, et al. A strategic conflict avoidance approach based on cooperative coevolutionary with the dynamic grouping strategy[J]. International Journal of Systems Science, 2016, 47(9): 1995-2008.

        [9] 魏瑞軒, 何仁珂, 張啟瑞, 等. 基于Skinner理論的無人機(jī)應(yīng)急威脅規(guī)避方法[J]. 北京理工大學(xué)學(xué)報, 2016, 36(6): 620-624.

        WEI R X, HE R K, ZHANG Q R, et al. Skinner-based emergency collision avoidance mechanism for UAV[J]. Transactions of Beijing Institute of Technology, 2016, 36(6): 620-624 (in Chinese).

        [10] LIN Z J, LIU H T. Consensus based on learning game theory with a UAV rendezvous application[J]. Chinese Journal of Aeronautics, 2015, 28(1): 191-199.

        [11] ZHANG B, LIU W, MAO Z, et al. Cooperative and Ge-ometric Learning Algorithm(CGLA) for path planning of UAVs with limited information[J]. Automatica, 2014, 50(3): 809-820.

        [12] ZHANG B, MAO Z, LIU W, et al. Geometric reinforcement learning for path planning of UAVs[J]. Journal of Intelligent & Robotic Systems, 2015, 77(2): 391-409.

        [13] 郝釧釧, 方舟, 李平. 基于Q學(xué)習(xí)的無人機(jī)三維航跡規(guī)劃算法[J]. 上海交通大學(xué)學(xué)報, 2012, 46(12): 1931-1935.

        HAO C C, FANG Z, LI P. A 3-D route planning algorithm for unmanned aerial vehicle based on Q-learning[J]. Journal of Shanghai Jiaotong University, 2012, 46(12): 1931-1935 (in Chinese).

        [14] ZHAO Y, LI W, SHI P. A real-time collision avoidance learning system for unmanned surface vessels[J]. Neurocomputing, 2016, 182: 255-266.

        [15] WOLF R, HEISENBERG M. Basic organization of operant-behavior as revealed in drosophila flight orientation[J]. Journal of Comparative Physiology A, 1991: 169(6): 699-705.

        [16] HWANG W S, WENG J. Hierarchical discriminant regression[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11): 1277-1293.

        [17] WENG J, HWANG W S. Incremental hierarchical discriminant regression[J]. IEEE Transactions on Neural Networks, 2013, 56(11): 2745-2761.

        [18] KNEPPER R A, MASON M T. Realtime informed path sampling for motion planning search[J]. International Journal of Robotics Research, 2017, 31(11): 1231-1250.

        [19] 張軍. 空域監(jiān)視技術(shù)的新進(jìn)展及應(yīng)用[J]. 航空學(xué)報, 2011, 32(1): 1-14.

        ZHANG J. New development and application of airspace surveillance technology[J]. Acta Aeronautica et Astronautica Sinica, 2011, 32(1): 1-14 (in Chinese).

        [20] MELEGA M, LAZARUS S, SAVVARIS A, et al. Multiple threats sense and avoid algorithm for static and dynamic obstacles[J]. Journal of Intelligent & Robotic Systems, 2015, 77(1): 630-635.

        [21] CHEN Y, YU J, MEI Y, et al. Modified central force optimization (MCFO) algorithm for 3D UAV path planning[J]. Neurocomputing, 2016, 171: 878-888.

        UAVpathplanningbasedonGA-OCPAlearningsystem

        LIUXin1,*,YANGXiaopeng1,LIUYufan2,YAOKun1

        1.InformationandNavigationInstitute,AirForceEngineeringUniversity,Xi’an710077,China2.SchoolofElectronicsandInformationEngineering,BeihangUniversity,Beijing100083,China

        Tosolvetheproblemofdeficiencyinreal-timelinessandapplicabilityofpathplanningfortheUnmannedAerialVehicle(UAV)intheunknownairspace,thereal-timepathplanningoftheUAVissimulatedasaself-learningbehaviorundertheconditionofexternalstimuli,basedonthebiologicaloperantconditioningtheory.TheprobabilisticautomatoniscombinedwiththegeneticalgorithmtoconstructalearningsystemofGeneticAlgorithm-OperantConditioningProbabilisticAutomaton(GA-OCPA)accordingtotheSkinneroperantconditioning.TheUAVs’evasionmaneuveringflightspeed,rollingaccelerationandclimbingaccelerationaretakenasthelearningbehaviorsofthesystem,andtheprobabilityofselectionandindividualfitnessarecalculatedaftereachlearningattempt.Theoptimalpathcanthenbeobtainedbysearchingforthebestbehaviorusingthegeneticalgorithm.TheknowledgebaseofthebestlearnedbehaviorsisestablishedusingIncrementalHierarchicalDiscriminantRegression(IHDR),andthematchingmappingbetweenthethreatstateandpathplanningisthenformed.TheresultshowstheviabilityandapplicabilityoftheGA-OCPAlearningsystemforUAVpathplanning.

        UnmannedAerialVehicle(UAV);pathplanning;geneticalgorithm;operantconditioning;probabilisticautomaton

        2017-03-27;Revised2017-06-12;Accepted2017-07-17;Publishedonline2017-07-232103

        URL:http://hkxb.buaa.edu.cn/CN/html/20171127.html

        s:NationalNaturalScienceFoundationofChina(61202490);AeronauticalScienceFoundationofChina(20150896010)

        .E-mailkdyliuxin@163.com

        http://hkxb.buaa.edu.cnhkxb@buaa.edu.cn

        10.7527/S1000-6893.2017.321275

        V249.1

        A

        1000-6893(2017)11-321275-11

        2017-03-27;退修日期2017-06-12;錄用日期2017-07-17;< class="emphasis_bold">網(wǎng)絡(luò)出版時間

        時間:2017-07-232103

        http://hkxb.buaa.edu.cn/CN/html/20171127.html

        國家自然科學(xué)基金(61202490); 航空科學(xué)基金(20150896010)

        .E-mailkdyliuxin@163.com

        劉鑫,楊霄鵬,劉雨帆,等.基于GA-OCPA學(xué)習(xí)系統(tǒng)的無人機(jī)路徑規(guī)劃方法J.航空學(xué)報,2017,38(11):321275.LIUX,YANGXP,LIUYF,etal.UAVpathplanningbasedonGA-OCPAlearningsystemJ.ActaAeronauticaetAstronauticaSinica,2017,38(11):321275.

        (責(zé)任編輯:蘇磊)

        猜你喜歡
        規(guī)劃系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        發(fā)揮人大在五年規(guī)劃編制中的積極作用
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        規(guī)劃引領(lǐng)把握未來
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        多管齊下落實規(guī)劃
        久久久精品波多野结衣| 日本中文字幕有码网站| 国产精品久久国产三级国| 亚洲不卡一区二区视频| 色欲aⅴ亚洲情无码av| 国产精品成人av在线观看 | 99久久婷婷国产一区| 无码人妻精品一区二区三| 中文亚洲av片在线观看不卡| 亚洲欧美日韩精品香蕉| 狼狼色丁香久久女婷婷综合| 成人国成人国产suv| 婷婷午夜天| 亚洲高清国产品国语在线观看| 毛茸茸的女性外淫小视频| 久久久久亚洲av成人片| 久久午夜无码鲁丝片直播午夜精品| 国产视频网站一区二区三区| 免费国产不卡在线观看| 白白色发布免费手机在线视频观看| 精品成在人线av无码免费看| 超薄肉色丝袜一区二区| 无码国产精品一区二区免费式芒果 | 国产精品综合一区二区三区| 色窝窝免费播放视频在线| 亚洲精品AⅤ无码精品丝袜无码| 成人性生交大片免费看l| 黄桃av无码免费一区二区三区| a在线观看免费网站大全| 在线你懂| 国产一区二区三区我不卡 | 国产成人精品无码一区二区老年人 | 在线观看二区视频网站二区| 手机看黄av免费网址| 亚洲av无码专区亚洲av| 一区二区三区中文字幕有码| 一区二区三区国产精品乱码| 中文字幕一区二区三区日韩精品| 在线观看精品国产福利片100| 国产一区二区亚洲av| 国产偷国产偷亚洲综合av|