李惠峰, 易文峰, 程曉明,2
(1. 北京航空航天大學(xué)宇航學(xué)院, 北京 100083; 2. 北京航天自動(dòng)控制研究所, 北京 100854)
無人機(jī)具有結(jié)構(gòu)簡(jiǎn)單、成本低廉等優(yōu)點(diǎn),是用于自主追隨的理想平臺(tái)。近年來,隨著自動(dòng)化技術(shù)、計(jì)算機(jī)技術(shù)、電子器件等高新科技水平的不斷提高,無人機(jī)在民用領(lǐng)域也大有可為,它可應(yīng)用于:跟蹤拍攝、無人機(jī)集合作戰(zhàn)等領(lǐng)域,市場(chǎng)前景非常樂觀,具有巨大的經(jīng)濟(jì)意義,而這些功能的實(shí)現(xiàn)都依賴于無人機(jī)對(duì)目標(biāo)的精確跟隨。
目前國(guó)內(nèi)實(shí)現(xiàn)無人機(jī)自主跟蹤主要通過低空飛行的無人機(jī)搭載無線相機(jī),通過相機(jī)視覺傳達(dá)無人機(jī)與目標(biāo)的水平位移,進(jìn)而通過控制裝置調(diào)節(jié)無人機(jī)的位置以及姿態(tài),使得無人機(jī)緊隨跟蹤目標(biāo)。但是因?yàn)檎麄€(gè)跟蹤過程基于視覺系統(tǒng),所以存在背景運(yùn)動(dòng)、噪聲、目標(biāo)被遮擋以及目標(biāo)逃出視野之外的等等問題,且其算法還需利用實(shí)時(shí)圖像計(jì)算其跟蹤對(duì)象的像素點(diǎn)變化從再計(jì)算得出機(jī)動(dòng)規(guī)律,使得無人機(jī)自主飛行控制的變得低效以及不準(zhǔn)確。另外如果得到較好的目標(biāo)位置,其控制部分往往研究比較少,只是簡(jiǎn)單地使用控制器跟隨當(dāng)前目標(biāo)位置,無法預(yù)測(cè)目標(biāo)的下一個(gè)可能位置,加上如果應(yīng)用背景是無人機(jī)博弈等對(duì)策問題,預(yù)測(cè)目標(biāo)的位置顯得十分重要。目前利用圖像獲得相對(duì)位置的方法已經(jīng)較為成熟[1],如在線目標(biāo)跟蹤算法中的均值偏移算法[2]、子塊跟蹤算法[3]、子空間算法[4],濾波算法中的特征改進(jìn)、多核算法[5]、尺度估計(jì)[6-8]、分塊算法[9]等,深度學(xué)習(xí)中的深度目標(biāo)跟蹤算法[10]等,可以解決大多數(shù)圖像跟蹤存在的問題,但其控制器的目標(biāo)都幾乎只是計(jì)算目標(biāo)與無人機(jī)的距離而設(shè)計(jì)控制器,之后將目標(biāo)放在圖像中心[9],而忽視了從控制方面改善跟蹤效果。如果在控制方面加上對(duì)目標(biāo)的預(yù)測(cè),那么跟蹤效果也會(huì)得到很大的改善且也可以將之使用于博弈控制,改善了現(xiàn)有控制算法不靈敏,對(duì)圖像依賴大的問題。
本文將近似動(dòng)態(tài)規(guī)劃的方法應(yīng)用于無人機(jī)自主追隨的問題,如果已知目標(biāo)的位置等條件,使用提前使用博弈方式訓(xùn)練好無人機(jī)的特征參數(shù)的方法,那么本文算法可以使無人機(jī)做出更好更快的選擇。最后,對(duì)設(shè)計(jì)的算法進(jìn)行了仿真實(shí)驗(yàn),驗(yàn)證了算法的可行性及其良好的跟蹤性能。
基于貝爾曼方程的動(dòng)態(tài)規(guī)劃為無人機(jī)跟隨的最佳機(jī)動(dòng)策略提供了新的手段,由此產(chǎn)生的優(yōu)化策略為無人機(jī)跟蹤問題提供了更好的方法,即在給定的飛行狀態(tài)下,對(duì)最優(yōu)跟蹤控制策略的求解,不需要大量的在線計(jì)算,能夠完成實(shí)時(shí)的最優(yōu)跟蹤。盡管動(dòng)態(tài)規(guī)劃方法非常適合應(yīng)用于這類問題,但是其不適用于求解計(jì)算量較大的問題,因?yàn)殡x散狀態(tài)空間大小隨狀態(tài)空間變量的數(shù)量成指數(shù)增長(zhǎng),從而產(chǎn)生維數(shù)災(zāi)使得算法難以實(shí)現(xiàn)。而基于動(dòng)態(tài)規(guī)劃的近似動(dòng)態(tài)規(guī)劃(Approximate Dynamic Programming, ADP)為解決復(fù)雜且龐大的最優(yōu)跟蹤控制問題提供了新的可能。
近似動(dòng)態(tài)規(guī)劃使用的基本原理是利用函數(shù)近似結(jié)構(gòu)(比如神經(jīng)網(wǎng)絡(luò)),來逼近經(jīng)典動(dòng)態(tài)規(guī)劃中的性能指標(biāo)函數(shù),從而逼近得到最優(yōu)性能指標(biāo)和最優(yōu)控制,近似動(dòng)態(tài)規(guī)劃的結(jié)構(gòu)如圖1所示[11]。
近似動(dòng)態(tài)規(guī)劃算法主要由3部分組成:動(dòng)態(tài)系統(tǒng)、執(zhí)行網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)。在實(shí)際應(yīng)用中,每個(gè)部分的實(shí)現(xiàn)由神經(jīng)網(wǎng)絡(luò)執(zhí)行。當(dāng)系統(tǒng)模型未知時(shí),可以通過神經(jīng)網(wǎng)絡(luò)對(duì)系統(tǒng)模型進(jìn)行辨識(shí);執(zhí)行網(wǎng)絡(luò)生成系統(tǒng)的控制策略,通過調(diào)節(jié)執(zhí)行網(wǎng)絡(luò)的參數(shù)來達(dá)到逼近最優(yōu)控制策略的目的;評(píng)價(jià)網(wǎng)絡(luò)用于評(píng)價(jià)執(zhí)行網(wǎng)絡(luò)生成的控制策略。不同于傳統(tǒng)的反饋控制方法,圖1中評(píng)價(jià)網(wǎng)絡(luò)到執(zhí)行網(wǎng)絡(luò)的增強(qiáng)信號(hào)是對(duì)執(zhí)行網(wǎng)絡(luò)控制策略的評(píng)價(jià)結(jié)果,這一信號(hào)有助于指導(dǎo)執(zhí)行網(wǎng)絡(luò)的優(yōu)化設(shè)計(jì)。本文需要指出執(zhí)行網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值調(diào)整優(yōu)化目標(biāo)之間的區(qū)別:評(píng)價(jià)網(wǎng)絡(luò)的參數(shù)優(yōu)化的目標(biāo)函數(shù)是使得評(píng)價(jià)網(wǎng)絡(luò)的輸出滿足貝爾曼方程;建立在評(píng)價(jià)網(wǎng)絡(luò)基礎(chǔ)上,執(zhí)行網(wǎng)絡(luò)參數(shù)優(yōu)化的目標(biāo)是最小化評(píng)價(jià)網(wǎng)絡(luò)的輸出。
J(xk)=r(xk,uk)+J(xk+1)
(1)
式中:r(xk,uk)通常被稱之為回報(bào)函數(shù)(reward function);在k時(shí)刻,以J(xk)性能指標(biāo)表示為狀態(tài)xk的函數(shù);在k+1時(shí)刻,性能指標(biāo)則可以表示為J(xk+1)。根據(jù)貝爾曼最優(yōu)性原理[12]
圖1 近似動(dòng)態(tài)規(guī)劃結(jié)構(gòu)[11]Fig.1 ADP structure[11]
(2)
則最優(yōu)控制可以表示為
(3)
其方法有很多種,本文利用近似值函數(shù)的方法來實(shí)現(xiàn)整個(gè)算法過程,這可以很好地解決動(dòng)態(tài)規(guī)劃的維數(shù)災(zāi)問題。近似動(dòng)態(tài)規(guī)劃變量說明見表1。
表1 近似動(dòng)態(tài)規(guī)劃變量說明Table 1 ADP symbology
算法的基本函數(shù)是狀態(tài)轉(zhuǎn)移函數(shù),將目標(biāo)追蹤的過程離散化,則每個(gè)狀態(tài)到下一個(gè)狀態(tài)由狀態(tài)轉(zhuǎn)移函數(shù)控制。而獎(jiǎng)勵(lì)函數(shù)、特征生成函數(shù)、軌跡采樣函數(shù)等都用來生成近似值函數(shù),值函數(shù)即狀態(tài)的未來獎(jiǎng)勵(lì)值,獎(jiǎng)勵(lì)值越大,則對(duì)于無人機(jī)來說位置就越好,可以通過近似的值函數(shù)產(chǎn)生最佳策略。算法框架如圖2所示。
跟蹤系統(tǒng)的狀態(tài)量x由無人機(jī)和目標(biāo)的位置、偏航角和滾轉(zhuǎn)角組成,本文目標(biāo)可以指具有滾轉(zhuǎn)角特征的比如其他飛行器、鳥類等,如果為其他不具有滾轉(zhuǎn)角的目標(biāo),則可替代為控制量直接作用的狀態(tài)量。本文選取的是具有滾轉(zhuǎn)角的對(duì)象,以我方飛行器為藍(lán)色無人機(jī),目標(biāo)用紅色代替[13]。
(4)
式中:ψ為偏航角,下標(biāo)b和r分別表示藍(lán)色和紅色無人機(jī);φ為滾轉(zhuǎn)角;xpos和ypos可以在x-y平面內(nèi)任意取值,滾轉(zhuǎn)角和偏航角需要在[-180°,180°]取值。
跟蹤的目標(biāo)始終在一定范圍之內(nèi),有時(shí)候還需要其他的目標(biāo)來滿足需求,比如必須把無人機(jī)限制在目標(biāo)后方的一定扇形區(qū)域內(nèi),以保證我方無人機(jī)占據(jù)優(yōu)勢(shì)的戰(zhàn)略地位。還有其他需求,比如跟隨航拍,就必須把無人機(jī)限制在目標(biāo)前方的扇形區(qū)域內(nèi),本文設(shè)定的目標(biāo)是在其后方的扇形區(qū)域內(nèi)。具體區(qū)域如算法1所示,AA和ATA分別為方位角和天線拂擦角。獎(jiǎng)勵(lì)區(qū)域如圖3所示。
算法1優(yōu)勢(shì)位置函數(shù)gpa(x)
輸入:{x}。
R=“飛行器與目標(biāo)的歐幾里得距離”
if(0.1 m (|ATA|<30°) then gpa(x)=1.0 else gpa(x)=0 end if 輸出獎(jiǎng)勵(lì):(gpa)。 圖2 算法框架Fig.2 Algorithm framework 圖3 獎(jiǎng)勵(lì)區(qū)域Fig.3 Reward area 算法2狀態(tài)轉(zhuǎn)移函數(shù)f(xi,ub,ur) 輸入:{xi,ub,ur}。 fori=1:5(once per Δt=0.05 s) do for{red,blue} do ifu=L then else ifu=R then end if ypos=ypos+Δtvcosψ end for end for 為了更好地訓(xùn)練無人機(jī)的跟蹤效率,本文使用極大極小算法使跟蹤目標(biāo)與我方無人機(jī)進(jìn)行博弈。而對(duì)于每個(gè)狀態(tài),我方及目標(biāo)皆有3個(gè)機(jī)動(dòng)策略,所以有9種可能的結(jié)束狀態(tài),紅色目標(biāo)的機(jī)動(dòng)策略選擇源自雙方的初始狀態(tài)與9種可能情況的結(jié)合機(jī)動(dòng)策略,通過狀態(tài)轉(zhuǎn)移函數(shù)計(jì)算結(jié)束狀態(tài)。而在每個(gè)狀態(tài)采用一種評(píng)分體系對(duì)當(dāng)前位置進(jìn)行評(píng)分,表示紅色目標(biāo)的優(yōu)勢(shì)程度,因此,我方無人機(jī)的目標(biāo)就是最大化地減小其評(píng)分。 按照目標(biāo)的定義,跟隨在目標(biāo)的后方的一定距離以內(nèi),可以得到優(yōu)勢(shì)位置函數(shù)gpa(x),可是它的不連續(xù)性導(dǎo)致近似值函數(shù)過程難于操作,所以引入連續(xù)的評(píng)估函數(shù)S(x),將兩者結(jié)合起來一起構(gòu)成每個(gè)狀態(tài)的評(píng)分體系[14]。 評(píng)估函數(shù)表達(dá)式為 (5) 每架飛行器都有相對(duì)于另一架飛行器的對(duì)稱表示,不失一般性,本文從藍(lán)色飛行器角度描述幾何。獎(jiǎng)勵(lì)區(qū)域?yàn)閮杉^所夾區(qū)域,ATA為我方無人機(jī)頭部與視距線的夾角,AA為視距線與敵方無人機(jī)頭部反方向所成夾角。R為兩物體之間的實(shí)際距離,Rd為兩物體間的期望距離,常數(shù)p單位為m/(°),其為用來協(xié)調(diào)方位分?jǐn)?shù)和距離分?jǐn)?shù)。p的有效值為0.1 m/(°),R的有效值為2 m。目標(biāo)獎(jiǎng)勵(lì)函數(shù)的具體表達(dá)式為 g(x)=wggpa+(1-wg)S (6) 式中:wg=0.8為權(quán)重系數(shù)。 圖4、圖5分別給出了評(píng)估函數(shù)以及具體獎(jiǎng)勵(lì)位置的三維圖。假設(shè)目標(biāo)在原點(diǎn)。 圖4 評(píng)估函數(shù)Fig.4 Evaluation function 圖5 優(yōu)勢(shì)目標(biāo)獎(jiǎng)勵(lì)的位置Fig.5 Advantageous target reward position b=[cosψb,sinψb]T (7) r=[cosψr,sinψr]T (8) AA=arccos(dbrb/(dbrb)) (9) ATA=arccos(dbrr/(dbrr)) (10) (11) 圖6 角度定義Fig.6 Angle definition (12) 這些被選取的特征被用來形成特征向量ζ(x),特征量通過相互組合進(jìn)行擴(kuò)充,舉個(gè)例子,如果選取的特征量為{A(x),B(x),C(x)},則形成的特征向量為 ζ(x)=[A(x),B(x),C(x),A(x)B(x), A(x)C(x),C(x)B(x),A2(x), B2(x),C2(x)] (13) 則在第k次迭代后,值函數(shù)可以被近似為 (14) 式中:βk為各個(gè)特征對(duì)于近似值函數(shù)的權(quán)重系數(shù)??梢钥闯觯绻卣髁窟x取越多,則近似值函數(shù)對(duì)于真正值函數(shù)更為接近,但是由此可以看出,特征量選取的越多,則計(jì)算的復(fù)雜度和量要大大增加,這違背了本文選取近似動(dòng)態(tài)規(guī)劃的初衷。所以選取上述對(duì)于目標(biāo)跟蹤十分重要的特征,總計(jì)如下[15]。 (15) 采樣點(diǎn)越密集則對(duì)于近似值函數(shù)來說就更加精確,但是對(duì)于計(jì)算量來說,采樣點(diǎn)越密集,計(jì)算量就越大,因此應(yīng)選擇采樣區(qū)間。 為了使采樣的空間更加符合目標(biāo)跟蹤時(shí)的實(shí)際情況。我方無人機(jī)以及跟蹤目標(biāo)的橫縱坐標(biāo)使用標(biāo)準(zhǔn)差為7 m的高斯分布,初始狀態(tài)的偏航角以及滾轉(zhuǎn)角符合均勻分布。就像最小二乘法中所使用的方法,將所有采樣的狀態(tài)存儲(chǔ)于一個(gè)大矩陣X中。 (16) 使用生成的采樣點(diǎn)生成構(gòu)建近似動(dòng)態(tài)規(guī)劃框架的特征為 ζ(x)=[ζ(x1),ζ(x2),…,ζ(xn)]T (17) 為了更好地訓(xùn)練值函數(shù),使得訓(xùn)練出來的值函數(shù)具有最大的普遍性,目標(biāo)運(yùn)動(dòng)算法選擇博弈算法,本文采用Minimax算法,Minimax算法又名極大極小算法,是一種找出失敗的最大可能性中的最小值的算法[16]。 Minimax算法常用于棋類等由兩方較量的游戲和程序。該算法是一個(gè)零總和算法,即一方要在可選的選項(xiàng)中選擇將其優(yōu)勢(shì)最大化的選擇,另一方則選擇令對(duì)手優(yōu)勢(shì)最小化的方法。而開始的時(shí)候總和為0。其算法如圖7所示。 圖7 Minimax算法流程Fig.7 Minimax algorithm flowchart 通過合理的軌跡采樣、特征選取以及獎(jiǎng)勵(lì)函數(shù)的建立,可以通過算法得到一個(gè)與真實(shí)值函數(shù)十分近似的近似值函數(shù)。其具體思想如下所示。 假設(shè)λ是列向量的系數(shù),本文可以把整個(gè)模型[17]寫為 y=λTx+ε (18) 式中:y、x和ε分別為因變量、自變量和估計(jì)誤差。 (19) (20) 那么本文的目標(biāo)變?yōu)檫x擇一個(gè)β使誤差的平方和最小,即 (21) (22) 則通過以上方式,本文可以得到近似值函數(shù),算法大概通過40次迭代,可以得到最優(yōu)的參數(shù)矩陣。 盡管本文的近似值函數(shù)相對(duì)于真正值函數(shù)來說已經(jīng)十分接近,但對(duì)于策略選擇來說,仍有可能不是最優(yōu)的策略,所以策略選取應(yīng)用rollout策略[18]。rollout算法是對(duì)于當(dāng)前狀態(tài),從每一個(gè)可能的動(dòng)作開始,之后根據(jù)給定的策略進(jìn)行路徑采樣,根據(jù)多次采樣的獎(jiǎng)勵(lì)和來對(duì)當(dāng)前狀態(tài)的行動(dòng)值進(jìn)行估計(jì)。在當(dāng)前估計(jì)基本收斂時(shí),會(huì)根據(jù)行動(dòng)值最大的原則選擇動(dòng)作進(jìn)入下一個(gè)狀態(tài)再重復(fù)上述過程。在蒙特卡羅控制中,采樣的目的是估計(jì)一個(gè)完整的,最優(yōu)價(jià)值函數(shù),但是rollout算法中的采樣目的只是為了計(jì)算當(dāng)前狀態(tài)的行動(dòng)值以便進(jìn)入下一個(gè)狀態(tài),而且這些估計(jì)的行動(dòng)值并不會(huì)被保留。在得到最優(yōu)的策略函數(shù)后也可將結(jié)果放入神經(jīng)網(wǎng)絡(luò)訓(xùn)練,利用決策對(duì)特征進(jìn)行分類,使得無人機(jī)在博弈或者跟隨目標(biāo)的程中快速做出決策。算法具體實(shí)現(xiàn)過程如算法3所示。 算法3rollout算法 輸入:xi。 初始化:Jbest=-。 forub={L,S,R} forj={1:Nrolls} do end for ifJcurrent>Jbest then ubest=ub,Jbest=Jcurrent end if end for 輸出:ubest。 對(duì)定常運(yùn)動(dòng)的目標(biāo)以及與我方無人機(jī)博弈的目標(biāo)的跟蹤任務(wù)進(jìn)行了仿真,任務(wù)是始終在目標(biāo)的后方的0.1~3 m,最后將本控制算法與經(jīng)典控制算法PID進(jìn)行比較,得出本算法在復(fù)雜環(huán)境下的優(yōu)勢(shì)。 通過之前所敘述的利用博弈離線訓(xùn)練好近似值函數(shù)特征參數(shù)的方法,結(jié)合rollout算法,可以得到最優(yōu)的控制指令。 通過給定兩方無人機(jī)不同的初始狀態(tài)以及選取目標(biāo)無人機(jī)的不同策略,來模擬不同環(huán)境的工況,初始狀態(tài)以及目標(biāo)策略選取如表2所示,其中,Minimax代表目標(biāo)無人機(jī)選取與我方博弈的極大極小策略,Maintain代表目標(biāo)無人機(jī)選取定常的直線運(yùn)動(dòng)。 最后,對(duì)比本文與傳統(tǒng)PID算法的仿真結(jié)果, 由于PID算法只能跟蹤預(yù)定軌跡,在進(jìn)行PID算法的仿真時(shí),將ADP仿真完成后得到的目標(biāo)軌跡給定給PID算法,從而比較出本文算法優(yōu)勢(shì)。仿真結(jié)果如圖8~圖20所示,xinit為起始狀態(tài)分類。各仿真圖初始狀態(tài)及目標(biāo)策略如表2所示。 由以上仿真結(jié)果可知,如果已知目標(biāo)的位置,目標(biāo)的運(yùn)動(dòng)是定常的,如圖11、圖13所示可以實(shí)現(xiàn)很好的跟隨,并且按照預(yù)定的目標(biāo)始終跟在目標(biāo)的后方,而對(duì)于目標(biāo)運(yùn)動(dòng)變化較大,甚至與我方進(jìn)行博弈的情況下如圖9、圖15所示,由仿真圖所示,該算法具有一定的預(yù)測(cè)性,該控制算法可以實(shí)現(xiàn)很好的跟隨。與給定PID目標(biāo)軌跡的控制方法比較,可以看到,即使給定傳統(tǒng)PID算法目標(biāo)軌跡,其跟蹤的穩(wěn)定性也不是很好,具有一定的振蕩,但對(duì)于ADP算法,從圖16中可以看出其具有一定的預(yù)測(cè)性,且其與目標(biāo)的距離始終保持在之前設(shè)定的0.1~3 m的范圍以內(nèi),不妨假設(shè)ADP跟蹤的目的為與目標(biāo)為1 m,而PID的目的為與 目標(biāo)的距離為0 m,可以計(jì)算得到各算法的方差分別為 表2 各仿真圖初始狀態(tài)及目標(biāo)策略Table 2 Initial state and objet strategy of each simulation chart 注:πr—敵機(jī)機(jī)動(dòng)策略。 圖8 60步長(zhǎng)仿真(xinit=1)Fig.8 60 step length simulation (xinit=1) 圖9 實(shí)時(shí)與目標(biāo)距離(xinit=1)Fig.9 Real-time target distance (xinit=1) 圖10 60步長(zhǎng)仿真(xinit=2)Fig.10 60 step length simulation (xinit=2) 圖11 實(shí)時(shí)與目標(biāo)距離(xinit=2)Fig.11 Real-time target distance (xinit=2) 圖12 60步長(zhǎng)仿真圖(xinit=3)Fig.12 60 step length simulation chart (xinit=3) 圖13 實(shí)時(shí)與目標(biāo)距離(xinit=3)Fig.13 Real-time traget distance map (xinit=3) 圖14 60步長(zhǎng)仿真(xinit=4)Fig.14 60 step length simulation chart (xinit=4) 圖15 實(shí)時(shí)與目標(biāo)距離(xinit=4)Fig.15 Real-time traget distance map (xinit=4) 圖16 給定PID目標(biāo)軌跡時(shí)的仿真比較Fig.16 Simulation comparison when PID target trajectory is given 圖17 PID跟蹤誤差以及ADP與目標(biāo)距離Fig.17 PID tracking error and target distance from ADP simulation 圖18 非線性預(yù)測(cè)模型方法與ADP的跟蹤比較Fig.18 Comparison of tracking between nonlinear prediction model methods and ADP SADP1=52.994 5 m2 (23) SPID=75.183 5 m2 (24) SADP2=114.7 m2 (25) Snolinear=136.9 m2 (26) 在這組仿真下可知,即使在ADP算法不知道目標(biāo)的軌跡的前提下,ADP算法也具有更好的穩(wěn)定性。由此可知,該算法可以適應(yīng)于較為復(fù)雜的環(huán)境。 圖20所示的是基于非線性模型預(yù)測(cè)跟蹤控制算法的逃逸無人機(jī)控制[17-19],由圖可知,雖然 這種算法有著較好的跟蹤結(jié)果,但是由于這種方法本身不產(chǎn)生機(jī)動(dòng),所以該方法有著一個(gè)天然的缺陷,它不具有在追蹤和逃逸角色切換的能力。而ADP算法可以很好地實(shí)現(xiàn)角色的切換。 圖19 非線性預(yù)測(cè)模型方法與ADP的跟蹤誤差比較Fig.19 Comparison of tracking error between nonlinear prediction model method and ADP 圖20 無人機(jī)跟蹤與博弈Fig.20 UAV tracking and gaming 1) 本文對(duì)無人機(jī)跟蹤控制算法進(jìn)行研究,提出了將近似動(dòng)態(tài)規(guī)劃用于目標(biāo)跟蹤問題中的飛行控制問題,在已知雙方狀態(tài)的條件下,可以應(yīng)對(duì)目標(biāo)的靈活運(yùn)動(dòng),預(yù)測(cè)目標(biāo)的運(yùn)動(dòng)軌跡。 2) 為了確保得到的決策是最優(yōu)決策,使用rollout算法得出結(jié)論。實(shí)現(xiàn)了飛行器在跟蹤甚至博弈過程中的有效跟蹤,在現(xiàn)行跟蹤問題上缺少飛行控制的研究進(jìn)行了補(bǔ)充。 3) 仿真驗(yàn)證了目標(biāo)跟蹤的有效性。對(duì)于多目標(biāo)且多控制體的模型可以結(jié)合粒子群算法、遺傳算法等其他智能算法[20]來實(shí)現(xiàn)。項(xiàng)目可以應(yīng)用于大多數(shù)跟隨場(chǎng)合以及大多數(shù)飛行器博弈場(chǎng)合。2.2 獎(jiǎng)勵(lì)函數(shù)
2.3 特征選取
2.4 軌跡采樣
2.5 目標(biāo)策略函數(shù)
2.6 生成近似值函數(shù)
2.7 策略選取(控制指令生成)
3 仿真結(jié)果
4 結(jié) 論