顧天妍,張永合,蔣 峻,李超勇
(1.浙江大學(xué) 電氣工程學(xué)院,浙江 杭州 310027;2.中科院上海微小衛(wèi)星工程中心,上海 201203)
近年來(lái),隨著航天器控制技術(shù)和軌道規(guī)劃技術(shù)的不斷發(fā)展,航天器空間交會(huì)技術(shù)逐漸成熟,同時(shí)能兼容的目標(biāo)形式也逐漸增加[1]。當(dāng)航天器雙方都有自主機(jī)動(dòng)能力時(shí),傳統(tǒng)的單邊最優(yōu)控制策略不再適用,航天器的交會(huì)問(wèn)題可視為雙邊控制問(wèn)題,即航天器追逃博弈問(wèn)題。相較于經(jīng)典控制策略,航天器追逃博弈控制同時(shí)考慮了雙方的控制信息,更適用于非合作機(jī)動(dòng)目標(biāo),受到國(guó)內(nèi)外學(xué)者的廣泛關(guān)注。
針對(duì)航天器追逃博弈問(wèn)題,目前大多數(shù)學(xué)者都采用了微分對(duì)策的方法進(jìn)行研究。ISAACS[2]提出微分對(duì)策論,將控制論中的部分概念和原理與博弈論結(jié)合,并應(yīng)用于二人追逃問(wèn)題中,初步形成了微分對(duì)策論。在此基礎(chǔ)上,STUPIK 等[3]利 用Clohessy-Wiltshire(CW)方程將航天器追逃博弈問(wèn)題轉(zhuǎn)化為非線性兩點(diǎn)邊值問(wèn)題,并通過(guò)克里金法求解了航天器的追逃策略。針對(duì)微分對(duì)策理論方程求解困難的問(wèn)題,吳其昌等[4]分別采用了遺傳算法、差分進(jìn)化算法和蟻群算法來(lái)求解牛頓迭代初值,從而避免復(fù)雜微分方程的求解,但這類方法的計(jì)算時(shí)間較長(zhǎng)。此外,PONTANI 等[5]利用半直接配點(diǎn)方法求解異面情況下航天器追逃問(wèn)題,并通過(guò)仿真驗(yàn)證了該方法的魯棒性。
隨著人工智能和大數(shù)據(jù)處理技術(shù)的發(fā)展,利用人工智能方法進(jìn)行在線決策和規(guī)劃成為可能,近年來(lái)在航天器追逃問(wèn)題中的應(yīng)用也逐漸受到重視。許旭升等[6]提出了一種基于多智能體深度強(qiáng)化學(xué)習(xí)的集群衛(wèi)星空間軌道追逃博弈方法,通過(guò)多智能體深度決定性策略梯度法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)訓(xùn)練數(shù)據(jù),最終得到各衛(wèi)星的策略。劉冰雁等[7]在傳統(tǒng)強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,建立了模糊推理模型,利用分支深度強(qiáng)化學(xué)習(xí)有效解決了行為數(shù)量與映射規(guī)則的組合增長(zhǎng)問(wèn)題,縮短了仿真時(shí)間,提高了仿真效率。吳其昌等[8]將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到航天器追逃博弈中,搭建了4 層神經(jīng)網(wǎng)絡(luò),并通過(guò)Adam 優(yōu)化算法對(duì)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,同時(shí)驗(yàn)證了最終生成策略與真實(shí)策略相近,實(shí)現(xiàn)了在線決策。
值得注意的是,上述文獻(xiàn)都是針對(duì)航天器在連續(xù)時(shí)間下的連續(xù)推力模型展開(kāi),且目前大部分研究工作均在連續(xù)機(jī)動(dòng)的基礎(chǔ)上進(jìn)行,針對(duì)脈沖作用下的軌道追逃博弈的研究較少,同時(shí)模型的相關(guān)研究和結(jié)論并不成熟。針對(duì)這一問(wèn)題,VENIGALLA 等[9-10]提出了可達(dá)集的概念,并證明了逃逸航天器在知道追蹤航天器的可達(dá)集的前提下能成功完成逃逸,給出了在共面時(shí)逃逸航天器的最優(yōu)逃逸方向。LIU 等[11]研究了三人博弈問(wèn)題,僅在一次脈沖機(jī)動(dòng)的前提下,利用粒子群算法和牛頓插值法解決了異面最優(yōu)軌跡求解問(wèn)題。于大騰[12]基于序列二次優(yōu)化算法建立了追蹤器多脈沖最優(yōu)交會(huì)模型,采用遺傳算法進(jìn)行了機(jī)動(dòng)優(yōu)化,提升了飛行器的空間生存能力。
上述方法都有效解決了航天器軌道追逃問(wèn)題,但其中航天器的動(dòng)力學(xué)模型由簡(jiǎn)化的CW 方程進(jìn)行描述,多數(shù)沒(méi)有考慮攝動(dòng)力因素的影響[13]。同時(shí),非圓軌道和較大的相對(duì)距離也是CW 方程誤差的主要來(lái)源。然而航天器的實(shí)際軌跡會(huì)受到各種不可避免的攝動(dòng)影響,特別是當(dāng)航天器在低軌道和中軌道運(yùn)行時(shí),攝動(dòng)作用力會(huì)對(duì)線性模型下的博弈結(jié)果產(chǎn)生不可忽略的負(fù)面影響。因此,本文旨在解決地球高階引力模型下,基于脈沖控制的航天器軌道追逃問(wèn)題,并通過(guò)計(jì)算博弈進(jìn)行求解。
在計(jì)算博弈問(wèn)題中,快速搜索(Action-Reaction Search,ARS)算法能夠高效求解納什均衡點(diǎn)。針對(duì)多組動(dòng)態(tài)武器目標(biāo)分配(Multi-team Dynamic Weapon Target Assignment,MDWTA)生成矩陣規(guī)模較大的問(wèn)題,GALATI[14]提出利用ARS 算法沿最優(yōu)方向搜索,有效利用內(nèi)存,提高計(jì)算可行性。剪枝算法常用于減少算法搜索時(shí)間和提高計(jì)算效率,REED[15]提出利用剪枝算法應(yīng)用于神經(jīng)網(wǎng)絡(luò)中以減少不必要的搜索路徑,至今剪枝已經(jīng)分化出多種類別,包括結(jié)構(gòu)化剪枝和非結(jié)構(gòu)化剪枝等,應(yīng)用于計(jì)算機(jī)[16]、電氣[17]、航空航天[18]等領(lǐng)域。
本文提出了一種基于計(jì)算博弈的控制策略,通過(guò)優(yōu)化航天器的速度增量大小和方向,實(shí)現(xiàn)了追逃雙方的性能指標(biāo)最優(yōu)化。本文的主要工作:1)完成了航天器軌道追逃博弈問(wèn)題的數(shù)學(xué)定義,其中性能指標(biāo)函數(shù)考慮博弈雙方的距離和燃料消耗,并以速度增量大小和方向構(gòu)建容許控制集;2)創(chuàng)新性地引入ARS 算法,并將一種數(shù)據(jù)剪枝策略嵌入,從而保證了納什均衡解的準(zhǔn)確性以及求解速度。本文證明了在逃逸航天器沒(méi)有機(jī)動(dòng)的情況下,該算法可以成功地將軌道追逃博弈問(wèn)題轉(zhuǎn)換為最基本的航天器軌道交會(huì)問(wèn)題。仿真結(jié)果驗(yàn)證了本文方法的有效性和可行性。
假設(shè)在航天器軌道追逃任務(wù)場(chǎng)景中,追擊航天器預(yù)先通過(guò)Hohmann 轉(zhuǎn)移攔截目標(biāo)航天器,但在通過(guò)第一次機(jī)動(dòng)之后,目標(biāo)航天器可通過(guò)施加一個(gè)微小偏移脈沖規(guī)避追擊航天器的攔截。此時(shí),雙方各自有一次施加脈沖機(jī)動(dòng)的機(jī)會(huì),且在同一時(shí)刻機(jī)動(dòng)。追擊航天器需要在燃料消耗盡可能小的情況下攔截逃逸航天器,而逃逸航天器則需在燃料消耗盡可能小的情況下規(guī)避攔截。
在航天器追逃博弈問(wèn)題中,為了便于計(jì)算和分析,采用J2000 下的地球慣性坐標(biāo)系??紤]到攝動(dòng)力等因素,航天器的動(dòng)力學(xué)模型為[19]
式中:r為航天器的位置矢量;v為航天器的速度矢量;U為地球的引力勢(shì)函數(shù)。
當(dāng)?shù)厍驗(yàn)樾D(zhuǎn)橢球體,且只考慮J1至J6攝動(dòng)項(xiàng)時(shí),令地球赤道半徑為Re,則地球引力勢(shì)函數(shù)可以簡(jiǎn)化為
式中:μ為地球引力常數(shù);J2=1.082 6×10-3,J3=-2.536×10-6,J4=-1.618 6×10-6,J5=-0.226×10-6,J6=0.539×10-6;P2~P6為勒讓德多項(xiàng)式,表達(dá)式如下:
在施加脈沖作用的時(shí)刻,航天器的狀態(tài)變化為
式中:上標(biāo)“-”和“+”分別為脈沖作用前后的狀態(tài)。
在J2000 坐標(biāo)系下,式(4)可以擴(kuò)展為
式中:φ為脈沖推力偏角;γ為脈沖推力仰角。
自20 世紀(jì)以來(lái),航天器的交會(huì)對(duì)接技術(shù)在工程應(yīng)用及理論研究中具有重要意義,有許多突出成果,其中Hohmann 轉(zhuǎn)移[20]和Lambert 追擊[21]是最為經(jīng)典的方法。Hohmann 轉(zhuǎn)移方法給出了共面下軌道轉(zhuǎn)移的最小能量消耗,奠定了之后大多數(shù)理論的基礎(chǔ),但是存在調(diào)相時(shí)間過(guò)長(zhǎng),耗費(fèi)時(shí)間巨大的問(wèn)題;Lambert 追擊方法計(jì)算了固定時(shí)間下兩點(diǎn)之間軌道轉(zhuǎn)移所需脈沖。上述理論均要求目標(biāo)航天器被動(dòng)飛行且沒(méi)有自主機(jī)動(dòng),不適用于目標(biāo)存在自主機(jī)動(dòng)的航天器追逃博弈問(wèn)題。在航天器追逃博弈問(wèn)題中,追擊航天器和逃逸航天器通過(guò)控制自身的脈沖機(jī)動(dòng),使得雙方的性能指標(biāo)函數(shù)達(dá)到最優(yōu),即:
式中:下標(biāo)P、E 分別為追擊航天器和逃逸航天器。
航天器的追逃博弈問(wèn)題包含3 個(gè)要素:博弈參與者{P,E};雙方各自的性能指標(biāo)函數(shù)J;以及參與者的行為策略(uP,uE)。
追擊航天器的行為策略u(píng)P定義為
上式中各項(xiàng)滿足如下約束條件:
針對(duì)上述航天器追逃博弈問(wèn)題,SCHEERES等[9]基于可達(dá)集的概念推導(dǎo)了逃逸航天器的最優(yōu)逃逸方向,耿遠(yuǎn)卓等[22]利用終端誘導(dǎo)強(qiáng)化學(xué)習(xí)對(duì)航天器追逃博弈問(wèn)題進(jìn)行了求解,通過(guò)在獎(jiǎng)勵(lì)函數(shù)中考慮終端誤差從而提高追擊成功率。然而,這些航天器通常采用二體模型或CW 方程進(jìn)行求解,沒(méi)有考慮地球攝動(dòng)因素影響,且對(duì)軌道形狀有所限制,所得結(jié)果精度不足。為了滿足實(shí)際情況,提升求解模型的精度,本文采用計(jì)算博弈的方法來(lái)解決航天器追逃博弈問(wèn)題。
與傳統(tǒng)的以解析形式求解博弈雙方納什均衡點(diǎn)的方法不同,計(jì)算博弈通過(guò)對(duì)雙方的策略進(jìn)行數(shù)值搜索,得到雙方各自的最優(yōu)解。此外,追逃航天器的性能指標(biāo)函數(shù)J包含兩部分,分別由追逃雙方的距離以及各自消耗的燃料定義。雙方博弈的目的是通過(guò)給出自己的脈沖控制策略,使得相應(yīng)的性能指標(biāo)函數(shù)最大化。具體來(lái)說(shuō),對(duì)于追擊方而言,其期望在盡量減少燃料消耗的情況下減少追逃雙方距離;對(duì)于逃逸方而言,則期望自己在盡量減少燃料消耗的情況下增加追逃雙方距離。因此,性能指標(biāo)JP和JE定義如下:
權(quán)重系數(shù)應(yīng)滿足以下條件:
追逃航天器雙方的距離L定義如下:
當(dāng)逃逸航天器中途沒(méi)有脈沖機(jī)動(dòng),則追逃問(wèn)題就會(huì)轉(zhuǎn)化為普通的軌道交會(huì)問(wèn)題。此時(shí),雙方的性能指標(biāo)函數(shù)也相應(yīng)變化。對(duì)于追擊方而言,性能指標(biāo)如下:
對(duì)于逃逸方而言,性能指標(biāo)JE如下:
本文所定義的追逃博弈問(wèn)題就是尋找追擊航天器者和逃逸航天器的納什均衡點(diǎn)問(wèn)題,使其指標(biāo)函數(shù)大于任意其余策略的指標(biāo)函數(shù),納什均衡點(diǎn)的定義如下:
式中:UP、UE分別為追擊航天器和逃逸航天器的所有策略。
對(duì)于追逃航天器雙方而言,可供選擇的策略是有限的,由納什均衡的存在性定理[23]可知,每一個(gè)有限的策略式博弈至少存在一個(gè)由式(14)描述的納什均衡解。那么最終求得的納什均衡解所對(duì)應(yīng)的速度增量大小和方向就是當(dāng)前問(wèn)題的一個(gè)可行解。
通過(guò)計(jì)算式(16)中的矩陣解可以求得納什均衡點(diǎn)。決策矩陣式(16)存在維數(shù)大、計(jì)算時(shí)間長(zhǎng)和搜索效率低的問(wèn)題,為了解決這一問(wèn)題,本文采用ARS 算法來(lái)求解博弈矩陣。
為了求解追逃雙方的納什均衡點(diǎn),使得雙方的性能指標(biāo)函數(shù)處于最優(yōu),本文采用ARS 算法[24]來(lái)進(jìn)行快速求解,具體算法流程如下。
與窮舉法相比,ARS 算法無(wú)需對(duì)整個(gè)矩陣進(jìn)行遍歷,能夠有效地減少計(jì)算維度,具有計(jì)算效率高、時(shí)間快的優(yōu)點(diǎn)。對(duì)于航天器追逃博弈這一問(wèn)題而言,實(shí)時(shí)性和快速性尤為關(guān)鍵,也為ARS 算法的使用提供了有力依據(jù)。
博弈決策矩陣式(16)中會(huì)存在不滿足實(shí)際約束的策略對(duì),ARS 算法同樣也對(duì)這些策略進(jìn)行了搜索,增加了計(jì)算時(shí)間,使搜索效率降低。因此,本文提出了一種剪枝方法,在矩陣生成和搜索過(guò)程中,對(duì)無(wú)需計(jì)算的元素進(jìn)行標(biāo)記剪枝,剪枝流程如下:
輸入:追逃博弈雙方的策略集合UP=[ΔvP,φP,γP],UE=[ΔvE,φE,γE],收益維度M、N;
輸出:無(wú)需計(jì)算的矩陣元素標(biāo)記集合Apruned;
算法2 通過(guò)對(duì)冗余不必要的數(shù)據(jù)進(jìn)行剪枝,減少了不必要的搜索過(guò)程,提高了搜索速度和運(yùn)算效率。
本文通過(guò)使用ARS 算法準(zhǔn)確尋找納什均衡點(diǎn),ARS 算法通過(guò)對(duì)單獨(dú)的行列尋找來(lái)避免搜索整個(gè)矩陣,極大地提高了運(yùn)行效率。本文采用剪枝技巧來(lái)提升尋找納什均衡點(diǎn)的計(jì)算速度,通過(guò)對(duì)冗余數(shù)據(jù)的剪枝達(dá)到縮小矩陣規(guī)模的目的,從而加快數(shù)值搜索進(jìn)度。
為了更直接地說(shuō)明基于剪枝的快速搜索方法的優(yōu)越性,將其與窮舉法、α-β剪枝[25]進(jìn)行對(duì)比。在進(jìn)行不同維度的矩陣計(jì)算時(shí),雙方求解納什均衡點(diǎn)的時(shí)間如圖1 所示。
圖1 決策時(shí)間對(duì)比Fig.1 Comparison of decision time
由圖1 可知,相比于其他方法,本文所采用的快速求解算法能有效提高計(jì)算效率,節(jié)省計(jì)算時(shí)間。當(dāng)矩陣維度擴(kuò)大時(shí),其余方法的仿真時(shí)間以指數(shù)形式增長(zhǎng),而本文方法增幅不大,仍能快速尋找到納什均衡解。
當(dāng)逃逸航天器不施加機(jī)動(dòng)時(shí),追逃問(wèn)題演變?yōu)檐壍澜粫?huì)問(wèn)題。本文采用硬件平臺(tái)為3.60 GHz AMD Ryzen 5 3500X 處理器,軟件平臺(tái)為 Matlab R2022b 進(jìn)行仿真。為了便于比較,將追擊航天器的初始機(jī)動(dòng)時(shí)間與Hohmann 轉(zhuǎn)移的時(shí)間一致。兩航天器初始軌道六根數(shù)見(jiàn)表1。
表1 交會(huì)場(chǎng)景下航天器的初始六根數(shù)Tab.1 Initial six parameters of the spacecrafts in the rendezvous scenario
兩航天器飛行軌跡如圖2 所示。
圖2 交會(huì)場(chǎng)景下航天器三維空間飛行軌跡Fig.2 Trajectories of the spacecraft in the rendezvous scenario
為進(jìn)一步驗(yàn)證本文方法的有效性,分別與Hohmann 轉(zhuǎn)移和Lambert 追擊進(jìn)行對(duì)比,三者都在同一時(shí)刻進(jìn)行第一次脈沖機(jī)動(dòng),且都施加兩次機(jī)動(dòng),一致采用地球高階引力模型。追擊航天器與逃逸航天器相對(duì)距離如圖3 所示。
圖3 交會(huì)場(chǎng)景下航天器相對(duì)距離Fig.3 Relative distance of the spacecraft in the rendezvous scenario
3 種方法的最終計(jì)算結(jié)果見(jiàn)表2。其中,追擊航天器均在T1=3 172.590 5 s 時(shí)施加第1 次脈沖機(jī)動(dòng),第1 次速度增量大小為Δv1,第2 次機(jī)動(dòng)時(shí)刻為T2,第2 次速度增量大小為Δv2。
表2 交會(huì)場(chǎng)景下航天器仿真結(jié)果Tab.2 Simulation results of the spacecraft in the rendezvous scenario
由表2 可知,與Hohmann 轉(zhuǎn)移相比,本文方法的脫靶量明顯較小,但稍遜于Lambert 追擊。本文方法在保證脫靶量的情況下,使用速度增量明顯小于Lambert 追擊,有效減少了燃料消耗。此外,在進(jìn)行計(jì)算時(shí),本文方法無(wú)需選定初值,避免了采用其他2 種方法在初值選定不正確時(shí)可能存在的不收斂和脫靶量大的問(wèn)題。
當(dāng)逃逸航天器施加機(jī)動(dòng)時(shí),兩者是典型的追逃問(wèn)題。在追擊航天器采用Hohmann 轉(zhuǎn)移施加第一次機(jī)動(dòng)后,雙方都還有一次脈沖機(jī)動(dòng)機(jī)會(huì),逃逸航天器施加脈沖推力逃離追擊航天器,雙方在這一時(shí)刻通過(guò)矩陣搜索都使彼此性能指標(biāo)函數(shù)達(dá)到最優(yōu)。
根據(jù)Hohmann 轉(zhuǎn)移計(jì)算易得,追擊航天器第一次機(jī)動(dòng)時(shí)刻T1=3 172.590 5 s,施加速度增量大小Δv1=0.031 1 km/s。此后,逃逸航天器施加控制量試圖遠(yuǎn)離追擊航天器,雙方展開(kāi)追逃博弈。設(shè)置追擊航天器最大可使用速度增 量=0.061 0 km/s,逃逸航天器最大可使用速度增量=0.008 0 km/s。兩航天器飛行軌跡如圖4 所示。
圖4 追逃航天器三維空間飛行軌跡Fig.4 Three-dimensional space flight trajectory of the spacecraft in the pursuit-evasion game
兩航天器使用燃料情況和脫靶量見(jiàn)表3。通過(guò)仿真可知,追擊航天器使用了全部速度增量ΔvP=0.061 0 km/s,偏 角φP=199.998 4°,仰 角γP=-5.998 4°。逃逸航天器也使用了全部速度增 量ΔvE=0.008 0 km/s,偏 角φE=270°,仰 角γE=-5.998 4°。兩航天器距離從最開(kāi)始的364.95 km 縮短到最終脫靶量4.32 km。當(dāng)采用這種策略時(shí),雙方的性能指標(biāo)函數(shù)都達(dá)到最優(yōu)。
表3 航天器追逃博弈的仿真結(jié)果Tab.3 Simulation results of the spacecraft in the pursuitevasion game
本文提出了一種基于計(jì)算博弈的航天器追逃博弈策略,采用了ARS 算法求解納什均衡點(diǎn),同時(shí)利用剪枝策略縮小了決策矩陣維度,減少了不必要的搜索過(guò)程,提高了搜索效率。通過(guò)實(shí)驗(yàn)仿真,得到如下結(jié)論:
1)針對(duì)基于脈沖的航天器追逃問(wèn)題,本文提出的方法能夠較好地求得雙方最優(yōu)策略,且求解時(shí)間迅速。相對(duì)于傳統(tǒng)方法,本文模型精度較高,考慮了地球攝動(dòng)等非線性因素,且對(duì)軌道形狀和初始距離沒(méi)有限制,與實(shí)際偏差較小,可行性高,具有較強(qiáng)的魯棒性。
2)針對(duì)基于脈沖的軌道交會(huì)問(wèn)題,相對(duì)于Lambert 追擊和Hohmann 轉(zhuǎn)移,本文提出的方法在保證脫靶量精度較高的情況下,消耗燃料較少,無(wú)需考慮初值問(wèn)題。