苗峻,涂歆瀅,殷建豐,彭靖,李海津,陳子勻
1.中國空間技術(shù)研究院 錢學(xué)森空間技術(shù)實驗室,北京 100094
2.中國空間技術(shù)研究院 北京空間飛行器總體設(shè)計部,北京 100094
3.中國人民解放軍66136部隊,北京 100042
衛(wèi)星編隊通過彼此協(xié)同工作可以完成單一衛(wèi)星難以完成的空間任務(wù),具有靈活性高、功能多和容錯性強的特點[1-2],而高精度的衛(wèi)星編隊可以大幅提高對地觀測的精度,可廣泛應(yīng)用于地球重力場觀測、地磁觀測等需要超高精度對地觀測的科學(xué)任務(wù)中[3]。由于高度集成化和自動化技術(shù)快速發(fā)展,衛(wèi)星市場需求量不斷擴大,大規(guī)模衛(wèi)星編隊的研發(fā)和部署掀起前所未有的熱潮[4]。
目前針對高精度編隊控制算法,常見的方法有模型預(yù)測控制[5]、模糊控制、滑??刂埔约癓QR控制等[6],然而現(xiàn)有研究主要集中在針對較小規(guī)模衛(wèi)星的高精度編隊方法進行研究。文獻[7]提出了一種基于非線性干擾觀測器和人工勢函數(shù)的分布性協(xié)同控制方法,對4星組網(wǎng)衛(wèi)星編隊控制進行了仿真驗證。文獻[8]在考慮避障的情況下,基于特殊的人工勢能函數(shù)設(shè)計了一種航天器編隊自適應(yīng)協(xié)同控制律,以1顆主星3顆從星的4星組網(wǎng)航天器編隊為例進行了分析仿真;文獻[9]提出一種基于Lyapunov 方法的自適應(yīng)控制器,可以消除初始編隊構(gòu)型誤差補償外界擾動,維持編隊期望構(gòu)型,并在雙星編隊中進行了仿真驗證;文獻[10]提出了一種自適應(yīng)滑模變結(jié)構(gòu)連續(xù)控制方法,并在雙星編隊上進行了驗證;文獻[11]針對“一主三從”的4星靜止軌道衛(wèi)星編隊構(gòu)型保持,提出了一種管道模型預(yù)測控制方法,實現(xiàn)了衛(wèi)星編隊的魯棒控制;文獻[12]提出了一種網(wǎng)絡(luò)李雅普諾夫算法,并在“一主三從”的4星編隊上取得了良好的閉環(huán)控制效果;文獻[13]基于隨機矩陣?yán)碚?針對4星多智能體衛(wèi)星編隊設(shè)計了一種分布式無模型自適應(yīng)迭代學(xué)習(xí)控制算法,將衛(wèi)星編隊控制在期望誤差內(nèi);文獻[14]針對雙星編隊提出了一種最優(yōu)控制策略;文獻[15]提出了一種編隊彈性控制策略,以減少編隊控制的能耗,延長編隊壽命,并應(yīng)用于10顆衛(wèi)星的較大規(guī)模編隊。通過對近期相關(guān)文獻的分析可以看出,目前在衛(wèi)星大規(guī)模高精度編隊控制方面的研究還不夠完善,所涉及問題的規(guī)模都比較小。
近年來,深度強化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)和強化學(xué)習(xí)(RL)優(yōu)點,大大提高了RL的性能。更進一步的,為了提高算法解決復(fù)雜問題的能力,2016年DeepMind團隊提出了基于actor-critic 雙重網(wǎng)絡(luò)框架的深度確定性策略梯度算法(deep deterministic policy gradient,DDPG)[16]。DDPG結(jié)合了DQN(deep Q networks)算法的特點,構(gòu)造非常簡單,僅需要一個基本的 actor-critic 框架和只需要進行微調(diào)的學(xué)習(xí)算法,就能提高訓(xùn)練效率,較好地完成在高維連續(xù)動作空間中的行為決策[17],因此被引入到導(dǎo)彈制導(dǎo)一體化控制[18]、無人機控制[19-20]、艦船自動控制[21]等多種領(lǐng)域。但相關(guān)技術(shù)在衛(wèi)星編隊控制領(lǐng)域研究較少[22-23]。
現(xiàn)有的文獻很少研究較大規(guī)模衛(wèi)星編隊,傳統(tǒng)方法直接應(yīng)用于大規(guī)模編隊控制器太復(fù)雜,精度不高或者控制策略較難以大規(guī)模應(yīng)用,而深度強化學(xué)習(xí)方法在連續(xù)動作的控制上表現(xiàn)優(yōu)異,可以很好地解決類似編隊衛(wèi)星的連續(xù)控制。本文首次提出了一種基于吸引法則的深度確定性策略梯度ADDPG編隊控制算法,旨在探索一條新的可用于大規(guī)模衛(wèi)星高精度編隊控制方法。通過充分挖掘利用已有信息,利用深度強化學(xué)習(xí)簡單結(jié)構(gòu)網(wǎng)絡(luò)延展解決復(fù)雜問題的能力,設(shè)計了基于虛擬中心的編隊控制獎勵函數(shù)、狀態(tài)空間、動作空間,在滿足高精度編隊需求的同時,盡可能減少編隊衛(wèi)星能量消耗,實現(xiàn)大規(guī)模高精度衛(wèi)星編隊“又精又省”控制,為未來地球重力場觀測、地磁觀測等需要超高精度對地觀測的科學(xué)任務(wù)進行技術(shù)儲備。
理想的網(wǎng)絡(luò)拓?fù)渚哂袑ΨQ性高、容錯性好等特點,與其它的網(wǎng)絡(luò)模型相比,超立方體拓?fù)浣Y(jié)構(gòu)具有結(jié)構(gòu)簡單、連通度高、容錯性和擴展性強等諸多優(yōu)越性質(zhì),便于實現(xiàn)衛(wèi)星大規(guī)模物理組網(wǎng)。針對超立方體的拓?fù)浣Y(jié)構(gòu)可以減少大規(guī)模編隊通信時間延遲,大幅度提高編隊衛(wèi)星間通信效率。
超立方體編隊衛(wèi)星之間的拓?fù)湫畔㈥P(guān)系使用加權(quán)無向圖來表示。加權(quán)無向圖G=(V,E,A)由節(jié)點集V={υ1,…,υn},邊集E?V×V和n維加權(quán)鄰接矩陣A=[αij]組成。若圖G中的每個節(jié)點的度都為k,則稱圖G為k正則。
n維超立方體(記為Wn)是一個無向圖,可以定義為:Wn=
超立方體W1、W2和W3如圖1所示,4維超立方體W4如圖2所示。Wn是正則的,共有2n個節(jié)點和n2n-1條邊,每個節(jié)點都有n個鄰接點。
圖1 超立方體示意
圖2 四維超立方體示意
在大規(guī)模衛(wèi)星編隊系統(tǒng)中,超立方體拓?fù)浣Y(jié)構(gòu)具有高度冗余通信鏈路和擴展的能力。
1)容錯性。在大規(guī)模的衛(wèi)星編隊中,每當(dāng)有節(jié)點衛(wèi)星或通信鏈路出現(xiàn)故障,就有可能會導(dǎo)致整個衛(wèi)星系統(tǒng)任務(wù)失敗。在n維超立方體拓?fù)浣Y(jié)構(gòu)中,網(wǎng)絡(luò)中任意兩個不同節(jié)點之間均有n條不相交的平行路徑。
2)擴展性。例如兩個9維超立方體網(wǎng)絡(luò)W9之間僅通過增加一條鏈路,就可以形成10維超立方體網(wǎng)絡(luò)W10,可以通過低維超立方體網(wǎng)絡(luò)不斷組成更高維超立方體。因此可以通過節(jié)點衛(wèi)星構(gòu)建子超立方體網(wǎng)絡(luò),后續(xù)再逐級構(gòu)建不同等級規(guī)模的衛(wèi)星編隊網(wǎng)絡(luò),具有良好的嵌入性和擴展性。
衛(wèi)星編隊的空間相對運動使用Hill坐標(biāo)系,如圖3所示,Ti表示第i顆衛(wèi)星的位置,定義x軸指向衛(wèi)星的運動方向,y軸垂直于軌道平面,z軸指向地心。經(jīng)過推導(dǎo)可以得到衛(wèi)星運動的C-W方程:
圖3 衛(wèi)星運動示意
(1)
式(1)易于求出近似解析解,得到衛(wèi)星相對運動軌跡,是本文構(gòu)型設(shè)計的基礎(chǔ)。通過設(shè)計合理初值,可得衛(wèi)星編隊的構(gòu)型,可應(yīng)用于圓軌道或近圓軌道,編隊半徑為幾百米到幾十千米的編隊半徑遠(yuǎn)小于軌道半徑的編隊。
式中:
大規(guī)模衛(wèi)星組網(wǎng)編隊控制的目的分為對編隊衛(wèi)星構(gòu)型整體相對于預(yù)期軌道的控制,以及組網(wǎng)編隊中各子衛(wèi)星的軌道保持。為了反映編隊整體的運動狀態(tài)和趨勢,保證編隊整體不會“ 漂移”,結(jié)合傳統(tǒng)多智能體控制中領(lǐng)航-跟隨者和虛擬結(jié)構(gòu)兩種思想,設(shè)計編隊“虛擬中心”去衡量編隊的整體狀態(tài),為基于ADDPG的控制策略設(shè)計奠定基礎(chǔ)。
在超立方體衛(wèi)星編隊中節(jié)點集V={υ1,…,υn}中每一個節(jié)點代表一顆小衛(wèi)星,根據(jù)一致性理論,多智能體衛(wèi)星編隊中節(jié)點數(shù)目有限,若其中任意互為鄰域節(jié)點的兩個節(jié)點信息達成一致,則多智能體衛(wèi)星編隊達成一致。信息一致性的過程具有空間Markov性,而Markov隨機場等同于Gibbs隨機場,故事件節(jié)點υ1取得狀態(tài)ηi的概率可寫為Gibbs分布:
式中:T是分布中熵的度量,在編隊系統(tǒng)中可用勢能的均方差表示編隊的失衡程度。
U(ηi)是一個能量函數(shù),定義為:
U(ηi)=D1(ηi)+∑D2(ηi,ηj)
式中:D1為單節(jié)點勢能函數(shù);D2為雙節(jié)點勢能函數(shù)。
D1(ηi)=(‖ηi-〈ηc〉i‖-dic)2
D2(ηi,ηj)=(‖ηi-ηj‖-dij)2
式中:dic為連通圖的直徑。根據(jù)平均場理論,某一特定節(jié)點受鄰域內(nèi)其他所有節(jié)點的影響,可以用一個平均作用近似獲取,則節(jié)點υ1及其鄰域的虛擬中心〈ηR〉i可以定義為:
如圖4所示,以4維超立方拓?fù)錇槔?16顆衛(wèi)星分為4個子方形編隊,即圖中藍(lán)色方形。通過虛擬中心設(shè)計確定每個子編隊的虛擬中心的目標(biāo)點和路徑,其中每個藍(lán)色方形編隊的虛擬中心,即為藍(lán)色大方形的頂點,此處不設(shè)置實際衛(wèi)星。4維20星超立方體衛(wèi)星編隊可以用于對地重點目標(biāo)高精度立體觀測、多個密集重點目標(biāo)多重觀測以及陸地海洋快速運動目標(biāo)的高精度識別確認(rèn)和預(yù)警。
圖4 超立方體拓?fù)浣Y(jié)構(gòu)編隊
設(shè)計好的衛(wèi)星編隊構(gòu)型會受到模型誤差、空間攝動力以及隨機干擾等各種因素影響,要保證穩(wěn)定的構(gòu)型以順利完成任務(wù),需要進行編隊控制使得編隊衛(wèi)星的狀態(tài)偏離保持在任務(wù)允許的誤差范圍內(nèi)。
DDPG 算法是一種融合了基于值迭代和策略迭代的深度強化學(xué)習(xí)算法[24]??梢葬槍θ我獯笮〉臓顟B(tài)空間和行為空間進行最優(yōu)策略的學(xué)習(xí),在與環(huán)境的交互過程中,根據(jù)環(huán)境狀態(tài)、動作和獎勵得到最優(yōu)策略,使衛(wèi)星編隊具有更好的性能表現(xiàn)。
DDPG網(wǎng)絡(luò)架構(gòu)由在線動作網(wǎng)絡(luò)、目標(biāo)動作網(wǎng)絡(luò)、在線評價網(wǎng)絡(luò)、目標(biāo)評價網(wǎng)絡(luò)4個網(wǎng)絡(luò)組成。將策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)分別拷貝一份作為目標(biāo)網(wǎng)絡(luò),實時與環(huán)境交互的網(wǎng)絡(luò)稱為在線網(wǎng)絡(luò)。基于DDPG算法的編隊控制問題可以用(s,a,p,r)框架形式進行表示。其中s為狀態(tài)集;a為動作集,是編隊衛(wèi)星執(zhí)行機構(gòu)行動空間的集合;p為狀態(tài)轉(zhuǎn)移概率;r為獎勵函數(shù)。
狀態(tài)集s由編隊內(nèi)各衛(wèi)星的三軸方向的位置和速度組成。狀態(tài)空間s如下:
s={(ux,uy,uz)i,(vx,vy,vz)i}
(2)
動作空間:衛(wèi)星的軌道控制通過裝在各衛(wèi)星上的軌道推力器提供沖量實現(xiàn)。
定義動作空間a={ax,ay,az},其中
強化學(xué)習(xí)過程是智能體在與環(huán)境交互過程中獲得最大獎勵的過程。滿足編隊構(gòu)型精度要求的基礎(chǔ)上考慮能耗。引入一致性協(xié)調(diào)控制的相關(guān)思想,將位置、速度誤差結(jié)合成為一致誤差,定義編隊綜合誤差為:
(3)
從航天器編隊的功能屬性本質(zhì)要求分析,其一方面應(yīng)滿足編隊的構(gòu)型任務(wù)要求,另一方面應(yīng)盡可能滿足構(gòu)型保持過程中的能耗。
獎勵函數(shù)是各編隊衛(wèi)星在環(huán)境中執(zhí)行動作得到的獎懲反饋信號,獎勵函數(shù)設(shè)計如下:
r(s,a)=∑γ1ei+∑γ2ai
(4)
式中:γi(i=1,2)為各成分在獎勵函數(shù)中的權(quán)重;ei為編隊綜合誤差(負(fù));ai為當(dāng)前狀態(tài)下采取的行動,即衛(wèi)星控制力。關(guān)于γi(i=1,2)的選取參考如下。
γ1:訓(xùn)練首先要保證編隊的整體期望構(gòu)型和個體期望狀態(tài),γ1選取比較小的數(shù)值,當(dāng)訓(xùn)練結(jié)果保證編隊精度后可以適當(dāng)增大取值。
γ2:類似終端獎勵,初始可以設(shè)置較大的值,參數(shù)值過大可能無法到達控制目標(biāo),參數(shù)取值過小有可能導(dǎo)致控制能耗過高。
在DDPG中,每個狀態(tài)-動作對都有相對應(yīng)的一個Q值,通過反復(fù)迭代學(xué)習(xí)計算選擇執(zhí)行狀態(tài)對應(yīng)的最大Q值下的動作,并獲得按該行動策略執(zhí)行下的回報值,不斷嘗試各狀態(tài)可能執(zhí)行的動作,使Q值不斷趨向于最優(yōu)。要取得較高的回報,行動策略應(yīng)按最大Q值所對應(yīng)的動作執(zhí)行,然而,當(dāng)算法處于初期,在不斷學(xué)習(xí)迭代的過程中,Q值存在一定波動,不能完全精準(zhǔn)地評估狀態(tài)-動作對的回報。當(dāng)算法處于學(xué)習(xí)中期階段時,完全執(zhí)行最高Q值對應(yīng)的動作,即算法一直處于擴張狀態(tài),可能使得算法陷入局部最優(yōu)。探索是尋找并執(zhí)行即使當(dāng)前評價不是最優(yōu),但從長期來看回報最大的動作,可以給出幫助算法跳出局部最優(yōu)的策略,然而如果算法一直處于探索狀態(tài),將會大幅降低系統(tǒng)的學(xué)習(xí)效率。
為提高DDPG的學(xué)習(xí)效率,本文提出ε-吸引策略,采用ε-attraction動作選擇策略平衡探索與擴張。吸引策略,是指編隊內(nèi)衛(wèi)星會被精度比它高的其他衛(wèi)星吸引,模仿精度比他優(yōu)異的其他衛(wèi)星的狀態(tài)和動作,并參考其狀態(tài)更新自己的動作。
考慮隨著衛(wèi)星i距離衛(wèi)星j越遠(yuǎn),其面對的環(huán)境對衛(wèi)星j的參考性越弱,定義ψij為編隊衛(wèi)星i與衛(wèi)星j的相對距離,則衛(wèi)星i與衛(wèi)星j的吸引力βij(ψij)表示為:
(5)
式中:β0為最大吸引力,通常取β0=1;ζ∈[0.01,100]為吸引系數(shù),標(biāo)志吸引力變化。
ADDPG充分融入已學(xué)習(xí)信息進行探索,通過引入探索率ε使系統(tǒng)以概率ε進行探索,以1-ε選擇當(dāng)前Q值最高對應(yīng)的動作。
當(dāng)編隊衛(wèi)星以ε的概率從動作集合選擇動作時,衛(wèi)星參考優(yōu)異的編隊衛(wèi)星的狀態(tài)信息和選擇動作,而不是盲目地隨機選擇。ε-attraction動作策略a*表示為:
(6)
式中:?為常數(shù),一般取?∈[0,1];arg maxQ(Q(s,a′))為狀態(tài)s下選擇最大Q值的動作;ζi為高斯分布的隨機數(shù);p為探索擴張概率,p∈[0,1]。
采用ADDPG 算法實現(xiàn)超立方體衛(wèi)星編隊控制,編隊衛(wèi)星在與環(huán)境的不斷交互控制中學(xué)習(xí)控制策略,更新網(wǎng)絡(luò)參數(shù)。同時根據(jù)ε-attraction動作選擇策略調(diào)整動作a,得到回報函數(shù)值r和下一時刻系統(tǒng)狀態(tài)s′。交互過程中所產(chǎn)生的信息(s,a,r,s′)均被保持到經(jīng)驗池中。
其中,在線動作網(wǎng)絡(luò)更新策略梯度為:
?θμJ≈Est~ρβ{?θμQ(s,a∣θQ)∣s=st,a=μ(st∣θμ)}=
Est~ρβ{?aQ(s,a∣θQ)∣s=st,a=μ(st)·
?θμμ(s∣θμ)∣s=st}
式中:?θμQ(s,a∣θQ)∣s=st,a=μ(st∣θμ)為策略網(wǎng)絡(luò)對動作a的梯度值;θμ為在線策略網(wǎng)絡(luò)的參數(shù)。在線評價網(wǎng)絡(luò)采用最小化損失函數(shù)完成更新過程,損失函數(shù)L定義為:
式中:yi=ri+γiQ′(si+1,μ′(si+1|θμ′)θQ′)。
在線網(wǎng)絡(luò)定期將學(xué)習(xí)好的權(quán)重參數(shù)復(fù)制給對應(yīng)的目標(biāo)網(wǎng)絡(luò),通過軟更新的方式更新目標(biāo)網(wǎng)絡(luò)參數(shù)。
目標(biāo)動作網(wǎng)絡(luò)為:
θμ′=λθμ+(1-λ)θμ′
式中:θμ′為目標(biāo)策略網(wǎng)絡(luò)的參數(shù);λ為軟更新率。
目標(biāo)評價網(wǎng)絡(luò)更新方式為:
θQ′=λθQ+(1-λ)θQ′
式中:θQ為在線價值網(wǎng)絡(luò)的參數(shù);θQ′為目標(biāo)價值網(wǎng)絡(luò)的參數(shù);式中λ為遠(yuǎn)小于1的參數(shù),由于是采取“軟更新”的方式,可以實現(xiàn)目標(biāo)網(wǎng)絡(luò)的參數(shù)循序更新,增強網(wǎng)絡(luò)的穩(wěn)定性,保證ADDPG 算法穩(wěn)定性提升。
編隊衛(wèi)星參數(shù):長20cm、質(zhì)量1kg的立方體衛(wèi)星,仿真實飛環(huán)境考慮地球扁率、大氣阻力、太陽光壓、日月引力等攝動干擾。編隊構(gòu)型整體在太陽同步軌道上運動,利用編隊間的穩(wěn)定幾何關(guān)系,實現(xiàn)高精度對地觀測等任務(wù)。
衛(wèi)星初始位置的軌道根數(shù)分別為:半長軸7078.137km,偏心率e=0.0010441,軌道傾角i=98.1880°,近地點幅角ω=90°,升交點赤經(jīng)Ω=0°。
編隊中內(nèi)部小方形邊長1000m,即編隊半徑707m;外部子編隊虛擬中心應(yīng)處于3000m邊長方形上,即編隊半徑2121m;外部子編隊為邊長1000m方形,即相對于子編隊自身虛擬中心編隊半徑707m;衛(wèi)星編隊構(gòu)型同圖4,ADDPG算法參數(shù)設(shè)置見表1。
表1 ADDPG算法參數(shù)設(shè)置
20顆衛(wèi)星進行組網(wǎng)和編隊保持的位置誤差變化、速度誤差變化以及控制加速度分別如圖5~9所示,圖5和圖6分別為采用ADDPG方法編隊中4個子編隊中各衛(wèi)星的位置誤差以及內(nèi)部正方形編隊和虛擬中心的速度誤差,圖7和圖8分別為采用4個子編隊中各衛(wèi)星的速度誤差以及內(nèi)部正方形編隊和虛擬中心的速度誤差。圖中藍(lán)、紅、橙、紫線分別代表該子編隊內(nèi)序號1到4的組網(wǎng)衛(wèi)星狀態(tài)信息。圖10描述了20顆組網(wǎng)衛(wèi)星的三維相對位置。
圖5 各子編隊內(nèi)各組網(wǎng)衛(wèi)星位置誤差
圖6 內(nèi)部正方形編隊及虛擬中心位置誤差
圖7 子編隊內(nèi)各組網(wǎng)衛(wèi)星速度誤差
圖9 各組網(wǎng)編隊控制加速度
圖10 超立方體組網(wǎng)拓?fù)浣Y(jié)構(gòu)編隊相對運動三維圖
在使用本文提出的ADDPG策略下,編隊能夠在1500s以內(nèi)的時間完成高精度重構(gòu);在軌道保持階段內(nèi)部正方形編隊位置誤差可保持在0.3m以下,外圍各子編隊位置誤差可保持在0.8m以下;內(nèi)部正方形編隊速度誤差可保持在0.0015m/s以下,外圍各子編隊速度誤差可保持在0.004m/s以下,能夠較精確地完成控制任務(wù)。
將本文提出ADDPG算法和傳統(tǒng)DDPG算法進行比較,結(jié)果如圖11所示,圖中紅線表示基于DDPG算法得到的各編隊以及虛擬中心的綜合位置誤差,藍(lán)線表示基于ADDPG算法得到的各編隊以及虛擬中心的綜合位置誤差。
圖11 DDPG和ADDPG對比
從圖11可以清晰看到,ADDPG算法能較快地降低誤差,ADDPG平均耗時1073s可達到收斂,DDPG算法平均耗時1271,使用ADDPG算法可以提高收斂速度14.79%。
同時,為進一步驗證算法的有效性,采用本文方法和近兩年在衛(wèi)星編隊方面國際上較權(quán)威的LMM[25]、RFFC[26]方法進行對比。為了公平方便地對比,相關(guān)主要參數(shù)與對應(yīng)文獻一致,結(jié)果如圖12所示。
圖12 誤差對比
圖12中藍(lán)線、紅線和青色曲線分別代表采用本文方法、 LMM方法、RFFC算法得到各編隊以及虛擬中心誤差。從圖12可以看出,3種方法最終都能達到較高精度的穩(wěn)定控制,其中ADDPG算法實現(xiàn)了最快收斂穩(wěn)定,RFFC次之,LMM收斂較慢,RFFC雖然在子編隊控制中較快達到了較高精度的比編隊構(gòu)型,但由于其設(shè)計的非線性控制器增強了對未知不確定性的估計控制,導(dǎo)致系統(tǒng)震蕩較大,收斂時間較慢,但收斂后能達到較高的控制精度。
表2反映了3種策略條件下超立方體衛(wèi)星編隊內(nèi)各衛(wèi)星平均位置誤差及衛(wèi)星能耗對比。
表2 超立方體衛(wèi)星編隊保持階段仿真結(jié)果
由表2可以看出,采用基于ADDPG策略的衛(wèi)星編隊管理策略相比采用LMM方法、RFFC算法通過和環(huán)境交互學(xué)習(xí),不斷優(yōu)化,平均誤差相比LMM和RFFC分別減少10.43%,5.09%,同時采用ADDPG算法,能耗減少32.56%和7.3%,可實現(xiàn)在高精度編隊位置保持的同時減少控制消耗,提高編隊在軌壽命。
本文針對大規(guī)模衛(wèi)星編隊控制,設(shè)計了基于ε-attraction動作選擇的DDPG策略應(yīng)用于衛(wèi)星編隊協(xié)同控制,主要結(jié)論如下:
1)超立方體拓?fù)浣Y(jié)構(gòu)對稱、構(gòu)型簡單,良好的連通性和很強的擴展性適合大規(guī)模衛(wèi)星編隊系統(tǒng)組網(wǎng)設(shè)計。
2)通過建立編隊動力學(xué)模型和超立方體拓?fù)鋱D論理論,通過基于虛擬中心建立了編隊整體漂移模型,有效實現(xiàn)了對衛(wèi)星編隊狀態(tài)的衡量。
3)基于虛擬中心的獎勵函數(shù)設(shè)計,既考慮了編隊整體漂移控制,又考慮了各子編隊衛(wèi)星個體控制,將個體和整體進行協(xié)調(diào)控制,使算法規(guī)劃出的編隊綜合代價最小。
4)基于ε-吸引策略在平衡算法探索和擴張的同時通過參考其他優(yōu)異的編隊衛(wèi)星的狀態(tài)信息和選擇動作,降低學(xué)習(xí)模型初期探索過程中的盲目試錯,提高了算法的收斂速度。以20星組網(wǎng)編隊為例,仿真結(jié)果表明ADDPG策略可以用更低的能耗達到更高的精度,平均誤差相比LMM和RFFC可以減少10.43%,5.09%,同時能耗可以減少32.56%和7.3%,算法在大規(guī)模衛(wèi)星集群的智能控制發(fā)展方向上具有較大的應(yīng)用前景。