面向不確定環(huán)境的航天器智能自主控制技術(shù)

2021-09-07 06:32:02袁利

宇航學(xué)報(bào) 2021年7期

關(guān)鍵詞：智能能力

袁利

(1. 北京控制工程研究所，北京 100094； 2. 空間智能控制技術(shù)重點(diǎn)實(shí)驗(yàn)室，北京 100094)

0 引言

當(dāng)前，隨著空間探索愈加活躍，航天器所需執(zhí)行的空間任務(wù)也日趨復(fù)雜：日本隼鳥2號[1-3]和美國OSIRIS-Rex探測器[4-6]分別于2018年和2019年對先驗(yàn)知識較少的小行星實(shí)施了探測任務(wù)；用于深入研究火星內(nèi)部的“洞察號”于2018年成功著陸于火星表面[7-8]；2020年“毅力號”探測器開始了其搜尋火星遠(yuǎn)古生命跡象、研究隕坑地質(zhì)結(jié)構(gòu)、采集并保存火星樣本的火星之旅[9-11]；“鳳凰計(jì)劃”(Phoenix Project)[12]和“任務(wù)延壽飛行器”(MEV)[13]分別采用空間操控和自主交會對接的方式對即將退役的航天器實(shí)施在軌服務(wù)。

航天器在應(yīng)對上述空間任務(wù)中的不確定性因素時(shí)，通常采用“地面測定軌+遙測下傳→情況判定→決策規(guī)劃→上注指令→在軌執(zhí)行”的方式。這種“星地大回路”的控制方式存在窗口和弧段時(shí)空約束多、星地回路時(shí)間鏈條長、運(yùn)維指控人為因素多等問題，無法針對不確定性進(jìn)行實(shí)時(shí)決策，致使一些任務(wù)的執(zhí)行過程并非一帆風(fēng)順：OSIRIS-Rex探測器在對小行星“貝努”著陸探測的過程中發(fā)現(xiàn)其地表情況復(fù)雜，并持續(xù)向外噴射高速顆粒羽流，導(dǎo)致OSIRIS-Rex無法按照預(yù)定計(jì)劃實(shí)施著陸，研究人員不得不花費(fèi)一年之久根據(jù)遙測信息重新規(guī)劃著陸；“洞察號”利用熱探測器執(zhí)行自主鉆地任務(wù)時(shí)，由于對火星地質(zhì)實(shí)時(shí)信息感知和理解不足，造成鉆頭在距離地表30 cm處卡住，無法完成預(yù)定的探測任務(wù)。

另外，軌道空間日益擁擠、碰撞風(fēng)險(xiǎn)激增，太空競爭加劇、襲擾增多，給航天器任務(wù)執(zhí)行帶來了更多不確定性因素。例如，2021年3月美國氣象衛(wèi)星NOAA-17爆炸，當(dāng)前已追蹤16塊空間碎片；2014年以來，GSSAP衛(wèi)星進(jìn)行了數(shù)百次機(jī)動(dòng)，以抵近偵察的方式對我國多顆商業(yè)衛(wèi)星實(shí)施襲擾?？梢?，若無法對空間威脅進(jìn)行有效處置，將嚴(yán)重影響航天器在軌運(yùn)行的安全性和業(yè)務(wù)的連續(xù)性。同時(shí)，為了避免“星地大回路”造成的時(shí)延，就必須增強(qiáng)航天器自主及時(shí)處置空間威脅等不確定性的能力。

本文首先對航天器智能自主控制技術(shù)所涉及的感知、決策和控制執(zhí)行技術(shù)的發(fā)展現(xiàn)狀進(jìn)行了分析，總結(jié)了目前存在的不足。針對現(xiàn)有問題，結(jié)合航天器未來的發(fā)展需求，提出了一種新型“感知(Observation)-演化(Evolution)-決策(Decision)-執(zhí)行(Action)”星上閉環(huán)控制框架，以提升航天器任務(wù)場景高層次理解、角色演化和自主決策等能力。針對該新型控制框架，探討了其功能和所涉及的理論與方法，并就其實(shí)際應(yīng)用和進(jìn)一步發(fā)展給出了需要解決的關(guān)鍵科學(xué)問題。

1 智能自主控制技術(shù)研究現(xiàn)狀

考慮到智能自主控制技術(shù)針對復(fù)雜且不確定環(huán)境具有較強(qiáng)的應(yīng)對能力[14]，楊嘉墀先生早在1995年就指出大力發(fā)展空間智能自主控制技術(shù)的必要性[15]，經(jīng)過多年發(fā)展，已提出基于特征模型的智能自適應(yīng)控制[16]、模塊級進(jìn)化容錯(cuò)控制[17]和自抗擾控制[18]等先進(jìn)的理論方法，使無人系統(tǒng)在一定程度上實(shí)現(xiàn)了針對不確定性的魯棒自主控制[19]。近年來，人工智能技術(shù)的快速發(fā)展，為智能自主控制技術(shù)注入了新的活力[20-21]。智能自主控制所涉及的關(guān)鍵技術(shù)主要包括自主感知、自主決策和控制執(zhí)行三個(gè)方面[22]，本章將分別對其研究現(xiàn)狀進(jìn)行介紹。

1.1 自主感知技術(shù)

自主感知技術(shù)主要包括目標(biāo)形態(tài)特征提取、行為特征提取和態(tài)勢評估三個(gè)方面。

在形態(tài)特征提取方面，考慮到航天器通常安裝有太陽帆板、發(fā)動(dòng)機(jī)噴嘴、交會對接環(huán)和帆板支架等幾何形狀規(guī)則的部件，上述部件可作為空間目標(biāo)的典型形態(tài)特征，常采用Hough變換[23-24]和Canny邊緣檢測[25]等圖像處理方法對矩形、橢圓形或三角形等規(guī)則特征進(jìn)行提取。對于不規(guī)則幾何特征的情況，角點(diǎn)等局部特征通常被應(yīng)用于空間特征提取中。角點(diǎn)檢測算法主要包括基于圖像邊緣和基于圖像灰度兩類方法，其中后者運(yùn)行速度快、精度高，為主流算法，經(jīng)典算法主要包括Fast[26]、Harris[27]和Shi-Tomasi[28]等，許多學(xué)者對上述工作進(jìn)行了適應(yīng)性改進(jìn)，以提高魯棒性、快速性等性能[29-31]。由于受目標(biāo)劇烈運(yùn)動(dòng)以及光照條件的影響，目標(biāo)的形態(tài)特征存在尺度變化較大的問題，單純依靠角點(diǎn)易造成誤匹配，因此通常需要進(jìn)一步對關(guān)鍵點(diǎn)附近區(qū)域進(jìn)行描述，獲得具有光照、旋轉(zhuǎn)和尺度不變性的特征描述符。常用的二維特征描述符包括SIFT和SURF等。文獻(xiàn)[32]利用粒子濾波方法減小了SIFT特征點(diǎn)的匹配誤差；文獻(xiàn)[33]將SURF特征描述與Fast角點(diǎn)檢測法相結(jié)合，實(shí)現(xiàn)了較低采樣頻率下的特征點(diǎn)提取。近年來，F(xiàn)COS網(wǎng)絡(luò)[34]、VoxelNet網(wǎng)絡(luò)[35]和全卷積網(wǎng)絡(luò)[36]等人工智能方法也被應(yīng)用于目標(biāo)形態(tài)特征的提取中。然而，由于特征描述法和人工智能法所需計(jì)算量較大，其空間的實(shí)施應(yīng)用受航天器有限計(jì)算資源的制約[37]。

在軌道目標(biāo)行為特征提取方面，當(dāng)相對距離較遠(yuǎn)時(shí)，被測航天器在敏感器視野中僅為點(diǎn)目標(biāo)，此時(shí)只能獲得目標(biāo)的視線信息。當(dāng)能夠通過多個(gè)航天器合作獲取同一非合作目標(biāo)的多條視線信息時(shí)，可通過卡爾曼濾波及其改進(jìn)方法估計(jì)出目標(biāo)的運(yùn)動(dòng)狀態(tài)[38]。然而，當(dāng)只有單視線測量信息時(shí)，由于對目標(biāo)的僅測角無源定位跟蹤存在觀測量幾何約束弱、系統(tǒng)可觀度低的問題，往往需要我方航天器通過一定的軌道機(jī)動(dòng)在多個(gè)位置均給出視線測量量，才能對非合作目標(biāo)的運(yùn)動(dòng)狀態(tài)進(jìn)行有效估計(jì)[39-40]。航天器與目標(biāo)相對距離較近時(shí)，可獲得目標(biāo)的深度點(diǎn)云及圖像信息，此時(shí)則可利用基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合濾波器[41]或基于自監(jiān)督模型的自適應(yīng)融合機(jī)制[42]等方法將點(diǎn)云與圖像信息進(jìn)行融合，估計(jì)目標(biāo)的運(yùn)動(dòng)狀態(tài)。然而，由于軌道空間受平行光影響，易出現(xiàn)目標(biāo)局部過亮或過暗的情況，可能造成無法連續(xù)提取目標(biāo)的形態(tài)或行為特征的情況。

空間態(tài)勢評估是引導(dǎo)航天器進(jìn)行空間活動(dòng)的基礎(chǔ)，是自主完成空間任務(wù)的關(guān)鍵，因此研究態(tài)勢評估方法顯得尤為重要。傳統(tǒng)的態(tài)勢評估算法主要基于專家系統(tǒng)[43]、模板技術(shù)[44]和貝葉斯網(wǎng)絡(luò)推理[45]等方法進(jìn)行設(shè)計(jì)，大多對人的先驗(yàn)知識具有較強(qiáng)的依賴性，可能受設(shè)計(jì)者的主觀因素影響較大。為避免該問題，該領(lǐng)域的學(xué)者提出了多種基于大量樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練的推理網(wǎng)絡(luò)參數(shù)確定方法[46]，但當(dāng)樣本數(shù)量有限時(shí)則無法保證訓(xùn)練效果。通過引入先驗(yàn)知識可減小推理網(wǎng)絡(luò)參數(shù)的搜索空間，從而降低對樣本數(shù)量的依賴;文獻(xiàn)[47]將推理網(wǎng)絡(luò)參數(shù)的單調(diào)性約束作為先驗(yàn)知識，提出了一種基于估計(jì)算法的參數(shù)學(xué)習(xí)方法，該方法具有較高的準(zhǔn)確性和穩(wěn)定性；文獻(xiàn)[48]則將推理網(wǎng)絡(luò)參數(shù)的取值范圍和部分參數(shù)的大小關(guān)系作為先驗(yàn)知識，給出了一種進(jìn)化學(xué)習(xí)算法，保證了小樣本條件下網(wǎng)絡(luò)參數(shù)的全局收斂性。

1.2 自主決策技術(shù)

自主決策技術(shù)最早源于機(jī)器人和無人駕駛領(lǐng)域[49-50]，隨著航天任務(wù)需求的提升和交叉學(xué)科的發(fā)展，多種決策技術(shù)在航天領(lǐng)域得到廣泛應(yīng)用。目前航天器自主決策規(guī)劃研究主要包括航天器軌道運(yùn)動(dòng)規(guī)劃和姿態(tài)運(yùn)動(dòng)規(guī)劃。

針對航天器軌道運(yùn)動(dòng)規(guī)劃問題，文獻(xiàn)[51]提出了一種分布式集群航天器的自適應(yīng)種群變異鴿群算法，實(shí)現(xiàn)了航天器集群在復(fù)雜約束條件下的軌道自主規(guī)劃，避免了傳統(tǒng)鴿群算法中演化停滯以及易陷入局部最優(yōu)解的問題。文獻(xiàn)[52]考慮空間交會中目標(biāo)航天器周圍有小衛(wèi)星環(huán)繞的情況，提出了一種混合遺傳算法，將遺傳算法全局搜索能力和模擬退火算法的局部搜索能力進(jìn)行整合，并以航天器軌道路徑安全、任務(wù)時(shí)間、燃料消耗等為約束條件，實(shí)現(xiàn)了軌道機(jī)動(dòng)的最優(yōu)路徑規(guī)劃；文獻(xiàn)[53]建立了一種航天器與非合作目標(biāo)的追逃博弈模型，采用基于分支深度的強(qiáng)化學(xué)習(xí)方法進(jìn)行求解，給出航天器空間交會策略。文獻(xiàn)[54]針對載人航天器交會對接飛行任務(wù)的規(guī)劃問題，以測控、光照等因素為約束條件，以飛行事件為狀態(tài)，利用有限狀態(tài)機(jī)建立飛行過程的圖形化任務(wù)規(guī)劃模型，并通過求解該模型得到了最優(yōu)規(guī)劃策略。文獻(xiàn)[55]研究了航天器與非合作目標(biāo)潛在交會威脅下的最優(yōu)規(guī)避機(jī)動(dòng)策略問題，通過建立非合作目標(biāo)的多脈沖最優(yōu)交會模型，給出潛在威脅區(qū)的計(jì)算方法，并以其弧長為優(yōu)化目標(biāo)，建立航天器的最優(yōu)規(guī)避模型，采用遺傳算法進(jìn)行優(yōu)化，從而得到有效威脅規(guī)避策略。文獻(xiàn)[56]考慮機(jī)動(dòng)目標(biāo)空間交會過程中的軌跡規(guī)劃問題，基于微分對策理論建立了無需目標(biāo)航天器機(jī)動(dòng)測量的追逃雙方微分對策模型，并提出了利用非線性規(guī)劃求解微分對策問題的方法實(shí)現(xiàn)了最優(yōu)控制與對策論相結(jié)合。針對近地軌道附近時(shí)間固定的兩航天器追逃問題，文獻(xiàn)[57]為獲得追逃雙方在對策條件下的最優(yōu)策略，運(yùn)用微分博弈對航天器的整個(gè)追逃過程進(jìn)行了數(shù)學(xué)描述，并提出了基于半直接配點(diǎn)法的追逃雙方最優(yōu)控制策略數(shù)值求解方法，避免了求解非線性兩點(diǎn)邊值問題。

針對航天器姿態(tài)運(yùn)動(dòng)規(guī)劃問題，文獻(xiàn)[58]采用直接打靶法分析大角度姿態(tài)機(jī)動(dòng)過程，從而得到帶參數(shù)約束的非線性方程組，并通過序列二次規(guī)劃優(yōu)化算法進(jìn)行求解，得到最優(yōu)姿態(tài)規(guī)劃結(jié)果。文獻(xiàn)[59]針對有限時(shí)域的最優(yōu)姿態(tài)控制，將端值約束以及控制變量的二次型積分引入到性能函數(shù)中，利用罰函數(shù)法設(shè)計(jì)了系統(tǒng)姿態(tài)規(guī)劃的最優(yōu)解。文獻(xiàn)[60]采用偽譜法規(guī)劃了考慮姿態(tài)機(jī)動(dòng)時(shí)間、控制力矩陀螺峰值角動(dòng)量以及機(jī)動(dòng)能量等參數(shù)的單目標(biāo)和多目標(biāo)最優(yōu)姿態(tài)機(jī)動(dòng)路徑。文獻(xiàn)[61]提出了一種粒子群算法用以規(guī)劃航天器姿態(tài)運(yùn)動(dòng)，解決了姿態(tài)規(guī)劃過程中的欠驅(qū)動(dòng)問題。文獻(xiàn)[62]通過偽譜法把帶有非完整約束的欠驅(qū)動(dòng)航天器姿態(tài)控制問題轉(zhuǎn)化為離散點(diǎn)的非線性規(guī)劃，并利用優(yōu)化算法尋找最優(yōu)姿態(tài)規(guī)劃結(jié)果。

1.3 控制執(zhí)行技術(shù)

目前，PID、模型參數(shù)化和自適應(yīng)等經(jīng)典控制方法在航天器控制領(lǐng)域已形成了一套比較成熟的理論體系[63-65]，但隨著空間任務(wù)復(fù)雜性的增強(qiáng)，航天器的模型非線性和不確定性也愈加顯著，經(jīng)典方法缺少泛化學(xué)習(xí)能力，在應(yīng)對不確定性時(shí)能力有限。考慮到人工智能方法可有效逼近不確定性和模型非線性[66-67]，很多學(xué)者提出了多種智能控制方法，用于解決較強(qiáng)不確定下的控制問題。

對于存在外部干擾、模型參數(shù)不確定和執(zhí)行機(jī)構(gòu)故障情況下的航天器姿態(tài)控制問題，文獻(xiàn)[68]和[69]利用神經(jīng)網(wǎng)絡(luò)的泛化擬合和學(xué)習(xí)能力，構(gòu)建了自適應(yīng)神經(jīng)網(wǎng)絡(luò)姿態(tài)控制器，實(shí)現(xiàn)了多種不確定因素下的姿態(tài)跟蹤控制。在實(shí)際工程任務(wù)中，航天器控制系統(tǒng)中的測量和執(zhí)行機(jī)構(gòu)使用頻率較高，易發(fā)生故障，而大部分故障無法提前預(yù)知，并且維修成本較高，可能在短時(shí)間內(nèi)造成航天器姿態(tài)測量值或真實(shí)值發(fā)散，進(jìn)而導(dǎo)致任務(wù)失敗[70-71]。為此，文獻(xiàn)[72]提出了一種模糊自適應(yīng)觀測器用于姿態(tài)和角速度的高精度估計(jì)，并通過設(shè)計(jì)模糊自適應(yīng)容錯(cuò)控制器，實(shí)現(xiàn)了在系統(tǒng)具有不確定性和執(zhí)行機(jī)構(gòu)故障情況下的姿態(tài)穩(wěn)定控制。

在軌道控制方面，遠(yuǎn)距離的軌道機(jī)動(dòng)一般先通過智能優(yōu)化算法進(jìn)行軌跡規(guī)劃，然后設(shè)計(jì)相應(yīng)的脈沖控制律，涉及的智能控制執(zhí)行方法較少。在近距離交會時(shí)，為了提高控制精度，需要考慮姿態(tài)與軌道控制通道之間的耦合影響，設(shè)計(jì)姿軌聯(lián)合控制律。文獻(xiàn)[73]針對空間非合作目標(biāo)交會對接問題，考慮姿態(tài)與軌道控制通道交叉耦合、目標(biāo)未知控制加速度和追蹤器控制力矩不確定性等影響，利用小增益定理和反步設(shè)計(jì)法給出了可保證姿態(tài)和軌道控制通道整體上具有穩(wěn)定性的姿軌聯(lián)合控制方法，有效提高了控制效率和控制精度。文獻(xiàn)[74]采用T-S模糊方法獲得非線性系統(tǒng)的參考模型，并基于該模型設(shè)計(jì)模糊自適應(yīng)位置和姿態(tài)跟蹤控制器，通過保障系統(tǒng)的H∞性能獲得了較強(qiáng)的魯棒性。文獻(xiàn)[75]考慮在存在外部干擾和模型參數(shù)不確定性時(shí)，利用模糊方法對不確定性進(jìn)行擬合，通過在線學(xué)習(xí)自適應(yīng)調(diào)整參數(shù)，并結(jié)合滑?？刂品椒?，設(shè)計(jì)了模糊自適應(yīng)姿軌聯(lián)合控制器，實(shí)現(xiàn)了姿態(tài)和軌道的高精度控制。文獻(xiàn)[76]考慮存在外部干擾和執(zhí)行機(jī)構(gòu)故障等多種不確定性的情況，構(gòu)建了深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，通過在線學(xué)習(xí)調(diào)整參數(shù)，設(shè)計(jì)了對不確定性具有強(qiáng)魯棒性的自適應(yīng)智能控制器，解決了航天器非合作目標(biāo)跟蹤姿軌聯(lián)合控制問題。

在空間在軌維護(hù)任務(wù)中，利用空間機(jī)器人對目標(biāo)進(jìn)行操控是目前主要的實(shí)施手段，其操控精度是需要重點(diǎn)考慮的問題[77]。作為典型的空間多體系統(tǒng)，空間機(jī)器人自由度多、動(dòng)力學(xué)復(fù)雜，機(jī)械臂在動(dòng)作時(shí)將對基座產(chǎn)生干擾力矩，因此在控制器設(shè)計(jì)時(shí)必須給予考慮[78-79]。文獻(xiàn)[80]研究了空間機(jī)械臂的跟蹤控制問題，分析了機(jī)械臂與基座之間的耦合特性和碰撞約束，考慮了外部干擾不確定、模型不確定和執(zhí)行機(jī)構(gòu)飽和等情況，利用徑向基神經(jīng)網(wǎng)絡(luò)對操作過程中的不確定性進(jìn)行估計(jì)，在此基礎(chǔ)上設(shè)計(jì)了自適應(yīng)終端滑?？刂破?，實(shí)現(xiàn)了機(jī)械臂和載荷的一體化控制。文獻(xiàn)[81]為了改善基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的自適應(yīng)控制方法在空間操控應(yīng)用中的性能，提出了一種基于量子干擾原理的新型人工神經(jīng)網(wǎng)絡(luò)，并建立了新的激活函數(shù)，通過在線學(xué)習(xí)規(guī)則獲得更快速的學(xué)習(xí)效率和更好的擬合性能，據(jù)此設(shè)計(jì)了空間操控自適應(yīng)控制器，實(shí)現(xiàn)了干擾的估計(jì)補(bǔ)償，從而有效提升了空間操控的精度。文獻(xiàn)[82]考慮高度耦合動(dòng)力學(xué)特性和未知空間環(huán)境干擾的情況，研究了一類自由飛行的空間操作機(jī)器人的操控問題，為了避免傳統(tǒng)滑?？刂频母哳l抖動(dòng)特性對執(zhí)行機(jī)構(gòu)指向精度和使用壽命造成的不良影響，提出了一種基于強(qiáng)化學(xué)習(xí)的模糊自適應(yīng)滑?？刂破鳎趯?shí)現(xiàn)高精度跟蹤控制的同時(shí)減少了控制器的抖動(dòng)。

1.4 目前存在的問題

可以看出，經(jīng)過多年研究，智能自主控制技術(shù)已取得了較大進(jìn)展，并已應(yīng)用在無人駕駛汽車[83-84]和無人機(jī)[85-87]等無人系統(tǒng)中。然而，由于航天器需要考慮抗輻照和可靠性等因素，所配備的計(jì)算機(jī)、存儲等資源嚴(yán)重受限，而目前大多數(shù)先進(jìn)的智能自主控制技術(shù)均需要較強(qiáng)的算力作為支持，這導(dǎo)致其在航天器中應(yīng)用受限。目前大多數(shù)在軌航天器的控制系統(tǒng)主要依據(jù)“測量-控制-執(zhí)行”的傳統(tǒng)思想進(jìn)行設(shè)計(jì)，僅能較好應(yīng)對既定任務(wù)，所涉及的不確定因素僅包含內(nèi)部模型不確定性以及外部擾動(dòng)，當(dāng)任務(wù)類型、目標(biāo)以及環(huán)境發(fā)生變化或具有較強(qiáng)不確定性時(shí)則需重新設(shè)計(jì)控制系統(tǒng)，泛化能力有限。少數(shù)用于執(zhí)行地外天體探測、對地觀測等任務(wù)的航天器將部分智能算法引入控制回路中，以增強(qiáng)其自主性，提升業(yè)務(wù)能力，但現(xiàn)階段其控制系統(tǒng)僅在單一環(huán)節(jié)上實(shí)現(xiàn)了“點(diǎn)”的突破，尚未形成控制框架層面上的整體改進(jìn)。

未來航天器所需自主完成的非合作目標(biāo)在軌服務(wù)、地外天體著陸及探測等復(fù)雜空間任務(wù)具有先驗(yàn)信息少、探測手段欠缺、通信條件惡劣、星上資源受限等特點(diǎn)，這些因素均給航天器的控制系統(tǒng)提出了更高的要求，即需要航天器在難以與地面進(jìn)行及時(shí)通訊的前提下，利用有限的先驗(yàn)信息和實(shí)時(shí)感知信息自主實(shí)現(xiàn)對任務(wù)場景的高層次抽象理解，并據(jù)此快速給出任務(wù)決策及動(dòng)作規(guī)劃結(jié)果。同時(shí)，由于航天器屬于高價(jià)值空間資產(chǎn)，發(fā)射成本高，若單一航天器具備應(yīng)對多種任務(wù)場景的能力，則可有效提高航天器的效費(fèi)比。綜上，未來航天器應(yīng)具備類人的自主感知與認(rèn)知、角色演化及自主決策能力，而目前的控制系統(tǒng)無法滿足上述要求，需從控制系統(tǒng)整體上實(shí)現(xiàn)突破和升級，形成新的控制框架。

2 航天器智能自主控制技術(shù)新思考

本文通過引入演化機(jī)制，提出一種“感知(Obse-rvation)-演化(Evolution)-決策(Decision)-執(zhí)行(Action)”星上閉環(huán)控制框架，使航天器具備深層次理解任務(wù)場景的感知能力、根據(jù)不同任務(wù)改變自身角色的演化能力和自主應(yīng)對空間不確定性的決策能力，從而提升航天器的智能自主水平。

2.1 “感知-演化-決策-執(zhí)行”控制框架

OEDA控制框架的示意圖如圖1所示，包括三個(gè)回路：“OA”對應(yīng)傳統(tǒng)的航天器控制回路，以姿軌測量信息為反饋量，進(jìn)行姿態(tài)機(jī)動(dòng)或變軌等動(dòng)作；“ODA”回路通過引入決策環(huán)節(jié)，以目標(biāo)特征和意圖等高層次信息作為反饋量，實(shí)現(xiàn)航天器在空間任務(wù)具有較大不確定時(shí)的自主調(diào)整；“OEDA”回路則在此基礎(chǔ)上引入演化環(huán)節(jié)，基于場景理解結(jié)果使航天器通過角色定義、自組織軟硬件資源應(yīng)對不同目標(biāo)和多種任務(wù)場景，解決未知場景下的連續(xù)、適度、可控的任務(wù)遂行。

圖1 航天器“感知-演化-決策-執(zhí)行”星上閉環(huán)控制框架

2.2 “感知-演化-決策-執(zhí)行”控制框架的特點(diǎn)及功能

新的OEDA控制框架以感知、演化、決策和執(zhí)行為功能模塊，由傳統(tǒng)“測量-控制-執(zhí)行”的單層串行機(jī)制升級為“感知-演化-決策-執(zhí)行”的多層并行機(jī)制，可使航天器在執(zhí)行任務(wù)過程中應(yīng)對不確定性的能力得以有效提升。其特點(diǎn)和功能提升主要體現(xiàn)在：

1)在感知層面，OEDA控制框架中被控對象由航天器升級為廣義被控對象，包括航天器、空間環(huán)境、任務(wù)目標(biāo)等，對應(yīng)的測量過程也由傳統(tǒng)的姿軌測量升級為廣義感知。在姿態(tài)軌道測量的基礎(chǔ)上，利用多源信息融合手段，對任務(wù)目標(biāo)和空間環(huán)境進(jìn)行多層次的特征提取和融合，完成空間威脅預(yù)警、空間目標(biāo)識別、自主定位與跟蹤，根據(jù)任務(wù)特征通過推理認(rèn)知實(shí)現(xiàn)對當(dāng)前任務(wù)場景的高層次理解。

2)OEDA控制框架引入了演化機(jī)制，可使航天器根據(jù)感知結(jié)果在自身能力約束下對任務(wù)的態(tài)勢發(fā)展進(jìn)行推演，確定航天器當(dāng)前所需角色及對應(yīng)的能力范圍，并據(jù)此通過自組織軟硬件資源，動(dòng)態(tài)、連續(xù)地調(diào)整自身狀態(tài)，適度地利用星上資源，有效應(yīng)對不同目標(biāo)和任務(wù)，提升航天器執(zhí)行任務(wù)的泛化能力。

3)OEDA控制框架中的決策直接面向任務(wù)和環(huán)境，針對頂層任務(wù)需求，對感知和演化結(jié)果進(jìn)行綜合分析，通過知識推理和迭代優(yōu)化，形成序列化的最優(yōu)決策和動(dòng)作規(guī)劃，使航天器能夠根據(jù)具體任務(wù)、運(yùn)行環(huán)境和自身狀態(tài)，自主完成任務(wù)調(diào)整、分解、規(guī)劃與編排。

4)OEDA控制框架中的執(zhí)行環(huán)節(jié)是根據(jù)決策結(jié)果，精確解算執(zhí)行機(jī)構(gòu)指令實(shí)施變軌方案、姿態(tài)指向、載荷開關(guān)機(jī)、載荷指向等動(dòng)作，以保證任務(wù)完成。

總體來講，所提出的OEDA控制框架以人工智能為關(guān)鍵使能技術(shù)，實(shí)現(xiàn)了從測量到感知理解、從模式切換到角色演化、從程序化驅(qū)動(dòng)到?jīng)Q策規(guī)劃的星上自主運(yùn)行，賦予了航天器類人行為屬性的自主控制能力，降低了對地面的依賴，從而提高了能力和效益。

2.3 “感知-演化-決策-執(zhí)行”控制框架的理論與方法

OEDA控制框架通過引入演化環(huán)節(jié)使得架構(gòu)層次更為豐富，易通過分層遞階的方式提升智能水平，有效增強(qiáng)航天器面對多變?nèi)蝿?wù)時(shí)的泛化能力。然而，若依然采用傳統(tǒng)的串聯(lián)式架構(gòu)實(shí)現(xiàn)OEDA星上閉環(huán)，外部信息需通過逐級傳遞形式完成決策及演化交互，當(dāng)航天器面向?qū)崟r(shí)性要求較高的復(fù)雜不確定任務(wù)場景時(shí)，此種架構(gòu)形式難以支撐任務(wù)高效遂行[88]。為此，本文提出的OEDA控制框架采用多層并聯(lián)的混合式架構(gòu)，提高控制框架智能水平的同時(shí)，在串聯(lián)架構(gòu)中融入并聯(lián)思想，通過感知環(huán)節(jié)將框架各層高效聯(lián)通，使得OEDA框架中演化、決策、執(zhí)行環(huán)節(jié)能夠快速獲取任務(wù)及環(huán)境信息，有效提升系統(tǒng)實(shí)時(shí)性。本文所提OEDA控制框架中所涉及的相關(guān)理論與方法具體體現(xiàn)在信息獲取、角色演化、任務(wù)遂行三個(gè)方面，三者與控制執(zhí)行環(huán)節(jié)的內(nèi)在聯(lián)系如圖2所示。

圖2 OEDA控制框架各環(huán)節(jié)中的理論與方法

信息獲取主要涉及目標(biāo)形態(tài)特征提取、行為特征提取、意圖判斷與場景理解。首先采用圖像、點(diǎn)云等信息進(jìn)行互補(bǔ)，克服任務(wù)目標(biāo)可見性隨時(shí)空、光照、輻射特性變化差異性大的不利條件，完成目標(biāo)及特征部件的快速分割和準(zhǔn)確識別，得出任務(wù)目標(biāo)的形態(tài)特征及其表達(dá)；同時(shí)，將目標(biāo)姿軌運(yùn)動(dòng)檢測、估計(jì)與行為信息進(jìn)行關(guān)聯(lián)，實(shí)現(xiàn)多時(shí)空非完備信息下任務(wù)目標(biāo)的行為特征提取與表達(dá)；最后，在知識引導(dǎo)下基于有限樣本學(xué)習(xí)方法實(shí)現(xiàn)推理模型的構(gòu)建與優(yōu)化，并結(jié)合具體任務(wù)環(huán)境及歷史信息，利用所提取的任務(wù)目標(biāo)形態(tài)特征和行為特征進(jìn)行融合推理，從而實(shí)現(xiàn)對目標(biāo)特征的提取、意圖的判斷以及任務(wù)場景的理解。

角色演化主要涉及能力模型構(gòu)建、模型優(yōu)化求解以及任務(wù)場景推演三個(gè)方面。首先通過給出航天器軟硬件資源到角色能力的映射關(guān)系，得到復(fù)雜系統(tǒng)綜合能力的高度抽象化歸納，實(shí)現(xiàn)系統(tǒng)能力與內(nèi)在指標(biāo)的精準(zhǔn)關(guān)聯(lián)，為角色演化提供依據(jù)；在此基礎(chǔ)上，根據(jù)具體任務(wù)場景，以能力模型為約束、能力要素為優(yōu)化變量、能力指標(biāo)為優(yōu)化目標(biāo)，通過求解多目標(biāo)優(yōu)化問題，得出當(dāng)前時(shí)刻下最優(yōu)或次優(yōu)的若干能力要素；最后，根據(jù)所得不同能力要素解以及感知環(huán)節(jié)給出的當(dāng)前任務(wù)場景理解結(jié)果，對任務(wù)場景發(fā)展進(jìn)行多分支推演，得到當(dāng)前時(shí)刻應(yīng)選擇的能力要素和最優(yōu)能力邊界，據(jù)此通過自組織軟硬件資源驅(qū)動(dòng)航天器完成角色轉(zhuǎn)變。

任務(wù)遂行主要涉及決策反饋機(jī)制構(gòu)建、自主快速?zèng)Q策。首先應(yīng)考慮感知、決策、執(zhí)行的耦合特性，刻畫任務(wù)預(yù)判結(jié)果、既定任務(wù)、能力約束等與目標(biāo)應(yīng)對策略間的內(nèi)在關(guān)聯(lián)關(guān)系，形成決策反饋機(jī)制；進(jìn)而，根據(jù)感知所得的目標(biāo)特征及意圖，實(shí)時(shí)對策略子空間進(jìn)行降維，并在線簡化決策參數(shù)辨識過程，實(shí)現(xiàn)在機(jī)動(dòng)能力、計(jì)算能力等多種復(fù)雜約束條件下復(fù)雜任務(wù)的自主快速?zèng)Q策。

可以看出，上述理論方法的使用，可使航天器具備類人的目標(biāo)意圖判斷及任務(wù)場景高層次理解能力、根據(jù)不同任務(wù)實(shí)現(xiàn)角色定義的自身調(diào)節(jié)能力、根據(jù)目標(biāo)特征及意圖對不確定性的動(dòng)態(tài)策略實(shí)時(shí)調(diào)整能力。

3 發(fā)展與展望

將OEDA控制框架實(shí)際應(yīng)用于空間任務(wù)時(shí)，面臨系統(tǒng)建模及分析、智能訓(xùn)練與評價(jià)、集群化拓展等多方面難點(diǎn)。為此，需解決多個(gè)關(guān)鍵科學(xué)問題，具體為：

1)廣義系統(tǒng)的模型表達(dá)及分析

OEDA控制框架下的廣義系統(tǒng)模型是閉環(huán)控制系統(tǒng)設(shè)計(jì)和性能分析的基礎(chǔ)，包含航天器對象動(dòng)力學(xué)特性、空間環(huán)境特征和控制任務(wù)目標(biāo)及性能等，其作用是實(shí)現(xiàn)對感知、演化、決策和執(zhí)行等行為的綜合表征。由于廣義系統(tǒng)模型中既存在邏輯變量，又存在狀態(tài)變量，既存在連續(xù)變量，又存在離散變量，既存在確定性參數(shù)變量，又存在隨機(jī)性參數(shù)變量等，因此需探索使用何種數(shù)學(xué)工具有效、合理的刻畫廣義系統(tǒng)內(nèi)部狀態(tài)之間相互依賴、競爭、關(guān)聯(lián)等復(fù)雜作用關(guān)系，建立其特征表達(dá)模型。在此基礎(chǔ)上，研究OEDA閉環(huán)控制框架下的系統(tǒng)可控性和可觀性分析方法，解決OEDA閉環(huán)設(shè)計(jì)問題。此外，針對所建立的廣義系統(tǒng)特征表達(dá)模型，還需探究采用何種手段對模型的正確性和可信性進(jìn)行驗(yàn)證，并研究模型校正方法，使得所建立的表達(dá)模型更符合實(shí)際情況，解決OEDA控制框架的可靠性和安全性設(shè)計(jì)問題。

2)智能學(xué)習(xí)訓(xùn)練及可評價(jià)性問題

智能學(xué)習(xí)訓(xùn)練和可評價(jià)性研究是基于OEDA控制框架的智能系統(tǒng)實(shí)現(xiàn)從設(shè)計(jì)到應(yīng)用的核心。對于智能學(xué)習(xí)訓(xùn)練，一方面是構(gòu)建在物理模型、環(huán)境模型及行為特征等方面接近真實(shí)的平行訓(xùn)練場景，從而生成高精度和高可信的訓(xùn)練數(shù)據(jù)，解決訓(xùn)練樣本生成問題；另一方面是考慮任務(wù)之間相互關(guān)聯(lián)，網(wǎng)絡(luò)結(jié)構(gòu)離散參數(shù)維度高且相互依賴等特點(diǎn)，研究多任務(wù)多目標(biāo)復(fù)雜深度神經(jīng)網(wǎng)絡(luò)的高可靠精簡方法，突破其所涉及的獎(jiǎng)勵(lì)設(shè)計(jì)、約束設(shè)計(jì)、動(dòng)作空間設(shè)計(jì)等關(guān)鍵技術(shù)，解決以深度神經(jīng)網(wǎng)絡(luò)為代表的學(xué)習(xí)算法在資源受限航天器系統(tǒng)中的應(yīng)用部裝問題。對于智能系統(tǒng)評價(jià)，首先應(yīng)構(gòu)建功能完善、性能優(yōu)良的集成仿真驗(yàn)證系統(tǒng)，解決智能系統(tǒng)高保真模擬運(yùn)行問題；其次還需要研究如何構(gòu)建合理的系統(tǒng)狀態(tài)特征，用于關(guān)聯(lián)航天器在軌完成任務(wù)能力，建立智能水平驗(yàn)證體系及具體量化評級指標(biāo)，保證航天器在應(yīng)對不確定任務(wù)場景過程中感知、演化、決策和執(zhí)行能力是可量化和可評價(jià)的，解決OEDA控制框架由理論方法研究轉(zhuǎn)入實(shí)際工程應(yīng)用中面臨的可行性、可靠性和安全性問題。

3)OEDA的集群化問題

在感知層面，對于復(fù)雜多樣的空間任務(wù)環(huán)境，僅通過單個(gè)航天器可能難以獲取充足和準(zhǔn)確的環(huán)境及目標(biāo)信息，可應(yīng)用多航天器的信息共享與互補(bǔ)，提高對外部環(huán)境的感知與認(rèn)知能力[88]，此時(shí)則需研究多層次敏感器、多平臺及多源數(shù)據(jù)的采集、分析、融合處理問題，實(shí)現(xiàn)多航天器協(xié)同感知與認(rèn)知，為其角色演化、任務(wù)決策與動(dòng)作規(guī)劃提供充分依據(jù)；在角色演化層面，對于諸如小行星帶探測[89-90]、月背探測[91-92]等空間任務(wù)，需要多航天器以不同角色協(xié)同配合完成，此時(shí)應(yīng)研究根據(jù)每個(gè)航天器的能力模型、任務(wù)類型以及空間部署等因素的航天器角色協(xié)同演化方法，以實(shí)現(xiàn)航天器集群最優(yōu)能力部署；當(dāng)多航天器協(xié)同完成復(fù)雜空間任務(wù)時(shí)，各航天器任務(wù)區(qū)域可能存在時(shí)空交疊，導(dǎo)致碰撞風(fēng)險(xiǎn)激增、任務(wù)沖突加劇，因此，在自主決策層面，需要研究高效協(xié)同決策與動(dòng)作規(guī)劃方法，實(shí)現(xiàn)多航天器的沖突消解、群智涌現(xiàn)。

此外，隨著腦科學(xué)、量子科學(xué)等前沿科學(xué)的發(fā)展，未來有望實(shí)現(xiàn)上述技術(shù)與人工智能的有機(jī)融合[93-95]，進(jìn)一步提升OEDA控制框架的智能自主水平和體系適應(yīng)能力，促進(jìn)航天器更智能地融入陸、海、空、天一體化體系架構(gòu)中，實(shí)現(xiàn)全域異構(gòu)多方位、多視角協(xié)同類人應(yīng)對不確定任務(wù)場景。

4 結(jié)束語

目前，航天器的控制系統(tǒng)無法實(shí)現(xiàn)對場景的透徹理解、不能根據(jù)多變的任務(wù)進(jìn)行角色演化、難以在不確定任務(wù)場景中進(jìn)行自主決策，造成其泛化能力有限，制約了未來空間任務(wù)的有效實(shí)施。為解決上述問題，本文提出了一種新型“感知(Observation)-演化(Evolution)-決策(Decision)-執(zhí)行(Action)”星上閉環(huán)控制框架，討論了其特點(diǎn)、功能以及所涉及的理論和方法。同時(shí)，針對這種新型星上閉環(huán)的工程應(yīng)用，給出了需要研究的關(guān)鍵科學(xué)問題。本文所提出的OEDA控制框架，可賦予航天器類人行為屬性的自主應(yīng)對不確定性能力，為未來航天器的發(fā)展提供重要技術(shù)儲備。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放