魏毅寅,郝明瑞,范 宇
(1. 中國(guó)航天科工集團(tuán)有限公司,北京 100048;2. 北京機(jī)電工程研究所,北京 100074;3. 復(fù)雜系統(tǒng)控制與智能協(xié)同技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100074)
近年來(lái),以空天飛行器、高超聲速飛行器等[1]為典型代表的寬域飛行器蓬勃發(fā)展,如圖1所示,其不僅對(duì)高端裝備制造、空間信息以及太空經(jīng)濟(jì)等領(lǐng)域產(chǎn)生輻射帶動(dòng)作用,進(jìn)一步提升了中國(guó)在航空航天領(lǐng)域的自主創(chuàng)新能力,同時(shí)也催生出新質(zhì)作戰(zhàn)能力,帶來(lái)戰(zhàn)爭(zhēng)模式的巨變,成為維護(hù)國(guó)家安全的戰(zhàn)略重器[2]。
由于寬域飛行器所覆蓋的空域范圍從幾千米到上百千米,馬赫數(shù)從0跨越至25甚至更高,外形多采用大升力體及復(fù)雜翼舵構(gòu)型,飛行器動(dòng)力系統(tǒng)與機(jī)體高度融合設(shè)計(jì),內(nèi)外流場(chǎng)耦合特性顯著,如圖2所示;嚴(yán)酷氣動(dòng)加熱會(huì)引發(fā)結(jié)構(gòu)彈性變形,進(jìn)一步加劇氣動(dòng)/熱/結(jié)構(gòu)/控制的耦合,使動(dòng)力學(xué)特性更為復(fù)雜;同時(shí)由于目前地面風(fēng)洞難以準(zhǔn)確模擬高馬赫飛行環(huán)境,使得控制系統(tǒng)所依賴的氣動(dòng)參數(shù)存在較大的天地差異[3]。因此,該類飛行器具有顯著的強(qiáng)耦合、強(qiáng)非線性、強(qiáng)時(shí)變特征,難以建立較為準(zhǔn)確的數(shù)學(xué)模型描述,對(duì)控制系統(tǒng)設(shè)計(jì)提出了很多新問(wèn)題與新挑戰(zhàn),需要持續(xù)開(kāi)展控制新理論與新方法的研究探索。
圖1 典型寬域飛行器Fig.1 Typical wide-field vehicles
圖2 復(fù)雜內(nèi)外流耦合特性Fig.2 Coupling of internal and external flow fields
近年來(lái),隨著人工智能技術(shù)的發(fā)展和廣泛應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)展現(xiàn)出良好的對(duì)多維復(fù)雜特征的泛化表達(dá)能力,使得以深度學(xué)習(xí)為代表的智能技術(shù)在圖像處理、語(yǔ)音識(shí)別等領(lǐng)域得到了成功的應(yīng)用[4],因此開(kāi)展人工智能技術(shù)在飛行控制中的應(yīng)用研究,有望為解決寬域飛行器高品質(zhì)控制問(wèn)題提供新的技術(shù)途徑。
為了增強(qiáng)控制系統(tǒng)對(duì)寬域飛行器復(fù)雜特性(強(qiáng)耦合、強(qiáng)非線性、強(qiáng)時(shí)變、大不確定性)的適應(yīng)能力,提升控制品質(zhì),國(guó)內(nèi)的研究學(xué)者開(kāi)展了廣泛深入的探索和研究,主要采用的技術(shù)途徑可以分為兩種。
第一種途徑是從增強(qiáng)系統(tǒng)魯棒性著手,利用增益調(diào)度等措施,確保系統(tǒng)穩(wěn)定裕度,提升對(duì)被控對(duì)象模型不確定性的容忍度。
基于經(jīng)典控制理論的PID控制方法,不依賴被控對(duì)象的精確動(dòng)力學(xué)模型,易于實(shí)現(xiàn),且利用幅值裕度和相位裕度可量化評(píng)估控制器魯棒性能,是目前工程中應(yīng)用最為廣泛的控制方法。為增強(qiáng)控制系統(tǒng)對(duì)復(fù)雜特性的適應(yīng)能力,會(huì)根據(jù)飛行器在不同任務(wù)特征點(diǎn)的特性,利用可觀測(cè)參數(shù)對(duì)PID控制增益進(jìn)行實(shí)時(shí)調(diào)度[5]。
基于現(xiàn)代控制理論的魯棒控制方法,其核心思想是將模型不確定視為對(duì)系統(tǒng)標(biāo)稱條件的擾動(dòng),在保留系統(tǒng)精確建模部分穩(wěn)定性的同時(shí),保留一定的穩(wěn)定裕度,從而保證當(dāng)系統(tǒng)存在模型不確定和外部擾動(dòng)的情況下整個(gè)系統(tǒng)的穩(wěn)定[6]。
第二種途徑是從提升系統(tǒng)自適應(yīng)性著手,利用實(shí)時(shí)狀態(tài)觀測(cè)與估計(jì),辨識(shí)出被控對(duì)象關(guān)鍵特性,提高對(duì)飛行器模型的認(rèn)知度。
自抗擾控制方法主要以PID控制構(gòu)型為基礎(chǔ),對(duì)于具有大不確定性和復(fù)雜非線性等特性的飛行器,考慮到飛行過(guò)程中所受的外界干擾等影響,采用擴(kuò)張狀態(tài)觀測(cè)器對(duì)被控對(duì)象的狀態(tài)和干擾進(jìn)行觀測(cè),通過(guò)狀態(tài)誤差反饋,對(duì)不確定干擾因素進(jìn)行補(bǔ)償,從而實(shí)現(xiàn)抑制干擾和精確跟蹤指令[8]。
非線性動(dòng)態(tài)逆控制方法的核心為通過(guò)非線性動(dòng)態(tài)逆來(lái)消除系統(tǒng)中存在的非線性,從而實(shí)現(xiàn)系統(tǒng)的“偽線性化”,在此基礎(chǔ)上可以采用其他線性化和非線性化方法設(shè)計(jì)系統(tǒng)控制器,實(shí)現(xiàn)對(duì)非線性系統(tǒng)的控制。針對(duì)被控對(duì)象存在的模型不確定性和外界干擾,可以利用狀態(tài)觀測(cè)對(duì)模型進(jìn)行辨識(shí)補(bǔ)償,再利用非線性動(dòng)態(tài)逆方法獲得理想的控制品質(zhì)[10]。
上述兩種途徑能夠在一定程度上提高控制系統(tǒng)對(duì)復(fù)雜特性的適應(yīng)能力,但是隨著寬域飛行器任務(wù)剖面更加多樣,飛行空域速域跨度更廣,外形特性更為復(fù)雜,現(xiàn)有的控制方法逐漸暴露出一定的應(yīng)用局限性。
1)對(duì)于利用飛行特征參數(shù)進(jìn)行增益調(diào)度的途徑,針對(duì)特性復(fù)雜度較高的寬域飛行器,可能對(duì)應(yīng)同一飛行特征點(diǎn),動(dòng)力學(xué)特性存在較大范圍的變化,且表征該變化的特性參數(shù)為隱性,不可觀測(cè),因此會(huì)導(dǎo)致無(wú)法對(duì)控制增益進(jìn)行有效的調(diào)度[11]。以某一飛行特征點(diǎn)為例,當(dāng)在該特征點(diǎn)氣動(dòng)壓心存在較大范圍的不確定性時(shí),雖然控制參數(shù)能夠保證在基準(zhǔn)狀態(tài)下性能穩(wěn)定,但是由于壓心變化特性不可觀測(cè),控制參數(shù)無(wú)法跟隨該狀態(tài)變化做出及時(shí)調(diào)整,導(dǎo)致控制參數(shù)與飛行器特性不匹配,從而出現(xiàn)穩(wěn)定裕度下降、控制失穩(wěn)的現(xiàn)象。兩種狀態(tài)下的定點(diǎn)時(shí)域響應(yīng)情況如圖3所示。
圖3 定點(diǎn)狀態(tài)下時(shí)域響應(yīng)對(duì)比Fig.3 Comparison of step responses
2)對(duì)于利用實(shí)時(shí)狀態(tài)觀測(cè)和補(bǔ)償來(lái)提升對(duì)模型認(rèn)知度的途徑,由于采用的狀態(tài)觀測(cè)器自身也需要依靠基礎(chǔ)的被控對(duì)象模型建立狀態(tài)方程和觀測(cè)方程,但是當(dāng)被控對(duì)象模型復(fù)雜度過(guò)高,難以直觀采用狀態(tài)空間進(jìn)行數(shù)學(xué)表達(dá),因此建立狀態(tài)觀測(cè)器所使用的模型相對(duì)真實(shí)模型存在偏差,進(jìn)而影響其狀態(tài)估計(jì)與辨識(shí)的精度,大大削弱觀測(cè)補(bǔ)償效果,甚至可能失效。
隨著近年人工智能技術(shù)的飛躍發(fā)展,以機(jī)器學(xué)習(xí)算法為代表的智能算法研究引領(lǐng)了第三次人工智能浪潮,其中深度神經(jīng)網(wǎng)絡(luò)由于具備映射能力好、學(xué)習(xí)能力強(qiáng)、適應(yīng)性廣、純數(shù)據(jù)驅(qū)動(dòng)等優(yōu)點(diǎn),在圖像識(shí)別、自然語(yǔ)言處理、健康醫(yī)療等任務(wù)中得到非常廣泛而成功的應(yīng)用。作為機(jī)器學(xué)習(xí)中的重要組成分支,強(qiáng)化學(xué)習(xí)針對(duì)馬爾可夫決策問(wèn)題,通過(guò)與被控對(duì)象的不斷交互和迭代學(xué)習(xí),生成可供全局決策的最優(yōu)策略,可用于解決智能決策問(wèn)題。而進(jìn)一步將深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)相結(jié)合,形成深度強(qiáng)化學(xué)習(xí),更適合解決復(fù)雜且難以建模的應(yīng)用場(chǎng)景問(wèn)題,圍棋AlphaZero使用的就是深度強(qiáng)化學(xué)習(xí)算法。
針對(duì)前述分析的現(xiàn)有控制方法在寬域飛行器控制中可能存在的局限性,本文重點(diǎn)從兩種技術(shù)途徑出發(fā)就人工智能技術(shù)在飛行控制中的應(yīng)用開(kāi)展研究。第一種是基于智能特征辨識(shí)的控制方法,即利用深度神經(jīng)網(wǎng)絡(luò)辨識(shí)飛行器隱性關(guān)鍵特征,實(shí)現(xiàn)控制增益的精準(zhǔn)調(diào)度,提升對(duì)不確定性的自適應(yīng)能力;第二種是基于深度強(qiáng)化學(xué)習(xí)的控制方法,利用深度神經(jīng)網(wǎng)絡(luò)建立神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)對(duì)飛行動(dòng)力學(xué)的映射表達(dá),以指令信號(hào)和實(shí)時(shí)狀態(tài)為神經(jīng)網(wǎng)絡(luò)輸入,以執(zhí)行機(jī)構(gòu)控制信號(hào)為神經(jīng)網(wǎng)絡(luò)輸出,實(shí)現(xiàn)“端對(duì)端”控制,弱化對(duì)飛行器復(fù)雜動(dòng)力學(xué)建模的依賴。以下結(jié)合典型示例對(duì)兩種途徑的研究情況進(jìn)行介紹。
仍以前述氣動(dòng)壓心存在不確定性的情況為例,當(dāng)在相同飛行狀態(tài)(相同的高度、速度、姿態(tài))下,飛行器氣動(dòng)壓心可能存在較大范圍變化時(shí),由于壓心變化為隱性特征,不可觀測(cè),因此會(huì)造成控制增益無(wú)法根據(jù)實(shí)際特性做出及時(shí)調(diào)整,從而導(dǎo)致控制性能惡化,嚴(yán)重時(shí)可能出現(xiàn)失控的情況。為此,考慮利用深度神經(jīng)網(wǎng)絡(luò)的泛化特征擬合能力,構(gòu)建智能觀測(cè)器,對(duì)表征氣動(dòng)壓心變化的動(dòng)力系數(shù)進(jìn)行辨識(shí),并利用辨識(shí)結(jié)果進(jìn)行增益調(diào)度,以提升對(duì)飛行器特性的大范圍變化的適應(yīng)能力。辨識(shí)原理如圖4所示。
圖4 基于智能特性辨識(shí)的控制方法原理圖Fig.4 Schematic diagram of the control method based on intelligent characteristic identification
根據(jù)飛行動(dòng)力學(xué)[12],基于系數(shù)凍結(jié)和小擾動(dòng)線性化處理,可以得到飛行器縱向短周期擾動(dòng)運(yùn)動(dòng)方程:
(1)
式中:Δ?, Δθ, Δα, Δδz分別是俯仰角、彈道傾角、攻角和升降舵舵偏角的擾動(dòng)偏量;aij是動(dòng)力系數(shù):
(2)
式中:a22為阻尼動(dòng)力系數(shù);a24為靜穩(wěn)定動(dòng)力系數(shù);a25為操縱動(dòng)力系數(shù);a34為法向力動(dòng)力系數(shù);a35為舵面動(dòng)力系數(shù)。因?yàn)閍24能夠表征飛行器氣動(dòng)壓心變化的情況,因此將其作為神經(jīng)網(wǎng)絡(luò)辨識(shí)輸出。
參數(shù)辨識(shí)網(wǎng)絡(luò)設(shè)計(jì)為包含BatchNormal層的殘差網(wǎng)絡(luò),如圖5所示。
圖5 參數(shù)辨識(shí)網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of the parameter identification network
通過(guò)對(duì)a24理論計(jì)算公式和氣動(dòng)參數(shù)影響因素進(jìn)行分析,確定a24辨識(shí)網(wǎng)絡(luò)的輸入如表1所示。
表1 辨識(shí)網(wǎng)絡(luò)輸入特征參數(shù)Table 1 Input characteristic parameters of the identification network
利用六自由度彈道仿真數(shù)據(jù)構(gòu)建訓(xùn)練和測(cè)試樣本,對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,將通過(guò)測(cè)試集測(cè)試的參數(shù)辨識(shí)網(wǎng)絡(luò)移植入六自由度彈道仿真中,靜不穩(wěn)定度辨識(shí)結(jié)果如圖6所示,辨識(shí)誤差不大于10%。仿真結(jié)果表明所設(shè)計(jì)的辨識(shí)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)較好的靜穩(wěn)定度辨識(shí)性能,根據(jù)辨識(shí)結(jié)果實(shí)時(shí)調(diào)整控制參數(shù),可有效提高現(xiàn)有控制方法對(duì)不確定度的適應(yīng)能力。
圖6 參數(shù)辨識(shí)結(jié)果Fig.6 Results of parameter identification
基于深度強(qiáng)化學(xué)習(xí)的智能控制方法是直接將深度神經(jīng)網(wǎng)絡(luò)作為控制器,利用控制網(wǎng)絡(luò)與訓(xùn)練環(huán)境的交互產(chǎn)生訓(xùn)練數(shù)據(jù),并按照設(shè)計(jì)的評(píng)價(jià)準(zhǔn)則逐步改善網(wǎng)絡(luò)的控制性能,最后學(xué)習(xí)到滿足精度需求的控制器。
基于深度強(qiáng)化學(xué)習(xí)的智能控制方法分為地面訓(xùn)練階段和線上部署階段兩個(gè)環(huán)節(jié)??刂葡到y(tǒng)原理如圖7所示。
工作原理為策略網(wǎng)絡(luò)以系統(tǒng)狀態(tài)S為輸入生成控制動(dòng)作a,強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境輸入控制動(dòng)作a后進(jìn)行動(dòng)力學(xué)解算,并向策略網(wǎng)絡(luò)反饋系統(tǒng)當(dāng)前狀態(tài)S、當(dāng)前控制動(dòng)作a、獎(jiǎng)勵(lì)值r和下一時(shí)刻狀態(tài)S_;評(píng)估網(wǎng)絡(luò)以系統(tǒng)狀態(tài)S為輸入預(yù)測(cè)狀態(tài)值v(s)。分別利用行動(dòng)值q(s,a)與理論狀態(tài)值yi更新策略網(wǎng)絡(luò)參數(shù)和評(píng)估網(wǎng)絡(luò)參數(shù),直至收斂獲得滿足精度要求的控制網(wǎng)絡(luò)參數(shù)。
圖7 基于深度強(qiáng)化學(xué)習(xí)的智能控制原理圖Fig.7 Schematic diagram of the intelligent control method based on deep reinforcement learning
基于端到端架構(gòu)的智能控制器,根據(jù)飛行狀態(tài)直接產(chǎn)生控制信號(hào),不同的控制網(wǎng)絡(luò)直接影響控制器訓(xùn)練速度和控制精度。本文設(shè)計(jì)了一種卷積神經(jīng)網(wǎng)絡(luò),控制網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。
圖8 深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.8 Structure of deep convolutional neural network
在設(shè)計(jì)獎(jiǎng)勵(lì)值函數(shù)時(shí)要充分考慮控制網(wǎng)絡(luò)所產(chǎn)生控制信號(hào)的分布情況。設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)如下:
(3)
設(shè)計(jì)攻角指令,利用深度神經(jīng)網(wǎng)絡(luò)控制器實(shí)現(xiàn)對(duì)攻角指令跟蹤,訓(xùn)練中攻角指令在4°~8°之間隨機(jī)取值,測(cè)試時(shí)選擇4°~12°之間的指令進(jìn)行仿真,結(jié)果如圖9所示。
圖9 角控制結(jié)果Fig.9 Results of angle of attack control
可以看到神經(jīng)網(wǎng)絡(luò)控制器很好地跟蹤了控制指令,在控制器訓(xùn)練中,訓(xùn)練數(shù)據(jù)雖然僅僅覆蓋到4°攻角指令和8°攻角指令之間,但當(dāng)給入訓(xùn)練數(shù)據(jù)范圍之外的12°攻角指令時(shí),神經(jīng)網(wǎng)絡(luò)控制器仍能夠很好地實(shí)現(xiàn)控制指令跟蹤,跟蹤誤差小于5%。仿真結(jié)果表明,神經(jīng)網(wǎng)絡(luò)控制器可以實(shí)現(xiàn)飛行器姿態(tài)穩(wěn)定控制,且具有一定的泛化性能。
人工智能技術(shù)與寬域飛行器控制技術(shù)相融合具有顯著的學(xué)術(shù)和應(yīng)用前景,但是在探索之路上還應(yīng)保持清醒的認(rèn)識(shí),不能過(guò)度神話人工智能技術(shù)的能力,應(yīng)重點(diǎn)圍繞經(jīng)典動(dòng)力學(xué)、飛行控制技術(shù)與人工智能技術(shù)的創(chuàng)新性結(jié)合,面向未來(lái)真正的轉(zhuǎn)化應(yīng)用,持續(xù)探索推進(jìn)。以下結(jié)合目前的研究進(jìn)展,提出幾點(diǎn)未來(lái)需要進(jìn)一步深入研究的方向展望。
1)加強(qiáng)智能動(dòng)力學(xué)建模技術(shù)研究
寬域飛行器控制最大的難題在于其復(fù)雜動(dòng)力學(xué)特性的模型表達(dá)。目前進(jìn)行探索的人工智能與飛行控制的結(jié)合途徑更多關(guān)注的是控制本身,而對(duì)動(dòng)力學(xué)部分關(guān)注比較少。由于飛行動(dòng)力學(xué)具有比較成熟的模型基本形式和解析表達(dá)式,這些先驗(yàn)信息的充分利用可有效降低問(wèn)題的復(fù)雜性和學(xué)習(xí)樣本的需求量,因此在動(dòng)力學(xué)建模中融合人工智能技術(shù)相對(duì)控制技術(shù)融合具有更加明顯的優(yōu)勢(shì),更加易于人工智能算法學(xué)習(xí)的實(shí)現(xiàn)[15]。若在此方向可以結(jié)合飛行動(dòng)力學(xué)取得突破,則更加有望在實(shí)際飛行器中得到應(yīng)用。
2)加深在線“自學(xué)習(xí)”技術(shù)研究
人工智能當(dāng)前仍處于計(jì)算智能階段,在地面利用樣本數(shù)據(jù)對(duì)所構(gòu)建的網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,其中樣本數(shù)據(jù)能覆蓋所認(rèn)知的不確定范圍,之后再移植至飛行器進(jìn)行在線應(yīng)用[16]。訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)只在訓(xùn)練集和測(cè)試集范圍內(nèi)具有可靠的表現(xiàn),無(wú)范圍外的推演能力。若飛行中遇到超出不確定認(rèn)知范圍的情況,其控制特性將難以得到保證。因此,探索能夠在線實(shí)時(shí)進(jìn)行網(wǎng)絡(luò)參數(shù)學(xué)習(xí)調(diào)整的“自學(xué)習(xí)”技術(shù)的可行性,是進(jìn)一步提高飛行控制適應(yīng)能力的有效途徑。
3)加快智能技術(shù)基礎(chǔ)能力建設(shè)
智能化技術(shù)應(yīng)用的硬件基礎(chǔ)是嵌入式芯片,核心是智能算法,因此需要開(kāi)展能夠支撐神經(jīng)網(wǎng)絡(luò)高動(dòng)態(tài)實(shí)時(shí)計(jì)算的自主可控智能芯片,構(gòu)建自主可控智能芯片生態(tài),為算法開(kāi)發(fā)人員提供完備、可靠的工具鏈;同時(shí)建設(shè)智能算法樣本庫(kù),管理各類智能算法訓(xùn)練和測(cè)試中涉及的試驗(yàn)和仿真生成的樣本數(shù)據(jù),集成樣本管理與生產(chǎn)工具集,形成支撐智能算法設(shè)計(jì)驗(yàn)證的數(shù)據(jù)系統(tǒng)。
高品質(zhì)的飛行控制是寬域飛行器安全飛行及高效完成任務(wù)的保證。由于其動(dòng)力學(xué)特性呈現(xiàn)顯著的強(qiáng)非線性、強(qiáng)時(shí)變性、強(qiáng)耦合性和大不確定性,突破了當(dāng)前控制技術(shù)適應(yīng)能力邊界,因此寬域飛行器飛行控制面臨著嚴(yán)峻挑戰(zhàn)。隨著人工智能技術(shù)的快速發(fā)展與成熟應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)呈現(xiàn)出很好的對(duì)多維度復(fù)雜特征的泛化表達(dá)能力,為解決寬域飛行器控制難題提供了新的技術(shù)途徑。
為此,探索研究了兩種將人工智能技術(shù)與寬域飛行器控制相融合的技術(shù)途徑:1)利用深度神經(jīng)網(wǎng)絡(luò)深度挖掘飛行器特性的復(fù)雜內(nèi)在聯(lián)系,提高飛行器關(guān)鍵特征辨識(shí)度,實(shí)現(xiàn)控制增益的精準(zhǔn)調(diào)度,提升對(duì)不確定性的適應(yīng)能力;2)利用深度神經(jīng)網(wǎng)絡(luò)建立神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)對(duì)飛行動(dòng)力學(xué)的映射表達(dá),直接實(shí)現(xiàn)“端對(duì)端”控制。兩種方法均取得了初步的研究成果。
人工智能技術(shù)與寬域飛行控制技術(shù)相融合具有顯著的學(xué)術(shù)和應(yīng)用前景,同時(shí)也衍生出一系列亟待進(jìn)一步解決的問(wèn)題,為此提出了需要持續(xù)關(guān)注并深入開(kāi)展的研究?jī)?nèi)容展望,以期更好地實(shí)現(xiàn)人工智能技術(shù)與飛行控制技術(shù)的優(yōu)勢(shì)融合,不斷提升飛行控制智能化水平,同時(shí)為控制科學(xué)提供新的發(fā)展動(dòng)力。