基于深度強化學(xué)習(xí)的尾旋改出技術(shù)

2024-04-18 06:13:07譚健美王君秋

航空兵器 2024年1期

譚健美王君秋

摘要：????? 本文搭建了飛機仿真環(huán)境，基于近端策略優(yōu)化（PPO）算法建立了尾旋改出算法測試模型，設(shè)計了基準版單階段、基準版雙階段、加深版單階段、加深版雙階段四種網(wǎng)絡(luò)結(jié)構(gòu)，用于探究網(wǎng)絡(luò)結(jié)構(gòu)和改出階段對尾旋改出效果的影響，設(shè)置了魯棒性測試試驗，從時延、誤差和高度等方面進行了算法測試和結(jié)果分析。

關(guān)鍵詞：???? 尾旋改出；深度學(xué)習(xí)；強化學(xué)習(xí)；近端策略優(yōu)化；算法測試; 飛機

中圖分類號：??? ??TJ760; V271.4

文獻標識碼：??? A

文章編號：??? ?1673-5048（2024）01-0077-12

DOI： 10.12132/ISSN.1673-5048.2023.0135

0 引? 言

現(xiàn)代先進的作戰(zhàn)飛機為提高空戰(zhàn)效能，在設(shè)計過程中更加注重其機動性和敏捷性，并要求具有一定的過失速機動能力，而在完成過失速機動時，飛機表面流場變化復(fù)雜，流動的分離情況、渦的不對稱性以及破裂位置的激烈變化，導(dǎo)致作用在飛機上的氣動力和力矩隨著狀態(tài)參數(shù)的變化呈現(xiàn)強烈的非線性、非定常的遲滯特性，出現(xiàn)抖振、機翼非指令性的搖晃、機頭非指令性的側(cè)偏、全機非指令性的俯仰擺動或突然抬頭、迎角增加等不期望的危險飛行狀態(tài)。此時，飛機的操縱性明顯變差，有時甚至完全喪失操縱性，很有可能進入過失速偏離、尾旋等危險狀態(tài)，給飛行安全造成隱患，嚴重時可能導(dǎo)致致命事故［1］。

過失速偏離是飛機從可控飛行狀態(tài)向尾旋等失控狀態(tài)過渡的一種短暫運動過程，可能增加飛機進入尾旋的趨勢。偏離過程通常是一種大振幅的、非指令性的和發(fā)散的運動。一般來說，過失速偏離運動是不發(fā)散的。但若駕駛員快速向后拉桿或采取順尾旋的橫航向操縱，則有可能使飛機進入尾旋狀態(tài)。

尾旋是飛機失速后發(fā)生的一種自發(fā)的持續(xù)偏航運動，且可能伴有繞飛機俯仰、滾轉(zhuǎn)和偏航等三軸的振蕩運動。飛機航跡沿半徑很小的、很陡的垂直螺旋線軌跡急劇下降，因而尾旋也稱為“螺旋”。尾旋的產(chǎn)生與機翼自轉(zhuǎn)有很大關(guān)系。當(dāng)飛機處于臨界迎角范圍時，可能具有一定的滾轉(zhuǎn)角速度。若飛機發(fā)生右滾，左側(cè)機翼迎角變小、升力下降，右側(cè)機翼迎角變大、升力增加，從而產(chǎn)生左滾力矩阻止飛機進一步滾轉(zhuǎn)，起到阻尼作用。然而，當(dāng)飛機處于超臨界迎角范圍時，若具有一定的右滾角速率，則左側(cè)機翼迎角減小，由于迎角處于超臨界范圍，迎角減小可能會使升力增加；同理，右側(cè)機翼的迎角增加可能引起升力減小，二者共同作用會加劇飛機的右滾，使得滾轉(zhuǎn)角速度不斷增大。即使飛機初始沒有滾轉(zhuǎn)角速度，但氣流不對稱或其他原因都有可能引起飛機的滾轉(zhuǎn)運動，并在機翼產(chǎn)生的不對稱升力的作用下加速滾轉(zhuǎn)，從而形成機翼自轉(zhuǎn)。此外，尾旋本身復(fù)雜的旋轉(zhuǎn)和振蕩，使得慣性交感力矩在尾旋運動中也起到了重要作用。慣性交感力矩一般起到不穩(wěn)定力矩的作用，使飛機迎角有增大的趨勢。

研究尾旋特性的手段［2］較多，如風(fēng)洞中的旋轉(zhuǎn)天平測量試驗和動態(tài)試驗、立式風(fēng)洞試驗［3］、模型飛行試驗以及飛機試飛等。此外，還可通過數(shù)值計算、在飛行模擬器上進行尾旋運動的半物理仿真試驗、開展尾旋預(yù)防與改出訓(xùn)練等方法［4］，掌握并驗證飛機尾旋時的運動特性和改出方法。

考慮到飛機尾旋運動的非線性和不確定性較強、氣動特性的遲滯效應(yīng)較大，且在尾旋的發(fā)展過程中飛機動力學(xué)特性隨時間變化較大，常規(guī)的研究方法存在一定的局限性。隨著智能技術(shù)的發(fā)展，特別是深度學(xué)習(xí)和強化學(xué)習(xí)的發(fā)展，計算機在感知過程的數(shù)學(xué)建模及策略的學(xué)習(xí)問題等取得了一定的進步。因此，本文基于深度學(xué)習(xí)和強化學(xué)習(xí)方法，開展了飛機尾旋改出問題的研究工作。

1 強化學(xué)習(xí)尾旋改出解決方案

飛機尾旋改出的主要目標是減小迎角并盡快達到安全速度，同時將高度損失降至最低。雖然從尾旋中改出的具體技術(shù)取決于飛機和尾旋的類型，但通常通過減少飛機自轉(zhuǎn)角速度、恢復(fù)飛機迎角的策略可以改出大部分尾旋。采用深度學(xué)習(xí)和強化學(xué)習(xí)技術(shù)能夠在發(fā)生尾旋時自動執(zhí)行改出操作。經(jīng)過多年研究，強化學(xué)習(xí)發(fā)展出多種技術(shù)途徑。 Tomar D S等［5］采用強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)技術(shù)開展了飛機失速改出技術(shù)研究；? Kolb S等［6］開展了飛機深失速實時探測和改出程序研究； Cao H H等［7］采用強化學(xué)習(xí)技術(shù)開展了雙階段飛機尾旋改出策略研究； Kim D等［8］采用強化學(xué)習(xí)技術(shù)開展了無人機平尾旋最優(yōu)改出策略研究； Chao H Y等［9］開展了無人機失速/尾旋探測技術(shù)的飛行試驗研究；? Bunge R A等［10-11］開展了無人機的失速/尾旋探測與飛行試驗技術(shù)研究。

強化學(xué)習(xí)通過智能體與環(huán)境的交互學(xué)習(xí)獲得好的策略，在解決飛機尾旋改出具有廣闊前景。強化學(xué)習(xí)控制方案有可能發(fā)展為常規(guī)尾旋改出的替代方案，但強化學(xué)習(xí)也面臨一些問題，研究側(cè)重于解決相應(yīng)的問題。學(xué)習(xí)算法期望從當(dāng)前動作中獲得累積獎勵，因此它可以避免不希望的軌跡，例如高迎角、大角速率和大過載的狀態(tài)。強化學(xué)習(xí)經(jīng)常被用來控制黑盒系統(tǒng)，包括不確定性，它保證了在預(yù)定狀態(tài)空間和動作空間上的最優(yōu)性。然而，在利用強化學(xué)習(xí)解決尾旋改出問題時，存在相當(dāng)具有挑戰(zhàn)性的問題。一個問題是維度爆炸的問題。隨著狀態(tài)空間和動作空間維度的增加，相應(yīng)的計算負載呈指數(shù)增長。另一個問題是函數(shù)逼近器的復(fù)雜性。由于學(xué)習(xí)技術(shù)通過使用單個狀態(tài)操作獎勵集進行迭代來更新連續(xù)狀態(tài)上的獎勵，因此需要一個覆蓋整個狀態(tài)空間的函數(shù)逼近器。函數(shù)逼近器的復(fù)雜性應(yīng)確定為正確反映目標函數(shù)，而不會出現(xiàn)欠擬合和過擬合。

智能體獲得的策略需要滿足諸多要求。強化學(xué)習(xí)算法應(yīng)當(dāng)學(xué)習(xí)以獲得更好的策略，而更好的策略體現(xiàn)在如下三個方面：

（1）強化學(xué)習(xí)獲得的策略應(yīng)當(dāng)符合安全性的要求。符合安全性要求的策略應(yīng)當(dāng)盡量避免事故的發(fā)生。對于尾旋改出這種從事故中解脫的策略而言，安全性更是極其重要的方向。

（2）強化學(xué)習(xí)獲得的策略應(yīng)具備穩(wěn)定系統(tǒng)的能力。在系統(tǒng)控制過程中，應(yīng)當(dāng)能夠?qū)⑾到y(tǒng)從不穩(wěn)定控制轉(zhuǎn)化為穩(wěn)定控制。對于尾旋改出策略而言，控制策略執(zhí)行后，飛機應(yīng)當(dāng)能夠轉(zhuǎn)為平穩(wěn)飛行，更要避免二次失速。

（3）強化學(xué)習(xí)應(yīng)當(dāng)能夠完成目標化的探索，從而避免智能體學(xué)習(xí)到存在安全隱患的高獎勵策略。強化學(xué)習(xí)是通過最大化獲得獎勵獲取策略，如果對獎勵的考慮不夠充分，可獲得最大獎勵的策略。

在利用深度強化學(xué)習(xí)技術(shù)進行飛機尾旋改出的過程中，需要著重解決強化學(xué)習(xí)的獎勵函數(shù)無法兼顧策略安全性與穩(wěn)定性的問題、策略的探索與輸出難以預(yù)測和約束的問題，以及難以靈活地應(yīng)對動態(tài)的多目標控制問題。

2 算法設(shè)計與實現(xiàn)

2.1 問題建模

飛機的兩個相鄰時刻的飛行狀態(tài)可近似看成飛機在給定操作下狀態(tài)之間的轉(zhuǎn)移，飛機下一時刻的狀態(tài)僅和當(dāng)前時刻的狀態(tài)有關(guān)，與上一時刻的狀態(tài)無關(guān)，所以在理論層面上，飛機的飛行狀態(tài)具有馬爾科夫性，然后將飛機飛行過程在飛行時間的維度上離散化，可以近似將飛機的飛行過程建模為離散時間的馬爾科夫鏈［12］（Discrete-Time Markov Chain， DTMC）。飛機的尾旋改出過程其本質(zhì)是通過操作桿對飛機的狀態(tài)轉(zhuǎn)移加以控制，使飛機達到某個目標狀態(tài)，故飛機的尾旋改出過程就是在飛機飛行過程的馬爾科夫鏈的基礎(chǔ)上加入決策控制，故可將飛機尾旋改出過程建模為馬爾科夫決策過程（Markov Decision Process， MDP）。

將飛機的尾旋改出過程建模為馬爾科夫決策過程， MDP是一個序貫決策過程，可以由一個5元組來表示，具體建模內(nèi)容規(guī)范如下：

飛機的尾旋改出是一個連續(xù)控制問題［13］，在MDP決策過程中，采用強化學(xué)習(xí)方法去解決尾旋改出連續(xù)控制問題。以飛機進入尾旋后的初始狀態(tài)作為強化學(xué)習(xí)網(wǎng)絡(luò)的環(huán)境初始化之后的第一個狀態(tài)，然后設(shè)計合理的強化學(xué)習(xí)網(wǎng)絡(luò)去擬合狀態(tài)和動作的映射關(guān)系，以強化學(xué)習(xí)網(wǎng)絡(luò)的輸出值（即動作值）作為飛機控制桿的控制量，飛機獲得新的控制量后對當(dāng)前狀態(tài)進行更新并獲得新的狀態(tài)，此時環(huán)境會根據(jù)飛機的新狀態(tài)對這次控制決策給出一個獎勵值，隨后以該新狀態(tài)作為強化學(xué)習(xí)網(wǎng)絡(luò)的下一個輸入值，如此每一次循環(huán)，飛機將完成識別當(dāng)前狀態(tài)—執(zhí)行控制指令—到達下一狀態(tài)—獲取獎勵值這一完整流程，強化學(xué)習(xí)的目的是讓每一輪中飛機獲得的累計獎勵值達到最大，在合理的獎勵函數(shù)引導(dǎo)下，就可以引導(dǎo)網(wǎng)絡(luò)做出有利于尾旋改出的決策，直至將飛機改出尾旋狀態(tài)，恢復(fù)平穩(wěn)飛行。

在基于值函數(shù)的強化學(xué)習(xí)算法中，深度神經(jīng)網(wǎng)絡(luò)的輸出是當(dāng)前狀態(tài)s的所有可執(zhí)行動作的狀態(tài)-動作價值Q（s， a; θ）所組成的向量，因此該方法只能處理離散動作空間問題。而本文的尾旋改出場景是連續(xù)動作空間問題，比如動作設(shè)定為飛機操縱桿的幅度值，基于值函數(shù)的強化學(xué)習(xí)算法不適用。策略梯度方法利用參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)來近似策略，從而可以輸出連續(xù)的動作策略，解決尾旋改出問題中涉及的連續(xù)動作問題。策略梯度方法在每次進行策略更新前，需要采用當(dāng)前的策略與環(huán)境進行交互產(chǎn)生多條軌跡，計算梯度后對模型進行更新，得到新的策略。

由此可見，策略梯度是一種在線策略（On-Policy）的更新方法，導(dǎo)致該算法對樣本的利用率較低。同時，由于策略梯度算法輸出的是動作的概率分布，而不是一個確定性的動作，導(dǎo)致改出算法收斂速度較慢且不穩(wěn)定，而基于值函數(shù)的強化學(xué)習(xí)方法可以解決這個問題。

綜上，可以將策略梯度和值函數(shù)相結(jié)合，構(gòu)建一個新的強化學(xué)習(xí)架構(gòu)，即Actor-Critic（AC）架構(gòu)［14-15］。本文采用基于AC架構(gòu)建立的近端策略優(yōu)化算法［16］（Proximal Policy Optimization， PPO）開展尾旋改出試驗。 PPO算法是一種新型的在線策略梯度方法，它綜合了“策略梯度方法（PG）”和“置信域策略優(yōu)化（TRPO）”的優(yōu)點。

2.2 算法模型

2.2.1 狀態(tài)空間

在尾旋改出場景中，強化學(xué)習(xí)狀態(tài)空間的變量由飛機的10個飛行狀態(tài)量構(gòu)成，分別為空速、迎角、側(cè)滑角、滾轉(zhuǎn)角、俯仰角、偏航角、滾轉(zhuǎn)角速度、俯仰角速度、偏航角速度、垂直速度。在強化學(xué)習(xí)的網(wǎng)絡(luò)訓(xùn)練過程中，狀態(tài)信息被表征為一個10維向量。表1為強化學(xué)習(xí)狀態(tài)空間的變量表。

2.2.2 動作空間

在尾旋改出場景下，強化學(xué)習(xí)動作空間的控制變量包含升降舵、副翼、方向舵和油門桿等4個操縱面。表2通過對操縱面進行歸一化處理，給出了每一個控制變量的名稱、含義及其取值范圍。

2.2.3 獎勵函數(shù)

針對飛機尾旋改出場景，獎勵函數(shù)的設(shè)計目的是引導(dǎo)網(wǎng)絡(luò)做出最優(yōu)決策，從而控制飛機完成改出。因此，獎勵函數(shù)應(yīng)設(shè)計為一系列與狀態(tài)變量有關(guān)的函數(shù)。為了使目標網(wǎng)絡(luò)更容易收斂，與各狀態(tài)變量相關(guān)的獎勵函數(shù)應(yīng)統(tǒng)一，獎勵函數(shù)r的形式如下：

式中：函數(shù)變量Curval表示智能體中當(dāng)前該狀態(tài)分量的值； Tarval表示智能體中該狀態(tài)分量的目標值； Θ為縮放系數(shù)。當(dāng)Θ為0.02時，該函數(shù)如圖1所示。

該獎勵函數(shù)有以下特點：

（1）越靠近目標值，獎勵值越大。從圖中可以看出，當(dāng)前狀態(tài)值與目標值越接近，函數(shù)值越大，而且在目標值附近時函數(shù)值變化十分劇烈，這是為了讓強化學(xué)習(xí)網(wǎng)絡(luò)在目標值附近決策時，依然可以獲取較大的獎勵差值，使網(wǎng)絡(luò)更容易收斂至最優(yōu)點。

（2）通過調(diào)整Θ值來代替正向動作獎勵。正向動作獎勵是指若當(dāng)前決策使得該狀態(tài)分量比上一次決策更接近目標值，則獲得正值的獎勵，否則獲得負值的懲罰，這會引導(dǎo)智能體在每一次決策中趨向于做出當(dāng)前狀態(tài)下的正向決策。在該獎勵函數(shù)中，通過調(diào)整縮放系數(shù)Θ，可以改變曲線與x軸的交點，而通過調(diào)整交點位置，可以在一定程度上代替正向動作獎勵，同時又避免了正向動作獎勵在目標值附近振蕩的缺點。試驗證明，當(dāng)交點為（40， 0）左右時，訓(xùn)練效果最好，此時對應(yīng)的縮放系數(shù)Θ取值為0.02。

（3）將獎勵值歸一到［-1， 1］。獎勵值歸一化有利于減少因各個獎勵的標量值不同對總體獎勵的影響，同時也更加方便對不同參數(shù)的獎勵設(shè)置不同的權(quán)重，設(shè)置更加明確的獎勵函數(shù)和權(quán)重。

總獎勵Rtot為各狀態(tài)分量相關(guān)獎勵的加權(quán)和，即

權(quán)重Wi表示網(wǎng)絡(luò)對第i個狀態(tài)分量的重視程度，在實際的訓(xùn)練過程中，各項權(quán)重將根據(jù)訓(xùn)練的不同階段進行調(diào)整。

實際訓(xùn)練中，使用空速、迎角、側(cè)滑角、滾轉(zhuǎn)角、俯仰角、偏航角、滾轉(zhuǎn)角速度、俯仰角速度、偏航角速度、垂直速度等10個狀態(tài)變量進行計算，然后，將各訓(xùn)練輪次的獎勵函數(shù)取值進行疊加，得到最終的獎勵函數(shù)取值，即

Rtot=Rα+R+Rθ+RΨ+Rp+Rq+Rr+RVh（3）

式中： Rα， R， Rθ， Rψ， Rp， Rq， Rr， RVh分別表示迎角、滾轉(zhuǎn)角、俯仰角、偏航角、滾轉(zhuǎn)角速度、俯仰角速度、偏航角速度、垂直速度對應(yīng)的獎勵函數(shù)分量。各分量對應(yīng)的獎勵函數(shù)的參數(shù)設(shè)置如表3所示。

2.3 訓(xùn)練和測試環(huán)境

強化學(xué)習(xí)模型的訓(xùn)練和測試環(huán)境是基于開源的飛機仿真程序，其低保真模型迎角范圍為-20°～45°，高保真模型［17］迎角范圍為-20°～90°。為了研究飛機的尾旋運動，本文使用高保真模型進行仿真。其中飛機本體運動方程、作動器模型、標準大氣模型等都基于飛機仿真程序說明文檔及公開資料［18］。本文采用常規(guī)遍歷進入方法，生成若干尾旋軌跡，作為強化學(xué)習(xí)尾旋改出算法的數(shù)據(jù)集。

尾旋軌跡構(gòu)建的主要過程是，首先選定不同高度，將飛機在規(guī)定速度下配平，然后選擇控制升降舵使飛機到達超臨界迎角區(qū)域，再通過不同副翼、方向舵偏轉(zhuǎn)進入尾旋。高度取值方法為2 000 ft到20 000 ft中每2 000 ft取一個值，速度均取為300 ft/s。

根據(jù)上述方法進入尾旋，生成了足夠數(shù)量的尾旋軌跡，尾旋中飛機平均迎角60°左右，平均偏航角速度80 （°）/s。每條軌跡由北向位置、東向位置、高度、空速、迎角、側(cè)滑角、滾轉(zhuǎn)角、俯仰角、偏航角、滾轉(zhuǎn)角速度、俯仰角速度、偏航角速度、發(fā)動機狀態(tài)、升降舵偏轉(zhuǎn)、副翼偏轉(zhuǎn)、方向舵偏轉(zhuǎn)等16個時序數(shù)據(jù)構(gòu)成。圖2展示了一條典型的尾旋軌跡三維圖，圖3給出了在該軌跡上飛機狀態(tài)量的變化情況。

由圖3可見， 10 s之后飛機迎角快速超過50°，進入過失速狀態(tài)，并發(fā)生橫航向的向左偏離運動。 40 s左右，飛機偏航速率達到100 （°）/s、平均迎角約為70°，開始進入較為典型的平尾旋狀態(tài)，飛機沿著一條半徑極小的螺旋線急速下墜，如圖2所示。

3 智能體訓(xùn)練和測試

3.1 試驗條件設(shè)置

3.1.1 訓(xùn)練初始狀態(tài)

在強化學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練過程中，每個控制回合的開始需要初始化環(huán)境，然后控制網(wǎng)絡(luò)接受的第一個狀態(tài)量為初始狀態(tài)。表4列出了訓(xùn)練中的部分初始條件，其余條件可根據(jù)給出的要求和飛機尾旋時自身狀態(tài)計算得到。

3.1.2 訓(xùn)練終止條件

一輪循環(huán)中飛機控制步數(shù)達到給定數(shù)量（由超參數(shù)max_step指定）后將自動結(jié)束本輪循環(huán)，若最后一個狀態(tài)仍未達到尾旋改出標準，則將此次控制視為改出失敗。

達到給定尾旋改出成功條件：一輪循環(huán)中若控制輸出步數(shù)未達到最大執(zhí)行步數(shù)，且飛機狀態(tài)達到給定的尾旋改出成功狀態(tài)值，則將此次控制視為改出成功。表5為給定的尾旋改出成功狀態(tài)值表。

3.2 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

本文PPO算法設(shè)計了兩種動作網(wǎng)絡(luò)（Actor）結(jié)構(gòu)。其中，基準版的網(wǎng)絡(luò)結(jié)構(gòu)只有一個隱藏層，其網(wǎng)絡(luò)寬度為64，其結(jié)構(gòu)如圖4所示。

加深版Actor網(wǎng)絡(luò)中的隱藏層變?yōu)?層，同時將網(wǎng)絡(luò)的寬度擴增為128，其結(jié)構(gòu)如圖5所示。

本文PPO算法設(shè)計了兩種評價網(wǎng)絡(luò)（Critic）結(jié)構(gòu)。其中，基準版的網(wǎng)絡(luò)結(jié)構(gòu)只有一個隱藏層，其網(wǎng)絡(luò)寬度為64，其結(jié)構(gòu)如圖6所示。

加深版Critic網(wǎng)絡(luò)的隱藏層變?yōu)?層，同時將網(wǎng)絡(luò)的寬度擴增為128，其結(jié)構(gòu)如圖7所示。

3.3 訓(xùn)練的超參數(shù)設(shè)置

飛機仿真積分時間： 0.001 s

強化學(xué)習(xí)算法決策控制間隔： 0.03 s

隨機種子： 10

經(jīng)驗池大小（Batch_size）： 2 048

單批次更新大?。∕ini_batch）： 64

單次經(jīng)驗池的更新次數(shù)（K_epochs）： 5

策略的熵（Policy Entropy）： 0.01

優(yōu)化器eps參數(shù)（Adam Epsilon）： 1×10-5

Actor和Critic網(wǎng)絡(luò)的學(xué)習(xí)率： 3×10-4

折扣因子（γ）： 0.99

泛化優(yōu)勢估計器參數(shù)（λ）： 0.95

PPO 截斷參數(shù)（Epsilon）： 0.2

網(wǎng)絡(luò)隱藏層寬度（Hidden_width）： 64

最大步長（Max_step）： 50 000

3.4 訓(xùn)練過程的優(yōu)化方法

3.4.1 初始改出狀態(tài)點的隨機化處理

在訓(xùn)練過程中，選取了16條不同的尾旋軌跡，在尾旋軌跡上隨機選取了共計1 500個發(fā)生尾旋的飛機飛行狀態(tài)點，并在這1 500個飛行狀態(tài)點上隨機仿真0～10 s后，再使智能體操縱飛機舵面，開始尾旋改出訓(xùn)練。這樣就可以使智能體在盡可能多的狀態(tài)下開展尾旋改出訓(xùn)練，拓展智能體的狀態(tài)空間取值范圍，增加初始狀態(tài)點的隨機性，從而學(xué)習(xí)到更為全面的改出操縱方法，提高智能體的改出成功率。

3.4.2 分階段的獎勵函數(shù)設(shè)置

在尾旋改出過程中，目前普遍適用的操縱方法是：首先令飛機“止旋”，然后再操縱飛機“拉平”。因此，在訓(xùn)練過程中可以將尾旋改出的獎勵分為兩部分。第一部分是在飛機姿態(tài)變化率較大（p， q或r的絕對值超過10 （°）/s）時，將p， q和r對應(yīng)的獎勵值設(shè)置更大的權(quán)重；第二部分是在飛機姿態(tài)變化率較?。╬， q和r的絕對值小于10 （°）/s）時，則增加對滾轉(zhuǎn)角、俯仰角和偏航角的獎勵值，鼓勵智能體完成“拉平”控制。

雙階段獎勵函數(shù)的第一階段：

Rtot=Rp+Rq+Rr+RVh（4）

其中各分量對應(yīng)的獎勵函數(shù)系數(shù)如表6所示。

雙階段獎勵函數(shù)的第二階段：

Rtot=R+Rθ+RΨ+RVh（5）

式中各分量對應(yīng)的獎勵函數(shù)系數(shù)如表7所示。

4 試驗結(jié)果

4.1 訓(xùn)練與測試表現(xiàn)

在訓(xùn)練環(huán)境下將尾旋進入-改出整個過程分為三個階段。（1）第一階段：平飛階段；（2）第二階段：采用一定的控制操作使飛機進入尾旋；（3）第三階段：改出控制階段，強化學(xué)習(xí)動作網(wǎng)絡(luò)將輸出操縱動作值，控制飛機從尾旋狀態(tài)中改出。

此外，本文在開展尾旋改出控制時，通過改變獎勵函數(shù)的設(shè)置，提出了單階段改出和止旋-拉平雙階段改出等兩種改出策略。

4.1.1 單階段改出

圖8展示了采用單階段改出策略進行智能體訓(xùn)練時，尾旋改出過程中飛機飛行狀態(tài)量的變化曲線。圖8中標注了多條垂直于橫軸的短豎線，? 代表在該狀態(tài)點，飛機已經(jīng)滿足改出訓(xùn)練設(shè)置的終止條件；曲線的起始點代表智能體接管飛機控制的起點，? 當(dāng)前程序設(shè)定的是進入穩(wěn)態(tài)尾旋后10 s，智能體開始介入改出控制。

圖9和圖10分別展示了低空狀態(tài)和高空狀態(tài)下采用訓(xùn)練好的智能體進行尾旋改出過程中飛機飛行狀態(tài)量的變化曲線。從圖9中可以看出，開始改出操縱后飛機迎角逐漸穩(wěn)定到20°左右、滾轉(zhuǎn)角和側(cè)滑振蕩收斂到0°附近，飛機恢復(fù)到無側(cè)滑、機翼水平的穩(wěn)定對稱飛行姿態(tài)，改出過程時長為16 s，高度損失為550 ft。可見，通過強化學(xué)習(xí)訓(xùn)練得到的智能體能夠?qū)w機從尾旋狀態(tài)中改出，過程耗時較短、高度損失較小且沒有進入其他的危險狀態(tài)。從圖10中可以看出，開始改出操縱后飛機迎角從60°減小到20°左右、滾轉(zhuǎn)角和側(cè)滑振蕩快速收斂到0°附近，飛機恢復(fù)到無側(cè)滑、機翼水平的穩(wěn)定對稱飛行姿態(tài)，改出過程時長為35 s，高度損失為2 500 ft。因此，強化學(xué)習(xí)訓(xùn)練得到的智能體能夠?qū)w機從尾旋中改出。

與圖9的低空改出結(jié)果相比，高空改出耗時更長、高度損失更多。由于高空狀態(tài)下空氣密度較小，導(dǎo)致飛機各操縱舵面的操縱效能較低；而在智能體的訓(xùn)練過程中，沒有考慮飛行高度變化對尾旋改出策略的影響，導(dǎo)致智能體在高空和低空的改出操縱策略一致，當(dāng)高空操縱效能降低后，其改出效率也會隨之下降。在后續(xù)研究中，可嘗試將高度因素納入到智能體的狀態(tài)變量空間中，使其在高空和低空具備不同的改出操縱策略，并優(yōu)化高空的改出效果。

4.1.2 雙階段改出

圖11展示了采用雙階段改出策略進行智能體訓(xùn)練時，尾旋改出過程中飛機飛行狀態(tài)量的變化曲線。圖11中標注了多條垂直于橫軸的短豎線，代表在該狀態(tài)點，飛機已經(jīng)滿足改出訓(xùn)練設(shè)置的終止條件。當(dāng)前程序設(shè)定的是進入穩(wěn)態(tài)尾旋后10 s，智能體開始介入改出控制。圖12和圖13則分別展示了低空和高空狀態(tài)下采用訓(xùn)練好的智能體進行尾旋改出過程中飛機飛行狀態(tài)量的變化曲線。

從圖12中可以看出，開始改出操縱后飛機迎角逐漸穩(wěn)定到20°左右、滾轉(zhuǎn)角和側(cè)滑振蕩收斂到0°附近，飛機恢復(fù)到無側(cè)滑、機翼水平的穩(wěn)定對稱飛行姿態(tài)，改出過程時長為18 s，高度損失約為550 ft；與圖9中展示的單階段改出效果基本一致。綜上，單階段和雙階段的改出策略均能夠?qū)w機從尾旋狀態(tài)中改出，且過程耗時較短、改出過程中高度損失較小，且沒有進入其他的危險狀態(tài)。

從圖13中可以看出，開始改出操縱后飛機迎角從60°減小到20°左右，滾轉(zhuǎn)角和側(cè)滑振蕩快速收斂到0°附近，飛機恢復(fù)到無側(cè)滑、機翼水平的穩(wěn)定對稱飛行姿態(tài)，改出過程時長為8 s，高度損失約為1 000 ft。與圖10對比可知，雙階段改出策略的改出效率明顯高于單階段改出策略，且單階段改出過程中飛機姿態(tài)會出現(xiàn)較大幅度的振蕩，而在雙階段改出過程相對平穩(wěn)。綜上，雙階段的改出策略能夠更高效地將飛機從尾旋狀態(tài)中改出，且過程耗時更短、改出過程中高度損失更小，且不會進入其他的危險狀態(tài)。

4.2 魯棒性試驗設(shè)置

4.2.1 系統(tǒng)時延干擾試驗

系統(tǒng)時延是指輸入智能體動作網(wǎng)絡(luò)的飛機狀態(tài)時刻與飛機當(dāng)前的真實狀態(tài)時刻之間的時間間隔，如圖14所示。

為了驗證系統(tǒng)的魯棒性，需要在不同的系統(tǒng)時延條件下進行尾旋改出試驗。

4.2.2 傳感器誤差干擾試驗

傳感器誤差是指在現(xiàn)實環(huán)境中獲取飛機各項狀態(tài)值與飛機真實值之間存在無法消除的工程誤差。在仿真環(huán)境下，通過在獲取狀態(tài)值之后添加一個給定方差的白噪聲來模擬這一情況，如圖15所示。從仿真環(huán)境中獲得的飛機真實狀態(tài)為S*，輸入到?jīng)Q策網(wǎng)絡(luò)的狀態(tài)為添加噪聲δ之后的狀態(tài)S，即

S=S*+δ（6）

為了驗證系統(tǒng)的魯棒性，需要在不同的系統(tǒng)誤差條件下進行尾旋改出試驗。

4.2.3 不同高度下隨機初始化條件試驗

為了驗證網(wǎng)絡(luò)的泛化能力，需要在不同高度下進行隨機初始化條件的尾旋改出試驗。

4.2.4 交叉試驗

為了驗證各因素對尾旋改出的影響，需要在不同干擾項疊加因素下開展交叉試驗。

4.2.5 網(wǎng)絡(luò)結(jié)構(gòu)試驗

由于基準版的網(wǎng)絡(luò)結(jié)構(gòu)在初步試驗中，發(fā)現(xiàn)其效果不太理想，故設(shè)計加深版網(wǎng)絡(luò)試驗，進行對照，希望加深版網(wǎng)絡(luò)可以更好地擬合尾旋改出操作，帶來更好效果。

4.3 魯棒性試驗改出效果

根據(jù)上述魯棒性試驗設(shè)置，本文對基準版網(wǎng)絡(luò)單階段、基準版網(wǎng)絡(luò)雙階段、加深版網(wǎng)絡(luò)單階段、加深版網(wǎng)絡(luò)雙階段算法分別進行了魯棒性試驗。結(jié)果證明，強化學(xué)習(xí)可以應(yīng)用在飛機的尾旋改出中。

4.3.1 系統(tǒng)時延干擾試驗

系統(tǒng)時延會使改出時間增加，所以在低空狀態(tài)時，增加的操作時間會使得網(wǎng)絡(luò)沒有足夠的時間進行尾旋改出，降低尾旋改出的成功率，但是在高空狀態(tài)時，由于高度足夠，對尾旋改出的成功率幾乎沒有太大的影響。這主要是因為系統(tǒng)時延會不可避免地增加模型的決策時間間隔，但不影響決策的有效性，因此增加系統(tǒng)時延對模型的決策干擾是十分有限的。

4.3.2 傳感器誤差干擾試驗

傳感器誤差在達到50%時，對模型的尾旋改出性能會有較少影響；在大于50%誤差后，反而會使改出時間降低。結(jié)合系統(tǒng)時延對比試驗的數(shù)據(jù)，說明模型對干擾的抵抗是很有效果的。

4.3.3 不同高度下隨機初始化條件試驗

在大于3 000 ft的高度下尾旋，盡管發(fā)生尾旋時飛機的初始狀態(tài)不同，改出的成功率會普遍升高且改出時間相近，但在2 500 ft以下的低空進行改出時，成功率會隨著高度的降低而降低，尤其是尾旋高度低于2 000 ft后，改出成功將完全取決于發(fā)生尾旋時飛機的初始狀態(tài)，若初始狀態(tài)十分不利于改出，則會改出失敗。

4.3.4 交叉試驗

在高空情況下，系統(tǒng)試驗和傳感器誤差的干擾對模型決策的影響較小，但在低空情況下，這兩項干擾會顯著降低改出成功率，說明尾旋高度越低，模型的抗干擾能力越差。

4.3.5 不同網(wǎng)絡(luò)結(jié)構(gòu)試驗

通過基準版單階段與加深版單階段的網(wǎng)絡(luò)對比發(fā)現(xiàn)，網(wǎng)絡(luò)的加深有利于更好地擬合較為復(fù)雜的狀態(tài)，可以帶來更好的表現(xiàn)。

在基準版單階段與雙階段的對比中可以發(fā)現(xiàn)，雙階段的效果是優(yōu)于單階段的效果，但是在加深版的試驗中上述表現(xiàn)卻恰恰相反。其原因可能是，由于網(wǎng)絡(luò)加深以及雙階段帶來的訓(xùn)練難度增加，加深版的神經(jīng)網(wǎng)絡(luò)還未訓(xùn)練到最優(yōu)狀態(tài)，從而出現(xiàn)了加深版雙階段智能體的改出效果不如加深版單階段的智能體。

5 結(jié)? 論

本文基于飛機仿真環(huán)境，形成了16組典型尾旋軌跡數(shù)據(jù)樣本，采用通用性較強、易于調(diào)參的PPO算法，建立了深度強化學(xué)習(xí)尾旋改出算法模型，設(shè)計了基準版單階段、基準版雙階段、加深版單階段、加深版雙階段四種網(wǎng)絡(luò)結(jié)構(gòu)，開展了低空和高空狀態(tài)的改出算法訓(xùn)練，設(shè)置了魯棒性測試試驗，從時延、誤差和高度等方面給出了試驗結(jié)果。總體結(jié)論如下：單階段和雙階段的改出策略均能將飛機從尾旋狀態(tài)中改出，過程耗時較短，改出過程中高度損失較小，且沒有進入其他的危險狀態(tài)；單階段改出過程中飛機姿態(tài)會出現(xiàn)較大幅度的振蕩，而在雙階段改出過程相對平穩(wěn)；雙階段改出策略的改出效率總體高于單階段改出策略，改出過程耗時更短、高度損失更小，且不會進入其他的危險狀態(tài)。

現(xiàn)階段工作主要存在三個方面的問題：一是原型系統(tǒng)氣動力模型精確度有限；二是缺乏對尾旋改出難度的評估；三是尾旋改出方案的設(shè)計還需進一步優(yōu)化。目前，飛機原型系統(tǒng)氣動力模型的精確度有限，難以生成更接近于實際的足夠數(shù)量的尾旋軌跡數(shù)據(jù)，導(dǎo)致訓(xùn)練和測試樣本不足。本文雖能進入一定數(shù)量的不同的尾旋模態(tài)，但是對尾旋改出難度的劃分還缺乏一個明確的定量標準，僅通過偏航角速率的大小來判斷改出難度的方法不夠精確，不利于后續(xù)建立統(tǒng)一的衡量改出方案效果的評價標準。對于尾旋改出方案，現(xiàn)階段嘗試了單階段和雙階段兩種改出方式，兩種方案在不同規(guī)模的網(wǎng)絡(luò)中表現(xiàn)出一定的差異性，其原因還有待進一步分析，同時單階段方案在“止旋”階段存在一定的往復(fù)振蕩，雙階段方案則不存在這個問題，往復(fù)振蕩會大大增加尾旋改出的總時間，姿態(tài)調(diào)整階段通常會花費較多的時間，該問題有待進一步解決。

針對大迎角氣動力模型的精確度問題，當(dāng)前除了基于數(shù)學(xué)模型的傳統(tǒng)建模方法，汪清［19-20］、何磊［21］、王超［22］等人嘗試了支持向量機等機器學(xué)習(xí)方法用于大迎角非定常氣動力建模，取得了較好的效果。在后續(xù)研究中，可嘗試上述方法改善氣動力模型。針對尾旋改出難度的評估，可以嘗試將剩余舵效大小作為評估量。尾旋改出的難度除了體現(xiàn)在其運動本身的復(fù)雜性外，還體現(xiàn)在可使用的力和力矩的大小，如剩余舵面效能足夠大，則即使是復(fù)雜的尾旋運動也可較為簡單地改出，因此，剩余舵效是衡量尾旋改出難度的重要指標之一，應(yīng)將其納入考慮范圍。為了改進尾旋方案設(shè)計，應(yīng)進一步探究單階段中“止旋”往復(fù)振蕩出現(xiàn)的原因，同時研究雙階段中各階段不同的任務(wù)目標是否會影響改出時間。明確不同階段的任務(wù)目標應(yīng)有助于提高尾旋改出的效率，可在姿態(tài)調(diào)整階段設(shè)計傳統(tǒng)的最優(yōu)控制來替換強化學(xué)習(xí)以達到更短的改出時間。

參考文獻：

［1］ Kenny D J， Collins J， Sable A. Stall and Spin Accidents： Keep the Wings Flying ［EB/OL］. （2022-12-10）［2023-07-04］.https：∥www.aopa.org/-/media/files/aopa/ home/pilot-resources/safety-and-proficiency/accident-analysis/special-reports/stall_spin.pdf

［2］ Bihrle W， Barnhart B. Spin Prediction Techniques［C］ ∥Proceedings of the 6th Atmospheric Flight Mechanics Conference， 1980.

［3］顏巍. 立式風(fēng)洞與立式風(fēng)洞試驗［J］. 民用飛機設(shè)計與研究， 2016（3）： 52-55.

Yan Wei. Vertical Wind Tunnel and Vertical Wind Tunnel Experiments［J］. Civil Aircraft Design & Research， 2016（3）： 52-55. （in Chinese）

［4］ Sidoryuk M E， Khrabrov A N. Estimation of Regions of Attraction of Aircraft Spin Modes［J］. Journal of Aircraft， 2019， 56（1）： 205-216.

［5］ Tomar D S， Gauci J， Dingli A， et al. Automated Aircraft Stall Recovery Using Reinforcement Learning and Supervised Learning Techniques［C］∥IEEE/AIAA 40th Digital Avionics Systems Conference， 2021： 1-7.

［6］ Kolb S， Montagnier O， Hétru L， et al. Real-Time Detection of an Aircraft Deep Stall and Recovery Procedure［J］. Journal of Gui-dance， Control， and Dynamics， 2019， 42（5）： 1185-1194.

［7］ Cao H H， Zeng W F， Jiang H T， et al. Two-Stage Strategy to Achieve a Reinforcement Learning-Based Upset Recovery Policy for Aircraft［C］∥2021 China Automation Congress （CAC）， 2022.

［8］ Kim D ， Oh G ， Seo Y ，et al.Reinforcement Learning-Based Optimal Flat Spin Recovery for Unmanned Aerial Vehicle［J］.Journal of Guidance， Control， and Dynamics， 2017， 40（4）： 1074-1081.

［9］ Chao H Y， Flanagan H P， Tian P Z， et al. Flight Test Investigation of Stall/Spin Detection Techniques for a Flying Wing UAS［C］∥Proceedings of the AIAA Atmospheric Flight Mechanics Conferen-ce， 2017.

［10］ Bunge R A， Kroo I. Automatic Spin Recovery with Minimal Altitude Loss［C］∥Proceedings of the AIAA Guidance， Navigation， and Control Conference， 2018.

［11］ Bunge R A， Munera Savino F， Kroo I. Approaches to Automatic Stall/Spin Detection Based on Small-Scale UAV Flight Testing［C］∥Proceedings of the AIAA Atmospheric Flight Mechanics Conference， 2015.

［12］ Sutton R S. Barto A G. Reinforcement Learning： An Introduction ［J］.IEEE Transactions on Neural Networks， 1998， 9（5）： 1054.

［13］ Lillicrap T P， Hunt J J， Pritzel A， et al. Continuous Control with Deep Reinforcement Learning［EB/OL］. （2019-07-05）［2023-07-04］. https：∥arxiv.org/abs/1509.02971.

［14］ Haarnoja T， Zhou A， Abbeel P， et al. Soft Actor-Critic： Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor［EB/OL］. （2019-08-08）［2023-07-04］. https：∥arxiv.org/abs/1801.01290.

［15］ Fujimoto S， van Hoof H， Meger D. Addressing Function Approximation Error in Actor-Critic Methods［EB/OL］. （2018-10-22）［2023-07-04］.https：∥arxiv.org/abs/1802.09477.

［16］ Schulman J， Wolski F， Dhariwal P， et al. Proximal Policy Optimization Algorithms［EB/OL］. （2017-08- 28）［2023-07-04］. https：∥arxiv.org/abs/1707.06347.

［17］ Russell R S. Non-Linear F-16 Simulation Using Simulink and MATLAB ［R］. 2003.

［18］ Gillert W P， Nguyen L T， Van Gunst R W. Simulator Study of the Effectiveness of an Automatic Control System Designed to Improve the High-Angle-of-Attack Characteristics of a Fighter Airplane： NASA TN- D-8176［R］. Hampton Va： Langley Research Center， 1976.

［19］汪清，錢煒祺，丁娣. 飛機大迎角非定常氣動力建模研究進展［J］. 航空學(xué)報， 2016， 37（8）： 2331-2347.

Wang Qing， Qian Weiqi， Ding Di. A Review of Unsteady Aerodynamic Modeling of Aircrafts at High Angles of Attack［J］. Acta Aeronautica et Astronautica Sinica， 2016， 37（8）： 2331-2347. （in Chinese）

［20］ Wang Q， Qian W Q， He K F. Unsteady Aerodynamic Modeling at High Angles of Attack Using Support Vector Machines［J］. Chinese Journal of Aeronautics， 2015， 28（3）： 659-668.

［21］何磊，錢煒祺，汪清，等. 機器學(xué)習(xí)方法在氣動特性建模中的應(yīng)用［J］. 空氣動力學(xué)學(xué)報， 2019， 37（3）： 470-479.

He Lei， Qian Weiqi， Wang Qing， et al. Applications of Machine Learning for Aerodynamic Characteristics Modeling［J］. Acta Aerodynamica Sinica， 2019， 37（3）： 470-479. （in Chinese）

［22］王超，王貴東，白鵬. 飛行仿真氣動力數(shù)據(jù)機器學(xué)習(xí)建模方法［J］. 空氣動力學(xué)學(xué)報， 2019， 37（3）： 488-497.

Wang Chao， Wang Guidong， Bai Peng. Machine Learning Method for Aerodynamic Modeling Based on Flight Simulation Data［J］. Acta Aerodynamica Sinica， 2019， 37（3）： 488-497. （in Chinese）

Aircraft Spin Recovery Technique Based on Deep

Reinforcement Learning

Abstract： This paper builds an aircraft simulation environment， and establishes a test model of an automated spin recovery algorithm based on proximal policy optimization （PPO） algorithm. Four kinds of network structures are designed， that are basis single stage， basis double stage， deep single stage and deep double stage， to explore the influence of network structure and recovery stage on spin recovery effect. A robustness test experiment is set up， and the algorithm is tested and the results are analyzed from the aspects of delay， error and height.

Key words： spin recovery； deep learning； reinforcement learning； proximal policy optimization； algorithm test; aircraft

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度強化學(xué)習(xí)的尾旋改出技術(shù)