溫 暖,劉正華,祝令譜,孫 揚
(北京航空航天大學自動化科學與電氣工程學院,北京 100191)
深度強化學習在變體飛行器自主外形優(yōu)化中的應用
溫 暖,劉正華,祝令譜,孫 揚
(北京航空航天大學自動化科學與電氣工程學院,北京 100191)
基于深度強化學習策略,研究了一類變體飛行器外形自主優(yōu)化問題。以一種抽象化的變體飛行器為對象,給出其外形變化公式與最優(yōu)外形函數(shù)等。結(jié)合深度學習與確定性策略梯度強化學習,設計深度確定性策略梯度(DDPG)學習步驟,使飛行器經(jīng)過訓練學習后具有較高的自主性和環(huán)境適應性,提高其在戰(zhàn)場上的生存、應變和攻擊能力。仿真結(jié)果表明,訓練過程收斂較快,訓練好的深度網(wǎng)絡參數(shù)可以使飛行器在整個飛行任務過程中達到最優(yōu)氣動外形。
變體飛行器;深度強化學習;氣動外形優(yōu)化
基于配備的智能驅(qū)動機構(gòu),變體飛行器可以大尺度的改變自身構(gòu)型。此種性能使其可以替代多種不同型號的飛行器,在多任務飛行中實現(xiàn)全局大包線最優(yōu)氣動外形。正是由于變體飛行器在上述性能上所擁有的巨大發(fā)展?jié)摿?,使其成為新一代智能飛行器的有效解決方案,這使得變體飛行器的研究達到了一個全新的戰(zhàn)略高度,得到了國內(nèi)外相關(guān)機構(gòu)的廣泛重視[1-2]。目前,針對變體飛行器的研究主要集中于結(jié)構(gòu)蒙皮設計[3]與姿態(tài)控制[4]等方面。對于如何讓飛行器根據(jù)任務與環(huán)境智能決策變體這方面內(nèi)容,研究相對較少。
在變體飛行器設計過程中,自然界中的鳥類給予了人類很多啟示。如圖1(a)所示,鷹在穿越風場時會收縮翅膀,并使其前掠來提高速度。在圖1(b)中,鷹又在翱翔時盡量展開翅膀,以達到自身消耗最小的飛翔外形。未來變體飛行器的發(fā)展趨勢就是智能化與仿生化相結(jié)合,飛行器采用智能材料來實現(xiàn)機械柔性結(jié)構(gòu),從而根據(jù)飛行條件、任務與環(huán)境的變化,像鳥一樣智能改變自身構(gòu)型以獲得最優(yōu)的飛行性能,如圖1(c)和(d)所示。
如何使飛行器在沒有人的干預下具有自主決策能力一直是一個難題。對于變體飛行器來說,即使在已經(jīng)獲得當前最優(yōu)氣動外形的情況下,如何根據(jù)自身經(jīng)驗和知識來操縱驅(qū)動裝置使氣動外形達到最優(yōu)仍然是非常困難的。強化學習策略能夠有效適應環(huán)境的啟發(fā),以試錯的機制與環(huán)境進行交互,通過使累積獎賞最大化的方式來學習到最優(yōu)策略[5]。因此,強化學習是一種使變體飛行器具有自主決策能力的有效手段。
對于強化學習的研究,學術(shù)界一直沒有中斷過,目前常用的強化學習方法包括蒙特卡羅法、Q學習、SARSA學習、TD學習、策略梯度和自適應動態(tài)規(guī)劃等。強化學習在策略選擇的理論和算法方面已經(jīng)取得了很大的進步,但其中大部分成功的強化學習應用方案均非常依賴于人工特征的選取,且學習結(jié)果的好壞更是嚴重地取決于特征選取的質(zhì)量[6]。近期深度學習的發(fā)展使得對高度結(jié)構(gòu)化的數(shù)據(jù)進行特征提取成為可能?;谏窠?jīng)網(wǎng)絡的深度學習具有較強的感知能力,對于圖像分類和語音識別應用效果較好,但是面對實際中的決策判斷問題卻無能為力;而強化學習具有決策選擇能力,但對感知問題束手無策。因此,可將兩者有機結(jié)合起來搭建深度強化學習框架,從而實現(xiàn)優(yōu)勢互補,為復雜系統(tǒng)的感知決策問題提供新的解決思路。最近,DeepMind團隊在Nature上的兩篇文獻,即深度Q學習網(wǎng)絡(Deep Q-network, DQN)在Atari游戲中的應用[7]和AlphaGo在圍棋中的對弈[8],標志著“深度強化學習”作為一種全新的機器學習算法,已經(jīng)能夠使人工智能在視頻游戲及棋類博弈中與人類專家相抗衡。但是上述的深度強化學習算法主要還是局限于傳統(tǒng)的強化學習框架下,對于離散狀態(tài)與離散動作具有較好的通用性,卻無法處理實際環(huán)境中的連續(xù)狀態(tài)與連續(xù)動作。文獻[9]結(jié)合確定性策略方法與DQN,提出了針對于連續(xù)控制問題的DDPG方法。近來,最新的算法A3C(Asynchronous advantage actor critic)和UNREAL(Unsupervised reinforcement and auxiliary learning)更是展現(xiàn)了深度強化學習更廣泛的前景。
本文以一類外形簡化的變體飛行器為研究對象,將原先只應用于簡單控制問題的DDPG學習方法應用到變體飛行器的外形優(yōu)化問題中。首先給出一種簡化的變體飛行器外形模型,定義飛行器外形的動態(tài)方程、最優(yōu)氣動外形和代價函數(shù)。在此基礎(chǔ)上,針對此連續(xù)狀態(tài)的控制問題闡述了DDPG算法的基本構(gòu)成框架和設計流程。在Python+TensorFlow平臺下,搭建深度學習訓練框架結(jié)構(gòu),最終利用訓練好的深度網(wǎng)絡參數(shù)驗證飛行過程中的實際學習效果。
本文以一種簡化的橢球形變體飛行器為研究對象[10-11],其由先進的形狀記憶合金(Shape memory alloy,SMA)構(gòu)成,如圖2所示。此飛行器通過給定電壓調(diào)節(jié)SMA的形態(tài)從而控制自身外形沿橢球軸線方向發(fā)生變化。飛行器外形優(yōu)化的過程就是根據(jù)外部的飛行環(huán)境和任務來調(diào)整其在y軸和z軸方向上的軸長。同時,為了保證整機體積不變,x軸方向上的軸長也會同時發(fā)生變化。
y軸和z軸方向上的形變動態(tài)與給定電壓之間的關(guān)系可由非線性差分方程(1)給出
(1)
式中:y和z分別表示橢球形變體飛行器在y軸和z軸方向上的橢球軸長。Vy和Vz分別表示調(diào)節(jié)SMA在y軸和z軸方向上形變的驅(qū)動電壓。式(1)中系數(shù)的選取參考了文獻[10]。且y,z,Vy和Vz取值范圍設定為:y,z∈[2,4],Vy,Vz∈[0,5]。
對應于飛行狀態(tài)F,y軸和z軸方向上的最優(yōu)氣動外形由式(2)給出
(2)
式中:Sy與Sz表示飛行器具有最優(yōu)升阻比的氣動外形。F從離散狀態(tài){0,1,2,3,4,5}中選取,具體取值由當前所處飛行軌跡上的高度與速度所決定。
結(jié)合式(1)與式(2),代價函數(shù)C可以表示為
(3)
考慮到上述動作空間的連續(xù)性問題,本文采用的是強化學習中的確定性策略梯度算法以實現(xiàn)連續(xù)控制問題。針對單純的確定性策略無法探索環(huán)境這個缺陷,可以利用Actor-Critic(AC)學習框架實現(xiàn)異策略學習方式,即行動策略與評估策略不是同一個策略方法。行動策略為隨機策略,以保證充足的探索。而評估策略為確定性策略,其可以通過梯度計算來實現(xiàn)累計獎賞J的最大化。在AC算法中,可以把策略函數(shù)μ(s|θμ)和行為值函數(shù)Qπ(s,a|θQ)分別用單獨的函數(shù)來近似。策略函數(shù)μ(s|θμ)作為Actor來進行動作選擇,而行為值函數(shù)Qπ(s,a|θQ)作為Critic來對策略函數(shù)進行評估。而二者均可根據(jù)Critic的輸出來進行更新。
確定性策略的動作公式為
a=μ(s|θμ)
(4)
與隨機策略不同,當式(4)中的θμ(策略函數(shù)中的權(quán)重因子)確定下來后,在狀態(tài)為s時,動作是唯一確定的。另外,在行為值函數(shù)Qπ(s,a|θQ)評估過程中用的是經(jīng)典的Q-learning的方法,其中θQ為行為值函數(shù)中待逼近的權(quán)值參數(shù)。AC算法將對動作的Q值估計和策略估計分離,使其能夠在探索更多環(huán)境狀態(tài)的同時保持某個確定性策略的學習,從而令整個網(wǎng)絡學習變得更容易收斂。
在確定性策略中,作為目標函數(shù)的累計獎賞J相對于策略參數(shù)θμ的梯度為[9]
(5)
式中:E代表期望值。策略梯度的思想就是沿著使目標函數(shù)J變大的方向調(diào)整策略參數(shù)θμ。
在式(5)基礎(chǔ)上,可以得到確定性策略AC算法的更新過程
(6)
(7)
式(6)是利用Q學習值函數(shù)逼近的方法更新行為值函數(shù)的參數(shù)θQ,式(7)是利用確定性策略梯度的方法更新策略的參數(shù)θμ。
上面所述的方法為確定性策略梯度(Deterministic policy gradient, DPG)。在DPG基礎(chǔ)上可以利用深度神經(jīng)網(wǎng)絡逼近行為值函數(shù)Qπ(s,a|θQ)和確定性策略μ(s|θμ),就成為深度確定性策略梯度(Deep deterministic policy gradient,DDPG)學習算法。
注1. 當利用深度神經(jīng)網(wǎng)絡進行函數(shù)逼近的時候,強化學習算法常常不穩(wěn)定。這是因為,對網(wǎng)絡進行訓練時往往假設輸入的數(shù)據(jù)是獨立同分布的[7],但強化學習的數(shù)據(jù)是順序采集的,數(shù)據(jù)之間存在馬爾科夫依賴性,并非獨立同分布。為了打破數(shù)據(jù)之間的關(guān)聯(lián)性,可以采用“經(jīng)驗回放”方法,將每次進行動作以后得到的“狀態(tài)-動作-反饋-新狀態(tài)”保存到緩存中去,訓練采用的樣本則從這個緩存中隨機抽取。利用此種訓練技巧,理論上可以打破學習過程中的數(shù)據(jù)依賴性的。
在訓練過程中,由于環(huán)境是相對混沌的,用于更新網(wǎng)絡的反饋具有很大的噪聲,直接訓練深度網(wǎng)絡會非常容易發(fā)散。因此,在DDPG訓練學習過程中,本文采用目標網(wǎng)絡方法,創(chuàng)建Actor和Critic網(wǎng)絡的副本μ-(s|θμ-),Q-(s,a|θQ-)來計算目標值,然后以τ的比例緩慢跟隨原網(wǎng)絡更新。如此所得的目標值就會變得相對穩(wěn)定,非常有利于學習的效果。故更新過程可以變?yōu)?/p>
(8)
(9)
(10)
綜上,DDPG的算法步驟如下:
1)隨機初始化Critic深度神經(jīng)網(wǎng)絡Q(s,a|θQ)的權(quán)重θQ和Actor的深度神經(jīng)網(wǎng)絡μ(s|θμ)的權(quán)重θμ。
2)初始目標網(wǎng)絡Q-與μ-的權(quán)重θQ-與θμ-。
3)初始化經(jīng)驗回放的緩存區(qū)R。
4)重復每一幕。
5)初始化隨機過程N以用于行動策略的探索。
6)初始觀測得到狀態(tài)s1。
7)重復步驟8)~16)。
8)根據(jù)當前的策略和隨機探索選擇動作:
at=μ(st|θμ)+Nt
9)執(zhí)行動作at從而得到獎勵rt和新的狀態(tài)st+1。
10)將(st,at,rt,st+1)存儲在緩存區(qū)R中。
11)在R中隨機選取一組數(shù)量為M的(si,ai,ri,si+1)。
12)設定
yi=ri+γQ-(si+1,μθ-(si+1|θμ-)|θQ-)
14)利用所選取樣本的策略梯度更新Actor的網(wǎng)絡參數(shù)
15)更新目標網(wǎng)絡
16)直到最大步數(shù)和最大幕數(shù)。
為了驗證深度強化學習在變體飛行器外形優(yōu)化過程中的有效性,本節(jié)將上文所提到的DDPG學習算法編程實現(xiàn),并應用于變體模型(1)、(2)與(3)的飛行器外形優(yōu)化策略中。基于AC強化學習與深度學習的DDPG算法的架構(gòu)如圖3所示,Critic深度神經(jīng)網(wǎng)絡Q(s,a|θQ)和Actor的深度神經(jīng)網(wǎng)絡μ(s|θμ)均有兩個隱藏層,每個隱藏層里有400個神經(jīng)元,Critic網(wǎng)絡采用Relu激活函數(shù),Actor網(wǎng)絡則采用tanh激活函數(shù)。在Critic網(wǎng)絡中,本文將動作Action輸入到隱藏層-2中。
訓練過程設計如下,對于獨立的y軸和z軸分別進行學習優(yōu)化,步驟1)中的最大幕數(shù)設置為200,前100個幕中加入隨機動作以進行探索,在后100個幕中將探索去掉,從而進行在線策略利用。每個幕中的最大步數(shù)Step設置為500。軟件開發(fā)平臺為:Python2.7+TensorFlow1.0+Cuda8.1+Cudnn5.1,硬件平臺采用型號為Nvidia-GTX960的GPU。
每個幕的累積獎賞如圖4所示??梢钥闯?在整個訓練學習過程中,學習效果收斂較快,且不加探索的后100個幕的累積獎賞波動不大,表明整個深度學習網(wǎng)絡較為穩(wěn)定。
訓練完成后的優(yōu)化策略驗證過程設計如下:變體飛行器的飛行狀態(tài)F由飛行軌跡決定,其關(guān)系如圖5所示,將訓練后的Actor網(wǎng)絡保存下來,并在如圖5所示的飛行路徑中進行試驗。可得到飛行過程中的變體飛行器外形y與z的優(yōu)化狀態(tài),并將本文的DDPG算法與文獻[12]中的Multi-Q學習方法進行對比。由圖6~7可以看出,DDPG算法的優(yōu)化效果明顯好于Multi-Q學習。這主要是因為傳統(tǒng)的Q學習依賴于離散的狀態(tài)空間和離散的動作空間,對于此變體飛行器外形優(yōu)化這種連續(xù)過程只能采用離散化手段,這會導致最終學習完成后的輸出動作為離散值,造成優(yōu)化精度不高。而DDPG算法采用深度神經(jīng)網(wǎng)絡逼近狀態(tài)-動作策略,可以計算出連續(xù)動作值,使得學習效果較好。
本文針對變體飛行器的外形優(yōu)化問題,應用近幾年較為熱門的深度強化學習算法使飛行器通過訓練學習具有了自主優(yōu)化外形的能力,將人工智能方法拓展到飛行器策略優(yōu)化領(lǐng)域。為了解決傳統(tǒng)的強化學習框架不適用于連續(xù)控制這個問題,結(jié)合確定性策略梯度算法與Actor-Critic框架進行強化學習過程,并將深度神經(jīng)網(wǎng)絡替代原來傳統(tǒng)的Actor函數(shù)與Critic函數(shù)結(jié)構(gòu),以實現(xiàn)更好的學習效果。仿真結(jié)果表明,整個學習過程收斂較快,并且利用訓練好的深度網(wǎng)絡參數(shù),可以使后期飛行過程中的外形優(yōu)化效果大幅度提高。
[1] 何墉,章衛(wèi)國,王敏文,等. 基于多目標控制的變體飛行器切換線性變參數(shù)控制器[J]. 控制理論與應用. 2015, 32(11): 1518-1525. [He Yong, Zhang Wei-guo, Wang Min-wen, et al. Switching linear-parameter-varying controller for morphing aircraft based on multi-objective[J]. Control Theory amp; Applications. 2015, 32(11): 1518-1525.]
[2] 江未來, 董朝陽, 王通,等. 變體飛行器平滑切換LPV魯棒控制[J]. 控制與決策, 2016, 31(1):66-72. [Jiang Wei-lai, Dong Chao-yang, Wang Tong, et al. Smooth switching LPV robust control for morphing aircraft[J]. Control and Decision, 2016, 31(1):66-72.]
[3] 杜善義,張博明. 飛行器結(jié)構(gòu)智能化研究及其發(fā)展趨勢[J]. 宇航學報, 2007, 28(4): 773-778. [Du Shan-yi, Zhang Bo-ming. Status and developments of intelligentized aircraft structures[J]. Journal of Astronautics, 2007, 28(4): 773-778.]
[4] 董朝陽,江未來,王青. 變翼展飛行器平滑切換LPV魯棒H∞控制[J]. 宇航學報. 2015(11): 1270-1278. [Dong Chao-yang, Jiang Wei-lai, Wang Qing. Smooth switching LPV robust H-infinity control for variable-span vehicle[J]. Journal of Astronautics, 2015(11): 1270-1278.]
[5] Sutton R S,Precup D, Singh S. Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1-2): 181-211.
[6] 趙冬斌, 邵坤, 朱圓恒, 等. 深度強化學習綜述:兼論計算機圍棋的發(fā)展[J]. 控制理論與應用, 2016, 33(6):701-717. [Zhao Dong-bin, Shao Kun, Zhu Yuan-heng, et al. Review of deep reinforcement learning and discussions on the development of computer go[J]. Control Theory and Applications, 2016, 33(6):701-717.]
[7] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540):529.
[8] Silver D, Huang A, Maddison C J, et al. Mastering the game ofgo with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484.
[9] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. Computer Science, 2015, 8(6): 187-200.
[10] Valasek J, Tandale M D, Rong J. A reinforcement learning-adaptive control architecture for morphing[J]. Journal of Aerospace Computing Information amp; Communication, 2005, 2(4): 174-195.
[11] Valasek J, Doebbler J, Tandale M D, et al. Improved adaptive-reinforcement learning control for morphing unmanned air vehicles[J]. IEEE Transactions on Systems Man amp; Cybernetics Part B, 2013, 38(4): 1014-1020.
[12] Duryea E, Ganger M, Hu W. Exploringdeep reinforcement learning with multi-Q-learning[J]. Intelligent Control and Automation, 2016, 7(4): 129-144.
DeepReinforcementLearningandItsApplicationonAutonomousShapeOptimizationforMorphingAircrafts
WEN Nuan, LIU Zheng-hua, ZHU Ling-pu, SUN Yang
(School of Automation Science and Electrical Engineering, Beihang University, Beijing 100191, China)
This paper considers a class of simplified morphing aircraft and autonomous shape optimization for aircraft based on deep reinforcement learning is researched. Firstly, based on the model of an abstract morphing aircraft, the dynamic equation of shape and the optimal shape functions are derived. Then, by combining deep learning and reinforcement learning of deterministic policy gradient, we give the learning procedure of deep deterministic policy gradient(DDPG).After learning and training for the deep network, the aircraft is equipped with higher autonomy and environmental adaptability, which will improve its adaptability, aggressivity and survivability in the battlefield. Simulation results demonstrate that the convergence speed of learning is relatively fast, and the optimized aerodynamic shape can be obtained autonomously during the whole flight by using the trained deep network parameters.
Morphing aircrafts;Deep reinforcement learning;Aerodynamic shape optimization
V249.1
A
1000-1328(2017)11- 1153- 07
10.3873/j.issn.1000- 1328.2017.11.003
2017- 06- 20;
2017- 09- 13
國家自然科學基金(61305132,61563041);航空科學基金(20135751040)
溫暖(1988-),男,博士生,主要從事智能變體飛行器的控制研究。
通信地址:北京航空航天大學新主樓(100083)
電話:(010)82338658
E-mail: max_buaa3@163.com
劉正華(1974-),男,博士,副教授,主要從事飛行器控制,系統(tǒng)仿真,高精度運動控制等方向的研究。本文通信作者。
通信地址:北京航空航天大學新主樓(100083)
電話:(010)82338658
E-mail: lzh@buaa.edu.cn