高昂,董志明,葉紅兵,宋敬華,郭齊勝
(1.陸軍裝甲兵學院 演訓中心,北京 100072;2.湘南學院,湖南 郴州 423099)
按照全域機動,全域力量投送,創(chuàng)造領(lǐng)域優(yōu)勢,確保行動自由的“多域戰(zhàn)”作戰(zhàn)理念,巡飛彈這種飛航式智能彈藥成為軍事領(lǐng)域的重要發(fā)展方向[1-3]。巡飛彈如何在動態(tài)對抗環(huán)境中有效規(guī)避威脅、提高生存力是其執(zhí)行作戰(zhàn)任務(wù)成功與否的關(guān)鍵[4-5]。目前,巡飛彈航跡規(guī)劃方法主要分為基于知識、推理、規(guī)劃,仿生優(yōu)化,學習3類方法[6]。第1類方法缺乏探索及發(fā)現(xiàn)框架之外新知識能力;第2類方法適用于求解旅行商這類靜態(tài)環(huán)境下的路徑規(guī)劃問題,難以應(yīng)用于動態(tài)對抗、決策實時性要求較高的環(huán)境;深度強化學習(DRL)屬于第3類方法,DRL可以突破專家先驗知識的限制,直接從高維戰(zhàn)場空間中感知信息,并通過與環(huán)境不斷交互優(yōu)化模型。目前,采用DRL方法進行飛行器航跡規(guī)劃的工作并不多。文獻[7]在航跡終端約束條件下,基于DRL實現(xiàn)無人機從終端附近任意位置向目標點自主機動;文獻[8]在城市環(huán)境中,基于DRL實現(xiàn)無人機從靜態(tài)障礙物中通過,并到達指定目標區(qū)域。盡管飛行器控制在自主化方面已經(jīng)取得了一定進展,但上述方法仍需要在更復(fù)雜的環(huán)境下進行進一步測試,例如動態(tài)環(huán)境中的航跡規(guī)劃對飛行器來說仍然具有挑戰(zhàn)性。本文考慮了存在潛在敵人威脅條件下,飛行器自主航跡規(guī)劃問題,其難點在于飛行器在完成任務(wù)之前,并不知道威脅的數(shù)量、位置、策略,因此,必須學習一個合適的策略來對動態(tài)環(huán)境做出反應(yīng)。具體來說,假設(shè)敵人的地空導彈雷達能夠探測到一定范圍內(nèi)的巡飛彈,并能夠影響巡飛彈在一定空間內(nèi)的生存概率,因此巡飛彈必須學會在保證其自身不被摧毀的前提下完成突防任務(wù)。
巡飛彈的作戰(zhàn)運用方式為,當其收到控制平臺發(fā)出的敵目標信息后,會繞過威脅區(qū)域,選擇高效飛行搜尋路線,對固定目標實施打擊。本節(jié)將巡飛彈機動突防建模為馬爾可夫決策過程(MDP),建立巡飛彈飛行運動模型,設(shè)計巡飛彈狀態(tài)空間、動作空間、獎勵函數(shù)。MDP可由元組(S,A,P,R,γ)描述,S表示有限狀態(tài)集;A表示有限動作集;P=P(st+1|st,a)表示狀態(tài)st下,采取動作a后,轉(zhuǎn)移到下一狀態(tài)st+1的概率,t為仿真時間;巡飛彈在與環(huán)境交互過程中,在每個時間步長內(nèi),根據(jù)狀態(tài)st執(zhí)行動作a,通過與環(huán)境交互,生成下一時間步長的狀態(tài)st+1;R(s,a)表示狀態(tài)s下采取動作a獲得的累積獎勵,r(s,a)表示狀態(tài)s下采取動作a獲得的即時獎勵;γ為折扣因子,用來計算累積獎勵E.定義狀態(tài)值函數(shù)vπ(s)和狀態(tài)- 行為值函數(shù)qπ(s,a)分別如(1)式和(2)式。
(1)
式中:k為仿真時間間隔;vπ(s)能夠衡量策略π下狀態(tài)s有多好。相應(yīng)地,狀態(tài)- 行為值函數(shù)定義為
(2)
由上述可以看出,qπ(s,a)衡量的是采用策略π時,在狀態(tài)s下采取動作a有多好。
巡飛彈的空間質(zhì)心運動采用3自由度質(zhì)點運動模型[9-10],假設(shè)巡飛彈發(fā)動機推力和速度方向一致,采用北東地大地坐標系,建立巡飛彈質(zhì)點動力學運動模型fm(t)如(3)式所示,系統(tǒng)轉(zhuǎn)移概率P(·|s,a)=1.
(3)
式中:x、y、z表示大地坐標系下坐標分量;v表示速度矢量;vx、vy、vz分別表示巡飛彈在x軸、y軸、z軸3個方向的分量速度;g表示重力加速度;β、φ、φ分別表示航跡傾角、航向角、滾轉(zhuǎn)角;nx、nz分別表示巡飛彈切向過載和法向過載。
假設(shè)巡飛彈在Oxy平面以固定速度v高速突防,則控制巡飛彈航跡傾角β=0°,滾轉(zhuǎn)角φ=0°,運動模型簡化為
(4)
圖1 巡飛彈飛行航跡示意圖Fig.1 Schematic diagram of flight path of loitering munition
(5)
式中:α=x(t)-xg,β=y(t)-yg;xg、yg分別為目標區(qū)域中心點的經(jīng)度、緯度坐標。
根據(jù)巡飛彈飛行運動模型控制量的定義,飛行動作空間定義如 (6) 式所示。
Af={Δφ},Δφ=φ(t)-φ(t-1),
-φmax<Δφ<φmax,
(6)
式中:Δφ表示兩個相鄰仿真時間步長間航向角的改變量。設(shè)置巡飛彈作戰(zhàn)條令與交戰(zhàn)規(guī)則如圖2所示,主要為巡飛彈可接戰(zhàn)臨機出現(xiàn)目標,武器控制狀態(tài)為對地自由開火,即發(fā)現(xiàn)目標即摧毀,開火動作不受算法控制。
圖2 巡飛彈作戰(zhàn)條令與交戰(zhàn)規(guī)則設(shè)置Fig.2 Doctrine and engagement rules of loitering munition
巡飛彈的突防目的是機動到目標地域執(zhí)行任務(wù),設(shè)巡飛彈完成突防控制任務(wù)的條件,如(7)式所示。
(7)
式中:在巡飛彈初始發(fā)射時刻,t=0 s,t為離散值,以1 s為1個仿真時間步長;maxt為每輪訓練最大仿真時間;d(t)表示t時刻,巡飛彈與目標區(qū)域中心位置AT的距離;l表示巡飛彈的探測半徑。目標區(qū)域的范圍是以目標點AT為圓心,以l為半徑的圓形區(qū)域,如圖3所示。根據(jù)巡飛彈突防控制任務(wù)完成的條件,設(shè)計巡飛彈突防控制評價函數(shù),如(8)式所示。
圖3 巡飛彈突防場景幾何關(guān)系示意圖Fig.3 Schematic diagram of geometric relationship of loitering munition penetration scene
(8)
(9)
強化學習是在給定的MDP中尋找最優(yōu)策略π*(a|s)=P(at=a|st=s)的過程。DRL主要是在給出狀態(tài)s和qπ(s,a),或s和vπ(s)的值后,可以借助深度神經(jīng)網(wǎng)絡(luò)(DNN)較強的擬合能力,通過模型實現(xiàn)s→qπ(s,a)或s→vπ(s,a)的映射關(guān)系。
DRL基本可分為基于策略梯度(PG)與基于值函數(shù)兩類,基于PG的DRL夠直接優(yōu)化策略的期望總獎勵值并在策略空間搜索最優(yōu)策略,適用范圍更廣[12-13],因此,本節(jié)基于PG設(shè)計算法框架。
圖4 巡飛彈決策網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of loitering munition penetration decision
巡飛彈在戰(zhàn)場環(huán)境中的狀態(tài)、動作、獎勵值探索軌跡τ可描述為
τ={s1,a1,r1,s2,a2,r2,…,st,at,rt,st+1,
at+1,rt+1,…,sT,aT,rT},
式中:st、at、tt分別為仿真時間,巡飛彈的狀態(tài)、動作、獎勵值;t=1,2,3,…,T,T為仿真終止時間。
如圖5所示,τ發(fā)生的概率為
圖5 巡飛彈探索軌跡示意圖Fig.5 Schematic diagram of loitering munition exploration trajectory
(10)
因此,在巡飛彈的突防策略為π情況下,所能獲得的期望獎勵為
(11)
本節(jié)期望通過調(diào)整巡飛彈的突防策略π,使得期望獎勵最大,于是對期望函數(shù)使用梯度提升方法更新巡飛彈策略網(wǎng)絡(luò)參數(shù)θ,求解過程如下:
(12)
式中:N表示仿真的最大經(jīng)驗序列數(shù);Tn表示第n經(jīng)驗序列的仿真終止時間。
利用該梯度調(diào)整策略參數(shù)θ,如 (13) 式:
(13)
式中:η為學習率。
(14)
因此,采用Q函數(shù)來估算R的期望值,同時,創(chuàng)建一個評價網(wǎng)絡(luò)來計算Q函數(shù)值。為提升巡飛彈突防學習效率,設(shè)計巡飛彈評價網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,輸入層為t時刻巡飛彈狀態(tài)空間、動作值,輸出為Q函數(shù)值。
圖6 巡飛彈評價網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Network structure of loitering munition evaluation
此時,巡飛彈策略網(wǎng)絡(luò)的參數(shù)梯度變?yōu)?/p>
(15)
巡飛彈評價網(wǎng)絡(luò)根據(jù)估計的Q值和實際Q值的平方誤差進行更新,對評價網(wǎng)絡(luò)來說,其損失值為
(16)
設(shè)計巡飛彈突防控制決策算法框架設(shè)計如圖7所示。
圖7 巡飛彈突防控制決策算法框架Fig.7 Algorithm framework of loitering munition penetration control
以上為基于演員- 評論家(AC)的DRL框架建模,屬于PG方法類,但可以進行單步更新,比傳統(tǒng)PG效率更高。
深度確定性策略梯度(DDPG)是AC框架下的算法[14],但融合了DQN的優(yōu)勢,提高了AC的穩(wěn)定性、收斂性,其流程示意圖8[15]所示。圖8中:s′、a′分別表示更新后的狀態(tài)值、動作值。
圖8 DDPG算法流程圖Fig.8 Flow chart of DDPG algorithm
根據(jù)上述流程,基于DDPG的巡飛彈突防控制決策算法訓練流程如表1所示。
表1 巡飛彈突防控制決策算法訓練流程Tab.1 Training process of loitering munition penetration control algorithm
巡飛彈突防控制決策算法流程訓練完畢后,得到最優(yōu)決策網(wǎng)絡(luò)μ(s|θμ),直接使用μ(s|θμ)輸出作為決策結(jié)果,即a=μ(s|θμ),s∈S.
圖9所示為巡飛彈突防敵地空導彈防御陣地,到某地域?qū)嵤皵厥住毙袆臃抡鎸嶒灐?/p>
圖9 巡飛彈突防想定示意圖Fig.9 Schematic diagram of loitering munition penetration scenario
實驗場景主要對巡飛彈及3個地空導彈陣地的初始位置,以及與巡飛彈突防相關(guān)的紅方和藍方主要武器性能參數(shù)進行了設(shè)置。由表2可知:地空導彈的火力射程為6.0~7.6 km,巡飛彈的飛行高度為3.658 km,當巡飛彈進入地空導彈火力范圍時,即進入威脅區(qū)域;巡飛彈的偵察距離為10 km,地空導彈的火力范圍為10 km,當巡飛彈距地空導彈陣地發(fā)射點10 km時,會相互探測到對方的位置坐標。導彈的爬升速度為323 m/s,爬升至巡飛彈的飛行高度需要約11.3 s時間,此時,巡飛彈以250 km/h速度可機動約785 m. 由于導彈的巡航速度為2 185 km/h,遠大于巡飛彈的機動速度,因此,在導彈爬升至巡飛彈飛行高度前,巡飛彈如果沒有規(guī)避到地空導彈陣地火力范圍以外,就會面臨被摧毀的危險;目標區(qū)域設(shè)置為:以目標點坐標為圓心,巡飛彈偵察距離為半徑圓形區(qū)域,是因為這里假定巡飛彈進入該區(qū)域,即可在一定探測時間發(fā)現(xiàn)目標,并自動鎖定將其摧毀。
表2 實驗場景及主要武器性能參數(shù)設(shè)置表Tab.2 Experimental scene and weapon performance parameter setting
實驗軟件環(huán)境:ubuntu18.04+pytorch. 硬件環(huán)境:Intel core i7+GeForce GTX 1060Ti+64G. actor、critic神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別采用2層、3層隱藏層的全連接神經(jīng)網(wǎng)絡(luò),隱藏單元數(shù)分別為(256,128)、(256,128,64),并使用relu激活函數(shù)。網(wǎng)絡(luò)主要超參數(shù)設(shè)置:actor、critic網(wǎng)絡(luò)學習率η=0.001,折扣因子Γ=0.99,目標網(wǎng)絡(luò)更新系數(shù)τ=0.001,經(jīng)驗回放池容量D=100 000,當經(jīng)驗回放池數(shù)據(jù)達到scale=10 000規(guī)模時,開始采用更新策略網(wǎng)絡(luò),采樣數(shù)據(jù)規(guī)模batchsize=1 000,探索噪聲ε=0.2.
圖10 訓練數(shù)據(jù)統(tǒng)計圖Fig.10 Statistical graph of training data
圖11(a)為巡飛彈評價網(wǎng)絡(luò)損失函數(shù)值曲線,由評價網(wǎng)絡(luò)損失值函數(shù)(16)式可知:橫坐標為訓練周期;縱坐標為目標評價網(wǎng)絡(luò)與主評價網(wǎng)絡(luò)對巡飛彈狀態(tài)- 動作值的估計在每個訓練周期內(nèi)的累積偏差,即損失值。本文以1 s為仿真時間步長,巡飛彈在每個時間步長內(nèi)與環(huán)境交互采集一次數(shù)據(jù),當經(jīng)驗回放池數(shù)據(jù)量達到規(guī)模scale=10 000之后,每batchsize=1 000條經(jīng)驗數(shù)據(jù)根據(jù)(16)式計算一次損失函數(shù)值,從圖11(a)中可以看出,評價網(wǎng)絡(luò)的損失值隨訓練進行不斷減小,并趨近于0,這說明評價網(wǎng)絡(luò)對巡飛彈狀態(tài)- 動作的估計值趨于準確。圖11(b)為巡飛彈策略網(wǎng)絡(luò)訓練目標變化圖,橫坐標為訓練周期,縱坐標為策略網(wǎng)絡(luò)在每次訓練時目標,巡飛彈根據(jù)(21)式更新訓練目標網(wǎng)絡(luò)。從圖11(b)中可以看出,策略網(wǎng)絡(luò)訓練目標隨訓練進行,逐漸維持在一個較小的值,說明巡飛彈突防控制策略在逐步優(yōu)化并趨于穩(wěn)定。
圖11 巡飛彈突防控制決策模型最優(yōu)策略求解過程Fig.11 Process of solving the optimal policy of loitering munition penetration control decision model
統(tǒng)計巡飛彈每訓練M輪的平均獎勵值,即
(21)
表3 巡飛彈突防平均獎勵值統(tǒng)計Tab.3 Average reward values of loitering munition penetration
訓練完成后,取Ne=3 500的巡飛彈策略模型π3 500進行1 000次突防仿真測試,數(shù)據(jù)統(tǒng)計結(jié)果如圖12所示。
圖12 巡飛彈突防仿真測試數(shù)據(jù)統(tǒng)計Fig.12 Data statistics of penetration simulation test for loitering munition
巡飛彈決策控制模型測試統(tǒng)計結(jié)果如表4所示,1 000次突防仿真測試實驗,共成功突防821次,成功率為82.1%,平均決策時間1.48 ms,滿足巡飛彈控制決策指標要求。
表4 決策控制模型測試統(tǒng)計結(jié)果Tab.4 Statistical results of decision control model test
從1 000次突防仿真測試實驗中,選擇3組具有代表性的巡飛彈突防軌跡樣例,如圖13所示。巡飛彈的初始位置在圖13中綠色圓形區(qū)域內(nèi)隨機初始化,進而反應(yīng)訓練結(jié)果在該發(fā)射區(qū)域的泛化性能。目標區(qū)域為圖13中橙色圓形區(qū)域,巡飛彈進入該區(qū)域成功摧毀目標,即為成功完成突防任務(wù)。圖13中藍色區(qū)域為地空導彈威脅區(qū)域,巡飛彈實施突防任務(wù)時需要即時調(diào)整突防路線,避開威脅區(qū)域。從圖13中可以看出有紅、綠、藍3條不同顏色的巡飛彈突防軌跡,分別記為1號、2號、3號突防路線。
圖13 巡飛彈突防仿真測試軌跡樣例Fig.13 Sample trajectories of loitering munition in penetration simulation test
圖14 巡飛彈突防仿真測試獎勵值曲線Fig.14 Reward curves of loitering munition in penetration simulation test
圖15為巡飛彈動作控制參數(shù)變化曲線,結(jié)合圖13可知:在1號突防路線中,巡飛彈在突破威脅區(qū)之前,Δφ>0 rad,并且Δφ逐漸增大,后逐漸減小,實現(xiàn)向東平穩(wěn)轉(zhuǎn)向;巡飛彈臨近威脅區(qū)域,Δφ減小至0 rad,并且隨著距離的進一步臨近,Δφ繼續(xù)減小,實現(xiàn)向西平穩(wěn)轉(zhuǎn)向,從而在威脅區(qū)西側(cè)邊緣繞過;巡飛彈突破威脅區(qū)域,Δφ逐漸增大至大于0 rad,實現(xiàn)向東平穩(wěn)轉(zhuǎn)向之后,始終控制航向與任務(wù)方向保持一致,機動至目標區(qū),實現(xiàn)突防。
圖15 巡飛彈動作控制參數(shù)變化曲線Fig.15 Sample diagram of penetration trajectories
在2號突防路線中,巡飛彈在突破威脅區(qū)前,Δφ>0 rad,進而向東機動至臨近威脅區(qū)域,隨后控制航向與任務(wù)方向保持一致;Δφ在沒有大的變動情況下,始終朝目標區(qū)域方向機動,從防御體系漏洞突破威脅區(qū),實現(xiàn)突防。
在3號突防路線中,Δφ的變動范圍較大,特別是在即將進入威脅區(qū)時,Δφ>0 rad持續(xù)增大,后持續(xù)減小至Δφ<0 rad,從而在威脅區(qū)東側(cè)邊緣繞過;在突破威脅區(qū)后,又調(diào)整Δφ,向目標區(qū)域機動,實現(xiàn)突防。
綜上所述,3組具有代表性的突防仿真樣例中,巡飛彈均能從發(fā)射區(qū)域的任意位置機動至目標區(qū)域,并將目標摧毀,決策網(wǎng)絡(luò)具有較好的泛化能力,獎勵值均層指數(shù)級增長。由此可以看出,本文所提模型可有效實現(xiàn)巡飛彈突防控制決策,在一定程度上提高了巡飛彈的自主性。
本文針對巡飛彈動態(tài)突防控制決策問題,采用MDP描述了巡飛彈飛行運動模型,設(shè)計了飛行狀態(tài)空間、動作空間、獎勵函數(shù)等,提出基于DRL的LMPCD模型及其求解方法。仿真實驗結(jié)果表明,巡飛彈在動態(tài)對抗環(huán)境中,能夠?qū)崿F(xiàn)自主突防,證明了模型及求解方法的有效性。該方法可為預(yù)測“藍軍”巡飛彈突防路線提供了技術(shù)借鑒,以及該方法以實際武器裝備可獲取的數(shù)據(jù)為輸入,對下一步在真實環(huán)境中應(yīng)用具有重要軍事意義。
參考文獻(References)
[1] 龐艷珂,韓磊,張民權(quán),等.攻擊型巡飛彈技術(shù)現(xiàn)狀及發(fā)展趨勢[J].兵工學報,2010,31(增刊2):149-152.
PANG Y K,HAN L,ZHANG M Q,et al.Status and development trends of loitering attack missiles [J].Acta Armamentarii,2010,31(S2):149-152.(in Chinese)
[2] 郭美芳,范寧軍,袁志華.巡飛彈戰(zhàn)場運用策略[J].兵工學報,2006,27(5):944-947.
GUO M F,FAN N J,YUAN Z H.Battlefield operational strategy of loitering munition [J].Acta Armamentarii,2006,27(5):944-947.(in Chinese)
[3] 劉楊,王華,王昊宇.巡飛彈發(fā)展背后的作戰(zhàn)理論與概念支撐[J].飛航導彈,2018 (10):51-55.
LIU Y,WANG H,WANG H Y.Operational theory and conceptual support behind the development of loitering munition [J].Aero-dynamic Missile Journal,2018 (10):51-55.(in Chinese)
[4] 郝峰,張棟,唐碩,等.基于改進RRT算法的巡飛彈快速航跡規(guī)劃方法[J].飛行力學,2019,37(3):58-63.
HAO F,ZHANG D,TANG S,et al.A rapid route planning me-thod of loitering munitions based on improved RRT algorithm [J].Flight Mechanics,2019,37(3):58-63.(in Chinese)
[5] 歐繼洲,黃波.巡飛彈在陸上無人作戰(zhàn)體系中的應(yīng)用初探[J].飛航導彈,2019(5):20-24.
OU J Z ,HUANG B.Application of loitering munition in land unmanned combat system [J].Aerodynamic Missile Journal,2019(5):20-24.(in Chinese)
[6] 王瓊,劉美萬,任偉建,等.無人機航跡規(guī)劃常用算法綜述[J].吉林大學學報(信息科學版),2019,37(1):58-67.
WANG Q,LIU M W,REN W J,et al.Overview of common algorithms for UAV path planning [J].Journal of Jilin University (Information Science Edition),2019,37(1):58-67.(in Chinese)
[7] 張堃,李珂,時昊天,等.基于深度強化學習的UAV航路自主引導機動控制決策算法[J].系統(tǒng)工程與電子技術(shù),2020,42(7):1567-1574.
ZHANG K,LI K,SHI H T,et al.Autonomous guidance maneuver control and decision-making algorithm based on deep reinforcement learning UAV route [J].Journal of Systems Engineering and Electronics,2020,42(7):1567-1574.(in Chinese)
[8] Bouhamed O,Ghazzai H,Besbes H,et al.Autonomous UAV navigation:a DDPG-based deep reinforcement learning approach[EB/OL].[2020-07-11].http:∥arxiv.org/pdf/1509.02971.pdf.
[9] 張建生.國外巡飛彈發(fā)展概述[J].飛航導彈,2015(6):19-26.
ZHANG J S.Overview of foreign cruise missile development [J].Aerodynamic Missile Journal,2015 (6):19-26.(in Chinese)
[10] 李增彥,李小民,劉秋生.風場環(huán)境下的巡飛彈航跡跟蹤運動補償算法[J].兵工學報,2016,37(12):2377-2384.
LI Z Y,LI X M,LIU Q S.Trajectory tracking algorithm for motion compensation of loitering munition under wind environment [J].Acta Armamentarii,2016,37(12):2377-2384.(in Chinese)
[11] 黎珍惜,黎家勛.基于經(jīng)緯度快速計算兩點間距離及測量誤差[J].測繪與空間地理信息,2013,36(11):235-237.
LI Z X,LI J X.Quickly calculate the distance between two points and measurement error based on latitude and longitude[J].Geomatics &Spatial Information Technology,2013,36(11):235-237.
[12] 劉建偉,高峰,羅雄麟.基于值函數(shù)和策略梯度的深度強化學習綜述[J].計算機學報,2019,42(6):1406-1438.
LIU J W,GAO F,LUO X L.A review of deep reinforcement learning based on value function and strategy gradient [J].Chinese Journal of Computers,2019,42(6):1406-1438.(in Chinese)
[13] 劉全,翟建偉,章宗長.深度強化學習綜述[J].計算機學報,2018,41(1):1-27.
LIU Q,ZHAI J W,ZHANG Z C.A survey on deep reinforcement learning [J].Chinese Journal of Computers,2018,41(1):1-27.(in Chinese)
[14] KONDA V R,TSITSIKLIS J N.Actor-Critic algorithms[C]∥Proceedings of Advances in Neural Information Processing Systems.Denver,CO,US:NIPS Foundation,2000:1008-1014.
[15] LILLICRAP T P,HUNT J J,PRITZEL A,et al.Continuous control with deep reinforcement learning[EB/OL].[2020-07-11].http:∥arxiv.org/pdf/1509.02971.pdf.