楊清清, 高盈盈, 郭 玙, 夏博遠, 楊克巍
(國防科技大學系統(tǒng)工程學院, 湖南 長沙 410073)
海戰(zhàn)場越來越成為大國軍事對抗的主戰(zhàn)場,海戰(zhàn)場目標搜尋是海上作戰(zhàn)的重要構成要素,是待救軍事人員的最后一道希望,隨著以人為本理念的深入,海上搜救問題得到越來越多的關注。當遇險目標位置不明時,須進行海上搜尋。海上搜尋在整個搜救過程中是最昂貴、最危險和最復雜的部分,也是發(fā)現(xiàn)和救助遇險目標的唯一途徑。海戰(zhàn)場搜救行動成功與否的關鍵在于搜尋預案的制定,目前實際搜救過程中搜尋方案的制定過多依賴于主觀決策者的主觀判斷和歷史的經驗指導,行動的組織存在一定的盲目性,搜尋任務規(guī)劃缺乏系統(tǒng)性。因此,研究定量化的搜尋預案設計方法與技術,建立科學、高效、易實施的海戰(zhàn)場搜尋方法至關重要。
在調研過程中發(fā)現(xiàn),海戰(zhàn)場待搜尋目標具有存活時間短、待搜尋區(qū)域廣、探測概率低、漂流軌跡難以預測等特征,要求目標搜尋規(guī)劃方法必須能夠快速響應,且支持實時規(guī)劃。但是當前我國海戰(zhàn)場目標搜尋能力距離國際先進水平尚有一定差距。在實際搜救過程中,針對未知位置的海上目標搜尋問題,大多仍然采用機械的覆蓋搜尋方法,效率較低,且難以準確量化實時調整搜尋方案。在研究方面,傳統(tǒng)的目標搜尋規(guī)劃求解方法,如精確優(yōu)化算法、啟發(fā)式算法、元啟發(fā)式算法等只能針對明確的搜尋場景進行求解,而無法應對搜尋態(tài)勢實時變化的情形。且由于無人機的快速發(fā)展,傳統(tǒng)搜尋模式和研究方法均不太適用于基于無人機的靈活多變的搜尋模式需求。而強化學習是一種不斷與環(huán)境交互反饋,調整自身策略以應對環(huán)境變化的動態(tài)規(guī)劃方法,得到了多種實際場景的應用驗證,適用于海戰(zhàn)場目標搜尋路徑規(guī)劃問題的優(yōu)化求解。因此,可結合強化學習等智能方法拓展搜尋方案的制定方法,設計海戰(zhàn)場目標搜尋的快速響應算法,提高搜尋效率,進而提升海上作戰(zhàn)效能。
當前的深度強化學習方法一般分為兩種:價值學習和策略學習。為了能在有限計算條件下,快速獲得較為精確的計算結果,本文將海戰(zhàn)場待搜尋區(qū)域進行網格化處理,同時將搜尋主體的動作空間離散化,縮小決策空間,適用于采用基于價值的學習方法?;趦r值的深度強化學習方法代表性算法是深度Q網絡(deep Q-network,DQN)算法。
然而,DQN基于使用單個價值網絡的訓練效率較低,且完整的分布信息很大程度上被丟失。為了解決DQN算法本身存在的不足,后續(xù)研究者對其進行了大量改進,如優(yōu)先Q網絡、雙Q網絡、競爭Q網絡結構等。近年,也有學者提出分布式Q學習算法、噪聲網絡結構。但是以上這些算法都可以在某個方面提升DQN的性能,而且都是基于同一個網絡框架。Hessel等將上述所有方法進行整合,提出通用性很強的Rainbow算法,引入多步學習機制,可以在訓練前期更準確地估計目標價值以加快訓練速度,在學習效率和學習效果上都優(yōu)于其他算法。
本文面向海戰(zhàn)場目標搜尋規(guī)劃問題,考慮問題的快速響應和實時規(guī)劃要求,構建了具有典型海戰(zhàn)場搜救場景特征的搜尋模型,研究基于深度強化學習的規(guī)劃方法,旨在實現(xiàn)搜尋規(guī)劃的實時性、高效性和精確性,為提升我國海戰(zhàn)場目標搜尋成功率提供先進方法參考與算法支撐。
首先,構建海上搜尋地圖維護模型,對搜尋環(huán)境進行形式化描述,并對搜尋概率更新機制進行建模。基于搜尋理論和搜尋代價進行目標函數(shù)建模。通過構建以上數(shù)學模型,量化搜尋過程中的任務進展程度和目標滿足程度。本文考慮無人機的快速響應能力、廣域搜尋能力、長距通信能力等優(yōu)勢,假設其為海戰(zhàn)場目標搜尋的主要設備。
將任務區(qū)域E劃分成×個網格,如圖1所示。每個網格都是獨立的,將每個網格的中心點坐標作為該網格的位置坐標。假設初始先驗信息已知,每個柵格(,)賦予一定的目標包含概率(probability of contain, POC)初始值,即目標存在于該柵格的概率,(,)的取值范圍為∈{1,2,…,},∈{1,2,…,}。
圖1 搜尋地圖形式化描述示意圖Fig.1 Search map formal description schematic
本文假定待搜尋區(qū)域100%包含失事目標,因此整個待搜尋區(qū)域的POC為1。假設初始先驗信息已知,且已進行歸一化處理,即滿足:
(1)
待搜尋目標的漂流軌跡預測是海上搜救的一個重要研究方向,在實際搜尋過程中,每個柵格的目標存在概率會隨著海流、海浪、潮汐等影響因素的改變而變化,實時獲取POC矩陣需要結合海上部署傳感器、氣象衛(wèi)星等多源信息的處理,計算復雜度較高。本文重點驗證算法的適用性和有效性,簡化了實時變化因素。為了降低計算復雜性,僅考慮搜尋行動對目標存在概率值所產生的后驗影響,忽略海洋環(huán)境因素的影響。
若無人機在一定時間內完成了對待搜尋區(qū)域的搜尋任務后沒有發(fā)現(xiàn)遇險目標,則需要更新待搜尋區(qū)域的POC矩陣,并建立下一時刻的目標存在概率模型。目標存在于子區(qū)域(,)內的先驗概率為,則在(,)中搜尋到目標的概率()表示為
(2)
當目標類型和無人機搜尋方式固定時,搜尋目標發(fā)現(xiàn)概率(probability of detection, POD)函數(shù)相對固定。假設無人機在柵格內執(zhí)行搜尋任務,滿足Koopman的3個隨機搜尋條件,則可得無人機的目標探測概率函數(shù)為
POD(,)=1-e-=1-e-
(3)
式中:為無人機的飛行速度;為無人機的飛行時間;為無人機在時間內搜尋航行的總路程;為無人機的探測寬度即掃海寬度;為搜尋柵格單元的面積;為搜尋單元數(shù)(=1,2,…,)。式(3)中,掃海寬度是經過大量的搜救實驗以及通過對歷史搜救案例的總結得出的,一般情況下,可以通過查表得出。
(1) 當(,)被搜索過,但沒有發(fā)現(xiàn)目標,則目標仍舊存在于(,)的概率為
(4)
常規(guī)的海戰(zhàn)場目標搜尋方式僅確定待搜尋區(qū)域,再利用平行線等固定搜尋模式來規(guī)劃搜尋路徑,導致搜尋成功率(probability of success, POS)較低。為此,有必要以目標存在概率模型為基礎,在待搜尋區(qū)域E內規(guī)劃搜尋路徑。
因此,海戰(zhàn)場目標搜尋的規(guī)劃模型即為:在無人機有限的航程內,對無人機的搜尋路徑方案進行規(guī)劃,以最大化目標發(fā)現(xiàn)的POS,如下所示:
s.t. length()<
(5)
式中:(,)為無人機是否搜尋子區(qū)域(,),若是則為1,否則為0;length()<表示無人機搜尋路徑長度小于其航程。
海洋監(jiān)測中心通常基于蒙特卡羅隨機粒子法進行漂流模擬得到海上遇險目標的POC矩陣,并利用柵格法將待搜尋海域劃分為若干子海域,構建二維海洋環(huán)境柵格地圖。將目標海域E劃分成×個柵格,將每個網格的中心點坐標作為該網格的位置坐標。假設初始先驗信息已知,賦予每個子區(qū)域(,)一定的初始POC值。每一個單元(,)都有一個屬性值,表示子區(qū)域(,)的狀態(tài)值,()=-1表示時刻以前子區(qū)域(,)已被無人機搜尋過,()=1表示時刻下無人機正處于子區(qū)域(,),()=0表示時刻及以前子區(qū)域(,)均未被搜尋過。
圖2 動作空間Fig.2 Action space
在強化學習過程中,無人機搜尋獲取獎勵值的大小不僅取決于學習算法的優(yōu)劣,也與獎勵函數(shù)的定義密切相關。強化學習算法通過設置獎勵函數(shù)對無人機所做動作進行定量化評價,引導整個無人機的搜尋路徑學習過程。強化學習算法的總體目標是引導無人機獲取最大的累計獎勵值,也就是找到一條由起始點至目標點的最優(yōu)。因此,設計合適的獎勵函數(shù)對于無人機在不同環(huán)境狀態(tài)下的學習效果好壞具有重要意義。
本文針對海上目標搜尋的實際情況,基于最優(yōu)搜尋理論中POC和POS等重要參數(shù)概念設立獎勵機制,并與稀疏獎賞函數(shù)相結合設計碰撞懲罰機制。且在模型訓練過程中獎勵分為兩個部分,一個是針對每個行動的即時獎勵,另一個是針對整個行動回合表現(xiàn)的回合獎勵。
2.3.1 即時獎勵
{,,…,}表示無人機在一個回合(步)中每一步的即時獎勵集合。為盡量避免無人機重復往返同一子海域,設置已搜尋過的海域搜尋效益獎勵為。同時,為避免無人機繞出目標海域或者進入危險區(qū)和障礙區(qū),同樣設置越界懲罰為。隨著搜尋時間的增加,子區(qū)域(,)的將以一定比例(0<<1)逐漸衰減,值在搜尋開始前根據(jù)搜救情況具體設定,設計第步的即時獎勵函數(shù)如下:
(6)
232 獎勵再分配
每個動作的最終獎勵是對應即時獎勵和回合獎勵的加成。由于回合獎勵是整個回合中所有動作的結果,因此利用折扣因子對回合獎勵進行重新分配:+-·,其中為折扣因子。這種折扣計算方式假設越早階段的動作對回合獎勵的貢獻越小,折扣越大,而越靠近回合結束時的階段動作對回合獎勵的貢獻越大,折扣越小。每個動作的最終獎勵是相應即時獎勵和折扣回合獎勵的總和。
2018年,DeepMind在DQN的基礎上提出了一種融合6個改進機制的基于價值的深度強化學習方法:Rainbow。其中融合的改進機制分別為:雙Q網絡、優(yōu)先經驗回放、對決網絡、多步學習、分布式學習、噪聲網絡。Rainbow被證明在多個基準測試中優(yōu)于其他基于價值的深度強化學習算法。因此,本節(jié)采用Rainbow的思想設計海戰(zhàn)場目標搜尋規(guī)劃的深度強化學習算法。
根據(jù)海戰(zhàn)場目標搜尋規(guī)劃問題的參數(shù)信息,設置環(huán)境的當前狀態(tài)包含區(qū)域大小、區(qū)域當前POC矩陣、區(qū)域各柵格是否被搜索過、當前動作、初始位置等信息。為了方便神經網絡輸入,將狀態(tài)信息轉化成張量形式,如表1所示。
表1 狀態(tài)向量規(guī)范化描述Table 1 State vector normalized description
3.2.1 利用噪聲改進原始DQN的神經網絡參數(shù)
假設原網絡的參數(shù)為,針對輸入向量,有:
=(·+)
(7)
式中:是激活函數(shù);是輸出向量。
為了增加神經網絡的隨機性,鼓勵智能體進行更廣泛的探索,一個有效方法是對增加隨機噪聲,即=+°,和分別是神經網絡的均值和標準差,是隨機噪聲,°表示點乘。增加噪聲后的神經網絡被稱為噪聲網絡,其對應的參數(shù)為=(,),參數(shù)數(shù)量比原始DQN多一倍。
3.2.2 利用對決對網絡結構進行改進
對決網絡對原始DQN的最外一層進行了擴展:將原有神經網絡的隱藏層連接到價值和優(yōu)勢兩個獨立部分,然后,將這兩個部分結合起來后全連接到輸出層,如圖3所示。
圖3 對決網絡結構示意圖Fig.3 Schematic diagram of dueling network structure
令對決神經網絡的參數(shù)為,其中價值網絡為,優(yōu)勢網絡為,則最優(yōu)動作價值函數(shù)的對決神經網絡預測定義為
(8)
3.2.3 改原有DQN中神經網絡的值輸出為值分布輸出
在值分布神經網絡中,輸入依舊是一個狀態(tài),輸出則變成一個矩陣,矩陣的一行代表一個動作對應價值的概率分布,如圖4所示。
圖4 值分布網絡結構示意圖Fig.4 Distributional network structure diagram
(9)
經過上述噪聲、對決和值分布3種方法的加成,原DQN的神經網絡參數(shù)就變成2,后續(xù)將以2作為神經網絡的結構進行算法設計。
結合Rainbow算法和DQN基本思想,設計海戰(zhàn)場目標搜尋規(guī)劃深度強化學習算法框架,如圖5所示。
圖5 海戰(zhàn)場目標搜尋規(guī)劃深度強化學習算法框架Fig.5 Deep reinforcement learning algorithm framework for target search planning in naval battle field
具體流程如下。
根據(jù)-greedy策略,從無人機搜尋動空間中選擇一個動作。
產生新的狀態(tài)+1。
若回合沒有結束,獲取環(huán)境輸出的臨時獎勵,若回合結束,獲取環(huán)境輸出的臨時獎勵和回合獎勵。
當回合結束時,重新計算該回合所有動作的獎勵值:
(10)
將[、、+1、]存儲到記憶庫中。
以上步驟是智能體與環(huán)境交互的過程,每經過一定數(shù)量的交互,智能體根據(jù)存儲在記憶庫中的軌跡數(shù)據(jù),對神經網絡進行訓練,如下述步驟所示。
利用優(yōu)先經驗回放策略從記憶庫中采樣數(shù)據(jù)。為記憶庫中的每一條記憶賦予權重,依據(jù)是導致預測值嚴重偏離目標值的那些情況應該是重點關注和訓練的。因此,首先計算預測網絡的預測值和目標網絡的目標值:
(11)
(12)
據(jù)此,計算預測值和目標值的偏離程度:
(13)
然后,計算每條記錄被選中的概率,與偏離程度的絕對值正相關,滿足:
(14)
式中:為一個極小值,避免概率為0。
然后,按照概率從記憶庫中抽樣。
(15)
(16)
(17)
(18)
(19)
式中:是深度神經網絡的學習率。
本文以一次民用漁船海上事故為例,對本文所提算法進行示例研究。2018年6月27日3時許,“碧海159”輪與木質漁船“魯沾漁5186”在渤海灣(38°16′.0N,118°08′.8E)處(套爾河2號浮和3號浮之間水域)發(fā)生碰撞,商船輪艙破損進水,宣布棄船求生,漁船翻扣。商船上有船員23名,漁船上9人。現(xiàn)場西南風4~5級,能見度良好。3:30時,經評估,此險情屬船舶碰撞特大險情,險情指揮由山東省海上搜救中心負責。海事部門和水產漁業(yè)部門投入了大量飛機和船舶開展了聯(lián)合搜尋工作,也協(xié)調了大型過往商船協(xié)助搜救。但是由于失事附近海域的海況開始變得惡劣,成為搜救工作的一大難點。因此,本文擬根據(jù)此案例背景采用所提出的算法調用無人機開展遇險目標搜尋工作。本文的訓練樣本數(shù)據(jù)參考北海預報中心提供的基于漂流預測模型的預測結果樣本特征,隨機生成符合實際目標存在情況的概率密度值。
根據(jù)國家海上搜救環(huán)境保障服務平臺的海洋氣象數(shù)據(jù),獲取在渤海海域該船舶發(fā)橫側翻的事故信息,獲得搜救信息為預測落水人員可能存在于一個15 nmile×20 nmile的連續(xù)海域內。在該海域內負責搜尋任務的無人機的起始位置隨機產生,設置柵格比例為1∶1,即一個單位時間段內,無人機可搜尋范圍為1 nmile。根據(jù)信息安全保密原則,本文將樣本數(shù)據(jù)脫敏后映射為特征相似的概率矩陣,圖6為無人機開始搜尋時構建的POC矩陣熱力圖。
圖6 搜尋區(qū)域POC預測熱力圖Fig.6 POC predictive heat map of search area
圖7為搜救平臺預測得到的落水人員初始POC分布,圖8為歸一化過后的POC分布,分別如下所示。
圖7 搜救場景中預測得到的初始POC矩陣Fig.7 The initial POC matrix predicted in search and rescue scenario
圖8 歸一化后的POC矩陣Fig.8 Normalized POC matrix
設無人機續(xù)航能力為20、30、40步(1步代表1個柵格),分析在不同續(xù)航能力情況下的優(yōu)化結果,算法其他參數(shù)設置如表2所示。
表2 各項實驗參數(shù)設置Table 2 Experimental parameters setting
4.4.1 損失函數(shù)與獎勵函數(shù)曲線
損失函數(shù)曲線是評價算法是否收斂的重要依據(jù),獎勵函數(shù)曲線是評價算法訓練效果的依據(jù)。因此,繪制訓練過程的損失函數(shù)和獎勵函數(shù)曲線圖,分別如圖9和圖10所示。
圖9 不同航程下的損失值曲線Fig.9 Loss value curve under different voyage
圖10 不同航程下的獎勵值曲線Fig.10 Bonus curves under different voyages
為了方便展示,圖9只展示了2 000次訓練的收斂曲線,可以看出,Rainbow算法在不同航程情形下均能夠快速收斂。圖10展示了每100次訓練的平均獎勵值,可以看出,Rainbow算法在10次訓練過程中能夠穩(wěn)步提升訓練效果,訓練前期的提升效果較快,后期提升越來越緩慢。
4.4.2 與其他搜尋模式的對比分析
針對本文所提出的算法,與當前海上搜救實際業(yè)務中常用的平行搜尋模式和基于遺傳算法(genetic algorithm, GA)獲取的近似最優(yōu)搜尋路徑進行對比。在相同的初始位置(1,1)和相同的搜尋環(huán)境下對比搜索效果,如圖11所示。
圖11 不同航程下的測試結果Fig.11 Test results under different voyages
圖11(a)~圖11(c)分別表示3種搜尋模式的累計POC成功率對比,圖11(d)~11(f)分別表示3種搜尋模式的搜尋路徑。從中可以看出,本文所提的智能搜尋模式在30步和40步的情況下效果最優(yōu),在20步情況下,GA的效果最優(yōu)。其原因在于GA的輸入是初始POC矩陣,且在優(yōu)化過程中無法更新,而Rainbow算法每個步驟觀察到的都是最新的POC矩陣,因此能夠在后期搜索期間做出更合理的決策。實驗顯示出深度強化學習算法能夠應對動態(tài)變化的環(huán)境。
圖11(d)~圖11(f)中,藍色箭頭和線條表示基于常規(guī)平行搜尋模式產生的搜尋路徑,綠色箭頭和線條表示基于Rainbow算法產生的搜尋路徑,紅色箭頭和線條表示基于GA產生的搜尋路徑??芍庇^看出,常規(guī)搜尋模式的路徑較為規(guī)則,但無法盡快搜尋到重點海域。相比之下,基于Rainbow和GA的搜尋路徑可使無人機快速覆蓋目標存在概率最大的海域,但GA無法應對動態(tài)變化的環(huán)境要素,在實際應用中面臨環(huán)境變化時往往需要重新進行優(yōu)化,而Rainbow則可以面對動態(tài)環(huán)境進行實時決策。
本文面向海戰(zhàn)場目標搜尋規(guī)劃問題,考慮問題求解的快速響應性和實時動態(tài)性要求,提出一種基于Rainbow深度強化學習算法的海戰(zhàn)場目標搜尋規(guī)劃方法,構建了海戰(zhàn)場目標搜尋規(guī)劃的強化學習模型與深度強化學習算法。案例分析中,驗證了所提算法能夠在經過一定訓練后穩(wěn)定收斂,訓練后的強化學習智能體在各種航程條件下的效果均優(yōu)于常規(guī)平行線搜尋模式。下一步研究應考慮多個多種類型搜尋設備同時進行搜尋的情形,也將考慮更貼合實際海洋搜尋環(huán)境的仿真模型,基于多智能體深度強化學習方法研究海戰(zhàn)場多設備目標搜尋規(guī)劃方法,進一步提升海戰(zhàn)場目標搜尋的成功率和效率。