亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于強(qiáng)化學(xué)習(xí)的海洋移動(dòng)觀測網(wǎng)絡(luò)觀測路徑規(guī)劃方法

2022-02-18 08:12:50趙玉新杜登輝成小會(huì)周迪鄧雄劉延龍

智能系統(tǒng)學(xué)報(bào) 2022年1期

趙玉新，杜登輝，成小會(huì)，周迪，鄧雄，劉延龍

（1.哈爾濱工程大學(xué) 智能科學(xué)與工程學(xué)院, 黑龍江哈爾濱 150001; 2.中國艦船研究設(shè)計(jì)中心, 湖北武漢430064）

海洋環(huán)境觀測在海洋學(xué)中有著至關(guān)重要的作用，對(duì)海洋環(huán)境的觀測是人類認(rèn)識(shí)和開發(fā)海洋的基礎(chǔ)[1]。區(qū)域海洋環(huán)境觀測系統(tǒng)作為全球海洋觀測系統(tǒng)中的重要組成部分，為海洋科學(xué)研究、海洋資源探測以及海洋環(huán)境狀況以及變化趨勢等方面提供了有效的觀測數(shù)據(jù)資料。盡管海洋環(huán)境觀測對(duì)人類生活有著重要的科學(xué)意義和和社會(huì)經(jīng)濟(jì)價(jià)值，但是其依然面臨著巨大的挑戰(zhàn)[2]，如何基于有限的海洋環(huán)境觀測平臺(tái)，構(gòu)建海洋環(huán)境移動(dòng)觀測網(wǎng)絡(luò)，實(shí)現(xiàn)對(duì)區(qū)域海洋環(huán)境的最優(yōu)化觀測，以及如何基于海洋移動(dòng)觀測平臺(tái)獲取的實(shí)時(shí)的海洋環(huán)境觀測數(shù)據(jù)，實(shí)現(xiàn)海洋環(huán)境觀測平臺(tái)的自適應(yīng)路徑優(yōu)化成為當(dāng)前區(qū)域海洋環(huán)境觀測技術(shù)發(fā)展的重要課題[3-4]。

本文將深度強(qiáng)化學(xué)習(xí)算法用于區(qū)域海洋環(huán)境觀測網(wǎng)絡(luò)的觀測方案設(shè)計(jì)。強(qiáng)化學(xué)習(xí)算法是一類學(xué)習(xí)、預(yù)測、決策的方法，通過智能體與環(huán)境的交互，利用試錯(cuò)的方式學(xué)習(xí)最優(yōu)策略[5]。強(qiáng)化學(xué)習(xí)算法已經(jīng)被廣泛應(yīng)用到路徑規(guī)劃中[6-14]，以往的這些工作或?qū)?yōu)化算法結(jié)合強(qiáng)化學(xué)習(xí)，或直接采用和改進(jìn)強(qiáng)化學(xué)習(xí)方法，解決了傳統(tǒng)的針對(duì)避障的路徑規(guī)劃問題。但是區(qū)域海洋觀測網(wǎng)絡(luò)的路徑規(guī)劃不只是針對(duì)避障，其主要目的是通過獲取海洋環(huán)境預(yù)報(bào)數(shù)據(jù)，智能地選擇觀測價(jià)值較大的區(qū)域，針對(duì)這個(gè)問題尚未被提出有效的方法。本文吸收了深度強(qiáng)化學(xué)習(xí)解決路徑規(guī)劃問題的經(jīng)驗(yàn)[15-21]，考慮海洋環(huán)境預(yù)報(bào)數(shù)據(jù)，將海洋環(huán)境自適應(yīng)觀測看成一類序列決策優(yōu)化問題，海洋環(huán)境移動(dòng)觀測平臺(tái)接到指令，通過獲取當(dāng)前復(fù)雜的海洋環(huán)境背景場信息做出下一步?jīng)Q策，實(shí)現(xiàn)復(fù)雜海洋環(huán)境下的最優(yōu)觀測。

1 問題描述

1.1 數(shù)學(xué)模型

區(qū)域海洋環(huán)境移動(dòng)觀測網(wǎng)絡(luò)由移動(dòng)觀測平臺(tái)如無人測量船（unmanned survey vessel，USV）、水下滑翔器(underwater glider)、自主水下航行器(autonomous underwater vehicle, AUV)等組成，觀測的對(duì)象是海洋中一定時(shí)間梯度下溫差變化較大的區(qū)域。本文主要討論無人測量船在海洋中的采樣點(diǎn)觀測路徑規(guī)劃。如圖1所示，USV要從選定的起始點(diǎn)（x1,y1）出發(fā)，對(duì)海洋中的溫差改變較大的區(qū)域進(jìn)行測量，并根據(jù)未知的障礙物實(shí)時(shí)對(duì)USV進(jìn)行操控，避免其碰撞，目標(biāo)就是在約束條件下最大化對(duì)該區(qū)域范圍內(nèi)溫度變化梯度較大的點(diǎn)進(jìn)行采樣。

第i個(gè) U SVi從一個(gè)點(diǎn) (xi,yi)到另一個(gè)點(diǎn)(xi+1,yi+1)的路徑可表示為

式中：θ為USV在第i個(gè)路徑點(diǎn)的航向；vi為USV在第i個(gè)路徑點(diǎn)的速度；t為時(shí)間步長。

USV的海洋環(huán)境探測示意圖如圖1所示。USV在一定方向范圍內(nèi)對(duì)周邊的海洋環(huán)境進(jìn)行探測，探測角度為 αi，探測半徑為R，在該點(diǎn)探測到的采樣點(diǎn)的溫度差為 (ΔTi1,ΔTi2,···,ΔTim)，對(duì)探測到的溫度差進(jìn)行比較，選取溫度差最大的 ΔTij為下一點(diǎn)的采樣點(diǎn)。

圖1 路徑規(guī)劃采樣示意Fig.1 Path planning sampling diagram

所以，對(duì)于該問題，其目標(biāo)函數(shù)為

式中：d為續(xù)航里程約束函數(shù)；vi為速度約束；θ為探測方向角約束；t為時(shí)間步長。

1.2 區(qū)域耦合環(huán)境數(shù)值分析預(yù)報(bào)

在本文中，主要是將海洋環(huán)境要素?cái)?shù)值預(yù)報(bào)信息作為重要參考，對(duì)海洋移動(dòng)觀測網(wǎng)絡(luò)設(shè)計(jì)觀測方案。因此首先需要構(gòu)建一個(gè)海洋環(huán)境數(shù)值預(yù)報(bào)系統(tǒng)，以獲取區(qū)域的海洋環(huán)境數(shù)值預(yù)報(bào)信息。本文選擇在一個(gè)中等復(fù)雜程度的耦合環(huán)流模式(intermediate complex coupled model, ICCM)的基礎(chǔ)上進(jìn)行優(yōu)化調(diào)整，從而獲取更加符合區(qū)域海洋移動(dòng)觀測網(wǎng)絡(luò)路徑規(guī)劃的數(shù)值預(yù)報(bào)信息。由于ICCM本身的水平分辨率較大，這樣大粒度的數(shù)據(jù)很難作為區(qū)域性移動(dòng)觀測網(wǎng)絡(luò)路徑規(guī)劃的參照，因此本文采用一種多層嵌套的方式將耦合模式系統(tǒng)的分辨率由3.75°變?yōu)?.1°，并且采用一種最優(yōu)觀測時(shí)間窗口的耦合數(shù)據(jù)同化方法，構(gòu)建區(qū)域耦合環(huán)境分析預(yù)報(bào)系統(tǒng)。在該系統(tǒng)中，本文選取經(jīng)度為 124.0°~129.0°E、緯度為 16.0°~21.0°N 的范圍獲取時(shí)長為5 d的海表溫度預(yù)報(bào)信息作為海洋移動(dòng)觀測網(wǎng)絡(luò)路徑規(guī)劃依據(jù)。

1.3 深度強(qiáng)化學(xué)習(xí)

深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)是近年來人工智能領(lǐng)域一個(gè)蓬勃發(fā)展的方向，目的是解決計(jì)算機(jī)從感知到?jīng)Q策控制的問題，從而實(shí)現(xiàn)通用人工智能[22]。圖2展示了強(qiáng)化學(xué)習(xí)模型中涉及的基本思想和要素。深度強(qiáng)化學(xué)習(xí)本質(zhì)上是使用深度神經(jīng)網(wǎng)絡(luò)來代替表格作為強(qiáng)化學(xué)習(xí)算法的策略函數(shù)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法(例如Q-learning)采用表格作為策略函數(shù)，表格中的數(shù)值代表每個(gè)狀態(tài)下采取某個(gè)動(dòng)作時(shí)的價(jià)值，智能體通過比較同一個(gè)狀態(tài)下價(jià)值的大小從而選擇合適的動(dòng)作。但是當(dāng)環(huán)境越來越復(fù)雜，狀態(tài)越來越多甚至是連續(xù)的時(shí)候，采用表格的方法實(shí)現(xiàn)決策就越來越困難，而深度神經(jīng)網(wǎng)絡(luò)正好具有強(qiáng)大的擬合能力，所以可以將這個(gè)決策函數(shù)用深度神經(jīng)網(wǎng)絡(luò)來代替，這樣就形成了深度強(qiáng)化學(xué)習(xí)。目前，絕大多數(shù)強(qiáng)化學(xué)習(xí)算法都是使用深度神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)強(qiáng)化學(xué)習(xí)算法中的表格作為策略表示。

圖2 強(qiáng)化學(xué)習(xí)示意Fig.2 Schematic diagram of reinforcement learning

對(duì)于強(qiáng)化學(xué)習(xí)算法的研究，也在不斷地發(fā)展，如圖3所示。Mnih等[23]等將神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)中的Q-Learning算法相結(jié)合，提出了深度Q網(wǎng)絡(luò)（deep Q-network, DQN）模型，該模型用于處理基于視覺感知的控制任務(wù)，開創(chuàng)了深度強(qiáng)化學(xué)習(xí)領(lǐng)域新局面[24]。

圖3 DQN算法圖解Fig.3 DQN algorithm diagram

DQN算法使用均方差更新網(wǎng)絡(luò)權(quán)重來定義目標(biāo)函數(shù)：

DQN有兩個(gè)特質(zhì)：1) 經(jīng)驗(yàn)回收，DQN有一個(gè)經(jīng)驗(yàn)池用來存儲(chǔ)學(xué)習(xí)數(shù)據(jù)，由于DQN是一種離線學(xué)習(xí)方法，所以每次DQN更新的時(shí)候，都可以從記憶庫中隨機(jī)抽取數(shù)據(jù)；2) 目標(biāo)神經(jīng)網(wǎng)絡(luò)，它是一個(gè)結(jié)構(gòu)與Q網(wǎng)絡(luò)完全相同但參數(shù)不同的神經(jīng)網(wǎng)絡(luò)，用于產(chǎn)生目標(biāo)值[25]。

2 設(shè)計(jì)方案

2.1 數(shù)據(jù)預(yù)處理

在本文中，數(shù)據(jù)預(yù)處理主要是指將數(shù)值模式預(yù)報(bào)出的海洋環(huán)境數(shù)據(jù)處理成可被讀取、易于訓(xùn)練的形式。本文針對(duì)的是區(qū)域海洋環(huán)境數(shù)據(jù)，因此主要獲取的是區(qū)域海洋環(huán)境要素場隨時(shí)間變化的數(shù)據(jù)和該區(qū)域的障礙物信息，然后對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)變形、數(shù)據(jù)插值、構(gòu)建時(shí)間梯度場、裁切局部環(huán)境場、構(gòu)建障礙物場等。

首先對(duì)原始數(shù)據(jù)進(jìn)行變形，原始數(shù)據(jù)無法體現(xiàn)出各點(diǎn)之間的相對(duì)位置關(guān)系，對(duì)于路徑規(guī)劃任務(wù)基本沒有意義。因此本文根據(jù)數(shù)據(jù)的坐標(biāo)信息將原始數(shù)據(jù)重整成均勻分布的海洋環(huán)境場數(shù)據(jù)。輸入數(shù)據(jù)不僅要能表征全局的絕對(duì)數(shù)據(jù)，還要能表征海洋環(huán)境要素的時(shí)間梯度和觀測平臺(tái)周圍的局部數(shù)據(jù)，因此分別求取海洋環(huán)境要素場的時(shí)間梯度場和對(duì)全局?jǐn)?shù)據(jù)場進(jìn)行裁切獲得局部海洋環(huán)境要素場；另外，避障約束是路徑規(guī)劃的基本要求，因此輸入數(shù)據(jù)也要能體現(xiàn)該區(qū)域障礙物的位置信息，將障礙物進(jìn)行環(huán)境建模，構(gòu)建區(qū)域障礙物場。其中局部環(huán)境場的裁切如圖4所示。

圖4 局部環(huán)境場的裁切Fig.4 Trimming of local environmental fields

此外，在對(duì)深度強(qiáng)化學(xué)習(xí)算法中的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練的過程中，通常不直接使用源數(shù)據(jù)，而是將數(shù)據(jù)進(jìn)行歸一化處理，由于經(jīng)過上述處理后的數(shù)據(jù)為二維柵格數(shù)據(jù)，因此采用二維數(shù)據(jù)歸一化。在本文中，采用了RankGaussion數(shù)據(jù)標(biāo)準(zhǔn)化方法。在RankGaussion方法中是先將數(shù)據(jù)按照大小進(jìn)行排序，然后再將數(shù)據(jù)標(biāo)準(zhǔn)化為高斯分布，在訓(xùn)練基于梯度的模型(如神經(jīng)網(wǎng)絡(luò))時(shí)使用這種方法能夠加快收斂速度。

2.2 環(huán)境狀態(tài)和動(dòng)作設(shè)計(jì)

強(qiáng)化學(xué)習(xí)的環(huán)境指的是對(duì)現(xiàn)實(shí)環(huán)境反映模式的模擬，或者更一般地說，它允許對(duì)外部環(huán)境的行為進(jìn)行推斷。例如給定一個(gè)狀態(tài)和動(dòng)作，模型就可以預(yù)測下一個(gè)狀態(tài)和收益。除此之外，環(huán)境還能模擬整個(gè)規(guī)劃過程，包括環(huán)境狀態(tài)的重置，環(huán)境數(shù)據(jù)的調(diào)度，環(huán)境的可視化等。環(huán)境對(duì)應(yīng)著我們所要解決的問題的場景，它通過模擬現(xiàn)實(shí)情況進(jìn)行算法的訓(xùn)練。總之環(huán)境就是提供給強(qiáng)化學(xué)習(xí)算法一個(gè)運(yùn)行平臺(tái)，強(qiáng)化學(xué)習(xí)代理通過與環(huán)境進(jìn)行交互獲取狀態(tài)、動(dòng)作、獎(jiǎng)賞等數(shù)據(jù)進(jìn)行訓(xùn)練，環(huán)境則是通過強(qiáng)化學(xué)習(xí)代理產(chǎn)生的策略根據(jù)狀態(tài)得到動(dòng)作，進(jìn)行完整的狀態(tài)迭代過程。

強(qiáng)化學(xué)習(xí)算法中環(huán)境的搭建首先要明確狀態(tài)和動(dòng)作，動(dòng)作即為路徑規(guī)劃過程中的決策，想要通過訓(xùn)練得到期望的動(dòng)作，那么神經(jīng)網(wǎng)絡(luò)的輸入即狀態(tài)必須包含足夠且精準(zhǔn)的環(huán)境信息。考慮到海洋環(huán)境觀測路徑規(guī)劃的目的，于是取狀態(tài)為全局海洋環(huán)境場、局部海洋環(huán)境場和觀測平臺(tái)的位置，如圖5所示。

圖5 環(huán)境狀態(tài)設(shè)計(jì)Fig.5 Environmental state design

環(huán)境動(dòng)作空間的設(shè)計(jì)指定了智能體所能采取的動(dòng)作的范圍，也決定了其所能探索的狀態(tài)空間的最大范圍。一個(gè)好的動(dòng)作空間的設(shè)計(jì)是在探索范圍和訓(xùn)練效率之間的權(quán)衡，既不能將動(dòng)作空間設(shè)計(jì)過于保守，壓縮探索空間范圍造成局部最優(yōu)；同時(shí)又不能將動(dòng)作空間設(shè)計(jì)得過于繁瑣，導(dǎo)致訓(xùn)練過程難以收斂；另外，動(dòng)作空間的設(shè)計(jì)還要考慮動(dòng)作的“合法性”，即需要考慮設(shè)計(jì)的動(dòng)作是否能夠達(dá)到或者會(huì)不會(huì)造成嚴(yán)重的后果，在設(shè)計(jì)動(dòng)作空間的過程中要拋棄不合法的動(dòng)作。

本文中的動(dòng)作空間主要指能夠?qū)σ苿?dòng)觀測平臺(tái)的移動(dòng)造成影響的變量，對(duì)于宏觀的路徑點(diǎn)規(guī)劃來說，將運(yùn)動(dòng)變量歸納為航向和航速。如圖6所示，航向和航速兩個(gè)變量都對(duì)移動(dòng)觀測平臺(tái)的空間探索范圍有所影響，因此為了權(quán)衡探索范圍和訓(xùn)練效率，分別將兩個(gè)變量限制在一定的范圍內(nèi)。

圖6 動(dòng)作空間設(shè)計(jì)Fig.6 Action space design

2.3 獎(jiǎng)賞函數(shù)設(shè)計(jì)

獎(jiǎng)賞函數(shù)的設(shè)計(jì)對(duì)強(qiáng)化學(xué)習(xí)算法來說至關(guān)重要。強(qiáng)化學(xué)習(xí)的最終目標(biāo)就是使得累計(jì)期望獎(jiǎng)賞最大化，因此獎(jiǎng)賞函數(shù)的設(shè)計(jì)決定了訓(xùn)練的方向，獎(jiǎng)賞函數(shù)的設(shè)計(jì)在一定程度上也就決定了訓(xùn)練效果的上限。本文獎(jiǎng)賞函數(shù)涉及多個(gè)目標(biāo)，對(duì)多目標(biāo)優(yōu)化的處理是通過線性加權(quán)的方式轉(zhuǎn)化為單目標(biāo)優(yōu)化。獎(jiǎng)賞函數(shù)應(yīng)該體現(xiàn)所規(guī)劃路徑的目標(biāo)以及約束，即應(yīng)包含海洋環(huán)境待測要素的信息梯度、移動(dòng)觀測平臺(tái)的測量屬性約束、多個(gè)移動(dòng)觀測平臺(tái)之間的避障和重疊約束等。

1) 海洋環(huán)境待測要素的信息梯度

在本文中，移動(dòng)觀測平臺(tái)執(zhí)行海洋觀測任務(wù)主要的目的就是捕捉海洋環(huán)境要素的變化特性，所以當(dāng)觀測資源有限時(shí)，觀測應(yīng)該集中在變化劇烈的區(qū)域。待觀測要素分析預(yù)報(bào)場的標(biāo)準(zhǔn)差和水平梯度能有效表征待測要素在時(shí)間和空間上的變化特性，所以分別采用基于待測海域海洋要素的時(shí)間梯度和空間梯度作為獎(jiǎng)賞函數(shù)：

2) 移動(dòng)觀測平臺(tái)的測量屬性約束

本文針對(duì)觀測平臺(tái)自身的測量屬性，包括時(shí)間間隔、測量范圍、續(xù)航里程，構(gòu)建了相應(yīng)的約束。移動(dòng)觀測平臺(tái)續(xù)航里程則對(duì)應(yīng)整個(gè)觀測平臺(tái)的觀測軌跡總長度。

3) 觀測平臺(tái)的避障約束

對(duì)移動(dòng)觀測平臺(tái)進(jìn)行路徑規(guī)劃，避障是一個(gè)不可能回避的問題，任何觀測任務(wù)如果不能保證其安全性那么將失去意義。本文針對(duì)的是相對(duì)全局的路徑規(guī)劃，因此只需考慮海面存在的島嶼等固定障礙元素，這些障礙信息也是執(zhí)行路徑規(guī)劃的重要信息考量。在本文中，為了完成避障任務(wù)需要對(duì)智能體施加一個(gè)避障約束，當(dāng)智能體遇到障礙時(shí)對(duì)其施加一個(gè)負(fù)的獎(jiǎng)賞值，訓(xùn)練智能體避免再碰到障礙。

2.4 智能體設(shè)計(jì)

對(duì)智能體的設(shè)計(jì)首先是選擇深度強(qiáng)化學(xué)習(xí)算法，它決定了智能體的結(jié)構(gòu)以及參數(shù)更新方式，本文選擇了DQN和深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法。另外就是神經(jīng)網(wǎng)絡(luò)的搭建。

神經(jīng)網(wǎng)絡(luò)是強(qiáng)化學(xué)習(xí)算法中策略的表征，它是狀態(tài)空間到動(dòng)作空間的映射。深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)環(huán)境的精確感知，以及強(qiáng)化學(xué)習(xí)算法從環(huán)境狀態(tài)到?jīng)Q策動(dòng)作映射的決策能力，實(shí)現(xiàn)海洋環(huán)境觀測路徑規(guī)劃結(jié)果最優(yōu)。神經(jīng)網(wǎng)絡(luò)的架構(gòu)應(yīng)與狀態(tài)以及動(dòng)作相符合，如圖7所示。由于本文的狀態(tài)包括全局海洋環(huán)境場、局部海洋環(huán)境場，以及移動(dòng)海洋環(huán)境觀測平臺(tái)的X、Y坐標(biāo)，因此神經(jīng)網(wǎng)絡(luò)的輸入為混合輸入，采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)海洋環(huán)境場數(shù)據(jù)進(jìn)行處理，再與觀測平臺(tái)坐標(biāo)進(jìn)行融合作為整個(gè)神經(jīng)網(wǎng)絡(luò)的輸入。神經(jīng)網(wǎng)絡(luò)的輸出為各離散動(dòng)作Q值，輸出的維度為離散動(dòng)作的個(gè)數(shù)。

圖7 神經(jīng)網(wǎng)絡(luò)架構(gòu)Fig.7 Neural network architecture

以上設(shè)計(jì)主要是針對(duì)單個(gè)智能體的情況，對(duì)于多智能體的設(shè)計(jì)主要是對(duì)多個(gè)單智能體進(jìn)行組合，以達(dá)到整體最優(yōu)結(jié)果。本文所采用的多智能體是完全合作的關(guān)系，所有智能體的目標(biāo)一致，均是改善觀測效果，只需要調(diào)整智能體訓(xùn)練時(shí)的獎(jiǎng)賞即可。因此將單個(gè)智能體獎(jiǎng)賞函數(shù)中海洋環(huán)境待測要素的信息梯度部分進(jìn)行求和，作為整體獎(jiǎng)賞函數(shù)替換單個(gè)智能體的梯度獎(jiǎng)賞。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)參數(shù)設(shè)置

在第2節(jié)中，搭建了采用強(qiáng)化學(xué)習(xí)訓(xùn)練移動(dòng)觀測平臺(tái)進(jìn)行路徑規(guī)劃的框架，分別設(shè)計(jì)了環(huán)境的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)以及智能體的神經(jīng)網(wǎng)絡(luò)架構(gòu)，本節(jié)主要是進(jìn)行實(shí)驗(yàn)以及對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。采用DQN及DDPG算法進(jìn)行訓(xùn)練的偽代碼分別算法1和算法2所示。

算法1使用DQN算法生成路徑

1)創(chuàng)建環(huán)境，生成并初始化智能體

2) for episode=1,Mdo

3)初始化環(huán)境狀態(tài)s1

4) fort=1,Tdo

5)以 ?的概率隨機(jī)選擇一個(gè)動(dòng)作at否則選擇at=maxaQ?(st,a;θ)

6)在環(huán)境中執(zhí)行at得到獎(jiǎng)賞rt和st+1

7)在記憶池中存儲(chǔ)樣本(st,at,rt,st+1)

8)從記憶池抽取樣本(sj,aj,rj,sj+1)

9)當(dāng)sj+1為回合終止?fàn)顟B(tài)時(shí)，yj=rj，否則

10)根據(jù)式 (yj?Q(sj,aj;θ))執(zhí)行梯度下降；

11) end for

12) end for

算法2使用DDPG算法生成路徑

1)創(chuàng)建環(huán)境，生成并初始化智能體；

2)初始化critic網(wǎng)絡(luò)Q(s,a|θQ), actor網(wǎng)絡(luò) μ (s|θμ);

3) for episode=1,Mdo

4)初始化環(huán)境狀態(tài)s1;

5) fort=1,Tdo

6)根據(jù)策略和噪音選取at= μ(st|θμ)+Nt；

7)在環(huán)境中執(zhí)行at得到獎(jiǎng)賞rt和st+1；

8)在記憶池中存儲(chǔ)樣本 (st,at,rt,st+1)；

9)從記憶池抽取N個(gè)樣本 (sj,aj,rj,sj+1)；

10)設(shè)置yi=ri+ γQ′(si+1,μ′(si+1|θμ′)θQ′)；

11)更新critic網(wǎng)絡(luò):

12)更新actor網(wǎng)絡(luò)：

13)更新目標(biāo)網(wǎng)絡(luò)：

14) end for

15) end for

為驗(yàn)證本文所提出方案的有效性，分別在有障礙和無障礙、單平臺(tái)和多平臺(tái)的情況下對(duì)實(shí)驗(yàn)方案進(jìn)行測試，在單平臺(tái)無障礙情況下對(duì)DQN和DDPG算法進(jìn)行對(duì)比。實(shí)驗(yàn)場景設(shè)置為經(jīng)度124.0~129.0°E，緯度 16.0~21.0°N，分辨率為 0.1°的海區(qū)，模擬移動(dòng)觀測平臺(tái)從西向東進(jìn)行海洋環(huán)境要素觀測。

實(shí)驗(yàn)中的參數(shù)設(shè)置如表1所示。

表1 智能體參數(shù)設(shè)置Table 1 Agent parameter setting

單平臺(tái)的環(huán)境參數(shù)設(shè)置如表2所示。

表2 環(huán)境參數(shù)設(shè)置(單平臺(tái))Table 2 Environmental parameter setting(single platform)

多平臺(tái)的環(huán)境參數(shù)設(shè)置如表3所示。

表3 環(huán)境參數(shù)設(shè)置(多平臺(tái))Table 3 Environmental parameter setting(multi-platform)

3.2 單平臺(tái)實(shí)驗(yàn)結(jié)果

在單平臺(tái)實(shí)驗(yàn)中，選定移動(dòng)平臺(tái)運(yùn)動(dòng)初始位置，分別進(jìn)行有障礙和無障礙的實(shí)驗(yàn)。最終得到獎(jiǎng)賞函數(shù)曲線和損失函數(shù)曲線，并畫出單平臺(tái)采樣路徑，如圖8所示。

圖8 單平臺(tái)實(shí)驗(yàn)Fig.8 Single platform experiment

3.3 多平臺(tái)實(shí)驗(yàn)結(jié)果

多平臺(tái)實(shí)驗(yàn)是選取5個(gè)移動(dòng)觀測平臺(tái)，設(shè)置5個(gè)起始點(diǎn)，分別使用DQN算法和DDPG算法進(jìn)行有障礙和無障礙采樣實(shí)驗(yàn)。多平臺(tái)進(jìn)行1 000次迭代。實(shí)驗(yàn)結(jié)果得到獎(jiǎng)賞函數(shù)曲線、損失函數(shù)曲線和多平臺(tái)采樣路徑，如圖9所示。

圖9 多平臺(tái)實(shí)驗(yàn)Fig.9 Multi-platform experiment

3.4 實(shí)驗(yàn)結(jié)果分析

對(duì)單平臺(tái)和多平臺(tái)通過DQN算法得到的采樣結(jié)果與背景場平均溫度進(jìn)行對(duì)比。結(jié)果如圖10所示。

圖10 采樣結(jié)果對(duì)比Fig.10 Comparison of sampling results

對(duì)于單平臺(tái)實(shí)驗(yàn)，如圖8，分別采用DQN和DDPG算法在有障礙和無障礙的情況下進(jìn)行了實(shí)驗(yàn)，在進(jìn)行500次的實(shí)驗(yàn)迭代后，實(shí)驗(yàn)結(jié)果表明，采用離散動(dòng)作空間的DQN算法能夠得到較好的獎(jiǎng)賞曲線，并且其損失函數(shù)值相對(duì)較小。實(shí)驗(yàn)表明，在本觀測平臺(tái)采樣任務(wù)中，采取離散的動(dòng)作空間更有利于找到較高的獎(jiǎng)賞值，即可以采集到更多的觀測信息。

對(duì)于多平臺(tái)實(shí)驗(yàn)，如圖9，可明顯看出總的獎(jiǎng)賞函數(shù)的上升趨勢。當(dāng)進(jìn)行有障礙實(shí)驗(yàn)時(shí)，由于當(dāng)路徑碰撞障礙物或出界時(shí)環(huán)境會(huì)自動(dòng)給出負(fù)的獎(jiǎng)賞值來“警告”智能體，因此可以看到前期獎(jiǎng)賞曲線會(huì)有比較稠密的負(fù)值。隨著訓(xùn)練的不斷進(jìn)行，可以觀察到負(fù)值明顯減少，并且獎(jiǎng)賞值有比較明顯的提高。

在單平臺(tái)和多平臺(tái)實(shí)驗(yàn)中，觀測平臺(tái)在有障礙的環(huán)境下，基于離散動(dòng)作的DQN算法都能有效地避開障礙，對(duì)海洋環(huán)境信息進(jìn)行有效采集。

通過對(duì)單平臺(tái)和多平臺(tái)得到的采樣結(jié)果與背景場平均溫度對(duì)比分析，如圖10，單平臺(tái)和多平臺(tái)的采樣結(jié)果都要高于背景場的平均溫度，說明基于離散動(dòng)作的深度強(qiáng)化學(xué)習(xí)的海洋移動(dòng)觀測平臺(tái)可以在有限資源條件下采集更多的海洋環(huán)境信息，進(jìn)一步說明DQN算法在海洋移動(dòng)觀測網(wǎng)絡(luò)觀測路徑規(guī)劃中的可行性和有效性。

4 結(jié)束語

本文主要研究在有限資源條件下如何對(duì)移動(dòng)海洋觀測平臺(tái)進(jìn)行合理有效的設(shè)計(jì)，使得觀測平臺(tái)可以對(duì)龐大海洋環(huán)境中采集更多的有效信息。本文分別設(shè)計(jì)了基于離散動(dòng)作的DQN算法和基于連續(xù)動(dòng)作的DDPG算法對(duì)海洋環(huán)境移動(dòng)觀測網(wǎng)絡(luò)進(jìn)行規(guī)劃，并對(duì)通過算法得到的采樣結(jié)果的有效性進(jìn)行了分析。

首先通過獲取海洋環(huán)境數(shù)值預(yù)報(bào)信息，基于RankGaussion對(duì)預(yù)報(bào)信息進(jìn)行數(shù)據(jù)預(yù)處理，在此基礎(chǔ)上結(jié)合海洋環(huán)境信息和移動(dòng)觀測平臺(tái)的碰撞及能量約束設(shè)置獎(jiǎng)賞函數(shù)，采用DQN和DDPG算法最終從與環(huán)境的交互信息中學(xué)習(xí)路徑規(guī)劃策略完成單智能體路徑規(guī)劃任務(wù)。在此基礎(chǔ)上，構(gòu)建基于行為分析的多平臺(tái)觀測網(wǎng)絡(luò)，通過將具有完全合作關(guān)系的移動(dòng)觀測平臺(tái)獎(jiǎng)賞進(jìn)行結(jié)合，指導(dǎo)多個(gè)移動(dòng)觀測平臺(tái)各自的采樣路徑規(guī)劃。實(shí)驗(yàn)結(jié)果表明，采用基于離散動(dòng)作的深度強(qiáng)化學(xué)習(xí)算法能夠有效提高觀測效率。

本文將在以下幾個(gè)方面展開更深入的研究：

1) 針對(duì)多觀測平臺(tái)，設(shè)計(jì)基于協(xié)作的多智能體強(qiáng)化學(xué)習(xí)算法，對(duì)移動(dòng)海洋觀測網(wǎng)絡(luò)進(jìn)行規(guī)劃，以期獲得更多有效的觀測信息；

2) 海洋環(huán)境信息復(fù)雜，不同的獎(jiǎng)賞函數(shù)設(shè)計(jì)都會(huì)影響觀測效果，下一步將考慮更多的環(huán)境因素，研究設(shè)計(jì)更合理有效的獎(jiǎng)賞函數(shù)；

3) 將觀測方案結(jié)果與海洋環(huán)境數(shù)值預(yù)報(bào)系統(tǒng)進(jìn)行深度結(jié)合，使得觀測數(shù)據(jù)更好服務(wù)于海洋環(huán)境數(shù)值預(yù)報(bào)系統(tǒng)。