亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        海上布防任務(wù)中無人艇對可疑目標(biāo)的驅(qū)逐方法研究

        2023-11-01 02:57:48魯宇琦魏長赟
        無人系統(tǒng)技術(shù) 2023年4期
        關(guān)鍵詞:目標(biāo)環(huán)境算法

        魯宇琦,魏長赟

        (河海大學(xué)機(jī)電工程學(xué)院,常州 213022)

        1 引 言

        海上無人船(Unmanned Surface Vessel,USV)作為一種海洋無人智能運(yùn)載平臺,具有使用靈活、泛用性好、可執(zhí)行危險任務(wù)等顯著特點(diǎn),其在各種海洋作業(yè)中的運(yùn)用愈加廣泛,比如特別依賴長期連續(xù)性數(shù)據(jù)的海洋環(huán)境監(jiān)測,USV因其長期性和持久性在海洋環(huán)境監(jiān)測方面發(fā)揮越來越重要的作用[1];再比如航母護(hù)航艦隊(duì),航母進(jìn)行遠(yuǎn)洋作業(yè)時需要護(hù)航艦隊(duì)執(zhí)行任務(wù),但遠(yuǎn)洋作業(yè)未知且危險,USV即可替代人類執(zhí)行危險任務(wù),在海上風(fēng)電場巡邏、島嶼警戒、反雷反潛艇等軍事領(lǐng)域也有USV的應(yīng)用。因此對USV行動方法的研究受到國內(nèi)外學(xué)者的廣泛關(guān)注。對USV行動方式最基礎(chǔ)的研究則是對其航行規(guī)劃和導(dǎo)航的研究。全局路徑規(guī)劃能夠解決路徑到達(dá)和路徑覆蓋兩個問題。傳統(tǒng)的全局路徑規(guī)劃方法有A*算法、D*算法、遺傳算法[2-3]、蟻群算法[4]、粒子群尋優(yōu)算法[5]等。Chen等[6]提出了一種改進(jìn)的蟻群優(yōu)化算法,通過一種新的信息素更新規(guī)則,提高了傳統(tǒng)蟻群算法的收斂性,減少局部最優(yōu)的問題,并且與人工勢場法相結(jié)合,使得USV能夠在動態(tài)環(huán)境下獲得最優(yōu)的路徑規(guī)劃,但是該算法是基于網(wǎng)格圖的設(shè)計,實(shí)用性較低。全局路徑規(guī)劃適用于靜態(tài)環(huán)境的路徑規(guī)劃,其實(shí)用性較小,更有實(shí)用價值的是局部路徑規(guī)劃。局部路徑規(guī)劃方法有基于啟發(fā)式算法的路徑規(guī)劃、人工勢場法[7-8]、深度強(qiáng)化學(xué)習(xí)相關(guān)算法等。Shao等[9]提出了一種用于規(guī)劃無人機(jī)編隊(duì)的改進(jìn)粒子群算法。通過引入一種基于混沌的映射方法來改善粒子群的初始分布,然后將速度和最大速度系數(shù)設(shè)計為自適應(yīng)線性變系數(shù),用以適應(yīng)優(yōu)化過程,提高了解的最優(yōu)性,此外還加入了將不重要的粒子替換為重要的粒子的突變策略,加快了算法的收斂。學(xué)者們對路徑規(guī)劃進(jìn)行了大量研究,但是在對抗性的驅(qū)逐方法方面研究較少[10]。無論是航母護(hù)航,還是反雷反潛艇等軍事作業(yè),需要驅(qū)逐的對象并不是靜態(tài)和低智能的。Lee等[11]構(gòu)建了一種多潛艇防御追擊的目標(biāo)分配和路徑規(guī)劃框架,提出使用PNG定律進(jìn)行目標(biāo)分配,利用Dubins路徑處理防御追擊時的避障問題,其防御追擊的目標(biāo)會主動入侵,但是該環(huán)境中入侵者的入侵路徑是固定的,并不會對護(hù)衛(wèi)潛艇的逼近作出反應(yīng)。

        因此構(gòu)建一種動態(tài)強(qiáng)對抗的環(huán)境,其中的可疑目標(biāo)移動速度快、轉(zhuǎn)向靈敏、綜合性能比USV更好,并且會主動、不間斷地對布防目標(biāo)進(jìn)行進(jìn)攻,同時會對USV的防御動作做出反饋;在這樣的強(qiáng)對抗背景下對USV進(jìn)行訓(xùn)練,并實(shí)現(xiàn)在動態(tài)環(huán)境中USV對可疑目標(biāo)精準(zhǔn)快速驅(qū)逐的算法,對于具體的海上布防任務(wù)來說具有重要意義。

        對此本文提出一種基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的布防驅(qū)逐算法,并引入改進(jìn)人工勢場法智能化可疑目標(biāo)的進(jìn)攻路徑,使其進(jìn)攻性更強(qiáng)且更難以被驅(qū)逐,提高了算法的實(shí)用性。同時搭建了策略梯度算法學(xué)習(xí)模型,并在gym中構(gòu)建仿真環(huán)境進(jìn)行訓(xùn)練,成功驗(yàn)證了驅(qū)逐方法的可行性。

        2 問題描述

        海上布防任務(wù),是指利用海上軍事力量,對某個有價值的目標(biāo)比如航母、島嶼等進(jìn)行分布防御,封鎖控制。在確定布防目標(biāo)后,對封鎖范圍內(nèi)的任何可疑目標(biāo)進(jìn)行驅(qū)逐是布防任務(wù)非常重要的一環(huán)。雖然USV集群協(xié)作可以更有效地執(zhí)行任務(wù)[12],但是USV海上集群決策是極其具有挑戰(zhàn)性的[13]。原因有以下幾點(diǎn):一是因?yàn)榧惺經(jīng)Q策需要一個匯總信息的中央處理器,同時與每個USV進(jìn)行信息交互,而海上通信極易受到環(huán)境干擾,存在較高延遲,信息滯后效應(yīng)會極大影響決策;二是因?yàn)榧簺Q策尋找全局最優(yōu)解,但是聯(lián)合行動時狀態(tài)空間及動作空間成指數(shù)增長,難以找到最優(yōu)解,且該解擴(kuò)展性差無法轉(zhuǎn)移至其他類似環(huán)境。

        因此本文以深度強(qiáng)化學(xué)習(xí)模型為基礎(chǔ),提出了USV集群驅(qū)逐任務(wù)模型,USV配有雷達(dá),能夠以自身為中心探測可疑目標(biāo)位置,并將其坐標(biāo)進(jìn)行轉(zhuǎn)化處理,通過策略學(xué)習(xí)實(shí)現(xiàn)對可疑目標(biāo)的驅(qū)逐作業(yè)。具體模型如圖1所示。

        圖1 USV集群驅(qū)逐任務(wù)模型Fig.1 Expulsion model of Swarm USV

        圖中中心點(diǎn)為布防目標(biāo),以布防目標(biāo)為中心,半徑為R的圓形區(qū)域?yàn)轵?qū)逐域,m個可疑目標(biāo)(紅色錐形目標(biāo))隨機(jī)在驅(qū)逐域外一點(diǎn)生成并進(jìn)行進(jìn)攻,分別記為(T1,T2,…,Tm),相對應(yīng)有m個USV(藍(lán)色船),對應(yīng)記為(G1,G2,…,Gm)從布防目標(biāo)點(diǎn)出發(fā)進(jìn)行驅(qū)逐作業(yè)。USV的通信范圍用半徑為RG的綠色圓圈表示,由于海上通信條件受限,USV無法與范圍之外的友軍進(jìn)行信息交互,同時USV可以對正前半徑為Ra、角度為θa的扇形區(qū)域攻擊,其攻擊范圍的大小決定了USV接近可疑目標(biāo)時,可疑目標(biāo)的逃逸距離dflee。防守船的最終目標(biāo)為將可疑目標(biāo)成功驅(qū)逐出驅(qū)逐域。將每個可疑目標(biāo)與布防目標(biāo)之間的距離定義為(D1,D2,…,Dm),則該模型任務(wù)目標(biāo)可以定義為

        可疑目標(biāo)遵循人工勢場法快速逼近布防目標(biāo),其中布防目標(biāo)對其有引力生成引力場,USV對其有斥力生成斥力場,綜合勢力場得到梯度下降最快的方向,這使得可疑目標(biāo)每時每刻都能以最快的方向逼近布防目標(biāo),同時保證了可疑目標(biāo)不會被USV貼近。此外,USV對其產(chǎn)生的斥力也是USV能夠?qū)⒖梢赡繕?biāo)驅(qū)逐出驅(qū)逐域的原動力。但是在此設(shè)置下,若存在多個USV,每個USV都會對可疑目標(biāo)產(chǎn)生斥力,將會極大影響可疑目標(biāo)對布防目標(biāo)的進(jìn)攻,同時對USV的學(xué)習(xí)產(chǎn)生嚴(yán)重干擾,這將導(dǎo)致USV無法學(xué)習(xí)到好的驅(qū)逐策略,因此本文主要研究單個可疑目標(biāo)及與其對應(yīng)USV的驅(qū)逐任務(wù),而USV之間的通信則在本文中不過多考慮。

        對于每個可疑目標(biāo)Ti及其對應(yīng)的USVGi,其驅(qū)逐模型如圖2所示。

        圖2 單個可疑目標(biāo)及與其對應(yīng)USV的驅(qū)逐任務(wù)模型Fig.2 Expulsion model of UAV for a single suspicious target

        圖中ψ為USVGi的艏向角,USV在水面運(yùn)動速度不可突變,因此USV運(yùn)動過程是艏向角ψ連續(xù)變化的過程,需要盡快指向可疑目標(biāo)以快速逼近驅(qū)逐目標(biāo)。θ為可疑目標(biāo)相對USV的方位角,與相對USV的距離ρ共同構(gòu)成可疑目標(biāo)的極坐標(biāo)位置信息,其計算公式為

        式中,(x,y)為可疑目標(biāo)在USV以自身為原點(diǎn)的笛卡爾坐標(biāo)系中的二維坐標(biāo)值。三者共同構(gòu)成了驅(qū)逐任務(wù)模型的狀態(tài)信息St(ρ,θ,ψ)。

        USV的動作則由布防驅(qū)逐算法根據(jù)狀態(tài)信息訓(xùn)練得出,以保證能夠以最優(yōu)的策略實(shí)現(xiàn)驅(qū)逐,具體算法模型將在后續(xù)進(jìn)一步介紹。

        3 可疑目標(biāo)驅(qū)逐方法

        傳統(tǒng)的驅(qū)逐對抗設(shè)計中只考慮了如何讓USV學(xué)會逼近可疑目標(biāo),將接觸或是接近到一定距離設(shè)置為成功條件,同時對于可疑目標(biāo)的運(yùn)動設(shè)置是極其簡單的。但對實(shí)際的布防任務(wù)而言,可疑目標(biāo)是迅速并且智能的,如圖2所示,如果USV只是不斷逼近可疑目標(biāo),可疑目標(biāo)會在USV接近時主動進(jìn)行回避,尤其是當(dāng)可疑目標(biāo)移動更快時,更易繞開USV的攔截與驅(qū)逐。因此需要對傳統(tǒng)的跟蹤追逐算法進(jìn)行改進(jìn)以實(shí)現(xiàn)對可疑目標(biāo)的驅(qū)逐。

        3.1 基于DRL的驅(qū)逐方法框架

        DRL是一種將深度學(xué)習(xí)(Deep Learning,DL)整合信息的能力和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)決策能力相結(jié)合的方法。隨著深度強(qiáng)化學(xué)習(xí)在圍棋中的突破,證明了深度強(qiáng)化學(xué)習(xí)能夠解決現(xiàn)實(shí)問題,使其在更多無人智能領(lǐng)域獲得關(guān)注。

        馬爾科夫決策過程(Markov Decision Process,MDP)是強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)。智能體獲得當(dāng)前環(huán)境的狀態(tài)值st,然后選擇一個動作值at,環(huán)境狀態(tài)轉(zhuǎn)移至下一狀態(tài)st+1,同時環(huán)境會給出一個收益rt+1。此后不斷重復(fù)上述過程直到終局狀態(tài)。

        DRL的算法已經(jīng)提出了很多種,深度Q學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-learning Net,DQN)[14]解決了當(dāng)狀態(tài)空間過于復(fù)雜和高維時窮舉不可實(shí)現(xiàn)的問題,并在Atari2600游戲中有著不俗的成績;隨后針對DQN只能在離散空間中使用的缺陷,提出的深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[15]使DRL成功在連續(xù)環(huán)境中得到應(yīng)用,并在Atari2600游戲中完勝DQN;還有諸如異步優(yōu)勢演員評論家網(wǎng)絡(luò)(Asynchronous Advantage Actor-Critic,A3C)[16-17]、近似策略梯度優(yōu)化(Proximal Policy Optimization,PPO)[18]等算法均在不同方面進(jìn)行了優(yōu)化,也取得了較好的成果。鑒于本文難題的特點(diǎn),選擇將能夠解決連續(xù)控制性問題的DDPG算法作為基礎(chǔ)算法;針對本文對抗性環(huán)境中的獎勵稀疏(Sparse Reward,SR)[19]問題設(shè)計了其獎勵函數(shù);針對跟蹤追逐算法將可疑目標(biāo)當(dāng)前位置作為目標(biāo)點(diǎn)導(dǎo)致USV容易被繞開的問題,提出了一種意圖預(yù)測及封堵策略;針對DDPG在訓(xùn)練開始時需要大量試錯迭代學(xué)習(xí)的冷啟動(Cold Start,CS)問題,設(shè)計了一種專家經(jīng)驗(yàn)矯正糾偏策略對模型進(jìn)行預(yù)訓(xùn)練,加快訓(xùn)練速度。整體算法框架如圖3所示。

        圖3 基于DDPG的對抗驅(qū)逐算法框架Fig.3 Adversarial expulsion framework based on the DDPG algorithm

        3.2 驅(qū)逐任務(wù)的獎勵函數(shù)

        傳統(tǒng)跟蹤追逐任務(wù)的獎勵函數(shù)設(shè)計多為步進(jìn)懲罰加上成功的獎勵值,步進(jìn)懲罰用于督促智能體選取更快的路徑、更少的步數(shù)完成任務(wù),成功的獎勵值則用于智能體不斷更新學(xué)習(xí)。

        但是對于本文的對抗性驅(qū)逐環(huán)境,可疑目標(biāo)的運(yùn)動規(guī)則是固定的人工勢場法,它會遵循勢場梯度以最快的路徑逼近布防目標(biāo),當(dāng)USV靠近時會根據(jù)勢場變化迅速遠(yuǎn)離USV。并且在環(huán)境設(shè)計中可疑目標(biāo)是靈活的(速度、方向可以突變),這保證了它永遠(yuǎn)不會被USV追上。而USV在學(xué)習(xí)過程中完全隨機(jī)探索,其能成功將可疑目標(biāo)驅(qū)逐出驅(qū)逐域的概率是極低的。這將直接導(dǎo)致SR問題,USV將學(xué)習(xí)緩慢甚至無法學(xué)習(xí)。

        因此為了加快智能體的訓(xùn)練,設(shè)計獎勵函數(shù),并稠化獎勵值,在訓(xùn)練過程中給予USV更多的獎勵,利于其學(xué)習(xí),為此,將獎勵函數(shù)定義為

        式中,r為總獎勵,rΔθ為夾角獎勵,rT為可疑目標(biāo)位置獎勵,rGT為驅(qū)逐距離獎勵。a,b,c為每個獎勵的權(quán)重,符合a+b+c=1。

        夾角獎勵rΔθ與Δθ有關(guān),Δθ定義為USV艏向角ψ與可疑目標(biāo)相對USV方位角θ差值的絕對值。在USV運(yùn)動過程中,希望Δθ盡量小,這意味著USV運(yùn)動的方向是指向可疑目標(biāo),會不斷逼近可疑目標(biāo)的位置,便于驅(qū)逐任務(wù)的執(zhí)行。因此,Δθ越小則rΔθ越大。

        可疑目標(biāo)位置獎勵rT與可疑目標(biāo)相對布防目標(biāo)距離dT的變化有關(guān)。在USV運(yùn)動過程中,希望dT越來越大,這意味著可疑目標(biāo)在遠(yuǎn)離布防目標(biāo),當(dāng)dT>R時則驅(qū)逐成功,因此dT增大則rT為正,dT減小則rT為負(fù)。但是考慮到在環(huán)境運(yùn)行初期,USV還未接近可疑目標(biāo),此時可疑目標(biāo)并不會因USV的接近而進(jìn)行避讓,因此dT在此時是單調(diào)減小的,這將導(dǎo)致在初期的位置獎勵rT是不合理的,并不能有效反映USV此刻動作的好壞。因此對rT加入一個約束,當(dāng)dGT>dflee時,b≡0,其中dGT為USV相對可疑目標(biāo)的距離。

        驅(qū)逐距離獎勵rGT與USV相對可疑目標(biāo)的距離的變化有關(guān)。在USV運(yùn)動過程中,希望盡快接近可疑目標(biāo),因此dGT減小則rGT為正,dGT增大則rGT為負(fù)。與rT相反,在環(huán)境運(yùn)行中后期,由于USV與可疑目標(biāo)會在dGT=dflee附近時刻進(jìn)行動態(tài)博弈,此時的rGT是不合理的。因此也對rGT添加一個約束,當(dāng)dGT<1.1?dflee時,c≡0。

        3.3 意圖預(yù)測方法及封堵策略

        對于驅(qū)逐任務(wù)來說,提出一個假設(shè):可疑目標(biāo)不能直接越過USV進(jìn)攻布防目標(biāo),當(dāng)USV接近可疑目標(biāo)時,可疑目標(biāo)需采取避讓動作遠(yuǎn)離USV,也意味著遠(yuǎn)離布防目標(biāo),如圖4所示。

        圖4 意圖預(yù)測模型圖Fig.4 Intention prediction model

        式中,φ為USV和可疑目標(biāo)與布防目標(biāo)連線的夾角,其取值范圍為(-180°,180°],dGO,dTO分別是USV和可疑目標(biāo)相對布防目標(biāo)的距離。

        根據(jù)假設(shè),提出一個引理:

        如果能保證USV永遠(yuǎn)保持在布防目標(biāo)和可疑目標(biāo)中間,那么可疑目標(biāo)將在任何時刻都無法接近布防目標(biāo),即

        但是,傳統(tǒng)的算法設(shè)計一般是向可疑目標(biāo)的當(dāng)前位置接近,這將導(dǎo)致可疑目標(biāo)有機(jī)會繞開USV,如圖2所示。

        為防止可疑目標(biāo)繞開USV導(dǎo)致無法驅(qū)逐,引入一種意圖預(yù)測方法和封堵策略(Intention Predict and Blocking Policy,IPBP),通過不斷改變USV的目標(biāo)點(diǎn)防止在驅(qū)逐過程中USV被可疑目標(biāo)繞開導(dǎo)致驅(qū)逐失敗。在USV接近可疑目標(biāo)前使用意圖預(yù)測方法,在USV接近可疑目標(biāo)后使用封堵策略。分兩種情況進(jìn)行不同設(shè)計,將可疑目標(biāo)的逃逸距離記為dflee。

        USV接近可疑目標(biāo)前(dGT>dflee):對于可疑目標(biāo)而言,USV還未接近時,USV對其并無威脅,因此可疑目標(biāo)不會發(fā)生避讓動作,其動作單調(diào)向布防目標(biāo)接近。因此對于t時刻的可疑目標(biāo)而言,通過記錄其前幾個時刻的位置序列即(ρt-m…ρt-2,ρt-1,ρt)和(θt-m…θt-2,θt-1,θt),其中ρ,θ為可疑目標(biāo)相對USV的位置信息,表征序列長度。然后對得到的序列進(jìn)行線性回歸計算,即可對可疑目標(biāo)進(jìn)行意圖預(yù)測,得到t+1,t+2…時刻可疑目標(biāo)的位置信息,將預(yù)測出的位置信息作為USV的目標(biāo)點(diǎn)。

        USV接近可疑目標(biāo)后(dGT

        圖5 中間點(diǎn)封堵策略示意圖Fig.5 Intermediate location for blocking policy

        根據(jù)引理可知保證可疑目標(biāo)無法成功接近布防目標(biāo)的關(guān)鍵在于盡快使USV處于可疑目標(biāo)與布防目標(biāo)連線的中間,同時為了更快完成驅(qū)逐任務(wù),需要USV靠近連線的同時盡快逼近可疑目標(biāo),因此提出一個點(diǎn)P,稱為極限封堵點(diǎn),該點(diǎn)為保證USV不斷逼近可疑目標(biāo)的同時一定不會被可疑目標(biāo)繞開的最佳點(diǎn)。

        如圖5所示,P1點(diǎn)為T1O連線上一點(diǎn),P1點(diǎn)位置滿足P1T1/P1G1=vT/vG,式中vT,vG為可疑目標(biāo)T和USVG的速度。

        攻防開始時可疑目標(biāo)T位于T1點(diǎn),USVG位于G1點(diǎn),dT1O>dG1O。顯然可疑目標(biāo)T進(jìn)攻O的最快路徑為T1O連線。假設(shè)經(jīng)過時間t,USVG到達(dá)P1點(diǎn),此時若T選擇T1O路線,那么T同時到達(dá)P1點(diǎn),此時滿足dTtO=dGtO,T沒有越過G,USV封堵成功。如果T選擇其他路線,那么t時刻T的可能位置為以T1為圓心,P1T1為半徑的圓內(nèi)任意一點(diǎn),此時一定仍然滿足dTtO>dGtO,USV封堵成功。

        因此只要保證USV每一步都前往當(dāng)前時刻的極限封堵點(diǎn),就能確保可疑目標(biāo)無法越過USV,從而實(shí)現(xiàn)不斷逼近可疑目標(biāo)將其驅(qū)逐的目的。

        3.4 專家經(jīng)驗(yàn)矯正糾偏策略

        由于本文環(huán)境中可疑目標(biāo)會主動逼近布防目標(biāo),并在接近到危險距離時會判定失敗重置環(huán)境,而在純隨機(jī)探索的情況下,這將導(dǎo)致在DDPG訓(xùn)練初期極易失敗,需要對環(huán)境進(jìn)行大量的探索;同時為了能夠更好地探索最優(yōu)策略,在訓(xùn)練過程中需要添加噪聲以獲得更多變復(fù)雜的動作用于學(xué)習(xí)。以上都導(dǎo)致想要學(xué)習(xí)到好的策略需要大量的時間。對于常規(guī)的應(yīng)用DDPG的任務(wù)環(huán)境而言,其動作的好壞難以量化表達(dá),因此需要長時間的迭代學(xué)習(xí)。

        但是對于本文布防封控中具體的驅(qū)逐任務(wù)而言,USV的初始行為是可以預(yù)料并且量化的,即在驅(qū)逐任務(wù)開始時USV需要盡快瞄準(zhǔn)可疑目標(biāo)并向可疑目標(biāo)附近前進(jìn)。因此提出一個專家經(jīng)驗(yàn)矯正糾偏策略,其目的為在訓(xùn)練初期對USV對動作的探索進(jìn)行矯正與糾偏,減少USV動作的無用探索,使其盡快瞄準(zhǔn)可疑目標(biāo),加快后續(xù)的訓(xùn)練。

        因此需要得到一個專家動作序列(aexp1,aexp2…aexpT)使USV盡快瞄準(zhǔn),如圖6所示。

        圖6 專家經(jīng)驗(yàn)矯正糾偏策略模型圖Fig.6 Expert experience’s correction strategy model

        圖示為t時刻,狀態(tài)用St(ρ,θ,ψ)表示,其中ρ為可疑目標(biāo)T與USVG的距離,θ為可疑目標(biāo)T與USVG連線相對正東方向的偏轉(zhuǎn)角,ψ為USVG的艏向角,θ和ψ的取值范圍均為[0,2π)。同時考慮到USV在水面的運(yùn)動特性,其每一步能夠旋轉(zhuǎn)的角度是有限的,將其每一步的動作a選取范圍設(shè)置為[-Δ?,Δ?],Δ?為其每一步能夠旋轉(zhuǎn)角度的最大值,a為正時USV逆時針旋轉(zhuǎn),為負(fù)時順時針旋轉(zhuǎn)。

        訓(xùn)練初期需盡快瞄準(zhǔn)可疑目標(biāo),可描述為

        又因?yàn)閍∈[-Δ?,Δ?],所以為了使T最小,aexp=±Δ?,當(dāng)aexp=Δ?時,說明USV需逆時針旋轉(zhuǎn)以瞄準(zhǔn)可疑目標(biāo),當(dāng)aexp=-Δ?時,說明USV需順時針旋轉(zhuǎn)。并且對于一個確定的St(ρ,θ,ψ),其aexp具有單值性,即后續(xù)所有aexp均為Δ?或-Δ??,F(xiàn)證明其單值性。

        假設(shè)對于某個確定的St(ρ,θ,ψ),其后有兩個專家動作序列

        式中,T1序列為單值序列,不妨令aexp≡Δ?,則Δ?·T1=θ-ψ,T2序列為非單值序列,假定有n個aexp=-Δ?,則Δ?·(T2-n)+(-Δ?·n)=θ-ψ,聯(lián)立可得T1=T2-2n,n∈N,因此T1為最小的動作序列,其為單值序列。因此只需根據(jù)St(ρ,θ,ψ)判斷出訓(xùn)練初期時的專家動作aexp即可得到專家動作序列。

        因此提出一種以當(dāng)前狀態(tài)值St(ρ,θ,ψ)為自變量的判斷函數(shù)f(St),用于輸出專家動作aexp。

        其中條件判斷函數(shù)f(St)設(shè)計如下:

        記ω=θ-ψ,可得ω的取值范圍為(-2π,2π)。當(dāng)ω取(-2π,0)時,分兩種情況:若ω∈(-2π,-π),則aexp=Δ?,若ω∈(-π,0),則aexp=-Δ?;當(dāng)ω取(0,2π)時,同樣分兩種情況:若ω∈(0,π),則aexp=-Δ?,若ω∈(π,2π),則aexp=Δ?。邏輯圖如圖7 所示。

        圖7 條件判斷函數(shù)模型圖Fig.7 Conditional judgment function model

        4 仿真實(shí)驗(yàn)結(jié)果及分析

        本節(jié)將詳細(xì)介紹基于gym搭建的環(huán)境具體參數(shù)設(shè)置以及實(shí)驗(yàn)方案設(shè)置。gym是由openai開發(fā)的一款專門應(yīng)用于開發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包,它對智能體的結(jié)構(gòu)不會進(jìn)行任何假設(shè),并且與任何數(shù)值計算庫如Tensorflow等兼容,支持python語言對其進(jìn)行編寫,目前絕大多數(shù)研究強(qiáng)化學(xué)習(xí)算法的學(xué)者都會基于gym進(jìn)行環(huán)境的搭建,這會為后面使用強(qiáng)化學(xué)習(xí)算法訓(xùn)練智能體提供便利。

        整體環(huán)境大小為240 m×240 m,防守目標(biāo)位于正中間,以防守目標(biāo)為中心,半徑20 m的圓形區(qū)域?yàn)榘踩珔^(qū)域,半徑80 m的區(qū)域?yàn)轵?qū)逐域;護(hù)衛(wèi)船將從防守目標(biāo)處出發(fā),速度vG為一定值,其艏向角ψ不可突變;可疑目標(biāo)將在距離防守目標(biāo)60 m之外的區(qū)域隨機(jī)生成,速度vT為一恒定值,其運(yùn)動規(guī)則服從人工勢場法,其艏向角可以根據(jù)勢場的變化立刻改變以滿足人工勢場法。環(huán)境的渲染設(shè)置為1秒60幀,這也意味著USV用強(qiáng)化學(xué)習(xí)1秒進(jìn)行60次迭代學(xué)習(xí),而本環(huán)境設(shè)置每一回合最多訓(xùn)練次數(shù)為1000次,這些限制條件影響了vG和vT的設(shè)置。速度值不能設(shè)置過于小,這將導(dǎo)致學(xué)習(xí)初期USV與可疑目標(biāo)無法快速接近,學(xué)習(xí)效率較低,并且在有限的回合步數(shù)中難以成功將可疑目標(biāo)驅(qū)逐,這會大大影響USV學(xué)習(xí)的效率;同時速度不能設(shè)置過于大,這將導(dǎo)致USV與可疑目標(biāo)的步長過大,訓(xùn)練效果會變差。因此綜合考慮,將vG設(shè)置為20 m/s,vT設(shè)置為20 ~25 m/s較為合適。

        4.1 測試意圖預(yù)測及封堵策略實(shí)驗(yàn)

        為了測試意圖預(yù)測及封堵策略的有效性,設(shè)置了三個對照組進(jìn)行了實(shí)驗(yàn)。三個對照組分別為:

        1.空白組(Untreated State,US):將狀態(tài)信息St(ρ,θ,ψ)作為DRL算法的輸入進(jìn)行訓(xùn)練;

        2.自學(xué)習(xí)組(Self-Learning,SL):通過將連續(xù)三個時間的狀態(tài)信息(ρt-2,θt-2,ψt-2,ρt-1,θt-1,ψt-1,ρt,θt,ψt)作為算法輸入,希冀DRL能夠自主通過連續(xù)的狀態(tài)信息預(yù)測其意圖;

        3.策略組(IPBP):添加意圖預(yù)測及封堵策略的對照組,將Spredict(ρpredict,θpredict,ψpredict)作為算法輸入進(jìn)行訓(xùn)練。

        每個對照組進(jìn)行了20次實(shí)驗(yàn)并取平均值作為結(jié)果進(jìn)行對比,每一次實(shí)驗(yàn)訓(xùn)練了150個回合,每回合最大訓(xùn)練步數(shù)為1000步。

        如圖8所示,可以發(fā)現(xiàn)在vT較小時,三種方法均能收斂并且學(xué)習(xí)效果相差不大,甚至US和SL組的獎勵值更高,這是因?yàn)樵诳梢赡繕?biāo)低速進(jìn)攻的情況下,通過設(shè)計的獎勵函數(shù)就已經(jīng)足以讓USV學(xué)習(xí)到足夠好的驅(qū)逐策略。但是當(dāng)vT不斷增大時,US和SL組的回合平均獎勵值下降非??欤@是因?yàn)楫?dāng)vT不斷增大時,US和SL組中的USV難以跟上可疑目標(biāo)的位置變化,難以將可疑目標(biāo)驅(qū)逐,隨著速度增大,USV越來越難獲得正向獎勵值,因?yàn)榭梢赡繕?biāo)越來越容易逼近布防目標(biāo),因此在圖8中可以看到,隨著速度增大,回合平均獎勵值不斷降低。直到vT=25 m/s時,US和SL組獎勵值基本沒有增長,這意味著沒有任何學(xué)習(xí)效果,也意味著對于US和SL組已經(jīng)達(dá)到了它們的極限,在這個速度下,US和SL組很難獲得正向獎勵了,USV只要離開布防目標(biāo)稍遠(yuǎn)一點(diǎn),可疑目標(biāo)就會迅速找到一條進(jìn)攻路徑成功攻擊到布防目標(biāo),而IPBP組在vT=25 m/s時仍然還有較好的表現(xiàn),這說明IPBP組USV能夠在一定范圍內(nèi)驅(qū)逐性能比自己更好的目標(biāo)。

        圖8 可疑目標(biāo)不同速度下訓(xùn)練實(shí)驗(yàn)結(jié)果Fig.8 Experimental results of training suspicious target at different speeds

        4.2 驅(qū)逐成功率實(shí)驗(yàn)

        而在驅(qū)逐的成功率和性能的穩(wěn)定性方面,在20次實(shí)驗(yàn)結(jié)束后,對每一次訓(xùn)練得到的模型進(jìn)行100次測試并記錄其成功次數(shù)。最后匯總20個模型的測試結(jié)果并取均值進(jìn)行對比。如圖9、表1所示。

        表1 可疑目標(biāo)不同速度下驅(qū)逐成功率Table 1 The success rate of expelling suspected targets at different speeds

        圖9 可疑目標(biāo)不同速度下驅(qū)逐成功率Fig.9 The success rate of expelling suspected targets at different speeds

        可以發(fā)現(xiàn)在vT=20 m/s時,US和SL組也能有較好的成功率,與IPBP組差別并不大,這也說明了在可疑目標(biāo)性能不強(qiáng)時,常規(guī)的一些強(qiáng)化學(xué)習(xí)算法即可完成對USV的訓(xùn)練,甚至有不錯的效果;但是隨著vT的增大,US和SL組的成功率下降非???,在vT=25 m/s時基本無法完成驅(qū)逐任務(wù)。而IPBP組雖然成功率也在下降,但是在vT=25 m/s的情況下仍然還能有53.3%的成功率。說明添加意圖預(yù)測和封堵策略有助于USV學(xué)到更好的驅(qū)逐方法,完成對可疑目標(biāo)的驅(qū)逐任務(wù)。

        4.3 測試專家經(jīng)驗(yàn)矯正糾偏策略實(shí)驗(yàn)

        為了測試專家經(jīng)驗(yàn)矯正糾偏策略對USV學(xué)習(xí)策略的加速效果,同樣設(shè)置對照組進(jìn)行實(shí)驗(yàn)對比,結(jié)果如圖10所示。

        圖10 專家經(jīng)驗(yàn)實(shí)驗(yàn)結(jié)果Fig.10 Experimental results about the expert experience

        圖10為在vT=20 m/s的情況下添加專家經(jīng)驗(yàn)與否的實(shí)驗(yàn)結(jié)果,可以看出沒有添加專家經(jīng)驗(yàn)的實(shí)驗(yàn)組算法大概在40回合收斂,而添加了專家經(jīng)驗(yàn)的實(shí)驗(yàn)組算法在25回合左右就能收斂。vT取不同的值也有相似的結(jié)果。添加專家經(jīng)驗(yàn)相比沒有添加提前了大概15個回合就能使算法訓(xùn)練達(dá)到收斂。

        當(dāng)然,由于每個回合的步數(shù)不同,并不是每個回合都運(yùn)行了1000步后才進(jìn)入下一回合,因此僅僅用收斂所需的回合數(shù)來判斷專家經(jīng)驗(yàn)的加速效果是不準(zhǔn)確的。為了正確地反映專家經(jīng)驗(yàn)是否有加速收斂的效果以及量化反映加速的效果是好還是差,將vT取不同的值進(jìn)行了實(shí)驗(yàn),并重復(fù)進(jìn)行了20次,然后對每次實(shí)驗(yàn)訓(xùn)練達(dá)到收斂的時間進(jìn)行了記錄并取其均值,最終結(jié)果如表2所示。

        表2 收斂時間實(shí)驗(yàn)結(jié)果Table 2 Experimental results of convergence time

        從表2中可以看出,當(dāng)vT增大時,沒有專家經(jīng)驗(yàn)訓(xùn)練收斂所需的時間越來越大,而有專家經(jīng)驗(yàn)則相對穩(wěn)定,并且有專家經(jīng)驗(yàn)所需的時間遠(yuǎn)小于無專家經(jīng)驗(yàn)所需時間,這說明專家經(jīng)驗(yàn)矯正糾偏策略能夠?qū)崿F(xiàn)算法的加速訓(xùn)練,并且對算法的穩(wěn)定也有一定效果。

        5 結(jié) 論

        本文針對具體的USV海上布防任務(wù)問題,以其中的驅(qū)逐任務(wù)為背景搭建了一個基于gym的強(qiáng)對抗環(huán)境,并提出了基于深度強(qiáng)化學(xué)習(xí)的可疑目標(biāo)驅(qū)逐方法框架,然后在可疑目標(biāo)不同速度值下對USV進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文提出的方法框架能夠提升USV的訓(xùn)練速度,速度提升率最高可達(dá)82.90%。在不同速度下該方法框架訓(xùn)練所得的驅(qū)逐成功率均為最佳,并且在速度差較大的情況下仍然能有53.30%的成功率。綜上所述,本文所提出的驅(qū)逐方法框架能夠解決驅(qū)逐任務(wù)問題。但是本文僅在二維環(huán)境中進(jìn)行了建模,未來還需在三維環(huán)境中進(jìn)行實(shí)驗(yàn)測試,以驗(yàn)證其實(shí)用性。

        USV海上布防任務(wù)是一個綜合研究課題,驅(qū)逐任務(wù)只是其中的一個難題,針對的是對于布防目標(biāo)一定范圍內(nèi),偵察到的低威脅目標(biāo)。對低威脅目標(biāo)而言,我們無需對其進(jìn)行火力殲滅,而是需要將其驅(qū)逐出一定范圍即可。本文則是研究了布防任務(wù)中驅(qū)逐任務(wù)的解決方法,后續(xù)可進(jìn)一步研究如何實(shí)現(xiàn)控制、殲滅、偵察等其他任務(wù)。

        猜你喜歡
        目標(biāo)環(huán)境算法
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        基于MapReduce的改進(jìn)Eclat算法
        Travellng thg World Full—time for Rree
        環(huán)境
        進(jìn)位加法的兩種算法
        一種改進(jìn)的整周模糊度去相關(guān)算法
        我們的目標(biāo)
        新目標(biāo)七年級(下)Unit?。尘毩?xí)(一)
        亚洲毛片免费观看视频| 水蜜桃精品一二三| 久久不见久久见免费视频7| 暖暖免费 高清 日本社区在线观看| 亚洲Av无码专区尤物| 手机免费在线观看日韩av| 精品人妻av一区二区三区| 精品乱码久久久久久久| 无码熟妇人妻AV影音先锋| 人妻少妇一区二区三区| 亚洲av手机在线一区| 一本色道久久亚洲精品| 精品一区二区三区在线视频| 久久午夜无码鲁丝片午夜精品| 久久精品人妻一区二区三区| 国产成人精品免费久久久久| 久久99老妇伦国产熟女高清| 蜜臀久久久精品国产亚洲av| 中文字幕人妻久久久中出| 狼狼综合久久久久综合网| 中文字幕无码av波多野吉衣| 免费av片在线观看网站| 谁有在线观看av中文| 国产三级黄色大片在线免费看| 色欲人妻aaaaaaa无码| 少妇内射高潮福利炮| 好爽~又到高潮了毛片视频| 成人国产精品三上悠亚久久| 国产综合无码一区二区辣椒| 亚洲av无码之日韩精品| 国产精品亚洲专区在线播放| 中文字幕专区一区二区| 成人欧美一区二区三区在线| 欧美日韩视频在线第一区| 好爽受不了了要高潮了av| 国产91大片在线观看| 精品久久久久久无码专区| 亚洲色偷偷综合亚洲av伊人| 日本熟妇精品一区二区三区| 视频一区精品中文字幕| 国产精品久久久久高潮|