亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向分布式微電網(wǎng)的多智能體船艇機器人路徑規(guī)劃方法

2023-10-29 02:05:46趙甜錢晶曾云

農(nóng)業(yè)裝備與車輛工程 2023年10期

趙甜，錢晶，曾云

（1.650093 云南省昆明市昆明理工大學冶金與能源學院；2.650093 云南省昆明市云南省高校水力機械智能測試工程研究中心）

0 引言

黃河是位于中國北方地區(qū)的大河，近年來由于環(huán)河農(nóng)業(yè)的不斷發(fā)展，周邊城市缺乏污水處理系統(tǒng)以及沿岸工業(yè)廢棄物處理等因素，造成河水富營養(yǎng)化，因此，對黃河水域的環(huán)境監(jiān)測十分必要[1]。

在為改善黃河狀況而采取的諸多行動中，有效監(jiān)測其環(huán)境狀態(tài)以獲取藻華生物狀態(tài)的最新圖像至關(guān)重要。然而，手動監(jiān)測需要花費大量人力物力資源，需要使用機動船從岸邊不斷航行到主要水域，并對水域進行手動采樣。董加鑫[2]提出使用配備水質(zhì)傳感器的自主水面車輛（ASV）代替手動采樣，能夠以相對較低的成本自動采樣和監(jiān)測水質(zhì)[3]。但是，該方法精確度低，模型復雜度高，不能達到檢測實時性的要求[4]；李輝等[5]設計并建議使用一組水質(zhì)傳感器（如PH 計、氧化電位還原傳感器、溫度計等）監(jiān)測黃河，該方法在動態(tài)避障過程中不具備優(yōu)勢。為了提高效率，可以部署分布式微電網(wǎng)的多智能體船艇機器人用于監(jiān)測每個單獨任務，探索不同區(qū)域并測量水的質(zhì)量[6]。深度強化學習的路徑規(guī)劃方法已成為處理函數(shù)逼近（神經(jīng)網(wǎng)絡作為非線性參數(shù)逼近器）的最常用方法。并且，深度強化學習已成為使用自主水面和水下設備進行被動路徑規(guī)劃和碰撞避免的最常見方法之一。徐宏威[7]提出了一種使用Q-Learning 方法優(yōu)化水下航行器運動規(guī)劃器的方法，成為強化學習在此類航行器控制中的成功應用。

本文受深度強化學習的啟發(fā)，提出一種基于深度強化神經(jīng)網(wǎng)絡的分布式微電網(wǎng)多智能體機器人路徑規(guī)劃方法（DDQL）。

1 方法簡介

1.1 模型策略

自動水面交通工具（ASV）具有自主性、移動性，擅長監(jiān)測和測量水生營養(yǎng)物質(zhì)[8]。在規(guī)劃此類船艇的路徑時，結(jié)合黃河水域方向的復雜性和高維性，通常采用啟發(fā)式方法（如強化學習，參見圖1）解決多智能體的巡邏任務。本文通過引用強化學習將環(huán)境狀態(tài)映射到將長期返回最大獎勵的動作的最佳策略π(s)。在這項工作中，提出了2 種Q 學習改進方式：雙深度Q 網(wǎng)絡和Q值優(yōu)化的競爭網(wǎng)絡架構(gòu)。在這2 種算法中，Q函數(shù)都是通過在損失函數(shù)中針對給定深度網(wǎng)絡的每個參數(shù)采取下降梯度步驟優(yōu)化，主要區(qū)別在于Q值的計算方式，Q值是直接估計的，而在競爭網(wǎng)絡中是用估計的優(yōu)勢函數(shù)A(s，a)和價值函數(shù)V(s)。

圖1 基本的強化學習方案Fig.1 Basic reinforcement learning solution

1.2 多智能體深度Q 學習

基于Q 網(wǎng)絡，本文提出Q函數(shù)優(yōu)化的2 種估計量：狀態(tài)值函數(shù)V(s)和優(yōu)勢函數(shù)A(s,a)。V(s)根據(jù)未來預期獎勵返回當前狀態(tài)s的值，A(s,a)評估狀態(tài)s中單個動作a相對于其他可能動作的預期獎勵，表達式為

為了解決可識別性問題（在給定Q的意義上不能唯一恢復V和A），必須修改式（1）以添加A的基線。該基線被選擇為每個A的平均值，公式為

本文使用公共集中網(wǎng)絡直觀地估計狀態(tài)值函數(shù)，考慮到了許多任務的整個場景[9]。各個輸出層估計每個任務的優(yōu)勢函數(shù)，正如之前估計Q值一樣。圖2 這個變體有2 個積極的方面：一是DQN 保持不變，除了V(s)估計器只有一個額外的神經(jīng)元和聚合層，所以DDQL 算法可以被回收；二是學習問題表明該架構(gòu)可以專注于協(xié)作行動，允許任務使用估計值函數(shù)改進其策略，如Wang[11]所建議的。該算法與A(s,a)中Q(s,a)的對抗性演算保持相同，并且V(s)函數(shù)被視為嵌入函數(shù)本身，如Zheng[12]的研究。

圖2 集中分布式Q-Learning 網(wǎng)絡。Fig.2 Proposed centralized distributed Q-Learning network

2 實驗分析

2.1 指標

為評估復雜背景下分布式微電網(wǎng)的多智能體船艇機器人路徑規(guī)劃性能，使用了2 個指標：

（1）累積獎勵R：累積獎勵顯示獎勵函數(shù)的表現(xiàn)[10]，獎勵越高越符合設計目標。獎勵的偏差給出了從一個開始條件到另一個開始條件推斷策略的穩(wěn)健性[11]。R的表達式為

式中：N——任務數(shù)；t——時間步長，從0～T可能的時間步長。

（2）平均加權(quán)空閑率μ：是巡邏問題解決方案的替代評估量，計算可導航單元的平均加權(quán)空閑率。表達式為

2.2 與其他方法的比較

為了進行比較，將深度強化學習方法（DDQL）、淺層強化學習方法IDQL 和競爭網(wǎng)絡（Dueling）策略都更改為完全貪婪（?=0）以衡量最佳策略，對3 種基于強化學習的方法進行消融比較。表1 為不同數(shù)量任務和方法的比較結(jié)果。對于單任務情況，IDQL 和DDQL 結(jié)果相近，3 種強化學習方法的性能比傳統(tǒng)路徑規(guī)劃方法好得多。DDQL 分別提高了12%、20%、15%和13%，是4 種任務數(shù)量中的最佳解決方案；Dueling Network 分別提高了24%、21%、12%和11%；而IDQL 分別提高了12%、15%、12%和12%。強化學習方法將軌跡計算考慮在內(nèi)，從而更好地最小化整個場景中的平均加權(quán)空閑。

表1 與黃河傳統(tǒng)規(guī)劃方法的累積獎勵和平均加權(quán)閑置的比較結(jié)果Tab.1 Comparison of rewards and average weighted idleness with the traditional planning methods of Yellow River

在深度強化學習方法方面，所提出的DDQL方法相對于其他算法實現(xiàn)的最大獎勵略有改進，盡管IDQL 被證明也是適用于多任務情況的算法，但DDQL 方法實現(xiàn)了更好的記錄軌跡，盡管與IDQL相比平均值非常相似。參見圖3。

圖3 1 臺、2 臺、3 臺和4 臺ASV 的軌跡Fig.3 Trajectories of one,two,three,and four ASVs

由于獎勵函數(shù)確定的獎勵和冗余標準與車隊規(guī)模無關(guān)，因此新任務的邊際改進會減少。通過DDQL 進行實驗，從1 到2 個任務的最佳DDQL 軌跡中的獎勵改進約為78%；從2 個任務增加到3個將獎勵提高19%；從3 個任務增加到4 個只會帶來7%的改進。

圖4 允許在給定多個步驟和多個任務的情況下預先規(guī)劃所需的覆蓋范圍，如果任務時間較短，則可以選擇更多的任務，反之亦然。圖5 顯示了最佳情況下每個任務學習的優(yōu)化軌跡，優(yōu)化策略迫使任務共享興趣空間。在單任務情況下，由于步數(shù)不足以覆蓋整個地圖，ASV 將重點放在最重要的區(qū)域并至少訪問最大值一次，偶爾2 次。在多智能體實驗中，ASV 首先訪問最近的最大興趣區(qū)域，然后繼續(xù)探索其他區(qū)域，一旦空閑率上升，往往會避免很長的路徑來重新訪問那些重要區(qū)域[12]。結(jié)果表明具有良好的協(xié)調(diào)和合作行為，因為智能體探索了完整的地圖，并且探索了與其興趣成比例的區(qū)域。

圖4 使用經(jīng)過訓練的網(wǎng)絡進行100 次模擬的平均加權(quán)空閑Fig.4 Average weighted idleness of 100 simulation using trained networks

圖5 各任務數(shù)量的DDQL 最佳軌跡中的空閑和訪問頻率Fig.5 Idle and access frequency in DDQL optimal trajectory of each task number

3 訓練表現(xiàn)

雖然IDQL 算法確實實現(xiàn)了與所提出的DDQL和Dueling 算法相似的結(jié)果，但它面臨與收斂所需的優(yōu)化步驟數(shù)量相關(guān)的可擴展性問題[13]。一方面，IDQL 方法為每個智能體提供了一個單獨的卷積神經(jīng)網(wǎng)絡，因此，在訓練期間，每個智能體都必須訓練自己的小批量，并采取與智能體數(shù)量一樣多的優(yōu)化步驟；另一方面，解耦方法可以通過共享更大的網(wǎng)絡部分來提高學習效率，如此勢必減少訓練時間，而這是本研究需考慮的重要指標。為遷移學習過程重新訓練網(wǎng)絡的需要以及因重要性圖的變化，算法在可擴展性方面必須是可行的。更高的訓練時間并不能彌補其他方法幾乎相同的性能。圖6 顯示了使用可用于任務學習的計算機工作站來訓練前面提到的場景所需的時間，可見，所提出的DDQL 方法比獨立方法快3 倍。

圖6 3 種DRL 方法的訓練時間Fig.6 Training time of three DRL methods

4 結(jié)論

在處理多任務情況時存在大量不同的可能路徑，傳統(tǒng)方法無法有效解決問題。本文提出的集中分布式Q-Learning 網(wǎng)絡方法通過實驗驗證表明，在解決此類問題非常有效，不需要先前的環(huán)境模型，因為DDQL 可以穩(wěn)健地適應不同的動態(tài)和交互。使用本算法的多智能體案例通過集中式卷積神經(jīng)網(wǎng)絡處理，提取特征以供智能體選擇其動作，由于每個任務都有自己的并行獨立神經(jīng)網(wǎng)絡，并且由于它們的動作是等效的，因此所提出的架構(gòu)在大多數(shù)情況下都比獨立強化學習對應物獲得更高的獎勵。此外，提出的DDQL 架構(gòu)的學習速度比獨立方法提高了3倍，因為它使用了共同的經(jīng)驗重放，需要的優(yōu)化步驟更少，在處理黃河流域路徑規(guī)劃問題上具有良好表現(xiàn)。