張文璐,霍子龍,趙西雨,崔琪楣,陶小峰
(北京郵電大學(xué) 信息與通信工程學(xué)院,北京 100876)
5G的大規(guī)模商用正在加速與增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)、智能汽車、工業(yè)互聯(lián)網(wǎng)、能源互聯(lián)網(wǎng)、智慧醫(yī)療等垂直行業(yè)的融合創(chuàng)新,推動(dòng)社會(huì)向數(shù)字化轉(zhuǎn)型。在5G+智能工廠的生產(chǎn)過程中,不同類型的機(jī)器人,如自動(dòng)導(dǎo)引運(yùn)輸車和無人機(jī)等,均會(huì)參與進(jìn)來,將原材料、備件和配件從倉庫運(yùn)輸?shù)缴a(chǎn)線。為了滿足復(fù)雜工作對(duì)精度的要求,機(jī)器人通常會(huì)配置多種裝置與傳感器,如全球?qū)Ш叫l(wèi)星系統(tǒng)(Global Navigation Satellite System,GNSS)、視覺傳感器、雷達(dá)傳感器等。GNSS可以為機(jī)器人提供厘米級(jí)的定位精度能力,但在遮擋物較多的地區(qū),衛(wèi)星信號(hào)的衍射會(huì)造成非常大的定位誤差。現(xiàn)有的大多數(shù)研究提出使用基于測(cè)量的定位技術(shù),通過在機(jī)器人與標(biāo)定節(jié)點(diǎn)之間傳輸定位信號(hào),并測(cè)量信號(hào)的相對(duì)到達(dá)時(shí)間(Time Delay of Arrival,TDOA)、到達(dá)角(Angle of Arrival,AOA)、接收信號(hào)強(qiáng)度(Received Signal Strength,RSS)等信息,從而估算出機(jī)器人相對(duì)于標(biāo)定節(jié)點(diǎn)的坐標(biāo)位置[1]。雖然基于測(cè)量的定位方法誤差很小,但其受環(huán)境影響較大,并且標(biāo)定節(jié)點(diǎn)的選取會(huì)直接決定移動(dòng)機(jī)器人定位的成功率[2]。在多機(jī)器人定位系統(tǒng)中,由于標(biāo)定節(jié)點(diǎn)的數(shù)量有限,若單個(gè)機(jī)器人長(zhǎng)期占用某個(gè)標(biāo)定節(jié)點(diǎn),則會(huì)影響其他機(jī)器人的定位性能,因此機(jī)器人之間不僅需要競(jìng)爭(zhēng)標(biāo)定節(jié)點(diǎn),也需要相互協(xié)同提升整個(gè)機(jī)器群體的定位性能。
在多機(jī)器人系統(tǒng)中,由于機(jī)器人的決策會(huì)互相干擾,如何獲得穩(wěn)定有效的解決方案一直是個(gè)亟待解決的關(guān)鍵難題[3]。智能機(jī)器人與環(huán)境進(jìn)行自主交互并通過自學(xué)習(xí)逐步優(yōu)化其行為與選擇策略,可以顯著提高其在復(fù)雜未知環(huán)境中的探索能力。已有的多智能體強(qiáng)化學(xué)習(xí)算法可以優(yōu)化智能群體的性能,如隨機(jī)幾何、博弈論等,然而這些都是基于一個(gè)假設(shè),即智能體能獲取完整的全局信道信息,這需要智能體之間實(shí)時(shí)進(jìn)行信息交互,當(dāng)智能體數(shù)量較多時(shí)會(huì)導(dǎo)致巨大的信令和功耗開銷[4]。將有監(jiān)督的深度學(xué)習(xí)技術(shù)應(yīng)用到多智能體系統(tǒng)可以實(shí)現(xiàn)與具有全局信道信息的集中式算法相近的性能,然而有監(jiān)督的深度學(xué)習(xí)需要訓(xùn)練數(shù)據(jù)精準(zhǔn)地反映系統(tǒng)模型,當(dāng)系統(tǒng)模型發(fā)生改變時(shí)就需要新的訓(xùn)練數(shù)據(jù)來更新深度神經(jīng)網(wǎng)絡(luò)的參數(shù),學(xué)習(xí)效率明顯降低。隨著6G網(wǎng)絡(luò)可能會(huì)采用更高的工作頻段,而通感融合可以增強(qiáng)工業(yè)服務(wù)的確定性,利用感知信息實(shí)現(xiàn)機(jī)器人之間的交互成為了工業(yè)界研究的重點(diǎn)[5]。已有研究通過為機(jī)器人配置視覺、聽覺等高級(jí)傳感器來獲取其他機(jī)器人的狀態(tài),并且證明了利用感知信息可以明顯減少機(jī)器人之間的信令交互,在不影響群體性能的前提下降低了通信資源與功耗的開銷[6]。
但上述研究仍然需要機(jī)器人之間進(jìn)行局部信息交互,當(dāng)機(jī)器人數(shù)量很多或機(jī)器人協(xié)同工作的時(shí)間很長(zhǎng)時(shí)會(huì)引起極大的功耗和信令開銷,這對(duì)于智能工廠中功耗受限的機(jī)器設(shè)備來說是個(gè)嚴(yán)重的問題,因此本文創(chuàng)新性地提出將機(jī)器人的感知功能引入獨(dú)立學(xué)習(xí)過程,利用感知功能完全取代機(jī)器人的信息交互,最終使機(jī)器人在功耗受限的條件下可以互相協(xié)作,并在復(fù)雜動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)群體獎(jiǎng)勵(lì)最大化的決策,具體過程如下所述。首先,在考慮陰影衰落和自由空間損耗的基礎(chǔ)上,加入機(jī)器人的行為估計(jì)信息作為環(huán)境信息的一部分,并依據(jù)估計(jì)信息限定自身的動(dòng)作空間,避免機(jī)器人之間的決策出現(xiàn)沖突。為了實(shí)現(xiàn)對(duì)其他機(jī)器人精準(zhǔn)的行為預(yù)估,本文首次提出使用表示機(jī)器人決策軌跡的記錄空間,并且記錄空間的內(nèi)容隨機(jī)器人的感知信息進(jìn)行迭代更新,以優(yōu)化機(jī)器人的行為估計(jì)策略。然后,采用Boltamznn選擇策略,以概率的方式優(yōu)化自身的動(dòng)作選擇決策,使得雙重超Q神經(jīng)網(wǎng)絡(luò)(Dual Deep Hyper-Q Neural Network,DDHQN)算法盡可能探索到動(dòng)作空間中的所有動(dòng)作。然后,為了鼓勵(lì)機(jī)器人參與協(xié)作,設(shè)置DDHQN算法的獎(jiǎng)勵(lì)函數(shù),其不僅包括機(jī)器人自身與其所選標(biāo)定節(jié)點(diǎn)之間傳輸?shù)亩ㄎ恍盘?hào)接收信噪比,還包括對(duì)其他機(jī)器人行為預(yù)估的準(zhǔn)確度。最后,在經(jīng)驗(yàn)池中進(jìn)行采樣并計(jì)算樣本的均方差損失值,使用該損失值以梯度下降的方式更新神經(jīng)網(wǎng)絡(luò)的相關(guān)參數(shù),使得機(jī)器人群體在一定的訓(xùn)練次數(shù)后可以收斂到最佳的共同目標(biāo),仿真證明了所提DDHQN算法對(duì)多機(jī)器人協(xié)同學(xué)習(xí)的重要性。
分組協(xié)作機(jī)器人進(jìn)行定位時(shí),每次至少有一個(gè)分組的機(jī)器人可以通過GNSS系統(tǒng)實(shí)時(shí)獲取自己的精確位置。以兩組協(xié)作機(jī)器人為例,A組和B組,如圖1所示。
圖1 協(xié)作機(jī)器人分組示意圖
A組機(jī)器人在園區(qū)中執(zhí)行作業(yè),由于樹木的遮擋,無法使用GNSS系統(tǒng)進(jìn)行精確定位,而位于開闊場(chǎng)地的B組機(jī)器人則充當(dāng)路標(biāo)幫助A組機(jī)器人進(jìn)行定位,B組機(jī)器人可以固定不動(dòng)也可以沿著線性軌跡有序移動(dòng),并且標(biāo)定機(jī)器人的實(shí)時(shí)位置坐標(biāo)是所有網(wǎng)絡(luò)設(shè)備與機(jī)器設(shè)備共知的[7]。5G R16版本中新增的基站定位機(jī)制只需一個(gè)標(biāo)定機(jī)器人即可完成對(duì)一個(gè)未知位置機(jī)器人的定位過程,以下以“用戶”代替需要定位的未知位置機(jī)器人,以“標(biāo)定節(jié)點(diǎn)”代替標(biāo)定機(jī)器人來描述定位過程。如圖1所示,若用戶A1選擇了標(biāo)定節(jié)點(diǎn)B1,A1向B1發(fā)射定位信號(hào),B1收到定位信號(hào)后馬上將信號(hào)回傳,A1根據(jù)往返時(shí)間計(jì)算出與B1的直線距離,進(jìn)一步根據(jù)離開角(Angle of Departure ,AOD)和AOA推算出其相對(duì)于B1的位置坐標(biāo)[8]。
考慮M個(gè)用戶和N個(gè)標(biāo)定節(jié)點(diǎn)共存的場(chǎng)景,且M≤N。為了避免來自不同用戶的定位信號(hào)互相干擾,每個(gè)標(biāo)定節(jié)點(diǎn)在同一時(shí)刻只能輔助一個(gè)用戶進(jìn)行定位。由于標(biāo)定節(jié)點(diǎn)的數(shù)量有限,對(duì)其選擇并占用的過程本質(zhì)上為用戶之間的網(wǎng)絡(luò)資源競(jìng)爭(zhēng)過程,并且所有用戶同時(shí)進(jìn)行決策,將呈現(xiàn)一個(gè)非平穩(wěn)的多智能體環(huán)境[9]。設(shè)在決策時(shí)刻t,所有用戶的決策記為:
(1)
文獻(xiàn)[10]提出,在基于相位差測(cè)量的基站定位機(jī)制中,相位差測(cè)量誤差的標(biāo)準(zhǔn)差與定位信號(hào)接收信噪比的均方根成反比,如下式所示:
(2)
在圖1所示的場(chǎng)景中,用戶m到標(biāo)定節(jié)點(diǎn)n之間的傳輸路徑損耗為:
(3)
其中,c為信號(hào)傳輸速率,fc為信號(hào)所在頻率,d(m,n)為用戶m與標(biāo)定節(jié)點(diǎn)n之間的直線距離,α為路徑損耗指數(shù),其隨機(jī)分布在[1,10]。無線信號(hào)的路損隨傳輸距離以指數(shù)倍關(guān)系增加,L(d0)為參考距離d0處由載波頻率fc決定的自由空間損耗,通常d0=1。Xσ表示陰影衰落,描述大尺度信號(hào)圍繞本地路損均值的波動(dòng),當(dāng)樹木等障礙物的遮擋效應(yīng)增強(qiáng)時(shí),陰影衰落加劇。Xσ在對(duì)數(shù)維度通常服從0均值的高斯分布,表示為Xσ~N(0,σ),其中σ為陰影衰落的標(biāo)準(zhǔn)差,稱為陰影因子(Shadow Factor,SF),單位是dB。因此,式(3)刻畫的大尺度衰落可通過兩個(gè)參數(shù)具體表征,即路徑損耗指數(shù)α和陰影因子σ[11]。
若在同一時(shí)刻,多個(gè)用戶的決策出現(xiàn)沖突,即選擇了同一標(biāo)定節(jié)點(diǎn),該標(biāo)定節(jié)點(diǎn)探測(cè)到的多個(gè)定位信號(hào)互相干擾,任一信號(hào)都無法被準(zhǔn)確測(cè)量,因此該時(shí)刻這些用戶均無法完成定位過程。此外,在不存在決策沖突的情況下,每個(gè)用戶的定位誤差也應(yīng)限制在最大誤差范圍內(nèi),才可實(shí)現(xiàn)有效的定位,因此每個(gè)用戶的定位信號(hào)應(yīng)滿足SNR>SNRthr,其中SNRthr為滿足式(2)中單個(gè)用戶定位誤差約束的最小信噪比。
本文的目的是在滿足每個(gè)用戶定位要求的前提下,優(yōu)化用戶群體的定位性能。因此,在時(shí)刻t,多用戶的標(biāo)定節(jié)點(diǎn)選擇問題可被構(gòu)建為:
(4)
對(duì)于式(4)定義的多機(jī)器人決策問題,傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)將其建模為馬爾科夫模型,并采用集中式處理分布式執(zhí)行的解決方案,利用中央智能體進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和維護(hù),每個(gè)機(jī)器人只作為數(shù)據(jù)采集與執(zhí)行任務(wù)的載體,并不具備學(xué)習(xí)的能力。此外,所有機(jī)器人在每次行為前需要報(bào)告當(dāng)前的狀態(tài)信息給中央智能體,并按照中央智能體的指令執(zhí)行對(duì)應(yīng)的行為,以實(shí)現(xiàn)群體獎(jiǎng)勵(lì)最大化。在機(jī)器人數(shù)量較少時(shí),集中式學(xué)習(xí)可以達(dá)到很高的計(jì)算效率,但隨著機(jī)器人數(shù)量的增加,會(huì)導(dǎo)致巨大的信令和功耗開銷,出現(xiàn)維度災(zāi)難、難以收斂的問題[12]。若將多機(jī)器人決策模型構(gòu)建為分布式的學(xué)習(xí)模型,機(jī)器人間通過平等協(xié)作的方式形成一個(gè)分布式的學(xué)習(xí)群,每個(gè)機(jī)器人進(jìn)行獨(dú)立自主的學(xué)習(xí)與決策。但由于機(jī)器人的決策會(huì)相互影響,傳統(tǒng)的馬爾科夫模型已不適用。已有研究考慮在相鄰的機(jī)器人之間進(jìn)行信息交互,構(gòu)建一個(gè)部分可觀的馬爾科夫模型,以應(yīng)對(duì)多機(jī)器人同時(shí)決策導(dǎo)致的非平穩(wěn)現(xiàn)象[13]。然而由于機(jī)器人的移動(dòng)性,其形成的拓?fù)浣Y(jié)構(gòu)實(shí)時(shí)變化,每個(gè)機(jī)器人的鄰居機(jī)器人也在實(shí)時(shí)改變,基于鄰居信息交互的部分可觀馬爾科夫模型需要每個(gè)機(jī)器人實(shí)時(shí)更新其鄰居列表,其實(shí)施成本與復(fù)雜度極大。并且無論是完全可觀還是部分可觀的馬爾科夫模型都基于一些假設(shè),如其他智能體的即時(shí)獎(jiǎng)勵(lì)完全可觀、所有智能體的學(xué)習(xí)策略固定不變,這在實(shí)際中難以實(shí)現(xiàn)。目前還沒有研究證明多智能體能在不穩(wěn)定的環(huán)境中獨(dú)立學(xué)習(xí),并在不與其他智能體或中央決策單元進(jìn)行信息交互的前提下,實(shí)現(xiàn)共同的目標(biāo)??紤]到實(shí)際中的部署,本文的多智能體協(xié)同決策模型中其他智能體的無線信號(hào)傳輸行為是可觀的,但并不是它們的即時(shí)獎(jiǎng)勵(lì)。隨著無線感知技術(shù)的發(fā)展,高級(jí)傳感器可以對(duì)周圍的無線環(huán)境進(jìn)行精確感知,因此在實(shí)際中機(jī)器人感知其他機(jī)器人的無線定位信號(hào)傳輸是完全可以實(shí)現(xiàn)的[14]。基于此,構(gòu)建如圖2所示的協(xié)同決策模型,其創(chuàng)新性在于將機(jī)器人的無線感知能力作為協(xié)同決策的基礎(chǔ),基于感知信息實(shí)現(xiàn)了對(duì)全局狀態(tài)的預(yù)估,因此每個(gè)機(jī)器人都可以將群體性能最大化作為目標(biāo)進(jìn)行獨(dú)立自主地學(xué)習(xí)。
圖2 機(jī)器人協(xié)同決策模型
具體來說,每個(gè)機(jī)器人將對(duì)其他機(jī)器人的行為預(yù)估作為自身狀態(tài)信息的一部分輸入神經(jīng)網(wǎng)絡(luò),根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出執(zhí)行對(duì)應(yīng)的動(dòng)作。機(jī)器人的協(xié)同決策模型主要根據(jù)目標(biāo)任務(wù)構(gòu)建,相關(guān)參數(shù)定義如下:
① 狀態(tài)空間S。如圖1所示,機(jī)器人在園區(qū)作業(yè)時(shí),狀態(tài)空間主要包括自身狀態(tài)和環(huán)境狀態(tài),自身狀態(tài)主要包括當(dāng)前機(jī)器人對(duì)其他機(jī)器人的行為估計(jì)信息yi,環(huán)境狀態(tài)包括大尺度衰落參數(shù),如式(3)的路徑損耗指數(shù)α和陰影因子σ。機(jī)器人i的狀態(tài)信息為:
Si={yi,αi,σi},
(5)
其中,yi={y′i,1,y′i,2…,y′i,li},li為機(jī)器人i的感知空間大小,即其最多可精確感知到的無線信號(hào)傳輸鏈路的數(shù)量,其中y′i,k為機(jī)器人i在當(dāng)前時(shí)刻對(duì)機(jī)器人k的預(yù)估行為,其實(shí)際值為估計(jì)的機(jī)器人k在當(dāng)前時(shí)刻選擇的標(biāo)定節(jié)點(diǎn)。
② 動(dòng)作空間A。機(jī)器人在協(xié)作定位時(shí),動(dòng)作空間A是機(jī)器人當(dāng)前可選擇的標(biāo)定節(jié)點(diǎn)集合,機(jī)器人i的動(dòng)作空間為:
Ai={1,2,…,N},
(6)
其中,N為標(biāo)定節(jié)點(diǎn)總數(shù)。
③ 狀態(tài)轉(zhuǎn)移Π。狀態(tài)轉(zhuǎn)移矩陣Π表示執(zhí)行完本次定位過程后,環(huán)境的真實(shí)狀態(tài)。使用Boltamznn選擇策略來定義狀態(tài)轉(zhuǎn)移概率,具體如式(19)所示。
④ 即時(shí)獎(jiǎng)勵(lì)R。即時(shí)獎(jiǎng)勵(lì)R表示機(jī)器人在當(dāng)前狀態(tài)S下根據(jù)狀態(tài)轉(zhuǎn)移矩陣Π采取動(dòng)作A后所獲得的即時(shí)獎(jiǎng)勵(lì)R(S,A)。在機(jī)器人協(xié)作定位過程中,機(jī)器人i的即時(shí)獎(jiǎng)勵(lì)ri由兩部分組成,第一部分ri1為機(jī)器人接收的定位信號(hào)信噪比SNR,且SNR>SNRthr,否則,即時(shí)獎(jiǎng)勵(lì)ri1記為0,如下式所示:
(7)
在本文的協(xié)同決策模型中,機(jī)器人會(huì)基于感知信息實(shí)現(xiàn)對(duì)其他機(jī)器人的行為預(yù)估,并且在選擇自身行為時(shí),會(huì)將這些預(yù)估行為排除在外,因此可選的動(dòng)作數(shù)會(huì)減少。這種決策自由度的降低可能影響機(jī)器人自身的性能,為了鼓勵(lì)機(jī)器人參與協(xié)作,實(shí)現(xiàn)對(duì)其他機(jī)器人更精準(zhǔn)的行為預(yù)估,需要對(duì)機(jī)器人犧牲自身性能的行為進(jìn)行補(bǔ)償,因此引入即時(shí)獎(jiǎng)勵(lì)ri2:
(8)
其中,li為機(jī)器人i的感知空間大小,定義為最多可精確感知到周邊機(jī)器人的無線定位信號(hào)數(shù)量,l′i為機(jī)器人i感知空間中預(yù)估行為與實(shí)際行為相同的機(jī)器人數(shù)量,即y′i,k=ak。因此,機(jī)器人i的即時(shí)獎(jiǎng)勵(lì)為:
ri=ri1+ri2。
(9)
本文的多機(jī)器人協(xié)作定位模型是將每個(gè)機(jī)器人作為一個(gè)智能體進(jìn)行分布式學(xué)習(xí)與分布式?jīng)Q策,目標(biāo)是在滿足每個(gè)機(jī)器人定位要求的前提下最大化機(jī)器群體的定位性能。設(shè)定每個(gè)機(jī)器人的定位性能要求相同,所有機(jī)器人具有一個(gè)共同的目標(biāo),即最大化所有機(jī)器人累積的長(zhǎng)期預(yù)期獎(jiǎng)勵(lì)。每個(gè)機(jī)器人在當(dāng)前狀態(tài)st,按策略π執(zhí)行動(dòng)作后期望獲得的累計(jì)折扣回報(bào)為:
Jπ(st)=E[rt+γ×rt+1+γ2×rt+2+…+γH×rt+H],
(10)
其中,H為迭代次數(shù);γ為折扣因子,表示未來的獎(jiǎng)勵(lì)對(duì)現(xiàn)在狀態(tài)影響的大小,γ越大表示越重視未來的獎(jiǎng)勵(lì),且0<γ≤1。為了實(shí)現(xiàn)式(10)中的共同目標(biāo),本文的多機(jī)器人協(xié)同決策模型中每個(gè)機(jī)器人的即時(shí)獎(jiǎng)勵(lì)R和狀態(tài)轉(zhuǎn)移是所有機(jī)器人聯(lián)合行動(dòng)的函數(shù)。相對(duì)于原來的強(qiáng)化學(xué)習(xí)方案中智能體在特定狀態(tài)下選擇使其自身性能最大的策略,智能體在協(xié)同決策模型中的任務(wù)是選擇最佳的混合策略,以最大化機(jī)器群體的性能。
將機(jī)器人的標(biāo)定節(jié)點(diǎn)選擇過程建模為多態(tài)馬爾科夫鏈,機(jī)器人的每個(gè)決策結(jié)果為馬爾科夫鏈的一個(gè)狀態(tài),比如機(jī)器人k可選擇的標(biāo)定節(jié)點(diǎn)數(shù)為N,其在N個(gè)狀態(tài)之間轉(zhuǎn)換,并且下一狀態(tài)只與前一狀態(tài)有關(guān),而與之前的歷史狀態(tài)無關(guān)。因此,只要知道狀態(tài)轉(zhuǎn)移概率和當(dāng)前的狀態(tài),則可實(shí)現(xiàn)對(duì)下一狀態(tài)的預(yù)估[15]。但在實(shí)際中,狀態(tài)轉(zhuǎn)移概率是不可能預(yù)知的,并且當(dāng)環(huán)境狀況動(dòng)態(tài)變化時(shí),狀態(tài)轉(zhuǎn)移概率也在改變,因此無法對(duì)該多態(tài)馬爾科夫鏈進(jìn)行靜態(tài)建模。為了實(shí)現(xiàn)對(duì)機(jī)器人下一狀態(tài)的精確預(yù)估,引入能表征機(jī)器人決策軌跡的記錄窗口,大小為μ的記錄窗口存儲(chǔ)著該機(jī)器人最近μ次的實(shí)際行為。
設(shè)定機(jī)器人i的感知空間大小為li,即最多能同時(shí)預(yù)估li個(gè)機(jī)器人的動(dòng)作,并且li中的每個(gè)機(jī)器人都有一個(gè)動(dòng)作估計(jì)空間,存儲(chǔ)該機(jī)器人所有可能的動(dòng)作。由于在本文的標(biāo)定節(jié)點(diǎn)選擇模型中,每個(gè)標(biāo)定節(jié)點(diǎn)都可被機(jī)器人選擇,因此設(shè)定每個(gè)機(jī)器人的動(dòng)作估計(jì)空間都為一個(gè)固定大小的離散集合,其大小為N,即標(biāo)定節(jié)點(diǎn)總數(shù)。比如機(jī)器人i對(duì)機(jī)器人k的動(dòng)作估計(jì)空間yi,k={yi,k,1,yi,k,2,…,yi,k,N},其中yi,k,j為機(jī)器人i對(duì)機(jī)器人k的第j個(gè)估計(jì)行為,即預(yù)估其選擇標(biāo)定節(jié)點(diǎn)j。
(11)
wt=1-(t0-t)/μ。
(12)
可見,在大小為μ的記錄窗口內(nèi)所有權(quán)重都是正的。機(jī)器人i在t0時(shí)刻按照式(11)~(12)計(jì)算yi,k中所有行為的估計(jì)傾向度,并選擇估計(jì)傾向度最大的行為作為對(duì)機(jī)器人k的預(yù)估行為y′i,k。
這種基于模型的行為預(yù)估方法容易陷入“無限回歸”的狀態(tài),具體來說,若機(jī)器人i預(yù)估機(jī)器人k的行為y′i,k=yi,k,j,即估計(jì)其選擇標(biāo)定節(jié)點(diǎn)j,同時(shí)機(jī)器人k預(yù)估機(jī)器人i的行為y′k,i=yk,i,j,則機(jī)器人i和機(jī)器人k都會(huì)在自身的動(dòng)作空間中排除標(biāo)定節(jié)點(diǎn)j,導(dǎo)致標(biāo)定節(jié)點(diǎn)j不會(huì)被任一機(jī)器人選擇。若標(biāo)定節(jié)點(diǎn)j對(duì)應(yīng)的鏈路狀態(tài)很好,這種情況會(huì)導(dǎo)致很大的性能損失。為了解決上述問題,每個(gè)機(jī)器人應(yīng)額外緩存其自身的記錄空間,便于獲取其他機(jī)器人對(duì)自身的預(yù)估結(jié)果。比如機(jī)器人i計(jì)算其選擇標(biāo)定節(jié)點(diǎn)j的傾向度最大,且為ρ(yi,i,j),同時(shí)計(jì)算出機(jī)器人k選擇標(biāo)定節(jié)點(diǎn)j的傾向度ρ(yi,k,j)也最大,則機(jī)器人i比較這兩個(gè)傾向度并基于比較結(jié)果調(diào)整其預(yù)估結(jié)果:
(13)
如式(13),若ρ(yi,k,j)>ρ(yi,i,j),則機(jī)器人i對(duì)機(jī)器人k的預(yù)估行為y′i,k仍為yi,k中估計(jì)傾向度最大的行為yi,k,j;反之,則機(jī)器人i對(duì)機(jī)器人k的預(yù)估行為y′i,k為yi,k中估計(jì)傾向度第二大的行為yi,k,q。
上述僅為“無限回歸”的一個(gè)特例,在每個(gè)機(jī)器人緩存自身的記錄空間基礎(chǔ)上,通用的例子為機(jī)器人對(duì)多個(gè)機(jī)器人的預(yù)估行為相同,應(yīng)使用如下循環(huán)比較過程對(duì)其估計(jì)結(jié)果進(jìn)行調(diào)整。
算法1:機(jī)器人的行為估計(jì)結(jié)果調(diào)整① 初始化:機(jī)器人i的行為估計(jì)結(jié)果為yi= y'i,1,…yi,i',…,y'i,li ② 判斷:是否yi中存在相同元素? a) 如果是,進(jìn)入③; b) 否則,進(jìn)入④;③ 循環(huán)過程: a) 是否yi中存在多組相同元素? ⅰ.如果是:計(jì)算所有組中所有相同元素的傾向度,并比較每組的最大傾向度,將傾向度最大的組設(shè)定為當(dāng)前組; ⅱ.否則:直接進(jìn)入b) b) 將當(dāng)前組中除最大傾向度元素之外的所有元素調(diào)整為比原傾向度低一級(jí)的元素; c) Continue;④ 輸出行為估計(jì)結(jié)果yi;
傳統(tǒng)的Q學(xué)習(xí)算法在智能體數(shù)量很多時(shí)需要處理巨大的數(shù)據(jù)量,導(dǎo)致存儲(chǔ)空間需求急劇增加,計(jì)算效率急劇下降,收斂速度很慢[16]。采用神經(jīng)網(wǎng)絡(luò)映射的DQN算法可以有效解決上述問題,將Q表的更新變?yōu)楹瘮?shù)的擬合過程,通過神經(jīng)網(wǎng)絡(luò)代替Q表產(chǎn)生Q值,可以獲得當(dāng)前狀態(tài)下最優(yōu)的動(dòng)作選擇,具有更好的泛化能力。此外,DQN通過將歷史數(shù)據(jù)存儲(chǔ)在經(jīng)驗(yàn)池中,并通過隨機(jī)采樣的方式減少樣本之間的相關(guān)性,加快了算法的收斂[17]。但Q學(xué)習(xí)與DQN都存在過高估計(jì)的問題。文獻(xiàn)[18]提出了Double DQN的方法,對(duì)動(dòng)作選擇和策略估計(jì)平均采用不同的神經(jīng)網(wǎng)絡(luò)模型,有效解決了單個(gè)神經(jīng)網(wǎng)絡(luò)存在的過高估計(jì)問題,有助于獲取更加準(zhǔn)確有效的Q值。
本文的DDHQN算法也使用兩個(gè)Q神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代更新。估值網(wǎng)絡(luò)QA參與訓(xùn)練并記錄每個(gè)〈狀態(tài)-行為〉對(duì)的實(shí)際累計(jì)獎(jiǎng)勵(lì),在訓(xùn)練中不斷更新參數(shù)以優(yōu)化其動(dòng)作選擇策略。目標(biāo)網(wǎng)絡(luò)QB不參與訓(xùn)練,只負(fù)責(zé)保存訓(xùn)練過程中QA網(wǎng)絡(luò)的參數(shù),利用這些參數(shù)可以計(jì)算訓(xùn)練期間的損失值,并根據(jù)損失值調(diào)整QA網(wǎng)絡(luò)的參數(shù),以避免過高估計(jì)的問題。QA網(wǎng)絡(luò)和QB網(wǎng)絡(luò)具有如圖3所示的相同結(jié)構(gòu),但具有不同的權(quán)重θA和θB。為了提升收斂性能,每隔一定的迭代次數(shù)就對(duì)QB網(wǎng)絡(luò)的權(quán)重θB進(jìn)行一次更新,以使QB網(wǎng)絡(luò)更快收斂到實(shí)際的Q值。本文將Q神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本建模為四元組〈si,ai,ri,si′〉,其中si為機(jī)器人i當(dāng)前的狀態(tài),包括估計(jì)信息yi、路徑損耗指數(shù)αi和陰影因子σi,即si=〈yi,αi,σi〉;ai為當(dāng)前所選擇的動(dòng)作,即所選的標(biāo)定節(jié)點(diǎn)標(biāo)識(shí);ri為狀態(tài)si下采取動(dòng)作ai的即時(shí)獎(jiǎng)勵(lì),si′為狀態(tài)si下采取動(dòng)作ai后轉(zhuǎn)移到的下一狀態(tài)。構(gòu)建圖3所示的神經(jīng)網(wǎng)絡(luò),輸入為當(dāng)前的狀態(tài)si,在狀態(tài)si下根據(jù)動(dòng)作選擇策略選擇動(dòng)作ai,獲得即時(shí)獎(jiǎng)勵(lì)ri作為網(wǎng)絡(luò)的輸出。
圖3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
在上述雙Q神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,將機(jī)器人的感知信息引入訓(xùn)練過程并構(gòu)建了圖4所示的雙重超Q神經(jīng)網(wǎng)絡(luò)(DDHQN),其中每個(gè)機(jī)器人的學(xué)習(xí)目標(biāo)為找到一個(gè)策略π,使得在任意狀態(tài)s下按照該策略π執(zhí)行動(dòng)作a,可以最大化下述的目標(biāo)函數(shù):
(14)
如圖4所示,用戶i在每次決策前將當(dāng)前的狀態(tài)信息si輸入估值網(wǎng)絡(luò)QA,并根據(jù)QA的輸出執(zhí)行動(dòng)作ai,在獲得即時(shí)獎(jiǎng)勵(lì)ri后,將自身樣本〈si,ai,ri,s′i〉放入經(jīng)驗(yàn)池中進(jìn)行訓(xùn)練。若經(jīng)驗(yàn)池中的樣本量達(dá)到最大值,則從中取出m個(gè)樣本來計(jì)算目標(biāo)獎(jiǎng)勵(lì),其中樣本〈sj,aj,rj,s′j〉的目標(biāo)獎(jiǎng)勵(lì)為:
圖4 多機(jī)器人DDHQN模型
(15)
其中,s′j為用戶在狀態(tài)sj下執(zhí)行完動(dòng)作aj轉(zhuǎn)移到的下一狀態(tài)。γj為折扣因子,表示未來的獎(jiǎng)勵(lì)對(duì)現(xiàn)在狀態(tài)影響的大小,γj越大表示越重視未來的獎(jiǎng)勵(lì),且0<γj≤1。
通過貝葉斯公式計(jì)算這m個(gè)樣本的均方根誤差(Mean Squared Error,MSE),即預(yù)期獎(jiǎng)勵(lì)與實(shí)際獎(jiǎng)勵(lì)的差值:
(16)
使用式(16)的均方差損失函數(shù),通過神經(jīng)網(wǎng)絡(luò)的梯度反向傳播對(duì)QA網(wǎng)絡(luò)的參數(shù)θA進(jìn)行更新。
由于每個(gè)用戶在使用估值網(wǎng)絡(luò)QA進(jìn)行動(dòng)作選擇時(shí),不能只選擇具有最大QA值的動(dòng)作,而是需要以一定概率探索其他動(dòng)作,以在不同的信道條件下積累經(jīng)驗(yàn),最終收斂到最穩(wěn)定有效的決策方案。為了使用戶能遍歷到所有動(dòng)作,引入Boltamznn選擇策略,為所有的QA(si,ai;θA)都賦予一定的概率,QA(si,ai;θA)值越高,則選擇行為ai的概率值也越高;反之,行為ai被賦予較低的概率[19]。機(jī)器人i在狀態(tài)si下選擇動(dòng)作空間Ai中任意動(dòng)作ai的概率為:
(17)
T(t)=K·βt-1,
(18)
其中,β∈(0,1)為利用率,K為初始控制參數(shù)。為使用戶在最開始實(shí)現(xiàn)充分的探索,K應(yīng)設(shè)定為較大的正數(shù)。
通過構(gòu)建上述基于DDHQN的多機(jī)器人協(xié)同決策模型,每個(gè)機(jī)器人按照下述過程同時(shí)進(jìn)行分布式學(xué)習(xí):
① 初始化經(jīng)驗(yàn)池大小D、折扣因子γ、訓(xùn)練次數(shù)H、機(jī)器人數(shù)M、行為數(shù)N、目標(biāo)網(wǎng)絡(luò)參數(shù)更新周期c,感知空間大小l;
② 開始迭代t=1;
若記錄窗口未滿,則機(jī)器人i對(duì)其感知空間內(nèi)的機(jī)器人進(jìn)行隨機(jī)行為預(yù)估;若記錄窗口已滿,則機(jī)器人i對(duì)其感知空間內(nèi)的每個(gè)機(jī)器人按照式(11)計(jì)算行為傾向度,選擇傾向度最大的行為作為預(yù)估行為,使用算法1對(duì)估計(jì)結(jié)果進(jìn)行調(diào)整并更新yi(t)={y′i,1,y′i,2,…,y′i,li};
機(jī)器人i向神經(jīng)網(wǎng)絡(luò)輸入狀態(tài)si(t)={yi(t),αi(t),σi(t)};
③ 機(jī)器人i按照式(17)計(jì)算動(dòng)作空間Ai中每個(gè)動(dòng)作的概率pi(t)(ai),并進(jìn)行動(dòng)作選擇;
④ 機(jī)器人i執(zhí)行動(dòng)作ai:
機(jī)器人i向其選擇的標(biāo)定節(jié)點(diǎn)發(fā)射定位信號(hào),并接收其返回的定位信號(hào);
機(jī)器人i測(cè)量定位信號(hào)的接收信噪比,并按照式(7)計(jì)算即時(shí)獎(jiǎng)勵(lì)ri1;
機(jī)器人i感知周圍l個(gè)機(jī)器人的行為,并按照式(8)計(jì)算即時(shí)獎(jiǎng)勵(lì)ri2;
獲得即時(shí)獎(jiǎng)勵(lì)ri=ri1+ri2;
⑤ 機(jī)器人i更新其感知空間中每個(gè)機(jī)器人的記錄窗口;
⑥ 將〈si,ai,ri,si′〉存入經(jīng)驗(yàn)池;
⑦ 判斷經(jīng)驗(yàn)池中的數(shù)據(jù)量是否達(dá)到D:
a) 若達(dá)到D,則從經(jīng)驗(yàn)池中隨機(jī)抽取m個(gè)樣本計(jì)算MSE,并更新估值網(wǎng)絡(luò)QA相關(guān)參數(shù);
b) 若未達(dá)到D,重復(fù)步驟②~⑧;
⑧ 判斷迭代次數(shù)是否為c的倍數(shù),如果是,則更新目標(biāo)網(wǎng)絡(luò)QB的相關(guān)參數(shù);
⑨ 判斷迭代次數(shù)是否達(dá)到額定次數(shù)H:
a) 若未達(dá)到H,則重復(fù)步驟②~⑨;
b) 若達(dá)到H,則訓(xùn)練結(jié)束;
按照?qǐng)D1的系統(tǒng)模型對(duì)DDHQN算法進(jìn)行仿真,系統(tǒng)模型相關(guān)參數(shù)設(shè)置如下:定位信號(hào)發(fā)射功率PT=10 W,發(fā)射天線增益GT=10 dBm,接收天線增益GR=10 dBm,噪聲的單邊功率譜密度N0=-174 dBm/Hz,信號(hào)頻率fc=60 GHz,信號(hào)帶寬B=1 GHz,信號(hào)傳輸速率c=3×108m/s。DDHQN算法相關(guān)參數(shù)初始化如下:對(duì)未來獎(jiǎng)勵(lì)值的重視程度γ=0.8,探索與利用函數(shù)的初始控制系數(shù)K=10,利用率β=0.8,感知空間大小l=5,訓(xùn)練次數(shù)H=100,經(jīng)驗(yàn)池大小D=5,樣本數(shù)m=3,目標(biāo)網(wǎng)絡(luò)更新周期c=3。
圖5為所提DDHQN算法中機(jī)器人群體的整體定位性能與單個(gè)機(jī)器人定位性能隨訓(xùn)練次數(shù)的變化,其中設(shè)定機(jī)器人數(shù)量M=5,標(biāo)定節(jié)點(diǎn)數(shù)量N=10,并且單個(gè)機(jī)器人為機(jī)器群體中任意選擇的機(jī)器人。圖6為DDHQN算法與DDQN算法中機(jī)器人群體的定位性能隨訓(xùn)練次數(shù)的變化,其中設(shè)定機(jī)器人數(shù)量M=10,標(biāo)定節(jié)點(diǎn)數(shù)量N=30。圖7為所提DDHQN算法中不同的標(biāo)定節(jié)點(diǎn)數(shù)與機(jī)器人數(shù)之比對(duì)機(jī)器人群體定位性能的影響,其中機(jī)器人數(shù)量不變,M=10。圖8為所提DDHQN算法中感知空間大小不同對(duì)機(jī)器群體定位性能的影響,其中M=10,N=30。
圖5 DDHQN中群體獎(jiǎng)勵(lì)與個(gè)人獎(jiǎng)勵(lì)對(duì)比圖
從圖5可知,DDHQN算法中群體獎(jiǎng)勵(lì)與個(gè)體獎(jiǎng)勵(lì)均在訓(xùn)練初期有較大波動(dòng),并隨著訓(xùn)練次數(shù)逐漸收斂到最大值。并且,群體獎(jiǎng)勵(lì)與個(gè)體獎(jiǎng)勵(lì)的收斂時(shí)間點(diǎn)相近,可以推斷出在多機(jī)器人朝向共同目標(biāo)學(xué)習(xí)過程中,每個(gè)機(jī)器人的學(xué)習(xí)階段大致相似,在相同的時(shí)間完成經(jīng)驗(yàn)的積累并收斂到最佳性能。此外可以看出,該單個(gè)機(jī)器人獲得的獎(jiǎng)勵(lì)并不等于群體機(jī)器人的獎(jiǎng)勵(lì)除以機(jī)器人總數(shù),因此每個(gè)機(jī)器人的最大獎(jiǎng)勵(lì)并不相同。在多機(jī)器人朝向共同目標(biāo)學(xué)習(xí)的過程中,每個(gè)機(jī)器人進(jìn)行行為預(yù)估的準(zhǔn)確度可能不同,因而訓(xùn)練收斂后獲得的最大獎(jiǎng)勵(lì)可能各不相同。
從圖6可知,在訓(xùn)練初期,機(jī)器人還未對(duì)環(huán)境進(jìn)行充分的探索,因此DDHQN算法與DDQN算法所獲得的群體獎(jiǎng)勵(lì)近似相等。隨著訓(xùn)練次數(shù)的增加,由于DDHQN算法可以使機(jī)器人獲得更多的環(huán)境信息,其相比于DDQN算法可以獲得更大的群體獎(jiǎng)勵(lì)。并且當(dāng)機(jī)器人累積了足夠的經(jīng)驗(yàn)并完成收斂后,DDHQN算法收斂到的最大群體獎(jiǎng)勵(lì)大約為DDQN算法獲得最大獎(jiǎng)勵(lì)的155%。
圖6 DDHQN算法與DDQN算法的群體獎(jiǎng)勵(lì)對(duì)比圖
從圖7可知,標(biāo)定節(jié)點(diǎn)數(shù)與機(jī)器人數(shù)量的比值越大,即平均每個(gè)機(jī)器人可選擇的標(biāo)定節(jié)點(diǎn)越多,則機(jī)器人選擇的標(biāo)定節(jié)點(diǎn)對(duì)應(yīng)鏈路狀況更好的可能性增加,因此獲得更多的獎(jiǎng)勵(lì),進(jìn)而機(jī)器群體獲得的獎(jiǎng)勵(lì)也越多。
圖7 標(biāo)定節(jié)點(diǎn)數(shù)與機(jī)器人數(shù)之比對(duì)群體性能的影響
通過圖7可看出,標(biāo)定節(jié)點(diǎn)數(shù)與機(jī)器人數(shù)量的比值越大,每個(gè)機(jī)器人需要學(xué)習(xí)更多的環(huán)境信息,導(dǎo)致DDHQN算法的收斂速度相對(duì)較慢,但這種微小的差別不會(huì)對(duì)群體性能造成太大的影響。
從圖8可知,每個(gè)機(jī)器人感知空間越大,機(jī)器群體所獲得的獎(jiǎng)勵(lì)越多。這是因?yàn)樵酱蟮母兄臻g可以使得機(jī)器人獲得更多的環(huán)境信息,對(duì)更多數(shù)量的機(jī)器人進(jìn)行行為預(yù)估,進(jìn)而選擇適合自身的標(biāo)定節(jié)點(diǎn)。綜上所述,相比于DDQN算法,DDQHN算法使得機(jī)器人獲得更多的環(huán)境信息,因此具有更強(qiáng)的學(xué)習(xí)能力和獲得更多獎(jiǎng)勵(lì)的潛力。隨著訓(xùn)練次數(shù)的增加,機(jī)器人逐漸學(xué)習(xí)到新狀態(tài)下所應(yīng)執(zhí)行的策略,最終在各種狀態(tài)下均能收斂到最佳策略。
圖8 感知空間的大小對(duì)群體性能的影響
上述仿真結(jié)果驗(yàn)證了本文所提DDHQN算法有效解決了多機(jī)器人協(xié)作定位時(shí)的決策沖突問題,在一定的迭代次數(shù)后每個(gè)機(jī)器人均能收斂到穩(wěn)定有效的決策方案。本算法中每個(gè)機(jī)器人的定位性能均能維持在較優(yōu)的水平,在標(biāo)定節(jié)點(diǎn)數(shù)量有限的條件下實(shí)現(xiàn)了機(jī)器群體定位性能的最大化,為工業(yè)機(jī)器人的實(shí)際部署提供了充足的理論依據(jù)。
針對(duì)多機(jī)器人協(xié)作定位時(shí)的標(biāo)定節(jié)點(diǎn)選擇問題,本文提出一種基于雙重深度超Q神經(jīng)網(wǎng)絡(luò)(DDHQN)的多機(jī)器人協(xié)同決策算法。在DDQN算法的基礎(chǔ)上,引入機(jī)器人的無線感知功能,并基于記錄的決策軌跡實(shí)現(xiàn)對(duì)其他機(jī)器人的行為預(yù)估,依據(jù)估計(jì)結(jié)果調(diào)整自身的行為選擇策略可以有效解決機(jī)器人之間的決策沖突問題。本文提出的DDHQN算法首次將感知信息引入神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,使得多機(jī)器人在實(shí)現(xiàn)共同目標(biāo)方面具有更多的優(yōu)勢(shì)。并且仿真證明了越大的感知空間可使機(jī)器人獲取更多的環(huán)境信息,進(jìn)而具備更強(qiáng)的協(xié)作能力并朝向共同目標(biāo)努力。下一步將考慮在更復(fù)雜的場(chǎng)景模型中對(duì)DDHQN算法進(jìn)行研究與改進(jìn),進(jìn)一步提升智能機(jī)器人的協(xié)作能力和對(duì)動(dòng)態(tài)環(huán)境的適應(yīng)能力。