亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)移動(dòng)機(jī)器人協(xié)同計(jì)算卸載

2022-12-31 00:00:00李少波劉意楊

計(jì)算機(jī)應(yīng)用研究 2022年7期

摘要：移動(dòng)邊緣計(jì)算是解決機(jī)器人大計(jì)算量任務(wù)需求的一種方法。傳統(tǒng)算法基于智能算法或凸優(yōu)化方法，迭代時(shí)間長。深度強(qiáng)化學(xué)習(xí)通過一次前向傳遞即可求解，但只針對固定數(shù)量機(jī)器人進(jìn)行求解。通過對深度強(qiáng)化學(xué)習(xí)分析研究，在深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中輸入層前進(jìn)行輸入規(guī)整，在輸出層后添加卷積層，使得網(wǎng)絡(luò)能夠自適應(yīng)滿足動(dòng)態(tài)移動(dòng)機(jī)器人數(shù)量的卸載需求。最后通過仿真實(shí)驗(yàn)驗(yàn)證，與自適應(yīng)遺傳算法和強(qiáng)化學(xué)習(xí)進(jìn)行對比，驗(yàn)證了所提算法的有效性及可行性。

關(guān)鍵詞：移動(dòng)邊緣計(jì)算；計(jì)算卸載；深度強(qiáng)化學(xué)習(xí)；協(xié)同計(jì)算

中圖分類號：TP242.2 文獻(xiàn)標(biāo)志碼：A

文章編號：1001-3695（2022）07-026-2087-04

doi：10.19734/j.issn.1001-3695.2021.11.0654

基金項(xiàng)目：國家自然科學(xué)基金資助項(xiàng)目（U1908212，6101020101）；遼寧省興遼英才項(xiàng)目（XLYC1907057）；國家重點(diǎn)研發(fā)項(xiàng)目（2018YFB1700200）

作者簡介：李少波（1996-），男，河北邯鄲人，碩士研究生，主要研究方向?yàn)檫吘売?jì)算；劉意楊（1980-），男（通信作者），遼寧沈陽人，研究員，碩導(dǎo)，博士，主要研究方向?yàn)橹悄芸刂婆c智能優(yōu)化（sialiuyiyang@sia.cn）．

Dynamic mobile robot collaborative computing offloading

based on improved deep reinforcement learning

Li Shaobo¹^，2^，3^，4，Liu Yiyang¹^，2^，3^?

（1.Key Laboratory of Networked Control Systems，Chinese Academy of Sciences，Shenyang 110016，China；2.Shenyang Institute of Automation，Chinese Academy of Sciences，Shenyang 110016，China；3.Institutes for Robotics amp; Intelligent Manufacturing，Chinese Academy of Sciences，Shenyang 110169，China；4.University of Chinese Academy of Sciences，Beijing 100049，China）

Abstract：Mobile edge computing is a method to solve the computing-intensive task requirements of robots.Traditional algorithms are based on intelligent algorithms or convex optimization methods，and the iteration time is long.Deep reinforcement learning can be solved in a single forward pass，but only for a fixed number of robots.Through the analysis and research of deep reinforcement learning，this paper performed input regularization before the input layer in the deep reinforcement learning neural network，and added a convolution layer after the output layer so that the network could adaptively meet the unloading requirements of the number of dynamic mobile robots.Finally，it carried out the simulation experiments to verify the effectiveness and feasibility of proposed algorithm，compared with the adaptive genetic algorithm and reinforcement learning.

Key words：mobile edge computing；compute unload；deep reinforcement learning；collaborative computing

0 引言

伴隨近年來嵌入式、傳感器以及大數(shù)據(jù)人工智能技術(shù)在相關(guān)領(lǐng)域不斷發(fā)展，機(jī)器人技術(shù)逐漸覆蓋到人們生活各個(gè)方面，尤其是在移動(dòng)機(jī)器人領(lǐng)域，根據(jù)國際機(jī)器人聯(lián)合會(huì)（IFR）發(fā)布的《2021年世界機(jī)器人—服務(wù)機(jī)器人報(bào)告》，在2021年全球范圍內(nèi)專業(yè)服務(wù)機(jī)器人相比2020年增長了12%，目前有三分之一專業(yè)機(jī)器人用于貨物運(yùn)輸，移動(dòng)機(jī)器人和送貨機(jī)器人增長了11%^［1^］。位于網(wǎng)絡(luò)邊緣移動(dòng)機(jī)器人是提供服務(wù)的重要載體，可以就近提供邊緣智能服務(wù)。近些年來人們嘗試將移動(dòng)機(jī)器人應(yīng)用于救援場景進(jìn)行信息收集或用于小區(qū)無人送貨場景，然而受限于移動(dòng)機(jī)器人自身體積以及計(jì)算能力限制，難以進(jìn)行應(yīng)對各種非結(jié)構(gòu)化環(huán)境以及計(jì)算密集型任務(wù)需求。為提高移動(dòng)機(jī)器人執(zhí)行任務(wù)的能力，文獻(xiàn)［2］在2010年提出“云機(jī)器人”概念，通過借助通信技術(shù)以及云計(jì)算技術(shù)，使機(jī)器人的運(yùn)算工作在云端完成，執(zhí)行工作在移動(dòng)機(jī)器人完成，打通了移動(dòng)機(jī)器人與人工智能之間的壁壘，但這就需要解決云機(jī)器人的任務(wù)卸載問題。文獻(xiàn)［3］對云機(jī)器人系統(tǒng)從網(wǎng)絡(luò)架構(gòu)以及網(wǎng)絡(luò)資源兩個(gè)角度進(jìn)行網(wǎng)絡(luò)優(yōu)化，同時(shí)在計(jì)算卸載方面，提出一種能耗敏感的計(jì)算卸載策略對計(jì)算任務(wù)卸載。伴隨著移動(dòng)機(jī)器人移動(dòng)服務(wù)范圍擴(kuò)大，文獻(xiàn)［4］提出一種將環(huán)境、任務(wù)、領(lǐng)域進(jìn)行模塊分解，在各個(gè)模塊之間進(jìn)行知識共享的知識型云機(jī)器人。文獻(xiàn)［5］提出一種基于市場管理策略多傳感數(shù)據(jù)檢索框架來提高機(jī)器人和云服務(wù)器之間動(dòng)態(tài)協(xié)作能力。文獻(xiàn)［6］提供一個(gè)云機(jī)器人平臺，允許機(jī)器人訪問平臺中的知識庫，便于機(jī)器人在云端部署。文獻(xiàn)［7］提出一種云機(jī)器人架構(gòu)，能夠支持機(jī)器人到機(jī)器人以及機(jī)器人到云通信，通過彈性計(jì)算模型，使得機(jī)器人相互之間能夠共享信息以及任務(wù)卸載。在云機(jī)器人中，機(jī)器人與云服務(wù)器之間通過網(wǎng)絡(luò)傳輸數(shù)據(jù)和應(yīng)用過程中會(huì)出現(xiàn)網(wǎng)絡(luò)延遲并且占用過多網(wǎng)絡(luò)資源^［8^］。

邊緣計(jì)算的出現(xiàn)可以將計(jì)算云機(jī)器人任務(wù)卸載到邊緣服務(wù)器進(jìn)行，降低網(wǎng)絡(luò)延遲以及網(wǎng)絡(luò)占用率。文獻(xiàn)［9］提出一種基于邊緣計(jì)算云機(jī)器人系統(tǒng)，探討四種對于在邊緣側(cè)服務(wù)器實(shí)現(xiàn)這種云原生機(jī)器人可行性方案；文獻(xiàn)［10］討論邊緣計(jì)算在設(shè)備、車間、企業(yè)三個(gè)制造層次中的使用，建立機(jī)器人柔性自適應(yīng)加工制造模型；文獻(xiàn)［11］考慮邊緣網(wǎng)絡(luò)動(dòng)態(tài)性，使用光纖無線增強(qiáng)網(wǎng)絡(luò)通信能力，提出一種基于軟件定義網(wǎng)絡(luò)負(fù)載均衡任務(wù)卸載方案；文獻(xiàn)［12］提出一種停車邊緣計(jì)算概念，旨在充分利用空閑資源；文獻(xiàn)［13］基于任務(wù)相似性以及計(jì)算能力相似性，將移動(dòng)機(jī)器人劃分為兩個(gè)子集合，提出一種協(xié)同任務(wù)計(jì)算的計(jì)算方式，降低向邊緣服務(wù)器卸載任務(wù)量；文獻(xiàn)［14］提出一種車輛鄰居概念，構(gòu)架一種邊緣網(wǎng)絡(luò)體系結(jié)構(gòu)，根據(jù)移動(dòng)車輛數(shù)據(jù)觀測進(jìn)行分組，并進(jìn)行組內(nèi)相似任務(wù)共享服務(wù)；文獻(xiàn)［15］提出一種基于深度強(qiáng)化學(xué)習(xí)計(jì)算卸載算法，將計(jì)算任務(wù)分為耐延遲以及非耐延遲類型，對于非耐延遲類型卸載至邊緣服務(wù)器計(jì)算，耐延遲卸載至云服務(wù)器計(jì)算，提高整體計(jì)算效益；文獻(xiàn)［16］基于上行和下行流量差異提出上下文分析和基于凸優(yōu)化計(jì)算卸載策略；文獻(xiàn)［17］研究邊緣計(jì)算中設(shè)備周期性產(chǎn)生密集型計(jì)算任務(wù)場景，在該場景建立博弈論模型，提出一種計(jì)算邊緣側(cè)調(diào)度算法；文獻(xiàn)［18］引入一種設(shè)備和設(shè)備之間協(xié)作中繼，提出一種基于博弈論的卸載調(diào)度和負(fù)載均衡方案；文獻(xiàn)［19］研究邊緣計(jì)算中邊緣設(shè)備的移動(dòng)性以及邊緣服務(wù)器可遷移性，構(gòu)建一種可遷移的移動(dòng)性計(jì)算框架，通過深度強(qiáng)化學(xué)習(xí)算法來進(jìn)行設(shè)備計(jì)算卸載以及遷移決策優(yōu)化；文獻(xiàn)［20］提出一種綜合考慮時(shí)延和能耗，基于信譽(yù)值的計(jì)算分配模型，通過改進(jìn)粒子群算法和拉格朗日乘法進(jìn)行求解。

上述文獻(xiàn)對于云機(jī)器人以及移動(dòng)邊緣計(jì)算研究作出很大貢獻(xiàn)，然而都只是針對設(shè)備數(shù)量固定場景進(jìn)行研究，未考慮到移動(dòng)機(jī)器人動(dòng)態(tài)數(shù)量情況下計(jì)算任務(wù)卸載研究。本文針對動(dòng)態(tài)移動(dòng)機(jī)器人場景下進(jìn)行計(jì)算任務(wù)調(diào)度研究，提出一種改進(jìn)深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的調(diào)度算法。

1 系統(tǒng)模型

1.1 多機(jī)器人邊緣計(jì)算場景架構(gòu)

本文假設(shè)在路一側(cè)部署一個(gè)MEC（mobile edge computing）服務(wù)器，在一段長度為400 m，寬度為10 m的直線線路中部署模型，系統(tǒng)由一個(gè)MEC服務(wù)器和若干個(gè)移動(dòng)機(jī)器人組成，如圖1所示。

本文以路線左下角為原點(diǎn)，路長度方向?yàn)閤軸，向右為正方向，寬度為y軸，向上為正方向。MEC服務(wù)器部署在路一側(cè)，MEC服務(wù)器建模為MECS={fs，Ps，Bs，locs}，其中，fs表示MECS的計(jì)算能力，用其CPU的每秒周期數(shù)表示，Ps表示MECS的通信功率，Bs表示MECS的通信帶寬，locs表示MECS的位置。將移動(dòng)機(jī)器人集合表示為R={R1，R2，R3，…，Rn}，第i個(gè)機(jī)器人建模為Ri={fi，Pi，taski，loci}，其中，fi表示第i個(gè)移動(dòng)機(jī)器人計(jì)算能力，用移動(dòng)機(jī)器人CPU每秒周期數(shù)表示，Pi表示第i個(gè)移動(dòng)機(jī)器人發(fā)射功率，taski表示第i個(gè)機(jī)器人產(chǎn)生任務(wù)。task建模為taski= {datai，cyclei}，其中datai表示第i個(gè)任務(wù)數(shù)據(jù)量，cyclei表示每個(gè)任務(wù)中每個(gè)bit數(shù)據(jù)需要的循環(huán)數(shù)量，loci表示第i個(gè)移動(dòng)機(jī)器人位置坐標(biāo)loci = （xi，yi）。將移動(dòng)機(jī)器人與移動(dòng)機(jī)器人之間卸載矩陣表示為式（1），用n來表示移動(dòng)機(jī)器人數(shù)量。

其中：XR2Ri，j表示第i個(gè)和第j個(gè)移動(dòng)機(jī)器人之間的可卸載關(guān)系。移動(dòng)機(jī)器人與MEC服務(wù)器之間的卸載關(guān)系為

MEC服務(wù)器可以覆蓋一個(gè)半徑為r范圍內(nèi)的移動(dòng)機(jī)器人，移動(dòng)機(jī)器人之間可以在距離d^maxRi，Rj之間進(jìn)行通信，每個(gè)移動(dòng)機(jī)器人都可以產(chǎn)生任務(wù)。這個(gè)計(jì)算任務(wù)可以在本地計(jì)算或卸載到MEC服務(wù)器中計(jì)算或者附近通信范圍內(nèi)的移動(dòng)機(jī)器人進(jìn)行計(jì)算，任務(wù)處理后，將處理結(jié)果返回任務(wù)卸載機(jī)器人。

1.2 時(shí)延模型

a）當(dāng)?shù)趇個(gè)移動(dòng)機(jī)器人產(chǎn)生的任務(wù)在本地進(jìn)行計(jì)算時(shí)，本地計(jì)算時(shí)延模型為

b）當(dāng)?shù)趇個(gè)移動(dòng)機(jī)器人產(chǎn)生任務(wù)，卸載至第j個(gè)移動(dòng)機(jī)器人時(shí)，兩個(gè)移動(dòng)機(jī)器人之間的數(shù)據(jù)傳輸速率rRi，Rj為

其中：BRi，Rj表示兩個(gè)移動(dòng)機(jī)器人之間的帶寬；d^-rRi，Rj表示兩個(gè)移動(dòng)機(jī)器人之間的信道系數(shù)；dRi，Rj表示兩個(gè)移動(dòng)機(jī)器人之間的距離；r表示信道衰落因子，此處r=4；N0表示信道噪聲功率。故將計(jì)算任務(wù)傳輸至另一個(gè)移動(dòng)機(jī)器人的傳輸時(shí)延為

承擔(dān)計(jì)算任務(wù)移動(dòng)機(jī)器人的計(jì)算時(shí)間為

本文忽略計(jì)算結(jié)果返回的時(shí)間，故在兩個(gè)移動(dòng)機(jī)器人之間的卸載任務(wù)時(shí)間即為任務(wù)發(fā)送時(shí)間與任務(wù)計(jì)算時(shí)間之和，如式（9）所示。

c）當(dāng)?shù)趇個(gè)移動(dòng)機(jī)器人產(chǎn)生任務(wù)，卸載至MEC服務(wù)器時(shí)，移動(dòng)機(jī)器人與MEC服務(wù)器之間的數(shù)據(jù)傳輸速率為

其中：BRi，MECS表示移動(dòng)機(jī)器人與MEC服務(wù)器之間的帶寬；Pi表示移動(dòng)機(jī)器人與MEC服務(wù)器之間的通信功率；dRi，Rj表示移動(dòng)機(jī)器人與MEC服務(wù)器之間的距離；r表示信道衰落因子，此處r=4，N1表示信道噪聲功率。故將計(jì)算任務(wù)傳輸至MEC服務(wù)器的傳輸時(shí)延為

MEC服務(wù)器計(jì)算時(shí)間為

本文忽略任務(wù)計(jì)算結(jié)果返回時(shí)間，故在MEC服務(wù)器卸載任務(wù)的時(shí)間即為任務(wù)發(fā)送時(shí)間與任務(wù)計(jì)算時(shí)間之和，如式（13）所示。

1.3 移動(dòng)機(jī)器人之間可卸載關(guān)系模型

對于移動(dòng)機(jī)器人之間的卸載關(guān)系，可通過以下要求進(jìn)行計(jì)算，為簡單描述，將發(fā)出任務(wù)卸載機(jī)器人稱為任務(wù)機(jī)，將承擔(dān)任務(wù)計(jì)算的機(jī)器人稱為承擔(dān)機(jī)。

a）任務(wù)機(jī)與承擔(dān)機(jī)之間的卸載關(guān)系需要滿足：承擔(dān)機(jī)計(jì)算能力要高于任務(wù)機(jī)。

其中：fi表示卸載機(jī)的計(jì)算能力；fj表示承擔(dān)機(jī)的計(jì)算能力。當(dāng)承擔(dān)機(jī)計(jì)算能力高于卸載機(jī)計(jì)算能力，承擔(dān)機(jī)才有可能承擔(dān)卸載機(jī)的計(jì)算任務(wù)。

b）任務(wù)機(jī)與承擔(dān)機(jī)之間可通信時(shí)間，用tRi，Rj表示Ri與Rj之間在通信范圍內(nèi)的時(shí)間，即dRi，Rjlt;d^maxRi，Rj時(shí)間長短。

任務(wù)機(jī)與承擔(dān)機(jī)在可通信范圍內(nèi)時(shí)間越長，其承擔(dān)卸載任務(wù)可能性越大。

綜合上述兩個(gè)條件，兩個(gè)機(jī)器人之間的卸載關(guān)系表示為

1.4 卸載決策及優(yōu)化目標(biāo)

為使系統(tǒng)盡可能完成卸載任務(wù)，采用最小化系統(tǒng)總時(shí)延為優(yōu)化目標(biāo)，即系統(tǒng)中所有任務(wù)計(jì)算以及傳輸時(shí)間之和，此處忽略任務(wù)計(jì)算完后結(jié)果傳輸時(shí)間。

2 改進(jìn)深度強(qiáng)化學(xué)習(xí)卸載算法設(shè)計(jì)

本文目標(biāo)是設(shè)計(jì)一個(gè)卸載策略函數(shù)G，使其能夠在得到可卸載矩陣以及任務(wù)后，可以計(jì)算出對應(yīng)卸載矩陣，在這里先將可卸載矩陣XR2R、XR2S和任務(wù)矩陣task轉(zhuǎn)換為行向量X，即

本文學(xué)習(xí)的卸載策略函數(shù)為

其中：Y為卸載策略。而后將卸載策略Y轉(zhuǎn)為卸載矩陣，即

為使算法能夠適應(yīng)不同輸入維度內(nèi)容，若XR2R維度不足100，則首先將可卸載矩陣XR2R以過補(bǔ)零的方式轉(zhuǎn)換為維度為100×100矩陣，task也同樣通過補(bǔ)零的方式轉(zhuǎn)換為100列向量，將XR2S也同樣補(bǔ)零轉(zhuǎn)換為100列向量。其次將轉(zhuǎn)換完的矩陣送入神經(jīng)網(wǎng)絡(luò)中進(jìn)行預(yù)測，生成K組卸載方式矩陣。若XR2R維度不足100，首先將K組卸載方式矩陣分別進(jìn)行卷積，卷積至與XR2R相同維度，得到一組新的可卸載矩陣；得到多組可卸載矩陣后，將多組可卸載矩陣輸入環(huán)境中分別計(jì)算其系統(tǒng)總體時(shí)延；將最優(yōu)卸載方式放入緩存中，若放入數(shù)量超過緩存大小，則將儲存時(shí)間最長的緩存內(nèi)容進(jìn)行替換。待一組預(yù)測完成后，隨機(jī)選擇緩存中一定數(shù)量的內(nèi)容，對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，如此進(jìn)行迭代。偽代碼如下：

算法1 算法計(jì)算過程

輸入：當(dāng)前狀態(tài)。

輸出：卸載動(dòng)作。

初始化DNN，K，經(jīng)驗(yàn)存儲器M，d。

for each episode do：

根據(jù)式（16）計(jì)算出可卸載矩陣XR2R和XR2S，生成任務(wù)矩陣task；

if len（XR2R） lt; 100：

XR2R，XR2S，task擴(kuò)展為100維；

將XR2R，XR2S，task轉(zhuǎn)換為一維數(shù)組X；

DNN（X）得到K組卸載向量Y；

將向量Y轉(zhuǎn)換為卸載矩陣a；

if len（XR2R） lt; 100：

將卸載矩陣a通過卷積卷到len（XR2R）維度；

通過式（17）判斷K組卸載矩陣R2R和R2S最優(yōu)項(xiàng)，放入經(jīng)驗(yàn)池M中；

if經(jīng)過一百個(gè)周期：

從M中隨機(jī)選擇d個(gè)樣本，訓(xùn)練DNN，更新DNN參數(shù)。

Y轉(zhuǎn)換為卸載矩陣的過程為：Y轉(zhuǎn)換成比XR2R多一行的卸載矩陣a。最后一行表示移動(dòng)機(jī)器人向MEC服務(wù)器卸載向量。卷積過程為：此處設(shè)卷積核維度為k，卷積步長為s，卷積步長為

s=100/（n-1）（向下取整）（21）

卷積核k大小為

k=100-（s×（n-1））（22）

卷積核為k×k，卷積核對矩陣a進(jìn)行步長為s的卷積（除去最后一行），對最后一行向量采用1×k卷積核對其進(jìn)行步長為s的卷積，將a卷積為（n+1）×n矩陣。

3 仿真實(shí)驗(yàn)分析

仿真平臺采用Python 3.6+PyTorch 1.9，硬件條件i5-10210U CPU，8 GB內(nèi)存，根據(jù)總體任務(wù)處理時(shí)延和任務(wù)成功率來評估，與自適應(yīng)遺傳算法以及強(qiáng)化學(xué)習(xí)進(jìn)行對比。

3.1 主要參數(shù)設(shè)置

本文參數(shù)設(shè)置如表1所示。

3.2 結(jié)果分析

本文算法網(wǎng)絡(luò)結(jié)構(gòu)為輸入層寬度為100 200，第二層寬度為200，第三層寬度為100，第四層寬度為100 100，中間層激活函數(shù)選用sigmoid，如圖2所示。

在不同步長設(shè)置下收斂速度如圖3所示。從圖3中可以看出，在不同學(xué)習(xí)步長下其收斂速度不一致，在學(xué)習(xí)步長為0.01時(shí)收斂很快，在100步左右收斂；在學(xué)習(xí)步長為0.001時(shí)，在500步左右收斂；在學(xué)習(xí)步長為0.005時(shí)，在1 000步左右收斂；在學(xué)習(xí)步長為0.000 1時(shí)，由于訓(xùn)練中步長過短，未能收斂；當(dāng)學(xué)習(xí)步長為0.01時(shí)，收斂速度過快，有可能是收斂到局部最優(yōu)位置，不能充分學(xué)習(xí)整個(gè)映射函數(shù)特征；在學(xué)習(xí)步長為0.001與0.000 5時(shí)，都有較長迭代時(shí)間，能夠充分學(xué)習(xí)映射特征。為使其能夠?qū)W習(xí)充分，此處采用學(xué)習(xí)步長為0.005。

圖4是在不同任務(wù)概率下的總體時(shí)延情況?？梢钥闯觯殡S著任務(wù)產(chǎn)生概率的升高，各個(gè)方案的總體時(shí)延都逐漸升高，這是因?yàn)檎麄€(gè)系統(tǒng)中的計(jì)算資源是有限的，但任務(wù)密度是逐漸增加的，故整體的時(shí)延增加。與自適應(yīng)遺傳算法和強(qiáng)化學(xué)習(xí)算法相比，自適應(yīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法的總體時(shí)延增加幅度較小，可以看出本文算法的性能更好。

圖5給出在不同任務(wù)概率下的任務(wù)成功率情況?？梢钥闯?，伴隨任務(wù)產(chǎn)生概率增加，各個(gè)方案任務(wù)成功率都有所下降，這是因?yàn)檎麄€(gè)系統(tǒng)中計(jì)算資源是有限的，但任務(wù)密度增加。與自適應(yīng)遺傳算法和強(qiáng)化學(xué)習(xí)算法相比，本文的自適應(yīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法的成功率較高，可以看出本文算法的優(yōu)越性。

與自適應(yīng)遺傳算法和強(qiáng)化學(xué)習(xí)算法相比，在不同設(shè)備數(shù)量下系統(tǒng)總體延遲時(shí)間差別如圖6所示?？梢钥吹?，隨著設(shè)備數(shù)量的增加，系統(tǒng)總體延遲時(shí)間增加，這是因?yàn)榘殡S著移動(dòng)機(jī)器人增加，計(jì)算任務(wù)也會(huì)增加，總體任務(wù)量增加，MEC服務(wù)器計(jì)算資源有限；同時(shí)可以看到伴隨著移動(dòng)機(jī)器人數(shù)量增加，自適應(yīng)遺傳算法卸載策略和強(qiáng)化學(xué)習(xí)算法的卸載策略相對于本文算法卸載策略系統(tǒng)整體時(shí)延增幅越來越大，這主要是因?yàn)楸疚乃惴ㄔ谑褂貌煌瑪?shù)量的機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)，網(wǎng)絡(luò)中有多種工況的經(jīng)驗(yàn)，相較于自適應(yīng)遺傳算法和強(qiáng)化學(xué)習(xí)，本文算法有更好的不同機(jī)器人數(shù)量工況的自適應(yīng)性。

圖7給出在相同任務(wù)時(shí)延要求下，不同移動(dòng)機(jī)器人數(shù)量下各個(gè)方案的失敗率，可以看出，伴隨著邊緣計(jì)算機(jī)器人數(shù)量增加，各個(gè)方案算法成功率都有所降低。相較于自適應(yīng)遺傳算法和強(qiáng)化學(xué)習(xí)算法，本文算法的成功率降低幅度更小，這是因?yàn)殡S著移動(dòng)機(jī)器人數(shù)量增加，系統(tǒng)整體狀態(tài)空間更大，而本文算法在多種工況進(jìn)行學(xué)習(xí)，網(wǎng)絡(luò)中經(jīng)驗(yàn)更豐富，能夠有效適應(yīng)多種不同機(jī)器人數(shù)量的工況。

圖8是在不同移動(dòng)機(jī)器人數(shù)量情況下的算法運(yùn)行時(shí)間。可以看到，伴隨著移動(dòng)機(jī)器人數(shù)量的增加，自適應(yīng)遺傳算法運(yùn)算時(shí)間也是逐漸增加，這是因?yàn)檫z傳算法中交叉與變異操作是按位進(jìn)行的，同時(shí)自適應(yīng)遺傳算法中基因數(shù)量也是伴隨著移動(dòng)機(jī)器人數(shù)量增加而增加。強(qiáng)化學(xué)習(xí)以及本文算法運(yùn)行時(shí)間相對于自適應(yīng)遺傳算法，其運(yùn)行時(shí)間可忽略不計(jì)，這是因?yàn)楸疚乃惴ㄒ约皬?qiáng)化學(xué)習(xí)算法在訓(xùn)練完成后只需要進(jìn)行一次神經(jīng)網(wǎng)絡(luò)前向計(jì)算，而自適應(yīng)遺傳算法需要迭代才能夠找到最優(yōu)值。

4 結(jié)束語

本文提出一種改進(jìn)深度強(qiáng)化學(xué)習(xí)計(jì)算卸載算法。在深度強(qiáng)化學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)輸入層固定，難以滿足不定數(shù)量機(jī)器人之間的卸載需求。針對這個(gè)問題，本文首先研究影響移動(dòng)機(jī)器人之間互相服務(wù)的影響因素；為使系統(tǒng)中成功率更高，將最小化系統(tǒng)總體時(shí)延作為優(yōu)化目標(biāo)；通過對深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)輸入層增加一層預(yù)擴(kuò)展將輸入擴(kuò)展為與神經(jīng)網(wǎng)絡(luò)相同的輸入寬度，在輸出層增加一層卷積，將神經(jīng)網(wǎng)絡(luò)輸出通過卷積到合適維度，滿足動(dòng)態(tài)移動(dòng)機(jī)器人數(shù)量需求。仿真實(shí)驗(yàn)結(jié)果表明，本文方法在相同任務(wù)概率不同機(jī)器人數(shù)量情況下，系統(tǒng)總體時(shí)延相較于自適應(yīng)遺傳算法平均提升23.16%，任務(wù)成功率平均提升14.79；相較于強(qiáng)化學(xué)習(xí)算法提升10.01%，任務(wù)成功率平均提升5.78%，其中隨著移動(dòng)機(jī)器人數(shù)量越多，本文算法提升效果越明顯。在相同機(jī)器人數(shù)量不同任務(wù)概率情況下，本文算法相較于自適應(yīng)遺傳算法成功率提升11.19%，總體時(shí)延情況平均提升21.23%；相較于強(qiáng)化學(xué)習(xí)算法，總體時(shí)延情況平均提升15.52%，算法成功率提升4.96%。在算法運(yùn)行時(shí)間方面，本文算法運(yùn)行時(shí)間相較于遺傳算法，運(yùn)行時(shí)間可忽略不計(jì)，具有較高的可行性與實(shí)用性。本文主要研究了在單服務(wù)器多機(jī)器人場景下的計(jì)算任務(wù)卸載算法，下一步將展開多服務(wù)器多機(jī)器人場景下的計(jì)算任務(wù)卸載策略的研究，主要研究計(jì)算任務(wù)在多服務(wù)器下的卸載考慮因素以及卸載策略。

參考文獻(xiàn)：

［1］International Federation of Robotics.Executive summary world robotics 2021 industrial robots［EB/OL］.（2020）.https：//ifr.org/ img/world-robotics/Executive_Summary_WR_Industrial_Robots_2021.pdf.

［2］Kuffner J.Cloud-enabled robots［C］//Proc of IEEE International Conference on Humanoid Robot.Piscataway，NJ：IEEE Press，2010：176-181.

［3］Guo Yu，Mi Zhenqiang，Yang Yang，et al.An energy sensitive system framework for cloud robotic network［J］.International Journal of Communication Systems，2019，32（14）：e4028.

［4］Tenorth M，Kamei K，Satake S，et al.Building knowledge-enabled cloud robotics applications using the ubiquitous network robot platform［C］//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway，NJ：IEEE Press，2013：5716-5721.

［5］Wang Lujia，Liu Ming，Meng M Q H.Real-time multisensor data retrieval for cloud robotic systems［J］.IEEE Trans on Automation Science and Engineering，2015，12（2）：507-518.

［6］Mohanarajah G，Hunziker D，D′andrea R，et al.Rapyuta：a cloud robotics platform［J］.IEEE Trans on Automation Science and Engineering，2015，12（2）：481-493.

［7］Hu Guoqiang，Tay W P，Wen Yonggang.Cloud robotics：architecture，challenges and applications［J］.IEEE Network，2012，26（3）：21-28.

［8］李波，薛端，黃鑫.云機(jī)器人系統(tǒng)研究綜述［J］.計(jì)算機(jī)工程與應(yīng)用，2017，53（17）：26-40.（Li Bo，Xue Duan，Huang Xin.Survey of cloud robot system［J］.Computer Engineering and Applications，2017，53（17）：26-40.）

［9］王大偉，王卓，王鵬，等.基于邊緣計(jì)算的云原生機(jī)器人系統(tǒng)［J］.智能科學(xué)與技術(shù)學(xué)報(bào)，2020，2（3）：275-283.（Wang Dawei，Wang Zhuo，Wang Peng，et al.Cloud native robot system based on edge computing［J］.Chinese Journal of Intelligent Science and Technology，2020，2（3）：275-283.）

［10］景軒，姚錫凡.大數(shù)據(jù)驅(qū)動(dòng)的云霧制造體系架構(gòu)［J］.計(jì)算機(jī)集成制造系統(tǒng)，2019，25（9）：2119-2139.（Jing Xuan，Yao Xifan.Big data driven cloud-fog manufacturing architecture［J］.Computer Integrated Manufacturing Systems，2019，25（9）：2119-2139.）

［11］Zhang Jie，Guo Hongzhi，Liu Jiajia，et al.Task offloading in vehicular edge computing networks：a load-balancing solution［J］.IEEE Trans on Vehicular Technology，2019，69（2）：2092-2104.

［12］Li Yuwei，Yang Bo，Chen Zhijie，et al.A contract-Stackelberg offloa-ding incentive mechanism for vehicular parked-edge computing networks［C］//Proc of the 89th IEEE Vehicular Technology Conference.2019：1-5.

［13］Qiao Guanhua，Leng Supeng，Zhang Ke，et al.Collaborative task offloading in vehicular edge multi-access networks［J］.IEEE Communications Magazine，2018，56（8）：48-54.

［14］Huang Xumin，Yu Rong，Kang Jiawen，et al.Exploring mobile edge computing for 5G-enabled software defined vehicular networks［J］.IEEE Wireless Communications，2017，24（6）：55-63.

［15］Khan I，Tao Xiaofeng，Rahman G M S，et al.Advanced energy-efficient computation offloading using deep reinforcement learning in MTC edge computing［J］.IEEE Access，2020，8：82867-82875.

［16］Zhao Pengtao，Tian Hui，Chen K C，et al.Context-aware TDD configuration and resource allocation for mobile edge computing［J］.IEEE Trans on Communications，2019，68（2）：1118-1131.

［17］Joilo S，Dán G.Computation offloading scheduling for periodic tasks in mobile edge computing［J］.IEEE/ACM Trans on Networking，2020，28（2）：667-680.

［18］趙臨東，莊文芹，陳建新，等.異構(gòu)蜂窩網(wǎng)絡(luò)中分層任務(wù)卸載：建模與優(yōu)化［J］.通信學(xué)報(bào)，2020，41（4）：34-44.（Zhao Lindong，Zhuang Wenqin，Chen Jianxin，et al.Hierarchical task offloading in heterogeneous cellular network：modeling and optimization［J］.Journal on Communications，2020，41（4）：34-44.）

［19］Tang Zhiqing，Zhou Xiaojie，Zhang Fuming，et al.Migration modeling and learning algorithms for containers in fog computing［J］.IEEE Trans on Services Computing，2018，12（5）：712-725.

［20］亓?xí)x，孫海蓉，鞏錕，等.移動(dòng)邊緣計(jì)算中基于信譽(yù)值的智能計(jì)算卸載模型研究［J］.通信學(xué)報(bào)，2020，41（7）：141-151.（Qi Jin，Sun Hairong，Gong Kun，et al.Research on intelligent computing offloading model based on reputation value in mobile edge computing［J］.Journal on Communications，2020，41（7）：141-151.）

計(jì)算機(jī)應(yīng)用研究2022年7期

計(jì)算機(jī)應(yīng)用研究的其它文章: 下期要目; 基于損失自注意力機(jī)制的立體匹配算法研究; 基于視覺信息補(bǔ)償?shù)亩嗔饕粢曪@著性檢測; 基于無監(jiān)督深度圖像生成的盲降噪模型; 稀疏差分網(wǎng)絡(luò)和多監(jiān)督哈希用于高效圖像檢索; 基于偏振成像和顯著區(qū)域自補(bǔ)償?shù)乃嘛@著目標(biāo)檢測