基于深度強(qiáng)化學(xué)習(xí)的海洋移動(dòng)邊緣計(jì)算卸載方法

2023-01-09 12:33:32蘇新孟蕾蕾周一青CELIMUGEWu

通信學(xué)報(bào) 2022年10期

蘇新，孟蕾蕾，周一青，CELIMUGE Wu

（1.河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院，江蘇常州 231022；2.中國科學(xué)院計(jì)算技術(shù)研究所處理器芯片全國重點(diǎn)實(shí)驗(yàn)室，北京 100190；3.中國科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，北京 100190；4.日本電氣通信大學(xué)信息理工學(xué)，東京 182-8585）

0 引言

國家“十四五”規(guī)劃明確提出要積極拓展海洋經(jīng)濟(jì)發(fā)展空間，協(xié)同推進(jìn)海洋生態(tài)保護(hù)、海洋經(jīng)濟(jì)發(fā)展和海洋權(quán)益維護(hù)，加快海洋強(qiáng)國建設(shè)。當(dāng)前，國家正在加大開發(fā)利用海洋多樣化數(shù)字資源的基礎(chǔ)建設(shè)投入，構(gòu)建具有自主核心技術(shù)的下一代海洋信息系統(tǒng)，圍繞海洋工程、資源、環(huán)境等領(lǐng)域攻克一批技術(shù)難題，突破海洋霸權(quán)強(qiáng)國的封鎖，使我國全天候、全自動(dòng)的海洋觀監(jiān)測活動(dòng)穩(wěn)扎深藍(lán)遠(yuǎn)海[1]。

移動(dòng)邊緣計(jì)算作為5G 關(guān)鍵技術(shù)之一，將其應(yīng)用于下一代海洋信息系統(tǒng)有望提供各類海洋感知數(shù)據(jù)的實(shí)時(shí)處理能力，滿足高可靠、低時(shí)延海事應(yīng)用的快速響應(yīng)需求[2-3]。研究表明，基于移動(dòng)邊緣計(jì)算的海洋信息實(shí)時(shí)處理性能相比傳統(tǒng)方式可以極大提高處理效率[4]。面向下一代海洋信息系統(tǒng)建設(shè)，該技術(shù)具有極高的研究意義和應(yīng)用價(jià)值。

計(jì)算任務(wù)的有效卸載作為移動(dòng)邊緣計(jì)算的核心功能，已在陸地蜂窩網(wǎng)和車聯(lián)網(wǎng)等應(yīng)用場景下展開了深入研究和廣泛應(yīng)用[5-6]。然而，與傳統(tǒng)陸地移動(dòng)邊緣計(jì)算任務(wù)卸載不同，制定海洋環(huán)境下的計(jì)算任務(wù)卸載策略將會(huì)面臨全新的技術(shù)挑戰(zhàn)。

1) 海洋網(wǎng)絡(luò)節(jié)點(diǎn)離散、分布不均，計(jì)算能力與能耗敏感度存在差異，海洋網(wǎng)絡(luò)各節(jié)點(diǎn)之間的強(qiáng)異構(gòu)特性為計(jì)算任務(wù)卸載優(yōu)化帶來了復(fù)雜高維度的限制條件。

2) 復(fù)雜多樣化的海事應(yīng)用會(huì)導(dǎo)致海洋網(wǎng)絡(luò)局部區(qū)域出現(xiàn)計(jì)算任務(wù)的超負(fù)荷處理，實(shí)現(xiàn)海洋網(wǎng)絡(luò)節(jié)點(diǎn)計(jì)算任務(wù)的最佳卸載與資源分配是保障海事應(yīng)用服務(wù)性能的關(guān)鍵。

通過調(diào)研已有計(jì)算任務(wù)卸載方法，結(jié)合海洋環(huán)境下的計(jì)算任務(wù)卸載技術(shù)挑戰(zhàn)，以滿足高可靠、低時(shí)延的海事應(yīng)用服務(wù)為目標(biāo)，本文提出了基于深度強(qiáng)化學(xué)習(xí)的計(jì)算任務(wù)卸載方法，聯(lián)合優(yōu)化海洋網(wǎng)絡(luò)節(jié)點(diǎn)卸載決策與資源分配，主要學(xué)術(shù)貢獻(xiàn)包括以下幾個(gè)方面。

1) 針對(duì)海洋節(jié)點(diǎn)強(qiáng)異構(gòu)下的卸載問題，刻畫全新海洋信息系統(tǒng)下的計(jì)算任務(wù)卸載場景，利用海洋網(wǎng)絡(luò)節(jié)點(diǎn)的計(jì)算能力、傳輸能力、可分配存儲(chǔ)能力等多種異構(gòu)特征屬性對(duì)海洋網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行歸類分層。

2) 提出面向下一代海洋信息系統(tǒng)的多節(jié)點(diǎn)卸載模型，以最小化海洋網(wǎng)絡(luò)節(jié)點(diǎn)計(jì)算任務(wù)執(zhí)行時(shí)延為目標(biāo)，利用人工智能與凸優(yōu)化等手段，聯(lián)合優(yōu)化海洋網(wǎng)絡(luò)節(jié)點(diǎn)計(jì)算任務(wù)卸載決策與資源分配問題，提升系統(tǒng)服務(wù)性能。

1 相關(guān)工作

歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)于2016 年將移動(dòng)邊緣計(jì)算的概念擴(kuò)展為多接入邊緣計(jì)算（MEC,multi-access edge computing），并擴(kuò)大了其研究范圍，包括LTE、固定寬帶和Wi-Fi 技術(shù)的異構(gòu)組網(wǎng)模式[7]。MEC 技術(shù)優(yōu)勢主要體現(xiàn)在超低時(shí)延、高帶寬、高可靠性以及可擴(kuò)展性等方面，可以輔助運(yùn)營商靈活快速地向移動(dòng)用戶和企業(yè)部署新的服務(wù)。MEC 可利用計(jì)算任務(wù)卸載實(shí)現(xiàn)系統(tǒng)分布式計(jì)算框架下的邊緣計(jì)算節(jié)點(diǎn)負(fù)載均衡，通過適配網(wǎng)絡(luò)節(jié)點(diǎn)計(jì)算能力和與其對(duì)應(yīng)的數(shù)據(jù)負(fù)載，實(shí)現(xiàn)邊緣計(jì)算節(jié)點(diǎn)的同步處理，獲取最短的應(yīng)用服務(wù)時(shí)延。

面向陸地蜂窩網(wǎng)絡(luò)，MEC 可以通過計(jì)算任務(wù)的卸載大幅降低網(wǎng)絡(luò)的回程流量、傳輸成本和數(shù)據(jù)泄露風(fēng)險(xiǎn)。文獻(xiàn)[8]研究了單服務(wù)器場景下的多用戶計(jì)算卸載問題，通過一種基于軟件定義網(wǎng)絡(luò)的Stackelberg 博弈模型，實(shí)現(xiàn)了任務(wù)最佳卸載。但是，文獻(xiàn)[8]中模型計(jì)算復(fù)雜度高，不適用于任務(wù)實(shí)時(shí)卸載的相關(guān)應(yīng)用場景。文獻(xiàn)[9]面向任務(wù)實(shí)時(shí)卸載應(yīng)用場景，將卸載問題轉(zhuǎn)化為二階錐規(guī)劃問題，并利用一種基于逐次凸逼近的算法進(jìn)行迭代求解，降低了求解方法的復(fù)雜度。然而，文獻(xiàn)[9]尚未考慮邊緣計(jì)算節(jié)點(diǎn)的動(dòng)態(tài)移動(dòng)性，導(dǎo)致其適用性較弱。文獻(xiàn)[10]研究了MEC 系統(tǒng)中時(shí)延和能耗之間的基本權(quán)衡，提出了一種基于迭代啟發(fā)式的在線卸載算法，獲得了較好的服務(wù)性能。文獻(xiàn)[11]將計(jì)算卸載決策表示為有限時(shí)間的馬爾可夫決策過程，并采用動(dòng)態(tài)規(guī)劃方法求解最優(yōu)卸載決策，實(shí)現(xiàn)了最小化系統(tǒng)時(shí)延的目標(biāo)。然而，文獻(xiàn)[11]未考慮能耗約束會(huì)導(dǎo)致用戶能耗過高。為同時(shí)滿足用戶對(duì)時(shí)延與能耗的要求，文獻(xiàn)[12]針對(duì)蜂窩網(wǎng)絡(luò)中邊緣網(wǎng)絡(luò)與中心云計(jì)算之間的協(xié)同卸載問題，提出了一種基于分解法和連續(xù)偽凸法的框架，并通過迭代算法降低了系統(tǒng)成本。

面向車聯(lián)網(wǎng)等時(shí)延敏感型應(yīng)用，MEC 技術(shù)優(yōu)勢主要體現(xiàn)在降低網(wǎng)絡(luò)時(shí)延、提高用戶的體驗(yàn)質(zhì)量。文獻(xiàn)[13]設(shè)計(jì)了一種基于預(yù)測卸載的傳輸機(jī)制，將任務(wù)提前傳輸至MEC 服務(wù)器，一旦車輛進(jìn)入服務(wù)器覆蓋范圍便可立即響應(yīng)，實(shí)現(xiàn)了降低車輛計(jì)算任務(wù)執(zhí)行時(shí)延的目標(biāo)。但是，文獻(xiàn)[13]忽略了節(jié)點(diǎn)負(fù)載均衡，導(dǎo)致部分服務(wù)器由于過載而限制其性能的提升。文獻(xiàn)[14]則將負(fù)載均衡與卸載相結(jié)合，研究了多用戶多服務(wù)器系統(tǒng)的資源分配問題，提升了系統(tǒng)性能。然而，文獻(xiàn)[14]假設(shè)車輛勻速移動(dòng)，不符合實(shí)際車聯(lián)網(wǎng)的應(yīng)用場景。針對(duì)車輛移動(dòng)性問題，文獻(xiàn)[15]研究了車輛隨機(jī)移動(dòng)場景下的MEC 系統(tǒng)性能，提出了相應(yīng)的移動(dòng)感知卸載機(jī)制，降低了系統(tǒng)運(yùn)維成本。但文獻(xiàn)[15]采用了單跳的任務(wù)卸載方式，導(dǎo)致其系統(tǒng)模型對(duì)環(huán)境的適應(yīng)性較弱。在此基礎(chǔ)上，文獻(xiàn)[16]研究了針對(duì)多跳車輛場景的有效聯(lián)合卸載，并制定了雙端優(yōu)化問題，聯(lián)合優(yōu)化了用戶端和服務(wù)端的服務(wù)成本。但是，文獻(xiàn)[16]僅考慮了正交多址應(yīng)用場景下的車載MEC 系統(tǒng)，導(dǎo)致其系統(tǒng)模型過于單一。文獻(xiàn)[17]進(jìn)一步考慮了正交多址和非正交多址2 種應(yīng)用場景下的車載MEC 系統(tǒng)，提出了基于啟發(fā)式算法的任務(wù)卸載機(jī)制，獲得了系統(tǒng)最小化任務(wù)總執(zhí)行時(shí)延。

移動(dòng)邊緣計(jì)算卸載場景實(shí)際上存在動(dòng)態(tài)、隨機(jī)、時(shí)變等特性，而上述面向陸地蜂窩網(wǎng)和車聯(lián)網(wǎng)的任務(wù)卸載方案的主要目的是得到更好的卸載決策，缺乏對(duì)實(shí)際場景下決策算法高實(shí)時(shí)性要求的考慮。隨著人工智能技術(shù)的興起，研究者逐步將其與移動(dòng)邊緣計(jì)算技術(shù)進(jìn)行有效結(jié)合，可以更好地解決動(dòng)態(tài)、隨機(jī)、時(shí)變環(huán)境下的計(jì)算任務(wù)卸載優(yōu)化問題。

文獻(xiàn)[18]研究了車聯(lián)網(wǎng)中的任務(wù)卸載和資源分配問題，并提出了一種基于Q-Learning 的任務(wù)卸載和資源分配算法，但是文獻(xiàn)[18]僅考慮了單一的MEC 系統(tǒng)。文獻(xiàn)[19]針對(duì)蜂窩網(wǎng)中的多個(gè)MEC 系統(tǒng)，提出了一種基于Q-Learning 的聯(lián)合通信和計(jì)算資源分配機(jī)制，優(yōu)化了滿足能量約束條件下的任務(wù)處理時(shí)延，并通過仿真實(shí)驗(yàn)驗(yàn)證了所提方法具有較好的環(huán)境適應(yīng)性。文獻(xiàn)[20]面向動(dòng)態(tài)卸載場景，利用一種基于軟件定義網(wǎng)絡(luò)（SDN,software defined network）邊緣云的新型Q-Learning 優(yōu)化框架制定卸載決策和資源分配，能夠快速適應(yīng)梯度更新和樣本數(shù)量較少的全新通信環(huán)境。雖然文獻(xiàn)[18-20]利用Q-Learning 方法在特定場景下達(dá)到了較好的卸載效果，但是當(dāng)優(yōu)化問題的狀態(tài)和動(dòng)作空間過大且高維連續(xù)時(shí)，存儲(chǔ)Q值的內(nèi)存空間將呈指數(shù)級(jí)增長，在搜尋最優(yōu)卸載決策時(shí)也會(huì)產(chǎn)生大量的時(shí)間開銷。為此，研究者利用深度學(xué)習(xí)技術(shù)解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)存在狀態(tài)空間中的高維問題。文獻(xiàn)[21]考慮了一個(gè)包括陸基、車輛以及無人機(jī)的混合移動(dòng)邊緣計(jì)算平臺(tái)，以最小化終端設(shè)備能耗為目標(biāo)，提出了一種基于深度學(xué)習(xí)的混合在線卸載算法框架，但是每次僅限輸入一個(gè)設(shè)備信息，不適用于實(shí)際應(yīng)用場景。文獻(xiàn)[22]研究了車輛-車輛（V2V,vehicle to vehicle）與車輛-基礎(chǔ)設(shè)施（V2I,vehicle to infrastructure）之間的聯(lián)合卸載問題，提出了一種多智能體深度強(qiáng)化學(xué)習(xí)框架，達(dá)到了同時(shí)滿足V2I 和V2V 鏈路時(shí)延要求的目標(biāo)，但是該方法收斂速度較慢。文獻(xiàn)[23]考慮了多用戶和多服務(wù)器的MEC 場景中的任務(wù)卸載決策問題，提出了一種基于深度強(qiáng)化學(xué)習(xí)的在線卸載算法，解決了計(jì)算任務(wù)卸載時(shí)長的優(yōu)化問題。

本文聚焦下一代海洋信息系統(tǒng)，面向多種海事應(yīng)用并行、海洋網(wǎng)絡(luò)拓?fù)漭^大且快變等特性，提出基于深度強(qiáng)化學(xué)習(xí)的海洋移動(dòng)邊緣計(jì)算卸載方法。截至目前，研究者針對(duì)海洋移動(dòng)邊緣計(jì)算已經(jīng)提出了若干計(jì)算任務(wù)卸載算法，在一定程度上滿足了海洋網(wǎng)絡(luò)低時(shí)延高可靠的應(yīng)用服務(wù)需求。

文獻(xiàn)[24]分析了海洋通信時(shí)延和能耗之間的折中關(guān)系，提出了一種階段性聯(lián)合優(yōu)化算法，在能量有限與時(shí)延敏感條件下優(yōu)化了計(jì)算與通信資源的分配機(jī)制。文獻(xiàn)[25]提出了一種基于海洋網(wǎng)絡(luò)連通概率的邊緣計(jì)算節(jié)點(diǎn)選取方法，根據(jù)海洋近岸和遠(yuǎn)岸的網(wǎng)絡(luò)節(jié)點(diǎn)密度差異，建立了基于近海和遠(yuǎn)海場景的任務(wù)卸載模型，并分別利用遺傳算法和粒子群優(yōu)化算法進(jìn)行求解。文獻(xiàn)[26]利用混合整數(shù)非線性規(guī)劃分離優(yōu)化目標(biāo)，有效地分配傳輸功率并通過改進(jìn)傳統(tǒng)人工魚群算法制定了卸載決策。然而，上述文獻(xiàn)均未充分考慮海洋網(wǎng)絡(luò)節(jié)點(diǎn)之間的強(qiáng)異構(gòu)特性。同時(shí)，啟發(fā)式算法不僅在尋優(yōu)時(shí)需要大量迭代，而且面對(duì)復(fù)雜卸載環(huán)境時(shí)算法計(jì)算能力會(huì)大幅下降，求解質(zhì)量不能得到很好的保證。

表1 通過應(yīng)用場景、系統(tǒng)模型、卸載算法、節(jié)點(diǎn)異構(gòu)性、實(shí)現(xiàn)效率、適用規(guī)模等方面對(duì)上述文獻(xiàn)進(jìn)行了對(duì)比與總結(jié)。由表1 可知，傳統(tǒng)MEC 卸載算法[8-17,24-26]計(jì)算復(fù)雜度較高，實(shí)現(xiàn)效率始終低于人工智能算法。基于強(qiáng)化學(xué)習(xí)的人工智能卸載算法[18-20]雖然能夠達(dá)到較高的卸載效率，但存在維數(shù)災(zāi)難，只適用于小規(guī)模應(yīng)用場景。基于深度強(qiáng)化學(xué)習(xí)的卸載算法[21-23]雖然能夠克服維數(shù)災(zāi)難，但過于專注中心化的卸載策略，對(duì)新環(huán)境的適應(yīng)性較弱。通過對(duì)比還可以發(fā)現(xiàn)目前針對(duì)海洋網(wǎng)絡(luò)MEC 研究仍然存在以下缺陷：對(duì)綜合考慮端-邊協(xié)同架構(gòu)中的計(jì)算任務(wù)卸載和資源分配問題的研究較少，并且已有文獻(xiàn)尚未充分考慮海洋網(wǎng)絡(luò)節(jié)點(diǎn)之間的強(qiáng)異構(gòu)特性；沒有對(duì)MEC 系統(tǒng)中的節(jié)點(diǎn)進(jìn)行分層歸類，在高維度時(shí)收斂速度慢，無法滿足海洋監(jiān)測網(wǎng)中低時(shí)延、高可靠的任務(wù)卸載需求，并且對(duì)快速變化的環(huán)境適應(yīng)性較弱。

表1 MEC 卸載模型比較

2 海洋移動(dòng)邊緣計(jì)算任務(wù)卸載

2.1 海洋網(wǎng)絡(luò)節(jié)點(diǎn)分層歸類

圖1 刻畫了基于海洋網(wǎng)絡(luò)的計(jì)算任務(wù)卸載模型。考慮到海洋網(wǎng)絡(luò)節(jié)點(diǎn)的強(qiáng)異構(gòu)特性，需要依據(jù)海洋網(wǎng)絡(luò)節(jié)點(diǎn)特征屬性對(duì)其進(jìn)行歸類分層，包括計(jì)算能力、可分配存儲(chǔ)能力、傳輸能力、節(jié)點(diǎn)位置以及節(jié)點(diǎn)移動(dòng)速率；并且可將節(jié)點(diǎn)歸類劃分為強(qiáng)型層、中型層、弱型層和獨(dú)立層，分別用和表示，其中，m∈ {1,2,…,M}，n∈{1,2,…,N}，k∈ {1,2,…,K}，o∈ {1,2,…,O}。具體分層歸類策略如下。

圖1 基于海洋網(wǎng)絡(luò)的計(jì)算任務(wù)卸載模型

強(qiáng)型層節(jié)點(diǎn)移動(dòng)速率相對(duì)緩慢穩(wěn)定，計(jì)算能力和可分配存儲(chǔ)能力強(qiáng)、電量充沛，可有效快速地完成海量復(fù)雜的計(jì)算任務(wù)，主要由海岸基站和大型船舶等組成。中型層節(jié)點(diǎn)移動(dòng)速率較快，計(jì)算能力和可分配存儲(chǔ)能力較強(qiáng)，電量較充足，可處理復(fù)雜度一般的海事任務(wù)，主要由柴油驅(qū)動(dòng)的中型船舶組成。弱型層節(jié)點(diǎn)計(jì)算能力和可分配存儲(chǔ)能力弱，蓄電池電量受限，可處理普通的海事任務(wù)，主要由電力驅(qū)動(dòng)的小型船舶以及海上浮標(biāo)等組成。部分海上浮標(biāo)可通過有線連接淺海區(qū)域水下機(jī)器人展開相關(guān)業(yè)務(wù)，因此將其視為一個(gè)節(jié)點(diǎn)整體。獨(dú)立層節(jié)點(diǎn)主要位于水下，通過水聲通信方式互聯(lián)。若進(jìn)行大規(guī)模的數(shù)據(jù)卸載，會(huì)產(chǎn)生較大時(shí)延，因此本文不考慮水下卸載過程，水下任務(wù)只在本地處理，該層節(jié)點(diǎn)獨(dú)立于其他層的節(jié)點(diǎn)。

2.2 海洋移動(dòng)邊緣計(jì)算卸載時(shí)延模型

當(dāng)網(wǎng)絡(luò)中心節(jié)點(diǎn)根據(jù)卸載決策確定αI,αII,αIII、上行鏈路傳輸功率P以及相應(yīng)的MEC服務(wù)器計(jì)算資源F時(shí)，執(zhí)行完成所有節(jié)點(diǎn)的計(jì)算任務(wù)所需要的總時(shí)延為

其中，?k∈ (0,1]為權(quán)重因子，用于指定資源提供者對(duì)節(jié)點(diǎn)的偏好，滿足時(shí)延敏感性節(jié)點(diǎn)的需求[27]，?k的值可以根據(jù)計(jì)算任務(wù)的關(guān)鍵性來設(shè)置。

2.3 海洋移動(dòng)邊緣計(jì)算卸載時(shí)延優(yōu)化問題

式(9)的約束 C1表示任務(wù)執(zhí)行方式為二進(jìn)制卸載，約束 C2表示每個(gè)任務(wù)只能選擇一種執(zhí)行方式，約束C3和C4表示節(jié)點(diǎn)的傳輸范圍限制，約束C5、C6、C7和 C8限定節(jié)點(diǎn)發(fā)送功率，約束 C9、C10、C11和 C12限定節(jié)點(diǎn)計(jì)算能力。

基于式(9)可知優(yōu)化問題P1 是一個(gè)混合整數(shù)非線性規(guī)劃問題[28-29]。面向多種海事應(yīng)用并行、網(wǎng)絡(luò)拓?fù)浯蠖熳兊暮Ｑ笥?jì)算任務(wù)卸載場景，考慮海洋網(wǎng)絡(luò)獨(dú)有的節(jié)點(diǎn)強(qiáng)異構(gòu)特性，優(yōu)化問題P1 是一個(gè)大規(guī)模、高維度且具有諸多限制條件的復(fù)雜問題，即使能夠描述出這種海洋移動(dòng)邊緣計(jì)算的卸載模型及問題，求解過程也會(huì)相當(dāng)困難。為此，本文面向海洋移動(dòng)邊緣計(jì)算任務(wù)卸載，設(shè)計(jì)了一種基于凸優(yōu)化-深度強(qiáng)化學(xué)習(xí)的計(jì)算任務(wù)卸載策略，從而避免解決使用傳統(tǒng)方法難以求解的問題。

3 基于深度強(qiáng)化學(xué)習(xí)的計(jì)算任務(wù)卸載方法

優(yōu)化問題P1 中P和F的最優(yōu)值P*和F*是關(guān)于αI,αII,αIII的函數(shù)，因此問題P1 可以化簡為

其中，約束 C1～ C4中的αI,αII,αIII與約束 C5～ C12中的P、F相互解耦。式(10)的求解等效于求解如下的主優(yōu)化問題P2。

其中，T*（αI,αII,αIII）是對(duì)應(yīng)P和F的最優(yōu)解函數(shù)，具體表達(dá)式為

上述問題的分解不會(huì)改變原問題的最優(yōu)解，同時(shí)式(12)具有變量可分離的結(jié)構(gòu)，即P和F所對(duì)應(yīng)的目標(biāo)函數(shù)和約束彼此解耦。因此，式(12)可以分解為2 類子優(yōu)化問題，其中，F(xiàn)*為子優(yōu)化問題P3的最優(yōu)解，P*為子優(yōu)化問題P4 的最優(yōu)解。本文針對(duì)任意卸載決策（αI,αII,αIII），利用相關(guān)算法推導(dǎo)出F*和P*的具體表達(dá)式。

3.1 計(jì)算資源分配

式(15)約束為凸，目標(biāo)函數(shù)記為 Γ(αI,F)，并且 Γ(αI,F)關(guān)于fk,m的二階導(dǎo)數(shù)可以表示為

由此可知，式(15)為凸優(yōu)化問題，可以使用KKT（Karush-Kuhn-Tucker）條件進(jìn)行求解，其對(duì)應(yīng)的拉格朗日函數(shù)可以表示為

其中，v=［v1,… ,vM］為拉格朗日乘子。計(jì)算拉格朗日函數(shù)L（Γ（sI,F）,v）關(guān)于fk,m的一階導(dǎo)數(shù)為

將式(18)代入式(19)可以得到拉格朗日乘子的具體表達(dá)式為

最后，將式(21)代入式(19)，便可以得到式(15)的最優(yōu)解為

3.2 數(shù)據(jù)傳輸功率分配

3.3 卸載決策生成

當(dāng)確定P3 和P4 的最優(yōu)解后，將其代入式(12)可以得到T*（αI,αII,αIII）的具體表達(dá)式為

將式(27)代入式(11)，進(jìn)而主優(yōu)化問題P2 可以更新為

通過分析可知式(28)為整數(shù)規(guī)劃問題。由于傳統(tǒng)算法求解整數(shù)規(guī)劃問題存在維數(shù)災(zāi)難，本文針對(duì)上述優(yōu)化問題提出一種基于深度強(qiáng)化學(xué)習(xí)并行計(jì)算在線卸載（OOPC-DRL,online offloading of parallel computing based on deep reinforcement learning）算法，可以規(guī)范高效地求解卸載策略，以最小化節(jié)點(diǎn)計(jì)算任務(wù)執(zhí)行總時(shí)延。

OOPC-DRL 計(jì)算任務(wù)卸載策略架構(gòu)如圖2 所示，從圖2 可知，OOPC-DRL 主要由生成卸載決策矩陣集、資源分配、生成最佳卸載決策矩陣和更新卸載經(jīng)驗(yàn)4 個(gè)階段交替完成。生成卸載決策矩陣集階段主要依賴于并行的深度神經(jīng)網(wǎng)絡(luò)（DNN,deep neural network），DNN 根據(jù)當(dāng)前時(shí)刻狀態(tài)實(shí)時(shí)生成Ω個(gè)卸載決策矩陣，并且通過經(jīng)驗(yàn)存儲(chǔ)器在線學(xué)習(xí)定期更新參數(shù)。其中，當(dāng)前時(shí)刻狀態(tài)st包括海事應(yīng)用任務(wù)數(shù)據(jù)量的大小Dk、節(jié)點(diǎn)的相關(guān)參數(shù)集合節(jié)點(diǎn)的相關(guān)參數(shù)集合，以及系統(tǒng)總帶寬、信道增益和背景噪聲功率。

圖2 OOPC-DRL 計(jì)算任務(wù)卸載策略架構(gòu)

資源分配階段將生成卸載決策矩陣集階段所生成的決策矩陣分別代入子優(yōu)化問題P3和P4求解其最優(yōu)計(jì)算資源和數(shù)據(jù)傳輸功率，實(shí)現(xiàn)系統(tǒng)的最佳資源分配。生成最佳卸載決策矩陣階段將前2 個(gè)階段所產(chǎn)生的卸載決策矩陣集、最優(yōu)計(jì)算資源和最優(yōu)數(shù)據(jù)傳輸功率代入主優(yōu)化問題P2，通過求解P2 生成最佳卸載決策矩陣。更新卸載經(jīng)驗(yàn)階段使用經(jīng)驗(yàn)回放機(jī)制[30]，將同一時(shí)刻的狀態(tài)與最佳卸載決策矩陣合并作為卸載經(jīng)驗(yàn)存儲(chǔ)于經(jīng)驗(yàn)存儲(chǔ)器中，并在訓(xùn)練時(shí)隨機(jī)采樣作為訓(xùn)練樣本。與使用整個(gè)數(shù)據(jù)樣本集相比，OOPC-DRL算法降低了更新復(fù)雜度；通過降低訓(xùn)練樣本之間的相關(guān)性，加快了網(wǎng)絡(luò)收斂速度；重復(fù)使用歷史數(shù)據(jù)，減少了迭代更新方差。此時(shí)，可以使用Adam 隨機(jī)梯度下降優(yōu)化算法更新DNN 中各網(wǎng)絡(luò)參數(shù)[31]，因此，平均交叉熵?fù)p失函數(shù)表示可以為

OOPC-DRL 算法具體表述如算法1 所示。

算法1OOPC-DRL 算法

輸入神經(jīng)網(wǎng)絡(luò)參數(shù)θΩ，經(jīng)驗(yàn)存儲(chǔ)器B，當(dāng)前狀態(tài)st

輸出卸載決策矩陣（αI,αII,αIII），計(jì)算資源F*，數(shù)據(jù)傳輸功率P*

初始化神經(jīng)網(wǎng)絡(luò)參數(shù)θΩ～N(0,1)，經(jīng)驗(yàn)存儲(chǔ)器的大小

1) fort=1:T

2) 將當(dāng)前時(shí)刻狀態(tài)st進(jìn)行歸一化

3) DNN 根據(jù)歸一化的st產(chǎn)生Ω個(gè)候選動(dòng)作矩陣，并存入候選動(dòng)作矩陣集C

4) 代入資源分配子優(yōu)化問題最優(yōu)解，即式(22)、式(23)、式(26)，得出計(jì)算資源和數(shù)據(jù)傳輸功率最優(yōu)解F*、P*

5)代入式(27)求解T*（st,αt）

8) if 經(jīng)驗(yàn)存儲(chǔ)器B的大小

9) 從經(jīng)驗(yàn)存儲(chǔ)器中隨機(jī)選取Ω批訓(xùn)練數(shù)據(jù)樣本

10) 使用Adam 隨機(jī)梯度下降算法更新神經(jīng)網(wǎng)絡(luò)參數(shù)θΩt

11) end if

12)t=t+1，進(jìn)入下一狀態(tài)st+1

13) end for

14) 輸出（αI,αII,αIII），F(xiàn)*，P*

4 實(shí)驗(yàn)結(jié)果分析與討論

基于海洋網(wǎng)絡(luò)的計(jì)算任務(wù)卸載模型，本節(jié)在Python3.6 和Tensorflow 2.0.0 環(huán)境下對(duì) OOPC-DRL算法進(jìn)行了仿真實(shí)驗(yàn)。海洋網(wǎng)絡(luò)仿真場景主要由強(qiáng)型層、中型層以及弱型層節(jié)點(diǎn)構(gòu)成。網(wǎng)絡(luò)環(huán)境下的計(jì)算任務(wù)卸載仿真參數(shù)如表2 所示。OOPC-DRL 算法中DNN 的相關(guān)設(shè)置參數(shù)參考文獻(xiàn)[32]，如表3 所示。

表2 網(wǎng)絡(luò)環(huán)境下的計(jì)算任務(wù)卸載仿真參數(shù)

表3 DNN 的相關(guān)設(shè)置參數(shù)

為了分析OOPC-DRL 算法的收斂性能，本文將增益定義為其中，分子是通過枚舉所有可行的卸載動(dòng)作得到的最優(yōu)解。

圖3 和圖4 分別展示了OOPC-DRL 算法的訓(xùn)練損失函數(shù)曲線和增益曲線。其中，訓(xùn)練損失隨著訓(xùn)練步數(shù)的增加而降低，增益隨著訓(xùn)練步數(shù)的增加而趨近于1。在訓(xùn)練初始時(shí)，DNN 需要不斷探索動(dòng)作，增益曲線會(huì)存在較大程度的波動(dòng)。當(dāng)訓(xùn)練步數(shù)在2 000 步時(shí)，訓(xùn)練損失和增益基本同時(shí)收斂；當(dāng)訓(xùn)練步數(shù)大于2 000 步時(shí)，訓(xùn)練損失降低到0.04，增益收斂到0.98，這說明本文所提OOPC-DRL 算法可實(shí)現(xiàn)在有限訓(xùn)練步數(shù)內(nèi)的穩(wěn)定收斂，且能快速收斂到最優(yōu)解。

圖3 基于OOPC-DRL 算法的損失函數(shù)曲線

圖4 基于OOPC-DRL 算法的增益曲線

圖5 展示了DNN 數(shù)量對(duì)OOPC-DRL 算法收斂性能的影響。總體來看，隨著訓(xùn)練步數(shù)的增加，增益逐漸收斂到1，且DNN 數(shù)量越多，收斂效果越明顯。然而，當(dāng)只使用一個(gè)DNN 時(shí)，OOPC-DRL 算法無法從其自身生成的數(shù)據(jù)中獲取任何信息，并且無法收斂。因此，OOPC-DRL 算法至少需要2 個(gè)DNN。OOPC-DRL 算法的計(jì)算復(fù)雜度主要來自利用DNN 生成卸載決策矩陣階段，當(dāng)DNN 數(shù)量增加時(shí)，增益曲線雖然有所改善，但是效果并不明顯，且算法的復(fù)雜度大幅度增加，因此，在設(shè)置DNN 數(shù)量時(shí)，需要權(quán)衡其性能和復(fù)雜度。所以，本文將DNN 數(shù)量設(shè)置為4。

圖5 DNN 數(shù)量對(duì)OOPC-DRL 算法收斂性能的影響

圖6 進(jìn)一步說明了學(xué)習(xí)率對(duì)OOPC-DRL 算法收斂性能的影響。從圖6 可以看出，隨著訓(xùn)練步數(shù)增加，OOPC-DRL 算法在不同學(xué)習(xí)率下的增益均逐漸提升。學(xué)習(xí)率越大，OOPC-DRL 算法的增益曲線收斂越快。然而，當(dāng)學(xué)習(xí)率為0.1 時(shí)，增益值反而降低，這是由于學(xué)習(xí)率過高導(dǎo)致網(wǎng)絡(luò)陷入了局部最優(yōu)的困局。相反，當(dāng)學(xué)習(xí)率過低時(shí)（取值為0.000 1），算法收斂速度較慢，大約在訓(xùn)練4 000 步后達(dá)到收斂。因此結(jié)合這一實(shí)際情況，本文在剩余的仿真實(shí)驗(yàn)中將學(xué)習(xí)率設(shè)置為0.01。

圖6 學(xué)習(xí)率對(duì)OOPC-DRL 算法收斂性能的影響

為了驗(yàn)證OOPC-DRL 算法有效性，本文將其與以下5 種現(xiàn)有策略進(jìn)行對(duì)比。

1) 本地計(jì)算策略（簡稱Local 策略）。節(jié)點(diǎn)的全部計(jì)算任務(wù)均在本地處理，不進(jìn)行卸載處理。

2) 基于資源分配的隨機(jī)卸載策略（簡稱Random策略）[33]。每當(dāng)節(jié)點(diǎn)遇到新狀態(tài)時(shí)，隨機(jī)生成卸載動(dòng)作，利用本文中的子問題優(yōu)化方法分配計(jì)算資源。

3) 基于分組交叉學(xué)習(xí)的粒子群優(yōu)化（GCL-PSO,group cross learning based particle swarm optimization）算法[25]。利用文獻(xiàn)[25]中的GCL-PSO 算法生成卸載動(dòng)作，通過本文的子問題優(yōu)化方法分配計(jì)算資源。

4) 基于變異操作的人工魚群算法（MO-AFSA,artificial fish swarm algorithm based on mutation operation）[26]。利用文獻(xiàn)[26]中的MO-AFSA 生成卸載動(dòng)作，通過本文的子問題優(yōu)化方法分配計(jì)算資源。

5) 枚舉（Enumerate）策略。對(duì)所有卸載決策進(jìn)行窮舉搜索，并選擇最優(yōu)卸載決策，但耗時(shí)過長，不能滿足在實(shí)際情況中的實(shí)時(shí)性。

圖7 展示了不同節(jié)點(diǎn)數(shù)量下各策略平均計(jì)算任務(wù)執(zhí)行時(shí)延對(duì)比。從圖7 中可知，除Local 策略外，其他策略的平均計(jì)算任務(wù)執(zhí)行時(shí)延總體變化趨勢均隨著節(jié)點(diǎn)數(shù)量的增大而增加。這是因?yàn)楫?dāng)系統(tǒng)中節(jié)點(diǎn)數(shù)量增大時(shí)，單個(gè)節(jié)點(diǎn)分配的帶寬和邊緣服務(wù)器分配的計(jì)算資源相應(yīng)減少，計(jì)算任務(wù)卸載傳輸時(shí)延和處理時(shí)延增加，導(dǎo)致平均計(jì)算任務(wù)執(zhí)行時(shí)延增加。然而，本文所提出的OOPC-DRL 算法平均計(jì)算任務(wù)執(zhí)行時(shí)延表現(xiàn)最優(yōu)。Local 策略計(jì)算任務(wù)處理時(shí)延只與節(jié)點(diǎn)的性能有關(guān)，并且每個(gè)節(jié)點(diǎn)的計(jì)算能力遠(yuǎn)小于邊緣服務(wù)器節(jié)點(diǎn)。因此，Local 策略在不同節(jié)點(diǎn)數(shù)量下的平均計(jì)算任務(wù)執(zhí)行時(shí)延最高。Random 策略具有很強(qiáng)的隨機(jī)性，在不同節(jié)點(diǎn)數(shù)量下的平均計(jì)算任務(wù)執(zhí)行時(shí)延波動(dòng)最大。由于尋優(yōu)時(shí)容易陷入局部最優(yōu)，MO-AFSA 和GCL-PSO 這2 種策略較OOPC-DRL 算法相比平均計(jì)算任務(wù)執(zhí)行時(shí)延依次增加。通過以上對(duì)比可以看出，OOPC-DRL 算法平均計(jì)算任務(wù)執(zhí)行時(shí)延接近具有最佳性能的Enumerate 策略，在降低節(jié)點(diǎn)平均計(jì)算任務(wù)執(zhí)行時(shí)延方面具有較好的表現(xiàn)。

圖7 不同節(jié)點(diǎn)數(shù)量下各策略平均計(jì)算任務(wù)執(zhí)行時(shí)延對(duì)比

圖8 展示了不同輸入數(shù)據(jù)下各策略平均計(jì)算任務(wù)執(zhí)行時(shí)延對(duì)比。從圖8 中可以看出，隨著輸入數(shù)據(jù)的增大，除LOCAL 策略外，其他5 種策略的平均計(jì)算任務(wù)執(zhí)行時(shí)延都有不同程度的增加，但是OOPC-DRL 算法相比其他策略表現(xiàn)更加優(yōu)異，這是因?yàn)檩斎霐?shù)據(jù)的大小只影響節(jié)點(diǎn)的任務(wù)傳輸時(shí)延。Random 策略由于存在隨機(jī)性，其增加幅度最大，GCL-PSO 和MO-AFSA 策略容易陷入局部最優(yōu)，尋優(yōu)效果也不佳。OOPC-DRL 算法在不同輸入數(shù)據(jù)下的平均計(jì)算任務(wù)執(zhí)行時(shí)延接近Enumerate 策略，表現(xiàn)依然最好。在輸入數(shù)據(jù)明顯增大時(shí)，OOPC-DRL 算法相較其他策略提升更明顯，再次說明該策略能夠更好地應(yīng)對(duì)資源有限情況下的任務(wù)分配問題，即能夠在有限的資源情況下最小化系統(tǒng)時(shí)延。

圖8 不同輸入數(shù)據(jù)下各策略平均計(jì)算任務(wù)執(zhí)行時(shí)延對(duì)比

圖9 展示了不同任務(wù)計(jì)算量下各策略平均計(jì)算任務(wù)執(zhí)行時(shí)延對(duì)比。所有策略產(chǎn)生的平均計(jì)算任務(wù)執(zhí)行時(shí)延均隨著節(jié)點(diǎn)任務(wù)計(jì)算量的增大而增加，而Enumerate 策略和OOPC-DRL 算法的平均計(jì)算任務(wù)執(zhí)行時(shí)延的增加幅度明顯低于其他4 種策略。這是由于任務(wù)計(jì)算量增大時(shí)，節(jié)點(diǎn)需要花費(fèi)更多的時(shí)間進(jìn)行計(jì)算處理，而節(jié)點(diǎn)的計(jì)算能力最弱，故Local 策略的平均計(jì)算任務(wù)執(zhí)行時(shí)延增加幅度最大。OOPC-DRL 算法的平均計(jì)算任務(wù)執(zhí)行時(shí)延雖然隨著節(jié)點(diǎn)任務(wù)計(jì)算量的增大而增加，但是始終非常接近能夠產(chǎn)生最佳性能的Enumerate 策略，再次闡明了OOPC-DRL 算法在有限的資源情況下最小化系統(tǒng)時(shí)延的能力。

圖9 不同任務(wù)計(jì)算量下各策略平均計(jì)算任務(wù)執(zhí)行時(shí)延對(duì)比

圖10 展示了不同計(jì)算能力下各策略平均計(jì)算任務(wù)執(zhí)行時(shí)延對(duì)比（以固定輸入數(shù)據(jù)大小為20 MB，任務(wù)計(jì)算量的大小為40 GHz 為例）。仿真結(jié)果表明，除Local 策略之外，其他策略的平均計(jì)算任務(wù)執(zhí)行時(shí)延總體均隨著邊緣服務(wù)器計(jì)算能力的增大而降低，提高了節(jié)點(diǎn)任務(wù)執(zhí)行效率。其中，OOPC-DRL算法在不同邊緣服務(wù)器計(jì)算能力下的平均計(jì)算任務(wù)執(zhí)行時(shí)延始終接近Enumerate 策略，均小于其他4 種策略，且隨著邊緣服務(wù)器計(jì)算能力越來越強(qiáng)，OOPC-DRL 與其他4 種策略的差距也越來越大。再次表明了本文所提算法隨著邊緣服務(wù)器計(jì)算能力的變化可以實(shí)時(shí)調(diào)整卸載策略，以確保系統(tǒng)具有更好的動(dòng)態(tài)適應(yīng)性。值得注意的是，Random 策略是隨機(jī)生成卸載動(dòng)作的，仿真時(shí)會(huì)出現(xiàn)50 GHz 下對(duì)應(yīng)的平均計(jì)算任務(wù)執(zhí)行時(shí)延高于40 GHz 的情況。

圖10 不同計(jì)算能力下各策略平均計(jì)算任務(wù)執(zhí)行時(shí)延對(duì)比

5 結(jié)束語

本文以最小化海洋網(wǎng)絡(luò)節(jié)點(diǎn)任務(wù)執(zhí)行時(shí)延為目標(biāo)，利用海洋網(wǎng)絡(luò)節(jié)點(diǎn)的強(qiáng)異構(gòu)特征屬性對(duì)其進(jìn)行歸類分層，并提出了一種基于深度強(qiáng)化學(xué)習(xí)的海洋網(wǎng)絡(luò)計(jì)算任務(wù)卸載策略。實(shí)驗(yàn)結(jié)果表明，與傳統(tǒng)算法相比，本文所提出的OOPC-DRL 計(jì)算任務(wù)卸載算法能夠在海洋信息系統(tǒng)下有效地降低網(wǎng)絡(luò)節(jié)點(diǎn)的計(jì)算任務(wù)卸載時(shí)延，可以更好地滿足對(duì)實(shí)時(shí)性要求較高的海事應(yīng)用服務(wù)需求，并且能夠在大規(guī)模任務(wù)流下保持海洋網(wǎng)絡(luò)的穩(wěn)健性。未來研究工作將針對(duì)多維度的水上水下節(jié)點(diǎn)之間的任務(wù)卸載需求，深入分析并考慮排隊(duì)等待時(shí)延對(duì)節(jié)點(diǎn)任務(wù)卸載的影響。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放