亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于無人機(jī)集群智能自組網(wǎng)的典型協(xié)同應(yīng)用

        2022-12-30 02:20:42屈毓錛
        無線電通信技術(shù) 2022年6期
        關(guān)鍵詞:智能用戶服務(wù)

        危 維,付 澍,屈毓錛

        (1.重慶大學(xué) 微電子與通信工程學(xué)院,重慶 400044;2.南京航空航天大學(xué) 電子信息工程學(xué)院,江蘇 南京 211106)

        0 引言

        在21世紀(jì)初,美軍在公布的無人系統(tǒng)路線圖中指出無人機(jī)在未來對于全球信息的重要性,以及無人機(jī)自組網(wǎng)將會(huì)是未來無人作戰(zhàn)的發(fā)展方向,無人機(jī)自組網(wǎng)的概念就此提出[1]。隨著第五代移動(dòng)網(wǎng)絡(luò)(5G)于2020年開始投入商用,第六代移動(dòng)網(wǎng)絡(luò)(6G)逐漸成為全球各國著力部署的方向,并被寄望于實(shí)現(xiàn)萬物互聯(lián)無時(shí)無刻、無處不在的效果[2]。然而,目前由于傳統(tǒng)地面基站的鋪設(shè)難度及成本問題,很難實(shí)現(xiàn)諸如山地、湖泊、沙漠等偏遠(yuǎn)地域的網(wǎng)絡(luò)全覆蓋。此外,面對移動(dòng)通信數(shù)據(jù)量的不斷劇增,傳統(tǒng)地面基站難以支持突發(fā)的熱點(diǎn)流量需求,例如大型國際活動(dòng)、災(zāi)害場景下的應(yīng)急通信等。傳統(tǒng)的地面基站已很難滿足6G無線通信網(wǎng)絡(luò)全覆蓋的要求,非陸地網(wǎng)絡(luò)成為構(gòu)建空天地海一體化、全覆蓋網(wǎng)絡(luò)的有效補(bǔ)充。而無人機(jī)[3](Unmanned Aerial Vehicle,UAV)以其固有的靈活性、機(jī)動(dòng)性、資源可搭載性[4]等特點(diǎn),被認(rèn)為是未來無線網(wǎng)絡(luò)中不可或缺的組成部分。

        近年來,無人機(jī)技術(shù)步入了快速發(fā)展階段,在物流、農(nóng)林植保、巡檢救援等領(lǐng)域均已發(fā)揮重要作用。由于無人機(jī)自身體積較小,造價(jià)相對便宜,對使用環(huán)境要求較低,可廣泛應(yīng)用于各領(lǐng)域。而隨著無人機(jī)應(yīng)用場景的不斷擴(kuò)大,對無人機(jī)的智能化要求也隨之不斷提高。

        受到無人機(jī)懸停高度、其與地面用戶的最小仰角和無人機(jī)自身能耗限制等因素的影響,單個(gè)無人機(jī)的服務(wù)覆蓋范圍、飛行距離及其可搭載的資源均受到限制,難以同時(shí)滿足大量用戶的異構(gòu)需求。為解決此問題,無人機(jī)集群的概念被引入。無人機(jī)群由眾多小型無人機(jī)組成,有望提供高度協(xié)作和智能化的作業(yè),無人機(jī)集群將無人機(jī)在無線通信領(lǐng)域的應(yīng)用進(jìn)一步推進(jìn)[5]。但當(dāng)無人機(jī)集群執(zhí)行大規(guī)模任務(wù)時(shí),不同的環(huán)境及任務(wù)對無人機(jī)的性能及要求也不相同,任務(wù)的規(guī)劃分配存在挑戰(zhàn)[6],應(yīng)用場景及需求的不斷擴(kuò)大也對無人機(jī)的智能化提出了更高的要求。

        大數(shù)據(jù)時(shí)代,許多復(fù)雜優(yōu)化問題已無法通過傳統(tǒng)的優(yōu)化方法在短時(shí)間內(nèi)求得最優(yōu)解或近優(yōu)解[7],而隨著計(jì)算機(jī)算法、算力日益強(qiáng)大,人工智能(Artificial Intelligence,AI)已成為高效解決眾多優(yōu)化問題的主流,并在如圖像處理、自然語言識別和電子游戲等領(lǐng)域廣泛應(yīng)用[8-11]。人工智能與機(jī)器學(xué)習(xí)技術(shù)將與6G無線通信網(wǎng)絡(luò)高效融合以實(shí)現(xiàn)更好地網(wǎng)絡(luò)管理與自動(dòng)化。通過機(jī)器學(xué)習(xí)(Machine Learning,ML)技術(shù),人工智能可以在無人機(jī)集群協(xié)同的應(yīng)用中提供實(shí)用且有競爭力的性能來馴服其網(wǎng)絡(luò)規(guī)劃和優(yōu)化的復(fù)雜性,從而實(shí)現(xiàn)無人機(jī)集群智能自組網(wǎng)并基于此完成無人機(jī)群的協(xié)同應(yīng)用,助力“網(wǎng)聯(lián)天空”的實(shí)現(xiàn)。其中,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)在訓(xùn)練過程中無需大量已存在標(biāo)簽的數(shù)據(jù),而是在與環(huán)境不斷的交互中獲取數(shù)據(jù)并從以往的經(jīng)驗(yàn)中學(xué)習(xí)進(jìn)而做出最佳的決策。在實(shí)際應(yīng)用場景中,機(jī)器所面臨的環(huán)境往往是復(fù)雜且未知的,強(qiáng)化學(xué)習(xí)在與環(huán)境的交互中學(xué)習(xí),這一特性能使機(jī)器良好地學(xué)習(xí)并適應(yīng)陌生環(huán)境,在面臨不同環(huán)境時(shí)均能做出使系統(tǒng)增益最大的最優(yōu)策略。此外,在機(jī)器學(xué)習(xí)的算法中,深度學(xué)習(xí)(Deep Learning,DL)可利用深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)完成對數(shù)據(jù)的訓(xùn)練和預(yù)測,具有強(qiáng)感知能力。將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合便形成了深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)。DRL同時(shí)具備強(qiáng)化學(xué)習(xí)的決策能力與深度學(xué)習(xí)的感知能力,在解決高維度的復(fù)雜問題上擁有巨大潛力[12]。

        無人機(jī)集群協(xié)同工作結(jié)合智能算法將成為6G實(shí)現(xiàn)萬物互聯(lián)目標(biāo)的重要技術(shù)。為了提高無人機(jī)集群協(xié)同的能量效率,本文將考慮無人機(jī)集群為突發(fā)熱點(diǎn)流量需求的用戶提供服務(wù)的場景,按照服務(wù)過程對無人機(jī)集群用戶調(diào)度及路徑規(guī)劃、多無人機(jī)三維懸停位置部署和無人機(jī)網(wǎng)絡(luò)智能管控架構(gòu)三方面的高能效無人機(jī)集群協(xié)同應(yīng)用的模型和原理進(jìn)行介紹。

        1 無人機(jī)集群協(xié)同應(yīng)用場景建模

        隨著經(jīng)濟(jì)快速發(fā)展,我國國際地位不斷提升,國民生活及娛樂方式也越發(fā)豐富,如舉辦冬奧會(huì)等國際大型賽事、假期出行旅游人次大幅增加等情況,在局部地區(qū)產(chǎn)生了突發(fā)的大量熱點(diǎn)流量需求,給傳統(tǒng)地面基站帶來巨大的負(fù)荷壓力,用戶的網(wǎng)絡(luò)體驗(yàn)難以得到保障。在此情況下,無人機(jī)可憑借其靈活移動(dòng)性及資源的可搭載性,搭載微型基站作為空中基站部署[13],有效補(bǔ)充現(xiàn)有地面蜂窩系統(tǒng),響應(yīng)突發(fā)熱點(diǎn)流量的需求。

        如圖1所示,無人機(jī)群在接收到為某一突發(fā)熱點(diǎn)流量需求的區(qū)域用戶提供網(wǎng)絡(luò)服務(wù)的任務(wù)后,系統(tǒng)將先對每一架無人機(jī)進(jìn)行用戶分配調(diào)度與路徑規(guī)劃,接著各無人機(jī)根據(jù)規(guī)劃的路徑飛到各自的目標(biāo)用戶簇上空。當(dāng)無人機(jī)為目標(biāo)區(qū)域提供下行數(shù)據(jù)服務(wù)時(shí),無人機(jī)基站的三維懸停位置將直接影響到其服務(wù)覆蓋范圍及用戶信道質(zhì)量,因此需在考慮相鄰用戶簇間干擾的情況下,以最大化系統(tǒng)吞吐量為目標(biāo)聯(lián)合優(yōu)化各無人機(jī)的最佳三維懸停位置。當(dāng)無人機(jī)飛到目標(biāo)區(qū)域并懸停在最佳三維懸停點(diǎn)后,將為其對應(yīng)的目標(biāo)用戶提供下行數(shù)據(jù)服務(wù)。由于各無人機(jī)可搭載的資源有限,可能出現(xiàn)無人機(jī)未搭載部分目標(biāo)用戶需求的網(wǎng)絡(luò)數(shù)據(jù)的情況,為解決此問題,無人機(jī)間可通過無人機(jī)通信鏈路進(jìn)行數(shù)據(jù)共享傳輸,從而在該區(qū)域用戶上空形成無人機(jī)通信網(wǎng)絡(luò)。

        圖1 無人機(jī)集群為突發(fā)熱點(diǎn)流量需求用戶提供服務(wù)示意圖Fig.1 Schematic diagram of UAV cluster providing services for users with sudden hot traffic demands

        2 無人機(jī)集群用戶調(diào)度及路徑規(guī)劃

        2.1 基于業(yè)務(wù)優(yōu)先級的用戶調(diào)度

        在實(shí)際情況中,突發(fā)熱點(diǎn)流量需求的用戶數(shù)量較多且需求呈現(xiàn)異構(gòu)性,由于系統(tǒng)成本原因,有限數(shù)量的無人機(jī)可能無法同時(shí)覆蓋所有用戶的突發(fā)需求,因此需要對無人機(jī)服務(wù)的用戶或區(qū)域進(jìn)行選擇和劃分。

        在Fu等人[14]提出的無人機(jī)自組網(wǎng)架構(gòu)中,考慮無人機(jī)組網(wǎng)被重新安排多次,在每一次安排中,基于無人機(jī)的無線網(wǎng)絡(luò)只能為系統(tǒng)中的部分用戶提供服務(wù)。在此情況下,首先基于用戶的業(yè)務(wù)優(yōu)先級對用戶進(jìn)行選擇,使無人機(jī)群在能量限制下優(yōu)先服務(wù)業(yè)務(wù)優(yōu)先級高的用戶,提高系統(tǒng)能量效率。

        2.2 路徑規(guī)劃算法

        用戶調(diào)度完成后,無人機(jī)群需要飛到相應(yīng)的用戶簇上空。無人機(jī)的飛行路徑將直接影響其能耗,若飛行路徑過長將會(huì)導(dǎo)致無人機(jī)消耗大量能量用于飛行而非服務(wù)用戶,甚至出現(xiàn)能量無法支撐其到達(dá)用戶簇或返航的情況。因此,需要對無人機(jī)群的飛行路徑進(jìn)行合理有效的優(yōu)化和規(guī)劃,以提高系統(tǒng)能量效率。

        路徑規(guī)劃算法大致分為精確算法、啟發(fā)式算法以及智能優(yōu)化算法三類[17]。相對于智能優(yōu)化算法,精確方法及啟發(fā)式算法屬于傳統(tǒng)路徑規(guī)劃算法,常見的傳統(tǒng)路徑規(guī)劃算法主要有人工勢場法[18]、A*算法[19]等。傳統(tǒng)方法在解決路徑規(guī)劃問題時(shí)存在很多局限,精確算法可以通過不斷搜索最終得到問題的最優(yōu)解,但效率低且受限于問題的規(guī)模,當(dāng)目標(biāo)函數(shù)和約束條件較為復(fù)雜時(shí),精確方法很難給出有效解。啟發(fā)式算法相較于精確算法在面臨復(fù)雜、規(guī)模較大問題時(shí)可更高效率地搜索到結(jié)果,但易陷入局部最優(yōu)。鑒于此,越來越多的研究利用智能優(yōu)化算法求解無人機(jī)集群路徑規(guī)劃,其中應(yīng)用最廣泛的三種方法分別是蟻群算法、粒子群算法、遺傳算法[20]。

        蟻群算法(Ant Clony Optimization,ACO)是一種仿生算法[21],根據(jù)長時(shí)間內(nèi)蟻群在較短路徑上積累的信息素濃度較高的原理來尋找最短路徑。蟻群算法最早被用于解決旅行商問題(Traveling Salesman Problem,TSP)并取得了較好效果,但其性能受信息素的更新模型影響,缺乏有效的更新模型,易使種群喪失多樣性而陷入局部最優(yōu)。

        粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法[22]源于對鳥群捕食行為的研究,其核心思想是利用群體中的個(gè)體對信息的共享使整個(gè)群體的運(yùn)動(dòng)在問題求解空間中產(chǎn)生從無序到有序的演化過程,從而獲得問題的可行解。PSO無需復(fù)雜的參數(shù)調(diào)節(jié),前期收斂速度快,但后期收斂速度慢,精度不高。

        遺傳算法(Genetic Algorithm,GA)源于達(dá)爾文的進(jìn)化論[23],模擬了物競天擇、適者生存的自然選擇規(guī)律,通過物種遺傳、交叉、變異進(jìn)化出問題的最優(yōu)解。算法的優(yōu)勢在于不受問題領(lǐng)域限制,應(yīng)用廣泛,但存在易早熟、陷入局部最優(yōu)解的問題。

        2.3 基于指針網(wǎng)絡(luò)的無人機(jī)集群路徑規(guī)劃

        在前文提及的用戶調(diào)度及無人路徑規(guī)劃中,其思想是先根據(jù)用戶業(yè)務(wù)優(yōu)先級對無人機(jī)群服務(wù)的用戶簇進(jìn)行確定和選擇,然后再對無人機(jī)飛向目標(biāo)用戶簇的路徑最小化問題進(jìn)行求解。

        若不將用戶選擇與路徑規(guī)劃分離,而是對用戶簇選擇及無人機(jī)飛行路徑進(jìn)行共同優(yōu)化,即在無人機(jī)能量限制下輸出選擇服務(wù)的用戶及無人機(jī)飛行路徑,使系統(tǒng)收益最大而無人機(jī)飛行距離最短,一個(gè)用戶帶來的收益即該用戶被無人機(jī)服務(wù)的優(yōu)先級,例如數(shù)據(jù)量等。因此,無人機(jī)為用戶提供服務(wù)的路徑優(yōu)化問題實(shí)際上是背包問題(Knapsack Problem,KP)和旅行商問題的組合,定義為一個(gè)定向問題[24](Orienteering Problem,OP)。定向問題即頂點(diǎn)選擇和確定選定頂點(diǎn)之間最短哈密頓路徑的組合問題,已被Gloden證明了是一類經(jīng)典的NP-hard問題[25]。

        基于RNN的指針網(wǎng)絡(luò)(Pointer Network,PN)由Sequence-to-Sequence 模型和Attention 模型結(jié)合改進(jìn)得到,適宜于變長序列收集,被廣泛應(yīng)用于解決組合優(yōu)化問題,此處可有效地遷移到解決無人機(jī)為用戶服務(wù)的路徑規(guī)劃問題中來[26]。

        圖2展示了基于指針網(wǎng)絡(luò)的無人機(jī)路徑規(guī)劃,主要由指針網(wǎng)絡(luò)和無人機(jī)飛行服務(wù)場景兩部分組成,無人機(jī)根據(jù)指針網(wǎng)絡(luò)的輸出確定要服務(wù)的用戶簇節(jié)點(diǎn)及服務(wù)順序。

        圖2 基于指針網(wǎng)絡(luò)的無人機(jī)路徑規(guī)劃示意圖Fig.2 Schematic diagram of UAV path planning based on pointer network

        如圖2所示,指針網(wǎng)絡(luò)主要包括一個(gè)編碼器和一個(gè)解碼器,分別由多層具有學(xué)習(xí)了不同時(shí)間間隙數(shù)據(jù)間聯(lián)系特征的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)組成。假設(shè)Einputs=Ij(j=1,2,…,n)為編碼器不同時(shí)序的輸入序列,(e1,e2,…,en)和(d1,d2,…,dm)分別為編碼器和解碼器不同時(shí)序的隱藏層狀態(tài)。將輸入序列Einputs經(jīng)過n+1步輸入到編碼器中,得到每一步輸入對應(yīng)的編碼器部分的網(wǎng)絡(luò)隱藏層狀態(tài)ej,當(dāng)輸入序列輸入完畢后,將得到的隱藏層狀態(tài)集合Encoder=(e1,e2,…,en)編碼得到中間相量后輸入解碼器,得到解碼器部分的隱藏層狀態(tài)Decoder=(d1,d2,…,dn)。對于解碼過程,每一步解碼根據(jù)ei及dj計(jì)算輸入序列對當(dāng)前輸出的影響,將計(jì)算結(jié)果經(jīng)過softmax歸一化處理后得到注意力矩陣并選擇矩陣中數(shù)值最大的指針作為輸出,該指針的具體值即為輸入序列中某元素的索引值。將指針網(wǎng)絡(luò)應(yīng)用到對無人機(jī)飛行軌跡的規(guī)劃中,為了實(shí)現(xiàn)高能效的系統(tǒng)目標(biāo),將用戶簇中心坐標(biāo)集合與其為系統(tǒng)帶來的收益值集合作為輸入序列進(jìn)入編碼器,而在解碼時(shí)依次將注意力矩陣中數(shù)值最大的指針作為輸出,指針的具體值即為用戶簇節(jié)點(diǎn)的索引值。根據(jù)輸出的索引值及其輸出的先后順序可確定無人機(jī)要服務(wù)的用戶節(jié)點(diǎn)及服務(wù)順序,即無人機(jī)的飛行軌跡?;谝陨厦枋?,針對本文場景,指針網(wǎng)絡(luò)模型具體的輸入輸出為:

        輸入:Dcoords={(x0,y0),(x1,y1),…,(xn,yn)}表示無人機(jī)起始位置坐標(biāo)Dbp=(x0,y0)和待服務(wù)地面用戶簇的中心位置坐標(biāo)Dcoords={(x1,y1),(x2,y2),…,(xn,yn)}的集合。令無人機(jī)在起始點(diǎn)處的收益為R0=0,收益集合為Rreward={R0,R1,…,Rn},具體的收益可根據(jù)系統(tǒng)目標(biāo)進(jìn)行合理設(shè)計(jì)。位置坐標(biāo)集合Dcoords和收益集合Rreward將共同組成指針網(wǎng)絡(luò)的輸入Einputs={(x0,y0,R0),(x1,y1,R1),…,(xn,yn,Rn)}。

        輸出:指針網(wǎng)絡(luò)的輸出為Doutputs={D0,D1,…,Dm},即無人機(jī)對地面用戶簇服務(wù)的順序,其中,Dm為對應(yīng)輸入Einputs中的元素索引值,m為無人機(jī)為其提供服務(wù)的地面用戶簇?cái)?shù)量。

        3 多無人機(jī)三維懸停位置部署

        如前文所述,在無人機(jī)飛出之前,需對無人機(jī)群要服務(wù)的用戶進(jìn)行調(diào)度。當(dāng)無人機(jī)群飛到為其調(diào)度的用戶簇上空時(shí),無人機(jī)群的三維懸停位置[27-28]將直接影響其覆蓋范圍內(nèi)所有用戶的信道質(zhì)量乃至系統(tǒng)吞吐量,從而影響到系統(tǒng)的能量效率,因此無人機(jī)群的三維懸停位置需要進(jìn)行精心設(shè)計(jì)與優(yōu)化。

        對于單個(gè)用戶,當(dāng)環(huán)境參數(shù)確定時(shí),基于概率LoS/NLoS混合模型的空對地信道增益可以通過滿足無人機(jī)和用戶間的最佳仰角達(dá)到最大。然而,當(dāng)多架無人機(jī)為多個(gè)用戶簇服務(wù)時(shí),無法同時(shí)滿足無人機(jī)與每個(gè)用戶間都形成最佳仰角,且存在相鄰用戶簇間的無線干擾,多無人機(jī)的三維懸停位置優(yōu)化問題將變得復(fù)雜。在面對有大量參數(shù)的復(fù)雜優(yōu)化問題時(shí),人工智能算法具有很大優(yōu)勢,可將其構(gòu)建為多智能體深度強(qiáng)化學(xué)習(xí)[29]問題進(jìn)行求解。但在多智能體強(qiáng)化學(xué)習(xí)中,每一個(gè)智能體的決策會(huì)對其他智能體帶來環(huán)境的改變,即訓(xùn)練時(shí)環(huán)境不平穩(wěn)。多智能體學(xué)習(xí)主要包含三種方式:

        ① 集中式學(xué)習(xí):系統(tǒng)被視為一個(gè)整體并利用單智能體算法來學(xué)習(xí),解決了環(huán)境的非平穩(wěn)問題。集中式學(xué)習(xí)要求智能體之間能夠保持通信,使系統(tǒng)具備全局視角,對于無通信、大規(guī)模動(dòng)作空間的問題不適用。

        ② 分散式學(xué)習(xí):各智能體獨(dú)立地訓(xùn)練各自的策略后獨(dú)立地執(zhí)行,沒有考慮智能體間的交互與影響。分散式學(xué)習(xí)忽略了環(huán)境的不穩(wěn)定性,只適用于少數(shù)簡單的環(huán)境。

        ③ 集中式學(xué)習(xí),分散式執(zhí)行:是集中式學(xué)習(xí)與分散式學(xué)習(xí)的結(jié)合。智能體之間存在交互和通信,在訓(xùn)練時(shí)具備全局視角、共享信息,高效地學(xué)習(xí)全局策略,但訓(xùn)練完畢后各智能體獨(dú)立分散地執(zhí)行決策。

        本節(jié)將主要介紹利用集中式學(xué)習(xí)中的近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法和集中式學(xué)習(xí)、分散式執(zhí)行中的多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法來解決多無人機(jī)三維懸停位置的優(yōu)化問題。

        3.1 基于PPO的多無人機(jī)基站三維懸停位置部署算法

        采用概率視距路徑損耗模型來對空對地信道進(jìn)行建模并表示出無人機(jī)基站k和地面用戶u之間的信道增益后,可以得到考慮了干擾的無人機(jī)基站k和地面用戶u的數(shù)據(jù)率Rk,u,進(jìn)而,最大化系統(tǒng)吞吐量的多無人機(jī)基站三維部署問題,可轉(zhuǎn)變?yōu)閷λ笑裬,uRk,u求和并求最大值的優(yōu)化問題。

        PPO算法是對梯度策略(Policy Gradient,PG)算法的改進(jìn)[31]。在PG算法中,若更新步長過大,則會(huì)導(dǎo)致學(xué)習(xí)到的策略不斷波動(dòng)難以收斂,若更新步長過小,會(huì)消耗大量的時(shí)間成本,PPO的提出即是為了解決PG算法中更新步長難以確定的問題。在PPO的Actor-Critic網(wǎng)絡(luò)中,Critic網(wǎng)絡(luò)估計(jì)狀態(tài)值函數(shù)且其優(yōu)化目標(biāo)仍然是最小化均方誤差損失函數(shù)。而PPO中的Actor網(wǎng)絡(luò)與標(biāo)準(zhǔn)的策略梯度算法不同,PPO基于重要性采樣(Importance Sampling)的思想,在每次更新策略時(shí)利用舊策略πθold采集的軌跡數(shù)據(jù)以及相應(yīng)的優(yōu)勢函數(shù),對策略πθold進(jìn)行優(yōu)化,但為了避免新策略與舊策略相差太大,PPO對代理目標(biāo)(Surrogate Objective Function)加上了約束,得到了截?cái)啻砟繕?biāo)。截?cái)啻砟繕?biāo)引入了用來控制信任域大小的超參數(shù)ε,保障新策略不會(huì)偏離舊策略太多,超參數(shù)ε越大,智能體策略更新的信任域越大,更加偏向于探索;反之,策略更新的信任域越小,智能體學(xué)習(xí)越謹(jǐn)慎,PPO原理如圖3所示。

        圖3 基于PPO的多無人機(jī)基站三維懸停位置部署Fig.3 3D Hovering position deployment of multi-UAV base stations based on PPO

        使用PPO算法對多無人機(jī)三維懸停位置部署問題求解,設(shè)計(jì)馬爾可夫決策過程[32]的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)如下:

        ② 動(dòng)作空間:動(dòng)作空間包含各無人機(jī)基站在下一個(gè)時(shí)間步的三維位置q′k,?k∈K。則動(dòng)作空間表示為A={q′1,q′2,…,q′K},且與狀態(tài)空間維度相同,為(3×K)個(gè)維度。

        ③ 獎(jiǎng)勵(lì)函數(shù):為了使系統(tǒng)吞吐量最大化且防止無人機(jī)基站間的碰撞,獎(jiǎng)勵(lì)函數(shù)包含t時(shí)刻吞吐量Ct及無人機(jī)基站間距離的懲罰項(xiàng)ξt。如果存在任意兩無人機(jī)基站的距離小于一定數(shù)值將會(huì)受到懲罰,相距越近,懲罰值越大,則時(shí)間步t的獎(jiǎng)勵(lì)函數(shù)rt可表示為如下形式:rt=αCt-βξt,α、β為用來調(diào)整獎(jiǎng)勵(lì)中各項(xiàng)到合適數(shù)量級的正數(shù)。

        基于對馬爾可夫決策過程的建模,智能體可以執(zhí)行動(dòng)作獲取獎(jiǎng)勵(lì)值并完成狀態(tài)轉(zhuǎn)移。PPO算法中智能體每收集一定時(shí)間步的狀態(tài)轉(zhuǎn)移軌跡,則對Actor和Critic網(wǎng)絡(luò)的參數(shù)進(jìn)行一輪更新。當(dāng)訓(xùn)練完成后,即可得到最大化系統(tǒng)吞吐量的多無人機(jī)基站三維部署,提高系統(tǒng)能量效率。

        3.2 基于MADDPG的多無人機(jī)基站三維懸停位置部署算法

        MADDPG屬于集中式學(xué)習(xí)、分散式執(zhí)行的多智能體強(qiáng)化學(xué)習(xí)方法,可被用來有效地優(yōu)化多無人機(jī)三維懸停位置[33]。MADDPG是一種基于Actor-Critic框架的算法,其目標(biāo)是從與環(huán)境交互的經(jīng)驗(yàn)中學(xué)習(xí)最優(yōu)聯(lián)合策略,使得智能體累積聯(lián)合獎(jiǎng)勵(lì)最大。MADDPG結(jié)構(gòu)示意如圖4所示,在環(huán)境中一共有K個(gè)無人機(jī)出行執(zhí)行任務(wù),即K個(gè)智能體。各智能體均采用DDPG算法框架,由估計(jì)Actor-Critic網(wǎng)絡(luò)與目標(biāo)Actor-Critic網(wǎng)絡(luò)組成。其中Actor網(wǎng)絡(luò)實(shí)現(xiàn)從狀態(tài)到行動(dòng)的映射,Critic網(wǎng)絡(luò)對行為者輸出的行動(dòng)進(jìn)行評分[34]。

        圖4 基于MADDPG的多無人機(jī)基站三維懸停位置部署Fig.4 3D Hovering position deployment of multi-UAV base stations based on MADDPG

        建立多智能體的MADDPG算法,需要確定三個(gè)要素,即環(huán)境空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù),具體設(shè)計(jì)與上節(jié)中基于PPO機(jī)制的馬爾可夫決策過程相同。在集中式學(xué)習(xí)中,每個(gè)智能體的Critic網(wǎng)絡(luò)中需要考慮其他智能體的狀態(tài)和動(dòng)作。一旦訓(xùn)練完成,每個(gè)智能體只需要根據(jù)自己的狀態(tài)來執(zhí)行動(dòng)作。以無人機(jī)k為例,在t時(shí)刻無人機(jī)k當(dāng)前的狀態(tài)為st,Actor網(wǎng)絡(luò)輸出一個(gè)動(dòng)作at,即無人機(jī)位移到的下一個(gè)位置,從環(huán)境中獲得一個(gè)關(guān)于吞吐量的獎(jiǎng)勵(lì)rt。通過執(zhí)行行動(dòng)at,無人機(jī)k轉(zhuǎn)移到下一個(gè)狀態(tài)st+1,相應(yīng)的元組(st,at,rt,st+1)被作為經(jīng)驗(yàn)存儲(chǔ)在經(jīng)驗(yàn)回放池中。估計(jì)網(wǎng)絡(luò)將從經(jīng)驗(yàn)回放池采樣經(jīng)驗(yàn),通過小批量梯度下降法進(jìn)行訓(xùn)練,目標(biāo)網(wǎng)絡(luò)通過復(fù)制評估網(wǎng)絡(luò)中的參數(shù)來更新。

        4 無人機(jī)網(wǎng)絡(luò)智能管控架構(gòu)

        當(dāng)無人機(jī)群到達(dá)并懸停在最佳三維懸停位置處之后,無人機(jī)群需要對用戶提供相應(yīng)服務(wù)。由于無人機(jī)可搭載資源的有限性及用戶需求的異構(gòu)性,可能出現(xiàn)單個(gè)無人機(jī)并未搭載其對應(yīng)的部分用戶需求的情況。為保證無人機(jī)集群更高效節(jié)能地為用戶提供服務(wù),需要搭建無人機(jī)網(wǎng)絡(luò)[35],提出無人機(jī)網(wǎng)絡(luò)智能管控架構(gòu)如圖5所示。無人機(jī)間可通過專用信道相互連接共享資源,形成資源池。另外,由于無人機(jī)數(shù)量有限,即使形成了共享資源池,其計(jì)算能力和資源也是有限的。在此情況下,無人機(jī)可與地面基站相連,將計(jì)算任務(wù)在基站與無人機(jī)網(wǎng)絡(luò)間進(jìn)行權(quán)衡或從基站處獲取缺乏的目標(biāo)資源。若無人機(jī)與基站間的距離較遠(yuǎn)且存在非視距信道,可借助衛(wèi)星作為中繼,實(shí)現(xiàn)基站與無人機(jī)間的信息中繼傳輸。

        圖5 無人機(jī)網(wǎng)絡(luò)智能管控架構(gòu)Fig.5 UAV network intelligent management and control architecture

        與此同時(shí),在無人機(jī)群結(jié)束一次服務(wù)后開始下一次服務(wù)前,存在一段無人機(jī)群的配置時(shí)延,進(jìn)行無人機(jī)群的調(diào)度和飛行。在配置時(shí)延期間,每個(gè)用戶的業(yè)務(wù)優(yōu)先級將會(huì)被更新,用戶將業(yè)務(wù)優(yōu)先級廣播給附近的無人機(jī),任意的無人機(jī)可以通過專用通道與附近的無人機(jī)連接。這樣的連接可以合并附近的無人機(jī)計(jì)算資源,并使無人機(jī)群能根據(jù)業(yè)務(wù)優(yōu)先級確定無人機(jī)群的下一個(gè)盤旋位置和覆蓋范圍。當(dāng)部分無人機(jī)距離較遠(yuǎn)無法直接通過專用通道相連時(shí),為了擴(kuò)展用戶的業(yè)務(wù)優(yōu)先級信息,無人機(jī)可向基站傳輸覆蓋其用戶的業(yè)務(wù)優(yōu)先級信息后由基站將收到的信息廣播給系統(tǒng)中的其他無人機(jī)。當(dāng)無人機(jī)與基站距離較遠(yuǎn)時(shí),衛(wèi)星可作為中繼。

        5 未來展望

        對于無人機(jī)群的路徑規(guī)劃問題,本文介紹的指針網(wǎng)絡(luò)為無人機(jī)的路徑規(guī)劃提供了一個(gè)很好的解決方案,但仍然存在一些挑戰(zhàn)。首先,在使用無線充電器緩解無人機(jī)群能源短缺問題的情況下,在為無人機(jī)群的飛行軌跡實(shí)施指針網(wǎng)絡(luò)之前,應(yīng)研究充電器的位置。這種規(guī)劃涉及復(fù)雜的因素,如平均用戶分布、地理?xiàng)l件、無人機(jī)的最大可用能量等。其次,在指針網(wǎng)絡(luò)中應(yīng)考慮無人機(jī)群之間的避障問題。

        對于多無人機(jī)基站的三維懸停位置部署,除了DRL本身具有的低樣本利用率和復(fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)問題外,在無人機(jī)群三維部署中的應(yīng)用仍然存在一些挑戰(zhàn)。例如,網(wǎng)絡(luò)的高動(dòng)態(tài)性,尤其是用戶的流動(dòng)性,導(dǎo)致無人機(jī)群的靜態(tài)部署會(huì)失去最佳效果。因此,要求動(dòng)態(tài)部署無人機(jī)群,以便無人機(jī)群能夠根據(jù)用戶的位置和業(yè)務(wù)需求實(shí)時(shí)調(diào)整其三維懸停位置,從而保持最佳性能。

        在一次服務(wù)周期中,無人機(jī)需要在配置時(shí)延內(nèi)完成調(diào)度及飛行,在服務(wù)時(shí)延內(nèi)為用戶提供服務(wù)。無人機(jī)的服務(wù)時(shí)延越大,可使用于無線傳輸?shù)哪芎脑叫?,但過大的服務(wù)時(shí)延會(huì)導(dǎo)致無人機(jī)在服務(wù)完用戶后的時(shí)間浪費(fèi)。此外,在最大容忍時(shí)延的限制下,服務(wù)時(shí)延的增大會(huì)導(dǎo)致服務(wù)周期的減少,這將導(dǎo)致被服務(wù)的用戶數(shù)量及需求減少。相反,服務(wù)時(shí)延減少會(huì)使服務(wù)周期數(shù)增加,則無人機(jī)群可以向更多用戶提供服務(wù),但在最大容忍時(shí)延內(nèi)的總服務(wù)時(shí)間將減少,系統(tǒng)的吞吐量和能量效率將會(huì)降低。因此,在無人機(jī)能量支持的最大活動(dòng)時(shí)延約束下,需對配置時(shí)延及服務(wù)時(shí)延進(jìn)行權(quán)衡以使系統(tǒng)能效最大化。在未來的工作中,可以采用一些人工智能算法對配置時(shí)延和服務(wù)時(shí)延進(jìn)行優(yōu)化,如強(qiáng)化學(xué)習(xí)等。

        6 結(jié)束語

        無人機(jī)集群協(xié)同執(zhí)行任務(wù)可打破地面環(huán)境、自然條件等的約束,作為地面網(wǎng)絡(luò)的有效補(bǔ)充,能高效及時(shí)地完成復(fù)雜及突發(fā)任務(wù),是未來無人機(jī)應(yīng)用的重要發(fā)展方向,也是實(shí)現(xiàn)6G愿景中網(wǎng)絡(luò)一體化的重要技術(shù)。本文考慮無人機(jī)集群為突發(fā)熱點(diǎn)流量需求區(qū)域的用戶提供服務(wù)的場景,按照服務(wù)過程將無人機(jī)集群協(xié)同服務(wù)依次分解為無人機(jī)集群用戶調(diào)度及路徑規(guī)劃、多無人機(jī)三維懸停位置部署及無人機(jī)網(wǎng)絡(luò)智能管控架構(gòu)三方面的應(yīng)用。為提高系統(tǒng)能量效率,在各應(yīng)用中進(jìn)行了模型構(gòu)建并提出了相應(yīng)的智能優(yōu)化算法。最后,本文指出了無人機(jī)集群智能自組網(wǎng)協(xié)同應(yīng)用中面臨的挑戰(zhàn)和未來研究方向,希望為后續(xù)研究提供參考,推動(dòng)無人機(jī)集群智能自組網(wǎng)協(xié)同工作的進(jìn)一步發(fā)展。

        猜你喜歡
        智能用戶服務(wù)
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        招行30年:從“滿意服務(wù)”到“感動(dòng)服務(wù)”
        商周刊(2017年9期)2017-08-22 02:57:56
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        曰本女人牲交全视频免费播放 | 午夜成人理论福利片| 日韩免费无码一区二区三区| 国产精品理人伦国色天香一区二区| 国产精品一区二区AV不卡| 男女上床免费视频网站| 日韩精品一区二区三区四区视频| 国产一区二区三区 在线观看| 在线观看的网站| 亚洲成a人片在线观看无码| 久久亚洲国产欧洲精品一| 在线观看极品裸体淫片av| 久久久国产精品三级av| 国产精品一区二区日本| 欧美极品jizzhd欧美| 在线播放亚洲第一字幕| 天堂AV无码AV毛片毛| 国产乱淫h侵犯在线观看| 亚洲精品成人网站在线播放| 精品国产乱码久久久久久1区2区| 久久国产精品无码一区二区三区 | 亚洲处破女av日韩精品| 国产V日韩V亚洲欧美久久| 国产精品国产三级国产在线观| 日本女优激情四射中文字幕| 99精品久久精品一区二区| 国产真人无码作爱视频免费| 亚洲人成影院在线高清| 国产一区二区三区免费av| 国产高清成人在线观看视频| 乌克兰粉嫩xxx极品hd| 国产精品福利影院| 无码伊人66久久大杳蕉网站谷歌| 五月婷婷开心六月激情| 蜜臀av无码人妻精品| 日韩中文字幕中文有码| 国产三级在线观看高清| 国产 一二三四五六| 国产精品无码一区二区在线看| 综合色久七七综合尤物| 手机在线国产福利av|