陳潤豐 陳 瑾* 李 虹 初曉婧 劉典雄 張玉立 徐煜華
①(陸軍工程大學通信工程學院 南京 210014)
②(中國人民解放軍96963部隊 南京 210000)
③(軍事科學院系統(tǒng)工程研究院 北京 100141)
④(軍事科學院國防科技創(chuàng)新研究院 北京 100071)
隨著通信技術的發(fā)展和信息需求的提升,第6代移動通信系統(tǒng)已經(jīng)引起了學術界和工業(yè)界的廣泛關注與研究[1,2]。國際電信聯(lián)盟電信標準分局2030網(wǎng)絡焦點組在《6G概念及愿景白皮書》中指出:“未來,6G業(yè)務將呈現(xiàn)沉浸化、智慧化、全域化等全新發(fā)展趨勢,涵蓋全息通信、智慧交互、數(shù)字孿生、全域覆蓋等八大業(yè)務應用場景”[3]。傳統(tǒng)地面蜂窩網(wǎng)絡雖然滿足了4G和5G場景的基本通信需求,但還存在以下問題:對于通信需求量較少的場景,固定基站容易造成資源的浪費;對于緊急應用場景,傳統(tǒng)基站部署會嚴重影響通信體驗[4,5]。綜合來看,傳統(tǒng)的地面網(wǎng)絡難以滿足6G網(wǎng)絡的互聯(lián)互通和空天地一體化聯(lián)接。
無人機憑借靈活性高、成本低和功能性強等優(yōu)點[6,7],有效推動了多維無線通信網(wǎng)絡的發(fā)展,具體來說,它能夠為6G 網(wǎng)絡提供高效的無線覆蓋方案,有助于推動6G 網(wǎng)絡形成多元異構、跨域融合的空天地海一體化網(wǎng)絡[4]。例如,無人機可以作為蜂窩網(wǎng)絡中的移動基站,也可以充當中繼在地面通信設備之間傳送數(shù)據(jù)[8]。此外,無人機之間相互配合形成蜂群,可在偏遠地區(qū)執(zhí)行目標探測、災害管理和偵查監(jiān)視等危險任務[9]。在智能無人機網(wǎng)絡中,無人機之間的通信會直接影響任務的完成情況。針對6G場景中的復雜業(yè)務,無人機網(wǎng)絡需要自組織通信決策,以實現(xiàn)高效資源優(yōu)化。
無人機自組網(wǎng)具有高動態(tài)、大規(guī)模、強異構和任務驅動等特點[10],與地面網(wǎng)絡相比有以下不同:一方面,通信需求不同,地面上的通信需求是自下而上的,一般由通信終端自發(fā)產(chǎn)生,然而無人機網(wǎng)絡進行通信都是任務驅動的,通信需求自頂向下,信息交互是為了執(zhí)行任務;另一方面,無人機通信網(wǎng)絡執(zhí)行任務更具有挑戰(zhàn)性,在執(zhí)行復雜任務時,無人機需要自主學習周圍環(huán)境,制定組網(wǎng)、數(shù)據(jù)傳輸和任務執(zhí)行等策略。因此,研究無人機網(wǎng)絡的智能通信體系結構及其相關技術具有重要意義和前景。
本文從6G網(wǎng)絡需求出發(fā),通過任務驅動的無人機通信網(wǎng)絡面臨的挑戰(zhàn)、聯(lián)盟無人機通信網(wǎng)絡模型和網(wǎng)絡優(yōu)化方法來闡述基于聯(lián)盟的6G無人機通信網(wǎng)絡,具體如下:
(1) 簡要回顧現(xiàn)有的無人機通信網(wǎng)絡模型,主要包括預先規(guī)劃、基站輔助、純分布式和分簇的無人機網(wǎng)絡模型,分析了它們的特點、適用場景和不足。針對6G任務特點,闡述了無人機通信網(wǎng)絡面臨的挑戰(zhàn)。
(2) 針對6G任務場景,提出一種基于聯(lián)盟的無人機通信網(wǎng)絡優(yōu)化框架。從聯(lián)盟的架構和聯(lián)盟工作原理兩個方面,介紹了基于聯(lián)盟的6G無人機通信網(wǎng)絡模型。
(3) 設計一個基于博弈學習的人工智能優(yōu)化框架,主要由博弈論、機器學習和在線決策等機制組成[11,12]。最后,給出仿真示例分析,與傳統(tǒng)的分簇網(wǎng)絡相比,無人機聯(lián)盟通信網(wǎng)絡性能更優(yōu);此外,對于無人機聯(lián)盟網(wǎng)絡,博弈學習方法具有較強的適用性。
本節(jié)首先對現(xiàn)有的無人機通信網(wǎng)絡架構進行了簡單的分析,比較了不同網(wǎng)絡架構的特點及不足;然后結合6G網(wǎng)絡業(yè)務需求,闡述了無人機通信網(wǎng)絡面臨的挑戰(zhàn)。
與5G網(wǎng)絡相比,6G網(wǎng)絡將進一步提升傳輸速率、可靠性、連接密度和頻譜效率等性能,以滿足多樣化復雜化的業(yè)務需求。對于無人機通信網(wǎng)絡,指標要求體現(xiàn)在傳輸速率、任務時延和能量消耗等多個方面。本節(jié)首先分析了現(xiàn)有無人機通信網(wǎng)絡架構[13],主要包括指令預設、基站輔助、完全分布式和分簇網(wǎng)絡。
2.1.1 指令預設的通信網(wǎng)絡
指令預設的無人機網(wǎng)絡一般沒有自主決策能力,屬于集中式的通信網(wǎng)絡[11]。在執(zhí)行任務前,相關人員將指令信息載入到無人機本地,無人機按照預設指令執(zhí)行任務。該組網(wǎng)模式規(guī)模較小,適用于任務較為固定而且沒有突發(fā)情況的場景,例如編隊飛行表演、救災物資投送和戰(zhàn)時信息廣播等。
2.1.2 基站輔助的通信網(wǎng)絡
無人機與地面基站保持連接,基站輔助無人機網(wǎng)絡進行通信,該網(wǎng)絡會占用地面蜂窩網(wǎng)絡的頻譜資源,依賴性較強。該網(wǎng)絡主要用于城市場景,例如廣告展示、熱點覆蓋和監(jiān)控等等。當無人機數(shù)量較多時,將會給地面基站帶來較大負擔[14]。
2.1.3 完全分布式的通信網(wǎng)絡
完全分布式的網(wǎng)絡中,無人機可與相鄰無人機進行信息交互,并具有獨立的信息處理能力,根據(jù)任務實施情況做出決策。該網(wǎng)絡適用于區(qū)域覆蓋型的場景任務,復雜環(huán)境中大規(guī)模的完全分布式網(wǎng)絡難以實現(xiàn)。
2.1.4 分簇網(wǎng)絡
無人機網(wǎng)絡采用分簇模式,無人機被分為多個簇,簇內包含1個簇頭和多個簇成員,簇頭負責簇內通信以及與地面控制站保持信息交互,簇頭之間以分布式方式共用頻譜資源[13]。分簇網(wǎng)絡屬于半分布式半集中式的網(wǎng)絡,適用于地面控制有限的場景。
2.2.1 自組織增加無人機組網(wǎng)難度
在簡單情況下,無人機可根據(jù)指令直接組網(wǎng)。然而,隨著6G業(yè)務需求和任務環(huán)境的復雜化,遠程控制臺無法及時、準確地掌握全局信息,為提升任務完成速率,保證6G網(wǎng)絡性能,無人機需自主完成組網(wǎng)并對資源進行決策,優(yōu)化難度大幅增加[9]。
2.2.2 大規(guī)模集群導致嚴重自干擾
為了發(fā)揮集群力量效果,6G網(wǎng)絡需求下無人機通常以大規(guī)模的形態(tài)出現(xiàn),導致無線資源的高度競爭和過度擁塞,網(wǎng)絡內部通信鏈路間的干擾加劇[15,16],從而影響大規(guī)模無人機群智能協(xié)同功能的實現(xiàn),不利于6G的一體化網(wǎng)絡融合。
2.2.3 異構復雜任務需求與網(wǎng)絡資源之間需匹配
6G網(wǎng)絡中業(yè)務呈現(xiàn)高度異構性和復雜性[1,8],業(yè)務種類較多,無人機網(wǎng)絡需依據(jù)任務需求對無線網(wǎng)絡資源進行合理分配。此外,任務需求的時變性和突發(fā)性,對實現(xiàn)快速高效的網(wǎng)絡資源優(yōu)化提出了新的要求。
2.2.4 無人機群高機動性導致通信環(huán)境動態(tài)變化
無人機群具有較強的機動能力,動態(tài)任務導致聯(lián)盟拓撲結構變化,使得機群內無人機的相對位置動態(tài)變化,導致無人機之間的干擾關系不斷變化[6]。同時,無人機網(wǎng)絡飛臨不同區(qū)域時,外界的無線頻譜環(huán)境發(fā)生變化,可用頻段和干擾情況也會不同。因此,相比傳統(tǒng)低機動性的網(wǎng)絡,無人機群的資源決策更加復雜。
指令預設和基站輔助的網(wǎng)絡中無人機無法進行內部通信,沒有獨立處置突發(fā)任務的能力。實際任務中,即使沒有地面的實時控制,無人機通信網(wǎng)絡也應保證任務的完成。完全分布式的網(wǎng)絡性能需求較高,不便于管理,也不利于任務的展開。無人機分簇網(wǎng)絡的形成主要基于無人機的距離和通信狀況,適用于任務與環(huán)境較為固定的場景[13]。由于分簇網(wǎng)絡對簇頭的依賴性較強,網(wǎng)絡的靈活性和穩(wěn)定性較差。此外,隨著6G網(wǎng)絡業(yè)務越來越復雜,無人機可能隨時加入或退出網(wǎng)絡,分簇網(wǎng)絡難以應對。結合以上原因,結合6G網(wǎng)絡需求,以任務驅動為出發(fā)點,本文提出基于聯(lián)盟的6G無人機通信網(wǎng)絡,如圖1所示。本節(jié)主要通過聯(lián)盟網(wǎng)絡的組成和聯(lián)盟網(wǎng)絡工作原理兩個方面來介紹無人機聯(lián)盟網(wǎng)絡模型。
如圖1所示,無人機通信網(wǎng)絡通過地面控制臺傳遞任務指令。無人機群根據(jù)6G任務需求被分為若干聯(lián)盟,在每個聯(lián)盟中包含聯(lián)盟領導者與成員。
圖1 無人機聯(lián)盟通信網(wǎng)絡示意圖
3.1.1 聯(lián)盟領導者
每個聯(lián)盟需要保持與地面控制臺的通信,以接收任務指令和反饋實時信息,一般選取硬件能力較強的無人機作為領導者。聯(lián)盟領導者不僅要負責聯(lián)盟內部的通信,還要和其他聯(lián)盟領導者進行信息交互。
3.1.2 聯(lián)盟成員
為了執(zhí)行復雜任務,聯(lián)盟內的無人機成員各有分工,以滿足6G場景中的不同功能需求。無人機聯(lián)盟成員可根據(jù)動態(tài)任務需求加入或退出某一聯(lián)盟。此外,由于不同聯(lián)盟間的任務具有相關性,會存在重疊部分,它們可以根據(jù)不同的任務需求進行協(xié)同傳輸和任務規(guī)劃。
3.1.3 任務指令
任務指令是聯(lián)盟網(wǎng)絡的驅動因素。一般情況下,地面控制臺將任務指令發(fā)送至無人機聯(lián)盟領導者。而后,無人機聯(lián)盟領導者根據(jù)實時環(huán)境對任務進行評估,再將具體的指令動作分配到聯(lián)盟內部。
以任務驅動為出發(fā)點,提出面向通信網(wǎng)絡的層級模型,如圖2左側所示,從上至下分別為任務層、應用層、網(wǎng)絡層、接入層和物理層。任務層主要負責任務的發(fā)送與接收,無人機接收到任務后對任務進行評估與劃分。應用層主要負責任務的實施,可實現(xiàn)不同功能的無人機按照需求執(zhí)行任務。網(wǎng)絡層主要負責任務相關信息的路由和轉發(fā)。接入層負責無人機的信道接入,對執(zhí)行任務的無人機進行信道資源分配。物理層主要負責無人機通信網(wǎng)絡的物理層資源的管理,例如功率分配、節(jié)能機制,對于戰(zhàn)場中的聯(lián)盟無人機還要具備一定的干擾對抗能力。
以偵察打擊任務為例,地面控制臺將偵查打擊任務及相關坐標信息發(fā)送至戰(zhàn)場附近的無人機聯(lián)盟領導者,聯(lián)盟領導者對偵察打擊任務進行評估和分解。有的無人機負責目標偵查,有的無人機負責中繼傳輸,有的無人機負責火力打擊,有的負責電力傳輸。無人機聯(lián)盟領導者根據(jù)實時情況,調度無人機成員,按照一定的原則形成針對此次偵查打擊任務的無人機聯(lián)盟。聯(lián)盟形成后,領導者還要給無人機聯(lián)盟分配物理資源,以支撐戰(zhàn)場高效通信。在任務執(zhí)行過程中,無人機聯(lián)盟領導者還需根據(jù)實時情況對聯(lián)盟做出調整[17]。
結合無人機聯(lián)盟的工作流程和任務驅動的層級網(wǎng)絡需求,設計無人機聯(lián)盟通信網(wǎng)絡的工作機制及模型,如圖2右側所示,主要分為無人機聯(lián)盟形成、聯(lián)盟任務實施、聯(lián)盟資源與安全管理3個部分。
圖2 無人機聯(lián)盟通信網(wǎng)絡模型框架圖
3.2.1 無人機通信網(wǎng)絡聯(lián)盟形成
現(xiàn)有無人機組網(wǎng)主要是基于通信距離以確保用戶間的信息高效傳輸,形式較為固定[13],而無人機聯(lián)盟的形成主要根據(jù)集群的任務需求。如果地面控制臺可與聯(lián)盟網(wǎng)絡保持實時通信,那么地面控制臺可以直接將任務進行拆解,對聯(lián)盟做出調整,聯(lián)盟領導者將接收到的指令信息下發(fā)給聯(lián)盟成員,成員按照指令即可完成任務。如果地面控制站無法掌握聯(lián)盟網(wǎng)絡的實時情況,將任務下發(fā)給聯(lián)盟領導者后,聯(lián)盟領導者將結合環(huán)境感知信息和歷史經(jīng)驗信息對任務進行智能評估,根據(jù)評估結果將任務進行合并或劃分,而后無人機將按照一定的準則形成新的聯(lián)盟,或對已存在的聯(lián)盟進行調整。
(1)任務的智能評估。聯(lián)盟形成是無人機聯(lián)盟通信網(wǎng)絡完成任務的基礎,而任務評估是聯(lián)盟形成的基礎。無人機聯(lián)盟領導者在接收到任務指令后,利用相關歷史信息和學習算法,結合聯(lián)盟成員的性能信息,對任務進行智能評估。評價指標主要包括任務類別、任務代價、任務收益、任務優(yōu)先級和任務預計時間等。
(a)任務類別。無人機任務較為復雜,有的無人機具備完成多種任務的能力,而有的無人機由于硬件限制只能完成某種固定類型的任務。無人機聯(lián)盟領導者在接收到任務指令后,對任務進行拆分部署,細化任務的分工。此外,無人機聯(lián)盟領導者本地可對先前完成的任務進行記錄,如果接收到的任務種類與歷史任務相同,可快速調用原有方案或在原有方案上進行調整。(b)任務代價,主要包含能量消耗和風險代價。無人機的能量消耗主要包括飛行耗能、信息傳輸耗能和傳感器耗能等等[18],對于一般的無人機而言,由于通信和傳感器耗能較小,主要考慮飛行耗能和懸停能耗。此外,對于惡劣環(huán)境中的無人機還應考慮風險代價,無人機本身具有經(jīng)濟價值,在執(zhí)行任務過程中面臨被摧毀的風險,結合實時環(huán)境預估被摧毀的概率,綜合考慮風險代價。(c)任務收益,即無人機聯(lián)盟完成任務后可獲得的收益。無人機聯(lián)盟在執(zhí)行任務時,將具體任務交付給無人機個體,完成任務后獲得收益。在實際情況中,為了確保任務準確無誤完成,一方面要提升單體無人機的處置能力,另一方面也要適當增加執(zhí)行任務無人機的數(shù)量,不過增加無人機數(shù)量也意味著代價增加,如何平衡無人機代價與收益之間的關系,需結合實際需求具體考慮。(d)任務優(yōu)先級,表明任務的重要程度。當無人機聯(lián)盟處理單一任務時無需考慮任務優(yōu)先級,但面臨繁多復雜的任務時,需要考慮任務的優(yōu)先級。此外,優(yōu)先級也影響著任務評估的其他屬性。例如,優(yōu)先級較高的任務,盡快完成可能會帶來更大的收益,風險代價可能越低,完成的越晚,收益也越小,代價越高。無人機在處理多目標任務時,要考慮無人機的處理順序,設計出最優(yōu)調度方案[19]。(e)任務預計時間,預估無人機聯(lián)盟完成任務的時間?;跉v史經(jīng)驗和實時環(huán)境,預估任務完成時間,方便無人機聯(lián)盟領導者對后續(xù)任務進行安排。
無人機聯(lián)盟領導者在接收到下發(fā)的任務指令后,結合任務和無人機聯(lián)盟實際情況,進行評估后,將任務進行合并或者分解,對無人機聯(lián)盟做出調整,將具體任務交付給無人機聯(lián)盟成員。在任務完成后,根據(jù)實際代價、實際收益和任務完成時間等實際情況,對評估模型進行修正,以提高后續(xù)任務評估的準確性。
(2)聯(lián)盟形成與分解。無人機聯(lián)盟領導者在確定任務需求后,選取適配的無人機形成聯(lián)盟,無人機聯(lián)盟的形成關鍵在于如何設計聯(lián)盟的優(yōu)化目標。例如無人機執(zhí)行打擊任務,優(yōu)化目標可以設置為成功命中概率;如果無人機執(zhí)行中繼傳輸任務,優(yōu)化目標可以設置為信息傳輸速率。無人機聯(lián)盟執(zhí)行復雜任務,需綜合考慮代價、收益、完成概率,設計合理的優(yōu)化目標,而后利用學習算法,求得無人機聯(lián)盟最佳形成策略。
由于6G網(wǎng)絡業(yè)務的動態(tài)性和復雜性,無人機聯(lián)盟的網(wǎng)絡結構會根據(jù)任務的實施情況動態(tài)調整。當任務需求發(fā)生變化時,具有專項功能的無人機聯(lián)盟成員可能會退出原有聯(lián)盟加入新的聯(lián)盟網(wǎng)絡。結合無人機聯(lián)盟網(wǎng)絡在實際環(huán)境中面臨的情況,如圖3所示,聯(lián)盟1被分配兩個不同的任務,一部分無人機從原來的機群中分離出來形成了新的聯(lián)盟(聯(lián)盟3)。聯(lián)盟1的剩余部分與聯(lián)盟2組合成一個新的聯(lián)盟。隨著聯(lián)盟的改變,需要重新選出聯(lián)盟的領導者,相關成員加入或離開該聯(lián)盟。
圖3 無人機聯(lián)盟網(wǎng)絡調整示意圖
3.2.2 無人機聯(lián)盟通信網(wǎng)絡的任務實施
無人機聯(lián)盟在執(zhí)行任務需要聯(lián)盟內通信,多個聯(lián)盟共同執(zhí)行任務時,還需聯(lián)盟之間的信息交互,主要包括聯(lián)盟間信息共享和聯(lián)盟內信息融合。
(1)聯(lián)盟間信息共享。不同聯(lián)盟的無人機進行信息交互,需要通信協(xié)議的支持。本節(jié)主要考慮網(wǎng)絡層的信息路由轉發(fā)。兩個屬于不同聯(lián)盟的無人機聯(lián)盟成員主要有兩種信息交互方式:第1種是通過無人機聯(lián)盟領導者進行交互,聯(lián)盟內的某一成員作為發(fā)送方,將信息發(fā)送至它的聯(lián)盟領導者,聯(lián)盟領導者再將信息傳輸給接收方的聯(lián)盟領導者,最后到達接收方。這種方式實現(xiàn)起來較為簡單,路徑清晰,但是效率較低。第2種是不同聯(lián)盟的無人機成員直接進行信息的傳遞轉發(fā),這種方式效率較高,但實現(xiàn)起來較為復雜,需要路由協(xié)議的支持。在無人機聯(lián)盟形成后,無人機聯(lián)盟領導者應根據(jù)任務需求和聯(lián)盟的規(guī)模確定信息的轉發(fā)方式[11]。
(2)聯(lián)盟內信息融合。聯(lián)盟工作時,聯(lián)盟內成員進行信息交互,完成任務。無人機聯(lián)盟內部應設計出相應的機制,以提高任務的完成效率[20]。例如執(zhí)行任務過程中,對于執(zhí)行相同種類任務的兩個無人機聯(lián)盟成員,任務較重的成員可以將部分任務卸載給另一臺較為空閑的無人機成員,以節(jié)省任務的整體完成時間[21]。此外,當無人機成員出現(xiàn)故障時,聯(lián)盟領導者應快速響應,盡快恢復任務部署。
3.2.3 無人機聯(lián)盟通信網(wǎng)絡的資源與安全管理
無人機聯(lián)盟進行信息交互,需要物理層資源的支持。此外,針對復雜環(huán)境中的無人機聯(lián)盟通信網(wǎng)絡,還應考慮信息的安全傳輸和抗干擾通信。
(1)物理層資源管理。物理層主要為數(shù)據(jù)端設備提供傳送數(shù)據(jù)的通路、傳輸數(shù)據(jù)和資源管理。本節(jié)以頻譜資源為例,分析了頻譜資源使用面臨的挑戰(zhàn)并給出了頻譜管控模型。由于6G網(wǎng)絡中頻譜資源有限,大規(guī)模無人機群存在聯(lián)盟交疊、拓撲結構復雜的特性,應根據(jù)無人機聯(lián)盟的不同任務需求,設計出高效的頻譜共享方案[22]。
圖4給出了分層頻譜管控模型:每個無人機聯(lián)盟從可選信道中選擇若干個信道用于聯(lián)盟內的無人機信息交互,在進行信道選擇時必須考慮干擾控制,避免與鄰近聯(lián)盟選擇相同的信道。聯(lián)盟領導者確定可用信道資源后,聯(lián)盟成員進行信道接入。隨著通信需求增加,聯(lián)盟內部節(jié)點呈現(xiàn)密集化部署趨勢,節(jié)點之間干擾效應越來越頻繁,如何設計出有效的信道接入方案越來越重要。無人機聯(lián)盟成員執(zhí)行任務時,地理環(huán)境、飛行速度和高度等因素都會對信道造成影響[23];此外,在特定任務下,無人機通常會以一定的組織方式、隊形和通信方式執(zhí)行任務,挖掘利用這些特點并設計出基于網(wǎng)絡拓撲、通信方式和業(yè)務需求的快速信道接入方案,可大幅提高聯(lián)盟內的頻譜資源分配效率。
圖4 無人機聯(lián)盟通信網(wǎng)絡頻譜資源管理
(2)安全管理與抗干擾。隨著信息網(wǎng)絡快速發(fā)展,網(wǎng)絡信息安全已成為一大重要問題。無人機聯(lián)盟內部,領導者可以采取統(tǒng)一的加密解密技術,防止信息情報被敵方竊取。在復雜的戰(zhàn)場環(huán)境中,無人機聯(lián)盟網(wǎng)絡將不可避免地遭受敵方高強度的對抗性干擾,越來越智能的干擾手段也對分布式無人機網(wǎng)絡抗干擾提出了更高的要求。傳統(tǒng)通信抗干擾方式如擴頻、跳頻或跳擴結合等方式,由于工作模式和參數(shù)預先確定,無法應對動態(tài)智能干擾,需設計出高效智能的動態(tài)抗干擾方法[12]。
6G無人機通信網(wǎng)絡的應用場景十分廣泛,例如環(huán)境偵查、目標搜索和邊緣計算等等。本節(jié)首先提出了基于博弈學習的人工智能優(yōu)化框架,然后針對無人機聯(lián)盟網(wǎng)絡形成和網(wǎng)絡資源優(yōu)化,分別給出了仿真案例。
6G網(wǎng)絡中,環(huán)境動態(tài)變化、無人機網(wǎng)絡規(guī)模龐大和任務復雜等因素都會加大網(wǎng)絡資源優(yōu)化的難度。為了解決無人機聯(lián)盟通信網(wǎng)絡中數(shù)據(jù)傳輸需求和資源有效利用的問題,本文設計了一個基于博弈學習的人工智能優(yōu)化框架,如圖5所示,它包括博弈論的理論指導、機器學習的更新反饋和實時感知決策等模塊。博弈論針對不同的優(yōu)化目標構建相應的博弈論模型,分析網(wǎng)絡的穩(wěn)定性和最優(yōu)性,為分布式?jīng)Q策提供可靠的理論指導。通過機器學習訓練無人機優(yōu)化模型的樣本空間,尋找最佳資源優(yōu)化策略,并將其存儲到聯(lián)盟數(shù)據(jù)庫,以輔助無人機聯(lián)盟的實時決策。在動態(tài)環(huán)境中,無人機聯(lián)盟通信網(wǎng)絡可以結合機器學習結果、環(huán)境感知、信息交互和博弈決策等因素,綜合匹配,制定策略。
圖5 基于博弈學習的人工智能優(yōu)化框架
在分布式無線網(wǎng)絡中,博弈論作為理論指導,可有效解決多用戶的決策建模問題[24]。對于自組織的無人機網(wǎng)絡,可以采用多種博弈模型對分布式聯(lián)盟體進行建模。例如,聯(lián)盟形成博弈可為聯(lián)盟網(wǎng)絡的合并、分解和資源分配提供理論指導[25];匹配博弈可以求解資源與用戶間的匹配方案[24];圖博弈和勢能博弈可以協(xié)助分布式機群的資源協(xié)同、沖突管理和任務分配[26]。在博弈模型中,通過設置合理的效用函數(shù)(如勢能博弈中的勢能函數(shù),匹配博弈中的偏好規(guī)則等),分布式網(wǎng)絡優(yōu)化方法可以獲得較好的優(yōu)化效果。
近幾年來,人工智能相關研究迅猛發(fā)展,而機器學習正是實現(xiàn)人工智能的強大工具[27]。大數(shù)據(jù)背景下,計算機上的視覺和語音識別等相關問題可以通過深度學習解決。對于資源配置優(yōu)化等問題,智能體可以通過重復的強化學習去尋找特定網(wǎng)絡框架下的優(yōu)化策略。結合深度學習,強化學習也可以被應用于大規(guī)模的優(yōu)化網(wǎng)絡。由于任務場景的復雜性和多樣性,一些學習情況可能不會出現(xiàn)在現(xiàn)有的數(shù)據(jù)樣本中。依據(jù)遷移學習理論,優(yōu)化樣本中學習到的知識可以用于新環(huán)境中的任務學習[28]。不同于地面網(wǎng)絡,無人機網(wǎng)絡直接應用深度強化學習或其他學習算法,會消耗過多能量資源。因此,地面控制臺通常會進行機器學習,再將學習完的樣本模型信息和策略存儲在無人機聯(lián)盟領導者本地。聯(lián)盟領導者作為一個臨時性的數(shù)據(jù)庫,一方面接收來自地面控制臺的指揮信息,另一方面將數(shù)據(jù)庫內容發(fā)送給聯(lián)盟成員。
無人機聯(lián)盟領導者結合當前環(huán)境、任務需求和樣本模型,在聯(lián)盟數(shù)據(jù)庫的幫助下做出決策,包括任務分配、頻譜利用和協(xié)作傳輸規(guī)劃等方案。執(zhí)行任務過程中,無人機聯(lián)盟成員感知周圍環(huán)境并與鄰居節(jié)點進行交互,以獲取自身決策信息。此外,無人機聯(lián)盟成員可通過聯(lián)盟領導者,將決策信息反饋給地面控制臺。當無人機網(wǎng)絡的通信環(huán)境較為穩(wěn)定時,地面控制臺可以學習和校正當前決策,以此來指導無人機策略的調整;當通信環(huán)境不穩(wěn)定時,反饋信息可以作為一個訓練樣本以協(xié)助后續(xù)的網(wǎng)絡決策優(yōu)化。
針對6G無人機網(wǎng)絡任務場景,本節(jié)結合研究團隊前期工作[29,30],給出了無人機聯(lián)盟通信網(wǎng)絡的仿真案例。針對無人機聯(lián)盟形成,在數(shù)據(jù)收集場景中分別對聯(lián)盟組網(wǎng)和分簇組網(wǎng)進行了仿真,結果表明無人機聯(lián)盟網(wǎng)絡性能更優(yōu)。進一步地,針對無人機聯(lián)盟網(wǎng)絡任務實施階段,在邊緣計算場景中采用了博弈學習方法優(yōu)化了頻譜資源和計算資源,仿真結果表明博弈學習方法具有較強的適用性。
4.2.1 無人機通信組網(wǎng)仿真
本節(jié)利用聯(lián)盟形成博弈方法,給出了無人機通信組網(wǎng)的仿真案例。如圖6(a)所示,假設在10 km×10 km的范圍內發(fā)生火災,區(qū)域內一共有兩個任務中心,坐標分別為(3 km,7 km)和(7 km,3 km),由于地面控制臺無法靠近事故現(xiàn)場,因此利用無人機來完成火災偵查和數(shù)據(jù)收集的任務,數(shù)據(jù)業(yè)務量在任務中心處取得最大值,隨著距中心的距離增大而逐漸降低[29]。無人機包括1架總控無人機和10架任務無人機,搜索和營救任務的執(zhí)行范圍以火場為中心展開。由于覆蓋范圍有限,任務無人機需要根據(jù)不同區(qū)域的重要程度調整覆蓋區(qū)域,還需要把收集的監(jiān)察數(shù)據(jù)反饋給總控無人機。無人機收集數(shù)據(jù)的收益為UC,將收集信息轉發(fā)給總控無人機需要消耗能量E,總覆蓋效用定義為U=UC-kE,其中k為加權因子,它的設置體現(xiàn)了任務需求,具有衡量覆蓋收益和能量開銷的參考價值。通過優(yōu)化無人機組網(wǎng)和傳輸策略,最大化總覆蓋效用。
在無人機聯(lián)盟通信網(wǎng)絡形成時,可以采用聯(lián)盟形成博弈。效用函數(shù)一般采用帕累托改進函數(shù),函數(shù)為正意味著該無人機的決策在改進自身效用的同時,不會損傷本聯(lián)盟其他用戶的利益。在帕累托準則下,聯(lián)盟形成存在一個穩(wěn)定的聯(lián)盟分區(qū),保證了納什均衡解的存在性,為算法實現(xiàn)提供了理論保證。無人機執(zhí)行分布式學習算法,通過策略更新,最終達到納什均衡解,求解出穩(wěn)定的聯(lián)盟結構。給定權重因子k=e-5,能量傳輸消耗為50 nJ/bit,全網(wǎng)收益表示為無人機覆蓋數(shù)據(jù)量減去能量開銷。圖6(b)給出了無人機聯(lián)盟組網(wǎng)示意圖。圖6(c)給出了分簇網(wǎng)絡和聯(lián)盟網(wǎng)絡的算法收斂曲線,其中分簇組網(wǎng)僅考慮了通信收益。與無人機分簇模型相比,任務驅動的無人機聯(lián)盟通信網(wǎng)絡有效提升了系統(tǒng)性能。上述工作對無人機組網(wǎng)和傳輸策略優(yōu)化進行了初步研究,后續(xù)還可從以下兩方面展開深入研究:(1)無人機飛行損耗是無人機能量損耗的重要組成部分,由預備點到任務執(zhí)行點的飛行路徑還需進一步優(yōu)化。(2)網(wǎng)絡存在多階段任務,任務之間的關系建模和動態(tài)可持續(xù)的聯(lián)盟優(yōu)化方法還需進一步研究。
圖6 無人機聯(lián)盟通信組網(wǎng)仿真示意圖
4.2.2 無人機聯(lián)盟網(wǎng)絡資源優(yōu)化仿真
本小節(jié)給出了無人機聯(lián)盟網(wǎng)絡資源優(yōu)化的仿真案例??紤]6G無人機網(wǎng)絡中的移動邊緣計算任務,聯(lián)盟成員的計算能力相對有限,聯(lián)盟成員采集數(shù)據(jù)后將部分數(shù)據(jù)卸載給聯(lián)盟領導者,聯(lián)盟領導者輔助計算,計算結束后將結果傳回[30]。然而,聯(lián)盟成員將過多數(shù)據(jù)卸載給領導者將引起排隊時延,需要結合實際情況進行卸載;此外,由于頻譜資源有限,無人機數(shù)據(jù)傳輸時使用相同信道會造成嚴重干擾,增加傳輸時延。因此,無人機聯(lián)盟成員需要聯(lián)合優(yōu)化卸載比例和傳輸信道,以最小化計算時延,提高任務完成質量。
為實現(xiàn)分布式的低復雜度決策,將原始卸載傳輸問題建模為博弈問題。無人機成員的效用函數(shù)設置為自己與鄰域成員的時延之和,經(jīng)證明該博弈為勢能博弈,存在納什均衡。每架無人機通過最小化自身的效用函數(shù),可以使整體任務時延達到最小。為了求得納什均衡,設計了基于最優(yōu)響應的分布式在線學習算法,無人機聯(lián)盟領導者執(zhí)行分布式算法,實現(xiàn)高效的卸載傳輸。初始場景中一共有5個無人機聯(lián)盟,每個聯(lián)盟內包含1個領導者和4個成員,網(wǎng)絡中共有8個可用信道,信道帶寬為5 MHz,聯(lián)盟領導者和成員的計算頻率分別為12 GHz和3 GHz,無人機成員發(fā)射功率為0.02 W,業(yè)務數(shù)據(jù)量在[20,100] MB區(qū)間上服從均勻分布,處理1 bit信息需200次運算。圖7(a)給出了基于博弈學習的算法收斂曲線,經(jīng)過一定次數(shù)的迭代后,算法收斂至納什均衡點。圖7(b)給出了算法收斂時間隨網(wǎng)絡規(guī)模變化示意圖,當無人機聯(lián)盟和聯(lián)盟內成員數(shù)量增加時,算法收斂時間呈線性增長趨勢,說明博弈學習算法對聯(lián)盟網(wǎng)絡的規(guī)模變化具有較強的適應能力,可以有效應用于無人機聯(lián)盟網(wǎng)絡。上述工作主要優(yōu)化了無人機聯(lián)盟網(wǎng)絡的計算資源與信道資源,后續(xù)還可以從以下兩方面展開進一步研究:(1)無人機位置部署直接影響通信節(jié)點的通信拓撲關系,在優(yōu)化傳輸卸載策略時還可考慮無人機位置優(yōu)化,進一步提升網(wǎng)絡性能。(2)當網(wǎng)絡規(guī)模進一步擴大,聯(lián)盟間的作用關系更加復雜,單一的勢能博弈方法可能無法適用,需探尋新的優(yōu)化方法以解決大規(guī)模網(wǎng)絡優(yōu)化問題。
圖7 博弈學習算法仿真示意圖
本文簡要回顧了無人機通信網(wǎng)絡模型的研究現(xiàn)狀。研究表明,大部分無人機通信網(wǎng)絡模型不能有效地適用于6G業(yè)務場景。因此,本文提出了基于聯(lián)盟的6G無人機通信網(wǎng)絡模型,設計了博弈論、機器學習和實時決策相結合的人工智能優(yōu)化框架。然而,由于異構性和任務的復雜性,無人機通信網(wǎng)絡的優(yōu)化會出現(xiàn)更多的復雜因素和特征:
(1)無人機聯(lián)盟通信網(wǎng)絡需要進一步考慮異構性特征:在車載自組網(wǎng)和移動自組網(wǎng)中,通信模塊在不同設備中是相同的。然而,無人機通信網(wǎng)絡中的無人機具有不同的硬件設施、基礎屬性和通信能力。有些是聯(lián)合完成飛行任務,有些是由大型無人設備發(fā)射出來的附屬無人機(如小精靈無人機)完成任務,模型分析應進一步考慮無人機的異構特性。
(2)無人機聯(lián)盟通信網(wǎng)絡需要考慮空天地海一體化組網(wǎng):作為銜接地基網(wǎng)絡和天基網(wǎng)絡的重要組成部分,將空基網(wǎng)絡中的無人機和衛(wèi)星、地面和海上通信用戶進行聯(lián)合一直是6G通信網(wǎng)絡亟需解決的問題[31]。多維度的聯(lián)盟通信網(wǎng)絡有助于實時決策和靈活的任務安排,并且具有更強的抗摧毀特性。對于一體化組網(wǎng)中的無人機聯(lián)盟通信網(wǎng)絡,還需要考慮頻譜資源復用、任務規(guī)劃、軌跡優(yōu)化和監(jiān)測機制等問題。