石珵,劉朋矩,杜治鋼,張孫烜,周振宇,白暉峰,何國慶,孫文文,馬躍
研究與開發(fā)
數(shù)字孿生輔助的智能樓宇多模態(tài)通信資源管理方法
石珵1,2,劉朋矩1,杜治鋼1,張孫烜1,周振宇1,白暉峰3,何國慶4,孫文文4,馬躍5
(1.華北電力大學新能源電力系統(tǒng)國家重點實驗室,北京 102206;2.廣州城市理工學院,廣東 廣州 510800;3.北京智芯微電子科技有限公司,北京 100192;4.中國電力科學研究院有限公司新能源與儲能運行控制國家重點實驗室,北京 100192;5.國網(wǎng)冀北電力有限公司,北京 100054)
多模態(tài)通信網(wǎng)絡(luò)為智能樓宇能源調(diào)控數(shù)據(jù)的采集、傳輸、處理以及能源調(diào)控模型訓(xùn)練提供了通信支撐。數(shù)字孿生可以提供計算資源、信道特性等狀態(tài)估計,輔助多模態(tài)通信資源管理優(yōu)化,提高能源調(diào)控模型訓(xùn)練精度。然而,數(shù)字孿生輔助的智能樓宇多模態(tài)通信資源管理面臨能源調(diào)控模型訓(xùn)練誤差大、多時間尺度資源分配耦合、模型訓(xùn)練精度提高與能耗優(yōu)化相互矛盾等挑戰(zhàn)。針對上述挑戰(zhàn),提出基于數(shù)字孿生和經(jīng)驗匹配學習的多時間尺度通信資源管理優(yōu)化算法,通過聯(lián)合優(yōu)化大時間尺度網(wǎng)關(guān)選擇和小時間尺度信道分配與功率控制,最小化全局模型損失函數(shù)和能耗加權(quán)和。仿真結(jié)果表明,所提算法可以提高全局模型損失函數(shù)和能耗加權(quán)和性能,保障智能樓宇能源精準調(diào)控需求,促進智能樓宇能源調(diào)控低碳運行。
智能樓宇;數(shù)字孿生;能源調(diào)控;聯(lián)邦學習;匹配理論;上置信區(qū)間
智能樓宇的低碳運行是構(gòu)建新型電力系統(tǒng)的重要環(huán)節(jié),也是“十四五”規(guī)劃中智慧城市建設(shè)的重要組成部分[1]。智能樓宇集成通信和控制領(lǐng)域的先進技術(shù),通過能源調(diào)控,實現(xiàn)智能樓宇電氣設(shè)備的控制和管理優(yōu)化[2-3]。數(shù)字孿生技術(shù)通過構(gòu)建物理實體的數(shù)字模型,打造實體空間和數(shù)字空間的數(shù)據(jù)交互路徑,對能源調(diào)控進行全周期數(shù)字化處理,實現(xiàn)調(diào)控多源數(shù)據(jù)信息融合[4-7]。為了提高智能樓宇能源調(diào)控準確性,通過部署大量通信終端采集能源調(diào)控數(shù)據(jù),并利用交直流電力線載波、無線局域網(wǎng)(wireless local area network,WLAN)和微功率無線等多模態(tài)通信傳輸數(shù)據(jù)至邊緣智能網(wǎng)關(guān),為能源調(diào)控模型訓(xùn)練提供樣本數(shù)據(jù)集,從而實現(xiàn)能源調(diào)控模型的精確訓(xùn)練[8-10]。
聯(lián)邦學習能夠?qū)崿F(xiàn)全局模型訓(xùn)練和原始數(shù)據(jù)傳輸?shù)慕怦睿U蠑?shù)字孿生能源調(diào)控模型訓(xùn)練的安全性[11-13]?;诼?lián)邦學習的智能樓宇能源調(diào)控模型構(gòu)建需要通信終端傳輸樣本數(shù)據(jù)集至邊緣智能網(wǎng)關(guān)進行邊緣模型訓(xùn)練,并將邊緣模型參數(shù)上傳至集中控制器進行全局聚合。通過為通信終端選擇計算能力強的邊緣智能網(wǎng)關(guān)、分配高增益多模態(tài)信道以及控制終端的傳輸功率,減小全局模型損失函數(shù)和訓(xùn)練能耗。數(shù)字孿生能夠提供計算資源、信道特性等狀態(tài)估計,輔助多模態(tài)通信資源的優(yōu)化管理[14]。然而,數(shù)字孿生輔助的智能樓宇多模態(tài)通信資源管理面臨以下挑戰(zhàn)。
首先,由于智能樓宇多模態(tài)通信網(wǎng)絡(luò)的異構(gòu)性、動態(tài)性和信息不確定性,多模態(tài)通信資源管理與能源調(diào)控模型訓(xùn)練適配性差,導(dǎo)致全局模型損失函數(shù)大,能源調(diào)控模型訓(xùn)練精度低。其次,網(wǎng)關(guān)選擇需要大時間尺度優(yōu)化,從而避免頻繁切換導(dǎo)致的通信開銷;而信道分配和功率控制需要小時間尺度優(yōu)化,從而響應(yīng)快速變化的信道狀態(tài)。此外,由于網(wǎng)關(guān)與終端之間的距離以及信道增益具有差異性,大時間尺度網(wǎng)關(guān)選擇會影響小時間尺度信道分配與功率控制;傳輸樣本數(shù)量不同導(dǎo)致模型訓(xùn)練精度和能耗存在差異,小時間尺度信道分配與功率控制會反過來影響大時間尺度網(wǎng)關(guān)選擇。最后,模型精度優(yōu)化與能耗優(yōu)化相互矛盾,提高模型精度需要終端傳輸更多的樣本,導(dǎo)致樣本數(shù)據(jù)集的傳輸能耗與邊緣模型訓(xùn)練能耗增大;降低樣本數(shù)據(jù)集的傳輸能耗與邊緣模型訓(xùn)練能耗需要減少終端傳輸?shù)臉颖荆瑢?dǎo)致模型精度下降。
在基于數(shù)字孿生的通信資源管理方面已有相關(guān)研究。文獻[15]研究了一種基于數(shù)字孿生的空中輔助動態(tài)車聯(lián)網(wǎng),提出了一種兩階段的資源管理激勵機制,最大化車輛滿意度和能效。然而,上述文獻僅考慮了單一時間尺度的資源管理,網(wǎng)絡(luò)資源開銷過大,無法適用于更加復(fù)雜的多時間尺度資源管理場景。文獻[16]研究了一種數(shù)字孿生輔助的車聯(lián)網(wǎng)邊緣智能協(xié)作方案,通過數(shù)字孿生輔助通信、計算和緩存資源管理學習,最小化網(wǎng)絡(luò)響應(yīng)時延。然而,上述文獻忽略了多時間尺度資源管理之間的耦合,并且只考慮了單一性能指標優(yōu)化,難以滿足網(wǎng)絡(luò)差異化性能需求。文獻[17]研究基于數(shù)字孿生和聯(lián)邦學習的無線網(wǎng)絡(luò),通過聯(lián)合優(yōu)化數(shù)據(jù)批次大小和帶寬分配,提高系統(tǒng)的可靠性和安全性。然而,上述文獻無法實現(xiàn)聯(lián)邦學習模型訓(xùn)練的精度優(yōu)化,難以滿足智能樓宇能源調(diào)控的準確性需求。
針對上述問題,本文提出數(shù)字孿生輔助的智能樓宇多模態(tài)通信資源管理方法,通過聯(lián)合優(yōu)化通信終端大時間尺度網(wǎng)關(guān)選擇和小時間尺度信道分配與功率控制,構(gòu)建智能樓宇高精度能源調(diào)控模型。首先,構(gòu)建數(shù)字孿生輔助的智能樓宇全局模型損失函數(shù)和能耗聯(lián)合優(yōu)化問題。其次,提出基于升價經(jīng)驗匹配的大時間尺度網(wǎng)關(guān)選擇優(yōu)化算法以及基于數(shù)據(jù)集感知上置信區(qū)間(upper confidence bound,UCB)的小時間尺度信道分配與功率控制優(yōu)化算法,求解聯(lián)合優(yōu)化問題。最后,通過仿真分析驗證所提算法的有效性。本文的主要貢獻如下。
(1)高精度智能樓宇能源調(diào)控模型的訓(xùn)練:利用基于數(shù)字孿生和經(jīng)驗匹配學習的多時間尺度通信資源管理優(yōu)化算法,最小化全局模型損失函數(shù),提升能源調(diào)控模型精度。
(2)數(shù)字孿生輔助的多時間尺度網(wǎng)關(guān)選擇、信道分配與功率控制的聯(lián)合優(yōu)化:基于數(shù)字孿生提供的智能樓宇狀態(tài)信息估計,利用基于數(shù)字孿生和經(jīng)驗匹配學習的多時間尺度通信資源管理優(yōu)化算法解決網(wǎng)關(guān)選擇、信道分配與功率控制之間的耦合問題,通過在大時間尺度上基于升價經(jīng)驗匹配優(yōu)化網(wǎng)關(guān)選擇,在小時間尺度上基于數(shù)據(jù)集感知UCB優(yōu)化信道分配與功率控制,實現(xiàn)多時間尺度通信資源管理優(yōu)化。
(3)全局模型精度與能耗性能的動態(tài)調(diào)整和折中:本文構(gòu)建數(shù)字孿生輔助的智能樓宇全局模型精度與能耗聯(lián)合優(yōu)化問題,將優(yōu)化目標設(shè)置為全局模型損失函數(shù)與能耗的加權(quán)和,通過調(diào)整權(quán)重來動態(tài)權(quán)衡全局模型損失函數(shù)與能耗性能,在實現(xiàn)模型精度與能耗性能折中的同時,滿足不同類型的電氣設(shè)備對全局模型精度和能耗的差異化需求。當權(quán)重增大時,減小能耗能夠使獎勵迅速增大,使得集中控制器在管理多模態(tài)通信資源時優(yōu)先滿足需求更低能耗的電氣設(shè)備;當權(quán)重減小時,減小全局模型損失函數(shù)能夠使獎勵迅速增大,使得集中控制器在管理多模態(tài)通信資源時優(yōu)先滿足需求更高全局模型精度的電氣設(shè)備。
本文考慮數(shù)字孿生輔助的智能樓宇多模態(tài)通信資源管理場景,通過數(shù)字孿生輔助的聯(lián)邦學習,構(gòu)建智能樓宇能源調(diào)控模型。該場景包括設(shè)備層、邊緣層和數(shù)字孿生層,如圖1所示。設(shè)備層包括電氣設(shè)備和與電氣設(shè)備相連的通信終端,負責采集電力數(shù)據(jù),形成樣本數(shù)據(jù)集,并通過多模態(tài)通信網(wǎng)絡(luò)上傳到邊緣層。邊緣層包括邊緣智能網(wǎng)關(guān)和集中控制器。邊緣智能網(wǎng)關(guān)根據(jù)設(shè)備傳輸?shù)臄?shù)據(jù)集訓(xùn)練邊緣模型,并將訓(xùn)練后的模型參數(shù)上傳至集中控制器。集中控制器基于聯(lián)邦學習,對邊緣模型參數(shù)進行全局聚合,訓(xùn)練全局能源調(diào)控模型。此外,集中控制器還負責智能樓宇多模態(tài)通信資源管理,包括設(shè)備的網(wǎng)關(guān)選擇、信道分配和功率控制。邊緣層通過多模態(tài)通信與設(shè)備層進行數(shù)據(jù)交互,所采用的多模態(tài)通信方式包括交直流載波、WLAN和微功率無線通信。電氣設(shè)備依據(jù)自身所處的交流配電網(wǎng)或直流配電網(wǎng),配置對應(yīng)的交流載波通信模塊或直流載波通信模塊。數(shù)字孿生層由集中控制器維護,并通過與設(shè)備實時交互,保持與物理實體網(wǎng)絡(luò)同步,從而提供狀態(tài)信息估計,輔助多模態(tài)通信資源管理。
圖1 數(shù)字孿生輔助的智能樓宇多模態(tài)通信資源管理場景
假設(shè)設(shè)備層共有個設(shè)備進行數(shù)據(jù)集上傳,其集合表示為={1,2, …, U, …, U};邊緣層共有個邊緣智能網(wǎng)關(guān)提供通信覆蓋及邊緣模型訓(xùn)練,其集合表示為={1,2, …,G, …,G};設(shè)備和網(wǎng)關(guān)之間通過個多模態(tài)信道進行通信,其集合表示為={1,2, …,C, …,C}。其中,C,1, …,1表示交直流載波信道,C,1+1, …,2表示W(wǎng)LAN信道,C,2+1, …,表示微功率無線信道。
本文將總時間劃分為個大時間尺度,稱為時段;每個時段包含0個小時間尺度,稱為迭代,即總時間共劃分為0次迭代。定義時段集合為s={1, 2, …,, …,},迭代集合為s={1, 2, …,, …,}。若第次迭代位于第個時段內(nèi),其關(guān)系可以表示為=?/0?+1,符號?.?表示向下取整。每次迭代由3個過程組成,分別為設(shè)備數(shù)據(jù)集上傳、邊緣模型訓(xùn)練和全局模型聚合。
網(wǎng)關(guān)利用樣本數(shù)據(jù)集Π()訓(xùn)練設(shè)備U的邊緣模型,并在數(shù)字孿生層構(gòu)建設(shè)備U的數(shù)字孿生體。在每個時段開始時,設(shè)備進行網(wǎng)關(guān)選擇;在每次迭代開始時,設(shè)備進行信道分配與功率控制。定義大時間尺度網(wǎng)關(guān)選擇變量x()?{0, 1},x,m()=1表示設(shè)備U在第個時段內(nèi)選擇網(wǎng)關(guān)G進行數(shù)據(jù)集傳輸,否則x()=0;定義小時間尺度信道分配變量z()?{0, 1},z()=1表示設(shè)備U在第次迭代時選擇信道C進行數(shù)據(jù)集傳輸,否則z()=0。由于網(wǎng)關(guān)的計算資源限制,網(wǎng)關(guān)G最多可以同時為q個設(shè)備提供邊緣模型訓(xùn)練,并稱q為網(wǎng)關(guān)G的配額。
定義功率控制變量δ(),用于表示設(shè)備U在第次迭代時的傳輸功率與最大傳輸功率Pmax的比值,則設(shè)備U在第次迭代時的傳輸功率可以表示為δ()Pmax。本文假設(shè)功率控制變量被劃分為個水平,即δ()?{1/, …,/, …, 1}。
假設(shè)信道帶寬為B,則在第次迭代時,設(shè)備U選擇信道C向網(wǎng)關(guān)G傳輸數(shù)據(jù)集的傳輸速率為:
其中,g()表示設(shè)備U選擇信道C向網(wǎng)關(guān)G傳輸數(shù)據(jù)集時的信道增益,I()表示通過信道C向網(wǎng)關(guān)G傳輸數(shù)據(jù)集時受到的電磁干擾,0表示噪聲功率。
設(shè)備U的數(shù)據(jù)集傳輸速率為:
假設(shè)在每次迭代中,樣本數(shù)據(jù)集上傳時間為固定值,則設(shè)備U在第次迭代時可以上傳的樣本數(shù)量D()為:
其中,為每個樣本的數(shù)據(jù)量大小。
設(shè)備U在第次迭代時選擇信道C傳輸數(shù)據(jù)集的傳輸能耗為:
設(shè)備U對應(yīng)的數(shù)字孿生體下載第-1次迭代后生成的全局模型參數(shù)ω(-1)作為第次迭代的邊緣模型參數(shù),即ω()=ω(-1)。定義s()和y()分別表示樣本數(shù)據(jù)集Π()中第個訓(xùn)練樣本的輸入數(shù)據(jù)和目標輸出數(shù)據(jù),則該訓(xùn)練樣本對應(yīng)的損失函數(shù)表述為(ω(),s(),y())。因此,樣本數(shù)據(jù)集Π()對應(yīng)的損失函數(shù)定義為:
損失函數(shù)可用于反映邊緣模型訓(xùn)練精度。
邊緣模型參數(shù)采用梯度下降法進行更新,計算式為:
其中,>0表示學習步長,?表示梯度運算。
假設(shè)網(wǎng)關(guān)G用于訓(xùn)練設(shè)備U的邊緣模型的計算資源為f(),樣本數(shù)據(jù)集Π()中平均每比特數(shù)據(jù)在訓(xùn)練時需要的CPU周期為ψ,則訓(xùn)練設(shè)備U的邊緣模型所需要的時延和能耗分別為:
其中,為能耗因子。
在第次迭代時,用于傳輸設(shè)備U的樣本數(shù)據(jù)集和訓(xùn)練設(shè)備U的邊緣模型所需要的能耗為:
用于傳輸所有設(shè)備的樣本數(shù)據(jù)集和進行邊緣模型訓(xùn)練的能耗表示為:
在第次迭代時,網(wǎng)關(guān)將所有設(shè)備訓(xùn)練后的邊緣模型參數(shù)傳輸至集中控制器,由集中控制器進行全局聚合,即:
本文采用全局模型損失函數(shù)來量化全局模型的精度,全局模型損失函數(shù)表示為:
全局聚合完成后,集中控制器下發(fā)全局模型參數(shù)。
本文基于數(shù)字孿生,通過聯(lián)合優(yōu)化大時間尺度的網(wǎng)關(guān)選擇和小時間尺度的信道分配與功率控制,解決全局模型損失函數(shù)與能耗加權(quán)和的最小化問題,該問題建模為:
其中,為能耗權(quán)重。C1表示網(wǎng)關(guān)選擇變量的取值范圍;C2表示每個設(shè)備只能選擇1個網(wǎng)關(guān)傳輸數(shù)據(jù)集并進行邊緣模型訓(xùn)練;C3表示每個網(wǎng)關(guān)最多可以同時為q個設(shè)備提供邊緣模型訓(xùn)練;C4表示信道分配變量的取值范圍;C5表示每個設(shè)備只能選擇1條信道傳輸數(shù)據(jù);C6表示每條信道最多只能接入1個設(shè)備。C7表示功率控制變量的取值范圍。
本文提出基于數(shù)字孿生和經(jīng)驗匹配學習的多時間尺度通信資源管理優(yōu)化算法求解P1。首先,基于升價經(jīng)驗匹配進行大時間尺度的網(wǎng)關(guān)選擇優(yōu)化;其次,基于數(shù)字孿生提供的狀態(tài)信息估計,利用數(shù)據(jù)集感知UCB學習小時間尺度的信道分配與功率控制優(yōu)化。
大時間尺度的網(wǎng)關(guān)選擇問題被轉(zhuǎn)化為一對多匹配問題,并將其定義為(,,)。其中和是匹配的參與方,分別表示設(shè)備和網(wǎng)關(guān)的集合。表示設(shè)備對網(wǎng)關(guān)的偏好列表集合,L?表示設(shè)備U的偏好列表。對于一對多匹配問題(,,),定義基于偏好列表的匹配關(guān)系,表示從集合∪到集合∪的映射。(U)=G且(G)=U表示設(shè)備U與網(wǎng)關(guān)G建立了匹配關(guān)系。由于網(wǎng)關(guān)配額限制,在每個時段中,設(shè)備U只能與1個網(wǎng)關(guān)建立匹配關(guān)系,而網(wǎng)關(guān)G只能與不超過q個設(shè)備建立匹配關(guān)系。
定義經(jīng)驗性能為到第個時段為止,集中控制器所觀察到的設(shè)備U選擇網(wǎng)關(guān)G的邊緣模型損失函數(shù)與訓(xùn)練能耗加權(quán)和性能的歷史平均值。本文通過經(jīng)驗性能構(gòu)建偏好列表,以網(wǎng)關(guān)選擇的歷史平均性能為依據(jù),解決大時間的網(wǎng)關(guān)選擇問題,為小時間尺度的信道分配和功率控制提供基礎(chǔ),實現(xiàn)大時間尺度與小時間尺度的解耦。基于升價經(jīng)驗匹配的大時間尺度網(wǎng)關(guān)選擇優(yōu)化算法見算法1,包括基于經(jīng)驗性能的匹配偏好列表構(gòu)建和基于升價的設(shè)備與網(wǎng)關(guān)一對多匹配兩個過程。
算法1 基于升價經(jīng)驗匹配的大時間尺度網(wǎng)關(guān)選擇優(yōu)化算法
輸入,,{D()},{F(ω(),)},{E(t)},{q}
輸出 {x()}
forU?do
遍歷所有網(wǎng)關(guān),得到初始偏好值β(0)
end for
for=1, 2, …,do
初始化策略變量x()=0,網(wǎng)關(guān)匹配成本p()=0,未匹配設(shè)備集合,向網(wǎng)關(guān)G請求匹配的設(shè)備集合Γ=?
while?do
forU?do
根據(jù)式(14)和式(15)更新偏好值β()。按偏好值β()對網(wǎng)關(guān)降序排序,更新偏好列表L
設(shè)備U根據(jù)偏好列表L向網(wǎng)關(guān)G發(fā)出匹配請求
網(wǎng)關(guān)G將請求匹配的設(shè)備U加入Γ
end for
forG?do
if |Γ|≤qthen
對于"U?Γ,令x()=1,更新Θ=ΘU
else
將"U?Γ添加到,并令對應(yīng)的x()=0
網(wǎng)關(guān)G根據(jù)式(16)升價
end if
end for
end while
end for
3.1.1 基于經(jīng)驗性能的匹配偏好列表構(gòu)建
定義設(shè)備U在第個時段對網(wǎng)關(guān)G的偏好值為β()。首先,設(shè)備U遍歷所有的網(wǎng)關(guān)并得到初始偏好值β(0)。
定義第個時段內(nèi)設(shè)備U選擇網(wǎng)關(guān)G的邊緣模型損失函數(shù)與訓(xùn)練能耗加權(quán)為θ(),表示為:
在第個時段開始時,集中控制器根據(jù)截至當前時段的經(jīng)驗性能進行網(wǎng)關(guān)選擇。因此,偏好值β()為:
其中,第一項為設(shè)備U選擇網(wǎng)關(guān)G的邊緣模型損失函數(shù)與訓(xùn)練能耗加權(quán)和性能的歷史平均值,即經(jīng)驗性能;p()是網(wǎng)關(guān)的匹配成本,其初始值為0。
集中控制器基于偏好值β()對所有網(wǎng)關(guān)進行降序排序,得到設(shè)備U的偏好列表L,完成基于經(jīng)驗性能的匹配偏好列表構(gòu)建。
3.1.2 基于升價的設(shè)備與網(wǎng)關(guān)一對多匹配
基于升價的設(shè)備與網(wǎng)關(guān)一對多匹配通過提高網(wǎng)關(guān)的匹配成本解決設(shè)備選擇網(wǎng)關(guān)的沖突問題,即若選擇某個網(wǎng)關(guān)的設(shè)備數(shù)量大于其配額,則該網(wǎng)關(guān)升價,迫使部分設(shè)備選擇其他網(wǎng)關(guān)。基于升價的設(shè)備與網(wǎng)關(guān)一對多匹配過程分為以下3個步驟。
步驟1 初始化。定義未匹配設(shè)備集合為,定義向網(wǎng)關(guān)G發(fā)出匹配請求的設(shè)備集合為Γ。初始化x()=0,p()=0,,Γ=?。
步驟2 更新偏好列表。設(shè)備U根據(jù)當前網(wǎng)關(guān)的匹配成本p(),用式(14)和式(15)更新偏好值β(),并依據(jù)偏好值對網(wǎng)關(guān)進行降序排序,更新偏好列表L。
網(wǎng)關(guān)G更新匹配成本后,重復(fù)執(zhí)行步驟2和步驟3,直到所有設(shè)備完成匹配,即?。
在大時間尺度網(wǎng)關(guān)選擇策略基礎(chǔ)上,小時間尺度的信道分配與功率控制優(yōu)化問題可以建模為多臂賭博機(multi-armed bandit,MAB)問題。該模型主要包括決策者、搖臂、動作、獎勵4個部分。
●決策者:決策者為集中控制器,進行設(shè)備的信道分配和功率控制優(yōu)化。
●搖臂:搖臂的集合定義為信道與功率水平的笛卡兒積,表示為=?,共有′個搖臂。搖臂A?表示信道C與第個功率水平/的組合。定義搖臂選擇次數(shù)為Y()。
●動作:定義動作指示變量a(),a()=1表示在第次迭代時集中控制器令設(shè)備U選擇搖臂A,此時z()=1,δ()=/。
●獎勵:在第次迭代時,集中控制器令設(shè)備U選擇搖臂A的獎勵為:
UCB算法是一種求解MAB問題的低復(fù)雜度算法。作為強化學習中的常用算法之一,UCB算法基于每次決策后的平均獎勵和置信區(qū)間[18]對搖臂的性能進行估計,并在每次決策中選取置信上界最大的搖臂觀察獎勵,以實現(xiàn)對探索和利用的權(quán)衡。然而,傳統(tǒng)UCB算法的探索系數(shù)固定不變,難以根據(jù)數(shù)據(jù)集樣本數(shù)量的不同權(quán)衡探索與利用,不利于信道分配和功率控制策略的優(yōu)化。因此,本文在探索系數(shù)中引入數(shù)據(jù)集感知,通過對樣本數(shù)量的比較,動態(tài)調(diào)整探索系數(shù)和置信區(qū)間,增強對探索和利用的權(quán)衡,加快算法的收斂。
基于數(shù)據(jù)集感知UCB的小時間尺度信道分配及功率控制算法見算法2,包括初始化、決策和學習3個步驟。
算法2 基于數(shù)據(jù)集感知UCB的小時間尺度信道分配與功率控制算法
輸出 {z()},{δ()}
根據(jù)大時間尺度網(wǎng)關(guān)選擇優(yōu)化算法,確定設(shè)備與網(wǎng)關(guān)的匹配關(guān)系{x()}
對"U?,遍歷所有搖臂,得到初始獎勵r()
for=(-1)0+1~0do
for"U?do
根據(jù)式(20)執(zhí)行動作a()
集中控制器根據(jù)式(17)觀察獎勵r()
根據(jù)式(22)更新?lián)u臂被執(zhí)行次數(shù)Y(+1)
根據(jù)被執(zhí)行動作a()得到對應(yīng)的z()和δ()
end for
end for
步驟1 初始化。首先,根據(jù)基于升價經(jīng)驗匹配的大時間尺度網(wǎng)關(guān)選擇優(yōu)化算法,確定設(shè)備與網(wǎng)關(guān)的匹配關(guān)系{x()}。然后,對"U?,遍歷所有搖臂并初始化獎勵r()和搖臂選擇次數(shù)Y()。
步驟2 決策。集中控制器根據(jù)第次迭代之前,設(shè)備U選擇搖臂A的次數(shù)Y()和平均獎勵`r()計算置信上界,表示為:
其中,θ()為引入數(shù)據(jù)集感知后的探索系數(shù),表達式為:
其中,為常數(shù)。式(19)表示在第-1次迭代時,若用于訓(xùn)練設(shè)備U的邊緣模型的樣本數(shù)量小于該次迭代的平均數(shù)量,說明當前選擇的搖臂性能較差,則提高探索系數(shù),增強對搖臂性能的探索;反之,則減小探索系數(shù),增強對當前探索結(jié)果的利用。通過增強對探索和利用的權(quán)衡,提高最優(yōu)臂的探索速度和利用次數(shù),加快算法收斂。
在獲得置信上界后,集中控制器選擇置信上界最大的搖臂A執(zhí)行動作,表示為:
步驟3 學習。集中控制器觀察執(zhí)行動作后的獎勵,并更新設(shè)備U選擇搖臂A的次數(shù)和平均獎勵,更新式分別為:
本文考慮400 m′40 m的智能樓宇場景,共包括4個網(wǎng)關(guān)、20個設(shè)備和20個多模態(tài)信道。對于部署于交流配電網(wǎng)的電氣設(shè)備,使用220 V/380 V低壓交流載波信道[19];對于部署于直流配電網(wǎng)的設(shè)備,使用48 V低壓直流載波信道[20],但所提算法同樣適用于其他交流載波信道模型和直流載波信道模型。本文采用經(jīng)典數(shù)據(jù)集MINST[21]對能源調(diào)控模型進行訓(xùn)練,該數(shù)據(jù)集由6′104個訓(xùn)練數(shù)據(jù)和104個測試樣本組成。仿真參數(shù)[22-25]見表3。
表3 仿真參數(shù)[22-25]
本文考慮兩個對比算法。本文考慮兩個對比算法。第一個對比算法為基于UCB的能量感知移動管理[26](energy-aware mobility management,EMM)算法,將搖臂定義為網(wǎng)關(guān)、信道和功率水平的組合,其優(yōu)化目標與本文相同,但無法實現(xiàn)多時間尺度通信資源管理優(yōu)化;第二個對比算法為多時間尺度能量調(diào)控(multi-timescale energy regulation,MER)算法,優(yōu)化目標為全局模型損失函數(shù),大時間尺度優(yōu)化網(wǎng)關(guān)選擇,小時間尺度優(yōu)化信道分配,無法實現(xiàn)功率控制與數(shù)據(jù)集感知。
全局模型損失函數(shù)與能耗隨權(quán)重變化如圖2所示。仿真結(jié)果表明,隨著權(quán)重的增大,所提算法更加傾向于優(yōu)化能耗,使得全局模型損失函數(shù)性能下降,能耗性能提高??梢钥闯?,所提算法可以通過調(diào)整權(quán)重的取值來動態(tài)權(quán)衡全局模型損失函數(shù)和能耗性能,實現(xiàn)兩者的動態(tài)折中。
圖2 全局模型損失函數(shù)與能耗隨權(quán)重變化
全局模型損失函數(shù)與能耗加權(quán)和時間平均值隨時段變化情況如圖3所示。與EMM算法和MER算法相比,所提算法全局模型模損失函數(shù)與能耗加權(quán)和分別降低了16.77%和39.66%,且具有較好的收斂性能。這是因為所提算法利用經(jīng)驗性能對全局模型損失函數(shù)和能耗最小化問題在多時間尺度進行解耦,并考慮能耗優(yōu)化,具有更好的加權(quán)和性能。EMM算法將網(wǎng)關(guān)、信道和功率水平的組合設(shè)置為搖臂,優(yōu)化空間龐大,導(dǎo)致學習效率低,算法收斂性差,難以找到最優(yōu)組合。MER算法無法實現(xiàn)功率控制和數(shù)據(jù)集感知,因此其加權(quán)和性能最差,具體可由圖4和圖5進一步解釋。
圖3 全局模型損失函數(shù)與能耗加權(quán)和時間平均值隨時段變化情況
全局模型損失函數(shù)時間平均值和傳輸能耗時間平均值隨時段變化情況分別如圖4、圖5所示。相比于EMM算法,所提算法采用多時間尺度通信資源管理優(yōu)化,全局模型損失函數(shù)和傳輸能耗分別降低了21.39%和20.94%。相比于MER算法,所提算法全局模型損失函數(shù)僅增加了5.42%,但傳輸能耗卻降低了70.05%。這是因為MER算法僅考慮全局模型損失函數(shù)優(yōu)化,采用最大功率傳輸數(shù)據(jù)集,傳輸能耗性能較差。
圖4 全局模型損失函數(shù)時間平均值隨時段變化情況
圖5 傳輸能耗時間平均值隨時段變化情況
時間平均獎勵和最優(yōu)臂選擇比例隨迭代變化情況分別如圖6、圖7所示。仿真結(jié)果表明,截至第10 000次迭代,與EMM算法和MER算法相比,所提算法的獎勵分別提高了59.96%和40.89%,最優(yōu)臂選擇比例分別提高了21.92%和5.95%。這是因為一方面,所提算法考慮了數(shù)據(jù)集感知,能夠?qū)崿F(xiàn)探索和利用的權(quán)衡,具有更好的收斂性;另一方面,基于數(shù)字孿生的狀態(tài)信息估計,所提算法能夠更好地實現(xiàn)全局模型損失函數(shù)與能耗加權(quán)和的優(yōu)化。EMM算法的優(yōu)化空間巨大,難以學習到最優(yōu)臂,因此獎勵和最優(yōu)臂選擇比例較低。MER算法無法實現(xiàn)數(shù)據(jù)集感知,無法動態(tài)調(diào)整探索系數(shù),且以最大功率傳輸數(shù)據(jù)集,傳輸能耗大,獎勵最小。
圖6 時間平均獎勵隨迭代變化情況
圖7 最優(yōu)臂選擇比例隨迭代變化情況
本文針對智能樓宇多模態(tài)通信資源管理問題,提出基于數(shù)字孿生和經(jīng)驗匹配學習的多時間尺度通信資源管理優(yōu)化算法,利用數(shù)字孿生所提供的狀態(tài)信息估計,通過聯(lián)合優(yōu)化大時間尺度下的網(wǎng)關(guān)選擇、小時間尺度下的信道分配和功率控制,實現(xiàn)智能樓宇能源調(diào)控模型損失函數(shù)和能耗加權(quán)和最小化。與EMM算法和MER算法相比,所提算法的全局模型損失函數(shù)和能耗加權(quán)和性能分別提升了16.77%和39.66%。本文的研究成果可以為智能樓宇能源調(diào)控提供精準模型,實現(xiàn)多模態(tài)通信資源管理與能源調(diào)控模型訓(xùn)練的靈活適配,促進智能樓宇能源調(diào)控低碳運行,為新型電力系統(tǒng)建設(shè)提供理論基礎(chǔ)。在未來研究中,將進一步考慮信息新鮮度對能源調(diào)控模型的影響。
[1] 范宏, 于偉南, 柳璐, 等. 雙碳目標下考慮電氫互補的智慧園區(qū)多樓宇協(xié)調(diào)調(diào)度方法[EB]. 2022.
FAN H, YU W, LIU L, et al. Multi-building coordination scheduling method of smart park considering electric and hydrogen complementation under dual carbon target[EB]. 2022.
[2] 胡潔, 李培強, 林仕滿, 等. 考慮分時電價差異性和基于主從博弈的智能樓宇集群能量共享方法[J]. 電網(wǎng)技術(shù), 2021, 45(12): 4738-4750.
HU J, LI P Q, LIN S M, et al. Considering time-of-use electricity price difference and intelligent building cluster energy sharing method based on master-slave game[J]. Power Grid Technology, 2021, 45(12): 4738-4750.
[3] 馬大燕, 謝祥穎, 那峙雄, 等. 基于調(diào)度自動化系統(tǒng)的低壓分布式光伏電站接入估算模型[J]. 電信科學, 2020, 36(2): 90-94.
MA D Y, XIE X Y, NA Z X, et al. Dispatch automation system based low voltage distributed photovoltaic power station connected estimation model[J]. Telecommunications Science, 2020, 36(2): 90-94.
[4] 趙鵬, 蒲天驕, 王新迎, 等. 面向能源互聯(lián)網(wǎng)數(shù)字孿生的電力物聯(lián)網(wǎng)關(guān)鍵技術(shù)及展望[J]. 中國電機工程學報, 2022, 42(2): 447-458.
ZHAO P, PU T J, WANG X Y, et al. Key technologies and prospects of power internet of things for energy internet digital twin[J]. Proceedings of the CSEE, 2022, 42(2): 447-458.
[5] WU Y, ZHANG K, ZHANG Y. Digital twin networks: asurvey[J]. IEEE Internet of Things Journal, 2021, 8(18): 13789-13804.
[6] 王達, 孫滔, 孫曉文, 等. 數(shù)字孿生在網(wǎng)絡(luò)全生命周期管理中的研究[J]. 電信科學, 2022, 38(4): 138-145.
WANG D, SUN T, SUN X W, et al. Study on digital twins in network lifecycle management[J]. Telecommunications Science, 2022, 38(4): 138-145.
[7] ZHOU X, XU X, LIANG W, et al. Intelligent small object detection for digital twin in smart manufacturing with industrial cyber-physical systems[J]. IEEE Transactions on Industrial Informatics, 2022, 18(2), 1377-1386.
[8] 彭躍輝, 韓建沛, 劉念. 考慮需求響應(yīng)和邊緣計算的配電網(wǎng)分布式優(yōu)化調(diào)度[J]. 華北電力大學學報(自然科學版), 2020, 47(4): 19-28.
PENG Y H, HAN J P, LIU N. Distributed optimal scheduling of distribution network considering demand response and edge computing[J]. Journal of North China Electric Power University, 2020, 47(4): 19-28.
[9] 曾博, 方偉, 徐豪, 等. 基于樓宇分布式能源提升配電網(wǎng)韌性的智能表計優(yōu)化配置方法[J]. 電網(wǎng)技術(shù), 2021, 45(1): 292-302.
ZENG B, FANG W, XU H, et al. Optimal configuration method of smart meter based on building distributed energy to enhance the toughness of distribution network[J].Power Grid Technology, 2021, 45(1): 292-302.
[10] 盧錦玲, 顏祿涵, 臘志源, 等. 基于數(shù)字孿生與動態(tài)能效模型的綜合能源系統(tǒng)實時優(yōu)化調(diào)度策略[EB]. 2022.
LU J L, YAN L H, LA Z Y, et al. Real-time optimal dispatch strategy of integrated energy system based on digital twin and dynamic energy efficiency model[EB]. 2022.
[11] PAN C, WANG Z, LIAO H, et al. Asynchronous federated deep reinforcement learning-based URLLC-aware computation offloading in space-assisted vehicular networks[J]. IEEE Transactions on Intelligent Transportation Systems, 2022: 1-13.
[12] MILLS J, HU J, MIM J. Multi-task federated learning for personalized deep neural networks in edge computing[J]. IEEE Transactions on Parallel and Distributed Systems, 2022, 33(3): 630-641.
[13] 劉姿杉, 程強, 呂博. 面向機器學習的隱私保護關(guān)鍵技術(shù)研究綜述[J]. 電信科學, 2020, 36(11): 18-27.
LIU Z S, CHENG Q, LYU B. A survey on key technologies of privacy protection for machine learning[J]. Telecommunications Science, 2020, 36(11): 18-27.
[14] LU Y, HUANG X, ZHANG K, et al. Communication-efficient federated learning and permissioned blockchain for digital twin edge networks[J]. IEEE Internet of Things Journal, 2021, 8(4): 2276-2288.
[15] SUN W, WANG P, XU N, et al. Dynamic digital twin and distributed incentives for resource allocation in aerial-assisted internet of vehicles[J]. IEEE Internet of Things Journal, 2021 (99): 1-14.
[16] LIU T, TANG L, WANG W, et al. Resource allocation in DT-assisted internet of vehicles via edge intelligent cooperation[J]. IEEE Internet of Things Journal, 2022, 9(18): 17608 – 17626.
[17] LU Y, HUANG X, ZHANG K, et al. Low-latency federated learning and blockchain for edge association in digital twin empowered 6G networks[J]. IEEE Transactions on Industrial Informatics, 2021, 17(7): 5098-5107.
[18] ZHOU Z, LIAO H, ZHAO X, et al. Reliable task offloading for vehicular fog computing under information asymmetry and information uncertainty[J]. IEEE Transactions on Vehicular Technology, 2019, 68(9):8322-8335.
[19] 李松濃, 胡曉銳, 鄭可, 等. 低壓電力線載波通信信道衰減特性測量與分析[J]. 電力系統(tǒng)保護與控制, 2018, 46(4): 99-106.
LI S N, HU X R, ZHENG K, et al. Measurement and research on attenuation characteristics of low voltage power line communication channel[J]. Power System Protection and Control, 2018, 46(4): 99-106.
[20] 祁兵, 王暢, 李彬, 等. 低壓直流電力線載波通信系統(tǒng)設(shè)計[J]. 智能電網(wǎng), 2017, 5(8): 822-826.
QI B, WANG C, LI B, et al. Design of low-voltage DC power line carrier communication system[J]. Smart Grid, 2017, 5(8): 822-826.
[21] 邱忠宇. 基于動態(tài)視覺傳感器的目標檢測與識別算法研究[D].哈爾濱: 哈爾濱工業(yè)大學, 2020.
QIU Z Y. Research on object detection and recognition algorithm based on dynamic vision sensor[D]. Harbin: Harbin Institute of Technology, 2020.
[22] 周振宇, 王曌, 廖海君, 等. 電力物聯(lián)網(wǎng)5G云–邊–端協(xié)同框架與資源調(diào)度方法[J]. 電網(wǎng)技術(shù), 2022, 46(5): 1641-1651.
ZHOU Z Y, WANG Z, LIAO H J, et al. 5G cloud-edge-end collaboration framework and resource scheduling method in power internet of things[J]. Power Grid Technology, 2022, 46(5): 1641-1651.
[23] ZHOU Z, XIONG F, XU C, et al. Energy-efficient vehicular heterogeneous networks for green cities[J]. IEEE Transactions on Industrial Informatics, 2018, 14(4): 1522-1531.
[24] LIAO H, JIA Z, WANG R, et al. Adaptive learning-based delay-sensitive and secure edge-end collaboration for multi-mode low-carbon power IoT[J]. China Communications, 2022, 19(7): 324-336.
[25] BAIG S, ASIF H, UMER T, et al. High data rate discrete wavelet transform-based PLC-VLC design for 5G communication systems[J]. IEEE Access, 2018(6): 52490-52499.
[26] SUN Y, SHENG Z, JIE X. EMM: energy-aware mobility management for mobile edge computing in ultra dense networks[J]. IEEE Journal on Selected Areas in Communications, 2017, 35(11): 2637-2646.
Digital twin-assisted multi-mode communication resource management methods for smart buildings
SHI Cheng1, 2, LIU Pengju1, DU Zhigang1, ZHANG Sunxuan1,ZHOU Zhenyu1, BAI Huifeng3, HE Guoqing4, SUN Wenwen4, MA Yue5
1. State Key Laboratory of Alternate Electrical Power System with Renewable Energy Sources, North China Electric Power University, Beijing 102206, China 2. Guangzhou City University of Technology,Guangzhou 510800, China 3. Beijing Smartchip Microelectronics Technology Co., Ltd., Beijing 100192, China 4. State Key Laboratory of Operation and Control of Renewable Energy and Storage, China Electric Power Research Institute, Beijing100192, China 5. State Grid Jibei Electric Power Co.,Ltd., Beijing 100054, China
The multi-mode communication network provides communication support for the collection, transmission, and processing of energy regulation data and the training of energy regulation models for smart buildings. Digital twin can provide state estimation of computing resources and channel characteristics, assist in the multi-mode communication resource optimization management, and improve the training precision of energy regulation models. However, the digital twin-assisted multi-mode communication resource management of smart buildings still face challenges such as large training error of energy regulation model, coupling of multi-timescale resource allocation, and contradictions between training precision improvement of energy regulation model and energy consumption optimization. Aiming at the above challenges, a multi-timescale communication resource management optimization algorithm based on digital twin and empirical matching learning was proposed. The weighted sum of global model loss function and energy consumption was minimized by jointly optimizing the large-timescale gateway selection and small-timescale channel allocation and power control. Simulation results show that the proposed algorithm can improve the performance of weighted sum of global model loss function and energy consumption, ensure the precise energy regulation requirement and promote the low-carbon operation of smart buildings.
smart building, digital twin, energy regulation, federated learning, matching theory, upper confidence bound
TN914
A
10.11959/j.issn.1000-0801.2023017
2022-07-14;
2023-01-09
周振宇,zhenyu_zhou@ncepu.edu.cn
國家電網(wǎng)有限公司總部管理科技項目(No.52094021N010 (5400-202199534A-0-5-ZN))
The Science and Technology Project of State Grid Corporation of China (No.52094021N010 (5400-202199534A-0-5-ZN) )
石珵(1984-),女,華北電力大學新能源電力系統(tǒng)國家重點實驗室博士生,廣州城市理工學院講師,主要研究方向為零碳建筑、智能建筑、建筑通信、智能建筑設(shè)計理論等。
劉朋矩(1997-),男,華北電力大學新能源電力系統(tǒng)國家重點實驗室碩士生,主要研究方向為電力物聯(lián)網(wǎng)資源分配與網(wǎng)絡(luò)安全。
杜治鋼(1999-),男,華北電力大學新能源電力系統(tǒng)國家重點實驗室碩士生,主要研究方向為電力物聯(lián)網(wǎng)。
張孫烜(1998-),男,華北電力大學新能源電力系統(tǒng)國家重點實驗室博士生,主要研究方向為電力物聯(lián)網(wǎng)資源分配與網(wǎng)絡(luò)安全。
周振宇(1983-),男,華北電力大學新能源電力系統(tǒng)國家重點實驗室教授,主要研究方向為無線通信網(wǎng)絡(luò)與新技術(shù)、物聯(lián)網(wǎng)與現(xiàn)代傳感技術(shù)、能源互聯(lián)網(wǎng)信息通信技術(shù)等。
白暉峰(1984-),男,博士,北京智芯微電子科技有限公司高級工程師,主要研究方向為信息通信、光學互聯(lián)網(wǎng)等。
何國慶(1981-),男,中國電力科學研究院有限公司新能源與儲能運行控制國家重點實驗室教授級高級工程師,主要研究方向為新能源并網(wǎng)穩(wěn)定性分析與控制。
孫文文(1990-),男,中國電力科學研究院有限公司新能源與儲能運行控制國家重點實驗室工程師,主要研究方向為可再生能源發(fā)電及其并網(wǎng)技術(shù)。
馬躍(1977-),男,國網(wǎng)冀北電力有限公司高級工程師,主要研究方向為電力通信。