摘要::鑒于無(wú)線傳感器網(wǎng)絡(luò)中拓?fù)漕l繁變動(dòng)挑戰(zhàn)分簇穩(wěn)定性,引發(fā)數(shù)據(jù)傳輸冗余與能耗激增,文章提出基于深度強(qiáng)化學(xué)習(xí)的分簇算法。該算法融合能量、位置與密度因素,利用深度強(qiáng)化學(xué)習(xí)結(jié)合傳感器能量模型,精準(zhǔn)聚類節(jié)點(diǎn)并優(yōu)化簇間路徑,實(shí)現(xiàn)高效分簇策略。仿真驗(yàn)證顯示,相較于對(duì)比方法,該算法顯著提升網(wǎng)絡(luò)生存時(shí)間約40%,能夠有效遏制能耗,顯著延長(zhǎng)無(wú)線傳感器網(wǎng)絡(luò)的生命周期,展現(xiàn)了其在復(fù)雜環(huán)境中的優(yōu)越性能與實(shí)用價(jià)值。
關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);無(wú)線傳感器;網(wǎng)絡(luò)分簇;節(jié)點(diǎn)信任度;數(shù)據(jù)聚類
中圖分類號(hào):TN711" 文獻(xiàn)標(biāo)志碼:A
0 引言
無(wú)線傳感器網(wǎng)絡(luò)作為由眾多靜態(tài)或移動(dòng)傳感器節(jié)點(diǎn)構(gòu)成的自組織多跳網(wǎng)絡(luò),核心在于協(xié)作感知、收集、管理及傳輸覆蓋區(qū)域內(nèi)數(shù)據(jù)至指定接收者[1]。然而,該體系面臨功率受限、網(wǎng)絡(luò)干擾、數(shù)據(jù)冗余及系統(tǒng)動(dòng)態(tài)性不足等顯著挑戰(zhàn)[2]。為此,王珊等[3]提出基于競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)的無(wú)線傳感器網(wǎng)絡(luò)分簇算法,模擬生物競(jìng)爭(zhēng)過(guò)程選取簇頭,有效延長(zhǎng)了網(wǎng)絡(luò)壽命,但其對(duì)網(wǎng)絡(luò)狀態(tài)變化的適應(yīng)性及穩(wěn)定性有待提升。張慧娟[4]提出無(wú)線傳感網(wǎng)絡(luò)中基于Dijkstra算法的分簇路由方法,依據(jù)剩余能量、距離與擁塞狀態(tài)決策簇頭與路徑,雖力求能耗均衡,卻受限于負(fù)權(quán)邊問(wèn)題,影響路徑優(yōu)化精度。朱麗華等[5]提出基于聚合層次聚類的無(wú)線傳感器網(wǎng)絡(luò)分簇算法,實(shí)現(xiàn)了根據(jù)數(shù)據(jù)集特性自適應(yīng)分簇,雖靈活性增強(qiáng),但層次聚類結(jié)果的非直觀性增加了網(wǎng)絡(luò)管理的復(fù)雜度。鑒于上述研究的局限,本文提出了基于深度強(qiáng)化學(xué)習(xí)的無(wú)線傳感器網(wǎng)絡(luò)分簇算法,通過(guò)智能體自主學(xué)習(xí)的方式,實(shí)現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)的自組織、自優(yōu)化和自適應(yīng),減少能量消耗,延長(zhǎng)網(wǎng)絡(luò)生命周期。
1 基于深度強(qiáng)化學(xué)習(xí)的無(wú)線傳感器網(wǎng)絡(luò)分簇算法設(shè)計(jì)
1.1 構(gòu)建無(wú)線傳感器能量消耗模型
無(wú)線傳感器網(wǎng)絡(luò)作為一種層次結(jié)構(gòu)網(wǎng)絡(luò),由一個(gè)高級(jí)節(jié)點(diǎn)和多個(gè)普通節(jié)點(diǎn)組成,所有具備唯一ID編號(hào)的節(jié)點(diǎn)均隨機(jī)部署在靜態(tài)監(jiān)測(cè)區(qū)域[6],具體結(jié)構(gòu)如圖1所示。
通過(guò)分析圖1可以發(fā)現(xiàn),整個(gè)無(wú)線傳感器的能量消耗主要由各個(gè)節(jié)點(diǎn)接收發(fā)送數(shù)據(jù)能耗和高級(jí)節(jié)點(diǎn)數(shù)據(jù)融合能耗組成。本文分別對(duì)上述能耗進(jìn)行計(jì)算,公式如下:
A=bEelex+bc2blt;b0
bEelex+bc4b≥b0
D=bEelex
F=cEelex(1)
其中,A為數(shù)據(jù)發(fā)送時(shí)的能耗;D為數(shù)據(jù)接收的能耗;F為數(shù)據(jù)融合能耗;b和b0分別為節(jié)點(diǎn)間距和用于轉(zhuǎn)換數(shù)據(jù)在傳輸時(shí)所采用的空間損耗模型的距離閾值;Eelex為節(jié)點(diǎn)發(fā)送或接收單位比特?cái)?shù)據(jù)的能量消耗;c為發(fā)送的數(shù)據(jù)量。將上述計(jì)算結(jié)果相加,得到無(wú)線傳感器的全部能耗g,當(dāng)blt;b0時(shí),為自由空間能量消耗模型,b≥b0時(shí),則為多路徑衰落能量消耗模型。
1.2 確定無(wú)線傳感器網(wǎng)絡(luò)簇頭
計(jì)算傳感器節(jié)點(diǎn)適應(yīng)度函數(shù)的過(guò)程中須要優(yōu)先對(duì)其進(jìn)行計(jì)算,傳感器節(jié)點(diǎn)的能量等級(jí)計(jì)算公式如下:
λ=Q-QminQmax-Qmin
Q=-(A+D+F)(2)
其中,λ為傳感器節(jié)點(diǎn)的能量等級(jí);Qmax和Qmin分別為當(dāng)前輪數(shù)型無(wú)線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)匯總剩余能量的最大值和最小值;Q為節(jié)點(diǎn)當(dāng)前剩余能量;為節(jié)點(diǎn)初始能量。
完成能量等級(jí)計(jì)算后,對(duì)節(jié)點(diǎn)分布位置和節(jié)點(diǎn)密度進(jìn)行分析,兩者的計(jì)算公式為:
β=i(x,y)∑i=1i(x,y)/i(x,y)max+i(j,y)
δ=mxn(3)
其中,β為節(jié)點(diǎn)分布位置因子;i(x,y)為節(jié)點(diǎn)x與基站y之間的距離;i(j,y)為簇頭節(jié)點(diǎn)j與基站y之間的距離;δ為節(jié)點(diǎn)附近網(wǎng)絡(luò)范圍內(nèi)的密度因子;m為節(jié)點(diǎn)x附近節(jié)點(diǎn)數(shù)目;n為整個(gè)無(wú)線傳感器網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)。
由于能量等級(jí)越高、節(jié)點(diǎn)分布位置因子和節(jié)點(diǎn)密度因子越大,所對(duì)應(yīng)的節(jié)點(diǎn)剩余能量越多、通信距離越短、附近節(jié)點(diǎn)越多。因此,本文結(jié)合相對(duì)應(yīng)權(quán)值,得出傳感器節(jié)點(diǎn)適應(yīng)度函數(shù),計(jì)算公式如下:
=ηλ+εβ+μδ(4)
其中,為傳感器節(jié)點(diǎn)適應(yīng)度函數(shù);η為能量等級(jí)的權(quán)重系數(shù);ε為節(jié)點(diǎn)分布位置因子的權(quán)重系數(shù);μ為節(jié)點(diǎn)密度因子的權(quán)重系數(shù),3個(gè)權(quán)重須同時(shí)為正數(shù)且相加和為1。計(jì)算不同編碼的傳感器節(jié)點(diǎn)的適應(yīng)度函數(shù),選擇其中最大的一個(gè)節(jié)點(diǎn)作為無(wú)線傳感器網(wǎng)絡(luò)簇頭。
1.3 基于深度強(qiáng)化學(xué)習(xí)的無(wú)線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)聚類
選定簇頭利用載波監(jiān)聽(tīng)多路訪問(wèn)(Carrier Sense Multiple Access,CSMA)協(xié)議廣播簇頭身份,節(jié)點(diǎn)依據(jù)信號(hào)強(qiáng)度加入簇群。初步分簇后,通過(guò)能量消耗模型篩選,排除多路徑衰落高能耗節(jié)點(diǎn),僅保留自由空間能耗節(jié)點(diǎn)作為輸入,進(jìn)一步應(yīng)用深度強(qiáng)化學(xué)習(xí)算法模型進(jìn)行精細(xì)聚類,以優(yōu)化能量利用率,確保分簇結(jié)果高效節(jié)能。算法模型會(huì)根據(jù)能量消耗模型的計(jì)算結(jié)果,計(jì)算不同節(jié)點(diǎn)對(duì)應(yīng)的相關(guān)通信次數(shù),公式為:
H=0.2gαx(5)
其中,H為節(jié)點(diǎn)對(duì)應(yīng)的相關(guān)通信次數(shù);α為x節(jié)點(diǎn)的大小。此時(shí)深度強(qiáng)化學(xué)習(xí)模型會(huì)根據(jù)通信次數(shù),對(duì)距離簇頭節(jié)點(diǎn)的位置、能量狀態(tài)、數(shù)據(jù)傳輸量等環(huán)境進(jìn)行感知,將環(huán)境信息更改為高維度的特征向量,輸入模型的策略學(xué)習(xí)模塊。強(qiáng)化學(xué)習(xí)模型基于狀態(tài)信息輸出行動(dòng)函數(shù),該函數(shù)綜合能量消耗與傳輸效 率,最大化長(zhǎng)期回報(bào)。策略學(xué)習(xí)模塊據(jù)此選擇節(jié)點(diǎn)存留或排出,游離節(jié)點(diǎn)與排出節(jié)點(diǎn)由智能體重新分配至相似函數(shù)值簇群。智能體持續(xù)監(jiān)測(cè)網(wǎng)絡(luò)狀態(tài)變化,收集能耗、傳輸延遲等反饋,用于更新?tīng)顟B(tài)感知。通過(guò)迭代優(yōu)化,模型逐步學(xué)會(huì)根據(jù)網(wǎng)絡(luò)狀態(tài)動(dòng)態(tài)調(diào)整最優(yōu)節(jié)點(diǎn)聚類策略。
1.4 規(guī)劃最優(yōu)簇間路徑
為優(yōu)化無(wú)線傳感器網(wǎng)絡(luò)分簇,規(guī)劃簇間最優(yōu)路徑,確保能量均衡消耗。簇頭節(jié)點(diǎn)選擇下一跳時(shí),優(yōu)先連接未被其他簇頭選中的節(jié)點(diǎn),以優(yōu)化路徑規(guī)劃。此路徑推演的目標(biāo)函數(shù)表達(dá)式為:
w=A+DH(6)
其中,w為路徑推演的目標(biāo)函數(shù),選取該函數(shù)對(duì)比結(jié)果最大的對(duì)應(yīng)節(jié)點(diǎn)作為下一跳節(jié)點(diǎn)。重復(fù)簇間節(jié)點(diǎn)跳躍過(guò)程至完成,考慮能量限制,增設(shè)高目標(biāo)函數(shù)路徑確保數(shù)據(jù)完全傳輸。監(jiān)控路徑狀態(tài),動(dòng)態(tài)調(diào)整流量分配,平衡負(fù)載,優(yōu)化傳輸效率。
2 仿真測(cè)試
2.1 測(cè)試準(zhǔn)備
為驗(yàn)證基于深度強(qiáng)化學(xué)習(xí)的無(wú)線傳感器網(wǎng)絡(luò)分簇算法,本文對(duì)該算法進(jìn)行仿真測(cè)試。使用Simulink仿真軟件對(duì)無(wú)線傳感器網(wǎng)絡(luò)進(jìn)行模擬,輸入合理的節(jié)點(diǎn)數(shù)量、通信半徑等參數(shù),以此模擬真實(shí)環(huán)境下的無(wú)線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)行為,具體網(wǎng)絡(luò)仿真模擬參數(shù)為:設(shè)定300 m×300 m的仿真區(qū)域,部署100個(gè)節(jié)點(diǎn),每節(jié)點(diǎn)初始能量50 J,數(shù)據(jù)包長(zhǎng)度為4000 bit。采用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化,設(shè)置進(jìn)化次數(shù)為20次,變異概率為0.1,交叉概率為0.6,旨在通過(guò)算法迭代尋找最優(yōu)網(wǎng)絡(luò)配置,以提升數(shù)據(jù)傳輸效率與網(wǎng)絡(luò)性能。
在仿真環(huán)境中部署無(wú)線傳感器網(wǎng)絡(luò),采用深度強(qiáng)化學(xué)習(xí)、層次分析法及競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行分簇,記錄通信、傳輸與能耗過(guò)程,分析網(wǎng)絡(luò)結(jié)構(gòu)。多輪測(cè)試對(duì)比死亡節(jié)點(diǎn)數(shù)與生存時(shí)間,評(píng)估分簇算法優(yōu)劣。
2.2 測(cè)試結(jié)果
將基于3種不同算法分簇的無(wú)線傳感器網(wǎng)絡(luò)測(cè)試結(jié)果進(jìn)行歸納總結(jié),在數(shù)據(jù)完全傳輸?shù)那闆r下,多輪能量剩余情況以及網(wǎng)絡(luò)生存時(shí)間的實(shí)驗(yàn)結(jié)果數(shù)據(jù)如圖2所示。
分析圖2可知,深度強(qiáng)化學(xué)習(xí)分簇算法較層次分析法與競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)算法顯著降低能耗,延長(zhǎng)網(wǎng)絡(luò)生存時(shí)間約40%,至2500輪時(shí)仍保留15 J能量。研究算法在復(fù)雜環(huán)境中展現(xiàn)優(yōu)異性能,通過(guò)自學(xué)習(xí)優(yōu)化分簇策略,高效分配資源,減少數(shù)據(jù)冗余與沖突,降低能耗,增強(qiáng)網(wǎng)絡(luò)穩(wěn)定與可靠性,顯著延長(zhǎng)生命周期。
3 結(jié)語(yǔ)
本文對(duì)基于深度強(qiáng)化學(xué)習(xí)的無(wú)線傳感器網(wǎng)絡(luò)分簇算法展開(kāi)設(shè)計(jì)與分析,通過(guò)大量的數(shù)據(jù)訓(xùn)練模型來(lái) 實(shí)現(xiàn)智能決策,能夠適應(yīng)復(fù)雜多變的網(wǎng)絡(luò)環(huán)境,減小拓?fù)涔芾黼y度,提高可擴(kuò)展性。同時(shí)通過(guò)自動(dòng)調(diào)整選擇適合的簇頭節(jié)點(diǎn),減少了節(jié)點(diǎn)之間的通信距離。未來(lái),隨著異構(gòu)無(wú)線傳感器網(wǎng)絡(luò)融合技術(shù)的發(fā)展,研究算法將逐步應(yīng)用于多類型、多模態(tài)的傳感器網(wǎng)絡(luò)中,實(shí)現(xiàn)更高效的數(shù)據(jù)融合和協(xié)同處理。
參考文獻(xiàn)
[1]許知博,段新.考慮網(wǎng)絡(luò)吞吐量的異構(gòu)無(wú)線傳感器網(wǎng)絡(luò)分簇路由算法[J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào),2022(3):326-330.
[2]吳子敬.基于競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)的無(wú)線傳感器網(wǎng)絡(luò)非均勻分簇算法[J].齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版),2023(5):1-6.
[3]王珊,梁敏,路芳瑞,等.一種基于AHP的無(wú)線傳感器網(wǎng)絡(luò)分簇路由算法[J].火力與指揮控制,2023(9):77-81,91.
[4]張慧娟.無(wú)線傳感網(wǎng)絡(luò)中基于Dijkstra算法的分簇路由[J].火力與指揮控制,2022(2):134-139,145.
[5]朱麗華,陳心怡.一種改進(jìn)的無(wú)線傳感器網(wǎng)絡(luò)分簇路由協(xié)議算法分析[J].集成電路應(yīng)用,2023(3):11-13.
[6]李婧,侯詩(shī)琪.環(huán)境感知的自適應(yīng)深度強(qiáng)化學(xué)習(xí)路由算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2023(11):3230-3237.
(編輯 王雪芬編輯)
Wireless sensor network clustering algorithm based on deep reinforcement learning
XIAO" Xiang
(Fujian College of Water Conservancy and Electric Power, Yongan 366000, China)
Abstract:" In view of the frequent topology changes in wireless sensor networks challenge the stability of clustering, which leads to data transmission redundancy and energy consumption surge, a clustering algorithm based on deep reinforcement learning is proposed. By integrating energy, position and density factors, deep reinforcement learning combined with sensor energy model is used to accurately cluster nodes and optimize inter-cluster paths to achieve efficient clustering strategies. Simulation results show that compared with the comparison method, the research algorithm can significantly improve the network lifetime by about 40%, effectively curb energy consumption, and significantly extend the life cycle of wireless sensor networks, demonstrating its superior performance and practical value in complex environments.
Key words: deep reinforcement learning; wireless sensor; network clustering; node trust degree; data clustering