林增坦,林增鈺,黃紫成
(仰恩大學(xué),福建 泉州 362014)
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的重要研究目標(biāo)之一,其核心思想是融合多層深度網(wǎng)絡(luò),如神經(jīng)網(wǎng)絡(luò)及卷積網(wǎng)絡(luò),同時(shí)利用非線性激活函數(shù)轉(zhuǎn)換對(duì)數(shù)據(jù)實(shí)施表征學(xué)習(xí)[1]。而強(qiáng)化學(xué)習(xí)的關(guān)鍵在于與環(huán)境交互學(xué)習(xí),最后得到最佳策略。深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)具備互不相同的特征,融合兩者的優(yōu)勢(shì)則生成了深度雙Q網(wǎng)絡(luò)(Deep Recurrent Q-Network,DRQN)。該網(wǎng)絡(luò)結(jié)合了深度學(xué)習(xí)的抽象表達(dá)性能與強(qiáng)化學(xué)習(xí)的序貫決策能力,可以為用戶在某些復(fù)雜環(huán)境內(nèi)更好地進(jìn)行學(xué)習(xí)的決策[2]。
深度雙Q網(wǎng)絡(luò)內(nèi)包含數(shù)量眾多的傳感單元和數(shù)據(jù)處理單元,因?yàn)樵摼W(wǎng)絡(luò)節(jié)點(diǎn)資源有限,極易受到外部環(huán)境的侵?jǐn)_[3]。因此,怎樣管理深度雙Q網(wǎng)絡(luò)內(nèi)的數(shù)據(jù),實(shí)現(xiàn)可靠的數(shù)據(jù)查詢是當(dāng)前亟需解決的重要問(wèn)題,也直接決定了網(wǎng)絡(luò)的學(xué)習(xí)決策性能的好壞。由此,提出一種基于分簇的低延遲高可靠數(shù)據(jù)查詢算法。首先介紹深度雙Q網(wǎng)絡(luò)的基本原理,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行Q值函數(shù)擬合,令目標(biāo)Q值函數(shù)得到最優(yōu)動(dòng)作,完成數(shù)據(jù)的評(píng)估預(yù)判;其次采用基于主成分特征提取的數(shù)據(jù)聚類方法,均值標(biāo)準(zhǔn)化處理數(shù)據(jù),并對(duì)不同指標(biāo)的相同特征采取主成分分析,獲取每個(gè)特征的綜合分?jǐn)?shù),完成數(shù)據(jù)精準(zhǔn)聚類,方便后續(xù)數(shù)據(jù)查詢方法的有效計(jì)算;通過(guò)數(shù)據(jù)查詢時(shí)間估算和簇頭節(jié)點(diǎn)能量損耗估算,得到數(shù)據(jù)估計(jì)模型,引入查詢節(jié)點(diǎn)輪換機(jī)制均衡每個(gè)節(jié)點(diǎn)的能量消耗,達(dá)到延長(zhǎng)網(wǎng)絡(luò)壽命目標(biāo),繼而提高數(shù)據(jù)查詢準(zhǔn)確率。
深度學(xué)習(xí)的根本是人工神經(jīng)網(wǎng)絡(luò)通過(guò)淺層學(xué)習(xí)進(jìn)化得到的,反向傳播方法是深度學(xué)習(xí)的基礎(chǔ)方法。使用反向傳播能夠令人工神經(jīng)網(wǎng)絡(luò)從眾多訓(xùn)練樣本內(nèi)學(xué)習(xí)到數(shù)據(jù)的分布式特性,繼而對(duì)未知樣本實(shí)施預(yù)判。通過(guò)多個(gè)隱藏層組成的多層感知器,較比淺層網(wǎng)絡(luò)具備更好的網(wǎng)絡(luò)特征表達(dá)性能[4]。
DRQN使用強(qiáng)化學(xué)習(xí)來(lái)組建模型與優(yōu)化目標(biāo),采用深度學(xué)習(xí)求解狀態(tài)表達(dá)與策略表達(dá),并從環(huán)境內(nèi)得到數(shù)據(jù),再把感知形態(tài)輸入至Q網(wǎng)絡(luò)內(nèi),每隔一段時(shí)間就將主Q網(wǎng)絡(luò)的參變量拷貝至目標(biāo)Q網(wǎng)絡(luò),同時(shí)讓網(wǎng)絡(luò)利用損失函數(shù)采取反向傳播,實(shí)現(xiàn)更新主網(wǎng)絡(luò)參變量的目標(biāo),反復(fù)訓(xùn)練,直到損失函數(shù)呈現(xiàn)收斂狀態(tài)[5]。DRQN模型使用卷積神經(jīng)網(wǎng)絡(luò)擬合Q值函數(shù),然后運(yùn)用梯度下降手段求解最優(yōu)化問(wèn)題,讓目標(biāo)Q值函數(shù)利用相同的擬合函數(shù)挑選最佳動(dòng)作,同時(shí)對(duì)其實(shí)施評(píng)判,得到
(1)
式(1)中,r表示標(biāo)量的獎(jiǎng)賞值,γ表示折扣因子,Q(s′,a′)表示動(dòng)作值函數(shù),θ表示評(píng)估網(wǎng)絡(luò)參數(shù)。在此過(guò)程中,若θ未更新,則會(huì)導(dǎo)致Q值的估計(jì)值較高,如果使用過(guò)高的估計(jì)值,整個(gè)潛在決策就會(huì)呈現(xiàn)出不一致性,讓決策挑選到次優(yōu)解。對(duì)于狀態(tài)空間持續(xù)選址的強(qiáng)化學(xué)習(xí)任務(wù)而言,有限的學(xué)習(xí)樣本無(wú)法讓神經(jīng)網(wǎng)絡(luò)擬合出合適全部狀態(tài)動(dòng)作對(duì)的Q值函數(shù)[6]。所以擬合的Q值函數(shù)曲線會(huì)在實(shí)際Q值曲線周邊浮動(dòng),因?yàn)槟繕?biāo)Q值函數(shù)求解時(shí)要進(jìn)行選擇,讓Q值實(shí)現(xiàn)最大動(dòng)作,網(wǎng)絡(luò)估計(jì)的Q值會(huì)比實(shí)際Q值要高。
在深度雙Q網(wǎng)絡(luò)中,最為典型常見(jiàn)的數(shù)據(jù)為面板數(shù)據(jù),此類數(shù)據(jù)具備截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)特征[7]。面板數(shù)據(jù)每項(xiàng)指標(biāo)量綱或數(shù)量級(jí)的不同會(huì)對(duì)數(shù)據(jù)聚類結(jié)果形成一定影響,因此對(duì)面板數(shù)據(jù)Xij(t)采取均值標(biāo)準(zhǔn)化處理,處理過(guò)程為
(2)
將各個(gè)指標(biāo)的均值設(shè)定為1,則方差是
(3)
(4)
A(Fij)表示個(gè)體的第j個(gè)指標(biāo)在總時(shí)段T的平均值,此特征量凸顯出個(gè)體i的第j個(gè)指標(biāo)在全局時(shí)段的絕對(duì)發(fā)展水準(zhǔn)。
個(gè)體i的第j個(gè)指標(biāo)的全時(shí)浮動(dòng)特性為
(5)
個(gè)體i的第j個(gè)指標(biāo)全時(shí)偏度特性為
(6)
個(gè)體i的第j個(gè)指標(biāo)全時(shí)峰度特性為
(7)
此特征量映射出個(gè)體i的第j個(gè)指標(biāo)在全局時(shí)段分布曲線的尖銳水準(zhǔn)[8],K(Fij)小于0,證明此指標(biāo)值的分布比正態(tài)分布更加分散,K(Fij)大于0,證明此指標(biāo)值的分布比正態(tài)分布更聚攏于均值四周。
將個(gè)體i的第j個(gè)指標(biāo)全時(shí)趨勢(shì)特性描述為
(8)
T(Fij)表示指標(biāo)的長(zhǎng)期改變趨勢(shì),如果指標(biāo)的TF(Fij)值越相近,證明兩個(gè)指標(biāo)的坡度走向相等,指標(biāo)值越相似。
下面對(duì)不同指標(biāo)的相等特性進(jìn)行主成分分析,獲得各個(gè)特性的綜合分?jǐn)?shù)。設(shè)F1,F(xiàn)2,…,F(xiàn)p是p維指標(biāo)矢量A提取的主成分,將αk當(dāng)作主成分Fk的方差貢獻(xiàn)率,那么主成分降維后絕對(duì)量特性A(Fij)的綜合分?jǐn)?shù)是
(9)
選擇N個(gè)個(gè)體的五項(xiàng)指標(biāo)數(shù)據(jù)集{Zij},那么Zij就是第i個(gè)個(gè)體第j個(gè)指標(biāo)數(shù);利用不同的方法采取標(biāo)準(zhǔn)化處理,滿足Zij=|Zij|,則其正向指標(biāo)是
(10)
反向指標(biāo)是
(11)
推算第j個(gè)指標(biāo)的第i個(gè)個(gè)體占據(jù)此指標(biāo)的比例和第j個(gè)指標(biāo)的熵值[9]。至此,完成數(shù)據(jù)聚類,從而增強(qiáng)數(shù)據(jù)查詢效率。
數(shù)據(jù)查詢優(yōu)化的目的是最小化深度網(wǎng)絡(luò)的能源總消耗,包含網(wǎng)絡(luò)內(nèi)傳感器節(jié)點(diǎn)采取數(shù)據(jù)處理的能源消耗及通信能源消耗[10]。所以在進(jìn)行數(shù)據(jù)查詢優(yōu)化時(shí),低延遲高可靠的查詢方式成為增強(qiáng)網(wǎng)絡(luò)能源效率的關(guān)鍵方法。
假設(shè)用戶查詢q需要的所有感知數(shù)據(jù)集合S分布于n1,…,nm簇頭節(jié)點(diǎn)相應(yīng)的數(shù)據(jù)包集合k1,…,km內(nèi),那么q在簇頭節(jié)點(diǎn)nj內(nèi)執(zhí)行的時(shí)間消耗為
QC=TC+TQ
(12)
式(12)中,TC是其余簇頭節(jié)點(diǎn)向nj節(jié)點(diǎn)輸送數(shù)據(jù)的通信時(shí)長(zhǎng),TQ是此節(jié)點(diǎn)實(shí)現(xiàn)數(shù)據(jù)處理的運(yùn)算時(shí)間消耗。
通信時(shí)長(zhǎng)主要是n1,…,nm個(gè)簇頭節(jié)點(diǎn)把數(shù)據(jù)包集合k1,…,km傳遞至節(jié)點(diǎn)nj所耗費(fèi)的時(shí)間。它和傳遞數(shù)據(jù)量成正比,和傳送速率成反比。假設(shè)簇頭節(jié)點(diǎn)ni、nj之間傳送速率是每秒Rij,則ni、nj之間輸送數(shù)據(jù)包的耗時(shí)為
ti,j=ki/Rij
(13)
則
(14)
推算耗時(shí)是簇頭節(jié)點(diǎn)關(guān)于S執(zhí)行數(shù)據(jù)處理的時(shí)間。若對(duì)S的處理需要執(zhí)行I個(gè)命令,簇頭節(jié)點(diǎn)nj的處理性能是每秒執(zhí)行pj個(gè)命令,可得到
TQi=I/pj
(15)
把式(15)和式(14)引入式(12),得到查詢時(shí)間消耗值
(16)
深度雙Q網(wǎng)絡(luò)內(nèi)因?yàn)槟茉词芟?,要求網(wǎng)絡(luò)內(nèi)數(shù)據(jù)傳輸數(shù)量為最低,傳感器節(jié)點(diǎn)通信能量耗費(fèi)遠(yuǎn)遠(yuǎn)超出計(jì)算時(shí)的能量損耗[11],簇頭節(jié)點(diǎn)nj執(zhí)行查詢的過(guò)程中,網(wǎng)絡(luò)消耗的能量包含其它簇頭節(jié)點(diǎn)和nj節(jié)點(diǎn)通信、nj節(jié)點(diǎn)對(duì)自身數(shù)據(jù)與其它簇頭節(jié)點(diǎn)輸送的數(shù)據(jù)計(jì)算處理、nj節(jié)點(diǎn)和基站通信三部分能量消耗。因?yàn)楦鱾€(gè)簇頭節(jié)點(diǎn)的計(jì)算耗時(shí)與數(shù)據(jù)的計(jì)算處理執(zhí)行命令數(shù)量相等,因此計(jì)算處理的能量損耗也相等,不需要采取單獨(dú)計(jì)算,所以僅需算出各個(gè)簇頭節(jié)點(diǎn)的通信能量消耗即可,計(jì)算公式為
E=λkd2
(17)
式(17)中,λ表示單位數(shù)據(jù)輸送單位距離時(shí)的傳感器能耗,k是數(shù)據(jù)包體積,d是通信間距。
按照式(17)無(wú)線電能量關(guān)聯(lián)得知,進(jìn)行數(shù)據(jù)傳輸時(shí),信號(hào)放大部分的能耗占據(jù)較多面積[12],并且和數(shù)據(jù)包大小及傳輸間距的平方成正比,那么其它簇頭節(jié)點(diǎn)和nj節(jié)點(diǎn)通信能耗為
(18)
nj節(jié)點(diǎn)和基站通信的能耗為
(19)
從而得到簇頭節(jié)點(diǎn)nj查詢過(guò)程的網(wǎng)絡(luò)能耗是
(20)
因?yàn)椴樵児?jié)點(diǎn)比其它節(jié)點(diǎn)處理的數(shù)據(jù)量更多,能耗很大,為了有效延長(zhǎng)局部網(wǎng)絡(luò)壽命,可將每次剩下的能量最高節(jié)點(diǎn)當(dāng)作查詢節(jié)點(diǎn)。
在一個(gè)查詢請(qǐng)求中,各個(gè)節(jié)點(diǎn)感知并采集自身覆蓋區(qū)域的數(shù)據(jù)源,通過(guò)相當(dāng)數(shù)量的計(jì)算、融合及處理獲取與請(qǐng)求結(jié)果相近的數(shù)據(jù)集,此階段消耗的能量是ei。每個(gè)節(jié)點(diǎn)順著自身的路徑將數(shù)據(jù)傳送至查詢節(jié)點(diǎn),在數(shù)據(jù)傳輸?shù)穆窂絻?nèi),各個(gè)節(jié)點(diǎn)均能將自身接收的數(shù)據(jù)采取融合。因?yàn)槊總€(gè)節(jié)點(diǎn)在相同查詢請(qǐng)求下獲得的結(jié)果集模式相同,但傳輸距離有較大差別,因此每個(gè)節(jié)點(diǎn)的傳輸能耗也不相等。
如果節(jié)點(diǎn)i向節(jié)點(diǎn)j輸送數(shù)據(jù),i輸送單位信息所需的能量et(i)的表達(dá)式為
(21)
式(21)中,et表示輸送每比特信息所耗費(fèi)的能量,ed為傳輸時(shí)的單位能量消耗,et與ed均通過(guò)節(jié)點(diǎn)發(fā)送器自身特征決定;參數(shù)n為信道路徑丟失系數(shù),依靠于網(wǎng)絡(luò)環(huán)境;傳感器節(jié)點(diǎn)搭設(shè)靠近地面時(shí),障礙物較多,干擾指數(shù)較高,參數(shù)n的值也越高;rij表示傳輸距離;B為信號(hào)比特率,一般為一個(gè)固定值。
節(jié)點(diǎn)j接收節(jié)點(diǎn)i輸送的單位信息需要的能量為
er(j)=erB
(22)
式(22)中,er為接收每比特信息耗費(fèi)的能量。
若深度雙Q網(wǎng)絡(luò)共有M層,則第N層節(jié)點(diǎn)的信息要經(jīng)過(guò)第N-1層實(shí)現(xiàn)轉(zhuǎn)發(fā),同理,傳輸至根節(jié)點(diǎn)時(shí),第K層節(jié)點(diǎn)信息要通過(guò)K-1個(gè)節(jié)點(diǎn)完成轉(zhuǎn)發(fā),假設(shè)從i層節(jié)點(diǎn)至i-1層的距離是di,則一次信息傳輸消耗的能量是
(23)
需要注意的是,并不是M層內(nèi)全部節(jié)點(diǎn)內(nèi)的信息都會(huì)輸送至根節(jié)點(diǎn),M層內(nèi)的信息抵達(dá)M-1層后,會(huì)采取數(shù)據(jù)融合處理,真實(shí)抵達(dá)根節(jié)點(diǎn)的信息較少,因此ek是傳輸信息數(shù)量的最高值。
假設(shè)一次查詢請(qǐng)求下,節(jié)點(diǎn)i在此時(shí)段一共執(zhí)行了m次的信息傳送和n次信息接收,那么節(jié)點(diǎn)i在查詢后的剩余能量為
ja,jb∈Ni
(24)
為了證明所提方法的數(shù)據(jù)查詢性能,與對(duì)稱加密算法、動(dòng)態(tài)模糊算法進(jìn)行數(shù)據(jù)查詢性能對(duì)比,由于MATLAB平臺(tái)可以快速建立數(shù)據(jù)查詢網(wǎng)絡(luò)環(huán)境,便于分析算法性能。因此,選擇MATLAB 7.0平臺(tái)進(jìn)行仿真。設(shè)置目標(biāo)監(jiān)視區(qū)域范圍是100m×100m,節(jié)點(diǎn)通信半徑為20m,數(shù)據(jù)包大小為128MB。
為驗(yàn)證所提出方法數(shù)據(jù)查詢的性能,在仿真平臺(tái)對(duì)所提算法、文獻(xiàn)[7]方法(帶關(guān)系屬性的空間關(guān)鍵詞并行查詢處理算法)及文獻(xiàn)[8]方法(基于分布式無(wú)共享架構(gòu)的海量數(shù)據(jù)并行查詢平臺(tái))進(jìn)行查詢成功率、數(shù)據(jù)傳輸能耗實(shí)驗(yàn)。
設(shè)置在無(wú)節(jié)點(diǎn)故障情況下,三種方法的成功查詢概率,基于上述實(shí)驗(yàn)環(huán)境,在仿真平臺(tái)進(jìn)行了500輪數(shù)據(jù)查詢,并自動(dòng)計(jì)算并輸出實(shí)驗(yàn)結(jié)果,如圖1所示。
圖1 查詢成功率對(duì)比
由圖1可以發(fā)現(xiàn),所提算法的查詢成功率始終高于文獻(xiàn)[7]、文獻(xiàn)[8]方法的查詢成功率。而且文獻(xiàn)[7]方法的平均查詢成功率為86.17%,文獻(xiàn)[8]方法的平均查詢成功率為80.54%,所提方法的平均查詢成功率為97.96%,說(shuō)明所提方法的數(shù)據(jù)查詢性能較好,滿足低延遲高可靠數(shù)據(jù)查詢高效的需求。
以深度雙Q網(wǎng)絡(luò)查詢后剩余可靠節(jié)點(diǎn)個(gè)數(shù)作為驗(yàn)證方法數(shù)據(jù)傳輸能耗的指標(biāo),剩余可靠節(jié)點(diǎn)個(gè)數(shù)越多,數(shù)據(jù)傳輸能耗均衡效果越好。具體實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 網(wǎng)絡(luò)剩余可靠節(jié)點(diǎn)個(gè)數(shù)對(duì)比圖
從圖2中可知,三種對(duì)比算法的剩余可靠節(jié)點(diǎn)數(shù)量呈現(xiàn)逐步下降的趨勢(shì),但所提方法的下降趨勢(shì)比較平緩。在運(yùn)行為120s時(shí),兩種對(duì)比方法的剩余可靠節(jié)點(diǎn)數(shù)量分別為45個(gè)和32個(gè);所提方法的剩余可靠節(jié)點(diǎn)數(shù)量為81個(gè),且在運(yùn)行時(shí)間內(nèi)剩余可靠節(jié)點(diǎn)維持在80個(gè)以上。這是因?yàn)樗岱椒ɡ昧斯?jié)點(diǎn)輪換方法均衡網(wǎng)絡(luò)能耗,使查詢節(jié)點(diǎn)能量的消耗速率降低。及時(shí)調(diào)整了查詢節(jié)點(diǎn),保證剩余可靠節(jié)點(diǎn)的數(shù)量,因此該方法的能耗均衡能力較強(qiáng)。
針對(duì)深度雙Q網(wǎng)絡(luò)數(shù)據(jù)查詢過(guò)程中存在效率不高、精度較差等問(wèn)題,提出一種基于分簇的低延遲高可靠數(shù)據(jù)查詢算法。通過(guò)分析深度雙Q網(wǎng)絡(luò)關(guān)鍵機(jī)制,建立深度雙Q網(wǎng)絡(luò)模型,實(shí)現(xiàn)最優(yōu)動(dòng)作挑選及評(píng)估。運(yùn)用基于主成分特征提取的數(shù)據(jù)聚類方法,提升數(shù)據(jù)查詢成功率。利用分簇節(jié)點(diǎn)輪換方法均衡網(wǎng)絡(luò)能耗,延長(zhǎng)網(wǎng)絡(luò)生命周期,實(shí)現(xiàn)深度雙Q網(wǎng)絡(luò)的高效率學(xué)習(xí)。