鄭 琳
(衡水開放大學(xué),河北 衡水 053000)
數(shù)據(jù)挖掘目標在于應(yīng)用智能化技術(shù)在數(shù)據(jù)中提取有效信息[1]。 基于物聯(lián)網(wǎng)設(shè)備應(yīng)用及發(fā)展,物聯(lián)網(wǎng)邊緣計算應(yīng)用于數(shù)據(jù)挖掘可以降低數(shù)據(jù)挖掘與計算消耗,在數(shù)據(jù)挖掘智能化服務(wù)及科學(xué)決策等方面具有積極作用[1]。 據(jù)此,構(gòu)建混合云端與邊緣端的深度神經(jīng)網(wǎng)絡(luò),并考慮分支神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘任務(wù)分割與協(xié)同,形成基于物聯(lián)網(wǎng)邊緣計算的數(shù)據(jù)挖掘方法。 通過仿真優(yōu)化,進一步完善了該網(wǎng)絡(luò),提高了該網(wǎng)絡(luò)運行的可行性。
邊緣計算目標在于將計算能力從集中式的云計算服務(wù)器中轉(zhuǎn)移到用戶端邊緣節(jié)點[2]。 邊緣節(jié)點根據(jù)深度神經(jīng)網(wǎng)絡(luò)模型執(zhí)行推理,而深度神經(jīng)網(wǎng)絡(luò)由不同結(jié)構(gòu)網(wǎng)絡(luò)層組成。 綜合考慮數(shù)據(jù)挖掘的智能化,將物聯(lián)網(wǎng)邊緣計算網(wǎng)絡(luò)設(shè)計成為基于分布式計算的包括混合云端與邊緣端的深度神經(jīng)網(wǎng)絡(luò)[3],具體如圖1 所示。
圖1 深度神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計
在數(shù)據(jù)挖掘?qū)嵺`中,本研究設(shè)計網(wǎng)絡(luò)可以根據(jù)數(shù)據(jù)特征,在邊緣設(shè)備淺層部分對數(shù)據(jù)進行分類[4]。 若此部分的數(shù)據(jù)分類不精準,則可以通過云服務(wù)器深層部分對數(shù)據(jù)進行二次分類處理,以提高數(shù)據(jù)處理的精準性。 另外,本研究設(shè)計物聯(lián)網(wǎng)邊緣計算的深度神經(jīng)網(wǎng)絡(luò)可以對原始數(shù)據(jù)傳輸進行加密處理,達到了保護數(shù)據(jù)安全的目的[5]。
深度神經(jīng)網(wǎng)絡(luò)的早期階段分類可以對數(shù)據(jù)總體進行有效判斷,有利于減少數(shù)據(jù)挖掘時延[6]。 為進一步提高數(shù)據(jù)挖掘精度,本研究設(shè)計應(yīng)用分支神經(jīng)網(wǎng)絡(luò),在每個分支出口點,應(yīng)用分類結(jié)果的熵作為置信度度量[6]。 為驗證分支神經(jīng)網(wǎng)絡(luò)有效性,對分支神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。
損失函數(shù)公式表示為:
式(1)(2)中,x表示一個輸入樣本;y表示輸入樣本標簽;y^表示輸入樣本預(yù)測輸出;S表示可能性樣本標簽集合;θ表示分支網(wǎng)絡(luò)層入口到推出的參數(shù)集合。
分支網(wǎng)絡(luò)模型方面,應(yīng)用集中式學(xué)習(xí)部署執(zhí)行相應(yīng)策略。 由于集中式學(xué)習(xí)處理環(huán)境存在不穩(wěn)定問題,需要通過損失函數(shù)計算進行優(yōu)化。
損失函數(shù)公式表示為:
式中,ωn表示每個分支模型的權(quán)重;n表示退出點數(shù)量。
當(dāng)測試樣本進入已訓(xùn)練好模型測試時,將會通過網(wǎng)絡(luò)層計算,并輸出相應(yīng)結(jié)果[7]。 這時,定義輸出樣本信息熵公式,表示為:
式中,entropy(y)表示輸出樣本信息熵。
若測試樣本x的輸出信息熵越小,則表明測試樣本分支的退出點的預(yù)測結(jié)果置信度越高。
物聯(lián)網(wǎng)邊緣計算網(wǎng)絡(luò)中,邊緣設(shè)備應(yīng)用于數(shù)據(jù)的收集與處理[8]。 首先,在云服務(wù)器中進行深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練;其次,根據(jù)深度學(xué)習(xí)網(wǎng)絡(luò)及相關(guān)任務(wù)的數(shù)據(jù)量訓(xùn)練和計算,調(diào)整和優(yōu)化物聯(lián)網(wǎng)的深度學(xué)習(xí)[9]。
本文設(shè)計的分層網(wǎng)絡(luò)架構(gòu)中,卷積層與池化層的延遲較小,因此將卷積神經(jīng)網(wǎng)絡(luò)分區(qū)執(zhí)行,其余應(yīng)用于數(shù)據(jù)計算和任務(wù)執(zhí)行方面[10]。 為在數(shù)據(jù)挖掘中,找出自變量與因變量之間的隱含關(guān)系,筆者構(gòu)建了線性回歸模型,公式表示為:
式中,w,b表示回歸系數(shù);n表示數(shù)據(jù)集;xin表示自變量。
在預(yù)估深度神經(jīng)網(wǎng)絡(luò)運行時間時,需要在層粒度上為每層延遲進行建模,以減少分析開銷[11]。 同時,數(shù)據(jù)挖掘任務(wù)分割與協(xié)同應(yīng)重點考慮深度神經(jīng)網(wǎng)絡(luò)的最佳劃分點,而最佳劃分點的確定取決于拓撲結(jié)構(gòu)。 這一結(jié)構(gòu)可以體現(xiàn)出系統(tǒng)每一層的數(shù)據(jù)計算時延與數(shù)據(jù)輸出變化。 據(jù)此,數(shù)據(jù)挖掘任務(wù)的系統(tǒng)總運行時間,表示為:
式中,ETi表示第i層在邊緣設(shè)備上的運行時間;CTi表示第i層在云服務(wù)器上的運行時間;Oi表示第i層的輸出大小;B表示特定網(wǎng)絡(luò)帶寬。
在數(shù)據(jù)挖掘任務(wù)分割與協(xié)同過程中,基于神經(jīng)網(wǎng)絡(luò)模型的運行及邊緣智能體、云端智能體的協(xié)同策略,可以進一步對網(wǎng)絡(luò)進行劃分和部署,有效提高數(shù)據(jù)挖掘?qū)嵭11]。
應(yīng)用微處理器、圖像采集模傳感器,對圖像數(shù)據(jù)進行采集[12]。 仿真實驗中,應(yīng)用了Camera Module 驅(qū)動,為圖像信息采集提供了raspivid,raspistill 等命令操作。圖像數(shù)據(jù)采集代碼如下:
數(shù)據(jù)預(yù)處理質(zhì)量直接影響了數(shù)據(jù)挖掘及應(yīng)用的質(zhì)量[13]。 為提高數(shù)據(jù)匹配性、可識別性與可靠性,需要對采集到的數(shù)據(jù)進行去均值處理和白化處理[13]。
去均值處理流程:輸入圖像——獲取圖像RGB 通道數(shù)據(jù)——計算通道數(shù)據(jù)的平均值——圖像RGB 通道數(shù)據(jù)減去對應(yīng)通道的平均值。
白化處理方面,本文應(yīng)用PCA 白化處理方法,其公式表示為:
式中,XM×N表示輸入圖像塊數(shù)數(shù)據(jù)的集合;C表示協(xié)方差矩陣,C=cov(XM×N);U表示分解數(shù)據(jù)后取得的向量。
白化處理流程:輸入圖像——計算圖像數(shù)據(jù)集合的協(xié)方差矩陣——對數(shù)據(jù)進行分解,取得U向量——旋轉(zhuǎn)計算U向量,得到旋轉(zhuǎn)矩陣——對旋轉(zhuǎn)矩陣進行PCA 白化處理——白化處理結(jié)果左乘U向量。
分類決策是經(jīng)過模型訓(xùn)練與驗證后,對挖掘出的數(shù)據(jù)進行優(yōu)化的過程(見圖2)。
圖2 分類決策及訓(xùn)練階段運行示意
本文設(shè)計的基于互聯(lián)網(wǎng)邊緣計算網(wǎng)絡(luò)從淺層分支輸出預(yù)測結(jié)果,同時在主干網(wǎng)絡(luò)輸出預(yù)測結(jié)果,在計算損失時,同時存在兩個損失數(shù)據(jù)。 為優(yōu)化處理數(shù)據(jù)挖掘結(jié)果,應(yīng)通過反向傳播算法計算,優(yōu)化兩個不同層次輸出的數(shù)據(jù)信息[14]。 在此過程中,若分支輸出信息熵越小,則預(yù)測結(jié)果置信度越高。 需要在神經(jīng)網(wǎng)絡(luò)層通過邊緣設(shè)備的部署應(yīng)用,對數(shù)據(jù)進行分類處理和優(yōu)化,最終實現(xiàn)數(shù)據(jù)分類決策功能。
基于物聯(lián)網(wǎng)邊緣計算的數(shù)據(jù)挖掘方法可以有效減緩網(wǎng)絡(luò)帶寬壓力,在提高數(shù)據(jù)挖掘效率及安全性等方面具有積極作用。 本文應(yīng)用損失函數(shù)、分支網(wǎng)絡(luò)模型、線性回歸模型構(gòu)建了物聯(lián)網(wǎng)邊緣計算下的數(shù)據(jù)挖掘方法,并融入去均值處理、白化處理,優(yōu)化了該數(shù)據(jù)挖掘方法,提高了該方法實踐應(yīng)用的適用性、可靠性與有效性。