蘆偉
(長江水上交通監(jiān)測與應(yīng)急處置中心,湖北武漢 430010)
近年來,網(wǎng)絡(luò)相關(guān)技術(shù)得到了大力的發(fā)展,例如近距離無線互聯(lián)技術(shù)、移動蜂窩網(wǎng)技術(shù)等,為人們的生活工作與社會發(fā)展提供了更加高效的網(wǎng)絡(luò)服務(wù)。這其中,物聯(lián)網(wǎng)技術(shù)的出現(xiàn)與應(yīng)用進(jìn)一步改變了人們的生產(chǎn)與生活方式,從人人互聯(lián)轉(zhuǎn)變?yōu)槲镂锘ヂ?lián),通信終端數(shù)量也達(dá)到了百億級別。
自組網(wǎng)是物聯(lián)網(wǎng)感知層的關(guān)鍵構(gòu)成技術(shù)之一,承擔(dān)著分布式數(shù)據(jù)采集與傳輸?shù)娜蝿?wù)。自組網(wǎng)主要是基于一個特定目的臨時構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu),具備分布式、單獨(dú)組網(wǎng)、自組織等特點(diǎn),能夠基于簡便的基礎(chǔ)設(shè)施提供良好的通信環(huán)境。但是,自組網(wǎng)的通信范圍具有一定的局限性。
隨著自組網(wǎng)的不斷發(fā)展與升級,其應(yīng)用范圍也變得更加廣泛,再加之“互聯(lián)網(wǎng)+”相關(guān)政策的出臺,使得工業(yè)互聯(lián)網(wǎng)與智能制造成為國家重點(diǎn)研究目標(biāo)之一。數(shù)字孿生技術(shù)就是其中的研究熱點(diǎn)之一,目前,數(shù)字孿生技術(shù)已經(jīng)被納入了重大戰(zhàn)略性技術(shù)發(fā)展之一,其涉及領(lǐng)域也在逐漸擴(kuò)大,如建筑領(lǐng)域、醫(yī)療領(lǐng)域、工業(yè)領(lǐng)域等。
自組網(wǎng)應(yīng)用范圍的擴(kuò)大,使得網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)種類、數(shù)量急劇攀升,呈現(xiàn)為多模態(tài)數(shù)據(jù)形式,對其處理與應(yīng)用相關(guān)技術(shù)提出了更高的要求,尤其對于多模態(tài)數(shù)據(jù)融合技術(shù)來說,其應(yīng)用效果的優(yōu)劣直接關(guān)系著自組網(wǎng)的后續(xù)發(fā)展。相關(guān)學(xué)者從數(shù)據(jù)處理模型、基于階段的策略、基于特征表示的方法以及基于語義的應(yīng)用四個層面出發(fā),設(shè)計了多來源多模態(tài)數(shù)據(jù)融合與集成技術(shù)[1]。此外,也有學(xué)者設(shè)計了多模態(tài)數(shù)據(jù)融合模式及關(guān)鍵技術(shù),建立了網(wǎng)內(nèi)與網(wǎng)間多模態(tài)數(shù)據(jù)融合體系,分析了協(xié)同、聯(lián)合、編解碼器三大架構(gòu)的優(yōu)缺點(diǎn),并解決了多模態(tài)視頻片段檢索、信息生成內(nèi)容摘要、多模態(tài)人機(jī)對話系統(tǒng)等問題[2]。
然而,上述傳統(tǒng)方法在電力領(lǐng)域、農(nóng)業(yè)領(lǐng)域均可以實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的融合處理,但在自組網(wǎng)領(lǐng)域的應(yīng)用效果理想度較低。
數(shù)字孿生技術(shù)主要是通過傳感器更新、物理模型、設(shè)備運(yùn)行等方式,對研究對象進(jìn)行仿真的過程。簡單地說,數(shù)字孿生技術(shù)就是一個數(shù)字映射系統(tǒng),使得物理實(shí)體研究更加簡單,成本更加低廉。因此,該文基于數(shù)字孿生技術(shù)提出一種新的自組網(wǎng)多模態(tài)數(shù)據(jù)快速融合方法。
數(shù)據(jù)實(shí)時采集是物理世界到數(shù)字世界的基礎(chǔ),即實(shí)時數(shù)據(jù)是數(shù)字孿生自組網(wǎng)模型構(gòu)建的依據(jù)[3]。自組網(wǎng)實(shí)時數(shù)據(jù)具有如下特征:
①快速響應(yīng):自組網(wǎng)對用戶查詢請求能夠及時給出反饋,對實(shí)時數(shù)據(jù)查詢訪問提出了基本的時間要求;
②實(shí)時動態(tài)變化:自組網(wǎng)數(shù)據(jù)的標(biāo)志性特征就是實(shí)時性,需要應(yīng)用實(shí)時數(shù)據(jù)庫對其進(jìn)行存儲;
③無限可增:隨著時間的推移,自組網(wǎng)實(shí)時數(shù)據(jù)也在不斷增加,只要網(wǎng)絡(luò)未關(guān)閉,那么實(shí)時數(shù)據(jù)的增加也不會停止[4]。由此可見,實(shí)時數(shù)據(jù)具有無限性,給多模態(tài)數(shù)據(jù)融合帶來了極大的挑戰(zhàn)。
定義R={R1,R2,…,Rt,…,Rn}表示自組網(wǎng)數(shù)據(jù)的實(shí)時特征,其中,Rt表示t時刻采集的自組網(wǎng)實(shí)時數(shù)據(jù)序列。該序列由多個模態(tài)數(shù)據(jù)構(gòu)成,記為Rt={rt1,rt2,…,rti,…,rtm},rti表示時刻t采集實(shí)時數(shù)據(jù)序列中的第i個數(shù)據(jù),m表示實(shí)時數(shù)據(jù)序列中數(shù)據(jù)的總量;n表示采集自組網(wǎng)實(shí)時數(shù)據(jù)序列的總數(shù)。
自組網(wǎng)運(yùn)行過程中會產(chǎn)生大量的流數(shù)據(jù),其整體質(zhì)量偏低,致使采集實(shí)時數(shù)據(jù)中存在著大量的噪聲數(shù)據(jù)與冗余數(shù)據(jù)。而數(shù)字孿生自組網(wǎng)模型構(gòu)建需要依賴于高質(zhì)量的自組網(wǎng)實(shí)時數(shù)據(jù)[5]。因此,對采集的自組網(wǎng)實(shí)時數(shù)據(jù)還需進(jìn)行一定的處理[6]。
首先,采用NLM 算法對噪聲數(shù)據(jù)進(jìn)行去除,具體步驟如下所示:
步驟1:隨機(jī)選取目標(biāo)去噪點(diǎn)x與搜索點(diǎn)y,以此為基礎(chǔ),構(gòu)造鄰域窗口,使其在搜索窗口內(nèi)滑動;
步驟2:計算x點(diǎn)與y點(diǎn)之間的相似度,表達(dá)式為:
式中,S(x,y)表示數(shù)據(jù)點(diǎn)x與y的相似度;υ(x)表示歸一化系數(shù);Lψ(x)-ψ(y)表示搜索窗口ψ(x)與鄰域窗口ψ(y)的距離;α表示平滑參數(shù)[7]。
常規(guī)情況下,利用式(1)得到的計算結(jié)果S(x,y)的數(shù)值越大,表明x點(diǎn)與y點(diǎn)距離越小,相似度越高[8]。
步驟3:遍歷搜索窗口內(nèi)全部的數(shù)據(jù)點(diǎn)y,并應(yīng)用式(1)計算全部的相似度。以計算結(jié)果為基礎(chǔ),獲取目標(biāo)去噪點(diǎn)x的鄰域權(quán)重數(shù)值[9]。應(yīng)用NLM 算法對目標(biāo)去噪點(diǎn)x進(jìn)行處理,獲得結(jié)果表達(dá)式為:
式中,V(x)表示完成去噪后的自組網(wǎng)實(shí)時數(shù)據(jù);ωsn表示目標(biāo)去噪點(diǎn)的鄰域權(quán)重值。
步驟4:應(yīng)用式(2)對采集全部數(shù)據(jù)進(jìn)行處理,即可獲得去噪后的自組網(wǎng)實(shí)時數(shù)據(jù)集合V={V1,V2,…,Vt,…,Vn}。
其次,采用卡爾曼濾波算法對冗余數(shù)據(jù)進(jìn)行處理,其基本數(shù)學(xué)模型表達(dá)式為:
式中,Yt與Yt-1表示當(dāng)前時刻與前一時刻的后驗狀態(tài)估計值;Ut表示過程冗余數(shù)據(jù);Wt表示誤差調(diào)整項;Zt表示當(dāng)前時刻的實(shí)際數(shù)據(jù);Nt表示實(shí)際的冗余數(shù)據(jù)[10];A、B與C分別表示狀態(tài)轉(zhuǎn)移參數(shù)、輸入控制參數(shù)及其輸出控制參數(shù)。
應(yīng)用式(3)對自組網(wǎng)實(shí)時數(shù)據(jù)集合V進(jìn)行處理,即可獲得無噪、無冗余的自組網(wǎng)實(shí)時數(shù)據(jù)集合,為后續(xù)數(shù)字孿生自組網(wǎng)模型的構(gòu)建提供依據(jù)。
以上述處理的自組網(wǎng)實(shí)時數(shù)據(jù)為依據(jù),構(gòu)建數(shù)字孿生自組網(wǎng)模型,如圖1 所示。
圖1 中,數(shù)字孿生自組網(wǎng)模型主要由目標(biāo)網(wǎng)絡(luò)——自組網(wǎng)、孿生網(wǎng)絡(luò)以及服務(wù)系統(tǒng)等結(jié)構(gòu)組成。孿生網(wǎng)絡(luò)是在實(shí)時數(shù)據(jù)基礎(chǔ)上建立的高度真實(shí)復(fù)制網(wǎng)絡(luò),主要通過實(shí)體建模、規(guī)則建模、業(yè)務(wù)建模與行為建模實(shí)現(xiàn),以云平臺為基礎(chǔ)實(shí)現(xiàn)了自組網(wǎng)的虛擬化[11]。
除此之外,服務(wù)系統(tǒng)中還部署了多模態(tài)數(shù)據(jù)采集模塊,為后續(xù)多模態(tài)數(shù)據(jù)融合提供支撐。
以上述構(gòu)建的數(shù)字孿生自組網(wǎng)模型為依據(jù),從服務(wù)系統(tǒng)加載采集的多模態(tài)數(shù)據(jù),通過Region-CNN(R-CNN)提取多模態(tài)數(shù)據(jù)特征,以此為基礎(chǔ),利用雙線性模型對多模態(tài)數(shù)據(jù)進(jìn)行融合處理,為自組網(wǎng)數(shù)據(jù)的后續(xù)處理及其應(yīng)用提供助力[12]。
R-CNN 提取得到的多模態(tài)數(shù)據(jù)特征維度較高,常規(guī)模型難以實(shí)現(xiàn)數(shù)據(jù)快速融合的目的,故創(chuàng)建雙線性模型,其表達(dá)式為:
式中,Di表示雙線性模型的輸出結(jié)果;β與χ分別表示多模態(tài)數(shù)據(jù)的視覺特征與文本特征;ψi表示多模態(tài)數(shù)據(jù)的投影[13]。
雙線性池能夠精準(zhǔn)地捕捉到多模態(tài)數(shù)據(jù)特征之間的相互關(guān)系,通過添加大量參數(shù)實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的融合[14]。但是,利用式(4)得到的雙線性模型矩陣階數(shù)較高,會導(dǎo)致計算成本過高,還有可能出現(xiàn)過擬合的風(fēng)險。因此,為了方便多模態(tài)數(shù)據(jù)的融合運(yùn)算,將雙線性模型進(jìn)行分解,表達(dá)式為:
式中,Oi與Hi表示投影ψi的分解量;*表示向量對應(yīng)位置逐元素乘積符號[15-16]。
將采集的多模態(tài)數(shù)據(jù)輸入至R-CNN 中,提取出數(shù)據(jù)特征,代入式(5)中,其輸出結(jié)果即為多模態(tài)數(shù)據(jù)融合結(jié)果。所提設(shè)計為多模態(tài)數(shù)據(jù)處理提供更有效的方法支撐,也為自組網(wǎng)的后續(xù)發(fā)展及其應(yīng)用提供幫助。
為驗證基于數(shù)字孿生的自組網(wǎng)多模態(tài)數(shù)據(jù)快速融合方法的實(shí)際應(yīng)用性能,設(shè)計如下實(shí)驗。
實(shí)驗分別將文獻(xiàn)[1]和文獻(xiàn)[2]中的數(shù)據(jù)融合方法作為對比方法1、對比方法2,與該文方法共同完成自組網(wǎng)多模態(tài)數(shù)據(jù)融合對比實(shí)驗,從而突出該文方法的應(yīng)用效果。
為了提升實(shí)驗結(jié)論的精確性,在自組網(wǎng)中隨機(jī)抽取14 588 MB 多模態(tài)數(shù)據(jù),將其隨機(jī)劃分為10 組,創(chuàng)建不同的實(shí)驗背景環(huán)境,具體如表1 所示。
表1 實(shí)驗組別信息表
按照表1 內(nèi)容所示,設(shè)置的實(shí)驗組別中,多模態(tài)數(shù)據(jù)體量、噪聲數(shù)據(jù)占比與冗余數(shù)據(jù)占比均不一致,表明每個實(shí)驗組別均具備著不同的實(shí)驗背景環(huán)境,有利于檢驗提出方法的應(yīng)用性能,符合對比實(shí)驗需求。
以上述設(shè)置的實(shí)驗組別信息為基礎(chǔ),應(yīng)用該文方法與對比方法1、對比方法2 進(jìn)行多模態(tài)數(shù)據(jù)融合實(shí)驗。選取多模態(tài)數(shù)據(jù)融合時延與融合后多模態(tài)數(shù)據(jù)質(zhì)量系數(shù)作為評價指標(biāo),計算公式為:
式中,G表示多模態(tài)數(shù)據(jù)融合時延;g0與ge分別表示多模態(tài)數(shù)據(jù)融合初始時間與結(jié)束時間;q表示融合后多模態(tài)數(shù)據(jù)質(zhì)量系數(shù);F′與Ftotal分別表示融合后數(shù)據(jù)中特征信息數(shù)量與全部信息數(shù)量;τ表示輔助計算參數(shù),取值為0~1。
以實(shí)驗數(shù)據(jù)為基礎(chǔ),依據(jù)式(6)計算評價指標(biāo)數(shù)值。其中,多模態(tài)數(shù)據(jù)融合時延如圖2 所示。
圖2 多模態(tài)數(shù)據(jù)融合時延數(shù)據(jù)
根據(jù)圖2 中的數(shù)據(jù),應(yīng)用該文方法后,多模態(tài)數(shù)據(jù)融合時延始終保持在3 s 以下,特別是在第2 組實(shí)驗中,多模態(tài)數(shù)據(jù)融合時延僅為1 s。而其他兩種對比方法,多模態(tài)數(shù)據(jù)融合時延明顯更高。通過對比可以發(fā)現(xiàn),該文方法融合多模態(tài)數(shù)據(jù)的過程花費(fèi)時間更短,證明該文方法的融合效率更高。
計算不同方法融合處理后多模態(tài)數(shù)據(jù)的質(zhì)量系數(shù),結(jié)果如圖3 所示。
圖3 融合后多模態(tài)數(shù)據(jù)質(zhì)量系數(shù)
根據(jù)圖3 可知,應(yīng)用該文方法后,在第7 組實(shí)驗中,獲得融合后多模態(tài)數(shù)據(jù)質(zhì)量系數(shù)達(dá)到了全局最大值,為0.9。在全部的10 組實(shí)驗中,該文方法獲得的融合后多模態(tài)數(shù)據(jù)質(zhì)量系數(shù)始終高于其他兩種對比方法,表明該文方法獲得的多模態(tài)數(shù)據(jù)融合效果更好。
隨著物聯(lián)網(wǎng)在各行各業(yè)應(yīng)用的加深,使得自組網(wǎng)得到了良好的發(fā)展機(jī)遇與發(fā)展空間,其內(nèi)部多模態(tài)數(shù)據(jù)體量逐漸增加,為其處理與應(yīng)用提出了更大的挑戰(zhàn)。數(shù)據(jù)融合是大體量數(shù)據(jù)處理的有效手段之一,故提出基于數(shù)字孿生的自組網(wǎng)多模態(tài)數(shù)據(jù)快速融合方法。實(shí)驗數(shù)據(jù)顯示:應(yīng)用該方法后,多模態(tài)數(shù)據(jù)融合時延得到了大幅縮短,融合后多模態(tài)數(shù)據(jù)質(zhì)量系數(shù)得到了大幅提升,能夠為自組網(wǎng)的后續(xù)發(fā)展提供更有效的技術(shù)支撐。