張素智,楊 芮,陳小妮
(鄭州輕工業(yè)學(xué)院 計算機(jī)與通信工程學(xué)院,河南 鄭州 450001)
隨著信息技術(shù)的迅速發(fā)展,大數(shù)據(jù)、云計算、深度學(xué)習(xí)等新技術(shù)相繼出現(xiàn),人們對信息數(shù)據(jù)的需求量與日俱增,數(shù)據(jù)維度和樣本規(guī)模也在逐漸增加。在進(jìn)行數(shù)據(jù)處理分析時,僅面向單一的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,需融合多層次多領(lǐng)域的數(shù)據(jù)來擴(kuò)大數(shù)據(jù)處理的范圍。如何對這些高維數(shù)據(jù)進(jìn)行處理[1],從而降低數(shù)據(jù)量以獲取價值信息,是亟待解決的問題。由于各類數(shù)字化的信息數(shù)據(jù)量非常大,未經(jīng)過壓縮和預(yù)處理的數(shù)據(jù)難以直接使用,因此,數(shù)據(jù)融合及壓縮技術(shù)成為當(dāng)前研究的重點(diǎn)。
數(shù)據(jù)融合是一種新興信息處理技術(shù)[2],通過基于特定規(guī)則進(jìn)行優(yōu)化整理、綜合分析以完成所需的估計和決策。數(shù)據(jù)融合通過采集并融合以數(shù)據(jù)、信號、圖像等多種形式存在于傳感器中的信息,得到比各個單獨(dú)的輸入數(shù)據(jù)更多的信息。近年來,壓縮感知理論[3]逐漸成為數(shù)據(jù)融合中的研究熱點(diǎn)。文獻(xiàn)[4]對壓縮感知和分布式壓縮感知(DCS)的有效性進(jìn)行驗(yàn)證,證明CS和DCS方法比無線傳感器網(wǎng)絡(luò)中的變換編碼及基于模型的自適應(yīng)傳感提供更高的能效。文獻(xiàn)[5]表明壓縮感知方法能有效減小網(wǎng)絡(luò)傳輸數(shù)據(jù)量并加快傳輸速度,與常規(guī)方法DANP(數(shù)據(jù)采集和無處理方法)和DATC(數(shù)據(jù)采集和變換編碼方法)相比,采用壓縮感知能顯著地降低網(wǎng)絡(luò)能耗并延長稀疏信號的網(wǎng)絡(luò)壽命。文獻(xiàn)[6]基于貝葉斯推理提出狀態(tài)監(jiān)測的兩階段數(shù)據(jù)融合方法,通過將來自單獨(dú)狀態(tài)監(jiān)測系統(tǒng)的數(shù)據(jù)組合起來用于工業(yè)機(jī)器,可提高整個機(jī)器健康評估的可靠性。通過將CS理論應(yīng)用于數(shù)據(jù)融合,可以有效地改進(jìn)傳統(tǒng)信息處理的局限性。如文獻(xiàn)[7]基于壓縮感知理論提出采樣點(diǎn)少且結(jié)構(gòu)簡單的圖像融合方法,可在未獲取全部采樣點(diǎn)的情況下進(jìn)行融合,降低了計算復(fù)雜度,且明顯使得融合的圖像質(zhì)量更好。文獻(xiàn)[8]提出基于壓縮感知和活動輪廓的多焦點(diǎn)圖像融合方法,對比傳統(tǒng)的CS圖像融合方法,該方法在主觀視覺和客觀評價指標(biāo)上有更好的融合效果。但其對于不同壓縮采樣矩陣的應(yīng)用研究較少,且融合規(guī)則應(yīng)針對測量值的特點(diǎn)進(jìn)行有效設(shè)計。
文中提出一種基于獨(dú)立區(qū)域劃分和壓縮感知的數(shù)據(jù)融合方法。首先通過壓縮感知進(jìn)行數(shù)據(jù)采樣以提高采樣效率,并對數(shù)據(jù)集按規(guī)則進(jìn)行區(qū)域劃分和負(fù)載均衡計算,對劃分后的數(shù)據(jù)集采用基于信息熵的壓縮感知系數(shù)融合方法。實(shí)驗(yàn)表明該方法降低了算法的計算復(fù)雜度,具有較好的穩(wěn)定性和融合效果。
壓縮感知理論旨在從數(shù)據(jù)本身的特性出發(fā),找尋并去除數(shù)據(jù)中隱含的冗余度,從而達(dá)到壓縮的目的。在傳統(tǒng)信號處理中,壓縮感知要求傳感器以遠(yuǎn)低于Nyquist的速率[9]進(jìn)行信號采樣。一般來說,如果信號是可壓縮或稀疏的,即可用與變換基無關(guān)的觀測矩陣將變換所得的高維信號映射到低維空間上,之后采用求解優(yōu)化方法從投影中以較高的概率對原始信號進(jìn)行重構(gòu)。這些理論的創(chuàng)新,有效地推動了基于壓縮感知的數(shù)據(jù)融合方法的發(fā)展。
對于長度為N的離散信號f(f∈RN),其變換域?yàn)棣穒(i=1,2,…,N),對信號變換可得:
(1)
其中,f表示時域中的信號;Ψ是N×N維稀疏矩陣;x是表示變換系數(shù)的向量。如果x僅有K個非零值(其中N?K)或在排列順序后按指數(shù)級遞減且逐步接近于零,則稱f在Ψ上K稀疏。
在數(shù)據(jù)處理過程中,CS的先驗(yàn)要求為信號是否能稀疏表示。若信號能被壓縮,并可由測量值y∈RN重構(gòu),則:
y=Φf=ΦΨx
(2)
其中,Φ{Φi,i=1,2,…,M}是M×N維(M x'=argmin‖x‖l1 (3) 最后,通過x'求初始信號f: f'=Ψx' (4) 壓縮感知理論常用在信號的采集及重構(gòu)上,然而在面對大規(guī)模數(shù)據(jù)集時,運(yùn)算量較大,難以處理。因此采用分區(qū)域壓縮感知技術(shù),先對數(shù)據(jù)集進(jìn)行分區(qū)劃分處理,然后對每個子區(qū)域數(shù)據(jù)集分別進(jìn)行觀測與重構(gòu),再采用重構(gòu)算法整合恢復(fù)后的各個子區(qū)域。 無線傳感網(wǎng)絡(luò)一般由大量的傳感器節(jié)點(diǎn)組成,這些節(jié)點(diǎn)具有信息采集、處理和控制的能力[12]。假設(shè)某無線傳感器網(wǎng)絡(luò)擁有N個節(jié)點(diǎn),每個節(jié)點(diǎn)在一周期內(nèi)采集的數(shù)據(jù)為ti,i=1,2,…,n。整個無線傳感網(wǎng)絡(luò)數(shù)據(jù)可構(gòu)成一個矢量,即 T=[t1,t2,…,tn]T (5) 如果需要得到完整的信息,應(yīng)采集信號T的N個采樣的樣本,并通過壓縮感知方法獲取的信號變換系數(shù)α(‖α‖?N)來恢復(fù)完整的無線傳感信號。 由于T通常較大,可能包含數(shù)千個無線傳感的節(jié)點(diǎn)數(shù)據(jù),采用壓縮感知能有效減少信息采集量。對一個信號T,若存在變換域Ψ,使得T能在Ψ上q稀疏表示,則 Ψ=[ψ1,ψ2,…,ψq]T (6) 無線傳感網(wǎng)絡(luò)的數(shù)據(jù)采樣表示為: (7) 其中,P為T的稀疏表示。 壓縮感知利用高斯隨機(jī)采樣矩陣Φ,對傳感節(jié)點(diǎn)上的數(shù)據(jù)進(jìn)行采樣,綜合上述,經(jīng)壓縮采樣取得的測量值為: yi=φTi,i=1,2,… (8) 其中,φ={φj,i}為采樣矩陣,矩陣中的元素滿足獨(dú)立同分布的特性,其方差為1/M。 2.2.1 獨(dú)立區(qū)域劃分 按照劃分準(zhǔn)則進(jìn)行區(qū)域劃分,將采樣數(shù)據(jù)動態(tài)分組成多個獨(dú)立的相關(guān)自包含數(shù)據(jù)區(qū)域,以消除數(shù)據(jù)耦合性,使得同一區(qū)域中的數(shù)據(jù)具有較高的相似度,不同區(qū)域中的數(shù)據(jù)間不相關(guān)。根據(jù)近鄰數(shù)據(jù)思想,按規(guī)則聚類,形成近鄰動態(tài)區(qū)域。 (1)對于待聚類的點(diǎn)跡集合U={U1,U2,…,Un},元素兩兩之間距離為: dij=d(ui,uj)=‖ui-uj‖,i,j=1,2,…,n 且i≠j (9) (2)在計算過程中,從U中找出與ui距離小于閾值T的各元素形成初始簇Ci: Ci(ui)={um|dim (10) 其中,T為提前設(shè)定的距離閾值,文中設(shè)為20。則聚類劃分為C(u)={Ci(ui)|i=1,2,…,n},其劃分?jǐn)?shù)目為n個。 2.2.2 負(fù)載均衡 根據(jù)獨(dú)立區(qū)域劃分得到的分區(qū)大小通常不相等。因此,為實(shí)現(xiàn)負(fù)載均衡[13],對聚類結(jié)果C(u),將其大致分為d份,分別記為Pc,P={Pc|c=1,2,…,d},并行節(jié)點(diǎn)數(shù)k,采用基于區(qū)域計算負(fù)荷的均衡劃分方法。 (1)各節(jié)點(diǎn)的計算量為: (11) (3)依次從有序集合P'的兩端取元素,組成k個子集M={Mi|i=1,2,…,k},滿足: (12) 文中將樣本數(shù)據(jù)進(jìn)行近鄰數(shù)據(jù)區(qū)域劃分,并對劃分后的各區(qū)域子集設(shè)置標(biāo)號矩陣為{A1,A2,…,Ak}。假設(shè)兩個區(qū)域集的標(biāo)號矩陣分別為A1和A2,則聯(lián)合矩陣為: A=NA1+A2 (13) 其中,N=N1N2,N1和N2分別表示2個樣本數(shù)據(jù)集的劃分?jǐn)?shù)量,N表示2個樣本數(shù)據(jù)集劃分的所有可能,因此N為一個足夠大的整數(shù)。聯(lián)合區(qū)域矩陣可以保證不同的數(shù)據(jù)集具有相同的劃分標(biāo)準(zhǔn)。 通過劃分,得到的劃分集為Mi(i=1,2,…,k),為了更加精確地得到數(shù)據(jù)軌跡,需要對數(shù)據(jù)進(jìn)行融合。采用基于信息熵[14]的CS系數(shù)融合方法,計算兩個類的信息熵: (14) 其中,pk為隨機(jī)變量M在信號中出現(xiàn)的概率。 聯(lián)合信息熵為: (15) 互信息(MI)為: (16) 對兩個類M1,M2,其各自的權(quán)重計算系數(shù)為: (17) (18) 根據(jù)獨(dú)立區(qū)域劃分,兩個區(qū)域集的聯(lián)合矩陣A的融合權(quán)重為: k∈{1,2} (19) 其中,δ(x)表示單位沖激函數(shù),定義為: (20) 假設(shè)2個樣本數(shù)據(jù)集相應(yīng)的區(qū)域集測量值分別為y1和y2,則每個區(qū)域集融合后的測量值為: y'=ω1y1+ω2y2 (21) 基于壓縮感知的數(shù)據(jù)融合算法具體步驟如下: (1)使用壓縮感知方法進(jìn)行數(shù)據(jù)采樣。通過高斯隨機(jī)觀測矩陣對數(shù)據(jù)的稀疏表示形態(tài)進(jìn)行測量,得到測量值{y1,y2,…,yn}; (2)對采樣數(shù)據(jù)集按規(guī)則進(jìn)行獨(dú)立區(qū)域劃分,計算負(fù)載均衡,并對區(qū)域集設(shè)置聯(lián)合矩陣。 對待融合的劃分后數(shù)據(jù)集{M1,M2,…,Mk},計算兩個樣本類的信息熵、聯(lián)合信息熵和互信息,獲取權(quán)重融合后的測量。 為了衡量算法的優(yōu)劣,采用文獻(xiàn)[15]中的實(shí)驗(yàn)數(shù)據(jù),使用三個熱電偶對恒溫箱進(jìn)行溫度檢測,六次的觀測值如表1所示。 表1 溫度傳感器的觀測值(溫度設(shè)定900℃) 為了驗(yàn)證算法的精度,分別采用平均值方法、文獻(xiàn)[15]中的可靠性算法、文中方法對表1中的觀測數(shù)據(jù)進(jìn)行融合,得到的融合結(jié)果如表2所示。 由表2的融合結(jié)果可以看出,文中方法的多次觀測值都較接近于實(shí)際值,且對比三種方法的絕對誤差和,平均值方法為16.433 3,可靠性算法為16.308 9,而文中方法的誤差和遠(yuǎn)低于前兩種方法,為12.222 0。因此,文中方法具有一定的優(yōu)勢。 表2 三種融合方法的融合結(jié)果對比 為了進(jìn)一步驗(yàn)證算法的穩(wěn)定性,使用Matlab仿真軟件模擬10個傳感器對900 ℃恒溫箱隨機(jī)觀測100次的實(shí)驗(yàn),并對采樣獲取的數(shù)據(jù)采用三種方法進(jìn)行融合實(shí)驗(yàn),其絕對誤差對比如圖1所示。 圖1 三種融合方法的絕對誤差對比 由圖1中三種融合方法的絕對誤差曲線變化可知,文中方法的絕對誤差曲線整體上位于平均值方法和可靠性方法曲線的下方,且誤差曲線變化較為平緩,而平均值方法和可靠性方法的誤差曲線波動較大,且誤差值相對較高。因此,文中方法具有一定的穩(wěn)定性,融合效果較好。 在數(shù)據(jù)融合中,壓縮感知理論的出現(xiàn)推動了傳感器中數(shù)據(jù)信號處理的發(fā)展。文中運(yùn)用壓縮感知理論的思想,提出基于獨(dú)立區(qū)域劃分和壓縮感知的數(shù)據(jù)融合算法,對數(shù)據(jù)采樣獲取測量值后,通過獨(dú)立區(qū)域劃分樣本集,并計算互信息融合權(quán)重,最后采用壓縮感知系數(shù)重構(gòu)方法獲取融合后數(shù)據(jù)。 實(shí)驗(yàn)結(jié)果表明,文中算法具有較好的穩(wěn)定性和融合效果。2 基于獨(dú)立數(shù)據(jù)區(qū)域劃分的數(shù)據(jù)融合方法
2.1 數(shù)據(jù)采樣
2.2 非規(guī)則區(qū)域數(shù)據(jù)劃分
2.3 數(shù)據(jù)融合
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
3.2 融合結(jié)果與分析
4 結(jié)束語