高德平
(山東理工職業(yè)學(xué)院 教務(wù)實(shí)訓(xùn)處, 山東 濟(jì)寧 272067)
通信網(wǎng)絡(luò)結(jié)構(gòu)不斷地?cái)U(kuò)大,在相同的傳感器節(jié)點(diǎn)控制下,形成了大量待檢驗(yàn)重復(fù)的通信樣本數(shù)據(jù),過(guò)量的冗余數(shù)據(jù)會(huì)造成通信承載系統(tǒng)運(yùn)行緩慢,檢測(cè)通信信息系統(tǒng)內(nèi)的冗余數(shù)據(jù)成了當(dāng)下研究的熱點(diǎn),為此構(gòu)建一種考慮樣本數(shù)據(jù)重復(fù)性的通信信息冗余數(shù)據(jù)檢測(cè)算法[1]。構(gòu)建冗余數(shù)據(jù)檢測(cè)算法不僅可以減少通信系統(tǒng)內(nèi)儲(chǔ)存,還能夠降低數(shù)據(jù)儲(chǔ)存的成本,減少通信傳輸過(guò)程中所需的網(wǎng)絡(luò)帶寬。對(duì)于不同通信應(yīng)用類產(chǎn)生的數(shù)據(jù)集,整理并歸納數(shù)據(jù)集中的特點(diǎn),針對(duì)多種數(shù)據(jù)集中產(chǎn)生的特點(diǎn),構(gòu)建識(shí)別過(guò)程并形成檢測(cè)算法[2]。早期的冗余數(shù)據(jù)檢測(cè)出現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域中,隨著現(xiàn)代化技術(shù)不斷地發(fā)展,國(guó)外研究人員針對(duì)冗余數(shù)據(jù)中的單屬性,形成了成熟的檢測(cè)方法,并結(jié)合凝聚聚類方法找到了冗余數(shù)據(jù)中的異常數(shù)據(jù)點(diǎn)。國(guó)內(nèi)研究冗余數(shù)據(jù)檢測(cè)算法起步較晚,但如今已經(jīng)進(jìn)入到一個(gè)高速發(fā)展的階段。綜合國(guó)內(nèi)外的研究成果來(lái)看,在通信信息冗余數(shù)據(jù)檢測(cè)算法的構(gòu)建上,還需要不斷地研究改進(jìn)[3]?;诖颂岢隹紤]樣本數(shù)據(jù)重復(fù)性的通信信息冗余數(shù)據(jù)檢測(cè)算法,在充分考慮樣本數(shù)據(jù)重復(fù)性的前提下,采集通信信息冗余數(shù)據(jù)作為識(shí)別對(duì)象,利用固定窗口平滑填補(bǔ)采集得到的數(shù)據(jù),識(shí)別重復(fù)性樣本數(shù)據(jù),最終通過(guò)計(jì)算冗余數(shù)據(jù)密度完成冗余數(shù)據(jù)檢測(cè)算法的構(gòu)建。通過(guò)對(duì)比實(shí)驗(yàn)證明所提方法的有效性。
以通信信息網(wǎng)絡(luò)為采集對(duì)象,根據(jù)不同的通信信道將整個(gè)通信信息網(wǎng)絡(luò)劃分為多個(gè)傳感器節(jié)點(diǎn),劃分得到的傳感器節(jié)點(diǎn)結(jié)構(gòu)如圖1所示。
圖1 信道對(duì)應(yīng)的傳感器節(jié)點(diǎn)結(jié)構(gòu)
在圖1所示的傳感器節(jié)點(diǎn)結(jié)構(gòu)中,采用單片機(jī)對(duì)不同信道進(jìn)行數(shù)據(jù)采集[4],定義在上圖所示的結(jié)構(gòu)中,傳感器采集效率q在給定的采集時(shí)間內(nèi),靜態(tài)通信網(wǎng)絡(luò)中數(shù)據(jù)全被采集的概率為式(1)。
(1)
式中,Ai表示在時(shí)間范圍內(nèi)通信傳感器數(shù)據(jù)被成功采集的函數(shù)個(gè)數(shù);N表示數(shù)據(jù)采集次數(shù)。將上述采集概率計(jì)算轉(zhuǎn)化為采集層具體化模式[5],讓采集的通信數(shù)據(jù)在網(wǎng)絡(luò)中采集得到的冗余數(shù)據(jù)產(chǎn)生一定的限制,控制采集時(shí)產(chǎn)生的能耗數(shù)值,采集能耗可計(jì)算得到如式(2)。
(2)
式中,EIC表示通信傳感器發(fā)送數(shù)據(jù)所消耗的能量;ECC表示通信數(shù)據(jù)的單位能量;T表示數(shù)據(jù)發(fā)送的時(shí)長(zhǎng)。在上述采集能耗的控制下,為了采集通信冗余數(shù)據(jù),最小化處理發(fā)送能耗,最小化處理過(guò)程如式(3)。
(3)
(4)
(5)
式中,ξ表示信道發(fā)射信號(hào)峰均比;η表示射頻功放的漏極效率;其余參數(shù)含義不變。信道發(fā)射信號(hào)峰均比在調(diào)制方法的控制下滿足如下數(shù)量關(guān)系,如式(6)。
(6)
式中,M表示通信節(jié)點(diǎn)被訪問(wèn)次數(shù)。根據(jù)上述計(jì)算過(guò)程得到訪問(wèn)次數(shù)集合數(shù)值[8],綜合通信網(wǎng)絡(luò)中所有的通信節(jié)點(diǎn),最終得到冗余數(shù)據(jù)集合an,如式(7)。
(7)
式中,n表示通信網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量;θ表示通信發(fā)射波束的方向角大小。以上述采集得到的采集通信信息冗余數(shù)據(jù)為作用目標(biāo)[9],識(shí)別冗余數(shù)據(jù)集中的重復(fù)性數(shù)據(jù)樣本。
采用上述采集得到的冗余數(shù)據(jù)組為識(shí)別對(duì)象,采用固定窗口平滑填補(bǔ)采集得到的數(shù)據(jù),設(shè)定多個(gè)閱讀器周期,以第一個(gè)周期讀入數(shù)據(jù)為起點(diǎn)[10],為了防止未被讀到數(shù)據(jù)標(biāo)簽發(fā)生漏讀,構(gòu)建一個(gè)固定窗口數(shù)據(jù)平滑處理,形成的填補(bǔ)過(guò)程如圖2所示。
圖2 漏讀數(shù)據(jù)填補(bǔ)過(guò)程
在圖2所示的數(shù)據(jù)填補(bǔ)過(guò)程下,將填補(bǔ)后的數(shù)據(jù)整合為信源,使用信息熵作為樣本數(shù)據(jù)的重復(fù)性標(biāo)簽,信息熵可表示為式(8)。
(8)
式中,U表示信源;ui表示通信信源數(shù)據(jù);其余參數(shù)含義不變。根據(jù)上述計(jì)算結(jié)果,定義距離信息熵遠(yuǎn)的離群點(diǎn)為具有重復(fù)性的樣本數(shù)據(jù)[11],在不同的信息熵值的控制下,計(jì)算采集得到的冗余數(shù)據(jù)集中的屬性值的初始頻率Fr,如式(9)。
(9)
式中,c表示屬性值的數(shù)量。計(jì)算出初始頻率后,多次掃描采集得到的信息熵,數(shù)值變化如圖3所示。
圖3 信息熵的數(shù)值變化
在圖3所示的數(shù)值變化下,針對(duì)數(shù)據(jù)重復(fù)性較為復(fù)雜的冗余數(shù)據(jù)來(lái)講,與圖3所示坐標(biāo)數(shù)值的罕見(jiàn)性相關(guān)聯(lián)[12],形成的關(guān)聯(lián)度計(jì)算如式(10)。
(10)
式中,m表示數(shù)據(jù)維度;i,j分別表示兩個(gè)重復(fù)性數(shù)據(jù);f(xij)表示關(guān)聯(lián)性參數(shù)。為了處理相同數(shù)值屬性的重復(fù)數(shù)據(jù)點(diǎn),構(gòu)建一個(gè)相異度距離衡量距離較遠(yuǎn)的冗余樣本數(shù)據(jù)的相似性距離,相異度距離計(jì)算式如式(11)。
(11)
式中,X,Y表示兩個(gè)重復(fù)性的冗余數(shù)據(jù);δ(xj,yj)表示相異函數(shù);其余參數(shù)含義不變。綜合上述的處理過(guò)程,即可形成一個(gè)重復(fù)性樣本冗余數(shù)據(jù)的識(shí)別過(guò)程,如圖4所示。
圖4 重復(fù)數(shù)據(jù)的識(shí)別過(guò)程
在圖4所示的識(shí)別過(guò)程中,設(shè)定一個(gè)學(xué)習(xí)過(guò)程,在不斷更新數(shù)據(jù)簇中的數(shù)據(jù)中心后[13],根據(jù)數(shù)據(jù)簇內(nèi)的樣本數(shù)據(jù)密度構(gòu)建冗余數(shù)據(jù)檢測(cè)算法。
整合上述識(shí)別出的重復(fù)性數(shù)據(jù)與采集得到的冗余數(shù)據(jù)為一個(gè)數(shù)據(jù)集,為了保持?jǐn)?shù)據(jù)的有序性,計(jì)算整合后數(shù)據(jù)集內(nèi)的冗余數(shù)據(jù)密度為式(12)。
(12)
式中,x表示采集得到的冗余數(shù)據(jù)集;y表示識(shí)別得到的重復(fù)性數(shù)據(jù);a表示密度參數(shù)。將數(shù)據(jù)密度數(shù)值相同的冗余數(shù)據(jù)劃分為一組,為了保證算法的有效性[14],在不同冗余數(shù)據(jù)組中設(shè)定一個(gè)檢測(cè)率下限數(shù)值,下限數(shù)值DR為式(13)。
(13)
式中,α′表示信息通道中最大容許誤報(bào)率;α表示冗余數(shù)據(jù)占正常通信傳輸數(shù)據(jù)的比值;β表示重復(fù)數(shù)據(jù)占冗余數(shù)據(jù)的比值,下限數(shù)值形成一個(gè)數(shù)據(jù)點(diǎn)篩選區(qū)域,形成的篩選區(qū)域如圖5所示。
圖5 形成的數(shù)據(jù)點(diǎn)篩選區(qū)域
在圖5所示的數(shù)據(jù)點(diǎn)篩選區(qū)域,在密集區(qū)域中選定一個(gè)間隙值κ,根據(jù)該間隙值計(jì)算冗余數(shù)據(jù)被殘存下的概率為式(14)。
(14)
式中,γκ表示間隙參數(shù);γ1表示冗余數(shù)據(jù)殘存參數(shù);其余參數(shù)含義保持不變??刂粕鲜龈鲄?shù)的數(shù)值,保證殘存參數(shù)數(shù)值最下,控制冗余數(shù)據(jù)檢測(cè)算法殘存的待檢測(cè)數(shù)據(jù)量最少[15]。綜合上述處理分析,最終完成對(duì)考慮樣本數(shù)據(jù)重復(fù)性的通信信息冗余數(shù)據(jù)檢測(cè)算法的構(gòu)建。
在MATLAB編程環(huán)境中首先產(chǎn)生一個(gè)200×200的區(qū)域,并在其內(nèi)部隨機(jī)生成10組含有不同節(jié)點(diǎn)數(shù)量的冗余數(shù)據(jù)塊的無(wú)線傳感器網(wǎng)絡(luò)作為實(shí)驗(yàn)的通信信息網(wǎng)絡(luò),選定的無(wú)線傳感器網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 選定的通信網(wǎng)絡(luò)結(jié)構(gòu)
在圖6所示的網(wǎng)絡(luò)結(jié)構(gòu)中,以傳感器的節(jié)點(diǎn)數(shù)據(jù)為采集對(duì)象,采集實(shí)驗(yàn)樣本數(shù)據(jù),整合為不同的樣本數(shù)據(jù)組,得到的樣本數(shù)據(jù)如表1所示。
表1 采集的冗余樣本數(shù)據(jù)
由表1所采集的樣本數(shù)據(jù)作為冗余數(shù)據(jù)實(shí)驗(yàn)對(duì)象,分別使用文獻(xiàn)[10]中的檢測(cè)算法、傳統(tǒng)檢測(cè)算法以及本研究設(shè)計(jì)的檢測(cè)算法進(jìn)行實(shí)驗(yàn),對(duì)比3種算法的性能。
為了對(duì)比3種算法的性能,定義實(shí)驗(yàn)各個(gè)數(shù)據(jù)組中未被處理的數(shù)據(jù)作為殘存的冗余數(shù)據(jù),以3種算法的殘存冗余數(shù)據(jù)作為對(duì)比指標(biāo),3種數(shù)據(jù)檢測(cè)算法最終殘存的冗余數(shù)據(jù)結(jié)果,如圖7所示。
圖7 三種冗余數(shù)據(jù)檢測(cè)算法殘存冗余數(shù)據(jù)結(jié)果
由圖7結(jié)果可知,當(dāng)檢測(cè)的冗余數(shù)據(jù)數(shù)量為200時(shí),文獻(xiàn)[10]中的檢測(cè)算法與傳統(tǒng)檢測(cè)算法殘存的冗余數(shù)據(jù)較多,數(shù)值在25左右,而本研究設(shè)計(jì)的冗余數(shù)據(jù)檢測(cè)算法殘存的冗余數(shù)據(jù)數(shù)量最少,殘存的冗余數(shù)值在10左右。
保持上述實(shí)驗(yàn)環(huán)境不變,根據(jù)上述實(shí)驗(yàn)結(jié)果得到的剩余冗余數(shù)據(jù)量,計(jì)算得到不同數(shù)據(jù)組中的冗余度,冗余度計(jì)算式為式(15)。
(15)
式中,R表示冗余度;Q表示冗余數(shù)據(jù)組的數(shù)據(jù)總量;C表示算法殘存的數(shù)據(jù)量。利用上述計(jì)算公式,計(jì)算得到3種冗余數(shù)據(jù)檢測(cè)算法的冗余度結(jié)果,如表2所示。
表2 三種冗余數(shù)據(jù)檢測(cè)算法冗余度結(jié)果
在表2所示的冗余度結(jié)果下,計(jì)算3種算法的有效性,如式(16)。
(16)
式中,P1表示冗余數(shù)據(jù)不可恢復(fù)的概率;其余參數(shù)含義不變。變換不同算法的數(shù)據(jù)量,最終,3種檢測(cè)算法的有效性結(jié)果如圖8所示。
圖8 三種檢測(cè)算法的有效性結(jié)果
由圖8可知,3種冗余數(shù)據(jù)檢測(cè)算法表現(xiàn)出了不同的有效性結(jié)果,在3種算法的冗余度數(shù)值控制下,根據(jù)圖8中的各項(xiàng)數(shù)值可知,文獻(xiàn)[10]中的檢測(cè)算法的有效性數(shù)值最小,有效性數(shù)值在0.6,有效性數(shù)值較小,傳統(tǒng)冗余數(shù)據(jù)檢測(cè)算法的有效性數(shù)值在0.8左右,算法的有效性較小,而本研究設(shè)計(jì)的檢測(cè)算法有效性數(shù)值在1左右,綜合上述3種冗余數(shù)據(jù)檢測(cè)算法的有效性數(shù)值可知,本研究的檢測(cè)算法在實(shí)際運(yùn)用時(shí),殘存的數(shù)據(jù)量最小、冗余度數(shù)值小且有效性數(shù)值最大,適合在實(shí)際中使用。
通信冗余數(shù)據(jù)有著相同的特性,但在重復(fù)性的樣本數(shù)據(jù)影響下,就會(huì)產(chǎn)生待冗余數(shù)據(jù)的殘存,構(gòu)建一種考慮樣本數(shù)據(jù)重復(fù)性的通信信息冗余數(shù)據(jù)檢測(cè)算法,能夠改善傳統(tǒng)檢測(cè)算法待檢測(cè)冗余數(shù)據(jù)殘存量過(guò)多、檢測(cè)結(jié)果有效性數(shù)值較小的不足,為今后研究冗余數(shù)據(jù)的檢測(cè)提供了一定的理論支持與研究方向。但本研究構(gòu)建的檢測(cè)算法對(duì)計(jì)算精度要求較高,還需要不斷地研究改進(jìn)。