方小明,劉艷梨
(江蘇安全技術(shù)職業(yè)學(xué)院 電氣工程學(xué)院,江蘇 徐州 232001)
在有線感知基礎(chǔ)設(shè)施部署過于昂貴或不能實(shí)現(xiàn)的環(huán)境中,無線傳感器網(wǎng)絡(luò)(WSN,wireless sensor network)為監(jiān)測(cè)和數(shù)據(jù)收集提供了一個(gè)成本高效的平臺(tái)[1-2]。WSN由一組節(jié)點(diǎn)構(gòu)成,每個(gè)節(jié)點(diǎn)都配備一組感知設(shè)備。在每個(gè)節(jié)點(diǎn)上安裝不同的感知元件(如溫度和濕度傳感器),使得WSN能夠收集大量多維的和相關(guān)的樣本。WSN的一個(gè)重要挑戰(zhàn)是檢測(cè)由周圍環(huán)境中感興趣的事件或節(jié)點(diǎn)故障引起的異常測(cè)量值。在節(jié)點(diǎn)上發(fā)現(xiàn)異常測(cè)量值,使得我們可以通過減少網(wǎng)絡(luò)上原始數(shù)據(jù)的通信,節(jié)省無線節(jié)點(diǎn)的有限資源。為了檢測(cè)異常,需要對(duì)節(jié)點(diǎn)的行為進(jìn)行建模。
人們提出了各種數(shù)據(jù)挖掘方法來建立節(jié)點(diǎn)的行為模型。在分散式方法中,WSN中的每個(gè)節(jié)點(diǎn)都建立一個(gè)自身正常行為的局部模型,將局部模型的參數(shù)轉(zhuǎn)發(fā)到基站或簇頭,然后根據(jù)局部模型計(jì)算全局模型。近年來,人們提出了許多采用這種方法的不同數(shù)據(jù)建模方法。然而,這些模型大多為靜態(tài)模型,不能適應(yīng)環(huán)境中的變化。此外,這些模型的準(zhǔn)確性依賴于初始訓(xùn)練周期的正確選擇。如果初始訓(xùn)練周期不能很好地代表將來的測(cè)量值,模型就是失敗的。因此,重要的問題是如何持續(xù)學(xué)習(xí)非平穩(wěn)環(huán)境中的行為模型,即如何檢測(cè)非平穩(wěn)環(huán)境中的異常事件。
異常檢測(cè)是WSN中一個(gè)活躍的研究課題。在WSN中,異常檢測(cè)技術(shù)已應(yīng)用于許多方面,包括入侵檢測(cè)、事件檢測(cè)和質(zhì)量保證[3-5]。在這些應(yīng)用中,有許多因素會(huì)影響異常檢測(cè)的使用,如傳感器的移動(dòng)、環(huán)境條件(有利的或不利的)、環(huán)境的動(dòng)態(tài)性和能量約束。因此,異常檢測(cè)技術(shù)在實(shí)際應(yīng)用中的一個(gè)關(guān)鍵問題是如何將其推廣到具有動(dòng)態(tài)變化的在線數(shù)據(jù)流中。
文獻(xiàn)[6]提出了一類支持向量機(jī)(SVM,support vector machine)模型來發(fā)現(xiàn)WSN數(shù)據(jù)中的異?,F(xiàn)象。這種方法主要假設(shè)所有的訓(xùn)練數(shù)據(jù)都可以在傳感器上獲得,并且訓(xùn)練以批處理的方式進(jìn)行。盡管這些方法可以為正常數(shù)據(jù)提供良好的決策邊界,但它們對(duì)于每個(gè)傳感器有很高的計(jì)算開銷;文獻(xiàn)[7]提出了一種基于長(zhǎng)短期記憶網(wǎng)絡(luò)自編碼(LSTM-Autoencoder)的網(wǎng)絡(luò)流量異常檢測(cè)方法,將真實(shí)網(wǎng)絡(luò)流量從數(shù)據(jù)包和會(huì)話流級(jí)別兩方面提取數(shù)據(jù)特征,采用離散小波變換(DWT,discrete wavelet transform)分解原始特征向量得到更高維特征,用已訓(xùn)練的LSTM-Autoencoder模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行重構(gòu),通過分析重構(gòu)誤差分布確定檢測(cè)閾值。該方法的主要缺點(diǎn)首先是訓(xùn)練對(duì)數(shù)據(jù)中的噪聲敏感,其次很難理解是什么觸發(fā)了報(bào)告的異常;文獻(xiàn)[8-9]把超橢圓邊界用來建模系統(tǒng)的正常行為與批處理訓(xùn)練。這種方法允許訓(xùn)練數(shù)據(jù)中存在噪聲,并向用戶報(bào)告?zhèn)€別異常。然而,其超橢圓邊界是在一個(gè)訓(xùn)練周期上計(jì)算的,而且要求節(jié)點(diǎn)在訓(xùn)練期間將測(cè)量值保存在存儲(chǔ)器中,在訓(xùn)練結(jié)束時(shí)所有的測(cè)量值以批處理方式處理。盡管這些方法在計(jì)算上是高效的,但它們不能適應(yīng)環(huán)境中的變化,是一種靜態(tài)模型。作為比較,本文將這種方法稱為靜態(tài)數(shù)據(jù)捕獲異常檢測(cè)(SDCAD,static data capture anomaly detection);文獻(xiàn)[10]提出了一種基于四分之一超球SVM算法的異常數(shù)據(jù)檢測(cè)方法,利用從傳感器節(jié)點(diǎn)中收集到的原始數(shù)據(jù)建立支持向量機(jī)預(yù)測(cè)模型,并結(jié)合粒子群算法找出最佳參數(shù),然后利用最佳參數(shù)對(duì)原本的模型進(jìn)行優(yōu)化;文獻(xiàn)[11]提出了一種新的時(shí)間-空間-屬性單類超球面支持向量機(jī)來建模WSN中的異常事件檢測(cè)問題,并提出了在線和部分在線離群點(diǎn)檢測(cè)算法。但部分在線離群點(diǎn)算法在訓(xùn)練和更新時(shí)需要大量的計(jì)算;文獻(xiàn)[12]提出了一種累積和(CS,cumulative sum)算法來檢測(cè)網(wǎng)絡(luò)異常。盡管基于CS的異常檢測(cè)算法計(jì)算效率高,但基于其閾值的檢測(cè)機(jī)制通常不能準(zhǔn)確地建模正常行為;文獻(xiàn)[13]提出了數(shù)據(jù)流自回歸模型的迭代估計(jì),并采用CS作為在線異常檢測(cè);對(duì)于多維數(shù)據(jù)中的異常檢測(cè)是著名的批(子群)處理技術(shù),它采用馬氏距離[9,14-15]進(jìn)行異常檢測(cè);文獻(xiàn)[16]提出了一種基于改進(jìn)壓縮感知(CS,compressed sensing)重構(gòu)算法和智能優(yōu)化GM(1,1)的WSN異常檢測(cè)方法。首先通過建立雙層異質(zhì)WSN異常檢測(cè)模型,并采用壓縮感知技術(shù)對(duì)上層觀測(cè)節(jié)點(diǎn)收集到的下層檢測(cè)節(jié)點(diǎn)溫度測(cè)量數(shù)據(jù)進(jìn)行處理,同時(shí)結(jié)合溫度數(shù)據(jù)稀疏度未知特點(diǎn),構(gòu)造有效的稀疏矩陣和測(cè)量矩陣,并重新定義測(cè)量矩陣正交變換預(yù)處理策略,使得CS觀測(cè)字典滿足約束等距條件;其次,重新定義離散蜘蛛編碼方式,蜘蛛種群不斷協(xié)同進(jìn)化,以獲得稀疏結(jié)果中非零元素的位置信息,利用最小二乘法得到非零元素的幅度信息,實(shí)現(xiàn)對(duì)未知數(shù)量檢測(cè)節(jié)點(diǎn)數(shù)據(jù)的精確重構(gòu),在此基礎(chǔ)上采用蜘蛛種群迭代進(jìn)化得到優(yōu)化后GM(1,1)的參數(shù)序列,通過檢測(cè)參數(shù)序列的相關(guān)閾值來判定節(jié)點(diǎn)是否發(fā)生異常;文獻(xiàn)[17]提出了一種基于傳感器網(wǎng)絡(luò)時(shí)間序列數(shù)據(jù)的檢測(cè)方法,方法利用傳感器采集的K個(gè)正常數(shù)據(jù)的中位數(shù)建立樞軸量,構(gòu)造置信區(qū)間,并提出了一種計(jì)算數(shù)據(jù)區(qū)間差異度的方法來判斷發(fā)生異常的來源。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)傳感器網(wǎng)絡(luò)的異常數(shù)據(jù)檢測(cè)率保持在98%以上,誤報(bào)率保持在0.5%以下,具有一定的實(shí)用性;文獻(xiàn)[18]提出一種基于平衡迭代規(guī)約層次聚類(BIRCH,balanced iterative reducing and clustering using hierarchies)的WSN流量異常檢測(cè)方案。該方案在擴(kuò)充流量特征維度的基礎(chǔ)上,利用BIRCH算法對(duì)流量特征進(jìn)行聚類,并通過設(shè)計(jì)動(dòng)態(tài)簇閾值和鄰居簇序號(hào)優(yōu)化BIRCH聚類過程來提高算法的聚類質(zhì)量和性能魯棒性。進(jìn)一步設(shè)計(jì)了基于拐點(diǎn)的綜合判決機(jī)制,結(jié)合預(yù)測(cè),聚類結(jié)果對(duì)流量進(jìn)行異常檢測(cè),以保證方案的檢測(cè)準(zhǔn)確性;為了提高無線傳感網(wǎng)絡(luò)的魯棒性,針對(duì)目前的網(wǎng)絡(luò)漏洞檢測(cè)方法無法計(jì)算出相鄰節(jié)點(diǎn)的相對(duì)位置信息,存在無線傳感器網(wǎng)絡(luò)漏洞檢測(cè)誤差大的問題,文獻(xiàn)[19]提出了先利用覆蓋漏洞發(fā)現(xiàn)算法組建傳感器極點(diǎn)坐標(biāo),獲取最相近節(jié)點(diǎn)間位置信息,計(jì)算出任意節(jié)點(diǎn)被其最相近節(jié)點(diǎn)覆蓋的邊緣弧信息序列,然后得到對(duì)應(yīng)傳感器節(jié)點(diǎn)間需要增加的新傳感器數(shù)量,從而實(shí)現(xiàn)無位置信息的無線傳感器網(wǎng)絡(luò)漏洞檢測(cè)方法;文獻(xiàn)[20]針對(duì)WSN中傳感器自身安全性低、檢測(cè)區(qū)域惡劣及資源受限造成節(jié)點(diǎn)采集數(shù)據(jù)異常的問題,提出了一種基于圖信號(hào)處理的WSN異常節(jié)點(diǎn)檢測(cè)算法。算法首先依據(jù)傳感器位置特征建立-近鄰圖信號(hào)模型,然后基于圖信號(hào)在低通濾波前后的平滑度之比構(gòu)建統(tǒng)計(jì)檢驗(yàn)量,最后通過統(tǒng)計(jì)檢驗(yàn)量與判決門限實(shí)現(xiàn)異常節(jié)點(diǎn)存在性的判斷。通過在公開的氣溫?cái)?shù)據(jù)集與PM2.5數(shù)據(jù)集上的仿真驗(yàn)證結(jié)果表明,與基于圖頻域異常檢測(cè)算法相比,在單個(gè)節(jié)點(diǎn)異常情況相同條件下,所提出的算法檢測(cè)率提升了7個(gè)百分點(diǎn)。在多個(gè)節(jié)點(diǎn)異常情況相同條件下,其檢測(cè)率均達(dá)到98%,并且在網(wǎng)絡(luò)節(jié)點(diǎn)異常偏離值較小時(shí)仍具有較高的檢測(cè)率。
為了實(shí)現(xiàn)WSN中動(dòng)態(tài)數(shù)據(jù)流環(huán)境的異常檢測(cè),本文提出了一種迭代方法來建立超橢圓判決邊界,其中每個(gè)節(jié)點(diǎn)基于到當(dāng)前時(shí)間為止的測(cè)量值來調(diào)整其超橢圓模型,本文將提出的這種方法稱為動(dòng)態(tài)數(shù)據(jù)捕獲異常檢測(cè)(DDCAD,dynamic data capture anomaly detection)。當(dāng)邊界參數(shù)變化較小時(shí),DDCAD算法終止;同時(shí),還提出了一種遺忘因子方法來提高模型在非平穩(wěn)環(huán)境中的跟蹤能力;仿真實(shí)驗(yàn)結(jié)果表明,提出的方法通過適應(yīng)環(huán)境中的變化,在非平穩(wěn)環(huán)境中比現(xiàn)有的批處理方法能夠獲得更高的準(zhǔn)確性,更適合于實(shí)際應(yīng)用。
首先給出描述異常檢測(cè)超橢圓模型所需的定義。令Xk={x1,x2,…,xk}為一個(gè)WSN中的一個(gè)節(jié)點(diǎn)在時(shí)刻{t1,t2,…,tk}的前k個(gè)樣本,其中每個(gè)樣本是Rd中的一個(gè)d×1向量。向量中的每個(gè)元素表示由節(jié)點(diǎn)測(cè)量的感興趣的屬性,如溫度和相對(duì)濕度。Xk的樣本均值mk和樣本協(xié)方差Sk計(jì)算如下:
(1)
(2)
以具有協(xié)方差矩陣Sk的、以mk為中心的有效半徑t的超橢圓定義為:
(3)
超橢圓ek的邊界定義為:
(4)
定義1:將關(guān)于ek的單點(diǎn)一階異常定義為在其外面的任意數(shù)據(jù)向量x∈Rd,即對(duì)于ek來說:
(5)
已知節(jié)點(diǎn)在tk的樣本,要處理節(jié)點(diǎn)上的下一個(gè)樣本。在tk+1,我們記錄測(cè)量向量xk+1∈Rd。首先,用式(5)來測(cè)試xk+1,然后用它來增大ek。如果xk+1?ek,就聲明它是一個(gè)異常,并將它發(fā)送給基站進(jìn)行進(jìn)一步處理。特征矩陣迭代更新公式為:
(6)
(7)
我們采用S-1=I(其中I是單位陣),而不采用從前幾個(gè)樣本獲得的估計(jì)值來初始化迭代方法,因?yàn)榍皫讉€(gè)樣本通常會(huì)產(chǎn)生一個(gè)奇異的樣本協(xié)方差矩陣。
我們用正常和異常測(cè)量值來增大ek。假設(shè)大部分?jǐn)?shù)據(jù)都是正常的,因此可以抵消用異常測(cè)量值進(jìn)行更新的任何不希望的影響。然而,也可以設(shè)計(jì)更復(fù)雜的方法,以不同的方式處理異常。這時(shí)應(yīng)考慮異常是否是環(huán)境中的正常變化(漂移)。這類分析需要額外的輸入來確定異常的類型。
圖1 DDCAD序列ek收斂到其最終狀態(tài)e818=es
為了使DDCAD算法能夠跟蹤監(jiān)測(cè)環(huán)境中的數(shù)據(jù)變化,我們?yōu)榕f的測(cè)量值引入遺忘因子。通過引入遺忘因子0<λ
mk+1,λ=λmkλ+(1-λ)xk+1
(8)
對(duì)于k個(gè)樣本,采用指數(shù)遺忘因子λ的加權(quán)樣本協(xié)方差為:
(9)
首先要找到考慮遺忘因子的迭代協(xié)方差矩陣更新公式,然后得出特征矩陣的迭代更新公式。通過整理式(9),可以基于上一步的協(xié)方差矩陣加上一個(gè)更新值,寫出k+1時(shí)刻的協(xié)方差矩陣的更新公式。式(10)為協(xié)方差矩陣的一步更新:
(10)
將式(10)中的mk+1替換為式(8)中mk+1可得:
(11)
為了計(jì)算特征矩陣的更新公式,我們用矩陣逆引理式(12)來求兩個(gè)矩陣的和的逆。假設(shè)E是可逆的且B是一個(gè)方陣。注意,在本文中,E是一個(gè)數(shù),C和D是向量。將這個(gè)引理應(yīng)用到式(11)中,經(jīng)過重新整理,得到式(13):
(B+CED)-1=B-1-B-1C(E-1+DB-1C)-1DB-1
(12)
(13)
把用式(8)和式(13)對(duì)ek的更新序列稱為遺忘因子DDCAD(FFDDCAD,forgetting factor DDCAD)。
圖2 采用FFDDCAD在每次更新后特征矩陣的特征值
為了限制FFDDCAD更新公式中k的增長(zhǎng),可以在大小為w的滑動(dòng)窗口上采用FFDDCAD。為了提供比較基準(zhǔn),從窗口開始重新計(jì)算總體估計(jì),以便在每次輸入后得到準(zhǔn)確的FFDDCAD橢圓。對(duì)于在線算法來說,盡管這種方法的計(jì)算效率不高,但它提供了采用主動(dòng)測(cè)量值的超橢圓邊界的精確值(即在滑動(dòng)窗口中的測(cè)量值),并用作基準(zhǔn),作為比較在計(jì)算中限制大k效應(yīng)所提出的方法。
在這種方法中,為了解決跟蹤k較大的問題,當(dāng)k≥neff時(shí),我們簡(jiǎn)單地用不變的neff來代替式(13)中的k。其思想是在k≥neff后,分配給數(shù)據(jù)樣本的權(quán)重趨于0,即λk≌0,因此相應(yīng)的樣本幾乎被完全遺忘。在本文中,取neff=3τ,其中τ=1/(1-λ)為具有指數(shù)遺忘因子λ的迭代算法的記憶范圍?;鶞?zhǔn)方法和有效N跟蹤方法的示意如圖3所示。方框所示為在橢圓邊界計(jì)算中所考慮的樣本。在有效N跟蹤方法中,舊樣本的權(quán)重按指數(shù)下降。
1.英語(yǔ)中有些以a-為詞首的表語(yǔ)形容詞如asleep,awake,alive修飾名詞時(shí)須放在其所修飾的名詞后做后置定語(yǔ)。例如:
圖3 在樣本k和k+1的基準(zhǔn)方法和有效N方法的示意圖
在計(jì)算復(fù)雜度方面,SDCAD、DDCAD和FFDDCAD都需要對(duì)數(shù)據(jù)進(jìn)行一次遍歷,所以它們的計(jì)算復(fù)雜度都隨n線性增長(zhǎng),有漸近復(fù)雜度O(nd2);迭代方法(DDCAD和FFDDCAD)以在線處方式處理數(shù)據(jù),具有恒定的存儲(chǔ)復(fù)雜度,而SDCAD方法的存儲(chǔ)需求隨n線性增長(zhǎng);采用有效N跟蹤的FFDDCAD準(zhǔn)確性和效率使得其適合于在線流數(shù)據(jù)分析,特別是在WSN中。
本節(jié)首先給出在評(píng)價(jià)不同方法時(shí)采用的數(shù)據(jù)集,然后比較提出的采用有效N方法和基準(zhǔn)方法的FFDDCAD,并比較了兩種FFDDCAD方法在合成數(shù)據(jù)集上的檢測(cè)率和誤報(bào)率。在合成數(shù)據(jù)集中,將[-10 10]上的均勻噪聲隨機(jī)加入到1%的樣本中,并將這些樣本標(biāo)記為異常,而其他剩余的樣本視為正常。另一種比較方法是基于與提出的基準(zhǔn)方法的偏差而引入的,這種方法不需要標(biāo)記數(shù)據(jù)集,因此允許采用實(shí)際的數(shù)據(jù)集進(jìn)行比較。接下來,我們比較了FFDDCAD相比于SDCAD在異常檢測(cè)上的效果。最后,我們比較了本文提出的采用有效N方法的FFDDCAD與和文獻(xiàn)[13]中提出的變化檢測(cè)技術(shù)。
采用3個(gè)數(shù)據(jù)集來評(píng)價(jià)本文提出的異常檢測(cè)迭代模型,并將其與現(xiàn)有的靜態(tài)方法進(jìn)行比較。第一個(gè)數(shù)據(jù)集(稱為DS1)由某院校物聯(lián)網(wǎng)研究實(shí)驗(yàn)室的54個(gè)傳感器收集的測(cè)量數(shù)據(jù)構(gòu)成;第二個(gè)數(shù)據(jù)集(稱為DS2)是從部署在某市城市道路之間的23個(gè)交通傳感器收集的數(shù)據(jù);第三個(gè)數(shù)據(jù)集(稱為DS3)是由部署在某市小鎮(zhèn)的森林中的16個(gè)傳感站收集的數(shù)據(jù)。圖4為3個(gè)數(shù)據(jù)集的散點(diǎn)圖。
圖4 用于評(píng)價(jià)的數(shù)據(jù)集的散點(diǎn)圖
通過考慮具有不同正態(tài)分布N(∑1,μ1)和N(∑2,μ2)的M1和M2兩種模式的兩個(gè)合成數(shù)據(jù)集SDS1和SDS2如圖5所示。模式M1和M2的參數(shù)值如表1所示。M1為初始模式,M2為最終模式。M1的變換如下。
表1 用于生成合成數(shù)據(jù)集的兩個(gè)正態(tài)分布的參數(shù)
圖5 用于評(píng)價(jià)的合成數(shù)據(jù)集的散點(diǎn)圖
運(yùn)行第2節(jié)中提出的DDCAD方法,并將其與計(jì)算整個(gè)數(shù)據(jù)集的協(xié)方差矩陣和均值的批處理SDCAD方法[9]進(jìn)行比較。采用焦距(兩個(gè)橢圓之間的距離的量度)來檢查DDCAD的最終橢圓邊界與SDCAD的距離有多近。焦距考慮了兩個(gè)橢圓的形狀和位置,結(jié)果如圖6所示。圖6中點(diǎn)構(gòu)成的虛線橢圓為DDCAD得到的最終橢圓,實(shí)線構(gòu)成的橢圓為采用SDCAD方法得到的最終橢圓;可以看到,DDCAD算法和SDCAD算法的最終結(jié)果非常相似,兩個(gè)最終橢圓之間的焦距即FD(en,ens)非常小,對(duì)于DS1為0.001 6,DS2為0.001 4,DS3為0.002 4。這些小的距離并沒有對(duì)最終的邊界產(chǎn)生視覺上的明顯影響。
圖6 采用DDCAD和SDCAD得到的最終橢圓邊界與相應(yīng)的焦距
為了比較提出的跟蹤方法,我們首先用合成數(shù)據(jù)集來比較所提出的異常檢測(cè)模型的準(zhǔn)確性。對(duì)于基準(zhǔn)方法,考慮300個(gè)樣本的窗口大小。同樣,neff設(shè)置為300個(gè)樣本。表2所示為兩種跟蹤方法的檢測(cè)率和誤報(bào)率,其中DR表示檢測(cè)率,F(xiàn)A表示誤報(bào)率??梢?,有效N跟蹤方法具有與基準(zhǔn)方法相當(dāng)?shù)臏?zhǔn)確性。這說明有效N跟蹤方法是基準(zhǔn)方法的良好近似,neff可以代替跟蹤迭代公式中的k來當(dāng)解決k變大時(shí)的不穩(wěn)定性問題。
表2 不同跟蹤方法在合成數(shù)據(jù)集上的比較
我們對(duì)兩個(gè)合成數(shù)據(jù)集SDS1和SDS2比較采用有效N跟蹤方法的FFDDCAD和文獻(xiàn)[9]提出的SDCAD方法,得到的檢測(cè)率和誤報(bào)率如表3所示??梢姡诖矸瞧椒€(wěn)環(huán)境的這兩個(gè)數(shù)據(jù)集中,采用有效N跟蹤方法的FFDDCAD比批處理的SDCAD方法有更高的準(zhǔn)確性。這是因?yàn)橛糜谂幚韺W(xué)習(xí)的數(shù)據(jù)不是來自單個(gè)分布,所以正態(tài)性假設(shè)很弱,從而導(dǎo)致模型無法檢測(cè)異常。
表3 異常檢測(cè)能力的比較 %
本節(jié)比較了本文提出的FFDDCAD方法與文獻(xiàn)[13]的方法用于數(shù)據(jù)流的在線異常檢測(cè)。在數(shù)據(jù)流分析中,通常采用動(dòng)態(tài)預(yù)測(cè)模型和殘差分析(如CS)來檢測(cè)數(shù)據(jù)流中的變化或異常。為便于比較,我們不直接采用文獻(xiàn)[13]的方法,而是采用遞歸最小二乘(RLS,recursive least squares)迭代建立以濕度作為輸入(激勵(lì)信號(hào))的溫度預(yù)測(cè)的自回歸各態(tài)歷經(jīng)(ARX,autoregressive eXogenous)模型,階數(shù)為np=4,并對(duì)其殘差應(yīng)用CS來發(fā)現(xiàn)數(shù)據(jù)流的變化。FFDDCAD的定義是發(fā)現(xiàn)單點(diǎn)異常,并且可以很容易地修改來檢測(cè)變化點(diǎn)。當(dāng)FFDDCAD模型在數(shù)據(jù)流中發(fā)現(xiàn)na個(gè)連續(xù)的單點(diǎn)異常時(shí),它可以發(fā)出變化信號(hào)。
由于在實(shí)際的數(shù)據(jù)集中缺乏基本的真實(shí)性,這使得很難解釋變化的點(diǎn)。因此,這里我們僅采用DS1和兩個(gè)合成數(shù)據(jù)集來比較兩種方法的結(jié)果。ARX/RLS和FFDDCAD在初始狀態(tài)時(shí)都視為是不準(zhǔn)確的,因此,延遲采用這兩個(gè)模型對(duì)初始化后的前nd=50樣本進(jìn)行異常檢測(cè)。注意,在每個(gè)變化點(diǎn)之后,模型重置回其初始狀態(tài)。
圖7為ARX/RLS方法和FFDDCAD方法對(duì)于數(shù)據(jù)流變化檢測(cè)的結(jié)果,加號(hào)表示變化點(diǎn);可見,F(xiàn)FDDCAD方法和ARX/RLS方法對(duì)于DS1的性能是相當(dāng)?shù)?,但采用FFDDCAD方法可以檢測(cè)到更多的變化點(diǎn),表明FFDDCAD方法優(yōu)于ARX/RLS方法;而對(duì)于SDS1,ARX/RLS方法不能發(fā)現(xiàn)模式之間的變化點(diǎn),而FFDDCAD方法可以檢測(cè)到5個(gè)變化點(diǎn);在SDS2中,F(xiàn)FDDCAD方法可以檢測(cè)所有模式變化,而ARX/RLS方法僅檢測(cè)到一個(gè)模式變化;總之,F(xiàn)FDDCAD方法對(duì)于數(shù)據(jù)流變化的檢測(cè)始終優(yōu)于ARX/RLS方法。
圖7 ARX/RLS(左)與FFDDCAD(右)對(duì)于數(shù)據(jù)流分析和變化點(diǎn)檢測(cè)的比較
本文針對(duì)WSN中的異常檢測(cè)提出了一種迭代模型,其迭代性使得它更適合于流數(shù)據(jù)分析;此外,在模型中引入遺忘因子,使其適合于非平穩(wěn)環(huán)境;評(píng)價(jià)表明,提出的方法可以密切跟蹤環(huán)境中的變化,在非平穩(wěn)環(huán)境中能獲得比批處理方法更好的準(zhǔn)確性。同時(shí)在數(shù)據(jù)流的異常檢測(cè)中,本文提出的采用遺忘因子的FFDDCAD可以更好地檢測(cè)環(huán)境中的變化,計(jì)算復(fù)雜度也比目前先進(jìn)的方法更低。