李煥云 王勝杰
摘要:針對(duì)常規(guī)異常檢測(cè)方法聚合數(shù)據(jù)流數(shù)據(jù)時(shí)誤判率較大的問(wèn)題,設(shè)計(jì)一種基于數(shù)據(jù)建模的數(shù)據(jù)流異常檢測(cè)方法。計(jì)算各個(gè)數(shù)據(jù)個(gè)體之間的歐幾里度量參數(shù),規(guī)范化處理異常數(shù)據(jù)流數(shù)據(jù),設(shè)定數(shù)據(jù)流中的判斷節(jié)點(diǎn),利用數(shù)據(jù)建模技術(shù)判斷數(shù)據(jù)狀態(tài),規(guī)范化處理異常數(shù)據(jù)流數(shù)據(jù),采用臨近采樣方法在設(shè)定的數(shù)據(jù)集節(jié)點(diǎn)處構(gòu)建一個(gè)檢測(cè)窗口,設(shè)定檢測(cè)周期后,最終實(shí)現(xiàn)對(duì)異常數(shù)據(jù)流的檢測(cè)。準(zhǔn)備實(shí)驗(yàn)數(shù)據(jù)集,設(shè)定各個(gè)數(shù)據(jù)集間的間隔周期,模擬數(shù)據(jù)流結(jié)構(gòu),準(zhǔn)備兩種常規(guī)檢測(cè)方法以及設(shè)計(jì)檢測(cè)方法進(jìn)行實(shí)驗(yàn),結(jié)果表明:設(shè)計(jì)的異常檢測(cè)方法誤判率數(shù)值最小。
關(guān)鍵詞:數(shù)學(xué)建模;數(shù)據(jù)流;異常檢測(cè);誤判率
中圖分類號(hào):TP393? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)33-0144-02
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
數(shù)據(jù)建模是將各類數(shù)據(jù)處理為一個(gè)抽象組織,在確定管轄范圍后,采用固定的組織形式將數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)處理工具的過(guò)程。使用數(shù)學(xué)建模內(nèi)置的二維或是三維數(shù)字關(guān)系,搭建多個(gè)邏輯關(guān)系,采用該邏輯關(guān)系表述數(shù)據(jù)結(jié)構(gòu)間的關(guān)系。數(shù)據(jù)流是一組有序的數(shù)據(jù)序列,內(nèi)置數(shù)據(jù)起點(diǎn)以及數(shù)據(jù)終點(diǎn)字節(jié),在輸入流和輸出流的控制下,形成一個(gè)特定的數(shù)據(jù)處理過(guò)程[1-3]。為此,在數(shù)據(jù)建模技術(shù)的支持下,構(gòu)建一種數(shù)據(jù)流異常檢測(cè)方法是很有必要的。國(guó)外在研究數(shù)據(jù)流異常檢測(cè)起步較早,在數(shù)據(jù)庫(kù)技術(shù)的支持下,率先建立了一種訪問(wèn)系統(tǒng),并設(shè)計(jì)得到了入侵檢測(cè)方法。國(guó)內(nèi)在研究異常檢測(cè)方法起步較晚,結(jié)合人工智能技術(shù),研究得到了多種檢測(cè)方法。
1 基于數(shù)學(xué)建模的數(shù)據(jù)流異常檢測(cè)方法
1.1 規(guī)范化處理異常數(shù)據(jù)流數(shù)據(jù)
數(shù)據(jù)流內(nèi)的數(shù)據(jù)由多個(gè)屬性的數(shù)據(jù)構(gòu)成,對(duì)應(yīng)的數(shù)據(jù)有著不同的數(shù)據(jù)格式以及設(shè)計(jì)單位,所以在檢測(cè)異常數(shù)據(jù)流時(shí),應(yīng)規(guī)范化處理數(shù)據(jù)流中的數(shù)據(jù)[4]。在規(guī)范化處理前,計(jì)算各個(gè)數(shù)據(jù)個(gè)體之間的歐幾里度量參數(shù),并根據(jù)該度量參數(shù)的數(shù)值,計(jì)算各個(gè)數(shù)據(jù)個(gè)體間的相似度,采用Z-score規(guī)范化處理方式處理數(shù)據(jù)流中的各項(xiàng)數(shù)據(jù)后,線性變換數(shù)據(jù)流中的原始數(shù)據(jù),保持?jǐn)?shù)據(jù)流中原始數(shù)據(jù)間的大小數(shù)值關(guān)系,假設(shè)屬性數(shù)值的標(biāo)準(zhǔn)差后,標(biāo)定屬性一個(gè)有意義的最大值,標(biāo)定為不同的維度參數(shù)后,形成多個(gè)維度數(shù)據(jù)空間。為了保證數(shù)據(jù)流的正常處理流程,消除數(shù)據(jù)信息流中的干擾,利用統(tǒng)計(jì)概率處理方法計(jì)算數(shù)據(jù)流中的標(biāo)準(zhǔn)信息熵,可表示為:
[h(x)=-i=1np(xi)n]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
其中,[p(xi)]表示標(biāo)準(zhǔn)最大值對(duì)應(yīng)的函數(shù),[n]表示數(shù)據(jù)空間的維度數(shù)值。當(dāng)計(jì)算得到信息熵的數(shù)值大于零時(shí),則表示數(shù)據(jù)流處于一個(gè)穩(wěn)定狀態(tài)。在該種穩(wěn)定狀態(tài)下,將數(shù)據(jù)流空間內(nèi)的節(jié)點(diǎn)劃分為不同處理順序的數(shù)據(jù)節(jié)點(diǎn),整合為不同集合的數(shù)據(jù)組后,應(yīng)用數(shù)據(jù)建模技術(shù),判斷各個(gè)數(shù)據(jù)組中數(shù)據(jù)流的狀態(tài)。
1.2 利用數(shù)學(xué)建模判斷數(shù)據(jù)狀態(tài)
使用上述得到的數(shù)據(jù)集,在劃分?jǐn)?shù)據(jù)集的數(shù)據(jù)分界處,設(shè)定不同的數(shù)據(jù)節(jié)點(diǎn),以該節(jié)點(diǎn)作為狀態(tài)判斷點(diǎn)。使用該節(jié)點(diǎn)周圍的兩個(gè)數(shù)據(jù)組作為處理對(duì)象,采用距離計(jì)算方式,使用各個(gè)數(shù)據(jù)集中通用的屬性數(shù)據(jù),計(jì)算通用數(shù)據(jù)間的距離,采用數(shù)據(jù)建模方法描述數(shù)據(jù)為一個(gè)狀態(tài)數(shù)據(jù)集,隨機(jī)選定一個(gè)數(shù)據(jù)點(diǎn),計(jì)算該點(diǎn)與設(shè)定節(jié)點(diǎn)間的距離,當(dāng)該距離數(shù)值在預(yù)先設(shè)定的參數(shù)數(shù)值之間,則表示該數(shù)值為正常狀態(tài),當(dāng)該數(shù)值在設(shè)定的參數(shù)數(shù)值之外,則表示對(duì)應(yīng)處理的數(shù)據(jù)集為異常狀態(tài)[5]。
為了增強(qiáng)判斷數(shù)據(jù)狀態(tài)時(shí)的精準(zhǔn)性,在預(yù)先設(shè)定參數(shù)時(shí),應(yīng)在劃分的數(shù)據(jù)集中定義一個(gè)局部異常因子,使用數(shù)據(jù)密度參數(shù)作為該局部異常因子的約束值,采用數(shù)學(xué)描述方法將給定的數(shù)據(jù)點(diǎn)處理為一個(gè)衡量數(shù)值,假設(shè)該衡量數(shù)值明顯不同于局部平均數(shù)值,則認(rèn)定該數(shù)據(jù)集對(duì)應(yīng)的數(shù)據(jù)流存在異常,異常數(shù)據(jù)狀態(tài)判斷后,針對(duì)該部分異常數(shù)據(jù),構(gòu)建檢測(cè)過(guò)程。
1.3 實(shí)現(xiàn)對(duì)異常數(shù)據(jù)流的檢測(cè)
基于上述處理過(guò)程,采用臨近采樣方法在設(shè)定的數(shù)據(jù)集節(jié)點(diǎn)處不斷采集數(shù)據(jù),并構(gòu)建一個(gè)滑動(dòng)窗口,在采集的數(shù)據(jù)流處,建立一個(gè)數(shù)據(jù)密度估算數(shù)值關(guān)系,可表示為:
[f(x)=1Sct=1kxt]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
其中,[Sc]表示采樣參數(shù),[xt]表示數(shù)據(jù)密度函數(shù),[k]表示滑動(dòng)周期。在上述數(shù)值關(guān)系內(nèi),確定一個(gè)簇首數(shù)值,在密度數(shù)值返回各數(shù)據(jù)集中處理時(shí),設(shè)定一個(gè)返回周期,按照不同的時(shí)間尺度,不斷替換密度數(shù)值中的正常數(shù)據(jù)流中的數(shù)據(jù)。
為了消除檢測(cè)過(guò)程中產(chǎn)生的誤判,在簇首節(jié)點(diǎn)處下傳一個(gè)全局分布參考數(shù)值,數(shù)據(jù)流節(jié)點(diǎn)結(jié)合該信息區(qū)分?jǐn)?shù)據(jù)集內(nèi)的有效數(shù)據(jù),構(gòu)建一個(gè)滑動(dòng)區(qū)分窗口,當(dāng)存在節(jié)點(diǎn)進(jìn)入該滑動(dòng)窗口時(shí),自動(dòng)觸發(fā)計(jì)算窗口處理數(shù)據(jù)集的密度,并更新為下一個(gè)檢測(cè)窗口,不斷循環(huán)處理形成一個(gè)自動(dòng)處理過(guò)程。對(duì)應(yīng)多個(gè)檢測(cè)狀態(tài),定義上述檢測(cè)過(guò)程的異常概率,計(jì)算異常狀態(tài)下的數(shù)據(jù)流相關(guān)性,并將該統(tǒng)計(jì)特征處理為一個(gè)聯(lián)合參數(shù),控制該聯(lián)合參數(shù)在檢測(cè)窗口中的比例,對(duì)應(yīng)不同的比例數(shù)值,設(shè)定不同條件下的檢測(cè)常量,在該檢測(cè)常量的控制下,構(gòu)建一個(gè)連續(xù)的數(shù)據(jù)流異常檢測(cè)過(guò)程,綜合上述處理,最終完成對(duì)基于數(shù)據(jù)建模的數(shù)據(jù)流異常檢測(cè)方法的構(gòu)建。
2 對(duì)比實(shí)驗(yàn)
2.1 實(shí)驗(yàn)準(zhǔn)備
采用KDDCUP-99數(shù)據(jù)集作為處理對(duì)象,選定數(shù)據(jù)集中500個(gè)數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,將正常網(wǎng)絡(luò)訪問(wèn)數(shù)據(jù)作為數(shù)據(jù)流正常數(shù)據(jù),將異常訪問(wèn)狀態(tài)下的測(cè)試數(shù)據(jù)作為異常數(shù)據(jù)流處理對(duì)象。在實(shí)際處理過(guò)程中,將不同種異常網(wǎng)絡(luò)數(shù)據(jù)看作為相同異常狀態(tài),在標(biāo)記異常數(shù)據(jù)組后,選定100組測(cè)試數(shù)據(jù)作為異常數(shù)據(jù)流,將400組數(shù)據(jù)作為正常數(shù)據(jù)流。設(shè)定每組數(shù)據(jù)在檢測(cè)時(shí)的采樣節(jié)點(diǎn),在每四組正常數(shù)據(jù)內(nèi)安置一個(gè)異常數(shù)據(jù),并設(shè)定數(shù)據(jù)組成數(shù)據(jù)集間隔數(shù)值,設(shè)定的間隔數(shù)值如表1所示。
在表1設(shè)定的間隔數(shù)值控制下,將上述數(shù)據(jù)形成的數(shù)據(jù)流,整合為下表所示的數(shù)據(jù)特征,并對(duì)應(yīng)不同的數(shù)據(jù)特征,設(shè)定不同的轉(zhuǎn)化參數(shù)。并使用設(shè)定的屬性數(shù)據(jù)對(duì)應(yīng)設(shè)定的轉(zhuǎn)換參數(shù)后,準(zhǔn)備兩種常規(guī)異常檢測(cè)方法與設(shè)計(jì)的異常檢測(cè)方法進(jìn)行測(cè)試,對(duì)比三種檢測(cè)方法的性能。
2.2 結(jié)果及分析
基于上述實(shí)驗(yàn)準(zhǔn)備,控制三種異常檢測(cè)方法從安插節(jié)點(diǎn)YCSJ-01-01開(kāi)始檢測(cè),并將其作為起始時(shí)間統(tǒng)計(jì)點(diǎn),統(tǒng)計(jì)三種檢測(cè)方法的運(yùn)行時(shí)間,運(yùn)行時(shí)間結(jié)果如下表2所示。
由表2可知,與兩種常規(guī)檢測(cè)方法相比,設(shè)計(jì)的檢測(cè)方法檢測(cè)所需的時(shí)間最短,時(shí)效性最強(qiáng)。
在上述實(shí)驗(yàn)環(huán)境下,定義檢測(cè)方法的檢測(cè)誤判率為誤檢數(shù)據(jù)占據(jù)正常數(shù)據(jù)的比例,統(tǒng)計(jì)不同數(shù)據(jù)周期下,三種檢測(cè)方法實(shí)際產(chǎn)生的檢測(cè)誤判率,實(shí)驗(yàn)結(jié)果如下表3所示.
由表3可知,與兩種常規(guī)檢測(cè)方法相比,設(shè)計(jì)得到的檢測(cè)方法產(chǎn)生的誤判率數(shù)值最小,能夠正確檢測(cè)多種數(shù)據(jù)。
3 結(jié)束語(yǔ)
隨著數(shù)據(jù)處理技術(shù)的發(fā)展,數(shù)據(jù)流形式逐漸豐富,產(chǎn)生的異常數(shù)據(jù)流逐漸成為當(dāng)下的研究熱點(diǎn),在數(shù)據(jù)建模技術(shù)的支持下,構(gòu)建一種異常檢測(cè)方法,能夠改善常規(guī)檢測(cè)方法存在的不足,為今后研究檢測(cè)異常數(shù)據(jù)流提供研究依據(jù)。
參考文獻(xiàn):
[1] 楊杰,張東月,周麗華,等.基于網(wǎng)格耦合的數(shù)據(jù)流異常檢測(cè)[J].計(jì)算機(jī)工程與科學(xué),2020,42(1):25-35.
[2] 鄧麗,劉慶連,鄔群勇,等.基于數(shù)據(jù)流時(shí)空特征的WSN異常檢測(cè)及異常類型識(shí)別[J].傳感技術(shù)學(xué)報(bào),2019,32(9):1374-1380.
[3] 杜臻,馬立鵬,孫國(guó)梓.一種基于小波分析的網(wǎng)絡(luò)流量異常檢測(cè)方法[J].計(jì)算機(jī)科學(xué),2019,46(8):178-182.
[4] 徐曉丹,姚明海,劉華文.基于稀疏表征的異常點(diǎn)檢測(cè)方法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,48(7):20-25.
[5] 董書(shū)琴,張斌.基于深度特征學(xué)習(xí)的網(wǎng)絡(luò)流量異常檢測(cè)方法[J].電子與信息學(xué)報(bào),2020,42(3):695-703.
【通聯(lián)編輯:張薇】