吳詠曄
摘要:當(dāng)前,我國網(wǎng)絡(luò)安全保護進入以關(guān)鍵信息基礎(chǔ)設(shè)施安全保護為重點的新階段?!蛾P(guān)鍵信息基礎(chǔ)設(shè)施安全保護條例》明確了關(guān)鍵信息基礎(chǔ)設(shè)施的具體范圍和判斷標(biāo)準(zhǔn),即一旦遭到破壞、喪失功能或者數(shù)據(jù)泄露,可能嚴(yán)重危害涉及國家安全、國計民生、公共利益的重要網(wǎng)絡(luò)設(shè)施和信息系統(tǒng)。因此在網(wǎng)絡(luò)運行時,進行安全檢測并及時提供預(yù)警信息對保障網(wǎng)絡(luò)安全正常運行十分重要。本文重點就網(wǎng)絡(luò)安全檢測中的數(shù)據(jù)額挖掘技術(shù)進行了分析。
關(guān)鍵詞:數(shù)據(jù)挖掘;網(wǎng)絡(luò)安全檢測;隱馬爾科夫模型
無論從網(wǎng)絡(luò)安全理論還是實踐看,網(wǎng)絡(luò)攻擊都是無法完全避免的,因此只能通過安全保護能力的提升來盡可能延長攻擊成功的時間,同時通過協(xié)同機制盡可能加快風(fēng)險檢測和風(fēng)險處置的時間。構(gòu)建立體化的綜合防控體系,旨在通過共享情報、掌握全局態(tài)勢、貫通多級指揮調(diào)度,快速處置有組織、大規(guī)模的網(wǎng)絡(luò)攻擊事件。隨著相關(guān)研究的不斷深入,繼防火墻之后的入侵檢測系統(tǒng)成為常用的防護手段之一。入侵檢測是通過收集和分析網(wǎng)絡(luò)行為、完全日志、審計數(shù)據(jù)等網(wǎng)絡(luò)信息以及計算機系統(tǒng)中若干關(guān)鍵點的信息來檢查網(wǎng)絡(luò)或系統(tǒng)中是否存在不安全行為或被攻擊的跡象,其安全防護得以實現(xiàn)的關(guān)鍵是從獲取的信息中提取出有代表性的入侵模式,而隨著操作系統(tǒng)的日益復(fù)雜化,網(wǎng)絡(luò)流量的迅速增加,入侵檢測的審計數(shù)據(jù)也急劇增加,面對著海量數(shù)據(jù)信息中存在的大量冗余信息,傳統(tǒng)的數(shù)據(jù)檢索和統(tǒng)計分析的方法已經(jīng)不能滿足數(shù)據(jù)信息有效篩選和提取的要求。
1.數(shù)據(jù)挖掘技術(shù)分析
數(shù)據(jù)挖掘是數(shù)據(jù)庫知識(KDD,Knowledge Discover in Database)中的一個步驟,它能從數(shù)據(jù)庫大量的數(shù)據(jù)中,通過自動搜索、分析、歸納將其中隱含的、先前未知并有潛在價值的信息揭示出來,挖掘出數(shù)據(jù)中的潛在模式。數(shù)據(jù)挖掘有直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘兩類,其主要是通過對數(shù)據(jù)的分類、估計、預(yù)測、相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚類、描述和可視化,及復(fù)雜數(shù)據(jù)類型挖掘的方法.完成數(shù)據(jù)的挖掘。數(shù)據(jù)挖掘在確定對象之后,通過對數(shù)據(jù)的選擇、預(yù)處理和轉(zhuǎn)換的準(zhǔn)備工作。對經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行自動挖掘,并對結(jié)果進行評估和分析,最后將分析得到的知識同化集成到業(yè)務(wù)信息系統(tǒng)中。利用此技術(shù)來構(gòu)建人侵檢測模型.能很好地適應(yīng)數(shù)據(jù)增大的趨勢,提高入侵檢測的精確性,同時基于機器學(xué)習(xí)的檢測模型,對已知攻擊模式變種或新型攻擊有較好的適應(yīng)性。
2.網(wǎng)絡(luò)安全檢測中數(shù)據(jù)挖掘技術(shù)應(yīng)用
2.1網(wǎng)絡(luò)異常檢測
目前入侵檢測技術(shù)常用的有基于誤用(Misused)的檢測和基于異常(Anomaly)的檢測兩種。誤用檢測是建立能夠描述每一種供給的特殊模式的樣本,通過對樣本進行訓(xùn)練來實現(xiàn)對網(wǎng)絡(luò)安全的監(jiān)測。誤用檢測的查準(zhǔn)率高,能詳細提供每一種攻擊的類型和說明,在入侵檢測系統(tǒng)中的應(yīng)用較為廣泛。但由于其需要依靠人為的預(yù)先設(shè)定報警規(guī)則才能實現(xiàn)檢測,只能檢測已知攻擊,一旦攻擊者改變特征模式。這種檢測方法往往無法辨別出來,且要維護攻擊模式庫的成本較為昂貴。
異常檢測(Anomaly Detection)是是通過建立流量的正常行為模型來判斷網(wǎng)絡(luò)是否出現(xiàn)異常.其基礎(chǔ)是反?;顒雍陀嬎銠C不正當(dāng)使用之間的相關(guān)性.利用異常檢測能夠更好地解決誤用檢測中存在的問題。
2.2基于隱馬爾科夫的網(wǎng)絡(luò)異常檢測
隱馬爾科夫模型是一種用參數(shù)表示用于描述隨機過程的統(tǒng)計分析模型。是馬爾科夫鏈的一種,其既具有一定狀態(tài)數(shù)的隱馬爾科夫鏈還具顯示隨機函數(shù)集,一個完整的HMM包含有隱含狀態(tài)(N)、可觀測狀態(tài)(M)、初始狀態(tài)概率矩陣(TT)、隱含狀態(tài)轉(zhuǎn)移概率矩陣(A)和觀測狀態(tài)轉(zhuǎn)移概率矩陣(B)五項元素,其能夠利用收集的訓(xùn)練樣本進行自適應(yīng)學(xué)習(xí),在使用其對一個問題進行解釋時,須解決評估、解碼和學(xué)習(xí)三個基本問題。
2.2.1入侵檢測系統(tǒng)構(gòu)建
TCP(Transmission Control Protocol,傳輸控制協(xié)議)數(shù)據(jù)包是網(wǎng)絡(luò)入侵檢測中使用的基本數(shù)據(jù)參數(shù),TCP建立一個連接需要三次握手,而在描述這三次握手時,馬爾科夫模型只能描述服務(wù)器(Server)與客戶端(Client)的狀態(tài)轉(zhuǎn)移概率,而不能對其進行很好的抽象,HMM則增加了對觀測值概率的描述,能更好地對TCP的執(zhí)行過程進行描述,因而利用HMM以正常網(wǎng)絡(luò)情況下TCP協(xié)議標(biāo)志變化為樣本參數(shù)建立的特征庫體積更小,能更好地提高入侵檢測系統(tǒng)的實時性。應(yīng)用隱馬爾科夫模型建立基于異常檢測的入侵檢測系統(tǒng)共包括數(shù)據(jù)處理、數(shù)據(jù)訓(xùn)練、評估算法模塊和響應(yīng)模塊四大模塊,其中數(shù)據(jù)處理模塊又包括數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理。在構(gòu)建系統(tǒng)時首先運用HMM算法對訓(xùn)練數(shù)據(jù)集進行訓(xùn)練,建立起基于HMM的正常網(wǎng)絡(luò)行為特征模型,采集的TCP數(shù)據(jù)流進人數(shù)據(jù)包預(yù)處理模塊后由其進行提取并轉(zhuǎn)化,將數(shù)據(jù)流化為模型能夠識別模式,由評估算法模塊根據(jù)建立起的正常網(wǎng)絡(luò)模型對其進行檢測,如檢測出異常則進行網(wǎng)絡(luò)攻擊報警,如無異常,則放行。
2.2.2網(wǎng)絡(luò)攻擊檢測實驗
利用建立起的入侵檢測系統(tǒng),以DARPA1999數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),從數(shù)據(jù)中隨機抽取3000條包含SYN Flood攻擊和Land攻擊的兩類攻擊和正常的連接記錄,在以20臺計算機構(gòu)成的局域網(wǎng)環(huán)境下進行實驗,使用網(wǎng)絡(luò)攻擊檢測率、誤報率和漏報率作為參數(shù),對基于異常檢測的入侵檢測系統(tǒng)進行性能測試.其持續(xù)攻擊1分鐘和5分鐘的檢測率均在99%以上。誤報率、漏報率均在0.3%以下,驗證了此系統(tǒng)具有較高的性能。
3.結(jié)束語
利用隱馬爾科夫模型建立的基于異常檢測的入侵檢測系統(tǒng)的特征庫體積較小,能較好地節(jié)省系統(tǒng)存儲空間,且能利用機器學(xué)習(xí)對未知類型的網(wǎng)絡(luò)攻擊行為進行檢測,具有較高的檢測率和實時性。
參考文獻:
[1]孟祥文.網(wǎng)絡(luò)數(shù)據(jù)庫安全檢測與管理程序設(shè)計實現(xiàn)[J].計算機應(yīng)用與軟件,2020,(2).
[2]佟忠賀.P2P網(wǎng)絡(luò)的關(guān)鍵技術(shù)與應(yīng)用[J].中國科技博覽,2019,(12).