許慶帥 孔貴琴 王學良 江南機電設計研究所
關鍵字:日志采集 分布式存儲 數(shù)據(jù)融合 攻擊樹推理
網(wǎng)絡安全態(tài)勢感知是實現(xiàn)網(wǎng)絡安全防御的前提,網(wǎng)絡安全態(tài)勢感知就是通過獲取網(wǎng)絡安全態(tài)勢要素,根據(jù)獲取的網(wǎng)絡安全要素識別出網(wǎng)絡攻擊行為。文獻[1]介紹了網(wǎng)絡日志類型及分類采集方式,提出了采用文件型日志采集和基于syslog 協(xié)議的日志采集兩種方法。文獻[2]介紹了基于Hadoop 的分布式存儲存儲架構(gòu),用于解決海量數(shù)據(jù)的存儲問題。文獻[3]介紹了多種融合算法,提出了一種決策級融合模型,該決策模型通過持續(xù)跟蹤網(wǎng)絡動態(tài)變化,實時選擇合適的融合算法,以對網(wǎng)絡狀態(tài)精確檢測。
根據(jù)系統(tǒng)網(wǎng)絡拓撲結(jié)構(gòu),在充分分析多種網(wǎng)絡攻擊手段的基礎上,研究基于多源日志的安全信息獲取、融合、分析、預警防御及效能評估的網(wǎng)絡安全感知及防御系統(tǒng)技術(shù)。具體研究方案如下圖所示:
圖1 網(wǎng)絡安全態(tài)勢感知及防御技術(shù)研究思路
基于多源日志的態(tài)勢感知要素獲取技術(shù)主要研究日志采集技術(shù)、數(shù)據(jù)預處理技術(shù)、海量日志數(shù)據(jù)存儲技術(shù)。
a)日志采集技術(shù)
下圖是某系統(tǒng)網(wǎng)絡拓撲結(jié)構(gòu)圖,本系統(tǒng)采用文件型日志采集(操作系統(tǒng))和基于syslog 協(xié)議的日志采集(網(wǎng)絡設備)兩種方法。對于采集到的海量日志數(shù)據(jù),考慮采用基于Hadoop 的分布式存儲方式進行存儲,而Hadoop 架構(gòu)在Linux 系統(tǒng)中運行狀態(tài)良好,并且網(wǎng)絡攻防系統(tǒng)也是在Linux下搭建的,因此,主機操作系統(tǒng)安裝Linux 操作系統(tǒng)。配置一臺高性能的計算作為網(wǎng)絡安全監(jiān)控中心,其他兩臺較低性能的計算機作為靶標計算機,網(wǎng)絡安全監(jiān)控中心和靶標計算機組成內(nèi)網(wǎng),網(wǎng)絡攻擊計算機組成外網(wǎng),在內(nèi)網(wǎng)和外網(wǎng)之間連接路由器、防火墻和入侵檢測設備。各設備利用日志采集器采集并預處理日志給日志服務器。日志服務器將預處理的日志數(shù)據(jù)通過網(wǎng)絡協(xié)議傳輸給網(wǎng)絡監(jiān)控中心。在采集器采集的過程中,加入日志完整性檢測模塊,對采集到的日志數(shù)據(jù)進行完整性和真實性檢測。
圖2 系統(tǒng)網(wǎng)絡拓撲結(jié)構(gòu)示意圖
b)日志數(shù)據(jù)預處理技術(shù)
數(shù)據(jù)預處理主要分為以下幾個步驟:數(shù)據(jù)清洗、數(shù)據(jù)約簡、數(shù)據(jù)合并、數(shù)據(jù)規(guī)范化。
1)數(shù)據(jù)清洗:填補缺失數(shù)據(jù)、過濾重復數(shù)據(jù)。
2)數(shù)據(jù)約簡:數(shù)據(jù)約簡技術(shù)可以得到數(shù)據(jù)集的屬性歸約表示,屬性減少,但仍接近于保持原數(shù)據(jù)的完整性。比較常用的數(shù)據(jù)簡約方法,本系統(tǒng)采用基于粗糙集理論的數(shù)據(jù)約簡方法,具體如下:
①根據(jù)已有的網(wǎng)絡安全規(guī)則集對采集的日志信息進行初始化分類,得到?jīng)Q策表S={V,C ∪D,v,f}。其中,V 為采集到的日志的集合,C ∪D 為初始化關鍵屬性集,v 為屬性C ∪D 指定的屬性值,f 為屬性和屬性值的對應關系。
②針對V 中的某個個體R,建立關于R 的目標函數(shù)。
f(R)=1-card(R)/card(V), card(R)=card(C)
f(R)=(1-card(R)/card(V))β, card(R)≠card(C)
其 中,card(R)為 個 體R 所 包 含 的 屬 性 個 數(shù),如 果card(R)=card(C),則個體R 存在的概率增強,如果card(R)≠card(C),β<1,個體R 存在的概率減弱。
③基于步驟二的優(yōu)選準則,采用遺傳算法或神經(jīng)網(wǎng)絡等尋優(yōu)算法,優(yōu)選出具有代表性的個體R,組成必要集D,D 包含C 的所有屬性,作為數(shù)據(jù)分類的輸入。
3)數(shù)據(jù)合并
數(shù)據(jù)合并是對重復的日志數(shù)據(jù)進行合并。數(shù)據(jù)合并的原則如下:
①對于數(shù)據(jù)約簡后的個體Ri 和Rj,如果Ri 包含的所有屬性都在Rj 包含的屬性集中能夠找到,則可以將個體Ri 刪除;
②如果個體Ri 和Rj 所包含的關鍵屬性相同,則可以將個體Ri 刪除。
4)數(shù)據(jù)規(guī)范化
數(shù)據(jù)規(guī)范化就是將不同數(shù)據(jù)格式的日志進行格式統(tǒng)一化處理,以使交給網(wǎng)絡監(jiān)控中心日志數(shù)據(jù)具有統(tǒng)一的格式。
XML 是一種采用文本標記描述數(shù)據(jù)的語言,具有靈活、開放、跨平臺、跨語種等的特點,因而被廣泛用于信息的表達和交換。網(wǎng)絡設備和安全設備對數(shù)據(jù)合并處理后,在發(fā)往網(wǎng)絡監(jiān)控設備之前,首先將數(shù)據(jù)格式轉(zhuǎn)換為XML文檔格式,然后按照syslog 協(xié)議將各設備生成的XML文檔傳輸?shù)骄W(wǎng)絡監(jiān)控中心。
c)基于Hadoop 的分布式存儲方法
網(wǎng)絡攻防平臺中每個計算機上安裝HDFS 文件系統(tǒng),用于實現(xiàn)基于Hadoop 的分布式存儲架構(gòu)。對每個計算機利用OpenStack 開發(fā)平臺分配一個中等配置虛擬機和多個低等配置虛擬機。支持數(shù)據(jù)的寫入和讀出。
信息融合包括數(shù)據(jù)層融合、特征層融合和決策層融合。表1 為信息融合級別對比情況。
表1 信息融合級別對比
在不同網(wǎng)絡設備、安全設備和主機上對采集的日志數(shù)據(jù)進行預處理即為日志信息的數(shù)據(jù)級融合。
網(wǎng)絡監(jiān)控中心對于收到的不同設備的日志數(shù)據(jù)進行特征級融合。在進行特征級融合之前,首先進行重復日志數(shù)據(jù)的合并。
由于日志屬性是對某一網(wǎng)絡行為的特點進行定性描述,不需要用精確的數(shù)量表示。因此,采用基于粗糙集理論的方法對關鍵日志屬性進行定性描述,建立日志屬性和網(wǎng)絡狀態(tài)的輸入輸出關系。日志數(shù)據(jù)特征級融合過程如下:
①首先對經(jīng)過數(shù)據(jù)合并后的每條日志進行屬性提??;
②將日志屬性離散化,建立決策表;
③將日志數(shù)據(jù)的屬性做為輸入,將網(wǎng)絡狀態(tài)作為輸出,采用數(shù)據(jù)挖掘技術(shù)(包括決策樹、遺傳算法、神經(jīng)網(wǎng)絡、機器學習、關聯(lián)規(guī)則、貝葉斯網(wǎng)絡等),建立網(wǎng)絡狀態(tài)與日志數(shù)據(jù)屬性的對應關系。
網(wǎng)絡安全態(tài)勢評估需要對網(wǎng)絡的安全性,包括正常,危險及危險程度實時識別并顯示。本文設計網(wǎng)絡安全評估過程如下:
①設網(wǎng)絡中有N 個節(jié)點,根據(jù)網(wǎng)絡節(jié)點被訪問的頻率和節(jié)點與其他節(jié)點的聯(lián)系緊密度,確定節(jié)點的重要程度為
②根據(jù)節(jié)點日志信息的屬性,推測網(wǎng)絡節(jié)點是否受到攻擊和攻擊的威脅程度,以此分配網(wǎng)絡節(jié)點安全威脅權(quán)重為
在檢測某個網(wǎng)絡節(jié)點的網(wǎng)絡安全威脅程度時,首先將檢測時間內(nèi)按時間間隔T 劃分多個時間段,檢測各個時間段內(nèi)記錄日志中出現(xiàn)某類屬性的次數(shù)統(tǒng)計在檢測時間內(nèi)的平均值標準差利用準則對網(wǎng)絡安全威脅程度進行判斷,判斷標準如下:
本方案根據(jù)系統(tǒng)網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)絡安全態(tài)勢感知及防御系統(tǒng)進行總體設計,并對網(wǎng)絡安全要素的獲取、數(shù)據(jù)融合、安全評估進行了研究,明確了研究思路和研究方法。