劉 蘭,林 軍
(1.廣東技術師范學院,廣東 廣州 510655,2.工業(yè)和信息化部電子第五研究所,廣東 廣州 510610)
大數據環(huán)境下安全海量規(guī)則分析技術研究
劉 蘭1,林 軍2
(1.廣東技術師范學院,廣東 廣州 510655,2.工業(yè)和信息化部電子第五研究所,廣東 廣州 510610)
大數據環(huán)境下異構的網絡安全設備會產生海量的安全事件,本文針對大數據具有的數據量巨大、查詢分析復雜的特點,分析面向大數據的網絡安全海量規(guī)則分析處理的相關技術,提出對各類數據源進行清洗整合,通過安全事件的關聯分析,對安全規(guī)則建立描述模型,提出安全事件海量規(guī)則的模糊等量約束的因果關聯算法和時空同現模式挖掘安全事件的規(guī)則間關聯算法.
大數據;關聯分析;規(guī)則;時空同現
1.1 大數據分析為信息安全帶來機遇
大數據分析為信息安全領域的發(fā)展帶來了新的挑戰(zhàn)和機遇,在信息安全領域可以歸納為兩個方面:首先是從宏觀上來說我們需要感知網絡安全的整體態(tài)勢,其次我們需要從微觀上發(fā)現大數據環(huán)境下的具體安全問題[1].
宏觀上大數據的信息安全主要表現為利用大數據分析技術的特點,例如并行計算、海量存儲和高效查詢等,我們可以實現規(guī)模巨大的異構網絡中安全事件的關鍵數據的有效獲取,在此基礎上對核心數據進行實時關聯分析,根據分析結果建立信息安全評價模型,依據模型指標評估網絡行為,發(fā)現網絡的異常事件,從而對網絡安全進行全局的預警并進行防范.
微觀上大數據信息安全應用指的是從安全信息數據中發(fā)現具體的安全事件,例如蠕蟲、DDOS或 APT攻擊.系統(tǒng)可以收集網絡中的主機、關鍵服務器和交換機節(jié)點上的流量數據和日志信息,對數據利用大數據分析進行去冗余、數據清洗、歸一化和特征分析及關聯,確定安全事件的具體種類,檢測和還原出具體的安全事件場景,從而及時、動態(tài)的發(fā)現各類安全事件,保護整體網絡的安全.
1.2 網絡安全海量規(guī)則處理優(yōu)勢
因為大數據技術的出現,我們可以跳出信息安全領域以往的 PDR2被動防護體系:防護(Protection)、檢測(Detection)、響應(Reaction)、恢復(Restore),主動發(fā)現網絡中潛在的安全風險,其優(yōu)勢主要表現為:
(1)分析范圍更大
在網絡安全規(guī)則處理中,引入大數據技術,能夠全面的找出針對重要資產的攻擊行為.我們可以通過分析面向不同信息資產的業(yè)務數據,發(fā)現其業(yè)務數據模式,從而找出異常操作行為,判斷這些異常操作是否會進一步危害網絡.這在傳統(tǒng)的規(guī)則分析中是不會涉及到的.因此,大數據分析技術對數據范圍分析的擴大使得對網絡安全的監(jiān)控更為細致和全面.
(2)處理數據時間跨度更長
由于計算機處理能力的限制,以往的安全規(guī)則分析一般都是跟系統(tǒng)的內存相關的,實時的異常分析系統(tǒng)通過探測器采集網絡中的數據,比對系統(tǒng)的規(guī)則庫來發(fā)現攻擊.這樣的規(guī)則匹配技術其分析能力取決于內存的大小,對于時間跨度比較大的慢攻擊往往不能鑒別.通過大數據分析,我們可以進行海量規(guī)則的處理,分析時間跨度較大的數據,有效的發(fā)現和處理隱蔽性和持續(xù)性較強的慢攻擊行為,使系統(tǒng)具備更強的安全事件處理能力.
(3)對安全事件的預測能力
網絡安全行業(yè)的傳統(tǒng)防護技術大部分是在事件發(fā)生之后才能對安全事件進行相應的歸類,而大數據時代,網絡安全海量規(guī)則分析的目的是通過已經發(fā)生的事件的特征,預測網絡中發(fā)生的安全事件及安全態(tài)勢,并通過實時分析從全局的角度來考慮安全事件對整體安全環(huán)境的影響.
(4)對未知威脅的檢測能力
原有的威脅分析一般有專業(yè)人員依據個人從業(yè)經驗進行信息的分析和判斷,這依賴于信息安全分析師的已有經驗和網絡系統(tǒng)的實際情況.而大數據分析技術則是通過大規(guī)模數據的關聯分析,建立各類安全威脅的分析模型,通過數據挖掘的方式來實現對未知威脅的檢測[2、3].
大數據分析擅長的場景是人們對于數據中的目標幾乎一無所知,而是通過其中的一些相關數據進行分析,其產生的結果數據遠大于數據的簡單疊加.大數據環(huán)境下安全海量規(guī)則分析系統(tǒng)中最關鍵的模塊為安全事件的關聯分析.異構的網絡環(huán)境中各類網絡設備及安全設備產生海量安全數據,對于信息安全的數據挖掘技術,國內外學者有著很多研究成果,比如:貝葉斯網絡推理理論、支持向量機 SVM、決策樹、人工神經網絡等[4].這些建模方法的做法通常是從數據中抽取出最突出的特征來代替原始數據,并將剩余內容忽略.在大數據環(huán)境下,安全海量規(guī)則分析系統(tǒng)的數據處理能力已經不是系統(tǒng)的瓶頸了,我們將從建模、算法等方面進行考慮,在不損失數據價值的前提下規(guī)范分析數據,并對核心數據進行數據關聯分析,發(fā)現海量安全數據中的異常事件,及時對網絡態(tài)勢預警.
2.1 數據特點
大數據環(huán)境下的安全數據有個非常獨特的特點:安全數據不僅僅只在網絡終端,而且也還表現在網絡的各種不同層次和位置,如網絡服務器、網站、BBS等網絡內容發(fā)布和支持場所.這就需要我們從多個角度(多維度),多種層次(多粒度)的主動搜索采集數據.將各種網絡設備的原始流量以及各終端和服務器上的日志,保存在大數據平臺上,然后進行集中的海量數據存儲和深入分析,可以在發(fā)現網絡安全事件的一點蛛絲馬跡后,通過全面分析這些海量數據來還原整個安全事件的場景.
通過典型的大數據分析平臺如 Hadoop平臺上的分布式文件系統(tǒng) (Hadoop Distributed File System)分布式保存海量數據,利用 MapReduce處理大量半結構化數據集合,例如對海量數據進行初步處理,從中取出兩類數據,分別是特定類型文件,主要是常用于惡意代碼植入的各類文件如:exe、pdf、flash、word、ppt和 exec等以及包括 SNMP、ODBC及 Log Files等接口收集到的網絡流量數據.
2.2 模型
成千萬上億條的海量規(guī)則交由一臺處理機來進行處理幾乎是不可能的事情,為了能夠及時處理用戶設定的多維度各種粒度的規(guī)則,并能及時對用戶作出響應,需要由多臺處理機同時對規(guī)則網進行并行處理,從而改善處理效率.大數據環(huán)境下安全海量規(guī)則分析技術,其中規(guī)則關聯行為分析的依據不再只是單純的行為分析基礎上的邏輯判斷,而是在大數據基礎上的廣泛性信息收集,以及從多個維度的數據挖掘結果之上得出的判定結果.利用行為分析的“相關性技術”把安全事件綜合聯系起來,確定其是否屬于惡意行為.分析和借鑒基于流量行為、神經網絡和模式識別的網絡異常檢測技術,充分利用學科交叉知識來解決大數據網絡環(huán)境下的安全事件關聯分析問題;通過大數據環(huán)境下的規(guī)則關聯分析與評估,建立網絡異常報警機制;
模型中有兩個需要考慮的問題:第一,大數據本身有可能成為APT攻擊的數據載體;第二,大數據分析本身也容易為黑客利用,變成新的攻擊.傳統(tǒng)的信息安全數據挖掘算法的時間復雜度較高、算法的誤報率和漏報率一直是難以解決的問題,因此并不適合大數據環(huán)境,相關的科學研究也發(fā)現,在數據處理效率得到提高的背景下,反而某些簡單算法對于大數據的處理更有效[4].
在這樣的研究背景下,我們對信息安全海量規(guī)則進行分析研究[5、6],提出面向大數據環(huán)境的異構網絡安全海量規(guī)則分析模型,結構圖見圖1.
數據采集模塊:通過采集海量數據,可以搜集多個來源的數據,這些數據表面上看來沒什么關系的數據之間有時存在著某種內在的聯系.數據源包含網絡系統(tǒng)中的各種網絡設備、安全設備、主機和服務器等.提供對SNMP、ODBC、Log Files、Socket、SDK、Cisco、NAP等的接口能力.
數據整合模塊:通過數據整合模塊,我們對源數據進行規(guī)范化處理,通過特征提取和分類規(guī)則對數據進行分類.此模塊的核心是特征提取、數據降維和分類算法的研究.
關聯分析模塊:
圖1 網絡安全海量規(guī)則分析模型結構圖
通過智能化的分析方法找出海量安全事件之間的關聯,從而還原攻擊場景圖,這是整個系統(tǒng)的關鍵.這個模塊對海量安全事件進行診斷和響應,識別攻擊意圖,重構安全威脅場景.一個完整的安全事件通常由多個步驟構成,這些步驟之間又是相互關聯的,如果能夠把這種隱含關系找到,就能夠更加準確的還原安全事件的行為,更加準確的確定安全事件對網絡的影響.
安全評測可視輸出模塊:此模塊將分析過程得到的新知識充實到自己的知識庫中,完善自身的學習能力.基于多維度、多粒度的規(guī)則智能檢測模型會隨著時間的增加而具有越來越強的未知安全事件的識別能力.而可視化以一種更科學直觀的方式呈現網絡安全事件場景.先通過分析將安全事件的行為與時間進行關聯起來,建立起安全事件的時間軸;同時多個網絡安全事件可能在攻擊中進行了協作來達到目的,在可視化呈現時要將所有與此事件有關的行為都囊括進來.再根據整理好的數據采用非圖形化或者非圖形化的方式呈現出來.
面向大數據的異構網絡安全規(guī)則的關聯算法主要需要考慮幾個問題:
第一,安全事件的規(guī)則描述粒度,安全事件發(fā)生時,不同粒度數據項之間存在著關聯關系,在多個來源不同粒度的數據之間通過關聯分析找到數據之間的隱含關系,文中采用模糊等量約束因果關聯分析算法進行處理.
第二,一個完整的安全事件通常由多個步驟構成,這些步驟之間又是相互聯系的,異構設備數據之間的相關性也需要協調分析,本文采用時空同現模式挖掘安全事件的規(guī)則間關聯.
第三,如何高效描述異構數據之間的關系、如何快速利用關聯分析方法進行檢測是需要深入研究的內容.本文利用云計算的并行處理能力,提出海量規(guī)則并行處理機制,并實現了系統(tǒng)原型.
3.1 安全事件模糊等量約束因果關聯分析
文本選擇兩個相關性最大的特征值作為回歸參數。由表1可知,t2t和HR與SBP的相關性較強,逐步分析得到SBP的方程為SBP=-141.3t2/t+0.68HR+145.6。t2t和HR與DBP的相關性較強,逐步分析得到DBP的方程為DBP=-93.3t2/t+0.15HR+120.6。
在安全事件的關聯分析中,對任意安全事件 e1和 e2,引入二元模糊因果關系R?,R?定義在C(e1)×P(e2)上,表示事件 e1和 e2之間的關聯關系,并定義隸屬度函數 μR?(c,p),此函數取值范圍是實軸閉區(qū)間[0,1],函數大小表示模糊集合R?上的序偶對(c,p)的隸屬度.其定義如公式 1所示:
0 公式中,ui,vi分別表示 c=pred(u1,u2,...,uk)和 p=pred(v1,v2,...,vk)所對應的屬性值.Mat(c,p)為 c與 p相匹配的屬性數目.W(ui,vi)是 ui,vi的權值,其中 W(ui,vi)∈[0,1]記為: 對于基本屬性 ui,vi,W(ui,vi)的取值范圍在0-1之間,而對于非基本屬性ui,vi,W(ui,vi)的取值為經驗值.在此基礎上,可以定義集合 C(e1)×P (e2)上的二元模糊關系R?的支持度函數SupR?(C,P): 如果 SupR?(C,P) 的值大于支持度閾值Tsup∈(0,1)時,算法分析認為安全事件 e1和 e2之間存在關聯關系. 3.2 時空同現模式挖掘安全事件的規(guī)則間關聯 大數據環(huán)境下,攻擊行為可以從多個不同位置發(fā)起并指向相同目標.采用時空同現模式的數據挖掘方法,提出從不同的網絡位置上分析數據,發(fā)現這些規(guī)則之間的聯系從而檢測出安全攻擊行為. 在這個過程中,我們引入時空復合興趣度,這個值描述了攻擊行為的空間興趣度與時間興趣度的復合關系. 時空同現模式挖掘方法可以基于 Time Aggregate Graph(TAG)算法和基于模式增長的方法.算法處理時,我們需要預先設定相關頻繁子模式的最小置信度和最小支持度,同時可以加入時空復合興趣度的影響因子.TAG的定義為TAG=(N,E,TF,f1…fk,g1…gm,w1…wp|fi:N->RTF,gi:E->RTF,wi:E->RTF), 在定義中,N表示一組節(jié)點,E表示發(fā)生安全事件的邊,TF表示事件發(fā)生的時間片,f表示存在事件相鄰關系的事件集合,g是事件間鄰近的時間序列,w表示邊上的權值序列,即時空復合興趣度. 本文通過以上算法來分析安全異常事件的頻繁子模式,如果系統(tǒng)檢測到目前的實時安全事件和頻繁子模式超過支持度閾值,則預測為網絡安全異常行為.檢測過程中,用戶可以通過修改閾值來提高處理效率. 將構建兩個大數據分析平臺,一個平臺用于搜集傳統(tǒng)網絡環(huán)境中的數據和SDN架構網絡實驗平臺環(huán)境的數據,采集的各種日志和網絡流量數據經過處理后導入到大數據分析平臺上進行分析處理,如圖1所示. 為了測試和驗證我們提出的大數據環(huán)境下安全海量規(guī)則分析技術,我們構建了一個大數據分析測試平臺,采集的各種日志和網絡流量數據經過處理后導入到大數據分析平臺上進行分析處理,對于核心數據,我們通過搭建簡單的Hadoop MapReduce集群實驗環(huán)境對其進行分析處理.實驗環(huán)境包含 1個控制結點(JobTracker)和8個數據分析結點(TaskTracker).數據分析節(jié)點的配置如表 1所示. 表1 計算節(jié)點配置情況 我們通過Mapreduce的并行處理能力對實驗環(huán)境中產生的分布式安全數據進行處理,在測試環(huán)境中初步實現了安全海量規(guī)則的高效并行分析,對于不同類型的安全事件可以做出初步判別和分析. 大數據時代國家的核心競爭力在很大程度上依賴于把大數據量低價值的數據轉化成核心知識的能力,本文提出了大數據環(huán)境下的安全海量規(guī)則分析系統(tǒng)的一些關鍵問題和解決思路,從體系模型和算法分析等方面提出大數據環(huán)境下安全海量規(guī)則分析技術的行為機制.在實驗室模擬了一個測試環(huán)境來對算法進行模擬測試和分析,通過測試系統(tǒng)可以對部分安全事件發(fā)現并響應,需進一步對模型中的規(guī)則表示和算法進行優(yōu)化. [1]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125-1138. [2]Bahadori M T,Liu Y,Zhang D.Learning with minimum supervision:a general framework for transductive transfer learning.IEEE International Conference on Data Mining (ICDM),2011. [3]Shahreza S,Ganjali Y.FleXam:Flexible Sampling Extension for Monitoring and Security Applications in OpenFlow[C].HotSDN.2013:167-168. [4]Zhitang Li,Binbin Wang,Dong Li,Hao Chen,Feng Liu, ZhengBin Hu.The Aggregation and Stability Analysis of Network Traffic for Structured-P2P-based Botnet Detection[J].Journal of Networks.2010,5(5):517-526. [5]劉蘭,林軍,蔡君,面向大數據的異構網絡安全監(jiān)控及關聯算法研究[J].電信科學,2014(7):30-33. [6]Lan Liu,Xiaoping Xu etc.A kind of fuzzy constraint correlation algorithm based on prerequisites and consequences of security event.In:Proceedings of IEEE International Computer and Information Technology.2009 (10):225-229. [責任編輯:王曉軍] Research on Network Security Analysis Technique of Massive Rules in the Age of Big Data LIU Lan1LIN Jun2 In the age of Big Data,we should consider large-scale,heterogeneous network security behavior.In this paper,according to the features of huge amount and complex,Big Data analysis technologies for network security massive rules were proposed.Various types of heterogeneous data sources by data cleaning were analysised.The key data through security event correlation and spatiotemporal co-occurrence pattern mining security event correlation rules were proposed. Big Data;Correlation Analysis;Rule;Spatiotemporal co-occurrence TP 309 A 1672-402X(2016)08-0041-05 2016-03-10 國家自然科學基金(61571141);2015年廣東省教育廳本科高校教學質量與教學改革工程項目(粵教[2015] 133號網絡工程專業(yè)綜合改革) 劉蘭(1977-),女,湖南益陽人,博士,廣東技術師范學院副教授.研究方向:網絡技術、信息安全. 林軍(1976-),男,廣東廉江人,碩士,高級工程師.研究方向:網絡安全,大數據.4 實驗測試
5 結論
(1.Guangdong Polytechnic Normal University,Guangzhou 510655; 2.China Elecrtonic Product Reliability and Environmental Testing Research Institute,Guangzhou 510610)