任竹艷
(中電福富信息科技有限公司 北京市 100191)
伴隨IT 技術(shù)和通信技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)空間環(huán)境日漸復(fù)雜,云計(jì)算、虛擬化、軟件定義網(wǎng)絡(luò)、BYOD 等技術(shù)的應(yīng)用,使得網(wǎng)絡(luò)的邊界變得不再確定。同時(shí),網(wǎng)絡(luò)攻擊工具的平民化、趨利化,使得具備隱蔽性及持續(xù)性的APT 高級(jí)網(wǎng)絡(luò)威脅頻繁出現(xiàn)。傳統(tǒng)的網(wǎng)絡(luò)攻擊主要利用基于規(guī)則庫(kù)的特征匹配技術(shù)來(lái)發(fā)現(xiàn)在網(wǎng)絡(luò)通訊協(xié)議中或應(yīng)用訪問(wèn)中不符合安全策略的事件,受到單一的數(shù)據(jù)來(lái)源、有限的處理能力、對(duì)物理環(huán)境的部署依賴等諸多因素的限制,導(dǎo)致對(duì)內(nèi)外部網(wǎng)絡(luò)攻擊的獲悉途徑及能力不足,對(duì)全局的安全感知及未知的預(yù)測(cè)受限,無(wú)法有效應(yīng)對(duì)新環(huán)境下的安全挑戰(zhàn)。
采用流量監(jiān)聽(tīng)方式,可以在不影響用戶使用體驗(yàn)的情況下深入獲悉網(wǎng)絡(luò)狀態(tài),從而為監(jiān)測(cè)網(wǎng)絡(luò)安全,提供重要的數(shù)據(jù)源。大數(shù)據(jù)技術(shù)及機(jī)器學(xué)習(xí)算法的爆發(fā)式發(fā)展及持續(xù)商用,使得通過(guò)機(jī)器學(xué)習(xí)算法動(dòng)態(tài)分析多源數(shù)據(jù)的安全分析成為可能,進(jìn)而發(fā)現(xiàn)潛在的威脅,助力自動(dòng)化分析海量安全事件,為安全分析運(yùn)維人員提供安全運(yùn)營(yíng)的支撐工具。
傳統(tǒng)的安全分析基于WAF、IPS/IDS 等各類安全防護(hù)設(shè)備的告警信息,這部分?jǐn)?shù)據(jù)為安全分析提供了豐富的數(shù)據(jù)源,但同時(shí),很多攻擊的細(xì)節(jié)在告警日志中被遺失,網(wǎng)絡(luò)流量數(shù)據(jù)可為安全分析提供多源數(shù)據(jù)補(bǔ)充。DPI 技術(shù)(Deep Packet Inspection)是在傳統(tǒng)IP數(shù)據(jù)包檢測(cè)技術(shù)(OSI L2-L4 之間包含的數(shù)據(jù)包元素的檢測(cè)分析)之上增加了對(duì)應(yīng)用層數(shù)據(jù)的應(yīng)用協(xié)議識(shí)別,數(shù)據(jù)包內(nèi)容檢測(cè)與深度解碼,既可以檢測(cè)2~4 層,又可以檢測(cè)應(yīng)用層。通過(guò)對(duì)網(wǎng)絡(luò)報(bào)文的解析來(lái)識(shí)別承載的載荷內(nèi)容,可分析出細(xì)粒度的網(wǎng)絡(luò)操作行為,同時(shí)通過(guò)特征對(duì)比碰撞,將逐層封裝過(guò)程中數(shù)據(jù)包的各層頭部信息進(jìn)行識(shí)別提取,匹配規(guī)則庫(kù)中已知的特征記錄,實(shí)現(xiàn)流量的操作類型識(shí)別。通過(guò)深度包解析技術(shù)對(duì)網(wǎng)絡(luò)流量進(jìn)行解析,基于協(xié)議方向的網(wǎng)絡(luò)操作行為采集,實(shí)現(xiàn)會(huì)話級(jí)組包及中間狀態(tài)記錄。
通過(guò)采集解析包括日志、流量、基礎(chǔ)數(shù)據(jù)、管理類數(shù)據(jù)等多種來(lái)源的各類型數(shù)據(jù),實(shí)時(shí)傳輸至大數(shù)據(jù)平臺(tái),可提供滿足多種不同安全場(chǎng)景需求的高質(zhì)量數(shù)據(jù)源。同時(shí),基于分析需求不斷補(bǔ)充完善數(shù)據(jù)的顆粒度及定制化字段,反向驅(qū)動(dòng)數(shù)據(jù)源升級(jí)。例如,基于下載行為等特殊業(yè)務(wù)分析場(chǎng)景進(jìn)行深度定制,捕捉并還原應(yīng)用系統(tǒng)具體網(wǎng)絡(luò)操作行為。
大數(shù)據(jù)5V 的特性和新的技術(shù)架構(gòu)顛覆了傳統(tǒng)的數(shù)據(jù)分析方式,同樣影響著對(duì)數(shù)據(jù)的思維方式。以解決現(xiàn)實(shí)場(chǎng)景的問(wèn)題為驅(qū)動(dòng),在數(shù)據(jù)化思維模式指導(dǎo)下,數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理及數(shù)據(jù)處理的能力也逐漸提升。機(jī)器學(xué)習(xí)應(yīng)用到網(wǎng)絡(luò)安全空間安全中,是近年來(lái)安全領(lǐng)域的關(guān)注熱點(diǎn)和趨勢(shì)。但是,針對(duì)不具備專家先驗(yàn)知識(shí)及訓(xùn)練樣本不充分的任務(wù),機(jī)器學(xué)習(xí)的適用性較難驗(yàn)證。機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全中的應(yīng)用集中在威脅檢測(cè)、異常檢測(cè)以及用戶行為分析等方面,例如:威脅檢測(cè)通過(guò)對(duì)已知惡意文件的樣本學(xué)習(xí),來(lái)確定新型未知文件是否構(gòu)成威脅;異常檢測(cè)通過(guò)系統(tǒng)檢測(cè)行為模式,并基于此自動(dòng)構(gòu)建配置文件。
大數(shù)據(jù)能夠通過(guò)各類型數(shù)據(jù)之間融合互通,實(shí)現(xiàn)多元主體、多類目標(biāo)之間的信息鏈?zhǔn)铰?lián)系。而基于機(jī)器算法中的自學(xué)習(xí)技術(shù),可通過(guò)回歸算法進(jìn)行動(dòng)態(tài)基線預(yù)測(cè),實(shí)現(xiàn)機(jī)器學(xué)習(xí)自主構(gòu)造及對(duì)異常數(shù)據(jù)的自動(dòng)監(jiān)測(cè),同時(shí)通過(guò)歷史數(shù)據(jù)對(duì)行為模型進(jìn)行模擬、修正,自動(dòng)生成動(dòng)態(tài)基線模型,實(shí)現(xiàn)威脅動(dòng)態(tài)監(jiān)控,提升檢測(cè)的準(zhǔn)確率,從而降低安全人員的運(yùn)營(yíng)成本。
智能威脅監(jiān)測(cè)系統(tǒng),通過(guò)采集海量數(shù)據(jù),利用安全大數(shù)據(jù)分析、人工智能和機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)安全威脅的智能檢測(cè)、威脅情報(bào)的獲取和分析。如圖1所示,按照層次化模型設(shè)計(jì),系統(tǒng)架構(gòu)分為四層:數(shù)據(jù)采集層、處理層、分析層、服務(wù)層。
圖1:智能威脅監(jiān)測(cè)系統(tǒng)架構(gòu)
數(shù)據(jù)采集層通過(guò)實(shí)時(shí)流量采集、批量文件采集、實(shí)時(shí)消息采集、周邊系統(tǒng)數(shù)據(jù)采集等能力,對(duì)包括網(wǎng)絡(luò)流量數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、管理類數(shù)據(jù)等數(shù)據(jù)進(jìn)行采集接入?;A(chǔ)數(shù)據(jù)例如:IP 地址、域名、URL、漏洞、樣本、事件等,管理類數(shù)據(jù)例如:資產(chǎn)信息及賬號(hào)信息等。
實(shí)時(shí)流量通過(guò)在網(wǎng)絡(luò)中前置DPI 探針實(shí)現(xiàn),對(duì)網(wǎng)絡(luò)鏈路上的流量進(jìn)行多路并行捕包及特征檢測(cè),根據(jù)預(yù)設(shè)的策略過(guò)濾控制網(wǎng)絡(luò)流量,完成數(shù)據(jù)采集、流量分析統(tǒng)計(jì)、日志合成等操作,并按需將數(shù)據(jù)分發(fā)給后端分析平臺(tái)。
批量文件采集基于數(shù)據(jù)傳輸?shù)臄?shù)據(jù)量、并發(fā)量等具體需求,選取基于傳輸層或應(yīng)用層的不同采集方式,例如可采用基于SFTP 或SOCKET 等方式實(shí)現(xiàn)數(shù)據(jù)交互。
針對(duì)數(shù)據(jù)量及并發(fā)較高的數(shù)據(jù)傳輸需求,采用基于端口監(jiān)聽(tīng)的實(shí)時(shí)消息采集方式,一般來(lái)說(shuō)并發(fā)量高的安全組件,比如說(shuō)IPS、防火墻等可以通過(guò)設(shè)置syslog 外發(fā)來(lái)實(shí)現(xiàn)和大數(shù)據(jù)檢測(cè)平臺(tái)的數(shù)據(jù)采集進(jìn)程對(duì)接。
對(duì)于集成度比較高的系統(tǒng)及平臺(tái),由于已經(jīng)在自身的基礎(chǔ)上整合了多個(gè)業(yè)務(wù)系統(tǒng),如果重新與其對(duì)接的系統(tǒng)做二次對(duì)接,極大程度上會(huì)造成資源和時(shí)間成本的浪費(fèi),此時(shí),數(shù)據(jù)采集模塊通過(guò)webservice 的接口方式實(shí)現(xiàn)數(shù)據(jù)的對(duì)接。
處理層針對(duì)數(shù)據(jù)進(jìn)行清洗、去重、校驗(yàn)、標(biāo)準(zhǔn)化、標(biāo)簽化等處理操作。
清洗過(guò)濾模塊按照數(shù)據(jù)特征和分析要素進(jìn)行整合,統(tǒng)一沉淀所需數(shù)據(jù)。合并/去重是對(duì)于數(shù)據(jù)消重最主要的方式,將具有相同屬性值的記錄進(jìn)行合并處理。標(biāo)準(zhǔn)化模塊統(tǒng)一處理格式存在差異的原始數(shù)據(jù),標(biāo)準(zhǔn)化格式內(nèi)容針對(duì)不同來(lái)源的采集接口進(jìn)行基于邊緣的結(jié)構(gòu)化預(yù)設(shè)并基于不同的數(shù)據(jù)情況進(jìn)行自適應(yīng)處理。面對(duì)數(shù)據(jù)分析過(guò)程中的缺失值,采用替代法(估值法),利用已知經(jīng)驗(yàn)值代替缺失值,維持缺失值不變和刪除缺失值等方法進(jìn)行處理。
分析層基于海量的安全數(shù)據(jù),利用安全大數(shù)據(jù)分析、人工智能和機(jī)器學(xué)習(xí)等進(jìn)行數(shù)據(jù)分析、威脅建模、行為識(shí)別,為上層應(yīng)用提供高價(jià)值的分析數(shù)據(jù)。
數(shù)據(jù)建模為了滿足內(nèi)外部不同威脅檢測(cè)的安全場(chǎng)景分析需求,進(jìn)行業(yè)務(wù)定義及特征構(gòu)建。業(yè)務(wù)定義進(jìn)行應(yīng)用場(chǎng)景的梳理,進(jìn)而針對(duì)不同的應(yīng)用場(chǎng)景進(jìn)行特征向量構(gòu)建,例如對(duì)時(shí)間、用戶、地點(diǎn)、系統(tǒng)、操作、源IP、目的IP、目的端口、協(xié)議等不同要素的單維或者多維組合;對(duì)不同特點(diǎn)的特征進(jìn)行不同的處理,例如:創(chuàng)建衍生變量、篩選變量,包括歸一化、概率分布計(jì)算、封箱等。
數(shù)據(jù)挖掘主要進(jìn)行結(jié)合數(shù)據(jù)的模型算法進(jìn)行擬合,模型算法涉及分類、回歸、聚類、關(guān)聯(lián)等,具體模型包括LWLR、Kmeans++、孤立森林、LOF、DBSCAN、Apriori 等。不同的場(chǎng)景適用不同的挖掘算法。例如:針對(duì)異常流量的識(shí)別,適合采用回歸算法,利用歷史流量數(shù)據(jù)的局部加權(quán)回歸模型對(duì)未來(lái)的數(shù)據(jù)大小進(jìn)行預(yù)測(cè),并基于動(dòng)態(tài)閥值進(jìn)行安全預(yù)警。隨著時(shí)間序列的推移,模型每分鐘進(jìn)行參數(shù)的動(dòng)態(tài)調(diào)整。模型繪制流量的基線,通過(guò)將多個(gè)具備業(yè)務(wù)意義的時(shí)間點(diǎn)(節(jié)假日、工作時(shí)等)及不具備業(yè)務(wù)意義的時(shí)間點(diǎn)(距離最進(jìn)、歷史同位等)作為權(quán)重輸入,將模型參數(shù)基于時(shí)間序列進(jìn)行動(dòng)態(tài)擬合(分鐘級(jí)),動(dòng)態(tài)的輸出模型結(jié)果。通過(guò)歷史數(shù)據(jù)結(jié)合模型,輸入樣本數(shù)據(jù),擬合目標(biāo)回歸值。而針對(duì)異常用戶行為的識(shí)別,由于異常行為模式和正常行為有顯著區(qū)別,適合采用異常檢測(cè)算法,可通過(guò)基于孤立森林異常檢測(cè)算法進(jìn)行異常行為的識(shí)別。
服務(wù)層主要針對(duì)不同的場(chǎng)景提供針對(duì)不同角色需求的服務(wù)能力。
攻擊檢測(cè)包括外部威脅檢測(cè)、橫向威脅檢測(cè)、資產(chǎn)外連威脅檢測(cè)。外部威脅檢測(cè)用以分析和發(fā)現(xiàn)網(wǎng)絡(luò)入侵、拒絕服務(wù)攻擊等外部攻擊行為。橫向威脅檢測(cè)分析內(nèi)部網(wǎng)元之間的病毒傳播及違規(guī)行為,發(fā)現(xiàn)企業(yè)內(nèi)部疑似被黑客控制的主機(jī)的內(nèi)網(wǎng)橫向移動(dòng)行為;資產(chǎn)外連威脅檢測(cè)關(guān)注企業(yè)內(nèi)部資產(chǎn)的對(duì)外發(fā)起攻擊行為,如被控制為僵尸主機(jī)、肉機(jī),進(jìn)行挖礦、對(duì)外發(fā)起攻擊等。
異常流量監(jiān)測(cè)主要找出異常流量攻擊行為。異常行為監(jiān)測(cè)主要型發(fā)現(xiàn)各系統(tǒng)存在的安全風(fēng)險(xiǎn)和異常的用戶行為,包括賬號(hào)異常、權(quán)限變更異常、操作行為異常、資產(chǎn)被訪問(wèn)異常等。
威脅情報(bào)包括通過(guò)系統(tǒng)智能分析產(chǎn)生的威脅情報(bào)的信息共享輸出及根據(jù)威脅情報(bào)進(jìn)行的關(guān)聯(lián)分析,識(shí)別來(lái)自外部的安全風(fēng)險(xiǎn)。
能力開(kāi)放針對(duì)系統(tǒng)層面的能力調(diào)用,提供服務(wù)開(kāi)放接口以供調(diào)用。
網(wǎng)絡(luò)安全問(wèn)題一直存在,只是在網(wǎng)絡(luò)技術(shù)、IT 技術(shù)飛速發(fā)展的今天變得更加重要。隨著大數(shù)據(jù)技術(shù)、基于大數(shù)據(jù)的人工智能技術(shù)的發(fā)展,為更好的進(jìn)行安全智能分析提供了手段和能力。業(yè)務(wù)系統(tǒng)快速迭代,攻防博弈不斷升級(jí),APT 及零日漏洞攻擊的高隱蔽長(zhǎng)期潛伏特點(diǎn),需要利用多源數(shù)據(jù)結(jié)合大數(shù)據(jù)及機(jī)器學(xué)習(xí)算法作為關(guān)鍵業(yè)務(wù)資產(chǎn)防護(hù)的必要技術(shù)手段。通過(guò)梳理可納入的數(shù)據(jù)源,基于機(jī)器學(xué)習(xí)算法的特點(diǎn),結(jié)合在實(shí)際安全工作中的安全需求,開(kāi)展智能威脅監(jiān)測(cè)系統(tǒng)通用架構(gòu)和功能設(shè)計(jì),從業(yè)務(wù)和技術(shù)兩個(gè)角度,從數(shù)據(jù)采集層、處理層、分析層、服務(wù)層四層架構(gòu),對(duì)系統(tǒng)中的重要功能組件進(jìn)行了闡述,以期彌補(bǔ)傳統(tǒng)基于規(guī)則的威脅識(shí)別缺陷,為網(wǎng)絡(luò)安全建設(shè)提供思路啟發(fā)與應(yīng)用實(shí)踐參考。實(shí)際工作中,需在企業(yè)的安全頂層目標(biāo)指導(dǎo)下,針對(duì)數(shù)據(jù)的納入類型、數(shù)據(jù)的納入范圍、采用的技術(shù)水平進(jìn)行匹配,應(yīng)盡可能維持最大的投入產(chǎn)出效用。