崔玉禮 黃麗君
1 引言
網(wǎng)絡(luò)安全分析的數(shù)據(jù)隨著網(wǎng)絡(luò)架構(gòu)的越來越復(fù)雜,來源越來越豐富,數(shù)量呈指數(shù)曲線增長,從TB的數(shù)量級邁向PB數(shù)量級,內(nèi)容越來越細(xì)致,維度范圍越來越大;網(wǎng)絡(luò)設(shè)備的性能越來越強(qiáng),發(fā)送數(shù)據(jù)的速度越來越快,安全信息的采集速度要求越來越高;網(wǎng)絡(luò)安全漏洞日益增多,影響范圍廣泛。除此以外,一些有組織、有預(yù)謀的高持續(xù)性攻擊行為十分猖獗,要求網(wǎng)絡(luò)安全維護(hù)時的分析安全信息的多種類和手段的多樣性。
2013年Gartner分析數(shù)據(jù)顯示,未來信息架構(gòu)的發(fā)展趨勢以大數(shù)據(jù)技術(shù)為魁首,其最近一段時間在多個領(lǐng)域得到了發(fā)展和應(yīng)用。大數(shù)據(jù)技術(shù)具有數(shù)據(jù)量大、速度快、種類多、價值密度底等特點(diǎn),滿足于網(wǎng)絡(luò)安全數(shù)據(jù)要求的效率高、容量大、成本低等要求。
2 大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全分析中的應(yīng)用
日志和流量是當(dāng)前網(wǎng)絡(luò)安全分析的主要數(shù)據(jù)對象,資產(chǎn)、配置、漏洞、訪問、應(yīng)用行為、用戶行為、業(yè)務(wù)行為、外部報告等作為關(guān)聯(lián)的輔助信息。將大數(shù)據(jù)技術(shù)引用進(jìn)來,原理是將分散的日志與流量數(shù)據(jù)集中到一起,運(yùn)用高效的采集、儲存、分析和檢索技術(shù),提升網(wǎng)絡(luò)安全分析和處理的成效,縮短分析的時間。在使用信息關(guān)聯(lián)、階段性組合、場景關(guān)聯(lián)等手段進(jìn)行分析,發(fā)現(xiàn)安全事件之間的關(guān)聯(lián)性,預(yù)測安全漏洞、高持續(xù)性攻擊和數(shù)據(jù)泄露等安全事件的發(fā)生,變被動防御為主動防御。
(1) 信息的采集。數(shù)據(jù)采集可以使用Chukwa等工具,使用分布采集的手段進(jìn)行對于日志信息每秒數(shù)百找的采集;通過傳統(tǒng)的數(shù)據(jù)鏡像的采集方式,可以采集全流量數(shù)據(jù)。
(2)信息的存儲。面對繁雜的數(shù)據(jù)種類和各種各樣的應(yīng)用方式,想要滿足各種分析需求的數(shù)據(jù)儲存,提升檢索與分析的速度,應(yīng)采取不同的儲存方式來儲存不同類型的數(shù)據(jù)。
供檢索的原始安全數(shù)據(jù),如日志信息、流量歷史數(shù)據(jù)等,可使用GBase、Hbase等列式存儲,其具有快速索引的特性,能夠快速響應(yīng)數(shù)據(jù)檢索。
進(jìn)行標(biāo)準(zhǔn)化處理后安全數(shù)據(jù),可以根據(jù)Hahoop分布式進(jìn)行其構(gòu)架計(jì)算,把分析的數(shù)據(jù)置于計(jì)算節(jié)點(diǎn)上,使用Hive等進(jìn)行腳本分析,挖掘與分析安全數(shù)據(jù),完成統(tǒng)計(jì)報告和分析警告,再將結(jié)果存放于列式存儲,
需要進(jìn)行實(shí)時分析的安全數(shù)據(jù),可采取Storm、Spark等流式計(jì)算方法,把需要分析的數(shù)據(jù)置于各個計(jì)算節(jié)點(diǎn),當(dāng)實(shí)時數(shù)據(jù)流流經(jīng)節(jié)點(diǎn)時系統(tǒng)自動進(jìn)行分析,形成數(shù)據(jù)統(tǒng)計(jì)與安全警告,再把分析結(jié)果存放到流式存儲中。
(3)信息的檢索。安全數(shù)據(jù)的查詢與檢索可以使用以MapReduce為基礎(chǔ)的檢索架構(gòu),把數(shù)據(jù)查詢的請求主語各個分析節(jié)點(diǎn)進(jìn)行處理,利用分布式的并行計(jì)算方法,將安全數(shù)據(jù)的檢索速度有效提升。
(4)數(shù)據(jù)的分析。實(shí)時數(shù)據(jù)分析可以利用Storm或者Spark等流式計(jì)算架構(gòu)為基礎(chǔ),聯(lián)合復(fù)雜事件處理技術(shù)和定制的電聯(lián)分析計(jì)算方法。采用以上方法對于實(shí)時分析數(shù)據(jù)內(nèi)存、實(shí)時監(jiān)控與關(guān)聯(lián)安全信息,能夠及時捕捉異常行為。非實(shí)時數(shù)據(jù)的分析可采取Hadoop架構(gòu),利用HDFS分布式存儲和MapReduce分布式計(jì)算,聯(lián)合數(shù)據(jù)聚合、數(shù)據(jù)挖掘、數(shù)據(jù)抽取等技術(shù),離線統(tǒng)計(jì)風(fēng)險、分析事態(tài)、尋找攻擊源。
(5)多源數(shù)據(jù)與多階段組合的關(guān)聯(lián)分析。大數(shù)據(jù)技術(shù)能夠有效提升存儲與分析的速率,使短時間內(nèi)挖掘分析多源異構(gòu)數(shù)據(jù),關(guān)聯(lián)挖掘大規(guī)模系統(tǒng)的安全隱患、關(guān)聯(lián)不同階段的攻擊行為特征等可能性存在。例如,要分析僵尸網(wǎng)絡(luò),不單單能夠結(jié)合流量同DNS的訪問特征,還可以將數(shù)據(jù)源進(jìn)一步擴(kuò)充與分析,將全分組數(shù)據(jù)集合、對溯源數(shù)據(jù)和莫管數(shù)據(jù)進(jìn)行攻擊、深度關(guān)聯(lián)分析外界情報等信息。又例如,發(fā)現(xiàn)某個主機(jī)被攻擊或者存在漏洞,能夠關(guān)聯(lián)系統(tǒng)中的其他主機(jī)是否受到相同的攻擊或者存在相同的漏洞,使隱患及時被發(fā)現(xiàn),提前做好防范準(zhǔn)備。
3 基數(shù)大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)安全平臺建設(shè)
3.1 基于大數(shù)據(jù)的網(wǎng)絡(luò)安全平臺架構(gòu)
此平臺由下至上分別為數(shù)據(jù)采集層、大數(shù)據(jù)存儲層、數(shù)據(jù)挖掘分析層、數(shù)據(jù)呈現(xiàn)層。當(dāng)中數(shù)據(jù)采集層能夠分布式采集基于流、用戶身份信息、事件和威脅情報等多源異構(gòu)信息。大數(shù)據(jù)存儲層能夠應(yīng)用分布式文件系統(tǒng)長期全量存儲海量信息,并能實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)統(tǒng)一存儲,使用均衡算法將現(xiàn)實(shí)數(shù)據(jù)均勻分布在分布式文件系統(tǒng)上,為將來的數(shù)據(jù)檢索提高速度。數(shù)據(jù)挖掘分析層能夠?qū)崒r數(shù)據(jù)分析關(guān)聯(lián)、分析情境、提取特征,以此來實(shí)現(xiàn)安全事件的挖掘,迅速發(fā)現(xiàn)異常網(wǎng)絡(luò)行為并溯其根源,同時能夠?qū)π畔?shù)據(jù)進(jìn)行搜索查詢以及定位。數(shù)據(jù)呈現(xiàn)層能夠?qū)⒋髷?shù)據(jù)分析結(jié)構(gòu)進(jìn)行可視化的呈現(xiàn),通過多種維度展現(xiàn)網(wǎng)絡(luò)安全狀態(tài)。
3.2 平臺實(shí)現(xiàn)的技術(shù)支持
(1)數(shù)據(jù)采集技術(shù)。本平臺采取Flume、Kafka、Storm結(jié)合的形式進(jìn)行數(shù)據(jù)采集。使用Flume進(jìn)行海量安全數(shù)據(jù)的采集、整合與傳輸具有可呈現(xiàn)分布式、可靠性高、可用性高的特點(diǎn),利用定制的數(shù)據(jù),讓發(fā)送方能夠手機(jī)到源自不同數(shù)據(jù)源的數(shù)據(jù),把數(shù)據(jù)簡單處理后發(fā)送給各個數(shù)據(jù)的定制方。
面對活躍的流式數(shù)據(jù)進(jìn)行處理,是可將Kafka當(dāng)做數(shù)據(jù)采集與流式數(shù)據(jù)處理間的緩存。Kafka包含許多生產(chǎn)者、代理、消費(fèi)者,整體性的提供邏輯服務(wù),使其成為一個高吞吐量的分布式發(fā)布訂閱系統(tǒng)。面對分布式中的數(shù)據(jù)管理,Kafka使用了Zookeeper框架對于集群配置進(jìn)行管理,實(shí)現(xiàn)了負(fù)載的均衡。
(2)數(shù)據(jù)存儲技術(shù)。使用HDFS進(jìn)行采集后的數(shù)據(jù)存儲,HDFS分布式文件系統(tǒng)有著高吞吐量和高容錯性的特點(diǎn),命名空間使用的是元數(shù)據(jù)管理節(jié)點(diǎn)文件系統(tǒng),數(shù)據(jù)節(jié)點(diǎn)被用來存儲數(shù)據(jù)文件,將64兆字節(jié)的數(shù)據(jù)塊作為最基本存儲單位。元數(shù)據(jù)節(jié)點(diǎn)的數(shù)量與數(shù)據(jù)文件的大小成粉筆,同一時間如果訪問過多的文件就會造成系統(tǒng)性能的嚴(yán)重下降。所以,想要保障數(shù)據(jù)處理和分析的效率,此平臺使用的存儲單位就是HDFS數(shù)據(jù)塊存儲,把采集得來的數(shù)據(jù)歸納處理之后,保證每個文件的大小滿足64兆字節(jié)。
(3)數(shù)據(jù)分析技術(shù)。此平臺使用Hive完成數(shù)據(jù)統(tǒng)計(jì)與分析,采取類似SQL的HiveQL語言滿足HDFS與HBase對于非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行快速檢索的。該平臺使用Hive對API進(jìn)行封裝,使用定制的插件開發(fā)和實(shí)現(xiàn)各種數(shù)據(jù)的處理、分析與統(tǒng)計(jì)。
對于數(shù)據(jù)的挖掘分析,給平臺使用Mahout完成基于Hadoop的機(jī)械學(xué)習(xí),同時完成數(shù)據(jù)的挖掘與整理。針對事件流的關(guān)聯(lián)與分析,該平臺使用了CPE,把系統(tǒng)數(shù)據(jù)當(dāng)作是各種類型的事件,對時間之間的關(guān)聯(lián)性進(jìn)行分析,構(gòu)建起分門別類的事件關(guān)系序列庫,完成從簡單事件到高級事件的轉(zhuǎn)化,在大量的信息中尋找到網(wǎng)絡(luò)安全隱患。
4 結(jié)束語
大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用實(shí)現(xiàn)了精準(zhǔn)、迅速、價格低廉的目的?,F(xiàn)階段,在網(wǎng)絡(luò)安全中如何更加有效地運(yùn)用大數(shù)據(jù)技術(shù)已經(jīng)成為了業(yè)內(nèi)探討的熱點(diǎn)與焦點(diǎn)。本文以當(dāng)前針對網(wǎng)絡(luò)漏洞與攻擊的情況的防御需求為出發(fā)點(diǎn),討論了將大數(shù)據(jù)技術(shù)應(yīng)用到網(wǎng)絡(luò)安全領(lǐng)域的收集、存儲、檢索以及分析的應(yīng)用手段,有效地提升了網(wǎng)絡(luò)安全防御的準(zhǔn)確度和效率。
參考文獻(xiàn)
[1] 孫大為,張廣艷,鄭諱民.大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系列實(shí)例.[J]軟件學(xué)報,2014,25(4):839-862.
[2] 楊巨龍.大數(shù)據(jù)技術(shù)全解——基礎(chǔ)、設(shè)計(jì)、開發(fā)與實(shí)踐[M].北京:電子工業(yè)出版社,2014.
[3] 唐宏,羅志強(qiáng),沈軍.僵尸網(wǎng)絡(luò)DDoS攻擊主動防御技術(shù)研究與應(yīng)用[J].電信技術(shù). 2014(11) .
[4] 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報. 2014(09).