摘要:本文首先介紹了大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全領(lǐng)域應(yīng)用的重要性,并介紹了大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全中的具體應(yīng)用,從收到采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索、網(wǎng)絡(luò)安全等方面的分析,最后利用大數(shù)據(jù)技術(shù)構(gòu)建了一個(gè)網(wǎng)絡(luò)安全平臺(tái)。本文以網(wǎng)絡(luò)安全需求的實(shí)際應(yīng)用為出發(fā)點(diǎn),對大數(shù)據(jù)技術(shù)進(jìn)行了簡要的描述,在實(shí)際應(yīng)用中可以有助于創(chuàng)建一個(gè)安全的網(wǎng)絡(luò)環(huán)境。
關(guān)鍵詞:大數(shù)據(jù);網(wǎng)絡(luò)安全分析;攻擊檢測
網(wǎng)絡(luò)安全數(shù)據(jù)分析與網(wǎng)絡(luò)結(jié)構(gòu)越來越復(fù)雜,來源越來越豐富,數(shù)量呈現(xiàn)指數(shù)曲線增長、從TB到PB量級(jí),內(nèi)容越來越具體,范圍越來越大;網(wǎng)絡(luò)設(shè)備的性能越來越強(qiáng),數(shù)據(jù)傳輸速度更快,安全信息的采集速度要求越來越高;網(wǎng)絡(luò)安全漏洞逐漸增多,影響范圍廣。此外,一些有組織、有預(yù)謀、高度持久的攻擊非常猖獗,需要多種類型的安全信息和多樣的網(wǎng)絡(luò)安全維護(hù)手段。
1大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全分析中的應(yīng)用
日志和流量是網(wǎng)絡(luò)安全分析的主要數(shù)據(jù)對象,資產(chǎn)、配置、漏洞、訪問、應(yīng)用程序行為、用戶行為、業(yè)務(wù)行為、外部報(bào)告等都是輔助信息。在大數(shù)據(jù)技術(shù)的分析下,其原理是將日志和流量數(shù)據(jù)集中在一起,利用高效的采集、存儲(chǔ)、分析和檢索技術(shù),提高網(wǎng)絡(luò)安全的分析和處理效果,縮短分析時(shí)間。在使用信息關(guān)聯(lián)、階段組合、場景關(guān)聯(lián)等手段進(jìn)行分析時(shí),發(fā)現(xiàn)了安全事件、安全漏洞預(yù)測、高持久性攻擊和數(shù)據(jù)泄露等安全事件之間的關(guān)聯(lián),可以很快從被動(dòng)防御轉(zhuǎn)變?yōu)橹鲃?dòng)防御。
1.1信息的采集
數(shù)據(jù)采集可以使用Chukwa等工具,使用分布采集的手段進(jìn)行對于日志信息每秒數(shù)百找的采集;通過傳統(tǒng)的數(shù)據(jù)鏡像的采集方式,可以采集全流量數(shù)據(jù)。
1.2信息的存儲(chǔ)
面對復(fù)雜的數(shù)據(jù)類型和各種應(yīng)用方式,為了滿足所有分析數(shù)據(jù)存儲(chǔ)的需要,提高檢索和分析的速度,我們應(yīng)該采用不同的存儲(chǔ)方法來存儲(chǔ)不同類型的數(shù)據(jù)。
供檢索的原始安全數(shù)據(jù),如日志信息、流量歷史數(shù)據(jù)等,可使用GBase、Hbase等列式存儲(chǔ),其具有快速索引的特性,能夠快速響應(yīng)數(shù)據(jù)檢索。
1.3信息的檢索
安全數(shù)據(jù)的查詢與檢索可以使用以MapReduce為基礎(chǔ)的檢索架構(gòu),把數(shù)據(jù)查詢的請求主語各個(gè)分析節(jié)點(diǎn)進(jìn)行處理,利用分布式的并行計(jì)算方法,將安全數(shù)據(jù)的檢索速度有效提升。
1.4數(shù)據(jù)的分析
實(shí)時(shí)數(shù)據(jù)分析可以利用Storm或者Spark等流式計(jì)算架構(gòu)為基礎(chǔ),聯(lián)合復(fù)雜事件處理技術(shù)和定制的電聯(lián)分析計(jì)算方法。采用以上方法對于實(shí)時(shí)分析數(shù)據(jù)內(nèi)存、實(shí)時(shí)監(jiān)控與關(guān)聯(lián)安全信息,能夠及時(shí)捕捉異常行為。非實(shí)時(shí)數(shù)據(jù)的分析可采取Hadoop架構(gòu),利用HDFS分布式存儲(chǔ)和MapReduce分布式計(jì)算,聯(lián)合數(shù)據(jù)聚合、數(shù)據(jù)挖掘、數(shù)據(jù)抽取等技術(shù),離線統(tǒng)計(jì)風(fēng)險(xiǎn)、分析事態(tài)、尋找攻擊源。
1.5多源數(shù)據(jù)與多階段組合的關(guān)聯(lián)分析
多源數(shù)據(jù)與多階段組合的關(guān)聯(lián)分析。大數(shù)據(jù)技術(shù)可以有效地提高存儲(chǔ)和分析的速度,多源異構(gòu)數(shù)據(jù)挖掘和分析用時(shí)更短,關(guān)聯(lián)挖掘大規(guī)模系統(tǒng)的安全隱患、關(guān)聯(lián)不同階段的攻擊行為特征等可能性存在。例如,對僵尸網(wǎng)絡(luò)進(jìn)行分析,不僅可以結(jié)合DNS的流量特性,還可以對數(shù)據(jù)進(jìn)行進(jìn)一步的擴(kuò)展和來源分析,將全分組數(shù)據(jù)集合、對溯源數(shù)據(jù)和莫管數(shù)據(jù)進(jìn)行攻擊、深度關(guān)聯(lián)分析外界情報(bào)等信息。
2基數(shù)大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)安全平臺(tái)建設(shè)
2.1基于大數(shù)據(jù)的網(wǎng)絡(luò)安全平臺(tái)架構(gòu)
該平臺(tái)由數(shù)據(jù)采集層、大數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)挖掘分析層和數(shù)據(jù)表示層組成。數(shù)據(jù)采集層可以根據(jù)流量、用戶身份信息、事件和威脅信息收集多源異構(gòu)信息。大數(shù)據(jù)存儲(chǔ)層可用于分布式文件系統(tǒng)長期總存儲(chǔ)大量的信息,并能實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),分布式文件系統(tǒng)使用真實(shí)的數(shù)據(jù)均勻分布的均衡算法,為今后提高數(shù)據(jù)檢索的速度。數(shù)據(jù)挖掘分析層能夠?qū)崒r(shí)數(shù)據(jù)分析關(guān)聯(lián)、分析情境、提取特征,以此來實(shí)現(xiàn)安全事件的挖掘,迅速發(fā)現(xiàn)異常網(wǎng)絡(luò)行為并追溯其根源,同時(shí)搜索信息數(shù)據(jù)的查詢和定位。數(shù)據(jù)呈現(xiàn)層能夠?qū)⒋髷?shù)據(jù)分析結(jié)構(gòu)進(jìn)行可視化的呈現(xiàn),通過多種維度展現(xiàn)網(wǎng)絡(luò)安全狀態(tài)。
2.2平臺(tái)實(shí)現(xiàn)的技術(shù)支持
2.2.1數(shù)據(jù)采集技術(shù)。本平臺(tái)采取Flume、Kafka、Storm結(jié)合的形式進(jìn)行數(shù)據(jù)采集。使用Flume進(jìn)行海量安全數(shù)據(jù)的采集、整合與傳輸具有可呈現(xiàn)分布式、可靠性高、可用性高的特點(diǎn),利用定制的數(shù)據(jù),讓發(fā)送方能夠手機(jī)到源自不同數(shù)據(jù)源的數(shù)據(jù),把數(shù)據(jù)簡單處理后發(fā)送給各個(gè)數(shù)據(jù)的定制方。
2.2.2數(shù)據(jù)存儲(chǔ)技術(shù)。使用HDFS進(jìn)行采集后的數(shù)據(jù)存儲(chǔ),HDFS分布式文件系統(tǒng)有著高吞吐量和高容錯(cuò)性的特點(diǎn),命名空間使用的是元數(shù)據(jù)管理節(jié)點(diǎn)文件系統(tǒng),數(shù)據(jù)節(jié)點(diǎn)被用來存儲(chǔ)數(shù)據(jù)文件,將64兆字節(jié)的數(shù)據(jù)塊作為最基本存儲(chǔ)單位。元數(shù)據(jù)節(jié)點(diǎn)的數(shù)量與數(shù)據(jù)文件的大小成粉筆,同一時(shí)間如果訪問過多的文件就會(huì)造成系統(tǒng)性能的嚴(yán)重下降。所以,想要保障數(shù)據(jù)處理和分析的效率,此平臺(tái)使用的存儲(chǔ)單位就是HDFS數(shù)據(jù)塊存儲(chǔ),把采集得來的數(shù)據(jù)歸納處理之后,保證每個(gè)文件的大小滿足64兆字節(jié)。
2.2.3數(shù)據(jù)分析技術(shù)。此平臺(tái)使用Hive完成數(shù)據(jù)統(tǒng)計(jì)與分析,采取類似SQL的HiveQL語言滿足HDFS與HBase對于非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行快速檢索的。該平臺(tái)使用Hive對API進(jìn)行封裝,使用定制的插件開發(fā)和實(shí)現(xiàn)各種數(shù)據(jù)的處理、分析與統(tǒng)計(jì)。對于數(shù)據(jù)的挖掘分析,給平臺(tái)使用Mahout完成基于Hadoop的機(jī)械學(xué)習(xí),同時(shí)完成數(shù)據(jù)的挖掘與整理。針對事件流的關(guān)聯(lián)與分析,該平臺(tái)使用了CPE,把系統(tǒng)數(shù)據(jù)當(dāng)作是各種類型的事件,對時(shí)間之間的關(guān)聯(lián)性進(jìn)行分析,構(gòu)建起分門別類的事件關(guān)系序列庫,完成從簡單事件到高級(jí)事件的轉(zhuǎn)化,在大量的信息中尋找到網(wǎng)絡(luò)安全隱患。
3結(jié)束語
大數(shù)據(jù)技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用,實(shí)現(xiàn)了準(zhǔn)確、快速、低價(jià)格的目的。在這個(gè)階段,如何在網(wǎng)絡(luò)安全中更有效地利用大數(shù)據(jù)技術(shù)已成為業(yè)界關(guān)注的熱點(diǎn)和焦點(diǎn)。本文以當(dāng)前針對網(wǎng)絡(luò)漏洞與攻擊的情況的防御需求為出發(fā)點(diǎn),討論了將大數(shù)據(jù)技術(shù)應(yīng)用到網(wǎng)絡(luò)安全領(lǐng)域的收集、存儲(chǔ)、檢索以及分析的應(yīng)用手段,有效地提升了網(wǎng)絡(luò)安全防御的準(zhǔn)確度和效率。
參考文獻(xiàn):
[1]孫玉. 淺談網(wǎng)絡(luò)安全分析中的大數(shù)據(jù)技術(shù)應(yīng)用[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2017,(04):102+106.
[2]賈衛(wèi). 網(wǎng)絡(luò)安全分析中的大數(shù)據(jù)技術(shù)應(yīng)用探討[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016,(11):96+98.
[3]王帥,汪來富,金華敏,沈軍. 網(wǎng)絡(luò)安全分析中的大數(shù)據(jù)技術(shù)應(yīng)用[J]. 電信科學(xué),2015,31(07):145-150.
作者簡介:曹琦(1996.03.26)男,民族:漢,籍貫:湖南永州,職務(wù):大學(xué)在校,職稱:學(xué)生,學(xué)歷:高中,研究方向:計(jì)算機(jī),單位:陸軍步兵學(xué)院石家莊校區(qū)。endprint