彭亞非
摘 要:隨著大數(shù)據(jù)技術(shù)在各領(lǐng)域中的應(yīng)用,大大地減少網(wǎng)絡(luò)安全事情的發(fā)生率。本文將詳細(xì)闡述基于網(wǎng)絡(luò)流量元數(shù)據(jù)的安全大數(shù)據(jù)分析。
關(guān)鍵詞:網(wǎng)絡(luò)流量;元數(shù)據(jù);大數(shù)據(jù)分析
近年來,網(wǎng)絡(luò)攻擊事件頻繁發(fā)生,傳統(tǒng)的安全防御體系難以滿足網(wǎng)絡(luò)需要。大數(shù)據(jù)技術(shù)具有用戶追蹤和情報(bào)收集的功能,可以通過實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)的數(shù)據(jù)歷史,以提高網(wǎng)絡(luò)安全,大大地避免網(wǎng)絡(luò)攻擊事件的發(fā)生,對(duì)網(wǎng)絡(luò)信息安全領(lǐng)域有著重要的意義。
1 網(wǎng)絡(luò)流量分離平臺(tái)
現(xiàn)階段大數(shù)據(jù)分析技術(shù)已收到界內(nèi)所有人的關(guān)注,但很多人對(duì)于大數(shù)據(jù)分析的理解始終停留在表面,關(guān)于大數(shù)據(jù)的生成方式一無所知。大數(shù)據(jù)分析需要大量的數(shù)據(jù)集作為基礎(chǔ)條件,過小的數(shù)據(jù)集無法支持大數(shù)據(jù)分析,對(duì)于真實(shí)情況不能很好的進(jìn)行反饋,而這也將失去繼續(xù)改進(jìn)的機(jī)會(huì)。目前大多數(shù)的企業(yè)的IT服務(wù)對(duì)于信息安全方面的要求較高,而本文將提到的網(wǎng)絡(luò)流量分流平臺(tái)是在網(wǎng)絡(luò)交換路由設(shè)備的各特性基礎(chǔ)上建立起來的多性能平臺(tái),完全可以滿足當(dāng)前企業(yè)網(wǎng)絡(luò)的流量分析,而且由于其實(shí)分布式的部署方式,可以使流量線性分流,從而大幅度擴(kuò)大流量規(guī)模,實(shí)現(xiàn)信息的實(shí)時(shí)分離和匯聚,從而提高海量元數(shù)據(jù)分析的穩(wěn)定性。
2 元數(shù)據(jù)的定義、采集和存儲(chǔ)
在傳統(tǒng)主干網(wǎng)中,主要通過實(shí)時(shí)分析各主干節(jié)點(diǎn)路由器傳輸?shù)男畔ⅲ⑼诰蚺c其相關(guān)的歷史信息,迅速發(fā)現(xiàn)導(dǎo)致網(wǎng)絡(luò)流量連接異常的安全事件,已達(dá)到安全監(jiān)測(cè)的目的。例如通過獲取flow信息來源,進(jìn)行預(yù)警,從而借助特定端口的網(wǎng)絡(luò)掃描能力,迅速查找流量放大攻擊事件。但隨著網(wǎng)絡(luò)攻防和安全防御方法逐漸被人了解,緊靠flow信息的收集已經(jīng)逐漸不能滿足網(wǎng)絡(luò)的安全監(jiān)測(cè)需要。無論是企業(yè)網(wǎng)還是校園網(wǎng),其入侵監(jiān)測(cè)系統(tǒng)主要是根據(jù)網(wǎng)絡(luò)流量進(jìn)行信息報(bào)警的系統(tǒng),報(bào)警過程產(chǎn)生的大量數(shù)據(jù)為元數(shù)據(jù)類型中的一種。但入侵檢測(cè)的效果與特征規(guī)則庫的更新及質(zhì)量有直接關(guān)系,檢測(cè)功能很難作用在未知和新型的安全威脅,而且它具有很強(qiáng)的實(shí)效性,一旦沒有捕捉到安全事件,則不會(huì)再次檢測(cè)。對(duì)于商業(yè)入侵檢測(cè)系統(tǒng)的研究,由于詳細(xì)程度較低,且輸出類型較少,所以無法支持研究,對(duì)此,通過開源的Snort,以分布式部署的方式,同時(shí)運(yùn)行多個(gè)檢測(cè)引擎,從而形成大規(guī)模的檢測(cè)系統(tǒng),不僅性能較高,且能夠快速進(jìn)行更新,可控性也有極大的提高[1]。
從網(wǎng)絡(luò)流量中可以獲取到非常豐富的各種類型元數(shù)據(jù)的信息量,而且在很多單位和企業(yè)中,就算將所有的數(shù)據(jù)進(jìn)行存儲(chǔ)也不會(huì)付出超過自身無法承受的代價(jià)。通過Web訪問的元數(shù)據(jù)可以直接檢測(cè)不加密的HTTP請(qǐng)求和響應(yīng)報(bào)文;通過FTP訪問的元數(shù)據(jù)可以直接檢測(cè)FTP請(qǐng)求和響應(yīng)報(bào)文;通過域名請(qǐng)求和響應(yīng)的元數(shù)據(jù)可以直接檢測(cè)DNS協(xié)議的Response和Query信息;通過五元組和flow元數(shù)據(jù)可以直接進(jìn)行應(yīng)用層協(xié)議分析。當(dāng)前大多數(shù)商業(yè)流量控制產(chǎn)品或在審計(jì)用戶行為過程中產(chǎn)生的各種類型和格式的元數(shù)據(jù)都是由Socket或Syslog進(jìn)行輸出而成的,但考慮到實(shí)際的性能,很多時(shí)候都是在開源庫和開源軟件的基礎(chǔ)上以滿足10G流量處理的需要而提取的元數(shù)據(jù)。如今10G流量可以使用分布式部署方式實(shí)現(xiàn)大規(guī)模流量分析,及本地文件儲(chǔ)存各類元數(shù)據(jù)的功能[2]。
3 大數(shù)據(jù)分析平臺(tái)
由于大數(shù)據(jù)分析是對(duì)不同的目標(biāo)和對(duì)象進(jìn)行分析,因而需要使用的分析平臺(tái)也就有針對(duì)性。使用Hadoop平臺(tái)的HDFS文件系統(tǒng)存儲(chǔ)從網(wǎng)絡(luò)流量生成的大量元數(shù)據(jù),通過HIVE進(jìn)行對(duì)安全關(guān)聯(lián)數(shù)據(jù)的挖掘,可以大幅度減少不必要的數(shù)據(jù)集。當(dāng)前傳統(tǒng)關(guān)系型數(shù)據(jù)庫包括MySQL、PostgreSQL等,能存儲(chǔ)不同類型的安全事件和相關(guān)聯(lián)的信息。傳統(tǒng)關(guān)系型數(shù)據(jù)庫具有高實(shí)時(shí)性查詢功能,能滿足常規(guī)數(shù)據(jù)的實(shí)時(shí)查詢,Hadoop具有低實(shí)時(shí)性的查詢功能,可以用于查詢海量數(shù)據(jù),兩者有各自的優(yōu)勢(shì),也有一定的缺點(diǎn),只有進(jìn)行互補(bǔ)提高自身的效率,以開通更優(yōu)質(zhì)的業(yè)務(wù)服務(wù)。此外,處理數(shù)據(jù)過程中,對(duì)Linux Shell命令組和Python腳本進(jìn)行合理的運(yùn)用,也可以促進(jìn)系統(tǒng)運(yùn)行效率的提高。
使用大數(shù)據(jù)分析實(shí)驗(yàn)平臺(tái)Hadoop,主要因?yàn)槠渚哂?4臺(tái)物理機(jī)節(jié)點(diǎn),可以極大地滿足安全分析的需求。其中存儲(chǔ)計(jì)算節(jié)點(diǎn)有21個(gè),管理節(jié)點(diǎn)有2個(gè),作業(yè)提交節(jié)點(diǎn)有1個(gè),所有的節(jié)點(diǎn)都有配置合適的CPU、內(nèi)存、SSD硬盤、SATA硬盤,并利用以太網(wǎng)的萬兆流量,將所有節(jié)點(diǎn)的網(wǎng)絡(luò)進(jìn)行連接,最后形成大容量的HDFS[3]。
Hadoop在部署軟件過程中使用Cloudera Standard4.8.0版本進(jìn)行的,且采用CDH4.6.0+IMPALA 1.3.2+SOLR 1.2.0作為系統(tǒng)的組件。MapReduce統(tǒng)計(jì)是當(dāng)前查詢中最常用的軟件,其中應(yīng)用程序包括SQL語句和HIVE。投入使用后,通過瀏覽器的GUI查詢可以發(fā)現(xiàn)其使用效果還存在不穩(wěn)定的因素,而且為實(shí)現(xiàn)自動(dòng)化的目標(biāo),最后還是在命令行界面進(jìn)行實(shí)際的查詢?,F(xiàn)階段Hadoop平臺(tái)無論是響應(yīng)應(yīng)用需求時(shí)間還是全部硬件性能都還可以接受,因而索引還沒有通過分區(qū)列和壓縮進(jìn)行優(yōu)化。當(dāng)然,目前對(duì)Hadoop平臺(tái)性能的優(yōu)化研究并沒有停止,直至查詢效率實(shí)現(xiàn)最優(yōu)化為止。
4 基于挖掘和關(guān)聯(lián)的大數(shù)據(jù)分析
前期進(jìn)行的統(tǒng)計(jì)分析是為后續(xù)安全分析提供數(shù)據(jù),而前期的數(shù)據(jù)屬于混雜的大數(shù)據(jù),不利于后期的分析,因此在前期時(shí)需要將大數(shù)據(jù)轉(zhuǎn)換成小數(shù)據(jù)。在這個(gè)過程中,首要目標(biāo)是先要在IP的基礎(chǔ)上建立和形成一系列黑白名單。白名單制能夠自動(dòng)對(duì)前期的網(wǎng)絡(luò)流量進(jìn)行調(diào)整,為確保安全分析的效率,它可以提前處理掉許多無用的數(shù)據(jù),以便后期的處理分析和存儲(chǔ)。黑名單制能夠根據(jù)數(shù)據(jù)所處的區(qū)域,進(jìn)行鎖定操作,從而對(duì)數(shù)據(jù)的發(fā)展和變化趨勢(shì)進(jìn)行跟蹤,從而有效地提高安全監(jiān)測(cè)效率。
部分安全漏洞對(duì)網(wǎng)絡(luò)的損害極為嚴(yán)重,但其發(fā)生較為突然,而使用大數(shù)據(jù)分析后,可以對(duì)這種安全事件及時(shí)反映,并迅速對(duì)安全等級(jí)進(jìn)行測(cè)定。多種WebShell和通過網(wǎng)站傳播的木馬在攻擊網(wǎng)絡(luò)時(shí)都可以從元數(shù)據(jù)中提取出明顯的特征,利用各種挖掘算法并關(guān)聯(lián)分析,就能了解投放的人、時(shí)間、地點(diǎn)等。網(wǎng)絡(luò)攻擊者在制造網(wǎng)絡(luò)安全事件后,都會(huì)在入侵完主機(jī)后消除各種痕跡,但這些痕跡卻早已經(jīng)被基于網(wǎng)絡(luò)流量的元數(shù)據(jù)記錄下來。不管是哪種攻擊方式,只要入侵過主機(jī),都會(huì)有痕跡存在,而元數(shù)據(jù)則可以將這些痕跡進(jìn)行還原,了解攻擊方式、地點(diǎn)及時(shí)間,從而第一時(shí)間追蹤到攻擊者的IP地址。當(dāng)然并非所有的攻擊都能夠進(jìn)行實(shí)時(shí)阻斷,其中必然會(huì)有一些忽略,但事后會(huì)自動(dòng)開啟安全應(yīng)急響應(yīng)措施進(jìn)行補(bǔ)救,實(shí)用性還是比較高的,而這都是基于元數(shù)據(jù)的積累上,元數(shù)據(jù)太少,就可能無法發(fā)現(xiàn)攻擊,安全事件就會(huì)頻繁發(fā)生。隨著網(wǎng)絡(luò)安全監(jiān)測(cè)被人熟知,攻擊渠道可能已經(jīng)不再局限于HTTP協(xié)議,還可以用過SSL加密或其它渠道發(fā)起高持續(xù)性威脅攻擊?,F(xiàn)階段的高校還無法完全防御這種攻擊方式,但提取應(yīng)用層協(xié)議存儲(chǔ)和IP流量中的元數(shù)據(jù),可以直接分析攻擊方式,就可以實(shí)現(xiàn)在攻擊時(shí)第一時(shí)間發(fā)現(xiàn),并根據(jù)痕跡及時(shí)進(jìn)行跟蹤,從而降低或避免損失[4]。
5 結(jié)語
網(wǎng)絡(luò)安全問題一直是全球都關(guān)注的話題,隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)攻擊方式越來越多,而傳統(tǒng)安全防御體系也存在防御乏力的現(xiàn)象。大數(shù)據(jù)技術(shù)是基于這種背景下研究出來的新型防御技術(shù),它的主要價(jià)值在于分析和跟蹤,通過分析大量的數(shù)據(jù),還原安全事件的形成過程,并進(jìn)行實(shí)時(shí)跟蹤,對(duì)網(wǎng)絡(luò)安全領(lǐng)域有著重要的意義。
參考文獻(xiàn)
[1]姜開達(dá),李霄,孫強(qiáng). 基于網(wǎng)絡(luò)流量元數(shù)據(jù)的安全大數(shù)據(jù)分析[J]. 信息網(wǎng)絡(luò)安全,2014,05:37-40.
[2]付鈺,李洪成,吳曉平,王甲生. 基于大數(shù)據(jù)分析的APT攻擊檢測(cè)研究綜述[J]. 通信學(xué)報(bào),2015,11:1-14.
[3]蔡宗慧,郝帥. 基于信息保障技術(shù)框架網(wǎng)絡(luò)安全技術(shù)整合及應(yīng)用研究[J]. 電腦編程技巧與維護(hù),2016,13:89-90.
[4]莊懷東,杜慶偉. 一種基于SDN的數(shù)據(jù)中心網(wǎng)絡(luò)動(dòng)態(tài)流量調(diào)度方法[J]. 計(jì)算機(jī)與現(xiàn)代化,2016,07:80-86.