袁曉平
(鄭州工業(yè)應(yīng)用技術(shù)學(xué)院,河南 新鄭 451100)
網(wǎng)絡(luò)技術(shù)不斷發(fā)展,對(duì)應(yīng)的網(wǎng)絡(luò)攻擊技術(shù)也發(fā)展迅速,網(wǎng)絡(luò)黑客會(huì)采用越來(lái)越隱蔽的攻擊手段繞過(guò)檢測(cè),通過(guò)越來(lái)越復(fù)雜的攻擊行為達(dá)到既定的攻擊目的,并且黑客的潛伏周期越來(lái)越長(zhǎng)。普通的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)主要基于入侵行為模式特征進(jìn)行檢測(cè),這就意味著其只能檢測(cè)出已有的入侵行為模式,但是卻無(wú)法準(zhǔn)確檢測(cè)出新的入侵方式,一旦有了新的入侵行為,就需要安全專家重新分析、提取新的入侵方式模型特征,再在系統(tǒng)中生成新的檢測(cè)規(guī)則。這種方法在復(fù)雜多變的網(wǎng)絡(luò)攻擊環(huán)境中很顯然已經(jīng)不適用。
基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)異常行為分析監(jiān)測(cè)系統(tǒng)的關(guān)鍵技術(shù)包括以下3個(gè)方面。
網(wǎng)絡(luò)異常行為分析主要以數(shù)據(jù)的監(jiān)控、收集、分析為基礎(chǔ),數(shù)據(jù)監(jiān)控、收集、分析的規(guī)模越大,網(wǎng)絡(luò)異常行為監(jiān)測(cè)的準(zhǔn)確性就越高,因此大規(guī)模監(jiān)控采集技術(shù)非常重要。實(shí)際應(yīng)用過(guò)程中,監(jiān)控采集技術(shù)要先進(jìn)行主動(dòng)上報(bào)工作,收集、監(jiān)控各項(xiàng)信息數(shù)據(jù)時(shí),以本地代理Agent上報(bào)為主要形式,輔助形式采用遠(yuǎn)程探針Probe采集形式,主動(dòng)上報(bào)為信息收集與監(jiān)控的優(yōu)先級(jí)內(nèi)容,不斷深入發(fā)展采集顆粒度,實(shí)時(shí)采集本地?cái)?shù)據(jù),以此為基礎(chǔ)進(jìn)行數(shù)據(jù)分析,將一些復(fù)雜的安全認(rèn)證環(huán)節(jié)減少至最少。工作過(guò)程中網(wǎng)絡(luò)異常行為監(jiān)測(cè)系統(tǒng)設(shè)置為開(kāi)機(jī)自啟動(dòng)模式,無(wú)需人工監(jiān)測(cè)。大規(guī)模監(jiān)控采集技術(shù)還能夠?qū)崿F(xiàn)匯聚壓力分?jǐn)傂ЧO(jiān)控系統(tǒng)服務(wù)端的數(shù)據(jù)處理壓力很大,分布式匯聚技術(shù)可以按照需求在服務(wù)端與Agent,Probe之間適當(dāng)增加匯聚代理,以提高數(shù)據(jù)預(yù)處理的效率,尤其是在一些復(fù)雜的網(wǎng)絡(luò)安全環(huán)境中,分布式采集匯聚技術(shù)的優(yōu)勢(shì)能夠更充分地發(fā)揮出來(lái)[1]。
在海量數(shù)據(jù)檢索及分析過(guò)程中,可應(yīng)用Elasticsearch技術(shù)開(kāi)展檢索工作,在頁(yè)面交互查詢過(guò)程中會(huì)形成告警結(jié)果數(shù)據(jù),應(yīng)用Elasticsearch分析這些數(shù)據(jù)十分高效。Hadoop分布式文件系統(tǒng)可有效存儲(chǔ)大規(guī)模數(shù)據(jù)集,因此在網(wǎng)絡(luò)異常行為監(jiān)測(cè)系統(tǒng)中會(huì)將全面收集到的原始數(shù)據(jù)、預(yù)處理結(jié)果數(shù)據(jù)放入分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)中,并將Spark技術(shù)的作用充分發(fā)揮出來(lái)。Spark是一種專門針對(duì)大規(guī)模數(shù)據(jù)分析的快速通用計(jì)算引擎,能夠深入地挖掘歷史數(shù)據(jù)。此外,大數(shù)據(jù)技術(shù)中的My SQL為關(guān)系數(shù)據(jù)庫(kù),可以存儲(chǔ)海量的報(bào)告數(shù)據(jù)、統(tǒng)計(jì)結(jié)果數(shù)據(jù)、系統(tǒng)管理類數(shù)據(jù)等;Redis也是重要的存儲(chǔ)系統(tǒng),多應(yīng)用于關(guān)聯(lián)性較強(qiáng)的信息分析處理,其能夠?qū)崟r(shí)分析數(shù)據(jù),找到互相關(guān)聯(lián)的信息[2]。
網(wǎng)絡(luò)異常行為分析監(jiān)測(cè)系統(tǒng)中,實(shí)時(shí)流事件處理技術(shù)具有重要的地位,其主要收集、分析實(shí)時(shí)數(shù)據(jù)以及信息流,這些都是后續(xù)數(shù)據(jù)分析的信息基礎(chǔ)。將實(shí)時(shí)流事件處理技術(shù)與既定的檢測(cè)規(guī)則、信息數(shù)據(jù)進(jìn)行細(xì)致對(duì)比,可以準(zhǔn)確地發(fā)現(xiàn)某些信息、數(shù)據(jù)的不合常理之處,為后續(xù)的網(wǎng)絡(luò)異常行為判斷提供依據(jù)。Spark Steaming是一種重要的流式處理系統(tǒng),其具備較高的容錯(cuò)率及高通量,能夠合理對(duì)接多種數(shù)據(jù)源,因此在實(shí)時(shí)數(shù)據(jù)處理方面有著明顯的優(yōu)勢(shì)。
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)中數(shù)據(jù)的體量越來(lái)越大,網(wǎng)絡(luò)信息數(shù)據(jù)的經(jīng)濟(jì)價(jià)值、社會(huì)價(jià)值、研究?jī)r(jià)值也越來(lái)越高,越來(lái)越多的不法分子通過(guò)非法途徑獲取網(wǎng)絡(luò)信息,以達(dá)到自己的非法目的。針對(duì)網(wǎng)絡(luò)信息的異常行為也越來(lái)越多,因此需要網(wǎng)絡(luò)管理人員精確地追溯攻擊路徑,通過(guò)構(gòu)建強(qiáng)大的異常行為監(jiān)測(cè)系統(tǒng)保障網(wǎng)絡(luò)信息的安全性。本研究提出的網(wǎng)絡(luò)異常行為監(jiān)測(cè)系統(tǒng)架構(gòu)包括數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)存儲(chǔ)層、分析計(jì)算層等,其中數(shù)據(jù)采集層的主要作用是采集網(wǎng)絡(luò)中的數(shù)據(jù)源,再將記錄的網(wǎng)絡(luò)行為日志發(fā)送至kafka;數(shù)據(jù)處理層的主要作用是分析、處理采集到的網(wǎng)絡(luò)行為日志,通過(guò)kafka消息服務(wù)信息對(duì)采集層、處理層及存儲(chǔ)層之間的數(shù)據(jù)進(jìn)行解耦合;存儲(chǔ)于kafka上的數(shù)據(jù)日志、解析日志在被數(shù)據(jù)存儲(chǔ)層讀取后存儲(chǔ)于分布式數(shù)據(jù)庫(kù)中;分析計(jì)算層的主要作用是通過(guò)分析數(shù)據(jù)來(lái)源得出相關(guān)分析報(bào)告,完成數(shù)據(jù)實(shí)現(xiàn)[3]。數(shù)據(jù)采集層、處理層、存儲(chǔ)層、分析計(jì)算層各層之間均通過(guò)標(biāo)準(zhǔn)接口及數(shù)據(jù)連接,減少了各層之間數(shù)據(jù)組件的問(wèn)題及對(duì)其他結(jié)構(gòu)的影響。
本系統(tǒng)中所有網(wǎng)絡(luò)異常行為感知采用的是分布式結(jié)構(gòu)來(lái)完成,在分布式系統(tǒng)上集成HBase提高數(shù)據(jù)傳輸?shù)男?。?yīng)用專業(yè)的采集服務(wù)引擎采集數(shù)據(jù),將大量的歷史數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)存儲(chǔ)于系統(tǒng)后臺(tái),可以采用列模式存儲(chǔ)來(lái)提高數(shù)據(jù)的存儲(chǔ)效率。由于系統(tǒng)所采集到的數(shù)據(jù)具有較高的冗余性,數(shù)據(jù)之間缺乏必要的關(guān)聯(lián)性,因此本系統(tǒng)應(yīng)用聚類算法對(duì)數(shù)據(jù)之間的內(nèi)在聯(lián)系進(jìn)行分析,系統(tǒng)接收到海量數(shù)據(jù)后先通過(guò)數(shù)據(jù)維數(shù)約減算法將這些數(shù)據(jù)預(yù)處理為標(biāo)準(zhǔn)數(shù)據(jù),分析得出數(shù)據(jù)之間的相關(guān)性,然后提取數(shù)據(jù)之間的顯性特征,分析出數(shù)據(jù)中的隱性特征和數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián),不斷提高海量數(shù)據(jù)的應(yīng)用價(jià)值。Hive技術(shù)采用數(shù)據(jù)挖掘算法實(shí)現(xiàn)價(jià)值數(shù)據(jù)的離線關(guān)聯(lián)分析,并將數(shù)據(jù)可視化地呈現(xiàn)給用戶,完成對(duì)價(jià)值數(shù)據(jù)的深入挖掘。在數(shù)據(jù)實(shí)時(shí)關(guān)聯(lián)分析階段應(yīng)用數(shù)據(jù)的規(guī)則關(guān)聯(lián)與日志聚合技術(shù)可以大大提高數(shù)據(jù)的安全性。異常行為采集模塊又包括安全風(fēng)險(xiǎn)及指標(biāo)、風(fēng)險(xiǎn)評(píng)估與處置、告警管理3個(gè)子模塊。其中安全風(fēng)險(xiǎn)及指標(biāo)主要對(duì)數(shù)據(jù)信息整個(gè)生命周期中的異常行為進(jìn)行識(shí)別、鑒定,是識(shí)別各種風(fēng)險(xiǎn)行為的基礎(chǔ)。風(fēng)險(xiǎn)評(píng)估則是根據(jù)風(fēng)險(xiǎn)量化模型對(duì)采集到的數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)估,根據(jù)評(píng)估結(jié)果等級(jí)對(duì)風(fēng)險(xiǎn)行為進(jìn)行排序,優(yōu)化處理風(fēng)險(xiǎn)評(píng)估等級(jí)最高的異常行為。風(fēng)險(xiǎn)控制主要是對(duì)網(wǎng)絡(luò)攻擊行為進(jìn)行具體分析,根據(jù)異常行為的發(fā)生原理采取應(yīng)對(duì)措施,以提高網(wǎng)絡(luò)異常行為風(fēng)險(xiǎn)處理的效率。
網(wǎng)絡(luò)異常行為精確感知模塊設(shè)計(jì)會(huì)應(yīng)用到大數(shù)據(jù)框架技術(shù)、智能感知技術(shù)、交互式可視化技術(shù)、異常行為量化評(píng)估模型等。網(wǎng)絡(luò)異常行為的主要風(fēng)險(xiǎn)因素包括威脅、設(shè)備、安全防護(hù)措施等,分析網(wǎng)絡(luò)異常行為時(shí)需準(zhǔn)確識(shí)別此類要素,并分析各要素之間的關(guān)系。具體的網(wǎng)絡(luò)異常行為及其影響包括:蓄意破壞設(shè)備或信息,會(huì)導(dǎo)致信息數(shù)據(jù)不完整或數(shù)據(jù)泄漏;非法人員在未授權(quán)的情況下非法讀取數(shù)據(jù)信息,甚至出現(xiàn)篡改數(shù)據(jù)信息、傳播病毒代碼、留下木馬后門等嚴(yán)重非法行為;工作人員自身的失誤也會(huì)造成數(shù)據(jù)信息有誤,影響到網(wǎng)絡(luò)信息的安全。網(wǎng)絡(luò)系統(tǒng)運(yùn)行過(guò)程中任一階段都可能會(huì)出現(xiàn)異常行為,分析異常行為發(fā)生的概率,確定網(wǎng)絡(luò)攻擊行為的權(quán)重,再根據(jù)攻擊行為的危害后果定義風(fēng)險(xiǎn)指標(biāo),結(jié)合風(fēng)險(xiǎn)庫(kù)、數(shù)據(jù)屬性、風(fēng)險(xiǎn)評(píng)估對(duì)象對(duì)風(fēng)險(xiǎn)行為進(jìn)行定義、識(shí)別、分析,采用風(fēng)險(xiǎn)量化模型計(jì)算網(wǎng)絡(luò)異常行為的風(fēng)險(xiǎn)值,根據(jù)網(wǎng)絡(luò)異常行為的風(fēng)險(xiǎn)等級(jí)、行為特點(diǎn)計(jì)算模擬安全控制措施的有效性。制定并執(zhí)行風(fēng)險(xiǎn)動(dòng)態(tài)管理機(jī)制,提高網(wǎng)絡(luò)安全管理執(zhí)行效率[4]。
網(wǎng)絡(luò)非法攻擊行為已經(jīng)由傳統(tǒng)簡(jiǎn)單粗暴的非目標(biāo)值變換為精準(zhǔn)攻擊、精細(xì)化的分布式拒絕服務(wù)(Distributed Denial of Service,DDoS)攻擊,特別是危害巨大的高級(jí)持續(xù)性威脅(Advanced Persistent Threat,APT)攻擊。因此網(wǎng)絡(luò)異常行為監(jiān)測(cè)系統(tǒng)在識(shí)別網(wǎng)絡(luò)異常行為后,要完成網(wǎng)絡(luò)異常行為的精確感知并進(jìn)行異常行為分析。網(wǎng)絡(luò)異常行為分析模塊可以獲取各種復(fù)雜環(huán)境下的告警信息、異常行為安全分析、控制行為等,分析數(shù)據(jù)前要先了解數(shù)據(jù)結(jié)構(gòu)的組成及功能作用,并提高數(shù)據(jù)信息的標(biāo)準(zhǔn)化、多樣化,以提高數(shù)據(jù)挖掘的效率及異常行為建模的精確性,獲得更加精確的內(nèi)在價(jià)值數(shù)據(jù)。系統(tǒng)的數(shù)據(jù)可視化功能可以將數(shù)據(jù)信息價(jià)值多樣化地呈現(xiàn)出來(lái)[5]。本系統(tǒng)中網(wǎng)絡(luò)異常行為防護(hù)規(guī)則包括:首先,系統(tǒng)已經(jīng)判定為惡意IP地址的要絕對(duì)禁止其訪問(wèn)系統(tǒng),從根源上隔離非法用戶,保證信息數(shù)據(jù)的安全性;其次,系統(tǒng)識(shí)別到惡意域名后直接拒絕其訪問(wèn)請(qǐng)求,一般情況下一些惡意IP地址會(huì)被防火墻阻擋在外,但是也會(huì)有些IP地址是防火墻無(wú)法識(shí)別的,系統(tǒng)在識(shí)別到這些惡意IP地址的訪問(wèn)請(qǐng)求時(shí)會(huì)直接拒絕,并將其訪問(wèn)記錄存儲(chǔ)于數(shù)據(jù)庫(kù)中,將其域名定義為“不可解析”;再次,網(wǎng)絡(luò)異常行為中的惡意文件主要是釣魚代碼、病毒,其主要目的是非法用戶實(shí)現(xiàn)對(duì)系統(tǒng)的遠(yuǎn)程控制或啟動(dòng)木馬程序,異常行為監(jiān)測(cè)系統(tǒng)可以識(shí)別這類惡意文件,直接拒絕讀取文件,以起到保護(hù)系統(tǒng)數(shù)據(jù)安全的作用;最后,控制郵件發(fā)布者的訪問(wèn)控制權(quán)限[6]。一直以來(lái)惡意郵件都是使系統(tǒng)受到攻擊的重要途徑,一般情況下,系統(tǒng)會(huì)通過(guò)檢查郵件后綴識(shí)別其合法性,直接控制郵件發(fā)布者的訪問(wèn)控制權(quán)限,保護(hù)數(shù)據(jù)安全。而影響防護(hù)規(guī)則有效性的因素也比較復(fù)雜,比如攻擊行為發(fā)生的位置、防護(hù)系統(tǒng)的具體部署方案等,通常情況下防護(hù)規(guī)則可遵循就近處理的原則部署于最靠近攻擊行為的部位,以更好地阻止攻擊行為。
系統(tǒng)運(yùn)行過(guò)程中,首先會(huì)建立異常行為監(jiān)測(cè)門戶,該門戶中包括各種異常行為的搜索、信息展示設(shè)計(jì)等,通過(guò)交互界面將所有的異常行為展示出來(lái),尤其是重點(diǎn)展示攻擊行為、攻擊手段、攻擊對(duì)象等,還可以重點(diǎn)搜索漏洞、郵箱、已知黑客代碼、IP地址等外部行為,攻取攻擊行為的相關(guān)信息后向系統(tǒng)發(fā)送告警信息。然后,系統(tǒng)會(huì)采集網(wǎng)絡(luò)異常行為信息,主要是獲取原始網(wǎng)絡(luò)日志,比如網(wǎng)絡(luò)攻擊異常行為、安全通告漏洞、各類補(bǔ)丁信息、采集接口信息等,除此之外還包括攻擊目標(biāo)本身的信息數(shù)據(jù)[7]。完成網(wǎng)絡(luò)異常行為信息采集后,系統(tǒng)會(huì)對(duì)異常行為進(jìn)行分析,禁止網(wǎng)絡(luò)內(nèi)部設(shè)備與危險(xiǎn)IP地址進(jìn)行數(shù)據(jù)交換。最后,將監(jiān)測(cè)到的異常行為信息存儲(chǔ)于安全異常行為庫(kù)中,信息包括已造成威脅的異常IP、網(wǎng)址、鏈接等,一旦這些信息試圖訪問(wèn)系統(tǒng),系統(tǒng)就會(huì)啟動(dòng)防火墻隔斷、禁止運(yùn)行、刪除危險(xiǎn)文件、清除注冊(cè)表等防護(hù)措施,保證系統(tǒng)數(shù)據(jù)的安全性。
大數(shù)據(jù)技術(shù)的發(fā)展提高了對(duì)于海量數(shù)據(jù)處理的能力,應(yīng)用大數(shù)據(jù)技術(shù)挖掘分析歷史數(shù)據(jù)、檢測(cè)實(shí)時(shí)數(shù)據(jù)流,通過(guò)非基于特征的異常行為檢測(cè)能夠更準(zhǔn)確識(shí)別隱蔽、復(fù)雜的攻擊行為。