◆周 偉
?
基于大數(shù)據(jù)的校園網(wǎng)絡(luò)安全管理技術(shù)研究
◆周 偉
(攀枝花學(xué)院 四川 617000)
針對大數(shù)據(jù)環(huán)境下校園網(wǎng)絡(luò)面臨的安全威脅,利用大數(shù)據(jù)挖掘技術(shù)構(gòu)建校園網(wǎng)絡(luò)安全管理體系架構(gòu)。實(shí)現(xiàn)數(shù)據(jù)的采集和深度挖掘,提升校園網(wǎng)數(shù)據(jù)利用的深度與廣度,是大數(shù)據(jù)時(shí)代校園網(wǎng)絡(luò)安全管理的有效探索。
校園網(wǎng);安全管理;大數(shù)據(jù);數(shù)據(jù)挖掘
隨著高校校園網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,校園網(wǎng)絡(luò)面臨的網(wǎng)絡(luò)安全威脅和安全風(fēng)險(xiǎn)在不斷增加,網(wǎng)絡(luò)病毒、木馬和各種網(wǎng)絡(luò)攻擊行為造成的損失越來越大,網(wǎng)絡(luò)攻擊行為向著分布式、規(guī)?;?fù)雜化等趨勢發(fā)展,傳統(tǒng)的網(wǎng)絡(luò)防火墻、IDS、訪問控制技術(shù)等網(wǎng)絡(luò)安全防護(hù)技術(shù),已經(jīng)不能滿足網(wǎng)絡(luò)安全的需求。
隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來越廣泛,數(shù)據(jù)挖掘技術(shù)成為計(jì)算機(jī)技術(shù)發(fā)展最快的領(lǐng)域之一,如商場的顧客行為分析、營銷策略決策、信用風(fēng)險(xiǎn)評估以及欺詐檢測等[1]。因此,校園網(wǎng)絡(luò)安全管理也應(yīng)利用大數(shù)據(jù)技術(shù),提升校園網(wǎng)數(shù)據(jù)中心數(shù)據(jù)的利用價(jià)值,對大數(shù)據(jù)時(shí)代下校園網(wǎng)絡(luò)安全管理進(jìn)行創(chuàng)新式探索,提供更個(gè)性化、更有價(jià)值的安全服務(wù)需求。
大數(shù)據(jù)(Big Data)是最顯著的特征就是“大”。麥肯錫認(rèn)為:“大數(shù)據(jù)是指大小超出了典型數(shù)據(jù)庫工具采集、存儲、管理和分析能力的數(shù)據(jù)集,但并不是說一定要超過了特定的TB值得數(shù)據(jù)集才算是大數(shù)據(jù)[2]。”維基百科定義為:“大數(shù)據(jù)是一個(gè)復(fù)雜而龐大的數(shù)據(jù)集,以至于很難用現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)和其他數(shù)據(jù)處理技術(shù)來采集、存儲、查找、共享、傳送、分析和可視化[2]?!?全球權(quán)威的IT研究與顧問咨詢公司Gartner認(rèn)為:“大數(shù)據(jù)是指需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[2]?!庇纱丝梢?,“大數(shù)據(jù)”并非一個(gè)科學(xué)、嚴(yán)格的概念,它只是對數(shù)據(jù)規(guī)模爆炸性增長這一現(xiàn)象的歸納,到目前為止,并沒有一個(gè)確切一致的定義。大數(shù)據(jù)具有四個(gè)特點(diǎn),簡稱4V,即數(shù)據(jù)量大(Volume)、速度快(Velocity)、多樣(Variety)、價(jià)值密度低(Value)[3]。數(shù)據(jù)量大是大數(shù)據(jù)最基本的特征,數(shù)據(jù)量一般要達(dá)到PB級以上才能稱為大數(shù)據(jù);速度快是指大數(shù)據(jù)的獲取更加高速,大數(shù)據(jù)處理的實(shí)時(shí)性要求更高,是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征;多樣是指大數(shù)據(jù)的類型多樣,主要包括結(jié)構(gòu)化數(shù)據(jù)(Structured Data)、半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured Data)和非結(jié)構(gòu)化數(shù)據(jù)(Unstructured Data)三類,同時(shí)數(shù)據(jù)來源于不同領(lǐng)域、不同平臺與設(shè)備;價(jià)值密度低是指大數(shù)據(jù)價(jià)值巨大但密度很低,必須通過對大數(shù)據(jù)進(jìn)行分析和挖掘,才能夠提供以決策支持。大數(shù)據(jù)的特點(diǎn)表明,傳統(tǒng)的數(shù)據(jù)庫技術(shù)已經(jīng)不能從大量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)背后隱藏的關(guān)系和規(guī)則,從而無法根據(jù)現(xiàn)有數(shù)據(jù)預(yù)測未來發(fā)展趨勢,需要新的數(shù)據(jù)處理方法和技術(shù)來有效地組織和使用大數(shù)據(jù)。
大數(shù)據(jù)挖掘是指通過分析每個(gè)數(shù)據(jù)從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)包括數(shù)據(jù)采集、導(dǎo)入和預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析與挖掘和大數(shù)據(jù)可視化[4]。
(1)大數(shù)據(jù)采集、預(yù)處理與存儲
大數(shù)據(jù)的采集是指對于不同類型(如結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)和來源于不同客戶端(如移動(dòng)終端、Web應(yīng)用、App或者各種傳感器形式等)的數(shù)據(jù)采用多個(gè)不同類型的數(shù)據(jù)庫來存儲,并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。由于并發(fā)量大,在數(shù)據(jù)采集過程中需要在數(shù)據(jù)采集端部署大量數(shù)據(jù)庫才能支撐。大數(shù)據(jù)導(dǎo)入與預(yù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約。數(shù)據(jù)清洗可以去除數(shù)據(jù)噪聲,填補(bǔ)缺少的屬性值,刪除無效數(shù)據(jù)等。數(shù)據(jù)集成是把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中進(jìn)行存儲,目前常用的有聯(lián)邦數(shù)據(jù)庫系統(tǒng)、中間件模式、數(shù)據(jù)庫模式等幾種數(shù)據(jù)集成模型。數(shù)據(jù)轉(zhuǎn)換主要是將數(shù)據(jù)轉(zhuǎn)換成或統(tǒng)一成適合于數(shù)據(jù)挖掘的形式,大數(shù)據(jù)存儲的關(guān)鍵技術(shù)是分布式文件系統(tǒng),由于數(shù)據(jù)量達(dá)到PB、EB級別,傳統(tǒng)的計(jì)算機(jī)系統(tǒng)和數(shù)據(jù)庫無法處理大數(shù)據(jù),目前常采用基于HADOOP的HDFS、CEPH等分布式存儲系統(tǒng),該系統(tǒng)由一個(gè)或多個(gè)分布式集群組成,一個(gè)分布式集群的底層通常大量商用計(jì)算機(jī)組成,每臺計(jì)算機(jī)稱為一個(gè)節(jié)點(diǎn)(Node).節(jié)點(diǎn)放置在機(jī)架上,每一個(gè)機(jī)架可以包含30-40個(gè)節(jié)點(diǎn).節(jié)點(diǎn)之間通過高速網(wǎng)絡(luò)連接,數(shù)據(jù)分布式地存儲在這些節(jié)點(diǎn)上,通過分布式數(shù)據(jù)存儲于管理系統(tǒng)統(tǒng)一管理,其具體架構(gòu)如圖1所示。
圖1 大數(shù)據(jù)存儲與管理架構(gòu)
(2)大數(shù)據(jù)分析與挖掘
目前, 大數(shù)據(jù)分析與挖掘按處理形式上可以分為靜態(tài)數(shù)據(jù)的批量處理、對在線數(shù)據(jù)的實(shí)時(shí)處理和對圖數(shù)據(jù)的綜合處理,在線數(shù)據(jù)的實(shí)時(shí)處理又包括對實(shí)時(shí)交互計(jì)算和流式數(shù)據(jù)的處理兩種[5]。大數(shù)據(jù)的批處理系統(tǒng)實(shí)時(shí)性要求不高,一般先對數(shù)據(jù)進(jìn)行預(yù)處理存儲后再計(jì)算,對數(shù)據(jù)的全面性、準(zhǔn)確性要求較為重要。批量數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)精確度高和價(jià)值密度低三個(gè)特征,需要合理的算法才能挖據(jù)出有用的價(jià)值;實(shí)時(shí)交互式數(shù)據(jù)處理方式靈活直觀且便于控制,操作人員與系統(tǒng)通過人機(jī)對話的方式進(jìn)行,操作人員根據(jù)系統(tǒng)向?qū)нM(jìn)行所需操作,從而獲得最終處理結(jié)果,在此方式下,存儲在系統(tǒng)中的數(shù)據(jù)文件能夠根據(jù)實(shí)際情況被及時(shí)處理修正,同時(shí)處理結(jié)果可以立刻被使用;流式數(shù)據(jù)是一種來源廣、格式復(fù)雜和含有時(shí)序性的數(shù)據(jù)序列,會隨著時(shí)間的推移而不斷增長(比如日志服務(wù)器的日志實(shí)時(shí)采集就是流式數(shù)據(jù)),流式數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)中含有錯(cuò)誤信息、垃圾信息,流式數(shù)據(jù)處理系統(tǒng)必須能夠?qū)?shù)據(jù)進(jìn)行清洗、格式處理、轉(zhuǎn)換等。
(3)大數(shù)據(jù)處理平臺
目前,靜態(tài)數(shù)據(jù)的批量處理系統(tǒng)有Hadoop框架實(shí)現(xiàn)的HDFS和MapReduce,HDFS是一個(gè)分布式文件系統(tǒng),可以管理大規(guī)模分布式存儲的文件,同時(shí)可以運(yùn)行在廉價(jià)的硬件上,MapReduce負(fù)責(zé)將計(jì)算邏輯分配到各數(shù)據(jù)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)計(jì)算,但是MapReduce存在缺乏對高層次語言(如SQL)的支持和不適用于某些并行處理任務(wù)(如實(shí)時(shí)計(jì)算)的缺點(diǎn);交互式數(shù)據(jù)處理系統(tǒng)的典型代表系統(tǒng)是Berkeley的Spark系統(tǒng),Spark[6]是一個(gè)基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,提高了在大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實(shí)時(shí)性,同時(shí)保證了高容錯(cuò)性和高可伸縮性,與MapReduce的批量計(jì)算相比,Spark可以帶來上百倍的性能提升[6];典型的流式數(shù)據(jù)處理有Twitter的Storm、Facebook 的Scribe,Linkedin的Samza,Cloudera的Flume,Apache的Nutch[5]。除此之外,國際上還有應(yīng)用廣泛的模塊化、集成化的大數(shù)據(jù)挖掘軟件平臺,如SQL Server的數(shù)據(jù)挖掘模塊,SAS的Enterprise Miner,SPSS公司的Clementine,IBM的DB Miner等[5]。
(4)大數(shù)據(jù)可視化
為了從挖掘和分析結(jié)果中發(fā)現(xiàn)有意義的性質(zhì)和模式,更好地理解數(shù)據(jù),需要對分析結(jié)果進(jìn)行可視化展示。大數(shù)據(jù)可視化分析工具,必須得有處理海量數(shù)據(jù)的能力和圖形展現(xiàn)和交互的能力,能快速的收集、篩選、分析、歸納、展現(xiàn)決策者所需要的信息,并根據(jù)新增的數(shù)據(jù)進(jìn)行實(shí)時(shí)更新。目前,國外的Tableau、Microsoft、SAS、IBM都有支持?jǐn)?shù)據(jù)分析和分析結(jié)果展示的產(chǎn)品。
(1)數(shù)據(jù)存儲和預(yù)處理能力難以滿足大數(shù)據(jù)量要求
目前,校園網(wǎng)的數(shù)據(jù)存儲基本都是采用服務(wù)器本身的存儲,容量有限,擴(kuò)展能力差。校園網(wǎng)各個(gè)應(yīng)用系統(tǒng)(如圖書借閱系統(tǒng)、教務(wù)系統(tǒng)、考試系統(tǒng)等)、網(wǎng)絡(luò)設(shè)備(如路由器、交換機(jī)、防火墻等)、上網(wǎng)行為系統(tǒng)、校園網(wǎng)監(jiān)控等會產(chǎn)生大量的日志信息,同時(shí),圖書館的電子資源、各種期刊數(shù)據(jù)庫也有海量的存儲需求,如此龐大的數(shù)據(jù)量存儲不能簡單地通過升級原有服務(wù)器的方法來解決,需要有可擴(kuò)展性強(qiáng)和良好的容錯(cuò)能力的大數(shù)據(jù)存儲框架和數(shù)據(jù)處理平臺。
(2)復(fù)雜的數(shù)據(jù)類型對數(shù)據(jù)融合提出了挑戰(zhàn)
校園網(wǎng)絡(luò)安全因素包括多個(gè)方面,有來自校園網(wǎng)內(nèi)部與外部的攻擊、服務(wù)器操作系統(tǒng)自身的安全、惡意攻擊、病毒、漏洞等。因此需要多方面分析數(shù)據(jù):一方面各應(yīng)用系統(tǒng)產(chǎn)生更多的數(shù)據(jù),需要不斷的存儲,另一方面需要對歷史數(shù)據(jù)進(jìn)行保存,以便和當(dāng)前數(shù)據(jù)進(jìn)行對比。同時(shí),各系統(tǒng)產(chǎn)生的數(shù)據(jù)標(biāo)準(zhǔn)不一致,類型多樣,對數(shù)據(jù)融合提出了巨大的挑戰(zhàn)。
(3)數(shù)據(jù)的處理難以滿足高實(shí)時(shí)性要求
不同的應(yīng)用系統(tǒng)連續(xù)、高速的產(chǎn)生異構(gòu)數(shù)據(jù),要求對這些實(shí)時(shí)數(shù)據(jù)進(jìn)行處理,從中發(fā)現(xiàn)對校園網(wǎng)絡(luò)造成安全威脅的異常情況,從而要求大數(shù)據(jù)分析系統(tǒng)能夠快速響應(yīng)復(fù)雜的查詢,具有實(shí)時(shí)處理業(yè)務(wù)系統(tǒng)數(shù)據(jù)的能力,傳統(tǒng)的數(shù)據(jù)庫處理技術(shù)不能適應(yīng)如此大規(guī)模的數(shù)據(jù)流。
(4)大數(shù)據(jù)挖掘結(jié)果需要有效的可視化手段
大數(shù)據(jù)挖掘的最終結(jié)果是要獲取的有價(jià)值的信息和知識呈現(xiàn)給最終用戶,供最終用戶做出決策,但最終用戶不一定是既懂網(wǎng)絡(luò)安全又懂?dāng)?shù)理統(tǒng)計(jì)方面的復(fù)合型人才,因此需要一種讓普通用戶能夠看懂的大數(shù)據(jù)挖掘結(jié)構(gòu)的可視化手段。
基于大數(shù)據(jù)挖掘的校園網(wǎng)絡(luò)安全管理主要由數(shù)據(jù)采集層、數(shù)據(jù)與處理與集成、數(shù)據(jù)分析和數(shù)據(jù)展示層組成,其他如安全平臺管理與平臺配置與調(diào)度則貫穿整個(gè)流程,具體架構(gòu)如圖2所示。
圖2 基于大數(shù)據(jù)的網(wǎng)絡(luò)安全管理架構(gòu)
(1)數(shù)據(jù)采集層
數(shù)據(jù)采集層主要實(shí)現(xiàn)大數(shù)據(jù)的采集工作。通過對校園網(wǎng)各應(yīng)用系統(tǒng)服務(wù)器的日志文件、防火墻、行為監(jiān)控、交換機(jī)和路由器登錄記錄等,通過數(shù)據(jù)采集層會收集大量結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),為下一步數(shù)據(jù)與處理做好準(zhǔn)備工作。
(2)數(shù)據(jù)預(yù)處理層與集成
數(shù)據(jù)預(yù)處理主要是對數(shù)據(jù)采集層采集到的數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶幚怼⑷ピ?、清洗和進(jìn)一步的分布式存儲。數(shù)據(jù)采集層采集到的數(shù)據(jù)是各種不同類型的數(shù)據(jù),數(shù)據(jù)類型的種類和結(jié)構(gòu)都非常的復(fù)雜,這些數(shù)據(jù)必須經(jīng)過處理之后才能進(jìn)行數(shù)據(jù)挖掘,通過數(shù)據(jù)處理與集成,將這些異構(gòu)數(shù)據(jù)轉(zhuǎn)換為便于處理的或是單一的數(shù)據(jù)結(jié)構(gòu),保證數(shù)據(jù)的質(zhì)量和可靠性。可以通過專業(yè)的ETL工具(如Kettle)、關(guān)聯(lián)規(guī)則或是聚類算法對數(shù)據(jù)進(jìn)行分類或過濾,防止對挖掘結(jié)果產(chǎn)生不利影響。對處理之后的數(shù)據(jù)進(jìn)行存儲,由于數(shù)據(jù)量巨大,可以采用分布式存儲系統(tǒng)對數(shù)據(jù)進(jìn)行存儲,針對不同類型的數(shù)據(jù)可以建立特定的數(shù)據(jù)庫來進(jìn)行存放,可以有效減少查詢時(shí)間和提高存取效率。
(3)數(shù)據(jù)挖掘?qū)?/p>
數(shù)據(jù)挖掘是大數(shù)據(jù)處理的核心,通過對預(yù)處理和集成后的數(shù)據(jù)進(jìn)行挖掘,可以發(fā)現(xiàn)隱藏其中的安全威脅。由于校園網(wǎng)絡(luò)安全具有一定的實(shí)時(shí)性,從而可以將校園網(wǎng)安全行為日志數(shù)據(jù)分為實(shí)時(shí)性和非實(shí)時(shí)性數(shù)據(jù),采用流處理和靜態(tài)批處理相結(jié)合的方式進(jìn)行挖掘。對于非實(shí)時(shí)數(shù)據(jù),采用NoSQL數(shù)據(jù)可和Hadoop計(jì)算機(jī)框架來進(jìn)行數(shù)據(jù)處理。對于實(shí)時(shí)數(shù)據(jù),通過實(shí)時(shí)或流式計(jì)算技術(shù)如Storm分布式計(jì)算框架進(jìn)行計(jì)算。
(4)數(shù)據(jù)展示層
數(shù)據(jù)展示層主要是利用數(shù)據(jù)可視化技術(shù),將挖掘結(jié)果利用圖形或圖象在屏幕上顯示出來,將抽象的挖掘結(jié)果表現(xiàn)為直觀的圖形圖像,更利于幫助人們發(fā)現(xiàn)隱藏在數(shù)據(jù)的規(guī)律,便于決策者或管理員發(fā)現(xiàn)潛在的網(wǎng)絡(luò)安全威脅。
校園網(wǎng)絡(luò)安全涉及眾多的因素和分析方法,數(shù)據(jù)來源豐富,需要利用大數(shù)據(jù)挖掘技術(shù)來發(fā)現(xiàn)與校園網(wǎng)絡(luò)安全相關(guān)的所有關(guān)聯(lián)信息來滿足校園網(wǎng)絡(luò)安全管理要求。隨著國家對信息化和網(wǎng)絡(luò)安全的重視,將大數(shù)據(jù)挖掘技術(shù)和大數(shù)據(jù)分析技術(shù)用于網(wǎng)絡(luò)安全管理是校園網(wǎng)絡(luò)安全領(lǐng)域發(fā)展方向之一。
[1]蔡麗艷著.數(shù)據(jù)挖掘算法及其應(yīng)用研究[M].成都:電子科技大學(xué)出版社,2013.
[2]張紹華,潘蓉,宗宇偉.大數(shù)據(jù)技術(shù)與應(yīng)用:大數(shù)據(jù)治理與服務(wù)[M].上海:上海科學(xué)技術(shù)出版社,2016.
[3]趙偉.大數(shù)據(jù)在中國[M],南京:江蘇文藝出版社,2014.
[4]熊赟,朱揚(yáng)勇,陳志淵.大數(shù)據(jù)挖掘[M].上海:上??茖W(xué)技術(shù)出版社,2016.
[5]程學(xué)旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),http://qikan.cqvip.com/zk/search.aspx?key =J%3d%5b%e8%bd%af%e4%bb%b6%e5%ad%a6%e6%8a%a5%5d&from=zk_search,2014.
[6]高彥杰.Spark大數(shù)據(jù)處理:技術(shù)、應(yīng)用與性能優(yōu)化[M].機(jī)械工業(yè)出版社,2015.
[7]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版), http://qikan.cqvip.com/zk/search.aspx?key=J%3d%5b% e 6%b5%99%e6%b1%9f%e5%a4%a7%e5%ad%a6%e5%ad%a6%e6% 8a%a5%ef%bc%9a%e5%b7%a5%e5%ad%a6%e7%89%88%5d&from=zk_search,2014.
[8]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013.
[9]孫大為,張廣艷,鄭緯民.大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系統(tǒng)實(shí)例[J].軟件學(xué)報(bào),2014.