亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Spark技術(shù)在高校網(wǎng)絡安全管理中的應用

        2019-09-19 11:34:52殷紅花
        電腦知識與技術(shù) 2019年20期
        關(guān)鍵詞:大數(shù)據(jù)

        殷紅花

        摘要:在某高校的網(wǎng)絡安全管理中,引入Spark技術(shù),提出一種屬性相異度聚類算法,結(jié)合二者,完成多源安全日志分析系統(tǒng)的設計架構(gòu)和開發(fā)應用,并通過測試分析,Spark技術(shù)完全可以滿足某高校的安全管理工作需要,適合應用于多源安全設備的大數(shù)據(jù)量級的日志ETL和分析。

        關(guān)鍵詞:Spark;聚類算法;大數(shù)據(jù)

        中圖分類號:TP393? ? ? 文獻標識碼:A

        文章編號:1009-3044(2019)20-0291-03

        開放科學(資源服務)標識碼(OSID):

        Abstract: In a college network security management, the introduction of the Spark technology, an attribute phase dissimilarity clustering algorithm is put forward, combining the two, to complete the multi-source security log analysis system design, architecture and application development, and through the test and analysis, the Spark technology can meet the needs of the safety management of a college, is suitable for the large data applied in multi-source security equipment level of ETL and log analysis.

        Key words: Spark; clustering algorithm; big data

        1 背景

        隨著互聯(lián)網(wǎng)的普及,人們的一切活動都依托著互聯(lián)網(wǎng)技術(shù)?;ヂ?lián)網(wǎng)開放、交互及分散的特性,使得人們可以快速地共享交流信息,但同時也加劇了網(wǎng)絡安全威脅。每年由于安全事件造成的各種損失呈指數(shù)級增長,尤其是“棱鏡門”事件的發(fā)生,國家越來越重視信息化安全問題,從2014年開始,中央網(wǎng)絡安全和信息化領導小組宣布成立,再到2017年,我國網(wǎng)絡安全法頒布實施,在國家層面上,已將網(wǎng)絡信息安全上升至一定的高度,這些舉措也使得社會各界更加重視網(wǎng)絡安全。

        高校作為國家網(wǎng)絡的重要陣地,提升網(wǎng)絡安全也是責無旁貸和刻不容緩?,F(xiàn)實的高校網(wǎng)絡環(huán)境中部署了防火墻、IPS、WAF等安全設備,學校內(nèi)外網(wǎng)絡均由這些設備構(gòu)成一層層防護圈[7]。這些網(wǎng)絡安全設備可以記錄運行狀態(tài)數(shù)據(jù)和異常事件數(shù)據(jù),這些數(shù)據(jù)均使用日志的形式加以保存,通過日志可以分析出諸如攻擊源、攻擊目的、網(wǎng)絡狀況、安全解決方案等等信息,以供網(wǎng)絡管理人員參考。但對于網(wǎng)絡安全員而言,分析這些日志會遇到數(shù)據(jù)量大、分析煩瑣、準確度難把控及無法整體掌控網(wǎng)絡實時狀況等問題。針對這些問題,許多研究人員也提出了各種解決方案[1][2][3],但這些方案大多缺乏統(tǒng)一處理多種安全設備日志,聚合效果不足,利用大數(shù)據(jù)技術(shù)多采用Hadoop的框架,不同業(yè)務需求需要不同模塊配合解決,造成資源浪費。本文在某高校的校園網(wǎng)的改造中,采用Spark技術(shù),結(jié)合日志聚類算法,構(gòu)建一套多源安全日志分析系統(tǒng),具備對多種安全設備日志進行分析,并通過功能性能測試,說明Spark技術(shù)完全滿足于高校的網(wǎng)絡安全管理的實際需求,可以有效地解決多源安全設備及大數(shù)據(jù)日志帶來的諸多問題。

        2 Spark技術(shù)概述

        Apache頂級開源項目中的Spark屬于一種通用的計算引擎,其主要為了快速地對大數(shù)據(jù)進行處理。Spark由加州大學伯克利分校AMP設計開發(fā)和貢獻的類Hadoop MapReduce的并行框架,除了具備Hadoop技術(shù)中的MapReduce的優(yōu)點,相較于Hadoop MapReduce,其Job的中間輸出值直接被保存在內(nèi)存里,因此不需要頻繁的Read/Write HDFS,十分適宜用于不斷迭代的MapReduce算法。從宣傳上看,Spark具有的內(nèi)存計算比MapReduce快了近100倍,硬盤計算快了10倍以上的速度,許多實際環(huán)境測試雖然達不到以上倍數(shù),但也是比MapReduce快很多的,而且Spark支持R、Java、Scala、Python等高級編程語言編寫程序,支持流計算,完全可以應用于要求大量的、低延遲的數(shù)據(jù)分析應用場景。如圖1所示,Spark技術(shù)主要由Spark(Spark Core)、Spark SQL、Spark Streaming、MLBase、MLlib、GraphX等構(gòu)成。

        Spark Core是整個Spark技術(shù)棧的核心層,其主要是通過RDD(彈性分布式數(shù)據(jù)集),包含豐富的算子(例如Map函數(shù)和Reduce函數(shù)等),可將數(shù)據(jù)在內(nèi)存中計算,實現(xiàn)了RPC、壓縮、序列化及任務調(diào)度等。

        Spark技術(shù)棧中專門用于處理結(jié)構(gòu)化數(shù)據(jù)的一個模塊,支持JDBC/ODBC訪問接口和傳統(tǒng)的SQL查詢功能[5],使得Spark SQL可以實現(xiàn)智能計算和分布式數(shù)據(jù)倉庫。Spark SQL提供數(shù)據(jù)結(jié)構(gòu)抽象框架,通過API結(jié)合Spark的外源接口,可以進行大數(shù)據(jù)的ETL,并且,通過UDF函數(shù),Spark SQL可以最大化RDD的重復使用,提高運行速度和效率。

        Spark技術(shù)棧中實現(xiàn)實時的流數(shù)據(jù)計算功能框架,支持Flume、Kafka等多源輸入,內(nèi)部采用RDD序列進行存儲。

        3 安全日志的聚類算法

        惡意攻擊一般會在各類安全設備中留下日志記錄,日志將不同事件按照預先定義的級別進行分類存儲,多個安全設備對于相同的攻擊事件的定義也不同,包括事件的描述及表示,如此一來直接導致重復的報警在不同設備的日志中按不同的定義而存儲著,這些日志中的事件卻是指向相同的攻擊事件,譬如嗅探,在主機上表現(xiàn)為檢到ICMP Ping掃描,在網(wǎng)絡中為多個ICMP Ping數(shù)據(jù)包,在防火墻中卻是很多異常Ping報文。為了提高關(guān)聯(lián)分析攻擊事件日志的精準性,前期需要對這些不同定義的但元含義一致的報警日志進行聚合操作。因為同一事件在安全設備中的日志屬性具有相似點,所以本文系統(tǒng)通過選取計算日志屬性的相似度,設置相似度的閾值,當小于這一閾值,即為一個HyperAlertLog(超級警報日志),這樣的設置可以提升分析效率,同時精簡了日志的數(shù)量。經(jīng)過詳細的分析,本文選擇防火墻和IPS設備,將二者的源IP地址、目的IP地址、源端口、目的端口及日志記錄時間等五元素進行屬性相異度計算,此外IPS還選擇事件類型作為第六元素進行計算。屬性相異度計算見公式1。

        公式1中的n是對象x、y的屬性總數(shù),m是屬性標號,是一種對象屬性m的權(quán)值(相異度計算),其取值范圍0-1之間。是對象x、y在m的相異度,不相同日志屬性相異度計算方法如下:

        1)源IP/目的IP相異度計算見公式2。

        公式2中z是IP最高位一致的位數(shù),主要選擇相同網(wǎng)段的IP的前綴劃分的相同性,計算相似度距離比較短。

        2)源/目的端口相異度計算見公式3。

        公式3只需要比較兩條日志的端口號是否一致,不同則相異度取1,反之取0。

        3)時間相異度計算方式

        日志聚類時,所有的相異度計算必須首先執(zhí)行時間計算,當兩條日志的時間間隔大于閾值τ時,時間相異度取1,反之取0。

        4)事件類型相異度計算方式

        將IPS日志同防火墻日志的報警類型進行異或非運算,值為1時相異,值為0時相同。

        根據(jù)公式可知,相異度的計算結(jié)果直接受到日志屬性權(quán)值的影響,不同的攻擊對應的權(quán)值亦非相同,譬如端口掃描攻擊中的源或目的IP均相同,而其源或目的端口屬性卻可能不同,又如分布式拒絕攻擊(DDOS)是針對同一個目標,其目的IP相同。故若想得到比較好的日志聚合結(jié)果,需要結(jié)合不斷地實驗測試,對不同的攻擊模式設置合適的屬性權(quán)重值。常見的網(wǎng)絡攻擊屬性權(quán)值的默認值如表1所示。

        4 多源安全日志分析系統(tǒng)體系結(jié)構(gòu)

        結(jié)合Spark技術(shù)和日志的屬性相異度聚類算法,多源安全日志分析系統(tǒng)設計如圖2所示。

        系統(tǒng)底層原始日志數(shù)據(jù)采用HDFS存儲,日志經(jīng)過日志處理層分析處理之后存儲在MariaDB和HBase中,以供安全信息展示層調(diào)用和用戶實時在線查詢。MariaDB和HBase之間通過Sqoop相互導入導出數(shù)據(jù)。本文重點論述日志處理層中的Spark作業(yè),包括Spark SQL作業(yè)、Spark Streaming作業(yè)和Spark Core作業(yè),其主要對日志數(shù)據(jù)進行統(tǒng)計計算、聚合、關(guān)聯(lián)分析,最終將有效日志信息存儲入日志存儲層。

        原始多源安全設備的日志中包含大量無用和冗余數(shù)據(jù),所以需要對數(shù)據(jù)首先進行ETL,即在日志處理層中,使用Spark技術(shù)棧和聚類算法,將日志數(shù)據(jù)進行實時的過濾、規(guī)范和聚合,并將ETL之后的數(shù)據(jù)進行關(guān)聯(lián)分析,得到可用安全信息,存入底層數(shù)據(jù)庫中。

        日志ETL主要包括:(1)將HDFS或HBase中的數(shù)據(jù)讀入日志處理層;(2)將原始數(shù)據(jù)轉(zhuǎn)換成Spark SQL編程抽象,生成Spark DataFrame,進行字段的增加、修改、轉(zhuǎn)變、重組等。結(jié)合Spark SQL的UDF函數(shù)完成字段的拆分、平鋪,將最終結(jié)果提交到Spark集群中運行,即得到ETL之后的日志數(shù)據(jù)。

        ETL之后,需要結(jié)合Spark SQL和Spark Streaming等技術(shù)實現(xiàn)對于異常流量和攻擊事件的監(jiān)控和分析。流量主要來源于防火墻,所以可以采用單源日志特征匹配分析方法,而對于攻擊事件,則需要采用關(guān)聯(lián)分析方法,具體算法本文不再論述,其主要是制定一套規(guī)則庫,由特定關(guān)鍵字構(gòu)成,根據(jù)行為模式來進行安全日志的關(guān)聯(lián)分析。

        5 系統(tǒng)測試

        本文利用學校的硬件環(huán)境,搭建了一個Spark分布式集群環(huán)境,測試硬件和軟件環(huán)境如表2所示。底層日志采集采用機架式服務器,Spark集群部署在計算資源豐富的刀片式服務器集群上,用于日志ETL和分析。

        通過模擬攻擊實測,當日志數(shù)量級別小于5萬時,單機處理能力比較強,超過5萬數(shù)量級之后,Spark集群的處理能力凸顯,處理效率隨著節(jié)點數(shù)的增多而增加。優(yōu)于本文只是搭建了一個實驗環(huán)境,日志數(shù)量有限,但也可以從一定程度上反應Spark集群處理能力和單機的性能差異,當日志數(shù)量超過一定規(guī)模之后,采用Spark集群更加高效。此外,實驗也驗證了,本文采用的ETL和相異度聚合算法完全適合某高校的實際環(huán)境,滿足多源安全設備日志分析的數(shù)據(jù)要求。

        6 總結(jié)

        本文使用Spark技術(shù)棧,通過聚類算法,在某高校實現(xiàn)了多源設備的日志分析系統(tǒng)。利用Spark SQL,實現(xiàn)日志ETL,對于多源安全設備采集到的日志數(shù)據(jù)進行過濾、規(guī)范、聚合,完成對于日志數(shù)據(jù)去冗余,提升了日志分析模塊的效率,在分析模塊中,使用Spark SQL和Spark Streaming完成日志分析,并根據(jù)業(yè)務需求,將結(jié)果寫入MariaDB和HBase中,實現(xiàn)了用戶對于結(jié)果的隨機實時查詢,并且在某高校的實際網(wǎng)絡安全管理中取得了良好的運行效果。當然,本文中測試和實際運行環(huán)境,數(shù)據(jù)量尚沒有達到理論預期,并且多源設備也僅有兩個,無法得到全面完整的測試結(jié)果。將大數(shù)據(jù)技術(shù)應用于高校的安全管理中,是必然的結(jié)果,希望通過今后在工作中不斷地實踐,完善安全分析系統(tǒng)的相關(guān)算法,豐富多源設備的種類,使得Spark技術(shù)最終可以應用于高校的全面網(wǎng)絡安全管理中,提高一線安全管理員發(fā)現(xiàn)網(wǎng)絡安全問題和解決問題的效率。

        參考文獻:

        [1] 趙靜, 劉宇. 大數(shù)據(jù)技術(shù)在計算機網(wǎng)絡入侵檢測中的研究[J]. 網(wǎng)絡新媒體技術(shù), 2018, 7(4): 45-49.

        [2] 陳闖. 基于Hadoop的ETL部件在分布式數(shù)據(jù)挖掘引擎中的應用[D]. 南京: 南京郵電大學,2016.

        [3] 王靜. 基于大數(shù)據(jù)的發(fā)電集團統(tǒng)一運行監(jiān)測與安全預警平臺研究與應用[A]. 中國電機工程學會電力信息化專業(yè)委員會. 2017電力行業(yè)信息化年會論文集[C]. 中國電機工程學會電力信息化專業(yè)委員會: 人民郵電出版社, 電信科學編輯部, 2017: 1.

        [4] 劉東江, 黎建輝. 基于Spark的并行圖聚類算法研究[J/OL]. 系統(tǒng)仿真學報: 1-13 [2019-06-08]. http://kns.cnki.net/kcms/detail/11.3092.V.20190416.1307.021.html.

        [5] Sara Mustafa, Iman Elghandour, Mohamed A. Ismail. A Machine Learning Approach for Predicting Execution Time of Spark Jobs[J]. Alexandria Engineering Journal, 2018.

        【通聯(lián)編輯:謝媛媛】

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        中國市場(2016年36期)2016-10-19 04:41:16
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        中國市場(2016年36期)2016-10-19 03:31:48
        基于大數(shù)據(jù)的小微電商授信評估研究
        中國市場(2016年35期)2016-10-19 01:30:59
        大數(shù)據(jù)時代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        久久久久国产一级毛片高清版A| 国偷自产视频一区二区久| 国产亚洲一二三区精品| 久久一区二区三区少妇人妻| 色婷婷精品久久二区二区蜜桃| 亚洲av日韩av激情亚洲| 国产丝袜美女| 免费看黑人男阳茎进女阳道视频| 国产真实夫妇视频| 韩日午夜在线资源一区二区| 亚洲丁香五月天缴情综合| 国产在线美女| 国产 在线播放无码不卡| 中文字幕一区二区区免| 精品熟女视频一区二区三区国产| 亚洲精品久久区二区三区蜜桃臀| 亚洲av无码偷拍在线观看| 亚洲成a人无码| 天天摸日日摸狠狠添| 亚洲av之男人的天堂| 欧美日韩亚洲一区二区精品| 日产精品一区二区三区免费| 中文字幕久区久久中文字幕| 亚洲自拍偷拍一区二区三区| 久久久久免费精品国产| 美丽人妻在夫前被黑人| 97午夜理论片在线影院| 亚洲AV综合久久九九| 久久精品成人一区二区三区蜜臀| 久久午夜精品人妻一区二区三区| 特黄做受又粗又长又大又硬 | 全免费a级毛片免费看视频| 国产一区二区在线观看我不卡| 在线免费看91免费版.| 欧美性生交活xxxxxdddd | 免费a级毛片无码免费视频120软件| 东北无码熟妇人妻AV在线| 亚洲另在线日韩综合色| 99久久亚洲精品加勒比| 精品一区二区三区久久| 亚洲国产精品毛片av不卡在线|