面向社會安全事件的分布式神經(jīng)網(wǎng)絡(luò)攻擊行為分類方法

2017-12-14 05:22:12肖圣龍

計(jì)算機(jī)應(yīng)用 2017年10期

肖圣龍,陳昕,李卓,2

(1.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101; 2.網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101) (*通信作者電子郵箱chenxin@bistu.edu.cn)

肖圣龍1,陳昕1*,李卓1,2

大數(shù)據(jù)時代下,社會安全事件呈現(xiàn)出數(shù)據(jù)多樣化、數(shù)據(jù)量快速遞增等特點(diǎn),社會安全事件的事態(tài)與特性分析決策面臨巨大的挑戰(zhàn)。高效、準(zhǔn)確識別社會安全事件中的攻擊行為的類型,并為社會安全事件處置決策提供幫助,已經(jīng)成為國家與網(wǎng)絡(luò)空間安全領(lǐng)域的關(guān)鍵性問題。針對社會安全事件攻擊行為分類,提出一種基于Spark平臺的分布式神經(jīng)網(wǎng)絡(luò)分類算法(DNNC)。DNNC算法通過提取攻擊行為類型的相關(guān)屬性作為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),建立了各屬性與攻擊類型之間的函數(shù)關(guān)系并生成分布式神經(jīng)網(wǎng)絡(luò)分類模型。實(shí)驗(yàn)結(jié)果表明,所提出DNNC算法在全球恐怖主義數(shù)據(jù)庫所提供的數(shù)據(jù)集上,雖然在部分攻擊類型上準(zhǔn)確率有所下降，但平均準(zhǔn)確率比決策樹算法提升15.90個百分點(diǎn)，比集成決策樹算法提升8.60個百分點(diǎn)。

社會安全;大數(shù)據(jù);Spark分布式系統(tǒng);神經(jīng)網(wǎng)絡(luò);分類算法

0 引言

社會安全事件主要包括恐怖襲擊事件、經(jīng)濟(jì)安全事件和涉外突發(fā)事件等[1]，社會安全事件頻繁發(fā)生,給人民群眾的生命和財(cái)產(chǎn)帶來嚴(yán)重?fù)p害[2]。本文以恐怖事件為例分析社會安全事件。近幾年，恐怖事件發(fā)生的數(shù)量急劇增加[3]。在1970年—2015年期間,全球恐怖事件數(shù)據(jù)庫(Global Terrorism Database, GTD)(http://www.start.umd.edu/gtd/)收集超過156 000個來自200多個國家和地區(qū)[4]的恐怖主義事件。根據(jù)GTD搜集的數(shù)據(jù),可以發(fā)現(xiàn)從2012年—2015年,恐怖襲擊的數(shù)量增加了52 134件,3年的時間發(fā)生的恐怖事件數(shù)量是過去45年總數(shù)量的1/3。如今,我們生活在大數(shù)據(jù)時代,大量的信息被產(chǎn)生,被收集并存儲在數(shù)據(jù)存儲系統(tǒng)中[5],如何在大數(shù)據(jù)量的背景下,分析社會安全事件各個屬性之間復(fù)雜的內(nèi)部關(guān)系,針對社會安全事件攻擊類型實(shí)現(xiàn)快速準(zhǔn)確的分類,給社會安全事件預(yù)警和分析提供數(shù)據(jù)支撐,成為一個備受關(guān)注的問題。

分析社會安全事件攻擊行為,可以發(fā)現(xiàn)社會安全事件攻擊行為類型與許多因素有關(guān),各因素與社會安全事件攻擊行為類型呈現(xiàn)非線性關(guān)系。神經(jīng)網(wǎng)絡(luò)采用廣泛互聯(lián)的結(jié)構(gòu)與有效的學(xué)習(xí)機(jī)制來模擬人腦信息處理的過程,是人工智能發(fā)展中的重要方法,在諸如手寫體識別、圖像標(biāo)注、語義理解和語音識別等技術(shù)領(lǐng)域取得了非常成功的應(yīng)用[6]。BP神經(jīng)網(wǎng)絡(luò)在人工神經(jīng)網(wǎng)絡(luò)模型中最廣泛的一種網(wǎng)絡(luò)模型，是多層前向神經(jīng)網(wǎng)絡(luò)的一種,可用任意精度逼近任意非線性函數(shù),逼近性能尤其明顯[7]。根據(jù)社會安全事件攻擊行為類型特征進(jìn)行指標(biāo)提取,映射指標(biāo)與社會安全事件攻擊行為類型的關(guān)系,訓(xùn)練各個指標(biāo)的權(quán)重,模擬出社會安全事件攻擊行為類型的網(wǎng)絡(luò)模型,實(shí)現(xiàn)社會安全事件攻擊行為類型分類。

受學(xué)習(xí)速率的限制，BP神經(jīng)算法需要花費(fèi)幾個小時甚至更長的時間來完成訓(xùn)練任務(wù)[6]。隨著互聯(lián)網(wǎng)的發(fā)展,傳統(tǒng)的大數(shù)據(jù)計(jì)算平臺涌現(xiàn)出了一批新的大數(shù)據(jù)處理框架,包括Apache Hadoop、Dyrad、Yahoo S4、Apache Spark等,作為最流行的大數(shù)據(jù)處理框架Spark[8],吸引了越來越多的關(guān)注,而基于彈性分布式數(shù)據(jù)集(Resilient Distributed Dataset, RDD)的Spark編程模式在實(shí)際項(xiàng)目中的應(yīng)用也越來越廣[9]?；赟park的分布式神經(jīng)網(wǎng)絡(luò)將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)分發(fā)到多個主機(jī)同時進(jìn)行訓(xùn)練,可以提高訓(xùn)練速度。本文針對社會安全事件攻擊行為分類,提出了一種基于Spark平臺的分布式神經(jīng)網(wǎng)絡(luò)分類(Distributed Neural Network Classification, DNNC)算法。

1 相關(guān)工作

社會安全事件中,恐怖事件比重較大,嚴(yán)重破壞社會穩(wěn)定與發(fā)展。為了減少恐怖事件的發(fā)生,降低恐怖事件的發(fā)生數(shù)量,世界各個國家各個科研機(jī)構(gòu)都進(jìn)行大量的研究人員投入。各個科研機(jī)構(gòu)根據(jù)近40多年來收集的GTD,分析恐怖事件發(fā)生的原因,對恐怖事件進(jìn)行分類,研究各個類別攻擊的不同點(diǎn),以及各個類別之間存在的相關(guān)性,預(yù)測恐怖事件的發(fā)生,并對恐怖事件進(jìn)行預(yù)警。

Freilich等[10]總結(jié)了社會安全事件中恐怖主義事件的一些特殊問題,概括了恐怖事件的各種描述方法，評估了各種描述方法之間的優(yōu)缺點(diǎn),加深了對社會安全事件中恐怖主義事件的理解。Meierrieks等[11]根據(jù)1984年—2007年共58個國家的樣本數(shù)據(jù),研究了藥物生意對恐怖主義事件的影響,其研究結(jié)果表明藥物的上漲會減少社會安全事件中恐怖主義事件的發(fā)生。Lutz等[12]介紹了全球化的思想和恐怖主義事件的定義,分析了恐怖主義事件對旅游和外國投資的影響,得出全球化會導(dǎo)致社會混亂,社會混亂將導(dǎo)致恐怖主義事件的發(fā)生；反過來,恐怖主義事件會影響旅游業(yè)和外國投資。

Sakhare等[13]先對犯罪數(shù)據(jù)進(jìn)行整體分析,根據(jù)1 000條犯罪記錄數(shù)據(jù)集抽取了20個犯罪特征,并運(yùn)用J48決策樹算法對犯罪人員進(jìn)行分類,通過混淆矩陣、TP(True Positive)率、FP(False Positive)率、分類精度、召回率、F檢驗(yàn)、MCC(Matthews Correlation Coefficient)值等屬性檢驗(yàn)J48算法決策樹的可靠性和穩(wěn)定性,分類結(jié)果用于確定是否懷疑特殊人員可能進(jìn)行犯罪。Sakhare等[14]提出了可以將數(shù)據(jù)挖掘算法運(yùn)用在犯罪和刑事數(shù)據(jù)源方面,用于識別犯罪嫌疑人的犯罪活動,同時使用J48、樸素的貝葉斯和JRip算法對犯罪樣本和犯罪庫進(jìn)行識別,識別率最高的算法用來識別潛在的犯罪嫌疑人,其實(shí)驗(yàn)結(jié)果表明貝葉斯是最有效的和花費(fèi)時間最少的算法。Joshi等[15]基于計(jì)算機(jī)處理器的分支預(yù)測技術(shù)提出了HB(History Bit)算法,該算法通過對屬性的優(yōu)先級進(jìn)行分類,根據(jù)分類的前后賦予不同分組的權(quán)重，其實(shí)驗(yàn)結(jié)果表明,HB算法分類的準(zhǔn)確性比傳統(tǒng)的貝葉斯和決策樹有顯著的提高。

Sivaraman等[5]基于GTD提出了一種集成決策樹分類算法。該算法集成J48、C4.5,通過提取17個恐怖事件攻擊相關(guān)屬性訓(xùn)練集成決策樹,以實(shí)現(xiàn)恐怖事件攻擊類型識別，其實(shí)驗(yàn)結(jié)果表明，與單一的決策樹算法相比,該算法在召回率和準(zhǔn)確率方面有顯著提升。Sheikh[16]使用1970年—2014年的GTD恐怖事件數(shù)據(jù),針對發(fā)生的恐怖事件進(jìn)行預(yù)測建模,根據(jù)城市、攻擊類型、目錄類型、聲稱模式、武器的攻擊類型和動機(jī)等屬性通過分類技術(shù)對未來恐怖襲擊進(jìn)行預(yù)測。Wu等[17]基于傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)開發(fā)了一個新型遞歸神經(jīng)網(wǎng)絡(luò),并建立一個Situation-Aware公共安全評估平臺,該平臺基于GTD為每個國家,預(yù)測恐怖襲擊風(fēng)險(xiǎn)水平，以及哪個國家最有可能受到潛在的恐怖組織的攻擊。Strang等[18]使用Hadoop大數(shù)據(jù)處理平臺在Google新聞上收集大量復(fù)雜的恐怖主義信息,運(yùn)用統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案(Statistical Product and Service Solutions, SPSS)軟件分析恐怖組織的意識形態(tài)和恐怖襲擊類型的關(guān)系。

綜上所述,在面向社會安全的恐怖事件攻擊行為分類上,現(xiàn)有算法分類的準(zhǔn)確性不高,為此本文提出的基于Spark平臺的DNNC算法以提高攻擊行為分類的準(zhǔn)確性。將大數(shù)據(jù)處理技術(shù)運(yùn)用在面向社會安全的恐怖攻擊行為分類問題,可以快速地從大量龐雜的數(shù)據(jù)堆里分析出有用的信息,挖掘數(shù)據(jù)的有用價(jià)值,提高社會安全事件攻擊行為分類的準(zhǔn)確性。社會安全攻擊行為準(zhǔn)確分類,可以提高社會安全事件分析的效率,可以更加準(zhǔn)確地分析和總結(jié)出不同社會安全事件發(fā)生的原因,針對不同的類別的社會安全事件,應(yīng)該如何進(jìn)行提前防范和預(yù)警,降低事件發(fā)生帶來的損失。

2 基于Spark平臺的DNNC算法

2.1 Spark平臺

大數(shù)據(jù)時代下,出現(xiàn)很多大數(shù)據(jù)處理框架。在計(jì)算方面,主要有MapReduce框架[19-20]和Spark框架[21-22]。Spark是加州大學(xué)伯克利分校AMP(Algorithms, Machines, and People)實(shí)驗(yàn)室開源的計(jì)算框架,基于內(nèi)存計(jì)算的Spark在計(jì)算效率上是基于磁盤計(jì)算的MapReduce的100倍。Spark逐漸形成了自己的生態(tài)圈,如圖1所示,并成為Apache頂級項(xiàng)目,是現(xiàn)今最流行的開源分布式大數(shù)據(jù)計(jì)算平臺,非常適合迭代的機(jī)器學(xué)習(xí)任務(wù)[23]。

圖1 Spark生態(tài)圈

Spark生態(tài)圈即伯克利數(shù)據(jù)分析棧(Berkeley Data Analytics Stack, BDAS)包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件,Spark Core提供內(nèi)存計(jì)算框架、Spark Streaming的實(shí)時處理應(yīng)用、Spark SQL的即席查詢、MLlib或MLbase的機(jī)器學(xué)習(xí)和GraphX的圖處理,它們由加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室提供,能夠無縫地集成并提供一站式解決平臺。

2.2 DNNC算法

2.2.1 算法流程

源數(shù)據(jù)是對一個恐怖事件進(jìn)行詳細(xì)描述,存在數(shù)據(jù)不規(guī)范、類型不統(tǒng)一、數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)異常等問題,無法直接對數(shù)據(jù)進(jìn)行模型訓(xùn)練,必須對源數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,隨后將預(yù)處理的數(shù)據(jù)傳入到分布式神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,實(shí)現(xiàn)面向社會安全恐怖事件分類。算法主要包括6個步驟:

1)數(shù)據(jù)抽取。

源數(shù)據(jù)中addnotes等屬性是對事件的一些補(bǔ)充描述,對攻擊行為分類關(guān)系不大,可直接刪去。summary屬性簡要介紹事件發(fā)生的過程，其中包括事件發(fā)生的時間、地點(diǎn)等,可以通過其他屬性進(jìn)行表示,可直接刪去summary屬性。country和country_txt,region和region_txt等,存在重復(fù)定義,保留country、region等這類編號屬性,將文字描述屬性country_txt、region_txt等屬性直接刪去。Nhostkid等屬性在幾萬條事件記錄中只有3 000多條有對應(yīng)的屬性值,數(shù)據(jù)嚴(yán)重缺失,提供的有用信息較少,直接刪去。通過對源數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取,刪除無用或者作用較小的屬性，保留有用的屬性。有用的屬性包括國家編號、地區(qū)編號、經(jīng)度、維度、武器編號、死亡人數(shù)、受傷人數(shù)、目標(biāo)子類型編號等。

2)數(shù)據(jù)轉(zhuǎn)換。

源數(shù)據(jù)經(jīng)過數(shù)據(jù)抽取后,得到相對有價(jià)值的數(shù)據(jù),該數(shù)據(jù)類型也存在一定的規(guī)范性,但還是無法直接進(jìn)行模型訓(xùn)練,抽取后的數(shù)據(jù)存在的主要問題是數(shù)據(jù)類型不統(tǒng)一,有的屬性字段是日期類型,有的是字符串類型,有的是數(shù)值類型等。模型訓(xùn)練需要的數(shù)據(jù)是量化后的數(shù)值類型數(shù)據(jù),針對無法進(jìn)行計(jì)算的非數(shù)值型屬性字段,需要進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換，例如對字符串類型的數(shù)據(jù),通過按英文字母排序,將排序的編號作為該屬性的一個映射值。

3)數(shù)據(jù)預(yù)處理。

數(shù)據(jù)預(yù)處理階段主要完成填充缺失數(shù)據(jù)值、刪除異常值數(shù)據(jù)和重復(fù)數(shù)據(jù)。缺失值填充主要使用拉格朗日插值法；對異常值數(shù)據(jù)主要采用箱型圖分析法來檢查重復(fù)數(shù)據(jù),對重復(fù)的數(shù)據(jù)記錄只保留其中一條。

4)數(shù)據(jù)規(guī)范化。

不同評價(jià)指標(biāo)往往具有不同的量綱,數(shù)值間的差別可能很大,不進(jìn)行處理會影響數(shù)據(jù)分析的結(jié)果。為了消除指標(biāo)之間的量綱和取值范圍差異的影響,需要進(jìn)行標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個特定的區(qū)域,以便于進(jìn)行綜合分析。本文使用最小-最大值規(guī)范化也稱為離差標(biāo)準(zhǔn)化,對原始數(shù)據(jù)進(jìn)行線性變換,將數(shù)值映射到區(qū)間[0,1]內(nèi),轉(zhuǎn)換公式如式(1)所示:

(1)

其中:max為樣本數(shù)據(jù)的最大值;min為樣本數(shù)據(jù)的最小值；max-min為極差。離差標(biāo)準(zhǔn)化保留原來數(shù)據(jù)中存在的關(guān)系,是消除量綱和數(shù)據(jù)取值范圍影響的最簡單方法。

5)數(shù)據(jù)相關(guān)性分析。

數(shù)據(jù)進(jìn)行規(guī)范化之后就可以直接運(yùn)用于模型的訓(xùn)練。為了進(jìn)一步提高模型的可靠性,還需對數(shù)據(jù)各屬性進(jìn)行相關(guān)性分析,對每個屬性則進(jìn)行兩兩相關(guān)性計(jì)算,相關(guān)性分析主要使用Person相關(guān)系數(shù),兩個屬性存在較高的相關(guān)性,即Person相關(guān)系數(shù)接近1,在兩個屬性中舍棄與目標(biāo)屬性相關(guān)性較低的屬性。

6)模型訓(xùn)練與事件分類。

將處理后的數(shù)據(jù)作為模型的輸入數(shù)據(jù)，同時為模型設(shè)置初始化參數(shù)，然后對模型進(jìn)行訓(xùn)練。訓(xùn)練結(jié)束后，可以獲得各個神經(jīng)網(wǎng)絡(luò)層的權(quán)重，通過權(quán)重可以得面向社會安全分類模型，最后對社會安全事件進(jìn)行分類。

2.2.2 算法設(shè)計(jì)

基于Spark分布式平臺實(shí)現(xiàn)分布式神經(jīng)網(wǎng)絡(luò)算法對社會安全事件攻擊行為進(jìn)行分類,系統(tǒng)整體結(jié)構(gòu)如圖2所示。

圖2展示了分布式神經(jīng)網(wǎng)絡(luò)系統(tǒng)整體結(jié)構(gòu),整個系統(tǒng)搭建在Spark分布式平臺上,數(shù)據(jù)存儲使用分布式文件系統(tǒng)。整個系統(tǒng)包含4個節(jié)點(diǎn),也就是4臺主機(jī),分別是1臺Master和3臺Worker。Master節(jié)點(diǎn)是控制節(jié)點(diǎn),進(jìn)行任務(wù)調(diào)度和分配;Worker節(jié)點(diǎn)是計(jì)算節(jié)點(diǎn),進(jìn)行模型訓(xùn)練。

圖2 分布式神經(jīng)網(wǎng)絡(luò)系統(tǒng)整體結(jié)構(gòu)

Worker節(jié)點(diǎn)都是使用三層前饋神經(jīng)網(wǎng)絡(luò),輸入層有n個神經(jīng)元,隱含層有p個神經(jīng)元,輸出層有m個神經(jīng)元。社會安全事件攻擊行為數(shù)據(jù),在經(jīng)過數(shù)據(jù)處理后生成規(guī)范的數(shù)據(jù),存儲在分布式文件系統(tǒng),長度為n的社會安全事件攻擊行為序列數(shù)據(jù)x=x1x2…xn,則分別輸入到計(jì)算節(jié)點(diǎn)進(jìn)行計(jì)算,其他變量和函數(shù)的定義如下。

隱含層輸入向量:g=(g1,g2,…,gp)

隱含層輸出向量:h=(h1,h2,…,hp)

輸出層輸入向量:s=(s1,s2,…,sm)

輸出層輸出向量:y=(y1,y2,…,ym)

期望輸出向量:d=(d1,d2,…,dm)

輸入層到隱含層的連接權(quán)值:wih

隱含層到輸出層的連接權(quán)值:who

隱含層各神經(jīng)元的閾值:bh

輸出層各神經(jīng)元的閾值:bo

樣本數(shù)據(jù)個數(shù):k=1,2,…,t

權(quán)重學(xué)習(xí)率:η

利用輸出層各神經(jīng)元的y(k)和隱含層各神經(jīng)元的輸出來修正連接權(quán)值who(k):

(2)

(3)

利用隱含層各神經(jīng)元的h(k)和輸入層各神經(jīng)元的輸入修正連接權(quán)值wih(k):

(4)

(5)

計(jì)算全局誤差:

(6)

面向社會安全事件的分布式神經(jīng)網(wǎng)絡(luò)系統(tǒng)中,Master節(jié)點(diǎn)進(jìn)行權(quán)重的廣播和權(quán)重的回收,Worker節(jié)點(diǎn)獲取Master節(jié)點(diǎn)廣播的權(quán)重,進(jìn)行模型訓(xùn)練。詳細(xì)構(gòu)成如下:

1)Master節(jié)點(diǎn)進(jìn)行初始化模型參數(shù)，隨機(jī)生成初始權(quán)重,并通過broadcast(廣播)的方式把模型的初始化參數(shù)和初始權(quán)重傳到各個Worker節(jié)點(diǎn)上。

2)各個Worker節(jié)點(diǎn)根據(jù)broadcast得到模型的初始化參數(shù)和初始化權(quán)重,對各自的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行初始化,根據(jù)分配的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,調(diào)整權(quán)重,使誤差值e不斷減小。訓(xùn)練結(jié)束后,將最終調(diào)整的權(quán)重傳遞給Master節(jié)點(diǎn)。

3)Master節(jié)點(diǎn)收集各個Worker節(jié)點(diǎn)的權(quán)重,計(jì)算更新權(quán)重w′,判斷全局誤差最小值是否小于設(shè)定值,或者循環(huán)次數(shù)是否達(dá)到設(shè)定值：兩個條件有一個成立,結(jié)束循環(huán)，全局誤差最小的權(quán)重作為最終模型的訓(xùn)練參數(shù),得到社會安全事件攻擊行為分類模型；兩個條件都沒有達(dá)到,進(jìn)行步驟4)。

4)將更新權(quán)重w′重新broadcast到各個Worker節(jié)點(diǎn)。各個Worker節(jié)點(diǎn)進(jìn)行新一輪的循環(huán)。

基于BP神經(jīng)網(wǎng)絡(luò)和分布式系統(tǒng)架構(gòu)設(shè)計(jì)DNNC算法。

算法1 DNNC算法。

輸入攻擊行為類型識別輸入樣本x。

輸出模型訓(xùn)練后的權(quán)重wih和who。

1)Master節(jié)點(diǎn):初始化權(quán)重wih=rand(-1,1),who=rand(-1,1),bh=rand(-1,1),bo=rand(-1,1),并將初始化參數(shù)進(jìn)行廣播。

2)Worker節(jié)點(diǎn):分別根據(jù)式(2)、(4)計(jì)算權(quán)重更新量Δwho和Δwih(k)。

3)Worker節(jié)點(diǎn):分別根據(jù)式(3)、(5)計(jì)算更新權(quán)重,根據(jù)式(6)計(jì)算全局誤差,并將更新權(quán)重和全局誤差傳回Master節(jié)點(diǎn)。

4)Master節(jié)點(diǎn):根據(jù)傳回的權(quán)重進(jìn)行權(quán)重,并將權(quán)重從新分發(fā)給各個Worker節(jié)點(diǎn)。

5)重復(fù)2)～4),直到全局誤差小于設(shè)定值或者循環(huán)次數(shù)到達(dá)最大值。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)使用的測試平臺為搭建的Spark分布式集群,集群規(guī)模為本校計(jì)算中心分配的4個虛擬計(jì)算節(jié)點(diǎn),每個節(jié)點(diǎn)的操作系統(tǒng)為Centos6.5,4核CPU,內(nèi)存為16 GB,存儲為50 GB,Hadoop版本為2.6.5,Spark版本為1.6.0,開發(fā)環(huán)境為IDEA2016.2.5。

3.2 數(shù)據(jù)集

本文實(shí)驗(yàn)使用了GDT全球恐怖事件數(shù)據(jù)庫2012年—2015年的47 000多條記錄,源數(shù)據(jù)記錄了恐怖事件的事件編號、國家、地區(qū)、事件發(fā)生的經(jīng)度、事件發(fā)生的緯度、攻擊類型等80個屬性,數(shù)據(jù)集的部分?jǐn)?shù)據(jù)如表1所示。

表1 全球恐怖事件數(shù)據(jù)集的部分?jǐn)?shù)據(jù)

根據(jù)GTD,對數(shù)據(jù)進(jìn)行攻擊行為分類統(tǒng)計(jì),統(tǒng)計(jì)信息如表2所示。

表2 攻擊行為分類統(tǒng)計(jì)信息

3.3 模型訓(xùn)練

分布式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為三層：第一層是輸入層,第二層是隱含層,第三層是輸出層。輸入神經(jīng)元個數(shù)為10,隱含神經(jīng)元個數(shù)為15,輸出神經(jīng)元個數(shù)為8;每組數(shù)據(jù)量為50個；最大循環(huán)次數(shù)1 000；數(shù)據(jù)訓(xùn)練集和測試集比例為4∶1；隱含層激活函數(shù)為tanh()；初始學(xué)習(xí)率為2.0;學(xué)習(xí)率調(diào)整比例為1.0,輸出函數(shù)為sigm()。

3.4 實(shí)驗(yàn)結(jié)果對比

模型訓(xùn)練完成后,得到分布式神經(jīng)網(wǎng)絡(luò)模型權(quán)重wih和who，根據(jù)得到的權(quán)重進(jìn)行攻擊類型識別,本文提出的DNNC算法的識別準(zhǔn)確率如表3所示。

表3 DNNC算法的識別準(zhǔn)確率

本文算法與決策樹算法和集成決策樹算法[5]的比較結(jié)果如表4所示。

表4 幾種算法準(zhǔn)確率比較

實(shí)驗(yàn)結(jié)果表明：本文提出的DNNC算法僅部分攻擊類型上識別準(zhǔn)確率有所下降(主要因?yàn)镈NNC考慮的是全局最優(yōu))，但總體優(yōu)勢明顯。DNNC算法的平均準(zhǔn)確率比決策樹算法提升15.90個百分點(diǎn)，比集成決策樹算法提升8.60個百分點(diǎn)。DNNC算法對社會安全事件進(jìn)行分類,能更加準(zhǔn)確地學(xué)習(xí)各個屬性與分類目標(biāo)之間存在的關(guān)系,通過各個層之間的變換,關(guān)聯(lián)各個屬性,挖掘各個屬性之間存在的隱含關(guān)系,相對于決策樹,每次只考慮一個屬性值進(jìn)行決策分類,更具有優(yōu)勢,分類準(zhǔn)確性更高。

4 結(jié)語

本文分析了恐怖事件攻擊行為的數(shù)據(jù)特征,從數(shù)據(jù)的層面挖掘攻擊行為與哪些屬性具有相關(guān)性、哪些屬性影響攻擊行為的類別;同時提出了分布式神經(jīng)網(wǎng)絡(luò)分類算法,來解決恐怖事件攻擊行為分類問題。神經(jīng)網(wǎng)絡(luò)的非線性擬合特性可以準(zhǔn)確地構(gòu)建恐怖事件攻擊行為分類模型,而Spark作為基于內(nèi)存計(jì)算的分布式平臺,非常適合反復(fù)進(jìn)行迭代的神經(jīng)網(wǎng)絡(luò)算法,能提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度。結(jié)合神經(jīng)網(wǎng)絡(luò)和Spark分布式平臺的優(yōu)勢,將其運(yùn)用于恐怖事件攻擊行為的分類,比傳統(tǒng)的恐怖事件分類算法更有優(yōu)勢,識別率更高。但從社會安全事件攻擊行為分類問題上看,對于樣本數(shù)量較小的攻擊類別的識別率還需要進(jìn)一步提高。從大數(shù)據(jù)背景看,對分布式神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練速度的提高,也將是下一步工作研究的重點(diǎn)。

References)

[1] 國務(wù)院. 國家突發(fā)公共事件總體應(yīng)急預(yù)案[J]. 中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志, 2006, 12(1):77-79.(State Council. National emergency response plan for public emergencies [J]. Chinese Journal of Basic Medicine in Traditional Chinese Medicine,2006, 12(1):77-79.)

[2] 孫越恒, 王文俊, 遲曉彤, 等. 基于多維時間序列模型的社會安全事件關(guān)聯(lián)關(guān)系挖掘與預(yù)測[J]. 天津大學(xué)學(xué)報(bào) (社會科學(xué)版), 2016, 18(2): 97-102. (SUN Y H, WANG W J, CHI X T, et al. Correlation mining and prediction of social security events based on multi-dimensional time series model[J]. Journal of Tianjin University (Social Sciences), 2016, 18(2): 97-102.)

[3] BACKER D A, BHAVNANI R, HUTH P K. Peace and Conflict 2016[M]. Oxford: Routledge, 2016: 67.

[4] KLUCH S P, VAUX A. The non-random nature of terrorism: an exploration of where and how global trends of terrorism have developed over 40 years[J]. Studies in Conflict amp; Terrorism, 2016, 39(12): 1031-1049.

[5] SIVARAMAN R, SRINIVASAN S, CHANDRASEKERAN R M. Big data on terrorist attacks: an analysis using the ensemble classifier approach[EB/OL]. [2017- 01- 10]. http://edlib.net/2015/icidret/icidret2015042.pdf.

[6] 焦李成, 楊淑媛, 劉芳, 等. 神經(jīng)網(wǎng)絡(luò)七十年: 回顧與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2016, 39(8): 1697-1716. (JIAO L C, YANG S Y, LIU F, et al. Seventy years beyond neural networks: retrospect and prospect [J]. Chinese Journal of Computers, 2016, 39(8): 1697-1716.)

[7] 劉暢. BP神經(jīng)網(wǎng)絡(luò)的權(quán)值快速計(jì)算法及其逼近性能分析[J]. 科技視界, 2016(11): 130-131. (LIU C. Fuzzy calculation method and approximation performance analysis of BP neural network [J]. Science amp; Technology View, 2016(11): 130-131.)

[8] SALEHIAN S, YAN Y. Comparison of spark resource managers and distributed file systems[C]// Proceedings of the 2016 IEEE International Conferences on Big Data and Cloud Computing, Social Computing and Networking, Sustainable Computing and Communications. Piscataway, NJ: IEEE, 2016: 567-572.

[9] LIU T, FANG Z, ZHAO C, et al. Parallelization of a series of extreme learning machine algorithms based on spark[C]// Proceedings of the 2016 IEEE/ACIS 15th International Conference on Computer and Information Science. Piscataway, NJ: IEEE, 2016: 1-5.

[10] FREILICH J D, LAFREE G. Measurement issues in the study of terrorism: introducing the special issue[J]. Studies in Conflict and Terrorism, 2016, 39(7/8): 569-579.

[11] MEIERRIEKS D, SCHNEIDER F. The short-and long-run relationship between the illicit drug business and terrorism[J]. Applied Economics Letters, 2016, 23(18): 1274-1277.

[12] LUTZ B J, LUTZ J M. Globalization, terrorism, and the economy[M]// LUTZ B J, LUTZ J M. Globalization and the Economic Consequences of Terrorism. Berlin: Springer, 2017: 1-30.

[13] SAKHARE N N, JOSHI S A. Classification of criminal data using J48-decision tree algorithm[J]. IFRSA International Journal of Data Warehousing amp; Mining, 2014, 4(3): 167-171.

[14] SAKHARE N, JOSHI S. Criminal identification system based on data mining[C]// Proceedings of the 3rd International Conference on Recent Trends in Engineering and Technology. Chandwad, Nashik, India: [s.n.], 2014.

[15] JOSHI S, SAKHARE N. History bits based novel algorithm for classification of structured data[C]// Proceedings of the 2015 IEEE International Advance Computing Conference. Piscataway, NJ: IEEE, 2015: 609-612.

[16] SHEIKH H R. Use of predictive modeling for prediction of future terrorist attacks in Pakistan[EB/OL]. [2017- 01- 10]. http://koha.isra.edu.pk: 8080/jspui/handle/123456789/59.

[17] WU S, LIU Q, BAI P, et al. SAPE: a system for situation-aware public security evaluation[C]// Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2016: 4401-4402.

[18] STRANG K D, SUN Z. Analyzing relationships in terrorism big data using Hadoop and statistics[J]. Journal of Computer Information Systems, 2017, 57(1): 67-75.

[19] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.

[21] ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: cluster computing with working sets[C]// HotCloud 2010: Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing. Berkeley: USENIX Association, 2010: 10.

[22] ZAHARIA M, CHOWDHURY M, DAS T, et al. Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing[C]// Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation. Berkeley: USENIX Association, 2012: 2.

[23] MENG X, BRADLEY J, YUVAZ B, et al. MLlib: machine learning in Apache Spark[J]. The Journal of Machine Learning Research, 2016, 17(1): 1235-1241.

Distributedneuralnetworkforclassificationofattackbehaviortosocialsecurityevents

XIAO Shenglong1*, CHEN Xin1, LI Zhuo1,2

(1.SchoolofComputerScience,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China;2.BeijingKeyLaboratoryofInternetCultureandDigitalDissemination,Beijing100101,China)

In the era of big data, the social security data becomes more diverse and its amount increases rapidly, which challenges the analysis and decision of social security events significantly. How to accurately categorize the attack behavior in a short time and support the analysis and decision making of social security events becomes an urgent problem needed to be solved in the field of national and cyberspace security. Aiming at the behavior of aggression in social security events, a new Distributed Neural Network Classification (DNNC) algorithm was proposed based on the Spark platform. The DNNC algorithm was used to analyze the related features of the attack behavior categories, and the features were used as the input of the neural network. Then the function relationship between the individual features and attack categories were established, and a neural network classification model was generated to classify the attack categories of social security events. Experimental results on the data provided by the global terrorism database show that the proposed algorithm can improve the average accuracy by 15.90 percentage points compared with the decision tree classification, and by 8.60 percentage points compared with the ensemble decision tree classification, only decreases the accuracy on part attack type.

social security; big data; Spark distributed system; neural network; classification algorithm

2017- 04- 24;

2017- 06- 14。

國家自然科學(xué)基金資助項(xiàng)目(61370065,61502040);國家科技支撐計(jì)劃項(xiàng)目(2015BAK12B00)。

肖圣龍(1991—),男,福建莆田人,碩士研究生,主要研究方向:大數(shù)據(jù)分析、網(wǎng)絡(luò)安全; 陳昕(1965—),男,江西南昌人,教授,博士生導(dǎo)師,博士,CCF高級會員,主要研究方向:大數(shù)據(jù)分析、網(wǎng)絡(luò)安全; 李卓(1983—),男,河南南陽人,講師,博士,CCF會員,主要研究方向:移動無線網(wǎng)絡(luò)、分布式計(jì)算。

1001- 9081(2017)10- 2794- 05

10.11772/j.issn.1001- 9081.2017.10.2794

TP391.41

This work is partially supported by the National Natural Science Foundation of China (61370065, 61502040), the National Key Technology Research and Development Program of the Ministry of Science and Technology of China (2015BAK12B00).

XIAOShenglong, born in 1991, M. S. candidate. His research interests include big data analysis, network security.

CHENXin, born in 1965, Ph. D., professor. His research interests include big data analysis, network security.

LIZhuo, born in 1983, Ph. D., lecturer. His research interests include mobile wireless network, distributed computing.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向社會安全事件的分布式神經(jīng)網(wǎng)絡(luò)攻擊行為分類方法

0 引言

1 相關(guān)工作

2 基于Spark平臺的DNNC算法

2.1 Spark平臺

2.2 DNNC算法

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)環(huán)境

3.2 數(shù)據(jù)集

3.3 模型訓(xùn)練

3.4 實(shí)驗(yàn)結(jié)果對比

4 結(jié)語