亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學(xué)習的恐怖分子預(yù)測算法

        2020-02-19 11:27:18張南南陳湘萍
        計算機工程 2020年2期
        關(guān)鍵詞:恐怖襲擊分類器神經(jīng)網(wǎng)絡(luò)

        李 慧,張南南,曹 卓,鄭 海,陳湘萍

        (貴州大學(xué) a.電氣工程學(xué)院; b.機械工程學(xué)院,貴陽 550025)

        0 概述

        當今世界,恐怖襲擊事件頻繁發(fā)生,由全球恐怖主義數(shù)據(jù)庫(GTD)統(tǒng)計的數(shù)據(jù)可知,從1970年至今,記錄在案的恐怖襲擊事件高達180 000多起??植酪u擊不僅具有極大的殺傷性與破壞力,直接造成大量的人員傷亡和財產(chǎn)損失,而且還給人們帶來巨大的心理壓力,導(dǎo)致社會一定程度的動蕩不安,妨礙正常的工作與生活秩序,進而極大地阻礙經(jīng)濟的發(fā)展[1]。對恐怖襲擊事件嫌疑人的分析預(yù)測有利于對恐怖分子進行針對性打擊,能夠為反恐和防恐工作提供有價值的信息支持,有助于提高破案效率以及盡早發(fā)現(xiàn)新生或者隱藏的恐怖分子,從而降低人員和財產(chǎn)損失。

        目前國內(nèi)外許多專家學(xué)者針對恐怖襲擊風險評估進行了相關(guān)研究。文獻[2]提出基于人口的簡單風險指標和基于事件的RMS恐怖風險模型2種評估方法。還有一些研究利用事件樹[3-4]、概率風險評估(Probabilistic Risk Assessment,PRA)[5-7]、貝葉斯網(wǎng)絡(luò)[8-10]以及神經(jīng)網(wǎng)絡(luò)[11]等方法評估恐怖襲擊風險。而有些研究依據(jù)事件特征發(fā)現(xiàn)犯罪嫌疑人,如文獻[12]運用支持向量機(Support Vector Machine,SVM)預(yù)測犯罪嫌疑人。該方法根據(jù)歷史犯罪記錄進行特征選擇,訓(xùn)練基于SVM的嫌疑人特征預(yù)測模型,通過此模型對案件嫌疑人的各個特征進行預(yù)測,將預(yù)測出的特征與備選嫌疑人庫中人員特征進行相似度計算,進而預(yù)測出最有可能的嫌疑人。文獻[13]基于隨機森林模型組合分類器對犯罪行為進行分析。文獻[14]基于一種混合神經(jīng)模糊模型,通過從模擬的廣域監(jiān)視網(wǎng)絡(luò)中提取的犯罪指示事件來預(yù)測在城市或地區(qū)中的犯罪行為。文獻[15]采用聚類算法,提出了一種基于Probit模型的犯罪嫌疑人判定技術(shù)。文獻[16]在分析財產(chǎn)犯罪時空規(guī)律的基礎(chǔ)上,利用BP神經(jīng)網(wǎng)絡(luò)模型自動學(xué)習訓(xùn)練各因子與財產(chǎn)犯罪的非線性關(guān)系,建立了財產(chǎn)犯罪預(yù)測模型。文獻[17]比較如K-Means、DBSCAN等聚類算法,分析其對案件的聚類效果,找出最適合犯罪檢測的聚類算法。文獻[18]提出一個綜合框架,結(jié)合社會網(wǎng)絡(luò)分析、小波變換和模式識別的方法預(yù)測恐怖組織的攻擊行為。但上述方法的預(yù)測效果不理想,使用的數(shù)據(jù)量也較小,反映出的犯罪特征不夠全面,且針對特殊的恐怖襲擊犯罪事件的研究還較少。

        本文使用GTD數(shù)據(jù)庫中2015年和2016年30 000多條恐怖襲擊事件數(shù)據(jù),采用目前主流機器學(xué)習分類算法預(yù)測模型Bagging、決策樹(Decision Tree,DT)、隨機森林(Random Forest,RF)以及全連接神經(jīng)網(wǎng)絡(luò)(Fully Connected Neural Network,FCNN),對一個或多個恐怖襲擊事件嫌疑人進行預(yù)測,并使用貝葉斯參數(shù)優(yōu)化策略對各預(yù)測模型的超參數(shù)進行調(diào)節(jié),從而找到最佳的預(yù)測模型超參數(shù)。

        1 問題分析與數(shù)據(jù)收集

        國內(nèi)外學(xué)者對恐怖分子的犯罪心理[19]、動機特征[20]、發(fā)展特點等做了大量的定性研究。文獻[21]對當代恐怖分子犯罪的目的和動機、主體構(gòu)成、犯罪對象和結(jié)果以及犯罪手段進行了深入的探討。然而這些定性分析的主觀因素較多,并不能展示一個直觀的結(jié)果。結(jié)合大量相關(guān)研究文獻對已有的恐怖組織和個人進行詳細剖析,發(fā)現(xiàn)每次恐怖襲擊行為并不是任意的,而是有組織有目的的精心選擇,相同組織和個人的襲擊行為在一定程度上有著極大的關(guān)聯(lián)性。針對這一現(xiàn)象,將每次襲擊行為進行量化處理,對恐怖事件特征進行分析,根據(jù)已有的恐怖襲擊事件制造者去預(yù)測未知恐怖事件的組織和個人。

        依據(jù)特征對未知事件進行預(yù)測的方法有很多,機器學(xué)習算法是目前比較常見的一種。機器學(xué)習是一種關(guān)于研究“學(xué)習算法”的學(xué)問,依賴于已有數(shù)據(jù)建立模型算法,通過提供的經(jīng)驗數(shù)據(jù),不斷學(xué)習,找到最佳模型,在面對新的數(shù)據(jù)時,已經(jīng)建立的模型會給出相應(yīng)的判斷[22]。本文研究的問題是將未知組織和個人的恐怖事件貼上已知的類別標簽,即分類算法問題。依照機器學(xué)習的思想,將已有的恐怖事件特征數(shù)據(jù)輸入分類算法模型中進行學(xué)習,得到最佳模型后對未知的數(shù)據(jù)集進行類別判斷,從而預(yù)測出可能的恐怖組織和個人。

        本文使用的數(shù)據(jù)均來源于全球恐怖主義數(shù)據(jù)庫(GTD)。GTD是一個開源數(shù)據(jù)庫,是世界上目前最全面的非機密恐怖襲擊數(shù)據(jù)庫,其包含1970年至今超過180 000次恐怖襲擊事件的信息。每條GTD事件包括至少45個變量的信息,最近的事件包括超過120個變量的信息。這些變量的信息主要包含事件發(fā)生的日期和地點、使用的武器、目標的性質(zhì)、傷亡人數(shù)以及可識別的負責團體或個人的信息等。本文在GTD中下載了2015年和2016年共發(fā)生的30 312起恐怖襲擊事件特征數(shù)據(jù)作為實驗的信息支撐。

        2 恐怖襲擊事件制造者預(yù)測模型

        本文對下載數(shù)據(jù)進行特征選擇后做標準化處理,將已經(jīng)預(yù)處理的數(shù)據(jù)按犯罪組織名稱或個人(gname)作為標簽劃分數(shù)據(jù)集。gname已知的作為訓(xùn)練集,未知的作為測試集。將訓(xùn)練集輸入各個分類算法模型中學(xué)習訓(xùn)練,找到最佳機器學(xué)習算法模型,并用其預(yù)測測試集,對測試集進行分類并貼上標簽??植酪u擊事件制造嫌疑人預(yù)測流程如圖1所示。

        圖1 恐怖襲擊事件嫌疑人預(yù)測流程

        2.1 數(shù)據(jù)處理

        2.1.1 預(yù)處理

        本文根據(jù)事件相關(guān)屬性選取了12個特征。

        1)事件發(fā)生的日期和地點:即年(iyear)、月(imonth)、地區(qū)(region)、附近地區(qū)(vicinity)、緯度(latitude)和經(jīng)度(longitude)。其中,地區(qū)分為12類,每個類別如表1所示。

        表1 地區(qū)類別

        2)使用的武器和目標的性質(zhì):即攻擊類型(attacktype1)、武器類型(weapontype1)、成功的攻擊(success)和目標/受害者類型(targtype1)。其中,攻擊類型共9類,如表2所示,武器類型共13類,目標/受害者類型共22類。

        表2 攻擊類型

        3)傷亡人數(shù):死亡總數(shù)(nkill)。

        4)可識別的負責的團體或個人的信息:聲稱負責(claimed)共有兩類,0表示沒有人聲稱對事件負責,1表示一個組織或個人聲稱對襲擊負責。

        本文選擇的特征數(shù)據(jù)包含不同的量綱,并且某些統(tǒng)一指標的數(shù)量級差距過大,為了使表征不同屬性的特征有可比性,對其進行無量綱處理。數(shù)據(jù)標準化處理(Normalization),即歸一化,可以保證各變量的變化幅度處于同一水平,使各指標處于相同數(shù)量級,從而消除數(shù)據(jù)之間數(shù)量級差距過大引起的誤差。本文選取的30 000多條數(shù)據(jù)中,死亡總數(shù)這一特征各數(shù)值之間的數(shù)量級差距過大,因此,將其進行標準化處理。在機器學(xué)習分類問題中,多數(shù)算法基于向量空間中的度量進行計算,因此,特征之間的距離計算非常重要,而離散的特征值之間計算出的距離并不合理。為了使非偏序關(guān)系的變量取值不具有偏序性且到原點等距,本文采用one-hot編碼處理特征,具體特征為年、月、地區(qū)、附近地區(qū)、緯度、經(jīng)度、攻擊類型、武器類型、成功的攻擊、目標/受害者類型以及聲稱負責。由于gname字段包含實施攻擊的組織的名稱,因此以gname列作為分類標簽并將其定性特征轉(zhuǎn)換為定量特征。12個特征經(jīng)過歸一化和one-hot編碼處理后,生成了一個1×76維的輸入向量。

        2.1.2 數(shù)據(jù)集劃分

        在訓(xùn)練模型時,首先將訓(xùn)練數(shù)據(jù)集劃分為訓(xùn)練樣本集和測試樣本集,分別用來訓(xùn)練模型參數(shù)和評價預(yù)測效果。由于對數(shù)據(jù)集的劃分會較大程度影響模型的預(yù)測結(jié)果,因此本文采用交叉驗證策略來保證結(jié)果的穩(wěn)定性。交叉驗證法是一種常見的數(shù)據(jù)劃分方法,它將數(shù)據(jù)集劃分為K個大小相似的互斥子集,從而得到K組訓(xùn)練集和測試集,進而對模型進行K次訓(xùn)練。

        本文選擇K=10,即10折交叉驗證。然而在10折交叉驗證過程中,隨機劃分樣本可能導(dǎo)致在訓(xùn)練樣本集中不能包含所有類別的樣本,即訓(xùn)練樣本類別不全,且不同類別數(shù)據(jù)分布不勻。因此,本文對所有類別的事件個數(shù)分別進行統(tǒng)計,將統(tǒng)計的506個類分別按10折交叉驗證的方法劃分至訓(xùn)練樣本集和測試樣本集,即改進的10折交叉驗證方法,如圖2所示。

        圖2 改進的10折交叉驗證方法

        2.2 機器學(xué)習分類模型

        根據(jù)恐怖襲擊事件特征預(yù)測恐怖事件制造者屬于機器學(xué)習中的分類問題,本文選擇機器學(xué)習中主流分類算法Bagging、DT、RF和FCNN對恐怖襲擊事件制造者進行預(yù)測,并對其性能進行評估比較。

        Bagging,也稱bootstrap aggregating,是并行式集成算法的代表[22]。集成學(xué)習的主要思路是先通過一定的規(guī)則生成多個學(xué)習器,然后通過對每個基分類器的預(yù)測結(jié)果投票來進行分類,最后綜合判斷輸出分類結(jié)果。Bagging通過有放回的隨機采樣方法,得到n個含有m個訓(xùn)練樣本的數(shù)據(jù)集,將這n個采樣集分別送到n個基分類器中進行學(xué)習,并使用簡單投票法對這n個分類器的預(yù)測結(jié)果進行表決。

        隨機森林[23]是在Bagging基礎(chǔ)上的一個擴展,RF以決策樹為基分類器,并且在決策樹的訓(xùn)練過程中引入隨機屬性選擇[22],增強了模型的泛化能力。

        決策樹[24-26]是一種從無次序、無規(guī)則的訓(xùn)練樣本集中推理出決策樹表示形式的分類規(guī)則方法。它主要由根節(jié)點、父節(jié)點和子節(jié)點、葉節(jié)點組成,決策樹的生成過程包括構(gòu)樹和剪枝2個階段。

        神經(jīng)網(wǎng)絡(luò)是多個神經(jīng)元按照一定的層次結(jié)構(gòu)連接的一種網(wǎng)絡(luò)結(jié)構(gòu)[22]。機器學(xué)習中涉及的人工神經(jīng)網(wǎng)絡(luò)是模擬生物學(xué)上的神經(jīng)網(wǎng)絡(luò),可將其視為包含許多參數(shù)的數(shù)學(xué)模型。根據(jù)KOHONEN于1988年的描述,神經(jīng)網(wǎng)絡(luò)可定義為由具有適應(yīng)性的簡單單元組成的廣泛并行互連的網(wǎng)絡(luò),其能夠模擬生物神經(jīng)系統(tǒng)對真實世界物體所做出的交互反應(yīng)。全連接是指神經(jīng)網(wǎng)絡(luò)的每層神經(jīng)元都與下一層神經(jīng)元全部連接,這種連接是神經(jīng)網(wǎng)絡(luò)最常見最基本的一種連接方式。通過三層神經(jīng)網(wǎng)絡(luò)可以擬合任意一種非線性函數(shù),具有較強的自學(xué)習、自適應(yīng)和泛化能力。

        本文使用Python中scikit-learn[27]函數(shù)庫實現(xiàn)決策樹、隨機森林、Bagging分類器,利用Python中keras函數(shù)庫實現(xiàn)全連接神經(jīng)網(wǎng)絡(luò)。

        2.3 評價指標

        在使用機器學(xué)習模型進行預(yù)測之后,需要對預(yù)測結(jié)果做出評價。本文采用的評價指標為準確率A、精度P、召回率R和F1值。其中,準確率可以對預(yù)測結(jié)果做出直觀反映,精度和召回率在準確率無法反映真實結(jié)果時對其做出補充。當P值和R值出現(xiàn)矛盾時,需要綜合考慮2個指標,即綜合評價指標F1值。

        (1)

        (2)

        (3)

        (4)

        其中,TP為真正例,TN為真反例,FP為假正例,FN為假反例。

        2.4 超參數(shù)優(yōu)化

        超參數(shù)[28-29]是機器學(xué)習模型中的框架參數(shù),是在開始學(xué)習過程之前設(shè)置的參數(shù),而不是通過訓(xùn)練得到的參數(shù)數(shù)據(jù)。通常情況下,需要對超參數(shù)進行優(yōu)化,給學(xué)習機選擇一組最優(yōu)超參數(shù),以提高學(xué)習的性能和效果。它們跟訓(xùn)練過程中學(xué)習的參數(shù)(權(quán)重)不同,通常手工設(shè)定,然后不斷試錯調(diào)整,因此,大量的專家經(jīng)驗必不可少。為了避免重復(fù)試錯的過程,采用非參數(shù)學(xué)習自動地優(yōu)化模型參數(shù)選擇。

        貝葉斯優(yōu)化[30-32]通過對模型進行擬合找到使獲取函數(shù)最大化的超參數(shù)配置,對該配置進行評估,并重復(fù)這一過程。它是一種在沒有目標函數(shù)的情況下根據(jù)已有的采樣點預(yù)估函數(shù)最大值的自動尋優(yōu)算法。該算法假設(shè)函數(shù)符合高斯過程,其主要目標為學(xué)習函數(shù)的形態(tài)和找到該函數(shù)的極值。本文輸入超參數(shù)配置,通過貝葉斯優(yōu)化算法對候選超參數(shù)配置進行預(yù)測,并且根據(jù)獲取函數(shù)評估每個候選預(yù)測的效用,從而找到適用于每個學(xué)習模型的最優(yōu)超參數(shù)。貝葉斯尋優(yōu)的實現(xiàn)使用了Python中的Sherpa[33]函數(shù)庫。

        3 實驗與結(jié)果分析

        3.1 實驗環(huán)境

        本文實驗的硬件平臺為Intel(R)Core(TM)i5-4200M CPU @2.50 GHz、4 GB內(nèi)存、1 000 GB硬盤以及Windows7操作系統(tǒng),軟件環(huán)境平臺為Python3.6、keras、Sherpa以及scikit-learn。

        3.2 結(jié)果分析

        在將數(shù)據(jù)輸入模型學(xué)習之前,使用貝葉斯優(yōu)化對4種機器學(xué)習算法分別進行參數(shù)尋優(yōu)。

        1)Bagging算法的最佳模型內(nèi)置參數(shù):基分類器76個,最大特征數(shù)為61,最大樣例數(shù)為7 557。

        2)隨機森林的最佳模型內(nèi)置參數(shù):基分類器51個,最大特征數(shù)為50,葉節(jié)點最小樣本數(shù)為2。

        3)決策樹的最佳模型內(nèi)置參數(shù):分裂所需最小樣本數(shù)為2,深度為30。

        4)全連接神經(jīng)網(wǎng)絡(luò)的最佳模型內(nèi)置參數(shù):4個隱含層為全連接層,每層含118個神經(jīng)元,激活函數(shù)為Relu,2個池化層(Dropout)分別舍棄1/3的神經(jīng)元,輸出層激活函數(shù)為Softmax。

        對2015年和2016年的數(shù)據(jù)預(yù)處理后,分別輸入4種分類算法中進行比較。實驗通過改進的10折交叉驗證分別訓(xùn)練10次,將每次訓(xùn)練的結(jié)果輸出保留,并且計算10次輸出結(jié)果的平均值,得到指標對比結(jié)果如表3和圖3所示。

        表3 4種算法預(yù)測結(jié)果

        圖3 4種算法預(yù)測結(jié)果對比

        從表3可以看到,Bagging算法預(yù)測精度最高,為0.911 0,其準確率為0.906 5,綜合評價指標F1值為0.899 8;其次是隨機森林,其精度也達到了0.903 8;再次為決策樹。由于這些算法都是基于樹模型的分類算法,因此在本文實驗中基于樹模型的分類器預(yù)測精度都比較理想。

        從圖3可以看出,FCNN的4個評價指標中召回率較低,而精度較高。雖然精度和召回率的值越高越好,但是這2個指標在某些場景下卻是互斥的,所以需要引進一定的約束,即權(quán)衡兩者的F1值。FCNN的F1值高達0.825 3,說明在召回率較低的情況下,該算法仍然比較理想。

        基于樹的分類器精度固然比較高,但是也只能預(yù)測出相似度最高的一個結(jié)果,一旦出現(xiàn)誤判就沒有可供參考的其他選擇,因此,本文引入全連接神經(jīng)網(wǎng)絡(luò)。從表3可以看出,全連接神經(jīng)網(wǎng)絡(luò)的預(yù)測精度為0.877 8,也達到了比較理想的狀態(tài),并且能夠輸出每個結(jié)果的概率大小。這樣就可以在概率較大的前幾個結(jié)果中進行排查,在一定的范圍內(nèi)鎖定恐怖襲擊犯罪嫌疑人。

        4 結(jié)束語

        本文比較Bagging、決策樹、隨機森林和全連接神經(jīng)網(wǎng)絡(luò)算法對恐怖襲擊事件嫌疑人進行預(yù)測的結(jié)果。實驗結(jié)果表明,基于樹的算法可信度較高,其中Bagging算法的預(yù)測精度最高,但當出現(xiàn)誤判或漏判時,該類算法只能輸出一個置信度最高的結(jié)果而無法給出其他選擇。全連接神經(jīng)網(wǎng)絡(luò)可以列出所有結(jié)果的可能性,并根據(jù)可能性大小,在排名靠前的結(jié)果中鎖定目標,其預(yù)測精度為87%左右。根據(jù)實驗結(jié)果,可以先以Bagging算法鎖定頭號恐怖襲擊事件嫌疑人,再通過全連接神經(jīng)網(wǎng)絡(luò)算法在小范圍內(nèi)進行逐一排查,從而對恐怖分子作出針對性的打擊。

        猜你喜歡
        恐怖襲擊分類器神經(jīng)網(wǎng)絡(luò)
        歐洲之恐:歐洲可以迅速撲滅恐怖襲擊,但仍做不到防患于未然
        英語文摘(2021年1期)2021-06-11 05:46:56
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        恐怖襲擊
        基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        獨狼式恐怖襲擊
        方圓(2014年7期)2014-05-30 10:48:04
        手机看片福利一区二区三区| 亚洲成人一区二区三区不卡| 真人做爰试看120秒| 中文亚洲欧美日韩无线码| 国产精品免费久久久免费| 日本在线中文字幕一区二区| 精品亚洲第一区二区三区| 亚洲精品久久久久中文字幕| 思思99热精品免费观看| 日本精品人妻在线观看| 亚洲av成熟国产一区二区| 久久久久久无码av成人影院| 首页动漫亚洲欧美日韩| 国产av一区网址大全| 免费人成视频网站在线不卡| 疯狂撞击丝袜人妻| 久久精品国产免费观看99| 亚洲成在人网站天堂日本| 亚洲av色欲色欲www| 精品福利视频一区二区三区| 8090成人午夜精品无码| 亚洲福利二区三区四区| 18黑白丝水手服自慰喷水网站| 成人国产午夜在线视频| 偷拍一区二区三区在线观看| 亚洲天堂一区av在线| 国产做a爱片久久毛片a片| 亚洲成人av一区二区三区| av天堂亚洲另类色图在线播放| 又嫩又硬又黄又爽的视频| 精品久久久久久久久午夜福利| 亚洲av精品一区二区三| 91精品亚洲成人一区二区三区| 少妇高潮尖叫黑人激情在线 | 久久亚洲国产精品123区| 国产精品久久av色婷婷网站 | 久久91精品国产一区二区| 高清偷自拍亚洲精品三区| 最新精品亚洲成a人在线观看| 国语自产啪在线观看对白| 99精品视频69v精品视频|