亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機森林算法的暴恐案件危害程度量化分析

2021-04-01 08:12:24戴雨辰杜彥輝

現(xiàn)代計算機 2021年5期

戴雨辰，杜彥輝

（中國人民公安大學警務信息工程與網(wǎng)絡安全學院，北京100038）

0 引言

對于暴恐案件危害程度的預測研究可以幫助公安機關對某個涉恐組織針對不同目標策劃發(fā)動的暴恐案件危害程度進行研判，合理有效地對警力資源進行分配，對重點場所制定適合的巡防策略，最大程度的預防重大涉恐案件的發(fā)生。本文通過現(xiàn)有的暴恐案件統(tǒng)計數(shù)據(jù)，通過對案件數(shù)據(jù)進行特征重新構建，應用網(wǎng)格搜索法對隨機森林模型進行優(yōu)化來對暴恐案件的危害程度進行預測，為針對性的開展暴恐管控工作、提出案件處置建議提供支持。本文研究所選取的數(shù)據(jù)來源于全球恐怖主義數(shù)據(jù)庫（Global Terrorism Database，GTD數(shù)據(jù)庫），根據(jù)GTD數(shù)據(jù)庫的統(tǒng)計，自1970年到2018年期間，全球共發(fā)生十九萬余起暴力恐怖襲擊。雖然自2014年之后全球暴恐案件發(fā)生呈下降趨勢，但國際反恐形勢依然十分嚴峻。

在國內外相關研究中，文獻[1]提出了一種基于長短期記憶網(wǎng)絡進行時間序列預測的方法，對犯罪趨勢以及案發(fā)量進行預測；文獻[2]將粒子群優(yōu)化算法（PSO）引入BP神經(jīng)網(wǎng)絡，對案件的發(fā)案數(shù)量進行預測；文獻[3]采用了基于時空分析的可視化技術和K近鄰算法，用于研究不同犯罪在區(qū)域內的分布；文獻[4]利用密度聚類分析方法將犯罪數(shù)據(jù)分類，然后進行數(shù)據(jù)降維提取關鍵屬性生成特征數(shù)據(jù)；文獻[5]抽象出案發(fā)現(xiàn)場的各項特征，建立以分類算法為基礎的特征識別模型，對犯罪人的地域特征進行識別；文獻[6]利用了遺傳算法（GA）優(yōu)化初始權重和參數(shù)，對BP神經(jīng)網(wǎng)絡模型進行優(yōu)化，用多個影響因子數(shù)據(jù)提升犯罪預測精度；文獻[7]運用支持向量機（SVM）構建嫌疑人特征預測模型，縮小嫌疑人的排查范圍；文獻[8]使用了基于模糊信息?；闹С窒蛄繖C建立擬合回歸模型，改進了細顆粒度下的信息利用不足的問題，從而提升預測精度；文獻[9]基于隨機森林構建犯罪預測模型，對于犯罪風險進行預測。本文通過查閱文獻最終使用隨機森林算法來構建模型。

1 數(shù)據(jù)集及研究方法

1.1 研究方法介紹

隨機森林是由Leo Breiman（2001）提出的一種分類算法，它通過自助法（Bootstrap）重采樣技術，從原始訓練樣本集N中有放回地重復隨機抽取n個樣本生成新的訓練樣本集合訓練決策樹，然后按以上步驟生成m棵決策樹組成隨機森林，新數(shù)據(jù)的分類結果按分類樹投票多少形成的分數(shù)而定。其實質是對決策樹算法的一種改進，將多個決策樹合并在一起，每棵樹的建立依賴于獨立抽取的樣本。單棵樹的分類能力可能很小，但在隨機產生大量的決策樹后，一個測試樣本可以通過每一棵樹的分類結果經(jīng)統(tǒng)計后選擇最可能的分類。

圖1參數(shù)優(yōu)化隨機森林研究方案

隨機森林的分類過程如下：

（1）從樣本集中有放回隨機采樣選出n個樣本；

（2）從所有特征中隨機選擇k個特征，對選出的樣本利用這些特征建立決策樹（一般是CART，也可是別的或混合）；

（3）重復以上兩步m次，即生成m棵決策樹，形成隨機森林；

（4）對于新數(shù)據(jù)，經(jīng)過每棵樹決策，最后投票確認分到哪一類。

對于隨機森林分類器參數(shù)優(yōu)化的方法有很多，文獻[10]提出了基于貝葉斯優(yōu)化的隨機森林分類器，通過貝葉斯優(yōu)化法對隨機森林參數(shù)調優(yōu)；文獻[11]為提高分類系統(tǒng)穩(wěn)定性，提出了對隨機森林進行差分進化加權的優(yōu)化方法；文獻[12]根據(jù)袋外數(shù)據(jù)對分類誤差進行估計的網(wǎng)格搜索法，提高了隨機森林參數(shù)調優(yōu)的效率；文獻[13]提出了一種基于果蠅算法優(yōu)化的隨機森林模型，根據(jù)數(shù)據(jù)氣味濃度值變化率動態(tài)調整尋優(yōu)步長避免了傳統(tǒng)參數(shù)選擇算法存在的主觀干擾性，提高了模型預測效率。由此可見對模型的參數(shù)進行優(yōu)化是提高模型準確率和泛化能力的最有效方式。隨機森林模型中具有很多的參數(shù)，如決策樹數(shù)量、決策樹最大深度、節(jié)點劃分所需最小樣本數(shù)、葉子結點最小樣本數(shù)等，這些參數(shù)對于預測結果和模型分類表現(xiàn)起決定性作用。因此本文建立一個隨機森林暴恐案件危害程度預測模型，通過網(wǎng)格搜索法來來確定預測模型的最優(yōu)參數(shù)值。

網(wǎng)格搜索是指定參數(shù)值的一種窮舉搜索方法，是一種應用最廣泛的超參數(shù)搜索算法，通過查找搜索范圍內的所有的點，將估計函數(shù)的參數(shù)運用交叉驗證的方法進行優(yōu)化來得到最優(yōu)值。一般通過給出較大的搜索范圍以及較小的步長，網(wǎng)格搜索是一定可以找到全局最大值或最小值的。網(wǎng)格搜索一個比較大的問題是當需要調優(yōu)的超參數(shù)比較多的時候，需要耗費大量資源。在實踐中需要調參的模型數(shù)量與對應的超參數(shù)比較多，而涉及的數(shù)據(jù)量又比較大，因此相當?shù)暮馁M時間。由于隨機森林的超參數(shù)組合比較多，本文采取固定多數(shù)參數(shù)，分步對1-2個超參數(shù)進行調解。

本文對于現(xiàn)有的數(shù)據(jù)首先按照選取的特征提取案件信息，對各特征進行預處理，將文字類型的特征按照本文提出的標準轉化成整型。其次選取部分數(shù)據(jù)作為數(shù)據(jù)集，將數(shù)據(jù)集按照一定比例劃分為訓練集和測試集，使用原始隨機森林分類模型對訓練集進行分類預測，之后根據(jù)測試集的表現(xiàn)用網(wǎng)格搜索法對原始隨機森林分類模型進行優(yōu)化，然后用測試集對參數(shù)優(yōu)化后的隨機森林模型進行準確性檢驗，并與優(yōu)化之前的原始隨機森林分類模型進行比較，最后對恐怖襲擊危害程度的分類結果進行評價。研究方案如圖1所示。

1.2 數(shù)據(jù)預處理

數(shù)據(jù)集中包含了十九萬余條數(shù)據(jù)，提取案件特征可以通過對各類特征的皮爾森系數(shù)進行計算，皮爾森系數(shù)的絕對值越大特征的相關性越高，接著去除系數(shù)較小的特征等操作，最終選取的特征有：“案發(fā)國家”、“所屬區(qū)域”、“武器類型”、“案發(fā)日期”、“所屬組織”、“襲擊目標”、“襲擊方式”、“受傷人數(shù)”、“死亡人數(shù)”和“財產損失”。

首先將“案發(fā)國家”、“所屬區(qū)域”、“襲擊方式”、“武器類型”等特征值轉化為整形數(shù)據(jù)，將所篩選出的六種攻擊類型總結為暴力襲擊、爆炸襲擊、劫持案件和駐地侵襲四類，分別標記為1、2、3、4。

為了對案件的嚴重程度有一個明確的劃分，根據(jù)現(xiàn)有特征中“受傷人數(shù)”、“死亡人數(shù)”和“財產損失”三個特征來對涉恐案件的嚴重性進行分類，分為一般、較大、重大和特別重大四類。其中一般涉恐案件，是指造成3人以下死亡，或者10人以下重傷，或者不造成直接經(jīng)濟損失的恐怖襲擊，較大涉恐案件，是指造成3人以上10人以下死亡，或者10人以上50人以下重傷，或者100萬美元以下直接經(jīng)濟損失的恐怖襲擊；重大涉恐案件，是指造成10人以上30人以下死亡，或者50人以上100人以下重傷，或者100萬美元以上1000萬美元以下直接經(jīng)濟損失的恐怖襲擊；特別重大涉恐案件，是指造成30人以上死亡，或者100人以上重傷，或者1000萬美元以上直接經(jīng)濟損失的恐怖襲擊。

自1970年以來，發(fā)動恐怖襲擊的組織共2967個，其中有7萬余起案件為無組織恐怖分子實施，將這一類無組織案件不列入考慮。在組織策劃恐怖襲擊的組織中，樣本個數(shù)（即恐怖組織發(fā)動襲擊的次數(shù)）最少為1，最大為6694，且差異較大。由圖2可知大部分的樣本數(shù)量在100以下，統(tǒng)計過后得出樣本數(shù)量大于100的暴恐組織有105個，但這些暴恐組織共策劃發(fā)動了67641起暴恐襲擊案件屬于多數(shù)類樣本，樣本數(shù)量小于100的暴恐組織有2862個，共策劃發(fā)動了17625起暴恐襲擊案件屬于少數(shù)類樣本，并且小于100的樣本中不足50的占90%以上。針對這樣一個犯罪數(shù)量不平衡的數(shù)據(jù)集，本文將組織的危險程度按區(qū)間0～50、50～100、100～1000和1000以上劃分為四類，即較低危險、輕度危險、中度危險、重度危險。分別用數(shù)字1、2、3、4來表示。

根據(jù)案發(fā)的時間信息在“案發(fā)時間”這一特征中提取，對案發(fā)時大眾的工作狀態(tài)進行判斷，研究暴恐分子作案的時機選擇，主要分為“工作日”和“假期”兩類，分別用1和0來表示。

圖2暴恐襲擊組織的樣本分布

在“攻擊類型”這一特征中，暴恐數(shù)據(jù)庫將各類攻擊方式分為了9種，最后篩選出6種攻擊方式劃分為暴力襲擊、爆炸襲擊、劫持和駐地侵襲4類暴恐案件相符，將這6種攻擊類型進行分類并重新編號。最終的數(shù)據(jù)格式如表1所示。

表1 數(shù)據(jù)樣式

對于案件的嚴重性進行判斷的時候，受傷人數(shù)、死亡人數(shù)和財產損失都要納入考慮，三項特征只要有一項符合更高一級的案件性質，則案件嚴重性就要提升一級，所以表2中案件最終定性為較大涉恐案件。

2 結果與分析

本文在分類預測模型中使用的訓練集是從整體數(shù)據(jù)集中隨機抽取占比0.8的數(shù)據(jù)集，并對最終的分類結果的準確性和F1-macro兩項指標的值進行比較，在準確性高的前提下，F(xiàn)1-macro的值越高則模型的預測結果越好。準確率和F1-marco公式如式（1-4）所示。

準確率（Accuracy）是評價分類模型表現(xiàn)的最常見指標，即模型分類正確的樣本數(shù)占總樣本數(shù)的比例，一般來說模型的準確性越高說明模型的分類表現(xiàn)越好，但是當準確率達到某一過高的值的時候就說明分類模型出現(xiàn)過擬合現(xiàn)象，僅對樣本數(shù)據(jù)分類會有較好的表現(xiàn)，模型泛化能力弱。因此本文在比較準確率的同時采用F1-macro值作為輔助指標。其中：n表示分類任務中類別的數(shù)量；TP表示分類模型識別出的正樣本數(shù)；FP表示分類模型未識別出的負樣本數(shù)；TN表示分類模型識別出的負樣本個數(shù)；FN表示分類模型未識別出的正樣本數(shù)。

首先由于2014年暴恐案件發(fā)案量呈遞減趨勢，因此本文選取了2014年至今的暴恐案件來進行隨機森林的參數(shù)優(yōu)化，在對特征的計算和處理后最終得到五萬余條數(shù)據(jù)。先將進行特征優(yōu)化之后的樣本與初始特征的樣本數(shù)據(jù)通過原始隨機森林模型分類結果進行比較，比較結果如表2所示。

表2 特征優(yōu)化結果對比

由表2可見在進行特征優(yōu)化后，隨機森林模型的預測準確性增加了1%，接下來使用網(wǎng)格搜索法對隨機森林進行優(yōu)化，隨機森林的主要參數(shù)有四個：決策樹數(shù)量、決策樹最大深度、節(jié)點劃分所需最小樣本數(shù)、葉子結點最小樣本數(shù)。其中決策樹的數(shù)量對模型的預測結果十分重要，數(shù)量太小容易導致學習程度不夠，數(shù)量太大，超過一定范圍后對模型的提升太小。所以決策樹的數(shù)量對隨機森林的優(yōu)化至關重要。

優(yōu)化過程中，首先將80%的數(shù)據(jù)作為訓練集，然后用訓練集分別對隨機森林的決策樹數(shù)量以及最大特征數(shù)這兩個主要的參數(shù)展開網(wǎng)格搜索。由于數(shù)據(jù)樣本過多，所以用5折交叉驗證的平均值作為評估指標，最終指標值越高的參數(shù)組合最適合用于建立暴恐案件危害程度預測模型。由于數(shù)據(jù)量較大，當隨機森林中決策樹數(shù)量過多時會抵消隨機性的引入，最后的模型會是一個過擬合的模型，其泛化性能也會降低。因此將參數(shù)范圍設為：1≤n≤300，由于決策樹對于隨機森林的影響較小，故將步長設為10，候選特征數(shù)量m的范圍設置為1≤m≤7。

通過網(wǎng)格搜索最終得出的最優(yōu)參數(shù)值決策樹的個數(shù)為172，節(jié)點分裂時參與判斷的最大特征數(shù)為4，最大深度為12，葉節(jié)點最小樣本數(shù)為4。在網(wǎng)格搜索法找到隨機森林模型最優(yōu)參數(shù)后，保持其他變量相同，將隨機森林模型超參分別設為默認和優(yōu)化后的值輸入模型進行結果對比。測試結果見表3，用網(wǎng)格搜索法對隨機森林模型參數(shù)進行優(yōu)化過后，模型對暴恐案件危害程度預測準確率約為70%，比原始隨機森林默認參數(shù)預測結果提高了2%左右，可見通過網(wǎng)格搜索法優(yōu)化后的隨機森林分類模型的分類表現(xiàn)有所提高。

表3 實驗結果對比

為進一步驗證參數(shù)優(yōu)化后的隨機森林對暴恐案件危害程度分類的效果，本文在建立參數(shù)優(yōu)化的隨機森林模型同時，建立了原始隨機森林模型，從而對網(wǎng)格搜索法優(yōu)化原始隨機森林模型后的分類表現(xiàn)與優(yōu)化前進行比較。優(yōu)化前后的模型預測準確性和F1-macro值如圖3所示。

圖3模型評估結果

圖3（a）是模型預測準確性，（b）是模型的F1-macro值，由此可知優(yōu)化后的隨機森林算法具有較高的準確性，在準確性提升的同時F1-macro值在同類分類算法中也保持在一個相對較高的水平，所以參數(shù)優(yōu)化后的隨機森林對暴恐案件危害程度預測的泛化能力是最優(yōu)的。

3 結語

本文綜合全球恐怖主義數(shù)據(jù)庫所給出的暴恐案件特征信息，一方面通過皮爾森系數(shù)計算最終確定暴恐案件危害程度分析模型所需的十二項特征，并進一步對特征進行處理，對案件的危害程度進行分類，增加組織危險性、案發(fā)時間等特征，從而提高對暴恐案件分類預測的準確性。另一方面通過網(wǎng)格搜索算法對隨機森林的參數(shù)進行優(yōu)化，參數(shù)優(yōu)化后的模型對于不同地區(qū)發(fā)生的面對不同目標的各類恐怖襲擊案件，在發(fā)生后對其進行案件嚴重性的預測分析，從而為警方處置案件提供參考。

此外，數(shù)據(jù)庫中還存在大部分無暴恐組織或暴恐組織不明確的暴恐案件，應對于造成較大人員傷亡或較大財產損失的無組織暴恐案件也應對其進行研究，通過對其作案動機、所持武器和所在地區(qū)等特征對此類的重大暴恐案件的風險進行評估，從而對暴恐案件有一個更全面的研究。