亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征選擇和超參數(shù)優(yōu)化的恐怖襲擊組織預(yù)測方法

        2020-09-04 10:00:38肖躍雷張?jiān)茓?/span>
        計(jì)算機(jī)應(yīng)用 2020年8期
        關(guān)鍵詞:特征選擇恐怖襲擊分類器

        肖躍雷 ,張?jiān)茓?

        (1. 西安郵電大學(xué)現(xiàn)代郵政學(xué)院,西安710061; 2. 陜西省信息化工程研究院,西安710075)

        0 引言

        近年來全球恐怖襲擊事件頻繁發(fā)生,直接造成了巨大的人員傷亡和財(cái)產(chǎn)損失,嚴(yán)重阻礙了社會穩(wěn)定和經(jīng)濟(jì)發(fā)展,恐怖襲擊事件問題已成為當(dāng)前國際社會比較關(guān)注的一個熱點(diǎn)問題[1]。為了保護(hù)人們的生命財(cái)產(chǎn)安全,維護(hù)社會經(jīng)濟(jì)的穩(wěn)定和發(fā)展,針對恐怖襲擊事件的分析和預(yù)測勢在必行。通過對歷史恐怖襲擊事件進(jìn)行分析,可以尋找出恐怖襲擊事件的發(fā)生特點(diǎn)和規(guī)律,進(jìn)而對恐怖襲擊事件進(jìn)行預(yù)測,以便幫助各國政府及時采取有效的反恐措施。

        目前針對恐怖襲擊事件的研究有很多,其中運(yùn)用機(jī)器學(xué)習(xí)[2-4]對恐怖襲擊事件進(jìn)行分析預(yù)測已成為當(dāng)前的研究熱點(diǎn)。文獻(xiàn)[5-7]中運(yùn)用分類預(yù)測方法對恐怖襲擊事件進(jìn)行大量分析,得到了恐怖襲擊事件中攻擊的模式、區(qū)域和行為等特征,挖掘了恐怖襲擊事件特征之間的一些潛在聯(lián)系。文獻(xiàn)[8-9]中對恐怖襲擊組織的關(guān)系進(jìn)行分析,研究了恐怖襲擊組織的屬性特征之間的聯(lián)系,發(fā)現(xiàn)了恐怖襲擊組織的網(wǎng)絡(luò)結(jié)構(gòu)和重要犯罪組織。文獻(xiàn)[10]中利用N-gram 模型對恐怖襲擊事件的常見動機(jī)進(jìn)行挖掘,通過大數(shù)據(jù)分析,提高了預(yù)測精度。文獻(xiàn)[11]中對恐怖襲擊事件進(jìn)行分類預(yù)測,利用最大相關(guān)和最小冗余進(jìn)行特征選擇,通過不同分類器的性能比較,驗(yàn)證了機(jī)器學(xué)習(xí)在恐怖襲擊事件分類預(yù)測領(lǐng)域的可行性。文獻(xiàn)[12]在恐怖襲擊事件的檢測環(huán)境中,使用隨機(jī)森林(Random Forest,RF)作為分類器,并與決策樹(Decision Tree,DT)算法和模糊C 均值(Fuzzy C-Means,F(xiàn)CM)方法作比較,發(fā)現(xiàn)RF 方法的分類錯誤率較低,且不會出現(xiàn)過擬合現(xiàn)象。文獻(xiàn)[13]中提出了一種運(yùn)用加權(quán)的貝葉斯方法對恐怖襲擊組織行為進(jìn)行預(yù)測,提高了算法的預(yù)測精度和計(jì)算效率;該算法在準(zhǔn)確度及時間復(fù)雜度上優(yōu)于基于頻繁模式的分類算法,但存在計(jì)算繁瑣、耗時長等問題。文獻(xiàn)[14]中提出了一種基于機(jī)器學(xué)習(xí)的恐怖分子預(yù)測方法,通過Bagging 分類器、DT、RF 和全連接神經(jīng)網(wǎng)絡(luò)對恐怖襲擊事件制造者進(jìn)行預(yù)測,并對各個分類算法中的參數(shù)進(jìn)行尋優(yōu),提高了分類預(yù)測的準(zhǔn)確率??植酪u擊事件數(shù)據(jù)通常是一個不平衡數(shù)據(jù)集,例如:全球恐怖主義數(shù)據(jù)庫(Global Terrorism Database,GTD)[15]。上述恐怖襲擊事件分析預(yù)測方法均沒有很好地解決恐怖襲擊事件數(shù)據(jù)的樣本不平衡問題,預(yù)測性能有待進(jìn)一步提高,特別是針對少數(shù)類樣本的預(yù)測性能。

        為此,針對恐怖襲擊組織的分類預(yù)測,本文提出了一種基于特征選擇和超參數(shù)優(yōu)化的恐怖襲擊組織預(yù)測方法。該方法首先利用基于隨機(jī)森林迭代的后向特征選擇算法進(jìn)行特征選擇;然后利用 DT[16-17]、RF[18-19]、Bagging[20-21]和 XGBoost[22-23]這四種主流分類器對恐怖襲擊組織進(jìn)行分類預(yù)測,并利用貝葉斯優(yōu)化方法對這些分類器進(jìn)行超參數(shù)優(yōu)化;最后,評價(jià)這些分類器在多數(shù)類樣本和少數(shù)類樣本上的分類預(yù)測性能。通過實(shí)驗(yàn)和結(jié)果分析可知,該方法提高了對恐怖襲擊組織的分類預(yù)測性能,其中使用RF和Bagging 時的分類預(yù)測性能最佳,特別是在少數(shù)類樣本上有明顯提高。

        1 恐怖襲擊組織預(yù)測模型

        本文提出的恐怖襲擊組織預(yù)測模型如圖1 所示,主要包括數(shù)據(jù)預(yù)處理、特征選擇、超參數(shù)優(yōu)化和分類器分類四個步驟。

        圖1 恐怖襲擊組織預(yù)測模型Fig. 1 Prediction model of terrorist attack organization

        1.1 數(shù)據(jù)預(yù)處理

        本文對恐怖襲擊事件原始數(shù)據(jù)的預(yù)處理主要包括數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換。

        數(shù)據(jù)清洗過程為:首先刪除一些對預(yù)測模型無用的文本描述性特征;然后通過數(shù)據(jù)完整性分析刪除一些數(shù)據(jù)嚴(yán)重缺失的記錄和特征,接著對數(shù)據(jù)缺失值進(jìn)行相應(yīng)的填充;最后利用Pearson(皮爾遜)方法進(jìn)行特征相關(guān)性分析,刪除一些不顯著的自變量特征,并根據(jù)共線性刪除一些冗余自變量特征。此外,還需要刪除少數(shù)類樣本只有1 條的記錄,因?yàn)? 個樣本無法同時用于分類預(yù)測方法中的訓(xùn)練過程和測試過程。

        轉(zhuǎn)換過程為:首先對一些文本型數(shù)據(jù)進(jìn)行數(shù)值轉(zhuǎn)換,然后對一些連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,最后對數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換。

        1.2 特征選擇

        文獻(xiàn)[24]中提出了RF在處理不平衡數(shù)據(jù)上的應(yīng)用,并通過實(shí)驗(yàn)證明了它在處理不平衡數(shù)據(jù)上的優(yōu)勢。由于恐怖襲擊事件數(shù)據(jù)通常是一個不平衡數(shù)據(jù)集,所以本文在文獻(xiàn)[24]的基礎(chǔ)上,提出了一種基于RF 迭代的后向特征選擇算法,通過RF迭代來進(jìn)行后向特征選擇,具體如下。

        算法1 基于RF迭代的后向特征選擇算法。

        輸入 具有特征集合F ={ fi|i = 1,2,…,n}的數(shù)據(jù)集DF;

        輸出 具有被選擇特征子集S的數(shù)據(jù)集DS。

        1) DS← DF

        2) 當(dāng)前驗(yàn)證錯誤率Ec← 1

        3) do{

        4) 對數(shù)據(jù)集DS執(zhí)行RF算法

        5) for i ← 1 to n

        6) 計(jì)算每個特征fi的重要性值IVi

        7) end for

        8) 最小重要性值IVmin←IV1

        9) 最小重要性值特征序號j ←1

        10) for i ← 2 to n

        11) if IVi≤ IVmin

        12) 更新最小重要性值IVmin= IVi

        13) 更新最小重要性值特征序號j = i

        14) end if

        15) end for

        16) 從數(shù)據(jù)集DS中刪除特征fj

        17) 更新n ← n - 1

        18) 之前驗(yàn)證錯誤率Ep← Ec

        19) 當(dāng)前驗(yàn)證集DV← DS

        20) 基于DV計(jì)算當(dāng)前驗(yàn)證錯誤率Ec

        21) }while(Ec≥ Ep)

        22) return DS

        算法1中,特征fi的重要性值IVi的計(jì)算公式如下:

        其中:對于RF 中的每一棵DT,使用相應(yīng)的袋外數(shù)據(jù)(Out Of Bag,OOB)來計(jì)算它的袋外數(shù)據(jù)誤差,記為EOOB1;隨機(jī)地對OOB 所有樣本的特征fi加入噪聲干擾,再次計(jì)算它的袋外數(shù)據(jù)誤差,記為EOOB2。N 表示RF 有N 棵DT。基于當(dāng)前驗(yàn)證集DV計(jì)算當(dāng)前驗(yàn)證錯誤率Ec的計(jì)算公式如下:

        其中:ne表示當(dāng)前驗(yàn)證集DV使用RF 后的錯誤分類樣本數(shù)目,表示當(dāng)前驗(yàn)證集DV的樣本總數(shù)目。

        1.3 超參數(shù)優(yōu)化

        超參數(shù)優(yōu)化[25-26]就是一組超參數(shù)的機(jī)器學(xué)習(xí)模型,它的目標(biāo)就是通過驗(yàn)證誤差目標(biāo)函數(shù),找到在驗(yàn)證集上產(chǎn)生最小誤差的一組超參數(shù),并且能夠很好地應(yīng)用于測試集。

        本文運(yùn)用Python 中一個用于超參數(shù)優(yōu)化的類庫Hyperopt,通過設(shè)定分類器的超參數(shù)取值范圍,假設(shè)解空間,然后利用貝葉斯優(yōu)化[27-29]快速尋找一個滿足目標(biāo)函數(shù)的合理解。貝葉斯優(yōu)化就是通過基于過去對目標(biāo)的評估結(jié)果建立一個不斷更新的概率模型來找到使得目標(biāo)函數(shù)最小的值。

        1.4 分類器

        本文使用DT、RF、Bagging 和XGBoost 這四種主流分類器對恐怖襲擊組織進(jìn)行分類預(yù)測,并對其性能進(jìn)行評價(jià)比較。

        DT[16-17]是機(jī)器學(xué)習(xí)中一種基本的分類方法,它的模型為樹形結(jié)構(gòu)。DT對訓(xùn)練數(shù)據(jù)來說分類能力會很好,但對未知的測試數(shù)據(jù)分類能力不一定好。由于節(jié)點(diǎn)的劃分過程會一直反復(fù),可能會使DT的分支過多,存在過擬合現(xiàn)象,所以要對生成的樹進(jìn)行由上到下的剪枝。首先去掉過于細(xì)分的葉節(jié)點(diǎn),使其回退到父節(jié)點(diǎn),甚至更高的節(jié)點(diǎn);然后將父節(jié)點(diǎn)或更高的節(jié)點(diǎn)改為新的葉節(jié)點(diǎn),使樹變得簡單,從而使它具有更好的泛化能力。本文采用的DT 為分類與回歸樹(Classification And Regression Tree,CART)。

        Bagging[20-21]也稱自舉匯聚法(boostrap aggregating),是一種在原始數(shù)據(jù)集中有放回地抽取m次后得到m個采樣集的技術(shù)。在m個采樣集建好之后,首先利用每個采樣集分別對m個基分類器進(jìn)行訓(xùn)練,然后通過基分類器的組合策略得到最終的集成分類器。本文在Bagging 中按照少數(shù)服從多數(shù)的原則來投票確定最終類別。

        RF[18-19]是通過集成學(xué)習(xí)的思想利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器算法,該算法通過在訓(xùn)練時間內(nèi)構(gòu)建多棵DT 并輸出作為類的標(biāo)簽(分類)或個體樹預(yù)測的平均值(回歸)。由于RF將多棵決策樹集成在一起訓(xùn)練和預(yù)測,所以RF可以修正因決策樹的歸納偏好產(chǎn)生的過擬合問題。

        Boosting[22]的基本思想是通過某種方式使得每一輪基學(xué)習(xí)器在訓(xùn)練過程中更加關(guān)注上一輪學(xué)習(xí)錯誤的樣本。Gradient Boosting 將負(fù)梯度作為上一輪基學(xué)習(xí)器犯錯的衡量標(biāo)準(zhǔn),在下一輪學(xué)習(xí)中通過擬合負(fù)梯度來糾正上一輪的錯誤。XGBoost[22-23]在 Gradient Boosting上作了一些改進(jìn):主要是引入了二階導(dǎo)數(shù),用一階與二階導(dǎo)數(shù)逼近損失函數(shù),這樣在優(yōu)化過程中有更多的信息;同時XGBoost 在損失函數(shù)中加入了正則項(xiàng),用于權(quán)衡模型的復(fù)雜度,使得模型更加簡單,防止過擬合。XGBoost 通過一組分類器的串行迭代計(jì)算實(shí)現(xiàn)更高精度的分類效果,其基學(xué)習(xí)器是CART,在預(yù)測時將多個基學(xué)習(xí)器的預(yù)測結(jié)果綜合考慮得出最終結(jié)果。

        1.5 性能評價(jià)

        對于分類預(yù)測問題,基本的性能衡量指標(biāo)為混淆矩陣,如表1 所示。表1 中:TP(True Positive)表示實(shí)際類別為True,預(yù)測類別也為True;FN(False Negative)表示實(shí)際類別為True,但預(yù)測類別為False;FP(False Positive)表示實(shí)際類別為False,但預(yù)測類別為True;TN(True Negative)表示實(shí)際類別為False,預(yù)測類別也為False。

        表1 混淆矩陣Tab. 1 Confusion matrix

        常用分類預(yù)測性能評價(jià)指標(biāo)準(zhǔn)確率(Accuracy)、精確度(Precision)、召回率(Recall)和F1 分?jǐn)?shù)(F1-score)的計(jì)算公式如下:

        其中:Accuracy是所有預(yù)測正確的樣本數(shù)與總樣本數(shù)的比值;Precision是所有預(yù)測為正樣本的樣本中,真實(shí)為正樣本的比例;Recall(也稱為檢測率)是預(yù)測為正樣本的數(shù)量占所有正樣本總數(shù)的比例;F1-score是精確度和召回率的調(diào)和平均數(shù)。由于對恐怖襲擊組織的預(yù)測是一個分類預(yù)測問題,所以本文以這4 個性能評價(jià)指標(biāo)作為恐怖襲擊組織預(yù)測模型的性能評價(jià)指標(biāo)。

        為了評價(jià)恐怖襲擊組織預(yù)測模型在多數(shù)類樣本和少數(shù)類樣本上的性能,本文首先對恐怖襲擊事件數(shù)據(jù)按照多數(shù)類樣本到少數(shù)類樣本進(jìn)行分段劃分,然后利用以上4 個性能評價(jià)指標(biāo)來評價(jià)恐怖襲擊組織預(yù)測模型在多數(shù)類樣本和少數(shù)類樣本上的性能。

        2 實(shí)驗(yàn)與結(jié)果分析

        本文實(shí)驗(yàn)的數(shù)據(jù)集為1998—2017 年的全球恐怖主義數(shù)據(jù)庫(GTD)[15],其中每條恐怖襲擊事件數(shù)據(jù)記錄有135 個屬性字段信息,包括事件發(fā)生時間、地點(diǎn)、傷亡人數(shù)、武器類型、財(cái)產(chǎn)損失等重要信息。

        首先,通過數(shù)據(jù)預(yù)處理篩選出了GTD中的43 335個樣本,39 個特征。篩選出的39 個特征為:年、月、日、是否為持續(xù)事件、國家、地區(qū)、省/行政區(qū)/州、城市、地理特征編碼、附近地區(qū)、入選標(biāo)準(zhǔn)1、入選標(biāo)準(zhǔn)3、事件組的一部分、成功的襲擊、自殺式襲擊、攻擊類型1、目標(biāo)/受害者類型、目標(biāo)/受害者子類型、實(shí)體名稱、具體目標(biāo)/受害者、目標(biāo)/受害者的國籍、動機(jī)、第一涉嫌犯罪集團(tuán)、個人襲擊、兇手?jǐn)?shù)量、抓獲的兇手?jǐn)?shù)量、聲稱負(fù)責(zé)、武器類型1、武器子類型、死亡總數(shù)、美國死亡人數(shù)、兇手死亡人數(shù)、受傷總數(shù)、美國受傷人數(shù)、兇手受傷人數(shù)、財(cái)產(chǎn)損失、財(cái)產(chǎn)損失程度、人質(zhì)或受害者和恐怖襲擊組織。前38 個特征為自變量特征,最后1個特征為因變量特征。

        這43 335個樣本的恐怖襲擊組織個數(shù)為826,其中每個恐怖襲擊組織的樣本個數(shù)(即每個恐怖襲擊組織的襲擊次數(shù))最小為2,最大為6 310,且差異很大,如圖2 所示。因此,這43 335個樣本是一個不平衡數(shù)據(jù)集。

        圖2 恐怖襲擊組織的樣本個數(shù)分布Fig.2 Distribution of sample number of terrorist attack organizations

        從圖2數(shù)據(jù)統(tǒng)計(jì)分析可知,樣本個數(shù)為100及以上的恐怖襲擊組織有56 個,但是總樣本個數(shù)為34 374,屬于多數(shù)類樣本;而樣本個數(shù)為100 以下的恐怖襲擊組織有770 個之多,但是總樣本個數(shù)只有9 151,屬于少數(shù)類樣本;特別地,樣本個數(shù)為20 及以下的恐怖襲擊組織有641 個之多,但是總樣本個數(shù)只有3 519。

        為了更好地評價(jià)恐怖襲擊組織預(yù)測模型在多數(shù)類和少數(shù)類樣本上的性能,如表2 所示將43 335 個樣本劃分為多個區(qū)間。

        然后,通過上述特征選擇算法最終篩選出了28 個影響最大的自變量特征,分別為:年、月、日、是否為持續(xù)事件、國家、地區(qū)、省/行政區(qū)/州、城市、地理特征編碼、事件組的一部分、攻擊類型1、目標(biāo)/受害者類型、目標(biāo)/受害者子類型、實(shí)體名稱、具體目標(biāo)/受害者、目標(biāo)/受害者的國籍、動機(jī)、第一涉嫌犯罪集團(tuán)、兇手?jǐn)?shù)量、抓獲的兇手?jǐn)?shù)量、聲稱負(fù)責(zé)、武器類型1、武器子類型、死亡總數(shù)、受傷總數(shù)、兇手受傷人數(shù)、財(cái)產(chǎn)損失和財(cái)產(chǎn)損失程度,它們累計(jì)特征貢獻(xiàn)率達(dá)到90%以上。

        表2 樣本分段Tab. 2 Sample segments

        最后,將特征選擇后的數(shù)據(jù)集的70%劃分為訓(xùn)練集,30%為測試集,使用DT、RF、Bagging和XGBoost這四種主流分類器對恐怖襲擊組織進(jìn)行分類預(yù)測,并利用Hyperopt 來對這四種分類器的超參數(shù)進(jìn)行優(yōu)化。在開始搜索時,Hyperopt會默認(rèn)進(jìn)行隨機(jī)搜索,而且在搜索過程中會對函數(shù)的輸出進(jìn)行預(yù)估,然后不斷地根據(jù)之前的結(jié)果來調(diào)整搜索空間,計(jì)算出參數(shù)空間內(nèi)的一個點(diǎn)的損失函數(shù)值。經(jīng)過貝葉斯優(yōu)化后,DT的最大深度max_depth= 40;RF 的最大特征數(shù)max_features= 0.8,基分類器個數(shù)n_estimators= 120,最大深度max_depth= 40;Bagging的max_features= 0.6,n_estimators= 130;XGBoost 的學(xué)習(xí)率learning_rate= 0.5,max_depth= 40,n_estimators= 130。

        同樣將預(yù)處理后數(shù)據(jù)集的70%劃分為訓(xùn)練集,30%為測試集,但僅使用 DT、RF、Bagging 和 XGBoost 這四種主流分類器對恐怖襲擊組織進(jìn)行分類預(yù)測,不進(jìn)行上述特征選擇和超參數(shù)優(yōu)化。表3 為這四種主流分類器在特征選擇和超參數(shù)優(yōu)化前后的準(zhǔn)確率對比。從表3 可知,在進(jìn)行特征選擇和超參數(shù)優(yōu)化后,使用這四個分類器的分類預(yù)測準(zhǔn)確率都有相應(yīng)的提高,特別是RF、Bagging 和XGBoost的準(zhǔn)確率提高較大,其中RF和Bagging的準(zhǔn)確率分別達(dá)到0.823 9和0.831 6。

        表3 各分類器在特征選擇和超參數(shù)優(yōu)化前后的準(zhǔn)確率Tab. 3 Accuracy of different classifiers before and after feature selection and hyperparameter optimization

        圖 3 為 DT、RF、Bagging 和 XGBoost 這四種主流分類器在特征選擇和超參數(shù)優(yōu)化前后不同樣本分段的精確度、召回率和F1分?jǐn)?shù)對比,其中空心柱狀圖為各分類器在特征選擇和超參數(shù)優(yōu)化前不同樣本分段的結(jié)果,而有圖案填充的柱狀圖為各分類器在特征選擇和超參數(shù)優(yōu)化后不同樣本分段的結(jié)果(后續(xù)實(shí)驗(yàn)中的圖形含義一致)。

        從圖3 可知,在進(jìn)行特征選擇和超參數(shù)優(yōu)化后,在不同樣本分段上,使用這四個分類器的分類預(yù)測精確度、召回率和F1 分?jǐn)?shù)都有相應(yīng)的提高。特別地,在少數(shù)類樣本分段上,RF和Bagging 的分類預(yù)測精確度、召回率和F1 分?jǐn)?shù)均提高明顯,優(yōu)于DT 和XGBoost。因此,通過特征選擇和超參數(shù)優(yōu)化,可以提高DT、RF、Bagging 和XGBoost 這四種主流分類器對恐怖襲擊組織的分類預(yù)測準(zhǔn)確率、精確度、召回率和F1分?jǐn)?shù),其中RF 和Bagging 對恐怖襲擊組織的分類預(yù)測準(zhǔn)確率分別達(dá)到0.823 9 和0.831 6,并且在少數(shù)類樣本分段上對恐怖襲擊組織的精確度、召回率和F1分?jǐn)?shù)有明顯的提高。

        圖3 各分類器在特征選擇和超參數(shù)優(yōu)化前后在不同樣本分段上的精確度、召回率和F1分?jǐn)?shù)對比Fig. 3 Comparison of accuracy,recall and F1-score of different classifiers on different sample segments before and after feature selection and hyperparameter optimization

        10 折交叉驗(yàn)證法[14]和隨機(jī)過采樣[30]是緩解數(shù)據(jù)不平衡問題的常用方法。為了與本文方法進(jìn)行對比,針對數(shù)據(jù)預(yù)處理后的數(shù)據(jù)集,首先分別進(jìn)行10 折交叉驗(yàn)證和隨機(jī)過采樣(70%為訓(xùn)練集,30%為測試集),然后使用DT、RF、Bagging 和XGBoost 這四種主流分類器對恐怖襲擊組織進(jìn)行分類預(yù)測,并進(jìn)行超參數(shù)優(yōu)化。表4 為三種方法的準(zhǔn)確率對比,可以看出,在按本文方法進(jìn)行特征選擇和超參數(shù)優(yōu)化后,四種主流分類器的預(yù)測準(zhǔn)確率要高于使用10 折交叉驗(yàn)證法+超參數(shù)優(yōu)化,以及使用隨機(jī)過采樣+超參數(shù)優(yōu)化的方法。

        圖4、5 分別為表4 中本文方法與使用10 折交叉驗(yàn)證和隨機(jī)過程采樣時針對不同樣本分段的精確度、召回率和F1分?jǐn)?shù)對比。從圖4、5 可知,在各個樣本分段上,特別是在少數(shù)類樣本分段上,本文方法的精確度、召回率和F1 分?jǐn)?shù)總體上要高于使用10 折交叉驗(yàn)證法和隨機(jī)過采樣,從而說明本文方法更能緩解GTD這種數(shù)據(jù)集的數(shù)據(jù)不平衡問題。

        表4 各分類器在使用10折交叉驗(yàn)證法和隨機(jī)過采樣時的準(zhǔn)確率Tab. 4 Accuracies of different classifiers when using 10-fold validation and random oversampling

        圖4 本文方法與使用10折交叉驗(yàn)證時針對不同樣本分段的精確度、召回率和F1分?jǐn)?shù)對比Fig.4 Comparison of accuracy,recall and F1-score of different sample segments between the proposed method and 10-fold validation method

        3 結(jié)語

        針對恐怖襲擊事件數(shù)據(jù)的樣本不平衡問題,本文提出了一種基于特征選擇和超參數(shù)優(yōu)化的恐怖襲擊組織預(yù)測方法。首先利用RF 在處理不平衡數(shù)據(jù)上的優(yōu)勢,通過RF 迭代來進(jìn)行后向特征選擇,每次迭代刪除一個重要性值最小的特征,直至驗(yàn)證錯誤率不能再降低為止;然后,使用DT、RF、Bagging 和XGBoost 這四種主流分類器對恐怖襲擊組織進(jìn)行分類預(yù)測,并利用貝葉斯優(yōu)化方法對這些分類器進(jìn)行超參數(shù)優(yōu)化;最后,評價(jià)這些分類器在多數(shù)類樣本和小數(shù)類樣本上的分類預(yù)測性能。通過實(shí)驗(yàn)和結(jié)果分析可知,該方法提高了對恐怖襲擊組織的分類預(yù)測性能,其中使用RF 和Bagging 時的分類預(yù)測性能最佳,特別是在少數(shù)類樣本上對恐怖襲擊組織的分類預(yù)測性能有明顯的提高,要優(yōu)于使用DT 和XGBoost 時的分類預(yù)測性能。

        由于恐怖襲擊事件數(shù)據(jù)的少數(shù)類樣本占比太大,而且每個恐怖襲擊組織的樣本個數(shù)太少,使得本文方法在少數(shù)類樣本上的分類預(yù)測性能還是較低,未來還將進(jìn)一步探討如何提高在少數(shù)類樣本上的分類預(yù)測性能。

        圖5 本文方法與使用隨機(jī)過采樣時針對不同樣本分段的精確度、召回率和F1分?jǐn)?shù)對比Fig.5 Comparison of accuracy,recall and F1-score of different sample segments between the proposed method and random oversampling method

        猜你喜歡
        特征選擇恐怖襲擊分類器
        歐洲之恐:歐洲可以迅速撲滅恐怖襲擊,但仍做不到防患于未然
        英語文摘(2021年1期)2021-06-11 05:46:56
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        恐怖襲擊
        獨(dú)狼式恐怖襲擊
        方圓(2014年7期)2014-05-30 10:48:04
        讓恐怖主義遠(yuǎn)離校園
        留學(xué)(2014年20期)2014-04-29 00:44:03
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        日韩人妻高清福利视频| 国产av无码专区亚洲av男同| 精品人无码一区二区三区| 免费网站内射红桃视频| 亚洲日韩一区二区一无码| 97久久香蕉国产线看观看| 四虎影永久在线观看精品| 中文字幕一区韩国三级| 中文字幕日本五十路熟女| 麻豆国产精品一区二区三区| 国产亚洲欧洲aⅴ综合一区| 亚洲人成色7777在线观看不卡| 免费人成视频在线观看视频| yw193.can尤物国产在线网页| 国产自拍在线视频观看| 亚洲av免费手机在线观看| 免费观看又色又爽又黄的| 国内无遮码无码| 在线观看免费人成视频国产| 国产一区三区二区视频在线观看 | 国产日韩精品一区二区在线观看播放 | 午夜精品久视频在线观看| 日韩精品一区二区三区含羞含羞草| 亚洲中文字幕高清av| 久久只精品99品免费久23| 最近中文字幕mv在线资源| 欧美日韩国产在线成人网| 男女视频一区二区三区在线观看| 国产精品av在线| 在线观看免费a∨网站| 亚洲欧洲日韩另类自拍| 免费人成在线观看播放视频| 欧美高清视频手机在在线| 日本中文字幕一区二区高清在线| 欧美白人最猛性xxxxx| 久久国产亚洲中文字幕| 看女人毛茸茸下面视频| 久久久久久久久蜜桃| 国产人成精品免费视频| 精品亚洲乱码一区二区三区| 日本亲近相奷中文字幕|