亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類(lèi)的反恐情報(bào)異常數(shù)據(jù)分析方法研究

        2019-11-07 09:28:42李勇男
        現(xiàn)代情報(bào) 2019年10期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        李勇男

        摘 要:[目的/意義]通過(guò)異常檢測(cè)可以在海量涉恐?jǐn)?shù)據(jù)中發(fā)現(xiàn)異常信息,為反恐預(yù)警提供重要情報(bào)。[方法/過(guò)程]首先利用聚類(lèi)將基礎(chǔ)數(shù)據(jù)分為不同的簇,識(shí)別出其中區(qū)別于大部分?jǐn)?shù)據(jù)對(duì)象的異常人員,然后設(shè)計(jì)一種專(zhuān)門(mén)的相似度綜合度量參數(shù)用于計(jì)算與恐怖分子最相似的人員。[結(jié)果/結(jié)論]該方法為檢測(cè)異常人員數(shù)據(jù)提供了一種可以參考的思路,用于從多種來(lái)源數(shù)據(jù)中快速找出涉恐敏感程度較高的人員,有望提高反恐情報(bào)分析的效率,實(shí)現(xiàn)精準(zhǔn)打擊重點(diǎn)涉恐人員和恐怖活動(dòng)。

        關(guān)鍵詞:數(shù)據(jù)挖掘;異常檢測(cè);聚類(lèi)分析;相似度;反恐情報(bào)

        Abstract:[Purpose/Significance]Outlier detection from mass fundamental data could provide important information about latent terrorists for early warning of counter-terrorism.[Method/Process]Abnormal people that differed from most data objects must be identified by using clustering method to classify mass terror related data with composite properties.Additionally,abnormal people acted as the basic data source to find terror related people.These subjects who were excavated out had the larger degree of similarity with terrorists.[Result/Conclusion]This method provided an idea to detect high sensitivity people from multiple data streams.It could accelerate the speed of handling counter-terrorism intelligence and provide reference for counter-terrorism disposition by means of swiftly finding the terror related people.

        Key words:data mining;outlier detection;clustering;degree of similarity;counter terrorism intelligence

        國(guó)新辦于2019年3月18日發(fā)布了《新疆的反恐、去極端化斗爭(zhēng)與人權(quán)保障》白皮書(shū),其中提到90年代以來(lái)我國(guó)新疆等地至少發(fā)生了數(shù)千起暴力恐怖襲擊案件,對(duì)大量無(wú)辜群眾的生命財(cái)產(chǎn)造成巨大傷害[1]。基于大數(shù)據(jù)技術(shù)從海量涉恐?jǐn)?shù)據(jù)中挖掘情報(bào)信息,對(duì)恐怖活動(dòng)提前做出預(yù)測(cè),打早打小進(jìn)而將恐怖活動(dòng)消滅在萌芽中,有效減輕或者避免恐怖主義活動(dòng)帶來(lái)的影響,實(shí)現(xiàn)情報(bào)主導(dǎo)的預(yù)防性反恐策略,是我國(guó)反恐工作的重心。《中華人民共和國(guó)反恐怖主義法》[2]專(zhuān)門(mén)設(shè)置了第四章“情報(bào)信息”對(duì)反恐情報(bào)信息工作提出了明確的具體要求。通過(guò)各種渠道收集到海量的涉恐?jǐn)?shù)據(jù)后,如何充分利用這些數(shù)據(jù)發(fā)現(xiàn)涉恐線索是一個(gè)值得研究的問(wèn)題。

        異常檢測(cè)是數(shù)據(jù)挖掘中的一種常用方法,是指給定若干對(duì)象,發(fā)現(xiàn)其中明顯不同或與其他數(shù)據(jù)不一致的部分對(duì)象。利用異常檢測(cè)可以在海量基礎(chǔ)數(shù)據(jù)中將“疑似”恐怖分子和與之相關(guān)的暴恐線索找出來(lái),再由情報(bào)專(zhuān)家研判對(duì)應(yīng)的情報(bào)線索是否有參考價(jià)值。在谷歌學(xué)術(shù)搜索中涉及反恐情報(bào)異常檢測(cè)的外文文獻(xiàn)主要包括適用于各類(lèi)犯罪調(diào)查的不同異常檢測(cè)技術(shù)綜述[3]、恐怖犯罪模式研究[4]、行為分析[5]、隱私保護(hù)[6]、網(wǎng)絡(luò)入侵檢測(cè)[7]等方向。在中國(guó)知網(wǎng)、萬(wàn)方、百度學(xué)術(shù)搜索等知名中文文獻(xiàn)數(shù)據(jù)庫(kù)中,相關(guān)的研究主要包括恐怖襲擊模式的異常檢測(cè)[8]、視頻異常[9]、網(wǎng)絡(luò)入侵檢測(cè)[10]、通話記錄異常挖掘[11]、動(dòng)物嗅覺(jué)探測(cè)異常[12]等。本文將研究如何利用異常檢測(cè)的方法在基礎(chǔ)數(shù)據(jù)中挖掘“疑似”涉恐人員數(shù)據(jù)。

        1 異常檢測(cè)理論

        異常檢測(cè)(Outlier Detection)又稱異常挖掘、離群點(diǎn)檢測(cè)、例外挖掘、稀有事件檢測(cè)等,是指發(fā)現(xiàn)與大部分其他對(duì)象不同的對(duì)象[13]。具體的數(shù)學(xué)表述為給定N個(gè)數(shù)據(jù)點(diǎn)或?qū)ο蟮募?,預(yù)期的異常點(diǎn)個(gè)數(shù)k,找出其中不一致的排序前k個(gè)對(duì)象或數(shù)據(jù)點(diǎn)[14]。一般系統(tǒng)中異常數(shù)據(jù)的成因主要包括測(cè)量、輸入錯(cuò)誤或系統(tǒng)運(yùn)行錯(cuò)誤等。異常檢測(cè)目前常用于醫(yī)療診斷、保險(xiǎn)或銀行業(yè)的欺詐檢測(cè)、海關(guān)或民航等部門(mén)的安全檢查、電子商務(wù)中的犯罪檢測(cè)、網(wǎng)絡(luò)安全中的入侵檢測(cè)、災(zāi)害氣象預(yù)報(bào)等領(lǐng)域。

        2 反恐情報(bào)中的異常數(shù)據(jù)分析

        一般的異常數(shù)據(jù)的挖掘分析主要需要解決兩個(gè)子問(wèn)題[15]:1)如何度量異常;2)如何有效發(fā)現(xiàn)異常。對(duì)于反恐情報(bào)分析中的異常檢測(cè),目標(biāo)是從大量基礎(chǔ)數(shù)據(jù)中將“疑似”的涉恐人員數(shù)據(jù)找出來(lái),首先要解決如何度量涉恐人員的問(wèn)題,其次解決選擇何種有效的異常檢測(cè)方法進(jìn)行涉恐人員數(shù)據(jù)挖掘。在發(fā)現(xiàn)異常的方法選擇上又要同時(shí)考慮涉恐屬性特點(diǎn)和基礎(chǔ)數(shù)據(jù)類(lèi)型。因此反恐情報(bào)中的異常人員數(shù)據(jù)檢測(cè)必須分別考慮3個(gè)子問(wèn)題:1)如何度量異常;2)如何根據(jù)涉恐人員數(shù)據(jù)屬性特點(diǎn)選擇檢測(cè)方法;3)如何根據(jù)基礎(chǔ)數(shù)據(jù)類(lèi)型選擇檢測(cè)方法。本節(jié)將從這3個(gè)子問(wèn)題分別論述基于聚類(lèi)的異常檢測(cè)較適合反恐情報(bào)中的異常人員數(shù)據(jù)檢測(cè)。

        2.1 反恐情報(bào)中的“異?!倍攘繕?biāo)準(zhǔn)

        度量涉恐人員要根據(jù)反恐情報(bào)分析專(zhuān)家的經(jīng)驗(yàn)和統(tǒng)計(jì)數(shù)據(jù)設(shè)定具體“異?!钡亩攘恐笜?biāo)。由于異常產(chǎn)生的機(jī)制是不確定的,通過(guò)異常檢測(cè)的方法挖掘出的僅僅是“疑似”異常數(shù)據(jù),這些“疑似”數(shù)據(jù)是否是實(shí)際的涉恐異常數(shù)據(jù),只能根據(jù)具體應(yīng)用由領(lǐng)域內(nèi)的專(zhuān)家來(lái)判斷,而不是由異常檢測(cè)方法本身來(lái)解釋說(shuō)明。在反恐情報(bào)分析中,通過(guò)一些常用的異常度量方法只能找出系統(tǒng)中的異常人員,這些異常人員可能是盜竊團(tuán)伙分子、販毒人員、黑社會(huì)背景人員、詐騙嫌疑人等涉及其他犯罪的人員,與反恐情報(bào)分析的目標(biāo)數(shù)據(jù)不符。反恐情報(bào)的異常檢測(cè)必須能找出涉及暴力恐怖襲擊的人員,這就要求必須通過(guò)已破獲暴恐案件中的統(tǒng)計(jì)數(shù)據(jù)和反恐專(zhuān)家的經(jīng)驗(yàn)總結(jié)出涉恐特征。異常檢測(cè)就是找出最符合這些涉恐特征的數(shù)據(jù),即與這些涉恐?jǐn)?shù)據(jù)的相似度最大或相異度最小的數(shù)據(jù)。

        2.2 適合涉恐人員屬性特點(diǎn)的異常數(shù)據(jù)挖掘方法

        選擇有效方法要符合涉恐人員的屬性特點(diǎn),適合混合屬性數(shù)據(jù)挖掘分析。涉恐人員的屬性特征中既包含連續(xù)數(shù)值屬性也包含分類(lèi)離散屬性[16],屬于混合屬性數(shù)據(jù)。從技術(shù)路線角度來(lái)看,常用的異常檢測(cè)主要包括基于統(tǒng)計(jì)、距離、密度、聚類(lèi)等方法[17]?;诮y(tǒng)計(jì)的方法假定數(shù)據(jù)符合某種分布,例如正態(tài)分布、泊松分布等,建立在標(biāo)準(zhǔn)的統(tǒng)計(jì)學(xué)基礎(chǔ)上,一般對(duì)于單個(gè)屬性數(shù)據(jù)非常有效,而涉恐基礎(chǔ)數(shù)據(jù)屬性眾多且統(tǒng)計(jì)分布未知,并不符合這類(lèi)方法;基于距離的方法和基于密度的方法較適合具有連續(xù)數(shù)值屬性的數(shù)據(jù),涉恐?jǐn)?shù)據(jù)屬性中的確存在一些連續(xù)數(shù)值屬性,但是更多的是大量分類(lèi)離散屬性,同時(shí)這種方法計(jì)算復(fù)雜度比較高,所以不建議采用;基于聚類(lèi)的方法是將大量數(shù)據(jù)進(jìn)行分簇處理,分簇后每個(gè)簇內(nèi)的數(shù)據(jù)更接近,各個(gè)簇之間的數(shù)據(jù)相差較大,聚類(lèi)完成后遠(yuǎn)離大簇的小數(shù)據(jù)量簇或者孤立數(shù)據(jù)點(diǎn)即為異常數(shù)據(jù)。聚類(lèi)方法中有一部分適合于分類(lèi)離散屬性的處理,涉恐基礎(chǔ)數(shù)據(jù)中含有大量的分類(lèi)離散屬性,少量連續(xù)數(shù)值屬性例如身高、體重、年齡、財(cái)產(chǎn)狀況等也可以按照區(qū)間離散化的方式轉(zhuǎn)換為分類(lèi)離散屬性,所以可以考慮采用聚類(lèi)的方法進(jìn)行涉恐人員的異常檢測(cè)。先選擇適合分類(lèi)離散屬性的聚類(lèi)方法將海量基礎(chǔ)數(shù)據(jù)聚類(lèi)分簇,找出異常數(shù)據(jù),然后再在異常數(shù)據(jù)中檢測(cè)涉恐人員。

        2.3 適合無(wú)監(jiān)督類(lèi)型基礎(chǔ)數(shù)據(jù)的異常數(shù)據(jù)挖掘方法

        本文主要考慮基礎(chǔ)數(shù)據(jù)中沒(méi)有涉恐人員類(lèi)別標(biāo)號(hào)的情況。從異常數(shù)據(jù)是否具有類(lèi)標(biāo)號(hào)(正?;虍惓#┮约邦?lèi)標(biāo)號(hào)的利用程度分類(lèi),異常檢測(cè)方法可以分為有監(jiān)督的異常檢測(cè)方法(可以理解為有涉恐人員類(lèi)別和其他正常人員或普通人員類(lèi)別的信息)、無(wú)監(jiān)督的異常檢測(cè)方法(可以理解為基礎(chǔ)數(shù)據(jù)中沒(méi)有人員類(lèi)別信息)以及半監(jiān)督的異常檢測(cè)方法(可以理解為基礎(chǔ)數(shù)據(jù)中有正常人員的類(lèi)別信息,但是沒(méi)有關(guān)于涉恐人員的類(lèi)別信息)[18]。有監(jiān)督的方法本質(zhì)上屬于根據(jù)基礎(chǔ)數(shù)據(jù)訓(xùn)練數(shù)據(jù)挖掘分類(lèi)模型,然后利用建模對(duì)未知人員數(shù)據(jù)分類(lèi)識(shí)別涉恐人員,作者已經(jīng)做過(guò)此類(lèi)研究[19-20]。本文將重點(diǎn)研究基礎(chǔ)數(shù)據(jù)沒(méi)有涉恐人員類(lèi)別信息的情況,即無(wú)監(jiān)督和半監(jiān)督的情況。前文所述的聚類(lèi)方法在海量未知類(lèi)別數(shù)據(jù)快速分類(lèi)時(shí)處理速度較快,這一點(diǎn)也非常適合反恐情報(bào)分析。

        3 基于聚類(lèi)的反恐情報(bào)異常數(shù)據(jù)分析

        通過(guò)前文的分析可知,反恐情報(bào)分析中的異常數(shù)據(jù)挖掘可以分為兩步。第一步采用聚類(lèi)的方式將原始海量基礎(chǔ)數(shù)據(jù)分為幾個(gè)簇,找出其中的小簇和孤立數(shù)據(jù)作為待判斷的樣本數(shù)據(jù)。第二步定義一種適合涉恐人員數(shù)據(jù)混合屬性特征的相似度或相異度度量方法,找出與已有恐怖分子特征最接近的數(shù)據(jù),即為通過(guò)異常檢測(cè)找出來(lái)的涉恐人員。筆者曾做過(guò)關(guān)于涉恐?jǐn)?shù)據(jù)聚類(lèi)分析的研究[21-22],核心內(nèi)容是將涉恐人員基礎(chǔ)數(shù)據(jù)分簇,然后基于每個(gè)簇判定涉恐等級(jí),所有的連續(xù)數(shù)據(jù)屬性按照區(qū)間劃分轉(zhuǎn)換為分類(lèi)離散屬性,離散屬性之間按照廣義雅卡爾系數(shù)或者公共鏈接數(shù)計(jì)算相似度。這一方法也可以直接用于未知類(lèi)別的基礎(chǔ)人員數(shù)據(jù)分簇,因此下文將不再討論聚類(lèi)過(guò)程的細(xì)節(jié),感興趣的讀者可以查閱筆者發(fā)表的相關(guān)文獻(xiàn)。

        如圖1所示為本文設(shè)計(jì)的反恐情報(bào)異常數(shù)據(jù)挖掘流程。首先要收集到海量的基礎(chǔ)數(shù)據(jù)作為情報(bào)分析的數(shù)據(jù)來(lái)源。原始的數(shù)據(jù)不適合直接展開(kāi)異常檢測(cè),要進(jìn)行數(shù)據(jù)的預(yù)處理將其轉(zhuǎn)換為標(biāo)準(zhǔn)化數(shù)據(jù),便于展開(kāi)挖掘過(guò)程[23]。第一次數(shù)據(jù)預(yù)處理除了常規(guī)的數(shù)據(jù)清洗、數(shù)據(jù)集成等操作外,還要進(jìn)行數(shù)據(jù)離散化處理即將所有的連續(xù)數(shù)值屬性全部轉(zhuǎn)換為有序的分類(lèi)離散屬性。數(shù)據(jù)預(yù)處理的過(guò)程中,不同數(shù)據(jù)之間滿足獨(dú)立性,可以采用并行計(jì)算的方式分別處理,提高處理效率。準(zhǔn)備好基礎(chǔ)數(shù)據(jù)后利用適合分類(lèi)離散屬性的聚類(lèi)方法,將標(biāo)準(zhǔn)化的數(shù)據(jù)分簇,大數(shù)據(jù)量的簇被認(rèn)定為正常數(shù)據(jù)或普通數(shù)據(jù),小簇和孤立數(shù)據(jù)點(diǎn)保存作為下一步異常檢測(cè)的基礎(chǔ)數(shù)據(jù)。

        為使最后異常檢測(cè)的結(jié)果更加精確,獲得下一步開(kāi)始前的基礎(chǔ)數(shù)據(jù)后,再次進(jìn)行數(shù)據(jù)預(yù)處理,將所有的數(shù)據(jù)屬性特征做進(jìn)一步轉(zhuǎn)換。如果在第一次數(shù)據(jù)預(yù)處理時(shí)將所有數(shù)據(jù)的格式轉(zhuǎn)換一步到位,則數(shù)據(jù)量太大會(huì)消耗過(guò)多的計(jì)算時(shí)間和計(jì)算資源,降低情報(bào)分析的效率,所以數(shù)據(jù)預(yù)處理過(guò)程可以分兩次進(jìn)行。第二次數(shù)據(jù)預(yù)處理將所有分類(lèi)離散屬性進(jìn)一步分為有序離散屬性、二元離散屬性和其他普通多元離散屬性。第二次數(shù)據(jù)預(yù)處理后生成適合綜合計(jì)算所有屬性相似度的數(shù)據(jù)。

        最后根據(jù)已有的恐怖分子的屬性特征值統(tǒng)計(jì),計(jì)算每個(gè)異常數(shù)據(jù)對(duì)象的相似度,并設(shè)最小相似度閾值,找出其中滿足最小閾值的即為涉恐人員。其中恐怖分子的屬性特征值統(tǒng)計(jì)為已知量,由已破獲暴恐案件中的數(shù)據(jù)計(jì)算得出。評(píng)估數(shù)據(jù)相似度的過(guò)程必須綜合考慮多重涉恐屬性,具體的量化標(biāo)準(zhǔn)由下文討論的涉恐敏感程度度量方法計(jì)算得出。計(jì)算出滿足閾值的“疑似”重點(diǎn)涉恐人員后,繼續(xù)由有經(jīng)驗(yàn)的情報(bào)分析員進(jìn)行人工研判。此外,還要進(jìn)行驗(yàn)證反饋,根據(jù)實(shí)際調(diào)查結(jié)果,更新恐怖分子特征統(tǒng)計(jì)數(shù)據(jù),不斷提高異常檢測(cè)的準(zhǔn)確度。

        4 涉恐敏感程度度量方法

        本節(jié)將設(shè)計(jì)一種計(jì)算涉恐人員敏感程度的量化方法,通過(guò)計(jì)算與恐怖分子的相似度來(lái)量化敏感程度,該方法能夠覆蓋各種類(lèi)型的涉恐屬性特征。我國(guó)涉恐人員的特征比較明顯,具體可以參考《識(shí)別宗教極端活動(dòng)(75種具體表現(xiàn))基礎(chǔ)知識(shí)》[24]、2016年1月1日起正式施行的《中華人民共和國(guó)反恐怖主義法》、2017年3月29日頒布的《新疆維吾爾自治區(qū)去極端化條例》以及一些媒體公開(kāi)報(bào)道的暴恐案件。表1中的虛擬樣本集即參考這些特征隨機(jī)生成,下文的相似度計(jì)算也以這些屬性特征為例展開(kāi)。本文聲明,這些虛擬樣本數(shù)據(jù)完全根據(jù)涉恐?jǐn)?shù)據(jù)的特征隨機(jī)生成,不包含任何敏感數(shù)據(jù)。同時(shí),表中的數(shù)據(jù)僅用于表述異常檢測(cè)分析的流程,實(shí)際反恐情報(bào)分析中涉恐屬性更多,必須列舉出所有重要涉恐屬性,提高異常檢測(cè)的科學(xué)性和準(zhǔn)確性。

        4.1 合并同類(lèi)項(xiàng)

        這些涉恐特征中有一部分存在一定的共性,為了提高情報(bào)分析的效率,可以將具有一定共性的涉恐特征合并,使得涉恐特征更集中,計(jì)算相似度時(shí)目標(biāo)性更強(qiáng),結(jié)果更精確。例如表1中的虛擬樣本數(shù)據(jù)集,“極端思想表現(xiàn)”屬性中“抵制正常體育活動(dòng)”、“抵制正常娛樂(lè)活動(dòng)”可以合并為“抵制正常文體活動(dòng)”,“非法活動(dòng)”屬性中“攜帶非法宣傳品”、“私藏暴恐音頻視頻”可以合并為“持有非法宣傳資料”。表2所示為合并同類(lèi)項(xiàng)后的虛擬樣本集。以“私制/囤積武器”屬性為例,恐怖分子的統(tǒng)計(jì)特征值為{5/8囤積易燃易爆物+2/8囤積炸彈零件+1/8囤積冷兵器}。在反恐情報(bào)分析的異常檢測(cè)中,這些均作為已知數(shù)據(jù),在多次異常檢測(cè)時(shí)無(wú)需重復(fù)計(jì)算,只需對(duì)原始基礎(chǔ)數(shù)據(jù)統(tǒng)一計(jì)算1次即可。兩表中的數(shù)據(jù)僅用于說(shuō)明恐怖分子涉恐特征的統(tǒng)計(jì)方法。在大量數(shù)據(jù)統(tǒng)計(jì)中,可將比例非常小的特征值直接舍棄,提高計(jì)算效率。

        4.2 初步聚類(lèi)的相似度度量

        初步聚類(lèi)過(guò)程中的相似度度量采用廣義雅卡爾系數(shù)。在聚類(lèi)過(guò)程中,為了快速完成初步分類(lèi)過(guò)程,連續(xù)數(shù)值屬性轉(zhuǎn)換為分類(lèi)離散屬性,所有離散屬性的處理沒(méi)有區(qū)別,直接代入公式計(jì)算雅卡爾系數(shù)。當(dāng)通過(guò)聚類(lèi)選出所有異常數(shù)據(jù)后,基礎(chǔ)數(shù)據(jù)量已經(jīng)變小,再直接用雅卡爾系數(shù)統(tǒng)一計(jì)算相似度則不夠精確。在計(jì)算基礎(chǔ)數(shù)據(jù)與恐怖分子相似度時(shí)將分類(lèi)離散屬性進(jìn)一步分為有序離散屬性、二元離散屬性以及其他多元離散屬性。

        4.4 連續(xù)數(shù)值屬性的度量

        恐怖分子的連續(xù)數(shù)值屬性主要包括身高、體重、年齡、財(cái)產(chǎn)狀況等。一般情況下,連續(xù)數(shù)值屬性最簡(jiǎn)單、最精確的度量是采用各種標(biāo)準(zhǔn)距離例如曼哈頓距離、歐幾里得距離、切比雪夫距離等進(jìn)行計(jì)算。但是,與其他思想傾向、極端活動(dòng)等屬性特征不同,恐怖分子的這些連續(xù)數(shù)值屬性沒(méi)有一個(gè)明確的可參考值,一種比較可行的方式是按照統(tǒng)計(jì)數(shù)據(jù)將這些連續(xù)屬性離散化,部分屬性還可以合并同類(lèi)項(xiàng),例如身高、體重、年齡綜合為身體素質(zhì),設(shè)為是否適合實(shí)施暴恐活動(dòng),例如分為{好,一般,較弱},還可根據(jù)實(shí)際需要進(jìn)一步細(xì)分,顯然離散化后的涉恐屬性特征依然是有序的。

        4.5 二元離散屬性的度量

        通過(guò)新聞報(bào)道中可以看出,歐洲的恐怖襲擊很多與中東難民有關(guān),純粹的原住居民較少[26-27]。從國(guó)際宗教極端主義的傳播來(lái)看,這些暴恐分子的宗教信仰、文化背景、生活習(xí)俗等各方面也與“伊斯蘭國(guó)”、“基地組織”等恐怖組織更接近,因此更容易被宗教極端主義洗腦。所以根據(jù)其特征可以設(shè)定二元離散屬性的值,一種為敏感屬性值(值為1),其他全部設(shè)為非敏感屬性值(值為0)。我國(guó)也可以參考?xì)W洲的情況根據(jù)暴恐案件的統(tǒng)計(jì)數(shù)據(jù),將一部分屬性篩選出來(lái),采用二元離散屬性度量。二元離散屬性的度量一般采用簡(jiǎn)單匹配系數(shù)或二元離散屬性的雅卡爾系數(shù)。涉恐二元離散屬性在度量時(shí),顯然敏感涉恐屬性值對(duì)反恐情報(bào)分析更有意義,且原始基礎(chǔ)數(shù)據(jù)中非敏感屬性值占大多數(shù),本文采用更關(guān)注敏感屬性的雅卡爾系數(shù)來(lái)計(jì)算兩個(gè)數(shù)據(jù)的相似度。即s2=f11/(f11+f10+f01),角標(biāo)的0和1表示兩個(gè)數(shù)據(jù)對(duì)應(yīng)屬性值分別為0和1的情況。

        5 結(jié) 語(yǔ)

        本文提出了一種基于聚類(lèi)的反恐情報(bào)異常數(shù)據(jù)挖掘分析方法,主要研究了在反恐情報(bào)中如何度量異常和如何發(fā)現(xiàn)異常兩個(gè)問(wèn)題。其中度量異常的方式為與已掌握恐怖分子的屬性特征統(tǒng)計(jì)數(shù)據(jù)計(jì)算相似度,相似度大的即為涉恐人員。如何發(fā)現(xiàn)異常則分兩個(gè)步驟,第一步先用適合分類(lèi)離散屬性的聚類(lèi)方法對(duì)原始數(shù)據(jù)進(jìn)行聚類(lèi)分簇,聚類(lèi)過(guò)程中將原始數(shù)據(jù)集中的連續(xù)數(shù)值屬性全部轉(zhuǎn)換為分類(lèi)離散屬性處理,第二步在聚類(lèi)分析結(jié)果的基礎(chǔ)上逐一利用與恐怖分子的相似度檢測(cè)異常數(shù)據(jù)點(diǎn)即涉恐人員,這種處理方式效率較高,非常適合大數(shù)據(jù)量的反恐情報(bào)分析。在第二步計(jì)算相似度時(shí),每種屬性所占的比重需要根據(jù)實(shí)際反恐經(jīng)驗(yàn)和驗(yàn)證反饋不斷調(diào)整,本文旨在說(shuō)明這種處理方式,具體的比重參數(shù)只能由真實(shí)數(shù)據(jù)統(tǒng)計(jì)得出。文中使用一組虛擬數(shù)據(jù)描述了異常數(shù)據(jù)挖掘分析的詳細(xì)過(guò)程,在實(shí)際的反恐情報(bào)分析中還要與其他的量化分析方法組成完整的方法體系,相互補(bǔ)充,才能提供最完整、最可靠的情報(bào)信息。期望本文的研究可以為提高反恐情報(bào)分析效率,精確打擊恐怖主義活動(dòng)提供有益的參考。

        參考文獻(xiàn)

        [1]新華網(wǎng).新疆的反恐、去極端化斗爭(zhēng)與人權(quán)保障[EB/OL].http://www.xinhuanet.com//2019-03/18/c_1124247196.htm,2019-03-18.

        [2]中國(guó)人大網(wǎng).中華人民共和國(guó)反恐怖主義法[EB/OL].http://www.npc.gov.cn/npc/xinwen/2018-06/12/content_2055871.htm,2019-03-18.

        [3]Singh K,Upadhyaya S.Outlier Detection:Applications and Techniques[J].International Journal of Computer Science Issues,2012,9(1):307-323.

        [4]Khan N G,Bhagat V B.Effective Data Mining Approach for Crime-terrorpattern Detection Using Clustering Algorithm Technique[J].Engineering Research and Technology International Journal,2013,2(4):2043-2048.

        [5]Cao L.Behavior Informatics and Analytics:Let Behavior Talk[C]//Data Mining Workshops,2008.ICDMW08.IEEE International Conference on.IEEE,2008:87-96.

        [6]Challagalla A,Dhiraj S S S,Somayajulu D V L N,et al.Privacy Preserving Outlier Detection Using Hierarchical Clustering Methods[C]//Computer Software and Applications Conference Workshops.IEEE,2010:152-157.

        [7]Agarwal A.Multi Agent Based Approach for Network Intrusion Detection Using Data Mining Concept[J].Journal of Global Research in Computer Science,2012,3(3):29-32.

        [8]陳沖.反恐情報(bào)分析中的缺失數(shù)據(jù)處理和異常值檢測(cè)[D].北京:中國(guó)科學(xué)院大學(xué),2015.

        [9]余昊.基于底層特征的視頻異常事件檢測(cè)算法研究與實(shí)現(xiàn)[D].上海:上海交通大學(xué),2015.

        [10]肖政宏.無(wú)線傳感器網(wǎng)絡(luò)異常入侵檢測(cè)技術(shù)研究[D].長(zhǎng)沙:中南大學(xué),2012.

        [11]王家定.基于復(fù)雜網(wǎng)絡(luò)理論和通話記錄的用戶行為異常識(shí)別研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2013.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
        国产一区二区三区四区三区| 亚洲综合一区二区三区蜜臀av| 亚洲av毛片在线播放| 色偷偷激情日本亚洲一区二区| 老少配老妇老熟女中文普通话| 俺也去色官网| 精品久久日产国产一区| 亚洲一区精品在线中文字幕| 亚洲欧美日韩成人高清在线一区| 无码中文字幕加勒比一本二本 | 亚洲一区二区三区日本久久九| 天天噜日日噜狠狠噜免费| 久热香蕉视频| 一本久久a久久精品综合| 国产亚洲视频在线观看播放| 日韩在线视频专区九区| 五十六十日本老熟妇乱| 精品久久久久久777米琪桃花| 精品无码成人片一区二区| 中文字幕一区二区人妻性色av| 日本熟妇色xxxxx日本妇| 日本强好片久久久久久aaa| 亚洲av综合日韩精品久久久| 国产成人综合精品一区二区| 久久久久久亚洲av无码蜜芽| 日韩精品无码免费专区网站| 91精品啪在线观看国产色| 国产三级av在线精品| 国产激情视频在线观看的| 国产一区二区三区av在线无码观看| 无码三级国产三级在线电影| 国产精品福利高清在线| 久久er99热精品一区二区| 国产肉体XXXX裸体784大胆| 国产免费人成视频在线观看播放播| 天堂а在线中文在线新版| 999久久久精品国产消防器材| 亚洲成av人片在线天堂无| 国产香蕉视频在线播放| 五十路熟妇高熟无码视频| 熟女少妇av免费观看|