唐德權(quán)史偉奇凌志剛
(1 湖南警察學(xué)院 湖南 長(zhǎng)沙 410138;2 湖南大學(xué) 湖南 長(zhǎng)沙 410082)
有組織犯罪集團(tuán)挖掘算法研究
唐德權(quán)1史偉奇1凌志剛2
(1湖南警察學(xué)院湖南長(zhǎng)沙410138;2湖南大學(xué)湖南長(zhǎng)沙410082)
針對(duì)當(dāng)前中國(guó)有組織犯罪活動(dòng)分布廣泛、結(jié)構(gòu)嚴(yán)密、活動(dòng)多樣等特點(diǎn),將有組織犯罪網(wǎng)絡(luò)數(shù)據(jù)抽象為共犯網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu),提出一種挖掘有組織犯罪集團(tuán)主要成員的算法。該算法將復(fù)雜網(wǎng)絡(luò)圖結(jié)構(gòu)劃分為幾個(gè)模塊,采用子圖聚類的方法將共同犯罪的主要成員分出到共犯網(wǎng)絡(luò)結(jié)構(gòu),提高了有組織犯罪集團(tuán)檢測(cè)效率,準(zhǔn)確有效地獲取集團(tuán)主要犯罪成員。算法在現(xiàn)實(shí)數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果表明,該算法較傳統(tǒng)的算法在時(shí)間性能上有很大提高。
共犯網(wǎng)絡(luò)數(shù)據(jù)挖掘有組織犯罪時(shí)間效率
當(dāng)前復(fù)雜的網(wǎng)絡(luò)組織通常是由若干網(wǎng)絡(luò)模塊(或稱網(wǎng)絡(luò)社區(qū))組成,這些模塊由一組結(jié)點(diǎn)構(gòu)成并且模塊內(nèi)的結(jié)點(diǎn)聯(lián)系緊密而模塊間的聯(lián)系相對(duì)較少。根據(jù)結(jié)點(diǎn)的分布,如有無交集或相互重疊可以判斷共同犯罪網(wǎng)絡(luò)的緊密程度,共犯網(wǎng)絡(luò)的結(jié)構(gòu)檢測(cè)和計(jì)算對(duì)挖掘有組織犯罪結(jié)點(diǎn)信息有著重要的作用。中國(guó)有組織犯罪集團(tuán)主要包含黑惡勢(shì)力犯罪和黑社會(huì)性質(zhì)組織犯罪,其中黑社會(huì)性質(zhì)組織犯罪是中國(guó)典型的有組織犯罪。[1]國(guó)內(nèi)外對(duì)有組織犯罪集團(tuán)研究工作已經(jīng)全面展開。國(guó)外的Morselli[2]等人經(jīng)過近幾年的研究,從共犯網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),提出了有組織犯罪系統(tǒng)結(jié)構(gòu),但只對(duì)205個(gè)數(shù)據(jù)樣本集進(jìn)行了實(shí)驗(yàn),沒有對(duì)大型有組織犯罪實(shí)驗(yàn)。當(dāng)前中國(guó)有組織犯罪活動(dòng)也日趨活躍,犯罪活動(dòng)頻繁而強(qiáng)烈。犯罪組織形式多種多樣,組織結(jié)構(gòu)由單一的線性或?qū)哟谓Y(jié)構(gòu)向復(fù)雜的網(wǎng)絡(luò)圖結(jié)構(gòu)轉(zhuǎn)變,給有組織犯罪的偵查工作帶來了極大的障礙。國(guó)內(nèi)學(xué)者馬萬等提出基于社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的有組織犯罪集團(tuán)取證方法;[3]唐常杰等利用Dijistra算法的最短路徑提出了有組織犯罪集團(tuán)挖掘的SPLINE算法;[4]劉齊宏等提出有組織犯罪集團(tuán)核心成員挖掘算法。[5]
一般來說,提取有組織犯罪集團(tuán)證據(jù)結(jié)果的數(shù)據(jù)主要來自兩個(gè)方面:一是要建立符合犯罪規(guī)律的有組織犯罪網(wǎng)絡(luò)結(jié)構(gòu)特征如形式和動(dòng)態(tài),二是有組織犯罪集團(tuán)的實(shí)驗(yàn)數(shù)據(jù)的演化和預(yù)測(cè)。本文從實(shí)際案例數(shù)據(jù)出發(fā),首先建立有組織犯罪集團(tuán)的共犯網(wǎng)絡(luò)結(jié)構(gòu)提出相關(guān)知識(shí),然后提出一種基于共犯網(wǎng)絡(luò)的有組織犯罪集團(tuán)檢測(cè)的改進(jìn)算法CNDA(Co-offending Network Detection Algorithm),最后在現(xiàn)實(shí)數(shù)據(jù)集上用改進(jìn)的算法與現(xiàn)有國(guó)內(nèi)有組織犯罪集團(tuán)挖掘算法進(jìn)行比較分析,得出改進(jìn)的算法性能優(yōu)越結(jié)論。
2.1共犯網(wǎng)絡(luò)
共犯網(wǎng)絡(luò)是基于社會(huì)網(wǎng)絡(luò)基礎(chǔ)上一種新的有組織犯罪集團(tuán)結(jié)構(gòu)。[6]目前主要利用社會(huì)網(wǎng)絡(luò)分析方法對(duì)大量犯罪集團(tuán)和組織深入研究,得出一種犯罪組織系統(tǒng)結(jié)構(gòu)。共犯網(wǎng)絡(luò)從數(shù)據(jù)集中的數(shù)據(jù)結(jié)構(gòu)得到,由結(jié)點(diǎn)和邊構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu),一般用四元組G=(V,E,ΣV, ΣE,L)表示。其中,V是結(jié)點(diǎn)集,E是邊集,ΣV和ΣE分別是結(jié)點(diǎn)和邊的標(biāo)號(hào)集;L是標(biāo)號(hào)集的映射函數(shù)即:L:V→ΣV,E→ΣE。
2.2有組織犯罪
有組織犯罪,是當(dāng)今國(guó)際社會(huì)公認(rèn)的一種最高級(jí)犯罪形態(tài),聯(lián)合國(guó)大會(huì)宣稱其為“世界三大犯罪災(zāi)難”之一。現(xiàn)有的文獻(xiàn)中針對(duì)犯罪特征對(duì)有組織犯罪的定義主要有三個(gè)基本觀點(diǎn):一是有組織的犯罪主要是對(duì)犯罪行為而言,與沒有規(guī)律的犯罪行為相比有組織犯罪被視為某些犯罪活動(dòng)特征的連續(xù)性;二是有組織犯罪集中在與權(quán)力相關(guān)的經(jīng)濟(jì)或社會(huì)的政治結(jié)構(gòu)中;三是有組織犯罪通過網(wǎng)絡(luò)連接實(shí)施犯罪。目前對(duì)有組織犯罪研究比較認(rèn)可的結(jié)論是:有組織犯罪是分散,雜亂無章的網(wǎng)絡(luò)結(jié)構(gòu),鏈接著罪犯權(quán)力與地位并影響國(guó)家甚至世界政治和經(jīng)濟(jì)的網(wǎng)絡(luò)。[7]為了量化有組織犯罪,本文提出活躍犯罪組和嚴(yán)重犯罪組。
2.3共犯網(wǎng)絡(luò)檢測(cè)
共犯網(wǎng)絡(luò)檢測(cè)主要是指在靜態(tài)網(wǎng)絡(luò)圖結(jié)構(gòu)中尋找一個(gè)最合理的模塊,這個(gè)模塊包含某個(gè)案件的所有犯罪成員。共犯網(wǎng)絡(luò)檢測(cè)的主要問題是如何尋找合理的網(wǎng)絡(luò)子結(jié)構(gòu)——模塊。為處理這一問題,一個(gè)較好的技術(shù)措施就是給每個(gè)劃分的模塊進(jìn)行量化,然后選出一個(gè)分值最高的為檢測(cè)模塊。隨著時(shí)間的推移,目前主要有兩種方法:一是直接在網(wǎng)絡(luò)檢測(cè)過程中應(yīng)用時(shí)間信息;二是采用時(shí)間平滑度跟蹤犯罪網(wǎng)絡(luò)演繹軌跡。本文在時(shí)間信息基礎(chǔ)上進(jìn)行改進(jìn),主要有兩個(gè)步驟:(1)在獲取的靜態(tài)數(shù)據(jù)集檢測(cè)每一個(gè)時(shí)間段;(2)應(yīng)用匹配函數(shù)量化共犯網(wǎng)絡(luò)結(jié)構(gòu)發(fā)展的時(shí)間步驟。
我們定義了一個(gè)kxm矩陣M,如果罪犯Ou參與事件iv,則muv=1,否則為0。因此一個(gè)共犯網(wǎng)絡(luò)是kxk矩陣:N=MMT。
為檢測(cè)共犯網(wǎng)絡(luò)集團(tuán),對(duì)共犯網(wǎng)絡(luò)每一次按照以下步驟連續(xù)進(jìn)行:①在當(dāng)前網(wǎng)絡(luò)發(fā)現(xiàn)罪犯組;②計(jì)算當(dāng)前網(wǎng)絡(luò)這些組織的活動(dòng)和犯罪行為,以及他們的成員基于前面的網(wǎng)絡(luò)之間犯下的罪行;③對(duì)步驟2中與物質(zhì)利益相關(guān)的犯罪進(jìn)行評(píng)估;④識(shí)別有組織犯罪集團(tuán);⑤更新當(dāng)前時(shí)間,進(jìn)行演化跟蹤。在下面更詳細(xì)地解釋這些步驟。算法1如下:
算法1中定義兩個(gè)閾值:α表示犯罪活動(dòng)和β表示犯罪行為。某一犯罪集團(tuán)Ci在時(shí)間t犯罪行為表示為,定義為:
這里jik表示某個(gè)罪犯ik的嚴(yán)重程度,即犯罪集團(tuán)Ci成員在t時(shí)刻的犯罪行為。
設(shè)i1,i2,…,in是Ci在時(shí)間t的犯罪成員,某一犯罪集團(tuán)Ci在時(shí)間t1到時(shí)間t2的活動(dòng)記為,計(jì)算公式如下:
A l g o r i t h m 1 C N D A I n p u t:( 1 ) C r i m e D a t a s e t ( 2 ) C r i m e s e r i o u s n e s s i n d e x ( 3 ) α , β O u t p u t:Ot1, Ot2,…Otm,步驟:1 . / D a t a P r e p a r a t i o n * / 2:f o r e a c h s e t o f c r i m e i n c i d e n t s i n [ t1, t2] { 3:E x t r a c t t h e c o -o f f e n d i n g n e t w o r k 4:D e t e c t o f f e n d e r g r o u p s Ct1, Ct2,…Ctn, 5:F o r e a c h o f f e n d e r g r o u p CtiI Ct{ 6:C o m p u t e r t h e g r o u p a c t i v i t y q 7 : C o m p u t e r t h e g r o u p c r i m i n a l i t y Fti8:I d e n t i f y p o s s i b l e o r g a n i z e d c r i m e Oti9:F o r e a c h p o s s i b l e o r g a n i z e d c r i m e Oti{ 1 0 : A s s e s s o v e r a l l g r o u p m a t e r i a l b e n e f i t 1 1:O u t p u t Ot1, Ot2,…, Otm^ t1, t2i
為了驗(yàn)證本文提出的CNDA算法有效性,實(shí)驗(yàn)數(shù)據(jù)采用我國(guó)打擊黑社會(huì)有組織犯罪數(shù)據(jù)集,[1]該數(shù)據(jù)集記錄了時(shí)間從2006至2011犯罪數(shù)據(jù),包含所有報(bào)告犯罪信息(1954條記錄)。犯罪記錄的基本信息如表1所示,共涉及74個(gè)罪行,該表僅列舉了前10個(gè)。本文算法對(duì)該數(shù)據(jù)集挖掘結(jié)果時(shí)間性能如圖1、圖2所示,X表示結(jié)點(diǎn)數(shù)目,Y表示挖掘時(shí)間(單位:ms)。
表1 有組織實(shí)施的主要犯罪行為
圖1顯示本文提出的算法CNDA挖掘活躍犯罪集團(tuán)與SPLINE算法時(shí)間性能比較,基于共犯網(wǎng)絡(luò)結(jié)構(gòu)算法可以省去最短路徑長(zhǎng)度大于6的結(jié)點(diǎn)計(jì)算與判斷,從而提高了算法效率,使用CNDA算法的時(shí)間代價(jià)約為SPLINE算法的時(shí)間代價(jià)的80.6%。
圖1 活躍犯罪集團(tuán)挖掘的時(shí)間性能
從圖2可以看出,CNDA算法在挖掘嚴(yán)重犯罪集團(tuán)時(shí)候算法的效率高,大約高出20.3%。
圖2 嚴(yán)重犯罪集團(tuán)挖掘的時(shí)間性能
本文采用我國(guó)2006年至2011年打擊黑社會(huì)組織犯罪數(shù)據(jù)集得到的數(shù)據(jù)來建立共犯網(wǎng)絡(luò),提出一種基于共犯網(wǎng)絡(luò)的有組織的犯罪集團(tuán)檢測(cè)的改進(jìn)算法CNDA(Co-offending Network Detection Algorithm)。實(shí)驗(yàn)證明,該算法能成功挖掘犯罪集團(tuán)核心,準(zhǔn)確率達(dá)90.3%,較已有的算法提高20.3%。
共犯網(wǎng)絡(luò)結(jié)構(gòu)方法同時(shí)也為分析共犯網(wǎng)絡(luò)形狀和有組織犯罪行為提供了重要的參考證據(jù)。值得注意的是,因?yàn)椴僮鞯谋尘安煌绻l(fā)出指令不是明顯的數(shù)據(jù),共犯網(wǎng)絡(luò)就不一定能確定一個(gè)組織的所有個(gè)體,另需結(jié)合警方情報(bào)機(jī)構(gòu)報(bào)告數(shù)據(jù)才能獲得一個(gè)更全面的刑事犯罪組織的網(wǎng)絡(luò)結(jié)構(gòu)。一個(gè)大的犯罪網(wǎng)絡(luò)通常是由若干個(gè)小的集團(tuán)網(wǎng)絡(luò)組成,而小集團(tuán)網(wǎng)絡(luò)之間或者大的有組織犯罪集團(tuán)之間如何進(jìn)行交互,這將是下一步進(jìn)行研究的目標(biāo)。盡管有組織犯罪集團(tuán)挖掘算法能準(zhǔn)確地挖掘出核心組織成員,但是在共犯網(wǎng)絡(luò)結(jié)點(diǎn)數(shù)較多的時(shí)候算法時(shí)間效率急劇下降,算法的效率也是未來應(yīng)致力研究的工作。
[1]靳高風(fēng).當(dāng)前中國(guó)有組織犯罪的現(xiàn)狀、特點(diǎn)、類型和發(fā)展趨勢(shì)[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2011(5):11-23.
[2]C.Morselli,Inside CriminalNetworks.Studiesof OrganizedCrime,Vol.8,Springer,2009.
[3]MA Fang.Analysis in the Study of Organized Crime[J].Journal of Southwest University of Political Soienc;e&Law,2012,14(2):34-43.
[4]WEN Fen-lian,TANG Chang-jie,et al. MiningtheCoreofCrimeNetworkBasedon Shortest Path inSocialNetworkAnalysis[J].Computerscience(S),2006, 33(11):266-268.
[5]Qihong Liu,Changjie Tang,et al.Mining the Core Member of Terrorist Crime Group Based on Social Network Analysis.PAISI 2007,LNCS 4430,2007:311-313.
[6]A.J.Reiss,Co-offending and criminal careers. CrimeandJustice:AReview of Research,1988.
[7]Inokuchi A,Washio T.Mining frequent graph sequence patterns induced by vertices.In:Proc.of the SIAM Int'1Conf.on DataMining.2010:466-477.
(責(zé)任編輯:郭帥)
TP311.2
A
2095-7939(2015)01-0026-03
2015-01-15
國(guó)家高新技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)(編號(hào):2012AA112312);教育部高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(編號(hào):20110161120006);湖南省公安廳科研基金。
唐德權(quán)(1979-),男,湖南東安人,湖南警察學(xué)院信息技術(shù)系講師,碩士,主要從事信息安全、數(shù)據(jù)挖掘研究。