孫宗鑫, 張桂蕓
(天津師范大學計算機與信息工程學院,天津300387)
?
特殊場景下手機通訊數據建模與分析
孫宗鑫, 張桂蕓
(天津師范大學計算機與信息工程學院,天津300387)
當今,手機通訊非常普及.在特殊場景下(如販毒、傳銷、販賣人口等犯罪團伙)人員之間的手機通訊蘊涵著豐富的信息.本文通過數據定義,并引入通話活躍度、關注度指標,采用最大活躍度、最小活躍度、最小關注度閾值,能夠快速挖掘出潛在核心犯罪嫌疑人和中間聯系人,實驗數據也證明了這一點.
手機通訊; 嫌疑人挖掘; 通話活躍度; 關注度
隨著科技不斷發(fā)展,手機通訊已非常普及.在現代犯罪案件中,手機通訊是一個重要又容易獲取的線索,但往往數據量龐大,且案件偵破錯綜復雜,大多要求時間非常緊,壓力大.若僅靠經驗進行人工的數據分析已遠遠不能完成.一方面,人工分析的時效性太低,另一方面人工分析的復雜度高,直接導致準確性降低.因此現代數據分析的作用就顯得尤為迫切與重要.
在特殊場景下(如販毒、傳銷、販賣人口等犯罪團伙)人員之間的手機通訊蘊涵著豐富的信息.針對犯罪嫌疑人的手機通訊數據進行角色挖掘非常有意義,而對數據進行建模和分析是角色挖掘的重要基礎.本文通過作者參與的公安案件的項目,借鑒apriori算法的支持度和置信度,定義通話活躍度、關注度指標,采用最大活躍度、最小活躍度、最小關注度閾值,能夠迅速挖掘出潛在核心犯罪嫌疑人和中間聯系人.數據結果表明:該數據模型有較理想的效果,為法律案件中手機通訊數據的分析提供了很好的借鑒.
2.1 各類嫌疑人集合描述
設案件中所有通訊中出現的人物集合為
D={d1,d2,…,dz},
已經確定的犯罪嫌疑人集合為
A={a1,a2,…,an},
A中與潛在核心犯罪嫌疑人聯系的中間聯系人為候選集合
B={b1,b2,…,bm},
潛在核心犯罪嫌疑人(如,團伙關鍵人物或上線人物)候選集合
C={c1,c2,…,cs},
潛在核心犯罪嫌疑人和非嫌疑人集合
E={e1,e2,…,eg} 即B?A,C?E,CDA=E,A∪E=D.
高關注度通話聯系集合H={h1,h2,…,hx}(即集合B與C對象間通話聯系的集合).
2.2 數據測度定義及計算公式
定義1di的通話活躍度:D中任一對象di的通話活躍度是指di與D中通話的不同對象數,用Act(di)表示.如:若di與N個對象通過電話,則Act(di)=N.集合A的活躍度是指A中所有嫌疑人之間的通話活躍度之和,用Act(A)表示.
定義2bj?cq通話關注度:集合B中某一對象bj與集合C中某一對象cq通話活躍度的差值Act(bj)-Act(cq)與集合A的通話活躍度Act(A)的比值.用Att(bj?cq)表即
(1)
2.3 閾值產生的嫌疑人集合
定義3
B={ai|ai∈A,Act(ai)≥Min_Act(B)},
(2)
其中Min_Act(B)是指集合B的最小通話活躍度閾值.即B是A中對象活躍度大于等于Min_Act(B)的對象集合,也就是ai可能為與潛在核心犯罪嫌疑人聯系的中間聯系人.
定義4
C={ei|ei∈E,Act(ei)≤Min_Act(C)}
(3)
其中Max_Act(C)是指集合C的最大通話活躍度閾值.即C是E中對象活躍度小于等于Max_Act(C)的對象集合,也就是ei可能為潛在核心犯罪嫌疑人.
定義5
H={bj?cq|bj∈B,cq∈C,Att(bj?cq)≥Min_Att(H)},
(4)
其中Min_Att(H)是指集合H的最小關注度閾值.即H是Att(bj?cq)大于等于Min_Att(H)的通話聯系的集合.當Att(bj?cq)結果越大說明bj活躍度占比越大而cq活躍度占比越小,即bj越可能為與潛在核心犯罪嫌疑人的中間聯系人,cq越可能為潛在核心犯罪嫌疑人,也就是當Att(bj?cq)≥Min_Att(H)時,bj和cq之間的聯系是我們最值得關注的聯系.
3.1 犯罪嫌疑人手機通信數據中隱含關系的特點
(i) 原始通訊數據呈現一對一通話聯系方式
ai?dr(ai≠dr),
其中ai∈A(i=1,…,n),dr∈D,一定有效時間段內的通訊數據重復量大.
(ii)B中對象bj大部分通訊數據與C中不相關,即B中對象bj的大部分通訊數據來自于與A中對象(已經確定的犯罪嫌疑人)的通訊,且bj通話數量的占比(與集合A中所有已經確定的犯罪嫌疑人通話數據的比例)明顯高于A-B的通話數量的占比.因此bj為與潛在核心犯罪嫌疑人的中間聯系人可能性很大.
(iii) 由特點(ii)可知最有可能是與潛在核心犯罪嫌疑人的中間聯系人的通話活躍度占比與潛在核心犯罪嫌疑人的通話活躍度占比呈最大差值性,即Att(bj?cq)值越大,即cq(cq∈C)為潛在核心犯罪嫌疑人的可能性越大.
3.2 數據處理算法流程圖
本文數據處理的算法執(zhí)行流程見下圖1所示:
圖 1 算法流程圖
4.1 原始通訊數據描述及前期假設
本文將按上述算法處理四個案件的手機通訊數據.以下是案例原始數據格式見下表1(只截取了部分屬性和數據):
表1 原始數據表(含部分屬性及數據,做了部分隱藏)
表1中己方號碼為所有已經確定的犯罪嫌疑人號碼;對方號碼為已經確定的犯罪嫌疑人號碼、潛在核心嫌疑人號碼和非嫌疑人號碼;呼叫時間為嫌疑人與他人聯系時間;呼叫類型為已經確定的犯罪嫌疑人與他人聯系類型(分為主叫、被叫、主短、被短);呼叫日期為已經確定的犯罪嫌疑人與他人聯系日期;己方小區(qū)為嫌疑人手機所連基站編號.
前期假設:本數據分析的目標是從所有已經確定的犯罪嫌疑人的通訊數據中挖掘出與潛在核心犯罪嫌疑人的重要中間聯系人和與之相聯系的潛在核心犯罪嫌疑人.隨著分析數據量的增加,中間聯系人的增加變化幅度應該較小,即一個案件中與潛在核心犯罪嫌疑人的中間聯系人不會很多.而另一方面,潛在核心犯罪嫌疑人可能會隨之有所增加,但增加幅度不應該很大,即在后續(xù)的人工分析可接受的工作量范圍內排查.
4.2 實際案例數據處理與結果分析
我們選取了四個案例的通訊數據,截取了不同時間段和不同數量級的數據量,進行本文算法的實際運行.數據處理各閾值設置為
Min_Act(B)=Act(A)×50%, Max_Act(C)=Act(A)×5%, Min_Att(H)=70%.
一般Min_Act(B),Max_Act(C),Min_Att(H)可以根據案件人數規(guī)模不同及結合相關人員經驗進行動態(tài)調整.基于不同數據量,其數據處理結果概覽見表2.
表2 基于不同數據量的本數據分析算法運行結果
表2說明:結果欄中左側為分析得出與潛在核心犯罪嫌疑人的中間聯系人數,右側為潛在核心犯罪嫌疑人人數.表2的結果驗證了前期的假設.
4.3 時間復雜度說明
以上四個案件數據分析均采用機器為RAM4G、CPUcorei5.40000條數據大概是40天所有已知犯罪嫌疑人的通訊數據,用時僅為約10s.
通過對案件一和案件二采用數據遞增的方式運行出的結果可以看出,本文數據建模與分析算法能夠基于通信數據有效的分析出已確定犯罪嫌疑人中與潛在核心犯罪嫌疑人的中間聯系人和其聯系的潛在核心犯罪嫌疑人,從而表明了本文算法在實際針對某些的案件偵破中起到一定的輔助作用,大大減少了刑偵人員的工作量,提高案件的偵破效率.
本文針對特殊場景下(如販毒、傳銷、販賣人口等犯罪團伙)人員之間的手機通訊數據,通過各類數據定義,尤其是最大通話活躍度、最小通話活躍度和關注度等測度的引入,采用數據庫掃描和閾值調整,構建了本文算法,進而挖掘出已確定的犯罪嫌疑人中與潛在核心犯罪嫌疑人的中間聯系人和與其聯系的潛在核心犯罪嫌疑人.通過相應的案件數據進行了實例分析,證明了本文算法有較理想的效果,為相關人員在手機通訊數據的分析工作提供了一定的幫助作用.
為了提高數據處理對案件偵破的驅動作用,在今后的工作中作者將結合手機通訊數據中的其他屬性做更多維度的數據建模、分析和大數據平臺的處理.
[1] Taha K, Yoo PD.A system for analyzing criminal social networks[C]∥IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.IEEE,2015:1017-1023.
[2] Seidler P, Adderley R, Atta B.Criminal network analysis for multi-modal surveillance and decision support[C]∥IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.IEEE,2014:257-260.
[3] Al-Zaidy R,Fung BCM,Youssef AM.Towards discovering criminal communities from textual data[C]∥ACM Symposium on Applied Computing.2011:172-177.
[4] Fatih O, Zeki E.Which crime features are important for criminal network members?[C]∥IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.IEEE,2013: 1058-1060.
[5] Al R.Mining criminal networks from unstructured text documents[J].Digital Investigation, 2012,8(s3-4):147-160.
[6] Brian B.Data Mining for Crooks[J].The IEEE Computer Society,2009,24(9):1541-1672.
[7] Fard AM,Ester M.Collaborative Mining in Multiple Social Networks Data for Criminal Group Discovery[C]∥International Conference on Computational Science and Engineering.IEEE, 2009:582-587.
[8] Wang C,Wang X,Zhang X.Research On The Improved Frequent Predicate Algorithm In The Data Mining Of Criminal Cases[C]∥2008 IEEE International Conference on Onformation and Automation.國防科技大學,2008:1531-1535.
[9] Xu JJ,Chen H.CrimeNet explorer:a framework for criminal network knowledge discovery[J].ACM Transactions on Information Systems,2005,23(2):201-226.
[10] Rajaram A,Ullman JD.大數據·互聯網大規(guī)模數據挖掘與分布式處理[M].北京:人民郵電出版社,2012.
Research on the Mobile Phone Communication Data in a Special Scene
SUNZong-xin,ZHANGGui-yun
(College of Computer and Information Engineering, Tianjin Normal University,Tianjin 300387,China)
In today's society, mobile communication has been very popular.In a special scene (such as drug pushing, multi-level marketing, human trafficking and other criminal gangs), mobile phone communications amongthis people have a certainrule.According to classifying the suspects, defining the call activeness and attention index, this paper using the maximum active degree, minimum active degree and minimum attention threshold, can quickly tap the potential core suspects and intermediate contacts, and experimental data also prove this.
mobile phone communication; suspect mining; call activeness; attention degree
2016-05-20; [修改日期]2016-09-09
國家自然科學基金面上項目(61572358);國家自然科學基金青年基金(61303023);天津市自然科學基金面上項目(16JCYBJC23600)
孫宗鑫(1991-),男,碩士在讀,從事大數據挖掘與分析、算法分析與應用的研究.Email: hamalsx@yeah.net
O29; TP312
B
1672-1454(2016)06-0028-05