大數(shù)據(jù)發(fā)現(xiàn)非法傳銷網(wǎng)絡(luò)
Uncovering the illegal pyramid networks by big data
李艷麗(1990-),女,電子科技大學(xué)大數(shù)據(jù)研究中心博士生,主要研究方向?yàn)殛P(guān)鍵節(jié)點(diǎn)挖掘、網(wǎng)絡(luò)結(jié)構(gòu)分析、鏈路預(yù)測、推薦系統(tǒng)。
劉陽(1981-),男,中國移動通信集團(tuán)公司貴州分公司工程師、承載室經(jīng)理,具有較豐富的信息系統(tǒng)設(shè)計(jì)與管理經(jīng)驗(yàn)。
謝文波(1990-),男,電子科技大學(xué)大數(shù)據(jù)研究中心博士生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、推薦系統(tǒng)、數(shù)據(jù)挖掘。
羅秀(1985-),女,中國移動通信集團(tuán)公司貴州分公司數(shù)據(jù)分析師,主要研究方向?yàn)榇髷?shù)據(jù)分析與管理,具有多年數(shù)據(jù)挖掘分析與數(shù)據(jù)管理工作經(jīng)驗(yàn)。
徐騰(1987-),男,中國移動通信集團(tuán)公司貴州分公司中級通信工程師、網(wǎng)絡(luò)部監(jiān)控室傳輸主管,主要研究方向?yàn)閭魉途W(wǎng)運(yùn)維管理,具有多年傳送網(wǎng)維護(hù)及項(xiàng)目管理工作經(jīng)驗(yàn)。
翁先正(1981-),男,中國移動通信集團(tuán)公司貴州分公司工程師、網(wǎng)絡(luò)運(yùn)維主管,主要研究方向?yàn)閭魉途W(wǎng)運(yùn)維管理,具有多年傳送網(wǎng)維護(hù)及項(xiàng)目管理工作經(jīng)驗(yàn)。
馬國彬(1982-),男,中國移動通信集團(tuán)公司貴州分公司中級通信工程師、注冊信息安全專業(yè)人員、網(wǎng)絡(luò)部網(wǎng)維中心傳輸主管,主要研究方向?yàn)榫W(wǎng)絡(luò)安全管理及傳送網(wǎng)運(yùn)維管理,具有多年網(wǎng)絡(luò)安全管理、傳送網(wǎng)維護(hù)及項(xiàng)目管理工作經(jīng)驗(yàn)。
尚杰(1986-),女,中國移動通信集團(tuán)公司黑龍江分公司人力資源部薪酬主管,擁有國家法律職業(yè)資格證以及處理網(wǎng)絡(luò)安全法律相關(guān)問題的豐富經(jīng)驗(yàn)。
許海泉(1985-),男,就職于中國移動通信集團(tuán)公司云南分公司,主要工作方向?yàn)榇髷?shù)據(jù)應(yīng)用場景分析探索,具備豐富的數(shù)據(jù)分析、營銷策劃、項(xiàng)目管理專業(yè)知識及多年工作實(shí)踐經(jīng)驗(yàn)。
鄧先暉(1983-),男,中國移動通信集團(tuán)公司貴州分公司中級通信工程師、網(wǎng)管支撐室骨干,主要研究方向?yàn)橹蜗到y(tǒng)維護(hù)、實(shí)施、開發(fā),具有多年IT工作經(jīng)驗(yàn)。
康麗(1989-),女,中國移動通信集團(tuán)公司黑龍江分公司市場部業(yè)務(wù)主管,主要研究方向?yàn)槭袌鲞\(yùn)營,具有多年市場營銷經(jīng)驗(yàn)。
侯麗霞(1983-),女,廣州咨元信息科技有限公司銷售經(jīng)理,具有多年運(yùn)營商大數(shù)據(jù)分析系統(tǒng)需求調(diào)研與分析經(jīng)驗(yàn)。
陳端兵(1971-),男,電子科技大學(xué)大數(shù)據(jù)研究中心副教授,主要研究方向?yàn)閿?shù)據(jù)挖掘、網(wǎng)絡(luò)結(jié)構(gòu)分析、信息傳播與推薦。
周濤(1982-),男,電子科技大學(xué)大數(shù)據(jù)研究中心教授、主任、博士生導(dǎo)師,主要關(guān)注統(tǒng)計(jì)物理與信息科學(xué)、社會學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域的交叉科學(xué)問題,發(fā)表SCI論文200余篇,引用16000余次,H指數(shù)超過63。
非法傳銷早在20多年前由美國流入中國,在國內(nèi)一直是一個(gè)屢禁不止的毒瘤。最近,東北大學(xué)畢業(yè)生李文星之死使得這個(gè)問題再次成為所有人關(guān)注的焦點(diǎn)。正如魏澤西之于虛假廣告,徐玉玉之于電信詐騙,李文星的意外死亡產(chǎn)生的影響使得在國內(nèi)多地明火執(zhí)仗,存在多年,甚至和本地人民“水乳交融”的傳銷組織突然面臨前所未有的打擊。最近,國家工業(yè)和信息化部更是聯(lián)合國家工商行政管理總局、教育部、公安部、人力資源和社會保障部4個(gè)部門印發(fā)了《關(guān)于開展以“招聘、介紹工作”為名從事傳銷活動專項(xiàng)整治工作的通知》,開展為期3個(gè)月(2017年8月15日—2017年11月15日)的傳銷活動專項(xiàng)整治行動。
傳銷危害人員之廣,造成財(cái)產(chǎn)損失之大,歷經(jīng)時(shí)間之久遠(yuǎn),騙術(shù)花樣之繁多堪稱觸目驚心。然而再多的騙術(shù)、攻心術(shù)在數(shù)據(jù)面前立刻顯現(xiàn)出最本質(zhì)的單一模式。利用數(shù)據(jù)挖掘技術(shù),結(jié)合網(wǎng)絡(luò)分析理論,從傳銷組織的組織機(jī)制、行為模式角度識別傳銷,不僅可以以不變應(yīng)萬變,發(fā)現(xiàn)傳銷組織的團(tuán)體涉案成員,還有助于發(fā)現(xiàn)傳銷組織中的終級背后操盤者,輔助公安部門根除傳銷組織,幫助各大運(yùn)營商提醒客戶最大力度地避免傳銷電話。此外,這還可以減少公安部門大量的物力、人力、財(cái)力,精準(zhǔn)定位傳銷組織窩藏地點(diǎn),減少人民不必要的財(cái)產(chǎn)和人員損失。
最近,筆者和中國移動通信集團(tuán)公司合作探索了如何快速從通話行為中甄別傳銷網(wǎng)絡(luò),分析了一個(gè)子網(wǎng)絡(luò)中4天的通話網(wǎng)絡(luò),并處理成無向網(wǎng)絡(luò)。其中用戶被分成4類:普通用戶、某大型企業(yè)員工、服務(wù)賬號、傳銷組織人員,分別從這些用戶中選取一位作為種子節(jié)點(diǎn),畫出從這個(gè)節(jié)點(diǎn)出發(fā)按廣度優(yōu)先搜索獲得的子網(wǎng)。這樣的網(wǎng)絡(luò)被稱為自我中心網(wǎng)絡(luò)(ego network)[1,2]。圖11~~圖44分別是從普通用戶、服務(wù)賬號、企業(yè)某領(lǐng)導(dǎo)、傳銷組織某頭目出發(fā)得到的4個(gè)自我中心網(wǎng)絡(luò)。
圖1 某普通用戶的自我中心網(wǎng)絡(luò)
圖2 某服務(wù)賬號的自我中心網(wǎng)絡(luò)
圖3 某企業(yè)領(lǐng)導(dǎo)的自我中心網(wǎng)絡(luò)(局限在本企業(yè)員工中)
圖4 某非法傳銷組織頭目的自我中心網(wǎng)絡(luò)
可以看出,普通用戶、服務(wù)賬號自我中心網(wǎng)絡(luò)與傳銷網(wǎng)絡(luò)相去甚遠(yuǎn),但是公司網(wǎng)絡(luò)也有類似于傳銷網(wǎng)絡(luò)的層次管理結(jié)構(gòu)[3-5]。通過4種常見用戶群組通話網(wǎng)絡(luò)的比較發(fā)現(xiàn),傳銷網(wǎng)絡(luò)呈現(xiàn)出與實(shí)際業(yè)務(wù)模式一致的類樹狀層級結(jié)構(gòu)。而與傳銷組織有著相同層級模式的公司用戶群網(wǎng)絡(luò)層級模式也非常明顯,但是非相鄰層級之間、非同一組之間的節(jié)點(diǎn)也有通話(同一組指的是幾個(gè)節(jié)點(diǎn)有共同的上線節(jié)點(diǎn),這里的上線和下線是以選擇的根節(jié)點(diǎn)為參照)。因此,總結(jié)了傳銷網(wǎng)絡(luò)3種明顯的特征:節(jié)點(diǎn)之間不跨級聯(lián)系、同級不搶占下線、同級非同上線節(jié)點(diǎn)不聯(lián)系?;诳偨Y(jié)的傳銷組織特征,定義了3類特征指標(biāo),見表11中的I1、I2、I3。I1指標(biāo)中如果一個(gè)節(jié)點(diǎn)i有兩個(gè)位于上一層的連邊j1和j2,則按照廣度優(yōu)先搜索的順序,第一個(gè)擴(kuò)展到i的節(jié)點(diǎn)被認(rèn)為是i的父節(jié)點(diǎn)。
當(dāng)然,傳銷網(wǎng)絡(luò)還有很多特征是和一般網(wǎng)絡(luò)不一樣的,例如涉及傳銷網(wǎng)絡(luò)的用戶出度和入度分布都和其他網(wǎng)絡(luò)大不一樣[6],如圖55和圖66所示。
圖5 出度分布的比較
本文用I4、I5、I63個(gè)指標(biāo)量化不同網(wǎng)絡(luò)出度和入度分布的差異。如果出度為i的節(jié)點(diǎn)個(gè)數(shù)是ni,則對于I5、I6,引用信息熵的概念量化一個(gè)度序列的異質(zhì)性[7,8],其計(jì)算式為,其中,N為節(jié)點(diǎn)個(gè)數(shù),p(k)是度為k的節(jié)點(diǎn)出現(xiàn)的概率,值越大,度序列分布越異質(zhì)。從表22中可以看到,相比其他3類網(wǎng)絡(luò),傳銷用戶群的出度分布和入度分布的信息熵值都是最小的,這也表示傳銷用戶每個(gè)用戶的接入上線數(shù)量和下線數(shù)量更加確定。
僅僅利用這6個(gè)指標(biāo)就可以很好地分辨出不同自我中心網(wǎng)絡(luò)是不是疑似傳銷網(wǎng)絡(luò)。
根據(jù)以上分析,可以設(shè)計(jì)疑似傳銷網(wǎng)絡(luò)的生長算法,從任何一個(gè)節(jié)點(diǎn)出發(fā),生長出可能的最大疑似傳銷網(wǎng)絡(luò),然后根據(jù)生長情況判斷它是不是一個(gè)傳銷網(wǎng)絡(luò)。見表 33,筆者設(shè)計(jì)的算法識別的傳銷網(wǎng)絡(luò)幾乎能夠覆蓋節(jié)點(diǎn)數(shù)占比大約只有0.1%的疑似傳銷人群,但是對于其他已經(jīng)甄別出來沒有問題的人群完全不誤判。原始數(shù)據(jù)的分類標(biāo)簽是由公安部門給出的,一些更細(xì)致的特征還可以進(jìn)一步提高算法效果,但因?yàn)樯婕懊舾行畔?,本文此處不詳?xì)介紹。
表1 網(wǎng)絡(luò)屬性量化指標(biāo)
表2 基于4類有向無權(quán)網(wǎng)絡(luò)計(jì)算的指標(biāo)信息
如圖77所示,筆者提出的算法基本覆蓋了傳銷網(wǎng)絡(luò)的所有核心,只有少量外圍節(jié)點(diǎn)算法本身無法確認(rèn)是不是傳銷分子。但是這完全不影響調(diào)查和抓獲這個(gè)傳銷組織,特別是不會影響對傳銷頭目和組織結(jié)構(gòu)的識別。
個(gè)人隱私數(shù)據(jù)的泄露給了很多電信詐騙不法分子以可乘之機(jī),但數(shù)據(jù)科學(xué)的正確使用也可以幫助揭示非法組織,保護(hù)人們的人身和財(cái)產(chǎn)安全。傳銷組織無法通過本文所描述的一些特征來躲避本算法的計(jì)算,因?yàn)檫@些特征更改意味著改變傳銷的組織和運(yùn)營模式,這樣的代價(jià)他們無法接受。并且本文描述的只是算法中最簡單的一小部分,筆者并不僅僅只是通過這些特征量識別非法傳銷。除了本文的研究,數(shù)據(jù)挖掘和網(wǎng)絡(luò)分析技術(shù)在輔助挖掘犯罪分子方面的應(yīng)用還很多,在擁有了移動軌跡、行為數(shù)據(jù)的基礎(chǔ)上,可以更深入地分析犯罪分子異于常人的行為模式,達(dá)到挖掘潛在嫌疑人、快速定位嫌疑人的目的[9]。
表3 節(jié)點(diǎn)覆蓋度
圖7 算法識別出的可疑節(jié)點(diǎn)的覆蓋區(qū)域(黑色節(jié)點(diǎn)為算法識別出的可疑節(jié)點(diǎn))
[1] LESKOVEC J, MCAULEY J J. Learning to discover social circles in ego networks[C]//Neural Information Processing Systems Conference, December 3-6, 2012, Nevada,USA. [S.l.:s.n.], 2012: 539-547.
[2] WANG Q, GAO J, ZHOU T, et al. Critical size of ego communication networks[J].Europhysics Letters, 2016, 114(5): 58004.
[3] RAVASZ E, SOMERA A L, MONGRU D A,et al. Hierarchical organization of modularity in metabolic networks[J]. Science, 2002,297(5586): 1551-1555.
[4] RAVASZ E, BARABASI A L. Hierarchical organization in complex networks[J].Physical Review E Statistical Nonlinear &Soft Matter Physics, 2003, 67(2): 026112.
[5] CLAUSET A, MOORE C, NEWMAN M E J.Hierarchical structure and the prediction of missing links in networks[J]. Nature, 2008,453(7191): 98-101.
[6] BARABASI A L, ALBERT R. Emergence of scaling in random networks[J]. Science,1999, 286(5439): 509-512.
[7] SHANNON C E. A note on the concept of entropy[J]. Bell System Technical Journal,1948, 27(3): 379-423.
[8] WANG B, TANG H, GUO C, et al. Entropy optimization of scale-free networks’robustness to random failures[J]. Physica A:Statistical Mechanics and Its Applications,2006, 363(2): 591-596.
[9] DU B, LIU C, ZHOU W, et al. Catch me if you can: detecting pickpocket suspects from large-scale transit records[C]//The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 13-17, 2016, San Francisco, USA.New York: ACM Press, 2016: 87-96. □
TP391
A
10.11959/j.issn.2096-0271.2017056