亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Graph Embedding的話單分析?

        2020-05-15 05:19:42韓文輕彭艷兵
        計算機與數(shù)字工程 2020年2期
        關鍵詞:話單通話記錄廣度

        韓文輕 彭艷兵

        (1.南京烽火天地通信科技有限公司 南京 210019)(2.武漢郵電科學研究院 武漢 430074)

        1 引言

        由于話單分析在犯罪偵查中的作用越來越大,關于話單分析的方法也層出不窮。話單數(shù)據(jù)中包含著很多隱藏的信息,合理利用話單數(shù)據(jù)進行分析,可以輔助犯罪偵查工作,大大提高偵查效率。

        目前關于話單分析的研究,大多基于社交網(wǎng)絡進行分析。如根據(jù)通聯(lián)次數(shù)和通聯(lián)時間分析通連方與嫌疑人是何種關系[1~2]。一般同事主要在工作時間聯(lián)系,工作之外基本不聯(lián)系;朋友在吃飯時間聯(lián)系的較多;情人在私密的時間聯(lián)系的次數(shù)較多,時長較長;行賄的一般在節(jié)假日前后聯(lián)系較多[3~4]。通過話單中的基站區(qū)碼標識和小區(qū)標識判斷嫌疑人通話時所在位置,分析嫌疑人的活動軌跡[5~6]。還可以判斷嫌疑人的作案地與居住地,根據(jù)嫌疑人的通話時間與基站位置,判斷嫌疑人的居住地與作案地[7~9]。通過分析嫌疑人親密聯(lián)系的人找出逃逸嫌疑人更換的手機號碼[10~12]。這個可以根據(jù)該嫌疑人換手機號之前的話單分析,找出聯(lián)系密切的幾個人,分析這幾個人在嫌疑人換號碼前后新增的號碼,從中找出共同聯(lián)系人,從而發(fā)現(xiàn)嫌疑人使用的新號碼[13~15]等。

        根據(jù)社交網(wǎng)絡關系分析的方法,雖然簡潔便利,但是不能用機器學習算法進行話單分析。機器學習是現(xiàn)在的熱門算法之一,如果能將機器學習算法用于話單分析,通過提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,應用模型進行預測與分析,那么以后再遇到類似的問題,就可以直接將數(shù)據(jù)用模型分析。

        2 特征設計

        提取數(shù)據(jù)特征,是進行機器學習算法的第一步。本文提取話單數(shù)據(jù)中的用戶號碼、對方號碼、通話時長、主被叫標志,然后進行特征設計。

        在進行特征設計之前,先定義一些基本概念。

        令Ω表示已知重點對象集合。

        ck=s,t為一條由 s主叫 t的通聯(lián)關系。為總體樣本通聯(lián)關系集合,其中n為通話記錄總數(shù)。

        I(x)為對象x的重要性指標,這個指標是根據(jù)已知對象的涉案程度來定義的,不同案件定義不同。s為主叫方,t為被叫方,那么I(s)和I(t)分別為主叫方s和被叫方t的重要性指標。

        1A(x)為指示函數(shù)。

        T(ck)為通話記錄ck的通話時長。

        定義了這些基本概念,接下來定義六個影響對象重要性的指標。

        2.1 撥出重要性

        Outs,<s,ti>表示在通話記錄 < s,ti> 中 s的撥出重要性。也就是說,若s與ti存在通聯(lián)關系,且ti在已知重點集合內(nèi),那么s的撥出重要性就是通聯(lián)雙方s和ti的重要性指標的均值。在整個通話網(wǎng)絡C中,s的撥出重要性累計為

        2.2 接聽重要性

        In<si,t>,t表示在通話記錄 < si,t> 中 t的接聽重要性。也就是說,若si與t存在通聯(lián)關系,且si在已知重點集合內(nèi),那么t的接聽重要性就是通聯(lián)雙方si和t的重要性指標的均值。在整個通話網(wǎng)絡?中,t的接聽重要性累計為

        2.3 撥出時長重要性

        Du_outs,<s,ti>表示在通話記錄 <s,ti> 中 s的撥出時長重要性。這里定義s的撥出時長重要性為s的撥出重要性與通話時長T(ck)的乘積以10為基的對數(shù)。后續(xù)會解釋這么做的原因。那么在整個通話網(wǎng)絡?中,s的撥出時長重要性累計為

        2.4 接聽時長重要性

        Du_in<si,t>,t表示在通話記錄 < si,t> 中 t的接聽時長重要性。這里定義t的接聽時長重要性為t的接聽重要性與通話時長T(ck)的乘積以10為基的對數(shù)。那么在整個通話網(wǎng)絡?中,t的接聽時長重要性累計為i

        2.5 撥出廣度

        Ex_outs表示在通話記錄<s,ti>中 s的撥出廣度。這里s的撥出廣度為ti在已知重點集合內(nèi)的個數(shù)。

        2.6 接聽廣度

        Ex_int表示在通話記錄 <si,t> 中 t的接聽廣度。這里t的接聽廣度為si在已知重點集合內(nèi)的個數(shù)。

        3 推薦模型

        提取數(shù)據(jù)特征之后,要抽象出數(shù)據(jù)的模型。在建模之前,要先分析上述六個影響對象重要性指標的影響程度。

        結合以往的案例分析,發(fā)現(xiàn)通聯(lián)廣度(即撥出廣度與接聽廣度)對對象的影響力最大,通話(即撥出電話與接聽電話)影響力次之,通話時長(即撥出時長與接聽時長)對對象的影響力最小。

        但是,從數(shù)據(jù)來看,對于對象影響力最小的通話時長的數(shù)值往往是最大的,我們把這種現(xiàn)象定義為外部極化現(xiàn)象。同時,通話時長的方差也是數(shù)據(jù)中最大的,我們把這種現(xiàn)象定義為內(nèi)部極化現(xiàn)象。

        在統(tǒng)計分析中,極化問題越嚴重,代表對于維度對數(shù)據(jù)集內(nèi)部結構的解釋就越大。這里用到的原理是主成分分析原理。

        在數(shù)據(jù)挖掘中,極化問題往往導致模型偏向解釋極化問題最嚴重的維度,從而弱化其他維度的影響力。

        而在話單分析的問題中,我們希望提高通聯(lián)廣度和通話這兩個影響因素對數(shù)據(jù)集的解釋作用,降低通話時長的解釋力。

        為了解決上述問題,我們必須對數(shù)據(jù)進行無量綱和平滑處理。

        而對于外部極化現(xiàn)象,我們采用離差標準化進行無量綱處理。

        離差標準化函數(shù)為

        在話單分析問題中,我們選擇只對通聯(lián)廣度和通話影響力進行無量綱處理,也就是說不對通話時長的外部極化問題進行處理。

        最后我們將對象的影響力(嫌疑度)定義為

        也就是說,IC越大,其影響力(嫌疑度)越大。在實際應用中,對IC進行排序,選出IC較大的作為推薦對象。

        4 實驗與結果

        4.1 實驗數(shù)據(jù)源

        數(shù)據(jù)源來自某案例的話單數(shù)據(jù)。話單數(shù)據(jù)中包含的信息非常多,但是根據(jù)我們的推薦模型,只需其中的部分數(shù)據(jù)。對原始數(shù)據(jù)進行預處理,提取我們所需的數(shù)據(jù)部分,處理后的結果部分如表1所示(部分數(shù)據(jù)做了匿名化處理)。

        表1 處理后的數(shù)據(jù)

        4.2 實驗過程

        根據(jù)第2節(jié)所給出的向量表示,我們先對數(shù)據(jù)質(zhì)量、結構和分布進行探索。

        由于特征向量包含六個影響力指標,屬于多維問題。首先利用t-sne(t student stochastic neibor?hood estimation)對數(shù)據(jù)進行降維,然后在二維空間進行可視化,對數(shù)據(jù)處理后的結果如圖1所示。

        圖1 降維后的結果圖

        可以發(fā)現(xiàn)上述數(shù)據(jù)集是一個可分集合,并且已知重點人具有明顯的聚集情況。其中有一些較為離散的點是因為嫌疑人經(jīng)常換手機,該手機號的話單數(shù)量較少,最終導致離群的現(xiàn)象。

        接下來,采用k-Means聚類算法(center=5)對上述數(shù)據(jù)進行聚類,然后進行降維來實現(xiàn)可視化,得到的結果如圖2所示。

        圖2 降維可視化效果圖

        由圖可以看出聚類得到的類別劃分較為顯著,重點人都在同一簇內(nèi)。這一現(xiàn)象再次說明我們的特征模型是合理的。

        4.3 實驗結果

        對數(shù)據(jù)進行處理后,使用推薦模型進行計算IC,對IC進行排序,選出IC較大的作為推薦對象,處理得到的結果如圖3所示。

        圖3 推薦結果圖

        圖中xx標注的點即為模型推薦的排名前50的對象。可以看出它們聚集現(xiàn)象明顯。

        推薦的結果中,已知重點對象基本都在名單里面。而通過后期調(diào)查,發(fā)現(xiàn)未知人員大部分都是涉案人員。這個結果說明我們的推薦模型是可靠的。

        推薦結果部分如表2所示(部分數(shù)據(jù)做了匿名化處理)。

        表2 推薦結果

        5 結語

        本文用圖嵌入的方法研究話單,圖嵌入把圖中的節(jié)點進行嵌入變成可計算的點,也就是把節(jié)點向量化。相較于以往的基于社交網(wǎng)絡的方法,圖嵌入的方法可以對向量化的數(shù)據(jù)進行建模分析。相對于以往的點和線的關系,圖嵌入的方法更加具體化,更能表達點與線的關系。

        通過將通話網(wǎng)絡中的點和關系向量化,從而讓將機器學習算法用于話單分析成為了可能。

        猜你喜歡
        話單通話記錄廣度
        河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實驗語音學初探
        追求思考的深度與廣度
        采用大數(shù)據(jù)技術的移動DPI關聯(lián)算法探索及實現(xiàn)
        電信科學(2017年12期)2018-01-08 05:35:46
        解釋
        不用解釋
        借助“微信電話本”實現(xiàn)無痕通話
        電腦迷(2015年12期)2015-04-29 23:22:51
        網(wǎng)絡在拓展學生閱讀廣度中的運用
        金融廣度:指標選擇與政策建議
        GSM-R移動交換機ASN.1話單的解碼
        GPRS按時長計費模塊的優(yōu)化與應用
        欧美成人猛片aaaaaaa| 国产呦系列呦交| 亚洲精品99久91在线| 国产嫩草av一区二区三区| 国产免费艾彩sm调教视频| 亚洲av无码一区二区三区网站| 99久久久无码国产精品动漫| 一区二区三区在线观看高清视频| 美女扒开腿露内裤免费看| 夫妇交换性三中文字幕| 精品久久久久久久无码| 国产亚洲精品日韩香蕉网| 全国一区二区三区女厕偷拍| 日韩欧美在线综合网另类| 国产影片中文字幕| 亚洲国产一区二区三区最新 | 亚洲人妻御姐中文字幕| 中文字幕一区二区三区四区五区| 成人免费一区二区三区| 国产免费久久精品99re丫y| 精品国产3p一区二区三区| 无码国产精成人午夜视频一区二区| 国产午夜无码片在线观看影院 | 国产精品国产三级国产AvkTV| 日日麻批免费高清视频| 熟妇熟女乱妇乱女网站| 亚洲va欧美va国产综合| 97碰碰碰人妻视频无码| 三级日韩视频在线观看| 丰满多毛的大隂户毛茸茸| 一本一本久久a久久精品| 亚洲一区二区不卡日韩| 久久九九精品国产av| 精品国产午夜理论片不卡| 午夜亚洲AV成人无码国产| 一区二区三区av资源网| 久久久久久自慰出白浆| 无码人妻精品一区二区三18禁 | 亚洲大胆视频在线观看| 女人的精水喷出来视频| 蜜桃成人无码区免费视频网站|