亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶通話行為的金融類電信網(wǎng)絡(luò)詐騙建模分析方法

        2021-09-09 07:08:58時鎮(zhèn)軍
        江蘇通信 2021年4期
        關(guān)鍵詞:話單通話號碼

        時鎮(zhèn)軍

        中國移動通信集團江蘇有限公司

        0 引言

        近年來,電信網(wǎng)絡(luò)詐騙案件高發(fā)多發(fā)。電信網(wǎng)絡(luò)詐騙是指通過電話、網(wǎng)絡(luò)和短信等方式,編造虛假信息,設(shè)置騙局,對受害人實施遠程、非接觸式詐騙,誘使受害人轉(zhuǎn)賬的犯罪行為,通常以冒充他人及仿冒、偽造各種合法外衣和形式的方式達到欺騙的目的。其中,貸款、代辦信用卡等金融類電信網(wǎng)絡(luò)詐騙案件在全部電信網(wǎng)絡(luò)詐騙案件中占比較高,且呈現(xiàn)高發(fā)態(tài)勢。本文提出一種對金融類詐騙案件涉案號碼的用戶通話行為特征提取分析和建模的方法。該方法利用大數(shù)據(jù)挖掘技術(shù)、AI機器學(xué)習(xí)/訓(xùn)練、大數(shù)據(jù)關(guān)聯(lián)分析等技術(shù),深度抽象行為特征和算法,構(gòu)建基于大數(shù)據(jù)分析的模型,并最終通過模型實現(xiàn)對用戶通話話單的自動化比對分析,及時將涉嫌進行金融類電信網(wǎng)絡(luò)詐騙號碼檢出和迅速處置,對降低用戶受到電信網(wǎng)絡(luò)詐騙的侵害、減少案發(fā)率有顯著效果。該模型結(jié)合專家經(jīng)驗和對數(shù)據(jù)的深度分析,對通話特征進行多維度采集,模型檢出效果更準確,同時降低誤判率。通過使用機器學(xué)習(xí)算法提升異常樣本的適應(yīng)性,模型生命周期更長,以應(yīng)對詐騙分子手段多變的特性。

        1 建模數(shù)據(jù)來源

        所有電話通信詐騙都會產(chǎn)生相應(yīng)的通話話單,因此從通話話單著手,對涉案號碼進行通話特征的提取分析是一種準確有效的建模分析方法。本文數(shù)據(jù)源主要包括信令話單(O域話單)、計費話單(B域話單)、B域用戶基本信息、其他數(shù)據(jù)(12321舉報平臺不良號碼信息、公安涉案不良號碼信息等)。

        本文通過提取用戶話單中的關(guān)鍵字段信息,結(jié)合金融類電信網(wǎng)絡(luò)詐騙涉案號碼話單的通話行為特征進行建模分析,并通過模型實現(xiàn)對疑似涉詐號碼的自動化檢出。同時結(jié)合12321平臺和公安方面接收到的新舉報金融類涉案號碼,不斷對模型進行迭代訓(xùn)練和調(diào)整,使得模型檢出效果不斷提升。

        2 建模分析方法

        2.1 模型構(gòu)建方法

        2.1.1 模型構(gòu)建流程

        電信網(wǎng)絡(luò)詐騙檢測模型從詐騙對抗的角度出發(fā),圍繞涉案詐騙分子的通話行為建立詐騙事件分析模型。建模采用機器學(xué)習(xí)和大數(shù)據(jù)分析方法,基于知識庫數(shù)據(jù)如黑白號碼、可疑號碼、可信號碼等特征數(shù)據(jù),對通話行為如號碼行為特征、號碼活躍特征、通話行為事件流特征、通話地域特征等進行分析,從而在海量通話話單中找出其中的疑似電信網(wǎng)絡(luò)詐騙號碼。

        模型構(gòu)建流程如下:

        (1)根據(jù)金融類電信網(wǎng)絡(luò)詐騙涉案舉報數(shù)據(jù),提取舉報當天及歷史多天內(nèi)的涉案號碼話單數(shù)據(jù),并對話單進行數(shù)據(jù)清洗;

        (2)從主對端占比、平均通話時長、撥打區(qū)域離散度、集中時間點、重復(fù)通話占比等維度統(tǒng)計涉案詐騙號碼的通話行為特征,排除詐騙樣本中表現(xiàn)行為與絕大部分樣本不一致的異常號碼;

        (3)對比分析正常用戶及涉案詐騙號碼的通話行為特征,并建立初篩條件;

        (4)基于已知的正常用戶及涉案詐騙樣本進行建模,并對模型在訓(xùn)練集和測試集的效果進行評估,測試模型在實際運行中對全量通過初篩的疑似號碼的檢測效果;

        (5)結(jié)合反饋結(jié)果,對模型誤判情況復(fù)盤分析,并結(jié)合新的涉案詐騙樣本進行模型調(diào)整和優(yōu)化。

        2.1.2 模型分析算法選擇

        電信網(wǎng)絡(luò)詐騙事件分析算法主要采用適用性優(yōu)良、精確度高、理論基礎(chǔ)佳、學(xué)術(shù)成果前沿的機器學(xué)習(xí)算法對通信行為模式挖掘和準確識別,常見的算法如邏輯回歸、隨機森林、支持向量機、樸素貝葉斯、梯度提升決策樹等。結(jié)合金融類電信網(wǎng)絡(luò)詐騙場景,本文選擇基于LightGBM(Light Gradient Boosting Machine)框架的梯度提升決策樹算法,用于金融類涉詐號碼的特征分析。LightGBM是一個實現(xiàn)GBDT算法的框架,該框架是一個梯度Boosting框架,使用基于學(xué)習(xí)算法的決策樹,具備更快的訓(xùn)練效率、低內(nèi)存使用、更高的準確率、支持并行化學(xué)習(xí)、可處理大規(guī)模數(shù)據(jù)等優(yōu)勢。

        基于LightGBM框架的梯度提升決策樹算法的實現(xiàn)流程:

        說明:d,通話號碼;f,通話特征;v,通話號碼和對應(yīng)通話特征的值;b,進行歸一化后的值;λ,梯度值;k,離散后的特征區(qū)間;h:累計值。

        (1)對所有特征進行分桶歸一化并計算初始梯度值,如圖1和圖2所示。

        圖1 對所有特征進行分桶歸一化

        圖2 計算初始梯度值

        (2)在訓(xùn)練決策樹計算切分點的增益時,LightGBM通過計算將樣本離散化為直方圖切割位置的增益即可,時間復(fù)雜度較低,因此在運算時間效率上有很大提升。如圖3所示。

        圖3 計算直方圖

        從直方圖獲得分裂增益,選取最佳分裂特征并計算分裂閾值。

        (3)建立根節(jié)點,根據(jù)最佳分裂特征、分裂閾值將樣本切分。如圖4所示。

        圖4 分裂閾值樣本切分

        (4)直方圖做差進一步提高效率,計算某一節(jié)點的葉節(jié)點的直方圖,可以通過將該節(jié)點的直方圖與另一子節(jié)點的直方圖做差得到,所以每次分裂只需計算分裂后樣本數(shù)較少的子節(jié)點的直方圖通過做差的方式獲得另一個子節(jié)點的直方圖,進一步提高效率。然后選取最佳分裂葉子、分裂特征、分裂閾值、切分樣本,直到達到葉子數(shù)目限制或者所有葉子不能分割,并最終更新當前每個樣本的輸出值。

        通過上述算法對正負樣本的特征進行學(xué)習(xí)訓(xùn)練,從而在面對海量特征時,有效將正常號碼和異常號碼特征進行區(qū)分,篩選出針對金融類詐騙的重要特征進行建模及模型優(yōu)化。經(jīng)過特征篩選最終可用于模型創(chuàng)建的較為重要的特征有61個,其中顯著特征有如下6個:某號碼在8天內(nèi)的對端號碼歸屬地的平均對端號碼數(shù)、當天通話總時長和歷史7天日均時長的差異倍數(shù)、當天主叫通話總時長、當天主叫小時的時均主叫時長、8天中有通話行為的最早那天的通話總時長、當天主叫號碼數(shù)在8天對端號碼數(shù)中的占比。

        2.2 金融類電信網(wǎng)絡(luò)詐騙模型顯著特征

        本次建模正樣本取自2021年1-3月集團下發(fā)的金融詐騙類公安舉報號碼,共計133個正樣本,負樣本來源為江蘇移動正常用戶號碼。通過提取正負樣本關(guān)聯(lián)號碼話單,對其通信特征進行歸納分析。金融類電信網(wǎng)絡(luò)詐騙號碼具備如下顯著通信行為特征,可以作為模型訓(xùn)練和金融類涉詐號碼檢出的重要依據(jù)。

        (1)某號碼在8天內(nèi)的對端號碼歸屬地的平均對端號碼數(shù)(normal:正常號碼,fraud:詐騙號碼)

        圖5展示了涉案號碼和正常用戶號碼在8天中的對端歸屬地的平均對端號碼數(shù)這一特征上的分布。涉案號碼在8天中的對端歸屬地的平均對端號碼數(shù)大部分是小于正常用戶號碼的,部分正常用戶8天里對端歸屬地的平均對端號碼數(shù)高達100,而涉案號碼8天里對端歸屬地的平均對端號碼數(shù)在5個左右。

        圖5 某號碼在8天內(nèi)的對端號碼歸屬地的平均對端號碼數(shù)

        (2)當天通話總時長和歷史7天日均時長的差異倍數(shù)

        圖6展示了涉案號碼和正常用戶號碼在當天通話總時長和歷史7天日均通話時長的差異倍數(shù)這一特征上的分布。涉案號碼的當天呼叫總時長和歷史7天日均通話時長的差異倍數(shù)呈兩級分化狀態(tài),且涉案號碼的差異倍數(shù)是大于絕大部分正常用戶號碼的。

        圖6 當天通話總時長和歷史7天日均時長的差異倍數(shù)

        (3)當天主叫通話的總時長

        圖7展示了涉案號碼和正常用戶號碼在當天作為主叫進行通話的總時長這一特征上的分布。涉案號碼的當天主叫通話總時長高于絕大部分正常用戶號碼,而正常用戶號碼的通話時長較短,并沒有那么活躍。

        圖7 當天主叫通話的總時長

        (4)當天主叫小時的時均主叫時長

        圖8展示了涉案號碼和正常用戶號碼在當天主叫小時的時均主叫時長這一特征上的分布。涉案號碼的主叫的時段相對更集中,每小時的總時長均值高于正常用戶號碼。

        圖8 當天主叫小時的時均主叫時長

        (5)8天中有通話行為的最早那天通話總時長

        圖9展示了涉案號碼和正常用戶號碼在8天中有通話行為的最早那天的通話總時長這一特征上的分布。涉案號碼8天中有通話行為的最早那天的通話總時長高于正常用戶號碼。

        圖9 8天中有通話行為的最早那天的通話總時長

        (6)當天主叫號碼數(shù)在8天對端號碼數(shù)中的占比

        圖10展示了涉案號碼和正常用戶號碼在當天主叫號碼數(shù)在8天對端號碼數(shù)中的占比這一特征上的分布。在該特征上,涉案號碼和正常用戶號碼剛好相反,涉案號碼當天主叫過的號碼占歷史8天內(nèi)對端號碼的比例較高,而正常用戶號碼的分布相對比較平均。

        圖10 當天主叫號碼數(shù)在8天對端號碼數(shù)中的占比

        3 用戶數(shù)據(jù)篩選規(guī)則

        3.1 用戶數(shù)據(jù)清洗

        為了確保分析數(shù)據(jù)的準確性,需要對原始話單數(shù)據(jù)進行加工處理,包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)關(guān)聯(lián),不規(guī)則數(shù)據(jù)需要進行數(shù)據(jù)補齊,滿足數(shù)據(jù)的完整性和一致性。數(shù)據(jù)清洗過程需要用到數(shù)據(jù)采集組件、數(shù)據(jù)預(yù)處理組件和大數(shù)據(jù)處理組件等。

        (1)數(shù)據(jù)采集組件采用分布式部署方式,能夠采集來自不同數(shù)據(jù)源的數(shù)據(jù),并傳輸至后續(xù)模塊或直接寫入分布式存儲。

        (2)數(shù)據(jù)預(yù)處理組件可實現(xiàn)按照一定的規(guī)則,對已采集的數(shù)據(jù)進行清洗,對無用的“臟數(shù)據(jù)”進行過濾;將不合理或者不滿足數(shù)據(jù)結(jié)構(gòu)要求的數(shù)據(jù),進行字段取值、字段類型等轉(zhuǎn)換,以滿足實際數(shù)據(jù)結(jié)構(gòu)要求。

        (3)大數(shù)據(jù)處理組件主要是對接大數(shù)據(jù)全域數(shù)據(jù)匯聚中心,完成數(shù)據(jù)清洗、轉(zhuǎn)換、過濾、壓縮、篩選、加密等處理與數(shù)據(jù)存儲等功能。

        3.2 基于基本通話行為特征數(shù)據(jù)篩選

        通過對金融類電信網(wǎng)絡(luò)詐騙涉案號碼歷史及當日通話話單進行提取分析,總結(jié)發(fā)現(xiàn)金融類電信網(wǎng)絡(luò)詐騙涉案號碼通話行為所具備的基本特征如下:(1)涉案號碼均有主動發(fā)起通話的行為;(2)涉案號碼前30天內(nèi)有通話記錄天數(shù)的比例小于45%;(3)涉案號碼開戶天數(shù)小于425天;(4)涉案號碼歷史7天內(nèi)每天通話總時長的均值小于等于1885秒;(5)涉案號碼當天通話漫游記錄在全天通話行為中的占比大于80%。

        由于全省每天都會產(chǎn)生億級通話話單,面對如此海量通話話單,必須要對采集的當日全部用戶話單通過大數(shù)據(jù)處理組件進行過濾篩選,將不符合上述基本特征的通話話單做過濾處理,從而縮小檢測范圍,提高檢出效率。

        3.3 基于異常通話特征數(shù)據(jù)篩選

        通過將金融類電信網(wǎng)絡(luò)詐騙涉案號碼通話行為特征和正常用戶通話行為特征進行比對分析,篩選出涉案號碼的異常通話行為特征。本文對異常通話特征提取采用四分位分析法。

        通過使用四分位分析法,研究發(fā)現(xiàn)金融類電信網(wǎng)絡(luò)詐騙涉案號碼的通話行為具有如下異常特征:

        (1)涉案號碼歷史8天通話中的對端號碼數(shù)異常

        通過對比涉案號碼和正常用戶號碼在8天內(nèi)通話中的對端號碼個數(shù)特征的四分位數(shù)值和極值,可以得出涉案號碼和正常用戶號碼在該特征上具有一定差異,即涉案號碼在8天內(nèi)通話中的對端號碼個數(shù)略高于正常用戶。

        (2)涉案號碼當日發(fā)起主叫的對端號碼個數(shù)異常

        通過對比涉案號碼和正常用戶號碼在當天發(fā)起主叫的對端號碼個數(shù)特征的四分位數(shù)值和極值,可以得出涉案號碼和正常用戶號碼在該特征上具有一定差異,即涉案號碼在當天發(fā)起主叫的對端號碼個數(shù)高于正常用戶。

        3.4 檢出號碼篩查過濾

        為了使模型在實際應(yīng)用中真正發(fā)揮作用,在完成金融類電信網(wǎng)絡(luò)詐騙模型建立后,需要在生產(chǎn)環(huán)境中進行部署。針對經(jīng)模型檢出的涉案號碼數(shù)據(jù),需要進行再次篩查過濾,以降低模型誤判的風(fēng)險。檢出號碼篩查過濾將遵循以下原則:(1)用戶所選套餐價格小于等于99元/月;(2)當天主叫歸屬于本端歸屬地和歸屬于本端所在地的占比均值小于0.1;(3)當天作為主叫發(fā)起通話的次數(shù)大于2;(4)多天內(nèi)均有所聯(lián)系的號碼數(shù)量的占比小于0.1;(5)若當天作為主叫發(fā)起通話的次數(shù)小于8,則當天作為主叫發(fā)起通話的連續(xù)時間占比要大于0.5;(6)若僅當天有話單,則當天通話涉及到的號碼數(shù)量(不區(qū)分主對端)大于等于8個。僅保留同時滿足上述條件的號碼作為疑似詐騙號碼作為最終檢出號碼。

        4 結(jié)束語

        本文利用大數(shù)據(jù)挖掘技術(shù)、AI機器學(xué)習(xí)技術(shù)、大數(shù)據(jù)關(guān)聯(lián)分析等技術(shù),深度抽象電信網(wǎng)絡(luò)詐騙涉案號碼通話行為特征和算法,建立基于大數(shù)據(jù)的分析機制,實現(xiàn)基于O域信令、B域話單和用戶信息等多數(shù)據(jù)源數(shù)據(jù)的清洗、整合、預(yù)處理,構(gòu)建基于用戶話單的金融類電信網(wǎng)絡(luò)詐騙疑似詐騙號碼篩選模型,并對模型持續(xù)校驗和迭代,從用戶行為、身份、卡號屬性等多個維度進行疑似詐騙的篩選,實現(xiàn)對金融類電信涉詐號碼及時預(yù)警和處置。模型經(jīng)部署實踐后,日均檢出疑似詐騙號碼約1500個,再經(jīng)人工核查處置,江蘇移動涉案號碼舉報率持續(xù)降低,由模型部署前的日均10個降至現(xiàn)今的日均3.6個,降幅明顯,效果良好,有效保障了用戶的經(jīng)濟財產(chǎn)免受電信網(wǎng)絡(luò)詐騙分子的侵害。后期將對模型持續(xù)迭代優(yōu)化,通過比較少的硬規(guī)則條件排除絕大多數(shù)正常用戶,通過單變量異常值進一步排除正常用戶,提高模型的泛化性與適應(yīng)性。

        猜你喜歡
        話單通話號碼
        河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實驗語音學(xué)初探
        說號碼 知顏色
        一個號碼,一個故事
        猜出新號碼
        《戊戌元日與友人通話》
        中華詩詞(2018年5期)2018-11-22 06:46:08
        采用大數(shù)據(jù)技術(shù)的移動DPI關(guān)聯(lián)算法探索及實現(xiàn)
        低成本視頻通話APP
        2013年11月通信業(yè)主要指標完成情況(一)
        這個號碼很吉祥
        小說月刊(2014年1期)2014-04-23 08:59:54
        GSM-R移動交換機ASN.1話單的解碼
        伊人色综合九久久天天蜜桃| 精品无码一区二区三区小说| 国产91第一页| 亚洲av一二三四五区在线| 国产亚洲精品视频一区二区三区| aa日韩免费精品视频一| 亚洲av无一区二区三区| 婷婷色香五月综合激激情| 99精产国品一二三产品香蕉| 国产91成人精品亚洲精品| 国产精品日本天堂| 免费高清日本一区二区| 偷拍综合在线视频二区日韩 | 亚洲色图视频在线播放| 夜夜高潮夜夜爽免费观看| 18禁免费无码无遮挡不卡网站| 久久久久无码精品国产app| 精品人妻无码一区二区色欲产成人| 国产乱色国产精品免费视频| 亲少妇摸少妇和少妇啪啪 | 性色做爰片在线观看ww| 国产成人精品无码播放| 久久中文字幕日韩无码视频| 日韩av中文字幕一卡二卡| 亚洲一区第二区三区四区| 婷婷综合另类小说色区| 一本色道久久88综合日韩精品| 亚洲另类精品无码专区| 久久久精品电影| 久久精品国产亚洲av一| 亚洲精品久久久久一区二区| 亚洲一区 日韩精品 中文字幕 | 中文字幕一区二区在线看| 日本一区二区三区人妻| 娜娜麻豆国产电影| 国产在线无码制服丝袜无码| 亚洲午夜福利精品久久| 在线日韩中文字幕乱码视频| 91成人自拍在线观看| 亚洲日产精品一二三四区| 最新精品国偷自产在线婷婷|