劉卉芳
(中國聯(lián)通廣東分公司,廣東 廣州 510627)
近年來,我國通訊詐騙案件每年以20%~30%的速度快速增長,2013年至今,全國共發(fā)生千萬元以上的電信詐騙案件94起,百萬元以上的案件2085起。通信信息詐騙已經成為信息社會久治不愈的頑疾,嚴重危害公眾的財產安全和社會的誠信體系,同時對運營商的企業(yè)形象產生負面的影響。要想有效治理通信信息詐騙,運營商的主動介入是其中不可或缺的環(huán)節(jié),從源頭上進行治理,將通信信息詐騙攔截在發(fā)生之前,可以幫助有效減少通信信息詐騙。對欺詐用戶和過度營銷用戶的識別是運營商介入的首要前提條件。因此,本文提出一個反欺詐模型,通過運營商大數(shù)據(jù)分析和機器學習算法,對電信欺詐用戶和過度營銷用戶進行甄別。模型上線以來,日均輸出移網疑似詐騙用戶2000左右,模型查準率可達95%以上,12321網站投訴量較應用上線前下降150%,模型應用效果顯著。
在現(xiàn)有的研究中,電信反欺詐模型以業(yè)務經驗規(guī)則居多[1,2]。其中,韓利強[3]通過對用戶短時間內撥打連續(xù)號段號碼個數(shù)超限等作為判斷條件進行識別,利用相應監(jiān)控識別系統(tǒng)對騷擾電話進行攔截;石強[5]通過手機號前2位,手機號前3位,歸屬運營商及省分地市等特征進行多維度組合分析,得到欺詐用戶的明顯特征,用于反欺詐模型的建立。但是,以上研究僅從用戶號碼及呼叫行為進行識別,數(shù)據(jù)源類型較為單一,這可能會導致模型的識別精度下降[6]。
另外,在近幾年的研究中,機器學習算法被廣泛應用于反欺詐場景。在電信領域,李夢琳[7]通過構建決策樹模型匯總了詐騙用戶的分類規(guī)則,并且結合實際情況,給出了運營商關于電話詐騙的防治建議。在決策樹的基礎上,吳錫松等人[8]使用隨機森林算法進一步提升模型精確度。在金融領域,仵偉強等人[9]以及吳駿一[10]將邏輯回歸算法應用于金融欺詐識別領域,取得較好的工程應用效果。
本文基于上述研究,提出一個基于電信用戶大數(shù)據(jù)的電信反欺詐模型。主要貢獻在于:
(1)利用運營商大數(shù)據(jù)優(yōu)勢,在使用常規(guī)用戶通話數(shù)據(jù)基礎上,引入用戶流量使用、位置信息、終端數(shù)據(jù)等多域數(shù)據(jù)源,綜合評估選取建模因子。
(2)在關聯(lián)分析的基礎上,通過邏輯回歸算法構建詐騙用戶識別規(guī)則,并結合兩者的結果,提升模型精準度。
(3)由于詐騙用戶數(shù)量遠小于正常用戶,正負樣本比例極端不平衡。本文使用360對判別結果進行驗證,將打標為“騷擾/詐騙”的用戶加入模型正樣本中,豐富正樣本數(shù)量,并通過反復迭代提升模型性能。
本節(jié)詳細介紹了特征選擇及數(shù)據(jù)處理流程。主要包括:基于業(yè)務知識篩選詐騙用戶相關因子;對數(shù)據(jù)集進行預處理,清除臟數(shù)據(jù);對數(shù)據(jù)集進行欠采樣以消除極端不平衡數(shù)據(jù)的影響;對特征進行關聯(lián)分析,提取重要特征及關聯(lián)規(guī)則。
結合地市分公司業(yè)務經驗以及初步數(shù)據(jù)統(tǒng)計的判斷分析表明,一般涉詐號碼會有以下幾種異常行為及特征:首先,涉詐號碼的流量使用異常,具體表現(xiàn)為詐騙號碼流量使用的天數(shù)較少,且多為零流量用戶。其次,涉詐號碼的通話行為異常,表現(xiàn)為涉詐號碼主叫地點比較集中,交互基站少且位置集中。涉詐號碼的漫游通話記錄也有著聚集性的特點,另外,漫游詐騙用戶往往有著不詐騙該漫游地用戶的特點,如長期漫游在茂名的詐騙用戶詐騙時撥打歸屬地為茂名的用戶較少。并且涉詐號碼的呼叫頻率較高,表現(xiàn)為單位時間內撥打用戶數(shù)多,撥打重復號碼極少、并且與之交互的號碼也極少。最后,由于被叫用戶在識破詐騙分子后,涉詐方往往會盡快掛斷電話,因此涉詐號碼有著平均通話時間較短的特點。
據(jù)此,初步確定以下五個行為因子,分別為位置特征(如主叫通話常在地區(qū)、使用基站數(shù)量等)、交往圈特征、通話特征(如主叫通話次數(shù)、被叫通話次數(shù)、主叫呼叫次數(shù)等)、終端特征和流量特征。
為了防止模型過度擬合,也為了提高關鍵因子的重要度,需要對因子進行降維處理,故將某些原始因子進行轉換,生成一些衍生因子,如:主被叫占比=被叫通話次數(shù)/主叫通話次數(shù)、主叫接通率=主叫通話次數(shù)/主叫呼叫次數(shù)、主叫重復撥打率=對端號碼個數(shù)/總通話次數(shù)。
此外,需要對空值和存在邏輯問題的數(shù)據(jù)進行處理,例如將空值轉0、提出存在邏輯問題的數(shù)據(jù)等。
由于本次模型訓練中正樣本用戶僅占總用戶數(shù)的萬分之0.033,正負樣本極端不平衡。當遇到不平衡數(shù)據(jù)時,以總體分類準確率為學習目標的傳統(tǒng)分類算法會過多地關注多數(shù)類,從而使得少數(shù)類樣本的分類性能下降。絕大多數(shù)常見的機器學習算法對于不平衡數(shù)據(jù)集都不能很好地工作。因此,本文對正樣本進行欠抽樣,從負樣本中刪除屬于多數(shù)類別的樣本,使正負樣本比例達到1:1。
通過分析數(shù)據(jù),可以將用戶特征提取為如下幾類:
(1)欺詐電話的呼叫次數(shù)
圖2和圖3的橫軸表示號碼主叫呼叫次數(shù),縱軸為該呼叫次數(shù)的號碼統(tǒng)計人數(shù)。從中我們可以看出,非被投訴號碼主叫呼叫次數(shù)基本上都在20次以內,而被投訴號碼的呼叫次數(shù)更偏向高頻呼叫。
圖2 被投訴號碼主叫呼叫次數(shù)分布圖
圖3 非被投訴號碼主叫呼叫次數(shù)分布圖
(2)欺詐電話信令對端號碼個數(shù)
圖4和圖5分別顯示了被投訴號碼信令對端和非被投訴號碼信令對端的號碼個數(shù)統(tǒng)計特征,其中非被投訴號碼信令對端號碼個數(shù)基本在20個以內,而被投訴號碼的信令對端號碼個數(shù)大多數(shù)在40個以上。
圖4 被投訴號碼信令對端號碼個數(shù)分布圖
圖5 非被投訴號碼信令對端號碼個數(shù)圖
(3)欺詐電話信令使用基站數(shù)
圖6和圖7顯示了被投訴號碼信令使用基站和非被投訴號碼信令使用基站的個數(shù)統(tǒng)計,可以看到,被投訴號碼的信令使用基站數(shù)基本上都在20個以內。
圖6 被投訴號碼信令使用基站數(shù)分布圖
圖7 非投訴號碼信令使用基站數(shù)分布圖
(4)欺詐電話的通話次數(shù)
圖8和圖9分別顯示了被投訴號碼和非被投訴號碼的通話次數(shù)統(tǒng)計,其中非被投訴號碼的通話次數(shù)基本在20個以內,而被投訴號碼的通話次數(shù)傾向于高頻通話。
圖8 被投訴號碼通話次數(shù)分布圖
圖9 非投訴號碼通話次數(shù)分布圖
(5)欺詐漫游用戶呼叫非漫游地號碼次數(shù)
圖10和圖11分別顯示了被投訴號碼和非被投訴號碼呼叫非漫游地號碼的次數(shù)??梢钥吹?,非被投訴號碼漫游用戶呼叫非漫游地號碼次數(shù)基本都在10次以內,而被投訴號碼漫游用戶呼叫非漫游地號碼次數(shù)基本都在20次以上。
圖1 反欺詐模型構建流程
圖10 被投訴號碼漫游用戶呼叫非漫游地號碼次數(shù)
圖11 非被投訴號碼漫游用戶呼叫非漫游地號碼次數(shù)
(6)欺詐電話詳單對端號碼個數(shù)
從圖12和圖13中可以看到,非被投訴號碼對端號碼個數(shù)基本上都在10個以內,而被投訴號碼對端號碼個數(shù)基本上都在20個以上。
圖12 被投訴號碼對端號碼個數(shù)
圖13 非被投訴號碼對端號碼個數(shù)
(7)欺詐電話主被叫占比
圖14和圖15分別顯示了被投訴號碼和非被投訴號碼呼叫非漫游地號碼的主被叫次數(shù)。被投訴號碼主被叫占比基本在0.15以內,非被投訴號碼主被叫占比則無明顯特征。
圖14 被投訴號碼主被叫占比分布圖
圖15 非投訴號碼主被叫占比分布圖
(8)欺詐電話撥打不同號碼率
從圖16和圖17中可以看到,被投訴號碼撥打不同號碼率基本在0.9以上,非被投訴號碼撥打不同號碼率沒有明顯特征。
圖16 被訴號碼撥打不同號碼率分布圖
圖17 非被訴號碼撥打不同號碼率分布圖
基于上一節(jié)的分析,可以得知主叫通話次數(shù)、對端號碼個數(shù)、信令使用基站數(shù)、漫游用戶呼叫非漫游地號碼次數(shù)、同一號碼更換終端次數(shù)、流量、主叫接通率、主被叫占比、撥打不同號碼率這些特征對識別欺詐用戶有較高的區(qū)分能力。因此,基于這些特征作為輸入,訓練詐騙用戶識別模型。另外,根據(jù)業(yè)務部門經驗,茂名市電白區(qū)某幾個村是電信詐騙分子集中地,因此在模型擬合用戶特征時,將茂名市用戶單獨建模。具體建模過程如下:
首先,通過上述特征分析,將三個子模型用到的主叫通話次數(shù)、對端號碼個數(shù)、信令使用基站數(shù)、漫游用戶呼叫非漫游地號碼次數(shù)、同一號碼更換終端次數(shù)、流量、主叫接通率、主被叫占比、撥打不同號碼率等因子作為輸入因子導入模型,使用邏輯回歸算法訓練模型,將特征系數(shù)進行標準化,得到三個子模型的因子重要性如圖18,19,20所示。
圖18 漫游到茂名子模型因子權重圖
其次,利用邏輯回歸算法,使用最大似然估計,估算相關系數(shù)。針對上述漫游到茂名、省內欺詐、省外欺詐三種情況進行模型訓練,分別得到回歸方程f1、f2和f3如下:
f1=0.1447×主叫呼叫次數(shù)-0.1423×信令對端號碼個數(shù)
-0.0974×信令使用基站數(shù)-11.19×同一號碼換終端次數(shù)
+0.1415×漫游用戶呼叫非漫游地號碼次數(shù)-0.0000001987
×流量-1.411×主叫接通率-1.875×主被叫占比+0.247
×撥打不同號碼率-3.103
f2=-0.7316×同一號碼換終端次數(shù)+0.00000000003203
×流量+0.06849×主叫呼叫次數(shù)-0.0008352
×信令對端號碼個數(shù)-0.02053×信令使用基站數(shù)+0.7791
×主叫接通率+0.05728×主被叫占比-2.811
×撥打不同號碼率+0.005241×被叫通話次數(shù)-0.5864
f3=-0.4707×同一號碼換終端次數(shù)-0.2152×主叫通話次數(shù)
+0.02281×被叫通話次數(shù)+0.2496
×漫游用戶呼叫非漫游地號碼次數(shù)+0.3004
×對端號碼個數(shù)-0.00000001255×流量+0.1705
×主被叫占比-3.664×撥打不同號碼率-2.359
隨后,我們建立計算函數(shù)p,p的表達式如下所示:
其中:i=1,2,3,分別代表漫游到茂名、省內欺詐、省外欺詐三種情況。并對不同的詐騙情況使用fi進行計算,并代入函數(shù)p中得到判斷因子。
圖19 省內欺詐子模型因子權重圖
圖20 省外欺詐子模型因子權重圖
最終,結合關聯(lián)規(guī)則和上述訓練好的邏輯回歸公式,判斷用戶是否為欺詐用戶:
(1)對于漫游到茂名情況,取p>=0.9為疑似欺詐用戶,或主叫接通率≤0.18且信令對端號碼個數(shù)≥43且信令使用基站數(shù)≤20,或主叫呼叫次數(shù)≥65且漫游用戶呼叫非漫游地號碼次數(shù)≥29且信令對端號碼個數(shù)≥43且信令使用基站數(shù)≤20,或主叫呼叫次數(shù)≥65且主被叫占比≤0.0625且信令使用基站數(shù)≤20,或主叫呼叫次數(shù)≥65且撥打不同號碼率≥0.91且信令使用基站數(shù)≤20,或漫游用戶呼叫非漫游地號碼次數(shù)≥29且主叫接通率≤0.18且信令使用基站數(shù)≤20,或漫游用戶呼叫非漫游地號碼次數(shù)≥29且主被叫占比≤0.0625且流量為0,或漫游用戶呼叫非漫游地號碼次數(shù)≥29且撥打不同號碼率≥0.91。
(2)對于省內欺詐和省外欺詐的情況,均取p=1為疑似欺詐用戶。
(1)數(shù)據(jù)輸出
根據(jù)上述規(guī)則輸出模型數(shù)據(jù),對于7、8月被投訴號碼查全率:漫游到茂名:96.9%,省內:67.8%,漫游到省外:33.8%。
每日輸出數(shù)據(jù)量如表1所示。
表1 反欺詐日模型輸出數(shù)據(jù)量
(2)自核驗方法
針對業(yè)務部門反饋的模型結果難以核驗的問題,引入360標記驗證模型的準確性。如圖21所示。
圖21 反欺詐模型部署圖
圖21 爬蟲邏輯圖(360平臺標記驗證)
利用12321平臺中被投訴詐騙的號碼歷史數(shù)據(jù),分別在360、百度、搜狗三家網絡平臺查詢號碼的標記情況。結果發(fā)現(xiàn),在12321平臺中被投訴的惡意號碼與360的號碼標記庫匹配率較高,也就是說,這批惡意號碼在360平臺號碼標記庫中標記為非正常號碼的比率大于其余兩家平臺的標記比率。綜合考慮,我們決定在防電信詐騙模型當中加入360平臺號碼標記情況作為篩選條件,利用互聯(lián)網公信力作為參考,使得模型更能準確地判斷疑似號碼的類型以及惡意程度。
經測試,360平臺目前對號碼的標記類型主要有:詐騙電話、廣告推銷、房產中介、騷擾電話、快遞送餐、招聘獵頭、響一聲電話、保險理財、出租車。其中:詐騙電話、騷擾電話以及響一聲電話是影響最為惡劣,是投訴高發(fā)風險號碼;保險理財、廣告推銷、房產中介類,存在被投訴騷擾的風險。
因為被投訴號碼只是欺詐用戶的一部分,所以用360標記用戶核驗模型的查準率,核驗查準率:漫游到茂名:25.8%,省內:92.1%,漫游到省外:96.8%。
本文提供的欺詐用戶識別模型,如圖22所示,已應用于“電信欺詐用戶智能識別”應用。該應用包括:數(shù)據(jù)抽取、數(shù)據(jù)加工、模型規(guī)則加工、每日調度、輸出模型數(shù)據(jù)、數(shù)據(jù)展示。在實際應用中,監(jiān)控人員可以通過反欺詐監(jiān)控平臺獲取廣東省整體反欺詐情況,并通過下載具體疑似詐騙號碼,在核驗后進行關停操作。
“電信欺詐用戶智能識別”應用上線以來,日均輸出移網疑似詐騙用戶2000左右,模型查準率可達95%以上。累計監(jiān)控可疑電信欺詐用戶上千萬,并對上萬級的高危涉詐用戶進行關停處置,對百萬級的過度營銷用戶進行警告并給出轉集團專屬號段建議。12321網站投訴量較應用上線前下降150%,模型應用效果顯著。該項應用實踐后,通過客服勸阻成功的電信欺詐受害者共計1300戶,共挽回財產損失約1000萬左右。
針對日益嚴重的通信欺詐行為,運營商防控任務艱巨。本文通過分析詐騙號碼的特征,結合實際情況選取相關的特征因子,采用邏輯回歸和關聯(lián)分析訓練樣本,對測試樣本進行分類,通過迭代訓練不斷提高分類器的精準度,建立了電信防欺詐模型,取得了較高的查全和查準結果。降低了詐騙號碼誤判率,可以有效減少員工的工作量,在實際應用中取得了良好的效果。此外,在反欺詐防控過程中,因為算法精度可能存在部分用戶號碼偏差,更復雜的數(shù)據(jù)類型也會導致部分用戶滿意度下降。因此,未來可在以下兩方面進一步提高反欺詐模型的精度:(1)不斷迭代模型適應不斷變化的欺詐場景;(2)嘗試通過孤立森林、GBDT等算法進一步調優(yōu)模型。