(中國移動通信集團上海有限公司,上海 200060)
基于大數(shù)據(jù)的通信信息詐騙治理模式研究
羅漢斌,薛崢
(中國移動通信集團上海有限公司,上海 200060)
鑒于當前通信信息詐騙形勢嚴峻,需要提供行之有效的治理模式,通過建立基于大數(shù)據(jù)挖掘分析的治理平臺,研究分析各類詐騙電話特征,建立有效的分析模型,實現(xiàn)對通信信息詐騙有效治理。
詐騙電話;號碼資源庫;行為分析
近年來欺詐電話在整個騷擾詐騙類電話的比例逐年上升,且危害程度遠遠大于普通的騷擾電話。
根據(jù)互聯(lián)網(wǎng)公司、公安部門統(tǒng)計數(shù)據(jù)顯示2015年詐騙電話超過3億次,電信詐騙發(fā)案59萬余起,涉案金額222億元。境內(nèi)單案件平均損失為1.85萬元,境外案件平均損失為11.12萬元;跨境電話詐騙形式呈現(xiàn)案件數(shù)量快速增長,單案件平均損失大的趨勢。
2015年,上海因電信詐騙犯罪導致群眾經(jīng)濟損失15.1億元。全市共破獲電信詐騙案件4209起,同比上升64.8%;抓獲犯罪嫌疑人1393名,同比上升20.2%;搗毀平臺、窩點共計197個,同比上升18.7%。但是,電信詐騙案的破案率和贓款追回率卻極低。
鑒于目前的形勢,中國移動上海公司項目組開展了基于大數(shù)據(jù)的通信信息詐騙治理模式研究與應用試點工作,主要包括以下幾方面工作。
充分利用內(nèi)外部資源優(yōu)勢,建立相關(guān)數(shù)據(jù)資源庫,完善并豐富違規(guī)電話應用場景,以用于違規(guī)電話建模及治理;圍繞違規(guī)電話治理,主要開展基于主被叫號碼的機器學習、以及基于被叫號碼的詐騙事件場景模型研究與試點,并做好違規(guī)電話號碼的驗證,以及可視化呈現(xiàn)等工作;梳理通信信息詐騙整體流程分析,基于海量信令數(shù)據(jù),結(jié)合公安、互聯(lián)網(wǎng)等相關(guān)數(shù)據(jù),實施等多環(huán)節(jié)聯(lián)動分析。
為實現(xiàn)研究與試點工作的相關(guān)內(nèi)容,項目組制定了如下具體的項目目標:
建立完善敏感號碼庫及黑名單庫,通過搜集整理分析,獲取并建立基于公檢法號碼、銀行客服、運營商客服、電商號碼的敏感號碼庫,通過系統(tǒng)分析公安等反饋建立黑名單號碼庫。
欺詐電話識別提高精準度,疑似欺詐電話識別如何驗證,并通過驗證的結(jié)果改進識別方法和手段。同時分析定位出危害性高的欺詐電話作為重點打擊對象尤為必要。
理清欺詐流程,便于有效治理,欺詐分子在實施欺詐過程中,往往采用預先編輯好的欺詐劇本,逐步誘騙用戶上當,且劇本往往隨著外界事件環(huán)境變化和時間的推移而發(fā)生變化,需要采用有效的方法,識別出其欺詐流程,根據(jù)欺詐所發(fā)生的不同階段采用對應的手段加以治理。
3.1 號碼資源庫研究
在各類欺詐電話中,仿冒類欺詐電話往往占有比較大的比例,且此類電話一旦用戶上當,往往損失慘重。在詐騙過程中,此類欺詐電話一般都會涉及到仿冒公安、銀行、客服的情況,因此針對此類號碼建立號碼資源庫,對后續(xù)的數(shù)據(jù)分析會起到很大的幫助。項目組將號碼資源庫劃分為兩大類,分別是黑名單號碼庫以及敏感號碼庫。
3.1.1 黑名單庫
黑名單號碼是已經(jīng)經(jīng)過確認存在欺詐呼叫行為的號碼。涉及仿冒各省市公安局、派出所號碼,仿冒各類電商、銀行、證券公司客服號碼,冒充各類警官、銀行工作人員等手機號碼。
3.1.1.1 特征及來源
黑名單號碼,包含各類已被確認的欺詐號碼,同時根據(jù)黑名單號碼的危害程度,將黑名單號碼建立欺詐級別加以區(qū)分。黑名單號碼的認定主要包括以下來源:公安提供的涉案號碼;互聯(lián)網(wǎng)公司確認的涉及欺詐的號碼;系統(tǒng)識別并經(jīng)過公安反饋確認的號碼。
3.1.1.2 黑名單號碼庫的優(yōu)缺點
通過對黑名單號碼庫在實際分析中的應用,項目組發(fā)現(xiàn),黑名單號碼庫房具有明顯的優(yōu)缺點。
優(yōu)點:識別效率高,僅需將待查信令數(shù)據(jù)與黑名單號碼進行簡單比對,即可確認是否為欺詐呼叫,操作簡單;且一點號碼被標記,對于假冒警察、銀行工作人員等有可能不具備其他欺詐特征的號碼也能高效識別。
缺點1:生命周期短,此類欺詐使用的主叫號碼一般生命周期都非常短,絕大部分欺詐號碼活躍周期較短,超過90%的號碼僅活躍1-5天,僅有個別號碼,其活躍周期達到10天以上。說明欺詐分子在實施欺詐的過程中,為了逃避管控,選擇在很短的時間內(nèi)更換號碼的的方式,因此高效的抓取號碼特征,可以迅速分析、有效篩出不斷變化的號碼。
缺點2:號碼容易變異,黑名單號碼庫目前主要包括兩大類,仿冒類號碼及普通的手機號碼,其中僅有用于冒充警官、銀行工作人員等等的手機號碼,基本不存在變異情況,其他仿冒類號碼很容易出現(xiàn)變異情況, 該號碼一旦變異,其黑名單號碼本身就失去了比對的意義。
鑒于上述缺點的存在,僅僅基于黑名單庫進行號碼特征分析以及詐騙治理模式研究勢必存在很大的局限性,為解決這種局限性,項目組引入了敏感號碼庫做黑名單號碼庫的必要補充。
3.1.2 敏感號碼庫
3.1.2.1 敏感號碼庫建立的機制
項目組針對敏感號碼采用模糊匹配方式,通過此方法可有效的解決號碼變異快和生命周期短的問題。而實現(xiàn)模糊匹配的基礎即需要一個全面的基礎敏感號碼庫作為模糊匹配模板。
3.1.2.2 敏感號碼分類
為了便于后續(xù)模型建立,項目組將敏感號碼依據(jù)其特征,進行分類,劃分為公檢法號碼類、金融號碼類、運營商號碼類、電商號碼類以及其他公眾號碼類等多個類型。
公檢法號碼:包括110、公安局、檢察院、法院、派出所等職能部門號碼。
金融號碼:包括各大銀行5位客服號碼,信用卡中心,證券基金公司等對外提供客戶服務的相關(guān)號碼。
運營商號碼:包括移動、聯(lián)通、電信客服號碼、充值平臺號碼以及其他對外提供服務的相關(guān)號碼。
電商號碼:包括阿里、騰訊、京東等對外提供服務的號碼。
其他公眾號碼:包括社保、醫(yī)保、各類保險公司、電力、燃氣等相關(guān)部門對外提供服務的號碼。
3.2 治理模型研究
3.2.1 基于敏感號碼庫的分析模型
3.2.1.1 模型建立依據(jù)
敏感號碼庫的模型主要應用于主叫號碼變異,修改的情況,此類呼叫主叫號碼進行了偽裝,顯示為(或接近)公檢法、客服等公眾號碼,使得被叫容易上當受騙;為了躲避現(xiàn)網(wǎng)系統(tǒng)的防范,犯罪分子往往對相關(guān)號碼進行修改與變異,增加其隱蔽性。為識別此類呼叫,項目組采用主叫號碼與敏感號碼及黑名單號碼庫模糊匹配的方式進行識別。
3.2.1.2 基于敏感號碼庫的模糊匹配分析模型建立流程
該流程主要通過對信令數(shù)據(jù)中主被叫號碼與敏感號碼庫中的號碼進行模糊匹配計算獲得匹配度,并根據(jù)匹配度確定號碼的欺詐可能性。具體匹配方式如下:
號碼匹配比對:系統(tǒng)將呼叫記錄的主叫號碼分別與敏感號碼庫和黑名單號碼庫中的號碼進行匹配。
匹配度計算:考慮到欺詐號碼的偽裝性及變異性,在進行匹配時不是簡單進行全號碼匹配,而是對號碼進行模糊匹配并進行匹配度計算,對號碼相對應的每一位的匹配程度進行累加,匹配度越高的號碼,其欺詐可能性也越高。
變異度計算:對于個別號碼位置發(fā)生移位和變異的主叫號碼,也能夠標記出來,即通過變異度匹配計算公式,計算出號碼的變異程度。
特征評估:根據(jù)匹配度及變異度建立號碼分級,達到高匹配度的即認為疑似欺詐號碼,因此通過此方法可以有效的識別出各類變異欺詐號碼,提供系統(tǒng)的準確率和覆蓋率。
3.2.1.3 匹配度計算
模糊匹配模型準確性的基礎是基于敏感號碼庫的匹配度計算,即通過公式算法計算出目標號碼與敏感號碼的差異情況,作為是否為欺詐號碼的判別標準之一。
本次研究對于號碼匹配度計算主要運用了以下算法。
Karp-Rabin(KR)算法:利用hash函數(shù)的特性進行字符串匹配的。 KR算法對模式串和循環(huán)中每一次要匹配的子串按一定的hash函數(shù)求值,如果hash值相同,才進一步比較這兩個串是否真正相等。
Horspool算法:將主串中匹配窗口的最后一個字符跟模式串中的最后一個字符比較。如果相等,繼續(xù)從后向前對主串和模式串進行比較,直到完全相等或者在某個字符處不匹配為止(如圖1中的α與σ失配) 。如果不匹配,則根據(jù)主串匹配窗口中的最后一個字符β在模式串中的下一個出現(xiàn)位置將窗口向右移動。
圖1 Horspool算法示意圖
基于以上匹配度算法,項目組確立了如下的匹配度范圍:
全匹配計算(高匹配) :判斷目標號碼是否與敏感號碼所有位置完全匹配。
尾匹配計算(高匹配):判斷目標號碼是否尾部與敏感號碼匹配,頭部不計算。
中間匹配計算(中匹配) :判斷目標號碼是否中間部分與敏感號碼匹配,頭部和尾部不計算。
變異匹配計算(高匹配) :判斷目標號碼是否通過去位可以與敏感號碼匹配。
變異+尾部匹配計算(中高匹配) :判斷目標號碼尾部是否通過去位可以與敏感號碼匹配。
變異+中部匹配計算(中匹配) :判斷目標號碼中部是否通過去位可以與敏感號碼匹配。
圖2為模糊化匹配示例。
3.2.2 基于欺詐流程的關(guān)聯(lián)度分析模型
3.2.2.1 模型建立依據(jù)
從海量系統(tǒng)數(shù)據(jù)分析以及公安相關(guān)報案涉案號碼上可以看出,欺詐電話基本都不是孤立存在的,在大量的電信詐騙案件中,往往一個被叫號碼(被騙用戶)會涉及到1個以上的主叫號碼(欺詐號碼),而這些欺詐號碼又會涉及到更多其他被叫號碼。
就詐騙流程上講,對公安報案數(shù)據(jù)進行分析,一般涉及到“透支”、“洗錢”的詐騙,會遵循派出所、警官、銀行、警官等來電的流程;涉及到“快遞”、 “中獎”的詐騙,會遵循快遞客服、電商、銀行等來電的流程,即詐騙過程涉及多次通話。因此,項目組判定詐騙電話基本不是孤立存在的,在大量的電信詐騙案件中,被害用戶在被騙過程中,一般都會涉及到多個主叫號碼(詐騙號碼)的呼入,而這些詐騙號碼又會扮演不同的“角色”。
圖2 模糊化匹配示例
此外,就詐騙者本身而言,也不會僅針對單個用戶進行欺詐,而是采取廣撒網(wǎng)的方式,即同一個詐騙號碼會涉及多個被叫用戶。
鑒于圖3中展現(xiàn)的欺詐流程單一被叫(被騙用戶)涉及多個主叫號碼以及單一主叫(欺詐號碼)涉及多個被叫的特征,項目組認為建立一套欺詐流程的關(guān)聯(lián)度分析模型尤為必要。其中,建模依據(jù)來自公安等反饋的案例信息以及海量數(shù)據(jù)分析形成的特征樣本。
3.2.2.2 欺詐流程關(guān)聯(lián)分析模型的建立流程
欺詐流程關(guān)聯(lián)分析模型的建立流程如下:
(1)被叫號碼呼叫提?。合到y(tǒng)根據(jù)模糊匹配模型篩選出對應的被叫號碼,將該被叫號碼在周期內(nèi)全量呼叫信息從原始信令數(shù)據(jù)中提取處理;
(2) 呼叫關(guān)聯(lián)分析:通過聚類分析及交叉關(guān)聯(lián)分析關(guān)聯(lián)相關(guān)主叫號碼;
(3) 欺詐流程模型匹配:結(jié)合關(guān)聯(lián)后主叫號碼與欺詐流程模型進行匹配;
(4) 關(guān)聯(lián)評估:根據(jù)匹配程度,判斷是否存在欺詐可能。
3.2.2.3 欺詐流程關(guān)聯(lián)分析算法FP增長算法
欺詐流程關(guān)聯(lián)分析模型建立的關(guān)鍵是關(guān)聯(lián)分析,即如何從多樣的欺詐案例中查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。本次研究主要采用了FP增長算法以實現(xiàn)相關(guān)需求。
FP增長算法原理是將事務數(shù)據(jù)表中的各個事務數(shù)據(jù)項按照支持度排序后,把每個事務中的數(shù)據(jù)項按降序依次插入到一棵以NULL為根結(jié)點的樹中,同時在每個結(jié)點處記錄該結(jié)點出現(xiàn)的支持度。建立 FPTree樹之后,再遍歷整棵樹獲取滿足一定置信度的關(guān)聯(lián)規(guī)則。
在實際建模過程中,項目組將大量欺詐案例作為分析事務,并根據(jù)涉案內(nèi)容將類似案件劃分相同的事務集合,同時將涉案環(huán)節(jié)提取出作為事務項,利用算法,計算支持度和置信度,從而發(fā)掘頻繁項集。
圖3 詐騙流程示例
3.2.2.4 欺詐流程關(guān)聯(lián)算法(聚類算法) k-means算法
通過對大量欺詐電話大數(shù)據(jù)分析研究發(fā)現(xiàn),欺詐電話在行為上往往具備其獨有的特征,通過聚類分析方法可以抽象出其同質(zhì)性及區(qū)別與普通呼叫的異質(zhì)性,從而獲得欺詐電話的特征性描述。
k-means算法原理:接受輸入量k;然后將n個數(shù)據(jù)對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的。
k-means 算法基本步驟如下:
(1) 從n個數(shù)據(jù)對象任意選擇k個對象作為初始聚類中心;
(2) 根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據(jù)最小距離重新對相應對象進行劃分;
(3) 重新計算每個(有變化)聚類的均值(中心對象);
(4) 計算標準測度函數(shù),當滿足一定條件,如函數(shù)收斂時,則算法終止;如果條件不滿足則回到步驟(2)。
項目組提取了主叫號碼原始信令數(shù)據(jù)集合X1-Xn的相關(guān)屬性C(振鈴時長,撥打時間,呼叫間隔,被叫號碼特征,呼叫頻次,通話時長等指標),從中提取質(zhì)心,并計算各主叫號我們提取到原始數(shù)據(jù)的集合為碼屬性相異度,重復該步驟直至聚類結(jié)果不在發(fā)生變化。由此可以得出欺詐呼叫區(qū)別于其他呼叫的行為特征。
圖4 k-means 算法示例
3.2.3 基于各模型的組合處理提高分析精準性
上述所建立的各類分析模型并不是孤立存在,而是相互關(guān)聯(lián),彼此組合,在完成建模的基礎上,項目組通過各模型間的組合處理,有效提高了數(shù)據(jù)篩選的準確性。
對各類模型篩選出的黑名單號碼或欺詐號碼進行統(tǒng)計學統(tǒng)計預測分析,可獲得此類號碼呼叫中統(tǒng)計學特征,并且由于號碼的不斷更新,此類特征可準實時反映現(xiàn)網(wǎng)實際情況,可有效分析出更多欺詐呼叫。
此外,根據(jù)聚類分析算法,如圖5所示,在篩選出疑似被騙用戶的同時,還可根據(jù)對關(guān)鍵事件的綜合判斷,確定被騙用戶的級別,即高危用戶(深度詐騙:即該用戶被詐騙的可能性極大,很可能馬上或已經(jīng)造成了財產(chǎn)損失)、中低危險用戶(淺度詐騙:即該用戶可能僅僅是接到過詐騙電話,目前被騙并造成財產(chǎn)損失的可能性不大,但不排除后續(xù)隨著詐騙流程推進,受騙上當?shù)目赡埽?/p>
3.3 總體分析流程
結(jié)合上述的分析方法項目組建立了一套有效的數(shù)據(jù)分析模型體系,其處理流程如下:
針對單一的呼叫記錄,進行號碼特征分析(模糊匹配分析)計算該呼叫的敏感號碼或黑名單號碼匹配度;
若屬于高匹配度呼叫,則本別針對主被叫號碼建立關(guān)聯(lián)索引表,尋找與主被叫號碼相關(guān)聯(lián)的其他呼叫;
對關(guān)聯(lián)后的呼叫中的主叫號碼進行主叫呼叫行為分析及號碼匹配分析,并標記出疑似號碼;
對關(guān)聯(lián)后的呼叫中的被叫號碼進行被叫呼叫行為分析,并標記是否為高危被叫號碼;
完成以上流程,標記并輸出疑似欺詐呼叫、疑似欺詐號碼、疑似高危被叫號碼,同時完成號碼去重。
相關(guān)流程示例見圖6所示。
為了驗證研究模型的準確性,目前項目組已在上海移動開展了欺詐電話分析系統(tǒng)試點,其中原始數(shù)據(jù)主要采集了信令監(jiān)控系統(tǒng)獲取的呼叫事件信令,結(jié)合從上海公安、互聯(lián)網(wǎng)公司等相關(guān)數(shù)據(jù)進行系統(tǒng)分析。
通過數(shù)據(jù)分析模型的運行,每日可輸出疑似欺詐呼叫、疑似高危用戶號碼及相關(guān)報表。同時向上海公安提供疑似高危用戶號碼及呼叫列表,并獲取上海公安反饋結(jié)果。
圖5 聚類分析算法示例
圖6 試點組網(wǎng)示例
4.1 試點組網(wǎng)
試點系統(tǒng)由采集服務器,挖掘分析服務器,Web/數(shù)據(jù)呈現(xiàn)服務器及用支持服務平臺等幾部分組成,如圖6所示。
4.2 數(shù)據(jù)準備
為保證治理模式研究的準確性,數(shù)據(jù)準備階段需要做到數(shù)據(jù)全面、準確,因此本次研究收集了多方面的數(shù)據(jù)作為研究基礎,并對數(shù)據(jù)做了必要的有效性篩選和規(guī)整。
4.2.1 數(shù)據(jù)來源
數(shù)據(jù)來源主要考慮包括以下內(nèi)容:
從信令監(jiān)控系統(tǒng)獲取的A口呼叫事件信令;從省公司采集互聯(lián)互通關(guān)口局呼叫事件信令;從公安獲取的黑名單數(shù)據(jù);互聯(lián)網(wǎng)數(shù)據(jù);敏感號碼庫;黑名單庫。
4.2.2 信令數(shù)據(jù)采集
原始信令數(shù)據(jù)經(jīng)過數(shù)據(jù)采集器,傳輸?shù)讲杉掌?,通過過濾、篩選、規(guī)整、合成、輸出統(tǒng)一格式數(shù)據(jù)表表單。
4.3 階段成果
根據(jù)上海公安反饋,2016年5-7月上海境內(nèi)詐騙案件數(shù)量同比下降12.1%, 冒充公檢法號碼詐騙案件同比下降47.2%,案值同比下降34.9%。
防范打擊通訊信息詐騙是一項系統(tǒng)性、持續(xù)性的工程,基于前期成果,后續(xù)本項目將繼續(xù)不斷充實號碼資源庫,并持續(xù)完善詐騙流程模型,繼續(xù)分析整理相關(guān)案例,完善已有詐騙流程關(guān)聯(lián)模型,不斷發(fā)掘新的詐騙流程并建立相關(guān)模型,以期進一步提升疑似詐騙通話的識別率。
Research on the management mode of communication information fraud based on big data
LUO Han-bin, XUE Zheng
(China Moblie Group Design Institute Co., Ltd. Shanghai Branch, Shanghai 200060, China)
View of the current form of communication information fraud is serious, need to provide effective governance model, based on the analysis of large data mining management platform, research and analysis of various types of telephone fraud characteristics, establish the analysis model effectively, realize the effective governance of telecommunications fraud information.
telephone fraud; number library; behavior analysis
TN929.5
A
1008-5599(2017)03-0071-06
2016-11-24