高淵 董宇翔 張麾軍 韓冰建 北松滋
【摘要】? ? 隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)詐騙呈現(xiàn)持續(xù)高發(fā)態(tài)勢,詐騙分子呈現(xiàn)出專業(yè)化、團伙化的特點。為了更好識別詐騙團伙,通過接入詐騙事件,提取涉詐資源之間的關(guān)聯(lián)關(guān)系,涉詐資源的行為特征,進行關(guān)聯(lián)分析和相似度分析,得到涉詐資源關(guān)聯(lián)圖,再基于LPA算法進行詐騙組織切分得到準確結(jié)果。
【關(guān)鍵詞】? ? 互聯(lián)網(wǎng)? ? 網(wǎng)絡詐騙? ? 安全分析模型
一、背景
近年來,我國電信網(wǎng)絡詐騙總體形勢嚴峻,詐騙分子呈現(xiàn)出專業(yè)化、團伙化的特點,警方抓獲的電信詐騙團伙,都多達數(shù)百人,詐騙設備、詐騙卡號、詐騙賬號都是數(shù)以萬計[1]。隨著移動互聯(lián)網(wǎng)的普及,國家和公安機關(guān)對反詐的宣傳,單純依靠語音、短信或網(wǎng)絡詐騙的場景越來越少,詐騙分子往往是三者結(jié)合才能詐騙成功[2]。這些詐騙分子可能實施了多次詐騙才被抓獲,而且還有部分詐騙分子隱藏在其他地市或國外,詐騙設備也經(jīng)過了多次更新,僅憑一次詐騙案件難以評估詐騙團伙整體規(guī)?!,F(xiàn)有技術(shù)方案中基于單一場景的詐騙團伙分析已經(jīng)越來越難以準確地挖掘出全部詐騙團伙了[3]。本方法提出一種基于語音話單、短信話單和上網(wǎng)日志進行關(guān)聯(lián)分析發(fā)現(xiàn)詐騙團伙的方案。通過接入詐騙事件,提取涉詐資源之間的關(guān)聯(lián)關(guān)系,涉詐資源的行為特征,進行關(guān)聯(lián)分析和相似度分析,得到涉詐資源關(guān)聯(lián)圖,再基于LPA算法進行詐騙組織切分得到準確的詐騙組織。
二、方法
為了更好的識別詐騙團伙,設計基于語音話單、短信話單和上網(wǎng)日志進行關(guān)聯(lián)分析的方案。通過接入詐騙事件,提取涉詐資源之間的關(guān)聯(lián)關(guān)系,涉詐資源的行為特征,進行關(guān)聯(lián)分析和相似度分析,得到涉詐資源關(guān)聯(lián)圖,再基于LPA算法進行詐騙組織切分得到準確的詐騙組織。
本方案的基本設計概念和處理流程如下圖所示:
2.1詐騙事件接入
分析系統(tǒng)需要接入多種詐騙事件:
基于GOIP、多卡寶等多種遠程部署的語音詐騙事件;
基于短信網(wǎng)關(guān)群發(fā)詐騙短信的短信詐騙事件;
基于社交網(wǎng)絡的殺豬盤詐騙、刷單詐騙等網(wǎng)絡詐騙事件。
對語音詐騙事件需要獲取以下主要字段:卡號、對方卡號、IMEI、時間、地理位置。
對短信詐騙事件需要獲取以下主要字段:卡號、對方卡號、IMEI、時間、地理位置。
對網(wǎng)絡詐騙事件需要獲取以下主要字段:卡號、IMEI、社交賬號、時間、地理位置、流量大小。
2.2詐騙資源關(guān)聯(lián)分析
詐騙團伙分析包括兩種方式:直接關(guān)聯(lián)分析和相似度分析。
2.2.1直接關(guān)聯(lián)分析
直接關(guān)聯(lián)分析,通過涉詐資源之間的直接聯(lián)系建立關(guān)聯(lián)圖,如下:
通過卡號共享進行關(guān)聯(lián):多個詐騙卡號都給一個受害者卡號撥打電話;詐騙卡號之間的通信。
通過設備進行關(guān)聯(lián):多個卡號共用了一個設備,即一IMEI多卡;一個卡號用在了多個設備上,及一卡多IMEI。
通過社交賬號進行關(guān)聯(lián):多個卡號共用了一個賬號,即一賬號多卡;多個賬號共用了一個卡號,即一卡多賬號;多個卡號共用了一個設備,即一設備多卡;多個設備共用了一個卡號,即一卡多設備。
通過上述關(guān)聯(lián)分析發(fā)現(xiàn)的涉詐資源節(jié)點和節(jié)點之間的連線用圖數(shù)據(jù)庫存儲。后面不斷接入新的詐騙事件,對詐騙事件進行接入,獲取涉詐資源階段,按照上述流程添加到圖數(shù)據(jù)庫,可發(fā)現(xiàn)更多的攻擊組織。
2.2.2相似度分析
一個詐騙團伙作案都有相似性,包括空間上、時間上、行為上。取以下行為作為判定涉詐資源之間的相似性:
地理位置:換算為經(jīng)度和維度。
活躍時間分布屬性:按時間段劃分24h為24個數(shù)值,若有話單則為1,否則為0,得到一個24元素的數(shù)組。分別計算語音活躍時間,上網(wǎng)活躍時間。
連續(xù)工作時長:計算一整天的工作時長。
上網(wǎng)流量:分為上行流量大小和下行流量大小。
上網(wǎng)類型分布:按照上網(wǎng)日志的域名類型劃分為9類域名:咨詢門戶類網(wǎng)站、企業(yè)品牌類網(wǎng)站、交易類網(wǎng)站、社區(qū)網(wǎng)站、辦公及政府機構(gòu)網(wǎng)站、互動游戲網(wǎng)站、有償資訊類網(wǎng)站、功能性網(wǎng)站、綜合類網(wǎng)站。若有則為1,否則為0,得到一個9個元素的數(shù)組。用余弦相似度計算涉詐資源之間的相似度,假設X1,X2為2個涉詐資源,X1X2相似度如下:
2.3 LPA詐騙組織切分
2.3.1團伙標簽初始化
LPA算法全稱label propagation algorithm,即標簽傳遞算法,是一種圖聚類算法,如圖3,節(jié)點代表團伙標簽,邊上的黑色數(shù)字代表邊的權(quán)重。
各節(jié)點和邊初始化方式如下:節(jié)點初始化為1,團伙標簽初始化為自己,邊的初始化分為兩種計算方式:
直接關(guān)聯(lián)分析的邊關(guān)聯(lián)程度用反正切函數(shù)計算,假設發(fā)現(xiàn)涉詐資源A和B之間有x次直接關(guān)聯(lián),則關(guān)聯(lián)度為arctan(x)。相似度分析的邊關(guān)聯(lián)程度計算直接用余弦相似度。
2.3.2團伙標簽傳遞
每個涉詐資源節(jié)點向鄰居節(jié)點發(fā)送消息,消息權(quán)重為涉詐資源節(jié)點權(quán)重*邊權(quán)重*分割系數(shù)(涉詐資源節(jié)點出度的倒數(shù)),每個涉詐資源節(jié)點對收到的權(quán)重累加,更新涉詐資源節(jié)點標簽為累加權(quán)重最大的團伙標簽,若多個涉詐資源節(jié)點的團伙標簽的權(quán)重相等就隨機選一個。反復執(zhí)行發(fā)送消息和接收消息,直到標簽穩(wěn)定算法終止,最后相同標簽的節(jié)點即為一個團伙。如下圖4分析得出團伙1和團伙2。
三、結(jié)束語
技術(shù)創(chuàng)新是一把雙刃劍,人工智能技術(shù)在不斷促進防范治理技術(shù)發(fā)展和進步的同時,也開始被詐騙分子所利用,帶來了一定程度的風險隱患。特別是隨著基于人工智能的“深度偽造”、群聊群控等詐騙手法的傳播和應用,這些風險被進一步集聚、放大,引起了社會各界的關(guān)注[4]。通過實踐,本方法可有效甄別詐騙團伙,準確率高,覆蓋范圍廣,幫助相關(guān)部門快速掌握詐騙團伙動態(tài),有效挽回群眾損失。下一步,我們將進一步完善改進方法,創(chuàng)新技術(shù)。
參? 考? 文? 獻
[1] 蒲黎明. 電信詐騙語義分類系統(tǒng)的設計與實現(xiàn)[D]. 北京:北京郵電大學,2019.
[2] 李易.反電信網(wǎng)絡詐騙全民指南[M]. 上海:上海社會科學院出版社,2016.
[3] 李航.統(tǒng)計學習方法[M]. 北京:清華大學出版社,2012.
[4] 電信網(wǎng)絡詐騙治理與人工智能應用白皮書[M].北京:中國信息通信研究院安全研究所,2019.