摘要:目前,在防范打擊電信網絡騷擾詐騙領域,對騷擾和詐騙的在線判定,要么是基于業(yè)務經驗并結合統(tǒng)計分析的規(guī)則識別方法,要么是利用對特征信息庫進行標簽學習訓練得到的分類器模型。單一領域的傳統(tǒng)模型分析效果已無法滿足新形勢下的模型精度要求。在此背景下,本文提出時空圖表征與規(guī)則特征多層融合模型及基于該模型構建的電信網反詐防騷擾分析機制。該集成模型跳出單域分析框架,挖掘多源異構大數據深度特征,具有穩(wěn)定性強、識別精準率高、可兼容小樣本學習場景、能進行自適應優(yōu)化等特征。
關鍵詞:電信詐騙;時空圖模型;多層融合
近年來,隨著國家加大對電信詐騙的打擊力度,反詐工作取得了一定成效。然而,利用通信網進行電話詐騙的不法團伙不斷變換新手法、利用新工具規(guī)避打擊,其詐騙行為呈現出跨境、跨網、跨行業(yè)的體系化、立體化的特點?,F有的電詐治理方案已無法應對新型詐騙手段。在此背景下,本文將提出一種基于時空圖表征與規(guī)則特征多層融合的電信網反詐防騷擾機制。
一、整體架構
圖1描述了反詐防騷擾分析與管理處置平臺的主要架構,其主要由反詐知識庫、反詐分析機制和自適應管理3個模塊組成,以及時識別和推送詐騙、騷擾號碼為目標。
這些模塊實現了從多源異構數據源引入、詐騙和騷擾號碼樣本輸入、預測結果推送到推送內容反饋的反詐、防騷擾的全生命周期管理流程。同時,系統(tǒng)平臺通過引入多類、多維度數據源,智能梳理過濾呼叫行為、短信行為、上網日志、位置特征等多種信令數據,定時定點分析挖掘通信信息詐騙的內容特性和手段特征,實現詐騙事件檢測、關聯(lián)、用戶群分析,及時阻止通信信息詐騙事件的發(fā)生。在此基礎上,基于綜合分析,系統(tǒng)平臺具備詐騙態(tài)勢感知與預警能力,能夠分析詐騙電話的時空分布、熱點趨勢,可提供疑似被騙用戶的區(qū)位分布、受騷擾等級等相關信息。
(一)反詐知識庫的構建
反詐知識庫包括詐騙騷擾黑號碼庫、白名單號碼庫、多類維度表、驗證反饋結果和模型推送結果五個模塊。其中,構建詐騙騷擾黑號碼庫和白名單號碼庫的主要目的是對號碼庫進行分類管理和分類研究等。構建多類維度表的目的是積累在原始數據基礎上進行衍生的指標特征,形成可復用的指標體系,提升數據使用效率。構建模型推送結果和驗證反饋結果的目的是對反詐分析結果進行跟蹤記錄,便于溯源反查和對反詐防騷擾機制進行優(yōu)化升級,是串聯(lián)反詐分析機制和自適應管理模塊之間的橋梁。
(二)反詐分析機制
反詐分析機制包括數據預處理及特征工程、建立反詐分析模型、定時推送結果3個流程。數據預處理及特征工程是為了獲取高質量、適合分析的數據,在數據清洗的基礎上,提取多通道數據源、多時間維度特征與表征,實現對不同數據源的關聯(lián),生成全量數據特征寬表。通過離線模型訓練,生成多種識別模型,如通過集成學習,完成對詐騙、騷擾號碼的識別;通過在線識別,完成對多標簽的詐騙、騷擾號碼和自然人的定時推送。
(三)自適應管理模塊
根據反詐分析機制的推送內容,實現反詐防騷擾處置平臺的自適應管理工作,即對反詐知識庫的定時、定期更新,同時優(yōu)化反詐分析機制,具體包括基于反饋結果的模型在線自優(yōu)化、知識庫定時定期更新、新場景增量學習和舉報amp;復機號碼反查。
二、多源異構大數據一體化及機器學習路徑
傳統(tǒng)電信詐騙識別往往局限于單域分析,如一個策略/模型只基于短信域或通話域進行預測。隨著詐騙手段的升級和新型詐騙模式的不斷產生,單域分析已不能滿足目前的詐騙防范需求。特別是隨著5G的發(fā)展,詐騙案件的發(fā)生場所也逐漸由電信網轉變?yōu)殡娦啪W+互聯(lián)網。本文在傳統(tǒng)單域分析的基礎上,綜合考慮詐騙情景和事件流模式,創(chuàng)新地構建了由短信單域觸發(fā)再關聯(lián)至通話域和上網域的融合分析流程,包含短信內涉詐網站與上網日志的關聯(lián)、短信內涉詐號碼與通話信令的關聯(lián)、詐騙受害人號碼與轉賬記錄的關聯(lián),從而實現對多源異構大數據的一體化分析。
(一)多源異構大數據關聯(lián)
在分析多源異構大數據前,需要進行數據關聯(lián)。通常選用IMSI、號碼進行關聯(lián)。除此以外,在以自然人為分析目標的情況下,也會使用相應的用戶ID或終端編碼IMEI進行關聯(lián)。
(二)數據預處理
1.數據清洗
由于多源異構數據來源眾多且數據結構不一致,在使用這些數據時,還需要進行針對性的數據清洗工作。
2.缺失值處理
首先,將影響數據有效性的關鍵字段的數據缺失記錄直接刪除。例如,對IMEI和MSISDN等字段缺失的記錄予以刪除。其次,根據字段缺失值比例,以從低到高的順序,按照含缺失值的字段是否缺失對數據集進行分類,使用隨機森林來填補缺失值[1]。
3.數據一致化
由于多源異構數據來源眾多,數據接入時間存在差異,導致數據之間存在矛盾。對符合實際邏輯且可推斷的數據予以一致化處理。
(三)樣本選擇
從分析目的出發(fā),將號碼區(qū)分為黑樣本(也叫目標樣本)與白樣本,其中,選擇有詐騙標記、騷擾標記的號碼作為黑樣本。將數據集按照7:3的比例分為訓練集與測試集,訓練集用來估計模型,測試集檢驗模型的性能。
(四)特征工程
根據信令指標進行指標值計算,包括基礎指標與衍生指標。主要是基于主叫號碼、被叫號碼、呼叫頻次、呼叫時間間隔、振鈴時長、通話時長等統(tǒng)計指標,計算其平均值、極值、標準差等,并結合24小時、12小時、忙時和閑時等時間粒度,最終獲得衍生指標。結合號碼標簽與所有的特征值,形成初步數據寬表。
(五)特征選擇
結合相關性、重要性等指標進行篩選,保留顯著性高的指標,形成最終的數據量表,然后進行下一步的算法建模。離線學習過程中所需的信令指標較多,一般會用全量可用指標計算。篩選指標后進入算法建模,當模型結果欠佳時,依然會重返這一步驟,重新進行指標篩選。
(六)模型訓練與優(yōu)化
利用隨機森林、LightGBM等多種樹類算法進行算法建模,通過調整算法超參數優(yōu)化模型提升效果。在驗證結果的基礎上,通過重復迭代指標篩選與算法建模的過程,尋找模型超參數最優(yōu)解。當模型達到最優(yōu)后,輸出模型,實現在線識別。
三、結合用戶自然人特征的實時動態(tài)時空圖檢測模型
由于靜態(tài)圖卷積識別出的呼叫行為時間規(guī)律過于單一,本文提出了時空圖模型。首先,將原始通信網絡按照通話時間區(qū)間劃分成若干張子圖,并將這些子圖按照主叫節(jié)點對齊,構成時空圖結構。其次,使用圖卷積的方法提取空間維度的信息,再使用遞歸神經網絡提取時間維度的信息,從而動態(tài)捕獲號碼呼叫行為的變化,精準識別詐騙號碼。此方法的原理是,沿著時間軸將單個指標拆分成多個指標,再使用這些指標的非線性組合作為深層特征去識別有害的呼叫行為。同時,通話特征的提取和二階鄰居節(jié)點的搜索是在各張子圖內部獨立進行的,因此也可以較為方便地實現并行化。以時空圖模型為基礎,結合用戶自然人特征進行實時動態(tài)檢測:從用戶號碼出發(fā),通過簽約屬性確定真實自然人,并以自然人為目標用戶,綜合利用目標用戶在不同時間段內自身的特征信息(時間信息)、網絡中與其發(fā)生通話關系的鄰居用戶的特征信息(空間信息),以及已有的人工標注,訓練一種基于動態(tài)圖的實時檢測模型[2],實現對有害呼叫的精準識別。然而,在實際研究過程中,考慮到圖的規(guī)模極為龐大,使用鄰接矩陣的方法進行圖卷積是不現實的,所以,本文將圖卷積的過程提前到特征提取階段進行。
針對正負樣本嚴重不平衡的情況,本文嘗試通過采樣方法[3]提升每個負樣本的平均訓練次數,并采用Focal Loss損失函數[4]作為解決方案。針對模型存在輕度擬合的情況,采用Drop Out機制緩解。時空圖模型所提取的特征是節(jié)點的特征,而同一個節(jié)點可以在不同子圖中重復出現。為了在無標簽數據集上表現出更穩(wěn)健的效果,在劃分訓練集和測試集的過程中,本文沒有使用簡單的隨機劃分,而是先對節(jié)點做隨機劃分,將屬于該節(jié)點的所有樣本都分到同一個數據集中。這種做法雖然增大了模型分類的難度,但可以保證模型的穩(wěn)定性。
四、多層融合技術集成機器分類規(guī)則與深度表征特征
經過多重集成方案的對比驗證,最終確定在Stacking方法[5]的基礎上提出多層特征融合結構,從而在精度和性能兩個方面達到預期效果。基于時空圖模型得到的表征特征和機器學習模型的規(guī)則化特征,利用投票法、加權投票法、特征融合后使用隨機森林或者神經網絡進行分類,以及在Stacking方法基礎上構建的多層融合模型等五種方法,來確定最終的分類結果。圖2展示了集成方法的效果對比。其中,效果比較理想的是多層融合的方法。在該方法中,第一層包含三個子模型,子模型的輸入分別由時空圖模型的隱狀態(tài)向量、文本模型的詞向量以及規(guī)則匹配向量兩兩拼接而成。分類器以簡單分類器為主。從實際結果來看,隨機森林的效果最佳,但是要將層數限制在8~10層左右,葉子節(jié)點樣本低于1%,從而避免過擬合;Logistic回歸的效果最差,SVM的時間消耗非常大,因此,這兩種分類器沒有被采用。子模型的訓練過程采用K-fold交叉驗證法,在K=3時總共得到9個預測結果。這些預測結果將作為第二層主模型的輸入值。主模型采用的是包含單個隱藏層的普通神經網絡,同樣采用K-fold交叉驗證確保效果。這一層的特征數量相對較少,且參數過多容易導致過擬合,所以沒有使用更為復雜的深度神經網絡。
五、基于反查機制的模型自優(yōu)化學習框架
反查是指重新查詢舉報號碼、驗證號碼的簽約屬性、識別號碼的呼叫行為特征等,目的是還原多渠道號碼的電信行為特征,并相互進行關聯(lián),為模型優(yōu)化提供樣本。本方案重點針對識別錯誤的模型推送號碼,重新訓練模型,矯正模型偏移;同時,針對舉報號碼中未命中的號碼,制定快速響應增量學習方案。其中,針對輕量級的機器學習模型,采用在線模型重新訓練的方式,實現自優(yōu)化。而針對深度學習或體量較大的模型,則采用在生產模型的基礎上更新模型的增量學習方法。
六、結束語
本文提出的多源異構大數據一體化分析方案,更加立體地刻畫了詐騙案件的整體流程和情景,一方面增加了詐騙案件識別的準確率,另一方面為研究詐騙模式、詐騙趨勢提供了全面材料。本方案結合號碼反查的模型優(yōu)化機制,實現系統(tǒng)識別閉環(huán)。針對模型老化及新型詐騙、騷擾號碼等問題,構建了一種對舉報樣本號碼及推送反饋號碼的反查機制,實現系統(tǒng)在線優(yōu)化模型并對未識別號碼進行增量學習的系統(tǒng)閉環(huán)。這種方法可以快速適應行為變化,調整模型的識別偏差,同時,盡可能地降低了模型的訓練成本,最大化提升了模型的更新周期,能夠快速發(fā)現新型詐騙、騷擾行為,并拓展模型識別范圍。
作者單位:葉蘊芳 林恪 中國移動通信集團福建有限公司
林華輝 中國移動通信集團福建有限公司泉州分公司
參考文獻
[1] 張曉琴,程譽瑩.基于隨機森林模型的成分數據缺失值填補法[J].應用概率統(tǒng)計,2017,33(01):102-110.
[2] 朱威,繩榮金,湯如,等.基于動態(tài)圖卷積和空間金字塔池化的點云深度學習網絡[J].計算機科學,2020,47(07):192-198.
[3] 李艷霞,柴毅,胡友強,等.不平衡數據分類方法綜述[J].控制與決策,2019,34(04):673-688.
[4] 陳永明,戴穎超.基于Focal Loss的GBDT改進分類算法研究[J].機電技術,2020(03):32-67.
[5] 徐繼偉,楊云.集成學習方法:研究綜述[J].云南大學學報(自然科學版),2018,40(06):1082-1092.