亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

時空圖表征與規(guī)則特征多層融合的電信網(wǎng)反詐防騷擾機制

2024-12-28 00:00:00葉蘊芳林恪林華輝

中國新通信 2024年22期

摘要：目前，在防范打擊電信網(wǎng)絡(luò)騷擾詐騙領(lǐng)域，對騷擾和詐騙的在線判定，要么是基于業(yè)務(wù)經(jīng)驗并結(jié)合統(tǒng)計分析的規(guī)則識別方法，要么是利用對特征信息庫進行標簽學習訓練得到的分類器模型。單一領(lǐng)域的傳統(tǒng)模型分析效果已無法滿足新形勢下的模型精度要求。在此背景下，本文提出時空圖表征與規(guī)則特征多層融合模型及基于該模型構(gòu)建的電信網(wǎng)反詐防騷擾分析機制。該集成模型跳出單域分析框架，挖掘多源異構(gòu)大數(shù)據(jù)深度特征，具有穩(wěn)定性強、識別精準率高、可兼容小樣本學習場景、能進行自適應優(yōu)化等特征。

關(guān)鍵詞：電信詐騙；時空圖模型；多層融合

近年來，隨著國家加大對電信詐騙的打擊力度，反詐工作取得了一定成效。然而，利用通信網(wǎng)進行電話詐騙的不法團伙不斷變換新手法、利用新工具規(guī)避打擊，其詐騙行為呈現(xiàn)出跨境、跨網(wǎng)、跨行業(yè)的體系化、立體化的特點?，F(xiàn)有的電詐治理方案已無法應對新型詐騙手段。在此背景下，本文將提出一種基于時空圖表征與規(guī)則特征多層融合的電信網(wǎng)反詐防騷擾機制。

一、整體架構(gòu)

圖1描述了反詐防騷擾分析與管理處置平臺的主要架構(gòu)，其主要由反詐知識庫、反詐分析機制和自適應管理3個模塊組成，以及時識別和推送詐騙、騷擾號碼為目標。

這些模塊實現(xiàn)了從多源異構(gòu)數(shù)據(jù)源引入、詐騙和騷擾號碼樣本輸入、預測結(jié)果推送到推送內(nèi)容反饋的反詐、防騷擾的全生命周期管理流程。同時，系統(tǒng)平臺通過引入多類、多維度數(shù)據(jù)源，智能梳理過濾呼叫行為、短信行為、上網(wǎng)日志、位置特征等多種信令數(shù)據(jù)，定時定點分析挖掘通信信息詐騙的內(nèi)容特性和手段特征，實現(xiàn)詐騙事件檢測、關(guān)聯(lián)、用戶群分析，及時阻止通信信息詐騙事件的發(fā)生。在此基礎(chǔ)上，基于綜合分析，系統(tǒng)平臺具備詐騙態(tài)勢感知與預警能力，能夠分析詐騙電話的時空分布、熱點趨勢，可提供疑似被騙用戶的區(qū)位分布、受騷擾等級等相關(guān)信息。

（一）反詐知識庫的構(gòu)建

反詐知識庫包括詐騙騷擾黑號碼庫、白名單號碼庫、多類維度表、驗證反饋結(jié)果和模型推送結(jié)果五個模塊。其中，構(gòu)建詐騙騷擾黑號碼庫和白名單號碼庫的主要目的是對號碼庫進行分類管理和分類研究等。構(gòu)建多類維度表的目的是積累在原始數(shù)據(jù)基礎(chǔ)上進行衍生的指標特征，形成可復用的指標體系，提升數(shù)據(jù)使用效率。構(gòu)建模型推送結(jié)果和驗證反饋結(jié)果的目的是對反詐分析結(jié)果進行跟蹤記錄，便于溯源反查和對反詐防騷擾機制進行優(yōu)化升級，是串聯(lián)反詐分析機制和自適應管理模塊之間的橋梁。

（二）反詐分析機制

反詐分析機制包括數(shù)據(jù)預處理及特征工程、建立反詐分析模型、定時推送結(jié)果3個流程。數(shù)據(jù)預處理及特征工程是為了獲取高質(zhì)量、適合分析的數(shù)據(jù)，在數(shù)據(jù)清洗的基礎(chǔ)上，提取多通道數(shù)據(jù)源、多時間維度特征與表征，實現(xiàn)對不同數(shù)據(jù)源的關(guān)聯(lián)，生成全量數(shù)據(jù)特征寬表。通過離線模型訓練，生成多種識別模型，如通過集成學習，完成對詐騙、騷擾號碼的識別；通過在線識別，完成對多標簽的詐騙、騷擾號碼和自然人的定時推送。

（三）自適應管理模塊

根據(jù)反詐分析機制的推送內(nèi)容，實現(xiàn)反詐防騷擾處置平臺的自適應管理工作，即對反詐知識庫的定時、定期更新，同時優(yōu)化反詐分析機制，具體包括基于反饋結(jié)果的模型在線自優(yōu)化、知識庫定時定期更新、新場景增量學習和舉報amp;復機號碼反查。

二、多源異構(gòu)大數(shù)據(jù)一體化及機器學習路徑

傳統(tǒng)電信詐騙識別往往局限于單域分析，如一個策略/模型只基于短信域或通話域進行預測。隨著詐騙手段的升級和新型詐騙模式的不斷產(chǎn)生，單域分析已不能滿足目前的詐騙防范需求。特別是隨著5G的發(fā)展，詐騙案件的發(fā)生場所也逐漸由電信網(wǎng)轉(zhuǎn)變?yōu)殡娦啪W(wǎng)+互聯(lián)網(wǎng)。本文在傳統(tǒng)單域分析的基礎(chǔ)上，綜合考慮詐騙情景和事件流模式，創(chuàng)新地構(gòu)建了由短信單域觸發(fā)再關(guān)聯(lián)至通話域和上網(wǎng)域的融合分析流程，包含短信內(nèi)涉詐網(wǎng)站與上網(wǎng)日志的關(guān)聯(lián)、短信內(nèi)涉詐號碼與通話信令的關(guān)聯(lián)、詐騙受害人號碼與轉(zhuǎn)賬記錄的關(guān)聯(lián)，從而實現(xiàn)對多源異構(gòu)大數(shù)據(jù)的一體化分析。

（一）多源異構(gòu)大數(shù)據(jù)關(guān)聯(lián)

在分析多源異構(gòu)大數(shù)據(jù)前，需要進行數(shù)據(jù)關(guān)聯(lián)。通常選用IMSI、號碼進行關(guān)聯(lián)。除此以外，在以自然人為分析目標的情況下，也會使用相應的用戶ID或終端編碼IMEI進行關(guān)聯(lián)。

（二）數(shù)據(jù)預處理

1.數(shù)據(jù)清洗

由于多源異構(gòu)數(shù)據(jù)來源眾多且數(shù)據(jù)結(jié)構(gòu)不一致，在使用這些數(shù)據(jù)時，還需要進行針對性的數(shù)據(jù)清洗工作。

2.缺失值處理

首先，將影響數(shù)據(jù)有效性的關(guān)鍵字段的數(shù)據(jù)缺失記錄直接刪除。例如，對IMEI和MSISDN等字段缺失的記錄予以刪除。其次，根據(jù)字段缺失值比例，以從低到高的順序，按照含缺失值的字段是否缺失對數(shù)據(jù)集進行分類，使用隨機森林來填補缺失值[1]。

3.數(shù)據(jù)一致化

由于多源異構(gòu)數(shù)據(jù)來源眾多，數(shù)據(jù)接入時間存在差異，導致數(shù)據(jù)之間存在矛盾。對符合實際邏輯且可推斷的數(shù)據(jù)予以一致化處理。

（三）樣本選擇

從分析目的出發(fā)，將號碼區(qū)分為黑樣本（也叫目標樣本）與白樣本，其中，選擇有詐騙標記、騷擾標記的號碼作為黑樣本。將數(shù)據(jù)集按照7：3的比例分為訓練集與測試集，訓練集用來估計模型，測試集檢驗模型的性能。

（四）特征工程

根據(jù)信令指標進行指標值計算，包括基礎(chǔ)指標與衍生指標。主要是基于主叫號碼、被叫號碼、呼叫頻次、呼叫時間間隔、振鈴時長、通話時長等統(tǒng)計指標，計算其平均值、極值、標準差等，并結(jié)合24小時、12小時、忙時和閑時等時間粒度，最終獲得衍生指標。結(jié)合號碼標簽與所有的特征值，形成初步數(shù)據(jù)寬表。

（五）特征選擇

結(jié)合相關(guān)性、重要性等指標進行篩選，保留顯著性高的指標，形成最終的數(shù)據(jù)量表，然后進行下一步的算法建模。離線學習過程中所需的信令指標較多，一般會用全量可用指標計算。篩選指標后進入算法建模，當模型結(jié)果欠佳時，依然會重返這一步驟，重新進行指標篩選。

（六）模型訓練與優(yōu)化

利用隨機森林、LightGBM等多種樹類算法進行算法建模，通過調(diào)整算法超參數(shù)優(yōu)化模型提升效果。在驗證結(jié)果的基礎(chǔ)上，通過重復迭代指標篩選與算法建模的過程，尋找模型超參數(shù)最優(yōu)解。當模型達到最優(yōu)后，輸出模型，實現(xiàn)在線識別。

三、結(jié)合用戶自然人特征的實時動態(tài)時空圖檢測模型

由于靜態(tài)圖卷積識別出的呼叫行為時間規(guī)律過于單一，本文提出了時空圖模型。首先，將原始通信網(wǎng)絡(luò)按照通話時間區(qū)間劃分成若干張子圖，并將這些子圖按照主叫節(jié)點對齊，構(gòu)成時空圖結(jié)構(gòu)。其次，使用圖卷積的方法提取空間維度的信息，再使用遞歸神經(jīng)網(wǎng)絡(luò)提取時間維度的信息，從而動態(tài)捕獲號碼呼叫行為的變化，精準識別詐騙號碼。此方法的原理是，沿著時間軸將單個指標拆分成多個指標，再使用這些指標的非線性組合作為深層特征去識別有害的呼叫行為。同時，通話特征的提取和二階鄰居節(jié)點的搜索是在各張子圖內(nèi)部獨立進行的，因此也可以較為方便地實現(xiàn)并行化。以時空圖模型為基礎(chǔ)，結(jié)合用戶自然人特征進行實時動態(tài)檢測：從用戶號碼出發(fā)，通過簽約屬性確定真實自然人，并以自然人為目標用戶，綜合利用目標用戶在不同時間段內(nèi)自身的特征信息（時間信息）、網(wǎng)絡(luò)中與其發(fā)生通話關(guān)系的鄰居用戶的特征信息（空間信息），以及已有的人工標注，訓練一種基于動態(tài)圖的實時檢測模型[2]，實現(xiàn)對有害呼叫的精準識別。然而，在實際研究過程中，考慮到圖的規(guī)模極為龐大，使用鄰接矩陣的方法進行圖卷積是不現(xiàn)實的，所以，本文將圖卷積的過程提前到特征提取階段進行。

針對正負樣本嚴重不平衡的情況，本文嘗試通過采樣方法[3]提升每個負樣本的平均訓練次數(shù)，并采用Focal Loss損失函數(shù)[4]作為解決方案。針對模型存在輕度擬合的情況，采用Drop Out機制緩解。時空圖模型所提取的特征是節(jié)點的特征，而同一個節(jié)點可以在不同子圖中重復出現(xiàn)。為了在無標簽數(shù)據(jù)集上表現(xiàn)出更穩(wěn)健的效果，在劃分訓練集和測試集的過程中，本文沒有使用簡單的隨機劃分，而是先對節(jié)點做隨機劃分，將屬于該節(jié)點的所有樣本都分到同一個數(shù)據(jù)集中。這種做法雖然增大了模型分類的難度，但可以保證模型的穩(wěn)定性。

四、多層融合技術(shù)集成機器分類規(guī)則與深度表征特征

經(jīng)過多重集成方案的對比驗證，最終確定在Stacking方法[5]的基礎(chǔ)上提出多層特征融合結(jié)構(gòu)，從而在精度和性能兩個方面達到預期效果?；跁r空圖模型得到的表征特征和機器學習模型的規(guī)則化特征，利用投票法、加權(quán)投票法、特征融合后使用隨機森林或者神經(jīng)網(wǎng)絡(luò)進行分類，以及在Stacking方法基礎(chǔ)上構(gòu)建的多層融合模型等五種方法，來確定最終的分類結(jié)果。圖2展示了集成方法的效果對比。其中，效果比較理想的是多層融合的方法。在該方法中，第一層包含三個子模型，子模型的輸入分別由時空圖模型的隱狀態(tài)向量、文本模型的詞向量以及規(guī)則匹配向量兩兩拼接而成。分類器以簡單分類器為主。從實際結(jié)果來看，隨機森林的效果最佳，但是要將層數(shù)限制在8～10層左右，葉子節(jié)點樣本低于1%，從而避免過擬合；Logistic回歸的效果最差，SVM的時間消耗非常大，因此，這兩種分類器沒有被采用。子模型的訓練過程采用K-fold交叉驗證法，在K=3時總共得到9個預測結(jié)果。這些預測結(jié)果將作為第二層主模型的輸入值。主模型采用的是包含單個隱藏層的普通神經(jīng)網(wǎng)絡(luò)，同樣采用K-fold交叉驗證確保效果。這一層的特征數(shù)量相對較少，且參數(shù)過多容易導致過擬合，所以沒有使用更為復雜的深度神經(jīng)網(wǎng)絡(luò)。

五、基于反查機制的模型自優(yōu)化學習框架

反查是指重新查詢舉報號碼、驗證號碼的簽約屬性、識別號碼的呼叫行為特征等，目的是還原多渠道號碼的電信行為特征，并相互進行關(guān)聯(lián)，為模型優(yōu)化提供樣本。本方案重點針對識別錯誤的模型推送號碼，重新訓練模型，矯正模型偏移；同時，針對舉報號碼中未命中的號碼，制定快速響應增量學習方案。其中，針對輕量級的機器學習模型，采用在線模型重新訓練的方式，實現(xiàn)自優(yōu)化。而針對深度學習或體量較大的模型，則采用在生產(chǎn)模型的基礎(chǔ)上更新模型的增量學習方法。

六、結(jié)束語

本文提出的多源異構(gòu)大數(shù)據(jù)一體化分析方案，更加立體地刻畫了詐騙案件的整體流程和情景，一方面增加了詐騙案件識別的準確率，另一方面為研究詐騙模式、詐騙趨勢提供了全面材料。本方案結(jié)合號碼反查的模型優(yōu)化機制，實現(xiàn)系統(tǒng)識別閉環(huán)。針對模型老化及新型詐騙、騷擾號碼等問題，構(gòu)建了一種對舉報樣本號碼及推送反饋號碼的反查機制，實現(xiàn)系統(tǒng)在線優(yōu)化模型并對未識別號碼進行增量學習的系統(tǒng)閉環(huán)。這種方法可以快速適應行為變化，調(diào)整模型的識別偏差，同時，盡可能地降低了模型的訓練成本，最大化提升了模型的更新周期，能夠快速發(fā)現(xiàn)新型詐騙、騷擾行為，并拓展模型識別范圍。

作者單位：葉蘊芳林恪中國移動通信集團福建有限公司

林華輝中國移動通信集團福建有限公司泉州分公司

參考文獻

[1] 張曉琴，程譽瑩．基于隨機森林模型的成分數(shù)據(jù)缺失值填補法[J]．應用概率統(tǒng)計，2017，33（01）：102-110.

[2] 朱威，繩榮金，湯如，等．基于動態(tài)圖卷積和空間金字塔池化的點云深度學習網(wǎng)絡(luò)[J]．計算機科學，2020，47（07）：192-198.

[3] 李艷霞，柴毅，胡友強，等．不平衡數(shù)據(jù)分類方法綜述[J]．控制與決策，2019，34（04）：673-688.

[4] 陳永明，戴穎超．基于Focal Loss的GBDT改進分類算法研究[J]．機電技術(shù)，2020（03）：32-67.

[5] 徐繼偉，楊云．集成學習方法：研究綜述[J]．云南大學學報（自然科學版），2018，40（06）：1082-1092.

中國新通信2024年22期

中國新通信的其它文章: 信息技術(shù)在高中體育與健康教學中的應用; 初中體育與健康課程的微課設(shè)計; 基于信息技術(shù)的高中數(shù)學教學實踐; 淺析微課在初中體育教學中的應用; “互聯(lián)網(wǎng)+”背景下小學美術(shù)教學的實踐探究; 微課模式對高中物理課堂提質(zhì)增效的應用研究