李 正 陶 冶
1 中國電子信息產(chǎn)業(yè)集團有限公司第六研究所 北京 100083
2 中國聯(lián)通研究院 北京 100176
依據(jù)《全國人大常委會關(guān)于加強網(wǎng)絡(luò)信息保護的決定》《電信條例》等法律法規(guī),騷擾電話被定義為:未經(jīng)電話(包括固定電話、移動電話或者其他移動通信終端等)持有者同意或者請求,或者電話持有者明確表示拒絕,以撥打等方式向其發(fā)送商業(yè)性電子信息或其它違法犯罪信息的行為,主要包括響一聲電話、詐騙電話、中介推銷電話等。
隨著產(chǎn)業(yè)鏈重心遷移與運營商大力度治理,垃圾短信問題開始降溫,騷擾電話問題愈演愈烈。可信號碼數(shù)據(jù)中心發(fā)布的《2020年騷擾電話形勢分析報告》顯示,2020年用戶號碼標記總量達15.07億次,較2019年增長了19.44%左右[1]。騷擾電話與社會工程學、透傳等新技術(shù)相結(jié)合,不僅嚴重影響了人們的日常生活,而且給人們帶來巨大的經(jīng)濟損失。公安部最新數(shù)據(jù)顯示,2020年電信詐騙致財產(chǎn)損失達353.7億元[2],較2018年增長了59.3%[3]。
騷擾電話對社會公正、國計民生產(chǎn)生的嚴重影響,使得騷擾電話問題已經(jīng)上升為社會問題和國家安全問題。國家高度重視,將騷擾電話治理作為兩會提案焦點之一,并相繼開展了數(shù)個專項治理行動。2018年7月至2019年12月,13部委聯(lián)合開展綜合整治騷擾電話專項行動[4]。2020年8月,中央文明委集中開展電信網(wǎng)絡(luò)詐騙專項治理行動[5]。
騷擾電話不僅嚴重影響了運營商的品牌形象,而且使運營商面臨嚴峻的法律風險和監(jiān)管壓力。央視3·15連年曝光電信欺詐問題,運營商被指不作為或為幕后推手。2015年,深圳、廣州兩例運營商賠付案件中,深圳移動、廣州電信分別賠償受害人8.8萬元[6](占損失的20%)、1萬元[7],為受害人提供了新的賠償路徑。2020年1月14日,公安部部長趙克志在全國打擊治理電信網(wǎng)絡(luò)新型違法犯罪工作電視電話會議上要求,進一步壓實各部門主體責任,推動形成齊抓共管、綜合治理的工作格局,著力提升打擊治理能力,堅決遏制電信網(wǎng)絡(luò)新型違法犯罪的多發(fā)高發(fā)勢頭[8]。
運營商迫切需要治理騷擾電話。騷擾電話治理不僅可以使運營商減少用戶投訴,提升用戶感知,履行國企社會責任,進一步提升運營商品牌形象,而且運營商能夠通過凈化語音網(wǎng)絡(luò)空間,保障通信網(wǎng)絡(luò)的可管、可控。
再進一步,運營商可以借助騷擾電話治理示范信息生活創(chuàng)新服務(wù)。圍繞騷擾號碼資源,創(chuàng)新合作發(fā)展,產(chǎn)業(yè)合作共享,實現(xiàn)雙贏,打造電信防欺詐生態(tài)圈,提升客戶體驗,改善客戶口碑,同時推動商業(yè)模式創(chuàng)新,向金融、電商等行業(yè)提供安全服務(wù)。
騷擾電話治理是繼垃圾短信之后又一信息安全挑戰(zhàn)。騷擾電話黑色產(chǎn)業(yè)鏈完善,撥打工具成熟,投入少、回報高,準入門檻低,撥打技術(shù)和方式持續(xù)演進。而騷擾電話治理難度大,技術(shù)門檻高。騷擾電話攻易守難的特點,使得攻守雙方的投入嚴重失衡。
目前,騷擾電話治理主要借助眾標眾享和信令分析兩種技術(shù)方式完成。
互聯(lián)網(wǎng)企業(yè)主要通過眾標眾享的方式治理騷擾電話。眾標,即用戶通過移動客戶端主動標注騷擾電話,客戶端將標注上傳服務(wù)器;眾享,即服務(wù)器收集統(tǒng)計標注的騷擾電話,向使用移動客戶端的用戶提示騷擾電話標注次數(shù)。但在使用移動客戶端的用戶中,能夠主動標注騷擾電話的用戶僅占20%;且在被標注的騷擾電話中,號碼申訴率高達30%。由此可見,互聯(lián)網(wǎng)企業(yè)治理騷擾電話的價值不在于單個號碼標注的準確性,而在于整體經(jīng)過標注的碼號資源及其衍生的增值服務(wù)。
事實上,通過眾標眾享方式識別騷擾電話依然會存在許多不足之處:
1)僅以標注作為判別依據(jù),判別依據(jù)單一,判別粒度粗,缺乏差異化。
2)用戶主觀標注,標注隨意,難以形成統(tǒng)一的標注標準,公眾號碼準確,個人號碼申訴率高。
3)一般標注數(shù)量達到一定的閾值才被認為是騷擾電話,識別出騷擾電話的時間相對滯后。
4)對于蘋果終端,通過將騷擾號碼暴力插入通訊錄的方式進行來電提醒,用戶體驗差。
中國移動是最早開展騷擾電話治理工作的國內(nèi)運營商,其綜合運用信令分析和眾標眾享兩種方式治理騷擾電話。
1)在網(wǎng)絡(luò)側(cè)攔截響一聲電話、詐騙電話和虛假主叫
中國移動在洛陽建立騷擾電話集中處置平臺,采集各省智能網(wǎng)或交換機上疑似騷擾電話的信令,通過信令分析識別騷擾電話;各省通過黑名單攔截響一聲電話。
中國移動在浙江等省分別建立國際詐騙電話攔截系統(tǒng),攔截國際接入的虛假主叫電話。
2019年,中國移動共攔截國際詐騙電話1016萬次、垃圾短彩信48.1億條[9]、“呼死你”電話17.6億次[10]。
2)在終端側(cè)提示中介推銷電話、快遞送餐電話和黃頁電話
中國移動與搜狗、恒安嘉新等廠商合作,獲取第三方騷擾號碼庫,結(jié)合多個自有客戶端產(chǎn)品,以眾標模式治理騷擾電話,比如江蘇移動與恒安嘉新合作研發(fā)“移動手機衛(wèi)士”、南方基地與搜狗合作“和通訊錄”等。其在云端服務(wù)器設(shè)有號碼管理系統(tǒng),具有號碼仲裁和分析能力,以此進行號碼庫的維護。
北京移動與360合作基于彩印的騷擾電話提醒業(yè)務(wù),2015年4月進入商用階段[11]。
中國聯(lián)通目前主要通過眾標眾享的方式治理騷擾電話。一方面與互聯(lián)網(wǎng)廠商“電話邦”合作,將其騷擾電話識別功能集成在“聯(lián)通營業(yè)廳”Android客戶端中,向用戶提供騷擾電話提醒及攔截服務(wù)。另一方面,與搜狗、百度等廠商共同合作基于閃信的騷擾電話提醒業(yè)務(wù),已在全國部署上線。
運營商開展騷擾電話治理工作主要可以使用兩種技術(shù)模式。一種是直接集成互聯(lián)網(wǎng)企業(yè)等第三方的騷擾號碼資源,另一種是借助自身電信資源優(yōu)勢,使用數(shù)據(jù)分析平臺。本文對兩種工作模式進行了對比分析,如表1所示。
表1 工作技術(shù)模式對比
通過對比可以看出,運營商借助電信資源優(yōu)勢,使用數(shù)據(jù)分析平臺治理騷擾電話優(yōu)選于直接集成互聯(lián)網(wǎng)企業(yè)等第三方的騷擾號碼資源。
本文基于某運營商現(xiàn)網(wǎng)的話單數(shù)據(jù)展開研究,采用機器學習技術(shù),提出一種基于語音話單分析的騷擾電話識別模型,并對模型進行了驗證。
2.1.1 基本思路
1)前提假設(shè):使用互聯(lián)網(wǎng)標注數(shù)據(jù)作為樣本,其對騷擾號碼的標注是可信的。
2)分析過程:①互聯(lián)網(wǎng)未標注號碼未必不是騷擾電話,即互聯(lián)網(wǎng)未標注數(shù)據(jù)不完全可信,不宜作為樣本。因此,訓(xùn)練樣本僅包含騷擾號碼數(shù)據(jù),無正常號碼數(shù)據(jù)。但在測試樣本中,既有騷擾號碼數(shù)據(jù),也有正常號碼數(shù)據(jù)。所以,對于測試樣本的標注,不能使用分類算法。②訓(xùn)練樣本中,互聯(lián)網(wǎng)對騷擾電話數(shù)據(jù)進行了詐騙、廣告推銷、房產(chǎn)中介、快遞、送餐等進一步標注。所以,當測試樣本為騷擾號碼數(shù)據(jù)時,可以使用分類算法進行二次標注。
通過上述分析可以得出,首先通過聚類算法對訓(xùn)練樣本進行學習分析,然后使用相似性檢測對測試樣本進行一次標注,最后在一次標注的基礎(chǔ)上使用分類算法對測試樣本進行二次標注。
2.1.2 模型設(shè)計
2.1.2.1 一次標注模型
1)學習階段
①使用皮爾遜相關(guān)系數(shù)對訓(xùn)練樣本進行相關(guān)性檢測,確定學習指標,通常選取主叫次數(shù)、主叫占比、被叫不重復(fù)率、平均通話時長、位置區(qū)碼(LAC)不同個數(shù)五個指標。②對訓(xùn)練樣本使用標準差標準化(Z-score)公式進行歸一化處理,其中為均值,為標準差。③使用最大期望算法(EM)找到訓(xùn)練樣本的最佳聚類個數(shù),并建立高斯混合模型(GMM),其中為第個高斯的權(quán)重,為第個高斯的概率密度,得到個均值和標準差。
2)預(yù)測階段
①對測試樣本使用標準差標準化公式進行歸一化處理。②使用三倍標準差法計算每個測試樣本點與所有之間的標準差當其中任一個小于其所在類別的3倍時,將放入集合,否則將放入集合N。③集合即為測試樣本中的騷擾號碼。
2.1.2.2 二次標注模型
1)學習階段
①使用皮爾遜相關(guān)系數(shù)對訓(xùn)練樣本進行相關(guān)性檢測,確定學習指標,通常選取主叫次數(shù)、主叫占比、被叫不重復(fù)率、平均通話時長四個指標。
2)預(yù)測階段
使用上述分類算法對已標注騷擾的測試樣本進行分類,得到測試樣本的二次標注。
2.2.1 一次標注實驗
1)訓(xùn)練樣本選取
我們采用某運營商連續(xù)6天的全國語音話單數(shù)據(jù),其中共包含812319328個號碼,產(chǎn)生5969963634條通話記錄。通過主叫次數(shù)大于10,主叫占比大于0.6,被叫不重復(fù)率大于0.6的規(guī)則篩選出7916372個號碼進行隨機采樣,采出142267個號碼。然后對采出號碼進行隨機采樣,采出142267個號碼。
2)訓(xùn)練樣本學習
①聯(lián)通號碼學習結(jié)果
對被標注為騷擾的7078個聯(lián)通號碼通過主叫次數(shù)、主叫占比、被叫不重復(fù)率、平均通話時長、LAC不同個數(shù)等指標進行學習,結(jié)果顯示最佳聚類個數(shù)為4,如圖1所示。
圖1 聯(lián)通號碼學習結(jié)果圖
②非聯(lián)通號碼學習結(jié)果
對被標注為騷擾的30797個聯(lián)通號碼通過:主叫次數(shù)、主叫占比、被叫不重復(fù)率、平均通話時長等指標進行學習,結(jié)果顯示最佳聚類個數(shù)為4。結(jié)果如圖2所示。
圖2 非聯(lián)通號碼學習結(jié)果圖
3)測試樣本選取
在上述篩選出的7916372個號碼中,去除隨機采樣的142267個號碼,得到7774105個號碼,其中聯(lián)通號碼4329554個。
4)測試樣本預(yù)測
①聯(lián)通號碼預(yù)測結(jié)果
我們對4329554個未知標注的聯(lián)通號碼進行預(yù)測,經(jīng)過分析得到55116個(疑似)騷擾號碼并對其標注。然后通過互聯(lián)網(wǎng)爬蟲的方法爬取這55116個疑似騷擾號碼,得到24184個被標注為騷擾的號碼。
②非聯(lián)通號碼預(yù)測結(jié)果
我們對3444551個未知標注的非聯(lián)通號碼進行預(yù)測,經(jīng)過分析得到166333個(疑似)騷擾號碼并對其標注。然后通過互聯(lián)網(wǎng)爬蟲的方法爬取這166333個疑似騷擾號碼,得到137192個被標注為騷擾的號碼。
部分結(jié)果如圖3所示。
圖3 測試樣本部分結(jié)果預(yù)測圖回撥驗證
為了驗證騷擾電話識別準確率以及持續(xù)優(yōu)化模型,本文選擇了部分預(yù)測結(jié)果中互聯(lián)網(wǎng)未標記的疑似騷擾號碼進行了人工撥測。
本文共計對562個互聯(lián)網(wǎng)未標記的疑似騷擾電話號碼進行了人工撥測,撥測結(jié)果如表2、表3所示。
表2 人工撥測結(jié)果表
表3 部分撥測驗證結(jié)果
2.2.2 二次標注實驗
我們對85087個帶有二次標注的騷擾號碼進行實驗,其中包括廣告推銷號碼16599個,房產(chǎn)中介號碼9434個,快遞送餐號碼51530個,騷擾詐騙號碼7524個。本次選取主叫次數(shù)、主叫占比、被叫不重復(fù)率、平均通話時長等特征進行實驗,利用決策樹、邏輯回歸、支持向量機(SVM)等分類算法,采用十折交叉驗證,即把數(shù)據(jù)分為10份,1份作為訓(xùn)練數(shù)據(jù),其他9份作為測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)得到的模型應(yīng)用到測試數(shù)據(jù),將模型的判定值和數(shù)據(jù)本來的標記值進行對比,得到判定率,循環(huán)執(zhí)行10次。
1)第一輪分類,如圖4所示。
圖4 第一輪分類結(jié)果圖
2)第二輪分類,如圖5所示。
圖5 第二輪分類結(jié)果圖
本文將房產(chǎn)中介和廣告推銷合并為一類進行分類。
綜上可知,將騷擾電話分為騷擾詐騙、中介推銷、快遞送餐三類進行識別效果最好,同時使用決策樹算法對騷擾電話進行分類效果最好,準確率能夠達到75%以上。
對于騷擾電話識別技術(shù)的應(yīng)用,目前國內(nèi)運營商主要通過手機終端應(yīng)用(APP)向用戶提供騷擾電話提醒服務(wù)。本文基于某運營商現(xiàn)網(wǎng)業(yè)務(wù),總結(jié)出四種騷擾電話提醒方案,并對每個方案的優(yōu)缺點進行說明。
基于本模型構(gòu)建的騷擾電話識別系統(tǒng)以大數(shù)據(jù)分析系統(tǒng)為基礎(chǔ)平臺,采用機器學習的方法對騷擾號碼的歷史通信行為進行挖掘分析,發(fā)現(xiàn)騷擾號碼的通信行為特征,以此識別新的騷擾號碼,同時結(jié)合第三方號碼庫對識別出的疑似騷擾號碼進行驗證和校準,最終形成有效的數(shù)據(jù)服務(wù)能力。
目前運營商炫鈴/彩鈴業(yè)務(wù)平臺在被叫側(cè)采集呼叫信令,此平臺對信令進行解析,將主被叫號碼發(fā)送至USSD平臺,然后USSD平臺向騷擾電話識別系統(tǒng)查詢主叫號碼是否騷擾電話,如果主叫號碼為騷擾電話,那么騷擾電話識別系統(tǒng)將該電話號碼騷擾類型發(fā)送至USSD平臺,然后USSD平臺將該號碼騷擾類型推送至被叫用戶終端顯示。其流程圖如圖6所示。
圖6 基于炫鈴的騷擾電話提醒方案流程圖
該方案適用于全網(wǎng)用戶,對騷擾電話的提醒幾乎沒有時延,用戶體驗好,但需要用戶開通炫鈴/彩鈴業(yè)務(wù)。另外,該方案需要運營商對炫鈴/彩鈴業(yè)務(wù)平臺進行升級改造。
用戶SIM/USIM中安裝Applet,負責監(jiān)聽用戶來電。當用戶來電時,Applet獲取主被叫號碼,通過數(shù)據(jù)短信方式上傳至SIM/USIM卡平臺,該平臺解析數(shù)據(jù)短信,將主被叫號碼發(fā)送至騷擾電話識別系統(tǒng),如果主叫號碼為騷擾電話,那么騷擾電話識別系統(tǒng)將該電話號碼騷擾類型發(fā)送至USSD平臺,然后USSD平臺將該號碼騷擾類型推送至被叫用戶終端顯示。其流程圖如圖7所示。
圖7 基于SIM/USIM的騷擾電話提醒方案流程圖
該方案部署方便,實現(xiàn)容易,無需運營商進行現(xiàn)網(wǎng)改造。但該方案僅適用于SIM/USIM是JAVA卡的用戶,而且騷擾電話提醒存在一定時延。
當主叫號碼呼叫被叫號碼時,被叫用戶忙音、關(guān)機或不在服務(wù)區(qū),則交換機將主叫號碼發(fā)送至電話秘書/電話管家業(yè)務(wù)平臺,通過該平臺向騷擾電話識別系統(tǒng)查詢主叫號碼是否騷擾電話。如果主叫號碼為騷擾電話,則騷擾電話識別系統(tǒng)將該主叫號碼騷擾類型發(fā)送至電話秘書/電話管家平臺,最后電話秘書/電話管家平臺將帶有該主叫號碼騷擾類型的漏電提醒短信在被叫用戶閑時或開機時通過短信中心發(fā)送給被叫用戶。其流程圖如圖8所示。
圖8 基于電話秘書/電話管家的騷擾電話提醒方案流程圖
該方案僅針對開通了電話秘書/電話管家業(yè)務(wù)的用戶,通過該方案可以進一步增加用戶黏度,但需要運營商對電話秘書/電話管家業(yè)務(wù)平臺進行升級改造。
微信用戶通過公眾號發(fā)送號碼至微信公眾平臺,然后經(jīng)過該平臺轉(zhuǎn)發(fā)號碼查詢請求至騷擾電話識別系統(tǒng),通過該識別系統(tǒng)再將號碼查詢結(jié)果發(fā)送至微信公眾平臺,最后微信用戶可通過公眾號查詢結(jié)果。其流程圖如圖9所示。
該方案可作為其他提醒方案的補充,集成在運營商相關(guān)的官方微信中,以提升用戶體驗,增加用戶黏度。
本文基于某運營商現(xiàn)網(wǎng)話單數(shù)據(jù),采用機器學習方法,提出一種基于語音話單分析的騷擾電話識別模型,并對模型進行了驗證。驗證結(jié)果表明,該模型能夠有效識別騷擾電話,與互聯(lián)網(wǎng)企業(yè)相比具有識別范圍廣、準度高的特點。同時,本文與運營商的現(xiàn)網(wǎng)業(yè)務(wù)相結(jié)合,總結(jié)出四種騷擾電話提醒方案,并對每個方案的優(yōu)缺點進行說明,以期對運營商開展騷擾電話提醒業(yè)務(wù)具有一定的借鑒和指導(dǎo)意義。
騷擾電話問題已經(jīng)成為產(chǎn)業(yè)痛點,騷擾電話治理將成為信息安全領(lǐng)域的新課題。隨著國家進一步加強對電信企業(yè)的監(jiān)管要求和考核力度,各運營商將會逐步開展騷擾電話的治理工作,屆時騷擾電話識別技術(shù)也將有突飛猛進的發(fā)展。