姜彤彤,許鴻奎,2,周俊杰,張子楓,盧江坤,胡文燁
(1.山東建筑大學(xué)信息與電氣工程學(xué)院,山東 濟(jì)南 250000;2.山東省智能建筑重點(diǎn)實(shí)驗(yàn)室)
隨著科學(xué)技術(shù)的發(fā)展,我國(guó)通信行業(yè)迅速崛起。在智能設(shè)備使用規(guī)模和網(wǎng)民數(shù)量不斷增加的同時(shí),電信網(wǎng)絡(luò)詐騙犯罪也在不斷升級(jí),給國(guó)家和人民帶來(lái)了巨大損失,更是在社會(huì)上造成極其惡劣的影響,盡管近幾年國(guó)家對(duì)電信詐騙的治理力度不斷加大,但個(gè)別地區(qū)形勢(shì)依舊嚴(yán)峻。
電話詐騙是指以電話為載體,犯罪分子通過(guò)冒充淘寶客服、冒充熟人、冒充公檢法等手段對(duì)受害人實(shí)施詐騙的一類犯罪行為,具有詐騙套路多、詐騙金額大、詐騙成功率高的特點(diǎn)。盡管各種治理手段不斷地更新、迭代,但當(dāng)今社會(huì),個(gè)人信息保護(hù)意識(shí)薄弱,姓名、銀行卡、手機(jī)號(hào)碼等個(gè)人隱私信息的泄露嚴(yán)重,人們往往防不勝防,尤其在老年人群體中,電話詐騙仍占有很高的比重,因此,不斷完善對(duì)電話詐騙的治理方案、加大打擊力度刻不容緩。
傳統(tǒng)的電話詐騙治理方式主要是基于信令數(shù)據(jù),通過(guò)對(duì)主叫號(hào)碼的結(jié)構(gòu)進(jìn)行分析,以及結(jié)合投訴數(shù)據(jù),建立黑白名單庫(kù)進(jìn)行實(shí)時(shí)分析,實(shí)現(xiàn)對(duì)詐騙號(hào)碼的攔截處理,但此種方式只能實(shí)現(xiàn)對(duì)有一定規(guī)律性的號(hào)碼進(jìn)行攔截,犯罪分子通過(guò)頻繁更換號(hào)碼或使用改號(hào)軟件模擬真實(shí)號(hào)碼等手段可輕松繞開這種反詐騙手段,可見傳統(tǒng)的攔截方式無(wú)法實(shí)現(xiàn)精準(zhǔn)、實(shí)時(shí)攔截,已無(wú)法適應(yīng)當(dāng)前的嚴(yán)峻形勢(shì)。
機(jī)器學(xué)習(xí)的迅速發(fā)展,為電話詐騙的治理打開了新思路。文獻(xiàn)[1]針對(duì)傳統(tǒng)的騷擾電話識(shí)別誤報(bào)問(wèn)題,提出一種基于用戶呼叫行為的識(shí)別算法,并引入隨機(jī)森林,識(shí)別精度有較大的提升。文獻(xiàn)[2]提出基于大數(shù)據(jù)的詐騙電話分析技術(shù),通過(guò)建立分析模型,對(duì)海量呼叫信令進(jìn)行分析,實(shí)現(xiàn)了通話結(jié)束后3~5min內(nèi)輸出疑似受害用戶號(hào)碼,通過(guò)及時(shí)回訪達(dá)到事前預(yù)防的目的。文獻(xiàn)[3]通過(guò)提取詐騙電話特征、分析通信行為探索結(jié)果等建立基于隨機(jī)森林的詐騙電話普適模型,對(duì)詐騙電話號(hào)碼進(jìn)行了有效識(shí)別。文獻(xiàn)[4]等通過(guò)對(duì)用戶通話行為、上網(wǎng)行為、用戶基本屬性、手機(jī)終端信息等進(jìn)行綜合分析,建立基于機(jī)器學(xué)習(xí)的詐騙電話識(shí)別模型,有效提高了詐騙電話的識(shí)別率。
機(jī)器學(xué)習(xí)的相關(guān)技術(shù)和工具在詐騙電話治理上的應(yīng)用,使得反詐騙手段有了較大的提升,而神經(jīng)網(wǎng)絡(luò)算法較傳統(tǒng)的機(jī)器學(xué)習(xí)算法,具有算法更強(qiáng)大、準(zhǔn)確率更高的優(yōu)勢(shì),因此,提出了一種基于自然語(yǔ)言處理技術(shù)(Natural Language Processing,NLP)的詐騙電話識(shí)別模型,首先將電話語(yǔ)音轉(zhuǎn)成文本,本文的研究是對(duì)語(yǔ)音識(shí)別后的文字進(jìn)行處理,利用文本分類技術(shù)對(duì)文本進(jìn)行預(yù)處理、特征提取、分類等操作,達(dá)到識(shí)別詐騙電話的目的,為詐騙電話的治理提供了一種新的技術(shù)選擇。
自然語(yǔ)言處理技術(shù)是近幾年的研究熱點(diǎn),已廣泛應(yīng)用于情感分析、垃圾郵件檢測(cè)、詞性標(biāo)注、智能翻譯等領(lǐng)域?;ヂ?lián)網(wǎng)的迅速崛起,也伴隨產(chǎn)生了大量的數(shù)據(jù)信息,包括文字、圖片、聲音等,其中,文本資源占據(jù)了一大部分,我們獲取的信息有很大一部分都來(lái)自于文本,文本分類的目標(biāo)是自動(dòng)對(duì)文本進(jìn)行分門別類,幫助人們從海量的文本中挖掘出有用的信息。文本分類的研究大致分為三類:基于規(guī)則、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法?;谝?guī)則的方法是通過(guò)人工定義的規(guī)則對(duì)文本進(jìn)行分類,但這種方法依賴于專家的領(lǐng)域知識(shí),須耗費(fèi)大量的人力物力,且編寫的規(guī)則只適用一個(gè)領(lǐng)域,遷移性差;基于機(jī)器學(xué)習(xí)的方法以支持向量機(jī)、樸素貝葉斯、決策樹等為代表,較基于規(guī)則的方法,機(jī)器學(xué)習(xí)的方法有了很大的進(jìn)步,但是由于文本表示巨大的數(shù)據(jù)量,對(duì)機(jī)器學(xué)習(xí)算法的運(yùn)行效率提出了新的挑戰(zhàn);深度學(xué)習(xí)的快速發(fā)展,為學(xué)者在文本領(lǐng)域的研究打開了新的大門,文獻(xiàn)[5]首次提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類。文獻(xiàn)[6]提出一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)的分類模型來(lái)提取微博情感分析任務(wù)中特有的情感信息。文獻(xiàn)[7]將卷積神經(jīng)網(wǎng)絡(luò)用于Twitter的極性判斷任務(wù)。
注意力機(jī)制源于人類大腦的視覺信號(hào)處理機(jī)制,本質(zhì)是對(duì)信息資源的高效分配,被廣泛應(yīng)用在圖像處理、自然語(yǔ)言處理等領(lǐng)域,谷歌在2017 年提出了Transformer 模型[8],將注意力機(jī)制的優(yōu)勢(shì)發(fā)揮到了極致,同時(shí)具有并行計(jì)算和抽取長(zhǎng)距離特征的能力。Transformer 僅由自注意力機(jī)制和前饋連接層疊加組成,具有良好的特征抽取能力。很多學(xué)者將自注意力機(jī)制用于不同的研究領(lǐng)域,并且取得了不錯(cuò)的效果,文獻(xiàn)[9]將其用于解決長(zhǎng)文本的相似度計(jì)算問(wèn)題,提高了對(duì)深層次的語(yǔ)義信息抽取能力,文獻(xiàn)[10]將其用于推薦系統(tǒng)來(lái)提取不同子空間的特征信息。受此啟發(fā),本文將自注意力機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,用于詐騙電話的識(shí)別任務(wù),CNN 具有捕捉文本的局部語(yǔ)義特征和并行計(jì)算的優(yōu)勢(shì),利用自注意力機(jī)制對(duì)CNN輸出的淺層特征進(jìn)一步提取其序列的內(nèi)部依賴關(guān)系,提高模型的表征能力,分類效果更好。
本文構(gòu)建了一種基于融合自注意力機(jī)制和CNN的詐騙電話識(shí)別模型CNN-SA,結(jié)構(gòu)如圖1所示,由詞嵌入層、卷積層、自注意力層和分類層組成。
圖1 CNN-SA結(jié)構(gòu)圖
電話文本輸入分類模型之前,首先需要進(jìn)行文本預(yù)處理,獲取文本的詞向量表示。目前常用的主流方法是以Word2Vec[11]和GloVe[12]為代表的詞語(yǔ)的分布式表示,這種方法可以表示出詞與詞之間的相似性關(guān)系,且向量維度低,避免了維度爆炸問(wèn)題。本文的詞嵌入層選擇的是基于Word2Vec 的預(yù)訓(xùn)練詞向量表示,向量維度為300 維,該模型按訓(xùn)練方式分為Skip-Gram和CBOW 兩種,Skip-Gram是由當(dāng)前詞來(lái)預(yù)測(cè)上下文詞,而CBOW 正相反,是由上下文詞來(lái)預(yù)測(cè)當(dāng)前詞,其結(jié)構(gòu)分別如圖2和圖3所示。
圖2 Skip-gram
圖3 CBOW
TextCNN 的原理是將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本分類任務(wù)中,通過(guò)設(shè)置不同大小的卷積核可以更好地捕捉句子的局部特征。TextCNN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,包括卷積層、池化層和全連接層。卷積層的輸入是用Word2Vec 或者GloVe 方法預(yù)訓(xùn)練好的詞向量組成的嵌入層;在卷積層中,卷積核的寬度與詞向量的維度一致,高度可以自行設(shè)置為2、3、4等,實(shí)現(xiàn)對(duì)不同局部大小的特征進(jìn)行提取。
圖4 TextCNN結(jié)構(gòu)圖
卷積操作的過(guò)程可以表述為:
其中,X為輸入詞向量,W為權(quán)重向量,b為偏移量,?表示卷積運(yùn)算,f(·)為激活函數(shù)。
在池化層中,為減少重要信息丟失,放棄最常用的最大池化操作,選擇平均池化,可以更加突出整體信息,通過(guò)池化運(yùn)算對(duì)卷積層輸出進(jìn)行下采樣,一方面達(dá)到特征降維的作用,另一方面也極大減小了參數(shù)量,可以防止過(guò)擬合。經(jīng)過(guò)池化層后,每個(gè)卷積核得到一個(gè)值,最后將這些值拼接起來(lái)通過(guò)全連接層輸入softmax層進(jìn)行分類。
注意力機(jī)制的提出,大大提高了人類對(duì)信息處理的效率和利用率,自注意力機(jī)制是注意力機(jī)制的一種特殊形式,較注意力機(jī)制,它更擅長(zhǎng)捕捉特征的內(nèi)部相關(guān)性,減少了對(duì)外部信息的依賴,其原理是通過(guò)縮放點(diǎn)積注意力(Scaled Dot-Product Attention,SDA)和通過(guò)向量點(diǎn)積進(jìn)行相似度計(jì)算得到注意力值來(lái)實(shí)現(xiàn)的。SDA 的結(jié)構(gòu)如圖5 所示,首先Q、K 通過(guò)點(diǎn)積運(yùn)算,進(jìn)行相似性計(jì)算,然后使用softmax 函數(shù)進(jìn)行歸一化計(jì)算,最后結(jié)果乘以V,得到輸出,計(jì)算過(guò)程表示為:
圖5 SDA結(jié)構(gòu)圖
其中,Q、K、V分別為查詢矩陣、鍵矩陣、值矩陣,為調(diào)節(jié)因子,使得Q、K的內(nèi)積不至于過(guò)大。
本文采用的數(shù)據(jù)集為自己構(gòu)建的電話文本數(shù)據(jù)集,包含詐騙文本和非詐騙文本各約5000 條,是從微博、知乎、百度等網(wǎng)站抓取整理的,其中詐騙文本包含近幾年頻繁出現(xiàn)的網(wǎng)絡(luò)貸款、網(wǎng)絡(luò)刷單、冒充客服退款、虛假購(gòu)物、注銷“校園貸”、買賣游戲幣等各類電話詐騙類型。本文實(shí)驗(yàn)的訓(xùn)練集、驗(yàn)證集和測(cè)試集大小分別劃分為6000、3000和1200。
實(shí)驗(yàn)的硬件環(huán)境為:操作系統(tǒng)為Windows 10,GPU 為NVIDIA GTX1650,CPU 為i5-10300H;軟件環(huán)境為:Python 3.7,學(xué)習(xí)框架Pytorch 1.5。
在電話文本數(shù)據(jù)集上,采用Word2vec詞嵌入方法訓(xùn)練詞向量,詞向量的維度設(shè)置為300維。CNN-SA的參數(shù)設(shè)置為:卷積核的大小為(2,3,4),數(shù)量為256,步長(zhǎng)為1,卷積層后采用relu 激活函數(shù),池化層采用平均池化。經(jīng)過(guò)反復(fù)實(shí)驗(yàn),提出模型的最優(yōu)學(xué)習(xí)率為0.0001,batch為128,epochs為30,dropout的比率為0.5。
為驗(yàn)證本文提出CNN-SA 的有效性,將電話文本數(shù)據(jù)集分別在以下幾種模型上進(jìn)行對(duì)比實(shí)驗(yàn)分析。
⑴ TextCNN:?jiǎn)我籘extCNN 模型提取序列局部特征,參數(shù)設(shè)置與CNN-SA中TextCNN模型相同。
⑵ BiLSTM 與BiGRU:?jiǎn)我浑p向LSTM 與雙向GRU結(jié)構(gòu),參數(shù)設(shè)置兩者相同。
⑶ BiLSTM-attention 與BiGRU-attention:在雙向LSTM 和雙向GRU 結(jié)構(gòu)后,引入傳統(tǒng)的attention 機(jī)制,提取關(guān)鍵特征。
⑷CNN-SA:本文提出的一種的融合自注意力機(jī)制和CNN的混合分類模型。
實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)為準(zhǔn)確率Accuracy、精確率Precision、召回率Recall和F1值,在電話文本上的實(shí)驗(yàn)結(jié)果如表1所示。
表1 實(shí)驗(yàn)結(jié)果
從表1 可以看出,提出模型CNN-SA 的各項(xiàng)衡量指標(biāo)均明顯優(yōu)于單一TextCNN、BiLSTM 和BiGRU 模型以及BiLSTM-attention 和BiGRU-attention 模型,這表明融合模型CNN-SA 提取的特征信息更充分,因而分類效果最好。
在準(zhǔn)確率方面,BiGRU模型的性能要優(yōu)于BiLSTM模型,有0.42%的提升;BiLSTM-attention較單一BiLSTM模型提高了0.58%,BiGRU-attention 較單一BiGRU模型提高了0.33%,這表明,引入attention 機(jī)制可以使模型更好地提取關(guān)鍵信息,從而提升分類性能;而所提模型CNN-SA 比單一TextCNN 模型提高了1.75%,這是因?yàn)橐胱宰⒁饬C(jī)制,可以使模型更好地關(guān)注序列的內(nèi)部依賴關(guān)系,彌補(bǔ)了TextCNN 模型只關(guān)注局部信息的不足。
本文針對(duì)目前電信詐騙中案發(fā)率比較高的電話詐騙問(wèn)題,提出了一種基于NLP 的識(shí)別方案,建立融合自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的詐騙電話識(shí)別模型CNN-SA。首先利用詞嵌入模型Word2vec 獲取預(yù)處理后的文本的詞向量,并將其輸入TextCNN 模型,捕捉文本的局部特征信息,再利用自注意力機(jī)制進(jìn)一步提取電話文本序列內(nèi)部的依賴關(guān)系,最后將其輸入softmax層進(jìn)行分類。