亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合自注意力機(jī)制的詐騙電話分類模型＊

2022-11-10 06:40:10姜彤彤許鴻奎周俊杰張子楓盧江坤胡文燁

計(jì)算機(jī)時(shí)代 2022年11期

姜彤彤，許鴻奎,2，周俊杰，張子楓，盧江坤，胡文燁

(1.山東建筑大學(xué)信息與電氣工程學(xué)院，山東濟(jì)南 250000；2.山東省智能建筑重點(diǎn)實(shí)驗(yàn)室)

0 引言

隨著科學(xué)技術(shù)的發(fā)展，我國(guó)通信行業(yè)迅速崛起。在智能設(shè)備使用規(guī)模和網(wǎng)民數(shù)量不斷增加的同時(shí)，電信網(wǎng)絡(luò)詐騙犯罪也在不斷升級(jí)，給國(guó)家和人民帶來(lái)了巨大損失，更是在社會(huì)上造成極其惡劣的影響，盡管近幾年國(guó)家對(duì)電信詐騙的治理力度不斷加大，但個(gè)別地區(qū)形勢(shì)依舊嚴(yán)峻。

電話詐騙是指以電話為載體，犯罪分子通過(guò)冒充淘寶客服、冒充熟人、冒充公檢法等手段對(duì)受害人實(shí)施詐騙的一類犯罪行為，具有詐騙套路多、詐騙金額大、詐騙成功率高的特點(diǎn)。盡管各種治理手段不斷地更新、迭代，但當(dāng)今社會(huì)，個(gè)人信息保護(hù)意識(shí)薄弱，姓名、銀行卡、手機(jī)號(hào)碼等個(gè)人隱私信息的泄露嚴(yán)重，人們往往防不勝防，尤其在老年人群體中，電話詐騙仍占有很高的比重，因此，不斷完善對(duì)電話詐騙的治理方案、加大打擊力度刻不容緩。

傳統(tǒng)的電話詐騙治理方式主要是基于信令數(shù)據(jù)，通過(guò)對(duì)主叫號(hào)碼的結(jié)構(gòu)進(jìn)行分析，以及結(jié)合投訴數(shù)據(jù)，建立黑白名單庫(kù)進(jìn)行實(shí)時(shí)分析，實(shí)現(xiàn)對(duì)詐騙號(hào)碼的攔截處理，但此種方式只能實(shí)現(xiàn)對(duì)有一定規(guī)律性的號(hào)碼進(jìn)行攔截，犯罪分子通過(guò)頻繁更換號(hào)碼或使用改號(hào)軟件模擬真實(shí)號(hào)碼等手段可輕松繞開這種反詐騙手段，可見傳統(tǒng)的攔截方式無(wú)法實(shí)現(xiàn)精準(zhǔn)、實(shí)時(shí)攔截，已無(wú)法適應(yīng)當(dāng)前的嚴(yán)峻形勢(shì)。

機(jī)器學(xué)習(xí)的迅速發(fā)展，為電話詐騙的治理打開了新思路。文獻(xiàn)[1]針對(duì)傳統(tǒng)的騷擾電話識(shí)別誤報(bào)問(wèn)題，提出一種基于用戶呼叫行為的識(shí)別算法，并引入隨機(jī)森林，識(shí)別精度有較大的提升。文獻(xiàn)[2]提出基于大數(shù)據(jù)的詐騙電話分析技術(shù)，通過(guò)建立分析模型，對(duì)海量呼叫信令進(jìn)行分析，實(shí)現(xiàn)了通話結(jié)束后3～5min內(nèi)輸出疑似受害用戶號(hào)碼，通過(guò)及時(shí)回訪達(dá)到事前預(yù)防的目的。文獻(xiàn)[3]通過(guò)提取詐騙電話特征、分析通信行為探索結(jié)果等建立基于隨機(jī)森林的詐騙電話普適模型，對(duì)詐騙電話號(hào)碼進(jìn)行了有效識(shí)別。文獻(xiàn)[4]等通過(guò)對(duì)用戶通話行為、上網(wǎng)行為、用戶基本屬性、手機(jī)終端信息等進(jìn)行綜合分析，建立基于機(jī)器學(xué)習(xí)的詐騙電話識(shí)別模型，有效提高了詐騙電話的識(shí)別率。

機(jī)器學(xué)習(xí)的相關(guān)技術(shù)和工具在詐騙電話治理上的應(yīng)用，使得反詐騙手段有了較大的提升，而神經(jīng)網(wǎng)絡(luò)算法較傳統(tǒng)的機(jī)器學(xué)習(xí)算法，具有算法更強(qiáng)大、準(zhǔn)確率更高的優(yōu)勢(shì)，因此，提出了一種基于自然語(yǔ)言處理技術(shù)（Natural Language Processing，NLP）的詐騙電話識(shí)別模型，首先將電話語(yǔ)音轉(zhuǎn)成文本，本文的研究是對(duì)語(yǔ)音識(shí)別后的文字進(jìn)行處理，利用文本分類技術(shù)對(duì)文本進(jìn)行預(yù)處理、特征提取、分類等操作，達(dá)到識(shí)別詐騙電話的目的，為詐騙電話的治理提供了一種新的技術(shù)選擇。

1 相關(guān)工作

自然語(yǔ)言處理技術(shù)是近幾年的研究熱點(diǎn)，已廣泛應(yīng)用于情感分析、垃圾郵件檢測(cè)、詞性標(biāo)注、智能翻譯等領(lǐng)域?；ヂ?lián)網(wǎng)的迅速崛起，也伴隨產(chǎn)生了大量的數(shù)據(jù)信息，包括文字、圖片、聲音等，其中，文本資源占據(jù)了一大部分，我們獲取的信息有很大一部分都來(lái)自于文本，文本分類的目標(biāo)是自動(dòng)對(duì)文本進(jìn)行分門別類，幫助人們從海量的文本中挖掘出有用的信息。文本分類的研究大致分為三類：基于規(guī)則、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法?；谝?guī)則的方法是通過(guò)人工定義的規(guī)則對(duì)文本進(jìn)行分類，但這種方法依賴于專家的領(lǐng)域知識(shí)，須耗費(fèi)大量的人力物力，且編寫的規(guī)則只適用一個(gè)領(lǐng)域，遷移性差；基于機(jī)器學(xué)習(xí)的方法以支持向量機(jī)、樸素貝葉斯、決策樹等為代表，較基于規(guī)則的方法，機(jī)器學(xué)習(xí)的方法有了很大的進(jìn)步，但是由于文本表示巨大的數(shù)據(jù)量，對(duì)機(jī)器學(xué)習(xí)算法的運(yùn)行效率提出了新的挑戰(zhàn)；深度學(xué)習(xí)的快速發(fā)展，為學(xué)者在文本領(lǐng)域的研究打開了新的大門，文獻(xiàn)[5]首次提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類。文獻(xiàn)[6]提出一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)的分類模型來(lái)提取微博情感分析任務(wù)中特有的情感信息。文獻(xiàn)[7]將卷積神經(jīng)網(wǎng)絡(luò)用于Twitter的極性判斷任務(wù)。

注意力機(jī)制源于人類大腦的視覺信號(hào)處理機(jī)制，本質(zhì)是對(duì)信息資源的高效分配，被廣泛應(yīng)用在圖像處理、自然語(yǔ)言處理等領(lǐng)域，谷歌在2017 年提出了Transformer 模型[8]，將注意力機(jī)制的優(yōu)勢(shì)發(fā)揮到了極致，同時(shí)具有并行計(jì)算和抽取長(zhǎng)距離特征的能力。Transformer 僅由自注意力機(jī)制和前饋連接層疊加組成，具有良好的特征抽取能力。很多學(xué)者將自注意力機(jī)制用于不同的研究領(lǐng)域，并且取得了不錯(cuò)的效果，文獻(xiàn)[9]將其用于解決長(zhǎng)文本的相似度計(jì)算問(wèn)題，提高了對(duì)深層次的語(yǔ)義信息抽取能力，文獻(xiàn)[10]將其用于推薦系統(tǒng)來(lái)提取不同子空間的特征信息。受此啟發(fā)，本文將自注意力機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合，用于詐騙電話的識(shí)別任務(wù)，CNN 具有捕捉文本的局部語(yǔ)義特征和并行計(jì)算的優(yōu)勢(shì)，利用自注意力機(jī)制對(duì)CNN輸出的淺層特征進(jìn)一步提取其序列的內(nèi)部依賴關(guān)系，提高模型的表征能力，分類效果更好。

2 系統(tǒng)模型

2.1 模型總體架構(gòu)

本文構(gòu)建了一種基于融合自注意力機(jī)制和CNN的詐騙電話識(shí)別模型CNN-SA，結(jié)構(gòu)如圖1所示，由詞嵌入層、卷積層、自注意力層和分類層組成。

圖1 CNN-SA結(jié)構(gòu)圖

2.2 詞嵌入層

電話文本輸入分類模型之前，首先需要進(jìn)行文本預(yù)處理，獲取文本的詞向量表示。目前常用的主流方法是以Word2Vec[11]和GloVe[12]為代表的詞語(yǔ)的分布式表示，這種方法可以表示出詞與詞之間的相似性關(guān)系，且向量維度低，避免了維度爆炸問(wèn)題。本文的詞嵌入層選擇的是基于Word2Vec 的預(yù)訓(xùn)練詞向量表示，向量維度為300 維，該模型按訓(xùn)練方式分為Skip-Gram和CBOW 兩種，Skip-Gram是由當(dāng)前詞來(lái)預(yù)測(cè)上下文詞，而CBOW 正相反，是由上下文詞來(lái)預(yù)測(cè)當(dāng)前詞，其結(jié)構(gòu)分別如圖2和圖3所示。

圖2 Skip-gram

圖3 CBOW

2.3 卷積層

TextCNN 的原理是將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本分類任務(wù)中，通過(guò)設(shè)置不同大小的卷積核可以更好地捕捉句子的局部特征。TextCNN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，包括卷積層、池化層和全連接層。卷積層的輸入是用Word2Vec 或者GloVe 方法預(yù)訓(xùn)練好的詞向量組成的嵌入層；在卷積層中，卷積核的寬度與詞向量的維度一致，高度可以自行設(shè)置為2、3、4等，實(shí)現(xiàn)對(duì)不同局部大小的特征進(jìn)行提取。

圖4 TextCNN結(jié)構(gòu)圖

卷積操作的過(guò)程可以表述為：

其中，X為輸入詞向量，W為權(quán)重向量，b為偏移量，?表示卷積運(yùn)算，f(·)為激活函數(shù)。

在池化層中，為減少重要信息丟失，放棄最常用的最大池化操作，選擇平均池化，可以更加突出整體信息，通過(guò)池化運(yùn)算對(duì)卷積層輸出進(jìn)行下采樣，一方面達(dá)到特征降維的作用，另一方面也極大減小了參數(shù)量，可以防止過(guò)擬合。經(jīng)過(guò)池化層后，每個(gè)卷積核得到一個(gè)值，最后將這些值拼接起來(lái)通過(guò)全連接層輸入softmax層進(jìn)行分類。

2.4 自注意力層

注意力機(jī)制的提出，大大提高了人類對(duì)信息處理的效率和利用率，自注意力機(jī)制是注意力機(jī)制的一種特殊形式，較注意力機(jī)制，它更擅長(zhǎng)捕捉特征的內(nèi)部相關(guān)性，減少了對(duì)外部信息的依賴，其原理是通過(guò)縮放點(diǎn)積注意力(Scaled Dot-Product Attention,SDA)和通過(guò)向量點(diǎn)積進(jìn)行相似度計(jì)算得到注意力值來(lái)實(shí)現(xiàn)的。SDA 的結(jié)構(gòu)如圖5 所示，首先Q、K 通過(guò)點(diǎn)積運(yùn)算，進(jìn)行相似性計(jì)算，然后使用softmax 函數(shù)進(jìn)行歸一化計(jì)算，最后結(jié)果乘以V，得到輸出，計(jì)算過(guò)程表示為：

圖5 SDA結(jié)構(gòu)圖

其中，Q、K、V分別為查詢矩陣、鍵矩陣、值矩陣，為調(diào)節(jié)因子，使得Q、K的內(nèi)積不至于過(guò)大。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文采用的數(shù)據(jù)集為自己構(gòu)建的電話文本數(shù)據(jù)集，包含詐騙文本和非詐騙文本各約5000 條，是從微博、知乎、百度等網(wǎng)站抓取整理的，其中詐騙文本包含近幾年頻繁出現(xiàn)的網(wǎng)絡(luò)貸款、網(wǎng)絡(luò)刷單、冒充客服退款、虛假購(gòu)物、注銷“校園貸”、買賣游戲幣等各類電話詐騙類型。本文實(shí)驗(yàn)的訓(xùn)練集、驗(yàn)證集和測(cè)試集大小分別劃分為6000、3000和1200。

3.2 實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)參數(shù)設(shè)置

實(shí)驗(yàn)的硬件環(huán)境為：操作系統(tǒng)為Windows 10，GPU 為NVIDIA GTX1650，CPU 為i5-10300H；軟件環(huán)境為：Python 3.7，學(xué)習(xí)框架Pytorch 1.5。

在電話文本數(shù)據(jù)集上，采用Word2vec詞嵌入方法訓(xùn)練詞向量，詞向量的維度設(shè)置為300維。CNN-SA的參數(shù)設(shè)置為：卷積核的大小為(2,3,4)，數(shù)量為256，步長(zhǎng)為1，卷積層后采用relu 激活函數(shù)，池化層采用平均池化。經(jīng)過(guò)反復(fù)實(shí)驗(yàn)，提出模型的最優(yōu)學(xué)習(xí)率為0.0001，batch為128，epochs為30，dropout的比率為0.5。

3.3 實(shí)驗(yàn)結(jié)果

為驗(yàn)證本文提出CNN-SA 的有效性，將電話文本數(shù)據(jù)集分別在以下幾種模型上進(jìn)行對(duì)比實(shí)驗(yàn)分析。

⑴ TextCNN：?jiǎn)我籘extCNN 模型提取序列局部特征，參數(shù)設(shè)置與CNN-SA中TextCNN模型相同。

⑵ BiLSTM 與BiGRU：?jiǎn)我浑p向LSTM 與雙向GRU結(jié)構(gòu)，參數(shù)設(shè)置兩者相同。

⑶ BiLSTM-attention 與BiGRU-attention：在雙向LSTM 和雙向GRU 結(jié)構(gòu)后，引入傳統(tǒng)的attention 機(jī)制，提取關(guān)鍵特征。

⑷CNN-SA：本文提出的一種的融合自注意力機(jī)制和CNN的混合分類模型。

實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)為準(zhǔn)確率Accuracy、精確率Precision、召回率Recall和F1值，在電話文本上的實(shí)驗(yàn)結(jié)果如表1所示。

表1 實(shí)驗(yàn)結(jié)果

3.4 結(jié)果分析

從表1 可以看出，提出模型CNN-SA 的各項(xiàng)衡量指標(biāo)均明顯優(yōu)于單一TextCNN、BiLSTM 和BiGRU 模型以及BiLSTM-attention 和BiGRU-attention 模型，這表明融合模型CNN-SA 提取的特征信息更充分，因而分類效果最好。

在準(zhǔn)確率方面，BiGRU模型的性能要優(yōu)于BiLSTM模型，有0.42%的提升；BiLSTM-attention較單一BiLSTM模型提高了0.58%，BiGRU-attention 較單一BiGRU模型提高了0.33%，這表明，引入attention 機(jī)制可以使模型更好地提取關(guān)鍵信息，從而提升分類性能；而所提模型CNN-SA 比單一TextCNN 模型提高了1.75%，這是因?yàn)橐胱宰⒁饬C(jī)制，可以使模型更好地關(guān)注序列的內(nèi)部依賴關(guān)系，彌補(bǔ)了TextCNN 模型只關(guān)注局部信息的不足。

4 結(jié)束語(yǔ)

本文針對(duì)目前電信詐騙中案發(fā)率比較高的電話詐騙問(wèn)題，提出了一種基于NLP 的識(shí)別方案，建立融合自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的詐騙電話識(shí)別模型CNN-SA。首先利用詞嵌入模型Word2vec 獲取預(yù)處理后的文本的詞向量，并將其輸入TextCNN 模型，捕捉文本的局部特征信息，再利用自注意力機(jī)制進(jìn)一步提取電話文本序列內(nèi)部的依賴關(guān)系，最后將其輸入softmax層進(jìn)行分類。