亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合自注意力機(jī)制的詐騙電話分類模型*

        2022-11-10 06:40:10姜彤彤許鴻奎周俊杰張子楓盧江坤胡文燁
        計(jì)算機(jī)時(shí)代 2022年11期
        關(guān)鍵詞:詐騙注意力卷積

        姜彤彤,許鴻奎,2,周俊杰,張子楓,盧江坤,胡文燁

        (1.山東建筑大學(xué)信息與電氣工程學(xué)院,山東 濟(jì)南 250000;2.山東省智能建筑重點(diǎn)實(shí)驗(yàn)室)

        0 引言

        隨著科學(xué)技術(shù)的發(fā)展,我國(guó)通信行業(yè)迅速崛起。在智能設(shè)備使用規(guī)模和網(wǎng)民數(shù)量不斷增加的同時(shí),電信網(wǎng)絡(luò)詐騙犯罪也在不斷升級(jí),給國(guó)家和人民帶來(lái)了巨大損失,更是在社會(huì)上造成極其惡劣的影響,盡管近幾年國(guó)家對(duì)電信詐騙的治理力度不斷加大,但個(gè)別地區(qū)形勢(shì)依舊嚴(yán)峻。

        電話詐騙是指以電話為載體,犯罪分子通過(guò)冒充淘寶客服、冒充熟人、冒充公檢法等手段對(duì)受害人實(shí)施詐騙的一類犯罪行為,具有詐騙套路多、詐騙金額大、詐騙成功率高的特點(diǎn)。盡管各種治理手段不斷地更新、迭代,但當(dāng)今社會(huì),個(gè)人信息保護(hù)意識(shí)薄弱,姓名、銀行卡、手機(jī)號(hào)碼等個(gè)人隱私信息的泄露嚴(yán)重,人們往往防不勝防,尤其在老年人群體中,電話詐騙仍占有很高的比重,因此,不斷完善對(duì)電話詐騙的治理方案、加大打擊力度刻不容緩。

        傳統(tǒng)的電話詐騙治理方式主要是基于信令數(shù)據(jù),通過(guò)對(duì)主叫號(hào)碼的結(jié)構(gòu)進(jìn)行分析,以及結(jié)合投訴數(shù)據(jù),建立黑白名單庫(kù)進(jìn)行實(shí)時(shí)分析,實(shí)現(xiàn)對(duì)詐騙號(hào)碼的攔截處理,但此種方式只能實(shí)現(xiàn)對(duì)有一定規(guī)律性的號(hào)碼進(jìn)行攔截,犯罪分子通過(guò)頻繁更換號(hào)碼或使用改號(hào)軟件模擬真實(shí)號(hào)碼等手段可輕松繞開這種反詐騙手段,可見傳統(tǒng)的攔截方式無(wú)法實(shí)現(xiàn)精準(zhǔn)、實(shí)時(shí)攔截,已無(wú)法適應(yīng)當(dāng)前的嚴(yán)峻形勢(shì)。

        機(jī)器學(xué)習(xí)的迅速發(fā)展,為電話詐騙的治理打開了新思路。文獻(xiàn)[1]針對(duì)傳統(tǒng)的騷擾電話識(shí)別誤報(bào)問(wèn)題,提出一種基于用戶呼叫行為的識(shí)別算法,并引入隨機(jī)森林,識(shí)別精度有較大的提升。文獻(xiàn)[2]提出基于大數(shù)據(jù)的詐騙電話分析技術(shù),通過(guò)建立分析模型,對(duì)海量呼叫信令進(jìn)行分析,實(shí)現(xiàn)了通話結(jié)束后3~5min內(nèi)輸出疑似受害用戶號(hào)碼,通過(guò)及時(shí)回訪達(dá)到事前預(yù)防的目的。文獻(xiàn)[3]通過(guò)提取詐騙電話特征、分析通信行為探索結(jié)果等建立基于隨機(jī)森林的詐騙電話普適模型,對(duì)詐騙電話號(hào)碼進(jìn)行了有效識(shí)別。文獻(xiàn)[4]等通過(guò)對(duì)用戶通話行為、上網(wǎng)行為、用戶基本屬性、手機(jī)終端信息等進(jìn)行綜合分析,建立基于機(jī)器學(xué)習(xí)的詐騙電話識(shí)別模型,有效提高了詐騙電話的識(shí)別率。

        機(jī)器學(xué)習(xí)的相關(guān)技術(shù)和工具在詐騙電話治理上的應(yīng)用,使得反詐騙手段有了較大的提升,而神經(jīng)網(wǎng)絡(luò)算法較傳統(tǒng)的機(jī)器學(xué)習(xí)算法,具有算法更強(qiáng)大、準(zhǔn)確率更高的優(yōu)勢(shì),因此,提出了一種基于自然語(yǔ)言處理技術(shù)(Natural Language Processing,NLP)的詐騙電話識(shí)別模型,首先將電話語(yǔ)音轉(zhuǎn)成文本,本文的研究是對(duì)語(yǔ)音識(shí)別后的文字進(jìn)行處理,利用文本分類技術(shù)對(duì)文本進(jìn)行預(yù)處理、特征提取、分類等操作,達(dá)到識(shí)別詐騙電話的目的,為詐騙電話的治理提供了一種新的技術(shù)選擇。

        1 相關(guān)工作

        自然語(yǔ)言處理技術(shù)是近幾年的研究熱點(diǎn),已廣泛應(yīng)用于情感分析、垃圾郵件檢測(cè)、詞性標(biāo)注、智能翻譯等領(lǐng)域?;ヂ?lián)網(wǎng)的迅速崛起,也伴隨產(chǎn)生了大量的數(shù)據(jù)信息,包括文字、圖片、聲音等,其中,文本資源占據(jù)了一大部分,我們獲取的信息有很大一部分都來(lái)自于文本,文本分類的目標(biāo)是自動(dòng)對(duì)文本進(jìn)行分門別類,幫助人們從海量的文本中挖掘出有用的信息。文本分類的研究大致分為三類:基于規(guī)則、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法?;谝?guī)則的方法是通過(guò)人工定義的規(guī)則對(duì)文本進(jìn)行分類,但這種方法依賴于專家的領(lǐng)域知識(shí),須耗費(fèi)大量的人力物力,且編寫的規(guī)則只適用一個(gè)領(lǐng)域,遷移性差;基于機(jī)器學(xué)習(xí)的方法以支持向量機(jī)、樸素貝葉斯、決策樹等為代表,較基于規(guī)則的方法,機(jī)器學(xué)習(xí)的方法有了很大的進(jìn)步,但是由于文本表示巨大的數(shù)據(jù)量,對(duì)機(jī)器學(xué)習(xí)算法的運(yùn)行效率提出了新的挑戰(zhàn);深度學(xué)習(xí)的快速發(fā)展,為學(xué)者在文本領(lǐng)域的研究打開了新的大門,文獻(xiàn)[5]首次提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類。文獻(xiàn)[6]提出一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)的分類模型來(lái)提取微博情感分析任務(wù)中特有的情感信息。文獻(xiàn)[7]將卷積神經(jīng)網(wǎng)絡(luò)用于Twitter的極性判斷任務(wù)。

        注意力機(jī)制源于人類大腦的視覺信號(hào)處理機(jī)制,本質(zhì)是對(duì)信息資源的高效分配,被廣泛應(yīng)用在圖像處理、自然語(yǔ)言處理等領(lǐng)域,谷歌在2017 年提出了Transformer 模型[8],將注意力機(jī)制的優(yōu)勢(shì)發(fā)揮到了極致,同時(shí)具有并行計(jì)算和抽取長(zhǎng)距離特征的能力。Transformer 僅由自注意力機(jī)制和前饋連接層疊加組成,具有良好的特征抽取能力。很多學(xué)者將自注意力機(jī)制用于不同的研究領(lǐng)域,并且取得了不錯(cuò)的效果,文獻(xiàn)[9]將其用于解決長(zhǎng)文本的相似度計(jì)算問(wèn)題,提高了對(duì)深層次的語(yǔ)義信息抽取能力,文獻(xiàn)[10]將其用于推薦系統(tǒng)來(lái)提取不同子空間的特征信息。受此啟發(fā),本文將自注意力機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,用于詐騙電話的識(shí)別任務(wù),CNN 具有捕捉文本的局部語(yǔ)義特征和并行計(jì)算的優(yōu)勢(shì),利用自注意力機(jī)制對(duì)CNN輸出的淺層特征進(jìn)一步提取其序列的內(nèi)部依賴關(guān)系,提高模型的表征能力,分類效果更好。

        2 系統(tǒng)模型

        2.1 模型總體架構(gòu)

        本文構(gòu)建了一種基于融合自注意力機(jī)制和CNN的詐騙電話識(shí)別模型CNN-SA,結(jié)構(gòu)如圖1所示,由詞嵌入層、卷積層、自注意力層和分類層組成。

        圖1 CNN-SA結(jié)構(gòu)圖

        2.2 詞嵌入層

        電話文本輸入分類模型之前,首先需要進(jìn)行文本預(yù)處理,獲取文本的詞向量表示。目前常用的主流方法是以Word2Vec[11]和GloVe[12]為代表的詞語(yǔ)的分布式表示,這種方法可以表示出詞與詞之間的相似性關(guān)系,且向量維度低,避免了維度爆炸問(wèn)題。本文的詞嵌入層選擇的是基于Word2Vec 的預(yù)訓(xùn)練詞向量表示,向量維度為300 維,該模型按訓(xùn)練方式分為Skip-Gram和CBOW 兩種,Skip-Gram是由當(dāng)前詞來(lái)預(yù)測(cè)上下文詞,而CBOW 正相反,是由上下文詞來(lái)預(yù)測(cè)當(dāng)前詞,其結(jié)構(gòu)分別如圖2和圖3所示。

        圖2 Skip-gram

        圖3 CBOW

        2.3 卷積層

        TextCNN 的原理是將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本分類任務(wù)中,通過(guò)設(shè)置不同大小的卷積核可以更好地捕捉句子的局部特征。TextCNN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,包括卷積層、池化層和全連接層。卷積層的輸入是用Word2Vec 或者GloVe 方法預(yù)訓(xùn)練好的詞向量組成的嵌入層;在卷積層中,卷積核的寬度與詞向量的維度一致,高度可以自行設(shè)置為2、3、4等,實(shí)現(xiàn)對(duì)不同局部大小的特征進(jìn)行提取。

        圖4 TextCNN結(jié)構(gòu)圖

        卷積操作的過(guò)程可以表述為:

        其中,X為輸入詞向量,W為權(quán)重向量,b為偏移量,?表示卷積運(yùn)算,f(·)為激活函數(shù)。

        在池化層中,為減少重要信息丟失,放棄最常用的最大池化操作,選擇平均池化,可以更加突出整體信息,通過(guò)池化運(yùn)算對(duì)卷積層輸出進(jìn)行下采樣,一方面達(dá)到特征降維的作用,另一方面也極大減小了參數(shù)量,可以防止過(guò)擬合。經(jīng)過(guò)池化層后,每個(gè)卷積核得到一個(gè)值,最后將這些值拼接起來(lái)通過(guò)全連接層輸入softmax層進(jìn)行分類。

        2.4 自注意力層

        注意力機(jī)制的提出,大大提高了人類對(duì)信息處理的效率和利用率,自注意力機(jī)制是注意力機(jī)制的一種特殊形式,較注意力機(jī)制,它更擅長(zhǎng)捕捉特征的內(nèi)部相關(guān)性,減少了對(duì)外部信息的依賴,其原理是通過(guò)縮放點(diǎn)積注意力(Scaled Dot-Product Attention,SDA)和通過(guò)向量點(diǎn)積進(jìn)行相似度計(jì)算得到注意力值來(lái)實(shí)現(xiàn)的。SDA 的結(jié)構(gòu)如圖5 所示,首先Q、K 通過(guò)點(diǎn)積運(yùn)算,進(jìn)行相似性計(jì)算,然后使用softmax 函數(shù)進(jìn)行歸一化計(jì)算,最后結(jié)果乘以V,得到輸出,計(jì)算過(guò)程表示為:

        圖5 SDA結(jié)構(gòu)圖

        其中,Q、K、V分別為查詢矩陣、鍵矩陣、值矩陣,為調(diào)節(jié)因子,使得Q、K的內(nèi)積不至于過(guò)大。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        本文采用的數(shù)據(jù)集為自己構(gòu)建的電話文本數(shù)據(jù)集,包含詐騙文本和非詐騙文本各約5000 條,是從微博、知乎、百度等網(wǎng)站抓取整理的,其中詐騙文本包含近幾年頻繁出現(xiàn)的網(wǎng)絡(luò)貸款、網(wǎng)絡(luò)刷單、冒充客服退款、虛假購(gòu)物、注銷“校園貸”、買賣游戲幣等各類電話詐騙類型。本文實(shí)驗(yàn)的訓(xùn)練集、驗(yàn)證集和測(cè)試集大小分別劃分為6000、3000和1200。

        3.2 實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)參數(shù)設(shè)置

        實(shí)驗(yàn)的硬件環(huán)境為:操作系統(tǒng)為Windows 10,GPU 為NVIDIA GTX1650,CPU 為i5-10300H;軟件環(huán)境為:Python 3.7,學(xué)習(xí)框架Pytorch 1.5。

        在電話文本數(shù)據(jù)集上,采用Word2vec詞嵌入方法訓(xùn)練詞向量,詞向量的維度設(shè)置為300維。CNN-SA的參數(shù)設(shè)置為:卷積核的大小為(2,3,4),數(shù)量為256,步長(zhǎng)為1,卷積層后采用relu 激活函數(shù),池化層采用平均池化。經(jīng)過(guò)反復(fù)實(shí)驗(yàn),提出模型的最優(yōu)學(xué)習(xí)率為0.0001,batch為128,epochs為30,dropout的比率為0.5。

        3.3 實(shí)驗(yàn)結(jié)果

        為驗(yàn)證本文提出CNN-SA 的有效性,將電話文本數(shù)據(jù)集分別在以下幾種模型上進(jìn)行對(duì)比實(shí)驗(yàn)分析。

        ⑴ TextCNN:?jiǎn)我籘extCNN 模型提取序列局部特征,參數(shù)設(shè)置與CNN-SA中TextCNN模型相同。

        ⑵ BiLSTM 與BiGRU:?jiǎn)我浑p向LSTM 與雙向GRU結(jié)構(gòu),參數(shù)設(shè)置兩者相同。

        ⑶ BiLSTM-attention 與BiGRU-attention:在雙向LSTM 和雙向GRU 結(jié)構(gòu)后,引入傳統(tǒng)的attention 機(jī)制,提取關(guān)鍵特征。

        ⑷CNN-SA:本文提出的一種的融合自注意力機(jī)制和CNN的混合分類模型。

        實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)為準(zhǔn)確率Accuracy、精確率Precision、召回率Recall和F1值,在電話文本上的實(shí)驗(yàn)結(jié)果如表1所示。

        表1 實(shí)驗(yàn)結(jié)果

        3.4 結(jié)果分析

        從表1 可以看出,提出模型CNN-SA 的各項(xiàng)衡量指標(biāo)均明顯優(yōu)于單一TextCNN、BiLSTM 和BiGRU 模型以及BiLSTM-attention 和BiGRU-attention 模型,這表明融合模型CNN-SA 提取的特征信息更充分,因而分類效果最好。

        在準(zhǔn)確率方面,BiGRU模型的性能要優(yōu)于BiLSTM模型,有0.42%的提升;BiLSTM-attention較單一BiLSTM模型提高了0.58%,BiGRU-attention 較單一BiGRU模型提高了0.33%,這表明,引入attention 機(jī)制可以使模型更好地提取關(guān)鍵信息,從而提升分類性能;而所提模型CNN-SA 比單一TextCNN 模型提高了1.75%,這是因?yàn)橐胱宰⒁饬C(jī)制,可以使模型更好地關(guān)注序列的內(nèi)部依賴關(guān)系,彌補(bǔ)了TextCNN 模型只關(guān)注局部信息的不足。

        4 結(jié)束語(yǔ)

        本文針對(duì)目前電信詐騙中案發(fā)率比較高的電話詐騙問(wèn)題,提出了一種基于NLP 的識(shí)別方案,建立融合自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的詐騙電話識(shí)別模型CNN-SA。首先利用詞嵌入模型Word2vec 獲取預(yù)處理后的文本的詞向量,并將其輸入TextCNN 模型,捕捉文本的局部特征信息,再利用自注意力機(jī)制進(jìn)一步提取電話文本序列內(nèi)部的依賴關(guān)系,最后將其輸入softmax層進(jìn)行分類。

        猜你喜歡
        詐騙注意力卷積
        讓注意力“飛”回來(lái)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        合同詐騙
        電信詐騙
        A Beautiful Way Of Looking At Things
        擦亮雙眼,謹(jǐn)防招生詐騙
        詐騙
        日本刺激视频一区二区| 一本到无码AV专区无码| 波多吉野一区二区三区av| 婷婷久久亚洲中文字幕| 人人超碰人人爱超碰国产 | 亚洲V在线激情| 少妇一级内射精品免费| 亚洲tv精品一区二区三区| 午夜性无码专区| 欧美a视频在线观看| 久久蜜臀av一区三区| 亚洲精品中文字幕免费专区| а√资源新版在线天堂| 揄拍成人国产精品视频| 亚洲精品中文字幕乱码人妻| 久久精品人妻少妇一二三区| 成年无码av片在线| 精品无码久久久九九九AV| 亚洲精品女优中文字幕| 久久综合伊人77777麻豆| 无码国产69精品久久久孕妇 | 亚洲国产精品一区二区第一| 国产成人高清在线观看视频| 国内精品卡一卡二卡三| 欧美精品一级| 日本一区二区三区精品不卡| 亚洲熟妇av一区二区三区| 亚洲av无码不卡| A亚洲VA欧美VA国产综合| 深夜黄色刺激影片在线免费观看| 亚洲欧美色一区二区三区| 久久精品岛国av一区二区无码 | 欧美成人一区二区三区在线观看| 国产丰满乱子伦无码专| 美艳善良的丝袜高跟美腿| 无码人妻精品一区二区| 亚洲AV无码成人网站久久精品| 国产三级在线观看不卡| 亚洲综合天堂av网站在线观看| 永久免费的av在线电影网无码| 无码 免费 国产在线观看91|