亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于內(nèi)容和ERNIE3.0-CapsNet的中文垃圾郵件識別方法

        2024-03-12 09:18:54單晨棱張新有邢煥來
        信息安全研究 2024年3期
        關(guān)鍵詞:分類文本實(shí)驗(yàn)

        單晨棱 張新有, 邢煥來, 馮 力

        1(西南交通大學(xué)唐山研究院 河北唐山 063000)

        2(西南交通大學(xué)計算機(jī)與人工智能學(xué)院 成都 611756)

        隨著互聯(lián)網(wǎng)的高速發(fā)展,人們的通信越來越方便,特別是手機(jī)短信、微信、電子郵件等得到廣泛普及.其中,電子郵件因其可以在云端服務(wù)器持久性存儲的特性,人們更愿意通過電子郵件來傳遞重要文件或重要信息.但隨之而來的就是郵件中混雜的垃圾電子郵件帶來的網(wǎng)絡(luò)安全問題及其造成的經(jīng)濟(jì)損失問題.2016年6月至2021年12月期間美國聯(lián)邦調(diào)查局IC3向金融機(jī)構(gòu)提交的文件統(tǒng)計數(shù)據(jù)顯示,因BEC/EAC(商業(yè)電子郵件泄露/電子郵件賬戶泄露)騙局而在全球所產(chǎn)生的個人和企業(yè)損失高達(dá)433億美元[1].此前,信息安全廠商卡巴斯基實(shí)驗(yàn)室發(fā)布的一份統(tǒng)計報告也提到,2021年源于中國的垃圾郵件在全球占比達(dá)到8.73%,比2020年提升2.52個百分點(diǎn),居全球第四[2].因此,如何更準(zhǔn)確檢測中文垃圾郵件對當(dāng)前維護(hù)網(wǎng)絡(luò)安全和避免相關(guān)經(jīng)濟(jì)損失具有重要意義.

        目前,對垃圾郵件進(jìn)行檢測的主要方式之一就是基于內(nèi)容識別.基于內(nèi)容的垃圾郵件識別方式實(shí)質(zhì)也是對郵件內(nèi)容文本進(jìn)行二分類的研究問題.但目前文本分類的優(yōu)異算法模型正快速迭代,而針對垃圾郵件識別應(yīng)用領(lǐng)域的優(yōu)異文本分類的算法應(yīng)用研究相對欠缺.本文提出了將ERNIE3.0與改進(jìn)CapsNet相結(jié)合的ERNIE3.0-CapsNet文本分類模型,對現(xiàn)有垃圾郵件識別算法詞向量表示不足和特征提取豐富度不夠有所彌補(bǔ).ERNIE3.0相對其他主流預(yù)訓(xùn)練模型有增強(qiáng)文本信息的知識記憶和推理能力的優(yōu)勢,其最大化豐富了文本表示特征,而CapsNet對保留信息的混合特征和形變特征更有優(yōu)勢[3].最后通過對比實(shí)驗(yàn)證實(shí)本文方法在垃圾郵件識別中具有更加顯著的效果.

        1 相關(guān)研究

        垃圾郵件一直是全球性的網(wǎng)絡(luò)安全痛點(diǎn),國內(nèi)外對此都非常關(guān)注,對垃圾郵件的識別方法也在不斷更新與改進(jìn).

        早期,傳統(tǒng)機(jī)器學(xué)習(xí)算法常被青睞用于垃圾郵件檢測.但深度學(xué)習(xí)因其可以避免繁雜的人工特征工程和可以從文本中學(xué)習(xí)到更好的語義特征等顯著優(yōu)點(diǎn),漸漸有取代傳統(tǒng)機(jī)器學(xué)習(xí)算法在垃圾郵件識別地位的趨勢.Sheneamer[4]比較了深度學(xué)習(xí)模型和傳統(tǒng)機(jī)器模型在垃圾郵件中的檢測性能,在與5種機(jī)器學(xué)習(xí)方法進(jìn)行對比實(shí)驗(yàn)后得出,LSTM,GloVe-CNN等深度學(xué)習(xí)模型性能表現(xiàn)更佳.Siddique等人[5]利用樸素貝葉斯、CNN、SVM和LSTM來檢測和分類烏爾都語電子郵件內(nèi)容,研究結(jié)果表明LSTM更優(yōu)于其他模型.

        在文本分類的任務(wù)研究中[6-8],使用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類任務(wù)之前,常會借助文本表示模型將文本轉(zhuǎn)換為語義詞向量,以消除人工特征工程的復(fù)雜性,達(dá)到直接對原始文本數(shù)據(jù)進(jìn)行端到端分析的目的.于是,Word2Vec-LSTM[9],ALBERT-RNN[10]等詞向量表示模型結(jié)合神經(jīng)網(wǎng)絡(luò)分類模型的方式也相繼被提出,并在垃圾郵件識別領(lǐng)域的效果表現(xiàn)出優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)甚至一些神經(jīng)網(wǎng)絡(luò)模型的檢測方法.

        上述很多研究是針對英文等語言的垃圾郵件檢測的探索,在中文垃圾郵件檢測領(lǐng)域,目前研究還相對較少,其中文獻(xiàn)[10]是針對中文垃圾郵件的研究,提出融合ALBERT動態(tài)詞向量的RNN網(wǎng)絡(luò)模型,提升了文本表示中對詞語多義理解的程度,在TREC06C中文垃圾郵件數(shù)據(jù)集子集的準(zhǔn)確率達(dá)到99.13%.Tong等人[11]提出多通道結(jié)合長短注意力機(jī)制的膠囊網(wǎng)絡(luò)模型,提取更多復(fù)雜特征,增強(qiáng)關(guān)鍵特征的影響力,表現(xiàn)出優(yōu)于TextCNN,LSTM及BERT方法的效果,且進(jìn)一步提升了在TREC06C平衡子集的準(zhǔn)確率(99.30%).但這些方法對于文本表示的豐富度和特征提取的力度還有進(jìn)一步提升的空間.

        針對上述問題,本文提出了ERNIE3.0-CapsNet文本分類模型.主要貢獻(xiàn)點(diǎn)如下:

        1) 預(yù)訓(xùn)練語言模型ERNIE3.0將自回歸網(wǎng)絡(luò)和自動編碼網(wǎng)絡(luò)進(jìn)行結(jié)合,并預(yù)先訓(xùn)練了具有百億參數(shù)的大規(guī)模知識增強(qiáng)模型[12].本文利用其對郵件進(jìn)行文本表示,使郵件文本與世界知識關(guān)聯(lián),能達(dá)到更優(yōu)異的底層語義語法表示的效果.

        2) 本文對膠囊網(wǎng)絡(luò)的結(jié)構(gòu)作了優(yōu)化,增強(qiáng)了底層特征提取,同時對膠囊網(wǎng)絡(luò)動態(tài)路由算法中的激活函數(shù)進(jìn)行了研究,發(fā)現(xiàn)一種更適合垃圾郵件識別的激活函數(shù),提升了模型的整體性能.

        3) 本文提出的ERNIE3.0-CapsNet文本分類模型在TREC06C中文郵件數(shù)據(jù)集表現(xiàn)出色,其表現(xiàn)效果總體優(yōu)于ERNIE3.0-TextCNN,ERNIE3.0-RNN等模型.

        2 ERNIE3.0-CapsNet模型

        2.1 文本表示:ERNIE3.0

        近年來,大規(guī)模的預(yù)訓(xùn)練語言模型研究成為趨勢,其中ERNIE(enhanced representation through knowledge integration)系列的預(yù)訓(xùn)練模型表現(xiàn)尤為突出.2019年,ERNIE 1.0改進(jìn)于BERT[13],其直接對先驗(yàn)語義知識單元進(jìn)行建模,使模型語義表示能力進(jìn)一步提升,其在中文任務(wù)上全面超過了BERT中文模型.同年,基于持續(xù)學(xué)習(xí)的語義理解預(yù)訓(xùn)練框架ERNIE2.0很快被提出,它使用多任務(wù)學(xué)習(xí)增量式構(gòu)建預(yù)訓(xùn)練任務(wù),在中英文任務(wù)上都超越了BERT.到2021年,ERNIE3.0出現(xiàn),相比其他預(yù)訓(xùn)練模型,其主要優(yōu)點(diǎn)是可以從大規(guī)模知識圖譜中汲取世界知識,其英文版本在SuperGLUE[14]基準(zhǔn)(2021年7月3日)測試取得冠軍,進(jìn)一步提高了預(yù)訓(xùn)練語言模型的性能.其模型框架如圖1所示.

        圖1 ERNIE3.0模型框架

        因此,由于ERNIE3.0的出色優(yōu)勢,本文利用開源的輕量級ERNIE3.0預(yù)訓(xùn)練語言模型來生成中文郵件文本的詞向量.利用其將郵件文本向量化的具體過程如圖2所示.

        ERNIE3.0與Transformer類預(yù)訓(xùn)練模型數(shù)據(jù)處理步驟類似,先是將原始輸入的批量郵件文本進(jìn)行詞級編碼,也就是切分Token,同時拼接上預(yù)訓(xùn)練模型對應(yīng)的特殊Token,如CLS,SEP,再將Token映射為ERNIE3.0對應(yīng)的分詞編碼(Token ids),每個Token id還有分句編碼(Segment ids),來表示對應(yīng)的Token是屬于文本第幾個句子.

        分詞編碼及分句編碼的同時,還將進(jìn)行補(bǔ)齊與截斷(Padding),形成文本長度一致的編碼序列,然后將編碼序列輸入ERNIE3.0預(yù)訓(xùn)練語言模型,經(jīng)過ERNIE3.0對詞向量的學(xué)習(xí)后,最終生成具有先驗(yàn)知識和世界知識的特征向量sequence_output和pooled_output.其中,sequence_output是對應(yīng)每個輸入Token的語義特征表示,pooled_output是對應(yīng)整個句子或整個文本的語義特征表示.

        由于sequence_out相比pooled_output更關(guān)注序列特征,對原始文本信息表示更完整且豐富,本文最終選擇sequence_out作為郵件文本表示的特征向量.

        2.2 CapsNet優(yōu)化模型

        膠囊網(wǎng)絡(luò)模型(CapsNet)最早由Sabour等人[15]提出,其目的是為了解決CNN在圖像處理中由于池化無法保留原始信息的空間關(guān)系等問題,其在MNIST上表現(xiàn)出當(dāng)時最好的分類效果.在自然語言處理領(lǐng)域,CapsNet同樣大放異彩.Zhao等人[16]首次提出膠囊網(wǎng)絡(luò)的文本分類模型CapsNet-A和CapsNet-B,后者模型在多標(biāo)簽文本分類任務(wù)中表現(xiàn)出比CNN和LSTM更好的效果.本文得益于CapsNet-B和文獻(xiàn)[11]的靈感,在原始膠囊網(wǎng)絡(luò)的基礎(chǔ)上作了微調(diào)和優(yōu)化.優(yōu)化后的膠囊網(wǎng)絡(luò)模型如圖3所示:

        圖3 膠囊網(wǎng)絡(luò)優(yōu)化模型

        本文對CapsNet的優(yōu)化主要體現(xiàn)在2個方面:

        1) 結(jié)構(gòu)上的優(yōu)化.

        為了獲取豐富的底層特征,本文在膠囊網(wǎng)絡(luò)的卷積層對文本的矩陣向量進(jìn)行3種不同卷積核大小的n-gram特征提取處理,然后在主膠囊層將所有特征堆疊輸入到數(shù)字膠囊層,這使得動態(tài)路由更新后的高級特征更加飽滿.

        同時為了更好的郵件文本分類效果,各個層級的相關(guān)超參數(shù)通過實(shí)驗(yàn)進(jìn)行了微調(diào).

        2) 動態(tài)路由激活函數(shù)的替換.

        在原始膠囊網(wǎng)絡(luò)動態(tài)路由[15]過程中,每次迭代都會利用Squash激活函數(shù)將更新過程的過渡向量sj壓縮到0~1之間,壓縮過程保留了向量方向,以此得到高級向量vj.其原理如式(1)所示:

        (1)

        本文用GELU激活函數(shù)[17]替換了Squash激活函數(shù),相比Squash激活函數(shù),變換激活函數(shù)后的動態(tài)路由有效地提升了膠囊網(wǎng)絡(luò)模型的性能.替換為GELU激活函數(shù)后vj更新過程如式(2)所示:

        vj=GELU(sj)=sjP(X≤sj)=sjΦ(sj),

        (2)

        其中X~N(0,1),Φ(sj)是標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù).

        2.3 ERNIE3.0-CapsNet模型結(jié)構(gòu)

        本文提出的ERNIE3.0-CapsNet文本分類模型整體結(jié)構(gòu)如圖4所示:

        圖4 ERNEI3.0-CapsNet文本分類模型整體結(jié)構(gòu)

        模型主要由ERNIE3.0預(yù)訓(xùn)練語言模型層、卷積層、主膠囊層和數(shù)字膠囊層組成.

        首先,通過ERNIE3.0 Tokenizer工具對郵件文本語料進(jìn)行分詞、詞表ID映射和Padding填充,再通過ERNIE3.0預(yù)訓(xùn)練模型層生成具有先驗(yàn)知識和世界知識的詞向量矩陣T∈n×d(其中n是文本的長度,d是詞向量維度).T可用式(3)表示:

        T=[t1,t2,…,tn],

        (3)

        其中ti為輸入文本中第i個Token的d維詞向量.

        然后,卷積層采用3個并行網(wǎng)絡(luò)對詞向量矩陣T∈n×d進(jìn)行2維卷積操作以生成特征Ci,且每個網(wǎng)絡(luò)的卷積核不同,分別為3-gram濾波器、4-gram濾波器、5-gram濾波器.其卷積操作原理如式(4)所示:

        Ci=ReLU(Wi*T+b),i={1,2,3},

        (4)

        其中,ReLU為非線性激活函數(shù),Wi表示卷積層第i個網(wǎng)絡(luò)的濾波器,*表示卷積操作,b表示偏置項.

        主膠囊層同樣采用3個并行網(wǎng)絡(luò),分別對接卷積層的3個并行網(wǎng)絡(luò),并分別接收其對應(yīng)的底層特征Ci.同時,每個并行網(wǎng)絡(luò)以同樣的方式再次卷積,即對特征Ci進(jìn)行n次卷積核值w為4-gram、步幅為2的1維卷積操作以生成膠囊向量Si,如式(5)、式(6)所示:

        sj=Squash(w*Ci+b),

        (5)

        Si=[s1,s2,…,sn].

        (6)

        然后拼接3個網(wǎng)絡(luò)的膠囊向量Si為最終的低級膠囊向量S,輸入到數(shù)字膠囊層.如式(7)所示:

        S=cat(S1,S2,S3).

        (7)

        數(shù)字膠囊層主要對輸入的低級膠囊向量S進(jìn)行動態(tài)路由傳播與更新,因?yàn)槔]件識別也可歸結(jié)為二分類,所以將得到2個16維的高級膠囊向量vj.同時為了緩解梯度消失,繼續(xù)對高級膠囊vj進(jìn)行批歸一化處理以得到標(biāo)量p,批歸一化處理原理如式(8)所示:

        (8)

        最終使用模長(范數(shù))描述類別概率,并得到最后的輸出o,以用于后續(xù)計算分類損失.

        o=norm(p).

        (9)

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)環(huán)境

        本文所有實(shí)驗(yàn)在同一實(shí)驗(yàn)環(huán)境下進(jìn)行,具體實(shí)驗(yàn)環(huán)境信息如表1所示:

        表1 實(shí)驗(yàn)環(huán)境信息

        3.2 實(shí)驗(yàn)數(shù)據(jù)與評價指標(biāo)

        實(shí)驗(yàn)數(shù)據(jù)集使用TREC 2006中文公共語料庫(https://plg.uwaterloo.ca/~gvcormac/treccorpus06/).

        該數(shù)據(jù)集一共存在64620條中文郵件數(shù)據(jù),但其正負(fù)樣本并不平衡.因此,為了更好說明本文模型在垃圾郵件識別的有效性,在總樣本中隨機(jī)各抽取5000條非空內(nèi)容的垃圾郵件和5000條正常郵件,構(gòu)成平衡子集進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)涉及模型皆通過文本分類問題常用的4個實(shí)驗(yàn)評價指標(biāo):準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值對分類結(jié)果進(jìn)行評估.具體數(shù)據(jù)集分布如表2所示:

        表2 數(shù)據(jù)集分布

        3.3 實(shí)驗(yàn)結(jié)果與分析

        使用ERNIE3.0得到預(yù)訓(xùn)練好的詞向量序列之后,可以選擇static方法和no-static方法,前者在訓(xùn)練過程中不對詞向量的參數(shù)進(jìn)行更新與微調(diào),即以靜態(tài)詞向量的方式結(jié)合下游模型完成分類任務(wù).后者在訓(xùn)練過程中調(diào)節(jié)詞向量的參數(shù),即以動態(tài)詞向量的方式配合下游模型完成分類任務(wù).后者會顯著提升模型效果,所以,本文實(shí)驗(yàn)以ERNIE3.0動態(tài)詞向量方式結(jié)合CapsNet在TREC06C中文郵件子數(shù)據(jù)集上與4種常見模型進(jìn)行對比,4組模型文本表示都采用ERNIE3.0動態(tài)詞向量,以更好評估本文模型的垃圾郵件識別性能.最終實(shí)驗(yàn)結(jié)果如表3所示:

        表3 模型對比實(shí)驗(yàn)結(jié)果 %

        由表3可知,ERNIE3.0-CapsNet在郵件分類任務(wù)中,評估結(jié)果總體優(yōu)異.其在準(zhǔn)確率、精確率、F1值3項指標(biāo)上,分別達(dá)到99.45%,99.50%,99.40%,相較于ERNIE3.0-RNN,ERNIE3.0-TextCNN,ERNIE3.0-RCNN,ERNIE3.0-DPCNN這4類模型有明顯優(yōu)勢.而在召回率指標(biāo)上,ERNIE3.0-TextCNN效果最好,ERNIE3.0-RNN次之,但ERNIE3.0-CapsNet效果表現(xiàn)欠佳,這表明本文模型對垃圾郵件的判對率還有提升空間,這也將是本文下一步要考慮改進(jìn)的工作之一.

        同時,為了驗(yàn)證CapsNet動態(tài)路由改進(jìn)的有效性,本文還設(shè)計了4組激活函數(shù)對比實(shí)驗(yàn),4組實(shí)驗(yàn)僅替換動態(tài)路由中的激活函數(shù).實(shí)驗(yàn)結(jié)果如表4所示.

        表4 激活函數(shù)對比實(shí)驗(yàn)結(jié)果 %

        從表4可知,在垃圾郵件識別任務(wù)上,相較于膠囊網(wǎng)絡(luò)原版動態(tài)路由激活函數(shù)Squash,ReLU激活函數(shù)在各項指標(biāo)上的效果與之相差無幾,而ELU激活函數(shù)和GELU激活函數(shù)在準(zhǔn)確率、F1值這2項指標(biāo)上均有提升,值得注意的是,GELU激活函數(shù)效果更為明顯,同時GELU在精確率上的效果也最好,雖然結(jié)合表3可以看出,ELU激活函數(shù)的替換在召回率指標(biāo)上與ERNIE3.0-TextCNN持平,且其余3項指標(biāo)皆優(yōu)于表3前4組對比實(shí)驗(yàn),但從總體上評估,用GELU激活函數(shù)替換Squash激活函數(shù),能使ERNIE3.0-CapsNet模型性能更為突出.

        4 結(jié) 語

        本文提出了一種新的文本分類模型,即ERNIE3.0與優(yōu)化的CapsNet相結(jié)合的ERNIE3.0-CapsNet文本分類模型.并采用該模型進(jìn)行垃圾郵件識別.其在TREC06C中文郵件數(shù)據(jù)集的平衡子集上,準(zhǔn)確率達(dá)到99.45%.相比采用ERNIE3.0-TextCNN,ERNIE3.0-RNN等模型的垃圾郵件檢測方法,ERNIE3.0-CapsNet具有顯著優(yōu)勢.同時,激活函數(shù)GELU替換原動態(tài)路由Squash激活函數(shù)的改進(jìn),進(jìn)一步提升了模型的整體性能.最后實(shí)驗(yàn)結(jié)果證明了ERNIE3.0-CapsNet模型在垃圾郵件識別任務(wù)上的有效性和優(yōu)越性.

        但ERNIE3.0-CapsNet參數(shù)較多,致使計算代價較大,后續(xù)將考慮壓縮模型參數(shù).同時,由于本文的任務(wù)特性,致使數(shù)據(jù)集較為單一,未來將引入新的數(shù)據(jù)集或應(yīng)用于其他領(lǐng)域,進(jìn)一步對ERNIE3.0-CapsNet模型進(jìn)行性能探索和研究.

        猜你喜歡
        分類文本實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        分類算一算
        在808DA上文本顯示的改善
        做個怪怪長實(shí)驗(yàn)
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號上的19項實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        久久国产成人精品国产成人亚洲| 蜜桃视频免费在线视频| 中文字幕av一区二区三区诱惑| 国产高清在线一区二区不卡| 国产欧美成人一区二区a片| a级国产乱理论片在线观看| 久久中文字幕久久久久| 人妻秘书被社长浓厚接吻| 亚洲午夜久久久精品影院| 色噜噜狠狠一区二区三区果冻| 国产一区二区三区小说| 日韩人妻免费一区二区三区| 一区二区三区最新中文字幕| 亚洲成av人片天堂网| 国产亚洲欧美日韩综合一区在线观看| 国产三级在线观看性色av| 亚洲美女毛片在线视频| 国产网红主播无码精品| 国产人成精品免费视频| 国产精品不卡在线视频| 在线日本看片免费人成视久网| 樱桃视频影视在线观看免费| 国产免费一级在线观看| 久久熟女精品—区二区蜜臀| 精品人妻av一区二区三区| 国产精品久久国产三级国不卡顿 | 四虎精品视频| 亚洲综合久久久中文字幕| 国产成年人毛片在线99| 欧美成人免费全部| 五月婷网站| 国产一区二区亚洲一区| 欧美日韩在线视频一区| 亚洲性无码av在线| 日本一区二区三区资源视频| 免费国产在线精品一区二区三区免| 伊人激情av一区二区三区| 亚洲动漫成人一区二区| 在线观看二区视频网站二区| 国产成人精品999视频| 国产精品第一二三区久久蜜芽|