亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于IMI-WNB算法的垃圾郵件過濾技術研究

        2021-03-26 03:29:50吉小鵬
        電子元器件與信息技術 2021年11期
        關鍵詞:垃圾郵件互信息郵件

        吉小鵬

        (南京理工大學自動化學院,江蘇 南京 210094)

        0 引言

        工業(yè)互聯(lián)網(wǎng)快速發(fā)展的今天,在信息傳遞上起到關鍵作用的電子郵件深刻改變了工作方式,與此同時大量無效的垃圾郵件卻成了工業(yè)互聯(lián)網(wǎng)界難以解決的問題,對郵箱存儲和網(wǎng)絡傳輸都造成了巨大困擾[1]。到目前為止,垃圾郵件過濾的方法主要包括基于黑名單過濾、基于行為識別過濾以及基于內(nèi)容過濾等手段。由于從郵件文本中提取互信息特征,并通過樸素貝葉斯分類的方法簡便、快捷,基于此方法的內(nèi)容過濾逐漸成為了垃圾郵件的主流上應用技術[2]。

        實際上,傳統(tǒng)互信息方法并未計算出詞頻度,導致詞頻對互信息的偏置影響較大[3]。另外,多個垃圾郵件類別的樣本差異性對樸素貝葉斯方法也較為敏感,造成傳統(tǒng)方法對于樣本差異較大的情況出現(xiàn)較高的誤檢率或漏檢率。因此,在文本中,通過引入詞頻率因子和類別間差異因子來改進互信息計算,并將計算結果作為樸素貝葉斯分類的屬性權重,建立基于IMI-WNB的垃圾郵件過濾算法,完成對垃圾郵件過濾的魯棒性,降低垃圾郵件過濾時的誤檢率和漏檢率。

        1 基于IMI-WNB算法的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法

        1.1 改進的IMI互信息算法

        傳統(tǒng)互信息算法在計算過程中僅考慮文本頻率,并未統(tǒng)計詞出現(xiàn)的頻率,在詞頻率不均衡的工業(yè)互聯(lián)網(wǎng)垃圾郵件文本中過濾效果較差[4]。例如,文本頻率相同的兩個詞,但是詞頻率的特征差距較大,在傳統(tǒng)方法中認為詞頻率特征更大的詞具有與類別更高的相關程度。然而,這種情況下采用傳統(tǒng)方式互信息計算方式相關程度相同,與實際情況顯著不符。因此,本文分別引進詞頻率因子和類間差異因子對IMI互信息算法進行改進。

        首先,引入詞頻率因子α用于描述不同詞頻率特征之間的差異性,通過下式定義:

        根據(jù)上述定義可以看出,如果某個特征的詞頻率高于文本頻率,那么相應的詞頻因子的權重將會更大,此時垃圾郵件過濾時采用該特征的比重將會越高。

        此外,當多個類別中的特征分布不均勻?qū)е聦︻悇e的判定產(chǎn)生影響時,一般在某些類別中出現(xiàn)的次數(shù)較多而在另一些類別中出現(xiàn)的次數(shù)較少,這種情況下一般可認為該特征對于工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾的影響較大。實際上,這樣的特征在統(tǒng)計學中被稱為標準差較大的特征,能夠反映出郵件文本的離散程度,從而有利于垃圾郵件的過濾。因此,在本文中,我們通過垃圾郵件Cspam和正常郵件Cham之間特征頻率wi的標準差改進互信息計算過程。假設垃圾郵件中特征的頻率為tfCspam(wi),正常郵件對應的特征頻率為tfCham(wi),二者共同的平均特征頻率為tfavg(wi),那么可以表示為:

        上式(7)在式(3)的基礎上增加了不同類間的頻率差異權重因子,因而能夠在對垃圾郵件過濾過程中體現(xiàn)出類間頻率差異的影響,從而提升互信息計算方法的特征選擇效率。

        1.2 基于改進的IMI互信息的樸素貝葉斯算法

        針對工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾的分類算法通常采用樸素貝葉斯分類器(NB),通常傳統(tǒng)NB中的條件獨立性假設會對工業(yè)互聯(lián)網(wǎng)垃圾郵件的過濾造成不利影響[5]。因此,在本文中,我們通過在貝葉斯概率公式中添加屬性權重,通過權重控制不同特征對于垃圾郵件過濾的貢獻。實際的屬性權重可通過改進的IMI互信息值獲取,互信息值的結果偏大表明特征與類別相關程度較高,反過來,互信息值偏小則表明特征與類別相關程度較低。通過互信息值作為NB的屬性權重,我們新提出的WNB將會消除獨立性假設的影響,保證垃圾郵件過濾的穩(wěn)定性。通常來講,帶權重的WNB的分類過程可以表示為:

        綜上,本文提出的基于IMI-WNB的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾具體過程如下:

        (1)預處理階段處理郵件文本的停用詞,然后將文本完成自動分詞;

        (2)采用改進的IMI互信息算法選擇分詞后的文本特征,篩選過濾無關的特征;

        (3)統(tǒng)計郵件文本訓練樣本的先驗概率、條件概率,然后使用IMI-WNB算法完成最大后驗概率的求解,通過概率是否超過閾值,判斷是否為垃圾郵件。

        2 仿真實驗與結果分析

        為了驗證本文提出的基于IMI-WNB算法的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法可行性與有效性,我們采用能明顯反映工業(yè)互聯(lián)網(wǎng)特性的trec06c開源郵件語料庫,進行工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾對比實驗。實驗對比的算法對象包括傳統(tǒng)NB算法以及改進的IMI-WNB算法。實驗平臺為Unbutu11.0,硬件配置為i7-6700K CPU配合16GB內(nèi)存以及SSD固態(tài)硬盤,實驗編程平臺采用Matlab R2012b。由于實驗采用的trec06c語料庫中郵件文本較多,我們在具體實驗中采用其中較為關鍵的15000個郵件樣本,其中7500個垃圾郵件,7500個正常郵件,兩種類別的樣本數(shù)量保持均衡。為了對實驗結果進行客觀評價, 我們在實驗中采用準確率和召回率兩種指標對算法進行客觀評價。針對開源郵件語料庫的垃圾郵件過濾對比實驗步驟如下:

        (1)對所有15000個包含垃圾郵件和正常郵件的樣本進行分詞處理,并通過查找停用詞表保留能進行垃圾郵件過濾的主要特征。在特征提取中,分別采用傳統(tǒng)的互信息特征提取以及本文改進的互信息特征提取方法獲得對應的特征集合TMI和TIMI;

        (2)分別從互信息特征集合以及改進的互信息特征集合中n提取個樣本 {t1,t2,...,tn},分別組成郵件文本特征向量RMI和RIMI,將特征向量集合作為NB的屬性權重產(chǎn)生WNB分類算法,并通過IMI-WNB算法完成對垃圾郵件過濾的訓練和驗證;

        (3)為了進行垃圾郵件過濾的訓練和驗證,我們在本文中采用經(jīng)典的十乘交叉驗證方法進行訓練和驗證。其中,我們將15000個樣本隨機大亂,并劃分為10份,每次驗證取其中的9份作為訓練樣本集合,剩下的1份作為驗證樣本集合。最后,將十次驗證結果的平均準確率、平均召回率以及平均F-score記錄下來,通過記錄的數(shù)據(jù)驗證本文提出算法的可行性與有效性。

        經(jīng)過十乘交叉驗證后,圖1(a)給出了傳統(tǒng)NB算法與本文改進IMI-WNB算法的平均準確率對比。從圖1(a)中的結果可以看出,傳統(tǒng)NB算法能夠在較低的特征維度(<50)時保證垃圾郵件過濾時的精準率上升,當特征維度較大的時候傳統(tǒng)算法的垃圾郵件過濾準確率出現(xiàn)下降,直到特征維度超過200維時才繼續(xù)上升。相比于傳統(tǒng)NB算法,本文提出的IMI-WNB算法在較低特征維度時的準確率差距不大,但是隨著特征維度的提升,傳統(tǒng)NB算法的垃圾郵件過濾顯著下降,但是IMI-WNB算法卻只有少量的精度下降,隨后一直保持精確度上升的趨勢,本文提出算法在召回率上具有較強的魯棒性。

        圖1 傳統(tǒng)NB算法與本文改進IMI-WNB算法的對比

        此外,圖1(b)給出了傳統(tǒng)NB算法與本文改進IMI-WNB算法的平均召回率對比。從圖1(b)中的結果可以看出,傳統(tǒng)NB算法能夠在較低的特征維度(<20)時保證垃圾郵件過濾時的召回率上升,當特征維度較大的時候傳統(tǒng)算法的垃圾郵件過濾準確率出現(xiàn)下降,直到特征維度超過180維時才繼續(xù)上升。相比于傳統(tǒng)NB算法,本文提出的IMI-WNB算法在較低特征維度時的準確率差距不大,但是隨著特征維度的提升,傳統(tǒng)NB算法的垃圾郵件過濾顯著下降,但是IMI-WNB算法卻只有少量的精度下降,隨后一直保持精確度上升的趨勢,本文提出算法在召回率上具有較強的魯棒性。

        表1給出了垃圾郵件過濾的常用算法與本文提出算法的計算性能對比。從表1的結果中可以看出,經(jīng)典的PTw2v算法在準確率和召回率上差距不大,垃圾郵件過濾效果較好;本文提出的IMI-WNB算法比傳統(tǒng)C4.5算法擁有更高的召回率,因此垃圾郵件的漏檢率顯著低于傳統(tǒng)算法;GWO_GA算法雖然具有較高的召回率,但是其準確率卻顯著低于本文提出的IMI-WNB算法,因此正常郵件的誤檢率顯著高于本文提出算法。

        表1 主流算法與本文提出算法的性能對比

        綜合上述實驗結果可以看出,本文提出算法在魯棒性上優(yōu)于傳統(tǒng)的NB分類、PTw2v等算法,在準確率和召回率的雙向?qū)Ρ壬弦矁?yōu)于近年來流行的C4.5 和GWO_GA算法。因此,本文提出的IMI-WNB算法對垃圾郵件過濾具較高的準確性和魯棒性。

        3 結論

        在本文中,為了解決傳統(tǒng)工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾時的詞頻、樣本類別差異對漏檢率和誤檢率的影響,提出了一種全新的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法。該算法通過引入詞頻率因子和類別間差異因子來改進互信息計算,并將計算結果作為樸素貝葉斯分類的屬性權重,建立基于IMI-WNB的垃圾郵件過濾算法。在開源數(shù)據(jù)集上的對比實驗結果表明,本文提出算法能夠比傳統(tǒng)算法獲得更魯棒的垃圾郵件過濾結果,有效降低了垃圾郵件過濾時的誤檢率和漏檢率。

        猜你喜歡
        垃圾郵件互信息郵件
        基于James的院內(nèi)郵件管理系統(tǒng)的實現(xiàn)
        從“scientist(科學家)”到“spam(垃圾郵件)”,英語單詞的起源出人意料地有趣 精讀
        英語文摘(2021年10期)2021-11-22 08:02:36
        一種基于SMOTE和隨機森林的垃圾郵件檢測算法
        一封郵件引發(fā)的梅賽德斯反彈
        車迷(2018年12期)2018-07-26 00:42:32
        基于支持向量機與人工免疫系統(tǒng)的垃圾郵件過濾模型
        基于互信息的貝葉斯網(wǎng)絡結構學習
        聯(lián)合互信息水下目標特征選擇算法
        改進的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        基于增量式互信息的圖像快速匹配方法
        石器部落
        国内大量揄拍人妻在线视频| 一二三区无线乱码中文在线| 久久久久国产精品| 少妇被躁爽到高潮无码文| 精品国产性色av网站| 中文字幕天堂网| 久久婷婷免费综合色啪| 精品国产黄一区二区三区| 少妇人妻精品一区二区三区| 熟妇人妻无乱码中文字幕| 无码中文日韩Av| 亚洲综合在线一区二区三区| 日本丰满老妇bbw| 三上悠亚久久精品| 91久久综合精品国产丝袜长腿| 96中文字幕一区二区| 欧美日韩精品一区二区视频| 亚洲精品久久久久中文字幕二区| 日韩熟妇精品视频一区二区| 少妇熟女天堂网av天堂| 色一情一乱一伦一视频免费看| 欧洲-级毛片内射| 男女激情床上视频网站| 激情在线一区二区三区视频| 琪琪的色原网站| av色综合网站| 国产激情小视频在线观看| 国产精品国产精品国产专区不卡| 国产亚洲av人片在线观看| 国产杨幂AV在线播放| 免费av日韩一区二区| 中文字幕人妻被公上司喝醉| 国产91吞精一区二区三区| 中文字幕一区二区三区综合网| 国产精品 无码专区| 少妇被粗大的猛进69视频| 国产粉嫩美女一区二区三| 亚洲综合av大全色婷婷| 另类内射国产在线| 成人免费无码视频在线网站| 亚洲av高清一区二区在线观看 |