亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bayes算法的垃圾郵件過濾

        2015-04-01 09:21:18耿德志
        晉中學(xué)院學(xué)報 2015年3期
        關(guān)鍵詞:垃圾郵件貝葉斯郵件

        耿德志

        (晉中學(xué)院信息技術(shù)與工程學(xué)院,山西晉中030619)

        (編輯 張 瑛)

        隨著網(wǎng)絡(luò)的多元化應(yīng)用,人們進(jìn)行信息通訊的首選工具正不斷傾向于便捷、靈活、低成本的電子郵件,但因此產(chǎn)生的垃圾郵件也以較快的速度蔓延全球.垃圾郵件英文稱為spam,也稱為UCE(Unsolicited commercial Email,不請自來的商業(yè)電子郵件)或UBE(Unsolicited Bulk Email,不請自來的批量電子郵件)[1~2].垃圾郵件一般具有數(shù)目眾多、帶有商業(yè)目的、用戶不想接收這三個基本特點,它造成的危害如下:過度消耗帶寬;浪費用戶時間;威脅網(wǎng)絡(luò)安全.因此全球科學(xué)人員應(yīng)該更深層次地對垃圾郵件過濾技術(shù)進(jìn)行研究與探討.垃圾郵件的不斷蔓延也使人們更加體會到垃圾郵件過濾技術(shù)的重要性.

        如何采用合理、科學(xué)的過濾算法對用戶新接受郵件進(jìn)行分類處理,并對分類結(jié)果為垃圾郵件的接收郵件進(jìn)行有效過濾是識別垃圾郵件的核心問題[3].郵件用戶代理過濾、郵件傳輸代理過濾、郵件投遞代理過濾是根據(jù)電子郵件體系結(jié)構(gòu)角色層次進(jìn)行的劃分[4~5].相比較而言,基于內(nèi)容的過濾、基于黑白名單的過濾、基于規(guī)則的過濾等則是根據(jù)過濾技術(shù)層次進(jìn)行的劃分.

        基于內(nèi)容的垃圾郵件過濾結(jié)合了信息過濾[6]、文本分類等技術(shù)[7~9],運用這些技術(shù)中的處理方法分析電子郵件中的內(nèi)容,進(jìn)而達(dá)到識別垃圾郵件的目的.其根據(jù)統(tǒng)計分類郵件內(nèi)容的結(jié)果來處理新接收郵件.由于其速度快、過濾精度高,因此成為比較受歡迎的一種垃圾郵件過濾方法,如k近鄰法(k-NN)、神經(jīng)網(wǎng)絡(luò)、貝葉斯算法.在眾多垃圾郵件過濾技術(shù)中,性能穩(wěn)定、準(zhǔn)確精度較高的貝葉斯算法在行業(yè)應(yīng)用中將其特點發(fā)揮得淋漓盡致.

        本文核心內(nèi)容是應(yīng)用貝葉斯算法對垃圾郵件進(jìn)行處理.通過信息反饋學(xué)習(xí)機(jī)制增強(qiáng)系統(tǒng)的準(zhǔn)確性.

        1 貝葉斯算法及過濾相關(guān)技術(shù)

        1.1 貝葉斯定理

        貝葉斯定理在已知過去事件發(fā)生概率的基礎(chǔ)上推斷未來事件發(fā)生的可能性,其可以通過相關(guān)數(shù)學(xué)運算得出未來事件發(fā)生的概率.貝葉斯定理表明概率是對不確定事件發(fā)生的一種映射.

        垃圾郵件過濾可以理解成為一個將新接收郵件分為垃圾郵件或正常郵件的二值分類問題.因此可以根據(jù)正確分類的郵件,應(yīng)用貝葉斯定理推斷新接收郵件的類別.

        貝葉斯定理的描述如下:樣本空間K是一個隨機(jī)實驗E中一切可能基本結(jié)果組成的集合,并且K的一個子集為{B1,B2,…Br}.K中某一事件發(fā)生的概率采用數(shù)學(xué)符號表示為{P(A)|A■K},則對于K中的任意事件 A、B,有 P(A)>0,P(B|A)=P(A∩B)/P(A)表示以 A 發(fā)生為前提,B 發(fā)生的條件概率.貝葉斯定理可表示為:

        其中P(A)>0由全概率公式可得

        式(1)中,P(Bi|A)為后驗概率,P(A|Bi)為似然概率,P(Bi)為先驗概率.

        1.2 貝葉斯分類器

        貝葉斯分類器可看成是文本分類特殊化與貝葉斯定理實例化的結(jié)合.文本分類的中心任務(wù)是:依據(jù)文本內(nèi)容的解析結(jié)果,將文本與指定類別相關(guān)聯(lián).根據(jù)文本屬于每個類別的概率計算結(jié)果,貝葉斯分類器會將其關(guān)聯(lián)到概率最大的類別中.

        在文本分類領(lǐng)域,表示文本一般采用向量空間模型機(jī)制(VSM,Vector Space Model),即文檔實現(xiàn)向量化:d=(t1,w1;t2,w2;…tn;wn)或者d=(w1,w2…wn),ti是特征項,可以使用字、詞作為特征項.wn(n=1,2,3…n)表示第n個特征項的權(quán)重,n是特征項的個數(shù).權(quán)重的計算方法有很多,布爾權(quán)重、文檔頻次、字頻、詞頻都可以作為權(quán)重使用.為了便于計算,本文特征項使用字作為標(biāo)準(zhǔn),權(quán)重使用字頻作為標(biāo)準(zhǔn).另有變量C是類別集合{C1,C2…Cm}中的一個元素.對一待分類文本 dx=(x1,x2,…xn),則樣本 dx屬于類別 Ci的條件:

        即將dx分類到概率最大的類別中,利用貝葉斯定理計算文本dx屬于某個類別的概率為:

        式中P(C=Ci)是Ci的先驗概率;P(d=dx)是指試驗中dx發(fā)生的概率,根據(jù)全概率公式得

        對于同一文檔P(d=dx)不會發(fā)生變化而且較易進(jìn)行計算.P(d=dx|C=Ci)是似然函數(shù),即指類Ci中dx發(fā)生的類條件概率.當(dāng)面臨較大數(shù)目的特征數(shù)以及依存度較高的特征變量時,此計算過于復(fù)雜.為降低計算難度,可假設(shè)各特征變量之間是獨立的,因此出現(xiàn)了樸素貝葉斯分類器模型.

        對于指定的分類變量C,假設(shè)各特征變量di之間相互獨立,則有:

        故而

        樸素貝葉斯分類器的結(jié)構(gòu)如圖所示:

        圖1 樸素貝葉斯分類器結(jié)構(gòu)圖

        1.3 貝葉斯過濾器

        貝葉斯過濾器是貝葉斯分類器的特殊化.由于垃圾郵件過濾問題是文本分類的一個特例,因此可以將文本分類思想引入到構(gòu)造貝葉斯過濾器的過程中.

        收集整理一個垃圾郵件集,該集合由兩部分組成.第一部分作為貝葉斯過濾器訓(xùn)練的題材,訓(xùn)練前需要人工分類題材.第二部分在測試貝葉斯過濾器效果時使用.過濾流程:(1)在訓(xùn)練樣本集的基礎(chǔ)上提取特征項,建立特征集合,依據(jù)特征集合中的特征,向量化處理測試樣本集中的郵件.(2)以郵件特征為依據(jù),分別統(tǒng)計訓(xùn)練集上每個類別中類的先驗概率和每個特征的類條件概率.(3)綜合考慮特征條件概率和類先驗概率,計算新接收郵件屬于每個類別的概率.(4)基于相似度對郵件作出相應(yīng)分類.

        數(shù)學(xué)描述:使用 VSM模型處理每一封樣本郵件,其數(shù)學(xué)表示為 d=(t1,w1;t2,w2,…tn,wn),ti是郵件選取的特征項,wi是ti的權(quán)重,郵件類別標(biāo)簽為:C={Spam,Ham}.貝葉斯分類器的核心是計算新接收郵件是垃圾郵件的概率,然后將其與設(shè)定的閾值進(jìn)行比較,一旦超過則被判定為垃圾郵件.假設(shè)一封新郵件dx=(x1,x2,…xn)依據(jù)貝葉斯算法,計算新接收郵件屬于垃圾郵件的概率公式:

        其中P(d=dx|C=Spam)指在類別為垃圾郵件的前提下,dx中所有特征項同時出現(xiàn)的概率;P(C=Spam)指類別為垃圾郵件的概率.根據(jù)P(d=dx|C=Ham)與閾值的比較結(jié)果即可確定郵件類型.

        1.4 貝葉斯過濾器模型關(guān)鍵技術(shù)

        1.4.1分詞

        對文本分詞處理即按照句中詞的含義對句子進(jìn)行詞匯分離,分離出的每個詞匯為一個可識別的Token單元.貝葉斯過濾器的效果與分詞算法有著密切的聯(lián)系.由于英文文本相鄰構(gòu)成元素之間區(qū)分度較大,因此有利于方便處理.相比較英文郵件處理,處理中文郵件則需要洞察中文詞匯的特點,才能實現(xiàn)合理分詞.

        1.4.2特征選擇

        隨著郵件不斷積累,訓(xùn)練集中詞匯量逐漸加大,由這些特征詞組成的向量維數(shù)也會相應(yīng)劇增,給計算施加了較大壓力.在分離出的特征詞中,有些對區(qū)分郵件類別所起到的作用微乎其微,可以忽略其影響.特征提取的目的是為了減少向量空間維度,降低計算難度,這就需要最大程度上移除特征集中可忽略其影響效果的特征詞匯.

        進(jìn)行特征選詞的一般方法:對文本進(jìn)行向量化處理,移除特征集中可忽略其影響效果的特征詞匯.依據(jù)一定的評價函數(shù)計算特征詞與類的相關(guān)概率,為提高分類器的精度,根據(jù)計算結(jié)果選取定量較優(yōu)的特征詞.常用的特征提取方法:文檔頻度、信息增益等.

        由于較少特征量不但會致使區(qū)分效果不顯著,也會減弱郵件表達(dá)的含義.而過度的特征量會給郵件分類帶入相關(guān)次要影響,因此對于郵件特征的提取,其數(shù)量應(yīng)該適中.實驗數(shù)據(jù)表明:英文語料庫的最佳特征集合大小范圍為350~800;中文語料庫的最佳特征集合大小范圍為1 200~1 800.

        2 功能模塊分析

        2.1 系統(tǒng)基本功能

        本系統(tǒng)基本功能是對用戶新接受郵件進(jìn)行分類判定,并對其中的垃圾郵件進(jìn)行有效過濾.本系統(tǒng)可以通過自學(xué)習(xí)用戶判定的垃圾郵件來加強(qiáng)系統(tǒng)的適應(yīng)性,降低系統(tǒng)誤判率.

        2.2 結(jié)構(gòu)設(shè)計

        自學(xué)習(xí)模塊:本模塊中用戶主動選擇垃圾郵件庫與正常郵件庫的保存路徑,垃圾郵件庫中保存之前逐漸積累的垃圾郵件和當(dāng)前下載郵件中用戶根據(jù)自己意愿所判定的垃圾郵件.正常郵件庫中保存用戶之前積累的合法郵件.該模塊會處理垃圾郵件庫與正常郵件庫中的郵件,將這些郵件中分離的詞匯擴(kuò)充到相應(yīng)的詞匯庫中,完成對垃圾郵件庫與合法郵件庫的加載過程.此外,在本模塊中可以設(shè)定判斷垃圾郵件的閾值,該閾值默認(rèn)設(shè)置為0.9.

        用戶登錄模塊:通過用戶手工輸入一些基本信息(如:郵箱類型、電子郵箱賬號、密碼)進(jìn)行郵箱網(wǎng)絡(luò)驗證.此模塊驗證用戶輸入郵箱信息的有效性,保證本系統(tǒng)可以順利登陸用戶郵箱,為郵件下載模塊提供先前條件.

        郵件下載模塊:本系統(tǒng)順利登陸用戶電子郵箱后,該模塊會查詢用戶郵箱中郵件總數(shù),并對其中的電子郵件進(jìn)行下載.下載界面底部初始化會顯示郵件總量,當(dāng)下載開始后,底部則會顯示每一封郵件的下載進(jìn)度.在下載界面的中心部分會相應(yīng)顯示當(dāng)前下載郵件的主題、發(fā)件人、收件人、下載路徑等郵件的相關(guān)信息.對于界面中心顯示的郵件,如果用戶想查看郵件內(nèi)容,本系統(tǒng)通過調(diào)用Microsoft officeoutlook進(jìn)行實現(xiàn).用戶可以根據(jù)自己的意愿判定所顯示郵件的類型即判定界面所列郵件為垃圾郵件還是正常郵件.系統(tǒng)在自學(xué)習(xí)模塊中會主動學(xué)習(xí)用戶積累的垃圾郵件.當(dāng)然,用戶也可以刪除個別下載的郵件.

        垃圾郵件過濾模塊:本模塊包含三個較小的模塊,分別為郵件解析模塊、郵件分詞模塊、郵件過濾模塊.

        郵件解析模塊:由于網(wǎng)絡(luò)上傳輸信息是以base64進(jìn)行編碼的,所以下載的電子郵件需要進(jìn)行base64解碼,否則郵件內(nèi)容不能正常顯示,這會妨礙郵件分詞功能的實現(xiàn).在郵件解析模塊中會對下載的郵件進(jìn)行base64解碼,實現(xiàn)文本正常顯示,為郵件分詞模塊鋪就道路.

        郵件過濾模塊:本模塊會對分詞模塊中分離的詞匯進(jìn)行概率計算,然后根據(jù)自學(xué)習(xí)模塊中加載的數(shù)據(jù)字典進(jìn)行相關(guān)概率計算.通過計算分離詞匯同時出現(xiàn)在新接收郵件中的概率,并將此概率與設(shè)定閾值進(jìn)行比較來確定郵件類型,最終依據(jù)識別的郵件模塊——本模塊會對郵件的相關(guān)信息(如文本內(nèi)容)進(jìn)行分詞處理,用以判定電子郵件的類型.類型作出相應(yīng)處理,在刪除垃圾郵件之前,該模塊會將垃圾郵件中分離出的詞匯保存到詞匯庫中,擴(kuò)大詞匯量,提高系統(tǒng)判定垃圾郵件的準(zhǔn)確率.

        3 基于貝葉斯算法的垃圾郵件過濾

        基于貝葉斯算法的垃圾郵件過濾步驟如下:

        (1)基于積累的垃圾郵件與合法郵件,建立合適的訓(xùn)練集.

        (2)對兩個集合中全部郵件進(jìn)行分詞處理,分離出的獨立字符串作為TOKEN串并統(tǒng)計其字頻.

        (3)將郵件集中的內(nèi)容映射到相應(yīng)的哈希表中,合法郵件集關(guān)聯(lián)名為ham的哈希表,垃圾郵件集則關(guān)聯(lián)名為spam的哈希表.

        (5)綜合考慮ham和spam這兩個哈希表,根據(jù)表中TOKEN串出現(xiàn)的概率,計算新接收郵件當(dāng)其文本中出現(xiàn)某TOKEN串時為垃圾郵件的概率.數(shù)學(xué)表達(dá)式為:

        式中A表示郵件類別為垃圾郵件,ti代表某TOKEN串,P(A|ti)表示郵件文本中出現(xiàn)ti為A事件發(fā)生的概率.

        (6)建立新的哈希表pro存儲TOKEN串ti到P(A|ti)的映射.

        (7)上述過程已經(jīng)完成加載垃圾郵件集與合法郵件集的過程.根據(jù)哈希表,推斷新接收郵件為垃圾郵件的概率.對新接受郵件按照上述過程分離出TOKEN串.查詢pro得到該TOKEN串的鍵值.

        假設(shè)由該郵件共得到 n 個 TOKEN串,t1,t2…tn,pro中對應(yīng)的值為 P1,P2,…Pn,P(A|t1,t2,t3…tn)表示 TOKEN串t1,t2…tn同時出現(xiàn)在郵件中時,該郵件為垃圾郵件的概率.由復(fù)合概率公式可得

        當(dāng) P(A|t1,t2,t3…tn)與預(yù)定閾值比較后時即可確定郵件類型.

        4 系統(tǒng)實現(xiàn)

        基于Bayes的垃圾郵件過濾系統(tǒng)包含系統(tǒng)自學(xué)習(xí)、郵箱登陸、郵件的下載、過濾等功能模塊,每個功能模塊的具體系統(tǒng)實現(xiàn)如下.

        4.1 系統(tǒng)自學(xué)習(xí)

        在該界面用戶需要選擇垃圾郵件集與合法郵件集的保存路徑,如果未對其進(jìn)行選擇,系統(tǒng)會提示相關(guān)信息,方便用戶使用.系統(tǒng)會加載用戶選擇的垃圾郵件集與合法郵件集,將數(shù)據(jù)字典映射到相應(yīng)哈希表中,為垃圾郵件過濾功能提供先前條件.

        4.2 郵箱登陸

        在系統(tǒng)初始化界面的菜單欄中有文件選項,單擊該選項會出現(xiàn)登陸選項.在POP3郵箱服務(wù)器下拉框中選擇相關(guān)的服務(wù)器名稱,其余的需要輸入一些郵箱的相關(guān)信息(如郵箱名稱、密碼),登陸界面上的相關(guān)信息都必須填寫,否則會出現(xiàn)相應(yīng)提示.當(dāng)相關(guān)信息填寫完成后,通過socket進(jìn)行網(wǎng)絡(luò)信息驗證.

        4.3 郵件下載、過濾

        用戶成功登錄郵箱之后,系統(tǒng)會對郵箱中的電子郵件進(jìn)行下載,下載進(jìn)度會在界面底部顯示出來,郵件有關(guān)信息會在界面中心進(jìn)行顯示.用戶可以查看、刪除界面中心所列的電子郵件.用戶可以根據(jù)自己的意愿對郵箱中的郵件進(jìn)行分類,系統(tǒng)會將用戶所分類郵件進(jìn)行標(biāo)記處理并放到相應(yīng)文件夾中以備系統(tǒng)自學(xué)習(xí)使用.在該界面中當(dāng)郵件被識別為合法郵件時狀態(tài)欄會顯示對號,否則會顯示叉號.

        5 結(jié)束語

        垃圾郵件的多方面變化致使垃圾郵件過濾技術(shù)相應(yīng)地呈現(xiàn)多樣化的特點.通過解析郵件文本內(nèi)容洞察出發(fā)件者的意圖,并據(jù)此分類過濾郵件.本文采用基于貝葉斯算法對用戶新接受郵件進(jìn)行分類處理,根據(jù)用戶判定的垃圾郵件進(jìn)行自學(xué)習(xí)以此來增強(qiáng)系統(tǒng)對垃圾郵件判定的準(zhǔn)確率,并對分類結(jié)果為垃圾郵件的接收郵件進(jìn)行有效過濾.與傳統(tǒng)的其他過濾辦法(如K近鄰法k-NN、神經(jīng)網(wǎng)絡(luò))等相比,貝葉斯算法是通過計算特征庫中存儲的詞匯同時出現(xiàn)在新接收郵件中的概率,并將此概率與設(shè)定閾值進(jìn)行比較來確定郵件的類型,此方法過濾效果顯著、處理時間短、消耗內(nèi)存小、適應(yīng)能力強(qiáng),可幫助用戶過濾其不想接收的垃圾郵件(如廣告郵件、銷售郵件等),為用戶提供一個安全可靠的郵箱環(huán)境,并在一定程度上緩解了網(wǎng)絡(luò)負(fù)擔(dān).

        [1]Meds Haahr and Alan Gray.Personalized Collaborative Spam Filtering[J].In Proceedings of the First Conference on Email and Anti-Spam(CEAS),2004.

        [2]L.F.Cranor,B.A.LaMacchia.Spam![J].Communicationsof the ACM,1998,41(8):74~83.

        [3]桂小林,陳菲菲.基于機(jī)器學(xué)習(xí)的動態(tài)信譽(yù)評估模型研究[J].計算機(jī)研究與發(fā)展,2007(2):200~239.

        [4]趙煥彥.面向安全電子郵件的真實IPv6源地址驗證機(jī)制設(shè)計與實現(xiàn)[D].沈陽:東北大學(xué),2008.

        [5]李卓桓,陳勇.反垃圾郵件完全手冊[M].北京:清華大學(xué)出版社,2006.

        [6]王永成.一種高效的中文電子詞表數(shù)據(jù)結(jié)構(gòu)[J].計算機(jī)研究與發(fā)展,2000(1):107~120.

        [7]李東艷.一個基于非法文本用詞特征分析的文本分類器[J].電腦開發(fā)與應(yīng)用,2006,19(10):2~3,6.

        [8]汪維家,秦進(jìn).文本分類中的特征提?。跩].計算機(jī)應(yīng)用,2003,23(2):41~48.

        [9]尹存燕,趙偉.一種規(guī)則與統(tǒng)計相結(jié)合的漢語分詞方法[J].計算機(jī)應(yīng)用研究,2004(3):20~24.

        猜你喜歡
        垃圾郵件貝葉斯郵件
        基于James的院內(nèi)郵件管理系統(tǒng)的實現(xiàn)
        從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語單詞的起源出人意料地有趣 精讀
        英語文摘(2021年10期)2021-11-22 08:02:36
        一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測算法
        一封郵件引發(fā)的梅賽德斯反彈
        車迷(2018年12期)2018-07-26 00:42:32
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計的軌道占用識別方法
        基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過濾模型
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        IIRCT下負(fù)二項分布參數(shù)多變點的貝葉斯估計
        石器部落
        使劲快高潮了国语对白在线| 在线观看麻豆精品视频| 国产精品麻豆va在线播放| 香蕉久久福利院| 国产人成无码视频在线| 一本色道亚州综合久久精品| 亚洲精品中文字幕一二三区| 三叶草欧洲码在线| 亚洲国产美女精品久久| 亚洲色图在线视频观看| 国产日本精品视频一区二区 | 2021国产精品一区二区在线 | 亚洲精品AⅤ无码精品丝袜无码| 国产一区二区熟女精品免费| 精品国产免费一区二区三区香蕉| 中文字幕人妻丝袜美腿乱| 国产精品反差婊在线观看| 男女啪啪在线视频网站| 中文字幕色av一区二区三区| 精品久久无码中文字幕| 日韩精品中文字幕综合| 丰满少妇在线播放bd| 午夜成人鲁丝片午夜精品| 欧美综合区| 久久国产精品亚洲我射av大全 | av影片手机在线观看免费网址| 久久国产免费观看精品3| 国产精在线| 国产伦精品一区二区三区在线| 国产高清乱码又大又圆| 亚洲国产另类久久久精品黑人| 色婷婷色99国产综合精品| 中文字幕一区二区三区乱码人妻| 久久久久亚洲av成人无码| 亚洲免费不卡| 97久久国产精品成人观看| 免费又黄又爽又色的视频| 国内大量揄拍人妻在线视频| 一区二区视频网站在线观看| 亚洲精品久久久久一区二区| 精品人妻系列无码人妻免费视频 |