亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

關(guān)于一種針對(duì)頭文件的貝葉斯垃圾郵件過濾器的研究

2014-12-31 00:00:00甘戈李學(xué)威胡茜雅祝彬彬

計(jì)算機(jī)光盤軟件與應(yīng)用 2014年10期

摘要：郵件作為當(dāng)今社交、商業(yè)往來最重要的手段之一，被廣大公司及個(gè)人廣泛使用，垃圾郵件問題也就隨之而來。很多機(jī)構(gòu)都在考慮應(yīng)對(duì)垃圾郵件的方法，其中最為有代表性的為貝葉斯過濾器。它通過對(duì)文本中出現(xiàn)的單詞進(jìn)行分析以及再學(xué)習(xí)的方式來判定郵件的可靠性。但是因?yàn)橥瑯拥膯卧~對(duì)每個(gè)人的意義不同，很難做到精確的判斷。因此，本研究著眼于郵件頭文件，通過貝葉斯過濾器對(duì)三種頭文件的分析來進(jìn)行垃圾郵件判定，從而提高垃圾郵件的檢出率。

關(guān)鍵詞：垃圾郵件；貝葉斯過濾器；頭文件；數(shù)據(jù)庫；

中圖分類號(hào)：TP393.098

近幾年隨著網(wǎng)絡(luò)的普及，電子郵件也隨之成為非常重要的聯(lián)絡(luò)手段。郵件的安全性也成為了關(guān)注焦點(diǎn)，帶有病毒和附件的垃圾郵件的數(shù)量更是成倍的增長。

為了防止垃圾郵件帶來的侵害，很多機(jī)構(gòu)都在研討防止垃圾郵件的對(duì)策。目前最常被用于防止垃圾郵件的方式是貝葉斯過濾器[1]，它是一種基于貝葉斯理論的再學(xué)習(xí)型過濾器，對(duì)個(gè)別敏感詞語進(jìn)行學(xué)習(xí)，將其出現(xiàn)的概率在數(shù)據(jù)庫中更新，從而通過單詞的概率來推出整個(gè)郵件的垃圾概率[2]。但是這種方法的問題在于同一個(gè)單詞對(duì)不同人的意義是不一樣的，所以很難做到準(zhǔn)確的判斷，同時(shí)它也不適合有動(dòng)畫及附件的垃圾郵件。鑒于此，本研究將郵件的頭文件作為著手點(diǎn)，通過對(duì)3種不同的頭文件的分析結(jié)合貝葉斯過濾器的方法來判定一封郵件為垃圾郵件的概率，目的是能夠改善垃圾郵件的判定精度。

1 垃圾郵件對(duì)策

1.1 通信部分的判別

（1）黑名單型：將垃圾郵件送信方的IP地址或者指定的IP地址加入到黑名單中，這樣再從已經(jīng)登陸到黑名單中的地址發(fā)來的郵件都會(huì)被直接鎖定[3]；（2）白名單型：只接受那些已經(jīng)承認(rèn)不是垃圾郵件的地址或者送信人。將其登錄到特定的名單中，不在名單范圍內(nèi)的其他郵件全部被系統(tǒng)鎖定；（3）灰名單型：將收到的郵件無論郵件是不是垃圾郵件一律全部回絕，當(dāng)同樣的郵件再一次發(fā)送來的時(shí)候再在將其接受[4]；（4）混合式：混合式判定垃圾郵件的工作流程，首先檢查這封垃圾郵件的來源地址是否被系統(tǒng)登錄，如果登陸到黑名單或者白名單中，該郵件將會(huì)被直接處理，兩邊都未登陸的郵件根據(jù)其他過濾器的判定來判別這封郵件是否是垃圾郵件[5]。

1.2 根據(jù)郵件內(nèi)容判別

（1）關(guān)鍵字型：將垃圾郵件中經(jīng)常出現(xiàn)的詞語總結(jié)出，將帶有這些詞語的郵件全部拒絕。這種方法的誤判斷率較高，判定率低；（2）空間內(nèi)容型：將已經(jīng)判定為垃圾郵件中的特征詞語抽出學(xué)習(xí)，用生成指標(biāo)的概率來判斷。最有代表性的是貝葉斯過濾器[6]。

1.3 貝葉斯過濾器

貝葉斯過濾器是應(yīng)用貝葉斯分類器將對(duì)象數(shù)據(jù)分析、學(xué)習(xí)從而將他們分類的一種過濾器[7]。它將已經(jīng)判定為垃圾郵件的詞語再學(xué)習(xí)，把該詞語出現(xiàn)的概率更新到數(shù)據(jù)庫中，因此學(xué)習(xí)它的判定精度就會(huì)越高。

2 提案方法

2.1 頭文件

電子郵件主要由2部分構(gòu)成。一部分是記載郵件內(nèi)容的文本，另一部分是記錄郵件信息的頭文件。一般的郵件只會(huì)表示部分頭文件信息。例如：Data，F(xiàn)rom，Subject等。

2.2 提案頭文件分析

本研究主要針對(duì)三個(gè)具有代表性的頭文件進(jìn)行分析，這三個(gè)頭文件為X-Mailer、Received、Content-Transfer-Encoding：（1）X-Mailer頭文件：X-Mailer頭文件表示郵件送信時(shí)使用的軟件，但不是必須表示出來；（2）Content-Transfer-Encoding頭文件：這是表示郵件編碼長度的頭文件，在SMTP協(xié)議中指定7bit為郵件的編碼長度；（3）Received頭文件：這是表示郵件服務(wù)器信息的頭文件，一封郵件每通過一個(gè)服務(wù)器時(shí)就自動(dòng)附加1，也就是說當(dāng)一個(gè)郵件通過3個(gè)服務(wù)器時(shí)Received數(shù)就是3.

2.3 頭文件調(diào)查結(jié)果

（1）Received數(shù)的調(diào)查結(jié)果。此次調(diào)查收集了3070封垃圾郵件和518封非垃圾郵件，對(duì)特征頭文件的調(diào)查會(huì)以這些為參照。經(jīng)調(diào)查當(dāng)Received數(shù)是1時(shí)垃圾郵件占64%，非垃圾郵件占15%，當(dāng)Received數(shù)是2時(shí)垃圾郵件占32%，非垃圾郵件占76%；（2）X-Mailer頭文件調(diào)查結(jié)果。利用Microsoft Outlook Express軟件發(fā)送的垃圾郵件占其總數(shù)的51.8%，而非垃圾郵件只占其總數(shù)的9.2%。沒有利用郵件發(fā)送軟件的垃圾郵件占其總數(shù)的26.8%，非垃圾郵件占其總數(shù)27.7%。而利用melcast.com發(fā)送的郵件中非垃圾郵件占其總數(shù)的61%；（3）Content-Transfer-Encoding頭文件調(diào)查結(jié)果。編碼長為7bit的垃圾郵件占其總數(shù)的84%，非垃圾郵件占其總數(shù)的93.6%，編碼長度為quoted-printable和8bit的垃圾郵件占其總數(shù)的15%而非垃圾郵件只占其總數(shù)的1.9%。

2.4 數(shù)據(jù)庫的做成

將調(diào)查結(jié)果分別做成相對(duì)應(yīng)的數(shù)據(jù)庫，通過制作好的程序?qū)⑻卣黝^文件抽出然后根據(jù)貝葉斯定理通過概率計(jì)算專用程序?qū)⒂?jì)算的結(jié)果做成該頭文件的數(shù)據(jù)庫用來參照。該數(shù)據(jù)庫記載的是判斷一封郵件為垃圾郵件的概率。

3 實(shí)驗(yàn)與結(jié)果

本次實(shí)驗(yàn)將新搜集到的1705封垃圾郵件和97封非垃圾郵件作為判定對(duì)象參照現(xiàn)有的數(shù)據(jù)庫進(jìn)行判定。判定后將這些郵件再學(xué)習(xí)來驗(yàn)證這種貝葉斯垃圾郵件過濾器的可靠性。

3.1 頭文件數(shù)據(jù)實(shí)驗(yàn)結(jié)果

（1）Received數(shù)單獨(dú)判定時(shí)：檢出率=0.694、誤檢出率=0.536、看錯(cuò)率=0.306、綜合精度=0.681；（2）X-Mailer頭文件單獨(dú)判定時(shí)：檢出率=1、誤檢出率=1、看錯(cuò)率=0、綜合精度=0.946；（3）Content-Transfer-Encoding頭文件單獨(dú)判定時(shí)：檢出率=0.887、誤檢出率=0.979、看錯(cuò)率=0.113、綜合精度=0.841。三個(gè)頭文件同時(shí)利用判定時(shí)：檢出率=0.945、誤檢出率=0.69、看錯(cuò)率=0.055、綜合精度=0.911。

3.2 實(shí)驗(yàn)數(shù)據(jù)再學(xué)習(xí)

由于實(shí)驗(yàn)數(shù)據(jù)有限，垃圾郵件的數(shù)量是非垃圾郵件數(shù)量的17倍，所以本次實(shí)驗(yàn)將數(shù)據(jù)比例調(diào)整到兩邊的數(shù)量接近1：1利用貝葉斯過濾器的特性將試驗(yàn)數(shù)據(jù)追加到原始數(shù)據(jù)中再學(xué)習(xí)形成新的數(shù)據(jù)庫。再學(xué)習(xí)后的數(shù)據(jù)庫有垃圾郵件4775封，非垃圾郵件615封。檢出率的比較結(jié)果為實(shí)驗(yàn)數(shù)據(jù)=0.945，再學(xué)習(xí)數(shù)據(jù)=0.969。從綜合精度上來看實(shí)驗(yàn)數(shù)據(jù)的精度=0.911，再學(xué)習(xí)后的精度=0.925。

4 結(jié)束語

從實(shí)驗(yàn)結(jié)果上可以看出同時(shí)利用3個(gè)頭文件對(duì)垃圾郵件的判定精度要高于單獨(dú)使用頭文件對(duì)垃圾郵件判定時(shí)的精度，另外看出將試驗(yàn)數(shù)據(jù)再學(xué)習(xí)后形成的新數(shù)據(jù)的判定精度也比原始數(shù)據(jù)的判定精度高，這也符合貝葉斯過濾器越學(xué)習(xí)判定精度越高的特點(diǎn)。

從這些結(jié)果上看利用電子郵件的頭文件信息作為判定對(duì)象通過貝葉斯過濾器來對(duì)垃圾郵件的判定的對(duì)策具有一定的有效性。判定精度也會(huì)隨著再學(xué)習(xí)的數(shù)量的增多而得到進(jìn)一步的提高。

參考文獻(xiàn)：

[1]渡邊綾太.垃圾郵件教科書[M].日本：數(shù)據(jù)小屋株式會(huì)社，2006.

[2]森健人.關(guān)于利用貝葉斯過濾器來檢測頭文件信息的研究[D].岐阜大學(xué)，2008.

[3]松下隆史，村山公保，荒井透.精通TCP/IP入門（第3版）[M].日本：歐姆社株式會(huì)社，2002.

[4]陳勇，李卓桓.反垃圾郵件完全手冊[M].北京：清華大學(xué)出版社，1998.

[5]曹麒麟，張千里.垃圾郵件與發(fā)垃圾郵件技術(shù)[M].北京：人民郵電出版社，2003.

[6]李學(xué)志.如何防范垃圾郵件[J].金融電子化，2003（01）.

[7]張俊麗，張帆.改進(jìn)KNN算法在垃圾郵件過濾中的應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù)，2007（04）.

作者簡介：甘戈（1984-），遼寧西豐人，在讀研究生，主要研究方向：計(jì)算機(jī)技術(shù)。

作者單位：中國科學(xué)院大學(xué) 計(jì)算機(jī)技術(shù)，沈陽 110168；沈陽新松機(jī)器人自動(dòng)化股份有限公司，沈陽 100168；中國水利水電第六工程局有限公司，沈陽 110179；中國醫(yī)科大學(xué) 基礎(chǔ)醫(yī)學(xué)院，沈陽 110013

計(jì)算機(jī)光盤軟件與應(yīng)用2014年10期

計(jì)算機(jī)光盤軟件與應(yīng)用的其它文章: 淺議郵件系統(tǒng)中垃圾郵件過濾技術(shù); 關(guān)于如何加強(qiáng)對(duì)計(jì)算機(jī)機(jī)房的管理和維護(hù)的分析; 計(jì)算機(jī)CPU常見故障與排除; 淺析智能優(yōu)化算法; 淺析如何規(guī)范化設(shè)計(jì)CPCI總線加固計(jì)算機(jī); 探討如何提高計(jì)算機(jī)的網(wǎng)絡(luò)維護(hù)效率