湖北工業(yè)大學(xué) 曹麗君
基于興趣認(rèn)知的垃圾郵件過濾技術(shù)研究
湖北工業(yè)大學(xué) 曹麗君
本文詳細(xì)介紹了基于興趣認(rèn)知的垃圾郵件過濾技術(shù)的總體設(shè)計(jì),以及初始化處理模塊和基于層疊隱馬模型的詞語切分模塊,最后介紹了算法實(shí)現(xiàn)和數(shù)據(jù)庫設(shè)計(jì)。
垃圾郵件;過濾技術(shù);研究
隨著信息技術(shù)等現(xiàn)代科學(xué)技術(shù)的發(fā)展,郵件已經(jīng)成為現(xiàn)在人們信息交流必不可少的一部分了。但是垃圾郵件也十分猖獗,并且垃圾郵件的種類也不斷翻新。所以要采取更有效的反垃圾郵件技術(shù)。
早在1997年,垃圾郵件已經(jīng)開始泛濫了。2003年全球企業(yè)因垃圾郵件引起的損失已超過205億美元。據(jù)調(diào)查網(wǎng)民每天需要花費(fèi)6.5 min來處理無用郵件,單是下載垃圾郵件所花費(fèi)的上網(wǎng)費(fèi)與電話費(fèi),每年就要花掉全球網(wǎng)民94億美元。國際著名分析機(jī)構(gòu)Ferris公司的最新分析報(bào)告預(yù)測(cè),2005年垃圾郵件給全球的生產(chǎn)力造成的損失和其他反垃圾郵件的投資將達(dá)到500億美元。IDC公司預(yù)測(cè),到2008年反垃圾郵件軟件收入及其服務(wù)收入將能夠達(dá)到17億美元的規(guī)模;屆時(shí)用戶每年在反垃圾郵件上花費(fèi)132美元。
它是一種自適應(yīng)的、具有統(tǒng)計(jì)智能的技術(shù),可以阻止日益變化的垃圾郵件,以前用的技術(shù),如屏蔽過多郵件發(fā)送的IP地址,屏蔽指定用戶郵箱,已經(jīng)跟不上現(xiàn)在的垃圾郵件的變化了,只有用具有智能性和具有自學(xué)習(xí)型的反垃圾郵件系統(tǒng)才能更加有效地抵制垃圾郵件。
現(xiàn)在主流的垃圾郵件過濾技術(shù)有黑名單技術(shù)、白名單技術(shù),實(shí)時(shí)黑名單技術(shù)、內(nèi)容過濾技術(shù)、自定義過濾技術(shù)。而這些過濾技術(shù),只能過濾一般性的垃圾郵件,不能因人而異。比如某人興趣是喜歡體育,那么關(guān)于培訓(xùn)和教育類的郵件對(duì)他來說就是垃圾郵件,要過濾掉,但是用以上常規(guī)的過濾技術(shù)是不能識(shí)別的,所以本文提出了基于興趣認(rèn)知的垃圾郵件過濾技術(shù)。
該技術(shù)先區(qū)分郵件的正文和標(biāo)題,再對(duì)正文進(jìn)行詞語的切分,切分完后再存進(jìn)數(shù)據(jù)庫,記錄字頻,再根據(jù)貝葉斯來計(jì)算概率。系統(tǒng)先根據(jù)用戶的判斷來確定哪些郵件是用戶感興趣的,經(jīng)過一段時(shí)間學(xué)習(xí)后,再自行判斷。
垃圾郵件是指收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件,收件人無法拒收的電子郵件,隱藏發(fā)件人身份、地址、標(biāo)題等信息的電子郵件,含有虛假的信息源、發(fā)件人、路由等信息的電子郵件。垃圾郵件一般具有批量發(fā)送的特征,在Internet上同時(shí)傳送多個(gè)副本:從內(nèi)容上看,它們通常是商業(yè)廣告、宣傳資料或者其它一些無關(guān)內(nèi)容。垃圾郵件是 Internet發(fā)展的副產(chǎn)品,起源于美國,在英文中有3個(gè)稱呼:UCE(Unsolicited Commercial Email)、UBE(Unsolicited Bulk Email)和Spain,常用的是Spain。 UCE是專指以商業(yè)廣告為內(nèi)容的垃圾郵件,UBE則還包含一些無關(guān)內(nèi)容。
中國互聯(lián)網(wǎng)協(xié)會(huì)定義的垃圾郵件有4種:
(1)收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件。
(2)收件人無法拒收的電子郵件。
(3)隱藏發(fā)件人身份、地址、標(biāo)題等信息的電子郵件。
(4)含有虛假的信息源發(fā)件人、路由等信息的電子郵件。
目前,垃圾郵件的定義被擴(kuò)大了,除了上述在《中國互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件規(guī)范》中對(duì)垃圾郵件定義外,病毒、色情、反動(dòng)、NULL等等無用的郵件,也被包括在垃圾郵件的定義中。
隨著Internet的日益普及,電子郵件已成為人們生活中不可缺少的一部分,它不僅為人們的工作和生活帶來了極大的便利。而且逐漸成為人們進(jìn)行信息交流的一種重要手段。然而,垃圾郵件卻給廣大的網(wǎng)絡(luò)用戶帶來了無窮的煩惱,它不僅嚴(yán)重地干擾了用戶正常的電子郵件的收發(fā),而且消耗了網(wǎng)絡(luò)帶寬,使用戶上網(wǎng)速度減慢,給網(wǎng)絡(luò)造成極大的危害。自互聯(lián)網(wǎng)普及以來,電子郵件逐漸成為人們生活中便捷的通信手段之一。然而,隨之產(chǎn)生的垃圾郵件像瘟疫一樣蔓延,造成極大的危害:占用大量的網(wǎng)絡(luò)帶寬,導(dǎo)致郵件服務(wù)器擁塞,降低整個(gè)網(wǎng)絡(luò)的運(yùn)行效率;侵占收件人信箱空間,耗費(fèi)收件人的時(shí)間、精力和金錢;易被黑客利用,成為攻擊工具;竊取用戶的網(wǎng)上行蹤,侵犯收件人的隱私權(quán);嚴(yán)重影響ISP的服務(wù)形象,使服務(wù)商的主機(jī)名有可能被列入國際垃圾郵件數(shù)據(jù)庫,從而導(dǎo)致該主機(jī)不能訪問國際網(wǎng)絡(luò);妖言惑眾、騙人錢財(cái),傳播不良內(nèi)容的垃圾郵件,對(duì)現(xiàn)實(shí)社會(huì)造成了危害。垃圾郵件危害之大、影響之深使得反垃圾郵件行動(dòng)刻不容緩,因此,對(duì)反垃圾郵件技術(shù)的研究已經(jīng)成為影響互聯(lián)網(wǎng)發(fā)展的重要課題之一。
[1]拒垃圾郵件于門外.微電腦世界,2005,(3):112-124.
[2]孟昭蘭.普通心理學(xué).北京大學(xué)出版社,1994.
[3]曹麒麟.張千里編.垃圾郵件與反垃圾郵件.人民郵電出版社,2003.
2017-09-10)