文/劉衛(wèi)紅
對抗垃圾郵件
文/劉衛(wèi)紅
目前,垃圾郵件占發(fā)送郵件的比例已經(jīng)從1998年的10%上升到現(xiàn)在的92.3%。從垃圾郵件的發(fā)展歷史來看,垃圾郵件具有內(nèi)容多樣化以及技術(shù)復(fù)雜化的趨勢。垃圾郵件與反垃圾郵件之間的斗爭就是一場博弈。
在信息爆炸時代,在互聯(lián)網(wǎng)上除了擁有許多有效信息外,還充斥著許多垃圾信息,這給人們在享受網(wǎng)上沖浪樂趣的同時帶來很大的困擾。防御和檢測垃圾信息已成為當前互聯(lián)網(wǎng)技術(shù)中的一個重要課題。
垃圾郵件現(xiàn)在還沒有一個非常嚴格的定義,一般說來,凡是未經(jīng)用戶許可就強行發(fā)送到用戶郵箱中的任何電子郵件都可稱作是垃圾郵件。垃圾郵件包含的內(nèi)容種類繁多,包括賺錢信息、成人廣告、商業(yè)或個人網(wǎng)站廣告、電子雜志、連環(huán)信等。
對信息進行偽裝后發(fā)送是目前垃圾制造者經(jīng)常甚至必須采取的手段。隨著反垃圾信息技術(shù)的提高,制作者的偽裝手段也日益復(fù)雜,目前已經(jīng)從簡單的在垃圾信息中加入隨機詞、對URL偽裝等方式演變?yōu)槭褂梦淖肿冃?,甚至將垃圾信息放入圖片等復(fù)雜手段。垃圾郵件制造者通過多種方法對發(fā)送的信息進行偽裝,主要的方法有:變形文字、噪聲文字和圖片垃圾。
變形文字
目前,這種方法被垃圾制造者普遍采用,其原理是采用誤拼寫或使用替代字符的方法將垃圾信息進行變形,以達到改變信息校驗和、干擾基于內(nèi)容過濾器對詞條特征提取的目的。
噪聲文字
在垃圾郵件中加入噪聲文字以躲避過濾器的檢查也是垃圾信息制造者經(jīng)常采用的手法。該方法經(jīng)常用于攻擊基于統(tǒng)計學習方法的過濾器,如貝葉斯、支持向量機、最大熵過濾器等。根據(jù)所加入的噪聲詞的類型,這種方法可以進一步分為:隨機文字攻擊和好詞攻擊。
圖片垃圾(Image Spam)
圖片垃圾是將郵件的文本信息放在GIF或JPEG圖片中,對垃圾郵件進行偽裝。圖片垃圾可使垃圾郵件避開基于內(nèi)容的垃圾郵件過濾器的檢測。
通常,圖片垃圾中包含一些用來迷惑收件人的無意義的計算機自動生成的文字。
除了以上幾種主要手段外,目前在電子垃圾郵件中還經(jīng)常使用H T M L編碼、JavaScript程序、主題欺騙等手段。
目前垃圾郵件占發(fā)送郵件的比例已經(jīng)從1998年的10%上升到現(xiàn)在的92.3%。從垃圾郵件的發(fā)展歷史以及上文的分析來看,垃圾郵件具有內(nèi)容多樣化以及技術(shù)復(fù)雜化的趨勢。垃圾郵件與反垃圾郵件一直是一場博弈。為對抗垃圾郵件,國內(nèi)外研究人員提出許多檢測和過濾垃圾郵件的技術(shù)。
法律法規(guī)
目前,大多數(shù)國家政府針對垃圾郵件有相應(yīng)的立法,并采取多種法律手段來反擊垃圾郵件。但是對于大量的垃圾郵件,法律的作用是微乎其微的, 甚至由于只要遵守一定的規(guī)則, 就可以大量發(fā)送廣告郵件——法律在一定程度上促進垃圾郵件的發(fā)展。協(xié)議的改進
協(xié)議的改進是指通過改變發(fā)送郵件的方式來過濾郵件,如:需要發(fā)送者的認證;按郵件發(fā)送量的大小收取費用;通過驗證郵件是否來自合法區(qū)域及是否帶有正確的密碼來識別合法郵件。這些協(xié)議大多提供較完整的解決方案,卻往往因為需要對現(xiàn)有的郵件協(xié)議進行升級或替換,應(yīng)用部署受到限制,很難在電子郵件用戶中推廣。
過濾技術(shù)
對抗垃圾郵件最主要的技術(shù)是過濾技術(shù),主要用于MDA(Mail Deliver Agent)和MUA(Mail User Agent)。典型的垃圾郵件過濾技術(shù)有:黑白名單、規(guī)則過濾、概率統(tǒng)計分類等。
1. 黑白名單過濾
黑白名單是一個簡單有效而最為常用的過濾方法,國內(nèi)外已成立權(quán)威性的反垃圾郵件聯(lián)盟,提供實時的黑白名單,如中國反垃圾郵件聯(lián)盟的實時黑名單RBL,包括近期中國國內(nèi)的主要垃圾郵件發(fā)送源、中國國內(nèi)動態(tài)分配地址等。
該方法的優(yōu)點是對垃圾郵件處理能力的要求低,它能夠節(jié)省大量的帶寬、存儲容量和處理時間。缺點是不夠靈活,對垃圾郵件的判別準確度不高。
2. 基于規(guī)則過濾
通常也稱之為啟發(fā)式過濾技術(shù),它是利用電子郵件半結(jié)構(gòu)化的特點,先使用人工或者自動的方法總結(jié)出正常郵件或者垃圾郵件之間的共性,據(jù)此來生成一系列規(guī)則。設(shè)置一些過濾規(guī)則,這些規(guī)則通常有信頭分析、群發(fā)過濾、關(guān)鍵詞精確匹配以及郵件內(nèi)容中的其他特征。當郵件到達或者發(fā)送郵件的行為產(chǎn)生時,通過查找已有的垃圾郵件的匹配模式來過濾垃圾郵件,這需要開發(fā)商不斷地更新郵件規(guī)則。
基于規(guī)則過濾方法的優(yōu)點是規(guī)則可以共享,較易理解和修改、易推廣。其缺點主要在于:由于靜態(tài)的規(guī)則集,系統(tǒng)不能自動調(diào)整郵件過濾器去識別新的垃圾郵件特征,需要開發(fā)商構(gòu)造新的識別規(guī)則;更新速度慢。另外,基于規(guī)則的過濾技術(shù)能夠得到較高的精度,但是如果過濾器調(diào)整為可以達到100%的精確度,就會產(chǎn)生很高的誤檢率,這是用戶不能接受的。
3. 統(tǒng)計過濾方法
對郵件內(nèi)容采用統(tǒng)計過濾方法具有過濾正確率高、速度快的特點,是垃圾郵件處理技術(shù)中最受歡迎的一種方法,具有廣泛的應(yīng)用前景。常見的統(tǒng)計過濾方法有:貝葉斯方法、SVM、KNN、神經(jīng)網(wǎng)絡(luò)等。
(1) 貝葉斯分類
貝葉斯分類方法是最常見的基于統(tǒng)計的垃圾信息過濾方法。貝葉斯分類方法基于貝葉斯定理,其原理是大多數(shù)事件都是相互依賴的,一個事件將來發(fā)生的概率可以從該事件從前發(fā)生的概率進行推斷。應(yīng)用同樣的原理可以對郵件進行分類:利用已知的郵件,建立垃圾郵件和正常郵件關(guān)鍵詞的貝葉斯概率模型,然后利用該模型對新郵件進行判斷,判斷郵件是否為垃圾郵件。M.Sahami等人早在1998年就驗證貝葉斯算法在垃圾郵件過濾中成功的應(yīng)用效果。而樸素貝葉斯分類算法及其變體的發(fā)展及其應(yīng)用, 擴展了貝葉斯算法。
采用貝葉斯過濾方法的優(yōu)點是:對訓練樣本進行一次掃描,再進行統(tǒng)計分析,具有較優(yōu)的效率;占用的存儲空間少。由于這樣的優(yōu)點,因此貝葉斯算法在現(xiàn)有的郵件產(chǎn)品中得到廣泛的應(yīng)用。
貝葉斯過濾方法也有其局限性,主要是對訓練樣本的依賴性大以及對中文郵件的處理效果不夠顯著。貝葉斯方法對于純文本的垃圾郵件可以取得較高的過濾性能,但是對于包含多媒體以及非英文的郵件來說,貝葉斯方法具有其局限性。
(2) 自學習K近鄰算法
K近鄰(K-Nearest Neighbor, KNN)是常用的基于內(nèi)容的文本分類方法。分類時直接將待分類文本與訓練集合中的每個文本進行比較,根據(jù)前K篇相似的文本得到新文本的類別(最簡單的情況可以根據(jù)K篇文本所屬的類別數(shù)的多少來確定最后類別)。KNN的原理非常直觀,也很容易理解,在文本分類中KNN常常能夠取得好的結(jié)果。
它是基于要求的或懶散的學習方法,它所存放的樣本,直到新樣本需要分類時才建立分類,這使得訓練集合隨著多變的垃圾郵件而隨時變化,有利于郵件精確識別。
(3)支持向量機SVM
支持向量機(Support Vector Machine,SVM)是在20世紀90年代發(fā)展起來的一種統(tǒng)計學習方法。SVM是建立在統(tǒng)計學習理論和結(jié)構(gòu)風險最小化原理基礎(chǔ)上的。它通過構(gòu)造最優(yōu)線性分類面來指導(dǎo)分類。SVM提供一個與問題維數(shù)無關(guān)的刻畫函數(shù)復(fù)雜性的方法,它引入高維特征空間,將輸入空間的非線性決策邊界轉(zhuǎn)化為高維特征空間的線性決策邊界,利用線性函數(shù)的對偶核,解決了數(shù)值優(yōu)化的二次規(guī)劃求解問題,再根據(jù)有限的樣本信息的模型的復(fù)雜性和學習能力之間尋求最佳折中。
SVM在解決小樣本學習、非線性及高維模式識別中表現(xiàn)較好。SVM可直接用于線性可分問題,對于線性不可分的情形,可通過構(gòu)造一個轉(zhuǎn)換,將問題轉(zhuǎn)換到一個新的線性可分空間中。SVM方法也具有局限性,其計算量大、速度慢、參數(shù)選擇經(jīng)驗性強等缺點,不能得到很好的解決,通常需要結(jié)合其他方法進行彌補。
(4)神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是在對人腦組織結(jié)構(gòu)和運行機制的認識理解基礎(chǔ)上模擬其結(jié)構(gòu)和智能行為的一種工程結(jié)構(gòu),是基于生物學的神經(jīng)網(wǎng)絡(luò)基本原理建立的。
神經(jīng)網(wǎng)絡(luò)的優(yōu)點在于具有較強的自適應(yīng)性、學習能力以及大規(guī)模平行計算能力,其缺點是消耗大量時間、在處理在線或需快速反饋的問題時不宜使用此方法。
(5)其他過濾算法
由于垃圾郵件特征品類多、變化大、因此應(yīng)對垃圾郵件的反垃圾郵件技術(shù)也多種多樣。除上文所敘述的過濾技術(shù)外,國內(nèi)外研究人員還研究其他反垃圾郵件過濾技術(shù),例如:指紋技術(shù)、基于語義技術(shù)、簽名、Boosting算法、 本體技術(shù)以及其他將多種過濾技術(shù)組合應(yīng)用的垃圾郵件過濾技術(shù)等,這幾種垃圾郵件的檢測與過濾技術(shù)都有其自身的優(yōu)點和缺點。隨著作弊技術(shù)的不斷發(fā)展和變化,垃圾郵件的檢測與過濾技術(shù)也要不斷地發(fā)展和變化。
(作者單位為華南理工大學信息網(wǎng)絡(luò)工程研究中心)
[1]James John Farmer. 3.4 Specific Types of Spam .An FAQ for news.admin.net- abuse.email.http://web.archive.org/web/20040212175535/http://www.spamfaq.net/terminology.shtml#specific_spams.
[2]http://www.spamhaus.org/definition.html.
[3]John G.C. The Spammers' Compendium. http://popfile.sourceforge.net/SpamConference011703.pdf, 2007.
[4]B. Biggio, G. Fumera, I. Pillai, and F. Roli. Image spam filtering by content obscuring detection. in CEAS 2007 - The Third Conference on Email and Anti-Spam, 2007.
[5]美俄為垃圾郵件大戶 每3秒出現(xiàn)一個垃圾網(wǎng)頁. 2008年.http://tech.163.com/ 08/0421 /16/4A2M0JVU000915BF.html.
[6]新加坡將出垃圾郵件管理條例 違規(guī)郵件罰款.2007年.http://www.20ju. com/content/V4613.htm.
[7]M.Sahami,S.Dumais, A Bayesian approach to filtering junk E-Mail, Proceedings of the Fifteenth National Conference on Artificial Intelligence, Madison, pp.55- 62,July 1998.
[8]M.Sahami,S.Dumais, A Bayesian approach to filtering junk E-Mail, Proceedings of the Fifteenth National Conference on Artificial Intelligence, Madison, pp.55- 62,July 1998.
[9]陳治平.基于自學習K 近鄰的垃圾郵件過濾算法[J]. 計算機應(yīng)用,2005,(25)pp:1- 8.
[10]B. E. Boser, I. Guyon, and V. Vapnik. A training algorithm for optimal margin classifiers. In Proceedings of the Fifth Annual Workshop on Computational Learning Theory, ACM Press ,1992.pp:144-152.
[11]Weihong Liu,Weidong Fang.Adaptive Spam Filtering Based on Fingerprint Vectors. : Computing, Communication, Control, and Management, 2008. CCCM '08. ISECS.Aug.2008. pp: 384-388.