摘 要:隨時信息技術的不斷發(fā)展,電子郵件已成為人們普遍的交流工具之一,但隨之而來的垃圾郵件卻嚴重影響的這一日常交流方式。為了更好的凈化電子郵件的收發(fā)環(huán)境,反垃圾郵件技術的提高迫在眉睫。目前最為常用的技術之一是基于機器學習的垃圾郵件技術。該技術具有語言無關性,筆者通過對中文垃圾郵件過濾技術進行研究,通過分析中文垃圾郵件的特點,特征提取方法和多種過濾模型,采用4元文法提取方法,在線松弛支持向量機模型(ROSVM)的過濾效果較好。
關鍵詞:電子郵件;垃圾郵件;過濾;模型
中圖分類號:TP393.098
隨著計算機技術的迅速發(fā)展,網上交流成了人們溝通和交流的主要手段,由此,電子郵件成了人們不可缺少的工具。這種方式一方面方便了人們的交流,另一方面帶來了垃圾郵件的迅速蔓延。我國是個人口大國,使用電子郵件服務的客戶眾多,垃圾郵件泛濫的程度更為嚴重?;谖覈恼Z言,中文郵件是主要的郵件形式。所以,在我國面向中文垃圾郵件的過濾研究也成了反垃圾郵件技術主要關注的問題。
1 中文垃圾郵件特征
因為語言的特殊性,英文垃圾郵件提取相對簡單,不存在分詞這項繁瑣的任務,每一個單詞都可以作為一個獨立的特征項。相對于英文郵件,中文垃圾電子郵件特征更加復雜,中文郵件中定義字為基本的語言單位,但是一般一個字不能獨立表達語義信息,如果想要表達完整的語意,需要用詞匯來描述,因此,在判定提取時,首先需要通過分詞來對其特征進行判斷。分詞是按照一個句子中的詞的含義來進行切分的,但是由于漢語本身的語句和語法的復雜性,使得分出來的詞可能失去了原有的實際意義,例如:“推銷商品”應切分為“推銷/產品”否則當出現(xiàn)“推銷”這一詞條時,可能會因為粗略劃分而減少其出現(xiàn)的頻率。所以特征項為:推銷、產品。
2 基于在線學習的過濾模式
在線學習和離線學習是過濾器(分類器)的主要學習方式。如果再實際應用中沒有調整分類器的參數(shù),只是通過訓練樣本過程中來調整參數(shù)的,稱為離線學習方式。過濾器首先把過濾的郵件流分為垃圾郵件和正常郵件,其次過濾器中訓練模塊接受到用戶的反饋,訓練器根據此反饋結果進行訓練,訓練完成之后,將結果返回給過濾器。此方法稱之為在線過濾模式。本文所使用的過濾器均為在線模式。如圖1所示:
3 特征提取方法
郵件在過濾之前,要對文本內容進行特征抽取。常用的有基于詞的特征提取方法?;谠~的特征提取方法是將一封郵件的內容以詞的形式分開,每個詞作為一個特征建立特征空間向量。但是基于詞的特征提取方法卻存在很大的缺陷。基于詞的特征提取方法也存著不同語言差異上的缺陷。目前基于字節(jié)級n-gram的特征提取方法克服了以上缺點,并取得了不錯的成果?;谧止?jié)級n-gram的特征提取方法將郵件看做無差別的字節(jié)流對待,提取郵件的二進制特征,能夠處理各種類型各種語言的郵件?;谖患塶元文法的特征提取方法,保留了基于字節(jié)級n-gram特征提取方法的所具有的特點的同時,又有了與基于字節(jié)級的n元文法的不同點。經過試驗研究基于位級的n元文法要優(yōu)于基于字節(jié)級的n元文法的特征提取方法。
n元文法按字節(jié)流進行采用長度為n的窗口切分,如:graduate,按照n=4時進行滑動窗口切分為:grad、radu、adua、duat、uate這樣5個4-gram。n元文法按位進行采用長度為n的窗口切分,如:she,它的二進制表示為01110011 01101000 01100101按照n=20時切分為:01110011 01101000 0110、1110011 01101000 01100、110011 01101000 011001、10011 01101000 0110010、0011 01101000 01100101這樣5個20-gram。
4 在線松弛支持向量機(ROSVM)
垃圾郵件過濾采用的是在線過濾方式,也就是首先進行訓練郵件。服務器接收到的新郵件首先通過過濾器對郵件本身進行分類,并將結果告之用戶,用戶根據實際的郵件內容反饋系統(tǒng)是否為垃圾郵件,系統(tǒng)根據得到的用戶反饋調整其過濾參數(shù),這樣在下一次接收到新郵件時,服務器根據新的參數(shù)繼續(xù)對郵件性質進行判定,重復上述過程。這種方法稱為在線支持向量機。
在線學習方式下,訓練樣本是大批量大規(guī)模進行的,當訓練樣本集合達到很大規(guī)模時,在線支持向量機模型的訓練速度就會急劇下降,從而導致模型不可用。因此,應該采取相應的算法提升模型的訓練速度。D.Sculley提出了三個簡化措施。
(1)減少訓練集合大小。
(2)減少訓練的次數(shù)。
(3)減少迭代次數(shù)。
這種經過上述方法簡化的方法稱為在線松弛支持向量機(ROSVM)。
5 結束語
在面向中文垃圾郵件過濾的研究分析后,我們得出結論:選擇在線的過濾方式,采用在線松弛支持向量機(ROSVM)過濾模型,使用基于位級的n元文法特征提取方法進行垃圾郵件過濾最適合于中文垃圾郵件。是針對中文垃圾郵件過濾技術首要考慮的選擇。
參考文獻:
[1]王斌,潘文鋒.基于內容的垃圾郵件過濾技術綜述[J].中文信息學報,2009(05):1-10.
[2]Baojun Su,Congfu Xu.Not So Naive Online Bayesian Spam Filter[A].Proceedings of the Twenty-First Innovative Applications of Artificial Intelligence Conference[C],2009:147-152.
[3]孫鐵利,劉延吉.中文分詞技術的研究現(xiàn)狀與困難[J].信息技術,2009(07):187-192.
[4]T.Joachims.A Support Vector Method for Multivariate Performance Measures[A].Proceedings of the 22nd International Conference on Machine Learning[C],2009.
[5]P KOLARI,T FININ,A JOSHI.SVMs for the blogosphere:Blog identificationand splog detection[A].AAAI Spring Symposium on Computational Approachesto Analyzing Weblogs[C],2006:8-10.
[6]W.Yin,J.Goodman and G.Hulten Learning at low 1 positive rates[A].In Proceedings of the Third Conference on Email and Anti-Spam[C],2010.
作者單位:青島工學院 信息工程學院 山東青島 266300