亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        反垃圾電子郵件方法研究進(jìn)展

        2010-06-21 06:44:22朱元春
        智能系統(tǒng)學(xué)報(bào) 2010年3期
        關(guān)鍵詞:特征提取單詞特征

        譚 營,朱元春

        (1.北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;2.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871)

        隨著信息技術(shù)的持續(xù)發(fā)展和互聯(lián)網(wǎng)的日益普及,電子郵件(E-mail)已成為人們?nèi)粘Mㄓ嵔涣鞯闹匾绞街?然而,垃圾電子郵件(unsolicited bulk email—UBE,or Spam)的涌入,給電子郵件通訊帶來諸多不便,引發(fā)了日益嚴(yán)重的問題.垃圾電子郵件不僅會(huì)耗費(fèi)通信帶寬、網(wǎng)絡(luò)資源,而且消耗人們大量的處理時(shí)間,造成生產(chǎn)力浪費(fèi),使公司蒙受巨大經(jīng)濟(jì)損失.因此,垃圾郵件檢測技術(shù)和方法的研究,已成為國內(nèi)外研究的熱點(diǎn),具有必要性和重大意義.

        在反垃圾電子郵件技術(shù)研究中,學(xué)者們相繼提出眾多的郵件特征提取方法和垃圾郵件檢測過濾方法.本文是對反垃圾郵件技術(shù)和方法研究現(xiàn)狀的綜述,重點(diǎn)介紹以下內(nèi)容:垃圾電子郵件的現(xiàn)狀、用于垃圾郵件檢測的郵件特征提取方法、現(xiàn)有的反垃圾郵件技術(shù)以及反垃圾郵件系統(tǒng)評估準(zhǔn)則和標(biāo)準(zhǔn)數(shù)據(jù)庫.

        1 垃圾電子郵件現(xiàn)狀

        1.1 定 義

        在反垃圾電子郵件技術(shù)研究中,一些專家學(xué)者和研究機(jī)構(gòu)給出不同的垃圾電子郵件定義.

        Cranor等人[1]將其定義為:“未經(jīng)請求的大量電子郵件(unsolicited bulk email,UBE)”.垃圾電子郵件還被定義為[2]:“未經(jīng)請求的商業(yè)電子郵件(unsolicited commercial email,UCE)”.中國互聯(lián)網(wǎng)協(xié)會(huì)將垃圾電子郵件定義為[3]:收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件;收件人無法拒收的電子郵件;隱藏發(fā)件人身份、地址、標(biāo)題等信息的電子郵件;含有虛假的信息源、發(fā)件人、路由等信息的電子郵件;含有病毒、惡意代碼、色情、反動(dòng)等不良信息或有害信息的郵件.

        以上3種定義盡管不同,卻有著一個(gè)共同點(diǎn):未經(jīng)請求.這是垃圾電子郵件與正常電子郵件的本質(zhì)區(qū)別.正常電子郵件是人們正常通訊、交流的媒介,包含著交互信息的需求.而垃圾電子郵件往往包含收件人不感興趣的內(nèi)容,且在未經(jīng)許可的情況下發(fā)送給收件人.垃圾電子郵件一般包含商業(yè)廣告信息,且成批量發(fā)送,這也是定義其為UBE、UCE的原因.同時(shí),垃圾電子郵件發(fā)送者為逃避對電子郵件的反向追蹤,會(huì)刻意偽造發(fā)件人、路由、信息源等信息.故在多數(shù)情況下,這3種定義是一致的.

        1.2 垃圾電子郵件的規(guī)模與影響

        根據(jù)Symantec公司的統(tǒng)計(jì)報(bào)告,2008年全球范圍垃圾電子郵件的平均比例已經(jīng)占到了總郵件數(shù)的80% 左右[4].依據(jù) Ferris Research 的研究估計(jì)[5],2009年垃圾電子郵件將耗費(fèi)全球1 300億美元的開銷,其中,勞動(dòng)力浪費(fèi)引起的開銷占總開銷的85%.這將比2007年的估計(jì)增長30%,而比2005年的數(shù)據(jù)增長100%.根據(jù)Sophos公司最新調(diào)查結(jié)果顯示[6],中國的垃圾電子郵件的數(shù)量繼美國、巴西之后,位列第3位.圖1顯示出各國家的垃圾電子郵件數(shù)量比例.

        中國互聯(lián)網(wǎng)協(xié)會(huì)2009年第一季度中國反垃圾電子郵件調(diào)查結(jié)果[7]指出,中國網(wǎng)民平均每周收到17.68封垃圾電子郵件,與去年同比增加0.04封,占郵件總數(shù)的57.52%.圖2給出中國網(wǎng)民在2008年第一季度至2009年第一季度平均每周收到垃圾電子郵件的比例.調(diào)查報(bào)告還指出,處理這些垃圾電子郵件將耗費(fèi)中國網(wǎng)民平均每周12.35 min.僅考慮浪費(fèi)時(shí)間的因素,2009年第一季度垃圾電子郵件致使中國損失人民幣339.59億元,與2007年同比增長151.19億元,漲幅為80.25%.鑒于垃圾電子郵件所引發(fā)的這些嚴(yán)重社會(huì)問題,近年來,反垃圾電子郵件策略受到了前所未有的關(guān)注.

        圖1 各國家垃圾電子郵件數(shù)量比例Fig.1 The proportion of spam-relaying of different countries

        圖2 中國網(wǎng)民平均每周收到垃圾電子郵件的比例Fig.2 Weekly average ratio of spam received by cybercitizens in China

        2 郵件特征提取方法

        對于垃圾郵件檢測系統(tǒng)來說,郵件特征提取是極其關(guān)鍵的環(huán)節(jié),甚至比模式識(shí)別方法的選擇、分類器的設(shè)計(jì)與使用更為重要.郵件特征提取方法的準(zhǔn)確性、可區(qū)分性、穩(wěn)定性和自適應(yīng)性將會(huì)直接影響到系統(tǒng)整體的分類效果與性能.據(jù)中國互聯(lián)網(wǎng)協(xié)會(huì)2008年第四季度中國反垃圾郵件調(diào)查統(tǒng)計(jì)[8],用戶收到垃圾郵件的正文格式主要是3種:圖片+文本格式、純文本格式和純圖片格式.本節(jié)將綜述經(jīng)典的基于文本的郵件特征提取方法、基于圖片的郵件特征提取方法和基于行為的郵件特征提取方法.

        2.1 基于文本內(nèi)容的郵件特征提取方法

        基于文本內(nèi)容的郵件特征提取方法一般包含2個(gè)階段:1)詞篩選(terms selection):依據(jù)詞的重要性(可區(qū)分度)對特征詞進(jìn)行排序,選擇可區(qū)分度好的特征詞進(jìn)入下一階段;2)特征提取與表示:提取出郵件特征并表示成統(tǒng)一的形式.

        2.1.1 文本詞篩選方法

        當(dāng)郵件庫中的郵件經(jīng)歷切詞階段后,大量的單詞被獲取,如果不經(jīng)過詞篩選過程,會(huì)導(dǎo)致特征維度過高,引發(fā)維度災(zāi)難.詞篩選一方面可以降低特征維度和計(jì)算復(fù)雜度,另一方面還可以減小噪聲(區(qū)分度差的單詞)的不良影響.下面介紹幾種常用的詞篩選方法:

        1)信息熵.

        在信息論中,信息熵(IG)又被稱為Kullback-Leibler距離[9].它能夠度量2個(gè)概率分布 P(x)和Q(x)的距離.在垃圾郵件檢測技術(shù)研究中,它被用于度量單詞的優(yōu)良度(區(qū)分度).根據(jù)該方法,可以計(jì)算出,當(dāng)知道給定單詞ti是否在郵件中出現(xiàn)時(shí),所能獲得的郵件類型信息的量.單詞ti的信息熵被定義如下:

        式中:C表示郵件類型,cs和cl分別表示郵件類型是垃圾郵件(spam)和正常郵件(legitimate email),ti表示單詞ti在郵件中出現(xiàn),而ˉti表示單詞ti未在郵件中出現(xiàn).式中的概率可以根據(jù)訓(xùn)練集數(shù)據(jù)進(jìn)行估計(jì).根據(jù)該式,每個(gè)單詞的信息熵值將被計(jì)算出來,信息熵值大的單詞將被選擇進(jìn)入下一階段.

        2)詞頻方差.

        Koprinska等人[10]研究出詞頻方差法(term frequency variance,TFV),來選取具有高詞頻方差的詞.他們認(rèn)為詞頻方差大的詞包含更多的信息量.依據(jù)該方法,那些傾向于出現(xiàn)在某一種類型郵件(垃圾郵件或正常郵件)的詞將被選擇,而那些在2種類型郵件中出現(xiàn)頻率相當(dāng)?shù)脑~將被移除.在反垃圾郵件技術(shù)研究領(lǐng)域中,詞頻方差被定義如下:

        式中:Tf(ti,C)表示單詞ti在類型為C的郵件中的出現(xiàn)頻率,Tμf(ti)表示單詞ti在2種類型郵件中出現(xiàn)的平均頻率.

        文獻(xiàn)[10]指出在多數(shù)情況下,詞頻方差方法性能優(yōu)于信息熵方法.具有最大信息熵值和最大詞頻方差的前100個(gè)詞的對比顯示,這些詞具有以下特征:a)在內(nèi)容為語言學(xué)相關(guān)的正常郵件中頻繁出現(xiàn);b)在垃圾郵件中頻繁出現(xiàn),卻在正常郵件中極少出現(xiàn).

        3)文檔頻率.

        文檔頻率(document frequency,DF)指的是某一特定的單詞ti所出現(xiàn)過的郵件的數(shù)量.依據(jù)該方法,文檔頻率值大于預(yù)設(shè)閾值的詞將被選擇,而文檔頻率值小于該閾值的詞將被舍棄.單詞ti的文檔頻率被定義如下:

        式中:M表示整個(gè)訓(xùn)練集,mj表示M中的一封郵件.

        文檔頻率法認(rèn)為低頻單詞所含的類別信息量較少,移除它們不會(huì)影響整體分類性能.文獻(xiàn)[11]指出,當(dāng)移除90%的低信息量單詞時(shí),文檔頻率方法與信息熵和χ2統(tǒng)計(jì)量方法的性能相當(dāng).文檔頻率方法的主要優(yōu)點(diǎn)是,計(jì)算復(fù)雜度低,與訓(xùn)練樣本的數(shù)量成線性比例增長.

        4)其他詞篩選方法.

        詞篩選方法在垃圾郵件檢測系統(tǒng)中起著重要的作用.為了更好地理解詞篩選方法,下面列出3種其他的常用方法的計(jì)算式[11-13].

        a)χ2統(tǒng)計(jì)量(CHI):

        b)比值比(odds ratio):

        c)術(shù)語強(qiáng)度(terms strength):

        式中:c∈{cs,cl}表示給定的郵件類型,相應(yīng)的∈{cs,cl}/c,x和y表示訓(xùn)練集中類型相同的任意2封不同郵件.

        2.1.2 文本特征提取方法

        1)詞匯袋法

        詞匯袋法(bag-of-words,BoW)也被稱為向量空間模型,是垃圾郵件檢測技術(shù)研究領(lǐng)域應(yīng)用最廣泛的方法之一[12].通過觀察特征詞是否在郵件中出現(xiàn),將每封郵件轉(zhuǎn)換成一個(gè)d維的特征向量 <x1,x2,…,xd>,其中每維特征值xi可以看作是特征詞ti的函數(shù).對于xi,有2種常用的類型表示方法:布爾型和頻率型[14].在布爾型表示下,xi按下列方式賦值:若ti在郵件中出現(xiàn),那么給xi賦值1,否則給其賦值0.如果采用頻率類型表示,那么xi則表示為該郵件中特征詞ti的詞頻.Schneider的實(shí)驗(yàn)顯示,這2種類型的表示法性能相當(dāng)[15].

        2)稀疏二元多項(xiàng)式哈希.

        稀疏二元多項(xiàng)式哈希(sparse binary polynomialhashing,SBPH)運(yùn)用滑動(dòng)窗口方法,能夠從郵件中提取出大量的不同特征[16-17].它使用一個(gè)長度為N個(gè)單詞的滑動(dòng)窗口依次滑過郵件中的單詞,窗口移動(dòng)步長為1個(gè)單詞.在每次窗口的滑動(dòng)中,都將按以下方式提取2N-1個(gè)特征:最新進(jìn)入窗口的單詞被保留,而窗口中的其他單詞被選擇保留或刪除,選擇之后,整個(gè)窗口被整體映射為一個(gè)特征.對于窗口中的N -1個(gè)單詞,存留選擇有2N-1種,故可映射成2N-1個(gè)不同的特征.然后,每個(gè)特征將被計(jì)算為一個(gè)特定的哈希值,特征提取之后可以根據(jù)前面介紹的詞篩選方法進(jìn)行特征篩選,以降低特征維度.該方法的分類準(zhǔn)確度較高,但因?yàn)樘卣鲾?shù)量的龐大計(jì)算復(fù)雜度很高.

        3)正交稀疏雙詞.

        為了降低SBPH方法的冗余度和復(fù)雜度,Siefkes等人[17]提出正交稀疏雙詞法(orthogonal sparse bigrams,OSB)來提取一個(gè)較小的特征集合.該方法同樣使用長度為N個(gè)單詞的滑動(dòng)窗口提取特征,與SPBH方法不同的是,只有具有共同單詞的單詞對被提取作為特征.對于每個(gè)窗口來說,最新進(jìn)入窗口的單詞被保留,并作為共用單詞.然后,從剩下的N-1個(gè)單詞中選擇1個(gè)與其組成單詞對,如此每個(gè)窗口可以構(gòu)造出N-1個(gè)單詞對,映射出N-1個(gè)特征.與SPBH方法相比,這樣做大大減少了特征的數(shù)量.文獻(xiàn)[17]中的實(shí)驗(yàn)表明OSB性能略優(yōu)于SBPH方法.

        4)基于人工免疫系統(tǒng).

        Oda等人[18]設(shè)計(jì)出一種反垃圾郵件免疫模型,運(yùn)用正則表達(dá)式構(gòu)造抗體(檢測器).正則表達(dá)式的運(yùn)用,使得每個(gè)抗體都能夠匹配大量的抗原(垃圾郵件),這樣能有效降低抗體(特征)集合.模仿生物免疫系統(tǒng)(biological immune system,BIS)的功能,他們給每個(gè)抗體賦予不同的權(quán)重.算法初期,所有的抗體權(quán)重被初始化為一個(gè)缺省值,經(jīng)過一段時(shí)間的運(yùn)行,那些匹配垃圾郵件較多的抗體的權(quán)重將被增加,而那些與正常郵件匹配的抗體的權(quán)重將被降低.當(dāng)抗體的權(quán)重低于預(yù)設(shè)閾值時(shí),該抗體將從系統(tǒng)模型中被移除.

        Ruan等人[19]提出一種基于免疫濃度的特征構(gòu)造方法.該方法根據(jù)單詞的傾向性構(gòu)建出2個(gè)基因庫.若一個(gè)單詞在垃圾郵件中出現(xiàn)頻率高(傾向在垃圾郵件中出現(xiàn)),那么將該單詞添加到垃圾郵件基因庫,否則將其添加到正常郵件基因庫.然后,根據(jù)郵件中單詞在2個(gè)基因庫中的出現(xiàn)情況計(jì)算出每封郵件的“自己濃度”和“異己濃度”.這2個(gè)濃度值共同構(gòu)成郵件的二維特征向量.

        2.2 基于圖片的郵件特征提取

        為了避開垃圾郵件檢測系統(tǒng)的過濾,垃圾郵件發(fā)送者有時(shí)會(huì)采用圖片型郵件來發(fā)送廣告信息.檢測這類垃圾郵件的關(guān)鍵在于提取有效的圖片特征.目前,基于圖片的特征提取研究仍處于初步,常用的圖片特征包括以下方面:

        1)圖像屬性特征.

        這些特征包括圖片類型、大小、顏色、飽和度等.垃圾郵件發(fā)送者往往傾向選擇高壓縮率的圖像格式,從而能夠在較短時(shí)間內(nèi)發(fā)送出大量的垃圾郵件.故可以選取圖片的類型作為其中一個(gè)特征,來檢測圖片型垃圾郵件[20].圖像的這些屬性均包含了一定的類別信息,廣告圖片的這些屬性值往往與正常郵件有一定的差異.

        2)邊緣特征.

        相對正常郵件來說,垃圾郵件圖像中往往包含更多的文字信息.而包含大量文字的圖片會(huì)具有不同的邊緣特性.因此可以利用邊緣特性,如:方向性、邊緣強(qiáng)度、邊緣輪廓形狀,來有效地檢測垃圾郵件[21].

        3)文字特征.

        可以利用文字識(shí)別工具將圖片中的文字提取出來,然后對文字進(jìn)行語言分析、關(guān)鍵詞匹配,也可以采用基于文本的特征提取方法,從而有效檢測垃圾郵件.

        4)其他特征.

        除了上述特征外,可以利用圖片的紋理特征、異質(zhì)特征、噪聲特征等有效地對郵件類型進(jìn)行區(qū)分,對垃圾郵件進(jìn)行過濾.

        2.3 基于行為的郵件特征提取方法

        基于行為的垃圾郵件檢測技術(shù)是一種新型過濾垃圾郵件的手段,通過提取垃圾郵件與正常郵件有區(qū)分的行為特征,來過濾垃圾郵件.本節(jié)對常用的基于行為的反垃圾郵件技術(shù)進(jìn)行綜述,從4個(gè)方面闡述常用的郵件行為特征:基于郵件頭部信息及系統(tǒng)日志的行為特征、基于附件的行為特征、基于網(wǎng)絡(luò)的行為特征以及基于用戶行為的特征.

        2.3.1 基于郵件頭部信息及系統(tǒng)日志的行為分析

        正常情況下,郵件的頭部信息能反映郵件傳送信息及發(fā)信人的基本意圖:發(fā)件人、收件人、抄送、發(fā)送時(shí)間等.一般情況下,正常的郵件在這些條目中將用正確的格式填入完整的信息.但為了避開一些常用的反垃圾郵件機(jī)制,垃圾郵件發(fā)送者往往在這些條目中填入偽造的數(shù)據(jù)和錯(cuò)誤的格式.

        文獻(xiàn)[22]針對這種行為模式提出一種基于行為的反垃圾郵件機(jī)制:首先,該文獻(xiàn)在頭部信息中選取最能區(qū)分出垃圾郵件的7個(gè)條目,如From field、To field、Reply-To field等;然后,基于這些基本的特征,從他們的交叉比對組合中選出10個(gè)特征,如From-To、From-Reply-To等;接著針對各條目的數(shù)據(jù)正確、錯(cuò)誤、偽造類型分別定義出相應(yīng)的類別,并進(jìn)行編碼,得到113維的特征向量;最后,作者使用支持向量機(jī)、貝葉斯和決策樹3種分類方法對特征化后的郵件數(shù)據(jù)庫進(jìn)行分類.實(shí)驗(yàn)中,支持向量機(jī)在各數(shù)據(jù)集上的性能優(yōu)于其他2種方法,但決策樹有較高的準(zhǔn)確度.相對于基于內(nèi)容的機(jī)制來說,該機(jī)制擁有較高的準(zhǔn)確度、較低的特征維度和較低的時(shí)間復(fù)雜度.

        文獻(xiàn)[23-24]在此基礎(chǔ)上加入系統(tǒng)日志中的一些條目信息作為特征,并利用一種增強(qiáng)型的BP神經(jīng)網(wǎng)絡(luò)對特征化后的郵件數(shù)據(jù)進(jìn)行分類,根據(jù)各特征的重要程度賦予各個(gè)特征不同的權(quán)重.文獻(xiàn)[25]指出,有190多個(gè)頭部信息條目和23個(gè)系統(tǒng)日志條目可以被郵件用戶代理/郵件傳送代理(mail user Agent/mail transfer Agent,MUA/MTA)使用.文獻(xiàn)[23]研究探討了多達(dá)13種形態(tài)24種類型的垃圾郵件行為形態(tài),選取32個(gè)基本條目及38個(gè)交叉比對條目提取特征.并且還進(jìn)行實(shí)驗(yàn)驗(yàn)證交叉比對條目的重要性.文獻(xiàn)[24]觀察得出,MUA/MTA并沒有使用所有的頭部信息和系統(tǒng)日志條目,文中選出6個(gè)最有意義的頭部信息條目和4個(gè)最有意義、最高出現(xiàn)頻率的系統(tǒng)日志條目,以及基于此選擇出16個(gè)交叉比對條目進(jìn)行研究實(shí)驗(yàn).

        文獻(xiàn)[26]提出基于行為的分階段過濾垃圾郵件技術(shù).在過濾的過程中,該機(jī)制不僅分析處理到目前階段為止的所有行為信息,而且還特定分析處理新增的行為信息.根據(jù)SMTP協(xié)議,它將處理分為4個(gè)階段:HELO、FROM、RCPT TO和DATA,利用各個(gè)階段中的屬性信息進(jìn)行分類處理.如果郵件在前一個(gè)階段中被確定分類為垃圾郵件,那么郵件就會(huì)被直接拒絕掉,而不會(huì)進(jìn)入下一個(gè)階段,這樣做能夠節(jié)省資源.文章采用貝葉斯分類方法,實(shí)驗(yàn)效果在時(shí)間性能和資源耗用上優(yōu)于其他的一些算法.

        文獻(xiàn)[27]對發(fā)送人 IP地址、SMTP ID序列、URL連接和回復(fù)郵件地址進(jìn)行分析,對其按照設(shè)定的公式計(jì)算相應(yīng)郵件的評分,然后用人工免疫系統(tǒng)對處理過的數(shù)據(jù)進(jìn)行分類.該機(jī)制具有可靠性、有效性和可擴(kuò)充性.

        文獻(xiàn)[28]針對IP和域名,發(fā)送者、接收者的對應(yīng)關(guān)系,發(fā)送者、接收者郵件地址的長度,以及發(fā)送頻率等信息為特征,用決策樹進(jìn)行分類.

        2.3.2 基于附件的行為分析

        文獻(xiàn)[29-30]分析郵件的附件行為用于發(fā)現(xiàn)帶病毒的可疑垃圾郵件.文中MET客戶端(malicious email tracking)采用MD5哈希技術(shù)給每個(gè)附件賦予一個(gè)特定標(biāo)識(shí),并保存一個(gè)相關(guān)記錄(標(biāo)識(shí)、時(shí)間戳、附件有無病毒、發(fā)件人地址、收件人地址).MET服務(wù)器端接收MET客戶端的信息,并根據(jù)附件的特征進(jìn)行分析處理——病毒事件、附件產(chǎn)生率、病毒生命周期、病毒事件頻率、病毒死亡率、病毒流行程度、病毒威脅、病毒傳播等.當(dāng)MET客戶端發(fā)現(xiàn)某一附件的產(chǎn)生率或流行率大于給定的閾值時(shí),將會(huì)對其他的特征進(jìn)行進(jìn)一步分析,來確定是否為病毒.如果是病毒,就將此報(bào)告給中心服務(wù)器.中心服務(wù)器將會(huì)基于其他客戶端關(guān)于此附件的報(bào)告來作出最終決定,判明其是否為病毒.若為病毒,則將相關(guān)標(biāo)識(shí)、病毒死亡率、該種病毒發(fā)生頻率等信息發(fā)給客戶端,來避免將來的感染.如果客戶端提供了郵件地址和IP地址,那么就可以根據(jù)信息追蹤出病毒的制造者.

        文獻(xiàn)[31]提到將郵件攜帶附件的類型(圖片、二進(jìn)制文件、文本文件等),以及附件的數(shù)量作為區(qū)分垃圾與非垃圾郵件的行為特征.

        2.3.3 基于網(wǎng)絡(luò)的行為分析

        1)基于社會(huì)網(wǎng)絡(luò)的特征提取.

        文獻(xiàn)[30,32]分析郵件傳送過程中的簇行為特征,即用郵件經(jīng)常交流的一些人形成特定的簇,郵件發(fā)送行為一般發(fā)生在簇內(nèi)部.比如說,一般情況下,一個(gè)用戶不會(huì)將同一個(gè)郵件信息同時(shí)發(fā)送給他的配偶、上司、朋友等,這種概率非常小.然而一個(gè)對用戶地址簿的攻擊者顯然不知道這些社會(huì)關(guān)系模式,當(dāng)他試圖給地址簿中的所有人發(fā)送郵件時(shí)就會(huì)違反正常郵件的簇行為特征.從概念上來說,有2種簇模式:用戶簇模式和群落簇模式.

        用戶簇模式通過對單個(gè)用戶帳戶的郵件歷史分析計(jì)算得到.對于某一郵件來說,收件人列表(收件人、抄送、密送)中的所有帳戶看作一個(gè)簇關(guān)系.為了避免簇的數(shù)量過大,以及冗余現(xiàn)象,只選定那些最大化的簇,即所選定的每個(gè)簇都不是其他簇的子集.例如,有3 個(gè)收件人列表:[A,B,C],[A,B]和[A,B,D],則會(huì)選擇2 個(gè)作為簇——[A,B,C]和[A,B,D].若某一郵件的收件人列表不是任何用戶簇的子集,那么稱其為不一致簇行為.這種方法往往要與其他模型結(jié)合使用,以處理特殊的收件人列表情況.如果用戶曾發(fā)過一個(gè)全體收件人列表的廣播郵件,那么該機(jī)制就會(huì)失效.然而,這種情況較少發(fā)生,一般情況下,用戶只會(huì)給地址簿中少于10%的帳號(hào)同時(shí)發(fā)送郵件.

        群落簇模式通過2個(gè)用戶間的郵件交流數(shù)量建立相應(yīng)的聯(lián)系.若兩帳戶間交換的郵件數(shù)量超過給定閾值,那么就認(rèn)為這兩帳戶間存在聯(lián)系.然后,利用層次算法,逐步建立大小為n的簇.例如,當(dāng)前層次為2,存在 AB、AC、AD、BC、BD、CE 6 個(gè)簇.只有當(dāng)只是最后一個(gè)成員不同時(shí),2個(gè)簇才能進(jìn)行融合,以避免重復(fù).例如,AB、AC形成候選簇ABC,但是AB、BC不再融合.當(dāng)所有候選簇形成完畢后,要對其合法性進(jìn)行檢查.只有當(dāng)前層次中同時(shí)存在AB、AC、BC時(shí),候選簇ABC才是合法的.最后,要將那些是其他簇的子集的簇去掉,如AB、AC、BC將會(huì)被去除.如此進(jìn)行下去,形成大小為n的群落簇.

        文獻(xiàn)[33]定義3種類型的圖,來描述郵件的發(fā)送行為:有向圖、無向圖和差分圖.在有向圖中,節(jié)點(diǎn)代表至少進(jìn)行了一次發(fā)送或接收行為的電子郵件用戶,有向圖的邊表示一用戶從另一用戶那里接收或向其發(fā)送了一封郵件.無向圖中,節(jié)點(diǎn)代表至少進(jìn)行了一次與另一用戶發(fā)送和接收行為的那些郵件用戶,邊代表兩用戶間交換了信息.差分圖是基于2個(gè)有向圖建立的,用于表示那些存在某一圖中,而不存在于另一圖中的那些邊.基于此,算法共分為3個(gè)階段:a)基于服務(wù)器的系統(tǒng)日志,建立3種類型的圖;b)利用有向圖和無向圖,對郵件發(fā)送者進(jìn)行初步分類,列入黑名單、白名單或灰名單;c)利用差分圖,對b)階段的分類結(jié)果進(jìn)行調(diào)整,得到最終分類結(jié)果.

        2)郵件的網(wǎng)絡(luò)分布特征.

        文獻(xiàn)[34]分析垃圾郵件發(fā)送的網(wǎng)絡(luò)層次行為,是首次分析垃圾郵件、僵尸網(wǎng)絡(luò)和網(wǎng)絡(luò)路由的相互關(guān)系.該文獻(xiàn)通過研究IP地址空間分布特征,來分析垃圾郵件發(fā)送者、垃圾郵件僵尸網(wǎng)絡(luò)和正常郵件發(fā)送者的網(wǎng)絡(luò)分布.大多情況下,正常郵件與垃圾郵件分布大致相同,大多數(shù)的郵件都來自一小部分IP地址空間.但有一小部分例外的情況,在地址段80.* ~90.* 中,絕大多數(shù)郵件都是垃圾郵件,在地址段60.* ~70.* 中,絕大多數(shù)郵件都是正常郵件.這表明可以將IP地址作為一個(gè)區(qū)分特征.該文獻(xiàn)還分析了僵尸網(wǎng)絡(luò)的行為特征,分析得出:絕大部分的垃圾郵件是從Windows操作系統(tǒng)中發(fā)出的,并且有很大比例(25%)的垃圾郵件來自僵尸網(wǎng)絡(luò).65%的已感染的IP地址僅發(fā)送了一次垃圾郵件,且其中75%發(fā)送時(shí)間短于2 min.由于這些IP地址生命周期短,這種情況使得黑名單方法失效.研究還表明,每個(gè)僵尸網(wǎng)絡(luò)節(jié)點(diǎn)在整個(gè)周期發(fā)送的垃圾郵件數(shù)量少于100封.垃圾郵價(jià)發(fā)送者利用大量的僵尸網(wǎng)絡(luò)節(jié)點(diǎn)發(fā)送垃圾郵件,且對每個(gè)節(jié)點(diǎn)來說,只利用很短的時(shí)間,發(fā)送少量的郵件.因此,基于黑名單和發(fā)送數(shù)量的方法對這種情況都會(huì)失效.文獻(xiàn)還分析了邊界網(wǎng)關(guān)協(xié)議(border gateway protocol,BGP),用路由廣播傳播垃圾郵件.該機(jī)制使用了大量的IP地址空間,并且發(fā)送者在空間中分散分布,使得不容易被察覺.目前使用這種機(jī)制發(fā)送的垃圾郵件比例還很小,大約為1%~10%.

        2.3.4 基于用戶行為的技術(shù)

        文獻(xiàn)[35]分析用戶的行為特征,用戶查收郵件可以歸納為以下幾類行為:在遠(yuǎn)程郵件箱中將認(rèn)為無用的郵件刪除;打開郵件并且閱讀時(shí)間超過給定閾值N;打開郵件但在低于N將郵件刪除;將郵件移存至郵件箱目錄;回復(fù)、轉(zhuǎn)發(fā)郵件;將發(fā)件人加入通訊簿.通過收集這些用戶處理郵件的行為信息,該方法將其作為垃圾郵件檢測系統(tǒng)的反饋信息,將處理的信息反饋給反垃圾郵件網(wǎng)關(guān).網(wǎng)關(guān)可以將界定的垃圾郵件作為其他過濾器的訓(xùn)練或?qū)W習(xí)樣本,提交共享黑名單等.另外,還應(yīng)清除郵件系統(tǒng)中某些用戶收件箱中未閱讀的但已被其他用戶界定的垃圾郵件.

        文獻(xiàn)[30]提出使用模型來描述用戶發(fā)送郵件的特征.它統(tǒng)計(jì)出每個(gè)用戶在每個(gè)小時(shí)段的發(fā)送行為(向外發(fā)送郵件的數(shù)量、附件數(shù)量、郵件大小、收件人數(shù)量),建立柱狀圖.通過將當(dāng)前階段的行為特征柱狀圖與歷史行為特征柱狀圖進(jìn)行對比分析,來發(fā)現(xiàn)異常行為(垃圾郵件).

        3 反垃圾郵件技術(shù)

        3.1 法律手段

        為了應(yīng)對垃圾郵件帶來的巨大損失,一些國家制定出相應(yīng)的法律來規(guī)范郵件發(fā)送行為,力圖減少垃圾郵件的數(shù)量.美國在2003年制定出反垃圾郵件法案——非請求色情及廣告信息攻擊控制法案(controlling the assault of non-solicited pornography and marketing act,CAN-SPAM Act)[36].該法案明確禁止郵件頭信息偽造、郵件地址騙取和郵件地址攻擊等行為.該法案同時(shí)還要求商業(yè)性郵件必須有退訂鏈接.然而,文獻(xiàn)[2,37]指出該法案對垃圾郵件數(shù)量的控制不具有明顯的效果,退訂鏈接的存在反而有助于垃圾郵件制造者確認(rèn)有效郵件地址.

        澳大利亞的電信法案第107條,針對個(gè)人、公司分別制定了不同的規(guī)定[2,38].只有得到了收件人的允許,才能向個(gè)人發(fā)送垃圾郵件(包括商業(yè)郵件,以及收件人數(shù)超過50人的郵件).而它對發(fā)送給公司的郵件的限制要寬松一些,允許向公司發(fā)送包含退訂鏈接的垃圾郵件.

        歐洲議會(huì)在2002年6月通過了隱私和電子通訊法律規(guī)章[13],禁止在未征得收件人同意的情況下,向其發(fā)送垃圾郵件.

        這些法律條文的制定與實(shí)施,能夠在一定程度上緩解垃圾郵件問題,然而,這些法律不能徹底杜絕垃圾郵件的產(chǎn)生.因此,必須將其與其他技術(shù)手段相結(jié)合,才能更好地過濾垃圾郵件,保障電子郵件通訊的便捷通暢.

        3.2 簡單方法

        在反垃圾郵件研究初期,人們通過對垃圾郵件基本特征和垃圾郵件制造者基本手段的觀察,人工制定出一些簡單的對策.這些方法在早期的反垃圾郵件工作中起到了重要的作用.

        1)地址保護(hù).

        文獻(xiàn)[39]提出一種比較簡單的反垃圾郵件技術(shù),通過改變公開的郵件地址形式來防范垃圾郵件.例如,將郵件地址 username@domain.com改變?yōu)閡sername#domain.com 或 username AT domain.com等形式,有時(shí)進(jìn)一步地將“.”改寫為DOT.這樣做可以在一定程度上防止垃圾郵件制造者通過爬蟲技術(shù)獲取網(wǎng)頁上的郵件地址.

        但是,這種技術(shù)的防護(hù)能力很弱.垃圾郵件發(fā)送者只要在收錄郵件地址時(shí)加上一些簡單的識(shí)別代碼,依舊可以提取出真實(shí)的郵件地址.目前通過字典攻擊,郵件地址收集程序可以推算出郵件服務(wù)器中的賬號(hào),還可以提取網(wǎng)上非頁面文檔(如 DOC、JPEG、PDF、XLS、RTF、PPT 等)中的郵件地址.

        2)關(guān)鍵詞過濾.

        關(guān)鍵詞過濾技術(shù)通過檢測每封郵件中是否存在預(yù)先定義的關(guān)鍵詞,例如發(fā)票、促銷、Viagra等,來判斷郵件的類型[2].最初只采用完全匹配的方法,“Viagra”只能與“Viagra”匹配,而不能匹配“Viiaagra”.這樣很容易被垃圾郵件制造者通過小改動(dòng),規(guī)避這些關(guān)鍵詞.

        之后,基于正則表達(dá)式的模式匹配方法逐漸被采納.特定模式“V*i*a*g*r*a”可以與“V-iagra”、“Viiaagra”、“Viagra”等關(guān)鍵詞進(jìn)行匹配.這種模式匹配方法能夠有效地減小關(guān)鍵詞庫的大小,并能在一定范圍內(nèi)適應(yīng)垃圾郵件的小改動(dòng).

        3)黑名單和白名單.

        這2種方法均基于對發(fā)件人身份的簡單識(shí)別,當(dāng)身份信息被偽造時(shí),這2種方法將會(huì)失去效用[13].

        黑名單方法指的是通過拒絕來自特定IP地址、TCP連接,或域名的郵件,從而過濾掉垃圾郵件發(fā)送者發(fā)送的垃圾郵件.但是這些包含在郵件頭部中的信息有時(shí)會(huì)被垃圾郵件發(fā)送者偽造成其他人的地址發(fā)送,這樣會(huì)使得無辜的人的電子郵件被過濾掉.

        白名單方法指的是只接收來自特定IP地址、TCP連接或域名的郵件,而拒絕其他所有來源的郵件.白名單方法使用起來不是很方便,2個(gè)人剛開始聯(lián)系時(shí)需要發(fā)送請求確認(rèn)郵件.

        4)灰名單和激勵(lì)-響應(yīng).

        灰名單方法會(huì)對服務(wù)器中未記錄的郵件給出暫時(shí)失敗的響應(yīng)[40].對正常郵件來說,正確配置的MTA收到該響應(yīng)后會(huì)再次發(fā)送該郵件.當(dāng)服務(wù)器在一定時(shí)間內(nèi)再次收到該郵件時(shí),會(huì)將其成功傳送.而對于垃圾郵件來說,郵件往往是通過開放轉(zhuǎn)發(fā)(open-relay)的方式發(fā)送,不會(huì)因?yàn)殄e(cuò)誤響應(yīng)而再次被發(fā)送,故無法成功到達(dá)收件人.該方式的缺點(diǎn)是會(huì)給正常郵件的發(fā)送帶來少量的延遲.

        激勵(lì)-響應(yīng)(challenge-response)在白名單的基礎(chǔ)上增加了激勵(lì)響應(yīng)策略[41].該方法同樣維護(hù)一個(gè)白名單列表,來自白名單列表中地址的郵件會(huì)被成功發(fā)送.而列表之外的郵件地址進(jìn)行發(fā)信時(shí),服務(wù)器會(huì)返回給發(fā)件人一個(gè)“圖靈測試”,如果發(fā)件人通過了測試,郵件將會(huì)被成功傳送,而相應(yīng)的發(fā)件人地址將被添加到白名單列表中.垃圾郵件制造者一般會(huì)采用偽造的發(fā)件人地址,來逃避反向追蹤,也就收不到返回的測試.

        這2種方法的設(shè)計(jì)基于正常郵件和垃圾郵件發(fā)送時(shí)所能作出的不同反應(yīng),利用垃圾郵件無法正確作出響應(yīng)的不足,對郵件類型進(jìn)行判別.這2種方法的不足是,響應(yīng)會(huì)給正常郵件的發(fā)送帶來延遲,也會(huì)占用網(wǎng)絡(luò)帶寬.

        3.3 智能型垃圾郵件檢測技術(shù)

        1)質(zhì)樸貝葉斯.

        該方法簡便、有效,是商業(yè)軟件中一種最常用的方法.大量的工作表明這種方法是處理垃圾郵件最有效的方法之一,并且它能夠取得較高的精確率(precision)和召回率(recall)[42-43].一些研究表明使用多項(xiàng)式模型能夠比使用多元伯努利(Bernoulli)模型獲得更高的正確率(accuracy)[15].在傳統(tǒng)的質(zhì)樸貝葉斯(na?ve Bayes)方法之上,衍生出了很多變體.R.Shrestha等人[44]利用不同位置出現(xiàn)的同一關(guān)鍵字的內(nèi)部關(guān)聯(lián)特性進(jìn)行分類,計(jì)算關(guān)鍵字的協(xié)同權(quán)重(co-weighting),并取得了性能上的提高.Li等人[45]提出了基于用戶反饋的改進(jìn)的 na?ve Bayes方法,獲得了相對較低的丟失率(false positive)和較好的性能.

        2)k-近鄰方法.

        Sakkis等人[46]將k-近鄰方法(一種經(jīng)典的惰性學(xué)習(xí)方法)應(yīng)用于垃圾郵件檢測領(lǐng)域.他們通過實(shí)驗(yàn)方法研究了領(lǐng)域大小(k的大小)、特征維數(shù),以及訓(xùn)練集大小對檢測器性能的影響.文中實(shí)驗(yàn)表明,k-近鄰方法的平均性能優(yōu)于貝葉斯方法.

        3)Boosting Trees.

        Schapire和 Singer[47]首先將該方法應(yīng)用于文本分類領(lǐng)域,通過組合多個(gè)基本假設(shè)(base hypotheses)來處理多類別(multi-class)以及多標(biāo)簽(multi-label)的分類問題.Carreras 和 Marquez[48]實(shí)現(xiàn)了 AdaBoost算法用于反垃圾郵件的郵件過濾,在基于2個(gè)公共數(shù)據(jù)集(PU1 corpus和Ling-Spam corpus)實(shí)驗(yàn)的基礎(chǔ)上,他們得出Boosting Trees的方法在性能上要優(yōu)于 Na?ve Bayes、Decision Trees 和 k-NN 算法.然而,Nicholas[49]認(rèn) 為 使 用 decision stumps 的 Boosting Tress以及AdaBoost在正確率和速度方面都要差于Na?ve Bayse.

        4)支持向量機(jī).

        文獻(xiàn)[50-52]中對該方法進(jìn)行了深入的討論.Drucker等人[53]實(shí)現(xiàn)了一個(gè)基于SVM的過濾器,他們的研究表明SVM過濾器和Boosting Trees過濾器均能夠達(dá)到最低的錯(cuò)誤率(error rates),但是Boosting Trees花費(fèi)了更多的訓(xùn)練時(shí)間.

        5)Ripper.

        和其他分類方法不同,Ripper[54]并不需要特征向量,它從訓(xùn)練樣本集中歸納出分類的規(guī)則,通過一系列相與或者相或關(guān)系的if-then規(guī)則組成.

        6)Rocchio.

        這種類型的分類器[55-56]使用規(guī)范化的TF-IDF來表示訓(xùn)練樣本的向量.這種方法的優(yōu)點(diǎn)是在訓(xùn)練和測試中具有較快的速度,缺點(diǎn)是在訓(xùn)練集上搜索最優(yōu)閾值(optimum threshold)以及最優(yōu)β時(shí)會(huì)消耗掉額外的訓(xùn)練時(shí)間,并且這些參數(shù)在測試集上的泛化特性也較弱.

        7)文本聚類.

        M.Sasaki等人[57]提出基于特征空間模型的文本聚類方法,使用 spherical k-means算法[58]來自動(dòng)計(jì)算出不同的 clusters,并對抽取出的質(zhì)心向量(centroid vector)分配類別標(biāo)記,通過計(jì)算新郵件向量和質(zhì)心向量的距離來完成分類.該方法在Ling-Spam corpus數(shù)據(jù)庫獲得了較好的測試性能.

        8)元啟發(fā)(Meta-heuristics).

        C.Y.Yeh等人[22]針對關(guān)鍵字變化對基于關(guān)鍵字的機(jī)器學(xué)習(xí)方法所造成的性能上的影響,提出了使用spammers的行為作為區(qū)分特征,來進(jìn)行郵件的分類.這些行為特征通過Meta-heuristics來描述,在給定的Meta-heuristics下,共抽取出了113個(gè)新的特征.實(shí)驗(yàn)結(jié)果顯示這種方法要優(yōu)于基于關(guān)鍵字的過濾方式,并且訓(xùn)練時(shí)間也有了顯著的降低.

        9)人工神經(jīng)網(wǎng)絡(luò).

        J.Clark等人[59]利用人工神經(jīng)網(wǎng)絡(luò)自動(dòng)分類郵件,他們開發(fā)的系統(tǒng)Linger在Ling-Spam corpus數(shù)據(jù)庫獲得了較高的正確率、召回率以及精確率.在PU1 corpus上系統(tǒng)所獲得的性能略有下降.I.Stuart等人[60]基于詞和消息的描述性特征,使用人工神經(jīng)網(wǎng)絡(luò)的方法對郵件進(jìn)行分類,實(shí)驗(yàn)結(jié)果表明該方法還需要對特征集作適當(dāng)?shù)財(cái)U(kuò)充或者修改以獲得性能上的提高.

        10)人工免疫系統(tǒng).

        A.Secker等人[61]提出基于免疫的郵件分類算法AISEC(artifical immune system for e-mail classification).該算法旨在區(qū)分出用戶感興趣的郵件和不感興趣的郵件.在不需要進(jìn)行重新訓(xùn)練的前提下,算法能夠連續(xù)地對e-mail進(jìn)行分類處理,并能夠及時(shí)地追蹤用戶興趣的變化.

        T.Oda等人[62]將人工免疫模型應(yīng)用于垃圾郵件處理,主要利用免疫中自己/異己(self/non-self)的檢測原理和檢測器(dector)的概念.在實(shí)現(xiàn)的郵件過濾系統(tǒng)中,首先從多樣的來源中構(gòu)建基因庫,這些來源包括語言中的詞匯、所收集的郵件中的詞匯和詞組、垃圾郵件中的聯(lián)系信息和郵件頭信息等.在系統(tǒng)初始化的過程中,使用隨機(jī)的方法從基因庫中生成抗體(antibody)及其關(guān)聯(lián)的淋巴細(xì)胞(lymphocyte).在構(gòu)建的過程中,不允許相似抗體的重復(fù)產(chǎn)生,每個(gè)淋巴細(xì)胞除了具有抗體屬性外,還有msg_matched和spam_matched 2個(gè)屬性與其關(guān)聯(lián),分別用于表示淋巴細(xì)胞所匹配的郵件的數(shù)目和垃圾郵件的數(shù)目.在對淋巴細(xì)胞的訓(xùn)練過程中,對發(fā)生匹配的淋巴細(xì)胞修改其msg_matched和spam_matched這2個(gè)屬性的值.在系統(tǒng)的運(yùn)行過程中,使用了帶權(quán)平均值的評價(jià)方法對郵件的類別進(jìn)行判斷,在這種評價(jià)方法下,匹配次數(shù)多的淋巴細(xì)胞在評分中具有較大的權(quán)重.

        4 性能評估方法及標(biāo)準(zhǔn)數(shù)據(jù)集

        垃圾郵件檢測技術(shù)仍是現(xiàn)今國內(nèi)外研究熱點(diǎn)之一,大量的相關(guān)工作不斷涌現(xiàn)出來.為了便于人們比較和選擇合適的垃圾郵件過濾方法,研究人員提出一些評估標(biāo)準(zhǔn)來對比不同過濾方法、系統(tǒng)的性能[12-13].本節(jié)主要介紹并分析幾種常見的性能評估方法,并給出一些標(biāo)準(zhǔn)數(shù)據(jù)集.

        4.1 性能評估方法

        1)垃圾郵件召回率.

        該標(biāo)準(zhǔn)能夠度量出被算法模型正確檢測、分類的垃圾郵件的比例.垃圾郵件召回率(spam recall)高的系統(tǒng)模型能夠更好地將垃圾郵件過濾掉,更有效減少垃圾郵件對人們生活的妨礙.下式給出垃圾郵件召回率的計(jì)算方法.式中:ns→s表示被正確分類的垃圾郵件的數(shù)量,而ns→l表示垃圾郵件被錯(cuò)誤分類為正常郵件的數(shù)量.

        2)垃圾郵件精確率.

        該標(biāo)準(zhǔn)評估出系統(tǒng)檢測垃圾郵件的精確性:度量被系統(tǒng)分類為垃圾郵件的郵件中,分類正確的比例.這個(gè)標(biāo)準(zhǔn)另一方面也能夠反映出被系統(tǒng)錯(cuò)誤分類的正常郵件所占的比例.系統(tǒng)垃圾郵件精確率(spam precision)越高,被系統(tǒng)錯(cuò)誤分類的正常郵件的數(shù)量也就越少.垃圾郵件精準(zhǔn)率計(jì)算方法如下所示:

        式中:nl→s表示正常郵件被錯(cuò)誤分類為垃圾郵件的數(shù)量.

        3)正常郵件召回率和正常郵件精確率.

        由于垃圾郵件檢測是關(guān)于兩類郵件的(正常郵件和垃圾郵件),這2種標(biāo)準(zhǔn)與垃圾郵件召回率和精準(zhǔn)率是對稱的,計(jì)算式也可以對稱地推導(dǎo)出來.

        4)準(zhǔn)確率.

        該標(biāo)準(zhǔn)能夠反映郵件過濾系統(tǒng)的整體性能.它能夠表示被正確分類的郵件(包括正常郵件和垃圾郵件)的比例,被定義如下:

        式中:nl→l表示被正確分類的正常郵件的數(shù)量,nl和ns分別表示正常郵件和垃圾郵件的總體數(shù)量.

        5)加權(quán)準(zhǔn)確率.

        研究人員觀察得出,正常郵件的丟失(被系統(tǒng)錯(cuò)誤過濾掉)意味著人們會(huì)錯(cuò)過生活中的重要信息,比垃圾郵件的錯(cuò)誤分類要嚴(yán)重得多.為了反映出正常郵件的重要性,研究人員在準(zhǔn)確率的基礎(chǔ)上,定義出如下加權(quán)準(zhǔn)確率:

        式中:λ是反映正常郵件重要性的參數(shù),它的值越大,說明正常郵件在該情景下的重要性越強(qiáng),一般可以取值9、99或999.若將λ賦值為999,則表明正常郵件在該情景下極為重要.當(dāng)λ取1時(shí),加權(quán)準(zhǔn)確率與準(zhǔn)確率標(biāo)準(zhǔn)等價(jià).

        6)Fβ度量.

        垃圾郵件召回率與精確率只能分別反映系統(tǒng)的單一方面,不能夠反映系統(tǒng)整體的性能.為了解決這一問題,F(xiàn)β度量被定義為這2種標(biāo)準(zhǔn)的融合,如下式所示:

        式中:β表示精確度的權(quán)重,反映精確度相對召回率的重要性.在大多數(shù)研究中β取值1,該情況下,稱該標(biāo)準(zhǔn)為F1度量.

        4.2 標(biāo)準(zhǔn)數(shù)據(jù)集

        2000年,Androutsopoulos等人[43]整理發(fā)布了LingSpam數(shù)據(jù)集[14],該數(shù)據(jù)集是早期的經(jīng)典郵件分類數(shù)據(jù)集之一:該數(shù)據(jù)集共包含2 893封郵件,其中正常郵件 2 412封,垃圾郵件比例為16.63%.該數(shù)據(jù)集中的郵件都經(jīng)過了預(yù)處理,所有頭信息(標(biāo)題除外)、HTML標(biāo)記均已被去除.該數(shù)據(jù)集的不足是,正常郵件的內(nèi)容大多與語言學(xué)話題有關(guān).用該數(shù)據(jù)集評估郵件檢測系統(tǒng)會(huì)帶來過于樂觀的估計(jì).

        2004 年,Androutsopoulos 等人[14]經(jīng)過收集、整理又發(fā)布了PU系列經(jīng)典數(shù)據(jù)集,該數(shù)據(jù)集被廣泛應(yīng)用于現(xiàn)今各種垃圾郵件過濾系統(tǒng)的性能評估.PU系列數(shù)據(jù)集中包含著4個(gè)獨(dú)立的數(shù)據(jù)集:

        1)PU1:該數(shù)據(jù)包含1 099封郵件,其中垃圾郵件481封.該數(shù)據(jù)集中的正常郵件和垃圾郵件均為英語書寫的郵件.正常郵件是文中的第1位作者[14]在36個(gè)月的時(shí)間里收集到的,而垃圾郵件是他在22個(gè)月的時(shí)間內(nèi)收集的.

        2)PU2:該數(shù)據(jù)集包含721封郵件,其中有142封垃圾郵件.與PU1相似,該數(shù)據(jù)集中的郵件也都是英語郵件.文中作者的一位同事在22個(gè)月的時(shí)間內(nèi)收集保存了這些郵件.

        3)PU3:該數(shù)據(jù)集包含4 139封郵件,其中有1 826封垃圾郵件.與PU1、PU2不同,該數(shù)據(jù)集同時(shí)包含英語郵件和非英語郵件.數(shù)據(jù)集中的正常郵件是文中的第2位作者收集的,而垃圾郵件來自其他郵件數(shù)據(jù)集.

        4)PUA:該數(shù)據(jù)集包含1 142封郵件,其中572封垃圾郵件.與PU3相似,該數(shù)據(jù)集也包含部分非英語郵件,垃圾郵件同樣來自其他數(shù)據(jù)集.數(shù)據(jù)集中的正常郵件是文中作者的另一位同事收集提供的.

        另外,Medlock[63]也整理發(fā)布了一個(gè)大規(guī)模郵件數(shù)據(jù)集GenSpam[64]:該數(shù)據(jù)集由3部分組成:訓(xùn)練集(包含8 018封正常郵件,31 235封垃圾郵件)、測試集(包含754封正常郵件,797封垃圾郵件)、自適應(yīng)集(包含300封正常郵件,300封垃圾郵件,該部分集合用于測試?yán)]件過濾系統(tǒng)的動(dòng)態(tài)性、自適應(yīng)性).

        ZH1數(shù)據(jù)集是中文郵件數(shù)據(jù)集[65-66],其中的郵件已進(jìn)行過中文分詞處理,處理后的單詞被映射為整數(shù),以保護(hù)郵件所有者的隱私.該數(shù)據(jù)集包含1 633封郵件,其中正常郵件428封,垃圾郵件比例為73.79%.數(shù)據(jù)集中正常郵件平均長度為819.06個(gè)單詞.

        5 總結(jié)及展望

        在現(xiàn)有的反垃圾電子郵件技術(shù)方法中,智能型反垃圾郵件技術(shù)方法仍然是最有效、最有前景的方法.法律手段和簡單方法只能對部分符合定義特征的垃圾電子郵件起一定作用,且這2種方法不具備自適應(yīng)性,不能有效過濾垃圾郵件的變種.在智能型反垃圾郵件技術(shù)方法中,郵件特征提取方法起著至關(guān)重要的作用,將直接影響反垃圾郵件系統(tǒng)的各項(xiàng)性能.

        郵件特征提取是反垃圾郵件系統(tǒng)的核心部分,對系統(tǒng)的分類性能起著決定性作用.目前,絕大多數(shù)郵件集中于文本、圖片類型.基于文本、圖片的郵件特征提取方法有著良好的應(yīng)用前景,是當(dāng)今的研究熱點(diǎn).基于行為的郵件特征提取方法,是一種與郵件類型無關(guān)的特征提取方法,該方法通過區(qū)分垃圾郵件、正常郵件發(fā)送過程中表現(xiàn)出的不同行為,過濾垃圾郵件,是一種有效、魯棒性強(qiáng)的方法,非常值得進(jìn)一步地研究與探討.新的郵件特征提取方法的研究,將極大地推進(jìn)反垃圾郵件系統(tǒng)的發(fā)展.

        現(xiàn)有的反垃圾郵件相關(guān)法律,對垃圾郵件發(fā)送行為進(jìn)行了一定的限制.然而,現(xiàn)有的相關(guān)法律,并不能從根本上解決垃圾郵件問題,需要反垃圾郵件技術(shù)的協(xié)同支持.現(xiàn)有的相關(guān)法案也急需進(jìn)一步完善.

        智能型反垃圾郵件技術(shù)是在簡單反垃圾郵件方法的基礎(chǔ)上,發(fā)展出的新型反垃圾郵件技術(shù).該技術(shù)在提取郵件特征的基礎(chǔ)上,運(yùn)用現(xiàn)代機(jī)器學(xué)習(xí)方法等各種智能方法對郵件類型(是否為垃圾郵件)進(jìn)行分類,以過濾垃圾郵件.新的智能型方法的提出及其在反垃圾郵件領(lǐng)域的應(yīng)用將是未來的研究方向,具有很大的發(fā)展前景.

        [1]CRANOR L F,LAMACCHIA B A.Spam![J].Communications of the ACM,1998,41(8):74-83.

        [2]GANSTERER W,ILGER M,LECHNER P,et al.Anti-spam methods—state-of-the-art[EB/OL].[2009-11-05].http://spam.ani.univie.ac.at/files/FA384018-1.pdf.

        [3]中國互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件中心.2008年第一次中國反垃圾郵件狀況調(diào)查報(bào)告[EB/OL].[2009-11-05].http://www.anti-spam.cn/.

        [4]Symantec Inc..The state of spam,a monthly report—February 2009[EB/OL].[2009-11-05].http://eval.symantec.com/mktginfo/enterprise/other_resources/b-state_of_spam_report_02-2009.en-us.pdf.

        [5]JENNINGS R.Cost of spam is flattening—our 2009 prediction[EB/OL].[2009-11-05].http://www.ferris.com/2009/01/28/cost-of-spam-is-flattening-our-2009-predictions/.

        [6]Sophos Inc..Security threat report,July 2009 update:a look at the challenge ahead[EB/OL].[2009-11-07].http://www.inuit.se/pub/1214/sophos-security-threat-report-jul-2009-na-wpus.pdf.

        [7]中國互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件中心.2009年第一季度中國反垃圾郵件狀況調(diào)查報(bào)告[EB/OL].[2009-11-07].http://www.anti-spam.cn/pdf/2009_01_mail_survey.pdf.

        [8]中國互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件中心.2008年第四季度中國反垃圾郵件狀況調(diào)查報(bào)告[EB/OL].[2009-11-07].http://www.anti-spam.cn/pdf/2008_4_dc.pdf.

        [9]Wikipedia.Kullback-Leibler divergence[EB/OL].[2009-11-07].http://en.wikipedia.org/wiki/Information_gain.

        [10]KOPRINSKA I,POON J,CLARK J,et al.Learning to classify e-mail[J].Information Sciences,2007,177:2167-2187.

        [11]YANG Y M,PEDERSEN J O.A comparative study on feature selection in text categorization[C]//Proceedings of International Conference on Machine Learning(ICML’97).San Francisco,USA:Morgan Kaufmann Publishers Inc.,1997:412-420.

        [12]GUZELLA T S,CAMINHAS M.A review of machine learning approaches to spam filtering[J].Expert Systems with Applications,2009,36:10206-10222.

        [13]BLANZIERI E,BRYL A.A survey of learning-based techniques of email spam filtering[EB/OL].[2009-11-07].http://eprints.biblio.unitn.it/archive/00001070/.

        [14]ANDROUTSOPOULOS I,PALIOURAS G,MICHELAKIS E.Learning to filter unsolicited commercial e-mail,technique report No.2004/2[R].Agia Paraskevi,Greece:NCSR“Demokritos”,2004.

        [15]SCHNEIDER K M.A comparison of event models for naive Bayes anti-spam e-mail filtering[C]//Proceedings of the 10th Conference of European Chapter of the Association for Computational Linguistics.Morristown,USA:Association for Computational Linguistics,2003:307-314.

        [16]YERAZUNIS W S.Sparse binary polynomial hashing and the CRM114 discriminator[EB/OL].[2009-11-07].http://fozzolog.fozzilinymoo.org/images/CRM114_slides.pdf.

        [17]SIEFKES C,ASSIS F,CHHABRA S,et al.Combining winnow and orthogonal sparse bigrams for incremental spam filtering[C]//Proceedings of the 8th European Conference on Principles and Practice of Knowledge Discovery in Databases.New York,USA:Springer-Verlag,2004:410-421.

        [18]ODA T,WHITE T.Developing an immunity to spam[J].Lecture Notes in Computer Science,2003,2723:231-242.

        [19]RUAN Guangchen,TAN Ying.A three-layer back-propagation neural network for spam detection using artificial immune concentration[J].Soft Computing,2010,14:139-150.

        [20]KRASSER S,TANG Y C,GOULD J,et al.Identifying image spam based on header and file properties using C4.5 decision trees and support vector machine learning[C]//Proceedings of IEEE SMC Information Assurance and Security Workshop.New York,USA,2007:255-261.

        [21]NHUNG N P,PHUONG T M.An efficient method for filtering image based spam[J].Lecture Notes in Computer Science,2007,4673:945-953.

        [22]YEH C Y,WU C H,DOONG S H.Effective spam classification based on meta-heuristics[C]//Proceedings of 2005 IEEE International Conference on Systems,Man,and Cybernetics.Waikoloa,HI,USA,2005:3872-3877.

        [23]TASI C H,WU C H.Learning typed behaviors of spam emails using back-propagation neural networks[D].Kaohsiung,China:Shu-Te University,2004.

        [24]WU C H,TSAI C H.A time-robust spam classifier based on back-propagation neural networks and behavior-based features[C]//Proceedings of the Sixth International Conference on Machine Learning and Cybernetics.Hong Kong,2007:19-22.

        [25]COSTALES B,ALLMAN E.Sendmail[M].3rd ed.Sebastopol,USA:O’Reilly & Associates,Inc.,2002.

        [26]LIU M,LI Y C,LI W.Spam filtering by stages[C]//Proceedings of 2007 International Conference on Convergence Information Technology.Washington,DC,USA:IEEE Computer Society,2007:2209-2213.

        [27]YUE X,ABRAHAM A,CHI Z X,et al.Artificial im-mune system inspired behavior-based anti-spam filter[J].Soft Computing,2007,11:729-740.

        [28]GUO Y H,ZHANG Y L,LIU J Y,et al.Research on the comprehensive anti-spam filter[C]//Proceedings of IEEE International Conference on Industrial Informatics.Singapore,2006:1069-1074.

        [29]BHATTACHARYYA M,SCHULTZ M G,ESKIN E,et al.MET:an experimental system for malicious email tracking[C]//Proceedings of the 2002 New Security Paradigms Workshop.Virginia Beach,VA,USA,2002:3-10.

        [30]HERSHKOP S.Behavior-based email analysis with application to spam detection[D].New York,USA:Columbia University,2006.

        [31]MARTIN S,SEWANI A,NELSON B,et al.Analyzing behavioral features for email classification[C]//Proceedings of Conference on Email and Anti Spam.Stanford University,USA,2005.

        [32]STOLFO S J,HERSHKOP S,HU C W,et al.Behaviorbased modeling and its application to email analysis[J].ACM Transactions on Internet Technology,2006,6(2):187-221.

        [33]BRENDEL R,KRAWCZYK H.Detection methods of dynamic spammers’behavior[C]//Proceedings of 2nd International Conference on Dependability of Computer Systems.Washington,DC,USA:IEEE Computer Society,2007:145-152.

        [34]RAMACHANDRAN A,F(xiàn)EAMSTER N.Understanding the network-level behavior of spammers[C]//Proceedings of the 2006 Conference on Applications, Technologies,Architectures,and Protocols for Computer Communications.New York,USA:ACM,2006:291-302.

        [35]陳建發(fā),吳順祥.一種基于用戶行為分析的協(xié)同反垃圾郵件策略[J].電腦知識(shí)與技術(shù):學(xué)術(shù)交流,2007(7):36-37.CHEN Jianfa,WU Shunxiang.An cooperate anti-spam strategy based on user’s behavioral analysis[J].Computer Knowledge and Technology:Academic Exchange,2007(7):36-37.

        [36]SPAM LAWS.The CAN-SPAM Act of 2003 [EB/OL].[2009-11-07].http://www.spamlaws.com/federal/index.shtml.

        [37]GRIMES G A.Compliance with CAN-SPAM Act of 2003[J].Communications of the ACM,2007,50:55-62.

        [38]Rundfunk and Telekom Regulierungs-GmbH.Telekommunikationsgesetz 2003(TKG 2003)[EB/OL].[2009-11-07].http://www.rtr.at/de/tk/TKG2003#p107.

        [39]HOANCA B.How good are our weapons in the spam wars?[J].IEEE Technology and Society Magazine,2006,25(1):22-30.

        [40]HARRIS E.The next step in the spam control war:greylisting[EB/OL].[2009-11-07].http://projects.puremagic.com/greylisting/whitepaper.html.

        [41]LODER T,ALSTYNE M V,WASH R.An economic answer to unsolicited communication[C]//Proceedings of the 5th ACM Conference on Electronic Commerce.New York,USA:ACM,2004:40-50.

        [42]SAHAMI M,DUMAIS S,HECKERMAN D,et al.A Bayesian approach tofiltering junk e-mail[C]//Proceedings of the 1998 Workshop on Learning for Text Categorization.Madison,USA,1998:55-62.

        [43]ANDROUTSOPOULOS I,KOUTSIAS J,CHANDRINOS K V,et al.An evaluation of naive Bayesian anti-spam filtering[C]//Proceedings of the Workshop on Machine Learning in the New Information Age.Barcelona,Spain,2000:9-17.

        [44]SHRESTHA R,LIN Y P.Improved Bayesian spam filtering based on co-weighted multi-area information[J].Lecture Notes in Computer Science,2005,3518:650-660.

        [45]LI Yang,F(xiàn)ANG Binxing,GUO Li,et al.Research of a novel anti-spam technique based on users’feedback and improved naive Bayesian approach[C]//Proceedings of the International Conference on Networking and Services.Washington,DC,USA:IEEE Computer Society,2006:86.

        [46]SAKKIS G,ANDROUTSOPOULOS I,PALIOURAS G,et al.A memory-based approach to anti-spam filtering for mailing lists[J].Information Retrieval,2003,6(1):49-73.

        [47]SCHAPIRE R E,SINGER Y.BoosTexter:a boostingbased system for text categorization[J].Machine Learning,2000,39(2):135-168.

        [48]CARRERAS X,MARQUEZ L.Boosting trees for antispam e-mail filtering[C]//Proceedings of 4th International Conference on Recent Advances in Natural Language Processing.Tzigov Chark,Bulgaria,2001:58-64.

        [49]NICHOLAS T.Using AdaBoost and decision stumps to identify spam e-mail[EB/OL].[2009-11-07].http://nlp.stanford.edu/courses/cs224n/2003/fp/tyronen/report.pdf.

        [50]VAPNIK V N.Estimation of dependencies based on empirical data[M].New York:Springer-Verlag,1982.

        [51]VAPNIK V N.The nature of statistical learning theory[M].2nd ed.New York:Springer-Verlag,2000.

        [52]DRUCKER H,BURGES C J C,KAUFFMAN L,et al.Support vector regression machines[C]//Advances in Neural Information Processing Systems.Cambridge,USA:MIT Press,1997:155-161.

        [53]DRUCKER H,WU D,VAPNIK V N.Support vector machines for spam categorization[J].IEEE Transactions on Neural Networks,1999,10(5):1048-1054.

        [54]COHEN W W.Fast effective rule induction[C]//Proceedings of 12th International Conference on Machine Learning.San Mateo,USA:Morgan Kaufmann,1995:115-123.

        [55]SCHAPIRE R E,SINGER Y,SINGHAL A.Boosting and Rocchio applied to text filtering[C]//Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,1998:215-223.

        [56]JOACHIMS T.A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization[C]//Proceedings of 14th International Conference on Machine Learning.San Francisco,USA:Morgan Kaufman Publishers Inc.,1997:143-151.

        [57]SASAKI M,SHINNOU H.Spam detection using text clustering[C]//Proceedings of International Conference on Cyberworlds.Washington,DC,USA:IEEE Computer Society,2005:316-319.

        [58]DHILLON I S,MODHA D S.Concept decompositions for large sparse text data using clustering[J].Machine Learning,2001,42(1/2):143-175.

        [59]CLARK J,KOPRINSKA I,POON J.A neural network based approach to automated e-mail classification[C]//Proceedings of IEEE/WIC International Conference on Web Intelligence.Washington,DC,USA:IEEE Computer Society,2003:702.

        [60]STUART I,CHA S H,TAPPERT C.A neural network classifier for junk e-mail[J].Lecture Notes in Computer Science,2004,3163:442-450.

        [61]SECKER A,F(xiàn)REITAS A A,TIMMIS J.AISEC:an artificial immune system for e-mail classification[C]//Proceedings of the Congress on Evolutionary Computation.Canberra,Australia,2003:131-139.

        [62]ODA T,WHITE T.Spam detection using an artificial immune system [EB/OL].[2009-11-09].http://terri.zone12.com/doc/academic/crossroads/.

        [63]MEDLOCK B.An adaptive,semi-structured language model approach to spam filtering on a new corpus[C]//Proceedings of 3rd Conference on Email and Anti-spam.Mountain View,USA,2006.

        [64]MEDLOCK B.GenSpam [EB/OL].[2009-11-09].http://www.benmedlock.co.uk/genspam.html.

        [65]ZHANG L,ZHU J,YAO T.An evaluation of statistical spam filtering techniques[J].ACM Transactions on Asian Language Information Processing,2004,3(4):243-269.

        [66]ZHANG L,ZHU J,YAO T.Index of/lzhang10/spam[EB/OL].[2009-11-09].http://homepages.inf.ed.ac.uk/lzhang10/spam/.

        猜你喜歡
        特征提取單詞特征
        單詞連一連
        如何表達(dá)“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠的四個(gè)特征
        看圖填單詞
        抓住特征巧觀察
        看完這些單詞的翻譯,整個(gè)人都不好了
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        中文字幕乱码人妻一区二区三区| 一本色道久久综合狠狠躁篇| 一本久久伊人热热精品中文字幕 | 中国女人做爰视频| 国产精品成人va| 亚洲成熟丰满熟妇高潮XXXXX| 亚洲天堂av一区二区三区不卡| 欧美国产激情二区三区| 亚洲色欲久久久久综合网| 一区二区在线亚洲av蜜桃| 亚洲一区二区三区福利久久蜜桃| 亚洲av午夜成人片精品电影| 7777奇米四色成人眼影| 日本a级大片免费观看| 精品国产av一区二区三四区| 欧美嫩交一区二区三区| 国产一区二区三区在线观看免费 | 久久99热精品免费观看欧美| 亚洲五月天中文字幕第一页| 亚洲成av人综合在线观看| 亚洲欧美日韩人成在线播放| 久草热这里只有精品在线| 亚洲成熟中老妇女视频| 狂野欧美性猛xxxx乱大交| 乌克兰少妇xxxx做受6| 亚洲一区二区三区免费av在线| 男奸女永久免费视频网站| 亚洲啪av永久无码精品放毛片| 国产真实露脸4p视频| 美女被搞在线观看一区二区三区| 人人妻人人澡人人爽欧美一区 | 素人激情福利视频| 青青草高中生在线视频| 激情第一区仑乱| 香蕉国产人午夜视频在线观看| 亚洲中文字幕在线第六区| 少妇性俱乐部纵欲狂欢电影| 国产欧美日韩在线观看| 国产精品一区二区久久精品蜜臀| 国产日韩厂亚洲字幕中文| 精产国品一二三产品蜜桃|