[摘要]當(dāng)前,垃圾郵件日益泛濫的。本文在“信息——知識——智能”統(tǒng)一理論的指導(dǎo)下,總結(jié)了目前存在的反垃圾郵件技術(shù),對行為識別技術(shù)進(jìn)行研究,提出了一種基于數(shù)據(jù)挖掘的垃圾郵件行為識別技術(shù),在郵件內(nèi)容數(shù)據(jù)發(fā)送前,根據(jù)其行為進(jìn)行合法性判斷,從而節(jié)省了網(wǎng)絡(luò)帶寬資源。
[關(guān)鍵詞]計算機(jī)網(wǎng)絡(luò):垃圾郵件:行為識別:入侵監(jiān)測
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-8283(2009)04-0154-01
1 引言
隨著電腦網(wǎng)絡(luò)的普及,電子郵件已經(jīng)成為人們現(xiàn)實(shí)生活工作中必不可少的信息交流手段,但是同時又是最容易受非法信息污染的環(huán)節(jié)。垃圾郵件的出現(xiàn)嚴(yán)重干擾了人們的日常工作與生活。據(jù)統(tǒng)計,目前約80%的電子郵件為垃圾郵件,垃圾郵件不僅阻礙了信息業(yè)的發(fā)展,而且損害了人們對于網(wǎng)絡(luò)交流的信心。
2 電子郵件過濾技術(shù)綜述
目前存在的郵件過濾技術(shù),大體上可以分為兩大派,分別是內(nèi)容過濾技術(shù)和行為識別過濾技術(shù),兩者各有其優(yōu)點(diǎn),任何一種技術(shù)做到極致都能有效地實(shí)現(xiàn)垃圾郵件過濾,但是他們也有缺點(diǎn)和不足。
2.1 基于黑名單的過濾
黑名單過濾技術(shù)是一種比較常見的垃圾郵件過濾技術(shù),主要是對發(fā)信人的IP地址、郵箱地址以及郵件服務(wù)器的域名進(jìn)行過濾。雖然這種方法比較直接而且有效,但是這種技術(shù)太被動,只能防止已知的固定的垃圾郵件發(fā)送者,對新地址或任意的偽造源地址的垃圾郵件并不奏效。
2.2 基于特征的過濾
所有電子郵件都有郵件頭、發(fā)件人地址、收件人地址、主題、信件內(nèi)容等幾個字段,根據(jù)其中某個或幾個字段的特征對郵件的合法性進(jìn)行判斷便是基于特征的過濾。
這種方法可以在郵件完全提交之前對垃圾郵件進(jìn)行阻斷,通過對信頭的分析進(jìn)行垃圾郵件的判斷。但隨著垃圾郵件程序的發(fā)展。垃圾郵件往往會將真實(shí)的發(fā)信地址隱藏起來而使用一個正常的發(fā)信地址代替,這使得基于特征的過濾產(chǎn)生很大的局限性。
在目前情況下,對垃圾郵件的過濾,一般采用以內(nèi)容過濾為核心,其他技術(shù)手段相輔助的方式。
3 反垃圾郵件中的行為識別技術(shù)研究
從以上對過濾技術(shù)的介紹中可以看出,每一種技術(shù)都有自己的優(yōu)點(diǎn)。但也不可避免地存在缺點(diǎn)。為避免不利情況的發(fā)生,本文致力于尋找一種方法,能在不浪費(fèi)網(wǎng)絡(luò)帶寬即不傳輸郵件數(shù)據(jù)的情況下過濾垃圾郵件。
“行為識別”技術(shù)反垃圾郵件,其特點(diǎn)為處理速度快,通過郵件發(fā)送行為判斷其是否合法。從對垃圾郵件的被動處理轉(zhuǎn)變?yōu)閷ζ浒l(fā)送行為的主動規(guī)范。
3.1 垃圾郵件行為分析
正常的郵件發(fā)送遵循標(biāo)準(zhǔn)的SMTP協(xié)議或ESMTP協(xié)議,有固定的模式。比如發(fā)送mail命令后,只有對方確認(rèn)正確后才能進(jìn)行郵件數(shù)據(jù)的傳輸和接收。然而SMTP協(xié)議相對比較簡單而且很容易模擬,這些都給垃圾郵件制造者以可乘之機(jī)。
垃圾制造者可以通過偽造合法的服務(wù)器身份、合法的發(fā)件人地址等手段來欺騙郵件服務(wù)器,并用目錄樹、字典攻擊等方法來實(shí)現(xiàn)垃圾郵件的傳播。因此垃圾郵件的發(fā)送不會完全遵循標(biāo)準(zhǔn)的SMTP協(xié)議或ES-MTP協(xié)議,且具有一定的行為特征。例如在協(xié)議會話層可能會有多個rcpt tp,而緊跟其后的郵件地址多數(shù)不存在,而這種行為特征就是典型的垃圾郵件行為特征,稱之為DHA。
3.2 方案設(shè)計
本文對垃圾郵件行為識別技術(shù)的研究是在“信息—知識一智能”統(tǒng)一理論的指導(dǎo)下進(jìn)行的。根據(jù)垃圾郵件發(fā)送的行為特征,以大量研究數(shù)據(jù)為基礎(chǔ),提出并驗(yàn)證了一種基于數(shù)據(jù)挖掘方法的行為識別技術(shù),用以過濾垃圾郵件,其具體流程如下:
首先從郵件服務(wù)器的郵件發(fā)送日志人手,進(jìn)行數(shù)據(jù)預(yù)處理,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),記錄郵件發(fā)送過程中的各類行為要素。如時間、頻度、發(fā)送IP、協(xié)議聲明特征等,并在每一條記錄后標(biāo)注為垃圾郵件或正常郵件;然后從中抽取出垃圾郵件發(fā)送行為的特征屬性,為模式挖掘做準(zhǔn)備。利用數(shù)據(jù)挖掘相關(guān)技術(shù),提取出垃圾郵件行為判定規(guī)則。最后對垃圾郵件行為判定規(guī)則進(jìn)行模式分析,并建立基于“行為識別”技術(shù)的發(fā)垃圾郵件安全服務(wù)模型,用以解決實(shí)際問題。
4 基于數(shù)據(jù)挖掘的垃圾郵件行為識別
4.1 特征數(shù)據(jù)采集
設(shè)計的目的在于發(fā)現(xiàn)垃圾郵件發(fā)送行為的特征,因此需要對郵件發(fā)送行為數(shù)據(jù)進(jìn)行分析和提取。郵件日志便是在垃圾郵件和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù),這些數(shù)據(jù)包括郵件服務(wù)器的郵件記錄如郵件大小、到達(dá)時間、主題等以及郵件過濾器所記錄的協(xié)議特征,如發(fā)件人IP等。我們可對以上積累起來的結(jié)構(gòu)化日志信息進(jìn)行挖掘,從而發(fā)現(xiàn)垃圾郵件的網(wǎng)絡(luò)發(fā)送行為特征。
4.2 特征屬性提取
對于已經(jīng)收集到的郵件發(fā)送行為數(shù)據(jù)日志需要進(jìn)行數(shù)據(jù)預(yù)處理,預(yù)處理的根本目的在于便于后續(xù)處理,提高挖掘的準(zhǔn)確性。在本課題研究中,收集到的數(shù)據(jù)只有一個數(shù)據(jù)源,所以無需集成,另外數(shù)據(jù)本身已經(jīng)為結(jié)構(gòu)化數(shù)據(jù),也不需要進(jìn)行結(jié)構(gòu)轉(zhuǎn)化處理,但是其仍存在一些不足:
數(shù)據(jù)類型多樣,處理困難。多數(shù)數(shù)字挖掘算法對數(shù)值是敏感的,無法對包含多個數(shù)據(jù)類型的數(shù)據(jù)源進(jìn)行挖掘。
單獨(dú)觀察一條郵件發(fā)送日志,如果不與前后相聯(lián)系,很難發(fā)現(xiàn)垃圾郵件的發(fā)送行為特征。
因此需要對原始數(shù)據(jù)進(jìn)行變換和離散化處理,用以發(fā)現(xiàn)這些數(shù)據(jù)垃圾郵件的特征屬性。課題組提取郵件發(fā)送日志中的部分信息,加以融合,每個屬性都具有一定意義,用以作為區(qū)分正常郵件和垃圾郵件的依據(jù)。
4.3 模式挖掘
模式挖掘過程具體表現(xiàn)在從日志信息中提取出垃圾郵件行為判定的規(guī)則。目前存在多種數(shù)據(jù)挖掘方法,由于本文研究的數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),其目的在于挖掘出一系列規(guī)則對郵件合法性進(jìn)行二分類判斷。即合法或非法判斷,因此最終決定采用機(jī)器學(xué)習(xí)方法中的決策樹算法,提取垃圾郵件的判定規(guī)則,并進(jìn)行修剪以滿足實(shí)際工程的需要。
5 小結(jié)
在垃圾郵件日益泛濫的今天。存在著各種各樣的郵件過濾技術(shù),除內(nèi)容過濾外,行為識別技術(shù)逐步發(fā)展起來。本文對垃圾郵件行為識別技術(shù)進(jìn)行研究,目的在于找到一種方法或規(guī)則,可以根據(jù)郵件發(fā)送行為判定郵件合法性,從而使垃圾郵件在傳輸之前就被扼殺,節(jié)約寶貴的網(wǎng)絡(luò)資源。