摘 要:作為現(xiàn)代社會中人們交流的一種重要方式,郵件對于提高用戶之間的溝通效率具有重要作用。然而在電子郵件的大量應(yīng)用過程中,垃圾郵件也逐漸嶄露頭角。對于用戶來說,垃圾郵件不僅需要占用較多的時間精力去處理,其還會浪費大量的存儲與寬帶資源。所以,加強有關(guān)郵件系統(tǒng)垃圾郵件過濾技術(shù)的研究,對于改善郵件使用現(xiàn)狀具有重要的現(xiàn)實意義。
關(guān)鍵詞:電子郵件;安全;郵件過濾
中圖分類號:TP393.098
垃圾郵件是指利用非正常手段或非法手段傳輸?shù)挠糜诜磩有麄?、破壞郵件網(wǎng)絡(luò)系統(tǒng)或包含色情內(nèi)容的郵件。
1 內(nèi)容過濾模塊的總體設(shè)計
以對網(wǎng)絡(luò)傳輸有害信息郵件數(shù)據(jù)的攔截與監(jiān)控是郵件過濾系統(tǒng)設(shè)計的主要理念。依據(jù)該設(shè)計理念,通常將網(wǎng)絡(luò)郵件過濾系統(tǒng)的基本功能分成以下模塊:
(1)利用專業(yè)客戶端軟件對可疑郵件進行排查,且使用遠程控制技術(shù)管理與配置軟件運行方式;(2)分析過濾數(shù)據(jù)報文,并對POP3、SMTP等郵件數(shù)據(jù)包實施組合;(3)提取數(shù)據(jù)報文,對數(shù)據(jù)進行有效分離。
依據(jù)正定的IP地址及郵件地址等過濾條件對郵件進行查收,并解析郵件內(nèi)容中的MIME編碼以恢復(fù)原始郵件內(nèi)容,在分析內(nèi)容的基礎(chǔ)上對關(guān)鍵字進行檢索,且做好對可疑郵件的登記。[1]
由于垃圾郵件的繁殖性很高,若不能有效整改,在很容易危害正常合法郵件,影響互聯(lián)網(wǎng)的日常運行。作為當(dāng)前反垃圾郵件中的關(guān)鍵技術(shù),電子郵件過濾技術(shù)主要通過兩方面完成對郵件的過濾:一方面利用服務(wù)器端進行垃圾郵件排除;另一方面利用客戶端進行垃圾郵件排除。而對于網(wǎng)絡(luò)內(nèi)部可疑郵件的攔截與排除則盡量采用以服務(wù)器端為基礎(chǔ)的郵件過濾方式,就是將郵件過濾器安置在郵件服務(wù)器上以完成對可疑郵件的過濾。
當(dāng)來自于Internet的郵件被通過POP3等系統(tǒng)接收時,郵件數(shù)據(jù)過濾接口將過濾到的郵件數(shù)據(jù)內(nèi)容送交郵件過濾服務(wù)器,用戶暫時不閱覽該郵件,而是等待郵件過濾服務(wù)器的控制命令。內(nèi)容過濾模塊主要用于檢查及排除郵件信息中的正文內(nèi)容、附件內(nèi)容等重要文本內(nèi)容信息。郵件過濾服務(wù)器主要按照設(shè)定的規(guī)則集策略進行郵件內(nèi)容排查,并能利用多線程技術(shù)實現(xiàn)對兩封以上郵件的同時管理和對郵件內(nèi)容的高效分析。郵件過濾服務(wù)器還能依據(jù)關(guān)鍵詞庫的匹配狀況對郵件的合法性進行診斷判定。
2 文本過濾技術(shù)
2.1 PDF文檔的文本過濾技術(shù)
通常文件體、文件尾、文件頭、交叉引用表是PDF物理結(jié)構(gòu)的基本組成部分。文件體通常包含大量的PDF間接對象,而間接對象的組合便形成了PDF文件的圖像、頁面、字體等具體內(nèi)容;文件尾主要登記交叉引用表的地址,并根據(jù)文件體的根對象對加密等安全信息進行存儲;文件頭主要登記文件所使用的PDF規(guī)范版本號,其常卸載PDF文件的首行位置;交叉引用表是一種間接對象地址索引表,其能夠?qū)崿F(xiàn)對間接對象的隨機儲存。利用文件尾獲取的信息,PDF瀏覽器能夠提取整體PDF文件及交叉引用表的根對象,進而完成對文件的有序存儲。[2]
作為一種樹型結(jié)構(gòu),PDF文件主體文檔架構(gòu)是文件體中間對象間等級層次關(guān)系的基本反映。文檔結(jié)構(gòu)中根對象便是樹根節(jié)點。根節(jié)點下有四個子樹:頁面樹(Pages Tree)、書簽樹(Outline Hierarchy)、線程樹(Article Threads)、名字樹(Named Destination)。
PDF文本的物理格式用于對文字在頁面上的顯示方式的分析,基本有文字字體、位置、大小、顏色等屬性描述。在大量PDF文件中為降低文件占用大小,通常會將文本進行deflate壓縮編碼。對于壓縮完成的文本只有在解碼完成后才能繼續(xù)進行分析、描述研究。
2.2 HTML文檔的文本過濾技術(shù)
超文本標(biāo)記語言HTML是Web的通用語言,是創(chuàng)建Web頁和發(fā)布Web信息的格式,是Web設(shè)計的基礎(chǔ),是控制Web瀏覽器在屏幕上顯示內(nèi)容的核心技術(shù)。HTML的主要功能是對在各類應(yīng)用平臺上使用鏈接的超文本文件進行編制,其標(biāo)記過程能夠表達出超文本的文檔、在線顯示視像、圖形、郵件、新聞等信息體。[3]
“頭”和“體”組成了HTML文檔的基本框架。HTML文檔均用于在瀏覽器上顯示,而支持HTTP的瀏覽器均為WINDOWS式的圖形用戶接口(GUI)界面,因此HTML文檔的基本結(jié)構(gòu)是依據(jù)這一要求而設(shè)計確定的。窗口體與標(biāo)題欄是圖形用戶接口界面的基本框架組成,這正好適用于HTML文檔的“頭”和“體”結(jié)構(gòu)。
(1)HTML容器標(biāo)記。在HTML文檔中的首個標(biāo)記即是HTML的容器標(biāo)記,其主要用于指示瀏覽器,代碼則根據(jù)HTML設(shè)定的結(jié)構(gòu)規(guī)則與語法進行編寫。對應(yīng)的在文件的結(jié)尾處常出現(xiàn)的是結(jié)束標(biāo)記;(2)頭標(biāo)記(head)。作為一對頭標(biāo)簽,
和可以用來劃分標(biāo)記文件頭的區(qū)域(….),其包含著不在網(wǎng)頁上直接實施或顯示的項目。部分在顯示在瀏覽器標(biāo)題欄中的文檔標(biāo)題名稱(title)是與文檔相關(guān)的屬性參數(shù),其作為HTML文檔的首要部分,是一項可以選擇的參數(shù)類型,雖然HTML設(shè)定部分元素只在內(nèi)部狀況下適用。在文檔中只有標(biāo)題(title)元素能夠在瀏覽器中顯示,其余元素則無法進行顯示。作為一種可選元素,TITLE(標(biāo)題)通常使用一對標(biāo)簽(2.3 MS-Word/PowerPoint文檔的文本過濾技術(shù)
在Microsoft提供的Office產(chǎn)品中,基本都具有OLE Automation自動化程序接口。若用戶采用Script、VBA或VB使用Office功能,則要比簡單的使用VC要容易很多。如在使用WORD軟件時,將菜單“工具(T)宏(M)錄制新宏(R)”調(diào)出的過程中,程序就對用戶在WORD中采取的基本鍵盤與菜單操作過程都記錄并儲存下來,以利于下次繼續(xù)調(diào)用。而在對這些操作記錄進行儲存時,便是應(yīng)用了VBA程序(Visual Basic for Application)。而為保證其他功能的實現(xiàn),也需要依據(jù)VBA程序方法。為使Office操作的過程更加具有層次性與邏輯性,Microsoft將應(yīng)用(Application)依據(jù)邏輯功能劃分為樹形結(jié)構(gòu),通過分析各功能之間的邏輯層次,用戶地域Office的操作才會更加正確。
3 結(jié)束語
垃圾過濾技術(shù)的應(yīng)用水平將直接關(guān)系郵件系統(tǒng)的運行安全性與穩(wěn)定性,因此,相關(guān)技術(shù)與研究人員應(yīng)加強有關(guān)郵件系統(tǒng)中垃圾郵件過濾技術(shù)的分析,總結(jié)先進過濾技術(shù)應(yīng)用要點及技術(shù)措施,已逐步改善垃圾郵件過濾質(zhì)量。
參考文獻:
[1]衣治安,毛巖.垃圾郵件過濾技術(shù)概述[J].長江大學(xué)學(xué)報(自然科學(xué)版)理工卷,2010(10):61-62.
[2]賈云剛.垃圾郵件過濾技術(shù)研究[J].通信與信息技術(shù),2011(29):62-63.
作者單位:西北工業(yè)大學(xué) 網(wǎng)絡(luò)教育學(xué)院,西安 710072