秦 偉
(長治職業(yè)技術(shù)學(xué)院,山西 長治 046000)
隨著互聯(lián)網(wǎng)的迅速發(fā)展,電子郵件以其方便快捷、低成本等優(yōu)點(diǎn)得到了迅速而廣泛的應(yīng)用,并成為人們?nèi)粘=涣鳒贤ǖ闹饕ぞ咧?。與此同時(shí),大量的垃圾郵件的涌現(xiàn),尤其是近年發(fā)展起來的圖像型垃圾郵件,不僅給垃圾郵件過濾軟件帶來了極大的挑戰(zhàn),還給大多數(shù)用戶和公司帶來了不可想象的各種損失。因此,圖像型垃圾郵件的過濾顯得尤為重要。
目前大多數(shù)學(xué)者針對圖像型垃圾郵件的特點(diǎn)所使用的過濾方法有黑白名單過濾算法、貝葉斯過濾算法、決策樹算法和支持向量機(jī)(SVM)分類算法。在傳統(tǒng)的垃圾郵件檢測過濾技術(shù)的基礎(chǔ)上,對于圖像型郵件過濾步驟是:先經(jīng)過黑白名單過濾算法過濾,然后使用OCR技術(shù)(光學(xué)字符識別,Optical Character Recognition)提取出圖像型郵件中的文本,最后使用支持向量機(jī)(SVM)分類算法對郵件進(jìn)行分類,判斷出郵件的類型。
光學(xué)字符識別(OCR)技術(shù),通過模式識別的方法將包含有文字的圖像文件轉(zhuǎn)化成可以編輯的文本文件。OCR軟件對二值化文檔圖像中文字的提取效果非常理想,但這種效果也僅僅局限于二值化的圖像。使用OCR軟件提取圖像郵件中圖像的文字信息,首要任務(wù)就是對圖像進(jìn)行處理,檢測出圖像中的文本區(qū)域,然后對其進(jìn)行二值化。郵件圖像文本檢測和識別系統(tǒng)整體結(jié)構(gòu)見圖1。
對圖像型郵件中圖像文本進(jìn)行檢測,即對出現(xiàn)在圖像中的文字信息進(jìn)行文本區(qū)域定位。首先要對圖像進(jìn)行初級處理,即圖像邊緣集提??;其次是對圖像中可能含有文字信息的文本區(qū)域進(jìn)行融合;最后,對候選文本區(qū)域進(jìn)行驗(yàn)證。
圖1 郵件圖像文本檢測和識別系統(tǒng)整體結(jié)構(gòu)
2.1.1 求圖像邊緣
在大量的圖像邊緣檢測算法中,John F.Canny在1986年提出的Canny算子以最優(yōu)化算法為基礎(chǔ),是迄今為止最有效、應(yīng)用最為廣泛的圖像邊緣提取算法[1]。本文將采用Canny算子檢測郵件圖像的垂直和水平方向的邊緣。
Canny算子的算法具體步驟如下:用高斯濾波平滑圖像,以減少甚至去除圖像中的噪聲;用一階微分偏導(dǎo)數(shù)有限差分計(jì)算圖像中每個像素點(diǎn)的梯度值和方向;對圖像的梯度幅值進(jìn)行非極大值抑制;采用雙閾值算法來檢測并連接邊緣,盡量減少偽邊緣段的數(shù)量。2.1.2 圖像邊緣細(xì)化
通過Canny算子檢測之后,我們得到了目標(biāo)區(qū)域的邊緣圖像,但得到的圖像還很粗糙。由于采用Safe point thinning algorithm(SPTA)細(xì)化算法[2]對圖像進(jìn)行處理后,得到的圖像非常圓潤,幾乎不會出現(xiàn)圖像紋理斷裂現(xiàn)象;且該算法的時(shí)間復(fù)雜度較低,是公認(rèn)的處理效果非常好的細(xì)化算法,因此,采用SPTA邊緣細(xì)化算法來對經(jīng)Canny算子處理后的圖像進(jìn)行邊緣細(xì)化。
SPTA算法一般使用窗口模式,通過對平滑處理之后圖像的所有像素進(jìn)行掃描,并以一定的規(guī)則對像素點(diǎn)的鄰域進(jìn)行計(jì)算,然后在橫向和縱向兩個方向上同時(shí)檢測判斷安全點(diǎn)和可能要被刪除的像素點(diǎn),進(jìn)行圖像的細(xì)化。
通過Canny算子[3]對郵件圖像進(jìn)行邊緣提取,并用SPTA算法進(jìn)行邊緣細(xì)化,得到的圖像邊緣具有較好的連通性,而且邊緣細(xì)膩清晰。然而,圖像中還存在一些與圖像文本類似的具有一定規(guī)則的背景物體,在圖像邊緣集的提取過程中保存了下來。因此,為了更好地提取郵件圖像中的關(guān)鍵文字,接下來主要是去除這些具有干擾性的背景區(qū)域,即非文本區(qū)域。
對圖像中非文本區(qū)域的去除方法是:首先,將圖像區(qū)域按顏色視覺特征進(jìn)行聚類;然后,將那些分布特征較為近似的區(qū)域使用小波變換進(jìn)行圖像的分解,以簡化后續(xù)圖像的處理工作;最后,構(gòu)造出區(qū)域能量圖像,并通過文字方向上的投影斷層檢測算法來構(gòu)建出文字塊。
經(jīng)過圖像候選文本區(qū)域融合之后,明確了文字的方向,并去除了圖像中文字的重疊部分,接下來就是將候選文本區(qū)域中的非文本區(qū)域與文本區(qū)域進(jìn)行分離。在此,使用支持向量機(jī)SVM分類方法[4]來對相應(yīng)的特征進(jìn)行分類,以便得到圖像中的文本區(qū)域。
經(jīng)過檢測算法的處理,篩選出了圖像中的文本區(qū)域。但是,要使用OCR軟件提取出圖像中的文字,還需要將圖像進(jìn)行二值化處理。
在對圖像進(jìn)行二值化處理的過程中[5],由于背景圖像的影響,很容易引入大量的噪聲。因此,為了提高文本的識別率,對二值化得到的圖像進(jìn)行去噪處理是圖像識別的另一個重要任務(wù)。在眾多的圖像去噪處理方法中,使用目前盛行的基于小波的方法進(jìn)行去噪,因?yàn)樗芎芎玫乇3衷紙D像中的紋理細(xì)節(jié)特征,不破壞邊緣輪廓。在圖像文本的識別過程中,將文字的筆畫特征圖和圖像文本顏色層兩種算法相結(jié)合,實(shí)現(xiàn)組合式過濾模式,可得到質(zhì)量較高的二值化圖像。
通過成熟的OCR技術(shù)識別提取出二值化圖像中的文本,從而實(shí)現(xiàn)圖像型垃圾郵件的過濾,效果比較理想。加強(qiáng)對其他郵件過濾技術(shù)的學(xué)習(xí)研究,融合各種技術(shù)實(shí)現(xiàn)郵件過濾系統(tǒng)是未來的趨勢。
[1] 劉偉,張鳳荔,程紅蓉,等.改進(jìn)ReliefF算法在圖像型垃圾郵件檢測中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(9):3256-3258.
[2] Lin Jia-zhen,Cao Jiu-xin,Cheng Jie.New approach for spam sample collection[J].Journal of Southeast University:Natural Science Edition,2008,38(2):244-248.
[3] Anayat S,Ahmad H F.Using aprobable weight based Bayesian approach for spam filtering[G]//Proceedings of INMIC 2004 8th International Multitopic Conference.[s.l]:[s.n],2004:340-345.
[4] 張長君.郵件服務(wù)器中基于地址的一種電子郵件過濾方法[J].大連大學(xué)學(xué)報(bào),2002,23(2):13-15.
[5] 耿技,萬明成,程紅蓉,等.基于文本區(qū)域特征的圖像型垃圾郵件過濾算法[J].計(jì)算機(jī)應(yīng)用,2008,28(8):1904-1906.