亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于OCR的圖像型垃圾郵件過濾系統(tǒng)研究

2013-09-04 00:47:08秦偉

機(jī)械工程與自動化 2013年6期

秦偉

（長治職業(yè)技術(shù)學(xué)院，山西長治 046000）

0 引言

隨著互聯(lián)網(wǎng)的迅速發(fā)展，電子郵件以其方便快捷、低成本等優(yōu)點(diǎn)得到了迅速而廣泛的應(yīng)用，并成為人們?nèi)粘＝涣鳒贤ǖ闹饕ぞ咧?。與此同時(shí)，大量的垃圾郵件的涌現(xiàn)，尤其是近年發(fā)展起來的圖像型垃圾郵件，不僅給垃圾郵件過濾軟件帶來了極大的挑戰(zhàn)，還給大多數(shù)用戶和公司帶來了不可想象的各種損失。因此，圖像型垃圾郵件的過濾顯得尤為重要。

1 圖像型垃圾郵件過濾策略

目前大多數(shù)學(xué)者針對圖像型垃圾郵件的特點(diǎn)所使用的過濾方法有黑白名單過濾算法、貝葉斯過濾算法、決策樹算法和支持向量機(jī)（SVM）分類算法。在傳統(tǒng)的垃圾郵件檢測過濾技術(shù)的基礎(chǔ)上，對于圖像型郵件過濾步驟是：先經(jīng)過黑白名單過濾算法過濾，然后使用OCR技術(shù)（光學(xué)字符識別，Optical Character Recognition）提取出圖像型郵件中的文本，最后使用支持向量機(jī)（SVM）分類算法對郵件進(jìn)行分類，判斷出郵件的類型。

光學(xué)字符識別（OCR）技術(shù)，通過模式識別的方法將包含有文字的圖像文件轉(zhuǎn)化成可以編輯的文本文件。OCR軟件對二值化文檔圖像中文字的提取效果非常理想，但這種效果也僅僅局限于二值化的圖像。使用OCR軟件提取圖像郵件中圖像的文字信息，首要任務(wù)就是對圖像進(jìn)行處理，檢測出圖像中的文本區(qū)域，然后對其進(jìn)行二值化。郵件圖像文本檢測和識別系統(tǒng)整體結(jié)構(gòu)見圖1。

2 圖像型郵件圖像文本檢測

對圖像型郵件中圖像文本進(jìn)行檢測，即對出現(xiàn)在圖像中的文字信息進(jìn)行文本區(qū)域定位。首先要對圖像進(jìn)行初級處理，即圖像邊緣集提??；其次是對圖像中可能含有文字信息的文本區(qū)域進(jìn)行融合；最后，對候選文本區(qū)域進(jìn)行驗(yàn)證。

圖1 郵件圖像文本檢測和識別系統(tǒng)整體結(jié)構(gòu)

2．1 圖像邊緣集提取

2．1．1 求圖像邊緣

在大量的圖像邊緣檢測算法中，John F．Canny在1986年提出的Canny算子以最優(yōu)化算法為基礎(chǔ)，是迄今為止最有效、應(yīng)用最為廣泛的圖像邊緣提取算法［1］。本文將采用Canny算子檢測郵件圖像的垂直和水平方向的邊緣。

Canny算子的算法具體步驟如下：用高斯濾波平滑圖像，以減少甚至去除圖像中的噪聲；用一階微分偏導(dǎo)數(shù)有限差分計(jì)算圖像中每個像素點(diǎn)的梯度值和方向；對圖像的梯度幅值進(jìn)行非極大值抑制；采用雙閾值算法來檢測并連接邊緣，盡量減少偽邊緣段的數(shù)量。2．1．2 圖像邊緣細(xì)化

通過Canny算子檢測之后，我們得到了目標(biāo)區(qū)域的邊緣圖像，但得到的圖像還很粗糙。由于采用Safe point thinning algorithm（SPTA）細(xì)化算法［2］對圖像進(jìn)行處理后，得到的圖像非常圓潤，幾乎不會出現(xiàn)圖像紋理斷裂現(xiàn)象；且該算法的時(shí)間復(fù)雜度較低，是公認(rèn)的處理效果非常好的細(xì)化算法，因此，采用SPTA邊緣細(xì)化算法來對經(jīng)Canny算子處理后的圖像進(jìn)行邊緣細(xì)化。

SPTA算法一般使用窗口模式，通過對平滑處理之后圖像的所有像素進(jìn)行掃描，并以一定的規(guī)則對像素點(diǎn)的鄰域進(jìn)行計(jì)算，然后在橫向和縱向兩個方向上同時(shí)檢測判斷安全點(diǎn)和可能要被刪除的像素點(diǎn)，進(jìn)行圖像的細(xì)化。

2．2 候選文本區(qū)域融合

通過Canny算子［3］對郵件圖像進(jìn)行邊緣提取，并用SPTA算法進(jìn)行邊緣細(xì)化，得到的圖像邊緣具有較好的連通性，而且邊緣細(xì)膩清晰。然而，圖像中還存在一些與圖像文本類似的具有一定規(guī)則的背景物體，在圖像邊緣集的提取過程中保存了下來。因此，為了更好地提取郵件圖像中的關(guān)鍵文字，接下來主要是去除這些具有干擾性的背景區(qū)域，即非文本區(qū)域。

對圖像中非文本區(qū)域的去除方法是：首先，將圖像區(qū)域按顏色視覺特征進(jìn)行聚類；然后，將那些分布特征較為近似的區(qū)域使用小波變換進(jìn)行圖像的分解，以簡化后續(xù)圖像的處理工作；最后，構(gòu)造出區(qū)域能量圖像，并通過文字方向上的投影斷層檢測算法來構(gòu)建出文字塊。

2．3 候選文本區(qū)域融合驗(yàn)證

經(jīng)過圖像候選文本區(qū)域融合之后，明確了文字的方向，并去除了圖像中文字的重疊部分，接下來就是將候選文本區(qū)域中的非文本區(qū)域與文本區(qū)域進(jìn)行分離。在此，使用支持向量機(jī)SVM分類方法［4］來對相應(yīng)的特征進(jìn)行分類，以便得到圖像中的文本區(qū)域。

3 圖像型郵件圖像文本識別

經(jīng)過檢測算法的處理，篩選出了圖像中的文本區(qū)域。但是，要使用OCR軟件提取出圖像中的文字，還需要將圖像進(jìn)行二值化處理。

在對圖像進(jìn)行二值化處理的過程中［5］，由于背景圖像的影響，很容易引入大量的噪聲。因此，為了提高文本的識別率，對二值化得到的圖像進(jìn)行去噪處理是圖像識別的另一個重要任務(wù)。在眾多的圖像去噪處理方法中，使用目前盛行的基于小波的方法進(jìn)行去噪，因?yàn)樗芎芎玫乇３衷紙D像中的紋理細(xì)節(jié)特征，不破壞邊緣輪廓。在圖像文本的識別過程中，將文字的筆畫特征圖和圖像文本顏色層兩種算法相結(jié)合，實(shí)現(xiàn)組合式過濾模式，可得到質(zhì)量較高的二值化圖像。

4 結(jié)束語

通過成熟的OCR技術(shù)識別提取出二值化圖像中的文本，從而實(shí)現(xiàn)圖像型垃圾郵件的過濾，效果比較理想。加強(qiáng)對其他郵件過濾技術(shù)的學(xué)習(xí)研究，融合各種技術(shù)實(shí)現(xiàn)郵件過濾系統(tǒng)是未來的趨勢。

［1］劉偉，張鳳荔，程紅蓉，等．改進(jìn)ReliefF算法在圖像型垃圾郵件檢測中的應(yīng)用研究［J］．計(jì)算機(jī)應(yīng)用研究，2009，26（9）：3256－3258．

［2］ Lin Jia－zhen，Cao Jiu－xin，Cheng Jie．New approach for spam sample collection［J］．Journal of Southeast University：Natural Science Edition，2008，38（2）：244－248．

［3］ Anayat S，Ahmad ＨＦ．Using aprobable weight based Bayesian approach for spam filtering［G］／／Proceedings of INMIC 2004 8th International Multitopic Conference．［s．l］：［s．n］，2004：340－345．

［4］張長君．郵件服務(wù)器中基于地址的一種電子郵件過濾方法［J］．大連大學(xué)學(xué)報(bào)，2002，23（2）：13－15．

［5］耿技，萬明成，程紅蓉，等．基于文本區(qū)域特征的圖像型垃圾郵件過濾算法［J］．計(jì)算機(jī)應(yīng)用，2008，28（8）：1904－1906．