亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于OCR的圖像型垃圾郵件過濾系統(tǒng)研究

        2013-09-04 00:47:08
        機(jī)械工程與自動化 2013年6期
        關(guān)鍵詞:文本區(qū)域檢測

        秦 偉

        (長治職業(yè)技術(shù)學(xué)院,山西 長治 046000)

        0 引言

        隨著互聯(lián)網(wǎng)的迅速發(fā)展,電子郵件以其方便快捷、低成本等優(yōu)點(diǎn)得到了迅速而廣泛的應(yīng)用,并成為人們?nèi)粘=涣鳒贤ǖ闹饕ぞ咧?。與此同時(shí),大量的垃圾郵件的涌現(xiàn),尤其是近年發(fā)展起來的圖像型垃圾郵件,不僅給垃圾郵件過濾軟件帶來了極大的挑戰(zhàn),還給大多數(shù)用戶和公司帶來了不可想象的各種損失。因此,圖像型垃圾郵件的過濾顯得尤為重要。

        1 圖像型垃圾郵件過濾策略

        目前大多數(shù)學(xué)者針對圖像型垃圾郵件的特點(diǎn)所使用的過濾方法有黑白名單過濾算法、貝葉斯過濾算法、決策樹算法和支持向量機(jī)(SVM)分類算法。在傳統(tǒng)的垃圾郵件檢測過濾技術(shù)的基礎(chǔ)上,對于圖像型郵件過濾步驟是:先經(jīng)過黑白名單過濾算法過濾,然后使用OCR技術(shù)(光學(xué)字符識別,Optical Character Recognition)提取出圖像型郵件中的文本,最后使用支持向量機(jī)(SVM)分類算法對郵件進(jìn)行分類,判斷出郵件的類型。

        光學(xué)字符識別(OCR)技術(shù),通過模式識別的方法將包含有文字的圖像文件轉(zhuǎn)化成可以編輯的文本文件。OCR軟件對二值化文檔圖像中文字的提取效果非常理想,但這種效果也僅僅局限于二值化的圖像。使用OCR軟件提取圖像郵件中圖像的文字信息,首要任務(wù)就是對圖像進(jìn)行處理,檢測出圖像中的文本區(qū)域,然后對其進(jìn)行二值化。郵件圖像文本檢測和識別系統(tǒng)整體結(jié)構(gòu)見圖1。

        2 圖像型郵件圖像文本檢測

        對圖像型郵件中圖像文本進(jìn)行檢測,即對出現(xiàn)在圖像中的文字信息進(jìn)行文本區(qū)域定位。首先要對圖像進(jìn)行初級處理,即圖像邊緣集提??;其次是對圖像中可能含有文字信息的文本區(qū)域進(jìn)行融合;最后,對候選文本區(qū)域進(jìn)行驗(yàn)證。

        圖1 郵件圖像文本檢測和識別系統(tǒng)整體結(jié)構(gòu)

        2.1 圖像邊緣集提取

        2.1.1 求圖像邊緣

        在大量的圖像邊緣檢測算法中,John F.Canny在1986年提出的Canny算子以最優(yōu)化算法為基礎(chǔ),是迄今為止最有效、應(yīng)用最為廣泛的圖像邊緣提取算法[1]。本文將采用Canny算子檢測郵件圖像的垂直和水平方向的邊緣。

        Canny算子的算法具體步驟如下:用高斯濾波平滑圖像,以減少甚至去除圖像中的噪聲;用一階微分偏導(dǎo)數(shù)有限差分計(jì)算圖像中每個像素點(diǎn)的梯度值和方向;對圖像的梯度幅值進(jìn)行非極大值抑制;采用雙閾值算法來檢測并連接邊緣,盡量減少偽邊緣段的數(shù)量。2.1.2 圖像邊緣細(xì)化

        通過Canny算子檢測之后,我們得到了目標(biāo)區(qū)域的邊緣圖像,但得到的圖像還很粗糙。由于采用Safe point thinning algorithm(SPTA)細(xì)化算法[2]對圖像進(jìn)行處理后,得到的圖像非常圓潤,幾乎不會出現(xiàn)圖像紋理斷裂現(xiàn)象;且該算法的時(shí)間復(fù)雜度較低,是公認(rèn)的處理效果非常好的細(xì)化算法,因此,采用SPTA邊緣細(xì)化算法來對經(jīng)Canny算子處理后的圖像進(jìn)行邊緣細(xì)化。

        SPTA算法一般使用窗口模式,通過對平滑處理之后圖像的所有像素進(jìn)行掃描,并以一定的規(guī)則對像素點(diǎn)的鄰域進(jìn)行計(jì)算,然后在橫向和縱向兩個方向上同時(shí)檢測判斷安全點(diǎn)和可能要被刪除的像素點(diǎn),進(jìn)行圖像的細(xì)化。

        2.2 候選文本區(qū)域融合

        通過Canny算子[3]對郵件圖像進(jìn)行邊緣提取,并用SPTA算法進(jìn)行邊緣細(xì)化,得到的圖像邊緣具有較好的連通性,而且邊緣細(xì)膩清晰。然而,圖像中還存在一些與圖像文本類似的具有一定規(guī)則的背景物體,在圖像邊緣集的提取過程中保存了下來。因此,為了更好地提取郵件圖像中的關(guān)鍵文字,接下來主要是去除這些具有干擾性的背景區(qū)域,即非文本區(qū)域。

        對圖像中非文本區(qū)域的去除方法是:首先,將圖像區(qū)域按顏色視覺特征進(jìn)行聚類;然后,將那些分布特征較為近似的區(qū)域使用小波變換進(jìn)行圖像的分解,以簡化后續(xù)圖像的處理工作;最后,構(gòu)造出區(qū)域能量圖像,并通過文字方向上的投影斷層檢測算法來構(gòu)建出文字塊。

        2.3 候選文本區(qū)域融合驗(yàn)證

        經(jīng)過圖像候選文本區(qū)域融合之后,明確了文字的方向,并去除了圖像中文字的重疊部分,接下來就是將候選文本區(qū)域中的非文本區(qū)域與文本區(qū)域進(jìn)行分離。在此,使用支持向量機(jī)SVM分類方法[4]來對相應(yīng)的特征進(jìn)行分類,以便得到圖像中的文本區(qū)域。

        3 圖像型郵件圖像文本識別

        經(jīng)過檢測算法的處理,篩選出了圖像中的文本區(qū)域。但是,要使用OCR軟件提取出圖像中的文字,還需要將圖像進(jìn)行二值化處理。

        在對圖像進(jìn)行二值化處理的過程中[5],由于背景圖像的影響,很容易引入大量的噪聲。因此,為了提高文本的識別率,對二值化得到的圖像進(jìn)行去噪處理是圖像識別的另一個重要任務(wù)。在眾多的圖像去噪處理方法中,使用目前盛行的基于小波的方法進(jìn)行去噪,因?yàn)樗芎芎玫乇3衷紙D像中的紋理細(xì)節(jié)特征,不破壞邊緣輪廓。在圖像文本的識別過程中,將文字的筆畫特征圖和圖像文本顏色層兩種算法相結(jié)合,實(shí)現(xiàn)組合式過濾模式,可得到質(zhì)量較高的二值化圖像。

        4 結(jié)束語

        通過成熟的OCR技術(shù)識別提取出二值化圖像中的文本,從而實(shí)現(xiàn)圖像型垃圾郵件的過濾,效果比較理想。加強(qiáng)對其他郵件過濾技術(shù)的學(xué)習(xí)研究,融合各種技術(shù)實(shí)現(xiàn)郵件過濾系統(tǒng)是未來的趨勢。

        [1] 劉偉,張鳳荔,程紅蓉,等.改進(jìn)ReliefF算法在圖像型垃圾郵件檢測中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(9):3256-3258.

        [2] Lin Jia-zhen,Cao Jiu-xin,Cheng Jie.New approach for spam sample collection[J].Journal of Southeast University:Natural Science Edition,2008,38(2):244-248.

        [3] Anayat S,Ahmad H F.Using aprobable weight based Bayesian approach for spam filtering[G]//Proceedings of INMIC 2004 8th International Multitopic Conference.[s.l]:[s.n],2004:340-345.

        [4] 張長君.郵件服務(wù)器中基于地址的一種電子郵件過濾方法[J].大連大學(xué)學(xué)報(bào),2002,23(2):13-15.

        [5] 耿技,萬明成,程紅蓉,等.基于文本區(qū)域特征的圖像型垃圾郵件過濾算法[J].計(jì)算機(jī)應(yīng)用,2008,28(8):1904-1906.

        猜你喜歡
        文本區(qū)域檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        小波變換在PCB缺陷檢測中的應(yīng)用
        關(guān)于四色猜想
        分區(qū)域
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
        電測與儀表(2015年5期)2015-04-09 11:30:52
        国产麻豆国精精品久久毛片| 中文字幕色av一区二区三区| 色偷偷噜噜噜亚洲男人| 国产97在线 | 免费| 中字无码av电影在线观看网站| 久久中文字幕av第二页 | 天堂资源中文最新版在线一区| 99在线播放视频| 成人午夜视频在线观看高清| 国产精品国产自产自拍高清av| 久久伊人这里都是精品| 亚洲综合成人婷婷五月网址| 国内a∨免费播放| 亚洲人成网站久久久综合| 亚洲精品国产av一区二区| 日本久久久免费观看视频| 少妇粉嫩小泬喷水视频www| 可以免费观看的毛片| 日韩人妻中文字幕一区二区| 亚洲精品第一页在线观看| 无码人妻久久一区二区三区app| 日韩成人免费一级毛片| 日本精品熟妇一区二区三区| 亚洲国产精品av麻豆网站| 国产精品99无码一区二区| 996久久国产精品线观看| 亚洲av五月天天堂网| 蜜桃tv在线免费观看| av免费不卡国产观看| 亚洲国产精品日韩av专区| 中文字幕一区二区三区在线不卡| 元码人妻精品一区二区三区9| 亚洲中文av中文字幕艳妇| 免费观看又色又爽又湿的视频| 亚洲欧洲精品成人久久曰不卡| 亚洲综合新区一区二区| 五月综合激情婷婷六月| 国产96在线 | 亚洲| 青春草在线视频精品| 亚洲综合在不卡在线国产另类| 人妻熟妇乱又伦精品hd|