福州大學(xué)物理與信息工程學(xué)院 代立華 黃立勤
基于圖像型垃圾郵件過(guò)濾系統(tǒng)的研究
福州大學(xué)物理與信息工程學(xué)院 代立華 黃立勤
在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的背景下,電子郵件憑借著成本低、方便快捷的特點(diǎn)在人們?nèi)粘=涣骱蜏贤ㄖ械膽?yīng)用越來(lái)越廣泛。但需要注意的是,大量垃圾郵件的出現(xiàn)嚴(yán)重影響了人們的使用體驗(yàn),尤其近年來(lái)圖像型垃圾郵件的出現(xiàn),給眾多用戶和企業(yè)帶來(lái)了嚴(yán)重的困擾,甚至導(dǎo)致各種損失的出現(xiàn),這就給垃圾郵件過(guò)濾軟件提出了更高的要求。基于以上,本文提出了一種基于OCR過(guò)濾方法的圖像型垃圾郵件過(guò)濾系統(tǒng),分析了圖像向垃圾郵件的過(guò)濾策略、文本檢測(cè)和文本識(shí)別,研究了圖像型垃圾郵件過(guò)濾系統(tǒng)的設(shè)計(jì)結(jié)構(gòu)。
圖像型垃圾郵件;文本檢測(cè);文本識(shí)別;過(guò)濾系統(tǒng)
近年來(lái),研究人員對(duì)圖像垃圾郵件的識(shí)別和過(guò)濾技術(shù)的研究較為關(guān)注,但當(dāng)前研究出的過(guò)濾系統(tǒng)都不能夠很好的實(shí)現(xiàn)垃圾郵件圖像的識(shí)別和分類,難以滿足圖像型垃圾郵件過(guò)濾的準(zhǔn)確性、實(shí)時(shí)性及高效性要求?;谝陨?,本文提出了一種以O(shè)CR技術(shù)為基礎(chǔ)的圖像向垃圾郵件過(guò)濾系統(tǒng),旨在為相關(guān)研究和實(shí)踐提供參考。
就目前來(lái)看,圖像型垃圾郵件的過(guò)濾方法主要包括貝葉斯過(guò)濾算法、支持向量機(jī)分類算法、黑白名單過(guò)濾算法及決策樹(shù)過(guò)濾算法等。本文以傳統(tǒng)垃圾郵件檢測(cè)過(guò)濾技術(shù)為基礎(chǔ),融合OCR技術(shù)(光學(xué)字符識(shí)別技術(shù)),具體的過(guò)濾步驟如下:首先采用黑白名單過(guò)濾算法對(duì)圖像型垃圾郵件進(jìn)行過(guò)濾,之后利用OCR技術(shù)對(duì)圖像型郵件中的文本進(jìn)行提取,最后以支持向量機(jī)分類算法為基礎(chǔ),對(duì)郵件進(jìn)行明確的分類,以此來(lái)實(shí)現(xiàn)對(duì)圖像型垃圾郵件類型的判斷。
OCR技術(shù)主要以模式識(shí)別方法為基礎(chǔ),能夠?qū)в形淖值膱D像文件轉(zhuǎn)換為可以進(jìn)行編輯的文本文件,利用OCR軟件能夠有效提取二值化文檔圖像中的文字。具體來(lái)說(shuō),首先需要處理圖像,檢測(cè)出圖像中的文本區(qū)域,之后進(jìn)行文本區(qū)域的二值化處理,最后提取文字信息[1]。
3.1 提取圖像邊緣集
3.1.1 求圖像邊緣
當(dāng)前有著眾多圖像邊緣檢測(cè)算法,其中John F·Canny提出的Canny算子檢測(cè)算法以最優(yōu)化算法為基礎(chǔ),是最為有效也是應(yīng)用最為廣泛的一種圖像邊緣檢測(cè)算法。因此,本文以此方法為基礎(chǔ)來(lái)對(duì)郵件圖像的垂直邊緣和水平邊緣進(jìn)行檢測(cè)。具體步驟如下:①采用高斯濾波平滑圖像來(lái)減少或去除圖像噪聲;②以一階微分偏導(dǎo)數(shù)有限差分方法為基礎(chǔ),對(duì)圖像中各個(gè)像素點(diǎn)的梯度值和方向進(jìn)行計(jì)算和分析[2];③采用非極大值方法來(lái)實(shí)現(xiàn)圖像梯度幅值的抑制,④利用雙閾值算法,對(duì)圖像邊緣進(jìn)行檢測(cè)和連接,盡可能消除圖像邊緣中的偽邊緣段。
3.1.2 圖像邊緣細(xì)化
SPTA細(xì)化算法是一種有效的圖像邊緣細(xì)化方法,在處理圖像后能夠保證圖像的圓潤(rùn)性,且能夠有效避免出現(xiàn)圖像紋理斷裂的問(wèn)題,時(shí)間復(fù)雜度較低,鑒于SPTA算法的眾多優(yōu)勢(shì),本文選此方法來(lái)對(duì)得到的目標(biāo)區(qū)域邊緣圖像進(jìn)行邊緣細(xì)化處理。具體來(lái)說(shuō),使用窗口模式來(lái)掃描目標(biāo)區(qū)域邊緣圖像的所有像素,按照一定的規(guī)則計(jì)算像素點(diǎn)鄰域,之后在橫向和縱向上對(duì)像素點(diǎn)進(jìn)行檢測(cè),判斷出可能要?jiǎng)h除的像素點(diǎn)和安全像素點(diǎn),以此來(lái)實(shí)現(xiàn)對(duì)目標(biāo)區(qū)域邊緣圖像的細(xì)化處理。
3.2 候選文本區(qū)域融合
經(jīng)過(guò)上述步驟得到的圖像邊緣連通性優(yōu)良,邊緣清晰、圓潤(rùn),但需要注意的是,在提取圖像邊緣集的過(guò)程中,一些與圖像文本相似的、有著一定規(guī)則性的背景物體被保留了下來(lái),為了保證郵件圖像關(guān)鍵文字的提取效果,需要對(duì)這些背景圖像即非文本區(qū)域進(jìn)行去除,去除干擾。具體步驟如下:①以顏色視覺(jué)特征為依據(jù),對(duì)圖像區(qū)域進(jìn)行聚類處理;②使用小波變換方法,分解分布特征近似的區(qū)域圖像,以此來(lái)實(shí)現(xiàn)后續(xù)處理工作的簡(jiǎn)化;③構(gòu)造區(qū)域能量圖像,利用文字方向投影斷層檢測(cè)算法,對(duì)文字塊進(jìn)行構(gòu)建,從而實(shí)現(xiàn)對(duì)非文本區(qū)域進(jìn)行去除。
3.3 驗(yàn)證候選文本區(qū)域融合
融合圖像候選文本區(qū)域之后,能夠?qū)ξ淖址较蜻M(jìn)行明確,并取出文字重疊部分,之后的工作需要分離候選文本區(qū)域中的文本區(qū)域和非文本區(qū)域。本文選用支持向量機(jī)SVM分類方法,實(shí)現(xiàn)相應(yīng)特征的分類,以此來(lái)識(shí)別并獲取圖像中的文本區(qū)域。
在采用檢測(cè)算法處理圖像之后,能夠識(shí)別和篩選出圖像中的文本區(qū)域,但需要注意的是,要想通過(guò)OCR軟件對(duì)圖像中的文字進(jìn)行處理,需要對(duì)圖像進(jìn)行二值化處理,而二值化處理的過(guò)程中會(huì)受到背景圖像的影響,容易引入噪聲,影響文本的識(shí)別率,因此,在二值化處理圖像完成后進(jìn)行圖像去噪是十分必要的。以小波變換為基礎(chǔ)的去噪方法十分有效,能夠保證原始圖像紋理細(xì)節(jié)的完整性,不會(huì)對(duì)邊緣輪廓造成破壞。在識(shí)別的過(guò)程中,將文字壁畫特征圖算法和圖像文本顏色層算法結(jié)合,通過(guò)組合過(guò)濾的方式來(lái)保證獲取二值化圖像的高質(zhì)量。
根據(jù)上述步驟來(lái)提取圖像中的文本信息之后,將文本信息與事先構(gòu)造詞庫(kù)中的敏感詞進(jìn)行比對(duì),確定圖像型垃圾郵件的類別。選用來(lái)自于Spam Archive數(shù)據(jù)集中的訓(xùn)練樣本與測(cè)試樣本,采用基于ORC的圖像型垃圾郵件過(guò)濾系統(tǒng)進(jìn)行實(shí)驗(yàn)。以谷歌OCR開(kāi)源代碼為基礎(chǔ),在相關(guān)軟件環(huán)境下調(diào)試來(lái)生成可執(zhí)行文件,獲取文本信息后將提取結(jié)果在一個(gè)文件中保存。
其中廣告類圖像型垃圾郵件共有200幅,涉嫌違法類圖像型垃圾郵件共有200幅,分別為票證類郵件圖像100幅,色情類郵件圖像50幅,反動(dòng)類郵件圖像50幅,具體過(guò)濾實(shí)驗(yàn)結(jié)果如表1所示: