王鑫 (南開大學(xué) 天津300071)
文字圖像二值化及降噪處理
王鑫 (南開大學(xué) 天津300071)
針對文字圖像進行處理,在分析一些經(jīng)典的圖像二值化和去噪算法基礎(chǔ)上,根據(jù)需處理的文本圖像的特點,提出了各問題的簡化算法。并且分解各處理步驟,將它們的子過程重新安排,進一步提高運行效率。實驗證明,在資源有限的嵌入式系統(tǒng)環(huán)境下,能夠快速完成圖像預(yù)處理,使其文字內(nèi)容在中小尺寸電子紙屏幕上能夠清晰地顯示,有效提高了電子閱讀器對圖像格式文檔內(nèi)容處理能力,增強了該設(shè)備的實用性。
文字圖像處理 降噪 二值化 類紙閱讀 電子閱讀器
學(xué)術(shù)研究等過程中,互聯(lián)網(wǎng)和各種電子數(shù)據(jù)庫是快速獲取文獻的主要途徑。許多年代較舊的出版物沒有電子版本,且一些期刊書籍等由于版權(quán)等問題不提供電子版本,因此各大數(shù)據(jù)庫提供的文獻資料等主要是通過掃描完成數(shù)字化整理。
掃描獲得的文本圖像存在打印體噪聲、文字呈灰色或彩色等問題。在計算機液晶顯示器上,此類問題不會嚴重妨礙閱讀文本內(nèi)容。但對于一些屏幕較小的便攜設(shè)備(如手機、MP4、電子閱讀器等)來說,低質(zhì)量文字圖像是電子文獻閱讀的一大障礙。電子閱讀器采用電子紙屏幕,長時間閱讀可減輕用眼負擔,與電腦相比具有體積小、方便攜帶等優(yōu)勢,是輔助研究學(xué)習(xí)的有力工具。
與液晶顯示器相比,電子閱讀器的屏幕尺寸和灰度級數(shù)都相對有限。由于排版原因,不含信息的頁面邊緣部分大量擠占有限的屏幕資源。為使文字清晰顯示,需要頻繁地放大圖像、移動視窗,會給用戶造成不便。文檔在打印和重新數(shù)字化錄入過程中產(chǎn)生的噪聲會干擾閱讀。一些文檔由于前景文字顏色淺,與背景對比度小,在灰度屏幕上難以辨認。這些問題很大程度上限制了電子閱讀器的應(yīng)用,降低了產(chǎn)品的實用性。
為解決這些問題,需要對文本圖像進行預(yù)處理。預(yù)處理需要在翻頁同時完成,且為了減少翻頁延時給用戶造成的不適感,處理時間需要嚴格限制?,F(xiàn)有的各種圖像處理算法,大多數(shù)基于性能相對強大的工作平臺,通用性強,一定程度上能夠?qū)崿F(xiàn)圖像分割去噪,但通常需經(jīng)過復(fù)雜的計算才能完成處理。在內(nèi)存和處理器資源十分有限的便攜設(shè)備上完成全部計算,需要消耗更多時間。
本文分析了圖像二值化和去噪的一些經(jīng)典算法及它們對嵌入式系統(tǒng)運行環(huán)境的適應(yīng)性,根據(jù)文本圖像的特性提出了簡化的算法,并將各個過程有機地結(jié)合在一起,提高效率,縮短運行時間,快速有效地完成圖像預(yù)處理,使用戶在電子閱讀器上能夠清晰無障礙地閱讀圖像格式的電子文檔。
為了改善顯示效果,需要選取閾值,將圖像二值化,以提高前景背景對比度;切除頁邊空白部分,可使有限的屏幕資源充分用于顯示文本內(nèi)容;去除噪聲,以防止其干擾閱讀。為了兼顧處理效果和運行時間,合理安排這3個過程的順序十分重要。二值化過程可以直接過濾掉一些顏色較淺的噪聲。且該過程求出的閾值是進行后兩個步驟的基礎(chǔ)。另一方面,噪聲會干擾程序?qū)撁孢吘壍呐卸ǎ瑧?yīng)當在判定圖像邊界之前去掉。因此從處理效果角度考慮,合理執(zhí)行順序為方法1(見圖1)。
而分析上述步驟的子過程,發(fā)現(xiàn)存在重復(fù)過程,多次執(zhí)行存取灰度數(shù)據(jù)耗費時間,程序運行效率較低,根據(jù)統(tǒng)籌法改變執(zhí)行順序,合并重復(fù)過程,將降噪處理穿插在其他步驟中完成可以減少數(shù)據(jù)存取過程,節(jié)省時間,即采用方法2(見圖2)。
圖1 方法1
圖2 方法2
上述過程在求邊界值的過程中排除掉噪聲點的干擾,在降噪步驟前完成邊界劃定,不考慮邊界范圍外的像素,減少了識別噪聲過程的計算量。程序執(zhí)行過程中只讀取和存儲全圖灰度數(shù)據(jù)各一次,進一步縮短了運行時間。
二值化方法根據(jù)其運算的范圍不同可分為全局閾值方法和局部閾值方法。[1]全局閾值法根據(jù)文本圖像的直方圖或灰度空間分布確定一個閾值。[2]典型的全局閾值方法包括Ostu方法、最大熵方法等。[3,4]局部閾值法通過定義考察點的鄰域,并由鄰域計算模板實現(xiàn)考察點灰度與鄰域點的比較。
為了簡化運算,節(jié)約時間,本文采用全局閾值方法。
Ostu算法設(shè)閾值將灰度分成了2組,一組對應(yīng)背景部分,一組對應(yīng)字符部分,則這2組灰度值的組內(nèi)方差應(yīng)當最小,2組間方差應(yīng)當最大。具體做法如下:設(shè)給定圖像具有L級灰度值,將1~L分成2組,計算組1的象素數(shù)ω1()k ,平均灰度M1(k ),方差(k );組2的象素數(shù) ω2(k ),平均灰度M2(k),方差(k )則組內(nèi)方差為組間方差為。
實際上,電子閱讀器所處理的圖像格式電子文獻均為白色背景黑色前景,只需采樣統(tǒng)計全頁灰度分布,取前景色與背景色灰度的加權(quán)平均值為閾值進行二值化,即可獲得文字內(nèi)容清晰可辨的圖像,足以滿足用戶閱讀需求。權(quán)值以文字清晰并能去除水印為標準設(shè)定。
目前,圖像降噪理論體系已經(jīng)十分完善,去噪方法大體分為空間域法、變換域法兩大類。空間域法,即在原圖灰度基礎(chǔ)上直接進行數(shù)據(jù)運算,對像素的灰度值進行處理。典型的空間域法包括鄰域均值濾波[5×5鄰域處理效果如圖3(B)]、鄰域中值濾波等方法。[4]鄰域均值濾波即以P的鄰域灰度均值代替P的原灰度值。此類方法能夠去掉一定大小的噪聲,但會造成文字模糊不清,給閱讀造成困難。變換域法多基于傅里葉變換或小波理論,[3,6]雖然可以對圖像起到一定的去噪作用,但算法時間復(fù)雜度很高[低通梯形濾波和維納濾波的時間復(fù)雜度為O(Nlog2N),小波濾波為 O(N2)][7,8],不作考慮。
文字圖像包含的噪聲和一般圖像所含的噪聲不同,多為隨機分布的深色斑點。傳統(tǒng)去噪聲算法多是針對高斯白噪聲等模型設(shè)計,采用變換濾波方式去除噪聲,不適用于文字圖像。
圖3 兩種算法處理效果對比
本文根據(jù)前景像素灰度分布識別噪聲點后直接去除,局部效果如圖 3(C)。
計算時,可根據(jù)需要決定檢測柵格數(shù),或者改變檢測窗口形狀(十字窗等)。實驗表明,針對整頁占800×1 200像素,每個字體占20×20左右的文本圖像,考慮5×5窗格降噪效果最佳,3×3無法去除掉多像素噪點,7×7會把英文字符中的點誤認為噪聲。這種檢測方法從形態(tài)上過濾出噪聲,直接有效且計算復(fù)雜度小,但也有其局限性,它無法完全去除較大噪聲。
本文采用簡化的閾值分割方法切除頁邊空白部分。根據(jù)一般出版物或文檔排版規(guī)律,由內(nèi)向外讀取像素灰度值,找到文字內(nèi)容的邊緣。取得4個邊界值。以求上邊界為例,程序如下:
使用相同方法求出其他三邊界,根據(jù)原始圖像在四邊界范圍內(nèi)的灰度數(shù)據(jù)繪制出新位圖。
為了驗證本文算法,選用QT4.5編寫程序,編譯器:Arm-linux-gnueabi-g++4.3.2。運行環(huán)境為:CPU:Samsung 2416 based Arm9 400 MHz;Operating System:Linux OS 2.6.29;內(nèi)存SDRAM:128 MB。為提高效率,全部計算和處理都在內(nèi)存中完成。
從大量處理對象中選出存在典型問題的位圖A為實驗對象。原圖為圖4(A),處理結(jié)果如圖4(A1),在6 Inches 600x800像素16級灰度電子紙屏幕上顯示,與(A)相比,(A1)字體大而清晰,去除掉了水印以及多余的邊緣部分,且消除了噪聲,改善了文本圖像在電子閱讀器上的顯示效果。降噪處理局部放大效果見圖3(C)。
圖4 處理結(jié)果對比
方法1由于重復(fù)過程較多,耗時較長。方法2進行了優(yōu)化,提高了處理速度。24位圖像數(shù)據(jù)結(jié)構(gòu)與彩色圖像相似,此格式與8位圖像相比較為少見,每個像素灰度數(shù)據(jù)用3個整數(shù)記錄,需要通過計算3個整數(shù)獲得,運行耗時長。對一般下載得到的圖像格式文檔(如pdf等)化為8位位圖進行處理,本文程序均可在1 s之內(nèi)完成處理,翻頁時基本不會給用戶帶來不適感。目前,本文程序已在國內(nèi)某型號電子閱讀器商業(yè)產(chǎn)品上得到應(yīng)用,有效改善了該產(chǎn)品對部分格式電子書的閱讀效果?!?/p>
[1]潘梅森,榮秋生.基于SOFM神經(jīng)網(wǎng)絡(luò)的圖像融合二值化方法[J].光學(xué)精密工程,2007.15(3):401-406.
[2]張爝,吳志斌,陳淑珍,等.一種新的自適應(yīng)二值化方法[J].計算機工程,2002,28(5):184-185.
[3]喬萬波,曹銀杰.一種改進的灰度圖像二值化方法[J].電子科技,2008,21(11):63-71.
[4]方敏,徐俊艷,王建平,等.一種新的文本圖像二值化方法[J].合肥工業(yè)大學(xué)學(xué)報,2001,24(2):166-169.
[5]韓殿元.簡單鄰域平均圖像去噪算法的改進研究[J].濰坊學(xué)院學(xué)報,2006,6(6):12-14.
[6]彭波,王一鳴.低照度圖像去噪算法的研究與實現(xiàn)[J].計算機應(yīng)用,2007,27(6):1455-1457.
[7]何斌,馬天予,王運堅,等.Visual c++數(shù)字圖像處理[M].北京:人民郵電出版社,2001.
[8]楊文杰.文字圖像邊界檢測和去噪處理[J].北京印刷學(xué)院學(xué)報,2000,8(3):36-39.
[9]陳武凡.小波分析及其在圖像處理中的應(yīng)用[M].北京:科學(xué)出版社,2002.
2010-11-08