曾凡鋒 段漾波
(北方工業(yè)大學計算機學院 北京 100144)
?
一種復雜版面扭曲文檔圖像快速校正方法
曾凡鋒段漾波
(北方工業(yè)大學計算機學院北京 100144)
摘要在對復雜版面扭曲文檔圖像進行OCR識別時,識別率較低。針對這類文檔圖像提出一種基于形態(tài)學文本行定位的扭曲校正方法。首先根據(jù)形態(tài)學特征在復雜版面中定位文本行,區(qū)分處理文字區(qū)域和非文字區(qū)域,利用文本行信息提取文本線;再以文本線為基準利用窗口掃描法進行文字行校正,最終重構(gòu)圖像。實驗結(jié)果表明,該方法校正效果明顯,對于復雜版面的扭曲文檔圖像有較好的校正效果,校正后識別率大幅度提高。
關(guān)鍵詞復雜版面扭曲文檔形態(tài)學組件窗口掃描校正
0引言
在圖像的采集過程中,由于受到紙質(zhì)文檔自身幾何形狀和拍攝角度的影響,采集到的圖像可能發(fā)生扭曲,而文檔圖像的扭曲將嚴重影響到OCR識別的效果。當文檔圖像是圖文混排等復雜版面的情況時,將進一步影響到OCR識別。這就需要對復雜版面文檔圖像進行有效的校正。近年來,國內(nèi)外對扭曲圖像校正技術(shù)的研究在日趨增加,但目前大部分的研究主要針對于純文本的圖像,對圖文混排類的復雜版面文檔圖像的扭曲校正研究較少。對純文本扭曲圖像的校正方法主要分為基于3D模型的校正技術(shù)和基于2D的圖像處理技術(shù),其中基于2D的校正技術(shù)有很好的實用性和易推廣性?;?D的校正技術(shù)主要包括:1) 基于連通域的處理[1-3],這種方法有很好的校正效果,然而由于處理精度較高,對復雜版面敏感度較高,校正效率有待進一步提高。2) 基于文本線的處理[4,5],這類方法要很高的校正效率,但由于是從整體文本行入手,因此校正精度有細節(jié)上的損失,且對復雜版面的文檔圖像同樣不適用。3) 基于模型的校正方法,該方法可以對含有表格等非文字的文檔圖像進行檢測校正,但其校正粒度較為粗糙,效果欠佳。
通過以上分析總結(jié),各種校正方法各有特點,但應用到復雜版面文檔圖像時都不易獲得理想的校正效果,其原因在于復雜版面中的非文字元素影響了各種校正方法中的處理步驟。因此如何在復雜版面上進行有效的校正成為關(guān)鍵所在。本文針對復雜版面的扭曲文檔圖像提出一種基于組件分析的文本線校正方法,實現(xiàn)了對圖像中的文字區(qū)域和非文字區(qū)域的有效區(qū)分,進而精準定位扭曲文本行,最后基于窗口掃描的方法以文本線為基準校正圖像。該方法解決了對復雜版面扭曲圖像的有效校正,并兼顧效率與校正精度。
1復雜版面扭曲文檔圖像特征及校正分析
在獲取圖像的過程中,相機位置及書籍的擺放,都可能使獲得的圖像發(fā)生扭曲,如圖1所示。
圖1 復雜版面扭曲文檔示意圖
在純文本文檔圖像扭曲的情況下,識別率將會大大降低;而在復雜版面的扭曲的情況下,識別率將進一步降低,甚至無法識別。在這種情況下,文字和非文字混合排入圖像中,對扭曲圖像的處理難度將進一步增加。文獻[6]在提出一種基于連通域的提取文檔圖像中的復選框組件的方法,但無法對文檔圖像中的圖像元素進行處理。在對文本行進行扭曲校正之前,必須排除非文字區(qū)域的影響。為了提高識別精度,最終也需要剔除非文字區(qū)域,保留純文本。這是本文所選用的處理思想。
2基于組件分析的扭曲校正算法
對于復雜版面扭曲文檔圖像,扭曲校正的重點是文本行的定位。本文就此提出一種基于形態(tài)學組件分析的校正方法。算法實現(xiàn)均采用C++編程語言。解決方案流程如圖2所示。
圖2 本文解決方案流程圖
2.1圖像預處理
圖像預處理包括兩個步驟:灰度化和二值化?;叶然菍⒕哂蠷,G,B分量的真彩色圖像轉(zhuǎn)換為灰度圖像。具體轉(zhuǎn)換規(guī)則采用以下公式:
I=0.11R+0.59G+0.3B
(1)
灰度化處理后需要將圖像轉(zhuǎn)為二值圖像,即只包括背景色和前景色的圖像。傳統(tǒng)的二值化方法較多,如雙峰法、大津法(OTSU)、Niblack法等。由于在光照均勻的情況下大津法可以很好地處理本文的研究圖像,得到效果較好的二值圖像,因此本文在研究中選用大津法進行處理。預處理后的圖像如圖3所示。
圖3 二值化
2.28-鄰域填充目標像素
對目標像素進行8-鄰域填充是為了更好地進行形態(tài)學組件分析[7]。由于文字筆畫有的地方較細,有可能出現(xiàn)斷筆等情況,在進行形態(tài)學分析時可能導致精確度不高。而8-鄰域填充可以使文字變得更飽滿,充實筆畫,提高形態(tài)學組件分析的精確度。
目標像素的8-鄰域示意如圖4所示。
圖4 8-鄰域像素圖
具體填充規(guī)則如下:
(1) 對任意一個目標像素點T,掃描其8-鄰域的像素值,分別記為E1,E2,E3,E4,E5,E6,E7,E8。
(2) 由式(2)判斷其鄰域內(nèi)是否有空白列或行。
α=(E1&&E2&&E3)‖(E3&&E5&&E8)‖(E6&&E7&&E8)
(2)
若α為1,則目標像素為外部點,不予處理;若α為0,則為內(nèi)部點,對其8-鄰域像素進行置黑操作。
(3) 判斷若無置黑操作則退出,否則重復(1)、(2)。
8-鄰域填充的局部效果如圖5所示。
圖5 8-鄰域填充效果
2.3形態(tài)學組件分析
對于圖像的版面分析,文獻[8]提出了一種基于K-means的聚類分析算法,通過對圖像像素進行聚類分析將圖像內(nèi)容分類。但是,這種方法的效率有限,在處理文字圖像時體現(xiàn)不出其優(yōu)越性,因此本文在版面分析算法上主要參考基于形態(tài)學組件的分析方法。
形態(tài)學組件分析的目的在于區(qū)分出圖像中的文字行區(qū)域和非文字區(qū)域。采用以下步驟進行組件分析:
(1) 掃描圖像,統(tǒng)計圖像中的基本元素。
(2) 根據(jù)各元素的形態(tài)學特征區(qū)分為不同的組件。
(3) 提取文本行組件,并對其進行去噪修正。
由于在復雜版面的文檔圖像的識別中,關(guān)鍵在于定位文本區(qū)域信息。區(qū)分文字區(qū)域和非文字區(qū)域只要考慮各個組件的形態(tài)學特征即可[9,10]。因此,在掃描完圖像得到圖像各個組件后,分別計算其形態(tài)學特征,本文主要采用計算各組件的形態(tài)學高度和寬度來區(qū)分區(qū)域。計算規(guī)則如下:
用C表示組件元素集合:
C={c1,c2,c3,…,cn}
在編程實現(xiàn)中,首先定義結(jié)構(gòu)體Component,用來保存各個組件的信息。結(jié)構(gòu)體中包含組件的寬度、高度以及編號信息。統(tǒng)計每個組件的形態(tài)學寬度和高度,分別用集合H和W表示:
H={h1,h2,h3,…,hn}
W={w1,w2,w3,…,wn}
并由式(3)、式(4)計算組件的平均高度和平均寬度:
(3)
(4)
由經(jīng)驗值可知計算出來的平均高度可以視為文檔圖像中文本行組件的近似平均高度。所以,在所有組件元素中,其形態(tài)學特征明顯不同于平均特征的組件被視為非文字行組件。對這些組件進行標注。對于文本行組件則進行編號記錄,并存儲這些文本行組件的坐標信息。本文采用一種基于組件邊界屬性的合并方法[9]。具體步驟如下:
第一步由組件分析的結(jié)果將文字組件按照以下規(guī)則合并文本行組件;
用left,right,top,bottom,width,height分別表示組件的左右上下邊界如果max(right1,right2)-min(left1,left2) left=min(left1 ,left2) right=max(right1 ,right2) top=min(top1 ,top2) bottom=max(bottom1 ,bottom2) 組件合并之后的初始狀態(tài)下, 各文字組件都處于屬性未定狀態(tài)。修正文本行組件的過程就是采用一種漸近的過程, 首先,根據(jù)組件的寬度和高度形態(tài)學特征,區(qū)分為文字和非文字;然后,把屬性已經(jīng)統(tǒng)計為文字的各組件按照它們的間距從小到大的順序加以逐步合并。在這一合并過程中, 只有屬性未定組件將被處理。該過程最終將各個文字組件合并成為文本行。 第二步對文本行組件進行修正,對于不連續(xù)的文本行進行不同編號標記。 對上一步中合并出來的文本行進行水平膨脹,這樣處理的目的是為了快速統(tǒng)計各個文本行,并對各個文本行進行編號。 第三步記錄所有文本行位置信息。 利用上一步中水平膨脹后的文本行可以準確地標記各個文本行在圖像中的坐標位置。對所有文本行進行標記,以進行下一步處理。 2.4提取文本線 組件分析完成后,由于對非文本元素進行了標注,因此,可以對文本行組件進行文本線的提取。具體的提取方法為:提取每個文字行組件的中心點,將這些中心點組成文本線,保存這些文本線的坐標信息。 提取文本線的效果如圖6所示。 圖6 提取文本線 2.5窗口掃描校正 圖7 窗口掃描校正流程圖 已有的文獻的研究方法中,一種校正方法是先對文本線進行擬合,再進行幾何變換來重構(gòu)文本行;另一種方法是先將文字切分,再通過移動單個文字到正確位置來重構(gòu)文本行。本文提出一種兼顧兩種方法優(yōu)點的重構(gòu)文本行方法,即以適當大小的窗口為單位掃描文本線,對目標像素進行位置變換,來達到重構(gòu)文本行。本方法相比于完全的文本線擬合重構(gòu)方法提高了效率,相比于以文字為單位重構(gòu)方法又可以更好地保留文本行細節(jié)。 利用已經(jīng)獲得的文本行平均高度,以及文本線位置信息,以文本線為基準,以一定大小的窗口對文本行進行扭曲校正。窗口掃描的程序流程如圖7所示。 第一步設定掃描窗口大小,對于文檔圖像來說,其中的文本信息除去標題等少數(shù)特殊文本之外,其余文本的特征基本統(tǒng)一。所以,在設定掃描窗口大小時可以以文本行的平均高度為參照。本文選定的窗口大小遵照以下規(guī)則: 用window_H表示窗口高度,用window_W表示窗口寬度,其大小分別按式(5)、式(6): (5) (6) 第二步選取每條文本線的中點作為掃描起點,首先記錄掃描起點的高度坐標,分別向左向右移動窗口,每移動一次,記錄此次窗口內(nèi)文本線中點的高度,并計算其與掃描起點的高度差,記此高度差為windowGap,然后對于每一條文本線設置一個保存高度差的數(shù)組Height_Gapn(n為文本線編號),將每個窗口相應的高度差windowGap記錄在這個數(shù)組中。掃描過程如圖8所示。 圖8 窗口掃描 第三步根據(jù)高度差數(shù)組中的數(shù)據(jù)文本行進行重構(gòu)。在經(jīng)過組件分析后的圖像中,文本行已經(jīng)定位,因此在這一步中,對于每一條文本行,利用掃描文本線所得出的高度差結(jié)果,同樣從文本行的中點處開始向兩邊分別移動窗口,在窗口內(nèi)的目標像素統(tǒng)一移動其相應的窗口高度差windowGap,直至掃描移動完成當前文本行。對每一條文本行執(zhí)行上述過程,直至全部文本行完成。這時,圖像的所有文本行已經(jīng)完成校正。其校正效果如圖9所示。 圖9 文本行重構(gòu)效果 3方法測試及實驗結(jié)果分析 3.1測試環(huán)境 本實驗在VS2005開發(fā)環(huán)境下采用C++語言實現(xiàn)。測試環(huán)境為:Inter(R)Core(TM) 2DuoCPUE7400 @2.80GHz;內(nèi)存2GB;操作系統(tǒng)為Windows7。實驗樣張取自16開普通中文書本,共對100張樣張進行測試。拍攝攝像頭像素為500W像素。使用漢王OCR文字識別軟件進行文字識別。 圖像的獲取均在光照均勻的環(huán)境下進行,本文校正方法忽略噪聲的干擾。圖像數(shù)據(jù)為:24位真彩圖像,大小為1944×2592像素。本文算法主要是針對橫排的文檔圖像進行研究的,圖像的版面特征主要是文檔圖像中混入了圖像,簡單圖形(如線條)以及表格線等非文字元素,對這些文檔圖像均能進行有效的扭曲校正。對于任意復雜的版面,本文方法還不能有效處理,有待改進。 3.2校正效果對比 實驗結(jié)果如圖10所示, 圖10為文獻[3]方法校正結(jié)果,圖11為本文方法校正結(jié)果??梢钥闯?,對于復雜版面的文檔圖像,文獻[3]的校正效果明顯較差,不但沒有排除非文字元素的干擾,而且有的文字行已經(jīng)損失,識別率也會因此大大降低。而本文的算法進行校正的效果明顯,且已經(jīng)剔除非文本元素的干擾,這樣可以較高地提升識別率。相比于文獻[11,12]中所提出的相應校正算法,較之本文提出的算法都有明顯不足。在所有進行測試的樣張中,只有3張的校正效果不是很理想,其余的樣張在校正后不論是可識別字符數(shù)還是識別率都有大幅度提升,其中識別率可達95%以上。對實驗結(jié)果進行統(tǒng)計分析,其結(jié)果如表1所示。 圖10 文獻[3]校正效果 圖11 本文校正效果 原始樣張文獻[3]本文方法校正耗時(ms)920886校正前后平均識別率67.1%86.4%95.4%校正前后平均可識別字符數(shù)(個)603803900 由于本文所提的方法首先需要對文檔的版面進行分析以確定文本行,所以相對于已有的基于文本線擬合的方法在時間效率上的提升并不是很明顯,但是在校正精確度和校正后識別率以及可識別字符數(shù)上都有明顯優(yōu)勢。對于這種復雜版面的文檔圖像大多數(shù)已有的校正方法的校正效果很差,甚至無法校正。本文方法相比于基于連通域文字分割的校正方法就有著較為明顯的效率優(yōu)勢。其中所測試的樣張中平均識別率可以達到95%以上,而可識別字符也比其他方法明顯多出。同時本文方法有較強的魯棒性,對于不同的復雜版面都能有較好的校正效果。 4結(jié)語 本文針對復雜版面扭曲文檔圖像進行研究,提出基于組件 的窗口掃描校正方法。首先通過形態(tài)學特征對文檔內(nèi)容進行組件分析,確定文本行;然后提取文本線,最后以文本線為基準,以適當大小窗口掃描校正文本行。該方法能在900毫秒內(nèi)校正1944×2592像素的圖像,而且校正效果良好,其校正后的OCR識別率可以達到95%以上。經(jīng)過進一步測試,對于復雜版面的英文文檔圖像也可以準確進行校正。本文方法在本實驗室開發(fā)的智能閱讀機進行了應用,無需人工干涉的情況下已能實現(xiàn)復雜版面扭曲文檔圖像的快速校正,校正后的實時識別率能達到95%。因此,本文提出的方法可以推廣到實時文字圖像識別系統(tǒng)中進行應用。 參考文獻 [1]LiuHong,YeLu.AmethodrestoreChinesewarpeddocumentimagesbasedonbindingcharactersandbuildingcurvedlines[C]//InternationalConferenceonSystems,ManandCybernetics:ICSMC2009:2009:989-993. [2]LiZhang,YipAndyM,BrownMichaelS,etal.Aunifiedframeworkfordocumentrestorationusinginpaintingandshape-from-shading[J].PatternRecognition,2009,42(11):2961-2978. [3] 宋麗麗,吳亞東,孫波.改進的文檔圖像扭曲校正方法[J].計算機工程,2011,37(1):204-206. [4] 張偉業(yè),趙群飛.讀書機器人的版面分析及文字圖像預處理算法[J].微型電腦應用,2011,27(1):58-61. [5]LiuHong,DingRunwei.InternationalConferenceonSystemsManandCybernetics[C]//ICSMC2009:RestoringChinesewarpeddocumentimagesbasedontextboundarylines,2009. [6]ZhangShengnan,YuanShanlei,NiuLianqiang.AutomaticRecognitionMethodforCheckboxinDataFormImage[C]//SixthInternationalConferenceonMeasuringTechnologyandMechatronicsAutomation,2014:159-162. [7] 于明,郭僉,王棟壯.改進的基于連通域的版面分割方法[J].計算機工程與應用,2013,49(17):195-198. [8]HamedBehin,AfshinEbrahimi,SepidehEbrahimi.IncorporatedPreprocessingandPhysicalLayoutAnalysisofaBinaryDocumentImageUsingaTwoStageClassification[C]//InternationalConferenceonComputerandCommunicationEngineering:ICCCE2010:2010. [9] 付蘆靜,錢軍浩,鐘云飛.基于漢字聯(lián)通分量的印刷圖像版面分割方法[J/OL].計算機工程與應用,2013,49(3):4[2013-07-31].http://www.cnki.net/kems/detail/11.2127.TP.20130731.1817.001.html. [10] 石蒙蒙.基于結(jié)構(gòu)化局部邊緣模式的文檔圖像分類[J].廈門大學學報,2013,52(3):349-355. [11]AmirRezaGhods,SaeedMozaffari,FarhadAhmadpanahi.DocumentImageDewarpingusingKinectDepthSensor[C]//21stIranianConference,ElectricalEngineering:ICEE2013:2014:1-6. [12]TongLijing,ZhangGuoliang,PengQuanyao,etal.Warpeddocumentimagemosaicingmethodbasedoninflectionpointdetectionandregistration,InternationalConferenceonMultimediaInformationNetworkingandSecurityMINES2012:November2-4,2012[C]//Nanjing,2012:306-310. A FAST CORRECTION METHOD FOR WARPED DOCUMENT IMAGESINCOMPLEXLAYOUT Zeng FanfengDuan Yangbo (College of Computer,North China University of Technology,Beijing 100144,China) AbstractThe recognition rate of OCR (optical character recognition) on warped document images in complex layout is relatively low. To solve this problem, we proposed a morphology-based warp correction method with rows of text positioning. First, according the morphological characteristics it locates the rows of text in complex layout to distinguish the text areas from other areas. After that it uses the rows of text information to extract the text lines, and then uses the text lines as the benchmark, employs the window scanning method to correct the rows of text, and finally reconstructs the image. Experimental results demonstrated that this method achieved manifest correction effect. For warped document images in complex layout it gained acceptable correction results, the recognition rate improved significantly after the correction. KeywordsComplex layoutWarped documentMorphologic componentWindows scanning correction 收稿日期:2015-01-08。國家自然科學基金項目(61371142);北京市自然科學基金項目(4132026)。曾凡鋒,副研究員,主研領域:圖像處理,智能識別,系統(tǒng)辨識。段漾波,碩士生。 中圖分類號TP391 文獻標識碼A DOI:10.3969/j.issn.1000-386x.2016.06.042