付蘆靜,錢軍浩,鐘云飛
文字具有較強的指示性同時也包含重要的語意信息,如書刊封面文字、報紙文字、產(chǎn)品包裝上的文字等等,這些文字對于包裝產(chǎn)品消費者以及書刊、報紙閱讀者具有重要價值,如果存在文字印刷質(zhì)量缺陷,將對書刊、報紙以及包裝產(chǎn)品帶來不可估量的損失。然而,傳統(tǒng)印刷質(zhì)量檢測以色差作為最主要的檢測標準,并沒有單獨對文字印刷質(zhì)量進行檢測。而在印刷生產(chǎn)過程中,文字經(jīng)常出現(xiàn)筆畫殘缺、白點、斷筆、邊緣不清等缺陷,而色差標準并不能檢測出這些缺陷。因此,通過版面分割提取印刷圖像中的文字并對文字進行印刷缺陷檢測,對于提高和完善文字印刷質(zhì)量檢測以及實現(xiàn)印刷質(zhì)量在線檢測具有理論意義和實用價值。
文字定位方法可以分為基于紋理和基于區(qū)域兩大類?;诩y理[1-3]的方法將圖像中的文字視為一種特殊的紋理,利用Gabor濾波器、Adaboost分類器和小波等紋理分析工具實現(xiàn)文字定位,它受噪聲的干擾波動小,具有較好的魯棒性。但是算法所需的定位時間長,對于大字符和文本較少的區(qū)域定位精度不高?;趨^(qū)域的方法又可以分為基于連通域[4-6]和基于邊緣[7]兩種。基于連通域的方法是假設(shè)文字在同一區(qū)域內(nèi)的顏色和亮度相似,且與背景顏色差較大,通過分析、提取文字的連通分量實現(xiàn)文本定位,算法的定位精度優(yōu)于紋理方法。但是連通域方法容易將單個字符分割成多個連通分量,尤其是中文字符需要根據(jù)連通分量的排列屬性合并文本區(qū)域,增加了算法的復(fù)雜度。同時基于邊緣的方法易受噪聲干擾,當背景與文本之間的對比度較低時很難實現(xiàn)文本定位。Chen等[8-9]提出一個知識型文本行提取系統(tǒng),實現(xiàn)了在文本/圖形的復(fù)合文檔圖像中提取文字。利用多層分割技術(shù),將文檔圖像劃分成不同的層,使同類對象處于相同層中,再運用以知識為基礎(chǔ)的文本行提取方法在各層中獲取文本行特性,根據(jù)文本行的幾何和統(tǒng)計特性編碼知識庫實現(xiàn)文本行提取。閔華清等[10]和孫巧榆等[11]根據(jù)文本在圖像中局部區(qū)域具有的顯著性特點,構(gòu)建一個視覺顯著性模型,并提出一個融合該模型與邊緣信息的文本檢測方法,但該方法只能對已確定候選文本區(qū)域的文本圖像進行檢測。Jung等[12]針對邊緣、角點、紋理等方法不能魯棒的在視頻圖像中定位文本,提出利用筆畫算子濾波器對文本區(qū)域進行定位。通過筆畫算子濾波器去除候選文本中具有較強邊緣的非文本區(qū)域,提高了文本定位算法的魯棒性。目前,所提出的大部分文字定位算法對文本的多樣性都具有一定的魯棒性,但都是在對文本大小、字體、顏色等特性在不同程度上進行限定和假設(shè)取得的,仍沒有一個文本定位算法能夠不受文本的大小、排列方式、字體、顏色等變化影響。
根據(jù)漢字字符特征及其連通分量屬性,提出一種基于漢字連通分量的彩色印刷圖像版面分割方法。針對單個漢字存在多個連通分量特點,根據(jù)漢字結(jié)構(gòu)特征和連通分量屬性,合并和重建單個漢字連通分量,提高單個漢字連通分量的完整性,克服連通分量文字分割方法不能準確分割和提取漢字缺點,提高了不同字體、字號、顏色漢字的分割準確率。
在連通域文字分割方法中,主要根據(jù)文字連通分量特性篩選、去除非文字連通分量。因此,連通分量的相關(guān)特征屬性分析和判斷成為算法的關(guān)鍵。在各顏色層的圖像中,如果相鄰兩個像素的灰度值相同則它們便是連通的。根據(jù)八鄰域連通原則對連通分量進行分析,利用連通分量所有邊緣點最小外接矩形作為其邊界,文字連通分量標記圖如圖1所示。
圖1 連通分量矩形標記圖
在每個連通分量中,它都具有一些基本特征和組合特征,連通分量的特征屬性[13]如表1所示。
表1 CCi特征屬性
在CCi特征屬性中,一些非字符CCi是不具備以上屬性的,可以依此對連通分量進行篩選。在CCi基本特征中,CCi像素數(shù)、面積屬性可以用來篩選太小或太大的非字符連通分量。而CCi占空比和長寬比表明字符不可能占有整個連通分量外接矩形區(qū)域,依此判斷連通分量是否為字符。另外,如果輸入圖像出現(xiàn)傾斜偏移,由于傾斜會導(dǎo)致CCi屬性發(fā)生變化,因此需要對圖像進行校正處理。
根據(jù)文字連通分量的特性,單個漢字字符可能包含一個或多個連通分量,而英文字符(除i,j外)和數(shù)字則都是一個完整的連通分量,如圖1中所示。而在單個漢字包含的連通分量中,有些連通分量只是字符的一部分,其特性與非字符相似,容易將其作為非字符濾除,影響文字分割。同時,連通分量過多會造成文字提取不完整,且影響分割速度和精度。因此,根據(jù)漢字結(jié)構(gòu)特性及其使用頻率,對漢字連通分量進行合并重建,重建規(guī)則如表2所示。
表2 漢字連通分量合并重建規(guī)則
漢字連通分量合并的基本思想是通過判斷相鄰兩個連通分量外接矩形是否發(fā)生重疊,再根據(jù)重疊面積的大小并結(jié)合外接矩形的長寬比例和矩形中心距離合并連通分量。overlap,detax,detay,rateWi,rateHi意義如下:
根據(jù)以上漢字連通分量重建規(guī)則,漢字連通分量重建結(jié)果如圖2所示。
圖2 連通分量重建后標記圖
印刷圖像版面分割過程如圖3所示。利用金字塔變換逆半調(diào)算法對圖像進行預(yù)處理,去除圖像噪聲和半色調(diào)網(wǎng)點噪聲干擾。通過顏色采樣得到初步顏色聚類中心,對顏色中心采用有限起始點均值偏移算法進行顏色分割,然后按八鄰域連通原則標記像素得到連通分量,根據(jù)漢字結(jié)構(gòu)特征和連通分量屬性,分析、篩選、重建漢字連通分量。最后分析連通分量連接關(guān)系,確定文字排列方向,實現(xiàn)文字分割和提取。
圖像在獲取、傳輸過程中,會受到各種干擾產(chǎn)生噪聲。同時由于印刷圖像是由網(wǎng)點組成的半色調(diào)圖像,不能對其直接處理,需要進行逆半調(diào)預(yù)處理,將其恢復(fù)成連續(xù)調(diào)圖像。金字塔變換結(jié)合中值濾波的逆半調(diào)算法對半色調(diào)網(wǎng)點噪聲具有很強的魯棒性,利用金字塔變換實現(xiàn)細節(jié)圖像和近似圖像分離,能夠在去除網(wǎng)點噪聲的同時最大程度保留圖像邊緣細節(jié)信息。金字塔變換逆半調(diào)算法[14]如圖4所示。
圖3 文字分割方法示意圖
圖4 逆半調(diào)算法示意圖
算法不會使近似圖像受到同等程度濾波處理而使得圖像模糊和邊緣損失,能夠最大程度地還原圖像,同時去除網(wǎng)點噪聲。
根據(jù)彩色印刷圖像在色彩空間的特征維數(shù),利用均值偏移(mean shift)方法反復(fù)迭代搜索特征空間中樣本點最密集區(qū)域[15],實現(xiàn)圖像顏色分割。為了減少圖像顏色數(shù)量和保證被選取顏色為物體內(nèi)部像素顏色,同時加快mean shift的收斂速度,對圖像實施局部梯度最小顏色采樣。利用水平方向和垂直方向Sobel算子檢測彩色圖像邊緣強度,根據(jù)局部邊緣強度值確定候選顏色,形成初步顏色聚類中心。以候選顏色中心作為mean shift起點,采用不同的帶寬核函數(shù)循環(huán)迭代,直到最終收斂[16]。
Mean shift的概率密度函數(shù)可以表示為:
其中,和表示色彩和空域窗口帶寬系數(shù),C為歸一化常數(shù)。本文選擇高斯核函數(shù)作為mean shift的核函數(shù),同時在帶寬矩陣計算中,選擇自適應(yīng)帶寬計算方法[17]確定均值偏移的帶寬。
顏色分割后,在各顏色層二值圖像中,根據(jù)八鄰域連通原則標記像素點形成連通分量,以外接矩形作為連通分量的邊界。利用連通分量的屬性特征,對所有連通分量進行分析、篩選,去除明顯的非字符連通分量。在保留下來的連通分量中,計算與其相鄰?fù)饨泳匦芜吙虻闹丿B值,根據(jù)表2漢字連通分量重建規(guī)則對連通分量進行合并,進一步減少連通分量數(shù)目和提升文字連通分量完整性,加快文字分割速度。
漢字連通分量重建后,根據(jù)連通分量位置關(guān)系,判斷每個區(qū)域連通分量與相鄰其他連通分量的連接關(guān)系,計算連通分量在水平和垂直方向上的總疊加值,并依據(jù)疊加值確定連通分量的排列屬性。連通分量位置關(guān)系判斷式[13]如下:
如果HBD<0|VBD<0,則CCi在水平或垂直方向存在重疊。如果相鄰連通分量存在重疊,則連接相鄰兩個連通分量。而部分連通分量既在水平方向上有重疊,在垂直方向也有重疊。為了確定文字排列方向,根據(jù)式(11)對文字排列方向進行分析判斷:
取T0=2.0,LinkLogcal=1表示文字為水平排列,LinkLogcal=2表示文字為垂直排列。
為了檢驗本方法的性能,選擇彩色印刷圖像集和ICDAR2003數(shù)據(jù)集對算法進行測試,彩色印刷圖像集為自選圖像,包含各種書刊封面和藥品包裝圖像。
在均值偏移顏色分割中,需要確定兩個帶寬參數(shù)hs和hr。如果帶寬參數(shù)過小,則圖像分割效果不明顯,而如果參數(shù)過大,則會出現(xiàn)過分割現(xiàn)象,出現(xiàn)背景顏色覆蓋細小文字部分。不同帶寬參數(shù)的實驗結(jié)果如表3所示。
表3 均值偏移實驗結(jié)果
從實驗結(jié)果可以知道,文字定位時間在很大程度上取決于帶寬的大小。因為彩色印刷圖像的色彩十分豐富,如果選擇小帶寬,分割后顏色數(shù)量多,而文字定位需要在各顏色層中篩選、定位文字連通分量,導(dǎo)致算法時間消耗大。而如果帶寬過大,雖然加快了文字定位速度,但會出現(xiàn)過分割現(xiàn)象,導(dǎo)致細小文字區(qū)域丟失,文字定位不完整。因此,在綜合算法時間和定位精度后,取hs=32,hr=48。
根據(jù)3.4節(jié)的文字連通分量連接判定規(guī)則,連接相鄰CCi確定文字排列方向,實驗結(jié)果如圖5所示。
圖5 文字CCi連接圖
根據(jù)判定規(guī)則,在CCi的連接中,任何一個有效的CCi連接必須是雙向的,即相鄰的兩個CCi必須出現(xiàn)在對方的CCi連接中,所有的單向CCi連接都是無效連接,依次得到CCi排列方向,實現(xiàn)文字定位分割。
在本文算法性能評價中,選擇在文本塊級別上進行,因為分割后的文本并不用于識別。采用這樣評價方法對算法具有更大的寬容度,它允許算法檢測到部分的文本行,這對于文本檢測而言是可以接受的。評價指標[3,11]如下所示:
其中,R為召回率,P為精確度,f為整體性能指標,MDR為漏檢率。ADB表示文檔真實文本塊,TDB表示檢測到文本塊,F(xiàn)DB表示檢測錯誤文本塊,MDB表示不完整檢測文本塊。表4為彩色印刷圖像集對算法評價結(jié)果,表5為利用ICDAR2003數(shù)據(jù)集與文獻[3,11]對比評價結(jié)果。
表4 不同類型印刷圖像算法性能評價結(jié)果%
表5 ICDAR2003數(shù)據(jù)集性能對比%
從表4結(jié)果可以知道,經(jīng)過漢字連通分量重建后,文字定位效果得到明顯提升。同時對比中文和英文圖像的文字定位結(jié)果發(fā)現(xiàn),算法盡管在一定程度上彌補了漢字存在多個連通分量情況,但定位準確率仍然不及英文,需進一步提升漢字連通分量的完整性。另外,在算法性能方面,根據(jù)ICDAR 2003數(shù)據(jù)集測試結(jié)果與近年典型算法對比可知,算法在文字定位上的基本性能都基本接近,只是算法所需定位時間較長。部分文字定位效果實驗圖像如圖6所示。
圖6 實驗圖像
通過實驗圖像可以看出,算法實現(xiàn)圖像中大部分文字定位分割,克服了圖像中文字在字號、排列方向、字體和顏色上差異,保證了文字定位準確性。但是,算法依然存在一定的缺陷,如文字定位的速度很大程度上依賴于圖像色彩數(shù)量,如果圖像色彩豐富則所需時間較長,實時性不強。同時,算法易造成單獨文字、字距較大以及細小文字丟失,因為判定CCi連接時,字距較大和單獨文字作為無效連接去除,而細小文字容易在顏色分割時丟失,如圖6(a)、(b)中所示。
本文提出一種基于漢字連通分量的彩色印刷圖像版面分割方法,通過對漢字連通分量進行重建實現(xiàn)在復(fù)雜印刷圖像中準確提取和分割文字,為印刷圖像質(zhì)量在線檢測中文字印刷質(zhì)量檢測奠定基礎(chǔ),使印刷質(zhì)量評價更加接近人眼視覺特性。由于本文只選擇了使用頻率較高的漢字結(jié)構(gòu)進行連通分量合并,因此算法對于一些特殊字體、藝術(shù)字等字體不能實現(xiàn)很好的文字定位,同時算法的時間復(fù)雜度較高,還難以用于實時檢測,下一步應(yīng)擴大漢字連通分量重建范圍,優(yōu)化和完善算法性能。
[1]Yan J Q,Li J,Gao X B.Chinese text location under complex background using Gaborfilterand SVM[J].Neurocomputing,2011,74:2998-3008.
[2]Lee J J,Lee P H,Lee S W,et al.AdaBoost for text detection in natural scene[C]//Proceedings of the 11th International Conference on Document Analysis and Recognition,Beijing,China,2011:429-434.
[3]Shivakumara P,Phan T Q,Tan C L.A Laplacian approach to multi-oriented text detection in video[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(2):412-419.
[4]姚金良,翁璐斌,王小華.一種基于連通分量的文本區(qū)域定位方法[J].模式識別與人工智能,2012,25(2):325-331.
[5]Yi C,Tian Y L.Text string detection from natural scenes by structure-based partition and grouping[J].IEEE Transactions on Image Processing,2011,20(9):2594-2605.
[6]Papavassiliou V,Stafylakis T,Katsouros V,et al.Handwritten documentimage segmentation into textlines and words[J].Pattern Recognition,2010,43:369-377.
[7]Zhang X,Sun F C.Pulse coupled neural network edgebased algorithm for image text locating[J].Tsinghua Science and Technology,2011,16(1):22-30.
[8]Chen Y L,Hong Z W,Chuang C H.A knowledge-based system for extracting text-lines from mixed and overlapping text/graphics compound document images[J].Expert Systems with Applications,2012,39:494-507.
[9]Chen Y L,Wu B F.A multi-plane approach for text segmentation of complex document images[J].Pattern Recognition,2009,42:1419-1444.
[10]閔華清,鄭華強,羅榮華.自然場景圖像中基于視覺顯著性的文本區(qū)域檢測[J].華南理工大學(xué)學(xué)報:自然科學(xué)版,2012,40(8):39-45.
[11]Sun Q Y,Lu Y.Text location in scene images using visual attention model[J].International Journal of Pattern Recognition and Artificial Intelligence,2012,26(4):1-19.
[12]Jung C,Liu Q F,Kim J.A stroke filter and its application to text localization[J].Pattern Recognition Letters,2009,30:114-122.
[13]Nikolaou N,Badekas E,Papamarkos N,et al.Text localization in color documents[C]//International Conference on Computer Vision Theory and Applications,Setúbal,Portugal,2006:181-188.
[14]Kong Y P,Zeng P,Wu Z L,et al.Inverse halftoning viamedian interpolating pyramid[C]//8th International Conference on Signal Processing,Beijing,China,2006,2:16-20.
[15]周芳芳,樊曉平,葉榛.均值漂移算法的研究與應(yīng)用[J].控制與決策,2007,22(8):841-847.
[16]湯楊,潘志庚,湯敏,等.基于分級mean shift的圖像分割算法[J].計算機研究與發(fā)展,2009,46(9):1421-1431.
[17]Comaniciu D,Ramesh V,Meer P.The variable bandwidth mean shift and data-driven scale selection[C]//Proceedings of the 8th IEEE International Conference on Computer Vision,Vancouver,Canada,2001:438-445.