崔 男 李 婧 孫艷蕊
(東北大學(xué)數(shù)學(xué)系 沈陽 110004)
?
基于數(shù)學(xué)形態(tài)學(xué)的漸變色字符定位算法*
崔男李婧孫艷蕊
(東北大學(xué)數(shù)學(xué)系沈陽110004)
為處理漸變色字符的字符定位,文章提出了一種基于數(shù)學(xué)形態(tài)學(xué)的字符定位算法。該算法很好地利用字符的特有屬性,采用形態(tài)學(xué)中的邊緣提取與膨脹操作,取得整體的字符骨架,再通過填充與腐蝕操作使得漸變色字符周圍變得平滑,最后利用反色操作與top-hat濾波進(jìn)行整體提亮,從而提取出字符。實驗表明,該算法對漸變色字符有較強(qiáng)的定位能力,并能有效地去掉絕大部分噪聲,字符提取率高達(dá)90%,與目前基于邊緣分割,神經(jīng)網(wǎng)絡(luò)等算法相比有較大改進(jìn)。
漸變色字符; 字符定位; 數(shù)學(xué)形態(tài)學(xué); sobel算子; 孔洞填充
Class NumberP208
如今,由于多媒體技術(shù)和互聯(lián)網(wǎng)的蓬勃發(fā)展,全世界數(shù)字圖像容量迅猛增長。這些圖像中的字符承載著非常有用的信息,例如交通道路指示牌、街道名稱、商店名字、廣告牌、海報、書籍封面等。如若可以自動定位圖像中的字符區(qū)域[1],那么對于圖像高層語義的理解、索引和檢索有重大意義,也為之后的字符提取識別工作打下良好的基礎(chǔ)。
在圖像處理中,漸變色自然字符具有字符區(qū)域與背景相近,與噪聲區(qū)域無法分離的特性[2]。現(xiàn)階段,主要的字符定位方法有基于去噪理論的低空濾波,基于字符特征的K均值聚類方法,基于支持向量機(jī)并結(jié)合 HOG 特征的識別分類方法等。但由于漸變色圖像中字符周圍存在的復(fù)雜噪聲[3],現(xiàn)有方法無法準(zhǔn)確地提取出真正的字符區(qū)域,這給之后的字符的提取和識別工作帶來了極大的不便。除此之外,漸變色圖像在日常生活中具有廣泛的應(yīng)用價值。因此,研究此類圖像的字符區(qū)域定位是有很大的價值意義的。
數(shù)學(xué)形態(tài)學(xué)的數(shù)學(xué)基礎(chǔ)是集合論, 因此數(shù)學(xué)形態(tài)學(xué)有完備的數(shù)學(xué)基礎(chǔ),這為其用于圖像分析和處理奠定了堅實的基礎(chǔ)。它的基本思想是用具有一定形態(tài)的結(jié)構(gòu)元素作為基本工具進(jìn)行圖像的基本探測與特征提取,也是一種常用的圖像分割方法[4]。但由于其方法的多樣性及效果的模糊性,其綜合效果還具有很大的提升空間。
2.1膨脹與腐蝕
膨脹與腐蝕是形態(tài)學(xué)基本操作,本文從集合論的角度給出膨脹與腐蝕的基本定義如下:A,B是Z2中的集合,φ為空集。
膨脹:若A被B膨脹,則記做A⊕B,其中⊕為膨脹算子。膨脹的數(shù)學(xué)定義為
腐蝕:若A被B腐蝕,則記做AΘB,其中Θ為腐蝕算子。腐蝕的數(shù)學(xué)定義為
AΘB={x|(B)x?A}
Df,Db分別為f與b的定義域。
2.2填充操作
若P為填充區(qū)域內(nèi)指定一點,則有:Xk=(Xk-1⊕B)∩Ac,其中Xk為待填充區(qū)域按照結(jié)構(gòu)元素分割的區(qū)域塊,X0=P,當(dāng)算法迭代到Xk=Xk-1時終止,填充工作完畢。其中,集合Xk和A的并集包括填充的集合和邊界元素的集合。
漸變色字符中的待提取字符區(qū)域的干擾噪聲較大,在自然背景下還會有字符區(qū)域邊緣不明顯,光照強(qiáng)度分布不均等干擾。如何在強(qiáng)干擾下去除這些噪聲并且較為完整的提取出字符區(qū)域就是本文提出的算法所要解決的問題。
3.1字符區(qū)域粗提取過程
1) 由于漸變色字符邊緣的毛刺噪聲密度大而面積小。文章采用差分算子sobel進(jìn)行初步的字符區(qū)域提取[5]。sobel算子是一種在像素上下、左右進(jìn)行鄰點灰度加權(quán)差,而后在邊緣處達(dá)到極值的一類卷積算子。首先分別定義橫向縱向的幅值GxGy,若記待處理的圖像為K,則幅值的具體計算公式為
圖1 不同線性結(jié)構(gòu)元素的粗處理圖
3.2字符區(qū)域細(xì)化過程
1) 由于漸變色字符與噪聲區(qū)域差別極小,在邊緣提取中易破壞字符邊界,故在細(xì)化過程中首先對字符區(qū)域粗提取過程得到的候選區(qū)域進(jìn)行孔洞填充[7]處理:首先將粗處理圖A進(jìn)行反色處理,即(ri,gi,bi)=(255,255,255)-(ri,gi,bi),隨后搜索新像素點中的非零處,如果以該像素點為中心的3*3矩陣內(nèi)元素都非0,則將其矩陣內(nèi)的元素全部記為0,此時的圖像為(rii,gii,bii),則最終經(jīng)過填充處理的圖像可表達(dá)為:(rjj,gjj,bjj)=(255,255,255)-(rii,gii,bii)。
圖2 不同腐蝕元素的對比圖
4) 根據(jù)圖片像素點個數(shù)選擇4*4或8*8鄰域查找二值圖邊緣[8]:
Inow(x,y)為當(dāng)前鄰域處坐標(biāo)(x,y)的灰度值,B(ix,jy)為當(dāng)前鄰域的平均灰度值,若m(x,y)最終大于圖片的平均灰度,則認(rèn)為當(dāng)前鄰域內(nèi)的中心元素為所提取的二值圖邊緣。一般情況下選用3*3鄰域,但在圖片極大時選用9*9鄰域即可。
5) 為了最終提取出邊緣圖,根據(jù)圖片類型的不同,本文給出兩種方法:(1)RGB元素:將字符邊界處的R值賦值為255,并提取處最終的字符區(qū)域;(2)非RGB元素:利用Matlab中的top-hat濾波進(jìn)行高帽變換[9]Hat(f)=f-(f°b),增強(qiáng)圖像區(qū)分度從而提取出字符區(qū)域。
在MatlabR2014a環(huán)境下,上述算法進(jìn)行了編程實現(xiàn),并采用多幅漸變色圖片進(jìn)行試驗,原圖如圖3所示。
圖3 漸變色圖像原圖
由圖3可以看到漸變色字符周圍噪聲較大,字符與噪聲間的色彩區(qū)分度較小,且字符的顏色也不盡相同,這也為字符的定位造成了一定的影響。首先進(jìn)行字符區(qū)域的組提取過程,為了使色調(diào)統(tǒng)一,將圖片首先化成二值圖,而后進(jìn)行粗提取,粗提取效果如圖4所示。
圖4 字符區(qū)域粗提取過程圖
圖4的字符區(qū)域粗提取過程可以看出“刀光劍影”四字已基本被提取出來,周圍的噪聲已經(jīng)大大減少,但字符之間的連接性太過緊密,字符分辨不清,仍需下一步處理。進(jìn)行字符區(qū)域精細(xì)化處理得到的最終定位效果圖如圖5所示。
圖5 最終效果圖
圖6 效果圖展示
圖5為字符定位的最終效果圖,對比圖4,可以看出字符細(xì)節(jié)與字符主體都是相連通的,已達(dá)到基本的字符定位效果,可以用于接下來的字符提取與識別。對比原圖3與效果圖5可以看出,字符的主體和細(xì)節(jié)都被完整地提取了出來,不存在丟失的點,而一些與字符通過橋接連接在一起的噪聲線條,也沒有包含進(jìn)來。圖6即為字符定位原圖與效果圖的對比展示。
5.1算法有效性比較
論文提出了一種基于數(shù)學(xué)形態(tài)學(xué)的漸變色字符定位算法,對于漸變色字符有良好的定位與去噪功能,和現(xiàn)階段的邊緣檢測[10]、水平灰度變化[11]等算法相比,本文算法更有效地從字符本身結(jié)構(gòu)出發(fā),避免了對字符長寬,傾斜角度等特點的討論;和神經(jīng)網(wǎng)絡(luò)[12~13]、彩色分割[14]等算法相比,對其無法解決的多重虛化現(xiàn)象有了較大的進(jìn)步,最終的對比效果如圖7所示。
圖7 幾種現(xiàn)有算法與本文算法效果對比圖
5.2算法效率性能比較
論文在MatlabR2014a的實驗環(huán)境下,文章定義字符提取的準(zhǔn)確率為:r=A/T,其中A為算法所提取字符的有效像素點,T為實際字符所占像素點,r為圖像的提取率。由于漸變色字符周圍的干擾較多,采用現(xiàn)有的提取率[15]作為評價與實際的誤差較大,因而該文章將圖片的灰度值的極值個數(shù)作為漸變色字符圖像的有效像素點個數(shù)。對不同算法在運行時間與提取率上的對比結(jié)果展示與分析如表1所示。
由表1可知,在低維數(shù)時,該算法所用時間約比現(xiàn)行算法的運行速度低0.15s~0.19s,但提取率提高約至90%;隨著圖片維數(shù)成指數(shù)增長的情況下,論文所提出的算法所用時間并無太大變化幅度,即該算法具有較好的運行速度優(yōu)勢。
表1 算法提取率、運行時間的比較
漸變色字符在日常生活中如霓虹燈牌,日光折射等很常見,如何去除噪聲并準(zhǔn)確定位字符具有很大的實用與推廣價值。該文章的創(chuàng)新點在于巧妙的利用了漸變色字符的形態(tài)學(xué)特征,建立了基于形態(tài)學(xué)理論的字符定位算法,避免了現(xiàn)有算法對于字符幾何特征的詳細(xì)輸入要求,與目前算法相比,在字符提取率上取得了較大的進(jìn)步,獲得了較好的定位效果。
[1] 周開軍,陳三寶,徐江陵.復(fù)雜背景下的車牌定位和字符分割研究[J].計算機(jī)工程,2007,33(4):198-200.
ZHOU Kaijun,CHEN Sanbao,XU Jiangling.Research of Vehicle License Plate Location and Character Segmentation Under Complex Scenes[J].Computer Engineering,2007,33(4):198-200.
[2] 王琪,王麗萍,陳凱迪.一種簡單的圖案填充算法[J].微計算機(jī)信息,2005,21(9-3):116-117.
WANG Qi,WANG Liping,CHEN Kaidi.A Simple Algorithm For Filling Pattern[J].Control & Automation,2005,21(9-3):116-117.
[3] 晉瑾.圖像中的文本定位技術(shù)研究綜述[J].計算機(jī)應(yīng)用研究,2007,24(6):8-11.
JIN Jin.Survey of Text Localization Techniques in Images. Application Research of Computers[J].Computer Knowledge and Technology,2007,24(6):8-11.
[4] 廖佳,王紅梅,牛曉東.圖像與視頻中的文本定位技術(shù)研究綜述[J].電腦知識與技術(shù),2010,6(9):7378-7382.
LIAO Jia, WANG Hongmei, NIU Xiaodong.Text Location in Images and Video:A Survey[J].Computer Knowledge and Technology,2010,6(9):7378-7382.
[5] 鄭南寧.計算機(jī)視覺與模式識別[M].北京:國防工業(yè)出版社,1998.
ZHENG Nanning.Computer vision and pattern recognition[M]. Beijing: National Defence Industry Press,1998.[6] Azaria M, Vitsnudel I, Zeevi Y Y. The design of two-dimensional gradient estimators based on one-dimensional operators.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,1996,5(1):155-159.
[7] 葉斌,彭嘉雄.基于形態(tài)學(xué)Top—Hat算子的小目標(biāo)檢測方法[J].中國圖象圖形學(xué)報,2002,9(7):638-642.
YE Bin,PENG Jiaxiong. Small target detection method based on morphological Hat-Top operator[J]. Journal of Image and Graphics,2002,9(7):638-642.
[8] Chen X, Yuille A L. Detecting and reading text in natural scenes[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2004:366-373.
[9] 董春來,王堅,胡建華.利用MATLAB實現(xiàn)圖像處理與分析[J].現(xiàn)代測繪,2003,26(5):9-11.
DONG Chunlai,WANG Jia,HU Jianhua.Achieving Disposal and Analysis of Image by MATLAB[J]. Modern Surveying and Mapping,2003,26(5):9-11.
[10] 馬海清.基于邊緣和紋理的文本定位算法的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007.
MA Haiqing.Research of text localization algorithm based on edge and texture[D]. Harbin: Harbin Institute of Technology,2007.
[11] 何春華,張雪飛,胡迎春.基于改進(jìn)Sobel算子的邊緣檢測算法的研究[J].光學(xué)技術(shù),2012,38(3):323-327.
HE Chunhua, ZHANG Xuefei, HU Yingchun. A study on the improved algorithmfor Sobel on image edge detection[J]. Optical Technique,2012,38(3):323-327.
[12] Yi C, Tian Y. Text Detection in Natural Scene Images by Stroke Gabor Words.[C]// Proceedings of the International Conference on Document Analysis and Recognition,2011:177-181.
[13] Maruyama M, Yamaguchi T. Extraction of Characters on Signboards in Natural Scene Images by Stump Classifiers[C]// International Conference on Document Analysis & Recognition. IEEE Computer Society, 2009:1365-1369.
[14] 閔華清,鄭華強(qiáng),羅榮華.自然場景圖像中基于視覺顯著性的文本區(qū)域檢測[J].華南理工大學(xué)學(xué)報:自然科學(xué),2012,40(8):39-45.
MIN Huaqing,ZHENG Aiqiang,LUO Huarong. Text region detection based on visual saliency in natural scene images[J]. Journal of South China University of Technology: Natural Science Edition,2012,40(8):39-45.
[15] 權(quán)煒,鄭南寧,賈新春.復(fù)雜背景下的車輛牌照字符提取方法研究[J].信息與控制,2002,31(1):25-29.
QUAN Wei,ZHENG Nanning,JIA Xinchun. Research on vehicle license plate character extraction method in complex background[J]. Information and Control,2002,31(1):25-29.
Character Location Algorithm for the Image of Gradient Color Character Based on Mathematical Morphology
CUI NanLI JingSUN Yanrui
(Department of Mathematic, Northeastern University, Shengyang110004)
In order to deal with the character location of gradient background image, a new method based on mathematical morphology is proposed. The method uses the inherent characteristics of characters efficiently. In this algorithm, the edge extraction and expansion operation are used to obtain the whole character skeleton. And then the gradient background character is smoothed by the filling and corrosion operation. The top-hat filter and the color-inverted operation are used to brighten and carry out the whole extraction. Character extraction rate can be raised to 90%. Experiments showed that the proposed algorithm had a strong ability to locate characters on gradient color images and could effectively reduce most of the noises, compared to the edge segmentation and neural network algorithm.
gradient color character, character location, mathematical morphology, sobel operator, holes filling
2016年4月7日,
2016年5月19日
大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目(編號:201510145024)資助。
崔男,女,研究方向:數(shù)字圖像處理。李婧,女,研究方向:數(shù)字圖像處理。孫艷蕊,女,博士,教授,研究領(lǐng)域:數(shù)字圖像處理。
P208
10.3969/j.issn.1672-9722.2016.10.031