杜 媛
(西安職業(yè)技術(shù)學(xué)院 西安 710077)
基于二維Gabor濾波與機(jī)器視覺(jué)的字符圖像識(shí)別算法?
杜 媛
(西安職業(yè)技術(shù)學(xué)院 西安 710077)
為了解決字符識(shí)別算法在噪聲、文本旋轉(zhuǎn)下出現(xiàn)識(shí)別不準(zhǔn)確的問(wèn)題。論文提出了基于二維Gabor濾波與機(jī)器視覺(jué)的字符識(shí)別算法,從圖像預(yù)處理和特征提取分析這兩個(gè)模塊展開(kāi)分析。首先,搭建視覺(jué)采集硬件平臺(tái),采集原始字符圖像。然后通過(guò)鄰域像素灰度信息迭代,有效降低噪聲,以提高字符圖像質(zhì)量,通過(guò)霍夫直線檢測(cè)完成圖像旋轉(zhuǎn)角度計(jì)算和圖像校正,達(dá)到準(zhǔn)確定位字符區(qū)域的目的。然后,通過(guò)二維Gabor濾波得到字符圖像的紋理特征,采用歐式距離構(gòu)建分類(lèi)標(biāo)準(zhǔn),達(dá)到準(zhǔn)確識(shí)別字符的目的。實(shí)驗(yàn)測(cè)試數(shù)據(jù)表明:與當(dāng)前識(shí)別機(jī)制相比,在面對(duì)噪聲與文本旋轉(zhuǎn)干擾條件下,論文算法具有更高的識(shí)別準(zhǔn)確率與魯棒性。
字符識(shí)別;計(jì)算機(jī)視覺(jué);Gabor濾波;圖像校正;霍夫直線檢測(cè);歐式距離
以科技驅(qū)動(dòng)經(jīng)濟(jì),以技術(shù)領(lǐng)先市場(chǎng)已經(jīng)成為各行業(yè)的共識(shí),特別是計(jì)算機(jī)視覺(jué)技術(shù)更是眾多先進(jìn)技術(shù)的聚焦[1]。視覺(jué)領(lǐng)域廣泛,其中應(yīng)用最廣泛的就是文字識(shí)別,因?yàn)槲淖肿R(shí)別本身是人類(lèi)社會(huì)文明的基石,如何利用計(jì)算機(jī)技術(shù)代替人眼實(shí)現(xiàn)文字識(shí)別,提高社會(huì)效率,已經(jīng)成為當(dāng)下推動(dòng)經(jīng)濟(jì)前進(jìn)的關(guān)鍵技術(shù)[2~3]。文字識(shí)別已經(jīng)應(yīng)用很多場(chǎng)合:身份證自動(dòng)識(shí)別、名片文本自動(dòng)讀取器、火車(chē)票識(shí)別系統(tǒng)等等。但是當(dāng)字符背景存在噪聲干擾、圖像角度旋轉(zhuǎn)時(shí),往往導(dǎo)致算法不能準(zhǔn)確定位字符,甚至識(shí)別錯(cuò)誤[4]。國(guó)內(nèi)科技公司也相繼推出基于計(jì)算機(jī)視覺(jué)的字符識(shí)別系統(tǒng),但是當(dāng)碰到以上干擾時(shí),往往會(huì)大幅度影響系統(tǒng)準(zhǔn)確度和穩(wěn)定性,本文基于這樣的背景,從改善圖像質(zhì)量,提高定位成功率,達(dá)到準(zhǔn)確識(shí)別字符目的。
在字符識(shí)別方面,國(guó)內(nèi)研究人員已經(jīng)將計(jì)算機(jī)視覺(jué)技術(shù)引入到該領(lǐng)域中,對(duì)其展開(kāi)研究,如肖誠(chéng)求[5]提出了基于稀疏編碼直方圖的TSM識(shí)別場(chǎng)景文本算法,構(gòu)建以稀疏編碼直方圖(HSC)為底層特征的基于部件的樹(shù)結(jié)構(gòu)模型(HSC-TSM)識(shí)別場(chǎng)景文本,將K-SVD學(xué)習(xí)字典用于計(jì)算稀疏編碼,逐像素地將稀疏編碼聚合成HSC,描述文字的局部外觀信息,通過(guò)奇異值分解對(duì)HSC進(jìn)行降維,避免信息丟失,達(dá)到字符識(shí)別目的。但是,此技術(shù)未充分考慮圖像源存在噪聲和角度不正干擾,往往在此情況下影響了識(shí)別效果。劉勇華[6]提出了以主觀線索為特征的主觀性文本識(shí)別,提出以主觀線索為特征的主觀性文本識(shí)別方法,選取關(guān)聯(lián)詞、情感詞以及指示性動(dòng)詞、感嘆詞、程度副詞、帶有情感色彩的標(biāo)點(diǎn)符號(hào)等6種主觀線索特征作為主觀性文本識(shí)別依據(jù),建立主觀線索特征詞表,用樸素貝葉斯分類(lèi)器,達(dá)到了字符識(shí)別目的。但是,此技術(shù)未充分考慮選取特征的客觀性,往往存在識(shí)別率很低的問(wèn)題。
本文提出了基于二維Gabor濾波與機(jī)器視覺(jué)的字符識(shí)別算法,首先,(對(duì)存在噪聲、角度干擾的圖像展開(kāi)分析,通過(guò)區(qū)域信息迭代降噪方法、霍夫直線檢測(cè)達(dá)到字符圖像質(zhì)量提高和校正目的。然后通過(guò)二維Gabor濾波器提取紋理特征,基于歐式距離公式完成字符分類(lèi)。最后,整合算法,編程驗(yàn)證,測(cè)試了本文算法的字符識(shí)別性能。
圖1 本文字符識(shí)別算法的樣本與過(guò)程
本文算法對(duì)帶有字符的卡片材料進(jìn)行識(shí)別,采用工業(yè)相機(jī)采集圖像,環(huán)形光源正面打光,底部載盤(pán)為快速轉(zhuǎn)盤(pán),以傳感器觸發(fā)相機(jī)完成圖像采集,硬件結(jié)構(gòu)如圖1(a)所示。系統(tǒng)軟件架構(gòu)分為:基于圖像預(yù)處理的字符圖像定位、基于特征提取分析的分類(lèi)識(shí)別。字符定位:采用鄰域像素灰度信息迭代,達(dá)到去噪目的;采用霍夫直線檢測(cè),達(dá)到旋轉(zhuǎn)角度計(jì)算和圖像校正目的;采用形態(tài)學(xué)閉運(yùn)算對(duì)二值圖像進(jìn)行線性處理,達(dá)到字符圖像精定位目的。識(shí)別模塊:采用Gabor提取字符圖像紋理特征(均值、方差、能量、熵、慣量和相關(guān)一致性),經(jīng)過(guò)歐式距離公式計(jì)算,達(dá)到字符識(shí)別的目的,系統(tǒng)軟件架構(gòu)如圖1(b)所示,采集到的圖像如圖2所示。
圖2 待處理圖
在圖像數(shù)據(jù)采集中,難免混入椒鹽噪聲,噪聲來(lái)源光電轉(zhuǎn)換自帶噪聲和電機(jī)轉(zhuǎn)盤(pán)高速運(yùn)轉(zhuǎn)產(chǎn)生磁場(chǎng)噪聲。首先需要對(duì)圖像進(jìn)行降噪處理,為了充分消除噪聲,本文提出鄰域信息迭代降噪技術(shù),通過(guò)噪聲點(diǎn)的八鄰域相似性,加權(quán)濾波去噪,當(dāng)噪聲點(diǎn)八鄰域信息不滿(mǎn)足去噪條件時(shí),該噪聲點(diǎn)不處理,在后續(xù)迭代中,鄰域信息滿(mǎn)足條件時(shí)再處理。八鄰域如下所示:
Ω ={(k,l)|X(k,l)≠ X(i,j),|k-i|≤ 1,|l-j|≤ 1}(1)式中X(i,j)為噪聲點(diǎn),Ω代表噪聲點(diǎn)的八鄰域,以八鄰域中的八個(gè)點(diǎn)為中心建立3*3窗口,其分別與(i,j)為中心建立的3*3窗口比較[7]。接著引入下式評(píng)價(jià)塊與塊之間的相似性:
KL(a||b)=aloga/b+(1-a)log(1-a)/(1-b)(2)
該式基于相對(duì)熵提出,a、b代表待評(píng)價(jià)相似度的兩個(gè)鄰域塊,兩個(gè)鄰域塊越相似,值越小,以計(jì)算出的相似度為權(quán)值,每個(gè)鄰域乘以自身權(quán)值累加求和后替代噪聲點(diǎn)[8]。如圖2所示為帶有噪聲的原圖,經(jīng)過(guò)本文降噪處理后如圖3所示,可見(jiàn)噪聲已被有效去除。得到降噪圖像后,需要對(duì)字符圖像進(jìn)行旋轉(zhuǎn)較正,本文以霍夫直線檢測(cè)得到字符卡片邊緣角度,霍夫變換是利用兩個(gè)坐標(biāo)空間之間的變換,將問(wèn)題由檢測(cè)任意形狀轉(zhuǎn)換為統(tǒng)計(jì)峰值問(wèn)題,主體任務(wù)是將直角坐標(biāo)系下的直線方程中系數(shù)和變量交換,即完成直角坐標(biāo)到極坐標(biāo)的轉(zhuǎn)換,霍夫直線檢測(cè)模型如下:
式中極坐標(biāo)(p,θ)將多條直線相交于一點(diǎn),如果是同一直線上點(diǎn),滿(mǎn)足直線條件的可以檢出,得到直線取直線上兩點(diǎn)計(jì)算斜率,以此作為旋轉(zhuǎn)校正角度,如圖4所示,檢出直線用綠色標(biāo)注,同時(shí)圖像旋轉(zhuǎn)較正。接著進(jìn)行字符區(qū)域精定位,在二值化的基礎(chǔ)上,引入閉運(yùn)算,填充目標(biāo)內(nèi)部狹窄的裂縫和長(zhǎng)細(xì)的窄溝,消除小的空洞[9],采取集合方法描述如下:
式中A為原圖,B為形態(tài)學(xué)結(jié)構(gòu)分子(5*5單位矩陣),圖像中像素被平移的結(jié)構(gòu)元素B覆蓋時(shí)的公共點(diǎn),突出字符邊緣區(qū)域,經(jīng)過(guò)處理如圖5(a)所示,可見(jiàn)準(zhǔn)確定位字符區(qū)域,以此提取字符區(qū)域,如圖5(b)所示,作為后續(xù)特征提取的基礎(chǔ)數(shù)據(jù)。
圖3 去噪效果圖
圖4 角度旋轉(zhuǎn)校正效果圖
圖5 目標(biāo)圖像中的字符提取
提取字符區(qū)域后,開(kāi)始特征提取,本文主要從紋理特征、出發(fā)分析,因?yàn)閱渭円揽孔址Y(jié)構(gòu)特征和統(tǒng)計(jì)特征,不足以區(qū)分字符,為了進(jìn)一步增強(qiáng)系統(tǒng)細(xì)分性能,本文采取基于Gabor的紋理特征提取,二維Gabort特征提取可以達(dá)到空間域和頻率域的局部最優(yōu)化。Gabor濾波器函數(shù)如下:
式中G為二維Gabor濾波器函數(shù),f為圖像函數(shù),由于Gabor具有非常好的時(shí)域局部特征,且適用于人的視覺(jué)通道。二維Gabor濾波在紋理分析中廣泛使用[10],接著以字符圖像與二維Gabor濾波器進(jìn)行卷積處理:
式中I(x,y)代表字符圖像函數(shù),G代表Gabor函數(shù),此輸出可以描述圖像字符紋理特征,他們是均值、方差、能量、熵、慣量及局部統(tǒng)一性[11~12]。
均值公式如下:
u為均值,I為經(jīng)過(guò)Gabor卷積處理的結(jié)果,m,n為圖像長(zhǎng)寬[11]。方差公式如下:
σ為方差,I為經(jīng)過(guò)Gabor卷積處理的結(jié)果,m,n為圖像長(zhǎng)寬。能量公式如下:
Eg為能量,G為Gabor濾波器,m,n為圖像長(zhǎng)寬。熵公式如下:
Et為熵,G為Gabor濾波器。慣量公式如下:
J為慣量,G為Gabor濾波器。局部統(tǒng)一性公式如下:
H為局部統(tǒng)一性,G為Gabor濾波器。最后采用歐式距離公式作為特征分類(lèi)器,歐式:
式中(X,Y)代表特征標(biāo)準(zhǔn),(x,y)代表待確定的特征,根據(jù)最近原則,將字符特征分類(lèi),并計(jì)入分類(lèi)器結(jié)果。經(jīng)過(guò)處理,如圖6所示,可見(jiàn)本文方法識(shí)別正確。
圖6 字符識(shí)別結(jié)果圖
本文機(jī)制采用帶有圖像預(yù)處理與特征提取分析的字符識(shí)別算法,同時(shí)搭建硬件系統(tǒng)(工業(yè)相機(jī)、鏡頭、光源、轉(zhuǎn)盤(pán)和傳感器)對(duì)字符進(jìn)行取像。本文將軟硬件系統(tǒng)都進(jìn)行實(shí)現(xiàn),并選取目前字符識(shí)別性能較好的文獻(xiàn)[5]、文獻(xiàn)[6]兩種技術(shù)做實(shí)驗(yàn)對(duì)比,待處理原圖為7。實(shí)驗(yàn)參數(shù):噪聲比(0.8)、結(jié)構(gòu)分子(3*3單位矩陣)、均值(87)、方差(0.9)。
圖7 待處理原圖
本機(jī)制采用客觀的相機(jī)采集,精確的圖像處理算法,對(duì)每一個(gè)字符進(jìn)行自動(dòng)降噪,去噪結(jié)果如圖8所示,可見(jiàn)達(dá)到了去噪目的。本文采用霍夫變換定為字符材料直線邊緣,并校正圖像,如圖9(a)所示,可見(jiàn)達(dá)到了補(bǔ)償旋轉(zhuǎn)角度,把字符擺正的目的。利用字符形態(tài)學(xué),采用閉運(yùn)算,提取字符區(qū)域,達(dá)到定位字符目的,如圖9(b)所示。最后提取紋理特征,經(jīng)過(guò)歐式距離分類(lèi)器,得到準(zhǔn)確的識(shí)別結(jié)果,如圖9(c)所示。
而利用文獻(xiàn)[5]對(duì)圖7進(jìn)行識(shí)別時(shí),因此技術(shù)未充分考慮圖像源存在噪聲和角度不正干擾,往往在此情況下影響了識(shí)別效果。如圖10(a)所示,字符定位錯(cuò)誤,如圖10(b)所示,識(shí)別功能無(wú)效。
圖8 去噪效果圖
圖9 本文算法的字符識(shí)別結(jié)果
圖11 文獻(xiàn)[6]算法的字符識(shí)別測(cè)試
利用文獻(xiàn)[6]對(duì)圖7進(jìn)行識(shí)別時(shí),此技術(shù)未充分考慮選取特征的客觀性,往往存在識(shí)別率很低的問(wèn)題。如圖11(a)所示,字符定位勉強(qiáng)滿(mǎn)意,如圖11(b)所示,識(shí)別錯(cuò)誤。
為了實(shí)現(xiàn)用計(jì)算機(jī)視覺(jué)自動(dòng)識(shí)別字符材料,從而改善傳統(tǒng)字符識(shí)別抗干擾性能差、識(shí)別不穩(wěn)定的問(wèn)題。本文首先對(duì)硬件打光進(jìn)行檢討,采集出完整的字符圖像。然后設(shè)計(jì)出基于鄰域信息迭代降噪方法、基于霍夫變換的圖像校正技術(shù)、基于Gabor的字符紋理特征提取技術(shù)、基于歐氏距離的分類(lèi)器識(shí)別,并用編程實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明:與傳統(tǒng)機(jī)制相比,本文機(jī)制具有更好的識(shí)別精度和魯棒性。
[1]Meng-Han Hu,Qing-Li Dong,Pradeep K.Malakar.Deter?mining Banana Size Based on Computer Vision[J].Inter?national Journal of Food Properties,2015,18(3):508-520.
[2]楊美妮.不規(guī)則文本中商品名稱(chēng)識(shí)別的特征選擇[J].計(jì)算機(jī)工程與科學(xué),2015,11(17):96-99.YANG Meini.Feature selection of commodity name recog?nition in irregular texts[J].Computer engineering and sci?ence,2015,11(17):96-99.
[3]W.Y.Liu,J.L.Jiang.A new Chinese character recogni?tion approach based on the fuzzy clustering analysis[J].Neural Computing and Applications,2014,25(2):421-428.
[4]álvarez D.,F(xiàn)ernández R.,Sánchez L.Stroke-based intel?ligent character recognition using a deterministic finite au?tomaton[J].Logic Journal of IGPL,2015,23(3):463-471.
[5]肖誠(chéng)求.基于稀疏編碼直方圖的TSM識(shí)別場(chǎng)景文本算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,23(2):171-176.XIAO Chengqiu.TSM scene text recognition algorithm based on sparse coding histogram[J].Computer engineer?ing and design,2016,23(2):171-176.
[6]劉勇華.以主觀線索為特征的主觀性文本識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,18(15):42-47.LIU Yonghua.Subjective text recognition based on subjec?tive cues[J].Computer engineering and design,2016,18(5):42-47.
[7]屈亞運(yùn),程英蕾,邱浪波.改進(jìn)的八鄰域搜索提取建筑物立體特征方法[J].計(jì)算機(jī)工程與應(yīng)用,2015,23(4):66-69.QU Yayun,CHENG Yinglei,QIU Langbo.Improved eight neighborhood search method for building stereo feature[J].computer engineering and applications,2015,23(4):66-69.
[8]Evans Gary W.The mediating roles of Neighborhood char?acteristics and physical activity[J].Social Science&Med?icine,2012,75(3):477-81.
[9] Huiling Hou,Cunsuo Pang,Hualing Guo.Study on high-speed and multi-target detection algorithm based on STFT and FRFT combination[J].Optik-International Journal for Light and Electron Optics,2016,127(2):713-717.
[10]M.N.Sumaiya,R.Shantha Selva Kumari.Gabor filter based change detection in SAR images by KI thresholding[J].Optik-International Journal for Light and Electron Optics,2016,130(2):114-122.
[11]霍光.基于二維Gabor濾波的虹膜特征表達(dá)及識(shí)別方法研究[D].長(zhǎng)春:吉林大學(xué),2016:26-29.HUO Guang.Iris feature representation and recognition based on 2D Gabor filtering[D].Changchun:Jilin Uni?versity,2016:26-29.
[12]Fei He,Yuanning Liu,Xiaodong Zhu.Multiple local fea?ture representations and their fusion based on an SVR model for iris recognition using optimized Gabor filters[J].EURASIP Journal on Advances in Signal Process?ing,2014(1):1-7.
Research and Application on the Character Recognition Algorithm Based on Machine Vision and Two-Dimensional Gabor Filter
DU Yuan
(Xi'an Vocation and Technology College,Xi'an 710077)
In order to solve the character recognition algorithm in noise,identify inaccurate problem under text rotation.Char?acter recognition algorithm based on computer vision is proposed in this paper,from the image preprocessing and feature extraction and analysis of the two analysis module.First of all,visual acquisition hardware platform is created,the original character image is collected.Then through iterative neighborhood information noise reduction the quality of character image is improved,by hoff straight line detection the image rotation angle calculation and correction are completed to achieve the purpose of accurate position?ing character area.Then,by 2D Gabor filter to get the texture feature of character image,the classification criteria of Euclidean dis?tance was used to construct and achieve the purpose of accurate identification character.Experimental test data show that compared with the traditional recognition mechanism,this mechanism has higher recognition and robustness.
character recognition,computer vision,Gabor filter,image correction,hof line detection,euclidean distance
Class Number TP391
TP391
10.3969/j.issn.1672-9722.2017.12.041
2017年6月8日,
2017年7月30日
杜媛,女,碩士,講師,研究方向:圖像處理,目標(biāo)識(shí)別,計(jì)算機(jī)應(yīng)用。