王紅霞 程艷芬
(武漢理工大學(xué)計算機(jī)學(xué)院 武漢 430063)
文本圖像的識別是模式識別領(lǐng)域的一個重要應(yīng)用分支,而在整個OCR(optical character recognition)領(lǐng)域中,最為困難的就是脫機(jī)自由手寫字符的識別.
一幅通過掃描得到的手寫體文本圖像,無論是彩色圖像還是灰度圖像,各像素因為顏色深淺不一,于是在取值范圍內(nèi)會取不同的值.例如一個彩色圖像中某個像素(R,G,B),其R,G,B 的取值范圍均在(0,255)之間,這種情況給文本圖像的處理帶來了很大的困難.因為文本圖像的處理只需要知道哪是文字,哪是背景,以及文字是什么,不需要知道它們對應(yīng)像素點顏色上的差異.只有通過對這種文本圖像實施二值化后,系統(tǒng)根據(jù)像素的灰度值相應(yīng)地處理成黑、白兩種顏色,圖像中各像素點的值由0~255灰度值轉(zhuǎn)化為0,1兩個值中的一個,圖像信息于是由灰度轉(zhuǎn)化為黑白,其信息量大大減少,從而使得文本的特征更集中,便于圖像處理[1].本文以脫機(jī)手寫體阿拉伯字符的識別研究為背景,將改進(jìn)后的EM算法應(yīng)用在分塊的脫機(jī)阿拉伯手寫體文本圖像識別的預(yù)處理過程中,實驗結(jié)果表明效果良好.
預(yù)處理是文字識別的第一步,在實際識別系統(tǒng)中是一個很重要的階段,該階段與特征抽取階段也是緊密相連的.良好的預(yù)處理可以有效地保持圖像信息,二值化后的文本圖像內(nèi)僅含黑、白二色的信息,在它們之間不存在其他的灰度變化,從而更清楚地反映文本圖像中字符的本質(zhì)特征,使得后續(xù)階段提取的特征能夠更好的代表要識別的模式[2].
由于脫機(jī)手寫體文本圖像的識別只需要處理圖像中的字型信息,對顏色等信息不作處理,所以對掃描得到的文本圖像要進(jìn)行二值化(Binarization)處理,以去掉冗余的信息.和灰度化相似,圖像的二值化也有很多成熟的技術(shù),但卻沒有一種方法能對任何目標(biāo)對象都普遍適用,必須根據(jù)具體的處理對象而定.
二值化的方法根據(jù)其運算的范圍不同,可分為全局閾值法和局部比較法.全局閾值法根據(jù)文本圖像的直方圖或灰度的空間分布確定一閾值,并根據(jù)此閾值實現(xiàn)灰度文本圖像到二值化文本圖像的轉(zhuǎn)化.全局的閾值選取是根據(jù)整幅圖像確定一個閾值,對輸入圖像的量化噪聲或不均勻光照等情況抵抗能力差,應(yīng)用受到極大的限制.局部閾值選取方法是將圖像劃分為若干子圖像,根據(jù)每個子圖像確定相應(yīng)的閾值,這種方法通過定義考察點的鄰域,并由鄰域計算模板來實現(xiàn)考察點灰度與鄰域的比較,較全局方法有更廣泛的應(yīng)用.其中比較典型的方法有Kamel-Zhao算法和Ber nsen算法.但局部比較法也存在缺點和問題,如實現(xiàn)偽影(ghost)等現(xiàn)象(即在背景區(qū)域受噪聲干擾得到筆劃結(jié)果).全局閾值選取方法對噪音比較敏感,因此應(yīng)用中一般采用局部閾值選取方法.但是這二者并無本質(zhì)的不同[3].
設(shè)文本圖像中像素點(x,y)的灰度值為f (x,y),f(x,y)的取值范圍是0~255,閾值采用下式確定λ=(f(x,y)max+f(x,y)min)/3,且使
其中為表達(dá)方便,255的值一般用“1”值表示[4].
從式(1)可以看出,上述確定閾值方法一個明顯的弊端是,單純地以2個點的灰度值:f (x,y)max,f (x,y)min作為代表來求整個圖像的閾值過于片面,于是提出將期望值最大法(expectation-maxi mization,EM)算法[5-6]的思想用在灰度圖像的二值化中,可以有效地避免這種以偏概全導(dǎo)致的誤差.
文本圖像二值化的關(guān)鍵是要找到合適的閾值T來區(qū)分目標(biāo)和背景.閾值判定法利用了圖像中所要提取的目標(biāo)物(即前景)與其背景在灰度特性上的差異,把圖像視為具有不同灰度級的兩個區(qū)域的組合,通過選取閾值,將目標(biāo)區(qū)域從背景中分離出來.所以閾值T的選擇是關(guān)鍵,選得好,可以很好地將圖像中的文字和背景分離開;選的不好,可能會造成待識別文字信息的丟失,導(dǎo)致誤識率增高.
如圖1所示,其中圖a)顯示的是一幅待識別的阿拉伯手寫體文本圖像,圖b)是圖像中一個塊的直方圖,從直方圖可以看出,圖像的前景(即文本)和背景的像素點形成了2個類,Background Peak和Text Peak分別是背景和目標(biāo)的"峰",t h是這2個類的“谷”.由此,灰度圖像二值化對EM算法來說就是一種比較特殊的情形,那就是類的數(shù)目2是已知的:代表背景的類(用0表示)和代表目標(biāo)的類(用1表示).
圖1 文本圖像二值化
其具體算法如下.
1)數(shù)據(jù)準(zhǔn)備 對于一個寬為W,高為H的文本圖像I(x,y),0<x<W,0<y<H,用一維數(shù)組D[W×H]來表示,并且0≤D[i]<255,0<i<W×H.
2)初始化 給兩個類的期望賦初值為E[1],E[2].可以隨機(jī)賦值,但是初值的好壞對收不收斂以及收斂的速度都有很大的影響.初始值的選取也會影響算法的穩(wěn)定性,如果初始值選取的比較好,算法相對穩(wěn)定.于是設(shè)Dmin,Dmax和Dave分別是數(shù)組D的最小值、最大值和平均值,并且取
3)對數(shù)組D 中的每個元素D[i]計算和E[1],E[2]的距離為
其中:k=1,2;和E[1],E[2]哪個值近就歸為哪一類,由此得到兩個一維數(shù)組D1,D2,同時統(tǒng)計出D1,D22數(shù)組的大小L1,L2.
4)ε=|Error[1]-Error[0]|,若ε符合精度要求,轉(zhuǎn)第6步,否則Error[0]=Err or[1].
5)重新計算類0和類1的期望E[1],E[2]:
釋放數(shù)組D1,D2,轉(zhuǎn)第三步(俗稱重新洗牌).
6)如此圖像中的所有像素點分到D1,D2兩類中,然后將D1中像素點的灰度值全都置為0,D2中像素點的灰度值全都置為1.這樣就實現(xiàn)了圖像的二值化.
圖2為文本灰度圖像,圖3是其直方圖,可以看出直方圖處于整個灰度值的低端范圍,這說明圖像整體偏暗.先用文中式(1)所描述的方法,得到閾值th=(0+122)/3≈40.7,二值化的結(jié)果如圖4所示,可以看出效果不是很好,圖像周圍應(yīng)是白色的地方被二值化到黑色.以圖2中圈出來的像素點(591,36)為例,從圖中看出該點應(yīng)歸為“背景”類,也就是白色,現(xiàn)在已知它的灰度值28,按照上面計算出來的閾值40.7來劃分,該點的灰度值小于40.7,被劃分到“目標(biāo)”類中,于是變成了黑色.這是因為整個圖像光線不均勻,導(dǎo)致中間偏亮,四周偏暗,由此可以得出,一個全局的固定閾值不適用于二值化類似圖2這樣的整張圖像.
圖2 一幅待識別的灰度圖像
圖3 直方圖
如果使用上面闡述的分塊EM算法,對圖像每塊中的閾值動態(tài)聚類,就能有效地解決這個問題.
還是針對圖2中的文本灰度圖像,對輸入的該圖像I,先分塊,在每塊上使用改進(jìn)后的EM算法,經(jīng)過幾次循環(huán),反復(fù)修正E[1],E[2],將圖像I中所有像素正確聚類到黑、白二個類,二值化結(jié)果如圖5所示,這個結(jié)果顯然好得多.
圖4 采用式1確定閾值二值化的結(jié)果
圖5 EM算法二值化的結(jié)果
手寫體的文本識別一直是一個非常活躍的研究領(lǐng)域文中采用改進(jìn)的EM算法對分塊的阿拉伯手寫體文本圖像進(jìn)行了二值化處理,實驗效果良好,但是在實際應(yīng)用中,對文本圖像分塊上不能一概而論.例如,若掃描過程中由于光線分布不均得特別厲害,則分塊數(shù)勢必要增加才能很好地將背景和文本分離,但是增加圖像分塊的同時也加大了計算量,降低了識別系統(tǒng)的效率,這二者之間的平衡還需要通過實驗來獲得一個較佳的終值.
[1]章毓晉.圖像處理和分析[M].北京:清華大學(xué)出版社,2001.
[2]Lorigo L M,Govindaraju V.Offline arabic hand writing recognition:a survey,pattern analysis and machine intelligence[J].IEEE Transactions,2006,28(5):712-724.
[3]莊 軍,李弼程,陳 剛.一種有效的文本圖像二值化方法[J].微計算機(jī)信息,2005,21(8):56-57.
[4]楊 玲.脫機(jī)手寫體漢字識別研究[D].成都:西華大學(xué)數(shù)學(xué)與計算機(jī)學(xué)院,2008.
[5]Al-Shaher A A,Hancock E R.Learning mixtures of point distribution models with the EM algorith m.pattern recognition[J].Pattern Recognition,2003,(36):2805-2818.
[6]Xu L,Jordan M I.On conver gence properties of the em algorithm for Gaussian mixtures.Neural Computation[J].Neural Co mputation,1996(8):129-151.