朱利娟 云中華 邊巴旺堆*
1(西藏大學藏文信息技術(shù)研究中心 西藏 拉薩 850012) 2(西藏大學工學院 西藏 拉薩 850012) 3(西藏大學信息技術(shù)國家級實驗教學示范中心 西藏 拉薩 850012)
文字識別技術(shù)[1](Optical Character Recognition),是模式識別、圖像處理及統(tǒng)計理論等多學科融合的一個重要應(yīng)用領(lǐng)域。利用一定的光電設(shè)備將在某介質(zhì)上的各種文字字符轉(zhuǎn)化成圖像,并利用計算機進行高速、自動地辨識[2]。OCR可分為印刷體和手寫體文字識別技術(shù)兩類。近年來越來越多的學者開始關(guān)注藏文文字識別技術(shù)領(lǐng)域,使藏文信息技術(shù)不斷提升和發(fā)展[3-4]。
文字識別過程可分為三個階段如圖 1 所示。第一階段待識別手寫文字圖像的采集階段即圖像輸入;第二階段輸入的文字圖像進行預(yù)處理和特征提?。坏谌A段藏文字符的分類識別以及識別后的處理過程[5-7]。
圖1 藏文字符識別系統(tǒng)的結(jié)構(gòu)框圖
由圖1可知藏文字符特征提取常用算法包括基于圖像投影法、方向線素法、分矩形法等[8-10]。其方向線素法特征提取中特征向量的維數(shù)過多、存儲空間大、運算速度慢,圖像投影法區(qū)分相似字能力較差。由圖2知藏文字形結(jié)構(gòu)復雜、相似字的比例高等,將給藏文文字識別帶來了很大的困難,而藏文文字識別方法的核心和關(guān)鍵技術(shù)是藏文字符的特征提取。
圖2 藏字結(jié)構(gòu)圖
為了使得藏文字符特征向量維數(shù)少、存儲空間小、運算速度快及區(qū)分相似字能力高,結(jié)合Rittavee等[11]提出的自適應(yīng)極坐標變換的算法,提出了一種基于極坐標變換的脫機手寫藏文字符特征提取法。該算法首先將藏文字符圖像進行預(yù)處理后得到大小、位置統(tǒng)一的二值圖像,并計算二值圖像的極點位置,其次求出f(x,y)=1的所有點對應(yīng)的極坐標(ρ,θ)。然后對所有點的極坐標進行投影變換,將變換之后得到的向量作為該脫機手寫藏文字符的特征向量,即可實現(xiàn)脫機手寫藏文字符的識別。結(jié)果表明該算法計算簡單并有效提升了藏文字符識別效果。
文字圖像獲取過程中,由于紙張質(zhì)量不同、印刷或書寫質(zhì)量不同及設(shè)備性能的優(yōu)劣使得圖像存在較大噪聲、對比度不夠等缺點,使模式識別的效果較低。故需要進行預(yù)處理消除圖像中無關(guān)的信息、最大限度地將干擾信息降到最低、恢復真實信息、簡化數(shù)據(jù)信息,從而提高特征提取、分類識別的可靠性。藏文字圖像預(yù)處理包括二值化、傾斜校正、行、列切分、平滑、去除噪聲、歸一化和抽取輪廓等[12]。本文中預(yù)處理有二值化、行、列切分、歸一化和平滑。二值化可得到0、1的二值點陣圖像,行列切分可找出單個字符的上下左右邊界,歸一化可得到大小、位置統(tǒng)一的字符,平滑可減少圖像的噪聲。
藏文字符圖像的二值化是將掃描字符的256灰度圖轉(zhuǎn)變成灰度值只有0、1的過程。其中二值化算法中的關(guān)鍵是求得一個最佳的閾值。
(1)
(2)
(3)
則有組內(nèi)方差:
(4)
組間方差:
(5)
大小歸一化需對不同大小的字符進行變換,使之尺寸大小統(tǒng)一,本文先確定輸入藏文字符的外接邊框,再將字符的外邊框按比例線性放大或縮小成48×24點陣。位置歸一化是把整個字符點陣圖像移到規(guī)定的位置上,文中采用基于質(zhì)心位置歸一化,先計算字符的質(zhì)心(Gi,Gj),然后把質(zhì)心移到指定的位置上。式(6)為計算字符質(zhì)心的公式:
(6)
式中:x、y分別表示橫坐標和縱坐標方向,f(x,y)=1表示該字符像素點為黑像素點即黑色,反之表示白色。top、bott、R、L分別表示字符圖像的上下左右邊界。
(a) (b)(c)(d)圖3 藏文字符“”預(yù)處理過程
特征提取需要從原始圖像數(shù)據(jù)中提取一系列穩(wěn)定的、典型的基本元素或相關(guān)的數(shù)學表達式,這些元素或數(shù)學表達式能夠精確反映圖像的特征。
1) 極坐標系的建立利用極坐標的基本思想本文利用方向和距離表示平面上一點與極點之間的關(guān)系。設(shè)f(x,y)是樣本字符預(yù)處理后得到的位置、大小統(tǒng)一的48×24二值點陣圖像,規(guī)定:
(7)
式中:x、y分別表示坐標橫軸和縱軸上的點x=1,2,3,…,48,y=1,2,3,…,24,f(x,y)表示二值點陣圖像中某點的坐標(x,y)是否屬于目標函數(shù)。f(x,y)=1時表明該點在目標函數(shù)上,則該字符像素點為黑像素;f(x,y)≠1時該點不在目標函數(shù)上,則該字符像素點為背景色。
極坐標系建立時利用式(8)、式(9)先計算極點ο的坐標(x0,y0)。
(8)
(9)
式中:H表示二值圖像的高度,W表示二值圖像的寬度。
圖4 藏文字符“”的極坐標系
2) 極坐標特征提取方法自適應(yīng)極坐標變換是一種基于圖片均勻采樣的極坐標變換法[11]。該方法充分利用了字符圖像信息,同時由于圓周方向上的采樣數(shù)隨著半徑值的增大而增加,使得藏文字符筆畫周邊信息得到有效的利用。直角坐標系下點(x,y)在極坐標系為(ρ,θ)。ρ為這一點到極點的距離,θ表示從極點到該點引出的射線與極軸的夾角大小。若以x軸的正方向為起點,逆時針遍歷直角坐標系下所有f(x,y)=1時的坐標點。若x0,y0表示直角坐標系下的坐標原點,利用直角坐標與極坐標的轉(zhuǎn)換公式:
(10)
(11)
將極坐標下圖像記為g(ρ,θ),nr表示沿半徑方向的采集數(shù),nθi表示第i個采集點的半徑處的圓周方向的采樣數(shù),nθmax表示Ri=Rmax處圓周方向的采樣數(shù),Ri表示半徑向第i個采樣點處的半徑值,Rp,θp分別表示在距離軸ρ和方向軸θ的投影,其中采樣點為f(x,y)=1時的點[13-14]。則有:
(12)
(13)
在Windows 7系統(tǒng)下用C++語言對本算法進行編程實驗。極坐標投影的流程圖如圖5所示。
圖5 極坐標變換流程圖
實驗使用的數(shù)據(jù)由基字和縱向疊加字符共580個藏文音節(jié)字符組成,其中包括基字30、基字+元音120個、上加字+基字33個、上加字+基字+元音132個、基字+下加字24個、基字+下加字+元音96個、特殊下加字+基字15個、特殊下加字+基字+元音60、上加字+基字+下加字14個、上加字+基字+下加字+元音56個。收集30 000個藏文手寫字體作為實驗數(shù)據(jù),其中80%的樣本作為訓練數(shù)據(jù),20%的樣本作為測試數(shù)據(jù)。建立識別字典中580個字符都有一個標準模板相對應(yīng)??紤]到速度與存儲量等因素,用KNN分類器對6 000個測試數(shù)據(jù)分別進行極坐標變換法特征提取及圖像投影法特征提取進行識別性能比較,如表1所示。KNN分類器[15]即k-最近鄰分類法是基于類比學習,通過將給定的檢驗元組與和它相似的訓練元組進行比較來學習。其算法關(guān)鍵是求得一個最佳的k值。在實際應(yīng)用中,KNN分類器中不同的近鄰數(shù)k影響著藏文字符的識別率。
表1 極坐標變換法和圖像投影法的識別性能對比
由表1可看出:(1) 基于圖像投影法的特征提取,近鄰個數(shù)k從1到7時,藏文字符的識別率隨著近鄰個數(shù)的增加而上升;在k=7時識別率最高,達到84.86%。當k從7到9時,藏文字符的識別率總體呈下降趨勢。(2) 基于極坐標變換法的特征提取,近鄰個數(shù)k從1到5時,藏文字符的識別率隨著近鄰個數(shù)的增加而上升;在k=5時識別率最高,達到96.32%。當k從5到9時,藏文字符的識別率總體呈下降趨勢。(3) 在k值相同時,基于極坐標投影變換法比基于圖像投影法的識別率有很大幅度的提高。(4) 兩種特征提取法方法中,識別時間都隨k值個數(shù)的增加而延長。雖然基于極坐標變換特征提取的方法普遍比基于圖形投影特征提取的方法識別時間長,但極坐標變換特征提取的方法識別率在最高時運行時間是42.25 ms,而基于圖形投影特征提取的方法識別率在最高時運行時間是43.97 ms??偟膩碚f基于極坐標變換特征提取的方法的運行速度快些。
由圖6可知特征空間的維數(shù)從10到74時識別率總體呈上升趨勢,當特征向量的維數(shù)為74時,識別效果達到最大,最大值為96.32%,當特征向量的維數(shù)大于74維時,識別率總體呈下降趨勢。
圖6 不同特征向量維數(shù)的識別率
針對脫機手寫藏文字符的字形多樣性、相似字符比例高等特點,分析了常用的藏文字符識別的方法,結(jié)合自適應(yīng)極坐標變換的思想,提出一種基于極坐標投影變換的藏文字符特征提取的方法,將其有效地運用到藏文字符的識別中。從實驗結(jié)果可以看出,該方法與以往的圖像投影法相比較,不僅能夠充分利用字符圖像的信息,而且藏文字符的識別率也有明顯的提高,對藏文字符的特征提取具有較好的識別效果。
[1] 劉偉. 脫機手寫體漢字識別的特征提取研究與實現(xiàn)[D].長沙:湖南大學,2007.
[2] 蔡曉娟. 基于LBP和PCA 的脫機手寫藏文字符識別系統(tǒng)[D].西寧:青海師范大學,2016.
[3] Huang H, Da F, Han X, et al. Wavelet transform and gradient direction based feature extraction method for off-line handwritten Tibetan letter recognition[J]. 東南大學學報(英文版), 2014, 30(1):27-31.
[4] Ma L L,Liu H D,Wu J.MRG-OHTC database for on-line handwritten Tibetan characterrecognition[C] // 2011 International Conference on Document Analysis and Recognition (ICDAR). Beijing, China: 2011:207-211.
[5] Lorigo L M, Govidaraju V. Offline Arabic handwriting recognition a survey[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(5):712.
[6] Vamvakas G,Gatos B,Perantonis S J. Handwritten character recognition through two-stage foreground sub-sampling[J].PatternRecognition,2010,43:2807-2816.
[7] 周緯,陳良育,曾振柄. 基于幾何形狀分析的藏文字符識別[J]. 計算機工程與應(yīng)用, 2012, 48(18): 201-205.
[8] 王維蘭.藏文基本字符識別算法研究[J].西北民族大學學報(自然科學版),1999,20(3):20-23.
[9] 王維蘭,丁小青,陳力,等.印刷體現(xiàn)代藏文識別研究[J].計算機工程,2003,29(3):37-39.
[10] 劉真真,李永忠,沈曄華. 基于分形矩的印刷體藏文特征提取方法[J].江南大學學報(自然科學版),2007,6(6):791-794.
[11] Matungka R, Zheng Y F, Ewing R L. Image registration using adaptive polar transform.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2009, 18(10):2340-2354.
[12] 高定國,珠杰.藏文信息處理的原理與應(yīng)用[M].成都:西南交通大學出版社,2014:152-159.
[13] 符艷軍,程永梅,潘泉,等.基于自適應(yīng)極坐標變換的景象匹配算法[J].西北工業(yè)大學學報,2011,29(5):702-708.
[14] 高冠東,王晶,劉菲,等.一種基于極坐標變換的點模式匹配算法[J]. 計算機工程與科學,2016,38(2):331-336.
[15] 李衛(wèi)平,楊杰,王鋼.比例逆權(quán)重KNN算法及其流處理應(yīng)用[J].計算機工程與設(shè)計,2015,36(12):3355-3358.