蔡曉娟,黃鶴鳴
(青海師范大學(xué) 計算機(jī)學(xué)院,青海 西寧 810008)
基于多投影的脫機(jī)手寫藏文字符特征提取方法
蔡曉娟,黃鶴鳴
(青海師范大學(xué) 計算機(jī)學(xué)院,青海 西寧 810008)
脫機(jī)手寫藏文字符的識別能夠促進(jìn)藏文化的發(fā)展和傳播,其識別的方法是根據(jù)脫機(jī)手寫藏文字符圖像的特征進(jìn)行識別。由于原始定義下的行列投影向量對于脫機(jī)手寫藏文字符圖像的表示不夠充分,文中提出一種基于多投影歸一化的脫機(jī)手寫藏文字符特征提取算法。首先,對脫機(jī)手寫藏文字符圖像分別在橫向、縱向、主對角線方向和次對角線方向進(jìn)行投影,得到行投影向量、列投影向量、主投影向量和次投影向量;然后,對投影向量進(jìn)行歸一化處理,將歸一后的向量合并成一個向量,即為該脫機(jī)手寫藏文字符圖像的特征向量;最后,使用KNN分類器對測試樣本進(jìn)行識別。對建立的脫機(jī)手寫藏文字符樣本數(shù)據(jù)庫中的樣本進(jìn)行實驗。結(jié)果表明,該算法不僅計算簡單,而且有較好的識別效果。
脫機(jī)手寫藏文字符;特征提??;投影向量;歸一化;多投影歸一化向量
手寫體文字識別[1-3]是模式識別的一個典型應(yīng)用。隨著藏文信息化程度的不斷提高,越來越多的研究者開始進(jìn)行脫機(jī)手寫藏文字符識別方面的研究[4-9]。脫機(jī)手寫藏文字符識別的關(guān)鍵是提取能充分代表藏文字符信息的特征。
多投影歸一化特征是把圖像的多投影特征和密度歸一化結(jié)合生成的一種特征[9-12]。文獻(xiàn)[9]采用圖像投影法對藏文字符進(jìn)行特征提??;文獻(xiàn)[10]給出了“投影歸一化”的定義;文獻(xiàn)[11-12]對圖像的投影方向進(jìn)行擴(kuò)展,在原有的橫向投影和縱向投影基礎(chǔ)上,給出了主對角線方向投影和次對角線方向投影的定義。
文中提出了一種基于多投影歸一化的脫機(jī)手寫藏文字符特征提取算法。算法首先對藏文字符圖像進(jìn)行平滑去噪、傾斜校正、歸一化、二值化等環(huán)節(jié)的預(yù)處理,得到大小為48×24的字符圖像;然后,使用行投影、列投影、主對角投影、次對角投影分別抽取字符圖像的投影特征;再將字符圖像的投影特征密度歸一化,得到該字符圖像的投影歸一化特征;最后,利用KNN分類器[13-15]對測試樣本進(jìn)行特征識別。該算法可以得到較好的識別結(jié)果。
二維圖像的投影法是指投射線通過圖像,在指定方向投射,得到被投圖像光點(diǎn)的方法。歸一化是將數(shù)值的絕對值化為相對值,簡化計算。
1.1 投影歸一化原始定義
(1)
(2)
歸一化行投影向量和列投影向量分別為:
(3)
(4)
1.2 投影方向的擴(kuò)展
由于行、列投影特征對脫機(jī)手寫體藏文字符信息表示不夠充分,因此,文中給出了擴(kuò)展投影特征的定義,即主對角線方向的投影和次對角線方向的投影。
eZhu=
(5)
eCi=
(6)
歸一化主投影向量和次投影向量分別為:
(7)
(8)
式中:eSum為同行列投影的eSum;pZhu稱為主投影歸一化向量;pCi稱為次投影歸一化向量。
由于KNN算法是一種簡單、易于理解、易于實現(xiàn)、無需估計參數(shù)的分類算法,因此,KNN成為了一種應(yīng)用很廣泛的分類器。
2.1 KNN算法原理
對于一個未知樣本,KNN把它與已知樣本一一比較,找出距離未知樣本最近的k個已知樣本,即未知樣本的k個近鄰。這k個近鄰中屬于哪一類最多,則把這個未知樣本歸于哪一類。
KNN可以表示為:設(shè)有N個已知樣本分屬于c個類wi,i=1,2,…,c,考查新樣本x在這些樣本中的前k個近鄰,設(shè)其中有ki個屬于wi類,則wi類的判別函數(shù)為:
(9)
在實際應(yīng)用中,k的取值需要根據(jù)樣本情況進(jìn)行選擇,通常k的取值為奇數(shù)。
2.2 KNN算法步驟
使用KNN分類器對脫機(jī)手寫藏文字符進(jìn)行特征識別,具體步驟如下:
(1)將藏文字符圖像提取出來的N維特征與該字符圖像所屬的類別對應(yīng),即將N維的特征向量擴(kuò)展成N+1維。其中的前N維仍存放該字符圖像的特征,第N+1維存放該字符圖像所屬類別的類別號。
(2)確定近鄰個數(shù)k的值,近鄰個數(shù)能夠影響分類的結(jié)果,通常k為奇數(shù)。
(3)選擇一個測試樣本的特征向量X與訓(xùn)練集中所有樣本的特征向量進(jìn)行相似度比較。相似度是指兩向量之間的歐氏距離。測試樣本的特征向量X與訓(xùn)練樣本的特征向量Y相似度表達(dá)式如下:
(10)
(11)
(4)對數(shù)組d中第1列數(shù)采用冒泡排序的方法,進(jìn)行k次排序,得到數(shù)組d中第1列數(shù)的前k個值是按從小到大的順序排列的。數(shù)組d中的第2列數(shù)也隨著第1列數(shù)的變化而發(fā)生改變。
(5)對數(shù)組d中第2列數(shù)的前k個數(shù)進(jìn)行分析比較,類別號最多的記為label,則該測試樣本字符可以判定為label類。
(6)判斷l(xiāng)abel與X(N+1)的值是否相等。若相等,則表示該測試樣本識別正確;反之,則表示該測試樣本識別錯誤。
文中提出的方法是在Windows7操作系統(tǒng)下使用MATLAB7.0編程實現(xiàn)的。
文中實驗使用的數(shù)據(jù)是來自實驗室自建的脫機(jī)手寫藏文字符樣本數(shù)據(jù)庫。該數(shù)據(jù)庫是由藏文字符的30個輔音組成,表1給出了每個藏文字符的樣本個數(shù)。該樣本數(shù)據(jù)庫中樣本的總數(shù)為8 658個,選擇每個輔音字母樣本的80%作為訓(xùn)練集,20%作為測試集。
表1 藏文字符對應(yīng)的樣本個數(shù)
圖1為實驗中用到的不同藏文字符的圖像。
圖1 部分藏文字符樣本
文中實現(xiàn)的脫機(jī)手寫藏文字符的識別系統(tǒng)有預(yù)處理、特征提取和分類決策。具體流程如下:
(1)脫機(jī)手寫藏文字符圖像經(jīng)過預(yù)處理后得到大小為48×24的二值圖像,即可以用0-1矩陣bw表示該字符圖像。其中,1表示描述藏文字符的像素,0表示背景像素。
(2)對bw進(jìn)行多方向投影分別得到行投影向量eRow、列投影向量eCol、主對角線方向的投影向量eZhu和次對角線方向的投影向量eCi。
(3)對投影向量分別進(jìn)行歸一化處理,根據(jù)式(3),(4),(7),(8)可以得到行投影歸一化向量pRow、列投影歸一化向量pCol、主投影歸一化向量pZhu和次投影歸一化向量pCi,然后將這些投影歸一化向量組合成262維的多投影歸一化特征向量,即投影歸一化特征為:
(4)利用KNN分類器對1 743個待測手寫藏文字符樣本分別進(jìn)行雙投影歸一化(行、列投影歸一化)特征識別和多投影歸一化(行、列、主、次投影歸一化)特征識別。
表2給出了平均識別率以及識別一個樣本需要的時間,即樣本的平均識別率和識別時間。
表2 投影歸一化特征的識別效果
根據(jù)對脫機(jī)手寫藏文字符圖像進(jìn)行投影歸一化生成特征向量,使用KNN分類器進(jìn)行識別分類,可以得到該識別系統(tǒng)的識別效果。對這些識別效果進(jìn)行分析可以得到以下結(jié)果:
(1)基于雙投影歸一化的特征提取方法,在k=1,2,3時,識別率隨k的增加而增加,在k=5時達(dá)到最高。
(2)基于多投影歸一化的特征提取方法,在k=3時,識別正確率最高。
(3)由表2可知,在k的取值相同時,基于多投影歸一化特征的識別正確率要明顯高于基于雙投影歸一化特征的識別正確率。在k=3時,識別正確率最高,最高達(dá)到91.34%。
(4)由表2可知,同一歸一化特征的識別,識別時間隨k的增加而延長。
(5)基于多投影歸一化特征的識別時間要比基于雙投影歸一化特征的識別時間長。
文中提出了一種基于多投影歸一化特征的脫機(jī)手寫藏文字符特征提取的方法。使用KNN分類器,對1 747個待測樣本進(jìn)行測試。實驗結(jié)果表明,與雙投影歸一化特征提取相比,多投影歸一化特征提取的識別效果更好。
[1] 王建平,王夢澤.三枝粗糙集和變粒度原理的手寫體漢字識別[J].計算機(jī)工程與應(yīng)用,2014,50(22):223-227.
[2] 朱程輝,甘 恒,王建平.基于FSVM脫機(jī)手寫體漢字分類識別研究[J].計算機(jī)工程與應(yīng)用,2014,50(23):189-193.
[3] 姜 文,劉立康.基于實值Gabor能量特征的手寫體維文字符識別[J].計算機(jī)工程與設(shè)計,2013,34(9):3273-3278.
[4]HuangHeming,DaFeipeng.WaveletandmomentsbasedofflinehandwrittenTibetancharacterrecognition[J].JournalofInformationandComputationalScience,2013,10(6):1855-1859.
[5]HuangHeming,DaFeipeng,HanXiaoxu.Wavelettransformandgradientdirectionbasedfeatureextractionmethodforoff-linehandwrittenTibetanletterrecognition[J].JournalofSoutheastUniversity(EnglishEdition),2014,30(1):27-31.
[6] 李永忠,王玉雷,劉真真.藏文印刷體字符識別技術(shù)研究[J].南京大學(xué)學(xué)報:自然科學(xué),2012,48(1):55-62.
[7]MaLL,LiuHD,WuJ.MRG-OHTCdatabaseforon-linehandwrittenTibetancharacterrecognition[C]//Procofinternationalconferenceondocumentanalysisandrecognition.Beijing,China:[s.n.],2011:207-211.
[8]HuangHM,DaFP.Sparserepresentation-basedclassificationalgorithmforopticalTibetancharacterrecognition[J].Optik-internationalJournalforLightandElectronOptics,2014,125(3):1034-1037.
[9] 王維蘭.藏文基本字符識別算法研究[J].西北民族學(xué)院學(xué)報:自然科學(xué)版,1999,20(3):20-23.
[10] 周治緊,李玉鑑.基于投影歸一化的字符特征提取方法[J].計算機(jī)工程,2006,32(2):197-199.
[11] 盛業(yè)華,張 卡,葉 春,等.基于灰度投影的數(shù)字近景攝影立體影像匹配[J].光學(xué)學(xué)報,2005,25(12):1623-1628.
[12] 邵 楠,張 科.基于投影熵特征的圖像識別算法[J].計算機(jī)應(yīng)用,2013,33(10):2874-2877.
[13]MaLong,XiaoBaohua,WangChunheng.SparserepresentationbasedonK-nearestneighborclassifierfordegradedChinesecharacterrecognition[C]//ProcofPCM.Berlin:Springer,2010:506-514.
[14]WangMengzuo,ZhangDavid,WangKuanquan.Onkerneldifference-weightedk-nearestneighborclassification[J].PatternAnalysisandApplications,2008,11(3):247-257.
[15] 卜凡軍,錢雪忠. 基于向量投影的KNN文本分類算法[J].計算機(jī)工程與設(shè)計,2009,30(21):4939-4941.
Feature Extraction Method of Off-line Handwritten Tibetan Character Based on Multiple Projection
CAI Xiao-juan,HUANG He-ming
(School of Computer Science,Qinghai Normal University,Xining 810008,China)
Off-line handwritten Tibetan character recognition can promote the development and propagation of Tibetan culture,and the method of classification is based on the feature of off-line handwritten Tibetan character image.Since original definition of projection entropy does not make full use of image information,a feature extraction method of off-line handwritten Tibetan character based on multiple projection normalization is proposed.Firstly,an off-line handwritten Tibetan character image is scanned in horizontal,vertical,main diagonal and secondary diagonal directions to create a row projection vector,a column projection vector,a main projection vector and a secondary projection vector.Secondly,all projection vectors are normalized to create a multiple projection normalized vector that is the feature vector for this character image.Finally,KNN classifier is used in classification.The proposed method is tested on the developed off-line Tibetan handwritten character sample database.The experimental results demonstrate that the proposed method is not only easy in calculation but also efficient in recognition accuracy.
off-line handwritten Tibetan character;feature extraction;projection vector;normalization;multiple projection normalized vector
2015-06-29
2015-09-30
時間:2016-02-18
國家自然科學(xué)基金資助項目(61462072);教育部春暉計劃項目(Z2104020)
蔡曉娟(1991-),女,碩士研究生,研究方向為模式識別與智能系統(tǒng);黃鶴鳴,教授,碩導(dǎo),博士,研究方向為模式識別與智能系統(tǒng)。
http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1636.078.html
TP301
A
1673-629X(2016)03-0093-04
10.3969/j.issn.1673-629X.2016.03.022