姚 超,盧朝陽(yáng),李 靜,姜 維,范志輝
(1.西安電子科技大學(xué)通信工程學(xué)院,陜西西安 710071; 2.西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,陜西西安 710071)
一種分類器級(jí)聯(lián)的手寫相似漢字識(shí)別方法
姚 超1,2,盧朝陽(yáng)1,2,李 靜1,2,姜 維1,2,范志輝1,2
(1.西安電子科技大學(xué)通信工程學(xué)院,陜西西安 710071; 2.西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,陜西西安 710071)
針對(duì)手寫相似漢字識(shí)別問(wèn)題,提出一種新的基于分類器的方法來(lái)更全面地利用原始特征中的判別信息.新方法與現(xiàn)有的對(duì)相似漢字提取額外特征的方法不同,其在得到特征向量之后,首先利用修正的二次判別函數(shù)進(jìn)行分類,然后用支持向量機(jī)對(duì)分類結(jié)果中的相似漢字的上述特征向量進(jìn)行再一次的分類,得到最終的識(shí)別結(jié)果.利用分類混淆矩陣自動(dòng)得到相似漢字集合,并提出了一種新型的存儲(chǔ)結(jié)構(gòu)用于快速查找支持向量機(jī)的訓(xùn)練字典.在ETL9B手寫漢字?jǐn)?shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,所提出的方法可得到相對(duì)于提取額外特征方法更好的識(shí)別結(jié)果,以此證明了原始特征中存在對(duì)于相似字的判別信息,提出的基于分類器的方法可更好地利用這些判別信息.
相似漢字識(shí)別;手寫漢字識(shí)別;修正的二次判別函數(shù);支撐向量機(jī);分類器
文字識(shí)別作為模式識(shí)別的重要領(lǐng)域,一直得到學(xué)者們的廣泛關(guān)注,其中手寫漢字識(shí)別由于類別數(shù)多、個(gè)人書寫習(xí)慣差異較大等因素,成為文字識(shí)別中最困難的領(lǐng)域之一.從20世紀(jì)70年代開始,圖像預(yù)處理、特征提取以及分類器等技術(shù)被越來(lái)越多地應(yīng)用于手寫漢字識(shí)別,使其得到了巨大的發(fā)展.然而,對(duì)于無(wú)約束的手寫漢字識(shí)別仍然有很大的進(jìn)步空間[1].
手寫漢字識(shí)別的主要難點(diǎn)在于,大量相似漢字的存在以及不規(guī)則的書寫變形等,對(duì)一些差別極其細(xì)微的相似漢字,如“干”和“于”、“汗”和“訐”等,在書寫不規(guī)范時(shí),更加難以辨別,因此近年來(lái)對(duì)于相似字判別成為手寫漢字識(shí)別的熱點(diǎn)之一.早期的研究集中在分類器方面,文獻(xiàn)[2]用支持向量機(jī)(Support Vector Machine, SVM)對(duì)3組相似漢字進(jìn)行了識(shí)別.文獻(xiàn)[3]用小波對(duì)相似漢字提取特征,并研究了3種多值SVM結(jié)構(gòu)對(duì)相似漢字分類結(jié)果的影響.文獻(xiàn)[4]則對(duì)相似漢字利用了統(tǒng)計(jì)和神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法.這幾種方法雖然利用不同的分類器對(duì)相似漢字進(jìn)行識(shí)別,但都是對(duì)相似漢字提取了特征,并沒有在整個(gè)漢字集對(duì)如何識(shí)別相似漢字進(jìn)行研究.對(duì)于整個(gè)漢字集,文獻(xiàn)[5]指出在手寫漢字識(shí)別的過(guò)程中,由于一般都用線性判別分析(Linear Discriminant Analysis,LDA)[6]對(duì)特征進(jìn)行降維以便于后續(xù)的處理,但是當(dāng)LDA在降維后的維度遠(yuǎn)遠(yuǎn)小于類別數(shù)時(shí),將使原空間中距離較近的類別投影得更緊密,從而使距離較近的類別,即相似漢字,更加難以判別.針對(duì)這個(gè)問(wèn)題,文獻(xiàn)[5]對(duì)于相似漢字,提出了用LDA對(duì)每對(duì)相似漢字提取額外的判別特征,并用加權(quán)的歐式距離或馬氏距離進(jìn)行最終的判別.文獻(xiàn)[7]提出了用LDA判別向量來(lái)定位相似漢字的鑒別區(qū)域,并從這些鑒別區(qū)域提取額外的特征以便相似漢字的判別.文獻(xiàn)[8]針對(duì)相似漢字,提出了用2DLDA進(jìn)行手寫漢字特征優(yōu)化.文獻(xiàn)[9]用LDA為多個(gè)相似漢字提取額外的特征,并用級(jí)聯(lián)的修正的二次判別函數(shù)(Modified Quadratic Discriminant Function,MQDF)對(duì)多個(gè)相似漢字進(jìn)行判斷.
上述的方法都對(duì)相似漢字提取了額外的判別特征,因此都有效地提升了手寫漢字識(shí)別系統(tǒng)的整體性能,但是,對(duì)于原始的特征向量中判別信息是否足夠判別這些相似漢字,上述方法并沒有研究.針對(duì)這個(gè)問(wèn)題,筆者提出了用分類器級(jí)聯(lián)的方法進(jìn)一步利用原始特征中的判別信息來(lái)識(shí)別相似漢字.對(duì)于待識(shí)別樣本,經(jīng)過(guò)預(yù)處理、特征提取、降維等步驟得到特征向量后,首先用MQDF對(duì)特征向量進(jìn)行第1次判別,若第1次的判別結(jié)果有可能為相似字時(shí),則用SVM對(duì)此特征向量進(jìn)行再一次的判別,以得到最終識(shí)別結(jié)果.筆者采用混淆矩陣自動(dòng)得到相似漢字集合,并提出了一種存儲(chǔ)結(jié)構(gòu)以便于為相似漢字快速查找和讀取SVM的訓(xùn)練字典.在ETL9B手寫數(shù)據(jù)庫(kù)上的對(duì)比實(shí)驗(yàn)結(jié)果顯示,所提出方法獲得與提取額外特征方法相近或者更好的結(jié)果,這表明在原始特征中包含有對(duì)于相似漢字的判別信息,而通過(guò)所提出的分類器級(jí)聯(lián)方法可以更好地利用特征中的判別信息.
1.1 系統(tǒng)流程
文中所提出的分類器級(jí)聯(lián)的相似漢字識(shí)別系統(tǒng)流程如圖1所示.在預(yù)處理過(guò)程中,輸入的漢字圖像被歸一化到一個(gè)統(tǒng)一的尺寸上,并通過(guò)濾波器去除圖像上的噪聲.特征提取過(guò)程之后,從漢字圖像中提取的特征向量x=(x1,x2,…,xd)T,被投影到一個(gè)低維度的子空間:z=WTx=(z1,z2,…,zl)T,l<d,其中,W是由子空間的各投影方向組成的轉(zhuǎn)化矩陣.降維后的特征向量z被送入分類器,通過(guò)分類器MQDF[10]得到的相似度來(lái)得到判別結(jié)果.此時(shí),當(dāng)MQDF的判別結(jié)果為潛在的相似字時(shí),則該特征向量被送入SVM[11]做進(jìn)一步的判斷,以得到最終的識(shí)別結(jié)果;反之,MQDF的判別結(jié)果即為最終的識(shí)別結(jié)果.
圖1 系統(tǒng)流程圖
從圖1中可以看出,與近年來(lái)出現(xiàn)的相似漢字識(shí)別方法[5,7-9]相比,文中所提出的方法沒有為相似字提取額外的特征,而是用了兩級(jí)分類器來(lái)對(duì)其進(jìn)行判別,這樣做的目的在于,探索已有的特征中是否含有足夠的判別信息以判斷相似漢字.采用MQDF和SVM來(lái)構(gòu)造兩層分類器,是因?yàn)镸QDF在大類別的問(wèn)題上有著理論上的優(yōu)勢(shì),只需要對(duì)每個(gè)類別建立模型即可,所以,首先用MQDF在整個(gè)漢字集合對(duì)待識(shí)別樣本進(jìn)行分類;而SVM對(duì)小類別小樣本問(wèn)題解決得很出色,則SVM被用來(lái)處理相似字問(wèn)題.下面簡(jiǎn)單介紹MQDF和SVM的相關(guān)知識(shí).
1.2 MQDF
MQDF是二次判別函數(shù)(Quadratic Discriminant Function,QDF)在小樣本下的改進(jìn)方法,具體形式如下:
其中,d是輸入向量的維數(shù),μi代表類ωi的均值,pij和λj則是第i類的協(xié)方差矩陣Σi的第j個(gè)特征向量以及對(duì)應(yīng)的特征值.MQDF假設(shè)每個(gè)類別的先驗(yàn)概率都服從高斯分布,在此假設(shè)條件下,尋找x∈ωk= arg min g(x,ωi),MQDF可得貝葉斯最優(yōu)分類結(jié)果.為克服樣本量不足帶來(lái)的協(xié)方差矩陣Σi估計(jì)誤差問(wèn)題,MQDF用h2替代Σi中較小的特征值,當(dāng)特征值λi從大到小排列時(shí),k為截?cái)鄥?shù),代表了第k個(gè)特征值后的所有特征值均被h2替代.在式(1)中,當(dāng)每一類hi的都取相同值時(shí),稱這種形式的h與類別無(wú)關(guān);反之,則稱h與類別相關(guān).在實(shí)際應(yīng)用中,選擇參數(shù)h與類別無(wú)關(guān)的這種形式下時(shí),MQDF的表現(xiàn)往往優(yōu)于與類別相關(guān)的形式[11],所以文中采用與類別無(wú)關(guān)的形式.
MQDF由于結(jié)構(gòu)簡(jiǎn)單、便于多類問(wèn)題的分類、易于實(shí)現(xiàn)且具有很高的準(zhǔn)確性等特點(diǎn),被廣泛應(yīng)用于手寫文字識(shí)別中[5,7,9].
1.3 SVM
SVM是文獻(xiàn)[11]在一種最小化結(jié)構(gòu)風(fēng)險(xiǎn)準(zhǔn)則下提出的一種基于統(tǒng)計(jì)學(xué)習(xí)理論的分類器,其主要思想是最優(yōu)化線性可分情況下的分類平面.對(duì)兩類情況,若給定l個(gè)訓(xùn)練數(shù)據(jù)(xi,yi),i=1,2,…,l,其中,xi∈Rn,yi∈{-1,1},對(duì)于待分類樣本x,SVM確定其所屬類別的表達(dá)式為
其中,αi為每個(gè)樣本所對(duì)應(yīng)的權(quán)值,b為偏置,xi·x為向量?jī)?nèi)積運(yùn)算.實(shí)際中大部分樣本權(quán)值均為0,這些權(quán)值不為0的樣本稱為支撐向量.對(duì)于線性不可分的情況,SVM引入核函數(shù)來(lái)處理,其具體形式為
其中,K(xi·x)為向量?jī)?nèi)積的核函數(shù)映射.常用的核函數(shù)有線性核、多項(xiàng)式核、RBF核和Sigmoid核等.訓(xùn)練支撐向量機(jī)即在給定訓(xùn)練數(shù)據(jù)的情況下,通過(guò)下面的公式得到αi的過(guò)程:
其中,e∈Rl,其元素均為1;Q為半正定的核矩陣,其元素Qij=yiyjK(xi,xj),i,j=1,2,…,l.
2.1 相似漢字集合和判斷
2.1.1 相似漢字集合
對(duì)于類別數(shù)巨大的漢字識(shí)別,人工確定相似漢字基本是不可行的,因?yàn)?漢字類別數(shù)巨大,人工確定相似漢字需要消耗大量的人力物力;人工與機(jī)器判斷相似漢字的準(zhǔn)則不同,這將導(dǎo)致人工判斷出的相似漢字集合與機(jī)器判斷出的集合有所不同,所以文中利用混淆矩陣來(lái)確定相似漢字.混淆矩陣是從訓(xùn)練集上得到的識(shí)別結(jié)果確定的,對(duì)于C*C的混淆矩陣可表示為
其中,pij代表在特定的分類器下將第j類錯(cuò)分為第i類的概率.pij的值越大,第j類為第i類的相似漢字的概率越大.當(dāng)pij大于一個(gè)給定的閾值τ時(shí),則第j類為第i類的相似漢字.在實(shí)際中,用pij=ni→jni來(lái)計(jì)算,其中,ni→j代表在給定分類器下將第i類錯(cuò)分為第j類的樣本個(gè)數(shù),ni代表第i類所有樣本的個(gè)數(shù).
從上面的定義可知,混淆矩陣M的確定是與分類器相關(guān)的,不同的分類器會(huì)產(chǎn)生不同的相似字集合.與人工選取相似字集合相比,這種做法的針對(duì)性更強(qiáng).為了使混淆矩陣M的結(jié)果更可靠,訓(xùn)練數(shù)據(jù)應(yīng)該與分類數(shù)據(jù)為不同集合.在文中實(shí)驗(yàn)中,將訓(xùn)練集隨機(jī)分成兩份,其中,3/4的數(shù)據(jù)用來(lái)訓(xùn)練分類器,剩余的1/4數(shù)據(jù)用來(lái)估計(jì)混淆矩陣.實(shí)際中,如果數(shù)據(jù)量較小,則用交叉驗(yàn)證的方法來(lái)提升混淆矩陣的可靠性,文中采用了4組交叉驗(yàn)證來(lái)確定最終的混淆矩陣.在混淆矩陣估計(jì)完成后,所有的訓(xùn)練數(shù)據(jù)被重新用來(lái)訓(xùn)練分類器.
2.1.2 相似漢字判斷
得到相似字集合后,在識(shí)別過(guò)程中,用如下的方法判斷當(dāng)前輸入的漢字圖像是否需要進(jìn)行相似漢字判斷:
2.2 存儲(chǔ)結(jié)構(gòu)
針對(duì)上述MQDF和SVM相似漢字判斷的框架,構(gòu)造了如圖2所示的快速高效判斷相似漢字的存儲(chǔ)結(jié)構(gòu).
圖2 存儲(chǔ)結(jié)構(gòu)
圖2中,index是一個(gè)長(zhǎng)度為漢字類別數(shù)的數(shù)組,confusion pairs是一個(gè)長(zhǎng)度為相似字個(gè)數(shù)的數(shù)組,SVM models是一個(gè)長(zhǎng)度為相似字個(gè)數(shù)的SVM訓(xùn)練字典.index中的元素index[i]是第i個(gè)類別所對(duì)應(yīng)的相似字在confusion pairs數(shù)組中的位置以及第i個(gè)類別所對(duì)應(yīng)的相似字的個(gè)數(shù),index中的元素NIL代表其對(duì)應(yīng)的類別沒有相似字存在.假定系統(tǒng)中相似字的個(gè)數(shù)為num,第i個(gè)類別所對(duì)應(yīng)的相似字在confusion pairs數(shù)組中的位置為index[i]/num,對(duì)應(yīng)的相似字的個(gè)數(shù)為index[i]%num,其中,/代表取模運(yùn)算,%代表求余運(yùn)算.confusion pairs中的元素代表與當(dāng)前類別構(gòu)成相似字的對(duì)應(yīng)的類別,SVM models中的結(jié)構(gòu)體元素為對(duì)應(yīng)confusion pairs中兩類相似字的SVM字典.
為驗(yàn)證文中方法的有效性,在手寫漢字?jǐn)?shù)據(jù)庫(kù)ETL9B上進(jìn)行了實(shí)驗(yàn).ETL9B字符數(shù)據(jù)庫(kù)由日本電子工業(yè)發(fā)展協(xié)會(huì)、大學(xué)和研究機(jī)構(gòu)聯(lián)合協(xié)助的電工技術(shù)實(shí)驗(yàn)室收集.ETL9B數(shù)據(jù)庫(kù)包含了73類日文片假名和2 963類日文漢字,共3 036類文字,每個(gè)類別包含200個(gè)樣本,其中每個(gè)樣本為分辨率64×63的二值圖片.與常用的測(cè)試方法相同,文中用200個(gè)樣本中的前20個(gè)和后20個(gè)樣本進(jìn)行測(cè)試,其余的160個(gè)樣本進(jìn)行訓(xùn)練.文中實(shí)驗(yàn)軟件環(huán)境為Visual Studio 2010,硬件環(huán)境為Intel i5 3.2 GHz處理器,內(nèi)存為8 GB.
在預(yù)處理中的歸一化操作采用了基于線密度的非線性歸一化方法[12],將漢字圖像歸一化到64×64,然后在歸一化后的圖像上提取八方向的梯度特征[13],得到每個(gè)梯度圖像后,經(jīng)過(guò)高斯模糊再進(jìn)行64個(gè)點(diǎn)的采樣,最終得到一個(gè)512維的特征向量.用LDA來(lái)尋找投影子空間,并設(shè)定子空間的維數(shù)為180,最終投影后得到180維的特征被送入分類器進(jìn)行識(shí)別.
實(shí)驗(yàn)比較了作為基準(zhǔn)的MQDF[10]、基于LDA的合成距離算法[5](LDA compound)、相似模式判別分析(SPDA)[9]以及文中的基于MQDF和SVM級(jí)聯(lián)(MQDF+SVM)的方法,其中,LDA compound和SPDA是兩種對(duì)相似漢字提取額外特征的方法.對(duì)于LDA compound,采用了其中效果較好的馬氏距離來(lái)判別相似字,為得到LDA compound最優(yōu)的分類效果,以0.1為步長(zhǎng)遍歷了[0,1]內(nèi)的馬氏距離與MQDF距離的加權(quán)系數(shù).對(duì)于SPDA,采用了其提出的第2種級(jí)聯(lián)策略.為了比較各個(gè)算法的性能,LDA compound、SPDA以及MQDF+SVM都采用了節(jié)2.2中所描述的方法來(lái)確定相似字集合以及在分類過(guò)程中確定相似字,其中,SVM采用的是臺(tái)灣大學(xué)公開的LIBSVM[14].
選擇相似漢字的策略與分類器相關(guān),對(duì)于不同截?cái)鄥?shù)的MQDF,對(duì)應(yīng)著不同的相似漢字集合,表1給出了在不同截?cái)鄥?shù)以及不同的閾值下相似字集合的規(guī)模.在實(shí)驗(yàn)過(guò)程中,對(duì)于不同的截?cái)鄥?shù)k,選擇了不同的閾值τ,使相似字規(guī)模處于100~500之間.這樣做的目的在于,減少訓(xùn)練時(shí)間,因?yàn)閷?duì)用于比較的各算法都采用了同樣的相似字集合以及判別策略,所以對(duì)各算法的性能沒有影響.圖3給出了部分相似漢字的示例.
表1 不同參數(shù)下相似字集合規(guī)模
圖3 相似漢字示例
表2給出了對(duì)于不同的截?cái)鄥?shù),對(duì)以上提到的各算法在ETL9B上的表現(xiàn).從表2的實(shí)驗(yàn)結(jié)果可以看出,相比于作為基準(zhǔn)的MQDF,對(duì)相似字進(jìn)行了進(jìn)一步處理的方法,在識(shí)別的準(zhǔn)確率方面均有提升,文中提出的SVM+MQDF方法的效果略優(yōu)于其他提取額外特征的方法.這說(shuō)明原始特征中包含有判別相似漢字的信息,文中所提出的分類器級(jí)聯(lián)策略可以更好地利用這些判別信息.表2同時(shí)給出了幾種方法的平均處理時(shí)間.從平均識(shí)別消耗時(shí)間可以看出,LDA compound消耗的額外時(shí)間最少,相較于MQDF增加了0.001 52 ms,SPDA與文中提出的MQDF+SVM方法消耗額外時(shí)間大體相當(dāng),分別為0.010 04 ms和0.009 34 ms,相對(duì)于主體的消耗時(shí)間,對(duì)相似漢字的處理所消耗的時(shí)間幾乎可忽略.
進(jìn)一步分析表2中的實(shí)驗(yàn)結(jié)果.MQDF是一種基于高斯分布模型的分類器,其分類僅從概率出發(fā),并沒有考慮各個(gè)類別在空間中的相對(duì)關(guān)系,在LDA降維后對(duì)于空間位置較為接近的相似漢字必然難以判別.LDA compound方法在原空間中為相似漢字提取了額外的特征,然后采用馬氏距離和MQDF距離的加權(quán)來(lái)判斷相似漢字,從而提升了相似漢字的識(shí)別效果.但是馬氏距離本質(zhì)上依然是高斯分布模型的分類器,所以仍然有提高的空間.SPDA方法則是對(duì)于相似漢字提取額外特征后,用MQDF的級(jí)聯(lián)來(lái)得到最終識(shí)別結(jié)果,由于相對(duì)LDA compound方法,SPDA提取的特征維度更高,而MQDF分類器較馬氏距離能更好地判別相似模式,所以取得了較LDA compound更好的結(jié)果.文中提出的MQDF+SVM方法,其中,SVM考慮如何最好判別兩類并獲得最佳推廣能力這樣的特性,彌補(bǔ)了基于概率模型MQDF的不足,從而對(duì)相似字進(jìn)行了較好的判斷.相對(duì)其他為相似漢字提取額外特征的方法,文中所提出的MQDF+SVM是利用不同分類器的特性以更全面地利用已有特征中的判別信息,該方法對(duì)采用方向線素[13]、四方向梯度特征[13]等也具有適應(yīng)性.
表2 不同截?cái)鄥?shù)下的識(shí)別結(jié)果
針對(duì)手寫漢字識(shí)別中相似字識(shí)別問(wèn)題,提出一種分類器級(jí)聯(lián)的方法,以更全面地利用原始特征中的判別信息.與現(xiàn)有的為相似漢字提取額外特征的方法不同,該方法在得到特征向量之后,首先利用修正的二次判別函數(shù)進(jìn)行分類,然后用支持向量機(jī)對(duì)分類結(jié)果中的相似漢字的上述特征向量進(jìn)行再一次的分類,得到最終的識(shí)別結(jié)果.通過(guò)實(shí)驗(yàn)結(jié)果可以看出,原始特征中存在對(duì)于相似字的判別信息,提出的分類器級(jí)聯(lián)方法可更好地利用這些判別信息來(lái)判別相似漢字.
[1]Liu C L,Yin F,Wang D H,et al.Online and Offline Handwritten Chinese Character Recognition:Benchmarking on New Databases[J].Pattern Recognition,2013,46(1):155-162.
[2]田盛豐,黃厚寬.基于支持向量機(jī)的手寫體相似字識(shí)別[J].中文信息學(xué)報(bào),2000,14(3):37-41. Tian Shengfeng,Huang Houkuan.Recognition of Similar Chinese Handwriting by Support Vector Machine[J].Journal of Chinese Information Processing,2000,14(3):37-41.
[3]封筠,王彥芳,楊揚(yáng),等.SVM多值分類器在脫機(jī)手寫體相似漢字識(shí)別中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2004,40 (27):200-202. Feng Jun,Wang Yanfang,Yang Yang,et al.Recognition of Off-line Similar Handwritten Chinese Characters Based on Multi-class Support Vector Machines Classifier[J].Computer Engineering and Applications,2004,40(27):200-202.
[4]張德喜,馬少平.基于統(tǒng)計(jì)與神經(jīng)元方法相結(jié)合的手寫體相似字識(shí)別[J].中文信息學(xué)報(bào),1999,13(3):33-39. Zhang Dexi,Ma Shaoping.Handwritten Similar Chinese Characters Recognition Based on Combining Statistics with Neural Networks Method[J].Journal of Chinese Information Processing,1999,13(3):33-39.
[5]Gao T F,Liu C L.High Accuracy Handwritten Chinese Character Recognition Using LDA-based Compound Distances [J].Pattern Recognition,2008,41(11):3442-3451.
[6]Izenman A J.Linear Discriminant Analysis[M].New York:Springer,2008:237-280.
[7]Leung K C,Leung C H.Recognition of Handwritten Chinese Characters by Critical Region Analysis[J].Pattern Recognition,2010,43(3):949-961.
[8]高學(xué),溫文歡,金連文.用于相似字識(shí)別的手寫漢字特征優(yōu)化方法[J].哈爾濱工程大學(xué)學(xué)報(bào),2012,33(7):887-893. Gao Xue,Wen Wenhuan,Jin Lianwen.A Feature Optimization Method for Similar Handwritten Chinese Character Recognition[J].Journal of Harbin Engineering University,2012,33(7):887-893.
[9]Wang Y,Liu C,Ding X.Similar Pattern Discriminant Analysis for Improving Chinese Character Recognition Accuracy [C]//Proceedings of 12th International Conference on Analysis and Recognition.Washington:IEEE Computer Society, 2013:1056-1060.
[10]Kimura F,Takashina K,Tsuruoka S,et al.Modified Quadratic Discriminant Functions and the Application to Chinese Character Recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1987(1):149-153.
[11]Vapnik V.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag,2000.
[12]Liu C L,Sako H,Fujisawa H.Handwritten Chinese Character Recognition:Alternatives to Nonlinear Normalization [C]//Proceedings of 7th International Conference on Document Analysis and Recognition.Los Alamitos:IEEE Computer Society,2003:524-528.
[13]Liu C L.Handwritten Chinese Character Recognition:Effects of Shape Normalization and Feature Extraction[C]// Lecture Notes in Computed Science:4768.Heidelberg:Springer Verlag,2008:104-128.
[14]Chang C C,Lin C J.LIBSVM:a Library for Support Vector Machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):1-27.
(編輯:齊淑娟)
Hybrid classifier based method for similar handwritten Chinese character recognition
YAO Chao1,2,LU Zhaoyang1,2,LI Jing1,2,JIANG Wei1,2,FAN Zhihui1,2
(1.School of Telecommunication Engineering,Xidian Univ.,Xi’an 710071,China; 2.State Key Lab.of Integrated Service Networks,Xidian Univ.,Xi’an 710071,China)
To solve the similar handwritten character recognition problem,a novel scheme is proposed to make better use of the feature's discriminative information.Different from the methods for extracting the extra feature for the similar characters,the Modified Quadratic Discriminant Function(MQDF)is first adopted to classify the feature,then the Support Vector Machine(SVM)is used to discriminate the similar characters without the extra feature.To collect the subset of similar characters,the confusion matrix is employed.A new structure for storing the dictionary of the SVM is also proposed for quickly searching. Experimental results on ETL9B show the superior performance of the proposed scheme to the methods for extracting the extra feature,which proves that the feature contains discriminative information for the similar characters and that the proposed scheme can utilize this information very effectively.
similar character recognition;handwritten Chinese character recognition;modified quadratic discriminant function(MQDF);support vector machine(SVM);classifier
TP391.43
A
1001-2400(2015)05-0026-07
2014-05-26< class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間:
時(shí)間:2014-12-23
國(guó)家自然科學(xué)基金資助項(xiàng)目(60872141);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(K50510010007);華為高校創(chuàng)新研究計(jì)劃資助項(xiàng)目(IRP-2012-03-06)
姚 超(1985-),男,西安電子科技大學(xué)博士研究生,E-mail:yaochao@mail.xidian.edu.cn.
http://www.cnki.net/kcms/detail/61.1076.TN.20141223.0946.005.html
10.3969/j.issn.1001-2400.2015.05.005