喻方元
(湖北汽車工業(yè)學(xué)院 理學(xué)院,湖北 十堰 442002)
導(dǎo)出核學(xué)習(xí)算法及其在手寫體漢字識(shí)別上的應(yīng)用
喻方元
(湖北汽車工業(yè)學(xué)院 理學(xué)院,湖北 十堰 442002)
介紹了基于神經(jīng)反應(yīng)的導(dǎo)出核學(xué)習(xí)算法,以金連文漢字字庫(kù)為例,將學(xué)習(xí)算法運(yùn)用于手寫體漢字識(shí)別,取得了較好的識(shí)別效果。
導(dǎo)出核;神經(jīng)反應(yīng);金連文漢字字庫(kù)
2008年11 月,美國(guó)著名數(shù)學(xué)家、數(shù)學(xué)諾貝爾獎(jiǎng)——菲爾茲數(shù)學(xué)獎(jiǎng)與沃爾夫數(shù)學(xué)獎(jiǎng)雙料得主、加利福尼亞大學(xué)steve smale教授發(fā)表了題為mathemat?ics of neural response的文章,首次提出了導(dǎo)出核算法。這一研究成果與人們對(duì)靈長(zhǎng)類動(dòng)物視覺(jué)皮層的解剖學(xué)與生物學(xué)研究結(jié)果是一致的。研究表明:靈長(zhǎng)類動(dòng)物的視覺(jué)過(guò)程具有分級(jí)結(jié)構(gòu),層次越高神經(jīng)元的感受野以及它們的最佳刺激的復(fù)雜性增大,認(rèn)識(shí)對(duì)象的精度也在不斷提高。
近年來(lái)各國(guó)學(xué)者做了很多研究工作,學(xué)者們將這一研究思想編成算法,應(yīng)用到字符串的識(shí)別,得到了較高的識(shí)別率。
脫機(jī)手寫漢字識(shí)別被認(rèn)為是模式識(shí)別領(lǐng)域最后的堡壘。其用途十分廣泛。常用于信函分揀、銀行支票識(shí)別和統(tǒng)計(jì)報(bào)表處理等。
手寫漢字脫機(jī)識(shí)別困難最根本的原因是漢字字形復(fù)雜,相似性太強(qiáng),手寫漢字的字形自由度高,變化大。正所謂:“人心不同,字如其面”。可以說(shuō),不同的人書(shū)寫的字是千差萬(wàn)別。識(shí)別的準(zhǔn)確性同時(shí)依賴于識(shí)別算法以及漢字特征提取。
雖然各國(guó)學(xué)者做了很多研究工作,提出了許多思路和方法。但是目前還沒(méi)有哪一種方法能夠完全解決自由書(shū)寫的漢字識(shí)別問(wèn)題。
本文中以金連文漢字字庫(kù)為例,將基于神經(jīng)反應(yīng)的導(dǎo)出核學(xué)習(xí)算法應(yīng)用于脫機(jī)手寫體漢字識(shí)別上,取得到了較好的結(jié)果。
2.1 基于神經(jīng)反應(yīng)的導(dǎo)出核算法的基本思想
對(duì)于人類來(lái)說(shuō),觀察視覺(jué)對(duì)象是否相像,是通過(guò)視覺(jué)神經(jīng)反應(yīng)傳遞到大腦皮層從而做出判斷的。一般靈長(zhǎng)類動(dòng)物都有這個(gè)能力。具體過(guò)程可以認(rèn)為是先看到視覺(jué)對(duì)象的某個(gè)局部,然后逐漸放大直到整個(gè)圖像,最后做出像與不像的判斷。希望用數(shù)學(xué)的方法來(lái)描述人類的這種視覺(jué)皮層的神經(jīng)反映過(guò)程。
構(gòu)造基于待識(shí)別對(duì)象的各級(jí)神經(jīng)反應(yīng),通過(guò)由小到大逐級(jí)構(gòu)造待識(shí)別漢字的神經(jīng)反應(yīng)與導(dǎo)出核,達(dá)到識(shí)別漢字的目的。這種漢字識(shí)別的分層學(xué)習(xí)算法,符合人類視野逐步開(kāi)闊的視覺(jué)反應(yīng)特征。
基于神經(jīng)反應(yīng)導(dǎo)出核學(xué)習(xí)算法的關(guān)鍵是模仿靈長(zhǎng)類動(dòng)物的這一視覺(jué)習(xí)慣,先定義最低級(jí)的神經(jīng)反應(yīng),在此基礎(chǔ)上定義1級(jí)相似度,在1級(jí)相似度的基礎(chǔ)上,定義2級(jí)神經(jīng)反應(yīng),然后定義2級(jí)相似度,類推,定義3級(jí)相似度。對(duì)于一般視覺(jué)對(duì)象,分成3級(jí)比較合適。
導(dǎo)出核就是神經(jīng)反應(yīng)的內(nèi)積。它可以用于圖像的相似度。神經(jīng)反應(yīng)以及導(dǎo)出核的定義采取循環(huán)遞歸的形式,從局部到整體的分層結(jié)構(gòu),可以解釋人類的視覺(jué)習(xí)慣。在每一個(gè)層面上,導(dǎo)出核是由上一層定義的神經(jīng)反應(yīng)的內(nèi)積所得。在圖像的情形,導(dǎo)出核考慮了圖像的子塊、中間塊和全部圖像3層結(jié)構(gòu)。在字符串情形,導(dǎo)出核在某第m個(gè)字符作為子字符串。從學(xué)習(xí)理論角度,導(dǎo)出核的構(gòu)造并不奇怪,導(dǎo)出核最終可用于解決監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)等任務(wù)。
2.2 內(nèi)積與再生核函數(shù)
給定集X,稱函數(shù)K∶X×X→R是一個(gè)再生核函數(shù),若K對(duì)稱正定:
總假定K(x,x′)≠0,核函數(shù)標(biāo)準(zhǔn)化得
2.3 基于神經(jīng)反應(yīng)的導(dǎo)出核算法
將視覺(jué)對(duì)象看成3層分層結(jié)構(gòu),如圖1所示:u?v?sq。
圖1 視覺(jué)對(duì)象分層結(jié)構(gòu)
做有限平移變換集:
取有限模板集:
本文中的再生核是內(nèi)積核:
所謂f在t上的神經(jīng)反應(yīng)為
式中:t是u到v的平移變換集合,t∈Tu;f的神經(jīng)反應(yīng)是空間的一個(gè)向量;|Tu|是T的基數(shù)?;谏窠?jīng)反應(yīng)的導(dǎo)出核為
重復(fù)上述步驟得到2級(jí)神經(jīng)反應(yīng)及其導(dǎo)出核。
將上述算法用Matlab編程,得到具體算法。
2.4 脫機(jī)手寫體漢字識(shí)別問(wèn)題
1)非特定人群手寫體漢字識(shí)別問(wèn)題 由于漢字字形結(jié)構(gòu)復(fù)雜,相似字形較多,手寫體書(shū)寫自由度大,特征不明顯等造成手寫體漢字特別是脫機(jī)手寫體漢字識(shí)別問(wèn)題難度較大。
2)非特定人群手寫體漢字字庫(kù) 現(xiàn)在國(guó)內(nèi)常見(jiàn)的用于研究非特定人群手寫體漢字庫(kù)有Hcl2004漢字庫(kù)(北京郵電大學(xué)開(kāi)發(fā))、4MSL漢字庫(kù)(中科院研發(fā))、SCUT_IRAC金連文手寫體漢字庫(kù)(華南理工大學(xué)開(kāi)發(fā))。
3)金連文漢字字庫(kù)及其識(shí)別 金連文手寫體漢字庫(kù)是具有一定書(shū)寫能力的人手寫的漢字字庫(kù),收集常用漢字近6 000個(gè),具有一定代表性。常用金連文手寫漢字舉例:本文中提取金連文漢字字庫(kù)中20余個(gè)漢字,標(biāo)準(zhǔn)化為64×64灰度值矩陣,按列排序成4 096維的列向量,每個(gè)漢字取40~60個(gè),取其中15個(gè)左右作為學(xué)習(xí)的模板,其它作為待識(shí)別對(duì)象,運(yùn)用導(dǎo)出核學(xué)習(xí)算法,分3層識(shí)別過(guò)程,取得了較好的識(shí)別效果。
1)漢字的特征提取 漢字的特征提取方法很多,對(duì)于提高識(shí)別精度有直接作用,將漢特征提取與本導(dǎo)出核算法結(jié)合,可以進(jìn)一步提高識(shí)別精度。
2)平移變換推廣到旋轉(zhuǎn)變換 本算法主要針對(duì)平移算法,研究推廣到旋轉(zhuǎn)變換。
3)算法推廣 本算法可以平行推廣到其他識(shí)別問(wèn)題,如汽車牌照識(shí)別、人臉識(shí)別等,特別是人臉識(shí)別在智能識(shí)別方面有廣泛應(yīng)用。
[1]V Vapnik.Statistical Learning Theory[M].New York: John Wiley&Sons Inc,1998.
[2]S Smale,T Poggio,A Caponnetto,J Bouvrie.Derived Dis?tance:Towards a Mathematical Theory of Visual Cortex[J].CBCL paper,MIT,2007.
[3]A Caponnetto,Tomaso Poggio,Steve Smale.On a Model of Visual Cortex[J].CBCL Paper,MIT,2007.
[4]S Smale,L Rosasco,J Bouvrie,et al.Mathematics of Neu?ral Response[J].CBCL Paper,MIT,2008.
[5]高學(xué),金連文,尹俊勛,等.基于筆劃的手寫體漢字方向分解特征提取方法[J].華南理工大學(xué)(自然科學(xué)版):2003(3):11-14.
[6]金連文,覃劍釗.手寫漢字識(shí)別彈性網(wǎng)格Gabor特征提取方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2004,21(12):163-165.
[7]張凱,王建文.基于混合核函數(shù)的脫機(jī)手寫漢字識(shí)別[J].計(jì)算機(jī)與數(shù)字工程,2007(12):25-27+61+160.
Derived Kernel Learning Algorithm and Its Application in Recognition of Handwritten Chinese Characters
Yu Fangyuan
(School of Sciences,Hubei University of Automotive Technology,Shiyan 442002,China)
The derived kernel learning algorithm based on the neural response was introduced.Taking Jin Lianwen Chinese characters font as an example,the learning algorithm was applied to recognition of the handwritten Chinese characters,and the practice shows it gets good results.
derived kernel;neural response;Jin Lianwen Chinese characters font
TP181;O29
:A
:1008-5483(2016)04-0074-03
10.3969/j.issn.1008-5483.2016.04.017
2016-04-07
喻方元(1961-),男,湖北黃岡人,教授,從事應(yīng)用數(shù)學(xué)及學(xué)習(xí)理論研究。E-mail:635731997@qq.com