葛明濤+王小麗+潘立武
摘 要: 聯(lián)機(jī)手寫識別在日常生產(chǎn)生活中有著廣闊的應(yīng)用,模式識別也一直把其作為研究的重點(diǎn)。傳統(tǒng)的識別方法是利用普通卷積神經(jīng)網(wǎng)絡(luò)技術(shù),該方法在對小規(guī)模字符集聯(lián)機(jī)手寫文字識別時有著較高識別率,總體性能高,但在對大規(guī)模字符集識別時,識別率則大大降低。提出一種基于多重卷積神經(jīng)網(wǎng)絡(luò)的識別方法,旨在克服以往方法對大規(guī)模字符集識別時識別效率不高的問題,提高大規(guī)模字符集聯(lián)機(jī)手寫文字的識別率。系統(tǒng)使用隨機(jī)對角Levenberg?Marquardt方法來優(yōu)化訓(xùn)練,通過使用UNIPEN訓(xùn)練集測試該方法識別準(zhǔn)確率可達(dá)89%,是一個有良好前景的聯(lián)機(jī)手寫識別方法。
關(guān)鍵詞: 模式識別; 神經(jīng)網(wǎng)絡(luò); 卷積; 文字識別
中圖分類號: TN711?34; TP391.4 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2014)20?0019?03
Large pattern online handwriting character recognition based on multi?convolution neural network
GE Ming?tao1, WANG Xiao?li1, PAN Li?wu2
(1. SIAS International School, Zhengzhou University, Zhengzhou 451150, China;
2. Henan University of Animal Husbandry and Economy, Zhengzhou 450011, China)
Abstract: Online handwriting character recognition is an important field in the research of pattern recognition. The traditional recognition method is based on the common convolutional neural networks (CNNs) technology. It has an efficient recognition rate for the small pattern character set online handwriting characters, but has low recognition rate for the large pattern character set recognition. A recognition method based on multi?convolutional neural networks (MCNNs) is presented in this paper to overcome the situation that the previous methods have the low recognition rate for large pattern character set and improve the recognition rate for the large pattern handwriting character set recognition. The stochastic diagonal Levenbert?Marquardt method is used in the system for training optimization. The experimental results show that the proposed method has the recognition rate of 89% and has a good prospect for online handwriting character recognition for large scale pattern.
Keywords: pattern recognition; neural network; convolution; character recognition
0 引 言
隨著全球信息化的飛速發(fā)展和對自動化程度要求的不斷提高 ,手寫文字識別技術(shù)被廣泛地應(yīng)用到許多方面。特別是近幾年擁有手寫功能的手機(jī)、平板電腦等智能電子產(chǎn)品的普及,聯(lián)機(jī)手寫文字識別研究已經(jīng)成為一個備受關(guān)注的主題。聯(lián)機(jī)手寫字符識別要求實(shí)時性較高,識別過程中要求特征空間的維數(shù)比較高,在進(jìn)行特征樣本訓(xùn)練時要求訓(xùn)練的數(shù)目很大,要匹配的特征值或特征對象比較多 [1?2]。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)的優(yōu)點(diǎn)在于圖像的識別過程中對視覺模式的獲得是直接從原始圖像中獲得的,所以在設(shè)計(jì)系統(tǒng)時圖像的預(yù)處理工作很少,與一般神經(jīng)網(wǎng)絡(luò)相比是一種高效的識別方法。卷積神經(jīng)網(wǎng)絡(luò)在模式識別的一些領(lǐng)域具有很好的魯棒性,如在識別有變化的模式和對幾何變形的識別方面。利用卷積神經(jīng)網(wǎng)絡(luò)的手寫識別方法具有如下一些優(yōu)點(diǎn):對于要檢測的圖像可以與事先制定網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)之間有較高的匹配率;特征提取和模式分類同時進(jìn)行;訓(xùn)練參數(shù)往往是系統(tǒng)計(jì)算量的重要參數(shù),而卷積神經(jīng)網(wǎng)絡(luò)中利用權(quán)值共享技術(shù),這樣就可以大大降低該參數(shù),在設(shè)計(jì)系統(tǒng)結(jié)構(gòu)時使得結(jié)構(gòu)變得更簡單,從而使得整個系統(tǒng)具有更好的適應(yīng)性[3?5]。
目前,人機(jī)交互系統(tǒng)的手寫字符識別、汽車車牌號識別和信息安全中常用的人臉識別等領(lǐng)域都有卷積神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用。文獻(xiàn)[6]用一個4層的卷積神經(jīng)網(wǎng)絡(luò)LeNet?5對Mnist庫進(jìn)行識別實(shí)驗(yàn),獲得了98.4%的識別率,用2層的BP網(wǎng)絡(luò)的識別率[4,6]是87%。許多學(xué)者對卷積神經(jīng)網(wǎng)絡(luò)在聯(lián)機(jī)手寫文字識別方面做了多方位的研究。 但是,這些成功的聯(lián)機(jī)手寫文字識別主要是針對小模式字符集,利用以往的這些方法對大規(guī)模模式分類的聯(lián)機(jī)手寫文字的識別依然有識別率不高的問題。本文介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本概念和一種典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),給出了基于多重卷積神經(jīng)網(wǎng)絡(luò)的字符識別和詞語識別模型。通過使用大字符集的UNIPEN數(shù)據(jù)庫進(jìn)行訓(xùn)練和測試,本文提出的方法在大模式聯(lián)機(jī)手寫識別上,取得了較高的識別速度和滿意的識別率。
1 卷積神經(jīng)網(wǎng)絡(luò)
文獻(xiàn)[6?7]中詳細(xì)地描述了卷積神經(jīng)網(wǎng)絡(luò)如何保證圖像對位移、縮放、扭曲魯棒性能。典型的手寫字符卷積神經(jīng)網(wǎng)絡(luò)LeNET 5的結(jié)構(gòu)圖如圖1所示[6?7]。
圖1 典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在圖1中,輸入層接收要識別32×32的手寫字符圖像,經(jīng)過簡單的大小歸一化和圖像灰度處理,之后的結(jié)果作為一個采樣層的圖像;然后用一個可學(xué)習(xí)核進(jìn)行卷積操作,卷積結(jié)果經(jīng)過激活函數(shù)的輸出形成這一層的神經(jīng)元,每個神經(jīng)元與輸入圖像的一個5×5的鄰域相連接,從而得到由6幅特征圖組成的第一個隱層(C1層)。每個特征圖有25個權(quán)值(如方向線段,端點(diǎn)、角點(diǎn)等),考慮到邊界效果,得到的特征圖的大小是28×28,小于輸入圖層[3?9]。卷積層的數(shù)學(xué)計(jì)算過程可表示為:
[xlj=fi∈Mjxl-1j*kernellij+blj] (1)
式中:[l] 代表層數(shù);kernel是卷積核;[Mj]代表輸入特征圖的一個選擇。每個輸出圖有一個偏置[b]。
每個卷積層的結(jié)果作為下一個次采樣層的輸入,次采樣層的作用是對輸入信息進(jìn)行抽樣操作。如果輸入的特征圖為n個,則經(jīng)過次采樣層后特征圖的個數(shù)仍然為n,但是輸出的特征圖要變?。ɡ?,各維變?yōu)樵瓉淼?0%)。因此隱層S2是由6個大小為14×14的特征圖組成的次采樣層。次采樣層計(jì)算公式可以用式(2)表示:
[xlj=fβl-1jdown(xl-1j)+blj] (2)
式中down(·) 表示次采樣函數(shù)。次采樣函數(shù)一般是對該層輸入圖像的一個n×n大小的區(qū)域求和,因此,輸出圖像的大小是輸入圖像大小的[1n]。每一個輸出的特征圖有自己的β和b。
類似的,C3層有16個10×10的特征圖組成的卷積層,特征圖的每個神經(jīng)元與S2網(wǎng)絡(luò)層的若干個特征圖的5×5的鄰域連接。網(wǎng)絡(luò)層S4是由16個大小為5×5的特征圖組成的次采樣層。特征圖的每個神經(jīng)元與C3層的一個2×2大小的鄰域相連接。網(wǎng)絡(luò)層C5是由120個特征圖組成的卷積層。每個神經(jīng)元與S4網(wǎng)絡(luò)層的所有特征圖的5×5大小的鄰域相連接。網(wǎng)絡(luò)層F6,包括84個神經(jīng)元,與網(wǎng)絡(luò)層C5進(jìn)行全連接。最后,輸出層有10個神經(jīng)元,是由徑向基函數(shù)單元(RBF)組成,輸出層的每個神經(jīng)元對應(yīng)一個字符類別。RBF單元的輸出yi的計(jì)算方法如式(3)所示:
[yi=j(xj-wij)2] (3)
很多研究人員通過對字符集作彈性訓(xùn)練,經(jīng)測試發(fā)現(xiàn)在MNIST字符集上的識別率可以高達(dá)99%以上[6?7] 。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢主要是對小模式集上,如對數(shù)字或26個英文字母組成的集合都有著較高的識別率。然而,對大模式集的識別仍然是一個挑戰(zhàn),因?yàn)樵O(shè)計(jì)一個優(yōu)化的并足夠大的單一網(wǎng)絡(luò)是比較困難的,且訓(xùn)練時間也較長。因此,本文的目的旨在通過組合多個對某一字符集有高識別率的卷積神經(jīng)網(wǎng)絡(luò),從而構(gòu)成多重卷積神經(jīng)網(wǎng)絡(luò),進(jìn)而提高卷積神經(jīng)網(wǎng)絡(luò)對大模式集手寫字符的識別率。
2 多重卷積神經(jīng)網(wǎng)絡(luò)
2.1 多重卷積神經(jīng)網(wǎng)絡(luò)字符識別
根據(jù)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)算過程以及其在處理大模式集手寫字符時存在的不足,本文提出一種多重卷積神經(jīng)網(wǎng)絡(luò)來改進(jìn)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型,用多個擁有高識別率的小卷積神經(jīng)網(wǎng)絡(luò)組成一個多重卷積神經(jīng)網(wǎng)絡(luò)。每一重小卷積神經(jīng)網(wǎng)絡(luò)對某一具體字符集有較高的識別率,另外,單重卷積神經(jīng)網(wǎng)絡(luò)除了有一個正式的輸出集之外,還產(chǎn)生一個未知的輸出(即難以識別的字符),即如果一個輸入字符沒有被正確識別,它將被輸出為一個未知字符,然后輸入模式轉(zhuǎn)到下一重卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識別。最后,通過一個拼寫檢查模塊進(jìn)行判斷,選擇最好的結(jié)果輸出。系統(tǒng)的流程如圖2所示。
其中CNN 1是識別手寫數(shù)字的卷積神經(jīng)網(wǎng)絡(luò),CNN 2是識別手寫小寫英文字母的卷積神經(jīng)網(wǎng)絡(luò),該模型具有極強(qiáng)的擴(kuò)展性,可以添加多任意模式的卷積神經(jīng)網(wǎng)絡(luò)(如中文,日文等)。
圖2 多重卷積神經(jīng)網(wǎng)絡(luò)字符識別示意圖
2.2 隨機(jī)對角Levenberg?Marquardt訓(xùn)練方法
傳統(tǒng)的結(jié)構(gòu)比較簡單、單一的卷積神經(jīng)網(wǎng)絡(luò)多采用基本的Back Propagation(BP)規(guī)則訓(xùn)練網(wǎng)絡(luò),往往需要幾百次迭代,網(wǎng)絡(luò)的收斂速度較慢。本文采用LeCun博士提出的隨機(jī)對角Levenberg?Marquardt 算法對網(wǎng)絡(luò)作訓(xùn)練,該算法需要的迭代次數(shù)明顯比基本的BP 算法少[4,9]。隨機(jī)對角Levenberg?Marquardt算法的公式為:
[ηki=ε?2E?w2ij+μ] (4)
式中[ε]是全局的學(xué)習(xí)率,一般取初始值0.01,太大會使網(wǎng)絡(luò)無法收斂,太小則會降低收斂速度,且使網(wǎng)絡(luò)更容易陷入局部極小值,訓(xùn)練過程中可以用啟發(fā)式規(guī)則改變[ε]的值,本文取最下值為5e-005; [?2E?w2ij]是一個估計(jì)值,根據(jù)訓(xùn)練集的大小可以調(diào)整樣本數(shù)量,文中隨機(jī)選取200個樣本估算它的值;[μ]用來避免[?2E?w2ij] 太小時[ηki]的變化過大 。
2.3 多重卷積神經(jīng)網(wǎng)絡(luò)詞句識別
本文提出的多重卷積神經(jīng)網(wǎng)絡(luò)對手寫詞語的識別方法可以簡單地描述為:首先對輸入的手寫圖像進(jìn)行預(yù)處理和分割,然后通過多重卷積神經(jīng)網(wǎng)絡(luò)模塊分別進(jìn)行識別,最后采用單詞識別模塊對識別結(jié)果進(jìn)行判斷,選擇最好的結(jié)果輸出。其過程如圖3所示。
圖3 多重卷積神經(jīng)網(wǎng)絡(luò)聯(lián)機(jī)手寫詞句識別過程
本文提出的多重卷積神經(jīng)網(wǎng)絡(luò)聯(lián)機(jī)手寫文字識別方法克服了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)文字識別的對字符集的限制,每一重卷積神經(jīng)網(wǎng)絡(luò)是一個針對小模式的卷積神經(jīng)網(wǎng)絡(luò),易于訓(xùn)練和優(yōu)化,更重要的是此方案的靈活性非常好易于調(diào)節(jié)參數(shù),可擴(kuò)展性強(qiáng)。每一重卷積神經(jīng)網(wǎng)絡(luò)都具有可重用能力,可以根據(jù)需要加載一個或多個網(wǎng)絡(luò),可以根據(jù)新的模式添加新的網(wǎng)絡(luò)而不需改變或重建原來的網(wǎng)絡(luò)。
3 訓(xùn)練和實(shí)驗(yàn)
為了評估多重卷積神經(jīng)網(wǎng)絡(luò)對基于大模式字符集的聯(lián)機(jī)手寫文字識別的性能,本系統(tǒng)采用MNIST和UNIPEN兩種不同的手寫字符訓(xùn)練集進(jìn)行測試。UNIPEN數(shù)據(jù)庫是在1992年舉行的IEEE IAPR會議上提出并建立的,其目的是創(chuàng)建一個大型的手寫體數(shù)據(jù)庫用于為在線手寫識別提供研究和開發(fā)的基礎(chǔ),得到了多個知名公司或研究所的支持并完成了UNIPEN的規(guī)范設(shè)計(jì)。在進(jìn)行數(shù)據(jù)比對實(shí)驗(yàn)中,本文采用許多研究使用的MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫,該數(shù)據(jù)庫是NEC 研究中心設(shè)計(jì)的,是NIST(The National Institute of Standards and Technology)數(shù)據(jù)庫的一個子集,該訓(xùn)練集中有大量訓(xùn)練樣本和測試用例。本文默認(rèn)用以下定義:
[識別率=正確識別數(shù)樣本總數(shù)×100%]
[失誤率誤識率=錯誤識別數(shù)樣本總數(shù)×100%]
實(shí)驗(yàn)測試是在通用的臺式電腦上進(jìn)行的。整個識別原型系統(tǒng)采用C#編寫,運(yùn)行在.NetFrame 4.5平臺上。經(jīng)測試對MNIST訓(xùn)練集識別正確率可達(dá)[9]99%,對UNIPEN數(shù)字識別正確率可達(dá)97%,對UNIPEN數(shù)字和大寫字母識別正確率可達(dá)89%(1a,1b) ,對UNIPEN小寫字母識別正確率可達(dá)89%(1c) 。圖4是對UNIPEN小寫字母3次訓(xùn)練的均方誤差比較。
圖4 訓(xùn)練的誤差數(shù)據(jù)
從圖4中可以看出,在開始的幾個訓(xùn)練周期內(nèi),均方誤差(MSE)下降得很快,然后在第13個周期后神經(jīng)網(wǎng)絡(luò)達(dá)到一個穩(wěn)定的值,約為0.148 5。也就是說,網(wǎng)絡(luò)在第13個周期后,改善程度就很小。所以修改訓(xùn)練錯誤率的值為0.000 45后重新進(jìn)行18代的第二次訓(xùn)練,均方誤差有所降低。經(jīng)過第三次的訓(xùn)練后趨于穩(wěn)定,對UNIPEN小寫字母識別正確率可達(dá)89%。經(jīng)測試,通過使用隨機(jī)對角Levenberg?Marquardt方法,收斂速度比基本BP算法快了許多,經(jīng)過68代訓(xùn)練后識別正確率可達(dá)89%。
4 結(jié) 語
本文提出了基于多重卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫字符的識別方法,通過使用多個識別率高的卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)對角 Levenberg? Marquardt方法,可以適用于大模式聯(lián)機(jī)手寫識別。經(jīng)過實(shí)驗(yàn)數(shù)據(jù)比較,該方法在大模式聯(lián)機(jī)手寫識別過程中具有很高的識別率,與此同時識別速度也很快,有很好的實(shí)時性,總體效果很好。在當(dāng)今觸摸屏應(yīng)用遍及生產(chǎn)生活的各個方面的趨勢下,該方法有著廣闊的應(yīng)用前景。同時此方法為今后多手寫漢字識別的研究提供了很好的借鑒。
注:本文通訊作者為潘立武。
參考文獻(xiàn)
[1] 吳鳴銳,張鈸.一種用于大規(guī)模模式識別問題的神經(jīng)網(wǎng)絡(luò)算法[J].軟件學(xué)報(bào),2001,12(6):851?855.
[2] 張輝.大規(guī)模聯(lián)機(jī)手寫漢字識別數(shù)據(jù)庫整理、統(tǒng)計(jì)與實(shí)驗(yàn)分析[D].廣州:華南理工大學(xué),2012.
[3] 徐姍姍,劉應(yīng)安,徐昇,等.基于卷積神經(jīng)網(wǎng)絡(luò)的木材缺陷識別[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2013,43(2):23?28.
[4] 呂剛.基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識別[J].浙江師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(4):425?428.
[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.
[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.
[8] SERMANET P, CHINTALA S, LECUN Y. Convolutional neural networks applied to house numbers digit classification [C]// International Conference on Pattern Recognition. [S.l.]: IEEE, 2012: 3288?3291.
[9] LECUN Y, BOTTOU L, ORR G B, et al. Efficient BackProp in neural networks: tricks of the trade, LNCS [M]. Heidelberg: Springer, 1998, 1524: 9?50.
3 訓(xùn)練和實(shí)驗(yàn)
為了評估多重卷積神經(jīng)網(wǎng)絡(luò)對基于大模式字符集的聯(lián)機(jī)手寫文字識別的性能,本系統(tǒng)采用MNIST和UNIPEN兩種不同的手寫字符訓(xùn)練集進(jìn)行測試。UNIPEN數(shù)據(jù)庫是在1992年舉行的IEEE IAPR會議上提出并建立的,其目的是創(chuàng)建一個大型的手寫體數(shù)據(jù)庫用于為在線手寫識別提供研究和開發(fā)的基礎(chǔ),得到了多個知名公司或研究所的支持并完成了UNIPEN的規(guī)范設(shè)計(jì)。在進(jìn)行數(shù)據(jù)比對實(shí)驗(yàn)中,本文采用許多研究使用的MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫,該數(shù)據(jù)庫是NEC 研究中心設(shè)計(jì)的,是NIST(The National Institute of Standards and Technology)數(shù)據(jù)庫的一個子集,該訓(xùn)練集中有大量訓(xùn)練樣本和測試用例。本文默認(rèn)用以下定義:
[識別率=正確識別數(shù)樣本總數(shù)×100%]
[失誤率誤識率=錯誤識別數(shù)樣本總數(shù)×100%]
實(shí)驗(yàn)測試是在通用的臺式電腦上進(jìn)行的。整個識別原型系統(tǒng)采用C#編寫,運(yùn)行在.NetFrame 4.5平臺上。經(jīng)測試對MNIST訓(xùn)練集識別正確率可達(dá)[9]99%,對UNIPEN數(shù)字識別正確率可達(dá)97%,對UNIPEN數(shù)字和大寫字母識別正確率可達(dá)89%(1a,1b) ,對UNIPEN小寫字母識別正確率可達(dá)89%(1c) 。圖4是對UNIPEN小寫字母3次訓(xùn)練的均方誤差比較。
圖4 訓(xùn)練的誤差數(shù)據(jù)
從圖4中可以看出,在開始的幾個訓(xùn)練周期內(nèi),均方誤差(MSE)下降得很快,然后在第13個周期后神經(jīng)網(wǎng)絡(luò)達(dá)到一個穩(wěn)定的值,約為0.148 5。也就是說,網(wǎng)絡(luò)在第13個周期后,改善程度就很小。所以修改訓(xùn)練錯誤率的值為0.000 45后重新進(jìn)行18代的第二次訓(xùn)練,均方誤差有所降低。經(jīng)過第三次的訓(xùn)練后趨于穩(wěn)定,對UNIPEN小寫字母識別正確率可達(dá)89%。經(jīng)測試,通過使用隨機(jī)對角Levenberg?Marquardt方法,收斂速度比基本BP算法快了許多,經(jīng)過68代訓(xùn)練后識別正確率可達(dá)89%。
4 結(jié) 語
本文提出了基于多重卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫字符的識別方法,通過使用多個識別率高的卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)對角 Levenberg? Marquardt方法,可以適用于大模式聯(lián)機(jī)手寫識別。經(jīng)過實(shí)驗(yàn)數(shù)據(jù)比較,該方法在大模式聯(lián)機(jī)手寫識別過程中具有很高的識別率,與此同時識別速度也很快,有很好的實(shí)時性,總體效果很好。在當(dāng)今觸摸屏應(yīng)用遍及生產(chǎn)生活的各個方面的趨勢下,該方法有著廣闊的應(yīng)用前景。同時此方法為今后多手寫漢字識別的研究提供了很好的借鑒。
注:本文通訊作者為潘立武。
參考文獻(xiàn)
[1] 吳鳴銳,張鈸.一種用于大規(guī)模模式識別問題的神經(jīng)網(wǎng)絡(luò)算法[J].軟件學(xué)報(bào),2001,12(6):851?855.
[2] 張輝.大規(guī)模聯(lián)機(jī)手寫漢字識別數(shù)據(jù)庫整理、統(tǒng)計(jì)與實(shí)驗(yàn)分析[D].廣州:華南理工大學(xué),2012.
[3] 徐姍姍,劉應(yīng)安,徐昇,等.基于卷積神經(jīng)網(wǎng)絡(luò)的木材缺陷識別[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2013,43(2):23?28.
[4] 呂剛.基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識別[J].浙江師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(4):425?428.
[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.
[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.
[8] SERMANET P, CHINTALA S, LECUN Y. Convolutional neural networks applied to house numbers digit classification [C]// International Conference on Pattern Recognition. [S.l.]: IEEE, 2012: 3288?3291.
[9] LECUN Y, BOTTOU L, ORR G B, et al. Efficient BackProp in neural networks: tricks of the trade, LNCS [M]. Heidelberg: Springer, 1998, 1524: 9?50.
3 訓(xùn)練和實(shí)驗(yàn)
為了評估多重卷積神經(jīng)網(wǎng)絡(luò)對基于大模式字符集的聯(lián)機(jī)手寫文字識別的性能,本系統(tǒng)采用MNIST和UNIPEN兩種不同的手寫字符訓(xùn)練集進(jìn)行測試。UNIPEN數(shù)據(jù)庫是在1992年舉行的IEEE IAPR會議上提出并建立的,其目的是創(chuàng)建一個大型的手寫體數(shù)據(jù)庫用于為在線手寫識別提供研究和開發(fā)的基礎(chǔ),得到了多個知名公司或研究所的支持并完成了UNIPEN的規(guī)范設(shè)計(jì)。在進(jìn)行數(shù)據(jù)比對實(shí)驗(yàn)中,本文采用許多研究使用的MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫,該數(shù)據(jù)庫是NEC 研究中心設(shè)計(jì)的,是NIST(The National Institute of Standards and Technology)數(shù)據(jù)庫的一個子集,該訓(xùn)練集中有大量訓(xùn)練樣本和測試用例。本文默認(rèn)用以下定義:
[識別率=正確識別數(shù)樣本總數(shù)×100%]
[失誤率誤識率=錯誤識別數(shù)樣本總數(shù)×100%]
實(shí)驗(yàn)測試是在通用的臺式電腦上進(jìn)行的。整個識別原型系統(tǒng)采用C#編寫,運(yùn)行在.NetFrame 4.5平臺上。經(jīng)測試對MNIST訓(xùn)練集識別正確率可達(dá)[9]99%,對UNIPEN數(shù)字識別正確率可達(dá)97%,對UNIPEN數(shù)字和大寫字母識別正確率可達(dá)89%(1a,1b) ,對UNIPEN小寫字母識別正確率可達(dá)89%(1c) 。圖4是對UNIPEN小寫字母3次訓(xùn)練的均方誤差比較。
圖4 訓(xùn)練的誤差數(shù)據(jù)
從圖4中可以看出,在開始的幾個訓(xùn)練周期內(nèi),均方誤差(MSE)下降得很快,然后在第13個周期后神經(jīng)網(wǎng)絡(luò)達(dá)到一個穩(wěn)定的值,約為0.148 5。也就是說,網(wǎng)絡(luò)在第13個周期后,改善程度就很小。所以修改訓(xùn)練錯誤率的值為0.000 45后重新進(jìn)行18代的第二次訓(xùn)練,均方誤差有所降低。經(jīng)過第三次的訓(xùn)練后趨于穩(wěn)定,對UNIPEN小寫字母識別正確率可達(dá)89%。經(jīng)測試,通過使用隨機(jī)對角Levenberg?Marquardt方法,收斂速度比基本BP算法快了許多,經(jīng)過68代訓(xùn)練后識別正確率可達(dá)89%。
4 結(jié) 語
本文提出了基于多重卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫字符的識別方法,通過使用多個識別率高的卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)對角 Levenberg? Marquardt方法,可以適用于大模式聯(lián)機(jī)手寫識別。經(jīng)過實(shí)驗(yàn)數(shù)據(jù)比較,該方法在大模式聯(lián)機(jī)手寫識別過程中具有很高的識別率,與此同時識別速度也很快,有很好的實(shí)時性,總體效果很好。在當(dāng)今觸摸屏應(yīng)用遍及生產(chǎn)生活的各個方面的趨勢下,該方法有著廣闊的應(yīng)用前景。同時此方法為今后多手寫漢字識別的研究提供了很好的借鑒。
注:本文通訊作者為潘立武。
參考文獻(xiàn)
[1] 吳鳴銳,張鈸.一種用于大規(guī)模模式識別問題的神經(jīng)網(wǎng)絡(luò)算法[J].軟件學(xué)報(bào),2001,12(6):851?855.
[2] 張輝.大規(guī)模聯(lián)機(jī)手寫漢字識別數(shù)據(jù)庫整理、統(tǒng)計(jì)與實(shí)驗(yàn)分析[D].廣州:華南理工大學(xué),2012.
[3] 徐姍姍,劉應(yīng)安,徐昇,等.基于卷積神經(jīng)網(wǎng)絡(luò)的木材缺陷識別[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2013,43(2):23?28.
[4] 呂剛.基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識別[J].浙江師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(4):425?428.
[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.
[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.
[8] SERMANET P, CHINTALA S, LECUN Y. Convolutional neural networks applied to house numbers digit classification [C]// International Conference on Pattern Recognition. [S.l.]: IEEE, 2012: 3288?3291.
[9] LECUN Y, BOTTOU L, ORR G B, et al. Efficient BackProp in neural networks: tricks of the trade, LNCS [M]. Heidelberg: Springer, 1998, 1524: 9?50.