劉朝陽,陳 以,李少博
(桂林電子科技大學 廣西 桂林 451004)
概率神經網絡在手寫漢字識別中的應用
劉朝陽,陳 以,李少博
(桂林電子科技大學 廣西 桂林451004)
針對手寫漢字的多樣性和復雜性,及識別困難的問題,提出了基于概率神經網絡的手寫漢字識別方法.概率神經網絡學習過程簡單,學習速度快,分類準確,吸收了徑向基神經網絡與經典的概率密度估計原理的優(yōu)點,與傳統(tǒng)的前饋神經網絡相比,在模式分類方面尤其具有較為顯著的優(yōu)勢.為提高識別的準確性和識別速度.在識別前,需要對待識別的漢字圖像進行預處理,為識別提供準確的漢字特征向量.而后通過概率神經網絡對所提供漢字特征向量進行訓練識別.通過對具有代表性幾組漢字樣本進行試驗.證明了方法的有效性.
概率神經網絡;手寫漢字識別;特征提??;圖像處理
隨著我國的國際地位的提升,綜合國力的提高,特別是文化軟實力的提升顯得尤為重要。而漢字作為中國悠悠五千年歷史的見證者,手寫漢字識別隨著科學技術的發(fā)展有了進一步提升的空間。不同于西方文字,漢字有其獨特的結構特征,即是由偏旁部首組成,且漢字的數(shù)量龐大,因此漢字識別有著必然的困難性和復雜性。鑒于光學字符識別系統(tǒng)OCR主要對印刷體漢字有著良好的識別能力;漢字識別方法有很多種,近年來,新的神經網絡算法不斷被提出,對漢字識別提供了新思路。概率神經網絡(PNN)是由D.F.Specht在1990年提出的。PNN吸收了徑向基神經網絡與經典概率密度估計原理的優(yōu)點,與傳統(tǒng)的前饋神經網絡相比,在模式識別分類方面具有較為顯著的優(yōu)勢。本文提出了基于概率神經網絡的手寫漢字識別方法。
本實驗使用HCL2000漢字庫通過圖像處理及神經網絡模式識別算法對漢字圖像進行識別,具體步驟如圖1所示。
圖1 識別流程圖Fig.1 Flow chart of recognition
1.1圖像預處理及特征向量提取
為了對待識別漢字進行良好的識別,必須對讀取到的數(shù)字矩陣圖像進行預處理,從而得到易于機器處理的清晰、特征明顯的圖像。利用圖像處理的各種算法對待處理的漢字圖像進行預處理,其步驟包括灰度化、二值化、去噪、細化及歸一化.經過以上5步驟得到用于提取特征向量的64×64的矩陣.通過對待識別圖像的網格特征和筆劃特征的提取得到其特征向量矩陣。
1.2概率神經網絡
圖2是概率神經網絡的結構圖.概率神經網絡PNN是徑向基網絡的一個分支,是前饋網絡的一種。它是一種有監(jiān)督的網絡的分類器,基于概率統(tǒng)計思想,由Bayes分類規(guī)則構成,采用Parzen窗函數(shù)密度估計方法估算條件概率,進行分類模式識別。
PNN的結構模型如圖2,共分4層:輸入層、樣本層(又稱模式層)、求和層和決策層(又稱競爭層輸出層).對應網絡輸入X=[x1,x2,…xm]T,其輸出為Y=[y1,y2,…,yL]T,輸入向量為m,待匹配的類別數(shù)為L。
概率神經網絡的學習算法如下:
第一步,歸一化:訓練樣本矩陣,得到的歸一化矩陣即學習樣本;
第二步,將歸一化好的m個樣本送入到網絡輸入層中;
第三步,計算樣本矩陣與學習矩陣中相應元素之間的距離;
第四步,模式層高斯函數(shù)的神經元被激活;
第五步,假設樣本有m個,那么一共可以分為c類,并且各類樣本的數(shù)目相同,設為k,則可以在網絡的求和層求得各個樣本屬于各類的初始概率和;
第六步,計算概率,即第i個樣本屬于第j類的概率。
圖2 PNN網絡結構Fig.2 PNN network structure
本實驗采用Windows XP操作系統(tǒng)和MATLAB 2009b平臺.其實驗窗口如圖3所示。
圖3 實驗窗口Fig.3 Experiments window
選用的樣本漢字是上下結構、左右結構、全包圍結構、簡單字和復雜字的具有代表性的手寫漢字。圖4(a)為預處理前的手寫標準漢字樣本,圖4(b)為預處理后的樣本圖像。
對實時輸入的所有待識別漢字進行同樣的特征提取,作為輸入樣本的特征向量。其中輸入漢字“叭”及其網格特征見圖5所示。
圖4 圖像處理前后的漢字庫Fig.4 The Chinese character library before and after image processing
圖5 圖像處理前后的樣本漢字Fig.5 Character image sample before and after treatment
經過上述處理得到模板特征向量,即圖4中64×64的0、1矩陣逐一通過PNN算法進行運算,得出訓練后的概率神經網絡結構。然后將輸入樣本的特征向量,輸入概率神經網絡進行識別,以手寫漢字“叭”為例的識別結果如圖6所示。
圖6 識別結果Fig.6 Results of recognition
概率神經網絡的優(yōu)點是網絡學習過程簡單,學習速率快,分類更準確。其學習速率比BP神經網絡快5個數(shù)量級,比RBF神經網絡快2個數(shù)量級。
對100個待識別樣本“叭”字經概率神經網絡的訓練后進行識別,待識別漢字的識別結果如表1所示,包括待識別樣本的識別率及運行時間。
從表1中結果來看,運行時間主要用在圖像處理及特征向量的提取,且利用概率神經網絡進行漢字識別時間比較短,識別率高。
表1 識別的示例Tab.1 Examples of recognition
文中提出了基于概率神經網絡的手寫漢字識別方法。由于其學習速率高,在漢字識別上相對于BP神經網絡有一定的優(yōu)越性.本實驗選用6組比較有代表性的漢字進行識別,得到了較好的識別效果。
本文實驗所使用的是HCL2000漢字庫.所挑選的待識別漢字都是書寫標準規(guī)范的漢字。識別漢字的數(shù)量有限,復雜程度有限,對書寫不規(guī)范的漢字的識別效果有待提高。隨著樣本數(shù)量的增加,對實驗所需的時間、存儲空間造成一定的影響,識別算法也需要改進優(yōu)化,在以后的研究中,可以用遺傳算法對進行概率神經網絡進行優(yōu)化,必要時可以增加漢字特征,在后續(xù)研究中在識別率及識別時間中找到平衡。
[1]趙蓉.基于神經網絡的聯(lián)機手寫識別系統(tǒng)研究與實現(xiàn)[D].西安:西安電子科技大學,2011.
[2]Fujisawa H.Forty years of research in character anddocument recognition:An industrial pperspective[J].Pattern recognition,2008,41(8):2435-2446.
[3]Basu S,Das N,Sarkar R,etal.A hierarchical approachto recognition of handwritten Bangla characters[J].Pattern Recognition,2009,42(7):1467-1484.
[4]Leung K C,Leung C H.Recognition of handwritten Chi-nese characters by critical region analysis[J].Pattern Recognition,2010,43(3):949-961.
[5]Wang Anna,Yuan Wenjing,Liu Junfang,etal.A novel pattern recognition algorithm:Combining ART network with SVM to reconstruct a multi-class classifier[J].Computers and Mathematics with Application,2009,57(11/12):1908-1914.
[6]許宜申,顧濟華,陶智.基于改進BP神經網絡的手寫字符識別[J].通信技術,2011(5):106-109.
[7]金鐵江.基于過程神經網絡的脫機手寫體漢字識別方法研究[D].合肥:合肥工業(yè)大學,2009.
Application of probabilistic neural network in Chinese handwritten character recognition
LIU Chao-yang,CHEN Yi,LI Shao-bo
(Guilin University of Electronic Science and Technology,Guilin 451004,China)
For the diversity and complexity of Chinese handwritten characters,and the identification difficult problem,a Chinese character recognition model based on probabilistic neural network is proposed.Probabilistic neural network learning process is simple,fast learning,classification accuracy,absorb the advantages of RBF neural network and classical probability density estimation.In order to improve recognition accuracy and recognition speed,before recognition,the Chinese characters should be processed,to provide accurated character feature vectors for recognition.Then character feature vectors that provided will be trained recognized by probabilistic neural network.In the experiment,representative samples of several groups of characters were used.The results show that the recognition of the shape changed Chinese characters among the provided samples is reliable and accurate.
PNN;Chinese handwritten characters;feature extraction;image processing
TP183
A
1674-6236(2016)02-0032-03
2015-03-10稿件編號:201503134
劉朝陽(1988—),男,河南漯河人,碩士研究生。研究方向:智能控制理論。