亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN 和隨機彈性形變的相似手寫漢字識別*

        2014-08-16 07:59:16高學王有旺
        關(guān)鍵詞:特征實驗模型

        高學 王有旺

        (華南理工大學 電子與信息學院,廣東 廣州 510640)

        脫機手寫漢字的識別問題一直是模式識別研究領(lǐng)域的難點之一[1].2010年中國模式識別會議(CCPR2010)的手寫漢字識別比賽結(jié)果顯示,針對GB2312—80 一級字符集的脫機手寫漢字識別,最好的系統(tǒng)僅僅可以達到89.89%的首候選識別率[2].手寫漢字識別的主要困難在于類別數(shù)量大、結(jié)構(gòu)復雜、書寫風格多樣,特別是大量相似漢字的存在,以及不規(guī)則的書寫變形,使得它們之間的差別極其細微,例如,“子”和“予”,“干”、“千”和“于”,“己”、“已”和“巳”等字的區(qū)分性特征很難提取,使得這些字難以正確識別.同時CCPR2010 的測試結(jié)果顯示,當前的識別系統(tǒng)已經(jīng)可以達到98.64%的10 候選正確識別率.因此,改善相似漢字的識別性能是提高無約束手寫漢字識別系統(tǒng)性能的關(guān)鍵.

        針對傳統(tǒng)人工神經(jīng)網(wǎng)絡訓練困難、收斂緩慢的難題,Hinton 等[3]基于深信度網(wǎng)絡(DBN)提出了無監(jiān)督貪心逐層訓練算法,為解決與深層結(jié)構(gòu)相關(guān)的優(yōu)化難題做出了有意義的探索.LeCun 等[4]提出的卷積神經(jīng)網(wǎng)絡(CNN)是第一個真正用于多個隱層的學習算法,它能夠提取數(shù)據(jù)的空間關(guān)系,并通過減少訓練參數(shù)來提高反向傳播(BP)算法的訓練性能.

        受CNN 模型成功應用于手寫數(shù)字識別[4]、交通信號識別[5]及人臉識別[6]等的啟發(fā),文中將漢字特征提取和特征降維過程相結(jié)合,提出了一種基于CNN 的相似手寫漢字識別方法,并通過對漢字圖像進行彈性形變的方法對樣本集進行擴展,以提高CNN 模型的泛化能力和魯棒性,最后通過實驗驗證了該方法的有效性.

        1 卷積神經(jīng)網(wǎng)絡模型

        CNN 是由LeCun 等[4]提出的一種用于文檔圖像識別的神經(jīng)網(wǎng)絡模型,已廣泛用于語音分析[7]和圖像識別[6]等領(lǐng)域.CNN 通過權(quán)值共享和卷積運算直接處理二維圖像,避免了傳統(tǒng)模式識別算法中復雜的特征提取和數(shù)據(jù)重建過程.

        CNN 模型的3 個結(jié)構(gòu)特性(局部感受野、權(quán)值共享和次抽樣)使其能夠自適應輸入樣本的平移、縮放和旋轉(zhuǎn)等形變.局部感受野是指每層網(wǎng)絡的單個神經(jīng)元只與其輸入層中相對應的某個鄰域內(nèi)的神經(jīng)元相連接(一般取5 ×5 矩形區(qū)域內(nèi)的神經(jīng)元),這樣每個神經(jīng)元可以提取輸入圖像的結(jié)構(gòu)特征,如方向、線段、端點、角點等.權(quán)值共享可以極大地減少網(wǎng)絡模型的訓練參數(shù),需要相對少的訓練樣本.次抽樣通過降低特征圖的分辨率并抽樣選取優(yōu)秀的特征,使得模型具有抗噪能力,同時降低了特征維度.文中提出的CNN 模型的拓撲結(jié)構(gòu)如圖1 所示,輸入圖像分別和8 個經(jīng)過訓練的濾波器(K×K 的卷積核)進行卷積運算,得到8 個圖像(大小為28 ×28),每個圖像表示8 個不同濾波器濾波后獲得的特征,稱為特征圖.

        圖1 CNNs 模型的拓撲結(jié)構(gòu)Fig.1 Topology of CNNs model

        從圖1 可以看出,CNN 由輸入層、隱層和輸出層組成.隱層分為3 類:①卷積層,用于特征提取;②抽樣層,用于特征優(yōu)化選取;③傳統(tǒng)多層感知機中的隱層(如圖1 中卷積層5 和輸出層6 之間可以有多個傳統(tǒng)神經(jīng)網(wǎng)絡的隱層,文中卷積層5 直接連接輸出層6,以減少訓練參數(shù)).

        卷積層的輸入通過一個K×K 的卷積核(作為連接權(quán)值)連接到前一層的神經(jīng)元,每個卷積層由多個特征圖組成,而每個特征圖可以與前一層的多個特征圖連接.如圖1 中的卷積層3,特征圖之間的卷積核由同一個特征圖中的神經(jīng)單元共享,且可以通過學習確定.同一個特征圖中的神經(jīng)元共用一個偏置.卷積層的輸入為

        輸出為

        抽樣層通過降低特征圖的分辨率來提高抗噪能力,即通過對卷積層的特征圖進行特征采樣以提取其中重要的分類特征,而忽略無關(guān)的細節(jié).目前CNN 模型的抽樣層主要采用次抽樣(采用求均值的抽樣方法)和最大池(采用最大值的抽樣方法)兩種構(gòu)建方式.如圖1 所示,抽樣層中每個神經(jīng)元連接到卷積層的2 ×2 范圍內(nèi)的鄰域神經(jīng)元,次抽樣層的輸入為

        最大池抽樣層的輸入為

        式中:β 為可訓練的權(quán)重;b 為神經(jīng)元閾值參數(shù),為可學習的神經(jīng)元偏置;u(n,n)為輸入窗口函數(shù).

        圖1 中抽樣層參數(shù)N=2.因抽樣層沒有重疊抽樣,故能夠以N-2的速率降低特征維度.文獻[8-9]已證明,最大池抽樣層具有更好的識別效果,故文中采用最大池抽樣層的方法.

        通過卷積層和抽樣層,特征圖的維度會逐漸減小,但數(shù)量卻逐漸增大.如圖1 中的特征圖在抽樣層4 已經(jīng)降為5 ×5 維的大小,與卷積層5 的卷積核(5 ×5 維)進行卷積運算后,每個特征圖只有1 維的輸出.全連接層的輸入可視為CNN 模型提取的特征向量,之后可以按照傳統(tǒng)的人工神經(jīng)網(wǎng)絡方式來處理.CNN 模型中的全連接層為傳統(tǒng)神經(jīng)網(wǎng)絡的隱層.

        輸出層與網(wǎng)絡模型的分類任務相關(guān),其單元數(shù)一般與待學習分類的模式類別數(shù)相等.文中采用最簡單的方式[10]來構(gòu)建輸出層:對于第i 個類別,只有輸出層的第i 個單元輸出為1,其他為0.

        CNN 學習通常采用隨機對角LM 算法[11].這種二階梯度下降學習算法可以使模型的訓練快速收斂[12].當學習迭代次數(shù)低于20 時,誤差函數(shù)就可以收斂到滿意的結(jié)果.隨機對角LM 算法對每個連接權(quán)值采用不同的學習速率,學習速率根據(jù)待學習參數(shù)的二階導數(shù)進行調(diào)整,即

        式中:ε為全局學習速率,隨學習次數(shù)依次遞減,根據(jù)實驗測試結(jié)果,文中實驗取其初始值為0.000 85,每次遞減為上一次學習速率的0.725 倍;μ 是用來避免因式(5)中分母過小而導致學習速率過大的問題,實驗中取為10-6為誤差函數(shù)E 關(guān)于權(quán)重參數(shù)的二階導數(shù)的估計值,在訓練過程中通過一定數(shù)量的樣本來估算.文中實驗每迭代學習所有樣本一次,就重新估算的值,并更新每個權(quán)重的學習速率,采用輸出向量的均方誤差為誤差函數(shù).

        2 樣本集擴展

        由于手寫漢字樣本形狀會因人而異,不規(guī)則的書寫甚至會導致錯誤的識讀,因此手寫漢字的識別問題,對分類模型的泛化能力要求較高.對于訓練樣本稀缺的情況,可以通過生成額外的數(shù)據(jù)來提高模型的泛化性能[13],例如可以對樣本進行位移、縮放等仿射變換.文獻[9]中采用隨機彈性形變來擴展手寫數(shù)字樣本,針對MNIST 的識別實驗結(jié)果表明,彈性形變比仿射變換能更好地提高模型的泛化能力.文中采用彈性形變的方法來擴展樣本.為產(chǎn)生彈性形變圖像,首先生成兩個隨機變換域Δx(x,y)=rand(-1,1)和Δy(x,y)=rand(- 1,1),分別表示像素點(x,y)的水平和垂直方向的位移,然后產(chǎn)生一個均值為0、標準差為σ 的高斯核KN×N,將Δx、Δy和KN×N進行卷積運算,并對運算結(jié)果進行旋轉(zhuǎn)和縮放,然后作用于原始圖像,結(jié)果如圖2 所示(實驗中N=25).當σ 取值較大時,高斯核的值會很小,變換后圖像看上去是原始圖像經(jīng)過一個隨機方向的平移(如圖2 中σ=16);當σ 取值較小時,變換后圖像類似于隨機噪聲(如圖2 中σ=1);只有當σ 取值適中時,變換后圖像看上去才是原始圖像經(jīng)過了一個彈性變換.如圖2 所示,當σ=4 時,“長”字看起來像貼在一個水波面上.故文中實驗取σ=4 .

        圖2 手寫漢字圖像的彈性形變結(jié)果示例Fig.2 Examples of elastic distortion results of handwritten Chinese characters

        3 實驗結(jié)果與分析

        為驗證文中方法對相似手寫漢字的識別性能,文中從863 手寫漢字樣本字庫HCL2000[14]選取幾組相似手寫漢字樣本進行實驗.HCL2000 是北京郵電大學發(fā)布的一套脫機手寫漢字識別樣本庫,手寫漢字掃描分辨率為300 DPI,并歸一化為64 ×64 的二值圖像.為減少CNN 的層數(shù),文中采用線性內(nèi)插算法將每個64 ×64 的二值圖像縮小為28 ×28 的灰度圖像.字庫HCL2000 中,每個漢字有300 個樣本,實驗中隨機選取250 個作為訓練樣本,其余50 個作為測試樣本.

        實驗中采用15 組 相 似漢字[15],即從字 庫HCL2000 中選取15 組易于混淆的漢字集,每組包含10 個相似漢字.圖3 給出了實驗用到的一些相似漢字樣本.

        圖3 實驗用到的一些相似字樣本Fig.3 Some samples of the similar Chinese characters used in experiments

        實驗在操作系統(tǒng)為Windows 7、CPU 為Intel-i7 2630qm 的計算機上進行,編程平臺為VS2010 C#.在CNN 模型的訓練過程中,迭代一次所需時間在20~30 s 之間,最大迭代次數(shù)為20.測試每個漢字所用時間在2~10 ms 之間.

        實驗采用圖1 所示的CNN 模型,輸入層輸入32 ×32的灰度圖像,原始樣本縮小為28 ×28,并采用空白值擴展四周得到32 ×32 的樣本圖像,這主要是為了防止圖像經(jīng)過彈性形變(如旋轉(zhuǎn)和縮放等)可能導致字跡丟失.卷積核大小K=5,抽樣層采用2 ×2鄰域內(nèi)的最大池抽樣.數(shù)據(jù)經(jīng)過CNN 模型的卷積層5 后,特征圖的維數(shù)降低到1 維,輸出層6 全連接至卷積層5.

        實驗1 首先,將未進行隨機彈性形變處理的訓練樣本、經(jīng)過仿射變換的訓練樣本和隨機彈性形變處理(σ=4)的訓練樣本分別輸入到圖1 所示的CNN 模型進行學習,得到3 個CNN 模型(分別記為常規(guī)CNN、仿射CNN 和彈性CNN 模型),然后使用測試樣本進行識別,結(jié)果如表1 所示.

        表1 不同CNN 模型對相似手寫漢字的識別正確率Table 1 Recognition accurate rates of different CNN models on the similar handwritten Chinese characters %

        從表1 可以看出:與常規(guī)CNN 模型相比,利用彈性形變處理后的樣本學習得到的CNN 模型,可提高CNN 模型對相似手寫漢字的識別正確率,對15組樣本的識別正確率平均提高了1.66%;但也存在部分樣本的識別正確率改善并不明顯的情況,其原因在于,通過彈性形變對樣本進行擴展,提高的是CNN 模型的泛化能力.由于測試樣本和訓練樣本是隨機從同一個手寫漢字數(shù)據(jù)庫中選取的,CNN 模型在學習過程中對相同的漢字樣本進行了多次迭代學習,故能夠表征此樣本集的特征,并能夠?qū)Υ藰颖炯M行有效的分類.

        實驗2 對15 組相似手寫漢字的測試樣本(每組包含500 個樣本)分別進行隨機彈性形變處理,然后利用實驗1 中得到的3 個模型進行識別,其中每組樣本的形變參數(shù)σ 分別取3.0、3.5、4.0、4.5 和5.0,平均識別正確率如表2 所示.

        表2 不同CNN 模型對彈性形變后的相似手寫漢字的識別正確率Table 2 Recognition accurate rates of different CNN models on the similar handwritten Chinese characters after elastic distortion %

        從表2 可以看出,彈性CNN 模型的識別正確率明顯高于常規(guī)CNN 模型,平均提高了12.85%,仿射CNN 模型的識別正確率介于其他兩個模型之間.由于隨機彈性形變參數(shù)在訓練階段和測試階段設置為不同的值,表2 中數(shù)據(jù)是5 次識別測試結(jié)果的平均值(σ=3.0,3.5,4.0,4.5,5.0),因此能夠驗證文中CNN 模型的泛化能力.

        實驗3 梯度特征是目前手寫漢字識別中最為有效的特征,基于梯度特征提取的手寫漢字識別方法主要采用以下3 種策略:①采用彈性網(wǎng)格將漢字劃分為子塊,將每個漢字的子塊中的梯度屬性均值作為特征向量(記為M1);②采用均勻網(wǎng)格將漢字劃分為子塊,將每個漢字的子塊中的梯度屬性均值作為特征向量(記為M2);③使用均勻網(wǎng)格將漢字圖像劃分為子塊,并在每個子塊中利用高斯模糊化運算構(gòu)建梯度特征向量(記為M3).然后用線性判別分析(LDA)變換進行特征降維,并采用距離分類器進行分類.文中方法(彈性CNN 模型)與3 種基于特征提取的識別方法的性能測試結(jié)果見表3.

        表3 幾種方法的識別結(jié)果比較Table 3 Comparison of Recognition results among several methods %

        從表3 可以看出:CNN 模型用于相似手寫漢字的識別,能夠取得90%以上的識別率;相對于具有最好性能的傳統(tǒng)特征提取方法M3,文中方法的手寫漢字識別平均錯誤率降低了36.47%,表明文中CNN 模型能夠有效地區(qū)分相似手寫漢字.

        4 結(jié)論

        文中將CNN 應用于相似手寫漢字的識別,并采用彈性形變的方法擴展?jié)h字樣本,以提高CNN 模型的泛化性能.實驗結(jié)果表明:CNN 用于相似手寫漢字的識別,其識別率大于90%;經(jīng)過樣本彈性形變擴展訓練得到的CNN 模型,較常規(guī)的CNN 模型有更好的泛化性能,對隨機彈性形變手寫漢字樣本的識別率提高了12.85%;與基于梯度特征的手寫漢字識別方法相比,文中方法的識別錯誤率降低了36.47%,從而驗證文中識別方法的有效性.

        文中提出的用于相似手寫漢字識別的CNN 模型在訓練過程中,連接權(quán)值是隨機初始化的,因此模型的收斂速度對權(quán)值的初始化有很大的依賴性.連接權(quán)值的確定、網(wǎng)絡參數(shù)的選擇等是今后研究的方向.

        [1]Liu C L,F(xiàn)ujisawa H.Classification and learning methods for character recognition:advances and remaining problems[M]∥Marinai S,F(xiàn)ujisawa H.Machine Learning in Document Analysis and Recognition.Berlin:Springer-Verlag,2008:139-161.

        [2]Liu C L,Yin F,Wang D H,et al.Chinese handwriting recognition contest 2010 [C]∥Proceedings of 2010 Chinese Conference on Pattern Recognition.Chongqing:IEEE,2010:1-5.

        [3]Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

        [4]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

        [5]Sermanet P,LeCun Y.Traffic sign recognition with multiscale convolutional networks [C]∥Proceedings of the 2011 International Joint Conference on Neural Networks.San Jose:IEEE,2011:2809-2813.

        [6]Chen Y,Han C,Wang C,et al.A CNN-based face detector with a simple feature map and a coarse-to-fine classifier[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(3):1-12.

        [7]Sukittanon S,Surendran A C,Platt J C,et al.Convolutional networks for speech detection [C]∥Proceedings of the Eighth International Conference on Spoken Language Processing.Jeju Island:ISCA,2004:1077-1080.

        [8]Scherer D,Müller A,Behnke S.Evaluation of pooling operations in convolutional architectures for object recognition[M]∥Diamantaras K,Duch W,Iliadis L S.Proceedings of the 20th International Conference on Artificial Neural Networks.Berlin/Heidelberg:Springer-Verlag,2010:92-101.

        [9]Simard P Y,Steinkraus D,Platt J C.Best practices for convolutional neural networks applied to visual document analysis[C]∥Proceedings of the Seventh International Conference on Document Analysis and Recognition.Edinburgh:IEEE,2003:958-963.

        [10]Bengio Y.Learning deep architectures for AI[J].Foundations and Trends?in Machine Learning,2009,2(1):1-127.

        [11]LeCun Y,Bottou L,Orr G B,et al.Efficient backprop[M]∥Genevieve B Orr,Klaus-Robert Müller.Neural Networks:Tricks of the Trade.Berlin/Heidelberg:Springer-Verlag,1998:9-50.

        [12]Lv G.Recognition of multi-fontstyle characters based on convolutional neural network [C]∥Proceedings of the Fourth International Symposium on Computational Intelligence and Design.Hangzhou:IEEE,2011:223-225.

        [13]Yaeger L,Lyon R,Webb B.Effective training of a neural network character classifier for word recognition[M]∥JordanMichael I,Kearns MiChael J,Solla Sara A.Advances in Neural Information Processing Systems 10.Cambridge:MIT Press,1997:807-816.

        [14]Zhang H,Guo J,Chen G,et al.HCL2000:a large-scale handwritten Chinese character database for handwritten character recognition[C]∥Proceedings of 2009 International Conference on Document Analysis and Recognition.Barcelona:IEEE,2009:286-290.

        [15]Gao X,Wen W H,Jin L W.A new feature optimization method based on two-directional 2DLDA for handwritten Chinese character recognition[C]∥Proceedings of 2011 International Conference on Document Analysis and Recognition.Beijing:IEEE,2011:232-236.

        猜你喜歡
        特征實驗模型
        一半模型
        記一次有趣的實驗
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實驗的改進
        日本精品一区二区三区福利视频| 国产成人一区二区三区影院免费| 久久99精品免费国产| 国产精品亚洲一区二区麻豆| 中国无码人妻丰满熟妇啪啪软件 | 一区二区三区国产精品| 亚洲中文字幕乱码一二三| a级毛片免费观看在线播放| 国产老熟女狂叫对白| 色欧美与xxxxx| 日本午夜a级理论片在线播放| 国产精品亚洲一区二区三区| 日韩欧群交p片内射中文| 亚洲av日韩aⅴ永久无码| 性一交一乱一乱一视频亚洲熟妇 | 91精品国产91热久久p| 国产一区二区不卡av| 国产乱人无码伦av在线a | 国自产偷精品不卡在线| 亚洲男人天堂av在线| 免费国产不卡在线观看| 日韩亚洲欧美久久久www综合| 囯产精品一品二区三区| 成人国产在线观看高清不卡| 国产一区二区三区四区在线视频 | 久久精品中文字幕久久| 久久精品国产亚洲av网站| 又大又粗欧美黑人aaaaa片| 亚洲av永久无码一区| 无码伊人久久大蕉中文无码| 美女脱掉内裤扒开下面让人插| 亚洲国产成人av在线观看| 无码人妻一区二区三区在线视频| 久久精品国产亚洲av热九九热 | 岳好紧好湿夹太紧了好爽矜持| 亞洲綜合一區二區三區無碼| 精品自拍偷拍一区二区三区| 日韩欧美中文字幕公布| 国产日韩精品中文字无码| 国产一区二区丰满熟女人妻| 麻豆视频av在线观看|