亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識(shí)別*

        2011-12-17 09:42:06
        關(guān)鍵詞:實(shí)驗(yàn)

        呂 剛

        (金華廣播電視大學(xué)理工學(xué)院,浙江金華 321000)

        0 引言

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)是近年發(fā)展起來的一種高效識(shí)別方法,已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一,特別是在模式分類領(lǐng)域.由于該網(wǎng)絡(luò)避免了對圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像,因而得到了廣泛的應(yīng)用.CNNs在字符識(shí)別領(lǐng)域的應(yīng)用一直非常成功.例如,在Mnist字庫的識(shí)別上,CNNs一直保持著最佳的識(shí)別率.

        文獻(xiàn)[1]用一個(gè)4層的卷積神經(jīng)網(wǎng)絡(luò) LeNet-5對Mnist進(jìn)行識(shí)別實(shí)驗(yàn),獲得了98.4%的識(shí)別率,2層BP網(wǎng)絡(luò)的識(shí)別率是87%;文獻(xiàn)[2]通過對訓(xùn)練集字符作彈性形變處理,卷積神經(jīng)網(wǎng)絡(luò)在Mnist上的識(shí)別率達(dá)到99.6%,2層BP網(wǎng)絡(luò)的識(shí)別率是99.1%,支持向量機(jī)(SVM)的識(shí)別率是99.4%;文獻(xiàn)[3]運(yùn)用大規(guī)模卷積神經(jīng)網(wǎng)絡(luò)和基于能量模型的稀疏表示在Mnist上達(dá)到99.61%的識(shí)別率;文獻(xiàn)[4]通過結(jié)合大規(guī)模神經(jīng)網(wǎng)絡(luò)和2個(gè)階段的特征提取獲得了99.47%的識(shí)別率.值得一提的是,文獻(xiàn)[4]并沒有對訓(xùn)練集作彈性形變等預(yù)處理.

        然而,基本BP算法的收斂速度較慢,往往需要幾百次迭代才能收斂到滿意的結(jié)果.本文首先介紹了一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)——Simard網(wǎng)絡(luò);其次在Simard網(wǎng)絡(luò)的基礎(chǔ)上,采用隨機(jī)對角Levenberg-Marquardt算法,有效地提高了Simard網(wǎng)絡(luò)的收斂速度;以改進(jìn)后的Simard網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行實(shí)驗(yàn),分析了網(wǎng)絡(luò)結(jié)構(gòu)對網(wǎng)絡(luò)性能的影響;最后成功地把改進(jìn)的Simard網(wǎng)絡(luò)應(yīng)用到多字體字符的識(shí)別上,在極大提高識(shí)別速度的基礎(chǔ)上取得了較好的識(shí)別率.

        1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)可以看成是一個(gè)結(jié)構(gòu)化的BP網(wǎng)絡(luò),融合3種結(jié)構(gòu)性的方法實(shí)現(xiàn)位移、縮放和扭曲不變性.這3種方法分別是局域感受野、共享權(quán)值和空間域或時(shí)間域上的次采樣.局域感受野是指每一網(wǎng)絡(luò)層的神經(jīng)元只與上一層的一個(gè)小鄰域內(nèi)的神經(jīng)單元連接,通過局域感受野,神經(jīng)元可以提取初級(jí)的視覺特征,如方向線段、端點(diǎn)、角點(diǎn)等;權(quán)值共享是指同一個(gè)特征圖中的神經(jīng)元共用相同的權(quán)值,使得卷積神經(jīng)網(wǎng)絡(luò)具有更少的參數(shù),局域感受野和權(quán)值共享使得卷積神經(jīng)網(wǎng)絡(luò)具有平移不變性,每個(gè)特征圖提取一個(gè)特征,對特征出現(xiàn)的位置不敏感;次采樣可以減少了特征圖的分辨率,從而減少對位移、縮放和扭曲的敏感度.

        1.1 Simard 網(wǎng)絡(luò)

        文獻(xiàn)[1]給出了一個(gè)結(jié)構(gòu)比較簡單、規(guī)模較小的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5;文獻(xiàn)[5]改進(jìn)了LeNet-5的結(jié)構(gòu);文獻(xiàn)[2]則提出了簡化的LeNet-5的結(jié)構(gòu),以下簡稱Simard網(wǎng)絡(luò).

        根據(jù)Simard的實(shí)驗(yàn),邊緣擴(kuò)充對性能的提高不明顯(實(shí)際上Mnist字庫本身留有4個(gè)像素的邊緣),因此,輸入結(jié)果變成了29×29的圖像.卷積層和次采樣層作了合并,C5被取消了.這些改進(jìn)大大減少了網(wǎng)絡(luò)規(guī)模,提高了單次迭代的速度.

        1.2 對Simard網(wǎng)絡(luò)的改進(jìn)

        Simard采用基本的BP規(guī)則作網(wǎng)絡(luò)訓(xùn)練,網(wǎng)絡(luò)的收斂速度較慢,往往需要幾百次迭代[1].本文采用文獻(xiàn)[5]提出的隨機(jī)對角Levenberg-Marquardt算法對網(wǎng)絡(luò)作訓(xùn)練,這一算法需要的迭代次數(shù)明顯比基本的BP算法少.隨機(jī)對角Levenberg-Marquardt算法的公式為

        式(1)中:ε是全局的學(xué)習(xí)率,一般取初始值0.01,ε太大會(huì)使網(wǎng)絡(luò)無法收斂,太小則會(huì)降低收斂速度,且使網(wǎng)絡(luò)更容易陷入局部極小值,訓(xùn)練過程中可以用啟發(fā)式規(guī)則改值,根據(jù)訓(xùn)練集的大小可以調(diào)整樣本數(shù)量,文中隨機(jī)選取化過大.

        對于單個(gè)樣本,計(jì)算的誤差是否小于當(dāng)前平均誤差的1/10,對權(quán)值的影響很小,本文對這樣的樣本不計(jì)算反向傳播,降低了單次迭代所需的時(shí)間.

        另外,為了滿足實(shí)驗(yàn)需要,本文輸出層單元數(shù)為34.

        2 實(shí)驗(yàn)

        以百度貼吧驗(yàn)證碼的識(shí)別為例,驗(yàn)證Simard網(wǎng)絡(luò)的多字體字符識(shí)別性能.初始學(xué)習(xí)速度是0.01,若在多次迭代后,網(wǎng)絡(luò)性能沒有提高,則降低學(xué)習(xí)速度;另外,對Simard網(wǎng)絡(luò)的各層在規(guī)模上作了適度修改,嘗試尋找最佳的網(wǎng)絡(luò)規(guī)模.

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        百度貼吧驗(yàn)證碼的例子如圖1所示,由4個(gè)數(shù)字或字符構(gòu)成的驗(yàn)證碼,具有旋轉(zhuǎn)、縮放、扭曲形變、簡單粘連和多字體變化等特點(diǎn).點(diǎn)擊驗(yàn)證碼邊上的“看不清楚”按鈕會(huì)產(chǎn)生一個(gè)新的驗(yàn)證碼,隨機(jī)改變4個(gè)字符的旋轉(zhuǎn)尺度、縮放比例、扭曲程度以及字體大小,但不改變4個(gè)字符的編碼.例如,字符“ABCD”,刷新后還是“ABCD”,只是呈現(xiàn)的外觀有所變化.基于這個(gè)因素及粘連字符出現(xiàn)的比例不高(實(shí)驗(yàn)中測定的錯(cuò)誤分割的概率約42%,即平均刷新一次就可以正確分割),以刷新驗(yàn)證碼代替粘連分割,如果一個(gè)驗(yàn)證碼不能被分割成4個(gè)連通區(qū),就刷新它.

        圖1 百度驗(yàn)證碼例子

        因?yàn)楂@得大量標(biāo)定樣本的工作量巨大,因此,本文用一個(gè)程序模擬生成百度驗(yàn)證碼字符獲得訓(xùn)練集,測試集通過已經(jīng)標(biāo)定的實(shí)際驗(yàn)證碼獲得.這樣做也提高了訓(xùn)練集和測試集的獨(dú)立性,使得驗(yàn)證結(jié)果更有可信度.

        模擬生成訓(xùn)練集的程序通過以下步驟實(shí)現(xiàn):

        1)遍歷系統(tǒng)中的字體,本文為64種字體,排除10種不可用的字體(如Wingdings),實(shí)際采用54種;

        2)旋轉(zhuǎn)字符圖像,角度從 -30~ +30°,以5°為一刻度,共13種;

        3)遍歷數(shù)字和大寫字母,排除數(shù)字0和字符O這2個(gè)易混淆且沒在百度驗(yàn)證碼中采用的字符,共34個(gè)字符,依次用0-33標(biāo)定,獲得訓(xùn)練集1;

        4)修改第3步,只遍歷數(shù)字0-9,共10個(gè)字符,依次用0-9標(biāo)定,獲得訓(xùn)練集2;

        5)修改第3步,只遍歷字母A-Z,去掉字母O,共25個(gè)字符,依次用0-24標(biāo)定,獲得訓(xùn)練集3.

        訓(xùn)練集中每個(gè)字符圖像歸一化為20×20大小,居中放在28×28的白色背景中,以Mnist的格式保存.圖2是部分訓(xùn)練集樣本.

        圖2 部分訓(xùn)練集樣本

        測試數(shù)據(jù)的準(zhǔn)備分如下3步:

        1)從百度獲得6 000個(gè)驗(yàn)證碼圖片,刪除不能分割成4個(gè)連通區(qū)的圖片,共獲得3 509個(gè)可用的實(shí)驗(yàn)樣本;

        2)從剩下的圖片中隨機(jī)選取200幅驗(yàn)證碼圖片,通過求連通區(qū)分割得到800個(gè)字符圖像,按照訓(xùn)練集一樣規(guī)格制作得到測試集1,作單個(gè)字符的識(shí)別驗(yàn)證;

        3)從前面第1和第2步選剩下的圖片中再隨機(jī)選擇500幅作標(biāo)定,作整體識(shí)別率驗(yàn)證.

        2.2 收斂速度實(shí)驗(yàn)

        網(wǎng)絡(luò)的收斂速度受多方面因素的影響,如初始權(quán)值、訓(xùn)練集的質(zhì)量、網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練算法等.本文主要研究了網(wǎng)絡(luò)輸出層規(guī)模(反映網(wǎng)絡(luò)能識(shí)別的分類規(guī)模)和訓(xùn)練算法對收斂速度的影響,結(jié)果如圖3所示.

        圖3中,Mnist、訓(xùn)練集2、訓(xùn)練集2-34都是純數(shù)字的訓(xùn)練集,它們的樣本個(gè)數(shù)不同,但是都只包含數(shù)字0-9,即分類規(guī)模是10.其中:訓(xùn)練集2-34中使用的網(wǎng)絡(luò),輸出層有34個(gè)單元;其他2個(gè)訓(xùn)練集使用的網(wǎng)絡(luò),輸出層是10個(gè)單元.從圖3中可以看出:

        1)隨機(jī)對角Levenberg-Marquardt算法能極大提高網(wǎng)絡(luò)的收斂速度.對于Mnist,采用基本BP算法的網(wǎng)絡(luò)收斂到92%的正確率需要21次迭代(曲線Mnist-sdbp),采用隨機(jī)對角Levenberg-Marquardt算法的網(wǎng)絡(luò)則只要3次迭代(曲線Mnist);

        圖3 不同網(wǎng)絡(luò)結(jié)構(gòu)下的網(wǎng)絡(luò)收斂速度

        2)網(wǎng)絡(luò)收斂需要的迭代次數(shù)與網(wǎng)絡(luò)的輸出層級(jí)實(shí)際規(guī)模有關(guān)(曲線訓(xùn)練集2-34中雖然網(wǎng)絡(luò)輸出層有34個(gè)單元,實(shí)際使用的是10個(gè)),和訓(xùn)練集的大小無關(guān).

        另外,訓(xùn)練集1-sub是訓(xùn)練集1的子集,只包含5個(gè)字體,共3 525個(gè)樣本.圖3中,訓(xùn)練集1-sub收斂的速度特別慢,進(jìn)一步的實(shí)驗(yàn)表明,這是全局學(xué)習(xí)率太大造成的.

        如圖4所示,直接采用固定的全局學(xué)習(xí)率5e-005,比采用從一個(gè)較大值逐漸遞減到5e-005的網(wǎng)絡(luò)收斂得更快.注意,圖4中,X軸的刻度是10 epochs.這個(gè)實(shí)驗(yàn)除了表明固定學(xué)習(xí)率有時(shí)可以獲得比遞減學(xué)習(xí)率更好的收斂結(jié)果外,還進(jìn)一步驗(yàn)證了:若訓(xùn)練集中的類別數(shù)增加,則網(wǎng)絡(luò)需要更多的迭代才能收斂.

        圖4 全局學(xué)習(xí)率的選擇

        2.3 泛化性

        文獻(xiàn)[1]提到,在網(wǎng)絡(luò)性能達(dá)到一定程序后,繼續(xù)提高網(wǎng)絡(luò)中各層的規(guī)模對網(wǎng)絡(luò)的識(shí)別能力影響不大.本文的實(shí)驗(yàn)也驗(yàn)證了這一點(diǎn).對測試集1采用不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行識(shí)別,結(jié)果如圖5所示.

        圖5中6-50-100表示采用的網(wǎng)絡(luò)中C1,C2,H1的規(guī)模分別是6,50,100(輸出層都是34).從圖5可以看出:對于測試集1,需要190 epochs左右才能收斂到最佳結(jié)果,繼續(xù)訓(xùn)練,則網(wǎng)絡(luò)的泛化能力會(huì)表現(xiàn)出在最佳值附近震蕩(即使MSE可以一直減小);減小網(wǎng)絡(luò)規(guī)模會(huì)降低網(wǎng)絡(luò)的泛化能力,增大網(wǎng)絡(luò)規(guī)模,沒有表現(xiàn)出明顯的泛化能力的提高.

        圖5 網(wǎng)絡(luò)結(jié)構(gòu)對泛化性的影響

        2.4 對百度驗(yàn)證碼的識(shí)別結(jié)果

        根據(jù)前面的實(shí)驗(yàn),本文選擇6-50-100-34的網(wǎng)絡(luò)結(jié)構(gòu)對訓(xùn)練集1作190次迭代訓(xùn)練;然后將訓(xùn)練好的網(wǎng)絡(luò)對500個(gè)驗(yàn)證碼圖片、共2 000個(gè)樣本作識(shí)別實(shí)驗(yàn).獲得的誤識(shí)率為1.6%,整體誤識(shí)率為6.5%.表明卷積神經(jīng)網(wǎng)絡(luò)能對百度驗(yàn)證碼進(jìn)行有效識(shí)別,同時(shí)也表明,可以把卷積驗(yàn)證碼擴(kuò)展到多字體字符的識(shí)別領(lǐng)域.部分誤識(shí)的樣本如圖6所示.

        圖6 部分誤識(shí)樣本

        從圖6可以看出,造成誤識(shí)的主要原因有2個(gè):一個(gè)是近似字符,有些易混淆字符即使用人眼也很難辨識(shí);另一個(gè)是分割造成的.文中用先求連通區(qū),然后在原圖截取連通區(qū)閉包的方法獲得單個(gè)字符,實(shí)際獲得的單個(gè)字符圖像中可能會(huì)包含其他字符的一些像素,這個(gè)情況在字符“A”上特別明顯,因?yàn)殚]包是一個(gè)長方形,而字符“A”是三角形,所以容易框到其他字符的像素.

        3 結(jié)論

        介紹了一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)——Simard網(wǎng)絡(luò),在Simard的基礎(chǔ)上,采用隨機(jī)對角Levenberg-Marquardt算法提高了Simard網(wǎng)絡(luò)的收斂速度,并用改進(jìn)的Simard在Mnist字庫、程序生成的多字體印刷體字庫以及百度驗(yàn)證碼進(jìn)行驗(yàn)證,結(jié)果表明:

        1)隨機(jī)對角Levenberg-Marquardt算法能有效提高網(wǎng)絡(luò)的收斂速度(對Mnist庫是7倍左右,見圖3);

        2)Simard網(wǎng)絡(luò)能夠很好地適應(yīng)多字體數(shù)字和英文字符的識(shí)別問題,文中單字符的識(shí)別率達(dá)到98.4%(誤識(shí)率1.6%),具有很好的泛化能力;

        3)隨著訓(xùn)練集樣本類別數(shù)的增加,網(wǎng)絡(luò)需要更多的迭代次數(shù)才能收斂,而訓(xùn)練集的樣本數(shù)量和網(wǎng)絡(luò)訓(xùn)練需要的迭代次數(shù)之間沒有明顯的關(guān)系;

        4)在網(wǎng)絡(luò)規(guī)模滿足樣本空間要求后,進(jìn)一步提高網(wǎng)絡(luò)規(guī)模對網(wǎng)絡(luò)的識(shí)別能力提高很小,但網(wǎng)絡(luò)規(guī)模與單次迭代的時(shí)間成正比,因此,需要控制網(wǎng)絡(luò)規(guī)模;

        5)固定一個(gè)較小的全局學(xué)習(xí)率,有時(shí)可以獲得比遞減全局學(xué)習(xí)率更好的收斂速度.

        同時(shí),實(shí)驗(yàn)也表明,隨著訓(xùn)練集中目標(biāo)類別數(shù)的增加,網(wǎng)絡(luò)收斂需要的迭代次數(shù)也明顯增加.能否把卷積神經(jīng)網(wǎng)絡(luò)用于大字符集(如中文字符)的識(shí)別還需要作進(jìn)一步的實(shí)驗(yàn).

        [1]Lecun Y.Generalization and network design strategies[R].Pfeifer:Connectionist Research Group,1989.

        [2]Simard P Y,Steinkraus D,Platt J C.Best practices for convolutional neural networks applied to visual document analysis[C]//Proc of the Seventh International Conference on Document Analysis and Recognition.Washington:IEEE,2003:958-962.

        [3]Ranzato M A,Poultney C,Chopra S,et al.Efficient learning of sparse representations with an energy-based model[C]//NIPS 2006.Cambridge:MIT Press,2007:1137-1144.

        [4]Jarrett K,Kavukcuoglu K,Ranzato M A,et al.What is the best Multi-Stage architecture for object recognition?[C]//Proc of ICCV.Kyoto:IEEE,2009:2146-2153.

        [5]Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proc of the IEEE,1998,86(11):2278-2324.

        猜你喜歡
        實(shí)驗(yàn)
        我做了一項(xiàng)小實(shí)驗(yàn)
        記住“三個(gè)字”,寫好小實(shí)驗(yàn)
        我做了一項(xiàng)小實(shí)驗(yàn)
        我做了一項(xiàng)小實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        做個(gè)怪怪長實(shí)驗(yàn)
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        av免费在线手机观看| 亚洲av无码av日韩av网站| 在线视频国产91自拍| 人妻少妇无码精品视频区 | 亚洲欧美在线播放| 亚洲色图在线视频免费观看| 蜜桃视频羞羞在线观看 | 国产丝袜视频一区二区三区| 最新国产精品亚洲二区| 国产在线观看免费不卡视频| 精品亚洲一区二区三洲| 色婷婷五月综合激情中文字幕| 久久综合久久鬼色| 国产欧美日韩图片一区二区| 亚洲av综合av国一区二区三区| 乱子轮熟睡1区| 亚洲av无码男人的天堂在线| 加勒比在线一区二区三区| 国产一区二区三区四区在线视频| 18岁日韩内射颜射午夜久久成人| 欧美 国产 日产 韩国 在线| 日韩欧美亚洲国产一区二区三区| 精品人妻码一区二区三区红楼视频 | 久久狠狠高潮亚洲精品暴力打| 国产一区二区精品av| 久久久国产精品123| 国产麻豆成人精品av| 98精品国产综合久久| 亚洲一区中文字幕视频| 国产又大又硬又粗| 五月天激情小说| av网站可以直接看的| 蜜臀人妻精品一区二区免费| 精品乱人伦一区二区三区| 初尝黑人嗷嗷叫中文字幕| 日韩精品有码在线视频| 99久久婷婷国产亚洲终合精品| 国产sm调教视频在线观看| 美女超薄透明丝袜美腿| 精品久久人妻av中文字幕| 欧美成免费a级毛片|