亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征圖疊加的脫機手寫體漢字識別

        2018-08-22 01:27:16毛曉波程志遠周曉東
        關(guān)鍵詞:特征模型

        毛曉波, 程志遠, 周曉東

        (1.鄭州大學(xué) 電氣工程學(xué)院 河南 鄭州 450001; 2.鄭州大學(xué) 產(chǎn)業(yè)技術(shù)研究院 河南 鄭州 450001)

        0 引言

        手寫漢字識別作為模式識別的重要研究領(lǐng)域之一,在文檔數(shù)字化、郵件分揀和支票處理等方面有著廣闊的應(yīng)用前景[1-2].漢字的種類繁多,并且由于書寫者不同的書寫習(xí)慣,手寫體漢字相較于印刷體漢字有很大的隨意性,這些都給手寫漢字識別帶來了較大的困難[3-4].傳統(tǒng)的脫機手寫體漢字識別方法基本上包含圖像預(yù)處理、特征提取和分類器設(shè)計三個過程.整個過程主要依賴人工提取特征和設(shè)計分類器,識別效果也往往受制于此,無法滿足實際應(yīng)用中的需求,且進一步的發(fā)展遇到了較大的瓶頸[5-7].

        近年來,深度學(xué)習(xí)在很多傳統(tǒng)的模式識別任務(wù)上都取得了優(yōu)異的成績,這也為手寫體漢字識別提供了新的研究方向.瑞士IDSIA團隊首次將卷積神經(jīng)網(wǎng)絡(luò)運用到手寫體漢字識別中,在ICDAR-2011脫機手寫體漢字識別競賽中獲得冠軍,識別準(zhǔn)確率達到92.18%[8].而在ICDAR-2013聯(lián)機和脫機手寫體漢字識別競賽中,冠軍隊伍均采用了基于卷積神經(jīng)網(wǎng)絡(luò)模型的方法,其中脫機手寫體漢字識別準(zhǔn)確率達到94.77%[9].文獻 [10]提出了HCCR-Ensemble-GoogLeNet模型,通過手工提取的特征與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)合將識別準(zhǔn)確率提高到96.74%.文獻 [11]證明漢字的細微結(jié)構(gòu)特征對漢字的準(zhǔn)確識別有很大的作用.文獻 [12]指出以往用于漢字識別的卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)只對類間差別進行優(yōu)化而忽略了類內(nèi)差別,因此,為網(wǎng)絡(luò)設(shè)計了新的損失函數(shù)對兩方面同時進行了優(yōu)化.然而,以上所提到的深度學(xué)習(xí)模型均采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以原始圖像作為圖像輸入,特征信息依次“流經(jīng)”若干卷積層和池化層,每一層都將信息進行加工后送入下一層,最后用于分類.在這個過程中,要想提升網(wǎng)絡(luò)的表現(xiàn)就要加深網(wǎng)絡(luò)層數(shù),而隨著網(wǎng)絡(luò)層數(shù)的增加又極易發(fā)生梯度彌散和梯度爆炸問題[13].更重要的是,在使用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)處理漢字識別問題時,需要保留的漢字細微特征信息在網(wǎng)絡(luò)傳遞過程中也可能被改變甚至丟棄.

        ResNet[14]被證明可以很好地克服深層次網(wǎng)絡(luò)訓(xùn)練中出現(xiàn)的梯度彌散問題.簡單來說,ResNet是在線性網(wǎng)絡(luò)連接的基礎(chǔ)上引入了一種捷徑連接方式,使得網(wǎng)絡(luò)底層不僅可以與中間層相連接,還可以通過捷徑繞過一些層次直接連接到更高層,然后將捷徑的輸出與主路徑的輸出以求和的方式進行融合.加入了這樣的一條捷徑后,誤差由高層向底層的反向傳播路徑被縮短,上層梯度可以直接跳過中間層傳到下層,使網(wǎng)絡(luò)更易優(yōu)化.然而,如果直接應(yīng)用ResNet處理漢字識別問題,其通過求和來融合捷徑與主路徑輸出的方式依然具有覆蓋漢字細微特征信息的風(fēng)險.

        通過綜合考慮ResNet中捷徑連接方式的優(yōu)點和漢字識別任務(wù)的特殊性,本文提出一種改進的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在提取“高水平”特征信息的階段,可以將前一卷積層提取到的特征圖保留下來,與當(dāng)前卷積層提取到的特征圖疊加之后共同作為輸入進入下一層,由最后的分類層決定是采用保留的特征信息還是經(jīng)過加工之后的信息.該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)緩解了梯度消失的問題,有效地保留了漢字的細微結(jié)構(gòu)特征.

        1 采用特征圖疊加的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.輸入64×64的灰度圖像,輸出長度為3 755的向量.模型總共有8層卷積層、4層最大值池化層、1層全連接層和1層輸出層.

        圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The architecture of convolutional neural network

        1.1 特征圖疊加塊

        圖1中出現(xiàn)的特征圖疊加塊的工作原理如圖2所示.假設(shè)現(xiàn)有卷積層1和卷積層2,輸入經(jīng)過卷積層1后產(chǎn)生特征圖1,特征圖1再經(jīng)過卷積層2 的卷積操作之后產(chǎn)生特征圖2.接下來先不直接對特征圖2進行池化操作,而是先將卷積層2產(chǎn)生的特征圖2與卷積層1產(chǎn)生的特征圖1進行疊加,之后再對所有的特征圖進行池化操作.ResNet是對特征圖1和特征圖2進行求和操作,特征圖1和特征圖2將會相互覆蓋,特征圖數(shù)目保持不變.與ResNet不同,本文方法將會把特征圖1和特征圖2中所有的特征圖都保留下來,此時特征圖的數(shù)目是特征圖1的數(shù)目和特征圖2的數(shù)目之和.

        圖2 特征圖疊加塊的工作原理Fig.2 The concatenated block principle of feature maps

        1.2 網(wǎng)絡(luò)連接

        在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,第l層的輸出是第(l+ 1)層輸入,轉(zhuǎn)換關(guān)系為

        Xl+1=Fl+1(Xl),

        (1)

        式中:Fl(·)表示特征圖在l層所進行的變換;Xl是第l層的輸出.

        ResNet引入捷徑連接方式,網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)是輸入與輸出之間的殘差:

        Xl+1=Fl+1(Xl)+Xl.

        (2)

        在所提出的網(wǎng)絡(luò)結(jié)構(gòu)中,特征提取的初始階段采用式(1)方式提取“基礎(chǔ)”圖像特征,而到兩個特征圖疊加塊之后的池化層時,層間轉(zhuǎn)換關(guān)系為

        Xl+1=Fl+1(Xl,Xl-1),

        (3)

        式中:Fl+1(Xl,Xl-1)表示將當(dāng)前層和前一層提取到的特征圖排列在一起共同作為輸入進入下一層.與ResNet不同,這不是將兩層提取到的特征圖進行求和,而是將它們疊加組合成新的一組特征圖.

        如此設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)是基于漢字識別問題的特殊性.傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計主要應(yīng)用于普通的物體識別任務(wù),如對車、飛機、花朵等的識別.在這些識別任務(wù)中,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在高層提取到的特征已經(jīng)高度輪廓化[15],能否充分提取色彩與物體的整體輪廓特征,對分類準(zhǔn)確率有很大的影響.漢字識別與之不同:首先,漢字識別不基于色彩;其次,相較于整體輪廓,漢字對細微結(jié)構(gòu)的變化也十分敏感,如“大”和“犬”二字,恰恰是細微筆畫的不同決定了二者的不同.因此,細微筆畫信息與整體輪廓信息對于漢字分類來說都是必要的.

        1.3 特征圖尺寸

        池化操作是卷積神經(jīng)網(wǎng)絡(luò)中不可缺少的重要步驟,它降低了特征維度從而使得模型可以更有效地訓(xùn)練.然而,池化操作本質(zhì)上是下采樣操作,它將帶來每張?zhí)卣鲌D尺寸上的變化,不同尺寸的特征圖無法進行疊加進入下一層.為了解決這一問題,將特征圖的疊加操作限制在兩次池化之間,這就保證了將要排列的特征圖具有相同的尺寸.表1為模型的詳細參數(shù)設(shè)置,展示了特征圖尺寸隨著卷積與池化操作的變化情況.

        表1 模型的詳細參數(shù)設(shè)置

        1.4 網(wǎng)絡(luò)訓(xùn)練

        模型采用誤差反向傳播算法來訓(xùn)練網(wǎng)絡(luò),由于采用softmax層分類,所以定義網(wǎng)絡(luò)的誤差函數(shù)為交叉熵誤差函數(shù),表示為

        (4)

        激活函數(shù)使用修正線性單元(ReLu)[16],函數(shù)表達式為

        f(x)=max(x,0).

        (5)

        使用Adam優(yōu)化算法[17]迭代更新各層的權(quán)值直至收斂,沒有使用微調(diào)而直接在訓(xùn)練集上進行模型訓(xùn)練.整個數(shù)據(jù)集迭代24 000次,學(xué)習(xí)率固定為0.1,訓(xùn)練過程中對訓(xùn)練集進行了數(shù)據(jù)增廣.

        需要注意的是,在進行權(quán)值更新的過程中,根據(jù)鏈?zhǔn)角髮?dǎo)法則,在誤差從輸出層反向“流”到輸入層的過程中,與其他層相比,疊加塊的第一個卷積層的誤差項有兩個來源:一是誤差經(jīng)過前一卷積層 “流”向疊加塊的第一個卷積層;二是誤差直接從池化層“流”向疊加塊的第一個卷積層.當(dāng)網(wǎng)絡(luò)隨著層數(shù)增加出現(xiàn)梯度彌散消失現(xiàn)象而變得難以訓(xùn)練時,后者可以使誤差“繞過”長路徑而直接使用短路徑訓(xùn)練網(wǎng)絡(luò),緩解梯度消失現(xiàn)象,使網(wǎng)絡(luò)更易優(yōu)化.

        2 實驗部分

        2.1 數(shù)據(jù)集

        實驗采用中國科學(xué)院自動化研究所公開提供的HWBDB1.0和HWBDB1.1數(shù)據(jù)集[18].HWBDB1.0數(shù)據(jù)集包含3 866類漢字,420名書寫者,樣本數(shù)為15 556 675;HWBDB1.1數(shù)據(jù)集包含3 755類漢字,300名書寫者,樣本數(shù)為1 121 749.本文采用HWBDB1.1作為訓(xùn)練集,從訓(xùn)練集隨機抽取20%的數(shù)據(jù)作為驗證集.測試集采用ICDAR-2013脫機手寫體漢字識別競賽測試集[9],包含3 755類漢字,60名書寫者,樣本數(shù)為224 419.

        2.2 結(jié)果與討論

        訓(xùn)練模型硬件環(huán)境為CPU I7 7700@3.6 GHz,內(nèi)存16G,圖像核心為GTX1070 8G顯存.系統(tǒng)環(huán)境為Ubuntu 16.04LTS,使用CUDA8.0運行庫及cudnn6.0加速方案.圖3展示了訓(xùn)練集和驗證集的識別準(zhǔn)確率隨著迭代次數(shù)的變化.可以發(fā)現(xiàn),本文的網(wǎng)絡(luò)收斂速度很快,迭代5 000次左右驗證集就可以達到很高的準(zhǔn)確率,并且模型沒有出現(xiàn)過擬合.

        圖3 訓(xùn)練集和驗證集的識別準(zhǔn)確率Fig.3 The recognition accuracy on train and validation dataset

        表2為不同方法在ICDAR-2013脫機手寫體漢字識別競賽測試集上的結(jié)果.可以發(fā)現(xiàn),本文方法相較于傳統(tǒng)方法在識別準(zhǔn)確率上有了很大的提高,表明深度學(xué)習(xí)方法處理圖像任務(wù)時具有傳統(tǒng)方法難以比擬的優(yōu)越性.3次競賽最優(yōu)方法的準(zhǔn)確率逐年提升,而本文方法的表現(xiàn)優(yōu)于ICDAR-2013脫機手寫體漢字識別競賽冠軍隊伍所用的方法,說明通過考慮漢字識別問題的特殊性從而改進網(wǎng)絡(luò)結(jié)構(gòu),可以使模型更契合漢字識別問題的處理.雖然本文方法的準(zhǔn)確率低于HCCR-Ensemble-GoogLeNet模型,但是本文的模型參數(shù)較低. 另外,本文采用的卷積神經(jīng)網(wǎng)絡(luò)僅有14層,屬于輕型的網(wǎng)絡(luò)結(jié)構(gòu).如果使用更深、更寬的網(wǎng)絡(luò)結(jié)構(gòu)或者先將模型在大型圖像數(shù)據(jù)庫上進行長時間的訓(xùn)練,再在訓(xùn)練集上進行微調(diào),那么識別準(zhǔn)確率將會得到再次提升.

        表2 不同方法在ICDAR-2013脫機手寫體漢字識別競賽測試集上的結(jié)果

        3 結(jié)語

        考慮到脫機手寫體漢字識別問題的特殊性,提出一種改進的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).新的網(wǎng)絡(luò)結(jié)構(gòu)更容易優(yōu)化,且可以將整體輪廓信息和細微筆畫信息一起提供給分類層,使之獲得更為全面的分類特征,更適用于漢字識別問題.在今后的研究工作中,可以考慮將更多的先驗知識加入到模型設(shè)計中.

        致謝:特別感謝中國科學(xué)院自動化研究所模式識別國家重點實驗室授權(quán)本研究使用完整的脫機手寫樣本數(shù)據(jù)庫(CASIA-HWBDB).

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        免费无码毛片一区二区三区a片| 国产黑丝美女办公室激情啪啪| 亚洲gay片在线gv网站| 黑人巨大无码中文字幕无码| 超91精品手机国产在线| 久久久精品人妻一区二| 手机久草视频福利在线观看| 大地资源中文第3页| 亚欧AV无码乱码在线观看性色| AV无码系列一区二区三区| 国产一区二区三区青青草| 国产成人无码精品久久久露脸| 亚洲成在人线av| 国产对白刺激在线观看| 一本色道久久亚洲精品| 亚洲国产精品无码中文字| 亚洲黄色电影| 亚洲青青草视频在线播放| 久久av不卡人妻出轨一区二区 | 欧美性受xxxx狂喷水| 欧美视频久久久| 免费的黄网站精品久久| 中文字幕一区二区三区久久网| 国产台湾无码av片在线观看| 丝袜美女污污免费观看的网站| 在线精品国产一区二区三区| 无码免费人妻超级碰碰碰碰| 蜜桃一区二区三区在线视频| 日韩av无码一区二区三区| 97久久天天综合色天天综合色hd | 麻豆文化传媒精品一区观看| 亚洲处破女av日韩精品| 亚洲色图视频在线观看网站| 黄色潮片三级三级三级免费| 欧洲熟妇色| 麻豆精产国品| 在线免费观看亚洲天堂av| 中文字幕乱码亚洲无限码| 亚洲精品92内射| 亚洲成a人网站在线看| 午夜视频一区二区三区播放|