黎育權(quán)
摘要 文字是人類表達(dá)和交流信息的重要工具之一,如郵政物流信件或快遞包裹的分揀和分流、交通系統(tǒng)中車牌號碼的識別和卡o收費。本文通過搭建DCNN進(jìn)行字符識別,能夠達(dá)到平均98.3%的準(zhǔn)確率,而傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)只能達(dá)到95%。隨后,在DCNN基礎(chǔ)上,加入了多種改進(jìn)算法。使得神經(jīng)網(wǎng)絡(luò)對MNIST手寫字符集的識別率達(dá)到99.1%。最后,又將多個神經(jīng)網(wǎng)絡(luò)進(jìn)行組合,加入集成學(xué)習(xí)中的Bagging算法,最終使得神經(jīng)網(wǎng)絡(luò)對MNIST手寫字符集的識別率達(dá)到99.4%。
【關(guān)鍵詞】深度學(xué)習(xí) 機(jī)器學(xué)習(xí) 深度卷積神經(jīng)網(wǎng)絡(luò) 集成學(xué)習(xí) 手寫字符識別
模式識別是人工智能和計算機(jī)視覺領(lǐng)域的重要分支之一,它通過處理和分析表征事物或現(xiàn)象的信息,對文字、聲音、圖像等進(jìn)行辨認(rèn)和分類,在自動化以及信息處理和檢索等方面應(yīng)用極其廣泛。文字是人類表達(dá)和交流信息的重要工具之一。字符識別能夠?qū)⒆址咝У妮斎氲接嬎銠C(jī)系統(tǒng),因而具有重要的研究價值。
1 人工神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種采用反向傳播算法進(jìn)行的高效訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最強大最廣泛的神經(jīng)網(wǎng)絡(luò)之一。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,對于大型圖像處理有出色表現(xiàn)。一般地,CNN的基本結(jié)構(gòu)至少包括兩層,卷積層和池化層。
2 集成學(xué)習(xí)及Bagging算法
集成學(xué)習(xí)方法是從機(jī)器學(xué)習(xí)領(lǐng)域中逐漸發(fā)展起來,以用于提升弱分類算法以獲得高準(zhǔn)確率的一種技術(shù),與單個學(xué)習(xí)器相比,夠顯著地提高系統(tǒng)的泛化能力。Bagging算法的基本思想是對訓(xùn)練集實施有放回的隨機(jī)樣本重復(fù)抽樣,形成多個與訓(xùn)練集規(guī)模相近但各不相同的訓(xùn)練子集,此基礎(chǔ)上形成多個基分類器,最終將多個分類器進(jìn)行集成。
3 字符識別
3.1 數(shù)據(jù)集
論文采用MNIST手寫數(shù)字字符數(shù)據(jù)集,MNIST擁有60000張不同的28*28像素的訓(xùn)練集圖片,10000張測試集圖片。數(shù)據(jù)集由來自250個不同人手寫的數(shù)字構(gòu)成,其中50%是高中學(xué)生,50%來自人口普查局。
3.2 搭建神經(jīng)網(wǎng)絡(luò)
搭建BP神經(jīng)網(wǎng)絡(luò)分類器,神經(jīng)網(wǎng)絡(luò)的層數(shù)為2-5層不等。并搭建卷積神經(jīng)網(wǎng)絡(luò)分類器,使用2~3個卷積層和池化層,卷積核數(shù)量為32、64、32個,以及2個全連接層,神經(jīng)元數(shù)量為:1024、1個。隨后使用多個搭建的神經(jīng)網(wǎng)絡(luò)進(jìn)行組合預(yù)測。
3.3 識別結(jié)果
通過搭建不同結(jié)構(gòu)的BP-NN和CNN,并使用不同的結(jié)構(gòu)和隨機(jī)種子進(jìn)行訓(xùn)練,得到如下9中不同的BP神經(jīng)網(wǎng)絡(luò),以及9中不同的CNN。BP神經(jīng)網(wǎng)絡(luò)的平均誤差率為2.71%,識別率較高。CNN的平均誤差率:0.82%,達(dá)到了99%以上,識別率相比BP神經(jīng)網(wǎng)絡(luò)更高。在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,加入集成學(xué)習(xí),將9個卷積神經(jīng)網(wǎng)絡(luò)組合起來,卷積神經(jīng)網(wǎng)絡(luò)在組合之后,平均誤差率下降了0.3%,達(dá)到0.39%,識別結(jié)果異常優(yōu)秀。
3.4 誤差結(jié)果對比
最終將BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和組合神經(jīng)網(wǎng)絡(luò)進(jìn)行l(wèi)oss對比:
得到如圖1的誤差圖。
從圖1中可以看出,在訓(xùn)練初期,BP神經(jīng)網(wǎng)絡(luò)收斂的更快,但隨著訓(xùn)練的進(jìn)行,CNN的強大便體現(xiàn)出來了,在中后期持續(xù)高于BP神經(jīng)網(wǎng)絡(luò)。最終的集成卷積神經(jīng)網(wǎng)絡(luò)誤差為0.018,低于BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。
4 結(jié)語
對于BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),由研究結(jié)果來看,BP神經(jīng)網(wǎng)絡(luò)的平均誤差率為2.71%,而卷積神經(jīng)網(wǎng)絡(luò)平均誤差率只有0.82%。從整體來看,加入集成學(xué)習(xí)后的神經(jīng)網(wǎng)絡(luò)能夠提升明顯。BP神經(jīng)網(wǎng)絡(luò)從平均2.71%誤差率下降到1.69%(概率均值),卷積神經(jīng)網(wǎng)絡(luò)從平均0.82%下降到0.58%。
參考文獻(xiàn)
[1]張超群.基于深度學(xué)習(xí)的字符識剮[D].電子科技大學(xué),2016.
[2]劉余霞.基于機(jī)器學(xué)習(xí)的車牌字符識別算法研究[D].安徽工程大學(xué),2013.
[3]張魁,基于遺傳-BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字的識別方法[D].西安科技大學(xué),2012.
[4]王俊杰.優(yōu)化BP神經(jīng)網(wǎng)絡(luò)在手寫體數(shù)字識別中的性能研究[J],電子設(shè)計工程,2017,25 (06):27-30.
[5]鄧介一,劉黎志,譚培祥.基于神經(jīng)網(wǎng)絡(luò)的數(shù)字字符識別系統(tǒng)設(shè)計與實現(xiàn)[J],軟件導(dǎo)刊,2017,16 (05): 47-50.
[6]商俊蓓,基于雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫數(shù)字公式字符識別[D].華南理工大學(xué),2015.
[7]董峻妃,鄭伯川,楊澤靜,基于卷積神經(jīng)網(wǎng)絡(luò)的車牌字符識別[J],計算機(jī)應(yīng)用,2017, 37 (07): 2014-2018.
[8]楊建華,王鵬,一種基于BP神經(jīng)網(wǎng)絡(luò)的車牌字符識別算法[J],軟件工程師,2015,18 (01):19-20.