王欣蔚
摘要:動車車號識別是動車安全自動監(jiān)測系統(tǒng)的一項重要內(nèi)容。由于光照不均、運動失真等因素,動車車號的可靠識別困難較大。論文研究了基于深度網(wǎng)絡(luò)的識別算法,通過設(shè)計卷積神經(jīng)網(wǎng)絡(luò),以減少資源占用為出發(fā)點,獲得99.20%的識別正確率。與LeNet-5卷積網(wǎng)絡(luò)進(jìn)行對比實驗,減少了近6倍的訓(xùn)練時間,并且識別率有所提高。
關(guān)鍵詞:字符識別 卷積神經(jīng)網(wǎng)絡(luò) 復(fù)雜光照 深度學(xué)
中圖分類號:TP391.4 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)07-0126-01
1 相關(guān)背景
近兩年,深度網(wǎng)絡(luò)[1]正成為模式識別與人工智能領(lǐng)域的一個重要方向,其中又以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[2]等為熱點,應(yīng)用于目標(biāo)檢測、人臉識別等領(lǐng)域。它通過卷積層和下采樣層兩個特殊結(jié)構(gòu)來實現(xiàn)特征提取過程。能解決傳統(tǒng)算法對夜間車號圖像識別困難的問題。
然而,其復(fù)雜度高、系統(tǒng)資源的需求大,訓(xùn)練需要海量的數(shù)據(jù),實際應(yīng)用不具有以上條件。本文通過研究,在提高識別率的同時,明顯降低系統(tǒng)資源的消耗,為深度網(wǎng)絡(luò)的實際應(yīng)用探索新的思路。
2 卷積神經(jīng)網(wǎng)絡(luò)的車號識別
針對降低網(wǎng)絡(luò)系統(tǒng)資源消耗、在適度規(guī)模的數(shù)據(jù)集下訓(xùn)練的實際需要,不同的應(yīng)用主要需要考慮卷積層個數(shù)、每層特征圖個數(shù)、下采樣層池化區(qū)域大小以及網(wǎng)絡(luò)的深度。
卷積層的作用是探測上一層特征的局部連接,而下采樣層的作用是把相似的特征合并起來。卷積過程要設(shè)計卷積核大小,針對樣本數(shù)據(jù)進(jìn)行調(diào)節(jié),如果核的尺寸過大,會增加運算量;如果過小,則不足以提取到有效結(jié)構(gòu)特征。此外,卷積核個數(shù)過少會使特征提取的不充足導(dǎo)致識別率低,過多會導(dǎo)致運行時間大大增加。下采樣過程需要確定合適的池化區(qū)域大小??紤]到信息的損失情況,池化矩陣不應(yīng)過大,一般為2×2的大小。經(jīng)以上考慮,本文卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
由于動車車號應(yīng)用統(tǒng)一的字體設(shè)計,字體結(jié)構(gòu)沒有LeNet-5應(yīng)用場景改變大。因此兩個卷積層的設(shè)計已滿足特征提取的需要,從而大大減少了耗時。由圖1可見,首先輸入歸一化為32×32的像素大小,并以灰度圖的形式輸入第一層C1。第一個卷積層C1是形成8個經(jīng)卷積的特征圖,得到像素大小為28×28的特征圖。之后經(jīng)過2×2鄰域的平均池化,在下采樣層S2生成了8個14×14像素的特征圖。C3存在20個10×10像素大小的特征圖,可生成20個圖像大小為5×5像素的S4層。卷積層核的大小均為5×5。接下來的F5層和S4層為全連接,有20×5×5=500個節(jié)點,相當(dāng)于用含500×21=10500個參數(shù)的分類器對向量進(jìn)行分類,因而具有更強的描述能力。
最后,輸出層為21個單元,由徑向基函數(shù)(RBF)組成。對應(yīng)待測動車車號字符樣本庫中21個不同的數(shù)字和字母。網(wǎng)絡(luò)的訓(xùn)練過程,通過BP算法[3]由前到后逐層學(xué)習(xí)的方式。
3 實驗結(jié)果與分析
實驗用的字符樣本均來自實際應(yīng)用環(huán)境中獲取的動車車號圖像。為了提高網(wǎng)絡(luò)的泛化性能,將原始樣本經(jīng)過仿射變換、添加椒鹽噪聲和乘性噪聲的處理,擴充樣本庫數(shù)量。訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集之間沒有重疊,部分樣本如圖2所示。訓(xùn)練數(shù)據(jù)集包含10500張圖像,測試數(shù)據(jù)集包含2250張圖像。所有實驗仿真平臺為Matlab2012b。
將本文提出的卷積神經(jīng)網(wǎng)絡(luò)(記Proposed),與典型的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5[3]以及應(yīng)用BP算法的普通神經(jīng)網(wǎng)絡(luò)(記NN)進(jìn)行識別正確率的實驗比較。其中網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置均相同。實驗結(jié)果如圖3所示。
因為卷積神經(jīng)網(wǎng)絡(luò)相比于普通的神經(jīng)網(wǎng)絡(luò)具有更好的魯棒性,所以兩卷積神經(jīng)網(wǎng)絡(luò)識別率均高于普通網(wǎng)絡(luò)8%。而本文的網(wǎng)絡(luò)比LeNet-5的識別率高0.8%左右。
與LeNet-5在復(fù)雜度方面的對比實驗,結(jié)果如表1所示。
由表可見,本文網(wǎng)絡(luò)在三種指標(biāo)上均有優(yōu)勢。由于LeNet-5多一次卷積操作,并且含120個特征圖,使復(fù)雜度大大提高,致使訓(xùn)練時間比本文提出的網(wǎng)絡(luò)多出近6倍。
4 結(jié)語
傳統(tǒng)的方法對圖片質(zhì)量較敏感,對動車車號夜間采集圖像識別性能差。本文經(jīng)過對卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用研究,在提高識別率的同時,明顯降低了系統(tǒng)資源的消耗。結(jié)果表明,本文的卷積神經(jīng)網(wǎng)絡(luò)識別率達(dá)到99.20%,高于LeNet-5,同時縮減了約6倍的訓(xùn)練時間,在內(nèi)存占用方面占優(yōu)勢。
參考文獻(xiàn)
[1]LeCun Y,Bengio Y,Hinton G.Deep Learning[J].Nature,2015, 521(7753):436-444.
[2]LeCun Y,Kavukvuoglu K,F(xiàn)arabet C.Convolutional networks and applications in vision[C].IEEE International Symposium on Circuits and Systems (ISCAS),2010,253-256.
[3]LeCun Y, Bottou L, Bengio Y,at el.Gradient-based learning applied to document recognition [C]. IEEE,1998.USA: IEEE,1998: 2278-2324.