吳章輝,李志清,楊曉玲,劉雨桐
(湘潭大學(xué) 信息工程學(xué)院學(xué)院,湘潭 411105)
樹狀卷積神經(jīng)網(wǎng)絡(luò)的車標(biāo)識(shí)別應(yīng)用①
吳章輝,李志清,楊曉玲,劉雨桐
(湘潭大學(xué) 信息工程學(xué)院學(xué)院,湘潭 411105)
為了提高在自然環(huán)境下車標(biāo)識(shí)別率,提出一種多通路樹狀結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型.該模型采用多通路樹狀結(jié)構(gòu),在傳統(tǒng)卷積網(wǎng)絡(luò)單一種類卷積核的卷積層上,使用多種類型的卷積核進(jìn)行卷積操作,并且采用樹狀網(wǎng)絡(luò)結(jié)構(gòu).通過(guò)對(duì)每個(gè)通路的頂層提取特征,作為全連接層的輸入,進(jìn)行車標(biāo)的分類任務(wù).通過(guò)理論分析和實(shí)驗(yàn)表明,與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練獲得的分類器相比,車標(biāo)識(shí)別率提升至98.43%.
深度學(xué)習(xí); 卷積神經(jīng)網(wǎng)絡(luò); 特征圖; 車標(biāo)識(shí)別
車標(biāo)自動(dòng)識(shí)別系統(tǒng)是車輛自動(dòng)識(shí)別系統(tǒng)的重要組成部分.車標(biāo)是車輛的重要信息,包含了車型信息,更重要的是包含了廠家的信息,由于廠家信息難于更換,有了車型的信息,在交通事故和利用車輛犯罪案件中能迅速縮小范圍,對(duì)車輛信息識(shí)別提供了很大的作用.
對(duì)于車標(biāo)識(shí)別,國(guó)內(nèi)外已經(jīng)有一些研究人員使用各類方法去嘗試.如文獻(xiàn)[1]提出在PCA的基礎(chǔ)上,利用圖像的質(zhì)量分析,通過(guò)對(duì)車標(biāo)圖像模糊度的計(jì)算,將車標(biāo)質(zhì)量相似圖像進(jìn)行分類.文獻(xiàn)[2]中提出利用adaboost算法進(jìn)行車標(biāo)圖像的定位,然后使用Techebichef 矩進(jìn)行識(shí)別.文獻(xiàn)[3,6]中采用方向梯度直方圖HOG算法進(jìn)行特征的提取,然后使用支持向量機(jī)SVM分類.文獻(xiàn)[4]采用了深度學(xué)習(xí)方法進(jìn)行車標(biāo)的特征自動(dòng)提取和分類,分類正確率有很大的提升,并且網(wǎng)絡(luò)的輸入是原始的圖像,并不要人為的圖像預(yù)處理.文獻(xiàn)[5]改進(jìn)了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),利用最后兩個(gè)池化層的特征進(jìn)行分類,車標(biāo)的識(shí)別率比較傳統(tǒng)的卷積網(wǎng)絡(luò)有了一定的提高.但是,目前車標(biāo)識(shí)別系統(tǒng)在對(duì)光照不均,部分缺失,形變等因素下的車標(biāo)圖像正確識(shí)別率存在不足.為了降低這些因素的影響,提出了多通路的樹狀結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型.該模型能夠充分利用網(wǎng)絡(luò)底層提取的特征,并且能夠多尺度提取圖像特征.實(shí)驗(yàn)證明,在提出的T-CNN網(wǎng)絡(luò)進(jìn)行測(cè)試,車標(biāo)的正確識(shí)別率達(dá)到了98.43%.
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一般是由輸入層,多個(gè)交替的卷積層(C)和池化層(P),全連接層(FC)及輸出層(O)組成.如圖1所示.
一般地,卷積層為特征提取層,每個(gè)神經(jīng)元的輸入與前一層的局部感受野相連,提取該局部的特征.在同一個(gè)特征圖上的神經(jīng)元連接的權(quán)值共享.池化層的輸入一般是前一層的卷積層的輸出,主要對(duì)特征進(jìn)行模糊,從而獲得平移,尺度的不變性.在卷積神經(jīng)網(wǎng)絡(luò)中[12],有四種基本的運(yùn)算.依次定義為:內(nèi)卷積,外卷積,下采樣,上采樣.
圖1 CNN 網(wǎng)絡(luò)實(shí)現(xiàn)結(jié)構(gòu)
假設(shè) A,B 是矩陣,大小分別為 M×N,m×n,且 M≥m,N≥n,則它們的內(nèi)卷積 的所有元素定義為:
它們的外積定義如下:
如果對(duì)矩陣A進(jìn)行不重疊分塊,設(shè)每塊大小為k×L,第 ij塊的矩陣形式則其構(gòu)造如下:
用大小為k×L不重疊塊對(duì)矩陣A的下采樣定義為;
對(duì)矩陣A進(jìn)行倍數(shù)為k×L的不重疊上采樣定義為
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)[7-9]在圖像分類上取得了很好的效果,但影響卷積神經(jīng)網(wǎng)絡(luò)正確識(shí)別率和魯棒性的關(guān)鍵參數(shù)是卷積核大小和下采樣層的采樣間距.文獻(xiàn)[10]證明了卷積核的大小對(duì)識(shí)別率有很大的影響,文獻(xiàn)[11]中證明了采樣間距較小時(shí),網(wǎng)絡(luò)輸出的激活值仍能重構(gòu)出與原始輸入相似的圖像.而下采樣間隔過(guò)小會(huì)導(dǎo)致不變性喪失,過(guò)大丟失大量有用信息.由于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)是在單通路內(nèi)完成的,只能單一的設(shè)置卷積核大小和池化層的采樣間距,這樣就限制了參數(shù)設(shè)置的靈活性,不能有效的提取局部和全局的特征.并且傳統(tǒng)的卷積網(wǎng)絡(luò)只是使用頂層提取的特征進(jìn)行訓(xùn)練分類器,并沒(méi)有充分的利用底層提取的特征.為了提高識(shí)別率和魯棒性,提出了T-CNN網(wǎng)絡(luò)結(jié)構(gòu),用于建立車標(biāo)分類模型.
T-CNN網(wǎng)絡(luò)采用多通路樹狀結(jié)構(gòu),即在傳統(tǒng)卷積網(wǎng)絡(luò)單一卷積核的卷積層上,使用多種類型的卷積核進(jìn)行卷積操作,形成樹狀網(wǎng)絡(luò)結(jié)構(gòu).
1.2.1 樹狀卷積網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程
對(duì)于第a個(gè)樣本xa,樹狀卷積網(wǎng)絡(luò)的前向傳播過(guò)程
反向傳播過(guò)程,首先計(jì)算網(wǎng)絡(luò)中的每一層反饋傳遞誤差:
訓(xùn)練步驟:
輸出:網(wǎng)絡(luò)的權(quán)值和偏置
Step 1.隨機(jī)初始化所有權(quán)重和偏置;
Step 2.前向傳播,計(jì)算實(shí)際輸出,公式 (8);
Step 3.反向傳播,計(jì)算每層的反饋傳遞誤差,公式(9).
Step 4.計(jì)算網(wǎng)絡(luò)的權(quán)值和偏置的偏導(dǎo)數(shù),公式 (10);
Step 5.梯度下降算法更新權(quán)值和偏導(dǎo)數(shù).
本文使用的數(shù)據(jù)集是從LPR數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)上收集得到的圖片.對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),如圖像的平移,旋轉(zhuǎn)等圖像變換,最終獲得了20類共40000張圖片.對(duì)于這 40000張圖片,30000張用于訓(xùn)練,10000張用于測(cè)試,車標(biāo)圖像示例如圖3所示.所有圖片都被歸一化到64×64 大小.分別為阿爾法羅密歐,奧迪,寶馬,奔馳,比亞迪,東風(fēng)標(biāo)致,別克,金杯,大眾,菲亞特,豐田,福特,現(xiàn)代,雷諾,鈴木,馬自達(dá),尼桑,歐寶,西亞特,雪鐵龍.
2.2.1 車標(biāo)測(cè)試集測(cè)試
測(cè)試集中有20類車標(biāo)類型,每類有500張圖片,表1給出了T-CNN網(wǎng)絡(luò)模型對(duì)測(cè)試集測(cè)試的結(jié)果.
同時(shí),在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行測(cè)試,在其深度上與T-CNN保持一致.3個(gè)卷積層,卷積核大小分別為 12×5×5,48×3×3,192×3×3,Stride 為 1.3 個(gè)下采樣層,采樣間距 2×2,stride 為 2.測(cè)試結(jié)果如表2 所示.
圖3 20 類車標(biāo)圖片實(shí)例
2.2.2 與其他方法的比較
跟其它車標(biāo)識(shí)別方法的比較中,采樣相同的訓(xùn)練集和測(cè)試集.20類車標(biāo)30000張圖片進(jìn)行訓(xùn)練,10000張測(cè)試集上進(jìn)行測(cè)試.與文獻(xiàn)[2]所提到的HOG+SVM方法,文獻(xiàn)[4]中使用傳統(tǒng)的CNN+SVM方法,及文獻(xiàn)[5]提出的聯(lián)合卷積網(wǎng)絡(luò)Multi-CNN特征的識(shí)別方法進(jìn)行比較.比較的結(jié)果如表3所示.
2.2.3 實(shí)驗(yàn)結(jié)果分析
從表1和表2的結(jié)果分析得到,T-CNN能夠在自然場(chǎng)景下進(jìn)行圖像的識(shí)別,在光照不均,圖像在一定程度的形變,扭曲和缺失的情況下能夠提取較好的特征進(jìn)行分類任務(wù).比較傳統(tǒng)的卷積網(wǎng)絡(luò),分類的性能有一定的提升.從表3分析可知,傳統(tǒng)的特征提取受到外界因素的影響較大,不利于分類特征的提取.而Multi-CNN利用多層采樣層的特征進(jìn)行分類,但單通路下不能提取多種尺度范圍的特征.
表1 T-CNN 車標(biāo)測(cè)試識(shí)別率
表2 CNN 車標(biāo)測(cè)試識(shí)別率
表3 不同方法車標(biāo)測(cè)試結(jié)果
2.2.4 T-CNN 性能分析
T-CNN網(wǎng)絡(luò)結(jié)構(gòu)在測(cè)試集上的性能分析,分類準(zhǔn)確率和損失函數(shù)與迭代次數(shù)之間的關(guān)系,如圖4.
本文提出了一種樹狀結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)T-CNN用于車標(biāo)識(shí)別,與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比較,能夠提取有效的識(shí)別特征,能夠自主的進(jìn)行特征的提取,避免了人工提取特征的繁瑣.但在實(shí)驗(yàn)中使用的車標(biāo)類型較少,對(duì)于工程應(yīng)用有一定的局限性.而且與一般的卷積神經(jīng)網(wǎng)絡(luò)相比,樹狀結(jié)構(gòu)卷積網(wǎng)絡(luò)層數(shù)過(guò)多會(huì)引起參數(shù)過(guò)大,不利于計(jì)算.接下來(lái)的工作中,擴(kuò)大樣本數(shù)量和類型的數(shù)量.擴(kuò)大網(wǎng)絡(luò)的深度,減少各個(gè)通路的卷積核的數(shù)量進(jìn)行T-CNN的驗(yàn)證.
表4 T-CNN 具體描述
圖4 T-CNN 性能圖
1王枚,王國(guó)宏,房培玉,等.基于 PCA 與不變矩的車標(biāo)定位與識(shí)別.武漢大學(xué)學(xué)報(bào)?信息科學(xué)版,2008,33(1):36–40.
2Dai SJ,Huang H,Gao ZY,et al.Vehicle-logo recognition method based on Tchebichef moment invariants and SVM.Proc.of the 2009 WRI World Congress on Software Engineering.Xiamen,China.2009.18–21.
3Llorca DF,Arroyo R,Sotelo MA.Vehicle logo recognition in traffic images using HOG features and SVM.Proc.of the 16th International IEEE Conference on Intelligent Transportation System.The Hague,Netherlands.2013.2229–2234.
4彭博,藏笛.基于深度學(xué)習(xí)的車標(biāo)識(shí)別方法研究.計(jì)算機(jī)科學(xué),2015,42(4):268–273.[doi:10.11896/j.issn.1002-137X.2015.04.055]
5Zhang L,Zhang DM,Zheng H.Vehicle logo recognition using convolutional neural network combined with multiple layer feature.Journal of Computer Application,2016,36(2):444–448.
6Sun Q,Lu XB,Chen L,et al.An improved vehicle logo recognition method for road surveillance images.Proc.of the 7th International Symposium on Computational Intelligence and Design (ISCID).Hangzhou,China.2014.373–376.
7LeCun Y,Bottou L,Bengio Y.LeNet-5,Convolutional neural networks.IEEE Communication,1989:41–46.
8Szegedy C,Liu W,Jia YQ,et al.Going deeper with convolutions.Proc.of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston,MA,USA.2015.1–9.
9Krizhevsky A,Sutskever I,Hinton GE.ImageNet classifi-cation with deep convolutional neural networks.Proc.of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,Nevada,USA.2012.1097–1105.
10Coates A,Lee H,Ng AY.An analysis of single-layer networks in Unsupervised feature learning.Proc.of the 14th International Conference on Artificial Intelligence and Statistics.Ft.Lauderdale,FL ,USA.2011.215–223.
11Zeiler MD,Fergus R.Visualizing and understanding convolutional networks.Proc.of the 13th European Conference on Computer Vision.Zurich,Switzerland.2014.818–833.
12張婷,李玉鑑,胡海鶴,等.基于跨連卷積神經(jīng)網(wǎng)絡(luò)的性別分類模型.自動(dòng)化學(xué)報(bào),2016,42(6):858–865.[doi:10.16383/j.aas.2016.c150658]
Vehicle Logo Recognition Using Tree-Based Convolution Neural Network
WU Zhang-Hui,LI Zhi-Qing,YANG Xiao-Ling,LIU Yu-Tong
(The College of Information Engineering,Xiangtan University,Xiangtan 411105,China)
In order to improve the recognition rate of vehicle in natural situations,this paper proposes a vehicle logo recognition modal based on a multi-path tree structure convolutional neural networks,which modal with different convolution kernel in the same convolutions,namely T-CNN.Firstly,different layer convolution features are obtained and are joined together as the input of the fully connected layer to get classifiers.Compared with the traditional method,the theoretical analysis and simulation results show that T-CNN can increase the recognition accuracy up to 98.43%.
deep leaning; convolutional neural network(CNN); feature map; vehicle logo recognition
吳章輝,李志清,楊曉玲,劉雨桐.樹狀卷積神經(jīng)網(wǎng)絡(luò)的車標(biāo)識(shí)別應(yīng)用.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(10):166–171.http://www.c-sa.org.cn/1003-3254/6002.html
2017-01-12; 采用時(shí)間:2017-02-20