張 軍,張 婷,楊正瓴,朱新山,楊伯軒
(1.天津大學 電氣與自動化工程學院,天津 300072;2.天津市過程檢測與控制重點實驗室,天津 300072)
?
深度卷積神經(jīng)網(wǎng)絡的汽車車型識別方法*
張 軍1,2,張 婷1,2,楊正瓴1,2,朱新山1,2,楊伯軒1,2
(1.天津大學 電氣與自動化工程學院,天津 300072;2.天津市過程檢測與控制重點實驗室,天津 300072)
針對現(xiàn)有汽車車型識別方法計算量大、提取特征復雜等問題,提出一種基于深度卷積神經(jīng)網(wǎng)絡的汽車車型識別方法。該方法借助于深度學習,對經(jīng)典的卷積神經(jīng)網(wǎng)絡做出改進并得到由多個卷積層和次抽樣層構成的深度卷積神經(jīng)網(wǎng)絡。根據(jù)五種車型的分類結果,表明該方法在識別率方面較傳統(tǒng)方法有明顯的提高。實驗還研究了網(wǎng)絡層數(shù)、卷積核大小、特征維數(shù)對深度卷積神經(jīng)網(wǎng)絡的性能和識別率的影響。
深度學習; 深度卷積神經(jīng)網(wǎng)絡; 汽車車型識別; 特征提取
隨著人民生活水平的不斷提高,汽車數(shù)量日益增多,道路承載狀況與汽車增長量之間的矛盾愈發(fā)突出,由此產(chǎn)生的道路堵塞、交通環(huán)境惡化等問題,進一步加劇了交通壓力[1]。汽車車型識別問題作為模式識別領域在智能交通系統(tǒng)方向的重要應用,在交通監(jiān)控和管制、交通事故責任判定等方面有十分顯著的作用。
目前常用的汽車車型識別方法有:基于多傳感器的車型檢測方法[2],該方法原理簡單,實現(xiàn)容易,但對外界環(huán)境的適應性不強,故障率較高;基于尺度不變特征轉換(scale-invariant feature transform,SIFT)特征的車型識別方法[3~5],SIFT算法具有旋轉、尺度縮放和視角不變性,缺點是特征向量的維數(shù)過高,容易產(chǎn)生“維數(shù)災難”;基于分類器的車型識別方法,常用到粒子群優(yōu)化(particle swarm optimization,PSO)算法、云模型理論[6]、遺傳算法等智能算法,但一般要求較大的訓練樣本。
深度學習作為傳統(tǒng)機器學習的延伸和擴展,已在眾多領域得到廣泛應用[7~10]。卷積神經(jīng)網(wǎng)絡作為深度學習的一種,延續(xù)了深度學習自動學習提取特征的特點,利用局部感受野和共享權值等方法,泛化能力強,識別效率高,廣泛應用于語音識別[11]、車牌識別[12]等方面。
本文提出一種基于深度卷積神經(jīng)網(wǎng)絡(deep convolutional neural network,DCNN)的汽車車型識別方法,用來區(qū)分貨車、大巴車、公交車、面包車和轎車五種車型。本文方法改進了傳統(tǒng)車型識別方法,并通過實驗證明有較好的識別率和一定的可行性。
卷積神經(jīng)網(wǎng)絡可視為一個多層網(wǎng)絡,其結構示意圖如圖1。
圖1 卷積神經(jīng)網(wǎng)絡結構示意圖Fig 1 Structure diagram of convolution neural network
1.1 卷積層
一個卷積層可包含多個特征圖,特征圖中的每個神經(jīng)元與前一層的局域感受野連接,并與具有學習能力的卷積核進行卷積獲取局部特征,由激活函數(shù)輸出得到該層的特征圖。激活函數(shù)通常為Sigmoid函數(shù)。一般地,卷積層的計算公式和激活函數(shù)分別為
(1)
(2)
式中 l為網(wǎng)絡層數(shù),k為卷積核,Mj為輸入層的感受野,b為每個輸出圖的一個偏置值,e為自然指數(shù),約取2.718 28。
1.2 次抽樣層
次抽樣層是對輸入進行采樣操作,輸入的特征圖由池化操作后個數(shù)保持不變,但大小變?yōu)樵瓉淼?/n(假設的池化尺寸為n)。池化操作的主要目的是降低特征圖的分辨率,減小特征維數(shù)。次抽樣層的一般形式為
(3)
式中 down(·)為池化函數(shù),β為權重系數(shù)。
1.3 全連接層
在卷積層和次抽樣層之后,會連接一個或多個全連接層。卷積層和次抽樣層用于提取輸入圖像的特征,并將其全部反饋到全連接層進行特征分類,由輸出層輸出最終結果。
2.1 DCNN的結構模型
卷積神經(jīng)網(wǎng)絡的最早應用是手寫字符的識別,用到的經(jīng)典卷積神經(jīng)網(wǎng)絡共有5層,卷積核大小為5×5,但不能將其直接應用到車型識別中。經(jīng)過分析比較,主要有兩點原因:
1)手寫字符識別的輸入為Mnist樣本集,其內容簡單,顏色單一,而車型識別的輸入來源于部分UIUC大學[13]車型識別庫圖片和真實采集的車型圖片,這些圖片背景復雜,經(jīng)典卷積神經(jīng)網(wǎng)絡的層數(shù)過小,無法提取有效特征。
2)Mnist樣本集為28×28,而車型識別的輸入經(jīng)過處理后為128×64,經(jīng)典網(wǎng)絡的5×5卷積核過小,卷積結果無法表達有效信息。
由以上分析可知,需要對網(wǎng)絡深度和卷積核大小等進行修改。最終確定DCNN共有7層(不包括輸入層和輸出層),卷積核大小為9×9,全連接層神經(jīng)元個數(shù)為500左右,輸出層有5個神經(jīng)元輸出5種車型。
第一層是卷積層C1,每個神經(jīng)元與輸入圖像指定的一個9×9鄰域進行卷積,特征圖大小變?yōu)?20×56,C1層包含30個不同的特征圖。
第二層是次抽樣層S2,S2是對C1層用2×2的鄰域進行最大池下采樣得到,因此,特征圖大小為60×28,次抽樣不改變特征圖的數(shù)目。
第三層是卷積層C3,可得到C3層特征圖大小為52×20,特征圖個數(shù)變?yōu)?0個。
第四層是次抽樣層S4,用2×2的窗口進行最大池下采樣,得到特征圖大小為26×10。
第五層是卷積層C5,同理可得C5層特征圖大小為18×2,特征圖個數(shù)為120個。
第六層是次抽樣層S6,用2×2的窗口得到特征圖大小為9×1。
第七層是全連接層F7,包含500個(不一定為準確值,但靠近500)神經(jīng)元,和S6全連接。
由于對5種車型進行分類,因此,輸出層包括5個神經(jīng)元。神經(jīng)元由徑向基函數(shù)單元(RBF)組成,RBF的輸出yi的計算公式為
(4)
2.2 汽車車型識別的實現(xiàn)方法
DCNN的汽車車型識別方法包括車型的訓練和識別,現(xiàn)將車型識別的實現(xiàn)方法分為4個步驟,流程圖如圖2所示。
圖2 汽車車型識別流程圖Fig 2 Flow chart of vehicle model recognition
1)確定DCNN的結構:分別設定DCNN中各層的層數(shù),卷積核大小和分類器,其中卷積層和次抽樣層提取車型特征,分類器用于車型的分類識別。
2)采集圖像并進行預處理:除UIUC大學車型識別庫的圖片外,為保證數(shù)據(jù)的多樣性,還包含不同的車型、地點(十字路口、高速公路等)、時間(白天、夜間等)和天氣(晴天、雨天等)的圖像。圖像采集好后需進行預處理使圖像為128×64。
3)訓練DCNN:利用(2)中的訓練樣本訓練改進后的DCNN,將訓練好的權重參數(shù)矩陣和偏移量賦值給該網(wǎng)絡的各層,則具有特征提取和分類功能。分類器采用Softmax分類器,計算車輛屬于不同類型的概率,計算公式
(5)
4)測試DCNN:經(jīng)過訓練得到DCNN和分類器后,使用測試圖片測試網(wǎng)絡,計算出車輛屬于不同類別的概率d1,d2,d3,d4,d5,選擇其中的最大值dj,則該車輛屬于第j種車型。
3.1 實驗數(shù)據(jù)
為了驗證本文DCNN的性能,實驗采用UIUC大學車型識別庫圖片和天津獅子林大街黃網(wǎng)格區(qū)域拍攝的圖片作為實驗圖片。實驗共1 000張樣本圖,其中800張作為訓練樣本(UIUC車型識別庫圖片100張,且全部作為訓練樣本),200張作為測試樣本。由于拍攝圖片存在噪聲、失真及干擾等現(xiàn)象,經(jīng)預處理后部分訓練樣本圖片如圖3所示。
圖3 各種車型的部分訓練樣本圖片F(xiàn)ig 3 Images of part of training sample of various kinds of vehicle models
3.2 實驗結果分析
本文分別對5種車型進行研究,訓練樣本包括貨車120輛,大巴車130輛,公交車170輛,面包車180輛,轎車200輛。為顯示本文方法的實驗結果,采用SIFT算法和PSO算法作為對比,識別率結果如表1所示。由表1可知,本文方法的識別率明顯較高,比SIFT的識別率平均高約8 %,比PSO平均高約10 %。
表1 三種算法的識別率/%
基于DCNN的結構特點,本文對可能影響網(wǎng)絡性能的參數(shù)進行研究。在網(wǎng)絡深度方面,分別取3,5,7,9,卷積核大小均為9×9,特征維數(shù)500左右。不同網(wǎng)絡層數(shù)的識別率如表2所示。當網(wǎng)絡層數(shù)為3時,網(wǎng)絡無法收斂;網(wǎng)絡層數(shù)為5,7,9時,網(wǎng)絡收斂,其中7層網(wǎng)絡結構具有較高的識別率。
表2 不同網(wǎng)絡層數(shù)的識別率
在卷積核大小方面,分別取5×5,7×7,9×9,11×11的卷積核進行對比,網(wǎng)絡層數(shù)為7,特征維數(shù)500左右。不同卷積核大小的識別率如表3所示。當卷積核大小為5×5時無法進行特征提??;其他卷積核大小均能完成識別過程,9×9卷積核識別率最高且穩(wěn)定性好。
表3 不同卷積核的識別率
在特征維數(shù)方面,分別取5組不同值,網(wǎng)絡層數(shù)為7,卷積核大小為9×9。不同特征維數(shù)的識別率如表4所示。特征維數(shù)較小會使特征描述不充分,特征維數(shù)較大會產(chǎn)生過擬合。因此,應根據(jù)實際樣本的特征和復雜度調整特征維數(shù),達到理想的分類效果。
表4 不同特征維數(shù)的識別率
本文對汽車車型識別的多種方法進行深入研究,利用深度學習,提出一種基于DCNN的汽車車型識別方法,并結合輸入圖像的尺寸、復雜性等特點對經(jīng)典卷積神經(jīng)網(wǎng)絡做出改進。本文詳細說明了DCNN的結構,對網(wǎng)絡層數(shù)、卷積核大小和特征維數(shù)進行改進,使測試樣本的識別率能達到96.8 %,比SIFT算法和PSO算法的平均識別率分別高約8 %和10 %。實驗還對DCNN的主要參數(shù)進行對比研究,分析參數(shù)變化對識別率的影響。實驗結果表明:本文提出的方法在輸入圖像的不同條件下識別率較高,對汽車車型識別問題魯棒性好,證明本文的方法學習能力較強,具有一定的可行性和實用價值。
[1] 蔡伯根,趙濟民,王 劍,等.三軸AMR車輛檢測器的車型分類設計實現(xiàn)[J].交通運輸系統(tǒng)工程與信息,2014,14(4):46-52.
[2] 楊三序.電容式傳感器在車輛檢測裝置中的應用[J].傳感器技術,2004,23(9):74-76.
[3] 華莉琴,許 維,王 拓,等.采用改進的尺度不變特征轉換及多視角模型對車型識別[J].西安交通大學學報,2013,47(4):92-99.
[4] Lowe D G.Distinctive image features from scale-invariant key points[J].International Journal of Computer Vision,2004,60(2):91-110.
[5] Lowe D G.Object recognition from local scale invariant feature-s[C]∥Proceedings of the International Conference on Computer Vision,Piscataway,NJ,USA:IEEE Computer Society,1999:1150-1157.
[6] 唐朝霞,俞揚信,張 粵.基于粒子群算法和云模型的車型識別[J].微電子學與計算機,2013,30(11):80-83.
[7] Sarikaya R,Hinton G E,Deoras A.Application of deep belief networks for natural language understanding[J].IEEE Transactions on Audio Speech and Language Processing,2014,22(4):778-784.
[8] Graves A,Mohamed A,Hinton G E.Speech recognition with deep recurrent neural networks[C]∥IEEE International Conference on Acoustic Speech and Signal Processing,ICASSP 2013,Vancouver,BC:IEEE,2013:6645-6649.
[9] Ciresan D,Meier U,Schmidhuber J.Multicolumn deep neural networks for image classification[C]∥Computer Vision and Pattern Recognition,Providence,RI:IEEE,2012:3642-3649.
[10] Dahl G E,Sainath T N,Hinton G E.Improving deep neural networks for LVCSR using rectified linear units and dropout[C]∥2013 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),IEEE,2013:8609-8613.
[11] Sainath T N,Mohamed A R,Kingsbury B,et al.Deep convolutional neural networks for LVCSRA[C]∥Proc of IEEE International Conference on Coustics,Speech and Signal Processing,2013:8614-8618.
[12] 趙志宏,楊紹普,馬增強.基于卷積神經(jīng)網(wǎng)絡LeNet—5的車牌字符識別研究[J].系統(tǒng)仿真學報,2010,22(3):638-641.
[13] UIUC.車型數(shù)據(jù)庫[EB/OL].(2010—06—01)[2012—03—17].http:∥vangogh.a(chǎn)i.uiuc.edu/silvio/3ddataset2.html.
張 軍(1964- ),男,天津人,碩士,副教授,主要從事智能交通系統(tǒng)、計算機視覺與圖像處理方面研究工作。
Vehicle model recognition method based on deep convolutional neural network*
ZHANG Jun1,2,ZHANG Ting1,2,YANG Zheng-ling1,2,ZHU Xin-shan1,2,YANG Bo-xuan1,2
(1.School of Electrical Engineering and Automation,Tianjin University,Tianjin 300072,China;2.Tianjin Key Laboratory of Process Measurement and Control,Tianjin 300072,China)
Aiming at problems of excessive calculation and complex feature extraction of existing vehicle model recognition methods,a vehicle model recognition method is proposed based on deep convolutional neural network(DCNN).With the aid of deep learning,improvement is made on classic convolutional neural network and DCNN made of multiple convolutional layers and time sampling layers is gained.According to classification results of the five models,it shows that this method has obvious increase than traditional methods in terms of recognition rates.The experiments also study on influences of number of network layer,size of convolutional kernel,characteristic dimension on performance of DCNN and recognition rates.
deep learning;deep convolutional neural network(DCNN);vehicle model recognition;feature extraction
10.13873/J.1000—9787(2016)11—0019—04
2016—01—21
天津市科技計劃基金資助項目(13ZXCXGX40400)
TP 391
A
1000—9787(2016)11—0019—04