甘澄 丁學(xué)文
摘要:為了解決傳統(tǒng)車輛檢索方法中準(zhǔn)確性和區(qū)分度較低的問(wèn)題,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的車輛檢索方法。該方法利用CNN稀疏連接和權(quán)值共享的優(yōu)點(diǎn),針對(duì)車輛前臉圖像關(guān)鍵特征位置的相對(duì)不變性,設(shè)計(jì)了一個(gè)七層的網(wǎng)絡(luò)結(jié)構(gòu),可以合理提取車輛的有效特征,并將低級(jí)結(jié)構(gòu)特征組合成為高一級(jí)的特征,既簡(jiǎn)化了模型的復(fù)雜度,也克服了旋轉(zhuǎn)平移等因素對(duì)檢測(cè)結(jié)果的影響。該方法最終通過(guò)相似度排序的方法得到檢索結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文所提出的方法相對(duì)于基于局部不變特征方法具有更高的準(zhǔn)確度。
關(guān)鍵詞:車輛檢測(cè);圖像檢索;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)30-0191-03
The Research of Vehicle Image Retrieval Based on Convolutional Neural Network
GAN Cheng, DING Xue-wen
(School of Electronic Engineering,Tianjin University of Technology and Education, Tianjin 3000222 , China)
Abstract:In order to solve the problem of the traditional vehicle retrieval methods which has low degree of differentiation and accuracy, it is proposed in this paper that a vehicle retrieval method based on convolution neural network (CNN).This methods builds a seven layers network structure which utilizes the advantages of CNN which called sparse connecting and weights sharing, and the key feature location invariance for vehicle former face image. This structure can extract effective features of vehicle which is reasonable, and combine the low scale feature into higher scale one. It not only simplifies the complexity of the model, but also overcome the influence of rotating shift on the result with effect. Finally, it get the retrieve result through similarity ranking. By comparing with the methods which based on local invariant features, the experimental results show that the presented method has a higher accuracy.
Key words: vehicle detection; image retrieval; CNN
1引言
隨著生活水平和工業(yè)水平的提高,機(jī)動(dòng)車數(shù)量迅速增長(zhǎng),車輛的品牌也有所增加,傳統(tǒng)的人工基于視頻圖像對(duì)交通信息的判斷工作已經(jīng)無(wú)法滿足當(dāng)前的發(fā)展?fàn)顩r,有效判別某一輛汽車具體品牌型號(hào)對(duì)于交通管理領(lǐng)域,特別是對(duì)車輛違章、無(wú)牌照車輛等公安稽查領(lǐng)域有著非常重要的意義[1]。
當(dāng)前對(duì)于車輛型號(hào)信息的提取主要有以下幾種方法:
1)基于車牌識(shí)別的車型識(shí)別方法。該方法對(duì)車牌進(jìn)行字符識(shí)別,通過(guò)識(shí)別到的車牌信息查詢交通管理數(shù)據(jù)庫(kù),以此獲得車主信息與車輛型號(hào)。該方法簡(jiǎn)單高效,應(yīng)用廣泛,然而遇到套牌車輛會(huì)失去作用。
2)基于特征匹配的車型識(shí)別方法。通過(guò)提取車輛圖像的局部特征來(lái)進(jìn)行車型識(shí)別。該方法需要選擇合適的局部特征,合適的匹配算法,是目前比較熱門的研究方向之一。
3)基于3D模型匹配的車型識(shí)別方法。該方法需要建立標(biāo)準(zhǔn)車型的三維模型庫(kù),雖然識(shí)別精度高,但算法復(fù)雜,難度較大。
綜上所述,基于車輛外觀的圖像特征的車型識(shí)別與車輛檢索方法更為有效。若選取局部特征,可以有效降低計(jì)算的復(fù)雜度,提高系統(tǒng)效率與精度。選取全局特征則可以保留車型的全部信息,大幅提高檢測(cè)精度,但計(jì)算的復(fù)雜度也隨之升高。車輛的前臉特征,它包含了車型的重要信息,如車燈,格柵,車標(biāo)等,這些局部特征可以有效地區(qū)分各種車型。
2當(dāng)前的車輛檢索方法
傳統(tǒng)的車輛檢測(cè)方法選取車輛的局部信息進(jìn)行檢測(cè)。但這種方法面臨的問(wèn)題是對(duì)于車輛的局部信息,檢測(cè)的速度雖然比較快,但仍然存在不少缺點(diǎn)。
文獻(xiàn)[2]采用具有嚴(yán)格意義的仿射不變性特征的MSER進(jìn)行特征檢測(cè),將檢測(cè)到的特征點(diǎn)用SIFT描述子描述為特征向量。通過(guò)“詞袋模型”,將所有的圖像量化為“碼書(shū)”。將每一類車型的所有“碼書(shū)”訓(xùn)練為該類車型的分類器,以此來(lái)對(duì)輸入圖像進(jìn)行車型識(shí)別。
文獻(xiàn)[3]在車輛視頻關(guān)鍵幀提取的基礎(chǔ)上,根據(jù)改進(jìn)SURF算法完成車輛圖像的特征提取及匹配,其中包含改進(jìn)FAST特征點(diǎn)檢測(cè)、SURF特征向量提取以及最近鄰查詢方法來(lái)進(jìn)行特征點(diǎn)的匹配,并通過(guò)計(jì)算相似度,完成圖像篩選并反饋檢索結(jié)果。
文獻(xiàn)[4,5]運(yùn)用改進(jìn)的Adaboost方法進(jìn)行車臉定位,提取SIFT、SURF不變性特征,提出改進(jìn)的特征匹配策略,并結(jié)合車臉區(qū)域分割的車標(biāo)與車燈不變矩特征、散熱器隔欄紋理等多特征,根據(jù)車型標(biāo)準(zhǔn)特征模型庫(kù)的數(shù)據(jù),提出了多特征融合的自適應(yīng)分布車型分類識(shí)別算法。
綜上所述,目前的車輛檢索方法主要經(jīng)過(guò)車輛前臉定位和車臉特征匹配兩個(gè)步驟,對(duì)于大部分的圖像可以取得較好的檢索效果。但是對(duì)于圖1所示的四副圖像,圖中黃色框內(nèi)為車輛的中網(wǎng)區(qū)域,紅色框內(nèi)為車燈區(qū)域。僅僅使用這兩個(gè)特征區(qū)域來(lái)進(jìn)行檢測(cè),是無(wú)法將這四輛捷豹車型區(qū)分開(kāi)的。
針對(duì)傳統(tǒng)基于不變特征對(duì)車輛識(shí)別的不足之處,本文采用深度卷積神經(jīng)網(wǎng)絡(luò),通過(guò)對(duì)車輛圖像全局特征的自動(dòng)提取,從而獲得更準(zhǔn)確的檢索結(jié)果。
3本文采用的方法
隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域有了廣泛的用途。其工作方式仿生于人類辨識(shí)事物的過(guò)程,獲取事物的全局特征,自動(dòng)地與已有知識(shí)進(jìn)行比較辨認(rèn),從而得到結(jié)果。此外,它具有強(qiáng)大的非線性表示能力,能夠理解圖像更深層次的信息。
卷積神經(jīng)網(wǎng)絡(luò)相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法具有更多的優(yōu)勢(shì)。其主要體現(xiàn)在兩點(diǎn):
1) 特征提取和模式識(shí)別與分類同時(shí)在訓(xùn)練中運(yùn)行,并且可以直接處理灰度圖像,不需對(duì)圖像進(jìn)行過(guò)度的預(yù)處理,造成不必要的細(xì)節(jié)損失。
2) 輸入圖像與網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能夠很好地吻合,特別是多維輸入的圖像可以直接輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,避免了特征提取、識(shí)別過(guò)程和分類過(guò)程中數(shù)據(jù)重建所造成的重復(fù)計(jì)算。
3.1模型設(shè)計(jì)
本文采用LeNet-5卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。LeNet-5是一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用案例,準(zhǔn)確性高、可用性強(qiáng),已被美國(guó)多家銀行用于支票手寫數(shù)字的識(shí)別。對(duì)車輛的識(shí)別與手寫數(shù)字類似,都是對(duì)某一未知圖像進(jìn)行識(shí)別和匹配。相對(duì)于手寫數(shù)字在整個(gè)圖像中的相對(duì)位置不確定,車輛的各個(gè)部位的固定結(jié)構(gòu)使得其在一定區(qū)域具有結(jié)構(gòu)位置不變性?;谝陨戏治?,基于車輛圖像的特點(diǎn),本文構(gòu)建一個(gè)適用于車輛圖像的卷積神經(jīng)網(wǎng)絡(luò)。
在進(jìn)行網(wǎng)絡(luò)訓(xùn)練之前,首先對(duì)圖片進(jìn)行處理。將獲取的輸入圖片大小歸一化為32×32,并轉(zhuǎn)換為灰度圖像,最終將圖像轉(zhuǎn)換為L(zhǎng)MDB格式,進(jìn)行標(biāo)簽處理,直接用于網(wǎng)絡(luò)的輸入層[8]。設(shè)計(jì)的網(wǎng)絡(luò)如圖2所示。
網(wǎng)絡(luò)層C1是由四個(gè)特征圖組成的卷積層。每個(gè)神經(jīng)元與輸入圖像的一個(gè)5×5的領(lǐng)域相連接,得到的卷積后的特征圖大小為28×28。網(wǎng)絡(luò)層S2由4個(gè)大小為14×14的特征圖組成的次抽樣層,其來(lái)源于對(duì)C1層池化操作。每個(gè)特征圖上的神經(jīng)元與C1層的一個(gè)大小為2×2的鄰域相連。網(wǎng)絡(luò)層C3是由10個(gè)大小為10×10的特征圖組成的卷積層。特征圖的每個(gè)神經(jīng)元與S2層的特征圖的5×5的鄰域連接。表1顯示了S2層的特征圖與C3的特征圖之間的聯(lián)接關(guān)系。列代表S2層,行代表C3層,X代表之間相連。例如,由表1可知C3的第二個(gè)特征圖由S2的第二個(gè)、第三個(gè)、第四個(gè)結(jié)合而得,通過(guò)這種選擇性連接,降低了特征的維度,加快了計(jì)算,卻保留了有用的信息。
網(wǎng)絡(luò)層S4是由10個(gè)5×5的特征圖組成的次抽樣層。特征圖中的每個(gè)神經(jīng)元與C3層的一個(gè)2×2大小的鄰域相連接。網(wǎng)絡(luò)層C5是由200個(gè)特征圖組成的卷積層。每個(gè)神經(jīng)元與S4網(wǎng)絡(luò)層的特征圖的5×5大小的領(lǐng)域相連接。網(wǎng)絡(luò)層F6,包括100個(gè)神經(jīng)元,與網(wǎng)絡(luò)層C5進(jìn)行全連接,采用softmax進(jìn)行分類。最后,輸出層有10個(gè)神經(jīng)元,是由徑向基函數(shù)單元(RBF)組成,輸出層的每個(gè)神經(jīng)元對(duì)應(yīng)一個(gè)特征類別。
在前向傳播的過(guò)程中,需要判斷是否得到神經(jīng)元的輸出,這時(shí)就需要激活函數(shù)。常用的激活函數(shù)有Sigmoid、Tanh、ReLU等[9],本文選擇ReLU。其數(shù)學(xué)表達(dá)式為f(x)=max(0,x)。可以看出,輸入信號(hào)<0時(shí),輸出為0;輸入信號(hào)>0時(shí),輸出等于輸入。其收斂速度大于傳統(tǒng)的Sigmoid和Tanh,且計(jì)算也相對(duì)簡(jiǎn)單。
在C5層原始輸出的特征圖的細(xì)節(jié),包括了圖像的邊緣特征的方向和粗細(xì)。加入編碼器,將這些邊緣特征進(jìn)行組合,通過(guò)不同的組合,可以得到圖像的一些主題特征,將這些特征用于分類器中,會(huì)有很好的學(xué)習(xí)表達(dá)能力。
在整個(gè)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)過(guò)程中,主要從卷積核的個(gè)數(shù)大小、池化方法、網(wǎng)絡(luò)的層數(shù)的選擇來(lái)綜合考慮。越多的卷積核可以獲得更多的特征且卷積核越小則可以獲得更詳細(xì)的特征,但卻增加了處理的時(shí)間和產(chǎn)生較高的空間復(fù)雜度;較小的池化核會(huì)造成過(guò)擬合,較大的池化核則會(huì)由于下采樣的噪音太多造成誤差增大;層次越多,會(huì)產(chǎn)生更加詳細(xì)的細(xì)節(jié)特征,同時(shí)也會(huì)增加空間和時(shí)間的復(fù)雜度,對(duì)于車輛圖像而言,不需要更加精細(xì)的細(xì)節(jié)特征。因此,綜合考慮,本文設(shè)計(jì)的網(wǎng)絡(luò)如表2所示,采用7層網(wǎng)絡(luò)結(jié)構(gòu),卷積核選用5×5,池化過(guò)程選擇均值池化且池化核尺寸為2×2,分類器選用softmax能夠達(dá)到較好的分類效果。
3.2相似度量
經(jīng)過(guò)卷積網(wǎng)絡(luò)對(duì)圖像的學(xué)習(xí),將圖像的特征進(jìn)行了抽象化,理論上在網(wǎng)絡(luò)模型中層數(shù)越高表示的特征越抽象,越能更好地表征圖像的內(nèi)容。
本文采用簡(jiǎn)單的最小距離分類器進(jìn)行特征的相似計(jì)算,公式如下:
這里q表示查詢圖像的特征向量,m表示檢索庫(kù)中第i張圖像的特征向量,Di表示特征之間的距離差,n表示檢索庫(kù)中一共有多少?gòu)垐D片。值越小說(shuō)明兩幅圖像的相似度越高。最后,通過(guò)排序算法返回相應(yīng)的特征索引并查找出對(duì)應(yīng)的圖像庫(kù),就能檢索出所需要的相似圖像。
4 試驗(yàn)結(jié)果與分析
本文實(shí)驗(yàn)電腦配置為Intel Core i5 CPU,在Linux環(huán)境下使用深度學(xué)習(xí)庫(kù)Caffe來(lái)訓(xùn)練本文設(shè)計(jì)的模型。
圖3顯示了輸入圖像在卷積神經(jīng)網(wǎng)絡(luò)LeNet-5各層輸出神經(jīng)元的處理結(jié)果,最左邊是輸入圖像。從圖3可以看出,隨著層數(shù)的增加,車輛的細(xì)節(jié)特征被逐漸提取出來(lái)
本文實(shí)驗(yàn)采用的圖像數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng)。實(shí)驗(yàn)圖像選取了50個(gè)常見(jiàn)的汽車品牌,并選取其中典型的車型進(jìn)行訓(xùn)練,訓(xùn)練集中的圖片數(shù)目為5000張,數(shù)據(jù)按照車輛品牌及車輛具體型號(hào)進(jìn)行標(biāo)注。
如圖4為一次檢索的示例。其中,左邊是輸入的查詢圖像,右邊是對(duì)應(yīng)的檢索到圖像標(biāo)號(hào)所對(duì)應(yīng)的圖像。
檢索測(cè)試圖像為捷豹XJ車型,檢索出三個(gè)相似的車型。其中NO.3924的相似度為92%,確實(shí)為目標(biāo)檢測(cè)車輛。NO.3901圖像為捷豹F-TYPE車型,具有75%的相似度,這是因?yàn)榧易寤脑O(shè)計(jì)因素造成的。NO.3957圖像為捷豹XE車型,有82%的相似度。因此認(rèn)為NO.3924為所要求的結(jié)果。在檢索中,即使是同一款車型,由于拍攝角度的問(wèn)題以及車輛經(jīng)過(guò)個(gè)性化的改裝,造成檢索相似度難以達(dá)到100%的準(zhǔn)確度。如果最高相似結(jié)果低于75%,則認(rèn)為檢索不成功。
測(cè)試進(jìn)行了200次試驗(yàn),其中有175次檢索結(jié)果正確。同時(shí),與文獻(xiàn)[2]等傳統(tǒng)方法進(jìn)行了性能對(duì)比,如表3所示。
通過(guò)表3的數(shù)據(jù),可以看出本文的方法相對(duì)于其他文獻(xiàn)采用的方法,準(zhǔn)確率有了較大的提高,但平均使用的時(shí)間相對(duì)較高。這是因?yàn)榻?jīng)過(guò)卷積網(wǎng)絡(luò)的學(xué)習(xí),得到的是整個(gè)圖像的全部特征,同時(shí)受限于硬件的運(yùn)算速度,造成相對(duì)運(yùn)算時(shí)間較高的情況。
5 結(jié)論
本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到車輛圖像的檢索工作中。根據(jù)車輛的特征對(duì)LeNet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),通過(guò)對(duì)圖像自動(dòng)地進(jìn)行“學(xué)習(xí)”,提取到足夠豐富且準(zhǔn)確的車輛細(xì)節(jié)特征。以便有效區(qū)分不同車輛。與基于局部特征的車輛檢索方法相比,檢索的準(zhǔn)確率得到了明顯的提升,綜合測(cè)試檢索的準(zhǔn)確率達(dá)到87.5%。該方法在道路交通信息管理方面具有廣泛的應(yīng)用前景。
但本文的工作依然存在一些不足。與傳統(tǒng)方法的對(duì)比可以看出,雖然檢索的精度有提高,但檢索的時(shí)間卻比較長(zhǎng),這受制于網(wǎng)絡(luò)的復(fù)雜度和硬件的運(yùn)算速度。在下一步的工作中,將會(huì)采集統(tǒng)一的圖像數(shù)據(jù),并且對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,進(jìn)一步提高檢索的精度和速度。
參考文獻(xiàn):
[1] 陳明明.視頻中的車輛檢測(cè)及車型識(shí)別研究[D].南京:南京郵電大學(xué),2013.
[2] 賈曉.套牌車輛的車型識(shí)別與檢索技術(shù)研究[D].大連:大連海事大學(xué),2016.
[3] 張子龍.基于改進(jìn)SURF算法的交通視頻車輛檢索方法研究[J].西北工業(yè)大學(xué)學(xué)報(bào),2014,32(2):297-302.
[4] 陳伊.基于圖像多特征的車輛對(duì)象識(shí)別方法研究[D].昆明:昆明理工大學(xué),2014.
[5] 李全武.車臉定位及識(shí)別方法研究[J].計(jì)算機(jī)科學(xué)與探索.2015,9(6):726-733.
[6] 盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016(31):1-17.
[7] 孫君頂,原芳.基于內(nèi)容的圖像檢索技術(shù)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011(8):240-244.
[8] 姜磊,趙漢理.基于卷積神經(jīng)網(wǎng)絡(luò)的鞋類圖像檢索研究[J].現(xiàn)代計(jì)算機(jī),2016(5):39-43.
[9] 趙志宏.基于卷積神經(jīng)網(wǎng)絡(luò)LeNet_5的車牌字符識(shí)別研究[J].系統(tǒng)仿真學(xué)報(bào),2010(3):638-641.