張鵬,陳湘軍,2,阮雅端,陳啟美
(1.南京大學(xué)電子科學(xué)與工程學(xué)院, 210046, 南京;2.江蘇理工學(xué)院計算機工程學(xué)院, 213001, 江蘇常州)
?
采用稀疏SIFT特征的車型識別方法
張鵬1,陳湘軍1,2,阮雅端1,陳啟美1
(1.南京大學(xué)電子科學(xué)與工程學(xué)院, 210046, 南京;2.江蘇理工學(xué)院計算機工程學(xué)院, 213001, 江蘇常州)
針對實際應(yīng)用中因圖像清晰度低等因素導(dǎo)致的車型識別誤差過大的問題,提出了一種基于稀疏尺度不變轉(zhuǎn)換特征(sparse scale invariant feature transform,S-SIFT)的車型識別方法。該方法用背景建模方法檢測交通視頻運動目標,提取目標SIFT特征;通過L1約束計算出SIFT特征的稀疏編碼,并用最大池化方法降低稀疏編碼維度,在線性SVM分類器中完成車型分類,彌補了背景建模方法識別誤差過大、不具備車型分類功能的缺陷。經(jīng)G36高速公路實際應(yīng)用表明:算法對車輛場景識別率可達98%以上,車型識別準確率可達89%以上,對低清晰度、不同視角、雨雪、遮擋等場景有很好的魯棒性;圖像平均處理時間不超過40 ms,可滿足系統(tǒng)對實時性的要求,在準確率和時間效率兩方面均明顯優(yōu)于傳統(tǒng)的SIFT方法和HOG方法。
深度學(xué)習(xí);車型識別;稀疏特征;尺度不變轉(zhuǎn)換特征;線性支持向量機分類
交通監(jiān)控視頻信息內(nèi)容形象直觀、鋪設(shè)方便、覆蓋范圍廣泛,基于機器視覺的車型識別方法已在智能交通ITS領(lǐng)域逐步得到應(yīng)用。目前常用的車型識別技術(shù)包括模板匹配[1]、尺度不變特征變換(scale invariant feature transform,SIFT)結(jié)合SVM分類器[2]、背景建模[3]等。模板匹配需要對圖像掃描,計算量較大,不適用于實時系統(tǒng);SIFT特征方法在視頻不清晰、特殊天氣狀況下識別準確率不高[4];背景建模方法基于幀間像素動態(tài)變化解析,實時性強,應(yīng)用較廣泛,但其對場景很敏感,光線變化、攝像機抖動、雨滴、樹枝搖晃等均可能造成誤判為運動目標,需進一步判別目標。
車輛長度、輪廓特征常用作分類特征,但隨攝像機的距離遠近而發(fā)生尺度變化,不適合用于監(jiān)控視頻。方向梯度直方圖(histogram of oriented gradients,HOG)是Dalal等提出的一種目標檢測算法[5],用圖像梯度的統(tǒng)計信息描述圖像局部形狀,可在一定程度上抑制平移和旋轉(zhuǎn)的影響,但很難處理遮擋問題,并且由于梯度的性質(zhì),對噪點很敏感。SIFT是一種基于尺度空間的算子,是基于關(guān)鍵點特征向量的描述,它對圖像縮放、旋轉(zhuǎn)都能夠保持不變性,可以有效描述圖像局部特征。
作為一種無監(jiān)督學(xué)習(xí)方法,稀疏編碼通過訓(xùn)練低層特征向量得到一組超完備基向量,用基向量的線性組合來表示輸入圖像特征,可對圖像像素或已有特征做進一步抽象。稀疏模型在超分辨率重建[6]、圖像分割[7]、圖像分類[8]等領(lǐng)域已經(jīng)有相關(guān)研究。Yang等用SIFT特征結(jié)合空間金字塔(spatial pyramid matching,SPM)作為低層向量,訓(xùn)練出用于稀疏編碼的基向量,取得了較好的圖像分類效果[9]。盡管稀疏編碼在圖像分類領(lǐng)域已引起了廣泛關(guān)注,但將其應(yīng)用于公路車輛識別和分類的研究還很少。
本文基于深度學(xué)習(xí)理論,提出了一種基于稀疏SIFT特征的車型識別的方法。該算法用高斯混合背景差分技術(shù)提取運動目標以減少計算量,保證系統(tǒng)實時性;提取目標圖像的低層SIFT特征向量,再經(jīng)訓(xùn)練獲得編碼字典和稀疏SIFT特征,得到更深層次圖像特征,以適應(yīng)不同視角、光照變化、陰影、遮擋等復(fù)雜場景,進一步提高識別率;最后用線性支持向量機實現(xiàn)稀疏SIFT特征分類,降低時間復(fù)雜度,保證實時性。
1.1 S-SIFT特征算法
S-SIFT特征算法是在圖像SIFT特征的基礎(chǔ)上,進一步訓(xùn)練超完備字典基,在L1約束下編碼的稀疏SIFT,可以實現(xiàn)更高層次車輛圖像抽象。
定義矩陣X包含圖像在D維特征空間的M個SIFT特征描述子,X=(x1,…,xM)T,則X可以表示為
X=WC
(1)
式中:W是稀疏編碼系數(shù);C=(c1,…,cK)T是K個基向量。求解X的稀疏編碼可以表征為下式對W和C求解最優(yōu)化問題
(2)
式中:‖·‖和|·|分別表示L2范數(shù)和L1范數(shù)。由L1約束性質(zhì)可知,懲罰項|wm|保證了編碼結(jié)果的稀疏性,稀疏系數(shù)β控制|wm|的權(quán)重,即稀疏性?;蛄渴沁^完備的(K>D),因此用cg的L2約束避免平凡解。
雖然求解式(2)時W和C同時變化,目標函數(shù)不是凸優(yōu)化問題,但是分別固定W和C時,目標函數(shù)分別退化為關(guān)于C和W的凸函數(shù)。固定W時,目標函數(shù)退化為關(guān)于C的最小二乘問題
(3)
可以用拉格朗日對偶算法[10]快速求解。固定C,目標函數(shù)退化為單獨對每一個wm求最優(yōu)解的線性回歸問題
(4)
可以用特征符號搜索算法[10]求解。
實驗中D=128,β=0.15,K選用8、32、128、512、1 024共5種編碼維度。M取決于圖像大小。以一幅256×256像素的圖像為例,SIFT圖像塊大小定義為16×16像素,步長為6,則橫向作(256-16)/6=40次匹配,縱向作(256-16)/6=40次匹配,M=40×40,即1 600,用512維S-SIFT算法處理SIFT特征子,最終輸出的稀疏編碼為 1 600個512維的向量。
1.2 池化
池化是統(tǒng)計稀疏編碼結(jié)果的過程,其模擬人眼視覺皮層的生理機制[11],可以減少輸入向量維數(shù),有利于降低訓(xùn)練分類器的時間復(fù)雜度。以上文的256×256圖像為例,其稀疏SIFT編碼維度為1 600×512=819 200,訓(xùn)練一個輸入向量維度超過80萬的分類器難度很大,且容易出現(xiàn)過擬合。采用池化方法,獲取一幅圖像的概要統(tǒng)計特征,不僅降低了訓(xùn)練分類器的難度,而且避免了過擬合現(xiàn)象。
目前常見的池化方法有平均池化和最大池化等,計算方法為
(5)
式中:wm是稀疏編碼向量;p是池化結(jié)果;wij表示第i個稀疏編碼向量的第j個元素。Lee等證明了稀疏編碼更適合用最大池化方法[10],Boureau等將SIFT特征、稀疏編碼和最大池化相結(jié)合,取得了非常好的圖像分類效果[12]。池化后的特征用簡單的線性SVM分類器就能達到較好的分類效果,時間復(fù)雜度僅為O(n)。
2.1 目標提取
定義t時刻的一個像素點為xt,如果xt滿足
(6)
則該像素點屬于背景,否則屬于前景。式中:B表示背景;F表示前景。
選取一個時間段T內(nèi)的圖像序列,在t時刻訓(xùn)練集為xT=(xt,…,xt-T)。用M個高斯模型組成的高斯混合模型估計背景概率密度,用馬氏距離計算新加入樣本與當前背景的距離,距離較大則可能是前景,賦予較小的權(quán)重,反之則賦予較大的權(quán)重,不斷更新均值和方差,選取M個高斯模型中對背景模型最重要的B個,可以得到
(7)
(a)背景圖像 (b)目標提取圖1 高斯混合模型的背景與目標提取
2.2SVM分類器參數(shù)訓(xùn)練
定義Q={(xi,yi)},i=1,…,n,其中Q是n個輸入數(shù)據(jù)點集;xi表示輸入變量;yi表示目標值,在二類問題中yi∈{1,-1}。分類函數(shù)定義為
(8)
式中:φ(x)表示從輸入空間到高維特征空間的映射。根據(jù)序列最小優(yōu)化算法(sequential minimal optimization, SMO)可以求得決策函數(shù)如下
(9)
式中:ai表示拉格朗日乘子;κ〈xi,x〉表示核函數(shù),用于快速計算映射到高維空間后兩個向量的內(nèi)積。常見的核函數(shù)有線性核、高斯核、多項式核。用非線性核SVM分類器,訓(xùn)練時間復(fù)雜度為O(n2~n3),分類時間復(fù)雜度為O(n),用線性核則可以將訓(xùn)練時間復(fù)雜度降低到O(n),分類時間復(fù)雜度仍為O(n)。實驗中輸入向量的維度最高達到了1 024維,采用線性核函數(shù)可以提高訓(xùn)練效率,保證系統(tǒng)實時性。
實驗使用江蘇省G36高速公路監(jiān)控系統(tǒng)的H.264視頻。車與非車圖像特征差異較大,僅需少量訓(xùn)練集樣本即可完成訓(xùn)練,而不同車圖像特征差異較小,需要更多的訓(xùn)練樣本。分別提取scVideo_2c和scVideo_4c兩組數(shù)據(jù)集做訓(xùn)練和測試。scVideo_2c數(shù)據(jù)集用于驗證S-SIFT算法在不同場景下的車輛檢測效果,scVideo_4c數(shù)據(jù)集用于驗證S-SIFT算法的車型分類效果。具體而言,scVideo_2c訓(xùn)練集包含120幅車輛圖像和120幅非車圖像,測試集包括車速較快場景、車輛遮擋較多場景和雨雪天氣場景3組場景;scVideo_4c訓(xùn)練集包含客車、轎車、卡車、面包車4類車型圖像各1 500幅,測試集中4類車型對應(yīng)數(shù)量為1 020輛、1 301輛、1 221輛和958輛。兩組數(shù)據(jù)集示例如圖2和圖3所示。
圖2 scVideo_2c場景數(shù)據(jù)集
圖3 scVideo_4c車輛數(shù)據(jù)集
首先用16×16像素的圖像塊對圖像提取稠密SIFT特征,步長設(shè)為6。對SIFT特征中使用已訓(xùn)練的1 024個基向量進行稀疏編碼,基向量維度為128維,稀疏系數(shù)β設(shè)為0.15。分類器為線性核函數(shù)的SVM。
軟件環(huán)境為OpenCV2.4、Matlab2013b,硬件環(huán)境為Intel Xeon E5-1603CPU,16 GB內(nèi)存。實驗對比了基于SIFT特征和S-SIFT特征兩種方法的訓(xùn)練準確率,實驗結(jié)果如圖4~圖8所示,不失一般性,圖中訓(xùn)練準確率是采用10輪迭代平均結(jié)果。每次實驗都從數(shù)據(jù)集中選取一部分做訓(xùn)練樣本,剩余部分做測試樣本。
3.1 scVideo_2c場景數(shù)據(jù)集
稀疏SIFT特征從所有SIFT特征集合中隨機選取7 200個特征來訓(xùn)練生成128維基向量,交替優(yōu)化的最大次數(shù)為50,編碼維度分別為8、32、128、512、1 024維。逐漸增加訓(xùn)練樣本個數(shù),直到訓(xùn)練準確率趨向于收斂。不同維度S-SIFT和傳統(tǒng)SIFT方法的訓(xùn)練準確率曲線結(jié)果如圖4所示。
圖4 傳統(tǒng)SIFT與不同編碼維度S-SIFT算法對scVideo_2c場景數(shù)據(jù)集的訓(xùn)練準確率曲線
由圖4可以看出,當編碼維度增加時,S-SIFT訓(xùn)練準確率有明顯提高,維度為512維時,訓(xùn)練準確率可達到98%以上;對比S-SIFT方法和SIFT方法可以看到,32維S-SIFT方法與SIFT方法的準確率相近,高維度S-SIFT方法的準確率明顯優(yōu)于SIFT方法。
用已訓(xùn)練的稀疏編碼字典和SVM分類器對3組場景樣本分別進行測試,表1給出了不同方法對3組場景的分類準確率??梢钥闯?S-SIFT方法分類準確率隨編碼維度增加不斷提高。當編碼維度在512維以上時,S-SIFT方法對3種場景的分類準確率均可達到96%以上,比低維S-SIFT方法至少提高3.0%;比原始SIFT方法提高4.6%;比背景建模方法提高24.5%,有效地去除了背景建模方法的誤判圖像;比HOG方法提高8.7%,在干擾較多的雨雪場景和遮擋場景中,S-SIFT方法明顯優(yōu)于HOG方法。
表1 scVideo_2c場景數(shù)據(jù)集的分類準確率
表2給出了不同方法對3組場景的查全率,可以看出,背景建模方法的查全率最高,在3種場景中
表2 scVideo_2c場景數(shù)據(jù)集的查全率
均達到98.5%以上;S-SIFT方法的查全率隨維度增加呈上升趨勢;HOG方法和SIFT方法的查全率與低維度S-SIFT方法相近。
結(jié)合表1和表2可以看出,背景建模方法查全率雖然較高,但是對3種場景的分類準確率均低于75.5%,存在較多誤判;512維以上S-SIFT方法在3種場景下準確率均可達到96%以上,查全率誤差在4.06%~12.29%之間,兩種指標均優(yōu)于HOG方法和傳統(tǒng)SIFT方法。
圖5給出了S-SIFT方法和SIFT方法的訓(xùn)練時間曲線??梢钥闯?S-SIFT方法訓(xùn)練時間隨維度增加而增加,當訓(xùn)練樣本為40個時,1 024維S-SIFT的訓(xùn)練時間達到1.02 s,平均每個樣本訓(xùn)練時間25.5 ms,8維S-SIFT的訓(xùn)練時間最少,僅為0.076 5s,平均每個樣本訓(xùn)練時間1.9 ms。雖然分類準確率隨編碼維度增加而提高,但訓(xùn)練所需時間成本也隨之增加,因此不能無限增加編碼維度來提高準確率。
圖5 scVideo_2c場景數(shù)據(jù)集的SVM分類器訓(xùn)練時間
結(jié)合圖4和圖5可以看出,SIFT方法訓(xùn)練時間介于1 024維S-SIFT和512維S-SIFT之間,當S-SIFT方法的編碼維度在32維至512維之間時,其在分類準確率和分類器訓(xùn)練時間兩方面均優(yōu)于SIFT方法。
3.2 scVideo_4c車輛數(shù)據(jù)集
對scVideo_4c車輛數(shù)據(jù)集的SIFT特征進行原始采樣,提取150 000個特征訓(xùn)練稀疏編碼的128維基向量,交替優(yōu)化50次,編碼維度同樣選取為8、32、128、512、1 024維。與scVideo_2c場景數(shù)據(jù)集類似,不斷增加訓(xùn)練樣本數(shù),直到訓(xùn)練準確率趨向于收斂。圖6給出了訓(xùn)練準確率的實驗結(jié)果。
圖6 SIFT算法與不同維度S-SIFT算法對scVideo_4c車輛數(shù)據(jù)集的訓(xùn)練準確率曲線
由圖6可以看出,當編碼維度為128維及以上時,S-SIFT方法具有更高的準確率;對比幾種不同編碼維度的S-SIFT方法可見,訓(xùn)練準確率隨編碼維度增加而逐漸提高,當達到1 024維時,訓(xùn)練準確率達到89%以上。對比圖4和圖6可以看出,scVideo_4c車輛數(shù)據(jù)集的訓(xùn)練準確率明顯低于scVideo_2c場景數(shù)據(jù)集的訓(xùn)練準確率,原因是后者區(qū)分不同場景圖像,兩類圖像間差異較大,而scVideo_4c車輛數(shù)據(jù)集區(qū)分不同車型,不同類別圖像間特征差異相對較小,因此準確率有所下降。
用已訓(xùn)練的稀疏編碼字典和SVM分類器對車輛樣本進行分類測試,表3給出幾種方法對不同車型的分類準確率??梢钥闯?SIFT方法和HOG方法的分類性能與32維S-SIFT方法相近;512維S-SIFT方法比SIFT方法準確率提高了10.24%,比HOG方法提高了10.86%;1 024維S-SIFT方法比SIFT方法準確率提高了13.27%,比HOG方法提高了13.89%;背景建模方法沒有車型分類的功能。
表3 scVideo_4c車輛數(shù)據(jù)集的分類準確率
表4給出了不同方法對scVideo_4c車輛數(shù)據(jù)集的查全率??梢钥闯?背景建模方法查全率最高,對不同車型的查全率均可達到99.79%以上;S-SIFT方法查全率隨編碼維度增加而上升;HOG和SIFT方法與128維S-SIFT方法查全率相近。結(jié)合表3和表4可以看出,背景建模方法查全率雖然最高,但不具有車型分類的功能;HOG和SIFT方法在準確率和查全率兩方面均低于高維S-SIFT方法。
表4 scVideo_4c車輛數(shù)據(jù)集的查全率
圖7給出了S-SIFT和SIFT方法對scVideo_4c車輛數(shù)據(jù)集的分類器訓(xùn)練時間曲線。可以看出,高維S-SIFT方法的訓(xùn)練時間明顯高于低維S-SIFT方法。SIFT方法的訓(xùn)練時間與1 024維S-SIFT方法相近。當編碼維度在32維和1 024維之間時,S-SIFT方法在準確率和實時性方面均優(yōu)于SIFT方法。
圖7 scVideo_4c車輛數(shù)據(jù)集的SVM分類器訓(xùn)練時間
圖8 1 024維S-SIFT對scVideo_4c數(shù)據(jù)集分類混淆矩陣
圖8給出了1 024維S-SIFT方法對scVideo_4c車輛數(shù)據(jù)集的分類準確率混淆矩陣,圖中第i行第j列數(shù)值表示第j類被誤分成第i類的比率(i≠j)。對角線上數(shù)值代表對應(yīng)類的分類準確率。從0到100%分成10個灰度區(qū)間,顏色越深表示準確率越低。由圖8可以看出,客車和卡車最容易發(fā)生混淆,因為這兩類車型車身都較長,特征較為接近。
本文以深度學(xué)習(xí)理論為基礎(chǔ),提出了一種基于稀疏SIFT特征的車型識別方法,實現(xiàn)了快速、準確的交通監(jiān)控視頻車輛識別。算法用背景建模方法提取車輛目標,采集其SIFT特征作為圖像低層特征,并對SIFT特征進行稀疏編碼,得到更深層次的圖像表征模型,用稀疏SIFT編碼作為車輛特征訓(xùn)練線性SVM分類器,實現(xiàn)車型識別。實驗結(jié)果表明,算法對低分辨率、視角變化、遮擋、雨雪天氣等復(fù)雜場景下的車輛圖像具有較高的識別率,準確率和訓(xùn)練時間均優(yōu)于傳統(tǒng)SIFT方法。
[1] ZHANG Zhaoxiang, TAN Tieniu, HUANG Kaiqi, et al. Three-dimensional deformable-model-based localization and recognition of road vehicles [J]. IEEE Transactions on Image Processing, 2012, 21(1): 1-13.
[2] 崔瑩瑩. 智能交通中的車型識別研究 [D]. 成都: 電子科技大學(xué), 2013.
[3] WOOD R J, REED D, LEPANTO J, et al. Robust background modeling for enhancing object tracking in video [J]. Proceedings of the SPIE, 2014, 9089(2): 1-9.
[4] 黃毅, 陳湘軍, 阮雅端, 等. 低清晰視頻的“白化-稀疏特征”車型分類算法 [J]. 南京大學(xué)學(xué)報: 自然科學(xué)版, 2015, 51(2): 257-263. HUANG Yi, CHEN Xiangjun, RUAN Yaduan, et al. The whitening-sparse coding vehicle classification algorithm for low resolution video [J]. Journal of Nanjing University: Science Edition, 2015, 51(2): 257-263.
[5] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]∥Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2005: 886-893.
[6] DONG Weisheng, LI Xin, ZHANG Lei, et al. Sparsity-based image denoising via dictionary learning and structural clustering [C]∥Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2011: 457-464.
[7] MAIRAL J, BACH F, PONCE J, et al. Discriminative learned dictionaries for local image analysis [C]∥Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2008: 1-8.
[8] 程東陽, 蔣興浩, 孫錟鋒. 基于稀疏編碼和多核學(xué)習(xí)的圖像分類算法 [J]. 上海交通大學(xué)學(xué)報, 2012, 46(11): 1789-1793. CHENG Dongyang, JIANG Xinghao, SUN Tanfeng. Image classification using multiple kernel learning and sparse coding [J]. Journal of Shanghai Jiaotong University, 2012, 46(11): 1789-1793.
[9] YANG Jianchao, YU Kai, GONG Yihong, et al. Linear spatial pyramid matching using sparse coding for image classification [C]∥Proceedings of the 2009
IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2009: 1794-1801.
[10]LEE H, BATTLE A, RAINA R, et al. Efficient sparse coding algorithms [J]. Advances in Neural Information Processing Systems, 2006, 19(1): 801-808.
[11]SERRE T, WOLF L, POGGIO T. Object recognition with features inspired by visual cortex [C]∥Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2005: 994-1000.
[12]BOUREAU Y L, BACH F, LECUN Y, et al. Learning mid-level features for recognition [C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2010: 2559-2566.
(編輯 武紅江)
A Vehicle Classification Technique Based on Sparse Coding
ZHANG Peng1,CHEN Xiangjun1,2,RUAN Yaduan1,CHEN Qimei1
(1. School of Electronic Science and Engineering, Nanjing University, Nanjing 210046, China;2. School of Computer Engineering, Jiangsu University of Technology, Changzhou, Jiangsu 213001, China)
A new method based on sparse scale invariant feature transform(S-SIFT) is proposed to improve the vehicle recognition rate in environment such as low image quality. Moving objects are detected using a Gaussian mixture background subtraction model and SIFT features of the objects are calculated. Then, the sparse coding of SIFT features is obtained through L1 constraint. A max pooling strategy is introduced to reduce the dimension of the sparse coding. Finally, a linear support vector machine (SVM) is used to classify and to recognize the objects. The method solves the problems that the background modeling has a larger error rate and lacks function of vehicle classification. An application of the technique on G36 highway shows that the algorithm has an excellent result on different scenes such as low resolution, different camera angles, sleet and shade. The experimental results provide a more than 98% scene recognition rate, and a more than 89% classification accuracy rate. Moreover, the average time to process images is less than forty milliseconds, and it meets the real-time requirement. It is concluded that the proposed method is better than the SIFT and the HOG methods on both accuracy and time efficiency.
deep learning; vehicle recognition; sparse feature; scale invariant feature transform; linear support vector machine classification
2015-06-04。
張鵬(1991—),男,碩士生;陳啟美(通信作者),男,教授,博士生導(dǎo)師。
國家科技重大專項資助項目(2012ZX03005-004-003);國家自然科學(xué)基金資助項目(61105015)。
10.7652/xjtuxb201512022
TP391.4
A
0253-987X(2015)12-0137-07