王錦凱,賈 旭
(遼寧工業(yè)大學(xué)電子與信息工程學(xué)院,遼寧錦州121001)
(?通信作者電子郵箱wangjinkai@lnut.edu.cn)
汽車數(shù)量的快速增長導(dǎo)致了套牌違法行為呈多發(fā)態(tài)勢,許多交通卡口已增加攝像頭對該違法行為加以監(jiān)控,傳統(tǒng)人工查看視頻的方法因效率低下,已很難對違法行為作出及時(shí)處理,因此,提出一種有效的車臉識(shí)別算法,對套牌車輛進(jìn)行自動(dòng)檢測是具有重要意義的。
車輛識(shí)別技術(shù)主要經(jīng)歷兩個(gè)關(guān)鍵的階段:1)傳統(tǒng)的人工特征提取與分類方式;2)基于深度學(xué)習(xí)的識(shí)別方法[1]。最初顏色作為一種顯著的車輛特征被廣泛研究與分析,如不同空間的顏色直方圖特征[2-3];但由于車身顏色易受光照強(qiáng)度變化影響,研究人員將關(guān)注點(diǎn)轉(zhuǎn)移到了車輛的全局、局部紋理特征[4]與形狀特征[5]上,與此同時(shí),一些經(jīng)典的關(guān)鍵點(diǎn)特征也逐漸被應(yīng)用在了車輛識(shí)別中,如尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征[6]、可變形部件模型(Deformable Parts Model,DPM)特征[7]等;而后,Boukerche等[8]將多種人工特征進(jìn)行了融合,形成了多粒度特征,進(jìn)一步提高了識(shí)別效果;此外,考慮到二維圖像缺少深度信息,車輛的三維特征[9-10]也被更多的學(xué)者研究。近年來,深度學(xué)習(xí)因其可以自適應(yīng)學(xué)習(xí)出有效的特征而被重視,研究人員也將多種深度學(xué)習(xí)模型應(yīng)用到了車輛識(shí)別中[11-16],當(dāng)具有足夠規(guī)模的訓(xùn)練樣本時(shí),基于深度學(xué)習(xí)的算法可以取得較好的效果。然而,目前車臉圖像的數(shù)據(jù)集數(shù)量較少,限制了深度學(xué)習(xí)模型對于車臉圖像的識(shí)別效果;此外,光照變化、局部遮擋等不合作因素又使得顏色、特征點(diǎn)等人工特征的有效性降低,這些都會(huì)給識(shí)別帶來困難。
本文面對多類別且標(biāo)注數(shù)量有限的車臉圖像數(shù)據(jù),對非負(fù)矩陣分解(Nonnegative Matrix Factorization,NMF)模型加以權(quán)重、稀疏與正交約束,自適應(yīng)地建立出描述圖像中若干關(guān)鍵區(qū)域的特征基,并通過特征基線性疊加對任意車臉圖像作出準(zhǔn)確描述,進(jìn)而實(shí)現(xiàn)車臉的準(zhǔn)確識(shí)別。
車臉圖像特征主要體現(xiàn)在車身顏色與局部區(qū)域形狀上,但受光照變化影響,同一輛車在不同時(shí)間段采集時(shí)會(huì)出現(xiàn)一定的顏色偏差,如圖1 所示,因此,基于顏色特征的識(shí)別算法的有效性將會(huì)降低,這里將更多關(guān)注圖像的局部區(qū)域形狀特征。
圖1 不同光強(qiáng)下采集的車臉圖像Fig.1 Vehicle face images acquired under different light intensities
在圖像中,區(qū)域是由邊緣圍繞形成的,而圖像邊緣主要體現(xiàn)在具有方向性的高頻信息上,如何準(zhǔn)確描述這些具有方向性的高頻信息將成為初始特征提取的關(guān)鍵。方向梯度直方圖(Histogram of Oriented Gradients,HOG)特征是通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向而得到的,對邊緣能夠進(jìn)行很好的描述[17],因此,將HOG 特征作為車臉圖像的初始特征是合理的。
首先,將基于YOLO(You Only Look Once)模型分割后的車臉圖像大小歸一化為N × N像素,如圖2所示。
圖2 歸一化車臉圖像Fig.2 Normalized vehicle face image
而后,對圖像進(jìn)行分塊處理,每一塊子圖像大小為M × M像素,相鄰塊覆蓋T 個(gè)像素寬度,因此,圖像塊的個(gè)數(shù)k 可由式(1)得到:
在計(jì)算梯度方向直方圖時(shí),選擇s 個(gè)角度區(qū)間,從而可以得到車臉圖像的初始特征Yi維度為n(n = k × s)。
對車臉圖像進(jìn)行初始特征提取后,需對其進(jìn)行降維處理,目的是獲得描述圖像中若干關(guān)鍵區(qū)域的特征基。常用的特征降維方法有主成分分析(Principal Component Analysis,PCA)法、線性判別分析(Linear Discriminant Analysis,LDA)法等。分解后矩陣元素可以是正的,也可以是負(fù)的,從數(shù)學(xué)的角度考慮,負(fù)值是可以接受的;但對于圖像處理問題,負(fù)值卻缺乏實(shí)際意義,如在人臉識(shí)別中,人臉圖像可以被認(rèn)為是多幅特征基圖像加權(quán)疊加得到的,這里的特征基圖像像素值與權(quán)重值都不可能是負(fù)的?;谝陨戏治?,本文將采用非負(fù)矩陣分解思想來實(shí)現(xiàn)特征降維與特征基建立[18]。即給定一個(gè)非負(fù)矩陣Y,可將其近似分解成兩個(gè)非負(fù)矩陣U 與V 的乘積,如式(2)所示:
其中:Y 的列向量表示訓(xùn)練樣本初始特征;U 的列向量表示特征基向量;V 的列向量表示分解系數(shù),即新的特征。進(jìn)而可獲得目標(biāo)函數(shù),如式(3)所示:
非負(fù)矩陣分解可以較好地保證分解結(jié)果的物理特性,但并沒有考慮對于分類識(shí)別的幫助性。因此,對非負(fù)矩陣分解模型進(jìn)行了以下改進(jìn):1)根據(jù)區(qū)域重要性差異,對模型加以特征基加權(quán)約束;2)根據(jù)少數(shù)關(guān)鍵區(qū)域即可決定車輛類別的思想,對模型加以稀疏約束;3)基于類間差異性原理,對模型加以正交性約束。具體改進(jìn)方法如下:
1)特征基加權(quán)約束。
車臉圖像中,不同區(qū)域特征在識(shí)別時(shí)起的作用有所不同,如車輛標(biāo)致與車臉柵格區(qū)域因其具有較好的獨(dú)特性,在識(shí)別時(shí)發(fā)揮更為重要的作用;而車頂與引擎蓋顏色區(qū)域變化較為平緩,特征的重要性有所降低。因此,在分解時(shí),描述這些不同區(qū)域的基向量所占的權(quán)重也應(yīng)不同,這里為不同的特征基分配不同的權(quán)重系數(shù),目標(biāo)函數(shù)可改進(jìn)為式(4):
其中:U為基向量矩陣;Z為權(quán)重矩陣;V為系數(shù)矩陣。
2)稀疏性約束。
車臉識(shí)別過程中,除了少量具有不同權(quán)重的特征外,通常有一些區(qū)域幾乎不對識(shí)別產(chǎn)生作用與影響,如車輛背景區(qū)域、車窗區(qū)域等,即車臉特征應(yīng)該具有較好的稀疏性。因此,需對系數(shù)矩陣Z 與V 加以稀疏性約束,從而目標(biāo)函數(shù)可改進(jìn)為式(5):
根據(jù)壓縮感知理論,求解矩陣的0 范數(shù)為NP 難問題[19],可將其等價(jià)于求解V的2范數(shù),目標(biāo)函數(shù)可改進(jìn)為式(6):
3)特征基正交性約束。為實(shí)現(xiàn)車臉特征的有效降維,即降低車臉特征基間的相關(guān)性,減少特征間的冗余,除對NMF進(jìn)行加權(quán)性與稀疏性約束外,還應(yīng)盡可能提高特征基間的正交性?;谝陨戏治?,目標(biāo)函數(shù)可進(jìn)一步改進(jìn)為式(7):
綜上,最優(yōu)分解結(jié)果通過式(8)求得:
經(jīng)過變換,目標(biāo)函數(shù)式(8)可以轉(zhuǎn)化為式(9):
而后,分別求解目標(biāo)函數(shù)式(9)對U、V 與Z 的偏導(dǎo)數(shù),如式(10)~(12)所示:
而后,給定U,V 與Z 的初始值,并將按照式(14)~(16)規(guī)則迭代,直至滿足停止條件。
Step 3 如果d(Vi,Vj)>g,兩幅車臉圖像表示同一類車;否則,兩幅車臉圖像表示不同類車。
為證明求解最優(yōu)參數(shù)過程中迭代的收斂性,需引入輔助函數(shù)。
定義1 如果式(17)成立,則定義G(h,h′)是F(h)的輔助函數(shù)。
引理1 如果G是輔助函數(shù),則函數(shù)F在式(18)迭代更新規(guī)則是非增的。
的序列:
因此,通過定義輔助函數(shù),可證明式(10)~(12)的收斂性。
對于目標(biāo)函數(shù)式(7),假設(shè)U為獨(dú)立變量,可得:
其中:F(u)= J(u),0 <i ≤n,0 <j ≤r。
引理2 假設(shè)U 為獨(dú)立變量時(shí),可定義式(22)為輔助函數(shù)。
證明 容易得到G(u,u)= F(u),只需證G(u,uij)≥F(uij)即可。
將式(7)進(jìn)行泰勒級(jí)數(shù)展開,得到式(23):
由于式(24)成立,
因此,引理2得證。
對于目標(biāo)函數(shù)式(7),假設(shè)V為獨(dú)立的變量,可得:
其中:F(v)= J(v),0 <i ≤r,0 <j ≤m。
引理3 假設(shè)V 為獨(dú)立變量時(shí),可定義式(28)為輔助函數(shù)。
證明 容易得到G(v,v)= F(v),只需證G(v,vij)≥F(vij)即可。
將目標(biāo)函數(shù)(7)進(jìn)行泰勒級(jí)數(shù)展開,得到式(29):
由于式(30)~(31)成立,
因此,引理3得證。
對于目標(biāo)函數(shù)式(7),假設(shè)Z為獨(dú)立的變量,可得:
其中:F(z)= J(z),0 <i ≤r,0 <j ≤m。
引理4 假設(shè)Z 為獨(dú)立變量時(shí),可定義式(34)為輔助函數(shù)。
證明 容易得到G(z,z)= F(z),只需證G(z,zij)≥F(zij)即可。
將目標(biāo)函數(shù)(7)進(jìn)行泰勒級(jí)數(shù)展開,得到式(35):
由于式(36)~(37)成立,
因此,引理4得證。
綜上,可得出迭代過程是收斂的。
實(shí)驗(yàn)采用了兩個(gè)數(shù)據(jù)集:1)某省22 個(gè)交通卡口處監(jiān)控?cái)z像頭采集的車輛圖像作為實(shí)驗(yàn)數(shù)據(jù)集,共103 028 幅圖像,其中部分樣本如圖3(a)所示;2)BITVehicle 數(shù)據(jù)集,共9 852 幅圖像,部分樣本如圖3(b)所示。
圖3 數(shù)據(jù)集中部分樣本Fig.3 Some samples in datasets
本文提出的NMF 模型參數(shù)一部分依據(jù)經(jīng)驗(yàn)設(shè)定,另一部分依據(jù)實(shí)驗(yàn)所得。其中,依據(jù)經(jīng)驗(yàn)設(shè)定的參數(shù)如下:
1)初始特征參數(shù)設(shè)定。
車臉區(qū)域分割后,將其歸一化至256 × 256 像素;經(jīng)過分塊后,每一塊子圖像大小為32 × 32 像素,相鄰塊重疊16 個(gè)像素寬度;在利用HOG 算子計(jì)算梯度方向直方圖時(shí),角度區(qū)間數(shù)目設(shè)為8。
2)NMF模型參數(shù)設(shè)定。
選取500 個(gè)不同類別車輛的車臉圖像進(jìn)行訓(xùn)練,即在目標(biāo)函數(shù)中,Y 的列數(shù)為500;求解U?、V?、Z?時(shí)的最大迭代次數(shù)nmax= 20 000。
設(shè)定經(jīng)驗(yàn)參數(shù)后,需依據(jù)實(shí)驗(yàn)對其他參數(shù)進(jìn)行優(yōu)化。
1)NMF模型參數(shù)優(yōu)化。
模型中共有3 個(gè)參數(shù)需進(jìn)行優(yōu)化,分別為降維后特征維數(shù)r,平衡因子α 與β。這里,令平衡因子α 與β 的取值分別為1、0.1、0.01;特征維數(shù)的取值分別為原特征維數(shù)的20%至70%。實(shí)驗(yàn)過程中,采用最近鄰分類器對3 000對車臉圖像進(jìn)行比對測試,并利用錯(cuò)誤接受率(False Acceptance Rate,F(xiàn)AR)與錯(cuò)誤拒絕率(False Reject Rate,F(xiàn)RR)作為衡量識(shí)別效果的標(biāo)準(zhǔn)。
當(dāng)采用不同模型參數(shù)時(shí),實(shí)驗(yàn)結(jié)果如圖4 所示,從中可看出:當(dāng)降維后特征維數(shù)r = 0.4n,平衡因子α = 0.1,β = 1 時(shí),可獲得最優(yōu)的識(shí)別性能。
圖4 不同參數(shù)下車臉識(shí)別性能比較Fig.4 Comparison of vehicle face recognition performance under different parameters
2)識(shí)別算法參數(shù)。
車臉識(shí)別時(shí),僅涉及一個(gè)參數(shù),即特征相似性閾值g。這里,通過不斷調(diào)整閾值,對3 000對車臉圖像進(jìn)行測試,并利用真實(shí)接受率(Genuine Accept Rate,GAR)與FAR 作為衡量識(shí)別效果的標(biāo)準(zhǔn),測試結(jié)果如圖5所示。
圖5 不同閾值條件下車臉識(shí)別性能變化Fig.5 Vehicle face recognition performance variation under different thresholds
根據(jù)式(38),獲取最優(yōu)閾值g?= 0.85。
確定了特征基向量與算法參數(shù)后,分別采用5 246對正樣本和5 000對負(fù)樣本對本文算法進(jìn)行測試,其中測試樣本中包括光照變化、尺度變化等因素。首先,基于第3 章中的識(shí)別算法對圖像進(jìn)行分解,獲得新的特征向量;而后,分別求取每一對測試樣本新特征間的相似性值,并與式(38)獲得的閾值g?進(jìn)行比較,獲得識(shí)別結(jié)果,如表1所示。
表1 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Tab.1 Statistics of experimental results
表1中:TP(True Positives)為正例且被分類器劃分為正例的樣本對數(shù);FP(False Positives)為負(fù)例但被分類器劃分為正例的樣本對數(shù);FN(False Negatives)為負(fù)例但被分類器劃分為負(fù)例的樣本對數(shù);TN(True Negatives)為正例且被分類器劃分為負(fù)例的樣本對數(shù)。部分識(shí)別結(jié)果如圖6所示。
圖6 部分車臉匹配結(jié)果Fig.6 Some vehicle face matching results
準(zhǔn)確率計(jì)算如式(39)所示。由實(shí)驗(yàn)結(jié)果可以看出,本文算法的準(zhǔn)確率Acc可達(dá)97.56%。
分別將本文算法與傳統(tǒng)算法和深度學(xué)習(xí)算法進(jìn)行比較。其中,傳統(tǒng)算法包括基于顏色特征[3]、SIFT 特征[6]、多粒度特征[8]的識(shí)別算法;而深度學(xué)習(xí)算法包括基于CNN模型[11]、受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)模型[14]、遷移學(xué)習(xí)模型[16]的識(shí)別算法。實(shí)驗(yàn)過程中,仍采用5.3 節(jié)中5 246 對正樣本和5 000 對負(fù)樣本對算法進(jìn)行測試,實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 不同識(shí)別算法的實(shí)驗(yàn)結(jié)果比較Fig.7 Experimental result comparison of different recognition algorithms
由圖7(a)可以看出,本文算法性能要優(yōu)于其他傳統(tǒng)車輛識(shí)別算法,主要有以下原因:由于白天和黑夜的光照強(qiáng)度差異很大,導(dǎo)致同一顏色車輛在不同時(shí)段采集圖像中出現(xiàn)明顯的顏色差異,如圖1 所示,從而使基于顏色特征的識(shí)別算法有效性降低,而在本文算法中,雖然車臉圖像因光照變化會(huì)出現(xiàn)一定的顏色差異,但描述邊緣的高頻信息并不會(huì)因此而發(fā)生較大改變,從而降低了光照變化對于識(shí)別的影響,此外,邊緣高頻信息的方向性保證了車臉不同區(qū)域間的色差,這也間接描述了車臉圖像的顏色特征,可以較好地避免對不同顏色的同類車型的錯(cuò)誤識(shí)別,如圖8(a);而對于曝光較強(qiáng)的或顏色單一的車臉圖像,如圖8(b),可提取的SIFT 特征點(diǎn)數(shù)量有限,給識(shí)別帶來較少的依據(jù),從而降低了識(shí)別的準(zhǔn)確率;基于多粒度特征的識(shí)別算法提取了整體車輛多個(gè)區(qū)域的特征,而針對車臉圖像的特征相對較少,算法在整體車輛識(shí)別上可以取得較好的效果,但對于車臉區(qū)域的識(shí)別有效性降低。而由圖7(b)同樣可以看到本文算法的優(yōu)勢,其主要原因在于整體車輛圖像的數(shù)據(jù)集較為豐富,可獲得大量訓(xùn)練樣本,因此訓(xùn)練后的模型可取得較高的正確識(shí)別率;而目前關(guān)于車臉圖像的數(shù)據(jù)集相對較少,自建的數(shù)據(jù)集訓(xùn)練樣本數(shù)量有限,容易導(dǎo)致訓(xùn)練后模型出現(xiàn)過擬合現(xiàn)象,從而降低模型的識(shí)別效果。
圖8 多種條件下采集的車臉圖像Fig.8 Vehicle face images acquired under various conditions
以上實(shí)驗(yàn)是在PC 上運(yùn)行的,其中處理器為Intel Core i5-4460 CPU 3.2 GHz,內(nèi) 存16 GB,GPU 顯 卡 型 號(hào) 為NVIDIA Geforce 1080Ti。其中,傳統(tǒng)識(shí)別算法在Matlab 2017b 環(huán)境下運(yùn)行的,而基于深度學(xué)習(xí)的識(shí)別算法是在Python 2.7 環(huán)境下運(yùn)行,運(yùn)行時(shí)間如表2所示。
表2 識(shí)別時(shí)間對比結(jié)果 單位:sTab.2 Comparison result of recognition time unit:s
通過不同運(yùn)行環(huán)境下的實(shí)驗(yàn),可以看出本文算法的識(shí)別速度略優(yōu)于基于顏色特征與RBM 的識(shí)別算法,明顯好于基于多粒度特征與遷移學(xué)習(xí)的識(shí)別算法,而與基于SIFT 特征與CNN 的識(shí)別算法基本一致,并且Python 環(huán)境下1.08 s 的識(shí)別時(shí)間基本能夠滿足識(shí)別的實(shí)時(shí)性要求。
為提高套牌車輛檢測效率,本文提出了一種有效的車臉圖像識(shí)別算法,即對NMF 模型加以多權(quán)重、稀疏性、正交性約束,在對車臉特征實(shí)現(xiàn)降維的同時(shí),使其更有利于車臉圖像的正確識(shí)別。通過實(shí)驗(yàn)驗(yàn)證,在對樣本進(jìn)行少量標(biāo)注的前提下,本文算法可以獲得較高的正確識(shí)別率,并對光照強(qiáng)度變化具有較好的魯棒性。在取得一定效果的同時(shí),仍存在一些問題有待解決,如實(shí)驗(yàn)的數(shù)據(jù)集還需進(jìn)一步豐富,以驗(yàn)證算法的普適性。