張 正,陳 成,肖 迪
(南京工業(yè)大學 電氣工程與控制科學學院,江蘇 南京 211800)
近年來,隨著人們對智能化設備的需求越來越多,重識別問題儼然成為日益關注的問題。車輛重識別是繼行人重識別之后又一熱門的計算機視覺的研究領域。車輛重識別旨在通過在查詢庫中選擇車輛圖片,將查詢的圖像對比圖像庫,查找出具有相同身份(ID)的所有圖像[1]。與行人重識別相比,在不考慮車牌的情況下,同款車型的不同車輛的外觀幾乎相近,且在不同相機的視點下,車輛的外觀變化較大,因此在車輛重識別是一個非常具有挑戰(zhàn)性的研究課題。
車輛重識別通常在沒有高分辨率圖像的設置中定義(例如,交通視頻監(jiān)控等,小區(qū)視頻監(jiān)控)。由于基于車牌識別的方法不能有效地應用,因此目前研究重識別的方法主要是基于車輛的外觀[2]。傳統(tǒng)的車輛重識別方法主要關注車輛的低尺寸特征,例如車輛的形狀和顏色[3],當前,隨著深度學習技術的發(fā)展,許多研究人員將注意力集中在細粒度的車輛分類和車牌識別上[4]??紤]同一個場景下,其中兩個不同且車型同款、顏色相同的車輛,擋風玻璃的安全標志和進氣格柵的部分細節(jié)上只有很少的差異,這些細節(jié)可能是區(qū)分車輛的關鍵線索,但是這些小細節(jié)(安全標志或進氣格柵等)可能不夠清晰,因此在操作中可能會忽略它們,所以這兩輛車將被視為同一輛車。在車輛重識別數(shù)據(jù)集中存在著很多低分辨率,縮放比例變化或邊界框中未對齊等情況的圖片,并且這些類似的情況也發(fā)生在其它重識別的數(shù)據(jù)集中。針對這些亟需解決的問題,在車輛重識別的問題上主要形成了兩種的研究方案,一是基于局部特征的車輛重識別的研究,根據(jù)車輛結構,在其上學習局部特征表示。二是基于度量學習的車輛重識別的研究,以樣本的特征向量的距離為學習對象,通過訓練和學習,減小同類樣本之間的距離,并增大不同類樣本的距離。
大多數(shù)車輛重識別的研究也是基于度量學習開展的,例如:YBai等[5]提出了一種度量學習方法,即敏感三元組嵌入(GS-TRE),將樣本和每輛車之間合并成一個中間表示“組”巧妙地建模類內方差,然后在三重態(tài)網(wǎng)絡中學習。Zhang Y等[6]提出的改進卷積神經網(wǎng)絡的三重態(tài)訓練以進行車輛重新識別,從兩個方面改進三重態(tài)訓練:一是,在原有三元組訓練的基礎上,增加了一個更為嚴格的約束,即分類定向損失;二是,設計了一種新的基于配對圖像的三元組采樣方法。Y Tang等[7]提出了一種多式模態(tài)度量學習架構,將深度特征和手工特征融合到端到端優(yōu)化網(wǎng)絡中,實現(xiàn)了更具魯棒性和區(qū)分性的特征表示。Ratnesh Kumar等[8]利用三重態(tài)嵌入解決攝像機網(wǎng)絡中的車輛重識別問題。他們對用于車輛重識別的損失(包括比較或是三元組損失)進行了廣泛的評估,表明了這些方法的先進性,但是這些方法幾乎都是利用車輛圖像的整體外觀信息來提取特征,忽略了局部差異信息。但是隨著車輛數(shù)據(jù)集越來越復雜,往往基于全局特征來學習的算法不能夠得到有效的應用,因此在此基礎上,加入局部特征來共同學習,來達到理想效果。李熙瑩等[9]提出基于部件融合特征的車輛重識別研究算法,該方法利用部件檢測算法在不同車輛上提取差異性較大的車窗和進氣格柵區(qū)域,然后對檢測的區(qū)域進行圖像特征的融合,最后計算樣本特征的距離。盛浩等[10]提出的基于高置信局部特征的車輛重識別優(yōu)化算法,利用車輛的關鍵點檢測方法獲取并分割車輛的車標擴散區(qū)域和其它重要局部區(qū)域作為高置信區(qū)域,再進行重識別訓練。以上方法只能檢測出差異較大和關鍵性的局部特征,且效果不佳,因此也存在一定的不足。
由此本文提出一個框架,即圖像語義分割重識別方法(image semantic segmentation re-identification,ISS-ReID),使用車輛語義分割方法,提取了車輛的整體模型,再對整體模型局部分塊,較大程度上去除背景信息的干擾,得到了有利于車輛識別的局部特征信息,然后再結合車輛的局部信息和全局信息提取特征,較好解決了全局信息不能提供局部差異信息等問題,最后利用全局損失和局部損失結合,提高了重識別的準確率。
當前的車輛重識別的數(shù)據(jù)集主要來源于VeRi-776數(shù)據(jù)集和VehicleID數(shù)據(jù)集。本文的改進方法在VeRi-776和VehiclelD上的也顯示出優(yōu)秀的性能。
在本節(jié)中,我們將更詳細地描述車輛重新識別問題,并介紹我們的框架。
本文將Re-ID視為一個檢索過程,即給定一個ID為yp的查詢車輛xp和一個車輛圖像庫為Y={y1,y2,…ym} 的ID組,然后Re-ID旨在檢索所有xi, (1
假設具有學習參數(shù)θ的模型M(θ) 能夠用特征圖fp和F={f1,f2,…,fm} 分別表示xp和X中的車輛,因此,可以使用歐幾里德距離來將fp與F中的每個元素進行比較,并基于特征圖的相似性構建排名列表。在人員重新識別方面,有大量的研究用于重新排名策略,而在車輛重新識別方面缺少重新排名方法。用于車輛重新識別的大多數(shù)現(xiàn)有技術方法不會在其初始排名列表上執(zhí)行重新排名。為解決此問題,在本文的工作中將使用Zhong等提出的重新排名策略[12]。根據(jù)均值均勻精度(mean average precision,mAP)和累計匹配特性(cumulative match characteristic,CMC)將會更好評價Re-ID模型的好壞,本文將在實驗部分來更好地說明。
ISS-ReID是由語義分割模塊和CNN主干模塊兩部分組成。對于語義分割模塊,該網(wǎng)絡用于檢測車輛邊界,然后利用圖片中車輛的位置信息分割出3個局部區(qū)域并提取的3部分特征,分別為車輛模型的3個部分。區(qū)別于圖像框在空間上劃分為網(wǎng)格單元或水平條紋,因為它沒有太多的抽象信息,并且能夠使局部特征按照模塊劃分對齊匹配,從而提高識別率。對于CNN主干模塊,本文選用ResNet50網(wǎng)絡來提取相應的特征映射,采用ImageNet上的預訓練的權重參數(shù)來對該神經網(wǎng)絡的權重初始化。全局特征和3個局部特征共享一個卷積神經網(wǎng)絡,然后均進行全局平均池化操作(global average pooling,GAP),從全連接層輸出特征,進行交叉熵損失和標簽平滑的分類學習,其中將全局特征再使用三重態(tài)損失進行學習,這樣更容易使類內距離拉近,類間距離增大。最后計算總的損失函數(shù)。
該框架通過語義分割車輛模型劃分3個區(qū)域,并且加入到本地分支。全局分支和本地分支共享相同的卷積網(wǎng)絡以提取特征圖,如圖1所示。
局部特征常用于捕獲到圖像內部的細節(jié)信息,一般的局部特征提取思路主要有圖像的水平、網(wǎng)格切塊,F(xiàn)aster R-CNN檢測定位模型,車輛關鍵點以及本文所提出的語義分割局部特征等方法,圖像語義分割是一種快速高效的方法,分割后的特征信息不容易丟失,多數(shù)背景噪聲也被過濾掉,對于提取特征信息十分有利。在ISS-ReID中,全局特征提取模塊負責提取車輛的宏觀特征。通過查看整個車輛,該模塊嘗試最大程度地分離特征空間中的標識。然而,該模型無法考慮相似汽車之間的細微差異,其中最極端的是相同品牌、型號和顏色的汽車。因此,為了弱化背景噪聲,增強車輛局部信息的作用,本文將采用結合語義分割和特征提取的方法,應用到車輛重識別中,從而進一步提高車輛的識別率。
隨著深度學習在計算機視覺廣泛的應用,圖像分割的方法得到了相應發(fā)展,U-net網(wǎng)絡分割方法在二值圖像分割中,如衛(wèi)星圖像分析、醫(yī)學圖像分析[12]等領域,都取得了良好的效果。因此,使用U-net網(wǎng)絡分割出整車模型特征,能較好過濾掉圖像的背景信息,會使網(wǎng)絡得到很好的圖像掩膜信息。
語義分割模塊是一個深層神經網(wǎng)絡結構,由U-Net網(wǎng)絡組成,該網(wǎng)絡包含用于捕捉圖像上下文的收縮路徑和用于實現(xiàn)精準定位的擴展路徑,采用跳躍連接來整合低維特征圖和高維特征圖,以此來進行精確的像素級的定位。圖像語義分割網(wǎng)絡結構,如圖2所示。首先將數(shù)據(jù)集的圖像輸入到網(wǎng)絡,利用U-net網(wǎng)絡生成車輛的二值化掩膜圖像,也可以理解為生成車輛的位置信息圖像,再通過空間圖像的數(shù)據(jù)分割來進行提取車輛的局部區(qū)域。
空間圖像數(shù)據(jù)分割依據(jù)車輛的二值化掩膜圖像,從上至下把車輛分成3塊,再分別從左到右分割出多余的背景區(qū)域,并記錄分割后的車輛位置信息,再與輸入的原數(shù)據(jù)圖像結合,最后完成車輛模型局部分塊的生成操作。
在實踐中,根據(jù)二值化掩膜圖像,局部矩陣區(qū)域Ai的位置表示為
(1)
其中,i=(up,med,low), 分別代表局部區(qū)域的上部分、中間部分、下部分。hminle、hmaxr分別代表二值化掩膜中最左側和最右側的邊界,wminu、wmaxlo則代表掩膜圖像的最上端和最下端的邊界,由此選定出局部矩陣區(qū)域。如圖3所示。
由于相機拍攝的角度不同,車輛一般呈現(xiàn)的視角也不一樣,或者相同視角下,車輛在相同的位置下對應的背景信息變化差異較大,這都會影響度量學習的效果,相同車輛的計算的度量距離也隨之增加,使相同車輛識別難度增加。本文通過圖像語義分割方法,得到整車的掩膜圖像,再以掩膜圖像進行局部分塊,分割出3個部分,從而減少背景噪聲對局部特征的影響,方便捕獲到特征塊的細節(jié)信息。這樣經過分割的局部區(qū)域既對內部差異進行了強調,也易于拉近車輛特征的度量距離。
根據(jù)全局特征和局部特征,分別應用了合適的損失函數(shù),以指導特征的生成。并融合全局和局部損失,一起來訓練數(shù)據(jù)集、優(yōu)化網(wǎng)絡模型。本文的交叉熵損失都是以車輛ID信息作為分類的。對于所有局部特征和全局特征均使用交叉熵損失,對于全局特征,本文聯(lián)合三重態(tài)損失和交叉熵損失對其進行優(yōu)化學習。這樣以交叉熵損失構造的多個空間為平臺,將每個類的特征分布在不同的子空間中[13],再使用三重態(tài)損失就更能拉近類間距離。
本文總的損失函數(shù)包含3個局部分塊的損失和整車全局損失。通過語義分割網(wǎng)絡提取的車輛模型局部特征,得到的局部損失,局部損失包括上部分損失、中間部分損失和下部分損失。將訓練后的3個局部損失進行加權,最終得到總的局部損失Llocal表示為
Llocal=μ1Lup+μ2Lmed+μ3Llow
(2)
其中,μ1、μ2、μ3分別代表著不同的權重參數(shù),Lup、Lmed、Llow分別代表著上部分、中間部分和下部分的局部損失。
本文根據(jù)每個局部塊的學習特征的重要性,對學習的3個局部任務進行加權,特征屬性明顯的給以較高的權重,以增加相應局部任務的損失規(guī)模。通常在局部屬性分析上,車身下部分的內容比較重要,一般包含車標、車牌、車的輪轂及進氣格柵等重要細節(jié)信息,其次是車身的中間部分,一般包含車的擋風玻璃安全標志及車內裝飾物等信息。最后是車身的上部分,因此學習的權重各不相同,遵循以上權重配置的要求。
本文設定μ1為0.2,μ2為0.35,μ3為0.45表示不同局部區(qū)域學習任務的重要程度。
之后進行全局特征相似性對比得到的全局損失Lgobal, 其中在全局學習中同時使用標簽平滑的交叉熵損失和三重態(tài)損失來聯(lián)合訓練。通過這兩個損失,得到總的損失函數(shù)Ltotal為
Ltotal=ω1Llocal+ω2Lgobal
(3)
其中,ω1和ω2分別是局部損失和全局損失的權重系數(shù),考慮到局部損失和全局損失在本文有著同等作用,因此設置ω1和ω2分別為1和1。
為了訓練我們的網(wǎng)絡,我們考慮使用標簽平滑正則化器(label smoothing regularization,LSR)的交叉熵損失[14]和硬正負挖掘的三重態(tài)損失[15]作為損失函數(shù)。
LSR的交叉熵定義為
(4)
LSR相當于采用兩個損失,即H(q,p) 和H(u,p) 來等價于原始單一的交叉熵損失函數(shù)H(q′,p), 其中K是訓練批次的大小,ε是平滑系數(shù),p是預測的類別標簽分布,q是原真實類別標簽分布,u是引入的均勻分布,q′是q基礎上,替換為(1-ε)q(k), 然后以ε替換為在u分布中的隨機變量,其定義為
(5)
LSR是真實標簽分配的一種變化,其目的是通過在標簽上添加先驗分布使模型更具適應性。結合一般的交叉熵損失,以避免真實值類別標簽的logit值遠遠大于其它類別標簽的logit值,從而防止過擬合。
硬正負挖掘三重態(tài)損失定義為
(6)
通過最小化來控制正樣本對以及最大化負樣本對之間的距離,最終達到區(qū)分相似性樣本的效果。
在本節(jié)中,首先介紹用于車輛重新識別任務的兩個大型數(shù)據(jù)集及其評估標準,然后介紹該方法的實現(xiàn)效果并與最新技術比較。
本文的數(shù)據(jù)集來自兩個可公開獲得的大規(guī)模車輛數(shù)據(jù)集,它們是專為車輛重新識別而設計的:VeRi-776和VehicleID。VeRi-776數(shù)據(jù)集由776輛不同的車輛的51 035張圖像組成,這些圖像由20個不同的攝像頭在多個角度和多種光照條件下捕獲。對于這些車輛圖像,分別分配了576輛車的37 778張圖片進行訓練和576輛車的11 579張進行測試,對于查詢圖庫包含200輛車的1678張圖像。VehicleID是另一個用于車輛檢索任務的大型數(shù)據(jù)集,由26 328輛不同車輛的221 567幅圖像組成。包括250個最常見的車型。訓練部分包含13 164輛汽車的113 346的圖像。車輛數(shù)據(jù)集可進一步分為3個子集(小型、中型和大型)。數(shù)據(jù)集見表1。
表1 本文的實驗中評估的車輛Re-ID數(shù)據(jù)集的數(shù)據(jù)劃分
目前,使用兩種方法對已訓練的網(wǎng)絡進行評估。CMC(cumulative matching characteristic)曲線:累積匹配特性曲線表示在可變大小的排名列表中出現(xiàn)與查詢標識正確匹配的概率,假如共有N輛車,即要進行N次的查詢和排序,每次查詢中目標的車輛的排序結果用r=(r1,r2,…,rN) 表示,那么CMC曲線表示為
(7)
mAP(mean average precision):均值均勻精度是所有平均精度的平均值,如下所示
(8)
其中,Q是查詢圖像總數(shù)。
AP(average precision):平均精度,如下所示
(9)
其中,n是測試次數(shù),M表示與總的查詢圖像匹配圖像的個數(shù),g(t) 表示指標函數(shù),如果在t處找到匹配項,則該值為1,否則為0,p(t) 指前t個值的查準率。
本文首先將訓練的數(shù)據(jù)圖像使用了水平翻轉的增強方式,之后再把輸入數(shù)據(jù)集圖片的大小調整為256×256像素。在每次迭代中,我們對32張圖像進行小批量采樣,使用Adam優(yōu)化器,初始學習率為0.0003,我們還將模型的訓練周期數(shù)固定為100。在標簽平滑正則化器(LSR)實現(xiàn)中正則化值ε設定為0.1,三重態(tài)損失函數(shù)的超參數(shù)margin設定為0.3。遵循評估指標,CMC、mAP、rank-1、rank-5被用作評估整體性能的指標。圖4和圖5中分別顯示了本文的方法在VeRi-776和VehicleID數(shù)據(jù)集上的CMC曲線。
本文為驗證全局損失和局部損失的結合的有效性,實驗在數(shù)據(jù)集上比較了只使用全局損失的基礎網(wǎng)絡baseline,baseline是由三重態(tài)網(wǎng)絡模型構成。
從圖4和圖5中可以看出,添加了局部特征的網(wǎng)絡,準確度都有所提升。在VeRi-776數(shù)據(jù)集上,Rank-1由基礎網(wǎng)絡的91.3%提升到92.3%,Rank-5則由原來的96.2%提升到96.6%。在VehicleID數(shù)據(jù)集上,Rank-1由基礎網(wǎng)絡的66.7%提升到69.3%,Rank-5則由原來的81.6%提升到85.8%等。由此可以驗證本文方法的有效性。
本文使用最新的重新排名策略,可視化排名結果顯示了一些車輛圖片搜索的效果,本節(jié)實驗以VeRi-776數(shù)據(jù)集為例,在查詢庫query中選擇5張不同車輛的圖片,從這5輛車中,在圖像庫gallery檢索出同一車輛5張不同的車輛。top-k用來表示排名列表中的前k個圖像。
圖6是本文方法在VeRi-776數(shù)據(jù)集上得到Rank-5的可視化查詢結果,查詢query列表是選取待查詢的車輛圖像,后面top-1~top-5是檢索后相似度最高的圖片,即Rank-5查詢后的結果。錯誤檢索結果由黑色方框標記出。這些示例表明,本文的改進方法的總體性能良好。但是,在少數(shù)情況下,例如光照變化極端,車輛之間的相似度太高,車輛的圖像模糊等,我們的方法仍需進一步改進。
近年來,我們研究了基于VeRi-776和VehicleID的車輛Re-ID的研究成果。然后,我們將這些結果與實驗結果進行了比較,包括FACT[2]、Combing Network[7]、VGG+C、VGG+C+T+S[14]、Triplet softmax loss VGGM、DDFL[10]。結果見表2。
表2 在VeRi-776數(shù)據(jù)集上的性能比較
在VeRi-776數(shù)據(jù)集上,本文的方法達到了65.9%的mAP和92.3%的rank-1精度。在VehiclelD(S)數(shù)據(jù)集上,實現(xiàn)了73.5%的mAp和69.3%的rank-1準確性。
本文提出了一個ISS-ReID模型,從車輛圖像的語義分割入手,根據(jù)車輛邊界模型劃分局部特征,更好的從車輛數(shù)據(jù)集中提取具有差異化的特征信息,并有效減少背景噪聲的干擾,結合了宏觀全局特征,計算查詢圖像與圖像庫圖片特征之間的距離度量,最后通過融合全局損失和局部損失來促進網(wǎng)絡的優(yōu)化。實驗結果表明,本文改進的方法可以在車輛Re-ID中取得良好的效果。但是,真實場景可能更加復雜。因此,解決車輛Re-ID仍然是繁重的任務。