羅慧誠(chéng),汪淑娟
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
當(dāng)前,車(chē)牌識(shí)別是確定車(chē)輛身份的一種有效手段。但在標(biāo)清攝像頭下,當(dāng)車(chē)輛距離攝像頭較遠(yuǎn),車(chē)牌可能無(wú)法清晰成像。此外,有預(yù)謀的犯罪往往會(huì)采用一些手段(如遮擋車(chē)牌、套牌)來(lái)逃避攝像頭的監(jiān)控。在這種情況下,利用車(chē)牌識(shí)別來(lái)追蹤目標(biāo)車(chē)輛顯然是不現(xiàn)實(shí)的。為彌補(bǔ)車(chē)牌識(shí)別存在的缺陷,車(chē)輛重識(shí)別概念被提出。該技術(shù)主要是利用車(chē)輛外觀表現(xiàn)出來(lái)的特征,從不重疊相機(jī)視角識(shí)別出與給定車(chē)輛身份相同的車(chē)輛。由于其在城市安全和公共智能交通等方面具有廣泛的應(yīng)用前景,該技術(shù)受到了計(jì)算機(jī)視覺(jué)和多媒體領(lǐng)域研究者的極大關(guān)注。
雖然基于特征表示的車(chē)輛重識(shí)別方法已取得了極大的研究進(jìn)展,但由于攝像頭視角的差異、光照變化、復(fù)雜背景以及車(chē)輛姿態(tài)的影響,導(dǎo)致同一輛車(chē)在不同相機(jī)視角下表現(xiàn)出了巨大的外觀歧義性。此外,具有相同顏色和相同車(chē)型的車(chē)輛往往不具有相同的身份,這給車(chē)輛的身份匹配帶來(lái)了極大困難。為解決這一問(wèn)題,本文在Transformer框架下提出一種面向車(chē)輛重識(shí)別的特征語(yǔ)義對(duì)齊與判別性特征表示方法。該方法首先使用預(yù)訓(xùn)練后的車(chē)輛姿態(tài)估計(jì)模型實(shí)現(xiàn)對(duì)車(chē)輛關(guān)鍵點(diǎn)的提取,然后利用關(guān)鍵點(diǎn)所具有的語(yǔ)義信息,根據(jù)不同圖像塊的坐標(biāo),設(shè)計(jì)一種特征聚集方法,將Transformer中具有相同語(yǔ)義屬性的token劃歸到同一組內(nèi),這不僅賦予了token語(yǔ)義信息,同時(shí)也實(shí)現(xiàn)了特征的語(yǔ)義對(duì)齊,提升了特征魯棒性與判別性。進(jìn)行不同車(chē)輛圖像的特征匹配,便能實(shí)現(xiàn)具有相同語(yǔ)義屬性的部位進(jìn)行特征的相似性度量,有利于匹配性能的提升。由于描述同一輛車(chē)的不同語(yǔ)義特征之間具有較強(qiáng)的關(guān)聯(lián)關(guān)系,如果能有效利用這一關(guān)系,將進(jìn)一步提升特征的質(zhì)量。為此,將具有相同語(yǔ)義的token經(jīng)過(guò)自注意力之后作為圖結(jié)構(gòu)的頂點(diǎn)特征,不同語(yǔ)義的token之間的相似度作為邊,構(gòu)建了圖卷積網(wǎng)絡(luò)來(lái)對(duì)不同語(yǔ)義屬性的特征進(jìn)一步優(yōu)化??偨Y(jié)起來(lái),本文的貢獻(xiàn)包括以下3個(gè)方面。
(1)本文提出利用預(yù)訓(xùn)練的車(chē)輛姿態(tài)檢測(cè)模型,來(lái)引導(dǎo)Transformer中具有相同語(yǔ)義token的特征對(duì)齊,實(shí)現(xiàn)了具有相同屬性位置車(chē)輛特征的相似性度量,解決了車(chē)輛由于相機(jī)視角變化、姿態(tài)差異、光照改變、復(fù)雜背景而導(dǎo)致的同一車(chē)輛外觀不一致的問(wèn)題。
(2)提出利用不同屬性特征之間的關(guān)聯(lián)關(guān)系來(lái)提升特征的表示能力。為實(shí)現(xiàn)此目的,在經(jīng)過(guò)自注意力模塊的特征上,構(gòu)建了圖卷積網(wǎng)絡(luò),并以此實(shí)現(xiàn)了不同類(lèi)別token特征的信息傳遞。
(3)在兩個(gè)大型的車(chē)輛數(shù)據(jù)集(VeRi-776[1]和VERI-Wild[2])上的實(shí)驗(yàn)結(jié)果表明,所提出方法的性能優(yōu)于大部分最先進(jìn)的車(chē)輛重識(shí)別方法的性能。
本文提出的方法主要包括關(guān)鍵點(diǎn)引導(dǎo)的特征對(duì)齊、基于自注意力的局部特征強(qiáng)化以及屬性特征信息傳遞3個(gè)部分。關(guān)鍵點(diǎn)引導(dǎo)的特征對(duì)齊以Transformer框架作為基線,解析車(chē)輛的關(guān)鍵點(diǎn)信息,得到精確的語(yǔ)義特征。基于自注意力的局部特征強(qiáng)化關(guān)注類(lèi)別相關(guān)信息,對(duì)類(lèi)別相關(guān)的特征賦予更大的權(quán)重。屬性特征信息傳遞利用不同屬性的語(yǔ)義特征之間的相關(guān)性,通過(guò)圖卷積網(wǎng)絡(luò)進(jìn)行信息傳遞,提升特征的表征能力。3個(gè)模塊以端到端的方式聯(lián)合優(yōu)化網(wǎng)絡(luò)。本文提出的方法的整體架構(gòu)如圖1所示。
圖1 Transformer框架下面向車(chē)輛重識(shí)別的特征對(duì)齊與判別性增強(qiáng)的網(wǎng)絡(luò)結(jié)構(gòu)圖
給定一張圖像x∈H×W×C,其中H、W、C分別代表圖像的高度、寬度、通道數(shù)量。VIT框架使用滑動(dòng)窗口的機(jī)制滑動(dòng)圖像x來(lái)劃分為部分像素重疊的patch塊,滑動(dòng)的步長(zhǎng)為S,patch的邊長(zhǎng)為P,分辨率為H×W的輸入圖像x被分為N個(gè)固定大小的patch塊,過(guò)程如下所示:
式中:NH和NW分別代表圖像x高度和寬度上的patch塊數(shù)量,[·]表示向下取整操作。切分后的patch塊嵌入到網(wǎng)絡(luò)的輸入序列中作為局部特征表示。此外,一個(gè)額外的tokenfcls也被嵌入到網(wǎng)絡(luò)的輸入序列中,用于學(xué)習(xí)網(wǎng)絡(luò)的全局特征表示。輸入到Transformer層的輸入序列的表示如式(2)所示:
式中:Z0表示Transformer層的輸入序列,L是將patch塊映射到D維的線性投影,得到N個(gè)token。將輸入序列送入l層Transformer層后,得到特征尺度不變的輸出序列Z1。Z1可表示為:
本文將N個(gè)token表示為作為網(wǎng)絡(luò)的局部特征表示。將得到的fclsl作為網(wǎng)絡(luò)的全局特征表示,使用多頭注意力學(xué)習(xí)局部特征的分類(lèi)能力。
在之前的工作[3-4]中,將車(chē)輛姿態(tài)估計(jì)模型輸出的關(guān)鍵點(diǎn)信息與卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的特征圖結(jié)合得到局部特征。然而,Transformer模型不同于卷積神經(jīng)網(wǎng)絡(luò),其特征提取過(guò)程不產(chǎn)生特征圖,因此車(chē)輛姿態(tài)模型生成的掩膜數(shù)據(jù)無(wú)法直接用在Transformer產(chǎn)生的特征向量上。為了解決該問(wèn)題,本文通過(guò)HRNet[5]預(yù)測(cè)車(chē)輛圖像的關(guān)鍵點(diǎn),由關(guān)鍵點(diǎn)坐標(biāo)確定關(guān)鍵點(diǎn)對(duì)應(yīng)的token。
具體來(lái)說(shuō),將x送入車(chē)輛姿態(tài)估計(jì)網(wǎng)絡(luò)HRNet,能夠得到全局特征圖Fg和K個(gè)不同位置的局部特征掩模圖因此可以通過(guò)式(4)得到不同位置的局部特征圖。
式中:表示全局特征圖和一個(gè)局部特征掩模圖逐元素相乘的操作,表示K個(gè)不同位置的局部特征圖。
得到局部特征圖后,該特征圖上的最大值所在的像素點(diǎn)的位置坐標(biāo)即為所需的關(guān)鍵點(diǎn)坐標(biāo)。接著,將得到的關(guān)鍵點(diǎn)坐標(biāo)在VIT框架里選擇對(duì)應(yīng)的token,即從VIT框架的N個(gè)token里挑選出符合關(guān)鍵點(diǎn)坐標(biāo)的K個(gè)token,每個(gè)關(guān)鍵點(diǎn)對(duì)應(yīng)的token編號(hào)的計(jì)算過(guò)程如式(5)所示:
式中:H和W分別代表圖像x的高度和寬度表示向下取整操作,滑動(dòng)的步長(zhǎng)為S,patch的邊長(zhǎng)為P。對(duì)于token塊表示它的關(guān)鍵點(diǎn)坐標(biāo),ni代表它在局部特征中 的 編 號(hào)。因此本文將K個(gè)token表示為
依據(jù)關(guān)鍵點(diǎn)對(duì)應(yīng)的車(chē)身區(qū)域,可以將關(guān)鍵點(diǎn)聚合為m個(gè)車(chē)輛區(qū)域的語(yǔ)義特征,例如和四個(gè)token聚合后能夠代表車(chē)前身。因此,將車(chē)輛相同語(yǔ)義區(qū)域?qū)?yīng)的token進(jìn)行聚合可以得到車(chē)輛的語(yǔ)義特征。其過(guò)程如式(6)所示。
式中:concat(·)代表特征向量按通道concatation操作,F(xiàn)C(·)代表一層完全連接層,代表具有相同語(yǔ)義屬性的token,代表車(chē)輛某一區(qū)域的語(yǔ)義特征向量。因此,能得到m個(gè)語(yǔ)義特征向量
將上一個(gè)模塊輸出的m個(gè)語(yǔ)義特征向量和全局特征向量fclsl作為自注意力模塊的輸入fx。如圖2所示,fx分別經(jīng)過(guò)3個(gè)結(jié)構(gòu)相同的線性嵌入的映射函數(shù)θ、φ、g,其中線性嵌入的映射函數(shù)θ的定義為:
式中:Wθ表示可學(xué)習(xí)的權(quán)重矩陣,可通過(guò)1×1卷積實(shí)現(xiàn)。
為了突出特征的判別性,需要探索語(yǔ)義特征的重要程度,過(guò)程如下所示。
如式(8)所示,先對(duì)θ(fx)和[φ(fx)]T使用矩陣相乘的方式表示特征的相關(guān)性,再經(jīng)過(guò)softmax函數(shù)對(duì)不同的語(yǔ)義特征分配可學(xué)習(xí)的權(quán)重,最后權(quán)重與g(fx)的積為g(fx)中關(guān)鍵的語(yǔ)義特征賦予更大的關(guān)注。
為了保留上一個(gè)模塊提取語(yǔ)義特征能力的完整性,引入殘差連接,依據(jù)式(9)將殘差信息與fx結(jié)合。
式中:Wz表示可學(xué)習(xí)的權(quán)重矩陣,可用1×1卷積實(shí)現(xiàn)。得到的fz作為屬性特征信息傳遞模塊的輸入。
在現(xiàn)有的方法中,基于關(guān)鍵點(diǎn)或目標(biāo)檢測(cè)方法得到的語(yǔ)義特征通常直接按通道concatation操作進(jìn)行特征融合,忽略了不同屬性語(yǔ)義特征之間的相關(guān)性。不同屬性語(yǔ)義特征之間的相關(guān)性可以提升特征的表達(dá)能力,例如車(chē)頂和前后擋風(fēng)玻璃,車(chē)窗和車(chē)身等不同屬性的語(yǔ)義特征間可以相互交互,提高語(yǔ)義特征的質(zhì)量。為了利用車(chē)輛不同屬性語(yǔ)義特征之間的關(guān)系,本文構(gòu)建一個(gè)圖卷積網(wǎng)絡(luò)來(lái)對(duì)這些關(guān)系進(jìn)行建模。如圖1所示,其中,語(yǔ)義特征之間的相鄰關(guān)系可由鄰接矩陣A∈(m+1)×(m+1)表示,其中m+1是節(jié)點(diǎn)的數(shù)量。對(duì)于鄰接矩陣A,如果語(yǔ)義特征i和j相鄰,例如車(chē)頂和前車(chē)窗玻璃位置相鄰,則設(shè)置A(i,j)=1。為了充分利用相鄰關(guān)系,挖掘具有鑒別性的特征,圖卷積模塊通過(guò)使用圖中每個(gè)節(jié)點(diǎn)向其相鄰節(jié)點(diǎn)進(jìn)行信息傳播來(lái)實(shí)現(xiàn)關(guān)系傳遞。在注意力模塊的后面添加兩層的圖卷積,其中每一層r可被描述為:
式中:A∈(m+1)×(m+1)是特征矩陣的鄰接矩陣,E∈(m+1)×(m+1)是A的度矩陣,是第r-1層輸出的特征矩陣,W(r-1)∈D×D是第L-1層可學(xué)習(xí)的參數(shù),σ(·)是一個(gè)Relu激活函數(shù)。將基于自注意力的局部特征強(qiáng)化的輸出置為初始的特征矩陣圖卷積網(wǎng)絡(luò)中節(jié)點(diǎn)L輪信息傳播更新得到圖卷積模塊的輸出
經(jīng)過(guò)3個(gè)模塊后,得到優(yōu)化后的全局特征fclsz和m個(gè)語(yǔ)義特征對(duì)于全局特征fclsz,通過(guò)構(gòu)建身份損失LIDG和三元組損失LT來(lái)優(yōu)化網(wǎng)絡(luò)。其中身份損失LIDG是交叉熵?fù)p失,描述如下:
式中:b代表代表第k個(gè)樣本的全局特征,yk代表車(chē)輛分類(lèi)第k個(gè)樣本的真實(shí)身份標(biāo)簽,代表全局特征分類(lèi)器,代表分類(lèi)器預(yù)測(cè)出的第k個(gè)樣本的身份標(biāo)簽。
此外,本文還通過(guò)帶有軟間隔的三元組損失[6]使相同身份車(chē)輛圖像具有高相似性,不同身份的車(chē)輛圖像具有低相似性。具體優(yōu)化公式如下:
式中:b代表代表第k個(gè)樣本第p個(gè)語(yǔ)義特征,yk代表車(chē)輛分類(lèi)第k個(gè)樣本的真實(shí)身份標(biāo)簽,代表第p個(gè)語(yǔ)義特征的分類(lèi)器代表分類(lèi)器預(yù)測(cè)出的第k個(gè)樣本第p個(gè)語(yǔ)義特征的身份標(biāo)簽。
綜上所述,所提出框架的整體損失函數(shù)L如下所示,通過(guò)最小化L以端到端的方式優(yōu)化所提出的網(wǎng)絡(luò)。
式中:λ表示超參數(shù),表示L中調(diào)整語(yǔ)義特征身份損失項(xiàng)的權(quán)重。
在兩個(gè)大型的車(chē)輛重識(shí)別數(shù)據(jù)集VeRi-776和VERI-Wild上評(píng)估所提出的模型。將評(píng)估的結(jié)果與近兩年最先進(jìn)的車(chē)輛重識(shí)別方法進(jìn)行比較。
遵循文獻(xiàn)[2]和文獻(xiàn)[7],本文使用平均精度均值(mAP)、Rank-1精度(R1)及Rank-5精度(R5)作為模型的評(píng)估指標(biāo)。
本節(jié)介紹實(shí)驗(yàn)中模型架構(gòu)的詳細(xì)信息。
本文使用基于VIT框架的12個(gè)Transformer層作為提取特征的主干。將基于車(chē)輛姿態(tài)估計(jì)的HRNet網(wǎng)絡(luò)預(yù)測(cè)的36個(gè)關(guān)鍵點(diǎn)及其坐標(biāo)映射到VIT框架里,得到關(guān)鍵點(diǎn)對(duì)應(yīng)的36個(gè)帶有不同語(yǔ)義信息的token。通過(guò)關(guān)鍵點(diǎn)將車(chē)輛圖像劃分為不同的語(yǔ)義區(qū)域,并將具有相同語(yǔ)義信息的token進(jìn)行聚合,得到13個(gè)代表車(chē)輛不同區(qū)域的語(yǔ)義特征。之后,將Transformer層得到的全局特征和語(yǔ)義特征送入基于自注意力的局部特征強(qiáng)化模塊和屬性特征信息傳遞模塊,得到魯棒性的特征表示。最后對(duì)得到的全局特征和語(yǔ)義特征分別做分類(lèi)損失。
本文將提出的方法與現(xiàn)有的車(chē)輛重識(shí)別方法進(jìn)行比較,方法分為3類(lèi)。第一類(lèi)是基于深度學(xué)習(xí)的全局特征表示方法。研究人員使用深度網(wǎng)絡(luò)從車(chē)輛的全局外觀里學(xué)習(xí)視覺(jué)特征,代表性方法包括文獻(xiàn)[8]、文獻(xiàn)[9]、文獻(xiàn)[10]、文獻(xiàn)[11]的方法。第二類(lèi)是多模態(tài)方法,這些方法通常利用車(chē)輛背景、車(chē)牌、時(shí)空上下文等多模態(tài)信息,方法主要是文獻(xiàn)[12]的方法。第三類(lèi)方法是車(chē)輛全局和局部特征的表示方法,由于所提的方法探索車(chē)輛的局部信息以此得到細(xì)粒度的特征,因此也與同樣使用局部信息的方法進(jìn)行比較。比較的方法主要包括文獻(xiàn)[3]、文獻(xiàn)[13-22]中的方法。比較結(jié)果如表1和表2所示,其中,“—”表示無(wú)可用數(shù)據(jù)。
在VeRi-776數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn):結(jié)果如表1所示,提出方法的性能在Rank-1/mAP優(yōu)于最好的基于語(yǔ)義分割的車(chē)輛重識(shí)別方法PVEN[23]1.00%/0.64%,在Rank-1/mAP比最好的基于目標(biāo)檢測(cè)的車(chē)輛重識(shí)別方法Part regular[14]高2.30%/5.84%。此外,所提的方法在Rank-1/mAP上同樣也優(yōu)于最好的基于關(guān)鍵點(diǎn)的車(chē)輛重識(shí)別方法PAMTRI[3]3.74%/8.26%,并在VeRi-776數(shù)據(jù)集上實(shí)現(xiàn)了最好的性能。
表1 在VeRi-776數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)
在VERI-Wild數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn):表2列出了本文方法在VERI-Wild數(shù)據(jù)集上與其他方法的比較結(jié)果,本文方法同樣實(shí)現(xiàn)了最好的性能,在VERI-Wild數(shù)據(jù)集3個(gè)測(cè)試子集Test3000、Test5000及Test10000上Rank-1分別優(yōu)于次優(yōu)方法UMTS[13]3.05%、3.77%和4.64%。本文方法在VeRi-776數(shù)據(jù)集和VERI-Wild數(shù)據(jù)集上均實(shí)現(xiàn)了良好的性能,這表明了所提方法的有效性和通用性。
表2 在VERI-Wild數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)
本節(jié)進(jìn)行一系列的實(shí)驗(yàn),分別驗(yàn)證提出的關(guān)鍵點(diǎn)引導(dǎo)的特征對(duì)齊(SFET)、基于自注意力的局部特征強(qiáng)化(SAFL)和屬性特征信息傳遞(PGCN)3個(gè)模塊的有效性。實(shí)驗(yàn)結(jié)果如表4所示。其中,基準(zhǔn)方法僅用全局特征身份損失LIDG和三元組損失LT約束網(wǎng)絡(luò)。加入任意模塊后,使用全局特征身份損失LIDG、三元組損失LT和語(yǔ)義特征身份損失LIDL共同約束網(wǎng)絡(luò)。在VeRi-776上進(jìn)行消融實(shí)驗(yàn),探究每個(gè)模塊的作用。
表4 消融實(shí)驗(yàn)結(jié)果
本文涉及一個(gè)超參數(shù)λ,用來(lái)控制語(yǔ)義特征損失項(xiàng)。在VeRi-776進(jìn)行超參數(shù)的分析,結(jié)果如圖3所示,對(duì)于兩個(gè)數(shù)據(jù)集,當(dāng)λ∈[0,0.1]時(shí),隨著λ的增加,網(wǎng)絡(luò)的識(shí)別率在逐步提升,然而,當(dāng)網(wǎng)絡(luò)的性能達(dá)到一個(gè)最高峰后卻在不停減弱,即λ∈[0.1,1]時(shí),隨著λ的增加,Rank-1/mAP卻在逐步下降,主要的原因是語(yǔ)義特征損失項(xiàng)過(guò)大,導(dǎo)致網(wǎng)絡(luò)無(wú)法擬合。當(dāng)λ=0.1時(shí),本文的方法在數(shù)據(jù)集上得到最優(yōu)的性能,因此根據(jù)實(shí)驗(yàn)結(jié)果將λ設(shè)置為0.1。
圖3 超參數(shù)λ的有效性分析
本文提出了一種新穎的車(chē)輛重識(shí)別方法。該方法主要由關(guān)鍵點(diǎn)引導(dǎo)的特征對(duì)齊、基于自注意力的局部特征強(qiáng)化以及屬性特征信息傳遞3個(gè)部分組成。其中,關(guān)鍵點(diǎn)引導(dǎo)的特征對(duì)齊模塊通過(guò)一種新的關(guān)鍵點(diǎn)映射模型和Transformer基線得到細(xì)粒度的零部件語(yǔ)義特征,基于自注意力的局部特征強(qiáng)化模塊為更顯著的語(yǔ)義特征賦予更大的關(guān)注,挖掘出更具有判別性質(zhì)的信息,屬性特征信息傳遞模塊為零部件的天然相鄰關(guān)系建模,使語(yǔ)義特征間相互關(guān)聯(lián),促進(jìn)了多攝像頭下車(chē)輛的識(shí)別率。本文在兩個(gè)基準(zhǔn)車(chē)輛數(shù)據(jù)集上的實(shí)驗(yàn)表明了提出的方法在車(chē)輛重識(shí)別任務(wù)上的有效性以及對(duì)比同類(lèi)方法的優(yōu)越性。