亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視角一致性三元組損失的車輛重識別技術(shù)

        2021-08-30 05:36:34劉晗煜黃宏恩鄭世寶
        測控技術(shù) 2021年8期
        關(guān)鍵詞:三元組一致性損失

        劉晗煜,黃宏恩,鄭世寶

        (上海交通大學(xué),上海 201100)

        隨著計算機視覺技術(shù)的快速發(fā)展,車輛重識別作為其中一項基礎(chǔ)任務(wù),在智能交通及城市監(jiān)控系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用。這項任務(wù)旨在從圖庫(Gallery)中檢索出與查詢圖(Query)屬于同一輛車的圖片,流程如圖1所示。該任務(wù)首先提取圖片特征,然后計算特征間相似性度量,最后根據(jù)相似性排序,從圖庫中召回與查詢圖相似性高的圖片。需要注意的是,圖庫中的圖片往往取自放置在不同視角的多個攝像機,這意味著圖庫中同一車輛在不同的圖片上會呈現(xiàn)較大的外觀差異,給這項任務(wù)帶來了巨大的挑戰(zhàn)。

        圖1 車輛重識別任務(wù)流程圖

        總體上,通過計算機視覺技術(shù)實現(xiàn)車輛重識別的主流方法可以大致分為基于手工特征的方法和基于深度特征的方法。

        基于手工特征的方法是早期這項任務(wù)中使用最廣泛的方法。手工特征是指人為設(shè)計的特征,它的每一維度都具有特定的含義,代表了圖像中的某一具體屬性。在這類方法中,外觀描述符常常被用于實現(xiàn)車輛重識別任務(wù)。例如,Woesler[1]利用了車頂?shù)念伾畔?;Watcharapinchai等[2]提出了基于車牌號的車輛重識別方法。然而,由于攝像頭分辨率、光照、視角和遮擋等因素,顏色和車牌號等特殊信息有時也難以準確獲得。因此,基于手工特征的方法往往具有局限性。

        近年來,深度學(xué)習(xí)在計算機視覺中表現(xiàn)出明顯的優(yōu)異性,并成功應(yīng)用于人臉識別、行為識別和行人及車輛重識別等多項任務(wù)。因此,越來越多的研究采用深度特征實現(xiàn)車輛重識別。這類方法需要合理地設(shè)計深度網(wǎng)絡(luò)模型,將輸入特征(車輛圖片)映射到潛在的特征空間。在潛在特征空間中,相同車輛間的類內(nèi)間距應(yīng)盡可能小,不同車輛間的類間差異性應(yīng)盡可能大。在這些方法中,Li等[3]提出了一種基于CNN的方法,它能高效挖掘車輛具有辨別性的信息;Schroff等[4]為卷積神經(jīng)網(wǎng)絡(luò)提出了三元組的訓(xùn)練方式,通過充分學(xué)習(xí)三元組中正樣本對與負樣本對的相對相似性,提升了模型的表現(xiàn)性能。

        相比于基于手工特征的方法,基于深度特征的方法已經(jīng)取得較大的突破,但車輛重識別任務(wù)依然存在以下幾個挑戰(zhàn):首先是多視角挑戰(zhàn),即車輛外觀在不同視角下急劇變化導(dǎo)致了所提取特征的不穩(wěn)定性。如圖2所示,每一行是同一輛車不同視角的圖像,每一列是不同的車相似視角下的圖像,模型很容易認為圖2(a)和圖2(d)比圖2(b)、圖2(c)更相似。其次是車型近似重復(fù)挑戰(zhàn),即市面上存在大量相似型號的車輛。這些車輛間的區(qū)分度嚴重依賴于局部細節(jié),圖2中方框標出的部分都是可以區(qū)分兩輛車的局部信息。

        圖2 車輛圖像示例

        1 相關(guān)工作

        針對視角多樣性挑戰(zhàn),VANet[5]提出采用不同的策略來識別來自相同視角和不同視角的圖片。首先,對圖片中車輛的方向進行分類預(yù)測,通過將輸入圖像映射到同向和反向兩個潛在特征空間中,提升了模型在視角多樣性場景下的表現(xiàn)性能。然而,該網(wǎng)絡(luò)僅預(yù)測了前后兩個角度,即圖2中第一列和第三列兩種視角,忽略了第二列的情況,而實際攝像頭中的視角更為多樣,且該網(wǎng)絡(luò)的擴展代價較大。如果要提高角度預(yù)測的分類數(shù),網(wǎng)絡(luò)的分支數(shù)會隨角度分類數(shù)呈指數(shù)級增長,訓(xùn)練集標注也會隨角度的細化而變得難以用肉眼判斷,因此該網(wǎng)絡(luò)難以覆蓋車輛重識別的復(fù)雜應(yīng)用場景。

        針對車型近似重復(fù)的挑戰(zhàn),He等[6]提出的局部正則化網(wǎng)絡(luò)(Part-Regularized Network,PRN)和Meng等[7]提出的基于解析的視角感知嵌入網(wǎng)絡(luò)(Parsing-Based View-Aware Embedding Network,PVEN)均從局部特征入手。PRN將目標檢測中的感興趣區(qū)域(Region of Interest,ROI)引入車輛重識別任務(wù),單獨提取出車窗、車燈和品牌(Logo)3個區(qū)域的局部特征,然后與全局特征結(jié)合。然而,車輛的判別性信息可能出現(xiàn)在車輛的任何部位,僅用以上3個區(qū)域代表局部信息并不全面,如圖2中藍框標出的車頂、車尾紅燈都是具有判別性但被PRN忽略的局部信息。PVEN認為,兩張車輛圖片中均顯示的公共部分攜帶著更為豐富的判別性局部信息,需要重點關(guān)注。為此,采用U-net將兩張圖片中的車輛分割為具有特定語義的四大區(qū)域(車頭、車尾、車頂和車側(cè)),并根據(jù)兩輛車對應(yīng)區(qū)域的占比情況,計算出各區(qū)域的可見性分數(shù),使模型重點關(guān)注可見性分數(shù)較高的局部區(qū)域。但是,PVEN在視角多樣性方面僅關(guān)注了單區(qū)域局部特征的對齊與增強,這顯然是不夠全面的,車輛視角問題應(yīng)該從整張車輛圖片來考慮。

        受PVEN[7]中車輛四分割方法的啟發(fā),筆者認為,車輛分割后各個區(qū)域面積占比在一定程度上反映了該圖的拍攝視角。兩張車輛圖片中對應(yīng)區(qū)域占比的情況越相似,則它們的視角越一致。因此,本文提出基于區(qū)域分割的車輛視角一致性算法,并由此設(shè)計了新的視角一致性三元組損失。該損失給予視角上挑戰(zhàn)性較大的樣本更高的權(quán)重,并過濾掉視角簡單樣本,使模型可以學(xué)習(xí)到更深層的距離度量。實驗結(jié)果表明,本文的方法在mAP、rank-1、rank-5、rank-10這4項車輛重識別的主要指標上均優(yōu)于PVEN方法。

        2 方法

        由于PVEN[7]中提供了較好的車輛分割網(wǎng)絡(luò)和全局特征與局部特征結(jié)合的架構(gòu),而局部特征的距離度量極易受到視角的影響,因此,本文選擇在PVEN的局部分支中驗證視角一致性感知損失的效果。

        為了便于說明,引入以下標記:對于數(shù)據(jù)集X來說,a,p,n是3張車輛圖片樣本且a,p,n∈X。其中,a代表錨點(anchor);p代表正樣本(positive),與a屬于同一車輛(id相同);n代表負樣本(negative),與a屬于不同車輛。(a,p,n)是一個三元組。

        2.1 訓(xùn)練網(wǎng)絡(luò)框架

        本文的網(wǎng)絡(luò)框架如圖3所示。該網(wǎng)絡(luò)框架基于PVEN[7]進行改進,PVEN首先提取全局特征圖(Feature Map)和區(qū)域分割掩膜,然后采用雙分支結(jié)構(gòu),全局分支用于獲得全局特征距離和損失,局部分支用于獲得局部特征距離及局部三元組損失。在此基礎(chǔ)上加入了一個視角一致性分支,用于獲得視角一致性三元組系數(shù),并將該系數(shù)與局部分支的三元組損失計算結(jié)果相乘,形成局部視角一致性三元組損失,從而引導(dǎo)網(wǎng)絡(luò)去學(xué)習(xí)更具視角魯棒性的車輛圖像特征。

        (1)

        (2)

        (3)

        (4)

        (5)

        (6)

        (7)

        在訓(xùn)練階段,總損失的計算公式為

        (8)

        在測試階段,用于排序和推斷的相似性度量由全局特征距離和局部特征距離加權(quán)相加獲得,計算公式為

        (9)

        2.2 視角一致性

        PVEN提出,由于其剛體和類六面體性質(zhì),車輛可以較容易地被語義分割為車頭、車尾、車頂和車側(cè)4個區(qū)域。筆者認為分割后車輛各區(qū)域的面積占比可以體現(xiàn)其拍攝視角,例如,若車頭占比最大,說明車輛極有可能是從前往后拍的;若車頂占比較高,說明攝像頭安裝位置較高。因此,本文用分割掩膜的面積分布估計車輛視角特征,又用兩個視角特征的點積估計其視角一致性。視角一致性的計算流程如圖4所示。

        圖4 視角一致性的計算流程

        (10)

        (11)

        2.3 視角一致性三元組損失

        為了引導(dǎo)模型學(xué)習(xí)到更具辨別性的特征,筆者將2.2節(jié)提出的視角一致性概念加入三元組篩選的考量中,進而設(shè)計出新的視角一致性三元組損失函數(shù)。

        2.3.1 傳統(tǒng)的三元組損失函數(shù)

        傳統(tǒng)的三元組損失函數(shù)[4]是一種最常見的損失函數(shù),也是本文的度量學(xué)習(xí)基準。三元組損失函數(shù)的目標是引導(dǎo)模型學(xué)習(xí)到一種復(fù)雜的特征映射,使數(shù)據(jù)集樣本在潛在特征空間中,對于每個三元組(a,p,n),錨點a到負樣本n的特征距離Da,n應(yīng)該比到正樣本p的特征距離Da,p更大。這樣才能在重識別任務(wù)中順利地根據(jù)特征距離召回任何一個查詢圖的真值(Ground Truth)。為了更好地學(xué)習(xí)困難樣本之間的深度度量,Schroff等[9]根據(jù)距離范圍將三元組分成以下三類。

        ① 簡單三元組:Da,p

        ② 半難三元組:Da,n-α

        ③ 困難三元組:Da,p>Da,n,即會誤識別的三元組。

        其中,α表示簡單三元組的Da,n與Da,p之間應(yīng)該留有的距離余量。

        Schroff[4]等將單個三元組的損失計算函數(shù)定義為

        LTri(a,p,n)=max{Da,p-Da,n+α,0}

        (12)

        在式(12)中,簡單三元組的損失函數(shù)值為0,而困難三元組和半難三元組的損失函數(shù)值大于0,因此,神經(jīng)網(wǎng)絡(luò)重點學(xué)習(xí)后面兩類三元組的距離度量,實現(xiàn)了參數(shù)的有效優(yōu)化。

        在實際實驗中,由于計算資源的限制,業(yè)界通常分批輸入數(shù)據(jù)對模型進行訓(xùn)練,從而三元組損失及其變體的計算均基于小批量數(shù)據(jù)。其中,批次困難三元組損失(Batch Hard Triplet Loss)和批次全三元組損失(Batch All Triplet Loss)是兩種最常用的方法。批次全三元組損失[4]對每個錨點計算其所有合法三元組的損失的平均值,而批次困難三元組損失[9]對每個錨點計算其所有合法三元組的損失的最大值。

        2.3.2 視角一致性三元組損失

        上述傳統(tǒng)的三元組損失選擇距離上較為接近的負樣本和距離較遠的正樣本進行優(yōu)化。然而,車輛圖像的特征距離極易受到視角的干擾。這種僅根據(jù)距離選擇三元組的方法難以適應(yīng)圖1所示的多視角情況。為了解決這個問題,本文希望將視角一致性因素引入模型的優(yōu)化過程,即重點選擇視角一致性高的負樣本與一致性低的正樣本進行優(yōu)化。

        根據(jù)視角一致性將三元組劃分為以下三類。

        ① 視角簡單三元組:ca,n-ca,p<-β,即ca,n比ca,p小足夠多,視角上有助于區(qū)別正負樣本的三元組。

        ② 視角半難三元組:-β

        ③ 視角困難三元組:ca,n-ca,p>0,即負樣本的視角一致性較小,使正負樣本的區(qū)分非常困難。

        其中,ca,p和ca,n分別為錨點a與正樣本p和錨點a與負樣本p之間的視角一致性估計,具體計算方式已在2.2節(jié)介紹。β是視角簡單三元組的ca,p和ca,n之間應(yīng)該留有的視角一致性余量。由式(10)和式(11)可知,視角一致性cp,q∈[0,1],因此三元組根據(jù)視角一致性來篩選的示意圖如圖5所示。

        圖5 視角三元組篩選示意圖

        最終,本文的視角一致性選擇系數(shù)的計算公式為

        CvcT(a,p,n)=max{ca,n-ca,p+β,0}

        (13)

        該系數(shù)過濾掉了視角簡單三元組,使網(wǎng)絡(luò)專注于學(xué)習(xí)視角半難三元組和視角困難三元組的距離度量。此外,視角上越困難,即ca,n-ca,p越大,CvcT(a,p,n)越高,網(wǎng)絡(luò)對其“重視”程度也就越高。

        最終,模型將視角一致性三元組系數(shù)與局部三元組損失相乘,得到局部視角一致性三元組損失:

        (14)

        該損失使網(wǎng)絡(luò)在度量學(xué)習(xí)的過程中加入對視角的考量,其加入系數(shù)前后的作用在表1中得到了體現(xiàn)。

        3 實驗

        3.1 實驗設(shè)置

        3.1.1 數(shù)據(jù)集

        在VeRi776數(shù)據(jù)集上驗證本文的方法。VeRi776是車輛重識別任務(wù)的一個基準數(shù)據(jù)集,包含776輛車的50000張圖像。該數(shù)據(jù)集由20個攝像頭在不同視角下拍攝,每一輛車都有多視角多攝像頭下的豐富圖像樣本。本文的實驗中,訓(xùn)練集和測試集的劃分采用官方設(shè)置,訓(xùn)練集中有576輛車,測試集中有200輛車。

        3.1.2 評價指標

        對于每張查詢圖,模型都能在圖庫中找到k個與之最相似的圖片,從而計算這些k近鄰樣本中是否有與查詢圖身份相同的車輛圖片。采用mAP(Mean Average Precision)準確率和rank-k準確率兩種指標來評估方法的有效性。AP(Average Precision)表示單張查詢圖的平均精度,mAP表示查詢圖集中所有圖片的AP的平均值。rank-k表示k近鄰樣本中包含真值(Ground Truth)的命中率。本文的模型評估采用車輛重識別領(lǐng)域的通用評價指標,即mAP、rank-1、rank-5和rank-10。

        3.1.3 實驗細節(jié)

        本實驗的網(wǎng)絡(luò)框架參照圖3,全局特征提取網(wǎng)絡(luò)采用resnet-50,參數(shù)采用其在ImageNet上預(yù)訓(xùn)練的結(jié)果。區(qū)域分割網(wǎng)絡(luò)采用Unet,參數(shù)與PVEN一致。

        3.2 超參數(shù)調(diào)整

        模型的視角一致性三元組損失需要調(diào)整兩個新的超參數(shù)——視角一致性余量β和局部特征距離的權(quán)重φ。

        3.2.1 視角一致性余量

        由圖5可知,β越大會保留越多有效三元組,越小會過濾掉越多三元組。當(dāng)β≤-1時所有三元組都被過濾掉,損失函數(shù)永遠為0;當(dāng)β>1時所有三元組都被保留,視角一致性感知損失仍然給予視角困難三元組更高權(quán)重,但卻會浪費部分算力在視角簡單三元組上。由此可知,β的恰當(dāng)值應(yīng)在(0,1)區(qū)間。實驗中,本研究選擇了β∈[-0.3,0.8],每隔0.1試驗一次,并在mAP出現(xiàn)峰值對應(yīng)β的±0.05處各增加一次實驗。最終,mAP精度隨β的變化曲線如圖6所示。結(jié)果顯示,β=0.3時訓(xùn)練效果最好,說明在車輛圖像三元組中,00.3時,模型浪費了部分算力在視角簡單三元組上;當(dāng)0<β<0.3時,模型過濾掉了部分視角半難三元組導(dǎo)致模型學(xué)習(xí)不充分。以上兩種情況均導(dǎo)致時間結(jié)果輕微下降。而當(dāng)β<0時,模型不僅過濾掉了全部的視角半難三元組,還過濾掉了部分視角困難三元組,導(dǎo)致訓(xùn)練效果急劇下降。圖6中β<0時mAP急劇下降以及β>0時mAP小幅變化的現(xiàn)象均符合本文的理論預(yù)期。綜合上述結(jié)果,在實驗中β默認設(shè)置為0.3。

        圖6 mAP隨β的變化曲線

        不同的數(shù)據(jù)集和實驗設(shè)置下mAP出現(xiàn)峰值所對應(yīng)的β值可能會有小幅平移,但在新數(shù)據(jù)集下不經(jīng)過調(diào)參直接將β值設(shè)為0.3仍能獲得極大的效果提升,綜合圖6與表1結(jié)果來看,0<β<0.8范圍內(nèi)的實驗效果均好于常用的批次困難三元組損失和批次全三元組損失,可見本文提出的視覺一致性三元組策略具有有效性,即使在非最優(yōu)β下,仍然能取得不錯的訓(xùn)練效果。

        3.2.2 局部特征距離的權(quán)重

        由式(3)可知,φ越大識別結(jié)果越依賴于局部特征,φ越小識別結(jié)果越依賴于全局特征。當(dāng)φ=0時,局部特征距離即最終用于排序的相似度。因此,本研究選擇φ∈[0,1],每隔0.1測試一次,結(jié)果如圖7所示。實驗結(jié)果顯示,φ=0.5時模型的識別效果最好。因此,本文在后續(xù)實驗中均采用φ=0.5的參數(shù)設(shè)置。

        圖7 mAP隨φ的變化曲線

        3.3 消融實驗

        為了證明本文設(shè)計的視角一致性三元組損失(View Consistency Triplet Loss,VCT Loss)的有效性,采用本文方法與經(jīng)典三元組損失進行了對比實驗。

        對比損失包括重識別任務(wù)中最常見的批次全三元組損失和批次困難三元組損失。需要注意的是,局部分支采用批次困難三元組損失就相當(dāng)于PVEN方法,采用批次全三元組損失相當(dāng)于本文的視角一致性三元組損失取消視角一致性三元組系數(shù)。實驗結(jié)果如表1所示。

        表1 消融實驗結(jié)果

        表1顯示,局部分支用本文的損失函數(shù)后4個指標均高于用批次全三元組損失和批次困難三元組損失。批次全三元組損失根據(jù)距離篩選困難和半難三元組,批次困難三元組損失根據(jù)距離篩選最困難的三元組。本文的方法在批次全三元組損失的基礎(chǔ)上加入根據(jù)視角篩選三元組的系數(shù),保留的三元組數(shù)量在以上兩者之間,但是訓(xùn)練出的模型表現(xiàn)比以上兩者都好,由此證明了根據(jù)視角篩選三元組這一策略的有效性。

        本文的方法在mAP和rank-5、rank-10指標上的提高幅度尤其大。mAP比批次全三元組損失高2.0,比批次困難三元組損失高1.8。rank-5比批次全三元組損失高0.48,比批次困難三元組損失高0.72。rank-10比批次困難三元組損失高0.57。這說明本文的損失不僅表現(xiàn)穩(wěn)定,而且在多視角挑戰(zhàn)下表現(xiàn)尤其優(yōu)異,因為k=1時通常只能召回同視角樣本,k較大時才需要召回異視角樣本。本實驗結(jié)果表明,在k較大時,rank-k指標的相對漲幅更大,這進一步印證了本文方法在多視角情況下的優(yōu)越性。

        3.4 與前沿方法比較

        將本文的方法與車輛重識別前沿方法進行對比,其結(jié)果如表2所示。在表2中,除了PVEN方法和所提出的PVEN+VCT方法外,其余方法的實驗結(jié)果均來自文獻[7]。本文對PVEN進行了復(fù)現(xiàn),結(jié)果與文獻[7]中一致。

        由表2可知,在眾多車輛重識別方法中,PRN[6]、PVEN[7]明顯表現(xiàn)更優(yōu),這主要得益于它們對關(guān)鍵區(qū)域的學(xué)習(xí)。此外,由于PVEN從4個視角分別提取局部信息,覆蓋了車輛的全部區(qū)域,因此取得了比PRN更好的性能。然而,PVEN僅僅關(guān)注了單區(qū)域局部特征的對齊與增強,對于視角多樣性考慮得不夠全面,而車輛整體的視角問題也是十分重要的。VANet[5]針對角度多樣性挑戰(zhàn)提出了基于角度分類的視角感知損失,盡管該網(wǎng)絡(luò)只預(yù)測了前后兩個角度,限制了模型的表現(xiàn)性能,但是其在度量學(xué)習(xí)中加入對視角考量的思路使筆者受到了啟發(fā)。實驗結(jié)果顯示,本文的方法相比于PVEN和VANet均取得了較大提升,這是因為視角感知一致性損失能對兩張圖片中車輛的角度一致性進行預(yù)測,從而引導(dǎo)模型學(xué)到更具辨別性的特征。由此,本實驗證明了所提出方法的優(yōu)越性。

        4 結(jié)束語

        本文針對車輛重識別任務(wù),為了解決視角多樣性帶來的影響,引入了視角一致性的概念并設(shè)計了視角一致性三元組損失函數(shù)。它能引導(dǎo)模型學(xué)習(xí)到更具辨別性的特征,從而提升所提出的方法在車輛重識別任務(wù)上的表現(xiàn)性能。在VeRi776車輛重識別數(shù)據(jù)集上,通過實驗證明了所提出的方法的有效性和優(yōu)越性,特別是在多視角場景下獲得了較大的效果提升。

        猜你喜歡
        三元組一致性損失
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
        關(guān)注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        少問一句,損失千金
        注重教、學(xué)、評一致性 提高一輪復(fù)習(xí)效率
        IOl-master 700和Pentacam測量Kappa角一致性分析
        胖胖損失了多少元
        關(guān)于余撓三元組的periodic-模
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        基于事件觸發(fā)的多智能體輸入飽和一致性控制
        精品少妇一区二区三区入口| 澳门精品无码一区二区三区| 精品日韩欧美| 中文字幕成人精品久久不卡91 | 欧美噜噜久久久xxx| 黑人玩弄漂亮少妇高潮大叫| 久久国产免费观看精品| 成人av一区二区亚洲精| 亚洲精品无码不卡| 欧美人与动牲猛交xxxxbbbb | 97色综合| h视频在线免费观看视频| 国产精品毛片va一区二区三区| 色婷婷综合中文久久一本| 国产一精品一aⅴ一免费| 精品成人av人一区二区三区| 日本大乳高潮视频在线观看| 成人免费ā片在线观看| 亚洲一区二区成人在线视频| 精品国产一区二区三区av麻 | 免费无码黄网站在线观看| 亚洲中文字幕乱码一二三| 和黑人邻居中文字幕在线| 亚洲精品免费专区| 久久精品国产亚洲av热九| 三级黄色片免费久久久| 777午夜精品免费观看| 精品国产亚洲一区二区三区演员表| 国产一区精品二区三区四区| 色偷偷888欧美精品久久久 | 中国黄色偷拍视频二区| 国产在线精品一区二区三区| 丰满少妇愉情中文字幕18禁片| 97久久成人国产精品免费| 国产精品一区av在线| 亚洲一区 日韩精品 中文字幕| 欧美色色视频| 看一区二区日本视频免费| 色偷偷亚洲第一成人综合网址| 五月婷一本到五月天| 日本高清一区二区三区在线|