亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無監(jiān)督學(xué)習(xí)的車輛重識(shí)別方法研究綜述

        2023-05-08 11:30:26徐巖郭曉燕榮磊磊
        計(jì)算機(jī)與生活 2023年5期
        關(guān)鍵詞:監(jiān)督特征方法

        徐巖,郭曉燕,榮磊磊,2

        1.山東科技大學(xué) 電子信息工程學(xué)院,山東 青島266590

        2.盛瑞傳動(dòng)股份有限公司,山東 濰坊261000

        車輛重識(shí)別(re-identification,Re-ID)的任務(wù)是根據(jù)給定的目標(biāo)車輛圖像,實(shí)現(xiàn)在車輛數(shù)據(jù)庫中快速精確匹配到相同身份(identity,ID)的車輛圖像,故可以看作是圖像檢索的子問題。近年來,隨著智能交通監(jiān)控設(shè)備的快速發(fā)展,大量攝像頭部署在公路、十字路口等區(qū)域,這些攝像頭產(chǎn)生的圖像反映出的車輛類內(nèi)特征以及類間特征,常用于車輛檢測(cè)與識(shí)別[1-2]、車輛細(xì)粒度分類[3-4]、車輛跟蹤[5-6]等領(lǐng)域。早期車輛重識(shí)別工作主要是對(duì)車牌進(jìn)行識(shí)別[7-9],但在實(shí)際的外界環(huán)境下,由于光照、天氣、視角以及遮擋等因素的影響,使得車牌識(shí)別的難度提升。

        自20世紀(jì)90年代至21世紀(jì)初期,常用于車輛重識(shí)別的方法為基于傳感器的方法,如Kwong 等人[10]提出了利用無線磁傳感器進(jìn)行路口車輛行駛時(shí)間以及高速公路兩個(gè)位置之間車輛數(shù)目的預(yù)測(cè);Prinsloo等人[11]設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)將全球定位系統(tǒng)(global positioning system,GPS)、射頻識(shí)別技術(shù)和全球移動(dòng)通信系統(tǒng)技術(shù)相結(jié)合的精確車輛定位系統(tǒng)。之后,一些基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法被提出,如利用三維(3D)建模來提取多個(gè)視角下的車輛特征[12],利用尺度不變特征變換(scale-invariant feature transform,SIFT)算子[13-14]正確提取車輛的局部外觀,采用線性回歸方法的顏色直方圖和方向梯度直方圖進(jìn)行車輛重識(shí)別[15]以及用于處理圖像紋理的局部二進(jìn)制模式[16-17]。由于傳感器成本較高,易受環(huán)境、天氣等因素的干擾,而基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法只對(duì)特定場(chǎng)景、圖像有效,泛化能力較差,故這些方法在實(shí)際應(yīng)用中不是首選。近年來,在深度學(xué)習(xí)技術(shù)的推動(dòng)下,一些基于深度學(xué)習(xí)的車輛重識(shí)別方法相繼被提出。如一些研究者為提取車輛更具細(xì)微差別和魯棒性的特征信息而引入局部特征學(xué)習(xí)[18-21];還有一些研究者通過訓(xùn)練大量的數(shù)據(jù)來獲得數(shù)據(jù)的有效表示進(jìn)行表示學(xué)習(xí),從而在構(gòu)建分類器或其他預(yù)測(cè)器時(shí)更容易提取有用的信息[22-26];或者使用注意力機(jī)制關(guān)注車輛具有重要信息的部分,有效地消除背景等其他干擾[27-31];以及通過設(shè)計(jì)合適的損失函數(shù)來優(yōu)化網(wǎng)絡(luò)訓(xùn)練的度量學(xué)習(xí)[32-37]。

        雖然現(xiàn)有的方法在車輛重識(shí)別工作中有了突破進(jìn)展,但在實(shí)際場(chǎng)景中仍然存在諸多的挑戰(zhàn)。一方面,不同的車輛數(shù)據(jù)集之間存在域間差異,即對(duì)某個(gè)數(shù)據(jù)集的圖像訓(xùn)練得到重識(shí)別模型后,在無調(diào)整的情況下,直接用于測(cè)試另一個(gè)不同的數(shù)據(jù)集,其性能和準(zhǔn)確率往往會(huì)降低,泛化能力表現(xiàn)弱。并且在同一數(shù)據(jù)集中不同攝像頭拍攝的車輛視角、遠(yuǎn)近、照明及分辨率的變化也會(huì)導(dǎo)致圖像風(fēng)格的差異,不同車輛可能表現(xiàn)出類似的外觀,即類間差異?。幌嗤能囕v在不同攝像頭中可能表現(xiàn)出不同的外觀,即類內(nèi)差異大,這使得判別性特征難以提取。另一方面,實(shí)際監(jiān)控場(chǎng)景中更多的是缺少標(biāo)簽的車輛圖像,采用人力標(biāo)注則耗時(shí)耗力。

        為解決上述問題,車輛重識(shí)別多是采用監(jiān)督學(xué)習(xí)的方法,盡管該方法借助人工標(biāo)注的車輛標(biāo)簽獲得較高的重識(shí)別精度,但是面對(duì)車輛數(shù)據(jù)龐大的真實(shí)場(chǎng)景,不僅人工標(biāo)注數(shù)據(jù)的成本會(huì)不斷增加,而且模型的魯棒性與泛化能力也會(huì)大幅下降,因此,適合于真實(shí)場(chǎng)景的無監(jiān)督學(xué)習(xí)車輛重識(shí)別研究十分重要。該研究的主要思路包括利用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)來實(shí)現(xiàn)不同數(shù)據(jù)集之間風(fēng)格的轉(zhuǎn)換、多個(gè)視角的生成等;或采用聚類算法為樣本生成偽標(biāo)簽,然后將帶有偽標(biāo)簽的數(shù)據(jù)輸入到改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)中進(jìn)行訓(xùn)練;或利用外部存儲(chǔ)結(jié)構(gòu)對(duì)目標(biāo)域的圖像特征進(jìn)行存儲(chǔ)更新,獲得更全面的圖像特征。目前國內(nèi)外關(guān)于無監(jiān)督學(xué)習(xí)的車輛重識(shí)別研究工作相對(duì)較少,并且缺乏與之相關(guān)的綜述文獻(xiàn)。因此,本文聚焦于無監(jiān)督學(xué)習(xí)方法在車輛重識(shí)別中的研究進(jìn)展。

        1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        1.1 數(shù)據(jù)集介紹

        近年來,車輛重識(shí)別研究人員相繼收集了多種車輛數(shù)據(jù)集來進(jìn)行課題的研究,這些數(shù)據(jù)集在規(guī)模大小、圖像來源、標(biāo)注信息等方面有很大的不同。本節(jié)選取了目前車輛重識(shí)別領(lǐng)域關(guān)注度較高的數(shù)據(jù)集進(jìn)行介紹。

        (1)VeRi-776 數(shù)據(jù)集[38]是由北京郵電大學(xué)收集、標(biāo)注并發(fā)布的一個(gè)公共車輛數(shù)據(jù)集。該數(shù)據(jù)集是在VeRi數(shù)據(jù)集[14]的基礎(chǔ)上進(jìn)行補(bǔ)充的,包含51 035張關(guān)于776 輛車的圖像,且標(biāo)注信息增加了對(duì)車牌、地理位置、時(shí)間戳以及相鄰相機(jī)之間距離的標(biāo)注。

        (2)VehicleID 數(shù)據(jù)集[32]是由北京大學(xué)數(shù)字媒體研究所制作,包括221 763 張關(guān)于26 267 輛車的圖像,每個(gè)圖像中的車輛只有正面或背面兩種視角,并且每張圖像標(biāo)注有車輛ID、攝像頭編號(hào)以及車輛型號(hào)的詳細(xì)信息。

        (3)PKU-VD 數(shù)據(jù)集[39]是由北京大學(xué)數(shù)字視頻編解碼技術(shù)國家工程實(shí)驗(yàn)室所構(gòu)建,包含VD1(共1 097 649張)和VD2(共807 260張)兩個(gè)大規(guī)模數(shù)據(jù)集。其中VD1 包含1 232 種車型,共11 種顏色,VD2包含1 112種車型,共11種顏色。兩個(gè)數(shù)據(jù)集中的每張圖像均提供了不同的屬性注釋,包括車輛ID、模型和顏色。

        (4)Vehicle-1M數(shù)據(jù)集[40]是由中國科學(xué)院自動(dòng)化研究所構(gòu)建的目前規(guī)模最大的車輛重識(shí)別數(shù)據(jù)集,包含55 527輛車、400種車型的936 051張圖像,每張圖像中的車輛都標(biāo)注了廠商、車輛型號(hào)和發(fā)售年份。

        (5)VRIC數(shù)據(jù)集[41]是較之前的車輛數(shù)據(jù)集表現(xiàn)更為真實(shí)的車輛重識(shí)別數(shù)據(jù)集,包含60 個(gè)不同的攝像頭在晝夜不同的道路交通場(chǎng)景中拍攝的60 430張關(guān)于5 622輛汽車的圖像。較VeRi-776[38],VRIC中的車輛圖像在分辨率、運(yùn)動(dòng)模糊、光照、遮擋和視點(diǎn)方面具有更真實(shí)和不受約束變化的特點(diǎn)。

        (6)VERI-Wild數(shù)據(jù)集[42]是目前真實(shí)場(chǎng)景中最具挑戰(zhàn)性的數(shù)據(jù)集,通過一個(gè)大型CCTV 系統(tǒng)所捕獲,包含174 個(gè)監(jiān)控?cái)z像頭、覆蓋200 多平方公里的城區(qū)。該數(shù)據(jù)集包含416 314 張關(guān)于40 671 輛車的圖像,將277 797 張圖像(共30 671 輛車)用作訓(xùn)練集,138 517 張圖像(共10 000 輛車)用作測(cè)試集,同時(shí)也提供了豐富的上下文信息,如攝像頭ID、時(shí)間戳和攝像頭之間的跟蹤關(guān)系。

        (7)CityFlow數(shù)據(jù)集[43]是由英偉達(dá)提出的跨攝像頭汽車跟蹤及重識(shí)別的大型數(shù)據(jù)集,包含來自10 個(gè)路口、40 個(gè)攝像頭收集到的超過3 h 的同步高清視頻,且兩個(gè)攝像頭之間的最長(zhǎng)距離為2.5 km。該數(shù)據(jù)集共有666 個(gè)車輛ID 的56 277 個(gè)邊界框,通常一半用于訓(xùn)練,其余則用于測(cè)試。

        (8)VehicleX數(shù)據(jù)集[44]是由澳大利亞國立大學(xué)和英偉達(dá)所構(gòu)建的目前最大的3D合成數(shù)據(jù)集,包含具有完全可編輯屬性(如顏色和類型)、1 362個(gè)車輛ID和10種主流車輛類型。由于車輛身份是不同的3D模型,在不同的環(huán)境和相機(jī)設(shè)置下呈現(xiàn)無限數(shù)量的圖像。

        圖1為上述8個(gè)數(shù)據(jù)集的部分圖像展示。表1從數(shù)據(jù)集的圖像數(shù)、車輛數(shù)、類型數(shù)、圖像來源以及應(yīng)用場(chǎng)景等方面進(jìn)行總結(jié)和比較??梢钥闯觯S著對(duì)車輛數(shù)據(jù)集的要求逐漸提高,數(shù)據(jù)集包含的圖像數(shù)和車輛數(shù)也在不斷增加,并且開始采用圖形引擎來合成更豐富的虛擬圖像,使車輛數(shù)據(jù)集越來越符合真實(shí)環(huán)境。另外,本文基于無監(jiān)督學(xué)習(xí)的車輛重識(shí)別方法大多數(shù)是在VeRi-776和VehicleID數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

        表1 車輛重識(shí)別數(shù)據(jù)集Table 1 Vehicle re-identification datasets

        圖1 車輛重識(shí)別數(shù)據(jù)集的部分圖像展示Fig.1 Partial image presentation of vehicle re-identification datasets

        1.2 評(píng)價(jià)指標(biāo)介紹

        車輛重識(shí)別方法常采用平均準(zhǔn)確率均值(mean average precision,mAP)、Rank-n以及累積匹配特征(cumulative match characteristic,CMC)曲線對(duì)結(jié)果進(jìn)行評(píng)價(jià)。

        (1)mAP

        mAP 用于評(píng)估重識(shí)別方法的總體性能,表示所有檢索結(jié)果準(zhǔn)確率的平均值[45]。首先對(duì)每個(gè)查詢集圖像的檢索結(jié)果計(jì)算召回率和查準(zhǔn)率,然后根據(jù)查準(zhǔn)率進(jìn)一步計(jì)算出平均準(zhǔn)確率(average precision,AP),最后對(duì)所有的查詢圖像的平均準(zhǔn)確率取平均即可得到mAP,計(jì)算公式分別如下:

        其中,AP(q)表示第q輛車的平均準(zhǔn)確率;Q*表示與查詢車輛有相同身份的車輛數(shù)目;n表示測(cè)試集中車輛圖像的數(shù)目;Q表示查詢集中車輛圖像的數(shù)目;P(k)代表第k個(gè)檢索結(jié)果的準(zhǔn)確率;gt(k)是一個(gè)布爾函數(shù),當(dāng)?shù)趉個(gè)檢索結(jié)果與查詢車輛身份相同時(shí),gt(k)取值為1,反之取值為0。

        (2)Rank-n

        Rank-n表示檢索結(jié)果中前n張圖像存在正確匹配結(jié)果的概率。例如常用的Rank-1、Rank-5及Rank-20分別表示檢索結(jié)果中前1張、前5張及前20張正確匹配到目標(biāo)圖像的概率。

        (3)CMC曲線

        由Rank-1 到Rank-n繪制成的曲線即為CMC 曲線,通過曲線走向可以直觀地反映出不同檢索結(jié)果準(zhǔn)確率的分布情況,其計(jì)算公式如下。

        其中,在檢索結(jié)果前n位中存在與第q張車輛圖像相同時(shí),gt(q,n)為1。

        以上三種評(píng)價(jià)指標(biāo)中,mAP 和Rank-n被使用的頻率最高,為了盡可能多地比較各種方法,本文選取這兩種指標(biāo)進(jìn)行性能比較。

        2 基于無監(jiān)督學(xué)習(xí)的車輛重識(shí)別方法分類

        根據(jù)是否需要車輛身份標(biāo)簽,將車輛重識(shí)別方法劃分為監(jiān)督學(xué)習(xí)的方法和無監(jiān)督學(xué)習(xí)的方法。監(jiān)督學(xué)習(xí)下的車輛重識(shí)別方法特點(diǎn)包括:(1)訓(xùn)練集和測(cè)試集來自同一個(gè)車輛數(shù)據(jù)集;(2)車輛身份標(biāo)簽已知;(3)在單域(同一個(gè)數(shù)據(jù)集)下模型識(shí)別準(zhǔn)確率較高,而在跨域(兩個(gè)不同數(shù)據(jù)集)下模型識(shí)別準(zhǔn)確率較低。與之相對(duì)應(yīng),無監(jiān)督學(xué)習(xí)下的車輛重識(shí)別方法特點(diǎn)包括:(1)訓(xùn)練集和測(cè)試集源自不同的車輛數(shù)據(jù)集;(2)車輛身份標(biāo)簽未知;(3)在保持單域識(shí)別準(zhǔn)確率的前提下,跨域下的識(shí)別準(zhǔn)確率也有所提升。然而當(dāng)車輛重識(shí)別技術(shù)在真正投入到智能交通系統(tǒng)時(shí),數(shù)據(jù)集中的車輛多數(shù)情形下是沒有標(biāo)簽的。

        近十幾年來,大多數(shù)處理重識(shí)別問題的方法均采用監(jiān)督學(xué)習(xí),這在實(shí)際落地應(yīng)用場(chǎng)景中會(huì)影響模型的泛化能力,故無監(jiān)督學(xué)習(xí)逐漸引起研究人員的廣泛關(guān)注。在沒有預(yù)先標(biāo)記數(shù)據(jù)集的情況下學(xué)習(xí)車輛的判別特征表示是無監(jiān)督學(xué)習(xí)車輛重識(shí)別的重要挑戰(zhàn)之一。當(dāng)前,無監(jiān)督學(xué)習(xí)可以直接從沒有預(yù)先標(biāo)記或“偽標(biāo)簽”標(biāo)記的輸入數(shù)據(jù)中學(xué)習(xí)特征信息,并且已經(jīng)有效地應(yīng)用于比較成熟的行人重識(shí)別任務(wù)中。如Wang 等人[46]提出了一種可轉(zhuǎn)移的聯(lián)合屬性-身份學(xué)習(xí)的方法,在源域中同時(shí)學(xué)習(xí)語義和屬性并轉(zhuǎn)移到目標(biāo)域以實(shí)現(xiàn)無監(jiān)督學(xué)習(xí)。Ding 等人[47]研究了一種無監(jiān)督行人身份識(shí)別的自適應(yīng)探索方法,通過考慮目標(biāo)圖像之間的特征距離來探索未標(biāo)記的目標(biāo)域。同樣地,與行人重識(shí)別類似,一些研究人員也將無監(jiān)督學(xué)習(xí)的方法應(yīng)用于車輛重識(shí)別任務(wù)中。

        生成對(duì)抗網(wǎng)絡(luò)和聚類算法是目前兩種常用的無監(jiān)督學(xué)習(xí)方法,本文以此為切入口,將無監(jiān)督學(xué)習(xí)的車輛重識(shí)別方法歸納為基于生成對(duì)抗網(wǎng)絡(luò)[48-59]和基于聚類算法[60-68]兩大類。以解決問題為著手點(diǎn),對(duì)生成對(duì)抗網(wǎng)絡(luò)的方法進(jìn)行細(xì)分,即基于風(fēng)格轉(zhuǎn)換的方法[48-51]來減小域偏差,基于多視角生成的方法[52-55]來緩解跨視域偏差,以及基于數(shù)據(jù)增強(qiáng)的方法[56-59]來解決數(shù)據(jù)樣本信息不足三類;同時(shí)針對(duì)標(biāo)簽問題,將聚類算法分為偽標(biāo)簽的無監(jiān)督域適應(yīng)方法[60-65]和無需標(biāo)簽信息的方法[66-68]兩類。表2分析了上述方法的機(jī)制、優(yōu)勢(shì)、局限性以及適用場(chǎng)景。

        表2 不同無監(jiān)督學(xué)習(xí)的車輛重識(shí)別方法比較Table 2 Comparison of different unsupervised learning methods for vehicle re-identification

        2.1 基于生成對(duì)抗網(wǎng)絡(luò)的車輛重識(shí)別方法

        生成對(duì)抗網(wǎng)絡(luò)是一種新興的無監(jiān)督學(xué)習(xí)技術(shù),已在眾多領(lǐng)域得到應(yīng)用[69-70]。2014年,Goodfellow 等人[71]提出生成對(duì)抗網(wǎng)絡(luò),其基本框架如圖2所示。首先將潛在的變量輸入到生成器中以生成近似現(xiàn)實(shí)場(chǎng)景的圖像樣本,再利用鑒別器來鑒別是生成樣本還是原始樣本。這樣,兩者以競(jìng)爭(zhēng)的方式學(xué)習(xí),隨著迭代次數(shù)的不斷增加,在理想的條件下會(huì)達(dá)到動(dòng)態(tài)平衡。

        圖2 GAN基本框架Fig.2 GAN basic framework

        伴隨著生成對(duì)抗網(wǎng)絡(luò)在圖像生成、圖像融合等眾多視覺任務(wù)上的廣泛應(yīng)用,衍生出了很多不同的擴(kuò)展網(wǎng)絡(luò),如DCGAN(deep convolution GAN)[72]、InfoGAN(information maximizing GAN)[73]、AC-GAN(auxiliary classifier GAN)[74]、CGAN(condition GAN)[75]、AugCGAN(augmented CycleGAN)[76]和DFPGAN(dual fusion path GAN)[77],以便研究更優(yōu)的方法框架。本節(jié)將介紹基于生成對(duì)抗網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)車輛重識(shí)別方法。

        2.1.1 基于風(fēng)格轉(zhuǎn)換的方法

        通常,兩個(gè)域(即數(shù)據(jù)集)具有不同的數(shù)據(jù)分布,則被稱為域偏差。如圖3所示,VeRi-776數(shù)據(jù)集中的圖像具有多視角、亮度明亮、背景復(fù)雜、低分辨率的特點(diǎn)。而VehicleID 數(shù)據(jù)集中只有前、后兩個(gè)角度的圖像,并且亮度整體較暗,背景簡(jiǎn)單,分辨率較高。當(dāng)對(duì)這兩個(gè)不同的數(shù)據(jù)集分別進(jìn)行訓(xùn)練和測(cè)試后,其mAP與在同一個(gè)車輛數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試相比會(huì)嚴(yán)重下降,從而使模型的泛化能力較差,故平滑域偏差、實(shí)現(xiàn)無監(jiān)督域適應(yīng)(unsupervised domain adaptation,UDA)是提高車輛重識(shí)別模型泛化能力的關(guān)鍵環(huán)節(jié)。傳統(tǒng)采用監(jiān)督的方式來學(xué)習(xí)對(duì)齊圖像對(duì)之間的映射,實(shí)現(xiàn)圖像到圖像的轉(zhuǎn)換,以降低像素級(jí)的域差異,但該方法存在需要對(duì)圖像進(jìn)行大量標(biāo)注的局限性。

        圖3 數(shù)據(jù)集偏差Fig.3 Dataset deviation

        因此,目前解決此類問題常用的思路是采用生成對(duì)抗網(wǎng)絡(luò)來實(shí)現(xiàn)不同圖像之間的風(fēng)格轉(zhuǎn)換以減少域偏差。早在行人重識(shí)別領(lǐng)域就已經(jīng)提出許多基于GAN的風(fēng)格轉(zhuǎn)換方法。如循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)(CycleGAN)[78]和DualGAN[79]不需要配對(duì)的數(shù)據(jù)集就可以實(shí)現(xiàn)源域圖像和目標(biāo)域圖像的相互轉(zhuǎn)換;Wei等人[80]提出了PTGAN(person transfer GAN),該網(wǎng)絡(luò)可以生成高質(zhì)量的行人圖像,不僅保留了行人身份,還有效地轉(zhuǎn)換了背景風(fēng)格,從而實(shí)現(xiàn)圖像遷移;SPGAN(similarity preserving GAN)[81]也是為提升域泛化能力設(shè)計(jì)的一種方法,由孿生網(wǎng)絡(luò)(Siamese network)和CycleGAN 組成,保持自相似性和域相異性,并且在訓(xùn)練過程中不需要任何額外的標(biāo)簽。

        受此啟發(fā),在車輛重識(shí)別任務(wù)中,通常也有兩種類型的車輛圖像用于無監(jiān)督域適應(yīng)的車輛Re-ID 任務(wù),即源域的標(biāo)記圖像和目標(biāo)域的未標(biāo)記圖像。然而將標(biāo)記圖像直接應(yīng)用于目標(biāo)域可能會(huì)由于域偏差導(dǎo)致性能的下降;另外,對(duì)于目標(biāo)域而言,監(jiān)督的學(xué)習(xí)方式受到未標(biāo)記樣本的限制,不能用于訓(xùn)練Re-ID模型。因此,Peng等人[48]提出了基于雙分支對(duì)抗網(wǎng)絡(luò)的域適應(yīng)車輛重識(shí)別框架(domain adaptation framework for vehicle Re-ID,DAVR),包含用于生成圖像的雙分支對(duì)抗網(wǎng)絡(luò)(dual-branch adversarial network,DAN)和用于訓(xùn)練Re-ID模型的特征學(xué)習(xí)網(wǎng)絡(luò)。如圖4 所示[48],DAN 包括兩個(gè)生成器G、F和相對(duì)應(yīng)的鑒別器DS、DT,每個(gè)生成器由內(nèi)容編碼器、風(fēng)格編碼器和解碼器三個(gè)組件組成。在該實(shí)驗(yàn)中,生成器G用于VeRi-776 數(shù)據(jù)集(源域)到VehicleID 數(shù)據(jù)集(目標(biāo)域)的轉(zhuǎn)換,生成器F用于VehicleID數(shù)據(jù)集(源域)到VeRi-776 數(shù)據(jù)集(目標(biāo)域)的轉(zhuǎn)換,最終生成具有目標(biāo)域圖像風(fēng)格并保留源域圖像身份信息的車輛圖像,再將其輸入到基于注意力機(jī)制的特征學(xué)習(xí)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。與不經(jīng)過風(fēng)格轉(zhuǎn)換直接在目標(biāo)域圖像中進(jìn)行測(cè)試相比,該方法的域適應(yīng)能力明顯提升。

        圖4 DAN工作流程圖Fig.4 DAN workflow diagram

        為了充分利用源域標(biāo)記的數(shù)據(jù)信息,Peng 和Wang 等人進(jìn)一步提出漸進(jìn)式自適應(yīng)學(xué)習(xí)(progressive adaptation learning,PAL)方法[49]和基于多尺度融合網(wǎng)絡(luò)的漸進(jìn)式學(xué)習(xí)(progressive learning with multiscale fusion network,PLM)方法[50]。兩種方法均采用基于CycleGAN 的數(shù)據(jù)適應(yīng)模塊來生成“偽目標(biāo)樣本”,從而通過轉(zhuǎn)移源域和目標(biāo)域之間的風(fēng)格來減少域偏差;兩種方法的區(qū)別在于PLM 添加了一個(gè)多尺度注意力網(wǎng)絡(luò)來學(xué)習(xí)未知域的不同特征,包括底層的紋理特征和高層的語義特征。

        在現(xiàn)實(shí)場(chǎng)景中,相同車輛通常被不同的監(jiān)控?cái)z像頭在不同的照明條件下捕獲,因此在包括白天和夜間兩個(gè)具有不同視覺差異的域內(nèi)識(shí)別相同ID的車輛是具有挑戰(zhàn)性的。為解決這種跨域問題,Zhou等人[51]提出了一種GAN-Siamese網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)首先采用域鑒別器來確定輸入車輛圖像的域(白天域或夜間域)并給定標(biāo)簽,然后利用域轉(zhuǎn)換器將每幅圖像的域轉(zhuǎn)移到另一幅圖像上,從而得到同一域內(nèi)的兩對(duì)圖像,最后分別從這兩個(gè)域的圖像中學(xué)習(xí)并融合距離度量以測(cè)量最終相似度,實(shí)現(xiàn)精確的車輛重識(shí)別。

        總之,將標(biāo)記數(shù)據(jù)集(源域)的有用特征信息轉(zhuǎn)移到另一個(gè)未標(biāo)記數(shù)據(jù)集(目標(biāo)域)上,以完成兩個(gè)不同域的數(shù)據(jù)特征映射到同一個(gè)特征空間中是實(shí)現(xiàn)無監(jiān)督域適應(yīng)的一個(gè)重要思路。在域適應(yīng)的干預(yù)下,無監(jiān)督的車輛Re-ID模型可以獲得從標(biāo)記的源域轉(zhuǎn)移得到的鑒別性信息,通過對(duì)這些信息的有效學(xué)習(xí)來減小域偏差,提高模型的泛化能力。但實(shí)際上,訓(xùn)練重識(shí)別模型使用的圖像與真正目標(biāo)域的圖像還有一定的差距,因此與監(jiān)督學(xué)習(xí)的車輛重識(shí)別相比,此類方法準(zhǔn)確率還較低。另外,有研究者還結(jié)合現(xiàn)實(shí)場(chǎng)景中車輛的特點(diǎn),利用鑒別器和轉(zhuǎn)換器進(jìn)行不同場(chǎng)景下圖像的轉(zhuǎn)換,以實(shí)現(xiàn)跨域重識(shí)別。

        2.1.2 基于多視角生成的方法

        在實(shí)際的交通監(jiān)控系統(tǒng)中,視角問題也是關(guān)注的重點(diǎn)。車輛重識(shí)別任務(wù)旨在“不重疊”的攝像頭網(wǎng)絡(luò)中捕獲車輛圖像,即整個(gè)數(shù)據(jù)集中的每輛車至少被兩個(gè)攝像頭所捕獲。因此,如圖5 所示,不同位置的監(jiān)控?cái)z像頭拍攝視角不同,會(huì)導(dǎo)致同一車輛的外觀表現(xiàn)出很大的差異,并且根據(jù)單個(gè)視角特征難以區(qū)分同類型車輛之間的微妙差異。解決這一問題的途徑主要是借助額外的視角信息,如針對(duì)某個(gè)視角下的車輛信息或?qū)④囕v部件作為關(guān)鍵點(diǎn),以推斷和預(yù)測(cè)出其他視角下的車輛信息,從而減小因視角變化所引起的偏差對(duì)重識(shí)別任務(wù)的影響。

        圖5 視角偏差Fig.5 Viewpoint deviation

        早在文獻(xiàn)[52]中,一種跨視角生成對(duì)抗網(wǎng)絡(luò)(cross-view generative adversarial network,XVGAN)被提出,用于學(xué)習(xí)具有無重疊視角的攝像頭拍攝的車輛圖像特征,利用原始特征推斷出跨視角圖像,再結(jié)合兩者的特征以學(xué)習(xí)重識(shí)別的距離度量,但該方法準(zhǔn)確率較低。之后,Zhou等人[53]研究了視角感知的注意力多視角推理(viewpoint-aware attentive multiview inference,VAMI)模型。該模型首先學(xué)習(xí)輸入圖像的單視角特征,然后根據(jù)單視角特征推斷出一個(gè)包含5 類視角信息的多視角特征用于訓(xùn)練。由于生成器輸入的是多種視角的外觀信息和局部顯著信息,在推斷其他視角的外觀時(shí)更具有魯棒性。

        同樣地,Zhang 等人[54]提出了基于多視角圖像生成的車輛重識(shí)別方法,其特點(diǎn)不僅可以推斷出多視角車輛表示,還可以從原始圖像中學(xué)習(xí)Re-ID的距離度量。首先利用多視角生成對(duì)抗網(wǎng)絡(luò)(multi-view generative adversarial network,MV-GAN)為每個(gè)輸入圖像(單視角)生成前、后、左、右8個(gè)不同視角的車輛圖像;再利用兩個(gè)特征提取網(wǎng)絡(luò)分別提取一張?jiān)紙D像的特征和8個(gè)生成圖像的特征;接著將所有的特征融合成一個(gè)全局特征以包含所有視角的車輛信息。其中MV-GAN可以在保留輸入特征的基礎(chǔ)上由單個(gè)視角生成具有多視角的車輛圖像,如圖6所示[54],采用8 個(gè)帶有12 個(gè)突出關(guān)鍵點(diǎn)的目標(biāo)骨架視圖,輸入視圖的車輛特征和隨機(jī)向量作為輸入,并合成同一輸入車輛和其他攝像頭下的特定視圖。在該方案中,MV-GAN 可以生成紋理清晰、趨近真實(shí)的8 種視角車輛圖像,并且通過與先進(jìn)的算法進(jìn)行實(shí)驗(yàn)比較,進(jìn)一步展示出多視角圖像生成在車輛Re-ID 方面的優(yōu)越性。

        圖6 MV-GAN結(jié)構(gòu)圖Fig.6 MV-GAN structure diagram

        但是,利用GAN 通過對(duì)抗性訓(xùn)練生成多視角圖像以補(bǔ)充訓(xùn)練數(shù)據(jù)時(shí),該生成網(wǎng)絡(luò)會(huì)引入噪聲并對(duì)生成樣本有一定的影響。為了解決這個(gè)問題,Wang等人[55]設(shè)計(jì)了具有跨視角距離度量的視點(diǎn)自適應(yīng)網(wǎng)絡(luò)(viewpoint adaptation network,VANet),其框圖如圖7所示。該網(wǎng)絡(luò)由兩個(gè)模塊組成:一個(gè)是視點(diǎn)自適應(yīng)學(xué)習(xí),主要關(guān)注車輛在多個(gè)視圖中的細(xì)微差異,以學(xué)習(xí)每輛車的完整視點(diǎn)信息;并使用CycleGAN緩解訓(xùn)練圖像中車輛視點(diǎn)分布不平衡的問題,同時(shí)引入基于顏色域的跨視角標(biāo)簽平滑正則化(cross-view label smoothing regularization,CVLSR)來減輕由GAN 引起的噪聲數(shù)據(jù)的影響。另一個(gè)是跨視角距離度量,通過使用聚合多級(jí)特征的懲罰權(quán)重矩陣來對(duì)跨視角特征自適應(yīng)地調(diào)整權(quán)重,再將原始特征與跨視角特征相結(jié)合,從而為車輛的單視角匹配獲得額外的視角信息。該類方法通過對(duì)生成的樣本進(jìn)行去噪并融合多層次的信息,以增強(qiáng)訓(xùn)練模型的視點(diǎn)感知魯棒性。

        圖7 VANet工作流程圖Fig.7 VANet workflow diagram

        利用生成對(duì)抗網(wǎng)絡(luò),一是可以借助已知視角下的視角信息來推斷出其他視角下的外觀信息;二是學(xué)習(xí)非重疊視域下的特征來生成具有不同攝像頭下不同視角的圖像。這些策略都為解決車輛的跨視域偏差問題提供輔助指導(dǎo)作用,并有效提高了模型的性能。

        2.1.3 基于數(shù)據(jù)增強(qiáng)的方法

        車輛重識(shí)別使用深度殘差網(wǎng)絡(luò)來提取車輛特征,并通過某種度量方式(如歐式距離或余弦距離)計(jì)算車輛特征之間的相似度距離來區(qū)分車輛,然而模型的訓(xùn)練數(shù)據(jù)往往是不夠的,因此研究者們通過生成模型(例如生成對(duì)抗網(wǎng)絡(luò)、變分自編碼器[82]或擴(kuò)散模型[83]等)來嘗試生成圖像,從而獲得多樣性的訓(xùn)練數(shù)據(jù)并提高模型的魯棒性。

        一種解決方式是利用生成對(duì)抗網(wǎng)絡(luò)來生成未標(biāo)記樣本或困難負(fù)樣本來補(bǔ)充數(shù)據(jù)集,以提高模型的學(xué)習(xí)能力。如Wu 等人[56]采用GAN 來生成未標(biāo)記樣本并擴(kuò)大訓(xùn)練集,同時(shí)還利用標(biāo)簽平滑正則化為未標(biāo)記的圖像分配一個(gè)均勻統(tǒng)一的標(biāo)簽分布,降低對(duì)數(shù)據(jù)標(biāo)注的依賴性。Lou等人[57]設(shè)計(jì)了一種端到端的嵌入對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)(embedding adversarial learning network,EALN),如圖8 所示,在生成器和鑒別器之間施加嵌入對(duì)抗學(xué)習(xí),即生成器在嵌入空間中生成接近目標(biāo)的樣本,而鑒別器試圖將生成的樣本“推”到很遠(yuǎn)的地方。這樣通過自動(dòng)生成困難的負(fù)樣本并加入訓(xùn)練,以提升網(wǎng)絡(luò)模型性能。在測(cè)試階段,將每張輸入圖像生成對(duì)應(yīng)的跨視角圖像,提取特征后與原圖像特征拼接以構(gòu)建更加全面的特征表示。之后,Zhu等人[58]提出了多階深度跨距離學(xué)習(xí)(deep cross-distance learning,DCDLearn)模型,通過CycleGAN 生成一定量的風(fēng)格轉(zhuǎn)換圖像和重建圖像作為多階增強(qiáng)標(biāo)簽數(shù)據(jù),較EALN[57]方法,大大提升了網(wǎng)絡(luò)訓(xùn)練效果。

        圖8 嵌入對(duì)抗學(xué)習(xí)示意圖Fig.8 Embedding adversarial learning schematic diagram

        另一種方式則是利用車輛的多種屬性信息(如顏色、型號(hào)、視角等)來增加數(shù)據(jù)的多樣性。Wang 等人[59]提出一種新的數(shù)據(jù)增強(qiáng)方法,即將訓(xùn)練后的數(shù)據(jù)按照顏色、模型和攝像機(jī)三種屬性進(jìn)行聚類,再對(duì)每一種屬性進(jìn)行分割以形成域間子集,并作為一種新的風(fēng)格來利用;然后在圖像到圖像的轉(zhuǎn)換階段,利用CycleGAN對(duì)不同的域間子集進(jìn)行訓(xùn)練,并通過多個(gè)轉(zhuǎn)移模型生成對(duì)應(yīng)域間子集的新樣本,從而產(chǎn)生更為豐富的數(shù)據(jù)。此外又利用域間自適應(yīng)標(biāo)簽平滑正則化(inter-domain adaptation label smoothing regularization,IALSR)損失來緩解生成數(shù)據(jù)的標(biāo)簽噪聲。

        利用生成對(duì)抗網(wǎng)絡(luò)生成圖像以增廣數(shù)據(jù)集的這種策略已經(jīng)得到廣泛應(yīng)用,彌補(bǔ)了部分?jǐn)?shù)據(jù)集較真實(shí)場(chǎng)景特征信息不全面、數(shù)量不足的問題,并且通過利用標(biāo)簽平滑正則化等方法減小在生成或合成圖像過程中的噪聲影響。

        2.1.4 基于生成對(duì)抗網(wǎng)絡(luò)的車輛重識(shí)別方法總結(jié)

        從風(fēng)格轉(zhuǎn)換、多視角生成和數(shù)據(jù)增強(qiáng)三方面歸納總結(jié)的相關(guān)工作如表3所示??梢钥闯?,這些方法一般都采用ResNet、CycleGAN 為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),并使用多種損失函數(shù)來共同約束網(wǎng)絡(luò)模型。從各類方法在VeRi-776 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以看到,基于風(fēng)格轉(zhuǎn)換的方法GAN-Siamese[51]能夠得到最優(yōu)的實(shí)驗(yàn)性能。

        表3 基于生成對(duì)抗網(wǎng)絡(luò)的車輛重識(shí)別方法總結(jié)Table 3 Summary of vehicle re-identification methods based on generative adversarial networks

        綜上所述,基于風(fēng)格轉(zhuǎn)換的方法通過利用生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)集的不同風(fēng)格以實(shí)現(xiàn)域適應(yīng),緩解域偏差的問題。但這種方法在生成圖像的過程中會(huì)存在噪聲問題,使得圖像不穩(wěn)定,發(fā)生畸形,從而會(huì)影響訓(xùn)練模型的魯棒性。對(duì)于多視角生成的方法,通過生成車輛圖像的多個(gè)視角,提供全面的輔助視角信息,從而在車輛重識(shí)別任務(wù)中減小視角因素對(duì)最終模型性能的影響。但隨著攝像頭數(shù)量的增加,不同視角特征的提取模型在時(shí)間資源和算力資源有限的情況下訓(xùn)練會(huì)需要額外的標(biāo)簽或步驟,很難擴(kuò)展到實(shí)際場(chǎng)景中。對(duì)于數(shù)據(jù)增強(qiáng)的方法,可以為數(shù)據(jù)集提供多樣性的樣本或有效利用多種車輛屬性,從而有助于CNN 對(duì)判別性特征的學(xué)習(xí)。但由于

        實(shí)際場(chǎng)景中數(shù)據(jù)規(guī)模龐大,需要更多的模型來處理生成車輛圖像樣本,并且在生成過程中生成器和鑒別器的相互對(duì)抗性難以訓(xùn)練,因此最終不易達(dá)到一個(gè)最優(yōu)的平衡,導(dǎo)致生成圖像質(zhì)量相對(duì)不佳,影響Re-ID模型的高效學(xué)習(xí)。

        2.2 基于聚類算法的車輛重識(shí)別方法

        聚類是將樣本集劃分為若干個(gè)子集,每個(gè)子集稱為“簇”,同簇內(nèi)的樣本具有某些相似的特點(diǎn)。顯然,聚類是一種無監(jiān)督學(xué)習(xí)。近年來,研究者利用聚類算法來解決車輛重識(shí)別問題,并取得了較好的實(shí)驗(yàn)結(jié)果。本節(jié)將介紹基于聚類算法的無監(jiān)督學(xué)習(xí)車輛重識(shí)別方法。

        2.2.1 基于偽標(biāo)簽的無監(jiān)督域適應(yīng)方法

        與利用生成對(duì)抗網(wǎng)絡(luò)以減小域偏差的方法不同,利用聚類算法,通過在不同數(shù)據(jù)下進(jìn)行反復(fù)迭代生成偽標(biāo)簽,然后將帶有偽標(biāo)簽的可靠數(shù)據(jù)輸入到改進(jìn)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,以實(shí)現(xiàn)域適應(yīng)。如VRPROUD[60]采用漸進(jìn)式兩步級(jí)聯(lián)框架將重識(shí)別任務(wù)轉(zhuǎn)化為無監(jiān)督學(xué)習(xí)范式,即采用CNN 模型來提取圖像特征,再將提取的特征用K均值(K-Means)算法得到聚類質(zhì)心即相關(guān)樣本的標(biāo)簽。由于K-Means 算法存在噪聲,又采用啟發(fā)式約束進(jìn)一步細(xì)化聚類結(jié)果以提高網(wǎng)絡(luò)訓(xùn)練的整體收斂性。UDAR[61]則采用另一種聚類算法DBSCAN(density-based spatial clustering of application with noise)[84],通過對(duì)未標(biāo)記的目標(biāo)域進(jìn)行猜測(cè)以迭代優(yōu)化編碼器,然后利用基于猜測(cè)的標(biāo)簽來訓(xùn)練編碼器,最終DBSCAN 算法根據(jù)距離閾值來生成數(shù)據(jù)聚類。相較于K-Means算法,該方法可以在未知目標(biāo)域類別下更好地預(yù)測(cè)標(biāo)簽,并且可以實(shí)現(xiàn)任意形狀的空間聚類。

        上述兩種方法只考慮車輛的單視角信息進(jìn)行聚類并分配偽標(biāo)簽來解決無監(jiān)督車輛重識(shí)別問題。實(shí)際上,差異可能由多種因素變化所引起,如車輛ID、顏色、類型以及視角等。因此,Wang等人[62]提出了一種基于焦點(diǎn)遮擋網(wǎng)絡(luò)(focal drop network,F(xiàn)DNet)的多語義知識(shí)學(xué)習(xí)(multiple semantic knowledge learning,ML)框架。其中FDNet由全局分支、空間焦點(diǎn)遮擋分支以及通道焦點(diǎn)遮擋分支組成,每張圖像經(jīng)過FDNet后生成原特征、空間遮擋特征和通道遮擋特征用于聚類,并利用DBSCAN 根據(jù)不同角度樣本之間的距離關(guān)系分別進(jìn)行聚類得到聚類結(jié)果。最后根據(jù)三種聚類結(jié)果在未知目標(biāo)域中挑選樣本并分配偽標(biāo)簽,再將具有多標(biāo)簽的樣本用于下一次訓(xùn)練迭代過程??紤]到簇內(nèi)和簇間的差異性,還提出困難三元組中心損失以更好地訓(xùn)練無監(jiān)督框架。

        偽標(biāo)簽方法已被證明對(duì)無監(jiān)督域適應(yīng)的重識(shí)別任務(wù)是有效的。然而這些方法的有效性很大程度上取決于一些超參數(shù)(hyperparameters,HP)的選擇,這些超參數(shù)將會(huì)影響聚類偽標(biāo)簽的生成。目前的方法是對(duì)無監(jiān)督域適應(yīng)任務(wù)重復(fù)使用相同的經(jīng)驗(yàn)值,而不考慮通過偽標(biāo)簽訓(xùn)練階段改變的目標(biāo)數(shù)據(jù)表示,這種簡(jiǎn)單化的選擇可能會(huì)限制其性能,故Dubourvieux等人[63]針對(duì)這個(gè)問題提出了聚類無監(jiān)督域適應(yīng)重識(shí)別的HP 選擇新理論依據(jù)以及一種整合到經(jīng)典迭代偽標(biāo)簽范式中的新方法,基于源和相似性自動(dòng)生成超參數(shù)(hyperparameters automated by source &similarities,HyPASS)。其中HyPASS 包含了兩個(gè)模塊,即基于標(biāo)記源驗(yàn)證集的HP 選擇和具有特征判別的條件域?qū)R。在車輛重識(shí)別數(shù)據(jù)集上的跨域?qū)嶒?yàn)表明,與常用的經(jīng)驗(yàn)HP 值設(shè)置相比,所提出的HyPASS改進(jìn)了重識(shí)別中先進(jìn)方法的性能。

        但是,在生成偽標(biāo)簽的過程中通常會(huì)存在以下問題:(1)模型并不是目標(biāo)域的最佳特征提取器;(2)在進(jìn)行聚類或生成偽標(biāo)簽的過程中會(huì)包含一定的噪聲,導(dǎo)致與真正的身份標(biāo)簽有一定差距。因此,為了解決這些問題,Zhang等人[64]在已有優(yōu)化的基礎(chǔ)上進(jìn)一步提出RLCC(refining pseudo label with clustering consensus),即用聚類共識(shí)來正確估計(jì)連續(xù)幾輪訓(xùn)練之間的偽標(biāo)簽相似性,并用時(shí)序嵌入來正則化噪聲偽標(biāo)簽。同樣地,Wang 等人[65]設(shè)計(jì)了一個(gè)不確定性感知聚類框架(uncertainty aware clustering framework,UCF),利用一種新的層次聚類方案識(shí)別和分解不可靠聚類以提高聚類質(zhì)量,并使用不確定性感知的協(xié)同實(shí)例選擇方法來識(shí)別具有不可靠偽標(biāo)簽的圖像,從而緩解噪聲對(duì)偽標(biāo)簽的影響。

        上述幾種利用聚類算法實(shí)現(xiàn)無監(jiān)督域適應(yīng)的方法,均側(cè)重于如何使得在源域(已標(biāo)記)訓(xùn)練得到的初始模型能更好地適應(yīng)目標(biāo)域(未標(biāo)記)。由此可以看出,此類方法在通過聚類算法生成偽標(biāo)簽的過程中仍需要一個(gè)具有標(biāo)簽信息的數(shù)據(jù)集作為源域,并且需要已知集群的數(shù)量。

        2.2.2 無需標(biāo)簽信息的方法

        基于偽標(biāo)簽的無監(jiān)督域適應(yīng)方法,在生成偽標(biāo)簽的過程中會(huì)依賴于源域標(biāo)簽等信息,而在現(xiàn)實(shí)交通場(chǎng)景中,往往會(huì)失去這些信息的指導(dǎo),這使得車輛重識(shí)別任務(wù)面臨更大的挑戰(zhàn)。對(duì)此,以下研究提供了相應(yīng)的解決方案,以便更好地探索未知域。

        一方面,為了避免對(duì)源域中的標(biāo)記信息產(chǎn)生依賴,Zheng等人[66]設(shè)計(jì)了一種基于視點(diǎn)感知的漸進(jìn)聚類(viewpoint-aware progressive clustering,VAPC)框架,用于無監(jiān)督學(xué)習(xí)的車輛重識(shí)別。如圖9所示[66],VAPC分為三部分:視點(diǎn)預(yù)測(cè)、識(shí)別階段以及漸進(jìn)式聚類。首先對(duì)每個(gè)視點(diǎn)進(jìn)行預(yù)測(cè),將視點(diǎn)感知的未標(biāo)記訓(xùn)練集輸入到CNN 模型進(jìn)行特征提取,并將其劃分為不同方向性的特征簇;然后在識(shí)別階段,使網(wǎng)絡(luò)提取的每個(gè)樣本特征具有更強(qiáng)的識(shí)別性;最后進(jìn)行漸進(jìn)式聚類,探索了一種劃分方向和周期的聚類方法。即在第一個(gè)階段,使用DBSCAN[84]算法在相同的視點(diǎn)內(nèi)生成初始集群(彩色背景),對(duì)于在聚類過程中發(fā)現(xiàn)的噪聲樣本,設(shè)計(jì)一種噪聲選擇方法,選擇好的噪聲將與初始集群合并或生成一個(gè)新的集群(白色背景);在第二個(gè)階段,比較所有不同視點(diǎn)的距離以合并小于距離閾值的簇,并根據(jù)最終的聚類結(jié)果對(duì)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練。該框架不僅不依賴源域中任何標(biāo)記數(shù)據(jù),而且解決了因車輛視點(diǎn)變化較大而導(dǎo)致的類間相似性和類內(nèi)差異性,以及具有不同身份的相同視點(diǎn)比具有相同身份的不同視點(diǎn)優(yōu)先聚類的問題,與方法UDAR[61]相比提升了聚類算法的精度。

        圖9 VAPC的工作流程圖Fig.9 VAPC workflow diagram

        另一方面,在未知集群數(shù)量的情況下,Zhu等人[67]提出了基于流形的聚合聚類(manifold-based aggregation clustering,MAC)無監(jiān)督車輛重識(shí)別方法,通過交替采用深度特征學(xué)習(xí)和聚合聚類兩個(gè)模塊來實(shí)現(xiàn)。其中深度特征學(xué)習(xí)模塊負(fù)責(zé)訓(xùn)練CNN以鼓勵(lì)深度特征靠近相應(yīng)簇的質(zhì)心,這些簇是由基于特征空間中流形距離的聚合聚類機(jī)制產(chǎn)生的。此外,還設(shè)計(jì)了分類-聚集損失和基于流形的種子搜索準(zhǔn)則以提高學(xué)習(xí)特征的識(shí)別能力,并分別處理不同的視覺外觀問題。該方法不需要任何注釋,這與在真實(shí)場(chǎng)景中的未知身份完全一致。

        近幾年,不少研究還將深度自監(jiān)督模型用于車輛重識(shí)別任務(wù)中,其學(xué)習(xí)模型采用記憶字典、偽標(biāo)簽和對(duì)比損失來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。如Wang等人[68]聯(lián)合DSS(discrete sample separation)、MSCL(mixed sample contrastive learning)和DSL(discrete sample loss)的方法,首先衡量聚類中每個(gè)樣本的可靠性,并設(shè)置一個(gè)自適應(yīng)閾值來過濾離散的樣本,創(chuàng)建更可靠的聚類;其次用可靠的聚類和離散樣本構(gòu)建記憶字典,增強(qiáng)特征的多樣性以學(xué)習(xí)更多穩(wěn)健特征表示,并采用它作為訓(xùn)練模型的學(xué)習(xí)目標(biāo);在訓(xùn)練過程中,利用DSL計(jì)算模型的對(duì)比損失,并選擇每個(gè)訓(xùn)練批次中最離散的查詢實(shí)例來動(dòng)態(tài)更新記憶字典,其記憶字典的構(gòu)建和更新如圖10所示[68]。該類方法可以自行生成標(biāo)簽以從數(shù)據(jù)生成有用的表示,實(shí)現(xiàn)在不需要任何標(biāo)記源域的指導(dǎo)下訓(xùn)練一個(gè)有效的模型。

        圖10 記憶字典的構(gòu)建和更新示意圖Fig.10 Construction and update schematic diagram of memory dictionary

        總之,利用聚類算法進(jìn)行無監(jiān)督學(xué)習(xí)大都是通過在標(biāo)記的源域上訓(xùn)練初始模型,然后再將該初始模型應(yīng)用于目標(biāo)域上以預(yù)測(cè)并分配偽標(biāo)簽。但這類方法存在不足,比如在聚類分配標(biāo)簽時(shí),需要計(jì)算每個(gè)圖像與其他圖像之間的距離(如歐式距離),這會(huì)大大增加計(jì)算的成本,并且在聚類生成偽標(biāo)簽的過程中還會(huì)存在一定的噪聲。針對(duì)聚類過程以及生成偽標(biāo)簽過程存在的不足,目前研究者已經(jīng)提供相應(yīng)的優(yōu)化方案,在提升模型魯棒性和泛化性方面都有所突破。另外,真正意義上的無監(jiān)督是不借助對(duì)訓(xùn)練數(shù)據(jù)集的注釋來獲得可區(qū)分的特征。雖然已有研究不依賴于帶有標(biāo)簽信息的源域,但是識(shí)別準(zhǔn)確率仍然較低,這也是后續(xù)需要深入探究的問題。

        2.2.3 基于聚類算法的車輛重識(shí)別方法總結(jié)

        表4 歸納比較了本節(jié)基于聚類算法的無監(jiān)督學(xué)習(xí)方法用到的基礎(chǔ)網(wǎng)絡(luò)架構(gòu)、聚類方法、損失函數(shù)和實(shí)驗(yàn)性能,并簡(jiǎn)單概述了這些方法的基本思想。這些方法一般都采用具有簡(jiǎn)潔結(jié)構(gòu)的ResNet50作為特征學(xué)習(xí)的基礎(chǔ)網(wǎng)絡(luò),并使用DBSCAN算法進(jìn)行聚類,同時(shí)采用改進(jìn)的損失函數(shù)來提高模型的魯棒性。

        從實(shí)驗(yàn)結(jié)果來看:首先,基于偽標(biāo)簽的無監(jiān)督域適應(yīng)方法FDNet[62]因考慮了多種挑戰(zhàn)性因素,故在VeRi-776 數(shù)據(jù)集上與其他方法相比表現(xiàn)出了較優(yōu)的實(shí)驗(yàn)性能;UDAR*[63]是在UDAR[61]的基礎(chǔ)上添加了HyPASS,使得在跨域評(píng)估實(shí)驗(yàn)上能自適應(yīng)地調(diào)整超參數(shù),在mAP方面與UDAR*相比提高了1.10個(gè)百分點(diǎn);隨著對(duì)生成偽標(biāo)簽過程的不斷優(yōu)化,利用軟標(biāo)簽的方法RLCC[64]和利用改進(jìn)的層次聚類方案UCF[65]與方法UDAR*相比,mAP 又分別提高了2.70 個(gè)百分點(diǎn)、3.60個(gè)百分點(diǎn),達(dá)到39.60%、40.50%。其次,無需標(biāo)簽信息的方法[66-68]通過采用種子搜索、視角預(yù)測(cè)、噪聲選擇、分離離散樣本、記憶字典等策略使得聚類的質(zhì)量更佳。相對(duì)來說,該方法檢索車輛的準(zhǔn)確率在不斷提高,但是與目前大多數(shù)監(jiān)督學(xué)習(xí)的重識(shí)別方法相比準(zhǔn)確率仍然較低,所列方法中最高的mAP僅為45.90%。因此,進(jìn)一步改進(jìn)聚類方法或優(yōu)化聚類結(jié)果以解決偽標(biāo)簽的噪聲問題,提高模型的泛化能力,依然是值得關(guān)注和研究的內(nèi)容。

        3 性能比較

        針對(duì)無監(jiān)督學(xué)習(xí)的方法,本文從近年來計(jì)算機(jī)視覺、人工智能等領(lǐng)域的頂級(jí)會(huì)議和主流期刊上,選出具有代表性且模型性能較好的一系列方法,對(duì)比分析了它們?cè)赩ehicleID、VeRi-776 這兩個(gè)經(jīng)典數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。由于VeRi-776數(shù)據(jù)集中的圖庫集有多個(gè)地面真值,且mAP同時(shí)考慮準(zhǔn)確率和召回率,因此使用Rank-1、Rank-5 和mAP 三種評(píng)價(jià)指標(biāo)更適合于VeRi-776。而對(duì)于VehicleID 數(shù)據(jù)集,給定一個(gè)查詢,只有一個(gè)地面真值與之相匹配,故選擇使用Rank-1和Rank-5來評(píng)價(jià)方法性能。

        首先,表5 將VeRi-776、VehicleID 數(shù)據(jù)集分別作為源域和目標(biāo)域,對(duì)比了基于生成對(duì)抗網(wǎng)絡(luò)的方法(如DAN[48])和基于聚類算法的方法(如UDAR[61]、ML[62]、UDAR*[63]、VAPC[66]、UCF[65])進(jìn)行跨域評(píng)估的實(shí)驗(yàn)結(jié)果??梢钥闯觯诰垲愃惴ǖ姆椒╒APC[66]、UCF[65]在VehicleID(源域)到VeRi-776(目標(biāo)域)的跨域評(píng)估下略優(yōu)于其他方法。原因是方法DAN[48]利用GAN生成的圖像存在一定的噪聲,即用于訓(xùn)練的車輛圖像質(zhì)量較差;并且方法UDAR[61]、ML[62]、UDAR*[63]均利用常規(guī)的DBSCAN聚類算法對(duì)未標(biāo)記的目標(biāo)域進(jìn)行自動(dòng)標(biāo)記。相比之下,方法VAPC[66]利用所提出的兩周期算法解決了聚類過程中不同車輛的相同視點(diǎn)優(yōu)先聚類的問題,提高了模型在不同測(cè)試集上的泛化能力;方法UCF[65]則利用改進(jìn)的層次聚類方案來識(shí)別和分解不可靠聚類,并采用不確定性感知的實(shí)例選擇方法選擇可靠標(biāo)簽的車輛圖像以用于模型訓(xùn)練,大大緩解了噪聲對(duì)偽標(biāo)簽的影響。

        表5 VeRi-776和VehicleID數(shù)據(jù)集上的跨域評(píng)估Table 5 Cross-domain evaluation on VeRi-776 and VehicleID datasets

        其次,表6和表7分別列出了本文提到的部分無監(jiān)督學(xué)習(xí)的車輛重識(shí)別方法在VeRi-776、VehicleID這兩個(gè)典型數(shù)據(jù)集上的實(shí)驗(yàn)比較結(jié)果。隨著研究人員對(duì)車輛重識(shí)別任務(wù)特點(diǎn)(如光照變化、視角變化豐富)的不斷思考與創(chuàng)新,在兩個(gè)典型數(shù)據(jù)集上性能不斷提高。從表6可以看到,基于生成對(duì)抗網(wǎng)絡(luò)的車輛重識(shí)別方法GAN-Siamese[51]在VeRi-776 數(shù)據(jù)集上的mAP 達(dá)到86.52%,較之前的方法都有顯著提升。原因在于作者設(shè)計(jì)的域鑒別器和基于GAN的域轉(zhuǎn)換器可以更好地縮小給定車輛圖像之間的域偏差。另外,由于方法DCDLearn[58]輸入到訓(xùn)練中的圖像不僅包括原圖像和CycleGAN生成的轉(zhuǎn)換圖像,還包括重建圖像,因此訓(xùn)練出的模型在Rank-1、Rank-5方面較其他方法相比展現(xiàn)出較好性能。表7 所列方法MJNet+IALSR[59]由于考慮了顏色、模型和攝像機(jī)三種屬性,并結(jié)合域間自適應(yīng)標(biāo)簽平滑正則化損失進(jìn)一步減小了標(biāo)簽損失,在VehicleID 各個(gè)測(cè)試子集上的Rank-1都超越了其他方法。同時(shí)可以看出,基于風(fēng)格轉(zhuǎn)換的方法PAL[49]和PLM[50]均采用生成對(duì)抗網(wǎng)絡(luò)生成“偽目標(biāo)樣本”以緩解源域和目標(biāo)域的偏差,但由于域間的特征分布差異較大,這兩種方法在VeRi-776、VehicleID數(shù)據(jù)集上與其他大部分方法相比準(zhǔn)確率較低。另外,基于聚類算法的方法VAPC[66]、MAC[67]以及DSS+MSCL+DSL[68]由于不依賴于標(biāo)簽信息,失去了源域信息的指導(dǎo)作用,使得車輛重識(shí)別任務(wù)更具有挑戰(zhàn)性,因此精度與大部分基于生成對(duì)抗網(wǎng)絡(luò)的方法相比較低。

        表6 VeRi-776數(shù)據(jù)集上無監(jiān)督學(xué)習(xí)方法的性能對(duì)比Table 6 Performance comparison of unsupervised learning methods on VeRi-776 dataset

        表7 VehicleID數(shù)據(jù)集上無監(jiān)督學(xué)習(xí)方法的性能對(duì)比Table 7 Performance comparison of unsupervised learning methods on VehicleID dataset

        綜合上述分析和表格數(shù)據(jù),可以看出通過對(duì)生成對(duì)抗網(wǎng)絡(luò)和聚類算法過程的不斷優(yōu)化,解決了因數(shù)據(jù)集風(fēng)格偏差、視角變化、數(shù)據(jù)信息不足以及標(biāo)簽標(biāo)注等因素所帶來的問題,使得能夠更加有效、準(zhǔn)確地在車輛數(shù)據(jù)集中匹配目標(biāo)車輛,滿足真實(shí)交通場(chǎng)景中的需求。

        4 存在的挑戰(zhàn)和未來研究方向

        4.1 無監(jiān)督學(xué)習(xí)車輛重識(shí)別任務(wù)存在的挑戰(zhàn)

        (1)域偏差問題是無監(jiān)督域適應(yīng)車輛重識(shí)別中的典型問題。由于視角、光照、背景障礙物、分辨率等不同,車輛特征在數(shù)據(jù)集中展示出顯著差異。

        (2)部分車輛重識(shí)別算法的性能在很大程度上依賴于生成的圖像,而利用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行風(fēng)格轉(zhuǎn)換生成的車輛樣本包含失真圖像,使網(wǎng)絡(luò)模型引入噪聲,影響訓(xùn)練結(jié)果。

        (3)由于無監(jiān)督學(xué)習(xí)無法獲取目標(biāo)域車輛的身份標(biāo)簽,可以利用聚類算法產(chǎn)生偽標(biāo)簽來確定和訓(xùn)練數(shù)據(jù)的關(guān)系,以有效地捕獲目標(biāo)域的分布,但是在生成偽標(biāo)簽的過程中不能保證屬于同一類的樣本圖像都被賦予相同的偽標(biāo)簽,導(dǎo)致存在噪聲標(biāo)簽,從而干擾模型的學(xué)習(xí)。

        (4)在無監(jiān)督學(xué)習(xí)的車輛重識(shí)別方法中,由于存在攝像頭視角變化的問題,可能會(huì)影響到查詢集與圖庫集中車輛之間的相似度計(jì)算,從而影響聚類結(jié)果。

        4.2 未來研究方向

        車輛重識(shí)別是智能交通系統(tǒng)(intelligent transportation system,ITS)和計(jì)算機(jī)視覺(computer vision,CV)領(lǐng)域的熱門研究方向之一,具有重要的實(shí)際應(yīng)用前景。從研究進(jìn)展情況來看,當(dāng)下車輛重識(shí)別任務(wù)大都是在監(jiān)督學(xué)習(xí)下開展的,盡管取得了較高的準(zhǔn)確率,但對(duì)數(shù)據(jù)集標(biāo)簽的要求較高。目前,基于無監(jiān)督學(xué)習(xí)的車輛重識(shí)別方法已被證明比人工制作標(biāo)簽的方法有效得多,并且開始被廣泛研究,其中包括利用生成對(duì)抗網(wǎng)絡(luò)、聚類思想以及引入記憶字典等,但這些方法依然還存在種種挑戰(zhàn),與真實(shí)交通場(chǎng)景對(duì)重識(shí)別算法的要求還有一定差距。因此,未來的研究方向可以從以下幾個(gè)方面展開。

        (1)無監(jiān)督學(xué)習(xí)中的域適應(yīng)車輛重識(shí)別通常是一個(gè)開放集任務(wù),其源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集包含的類別不同,而直接將在源域數(shù)據(jù)集上訓(xùn)練得到的模型應(yīng)用于目標(biāo)域,很難獲得好的效果。因此,如何有效使用無標(biāo)簽信息的目標(biāo)域數(shù)據(jù)集成為提升模型性能的關(guān)鍵。

        (2)相較于基于風(fēng)格轉(zhuǎn)換的車輛重識(shí)別算法,利用偽標(biāo)簽的域適應(yīng)算法在無監(jiān)督學(xué)習(xí)的跨域車輛重識(shí)別任務(wù)中取得了更為滿意的性能。但通過聚類算法或相似度度量生成的偽標(biāo)簽具有噪聲,導(dǎo)致分配的身份偽標(biāo)簽不正確。因此,在對(duì)這些噪聲標(biāo)簽的處理方面依然有較大的進(jìn)步空間。

        (3)聚類算法是計(jì)算機(jī)視覺中無監(jiān)督學(xué)習(xí)任務(wù)的重要研究手段。在車輛重識(shí)別方法中,常利用KMeans 和DBSCAN 來進(jìn)行聚類,前者需要預(yù)先指定聚類中心且依賴數(shù)據(jù)樣本的分布,后者計(jì)算速度較慢。因此,如何改進(jìn)聚類算法也是無監(jiān)督學(xué)習(xí)車輛重識(shí)別研究領(lǐng)域的一個(gè)難點(diǎn)。

        (4)無需任何標(biāo)簽信息的無監(jiān)督學(xué)習(xí)車輛重識(shí)別方法盡管在模型的泛化能力上表現(xiàn)較為出色,但與監(jiān)督學(xué)習(xí)的方法相比精度仍較低。因此,可以進(jìn)一步探索無監(jiān)督學(xué)習(xí)的新范式,提升車輛重識(shí)別技術(shù)在實(shí)際交通監(jiān)控環(huán)境下的應(yīng)用能力。

        5 結(jié)束語

        伴隨著無監(jiān)督深度學(xué)習(xí)的快速發(fā)展,基于無監(jiān)督學(xué)習(xí)的目標(biāo)重識(shí)別也得到了廣泛探索。本文從基于生成對(duì)抗網(wǎng)絡(luò)和聚類算法兩大類方法對(duì)研究工作分別進(jìn)行分析闡述與總結(jié)歸納,并對(duì)比了這些方法在兩個(gè)經(jīng)典數(shù)據(jù)集上的性能實(shí)驗(yàn)結(jié)果。雖然實(shí)際應(yīng)用場(chǎng)景中的情況復(fù)雜多變,且需要考慮的因素多元,但是相信未來無監(jiān)督學(xué)習(xí)的車輛重識(shí)別方法會(huì)有突破性的進(jìn)展,進(jìn)而為車輛重識(shí)別大規(guī)模落地應(yīng)用提供重要的技術(shù)支撐。

        猜你喜歡
        監(jiān)督特征方法
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        監(jiān)督見成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        色八区人妻在线视频免费| 亚洲成av人片极品少妇| 久久午夜精品人妻一区二区三区| 亚洲va中文字幕无码毛片| 国产日产欧产精品精品蜜芽| 亚洲人成网址在线播放| 国产一区a| 国产精品污一区二区三区在线观看| 国产成人大片在线播放| 波多野结衣的av一区二区三区| 中文字幕亚洲欧美日韩在线不卡 | 亚洲乱码中文字幕综合| 日韩欧美亚洲中字幕在线播放| 一区=区三区国产视频| 亚洲国产精品成人久久久| 午夜三级a三级三点| 精品人伦一区二区三区蜜桃麻豆| 蜜桃av在线播放视频| 亚洲三区在线观看内射后入| 蜜桃成人无码区免费视频网站| 国产精彩刺激对白视频| 亚洲av一二三又爽又爽又色 | 中文乱码字幕高清在线观看 | 亚洲精品综合久久中文字幕| 人妻少妇-嫩草影院| 欧美性猛交内射兽交老熟妇| 欧美a视频在线观看| 蜜桃精品国产一区二区三区| 天天做天天爱夜夜夜爽毛片| 日韩插啊免费视频在线观看| 国产午夜激无码AV毛片不卡| 一区二区高清免费日本| 东北少妇不带套对白| 福利在线国产| 国产一区二区av在线观看| 亚洲综合天堂av网站在线观看 | 免费人成视频在线| 免费黄色福利| 国产激情一区二区三区不卡av| 欧美人伦禁忌dvd放荡欲情| 国产精品短视频|