郭迎春 馮放 閻剛 郝小可
行人重識(shí)別[1-3]利用計(jì)算機(jī)視覺(jué)技術(shù)判斷不同攝像頭的圖像或者視頻序列中是否存在特定行人,廣泛應(yīng)用于智能安防、無(wú)人超市、人機(jī)交互等多個(gè)領(lǐng)域.隨著深度學(xué)習(xí)的應(yīng)用普及,行人重識(shí)別獲得了發(fā)展條件,其在有監(jiān)督領(lǐng)域上的準(zhǔn)確率得到了大幅度的提升[4].但是有監(jiān)督的行人重識(shí)別因需要帶有真實(shí)標(biāo)簽的數(shù)據(jù)集而脫離實(shí)際應(yīng)用,無(wú)監(jiān)督的行人重識(shí)別彌補(bǔ)了有監(jiān)督學(xué)習(xí)的需要真實(shí)標(biāo)簽的劣勢(shì).目前無(wú)監(jiān)督的行人重識(shí)別所能達(dá)到的精度遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)實(shí)生活應(yīng)用需求,跨域的行人重識(shí)別由于其只需要一個(gè)預(yù)訓(xùn)練源域數(shù)據(jù)集帶有真實(shí)標(biāo)簽而被識(shí)別的目標(biāo)域數(shù)據(jù)集無(wú)需標(biāo)簽,成為未來(lái)研究發(fā)展的方向[5].
由于不同場(chǎng)景存在著攝像頭參數(shù)、背景和光照等問(wèn)題,簡(jiǎn)單地將在源域上進(jìn)行訓(xùn)練所得到的模型應(yīng)用于目標(biāo)域上進(jìn)行測(cè)試會(huì)導(dǎo)致行人重識(shí)別性能的下降[6-7].同時(shí),傳統(tǒng)的跨域問(wèn)題常常是基于閉集場(chǎng)景下的,即假設(shè)源域和目標(biāo)域共享完全相同的類,但是這種假設(shè)并不適用于行人重識(shí)別問(wèn)題.跨域的行人重識(shí)別數(shù)據(jù)集通常是在不同時(shí)空下獲得的,所以源域與目標(biāo)域的圖像通常具有不同的身份信息,應(yīng)該將其看作是開(kāi)集問(wèn)題,這比閉集問(wèn)題更具有挑戰(zhàn)性.
本文研究跨域方法,著重解決現(xiàn)有基于聚類的跨域行人重識(shí)別方法中忽略對(duì)偽標(biāo)簽噪聲處理的問(wèn)題,提出了基于自適應(yīng)融合網(wǎng)絡(luò)的行人重識(shí)別模型,主要?jiǎng)?chuàng)新和貢獻(xiàn)如下:
1)本文提出的融合網(wǎng)絡(luò)模型,采用雙網(wǎng)絡(luò)結(jié)構(gòu)共同學(xué)習(xí)并進(jìn)行網(wǎng)絡(luò)融合,利用融合后的網(wǎng)絡(luò)反過(guò)來(lái)監(jiān)督雙網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練,這種知識(shí)共享的模型結(jié)構(gòu)可以有效地防止聚類偽標(biāo)簽噪聲的擴(kuò)大.
2)本文提出了自適應(yīng)融合策略,使得模型在每一次融合過(guò)程中,可以針對(duì)兩個(gè)網(wǎng)絡(luò)的學(xué)習(xí)情況分配不同權(quán)重自適應(yīng)地對(duì)兩個(gè)網(wǎng)絡(luò)知識(shí)進(jìn)行融合.
3)本文設(shè)計(jì)了細(xì)粒度風(fēng)格轉(zhuǎn)換模塊來(lái)降低不同相機(jī)間視角下的風(fēng)格差異性,提高模型對(duì)時(shí)空變化的魯棒性.
本文的安排如下:第1 節(jié)介紹跨域行人重識(shí)別主要分類及相關(guān)工作;第2 節(jié)介紹本文提出的基于自適應(yīng)融合網(wǎng)絡(luò)的跨域行人重識(shí)別方法;第3 節(jié)給出實(shí)驗(yàn)設(shè)置并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析;第4 節(jié)總結(jié)本文工作并對(duì)未來(lái)工作進(jìn)行展望.
無(wú)監(jiān)督跨域的行人重識(shí)別研究是在無(wú)監(jiān)督的行人重識(shí)別研究上發(fā)展而來(lái).相較于無(wú)監(jiān)督的方法,無(wú)監(jiān)督跨域的方法額外利用一個(gè)具有標(biāo)簽的源域數(shù)據(jù)集,因此會(huì)有一定的先驗(yàn)知識(shí)作為指導(dǎo),識(shí)別效果也會(huì)更優(yōu).最近的無(wú)監(jiān)督行人重識(shí)別通過(guò)挖掘特征間的內(nèi)在聯(lián)系解決圖像由于時(shí)空變換引起的特征分布的差異性,從而提高了識(shí)別精度,其中具有代表性的是文獻(xiàn)[8-10],分別利用相機(jī)感知代理處理相機(jī)變化的問(wèn)題、元信息構(gòu)建超圖挖掘潛在的價(jià)值信息、成對(duì)相似性處理不同實(shí)例在增強(qiáng)視圖間的匹配,對(duì)未來(lái)跨域無(wú)監(jiān)督的行人重識(shí)別發(fā)展具有一定的參考意義.
目前跨域行人重識(shí)別方法主要可以分為四類:
1)域分布對(duì)齊的跨域行人重識(shí)別[11-12],通過(guò)對(duì)齊源域與目標(biāo)域的數(shù)據(jù)分布來(lái)減小域間隙.域分布對(duì)齊意在將目標(biāo)域的數(shù)據(jù)分布盡可能地與源域數(shù)據(jù)分布一致,這樣可以減少域間隙,從而提高實(shí)驗(yàn)的準(zhǔn)確率.Wang等[11]利用額外標(biāo)注的行人屬性信息,通過(guò)身份標(biāo)簽分支和屬性分支結(jié)合訓(xùn)練,實(shí)現(xiàn)網(wǎng)絡(luò)間信息的交融,最終學(xué)習(xí)到行人更本質(zhì)的特征.Djebril等[12]認(rèn)為解決跨域問(wèn)題應(yīng)該將重點(diǎn)放在對(duì)齊域之間的成對(duì)差異而不是特征表示,為此提出一個(gè)基于非相似最大平均差異(Dissimilarity-based maximum mean discrepancy,D-MMD)損失來(lái)最小化成對(duì)差異.域分布對(duì)齊應(yīng)用在跨域的行人重識(shí)別方向往往需要考慮更多的因素而導(dǎo)致模型較為復(fù)雜.
2)域不變性的跨域行人重識(shí)別[13-16],該方法利用生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)來(lái)處理數(shù)據(jù)圖像以獲得相似的數(shù)據(jù)集間圖像風(fēng)格.Liu等[13]將跨域轉(zhuǎn)換分解為光照、相機(jī)角度、分辨率三個(gè)因子轉(zhuǎn)換,每個(gè)因子作為一個(gè)子風(fēng)格,為每個(gè)子風(fēng)格訓(xùn)練一個(gè)生成器并提出一種可以權(quán)衡各種因子影響程度從而進(jìn)行融合的網(wǎng)絡(luò)Adaptive transfer network (ATNet),該網(wǎng)絡(luò)通過(guò)最小化中間層的子任務(wù)達(dá)到細(xì)粒度級(jí)別的風(fēng)格遷移.文獻(xiàn)[14]提出的相似性保持生成對(duì)抗網(wǎng)絡(luò)(Similarity preserving GAN,SPGAN)和Wei等[15]提出的行人遷移生成對(duì)抗網(wǎng)絡(luò)(Person transfer GAN,PTGAN)都是利用生成對(duì)抗網(wǎng)絡(luò)將源域的圖像風(fēng)格轉(zhuǎn)換為目標(biāo)域的圖像風(fēng)格,同時(shí)保留源域圖像的標(biāo)簽信息,使得源域和目標(biāo)域間的知識(shí)轉(zhuǎn)移更具有魯棒性.Zhong等[16]通過(guò)挖掘相機(jī)配置之間的關(guān)系,基于生成對(duì)抗網(wǎng)絡(luò)通過(guò)生成域內(nèi)不同相機(jī)之間的圖像來(lái)解決域內(nèi)相機(jī)間隙問(wèn)題.但是這些方法過(guò)度依賴于生成圖像的質(zhì)量,導(dǎo)致準(zhǔn)確性普遍低于有監(jiān)督的行人重識(shí)別.
3)計(jì)算特征相似性產(chǎn)生的軟標(biāo)簽來(lái)優(yōu)化網(wǎng)絡(luò)[17-19],通常是利用保存所有圖像的平均特征或是利用輔助數(shù)據(jù)集構(gòu)建的特征空間來(lái)表示軟標(biāo)簽.計(jì)算特征相似性是利用已經(jīng)訓(xùn)練過(guò)的圖像或是輔助數(shù)據(jù)集圖像等構(gòu)建特征空間來(lái)表示將要訓(xùn)練的圖像.Zhong等[17]提出的范例相機(jī)鄰域不變性(Exemplar camera neighborhood invariance,ECN)利用存儲(chǔ)器結(jié)構(gòu)來(lái)保存平均特征進(jìn)而為訓(xùn)練圖像來(lái)分配軟標(biāo)簽,利用樣本不變性、相機(jī)不變性、鄰域不變性這三個(gè)不變性監(jiān)督優(yōu)化網(wǎng)絡(luò).Yu等[18]提出的深度軟多標(biāo)簽參考學(xué)習(xí)(Deep soft multi-label reference learning,MAR)利用MSMT17 數(shù)據(jù)集[15]作為輔助數(shù)據(jù)集構(gòu)建特征空間,并在特征空間中表示目標(biāo)域數(shù)據(jù)集圖像.這些方法的不足就是特征或參考數(shù)據(jù)集不具有足夠的代表性,使得軟標(biāo)簽不夠準(zhǔn)確,降低模型性能.
4)基于聚類的方法[20-26],為了充分利用無(wú)標(biāo)簽的目標(biāo)域數(shù)據(jù),利用聚類算法產(chǎn)生的偽標(biāo)簽來(lái)當(dāng)作目標(biāo)域的標(biāo)簽,這類方法在大量的實(shí)驗(yàn)中被證明在當(dāng)前具有最好的效果.Fu等[20]提出的自相似性分組(Self-similarity grouping,SSG)模型通過(guò)將特征圖垂直平均劃分為六個(gè)局部特征,利用局部特征來(lái)分配多尺度的聚類偽標(biāo)簽.Zhai等[21]提出一種新的判別聚類的方法增廣判別聚類(Augmented discriminative clustering,AD-Cluster),通過(guò)基于密度的聚類算法,自適應(yīng)地?cái)U(kuò)充樣本和判別特征學(xué)習(xí)來(lái)解決無(wú)監(jiān)督跨域的行人重識(shí)別問(wèn)題.Yang等[22]提出一種非對(duì)稱協(xié)同框架,充分利用了在聚類算法中通常被舍棄的離群點(diǎn)來(lái)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練.Ge等[23]專注于聚類偽標(biāo)簽噪聲的影響提出同步平均教學(xué)網(wǎng)絡(luò)模型(Mutual mean teaching,MMT),利用兩個(gè)相同的網(wǎng)絡(luò)相互監(jiān)督訓(xùn)練.Wang等[24]在MMT的基礎(chǔ)上提出將注意力波動(dòng)模塊(Attentive waveblock,AWB)集成到兩個(gè)網(wǎng)絡(luò)中,使得兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)到具有差異性的特征,增強(qiáng)網(wǎng)絡(luò)的互補(bǔ)性.基于聚類的方法往往與聚類算法的準(zhǔn)確率有大的關(guān)系,且明顯缺陷是模型的準(zhǔn)確性過(guò)度依賴于聚類產(chǎn)生的偽標(biāo)簽的質(zhì)量,而且隨著網(wǎng)絡(luò)的迭代,偽標(biāo)簽的噪聲會(huì)越來(lái)越大.
受MMT 模型的啟發(fā),本文在基于聚類算法的跨域行人重識(shí)別基礎(chǔ)上,針對(duì)聚類算法生成的偽標(biāo)簽帶有噪聲的問(wèn)題,設(shè)計(jì)自適應(yīng)融合網(wǎng)絡(luò)模型.該模型采用雙網(wǎng)絡(luò)結(jié)構(gòu)共同學(xué)習(xí)并對(duì)雙網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行網(wǎng)絡(luò)融合,利用融合后的網(wǎng)絡(luò)監(jiān)督雙網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練,有效解決了單網(wǎng)絡(luò)情況下偽標(biāo)簽噪聲不斷擴(kuò)大的問(wèn)題.同時(shí),為了降低模型對(duì)相機(jī)變換的敏感性,本文設(shè)計(jì)了細(xì)粒度的風(fēng)格轉(zhuǎn)換模塊.細(xì)粒度的風(fēng)格轉(zhuǎn)換模塊區(qū)別于以往的利用GAN 進(jìn)行數(shù)據(jù)集擴(kuò)充的方法,是在細(xì)粒度級(jí)別上針對(duì)于在同一個(gè)數(shù)據(jù)集上的不同相機(jī)風(fēng)格進(jìn)行圖像生成,而不是在源域和目標(biāo)域之間作圖像生成,通過(guò)starGAN 給每張行人圖像都生成所有相機(jī)風(fēng)格下的生成圖像,在擴(kuò)充數(shù)據(jù)集的同時(shí),增強(qiáng)了模型的魯棒性.相比于聯(lián)合判別生成學(xué)習(xí)網(wǎng)絡(luò)(Joint discriminative and generative learning network,DGNet)[27]以身份標(biāo)簽為基礎(chǔ)的風(fēng)格轉(zhuǎn)換模式,本文方法專注于相機(jī)域間的風(fēng)格轉(zhuǎn)換,對(duì)每個(gè)相機(jī)下的圖像都生成其他相機(jī)風(fēng)格的生成圖像,增強(qiáng)了模型對(duì)相機(jī)的魯棒性.
在眾多的跨域行人重識(shí)別方法中,基于聚類的方法有著強(qiáng)大的競(jìng)爭(zhēng)力,由于忽略了對(duì)聚類偽標(biāo)簽噪聲的處理而導(dǎo)致噪聲隨著網(wǎng)絡(luò)迭代而不斷擴(kuò)大.本文針對(duì)于此,主要研究偽標(biāo)簽噪聲在網(wǎng)絡(luò)訓(xùn)練中擴(kuò)大的問(wèn)題,并提出基于自適應(yīng)融合網(wǎng)絡(luò)的行人重識(shí)別,并利用細(xì)粒度風(fēng)格轉(zhuǎn)換降低不同相機(jī)間視角下的風(fēng)格差異性,提高模型的適應(yīng)性.本節(jié)將詳細(xì)介紹提出的方法.
給定一個(gè)帶有真實(shí)標(biāo)簽的源域數(shù)據(jù)集S={Xs,Ys},其中Xs代表源域的圖像,Ys代表圖像Xs對(duì)應(yīng)的真實(shí)標(biāo)簽,源域數(shù)據(jù)集S中包含Ns張圖像,Ns張圖像共具有Is個(gè)身份標(biāo)簽,源域中每個(gè)行人圖像xs,i∈Xs(i=1,2,···,Ns)具有唯一的身份標(biāo)簽ys,i∈Ys.
給定一個(gè)無(wú)標(biāo)簽的目標(biāo)域數(shù)據(jù)集T={Xt},其中Xt代表目標(biāo)域的圖像,數(shù)量為Nt,每張行人圖像xt,i∈Xt都不具有標(biāo)簽信息.本文利用自適應(yīng)融合網(wǎng)絡(luò)模塊來(lái)學(xué)習(xí)跨域的行人重識(shí)別,以便將有標(biāo)簽的源域?qū)W習(xí)到的知識(shí)遷移到無(wú)標(biāo)簽的目標(biāo)域上利用.本文模型見(jiàn)圖1.首先,對(duì)目標(biāo)域訓(xùn)練集下的圖像進(jìn)行全相機(jī)細(xì)粒度風(fēng)格轉(zhuǎn)換得到新的目標(biāo)域;然后,對(duì)模型采用雙網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,并通過(guò)自適應(yīng)的融合策略將兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)到的知識(shí)進(jìn)行結(jié)合得到融合網(wǎng)絡(luò),融合網(wǎng)絡(luò)的分類結(jié)果作為雙網(wǎng)絡(luò)結(jié)構(gòu)的監(jiān)督信號(hào)指導(dǎo)模型訓(xùn)練.
圖1 自適應(yīng)融合網(wǎng)絡(luò)模型Fig.1 Adaptive fusion network model
為將源域?qū)W習(xí)到的知識(shí)更好地遷移到目標(biāo)域上,本文利用源域數(shù)據(jù)集對(duì)模型進(jìn)行預(yù)訓(xùn)練,并將預(yù)訓(xùn)練的模型參數(shù)作為訓(xùn)練目標(biāo)域數(shù)據(jù)集的初始化參數(shù).
對(duì)于參數(shù)為θ的深度神經(jīng)網(wǎng)絡(luò)模型Ms,首先在源域數(shù)據(jù)集上對(duì)模型進(jìn)行有監(jiān)督地預(yù)訓(xùn)練.源域中的每張行人圖像xs,i∈Xs通過(guò)模型Ms提取出特征f(xs,i |θ),并最終輸出對(duì)圖像的身份預(yù)測(cè)p(xs,i |θ).本文采用交叉熵?fù)p失和三元組損失[28]來(lái)優(yōu)化源域預(yù)訓(xùn)練模型.交叉熵?fù)p失定義為:
為了解決目標(biāo)域數(shù)據(jù)集缺少真實(shí)標(biāo)簽的問(wèn)題,本文利用Mini-Batchk-means 聚類算法產(chǎn)生偽標(biāo)簽用于訓(xùn)練.首先,目標(biāo)域圖像經(jīng)過(guò)網(wǎng)絡(luò)提取得到特征f(xt,i |θ). 其次,對(duì)特征f(xt,i |θ)進(jìn)行Mini-Batchk-means 聚類算法得到It個(gè)類別,同一個(gè)類別內(nèi)的圖像具有相同的偽標(biāo)簽yt.
為了充分利用聚類得到的偽標(biāo)簽進(jìn)行模型的提高,本文使用了交叉熵?fù)p失和三元組損失.模型的交叉熵?fù)p失定義為:
基于聚類的跨域行人重識(shí)別方法的效果往往與聚類算法的精度成正相關(guān),為了增強(qiáng)網(wǎng)絡(luò)對(duì)聚類偽標(biāo)簽的抗噪能力,本文模型采用雙網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行表征學(xué)習(xí).雙網(wǎng)絡(luò)結(jié)構(gòu)采用兩個(gè)相同的ResNet50 網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)進(jìn)行目標(biāo)域的訓(xùn)練,但對(duì)兩個(gè)網(wǎng)絡(luò)采用不同的預(yù)訓(xùn)練初始化參數(shù).同時(shí),為了使兩個(gè)網(wǎng)絡(luò)能夠?qū)W習(xí)到區(qū)別于彼此的特征,對(duì)輸入到兩個(gè)網(wǎng)絡(luò)中的目標(biāo)域圖像進(jìn)行不同的預(yù)處理,包括隨機(jī)翻轉(zhuǎn)、擦除、裁剪處理.
雙網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)專注于對(duì)抗偽標(biāo)簽噪聲問(wèn)題,防止出現(xiàn)單網(wǎng)絡(luò)結(jié)構(gòu)下噪聲隨著迭代不斷擴(kuò)大的情況.但是,隨著訓(xùn)練的進(jìn)行,兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)能力會(huì)逐漸靠近,可能會(huì)出現(xiàn)兩個(gè)網(wǎng)絡(luò)收斂到彼此相等的位置,這違背了雙網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)初衷.對(duì)此,為了保有兩個(gè)網(wǎng)絡(luò)每一次知識(shí)學(xué)習(xí)的經(jīng)驗(yàn),本文采用經(jīng)驗(yàn)平均模型代替兩個(gè)ResNet50 網(wǎng)絡(luò)進(jìn)行融合.經(jīng)驗(yàn)平均模型的參數(shù)是對(duì)應(yīng)的雙網(wǎng)絡(luò)結(jié)構(gòu)中網(wǎng)絡(luò)參數(shù)的加權(quán)平均,而不是通過(guò)反向傳播得到的,所以不會(huì)明顯增大網(wǎng)絡(luò)的計(jì)算量.對(duì)于在第T次迭代下網(wǎng)絡(luò)k的經(jīng)驗(yàn)平均模型定義為HT(θk),經(jīng)驗(yàn)平均模型對(duì)網(wǎng)絡(luò)每一次迭代的學(xué)習(xí)能力進(jìn)行保留,并通過(guò)式(5)進(jìn)行更新:
式中,α∈[0,1] 是一個(gè)動(dòng)量更新因子,HT-1(θk)是在(T-1)次迭代時(shí)網(wǎng)絡(luò)的經(jīng)驗(yàn)平均模型.當(dāng)T=0時(shí),H0(θk)=θk.
為了使雙網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練獲得更有效的監(jiān)督,本文選擇對(duì)雙網(wǎng)絡(luò)進(jìn)行知識(shí)融合.融合后的網(wǎng)絡(luò)包含兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)到的知識(shí),相比于單網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí),雙網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中進(jìn)行了相互補(bǔ)充,并且利用融合網(wǎng)絡(luò)的輸出去監(jiān)督兩個(gè)網(wǎng)絡(luò)的訓(xùn)練,可以有效避免噪聲隨著迭代的進(jìn)行而擴(kuò)大.雖然兩個(gè)網(wǎng)絡(luò)具有相同的結(jié)構(gòu),但是學(xué)習(xí)知識(shí)的能力是不同的,所以在每一次融合的時(shí)候不能單純地平等對(duì)待兩個(gè)網(wǎng)絡(luò).對(duì)此,提出一種自適應(yīng)融合策略用于解決兩個(gè)網(wǎng)絡(luò)的融合權(quán)重問(wèn)題.自適應(yīng)融合策略是基于類內(nèi)離散度和類間離散度計(jì)算得到的,類內(nèi)離散度表示每個(gè)圖像樣本特征和所屬類別平均特征的差距,類間離散度表示的是每個(gè)類別的平均特征和所有樣本的平均特征的差距.
具體地,通過(guò)聚類算法將所有目標(biāo)域樣本聚類到It個(gè)類別中,并用C來(lái)表示每個(gè)聚類,那么第k個(gè)網(wǎng)絡(luò)中的第i個(gè)聚類Ci的類內(nèi)離散度被定義為:
式中,μi,k是第i個(gè)聚類Ci中所有圖像在第k個(gè)網(wǎng)絡(luò)上的平均特征.第k個(gè)網(wǎng)絡(luò)中的第i個(gè)聚類Ci的類間離散度被定義為:
式中,μk是目標(biāo)域中所有訓(xùn)練樣本在第k個(gè)網(wǎng)絡(luò)上的平均特征,nt,i是目標(biāo)域中所有訓(xùn)練樣本的數(shù)量.利用類內(nèi)離散度和類間離散度得出第k個(gè)網(wǎng)絡(luò)的自適應(yīng)平衡因子:
自適應(yīng)平衡因子Jk量化了網(wǎng)絡(luò)的學(xué)習(xí)能力,Jk越大代表網(wǎng)絡(luò)的學(xué)習(xí)能力越強(qiáng).當(dāng)類間離散度變大或者類內(nèi)離散度變小的時(shí)候,Jk也會(huì)相應(yīng)地變大.通過(guò)自適應(yīng)平衡因子可以計(jì)算雙網(wǎng)絡(luò)結(jié)構(gòu)的自適應(yīng)融合權(quán)重:
式中,wk代表第k個(gè)網(wǎng)絡(luò)的融合權(quán)重.
在每次迭代獲得兩個(gè)網(wǎng)絡(luò)的經(jīng)驗(yàn)平均模型之后,通過(guò)融合權(quán)重比例對(duì)雙網(wǎng)絡(luò)進(jìn)行融合.由于融合網(wǎng)絡(luò)只用于雙網(wǎng)絡(luò)結(jié)構(gòu)的監(jiān)督,所以不會(huì)影響兩個(gè)網(wǎng)絡(luò)獨(dú)立地更新.參數(shù)為θf(wàn)自適應(yīng)融合網(wǎng)絡(luò)定義為:
由于融合網(wǎng)絡(luò)采用的是網(wǎng)絡(luò)對(duì)行人身份的分類預(yù)測(cè),而不是對(duì)聚類算法產(chǎn)生的偽標(biāo)簽進(jìn)行訓(xùn)練,所以設(shè)計(jì)了融合交叉熵?fù)p失和融合三元組損失來(lái)優(yōu)化雙網(wǎng)絡(luò)結(jié)構(gòu)模型.融合交叉熵?fù)p失利用了融合網(wǎng)絡(luò)的分類預(yù)測(cè)以及每個(gè)網(wǎng)絡(luò)的分類預(yù)測(cè),其定義為:
融合三元組損失是在三元組損失的基礎(chǔ)上結(jié)合分類預(yù)測(cè)得到:
最后結(jié)合基于偽標(biāo)簽的交叉熵?fù)p失和三元組損失以及基于融合網(wǎng)絡(luò)的融合交叉熵?fù)p失和融合三元組損失定義模型的整體損失:
式中,λid和λtri是權(quán)重參數(shù),用來(lái)平衡不同損失之間的影響.
雖然自適應(yīng)融合網(wǎng)絡(luò)可以有效減少聚類偽標(biāo)簽噪聲的影響,但是由于行人重識(shí)別數(shù)據(jù)集的行人圖像由多個(gè)不同視角的相機(jī)捕捉而成,相機(jī)風(fēng)格的變換使得即使是同一身份的行人也難以被分辨,造成網(wǎng)絡(luò)對(duì)相機(jī)具有一定的敏感性.受PTGAN[12]啟發(fā),本文利用生成對(duì)抗網(wǎng)絡(luò)降低模型對(duì)相機(jī)的敏感度.不同于PTGAN 在源域和目標(biāo)域間進(jìn)行風(fēng)格轉(zhuǎn)換,本文的風(fēng)格轉(zhuǎn)換模塊是在目標(biāo)域相機(jī)間進(jìn)行的細(xì)粒度級(jí)別的風(fēng)格轉(zhuǎn)換.
如圖2 所示,細(xì)粒度風(fēng)格轉(zhuǎn)換模塊將行人圖像在廣義上分割成行人因子和風(fēng)格因子,行人因子包含圖像中行人部分,風(fēng)格因子包含除行人部分外的其他部分.其中每個(gè)相機(jī)下的風(fēng)格因子假定是相同的,利用starGAN 網(wǎng)絡(luò)為每個(gè)相機(jī)訓(xùn)練一個(gè)生成因子的生成器.最后,通過(guò)保留每張圖像的行人因子,而替換圖像的風(fēng)格因子達(dá)到行人圖像風(fēng)格轉(zhuǎn)換的目的.對(duì)于存在E個(gè)不同視角的相機(jī),圖像xt,i∈Xt屬于相機(jī)A,那么需要生成相機(jī) (E-A)風(fēng)格的轉(zhuǎn)換圖像.最終,將生成后的圖像加入到目標(biāo)域數(shù)據(jù)集一起訓(xùn)練.
圖2 細(xì)粒度風(fēng)格轉(zhuǎn)換模塊Fig.2 Fine-grained style conversion module
本文提出的自適應(yīng)融合網(wǎng)絡(luò)的跨域行人重識(shí)別方法總的算法流程見(jiàn)算法1.
算法1.自適應(yīng)融合網(wǎng)絡(luò)
為了驗(yàn)證方法的有效性,本文在Market1501[29]、DukeMTMC-ReID[30]和MSMT17[15]三個(gè)行人重識(shí)別基準(zhǔn)數(shù)據(jù)集上對(duì)本文方法進(jìn)行評(píng)估,包括與主流方法的對(duì)比、消融實(shí)驗(yàn)和參數(shù)分析.
Market1501[29]數(shù)據(jù)集包含取自6 個(gè)不同相機(jī)視角的1 501 個(gè)身份的總共32 668 張行人圖像,其中包含751 個(gè)身份的12 936 張圖像用于訓(xùn)練集,另外包含750 個(gè)身份的19 732 張圖像用于測(cè)試集.在測(cè)試集中又分為包含19 732 張的Gallery 集和3 368張的Query 集.這些圖像通過(guò)可變形部分模型[31]進(jìn)行身份檢測(cè).
DukeMTMC-ReID[30]數(shù)據(jù)集是DukeMTMC[32]的子集,包含取自8 個(gè)攝像機(jī)視角的1 812 個(gè)身份圖像.其中16 552 用作訓(xùn)練集,17 661 用作Gallery 集,2 228 用作Query 集.在1 812 個(gè)身份中,1 404個(gè)出現(xiàn)在至少2 個(gè)攝像頭,其余的出現(xiàn)在1 個(gè)攝像頭中.
MSMT17[15]數(shù)據(jù)集是目前行人重識(shí)別領(lǐng)域最大的數(shù)據(jù)集.由12 臺(tái)室外攝像機(jī)和3 臺(tái)室內(nèi)攝像機(jī)拍攝的126 441 張照片組成.這些圖像代表4 101個(gè)身份,并按照1:3的比例隨機(jī)分為訓(xùn)練集和測(cè)試集.訓(xùn)練集包含1 041 個(gè)身份,共32 621 張圖像,而測(cè)試集包含3 060 個(gè)身份,共93 820 張圖像.對(duì)于測(cè)試集,隨機(jī)選擇11 659 張圖像作為Query 集,而其他82 161 張圖像作為Gallery 集.
本文實(shí)驗(yàn)使用平均精度均值(Mean average precision,mAP)和Rank-n準(zhǔn)確率對(duì)本文中涉及到的行人重識(shí)別模型性能進(jìn)行量化評(píng)價(jià).其中,mAP將所有類別的平均精度進(jìn)行綜合加權(quán)平均而得到的;Rank-n是檢索結(jié)果中前n位候選的準(zhǔn)確率,本文主要選擇Rank-1、Rank-5 和Rank-10 進(jìn)行評(píng)估.
本文模型的訓(xùn)練包含源域的預(yù)訓(xùn)練和目標(biāo)域的跨域自適應(yīng)兩部分.在圖像輸入到網(wǎng)絡(luò)之前,將圖像的大小調(diào)整為256 × 128.根據(jù)經(jīng)驗(yàn)將邊距參數(shù)m設(shè)置為0.5.
本文實(shí)驗(yàn)基于Pytorch 框架,使用Pytorch1.1版本,使用2 個(gè)GTX-2080TI GPU 進(jìn)行訓(xùn)練,1 個(gè)GTX-2080TI GPU 進(jìn)行測(cè)試.采用自適應(yīng)矩估計(jì)優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,權(quán)值衰減為0.0005.
在源域的預(yù)訓(xùn)練階段,本文使用在ImageNet[33]上預(yù)訓(xùn)練過(guò)的ResNet-50 作為主干網(wǎng)絡(luò).初始學(xué)習(xí)率設(shè)置為0.00035,總共進(jìn)行80 次迭代,并在第40次和70 次的迭代時(shí),將初始學(xué)習(xí)率減少到了原來(lái)的1/10.
在目標(biāo)域的跨域自適應(yīng)階段,利用在源域預(yù)訓(xùn)練中得到的預(yù)訓(xùn)練權(quán)重作為網(wǎng)絡(luò)的初始權(quán)重.總共進(jìn)行80 次迭代,學(xué)習(xí)率固定設(shè)置為0.0001,并將式(5)中的動(dòng)量更新因子α設(shè)置為0.999,式(15)中的權(quán)重參數(shù)λid設(shè)置為0.6,λtri設(shè)置為0.8.分別將作為目標(biāo)域的Market1501、DukeMTMC-ReID 和MSMT17 實(shí)驗(yàn)中Mini-Batchk-menas 聚類算法的聚類個(gè)數(shù)設(shè)置為500、700 和1 500.
本文模型的參數(shù)量如表1 所示.在計(jì)算單網(wǎng)絡(luò)參數(shù)量的情況下乘2 得到模型整體的參數(shù)量.
表1 本文的自適應(yīng)融合網(wǎng)絡(luò)模型參數(shù)量表Table 1 The model parameter number of the proposed adaptive fusion network
3.3.1 與主流行人重識(shí)別方法比較
本節(jié)將本文提出的算法與當(dāng)前主流的行人重識(shí)別算法進(jìn)行比較.比較方法包括:1)無(wú)監(jiān)督方法.自底向上聚類(Bottom-up clustering,BUC)[34]和軟化的相似性學(xué)習(xí)(Softened similarity learning,SSL)[35];2)無(wú)監(jiān)督跨域的方法.多任務(wù)中層特征對(duì)齊網(wǎng)絡(luò)(Multi-task mid-level feature alignment,MMFA)[36]、可遷移聯(lián)合屬性-身份深度學(xué)習(xí)(Transferable joint attribute-identity deep learning,TJ-AIDL)[11]、基于差異的最大平均差異損失(Dissimilarity-based maximum mean discrepancy loss,D-MMD)[12]、三重對(duì)抗學(xué)習(xí)和多視角想象推理網(wǎng)絡(luò)(Triple adversarial learning and multi-view imaginative reasoning network,TAL-MIRN)[37](基于域分布對(duì)齊的方法);自適應(yīng)遷移網(wǎng)絡(luò)(Adaptive transfer network,ATNet)[13]、相似性保持生成對(duì)抗網(wǎng)絡(luò)+局部最大池化(Similarity preserving generative adversarial network+local max pooling,SPGAN+LMP)[14]、異構(gòu)-同構(gòu)學(xué)習(xí)(Hetero-homogeneous learning,HHL)[16](基于GAN的方法);范例相機(jī)近鄰不變性(Exemplar-invariance,camera-invariance and neighborhood-invariance,ECN)[17]、多標(biāo)簽參考學(xué)習(xí)(Multilabel reference learning,MAR)[18](基于特征相似性計(jì)算的方法);無(wú)監(jiān)督領(lǐng)域自適應(yīng)行人重識(shí)別(Unsupervised domain adaptive person re-identification,UDAP)[38]、帶有漸進(jìn)式增強(qiáng)框架的基于部分的卷積基線(Partbased convolutional baseline-progressive augmentation framework,PCB-PAST)[39]、自相似性分組(Self-similarity grouping,SSG)[20]、增廣判別聚類(Augmented discriminative clustering,AD-Cluster)[21]、同步平均教學(xué)框架(Mutual mean-teaching framework,MMT)[23]、多專家頭腦風(fēng)暴網(wǎng)絡(luò)(Multiple expert brainstorming network,MEBNet)[40]、軟迭代標(biāo)簽聚類(Soft iterative label clustering,SILC)[41]、雙流互反解糾纏學(xué)習(xí)(Dualstream reciprocal disentanglement learning,DRDL)[42]、基于漸進(jìn)式表征增強(qiáng)的自訓(xùn)練(Self-training with progressive representation enhancement,PREST)[43]、具有混合記憶的自步對(duì)比學(xué)習(xí)框架(Self-paced contrastive learning with hybrid memory,SpCL)[44]、多損失優(yōu)化學(xué)習(xí)(Multi-loss optimization learning,MLOL)[45]、不確定性引導(dǎo)的噪聲回彈網(wǎng)絡(luò)(Uncertainty-guided noise resilient network,UNRN)[46](基于聚類的方法).“本文方法+不確定性”是在文獻(xiàn)[46]和文獻(xiàn)[47]的啟發(fā)下,利用Kullback-Leibler (KL)散度計(jì)算雙網(wǎng)絡(luò)結(jié)構(gòu)中兩個(gè)網(wǎng)絡(luò)的不確定性,然后利用不確定性來(lái)約束損失函數(shù)的計(jì)算.所有對(duì)比的方法結(jié)果是從源論文中獲得的,無(wú)監(jiān)督方法沒(méi)有用到源域數(shù)據(jù)集,僅在目標(biāo)域數(shù)據(jù)集上進(jìn)行訓(xùn)練.
表2 展示了在Market1501 和DukeMTMCReID 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.由表2 可以看出,在實(shí)驗(yàn)準(zhǔn)確率上無(wú)監(jiān)督跨域方法普遍優(yōu)于無(wú)監(jiān)督方法,其中采用聚類算法的無(wú)監(jiān)督跨域行人重識(shí)別相比于其他3 個(gè)無(wú)監(jiān)督跨域行人重識(shí)別算法在整體上可達(dá)到最佳效果.如表1 所示,當(dāng)以DukeMTMC-Re-ID 作源域,Market1501 作目標(biāo)域時(shí),本文方法的mAP 達(dá)到了79.1%,Rank-1 達(dá)到了91.8%.當(dāng)以Market1501 作源域,DukeMTMC-ReID 作目標(biāo)域時(shí),本文方法的mAP 達(dá)到了68.5%,Rank-1 達(dá)到了81.7%.這是由于本文的融合網(wǎng)絡(luò)模型很好地抑制了偽標(biāo)簽噪聲,所以可以更有效地利用偽標(biāo)簽去訓(xùn)練.同時(shí),采用基于細(xì)粒度的風(fēng)格轉(zhuǎn)換模塊可以在克服相機(jī)敏感性的問(wèn)題上擴(kuò)充數(shù)據(jù)集,提升了模型的識(shí)別能力.當(dāng)模型在雙網(wǎng)絡(luò)結(jié)構(gòu)知識(shí)互補(bǔ)的基礎(chǔ)上對(duì)損失加入不確定性的差異約束使得模型準(zhǔn)確率得到了進(jìn)一步的提升,在以Market1501 作目標(biāo)域和DukeMTMC-ReID 作目標(biāo)域時(shí),“本文方法 +不確定性”的mAP 分別達(dá)到了79.9% 和69.8%,Rank-1 分別達(dá)到了92.3% 和82.1%.
表2 在Market1501 和DukeMTMC-ReID 上與主流方法比較 (%)Table 2 Comparison with the state-of-the-art methods on Market1501 and DukeMTMC-ReID (%)
與SpCL 方法相比,本文方法在Market-to-Duke 上的準(zhǔn)確率略低,這是由于SpCL 對(duì)源域和目標(biāo)域上的所有可用信息進(jìn)行編碼以學(xué)習(xí)特征,但是這同樣會(huì)使其域適應(yīng)性能力降低.在雙網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上利用不確定性約束損失函數(shù)的“本文方法+不確定性”中,除了Rank-1 之外都有所提升,且mAP 比SpCL 高1%,說(shuō)明了利用不確定性對(duì)損失函數(shù)進(jìn)行約束可以有效降低偽標(biāo)簽噪聲.
MLOL 方法在Market-to-Duke 上實(shí)驗(yàn)表現(xiàn)較好,然而在其他實(shí)驗(yàn)中的識(shí)別準(zhǔn)確率都遠(yuǎn)低于本文方法.如表3 所示,SpCL 和MLOL 在MSMT17 數(shù)據(jù)集上的低準(zhǔn)確率側(cè)面印證了兩者的局限性.
為進(jìn)一步驗(yàn)證本文方法的有效性,在更大更接近現(xiàn)實(shí)場(chǎng)景的MSMT17 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).表3為在MSMT17 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.當(dāng)DukeMTMC-ReID 數(shù)據(jù)集作為源域時(shí),本文方法的mAP 達(dá)到30.2%,Rank-1 達(dá)到60.4%;當(dāng)Market1501 數(shù)據(jù)集作為源域時(shí),mAP 達(dá)到29.4%,Rank-1 達(dá)到59.6%.在具有挑戰(zhàn)性的大型數(shù)據(jù)集MSMT17 上的高性能表現(xiàn)進(jìn)一步證明了本文方法的有效性,而且通過(guò)不確定性對(duì)損失函數(shù)進(jìn)行約束同樣在MSMT17的數(shù)據(jù)集上也顯示了它的有效性,Duke-to-MSMT17 和Market-to-MSMT17的各項(xiàng)指標(biāo)都有所提升.
表3 在MSMT17 上與主流方法比較 (%)Table 3 Comparison with the state-of-the-art methods on MSMT17 (%)
3.3.2 消融實(shí)驗(yàn)
為了驗(yàn)證雙網(wǎng)絡(luò)結(jié)構(gòu)、經(jīng)驗(yàn)平均模型、自適應(yīng)融合策略以及風(fēng)格轉(zhuǎn)換4 個(gè)模塊的有效性,在Market1501 和DukeMTMC-reID 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示.直接轉(zhuǎn)換表示目標(biāo)域數(shù)據(jù)集直接在源域的預(yù)訓(xùn)練模型上進(jìn)行測(cè)試;基線表示僅使用聚類方法的偽標(biāo)簽部分進(jìn)行訓(xùn)練.F 為雙網(wǎng)絡(luò)結(jié)構(gòu)且沒(méi)有采用自適應(yīng)融合策略,T 為經(jīng)驗(yàn)平均模型,A 為自適應(yīng)融合策略,S 為細(xì)粒度風(fēng)格轉(zhuǎn)換模塊,w 為添加上述模塊.
表4 在Market1501 和DukeMTMC-ReID 上的消融實(shí)驗(yàn) (%)Table 4 Ablation experiments on Market1501 and DukeMTMC-ReID (%)
為了促進(jìn)網(wǎng)絡(luò)的融合,先利用平均融合代替自適應(yīng)融合,進(jìn)行“F+A”的實(shí)驗(yàn)時(shí)再采用自適應(yīng)融合策略.另外,細(xì)粒度風(fēng)格轉(zhuǎn)換模塊只應(yīng)用在目標(biāo)域數(shù)據(jù)集上,而不用于源域數(shù)據(jù)集的預(yù)訓(xùn)練.消融實(shí)驗(yàn)證明了提出的雙網(wǎng)絡(luò)結(jié)構(gòu)、經(jīng)驗(yàn)平均模型、自適應(yīng)融合策略以及風(fēng)格轉(zhuǎn)換每一個(gè)模塊單獨(dú)的有效性及它們之間相互組合的有效性.采用雙網(wǎng)絡(luò)結(jié)構(gòu)使模型準(zhǔn)確率相比于“基線”得到大幅度的提升,之后以雙網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)分別加入自適應(yīng)融合模塊、經(jīng)驗(yàn)平均模型和細(xì)粒度風(fēng)格轉(zhuǎn)換模塊都使模型準(zhǔn)確率進(jìn)一步得到提高.最終,將4 個(gè)模塊一起使用的模型達(dá)到了最優(yōu)的效果,mAP 為79.1%,Rank-1為91.8%.值得注意的是,本文的風(fēng)格轉(zhuǎn)換模塊可以作為一個(gè)即插即用的模塊,用于增強(qiáng)模型對(duì)相機(jī)風(fēng)格變換的魯棒性,對(duì)于同一數(shù)據(jù)集只需要進(jìn)行一次風(fēng)格轉(zhuǎn)換即可在后續(xù)的實(shí)驗(yàn)中多次應(yīng)用.
3.3.3 參數(shù)分析
本節(jié)分析了損失函數(shù)中平衡交叉熵?fù)p失和融合交叉熵?fù)p失的超參數(shù)λid、平衡三元組損失和融合三元組損失的超參數(shù)λtri、Mini-Batchk-means 聚類算法應(yīng)用在不同數(shù)據(jù)集的超參數(shù)聚類數(shù)量.默認(rèn)情況下,改變一個(gè)超參數(shù)的同時(shí)另外兩個(gè)超參數(shù)固定不變.
圖3 比較了式(15)中不同的λid取值對(duì)實(shí)驗(yàn)結(jié)果的影響.當(dāng)λid=0 時(shí),表示本文方法只應(yīng)用融合交叉熵?fù)p失;當(dāng)λid=1 時(shí),表示本文方法只應(yīng)用交叉熵?fù)p失.可以看出,λid取值為0 或1的實(shí)驗(yàn)結(jié)果都沒(méi)有取中間值好,這表明同時(shí)交叉熵?fù)p失和融合交叉熵?fù)p失的必要性,也證明融合網(wǎng)絡(luò)模型的有效性.當(dāng)λid=0.8 時(shí),本文模型達(dá)到了最高準(zhǔn)確率.
圖3 λ id 取值評(píng)估實(shí)驗(yàn)Fig.3 Evaluation of different values ofλid
圖4 比較了式(15)中不同的λtri取值對(duì)實(shí)驗(yàn)結(jié)果的影響.當(dāng)λtri=0 時(shí),表示只應(yīng)用融合三元組損失;當(dāng)λtri=1 時(shí),表示只應(yīng)用三元組損失.當(dāng)λtri=0.6時(shí),本文模型達(dá)到了最高的準(zhǔn)確率.在圖5中,比較了不同的聚類數(shù)量取值對(duì)實(shí)驗(yàn)結(jié)果的影響.當(dāng)進(jìn)行Duke-to-Market 和Market-to-Duke的實(shí)驗(yàn)時(shí),聚類數(shù)量為500 和700 時(shí)模型效果最好.當(dāng)進(jìn)行Duketo-MSMT17 和Market-to-MSMT17的實(shí)驗(yàn)時(shí),聚類數(shù)量為1 500 時(shí)模型效果最好.
圖4 λ tri 取值評(píng)估實(shí)驗(yàn)Fig.4 Evaluation of different values ofλtri
圖5 聚類數(shù)量取值評(píng)估實(shí)驗(yàn)Fig.5 Evaluation of different numbers of clustering
3.3.4 聚類算法對(duì)比
在基于聚類的跨域行人重識(shí)別方法中,聚類算法的效果與實(shí)驗(yàn)結(jié)果的準(zhǔn)確率成正比關(guān)系,即聚類算法效果越好,實(shí)驗(yàn)結(jié)果準(zhǔn)確率越高.聚類算法效果越好,聚類偽標(biāo)簽所帶有的噪聲就越少,模型訓(xùn)練就越不容易產(chǎn)生偏差.為了探究不同聚類算法的應(yīng)用對(duì)本文模型的影響,在本節(jié)對(duì)Mini-Batchkmeans、k-means 和噪聲環(huán)境下基于密度的空間聚類研究(Density-based spatial clustering of applications with noise,DBSCAN)聚類算法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表5 所示.為了對(duì)比模型應(yīng)用不同聚類算法時(shí)在運(yùn)算效率上的差異,表5 展示了模型采用Mini-Batchk-means、k-means 和DBSCAN 聚類算法時(shí)每次迭代的運(yùn)算時(shí)間(s).當(dāng)使用Mini-Batchk-means或k-means 聚類算法時(shí),兩者的實(shí)驗(yàn)準(zhǔn)確率相差不大,k-means 效果略好于Mini-Batchk-means,但k-means 所需運(yùn)行時(shí)間高于Mini-Batchk-means.當(dāng)使用DBSCAN 聚類算法時(shí),在Duke-to-Market 實(shí)驗(yàn)時(shí)mAP 達(dá)到了80.1%,Rank-1 達(dá)到了92.3%;在Market-to-Duke實(shí)驗(yàn)時(shí)mAP 達(dá)到了69.9%,Rank-1 達(dá)到了82.1%。相比于使用Mini-Batchk-means或k-means,實(shí)驗(yàn)準(zhǔn)確率有著明顯的提升,但是DBSCAN 所需的運(yùn)算時(shí)間也是遠(yuǎn)高于Mini-Batchk-means和kmeans的.出于對(duì)運(yùn)算時(shí)間的考慮和準(zhǔn)確率的綜合考慮,本文模型采用Mini-Batchk-means 進(jìn)行實(shí)驗(yàn).
表5 聚類算法對(duì)比Table 5 Comparison of clustering algorithms
目前基于聚類的跨域行人重識(shí)別方法忽略了聚類偽標(biāo)簽的噪聲問(wèn)題,導(dǎo)致模型效果無(wú)法到達(dá)有監(jiān)督的行人重識(shí)別方法水平.本文提出基于細(xì)粒度風(fēng)格轉(zhuǎn)換的自適應(yīng)融合網(wǎng)絡(luò)方法,采用雙網(wǎng)絡(luò)結(jié)構(gòu)共同學(xué)習(xí),并對(duì)雙網(wǎng)絡(luò)進(jìn)行自適應(yīng)融合,利用融合后的網(wǎng)絡(luò)監(jiān)督雙網(wǎng)絡(luò)訓(xùn)練.同時(shí),為了解決數(shù)據(jù)集圖像對(duì)相機(jī)敏感性的問(wèn)題,對(duì)目標(biāo)域圖像進(jìn)行細(xì)粒度的風(fēng)格轉(zhuǎn)換,將轉(zhuǎn)換后的擴(kuò)充目標(biāo)域數(shù)據(jù)集應(yīng)用于訓(xùn)練.與現(xiàn)有的基于聚類的跨域方法相比,本文模型取得了更高的準(zhǔn)確率.在三個(gè)行人重識(shí)別基準(zhǔn)數(shù)據(jù)集Market1501、DukeMTMC-ReID、MSMT17上的實(shí)驗(yàn)結(jié)果充分驗(yàn)證了本文方法的有效性.未來(lái)研究工作將考慮進(jìn)行多個(gè)不同網(wǎng)絡(luò)結(jié)構(gòu)的融合,以便使不同網(wǎng)絡(luò)可以學(xué)習(xí)到彼此更具有差異性的知識(shí),引導(dǎo)模型走出局部最優(yōu),減少偽標(biāo)簽噪聲的影響.