摘 要:為了緩解基于偽標簽的無監(jiān)督域自適應(yīng)行人重識別(UDA person ReID)方法中噪聲標簽帶來的負面影響,提出了一種基于可靠性集成的無監(jiān)督域自適應(yīng)行人重識別(UDA-RI)方法。該方法包含漸進式偽標簽提煉策略和基于可靠性集成策略兩個部分。漸進式偽標簽提煉策略通過建立一個不確定性的定量標準來衡量偽標簽的可靠性,并采用漸進式采樣使得模型得到更加穩(wěn)定的訓(xùn)練。基于可靠性集成策略考慮了來自不同適應(yīng)時刻的知識,將來自不同迭代的模型按照可靠性高低分配的權(quán)重進行了集成,并將自集成后的兩種不同架構(gòu)的模型再進行集成作為最終推理模型。實驗表明,與目前先進的無監(jiān)督域自適應(yīng)行人重識別方法相比,UDA-RI方法在Market1501、DukeMTMC-ReID和MSMT17數(shù)據(jù)集上都取得了優(yōu)越的性能。
關(guān)鍵詞: 無監(jiān)督域自適應(yīng);行人重識別;可靠性;集成
中圖分類號: TP391.41 文獻標志碼:A文章編號: 1001-3695(2024)04-039-1228-06
doi: 10.19734/j.issn.1001-3695.2023.07.0358
Unsupervised domain adaptive person re-identificationbased on reliability integration
Wen Rui Kong Guangqian Duan Xun 2
Abstract:This paper proposed an unsupervised domain adaptation person re-identification base on reliability integration(UDA-RI) method aimed at alleviating the negative impact of noisy labels in the pseudo-labeling-based unsupervised domain adaptation person re-identification(UDA person ReID). This method consisted of two parts, such as progressive pseudo label refinement strategy and reliability integration strategy. The progressive pseudo label refinement strategy established a quantitative standard for measuring the uncertainty of pseudo labels and adopted gradual sampling to make the model more stable du-ring training. The reliability integration strategy considered knowledge from different adaptation moments, allocated weights according to the reliability levels of models from different iterations, integrated the self-integrated models with different architectures, and used them as the final inference model. Experimental results show that compared with the advanced unsupervised domain adaptation person re-identification methods, the UDA-RI method achieves superior performance on Market150 DukeMTMC-ReID, and MSMT17 datasets. Key words:unsupervised domain adaptive; person re-identification; reliability; integration
0 引言
行人重識別(ReID)旨在根據(jù)給定的單個目標人物從不同相機拍攝的圖像中匹配目標行人的所有圖像。隨著最近深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,行人重識別已經(jīng)取得了很大的進展。但大多數(shù)研究是在有監(jiān)督的情況下進行的,由于領(lǐng)域的差距,在現(xiàn)有數(shù)據(jù)集上訓(xùn)練的行人重識別模型的性能對于來自新的視頻監(jiān)控系統(tǒng)的人物圖像顯然會受到影響。在現(xiàn)實世界場景中,行人重識別數(shù)據(jù)的收集和標注是非常費時費力的,這使得有監(jiān)督的方法不太可取。因此,在過去的幾年里,無監(jiān)督域自適應(yīng)行人重識別(UDA person ReID)已經(jīng)吸引了越來越多的關(guān)注。
在目標域上生成可靠的身份標簽被看作是UDA任務(wù)的核心?;陬I(lǐng)域轉(zhuǎn)換的方法直接應(yīng)用GAN[1]將行人圖像的風(fēng)格從源域轉(zhuǎn)移到目標域,同時保留身份信息以訓(xùn)練模型,然而,人類形態(tài)的復(fù)雜性和ReID數(shù)據(jù)集中有限的實例數(shù)量限制了生成圖像的質(zhì)量。基于屬性對齊的方法引入了屬性來彌補領(lǐng)域的差距,這些方法引入了額外的注釋信息,違背了UDA person ReID任務(wù)的目的。為了更好地適應(yīng)目標域的分布,并利用目標域的身份知識進行訓(xùn)練,基于偽標簽的方法在目標域中應(yīng)用了聚類算法以獲得更好的性能,同時基于聚類的偽標簽法也保持著目前最先進的性能。但是由于不理想的特征嵌入和不完善的聚類質(zhì)量,通過聚類算法產(chǎn)生的偽標簽也是有噪聲的,而錯誤的偽標簽會在微調(diào)階段誤導(dǎo)網(wǎng)絡(luò)優(yōu)化和損害特征學(xué)習(xí),且錯誤偽標簽造成的負面影響會隨著訓(xùn)練程序的進行而傳播和放大,所以如何識別噪聲偽標簽及在優(yōu)化中減少錯誤標簽樣本的負面影響,是一個富有挑戰(zhàn)性的難題。
針對上述提到的關(guān)鍵問題,筆者觀察到錯誤標簽的樣本身份之間的概率分布與具有正確偽標簽樣本的概率分布有明顯不同,有正確偽標簽的樣本是明確的,只有一個預(yù)測峰值,即在相應(yīng)的真實身份中有很高的概率占比,而在其他身份中保持很低的概率占比。與此相反,錯誤的偽標簽的樣本是模糊的,會存在多個預(yù)測峰值。在以上明顯差異分析下,本文通過測量偽標簽的預(yù)測分布和理想分布之間的不一致性來對概率不確定性進行建模,提出了一個漸進式偽標簽提煉策略,通過對樣本不確定性的估測,選擇高可信度的樣本進行訓(xùn)練,并將所選樣本的不確定性降至最低,以提高無監(jiān)督域自適應(yīng)行人重識別的性能。
另一個重要的觀察是,由于不同迭代會選擇來自目標域的不同數(shù)量的可靠樣本,而不同迭代模型擁有不同的知識水平,由此假設(shè),在不同迭代中獲得的知識是互補的,所以提出在最終模型中集成來自不同優(yōu)化時刻的模型,即通過用相應(yīng)迭代中訓(xùn)練樣本標簽的可靠性平均值作為集成的權(quán)重,然后進行加權(quán)平均得到最終模型。綜上,本文提出了一種基于可靠性集成融合策略。
本文的主要貢獻可以歸納為以下幾點:
a)提出漸進式偽標簽提煉策略,建立了一個定量標準來衡量偽標簽的不確定性,從而挑選高可信度的樣本進行訓(xùn)練,并將所選樣本的不確定性降至最低,以提高最終模型的可靠性。
b)提出一種基于可靠性集成融合策略,在訓(xùn)練階段,將同一架構(gòu)不同優(yōu)化時刻的模型根據(jù)可靠性進行集成,在評估測試階段,將訓(xùn)練階段得到的不同架構(gòu)的模型進行結(jié)合。兩次集成是為了模型能夠?qū)W到更全面的知識,以提高無監(jiān)督域自適應(yīng)行人重識別的性能。
c)進行了廣泛的實驗,本文方法在Duke→Market任務(wù)上的mAP與Rank-1分別達到90.95%和94.03%,證明了方法的有效性。
1 相關(guān)工作
近年來,無監(jiān)督域自適應(yīng)行人重識別因其實際應(yīng)用而受到廣泛關(guān)注。UDA方法可以將學(xué)習(xí)到的知識從一個帶注釋的源域轉(zhuǎn)移到一個未標記的目標域,從而降低成本。該領(lǐng)域現(xiàn)有的大多數(shù)方法和途徑可以分為基于領(lǐng)域轉(zhuǎn)換的方法和基于偽標簽的方法兩大類。
基于域轉(zhuǎn)換的方法利用風(fēng)格遷移技術(shù)將源圖像轉(zhuǎn)移到目標領(lǐng)域。然后利用帶有繼承標簽的轉(zhuǎn)移圖像來微調(diào)在源域上預(yù)訓(xùn)練的模型。SPGAN[2]和PTGAN[3]使用GAN來轉(zhuǎn)換源域圖像以匹配目標域的圖像風(fēng)格。HHL[4]提出根據(jù)目標相機風(fēng)格轉(zhuǎn)換圖像來學(xué)習(xí)相機不變的嵌入。然而,圖像生成的質(zhì)量仍然不令人滿意,而且目標域的信息沒有被充分發(fā)掘,因為目標域的圖像只被用來提供風(fēng)格監(jiān)督信號。
基于偽標簽的方法,也稱為基于聚類的方法,一個在聚類和微調(diào)之間交替進行的迭代過程[5~9]。重要的是,基于偽標簽的方法取得了比域轉(zhuǎn)換方法更好的結(jié)果,并在幾乎所有的公共數(shù)據(jù)集上保持了迄今為止最先進的性能。此外,這些方法避免了基于轉(zhuǎn)換的方法需要生成圖像的計算開銷。聚類方法通過聚類生成偽標簽,然后用生成的偽標簽對模型進行微調(diào)。Fan等人[10]提出為未標記的訓(xùn)練樣本交替分配標簽,用生成的目標優(yōu)化網(wǎng)絡(luò)。Fu等人[11]提出了一種自相似性分組SSG的方法,為全局和局部特征分配不同的偽標簽。為了減輕有噪聲的硬偽標簽的影響,MMT[12]訓(xùn)練兩個成對網(wǎng)絡(luò)并使用它們的移動平均網(wǎng)絡(luò)校正它們的偽標簽,然而,這種訓(xùn)練方法會導(dǎo)致兩個模型相互擬合。此外,MEB-Net[13]通過建立三個網(wǎng)絡(luò)來進行互均值學(xué)習(xí)。但是這些方法忽略了聚類方法產(chǎn)生的錯誤偽標簽,阻礙了這些方法的進步。
為了量化和識別偽標簽的正確性,不確定性的建模和評估顯得非常關(guān)鍵。Kendall等人[14]和Chang等人[15]建立了一個端到端的框架來衡量觀察噪聲,并減輕其負面影響,以便更好地進行網(wǎng)絡(luò)優(yōu)化。Zheng等人[16]提出在語義分割中估計預(yù)測偽標簽的正確性。He等人[17]提出了一種新的邊框回歸損失,即KL損失,用于同時學(xué)習(xí)邊界盒回歸和定位不確定性。UAST[18]提出了一種新的基于一般分布的回歸公式來學(xué)習(xí)邊界盒的定位不確定性表示,實現(xiàn)更加準確的跟蹤。UaDAN[19]提出了一種不確定性感知域自適應(yīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以評估樣本預(yù)測的不確定性,并將其有效地用于自適應(yīng)樣本對齊。EUG[20]采用樣本之間的L2距離和特征空間中的聚類中心點來確定樣本的可靠性。UNRN[21]將教師和學(xué)生平均模型之間的輸出一致性作為不確定性來衡量,對單一模型聚類的分布進行建模,并將其與理想分布的概率距離作為不確定性來衡量。GLT[22]是一個群體意識到的標簽轉(zhuǎn)移框架,用于明確地糾正噪聲標簽,而本文挑選可靠的偽標簽來逐步訓(xùn)練模型,從而進一步隱性地糾正噪聲標簽。MMT[12]、MEB-Net[13]和SSKD[23]是基于集成學(xué)習(xí)的方法。它們考慮了兩個或更多的網(wǎng)絡(luò),并通過與其他網(wǎng)絡(luò)共享一個網(wǎng)絡(luò)的輸出來相互教學(xué),使整個系統(tǒng)在目標領(lǐng)域的辨別力更強。然而,在互教機制中,訓(xùn)練模型會給記憶和一般訓(xùn)練過程帶來復(fù)雜性。此外,噪聲標簽會傳播到其他模型中,阻礙了訓(xùn)練過程。盡管如此,基于集成學(xué)習(xí)的方法也有著最好的性能。
2 本文方法
2.1 整體架構(gòu)
基于可靠性自集成融合模型如圖1所示。本文方法是基于聚類的方法。在第一階段,使用經(jīng)過隨機裁剪、翻轉(zhuǎn)和擦除處理后的源域數(shù)據(jù)集對網(wǎng)絡(luò)進行預(yù)訓(xùn)練;在第二階段,使用模型M為目標域中的每個訓(xùn)練圖像提取特征向量,并使用K-means算法對其進行聚類,根據(jù)聚類結(jié)果分配偽標簽。由于領(lǐng)域的差距,偽標簽的分配并不是完全正確的;在第三階段,通過一個定量標準來衡量偽標簽的可靠性,并挑選高可信度的樣本進行訓(xùn)練,從而降低錯誤偽標簽所造成的影響。
2.2 漸進式偽標簽提煉模塊
通過聚類算法產(chǎn)生的偽標簽也是有噪聲的,這將誤導(dǎo)模型在目標域的訓(xùn)練且使性能降低。為了減少噪聲標簽的不利影響,對附有正確和錯誤標簽的樣本的輸出概率分布進行觀察與探索,帶有錯誤偽標簽的樣本概率分布往往具有多個峰值,即模糊性較高。反之,具有正確偽標簽的樣本概率分布中往往只有單一峰值,在正確ID的預(yù)測概率達到最值,且其余ID的預(yù)測概率值皆接近于零。受到這一觀察的啟發(fā),本文利用分布差異作為概率不確定性來軟性評估樣本的噪聲水平。目標域中的每個未標記的樣本xi通過聚類被賦予一個偽標簽yi,則樣本身份預(yù)測的概率分布為
其中:ωt是分類器的權(quán)重,其由第t個epoch的K-means聚類中心點來賦值; F (xsi|θ)即是特征向量。
在源域,本文以ysi為中心,將概率由大到小對稱排列,得到樣本的單脈沖分布。這一現(xiàn)象促使本文對目標域中樣本的廣義理想分布進行建模,則理想的概率分布為
其中:c是類別數(shù);λ=0.99是超參。
本文通過測量偽標簽的預(yù)測分布和理想分布之間的距離來衡量樣本的不確定性,這里使用的是JS散度(Jensen-Shannondivergence),它是由 KL 散度(Kullback-Leibler)的混合形式定義的,解決了KL散度非對稱的問題(使用KL散度訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,不同的輸入數(shù)據(jù)順序可能會導(dǎo)致不同的訓(xùn)練結(jié)果)。JS 散度的計算公式如下:
此處設(shè)U為樣本的不確定性,U越大則說明該樣本通過聚類生成的偽標簽錯誤的可能性較大,可靠性較低。其中KL(pred‖M) 是 pred 相對于平均分布M的KL散度,KL(ideal‖M) 是 ideal 相對于平均分布M的 KL 散度,平均分布M通常計算為
漸進式偽標簽提煉模塊:利用所提出的樣本不確定性的測量,如式(5)所示,通過設(shè)置哨兵(sentinel)的方式挑選較高可信度的樣本來進行訓(xùn)練,如式(6)所示,設(shè)計一個函數(shù)用于逐漸增加訓(xùn)練樣本,以實現(xiàn)偽標簽的漸進提煉。
其中:Nt是樣本總數(shù);R(t)·Nt指在第t個epoch所選擇的樣本數(shù)量。
2.3 基于可靠性集成學(xué)習(xí)模塊
由于訓(xùn)練階段采取漸進式偽標簽提煉的方法,則不同迭代階段所用于訓(xùn)練的目標領(lǐng)域可靠樣本的數(shù)量不同。根據(jù)這一特性,本文假設(shè)在不同迭代中獲得的知識是互補的,于是提出了基于可靠性自集成模塊,在最終模型中集成來自不同時刻優(yōu)化的知識。然而,由于模型辨別能力隨著迭代次數(shù)增加而增加(模型能夠從更多的數(shù)據(jù)中學(xué)習(xí)),本文則使用相應(yīng)迭代中訓(xùn)練數(shù)據(jù)樣本標簽的可靠性來對不同迭代的模型權(quán)重進行加權(quán)平均,得到自集成模型DenseNet121[24]與OSNet[25],如圖2所示。
通過考慮不同迭代中訓(xùn)練數(shù)據(jù)樣本標簽的可靠性,不同迭代時刻的模型權(quán)重得到了精確的分配??煽啃约訖?quán)平均有助于強化那些在訓(xùn)練中具有更高標簽可靠性的模型權(quán)重。該過程使得模型具有一定的自適應(yīng)性,使在不同訓(xùn)練階段學(xué)到的知識能夠得到合理的整合。例如,在模型的早期迭代中,可能存在一些標簽不夠準確的樣本,這些樣本的可靠性較低。通過將這些可靠性較低的樣本權(quán)重減小,模型能夠在訓(xùn)練后期更多地依賴于那些可靠性更高的樣本,從而提高了模型的魯棒性和性能。
參照最近的ReID文獻MMT[12]、MEB-Net[13]、P2LR[26],基于集成的方法有著較高性能,因此,為了讓模型學(xué)習(xí)到多樣性知識,本文也進一步應(yīng)用了集成思想,從而提高ReID模型在目標域上的性能。如圖2所示,模型在經(jīng)過微調(diào)和執(zhí)行自集成后,得到一個從源域適應(yīng)到目標域的單一模型,然后再利用自集成后的OSNet[25]與DenseNet121[24]兩個不同架構(gòu),將其融合起來進行最終的預(yù)測,但本文只將融合應(yīng)用于推理階段,這與MMT[12]、MEB-Net[13]、P2LR[26]不同。它們在訓(xùn)練階段設(shè)計了相互教導(dǎo)機制,即在訓(xùn)練階段進行集成,且P2LR[26]的微調(diào)方法只關(guān)注訓(xùn)練過程中偽標簽精煉廠或域級信息融合。反之,本文只在推理過程中使用集成,訓(xùn)練過程中一次只考慮一個架構(gòu),訓(xùn)練過程中沒有信息交換,在訓(xùn)練過程結(jié)束后再將不同架構(gòu)獲得的知識進行集成。在利用模型之間知識互補性的同時,避免了在訓(xùn)練階段進行復(fù)雜的集成工作。
為了進行基于集合的預(yù)測,首先計算出兩個最終模型的query與gallery中每個圖像的特征距離。設(shè) f n(x)=Modeln(x)是用第n個模型得到的圖像歸一化特征向量,d( f n(query),f n(gallery))是query的特征向量與用第n個模型提取的第i張圖像galleryi的特征向量之間的距離。query和galleryi之間的最終距離為
不同架構(gòu)的模型可能在捕獲特征、識別特定的樣本或場景方面存在差異,多樣性知識有助于提高模型的魯棒性。例如,一個架構(gòu)可能在某些情境下表現(xiàn)更好,而另一個架構(gòu)在其他情境下表現(xiàn)更好。通過將它們進行融合,使最終模型能夠綜合考慮多個角度的知識來源,從而提高了模型在各種情況下的性能表現(xiàn)。
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集及評價指標
本文在三個大規(guī)模的ReID數(shù)據(jù)集上評估本文方法,即Market-1501[27]、DukeMTMC-ReID[28]和MSMT17[3]。
a)Market-1501包括1 501個身份,32 668張圖片,由6個不同的相機拍攝。訓(xùn)練集包含751個身份,12 936張圖片。測試集包括750個身份,其中查詢集包含3 368張圖片,gallery包含19 732張圖片。
b)DukeMTMC-ReID包括36 411幅圖像,有1 812個身份。所有的圖像都是由8個高清攝像頭采集的。此外,數(shù)據(jù)集中有16 522張訓(xùn)練圖像,其中查詢集包含2 228張圖片,gallery包含17 661張圖片。
c)MSMT17是一個大規(guī)模的數(shù)據(jù)集,包含4 101個身份的126 441張圖像。訓(xùn)練集包含1 041個身份,測試集包含3 060個身份。
實驗采用平均精度均值(mean average precision,mAP)和rank-n準確率對本文中涉及到的行人重識別模型性能進行量化評價。其中,mAP的計算是所有查詢的平均精度平均值;rank-n是檢索結(jié)果中前n位候選的準確率。
3.2 實驗細節(jié)
本文采用DenseNet121[24]和OSNet[25]深度學(xué)習(xí)架構(gòu),它們都在ImageNet[29]上進行過預(yù)訓(xùn)練。為了在適應(yīng)性場景中進行測試,本文選擇其中一個數(shù)據(jù)集作為源,另一個作為目標域,在源域上進行訓(xùn)練,在目標域上進行微調(diào)。其中Market1501和DukeMTMC-ReID既可以作為源域也可以作為目標域,而MSMT17只作為目標域數(shù)據(jù)集。
所有的輸入圖像都會被調(diào)整為256×128的大小,并進行隨機裁剪、翻轉(zhuǎn)和擦除的數(shù)據(jù)增強(在源預(yù)訓(xùn)練階段未進行隨機擦除處理)。本文采用K-means聚類算法,其中Market、Duke和MSMT數(shù)據(jù)集的聚類數(shù)分別設(shè)定為500、700和1 500。式(6)中的參數(shù)R0被設(shè)置為0.3??偟螖?shù)T設(shè)定為40。本文采用ADAM優(yōu)化器來優(yōu)化模型,權(quán)重衰減為5E-4。在源預(yù)訓(xùn)練階段,初始學(xué)習(xí)率設(shè)定為3.5×10-4, 并在第20和30次迭代中減小1/10。在目標域微調(diào)階段,學(xué)習(xí)率固定為3.5×10-4。
3.3 對比實驗
為了驗證所提出的基于不確定性漸進式偽標簽提煉策略和基于可靠性集成學(xué)習(xí)方法的有效性,將本文算法與UDA person ReID的主流方法SSG[11]、AD-Cluster[30]、MMT[12]、MEB-Net[13]、UNRN[21]、GLT[22]、P2LR[26]、MCL[31]進行比較,如表1和2所示。與MMT相比,本文方法明顯提高了UDA-ReID的性能,mAP提高19.7%,R-1提高6.3%。與MEB-Net相比,它建立了三個網(wǎng)絡(luò)來進行相互平均學(xué)習(xí),本文以更簡單的架構(gòu)設(shè)計將mAP與R-1分別提高14.9%、4.1%。值得注意的是,UNRN和GLT在目標微調(diào)階段利用了源數(shù)據(jù),并建立一個外部支持存儲器來挖掘難樣本對。在MSMT17數(shù)據(jù)集上,與UNRN相比,mAP提高12.8%,R-1提高2.1%。與GLT相比,mAP提高11.4%,R-1提高1.8%。表2為DukeMTMC-ReID和Market1501分別適應(yīng)到MSMT17的實驗結(jié)果。與表2中性能最優(yōu)的MCL算法相比,本文算法在Market1501→MSMT17上mAP提高2.7%,R-1提高1.1%;在DukeMTMC→MSMT17上mAP提高1.2%,R-1提高0.6%。
3.4 消融實驗
3.4.1 漸進式偽標簽提煉策略有效性驗證
為了驗證漸進式偽標簽提煉策略的有效性,在Market1501和DukeMTMC數(shù)據(jù)集上進行了消融實驗,實驗結(jié)果如表3所示?;€表示僅使用聚類方法的偽標簽部分進行訓(xùn)練,設(shè)定U 表示樣本不確定性評估模塊,設(shè)定P表示基于不確定性漸進式偽標簽提煉策略,設(shè)定I表示基于可靠性集成策略。在沒有使用漸進式偽標簽提煉策略的情況下,在DukeMTMC→Market 上mAP和rank-1分別為68.5%和84.6%,加入基于不確定性漸進式偽標簽提煉策略,mAP與Rank-1明顯提高了18.7%和6.5%。結(jié)果表明,本文方法能夠有效地緩解錯誤的偽標簽所帶來的負面影響,并顯著提高UDA-ReID性能。同樣的實驗結(jié)論在Market1501→DukeMTMC 任務(wù)中也得到了驗證。
本文通過設(shè)置不同的R0值,實驗其在漸進式標簽精煉中的影響,如圖3所示,當R0在0.3左右時,mAP和rank-1的準確率達到峰值(87.5%和91.4%)。這表明在目標域微調(diào)前期,被挑選參與訓(xùn)練的樣本大約是總樣本的30%,剩余的70%樣本則根據(jù)偽標簽可信度從高到低逐漸被添加到訓(xùn)練隊列中,從而使模型得到更加穩(wěn)定的訓(xùn)練和更佳的性能。
3.4.2 基于可靠性集成學(xué)習(xí)策略有效性驗證
為了檢驗提出的基于可靠性自集成方法的有效性,本文在Market1501和DukeMTMC數(shù)據(jù)集上進行了消融實驗。在微調(diào)適應(yīng)目標域的過程中選擇保存性能最佳的模型來作為測試模型,并將其與自集成模型進行比較,結(jié)果如表4所示。本文提出的自集成方法提高了模型對目標域的判別能力,對于DenseNet121和OSNet,由基于可靠性自集成學(xué)習(xí)方法得到的最終的推理模型在DukeMTMC →Market1501上的mAP分別優(yōu)于單個模型2.4%和3.2%,rank-1分別優(yōu)于單個模型1.8%和2.3%。在 Market1501→DukeMTMC 任務(wù)中同樣可得到驗證,DenseNet121和OSNet的mAP分別實現(xiàn)了2.8%和3.9%的改善,rank-1分別實現(xiàn)了0.9%和2.6%的改善。
為了進一步提高辨別能力,本文將兩個架構(gòu)計算的距離(式(9))結(jié)合起來進行最終推斷,結(jié)果如表5所示。對于DenseNet121和OSNet來說,在DukeMTMC→Market1501任務(wù)下,集合后的模型mAP分別比單個模型高出1.0%和1.3%,rank-1 也分別比單個模型高出0.8%和1.7%。在 Market1501→DukeMTMC 任務(wù)下,也可以觀察到同樣的情況,其中DenseNet121和OSNet的mAP分別提高了0.7%和2.0%,rank-1分別提高了0.7%和0.9%。rank-5與rank-10指標的結(jié)果在兩種任務(wù)情況下也都有所提高。
基于可靠性自集成方法是根據(jù)迭代中訓(xùn)練數(shù)據(jù)樣本標簽的可靠性來對不同迭代的模型權(quán)重進行加權(quán)平均,這意味著在集成過程中,可靠性更高的樣本會被賦予更高的權(quán)重,這可能會導(dǎo)致模型在rank-1表現(xiàn)更好,因為rank-1通常與模型對高可靠性樣本的判別性能相關(guān)聯(lián);同樣,對于mAP,它綜合考慮了所有檢索結(jié)果的性能,其中高可靠性的樣本在整體性能中占據(jù)重要地位。
3.4.3 訓(xùn)練時間比較
與其他基于集成學(xué)習(xí)的工作不同,本文為了避免在訓(xùn)練階段帶來額外開銷及不必要的訓(xùn)練復(fù)雜度,只在推理過程中利用了不同架構(gòu)的互補性。本文將不同方法在訓(xùn)練階段所需的時間開銷進行比較,在實驗中,本文使用了一個RTX 3090 GPU進行訓(xùn)練和推理。如表6所示,MMT與P2LR的總訓(xùn)練時間長于本文兩個架構(gòu)訓(xùn)練時間及自集成時間之和。其中,OSNet所需的訓(xùn)練時間比DenseNet121更少,這是由于DenseNet121嵌入特征有2 048個維度,而OSNet只有512個維度,所以聚類速度更快。表中推理時間的結(jié)果是假設(shè)所有的圖庫特征向量都已被提取和存儲后計算的,它是根據(jù)DukeMTMC-ReID中g(shù)allery的排名來預(yù)測一個查詢標簽的平均時間。
3.4.4 定性分析
如圖4所示,對DenseNet121(fusion)和OSNet(fusion)在Market→DukeMTMC任務(wù)上的前10個可視化結(jié)果進行了定性分析。帶有藍色邊框的圖像即為查詢圖像,帶有綠色邊框的圖像與給定查詢圖像具有相同ID,帶有紅色邊框的圖像則具有不同ID(見電子版)。可以觀察到,錯誤檢索到的樣本大多來自其他身份的難樣本,如第一行中,rank-7和rank-9與查詢圖像具有極為相似的外貌和背景,除此之外,大多數(shù)檢索到的樣本皆來自同一身份,且經(jīng)過集成后的模型具有更好的識別能力。以上實驗結(jié)果表明,所提出的算法具有較強的行人重識別能力。首先,超參數(shù)的選擇,包括模型總迭代次數(shù)和深度學(xué)習(xí)架構(gòu)的選擇,仍然依賴于經(jīng)驗和多次實驗,具有一定的偶然性;其次,本文方法在面對相似度較高或遮擋的難樣本時,可能會出現(xiàn)錯誤的標簽分配,影響到模型的性能。因此,未來的研究將會繼續(xù)對此方法進行改進和拓展,提高模型的魯棒性,以更好地滿足實際應(yīng)用需求。
4 結(jié)束語
為提升無監(jiān)督域自適應(yīng)行人重識別的準確性,本文提出了一種基于可靠性自集成融合模型。針對如何識別噪聲偽標簽及在優(yōu)化中減少錯誤標簽樣本的負面影響問題,設(shè)計一種漸進式偽標簽提煉策略,建立了一個定量標準來衡量偽標簽的不確定性,從而挑選高可信度的樣本進行訓(xùn)練,隨著迭代次數(shù)的增加,不確定性逐漸收斂,用于微調(diào)的樣本集緩慢增加,以實現(xiàn)穩(wěn)定的訓(xùn)練,使得模型能從目標領(lǐng)域的樣本中充分學(xué)習(xí);同時設(shè)計了基于可靠性自集成策略,集成了訓(xùn)練期間不同迭代獲得的互補信息,且利用了不同訓(xùn)練架構(gòu)之間的互補性,提高了模型的性能。然而,本文算法也存在一些局限性和挑戰(zhàn)。
參考文獻:
[1]Goodfellow I,Pouget-Abadie J,Mirza M,et al. Generative adversarial networks [J].Communications of the ACM ,2020, 63 (11): 139-144.
[2]Ge Yixiao,Zhu Feng,Zhao Rui,et al. Structured domain adaptation with online relation regularization for unsupervised person Re-ID [J].IEEE Trans on Neural Networks and Learning Systems ,2024, 35 (1): 258-271.
[3]Wei Longhui,Zhang Shiliang,Gao Wen,et al. Person transfer GAN to bridge domain gap for person re-identification [EB/OL]. (2018). https://arxiv.org/abs/1711. 08565.
[4]Zhong Zhun,Zheng Liang,Li Shaozi,et al. Generalizing a person retrieval model hetero-and homogeneously [C]// Proc of European Conference on Computer Vision. 2018: 176-192.
[5]Guillaume D,Xu Yihong,Stéphane L,et al. CANU-ReID: a conditional adversarial network for unsupervised person re-identification [C]//Proc of the 25th International Conference on Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 4428-4435.
[6]Feng Hao,Cheng Minghao,Hu Jinming,et al. Complementary pseudo labels for unsupervised domain adaptation on person re-identification [J].IEEE Trans on Image Processing ,202 30 (1): 2898-2907.
[7]Lin Yutian,Dong Xuanyi,Zheng Liang,et al. A bottom-up clustering approach to unsupervised person re-identification [C]//Proc of AAAI Conference on Artificial Intelligence. 2019: 8738-8745.
[8]Song Liangchen,Wang Cheng,Zhang Lefei,et al. Unsupervised domain adaptive re-identification: theory and practice [J].Pattern Recognition ,2020, 102 (C): 107173.
[9]Ye Mang,Li Jiawei,Ma A J,et al. Dynamic graph co-matching for unsupervised video-based person re-identification[J].IEEE Trans on Image Processing ,2019, 28 (6): 2976-2990.
[10]Fan Hehe,Zheng Liang,Yang Yi. Unsupervised person re-identification: clustering and fine-tuning[J].ACM Trans on Multimedia Computing,Communications,and Applications ,2018, 14 (4): 1-18.
[11]Fu Yang,Wei Yunchao,Wang Guanshuo,et al. Self-similarity grou-ping: a simple unsupervised cross domain adaptation approach for person re-identification [C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019: 6111-6120.
[12]Ge Yixiao,Chen Dapeng,Li Hongsheng. Mutual mean-teaching: pseudo label refinery for unsupervised domain adaptation on person re-identification [C]//Proc of International Conference on Learning Representations. 2020.
[13]Zhai Yunpeng,Ye Qixiang,Lu Shijian,et al. Multiple expert brainstorming for domain adaptive person re-identification [C]//Proc of European Conference on Computer Vision. 2020: 594-611.
[14]Kendall A,Gal Y. What uncertainties do we need in Bayesian deep learning for computer vision? [J].Advances in Neural Information Processing Systems ,2017, 30 : 5580-5590.
[15]Chang Jie,Lan Zhonghao,Cheng Changmao,et al. Data uncertainty learning in face recognition [C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2020: 5709-5718.
[16]Zheng Zhedong,Yang Yi. Rectifying pseudo label learning via uncertainty estimation for domain adaptive semantic segmentation [J].International Journal of Computer Vision ,202 129 (4): 1106-1120.
[17]He Yihui,Zhu Chenchen,Wang Jianren,et al. Bounding box regression with uncertainty for accurate object detection [C]// Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2019: 2888-2897.
[18]Zhang Dawei,F(xiàn)u Yanwei,Zheng Zhonglong. UAST:uncertainty-aware siamese tracking [C]//Proc of International Conference on Machine Learning. 2022: 26161-26175.
[19]Guan Dayan,Huang Jiaxing,Xiao Aoran,et al. Uncertainty-aware unsupervised domain adaptation in object detection [J].IEEE Trans on Multimedia ,2022, 24 : 2502-2514.
[20]Wu Yu,Lin Yutian,Dong Xuanyi,et al. Progressive learning for person re-identification with one example[J].IEEE Trans on Image Processing ,2019, 28 (6): 2872-2881.
[21]Zheng Kecheng,Lan Cuiling,Zeng Wenjun,et al. Exploiting sample uncertainty for domain adaptive person re-identification [C]// Proc of AAAI Conference on Artificial Intelligence. 2021: 3538-3546.
[22]Zheng Kecheng,Liu Wu,He Lingxiao,et al. Group-aware label transfer for domain adaptive person re-identification [C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2021: 5310-5319.
[23]Yin Junhui,Qiu Jiayan,Zhang Siqing,et al. SSKD: self-supervised knowledge distillation for cross domain adaptive person re-identification [EB/OL]. (2020). https://arxiv.org/abs/2009. 05972.
[24]Huang Gao,Liu Zhuang,Van Der Maaten L,et al. Densely connected convolutional networks [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017: 4700-4708.
[25]Zhou Kaiyang,Yang Yongxin,Andrea C,et al. Omni-scale feature learning for person re-identification [C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019: 3701-3711.
[26]Han Jian,Li Yali,Wang Shengjin. Delving into probabilistic uncertainty for unsupervised domain adaptive person re-identification [C]//Proc of AAAI Conference on Artificial Intelligence. 2022: 790-798.
[27]Zheng Liang,Shen Liyue,Tian Lu,et al. Scalable person re-identification: a benchmark [C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015: 1116-1124.
[28]Ergys R,F(xiàn)rancesco S,Roger S Z,et al. Performance measures and a data set for multi-target,multi-camera tracking [C]// Proc of Euro-pean Conference on Computer Vision. 2016: 17-35.
[29]Deng Jia,Dong Wei,Socher R,et al. ImageNet: a large-scale hierarchical image database [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2009: 248-255.
[30]Zhai Yunpeng,Lu Shijian,Ye Qixiang,et al. AD-Cluster: augmented discriminative clustering for domain adaptive person re-identification [EB/OL]. (2020). https://arxiv.org/abs/2004. 08787.
[31]李慧,張曉偉,趙新鵬,等. 基于多標簽協(xié)同學(xué)習(xí)的跨域行人重識別 [J]. 北京航空航天大學(xué)學(xué)報,202 48 (8): 1534-1542. (Li Hui,Zhang Xiaowei,Zhao Xinpeng,et al. Multi-label cooperative learning for cross domain person re-identification [J].Journal of Beijing University of Aeronautics and Astronautics ,2022, 48 (8): 1534-1542.)
收稿日期:2023-07-30;修回日期:2023-09-25 基金項目:國家自然科學(xué)基金資助項目(62266011);貴州省基礎(chǔ)研究計劃項目(黔科合基礎(chǔ)-ZK[2022]一般119)
作者簡介:文銳(1999—),男,貴州六盤水人,碩士研究生,CCF會員,主要研究方向為行人重識別;孔廣黔(1974—),男(通信作者),四川遂寧人,副教授,博士,CCF會員,主要研究方向為視頻分析與處理、智能演化網(wǎng)絡(luò)、深度學(xué)習(xí)及其應(yīng)用(gq_kong@163.com);段迅(1974—),男,貴州黔西人,副教授,博士,主要研究方向為網(wǎng)絡(luò)結(jié)構(gòu)、大數(shù)據(jù)、深度學(xué)習(xí)及其應(yīng)用.