結(jié)合時空距離的多網(wǎng)絡(luò)互學習行人重識別

2023-05-20 07:36:30李寬龔勛樊劍鋒

中國圖象圖形學報 2023年5期

李寬，龔勛，2，3，4*，樊劍鋒

1.西南交通大學唐山研究生院，唐山 063000；2.西南交通大學計算機與人工智能學院，成都 611756；3.可持續(xù)城市交通智能化教育部工程研究中心，成都 611756；4.四川省制造業(yè)產(chǎn)業(yè)鏈協(xié)同與信息化支撐技術(shù)重點實驗室，成都 610031

0 引言

行人重識別是指在不同監(jiān)控攝像頭下找到同一行人。隨著人們對安全需求的增加，大量攝像頭安裝在各種監(jiān)控場景中，如學校、機場、商城和醫(yī)院等。而人工搜尋效率低，結(jié)果不可靠，行人重識別能實時檢測匹配行人，適應(yīng)了大數(shù)據(jù)下對行人監(jiān)測的需求，逐漸成為學術(shù)熱點問題。

由于行人數(shù)據(jù)標記需要的巨大工作量，實際應(yīng)用存在較多困難。跨域重識別能利用有標注的源域數(shù)據(jù)信息輔助訓練無標注的目標域數(shù)據(jù)，具有應(yīng)用潛力。但由于跨域帶來的背景、光照以及攝像頭角度等差異，識別準確率往往也會急劇下降。

目前主流的無監(jiān)督行人重識別主要由生成偽標簽階段和利用偽標簽優(yōu)化模型兩個階段組成，其中偽標簽生成的可靠性是影響模型最終效果的主要因素。Zeng 等人（2020）利用PK Sample（pharmacokinetic sample）的方法進行層次聚類，以提高聚類的精度。Zheng 等人（2021）提出了一種基于標簽遷移的群感知特征學習策略，通過在線精煉偽標簽，以改進多組偽標簽優(yōu)化。但這些方法沒有考慮不同攝像頭的影響可能導(dǎo)致不同攝像頭下的類內(nèi)距離大于相同攝像頭下的類間距離，因此，即使是離聚類中心較近的數(shù)據(jù)，它的偽標簽結(jié)果也并不可靠，這樣便不可避免地使網(wǎng)絡(luò)向著錯誤方向進行訓練。因此，本文增加了一個分攝像頭的維度，保證了生成標簽的可靠性。此外，由于單骨干網(wǎng)絡(luò)提取特征的單一性，在千變?nèi)f化的實際場景中，以上方法并不能保證較好地泛化能力。Zhang 等人（2018）提出了多網(wǎng)絡(luò)互學習，且用平均學生模型的方法防止多網(wǎng)絡(luò)導(dǎo)致的誤差放大。本文在該方法的基礎(chǔ)上，提出了分攝像頭多網(wǎng)絡(luò)互學習行人重識別框架。

在重識別的匹配排序階段，目前有很多排序優(yōu)化的算法。Zhong 等人（2017）提出的互鄰匹配 Re-Ranking 方法利用待搜尋行人圖像和搜尋到的前幾幅圖像的鄰域圖像是否互相包含來判斷結(jié)果的準確性。Sarfraz 等人（2018）將一幅圖像與另一幅圖像的相鄰圖像距離累加來當做新距離，它不需要對每個圖像對都計算一次排名，減少了計算量。但將這些算法應(yīng)用于真實場景仍對機器性能提出了巨大的挑戰(zhàn)。上面的一些方法對排序的優(yōu)化都基于已得到的圖像間的距離，但數(shù)據(jù)中還包含了時間戳信息，這類信息沒有得到有效利用。為此，本文利用數(shù)據(jù)集中的時間信息，并增加了時空這兩個維度，在時間消耗接近原始排序的前提下提升了行人搜索性能。

本文的貢獻主要有以下方面：1）對數(shù)據(jù)集中每個單獨的攝像頭下圖像進行聚類生成偽標簽，以此作為優(yōu)化標準之一，提升偽標簽質(zhì)量；2）利用教師學生網(wǎng)絡(luò)互學習的方法學習更多特征，不僅接受來自自身標簽的監(jiān)督，還利用協(xié)同網(wǎng)絡(luò)的學習經(jīng)驗來進一步提升泛化能力；3）利用數(shù)據(jù)的時間戳信息和攝像頭信息，在時空維度上優(yōu)化行人搜索匹配，降低了時間消耗。同時，該方法在傳統(tǒng)的有監(jiān)督重識別場景中也能提高搜索性能。

1 相關(guān)方法

1.1 無監(jiān)督跨域行人重識別

由于手動標注數(shù)據(jù)的高成本，目前無監(jiān)督跨域行人重識別受到廣泛關(guān)注。相關(guān)探索主要分為3 個方面，即優(yōu)化特征分布、生成對抗網(wǎng)絡(luò)和自監(jiān)督學習。

1）優(yōu)化特征分布。該方法思想為減小源域和目標域特征分布的差距，從而減少跨域帶來的模型性能損失。Mekhazni等人（2020）提出一種基于最大均值差異（maximum mean discrepancy，MMD）的減小源域與目標域特征分布差距的方法，Jin 等人（2020）方法的思想是分離正樣本對和負樣本對距離的概率分布。但這類方法存在局限性，并不能保證源域、目標域的特征差距小于期望值，在跨域場景下，存在較大的性能下降。

2）生成對抗網(wǎng)絡(luò)（generative adversarial network，GAN）。該方法使用GAN 將源域圖像轉(zhuǎn)換到目標域。Deng 等人（2018）在cycleGAN 的基礎(chǔ)上進行改進，新增了兩個約束條件，一個是生成的目標域風格圖像應(yīng)該與其相應(yīng)的源域圖像相似，這是為了能利用源域圖像的ID（identity document）信息；另一個是使生成的目標域風格圖像與原有目標域中圖像都不同，因為源域與目標域行人ID 沒有重疊。但基于GAN 的方法對GAN 生成圖像的質(zhì)量要求較高，GAN訓練慢，生成的目標域風格圖像與真實數(shù)據(jù)集的相似度不可保證，實驗結(jié)果與其他方法相比有一定差距。

3）自監(jiān)督學習。自監(jiān)督學習通常采用自監(jiān)督和生成偽標簽的方法，利用偽標簽來不斷微調(diào)模型，這是目前主流的研究方向。Fan 等人（2018）提出一種利用聚類來生成偽標簽的重識別方法。對于生成的偽標簽，它將距離聚類中心最近的數(shù)據(jù)偽標簽看做可靠偽標簽，并利用這些標簽來進行訓練。Ge 等人（2020）在判斷可信偽標簽的基礎(chǔ)上做了改進，添加了一個記憶模塊來存儲源域和目標域的聚類中心，用以保留全局訓練的特征，防止模型過度偏向錯誤方向。耿偉峰等人（2023）使用圖神經(jīng)網(wǎng)絡(luò)融合了樣本特征與類別表示等多層次信息，增強了自監(jiān)督信息的可靠性。

本文以自監(jiān)督學習為基礎(chǔ)，并針對以上方法沒有考慮的在跨域問題中起主要影響的背景、視角變化等因素，添加了攝像頭維度，約束了跨攝像頭帶來的偽標簽預(yù)測錯誤影響。同時利用互學習來挖掘更多特征，使模型在各種場景都能保持良好性能。

1.2 重識別排序優(yōu)化算法

在行人重識別場景中，最常見的排序優(yōu)化算法為Re-Ranking。該算法基于如下假設(shè)：對于某幅待搜索的行人圖像，在搜索集中，假如某圖像的鄰近圖像包含了待搜索圖像，則該圖像為正確匹配的可能性更大。

Jegou 等人（2010）引入了上下文相異度度量，利用相鄰向量的相似度更新圖像間距離，Bai 等人（2009）利用流形距離在查詢和被查詢對象中找到最短路徑，利用最短路徑上的圖像計算新的度量距離，Zhong 等人（2017）利用k-reciprocal 編碼對圖像進行重排序。但以上研究都有一個共同的問題，即額外的計算量需要花費大量的內(nèi)存空間和時間成本。為此，Zhang 等人（2020）利用GPU（graphics processing unit）并行計算的方法加快了重排序。但該方法額外的內(nèi)存消耗仍然存在，而且沒有從根本上降低算法復(fù)雜度。

與上述研究不同，本文從算法角度提出了一個適配于重識別的重排序算法，大幅減少了時間和空間代價。

2 算法描述

2.1 總體框架

如圖1 所示，本文算法框架主要由偽標簽生成模塊、多網(wǎng)絡(luò)互學習模塊和排序優(yōu)化模塊組成。

圖1 本文算法框架模塊圖Fig.1 Framework of our method （（a）pseudo label generation module；（b）mutual learning module；（c）spatio-temporal distance retrieval module）

偽標簽生成模塊根據(jù)全局和攝像頭分別生成偽標簽yt和，并在分攝像頭階段添加了時空信息；特征互學習模塊利用教師學生網(wǎng)絡(luò)的互學習訓練出更具有泛化性的模型；時空距離排序模塊利用時空距離對最終結(jié)果進行行人檢索優(yōu)化。

每次迭代開始之前，圖像先通過偽標簽生成模塊進行全局偽標簽yt和攝像頭偽標簽的生成，然后在特征互學習模塊中利用生成的偽標簽yt和進行特征學習，最后利用時空距離排序模塊進行行人檢索。

2.2 偽標簽生成模塊

在無監(jiān)督領(lǐng)域自適應(yīng)訓練的每個迭代中，偽標簽yt和的生成如圖2所示。

圖2 偽標簽生成模塊Fig.2 Pseudo label generation module

偽標簽生成包括3個步驟，具體如下：

1）對于目標域的樣本圖像，每個網(wǎng)絡(luò)模型提取卷積特征，并將多個網(wǎng)絡(luò)模型提取的特征進行平均以確定集成特征。具體為

式中，xt，i為輸入圖像，K為模型數(shù)量，γk為第k個模型的參數(shù)，f(xt，i) 為第i幅圖像平均后向量。

2）對f(xt)進行K-Means 聚類，將所有目標域樣本劃分為Ut個不同的類，生成作為訓練樣本Xt的偽標簽Yt。

2.3 多網(wǎng)絡(luò)互學習模塊

2.3.1 總體流程

本模塊采用了兩階段的訓練方案，包括在源域的有監(jiān)督預(yù)訓練學習和目標域的無監(jiān)督自適應(yīng)學習。在初始階段，在源域數(shù)據(jù)集上以有監(jiān)督的方式對具有不同網(wǎng)絡(luò)架構(gòu)的多個模型進行預(yù)訓練。然后利用未標記的目標域樣本進行多個網(wǎng)絡(luò)模型的深度互學習無監(jiān)督訓練，使模型適應(yīng)目標域。在目標域數(shù)據(jù)集中，利用偽標簽生成模塊的偽標簽yt和，通過優(yōu)化分類損失與三元組損失對各個網(wǎng)絡(luò)模型進行微調(diào)。此外，將各個網(wǎng)絡(luò)模型的時間平均模型的輸出視為軟偽標簽作為優(yōu)化基準，從而減少偽標簽噪音的影響。本文采用3 個骨干網(wǎng)絡(luò)模型，兩兩之間互學習，以使網(wǎng)絡(luò)模型優(yōu)化。

2.3.2 源域有監(jiān)督損失

對于每一個網(wǎng)絡(luò)模型而言，首先以有監(jiān)督的方式預(yù)訓練一個深度神經(jīng)網(wǎng)絡(luò)模型Mk，該模型由預(yù)訓練網(wǎng)絡(luò)模型γk參數(shù)化，與行人重識別任務(wù)常用的損失函數(shù)一致，本文使用標簽平滑的交叉熵損失函數(shù)與三元組損失函數(shù)進行源域預(yù)訓練。

Mk將每個樣本圖像xi轉(zhuǎn)換為特征，γk表示網(wǎng)絡(luò)模型的參數(shù)，f(xi|γk)表示將樣本圖像xi輸入到網(wǎng)絡(luò)模型參數(shù)設(shè)置為γk的網(wǎng)絡(luò)模型中提取得到的特征，圖像xi屬于標簽j的預(yù)測概率，表示為pj(xi|γk)。標簽平滑的交叉熵損失定義為

式中，xi+表示xi的正樣本，xi-表示負樣本。‖ ·‖表示L2范式。三元組損失定義為

最后的總損失計算為

式中，k代表第k個網(wǎng)絡(luò)模型。

2.3.3 目標域互學習損失

互學習模塊如圖3 所示。在每次迭代中，首先將目標域中的同一批圖像輸入到所有由{γk}參數(shù)化的{Mk}網(wǎng)絡(luò)模型中，以預(yù)測分類置信度{pj(xt，i|γk)}特征表示{f(xt，i|γk)}。為了將知識從一個網(wǎng)絡(luò)模型轉(zhuǎn)移到另一個網(wǎng)絡(luò)模型，每個網(wǎng)絡(luò)模型的類預(yù)測可以作為訓練其他網(wǎng)絡(luò)模型的軟標簽。為防止誤差放大，本文添加了時間平均模型，網(wǎng)絡(luò)模型Mk的時間平均模型在當前迭代T時的參數(shù)記為，其更新式為

圖3 互學習模塊Fig.3 Ensemble learning module

式中，α∈[0，1]為尺度因子，這里設(shè)置為0.999，初始時間平均參數(shù)為=γk。使用網(wǎng)絡(luò)模型Mk的時間平均模型預(yù)測每個身份j的概率為pj(xt，i|)，計算特征表示為f(Xt，i|)。

通過整合原始網(wǎng)絡(luò)模型M與時間平均模型Γ，本文提出了互損失函數(shù)。將兩個網(wǎng)絡(luò)模型Mk和Mm的身份損失定義為Mk的類預(yù)測和Mm的時間平均模型類預(yù)測之間的交叉熵，以及各攝像頭內(nèi)標簽預(yù)測與另一模型Mm的時間平均模型各攝像頭內(nèi)標簽預(yù)測之間的交叉熵之和，前者稱為互分類損失，后者稱為攝像頭內(nèi)互分類損失。

互分類損失的函數(shù)計算式為

式中，Nt為圖像總數(shù)，Ut為聚類類別數(shù)。

攝像頭內(nèi)互分類損失的函數(shù)計算式為

式中，L為目標域訓練集攝像頭數(shù)目，為某攝像頭下圖像總數(shù)，為該攝像頭下聚類類別數(shù)。

設(shè)網(wǎng)絡(luò)模型Mk的互分類損失為所有其他網(wǎng)絡(luò)模型所學習的上述損失的平均值，則

與互分類損失函數(shù)類似，對于每個網(wǎng)絡(luò)模型Mk，定義其他網(wǎng)絡(luò)模型的時間平均模型Mm學習的互三元組損失為兩個相似的二元交叉熵，全局互三元組損失為

式中，soft(·)為樣本對之間特征距離的softmax變換。

單個攝像頭內(nèi)互三元組損失為

網(wǎng)絡(luò)模型Mk的互三元組損失計算為所有其他網(wǎng)絡(luò)模型的上述互三元組損失的平均值，即

互三元組損失函數(shù)所起到的作用與互分類損失函數(shù)類似，都是為了使不同網(wǎng)絡(luò)模型間進行相互學習，互三元組損失函數(shù)減少了網(wǎng)絡(luò)模型間三元組損失的差異，從而使網(wǎng)絡(luò)模型訓練得到的特征分布能夠同時被多個網(wǎng)絡(luò)模型約束，以增強模型的魯棒性。

如圖4 所示，互學習損失函數(shù)充分利用了網(wǎng)絡(luò)模型的輸出進行互相約束。

圖4 互學習損失Fig.4 Mutual learning loss

2.3.4 目標域自身損失

為了從偽標簽yt與攝像頭內(nèi)標簽中學習穩(wěn)定和有區(qū)別的知識，本文引入了各個網(wǎng)絡(luò)模型自身的投票損失，包括投票分類損失和投票三元組損失。

在每個網(wǎng)絡(luò)模型Mk上，對于整體偽標簽yt，定義投票分類損失為帶有標簽平滑的交叉熵，具體為

式中，如果j=yt，i，那么qj= 1 -ε+ε/Ut，否則qj=ε/Ut，ε是一個小常數(shù)，設(shè)為0.1，Nt為圖像個數(shù)，Ut為聚類類別數(shù)。同樣，對于攝像頭內(nèi)偽標簽，定義單個攝像頭下的投票分類損失為

所有攝像頭的投票分類損失L為

為了更好地學習到穩(wěn)定的知識，令

定義投票三元組損失為

同樣，為了模型能學習到單個攝像頭下更為魯棒的信息，令

定義單個攝像頭內(nèi)部的投票三元組損失為

所有攝像頭內(nèi)部的投票三元組損失L為

總體的投票分類損失L定義為

投票損失定義為分類損失和三元組損失的總和，具體為

上述投票損失使用聚類生成得到的偽標簽優(yōu)化交叉熵損失與三元組損失，增強各個網(wǎng)絡(luò)模型自身的特征表示能力，從而在互學習過程中能夠使用更具備辨別能力的有效知識進行互相的學習。

2.3.5 總體損失

最終的總體損失定義為每個網(wǎng)絡(luò)模型互相學習所造成的損失之和。即

式中，Lall表示所有網(wǎng)絡(luò)模型的損失函數(shù)之和，K表示所訓練骨干網(wǎng)絡(luò)模型的個數(shù)。

2.4 時空距離檢索模塊

就行人重識別任務(wù)而言，常見的公開數(shù)據(jù)集與真實場景下攝像頭間的時空信息（如拍攝圖像時的時間戳與攝像頭編號）往往可以很容易獲取。因此本文設(shè)計了一種通過時間戳與攝像頭編號信息進行排序優(yōu)化的方法，以提升最終推理的性能。

本文算法對排序優(yōu)化的流程如圖5 所示，具體步驟如下：

圖5 時空距離檢索流程圖Fig.5 Spatio-temporal distance retrieva map

1）時間戳與攝像頭信息獲取。在經(jīng)常用于行人重識別任務(wù)的Market1501 與DukeMTMC-ReID（Duke multi-tracking multi-camera re-identification）數(shù)據(jù)集上，可以通過文件名獲取到當前圖像的具體時間戳與攝像頭編號信息。而在真實場景下，時間戳與攝像頭編號信息的獲取也不需要大量的計算成本。

2）目標域訓練集特征聚類生成偽標簽。對于本文的無監(jiān)督領(lǐng)域自適應(yīng)行人重識別而言，關(guān)注的是目標域測試集的推理結(jié)果，而源域的時間戳與攝像頭信息并不適用于目標域，所以排序優(yōu)化所需要關(guān)注的僅是目標域的信息，但是目標域訓練集并沒有標簽，因此需要對目標域訓練集特征進行聚類生成偽標簽，本文采用DBSCAN（density-based spatial clustering of applications with noise）算法進行聚類。

3）攝像頭時間評分。根據(jù)相同偽標簽的攝像頭編號與時間戳的分布，統(tǒng)計生成不同攝像頭間的時間差分布Tij，記攝像頭i與攝像頭j之間時間差的分布在第k次更新后為T kij，其中k∈[0，N]，N為目標訓練集圖像個數(shù)，它統(tǒng)計了i和j攝像頭下在第k次更新后相同時間差的行人個數(shù)。對每個偽標簽進行統(tǒng)計，當其同時存在于攝像頭i與攝像頭j上時，計算其平均幀的時間差t，并對Tij進行更新，具體為

式中，Tij(t)初始為0。

定義Num(xi，xj)為同時位于圖像xi與圖像xj所處的攝像頭上，且處于同一時間差區(qū)間內(nèi)的偽標簽個數(shù)，定義Sum(camxi，camxj)為在圖像xi所處攝像頭與圖像xj所處攝像頭同時存在的偽標簽的個數(shù)。攝像頭時間評分為

4）聯(lián)合距離推理。將攝像頭時間評分與余弦距離進行結(jié)合，雖然攝像頭時間評分Dst(xi，xj)在統(tǒng)計時是一個處于(0，1)的概率，與余弦距離所處區(qū)間( -1，1) 的差異較小，但兩者在推理過程中權(quán)重應(yīng)該有所不同，令

最終的聯(lián)合距離為

式中，cos(xi，xj)表示圖像xi與圖像xj特征間的余弦距離，ω為可進行人為調(diào)整的超參數(shù)。

3 實驗及分析

3.1 實驗數(shù)據(jù)集與評估指標

由于現(xiàn)有的公開數(shù)據(jù)集中，對時間戳標注并沒有給予足夠的關(guān)注，僅有Zheng 等人（2015）提出的Market-1501 和 Ristani 等人（2016）提出的DukeMTMC-ReID 數(shù)據(jù)集上有著明確的時間戳標注，因此為了驗證根據(jù)時間戳與攝像頭信息排序優(yōu)化的有效性，本文在目標域設(shè)定為Market-1501，源域設(shè)定為DukeMTMC-ReID，以及目標域設(shè)定為DukeMTMC-ReID，源域設(shè)定為Market-1501 兩種情況下對所提出的方法進行評估。

Market-1501 數(shù)據(jù)集是于2015 年夏季在清華大學校園拍攝采集的，包含6個不同攝像頭的32 668幅圖像，1 501 個行人身份。DukeMTMC-ReID 數(shù)據(jù)集是DukeMTMC 的子集，是從美國杜克大學2014 年校園監(jiān)控錄像中采集的，包含8 個不同攝像頭的36 411幅圖像，1 812個行人身份。

在評估中，采用累計匹配特征曲線（cumulative match characteristic，CMC）和平均精度均值（mean average precision，mAP）作為評估指標。

3.2 實驗設(shè)置

本文中模型的訓練分為兩個階段：源域的預(yù)訓練和目標域的無監(jiān)督自適應(yīng)。

在源域的預(yù)訓練階段，首先在源數(shù)據(jù)集上使用3 個網(wǎng)絡(luò)模型進行有監(jiān)督的預(yù)訓練。本文采用DenseNet-121（densely connected convolutional network-121）、ResNet-50 （residual network-50）和inception-v3（inception network-v3）這3種架構(gòu)作為骨干網(wǎng)絡(luò)，并使用在ImageNet 上預(yù)先訓練的參數(shù)對其進行初始化。

批量大小設(shè)為64，用16 個隨機選擇的標簽和4 個隨機抽樣的圖像對64 幅圖像進行采樣，以計算三元組損失。本文使用Adam 優(yōu)化參數(shù)，并設(shè)置weight decay為0.000 5。初始學習率設(shè)置為0.000 35，在總共80個epoch中，在第40和第70個epoch時，初始學習率降低到之前值的1/10。

3.3 實驗參數(shù)分析

本文的超參數(shù)包括K-Means 聚類簇個數(shù)、DBSCAN 的搜索半徑，以及攝像頭時間距離計算公式使用的ω。為了確定本文一系列超參數(shù)的選取對網(wǎng)絡(luò)模型性能的影響，進行了詳盡的參數(shù)分析實驗。

在無監(jiān)督領(lǐng)域自適應(yīng)階段進行聚類過程中，本文對聚類方法以及其中參數(shù)進行選取。本文分別使用了K-Means 聚類方法與DBSCAN 聚類方法，并對其中參數(shù)進行調(diào)整以進行實驗。首先是K-Means 聚類中類別數(shù)超參數(shù)的確定，基于Market-1501 與DukeMTMC-ReID 數(shù)據(jù)集其測試集原本類別量，設(shè)置K-Means 聚類類別數(shù)分別為500，700，900。其次是DBSCAN 聚類方法中參數(shù)的確定，本文對目標域訓練集輸入源域預(yù)訓練網(wǎng)絡(luò)模型提取出的特征進行了k距離kt的計算，kt計算結(jié)果如圖6所示?？梢钥闯?，預(yù)訓練網(wǎng)絡(luò)模型所提取的目標域訓練集特征其k 距離范圍取值在0.3～1.0 之間。因此將DBSCAN 聚類的掃描半徑eps 設(shè)置在0.4～1.0 間滑動選取，間隔為0.2。

圖6 無監(jiān)督領(lǐng)域自適應(yīng)聚類的k距離曲線Fig.6 Curve of k-distance of unsupervised neighborhood adaptive clustering

推理結(jié)果如表1 所示?？梢园l(fā)現(xiàn)，在使用DBSCAN 聚類方法并將掃描半徑設(shè)置為0.8 時，進行無監(jiān)督領(lǐng)域自適應(yīng)學習的聚類階段產(chǎn)生的推理結(jié)果最好。但是其他聚類生成偽標簽方法使用的是K-Means 聚類方法，且聚類數(shù)量設(shè)置為500，為了與其他方法進行公平對比，因此后續(xù)實驗使用KMeans（500）聚類生成偽標簽訓練得到的模型作為對比實驗使用的模型。

表1 無監(jiān)督領(lǐng)域自適應(yīng)學習聚類過程中不同聚類方法及參數(shù)下的實驗結(jié)果Table 1 Experimental results under different clustering methods and parameters in unsupervised domain adaptive learning clustering process/%

同時，為了驗證在攝像頭時間距離構(gòu)建中聚類方法對模型推理結(jié)果的影響，同樣對聚類方法的參數(shù)進行了分析。K-Means 聚類參數(shù)與前文一致，設(shè)置為500，700，900。DBSCAN 聚類方法的掃描半徑參數(shù)eps 選取方式亦與前文一致，本文對目標域訓練集輸入網(wǎng)絡(luò)模型提取出的特征進行了kt的計算，結(jié)果如圖7所示。

圖7 攝像頭時間距離構(gòu)建聚類的k距離曲線Fig.7 Curve of k-distance of the camera time distance clustering

由圖7 可以得知，掃描半徑eps的合理取值范圍大致在0.3～1.1 之間。將掃描半徑eps 取值范圍設(shè)置為［0.3，1.1］，間隔為0.2，整體實驗結(jié)果如表2所示。不難發(fā)現(xiàn)，DBSCAN 聚類方法在攝像頭時間距離構(gòu)造過程中進行聚類效果更為優(yōu)秀。

表2 攝像頭時間距離構(gòu)建過程中不同聚類方法及參數(shù)下的實驗結(jié)果Table 2 Experimental results under different clustering methods and parameters in camera time distance construction process/%

最后，為了驗證ω取值對網(wǎng)絡(luò)模型的影響，設(shè)置ω的取值范圍為［3，7］，間隔為1。結(jié)果如表3 所示，可以發(fā)現(xiàn)，當ω設(shè)置為5 時，攝像頭時間距離與余弦距離進行共同推理的效果最好。這個取值可以在特征間余弦距離不失真的基礎(chǔ)上有效使用攝像頭時間距離。

表3 攝像頭時間距離構(gòu)建過程中不同聚類方法及參數(shù)下的實驗結(jié)果Table 3 Experimental results under different clustering methods and parameters in camera time distance construction process/%

為驗證互學習中網(wǎng)絡(luò)個數(shù)的影響，分別對單網(wǎng)絡(luò)（即不采用互學習）、雙網(wǎng)絡(luò)、三網(wǎng)絡(luò)進行對比實驗，實驗結(jié)果分別如表4 和表5 所示。由表4 和表5可以看到，互學習能有效結(jié)合多網(wǎng)絡(luò)的特征提取能力，提升模型性能，而本文采用的三網(wǎng)絡(luò)性能也高于雙網(wǎng)絡(luò)。綜合考慮計算資源耗費與模型性能提升，本文采用三網(wǎng)絡(luò)模型。

表4 源域為DukeMTMC-ReID目標域為Market-1501設(shè)置下的不同網(wǎng)絡(luò)個數(shù)實驗結(jié)果表Table 4 Experimental results of different number of networks with DukemtMC-ReID as the source domain and Market-1501 as the target domain/%

表5 源域為Market-1501目標域為DukeMTMC-ReID設(shè)置下的不同網(wǎng)絡(luò)個數(shù)實驗結(jié)果Table 5 Table of experimental results of different number of networks with Market-1501 as the source domain and DukemtMC-ReID as the target domain/%

3.4 實驗結(jié)果分析

為了評估所提方法的有效性，設(shè)計對比實驗，將本文方法與當前的一些具有代表性的方法進行比較，包括手工特征方法（unsupervised cross-dataset transfer learning，UMDL）（Peng 等，2016）、基于特征對齊的方法（unsupervised camera-aware domain adaptation framework，UCDA-CCE）（Qi 等，2019）、基于生成對抗網(wǎng)絡(luò)的方法（similarity preserving generative adversarial network，SPGAN）（Deng 等，2018）、Cam-Style（camera style generative adversarial network）（Zhong 等，2018b）、HHL（hetero-homogeneous learning）（Zhong 等，2018a）和ECN（exemplar camera neighborhood）（Zhong 等，2019）、基于聚類進行偽標簽預(yù)測的方法PTG（person transfer gan）（Wei等，2018）、UDAP（unsupervised domain adaptive re-identification）（Song 等，2020）、MEB-Net（multiple expert brainstorming network）（Zhai 等，2020）、GLT（group-aware label transfer）（Zheng 等，2021a）、HCD（hierarchical cluster dynamics）（Zheng 等，2021b）和SAT（selfadaptative techniques）（Bertocco 等，2021），對比結(jié)果如表6 和表7 所示，其中，所有對比方法均采用公開發(fā)表的結(jié)果。

從表6 可以看出，在源域為DukeMTMC-ReID、目標域為Market-1501數(shù)據(jù)集的實驗中，本文方法的mAP 和Rank1 準確率分別為82.5%和95.3%，較對比方法中指標最高的方法HCD 分別高出2.5%和3.4%。從表7可以看出，在源域為Market1501、目標域為DukeMTMC-ReID數(shù)據(jù)集的實驗中，本文方法的mAP 和Rank1 準確率分別為75.3%和90.2%，較對比方法中指標最高的方法SAT 分別高出2.7%和4.8%。這些數(shù)據(jù)說明了本文使用的攝像頭內(nèi)偽標簽構(gòu)造與深度互學習框架能使網(wǎng)絡(luò)從圖像中提取出更多有用的信息。

表6 源域為DukeMTMC-ReID目標域為Market-1501設(shè)置下本文方法與其他方法的對比結(jié)果Table 6 Comparison results between the proposed method and other methods under the setting of source domain DukemtMC-ReID and target domain Market-1501/%

表7 源域為Market-1501目標域為DukeMTMC-ReID設(shè)置下本文方法與其他方法的對比結(jié)果Table 7 Comparison results between the proposed method and other methods under the setting of source domain Market-1501 and target domain DukemtMC-ReID/%

同時，為了驗證本文各模塊的效果，分別在4 種不同設(shè)置下進行消融實驗，主要檢測了攝像頭內(nèi)偽標簽構(gòu)造及基于時間戳和攝像頭排序優(yōu)化的作用，實驗結(jié)果如圖8—圖11所示。其中，-表示去除該模塊，＋表示添加該模塊?？梢钥闯?，攝像頭時空距離的引入不僅使無監(jiān)督領(lǐng)域自適應(yīng)設(shè)置下的行人重識別任務(wù)最終推理的性能大幅提升，并且適用于傳統(tǒng)的閉集設(shè)置下的行人重識別任務(wù)。而真實場景下攝像頭標簽與時間標簽并不是難以獲取的信息，因此本文方法可以廣泛應(yīng)用于大量場景。

圖8 DukeMTMC-ReID到Market-1501消融實驗結(jié)果Fig.8 Ablation results of DukeMTMC-ReID to Market-1501

圖9 Market-1501到DukeMTMC-ReID消融實驗結(jié)果Fig.9 Ablation results of Market-1501 to DukeMTMC-ReID

圖10 Market-1501數(shù)據(jù)集消融實驗結(jié)果Fig.10 Market-1501 ablation experiment results

圖11 DukeMTMC-ReID數(shù)據(jù)集消融實驗結(jié)果Fig.11 DukeMTMC-ReID ablation experiment results

4 結(jié) 論

本文針對無監(jiān)督領(lǐng)域自適應(yīng)行人重識別任務(wù)，提出了一種結(jié)合時空距離的分攝像頭互學習方法。其中，攝像頭內(nèi)偽標簽的構(gòu)造利用了數(shù)據(jù)的時間信息，這比直接使用特征聚類生成的數(shù)據(jù)集整體偽標簽更為可靠，減少了模型對夾雜噪音的整體偽標簽的依賴。同時，深度互學習的框架使模型的魯棒性得到了提升。在此基礎(chǔ)上，引入了數(shù)據(jù)集中攝像頭信息及時間戳信息進行排序優(yōu)化，相比于現(xiàn)有的排序優(yōu)化算法大幅降低了內(nèi)存和時間消耗，且進一步提高了行人重識別模型的準確度。

本文方法有效解決了無監(jiān)督領(lǐng)域自適應(yīng)問題中偽標簽噪音的影響，拓展了數(shù)據(jù)集的使用方法，提出了一種新的排序搜索算法。但是，本文只用了互學習過程中的一個模型，沒有充分利用多網(wǎng)絡(luò)的豐富信息。未來的工作可從如何整合多網(wǎng)絡(luò)提取一個聚合特征入手，提升最終特征抽取器的泛化性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放