中圖分類號:TP391文獻標(biāo)識碼:A
Cloth-changing Person Re-identification Model Based on Positional Mask-guided
GE Jiashang,SONG Shimiao,GU Feifan,YANG Jie (College of Mechanical and Electrical Engineering,Qingdao University,Qingdao ,China)
Abstract: In cloth-changing person re-identification tasks,clothing variation is a critical factor degrading recognition accuracy. To discover clothing-invariant features,a Positional Mask-Guided Model (PMGM) for Cloth-changing Person Re-identification was proposed. The PMGM model leverages four positional masks (head,upper body,lower body,and arms) to guide the network in capturing local fine-grained features,which are fused with global features to precisely extract clothing-invariant representations. During inference,integrating head feature matching with identity feature matching further enhances the model discriminative capability. Experimental results show that the PMGM model achieves 5.7% improvement in mAP and 6.1% improvement in Rank-1 on the PRCC dataset compared to baseline models.
Keywords: person re-identification; computer vision; deep learning;attention mechanism
隨著視頻監(jiān)控應(yīng)用需求的增長和深度學(xué)習(xí)的興起,換裝行人重識別任務(wù)逐步成為學(xué)界研究的焦點。換裝行人重識別(Cloth-changing Person Re-identification,CC-ReID)通過非重疊的相機識別穿著不同衣物的同一個行人。3D信息、注意力機制、生成對抗網(wǎng)絡(luò)等已在行人重識別任務(wù)中廣泛應(yīng)用。如OG-Net[1(Om-ni-scale Graph Network)將3D人體重建引人行人重識別,借助3D點云構(gòu)建K近鄰圖模型提取身體局部結(jié)構(gòu)信息。多粒度特征網(wǎng)絡(luò)2通過注意力機制有針對性地抑制特征中的服裝信息,挖掘行人的本質(zhì)特征。基于衣服的對抗性損失通過懲罰模型的預(yù)測能力,從原始圖像中挖掘與衣服無關(guān)的特征[3]。 cmGAN[4] (Cross-modality Generative Adversarial Network)使用生成對抗訓(xùn)練從不同的模態(tài)中學(xué)習(xí)識別特征表示,學(xué)習(xí)圖像表示的生成器和嘗試區(qū)分RGB和紅外圖像模態(tài)的判別器通過極大極小博弈相互競爭,在對抗學(xué)習(xí)過程中生成具有判別性的特征,用于行人重識別。在換裝場景下, AIM[5] (Auto-Intervention Model)提出基于因果關(guān)系的自動干預(yù)模型,消除服裝偏差實驗?zāi)P偷聂敯粜?,但在特征提取時選擇切分的方式會引入背景噪聲。CCFA[6](Clothing-Change Feature Aug-mentation)提出了一種服裝變化特征增強模型,自動對反映人的服裝顏色和紋理變化的特征分布擴展進行建模,以增強模型訓(xùn)練;卻忽略了局部信息之間的相關(guān)性。IGCL[7](Identity-guided Collaborative Learning)屏蔽與服裝外觀相關(guān)的線索,僅專注于人體語義和身份信息,卻忽略了面部特征在身份識別中的重要性。針對受服飾變化干擾及局部信息利用不足導(dǎo)致了識別精度低的問題,本文提出了基于位置掩碼引導(dǎo)(Positional Mask-Guided Modal,PMGM)換裝行人重識別模型。在推理過程中引入頭部特征匹配模塊,通過對頭部及身體關(guān)鍵區(qū)域的位置掩碼與優(yōu)化后的局部特征進行線性變換得到行人局部細(xì)粒度特征;局部細(xì)粒度特征與全局特征進行特征融合實現(xiàn)特征互補,提高模型在換裝行人重識別任務(wù)的精度。
1換裝行人重識別技術(shù)研究
1.1 PMGM網(wǎng)絡(luò)模型
PMGM模型整體框架結(jié)構(gòu)如圖1,輸人為原始圖像 I∈RH×W×3 ,其中 H,W,3 分別表示圖像的高度、寬度和通道數(shù)。圖像編碼器為12個Transformer層,其隱藏層為768維,在Image數(shù)據(jù)集進行預(yù)訓(xùn)練。首先,原始圖像尺寸大小調(diào)整為 256×128 后分割成 16×16 的圖像塊;每個圖像塊經(jīng)圖像編碼器展平和線性投影后輸出為 1×768 維的全局特征 Fg 和 128×768 維的局部特征 F1 ,參考人體實例分割算法[8-9]中人體解析的思路,在原始圖像中對行人進行體型解析操作,有效位置編碼塊設(shè)置為1,其余為0,得到頭部、上身、下身、手臂4個位置區(qū)域的二進制位置掩碼 Mi ,其中頭部區(qū)域在肩部以上、上身為胸部和腰部、下身即腰部以下、手臂為肩部到手臂區(qū)域,深度的獲取行人的局部特征信息和利用生物特征的穩(wěn)定性。局部特征 F1 通過空間注意力機制輸出增強為局部位置特征 F1a ,與位置掩碼 Mi 的線性變換分別取得4個區(qū)域特征 F1i 。4個區(qū)域特征 Fli 由768維經(jīng)線性映射為512維的區(qū)域特征 Flai ,其中, F1ai=σF1i=σ(Mi×F1a) 。隨后,全局特征 Fg 經(jīng)全連接層線性映射成512維的全局特征 Fga ,與4個外觀特征 Flai 特征拼接得到 5×512 維融合特征 ;融合特征
通過池化層和歸一化操作后得到三元組損失函數(shù)和身份損失函數(shù),為反向梯度傳播的值。
1.2頭部特征匹配和推理框架
在換裝行人重識別任務(wù)中,頭部區(qū)域的面部特征具有強魯棒性。頭部特征匹配流程如圖2,從候選圖像庫中特征提取出頭部特征并創(chuàng)建特征數(shù)據(jù)庫;根據(jù)頭部位置從查詢圖像庫檢測出頭部的查詢樣本,通過特征提取得到頭部特征集;頭部特征集與特征數(shù)據(jù)庫計算余弦相似度,得到與查詢樣本最相似樣本的頭部得分向量。推理框架如圖3,圖像輸入序列通過圖像編碼器輸出身份特征和頭部特征,通過頭部特征匹配和身份特征匹配分別計算頭部得分向量和身份得分向量以表示頭部、行人身份的置信度。經(jīng)過平均池化操作后組合,得到組合得分向量,預(yù)測給定樣本的行人身份。
1.3 損失函數(shù)
模型通過身份損失 Lce 和三元組損失 Ltri2 個損失函數(shù)進行特征學(xué)習(xí),身份損失 Lce 確保特征的判別性和三元組損失 Ltri 增強特征的泛化能力,分別為
其中, qk 表示目標(biāo)分布中的值; pk 表示類別 k 的概率; a 是邊距的參數(shù); d?P 是基準(zhǔn)樣本和對應(yīng)的正樣本之間的歐式距離; dn 是基準(zhǔn)樣本和最硬負(fù)樣本之間的歐氏距離。當(dāng)正負(fù)樣本對之間的距離差與邊距相加為正時,產(chǎn)生損失,為負(fù)時,損失值為0。
模型訓(xùn)練采用聯(lián)合監(jiān)督策略構(gòu)建損失函數(shù)體系,得到總體損失函數(shù)表達式如式(3),其中權(quán)重參數(shù) λ1 用于平衡三元組損失,根據(jù)實驗 λ1 為0.4。
2 實驗及評估
2.1 數(shù)據(jù)集以及實驗設(shè)置
在公開數(shù)據(jù)集PRCC和LTCC上進行實驗驗證。其中,PRCC數(shù)據(jù)集是較早公布換裝數(shù)據(jù)集,拍攝時間大約在夏季,只有室內(nèi)場景,行人無遮擋,包含221個行人的33698張圖像,由3個攝像機拍攝。其中,攝像機A和B中行人穿著同一套服裝,攝像機C中行人穿著不同的衣服。滿足長期換裝要求的LTCC數(shù)據(jù)集,其拍攝時長兩個月,包含了17138張照片,152個身份,478種不同的服裝,由12個攝像頭的不同角度拍攝。
采用ImageNet數(shù)據(jù)集對ViT/B-16模型進行預(yù)訓(xùn)練。隨機水平翻轉(zhuǎn),填充,裁剪和擦除每張圖像,所有數(shù)據(jù)集的輸入圖像的大小調(diào)整為 256×128 。批次大小設(shè)置為36,訓(xùn)練迭代次數(shù)設(shè)置為60,實驗的權(quán)重衰減參數(shù)為 1×10-4 ,學(xué)習(xí)率初始設(shè)置為 5×10-7 。前10個迭代學(xué)習(xí)率線性增加到 5×10-6 ,使用按需調(diào)整學(xué)習(xí)率的方式,在30和50個迭代時調(diào)整學(xué)習(xí)率,調(diào)整倍數(shù)為0.1。在PRCC、LTCC數(shù)據(jù)集實驗時凍結(jié)該預(yù)訓(xùn)練模型的全部參數(shù)。
2.2評價指標(biāo)及結(jié)果分析
實驗結(jié)果評估指標(biāo)使用Rank-1準(zhǔn)確度和平均精度(mean AveragePrecision,mAP),在多次測試評估方案下進行。實驗分別設(shè)置為僅使用相同服裝樣本、僅使用更換服裝樣本及使用所有的樣本3種情況計算準(zhǔn)確度。PMGM模型在PRCC數(shù)據(jù)集上進行相同衣服和更換服裝的測試,在LTCC數(shù)據(jù)集上進行一般和更換服裝的測試。
將PMGM模型與現(xiàn)有的換裝行人重識別方法比較,包括 AIM[5] 、CCFA[6]、 SPT+ASE[10] 、 、3DSL[12]、FD-GAN[13]、CCPA[14]、CVSL[15]、MADE[16]。在這些換裝行人重識別方法中,AIM挖掘原始RGB圖像的信息;CCFA采用特征增強方法;SPT + ASE、CESD通過使用行人的生物特征來消除著裝干擾;3DSL使用行人姿態(tài)分析;MADE使用文本屬性指導(dǎo);CCPA使用著裝與姿態(tài)對比增強的模型框架;FDGAN提出的方法基于GAN網(wǎng)絡(luò);CVSL提出基于對比視點感知形狀學(xué)習(xí),測試的Rank-1準(zhǔn)確度和 mAP的實驗結(jié)果如表1,表中的“一\"表示原論文并未對數(shù)據(jù)集進行實驗評估。
由表1得知,在換裝設(shè)置下,PMGM模型在PRCC數(shù)據(jù)集上的性能優(yōu)于大多數(shù)方法。與基準(zhǔn)模型(Baseline)相比,在換裝設(shè)置下,Rank-1提高 6.1% . mAP 提高 5.7% ;在相同服裝設(shè)置下,Rank-1提高4.2% . mAP 提高 7.9% 。與AIM方法相比,在換裝設(shè)置下,Rank-1提高 3.5% . mAP 提高 1.2% 。與CVSL方法相比,在換裝設(shè)置下, Rank-1 提高 3.9% mAP 提高 2.6% ;在相同服裝設(shè)置下,Rank-1提高2.5% mAP 提高 0.8% 。實驗結(jié)果表明,利用頭部特征匹配和優(yōu)化局部特征,弱化服裝變化對行人重識別任務(wù)的影響,并取得了較好的效果。
在LTCC數(shù)據(jù)集的換裝和一般情況下的結(jié)果表明,PMGM模型優(yōu)勢顯著。與CCFA相比,在換裝設(shè)置下,Rank-1提高 2.3% mAP 提高 2.6% ;在一般情況下, Rank-1 提高 5.4% ,mAP提高 5.5% 。與AIM相比,在換裝設(shè)置中,Rank-1提高 7.0% mAP 提高 5.6% ;在一般情況下,rank-1提高 4.9% mAP 提高 6.9% 。與FD-GAN等相比,在換裝設(shè)置下, Rank-1 提高 14.7% mAP 提高 9.3% ;在一般情況下, Rank-1 提高 7.8% mAP提高 11.1% 。與基準(zhǔn)模型相比,在一般情況下, Rank-1 提高 6.4% ,mAP提高 6.2% ;在換裝設(shè)置下,Rank-1提高 5.9% mAP 提高 4.5% 。表明PMGM模型挖掘局部細(xì)粒度特征,效果較好。
2.3 消融實驗
為了全面的評估模塊的有效性,在換裝設(shè)置下對PRCC和LTCC換裝數(shù)據(jù)集進行消融實驗,結(jié)果如表2所示?;鶞?zhǔn)模型在PRCC數(shù)據(jù)集上的 mAP 和 Rank-1 準(zhǔn)確率分別為 53.8% 和 55.3% 。與基準(zhǔn)模型相比,PMGM模型在PRCC數(shù)據(jù)集上的mAP和Rank-1準(zhǔn)確率分別提高 5.7% 和 6.1% ;在LTCC數(shù)據(jù)集上的mAP和Rank-1準(zhǔn)確率分別提高 4.5% 和 5.9% 。
將位置編碼、特征匹配分別以漸進式的形式嵌入到基準(zhǔn)模型中來驗證設(shè)計模型的有效性。實驗結(jié)果表明,在PRCC數(shù)據(jù)集上的mAP和Rank-1準(zhǔn)確率分別提高 4.8% 和4.5% 。在LTCC數(shù)據(jù)集上的mAP和Rank-1準(zhǔn)確率分別提高 3.3% 和 5.0% 。PMGM模型能夠有效利用行人區(qū)域位置,顯著提升了換裝場景下的識別魯棒性。
分別使用頭部特征、上身特征、下身特征、手臂特征匹配模塊對比結(jié)果表明,使用頭部特征匹配模塊具有最好的判別效果,驗證了頭部特征對服裝無關(guān)身份識別具有不可替代的判別價值。通過引入頭部特征匹配模塊,在LTCC數(shù)據(jù)集下Rank-1準(zhǔn)確率達到47.6% 。
為了了解模型所獲得的行人信息,通過基準(zhǔn)模型和PMGM模型生成特征響應(yīng)熱力圖,如圖4?;鶞?zhǔn)模型的熱力圖只集中在服裝區(qū)域,主要關(guān)注與衣服相關(guān)的區(qū)域,PMGM模型關(guān)注到與衣服無關(guān)的屬性信息區(qū)域如頭部、手部、腿部,表明模型在訓(xùn)練過程中受到更多的約束。PMGM模型能夠充分挖掘與衣物無關(guān)的線索,提高模型識別行人的能力且具有更好的魯棒性。
為了進一步優(yōu)化網(wǎng)絡(luò)模型的性能,對模型中的參數(shù) λ1 進行定量分析。在PRCC數(shù)據(jù)集下 λ1 值與PMGM模型性能指標(biāo)關(guān)系如圖5,當(dāng) λ1=0,4 時,PMGM模型的mAP和Rank-1同時達到最大值。
3 結(jié)論
本文提出了一種基于位置掩碼引導(dǎo)換裝行人重識別模型,使用位置掩碼引導(dǎo)PMGM模型挖掘局部細(xì)粒度特征,弱化服裝對視覺特征的影響,提高換裝行人重識別精度。在推理過程中引人頭部特征匹配,利用面部特征的魯棒性特點進一步提高換裝行人重識別算法的精度。在公眾的換裝數(shù)據(jù)集PRCC和LTCC數(shù)據(jù)集上的實驗驗證了模型的有效性。下一步主要通過引入文本屬性引導(dǎo)圖像視覺特征,利用特征之間的優(yōu)勢進行研究,增強行人重識別模型的性能。
參考文獻
[1]ZHENG Z,WANG X,ZHENG N,et al. Parameter-eficient person re-identification in the3d space[C]/EE Conference on Computer Vision and Pattern recognition. Virtual: IEEE,2020:7534-7547.
[2]郭傳磊,楊杰,周萌萌,等.基于多粒度特征網(wǎng)絡(luò)的無監(jiān)督換裝行人重識別算法[J].大學(xué)學(xué)報(自然科學(xué)版), 2024,37(3):60-67,75.
[3]GU X,CHANG H,MA B,et al. Clothes-changing person re-identification with rgb modalityonly[C]/IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans:IEEE,2022:1050 -1059.
[4]DAI P,JIR,WANGH,et al. Cros-modality person re-identificationwith generative adversarial training[C]/7thInternational Joint Conference on Artificial Intelligence. Stockholm: IEEE,2018:677-683.
[5]YANG Z,LINM,ZHONG X,etal.Good is bad:Causalityinspiredcloth-debiasing for cloth-changing personre-identification[C]//IEEE/CVF Conference on Computer Vision and Patern Recognition. Vancouver:IEEE,2023:1472 - 1481.
[6]HAN K,GONG SG,HUANG Y,et al. Clothing-change feature augmentation for person re-identification[C]/IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE,2023:22066 -22075.
[7]GAO Z,WEIS,GUANW,et al. Identity-guided collborative learning for cloth-changing person reidentification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2024,46(5):2819-2837.
[8] 鞠成國,王國棟.用于人體實例分割的卷積神經(jīng)網(wǎng)絡(luò)[J].大學(xué)學(xué)報(自然科學(xué)版),2021,34(1):34-39.
[9] 王沖,趙志剛,潘振寬,等.基于空洞卷積的人體實例分割算法[J].大學(xué)學(xué)報(自然科學(xué)版),2021,34(2):53- 58.
[10]YANG Q Z,WU A C, ZHENG W S.Person re-identification by contour sketch under moderate clothing change[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2Ol9,43(6):2029-2046.
[11] QIAN X,WANG W,ZHENG L,et al. Long-term cloth-changing person re-identification[C]//15th Asian Conference on ComputerVision. Kyoto:IEEE,2020:71-88.
[12] CHEN J,JIANG X,WANG F,et al. Learning 3d shape feature for texture-insensitive person re-identification[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 8142 -8151.
[13]CHAN PPK,HUX,SONG H,et al.Learning disentangled features forperson re-identification under clothes changing[J].ACM Transactions on Multimedia Computing,Communications,and Applications,2023,19(6):1- 21.
[14]NGUYEN V D,SHAH S K.Ccpa: Long-term person re-identification via contrastive clothing and pose augmentation [DB/OL]. [2025-05-08]. https://arxiv. org/abs/2402. 14454.
[15]NGUYEN D, KHALDI K,NGUYEN D,et al. Contrastive viewpoint-aware shape learning for long-term person re-identification[C]//IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE,2024:1041- 1049.
[16]PENG C,WANG B,LIUD,et al.Masked atribute description embedding for cloth-changing personre-identification [DB/OL]. [2025-05-08]. https://arxiv. org/abs/2401. 05646.