亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多尺度多粒度融合的行人重識別方法

2022-03-12 05:56:36符進(jìn)武范自柱石林瑞郭心悅黃祎婧

計(jì)算機(jī)工程 2022年3期

符進(jìn)武，范自柱，石林瑞，郭心悅，黃祎婧

（華東交通大學(xué) 理學(xué)院，南昌 330013）

0 概述

行人重識別是跨設(shè)備的圖像檢索技術(shù)，指在給定監(jiān)控的行人圖像中，檢索該行人在其他攝像頭中出現(xiàn)的全部圖像。該技術(shù)廣泛應(yīng)用于智能視頻監(jiān)控、安保、刑偵等領(lǐng)域，是當(dāng)前計(jì)算機(jī)視覺的研究熱點(diǎn)［1］。受拍攝場景復(fù)雜性（如低分辨率、遮擋、視角和姿勢變化、光照不同等）的影響，行人重識別任務(wù)面臨諸多挑戰(zhàn)。

基于深度學(xué)習(xí)的方法在行人重識別領(lǐng)域中占據(jù)了主導(dǎo)地位，相比傳統(tǒng)手工提取方法［2-3］具有更優(yōu)的性能。文獻(xiàn)［4］提出以ResNet-50 為主干網(wǎng)絡(luò)、以行人的ID 作為訓(xùn)練標(biāo)簽的IDE網(wǎng)絡(luò)。文獻(xiàn)［5］將行人的性別、頭發(fā)、衣著等屬性信息作為額外的標(biāo)注，并結(jié)合ID 損失和屬性損失以增強(qiáng)網(wǎng)絡(luò)的泛化能力。在深度度量學(xué)習(xí)方面，文獻(xiàn)［6］將三元組損失引入到行人重識別中，通過結(jié)合度量學(xué)習(xí)和表征學(xué)習(xí)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練，以改進(jìn)行人重識別效果。文獻(xiàn)［7］使用生成對抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）模擬訓(xùn)練數(shù)據(jù)的分布來生成新圖像，并將其與原數(shù)據(jù)集圖像共同進(jìn)行訓(xùn)練，以提升網(wǎng)絡(luò)的魯棒性、行人重識別跨域和泛化能力，從而解決數(shù)據(jù)集規(guī)模偏小的問題。在行人圖像相似度度量方面，文獻(xiàn)［8］利用k倒排編碼方法對結(jié)果進(jìn)行重排序，有效地提高行人重識別的準(zhǔn)確率。

早期，研究人員僅關(guān)注行人圖像的全局特征，卻忽略了圖像局部細(xì)節(jié)信息。局部特征具有更豐富的細(xì)節(jié)信息和更強(qiáng)的辨別性，結(jié)合全局和局部特征表示行人圖像逐漸成為主流方向［9］，并取得了較優(yōu)的效果。目前，基于局部特征的行人重識別方法主要包括基于人體姿態(tài)和骨架關(guān)鍵點(diǎn)等先驗(yàn)知識的方法、基于注意力機(jī)制的方法、僅簡單地將圖像劃分成若干條帶進(jìn)行學(xué)習(xí)的方法。文獻(xiàn)［10］通過骨架關(guān)鍵點(diǎn)提取網(wǎng)絡(luò)來提取人體關(guān)鍵點(diǎn)，進(jìn)而獲取人體結(jié)構(gòu)的感興趣區(qū)域。文獻(xiàn)［11］采用姿態(tài)估計(jì)模型估計(jì)人體關(guān)鍵點(diǎn)，同時(shí)通過仿射變換使得兩張圖像中的行人對齊。但這種方法需要額外引入姿態(tài)估計(jì)模型，并且不同源域數(shù)據(jù)集之間的偏差會影響姿態(tài)估計(jì)模型的魯棒性。文獻(xiàn)［12］通過構(gòu)建自上而下的注意力機(jī)制網(wǎng)絡(luò)增強(qiáng)空間像素特征的顯著性。文獻(xiàn)［13］結(jié)合通道和空間信息，避免注意力機(jī)制過度集中于前景。由于注意力機(jī)制本身的局限性，因此其提取的區(qū)域缺乏語義解釋且不包括具有辨別力的特征。文獻(xiàn)［14］提出基于部分的卷積基線（Part-based Convolutional Baseline，PCB），通過將圖像均勻水平劃分成條帶來學(xué)習(xí)局部特征，同時(shí)設(shè)計(jì)一種部分精煉池化（Refined Part Pooling，RPP）策略使得分塊內(nèi)部具有一致性。PCB 僅使用了局部特征，并沒有結(jié)合全局特征學(xué)習(xí)，此外，通過引入RPP 使得網(wǎng)絡(luò)無法進(jìn)行端到端訓(xùn)練。文獻(xiàn)［15］提出多分支結(jié)構(gòu)的多粒度網(wǎng)絡(luò)（Multi-Granularity Network，MGN），每個(gè)分支可以學(xué)習(xí)全局特征和不同粒度的局部特征，因此融合這些特征能夠較全面地表示行人圖像。雖然MGN 結(jié)合了全局和局部特征，但結(jié)構(gòu)上仍然將兩者分開進(jìn)行單獨(dú)學(xué)習(xí)，因此割裂了全局和局部特征的關(guān)聯(lián)性。此外，MGN 選擇在主干網(wǎng)絡(luò)中間進(jìn)行分支，僅共享網(wǎng)絡(luò)前面的權(quán)重參數(shù)，從而增加了整個(gè)網(wǎng)絡(luò)的參數(shù)量且降低了計(jì)算效率。

高層特征包含豐富的語義信息，有助于模型對其進(jìn)行辨別。目前大部分方法僅關(guān)注高層特征的使用，但是當(dāng)不同類別的圖像具有較高的語義相似度時(shí)（常見于行人重識別數(shù)據(jù)集），僅依靠高層特征的辨別能力無法進(jìn)一步提升模型性能。低層特征包含更多的細(xì)節(jié)信息，用于度量細(xì)粒度相似性。由于低層特征具有過多的干擾信息而無法直接使用，一般將高層特征和低層特征相融合，但是直接融合帶入的干擾信息可能會削弱高層語義信息的辨別力。

本文提出一種多尺度多粒度融合的行人重識別方法，利用不同特征的優(yōu)勢互補(bǔ)，彌補(bǔ)單一類別特征的不足。通過將提取的低層特征作為行人圖像相似性度量的補(bǔ)充，在網(wǎng)絡(luò)的高層中學(xué)習(xí)多尺度和多粒度的特征表示，并結(jié)合平均池化和最大池化的特性提取具有強(qiáng)辨別力的特征。

1 多尺度多粒度融合網(wǎng)絡(luò)

1.1 MMF-Net 網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的多尺度多粒度融合（MMF-Net）網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。MMF-Net 的主干網(wǎng)絡(luò)可以選擇當(dāng)前的經(jīng)典網(wǎng)絡(luò)，如ResNet、GoogLeNet 和VGG。由于ResNet-50 在行人重識別任務(wù)中表現(xiàn)出較好的效果，因此本文選擇ResNet-50 作為主干網(wǎng)絡(luò)，并移除了后面的平均池化層和全連接層。此外，為豐富特征的粒度，取消了第5 層中的下采樣操作。因此，主干網(wǎng)絡(luò)的下采樣率為1/16。

圖1 多尺度多粒度融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of multi-scale and multi-granularity fusion network

1）語義監(jiān)督模塊

本文對ResNet-50 第4 層特征進(jìn)行采樣，引入語義監(jiān)督模塊（Semantic Supervision Module，SSM）后，特征圖先經(jīng)過池化層聚合成1 024 維特征向量，然后使用全連接層整合到512 維，作為該分支的特征表達(dá)。SSM 提取的特征通過softmax 損失和triplet 損失進(jìn)行約束。

網(wǎng)絡(luò)不同層的特征包含的信息差別較大，如何選擇引入SSM 的位置對模型性能有著重要的影響。本文選擇引入SSM 的位置，主要考慮以下3 個(gè)方面：（1）網(wǎng)絡(luò)低層感受野較小，主要關(guān)注圖像的空間細(xì)節(jié)，能夠利用更多的細(xì)粒度特征信息，但也會帶入雜亂背景和歧義語義的干擾信息；（2）網(wǎng)絡(luò)高層感受野較大，更多關(guān)注語義特征，提取具有鑒別力的特征，卻缺少了細(xì)節(jié)信息；（3）基于低層特征和高層特征的特性分析，本文選擇在主干網(wǎng)絡(luò)的次高層（即主干網(wǎng)絡(luò)的第4 層）引入SSM。次高層特征不僅具有較優(yōu)的語義信息和細(xì)節(jié)信息，同時(shí)避免產(chǎn)生過多的干擾信息。針對模塊的數(shù)量問題，過多或過早的約束可能導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象，因此不能盲目增加SSM 的數(shù)量。此外，SSM 提取的特征不能與高層特征相融合，而是作為獨(dú)立的特征表示，在測試時(shí)將其與高層特征拼接作為行人圖像的最終表示，實(shí)現(xiàn)低層和高層特征的優(yōu)勢互補(bǔ)。

2）深度挖掘模塊

在主干網(wǎng)絡(luò)中有4 個(gè)分支，第1 個(gè)分支不進(jìn)行降維、劃分條帶等其他操作，稱為原始分支。其他3 個(gè)分支分別使用1×1、3×3、5×5 卷積核進(jìn)一步提取特征，同時(shí)將維度降至512 維。為減少參數(shù)量且增加非線性，在使用3×3、5×5 卷積核前先采用1×1 卷積核進(jìn)行降維操作。本文設(shè)置卷積的步長為1和填充為0，經(jīng)卷積后形成了特征金字塔。MMF-Net 網(wǎng)絡(luò)中4 個(gè)分支的參數(shù)設(shè)置如表1 所示。

表1 MMF-Net 網(wǎng)絡(luò)中4 個(gè)分支的參數(shù)設(shè)置Table 1 Parameter settings of the four branch in MMF-Net network

特征金字塔首先將池化后的特征圖均勻地劃分成若干水平條帶，以提取局部特征用于學(xué)習(xí)分類；然后將特征圖拉平成一個(gè)n×512維（n是劃分水平條帶的數(shù)目）特征向量，將其傳入全連接層并整合到512 維，作為該分支最后的特征表示；最后通過拼接的方式融合4 個(gè)分支的特征，以得到一個(gè)包含更多鑒別信息的特征。

在該模塊中，利用不同感受野的卷積層進(jìn)一步提取特征，從而形成不同尺度和不同感受野的特征圖。相對感受野越大的特征圖，每個(gè)部分對應(yīng)的原始圖像區(qū)域則更大，因此將特征圖劃分為更多條帶，不會因分區(qū)細(xì)小而丟失過多的語義信息。粒度越小（即條帶越多）的分支能學(xué)習(xí)到更加精細(xì)的特征。此外，本文并沒有割裂全局和局部特征學(xué)習(xí)，而是將特征圖拉平后作為全局特征進(jìn)行度量學(xué)習(xí)，通過局部特征學(xué)習(xí)使得全局特征更精細(xì)化。將兩者相融合的設(shè)計(jì)加強(qiáng)了全局和局部之間的聯(lián)系，使得全局特征能包含更多的細(xì)節(jié)信息，因此在測試階段能夠減少局部特征的使用。最后，每個(gè)分支學(xué)習(xí)了不同粒度和不同尺度的特征信息，通過融合各分支得到一個(gè)辨別能力更強(qiáng)的特征。

在測試階段中，本文將SSM 提取的低層特征和上述的融合特征（高層特征）串聯(lián)，作為行人圖像最后的特征表示。

3）混合池化

混合池化的結(jié)構(gòu)如圖2 所示。

圖2 混合池化結(jié)構(gòu)Fig.2 Structure of mixed pooling

網(wǎng)絡(luò)高層的特征圖尺寸較小，且包含的高級語義信息能夠有效地識別模型，因此在網(wǎng)絡(luò)最后的池化層一般使用平均池化來聚合特征圖的全局信息，以保證信息的完整性。最大池化能夠保留特征圖中響應(yīng)強(qiáng)烈的信息。因此本文結(jié)合兩者的特性，使用平均池化和最大池化在保留特征圖鑒別信息完整性的同時(shí)凸顯其中最具有鑒別性的信息。本文將這種池化方式稱為混合池化。將特征圖F分別輸入到平均池化層和最大池化層，最后將池化后的特征進(jìn)行融合。混合池化計(jì)算如式（1）所示：

1.2 損失函數(shù)

為了使模型能獲得較好的表征學(xué)習(xí)能力，本文結(jié)合多分類任務(wù)和深度度量學(xué)習(xí)對模型所提取的特征進(jìn)行約束。

針對模型的分類問題，通過一個(gè)全連接層作為分類器預(yù)測每一類的得分，再采用softmax 損失函數(shù)進(jìn)行優(yōu)化。給定進(jìn)行分類識別的特征為f，softmax損失函數(shù)如式（2）所示：

其中：Wi為全連接層對應(yīng)i類別的權(quán)重向量；N為訓(xùn)練集的類別總數(shù)；y為輸入圖像的真實(shí)標(biāo)簽。由于測試集和訓(xùn)練集的行人ID 是不同的，為了防止模型過度擬合訓(xùn)練集中的行人ID，提高模型的泛化能力，本文采用softmax 損失函數(shù)的另一種形式Label smoothing［16］，qi的表示如式（3）所示：

其中：ε為一個(gè)在［0，1］之間的小常量，用于降低模型在訓(xùn)練集上的置信度，本文設(shè)置ε為0.1。

在模型的深度度量學(xué)習(xí)過程中，本文基于triplet損失函數(shù)進(jìn)行改進(jìn)［6］。triplet 損失函數(shù)如式（4）所示：

在MMF-Net 網(wǎng)絡(luò)中，為了使softmax 損失函數(shù)和triplet 損失函數(shù)相互作用，結(jié)合這兩種損失對每個(gè)部分提取的特征進(jìn)行約束。深度挖掘模塊中3 個(gè)分支需考慮到分塊局部特征的不對齊問題，本文僅使用softmax 損失對局部特征進(jìn)行約束。然而，拉平特征圖得到的特征向量保留了全局信息，可用triplet 損失對其進(jìn)行約束。

2 實(shí)驗(yàn)與結(jié)果分析

本節(jié)對MMF-Net 在4 個(gè)主流行人重識別數(shù)據(jù)集（Market-1501［17］、DukeMTMC-ReID［18］、CUHK03［19］、MSMT17［20］）上進(jìn)行實(shí)驗(yàn)分析。本文在4 個(gè)數(shù)據(jù)集上將MMF-Net 與當(dāng)前最新的方法進(jìn)行性能對比。此外，通過一系列（以Market-1501 數(shù)據(jù)集為例）消融實(shí)驗(yàn)，評估MMF-Net 各模塊的有效性。

2.1 數(shù)據(jù)集

Market-1501 數(shù)據(jù)集是通過6 個(gè)攝像頭拍攝完成的圖像，使用可變形部件模型（DPM）檢測器［21］檢測行人邊界框。Market-1501 數(shù)據(jù)集總共包含1 501 個(gè)行人的36 036 張圖像，分為訓(xùn)練集和測試集。其中訓(xùn)練集由750 個(gè)行人的12 936 張圖像組成。測試集有751 個(gè)行人，包含19 732 張圖庫圖像和3 368 張查詢圖像。其中，圖庫中存在6 617 張干擾圖像，包括誤檢和標(biāo)注不合格的圖像。

DukeMTMC-ReID 數(shù)據(jù)集是DukeMTMC 數(shù)據(jù)集的行人重識別子集，是目前最大的行人重識別數(shù)據(jù)集之一，包含8 個(gè)攝像頭拍攝的36 411 張圖像，有1 404 個(gè)有效的行人身份和408 個(gè)干擾身份（只出現(xiàn)在一個(gè)攝像頭中）。圖像采用人工標(biāo)注的方法裁剪出行人邊界框。702 個(gè)行人的16 522 張圖像用于訓(xùn)練，其余702 個(gè)行人的17 661 張圖庫圖像和2 228 張查詢圖像用于測試。

CUHK03 數(shù)據(jù)集采集了包含1 467 個(gè)行人的14 097 張圖像，其中每個(gè)行人拍攝于2 個(gè)攝像機(jī)（1 對攝像機(jī)）。數(shù)據(jù)集提供兩種類型行人邊界框，分別由手工標(biāo)注和DPM 檢測。關(guān)于數(shù)據(jù)集的使用協(xié)議，本文使用新的訓(xùn)練/測試協(xié)議［8］。訓(xùn)練集包含767 個(gè)行人身份，測試集（查詢圖像和圖庫圖像）包含700 個(gè)行人身份。

MSMT17 數(shù)據(jù)集是目前公開的規(guī)模最大和更接近真實(shí)場景的行人重識別數(shù)據(jù)集。數(shù)據(jù)集使用15 個(gè)攝像頭在不同天氣條件下采集不同時(shí)段（上午、中午、下午）的行人圖像。行人邊界框使用Faster RCNN［22］檢測裁剪。數(shù)據(jù)集總共有4 101 個(gè)行人的126 441 張圖像，采用1∶3 的比例劃分為訓(xùn)練集和測試集。最后訓(xùn)練集包含1 401 個(gè)行人的32 621 張圖像，測試集包含2 700 個(gè)行人的11 659 張查詢圖像和82 161 張圖庫圖像。復(fù)雜的場景和龐大的數(shù)目使得MSMT17 成為最具挑戰(zhàn)性的行人重識別數(shù)據(jù)集。此外，由于該數(shù)據(jù)集發(fā)布時(shí)間尚短，因此在該數(shù)據(jù)集上驗(yàn)證的方法較少。

在實(shí)驗(yàn)中，本文使用累積匹配特性（CMC）曲線中的Rank-1 精度和平均精度均值（mAP）作為評估模型性能的指標(biāo)。Rank-1 為搜索結(jié)果中第一張圖像是正確結(jié)果的概率。mAP 為所有查詢圖像在精度召回曲線下方的面積（AP）的平均值，能更加全面地評估ReID 算法的性能。此外，為了簡化評估過程，本文所有的實(shí)驗(yàn)均采用單查詢模式（即一個(gè)ID 僅使用某攝像頭中的一張圖像作為查詢圖像），并且沒有使用重新排序算法［8］。

2.2 實(shí)驗(yàn)設(shè)置

本文使用ImageNet 中預(yù)訓(xùn)練的ResNet-50 的權(quán)重參數(shù)來初始化MMF-Net 主干網(wǎng)絡(luò)。將輸入圖像大小調(diào)整為256×128 像素。在訓(xùn)練階段，通過水平翻轉(zhuǎn)、隨機(jī)擦除和歸一化增強(qiáng)數(shù)據(jù)，而在測試階段僅使用歸一化對數(shù)據(jù)進(jìn)行處理。為滿足三元組損失的訓(xùn)練要求，從訓(xùn)練集中隨機(jī)挑選P個(gè)身份，每個(gè)身份由K張圖像組成一個(gè)訓(xùn)練批次，因此訓(xùn)練批次大小為P×K。本文設(shè)置P=8，K=4，批次大小為32。對于三元組損失的閾值參數(shù)，本文設(shè)置m=0.3。在訓(xùn)練過程中采用自適應(yīng)優(yōu)化器（Adam）優(yōu)化模型參數(shù)，并使用權(quán)重衰減因子為0.000 5 的L2 正則化?；緦W(xué)習(xí)率設(shè)置為3.5×10-4。在訓(xùn)練過程中學(xué)習(xí)率在前10 個(gè)周期內(nèi)從3.5×10-6線性增加到3.5×10-4，并在第60 個(gè)周期和第130 個(gè)周期分別下降到3.5×10-5和3.5×10-6。模型訓(xùn)練總共持續(xù)240 個(gè)周期。本文將測試階段串接第4 個(gè)階段提取的特征f_s4 和后面融合的特征f_c 作為查詢圖像的特征表示。其中，f_s4 較小的比重設(shè)置為α，本文設(shè)置α=0.8 。本文在Pytorch框架上搭建模型，并使用一個(gè)NVIDIA TITAN Xp GPU 進(jìn)行加速訓(xùn)練。在Market-1501 數(shù)據(jù)集上完整地訓(xùn)練一個(gè)模型大概需要6 h。在4 個(gè)數(shù)據(jù)集上的所有實(shí)驗(yàn)都保持與上述相同的實(shí)驗(yàn)設(shè)置

2.3 不同方法對比

本文選擇 MMF-Net 方法與主流方法SVDNet［23］、Part-aligned［24］、PCB+RPP［14］、MLFN［25］、HA-CNN［26］等進(jìn)行對比。

在Market-1501 數(shù)據(jù)集上不同方法的評價(jià)指標(biāo)對比如表2 所示。本文方法MMF-Net 的Rank-1 為95.7%，mAP 為89.1%。MMF-Net 的Rank-1 指標(biāo)與MGN 和Pyramid 相同，MMF-Net 的mAP 相較于性能最接近的方法DSAP 提高了1.5 個(gè)百分點(diǎn)，比MGN提高了2.2 個(gè)百分點(diǎn)。

表2 在Market-1501 數(shù)據(jù)集上不同方法的評價(jià)指標(biāo)對比Table 2 Evaluation indexs comparison among different methods on Market-1501 dataset %

在DukeMTMC-ReID 數(shù)據(jù)集上不同方法的評價(jià)指標(biāo)對比如表3 所示。本文方法MMF-Net 的Rank-1精度和mAP 分別為89.7%的和79.9%。MMF-Net 方法的Rank-1 相比MHN 提高了0.6 個(gè)百分點(diǎn)，MMFNet 方法的mAP 相比Pyramid 提高了0.9 個(gè)百分點(diǎn)。由于Pyramid 主要依靠更大的主干網(wǎng)絡(luò)（ResNet-101）和使用了更多的特征（21 個(gè)特征，本文方法只用了5 個(gè)），因此其與MMF-Net 方法的性能更接近。在同樣以ResNet-50 為主干網(wǎng)絡(luò)的條件下，本文方法相比性能最優(yōu)的FPR 方法在Rank-1 精度和mAP 上分別提高了1.1 和1.5 個(gè)百分點(diǎn)。

表3 在DukeMTMC-ReID 數(shù)據(jù)集上不同方法的評價(jià)指標(biāo)對比Table 3 Evaluation indexs comparison among different methods on DukeMTMC-ReID dataset %

在CUHK03 數(shù)據(jù)集上不同方法的評價(jià)指標(biāo)對比如表4 所示。因?yàn)閿?shù)據(jù)集有手工標(biāo)記和檢測器檢測兩種標(biāo)注類型，所以將數(shù)據(jù)集分成兩種情況進(jìn)行驗(yàn)證。在手工標(biāo)記情況下，本文方法MMF-Net 的Rank-1 精度和mAP 分別達(dá)到了78.9%和76.6%，其中相比P2-Net 的Rank-1 精度提高了0.6 個(gè)百分點(diǎn)，mAP提升了3.0 個(gè)百分點(diǎn)。在檢測情況下，MMF-Net 具有76.4%的Rank-1 精度和74.1%的mAP，相比FPR的Rank-1 精度和mAP 分別提升了0.3 和1.8 個(gè)百分點(diǎn)。所有方法在手工標(biāo)記的情況下能取得更好的結(jié)果，這說明行人邊界框標(biāo)注的準(zhǔn)確性對識別結(jié)果產(chǎn)生一定的影響，即更精準(zhǔn)的行人邊界框標(biāo)注能提升行人重識別的準(zhǔn)確度。

表4 在CUHK03 數(shù)據(jù)集上不同方法的評價(jià)指標(biāo)對比Table 4 Evaluation indexs comparison among different methods on CUHK03 dataset %

在MSMT17 數(shù)據(jù)集上不同方法的評價(jià)指標(biāo)對比如表5 所示。由于該數(shù)據(jù)集發(fā)布時(shí)間尚短，因此在該數(shù)據(jù)集上驗(yàn)證的方法不多。實(shí)驗(yàn)結(jié)果表明，本文方法MMF-Net 在該數(shù)據(jù)集上的Rank-1 和mAP 優(yōu)于其他方法，Rank-1 精度和mAP 分別達(dá)到了80.6%和59.3%，相比OSNet［34］的Rank-1 和mAP 分別提升了1.9和6.4個(gè)百分點(diǎn)。

表5 在MSMT17 數(shù)據(jù)集上不同方法的評價(jià)指標(biāo)對比Table 5 Evaluation indexs comparison among different methods on MSMT17 dataset %

2.4 消融實(shí)驗(yàn)

本文以Market-1501 數(shù)據(jù)集為例，在該數(shù)據(jù)集上設(shè)計(jì)一系列實(shí)驗(yàn)來評估每個(gè)模塊的有效性。其中，使用softmax 損失和triplet 損失訓(xùn)練的全局特征（即原始分支P1）作為基線（baseline）模型。

2.4.1 語義監(jiān)督模塊分析

本文在基線和MMF-Net 上，通過設(shè)置不同SSM數(shù)量和位置，以評估該模塊的性能。SSM 一方面旨在提前引入語義監(jiān)督，加強(qiáng)主干網(wǎng)絡(luò)的特征提取能力，另一方面該模塊提取的特征可以作為高層特征的補(bǔ)充，與高層特征一起作為行人圖像的最終特征表示。實(shí)驗(yàn)結(jié)果如表6 所示，表中的s3、s4 表示在主干網(wǎng)絡(luò)的第3、4 層中引入SSM，p 表示深度挖掘模塊中的分支（Part-n），w/wo 表示with/without。在次高層（即主干網(wǎng)絡(luò)第4 層）中引入SSM 能夠有效提升基線和MMF-Net 的性能（1%～2%），而在第3 層引入SSM 反而降低了網(wǎng)絡(luò)性能，其原因可能是由于網(wǎng)絡(luò)層次過低會包含過多的干擾信息。此外，過多的模塊數(shù)量（Baseline+s3+s4，MMF-Net w/s3）并不能提升性能指標(biāo)。實(shí)驗(yàn)結(jié)果驗(yàn)證了高層特征和低層特征互補(bǔ)的有效性。

表6 在Market-1501數(shù)據(jù)集上MMF-Net不同分支設(shè)置的評估結(jié)果Table 6 Evaluation results of different branch settings of MMF-Net on Market-1501 dataset %

2.4.2 深度挖掘模塊中分支數(shù)目分析

網(wǎng)絡(luò)多分支的設(shè)置可以增加模型表達(dá)的多樣性。每個(gè)分支可以進(jìn)行不同的特征學(xué)習(xí)任務(wù)，合理地設(shè)置網(wǎng)絡(luò)分支能夠有效提升模型性能。本文在基線和SSM 模型的基礎(chǔ)上，逐步增加分支的數(shù)量，以評估分支數(shù)量對模型性能的影響。從表6 可以看出，隨著分支數(shù)目的增加，模型的性能逐步提升，當(dāng)分支數(shù)目達(dá)到4 時(shí)，模型的性能最佳。此外，本文額外增加Part-5 分支，根據(jù)模塊的構(gòu)建思路采用感受野更大的卷積核（7×7）進(jìn)行特征提取。然而，這樣的設(shè)置反而降低了模型的性能，驗(yàn)證了MMFNet 設(shè)置4 個(gè)分支的必要性和有效性。由于此時(shí)特征圖尺寸較小并且包含的信息足夠完整，因此使用大卷積核會造成信息損失，反而降低模型的表達(dá)能力。

2.4.3 池化層選擇

池化層主要用于特征的聚合和降維。主干網(wǎng)絡(luò)最后的池化層所聚合的特征信息一般直接或間接用于最后的特征表示。本文在MMF-Net 網(wǎng)絡(luò)上以不同的池化方式進(jìn)行實(shí)驗(yàn)，評估池化方式對模型性能的影響，實(shí)驗(yàn)結(jié)果如表7 所示。

表7 在Market-1501 數(shù)據(jù)集上不同池化方法的評估指標(biāo)對比Table 7 Evaluation indexs comparison among different pooling methods on Market-1501 dataset %

從表7 可以看出，平均池化和最大池化的精度基本相同，而結(jié)合兩種池化方式的混合池化能取得更好的效果。平均池化關(guān)注特征圖的全局性，考慮信息的完整性。最大池化關(guān)注特征圖中響應(yīng)強(qiáng)烈的部分信息，旨在保留最具辨別性的信息?；旌铣鼗瘜煞N方式結(jié)合到一個(gè)模型中，能夠保留更有效的鑒別信息，強(qiáng)化了模型特征表達(dá)能力。

此外，本文還進(jìn)行了部分可視化實(shí)驗(yàn)。行人特征響應(yīng)熱力圖對比如圖3 所示（彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版）。從圖3 可以看出，MMF-Net特征圖的響應(yīng)區(qū)域更活躍，并且關(guān)注具有鑒別信息的局部區(qū)域，例如衣服圖案和紋理。在不同數(shù)據(jù)集上本文方法的前5 個(gè)檢索結(jié)果如圖4 所示，圖中第1 行和第2 行分別是基線和本文方法的檢索結(jié)果，虛線框表示錯誤的檢索結(jié)果。當(dāng)不同類別的行人圖像有較高的相似度時(shí)，本文所提的MMF-Net仍能夠有效地將其識別出，具有較優(yōu)的魯棒性。

圖3 行人特征響應(yīng)熱力圖對比Fig.3 Thermal map comparison of person features response

圖4 本文方法特征識別結(jié)果Fig.4 Feature recognization results of the proposed method

3 結(jié)束語

針對局部特征學(xué)習(xí)存在的局限性和低層特征利用率低的問題，本文提出多尺度多粒度融合的行人重識別方法。通過學(xué)習(xí)不同尺度和粒度的特征表示，并融合全局和局部特征學(xué)習(xí)，以加強(qiáng)全局和局部特征的關(guān)聯(lián)性。同時(shí)將低層特征作為行人圖像表示的一部分，實(shí)現(xiàn)低層和高層特征的優(yōu)勢互補(bǔ)。此外，在改進(jìn)的池化層上結(jié)合平均池化和最大池化的特性，獲取具有強(qiáng)鑒別力的特征。實(shí)驗(yàn)結(jié)果表明，本文方法在Market-1501 數(shù)據(jù)集上的Rank-1 和mAP 分別為95.7%和89.1%，相比FPR、MGN 等方法能夠有效提升行人重識別性能。下一步將通過引入注意力機(jī)制，并將其與分塊局部特征相結(jié)合，以提取魯棒性更優(yōu)的行人特征。