亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

聯(lián)合語(yǔ)義分割與注意力機(jī)制的行人再識(shí)別模型

2022-02-24 05:06:42周東明張燦龍唐艷平李志欣

計(jì)算機(jī)工程 2022年2期

周東明，張燦龍，唐艷平，李志欣

（1.廣西師范大學(xué) 廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室，廣西桂林 541004；2.桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院，廣西桂林 541006）

0 概述

行人再識(shí)別是指判斷不同攝像頭下出現(xiàn)的行人是否屬于同一行人，屬于圖像檢索的子問(wèn)題，廣泛應(yīng)用于智能視頻監(jiān)控、安保、刑偵等領(lǐng)域［1-2］。由于行人圖像的分辨率變化大、拍攝角度不統(tǒng)一、光照條件差、環(huán)境變化大、行人姿態(tài)不斷變化等原因，使得行人再識(shí)別成為目前計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)和難點(diǎn)問(wèn)題。

傳統(tǒng)的行人再識(shí)別方法側(cè)重于顏色、形狀等低級(jí)特征。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，以端到端的方式學(xué)習(xí)圖像特征，然后進(jìn)行三元組損失、對(duì)比損失、改進(jìn)的三元組損失等［3-4］的度量與計(jì)算。該方式能夠很好地學(xué)習(xí)圖像的全局特征，但是并沒(méi)有考慮圖像的局部特征和空間結(jié)構(gòu)。行人在不同的攝像頭下由于低分辨率、光照條件、部分遮擋、姿態(tài)變化等諸多因素使得視覺(jué)外觀發(fā)生顯著變化，主要表現(xiàn)為行人部分特征被遮擋導(dǎo)致不相關(guān)上下文被學(xué)習(xí)到特征圖中，姿態(tài)變化或者非剛性變換使得度量學(xué)習(xí)［5］變得困難，高相似度的外貌特征在基于全局特征學(xué)習(xí)的模型中不能得到有效識(shí)別，區(qū)域推薦網(wǎng)絡(luò)所產(chǎn)生的不精確的檢測(cè)框會(huì)影響特征學(xué)習(xí)等方面。為解決上述問(wèn)題，研究人員開(kāi)始關(guān)注圖像的局部特征，通過(guò)圖像的局部差異性分辨不同的行人。對(duì)于行人的局部特征進(jìn)行提取，主要是通過(guò)手工的方式將圖像分成若干塊。文獻(xiàn)［6］提出對(duì)圖像進(jìn)行分塊，將行人圖像平均分成6 份大小相同的區(qū)域，對(duì)每個(gè)區(qū)域施加標(biāo)簽約束，然后分別提取圖像的局部特征進(jìn)行學(xué)習(xí)。文獻(xiàn)［7］在全局特征的辨識(shí)模型中引入局部特征損失來(lái)影響全局特征表達(dá)，在局部網(wǎng)絡(luò)中使用無(wú)監(jiān)督訓(xùn)練自動(dòng)檢測(cè)局部人體部件，增加了模型對(duì)于未見(jiàn)過(guò)的行人圖像的判別能力。但是，已有研究主要將注意力集中在人體的局部特征學(xué)習(xí)上，忽略了非人體部件的上下文線索對(duì)整體辨識(shí)的重要影響，因此模型在不同數(shù)據(jù)集中的魯棒性較差。本文使用行人語(yǔ)義分割代替手工設(shè)計(jì)的分塊框，快速提取圖像的局部特征。首先訓(xùn)練一個(gè)行人語(yǔ)義分割模型，該模型通過(guò)學(xué)習(xí)將行人分成多個(gè)語(yǔ)義區(qū)域，將非人體部分作為背景。然后通過(guò)局部語(yǔ)義區(qū)域進(jìn)行分塊，分塊后再進(jìn)行辨識(shí)比對(duì)。在此基礎(chǔ)上提出一種局部注意力機(jī)制，計(jì)算非人體部分潛在部件的相似度，依據(jù)輸入圖像和查詢圖像像素之間的差異來(lái)辨識(shí)是否屬于同一行人，以解決非人體部分潛在的原始信息辨識(shí)問(wèn)題。

1 行人再識(shí)別模型

本文提出一種基于局部對(duì)齊網(wǎng)絡(luò)（Partial Alignment Network，PAN）的行人再識(shí)別模型，通過(guò)行人解析模型對(duì)齊人體部分特征以及使用局部注意力機(jī)制對(duì)齊非人體部分的上下文線索［8］。局部對(duì)齊網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示，通過(guò)將分塊后的行人語(yǔ)義特征與注意力特征相融合得到最終的辨識(shí)特征，其中：Lpar表示人體語(yǔ)義解析網(wǎng)絡(luò)分支；Latt表示局部注意力網(wǎng)絡(luò)分支，先學(xué)習(xí)捕獲基于不同像素之間的部分差異，再計(jì)算潛在的局部對(duì)齊表示。

圖1 局部對(duì)齊網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of partial alignment network

1.1 行人語(yǔ)義分割模型

輸入一張行人圖片I，經(jīng)過(guò)殘差網(wǎng)絡(luò)的特征提取得到特征圖V，將行人與分割后的標(biāo)簽映射進(jìn)行縮放［9］，使其特征映射和V維度相同。第i個(gè)像素的表征為ri，本質(zhì)上是V的it，h行。像素i經(jīng)過(guò)縮放后行人部分類別的標(biāo)簽可表示為δi，δi有N個(gè)人體部件的值和1 個(gè)背景類別。將得到的人體特征標(biāo)記的置信度圖記為fk，每一個(gè)人體部件類別和背景均與局部特征置信度圖相關(guān)［10］。當(dāng)預(yù)測(cè)i個(gè)行人部件標(biāo)簽時(shí)：

在得到第i個(gè)像素的標(biāo)簽圖fk，i后，本文使用L1正則化對(duì)每個(gè)行人標(biāo)簽的置信度圖進(jìn)行歸一化處理［11］，L1 正則化可表示如下：

其中：λ∈[0，+∞]是用來(lái)平衡系數(shù)的稀疏性和經(jīng)驗(yàn)損失的超參數(shù)，λ越大系數(shù)的稀疏性越好，但經(jīng)驗(yàn)損失就越大；ri是輸入的第i個(gè)像素特征；y是圖像的標(biāo)簽；w是在訓(xùn)練中學(xué)習(xí)的超參數(shù)；Lemp()是目標(biāo)函數(shù)。對(duì)式（2）中的w求導(dǎo)，使得偏置值?w J(w；ri，y)目標(biāo)函數(shù)取得最小值以產(chǎn)生稀疏模型，防止過(guò)擬合現(xiàn)象［12］。此時(shí)，行人部分的特征hi可以表示如下：

其中：hi表示的是第i個(gè)像素的行人部件特征，通過(guò)指示函數(shù)[δi≡N]即可得到人體部分的特征圖Lpar。Lpar可以表示如下：

其中：Lpar本質(zhì)上是圖片中行人預(yù)定義標(biāo)簽的語(yǔ)義表示。在本文模型中，行人語(yǔ)義主干網(wǎng)絡(luò)每次激活輸出一個(gè)帶標(biāo)簽的置信度圖，而不是使用全局平均池化［13］輸出置信度圖。與全局平均池化［14］相比，置信度圖的激活發(fā)生在空間區(qū)域。

1.2 局部注意力網(wǎng)絡(luò)

將ResNet50 提取到的特征圖V輸入局部注意力網(wǎng)絡(luò)中［15］，局部注意力網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)K個(gè)非行人標(biāo)簽置信度圖Q1，Q2，…，QK。局部注意力網(wǎng)絡(luò)中的置信度圖學(xué)習(xí)與行人解析網(wǎng)絡(luò)中第i個(gè)像素有關(guān)的潛在知識(shí)，第i個(gè)像素的注意力編碼向量可表示如下：

其中：Ti是第i個(gè)像素的特征編碼長(zhǎng)度；WP是在訓(xùn)練中學(xué)習(xí)的超參數(shù)；tanh()是雙曲正切函數(shù)，在得到注意力編碼向量的特征表示后，計(jì)算注意力網(wǎng)絡(luò)中i個(gè)像素特征圖的權(quán)重ai，j。ai，j可以表示如下：

其中：ai，j是Qi的第jt，h行的置信度圖權(quán)重；s表示輸入序列的位置；σ表示局部注意力關(guān)注區(qū)域和標(biāo)簽之間的方差。本文在計(jì)算特征圖權(quán)重時(shí)，添加高斯分布使得對(duì)齊權(quán)重在第i個(gè)像素對(duì)靠近pi的標(biāo)注時(shí)予以更多的影響力。遵循局部注意力機(jī)制，首先正則化align(Qj，Qi)，然后計(jì)算輸入和查詢圖像之間關(guān)于像素i相似性的總和。局部注意力網(wǎng)絡(luò)中的兩個(gè)變換函數(shù)是為了更好地學(xué)習(xí)相似性，其實(shí)現(xiàn)使用的是1×1的卷積核，能更好地對(duì)小目標(biāo)予以檢測(cè)和關(guān)注。

潛在的局部注意力特征圖可表示如下：

其中：ψ(·)是用來(lái)學(xué)習(xí)更好表征的函數(shù)。在實(shí)現(xiàn)細(xì)節(jié)上，使用的是1×3 的卷積核和批量歸一化以及Sigmoid 激活函數(shù)［16］。

將潛在的局部注意力網(wǎng)絡(luò)對(duì)齊表示和人體語(yǔ)義解析網(wǎng)絡(luò)對(duì)齊表示進(jìn)行融合，得到最終的辨識(shí)特征X：

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

使用3 個(gè)公開(kāi)的大規(guī)模行人再識(shí)別領(lǐng)域的Market-1501［17］、DukeMTMC-reID［18］和CUHK03［19］數(shù)據(jù)集評(píng)估本文模型的性能。Market-1501 數(shù)據(jù)集有1 501 個(gè)行人，共32 688 張圖片。DukeMTMCreID 數(shù)據(jù)集有1 404 個(gè)行人，共36 411 張圖片。CUHK03 數(shù)據(jù)集有1 467 個(gè)行人，共14 096 張圖片。這些圖片由5 個(gè)高分辨率的攝像頭和1 個(gè)低分辨率的攝像頭拍攝，且每個(gè)行人至少出現(xiàn)在2 個(gè)不同的攝像頭中。CUHK03 數(shù)據(jù)集的數(shù)據(jù)格式和另外兩種數(shù)據(jù)集格式稍有不同，提供了兩種類型的數(shù)據(jù)，包括手工注釋的標(biāo)簽（Labeled）和DPM 檢測(cè)的邊界框（Detected）［20］，其中第二種類型的數(shù)據(jù)檢測(cè)更困難，因?yàn)镈MP 檢測(cè)的邊界框存在比例失調(diào)、雜亂背景等現(xiàn)象的發(fā)生。利用累計(jì)匹配特征（Cumulated Matching Characteristic，CMC）和平均精度均值（mean Average Presicion，mAP）兩種評(píng)價(jià)指標(biāo)來(lái)評(píng)估PAN 模型。所有實(shí)驗(yàn)均使用單查詢?cè)O(shè)置。

2.2 參數(shù)設(shè)置

模型基于PyTorch 框架，在開(kāi)始訓(xùn)練前將數(shù)據(jù)集中圖片大小調(diào)整至384 像素×128 像素，通過(guò)隨機(jī)遮擋進(jìn)行數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)中使用的3 個(gè)數(shù)據(jù)集預(yù)先使用CE2P 模型進(jìn)行人體語(yǔ)義解析［21］，每張圖片定義20 個(gè)語(yǔ)義類別，其中，19 個(gè)行人類別，1 個(gè)背景類別。實(shí)驗(yàn)共訓(xùn)練100 個(gè)批次，每個(gè)批次的大小設(shè)置為128。初始學(xué)習(xí)率設(shè)置為0.02，在經(jīng)過(guò)60 個(gè)批次后學(xué)習(xí)率降為0.002。

2.3 定量比較與分析

將PAN 模型與基于注意力的行人再識(shí)別模型（RGA［22］、HOA［23］）、基于行人語(yǔ)義解析的行人再識(shí)別模型（SSM［24］）和基于局部對(duì)齊方法的行人再識(shí)別模型（SCSN［25］、GSRW［26］和DSA［27］）進(jìn)行性能評(píng)價(jià)測(cè)試與對(duì)比，對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果如表1 所示，其中，在Market-1501 和DukeMTMC 數(shù)據(jù)集中分別測(cè)試了Rank-1、Rank-5、Rank-10 和mAP 評(píng)價(jià)指標(biāo)，在CUHK03 數(shù)據(jù)集中測(cè)試了Rank-1 和mAP 評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果表明：PAN 模型在3 個(gè)數(shù)據(jù)集中均取得較好的結(jié)果，通過(guò)觀察可以發(fā)現(xiàn)，本文構(gòu)建的人體語(yǔ)義解析網(wǎng)絡(luò)有效地解決了分塊后特征不對(duì)齊導(dǎo)致的匹配失敗問(wèn)題；將PAN 模型與HOA 模型在沒(méi)有使用多分類Softmax 損失函數(shù)［28］的條件下進(jìn)行比較，可以發(fā)現(xiàn)PAN 模型的Rank-1 和mAP 評(píng)價(jià)指標(biāo)上有明顯提升，分別提高了5.4 和6.8 個(gè)百分點(diǎn)。

表1 在單查詢?cè)O(shè)置下PAN 模型和其他模型在Market-1501、DukeMTMC 和CUHK03 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of experimental results of PAN model and other models on Market-1501，DukeMTMC and CUHK03 datasets under the single query setting %

2.4 定性評(píng)估

本文探究了不同的行人部件分割數(shù)量N對(duì)PAN 模型的影響，實(shí)驗(yàn)結(jié)果如圖2 所示。由圖2 可以看出，當(dāng)N=5 時(shí)，行人部件被分為頭部、上部分、下部分、腳部、背景等5 個(gè)部分，整個(gè)模型的再識(shí)別成功率最高，這表明精細(xì)的行人部件分割有效地克服了行人姿態(tài)變化的差異性問(wèn)題，通過(guò)上下文信息對(duì)行人再識(shí)別產(chǎn)生了重要影響。考慮到計(jì)算時(shí)間開(kāi)銷和硬件支持［29］，本文默認(rèn)將N設(shè)置為5，即每張圖片的行人部分分割為5 個(gè)小區(qū)域。

圖2 PAN 模型選取不同行人部件分割數(shù)量時(shí)的實(shí)驗(yàn)結(jié)果對(duì)比Fig.2 Comparison of experimental results when the PAN model selects different number of pedestrian components

在使用三元組損失的基礎(chǔ)上［30］，通過(guò)消融實(shí)驗(yàn)來(lái)深入研究PAN 模型中各分支的貢獻(xiàn)，其中：Baseline 表示基線模型，在此基礎(chǔ)上進(jìn)行改進(jìn)；PAN/Lpar表示僅使用人體語(yǔ)義解析網(wǎng)絡(luò)分支的模型；PAN/Latt表示僅使用局部注意力網(wǎng)絡(luò)分支的模型；PAN/Lpar+Latt代表同時(shí)使用局部注意力網(wǎng)絡(luò)和人體語(yǔ)義解析網(wǎng)絡(luò)分支的模型。實(shí)驗(yàn)結(jié)果如表2 所示：聯(lián)合人體語(yǔ)義解析和局部注意力網(wǎng)絡(luò)可以提升3 個(gè)主流數(shù)據(jù)集的整體性能；PAN/Lpar和Baseline 模型相比可以發(fā)現(xiàn)，Baseline 模型只是將圖像進(jìn)行分塊提取特征，當(dāng)出現(xiàn)姿態(tài)變化過(guò)大和高相似度外貌特征時(shí)并不能取得良好的實(shí)驗(yàn)結(jié)果；PAN/Latt和Baseline 模型相比可以發(fā)現(xiàn)，局部注意力網(wǎng)絡(luò)在出現(xiàn)遮擋情況時(shí)，顯示出了非行人部件上下文線索的重要性。

表2 行人再識(shí)別模型消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiment for pedestrian re-identification models%

3 結(jié)束語(yǔ)

本文提出一種基于行人語(yǔ)義分割和局部注意力機(jī)制的行人再識(shí)別模型。使用行人語(yǔ)義分割模型對(duì)行人的局部特征進(jìn)行更精細(xì)的分割，避免了對(duì)圖像進(jìn)行分塊后局部特征不匹配現(xiàn)象的產(chǎn)生。利用局部注意力機(jī)制，解決了行人語(yǔ)義分割模型將非人體部件識(shí)別為圖像背景的問(wèn)題。通過(guò)行人部件信息和背景遮擋信息的互補(bǔ)，增強(qiáng)了模型的可遷移性。實(shí)驗(yàn)結(jié)果表明，該模型能充分利用行人部件信息和局部視覺(jué)線索中隱藏的語(yǔ)義信息，有效解決了行人姿態(tài)變化過(guò)大、特征分塊后不對(duì)齊等問(wèn)題。后續(xù)將研究PAN 模型在基于視頻序列的行人再識(shí)別中的應(yīng)用，通過(guò)將視頻中的每一幀圖像進(jìn)行分割得到行人部件特征，根據(jù)行人部件特征之間的比對(duì)增加識(shí)別粒度，并設(shè)計(jì)圖卷積網(wǎng)絡(luò)挖掘視頻序列中行人潛在的語(yǔ)義信息，進(jìn)一步提高識(shí)別精度。