基于圖模型與加權(quán)損失策略的視頻行人重識別研究

2022-01-01 00:00:00徐志晨王洪元齊鵬宇欣子豪

計算機(jī)應(yīng)用研究 2022年2期

摘要： "針對監(jiān)控視頻中行人外觀、姿態(tài)相似等現(xiàn)象導(dǎo)致的視頻行人重識別準(zhǔn)確率低的問題進(jìn)行了研究，提出了一種基于圖模型的視頻行人重識別方法，有效利用了視頻中的時序信息，實現(xiàn)跨幀及幀內(nèi)區(qū)域的信息交互。具體來說，利用跨幀分塊區(qū)域間的關(guān)聯(lián)信息建立區(qū)域節(jié)點(diǎn)間的固有關(guān)系，并進(jìn)行特征傳播迭代更新區(qū)域信息。另一方面，在度量學(xué)習(xí)過程中，提出了一種加權(quán)損失函數(shù)策略，這個方法將先前挖掘策略中的二進(jìn)制分配法（即丟棄或保留該樣本）優(yōu)化為連續(xù)分?jǐn)?shù)分配法，解決了可用樣本未被有效利用的問題。將模型在MARS和DukeMTMC-VideoReID兩個數(shù)據(jù)集上進(jìn)行了評估，實驗結(jié)果證實了提出方法的有效性。

關(guān)鍵詞： "視頻行人重識別；深度學(xué)習(xí)；圖模型；加權(quán)損失策略；注意力機(jī)制

中圖分類號： "TP391.41 """文獻(xiàn)標(biāo)志碼： A

文章編號： "1001-3695（2022）02-048-0598-06

doi：10.19734/j.issn.1001-3695.2021.06.0235

Video-based person re-identification based on "graph model and weighted loss strategy

Xu Zhichen， Wang Hongyuan， Qi Pengyu， Xin Zihao

（Aliyun School of Big Data， School of Computer Science amp; Artificial Intelligence， Changzhou University， Changzhou Jiangsu 213164， China）

Abstract： "Aiming at the problem of low person re-identification accuracy caused by similar appearance and posture of person in surveillance videos，this paper proposed a video-based person re-identification method based on a graph model，which effectively utilized the time sequence information in the video to realize the information interaction across frames and intra-frame regions.Specifically，it used the correlation information between the cross-frame block regions to establish the inherent relationship between the regional nodes，and iteratively updated the regional information through feature propagation.On the other hand，in the metric learning process，it proposed a weighted loss function strategy，which optimized the binary allocation method（that is，discarding or retaining the sample） in the previous mining strategy into a continuous score allocation method，which solved the problem that the available samples were not used efficiently.Finally，it evaluated the model on MARS and DukeMTMC-VideoReID datasets，and the experimental results confirm the effectiveness of the proposed method.

Key words： "video-based person re-identification； deep learning； graph model； weighted loss strategy； attention mechanism

0 引言

行人重識別（person re-identification）作為計算機(jī)視覺中一個重要且具有挑戰(zhàn)性的問題，其目的是給定一個特定的身份，從數(shù)據(jù)庫中精確地檢索出相同的身份，并給出查詢結(jié)果。近年來，行人重識別在智能監(jiān)控和人員跟蹤領(lǐng)域有著廣泛的應(yīng)用［1］。現(xiàn)有的行人重識別方法主要分為基于圖片的行人重識別［2］和基于視頻的行人重識別［3～11］兩類?；趫D片的行人重識別是將一幅或者多幅圖像作為輸入，側(cè)重于提取與衣服的顏色、質(zhì)地等信息相關(guān)的外觀特征，無須考慮圖像與圖像之間的時間信息。然而，如果給定的圖像存在大量噪點(diǎn)影響或出現(xiàn)大面積遮擋等情況，這些基于外觀獲取信息的方法效果會變得很差，使得基于圖像的行人重識別無法正常工作。相反，基于視頻的行人重識別通過將短視頻剪輯成多幀圖片作為輸入，可以利用更加豐富的圖片和時間信息，如行人的姿態(tài)或步態(tài)變化［12］，有利于減少外觀特征對重識別功能的影響，獲取更有效的行人特征。

目前，大多數(shù)基于視頻行人重識別的方法都采用了深度學(xué)習(xí)的算法，包括三維卷積神經(jīng)網(wǎng)絡(luò)（3D convolutional neural networks，3D CNN）［9］、循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）［13］、注意力機(jī)制（attention mechanism）［4，14～17］等。這些方法大多是先逐幀提取特征向量，再通過時間聚合方法生成視頻級特征表示。倘若直接對不同幀圖片進(jìn)行時間建模，就僅利用了視頻中的小部分時間信息，忽略了幀內(nèi)圖片或跨幀圖片的身體不同部位的潛在關(guān)系，而這些部分可能包含了更加鮮明的、更具魯棒性的信息，這往往是解決行人重識別難題的關(guān)鍵。例如，如果身體部分在某一幀被遮擋，可以根據(jù)其他幀的外觀提示和前后幀信息對其進(jìn)行補(bǔ)全，獲得更完整的行人特征信息。

如圖1所示，在圖（a）中，人的不同身體部位在不同的幀中出現(xiàn)了被遮擋或者不對齊的現(xiàn)象，這通常會影響行人重識別的準(zhǔn)確性。然而，在其他幀中行人被遮擋的部分又再次出現(xiàn)，如果利用這些信息將行人特征補(bǔ)全，可有效減輕遮擋和不對齊等問題的影響。另外，通過穿著外觀可以輕松分辨出圖（b）和（d）的行人，但在外觀相似的情況下，如圖（c）和（d）的行人就需要借助身體結(jié)構(gòu)等信息，挖掘更多的行人特征信息來進(jìn)行識別。因此，要利用行人的外觀信息和身體結(jié)構(gòu)信息進(jìn)行互補(bǔ)，通過幀的空間關(guān)系建模區(qū)分人體結(jié)構(gòu)信息也至關(guān)重要。

基于以上研究，為有效利用視頻中冗余的行人信息，本文提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的方法。一方面，本文構(gòu)建了特征關(guān)系圖，挖掘了不同幀內(nèi)不同節(jié)點(diǎn)之間的關(guān)聯(lián)信息，為圖模型提供了時空信息，從而減輕遮擋和視覺誤差問題。另一方面，考慮到幀內(nèi)結(jié)構(gòu)信息，本文使用分塊結(jié)構(gòu)和全局結(jié)構(gòu)兩個分支挖掘互補(bǔ)信息。最后，為了彌補(bǔ)度量學(xué)習(xí)中丟失樣本信息過多問題，本文采用加權(quán)對比損失策略，為每個樣本分配一個連續(xù)分布的分?jǐn)?shù)，充分利用小批次中的樣本信息。

本文構(gòu)建了特征關(guān)系圖（graph of feature relationship，GFR），能夠自適應(yīng)地捕獲幀內(nèi)及跨幀區(qū)域之間的時間和空間結(jié)構(gòu)關(guān)系，為后續(xù)圖模型提供有效信息，緩解了遮擋和視覺誤差問題；提出了一種加權(quán)對比損失函數(shù)策略（weighted loss function strategy，WLFS），在現(xiàn)有的樣本挖掘策略中加入中心損失和在線軟挖掘損失，有效利用每個樣本信息，彌補(bǔ)現(xiàn)有方法在度量學(xué)習(xí)過程中丟失大部分樣本信息的不足。

本文的方法在MARS和DukeMTMC-VideoReID數(shù)據(jù)集上進(jìn)行了實驗，結(jié)果證明了該方法的有效性。

1 相關(guān)工作

1）視頻行人重識別目前，由于行人重識別在視頻監(jiān)控領(lǐng)域的應(yīng)用更接近于實際情況，更多的研究人員開始關(guān)注基于視頻的行人重識別。早期的基于視頻的行人重識別方法集中于手工制作的視頻表示和度量學(xué)習(xí)［18～22］，自從深度卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)取得突破以來，深度學(xué)習(xí)已成為視頻行人重識別的主流方法。在深度學(xué)習(xí)技術(shù)的推動下，視頻行人重識別在近幾年取得了令人矚目的進(jìn)步。McLaughlin等人［23］首先提出了一個CNN-RNN的基準(zhǔn)模型，先通過CNN用平均池化或最大池化的方法從視頻幀中提取特征，再采用RNN進(jìn)行時間建模建立序列間關(guān)聯(lián)。Wu等人［24］利用注意力機(jī)制拓展了門控循環(huán)單元（gated recurrent unit，GRU），選擇性傳播更顯著的特征，用來訓(xùn)練網(wǎng)絡(luò)記憶其空間依賴性。Gao等人［25］對視頻行人重識別中的時間建模方法進(jìn)行了詳細(xì)的實驗調(diào)查和整合。

近年來，研究人員更多地對注意力網(wǎng)絡(luò)進(jìn)行了研究，并將其應(yīng)用于時間特征融合中。Xu等人［15］通過注意力機(jī)制對時間序列幀進(jìn)行判別，為每個幀分配一個質(zhì)量得分，再將其融合到最后的視頻特征表示中。文獻(xiàn)［8，16］將注意力機(jī)制在時間方面的應(yīng)用拓展到時空方面，在篩選關(guān)鍵幀的同時，對幀圖像進(jìn)一步篩選信息區(qū)域，取得了顯著的改進(jìn)。Liu等人［10］將非本地模塊（non-local modules）嵌入ResNet-50中，提出了非本地視頻注意網(wǎng)絡(luò)（non-local video attention network，NVAN），是一種在時間和空間信息提取上均有提升的變體。Zhang等人［26］提出從全局視角準(zhǔn)確判別某個時空特征信息在整個視頻片段中的重要程度，并從多個粒度更新特征信息，最后通過級聯(lián)獲取具有魯棒的視頻特征。Yang等人［27］提出了一個新的時空圖卷積網(wǎng)絡(luò)（spatial-temporal graph convolutional network，STGCN），包括提取人體結(jié)構(gòu)的信息的空間層和挖掘相鄰幀關(guān)聯(lián)線索的時間層。

2）圖神經(jīng)網(wǎng)絡(luò)方法近年來，由于圖神經(jīng)網(wǎng)絡(luò)（graph neural network，GNN）及其變體優(yōu)秀的關(guān)系建模能力已成功應(yīng)用于人體動作識別［28］、視頻分類［29］和多標(biāo)簽圖像識別［30］等計算機(jī)視覺任務(wù)中。在行人重識別領(lǐng)域中，也引入了圖網(wǎng)絡(luò)模型相關(guān)的方法。Barman等人［31］提出了一種將排名過程映射到圖理論問題中的算法。Cheng等人［32］將距離關(guān)系公式轉(zhuǎn)換為結(jié)構(gòu)化的圖拉普拉斯形式來優(yōu)化訓(xùn)練樣本的特征學(xué)習(xí)。Ye等人［33］為了解決無監(jiān)督行人重識別問題，將圖模型匹配到一個迭代更新過程中，用來進(jìn)行更可靠的標(biāo)簽估計。另外，有兩種類似的基于圖的方法，文獻(xiàn)［34］將圖注意力網(wǎng)絡(luò)（graph attention network，GAT）與特征提取網(wǎng)絡(luò)結(jié)合在一起，從時空域的視頻序列中提取具有判別性的特征并使網(wǎng)絡(luò)專注這些優(yōu)秀的特征區(qū)域，再通過時空圖發(fā)現(xiàn)幀與區(qū)域間的關(guān)系變化來學(xué)習(xí)特征圖中的權(quán)重矩陣。同樣，Wu等人［35］介紹了一種圖神經(jīng)網(wǎng)絡(luò)，通過利用姿態(tài)對齊和特征親和力關(guān)系兩個分支實現(xiàn)相關(guān)區(qū)域特征之間的關(guān)聯(lián)。然而，提取姿態(tài)等信息需要額外的計算，并且沒有集成到整個網(wǎng)絡(luò)中實現(xiàn)端到端的訓(xùn)練，這可能達(dá)不到最優(yōu)結(jié)果。

在本文方法中，一方面，構(gòu)建特征關(guān)系圖描述跨幀區(qū)域的關(guān)系，通過圖特征傳播模塊迭代更新區(qū)域信息，最終輸入圖神經(jīng)網(wǎng)絡(luò)融合學(xué)習(xí)有判別性的特征；另一方面，利用注意力機(jī)制學(xué)習(xí)圖像幀的時空全局特征；最后融合兩路特征得到最終的視頻特征表示。

2 方法

視頻行人重識別旨在通過給定對象從圖庫中檢索目標(biāo)身份。本文方法的整體結(jié)構(gòu)如圖2所示。對于一個給定身份的長距離視頻，使用隨機(jī)采樣的方法，從視頻中抽取 T幀圖像，并創(chuàng)建為圖像序列{I t} t=1，…，T 。為了增強(qiáng)模型對于遮擋的泛化性能，本文首先將這些圖片隨機(jī)擦除小塊區(qū)域像素，再送入到圖片級的特征提取器ResNet-50［36］中，并將網(wǎng)絡(luò)中最后一層卷積層的池化步長設(shè)置為1。接下來，本文將模型劃分為兩個分支，上分支是圖分支，用于提取相鄰幀中的時間線索和幀間的行人結(jié)構(gòu)線索；下分支是用于提取行人外觀特征的全局分支。在圖分支中，輸入的圖片幀被等分切割，劃分成為區(qū)域節(jié)點(diǎn) X={x i}T·N i=1 ，在本文的實驗?zāi)Ｐ椭?，將圖片幀水平等分為四個區(qū)域（ N =4）。然后，構(gòu)建自適應(yīng)的特征關(guān)系圖，獲取這些區(qū)域節(jié)點(diǎn)之間的內(nèi)在聯(lián)系。在得到節(jié)點(diǎn)間的關(guān)聯(lián)信息后，本文通過搭建的圖特征傳播模塊迭代更新區(qū)域特征信息，即在每層特征傳播層中，用圖神經(jīng)網(wǎng)絡(luò)聚合前后節(jié)點(diǎn)的特征信息，得到圖分支的視頻特征表示 f graph∈"Euclid Math TwoRAp

c 。在全局分支中，使用時空注意模塊［37］將一個視頻內(nèi)不同幀的特征聚合成一個視頻特征表示 f global∈"Euclid Math TwoRAp

c 。在訓(xùn)練過程中，本文聯(lián)合使用了多個損失，對于行人重識別任務(wù)，除了難樣本挖掘三元組損失（batch hard triplet loss）和交叉熵?fù)p失（softmax loss），還加入了在線軟挖掘損失（online soft mining loss，OSM Loss）和中心損失（center loss），分別用來優(yōu)化前兩個損失函數(shù)。本文將在下面的段落逐個介紹相關(guān)模塊。

2.1 特征關(guān)系圖

如第1章所述，基于視頻的行人重識別相比基于圖片的行人重識別具有更多的圖像幀，覆蓋更多的行人視角和姿勢，針對同一身份的結(jié)構(gòu)信息更加完整和精確，因此，行人結(jié)構(gòu)信息可以提供額外的區(qū)分性信息。針對上述問題，本文通過構(gòu)建特征關(guān)系圖優(yōu)先學(xué)習(xí)圖像區(qū)域節(jié)點(diǎn)之間的關(guān)聯(lián)信息。

研究表明［38］，動態(tài)圖可以比固定圖結(jié)構(gòu)更有效地學(xué)習(xí)圖表示形式。為了探索和利用節(jié)點(diǎn)之間的關(guān)系，本文引入特征關(guān)系圖 Af 來獲取區(qū)域節(jié)點(diǎn)之間的關(guān)聯(lián)程度。對于兩個節(jié)點(diǎn) x i 和 x j ，節(jié)點(diǎn)特征分別表示為 y i 和 y j ，則關(guān)系圖 Af 的公式表示為

Af ij=S（y i，y j）= 2 "e ‖y i-y j‖ 2+1 """（1）

考慮到每個關(guān)系圖上對于節(jié)點(diǎn) x i 與其他節(jié)點(diǎn)關(guān)系的元素值總和為1，且每個元素的值應(yīng)在（0，1）內(nèi)，本文通過特征關(guān)系圖矩陣計算得到連接節(jié)點(diǎn)之間邊緣的權(quán)重矩陣 A ：

A "ij= Af ij ∑ jAf ij """（2）

矩陣 A "ij 描述了節(jié)點(diǎn) x i 與其他區(qū)域節(jié)點(diǎn)的關(guān)聯(lián)信息，它能夠自適應(yīng)地選擇和學(xué)習(xí)一幀內(nèi)或者跨不同幀的節(jié)點(diǎn)間的相關(guān)性，并作為先驗信息與輸入圖神經(jīng)網(wǎng)絡(luò)的特征相融合。在獲得節(jié)點(diǎn)的特征關(guān)系圖后，本文將進(jìn)一步探究節(jié)點(diǎn)間的時間信息。

由于視頻中不同幀的節(jié)點(diǎn)可以提供額外信息緩解遮擋和噪聲問題，本文模型采用圖形特征傳播模塊捕獲視頻幀間的時間動態(tài)關(guān)聯(lián)，進(jìn)行視頻內(nèi)前后信息的傳播以及節(jié)點(diǎn)空間區(qū)域特征的迭代更新。

如圖3所示，（a）為圖形特征傳播模塊，給定自適應(yīng)的特征關(guān)系圖 A，初始的空間區(qū)域特征將通過K 層特征傳播層進(jìn)行迭代更新；（b）為特征傳播層，來自前一層的特征經(jīng)全連接層 F 處理，與關(guān)系圖的權(quán)重進(jìn)行特征融合，并使用圖神經(jīng)網(wǎng)絡(luò)聚合來自節(jié)點(diǎn)間的關(guān)系信息。在圖特征傳播模塊中，堆疊了 K 個特征傳播層，在第 k 層中，聚合和更新操作的定義為

y（k） i=（1-α）y（k-1） i+α∑ T·N j=1 "A （k） ijF（k）（y（k-1） j） ""（3）

其中： i∈{1，2，…，T·N}；k∈{1，2，…，K}；y（k） i表示從第k個特征傳播層輸出的第i個區(qū)域特征；y（0） i 則表示為原始的區(qū)域節(jié)點(diǎn)特征； F（k）（·）是組合了全連接層和批次正則化層的操作，用來對來自上一層的節(jié)點(diǎn)特征信息進(jìn)行編碼； A（k）表示自適應(yīng)的特征關(guān)系圖；參數(shù) α 用于調(diào)整聚合特征和原始特征之間的權(quán)重比例。在實驗中設(shè)置 K=2，α =0.1。

在經(jīng)過圖特征傳播模塊后，輸出表示為 Y "^ =［ y "^ "1，y "^ "2，…，y ""^ "T·N］，其中 y ""^ "i∈"Euclid Math TwoRAp

c 是更新后的區(qū)域特征向量。最后通過注意機(jī)制獲得圖分支整個視頻的特征表示。

2.2 時空注意模塊

在全局分支中，為了提升模型的整體運(yùn)行速率，同時能夠從圖像幀中提取更有效的特征信息，本文使用了一個計算量小且有效的時空注意模塊。如圖4所示，時空注意模塊首先將框架特征作為輸入，通過二維卷積層將幀特征的通道尺寸降至1，并輸出空間注意力向量。其次，經(jīng)過重組和轉(zhuǎn)置操作，將注意力向量轉(zhuǎn)換為 128×T 。隨后，注意力向量通過一維時間卷積層處理，通過在時間軸上的一維卷積運(yùn)算，將 128×T 的空間注意向量作為輸入，并生成與輸入維度大小相同的時空注意向量。本文定義該一維卷積層輸入和輸出通道為128，內(nèi)核大小為3，填充為2，步長為1。最后，將注意力向量重組為初始維度大小，并使用sigmoid激活函數(shù)進(jìn)行數(shù)據(jù)歸一化操作。本文將該模塊嵌入全局特征分支中，用于對輸入特征向量進(jìn)行編碼。

2.3 加權(quán)對比損失策略

深度學(xué)習(xí)在訓(xùn)練過程中由于大量的平凡樣本而收斂緩慢，現(xiàn)有的方法通常使用樣本挖掘策略篩選非平凡的樣本來加快收斂速度［39］。例如難樣本挖掘三元組損失中，在一個批次里，拉近距離樣本最遠(yuǎn)的正樣本并推遠(yuǎn)距離最近的負(fù)樣本，卻丟棄了剩下的樣本，浪費(fèi)了大量有效信息。鑒于此，本文使用了在線軟挖掘損失，該損失可分為正樣本挖掘和負(fù)樣本挖掘。

在正樣本挖掘損失中，任務(wù)目標(biāo)是為每個正樣本分配連續(xù)的分?jǐn)?shù)。具體來說，對于正樣本中的每個相似樣本組（p i，p j）∈P，在L 2歸一化后計算其特征之間的歐氏距離d ij。為了將更高的挖掘分?jǐn)?shù)分配給更多相似的樣本組，使用均值為0的高斯函數(shù)將距離d ij 轉(zhuǎn)換為OSM分?jǐn)?shù) s+ ij。s+ ij 得分定義為

s+ ij= exp （- d2 ij σ2 OSM ） ""（4）

其中： d ij=‖f p i-f p j‖ 2 為正樣本組中兩個樣本特征的歐氏距離； σ2 OSM 是用于控制OSM分?jǐn)?shù)分布的超參數(shù)。

此外，對于負(fù)樣本 N 中的不相似樣本組，本文通過設(shè)置一個邊距閾值 θ ，比較樣本組距離與閾值大小，將小于閾值的負(fù)樣本組推開。類似于文獻(xiàn)［35］，要舍棄大部分對學(xué)習(xí)無用的樣本組，并將較高的OSM分?jǐn)?shù)分配給距離小于邊距閾值 θ 的負(fù)樣本組，而距離大于閾值 θ 的組分?jǐn)?shù)則設(shè)置為0，因為這些樣本對優(yōu)化模型未起到作用。簡單起見，每個負(fù)樣本組（n i，n j）∈N 的OSM分?jǐn)?shù) s- ij 直接由邊距計算而得：

s- ij= max （0，θ-d ij） ""（5）

最后，得到了每個樣本組的OSM分?jǐn)?shù)，本文將正負(fù)樣本組的得分整合到同一個對比損失中：

L osm（P）= 1 2 ""∑ （p i，p j）∈P s+ ij·d2 ij ∑ （p i，p j）∈P s+ ij """（6）

L osm（N）= 1 2 ""∑ （n i，n j）∈N s- ij· max （0，θ-d ij） ∑ （n i，n j）∈N s- ij """（7）

L osm（P，N）= 1 2 （L osm（P）+L osm（N）） ""（8）

另外，本文采用了交叉熵?fù)p失、難樣本挖掘三元組損失和中心損失三種損失來聯(lián)合訓(xùn)練網(wǎng)絡(luò)模型，交叉熵?fù)p失和三元組損失的公式［40］定義如下：

L xent=- 1 P·K ∑P·K i=1 log （p（z i|x i）） ""（9）

L htri=∑ P i=1 ∑ K a=1 "［m+ max "p=1，…，K D（yi a，yi p） "hardest positive - min ""j=1，…，P n=1，…，K j≠i "D（yi a，yj n） "hardest negative ］ + "（10）

其中： P和K 分別是身份數(shù)量和每個身份的采樣圖像數(shù)，因此一個批次中有 P·K 個圖像； p（z i|x i）表示對于輸入圖像x i和標(biāo)簽z i ，在經(jīng)過softmax分類后， x i 被正確預(yù)測為 z i 類的概率； yi a、yi p和yj n 分別表示指定樣本及其正樣本和負(fù)樣本的特征； D（·）表示兩個特征向量的L 2 范數(shù)距離。

中心損失［41］是用來聚合每個標(biāo)簽中樣本的特征，它希望一個批次中每個樣本的特征與特征中心距離的平方和盡量小，換言之，就是類內(nèi)距離越小越好。公式定義如下：

L cent= 1 2 ∑ B i=1 ‖y i-c z i‖2 2 ""（11）

對于批次大小 B ，要拉近樣本特征 y i 和第 z i 個類別特征中心的距離，這就是中心損失的作用。最終，本文的聯(lián)合損失定義為

L total=L xent+βL cent+λL htri+（1-λ）L osm ""（12）

3 實驗

3.1 數(shù)據(jù)集和評估

1）數(shù)據(jù)集本文在兩個大型的基于視頻行人重識別的數(shù)據(jù)集上評估了本文的模型，兩個數(shù)據(jù)集分別為MARS［42］和DukeMTMC-VideoReID［43］。

MARS是目前數(shù)據(jù)量最大的視頻行人重識別數(shù)據(jù)集，共有1 261個行人身份和大約20 000個行人視頻序列，其中訓(xùn)練集包含625個身份，測試集包含636個身份。數(shù)據(jù)集由六個攝像機(jī)拍攝組成，每個身份至少由兩個攝像機(jī)拍攝捕獲而成，并且平均有13.2個視頻序列。同時，數(shù)據(jù)集中有3 248個干擾項序列，這也增加了重識別的難度。

DukeMTMC-VideoReID是另一個大規(guī)模的視頻行人重識別數(shù)據(jù)集，它衍生于DukeMTMC行人跟蹤數(shù)據(jù)集。該數(shù)據(jù)集由702個訓(xùn)練身份、702個測試身份和408個干擾項組成，包含2 196個用于訓(xùn)練的視頻和2 636個用于測試的視頻。每段視頻平均有168幀，并且提供了手動標(biāo)注的邊框。

2）評估在本文的實驗中，采用了累積匹配特性曲線（CMC）和平均查準(zhǔn)率（mAP）來評估提出方法的性能。CMC曲線是反映檢索的準(zhǔn)確率，用來判斷Re-ID模型的排名能力；mAP反映真實排名結(jié)果，根據(jù)準(zhǔn)確率和召回率曲線計算而得。對于MARS和DukeMTMC-VideoReID數(shù)據(jù)集，本文將同時計算CMC和mAP來反映模型性能。

3.2 實施細(xì)節(jié)

本文的所有實驗?zāi)Ｐ途赑yTorch和兩個RTX2080Ti上進(jìn)行。在實驗中，所有行人圖片的大小都調(diào)整為256×128，并在圖片特征提取網(wǎng)絡(luò)ResNet50上進(jìn)行預(yù)訓(xùn)練。在訓(xùn)練階段，本文采用隨機(jī)采樣策略，從每個視頻片段中隨機(jī)選取4幀（ T =4）作為圖片序列，這恰好遵循了文獻(xiàn)［6］中基準(zhǔn)模型的最佳設(shè)置。本文選擇使用Adam作為優(yōu)化器，初始學(xué)習(xí)率設(shè)置為0.000 35，之后每100個訓(xùn)練批次衰減至之前的三分之一。

3.3 方法對比

為了驗證本文方法的有效性，在MARS和DukeMTMC-VID數(shù)據(jù)集上本文方法與一些最新的基于視頻的行人重識別方法分別進(jìn)行了比較，包括IDE+XQDA［42］、SeeForest［13］、ASTPN［15］、RQEN［44］、Snippet［5］、STAN［4］、DSAN+KISSME［24］、TRL+XQDA［7］、M3D［9］、STA［16］、VRSTC［46］、GLTR［17］、AITL［37］等。

從表1、2中可以看出，本文方法優(yōu)于大部分現(xiàn)有方法。在MARS數(shù)據(jù)集上，本文方法比AITL在mAP和Rank-1上分別高了0.7%和0.6%。在DukeMTMC-VideoReID數(shù)據(jù)集上，本文方法在mAP和Rank-1上精度分別達(dá)到了95.6%和95.9%，結(jié)果也超過了最新的方法AITL。實驗結(jié)果證實了本文方法的有效性。

3.4 消融實驗

為了驗證本文方法中各個模塊的有效性，本文在MARS數(shù)據(jù)集上分別用幾種模型進(jìn)行了實驗：a）文獻(xiàn)［6］中的基于全局特征的時間池化基準(zhǔn)模型；b）加入時空注意模塊的基準(zhǔn)模型FA［37］；c）加入圖特征傳播模塊，使用圖神經(jīng)網(wǎng)絡(luò)挖掘圖片間關(guān)聯(lián)，得到圖編碼特征的模型FG；d）融合FA和FG兩路特征的基準(zhǔn)模型；e）加入中心損失（CL）和在線軟挖掘損失（OSML）的基準(zhǔn)模型；f）本文提出的結(jié)合全局特征和圖編碼特征，同時加入中心損失和在線軟挖掘損失的模型。實驗結(jié)果如表3所示。

1）模塊消融分析從表3中可以看到，基準(zhǔn)模型使用了ResNet-50圖片級特征提取器和時間平均池化時間建模方法，損失函數(shù)由交叉熵?fù)p失和三元組損失構(gòu)成，mAP和Rank-1精度分別是79.4%和84.9%。在此基準(zhǔn)上，去除平均池化方法，加入時空注意模塊，精度各提升到82%和86.3%，并記為全局分支特征表示，作為新的基準(zhǔn)。接著測試了僅圖分支的模型性能，mAP和Rank-1精度為83%和86.5%，并與全局分支融合，從表中可以看到，融合后的精度結(jié)果比融合前都有所提升。最后，分別在全局分支模型和融合后的模型中引入新的加權(quán)損失函數(shù)策略。在全局分支模型上，精度有略微的提升，但在融合后的模型上，精度各提升了1.5%和1.1%，可見新的加權(quán)損失函數(shù)策略對于優(yōu)化圖分支中的特征節(jié)點(diǎn)收斂有較大提升。通過加入以上模塊，mAP和Rank-1精度分別從82%和86.3%提升到了85.1%和88.8%。

2）切分策略分析本文進(jìn)行多次實驗，研究了通過改變圖像切分塊數(shù)對模型性能的影響。在不改變其他條件的情況下，本文分別評估了將每幀圖像等分為1、2、4和8塊對識別性能的影響。如表4所示， N是幀圖像切分后的區(qū)域數(shù)，可以發(fā)現(xiàn)N 設(shè)置為4時性能最優(yōu)，因此本文的模型在實驗中將圖像等分為四塊區(qū)域。

3）加權(quán)系數(shù)分析在加權(quán)對比損失函數(shù)策略中，式（12）中設(shè)置了 β 和 λ 兩個參數(shù)，其中，根據(jù)Wen等人［41］的研究，本文將 β 固定設(shè)置為0.000 5。而對于參數(shù) λ ，它定義了三元組損失和在線軟挖掘損失的權(quán)重比例，本文通過改變參數(shù) λ 的值進(jìn)行實驗，來驗證模型的最優(yōu)性能。如表5所示，分別設(shè)置 λ 的大小為0.7、0.5、0.3、0.1，四種結(jié)果在mAP和Rank-1上的精度都分別高于84.8%和88%，通過對比發(fā)現(xiàn)，在 λ 大于或小于0.5時，模型在mAP和Rank-1上的精度都呈下降趨勢， λ =0.5時，精度最高。這也驗證了本文模型參數(shù)設(shè)置的最優(yōu)性。

4 結(jié)束語

本文提出的圖特征學(xué)習(xí)方法可以有效地構(gòu)建跨幀分塊區(qū)域的關(guān)系圖，匯總來自每個區(qū)域節(jié)點(diǎn)的關(guān)聯(lián)信息，并進(jìn)行特征傳播迭代優(yōu)化區(qū)域節(jié)點(diǎn)更具代表性的特征表示。另外，本文將全局特征分支和圖特征分支融合到一個的框架中，共同優(yōu)化模型，取得了更好的效果。最后，本文提出的加權(quán)損失函數(shù)策略合理使用了度量學(xué)習(xí)中每個樣本信息，優(yōu)化了現(xiàn)有樣本挖掘策略。在MARS和DukeMTMC-VideoReID兩個數(shù)據(jù)集上的實驗結(jié)果證明了本文方案的有效性，消融實驗結(jié)果也證明了網(wǎng)絡(luò)中各個模塊的可行性。但筆者在實驗中注意到一部分圖片由于拍攝距離過遠(yuǎn)等問題，導(dǎo)致行人拍攝過小且未處于圖像中心位置，這對行人特征提取影響較大。因此，如何篩選出高質(zhì)量的行人圖片或是優(yōu)先進(jìn)行人體部位結(jié)構(gòu)的對齊操作，實現(xiàn)更高精度的識別是本文下一步要研究的內(nèi)容。

參考文獻(xiàn)：

［1］ "Zajdel W，Zivkovic Z，Krose B J A.Keeping track of humans：have I seen this person before？［C］//Proc of IEEE International Conference on Robotics and Automation.Piscataway，NJ：IEEE Press，2005：2081-2086.

［2］戴臣超，王洪元，倪彤光，等.基于深度卷積生成對抗網(wǎng)絡(luò)和拓展近鄰重排序的行人重識別［J］.計算機(jī)研究與發(fā)展，2019， 56 （8）：1632-1641. （Dai Chenchao，Wang Hongyuan，Ni Tongguang， et al. Person re-identification based on deep convolutional generative adversarial network and expanded neighbor reranking［J］. Journal of Computer Research and Development ，2019， 56 （8）：1632-1641.）

［3］陳莉，王洪元，張云鵬，等.聯(lián)合均等采樣隨機(jī)擦除和全局時間特征池化的視頻行人重識別方法［J］.計算機(jī)應(yīng)用，2021， 41 （1）：164-169. （Chen Li，Wang Hongyuan，Zhang Yunpeng， et al. Video-based person re-identification method by jointing evenly sampling-random erasing and global temporal feature pooling［J］. Journal of Computer Applications ，2021， 41 （1）：164-169.）

［4］ Li Shuang，Bak S，Carr P， et al. Diversity regularized spatiotemporal attention for video-based person re-identification［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：369-378.

［5］ Chen Dapeng，Li Hongsheng，Xiao Tong， et al. Video person re-identification with competitive snippet-similarity aggregation and co-attentive snippet embedding［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：1169-1178.

［6］ Si Jianlou，Zhang Honggang，Li Chunguang， et al. Dual attention ma-tching network for context-aware feature sequence based person re-identification［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：5363-5372.

［7］ Dai Ju，Zhang Pingping，Wang Dong， et al. Video person re-identification by temporal residual learning［J］. IEEE Trans on Image Processing， 2018， 28 （3）：1366-1377.

［8］ Liu Yiheng，Yuan Zhenxun，Zhou Wengang， et al. Spatial and temporal mutual promotion for video-based person re-identification［C］//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2019：8786-8793.

［9］ Li Jianing，Zhang Shiliang，Huang Tiejun.Multi-scale 3D convolution network for video based person re-identification［C］//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2019：8618-8625.

［10］ Liu C T，Wu C W，Wang Y C F， et al. Spatially and temporally efficient non-local attention network for video-based person re-identification［EB/OL］. （2019）.https：//arxiv.org/abs/1908.01683.

［11］賁晛燁，徐森，王科俊.行人步態(tài)的特征表達(dá)及識別綜述［J］.模式識別與人工智能，2012， 25 （1）：71-81. （Ben Xianye，Xu Sen，Wang Kejun.Review on pedestrian gait feature expression and recognition［J］. Pattern Recognition and Artificial Intelligence ，2012， 25 （1）：71-81.）

［12］ Zhang Peng，Xu Jingsong，Wu Qiang， et al. Learning spatial-temporal representations over walking tracklet for long-term person re-identification in the wild［J］. IEEE Trans on Multimedia ，2021， 23 ：3562-3576.

［13］ Zhou Zhen，Huang Yan，Wang Wei， et al. See the forest for the trees：joint spatial and temporal recurrent neural networks for video-based person re-identification［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017：4747-4756.

［14］ Liu Yu，Yan Junjie，Ouyang Wanli.Quality aware network for set to set recognition［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017：5790-5799.

［15］ Xu Shuangjie，Cheng Yu，Gu Kang， et al. Jointly attentive spatial-temporal pooling networks for video-based person re-identification［C］// Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2017：4733-4742.

［16］ Fu Yang，Wang Xiaoyang，Wei Yunchao， et al. STA：spatial-temporal attention for large-scale video-based person re-identification［C］//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2019：8287-8294.

［17］ Li Jianing，Wang Jingdong，Tian Qi， et al. Global-local temporal representations for video person re-identification［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：3958-3967.

［18］ Wang Taiqing，Gong Shaogang，Zhu Xiatian， et al. Person re-identification by video ranking［C］//Proc of European Conference on Computer Vision.Cham：Springer，2014：688-703.

［19］ Gou Mengran，Zhang Xikang，Rates-Borras A， et al. Person re-identification in appearance impaired scenarios［EB/OL］.（2016）.https：//arxiv.org/abs/1604.00367.

［20］ Liu Kan，Ma Bingpeng，Zhang Wei， et al. A spatio-temporal appea-rance representation for video-based pedestrian re-identification［C］//Proc of IEEE International Conference on Computer Vision.Pisca-taway，NJ：IEEE Press，2015：3810-3818.

［21］ You Jinjie，Wu Ancong，Li Xiang， et al. Top-push video-based person re-identification［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2016：1345-1353.

［22］ Wang Taiqing，Gong Shaogang，Zhu Xiatian， et al. Person re-identification by discriminative selection in video ranking［J］. IEEE Trans on Pattern Analysis and Machine Intelligence ，2016， 38 （12）：2501-2514.

［23］ McLaughlin N，Del Rincon J M，Miller P.Recurrent convolutional network for video-based person re-identification［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2016：1325-1334.

［24］ Wu Lin，Wang Yang，Gao Junbin， et al. Where-and-when to look：deep Siamese attention networks for video-based person re-identification［J］. IEEE Trans on Multimedia ，2018， 21 （6）：1412-1424.

［25］ Gao Jiyang，Nevatia R.Revisiting temporal modeling for video-based person ReID［EB/OL］.（2018）.https：//arxiv.org/abs/1805.02104.

［26］ Zhang Zhizheng，Lan Cuiling，Zeng Wenjun， et al. Multi-granularity reference-aided attentive feature aggregation for video-based person re-identification［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：10407-10416.

［27］ Yang Jinrui，Zheng Wei Shi，Yang Qize， et al. Spatial-temporal graph convolutional network for video-based person re-identification［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway，NJ：IEEE Press，2020：3289-3299.

［28］ Yan Sijie，Xiong Yuanjun，Lin Dahua.Spatial temporal graph convolutional networks for skeleton-based action recognition［C］//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2018.

［29］ Wang Xiaolong，Gupta A.Videos as space-time region graphs［C］//Proc of European Conference on Computer Vision.Washington DC：IEEE Computer Society，2018：399-417.

［30］ Chen Zhaomin，Wei Xiushen，Wang Peng， et al. Multi-label image recognition with graph convolutional networks［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：5177-5186.

［31］ Barman A，Shah S K.Shape：a novel graph theoretic algorithm for making consensus-based decisions in person re-identification systems［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2017：1115-1124.

［32］ Cheng De，Gong Yihong，Chang Xiaojun， et al. Deep feature learning via structured graph Laplacian embedding for person re-identification［J］. Pattern Recognition ，2018， 82 ：94-104.

［33］ Ye Mang，Ma A J，Zheng Liang， et al. Dynamic label graph matching for unsupervised video re-identification［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2017：5142-5150.

［34］ Wu Xinhui，An Weishi，Yu Shiqi， et al. Spatial-temporal graph attention network for video-based gait recognition［C］//Proc of Asian Conference on Pattern Recognition.Cham：Springer，2019：274-286.

［35］ Wu Yiming，Bourahla O E F，Li Xi， et al. Adaptive graph representation learning for video person re-identification［EB/OL］. （2019）.https：//arxiv.org/abs/ 1909.02240.

［36］ He Kaiming，Zhang Xiangyu，Ren Shaoqing， et al. Deep residual lear-ning for image recognition［C］//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2016：770-778.

［37］ Chen Zhiyuan，Li Annan，Jiang Shilu， et al. Attribute-aware identity-hard triplet loss for video-based person re-identification［EB/OL］. （2020）.https：//arxiv.org/abs/2006.07597.

［38］ Simonovsky M，Komodakis N.Dynamic edge-conditioned filters in convolutional neural networks on graphs［C］//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017：3693-3702.

［39］ Wang Xinshao，Hua Yang，Kodirov E， et al. Deep metric learning by online soft mining and class-aware attention［C］//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2019：5361-5368.

［40］ Hermans A，Beyer L，Leibe B.In defense of the triplet loss for person re-identification［EB/OL］.（2017）.https：//arxiv.org/abs/1703.07737.

［41］ "Wen Yandong，Zhang Kaipeng，Li Zhifeng， et al. A discriminative feature learning approach for deep face recognition［C］//Proc of European Conference on Computer Vision.Cham：Springer，2016：499-515.

［42］ Zheng Liang，Bie Zhi，Sun Yifan， et al. MARS：a video benchmark for large-scale person re-identification［C］//Proc of European Conference on Computer Vision.Cham：Springer，2016：868-884.

［43］ Ristani E，Solera F，Zou R， et al. Performance measures and a data set for multi-target，multi-camera tracking［C］//Proc of European Confe-rence on Computer Vision.Cham：Springer，2016：17-35.

［44］ Song Guanglu，Leng Biao，Liu Yu， et al. Region-based quality estimation network for large-scale person re-identification［C］//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2018.

［45］ Zhao Yiru，Shen Xu，Jin Zhongming， et al. Attribute-driven feature disentangling and temporal aggregation for video person re-identification［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：4913-4922.

［46］ Hou Ruibing，Ma Bingpeng，Chang Hong， et al. VRSTC：occlusion-free video person re-identification［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：7183-7192.

［47］ Wu Yu，Lin Yutian，Dong Xuanyi， et al. Exploit the unknown gradually：one-shot video-based person re-identification by stepwise learning［C］//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway，NJ：IEEE Press，2018：5177-5186.

計算機(jī)應(yīng)用研究2022年2期

計算機(jī)應(yīng)用研究的其它文章: 基于法向量投票的點(diǎn)云配準(zhǔn)方法; 基于輪廓分段特征描述的遮擋目標(biāo)識別算法; 基于文本引導(dǎo)對抗哈希的跨模態(tài)檢索方法; 基于高斯密度圖估計的自然場景漢字檢測; 基于局部聚類的改進(jìn)運(yùn)動網(wǎng)格統(tǒng)計算法的研究; 基于空間特征提取和注意力機(jī)制的雙路徑語義分割

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于圖模型與加權(quán)損失策略的視頻行人重識別研究