亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖卷積網(wǎng)絡(luò)與自注意力圖池化的視頻行人重識別方法

        2023-03-24 13:24:50姚英茂姜曉燕
        計算機(jī)應(yīng)用 2023年3期
        關(guān)鍵詞:行人注意力損失

        姚英茂,姜曉燕

        (上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)

        0 引言

        跨相機(jī)網(wǎng)絡(luò)行人重識別通常被視為圖像檢索問題,旨在將目標(biāo)圖像/視頻與不同視角拍攝的圖庫照片/視頻相匹配,在智慧交通、智能監(jiān)控和刑事偵查領(lǐng)域有著廣泛的應(yīng)用[1]。然而,不同相機(jī)因視角、光照、行人姿態(tài)等因素不同而造成的目標(biāo)遮擋、外觀差異等會對行人重識別的效果產(chǎn)生嚴(yán)重影響,因此行人重識別仍然是計算機(jī)視覺領(lǐng)域一個具有挑戰(zhàn)性的研究。

        現(xiàn)有的行人重識別方法一般分為兩大類:基于圖像的行人重識別和基于視頻的行人重識別。基于圖像的行人重識別方法[2]將單幀圖像作為輸入,側(cè)重于提取衣服的顏色、行人的體態(tài)等外觀特征,而不考慮圖像之間的時序信息。當(dāng)圖像中出現(xiàn)大面積噪點或目標(biāo)被遮擋時,基于圖像的行人重識別效果會受到嚴(yán)重影響。基于視頻的行人重識別方法直接使用視頻序列作為輸入,相比單幀圖像不僅包含了更加豐富的行人外觀特征,還包含了與行人運動相關(guān)的時序信息,如行人的姿態(tài)和步態(tài)的變化[3]等,有助于消除單張圖像外觀特征對重識別整體效果的負(fù)面影響。

        基于視頻的行人重識別大部分采用了基于深度學(xué)習(xí)的方法,如光流法[3]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4-5]、三維卷 積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neural Network,3D CNN)[6-7]、注意力機(jī)制[8-11]等。這些方法首先采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為特征提取器,逐幀提取特征向量,再通過時序池化將序列中的逐幀特征聚合為視頻特征,最后在特定的度量空間中比較這些特征。如果直接對不同幀的圖像進(jìn)行時序建模,僅利用了視頻中很少的時序信息,而忽視了幀間不同區(qū)域更具判別力的關(guān)聯(lián)信息[12],這些信息往往是解決行人重識別問題的關(guān)鍵。

        行人重識別中存在的一些問題如圖1 所示。圖1(a)中,行人身體的不同部位在不同幀中被障礙物遮擋,但在其他幀中這些被遮擋的部位又重新出現(xiàn)。如果能夠利用其他幀中未被遮擋的行人特征補(bǔ)足,將會減少遮擋問題的影響。圖1(b)中,較長的視頻中存在幀間行人空間不對齊的問題,如能利用行人的身體結(jié)構(gòu)信息,將近似的部位予以對應(yīng)、相互學(xué)習(xí),將有助于改善因空間不對齊帶來的問題。圖1(c)中,部分區(qū)域存在背景雜波,如能排除此類與行人無關(guān)的干擾信息,能夠提取更具判別力的特征。

        圖1 行人重識別中存在的問題Fig.1 Problems in person re-identification

        基于上述研究,為有效利用視頻序列中蘊(yùn)含的豐富的行人外觀信息以及與行人運動相關(guān)的時序信息,本文提出了一種基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[13]與自注意力圖池化(Self-Attention Graph Pooling,SAGP)[14]的方法。首先,通過建模區(qū)塊關(guān)系圖,挖掘幀間不同區(qū)域的關(guān)聯(lián)信息,使用GCN 在節(jié)點間傳遞關(guān)聯(lián)信息,優(yōu)化逐幀圖像中的區(qū)域特征,緩解遮擋和空間不對齊等問題。其次,通過SAGP機(jī)制去除圖模型中對于行人特征貢獻(xiàn)率較低的節(jié)點,抑制背景雜波的影響。另外,考慮到幀內(nèi)的行人結(jié)構(gòu)信息同樣重要,結(jié)合全局分支和圖分支以互補(bǔ)地挖掘信息。最后,采用一種加權(quán)損失函數(shù)策略,除使用交叉熵?fù)p失(Cross-Entropy Loss,CEL)和三元組損失(Triplet Loss,TL)的傳統(tǒng)做法以外,用中心損失(Center Loss,CL)[15]聚集屬于同一身份的樣本特征,優(yōu)化分類學(xué)習(xí)的效果;并使用在線軟挖掘和類感知注意力損失(Online soft mining and Class-aware attention Loss,OCL)[16],為每個批次的樣本分配一個連續(xù)分布的函數(shù),在線挖掘樣本數(shù)據(jù),解決難樣本挖掘中樣本未被充分利用的問題,同時排除標(biāo)簽錯誤的異常值樣本對模型性能的影響。

        1 相關(guān)工作

        1.1 基于視頻的行人重識別

        目前大多數(shù)基于視頻的行人重識別方法采用CNN 作為特征提取器,從連續(xù)幀中提取行人圖像的空間特征;然后建模一個時域模型,挖掘視頻序列中特有的時序信息,最后使用時序池化將序列中逐幀圖像的特征聚合為視頻特征,在特定的度量空間中進(jìn)行比較。先前的一些研究使用了光流法,通過提取視頻序列的步態(tài)信息得到時序特征,例如,文獻(xiàn)[3]提出一種雙流CNN,每個流都是一個孿生網(wǎng)絡(luò),用于處理兩個視頻序列并計算它們之間的相似性,第一個流的輸入是RGB 幀,第二個流的輸入是光流棧,分別學(xué)習(xí)空間信息和時間信息。但是,對于遮擋和存在背景雜波的場景,光流法不夠穩(wěn)健并且耗時較多。還有一些研究通過RNN 進(jìn)行時間建模,聚合幀級時序特征表示行人的視頻特征,例如:文獻(xiàn)[4]在采用CNN 提取空間特征的基礎(chǔ)上,使用RNN 進(jìn)行時間建模,建立序列間的關(guān)聯(lián);文獻(xiàn)[5]提出一個改善循環(huán)單元(Refining Recurrent Unit,RRU),通過參考?xì)v史幀以恢復(fù)當(dāng)前幀特征中缺失的部分,并抑制背景雜波,利用時空信息對特征進(jìn)行改善,然而,RNN 在行人重識別任務(wù)中對于時間信息的建模能力相對有限;文獻(xiàn)[6]中使用3D CNN 同時學(xué)習(xí)行人的外觀和運動特征,但是,3D CNN 難以解決空間不對齊問題。

        最近的一些方法采用了注意力機(jī)制,例如:文獻(xiàn)[7]中進(jìn)一步采用非局部注意力解決時間序列上的外觀錯位問題;文獻(xiàn)[8]中提出一種時空注意力(Spatial-Temporal Attention,STA)模型以解決單幀圖像中出現(xiàn)的遮擋問題;文獻(xiàn)[9]中提出一種非局部視頻注意力網(wǎng)絡(luò)(Non-local Video Attention Network,NVAN),利用低層和高層特征中的空間和時間信息來改進(jìn)視頻級特征表示。然而,上述方法并沒有充分地利用視頻中幀間不同區(qū)域的關(guān)聯(lián)信息。

        1.2 基于圖模型的行人重識別

        近年來,圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)[17]已成功應(yīng)用于計算機(jī)視覺中的許多任務(wù),如場景圖生成[18]、點云分類[19]和動作識別[20]等。由于GNN 具有良好的關(guān)系建模能力,一些研究也將GNN 應(yīng)用于基于視頻的行人重識別,文獻(xiàn)[21]中提出了一種掩膜圖注意力網(wǎng)絡(luò)(Masked Graph Attention Network,MGAN)來探索整個樣本集中豐富的全局交互信息;但是,這種方法是基于圖像的,沒有考慮時間信息。文獻(xiàn)[12]中搭建了一個自適應(yīng)圖表示學(xué)習(xí)(Adaptive Graph Representation Learning,AGRL)網(wǎng)絡(luò),利用人體關(guān)鍵點對齊和特征親和力關(guān)系兩個分支實現(xiàn)區(qū)域特征之間的關(guān)聯(lián);然而,人體關(guān)鍵點提取需要額外的前置信息,并且不能執(zhí)行端到端的訓(xùn)練。文獻(xiàn)[22]提出一個時空圖卷積網(wǎng)絡(luò)(Spatial-Temporal Graph Convolutional Network,STGCN),使用空間分支提取幀內(nèi)人體的結(jié)構(gòu)信息,時間分支從相鄰幀挖掘具有辨識性的線索;但是,這種方法在建立幀間不同區(qū)域關(guān)系的過程中,沒有優(yōu)化圖模型的拓?fù)浣Y(jié)構(gòu),并且逐幀圖像建立圖模型的效率不高。

        為了解決視頻行人重識別中存在的遮擋、空間不對齊、背景雜波等問題,本文提出一種基于GCN 與SAGP 的視頻行人重識別方法,以端到端的方式提取具有判別力和魯棒性的視頻行人特征。一方面,構(gòu)建特征的區(qū)塊關(guān)系圖用于描述幀間不同區(qū)域的關(guān)聯(lián)信息,并通過圖卷積網(wǎng)絡(luò)在區(qū)塊間傳遞關(guān)聯(lián)信息,優(yōu)化行人特征,使學(xué)習(xí)到的行人特征更具判別力;另一方面,利用自注意力圖池化機(jī)制,去除圖模型中對行人特征貢獻(xiàn)率低的節(jié)點,減輕與行人無關(guān)的背景雜波干擾;最后,融合CNN 提取的行人結(jié)構(gòu)信息與圖分支學(xué)習(xí)到的關(guān)聯(lián)信息,得到視頻級的特征表示。

        2 本文方法

        2.1 模型概述

        如圖2 所示,本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)使用預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)ResNet-50(Residual Network-50)[23]作為特征提取器提取圖像特征,并設(shè)計了一個雙分支的網(wǎng)絡(luò)分別提取幀內(nèi)的全局信息和幀間不同區(qū)域的關(guān)聯(lián)信息,兩個分支互為補(bǔ)充,共享特征提取器的參數(shù)。圖2 中,BN 為批量歸一化(Batch Normalization),F(xiàn)C 為全連接(Fully Connection)。

        圖2 本文網(wǎng)絡(luò)的整體結(jié)構(gòu)Fig.2 Overall structure of proposed network

        全局分支:對特征提取器提取的視頻序列進(jìn)行三維全局平均池化,聚合一段序列中的圖像特征為視頻特征fglobal。

        圖分支:首先為每段視頻序列構(gòu)建一個區(qū)塊關(guān)系圖,捕捉幀間不同區(qū)域的關(guān)聯(lián)信息。然后,使用圖卷積與自注意力圖池化模型優(yōu)化特征,圖卷積網(wǎng)絡(luò)對圖中幀間不同區(qū)域(即圖節(jié)點)的時空關(guān)系進(jìn)行建模,利用序列中豐富的時空信息優(yōu)化區(qū)域特征表示;自注意力圖池化優(yōu)化圖模型的拓?fù)浣Y(jié)構(gòu),去除自注意力分?jǐn)?shù)較低的圖節(jié)點及其鄰接關(guān)系以減小背景雜波區(qū)域的干擾,提升模型的可泛化性。最后,使用平均池化聚合優(yōu)化后的節(jié)點特征作為視頻特征fgraph。

        基于加權(quán)損失函數(shù)的策略:除使用交叉熵?fù)p失作分類學(xué)習(xí)、三元組損失作度量學(xué)習(xí)以外,通過中心損失(CL),拉近相同行人樣本之間的距離,優(yōu)化分類學(xué)習(xí)的結(jié)果;通過在線軟挖掘和類感知注意力損失(OCL),解決難樣本挖掘中因二進(jìn)制分配法(丟棄或保留)導(dǎo)致的可用樣本未被充分利用的問題,以及訓(xùn)練集中標(biāo)簽錯誤的異常值樣本產(chǎn)生的問題。

        2.2 特征提取

        為了使模型能夠充分利用整段輸入視頻中的視覺信息,并且避免視頻連續(xù)幀之間存在的信息冗余,在特征提取階段使用受限隨機(jī)采樣(Restricted Random Sampling,RRS)[24]策略對輸入數(shù)據(jù)進(jìn)行預(yù)處理,將給定的一段視頻劃分成時長相等的T個塊{Ck}k=[1,T],從每個塊中隨機(jī)抽取一張圖像Pk,視頻序列由采樣幀的有序集合{Pk}k=[1,T]表示。使用ResNet-50作為圖像特征提取器,并將網(wǎng)絡(luò)中最后一層卷積層的步長設(shè)置為1,提取的特征圖可以表示為:

        其中:Fk∈Rh×w×c是視頻序列中第k幀的特征圖,h、w和c分別表示特征圖的高度、寬度和通道數(shù)。

        在圖分支中,參考文獻(xiàn)[25]中特征切分的方法生成區(qū)域特征,將每張?zhí)卣鲌DFk從上至下水平切分成S個區(qū)塊(Patch),進(jìn)行平均池化,將每個區(qū)塊特征表示為pl,對于一段長度為T幀的視頻序列,區(qū)塊的總數(shù)為N=TS。區(qū)塊特征向量pl∈R(cl=1,2,…,N,c為特征通道數(shù))。

        2.3 區(qū)塊關(guān)系圖

        與基于圖像的行人重識別不同,基于視頻的行人重識別有更多的圖像幀可以利用,因此具有更加豐富的行人姿態(tài)和拍攝視角,針對同一行人提供的結(jié)構(gòu)信息更加完整。本文構(gòu)建區(qū)塊關(guān)系圖,描述視頻序列中幀間不同區(qū)域的關(guān)聯(lián)信息,并使用GCN 對區(qū)塊之間的關(guān)系進(jìn)行建模,利用視頻幀之間豐富的時空信息優(yōu)化區(qū)域特征表示。

        設(shè)G(V,Ε) 表示N個節(jié)點構(gòu)成的區(qū)塊關(guān)系圖,節(jié)點vm∈V,邊(vm,vz)∈E,每個區(qū)塊被視為一個節(jié)點,并且E中的邊表示區(qū)塊特征之間的關(guān)系。引入鄰接矩陣A∈RN×N獲取區(qū)塊節(jié)點之間的關(guān)聯(lián)程度,圖中每兩個節(jié)點對應(yīng)的區(qū)塊特征向量pm和pz之間的成對關(guān)系可以表示為:

        區(qū)塊關(guān)系圖中,每個節(jié)點pm與其他節(jié)點關(guān)系的元素值之和為1,且表示每對節(jié)點關(guān)系的元素值應(yīng)在(0,1)區(qū)間,使用Softmax 函數(shù)對鄰接矩陣A中的元素值執(zhí)行歸一化運算:

        因此,鄰接矩陣每一行中的元素值代表區(qū)塊m與其他區(qū)塊之間的時空關(guān)系。

        2.4 圖卷積與自注意力圖池化網(wǎng)絡(luò)

        視頻中幀間的不同區(qū)塊可以提供互補(bǔ)信息,緩解遮擋、空間不對齊等帶來的問題,GCN 可動態(tài)地捕獲幀間不同區(qū)塊的時空關(guān)系。如圖3 所示,每段視頻序列有N個區(qū)塊,使用這些區(qū)塊構(gòu)建區(qū)塊關(guān)系圖G(V,Ε),對應(yīng)的鄰接矩陣由式(2)~(4)計算得出。

        圖3 區(qū)塊關(guān)系圖構(gòu)建Fig.3 Construction of patch relation graph

        在圖分支中,對于給定的鄰接矩陣,使用GCN 建模整段視頻序列中幀間不同區(qū)塊的時序關(guān)系,計算方式如下:

        其中:X∈RN×c是原始的區(qū)塊特征;W∈Rc×c是學(xué)習(xí)的參數(shù)矩陣;σ(·)為LeakyReLU(Leaky Rectified Linear Unit)激活函數(shù)。GCN 為每一段視頻輸出更新后的區(qū)塊特征H∈RN×c。

        SAGP 機(jī)制有助于優(yōu)化圖模型的拓?fù)浣Y(jié)構(gòu)。對于視頻行人重識別任務(wù),去除一定比率的圖節(jié)點(區(qū)塊特征)可以減少視頻序列中存在背景雜波等問題的低質(zhì)量特征干擾;同時,使模型專注于使用高質(zhì)量的圖節(jié)點信息生成視頻特征,提升模型的可泛化性能。自注意力圖池化層由圖卷積操作定義,自注意力分?jǐn)?shù)的計算方法如下:

        通過節(jié)點選擇[26]設(shè)定一個圖池化比率r∈(0,1]以確定需要保留的節(jié)點數(shù)量,即保留自注意力分?jǐn)?shù)Z中的前rN個值對應(yīng)的圖模型中的節(jié)點。節(jié)點索引的方法的定義如下:

        輸入隱藏層特征H,SAGP 的執(zhí)行過程如下:

        其中:Hidx,:∈RrN×c表示通過節(jié)點索引讀取的區(qū)塊特征;⊙表示逐元素乘積;輸出特征Hout∈RrN×c。圖卷積與自注意力圖池化網(wǎng)絡(luò)如圖4 所示。

        圖4 圖卷積與自注意力圖池化網(wǎng)絡(luò)Fig.4 Graph convolution and self-attention graph pooling network

        最后,對Hout使用平均池化操作。對于每一段視頻,通過圖卷積與自注意力圖池化網(wǎng)絡(luò),可以得到視頻特征fgraph∈R1×c,本文實驗將通道數(shù)c設(shè)置為2 048。

        3 加權(quán)損失函數(shù)策略

        本文采用交叉熵?fù)p失、難樣本挖掘三元組損失[3]、中心損失(CL)[14]、在線軟挖掘和類感知注意力損失(OCL)[15]共同優(yōu)化訓(xùn)練模型。

        3.1 交叉熵?fù)p失

        交叉熵?fù)p失用于計算預(yù)測身份和真實身份之間的分類誤差,公式定義如下:

        其中:M和K分別為采樣的身份數(shù)和每個身份采樣的視頻數(shù),因此在一個批次中有MK個視頻序列;yi是每個輸入視頻的真實標(biāo)簽;lb(xi)是每個輸入視頻的預(yù)測值。交叉熵?fù)p失計算了經(jīng)過Softmax 分類后,xi被正確預(yù)測為yi類的概率。

        在訓(xùn)練階段,使用BN 和FC 層后的全局特征和圖特征,計算它們的交叉熵?fù)p失的平均值:

        3.2 三元組損失

        難樣本挖掘三元組損失[27]將離目標(biāo)樣本最遠(yuǎn)的同一身份的特征拉近,同時將離目標(biāo)樣本最近的不同身份的特征推遠(yuǎn),使相同身份的行人圖像在特征空間中形成聚類,使網(wǎng)絡(luò)學(xué)習(xí)的特征更具判別力,其公式定義如下:

        其中:p=1,2,…,K;n=1,2,…,K;j=1,2,…,M;j≠q;fq,a、fq,p、fj,n分別表示目標(biāo)樣本及其正樣本、負(fù)樣本特征;D(·)表示兩個特征向量的L2 范數(shù)距離。

        訓(xùn)練階段將全局特征和圖特征連接作為最終特征fall=[fglobal,fgraph]計算三元組損失Lhtri,[·,·]為連接操作。

        3.3 中心損失

        中心損失可以聚集屬于同一身份的樣本特征,最大限度地減小類內(nèi)距離,起到優(yōu)化分類學(xué)習(xí)結(jié)果的作用,定義如下:

        其中:cyi表示真實標(biāo)簽yi的中心,即在MK大小的批次內(nèi),拉近目標(biāo)樣本特征fi和第yi個類別特征中心的距離。

        在訓(xùn)練階段,將全局特征和圖特征連接作為最終特征fall=[fglobal,fgraph]計算中心損失Lcent。

        3.4 在線軟挖掘和類感知注意力損失

        難樣本挖掘三元組損失會在一個批次里拉近距離目標(biāo)樣本最遠(yuǎn)的正樣本,推遠(yuǎn)距離最近的負(fù)樣本,丟棄剩余樣本,在此過程中會浪費大量的可用信息。為了充分利用一個批次內(nèi)的樣本,同時抑制異常值樣本對模型性能帶來的影響,本文引入在線軟挖掘和類感知注意力損失(OCL),又可分為在線軟正樣本挖掘和在線軟負(fù)樣本挖掘。正樣本挖掘的任務(wù)是為每個正樣本分配連續(xù)的分?jǐn)?shù),以利用所有正樣本的信息。對于正樣本SP中的每個相似樣本組(fu,ft)∈SP,計算其L2 標(biāo)準(zhǔn)化后特征之間的歐氏距離dut。為了將更高的挖掘分?jǐn)?shù)分配給更多相似的樣本組,采用均值為0 的高斯函數(shù)將dut轉(zhuǎn)換成OSM分?jǐn)?shù),每個正樣本組(fu,ft)的OSM 分?jǐn)?shù)定義如下:

        其中:dut=‖fu-ft‖2為兩個樣本特征的歐氏距離;是控制OSM 分?jǐn)?shù)分布的超參數(shù)。

        負(fù)樣本挖掘則要舍棄大部分對學(xué)習(xí)無用的樣本組。對于負(fù)樣本SN中的每個不相似樣本組(fu,ft)∈SN,設(shè)置一個閾值α,比較負(fù)樣本組的距離與閾值的大小,將較高的OSM 分?jǐn)?shù)分配給小于閾值的負(fù)樣本組,將距離大于閾值的負(fù)樣本組的OSM 分?jǐn)?shù)設(shè)置為0,因為這些樣本對優(yōu)化模型不起作用。每個負(fù)樣本組(fu,ft)的OSM 分?jǐn)?shù)定義如下:

        異常值樣本通常是標(biāo)簽錯誤的樣本,它們與標(biāo)簽在語義上并無關(guān)聯(lián)。使用CAA 可以評估樣本與其標(biāo)簽的語義關(guān)系,即標(biāo)簽的正確程度,進(jìn)而抑制異常值樣本對模型的影響。

        為了度量樣本和標(biāo)簽的語義關(guān)系,需計算樣本特征向量fu與對應(yīng)的分類上下文向量cyu之間的兼容性,它們的兼容性通過點積衡量。分類上下文向量為全連接層中的訓(xùn)練參數(shù),即,其中:B為訓(xùn)練集中的分類數(shù);cb∈Rd為分類b的上下文向量,在本文中特征通道數(shù)d被設(shè)置為2 048。計算樣本特征fu的CAA 分?jǐn)?shù)au的公式如下:

        采用Softmax 運算評估樣本與標(biāo)簽的正確匹配程度。為了將正樣本組和負(fù)樣本組(fu,ft)∈SP∪SN的OSM 與CAA 分?jǐn)?shù)整合到一個對比損失中,需要生成相應(yīng)的權(quán)重值

        其中:aut是(fu,ft)的CAA 分?jǐn)?shù),aut=min(au,at)。

        因此OSM 和CAA 損失如下定義:

        在訓(xùn)練階段,使用批量歸一化后的全局特征和圖特征,計算它們在線軟挖掘和類感知注意力損失的平均值:

        通過聯(lián)合交叉熵?fù)p失、三元組損失、中心損失及在線軟挖掘和類感知注意力損失組成最終的加權(quán)損失函數(shù):

        其中:β是控制中心損失的權(quán)重值,根據(jù)文獻(xiàn)[15]的研究,本文將β固定設(shè)置為0.000 5;λ是平衡三元組損失函數(shù)與在線軟挖掘和類感知注意力損失的對比權(quán)重。

        4 實驗與結(jié)果分析

        4.1 數(shù)據(jù)集和評價指標(biāo)

        本文在當(dāng)前視頻行人重識別領(lǐng)域兩個主流的大規(guī)模數(shù)據(jù) 集MARS(Motion Analysis and Re-identification Set)[28]和DukeMTMC-VideoReID[29]上對本文方法進(jìn)行了實驗及評估。

        MARS 是目前為止數(shù)據(jù)量最大的視頻行人重識別數(shù)據(jù)集,包含6 臺攝像頭拍攝的20 715 段視頻,其中17 467 段視頻為有效片段,其余的3 248 段視頻是干擾片段,增加了行人重識別的難度。數(shù)據(jù)集中有屬于625 個不同身份的8 298 段視頻用于訓(xùn)練,屬于636 個不同身份的9 330 段視頻用于測試,每段視頻平均長度為59 幀,視頻采用DPM(Deformable Parts Model)行人檢測器和GMMCP(Generalized Maximum Multi Clique Problem)行人跟蹤器自動生成。

        DukeMTMC-VideoReID 是DukeMTMC 的子集,是另一個視頻行人重識別的大型數(shù)據(jù)集,包含8 臺攝像頭拍攝的4 832段視頻??傆? 812 個身份,其中702 個用于訓(xùn)練,702 個用于測試,還有408 個干擾項,共有2 196 段視頻用于訓(xùn)練,2 636 段視頻用于測試,每段視頻平均長度為168 幀。

        本文使 用累積 匹配特 性(Cumulative Match Characteristic,CMC)曲線和 平均查準(zhǔn)率(mean Average Precision,mAP)作為評價指標(biāo)。CMC 判斷模型的排名能力,將查詢集(Query)中的目標(biāo)與圖庫集(Gallery)的視頻按相似度距離大小進(jìn)行排序,檢索目標(biāo)的排名越靠前,表明模型的識別效果更好。本文采用Rank-1(R1)、Rank-5(R5)、Rank-20(R20)作為CMC 評價標(biāo)準(zhǔn)。計算所有查詢中平均精度的平均值,mAP 可以反映模型評測精度的穩(wěn)定性。R1、R5、R20和mAP 越高,模型性能越好。

        4.2 實驗設(shè)置

        本文的實驗在Ubuntu 18.04 操作系統(tǒng)上進(jìn)行,GPU 設(shè)備為NVIDIA RTX3090。實驗以在ImageNet 上進(jìn)行預(yù)訓(xùn)練的ResNet-50 作為特征提取器,所有輸入圖像的大小均調(diào)整為256× 128,并使用隨機(jī)水平翻轉(zhuǎn)[10]進(jìn)行數(shù)據(jù)增強(qiáng)。

        訓(xùn)練階段,采用受限隨機(jī)采樣策略從每段視頻中抽取T=8 幀,作為視頻序列。使用Adam 優(yōu)化器更新參數(shù),初始學(xué)習(xí)率設(shè)置為0.000 3,權(quán)重衰減為0.000 5。每個批次采樣M=8 個不同身份,每個身份采樣K=4 段視頻序列。在MARS 數(shù)據(jù)集上,對網(wǎng)絡(luò)進(jìn)行240 個周期的訓(xùn)練,并且每隔60個周期學(xué)習(xí)率衰減至之前的1/10;在DukeMTMC-VideoReID數(shù)據(jù)集上,對網(wǎng)絡(luò)進(jìn)行400 個周期的訓(xùn)練,并且每隔100 個周期學(xué)習(xí)率衰減至之前的1/10。

        4.3 實驗結(jié)果與分析

        4.3.1 與其他方法的對比

        為了驗證本文提出方法的有效性,在MARS 和DukeMTMC-VideoReID 上與一些最新的基于視頻的行人重識別方法進(jìn)行了對比,包括CNN+CQDA(Convolutional Neural Network and Cross-view Quadratic Discriminant Analysis)[28]、TAM+SRM(Temporal Attention Model and Spatial Recurrent Model)[5]、SSA+CASE(Snippet-Similarity Aggregation and Co-Attentive Snippet Embedding)[11]、3DCNN+NLA(3D Convolutional Neural Network and Non-Local Attention)[8]、COSAM(CO-Segmentation Activation Module)[12]、STA(Spatial-Temporal Attention)[9]、互注意力(Mutual Attention,MA)[30]、STE-NVAN(Spatially and Temporally Efficient Non-local Video Attention Network)[10]、VKD(Views Knowledge Distillation)[31]、AITL(Attribute-aware Identity-hard Triplet Loss)[32]等方法。

        如表1 所示,本文方法優(yōu)于大部分現(xiàn)有的方法。在MARS 數(shù)據(jù)集上,本文方法的mAP 和Rank-1 分別達(dá)到了85.7%和90.2%,相較于次優(yōu)的基于行人屬性信息輔助的方法AITL 分別提高1.3 個百分點和2.0 個百分點。在DukeMTMC-VideoReID 數(shù)據(jù)集上,本文方法的mAP 和Rank-1指標(biāo)分別達(dá)到了95.8%和96.7%,結(jié)果也超過了AITL,驗證了本文方法的有效性。

        表1 不同方法比較 單位:%Tab.1 Comparison of different methods unit:%

        4.3.2 消融實驗

        為驗證各模塊的有效性,在MARS 數(shù)據(jù)集上進(jìn)行多組消融實驗,分別為:基于文獻(xiàn)[13]的使用ResNet-50 骨干和三維全局平均池化的基準(zhǔn)模型(Baseline);融合了全局特征和圖特征的模型,圖特征由GCN 提??;融合了全局特征和圖特征的模型,圖特征由GCN+SAGP 提?。患尤肓薈L 及OCL 訓(xùn)練的基準(zhǔn)模型;融合了全局特征和圖特征,并加入CL 及OCL 訓(xùn)練的模型。實驗結(jié)果見表2。從表2 可以看出,基準(zhǔn)模型使用了ResNet-50 圖像特征提取器和三維全局平均池化的時序建模方法,損失函數(shù)由交叉熵?fù)p失和三元組損失構(gòu)成,其mAP和Rank-1 分別達(dá)到了84.2%和88.7%;在此基礎(chǔ)上,將全局特征和圖分支進(jìn)行融合,其中圖分支采用GCN 提取特征,mAP 精度提高了1.1 個百分點,可見GCN 通過建模幀間不同區(qū)域的時空關(guān)系,利用各區(qū)域之間互補(bǔ)的關(guān)聯(lián)信息,優(yōu)化了視頻級的行人特征表示;然后,在圖分支中加入SAGP 模塊,即采用GCN+SAGP 提取特征,mAP 和Rank-1 相較基準(zhǔn)模型分別提高了1.2 個百分點和0.5 個百分點,可見在SAGP 機(jī)制的輔助下,緩解了模型中背景雜波區(qū)域?qū)δP驼w性能的影響,使模型專注于利用視頻幀中的高質(zhì)量區(qū)域提取行人特征;接著,引入了加權(quán)損失函數(shù)策略,相較于基準(zhǔn)模型,mAP和Rank-1 分別提高0.9 個百分點和0.2 個百分點,可見CL 減少了同一身份特征之間的類內(nèi)距離,而OCL 充分利用了小批次中的每個可用樣本,并且消除了分類異常的樣本對模型訓(xùn)練的影響;最后,測試了本文模型,在融合全局分支和圖分支的基礎(chǔ)上使用了加權(quán)損失函數(shù)策略,mAP 和Rank-1 相較于基準(zhǔn)模型分別提高1.5 個百分點和1.5 個百分點,達(dá)到了85.7%和90.2%。本文模型的R20 有所降低,因為實驗通過20 張圖片對模型檢索精度進(jìn)行評價時,樣本圖片足夠多,已達(dá)到模型訓(xùn)練的瓶頸,而采用加權(quán)損失函數(shù)策略進(jìn)行模型訓(xùn)練時可能存在0.1%~0.2%的誤差。當(dāng)僅采用1 張圖片進(jìn)行檢索精度評價(即R1)時,由于樣本圖片很少,更能反映使用加權(quán)損失函數(shù)策略訓(xùn)練下本文模型在困難任務(wù)中相較于消融模型的優(yōu)勢。綜上所述,本文的各個模塊可以共同促進(jìn)模型的訓(xùn)練,使提取的行人特征更具判別力和魯棒性。

        表2 在MARS數(shù)據(jù)集上的消融實驗結(jié)果 單位:%Tab.2 Ablation experimental results on MARS dataset unit:%

        4.3.3 參數(shù)分析

        本文通過實驗研究特征切分塊數(shù)S對模型識別精度的影響,結(jié)果如表3 所示。在不改變其他條件的情況下,將視頻序列中的每幀圖像分別切分成2、4、8 塊。當(dāng)S=4 時,模型取得了最佳效果,mAP 和Rank-1 精度分別達(dá)到了85.7%和90.2%,說明此時的圖模型能夠更充分地利用幀間不同區(qū)域的關(guān)聯(lián)信息展開建模,使每個區(qū)塊提取的行人特征具有判別力,在聚合成視頻級特征時能夠有效緩解遮擋、空間不對齊、背景雜波等問題。而切分塊數(shù)過少,會導(dǎo)致行人各身體部位的結(jié)構(gòu)化信息提取不夠完整;切分塊數(shù)過多,又可能產(chǎn)生較多的存在背景雜波的區(qū)塊,都不利于模型取得更好的性能。

        表3 特征切分策略對比 單位:%Tab.3 Comparison of feature segmentation strategies unit:%

        本文測試了圖池化比率r對模型識別的影響,結(jié)果如表4 所示。r越高,經(jīng)過GCN 處理后的圖模型保留的區(qū)塊節(jié)點越多,通過節(jié)點聚合生成最終的視頻級行人特征。模型在r=25%時取得了最好的識別效果,說明此時保留的區(qū)塊節(jié)點相比被去除的節(jié)點更能反映目標(biāo)行人的特征,也就是模型更專注于使用這些高質(zhì)量的區(qū)塊特征識別行人,緩解了背景雜波的影響;當(dāng)r大于或小于25%時,模型的mAP 和Rank-1均呈下降趨勢,說明圖模型中保留的節(jié)點過多或過少都不利于模型性能的提升,驗證了參數(shù)設(shè)置的最優(yōu)性。

        表4 圖池化比率的對比實驗結(jié)果 單位:%Tab.4 Comparative experimental results of graph pooling ratio unit:%

        加權(quán)損失函數(shù)權(quán)重參數(shù)對模型訓(xùn)練效果的影響如表5所示。在本文定義的加權(quán)損失函數(shù)中,引用了控制中心損失函數(shù)權(quán)重的參數(shù)β以及平衡三元組損失與在線軟挖掘和類感知注意力損失權(quán)重的參數(shù)λ。根據(jù)文獻(xiàn)[14]的研究,本文將β設(shè)置為0.000 5 以穩(wěn)定中心損失對于同類樣本在特征空間中聚類的性能,對參數(shù)λ進(jìn)行實驗,驗證模型取得最佳性能的設(shè)置。當(dāng)λ大于或者小于50% 時,模型的mAP 和Rank-1 均呈下降趨勢,而當(dāng)λ=50%時,模型取得了最佳效果,說明此時的可用樣本得到了充分的挖掘。

        表5 損失函數(shù)的權(quán)重參數(shù)的對比 單位:%Tab.5 Comparison on weighting parameters of loss function unit:%

        4.3.4 可視化結(jié)果

        如圖5 所示,對三個行人的視頻序列檢索結(jié)果進(jìn)行了可視化??梢钥吹剑趫D5(a)中,基準(zhǔn)模型的排名結(jié)果受到了外觀相似、空間不對齊、目標(biāo)遮擋、光照變化等因素的干擾;而在圖5(b)中,本文模型檢索的前5 個排名結(jié)果,都與Query中目標(biāo)的身份相匹配。圖中的方框標(biāo)記表示檢索錯誤,無框則表示檢索正確,檢索結(jié)果驗證了本文方法能緩解行人重識別中存在的問題。

        圖5 本文模型和基準(zhǔn)模型的檢索結(jié)果比較Fig.5 Comparison of retrieval results of proposed model and baseline model

        本文使用加權(quán)梯度類激活映射(Gradient-weighted Class Activation Mapping,Grad-CAM)[33]可視化了類激活映射圖,使用基準(zhǔn)模型和本文模型的可視化結(jié)果如圖6 所示。在圖6(a)的視頻序列中展示了目標(biāo)行人被遮擋的情況,基準(zhǔn)模型會將部分的背景雜波區(qū)域錯誤地歸類到行人特征(方框標(biāo)記部分),而本文模型則對遮擋和背景雜波更加魯棒,專注于提取屬于目標(biāo)行人的特征;在圖6(b)的一組視頻序列中存在幀與幀之間的空間不對齊問題,基準(zhǔn)模型未能識別人體下半部分區(qū)域的特征(方框標(biāo)記部分),而本文模型正確捕捉到了行人的整體外觀結(jié)構(gòu),客觀驗證了本文方法的有效性,能夠緩解行人重識別中的遮擋、空間不對齊、背景雜波等問題。

        圖6 類激活映射的可視化結(jié)果Fig.6 Visualization result of class activation mapping

        5 結(jié)語

        在視頻行人重識別的任務(wù)中,現(xiàn)有方法無法有效提取視頻連續(xù)幀之間的時空信息。本文提出了基于圖卷積與自注意力圖池化的視頻行人重識別方法,通過圖卷積網(wǎng)絡(luò)對幀間不同區(qū)域的時空關(guān)系進(jìn)行建模,利用視頻序列中互補(bǔ)的區(qū)域信息優(yōu)化視頻特征,緩解視頻行人重識別中存在的遮擋、空間不對齊等問題;通過自注意力圖池化機(jī)制優(yōu)化圖模型的拓?fù)浣Y(jié)構(gòu),使模型專注于提取視頻序列中高質(zhì)量區(qū)域的特征,緩解背景雜波區(qū)域造成的干擾;此外,將全局分支和圖分支融合到一個統(tǒng)一的框架中,以端到端的方式共同優(yōu)化模型,取得了很好的效果;最后,采用的加權(quán)損失函數(shù)合理優(yōu)化了分類學(xué)習(xí)和度量學(xué)習(xí)的訓(xùn)練過程。在MARS 和DukeMTMCVideoReID 數(shù)據(jù)集上的實驗結(jié)果驗證了本文方法的有效性。后續(xù)的研究工作可圍繞鄰接圖的構(gòu)造方法展開,研究合理描述幀間不同區(qū)塊關(guān)聯(lián)信息的方法,以及探索多種圖卷積模型的變體結(jié)構(gòu)對于行人重識別性能的影響。

        猜你喜歡
        行人注意力損失
        少問一句,損失千金
        讓注意力“飛”回來
        胖胖損失了多少元
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        路不為尋找者而設(shè)
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        我是行人
        A Beautiful Way Of Looking At Things
        一般自由碰撞的最大動能損失
        日本在线一区二区在线| 亚洲av综合日韩| 精品一区二区久久久久久久网站| 亚洲精品动漫免费二区| 一本久久综合亚洲鲁鲁五月天| 亚洲国产成人精品无码区二本| 波多野吉衣av无码| 中文字幕午夜AV福利片| 日本美女性亚洲精品黄色| 精品亚洲av一区二区| 极品少妇高潮在线观看| 男人天堂这里只有精品| 亚洲 欧美 综合 在线 精品 | 少妇夜夜春夜夜爽试看视频| av一区二区三区人妻少妇 | 91久久国产露脸国语对白| 亚洲综合一区二区三区天美传媒| 色视频线观看在线网站| 九九99无码精品视频在线观看| 国产粉嫩高清| 丝袜美腿在线观看视频| 在线精品亚洲一区二区动态图| 少妇无码av无码一区| 国产97色在线 | 免| 中文少妇一区二区三区| 国产三级视频在线观看国产| 久久婷婷综合缴情亚洲狠狠| 国产在线第一区二区三区| 专干老熟女视频在线观看| 亚洲精品综合欧美一区二区三区| 亚洲碰碰人人av熟女天堂| 福利片免费 亚洲| 西西少妇一区二区三区精品| 国产午夜视频高清在线观看| 日韩熟女系列中文字幕| 老熟女富婆激情刺激对白| 亚洲av网一区二区三区| 国产成人无码免费网站| 无码AⅤ最新av无码专区| 手机在线看片在线日韩av| 91精品国产在热久久|