亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于非局部關(guān)注和多重特征融合的視頻行人重識(shí)別

2021-03-07 05:16:40劉紫燕朱明成馬珊珊陳霖周廷

計(jì)算機(jī)應(yīng)用 2021年2期

關(guān)鍵詞：集上全局行人

劉紫燕，朱明成，袁磊，馬珊珊，陳霖周廷

（1.貴州大學(xué)大數(shù)據(jù)與信息工程學(xué)院，貴陽(yáng) 550025；2.貴州理工學(xué)院航空航天工程學(xué)院，貴陽(yáng) 550003）

（*通信作者電子郵箱Leizy@sina.com）

0 引言

行人重識(shí)別是利用計(jì)算機(jī)技術(shù)判斷圖像或視頻中是否存在特定行人的技術(shù)，作為計(jì)算機(jī)視覺(jué)領(lǐng)域中圖像檢索的子任務(wù)，它的目的是解決跨非重疊攝像機(jī)之間的行人匹配問(wèn)題，被廣泛應(yīng)用于智能安防、智能尋人系統(tǒng)、相冊(cè)聚類和家庭機(jī)器人等領(lǐng)域。由于不同相機(jī)存在差異，同時(shí)行人特征多樣復(fù)雜，易受穿著、尺度、遮擋、姿態(tài)、視角和光照等影響，因此行人重識(shí)別成為了一個(gè)具有挑戰(zhàn)性和研究?jī)r(jià)值的熱門課題。

傳統(tǒng)方法主要集中在基于圖像的行人重識(shí)別上［1］，只包含空間特征，缺少時(shí)序信息，在復(fù)雜條件下的精度不高；視頻序列則包含豐富的行人時(shí)序特征，因此對(duì)視頻行人重識(shí)別的研究具有重要意義［2-3］。隨著基于視頻的大規(guī)模數(shù)據(jù)集的出現(xiàn)［4］，研究者設(shè)計(jì)了多種深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)視頻的魯棒表示［5-6］。

在基于視頻的行人重識(shí)別研究中，經(jīng)典方法是將視頻序列投影到低維特征空間，然后通過(guò)計(jì)算樣本之間的距離來(lái)執(zhí)行身份匹配排序。目前使用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）提取行人特征已經(jīng)遠(yuǎn)遠(yuǎn)優(yōu)于手工特征方案［7-9］。文獻(xiàn)［10］中采用三維梯度方向直方圖（3D Histogram of Oriented Gradients，HOG3D）和步態(tài)能量圖像（Gait Engery Image，GEI）結(jié)合CNN 來(lái)學(xué)習(xí)行人子空間下的特征，當(dāng)對(duì)具有遮擋、復(fù)雜背景和姿態(tài)變化等多種情況的數(shù)據(jù)集進(jìn)行特征學(xué)習(xí)時(shí)，運(yùn)動(dòng)特征的效果較差；文獻(xiàn)［11］中設(shè)計(jì)了遞歸深度神經(jīng)網(wǎng)絡(luò)（Deeply-Recursive Convolutional Network，DRCN）模型學(xué)習(xí)視頻行人特征，該方法只關(guān)注短期時(shí)間特征；文獻(xiàn)［12］中提出了一種順序漸進(jìn)融合模型將人工特征（如局部二值特征（Local Binary Pattern，LBP）和顏色）嵌入到長(zhǎng)短時(shí)記憶（Long Short-Term Memory，LSTM）網(wǎng)絡(luò)，雖然融合多種特征，但是對(duì)全局特征提取不足，無(wú)法有效獲取長(zhǎng)時(shí)間時(shí)序特征；文獻(xiàn)［13］中提出了兩個(gè)CNN 流來(lái)同時(shí)捕獲時(shí)間和空間信息，由于此模型對(duì)圖像采取同等關(guān)注度而無(wú)法處理序列中的遮擋或空間不對(duì)齊問(wèn)題；文獻(xiàn)［14］中提出注意力機(jī)制結(jié)合多粒度特征表示法來(lái)對(duì)特定空間位置進(jìn)行聚集獲得更好的表示形式，但它們注重局部特征而忽略了全局特征；文獻(xiàn)［15］中利用相似性聚合方法對(duì)視頻片段進(jìn)行剪輯從而提取出代表性的位置信息，但該方法注重空間特征而忽略了時(shí)間特征；文獻(xiàn)［16］中對(duì)時(shí)間特征進(jìn)行了有效的提取和表示，但著重提取高級(jí)特征而忽略了跟中低層特征的融合；文獻(xiàn)［17］中提出了一個(gè)兼顧全局和局部特征的網(wǎng)絡(luò)來(lái)提取時(shí)間特征，但該網(wǎng)絡(luò)注重高級(jí)特征忽略了對(duì)中低級(jí)特征的提??；文獻(xiàn)［18］中采用生成對(duì)抗網(wǎng)絡(luò)對(duì)被遮擋行人進(jìn)行數(shù)據(jù)增強(qiáng)，存在引入低質(zhì)量圖像的問(wèn)題；文獻(xiàn)［19］中使用自然語(yǔ)義研究中的全局關(guān)注機(jī)制進(jìn)行視頻行人重識(shí)別研究，然而存在使用特征較為單一而無(wú)法適應(yīng)復(fù)雜環(huán)境的問(wèn)題。

鑒于現(xiàn)有方法沒(méi)有深入挖掘視頻序列的全局特征和時(shí)序信息，本文提出一種基于非局部關(guān)注（Non-local Attention）和多重特征融合的網(wǎng)絡(luò)。主要工作如下：1）在ResNet-50殘差網(wǎng)絡(luò)中嵌入多層非局部關(guān)注塊提取全局時(shí)空特征；2）在主干網(wǎng)絡(luò)的中間層和全連接層提取中低級(jí)特征和局部特征，在特征池化階段進(jìn)行多重特征融合獲取魯棒性強(qiáng)的特征表示。本文提出的網(wǎng)絡(luò)能有效提取視頻連續(xù)幀之間的時(shí)空信息，充分利用全局特征、局部特征和中低級(jí)特征的信息，可以有效緩解單一特征帶來(lái)的適應(yīng)性差的問(wèn)題。

1 非局部關(guān)注和多重特征融合網(wǎng)絡(luò)

圖1 是本文提出的非局部關(guān)注和多重特征融合網(wǎng)絡(luò)結(jié)構(gòu)示意圖，主體網(wǎng)絡(luò)為嵌入非局部關(guān)注塊的ResNet-50 殘差網(wǎng)絡(luò)，用以提取全局特征；在主體網(wǎng)絡(luò)的第二殘差層（Res2）和全連接層（Fully Connected layer，F(xiàn)C）引出兩個(gè)特征提取分支，分別提取低中級(jí)特征和局部特征；經(jīng)過(guò)多重特征融合將中低級(jí)特征和局部特征輸入到全局特征中融合得到行人顯著特征，通過(guò)特征池化后，對(duì)整個(gè)行人特征進(jìn)行相似性度量和排序；最后對(duì)待測(cè)行人進(jìn)行身份預(yù)測(cè)，計(jì)算出視頻行人重識(shí)別的精度。

圖1 基于非局部關(guān)注和多重特征融合網(wǎng)絡(luò)示意圖Fig.1 Schematic diagram of network based on non-local attention and multi-feature fusion

1.1 非局部關(guān)注

計(jì)算機(jī)視覺(jué)中非局部關(guān)注是一種全局注意力機(jī)制，被用來(lái)捕獲長(zhǎng)距離依賴信息，即建立視頻幀之間的聯(lián)系，不孤立學(xué)習(xí)單個(gè)圖像的特征［19］。非局部關(guān)注在計(jì)算某個(gè)位置的響應(yīng)時(shí)考慮到所有時(shí)空位置特征的加權(quán)，因此本文提出的網(wǎng)絡(luò)模型采用嵌入的非局部關(guān)注塊對(duì)連續(xù)視頻幀進(jìn)行特征提取。

根據(jù)非局部關(guān)注的定義，在深度神經(jīng)網(wǎng)絡(luò)中的非局部關(guān)注操作可用下式表示：

其中：x表示輸入序列（特征），y表示輸出特征；f(xi，xj)表示對(duì)于某一特定位置i對(duì)所有可能關(guān)聯(lián)的位置j之間的關(guān)系函數(shù)，反映了位置i和j之間聯(lián)系；g(j)表示在位置i處輸入的特征值；c(x)表示歸一化參數(shù)。根據(jù)式（1）可知，非局部關(guān)注是一種全局注意力機(jī)制，是當(dāng)前特征輸出與任意時(shí)空的綜合關(guān)系的輸出。由于輸入值xi和xj之間的關(guān)系會(huì)影響最終輸出，因此非局部關(guān)注要對(duì)位置相關(guān)性進(jìn)行學(xué)習(xí)。

為了將非局部關(guān)注塊嵌入到ResNet-50主體網(wǎng)絡(luò)中，將非局部關(guān)注的操作表示為：

其中：Wz表示的是權(quán)重矩陣，zi表示非局部關(guān)注經(jīng)過(guò)殘差連接的輸出，+xi表示的是殘差連接。

圖2 顯示的是一個(gè)非局部關(guān)注塊，其中特征圖以張量形式表示，1 024 表示通道數(shù)，?表示矩陣乘法，⊕表示元素求和，激活函數(shù)采用softmax 函數(shù)。由于原始非局部關(guān)注塊計(jì)算量很大，使用稀疏化計(jì)算技術(shù)將圖中Wg、Wθ、Wφ的通道數(shù)相對(duì)輸入通道數(shù)減為一半(1024 →512)，最后將Wz放大至輸入通道數(shù)以保證輸入輸出的尺寸一致。

給定的從一系列大小為C×H×W的T個(gè)特征圖獲得的輸入特征張量X∈QC×T×H×W，按照非局部關(guān)注的要求在所有空間位置和幀之間的特征中交換信息。假設(shè)從輸入X采樣得xi∈QC，那么經(jīng)過(guò)非局部關(guān)注的相應(yīng)輸出yi的公式如下：

其中：i、j∈[1，T×H×W]表示特征圖上全部位置和所有視頻幀。如圖2，首先通過(guò)使用線性變換函數(shù)（1× 1× 1的卷積）將輸入X投影到低維的嵌入空間QClow；然后通過(guò)使用嵌入式高斯實(shí)例化，計(jì)算所有xj位置的加權(quán)平均值來(lái)得出每個(gè)位置xi的響應(yīng)；最終輸出Z=WzY+X，其輸出為原始特征張量X加上通過(guò)卷積Wz（1× 1× 1 的卷積）將Y映射到原始特征空間QC。

圖2 非局部關(guān)注塊Fig.2 Non-local attention block

經(jīng)過(guò)上述設(shè)置將非局部關(guān)注塊嵌入到ResNet-50 的任意層中，根據(jù)輸入視頻幀的長(zhǎng)度來(lái)提取相應(yīng)長(zhǎng)度的幀間時(shí)序信息。非局部關(guān)注塊可以靈活嵌入到網(wǎng)絡(luò)中，同時(shí)能在長(zhǎng)序列視頻下提取長(zhǎng)時(shí)間的特征信息，比LSTM 等應(yīng)用循環(huán)或遞歸神經(jīng)網(wǎng)絡(luò)的模型更能對(duì)視頻幀信息做到全局關(guān)注。

非局部關(guān)注對(duì)長(zhǎng)時(shí)間的幀間信息進(jìn)行特征提取，能有效避免個(gè)別圖像中出現(xiàn)遮擋、光照、角度偏移等問(wèn)題。對(duì)于視頻來(lái)說(shuō)，連續(xù)變化的圖片會(huì)將同一行人的不同狀態(tài)下的特征保留在幀間信息即時(shí)序信息中，非局部關(guān)注可以有效提取全局時(shí)序信息，這恰好解決了行人重識(shí)別存在的遮擋、光照、視角等問(wèn)題。

1.2 多重特征融合

上述非局部關(guān)注塊提取的是全局特征，由于單一的行人特征無(wú)法較好提升行人重識(shí)別的精度，因此本文提出一種多重特征融合網(wǎng)絡(luò)對(duì)多個(gè)特征進(jìn)行融合以獲取顯著的行人特征。本文在行人重識(shí)別網(wǎng)絡(luò)中設(shè)置兩個(gè)特征提取分支，分別提取低中級(jí)特征和局部特征。完整的多重特征融合網(wǎng)絡(luò)如圖3所示。

低中級(jí)特征提取層位于Res2 下的非局部關(guān)注層（Nonlocal Layer）之后經(jīng)時(shí)間池化層進(jìn)入特征融合階段；局部特征提取層位于全連接層后，通過(guò)將特征切分成三部分經(jīng)卷積層、合并層（Concatenate Layer）和時(shí)間池化層后進(jìn)行特征融合。兩個(gè)特征提取分支與非局部關(guān)注主體網(wǎng)絡(luò)提取出的多重特征通過(guò)加法拼接和特征池化完成特征融合。

需要注意的是，在局部特征提取層上采用切片法將視頻幀中的行人均分為上中下三部分，經(jīng)過(guò)卷積層和全連接層進(jìn)行局部特征映射；最后通過(guò)合并層將三部分特征進(jìn)行組合。池化層采用最大池化盡可能減少紋理信息受卷積層參數(shù)誤差的影響；激活函數(shù)采用ReLU 函數(shù)避免梯度消失和梯度爆炸問(wèn)題。

對(duì)于長(zhǎng)度l一定的視頻序列Vin，經(jīng)過(guò)局部特征層可得，然后經(jīng)平均時(shí)間池化層得到flocal(vin)=；在低中級(jí)特征提取時(shí)同樣經(jīng)過(guò)平均時(shí)間池化層為；經(jīng)過(guò)整個(gè)主體網(wǎng)絡(luò)，則得到；最后將三者進(jìn)行特征拼接，本文采用加法拼接進(jìn)行融合，得到最終特征表示ffinal(vin)=flocal(vin)+flm(vin)+fnonlocal(vin)。

利用多重特征融合，對(duì)全局特征、局部特征、高級(jí)特征和中低級(jí)特征進(jìn)行融合。由于不同的攝像機(jī)在不同的時(shí)間拍攝的行人視頻具有復(fù)雜多變的特性，靠單一特征進(jìn)行重識(shí)別容易出現(xiàn)識(shí)別性能參差不齊的情況，通過(guò)多重特征融合可以提升適應(yīng)性和重識(shí)別精度。

圖3 多重特征融合網(wǎng)絡(luò)示意圖Fig.3 Schematic diagram of multi-feature fusion network

1.3 網(wǎng)絡(luò)架構(gòu)

本文的網(wǎng)絡(luò)架構(gòu)主要由數(shù)據(jù)預(yù)處理、非局部關(guān)注網(wǎng)絡(luò)、多重特征融合網(wǎng)絡(luò)、特征池化和行人身份排序五個(gè)部分組成。

1）數(shù)據(jù)預(yù)處理：通過(guò)隨機(jī)抽樣方法［12］選擇視頻幀的子集，然后通過(guò)非局部關(guān)注網(wǎng)絡(luò)和特征池化進(jìn)行特征提取得到特征向量。將給定輸入視頻Vin劃分為相等長(zhǎng)度的K個(gè)塊{Ci}i=[1，K]，訓(xùn)練時(shí)在每個(gè)塊中隨機(jī)抽取一個(gè)圖像；測(cè)試時(shí)使用每塊的第一個(gè)圖像作為測(cè)試。所有訓(xùn)練視頻序列由采樣幀的有序集合表示{Ii}i=[1，K]。

2）非局部關(guān)注網(wǎng)絡(luò)：本文設(shè)計(jì)的主體網(wǎng)絡(luò)中共嵌入了5層非局部關(guān)注塊，具體嵌入形式如圖4 所示，其中非局部關(guān)注塊有大小兩個(gè)尺寸，設(shè)計(jì)大小根據(jù)輸入的視頻長(zhǎng)度進(jìn)行變化。本文設(shè)計(jì)的網(wǎng)絡(luò)按16 幀和8 幀大小切分視頻，通過(guò)對(duì)于長(zhǎng)短連續(xù)視頻幀的特征提取，獲取短時(shí)間和長(zhǎng)時(shí)間兩種維度的特征信息，保證時(shí)序特征的多樣性。這種做法通過(guò)將大尺寸分成兩個(gè)小尺寸可以明顯減少計(jì)算量，而保留兩個(gè)大尺寸是為了提取較為完整的全局特征。

3）多重特征融合網(wǎng)絡(luò)：本文采用的特征融合網(wǎng)絡(luò)使用合并（Concat）融合策略，屬于早融合（Early Fusion）策略，即對(duì)不同特征進(jìn)行拼接形成最終的行人顯著特征。由于全局特征屬于主要特征，低中級(jí)特征和局部特征屬于旁支特征，因此為體現(xiàn)其所占比重，在特征維數(shù)上對(duì)三種特征進(jìn)行設(shè)計(jì)，全局特征維數(shù)占最終特征的1/2，中低級(jí)特征和局部特征各占1/4。

4）特征池化：融合特征沿時(shí)空維度應(yīng)用3D 平均池化，將每個(gè)視頻幀的融合特征聚合到一個(gè)代表性的矢量中，然后進(jìn)行批處理歸一化（Batch Normalization，BN）以及共同優(yōu)化的交叉熵?fù)p失和難例挖掘三元組損失來(lái)訓(xùn)練網(wǎng)絡(luò)。相關(guān)研究［20］表明，在BN層之前進(jìn)行三元組損失優(yōu)化，在BN層之后采用交叉熵?fù)p失優(yōu)化會(huì)產(chǎn)生最佳的行人重識(shí)別性能。沒(méi)有歸一化的嵌入空間更適用于三元組損失這樣的距離度量學(xué)習(xí)；歸一化的特征空間使模型在交叉熵?fù)p失下分類［21］效果好。

5）行人身份排序：該部分主要對(duì)基于查詢集和圖庫(kù)集的身份（Identity，ID）間距離的相似性分?jǐn)?shù)進(jìn)行排序，本文采用計(jì)算馬氏距離來(lái)對(duì)行人進(jìn)行排序。通過(guò)計(jì)算累積匹配特征曲線和平均精度均值來(lái)獲得重識(shí)別精度。

圖4 非局部塊嵌入形式圖Fig.4 Non-local block embedding form diagram

1.4 損失函數(shù)

交叉熵?fù)p失函數(shù)（Cross-entropy Loss）作為行人重識(shí)別領(lǐng)域的常用損失函數(shù)，是一種利于分類網(wǎng)絡(luò)進(jìn)行標(biāo)簽置信度排序的函數(shù)，其中概率分布采用softmax 激活函數(shù)來(lái)計(jì)算。該損失函數(shù)的一般公式為：

其中：i表示身份ID 標(biāo)簽序號(hào)，p(xi)表示真實(shí)概率，q(xi)表示預(yù)測(cè)概率。

難例挖掘三元組損失函數(shù)是通過(guò)對(duì)樣本空間中的正樣本對(duì)進(jìn)行聚合、負(fù)樣本對(duì)進(jìn)行推離來(lái)進(jìn)行優(yōu)化的，一般公式為：

每輸入一個(gè)批次的視頻幀時(shí)，隨機(jī)挑選P個(gè)ID 的行人，每個(gè)行人中隨機(jī)挑選K張不同視頻幀，則每個(gè)批次有P×K張。對(duì)于該批次中每個(gè)視頻幀，挑選一個(gè)最難的正樣本p和最難的負(fù)樣本q與a構(gòu)成一個(gè)三元組，α是閾值。難例挖掘損失函數(shù)通過(guò)計(jì)算a和同一批次中其他視頻幀的歐氏距離，選出與a距離最遠(yuǎn)的正樣本p和距離最近的負(fù)樣本q來(lái)計(jì)算三元組損失。

最終的損失函數(shù)是對(duì)以上兩項(xiàng)損失函數(shù)進(jìn)行組合，其表達(dá)式為：

2 實(shí)驗(yàn)結(jié)果與分析

本文的實(shí)驗(yàn)平臺(tái)采用Ubuntu16.04 操作系統(tǒng)，NVIDIA TITAN V100 顯卡的硬件環(huán)境，使用預(yù)訓(xùn)練的ResNet-50 分別在三個(gè)視頻行人重識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。設(shè)定視頻序列長(zhǎng)度L為8，并按此長(zhǎng)度分割整段序列，長(zhǎng)度不夠的視頻段舍去。每幀大小按照數(shù)據(jù)集的不同分為128× 64和256 × 128兩種。實(shí)驗(yàn)以ImageNet 圖像數(shù)據(jù)集預(yù)訓(xùn)練ResNet-50，使用交叉熵?fù)p失和難例挖掘三元組損失函數(shù)，采用Adam 優(yōu)化器。初始學(xué)習(xí)率為1× 10-4，每隔50 個(gè)epoch 衰減0.1，總批次為300 個(gè)epoch。

2.1 標(biāo)準(zhǔn)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

PRID2011數(shù)據(jù)集［22］包含934個(gè)身份共1 134段視頻序列，由兩個(gè)攝像機(jī)采集數(shù)據(jù)，平均長(zhǎng)度為5 到675 幀之間，其中200 個(gè)身份同時(shí)出現(xiàn)在兩個(gè)攝像機(jī)內(nèi)。該數(shù)據(jù)集在視角、光照和背景上有明顯差異。

MARS 數(shù)據(jù)集［4］包含1 261 個(gè)身份，總計(jì)17 503 個(gè)軌跡和3 248 個(gè)干擾軌跡，由6 個(gè)攝像頭采集數(shù)據(jù)。625 個(gè)身份用于培訓(xùn)，636 個(gè)身份進(jìn)行測(cè)試，每個(gè)身份平均有13 個(gè)視頻軌跡，平均幀數(shù)為59幀。

DukeMTMC-VideoReID 數(shù)據(jù)集［5］是DukeMTMC 數(shù)據(jù)集的子集，總計(jì)1 812 個(gè)身份，702 個(gè)用于訓(xùn)練，702 個(gè)用于測(cè)試，408 個(gè)作為干擾，共有2 196 個(gè)視頻用于訓(xùn)練，2 636 個(gè)視頻用于測(cè)試，每個(gè)視頻包含每12幀采樣的人物圖像。

本文在PRID 2011、MARS 和DukeMTMC-VideoReID 三大公共視頻數(shù)據(jù)集中進(jìn)行訓(xùn)練與測(cè)試，主要參數(shù)如表1所示。

表1 三大視頻行人重識(shí)別數(shù)據(jù)集Tab.1 Three video person re-identification datasets

視頻行人重識(shí)別主要使用累積匹配特征（Cumulative Match Characteristic，CMC）曲線和平均精度均值（mean Average Precision，mAP）作為評(píng)價(jià)指標(biāo)，兩者值越大表明精度越高。

CMC 曲線是表示top-k的擊中概率的曲線，指在候選庫(kù)（Gallery）中檢索待測(cè)試行人，前k個(gè)檢索結(jié)果中包含正確匹配結(jié)果的概率。Rank-k表示在前k個(gè)候選匹配目標(biāo)中存在待測(cè)試行人的概率。通常CMC 曲線由Rank-1、Rank-5、Rank-10、Rank-20 來(lái)表示，其中Rank-1 表示真實(shí)的識(shí)別能力。CMC的表達(dá)式可以如下表示：

其中：給定候選集M中有N個(gè)行人，k表示前k個(gè)候選目標(biāo)，pi表示查找集中行人在候選集中匹配正確的位置序號(hào)（即pi≤k表示能在前k個(gè)目標(biāo)中匹配正確）。

mAP 是計(jì)算所有查詢中平均精度的平均值，對(duì)于每個(gè)查詢，其平均精度（Average Precision，AP）是從其精度調(diào)用曲線計(jì)算得出的。mAP 可以反映模型的評(píng)測(cè)精度的穩(wěn)定性。AP和mAP的表達(dá)式為：

其中：i表示查詢圖像的序號(hào)，p(i)表示第i序號(hào)圖像在全體圖像中比例，r(i)表示i號(hào)圖像與待識(shí)別圖像匹配特性（正確為1，不正確為0）；m表示與待識(shí)別圖像匹配的個(gè)數(shù)；C表示待識(shí)別圖像的個(gè)數(shù)。

2.2 本文方法分析

本文實(shí)驗(yàn)首先對(duì)提出的非局部關(guān)注塊和多重特征融合網(wǎng)絡(luò)在視頻行人重識(shí)別的數(shù)據(jù)集上使用效果進(jìn)行測(cè)試，其中，NLA（Non-Local Attention）表示非局部關(guān)注塊，MLF（Multi-Layer Feature）表示多重特征融合。

根據(jù)圖5 和圖6 顯示的本文方法在數(shù)據(jù)集MARS 和DukeMTMC-VideoReID 上幀級(jí)ID 損失趨勢(shì)圖可以明顯看出，加入非局部關(guān)注塊和多重特征融合可以降低損失值并且損失降低速率加快，在兩個(gè)數(shù)據(jù)集上都比原始網(wǎng)絡(luò)快30 至40 個(gè)epoch；此外可以發(fā)現(xiàn)加入非局部關(guān)注塊在降低損失值方面更加明顯。

表2 給出了在兩個(gè)數(shù)據(jù)集上使用基本網(wǎng)絡(luò)和加上非局部關(guān)注塊、多重特征融合的改進(jìn)網(wǎng)絡(luò)輸出的Rank-k和mAP 的值。在MARS 數(shù)據(jù)集上：當(dāng)加入非局部關(guān)注塊時(shí)，Rank-1、mAP分別提升3.6個(gè)百分點(diǎn)和3.8個(gè)百分點(diǎn)；當(dāng)加入多重特征融合時(shí)，Rank-1、mAP分別提升2.5個(gè)百分點(diǎn)和1.4個(gè)百分點(diǎn)；當(dāng)加入兩種功能時(shí)，Rank-1、mAP 分別提升6.2 個(gè)百分點(diǎn)和7.2 個(gè)百分點(diǎn)。這說(shuō)明非局部關(guān)注塊對(duì)精度的提升作用優(yōu)于多重特征融合，同時(shí)當(dāng)兩種功能都采用時(shí)精度提升明顯。在DukeMTMC-VideoReID 數(shù)據(jù)集上，當(dāng)分別加入非局部關(guān)注塊和多重特征融合時(shí)，Rank-1、mAP 分別提升4.3 個(gè)百分點(diǎn)、5.3個(gè)百分點(diǎn)和3.5 個(gè)百分點(diǎn)、4.4 個(gè)百分點(diǎn)，這表明所提方法具有普適性，在不同視頻數(shù)據(jù)集上精度都有明顯提升。

因此在視頻行人重識(shí)別上，本文所提網(wǎng)絡(luò)可以明顯加快重識(shí)別時(shí)收斂速度，更快捷地獲取行人顯著特征；同時(shí)，非局部關(guān)注塊對(duì)精度提升由于多重特征融合，說(shuō)明非局部關(guān)注對(duì)視頻行人重識(shí)別有明顯的提升精度價(jià)值。

圖5 MARS數(shù)據(jù)集上幀級(jí)ID損失Fig.5 Frame-level ID loss on MARS dataset

圖6 DukeMTMC-VideoReID數(shù)據(jù)集上幀級(jí)ID損失Fig.6 Frame-level ID loss on DukeMTMC-VideoReID dataset

表2 含不同模塊的基本網(wǎng)絡(luò)在MARS和DukeMTMC-VideoReID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果單位：%Tab.2 Results of the baseline network with different modules on MARS and DukeMTMC-VideoReID datasets unit：%

2.3 與其他模型比較

本文模型與其他模型進(jìn)行精度比較的分析如下，其中不同數(shù)據(jù)集的主流模型是不同的，因?yàn)椴煌Ｐ偷膫?cè)重和提出時(shí)間不同。

從表3 可以看出：本文模型比傳統(tǒng)的AMOC（Accumulative Motion Context）［2］模型在Rank-1、mAP 上分別提升約20.4 個(gè)百分點(diǎn)和28.5 個(gè)百分點(diǎn)，比TriNet［6］高8.9 個(gè)百分點(diǎn)和13.7 個(gè)百分點(diǎn)，說(shuō)明僅采用運(yùn)動(dòng)特征和三元損失的效果較差；比應(yīng)用3D 卷積的3D-Conv+NLA（3D Convolutional Networks and Non-Local Attention）［7］和M3D（Multi-scale 3D Convolution）［8］模型高4.4 個(gè)百分點(diǎn)、4.4 個(gè)百分點(diǎn)和4.3 個(gè)百分點(diǎn)、7.3個(gè)百分點(diǎn)，說(shuō)明3D卷積對(duì)時(shí)空特征的挖掘沒(méi)有非局部關(guān)注深入，另外前者的非局部關(guān)注只是嵌入到3D卷積殘差塊中作為補(bǔ)充，對(duì)全局特征的挖掘較淺；比應(yīng)用擴(kuò)張卷積和時(shí)間自關(guān)注的GLTR（Global-Local Temporal Representations）［17］高0.3 個(gè)百分點(diǎn)和2.9 個(gè)百分點(diǎn)。相對(duì)于數(shù)據(jù)增強(qiáng)的VRSTC［18］模型，本文模型的Rank-1 結(jié)果略高0.2 個(gè)百分點(diǎn)，mAP 低了0.9 個(gè)百分點(diǎn)，說(shuō)明本文模型在首張命中率表現(xiàn)更好。

表3 MARS數(shù)據(jù)集上不同模型的Rank-1和mAP比較單位：%Tab.3 Comparison of Rank-1 and mAP by different models on MARS dataset unit：%

從表4 可以看出，本文模型在DukeMTMC-VideoReID 數(shù)據(jù)集上的表現(xiàn)良好，在Rank-1、mAP 上比只采用平均池化ResNet-50 的EUG（Exploit the Unknown Gradually）［4］模型高22.5個(gè)百分點(diǎn)和30.2個(gè)百分點(diǎn)；比采用學(xué)習(xí)片段相似度聚合（Learned Clip Similarity Aggregation，LCSA）［15］模型高6個(gè)百分點(diǎn)和4.9 個(gè)百分點(diǎn)；比GLTR 模型低1 個(gè)百分點(diǎn)和0.3 個(gè)百分點(diǎn)，這是因?yàn)樵撃Ｐ筒捎昧藢?duì)小目標(biāo)特征敏感的擴(kuò)張卷積技術(shù)，通過(guò)擴(kuò)大感受野能獲取較好的細(xì)節(jié)特征，另外該數(shù)據(jù)集復(fù)雜性比MARS低，GLTR模型在簡(jiǎn)單環(huán)境下表現(xiàn)較好。

表4 DukeMTMC-VideoReID數(shù)據(jù)集上不同模型的Rank-1和mAP比較單位：%Tab.4 Comparison of Rank-1 and mAP by different models on DukeMTMC-VideoReID dataset unit：%

表5 是在小數(shù)據(jù)集PRID2011 上不同模型的結(jié)果，由于在小數(shù)據(jù)集上各種模型的研究者并沒(méi)有進(jìn)行mAP 的精度測(cè)試，因此只比較Rank-1 的結(jié)果。本文模型比傳統(tǒng)AMOC 模型高11.1 個(gè)百分點(diǎn)，比應(yīng)用3D 卷積的M3D 和3D-Conv+NLA 的模型高0.4 個(gè)百分點(diǎn)和3.6 個(gè)百分點(diǎn)；現(xiàn)有的GLTR 模型比本文模型的結(jié)果僅高0.7 個(gè)百分點(diǎn)。由結(jié)果對(duì)比可知，在小數(shù)據(jù)集上本文的模型沒(méi)有過(guò)擬合問(wèn)題。

表5 PRID2011數(shù)據(jù)集上不同模型的Rank-1比較單位：%Tab.5 Comparison of Rank-1 by different models on PRID2011 dataset unit：%

綜上所述，本文提出的模型在各種尺寸和環(huán)境的數(shù)據(jù)集中都取得了較高的精度，采用非局部關(guān)注塊和多重特征融合的深度殘差網(wǎng)絡(luò)可以提取顯著的視頻幀之間的時(shí)序特征，提高視頻行人重識(shí)別的精度。

3 結(jié)語(yǔ)

本文針對(duì)當(dāng)前視頻行人重識(shí)別中無(wú)法有效地提取連續(xù)視頻幀之間的全局時(shí)空特征的問(wèn)題，結(jié)合自然語(yǔ)義中的全局關(guān)注技術(shù)，設(shè)計(jì)非局部關(guān)注塊嵌入到ResNet-50 中，提取全局幀間特征；隨后提出一種多重特征融合網(wǎng)絡(luò)，提取顯著性強(qiáng)的行人特征。在三個(gè)視頻行人重識(shí)別數(shù)據(jù)集PRID 2011、MARS 和DukeMTMC-VideoReID 上的實(shí)驗(yàn)結(jié)果表明，本文模型對(duì)視頻行人重識(shí)別精度有明顯提升。下一步工作是要探尋生成對(duì)抗網(wǎng)絡(luò)對(duì)視頻行人重識(shí)別精度提升的效果和跨模態(tài)視頻行人重識(shí)別。