劉保成 樸燕 唐悅
摘 要:由于現(xiàn)實(shí)復(fù)雜情況中各種因素的干擾,行人再識(shí)別的過程中可能出現(xiàn)識(shí)別錯(cuò)誤等問題。為了提高行人再識(shí)別的準(zhǔn)確性,提出了一種基于時(shí)空正則化的行人再識(shí)別算法。首先,利用ResNet-50網(wǎng)絡(luò)對(duì)輸入的視頻序列逐幀進(jìn)行特征提取,將一系列幀級(jí)特征輸入到時(shí)空正則化網(wǎng)絡(luò)并產(chǎn)生對(duì)應(yīng)的權(quán)重分?jǐn)?shù); 然后,對(duì)幀級(jí)特征使用加權(quán)平均得到視頻序列級(jí)特征, 為避免權(quán)重分?jǐn)?shù)聚集在一幀,使用幀級(jí)正則化來(lái)限制幀間差異;最后, 通過最小化損失得到最優(yōu)結(jié)果。在DukeMTMCReID和MARS數(shù)據(jù)集中做了大量的測(cè)試,實(shí)驗(yàn)結(jié)果表明,所提方法與Triplet算法相比能夠有效提高行人再識(shí)別的平均精度(mAP)和準(zhǔn)確率,并且對(duì)于人體姿勢(shì)變化、視角變化和相似外觀目標(biāo)的干擾具有出色的性能表現(xiàn)。
關(guān)鍵詞:機(jī)器視覺;行人再識(shí)別;注意力機(jī)制;卷積神經(jīng)網(wǎng)絡(luò);時(shí)間建模
中圖分類號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:A
Person reidentification in video sequence based on spatialtemporal regularization
LIU Baocheng, PIAO Yan*, TANG Yue
College of Electronic Information Engineering, Changchun University of Science and Technology, Changchun Jilin 130012, China
Abstract:
Due to the interference of various factors in the complex situation of reality, the errors may occur in the person reidentification. To improve the accuracy of person reidentification, a person reidentification algorithm based on spatialtemporal regularization was proposed. Firstly, the ResNet50 network was used to extract the features of the input video sequence frame by frame, and the series of framelevel features were input into the spatialtemporal regularization network to generate corresponding weight scores. Then the weighted average was performed on the framelevel features to obtain the sequencelevel features. To avoid weight scores from being aggregated in one frame, framelevel regularization was used to limit the difference between frames. Finally, the optimal results were obtained by minimizing the losses. A large number of tests were performed on MARS and DukeMTMCReID datasets. The experimental results show that the mean Average Precision (mAP) and the accuracy can be effectively improved by the proposed algorithm compared with Triplet algorithm. And the proposed algorithm has excellent performance for human posture variation, viewing angle changes and interference with similar appearance targets.
Key words:
machine vision; person reidentification; attention mechanism; Convolutional Neural Network (CNN); temporal modeling
0?引言
近年來(lái),隨著智能視頻分析的迅速發(fā)展和國(guó)家對(duì)公共安防監(jiān)控的重視,行人再識(shí)別技術(shù)已成為視頻監(jiān)控領(lǐng)域中至關(guān)重要的一部分[1]。行人再識(shí)別來(lái)源于多攝像機(jī)目標(biāo)跟蹤,主要處理非重疊攝像機(jī)間重新確定特定行人的問題,即判斷在不同時(shí)間、不同地點(diǎn)出現(xiàn)在不同攝像機(jī)的行人是否為同一個(gè)人。
基于視頻的行人再識(shí)別是當(dāng)前研究的熱點(diǎn),現(xiàn)階段的大多數(shù)方法都是基于深度神經(jīng)網(wǎng)絡(luò)和時(shí)間信息建模: McLaughlin等[2]首先提出通過循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)對(duì)幀之間的時(shí)間信息建模; Wu等[3]通過訓(xùn)練卷積網(wǎng)絡(luò)和循環(huán)層,從視頻中提取外觀特征和時(shí)空特征,并構(gòu)建混合網(wǎng)絡(luò)融合兩種類型的特征; Liu等[4]設(shè)計(jì)了一個(gè)質(zhì)量感知網(wǎng)絡(luò)(Quality Aware Network, QAN)用于聚合時(shí)序特征; Zhou等[5]提出用RNN和時(shí)間注意方法對(duì)行人進(jìn)行再識(shí)別; Karpathy等[6]設(shè)計(jì)了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)來(lái)提取特征,并使用時(shí)間池化方法來(lái)聚合特征。由于不同相機(jī)拍攝的視頻圖像會(huì)因光照變化、遮擋或人體姿勢(shì)變化等因素影響,目標(biāo)會(huì)出現(xiàn)較大的外觀變化,使得行人再識(shí)別仍然是一個(gè)具有挑戰(zhàn)性的問題。
本文針對(duì)行人再識(shí)別的準(zhǔn)確性,提出了一種基于時(shí)空正則化的行人再識(shí)別算法。利用ResNet-50網(wǎng)絡(luò)逐幀進(jìn)行特征提取,幀級(jí)特征經(jīng)過時(shí)空正則化網(wǎng)絡(luò)產(chǎn)生相應(yīng)的權(quán)重分?jǐn)?shù),通過加權(quán)平均將幀級(jí)特征融合為一個(gè)序列級(jí)特征; 同時(shí)使用幀級(jí)正則化避免權(quán)重分?jǐn)?shù)聚集在一幀,最終通過最小化損失函數(shù)找到最佳的識(shí)別結(jié)果。
1?相關(guān)工作
1.1?卷積神經(jīng)網(wǎng)絡(luò)
最近幾年,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得了出色的成績(jī)。與人工設(shè)計(jì)特征的方法相比,基于深度學(xué)習(xí)的方法可以從大量數(shù)據(jù)中自主學(xué)習(xí)得到圖像的特征信息,更加符合人工智能的要求。
在計(jì)算機(jī)視覺領(lǐng)域中,CNN是應(yīng)用最廣泛的深度學(xué)習(xí)模型之一, CNN通過在卷積層中的非線性疊加可以得到具有高級(jí)語(yǔ)義信息的特征,并且其每個(gè)卷積層都可以得到輸入圖像的不同特征表達(dá)。在行人再識(shí)別的過程中,利用CNN提取目標(biāo)行人更精準(zhǔn)和更具有判別性的特征,可以獲得更多關(guān)于目標(biāo)行人的信息,有利于提高識(shí)別結(jié)果的準(zhǔn)確性。
本文使用在ImageNet數(shù)據(jù)集[7]上預(yù)訓(xùn)練的ResNet-50[8]卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入的視頻序列進(jìn)行特征提取。ResNet-50網(wǎng)絡(luò)深度為50層,其中包含5個(gè)卷積層,即Conv1和4個(gè)具有殘差模塊的Conv2、Conv3、Conv4、Conv5。ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2?時(shí)間建模方法
近年來(lái)由于數(shù)據(jù)集規(guī)模不斷地?cái)U(kuò)大,基于視頻的行人再識(shí)別成為當(dāng)前研究的主流方向。與基于圖像的方法相比,基于視頻的方法可以有效地利用視頻序列中的時(shí)間信息。因?yàn)閿z像機(jī)拍攝的大部分都是時(shí)間連續(xù)的視頻,可以為行人再識(shí)別提供更多的信息。
基于視頻的行人再識(shí)別方法主要注重時(shí)間信息的整合,即通過時(shí)間建模的方法將幀級(jí)特征聚合為視頻序列級(jí)特征。首先,將輸入的視頻序列通過卷積神經(jīng)網(wǎng)絡(luò)提取幀級(jí)特征{ft},t∈[1,T],其中T表示視頻序列的幀數(shù);然后,利用時(shí)間建模方法將幀級(jí)特征{ft}聚合成單個(gè)特征f,用f表示視頻序列級(jí)特征;最后,通過最小化損失得到最優(yōu)的識(shí)別結(jié)果。圖2展示了基于時(shí)間建模方法的原理。
常用的時(shí)間建模方法有三種:時(shí)間池化、時(shí)間注意和RNN或其改進(jìn)模型長(zhǎng)短期記憶(Long ShortTerm Memory, LSTM)網(wǎng)絡(luò)。在時(shí)間池化模型[9]中,主要使用最大池化或平均池化。對(duì)于最大池化,f=maxft; 對(duì)于平均池化, f=1T∑Tt=1ft。但當(dāng)視頻中目標(biāo)行人經(jīng)常出現(xiàn)遮擋時(shí),這種方法通常會(huì)失敗。
RNN或LSTM模型中[10],將一系列幀級(jí)特征聚合成單個(gè)特征主要有兩種方法:第一種方法是直接在最后一個(gè)步驟采用隱藏狀態(tài)hT,即f=hT; 第二種方法是計(jì)算RNN的輸出{ot}的平均值,即f=1T∑Tt=1ot。但RNN或LSTM模型通常提取淺層特征,缺少對(duì)目標(biāo)的判別性表達(dá),并且難以在大型數(shù)據(jù)集中訓(xùn)練。
在基于時(shí)間注意的模型[11]中,主要使用加權(quán)平均法將幀級(jí)特征聚合為序列級(jí)特征,即f=1T∑Tt=1αt ft,其中αt為每幀的權(quán)重?;跁r(shí)間注意的方法可以很好地抑制噪聲的干擾(如遮擋等),并且它是現(xiàn)在最主流的方法之一。
2?本文方法
本文首先使用ResNet-50網(wǎng)絡(luò)對(duì)輸入的視頻序列逐幀進(jìn)行特征提取,將最后一個(gè)卷積層(Conv5)的特征輸入到時(shí)空正則化網(wǎng)絡(luò)并產(chǎn)生相應(yīng)的權(quán)重分?jǐn)?shù),通過對(duì)所有幀級(jí)特征加權(quán)平均得到視頻序列級(jí)特征。為了避免在注意圖轉(zhuǎn)換為權(quán)重分?jǐn)?shù)時(shí)聚焦于一幀而忽略其他幀,使用幀級(jí)正則化來(lái)限制幀間差異。最后將幀級(jí)正則化與三重?fù)p失函數(shù)、softmax交叉熵?fù)p失函數(shù)聯(lián)合起來(lái),用于訓(xùn)練整個(gè)網(wǎng)絡(luò)。本文方法的整體框圖如圖3所示。
2.1?特征提取
本文使用ResNet-50網(wǎng)絡(luò)對(duì)輸入的視頻序列進(jìn)行特征提取。通常,ResNet-50網(wǎng)絡(luò)使用一系列層處理圖像,其中每個(gè)單獨(dú)的層由卷積、池化和非線性激活函數(shù)等步驟組成。為了簡(jiǎn)化符號(hào),本文將ResNet-50網(wǎng)絡(luò)定義為函數(shù)fc=C(x),其將圖像x作為輸入并且產(chǎn)生特征作為輸出。
設(shè)I=I1,I2,…,IT是由行人圖像組成的長(zhǎng)度為T的視頻序列,其中It是目標(biāo)行人在時(shí)間t處的圖像。每個(gè)圖像It通過ResNet-50網(wǎng)絡(luò)之后產(chǎn)生幀級(jí)特征,即ft=C(It)。本文將視頻序列輸入到ResNet-50網(wǎng)絡(luò)中并輸出一系列幀級(jí)特征{ft}(t∈[1,T])。
2.2?時(shí)空正則化
ResNet-50網(wǎng)絡(luò)中最后一個(gè)卷積層(Conv5)的特征圖大小為W×H,其維度為D=2-048,H和W是特征圖的高度和寬度,H和W的大小取決于輸入圖像的尺寸。首先將幀級(jí)特征ft=(ft1, ft2,…, ftD)作為時(shí)空正則化網(wǎng)絡(luò)的輸入,將特征圖中的所有元素,針對(duì)每個(gè)特征通道d進(jìn)行空間正則化,生成相應(yīng)的注意圖gt:
gt=ftd/‖ft‖2(1)
其中‖ft‖2=(∑Dd=1ftd2)12是ft的L2范數(shù)。在經(jīng)過空間正則化之后,每幀都具有一個(gè)對(duì)應(yīng)的注意圖。然后將每幀注意圖中的所有元素針對(duì)每個(gè)特征通道d使用L1范數(shù)以獲得相應(yīng)的空間注意分?jǐn)?shù):
st=∑Dd=1∑m,n‖gdt(m,n)‖1(2)
其中m和n代表每幀注意圖中相應(yīng)的所有元素。因此,每幀都具有一個(gè)對(duì)應(yīng)的空間注意分?jǐn)?shù)st。
本文直接比較來(lái)自不同幀的空間注意分?jǐn)?shù)st(t∈[1,T]),并采用Sigmoid函數(shù)和L1歸一化計(jì)算時(shí)間注意分?jǐn)?shù):
αt=σ(st)/∑Tt=1σ(st)(3)
其中σ表示Sigmoid函數(shù)。最后,為每幀分配一個(gè)特定的權(quán)重分?jǐn)?shù)αt,通過加權(quán)平均得到視頻序列級(jí)特征f:
f=1T∑Tt=1αt ft(4)
2.3?幀級(jí)正則化
對(duì)于基于視頻的行人再識(shí)別而言,來(lái)自同一視頻序列的行人圖像應(yīng)代表同一人的外觀,但是在注意圖轉(zhuǎn)換為注意分?jǐn)?shù)時(shí),會(huì)出現(xiàn)注意分?jǐn)?shù)集中在一個(gè)特定幀上并且在很大程度上忽略其他幀的情況。為了限制幀間差異,避免注意分?jǐn)?shù)聚集在一幀,本文從視頻序列的T幀中隨機(jī)選擇兩幀i和j,并使用Frobenius范數(shù)對(duì)幀級(jí)注意圖進(jìn)行正則化:
Fi,j=‖gi-gj‖F(xiàn)=
∑Dd=1∑m,ngdi(m,n)-gdj(m,n)2(5)
其中g(shù)i和gj是由式(1)產(chǎn)生的注意圖。將所有正則化項(xiàng)Fi, j乘以一個(gè)常數(shù)β后加到式(9)中來(lái)最小化損失:
minLtotal+Ti=j=1i≠jβ·Fi, j(6)
2.4?損失函數(shù)
本文使用三重?fù)p失函數(shù)和softmax交叉熵?fù)p失函數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò)。
三重?fù)p失函數(shù)最初是Hermans等[12]提出的,是原始的三重?fù)p失(semihard triplet loss)的改進(jìn)版。本文為每個(gè)小批量(minibatch)隨機(jī)抽取P個(gè)身份,并為每個(gè)身份隨機(jī)抽取K個(gè)視頻序列(每個(gè)序列包含T幀),以滿足三重?fù)p失函數(shù)要求。三重?fù)p失函數(shù)可以表述如下:
Ltriplet=Pi=1∑Ka=1all anchors[α+maxp=1,2,…,K‖f(i)a-f(i)p‖2hardest positive-
minn=1,2,…,K, j=1,2,…,P, j≠i‖f(i)a-f(j)n‖2hardest negative]+(7)
其中:f(i)a、 f(i)p和f(j)n分別是從目標(biāo)樣本、正樣本和負(fù)樣本中提取的特征; α是用于控制樣本內(nèi)部距離的超參數(shù)。正樣本和負(fù)樣本指的是與目標(biāo)樣本具有相同身份和不同身份的行人。
除了使用三重?fù)p失函數(shù)以外,本文還采用softmax交叉熵?fù)p失進(jìn)行判別性學(xué)習(xí)。softmax交叉熵?fù)p失函數(shù)可以表述如下:
Lsoftmax=-1PK∑Pi=1∑Ka=1pi,algqi,a(8)
其中pi,a和qi,a是樣本{i,a}的真實(shí)身份和預(yù)測(cè)。
總損失函數(shù)Ltotal是softmax損失和triplet損失的組合,如式(9)所示:
Ltotal=Lsoftmax+Ltriplet(9)
3?實(shí)驗(yàn)與結(jié)果
3.1?實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
本文使用Python語(yǔ)言進(jìn)行編程,實(shí)驗(yàn)環(huán)境為pytorch。所有實(shí)驗(yàn)都在Windows 10系統(tǒng),NVIDIA GTX 1060 GPU的電腦上完成。視頻序列的大小調(diào)整為256×128。首先從輸入的視頻序列中隨機(jī)選擇T=4幀,然后隨機(jī)選擇P=4個(gè)身份對(duì)每個(gè)小批量(minibatch)進(jìn)行采樣,并從訓(xùn)練集中為每個(gè)身份隨機(jī)抽取K=4個(gè)視頻序列,批量大?。╞atch size)為32。學(xué)習(xí)率為0.000-3,三重?fù)p失函數(shù)的margin參數(shù)設(shè)置為0.3。在訓(xùn)練期間,采用Adam[13]優(yōu)化網(wǎng)絡(luò)。
3.2?數(shù)據(jù)集
運(yùn)動(dòng)分析和再識(shí)別數(shù)據(jù)集(Motion Analysis and Reidentification Set, MARS)[14]包含1-261個(gè)身份和大約20-000個(gè)視頻序列,是迄今為止最大的視頻行人再識(shí)別數(shù)據(jù)集之一。這些序列至少由2個(gè)攝像機(jī)捕獲,最多由6個(gè)攝像機(jī)捕獲,每個(gè)身份平均有13.2個(gè)序列。此外,數(shù)據(jù)集固定地分為訓(xùn)練集和測(cè)試集,用于訓(xùn)練的身份為625個(gè),用于測(cè)試的身份為626個(gè),其中還包含3-248個(gè)干擾序列。
DukeMTMCReID數(shù)據(jù)集[15]源自DukeMTMC數(shù)據(jù)集[16],也是一個(gè)大規(guī)模的行人再識(shí)別數(shù)據(jù)集。它由8個(gè)攝像機(jī)捕獲的1-812個(gè)身份組成,其中1-404個(gè)身份出現(xiàn)在兩個(gè)以上的攝像機(jī)中,其余的408個(gè)是干擾身份。數(shù)據(jù)集固定地分為訓(xùn)練集和測(cè)試集,都有702個(gè)身份。
3.3?評(píng)價(jià)指標(biāo)
為了評(píng)估本文的方法,使用累積匹配特征(Cumulative Matching Characteristic, CMC)曲線和平均精度(mean Average Precision, mAP)作為本實(shí)驗(yàn)中的評(píng)價(jià)指標(biāo)。CMC曲線表示行人識(shí)別的準(zhǔn)確性,本文使用Rank1、Rank-5、Rank10和Rank20的得分代表CMC曲線。當(dāng)每次識(shí)別僅對(duì)應(yīng)視頻序列中的一個(gè)目標(biāo)時(shí),CMC指標(biāo)是有效的, 但是當(dāng)視頻中存在多個(gè)目標(biāo)時(shí),CMC指標(biāo)是有偏差的。DukeMTMCReID和MARS數(shù)據(jù)集在使用CMC曲線作為評(píng)價(jià)指標(biāo)的同時(shí),也采用mAP作為評(píng)價(jià)指標(biāo)。相比之下,mAP是一個(gè)更具有綜合性的指標(biāo),非常適合單目標(biāo)和多目標(biāo)的再識(shí)別。
3.4?在MARS和DukeMTMCReID數(shù)據(jù)集中評(píng)估
為了驗(yàn)證本文方法的有效性,在MARS數(shù)據(jù)集中進(jìn)行了測(cè)試與分析。本文選取了4個(gè)具有代表性的視頻序列,如圖4所示,其中:query表示待識(shí)別的目標(biāo)行人; 數(shù)字1~10表示Rank1到Rank10; 黑色實(shí)線框代表正樣本(與目標(biāo)具有相同身份的人),即識(shí)別正確; 無(wú)框代表負(fù)樣本(與目標(biāo)具有不同身份的人),即匹配錯(cuò)誤。
從圖4(a)中可以看出,本文方法成功識(shí)別不同視角的所有候選者;在圖4(b)中本文方法也成功找到了最高等級(jí)的正確候選者;圖4(c)受到明顯的光照變化的影響;圖4(d)包含與待識(shí)別目標(biāo)具有相似外觀行人的干擾。實(shí)驗(yàn)結(jié)果表明本文方法對(duì)于人體姿勢(shì)變化、視角變化、光照變化和相似外觀目標(biāo)的干擾都具有出色的性能表現(xiàn)。
表1列出了本文方法中各個(gè)組成部分的性能比較結(jié)果,其中:Baseline對(duì)應(yīng)于在DukeMTMCReID和MARS數(shù)據(jù)集上使用softmax交叉熵?fù)p失函數(shù)訓(xùn)練的基礎(chǔ)的網(wǎng)絡(luò)模型; Triplet、STR(SpatialTemporal Regularization)和FLR(FrameLevel Regularization)分別代表三重?fù)p失函數(shù)、時(shí)空正則化和幀級(jí)正則化。Baseline+Triplet代表用三重?fù)p失函數(shù)和softmax交叉熵?fù)p失函數(shù)訓(xùn)練的網(wǎng)絡(luò)。在MARS數(shù)據(jù)集中,與Baseline+Triplet相比,STR在mAP方面提高了2.5個(gè)百分點(diǎn),在Rank1準(zhǔn)確率方面提高了3.3個(gè)百分點(diǎn)。與Baseline+Triplet+STR相比,F(xiàn)LR方法在mAP方面提高了1.7個(gè)百分點(diǎn),在Rank1準(zhǔn)確率方面提高了2.7個(gè)百分點(diǎn)。在DukeMTMCReID數(shù)據(jù)集中,STR在mAP方面提高了1.7個(gè)百分點(diǎn),在Rank1準(zhǔn)確率方面提高了4.8個(gè)百分點(diǎn)。而FLR在mAP方面提高了1.2個(gè)百分點(diǎn),在Rank1準(zhǔn)確率上提高了1.8個(gè)百分點(diǎn)。結(jié)果表明空間正則化方法有助于提高行人再識(shí)別的準(zhǔn)確性,幀級(jí)正則化方法可以平衡幀間差異,進(jìn)一步提高整體的性能。
表2展示了輸入不同長(zhǎng)度視頻序列的性能比較。為了公平比較,本文除了改變視頻序列的長(zhǎng)度T以外,其他的參數(shù)均保持不變。T=1是不使用時(shí)間建模方法的單幅圖像的模型。從表2中可以看出,隨著序列長(zhǎng)度T的增加,mAP和Rank準(zhǔn)確率得分均有所提高, 這表明時(shí)間建模方法對(duì)于提高行人再識(shí)別的準(zhǔn)確性是有效的。當(dāng)T=4時(shí),本文方法的整體性能表現(xiàn)最佳。T=4時(shí),在MARS數(shù)據(jù)集中本文方法的Rank1準(zhǔn)確率為82.1%,mAP為72.3%;而在DukeMTMCReID數(shù)據(jù)集中本文方法的Rank1準(zhǔn)確率為80.0%,mAP為61.2%。
為了進(jìn)行公平的比較,本文使用相同的基礎(chǔ)模型與現(xiàn)有的方法進(jìn)行對(duì)比。表3列出了本文方法與MARS中其他方法的比較,其中“—”表示論文作者沒有進(jìn)行對(duì)應(yīng)的實(shí)驗(yàn)(下同)。本文方法的mAP為72.3%,與Triplet[12]相比提高了4.6個(gè)百分點(diǎn),與CSACSE(Competitive Snippetsimilarity Aggregation and Coattentive Snippet Embedding)方法[22]相比提高了2.9個(gè)百分點(diǎn),與MSML(Margin Sample Mining Loss)方法[18]相比提高了0.3個(gè)百分點(diǎn)。Rank1準(zhǔn)確率為 82.1%,相對(duì)于Triplet 提高了2.3個(gè)百分點(diǎn),相對(duì)于CSACSE提高了0.9個(gè)百分點(diǎn)。對(duì)于Rank-5和Rank20而言,本文方法也取得了出色的成績(jī)。在Rank10方面,準(zhǔn)確率為93.1%。
表4列出了本文方法與DukeMTMCReID中其他方法的比較, 該數(shù)據(jù)集比MARS更具有挑戰(zhàn)性,因?yàn)樗南鄼C(jī)視域更寬,場(chǎng)景更復(fù)雜,行人圖像在分辨率和背景方面變化很大。表4中列出了本文方法的mAP和Rank1準(zhǔn)確率分別為61.2%和80.0%,與APR方法相比[21]均提高了9.3個(gè)百分點(diǎn),與其他方法相比并沒有明顯的提高。但是本文方法的模型更加簡(jiǎn)單、且易于訓(xùn)練。表4還列出了本文方法的Rank-5和Rank20準(zhǔn)確率分別為88.8%和93.7%。
4?結(jié)語(yǔ)
本文主要對(duì)基于視頻的行人再識(shí)別進(jìn)行了分析和研究。實(shí)驗(yàn)結(jié)果表明,時(shí)間建模方法對(duì)于提高視頻中行人再識(shí)別的準(zhǔn)確性是有效的。本文還提出了時(shí)空正則化和幀級(jí)正則化策略,進(jìn)一步提高了行人再識(shí)別的準(zhǔn)確性。在DukeMTMCReID和MARS數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果清楚地證明了本文方法的整體有效性。未來(lái)的主要工作是將本文方法與目標(biāo)檢測(cè)或跟蹤算法相結(jié)合應(yīng)用于實(shí)際的多攝像機(jī)監(jiān)控環(huán)境,實(shí)現(xiàn)對(duì)目標(biāo)行人準(zhǔn)確的識(shí)別和連續(xù)、穩(wěn)定的跟蹤。
參考文獻(xiàn) (References)
[1]李幼蛟,卓力,張菁,等.行人再識(shí)別技術(shù)綜述[J].自動(dòng)化學(xué)報(bào), 2018, 44(9): 1554-1568. (LI Y J, ZHUO L, ZHANG J, et al. A survey of person reidentification[J]. Acta Automatica Sinica, 2018, 44(9): 1554-1568.)
[2]MCLAUGHLIN N, DEL RINCON J M, MILLER P. Recurrent convolutional network for videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1325-1334.
[3]WU Z, WANG X, JIANG Y G, et al. Modeling spatialtemporal clues in a hybrid deep learning framework for video classification[C]// Proceedings of the 23rd ACM International Conference on Multimedia. New York: ACM, 2015: 461-470.
[4]LIU Y, YAN J, OUYANG W. Quality aware network for set to set recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4694-4703.
[5]ZHOU Z, HUANG Y, WANG W, et al. See the forest for the trees: Joint spatial and temporal recurrent neural networks for videobased person reidentification[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4747-4756.
[6]KARPATHY A, TODERICI G, SHETTY S, et al. Largescale video classification with convolutional neural networks[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1725-1732.
[7]DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.
[8]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[9]YOU J, WU A, LI X, et al. Toppush videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1345-1353.
[10]YAN Y, NI B, SONG Z, et al. Person reidentification via recurrent feature aggregation[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 701-716.
[11]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]// Proceedings of the 32nd International Conference on Machine Learning. [S. l.]: International Machine Learning Society, 2015: 2048-2057.
[12]HERMANS A, BEYR L, LEIBE B. In defense of the triplet loss for person reidentification[EB/OL].[2017-11-21]. http://arxiv.org/pdf/1703.07737.
[13]KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2017-01-30]. http://csce.uark.edu/~mgashler/ml/2018_spring/r3/adam.pdf.
[14]ZHENG L, BIE Z, SUN Y, et al. Mars: a video benchmark for largescale person reidentification[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 868-884.
[15]ZHENG Z, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person reidentification baseline in vitro[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 3754-3762.
[16]RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multitarget, multicamera tracking[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 17-35.
[17]LI D, CHEN X, ZHANG Z, et al. Learning deep contextaware features over body and latent parts for person reidentification[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 384-393.
[18]XIAO Q, LUO H, ZHANG C. Margin sample mining loss: a deep learning based method for person reidentification[EB/OL]. [2017-10-07]. http://arxiv.org/pdf/1710.00478.
[19]LI S, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for videobased person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 369-378.
[20]LI W, ZHU X, GONG S. Harmonious attention network for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2285-2294.
[21]LIN Y, ZHENG L, ZHENG Z, et al. Improving person reidentification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151-161.
[22]CHEN D, LI H, XIAO T, et al. Video person reidentification with competitive snippetsimilarity aggregation and coattentive snippet embedding[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 1169-1178.
[23]CHANG X, HOSPEDALES T M, XIANG T. Multilevel factorisation net for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2109-2118.
[24]CHEN Y, ZHU X, GONG S. Person reidentification by deep learning multiscale representations[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2590-2600.
[25]李姣,張曉暉,朱虹,等.多置信度重排序的行人再識(shí)別算法[J].模式識(shí)別與人工智能, 2017, 30(11): 995-1002. (LI J, ZHANG X H, ZHU H, et al. Person reidentification via multiple confidences reranking[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(11): 995-1002.)
This work is partially supported by the Science and Technology Support Project of Jilin Province (20180201091GX), the Project of Jilin Provincial Science and Technology Innovation Center (20180623039TC).
LIU Baocheng, born in 1995, M. S. candidate. His research interests include machine learning, computer vision.
PIAO Yan, born in 1965, Ph. D., professor. Her research interests include computer vision, pattern recognition.
TANG Yue, born in 1994, M. S. candidate. Her research interests include deep learning, computer vision.
摘 要:由于現(xiàn)實(shí)復(fù)雜情況中各種因素的干擾,行人再識(shí)別的過程中可能出現(xiàn)識(shí)別錯(cuò)誤等問題。為了提高行人再識(shí)別的準(zhǔn)確性,提出了一種基于時(shí)空正則化的行人再識(shí)別算法。首先,利用ResNet-50網(wǎng)絡(luò)對(duì)輸入的視頻序列逐幀進(jìn)行特征提取,將一系列幀級(jí)特征輸入到時(shí)空正則化網(wǎng)絡(luò)并產(chǎn)生對(duì)應(yīng)的權(quán)重分?jǐn)?shù); 然后,對(duì)幀級(jí)特征使用加權(quán)平均得到視頻序列級(jí)特征, 為避免權(quán)重分?jǐn)?shù)聚集在一幀,使用幀級(jí)正則化來(lái)限制幀間差異;最后, 通過最小化損失得到最優(yōu)結(jié)果。在DukeMTMCReID和MARS數(shù)據(jù)集中做了大量的測(cè)試,實(shí)驗(yàn)結(jié)果表明,所提方法與Triplet算法相比能夠有效提高行人再識(shí)別的平均精度(mAP)和準(zhǔn)確率,并且對(duì)于人體姿勢(shì)變化、視角變化和相似外觀目標(biāo)的干擾具有出色的性能表現(xiàn)。
關(guān)鍵詞:機(jī)器視覺;行人再識(shí)別;注意力機(jī)制;卷積神經(jīng)網(wǎng)絡(luò);時(shí)間建模
中圖分類號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:A
Person reidentification in video sequence based on spatialtemporal regularization
LIU Baocheng, PIAO Yan*, TANG Yue
College of Electronic Information Engineering, Changchun University of Science and Technology, Changchun Jilin 130012, China
Abstract:
Due to the interference of various factors in the complex situation of reality, the errors may occur in the person reidentification. To improve the accuracy of person reidentification, a person reidentification algorithm based on spatialtemporal regularization was proposed. Firstly, the ResNet50 network was used to extract the features of the input video sequence frame by frame, and the series of framelevel features were input into the spatialtemporal regularization network to generate corresponding weight scores. Then the weighted average was performed on the framelevel features to obtain the sequencelevel features. To avoid weight scores from being aggregated in one frame, framelevel regularization was used to limit the difference between frames. Finally, the optimal results were obtained by minimizing the losses. A large number of tests were performed on MARS and DukeMTMCReID datasets. The experimental results show that the mean Average Precision (mAP) and the accuracy can be effectively improved by the proposed algorithm compared with Triplet algorithm. And the proposed algorithm has excellent performance for human posture variation, viewing angle changes and interference with similar appearance targets.
Key words:
machine vision; person reidentification; attention mechanism; Convolutional Neural Network (CNN); temporal modeling
0?引言
近年來(lái),隨著智能視頻分析的迅速發(fā)展和國(guó)家對(duì)公共安防監(jiān)控的重視,行人再識(shí)別技術(shù)已成為視頻監(jiān)控領(lǐng)域中至關(guān)重要的一部分[1]。行人再識(shí)別來(lái)源于多攝像機(jī)目標(biāo)跟蹤,主要處理非重疊攝像機(jī)間重新確定特定行人的問題,即判斷在不同時(shí)間、不同地點(diǎn)出現(xiàn)在不同攝像機(jī)的行人是否為同一個(gè)人。
基于視頻的行人再識(shí)別是當(dāng)前研究的熱點(diǎn),現(xiàn)階段的大多數(shù)方法都是基于深度神經(jīng)網(wǎng)絡(luò)和時(shí)間信息建模: McLaughlin等[2]首先提出通過循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)對(duì)幀之間的時(shí)間信息建模; Wu等[3]通過訓(xùn)練卷積網(wǎng)絡(luò)和循環(huán)層,從視頻中提取外觀特征和時(shí)空特征,并構(gòu)建混合網(wǎng)絡(luò)融合兩種類型的特征; Liu等[4]設(shè)計(jì)了一個(gè)質(zhì)量感知網(wǎng)絡(luò)(Quality Aware Network, QAN)用于聚合時(shí)序特征; Zhou等[5]提出用RNN和時(shí)間注意方法對(duì)行人進(jìn)行再識(shí)別; Karpathy等[6]設(shè)計(jì)了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)來(lái)提取特征,并使用時(shí)間池化方法來(lái)聚合特征。由于不同相機(jī)拍攝的視頻圖像會(huì)因光照變化、遮擋或人體姿勢(shì)變化等因素影響,目標(biāo)會(huì)出現(xiàn)較大的外觀變化,使得行人再識(shí)別仍然是一個(gè)具有挑戰(zhàn)性的問題。
本文針對(duì)行人再識(shí)別的準(zhǔn)確性,提出了一種基于時(shí)空正則化的行人再識(shí)別算法。利用ResNet-50網(wǎng)絡(luò)逐幀進(jìn)行特征提取,幀級(jí)特征經(jīng)過時(shí)空正則化網(wǎng)絡(luò)產(chǎn)生相應(yīng)的權(quán)重分?jǐn)?shù),通過加權(quán)平均將幀級(jí)特征融合為一個(gè)序列級(jí)特征; 同時(shí)使用幀級(jí)正則化避免權(quán)重分?jǐn)?shù)聚集在一幀,最終通過最小化損失函數(shù)找到最佳的識(shí)別結(jié)果。
1?相關(guān)工作
1.1?卷積神經(jīng)網(wǎng)絡(luò)
最近幾年,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得了出色的成績(jī)。與人工設(shè)計(jì)特征的方法相比,基于深度學(xué)習(xí)的方法可以從大量數(shù)據(jù)中自主學(xué)習(xí)得到圖像的特征信息,更加符合人工智能的要求。
在計(jì)算機(jī)視覺領(lǐng)域中,CNN是應(yīng)用最廣泛的深度學(xué)習(xí)模型之一, CNN通過在卷積層中的非線性疊加可以得到具有高級(jí)語(yǔ)義信息的特征,并且其每個(gè)卷積層都可以得到輸入圖像的不同特征表達(dá)。在行人再識(shí)別的過程中,利用CNN提取目標(biāo)行人更精準(zhǔn)和更具有判別性的特征,可以獲得更多關(guān)于目標(biāo)行人的信息,有利于提高識(shí)別結(jié)果的準(zhǔn)確性。
本文使用在ImageNet數(shù)據(jù)集[7]上預(yù)訓(xùn)練的ResNet-50[8]卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入的視頻序列進(jìn)行特征提取。ResNet-50網(wǎng)絡(luò)深度為50層,其中包含5個(gè)卷積層,即Conv1和4個(gè)具有殘差模塊的Conv2、Conv3、Conv4、Conv5。ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2?時(shí)間建模方法
近年來(lái)由于數(shù)據(jù)集規(guī)模不斷地?cái)U(kuò)大,基于視頻的行人再識(shí)別成為當(dāng)前研究的主流方向。與基于圖像的方法相比,基于視頻的方法可以有效地利用視頻序列中的時(shí)間信息。因?yàn)閿z像機(jī)拍攝的大部分都是時(shí)間連續(xù)的視頻,可以為行人再識(shí)別提供更多的信息。
基于視頻的行人再識(shí)別方法主要注重時(shí)間信息的整合,即通過時(shí)間建模的方法將幀級(jí)特征聚合為視頻序列級(jí)特征。首先,將輸入的視頻序列通過卷積神經(jīng)網(wǎng)絡(luò)提取幀級(jí)特征{ft},t∈[1,T],其中T表示視頻序列的幀數(shù);然后,利用時(shí)間建模方法將幀級(jí)特征{ft}聚合成單個(gè)特征f,用f表示視頻序列級(jí)特征;最后,通過最小化損失得到最優(yōu)的識(shí)別結(jié)果。圖2展示了基于時(shí)間建模方法的原理。
常用的時(shí)間建模方法有三種:時(shí)間池化、時(shí)間注意和RNN或其改進(jìn)模型長(zhǎng)短期記憶(Long ShortTerm Memory, LSTM)網(wǎng)絡(luò)。在時(shí)間池化模型[9]中,主要使用最大池化或平均池化。對(duì)于最大池化,f=maxft; 對(duì)于平均池化, f=1T∑Tt=1ft。但當(dāng)視頻中目標(biāo)行人經(jīng)常出現(xiàn)遮擋時(shí),這種方法通常會(huì)失敗。
RNN或LSTM模型中[10],將一系列幀級(jí)特征聚合成單個(gè)特征主要有兩種方法:第一種方法是直接在最后一個(gè)步驟采用隱藏狀態(tài)hT,即f=hT; 第二種方法是計(jì)算RNN的輸出{ot}的平均值,即f=1T∑Tt=1ot。但RNN或LSTM模型通常提取淺層特征,缺少對(duì)目標(biāo)的判別性表達(dá),并且難以在大型數(shù)據(jù)集中訓(xùn)練。
在基于時(shí)間注意的模型[11]中,主要使用加權(quán)平均法將幀級(jí)特征聚合為序列級(jí)特征,即f=1T∑Tt=1αt ft,其中αt為每幀的權(quán)重。基于時(shí)間注意的方法可以很好地抑制噪聲的干擾(如遮擋等),并且它是現(xiàn)在最主流的方法之一。
2?本文方法
本文首先使用ResNet-50網(wǎng)絡(luò)對(duì)輸入的視頻序列逐幀進(jìn)行特征提取,將最后一個(gè)卷積層(Conv5)的特征輸入到時(shí)空正則化網(wǎng)絡(luò)并產(chǎn)生相應(yīng)的權(quán)重分?jǐn)?shù),通過對(duì)所有幀級(jí)特征加權(quán)平均得到視頻序列級(jí)特征。為了避免在注意圖轉(zhuǎn)換為權(quán)重分?jǐn)?shù)時(shí)聚焦于一幀而忽略其他幀,使用幀級(jí)正則化來(lái)限制幀間差異。最后將幀級(jí)正則化與三重?fù)p失函數(shù)、softmax交叉熵?fù)p失函數(shù)聯(lián)合起來(lái),用于訓(xùn)練整個(gè)網(wǎng)絡(luò)。本文方法的整體框圖如圖3所示。
2.1?特征提取
本文使用ResNet-50網(wǎng)絡(luò)對(duì)輸入的視頻序列進(jìn)行特征提取。通常,ResNet-50網(wǎng)絡(luò)使用一系列層處理圖像,其中每個(gè)單獨(dú)的層由卷積、池化和非線性激活函數(shù)等步驟組成。為了簡(jiǎn)化符號(hào),本文將ResNet-50網(wǎng)絡(luò)定義為函數(shù)fc=C(x),其將圖像x作為輸入并且產(chǎn)生特征作為輸出。
設(shè)I=I1,I2,…,IT是由行人圖像組成的長(zhǎng)度為T的視頻序列,其中It是目標(biāo)行人在時(shí)間t處的圖像。每個(gè)圖像It通過ResNet-50網(wǎng)絡(luò)之后產(chǎn)生幀級(jí)特征,即ft=C(It)。本文將視頻序列輸入到ResNet-50網(wǎng)絡(luò)中并輸出一系列幀級(jí)特征{ft}(t∈[1,T])。
2.2?時(shí)空正則化
ResNet-50網(wǎng)絡(luò)中最后一個(gè)卷積層(Conv5)的特征圖大小為W×H,其維度為D=2-048,H和W是特征圖的高度和寬度,H和W的大小取決于輸入圖像的尺寸。首先將幀級(jí)特征ft=(ft1, ft2,…, ftD)作為時(shí)空正則化網(wǎng)絡(luò)的輸入,將特征圖中的所有元素,針對(duì)每個(gè)特征通道d進(jìn)行空間正則化,生成相應(yīng)的注意圖gt:
gt=ftd/‖ft‖2(1)
其中‖ft‖2=(∑Dd=1ftd2)12是ft的L2范數(shù)。在經(jīng)過空間正則化之后,每幀都具有一個(gè)對(duì)應(yīng)的注意圖。然后將每幀注意圖中的所有元素針對(duì)每個(gè)特征通道d使用L1范數(shù)以獲得相應(yīng)的空間注意分?jǐn)?shù):
st=∑Dd=1∑m,n‖gdt(m,n)‖1(2)
其中m和n代表每幀注意圖中相應(yīng)的所有元素。因此,每幀都具有一個(gè)對(duì)應(yīng)的空間注意分?jǐn)?shù)st。
本文直接比較來(lái)自不同幀的空間注意分?jǐn)?shù)st(t∈[1,T]),并采用Sigmoid函數(shù)和L1歸一化計(jì)算時(shí)間注意分?jǐn)?shù):
αt=σ(st)/∑Tt=1σ(st)(3)
其中σ表示Sigmoid函數(shù)。最后,為每幀分配一個(gè)特定的權(quán)重分?jǐn)?shù)αt,通過加權(quán)平均得到視頻序列級(jí)特征f:
f=1T∑Tt=1αt ft(4)
2.3?幀級(jí)正則化
對(duì)于基于視頻的行人再識(shí)別而言,來(lái)自同一視頻序列的行人圖像應(yīng)代表同一人的外觀,但是在注意圖轉(zhuǎn)換為注意分?jǐn)?shù)時(shí),會(huì)出現(xiàn)注意分?jǐn)?shù)集中在一個(gè)特定幀上并且在很大程度上忽略其他幀的情況。為了限制幀間差異,避免注意分?jǐn)?shù)聚集在一幀,本文從視頻序列的T幀中隨機(jī)選擇兩幀i和j,并使用Frobenius范數(shù)對(duì)幀級(jí)注意圖進(jìn)行正則化:
Fi,j=‖gi-gj‖F(xiàn)=
∑Dd=1∑m,ngdi(m,n)-gdj(m,n)2(5)
其中g(shù)i和gj是由式(1)產(chǎn)生的注意圖。將所有正則化項(xiàng)Fi, j乘以一個(gè)常數(shù)β后加到式(9)中來(lái)最小化損失:
minLtotal+Ti=j=1i≠jβ·Fi, j(6)
2.4?損失函數(shù)
本文使用三重?fù)p失函數(shù)和softmax交叉熵?fù)p失函數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò)。
三重?fù)p失函數(shù)最初是Hermans等[12]提出的,是原始的三重?fù)p失(semihard triplet loss)的改進(jìn)版。本文為每個(gè)小批量(minibatch)隨機(jī)抽取P個(gè)身份,并為每個(gè)身份隨機(jī)抽取K個(gè)視頻序列(每個(gè)序列包含T幀),以滿足三重?fù)p失函數(shù)要求。三重?fù)p失函數(shù)可以表述如下:
Ltriplet=Pi=1∑Ka=1all anchors[α+maxp=1,2,…,K‖f(i)a-f(i)p‖2hardest positive-
minn=1,2,…,K, j=1,2,…,P, j≠i‖f(i)a-f(j)n‖2hardest negative]+(7)
其中:f(i)a、 f(i)p和f(j)n分別是從目標(biāo)樣本、正樣本和負(fù)樣本中提取的特征; α是用于控制樣本內(nèi)部距離的超參數(shù)。正樣本和負(fù)樣本指的是與目標(biāo)樣本具有相同身份和不同身份的行人。
除了使用三重?fù)p失函數(shù)以外,本文還采用softmax交叉熵?fù)p失進(jìn)行判別性學(xué)習(xí)。softmax交叉熵?fù)p失函數(shù)可以表述如下:
Lsoftmax=-1PK∑Pi=1∑Ka=1pi,algqi,a(8)
其中pi,a和qi,a是樣本{i,a}的真實(shí)身份和預(yù)測(cè)。
總損失函數(shù)Ltotal是softmax損失和triplet損失的組合,如式(9)所示:
Ltotal=Lsoftmax+Ltriplet(9)
3?實(shí)驗(yàn)與結(jié)果
3.1?實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
本文使用Python語(yǔ)言進(jìn)行編程,實(shí)驗(yàn)環(huán)境為pytorch。所有實(shí)驗(yàn)都在Windows 10系統(tǒng),NVIDIA GTX 1060 GPU的電腦上完成。視頻序列的大小調(diào)整為256×128。首先從輸入的視頻序列中隨機(jī)選擇T=4幀,然后隨機(jī)選擇P=4個(gè)身份對(duì)每個(gè)小批量(minibatch)進(jìn)行采樣,并從訓(xùn)練集中為每個(gè)身份隨機(jī)抽取K=4個(gè)視頻序列,批量大?。╞atch size)為32。學(xué)習(xí)率為0.000-3,三重?fù)p失函數(shù)的margin參數(shù)設(shè)置為0.3。在訓(xùn)練期間,采用Adam[13]優(yōu)化網(wǎng)絡(luò)。
3.2?數(shù)據(jù)集
運(yùn)動(dòng)分析和再識(shí)別數(shù)據(jù)集(Motion Analysis and Reidentification Set, MARS)[14]包含1-261個(gè)身份和大約20-000個(gè)視頻序列,是迄今為止最大的視頻行人再識(shí)別數(shù)據(jù)集之一。這些序列至少由2個(gè)攝像機(jī)捕獲,最多由6個(gè)攝像機(jī)捕獲,每個(gè)身份平均有13.2個(gè)序列。此外,數(shù)據(jù)集固定地分為訓(xùn)練集和測(cè)試集,用于訓(xùn)練的身份為625個(gè),用于測(cè)試的身份為626個(gè),其中還包含3-248個(gè)干擾序列。
DukeMTMCReID數(shù)據(jù)集[15]源自DukeMTMC數(shù)據(jù)集[16],也是一個(gè)大規(guī)模的行人再識(shí)別數(shù)據(jù)集。它由8個(gè)攝像機(jī)捕獲的1-812個(gè)身份組成,其中1-404個(gè)身份出現(xiàn)在兩個(gè)以上的攝像機(jī)中,其余的408個(gè)是干擾身份。數(shù)據(jù)集固定地分為訓(xùn)練集和測(cè)試集,都有702個(gè)身份。
3.3?評(píng)價(jià)指標(biāo)
為了評(píng)估本文的方法,使用累積匹配特征(Cumulative Matching Characteristic, CMC)曲線和平均精度(mean Average Precision, mAP)作為本實(shí)驗(yàn)中的評(píng)價(jià)指標(biāo)。CMC曲線表示行人識(shí)別的準(zhǔn)確性,本文使用Rank1、Rank-5、Rank10和Rank20的得分代表CMC曲線。當(dāng)每次識(shí)別僅對(duì)應(yīng)視頻序列中的一個(gè)目標(biāo)時(shí),CMC指標(biāo)是有效的, 但是當(dāng)視頻中存在多個(gè)目標(biāo)時(shí),CMC指標(biāo)是有偏差的。DukeMTMCReID和MARS數(shù)據(jù)集在使用CMC曲線作為評(píng)價(jià)指標(biāo)的同時(shí),也采用mAP作為評(píng)價(jià)指標(biāo)。相比之下,mAP是一個(gè)更具有綜合性的指標(biāo),非常適合單目標(biāo)和多目標(biāo)的再識(shí)別。
3.4?在MARS和DukeMTMCReID數(shù)據(jù)集中評(píng)估
為了驗(yàn)證本文方法的有效性,在MARS數(shù)據(jù)集中進(jìn)行了測(cè)試與分析。本文選取了4個(gè)具有代表性的視頻序列,如圖4所示,其中:query表示待識(shí)別的目標(biāo)行人; 數(shù)字1~10表示Rank1到Rank10; 黑色實(shí)線框代表正樣本(與目標(biāo)具有相同身份的人),即識(shí)別正確; 無(wú)框代表負(fù)樣本(與目標(biāo)具有不同身份的人),即匹配錯(cuò)誤。
從圖4(a)中可以看出,本文方法成功識(shí)別不同視角的所有候選者;在圖4(b)中本文方法也成功找到了最高等級(jí)的正確候選者;圖4(c)受到明顯的光照變化的影響;圖4(d)包含與待識(shí)別目標(biāo)具有相似外觀行人的干擾。實(shí)驗(yàn)結(jié)果表明本文方法對(duì)于人體姿勢(shì)變化、視角變化、光照變化和相似外觀目標(biāo)的干擾都具有出色的性能表現(xiàn)。
表1列出了本文方法中各個(gè)組成部分的性能比較結(jié)果,其中:Baseline對(duì)應(yīng)于在DukeMTMCReID和MARS數(shù)據(jù)集上使用softmax交叉熵?fù)p失函數(shù)訓(xùn)練的基礎(chǔ)的網(wǎng)絡(luò)模型; Triplet、STR(SpatialTemporal Regularization)和FLR(FrameLevel Regularization)分別代表三重?fù)p失函數(shù)、時(shí)空正則化和幀級(jí)正則化。Baseline+Triplet代表用三重?fù)p失函數(shù)和softmax交叉熵?fù)p失函數(shù)訓(xùn)練的網(wǎng)絡(luò)。在MARS數(shù)據(jù)集中,與Baseline+Triplet相比,STR在mAP方面提高了2.5個(gè)百分點(diǎn),在Rank1準(zhǔn)確率方面提高了3.3個(gè)百分點(diǎn)。與Baseline+Triplet+STR相比,F(xiàn)LR方法在mAP方面提高了1.7個(gè)百分點(diǎn),在Rank1準(zhǔn)確率方面提高了2.7個(gè)百分點(diǎn)。在DukeMTMCReID數(shù)據(jù)集中,STR在mAP方面提高了1.7個(gè)百分點(diǎn),在Rank1準(zhǔn)確率方面提高了4.8個(gè)百分點(diǎn)。而FLR在mAP方面提高了1.2個(gè)百分點(diǎn),在Rank1準(zhǔn)確率上提高了1.8個(gè)百分點(diǎn)。結(jié)果表明空間正則化方法有助于提高行人再識(shí)別的準(zhǔn)確性,幀級(jí)正則化方法可以平衡幀間差異,進(jìn)一步提高整體的性能。
表2展示了輸入不同長(zhǎng)度視頻序列的性能比較。為了公平比較,本文除了改變視頻序列的長(zhǎng)度T以外,其他的參數(shù)均保持不變。T=1是不使用時(shí)間建模方法的單幅圖像的模型。從表2中可以看出,隨著序列長(zhǎng)度T的增加,mAP和Rank準(zhǔn)確率得分均有所提高, 這表明時(shí)間建模方法對(duì)于提高行人再識(shí)別的準(zhǔn)確性是有效的。當(dāng)T=4時(shí),本文方法的整體性能表現(xiàn)最佳。T=4時(shí),在MARS數(shù)據(jù)集中本文方法的Rank1準(zhǔn)確率為82.1%,mAP為72.3%;而在DukeMTMCReID數(shù)據(jù)集中本文方法的Rank1準(zhǔn)確率為80.0%,mAP為61.2%。
為了進(jìn)行公平的比較,本文使用相同的基礎(chǔ)模型與現(xiàn)有的方法進(jìn)行對(duì)比。表3列出了本文方法與MARS中其他方法的比較,其中“—”表示論文作者沒有進(jìn)行對(duì)應(yīng)的實(shí)驗(yàn)(下同)。本文方法的mAP為72.3%,與Triplet[12]相比提高了4.6個(gè)百分點(diǎn),與CSACSE(Competitive Snippetsimilarity Aggregation and Coattentive Snippet Embedding)方法[22]相比提高了2.9個(gè)百分點(diǎn),與MSML(Margin Sample Mining Loss)方法[18]相比提高了0.3個(gè)百分點(diǎn)。Rank1準(zhǔn)確率為 82.1%,相對(duì)于Triplet 提高了2.3個(gè)百分點(diǎn),相對(duì)于CSACSE提高了0.9個(gè)百分點(diǎn)。對(duì)于Rank-5和Rank20而言,本文方法也取得了出色的成績(jī)。在Rank10方面,準(zhǔn)確率為93.1%。
表4列出了本文方法與DukeMTMCReID中其他方法的比較, 該數(shù)據(jù)集比MARS更具有挑戰(zhàn)性,因?yàn)樗南鄼C(jī)視域更寬,場(chǎng)景更復(fù)雜,行人圖像在分辨率和背景方面變化很大。表4中列出了本文方法的mAP和Rank1準(zhǔn)確率分別為61.2%和80.0%,與APR方法相比[21]均提高了9.3個(gè)百分點(diǎn),與其他方法相比并沒有明顯的提高。但是本文方法的模型更加簡(jiǎn)單、且易于訓(xùn)練。表4還列出了本文方法的Rank-5和Rank20準(zhǔn)確率分別為88.8%和93.7%。
4?結(jié)語(yǔ)
本文主要對(duì)基于視頻的行人再識(shí)別進(jìn)行了分析和研究。實(shí)驗(yàn)結(jié)果表明,時(shí)間建模方法對(duì)于提高視頻中行人再識(shí)別的準(zhǔn)確性是有效的。本文還提出了時(shí)空正則化和幀級(jí)正則化策略,進(jìn)一步提高了行人再識(shí)別的準(zhǔn)確性。在DukeMTMCReID和MARS數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果清楚地證明了本文方法的整體有效性。未來(lái)的主要工作是將本文方法與目標(biāo)檢測(cè)或跟蹤算法相結(jié)合應(yīng)用于實(shí)際的多攝像機(jī)監(jiān)控環(huán)境,實(shí)現(xiàn)對(duì)目標(biāo)行人準(zhǔn)確的識(shí)別和連續(xù)、穩(wěn)定的跟蹤。
參考文獻(xiàn) (References)
[1]李幼蛟,卓力,張菁,等.行人再識(shí)別技術(shù)綜述[J].自動(dòng)化學(xué)報(bào), 2018, 44(9): 1554-1568. (LI Y J, ZHUO L, ZHANG J, et al. A survey of person reidentification[J]. Acta Automatica Sinica, 2018, 44(9): 1554-1568.)
[2]MCLAUGHLIN N, DEL RINCON J M, MILLER P. Recurrent convolutional network for videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1325-1334.
[3]WU Z, WANG X, JIANG Y G, et al. Modeling spatialtemporal clues in a hybrid deep learning framework for video classification[C]// Proceedings of the 23rd ACM International Conference on Multimedia. New York: ACM, 2015: 461-470.
[4]LIU Y, YAN J, OUYANG W. Quality aware network for set to set recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4694-4703.
[5]ZHOU Z, HUANG Y, WANG W, et al. See the forest for the trees: Joint spatial and temporal recurrent neural networks for videobased person reidentification[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4747-4756.
[6]KARPATHY A, TODERICI G, SHETTY S, et al. Largescale video classification with convolutional neural networks[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1725-1732.
[7]DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.
[8]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[9]YOU J, WU A, LI X, et al. Toppush videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1345-1353.
[10]YAN Y, NI B, SONG Z, et al. Person reidentification via recurrent feature aggregation[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 701-716.
[11]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]// Proceedings of the 32nd International Conference on Machine Learning. [S. l.]: International Machine Learning Society, 2015: 2048-2057.
[12]HERMANS A, BEYR L, LEIBE B. In defense of the triplet loss for person reidentification[EB/OL].[2017-11-21]. http://arxiv.org/pdf/1703.07737.
[13]KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2017-01-30]. http://csce.uark.edu/~mgashler/ml/2018_spring/r3/adam.pdf.
[14]ZHENG L, BIE Z, SUN Y, et al. Mars: a video benchmark for largescale person reidentification[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 868-884.
[15]ZHENG Z, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person reidentification baseline in vitro[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 3754-3762.
[16]RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multitarget, multicamera tracking[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 17-35.
[17]LI D, CHEN X, ZHANG Z, et al. Learning deep contextaware features over body and latent parts for person reidentification[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 384-393.
[18]XIAO Q, LUO H, ZHANG C. Margin sample mining loss: a deep learning based method for person reidentification[EB/OL]. [2017-10-07]. http://arxiv.org/pdf/1710.00478.
[19]LI S, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for videobased person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 369-378.
[20]LI W, ZHU X, GONG S. Harmonious attention network for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2285-2294.
[21]LIN Y, ZHENG L, ZHENG Z, et al. Improving person reidentification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151-161.
[22]CHEN D, LI H, XIAO T, et al. Video person reidentification with competitive snippetsimilarity aggregation and coattentive snippet embedding[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 1169-1178.
[23]CHANG X, HOSPEDALES T M, XIANG T. Multilevel factorisation net for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2109-2118.
[24]CHEN Y, ZHU X, GONG S. Person reidentification by deep learning multiscale representations[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2590-2600.
[25]李姣,張曉暉,朱虹,等.多置信度重排序的行人再識(shí)別算法[J].模式識(shí)別與人工智能, 2017, 30(11): 995-1002. (LI J, ZHANG X H, ZHU H, et al. Person reidentification via multiple confidences reranking[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(11): 995-1002.)
This work is partially supported by the Science and Technology Support Project of Jilin Province (20180201091GX), the Project of Jilin Provincial Science and Technology Innovation Center (20180623039TC).
LIU Baocheng, born in 1995, M. S. candidate. His research interests include machine learning, computer vision.
PIAO Yan, born in 1965, Ph. D., professor. Her research interests include computer vision, pattern recognition.
TANG Yue, born in 1994, M. S. candidate. Her research interests include deep learning, computer vision.