黃 晨 裴繼紅 趙 陽
(深圳大學(xué)電子與信息工程學(xué)院,廣東深圳 518060)
行人屬性識別任務(wù)是對給定行人圖像的某些特定行人屬性的存在性進行判定的過程,近年來行人屬性識別被廣泛應(yīng)用于行人重識別、行人檢索等領(lǐng)域,受到越來越多的關(guān)注。
過去以單張靜止圖像作為研究對象的行人屬性識別任務(wù)取得了較多的成果。在傳統(tǒng)方法中,Li[1]等人使用支持向量機去識別行人屬性并作為行人重識別任務(wù)中的輔助。Zhu[2]等人使用Boosting算法來實現(xiàn)行人屬性識別。Deng[3]等人結(jié)合支持向量機和馬爾可夫隨機場來進行屬性識別。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,越來越多的工作利用卷積神經(jīng)網(wǎng)絡(luò)來對行人圖像進行深度特征提取,并以此完成行人屬性識別。Li[4]等人基于CaffeNet 提出了DeepSAR 與DeepMAR 兩個行人屬性識別網(wǎng)絡(luò)。Liu[5]等人提出了一個基于注意力機制的深度網(wǎng)絡(luò)HydraPlus-Net,將層級注意力機制圖多向映射到不同的特征層。Tang[6]等人提出一個屬性定位模塊,能自適應(yīng)地發(fā)現(xiàn)最具判別力的區(qū)域。Tan[7]等人利用GCN 來進一步捕獲行人屬性識別中的屬性和上下文關(guān)系。上述的幾種方法從不同的角度提升單張圖像上的行人屬性識別的性能,本文將行人圖像序列為數(shù)據(jù)輸入,在提取行人序列深度特征的基礎(chǔ)上,提升行人屬性識別的性能。
時序建模方法的研究也因為智能視頻數(shù)據(jù)處理技術(shù)的發(fā)展而受到越來越大的重視,時序建模的目的主要是為了將一系列幀級圖像特征融合為一個用于表征視頻序列的特征。時序建模也被廣泛應(yīng)用于基于視頻序列的行人重識別、視頻分類和智能語音處理等領(lǐng)域。而在行人序列屬性識別方面,由于缺少公開數(shù)據(jù)集等原因,絕大多數(shù)的工作都集中在基于單張圖像的行人屬性識別中,更缺乏比較多種特征融合和時序建模方式在基于序列行人屬性識別任務(wù)中的表現(xiàn)的工作。
綜上所述,目前絕大多數(shù)研究關(guān)注于基于單張圖像的行人屬性識別,而忽略了現(xiàn)實場景下以序列作為輸入數(shù)據(jù)的合理性和可能性,更缺少在基于序列的行人屬性識別任務(wù)中如何進行更好的時序建模的研究,即如何更好的將幀級特征融合為表征序列的特征。本文的主要貢獻可以歸納為以下幾點:
(1)構(gòu)建了結(jié)合時序注意力機制的多特征融合行人序列圖像屬性識別網(wǎng)絡(luò),在基于序列的行人屬性識別任務(wù)中獲得了最佳的效果,并探究了影響網(wǎng)絡(luò)性能的幾個因素。
(2)在帶權(quán)值交叉熵損失函數(shù)的基礎(chǔ)上添加tversky 損失函數(shù),并以此作為網(wǎng)絡(luò)訓(xùn)練的損失函數(shù),實現(xiàn)對查準率和查全率更好權(quán)衡。
(3)在四個不同的校園場景下,制作了基于序列的行人屬性識別數(shù)據(jù)集,驗證了在行人屬性識別任務(wù)中,以行人序列作為數(shù)據(jù)輸入的方式在識別效果上要優(yōu)于以單張圖像作為數(shù)據(jù)輸入。
基于手工特征的方法[1-3]難以有效提取出穩(wěn)定的行人特征,且忽略了行人屬性之間的關(guān)聯(lián)。目前基于單張圖像的行人屬性識別方法大多都以深度學(xué)習(xí)作為研究工具。Li[4]等人基于CaffeNet 提出了DeepSAR 與DeepMAR 兩個行人屬性識別網(wǎng)絡(luò),并針對樣本分布不均的問題,對傳統(tǒng)的交叉熵損失函數(shù)進行改進,提出了帶權(quán)值的交叉熵損失函數(shù)。Tan[7]等人利用GCN 來進一步捕獲行人屬性識別中的屬性和上下文關(guān)系,并提出了屬性關(guān)系模塊和上下文關(guān)系模塊,實現(xiàn)了對上下文關(guān)系的充分利用。Zhao[8]等人受到循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)超強的上下文關(guān)聯(lián)學(xué)習(xí)能力的啟發(fā),提出了用LSTM 結(jié)構(gòu)來學(xué)習(xí)屬性之間相互依賴以及排斥的關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)(GRL),同時在網(wǎng)絡(luò)中還引入了空間注意力機制。
隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,以及計算能力的不斷提升,基于視頻數(shù)據(jù)的智能分析領(lǐng)域越來越受到重視,視頻序列相對于單張圖像的最大區(qū)別就是還隱含了時序的信息。視頻行人重識別、行為識別為其中重要的研究分支。
在行為識別方面,Tran[9]等人證實了3D 卷積網(wǎng)絡(luò)在時空特征提取中是有效的,并提出了C3D 卷積網(wǎng)絡(luò)結(jié)構(gòu)。Zhu[10]等人提出了時間金字塔池深度網(wǎng)絡(luò)(DTPP),用于學(xué)習(xí)視頻級特征的表示方法。Donahue[11]等人設(shè)計了CNN+LSTM 的網(wǎng)絡(luò)結(jié)構(gòu)(LRCNs)用于行為識別、圖像描述和視頻描述。在基于視頻序列行人重識別方面,McLaughlin[12]等人使用卷積神經(jīng)網(wǎng)絡(luò)提取空間特征的同時利用遞歸循環(huán)網(wǎng)絡(luò)RNN來提取時序特征。Liu[13]等人提出了不同于RNN 和LSTM 的改善循環(huán)單元(Refining Recurrent Unit,RRU)進行幀間特征的升級,并提出了時空線索整合模塊(STIM)。Li[14]等人設(shè)計了GLTR 模型以同時挖掘長時和短時的時序信息。Gao[15]等人比較了常見幾種時序建模方式在視頻行人重識別中的表現(xiàn),并提出了一種基于時空聯(lián)合卷積的時序注意力機制。
本文提出的結(jié)合時序注意力機制的多特征融合行人序列圖像屬性識別網(wǎng)絡(luò)由3 個部分組成,分別是基于ResNet50 的幀級特征圖序列的生成模塊、結(jié)合多池化與3D 卷積注意力機制的多因素時空特征聚合模塊和行人屬性多聚合的序列特征融合及識別模塊。網(wǎng)絡(luò)的整體框架如圖1所示。網(wǎng)絡(luò)的輸入由從原始行人序列均勻抽樣得到的T幀行人圖像構(gòu)成,對于不足T幀的序列,采用按序循環(huán)復(fù)制的方式直到序列長度為T幀。
結(jié)合時序注意力機制的多特征融合行人序列圖像屬性識別網(wǎng)絡(luò)的輸入數(shù)據(jù)為T幀3 通道的RGB圖像序列。ResNet 通過旁路的支線將上一層或者前幾層的輸出直接跨越多層連接到后面的網(wǎng)絡(luò)部分中,從而緩解了過往深層網(wǎng)絡(luò)存在的梯度消失和網(wǎng)絡(luò)退化的問題,并且具有相當強的特征力,因此本文選用ResNet50 深度殘差網(wǎng)絡(luò)作為幀級特征提取網(wǎng)絡(luò),用于提取單張圖像的幀級特征。
輸入的圖像序列IS={I1,I2,…,IT}在經(jīng)過幀級特征提取網(wǎng)絡(luò)后,每一幀圖像的深度特征都由一組空間大小為m×m,通道數(shù)為D的特征圖來表示。當輸入的數(shù)據(jù)是長度為T幀的圖像序列,意味著共有T組這樣的特征圖。將生成的T組特征圖稱為特征圖序列{fm(c,t)∈Rm×m,c=1,…,D;t=1,…,T}。于是輸入的圖像序列IS在經(jīng)過ResNet50后,獲得的特征圖序列FIS為:
在時空特征聚合方面,本文采用了3種方式,分別是空-時二次平均池化特征聚合、空-時平均最大池化特征聚合和空-時3D卷積注意力因子加權(quán)特征聚合。詳細介紹如下:
空-時二次平均池化特征聚合:將Resnet50獲得的特征圖序列FIS進行常見的2D 空間聚合,將FIS中的每一組特征圖{fm(1,t),…,fm(c,t),…,fm(D,T)}送入池化域大小為m×m的二維平均池化層中,從而使特征圖序列FIS轉(zhuǎn)化為T個幀級特征向量f t∈RD,t=1,…,T。將所有幀級特征向量組合起來可以表示為T×D的特征向量序列。再對所有幀級特征向量組合起來的特征向量序列進行時間序列的1D 聚合。在空-時二次平均池化特征聚合中,時間維度上的特征聚合采用平均池化的方式。利用一個矩形窗口在輸入的T×D的特征向量序列的時間維度T上進行掃描計算。fstmean∈RD表示的是經(jīng)過空間特征聚合與時間特征聚合后,空-時二次平均池化特征聚合分支的輸出。
空-時平均最大池化特征聚合:將Resnet50 獲得的特征圖序列FIS進行常見的特征圖2D 空間聚合,采用與空-時二次平均池化特征聚合中相同的處理方式,最終同樣獲得T×D的特征向量序列f t∈RD,t=1,…,T。完成空間上的特征聚合后,接著進行時間序列1D 聚合,在空-時平均最大池化特征聚合分支中,T×D的特征向量序列在時間維度上的特征聚合采用最大池化的方式。在T個值中選擇最大值作為輸出從而完成池化降維。fstmax∈RD表示的是經(jīng)過空間特征聚合與時間特征聚合后,空-時平均最大池化特征聚合分支的輸出。
空-時3D 卷積注意力因子加權(quán)特征聚合:該分支的輸入同樣是Resnet50 獲得的特征圖序列FIS。此分支的整體結(jié)構(gòu)圖如圖2 所示,主要由特征圖2D空間聚合、局部通道特征聚合、基于全通道時-空3D卷積的注意力因子生成和注意力因子加權(quán)的特征聚合幾個部分構(gòu)成。
首先是特征圖2D 聚合,利用池化域大小為m×m的二維池化層,從而使特征圖序列FIS轉(zhuǎn)化為T個幀級特征向量f t∈RD,t=1,…,T。
其次是局部通道特征聚合,此操作的輸入數(shù)據(jù)是特征圖序列FIS。并對此操作輸入特征圖的通道數(shù)進行降維。將特征圖的通道數(shù)由D降至D',以減少參數(shù)量的同時提升了網(wǎng)絡(luò)的性能。降維的具體方法是在輸入通道數(shù)的維度上進行平均池化,池化步長設(shè)定為4,池化域大小設(shè)置為3,即池化后的輸出特征圖的每一個通道,都是由輸入特征圖中連續(xù)的3個局部通道聚合而成的。降維后T×D'的特征向量序列,用f t'表示。
再次是基于全通道時-空3D卷積的注意力因子生成,此模塊的作用是利用輸入的特征圖序列生成T個注意力因子,即對每一個幀級特征的重要性權(quán)重進行判定。為了同時捕捉序列中的時間與空間特征,使用了3D 卷積層,3D 卷積核的尺寸為D×b×m×m,其中輸入通道數(shù)為D,卷積核的時間維度的深度是b,則每一幀的注意力權(quán)重都是由相鄰b幀決定的,核的空間大小為m×m,輸入通道數(shù)為D',濾波器的數(shù)量為1,即輸出通道數(shù)為1。此外為了獲得T個注意力得分,還需要在時間維度上進行1 層的零邊緣填充。本文中b=3,m=7,D=2048,T=16,D'=512。輸出層與輸入層之間參數(shù)的關(guān)系如下式所示,
其中Wout和Win分別表示輸入輸出特征圖寬度,Hout和Hin分別表示輸入輸出特征圖長度,Dout和Din分別表示輸入輸出特征圖深度,Dout為輸出的通道數(shù),w,h,d,p,s分別表示的是卷積核的寬度、卷積核的長度、卷積核的深度、填充值長度和滑動步長。
3D 卷積層的輸出是T×1×1×1 的注意力得分,去除兩個冗余維度后,獲得T×1 的時序注意力得分。接著,需要對T×1 的時序注意力得分使用softmax 函數(shù)計算產(chǎn)生最終的注意力權(quán)重(注意力因子)。
最后是注意力因子加權(quán)的特征聚合,利用得到的注意力權(quán)重對特征圖2D 聚合部分中獲得的一系列幀級特征向量做加權(quán)求和,從而獲得用于表征序列的深度特征fst3d,
其中表示的是第t幀的注意力因子。以此方式對每一幀圖像對于行人屬性識別任務(wù)的貢獻程度進行評分,最終得到一個1×D特征向量fst3d用于表征空-時3D卷積注意力因子加權(quán)特征聚合分支生成的序列特征。
在結(jié)合多池化與3D 卷積注意力機制的多因素時空特征聚合模塊中的每一路分支通過不同的方式,都獲得了可以表征輸入圖像序列的深度特征,均由特征向量來表示,并作為行人屬性多聚合的序列特征融合及識別模塊的數(shù)據(jù)輸入,模塊的整體框架示意圖如圖3所示?,F(xiàn)將三路分支輸出的序列特征進行融合,采用平均融合的方式,如式(7)所示:
最終的分類判別由多分類器來實現(xiàn),多分類器由全連接層、sigmoid 層和行人屬性決策判別所構(gòu)成,其示意圖如圖3 所示。圖中的虛線矩形框代表的是輸入的融合后序列的特征,維度為D。輸出維度為N,即對應(yīng)N個挑選出來的行人屬性。輸出的N個數(shù)值是N個屬性的得分值(score),對應(yīng)于圖3中的S1、S2…SN的數(shù)值。隨后將上述得分值送入sigmoid 層中,其目的是將N個屬性的得分值映射到[0,1]的值域范圍之內(nèi),即獲得N個行人屬性的概率值。在本文中,N=32。
帶權(quán)值的交叉熵損失:針對行人屬性識別數(shù)據(jù)集中類別分布不均勻的問題,采用的是帶權(quán)值的交叉熵損失函數(shù)LWBCE:
其中pl表示第l個屬性中正樣本所占的比重,yil表示第i個樣本的第l個屬性的真實標簽,表示第i個樣本的第l個屬性網(wǎng)絡(luò)預(yù)測為正樣本的概率。權(quán)重系數(shù)wl為:
加入權(quán)重系數(shù)wl的意義在于,增大正樣本數(shù)量較小的屬性的損失,減小正樣本數(shù)較大的屬性的損失。
tversky損失函數(shù):訓(xùn)練基于序列的行人屬性網(wǎng)絡(luò)時發(fā)現(xiàn),只使用帶權(quán)值的交叉熵損失網(wǎng)絡(luò)的查準率在訓(xùn)練的過程中有明顯的下降,導(dǎo)致網(wǎng)絡(luò)查準率較低的一個直觀原因是偽正例(FP)的數(shù)量過多,因此為了減少FP的數(shù)量需要增大對網(wǎng)絡(luò)預(yù)測產(chǎn)生FP的懲罰力度,本文引入tversky 損失函數(shù)來改善查準率較低的問題。Tversky系數(shù)可以通過式(10)來定義:
其中p1i是網(wǎng)絡(luò)預(yù)測第i個行人屬性為正例的概率值,p0i是網(wǎng)絡(luò)預(yù)測第i個行人屬性為反例的概率值。α,β兩個參數(shù)決定的是對FP 與FN 的懲罰力度,且α+β=1。則tversky損失可定義為:
綜合式(10)和式(11)可以看出,當α越大時,tversky 損失函數(shù)在訓(xùn)練時對網(wǎng)絡(luò)預(yù)測為FP 的懲罰力度就會越大,從而減少FP 的數(shù)量并提升查準率。當β越大時,tversky 損失函數(shù)在訓(xùn)練時對網(wǎng)絡(luò)預(yù)測為FN 的懲罰力度就會越大,從而減少偽負例(FN)的數(shù)量并提升查全率。
總損失函數(shù):本方法的總損失函數(shù)定義為式(12)
本方法引入tversky 損失是為了克服在只使用帶權(quán)值的交叉熵損失時,網(wǎng)絡(luò)查準率下降明顯的問題,因此需要加大對網(wǎng)絡(luò)預(yù)測產(chǎn)生FP 的懲罰力度,本文將α設(shè)定為0.6,β設(shè)定為0.4,以達到對查準率和查全率更好的權(quán)衡。
為了驗證基于序列的行人屬性識別網(wǎng)絡(luò)的性能比基于單張圖像的行人屬性識別網(wǎng)絡(luò)的性能更好,在4 個不同的校園場景下制作了一個行人屬性識別的序列圖像項目組數(shù)據(jù)集,本文中制作的數(shù)據(jù)集是一段不定長的行人序列對應(yīng)一個多分類標簽,即在一段不定長的行人序列中,所挑選出來的行人屬性是保持不變的。制作的序列行人屬性識別數(shù)據(jù)集的原始數(shù)據(jù)在4個不同的校園監(jiān)控場景中完成采集,且監(jiān)控攝像頭都位于較高的位置,拍攝的場景之間沒有重疊的區(qū)域。其中場景一總共有89 段行人序列,場景二總共有213段行人序列,場景三總共有185 段行人序列,場景四總共有166 段行人序列,4 個場景共有653 段不同長度的行人序列,平均長度為153幀。
共挑選了32 個常見行人屬性進行標注,分別是:背包,帽子,長發(fā),短發(fā),男性,女性,挎包,上身短袖,上身長袖,下身短裝,上身著裝顏色(黑,藍,棕,綠,灰,橘,粉,紫,紅,白,黃),下身著裝顏色(黑,藍,棕,綠,灰,橘,粉,紫,紅,白,黃)。訓(xùn)練集和測試集按照6:4 的比例進行分配。在4 個不同的校園場景中,各選取一段截短后的行人序列作為示例進行展示,如圖4所示。
數(shù)據(jù)集的組織方式:數(shù)據(jù)集分為訓(xùn)練集和測試集兩個部分。對于訓(xùn)練集,從序列中選擇訓(xùn)練網(wǎng)絡(luò)的輸入圖像時,采用均勻抽樣的方式,通過等間隔采樣出來的圖像作為網(wǎng)絡(luò)的數(shù)據(jù)輸入。對每一個不定長的行人序列,利用均勻抽取的方式選出16幀圖像作為網(wǎng)絡(luò)的輸入。對于不足16幀的行人序列,采用循環(huán)復(fù)制的方式以滿足要求。對于測試集而言,同樣選擇均勻抽樣16 幀的方式來獲取網(wǎng)絡(luò)輸入。在測試階段,為了充分比較不同特征融合與時序建模方式下行人屬性識別網(wǎng)絡(luò)的性能,將完整序列分為多個均勻采樣得到的圖像集合,并全部送入網(wǎng)絡(luò)中進行識別。
評價指標:基于序列的行人屬性識別屬于多標簽分類任務(wù),為了綜合比較不同方法的性能,本文使用平均準確率(mA),平均查準率(m-prec),平均查全率(m-rec)和平均F1 score(m-F1)作為性能評價指標。
本文選擇均勻抽樣的方式,用等間隔采樣出來的圖像代替整段視頻序列作為網(wǎng)絡(luò)輸入,選擇更少的幀數(shù),意味著采樣的間隔更大,圖像之間的差異也會更大,但是網(wǎng)絡(luò)所能參考的圖像也就相對較少。相反,選擇更多的幀數(shù),意味著采樣間隔更小,圖像間的差異也會更小,但是網(wǎng)絡(luò)能參考學(xué)習(xí)的圖像也就更多。從表1 中可以看出,輸入幀數(shù)從4 幀增加到16 幀,綜合4 個評價指標來看,網(wǎng)絡(luò)整體性能是在提升的。當輸入幀數(shù)為16幀時,網(wǎng)絡(luò)的性能達到最佳,在每一項評價指標中都是最高的。
表1 不同輸入幀數(shù)對比實驗結(jié)果Tab.1 Comparison of experimental results with different input frames
此時增加輸入幀數(shù)至20幀,除了平均查準率相對于輸入16幀時提升了0.98%,其他的性能指標都有所下降,其中,mA 下降了0.87%,平均查全率下降了2.21%,平均F1 score下降了0.8%。綜上分析,本文提出的結(jié)合時序注意力機制的多特征融合行人序列圖像屬性識別網(wǎng)絡(luò),將網(wǎng)絡(luò)的輸入幀數(shù)定為16幀。
本文的損失函數(shù)由帶權(quán)值的交叉熵損失和tversky 損失構(gòu)成,其中tversky 損失中參數(shù)α和β在不同取值下,網(wǎng)絡(luò)的性能如表2所示。
表2 不同α和β取值對比試驗Tab.2 Comparison of experimental results with different value of α and β
綜合來看,當α取值為0.6 且β取值為0.4 時,網(wǎng)絡(luò)的性能達到最優(yōu),其中mA、m-prec、m-F1 三個評價指標都是最高,分別達到了81.82%、86.64%和82.22%。此外,由于本文的總體損失函數(shù)是由兩個部分構(gòu)成的,從實驗結(jié)果中也可看出,tversky損失中的參數(shù)的變化,對整體性能的影響有限。
3D 卷積相比于2D 卷積,多了一個在時間維度上的深度通道。3D卷積的時間維度的取值越大,可以理解成考慮的幀數(shù)就越多。對空-時3D卷積注意力因子加權(quán)特征聚合分支中,3D卷積層部分時間維度的深度的不同取值進行試驗對比,實驗將取值分別定為1、3和5,并將結(jié)果展示在表3中。
表3 卷積核在時間維度的不同深度實驗結(jié)果Tab.3 Experimental results of different depth of convolution kernel in time dimension
從中可以看出,當時間維度的深度為1 時網(wǎng)絡(luò)取得了最差的性能,因為此時網(wǎng)絡(luò)沒有充分考慮相鄰幀之間的相互關(guān)系。在時間維度的深度選擇為5 時,網(wǎng)絡(luò)的性能比取值為3 時的要差,相比取值為3 時的最佳網(wǎng)絡(luò)性能,在mA 和平均F1 指標中分別低了0.41%和0.36%。此外,取值為5 的網(wǎng)絡(luò)參數(shù)量大于取值為3的網(wǎng)絡(luò)參數(shù)量,增大了訓(xùn)練的難度,而網(wǎng)絡(luò)整體的性能卻沒有得到提升。綜上所述,本文將卷積核在時間維度的深度設(shè)定為3。
不同分支特征融合情況下的網(wǎng)絡(luò)性能如表4所示,表中的fstmean、fstmax和fst3d分別表示的是空-時二次平均池化特征聚合輸出的序列的特征、空-時平均最大池化特征聚合輸出的序列的特征以及空-時3D卷積注意力因子加權(quán)特征聚合輸出的序列的特征。不論是單獨去除空-時二次平均池化特征聚合分支或空-時平均最大池化特征聚合分支還是同時去除上述兩個分支,網(wǎng)絡(luò)的性能都會有所下降。當只使用空-時3D卷積注意力因子加權(quán)特征聚合分支的網(wǎng)絡(luò)是最差的,相比于本文采用的三支路特征融合結(jié)構(gòu),mA 指標下降了0.84%,平均查準率下降了0.55%,平均查全率下降了1.32%,平均F1 指標下降了0.98%。綜上所述,融合多路分支序列深度特征的網(wǎng)絡(luò),可以獲得更多有用信息并提高行人屬性識別的性能,證實了本文提出框架的有效性。
表4 消融實驗Tab.4 Results of ablation experiments
為了公平的對基于序列的行人屬性識別方法與基于單張圖像的行人屬性識別方法作對比,實驗中基于單張圖像的行人屬性識別方法和基于序列的行人屬性識別方法中的幀級特征提取器,都是基于ResNet50構(gòu)成的。
表5 展示的是多種特征聚合與時序建模方式下,基于序列的行人屬性識別網(wǎng)絡(luò)的性能。正如預(yù)測的,所有基于序列的行人屬性識別方法的綜合性能都優(yōu)于基于單張圖像的行人屬性識別方法。其中RNN 與LSTM 兩種時序建模的方式在行人屬性識別任務(wù)中的表現(xiàn)并不好,雖然整體的性能有所改進,但是在平均查準率指標中甚至有所下降,分別下降了3.62%和3.39%,性能提升較小的原因可能是:在基于序列的行人屬性識別任務(wù)中,多幀之間沒有較強的因果關(guān)系且RNN 與LSTM 訓(xùn)練較為困難。
表5 不同特征聚合與時序建模方式實驗結(jié)果Tab.5 Experimental results of different feature fusion and time series modeling methods
簡單的時序最大池化與時序平均池化無需額外的網(wǎng)絡(luò)參數(shù),也能取得較好的識別效果,但是這兩者依然存在問題:將多個幀級特征融合為一個序列特征時,沒有充分考慮到幀與幀之間的聯(lián)系,沒有對多幀圖像之間的重要性進行判定,損失了大量有價值的信息。文獻[15]中提出的時序注意力機制與本文提出的方法都克服了上述不足,取得了比平均池化與最大池化更好的行人屬性識別效果。表5 中的最后一行是本文提出方法的性能效果,可以看出,本文提出的結(jié)合時序注意力機制的多特征融合行人序列圖像屬性識別網(wǎng)絡(luò)在各項指標中都是最高的,其中相比于基于單張圖像的行人屬性識別方法,mA 指標提升了3.98%,平均查準率提升了5.11%,平均查全率提升了7.81%,平均F1 指標提升了6.65%。此外,本文提出的方法在與文獻[15]中提出的時序注意力機制進行對比,可以看出,本文提出的方法在每一項的評價指標中都是更高的,mA 指標提升了0.48%,平均查準率提升了1.49%,平均查全率提升了0.77%,平均F1 指標提升了1.09%,證實了本文提出框架與方法的有效性。
本文提出了結(jié)合時序注意力機制的多特征融合行人序列圖像屬性識別方法,一方面利用時序注意力機制充分考慮到了幀與幀之間的差異,進一步對幀級特征的重要進行評估。另一方面在提取序列特征時,將空-時二次平均池化特征聚合、空-時平均最大池化特征聚合以及空-時3D卷積注意力因子加權(quán)特征聚合三路分支中輸出的序列特征相融合,以獲得更為強大的序列深度特征表達能力。通過在自建的基于序列的行人屬性識別數(shù)據(jù)集上與多個主流方法進行對比實驗,不僅體現(xiàn)了在行人屬性識別任務(wù)中以序列作為數(shù)據(jù)輸入相較于以單張圖像作為數(shù)據(jù)輸入,是更加具有優(yōu)越性的,還充分體現(xiàn)了本文提出方法在基于序列的行人屬性識別任務(wù)中的有效性。