胡曉強,魏 丹,王子陽,沈江霖,任洪娟
(上海工程技術大學 機械與汽車工程學院,上海 201620)
行人重識別是判斷圖像或視頻序列中是否存在特定行人的關鍵技術,被認為是圖像檢索的子問題,可為犯人追蹤、視頻數據處理等問題提供智能化解決方案,具有重要的理論意義和實際應用價值[1]。由于行人外觀易受穿著、遮擋、姿態(tài)和視角等因素的影響,使得行人重識別成為計算機視覺領域中一項具有挑戰(zhàn)性的研究課題。
行人重識別的關鍵問題是尋找一個最具魯棒性的特征表示。在現(xiàn)有模式識別研究中,涉及區(qū)域特征[2]和特征融合[3]的研究較多。文獻[4]提出一種端到端比較注意網絡(Comparative Attention Network,CAN)模型。該模型在學習幾張行人圖像后有選擇地關注顯著的部分,采用比較注意元件生成關注區(qū)域,基于LSTM生成注意力圖,利用CAN 模型模擬人類的感知過程,驗證兩幅圖像是否為同一行人。文獻[5]提出基于局部卷積基準(Part-based Convolutional Baseline,PCB)網絡和精確局部池化(Refined Part Pooling,RPP)方法提取局部特征。利用PCB網絡將特征圖水平劃分為六等分并進行平均池化和降維,同時利用RPP 方法將異常值重新分配生成具有內部一致性的精確局部特征,但這種處理方式會產生區(qū)域異常值。文獻[6]提出一種基于視頻的全局深度表示學習方法,以軟注意力模塊學習局部特征,在視頻范圍內聚合局部特征。該方法作為對3D卷積神經網絡(Convolutional Neural Network,CNN)層的補充,能夠捕獲視頻中的外觀信息和運動信息,進一步增加3D 局部對齊方式。網絡經過端到端訓練,能夠自動學習更具判別性的局部區(qū)域,從而減少背景等因素造成的影響,但是行人姿勢會隨著時間的推移而發(fā)生改變,顯著區(qū)域會被佩戴物品遮擋,同時也會造成大量空間信息的丟失。
進行視頻行人重識別時需要考慮時間信息的影響,對此的解決方法主要有3D CNN、遞歸循壞網絡(Recurrent Neural Network,RNN)、光流和時間聚合[7]。文獻[8-9]在采用CNN 提取空間特征的同時利用RNN 提取時序特征,針對單幀圖像信息不足的問題,采用多幀序列圖像信息進行彌補,對圖像區(qū)域的質量進行評估,將來自其他采樣幀的高質量區(qū)域補償到低質量區(qū)域[10]。文獻[11]采用CNN 提取步態(tài)序列的空間特征,利用LSTM 從步態(tài)序列中提取時間特征,最終得到時空信息融合的特征表示。文獻[12]提出利用改善循環(huán)單元(Refining Recurrent Unit,RRU)進行幀間特征的升級。不同于LSTM,RRU 不直接利用每幀特征提取時間信息,而是根據歷史視頻幀的外觀和上下文恢復當前幀缺失的部分。文獻[13]將RNN 單元輸出的平均值作為最終的特征表示并直接采用最后一個隱藏層的輸出作為時間聚合的特征表示。本文對局部特征序列進行權重分配并加權平均,在空間特征的基礎上融入時間信息,這種權重分配的方式優(yōu)于文獻[13]的全局平均和最后隱藏層輸出的方法。以上行人重識別方法著重考慮關注區(qū)域,丟棄了全局特征的大量信息,同時也沒有將空間信息與時間信息進行充分融合。
本文提出一種基于時空關注區(qū)域的行人重識別方法,將空間信息與時序信息進行深度融合,以解決行人姿勢變換[14]和遮擋等問題,并通過快慢網絡[15]提取全局特征和關注區(qū)域特征??炻W絡以不同的速度處理時間信息,用以捕獲視頻幀快速變化的動作信息,兩個路徑分別提取關注區(qū)域特征和全局特征。同時,提出一種融合模型替代快慢網絡中的橫向連接,采用親和度矩陣和定位參數融合局部特征和全局特征,從而形成凸顯關注區(qū)域的全局特征。
視頻V被分割成連續(xù)的非重疊視頻片段{Am}m?[1,M],每個視頻片段包含T幀,將視頻片段的首尾兩幀P={Ja|a=1,2}作為慢路徑的輸入,對視頻片段按梯度采樣6 幀Q={In|n=1,2,…,6}作為快路徑的輸入,采樣幀P和Q均來自同一視頻片段。如圖1所示,本文方法框架由快慢網絡的基礎架構改進,其中,慢路徑是全局特征X的提取流程,快路徑是局部關注區(qū)域生成和特征聚合的流程,跨幀的關注區(qū)域特征被時間聚合后生成fk=[f1,f2,f3,f4],融合模塊將全局特征X和局部特征fk融合成最終的全局時空特征表示F。
圖1 基于時空關注區(qū)域的行人重識別框架Fig.1 Person re-identification framework based on spatio-temporal attention region
慢路徑采樣幀稀疏,低幀率運行,時間分辨率低,用于提取優(yōu)良的空間特征,獲得完整的語義信息;快路徑采樣幀數是慢路徑的γ倍,高幀率運行,時間分辨率高,用于捕捉快速變化的動作信息??炻窂降耐ǖ罃凳锹窂降?/γ倍,便于網絡的快速運行。2 個路徑的輸入幀尺寸均為240×240,慢路徑提取的全局特征尺寸為30×30,快路徑則進行關注區(qū)域特征的獲取與聚合。在本文中,慢路徑視頻片段采樣2 幀,取γ=3,快路徑視頻片段采樣6 幀,通道數是慢路徑的1/3。
1.2.1 多重空間關注
多重空間關注模型基于文獻[16]的多樣性正則化實現(xiàn),用于發(fā)現(xiàn)具有判別性的身體區(qū)域,減小遮擋、視角等因素對識別結果的影響。
如圖2 所示,時空關注模型采用ResNet-50 的conv1 到res5c 作為特征提取器,每個圖像In由8×8 網格的特征向量{un,l},l?[1,L]表示,L=30 是網格單元的數量,利用conv 網絡和softmax 函數生成輸入圖像的多個空間注意區(qū)域和相應的感受野。
圖2 多重空間關注模型Fig.2 Multiple spatial attention model
以Sn,k=[Sn,k,1,Sn,k,2,…,Sn,k,L]表示第n個采樣幀第k個空間關注區(qū)域的感受野,每個感受野是概率質量分數,即=1。對于每個圖像In,使用注意加權平均生成K個關注區(qū)域視覺特征:
其中,每個視覺特征表示圖像的顯著區(qū)域。為約束空間關注模型學習到不同的顯著區(qū)域,文獻[16]設計一個懲罰項衡量感受野之間的重疊,基于Hellinger 距離度量關注區(qū)域之間的相似性:
為抑制關注區(qū)域之間的重疊,Sn,i和Sn,j之間的距離應盡可能大,即1-H2(Sn,i,Sn,j)應盡可能小。在快路徑中,每個視頻片段存在6張采樣幀,每張采樣幀確定4個關注區(qū)域,即K=4,網絡通過預訓練和約束訓練自動學習每個行人的臉部、手臂、膝蓋、腳,產生24個關注區(qū)域特征(共6組,每組4個):{In,k|n?[1,2,…,6],k?[1,2,3,4]} 。
1.2.2 時間聚合模型
在1.2.1 節(jié)中,每個采樣幀都由4 個關注區(qū)域的集合表示,即{In,k}=[In,1,In,2,In,3,In,4],本文采用圖3 所示的時間聚合模型,在局部特征的基礎上融入時間信息,計算所有采樣幀相同部位的特征權重Cn,k,=1,k?[1,2,3,4],由此形成時空關注的局部特征表示。
圖3 時間聚合模型Fig.3 Temporal aggregation model
時間聚合模型由空間卷積層(輸入通道數為1 024,輸出通道數為D)和全連接層(輸入通道數為D,輸出通道數為1)組成,采用采樣幀相同部位的關注區(qū)域特征作為輸入,空間卷積層對關注區(qū)域的特征表示做進一步卷積操作,生成6 個采樣幀相同部位的特征表示{f1,k,f2,k,f3,k,f4,k,f5,k,f6,k},經全連接層輸出每個特征表示的權重Cn,k,然后對跨幀的局部特征表示進行加權聚合:
其中,k?[1,2,3,4],fk為連續(xù)幀相同部位具有時空特性的特征表示。
快慢網絡中的橫向連接存在融合過程復雜和單向連接等不足。本文提出一種融合模型代替快慢網絡中的橫向連接。該模型將局部關注特征fk與全局特征X融合,形成關注區(qū)域凸顯且不丟失全局信息的全局特征表示,其融合過程簡單,且不受單向連接的限制。模型中包括親和度函數H和定位函數G,具體細節(jié)如圖4 所示。
圖4 融合模型Fig.4 Fusion model
1.3.1 親和度函數
親和度函數H用于表示局部特征fk與特征X之間的相似性,函數表達式為H(X,fk)=Hk,RD×30×30×,其中,D是特征向量維數,e×e是關注區(qū)域特征尺寸。親和度函數計算嵌入特征之間的點積,fk與X之間的相似性度量矩陣為:
其中,X(m)表示特征X中空間網格m的特征,fk(n)表示fk中網格n的特征。對于每個fk(n),利用親和度函數H(m,n)在fk(n)的空間維度上進行softmax 歸一化。
1.3.2 定位函數
定位函數G由2 個卷積層和1 個線性層組成,將親和度函數H(m,n)作為輸入,在特征X中尋找與關注區(qū)域特征fk最相似的區(qū)域,并輸出該區(qū)域的定位參數θk,定位參數為雙線性采樣網格的4 個參數[17],定位函數的表達式為:
定位參數θk=[a,b,c,d]用于映射局部關注特征fk和全局特征X坐標位置之間的關系:
其中,(xi,yi)表示關注區(qū)域特征fk的坐標位置,()表示在全局特征X中與關注特征fk相對應的區(qū)域坐標位置,參數θk=[a,b,c,d]表達坐標位置之間的平移和旋轉關系。
函數o(˙)根據定位參數將局部特征fk融合到全局特征X中,最終獲得凸顯局部特征且不丟失整體細節(jié)的全局特征表示F。
本文采用融合損失函數和三重損失函數進行網絡訓練,融合損失函數基于局部關注特征fk與其在全局特征中相對應區(qū)域之間的平均歐氏距離對識別結果進行判定:
其中,X(θk) 表示與fk相對應的關注區(qū)域特征,表示fk與X(θk)的歐氏距離的和,Lfusion即為平均歐式距離,采用端到端的方式訓練網絡,直到Lfusion趨于最優(yōu)值。
三重損失函數[18]在一個批次中將待檢測樣本、一個正樣本和一個負樣本構成三元組,該批次由P個待檢測樣本和每個檢測樣本的A個視頻片段組成,每個視頻片段有T幀,該批次共有P×A個視頻片段,利用本文網絡架構在該批次中識別出最優(yōu)正樣本和最差負樣本,構成三重度量損失,表達式如下:
其中,a是設定的閾值參數。總損失等于兩個損失函數的和,表示為:
融合損失和三重度量損失都是基于特征表示的,彼此之間存在內在聯(lián)系,因此,可將融合損失作為融合階段的經驗指導和糾正匹配錯誤。
基于iLIDS-VID、PRID-2011 和MARS 視頻數據集對本文方法進行性能評估。
首先在ImageNet 數據集上對Resnet-50 進行預訓練,然后在3 個數據集上進行微調。在訓練階段,輸入圖像的大小為240 像素×240 像素。為方便實驗對比,訓練包含不同關注區(qū)域數量的空間關注模型。在時間聚合模型和融合模型訓練過程中,假設T=6,K=4,采用隨機梯度下降算法對網絡學習進行更新,初始學習率設置為0.1,逐漸降至0.01。在測試階段,在3 個視頻數據集上分別計算平均精度(mAP)和Rank-1、Rank-5 的準確率作為對模型行人重識別性能的評價指標。
2.2.1 空間關注模型數量
首先研究空間關注模型的數量K對識別效果的影響。隨著空間關注模型數量的增加,網絡能夠發(fā)現(xiàn)更多的顯著區(qū)域。由于受到多樣性正則化的約束,隨著K的增大,關注區(qū)域的尺寸不斷縮小。如表1 所示,當K=2 時,關注區(qū)域往往會包含多個身體部位和背景,識別性能較低,經實驗驗證,本文模型在K=4 時網絡的識別性能達到最優(yōu)。如果K再持續(xù)增大,識別效果反而降低,這是因為在多樣性正則化約束的情況下,空間關注模型的數量過多會導致關注區(qū)域尺寸過小或者特征判別性降低,最終使識別準確率下降。筆者在iLIDS-VID 數據集上進行實驗時發(fā)現(xiàn),K=6 時識別效果最佳,這與數據集的特性有關,因為iLIDS-VID 數據集具有復雜的背景和嚴重的遮擋。增加關注區(qū)域的數量可以減少背景和遮擋對識別結果的影響,在不同數據集中關注區(qū)域的尺寸對識別準確率有很大影響,下文將對此做進一步討論。
表1 多重空間關注模型的Rank-1 準確率Table 1 Rank-1 accuracy of multiple spatial attention model %
2.2.2 關注區(qū)域尺寸
在上述實驗中,設置每個相同部位的關注區(qū)域尺寸是相同的,目的是便于進行時間聚合,在此基礎上進行關注部位區(qū)域尺寸的討論,并記錄最優(yōu)的區(qū)域尺寸和識別準確率。首先進行單一關注區(qū)域尺寸的討論。以膝蓋為例,分別設定不同尺寸的膝蓋區(qū)域,記錄識別準確率,然后以所有關注區(qū)域的尺寸最優(yōu)值為約束條件,最終得到識別準確率。
表2 的上半部分為單一區(qū)域尺寸的實驗結果。可以看出,在原始圖像中,膝蓋區(qū)域尺寸為48×48時Rank-1準確率最高,達到80.4%,由實驗數據可以發(fā)現(xiàn),識別準確率會隨著設定區(qū)域的擴大而不斷減小,這是由于背景逐漸增多造成的影響。表2 的下半部分為關注區(qū)域尺寸全部為最優(yōu)值的實驗結果??梢钥闯?,在MARS數據集上Rank-1 準確率達到88.2%,在對單一區(qū)域尺寸進行單獨討論時,Rank-1 準確率都略低于88.2%,這是因為其他關注部位的區(qū)域尺寸不是最優(yōu)值。
表2 不同部位的關注區(qū)域尺寸Table 2 Size of attention region in different parts
2.2.3 橫向連接與融合模型
設置一系列對比實驗驗證融合模型的性能,首先是單一路徑實驗,分為慢網絡和快網絡進行雙路徑快慢網絡結合的實驗驗證??炻W絡橫向連接存在3 種形式,即時間到通道、時間跨度采樣和時間跨度卷積[15]。橫向連接需要匹配特征的大小,慢網絡的特征參數為{T,S2,C},快網絡的特征參數為{γT,S2,τC},其中,T為時間長度,S為特征表示的高度和寬度,C為通道數,γ為快慢路徑采樣幀數量之比,τ為快慢路徑通道數之比,且τ=。時間到通道表示將所有γ 幀打包到一幀的通道中,即將特征{γT,S2,τC}轉換為{T,S2,λτC};時間跨度采樣表示在每 個γ幀中采樣一次,即將特 征{γT,S2,τC}轉換為{T,S2,τC};時間跨度卷積采用5×12、2τC輸出通道、步長等于γ的3D 卷積核進行卷積。本文對每一種橫向連接形式都進行實驗對比,進一步驗證融合模型的優(yōu)越性??臻g關注模型數量和關注區(qū)域尺寸均采用上述實驗最優(yōu)值。
首先對單一路徑與雙路徑的對比,由表3 可以看出,在PRID 2011 和MARS 數據集上,雙路徑的識別性能更優(yōu)越。對于快慢網絡橫向連接的3 種形式[15],實驗結果表明:在PRID 2011 數據集上顯示時間跨度卷積的橫向連接性能最好,Rank-1 準確率達到78.2%,本文方法Rank-1 準確率達到93.4%,相較于時間跨度卷積提高15.2%;在MARS 數據集上本文方法Rank-1 準確率較時間跨度卷積提高13.6%。由實驗結果可得出,本文方法識別準確率遠高于單一路徑方法。
表3 在PRID 2011 和MARS 數據集上不同融合方法的準確率對比Table 3 Comparison of different fusion methods on PRID 2011 and MARS datasets %
本文方法 與SeeForest[19]、ASTPN[20]、RQEN[11]、MARS[21]、AMOC+EpicFLOW[22]、DRSTA[16]和STMP[13]方法的識別準確率對比如表4 所示。可以看出,在3 個數據集上,本文方法的Rank-1 準確率均能達到最優(yōu)。與STMP 方法相比,本文方法在MARS 數據集上的Rank-1識別準確率提高了3.8%,在iLIDS-VID數據集上Rank-1 準確率提高了2%。MARS 是最具有挑戰(zhàn)性的視頻行人重識別數據集,其中存在干擾視頻片段,圖5顯示,本文方法在MARS 上的的平均精度達到79.5%,較DRSTA 提高13.7%,較STMP 提高6.8%。這一結果表明,在關注區(qū)域的基礎上融合時空特性對再識別性能的提升有很大幫助。
表4 不同方法的準確率比較Table 4 Accuracy comparison between different methods %
圖5 MARS 數據集上不同方法的mAP 對比Fig.5 mAP comparison between different methods on MARS dataset
本文通過融合局部特征和全局特征,提出一種新的視頻行人重識別方法。在提取局部特征的同時,利用時間關注模型將視頻序列中同一關注部位的局部特征進行跨幀聚合,以形成視頻級關注區(qū)域特征表示,并通過融合模型將關注區(qū)域特征與全局特征融合,以形成具有全局空間細節(jié)和局部關注區(qū)域的視頻級特征表示?;谝曨l級特征表示計算特征距離,使用特征距離進行識別排序,在PRID2011、iLIDS-VID 和MARS 數據集上進行實驗驗證。實驗結果表明,本文方法能夠有效提升Rank-1 和mAP 指標,具有較高的識別準確率。后續(xù)將依據行人動作變化建立關注區(qū)域之間的結構關系,提取對姿勢變化更具有魯棒性的特征,進一步提升行人重識別性能。