亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結合多尺度特征學習與特征對齊的行人重識別

        2022-10-17 11:03:06金子豐卞春江
        計算機工程與應用 2022年20期
        關鍵詞:分支行人損失

        金子豐,卞春江,陳 實

        1.中國科學院 國家空間科學中心 復雜航天系統(tǒng)綜合電子與信息技術重點實驗室,北京 100190

        2.中國科學院大學 計算機科學與技術學院,北京 100049

        行人重識別被廣泛認為是圖像檢索的子任務,旨在從大量的行人圖像庫中檢索給定的目標圖像,從而幫助人們獲取目標跨多相機監(jiān)控下出現(xiàn)的信息。行人重識別技術具有廣泛的應用前景,如智能安防、身份認證、人機交互等,近年來,行人重識別逐漸成為計算機視覺領域的研究熱點[1]。

        早期的行人重識別工作主要集中于手工設計更好的視覺特征和學習更好的相似度度量兩個方面[2],其中主要用到的手工特征包括Gabor特征[3]、梯度直方圖(histogram of oriented gradient,HOG)[4]、SIFT(scale invariant feature transform)[5]等,一些工作[6-9]通過多種手工特征的組合來表示特定行人圖像,再通過距離度量手段進行特征間相似度計算。然而,由于實際監(jiān)控中的行人圖像場景復雜,行人重識別面臨人體姿勢與外觀變化、復雜背景干擾、遮擋、光照及攝像機視角變化等一系列挑戰(zhàn),且行人檢測誤差也會導致提供的行人包圍框質量不佳,傳統(tǒng)手工提取的特征對數(shù)據(jù)敏感,無法作為行人健壯的特征表示。

        最近幾年,以卷積神經(jīng)網(wǎng)絡為代表的深度學習已被成功應用到計算機視覺的多項任務中,如人臉識別、圖像分類、機器翻譯等,并取得了遠超傳統(tǒng)方法的性能,這得益于深度學習所具有的強大的特征提取和自動學習能力。在行人重識別領域,基于深度學習的方法重點關注于行人判別性特征的提取,通過利用GoogLeNet[10]、ResNet[11]等深度神經(jīng)網(wǎng)絡,結合特征學習算法來獲得行人更好的表示,并將其用于行人間的匹配。損失函數(shù)作為神經(jīng)網(wǎng)絡的監(jiān)督信息,對網(wǎng)絡的學習具有至關重要的作用,行人重識別工作中有兩種常用的損失函數(shù):分類損失和度量損失。分類損失將行人重識別看作一個分類任務,把網(wǎng)絡提取的特征經(jīng)過全連接層后用于行人的身份分類,如Softmax損失;度量損失不直接將特征用作分類,而是通過某種度量學習方式,使相同行人間的特征距離更小,不同行人間的特征距離更大,以達到區(qū)分不同行人的目的,常用的度量損失有對比損失(contrastive loss)[12]、三元組損失(triplet loss)[13],以及在三元組損失基礎上的一些改進[14-15]等。

        對于行人特征的學習來說,一個直觀的方法是對整個輸入圖像提取一個全局特征,這種全局特征學習的方式在于使網(wǎng)絡基于整個人體去學習一個完整的表示,由于沒有顯式地讓網(wǎng)絡關注人體的某個部分,可能會導致一些局部細節(jié)信息輕易地被忽略掉,這對于區(qū)分兩個外觀相似的行人是不利的。實際場景下,姿勢、相機視角、光照、分辨率等的不同均會導致較大的類內差異,同時,不同行人間的外觀相似性也會讓類間差異更小,使網(wǎng)絡難以實現(xiàn)有效的區(qū)分。識別相似的兩個行人,一些局部區(qū)分性細節(jié)是有用的,比如一個人是長發(fā)或短發(fā)、有無背包等,這些細節(jié)信息能夠提高人們識別的準確度,而這對于深度神經(jīng)網(wǎng)絡來說是困難的,因為它無法選擇性地去關注這些對識別有用的細節(jié)?;谏鲜隹紤],在提取全局特征的基礎上,一些工作通過手動或自動地讓網(wǎng)絡關注局部區(qū)域,并從局部區(qū)域中獲取有價值的細節(jié)信息,從而使網(wǎng)絡能夠學習到更加豐富的行人特征。常見的有利用姿態(tài)、骨架關鍵點定位網(wǎng)絡來獲取具有確定語義的身體部位,或通過行人屬性識別獲取人體屬性等輔助行人重識別的工作。這些方法需要額外訓練的檢測網(wǎng)絡,增加了整個模型的復雜度,且檢測效果易受數(shù)據(jù)質量和場景變化影響,不利于實際場景下的應用。因此,本文主要關注另一種簡單且更有效的局部特征學習方法,即對圖像或特征進行切分,最近被廣泛地應用到行人重識別領域,并獲得了更好的性能表現(xiàn)。需要注意的是,直接對圖像或特征進行切塊,要求行人圖像具有良好的空間對齊,當行人在圖像中具有不同分辨率、不同空間位置和較大姿勢差異的情況下,簡單地進行切分反而會使得模型學習到錯誤信息而判斷失誤[2,16]。

        綜上所述,針對一般行人重識別方法中存在的行人特征表示能力不足的問題,本文提出了一種新的多尺度特征學習算法,網(wǎng)絡采取多分支的結構,不同分支將不同尺度的特征圖作為輸入,學習更加健壯和豐富的人體特征。同時,考慮到人體在圖像中不對齊會導致模型性能下降,對骨干網(wǎng)絡不同深度輸出的特征圖,采用特征對齊模塊對其進行空間上的變換,調整人體特征在圖像中的大小和位置,實現(xiàn)人體特征在空間上的良好對齊。對齊后的特征有利于后續(xù)網(wǎng)絡的學習,同時也使模型在逐步迭代訓練的過程中,每個分支能夠更多地關注其負責的行人特征區(qū)域,而不是變化的背景或其他區(qū)域,從而提升多尺度特征學習算法的有效性。在測試階段,特征對齊模塊有助于相同人體區(qū)域的特征之間進行比較,避免了由于人體特征不對齊導致的相似性度量不準確。最后,在標準大型數(shù)據(jù)集上與一些代表性的方法做比較,驗證了所提出方法的有效性。

        1 相關工作

        在行人重識別中,局部特征與全局特征具有互補性質,兩種特征通常被結合起來改善行人重識別的結果。Tian等人[17]使用場景屬性和行人屬性來改善行人檢測結果,對背景相似的行人和困難行人樣本有更好的檢測能力;Zhao等人[18]提出了一種基于屬性驅動的行人重識別方法。單個行人圖像的特征被分解成若干子特征,每個子特征對應于特定區(qū)域的語義屬性。通過屬性識別的置信度對同一行人時域多幀圖像進行加權聚合得到最終表示。Lin等人[19]提出了一種屬性——身份識別網(wǎng)絡,分別訓練行人屬性識別和行人身份識別兩個模型,優(yōu)化兩個目標函數(shù)。對人進行重識別時,屬性信息作為行人重識別的輔助線索,利用屬性對大量的非目標圖像進行過濾,加快檢索速度,并提高重識別的精度。人體的屬性信息雖然能為行人重識別提供有用線索,但無法很好地應對遮擋和視角、姿勢的變化,而跨場景下屬性識別容易出現(xiàn)誤差,這會直接對行人重識別任務造成負面影響。

        局部特征學習的另一個重要方向,采取對圖像或特征進行切分的方式。Varior等人[20]采用孿生網(wǎng)絡,將輸入的一對圖片水平切分為若干份,然后將分割好的若干圖像塊按照順序送到一個長短時記憶網(wǎng)絡(long short term memory network,LSTM)[21],融合所有圖像塊的局部特征得到最后的特征表示。簡單地進行圖像水平切分來提取局部特征,要求輸入的圖像本身具有高度的對齊,否則如果圖像本身在空間上的分布不一致,如圖1,當一個圖像中的頭部對應另一個圖像中的胸部或背景,將兩個具有不同語義的特征進行比較會導致錯誤。Zhang等人[22]設計了一種動態(tài)對齊網(wǎng)絡實現(xiàn)圖片塊從上到下的自動對齊。在人體的空間對齊問題上,Zheng等人[23]利用空間轉換網(wǎng)絡[24](spatial transformer networks,STN),代替直接對原始圖像進行切分和對齊,通過STN網(wǎng)絡對CNN提取的淺層特征進行空間變換,達到人體特征在空間上對齊的目的。同樣,Dai等人[25]也采用STN來緩解數(shù)據(jù)集中圖像的空間錯位問題;Han等人[26]通過STN聯(lián)合優(yōu)化行人檢測和行人重識別兩個任務,利用行人的分類損失指導行人檢測網(wǎng)絡生成更好的行人包圍框。另外,一些其他的工作[27-28]通過引入關鍵點和姿態(tài)檢測網(wǎng)絡,獲得相對準確的身體部位劃分,前提是圖像中人體的各個部位能夠被準確識別和定位,同時額外的檢測網(wǎng)絡使整個模型變得更加復雜,無法以端到端的方式學習。

        圖1 行人空間不對齊示例Fig.1 Examples of pedestrian spatial misalignment

        最近,Sun等人[29]提出PCB(part-based convolutional baseline,PCB)網(wǎng)絡為局部特征學習提供了新的思路,因其具備簡單且高表現(xiàn)的優(yōu)勢,成為行人重識別領域一個流行的基準。代替對原始圖像進行水平分塊,PCB網(wǎng)絡對骨干網(wǎng)絡輸出的特征圖進行水平切分得到六個局部特征,隨后,六個局部特征被送入六個獨立的分支,讓每個分支從局部信息中學習行人的分類。這種直接的切分方法可能將原本屬于一個部分的特征劃分到不同部分,作者提出了部分修正模塊RPP(refined part pooling,RPP),在一定程度上緩解了這種簡單的方式引起的劃分錯誤。然而,PCB網(wǎng)絡的性能仍然受限于兩個方面。首先,如圖1所示,在實際場景中,來自于姿勢、視角和分辨率等的巨大差異導致的行人身體在圖像中的不對齊更加嚴重,此時RPP的作用是有限的;其次,人體各部分信息具有強的語義相關性,這種相關性有助于網(wǎng)絡學習到更好的表示,而將特征圖切分成多個部分獨立進行學習,丟失了各部分特征之間的關聯(lián)信息。

        針對上述問題,本文所提出的行人重識別方法,通過對特征進行空間上的變換以實現(xiàn)人體特征在空間上的對齊。在此基礎上,對網(wǎng)絡最終輸出的規(guī)范的特征圖,應用所提出的多尺度特征學習算法,使網(wǎng)絡在多個尺度的特征上學習不同粒度水平的人體信息,同時保留了人體各部分特征之間的內在聯(lián)系,最終實現(xiàn)模型識別性能的提升。

        2 行人重識別方法

        本文采用ResNet-50作為特征提取的骨干網(wǎng)絡,在其基礎上做了一些簡單的修改。首先,本文將ResNet-50網(wǎng)絡中的全局平均池化層替換成一種多尺度的特征池化層,通過不同大小的池化核,得到多個尺度的特征張量,作為后續(xù)多尺度特征學習分支的輸入。其次,通過將ResNet-50最后一個階段中下采樣操作的步長從2修改為1,使得輸出的特征圖在尺寸上擴大了一倍,更高空間分辨率會使特征保留更多的細節(jié)信息,為模型帶來顯著的提升[29-30]。最后,在不同的數(shù)據(jù)集上,把用于分類的全連接層根據(jù)數(shù)據(jù)集的訓練行人數(shù)目進行相應的修改,以完成模型在不同數(shù)據(jù)集上的訓練任務。

        2.1 多尺度特征學習算法

        對行人圖像提取一個全局特征是簡單的,但它沒有考慮局部信息,導致一些有用的細節(jié)常常被忽略;而無論是對圖像還是特征進行切塊,目的都在于讓網(wǎng)絡從有限的局部特征中去學習行人代表性的細節(jié)內容,在分類損失監(jiān)督下,實現(xiàn)局部特征到行人身份的正確分類。之前的局部特征學習的工作主要關注對圖像或特征的劃分方式,而忽略了人體各部分特征間是高度相關的,這種相關性有助于學習到更好的行人表示,比如一件衣服或背包,當被劃分到不同的部分之后,會失去其代表的實際語義和上下文關聯(lián)。本文提出的多尺度特征學習算法,彌補了簡單切分的學習方式存在的不足。如圖2所示,輸入圖像x,經(jīng)過ResNet-50骨干網(wǎng)絡得到特征張量T∈RH×W×C,其中C為通道數(shù),H和W分別為高和寬。隨后,一個多尺度特征池化層,代替原ResNet-50中的全局池化層,對T以不同大小的池化核進行池化,得到多個不同尺度的特征張量作為后續(xù)多尺度特征學習分支的輸入。

        圖2 網(wǎng)絡的多分支結構Fig.2 Multi-branch structure of network

        在本文的實驗設置中,輸入x的大小被調整為324×128,則經(jīng)過ResNet-50得到張量T∈R24×8×2048,本文中將3維張量沿通道維度方向定義為特征向量,對于張量T,其包含192個特征向量,每個向量的維度為2 048。在多尺度特征池化層,三種不同大小的池化核(相同步長,均為8×8)作用于T,得到三個不同尺度的特征,網(wǎng)絡由此被分為三個獨立的分支。其中,張量T經(jīng)過大小為8×8的平均池化得到zP1∈R3×1×2048作為局部分支P1的輸入,同樣,經(jīng)過16×8的平均池化得到zP2∈R2×1×2048作為局部分支P2的輸入。24×8的平均池化得到zG∈R1×1×2048,作為第三個分支的輸入,因為該分支相當于對T作全局平均池化得到一個行人的全局特征作為輸入,因此該分支被當作全局分支G。在局部分支P1與P2中,輸入特征分別經(jīng)過一個1×1的卷積層進行降維,然后再經(jīng)過批歸一化層,ReLU激活層,得到fP1∈R3×1×512與fP2∈R2×1×512,隨后,fP1與fP2在垂直方向上進行水平切分,分別得到切分后的特征向量被用作局部特征學習。在局部分支P1中,fP1被水平切分成三個部分,三個部分分別關注張量T上互不相干的三個特征區(qū)域。而在局部分支P2中,對fP2切分得到的兩部分特征向量在T上具有上下重疊的感知區(qū)域,這使得在P1分支中被切分到不同部分的特征,在P2分支與全局分支G中彌補了其所丟失的相關性。在多尺度池化層的作用下,三個分支用于分類的特征向量具有不同大小的感知野,以學習不同粒度水平的人體特征,全局分支中的特征zG具有全局感知野,綜合考慮行人的全部信息,用于學習行人整體上的表示。局部分支P1與P2中的特征向量具有更小的感知野,每個向量關注特征圖上對應的局部區(qū)域,用來學習局部細節(jié)信息的提取。因為具有更小的池化核尺寸,P1分支中的每個特征向量比P2分支中的感知野更小,學習更精細的局部信息。

        度量損失和分類損失通常被結合用于優(yōu)化行人重識別模型,有助于獲取更具判別性的行人特征表示。在全局分支G中,本文同時使用度量損失和分類損失。具體來說,全局特征zG被用于度量損失,拉近類內距離,推開類間距離;分類損失不直接作用于zG,而是zG經(jīng)過批歸一化(batch normalization,BN)后的特征fG,這降低了分類損失與度量損失之間的約束,使兩者更容易實現(xiàn)同步收斂。在局部分支P1與P2中,將切分后的局部特征向量,輸入到各自的分類層單獨計算分類損失,網(wǎng)絡最終的損失等于來自三個分支的六個分類損失與來自全局分支G中的度量損失的和。在測試階段,將三個分支中的特征fP1、fP2與fG進行級聯(lián)得到行人最終的特征表示,用于行人間的特征比對。

        2.2 特征對齊模塊

        行人圖像或特征在空間上的不對齊,會對模型的識別造成不良影響。針對這個問題,大部分工作著眼于使用額外的姿態(tài)或骨架關鍵點檢測模型來定位身體部位,以進行局部特征的學習和比對,這不僅使模型變得復雜,且無法以端到端的方式去訓練檢測和識別兩個不同的任務,使檢測模型提供的檢測結果變得不可靠。STN首次被提出用來對圖像或特征執(zhí)行空間變換,增強模型對圖像中的目標主體平移、縮放、扭曲等的適應能力。在行人重識別領域,一些工作利用STN對圖像或特征進行空間上的變換以達到人體或人體特征對齊的目的,伴隨著網(wǎng)絡的訓練過程,STN將對各種類型的輸入學習相應的空間變換策略。受上述工作啟發(fā),本文在ResNet-50的不同深度應用特征對齊模塊,以確保其面對復雜場景下人體特征不對齊情況時能有效地發(fā)揮作用。特征對齊模塊被插入到ResNet-50中,作為一個整體進行端到端訓練,無需提供額外的數(shù)據(jù)集和標注信息,整個模塊具備可導性,使其能夠參與標準的誤差反向傳播和參數(shù)更新,在整個模型的訓練過程中得到學習。

        如圖3,特征對齊模塊包括變換參數(shù)估計和坐標采樣兩個步驟。具體來說,對于一個輸入張量U∈RH×W×C,變換參數(shù)估計由一個輕量級的CNN來完成,該輕量級網(wǎng)絡由卷積層、最大池化層、BN層、ReLU激活層和全連接層堆疊而成,最后用一個全連接層實現(xiàn)特征向量到變換參數(shù)向量維度的映射。本文采用仿射變換來作為特征對齊模塊中對特征的空間變換方式。通過參數(shù)估計網(wǎng)絡得到一個六維的變換參數(shù)向量θ,由θ構成仿射變換矩陣Aθ,Aθ的形式為:

        圖3 特征對齊模塊Fig.3 Feature Alignment Module,F(xiàn)AM

        對于期望輸出特征V∈RH×W×C上的特征點坐標G,根據(jù)Aθ有:

        在本文中,分別對骨干網(wǎng)絡ResNet-50中stage_1和stage_2輸出的特征圖,通過兩個特征對齊模塊執(zhí)行空間變換,表1展示了兩個特征對齊模塊中參數(shù)估計CNN網(wǎng)絡的設計細節(jié),1×1卷積先對輸入特征張量進行降維,減少特征對齊模塊的參數(shù)量,避免陷入過擬合;BN層穩(wěn)定梯度,使模型易于收斂;最后需要一個全連接層將不同長度的特征向量映射到固定長度的變換參數(shù),本文采用仿射變換因此有6個變換參數(shù)。參數(shù)估計網(wǎng)絡會在不同深度的特征圖上學習相應的空間變換參數(shù),以保證變換后的特征達到預期的效果。變換后的特征輸入網(wǎng)絡后續(xù)部分繼續(xù)前向計算過程。在測試階段,特征對齊模塊的應用能使模型提取到更有效的人體特征,進而提升特征間相似性度量結果的準確性。

        表1 參數(shù)估計網(wǎng)絡的結構設計Table 1 Structure design of parameters estimation network

        2.3 損失函數(shù)

        為了增強所學特征的判別能力,本文結合度量損失與分類損失共同指導網(wǎng)絡參數(shù)的學習。對于一個批次的訓練樣本{(xi,yi),i=1,2,…,N},Softmax損失形式為:

        其中,Wq表示類別q分類層的權重參數(shù),Q表示訓練集中行人類別數(shù)目,fi是網(wǎng)絡對xi提取的特征。

        在度量學習工作中,Triplet損失是一種常用的度量損失。對于一個訓練批次的P×K張圖像,其中P表示行人數(shù)目,K表示每個行人的圖像數(shù)目,Triplet損失每次從一批訓練數(shù)據(jù)中隨機選擇一個錨點樣本(anchor,a),一個與a相同身份的正樣本(positive,p),一個與a不同身份的負樣本(negative,n)構成一個三元組去訓練網(wǎng)絡,使同類樣本對間的距離小于不同類的樣本對。Triplet損失的限制在于其三元組的構建是一種隨機采樣的方法,沒有關注樣本之間的難易程度,大多數(shù)采樣得到的三元組都是一些易區(qū)分的樣本對,可能導致模型在面對困難樣本時無法進行正確區(qū)分。本文采用一種改進的Triplet損失,即難樣本采樣三元組損失(triplet loss with batch hard mining,TriHard損失)[31],通過在一批訓練數(shù)據(jù)中挖掘困難樣本,以增強模型對困難樣本的區(qū)分能力。在一批訓練數(shù)據(jù)中,TriHard損失三元組的采樣每次都挑選出一個與a相同身份但距離最大的作為正樣本p,與a不同身份但距離最小的作為負樣本n,組成難樣本三元組來訓練網(wǎng)絡。使用歐式距離作為度量函數(shù)時,損失函數(shù)形式如下:

        其中,α為控制類內與類間差異的閾值超參數(shù)分別為錨點樣本、正樣本和負樣本的特征。這種難樣本采樣的方法可以改進度量學習方法的性能,提高模型的泛化能力。

        其中,WP1,k、WP2,k與WG表示三個分支中各分類層的權重參數(shù)。

        3 實驗

        3.1 數(shù)據(jù)集和評價指標

        本文在兩個常用的大型公開行人重識別數(shù)據(jù)集,Market1501[32]與DukeMTMC-reID[33]上,對所提出的方法進行驗證,并與當前一些代表性的工作進行比較。Market1501采集于清華大學,圖像來自6個不同的攝像頭,其中有一個攝像頭為低分辨率。數(shù)據(jù)集包含1 501個行人,由檢測器檢測得到的32 668張圖像。數(shù)據(jù)集分為訓練集和測試集,訓練集包含751個行人的12 936張圖像,測試集圖像來源于其余750個行人。測試集又被劃分為查詢集和圖庫集,查詢集有3 368張圖像,圖庫集包括與查詢集相同行人的不同圖像13 056張,還有6 676張查詢集未出現(xiàn)過的行人的圖像被用于干擾項。DukeMTMC-reID采集于杜克大學,圖像來自8個高分辨率攝像頭,數(shù)據(jù)集共包含1 812個行人的36 411張圖像,由人手工標注得到。其中,訓練集包含702個行人的16 522張圖像,其余行人用于測試集。測試集中,查詢集由其余702個行人組成,共2 228個圖像,圖庫集中包含與查詢集相同行人的不同圖像,和用作干擾項的其他408個未出現(xiàn)在查詢集的行人的圖像共17 661張。

        本文采用k位命中率rank-k和平均精度(mean average precision,mAP)作為算法的評價指標。rank-k表示模型返回的排序列表中,前k個結果存在目標行人的概率;mAP反映了在排序列表中,目標行人在圖庫中所有圖像都排在前面的程度,綜合考慮查準率和查全率,能更全面地衡量算法性能。

        3.2 實驗設置

        本文在Ubuntu16.04,單塊11 GB的NVIDIA GeForce GTX 1080 Ti GPU環(huán)境下進行實驗。整個模型的實現(xiàn)基于PyTorch深度學習框架。使用在ImageNet[34]上預訓練的ResNet-50網(wǎng)絡權重初始化骨干網(wǎng)絡。在訓練過程中,輸入圖像被調整到384×128,使用隨機水平翻轉和隨機擦除進行數(shù)據(jù)增強,采用隨機抽取的P個行人,和對每個行人隨機采樣的K張圖片構成一個訓練批次,實驗中P=16,K=4。本文選擇Adam作為模型優(yōu)化器,動量設置為0.9,用于l2正則化的權重衰減系數(shù)為5E-4。TriHard損失中α被設置為1.2。訓練共經(jīng)過200輪,對于主網(wǎng)絡,初始學習率為5E-5,在前20輪線性增加到1E-3,并在第60和第150輪分別衰減為1E-4和1E-5。在訓練的開端,特征對齊模塊的變換參數(shù)θ11與θ22被初始化為0.9,其余為0,這使網(wǎng)絡從關注特征圖的中心區(qū)域開始訓練,特征對齊模塊的學習率設置為主網(wǎng)絡的0.1,避免模型震蕩難以收斂。

        3.3 實驗結果

        與最近一些具有代表性的行人重識別方法進行比較,其中PCB+RPP[29]將行人特征進行水平切塊進行局部特征學習;BDB[35]隨機擦除一個批次所有特征的相同區(qū)域,以增強局部區(qū)域注意力特征的學習;AANet[36]和APR[19]利用人體屬性信息輔助行人重識別任務;Spindle[27]和GLAD[28]通過骨架關鍵點檢測定位身體部位指導局部特征的學習。另外,AlignedReID[22]和PAN[23]將行人圖像或特征進行對齊來提升行人重識別精度。為了簡化實驗和直觀地分析方法本身的有效性,在本文的所有實驗中均使用單幀查詢模式,且未使用re-ranking[37]技術。

        表2列出了本文的方法及上述工作在Market1501上的實驗結果,本文方法的結果被展示在最后兩行,前一行為測試階段僅使用2 048維全局特征向量fG的實驗結果,后一行為將三個分支中的特征fP1、fP2與fG進行級聯(lián)的實驗結果,共4 608維??梢钥吹?,本文方法取得了更好的表現(xiàn),在僅使用全局特征向量fG用于特征匹配時,rank-1精度和mAP分別為94.82%和85.66%。當級聯(lián)各分支特征時,rank-1精度和mAP分別達到了95.31%和87.49%,優(yōu)于現(xiàn)有大多數(shù)行人重識別方法。與PCB+RPP相比,本文提出的方法在rank-1與mAP指標上分別增加了1.51和5.89個百分點;與BDB相比,本文的方法在rank-1與mAP指標上分別增加了1.11和3.19個百分點;PAN雖然也采用STN緩解人體特征不對齊的問題,但PAN將網(wǎng)絡劃分為主分支與對齊分支兩個部分,而不是在訓練過程中作為一個整體端到端地學習。與PAN相比,本文的方法將特征對齊模塊嵌入到骨干網(wǎng)絡中,是一個完整的端到端架構,特征對齊模塊通過優(yōu)化網(wǎng)絡的學習過程,進而促進多尺度特征學習算法更好地發(fā)揮作用。在各項指標上,本文的方法相比PAN有顯著提升。

        表2 Market1501數(shù)據(jù)集實驗結果對比Table 2 Comparison of experimental results on Market1501 單位:%

        如表3所示,在DukeMTMC-reID數(shù)據(jù)集上,本文的方法同樣取得了優(yōu)秀的表現(xiàn),其中,rank-1精度和mAP分別達到87.74%和77.53%。與PCB+RPP和BDB相比,rank-1分別提升了4.44和0.94個百分點。mAP分別提升了8.33和5.43個百分點。進一步驗證了本文方法的有效性。

        表3 DukeMTMC-reID數(shù)據(jù)集實驗結果對比Table 3 Comparison of experimental results on DukeMTMC-reID 單位:%

        在圖4中,列舉了一些給定行人圖像的前十位檢索結果,這些圖像取自Market-1501的查詢集,其中,錯誤的返回結果用紅色框標出。在前兩行,可以看到本文方法對各種姿勢和視角下的行人識別具有強大的魯棒性,即使給定的是一個人的正面圖像,其背后視角的圖像也得到了正確識別。在第一行雖然給定的是一個人不完整的背面圖像,本文方法依然能準確地找出其在多相機視角下的正確結果,這得益于多尺度特征學習算法,使網(wǎng)絡能提取到更豐富、更具代表性的人體特征。同時,當人體在圖像中的位置和分辨率具有較大變化時,也得到了正確的識別,特征對齊模塊使模型能夠更好地適應這些困難樣本。

        圖4 給定查詢圖像的前十位檢索結果Fig.4 Top-10 search results for some given query images

        3.4 分析與討論

        為了研究多尺度特征學習算法各分支作用,在Market1501數(shù)據(jù)集上,本文對各分支間的不同組合進行了一系列對比實驗,使用特征對齊模塊的結果被顯示在括號內,實驗結果如表4。其中,G表示ResNet-50+全局分支G的實驗結果,G+P1+P2則表示同時采用全局分支和兩個局部分支的實驗結果,即本文方法的最終結果。

        表4 Market1501上不同分支組合的實驗結果Table 4 Experimental results of different branch combinations on Market1501 單位:%

        可以看出,僅使用全局分支G時獲得了最差的結果,rank-1與mAP分別為93.05%和82.87%,同時使用全局分支G和局部分支P1時,rank-1與mAP分別增加了0.76和1.79個百分點,而同時使用全局分支G和局部分支P2時,rank-1與mAP分別增加了1.07和2.31個百分點,局部分支的加入增強了模型的識別能力。G+P2的結果略優(yōu)于G+P1,因為P2分支中特征的每個列向量在張量T上具有相互重疊的感知區(qū)域,這使在進行局部特征學習的同時,保留了更多特征間的相關性信息。G+P1+P2作為本文最終的方法,獲得了最好的實驗結果,相比僅使用單一的全局特征,rank-1與mAP分別增加了1.37和3.02個百分點,因為每個分支學習不同粒度水平的人體特征,不同分支學習的特征相互補充,進一步增強模型所提取特征的豐富性和表示能力。另外,表4中的實驗結果表明,在多項對比實驗中,特征對齊模塊的加入對結果有進一步的提升。

        為了直觀分析特征對齊模塊在整個模型中的作用,對ResNet-50中stage_2的輸出Ustage_2∈Rn×512×48×16,通過可視化得到其通過特征對齊模塊變換前后的特征響應圖。如圖5所示,抽取的幾張示例圖像來自于Market1501測試集??梢钥吹?,特征對齊模塊變換之前的特征對人體以外的背景也具有不同程度上的高響應,且各特征圖中人體特征的大小和位置具有較大差異,這對模型的學習和識別是不利的。當特征被輸入特征對齊模塊后,變換后的特征丟棄掉了人體特征以外大量無用的背景干擾信息,使高響應聚焦于人體,從而強調了圖像中包含人體信息的重要部分而抑制背景;在所有的例子中,人體特征圖都得到了不同程度上的平移和縮放,變換后的人體特征更靠近特征圖的中心區(qū)域,得到良好的對齊,這對網(wǎng)絡學習行人的判別性表示是非常重要的。

        圖5 變換前后特征的可視化示例Fig.5 Visualization examples of features before and after transformation

        4 總結

        當前一些行人重識別方法對行人提取一個簡單的全局特征,無法應對復雜的行人重識別場景;局部特征學習的方法有助于學習到豐富的人體局部信息,但將行人生硬地劃分成多個部分,對每個部分獨立地學習該部分的表示,忽略了人體各部分之間的相關性,而部分劃分的錯誤也會影響行人重識別效果。本文提出的多尺度特征學習算法,在多個尺度的特征上學習不同粒度水平的人體信息,同時保留了各部分特征之間的相關性,增強模型所提取特征的表示能力。實驗結果表明,多尺度特征學習算法優(yōu)于單一的全局特征和一般的局部特征學習方法。特征對齊模塊通過將不對齊的人體特征執(zhí)行相應的空間變換,將其調整到適當?shù)拇笮『臀恢?,增強模型對圖像中人體大小和位置差異的適應能力,進一步提升識別精度。本文方法在兩個大型行人重識別數(shù)據(jù)集上均取得了優(yōu)秀的識別結果,在接下來的工作,將從實際應用的角度出發(fā),進一步研究跨場景下如何提升行人重識別模型的泛化能力,并結合行人檢測模型完成行人重識別系統(tǒng)的實現(xiàn)和優(yōu)化。

        猜你喜歡
        分支行人損失
        少問一句,損失千金
        胖胖損失了多少元
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        巧分支與枝
        學生天地(2019年28期)2019-08-25 08:50:54
        路不為尋找者而設
        揚子江(2019年1期)2019-03-08 02:52:34
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        一類擬齊次多項式中心的極限環(huán)分支
        我是行人
        一般自由碰撞的最大動能損失
        生成分支q-矩陣的零流出性
        日韩欧美中文字幕公布| 国产一区二区熟女精品免费| 亚洲天堂av在线观看免费| 麻豆国产精品一区二区三区| 疯狂做受xxxx国产| 4hu四虎永久在线观看| 亚洲欧美欧美一区二区三区| 毛片av中文字幕一区二区| 国产一区二区长腿丝袜高跟鞋 | 免费人妻无码不卡中文字幕18禁| 中文字幕日韩高清| 国产精品三级自产拍av| 亚洲av不卡免费在线| аⅴ资源天堂资源库在线| 亚洲AⅤ无码片一区二区三区| 丰满熟女人妻一区二区三区| 亚洲综合网国产精品一区| 中文国产日韩欧美二视频| 日本a在线免费观看| 久久精品国产一区老色匹| 日日躁夜夜躁狠狠躁| 亚洲综合av在线在线播放| 极品人妻少妇一区二区| 久久人妻一区二区三区免费| 国产成本人片无码免费2020| 无码人妻系列不卡免费视频| 蜜桃视频一区二区三区| 国产一区二区三区小说| 人人妻人人澡人人爽曰本| 如何看色黄视频中文字幕| 一区二区三区日韩亚洲中文视频 | 女人天堂av人禽交在线观看| 中国女人内谢69xxxxxa片| 亚洲精品久久久久久动漫| 国产乱人伦AⅤ在线麻豆A| 日韩av天堂一区二区| 日本一卡2卡3卡4卡无卡免费网站| 97午夜理论片在线影院| 亚洲一区二区精品久久岳| 日本黄色影院一区二区免费看| 亚洲中文字幕无码av|