亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LSTM的無監(jiān)督域自適應(yīng)行人重識別①

2021-02-23 06:30:22胡卓晶

計算機系統(tǒng)應(yīng)用 2021年2期

關(guān)鍵詞：特征模型

胡卓晶,王敏

(河海大學計算機與信息學院,南京 210024)

1 引言

行人重識別(person re-identification)又稱行人再識別,被廣泛認為是圖像檢索的子問題,其目標是給定一張監(jiān)控行人圖像,跨設(shè)備檢索該行人,即確認不同攝像頭在不同時刻拍到的是否為同一行人.如何提取行人特征以及如何進行相似度度量就是行人重識別需要解決的核心問題.行人重識別與行人檢測、行人跟蹤技術(shù)相結(jié)合,在公共安防的刑偵工作中以及圖像檢索等場景中有很高的應(yīng)用價值.但由于圖像拍攝的時間、地點隨機,且光線、角度、行人姿態(tài)不同,再加上行人容易受到檢測精度、遮擋等因素的影響,不同攝像頭下造成行人外觀的巨大變化,因此行人重識別技術(shù)仍面臨著重大的挑戰(zhàn).

早期的行人重識別研究集中于如何手工設(shè)計好的視覺特征以及如何學習更好的相似性度量.隨著深度學習的發(fā)展,鑒于其可以自動提取圖像特征并學習好的相似度度量,研究者們致力于利用深度學習技術(shù)來研究行人重識別.起初研究者們主要關(guān)注的是用網(wǎng)絡(luò)提取單幀圖片的全局特征,根據(jù)損失的不同分為表征學習和度量學習兩大類,前者將行人重識別問題看作分類問題或驗證問題:利用行人ID 或?qū)傩缘茸鳛闃撕瀬碛?xùn)練模型或輸入一對行人圖片,網(wǎng)絡(luò)通過學習特征表示來判斷兩張圖片是否屬于同一行人;后者旨在通過網(wǎng)絡(luò)學習出兩張圖片的相似度.全局特征的學習遇到性能瓶頸后,研究者引入局部特征和序列特征進行研究,并作為全局特征的重要補充.Sun 等[1]在PCB的基礎(chǔ)上,通過測量余弦距離,為各分區(qū)的離群值進行重新分區(qū)進而細化模型.Wang 等[2]將圖像均勻地水平劃分為若干塊,并在各局部分支中改變分區(qū)的數(shù)量,從而獲得具有多個粒度的全局和局部特征表示.目前行人重識別在有監(jiān)督學習方面已取得了很好的成績.但有監(jiān)督學習的一個最大限制是為數(shù)據(jù)貼標簽的成本過高,在如今數(shù)據(jù)爆炸的時代下將行人重識別技術(shù)應(yīng)用于實際的可能性微乎其微.為解決上述難題,研究者們開始逐漸嘗試利用無標簽數(shù)據(jù)進行訓(xùn)練,越來越多基于半監(jiān)督和無監(jiān)督的行人重識別方法開始出現(xiàn).Wu 等[3]首先使用每個身份的一個有標簽的軌跡來初始化模型,然后使用該模型特征表示的識別能力來為未標記的軌跡賦標簽,提出一種循序漸進的抽樣策略,逐步增加偽標簽候選項的數(shù)目,以取代現(xiàn)有的靜態(tài)抽樣策略.Deng 等[4]以無監(jiān)督的方式將有標簽的圖像從源域轉(zhuǎn)換到目標域,然后用轉(zhuǎn)換后的圖像以有監(jiān)督的方式訓(xùn)練行人重識別模型.Fu 等[5]在源域上進行模型的預(yù)訓(xùn)練,然后利用無標簽樣本中(包含全局和局部)潛在的相似性從不同視角構(gòu)建多個聚類并為其分配偽標簽,分組和細化迭代進行.從研究者們的實驗來看,遷移學習的優(yōu)勢十分明顯,可以充分利用有限的有標簽數(shù)據(jù)集,將有標簽數(shù)據(jù)與無標簽數(shù)據(jù)相結(jié)合共同訓(xùn)練網(wǎng)絡(luò),從而更好地解決行人重識別問題.

在實際應(yīng)用中,對大規(guī)模數(shù)據(jù)集貼標簽成本過高,且各攝像頭所拍攝圖像的風格差異較大.在本文中,利用有標簽的源域數(shù)據(jù)集和經(jīng)過風格轉(zhuǎn)換的無標簽?zāi)繕擞驍?shù)據(jù)集同時對模型進行訓(xùn)練,這種設(shè)置在解決實際問題時更有意義.本文提出的網(wǎng)絡(luò)架構(gòu)包含全局分支和局部分支,局部分支利用LSTM 實現(xiàn),以更好地利用行人圖像的各局部信息生成更加魯棒的行人特征表示.通過這種方式,可以更好地優(yōu)化模型,提升模型在目標域測試集上的泛化能力.下面將具體介紹本文所提出的行人重識別方法.

2 基于LSTM 的無監(jiān)督域自適應(yīng)行人重識別

在行人重識別領(lǐng)域,對于無監(jiān)督域自適應(yīng)問題,有標簽的源域數(shù)據(jù)集 {Xs,Ys}包含Ns張行人圖片,每張圖片xs對應(yīng)一個標簽ys,其中ys∈{1,2,···,Ms},并且Ms是有標簽的源域數(shù)據(jù)集中行人ID 的數(shù)量.同樣,在無標簽的目標域中有Nt張無標簽的目標域圖片{Xt},其中每張目標域圖片xt的身份是未知的.本文的目的就是利用有標簽的源域圖片和無標簽的目標域圖片來提升模型在目標域測試集上的泛化能力.

2.1 網(wǎng)絡(luò)架構(gòu)

圖1展示了本文模型的網(wǎng)絡(luò)架構(gòu)圖.采用在Image-Net 上預(yù)訓(xùn)練的ResNet50 作為主干網(wǎng)絡(luò),其在一些行人重識別的研究中已取得了不錯的性能.與原版本的不同之處在于我們移除了最后的全局平均池化層和1000維全連接層,并添加了兩個獨立的分支,分別學習全局特征表示和局部特征表示.第一個分支是全局分支,學習行人的全局特征表示,第一個全連接層的輸出是2048 維,命名為FC-2048,第二個全連接層的輸出維度為源域ID 數(shù)量,命名為FC-#ID.基于整張行人圖片學習特征表示關(guān)注的更多的是整體的信息,包含體型等高維語義信息.然而在很多情況下,人體的局部比如頭部、上半身、下半身含有更多具有判別力的信息,一些基于身體部位來學習特征表示的方法也證明其可以提升行人重識別的效果.因此學習行人的局部特征表示可以作為全局特征表示的一個強有力的補充.大多數(shù)基于局部的方法會將各身體部位嚴格劃分后各自輸入到完全獨立的分支中,但這種方式忽略了各部位之間的空間連通性,會損失一部分各關(guān)聯(lián)區(qū)域有判別力的信息,因此在本文提出的局部分支中我們將特征向量水平劃分為3 個部分,再使用雙向LSTM 將各個區(qū)域連接起來就像是一個從頭到腳的序列,這樣可以增強各部位之間的連通性.局部分支中通道維度是2048維,雙向LSTM 的隱層單元數(shù)設(shè)為256,后續(xù)全連接層的命名方式同前一個分支一樣,兩個分支共享POOL-5之前的部分.這樣通過結(jié)合全局特征和基于LSTM 的局部特征能夠增強行人重識別模型所學特征的判別力.

本文提出的網(wǎng)絡(luò)架構(gòu)中各分支均使用兩個損失函數(shù)來學習,一個是用于分類的交叉熵損失,增強模型的判別能力;一個是進行相似度學習的三元組損失,用于增強模型的相機不變性和域連通性.

圖1 網(wǎng)絡(luò)架構(gòu)圖

網(wǎng)絡(luò)架構(gòu)圖中的斷點箭頭為目標域訓(xùn)練集所經(jīng)過的分支,空心箭頭為源域訓(xùn)練集經(jīng)過的分支,實心箭頭為兩個訓(xùn)練集共同經(jīng)過的部分.

2.2 相機風格轉(zhuǎn)換

在行人重識別測試階段,由攝像頭造成的圖片風格差異是一個關(guān)鍵的影響因素.為使目標域圖片不受相機風格轉(zhuǎn)換的影響,我們使用無標簽的目標域圖片和該行人在其他相機中的對應(yīng)圖片進行相機一致性學習.我們采用StarGAN[6]構(gòu)建的相機風格轉(zhuǎn)換模型對目標域訓(xùn)練集進行風格遷移,這是因為StarGAN 允許采用單個模型來訓(xùn)練多相機之間的圖片-圖片轉(zhuǎn)換.使用學到的StarGAN 模型,對于目標域訓(xùn)練集第j(j∈1,2,···,C)個相機拍攝的真實圖片,我們可以生成C張偽造的圖片xt?,1,xt?,2,···,xt?,C,所生成的圖片都或多或少保留了行人的身份信息,但是整體風格分別與相機1,2,···,C類似.為在目標訓(xùn)練集中學習相機不變的行人特征映射,我們將原圖與對應(yīng)的生成圖片視作同一類,其余圖片視作不同類.

2.3 基于LSTM 的局部特征表示學習

PCB[1]、MGN[2]等證實采用局部特征進行行人圖像描述可以學到更加細粒度的特征,因而提升行人重識別的性能.大多數(shù)基于部分的方法將行人身體部位嚴格劃分,劃分后得的各部分被輸入到獨立的分支來學習對應(yīng)的局部特征.但部分獨立學習的過程忽略了各部位之間的空間連通性,而這在行人重識別中對學習有判別力且魯棒的特征映射是相當有用的.假如直接將行人水平劃分為3 部分,各行人姿態(tài)不同,可能在某些判別力強的部位進行分割,如衣服上的logo 分割后各部分單獨學習,無法學習完整的有判別力的特征,從而降低模型的判別能力.我們注意到行人自上而下可以劃分為一個從頭到腳的序列,即使在不同圖片中各部分不會穩(wěn)定在某一位置,所有的部分可以以一種序列的方式得益于身體結(jié)構(gòu)的先驗知識.LSTM 單元架構(gòu)圖如圖2所示.LSTM 單元之間的循環(huán)連接能夠生成依賴歷史輸入的特征.更重要的是,受益于內(nèi)部門機制,LSTM 可以控制信息從當前狀態(tài)流入下一狀態(tài).基于上述分析,我們采用LSTM 來為行人重識別建模身體序列.

LSTM 單元結(jié)構(gòu):包含一個細胞模塊ct和3 個門,分別是輸入門it、輸出門ot以及遺忘門ft,在t時刻,LSTM 將第t個特征切片xt和前一個隱層的狀態(tài)ht?1作為輸入,并且預(yù)測一個特征向量ot.

圖2 LSTM 單元架構(gòu)圖

2.4 損失函數(shù)

如2.1 節(jié)所述,不同分支所學到的行人特征是互補的,因此我們聯(lián)合訓(xùn)練整個網(wǎng)絡(luò)學習具有判別力的全局特征和局部特征來預(yù)測行人身份.我們提出的模型不僅關(guān)注特征表示,還關(guān)注特征學習.給定有標簽的訓(xùn)練集,一個有效的策略是為行人重識別學習ID 判別映射(IDE),利用交叉熵損失將訓(xùn)練過程轉(zhuǎn)換為分類問題,該策略利用所學的深層特征來區(qū)分不同的行人ID.交叉熵損失公式如下:

其中,ns為一個訓(xùn)練批中有標簽的訓(xùn)練圖片數(shù)量,pi(y)指的是輸入圖片屬于真實類別y的可能性.

但行人重識別的需求是將待檢索圖片與圖庫圖片進行配對,而分類任務(wù)并不能直接學習行人重識別所要求的相似度.此外,基于IDE 的模型在有標簽數(shù)據(jù)集上能得到很好的性能,但遷移到一個新的數(shù)據(jù)集時,性能就會大打折扣,研究表明,利用三元組損失訓(xùn)練的距離排序分支可以學習圖片的相似度.在整個訓(xùn)練過程中將交叉熵損失與三元組損失聯(lián)合訓(xùn)練也是行人重識別框架中的一種傳統(tǒng)操作.這樣,判別分支和應(yīng)用三元組損失的距離排序分支可以互補.接下來介紹我們提出的模型的訓(xùn)練策略.

如圖1所示,有標簽的源域圖片和無標簽的目標域圖片同時輸入到網(wǎng)絡(luò)中,在全局分支,有標簽的源域圖片利用交叉熵損失和三元組損失來訓(xùn)練,無標簽的目標域數(shù)據(jù)集行人ID 數(shù)未知,因此僅利用三元組損失進行優(yōu)化訓(xùn)練.三元組損失函數(shù)如下:

式(2)中,隨機選擇訓(xùn)練樣本的P個行人ID,以及各ID 對應(yīng)的K個樣本,、、分別為anchor、positive以及negative 的特征表示,上標中的i、j分別表示的是行人ID,α指的是三元組損失中的參數(shù)margin.通過Triplet Loss 的學習后使得positive 元和anchor 元之間的距離最小,而和negative 之間距離最大.其中anchor為訓(xùn)練數(shù)據(jù)集中隨機選取的一個樣本,positive 為與anchor 屬于同一類的樣本,而negative 則為與anchor不同類的樣本.

同全局分支一樣,在基于局部的分支中,有標簽的源域圖片同樣利用交叉熵損失和三元組損失來訓(xùn)練,無標簽的目標域圖片利用三元組損失訓(xùn)練.

在行人重識別任務(wù)中,不同的域包含完全不同的類別或身份,因此一張源域圖片和一張目標域圖片自然構(gòu)成一對負訓(xùn)練樣本對.以此為先驗條件,我們提出通過將源域和經(jīng)過風格轉(zhuǎn)換的目標域圖片視為負樣本對來為系統(tǒng)習得域連通性.給一張源域圖片,我們使用源域標簽構(gòu)造一對正樣本對,然后選擇一張經(jīng)過風格轉(zhuǎn)換的目標域圖片形成負樣本對.因此給定有標簽的源域圖片和無標簽的目標域圖片,域連通性學習的損失函數(shù)可以定義為:

最后,在一個訓(xùn)練批中的總的損失函數(shù)可以描述為:

其中,θ是平衡交叉熵損失和域連通性損失的權(quán)重因子.

2.5 最大池化和平均池化

平均池化考慮特定部分的整個區(qū)域,因此,平均池化所生成的特征表示的判別能力很容易受到不相關(guān)背景模式的影響.例如,行人的某個分區(qū)判別能力很強,但由于周圍有背景,此時全局平均池化所得到的是該部分與周圍背景的平均值,因此削弱該部分的判別能力.相反,全局最大池只保留局部視圖的最大響應(yīng)值.我們認為這兩種池化策略在從全局和局部視圖生成特性表示方面是互補的.因此,我們在模型中聯(lián)合這兩種池化策略,以融合并發(fā)揮這兩種策略的優(yōu)勢.

3 實驗分析

3.1 實驗數(shù)據(jù)與評估標準

本文在行人重識別的兩個常用行人數(shù)據(jù)集上進行訓(xùn)練與評估,分別為:Market-1501[7]和DukeMTMCReID[8,9].其中Market-1501 包含6 個攝像頭下的1501 個行人的32 668 張圖片,為方便評估,751 個行人的12 936張圖片用于訓(xùn)練,剩余的750 個行人的10 732 張圖片作為評估數(shù)據(jù)集.DukeMTMC-ReID 數(shù)據(jù)集包含8 個攝像頭下的1404 個行人的36 411 張圖片,類似于Market-1501 的劃分,該數(shù)據(jù)集包含702 個行人的16 522 張訓(xùn)練圖片和剩余702 個行人的2228 張待查找圖片以及17 661 張圖片形成的圖庫.本文在各數(shù)據(jù)集上使用傳統(tǒng)的平均準確度mAP 和rank-n對實驗結(jié)果進行評估.

3.2 實驗環(huán)境及參數(shù)配置

本實驗選取在ImageNet 上預(yù)訓(xùn)練的ResNet50 作為主干網(wǎng)絡(luò),移除最后的全連接層和全局平均池化層.通道數(shù)設(shè)為2048,雙向LSTM 中的隱層單元數(shù)設(shè)為256,三元組特征維度為128.我們的模型基于PyTorch框架實現(xiàn),使用兩個NVIDIA TITAN X GPU 進行訓(xùn)練.

本實驗中采用通用的數(shù)據(jù)增強策略,在訓(xùn)練時首先將所有圖片大小調(diào)整為256×128;然后隨機裁剪每一張調(diào)整后的圖像,尺寸在區(qū)間[0.64,1.0]內(nèi),長寬比為[2,3];再將裁剪后的圖片大小調(diào)整為256×128,應(yīng)用概率為0.5 的隨機水平翻轉(zhuǎn).在測試階段,僅將輸入圖片大小調(diào)整為256×128.模型的訓(xùn)練過程總共30 個epoch,使用Adam 優(yōu)化器進行訓(xùn)練.訓(xùn)練階段學習率初始化為3e–4.三元組損失中的邊緣參數(shù)被置為0.5,參數(shù)θ 置為0.3,dropout 率為50%.測試時,提取POOL-5 層的輸出作為圖片的特征表示,并采用歐氏距離來計算待查找圖片和數(shù)據(jù)庫圖片之間的相似度.

3.3 實驗比較

將我們的方法與最先進的無監(jiān)督學習方法進行比較.表1給出了以Market-1501/Duke 為源數(shù)據(jù)集,以Duke/Market-1501 為目標數(shù)據(jù)集時的比較.其中LOMO[10]和Bow[7]是人工提取特征的方法,CAMEL[11]是無監(jiān)督學習方法,PTGAN[12]、SPGAN[4]、SPGAN+LMP[4]、TJ-AIDL[13]和HHL[14]是無監(jiān)督域自適應(yīng)方法.兩種人工提取的特征直接應(yīng)用于測試集而不需要任何訓(xùn)練,但很明顯,這兩種方法的性能都較差.很明顯,在目標域數(shù)據(jù)集上進行訓(xùn)練時,無監(jiān)督方法的性能總是優(yōu)于人工提取特征.與無監(jiān)督域自適應(yīng)方法相比,本文提出的方法性能更好.具體來說,在Market-1501上測試,我們的結(jié)果高于所有競爭方法,rank-1 準確率=65.8%,mAP=35.2%.例如,與最近發(fā)表的HHL 方法[14]相比,我們的結(jié)果在rank-1 精度上提高了3.6%,在mAP 上提高了3.8%.在DukeMTMC-reID 上進行測試,我們的方法獲得rank-1 準確率=48.1%,mAP=28.7%,也優(yōu)于之前的方法.驗證了我們方法的有效性.

表1 與當前先進算法性能比較

4 結(jié)論與展望

本文提出了一種新的無監(jiān)督域自適應(yīng)方法來解決無標簽的行人重識別問題,本次實驗考慮不同數(shù)據(jù)集及各相機間拍攝風格的差異,充分利用現(xiàn)有的有標簽的數(shù)據(jù)來輔助無標簽數(shù)據(jù)集聯(lián)合訓(xùn)練網(wǎng)絡(luò),在學習相機不變性和域聯(lián)通性的同時,利用LSTM 來對行人進行建模,提取細粒度特征的同時增強了各局部區(qū)域之間的連通性,全局特征與局部特征相結(jié)合以學習更加魯棒的行人特征表示,進一步提升模型在無標簽?zāi)繕擞虻呐袆e力.在數(shù)據(jù)集Market-1501 和DukeMTMCReID 上的實驗結(jié)果表明本文提出的方法效果良好.但對于行人重識別問題的實際應(yīng)用,尤其是在半監(jiān)督和無監(jiān)督方面,仍面臨著巨大而挑戰(zhàn),未來有很多工作值得去做.