孫志琳,張麗紅
(山西大學(xué) 物理電子工程學(xué)院,山西 太原 030006)
行人再識(shí)別是指解決跨場(chǎng)景的行人圖像匹配問題,行人再識(shí)別作為智能視頻分析的一個(gè)新課題,在計(jì)算機(jī)視覺領(lǐng)域受到了廣泛關(guān)注,但目前該問題所遇到的挑戰(zhàn)主要來自光照、背景、行人姿態(tài)等變化造成的影響和訓(xùn)練好的模型在實(shí)際應(yīng)用中性能急劇下降等問題. 因此,行人再識(shí)別仍是一個(gè)具有挑戰(zhàn)性的課題.
目前行人再識(shí)別的主要研究方法有3類:特征提取、度量學(xué)習(xí)及遷移學(xué)習(xí). 基于特征提取的方法是手動(dòng)設(shè)計(jì)并提取更加具有魯棒性的鑒別特征對(duì)行人進(jìn)行表示,常用特征有線特征、顏色特征、紋理特征等,其計(jì)算簡(jiǎn)單、針對(duì)性強(qiáng),卻容易受光照、視角變化等因素影響[1]. 步態(tài)等動(dòng)態(tài)特征及發(fā)型、衣服顏色等高級(jí)屬性特征也可用于行人再識(shí)別,且有較好魯棒性,但獲取復(fù)雜且需人工標(biāo)注[2]. 基于度量學(xué)習(xí)的方法通過學(xué)習(xí)一個(gè)有判別力的距離度量函數(shù),使得同一個(gè)人的圖像間距離小于不同行人圖像間的距離. 度量學(xué)習(xí)方法中有通過學(xué)習(xí)半正定矩陣參數(shù)化的馬氏距離函數(shù)來分辨行人圖像對(duì)的[3],也有通過學(xué)習(xí)低位投影將行人再識(shí)別問題重新定義為子空間學(xué)習(xí)問題的[4]. 基于遷移學(xué)習(xí)的方法是將帶標(biāo)簽的行人圖像風(fēng)格遷移到無標(biāo)簽的測(cè)試數(shù)據(jù)域上并用其訓(xùn)練模型. Isola提出由條件對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)從輸入圖像到輸出圖像的映射函數(shù),但這一方法需要很難獲得的成對(duì)訓(xùn)練數(shù)據(jù)[5]. 為了解決無配對(duì)數(shù)據(jù)的圖像-圖像轉(zhuǎn)換問題,Zhu等人提出用循環(huán)一致?lián)p失來訓(xùn)練無配對(duì)的圖像數(shù)據(jù)[6].
由于數(shù)據(jù)集之間的領(lǐng)域差距普遍存在,從本質(zhì)上導(dǎo)致在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試時(shí)性能嚴(yán)重下降,使得現(xiàn)有訓(xùn)練數(shù)據(jù)不能有效用于新的測(cè)試域. 當(dāng)前行人再識(shí)別的度量算法在計(jì)算相似性時(shí)主要依據(jù)兩幅圖像自身的判別信息,較少依據(jù)與兩幅圖像相關(guān)的其它圖像的判別信息(間接度量). 為了減少標(biāo)注新訓(xùn)練樣本的昂貴成本且增強(qiáng)相似判別的準(zhǔn)確性,本文采用遷移學(xué)習(xí)和度量融合的方法.
行人重識(shí)別的不同數(shù)據(jù)集中沒有同一個(gè)人的圖像. 因此,風(fēng)格遷移可以被看做是一個(gè)無配對(duì)的圖像到圖像的遷移任務(wù). 因?yàn)檠h(huán)對(duì)抗生成網(wǎng)絡(luò)(Cycle Generative Adversarial Networks, CycleGAN)在無配對(duì)的圖像到圖像的遷移任務(wù)中有很好的性能,我們應(yīng)用CycleGAN去學(xué)習(xí)數(shù)據(jù)集A和數(shù)據(jù)集B之間的映射函數(shù)[7,8]. 一個(gè)普通的GAN只有一個(gè)生成器和一個(gè)判別器,結(jié)構(gòu)分別如圖 1,圖 2 所示,而CycleGAN分別有兩個(gè)生成器和判別器[9,10]. 一個(gè)生成器將A域的圖片轉(zhuǎn)換成B域風(fēng)格的圖片,用G表示,而另一個(gè)生成器做相反的事情,用F表示; 兩個(gè)判別器DA和DB分別判斷各自域中圖片的真假.
圖 1 生成器結(jié)構(gòu)圖Fig.1 Generator network structure
圖 2 判別器結(jié)構(gòu)圖Fig.2 Discriminator network structure
假設(shè)G為數(shù)據(jù)集A到數(shù)據(jù)集B的風(fēng)格映射函數(shù),F(xiàn)為數(shù)據(jù)集B到數(shù)據(jù)集A的風(fēng)格映射函數(shù).A中圖像風(fēng)格遷移到B后應(yīng)與B中圖像風(fēng)格一致,逆向也如此,如圖 3 所示.A中圖像經(jīng)G風(fēng)格遷移到B后再經(jīng)F回到A時(shí)應(yīng)與最初盡量保持一致,反向相同,如圖 4 所示.
圖 3 CycleGAN結(jié)構(gòu)圖Fig.3 Architecture of CycleGAN mode
圖 4 循環(huán)一致?lián)p失示意圖Fig.4 Cycle-consistency loss
風(fēng)格遷移學(xué)習(xí)的目標(biāo)函數(shù)為
Lstyle=LGAN(G,DB,A,B)+
LGAN(F,DA,B,A)+λLcyc(G,F),(1)
式中:LGAN為標(biāo)準(zhǔn)的對(duì)抗損失;Lcyc為循環(huán)一致?lián)p失;
LGAN(G,DB,A,B)=Eb~B[(DB(b)-1)2]+
Ea~A[DA(G(a))2];(2)
LGAN(F,DA,B,A)=Ea~A[(DA(a)-1)2]+
Eb~B[DB(F(b))2];(3)
Lcyc(G,F)=Ea~A[‖F(xiàn)(G(a))-a‖1]+
Eb~B[‖G(F(b))-b‖1],(4)
式(2)~式(4)中:a,b分別為數(shù)據(jù)集A,B中的圖像;Ea~A[·],Eb~B[·]分別表示[·]在數(shù)據(jù)集A,B分布下的期望.
不但要保證來自源域的圖像風(fēng)格遷移到目標(biāo)域之后風(fēng)格要和目標(biāo)域的圖像風(fēng)格一致,還要確保圖像遷移前后它本身的身份信息不變. 因此除對(duì)抗損失和循環(huán)一致?lián)p失外,還需加入身份信息約束條件來確保圖像風(fēng)格遷移前后行人身份信息保持不變,身份損失的目標(biāo)函數(shù)為
LID(G,F,A,B)=Ea~A‖F(xiàn)(a)-a‖1+
Eb~B‖G(b)-b‖1.(5)
直接度量是利用圖像自身特征信息來度量查詢圖像與候選圖像的相似性,間接度量則是利用與圖像對(duì)相關(guān)的其它判別信息度量相似性,可減少發(fā)生在表觀特征較相似的不同行人身上的誤匹配情況. 為吸取兩者優(yōu)勢(shì),將直接度量和間接度量結(jié)合使用.
直接用圖像特征之間的歐式距離計(jì)算圖像a與圖像b之間的相似度,公式為
d(a,b)=‖a-b‖2,(6)
Ld=d(a,b)2.(7)
圖像最近鄰判別信息可作為圖像相似性間接度量的重要依據(jù)[11,12]. 近鄰集中具有重合樣本的兩幅圖像相似,且重合樣本數(shù)越多兩幅圖像越相似[13,14]. 因此,可通過近鄰集合的相似性間接計(jì)算兩幅圖像相似性,并利用Jaccard系數(shù)來描述兩個(gè)集合的相似性,如式(8)所示.
(8)
式中:H(a,k),H(b,k)分別為圖像a,b的k近鄰集合; |·|為集合中元素的數(shù)量.
圖 5 k最近鄰 Fig.5 k-nearest neighbor
圖 6 k相互近鄰Fig.6 k-close neighbors
在圖像的k最近鄰集中仍存在少數(shù)與查詢圖像相似性極高的負(fù)樣本,為了進(jìn)一步提高間接度量的準(zhǔn)確性,采用k相互近鄰[15]間接度量圖像對(duì)的相似性. 若圖像a和圖像b同時(shí)在對(duì)方的k最近鄰中,則稱其互為對(duì)方的k相互近鄰. 圖像a的k相互近鄰如式(9)所示.
I(a,k)={b∈H(a,k),a∈H(b,k)}.(9)
正樣本與查詢樣本互為k相互近鄰的概率應(yīng)大于負(fù)樣本與查詢樣本互為k相互近鄰的概率,用k相互近鄰的信息度量圖像的相似性,可減少負(fù)樣本匹配度高的情況. 基于圖像對(duì)k相互近鄰的相似性為
(10)
度量融合的相似度損失函數(shù)為
Lsim=Ld+μLi=d(a,b)2-μs*(a,b).(11)
式中:Ld為直接度量;Li為間接度量.
圖 7 為基于風(fēng)格遷移和度量融合的行人再識(shí)別結(jié)構(gòu). 整個(gè)框架的工作流程包括:
1) 將源域的行人圖像輸入到CycleGAN中,結(jié)合行人身份約束信息,訓(xùn)練得到最優(yōu)的生成器和判別器,并輸出風(fēng)格遷移到目標(biāo)域上的行人圖像.
2) 在風(fēng)格遷移后的圖像數(shù)據(jù)集上進(jìn)行特征學(xué)習(xí),并使用度量融合的方式評(píng)估圖像對(duì)的相似性,最后得到合適的Re-ID模型.
3) 將未標(biāo)簽的目標(biāo)域內(nèi)的圖像輸入已得到的Re-ID模型中,并將候選庫(kù)中的相關(guān)圖像按相似度由高到低排列輸出.
圖 7 基于風(fēng)格遷移和度量融合的Re-ID整體結(jié)構(gòu)Fig.7 Framework of Re-ID based on style transfer and metric fusion
實(shí)驗(yàn)共用了3個(gè)數(shù)據(jù)集:Market1501,CUHK03及DukeMTMC-reID. Market-1501數(shù)據(jù)集包含1 501位行人和32 668張行人圖像. 其中751位行人的12 936張圖像被用于訓(xùn)練,其余750位行人的19 732張圖像被包括在測(cè)試集中; CUHK03數(shù)據(jù)集由1 467位行人的28 192張圖像組成,選取1 367位行人對(duì)應(yīng)的26 264張圖像用于訓(xùn)練,其余100位行人1 928張圖像用于測(cè)試; DukeMTMC-reID數(shù)據(jù)集包含1 812位行人的36 411張行人圖像. 其中702位行人的16 522張圖像被用于訓(xùn)練,其余的都包含在測(cè)試集中. 在Market1501和DukeMTMC-reID數(shù)據(jù)集上測(cè)試時(shí)k均取值為20.
實(shí)驗(yàn)結(jié)果用累積匹配特性(Cumulative Match Characteristic,CMC)曲線進(jìn)行度量,rank-r識(shí)別率就是表示按照某種相似度匹配規(guī)則匹配并排序后,正確的目標(biāo)行人排名在前r的比例. 由于行人再識(shí)別可看成一個(gè)圖像檢索問題,故引入mAP(mean Average Precision)對(duì)結(jié)果進(jìn)行評(píng)價(jià). mAP對(duì)所有類別的AP取均值,能夠更好地反映全局性能.
行人圖像的風(fēng)格遷移效果如圖 8、圖 9 所示. 圖8中第一行為Market數(shù)據(jù)集中的原始行人圖像,第二行為風(fēng)格遷移到Duke數(shù)據(jù)集后的行人圖像. 圖9中第一行為來自CUHK03數(shù)據(jù)集的圖像,第二行為風(fēng)格遷移到Market數(shù)據(jù)集后的圖像.
圖 8 Market數(shù)據(jù)集原始圖像與風(fēng)格遷移到Duke數(shù)據(jù)集后圖像Fig.8 Market-Duke
圖 9 CUHK03數(shù)據(jù)集原始圖像與風(fēng)格遷移到Market數(shù)據(jù)集后圖像Fig.9 CUHK03-Market
表 1 給出了在不同數(shù)據(jù)集上訓(xùn)練,在Market1501數(shù)據(jù)集上測(cè)試的行人再識(shí)別性能比較. CUHK03Mar指將CUHK03數(shù)據(jù)集風(fēng)格遷移到Market上,對(duì)比前兩行可知:跨數(shù)據(jù)集進(jìn)行測(cè)試時(shí),行人再識(shí)別精確度嚴(yán)重下降. 當(dāng)采用CycleGAN進(jìn)行風(fēng)格遷移后,再識(shí)別準(zhǔn)確率有顯著提高,rank-1匹配率由43.1上升到48.1,mAP由17.0上升到19.6. 再引入身份約束條件后,rank-1匹配率又提高了0.5,mAP提高了0.3.
表 1 在Market上測(cè)試的re-ID性能對(duì)比
表 2 給出了采用不同的度量方法得到的行人再識(shí)別的匹配率對(duì)比. 明顯可見:直接度量與間接度量相融合的方式比單一度量方式有更準(zhǔn)確的匹配率. rank-1匹配率分別上升了2.2,4.6,mAP分別提高了2.0,1.1.
表 2 在Market上測(cè)試不同度量方式的性能對(duì)比
表 3 給出了在不同數(shù)據(jù)集上訓(xùn)練,在DukeMTMC-reID數(shù)據(jù)集上測(cè)試的行人再識(shí)別性能比較. 對(duì)比第一行和第二行可知:跨數(shù)據(jù)集進(jìn)行測(cè)試時(shí),行人再識(shí)別精確度嚴(yán)重下降. 當(dāng)采用CycleGAN進(jìn)行風(fēng)格遷移后,再識(shí)別準(zhǔn)確率有顯著提高,rank-1匹配率由33.1上升到38.1,mAP由16.7上升到19.6. 再引入身份約束條件后,rank-1匹配率又提高了0.4,mAP提高了0.3.
表 3 在Duke上測(cè)試的re-ID性能對(duì)比
本文利用CycleGAN將源數(shù)據(jù)集中帶標(biāo)簽的圖像風(fēng)格遷移到目標(biāo)數(shù)據(jù)集上,然后在風(fēng)格遷移后的數(shù)據(jù)圖像集上采用直接與間接相融合的度量方式進(jìn)行訓(xùn)練,最后,使用目標(biāo)數(shù)據(jù)集上未帶標(biāo)簽的行人圖像作為查詢圖像,找出候選庫(kù)中與其相似的行人圖像. 實(shí)驗(yàn)結(jié)果表明:在Market1501和DukeMTMC-reID數(shù)據(jù)集上測(cè)試,采用CycleGAN風(fēng)格遷移均可明顯提高跨數(shù)據(jù)集的行人再識(shí)別準(zhǔn)確率; 相似度度量時(shí)度量融合的方式比單一的直接度量有更好的精確度,且可以有效避免誤匹配的概率.