胡正平,張敏姣,李淑芳,孫德剛
(1.燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004;2.燕山大學(xué) 河北省信息傳輸與信號(hào)處理重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004;3.山東華宇工學(xué)院 電子信息工程學(xué)院,山東 德州 253000)
迄今為止,行人再識(shí)別仍是計(jì)算機(jī)視覺(jué)任務(wù)中相對(duì)年輕的研究方向,從最初不被廣泛關(guān)注到近幾年成果豐碩,可謂風(fēng)華正茂。文獻(xiàn)[1]于1961年首次提出行人再識(shí)別的概念,所謂再識(shí)別,即重新確認(rèn)某一行人既定特征,該任務(wù)最初與多相機(jī)跟蹤任務(wù)聯(lián)系在一起[2]。
行人再識(shí)別技術(shù)作為智能視頻監(jiān)控系統(tǒng)的關(guān)鍵技術(shù)之一,能夠?qū)崿F(xiàn)跨視圖信息關(guān)聯(lián)的同時(shí),還是一種通用的特征匹配算法,可為多種不同的機(jī)器視覺(jué)研究提供解決思路。例如,在無(wú)法借助成熟的人臉識(shí)別技術(shù)進(jìn)行行人ID匹配的情況下,基于行人穿著、外貌等信息,輔以行人再識(shí)別技術(shù),可提高復(fù)雜場(chǎng)景中行人身份匹配系統(tǒng)的準(zhǔn)確性;此外,行人再識(shí)別還可以提供非侵犯性的身份一致性匹配方案。又如,公安執(zhí)法人員可以在沒(méi)有嫌犯人像信息的情況下,借助行人再識(shí)別技術(shù)及時(shí)地在案發(fā)地周?chē)嗟乇O(jiān)控錄像視頻中搜索嫌犯,從而快速準(zhǔn)確地定位嫌犯位置并實(shí)施抓捕。
除了廣泛的應(yīng)用價(jià)值,從學(xué)術(shù)角度看,利用前沿的計(jì)算機(jī)技術(shù)、借助強(qiáng)大的機(jī)器算法,完成對(duì)行人信息的高效挖掘和整合可推動(dòng)其他計(jì)算機(jī)視覺(jué)任務(wù)的長(zhǎng)足進(jìn)步。在實(shí)際監(jiān)控場(chǎng)景中,跨視圖攝像機(jī)捕捉到的圖像視角、行人姿態(tài)、背景復(fù)雜程度、光照條件以及像素分辨率等普遍存在差異,因此針對(duì)靜態(tài)圖像的魯棒性特征提取變得困難,如何充分挖掘行人的有效信息并確定特征提取方法是一個(gè)關(guān)鍵問(wèn)題。此外,如何針對(duì)行人這一特殊視覺(jué)匹配對(duì)象,設(shè)計(jì)能夠有效度量特征相似度的特征匹配方法,更準(zhǔn)確地排序是又一挑戰(zhàn)性難點(diǎn)。完整的行人再識(shí)別框圖如圖1所示。
完整視頻監(jiān)控系統(tǒng)一般包括行人檢測(cè)、行人跟蹤、行人再識(shí)別3個(gè)主要模塊,但受限于過(guò)去的硬件設(shè)備性能,早期大都將三者當(dāng)作獨(dú)立子任務(wù)研究,例如針對(duì)行人再識(shí)別問(wèn)題,研究者著重提高再識(shí)別的準(zhǔn)確率而假設(shè)前兩個(gè)模塊的工作已完成[3]。行人再識(shí)別的技術(shù)本質(zhì)是使用計(jì)算機(jī)視覺(jué)技術(shù)確定特定行人是否存在于圖像或視頻序列中。該技術(shù)的難點(diǎn)主要存在于特征表示和距離度量?jī)煞矫?,其中特征表示包括光照條件復(fù)雜、局部背景遮擋、拍攝角度多變、行人姿勢(shì)多變、衣著外觀不固定等諸多問(wèn)題;另外,距離度量階段還有類間不同程度混疊、類內(nèi)不同程度不對(duì)齊、訓(xùn)練樣本有限、模型泛化能力較弱等挑戰(zhàn),有針對(duì)性的解決這些關(guān)鍵問(wèn)題在行人再識(shí)別的研究中有巨大的科研和應(yīng)用價(jià)值。
圖1 行人再識(shí)別過(guò)程框架
Fig.1 Person re-identification framework
本文首先回顧行人再識(shí)別研究的發(fā)展歷程;然后分別從特征表示、距離度量以及深度學(xué)習(xí)網(wǎng)絡(luò)模型的角度總結(jié)目前出現(xiàn)的優(yōu)秀算法;介紹幾種常用的圖像行人數(shù)據(jù)集、視頻行人數(shù)據(jù)集以及性能評(píng)估指標(biāo);最后根據(jù)目前行人再識(shí)別的研究進(jìn)展和存在的問(wèn)題,預(yù)測(cè)未來(lái)的研究方向。
隨著計(jì)算機(jī)視覺(jué)任務(wù)研究方法的不斷更新,研究者針對(duì)行人再識(shí)別問(wèn)題建立了不少性能良好的系統(tǒng)模型,行人再識(shí)別發(fā)展歷程如圖2所示。
圖2 行人再識(shí)別主要研究歷程
Fig.2 The main study history of person re-identification
早期行人再識(shí)別通常被當(dāng)作多相機(jī)跟蹤任務(wù)的子任務(wù)之一,行人圖像的幾何對(duì)齊與表觀模型結(jié)合后與跨攝像頭校準(zhǔn)集成以實(shí)現(xiàn)跟蹤目的。其中表觀模型包括顏色、紋理、邊緣等特征的提取,1997年Huang Timothy等人提出聯(lián)系上下文的貝葉斯公式[4],該模型根據(jù)攝像機(jī)A中觀察所得的目標(biāo)表觀特征預(yù)測(cè)攝像機(jī)B中該目標(biāo)的表觀特征,在某種程度上能夠克服相機(jī)參數(shù)的差異,為行人再識(shí)別中表觀特征的學(xué)習(xí)帶來(lái)了新思路。“行人再識(shí)別”專業(yè)名詞直到2005年才被Wojciech Zajdel等人首次明確提出[5],其意義被重新定義為 “重新確定一個(gè)離開(kāi)觀察視野區(qū)后再次進(jìn)入的行人的身份”。該研究假定每個(gè)行人都有一個(gè)獨(dú)特標(biāo)簽,首先利用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)對(duì)行人標(biāo)簽和不同表觀特征的概率對(duì)應(yīng)關(guān)系進(jìn)行編碼,當(dāng)有行人目標(biāo)重新進(jìn)入觀察視野區(qū)時(shí),該行人身份ID可通過(guò)近似貝葉斯算法計(jì)算而得的后驗(yàn)身份標(biāo)簽的分布決定。作為行人再識(shí)別研究的首次獨(dú)立嘗試,該研究具有里程碑式的意義。
2006年,文獻(xiàn)[6]提出在前景檢測(cè)操作之后基于顏色、顯著邊緣直方圖和Hessian-Affine興趣點(diǎn)算子提取行人的表觀特征,該工作的創(chuàng)新點(diǎn)在于:在前景檢測(cè)操作中針對(duì)視頻幀設(shè)計(jì)時(shí)空分割方法,并針對(duì)行人再識(shí)別子任務(wù)專門(mén)設(shè)計(jì)特征提取方法,而不再僅僅將其作為多相機(jī)跟蹤的某一環(huán)節(jié)。其實(shí)驗(yàn)數(shù)據(jù)集包括由中度視域重疊的3個(gè)攝像頭捕獲的44個(gè)行人,雖然該工作實(shí)質(zhì)上仍屬于基于靜止圖像的行人再識(shí)別范疇,但是標(biāo)志著行人再識(shí)別與多相機(jī)跟蹤任務(wù)的正式分離,此后行人再識(shí)別開(kāi)始成為一個(gè)獨(dú)立的計(jì)算機(jī)視覺(jué)任務(wù)。
由于單圖像中的行人特征有限,研究者從2010年開(kāi)始嘗試基于多幀圖像的行人再識(shí)別模型的研究。文獻(xiàn)[7]提出新穎表觀特征提取機(jī)制,同一行人的多幀圖像的表觀信息被集中到一個(gè)高度信息化直方圖加縮影特征(Histogram Plus Epitome,HPE)中,該特征融合了行人的全局以及細(xì)節(jié)特征信息。另外文獻(xiàn)[8]利用分割模型檢測(cè)前景之后再提取顏色特征,可以成功克服前景中行人主體外的干擾。隨著所選幀數(shù)的增加,基于多幀圖像的行人再識(shí)別模型相對(duì)于基于單幀圖像的行人再識(shí)別模型可以提取更豐富的表觀特征,對(duì)各種環(huán)境變化的魯棒性更強(qiáng)。
基于多幀圖像的行人再識(shí)別取得性能優(yōu)化之后,越來(lái)越多的研究者開(kāi)始嘗試基于視頻提取時(shí)間-空間特征,視頻具有時(shí)間連續(xù)性,理論上可以挖掘到更多的行人辨別性特征。思路之一是將行人視頻幀中的某段時(shí)間中的一系列動(dòng)作為基元進(jìn)行對(duì)齊,文獻(xiàn)[9]利用此思路首先基于光流能量分解圖像序列,為模型學(xué)習(xí)提供一組候選視頻片段集,如此一來(lái),在測(cè)試過(guò)程中系統(tǒng)將會(huì)自動(dòng)選擇最具區(qū)分性的片段進(jìn)行匹配,充分利用了視頻中包含的行人全局信息。然而基于視頻的行人再識(shí)別研究充分利用時(shí)間信息的同時(shí)也存在一定的挑戰(zhàn),一般情況下,行人的表觀特征例如衣服顏色會(huì)存在較大的差異,然而行走速度或行走周期的差異較細(xì)微,對(duì)應(yīng)特征向量的類間距離更小從而變得更難區(qū)分。
2012年,基于深度學(xué)習(xí)方法的圖像分類效果取得重大突破[10]。Hinton團(tuán)隊(duì)在ImageNet圖像識(shí)別大賽中使用自己構(gòu)建的AlexNet摘得桂冠,證明了深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域里不容小覷的實(shí)力,之后深度學(xué)習(xí)技術(shù)逐漸被遷移學(xué)習(xí)到行人再識(shí)別的研究中。國(guó)內(nèi)代表性研究有,Ouyang Wanli等人提出共同學(xué)習(xí)特征提取,變形、遮擋處理以及分類等行人檢測(cè)的關(guān)鍵過(guò)程,并提出一個(gè)新的聯(lián)合深度網(wǎng)絡(luò)JointDeep模型架構(gòu)[11]。文獻(xiàn)[12]則基于三元組深度多度量學(xué)習(xí)(Deep Multi-metric Learning,DMML)框架分別學(xué)習(xí)行人全局和局部特征,并基于梯度下降法訓(xùn)練多度量損失網(wǎng)絡(luò),為每一種特征單獨(dú)學(xué)習(xí)度量函數(shù)。同時(shí)國(guó)外研究者Anelia A等人采用soft-cascade與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)網(wǎng)絡(luò)結(jié)合的方式得到性能優(yōu)良的行人檢測(cè)模型[13]。之后越來(lái)越多利用深度學(xué)習(xí)技術(shù)研究行人再識(shí)別的文章發(fā)表在國(guó)際重要會(huì)議CVPR、ICCV、ECCV、AAAI等和期刊TPAMI、TIP等上。
隨著行人檢測(cè)和再識(shí)別兩個(gè)子任務(wù)的性能提升,逐漸有研究者將兩者結(jié)合以求得更優(yōu)異的性能表現(xiàn)。Xu Yuanlu等人首次將行人檢測(cè)和再識(shí)別兩個(gè)子任務(wù)結(jié)合研究,聯(lián)合行人視頻幀的共性和特性共同構(gòu)造行人搜索模型框架[14]。此后2017年CVPR大會(huì)上,Xiao Tong等人也提出結(jié)合行人再識(shí)別過(guò)程的行人搜索問(wèn)題,相對(duì)地說(shuō),行人搜索是將前端行人檢測(cè)與后端行人再識(shí)別的匹配問(wèn)題同時(shí)進(jìn)行的綜合創(chuàng)新[15]。經(jīng)實(shí)驗(yàn)部分驗(yàn)證聯(lián)合考慮行人檢測(cè)和再識(shí)別比獨(dú)立研究這兩部分子任務(wù)可以獲得更高的匹配率。
行人再識(shí)別模型通常包括行人特征提取、特征轉(zhuǎn)換、距離度量等模塊,若想提高整個(gè)系統(tǒng)模型的性能表現(xiàn),可對(duì)各個(gè)模塊的性能逐一改善,其中行人再識(shí)別問(wèn)題中的研究重點(diǎn)聚集在特征表示和距離度量上,因此目前行人再識(shí)別研究領(lǐng)域的工作主要可以分類為:1)改進(jìn)行人目標(biāo)的特征表示方法,力求提取內(nèi)容更豐富且魯棒性更強(qiáng)的行人特征,從而可以更全面地描述行人固有特征;2)尋求更具判別力的距離度量函數(shù)或特征映射子空間,盡可能獲得大類間距離和小類內(nèi)距離。隨著該研究的持續(xù)升溫,從不同角度出發(fā)設(shè)計(jì)的各種方法不斷出現(xiàn),類別結(jié)構(gòu)圖如圖3所示,接下來(lái)將對(duì)相關(guān)行人再識(shí)別算法做分類介紹。
圖3 行人再識(shí)別類別結(jié)構(gòu)圖
Fig.3 The category structure of person re-identification
實(shí)際應(yīng)用時(shí),行人表觀特征在不同應(yīng)用場(chǎng)景中容易受場(chǎng)景光照、自身穿著、攝像視角、外部遮擋等因素影響,同時(shí)不同攝像設(shè)備還存在參數(shù)和分辨率不同等特點(diǎn),這使得尋找魯棒的行人再識(shí)別特征描述子成為關(guān)鍵的技術(shù)環(huán)節(jié)。
2.1.1低層視覺(jué)特征
常用的低層視覺(jué)特征主要有:基于RGB[16]、HSV[17]等顏色空間提取的顏色直方圖;Gabor濾波器[18]、局部二值模式(Local Binary Pattern,LBP)等紋理特征;尺度不變特征(Scale-Invariant Feature transform,SIFT)等。
行人再識(shí)別研究中提取低層視覺(jué)特征時(shí),通常采用分塊機(jī)制,文獻(xiàn)[10]基于人體的對(duì)稱性和不對(duì)稱性為人體局部特征建立加權(quán)算法,提取身體各部分的加權(quán)顏色直方圖、最大概率區(qū)域以及高復(fù)發(fā)結(jié)構(gòu)片段三種互為補(bǔ)充的細(xì)節(jié)特征。但因攝像設(shè)備視角差異的存在,一個(gè)背包行人的前后表觀特征可能存在較大差異,若對(duì)每張行人圖像均提取細(xì)節(jié)表觀特征可能會(huì)帶來(lái)過(guò)擬合問(wèn)題反而導(dǎo)致誤判。因此2007年,文獻(xiàn)[19]定義了形狀和表觀上下文概念,通過(guò)模擬每個(gè)樣本對(duì)象的表觀空間分布區(qū)域,引入可實(shí)時(shí)計(jì)算包含所有給定樣本類的圖像區(qū)域間相似度的表觀模型。行人再識(shí)別是一個(gè)全局與局部信息對(duì)識(shí)別都很重要的問(wèn)題,具體的特征提取分塊機(jī)制對(duì)特征的表現(xiàn)力也有著巨大影響。2008年,文獻(xiàn)[20]提出首先將行人劃分為幾個(gè)穩(wěn)定的特征提取水平條區(qū)域,然后在每個(gè)水平條區(qū)域提取顏色和紋理特征,同時(shí)注重全局與細(xì)節(jié)特征的描述。意大利維羅納大學(xué)的Michela Farenzena等人利用人體左右對(duì)稱性和上下不對(duì)稱性建模的對(duì)稱性設(shè)計(jì)局部累積特征(Symmetry-Driven Accumulation of Local Features, SDALF),并混合顏色直方圖、區(qū)域顏色和高復(fù)發(fā)結(jié)構(gòu)等互補(bǔ)特征[21]。具體的特征提取示意圖如圖4所示。局部特征相對(duì)于全局特征,更容易受光照、視角、行人姿勢(shì)等因素的影響,因此從2013年開(kāi)始,研究者在工作[22-23]中創(chuàng)新了行人特征塊劃分機(jī)制,該類方法使用固定步長(zhǎng)的重疊子窗口在水平和垂直方向上滑動(dòng)分塊,然后從每個(gè)興趣塊中密集采樣出LAB顏色直方圖和SIFT特征。Das Abir等人結(jié)合行人特點(diǎn)劃分特征塊,直接從行人頭部、軀干和腿部提取HSV顏色直方圖,獲得了更豐富的行人表觀信息[24]。
相對(duì)于特征分塊機(jī)制,更加具有表現(xiàn)力的特征描述符也很重要,Kviatkovsky J等人提出利用ColorInv進(jìn)行行人再識(shí)別,顏色不變量ColorInv結(jié)合Log空間中的顏色直方圖、協(xié)方差描述符,基于局部形狀上下文描述子共同描述行人表觀[25]。類似于利用上下文形狀關(guān)系描述行人特征,將行人的顏色特征與顏色名稱結(jié)合可實(shí)現(xiàn)對(duì)行人表觀特征的語(yǔ)義描述,文獻(xiàn)[26]引入基于顏色描述符的顯著顏色特征,并利用此顏色機(jī)制對(duì)行人顏色特征進(jìn)行全局描述,該顏色特征的RGB值對(duì)光照變化具有更強(qiáng)的魯棒性。文獻(xiàn)[27]提出局部最大概率特征(Local Maximal Occurrence Representation,LOMO),該特征融合HSV顏色直方圖、尺度不變局部三元模式描述子,最大化人體局部顏色以及紋理特征在同一水平條出現(xiàn)的概率,為了處理光照變化,該算法還應(yīng)用Retinex變換和尺度不變紋理算子。2016年,文獻(xiàn)[28]提出一種層級(jí)高斯特征,利用特定的高斯分布來(lái)模擬每個(gè)特定行人興趣塊中的顏色和紋理特征,最終高斯集的特征仍然使用另一高斯特征表示,層級(jí)高斯特征充分利用一般顏色描述符協(xié)方差中不存在的像素特征平均信息,可自然地模擬行人興趣塊中的表觀特征,該方法示意圖如圖5所示。
圖4 對(duì)稱性局部累積SDALF特征示意圖
Fig.4 Schematic diagram of SDALF feature
圖5 局部最大概率LOMO特征提取示意圖
Fig.5 Schematic diagram of LOMO feature extraction
2.1.2語(yǔ)義屬性特征
所謂屬性特征,即借鑒人類鑒別兩人是否為同一個(gè)人的思路,對(duì)待匹配兩人的發(fā)型、外套顏色、褲子鞋子等特征進(jìn)行計(jì)算機(jī)語(yǔ)言描述。例如圖6所示女生,假設(shè)定義可描述的6個(gè)屬性(是否女性;是否長(zhǎng)發(fā);是否穿短裙;是否背包),該女生對(duì)應(yīng)的屬性特征向量為[1 1 1 0]。2012年,文獻(xiàn)[29]首先標(biāo)注了15種表觀語(yǔ)義屬性特征,利用支持向量機(jī)(Support Vector Machine,SVM)對(duì)某一行人A的語(yǔ)義屬性特征作屬性加權(quán),然后再與幾種其他低層視覺(jué)特征融合作為該行人的特征描述向量,該方法首次將低層視覺(jué)特征與中層語(yǔ)義特征進(jìn)行融合,提取更為豐富的行人固有信息從而提高了行人特征描述子的魯棒性。
圖6 行人示例
Fig.6 Person example
除了已定義的行人屬性,屬性特征中的隱含關(guān)聯(lián)也引起研究者的注意,文獻(xiàn)[30]中提出將交叉視圖行人數(shù)據(jù)的低層特征與中級(jí)屬性特征集成之后投影到連續(xù)的低秩屬性空間,該低秩屬性矩陣具有較小的類內(nèi)差和較大的類間差,可以糾正不精確的屬性并恢復(fù)丟失的屬性,使屬性向量具有更大的區(qū)分性,在iLIDS-VID和PRID兩大具有挑戰(zhàn)性的數(shù)據(jù)集的Rank-1分別提高了8.5%和3.5%。為進(jìn)一步利用低層視覺(jué)特征的分塊思想對(duì)屬性特征進(jìn)行精確描述,Shi Zhiyuan等人使用最近鄰分割算法對(duì)行人圖像進(jìn)行超像素劃分后再定義多種屬性特征,采用傳輸語(yǔ)義進(jìn)行行人再識(shí)別[31]。使用中層語(yǔ)義特征前,作為數(shù)據(jù)準(zhǔn)備,必須對(duì)行人的屬性特征進(jìn)行人工標(biāo)注,這是一項(xiàng)耗時(shí)費(fèi)力的工作,為方便研究,Li Dangwei等人收集了一個(gè)具有豐富行人屬性注釋的大型數(shù)據(jù)集,以此來(lái)促進(jìn)基于屬性特征的行人再識(shí)別的研究[32]。
2.1.3時(shí)間-空間特征
行人靜止圖像中并不包含時(shí)間信息,若單靠顏色和紋理來(lái)表示行人表觀特征,在遇到外部遮擋、光照變化、攝像角度變化等情況時(shí)識(shí)別效果又會(huì)受到影響,因此基于視頻幀提取行人運(yùn)動(dòng)信息成為行人再識(shí)別算法中特征提取部分的又一研究方向。
行人表觀特征偶爾存在服裝顏色相似等情況,但步態(tài)和行走周期相對(duì)表觀特征來(lái)說(shuō)是較為獨(dú)特的行為特征,因此一些研究人員提出利用步態(tài)信息作為識(shí)別的關(guān)鍵[33],該類方法首先利用視頻幀提取行人步態(tài)信息,辨別行人行走步態(tài)之間的細(xì)微差別,從而達(dá)到區(qū)分不同行人的目的,其中提出的平均池化時(shí)間對(duì)齊集合表示算法(Avg-Temporally Aligned Pooling Representation,Avg-TAPR)在數(shù)據(jù)集iLIDS-VID和PRID 2011的實(shí)驗(yàn)中將Rank-1提高到55%以及73.9%。另外還有一種比較常見(jiàn)的時(shí)空信息提取方法,基于人體結(jié)構(gòu)信息,利用人體不同區(qū)域的空間直方圖和協(xié)方差特征描述視頻幀之間的空間關(guān)系。早在2006年,文獻(xiàn)[8]中首先將行人視頻幀進(jìn)行前景分割,利用一個(gè)時(shí)空分布圖標(biāo)記時(shí)間-空間穩(wěn)定區(qū)域后再提取特征,提高了針對(duì)低分辨率、遮擋、姿勢(shì)、視角以及照明變化的魯棒性。同時(shí)期,Hamdoun Omar等人提出使用SURF局部特征來(lái)檢測(cè)和描述短視頻序列中的特征興趣點(diǎn),并利用KD樹(shù)對(duì)這些短視頻序列特征依次進(jìn)行索引以加速匹配過(guò)程,但提取SURF特征使得特征構(gòu)成較為單一,仍舊限制了系統(tǒng)性能的進(jìn)一步提高[34]。
上述工作大都基于多相機(jī)視頻幀間的空間信息構(gòu)建特征描述子,更注重行人視頻幀的空間聯(lián)系,而在最近的一些研究中,將時(shí)間次序關(guān)系加入特征提取模型成為研究趨勢(shì)。2014年,文獻(xiàn)[10]提出通過(guò)提取光流能量分布圖檢測(cè)行走周期,然后使用時(shí)空梯度方向直方圖(Histogram of Oriented 3D Gradient, HOG3D)[35]和步態(tài)能量圖像(Gait Energy Image,GEI)[36]描述行人運(yùn)動(dòng)特征。但是隨著數(shù)據(jù)集的增大,行人的行走周期也非常接近以至于難以分辨,只提取行人的步態(tài)特征顯然不能滿足行人較多的情況,You Jinjin等人在視頻水平提取HOG3D特征,融合基于行人圖像水平提取的表觀特征后構(gòu)成行人的時(shí)間-空間特征,該研究利用了所有可用的行人視頻幀,表觀特征提取階段還加入特征池化以保證特征的豐富性[37]。文中頂推距離度量學(xué)習(xí)算法(Top-push Distance Learning, TDL)被用來(lái)解決距離度量問(wèn)題,頂推約束強(qiáng)制對(duì)頂級(jí)匹配進(jìn)行優(yōu)化,可使模型更有效地選擇判別性特征來(lái)準(zhǔn)確區(qū)分不同行人。TDL算法處理前后特征分布對(duì)比示意圖如圖7所示。
圖7 TDL處理前后特征分布對(duì)比圖
Fig.7 Comparison of feature distribution before and after TDL
2.1.4深度特征
隨著深度學(xué)習(xí)的發(fā)展,行人再識(shí)別領(lǐng)域內(nèi)也逐漸利用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)提取行人本質(zhì)特征。2014年,文獻(xiàn)[12]首先將輸入圖像劃分為三個(gè)水平條,經(jīng)過(guò)兩層卷積層和一個(gè)全連接層得到激活響應(yīng),然后將基于所有水平條提取的特征融合后以向量形式輸出,最后在距離度量階段使用余弦距離計(jì)算兩個(gè)輸出向量的相似度。Michael Jones等人利用分類問(wèn)題的常用思路,建立一個(gè)深度神經(jīng)網(wǎng)絡(luò)系統(tǒng),通過(guò)計(jì)算輸入圖像和樣本特征之間的差異設(shè)定閾值來(lái)判斷是否屬于同一行人[38]。傳統(tǒng)深度網(wǎng)絡(luò)都是提取整體行人特征再結(jié)合反饋調(diào)整提取機(jī)制,文獻(xiàn)[39]則首先將行人圖像分塊,利用多分支卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)提取深度特征,根據(jù)深度特征間的相似度排序判斷行人是否為同一個(gè),自適應(yīng)特征提取網(wǎng)絡(luò)的使用使得計(jì)算速度被提高。
傳統(tǒng)特征提取方法可以分別提取低層視覺(jué)特征和中層語(yǔ)義特征,深度網(wǎng)絡(luò)同樣也可以考慮中層語(yǔ)義特征的提取。文獻(xiàn)[40]嘗試?yán)蒙疃染矸e體系結(jié)構(gòu)自適應(yīng)地學(xué)習(xí)人的中層特征,還可以自動(dòng)學(xué)習(xí)所有輸入特征的對(duì)應(yīng)潛在關(guān)系,成功地將傳統(tǒng)方法中的有效特征遷移到了深度網(wǎng)絡(luò)的應(yīng)用中。Xu Fangjie等人提出利用卷積自動(dòng)編碼器進(jìn)行無(wú)監(jiān)督的特征提取,之后交由多個(gè)屬性分類器進(jìn)行屬性分類,結(jié)合屬性類別的映射關(guān)系表計(jì)算最終類別的判定[41]。屬性特征的設(shè)計(jì)將在很大程度上影響再識(shí)別效果,如何實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的屬性生成是提取屬性特征的改進(jìn)方向。Wu Lin等人提出將SIFT特征和顏色直方圖等低層視覺(jué)特征匯總到Fisher向量中,經(jīng)過(guò)一層全連接層得到最終的行人特征向量,最后使用線性判別分析(Linear Discriminant Analysis,LDA)作為目標(biāo)函數(shù)進(jìn)行距離度量[42]。
2.1.5特征提取方法總結(jié)
綜合多種特征提取方法的一般過(guò)程,可以看出,特征提取器若魯棒到極致,則趨于刻畫(huà)一些無(wú)關(guān)緊要的特征,如此,針對(duì)同一行人,即使差異較大的圖像表示也會(huì)比較接近,但同時(shí)這也會(huì)導(dǎo)致不同行人特異性的丟失,降低特征的判別力,反之亦然。恰恰說(shuō)明這兩個(gè)切入點(diǎn)在一定程度上是互補(bǔ)的:只有探索同時(shí)具有高魯棒性和高判別性的特征,并基于一個(gè)合理角度找到兩者之間的折中,才能更從容地應(yīng)對(duì)各式各樣的行人圖像,使模型達(dá)到真正的魯棒。
上述幾種常用特征描述方法各有優(yōu)劣,針對(duì)不同特點(diǎn)的數(shù)據(jù)集可以實(shí)現(xiàn)不同的性能表現(xiàn),各個(gè)方法的特點(diǎn)及優(yōu)缺點(diǎn)比較總結(jié)如下:1)顏色和紋理特征融合后作為特征描述子,一定程度上可以克服行人表觀差異,但在實(shí)際應(yīng)用時(shí)仍存在一些問(wèn)題:顏色特征在不同光照環(huán)境下差異較大,這會(huì)導(dǎo)致距離度量階段的匹配出現(xiàn)差錯(cuò);相機(jī)設(shè)備參數(shù)設(shè)置不合適時(shí),不同顏色在視覺(jué)上會(huì)很接近而導(dǎo)致誤判;視頻中出現(xiàn)的行人分布面積較小,紋理特征比較模糊,因此難以提取到具有強(qiáng)判別性的紋理特征;將行人分塊進(jìn)行特征提取雖然較好地克服了由于視角不同而帶來(lái)的視覺(jué)差異,但并不能克服外部遮擋的影響。2)與低層視覺(jué)特征相比,語(yǔ)義屬性特征可以更好地應(yīng)對(duì)環(huán)境以及背景變化,但由于攝像設(shè)備的像素質(zhì)量不高以及取像距離較遠(yuǎn)等問(wèn)題的存在,計(jì)算機(jī)準(zhǔn)確判斷男女并進(jìn)行描述的技術(shù)難度較大。3)模型提取空間、時(shí)間特征,或?qū)烧呓Y(jié)合當(dāng)作行人的辨別性特征,目的都是盡可能尋求更加具有區(qū)分性的視頻特征。但在實(shí)際應(yīng)用時(shí),時(shí)空特征容易受行人姿勢(shì)、光照、行人數(shù)量規(guī)模等影響,從生物學(xué)角度分析,當(dāng)行人數(shù)據(jù)集的規(guī)模逐漸增大時(shí),行人行走姿勢(shì)之間的相似性也會(huì)隨之增加,從而限制時(shí)空特征的判別性。4)深度神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,具有無(wú)監(jiān)督情況下準(zhǔn)確感知高層特征的優(yōu)勢(shì),該特點(diǎn)恰恰適應(yīng)了行人視頻監(jiān)控中存在大量無(wú)標(biāo)簽數(shù)據(jù)的情況,為行人再識(shí)別帶來(lái)了新的希望。然而大多數(shù)行人再識(shí)別數(shù)據(jù)集都只為目標(biāo)行人提供兩張可用圖像,用來(lái)訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)不夠充足;并且深度網(wǎng)絡(luò)系統(tǒng)的參數(shù)目前僅僅通過(guò)經(jīng)驗(yàn)來(lái)設(shè)置,若要將系統(tǒng)應(yīng)用到實(shí)際中,其中的參數(shù)設(shè)置等細(xì)節(jié)需要相關(guān)專家的專業(yè)指導(dǎo),因此它的大規(guī)模應(yīng)用將是一條具有挑戰(zhàn)的道路。
不論哪種特征提取方法,其實(shí)質(zhì)都是按某種規(guī)則將圖像固有的特征信息以向量形式表示,在特征空間中,如何計(jì)算相似特征向量間的距離成為另一研究要點(diǎn)。實(shí)質(zhì)上,度量學(xué)習(xí)與特征提取互為補(bǔ)充,最終的研究目的是增強(qiáng)特征描述子的魯棒性和判別性,將原始圖像投影到更理想的分類空間中。
傳統(tǒng)方法中,利用L2范數(shù)、巴氏距離、余弦相似度等方法計(jì)算得到特征向量之間的距離或相似度之后,可以采用K近鄰算法完成識(shí)別匹配過(guò)程。這種方法計(jì)算速度較快,但識(shí)別率普遍不高,因此在行人再識(shí)別問(wèn)題中的應(yīng)用并不普遍。在行人再識(shí)別研究中,大多數(shù)方法都屬于監(jiān)督式的全局度量學(xué)習(xí)范疇。所謂全局度量,其目的是針對(duì)全部特征使類間距離盡可能大,同時(shí)類內(nèi)距離盡可能小,在距離度量中最常使用的是馬氏(Mahalanobis)距離,兩個(gè)特征向量xi和xj之間的平方距離可以描述為
d(xi,xj)=(xi-xj)TM(xi-xj),
(1)
其中,M是一個(gè)半正定矩陣。
2.2.1圖像水平的度量學(xué)習(xí)
許多經(jīng)典距離方法大都基于公式(1)引入,例如文獻(xiàn)[43]中提出給匹配對(duì)設(shè)置邊界閾值,并且懲罰那些侵入邊界的邊緣臨近值,這種方法稱為大間隔最近鄰(Large Margin Nearest Neighbor,LMNN)分類算法,該方法是馬氏距離度量學(xué)習(xí)算法的典型代表。為了避免LMNN中出現(xiàn)的過(guò)擬合問(wèn)題,Zheng Weishi等人提出利用信息理論度量學(xué)習(xí)方法(Information-Theoretic Metric Learning,ITML),通過(guò)優(yōu)化兩個(gè)多元高斯分布間的相對(duì)熵來(lái)學(xué)習(xí)度量矩陣,確保學(xué)習(xí)到的距離函數(shù)既滿足給定相似性約束又接近實(shí)際距離[17]。度量學(xué)習(xí)算法中的一大特點(diǎn)是,正樣本對(duì)的數(shù)量相對(duì)比較有限,因此數(shù)量巨大的負(fù)樣本對(duì)學(xué)習(xí)過(guò)程的影響重大。Guillaumin Matthieu等人將度量矩陣的學(xué)習(xí)描述為邏輯回歸問(wèn)題,最大化訓(xùn)練數(shù)據(jù)中的正負(fù)樣本對(duì)的分類概率,從而達(dá)到學(xué)習(xí)度量標(biāo)準(zhǔn)的目的[44]。2015年,Liao Shengcai等人推導(dǎo)了一種具有半正定(Positive Semi-Definition,PSD)約束和非對(duì)稱樣本分類加權(quán)策略的度量學(xué)習(xí)方法,并基于Log邏輯損失函數(shù)應(yīng)用加速近鄰點(diǎn)梯度算子尋找待優(yōu)化距離函數(shù)的全局最小解,該算法充分利用了負(fù)樣本對(duì)的非對(duì)稱性,加權(quán)策略增大了特征區(qū)分性[45]。進(jìn)一步地,為降低行人圖像中普遍存在的特征不對(duì)齊問(wèn)題,Sun Chong等人同時(shí)學(xué)習(xí)度量矩陣和空間分布變量,引入垂直偏差、水平偏差以及腿部變化等三種潛在變量來(lái)描述再識(shí)別問(wèn)題中存在的不對(duì)齊特征,兩個(gè)行人特征之間的距離通過(guò)與潛在變量距離最小化給定的距離函數(shù)來(lái)確定[46]。另一層面看,不對(duì)齊的特征也是行人圖像的特性之一,若能將其與共性結(jié)合共同描述行人,可以作為補(bǔ)充特征利用,為此文獻(xiàn)[47]提出同時(shí)考慮圖像對(duì)之間的特性和共性,并且得出不同類圖像對(duì)之間的協(xié)方差矩陣可以從同類圖像對(duì)之間的協(xié)方差矩陣中推斷而出的結(jié)論,該結(jié)論進(jìn)一步推動(dòng)了行人再識(shí)別技術(shù)在大數(shù)據(jù)集上的研究。
除了學(xué)習(xí)判別性較強(qiáng)的距離度量標(biāo)準(zhǔn)外,部分研究者專注于學(xué)習(xí)區(qū)分性子空間[48]。Liao Shengcai等提出將交叉視圖數(shù)據(jù)投影到一個(gè)公共低維子空間w中[27],利用類似于線性判別分析的計(jì)算方法[49],該方法中學(xué)習(xí)子空間時(shí)將待優(yōu)化目標(biāo)函數(shù)簡(jiǎn)化為
(2)
其中,Sb和Sw分別是類間和類內(nèi)散布矩陣,在學(xué)習(xí)到的子空間w中,使用簡(jiǎn)單而直接的度量學(xué)習(xí)(Keep It Simple and Straightforward Metric Learning,KISSME)算法學(xué)習(xí)距離函數(shù)。KISSME算法無(wú)需迭代優(yōu)化就可以尋求到閉合形式的解,但缺點(diǎn)是當(dāng)特征向量的維度較高時(shí),算法運(yùn)算時(shí)間及速度等容易受影響。為了克服該算法的這一特點(diǎn),文獻(xiàn)[27]利用視網(wǎng)膜Retinex理論和最大化局部特征出現(xiàn)分別處理光照和視角變化,然后通過(guò)最大化投影矩陣投射后的同類與不同類樣本對(duì)之間差異的方差比學(xué)習(xí)一個(gè)距離度量子空間。文獻(xiàn)[50]利用跨攝像頭數(shù)據(jù)學(xué)習(xí)一個(gè)交叉視圖映射模型,利用學(xué)習(xí)好的映射模型進(jìn)行行人特征變換,從而消除不同攝像機(jī)拍攝區(qū)域的特征差異,具體的模型優(yōu)化框圖如圖8所示。為學(xué)習(xí)具有較強(qiáng)區(qū)分性的子空間,Zhang Li等人采用Null Foley-Sammon變換學(xué)習(xí)滿足零類內(nèi)散射和正類間散射的判別零空間,增強(qiáng)了子空間判別性[51]。
圖8 交叉視圖映射模型
Fig.8 Cross-view mapping model
還有一部分研究為降低計(jì)算復(fù)雜度從而減少系統(tǒng)匹配時(shí)間,提出省去KISSME算法之前的必要降維步驟,文獻(xiàn)[52]提出了成對(duì)約束成分分析(Paired Constraint Component Analysis,PCCA)算法,該方法學(xué)習(xí)一個(gè)線性映射函數(shù)以便能夠直接處理高維數(shù)據(jù),從而減小了計(jì)算復(fù)雜度。進(jìn)一步地,文獻(xiàn)[53]又對(duì)子空間投影方法PCCA進(jìn)行了改進(jìn),提出應(yīng)用效果更好、精度更高的正則化成對(duì)約束成分分析(rPCCA)算法。學(xué)習(xí)一個(gè)可以直接計(jì)算特征表達(dá)向量間的相似度的模型也是解決行人再識(shí)別問(wèn)題的一個(gè)常用思路,Chen Dapeng等人將特征經(jīng)過(guò)二次多項(xiàng)式函數(shù)的特征映射,從而實(shí)現(xiàn)了馬氏距離與雙線性相似度融合的模型[54-56]。使用支持向量機(jī)SVM進(jìn)行分類也是當(dāng)時(shí)研究者的思路之一,Prosser Sateesh等人提出首先學(xué)習(xí)一組弱RankSVMs分類器,之后再將這些弱分類器級(jí)聯(lián)組成強(qiáng)分類器,通過(guò)此強(qiáng)分類器來(lái)完成分類即再識(shí)別任務(wù)[17]。利用從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)而得的詞典表示行人是來(lái)自與人臉識(shí)別的解決思路,Lisanti Giuseppe等人采用迭代策略學(xué)習(xí)稀疏編碼,匹配過(guò)程則采用排序法[57]。文獻(xiàn)[58]利用每個(gè)行人的特征特性為每個(gè)行人ID學(xué)習(xí)特定的支持向量機(jī)分類器,提出利用最小二乘耦合字典算法來(lái)學(xué)習(xí)行人的特征詞典映射函數(shù),在常用數(shù)據(jù)集中,該研究取得了較大的性能優(yōu)化結(jié)果。Pedagadi Sateesh等人將近鄰保持映射(Locality-Preserving Projection,LPP)融入傳統(tǒng)的費(fèi)舍爾判別分析(Fisher Discriminant Analysis,FDA)中,提出了局部費(fèi)舍爾判別分析LFDA,該方法在多個(gè)數(shù)據(jù)集中取得了不錯(cuò)的效果[59]。
2.2.2視頻水平的度量學(xué)習(xí)
在基于視頻的行人再識(shí)別過(guò)程中,除了圖像特征提取和距離度量?jī)蓚€(gè)階段,還有一個(gè)必要過(guò)程,即考慮對(duì)多幀圖像的特征做何種距離度量會(huì)使特征更具區(qū)分性。
其中一類比較簡(jiǎn)單的方法,直接選取兩個(gè)圖像特征集合中距離最近的圖像對(duì)之間的距離作為集合間距離,該策略被稱為近鄰點(diǎn)法。例如文獻(xiàn)[16]提出表觀特征的上下文學(xué)習(xí)方法,注重行人視頻幀中的表觀特征里所隱含的空間分布模式,該測(cè)度使特征能夠反映更多的空間信息。相對(duì)近鄰點(diǎn)法,平均分布法更為有效,該方法直接計(jì)算兩個(gè)圖像特征集合中所有的圖像對(duì)之間的距離,最后取這些距離的均值作為兩個(gè)集合間的距離。其中比較具有代表性工作如文獻(xiàn)[60],該文獻(xiàn)提出將同一行人的兩不同視角下所得的圖像特征向量級(jí)聯(lián)之后,利用徑向基函數(shù)核的支持向量機(jī)做二分類操作,支持向量機(jī)輸出的分?jǐn)?shù)可作為排序參考。
另一種可行方法是集合建模法,即以一種顯式的表征形式來(lái)表示幾何特征,通常情況下直接取一個(gè)典型表達(dá)刻畫(huà)整個(gè)集合的特征,該典型表示的提取方法有兩種,其一是針對(duì)視頻時(shí)空表觀特征設(shè)計(jì)更加全面的表示模型;另外一種是直接對(duì)所有圖像的特征求平均作為代表。
基于靜止圖像的行人再識(shí)別問(wèn)題中存在類間距離和類內(nèi)距離的概念,在基于視頻的行人再識(shí)別研究中同樣存在類似的距離概念,文獻(xiàn)[61]同時(shí)學(xué)習(xí)視頻內(nèi)和視頻間距離的度量方法,這使視頻表示變得更為緊湊且區(qū)分性更強(qiáng)。Wang Taiqing等人利用RankSVM從行人的不完整圖像序列中自動(dòng)選擇最具辨別力的視頻片段,計(jì)算可靠時(shí)空特征的同時(shí)學(xué)習(xí)人物ReID的視頻分級(jí)功能,從而實(shí)現(xiàn)了RankSVM在視頻行人再識(shí)別中的應(yīng)用[62,9]。
2.2.3度量學(xué)習(xí)方法總結(jié)
綜合圖像、視頻水平的度量學(xué)習(xí)方法,可以看出,現(xiàn)有研究大都從距離概念定義、投影子空間學(xué)習(xí)、特征對(duì)齊等角度出發(fā),對(duì)行人再識(shí)別的度量學(xué)習(xí)方法進(jìn)行創(chuàng)新和擴(kuò)展,逐步提出很多行之有效的經(jīng)典算法??偨Y(jié)目前度量方法的特點(diǎn)如下:1)目前出現(xiàn)的大部分度量學(xué)習(xí)方法大都基于行人特征向量間的距離度量即特征相似度概念進(jìn)行模型設(shè)計(jì),倘若受特征提取器的影響,行人特征向量中出現(xiàn)了關(guān)鍵信息缺失的情況,該類度量方法的準(zhǔn)確度將會(huì)大打折扣。因此,基于特征序列提取行人更加立體和全面的表觀及運(yùn)動(dòng)細(xì)節(jié),并輔以有效的序列相似度匹配方法,將成為未來(lái)針對(duì)度量學(xué)習(xí)角度的主研方向之一。2)大多數(shù)現(xiàn)有度量方法的模型穩(wěn)定性和實(shí)驗(yàn)結(jié)果的魯棒性需要借助大量的標(biāo)注數(shù)據(jù)集,然而在現(xiàn)實(shí)跨攝像頭監(jiān)控環(huán)境中,對(duì)行人樣本的完整采集已屬不易,對(duì)大量行人樣本的標(biāo)注也是一項(xiàng)艱巨的任務(wù),樣本不足增大了高準(zhǔn)確度度量方法的學(xué)習(xí)和優(yōu)化的難度。因此如何利用大量未標(biāo)注行人數(shù)據(jù),學(xué)習(xí)合理高效的度量方法模型,使其在小數(shù)據(jù)集中仍有較好的泛化能力,是未來(lái)針對(duì)度量方法的又一主研方向。
文獻(xiàn)[12]最早將深度學(xué)習(xí)用于解決行人再識(shí)別問(wèn)題,在行人再識(shí)別研究中,常用的深度CNN模型有分類模型[10]和暹羅網(wǎng)絡(luò)模型[63]。文獻(xiàn)[9]利用深度網(wǎng)絡(luò)提取行人特征,首先將將行人圖像劃分成3個(gè)圖像區(qū)域,然后經(jīng)過(guò)兩組參數(shù)共享的卷積層和一個(gè)全連接層進(jìn)行融合,最后輸出特征向量。香港中文大學(xué)的Li Wei等人首次將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在行人再識(shí)別問(wèn)題中,提出了DeepReID模型,用深度神經(jīng)網(wǎng)絡(luò)來(lái)聯(lián)合處理誤對(duì)齊、光度學(xué)變換、幾何變換、遮擋和背景雜亂問(wèn)題,并取得了不錯(cuò)的效果[64],模型示意圖如圖9所示。方法[10]則提出了一種增加了部件匹配層的改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),部件匹配層的引入能夠?qū)煞鶊D像上對(duì)應(yīng)位置的卷積響應(yīng)相乘。文獻(xiàn)[65]將暹羅網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶模型融合,在分塊基礎(chǔ)上,記憶模型的引入可以自適應(yīng)地記憶圖像之間存在的空間關(guān)系,從而得到更有區(qū)分性的深度特征。暹羅網(wǎng)絡(luò)的缺點(diǎn)是僅僅考慮成對(duì)行人圖像的標(biāo)簽,然而在最近公布的行人數(shù)據(jù)集中行人圖像大都大于兩張,此時(shí)分類模型就顯得更加適用于行人再識(shí)別問(wèn)題。文獻(xiàn)[66]使用Softmax代價(jià)函數(shù),結(jié)合每個(gè)全連接神經(jīng)元的影響系數(shù)和Dropout影響系數(shù),共同學(xué)習(xí)而得的通用分類網(wǎng)絡(luò)可以有效提高行人再識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率。
圖9 深度再識(shí)別DeepReID模型示意圖
Fig.9 DeepReID model diagram
由于視頻運(yùn)動(dòng)特征的有效性,若能將運(yùn)動(dòng)特征和深度特征提取網(wǎng)絡(luò)綜合考慮,理論上會(huì)得到更優(yōu)秀的性能。文獻(xiàn)[67]提出結(jié)合CNN及RNN的循環(huán)卷積網(wǎng)絡(luò)(Recurrent Convolutional Network),首先使用CNN網(wǎng)絡(luò)模型從輸入視頻幀中提取特征,然后將特征作為RNN網(wǎng)絡(luò)的輸入,得到視頻幀之間隱含的時(shí)間信息,最后經(jīng)過(guò)最大或者平均池化對(duì)輸入視頻幀的特征進(jìn)行整合,得到視頻幀特征的魯棒表達(dá)。實(shí)驗(yàn)結(jié)果表明,該算法在iLID-VID以及PRID 2011兩大數(shù)據(jù)集中的Rank-1提高到58%和70%,比傳統(tǒng)深度方法基線高出將近20%。
如上所述,大多數(shù)現(xiàn)有的研究都將行人檢測(cè)和行人再識(shí)別作為獨(dú)立部分來(lái)改進(jìn),但行人檢測(cè)中抓取到的行人框的質(zhì)量和行人跟蹤中追蹤器的準(zhǔn)確性將直接影響行人再識(shí)別的準(zhǔn)確度,分開(kāi)研究并無(wú)法保證實(shí)際應(yīng)用時(shí)系統(tǒng)的高效性和實(shí)時(shí)性。
深度學(xué)習(xí)模型的端到端工作模式使這兩者的融合成為可能,一個(gè)包含行人檢索和行人再識(shí)別模塊的端到端系統(tǒng)示意圖如圖10所示。自工作[14]之后,文獻(xiàn)[68]和文獻(xiàn)[69]引入基于大規(guī)模數(shù)據(jù)集的端到端行人再識(shí)別系統(tǒng)模型,這兩個(gè)系統(tǒng)模型均采用原始視頻幀作為輸入,在原始視頻幀中直接進(jìn)行行人檢測(cè),將抓取到的行人框構(gòu)成行人再識(shí)別的數(shù)據(jù)集,而不再僅僅局限于提升行人再識(shí)別模塊的性能。
圖10 一個(gè)包含行人檢索和行人再識(shí)別的端到端系統(tǒng)
Fig.10 An end-to-end person re-ID system that includes person detection and re-identification
基于深度學(xué)習(xí)的靜止圖像行人再識(shí)別的主要瓶頸在于早期行人圖像數(shù)據(jù)集的數(shù)據(jù)量較小,數(shù)據(jù)不足導(dǎo)致訓(xùn)練不出性能更優(yōu)良的深度網(wǎng)絡(luò)模型?;谏疃葘W(xué)習(xí)的視頻行人再識(shí)別在數(shù)據(jù)量上完全不用擔(dān)心,解決要點(diǎn)在于采取何種策略對(duì)不同的行人視頻序列進(jìn)行匹配。
過(guò)去幾年發(fā)布了許多基于幀圖像的行人數(shù)據(jù)集,其中常用的基于圖像的行人再識(shí)別數(shù)據(jù)集匯總?cè)绫?。最先發(fā)布的是VIPeR[70]數(shù)據(jù)集,它包含632對(duì)行人的1 264張行走圖像,該數(shù)據(jù)集是在室外環(huán)境中經(jīng)兩個(gè)角度不同的攝像設(shè)備采集而得,背景、光線、角度等的變化豐富,在行人再識(shí)別的研究中非常具有挑戰(zhàn)性,因此到目前為止該數(shù)據(jù)集是應(yīng)用最為廣泛的行人數(shù)據(jù)集之一。之后陸續(xù)發(fā)布的行人數(shù)據(jù)集盡可能地涵蓋了各種實(shí)際應(yīng)用場(chǎng)景,例如,iLIDS[71]收集了機(jī)場(chǎng)大廳中來(lái)往匆匆的行人圖像,行人目標(biāo)的年齡段分布廣泛;CUHK01[72]、CUHK02[73]、CUHK03[64]和Market-1501[74]收集的多為大學(xué)校園的行人,衣著特色變化明顯的年輕人較多。其中CUHK01數(shù)據(jù)集包含971個(gè)行人的3 884幅圖像,采用人工標(biāo)注方式產(chǎn)生,因此圖像質(zhì)量很好;Market-1501數(shù)據(jù)集包含由6個(gè)相機(jī)拍攝的1 501個(gè)行人的32 668幅圖像,采用部分變形模型自動(dòng)檢測(cè)算法標(biāo)注行人,有些行人圖像只包含了行人的身體部件,但因該數(shù)據(jù)集規(guī)模較大,深度學(xué)習(xí)模型常采用它作為訓(xùn)練集。
行人再識(shí)別研究中常用數(shù)據(jù)集詳情匯總?cè)绫?所示,部分?jǐn)?shù)據(jù)集示例如圖11所示。其中MARS[75]數(shù)據(jù)集非常值得一提,它是到目前為止行人再識(shí)別研究領(lǐng)域內(nèi)規(guī)模最大的數(shù)據(jù)集,由清華大學(xué)的Zheng Liang等人在一家校園超市門(mén)口自設(shè)角度不同的六臺(tái)攝像機(jī)錄制而得,MARS數(shù)據(jù)集中包含的是連續(xù)的視頻幀,共包括1 261個(gè)行人的17 467段視頻片段,共有行人圖像1 067 516張,由此可見(jiàn)其規(guī)模之大。該數(shù)據(jù)集的行人圖像標(biāo)注工作全部由計(jì)算機(jī)使用部分變形模型自動(dòng)檢測(cè)算法(Deformable Parts Model,DPM)完成,也存在嚴(yán)重的行人誤檢、較多的錯(cuò)誤標(biāo)注和圖像噪聲,不過(guò)這種特點(diǎn)使得它成為近期行人再識(shí)別研究中最具挑戰(zhàn)性的數(shù)據(jù)集之一。
表1 部分常用基于圖像的行人再識(shí)別數(shù)據(jù)集
Tab.1 Some image-based person re-identification data sets
數(shù)據(jù)集名稱發(fā)布時(shí)間行人總數(shù)圖像總數(shù)攝像頭個(gè)數(shù)采集場(chǎng)景VIPeR[70]20076321 2642室外校園iLIDs[71]20091194762室內(nèi)機(jī)場(chǎng)CUHK01[72]20129713 8842室內(nèi)外校園CUHK02[73]20131 8167 26410室內(nèi)外校園CUHK03[64]20141 46713 1642室內(nèi)外校園Market-1501[74]20151 50132 6686室外校園
表2 部分常用基于視頻的行人再識(shí)別數(shù)據(jù)集
Tab.2 Some video-based person re-identification data sets
數(shù)據(jù)集提出時(shí)間行人總數(shù)視頻片段行人框總數(shù)相機(jī)個(gè)數(shù)采集場(chǎng)景PRID 2011[76]201120040040k2室外步行街ILIDS-VID[9]201430060044k2室內(nèi)機(jī)場(chǎng)MARS[75]20161 26120 7151M6室外校園
綜合近年來(lái)陸續(xù)發(fā)布的數(shù)據(jù)集的特點(diǎn),可以總結(jié)出以下發(fā)展趨勢(shì):1)發(fā)布時(shí)間比較連續(xù)且近幾年發(fā)布的數(shù)據(jù)集的規(guī)模在不斷增加,行人的形象類別越來(lái)越豐富;2)各數(shù)據(jù)集的采集場(chǎng)景在不斷變化,少有重復(fù)。要實(shí)現(xiàn)行人再識(shí)別在實(shí)際中的應(yīng)用,具有較多難點(diǎn),這也促進(jìn)了不同場(chǎng)景內(nèi)更大規(guī)模數(shù)據(jù)集的陸續(xù)發(fā)布;3)行人邊框逐漸由行人檢測(cè)算法檢出而不是人工標(biāo)出,但同時(shí)帶來(lái)了行人誤檢、誤對(duì)齊等問(wèn)題,這給自動(dòng)檢測(cè)算法的研究提出了更高的要求;4)采集行人圖像的相機(jī)個(gè)數(shù)越來(lái)越多,角度變化越來(lái)越多,包含的圖像信息也越來(lái)越豐富。
圖11 多數(shù)據(jù)集行人圖像示例
Fig.11 Pedestrian image examples
行人再識(shí)別系統(tǒng)目前常用的評(píng)價(jià)指標(biāo)主要有累積匹配特征(Cumulative Match Characteristic,CMC)曲線和Rank-N表格。如圖12 CMC曲線示例所示,CMC曲線橫軸對(duì)應(yīng)待查詢樣本的排列序號(hào),縱軸對(duì)應(yīng)概率值即平均精度,例如CMC曲線上的任意一點(diǎn)(k,p)對(duì)應(yīng)的實(shí)際意義是指針對(duì)查詢集中行人A的某張圖像,在行人候選集中選出相似度最高的前k張圖片,其中包含查詢目標(biāo)行人的概率值p,由全部N個(gè)查詢樣本得到的結(jié)果統(tǒng)計(jì)而得:
(3)
其中,l(·)表示指示函數(shù),mi是指第i個(gè)查詢樣本對(duì)應(yīng)的待查詢前k張圖片中與它同類別的樣本序號(hào)。當(dāng)橫坐標(biāo)對(duì)應(yīng)相等時(shí),不同算法對(duì)應(yīng)的縱坐標(biāo)越大,表明識(shí)別效果越好,并且隨著橫坐標(biāo)的增大,縱坐標(biāo)表示的準(zhǔn)確率呈遞增趨勢(shì)。Rank-N表格是CMC曲線上不同算法識(shí)別率的數(shù)字直觀表示,一般實(shí)驗(yàn)中考慮Rank-1,Rank-5,Rank-10和Rank-20所對(duì)應(yīng)概率值,根據(jù)實(shí)際意義Rank-1代表模型系統(tǒng)真正的行人再識(shí)別能力。
圖12 CMC曲線示例
Fig.12 CMC curve example
綜合考慮上述各有效方法的優(yōu)劣,將當(dāng)前幾種表現(xiàn)良好的經(jīng)典算法在VIPeR數(shù)據(jù)集中的性能對(duì)比、在PRID以及CUHK 01數(shù)據(jù)集中的性能對(duì)比、在視頻數(shù)據(jù)集PRID 2011及iLIDS-VID中的性能對(duì)比分別匯總?cè)绫?~5所示。
表3 部分算法在VIPeR數(shù)據(jù)集中的識(shí)別結(jié)果展示
Tab.3 Some algorithms′ CMC rank results on VIPeR dataset%
算法Rank-1Rank-5Rank-10Rank-20KISSME[16]23.3552.9567.5181.78ITML[17]11.6131.3945.7663.86ELF[20]12.0031.0041.0058.00SDALF[21]19.8738.8949.3765.73LMNN[43]6.2319.6532.6352.25PCCA[52]11.9836.7152.1071.41rPCCA[53]16.0544.0961.6778.24LFDA[59]17.9644.3860.0976.17
表4 部分算法在PRID和CUHK 01數(shù)據(jù)集中的識(shí)別結(jié)果展示
Tab.4 Some algorithms′ CMC rank results on PRID and CUHK 01 datasets%
算法PRID數(shù)據(jù)集CUHK 01數(shù)據(jù)集Rank-1Rank-5Rank-10Rank-20Rank-1Rank-5Rank-10Rank-20KISSME[16]16.2440.3053.6168.7715.435.8447.9060.48PCCA[52]12.1835.1650.2067.5610.9930.8743.4957.93rPCCA[53]18.5445.0260.0366.1414.7138.6952.3466.65LFDA[59]15.3137.0150.1064.4013.1129.8339.9651.86
表5 部分算法在視頻數(shù)據(jù)集PRID 2011和iLIDS-VID中的識(shí)別結(jié)果展示
Tab.5 Some algorithms′ CMC rank results on PRID 2011 and iLIDS-VID datasets%
算法PRID 2011數(shù)據(jù)集iLIDS-VID數(shù)據(jù)集Rank-1Rank-5Rank-10Rank-20Rank-1Rank-5Rank-10Rank-20KISSME[16]34.3861.6872.1381.0136.5367.8078.8087.07SDALF[21]5.2220.7732.0247.936.3418.8727.1937.34Avg-TAPR[33]68.6494.6197.4498.9355.0287.5693.8897.20TDL[37]56.7480.0087.6493.5956.3387.6095.6098.27LMNN[43]27.1953.7164.9475.1728.3361.4076.4788.93LFDA[59]43.7072.8081.6990.8932.9368.4782.2092.60
由表中結(jié)果可知,相對(duì)于基于單幀圖像數(shù)據(jù)集,基于視頻數(shù)據(jù)集訓(xùn)練優(yōu)化的模型具有更好的性能表現(xiàn)。實(shí)際應(yīng)用中的視頻流包含豐富的行人細(xì)節(jié)信息,因此以多幀圖像作為集合的行人再識(shí)別有著更好的實(shí)用性與準(zhǔn)確性。當(dāng)前大多數(shù)基于視頻行人再識(shí)別的方法,在集合表示和距離度量方面往往比較直接,限制了性能的進(jìn)一步提升。如何在充分利用視頻幀圖像的細(xì)節(jié)信息,緩解行人姿態(tài)變化、遮擋等帶來(lái)的負(fù)面影響的同時(shí),減少噪聲和冗余信息的過(guò)多引入,防止模型過(guò)擬合將是下一階段行人再識(shí)別研究面臨的主要挑戰(zhàn)。
本文回顧行人再識(shí)別的發(fā)展歷程,介紹基本任務(wù)的同時(shí),從不同研究方法角度出發(fā)將該問(wèn)題按照基于特征提取、距離度量、深度學(xué)習(xí)網(wǎng)絡(luò)等方法進(jìn)行分析與總結(jié)。此外本文還介紹了幾種常用行人數(shù)據(jù)集以及目前使用的性能評(píng)價(jià)指標(biāo);最后對(duì)行人再識(shí)別目前研究存在的問(wèn)題和今后趨勢(shì)作進(jìn)一步展望。
到目前為止,現(xiàn)有行人再識(shí)別模型在某些小規(guī)模數(shù)據(jù)集上的識(shí)別效果已經(jīng)接近人類的識(shí)別能力,但隨著監(jiān)控網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,研究中的數(shù)據(jù)集規(guī)模還遠(yuǎn)未達(dá)到實(shí)際需求。而且實(shí)際應(yīng)用對(duì)視頻內(nèi)容的自適應(yīng)智能化分析要求越來(lái)越高,因此從,長(zhǎng)遠(yuǎn)的研究和應(yīng)用角度來(lái)看,未來(lái)行人再識(shí)別的研究可能主要圍繞以下幾個(gè)方面進(jìn)行:1)收集更大的行人數(shù)據(jù)集、尋求更精確的行人檢測(cè)算法。在保證特征描述子的魯棒性和度量學(xué)習(xí)方法的判別性前提下,為接近實(shí)際應(yīng)用場(chǎng)景中的規(guī)模,嘗試提出大規(guī)模數(shù)據(jù)集。理所當(dāng)然,若自動(dòng)檢測(cè)算法的精度比較低,將會(huì)帶來(lái)很多行人視頻幀數(shù)據(jù)集中的錯(cuò)誤標(biāo)注,隨之而來(lái)的是行人再識(shí)別階段的誤判和再識(shí)別準(zhǔn)確率的降低,但是目前的自動(dòng)檢測(cè)算法的精度遠(yuǎn)不如人類手動(dòng)剪裁,因此提出較大規(guī)模數(shù)據(jù)集的同時(shí),還應(yīng)該研究出應(yīng)用效果及精度更高的檢測(cè)跟蹤算法。2)與其他生物識(shí)別技術(shù)結(jié)合。隨著攝像技術(shù)的發(fā)展,遠(yuǎn)距離清晰拍攝或者逆光拍攝逐漸也會(huì)成為可能,因此可以在再識(shí)別模型中加入人臉識(shí)別,來(lái)輔助再識(shí)別準(zhǔn)確率的提高。3)減少算法用時(shí),提高識(shí)別速度。盡管在小規(guī)模數(shù)據(jù)集中幾乎可以忽略識(shí)別時(shí)長(zhǎng),但隨著數(shù)據(jù)集規(guī)模的增大,識(shí)別速度也是一個(gè)需要顧及的性能評(píng)價(jià)指標(biāo),應(yīng)盡可能保證識(shí)別效果的同時(shí)提高識(shí)別效率。實(shí)際應(yīng)用時(shí),總是希望能在較短時(shí)間內(nèi)準(zhǔn)確定位目標(biāo)行人的行走路線和所在位置,最好能夠?qū)崿F(xiàn)大監(jiān)控網(wǎng)絡(luò)的實(shí)時(shí)追蹤。4)考慮行人檢測(cè)、跟蹤、再識(shí)別集成系統(tǒng)的研究。大多數(shù)現(xiàn)有的行人再識(shí)別研究可以被當(dāng)作一種識(shí)別任務(wù),是因?yàn)閷?shí)驗(yàn)中用到的查詢集總有上限,然而在實(shí)際應(yīng)用時(shí),行人再識(shí)別將成為復(fù)雜開(kāi)放問(wèn)題,識(shí)別任務(wù)將變?yōu)樵趲缀鯖](méi)有數(shù)量上限的行人查詢集中搜尋目標(biāo)行人。因此從技術(shù)角度來(lái)講,行人再識(shí)別未來(lái)的研究目標(biāo)之一仍是提高匹配精度,在此基礎(chǔ)上可以集成行人檢測(cè)、行人跟蹤以及行人再識(shí)別形成高效的端到端身份識(shí)別系統(tǒng),這將大大利于行人再識(shí)別模型在實(shí)際中的高效應(yīng)用。