章東平,尹奕博
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院, 浙江 杭州 310018)
深度哈希算法行人再識(shí)別技術(shù)研究
章東平,尹奕博
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院, 浙江 杭州 310018)
行人再識(shí)別是視頻監(jiān)控領(lǐng)域的關(guān)鍵問(wèn)題之一,難點(diǎn)在于不同攝像機(jī)中同一行人的圖像差異較大.基于行人圖像的標(biāo)識(shí)可由圖像中的語(yǔ)義屬性組合間接表示的假設(shè),現(xiàn)提出使用一種基于深度哈希函數(shù)的行人再識(shí)別算法.通過(guò)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到哈希函數(shù),結(jié)合多目標(biāo)損失函數(shù)保證分類的準(zhǔn)確和哈希編碼的有效,使得相似的圖像能夠獲得相似的哈希編碼,最后比較哈希特征間的漢明距離進(jìn)行再識(shí)別.實(shí)驗(yàn)結(jié)果表明,深度哈希特征能夠有效地進(jìn)行行人再識(shí)別,提高了算法的執(zhí)行效率.
哈希算法; 深度學(xué)習(xí);漢明距離
作為視頻內(nèi)容分析和多媒體檢索等應(yīng)用中的一項(xiàng)關(guān)鍵技術(shù),行人再識(shí)別的目標(biāo)是指定一張行人圖像,在已有的其他非重疊攝像機(jī)視角下的行人圖像庫(kù)中,識(shí)別出與此人相同的圖像[1].然而,行人再識(shí)別問(wèn)題是一個(gè)很有挑戰(zhàn)性的問(wèn)題,因?yàn)椴煌瑪z像頭下的行人姿態(tài)、視角、光照、遮擋以及背景變化等,會(huì)導(dǎo)致同一行人在不同場(chǎng)景中的外觀表觀變化較大.由于行人再識(shí)別問(wèn)題重要的現(xiàn)實(shí)意義和面臨的挑戰(zhàn),近年來(lái)吸引了大批學(xué)者進(jìn)行研究,目前行人再識(shí)別的算法大致分為兩個(gè)方面,即基于特征描述的方法[2-4]和基于距離度量學(xué)習(xí)的方法[5-6].前者主要是設(shè)計(jì)出具有區(qū)分性的魯棒的特征描述子,后者是通過(guò)機(jī)器學(xué)習(xí)找到合適的相似度度量函數(shù),使得同一行人圖像對(duì)的相似度盡可能高,不同行人圖像對(duì)的相似度盡可能的低.
深度學(xué)習(xí)自2012年被Hinton的研究小組[7]采用并以巨大的優(yōu)勢(shì)贏得了ImageNet圖像分類比賽的冠軍后,這種端到端的直接從原始數(shù)據(jù)中進(jìn)行特征學(xué)習(xí)的的方法在計(jì)算機(jī)視覺(jué)領(lǐng)域被廣泛采用,并取得了一系列的成績(jī)[7,9,17].深度網(wǎng)絡(luò)模型具有強(qiáng)大的學(xué)習(xí)能力和高效的特征表達(dá)能力,從像素級(jí)原始數(shù)據(jù)到抽象的語(yǔ)義概念逐層提取信息,這使得它在提取圖像的全局特征和上下文信息方面具有突出的優(yōu)勢(shì).
早期由于缺乏大規(guī)模的標(biāo)準(zhǔn)數(shù)據(jù)集,主要使用基于經(jīng)驗(yàn)人工設(shè)計(jì)的特征算法[2]進(jìn)行再識(shí)別.近年來(lái)出現(xiàn)了一些大規(guī)模的加標(biāo)注的行人數(shù)據(jù)集[5],為使用深度學(xué)習(xí)[7]進(jìn)行行人再識(shí)別[4-5]提供了基礎(chǔ).通過(guò)觀察現(xiàn)有數(shù)據(jù)發(fā)現(xiàn),不同場(chǎng)景下的行人圖像屬性不同.如圖1,iLIDS數(shù)據(jù)集是來(lái)自機(jī)場(chǎng)大廳,行人大多攜帶行李箱;PRID數(shù)據(jù)集來(lái)自街道,行人大多行走在斑馬線上;CUHK03數(shù)據(jù)集拍攝于大學(xué)校園,行人大多背著書(shū)包.于是,本文假設(shè)不同數(shù)據(jù)集中的行人圖像,含有不同的語(yǔ)義屬性,相似的行人圖像會(huì)產(chǎn)生相似的語(yǔ)義屬性特征.本文采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)一個(gè)哈希函數(shù),按照分類的思想進(jìn)行二值語(yǔ)義特征的學(xué)習(xí).此外,為使學(xué)習(xí)到的二值哈希特征簡(jiǎn)潔有效,本文在分類目標(biāo)損失函數(shù)的基礎(chǔ)上增加了約束條件,使得學(xué)習(xí)到的特征更有區(qū)分性.最后,通過(guò)將學(xué)習(xí)的二值語(yǔ)義特征求漢明距離,可獲得一對(duì)圖像的相似度得分,進(jìn)行排序后可獲得行人再識(shí)別結(jié)果.
圖1 不同的行人再識(shí)別數(shù)據(jù)集樣例Figure 1 Examples of multiple pedestrian re-identification datasets
當(dāng)圖像In屬于行人m時(shí)記yn=m.本文的目標(biāo)是學(xué)習(xí)一個(gè)映射函數(shù)F(In)={0,1}K×N將圖像In映射到k位的二值哈希編碼特征向量C={hn}∈{0,1}K×N,同時(shí)保留行人圖像間的語(yǔ)義相似度,即同一個(gè)人的不同圖像得到的哈希編碼也基本相同.可以認(rèn)為不同的0和1組合代表圖像具有不同的語(yǔ)義屬性,比如圖像中含有書(shū)包這個(gè)屬性時(shí)則該特征屬性記為1,否則為0.
1.1 深度哈希函數(shù)
本文在最近深度學(xué)習(xí)進(jìn)展的基礎(chǔ)上利用卷積神經(jīng)網(wǎng)絡(luò)去構(gòu)建哈希函數(shù),直接從圖像像素進(jìn)行端到端的學(xué)習(xí)得到圖像高層語(yǔ)義的特征表達(dá).論文AlexNet[7]已經(jīng)表明在計(jì)算機(jī)視覺(jué)領(lǐng)域如圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割和圖像檢索等領(lǐng)域,通過(guò)端到端學(xué)習(xí)得到的深度特征比傳統(tǒng)人工設(shè)計(jì)特征能夠獲取更豐富更有效的圖像表達(dá).
圖2 系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)圖Figure 2 Structure of the system
本文的工作是基于AlexNet網(wǎng)絡(luò)模型進(jìn)行進(jìn)一步的擴(kuò)展,AlexNet網(wǎng)絡(luò)包括5個(gè)卷積層Conv1-5,池化層采用最大池化,后接兩個(gè)全連接層Fc6-7和一個(gè)分類輸出層Fc8,隱藏層使用的激活函數(shù)是ReLUs,因?yàn)樗绕渌姆蔷€性操作如tanh、sigmoid等更簡(jiǎn)單并且可以加快訓(xùn)練速度,輸出單元使用softmax函數(shù)進(jìn)行多分類任務(wù),其中卷積層用Conv表示,全連接層用Fc表示,下標(biāo)數(shù)字表示該層在整個(gè)網(wǎng)絡(luò)中的位置.為了保證哈希函數(shù)利用深度特征學(xué)習(xí)得到,本文在特征層后面添加了一層哈希層H,包含K個(gè)神經(jīng)元,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2.哈希層中的激活函數(shù)采用sigmoid函數(shù),將特征值限制在0到1之間,然后通過(guò)設(shè)置閾值將特征向量轉(zhuǎn)化為{0,1}的組合,本實(shí)驗(yàn)取閾值0.5.
(1)
式(1)中T(z)為階躍函數(shù),當(dāng)z>0時(shí),T(z)=1,否則為0.
1.2 目標(biāo)損失函數(shù)
圖像標(biāo)簽不僅用于圖像分類,也可用于監(jiān)督哈希函數(shù)的學(xué)習(xí).本文為圖像標(biāo)簽和二值編碼之間的關(guān)系建立一個(gè)模型,使得到的二值編碼保留語(yǔ)義特征.本文假設(shè)語(yǔ)義標(biāo)簽可由K個(gè)屬性的有無(wú)來(lái)決定.當(dāng)一副圖像具有一組二值向量特征{0,1}K的時(shí)候,分類結(jié)果會(huì)依賴于這些屬性特征.這意味著本文可以優(yōu)化一個(gè)分類損失函數(shù),從而保證相似的圖像可映射得到相似的哈希二值編碼.
(2)
為了保證學(xué)習(xí)到的二值哈希語(yǔ)義特征具有區(qū)分性,本文為分類損失函數(shù)添加約束項(xiàng),使得哈希層每個(gè)神經(jīng)元輸出的特征值更具區(qū)分性,避免特征值在閾值0.5附近,完整的目標(biāo)損失函數(shù)如下:
(3)
式(3)中,α和β分別表示分類損失函數(shù)和哈希約束項(xiàng)的權(quán)值,LH為哈希約束項(xiàng):
(4)
本文的工作基于開(kāi)源框架CAFFE[8],并且前面的網(wǎng)絡(luò)初始權(quán)值使用AlexNet在ImageNet上訓(xùn)練好的1 000類分類任務(wù)模型的權(quán)值進(jìn)行初始化,哈希層H使用隨機(jī)初始化權(quán)值,并調(diào)大該層的學(xué)習(xí)率,在AlexNet模型上進(jìn)行精調(diào),使其更加適用于行人再識(shí)別任務(wù).網(wǎng)絡(luò)訓(xùn)練采用批量隨機(jī)梯度下降反向傳播算法,需要說(shuō)明的是本文除了新加入哈希層H和給分類目標(biāo)損失函數(shù)加入約束項(xiàng)外,還去除了LRN層,研究[9]表明LRN層并沒(méi)提高識(shí)別率但會(huì)增加訓(xùn)練時(shí)長(zhǎng),并采用dropout策略防止過(guò)擬合.
經(jīng)過(guò)最近幾年的研究,行人再識(shí)別領(lǐng)域產(chǎn)生了一些標(biāo)準(zhǔn)數(shù)據(jù)集[5,10]供學(xué)者進(jìn)行驗(yàn)證比較,這些數(shù)據(jù)集各自有不同的特點(diǎn).本文在兩個(gè)常用的行人再識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行試驗(yàn).本小節(jié)首先簡(jiǎn)單介紹各個(gè)數(shù)據(jù)集的特點(diǎn)和采用的測(cè)試準(zhǔn)則,然后將實(shí)驗(yàn)結(jié)果跟其他方法進(jìn)行比較,并分析實(shí)驗(yàn)結(jié)果.
2.1 數(shù)據(jù)集和評(píng)價(jià)準(zhǔn)則
CUHK03數(shù)據(jù)集[13]是一個(gè)大學(xué)校園場(chǎng)景的數(shù)據(jù)集,包含1 360個(gè)行人,13 164張圖,其中不僅包括人工標(biāo)記的準(zhǔn)確的行人圖像,而且包括行人檢測(cè)器[11]自動(dòng)檢測(cè)得到的行人圖像,因而增加了難度,更具實(shí)用性.
iLIDS數(shù)據(jù)集[10]是由多個(gè)攝像頭在忙時(shí)拍攝的機(jī)場(chǎng)大廳場(chǎng)景的數(shù)據(jù)集,包含119個(gè)行人,479張圖像,每張圖像的像素值統(tǒng)一為128×64,并伴隨著巨大的光照變化和遮擋問(wèn)題.本文按照文獻(xiàn)[12]中的方法劃分?jǐn)?shù)據(jù)集,進(jìn)行試驗(yàn).
行人再識(shí)別領(lǐng)域通常采用 CMC(cumulative matching characteristic)曲線作為衡量檢索結(jié)果好壞的準(zhǔn)則.CMC 曲線的橫坐標(biāo)是排名分?jǐn)?shù)(Rank score),縱坐標(biāo)為識(shí)別率(Recognition percentage),曲線中的每個(gè)點(diǎn)都對(duì)應(yīng)了一個(gè)排名分?jǐn)?shù)和識(shí)別率,如 Rank R 的識(shí)別率為P,表示在前R個(gè)檢索結(jié)果中正確識(shí)別的概率P.所以CMC曲線位置越高,再識(shí)別結(jié)果越好.
通常評(píng)估再識(shí)別算法的主要關(guān)注點(diǎn)在于CMC曲線的第一個(gè)點(diǎn)的識(shí)別率(rank-1).因此本文關(guān)注的是排名分?jǐn)?shù)為1的識(shí)別率,即第一個(gè)檢索結(jié)果的正確率,
2.2 實(shí)驗(yàn)結(jié)果與分析
在標(biāo)準(zhǔn)數(shù)據(jù)集上的行人再識(shí)別實(shí)驗(yàn)效果如圖3.
圖3 行人再識(shí)別結(jié)果 其中第一列為查詢集,其余為候選集Figure 3 Result of pedestrian re-identification. The images in the first column are the probe images and the rest are the gallery images.
表1為不同算法在CUHK03上再識(shí)別率的對(duì)比.實(shí)驗(yàn)表明本文算法識(shí)別準(zhǔn)確率高于其他算法,這是由于本文使用深度哈希特征作為行人圖像的表達(dá),試驗(yàn)中僅使用漢明距離進(jìn)行相似度排序,相對(duì)于KISSME度量學(xué)習(xí)的方法更簡(jiǎn)單且有效.此外在數(shù)據(jù)集CUHK03的實(shí)驗(yàn)中,H層使用的不同的特征維度的實(shí)驗(yàn)結(jié)果,如圖4,實(shí)驗(yàn)表明隨著特征維度的增加,再識(shí)別率會(huì)逐漸增加,但當(dāng)特征維度超過(guò)512維后,再識(shí)別率下降,這是由于過(guò)多的特征維度會(huì)引入大量的背景噪聲而影響再識(shí)別精度,本實(shí)驗(yàn)最終選取512維特征,作為行人圖像的表征特征.
表1 CUHK03 數(shù)據(jù)集上CMC rank-1對(duì)比
在數(shù)據(jù)集iLIDS上不同算法的對(duì)比試驗(yàn),如圖5和表2.實(shí)驗(yàn)結(jié)果表明使用深度哈希特征比其他方法的效果好.需要說(shuō)明的是由于iLIDS數(shù)據(jù)集較小,訓(xùn)練的時(shí)候使用CUHK03訓(xùn)練好的模型參數(shù)來(lái)初始化CNN網(wǎng)絡(luò)的權(quán)值.
圖4 CUHK03數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)Figure 4 Comparative experiment on CUHK03 dataset
表2 iLIDS 數(shù)據(jù)集上不同算法的CMC rank-1識(shí)別率比較
圖5 iLIDS數(shù)據(jù)集上的對(duì)比試驗(yàn)Figure 5 Comparative experiment on iLIDS dataset
由以上實(shí)驗(yàn)結(jié)果表明,本文提出的算法能夠有效進(jìn)行行人再識(shí)別,深度哈希特征相對(duì)于傳統(tǒng)人工設(shè)計(jì)特征[2]效果要好,而且采用漢明距離進(jìn)行相似度度量,簡(jiǎn)單且有效.
本文基于行人再識(shí)別這一基本問(wèn)題,提出使用深度哈希函數(shù)進(jìn)行再識(shí)別的算法:首先通過(guò)改進(jìn)的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行模型的訓(xùn)練,使用ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練模型權(quán)值作為初始值;然后使用訓(xùn)練好的模型對(duì)輸入行人圖像提取H層的512維的深度特征并與設(shè)置的閾值比較,得到相應(yīng)的哈希特征向量;最后計(jì)算每對(duì)圖像的哈希特征向量間的漢明距離并進(jìn)行排序,得到再識(shí)別結(jié)果即圖像搜索庫(kù)中與輸入行人圖像最相似的行人圖像集的排序.本文算法簡(jiǎn)單有效且在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果均優(yōu)于其他算法.
[1] 杜宇寧,艾海舟.基于統(tǒng)計(jì)推斷的行人再識(shí)別算法[J].電子與信息學(xué)報(bào),2014,36(7):1612-1618. DU Y, AI H Z. Pedestrian re-identification algorithm based on statistical inference[J]. Journal of Electronics & Information Technology,2014,36 (7):1612-1618.
[2] FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features[C]//Computer Vision and Pattern Recognition. San Francisco: IEEE CVPR,2010:2360-2367.
[3] FAN C X, ZHU H, LIN G F, et al. Person re-identification based on multi-features[J]. Journal of Image and Graphics,2013,18(6):711-717.
[4] 張華.基于空間顏色特征的行人再識(shí)別方法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,41(2):2098-2104. ZHANG H. Person re-identification method based on spatial color feature[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition),2013,41 (2):2098-2104.
[5] MA L, YANG X, TAO D. Person re-identification over camera networks using multi-task distance metric learning[J]. IEEE Transactions on Image Processing,2014,23(8):3656-3670.
[6] XIONG F, GOU M, CAMPS O, et al. Person re-identification using kernel-based metric learning methods[C]//European conference on computer vision. Zurich: ECCV,2014:1-16.
[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems,2012,25(2):1097-1105.
[8] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on Multimedia. Florida: ACM,2014:675-678.
[9] SIMONYAN K, ZISSERMAN. A very deep convolutional networks for large-scale image recognition[J]. Computer Science,2014,14(9):1556-1563.
[10] ZHENG W S, GONG S, XIANG T. Associating groups of people.[J]. Active Range Imaging Dataset for Indoor Surveillance,2009,1(2):6-7.
[11] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence,2010,32(9):1627-1645.
[12] XIAO T, LI H, OUYANG W, et al. Learning deep feature representations with domain guided dropout for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE CVPR,2016:1249-1258.
[13] LI W, ZHAO R, XIAO T, et al. Deepreid: Deep filter pairing neural network for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE CVPR,2014:152-159.
[14] AHMED E, JONES M, MARKS T K. An improved deep learning architecture for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE CVPR,2015:3908-3916.
[15] FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features[C]//Computer Vision and Pattern Recognition (CVPR). San Francisco: IEEE CVPR,2010:2360-2367.
[16] XIONG F, GOU M, CAMPS O, et al. Person re-identification using kernel-based metric learning methods[C]//European Conference on Computer Vision. Springer International Publishing. Columbus: IEEE CVPR,2014:1-16.
[17] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE CVPR,2016:770-778.
[18] PAISITKRIANGKRAI S, SHEN C, VAN DEN HENGEL A. Learning to rank in person re-identification with metric ensembles[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE CVPR,2015:1846-1855.
Pedestrian re-identification on deep hash algorithm
ZHANG Dongping, YIN Yibo
(College of Information Engineering, China Jiliang University, Hangzhou 310018, China)
As one of the key tasks of intelligent video surveillance, pedestrian re-identification is very challenging due to large variation in visual appearance across different camera views. Assuming that a person’s ID could be indirectly represented by a combination of semantic attributes in the image, a deep hash pedestrian re-identification algorithm was introduced. The hash function was obtained by CNN and the muti-objective loss function ensured the validity of the classification and the efficiency of the hash codes, which could help obtain similar pedestrian images corresponding to similar hash codes. In the end, the hamming distance between hash features was compared with the re-identification. The experimental results show that the deep hash feature can improve the efficiency of pedestrian re-identification.
hash algorithm; deep learning; hamming distance
2096-2835(2017)02-0208-06
10.3969/j.issn.2096-2835.2017.02.012
2017-01-03 《中國(guó)計(jì)量大學(xué)學(xué)報(bào)》網(wǎng)址:zgjl.cbpt.cnki.net
浙江省自然科學(xué)基金資助項(xiàng)目(No.LY15F020021),浙江省公益性項(xiàng)目(No.2016C31079).
章東平(1970-),男,江西省鄱陽(yáng)人,教授,主要研究方向?yàn)閳D像處理機(jī)器學(xué)習(xí). E-mail:silenttree_zju@cjlu.edu.cn
TP391
A