徐家臻,李 婷,楊 巍
1.華中師范大學(xué) 教育信息技術(shù)學(xué)院,武漢430079
2.武漢船舶通信研究所,武漢430070
行人重識(shí)別技術(shù)是指給定某攝像頭拍攝到的某行人圖片,在資料庫(kù)中檢索該行人被其他攝像頭拍到的圖片。由于攝像頭位置、角度和參數(shù)設(shè)置不同,行人姿態(tài)頻繁變化,以及背景干擾、遮擋和成像質(zhì)量不穩(wěn)定等原因,同一行人在不同時(shí)刻不同攝像頭拍攝的圖片中存在較大差異(如圖1所示),這使得行人重識(shí)別問(wèn)題具有相當(dāng)?shù)碾y度。研究行人重識(shí)別問(wèn)題,對(duì)于社會(huì)安全和智能交通等領(lǐng)域具有重要的應(yīng)用價(jià)值。
圖1 Market1501數(shù)據(jù)集中的部分行人識(shí)別數(shù)據(jù)(每列圖像為同一行人)
行人重識(shí)別早期的研究重在尋找更好的距離度量算法[1],其中最具代表性的方法為KISSME算法[2]。該算法通過(guò)似然比檢驗(yàn)測(cè)量樣本對(duì)的差異程度,假定樣本對(duì)相似及不相似的概率分布均符合均值為0的正態(tài)分布,從而得到反映對(duì)數(shù)似然比檢驗(yàn)屬性的馬氏度量。近年來(lái),隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域的廣泛成功應(yīng)用[3],行人重識(shí)別的研究也集中到利用深度神經(jīng)網(wǎng)絡(luò)尋找更好的特征描述上。受到深度學(xué)習(xí)在人臉識(shí)別應(yīng)用的啟發(fā)[4],除了使用圖片分類(lèi)問(wèn)題中經(jīng)常使用的基于softmax的交叉熵來(lái)衡量識(shí)別損失(identification loss)外,這些算法還進(jìn)一步構(gòu)造了孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)輸入2幅、3幅或3幅以上屬于/不屬于同一行人的圖片計(jì)算驗(yàn)證損失(verification loss)[5-8]。
為了進(jìn)一步解決行人在不同圖像中的對(duì)齊問(wèn)題,Zheng 等人[9]提出了一種空間變換網(wǎng)絡(luò)的方法,利用識(shí)別損失訓(xùn)練最優(yōu)變換參數(shù),盡可能將所有行人縮放和旋轉(zhuǎn)到統(tǒng)一大小。Wei等人[10-11]運(yùn)用人體姿態(tài)識(shí)別領(lǐng)域近期的研究成果,定位人體關(guān)鍵點(diǎn)并將人體劃分為頭部、上肢和下肢三部分,分別提取局部特征并與整體特征融合作為行人特征。雖然融合局部特征能夠在一定程度上提高識(shí)別準(zhǔn)確率,但現(xiàn)有的姿態(tài)定位算法本身存在一定誤差,尤其是遮擋和背景干擾較大的情況下,該誤差造成的錯(cuò)誤劃分反而會(huì)影響識(shí)別準(zhǔn)確率。由此Sun 等人[12]提出了更為簡(jiǎn)練的PCB模型,將行人圖像經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)后的特征從上到下直接等分N份,分別提取各區(qū)域的特征同步訓(xùn)練,以該簡(jiǎn)單劃分得到的局部特征識(shí)別準(zhǔn)確率反而比關(guān)鍵點(diǎn)定位更好。
相對(duì)于物體識(shí)別、人臉識(shí)別問(wèn)題,當(dāng)前的行人重識(shí)別數(shù)據(jù)集普遍較小,因此也有研究從擴(kuò)大訓(xùn)練數(shù)據(jù)著手,利用對(duì)抗神經(jīng)網(wǎng)絡(luò)[13]自動(dòng)生成大量人工合成的行人圖像,并以此為補(bǔ)充訓(xùn)練得到更好的識(shí)別網(wǎng)絡(luò)。由于合成數(shù)據(jù)與真實(shí)數(shù)據(jù)相比仍存在較明顯的差異,Zheng等人[14]將所有合成數(shù)據(jù)的標(biāo)記為1/C,C 為訓(xùn)練集中的不同行人總數(shù)。Qian 等人[15]利用姿態(tài)定位算法自動(dòng)獲取到的關(guān)鍵點(diǎn),以及訓(xùn)練集和測(cè)試集中手工標(biāo)注的行人屬性信息(如性別、是否戴帽子、是否背包、是否穿靴子等),為每幅不同姿態(tài)和環(huán)境的行人圖像生成K 幅“標(biāo)準(zhǔn)”圖像,并以行人標(biāo)準(zhǔn)圖像間的差異進(jìn)行識(shí)別判斷。針對(duì)攝像頭型號(hào)、環(huán)境和拍攝季節(jié)等因素造成的不同行人數(shù)據(jù)集圖像的系統(tǒng)性差異。Wei等人[16]構(gòu)造了用于不同數(shù)據(jù)集互相轉(zhuǎn)換的對(duì)抗生成網(wǎng)絡(luò),訓(xùn)練得到的模型識(shí)別準(zhǔn)確率低于單個(gè)數(shù)據(jù)集訓(xùn)練的結(jié)果,但優(yōu)于直接合并不同數(shù)據(jù)集后的訓(xùn)練結(jié)果。
本文為解決局部區(qū)域劃分和特征提取的有效性問(wèn)題,提出了一種基于局部特征選擇的行人重識(shí)別算法。該算法采用多尺度滑動(dòng)窗口方法對(duì)局部特征進(jìn)行多尺度多覆蓋的劃分,以平均池化和最大池化兩種機(jī)制分別獲取局部平均特征和局部顯著特征,自適應(yīng)選擇其中K項(xiàng)最優(yōu)特征作為局部識(shí)別特征,與全局識(shí)別特征共同構(gòu)成最終識(shí)別特征。實(shí)驗(yàn)結(jié)果表明,使用本文提出方法的特征在目前行人識(shí)別數(shù)據(jù)量最大的兩個(gè)數(shù)據(jù)集Market1501[17]和DukeMTMC-reID[14,18]上都取得了更好的識(shí)別準(zhǔn)確率。
如圖2 所示,本文采用殘差卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)ResNet-50[19]作 為 初 始 網(wǎng) 絡(luò)NI(Initial Network),從ResNet 的第4 個(gè)殘差block 后的激勵(lì)信號(hào)開(kāi)始,去掉原有的全連接層,增加兩個(gè)分支網(wǎng)絡(luò)NG(Global Network)和NL(Local Network),分別獲取全局特征和局部特征。獲取到的全局特征fg 和m 組局部特征{flm}再分別經(jīng)過(guò)同構(gòu)的識(shí)別網(wǎng)絡(luò)NC(Classificaion Network)。每個(gè)NC網(wǎng)絡(luò)的結(jié)構(gòu)均包含以下層次:d1×d2 維的全連接層FC1,Batch Normalize 層,ReLU 層,Dropout 層和d1×c 維全連接層FC2,通過(guò)最優(yōu)局部特征選擇,對(duì)輸出計(jì)算softmax 損失函數(shù)。其中d1 為ResNet 的激勵(lì)信號(hào)維度,d2 為嵌入特征表示層的維度,c 為不同行人的個(gè)數(shù)。在全局特征分支網(wǎng)絡(luò)NG中,用平均池化層獲取全局特征fg 。在局部特征分支網(wǎng)絡(luò)NL 中,首先對(duì)上層ResNet輸入的激勵(lì)型號(hào)進(jìn)行多尺度滑動(dòng)窗口劃分,然后將其中對(duì)每組獲取到的特征,送入平均池化層和最大池化層分別獲取局部特征{fli|i=1,2,…,m},其中m 為所有劃分?jǐn)?shù)×2。
圖2 本文采用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
根據(jù)行人圖片的實(shí)際采集環(huán)境,相當(dāng)一部分圖片存在對(duì)齊和遮擋問(wèn)題,由于圖片本身的質(zhì)量較低,使用流行的姿態(tài)定位算法如OpenPose 等存在一定誤差,而該誤差會(huì)影響下一步的識(shí)別正確率。本文提出一種不同的對(duì)齊方法,即不顯式對(duì)行人關(guān)鍵點(diǎn)進(jìn)行定位,采用多尺度的滑動(dòng)窗口自適應(yīng)地尋找最佳劃分方式,訓(xùn)練該滑動(dòng)窗口的依據(jù)僅來(lái)自識(shí)別損失。如圖2所示,設(shè)ResNet輸出的激勵(lì)信號(hào)a 的維度為ha×wa×d ,構(gòu)造s 個(gè)不同尺度的hi×wi×d 滑動(dòng)窗口{WNi|i=1,2,…,s} ,滑動(dòng)窗口共構(gòu)造特征ha-hi+1)×(wa-wi+1)組。
如圖2所示,將ResNet輸出的激勵(lì)信號(hào)a 從上至下等分成p 個(gè)部分{Pi|i=1,2,…,p},所有覆蓋Pi的滑動(dòng)窗口{WNPi}被分成一組,每組滑動(dòng)窗口的特征經(jīng)過(guò)屬于自己的NC網(wǎng)絡(luò)后,只保留識(shí)別損失函數(shù)最小的一項(xiàng)。于是,整個(gè)網(wǎng)絡(luò)的損失函數(shù)為:
其中:
λ 為權(quán)重調(diào)節(jié)函數(shù),控制全局特征fg 和局部特征fl 在損失函數(shù)中所占的比例。
與物體識(shí)別、人臉識(shí)別不同,行人重識(shí)別的圖片的來(lái)源一般是截取自攝像頭全景拍攝視頻中的一小塊區(qū)域,因此一部分行人重識(shí)別圖片質(zhì)量較差,或者遮擋嚴(yán)重,其所能提供的信息量非常有限,即使由人工來(lái)進(jìn)行識(shí)別,其成功率也不及人類(lèi)在物體識(shí)別和人臉識(shí)別問(wèn)題上的表現(xiàn)[20],因此部分標(biāo)記數(shù)據(jù)存在標(biāo)注錯(cuò)誤或疑似錯(cuò)誤的情況。為避免分類(lèi)器對(duì)錯(cuò)誤標(biāo)注過(guò)擬合,本文進(jìn)一步對(duì)所有標(biāo)簽數(shù)據(jù)進(jìn)行了平滑處理,假定每個(gè)行人標(biāo)簽都有一定的標(biāo)錯(cuò)概率?,而實(shí)際正確標(biāo)注的可能性服從正態(tài)分布。即若行人圖片被標(biāo)注為屬于行人i,則實(shí)際標(biāo)注向量為:
本文所采用的實(shí)驗(yàn)數(shù)據(jù)主要來(lái)自目前行人重識(shí)別數(shù)據(jù)量最大的兩個(gè)數(shù)據(jù)集:Market1501和DukeMTMC-reID。
Market1501 中包含了從6 個(gè)不同的攝像頭中拍攝的共1 501 個(gè)不同行人的圖片,分為訓(xùn)練集和測(cè)試集。訓(xùn)練集包括751 人的圖片共12 936 張。測(cè)試集包括另外750 人,又分為兩部分:查詢(xún)集包括3 368 幅圖片;圖庫(kù)集包括與查詢(xún)集相同行人的其他圖片13 056幅,以及用于干擾項(xiàng)的不在查詢(xún)集中的行人圖片6 676幅。
DukeMTMC-reID 包含了從8 個(gè)不同攝像頭中拍攝的共1 404 個(gè)不同行人的圖片,分為訓(xùn)練集和測(cè)試集。訓(xùn)練集包括702 人的圖片共16 522 張。測(cè)試集包括另外702人,又分為查詢(xún)集和圖庫(kù)集,查詢(xún)集包括2 228幅圖片,圖庫(kù)集包括17 661幅圖片。
圖3為Market1501和DukeMTMC-reID數(shù)據(jù)集中的部分示例。
圖3 實(shí)驗(yàn)采用的數(shù)據(jù)集示例
目前評(píng)價(jià)識(shí)別準(zhǔn)確率的標(biāo)準(zhǔn)主要有兩種,一種是Rank-n 標(biāo)準(zhǔn),即給定查詢(xún)集中的一幅圖片,計(jì)算它與圖庫(kù)集中所有圖片的相似度,從高到低排序,如果前n 項(xiàng)中有相同行人即為識(shí)別正確。這種評(píng)價(jià)方式一般以Rank-1結(jié)果最為重要,Rank-5或Rank-10輔助參考。另一種標(biāo)準(zhǔn)成為mAP 標(biāo)準(zhǔn),它更加強(qiáng)調(diào)查準(zhǔn)率和查全率之間的平衡,也是先對(duì)相似度排序,然后從高到低統(tǒng)計(jì)從第一項(xiàng)到最后一項(xiàng)相同行人圖片之間正確識(shí)別的比率。本文同時(shí)比較了兩種標(biāo)準(zhǔn)的識(shí)別準(zhǔn)確率情況。需要說(shuō)明的是,同一攝像頭連續(xù)拍攝的兩幅圖像中同一行人往往是比較相似的,評(píng)價(jià)標(biāo)準(zhǔn)中排除了所有這些情況,只統(tǒng)計(jì)一個(gè)攝像頭中的行人在其他攝像頭拍攝的圖像中查詢(xún)到的結(jié)果,一定程度抑制了數(shù)據(jù)本身不平衡可能對(duì)結(jié)果造成的影響。
本文算法采用深度學(xué)習(xí)工具包pytorch 實(shí)現(xiàn),在一臺(tái)安裝GTX 1080 GPU加速卡的工作站上對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行模型訓(xùn)練和測(cè)試評(píng)估。主干網(wǎng)絡(luò)采用ImageNet預(yù)訓(xùn)練過(guò)的ResNet50模型,行人圖片被調(diào)整為384×128分辨率輸入。全局特征嵌入層維度為256,局部特征嵌入層維度為128。權(quán)重函數(shù)λ 設(shè)置為1,? 設(shè)置為0.1。
滑動(dòng)窗口初始大小和尺度數(shù)的設(shè)定對(duì)實(shí)驗(yàn)結(jié)果存在一些影響如圖4 和圖5??梢钥吹剑?dāng)滑動(dòng)窗口控制在合適大小可以更好地提取局部特征,尺度數(shù)越多則候選區(qū)域特征越充分,但超過(guò)3個(gè)尺度后對(duì)準(zhǔn)確率的實(shí)際影響很小,考慮到增加尺度會(huì)增加相應(yīng)的運(yùn)算量,根據(jù)實(shí)際需要采用2~3個(gè)尺度是比較合適的。
圖4 不同尺度下Market1501數(shù)據(jù)集Rank-1準(zhǔn)確率變化情況
圖5 不同滑動(dòng)窗口大小下Market1501數(shù)據(jù)集Rank-1準(zhǔn)確率變化情況
為驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)的有效性,實(shí)驗(yàn)在Market1051數(shù)據(jù)集上比較了只是用全局特征(NG),添加了局部特征(+NL),添加了多窗口劃分和局部最優(yōu)特征選擇(+MS),以及添加標(biāo)簽平滑(+LS)后的效果,詳細(xì)實(shí)驗(yàn)數(shù)據(jù)見(jiàn)表1。
表1 不同網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)在Market1501數(shù)據(jù)集上的測(cè)試結(jié)果 %
為驗(yàn)證方法的有效性,把本文提出的方法與只使用全局特征的方法(BASELINE)利用空間變換網(wǎng)絡(luò)對(duì)齊特征的方法(PAN)、利用GAN 網(wǎng)絡(luò)對(duì)齊特征的方法(PN-GAN)和等比例劃分局部特征的方法(PCB)進(jìn)行了對(duì)比,在Market1501 和DukeMTMC 數(shù)據(jù)集上的對(duì)比測(cè)試結(jié)果如表2 和表3。實(shí)驗(yàn)表明,本文提出的方法確實(shí)可以提高行人重識(shí)別的準(zhǔn)確度。
表2 Market1501數(shù)據(jù)集測(cè)試結(jié)果 %
圖6 顯示了實(shí)驗(yàn)的部分查詢(xún)結(jié)果,每行第1 列為查詢(xún)圖片,后10列為前10名的查詢(xún)結(jié)果,綠色邊框?yàn)檎_結(jié)果,黃色邊框?yàn)殄e(cuò)誤結(jié)果??梢钥闯觯疚姆椒▽?duì)于行人重識(shí)別問(wèn)題中姿態(tài)變化和遮擋均具有較好的適應(yīng)能力。
圖6 部分行人重識(shí)別結(jié)果(綠色邊框?yàn)檎_結(jié)果,黃色邊框?yàn)殄e(cuò)誤結(jié)果)
表3 DukeMTMC數(shù)據(jù)集測(cè)試結(jié)果 %
行人重識(shí)別問(wèn)題中姿態(tài)變化、對(duì)齊、遮擋等情況對(duì)識(shí)別效果影響很大,這就要求算法能夠更好地選擇局部區(qū)域、提取局部特征和匹配局部特征。本文通過(guò)多尺度的滑動(dòng)窗口創(chuàng)建充足的候選局部特征區(qū)域,并通過(guò)卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)地選擇合適的局部特征,與全局特征一起組成行人圖像特征表達(dá),從而達(dá)到更好的識(shí)別效果。在接下來(lái)的工作中將進(jìn)一步研究更為有效的局部特征提取和選擇方法。