田智慧,鄭付科,高 需
(1.鄭州大學(xué)信息工程學(xué)院,鄭州 450001;2.鄭州大學(xué)地球科學(xué)與技術(shù)學(xué)院,鄭州 450052;3.鄭州大學(xué)河南省超級計算中心,鄭州 450052)
針對公共場所某個視頻監(jiān)控攝像頭捕捉的目標(biāo)行人,基于視頻監(jiān)控網(wǎng)絡(luò)和計算機視覺技術(shù)對其再次出現(xiàn)時識別的過程稱為行人重識別[1]。行人重識別技術(shù)由于能直觀、準(zhǔn)確地反映犯罪嫌疑人與犯罪行為之間的聯(lián)系,因此被廣泛應(yīng)用,特別是近年來得到快速發(fā)展,成為維護公共安全和社會穩(wěn)定的重要手段。目前在可控環(huán)境下,基于人臉等生物特征的目標(biāo)識別技術(shù)己比較成熟,但在實際監(jiān)控場景下,受視角變換、行人姿態(tài)變化、圖像分辨率低、目標(biāo)被遮擋以及光照變化等因素的影響,通常難以獲得高質(zhì)量人臉圖像,無法利用人臉信息進行行人重識別。因此,研究人員通過行人衣著與攜帶的物品等外貌特征來實現(xiàn)行人重識別[2]。
現(xiàn)有行人重識別算法分為基于距離度量學(xué)習(xí)的算法和基于特征描述的算法[2]。其中:基于距離度量學(xué)習(xí)的算法主要學(xué)習(xí)度量目標(biāo)特征分布的距離函數(shù),通常不同目標(biāo)行人的特征距離值較大,而同一個目標(biāo)行人的特征距離值較?。?];基于特征描述的算法常用來設(shè)計可靠、魯棒且具有判別性的行人圖像特征,該特征能有效區(qū)分不同目標(biāo)行人,且不受圖像尺度、視角及光照等變化因素的影響。傳統(tǒng)行人重識別算法主要基于顏色、紋理和局部描述[4-6]等低維特征,自2012 年HINTON 團隊利用深度卷積神經(jīng)網(wǎng)絡(luò)在ImageNet 圖像分類比賽中獲勝后,深度卷積神經(jīng)網(wǎng)絡(luò)[7-8]被廣泛應(yīng)用于行人重識別的研究。在早期,研究人員主要關(guān)注行人圖像的全局特征,發(fā)現(xiàn)存在以下問題:目標(biāo)行人有缺失及被格擋現(xiàn)象;目標(biāo)行人檢測不準(zhǔn)確;目標(biāo)行人姿態(tài)發(fā)生變化;目標(biāo)行人之間相似度高;復(fù)雜背景的干擾使模型學(xué)習(xí)到的全局特征魯棒性不強。因此,研究人員將工作重點轉(zhuǎn)移到對行人圖像局部特征的研究上。
由行人身體姿態(tài)識別領(lǐng)域近期的研究成果可知,研究人員對行人身體關(guān)鍵點進行定位并將其劃分為頭部、上肢和下肢三部分,分別提取局部特征并與整體特征融合后作為行人特征,最終得到比全局特征更高的準(zhǔn)確率[9-10]。但是該方法需引入外部數(shù)據(jù)集,而外部數(shù)據(jù)集與行人重識別數(shù)據(jù)集差異較大且訓(xùn)練過程較繁瑣,因此研究人員轉(zhuǎn)而采用行人圖像的內(nèi)在特征,并達到與利用外部數(shù)據(jù)集相同的準(zhǔn)確率[11-13]。文獻[14]提出一種精簡的PCB 模型,將行人圖像經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)后所得張量自上而下等分為N個區(qū)域,并分別提取各區(qū)域特征進行同步訓(xùn)練,該方法所得局部特征識別率比關(guān)鍵點定位更高。利用行人圖像的局部特征雖然識別率更好,但是行人圖像局部結(jié)構(gòu)劃分后會出現(xiàn)離異值,導(dǎo)致所提取局部特征可區(qū)分性降低。
本文提出一種基于局部區(qū)域特征選擇的內(nèi)容一致性行人重識別(Content-Consistent Pedestrian Reidentification,CCreID)算法。根據(jù)局部區(qū)域內(nèi)容一致性,從行人圖像張量中選擇特征向量,結(jié)合Softmax函數(shù)計算其局部區(qū)域概率重新生成局部區(qū)域,并分別在Market-1501[15]和DukeMTMC-reID[16]數(shù)據(jù)集上進行重識別性能分析。
本文所提算法以殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet50[17]為主干網(wǎng)絡(luò),其結(jié)構(gòu)如圖1 所示。行人圖像輸入主干網(wǎng)絡(luò)后獲得三維張量T,使用CCreID算法對張量T進行處理后得到p個局部區(qū)域,再對局部區(qū)域進行全局平均池化操作獲得特征向量,然后對其進行降維與分類。由于每個區(qū)域內(nèi)出現(xiàn)離異值造成各區(qū)域內(nèi)容不一致,為解決該問題,本文提出基于局部特征選擇的內(nèi)容一致性算法CCreID。
圖1 本文算法的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of the proposed algorithm
為得到每個局部區(qū)域的訓(xùn)練權(quán)重Wi,建立預(yù)訓(xùn)練模型進行預(yù)訓(xùn)練,其結(jié)構(gòu)如圖2 所示。該模型采用ResNet50 網(wǎng)絡(luò)中全局平均池化層前的結(jié)構(gòu),行人圖像輸入主干網(wǎng)絡(luò)后生成三維張量T,經(jīng)過平均池化操作將張量T自上而下等分為p個局部區(qū)域,使用1×1 卷積對p個局部區(qū)域進行降維。在張量T后加上分類器,每個分類器由1個全連接層(FC)和1個Softmax 函數(shù)實現(xiàn)。然后采用交叉熵?fù)p失函數(shù)進行監(jiān)督,直至收斂,最終得到p個訓(xùn)練權(quán)重Wi(i=1,2,…,p)。
圖2 預(yù)訓(xùn)練模型結(jié)構(gòu)Fig.2 Structure of pre-trained model
將行人圖像輸入卷積神經(jīng)網(wǎng)絡(luò)后所得張量T自上而下等分為p個局部區(qū)域,得到p個局部區(qū)域特征。在p個局部區(qū)域內(nèi)存在不屬于自身區(qū)域的離異值,該離異值與其他局部區(qū)域更相似[14]。有部分研究因為未考慮局部區(qū)域間的離異值,所以在復(fù)雜背景、位姿變化以及遮擋等因素的影響下,提取的行人特征魯棒性不強[17-18]。由此可知,局部區(qū)域劃分的前提是p個局部區(qū)域中各區(qū)域具有內(nèi)容一致性,即:1)各局部區(qū)域不存在不屬于自身區(qū)域的離異值;2)各局部區(qū)域之間的內(nèi)容存在差異。
行人圖像輸入主干網(wǎng)絡(luò)后得到張量T大小為24×8×2 048?;締挝幌蛄渴菑埩縏中最小的特征向量,其大小為1×1,維度為2 048。本文網(wǎng)絡(luò)共有192 個基本單位向量,如圖3 所示。張量T被等分為6 個局部區(qū)域,每個局部區(qū)域包含32 個基本單位向量,其均由張量T中某一個大小為4×8的固定空間得到。在每個局部區(qū)域內(nèi)均存在不屬于自身區(qū)域的離異值,該離異值與其他局部區(qū)域更相似,使得所提取特征的魯棒性較差。為解決該問題,本文從張量T中選擇基本單位向量組成各局部區(qū)域,并通過閾值α控制局部區(qū)域以選擇基本單位向量的最低可能性,通過重新分配每個基本單位向量的歸屬可得到6 個新局部區(qū)域,且各區(qū)域內(nèi)容一致。
圖3 局部特征的選擇過程Fig.3 Selection process of local features
為解決等分為p個局部區(qū)域所產(chǎn)生的離異值問題,需對所得p個局部區(qū)域進行重新生成。使用Softmax函數(shù)計算張量T中每個基本單位向量屬于局部區(qū)域Pi(i=1,2,…,p)的概率,計算公式如下:
其中:Wi為預(yù)訓(xùn)練得到的權(quán)重;fm為在張量T中第m個基本單位向量,且滿足{m≥1,j≤192,m,j∈?*},n=192,P(Pi|fm)代表著第m個基本單位向量屬于Pi的概率,本文中p=6。
根據(jù)P(Pi|fm)(i=1,2,…,6)可得到6 個概率圖,每個局部區(qū)域?qū)?yīng)1 個概率圖。張量T中192 個基本單位向量只有部分屬于每個局部區(qū)域,按照理想標(biāo)準(zhǔn)[14]只有32 個基本單位向量屬于各局部區(qū)域,其余均為干擾因素。對于每個基本單位向量,存在某個閾值,如果基本單位向量小于此閾值,則表明其不屬于該局部區(qū)域;否則表明其屬于該局部區(qū)域。假設(shè)閾值為α,則新的函數(shù)記為,其表達式如下:
其中,P(Pi|fn)表示已清零數(shù)值P(Pi|fn)隨機加到未清零數(shù)值P(Pi|fm)上,式(2)可記為:
1 個局部區(qū)域?qū)?yīng)1 個概率圖,其中包括192 個基本單位向量,表達式如下:
局部區(qū)域Pi的表達式如下:
其中,V為基本單位向量的完備集。
本文通過實驗分析閾值α、張量T和局部區(qū)域個數(shù)p對行人重識別性能的影響。實驗采用Market-1501 數(shù)據(jù)集和DukeMTMC-reID 數(shù)據(jù)集,其為目前行人重識別數(shù)據(jù)量最大的兩個數(shù)據(jù)集,部分圖例和具體參數(shù)分別如圖4 與表1 所示。
圖4 2 個數(shù)據(jù)集的圖例Fig.4 Legend of two datasets
表1 Market-1501 數(shù)據(jù)集和DukeMTMC-reID 數(shù)據(jù)集的具體參數(shù)Table 1 Specific parameters of Market-1501 dataset and DukeMTMC-reID dataset
Market-1501 數(shù)據(jù)集為2015年研究人員在清華大學(xué)使用5 個高清攝像頭和1 個低清攝像頭采集得到。行人矩形檢測框采用可變形部件模型[19](Deformable Part Model,DPM)標(biāo)注。將該數(shù)據(jù)集分為訓(xùn)練集和測試集,其中:訓(xùn)練集有12 936張圖像,包含751個行人;測試集有19 732張圖像,包含750個行人。
DukeMTMC-reID 數(shù)據(jù)集為DukeMTMC 數(shù)據(jù)集的行人重識別子數(shù)據(jù)集。該數(shù)據(jù)集為2017 年研究人員在杜克大學(xué)使用8 個攝像頭采集的85 min 高分辨率視頻,并提供人工標(biāo)注的行人檢測矩形框。對視頻每隔120 幀采樣1 張圖像,共得到36 411 張圖像組成DukeMTMC-reID 數(shù)據(jù)集。其中,408 個行人由一個攝像頭采集,1 404 人由兩個及兩個以上攝像頭采集,在訓(xùn)練集和測試集中分別有702 個行人。此外,該數(shù)據(jù)集中查詢圖像均為每個攝像頭下每個ID的1 張圖像,其他行人圖像放入測試的行人查詢集,并將另外408 個行人圖像作為干擾項也放入行人查詢集。DukeMTMC-reID 數(shù)據(jù)集共有16 522 張訓(xùn)練圖像、2 228 張查詢圖像以及包含17 661 張圖像的查詢集。
目前評價行人重識別準(zhǔn)確率的標(biāo)準(zhǔn)[20]主要有平均查準(zhǔn)率(mean Average Precision,mAP)和Rank-n。其中,mAP 是對多類任務(wù)中的平均精度求和再取平均值,該指標(biāo)反映學(xué)習(xí)所得模型在多類任務(wù)上性能的優(yōu)劣,主要是通過對相似度排序,從高到低統(tǒng)計從第一項到最后一項相同行人圖像的重識別準(zhǔn)確率,其更強調(diào)查準(zhǔn)率和查全率之間的平衡。Rank-n是給定查詢集中一幅圖像,計算其與圖庫數(shù)據(jù)集中所有圖像的相似度并將其按從高到低排序,如果前n項中有相同行人則說明識別準(zhǔn)確,該評價方式所得第一次成功匹配的概率Rank-1 最重要,Rank-5 與Rank-10 作為輔助參考。本文以mAP 和Rank-n作為行人重識別準(zhǔn)確率性能的評價指標(biāo),其中,Rank-1 為主要評價指標(biāo),Rank-5 和Rank-10 為輔助評價指標(biāo)。此外,為更好地評估模型性能,本文給出包括測試集特征提取時間、特征間距離計算時間、Rank-n計算時間和mAP 計算時間在內(nèi)的模型測試時間。
本文實驗采用深度學(xué)習(xí)工具包PyTorch0.4.0 并以ResNet50 為模型主干網(wǎng)絡(luò)。由于圖像尺寸較大有利于學(xué)習(xí)局部區(qū)域特性,且mAP 和Rank-1 的精度均隨著圖像大小的增加而提升,若下采樣率較小則張量T的空間尺寸較大,識別性能更好[14],因此本文將數(shù)據(jù)集中行人圖像設(shè)置為384像素×128 像素,所得張量T大小為24×8×2 048,并對訓(xùn)練圖像進行水平翻轉(zhuǎn)和歸一化處理。批大小設(shè)置為64,初始化學(xué)習(xí)率設(shè)置為0.1,在50 次迭代后學(xué)習(xí)率衰減為0.01。
閾值α決定基本單位向量是否被選中,本文使用控制變量法確定閾值α的大小,并根據(jù)經(jīng)驗將局部區(qū)域個數(shù)p設(shè)置為6。圖5 和圖6 分別為模型的mPA 值和Rank-1 值隨閾值α的變化情況??梢钥闯觯寒?dāng)α=0 時,局部區(qū)域公平性地選擇基本單位向量;當(dāng)α=0.038 時,模型的mPA 值和Rank-1 值達到最大;當(dāng)α>0.038 時,模型的mPA 值和Rank-1 值出現(xiàn)下降。因此,本文采用α=0.038。
圖5 mPA 隨閾值α 的變化曲線Fig.5 The change curve of mPA with threshold α
圖6 Rank-1 隨閾值α 的變化曲線Fig.6 The change curve of Rank-1 with threshold α
局部區(qū)域個數(shù)p決定特征可區(qū)分性強度,本文使用控制變量法確定p的大小,閾值α=0.038。圖7和圖8 分別為模型的mPA 值和Rank-1 值隨p的變化情況。可以看出:當(dāng)p=1 時,模型學(xué)習(xí)的行人特征為全局特征;當(dāng)p=6 時,模型的mPA 值和Rank-1 值達到最大;當(dāng)p>6 時,模型的mPA 值和Rank-1 值出現(xiàn)下降,其原因是p過大會減弱局部區(qū)域的識別能力。因此,本文采用p=6。
圖7 mPA 隨p 的變化曲線Fig.7 The change curve of mPA with p
圖8 Rank-1 隨p 的變化曲線Fig.8 The change curve of Rank-1 with p
為驗證本文所提CCreID 算法的有效性,將其與基準(zhǔn)ResNet50 算法、利用關(guān)鍵點定位產(chǎn)生行人身體局部區(qū)域的Spindel 算法[10]、利用GAN 網(wǎng)絡(luò)對齊特征的PN-GAN 算法[21]以及等比例劃分局部特征的PCB 算法[14]進行對比。在Market-1501 數(shù)據(jù)集上不同算法的測試時間對比結(jié)果如表2 所示,可以看出CCreID 算法的測試時間較ResNet50 算法和PCB 算法更長,但是較Spindel 算法和PN-GAN 算法更短。在Market-1501 數(shù)據(jù)集和DukeMTMC-reID 數(shù)據(jù)集上不同算法的重識別性能的對比結(jié)果分別如表3 和表4 所示,可以看出CCreID 算法在兩個數(shù)據(jù)集上的mPA 值和Rank-n(n=1,3,5)值均高于其他算法,說明其所提取局部區(qū)域特征的可區(qū)分性和豐富度更優(yōu),提高了行人重識別準(zhǔn)確率。
表2 5 種算法在Market-1501 數(shù)據(jù)集上的測試時間Table 2 Test time of five algorithms on Market-1501 datasets
表3 5 種算法在Market-1501 數(shù)據(jù)集上的重識別性能Table 3 Re-identification performance of five algorithms on Market-1501 dataset%
表4 5種算法在DukeMTMC-reID數(shù)據(jù)集上的重識別性能Table 4 Re-identification performance of five algorithms on DukeMTMC-reID dataset%
圖9 為本文實驗中部分Rank-1 查詢結(jié)果(第1 行是查詢圖像,第2 行是查詢結(jié)果,圖9(e)和圖9(f)中第2 行圖像是錯誤結(jié)果)。可以看出,6 張查詢圖像均存在不同程度的背景干擾,其中:圖9(a)中查詢圖像存在木質(zhì)柜子格擋,查詢結(jié)果準(zhǔn)確;圖9(b)中查詢圖像和查詢結(jié)果的行人姿態(tài)不同,分別為騎自行車和正常行走,但仍為同一個行人;圖9(c)和9(d)中查詢圖像無行人面部特征,無法利用行人面部特征,需根據(jù)行人屬性特征來識別,此查詢結(jié)果驗證了該結(jié)論。圖9(a)~圖9(d)的查詢結(jié)果均準(zhǔn)確,圖9(e)和圖9(f)的查詢結(jié)果錯誤,說明當(dāng)行人屬性非常接近時,無法用本文模型進行識別。
圖9 本文實驗中部分Rank-1 查詢結(jié)果Fig.9 Partial Rank-1 query results of the proposed experiment
基于特征描述的行人重識別算法要求所提取的特征魯棒、具有判別性且不受環(huán)境變化因素的影響,針對現(xiàn)有重識別算法在行人圖像局部區(qū)域存在離異值的問題,本文提出一種內(nèi)容一致性行人重識別算法。根據(jù)局部區(qū)域特征的內(nèi)容一致性,使用Softmax函數(shù)計算生成新局部區(qū)域,以減少其內(nèi)部特征差異,并增加局部區(qū)域之間的特征差異。實驗結(jié)果表明,該算法較Spindel、PN-GAN 等算法重識別準(zhǔn)確率更高,行人特征具有更好的可區(qū)分性和魯棒性。后續(xù)將研究不同行人屬性對識別準(zhǔn)確率的影響,以提升行人屬性相近時算法的重識別性能。