杜元翰, 湯 銘, 查易藝, 宋 滸, 劉文盼
(1.國網(wǎng)江蘇省電力有限公司 信息通信分公司, 江蘇 南京 210024;2.南瑞集團(tuán)有限公司, 江蘇 南京 211106)
行人重識(shí)別是指在多組攝像機(jī)下, 在監(jiān)控視頻具有跨越時(shí)間和空間維度特性的圖像數(shù)據(jù)中對(duì)目標(biāo)行人進(jìn)行跟蹤、 匹配以及身份鑒定的技術(shù)[1-2]。 行人重識(shí)別在刑事偵查、 打擊犯罪、 安防安保、 公共交通等領(lǐng)域有廣泛的應(yīng)用。 例如, 利用行人識(shí)別可以統(tǒng)計(jì)公共場(chǎng)所的人流數(shù)據(jù), 從而對(duì)交通系統(tǒng)進(jìn)行優(yōu)化, 獲取顧客購物時(shí)的運(yùn)動(dòng)軌跡可以幫助商超經(jīng)營者分析顧客的需求等[3]。 由此可見, 行人重識(shí)別算法具有重要現(xiàn)實(shí)應(yīng)用的意義。
行人重識(shí)別起源于20世紀(jì)90年代, 科研人員嘗試通過圖像處理來解決行人特征的提取和分類問題。 早期的行人重識(shí)別研究是對(duì)特征提取以及度量學(xué)習(xí)兩方面的研究。 特征提取是依據(jù)具有人體特征的穩(wěn)定關(guān)鍵點(diǎn)特征來衡量行人圖像的相似度, 如所在圖片的位置、 顏色差值、 關(guān)鍵點(diǎn)結(jié)構(gòu)等特點(diǎn)。 對(duì)此,Cheng等[4]提出使用身體外形結(jié)構(gòu)模型自適應(yīng)地匹配關(guān)鍵部位: 先通過特征提取出行人四肢等關(guān)鍵部位, 然后根據(jù)提取部位的顏色特征進(jìn)行進(jìn)一步識(shí)別匹配。Ma等[5]依據(jù)局部描述的思想, 利用Fisher向量和7維的局部描述子描述行人圖像, 提出了費(fèi)舍爾向量編碼的局部描述算法 (Local Descriptors encoded by Fisher Vectors,eLDFV) ; 基于特征提取的思想, 通過將樣本圖像的全局特征和局部特征聚合訓(xùn)練, 提出了基于非對(duì)稱性的直方圖加縮影算法 (Asymmetrybased Histogram Plus Epitome,AHPE) 。
以上算法是無監(jiān)督的,因此,算法有很強(qiáng)的自我學(xué)習(xí)能力, 也能適應(yīng)現(xiàn)實(shí)場(chǎng)景中攝像頭位置不同等差異。 然而, 行人特征會(huì)根據(jù)注意力的不同對(duì)衣著、 姿勢(shì)、 光照等因素敏感, 進(jìn)而影響識(shí)別效果。 度量學(xué)習(xí)就是為了給予特征不同注意力,通過給不同特征因素恰當(dāng)?shù)臋?quán)重, 突出關(guān)鍵分量,弱化有不利影響的分量。 在此思想上,Gray[6]提出了局部特征集合算法(Ensemble of Localized Features,ELF), 對(duì)圖片樣本的空間信息以及局部特征組合成新的特征, 再加入到重識(shí)別訓(xùn)練中。
在基于深度學(xué)習(xí)的行人重識(shí)別研究中, 表征學(xué)習(xí)方法常被應(yīng)用于行人重識(shí)別。 由于卷積神經(jīng)網(wǎng)絡(luò)可根據(jù)需求自動(dòng)提取出表征特征的特點(diǎn), 行人重識(shí)別被一些研究者當(dāng)成分類任務(wù)或驗(yàn)證任務(wù)來處理。 分類任務(wù)是對(duì)已知的行人身份與訓(xùn)練標(biāo)簽不斷匹配試錯(cuò)和更新來訓(xùn)練模型; 驗(yàn)證是指對(duì)已經(jīng)訓(xùn)練好的模型輸入測(cè)試的行人圖像, 將模型判斷的結(jié)果與圖像的真實(shí)標(biāo)簽對(duì)比作為驗(yàn)證的結(jié)果。 分類子網(wǎng)絡(luò)會(huì)預(yù)測(cè)輸入的若干對(duì)行人樣本圖片的身份并計(jì)算誤差損失, 經(jīng)過大量樣本訓(xùn)練后,網(wǎng)絡(luò)能自動(dòng)提取更具特點(diǎn)的行人特征。 另外, 對(duì)于訓(xùn)練的標(biāo)簽屬性, 除基本的行人身份, 還可以對(duì)樣本圖像標(biāo)注一些屬性, 如性別、 姿態(tài)等屬性特征。 隨著更多標(biāo)簽的引入, 模型需要考慮的信息更多, 所要預(yù)測(cè)的屬性更多, 其泛化能力也大大提升。
深度學(xué)習(xí)的度量學(xué)習(xí)方法是建立在獲得樣本圖像間相似度的條件下的。Chen等[7]將樣本圖像分為3份, 對(duì)每份進(jìn)行特征提取, 依據(jù)圖像不同部分的功能, 綜合計(jì)算特征的相似性度。 損失函數(shù)的優(yōu)劣是深度度量學(xué)習(xí)的關(guān)鍵, 對(duì)比損失、 三元組損失、 四元組損失和邊界挖掘損失等是度量學(xué)習(xí)比較常用的損失函數(shù)。曠視研究院的Wang等[8]提出了HOReID算法(High-Order Information Matters:Learning Relation and Topology for Occluded Person Re-Identification), 是利用拓?fù)浣Y(jié)構(gòu)解決行人遮蔽現(xiàn)象的行人重識(shí)別算法。
針對(duì)行人重識(shí)別方法在面對(duì)遮擋和復(fù)雜背景應(yīng)用場(chǎng)景下的干擾信息影響精度的問題, 本文提出了一種改進(jìn)算法, 對(duì)基于注意力機(jī)制的HOReID算法的全局特征提取網(wǎng)絡(luò)進(jìn)行改進(jìn), 將基于空間注意力的特征提取網(wǎng)絡(luò)與HOReID中的Restnet50網(wǎng)絡(luò)進(jìn)行替換, 同時(shí)為了減少網(wǎng)絡(luò)的復(fù)雜度對(duì)一些無關(guān)網(wǎng)絡(luò)層進(jìn)行刪減。 最終經(jīng)過Occluded-Duke以及Market-1501數(shù)據(jù)集的測(cè)試, 改進(jìn)算法在遮蔽數(shù)據(jù)集中有更好的性能表現(xiàn)。
基于注意力機(jī)制的行人重識(shí)別算法的目的是通過關(guān)注重要的特征, 抑制不必要的特征來增加代表性。 在卷積神經(jīng)網(wǎng)絡(luò)中, 注意力學(xué)習(xí)通常采用局部卷積學(xué)習(xí), 忽略了全局信息和隱藏關(guān)系。得益于RGA (Relation-aware Global Attention)網(wǎng)絡(luò)[9]模型充分利用全局關(guān)聯(lián)推斷注意力的啟發(fā),本文在HOReID網(wǎng)絡(luò)模型中對(duì)全局特征提取網(wǎng)絡(luò)進(jìn)行改進(jìn), 如圖1所示。
圖1 基于空間注意力機(jī)制網(wǎng)絡(luò)示意圖Fig.1 Network diagram based on spatial attention
文獻(xiàn)[8]提出的算法第一階段中的全局特征提取采用普通的ResNet50殘差網(wǎng)絡(luò), 對(duì)于輸入圖像只是靜態(tài)的特征提取。 本文嘗試通過空間注意力機(jī)制從全局特征中自動(dòng)地發(fā)現(xiàn)每個(gè)像素點(diǎn)之間的關(guān)系, 從而得到圖片位置空間上的關(guān)系, 最終再與全局特征進(jìn)行拼接及卷積得到含有空間注意信息的全局特征。Zhang等[9]研究證明, 基于注意力機(jī)制可獲得表示能力更高的全局特征。
具體實(shí)現(xiàn)如圖2所示, 輸入一個(gè)來自CNN層的寬W, 高H,C通道的中間特征圖, 通過將中間特征圖的每個(gè)點(diǎn)平鋪成一行, 則每個(gè)點(diǎn)之間的關(guān)系可以用W×H的方陣來表示。 表示從節(jié)點(diǎn)i到節(jié)點(diǎn)j的關(guān)系度rij可 以定義為
式中:θc和φc是 由1×1卷積層實(shí)現(xiàn)的2個(gè)嵌入函數(shù)θs(xi)=ReLU(wθxi) 和φs(xi)=ReLU(wφxi)。 最后, 將通過1×1卷積得到的全局特征與關(guān)系矩陣相拼接, 再通過全連接層得到基于空間注意力機(jī)制的全局特征。
Zhang等[9]研究發(fā)現(xiàn), 像素點(diǎn)之間的雙星關(guān)系對(duì)模型預(yù)測(cè)結(jié)果的影響不是很大, 因此, 為減輕復(fù)雜度, 本文對(duì)RAG網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改, 將局部信息之間的關(guān)系視為雙向的, 只計(jì)算了1個(gè)關(guān)系特征矩陣, 簡(jiǎn)化了計(jì)算量。 如圖2所示, 透明矩形框中是主要的改進(jìn)模塊, 本文通過空間注意力機(jī)制從全局特征中自動(dòng)地發(fā)現(xiàn)每個(gè)像素點(diǎn)之間的關(guān)系, 從而得到圖片位置空間上的關(guān)系, 最終再與全局特征進(jìn)行拼接以及卷積操作得到含有空間注意信息的全局特征, 在此基礎(chǔ)上參與之后的局部特征匹配, 進(jìn)而提升文獻(xiàn)[8]提出的模型性能。
圖2 改進(jìn)后的網(wǎng)絡(luò)模型Fig.2 Improved network model
為了分析基于注意力機(jī)制改進(jìn)的特征提取對(duì)行人重識(shí)別模型性能的影響, 本節(jié)將介紹實(shí)驗(yàn)所使用的軟件及硬件條件, 然后介紹實(shí)驗(yàn)中使用的被遮擋的行人重識(shí)別數(shù)據(jù)集, 最后通過對(duì)比實(shí)驗(yàn)數(shù)據(jù)與原文獻(xiàn)數(shù)據(jù), 分析實(shí)驗(yàn)結(jié)果。
本文實(shí)驗(yàn)中使用的平臺(tái)為Ubuntu 18.04操作系統(tǒng),Python版本3.7, 使用Py Torch 深度學(xué)習(xí)框架完成, 硬件采用Tesla T4顯卡,16 G顯存。
本實(shí)驗(yàn)使用Occluded-Duke數(shù)據(jù)集[10]以及Market-1501數(shù)據(jù)集[11]進(jìn)行模型的訓(xùn)練和測(cè)試。Occluded-Duke數(shù)據(jù)集是目前最大的遮擋數(shù)據(jù)集,其中訓(xùn)練集為702人, 共15 618張圖像;query為519 人,2 210 張 圖 像;gallery 為1 110人,17 661張圖像。 這是目前最為復(fù)雜的遮擋ReID數(shù)據(jù)集, 其中存在視角和多張障礙物, 如汽車、 自行車、 樹木和其他人。 本實(shí)驗(yàn)為與原實(shí)驗(yàn)進(jìn)行對(duì)比, 對(duì)數(shù)據(jù)進(jìn)行了相同的預(yù)處理。
Market-1501數(shù)據(jù)集由清華大學(xué)在2015年構(gòu)建并公開, 它由6個(gè)攝像頭(包括5個(gè)高清攝像頭和1個(gè)低清攝像頭)拍攝到1 501個(gè)行人, 檢測(cè)到32 668個(gè)行人矩形框。 每個(gè)行人至少被2個(gè)攝像頭捕捉到, 同一行人在同一攝像頭中可能有多張圖像。 訓(xùn)練集包含751人, 共12 936張圖像; 測(cè)試集包含750人, 共19 732張圖像; 查詢集中包含3 368張人工繪制的行人檢測(cè)矩形框。
在行人重識(shí)別任務(wù)中, 經(jīng)常使用均值平均精度(m AP)和第k匹配率(rank-k)這2個(gè)重要指標(biāo)來評(píng)估行人重識(shí)別算法, 同時(shí), 評(píng)定一個(gè)算法、 模型改進(jìn)好壞的普遍做法是看它在關(guān)鍵基準(zhǔn)數(shù)據(jù)集上的性能能否得到提高。 目前主要采用的方法是通過算法、 模型在基準(zhǔn)數(shù)據(jù)集上測(cè)試的結(jié)果來驗(yàn)證模型的優(yōu)劣性。 本實(shí)驗(yàn)通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu), 盡量使用與原文獻(xiàn)相同的實(shí)驗(yàn)環(huán)境, 在相關(guān)數(shù)據(jù)集上進(jìn)行測(cè)試。 改進(jìn)算法的最終目標(biāo)是希望能訓(xùn)練得到一個(gè)更魯棒算法模型。 由于硬件條件的限制,本實(shí)驗(yàn)在Occluded-Duke數(shù)據(jù)集上檢驗(yàn)基于注意力機(jī)制改進(jìn)HOReID的特征提取對(duì)模型性能的影響, 以及在Market-1501數(shù)據(jù)集上檢驗(yàn)改進(jìn)后算法在基本行人數(shù)據(jù)集上的效果。
平均精度均值m AP是評(píng)估檢索系統(tǒng)中一種常用的性能度量標(biāo)準(zhǔn)。 這個(gè)指標(biāo)可以通過行人重識(shí)別數(shù)據(jù)集中的每個(gè)行人多張圖像來很好地評(píng)估模型性能。 行人重識(shí)別任務(wù)中的標(biāo)簽不止1個(gè), 不能用普通mean Precision單標(biāo)簽圖像的分類標(biāo)準(zhǔn)。m AP將多分類任務(wù)中的平均精度(Average Precision,AP)求和再取平均。 精確度P表示匹配相關(guān)的樣本數(shù)量占總樣本數(shù)的比例, 用Pt(q)表示查詢樣本q匹配的第t個(gè)相關(guān)樣本的精確度, 即
式中:At(q)表示當(dāng)查詢樣本q匹配的第t個(gè)相關(guān)樣本的圖像總數(shù)。AP表示q樣本與相應(yīng)樣本的精確度的平均值, 即
式中:N(q)表示q的相關(guān)樣本總數(shù)。mAP即q的所有平均精度的均值, 即
式中:Q為所有q的集合,mAP∈[0,1]。
由表1可以發(fā)現(xiàn), 通過改進(jìn)基于注意力機(jī)制的全局特征提取網(wǎng)絡(luò), 能夠有效提升文獻(xiàn)[8]模型對(duì)于行人遮蔽數(shù)據(jù)集的識(shí)別準(zhǔn)確度。 文獻(xiàn)[8]提出的網(wǎng)絡(luò)模型有效解決了遮蔽圖像的局部特征匹配問題, 但是考慮到網(wǎng)絡(luò)復(fù)雜度的原因, 全局特征采用Rest Net50網(wǎng)絡(luò)提取。 而基于注意力機(jī)制的全局特征提取能提取出更高緯度的語義特征, 這對(duì)網(wǎng)絡(luò)后階段的局部特征匹配有很大的幫助。 實(shí)驗(yàn)數(shù)據(jù)也驗(yàn)證了其有效性。
表1 Occluded-Duke數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results on the Occluded-Duke dataset
為驗(yàn)證改進(jìn)后的模型對(duì)基本的行人數(shù)據(jù)集是否依然有效, 使用Market-1501數(shù)據(jù)集進(jìn)行訓(xùn)練并測(cè)試, 結(jié)果如表3所示, 實(shí)驗(yàn)結(jié)果能達(dá)到基本的水平。
表3 在Market1501集的測(cè)試結(jié)果Tab.3 Experimental results on the Market1501 dataset
對(duì)比單純的Rest Net50以及RAG在Market-1501數(shù)據(jù)集上的測(cè)試結(jié)果可以發(fā)現(xiàn)(如圖表2所示),HOReID的局部特征匹配對(duì)一些環(huán)境上的細(xì)節(jié)起到屏蔽的效果, 但是屏蔽的同時(shí)也會(huì)丟失一定的背景信息。 因此, 在Market-1501數(shù)據(jù)集中的指標(biāo)有所下降也在可以接受的范圍之內(nèi)。
表2 RGA在Market1501集和Occluded-Duke的測(cè)試結(jié)果Tab.2 Experimental results in Market1501 set and Occluded-Duke
本文通過對(duì)RAG網(wǎng)絡(luò)模型的分析, 嘗試將基于空間注意力機(jī)制的特征提取網(wǎng)絡(luò)與HOReID中的RestNet50網(wǎng)絡(luò)進(jìn)行替換, 同時(shí)為了減少網(wǎng)絡(luò)的復(fù)雜度, 對(duì)一些無關(guān)網(wǎng)絡(luò)層進(jìn)行刪減。 最終經(jīng)過Occluded-Duke以及Market-1501數(shù)據(jù)集的測(cè)試表明, 改進(jìn)算法在遮蔽數(shù)據(jù)集中有更好的實(shí)驗(yàn)效果。