亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合注意力機(jī)制與全局特征網(wǎng)絡(luò)的行人重識別算法研究

2023-01-16 03:00:58杜元翰查易藝劉文盼

測試技術(shù)學(xué)報(bào) 2023年1期

杜元翰, 湯銘, 查易藝, 宋滸, 劉文盼

(1.國網(wǎng)江蘇省電力有限公司信息通信分公司, 江蘇南京 210024;2.南瑞集團(tuán)有限公司, 江蘇南京 211106)

0 引言

行人重識別是指在多組攝像機(jī)下, 在監(jiān)控視頻具有跨越時(shí)間和空間維度特性的圖像數(shù)據(jù)中對目標(biāo)行人進(jìn)行跟蹤、匹配以及身份鑒定的技術(shù)[1-2]。行人重識別在刑事偵查、打擊犯罪、安防安保、公共交通等領(lǐng)域有廣泛的應(yīng)用。例如, 利用行人識別可以統(tǒng)計(jì)公共場所的人流數(shù)據(jù), 從而對交通系統(tǒng)進(jìn)行優(yōu)化, 獲取顧客購物時(shí)的運(yùn)動軌跡可以幫助商超經(jīng)營者分析顧客的需求等[3]。由此可見, 行人重識別算法具有重要現(xiàn)實(shí)應(yīng)用的意義。

行人重識別起源于20世紀(jì)90年代, 科研人員嘗試通過圖像處理來解決行人特征的提取和分類問題。早期的行人重識別研究是對特征提取以及度量學(xué)習(xí)兩方面的研究。特征提取是依據(jù)具有人體特征的穩(wěn)定關(guān)鍵點(diǎn)特征來衡量行人圖像的相似度, 如所在圖片的位置、顏色差值、關(guān)鍵點(diǎn)結(jié)構(gòu)等特點(diǎn)。對此,Cheng等[4]提出使用身體外形結(jié)構(gòu)模型自適應(yīng)地匹配關(guān)鍵部位: 先通過特征提取出行人四肢等關(guān)鍵部位, 然后根據(jù)提取部位的顏色特征進(jìn)行進(jìn)一步識別匹配。Ma等[5]依據(jù)局部描述的思想, 利用Fisher向量和7維的局部描述子描述行人圖像, 提出了費(fèi)舍爾向量編碼的局部描述算法 (Local Descriptors encoded by Fisher Vectors,eLDFV) ; 基于特征提取的思想, 通過將樣本圖像的全局特征和局部特征聚合訓(xùn)練, 提出了基于非對稱性的直方圖加縮影算法 (Asymmetrybased Histogram Plus Epitome,AHPE) 。

以上算法是無監(jiān)督的,因此,算法有很強(qiáng)的自我學(xué)習(xí)能力, 也能適應(yīng)現(xiàn)實(shí)場景中攝像頭位置不同等差異。然而, 行人特征會根據(jù)注意力的不同對衣著、姿勢、光照等因素敏感, 進(jìn)而影響識別效果。度量學(xué)習(xí)就是為了給予特征不同注意力,通過給不同特征因素恰當(dāng)?shù)臋?quán)重, 突出關(guān)鍵分量,弱化有不利影響的分量。在此思想上,Gray[6]提出了局部特征集合算法(Ensemble of Localized Features,ELF), 對圖片樣本的空間信息以及局部特征組合成新的特征, 再加入到重識別訓(xùn)練中。

在基于深度學(xué)習(xí)的行人重識別研究中, 表征學(xué)習(xí)方法常被應(yīng)用于行人重識別。由于卷積神經(jīng)網(wǎng)絡(luò)可根據(jù)需求自動提取出表征特征的特點(diǎn), 行人重識別被一些研究者當(dāng)成分類任務(wù)或驗(yàn)證任務(wù)來處理。分類任務(wù)是對已知的行人身份與訓(xùn)練標(biāo)簽不斷匹配試錯(cuò)和更新來訓(xùn)練模型; 驗(yàn)證是指對已經(jīng)訓(xùn)練好的模型輸入測試的行人圖像, 將模型判斷的結(jié)果與圖像的真實(shí)標(biāo)簽對比作為驗(yàn)證的結(jié)果。分類子網(wǎng)絡(luò)會預(yù)測輸入的若干對行人樣本圖片的身份并計(jì)算誤差損失, 經(jīng)過大量樣本訓(xùn)練后,網(wǎng)絡(luò)能自動提取更具特點(diǎn)的行人特征。另外, 對于訓(xùn)練的標(biāo)簽屬性, 除基本的行人身份, 還可以對樣本圖像標(biāo)注一些屬性, 如性別、姿態(tài)等屬性特征。隨著更多標(biāo)簽的引入, 模型需要考慮的信息更多, 所要預(yù)測的屬性更多, 其泛化能力也大大提升。

深度學(xué)習(xí)的度量學(xué)習(xí)方法是建立在獲得樣本圖像間相似度的條件下的。Chen等[7]將樣本圖像分為3份, 對每份進(jìn)行特征提取, 依據(jù)圖像不同部分的功能, 綜合計(jì)算特征的相似性度。損失函數(shù)的優(yōu)劣是深度度量學(xué)習(xí)的關(guān)鍵, 對比損失、三元組損失、四元組損失和邊界挖掘損失等是度量學(xué)習(xí)比較常用的損失函數(shù)。曠視研究院的Wang等[8]提出了HOReID算法(High-Order Information Matters:Learning Relation and Topology for Occluded Person Re-Identification), 是利用拓?fù)浣Y(jié)構(gòu)解決行人遮蔽現(xiàn)象的行人重識別算法。

針對行人重識別方法在面對遮擋和復(fù)雜背景應(yīng)用場景下的干擾信息影響精度的問題, 本文提出了一種改進(jìn)算法, 對基于注意力機(jī)制的HOReID算法的全局特征提取網(wǎng)絡(luò)進(jìn)行改進(jìn), 將基于空間注意力的特征提取網(wǎng)絡(luò)與HOReID中的Restnet50網(wǎng)絡(luò)進(jìn)行替換, 同時(shí)為了減少網(wǎng)絡(luò)的復(fù)雜度對一些無關(guān)網(wǎng)絡(luò)層進(jìn)行刪減。最終經(jīng)過Occluded-Duke以及Market-1501數(shù)據(jù)集的測試, 改進(jìn)算法在遮蔽數(shù)據(jù)集中有更好的性能表現(xiàn)。

1 基于注意力機(jī)制改進(jìn)的行人重識別算法

基于注意力機(jī)制的行人重識別算法的目的是通過關(guān)注重要的特征, 抑制不必要的特征來增加代表性。在卷積神經(jīng)網(wǎng)絡(luò)中, 注意力學(xué)習(xí)通常采用局部卷積學(xué)習(xí), 忽略了全局信息和隱藏關(guān)系。得益于RGA (Relation-aware Global Attention)網(wǎng)絡(luò)[9]模型充分利用全局關(guān)聯(lián)推斷注意力的啟發(fā),本文在HOReID網(wǎng)絡(luò)模型中對全局特征提取網(wǎng)絡(luò)進(jìn)行改進(jìn), 如圖1所示。

圖1 基于空間注意力機(jī)制網(wǎng)絡(luò)示意圖Fig.1 Network diagram based on spatial attention

2 基于注意力機(jī)制改進(jìn)的全局特征提取算法

文獻(xiàn)[8]提出的算法第一階段中的全局特征提取采用普通的ResNet50殘差網(wǎng)絡(luò), 對于輸入圖像只是靜態(tài)的特征提取。本文嘗試通過空間注意力機(jī)制從全局特征中自動地發(fā)現(xiàn)每個(gè)像素點(diǎn)之間的關(guān)系, 從而得到圖片位置空間上的關(guān)系, 最終再與全局特征進(jìn)行拼接及卷積得到含有空間注意信息的全局特征。Zhang等[9]研究證明, 基于注意力機(jī)制可獲得表示能力更高的全局特征。

具體實(shí)現(xiàn)如圖2所示, 輸入一個(gè)來自CNN層的寬W, 高H,C通道的中間特征圖, 通過將中間特征圖的每個(gè)點(diǎn)平鋪成一行, 則每個(gè)點(diǎn)之間的關(guān)系可以用W×H的方陣來表示。表示從節(jié)點(diǎn)i到節(jié)點(diǎn)j的關(guān)系度rij可以定義為

式中:θc和φc是由1×1卷積層實(shí)現(xiàn)的2個(gè)嵌入函數(shù)θs(xi)=ReLU(wθxi) 和φs(xi)=ReLU(wφxi)。最后, 將通過1×1卷積得到的全局特征與關(guān)系矩陣相拼接, 再通過全連接層得到基于空間注意力機(jī)制的全局特征。

Zhang等[9]研究發(fā)現(xiàn), 像素點(diǎn)之間的雙星關(guān)系對模型預(yù)測結(jié)果的影響不是很大, 因此, 為減輕復(fù)雜度, 本文對RAG網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改, 將局部信息之間的關(guān)系視為雙向的, 只計(jì)算了1個(gè)關(guān)系特征矩陣, 簡化了計(jì)算量。如圖2所示, 透明矩形框中是主要的改進(jìn)模塊, 本文通過空間注意力機(jī)制從全局特征中自動地發(fā)現(xiàn)每個(gè)像素點(diǎn)之間的關(guān)系, 從而得到圖片位置空間上的關(guān)系, 最終再與全局特征進(jìn)行拼接以及卷積操作得到含有空間注意信息的全局特征, 在此基礎(chǔ)上參與之后的局部特征匹配, 進(jìn)而提升文獻(xiàn)[8]提出的模型性能。

圖2 改進(jìn)后的網(wǎng)絡(luò)模型Fig.2 Improved network model

3 實(shí)驗(yàn)結(jié)果與分析

為了分析基于注意力機(jī)制改進(jìn)的特征提取對行人重識別模型性能的影響, 本節(jié)將介紹實(shí)驗(yàn)所使用的軟件及硬件條件, 然后介紹實(shí)驗(yàn)中使用的被遮擋的行人重識別數(shù)據(jù)集, 最后通過對比實(shí)驗(yàn)數(shù)據(jù)與原文獻(xiàn)數(shù)據(jù), 分析實(shí)驗(yàn)結(jié)果。

3.1 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)中使用的平臺為Ubuntu 18.04操作系統(tǒng),Python版本3.7, 使用Py Torch 深度學(xué)習(xí)框架完成, 硬件采用Tesla T4顯卡,16 G顯存。

3.2 實(shí)驗(yàn)數(shù)據(jù)集

本實(shí)驗(yàn)使用Occluded-Duke數(shù)據(jù)集[10]以及Market-1501數(shù)據(jù)集[11]進(jìn)行模型的訓(xùn)練和測試。Occluded-Duke數(shù)據(jù)集是目前最大的遮擋數(shù)據(jù)集,其中訓(xùn)練集為702人, 共15 618張圖像;query為519 人,2 210 張圖像;gallery 為1 110人,17 661張圖像。這是目前最為復(fù)雜的遮擋ReID數(shù)據(jù)集, 其中存在視角和多張障礙物, 如汽車、自行車、樹木和其他人。本實(shí)驗(yàn)為與原實(shí)驗(yàn)進(jìn)行對比, 對數(shù)據(jù)進(jìn)行了相同的預(yù)處理。

Market-1501數(shù)據(jù)集由清華大學(xué)在2015年構(gòu)建并公開, 它由6個(gè)攝像頭(包括5個(gè)高清攝像頭和1個(gè)低清攝像頭)拍攝到1 501個(gè)行人, 檢測到32 668個(gè)行人矩形框。每個(gè)行人至少被2個(gè)攝像頭捕捉到, 同一行人在同一攝像頭中可能有多張圖像。訓(xùn)練集包含751人, 共12 936張圖像; 測試集包含750人, 共19 732張圖像; 查詢集中包含3 368張人工繪制的行人檢測矩形框。

3.3 方法性能評估

在行人重識別任務(wù)中, 經(jīng)常使用均值平均精度(m AP)和第k匹配率(rank-k)這2個(gè)重要指標(biāo)來評估行人重識別算法, 同時(shí), 評定一個(gè)算法、模型改進(jìn)好壞的普遍做法是看它在關(guān)鍵基準(zhǔn)數(shù)據(jù)集上的性能能否得到提高。目前主要采用的方法是通過算法、模型在基準(zhǔn)數(shù)據(jù)集上測試的結(jié)果來驗(yàn)證模型的優(yōu)劣性。本實(shí)驗(yàn)通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu), 盡量使用與原文獻(xiàn)相同的實(shí)驗(yàn)環(huán)境, 在相關(guān)數(shù)據(jù)集上進(jìn)行測試。改進(jìn)算法的最終目標(biāo)是希望能訓(xùn)練得到一個(gè)更魯棒算法模型。由于硬件條件的限制,本實(shí)驗(yàn)在Occluded-Duke數(shù)據(jù)集上檢驗(yàn)基于注意力機(jī)制改進(jìn)HOReID的特征提取對模型性能的影響, 以及在Market-1501數(shù)據(jù)集上檢驗(yàn)改進(jìn)后算法在基本行人數(shù)據(jù)集上的效果。

平均精度均值m AP是評估檢索系統(tǒng)中一種常用的性能度量標(biāo)準(zhǔn)。這個(gè)指標(biāo)可以通過行人重識別數(shù)據(jù)集中的每個(gè)行人多張圖像來很好地評估模型性能。行人重識別任務(wù)中的標(biāo)簽不止1個(gè), 不能用普通mean Precision單標(biāo)簽圖像的分類標(biāo)準(zhǔn)。m AP將多分類任務(wù)中的平均精度(Average Precision,AP)求和再取平均。精確度P表示匹配相關(guān)的樣本數(shù)量占總樣本數(shù)的比例, 用Pt(q)表示查詢樣本q匹配的第t個(gè)相關(guān)樣本的精確度, 即

式中:At(q)表示當(dāng)查詢樣本q匹配的第t個(gè)相關(guān)樣本的圖像總數(shù)。AP表示q樣本與相應(yīng)樣本的精確度的平均值, 即

式中:N(q)表示q的相關(guān)樣本總數(shù)。mAP即q的所有平均精度的均值, 即

式中:Q為所有q的集合,mAP∈[0,1]。

3.4 在Occluded-Duke數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

由表1可以發(fā)現(xiàn), 通過改進(jìn)基于注意力機(jī)制的全局特征提取網(wǎng)絡(luò), 能夠有效提升文獻(xiàn)[8]模型對于行人遮蔽數(shù)據(jù)集的識別準(zhǔn)確度。文獻(xiàn)[8]提出的網(wǎng)絡(luò)模型有效解決了遮蔽圖像的局部特征匹配問題, 但是考慮到網(wǎng)絡(luò)復(fù)雜度的原因, 全局特征采用Rest Net50網(wǎng)絡(luò)提取。而基于注意力機(jī)制的全局特征提取能提取出更高緯度的語義特征, 這對網(wǎng)絡(luò)后階段的局部特征匹配有很大的幫助。實(shí)驗(yàn)數(shù)據(jù)也驗(yàn)證了其有效性。

表1 Occluded-Duke數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results on the Occluded-Duke dataset

3.5 與其他行人重識別算法的對比

為驗(yàn)證改進(jìn)后的模型對基本的行人數(shù)據(jù)集是否依然有效, 使用Market-1501數(shù)據(jù)集進(jìn)行訓(xùn)練并測試, 結(jié)果如表3所示, 實(shí)驗(yàn)結(jié)果能達(dá)到基本的水平。

表3 在Market1501集的測試結(jié)果Tab.3 Experimental results on the Market1501 dataset

對比單純的Rest Net50以及RAG在Market-1501數(shù)據(jù)集上的測試結(jié)果可以發(fā)現(xiàn)(如圖表2所示),HOReID的局部特征匹配對一些環(huán)境上的細(xì)節(jié)起到屏蔽的效果, 但是屏蔽的同時(shí)也會丟失一定的背景信息。因此, 在Market-1501數(shù)據(jù)集中的指標(biāo)有所下降也在可以接受的范圍之內(nèi)。

表2 RGA在Market1501集和Occluded-Duke的測試結(jié)果Tab.2 Experimental results in Market1501 set and Occluded-Duke

4 結(jié) 論

本文通過對RAG網(wǎng)絡(luò)模型的分析, 嘗試將基于空間注意力機(jī)制的特征提取網(wǎng)絡(luò)與HOReID中的RestNet50網(wǎng)絡(luò)進(jìn)行替換, 同時(shí)為了減少網(wǎng)絡(luò)的復(fù)雜度, 對一些無關(guān)網(wǎng)絡(luò)層進(jìn)行刪減。最終經(jīng)過Occluded-Duke以及Market-1501數(shù)據(jù)集的測試表明, 改進(jìn)算法在遮蔽數(shù)據(jù)集中有更好的實(shí)驗(yàn)效果。