王楠 吳健 盧杏堅 鐘震宇 黃凱
學(xué)術(shù)研究
一種針對復(fù)雜場景的行人再識別優(yōu)化方法*
王楠 吳健 盧杏堅 鐘震宇 黃凱
(廣東省科學(xué)院智能制造研究所/廣東省現(xiàn)代控制技術(shù)重點(diǎn)實驗室,廣東 廣州 510070)
針對室外場景中,因攝像頭角度不統(tǒng)一、室外光照多變等因素導(dǎo)致行人難識別的問題,提出一種針對復(fù)雜場景的行人再識別優(yōu)化方法。通過在ResNet的淺層嵌入實例-批歸一化層和空間變換網(wǎng)絡(luò),引入Mish激活函數(shù),構(gòu)建改進(jìn)的ResNet-50特征提取骨干網(wǎng)絡(luò),建立面向復(fù)雜場景的行人再識別模型。經(jīng)在MSMT17數(shù)據(jù)集上驗證,rank-1和分別達(dá)到79.8%、58.5%,說明了該算法的有效性。
復(fù)雜場景;行人再識別;實例-批歸一化;空間變換網(wǎng)絡(luò);Mish激活函數(shù)
公共安全是國家安全的重要組成部分,安防監(jiān)控系統(tǒng)的規(guī)?;占?,構(gòu)建了良好的社會治安防控體系。安防監(jiān)控系統(tǒng)中大量的監(jiān)控設(shè)備帶來海量視頻數(shù)據(jù),傳統(tǒng)基于人工的視頻分析方式耗時費(fèi)力,已無法滿足高效、快速處理的實際需求。隨著計算機(jī)視覺技術(shù)快速發(fā)展,其在眾多領(lǐng)域大放異彩[1-3],尤其在公共安全的識別、定位、檢測等方面,取得了令人矚目的成績。其中人臉識別、指紋識別為最典型的應(yīng)用,但多適用于支付、銀行、門禁等近距離約束場景,在跨域遠(yuǎn)距離監(jiān)控系統(tǒng)中難以應(yīng)用。
行人再識別技術(shù)是近年來提出的更具挑戰(zhàn)性的計算機(jī)視覺任務(wù),旨在對處于不同位置且不同監(jiān)控攝像頭里的指定人員進(jìn)行身份信息檢索。行人再識別技術(shù)以整個行人的特征作為相似性度量的依據(jù),且行人特征不受面部遮擋、低頭或背對攝像頭的影響,識別準(zhǔn)確率更高,可應(yīng)用于行人查找、追蹤等領(lǐng)域,能顯著提升破案偵查、行人追蹤等效率,對維護(hù)公共安全和社會穩(wěn)定具有重要意義。
近年來,許多專家學(xué)者對行人再識別技術(shù)開展相關(guān)研究。FARENZNA等采用將人體分為多個小部塊的方式進(jìn)行行人再識別研究[4]。PEDAGADI等利用局部線性判定分析方法進(jìn)行行人再識別[5]。魯臣等采用串聯(lián)多個特征層的方式,將最后深層特征和淺層特征利用特征層融合的機(jī)制提取行人圖像特征[6]。潘少明等采用圖卷積神經(jīng)網(wǎng)絡(luò)的行人再識別方法,將一個域的數(shù)據(jù)信息遷移到目標(biāo)域的數(shù)據(jù)中,提升了模型跨域能力[7]。陳瑩等基于深度學(xué)習(xí)框架,提出一種困難樣本的三元組損失的行人再識別網(wǎng)絡(luò),以身份和屬性標(biāo)簽的方法獲得更多行人判別[8]。
盡管以上專家學(xué)者利用行人再識別技術(shù)在公共安全領(lǐng)域做了很多探索并取得一定成效,但當(dāng)前方法存在2個問題限制了其在實際場景的應(yīng)用。1)光照干擾。在實際場景下,跨域遠(yuǎn)距離監(jiān)控系統(tǒng)通常由多個攝像頭獲取監(jiān)控圖像,不同地點(diǎn)的攝像頭可能處于不同的光照亮度下,導(dǎo)致獲取的圖像具有不同的光照強(qiáng)度,給檢測模型帶來一定誤差,影響檢測精度。2)角度多變。為監(jiān)控特定區(qū)域,同一地點(diǎn)的攝像頭可能有不同的安裝角度,導(dǎo)致圖像中的人物存在視覺畸變現(xiàn)象和圖像特征差異性大的問題,使跨域遠(yuǎn)距離監(jiān)控系統(tǒng)因誤判而丟失目標(biāo)。
針對上述問題,本文提出一種針對復(fù)雜場景的行人再識別方法。首先,采用改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法生成背景復(fù)雜的行人圖像,增加網(wǎng)絡(luò)對復(fù)雜場景的魯棒性;然后,設(shè)計基于實例-批歸一化(instance- batch normalization, IBN)[9]的行人圖像矯正網(wǎng)絡(luò)和基于空間變換網(wǎng)絡(luò)(spatial transformer network, STN)[10]的行人特征空間變換網(wǎng)絡(luò),提升網(wǎng)絡(luò)的外觀變化適應(yīng)性和空間不變性;接著,采用Mish激活函數(shù)優(yōu)化網(wǎng)絡(luò)激活函數(shù);最后,構(gòu)建改進(jìn)的ResNet行人再識別模型進(jìn)行訓(xùn)練。
MSMT17數(shù)據(jù)集包含15個攝像頭(室外12個、室內(nèi)3個);覆蓋一個月內(nèi)不同的天氣;每天采樣3 h,涵蓋早、中、晚3個時段;共采集4101個行人,其中訓(xùn)練集包括1 041個行人,測試集包括3 060個行人。該數(shù)據(jù)集具有如下特點(diǎn):行人和攝像頭數(shù)量多;場景和背景更加復(fù)雜;光照變化更為復(fù)雜;較接近真實場景。因此,本文選擇MSMT17數(shù)據(jù)集作為訓(xùn)練集和測試集。
為提高數(shù)據(jù)的魯棒性和多樣性,采用改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法對行人再識別數(shù)據(jù)集進(jìn)行背景復(fù)雜化。隨機(jī)選取4幅行人圖像,分別對這些圖像作如下4種操作:
1)亮度增強(qiáng)??紤]到室外場景的光照變化,對圖像進(jìn)行整體的亮度提升。
2)隨機(jī)旋轉(zhuǎn)。設(shè)置隨機(jī)旋轉(zhuǎn)角度為10°~60°,隨機(jī)翻轉(zhuǎn)圖像。
3)水平翻轉(zhuǎn)。通過水平翻轉(zhuǎn)圖像的方式改變圖像的特征分布。
4)縮放。減小原始圖像尺寸,使數(shù)據(jù)多樣化。
將處理后的4幅圖像進(jìn)行拼接,形成Mosaic增強(qiáng)后的圖像。圖像增強(qiáng)前后對比圖如圖1所示。
圖1 圖像增強(qiáng)前后對比圖
針對室外復(fù)雜場景下光照變化導(dǎo)致行人衣著顏色改變、行人姿態(tài)多樣等特點(diǎn),設(shè)計基于IBN的行人圖像矯正網(wǎng)絡(luò)和基于STN的行人特征空間變換網(wǎng)絡(luò),引入Mish激活函數(shù),重構(gòu)基于IBN和STN改進(jìn)的ResNet-50特征提取骨干網(wǎng)絡(luò),增強(qiáng)網(wǎng)絡(luò)對行人外觀變化的抗干擾能力,提高網(wǎng)絡(luò)在跨域場景下的魯棒性?;诟倪M(jìn)的ResNet行人再識別模型結(jié)構(gòu)如圖2所示。
在訓(xùn)練階段,利用改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法對訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng);以訓(xùn)練集為輸入,STN自適應(yīng)調(diào)整行人異常姿態(tài);STN提取的特征輸入改進(jìn)的ResNet-50特征提取骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)由5個模塊組成,均嵌入IBN模塊,以提升網(wǎng)絡(luò)因光照變化而引發(fā)的外觀變化的適應(yīng)性;用Mish激活函數(shù)代替殘差模塊中的ReLU激活函數(shù),解決負(fù)輸入失效問題。
圖2 基于改進(jìn)的ResNet行人再識別模型結(jié)構(gòu)
行人再識別模型因行人姿態(tài)和視角不同可能出現(xiàn)行人特征無法匹配的現(xiàn)象,導(dǎo)致其難以在室外真實場景下部署。圖3(a)為同一行人在同一攝像頭下表現(xiàn)出雙腿打開/交叉、打電話/低頭、手部彎曲等姿態(tài);圖3(b)為一個行人由遠(yuǎn)到近的視角變化。因STN具有平移不變性和旋轉(zhuǎn)不變性的特點(diǎn),故本文利用STN自適應(yīng)(旋轉(zhuǎn)、平移、縮放等)調(diào)整行人姿態(tài)異常,并基于ResNet-50網(wǎng)絡(luò),構(gòu)建基于STN的行人特征空間變換網(wǎng)絡(luò)。
圖3 行人姿態(tài)和視角變化
基于STN的行人特征空間變換網(wǎng)絡(luò)由定位網(wǎng)絡(luò)(Localization net)、網(wǎng)絡(luò)生成器(Grid generator)、采樣器(Sampler)3個基本模塊構(gòu)成,如圖2所示。
然后,在網(wǎng)絡(luò)生成器中,根據(jù)式(2)得到優(yōu)化后的輸入圖像:
在室外真實場景下,光照隨時間變化,不同強(qiáng)度的光照照射在行人身上,會發(fā)生不同程度的“變色”現(xiàn)象,如圖4所示。
圖4 室外光照變化引發(fā)的“變色”現(xiàn)象
行人外觀變化會影響行人再識別模型的準(zhǔn)確度。此外,當(dāng)訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集有較大的外觀差異時,模型性能也會顯著下降。如數(shù)據(jù)集中目標(biāo)光線強(qiáng)烈,訓(xùn)練得到的模型學(xué)習(xí)了光線強(qiáng)烈的特征,在模型對光線昏暗的數(shù)據(jù)進(jìn)行測試時,測試效果較差。為此,本文提出基于IBN的行人圖像矯正網(wǎng)絡(luò),提升模型對圖像外觀變化的適應(yīng)性。
嵌入IBN的殘差模塊如圖5所示。
圖5 嵌入IBN的殘差模塊
首先,經(jīng)過卷積層的特征向量被平分為2組;然后,分別經(jīng)過IN層和BN層再拼接在一起,以提升模型的學(xué)習(xí)能力和泛化能力??紤]室外真實場景下,行人再識別數(shù)據(jù)集中的數(shù)據(jù)存在跨域問題,將IBN層嵌入到ResNet網(wǎng)絡(luò),用于提升模型在外觀變化下的適應(yīng)能力。
相比于Sigmoid、ReLU、Tanh這3種激活函數(shù),Mish激活函數(shù)能在一定程度上解決梯度消失問題;而且相比于ReLU激活函數(shù),Mish激活函數(shù)存在一小段負(fù)區(qū)間,解決了負(fù)輸入失效問題。
Mish激活函數(shù)表達(dá)式為
Mish激活函數(shù)沒有上界有下界,沒有上界避免了由于封頂而導(dǎo)致的飽和問題;有下界有助于加快訓(xùn)練過程,且具有較好的光滑性,可提升泛化能力和優(yōu)化能力,提高結(jié)果質(zhì)量。因此,本文使用Mish激活函數(shù)代替殘差模塊中的ReLU激活函數(shù),提高模型的泛化能力。
實驗在Linux系統(tǒng)Visual Studio Code環(huán)境下,基于pytorch深度學(xué)習(xí)框架,采用python語言編程完成。實驗平臺硬件配置:英特爾i7-7700HQ處理器、Nvidia GeForce GTX2080、AOC顯示器。本文基于改進(jìn)的ResNet行人再識別模型的超參數(shù)設(shè)置如表1所示。
表1 基于改進(jìn)的ResNet行人再識別模型的超參數(shù)設(shè)置
基于改進(jìn)的ResNet行人再識別模型性能評價指標(biāo)主要包括rank-和平均精度均值(mean average precision, mAP),其中rank-表示排序前位中含有正確行人的概率。
在單目標(biāo)分類任務(wù)中,通常給定查詢圖像,然后在測試集中通過距離度量函數(shù)計算圖像相似度。計算公式為
式中,為標(biāo)簽為真,預(yù)測為真的數(shù)量;為標(biāo)簽為真,預(yù)測為假的數(shù)量;為該類別圖像數(shù)量;為查詢類別的數(shù)量;為平均準(zhǔn)確率(average precision, AP);為精確率(precision)。
3.3.1 復(fù)雜光照條件下的實驗結(jié)果分析
為驗證本文方法的實用性,采用多重粒度網(wǎng)絡(luò)(multiple granularity network, MGN)、ResNet-50+ CircleLoss這2種常用的行人再識別方法與本文提出的方法進(jìn)行對比測試。此外,考慮到MSMT17測試集中圖像光照的多變性,首先,對MSMT17測試集中過暗的圖像進(jìn)行亮度增強(qiáng),過亮的圖像進(jìn)行亮度消減,處理流程如圖6所示;然后,采用基于改進(jìn)的ResNet行人再識別模型進(jìn)行測試,測試結(jié)果如表2所示。
圖6 MSMT17測試集光照處理流程圖
表2 3種方法測試結(jié)果
由表2可知,經(jīng)過光照處理后,本文基于改進(jìn)的ResNet行人再識別模型的rank-1和分別比未經(jīng)過光照處理的實驗高0.8%和0.7%,說明本文方法對光照變化復(fù)雜的場景具有一定的作用。
3.3.2 復(fù)雜光照條件下的綜合對比分析
為綜合對比本文基于改進(jìn)的ResNet行人再識別模型對光照干擾和角度變化的處理效果,采用MGN、ResNet-50+CircleLoss兩種常用的行人再識別方法進(jìn)行對比分析,測試結(jié)果如表3所示。
表3 2種方法測試結(jié)果
由表3可知:經(jīng)過光照、異常姿態(tài)處理后的數(shù)據(jù)集作為基于改進(jìn)的ResNet行人再識別模型的測試數(shù)據(jù)集,rank-1分別高于MGN和ResNet-50+CircleLoss方法2.9%和3.5%;分別高于MGN和ResNet-50+ CircleLoss方法6.4%和8.3%。
由此可以得出結(jié)論,本文方法對于光照干擾和角度變化下的復(fù)雜場景具有一定的改善效果。
本文提出基于改進(jìn)的ResNet行人再識別模型,在ResNet的淺層嵌入IBN和STN,提升網(wǎng)絡(luò)的外觀變化適應(yīng)性和空間不變性;采用改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法模擬復(fù)雜背景,增加數(shù)據(jù)集的多樣性;同時使用Mish激活函數(shù)替換ReLU激活函數(shù)。在MSMT17數(shù)據(jù)集上rank-1和分別達(dá)到79.8%和58.5%,驗證了算法的有效性。
[1] 雷歡,吳亮生,焦?jié)申?等.果園環(huán)境中成熟楊梅自動檢測方法研究[J].自動化與信息工程,2021,42(3):9-14,26.
[2] HUANG K, LEI H, JIAO Z, et al. Recycling Waste Classifica-tion Using Vision Transformer on Portable Device[J]. Sustaina-bility, 2021,13(21):11572.
[3] 游青山,冉霞.基于機(jī)器視覺的礦井作業(yè)人員行為監(jiān)測及違章識別系統(tǒng)[J].自動化與信息工程,2021,42(4):20-24.
[4] FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features [C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010:2360-2367.
[5] PEDAGADI S, ORWELL J, VELASTIN S, et al. Local fisher discriminant analysis for pedestrian re-identification [C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2013.
[6] 賈熹濱,魯臣,Siluyele Ntazana,等.行人再識別中的多尺度特征融合網(wǎng)絡(luò)[J].北京工業(yè)大學(xué)學(xué)報,2020,46(7):788-794.
[7] 潘少明,王玉杰,種衍文.基于圖卷積神經(jīng)網(wǎng)絡(luò)的跨域行人再識別[J].華中科技大學(xué)學(xué)報(自然科學(xué)版),2020,48(9):44-49.
[8] 陳巧媛,陳瑩.基于困難樣本三元組損失的多任務(wù)行人再識別[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2019,31(7):1156-1165.
[9] ULYANOV D, VEDALDI A, LEMPITSKY V. Instance nor-malization: The missing ingredient for fast stylization[J]. arXiv preprint arXiv:1607.08022, 2016.
[10] JADERBERG M, SIMONYAN K, ZISSERMAN A. Spatial transformer networks[J]. Advances in neural information processing systems, 2015,28:2017-2025.
[11] WEI L, ZHANG S, GAO W, et al. Person transfer GAN to bridge domain gap for person re-identification[C]//2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:79-88.
[12] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2016:770-778.
A Pedestrian Re-identification Optimization Method for Complex Scenes
Wang Nan Wu Jian Lu Xingjian Zhong Zhenyu Huang Kai
(Institute of Intelligent Manufacturing, Guangdong Academy of Science/Guangdong Key Laboratory of Modern Control Technology, Guangzhou 510070, China)
Aiming at the problem that it is difficult to recognize pedestrians in outdoor scenes due to different camera angles and changeable outdoor lighting, an optimization method for pedestrian re- identification in complex scenes is proposed. By embedding the instance-batch normalization layer and spatial transformer network in the shallow layer of ResNet, introducing the mish activation function, building an improved ResNet-50 feature extraction backbone network, and establishing a pedestrian re- identification model for complex environment. Verified on MSMT17 data set, rank-1 and map reach 79.8% and 58.5% respectively, which shows the effectiveness of the algorithm.
complex scene; pedestrian re-identification; instance-batch normalization; spatial transformer network; Mish activation function
廣東省重點(diǎn)領(lǐng)域研發(fā)計劃項目(2018B010108006)
王楠,女,1989年生,碩士研究生,高級工程師,主要研究方向:機(jī)器視覺、深度學(xué)習(xí)。E-mail: n.wang@giim.ac.cn
黃凱(通信作者),男,1995年生,碩士研究生,主要研究方向:機(jī)器視覺、人工智能。E-mail: 2111904371@mail2.gdut.edu.cn
S225
A
1674-2605(2021)06-0005-06
10.3969/j.issn.1674-2605.2021.06.005