張?zhí)祜w,龍海燕,丁 嬌,周榮強(qiáng)
(1.安徽信息工程學(xué)院 電氣與電子工程學(xué)院,安徽 蕪湖 241000;2. 杭州智棱科技有限公司,浙江 杭州 310000)
隨著我國(guó)經(jīng)濟(jì)社會(huì)的快速發(fā)展,城市化建設(shè)步伐快速推進(jìn),城市人口急劇增長(zhǎng),商場(chǎng)、飛機(jī)場(chǎng)、火車站及醫(yī)院的門(mén)診大廳等公共場(chǎng)所時(shí)常出現(xiàn)人群高度聚集的現(xiàn)象,當(dāng)有突發(fā)狀況發(fā)生時(shí),容易因?yàn)閾頂D導(dǎo)致踩踏事故發(fā)生,存在著巨大的安全隱患.因此,準(zhǔn)確預(yù)測(cè)場(chǎng)景中的人數(shù)可以有效地進(jìn)行人流管控和安防部署,對(duì)于社會(huì)公共安全具有重要的意義.此外,人群計(jì)數(shù)結(jié)果還可應(yīng)用于樓宇能源管理等領(lǐng)域,積極響應(yīng)國(guó)家節(jié)能減排號(hào)召,具有廣泛的應(yīng)用價(jià)值.
目前,人群計(jì)數(shù)方法大致分為傳統(tǒng)方法和深度學(xué)習(xí)方法.傳統(tǒng)方法主要有基于檢測(cè)的方法和基于回歸的方法,基于深度學(xué)習(xí)的方法主要有基于密度圖的方法和基于位置的方法[1].基于密度圖的方法,是通過(guò)深度網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練生成一個(gè)人群密度圖,然后根據(jù)此密度圖估算人群數(shù)量.Li等[2]提出了使用膨脹卷積代替卷積+池化+反卷積方案(CSRNet),在不改變分辨率的情況下擴(kuò)大感受野以提取更深的特征.Ma等[3]提出使用概率密度期望值與標(biāo)注點(diǎn)設(shè)計(jì)成貝葉斯損失,進(jìn)行回歸估計(jì),提高了計(jì)數(shù)的準(zhǔn)確性,但是該損失需要選擇一個(gè)合適的高斯核為每個(gè)人構(gòu)建似然函數(shù),這個(gè)高斯核尺寸的選擇可能影響結(jié)果,并且構(gòu)建的這個(gè)損失可能存在類似一個(gè)欠定方程組的無(wú)窮多解.Wang等[4]使用最優(yōu)傳輸(OT)來(lái)測(cè)量歸一化的預(yù)測(cè)密度圖和歸一化的地面真實(shí)密度圖之間的相似度.Lin等[5]使用多尺度自監(jiān)督方法和Sinkhorn散度的一致性損失來(lái)抵制尺度變化帶來(lái)的影響,并將生成的密度圖直接與標(biāo)注點(diǎn)進(jìn)行回歸訓(xùn)練.基于位置的方法,是通過(guò)預(yù)測(cè)每個(gè)人的位置來(lái)評(píng)估人群計(jì)數(shù)情況.Hu等[6]提出的檢測(cè)器將尺度、分辨率及上下文等信息結(jié)合用于檢測(cè)小目標(biāo),提高了小目標(biāo)的檢測(cè)效果,但是此方法主要用于對(duì)人的臉部進(jìn)行檢測(cè),對(duì)人群進(jìn)行計(jì)數(shù)還存在較大誤差.Lian等[7]根據(jù)圖像中人遠(yuǎn)大近小的原則,將深度信息作為輔助信息.Sam等[8]將多尺度特征圖輸入到多個(gè)Multi-scale Feedback Reasoning(MFR)單元中預(yù)測(cè)目標(biāo)框,然后結(jié)合Non-Maximum Suppression(NMS)從多尺度特征上得到預(yù)測(cè)結(jié)果.Abousamra等[9]使用拓?fù)浼s束來(lái)解決人群定位中造成的拓?fù)湔`差.Gao等[10]通過(guò)使用矩形框作為人頭標(biāo)注框,并將特征傳入二值化單元,以此獲取人群計(jì)數(shù)及位置.
綜上,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征進(jìn)行人群計(jì)數(shù),雖然目前有許多對(duì)各種網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)以及損失函數(shù)的優(yōu)化等使其效果取得了比較快速的提高,但主要集中在如何提高感受野、利用多尺度特征提高檢測(cè)效果及改善損失函數(shù)等方面,卻忽略了各自通道特征之間的關(guān)系或者各自空間之間的關(guān)系.筆者在High-Resolution Net(HRNet)[11]結(jié)構(gòu)中引入Simple Attention 3D注意力機(jī)制[12],既能關(guān)注通道之間的關(guān)系,也可兼顧空間位置特征之間的關(guān)系.另外,損失函數(shù)方面將不同的特征圖使用均方誤差損失(MSE loss)、L1損失和交叉熵?fù)p失(Cross Entropy loss)有效結(jié)合來(lái)提升分類的準(zhǔn)確性.
在訓(xùn)練中需要使用人頭位置標(biāo)注信息.目前使用的標(biāo)注信息有以下幾種:1)使用標(biāo)注點(diǎn)坐標(biāo);2)使用高斯函數(shù)生成密度圖;3)使用矩形框作為真值圖.由于將每個(gè)人看作一個(gè)獨(dú)立個(gè)體,所以這里將真值圖生成為互相不重疊的獨(dú)立區(qū)域.
將IIM模型結(jié)構(gòu)作為基準(zhǔn)網(wǎng)絡(luò),在此基礎(chǔ)上進(jìn)行改進(jìn).由于人群計(jì)數(shù)場(chǎng)景中人的比例大小變化較大,所以需要網(wǎng)絡(luò)具有良好的多尺度檢測(cè)能力.此外,由于人群計(jì)數(shù)檢測(cè)時(shí),圖像中人的占比往往較小,所以需要網(wǎng)絡(luò)在輸出時(shí)分辨率不能縮放太多,否則可能會(huì)造成人數(shù)統(tǒng)計(jì)減少.綜上所述,選擇HRNet模型作為主干網(wǎng)絡(luò),其在語(yǔ)義分割、關(guān)鍵點(diǎn)檢測(cè)等任務(wù)中表現(xiàn)優(yōu)異,可以實(shí)現(xiàn)輸出與輸入具有相同的分辨率,并且包含多尺度特征的融合.如圖1所示,網(wǎng)絡(luò)先分為四個(gè)分支,然后在最后一層再合并為一層進(jìn)行融合.
圖1 HRNet網(wǎng)絡(luò)結(jié)構(gòu)
日常生活中,人們很容易從復(fù)雜物體中比較準(zhǔn)確地找到需要的目標(biāo)物體,這主要?dú)w于人類將注意力集中于要尋找的特定物體的特征,而上述HRNet網(wǎng)絡(luò)并沒(méi)有考慮此類注意力機(jī)制.目前已有許多關(guān)于注意力方法的文獻(xiàn),如[12-14]等.Simple Attention為特征圖增加一種3D注意力權(quán)值,與現(xiàn)有的通道、空域注意力模塊有所不同,通過(guò)對(duì)式(1)進(jìn)行最優(yōu)化能量函數(shù)計(jì)算推導(dǎo)出一種快速解析解.
(1)
圖2 3D注意力模塊
將圖1中的S1、S2、S3、S4模塊替換為圖2所示的3D注意力模塊,使網(wǎng)絡(luò)不僅有多尺度特征的融合,還有根據(jù)目標(biāo)分布分配不同權(quán)重的注意力機(jī)制.
筆者使用3種損失函數(shù)融合的方式優(yōu)化網(wǎng)絡(luò)模型參數(shù),分別為均方誤差損失(MSE loss)、L1損失和交叉熵?fù)p失(Cross Entropy loss).其中,均方誤差損失是預(yù)測(cè)值與目標(biāo)值之間差值的平方和,可以標(biāo)識(shí)預(yù)測(cè)圖與真值圖之間像素級(jí)別的誤差,式(2)中,p(x)為特征圖預(yù)測(cè)值,g(x)為標(biāo)注真值,M=H×W為圖像寬高的乘積.
(2)
均方誤差損失容易受異常值影響.為了緩解這個(gè)影響,引入L1損失,見(jiàn)公式(3),其能處理異常值.魯棒性比均方誤差損失方法的更好,但是在穩(wěn)定性方面均方誤差損失優(yōu)于L1損失,所以將兩者結(jié)合在一起.
(3)
交叉熵?fù)p失見(jiàn)公式(4),其主要用于分類任務(wù),利用縮小真值圖與預(yù)測(cè)圖分布之間的差異,實(shí)現(xiàn)預(yù)測(cè)概率分布擬合真值概率分布的目的.
(4)
所以,最終損失見(jiàn)公式(5),其中,α、β、γ分別為L(zhǎng)1損失、均方誤差損失、交叉熵?fù)p失的權(quán)重,取值均為1.
L=αL1+βL2+γLCE.
(5)
筆者對(duì)NWPU-Crowd[15]、Shanghai Tech[16]、UCF-QNRF[17]3個(gè)公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并與已有的部分方法(具體見(jiàn)表1)進(jìn)行比較.
表1 NWPU-Crowd數(shù)據(jù)集定位對(duì)比結(jié)果
1)NWPU-Crowd數(shù)據(jù)集是一個(gè)大規(guī)模、人群密度大的公開(kāi)人群密度數(shù)據(jù)集.它包含從互聯(lián)網(wǎng)獲取的5 109個(gè)圖像,精心標(biāo)注了人頭矩形框、人頭中心位置等2 133 238個(gè)實(shí)例.其中又被分為訓(xùn)練集3 109張、驗(yàn)證集500張、測(cè)試集1 500張.
2)Shanghai Tech數(shù)據(jù)集共有1 198幅不同場(chǎng)景的圖像,共標(biāo)注了330 165個(gè)實(shí)例.該數(shù)據(jù)集被劃分為兩部分,分別為Part A和Part B.Part A主要是來(lái)自互聯(lián)網(wǎng)的圖片,共包含較密集場(chǎng)景482張,其中又被分為訓(xùn)練集300張、測(cè)試集182張;Part B主要取自上海街頭,共包含較稀疏場(chǎng)景716張,其中又被分為訓(xùn)練集400張、測(cè)試集316張.Part A中人群密度從33到3 139變化較大,Part B人群密度在12到578之間變化.
3)UCF-QNRF數(shù)據(jù)集,共有1 535幅不同場(chǎng)景、不同光線的圖片,共標(biāo)注了1 251 642個(gè)實(shí)例,其中又被分為訓(xùn)練集1 201張、測(cè)試集334張.
在NWPU-Crowd數(shù)據(jù)集中,用本文方法與最近人群密度計(jì)數(shù)定位效果比較理想的幾種模型進(jìn)行對(duì)比,具體實(shí)驗(yàn)結(jié)果如表1所示.F1-m性能方面與TinyFaces、VGG+GPR、RAZ Loc、TopoCount、GeneralizedLoss、Crowd-SDNet、IIM(HRNet)相比分別提高了20.4%、24.6%、17.3%、7.9%、11.1%、13.4%、0.9%;精確率(Pre.)方面與TinyFaces、VGG+GPR、RAZ Loc、TopoCount、GeneralizedLoss、Crowd-SDNet、IIM(HRNet)相比提高了28.9%、26%、15.2%、13.5%、1.8%、16.7%、0.5%;召回率(Rec.)方面與TinyFaces、VGG+GPR、RAZ Loc、TopoCount、GeneralizedLoss、Crowd-SDNet、IIM(HRNet)相比提高了11.7%、23.2%、18.5%、2.7%、16.6%、10.4%、1.1%;平均絕對(duì)誤差(MAE)、均方差(MSE)方面相比TinyFaces、RAZ Loc、TopoCount、IIM(HRNet)等也有不同程度的降低.
圖3顯示了NWPU數(shù)據(jù)集中某一樣本圖的原圖、真值圖、預(yù)測(cè)密度圖和預(yù)測(cè)二值圖,此圖像計(jì)數(shù)精確率為92.8%,召回率為87.2%.圖4為NWPU數(shù)據(jù)集中部分圖片的結(jié)果圖,顯示了正樣本與預(yù)測(cè)樣本信息.
圖3 NWPU數(shù)據(jù)集中某樣本圖處理結(jié)果
圖4 NWPU數(shù)據(jù)集中預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果對(duì)比
Shanghai Tech數(shù)據(jù)集實(shí)驗(yàn)結(jié)果如表2所示.Shanghai Tech Part A 數(shù)據(jù)集中F1-m性能方面與TinyFaces、RAZ Loc、LSC-CNN、IIM(HRNet)相比分別提高了18.4%、6.5%、7.7%、1.8%;在精確率(Pre.)方面IIM(HRNet)比本文高2%;召回率(Rec.)方面TinyFaces取得了較好的效果.Shanghai Tech Part B 數(shù)據(jù)集中F1-m、精確率(Pre.)方面最高的是IIM(HRNet)方法,比本文高1.6%,召回率方面本文方法最高,比IIM(HRNet)方法高0.3%.
表2 Shanghai Tech數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖5、圖6分別是Shanghai Tech Part A、Shanghai Tech Part B數(shù)據(jù)集中預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果對(duì)比圖.其中:Shanghai Tech Part A數(shù)據(jù)集中樣本圖的計(jì)數(shù)精確率為91.2%,召回率為93.5%;Shanghai Tech Part B數(shù)據(jù)集中樣本圖的計(jì)數(shù)精確率為93.5%,召回率為95.1%.
圖5 Shanghai Tech Part A數(shù)據(jù)集中預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果對(duì)比
圖6 Shanghai Tech Part B數(shù)據(jù)集中預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果對(duì)比
UCF-QNRF數(shù)據(jù)集實(shí)驗(yàn)結(jié)果如表3所示.UCF-QNRF數(shù)據(jù)集中F1-m性能方面與TinyFaces、RAZ Loc、LSC-CNN、IIM(HRNet)相比分別提高了22.9%、19%、14.1%、0.3%,精確率(Pre.)方面IIM(HRNet)比本文高3.4%,召回率(Rec.)方面TinyFaces取得了較好的效果.
表3 UCF-QNRF數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖7是UCF-QNRF數(shù)據(jù)集中預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果對(duì)比圖.其中,樣本圖的計(jì)數(shù)精確率為96.2%,召回率為96.8%.
圖7 UCF-QNRF數(shù)據(jù)集中預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果對(duì)比
在Shanghai Tech Part A數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果如表4所示.IIM(HRNet)方法F1-m為73.9%,僅添加3D注意力模塊時(shí),F(xiàn)1-m提高了0.2%,僅添加loss融合模塊時(shí),F(xiàn)1-m提高了0.7%,既添加3D注意力模塊又添加loss融合模塊時(shí),F(xiàn)1-m提高了1.8%.實(shí)驗(yàn)結(jié)果表明了本文方法的有效性.
表4 Shanghai Tech Part A數(shù)據(jù)集的消融實(shí)驗(yàn)結(jié)果
在IIM模型結(jié)構(gòu)[9]的基礎(chǔ)上,提出了將HRNet與3D注意力機(jī)制相融合的結(jié)構(gòu),使得該網(wǎng)絡(luò)不僅包含多尺度特征,同時(shí)還具有一定的注意力機(jī)制,提高了保留特征細(xì)節(jié)信息的能力.使用均方誤差損失、L1損失和交叉熵?fù)p失3種損失相結(jié)合的方法作為模型損失函數(shù),提高了模型性能.公開(kāi)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文方法提高了模型的人群位置信息準(zhǔn)確性及計(jì)數(shù)準(zhǔn)確性,證明了筆者所提方法的有效性.