鈕嘉銘
武警工程大學(xué)信息工程學(xué)院 陜西 西安 710086
在早期的研究中,人們主要采用基于檢測(cè)的方法。根據(jù)采用的檢測(cè)器的不同,可以將其分為整體檢測(cè)法與部件檢測(cè)法兩種方法。Li等人[1]考慮到頭部形狀的變化對(duì)任務(wù)的不利影響,采用結(jié)合了頭部與肩部的檢測(cè)器來(lái)從分割出來(lái)的前景中檢測(cè)人體并進(jìn)行計(jì)數(shù)。Zhao等人[2]進(jìn)一步使用3D模型對(duì)人體進(jìn)行建模,并在此基礎(chǔ)上得到人群計(jì)數(shù)結(jié)果。
基于回歸的方法在進(jìn)行訓(xùn)練時(shí)跳過(guò)檢測(cè)直接學(xué)習(xí)從圖像到人群計(jì)數(shù)的映射。其通常分特征提取與回歸建模兩步來(lái)進(jìn)行。Davies等人經(jīng)分析得出人群密集程度與圖像前景及邊緣像素的個(gè)數(shù)成正比,并進(jìn)一步設(shè)計(jì)了基于像素的回歸方法來(lái)估計(jì)密度。Marana等人認(rèn)為人群密度與圖像紋理特征也存在一定關(guān)系,并引入了灰度共生矩陣來(lái)對(duì)圖像的紋理特征進(jìn)行描述。
基于密度估計(jì)的方法不僅可以一定程度上消除遮擋與背景雜波的影響,而且也能解決回歸模型無(wú)法得到人群空間信息的問(wèn)題。Lemptisky等人[3]通過(guò)學(xué)習(xí)局部特征與密度圖之間的線性映射將空間信息引入到密度估計(jì)模型中。Pham等人利用隨機(jī)森林建立了圖像與密度圖之間的非線性映射,取得了不錯(cuò)的結(jié)果。
傳統(tǒng)方法特別是基于密度估計(jì)的方法使人群密度估計(jì)任務(wù)的效果得到了提升,但是其使用的特征往往受制于人工提取煩瑣復(fù)雜的缺點(diǎn),無(wú)法適應(yīng)尺度變化、光照變化及透視失真等干擾的影響。自在目標(biāo)分類上取得巨大的成功后,卷積神經(jīng)網(wǎng)絡(luò)不斷地被人們應(yīng)用到其他領(lǐng)域中。Fu等人將CNN引入密度估計(jì)模型中。其后,Wang等人于2015年10月設(shè)計(jì)了一個(gè)端到端的網(wǎng)絡(luò),并利用網(wǎng)絡(luò)建立了圖像與人群密度間的映射。
由透視失真及拍攝角度等造成的尺度變化是限制密度估計(jì)模型性能的主要因素,為此,人們引入了多列網(wǎng)絡(luò)模型,通常不同的列對(duì)應(yīng)不同的尺度。Zhang等人設(shè)計(jì)的MCNN由三列具有不同感受野的CNN組成,較好地解決了尺度變化問(wèn)題。Onoro等人使用了一種金字塔結(jié)構(gòu)來(lái)感知尺度變化,構(gòu)建了Hydra-CNN模型。Boominathan等人則建立了一種包含深層和淺層兩列網(wǎng)絡(luò)的模型CrowdNet來(lái)解決由拍攝視角等的不同帶來(lái)的尺度變化問(wèn)題。
考慮到多列結(jié)構(gòu)存在訓(xùn)練過(guò)擬合、參數(shù)量大、計(jì)算復(fù)雜及尺度適應(yīng)性弱等缺點(diǎn),人們提出了單列網(wǎng)絡(luò)模型。Li等人在提出的模型CSRNet中引入了空洞卷積。他們利用空洞卷積可獲取更多特征細(xì)節(jié)的特點(diǎn)很好地提升了網(wǎng)絡(luò)提取多尺度特征的能力,使模型得到了很好的估計(jì)結(jié)果。Chen等人使用尺度金字塔模塊SPM來(lái)提取多尺度特征,取得了良好的效果。同樣地,Dai等人也利用擴(kuò)張卷積塊構(gòu)建了一個(gè)單列模型DSNet。Cao等人基于編解碼器模型提出了一種尺度聚集網(wǎng)絡(luò)SANet。它包括編碼器和解碼器兩部分。更進(jìn)一步,Jiang等人使用多尺度編碼器和多路徑解碼器構(gòu)建了TEDNet,為解決尺度變化問(wèn)題提供了新思路。
為了完成訓(xùn)練,我們不僅需要輸入原始的人群圖片,也需要將對(duì)應(yīng)的Ground Truth作為標(biāo)簽輸入模型。高質(zhì)量標(biāo)簽對(duì)模型性能的提升具有重要意義。研究人員通常使用高斯自適應(yīng)核函數(shù)將人頭坐標(biāo)數(shù)據(jù)轉(zhuǎn)化為Ground Truth圖。該過(guò)程的定義如下:
其中,F(xiàn)(x)表示 Ground Truth圖,N表示圖片中的像素?cái)?shù)量,Gσ(x)表示高斯核,xi表示圖片中的像素。
近些年來(lái),隨著CNN的快速發(fā)展及廣泛應(yīng)用,人群密度估計(jì)模型的性能得到了逐步提升,但仍有一些問(wèn)題沒有得到很好的解決?,F(xiàn)有模型在遮擋嚴(yán)重的高密度場(chǎng)景中的效果還需加強(qiáng)。照明、天氣條件對(duì)估計(jì)效果的影響還未得到很好的改善?,F(xiàn)有的高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)量及多樣性等略有不足。
4.2.1 目前的密度估計(jì)模型大都是針對(duì)單個(gè)圖片而設(shè)計(jì)的,在處理視頻方面可能仍有欠缺。相對(duì)于單個(gè)圖像,對(duì)視頻的人群密度進(jìn)行估計(jì)可能更具有現(xiàn)實(shí)意義當(dāng)然也更復(fù)雜,因此,未來(lái)會(huì)有更多的人往這方面發(fā)力。
4.2.2 損失函數(shù)對(duì)模型的性能有著重要影響。與以前的方法不同,研究者往往會(huì)經(jīng)典的歐式損失的基礎(chǔ)上引入結(jié)構(gòu)相似性損失、對(duì)抗性損失等損失函數(shù),這在之后的研究中也是需考慮的因素。