吳曉燕
(四川文理學(xué)院 智能制造學(xué)院,四川 達(dá)州 635000)
人群密度估計(jì)在現(xiàn)實(shí)生活中的需求量很大,是公共安全、交通監(jiān)控等一系列實(shí)際應(yīng)用中的重要參考信息[1,2]?,F(xiàn)有的人群計(jì)數(shù)方法大致可以分為3類[3],即基于檢測(cè)的方法、基于回歸的方法以及混合方法。早期的人群計(jì)數(shù)工作[4]中主要使用基于檢測(cè)的方法,這類方法主要是基于事先定義好的頭部檢測(cè)器對(duì)圖像進(jìn)行處理。但是,當(dāng)人群密集度高或者嚴(yán)重遮擋時(shí),該方法的估計(jì)準(zhǔn)確率明顯下降?;诨貧w的方法[5]旨在學(xué)習(xí)人群計(jì)數(shù)和特定特征之間的直接映射,可以完成較為復(fù)雜環(huán)境下的人群計(jì)數(shù)問題。目前常用的回歸模型有高斯過程回歸、線性回歸以及神經(jīng)網(wǎng)絡(luò)等。
隨著深度學(xué)習(xí)的快速發(fā)展,神經(jīng)網(wǎng)絡(luò)逐漸應(yīng)用于人群計(jì)數(shù)方面。Li等[6]應(yīng)用條件生成對(duì)抗網(wǎng)絡(luò)進(jìn)行回歸估計(jì)人群規(guī)模,取得較好的結(jié)果。Xiong等[7]提出了一種深度學(xué)習(xí)模型convLSTM,用于捕獲空間和時(shí)間依賴性,提高人群計(jì)數(shù)的準(zhǔn)確性。Saqib等[8]在深度卷積網(wǎng)絡(luò)框架的基礎(chǔ)上,引入運(yùn)動(dòng)引導(dǎo)濾波器來監(jiān)測(cè)視頻中的人群數(shù)量。Liu等[9]提出了一個(gè)深度遞歸空間感知網(wǎng)絡(luò),通過設(shè)計(jì)空間感知優(yōu)化模塊和采用動(dòng)態(tài)地定位人群密度圖中注意力區(qū)域的方式,自適應(yīng)解決圖像中人群尺度和旋轉(zhuǎn)問題。文獻(xiàn)[10]提出了一種CSRNET網(wǎng)絡(luò)用來提高人群密度的估計(jì)精度。文獻(xiàn)[11]通過結(jié)合歐幾里得損失和計(jì)數(shù)損失來約束SANET網(wǎng)絡(luò),并使用一組轉(zhuǎn)置卷積創(chuàng)建高分辨率密度圖。文獻(xiàn)[12] 在深度卷積網(wǎng)絡(luò)的框架中編碼人流統(tǒng)計(jì)的語(yǔ)義性質(zhì),然后結(jié)合行人、頭部及其上下文結(jié)構(gòu)進(jìn)行群體計(jì)數(shù)。
當(dāng)前大多數(shù)方法均采用單一的密度圖回歸估計(jì)人群數(shù)量,但是在估計(jì)過程中容易產(chǎn)生人數(shù)被高估的現(xiàn)象。針對(duì)這一問題,本文提出一種回歸模型,通過計(jì)數(shù)回歸與密度圖回歸相結(jié)合的方式解決上述問題,并采用更深更輕的完全卷積網(wǎng)絡(luò)(full convolutional network,F(xiàn)CN)作為人群密度圖估計(jì)器,使得模型參數(shù)數(shù)量很少。
全卷積網(wǎng)絡(luò)是在卷積神經(jīng)網(wǎng)絡(luò)CNN的基礎(chǔ)上,將VGG-16模型中的全連接層全部改為卷積層,使其可以接受任意尺寸的輸入圖像。FCN是對(duì)圖像中的各個(gè)像素進(jìn)行分類,在輸出端得到每個(gè)像素所屬的類。然后利用反卷積操作對(duì)最終獲得的特征映射進(jìn)行上采樣,通過放大操作使處理后的圖像尺寸與輸入圖像尺寸相同。在這個(gè)過程中,不僅可以保留原始輸入圖像中的空間信息,還能夠?qū)μ卣鲌D內(nèi)的每個(gè)像素做出預(yù)測(cè),進(jìn)而實(shí)現(xiàn)逐像素分類。圖1給出了CNN和FCN的結(jié)構(gòu)對(duì)比圖。
圖1 CNN和FCN的結(jié)構(gòu)對(duì)比
FCN可以分為FCN-8s、FCN-16s和FCN-32s 這3種模型,反卷積實(shí)質(zhì)上是將不同卷積層和池化層的上采樣結(jié)果求和,然后利用反向傳播算法對(duì)網(wǎng)絡(luò)進(jìn)行端對(duì)端的訓(xùn)練。相對(duì)于經(jīng)典的CNN模型,全卷積網(wǎng)絡(luò)的優(yōu)點(diǎn)有:
(1)卷積層參數(shù)少于全連接層,有效降低過擬合現(xiàn)象的出現(xiàn);
(2)全卷積網(wǎng)絡(luò)特征圖中的像素只需提取其對(duì)應(yīng)的圖像感受野內(nèi)的信息,不需要提取全圖信息,減少了無(wú)關(guān)背景的干擾;
(3)全卷積網(wǎng)絡(luò)能夠適應(yīng)不同尺寸的輸入圖像,應(yīng)用更廣。
本文采用的FCN的架構(gòu)如圖2所示,該模型分為編碼、譯碼和輸出3部分。編碼部分有3個(gè)階段,每個(gè)階段由兩個(gè)卷積層和一個(gè)最大池層組成。卷積層的內(nèi)核大小、步長(zhǎng)和填充分別設(shè)置為3、1和1。最大池層的內(nèi)核大小和步長(zhǎng)都設(shè)置為2。在解碼部分,也有3個(gè)階段,每個(gè)階段由一個(gè)卷積層和一個(gè)反卷積層組成。利用卷積層來減少特征映射的數(shù)目,因此設(shè)置特征映射的核大小和步長(zhǎng)為1。為了對(duì)特征映射進(jìn)行升序,卷積層的內(nèi)核大小、步長(zhǎng)和填充分別設(shè)置為4、2和1。解碼階段的特征映射將與編碼階段的特征映射連接起來,以重用低級(jí)特征。
圖2 本文采用的FCN的架構(gòu)
使用基于回歸的方法進(jìn)行計(jì)數(shù)有兩種方式:一種方法是通過訓(xùn)練一個(gè)模型,直接從給定的圖像中輸出頭部數(shù)量估計(jì);另一種方法是輸出人群密度圖,通過對(duì)密度圖進(jìn)行積分,獲得人群的頭部計(jì)數(shù)。由于密度圖能夠給出人群的空間分布,而且模型容易訓(xùn)練,因此更多的研究采用第二種方法。但是,如果訓(xùn)練參數(shù)、學(xué)習(xí)率、批量大小等參數(shù)設(shè)置不恰當(dāng)時(shí),密度圖上的人數(shù)通常會(huì)被高估。為了解決這一問題,本文采用密度圖回歸和計(jì)數(shù)回歸相結(jié)合的方式進(jìn)行人群估計(jì),訓(xùn)練結(jié)構(gòu)如圖3所示。
圖3 基于密度圖和計(jì)數(shù)回歸的人群估計(jì)
頭部模型為二維高斯分布,因此,人群密度函數(shù)可寫為
(1)
其中,x是密度圖上的位置,Ni是第i張人群圖像上的頭部數(shù)量,μi,j是第i個(gè)人群圖像上第j個(gè)頭部的位置,σ是高斯分布的標(biāo)準(zhǔn)差。密度圖回歸的目的是訓(xùn)練一個(gè)模型,將輸入人群圖像Hi(x)轉(zhuǎn)換為密度圖,所以密度圖回歸的代價(jià)函數(shù)可以表示為
(2)
其中,NF為訓(xùn)練圖像片段的個(gè)數(shù),S為人群圖像片段上的位置空間,F(xiàn)i表示第i個(gè)人群圖像片段。M(x,Fi|W)是參數(shù)為W的人群密度圖估計(jì)模型,通過最小化式(2),該模型將能夠根據(jù)輸入的人群圖像片段估計(jì)密度圖。
由于來自訓(xùn)練模型的密度圖可能會(huì)導(dǎo)致對(duì)頭部數(shù)量的高估,本文采用計(jì)數(shù)回歸方法對(duì)模型的輸出值進(jìn)行正則化,然后對(duì)Hi(x)進(jìn)行積分,可以估計(jì)出輸入圖像的總?cè)藬?shù)。通過縮小頭部數(shù)量估計(jì)值和真實(shí)值之間的差異來規(guī)范密度圖估計(jì)。計(jì)數(shù)回歸的代價(jià)函數(shù)表示為
(3)
結(jié)合密度圖回歸和計(jì)數(shù)回歸的總的代價(jià)函數(shù)為
E(W)=αED(W)+βEC(W)
(4)
其中,α和β是用來規(guī)范化訓(xùn)練的超參數(shù)。
在訓(xùn)練前,該模型不能估計(jì)人群密度圖。如果直接應(yīng)用計(jì)數(shù)回歸,訓(xùn)練損失很難收斂,因此需要對(duì)模型進(jìn)行逐步訓(xùn)練。首先,利用密度圖回歸對(duì)模型進(jìn)行訓(xùn)練。在模型能夠很好地估計(jì)密度圖后,再加入計(jì)數(shù)回歸模型。由于密度圖回歸的誤差是每個(gè)像素上所有誤差的積分,導(dǎo)致它比計(jì)數(shù)回歸的誤差大很多。因此,超參數(shù)α在設(shè)置時(shí)應(yīng)該小于β,故(α,β)在第二次和第三次的設(shè)置分別為(0.1,10)、(0.1,100)。
為了測(cè)試提出算法的性能表現(xiàn),分別利用均方根誤差RMSE、平均絕對(duì)誤差MAE以及出錯(cuò)率ER對(duì)測(cè)試結(jié)果進(jìn)行評(píng)估,3個(gè)評(píng)價(jià)標(biāo)準(zhǔn)的定義如下
(5)
(6)
(7)
采用Mall[8]數(shù)據(jù)集、UCSD[10]數(shù)據(jù)集以及WorldExpo′10[11]數(shù)據(jù)集來測(cè)試所提出算法的性能,同時(shí)與現(xiàn)在一些最新算法進(jìn)行對(duì)比。實(shí)驗(yàn)過程中,Mall數(shù)據(jù)集、UCSD數(shù)據(jù)集和WorldExpo′10數(shù)據(jù)集使用標(biāo)準(zhǔn)訓(xùn)練和測(cè)試分割方式進(jìn)行測(cè)試。為了防止網(wǎng)絡(luò)過擬合,在訓(xùn)練集上進(jìn)行了數(shù)據(jù)增加操作:訓(xùn)練圖像通過鏡像來增加圖像數(shù)量。為了增加頭部大小的可變性,在構(gòu)建圖像金字塔時(shí),本文采用比例系數(shù)γ∈[0.6,1.2]乘以原始圖像分辨率,步長(zhǎng)為0.2。Mall數(shù)據(jù)集由購(gòu)物中心內(nèi)可公開訪問的監(jiān)控?cái)z像頭捕獲,圖像的照明條件和玻璃表面反射對(duì)算法具有很大的挑戰(zhàn)性。該數(shù)據(jù)集是一組2000幀的視頻序列,前800幀進(jìn)行訓(xùn)練,剩余的1200幀用于測(cè)試。UCSD數(shù)據(jù)集是戶外監(jiān)控?cái)z像機(jī)拍攝的圖像數(shù)據(jù),主要分成兩個(gè)子集,子集1有34個(gè)訓(xùn)練視頻和36個(gè)測(cè)試視頻,每個(gè)視頻有200幀,子集1有10個(gè)訓(xùn)練視頻和16個(gè)測(cè)試視頻,每個(gè)視頻有120幀。WorldExpo′10數(shù)據(jù)集由來自108個(gè)不同監(jiān)控?cái)z像機(jī)捕獲的1132個(gè)視頻序列的3980個(gè)帶注釋的幀組成。該數(shù)據(jù)集分為來自5個(gè)不同場(chǎng)景的訓(xùn)練集(3380幀)和測(cè)試集(600幀)。表1顯示了兩個(gè)數(shù)據(jù)集的各種統(tǒng)計(jì)結(jié)果。
表1 兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果
圖4給出了本文算法在3個(gè)數(shù)據(jù)集中測(cè)試的視覺效果。本文算法在人群密度中等場(chǎng)景的WorldExpo′10數(shù)據(jù)集、人群密度小但分布變化很大的場(chǎng)景Mall、UCSD數(shù)據(jù)集以及上表現(xiàn)良好,從而充分說明提出算法的準(zhǔn)確性和適用性。
圖4 3個(gè)數(shù)據(jù)集的預(yù)測(cè)和真實(shí)密度圖對(duì)比
圖5、圖6給出了不同算法在Mall和UCSD兩個(gè)數(shù)據(jù)集在MAE、RMSE的實(shí)驗(yàn)結(jié)果。通過對(duì)比每個(gè)數(shù)據(jù)集上不同算法的測(cè)試結(jié)果,發(fā)現(xiàn)在Mall數(shù)據(jù)集和UCSD數(shù)據(jù)集上,提出的模型優(yōu)于其它方法。
圖5 不同算法在Mall數(shù)據(jù)集的測(cè)試結(jié)果
圖6 不同算法在UCSD數(shù)據(jù)集的測(cè)試結(jié)果
圖7給出了不同算法在WorldExpo′10數(shù)據(jù)不同場(chǎng)景的MAE測(cè)試結(jié)果。本文模型除了場(chǎng)景4的測(cè)試結(jié)果不如文獻(xiàn)[12],其余場(chǎng)景及平均值均優(yōu)于其它算法。
圖7 不同算法在WorldExpo′10數(shù)據(jù)集的測(cè)試結(jié)果
圖8給出了不同算法的累積誤差。從圖中可以看出,隨著圖像數(shù)量的增加,每種方法的累積誤差將被累積,累積誤差線的斜率越低,性能越好。除此之外,通過對(duì)比每個(gè)數(shù)據(jù)集上不同算法的測(cè)試結(jié)果,本文方法的累積誤差最低,性能優(yōu)于其它算法。
圖8 不同算法的累積誤差對(duì)比
為了糾正密度圖回歸方法估計(jì)人群數(shù)量過高的問題,本文設(shè)計(jì)了一個(gè)更深的、更輕的且參數(shù)數(shù)量很少的人群計(jì)數(shù)FCN模型,采用將密度圖回歸與計(jì)數(shù)回歸相結(jié)合的方式估計(jì)人群密度。提出的方法在不同的人群密度和尺度不一的數(shù)據(jù)集上均取得了較好的效果,有效避免了僅通過密度圖回歸進(jìn)行訓(xùn)練時(shí)總?cè)藬?shù)被高估現(xiàn)象的產(chǎn)生。實(shí)驗(yàn)結(jié)果表明,與其它現(xiàn)有的人群計(jì)數(shù)方法相比,本文模型計(jì)算精度更高,性能更優(yōu),訓(xùn)練策略也具有更強(qiáng)的競(jìng)爭(zhēng)力。