亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于回歸模型的全卷積網(wǎng)絡(luò)人群計(jì)數(shù)算法

2020-11-02 11:52:28吳曉燕

計(jì)算機(jī)工程與設(shè)計(jì) 2020年10期

吳曉燕

(四川文理學(xué)院智能制造學(xué)院，四川達(dá)州 635000)

0 引言

人群密度估計(jì)在現(xiàn)實(shí)生活中的需求量很大，是公共安全、交通監(jiān)控等一系列實(shí)際應(yīng)用中的重要參考信息[1,2]?，F(xiàn)有的人群計(jì)數(shù)方法大致可以分為3類[3]，即基于檢測(cè)的方法、基于回歸的方法以及混合方法。早期的人群計(jì)數(shù)工作[4]中主要使用基于檢測(cè)的方法，這類方法主要是基于事先定義好的頭部檢測(cè)器對(duì)圖像進(jìn)行處理。但是，當(dāng)人群密集度高或者嚴(yán)重遮擋時(shí)，該方法的估計(jì)準(zhǔn)確率明顯下降?；诨貧w的方法[5]旨在學(xué)習(xí)人群計(jì)數(shù)和特定特征之間的直接映射，可以完成較為復(fù)雜環(huán)境下的人群計(jì)數(shù)問題。目前常用的回歸模型有高斯過程回歸、線性回歸以及神經(jīng)網(wǎng)絡(luò)等。

隨著深度學(xué)習(xí)的快速發(fā)展，神經(jīng)網(wǎng)絡(luò)逐漸應(yīng)用于人群計(jì)數(shù)方面。Li等[6]應(yīng)用條件生成對(duì)抗網(wǎng)絡(luò)進(jìn)行回歸估計(jì)人群規(guī)模，取得較好的結(jié)果。Xiong等[7]提出了一種深度學(xué)習(xí)模型convLSTM，用于捕獲空間和時(shí)間依賴性，提高人群計(jì)數(shù)的準(zhǔn)確性。Saqib等[8]在深度卷積網(wǎng)絡(luò)框架的基礎(chǔ)上，引入運(yùn)動(dòng)引導(dǎo)濾波器來監(jiān)測(cè)視頻中的人群數(shù)量。Liu等[9]提出了一個(gè)深度遞歸空間感知網(wǎng)絡(luò)，通過設(shè)計(jì)空間感知優(yōu)化模塊和采用動(dòng)態(tài)地定位人群密度圖中注意力區(qū)域的方式，自適應(yīng)解決圖像中人群尺度和旋轉(zhuǎn)問題。文獻(xiàn)[10]提出了一種CSRNET網(wǎng)絡(luò)用來提高人群密度的估計(jì)精度。文獻(xiàn)[11]通過結(jié)合歐幾里得損失和計(jì)數(shù)損失來約束SANET網(wǎng)絡(luò)，并使用一組轉(zhuǎn)置卷積創(chuàng)建高分辨率密度圖。文獻(xiàn)[12] 在深度卷積網(wǎng)絡(luò)的框架中編碼人流統(tǒng)計(jì)的語(yǔ)義性質(zhì)，然后結(jié)合行人、頭部及其上下文結(jié)構(gòu)進(jìn)行群體計(jì)數(shù)。

當(dāng)前大多數(shù)方法均采用單一的密度圖回歸估計(jì)人群數(shù)量，但是在估計(jì)過程中容易產(chǎn)生人數(shù)被高估的現(xiàn)象。針對(duì)這一問題，本文提出一種回歸模型，通過計(jì)數(shù)回歸與密度圖回歸相結(jié)合的方式解決上述問題，并采用更深更輕的完全卷積網(wǎng)絡(luò)(full convolutional network，F(xiàn)CN)作為人群密度圖估計(jì)器，使得模型參數(shù)數(shù)量很少。

1 全卷積網(wǎng)絡(luò)

全卷積網(wǎng)絡(luò)是在卷積神經(jīng)網(wǎng)絡(luò)CNN的基礎(chǔ)上，將VGG-16模型中的全連接層全部改為卷積層，使其可以接受任意尺寸的輸入圖像。FCN是對(duì)圖像中的各個(gè)像素進(jìn)行分類，在輸出端得到每個(gè)像素所屬的類。然后利用反卷積操作對(duì)最終獲得的特征映射進(jìn)行上采樣，通過放大操作使處理后的圖像尺寸與輸入圖像尺寸相同。在這個(gè)過程中，不僅可以保留原始輸入圖像中的空間信息，還能夠?qū)μ卣鲌D內(nèi)的每個(gè)像素做出預(yù)測(cè)，進(jìn)而實(shí)現(xiàn)逐像素分類。圖1給出了CNN和FCN的結(jié)構(gòu)對(duì)比圖。

圖1 CNN和FCN的結(jié)構(gòu)對(duì)比

FCN可以分為FCN-8s、FCN-16s和FCN-32s 這3種模型，反卷積實(shí)質(zhì)上是將不同卷積層和池化層的上采樣結(jié)果求和，然后利用反向傳播算法對(duì)網(wǎng)絡(luò)進(jìn)行端對(duì)端的訓(xùn)練。相對(duì)于經(jīng)典的CNN模型，全卷積網(wǎng)絡(luò)的優(yōu)點(diǎn)有：

(1)卷積層參數(shù)少于全連接層，有效降低過擬合現(xiàn)象的出現(xiàn)；

(2)全卷積網(wǎng)絡(luò)特征圖中的像素只需提取其對(duì)應(yīng)的圖像感受野內(nèi)的信息，不需要提取全圖信息，減少了無(wú)關(guān)背景的干擾；

(3)全卷積網(wǎng)絡(luò)能夠適應(yīng)不同尺寸的輸入圖像，應(yīng)用更廣。

2 基于全卷積網(wǎng)絡(luò)的人群規(guī)模估計(jì)算法

2.1 基于回歸模型的全卷積網(wǎng)絡(luò)

本文采用的FCN的架構(gòu)如圖2所示，該模型分為編碼、譯碼和輸出3部分。編碼部分有3個(gè)階段，每個(gè)階段由兩個(gè)卷積層和一個(gè)最大池層組成。卷積層的內(nèi)核大小、步長(zhǎng)和填充分別設(shè)置為3、1和1。最大池層的內(nèi)核大小和步長(zhǎng)都設(shè)置為2。在解碼部分，也有3個(gè)階段，每個(gè)階段由一個(gè)卷積層和一個(gè)反卷積層組成。利用卷積層來減少特征映射的數(shù)目，因此設(shè)置特征映射的核大小和步長(zhǎng)為1。為了對(duì)特征映射進(jìn)行升序，卷積層的內(nèi)核大小、步長(zhǎng)和填充分別設(shè)置為4、2和1。解碼階段的特征映射將與編碼階段的特征映射連接起來，以重用低級(jí)特征。

圖2 本文采用的FCN的架構(gòu)

2.2 代價(jià)函數(shù)

使用基于回歸的方法進(jìn)行計(jì)數(shù)有兩種方式：一種方法是通過訓(xùn)練一個(gè)模型，直接從給定的圖像中輸出頭部數(shù)量估計(jì)；另一種方法是輸出人群密度圖，通過對(duì)密度圖進(jìn)行積分，獲得人群的頭部計(jì)數(shù)。由于密度圖能夠給出人群的空間分布，而且模型容易訓(xùn)練，因此更多的研究采用第二種方法。但是，如果訓(xùn)練參數(shù)、學(xué)習(xí)率、批量大小等參數(shù)設(shè)置不恰當(dāng)時(shí)，密度圖上的人數(shù)通常會(huì)被高估。為了解決這一問題，本文采用密度圖回歸和計(jì)數(shù)回歸相結(jié)合的方式進(jìn)行人群估計(jì)，訓(xùn)練結(jié)構(gòu)如圖3所示。

圖3 基于密度圖和計(jì)數(shù)回歸的人群估計(jì)

頭部模型為二維高斯分布，因此，人群密度函數(shù)可寫為

(1)

其中，x是密度圖上的位置，Ni是第i張人群圖像上的頭部數(shù)量，μi,j是第i個(gè)人群圖像上第j個(gè)頭部的位置，σ是高斯分布的標(biāo)準(zhǔn)差。密度圖回歸的目的是訓(xùn)練一個(gè)模型，將輸入人群圖像Hi(x)轉(zhuǎn)換為密度圖，所以密度圖回歸的代價(jià)函數(shù)可以表示為

(2)

其中，NF為訓(xùn)練圖像片段的個(gè)數(shù)，S為人群圖像片段上的位置空間，F(xiàn)i表示第i個(gè)人群圖像片段。M(x,Fi|W)是參數(shù)為W的人群密度圖估計(jì)模型，通過最小化式(2)，該模型將能夠根據(jù)輸入的人群圖像片段估計(jì)密度圖。

由于來自訓(xùn)練模型的密度圖可能會(huì)導(dǎo)致對(duì)頭部數(shù)量的高估，本文采用計(jì)數(shù)回歸方法對(duì)模型的輸出值進(jìn)行正則化，然后對(duì)Hi(x)進(jìn)行積分，可以估計(jì)出輸入圖像的總?cè)藬?shù)。通過縮小頭部數(shù)量估計(jì)值和真實(shí)值之間的差異來規(guī)范密度圖估計(jì)。計(jì)數(shù)回歸的代價(jià)函數(shù)表示為

(3)

結(jié)合密度圖回歸和計(jì)數(shù)回歸的總的代價(jià)函數(shù)為

E(W)=αED(W)+βEC(W)

(4)

其中，α和β是用來規(guī)范化訓(xùn)練的超參數(shù)。

在訓(xùn)練前，該模型不能估計(jì)人群密度圖。如果直接應(yīng)用計(jì)數(shù)回歸，訓(xùn)練損失很難收斂，因此需要對(duì)模型進(jìn)行逐步訓(xùn)練。首先，利用密度圖回歸對(duì)模型進(jìn)行訓(xùn)練。在模型能夠很好地估計(jì)密度圖后，再加入計(jì)數(shù)回歸模型。由于密度圖回歸的誤差是每個(gè)像素上所有誤差的積分，導(dǎo)致它比計(jì)數(shù)回歸的誤差大很多。因此，超參數(shù)α在設(shè)置時(shí)應(yīng)該小于β，故(α,β)在第二次和第三次的設(shè)置分別為(0.1,10)、(0.1,100)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 評(píng)價(jià)標(biāo)準(zhǔn)

為了測(cè)試提出算法的性能表現(xiàn)，分別利用均方根誤差RMSE、平均絕對(duì)誤差MAE以及出錯(cuò)率ER對(duì)測(cè)試結(jié)果進(jìn)行評(píng)估，3個(gè)評(píng)價(jià)標(biāo)準(zhǔn)的定義如下

(5)

(6)

(7)

3.2 數(shù)據(jù)集

采用Mall[8]數(shù)據(jù)集、UCSD[10]數(shù)據(jù)集以及WorldExpo′10[11]數(shù)據(jù)集來測(cè)試所提出算法的性能，同時(shí)與現(xiàn)在一些最新算法進(jìn)行對(duì)比。實(shí)驗(yàn)過程中，Mall數(shù)據(jù)集、UCSD數(shù)據(jù)集和WorldExpo′10數(shù)據(jù)集使用標(biāo)準(zhǔn)訓(xùn)練和測(cè)試分割方式進(jìn)行測(cè)試。為了防止網(wǎng)絡(luò)過擬合，在訓(xùn)練集上進(jìn)行了數(shù)據(jù)增加操作：訓(xùn)練圖像通過鏡像來增加圖像數(shù)量。為了增加頭部大小的可變性，在構(gòu)建圖像金字塔時(shí)，本文采用比例系數(shù)γ∈[0.6,1.2]乘以原始圖像分辨率，步長(zhǎng)為0.2。Mall數(shù)據(jù)集由購(gòu)物中心內(nèi)可公開訪問的監(jiān)控?cái)z像頭捕獲，圖像的照明條件和玻璃表面反射對(duì)算法具有很大的挑戰(zhàn)性。該數(shù)據(jù)集是一組2000幀的視頻序列，前800幀進(jìn)行訓(xùn)練，剩余的1200幀用于測(cè)試。UCSD數(shù)據(jù)集是戶外監(jiān)控?cái)z像機(jī)拍攝的圖像數(shù)據(jù)，主要分成兩個(gè)子集，子集1有34個(gè)訓(xùn)練視頻和36個(gè)測(cè)試視頻，每個(gè)視頻有200幀，子集1有10個(gè)訓(xùn)練視頻和16個(gè)測(cè)試視頻，每個(gè)視頻有120幀。WorldExpo′10數(shù)據(jù)集由來自108個(gè)不同監(jiān)控?cái)z像機(jī)捕獲的1132個(gè)視頻序列的3980個(gè)帶注釋的幀組成。該數(shù)據(jù)集分為來自5個(gè)不同場(chǎng)景的訓(xùn)練集(3380幀)和測(cè)試集(600幀)。表1顯示了兩個(gè)數(shù)據(jù)集的各種統(tǒng)計(jì)結(jié)果。

表1 兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果

3.3 實(shí)驗(yàn)結(jié)果與分析

圖4給出了本文算法在3個(gè)數(shù)據(jù)集中測(cè)試的視覺效果。本文算法在人群密度中等場(chǎng)景的WorldExpo′10數(shù)據(jù)集、人群密度小但分布變化很大的場(chǎng)景Mall、UCSD數(shù)據(jù)集以及上表現(xiàn)良好，從而充分說明提出算法的準(zhǔn)確性和適用性。

圖4 3個(gè)數(shù)據(jù)集的預(yù)測(cè)和真實(shí)密度圖對(duì)比

圖5、圖6給出了不同算法在Mall和UCSD兩個(gè)數(shù)據(jù)集在MAE、RMSE的實(shí)驗(yàn)結(jié)果。通過對(duì)比每個(gè)數(shù)據(jù)集上不同算法的測(cè)試結(jié)果，發(fā)現(xiàn)在Mall數(shù)據(jù)集和UCSD數(shù)據(jù)集上，提出的模型優(yōu)于其它方法。

圖5 不同算法在Mall數(shù)據(jù)集的測(cè)試結(jié)果

圖6 不同算法在UCSD數(shù)據(jù)集的測(cè)試結(jié)果

圖7給出了不同算法在WorldExpo′10數(shù)據(jù)不同場(chǎng)景的MAE測(cè)試結(jié)果。本文模型除了場(chǎng)景4的測(cè)試結(jié)果不如文獻(xiàn)[12]，其余場(chǎng)景及平均值均優(yōu)于其它算法。

圖7 不同算法在WorldExpo′10數(shù)據(jù)集的測(cè)試結(jié)果

圖8給出了不同算法的累積誤差。從圖中可以看出，隨著圖像數(shù)量的增加，每種方法的累積誤差將被累積，累積誤差線的斜率越低，性能越好。除此之外，通過對(duì)比每個(gè)數(shù)據(jù)集上不同算法的測(cè)試結(jié)果，本文方法的累積誤差最低，性能優(yōu)于其它算法。

圖8 不同算法的累積誤差對(duì)比

4 結(jié)束語(yǔ)

為了糾正密度圖回歸方法估計(jì)人群數(shù)量過高的問題，本文設(shè)計(jì)了一個(gè)更深的、更輕的且參數(shù)數(shù)量很少的人群計(jì)數(shù)FCN模型，采用將密度圖回歸與計(jì)數(shù)回歸相結(jié)合的方式估計(jì)人群密度。提出的方法在不同的人群密度和尺度不一的數(shù)據(jù)集上均取得了較好的效果，有效避免了僅通過密度圖回歸進(jìn)行訓(xùn)練時(shí)總?cè)藬?shù)被高估現(xiàn)象的產(chǎn)生。實(shí)驗(yàn)結(jié)果表明，與其它現(xiàn)有的人群計(jì)數(shù)方法相比，本文模型計(jì)算精度更高，性能更優(yōu)，訓(xùn)練策略也具有更強(qiáng)的競(jìng)爭(zhēng)力。