嚴(yán)芳芳,吳 秦
(江南大學(xué) 江蘇省模式識(shí)別與計(jì)算智能工程實(shí)驗(yàn)室,江蘇 無(wú)錫 214122)
計(jì)算機(jī)視覺(jué)中人群計(jì)數(shù)工作是通過(guò)學(xué)習(xí)圖片或者視頻得到其中包含的人數(shù).在公共集會(huì)、體育賽事等場(chǎng)景中,為了幫助控制人群和公共安全,需要精確的人數(shù)信息.另外參與人數(shù)或人群密度是未來(lái)活動(dòng)規(guī)劃和空間設(shè)計(jì)的重要信息.
人群計(jì)數(shù)也存在著很多其他視覺(jué)領(lǐng)域同樣存在的問(wèn)題,密集場(chǎng)景圖片中人群計(jì)數(shù)存在遮擋,尺度變化以及背景噪聲等問(wèn)題.
目前,人群計(jì)數(shù)領(lǐng)域兩類(lèi)主要方法分別是基于傳統(tǒng)的人群計(jì)數(shù)方法和基于深度學(xué)習(xí)的人群計(jì)數(shù)方法.早期,主要是通過(guò)一些傳統(tǒng)的方法來(lái)完成人群計(jì)數(shù),例如通過(guò)檢測(cè)的方式[1,2]得到人數(shù),或者通過(guò)回歸的方式[3,4]得到人數(shù),但是這些方法在嚴(yán)重?fù)頂D的場(chǎng)景下性能較差.近年來(lái),基于深度學(xué)習(xí)的方法常被用來(lái)完成人群計(jì)數(shù)任務(wù).例如,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進(jìn)行精確的人群密度圖生成或人群計(jì)數(shù)[5,6].Zhang等人[7]提出MCNN(Multi-Column Convolutional Neural Network)網(wǎng)絡(luò),利用三列不同大小的卷積核提取不同尺度的特征,在一定程度上解決了尺度變化問(wèn)題.Li等人[8]利用預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)前10層以及結(jié)合空洞卷積(Dilated Convolution)得到了較高分辨率的密度圖.多列或者多分辨率[9-11]的方法在一定程度上緩解了尺度多變問(wèn)題,但仍然受到卷積核大小和多列結(jié)構(gòu)的限制,同時(shí)多列結(jié)構(gòu)帶來(lái)兩個(gè)顯著缺點(diǎn):大大增加網(wǎng)絡(luò)的訓(xùn)練時(shí)間和冗余的分支結(jié)構(gòu).
針對(duì)上述問(wèn)題,本文提出一個(gè)端到端的多通道融合分組卷積神經(jīng)網(wǎng)絡(luò),避開(kāi)多列結(jié)構(gòu)獲取不同特征的方式,多通道融合分組卷積神經(jīng)網(wǎng)絡(luò)跨層將不同網(wǎng)絡(luò)深度連接起來(lái),融合不同網(wǎng)絡(luò)深度的特征得到更加豐富的特征信息.綜上所述,本文有以下兩個(gè)主要貢獻(xiàn):
1)提出了一個(gè)新的人群計(jì)數(shù)算法,多通道融合分組卷積神經(jīng)網(wǎng)絡(luò).在不同網(wǎng)絡(luò)深度之間均建立網(wǎng)絡(luò)通路,得到豐富的網(wǎng)絡(luò)特征.
2)多通道之間跨層連接導(dǎo)致網(wǎng)絡(luò)參數(shù)增加,為了緩解這一問(wèn)題,我們采用兩種措施:①在網(wǎng)絡(luò)中加入1×1卷積層實(shí)現(xiàn)特征降維;②在多通道融合分組卷積模塊中,引入分組卷積替代普通的卷積操作.
與已有方法相比較,本文在三個(gè)公開(kāi)數(shù)據(jù)集ShanghaiTech[7],UCF_CC_50[12],UCF_QNRF[13]上的實(shí)驗(yàn)結(jié)果均有所提升.
基于深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力,近年來(lái)在很多計(jì)算機(jī)視覺(jué)領(lǐng)域取得了很好的成果,例如圖像識(shí)別,圖像分割以及目標(biāo)檢測(cè)等.同樣,人群計(jì)數(shù)領(lǐng)域目前效果較好的方法也多數(shù)是基于深度學(xué)習(xí)方法.
傳統(tǒng)的方法通常先對(duì)圖片進(jìn)行分割,然后分別對(duì)分割后的圖像塊進(jìn)行特征提取,再通過(guò)回歸[14]或者分類(lèi)[15]得到人數(shù),最后圖像塊人數(shù)相加得到圖片人數(shù).選擇合適的特征是傳統(tǒng)方法的關(guān)鍵,然而,CNN訓(xùn)練過(guò)程中使用很多特征圖,可以被訓(xùn)練來(lái)自動(dòng)提取合適于特定任務(wù)的特征.基于CNN的人群計(jì)數(shù)方法則不需要人為選擇手工特征以及前背景分割,直接將圖片輸入網(wǎng)絡(luò),由網(wǎng)絡(luò)學(xué)習(xí)得到高層特征,最后生成密度圖或者通過(guò)回歸得到人數(shù).相比傳統(tǒng)的方法,基于CNN的方法結(jié)果更加有競(jìng)爭(zhēng)性.Cong等人[16]提出一個(gè)六層的卷積網(wǎng)絡(luò)進(jìn)行密度圖生成和人數(shù)估計(jì),訓(xùn)練的時(shí)候兩個(gè)任務(wù)交替優(yōu)化,完成跨場(chǎng)景的人群計(jì)數(shù)問(wèn)題.Zhang等人[7]提出一個(gè)多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN),該網(wǎng)絡(luò)有三個(gè)不同的分支網(wǎng)絡(luò),每個(gè)分支的深度相同但是采用不同大小的卷積核,三個(gè)分支分別得到不同的感受野,來(lái)抓取不同尺寸目標(biāo)的特征.最后三個(gè)分支網(wǎng)絡(luò)提取的特征圖通過(guò)1×1的卷積融合生成人群密度圖.Sam等人[17]的設(shè)計(jì)包括三個(gè)子網(wǎng)絡(luò)和一個(gè)分類(lèi)器,首先將一張圖片裁剪成幾個(gè)圖像塊,使用分類(lèi)網(wǎng)絡(luò)分成不同密度級(jí)別,然后讓不同密度等級(jí)的圖像塊通過(guò)相應(yīng)的子網(wǎng)絡(luò)得到人數(shù),最后由圖像塊人數(shù)之和得到圖片人數(shù).該結(jié)構(gòu)的訓(xùn)練方式采用先用所有的訓(xùn)練數(shù)據(jù)對(duì)三個(gè)分支進(jìn)行預(yù)訓(xùn)練,再利用分類(lèi)網(wǎng)絡(luò)完成密度級(jí)別劃分,最后根據(jù)分類(lèi)結(jié)果再次將訓(xùn)練圖片送到對(duì)應(yīng)的分支網(wǎng)絡(luò)完成子網(wǎng)絡(luò)的訓(xùn)練.Sindagi等人[18]通過(guò)三個(gè)網(wǎng)絡(luò)共同完成計(jì)數(shù)任務(wù):全局分類(lèi)網(wǎng)絡(luò),局部分類(lèi)網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò).和其他工作不同,除了特征提取網(wǎng)絡(luò),該設(shè)計(jì)還結(jié)合了圖片的全局和局部的密度信息來(lái)輔助解決圖片中人群分布不均的問(wèn)題.Li等人[8]指出多列網(wǎng)絡(luò)的冗余性,并摒棄了多列的網(wǎng)絡(luò)結(jié)構(gòu),使用簡(jiǎn)單的單列網(wǎng)絡(luò)結(jié)構(gòu),選取VGG16的前10層作為網(wǎng)絡(luò)第一部分,網(wǎng)絡(luò)的第二部分采用空洞卷積(Dilated Convolution)替代了普通卷積.空洞卷積通過(guò)填充卷積核擴(kuò)大了網(wǎng)絡(luò)的感受野(Receptive Field),因此網(wǎng)絡(luò)中不需要過(guò)多的池化層,從而得到了較高分辨率的密度圖.Cao等人[19]受到圖像識(shí)別領(lǐng)域的Incenption[20]網(wǎng)絡(luò)結(jié)構(gòu)啟發(fā),編碼器使用尺度聚合模塊(類(lèi)inception結(jié)構(gòu))提高網(wǎng)絡(luò)的表達(dá)能力,并且能提取多種尺度的特征,解碼器由卷積和轉(zhuǎn)置卷積組成,可以生成與輸入圖片相同分辨率的密度圖,在網(wǎng)絡(luò)的損失函數(shù)部分使用歐式距離損失函數(shù)和局部一致性(SSIM)損失函數(shù)的結(jié)合.利用預(yù)測(cè)密度圖和真實(shí)密度圖之間的結(jié)構(gòu)相似性(structural similarity index;SSIM)來(lái)構(gòu)成網(wǎng)絡(luò)的局部一致性損失.SSIM和人類(lèi)視覺(jué)系統(tǒng)(human visual system,HVS)類(lèi)似,考慮了人類(lèi)視覺(jué)感知,得到的結(jié)果比歐式距離損失函數(shù)得到的結(jié)果包含更多的細(xì)節(jié)信息.
相機(jī)視角引起的頭部尺度多變性和人群分布的多樣性是人群計(jì)數(shù)中存在的兩個(gè)主要挑戰(zhàn).針對(duì)這一問(wèn)題,本文設(shè)計(jì)了多通道融合分組卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)框架如圖1所示.我們?cè)诰W(wǎng)絡(luò)中加入大量的跨層連接,使得特征和梯度在不同層之間高效流通,從而達(dá)到特征復(fù)用的功效,通過(guò)融合不同層的特征得到豐富的多尺度特征.
圖1 多通道融合分組卷積神經(jīng)網(wǎng)絡(luò)框架Fig.1 Framework of mutil-channel fusion group convolution network
在密集場(chǎng)景下的人群圖片中單個(gè)目標(biāo)較小,選擇更深層的網(wǎng)絡(luò)可能丟失小目標(biāo)的信息,因此我們選擇VGG網(wǎng)絡(luò)前10層(如圖1中VB(VB:VGG Backbone))作為我們的基礎(chǔ)主干網(wǎng)絡(luò).
識(shí)別不同大小的目標(biāo)是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)挑戰(zhàn),同樣,人群圖片中也存在頭部尺寸多變、人群分布多樣等問(wèn)題.主流的卷積神經(jīng)網(wǎng)絡(luò)由卷積層或池化層順序連接而成,獲取網(wǎng)絡(luò)的高層特征來(lái)進(jìn)行下一步的處理,使用高層特征對(duì)于分類(lèi)或者檢測(cè)等問(wèn)題,可以得到較好的結(jié)果.但是,由于密集人群圖片中目標(biāo)個(gè)數(shù)眾多,每個(gè)目標(biāo)較小且尺度多變,淺層特征對(duì)于人群計(jì)數(shù)來(lái)說(shuō)也很重要.根據(jù)文獻(xiàn)[21]提出的DenseNet,網(wǎng)絡(luò)不同層的特征融合有助于學(xué)習(xí)到更多的信息.我們通過(guò)結(jié)合多種層次的特征來(lái)處理多尺度和小目標(biāo)問(wèn)題.基于這一原因,我們提出了多通道融合分組卷積模塊(如圖1中DGCM(DGCM:dense group convolution module)).為了增加網(wǎng)絡(luò)中層與層之間的信息流,將模塊中所有層兩兩相連,使得網(wǎng)絡(luò)中每一層都接受它前面所有層的輸入.跨層連接通過(guò)特征通道上的連接(concatenate)操作來(lái)實(shí)現(xiàn)特征復(fù)用.同時(shí)為了避免特征維度增加過(guò)快,在每一次特征連接之后,通過(guò)1×1的卷積將通道數(shù)恢復(fù)到原值.
在網(wǎng)絡(luò)的最后,我們通過(guò)生成模塊(如圖1中GM(GM:generating module))得到密度圖,生成模塊由兩層3×3卷積和一層1×1卷積組成.3×3卷積逐步減少特征圖的通道數(shù),最后,用通道數(shù)為1的1×1卷積作為輸出.所以網(wǎng)絡(luò)的輸出為一張長(zhǎng)寬各為原圖1/8的單通道密度圖.
結(jié)合多種層次特征圖的方式在解決多尺度問(wèn)題的同時(shí)也增加了網(wǎng)絡(luò)參數(shù).為了解決這一問(wèn)題,我們?cè)O(shè)計(jì)了分組卷積模塊,如圖2所示.在該模塊中,首先通過(guò)1×1卷積降維,然后用分組卷積替代了普通卷積,最后設(shè)計(jì)了一個(gè)跨層連接進(jìn)行特征融合,保持輸入輸出特征維度一致.與普通卷積操作相比,分組卷積參數(shù)更少(分組卷積細(xì)節(jié)見(jiàn)3.2節(jié)),而跨層連接可以獲得更加豐富的特征.
圖2 分組卷積模塊Fig.2 Group convolution module
根據(jù)文獻(xiàn)[22]的實(shí)驗(yàn)結(jié)果:網(wǎng)絡(luò)結(jié)構(gòu)中使用更多的小卷積核比使用更少的大卷積核要有效,且更加節(jié)省參數(shù).因此我們的網(wǎng)絡(luò)中卷積操作均選用3×3的卷積核.此外,我們?cè)诰W(wǎng)絡(luò)中多次使用1×1卷積,它是一個(gè)非常好的結(jié)構(gòu),可以跨通道組織信息,提高網(wǎng)絡(luò)的表達(dá)能力,完成特征通道升維或降維.
我們的網(wǎng)絡(luò)脫離了原有的加深變寬的思想,緩解網(wǎng)絡(luò)加深或變寬之后帶來(lái)的一系列問(wèn)題,從特征角度出發(fā),結(jié)合多層次的特征圖來(lái)處理多尺度的問(wèn)題.這樣的設(shè)置結(jié)合信息流和特征復(fù)用兩大優(yōu)勢(shì)既大幅的減少了網(wǎng)絡(luò)的參數(shù)量,又在一定程度上緩解了梯度消失的問(wèn)題.
分組卷積的思想最早出現(xiàn)在AlexNet[23]中.與普通的卷積網(wǎng)絡(luò)相比,相同的卷積操作分組卷積所需計(jì)算的參數(shù)更少,不容易過(guò)擬合.因此,我們?cè)诰W(wǎng)絡(luò)的多通道融合分組卷積模塊中引入分組卷積替代普通卷積.
分組卷積首先將輸入數(shù)據(jù)分組,然后對(duì)每組數(shù)據(jù)分別進(jìn)行卷積操作.假設(shè)輸入數(shù)據(jù)的尺寸是W×H×C1,輸出數(shù)據(jù)尺寸是W×H×C2,卷積核大小均為K×K.普通卷積與分組卷積的差異如圖3所示,圖3上方是普通卷積,下方是分組卷積(圖中組數(shù)為2).對(duì)于分組卷積,若設(shè)定分組數(shù)為g組,則每組的輸入數(shù)據(jù)尺寸為W×H×(C1/g),輸出數(shù)據(jù)尺寸為W×H×(C2/g),卷積核尺寸為K×K×(C1/g),個(gè)數(shù)為C2/g,每組卷積核只與同組的輸入數(shù)據(jù)卷積,而不與其他組的輸入數(shù)據(jù)卷積,最后所有組輸出共同組成輸出數(shù)據(jù).在一次卷積操作中,普通卷積的參數(shù)個(gè)數(shù)為:C1×C2×K×K,而分組卷積的參數(shù)個(gè)數(shù)為:(C1/g)×(C2/g)×K×K×g.普通卷積的參數(shù)是分組卷積的g倍.
圖3 普通卷積(上)與分組卷積(下)Fig.3 Normal convolution(top)and group convolution(bottom)
不同于傳統(tǒng)的基于檢測(cè)和回歸的方法,對(duì)于稠密的人群圖片,通過(guò)密度圖來(lái)計(jì)數(shù)可以獲得更準(zhǔn)確、全面的信息.在我們的方法中,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像的局部特征和其相應(yīng)的密度圖之間的映射,從而將圖像中包含的空間信息加入計(jì)數(shù)的過(guò)程中.
由于密度圖遵循逐像素預(yù)測(cè),因此輸出密度圖必須包含空間相關(guān)性,這樣才能在最近的像素之間呈現(xiàn)平滑的過(guò)渡.現(xiàn)有的數(shù)據(jù)集中僅提供了人頭位置坐標(biāo),我們需要根據(jù)人頭位置坐標(biāo)信息進(jìn)一步處理得到對(duì)應(yīng)密度圖.這里我們采用文獻(xiàn)[7]中提到的方法,使用高斯分布去替換人頭的位置.首先,我們用δ(z-zi)表示在像素點(diǎn)zi的人頭標(biāo)簽值,δ(z-zi)=1表示像素點(diǎn)zi處有一個(gè)人,δ(z-zi)=0則表示像素點(diǎn)zi處沒(méi)有人.則含有V個(gè)人頭標(biāo)簽的密度圖的計(jì)算方式如公式(1)所示:
(1)
我們用二維高斯分布函數(shù)去替換每一個(gè)人頭位置坐標(biāo),將密度圖轉(zhuǎn)化成一個(gè)連續(xù)密度圖,相對(duì)應(yīng)的標(biāo)簽密度圖D(z)計(jì)算方式如公式(2)所示:
(2)
V表示人群圖片中包含的人數(shù),zi表示圖片中第i個(gè)人頭標(biāo)簽的坐標(biāo),Gu,ρ2(z)表示均值為u,方差為ρ2的二維高斯函數(shù).
我們采用端到端的方式進(jìn)行網(wǎng)絡(luò)訓(xùn)練,由于網(wǎng)絡(luò)輸出的預(yù)測(cè)密度圖為原圖的1/8,我們將真實(shí)密度圖長(zhǎng)寬分別縮放為原圖的1/8,保持預(yù)測(cè)密度圖和真實(shí)密度圖分辨率大小一致.然后采用歐式距離來(lái)評(píng)估預(yù)測(cè)密度圖與真實(shí)密度圖之間的相似性.歐式距離損失函數(shù)定義如公式(3):
(3)
我們?cè)谌齻€(gè)公開(kāi)的數(shù)據(jù)集上驗(yàn)證我們的實(shí)驗(yàn)方法,下面簡(jiǎn)單介紹這三個(gè)數(shù)據(jù)集.
ShanghaiTech[7]:ShanghaiTech數(shù)據(jù)集由partA和partB組成,其中partA由482張網(wǎng)絡(luò)中隨機(jī)選擇的圖片組成,partB由不同時(shí)間段隨機(jī)拍攝于上海街道上的圖片組成.這兩部分又分別劃分成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,partA的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集分別有300和182張圖片,而partB的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集分別有400和316張圖片.
UCF_CC_50[12]:UCF_CC_50數(shù)據(jù)集為50張不同場(chǎng)景下各種密度以及視角失真的圖片,每一張圖片中包含的人數(shù)從94到4543不等.但由于數(shù)據(jù)集圖片數(shù)量較少,本文采用交叉驗(yàn)證協(xié)議[12]進(jìn)行訓(xùn)練和測(cè)試,其中數(shù)據(jù)集被均分成5組,并進(jìn)行5次交叉驗(yàn)證.
UCF-QNRF[13]:UCF-QNRF數(shù)據(jù)集拍攝于不同的野外真實(shí)場(chǎng)景,并擁有最多樣化的視角、密度和光照變化的場(chǎng)景下的密集人群圖片,克服了以往數(shù)據(jù)集中標(biāo)注不準(zhǔn)確,圖片像素低,數(shù)據(jù)集圖片少等缺點(diǎn).整個(gè)數(shù)據(jù)集包含1535張圖片與1251642個(gè)人頭位置注釋?zhuān)瑔螐垐D片人數(shù)從95到12865不等.通過(guò)圖片的標(biāo)注點(diǎn)進(jìn)行排序,每5張圖片中選擇一張作為測(cè)試圖片,生成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集由1201張圖片組成,測(cè)試數(shù)據(jù)集由334張圖片組成.
4.2.1 數(shù)據(jù)增強(qiáng)
由于人群圖片標(biāo)注困難,人群數(shù)據(jù)集圖片數(shù)量有限,為了更好的訓(xùn)練網(wǎng)絡(luò),我們采用兩種方式對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)操作.對(duì)于每一張訓(xùn)練圖片,我們以原圖1/4大小裁剪成9張,前四張選擇原圖不重復(fù)位置的1/4大小,后面五張以原圖1/4大小隨機(jī)裁剪,如圖4所示.然后,對(duì)圖片進(jìn)行隨機(jī)翻轉(zhuǎn),獲得更多的訓(xùn)練圖片.
圖4 裁剪示意圖Fig.4 Sample of cropping
4.2.2 實(shí)驗(yàn)設(shè)置
我們基于pytorch深度學(xué)習(xí)框架實(shí)現(xiàn)多通道融合分組卷積神經(jīng)網(wǎng)絡(luò),基于Imagenet[24]預(yù)訓(xùn)練的VGG16進(jìn)行網(wǎng)絡(luò)前10層的參數(shù)初始化,網(wǎng)絡(luò)的其他部分參數(shù)利用均值為0方差為0.01的高斯函數(shù)隨機(jī)初始化.網(wǎng)絡(luò)訓(xùn)練時(shí)使用動(dòng)量為0.9的隨機(jī)梯度下降(Stochastic gradient descent,SGD)作為我們模型的優(yōu)化器,學(xué)習(xí)速率設(shè)置為1e-7,隨迭代次數(shù)自適用調(diào)整.UCF-QNRF數(shù)據(jù)集中的圖片平均分辨率為2013×2902,為了方便訓(xùn)練,我們將UCF-QNRF數(shù)據(jù)集中所有圖片裁剪成尺寸為1024×1024.我們以訓(xùn)練數(shù)據(jù)集的絕對(duì)誤差作為衡量模型收斂的標(biāo)準(zhǔn),當(dāng)訓(xùn)練數(shù)據(jù)集的絕對(duì)誤差不再下降時(shí)停止訓(xùn)練.
4.2.3 評(píng)價(jià)指標(biāo)
模型的性能通過(guò)預(yù)測(cè)人數(shù)與真實(shí)標(biāo)注人數(shù)的絕對(duì)誤差(Mean Absolute Error,MAE)和均方誤差(Mean Square Error,MSE)來(lái)衡量,其值越小越表示模型誤差越小,即性能越好.MAE,MSE計(jì)算公式如式(4)、式(5):
(4)
(5)
(6)
為了驗(yàn)證多通道融合分組卷積神經(jīng)網(wǎng)絡(luò)的有效性,我們?cè)赟hanghaiTech數(shù)據(jù)集上做了4組實(shí)驗(yàn).
通過(guò)控制網(wǎng)絡(luò)的深度,我們分別進(jìn)行了兩組實(shí)驗(yàn),對(duì)比深度為13(實(shí)驗(yàn)1)和10(實(shí)驗(yàn)2)的兩種網(wǎng)絡(luò),并在其后接入生成模塊,通過(guò)對(duì)比MSE和MAE兩個(gè)指標(biāo),選擇較好的主干網(wǎng)絡(luò)結(jié)構(gòu).
為了驗(yàn)證提出的多通道融合分組卷積模塊的有效性,我們?cè)O(shè)計(jì)了另外兩組不同設(shè)置的實(shí)驗(yàn):
實(shí)驗(yàn)3使用VGG16的前10層作為基礎(chǔ)主干網(wǎng)絡(luò),后接密集卷積模塊(卷積層是正常卷積),最后接生成模塊.
實(shí)驗(yàn)4使用VGG16的前10層作為基礎(chǔ)主干網(wǎng)絡(luò),后接多通道融合分組卷積模塊模塊(卷積層是使用分組卷積模塊替代正常卷積),最后接生成模塊.
實(shí)驗(yàn)1-實(shí)驗(yàn)4的對(duì)比實(shí)驗(yàn)結(jié)果如表1所示,實(shí)驗(yàn)2的MAE和MSE的值均比實(shí)驗(yàn)1的低,表明深度為10的網(wǎng)絡(luò)比深度為13的網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)的效果好,因此我們實(shí)驗(yàn)選擇深度為10的網(wǎng)絡(luò)作為我們的主干網(wǎng)絡(luò).由于高密度的人群圖片中,每個(gè)目標(biāo)人頭占據(jù)很小的分辨率,而相比VGG10,VGG13網(wǎng)絡(luò)更深,反而會(huì)丟失圖片中的小目標(biāo),不利于人群圖片中的人頭特征提取,所以VGG10作為主干網(wǎng)絡(luò)更有利于人群圖片的特征提取.實(shí)驗(yàn)3的結(jié)果優(yōu)于實(shí)驗(yàn)2,證明我們?cè)O(shè)計(jì)的密集卷積模塊是有效的.實(shí)驗(yàn)4的結(jié)果優(yōu)于實(shí)驗(yàn)3,證明選擇分組卷積模塊替代正常卷積在我們的網(wǎng)絡(luò)中減少網(wǎng)絡(luò)參數(shù)的同時(shí),不影響網(wǎng)絡(luò)的計(jì)數(shù)誤差,并進(jìn)一步減少誤差.
為了驗(yàn)證本文方法的有效性,我們?cè)谌齻€(gè)常用的數(shù)據(jù)集(4.1節(jié)中介紹)上進(jìn)行實(shí)驗(yàn),并與一些當(dāng)前領(lǐng)先的結(jié)果[6-8,11,17,18]作比較.
表1 在ShanghaiTech數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)結(jié)果Table 1 Results of ablation experiments on ShanghaiTech
ShanghaiTech[7]:在ShanghaiTech的實(shí)驗(yàn)結(jié)果如表2所示.在 partA數(shù)據(jù)集上,本文所提方法的比其他方法中最優(yōu)的結(jié)果相比,MAE降低5.5%(兩種算法的相對(duì)誤差),MSE降低8.2%.在partB數(shù)據(jù)集上,本文的結(jié)果與當(dāng)前最優(yōu)結(jié)果不相上下.
表2 ShanghaiTech上實(shí)驗(yàn)結(jié)果Table 2 Results of ShanghaiTech
UCF_CC_50[12]:在UCF_CC_50上的實(shí)驗(yàn)結(jié)果如表3所示.本文方法的結(jié)果與其他方法中最優(yōu)的結(jié)果相比,MAE降低22.2%,MSE降低19.7%.
表3 UCF_CC_50上實(shí)驗(yàn)結(jié)果Table 3 Results of UCF_CC_50
UCF-QNRF[13]:在UCF-QNRF上的實(shí)驗(yàn)結(jié)果如表4所示.本文方法的結(jié)果與其他方法中最優(yōu)的結(jié)果相比,本文方法的MAE降低20.5%,MSE降低10.7%.
表4 UCF-QNRF上實(shí)驗(yàn)結(jié)果Table 4 Results UCF-QNRF
與原始標(biāo)簽相比,密度圖更加直觀更有利于視覺(jué)上的對(duì)比,圖5展示了本文算法和對(duì)比算法CSRnet[8]在一些測(cè)試圖片上生成的密度圖.從左到右,分別是測(cè)試圖片、真實(shí)密度圖、CSRnet算法生成的預(yù)測(cè)密度圖、本文算法生成的預(yù)測(cè)密度圖;從上到下,測(cè)試圖片分別取自ShanghaiTech partA、ShanghaiTech partB、UCF_CC_50和UCF-QNRF.
圖5 一些測(cè)試圖片及其密度圖實(shí)例Fig.5 Some samples of testing images and their density maps
人群計(jì)數(shù)在災(zāi)害控制、空間規(guī)劃等方面有著廣泛的應(yīng)用.由于相機(jī)視角引起的頭部尺度變化大和人群分布多樣等問(wèn)題,精確完成圖片人群計(jì)數(shù)任務(wù)仍然存在很大的挑戰(zhàn).本文提出的多通道融合分組卷積神經(jīng)網(wǎng)絡(luò)建立不同層之間的連接,通過(guò)通道上的密集連接來(lái)融合不同層的特征,特征和梯度通過(guò)密集連接的形式來(lái)實(shí)現(xiàn)更加有效的傳遞,從而使得網(wǎng)絡(luò)訓(xùn)練更加簡(jiǎn)單,此外,跨層連接可以避免網(wǎng)絡(luò)過(guò)深帶來(lái)梯度消失問(wèn)題.同時(shí)在網(wǎng)絡(luò)中引入分組卷積模塊,減少參數(shù)的同時(shí)充分利用特征信息.在三個(gè)公開(kāi)的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,本文方法的絕對(duì)誤差和均方誤差比其他方法有所下降,驗(yàn)證了本文方法的有效性.
在實(shí)驗(yàn)中,我們還發(fā)現(xiàn),通過(guò)密度圖獲得的位置信息并不十分精確,這在一定程度上將影響到人群計(jì)數(shù)的精確性.在接下來(lái)的工作中,我們將研究如何在計(jì)數(shù)的同時(shí)得到精確的位置信息,以進(jìn)一步提升人群計(jì)數(shù)正確率.