徐 濤 段儀濃 杜佳浩 劉才華
(中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300300)
(中國(guó)民航大學(xué)中國(guó)民航信息技術(shù)科研基地 天津 300300)
人群計(jì)數(shù)旨在計(jì)算圖像或視頻場(chǎng)景中所包含的人數(shù),是計(jì)算機(jī)視覺和智能監(jiān)控領(lǐng)域的重要研究?jī)?nèi)容。隨著城市人口的急劇增長(zhǎng),廣場(chǎng)、火車站、機(jī)場(chǎng)航站樓等公共場(chǎng)所時(shí)常出現(xiàn)人群高度聚集的現(xiàn)象,存在著巨大的安全隱患。因此,準(zhǔn)確預(yù)測(cè)場(chǎng)景中的人數(shù)可以有效地進(jìn)行人流管控[1]和安防部署,對(duì)于社會(huì)公共安全具有重要的意義。此外,人群計(jì)數(shù)方法也可應(yīng)用于細(xì)胞計(jì)數(shù)[2]、車輛計(jì)數(shù)[3]和動(dòng)物遷徙觀察[4]等領(lǐng)域,具有廣泛的應(yīng)用價(jià)值。由于人群規(guī)模和尺度在不同場(chǎng)景中存在著巨大的變化,因此人群計(jì)數(shù)仍是一項(xiàng)極具挑戰(zhàn)性的研究。
早期人群計(jì)數(shù)研究方法大致可分為基于檢測(cè)和基于回歸兩類?;跈z測(cè)的方法采用目標(biāo)檢測(cè)器[5,6]對(duì)圖像中的行人進(jìn)行逐一檢測(cè),統(tǒng)計(jì)檢測(cè)結(jié)果以獲取最終人數(shù)。這類方法在稀疏的人群場(chǎng)景下效果良好,但是在包含遮擋現(xiàn)象的擁擠場(chǎng)景中難以發(fā)揮作用?;诨貧w的方法則通過學(xué)習(xí)圖像特征與相應(yīng)人數(shù)之間的映射關(guān)系來實(shí)現(xiàn)。此類方法首先提取圖像的低級(jí)特征(例如前景特征、邊緣特征和紋理特征等),之后利用不同的回歸分析技術(shù)來建模特征到人數(shù)的映射關(guān)系?;诨貧w的方法避免直接通過目標(biāo)檢測(cè)進(jìn)行計(jì)數(shù),相對(duì)緩解了遮擋現(xiàn)象造成的影響。但是,這類方法的性能在很大程度上受限于低級(jí)特征提取的效果,難以在高度擁擠的人群場(chǎng)景較好地發(fā)揮作用,因此存在著一定的缺陷。
近年來,隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的方法被廣泛應(yīng)用于人群計(jì)數(shù)研究。區(qū)別于直接預(yù)測(cè)人數(shù),此類方法大多通過卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)一種人群密度圖像,該圖像的像素值反映原圖中此位置的人群密度,對(duì)密度圖像進(jìn)行像素值累加即可獲得原圖對(duì)應(yīng)的人數(shù)。Zhang等人[7]提出一種跨場(chǎng)景計(jì)數(shù)模型,由兩個(gè)相關(guān)的學(xué)習(xí)目標(biāo)(人群密度和人群數(shù)量)交替訓(xùn)練,并使用相似于目標(biāo)場(chǎng)景的樣本進(jìn)行模型微調(diào)。該模型在訓(xùn)練和測(cè)試時(shí)還需用到一種人工制作的透視圖像,因此在實(shí)際場(chǎng)景中可用性不高。為了解決多尺度問題,Zhang等人[8]提出多列卷積神經(jīng)網(wǎng)絡(luò)(Multi-column Convolutional Neural Network, MCNN)模型,構(gòu)建具有不同卷積核大小的3分支網(wǎng)絡(luò)以并行提取多尺度特征。但是,該模型僅能在幾種特定尺度的場(chǎng)景下發(fā)揮作用,且各分支易學(xué)到相同模式的特征,造成參數(shù)冗余。受MCNN啟發(fā),Sam等人[9]提出Switch-CNN,利用所設(shè)計(jì)的分類網(wǎng)絡(luò)將人群圖像按照不同的密度分類,并根據(jù)密度等級(jí)為圖像選擇特定的回歸網(wǎng)絡(luò)。然而,該模型的表現(xiàn)很大程度上受限于分類網(wǎng)絡(luò)的性能。Shen等人[10]提出對(duì)抗跨尺度一致性追求網(wǎng)絡(luò)(Adversarial Cross-Scale Consistency Pursuit,ACSCP),通過損失函數(shù)來約束局部圖像塊計(jì)數(shù)之和與整體圖像計(jì)數(shù)相等,以此來模型增強(qiáng)跨尺度的一致性。此外,研究人員也嘗試?yán)貌煌愋偷木矸e來提升模型性能。Li等人[11]提出擁擠場(chǎng)景識(shí)別網(wǎng)絡(luò)(Congested Scene Recognition Network, CSRNet),利用擴(kuò)張卷積在避免過度下采樣的前提下增加網(wǎng)絡(luò)的感知范圍,從而更好地聚合多尺度信息。Cao等人[12]提出尺度聚合網(wǎng)絡(luò)(Scale Aggregation Network, SANet),利用反卷積來恢復(fù)下采樣后圖像的分辨率,從而生成高質(zhì)量的密度圖像。
目前,基于CNN的方法主要存在兩個(gè)問題:(1)圖像中的人群尺度呈現(xiàn)出區(qū)域性相似的特點(diǎn),而人群計(jì)數(shù)研究普遍使用的是像素級(jí)歐幾里得損失,其假設(shè)圖像像素相互獨(dú)立,難以捕捉人群尺度的局部相關(guān)性,因此影響了模型計(jì)數(shù)的準(zhǔn)確性。(2)人群尺度在圖像內(nèi)與圖像間都存在巨大的變化,而目前多數(shù)方法對(duì)于這種連續(xù)變化的多尺度信息處理能力有限,難以覆蓋各種不同的尺度,因此所提取的特征無法準(zhǔn)確描述人群信息,導(dǎo)致模型性能不佳。
針對(duì)以上問題,本文提出一種基于多尺度增強(qiáng)網(wǎng)絡(luò)的人群計(jì)數(shù)模型(Multi-Scale Enhanced Network, MSEN)。首先,基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)的思想設(shè)計(jì)了嵌入式GAN模塊,其中生成網(wǎng)絡(luò)由視覺幾何組(Visual Geometry Group-16, VGG-16)[13]模型部分結(jié)構(gòu)與多分支擴(kuò)張卷積結(jié)構(gòu)組合而成;引入塊對(duì)抗生成網(wǎng)絡(luò)(Patch-Generative Adversarial Networks, PatchGAN)[14]作為判別網(wǎng)絡(luò),利用其區(qū)域性判別機(jī)制引導(dǎo)生成網(wǎng)絡(luò),提升其所產(chǎn)生圖像的局部相關(guān)性。其次,基于金字塔池化結(jié)構(gòu)[15]設(shè)計(jì)了尺度增強(qiáng)模塊,將該模塊作用在嵌入式GAN模塊所生成的圖像上,進(jìn)一步從不同區(qū)域提取不同尺度的局部特征,并生成最終的人群密度分布圖像。所設(shè)計(jì)的GAN模塊嵌入在整體模型中,其中的判別網(wǎng)絡(luò)僅監(jiān)督中間結(jié)果的生成模型,不參與最終人群密度分布圖像的生成過程。在3個(gè)廣泛使用的人群計(jì)數(shù)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明所述模型的性能優(yōu)于其他對(duì)比方法。
本文提出了基于多尺度增強(qiáng)網(wǎng)絡(luò)的人群計(jì)數(shù)模型(MSEN),該模型可視為一種嵌入式的GAN結(jié)構(gòu),其中嵌入式GAN模塊學(xué)習(xí)人群特征并優(yōu)化圖像的局部相關(guān)性,尺度增強(qiáng)模塊進(jìn)一步提取局部多尺度特征并生成最終的人群密度圖像。MSEN模型結(jié)構(gòu)如圖1所示,其包含3個(gè)部分:生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)以及尺度增強(qiáng)模塊。生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)嵌入在整體模型中,構(gòu)成嵌入式GAN模塊。其中,生成網(wǎng)絡(luò)由VGG-16模型部分結(jié)構(gòu)與多分支擴(kuò)張卷積結(jié)構(gòu)組合而成學(xué)習(xí)人群不同尺度下的特征,判別網(wǎng)絡(luò)僅監(jiān)督中間結(jié)果的生成。此外,模型采用了跳躍連接設(shè)置,以保留輸入圖像的結(jié)構(gòu)和上下文信息。
圖1 MSEN模型結(jié)構(gòu)示意圖
受文獻(xiàn)[11]啟發(fā),本文基于VGG-16模型構(gòu)建生成網(wǎng)絡(luò)的前端,該模型具有強(qiáng)大的特征提取能力與遷移學(xué)習(xí)能力,有利于復(fù)雜人群特征的提取。由于原VGG-16模型包含13個(gè)卷積層和5個(gè)池化層,因此其網(wǎng)絡(luò)深層的特征圖尺寸非常小,不利于小尺度目標(biāo)的建模。為了避免過度采樣造成的小尺度目標(biāo)信息丟失問題,本文首先刪除了原VGG-16模型的全連接層,之后利用其前10個(gè)卷積層和3個(gè)池化層來構(gòu)建生成網(wǎng)絡(luò)前端。為了聚合更豐富的多尺度信息,本文設(shè)計(jì)了多分支結(jié)構(gòu)以構(gòu)建生成網(wǎng)絡(luò)的后端。多分支結(jié)構(gòu)基于擴(kuò)張卷積所設(shè)計(jì),可在不增加參數(shù)量的前提下擴(kuò)大網(wǎng)絡(luò)的感知范圍,有利于應(yīng)對(duì)圖像間人群規(guī)模和尺度的變化。后端網(wǎng)絡(luò)由3個(gè)分支組成,每個(gè)分支包含具有不同擴(kuò)張因子的擴(kuò)張卷積,擴(kuò)張因子依次為1, 2, 4。擴(kuò)張因子為1的分支用于捕獲小尺度目標(biāo)的特征,其余分支則擴(kuò)大感知范圍以捕獲大尺度目標(biāo)的特征。如第1節(jié)所述,彼此獨(dú)立的分支難以學(xué)習(xí)到不同模式的特征,易導(dǎo)致參數(shù)冗余。因此,本文將各分支網(wǎng)絡(luò)的特征圖在每層進(jìn)行拼接,并使用1×1卷積進(jìn)行跨通道特征聚合,加強(qiáng)各分支間的信息交互,從而充分利用各分支提取特征的互補(bǔ)性,使輸出的特征圖更具表達(dá)能力和尺度多樣性。生成網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖2所示,圖2中方框內(nèi)的參數(shù)表示為“卷積層-卷積核大小-通道數(shù)量-擴(kuò)張因子”。
區(qū)域性判別網(wǎng)絡(luò)最早應(yīng)用于圖像轉(zhuǎn)換任務(wù),受其啟發(fā),本文采用PatchGAN[14]來構(gòu)建嵌入式GAN模塊中的判別網(wǎng)絡(luò),其具體結(jié)構(gòu)表示如下:
C(4, 64, 2)-C(4, 128, 2)-C(4, 256, 2)-C(4, 512, 1)-C(4, 1, 1),其中C表示卷積層,括號(hào)內(nèi)的參數(shù)依次為卷積核大小、通道數(shù)量以及卷積步長(zhǎng)。除最后一層外,每個(gè)卷積層之后添加了批量標(biāo)準(zhǔn)化層(Batch Normalization, BN)與LeakyReLU激活函數(shù)。區(qū)別于常規(guī)判別網(wǎng)絡(luò),本文所采用的網(wǎng)絡(luò)為全卷積網(wǎng)絡(luò),其輸出為一個(gè)N×N矩陣,而非標(biāo)量值。矩陣中的每一個(gè)元素映射于原圖的一個(gè)局部圖像塊,反映該圖像塊的真實(shí)性。針對(duì)此矩陣計(jì)算誤差,可使網(wǎng)絡(luò)更加關(guān)注于圖像的局部區(qū)域,有利于引導(dǎo)生成網(wǎng)絡(luò)得到局部相關(guān)性更高的人群密度圖像。
圖2 生成網(wǎng)絡(luò)結(jié)構(gòu)示意圖
上文所述的嵌入式GAN模塊學(xué)習(xí)人群特征并優(yōu)化了密度圖像的局部相關(guān)性。在此基礎(chǔ)上,本文設(shè)計(jì)了尺度增強(qiáng)模塊,以進(jìn)一步從不同區(qū)域提取不同尺度的局部特征,從而增強(qiáng)模型的泛化能力。
尺度增強(qiáng)模塊由兩個(gè)具有相同結(jié)構(gòu)的子模塊串聯(lián)構(gòu)成,子模塊則基于金字塔池化結(jié)構(gòu)所設(shè)計(jì)。如圖3所示,對(duì)于上一層網(wǎng)絡(luò)的輸入,子模塊首先通過兩個(gè)大小為3×3的前端卷積層進(jìn)行特征提取,之后將前端卷積層的輸出按4個(gè)級(jí)別進(jìn)行平均池化。由于人群圖像中的場(chǎng)景為包含眾多目標(biāo)的復(fù)雜場(chǎng)景,且人群規(guī)模和尺度呈現(xiàn)連續(xù)變化的特點(diǎn),而傳統(tǒng)金字塔池化結(jié)構(gòu)中的全局平均池化不足以反映不同目標(biāo)各自的尺度特征,因此本文將4個(gè)級(jí)別的池化尺寸依次設(shè)置為2×2, 3×3, 6×6, 8×8。上述操作將特征圖按比例劃分為多個(gè)大小不同的子區(qū)域,并對(duì)每個(gè)子區(qū)域進(jìn)行平均池化,由此來反映每個(gè)子區(qū)域的局部特征。之后,將各自比例的池化結(jié)果通過大小為1×1的卷積層進(jìn)行降維,并使用雙線性插值操作上采樣到原始特征圖的尺寸,隨后與原始特征圖拼接。最后,本文使用一個(gè)大小為3×3的后端卷積層對(duì)拼接后的特征圖進(jìn)行跨通道聚合,從而產(chǎn)生子模塊的最終輸出。
圖3 尺度增強(qiáng)子模塊結(jié)構(gòu)示意圖
本文將原始圖像經(jīng)跳躍連接后輸入第1個(gè)子模塊,將第1個(gè)子模塊的輸出與嵌入式GAN模塊的輸出拼接后輸入第2個(gè)子模塊。通過上述操作,尺度增強(qiáng)模塊可進(jìn)一步從不同區(qū)域提取不同尺度的局部特征,以應(yīng)對(duì)圖像內(nèi)人群尺度連續(xù)變化的特點(diǎn),實(shí)現(xiàn)整體模型泛化能力的增強(qiáng)。
人群計(jì)數(shù)研究普遍使用的歐幾里得損失假設(shè)像素相互獨(dú)立,忽略了圖像的局部相關(guān)性。因此本文使用3項(xiàng)損失函數(shù)聯(lián)合優(yōu)化所述模型,分別為L(zhǎng)1損失、對(duì)抗性損失與歐幾里得損失。L1損失與對(duì)抗性損失約束嵌入式GAN模塊產(chǎn)生的初步預(yù)測(cè)圖像并優(yōu)化其局部相關(guān)性,得出歐幾里得損失約束模型的最終預(yù)測(cè)圖像。L1損失定義如式(1)
其中,n為訓(xùn)練樣本的數(shù)量,xi為輸入圖像,yi為對(duì)應(yīng)的標(biāo)簽圖像,G為生成網(wǎng)絡(luò),G(xi)為生成網(wǎng)絡(luò)根據(jù)輸入圖像產(chǎn)生的模型中間預(yù)測(cè)結(jié)果。對(duì)抗性損失定義如式(2)
其中,x為輸入圖像,y為對(duì)應(yīng)的標(biāo)簽圖像,G為生成網(wǎng)絡(luò),D為判別網(wǎng)絡(luò),G(x)為生成網(wǎng)絡(luò)根據(jù)輸入圖像產(chǎn)生的模型中間預(yù)測(cè)結(jié)果。歐幾里得損失定義如式(3)
其中,n為訓(xùn)練樣本的數(shù)量,mi為模型最終預(yù)測(cè)的密度圖像,yi為對(duì)應(yīng)的標(biāo)簽圖像。3項(xiàng)損失函數(shù)經(jīng)加權(quán)組合形成模型最終的目標(biāo)函數(shù),定義如式(4)
其中,α與β為平衡3項(xiàng)損失的權(quán)重,二者的取值依據(jù)將于后續(xù)對(duì)比實(shí)驗(yàn)部分說明。
由于本文設(shè)計(jì)的多尺度增強(qiáng)網(wǎng)絡(luò)為一種嵌入式的GAN結(jié)構(gòu),因此整體模型無法遵循傳統(tǒng)GAN模型的訓(xùn)練步驟。受文獻(xiàn)[14]啟發(fā),本文采用一種新的交替訓(xùn)練步驟來優(yōu)化所述模型,在該訓(xùn)練步驟中,生成網(wǎng)絡(luò)將進(jìn)行兩次參數(shù)更新,具體步驟如下:
步驟 1 加載訓(xùn)練數(shù)據(jù)集,進(jìn)行數(shù)據(jù)預(yù)處理;
步驟 2 初始化模型訓(xùn)練參數(shù),輸入訓(xùn)練數(shù)據(jù);
步驟 3 提升式(2)的梯度,以更新判別網(wǎng)絡(luò)的參數(shù);
步驟 4 降低式(1)與式(2)之和的梯度,以更新生成網(wǎng)絡(luò)的參數(shù);
步驟 5 降低式(3)的梯度,以分別更新生成網(wǎng)絡(luò)與尺度增強(qiáng)模塊的參數(shù);
步驟 6 重復(fù)步驟3~5,直至訓(xùn)練結(jié)束。
為了驗(yàn)證所述模型的有效性,本文采用人群計(jì)數(shù)研究常用的3個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別為ShanghaiTech[8], UCF_CC_50[16], UCF-QNRF[17]。ShanghaiTech數(shù)據(jù)集包含1198張人群圖像,其中共標(biāo)注了330165個(gè)目標(biāo)行人。該數(shù)據(jù)集分為Part_A和Part_B兩個(gè)部分。Part_A部分共包含482張搜集于互聯(lián)網(wǎng)的人群圖像,具體分為300張訓(xùn)練圖像和182張測(cè)試圖像。Part_B部分共包含716張拍攝于上海某步行街的人群圖像,具體分為400張訓(xùn)練圖像和316張測(cè)試圖像,相對(duì)而言,Part_B部分圖像場(chǎng)景中的人群較為稀疏。UCF_CC_50數(shù)據(jù)集共包含50張搜集于互聯(lián)網(wǎng)的人群圖像,其中共標(biāo)注了63075個(gè)目標(biāo)行人。其中圖像包含人數(shù)平均為1280人,單張圖像包含人數(shù)94~4543不等。該數(shù)據(jù)集所含數(shù)據(jù)量較少,因此本文遵循文獻(xiàn)[15]所提出的5折交叉驗(yàn)證方法來進(jìn)行實(shí)驗(yàn)。UCF-QNRF數(shù)據(jù)集共包含1535張人群圖像,其中共標(biāo)注了1.25×106個(gè)目標(biāo)行人。該數(shù)據(jù)集具體分為1201張訓(xùn)練圖像和334張測(cè)試圖像,單幅圖像包含人數(shù)49~12865不等。上述3個(gè)數(shù)據(jù)集的基本信息如表1所示。
本文采用人群計(jì)數(shù)研究普遍使用的兩個(gè)評(píng)價(jià)指標(biāo)來評(píng)估模型的性能,分別為平均絕對(duì)誤差(Mean Absolute Error, MAE)和均方誤差(Mean Square Error, MSE)。MAE反映模型預(yù)測(cè)準(zhǔn)確性,MSE反映模型預(yù)測(cè)魯棒性,二者數(shù)值越低,表明模型性能越好。
本文所采用的實(shí)驗(yàn)環(huán)境為:Intel Xeon(R)Sliver 4110 2.10 GHz CPU, Quadro P5000 GP(16G顯存)。使用的操作系統(tǒng)為Ubuntu 16.04,采用的深度學(xué)習(xí)框架為Pytorch框架。本文采用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的VGG-16模型參數(shù)來初始化生成網(wǎng)絡(luò)的前端,其余各網(wǎng)絡(luò)的參數(shù)使用均值為0,標(biāo)準(zhǔn)差為0.01的高斯分布隨機(jī)初始化。模型通過Adam算法進(jìn)行優(yōu)化,學(xué)習(xí)率固定為0.0000001,總迭代次數(shù)為30000次。
對(duì)于ShanghaiTech Part_A, UCF_CC_50和UCF-QNRF數(shù)據(jù)集,本文采用幾何自適應(yīng)高斯核為其制作標(biāo)簽密度圖像;而對(duì)于ShanghaiTech Part_B數(shù)據(jù)集,因其圖像中的人群較為稀疏,本文采用固定高斯核為其制作標(biāo)簽密度圖像。此外,對(duì)于ShanghaiTech與UCF_CC_50數(shù)據(jù)集,本文以原始圖像尺寸進(jìn)行訓(xùn)練,設(shè)置批處理大小為1,并通過隨機(jī)水平翻轉(zhuǎn)來進(jìn)行數(shù)據(jù)增強(qiáng)。由于UCFQNRF數(shù)據(jù)集中均為高分辨率圖像(例如9000×6000),本文遵循文獻(xiàn)[18]提出的訓(xùn)練方法,將原始圖像裁剪為16張不重疊的且尺寸為224×224的子圖像,并設(shè)置批處理大小為16進(jìn)行訓(xùn)練。
表1 數(shù)據(jù)集基本信息對(duì)比
ShanghaiTech數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表2所示,本文將所述模型與7種近年人群計(jì)數(shù)研究的主流方法進(jìn)行了比較。對(duì)于Part_A部分,所述模型獲得了最低的MAE值,相比方法TEDnet降低了1.1%,所述模型的MSE值也接近于該指標(biāo)表現(xiàn)最好的方法ACSCP。對(duì)于Part_B部分,所述模型分別獲得了最低的MAE值與MSE值,其中MAE指標(biāo)與方法TEDnet持平,MSE指標(biāo)相比TEDnet降低了3.9%。在ShanghaiTech數(shù)據(jù)集兩個(gè)部分的實(shí)驗(yàn)結(jié)果表明,所述模型在擁擠和稀疏的人群場(chǎng)景中均可表現(xiàn)出良好的性能。
UCF_CC_50數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表3所示,本文同樣將所述模型與7種近年來人群計(jì)數(shù)研究的主流方法進(jìn)行了比較。所述模型在MAE指標(biāo)與MSE指標(biāo)上均獲得了最低值,其中MAE指標(biāo)相比方法TEDnet降低了9.1%,MSE指標(biāo)降低了12.4%。該數(shù)據(jù)集所含樣本數(shù)量較小,僅為50張圖像。實(shí)驗(yàn)結(jié)果表明,所述模型對(duì)于小樣本數(shù)據(jù)也可表現(xiàn)出良好的適應(yīng)性。
表2 ShanghaiTech數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表3 UCF_CC_50數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
UCF-QNRF數(shù)據(jù)集是2018年公布的最新數(shù)據(jù)集之一,目前使用該數(shù)據(jù)集進(jìn)行評(píng)估的方法相對(duì)較少,本文將所述模型與4種主流方法進(jìn)行了比較,結(jié)果如表4所示。所述模型獲得了具有競(jìng)爭(zhēng)力的MAE值,同時(shí)獲得了最低的MSE值。相比方法TEDnet,所述模型的MAE指標(biāo)降低了15.2%,MSE指標(biāo)也與之接近。該數(shù)據(jù)集具有樣本數(shù)量多,場(chǎng)景復(fù)雜等特點(diǎn),在此情況下所述模型的預(yù)測(cè)準(zhǔn)確性有待提高。同時(shí),所述模型的預(yù)測(cè)魯棒性較好,表明其具有良好的泛化能力。
為了進(jìn)一步驗(yàn)證所述模型各部分結(jié)構(gòu)的有效性,本文基于ShanghaiTech Part_A數(shù)據(jù)集設(shè)計(jì)了模型結(jié)構(gòu)對(duì)比實(shí)驗(yàn),具體關(guān)注模型結(jié)構(gòu)的3個(gè)因素:是否采用嵌入式GAN結(jié)構(gòu)、尺度增強(qiáng)子模塊的數(shù)量、是否采用跳躍連接設(shè)置。為了平衡模型性能與資源開銷,將尺度增強(qiáng)子模塊的最大數(shù)量限制為2。具體而言,本文基于排列組合原理構(gòu)造了10種不同結(jié)構(gòu)的模型,并將各模型的具體描述與對(duì)應(yīng)結(jié)果展示于表5,其中尺度增強(qiáng)子模塊記作E,跳躍連接記作S:
表4 UCF-QNRF數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表5 不同結(jié)構(gòu)的模型及其對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果
(1) 僅包含生成網(wǎng)絡(luò),記作G。
(2) 在模型(1)的基礎(chǔ)上增加了判別網(wǎng)絡(luò),構(gòu)成生成對(duì)抗網(wǎng)絡(luò),記作GAN。
(3~6) 模型結(jié)構(gòu)均為非嵌入式GAN結(jié)構(gòu)(分別對(duì)應(yīng)于(7~10)的嵌入式GAN結(jié)構(gòu)),記作GAN*。在此類模型中,本文將原生成網(wǎng)絡(luò)與尺度增強(qiáng)模塊組合,將組合后的整體結(jié)構(gòu)作為獨(dú)立生成網(wǎng)絡(luò),并使用判別網(wǎng)絡(luò)直接監(jiān)督模型的最終輸出。
(7) 嵌入式GAN結(jié)構(gòu),之后連接1個(gè)尺度增強(qiáng)子模塊。
(8) 在模型(7)的基礎(chǔ)上增加了跳躍連接設(shè)置。
(9) 嵌入式GAN結(jié)構(gòu),之后連接2個(gè)尺度增強(qiáng)子模塊。
(10)在模型(9)的基礎(chǔ)上增加了跳躍連接設(shè)置,即為本文所提多尺度增強(qiáng)網(wǎng)絡(luò)模型(MSEN)。
由表5可知,模型(2)的性能優(yōu)于模型(1),表明引入?yún)^(qū)域性判別網(wǎng)絡(luò)可優(yōu)化圖像局部相關(guān)性并提升模型計(jì)數(shù)準(zhǔn)確性;模型(4), (8)的性能分別優(yōu)于模型(3), (7),表明采用跳躍連接設(shè)置有助于重建輸入圖像的結(jié)構(gòu)和全局上下文信息;模型(9)的性能優(yōu)于模型(7),表明采用兩個(gè)尺度增強(qiáng)子模塊更有利于據(jù)合圖像各區(qū)域的多尺度局部特征;在具有相同配置的前提下,采用嵌入式GAN結(jié)構(gòu)的模型的性能均優(yōu)于對(duì)應(yīng)的非嵌入式GAN結(jié)構(gòu)模型,且模型(5), (6)在所有模型中性能最差,原因或?yàn)樵删W(wǎng)絡(luò)與尺度增強(qiáng)模塊組合構(gòu)成的獨(dú)立生成網(wǎng)絡(luò)的結(jié)構(gòu)較為復(fù)雜,參數(shù)量過大,導(dǎo)致整體模型在訓(xùn)練時(shí)難以收斂,由此也證明了采用嵌入式GAN結(jié)構(gòu)的有效性。
此外,為了進(jìn)一步證明在嵌入式GAN模塊之后連接尺度增強(qiáng)模塊的有效性,本文將模型(2)與模型(10)預(yù)測(cè)圖像的結(jié)果對(duì)比展示于圖4,二者的結(jié)構(gòu)分別為GAN結(jié)構(gòu)與本文所述的MSEN結(jié)構(gòu),區(qū)別為模型是否包含尺度增強(qiáng)模塊。可以看出,由模型(10),即本文所述MSEN結(jié)構(gòu)預(yù)測(cè)的圖像可以更好地反映人群分布的熱點(diǎn)情況,且根據(jù)預(yù)測(cè)圖像計(jì)算出的人數(shù)更加接近標(biāo)簽圖像實(shí)際包含的人數(shù),因此進(jìn)一步證明了尺度增強(qiáng)模塊的有效性。
圖4 獨(dú)立GAN結(jié)構(gòu)與MSEN結(jié)構(gòu)的預(yù)測(cè)圖像與計(jì)算人數(shù)示例
為了對(duì)損失函數(shù)中的權(quán)重取值依據(jù)進(jìn)行說明,本文對(duì)了不同參數(shù)權(quán)重下模型的性能。從簡(jiǎn)化模型訓(xùn)練流程的角度出發(fā),本文首先對(duì)比了各項(xiàng)損失函數(shù)回傳梯度的大小,并將權(quán)重α設(shè)置為3,之后選取6個(gè)代表性數(shù)值作為權(quán)重β的基準(zhǔn)數(shù)值,通過對(duì)比實(shí)驗(yàn)來確定其最終取值。實(shí)驗(yàn)結(jié)果如圖5所示,隨著β取值大小的增加,模型的MAE指標(biāo)持續(xù)降低。當(dāng)β=1時(shí),損失函數(shù)中L1與LE的權(quán)重相等,同時(shí)模型獲得最低的MAE指標(biāo)。當(dāng)β取值繼續(xù)增加,即L1與LE之間的權(quán)重差距逐漸增大時(shí),MAE指標(biāo)迅速增加,即模型性能開始下降。因此,當(dāng)β取值為1時(shí),模型性能達(dá)到最佳。
為了解決人群計(jì)數(shù)研究忽略圖像局部相關(guān)性以及模型對(duì)多尺度特征提取能力有限的問題,本文提出了一種基于多尺度增強(qiáng)網(wǎng)絡(luò)的人群計(jì)數(shù)模型(MSEN),將所設(shè)計(jì)的多分支生成網(wǎng)絡(luò)與引入的區(qū)域性判別網(wǎng)絡(luò)組合構(gòu)成嵌入式GAN模塊,在其之后連接基于金字塔池化結(jié)構(gòu)所設(shè)計(jì)的尺度增強(qiáng)模塊,使用3項(xiàng)損失函數(shù)對(duì)整體模型進(jìn)行聯(lián)合訓(xùn)練,使所述模型在提升預(yù)測(cè)圖像局部相關(guān)性的同時(shí)提升了多尺度特征的提取能力,從而提升模型最終的計(jì)數(shù)準(zhǔn)確性與魯棒性。本文在3個(gè)人群計(jì)數(shù)公共數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了所述模型的有效性。
圖5 不同β取值與對(duì)應(yīng)的模型MAE值