朱利華 朱玲玲
1(常州信息職業(yè)技術(shù)學(xué)院軟件與大數(shù)據(jù)學(xué)院 江蘇 常州213164) 2(南通大學(xué)信息科學(xué)技術(shù)學(xué)院 江蘇 南通 226200)
人群密度估計是關(guān)注在一定時間和空間內(nèi)的人群密度分布情況,在現(xiàn)實生活中人群密度分析存在許多方面的應(yīng)用,如公共安全、交通監(jiān)控和城市規(guī)劃等[1]。在人群密度估計中采用的計算方法也能夠應(yīng)用于其他領(lǐng)域,如顯微圖像中的細胞計數(shù)、交通控制中的車輛計算等方面。目前,人群計數(shù)仍然面臨嚴(yán)重遮擋、透視失真、光照變化、人群分布不均勻及尺度不一等諸多方面的挑戰(zhàn)問題[2-3]。
大多數(shù)人群密度估計方法均是先從圖像中提取底層特征,然后采取不同的技術(shù)方法將這些特征映射到密度圖中?,F(xiàn)有的人群計數(shù)方法大致可以分為三類[4],分別為基于檢測的方法[5]、基于回歸的方法[6]及基于密度估計的方法[7]。與基于檢測和回歸的方法相比,基于密度估計的方法能夠提供更多的人群分布空間信息,因此大多數(shù)人群計數(shù)方法采用密度估計方法。最初的人群計數(shù)工作主要采用手工特征,隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,由于其豐富的自動特征,在人群計數(shù)任務(wù)中取得了顯著的進展。人群計數(shù)面臨許多挑戰(zhàn),如遮擋、場景內(nèi)和場景間的尺度變化及密度不均勻。Xu等[8]提出了一種基于條件生成對抗框架的人群計數(shù)方法,利用生成器和鑒別器之間的博弈,實現(xiàn)了人群圖像到密度圖的高質(zhì)量轉(zhuǎn)換。Wan等[9]提出了一種殘差回歸人群密度估計模型,通過在殘差網(wǎng)絡(luò)模型中引入樣本間的相關(guān)信息學(xué)習(xí)更多的內(nèi)在特征,進而有效地利用不同場景的語義信息來提高人群密度估計精度。由于上述方法對不同尺度的特征圖進行,在一定程度上造成數(shù)據(jù)冗余,增加計算量。
近年來,注意力模型在各種計算機視覺任務(wù)中取得了巨大成功[10]。注意力機制不是從整個圖像中提取特征,而是根據(jù)模型需求有選擇地關(guān)注某些有用的視覺信息而忽略其他部分,實質(zhì)上是一種加權(quán)共享的思想。Zhang等[11]利用局部和全局自注意力兩個模塊有效地捕獲像素的長距離和短距離依賴,然后采用關(guān)系模塊進行融合,解決密度圖中像素間的相互依賴關(guān)系,該方法主要采用自注意力機制和關(guān)系模塊來增強群組計數(shù)的特征表示。Liu等[12]提出一種注意力嵌入可變形卷積網(wǎng)絡(luò),首先利用注意感知網(wǎng)絡(luò)檢測圖像中人群的擁擠程度,然后通過多尺度可變形網(wǎng)絡(luò)生成高質(zhì)量的密度圖,該方法主要利用空間注意力機制,對特征圖中的重要區(qū)域進行檢測。Gao等[13]提出了一種基于空間和通道注意力的再聚集網(wǎng)絡(luò),利用空間注意力和通道注意力來估計密度圖,但其未能很好地關(guān)聯(lián)兩種注意力獲取的特征信息,對目標(biāo)區(qū)域的分辨能力不強。
針對人群圖像中尺度變化大及現(xiàn)有密度估計方法存在泛化性能差的問題,提出了一種基于視覺注意力機制的人群密度估計方法,通過在各個VGG-16層級采用空間注意力和通道注意力機制,達到選擇性地增強網(wǎng)絡(luò)不同層的功能,提高多尺度級聯(lián)的有效性。同時,本文設(shè)計了一個弱監(jiān)督學(xué)習(xí)框架,使人群密度估計模型可以適應(yīng)不同的場景和數(shù)據(jù)集。
視覺注意力機制是人類視覺所特有的大腦信號處理機制。人類視覺通過快速掃描全局圖像,獲得需要重點關(guān)注的目標(biāo)區(qū)域,然后對該區(qū)域投入更多注意力資源,以獲取更多所需要關(guān)注目標(biāo)的細節(jié)信息,抑制其他無用信息。視覺注意機制極大地提高了信息處理的效率與準(zhǔn)確性。
視覺注意力機制其實是從大量信息中有選擇性地篩選出少量重要信息,并且聚焦這些重要信息,忽略大多不重要的信息,提高運算效率,如圖1所示。
圖1 視覺注意力機制示意圖
信息源S中的元素是由一系列的數(shù)據(jù)對構(gòu)成,目標(biāo)元素為Q,通過計算Q和信息源中每個元素ki的相似性,得到ki對應(yīng)的權(quán)重系數(shù)Vi。然后對Vi進行加權(quán)求和,得到最終的視覺注意值A(chǔ)tt。視覺注意力機制本質(zhì)思想就是對S中元素的權(quán)值系數(shù)Vi進行加權(quán)求和,其數(shù)學(xué)公式可被定義為:
(1)
由于同一圖像內(nèi)不同空間位置處的人群頭部尺度可能會存在較大變化,因此本文在使用VGG16網(wǎng)絡(luò)中不同卷積層的特征映射來捕獲多尺度信息,同時將空間注意力模塊(SAM)和全局注意力模塊(GAM)引入到密度估計網(wǎng)絡(luò)中來提高計數(shù)性能。本文方法具體的模塊如圖2所示,基本網(wǎng)絡(luò)由VGG16網(wǎng)絡(luò)的卷積層(conv1-conv5)組成。conv3層特征由SAM進行增強,conv4層和conv5層的特征由GAM進行信道增強。conv3層的增強特征映射由3個卷積層組成的卷積模塊A進行轉(zhuǎn)發(fā),均使用ReLU激活函數(shù),轉(zhuǎn)發(fā)卷積模塊A定義為:Conv2d(256,64,1)、Conv2d(64,64,3)、Conv2d(64,24,1)。conv4層和conv5側(cè)的增強特征通過由3個卷積層組成的卷積模塊B和上采樣層轉(zhuǎn)發(fā),從而保證將特征映射縮放到與conv3特征映射相同的尺度。卷積模塊A定義為:Conv2d(512,64,1)、Conv2d(64,64,3)、Conv2d(64,24,1)。最后,利用這些融合模塊將經(jīng)過增強后的特征連接起來,生成最終的密度圖。融合模塊的卷積層定義為:Conv2d(72,64,1)、Conv2d(64,64,3)、Conv2d(64,1,1)。本文采用預(yù)測密度圖和真實密度圖之間的歐氏距離最小化來訓(xùn)練網(wǎng)絡(luò),數(shù)學(xué)公式定義如下:
(2)
式中:N是訓(xùn)練樣本數(shù);Xi表示第i個輸入圖像;Fd(Xi,Θ)是估計密度;Di是第i個真實值密度。Di通過將以每人的位置xg為中心的二維高斯核求和來計算:
(3)
式中:σ是二維高斯核的尺度參數(shù);S是人群所處位置的所有點的集合。網(wǎng)絡(luò)生成的密度圖是輸入圖像分辨率的1/4,密度圖的總和提供了輸入圖像中人群數(shù)量的估計。
圖2 本文方法流程
2.1.1空間注意力模塊
空間注意的目標(biāo)是在特征圖中選擇注意區(qū)域,然后用于動態(tài)增強特征響應(yīng)。與現(xiàn)有工作中采用自我監(jiān)督方式學(xué)習(xí)空間注意力相比,本文使用前景背景分割方式來進行監(jiān)督學(xué)習(xí)。由于空間注意力模塊的關(guān)注目標(biāo)是與前景區(qū)域存在關(guān)聯(lián)的相關(guān)區(qū)域,因此將前景背景信息注入網(wǎng)絡(luò),采用標(biāo)簽的方式來監(jiān)督學(xué)習(xí)模塊,從而迫使網(wǎng)絡(luò)關(guān)注前景中的相關(guān)區(qū)域。由于這些標(biāo)簽很容易獲得,因此不需要額外的注釋工作。
通過這種注意機制,能夠?qū)⒎指钜庾R引入低級別特征圖。如圖3所示,通過抑制不相關(guān)區(qū)域和增強前景區(qū)域,將分割信息用于網(wǎng)絡(luò)來豐富特征圖。然后將激勵的特征圖轉(zhuǎn)發(fā)到融合模塊(FM),在融合塊中,它們與來自其他層的特征融合以生成最終的密度圖。
通過預(yù)測分割映射和對應(yīng)的真實值之間的交叉熵誤差最小化來學(xué)習(xí)SAM的權(quán)重。通常,分割任務(wù)需要逐像素注釋。本文對現(xiàn)有的真實密度圖注釋進行閾值處理以真實值分割映射,然后將其用于訓(xùn)練空間注意模塊。在注釋時,包含頭部區(qū)域的像素標(biāo)記為1(前景),否則標(biāo)記為0(背景)。因此,本文方法不需要任何額外的標(biāo)記。盡管這些注釋是有噪聲的,但使用分割信息會產(chǎn)生相當(dāng)大的收益。
2.1.2全局注意力模塊
與參與低層特征圖中的相關(guān)空間位置的空間注意力模塊相比,全局注意力模塊則被設(shè)計為關(guān)注信道維度中的特征圖。全局注意力模塊使用來自中樞網(wǎng)絡(luò)的特征映射并學(xué)習(xí)計算沿著信道維度的注意力。計算的注意力可以捕獲特征圖中的重要通道,從而有助于抑制來自不必要通道的信息,該模塊從空間維度方面來看是在全局范圍內(nèi)運行。由于通道可以捕獲物體的不同部分或者不同類別物體的存在情況,因此通道注意力是增強物體和圖像注釋之間相關(guān)性的有效方式。
基于上述考慮,本文給出了一組全局關(guān)注力模塊,這些模塊采用較高卷積層的特征圖作為輸入,并生成通道注意映射,然后用于激勵通道維度特征圖。在數(shù)學(xué)上,給定特征映射輸入X∈RW×H×C,首先,GAM利用式(4)執(zhí)行空間池化操作生成池化特征Y∈R1×1×C。
(4)
現(xiàn)有方法提高跨數(shù)據(jù)集性能的解決方案通過以完全監(jiān)督或半監(jiān)督的方式進行微調(diào)。與這些方法相比,本文提出了一種弱監(jiān)督的方法來訓(xùn)練新數(shù)據(jù)集上的計數(shù)網(wǎng)絡(luò)。這樣的設(shè)置將簡化培訓(xùn)過程,不需要點式注釋。群體計數(shù)是一個回歸問題,執(zhí)行弱監(jiān)督的群組計數(shù)是將人群計數(shù)轉(zhuǎn)化為人群密度分類任務(wù),即不計算圖像中的人數(shù),而是將圖像重新劃分為六類標(biāo)簽,即標(biāo)簽集合C={零密度,極低密度,低密度,中等密度,高密度,極高密度}。本文利用標(biāo)簽將計數(shù)問題轉(zhuǎn)化為弱監(jiān)督學(xué)習(xí)的分類任務(wù)。
圖4給出了用于適應(yīng)新目標(biāo)場景或者數(shù)據(jù)集所提出的弱監(jiān)督方法。與使用預(yù)先訓(xùn)練的CNN語義分割類似,將弱監(jiān)督方法引入計數(shù)網(wǎng)絡(luò)時需要利用源數(shù)據(jù)集進行預(yù)先訓(xùn)練。因此,在計數(shù)網(wǎng)絡(luò)融合模塊之前增加一個類激活映射模塊(CAMM),該模塊由以下4個卷積層組成:Conv2d(72,64,3)、Conv2d(64,64,3)、Conv2d(64,32,3)和Conv2d(32,6,3)。
圖4 弱監(jiān)督學(xué)習(xí)示意圖
一般來說,聚合函數(shù)可以分為全局平均池化(GAP)和全局最大池化(GMP)兩類。對于GAP,分?jǐn)?shù)映射中的所有像素都被賦予相同的權(quán)重,但是不屬于圖像的類標(biāo)簽也會被賦值;對于GMP則通過向得分貢獻最大的像素分配權(quán)重來解決這個問題,但是訓(xùn)練緩慢。因此,本文選擇對最大函數(shù)進行平滑和凸近似作為聚合函數(shù):
(5)
式中:sc表示c類的聚合分?jǐn)?shù);r是控制平滑度的超參數(shù);w、h表示分?jǐn)?shù)映射的寬度和高度。然后將Soft-max函數(shù)應(yīng)用于聚合的類分?jǐn)?shù),使用標(biāo)準(zhǔn)二元交叉熵?fù)p失函數(shù)訓(xùn)練CAMM模塊。在訓(xùn)練期間,密度估計網(wǎng)絡(luò)的參數(shù)保持固定。上述過程獲得的類分?jǐn)?shù)映射可以表示圖像中屬于特定密度水平的區(qū)域或像素,而這些類分?jǐn)?shù)映射可以用于目標(biāo)集偽真實密度圖的近似:
(6)
將真實值密度圖應(yīng)用于監(jiān)控目標(biāo)數(shù)據(jù)集上的密度估計網(wǎng)絡(luò)。在微調(diào)過程中,VGG-16網(wǎng)絡(luò)的權(quán)重是固定的,只更新后面卷積層的權(quán)重,從而確保了所得到的估計密度圖更清晰。盡管網(wǎng)絡(luò)是使用圖像級標(biāo)簽訓(xùn)練的,但是該網(wǎng)絡(luò)也學(xué)會了為目標(biāo)集生成密度圖。因此,在測試過程中,目標(biāo)集的測試圖像通過網(wǎng)絡(luò)轉(zhuǎn)發(fā)來估計密度圖。
本文使用Adam優(yōu)化器進行端到端地網(wǎng)絡(luò)訓(xùn)練,學(xué)習(xí)率為0.000 05,單個NVIDIA GPU Titan Xp的動量為0.9。預(yù)留訓(xùn)練集10%的圖像用于測試。為了防止網(wǎng)絡(luò)過擬合,在訓(xùn)練集上進行了數(shù)據(jù)增加操作:從每個訓(xùn)練圖像中的不同區(qū)域中裁剪出9個尺寸為224×224的圖像塊,然后采用對裁剪圖像進行隨機翻轉(zhuǎn)、添加隨機噪聲等方式來形成最終訓(xùn)練數(shù)據(jù)集。
為了測試本文算法的性能表現(xiàn),采用平均絕對誤差(MAE)和平均平方誤差(MSE)進行評估,兩個評價標(biāo)準(zhǔn)的定義如下:
(7)
(8)
采用Shanghai Tech[2]數(shù)據(jù)集、UCF_CC_50數(shù)據(jù)集[14]及UCF-QNRF[7]數(shù)據(jù)集來測試本文算法的性能,同時與現(xiàn)在一些最新算法進行對比。實驗過程中,對UCF_CC_50數(shù)據(jù)集采用5次交叉驗證,Shanghai Tech和UCF-QNRF數(shù)據(jù)集使用標(biāo)準(zhǔn)訓(xùn)練和測試分割方式進行測試。
UCF_CC_50是一個極具挑戰(zhàn)性的數(shù)據(jù)集,該數(shù)據(jù)集包含50個不同場景的注釋圖像,圖像具有不同的分辨率、寬高比和透視扭曲,而且該數(shù)據(jù)集的圖像中的人數(shù)從94到4 543不等。Shanghai Tech數(shù)據(jù)集包含1 198幅標(biāo)記圖像,數(shù)據(jù)集分為part A和part B兩部分,part B部分的圖片相較于part A部分的圖像人群分布更為稀疏。part_A部分482幅圖像中300幅用于訓(xùn)練,182幅用于測試;part_A部分716幅圖像中400幅用于訓(xùn)練,316個用于測試。UCF-QNR是一個比較新的數(shù)據(jù)集,包含1 535個高質(zhì)量圖像,總共125萬個注釋,訓(xùn)練和測試集分別由1 201和334幅圖像組成。
首先給出了在不同數(shù)據(jù)集中測試的視覺效果,如圖5-圖7所示。一般來說,采用的三個數(shù)據(jù)集具有不同的特點:Shanghai Tech A的場景是擁擠和嘈雜的,Shanghai Tech B的樣本噪音很大,但并不擁擠;UCF-CC 50數(shù)據(jù)集由非常擁擠的場景組成,這些場景幾乎沒有任何背景噪聲;UCF-QNRF數(shù)據(jù)集則具有人群分布不均,閉塞阻擋較多的場景。從測試密度圖中可以看出,本文算法不僅在人群密集中等場景的Shanghai Tech數(shù)據(jù)集上有效,而且在人群密度較大場景的UCF_CC_50數(shù)據(jù)集上及人群密度較小但尺度變化很大的場景UCF-QNRF數(shù)據(jù)集上依然表現(xiàn)良好,從而充分說明提出算法的適用性。而且本文算法中采用的空間注意力和全局通道注意力模塊在細粒度特征提取方面的表現(xiàn)更好,能夠生成高質(zhì)量的人群密度圖,有效降低計數(shù)誤差并提高基準(zhǔn)數(shù)據(jù)集的準(zhǔn)確性。
圖5 ShanghaiTech數(shù)據(jù)集的預(yù)測和真實密度圖對比
圖6 UCF_CC_50數(shù)據(jù)集的預(yù)測和真實密度圖對比
圖7 UCF-QNRF數(shù)據(jù)集的預(yù)測和真實密度圖對比
為了進一步驗證算法的有效性,對提出的方法進行了定量評估,并將其測試結(jié)果與深度尺度凈化網(wǎng)絡(luò)模型(DSPNet)[2]、自適應(yīng)密度圖生成器模型(ADMG)[7]、群體注意卷積神經(jīng)網(wǎng)絡(luò)模型(CAT-CNN)[10]、注意力嵌入可變形卷積網(wǎng)絡(luò)模型(ADCrowdNet)[12]、混合空間-通道注意力回歸網(wǎng)絡(luò)模型(SCAR)和尺度保留網(wǎng)絡(luò)模型(SPN)等先進人群計數(shù)方法進行對比。
表1給出了不同算法在Shanghai Tech數(shù)據(jù)集A和B部分的實驗結(jié)果。可以看出,與其他幾種算法相比,本文算法在四個結(jié)果中有三個達到了最好的性能,在Shanghai Tech B的MSE測試指標(biāo)上比SPN模型稍低,這表示本文算法的穩(wěn)健性在Shanghai Tech B數(shù)據(jù)集中表現(xiàn)稍弱。
表1 不同算法在Shanghai Tech數(shù)據(jù)集的測試結(jié)果
表2給出了不同算法在UCF_CC_50數(shù)據(jù)集的實驗結(jié)果??梢钥闯觯疚乃惴ㄔ贛AE和MSE指標(biāo)上取得較好的結(jié)果,只在MAE稍低于SPN模型,取得次優(yōu)值。
表2 不同算法在UCF_CC_50數(shù)據(jù)集的測試結(jié)果
表3給出了不同算法在UCF-QNRF數(shù)據(jù)集的實驗結(jié)果。通過對比每個數(shù)據(jù)集上不同算法的測試結(jié)果,發(fā)現(xiàn)在該數(shù)據(jù)集上,提出的模型在MAE和MSE方面明顯優(yōu)于其他方法。
表3 不同算法在UCF-QNRF數(shù)據(jù)集的測試結(jié)果
為了解決人群圖像尺度變化劇烈及現(xiàn)有密度估計網(wǎng)絡(luò)泛化性能差的問題,本文提出一種基于視覺注意力機制的人群密度估計方法。該方法在VGG16網(wǎng)絡(luò)的conv3層特征引入空間注意機制動態(tài)增強特征圖中的關(guān)注區(qū)域,在conv4、conv5層引入全局注意機制進行信道維度中的特征圖增強,從而提高多尺度級聯(lián)的有效性。而且,為了提高本文方法在不同場景和數(shù)據(jù)集的適應(yīng)性,設(shè)計了一個弱監(jiān)督學(xué)習(xí)來擴展提出的密度估計網(wǎng)絡(luò)。實驗結(jié)果表明,提出的方法在不同尺度、不同場景下的人群密度圖像都有很好性能表現(xiàn),相對于現(xiàn)有的人群密度估計算法也具有極大的優(yōu)勢。