亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合通道與空間注意力的編解碼人群計數(shù)算法

2022-11-15 16:17:38朱慧琳

計算機(jī)與生活 2022年11期

余鷹，潘誠，朱慧琳，錢進(jìn)，湯洪

華東交通大學(xué) 軟件學(xué)院，南昌330013

人群計數(shù)作為智能視頻監(jiān)控的重要組成部分，主要任務(wù)是分析統(tǒng)計場景中人群的數(shù)量、密度和分布，現(xiàn)已廣泛應(yīng)用在大型集會、旅游景點等人群密集的線下活動場景，在維護(hù)群眾人身安全等方面發(fā)揮著巨大的作用。近年來，隨著卷積神經(jīng)網(wǎng)絡(luò)[1-3]在計算機(jī)視覺領(lǐng)域的大放異彩，基于深度學(xué)習(xí)的人群計數(shù)算法取得了顯著的進(jìn)展，計數(shù)形式從簡單的稀疏場景行人數(shù)量統(tǒng)計發(fā)展到了復(fù)雜密集場景的密度圖計數(shù)，通過充分利用深度神經(jīng)網(wǎng)絡(luò)強大的特征表達(dá)能力，提升模型的計數(shù)精度。

隨著計算機(jī)視覺和深度學(xué)習(xí)技術(shù)的快速發(fā)展，有關(guān)人群計數(shù)問題的研究已經(jīng)取得了巨大的進(jìn)展，優(yōu)秀的模型和算法不斷涌現(xiàn)，但是在人群密集場景中，要實現(xiàn)準(zhǔn)確的計數(shù)依然存在諸多困難和挑戰(zhàn)。如圖1 所示，該現(xiàn)實場景存在背景干擾、人群分布雜亂、行人尺度變化等問題，極大地影響了計數(shù)精度。在圖1（a）中，遠(yuǎn)近景人群目標(biāo)尺度差異較大，樹與密集人群特征相似，容易對計數(shù)造成干擾；在圖1（b）中，同樣存在遠(yuǎn)近景目標(biāo)尺度多樣化問題，同時人群分布雜亂將對計數(shù)性能造成影響。

圖1 人群計數(shù)的挑戰(zhàn)Fig.1 Challenge of crowd counting

為了解決行人尺度變化問題，一些學(xué)者試圖通過引入多陣列卷積結(jié)構(gòu)來感受不同尺度的行人特征[4-5]，以提高模型預(yù)測精度。盡管這些方法增強了算法對多尺度特征的感知能力，但同時也帶來了無效的冗余分支結(jié)構(gòu)和大量訓(xùn)練時間。對于背景噪聲干擾，Liu等人[6]試圖使用注意力機(jī)制去抑制背景區(qū)域。通過級聯(lián)方式，預(yù)先訓(xùn)練注意力圖生成器，檢測前景人群區(qū)域，抑制弱相關(guān)復(fù)雜背景信息，然后使用人群密度估計器進(jìn)行人群計數(shù)。此時，場景圖片已經(jīng)聚焦在前景人群區(qū)域，可以有效減少背景噪聲的干擾。這類方法對注意力生成器要求極高，容易造成前景和背景的誤判，也不能自適應(yīng)地在線調(diào)整背景區(qū)域范圍，可能在計數(shù)之前引入誤差，增加了計數(shù)任務(wù)的復(fù)雜性。

針對上述問題，本文提出了一種融合通道與空間注意力的編解碼結(jié)構(gòu)人群計數(shù)網(wǎng)絡(luò)（channel and spatial attention-based encoder-decoder network for crowd counting，CSANet），以解決計數(shù)任務(wù)中存在的目標(biāo)尺度變化、人群分布雜亂以及背景噪聲干擾等問題。在編碼階段，通過不同深度層次的卷積提取人群的不同尺度特征；在解碼階段，使用卷積和上采樣操作逐步恢復(fù)空間語義信息，并將多尺度語義信息與空間上下文信息充分融合，然后注入通道和空間注意力，使網(wǎng)絡(luò)關(guān)注點聚焦在感興趣前景人群區(qū)域，進(jìn)一步降低弱相關(guān)背景干擾，以此提高密度圖的生成質(zhì)量。本文的主要貢獻(xiàn)如下：

（1）提出了一種融合通道與空間注意力的編解碼結(jié)構(gòu)計數(shù)網(wǎng)絡(luò)，通過將多尺度信息與空間上下文信息進(jìn)行融合以提高圖像特征的魯棒性，最終提升計數(shù)精度。

（2）將多維度注意力機(jī)制引入人群計數(shù)，使得端到端的計數(shù)網(wǎng)絡(luò)能夠自適應(yīng)地聚焦前景人群區(qū)域，降低弱相關(guān)背景區(qū)域的干擾，提升生成密度圖質(zhì)量。

1 相關(guān)工作

人群計數(shù)任務(wù)所遇到的挑戰(zhàn)主要為場景擁擠、人群尺度變化多樣和人群分布雜亂等。為了降低其帶來的計數(shù)精度下降問題，主要研究路線大致可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法使用經(jīng)過預(yù)訓(xùn)練的分類器人工提取目標(biāo)底層特征[7-8]，然后判別出行人從而實現(xiàn)計數(shù)；基于深度學(xué)習(xí)的方法利用卷積神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)人群特征并生成場景密度圖，密度圖中不僅包含行人數(shù)量信息，還有豐富的空間位置信息。

1.1 傳統(tǒng)方法

傳統(tǒng)方法可分為基于檢測和基于回歸兩類。基于檢測的方法[9]首先通過滑動窗口提取圖像特征，然后使用已經(jīng)訓(xùn)練好的分類器來識別行人。此類方法在人群稀疏的場景中計數(shù)效果良好，但是在復(fù)雜的人群密集場景中，由于行人之間的嚴(yán)重遮擋和背景雜亂干擾，導(dǎo)致無法提取完整的個體特征，計數(shù)性能較差。為了克服密集場景中行人特征不完整等問題，研究者設(shè)計出判別身體部分特征的檢測器[10]，但是算法仍然難以勝任高密度場景的計數(shù)需求?；诖耍岢隽肆硪环N自適應(yīng)的回歸預(yù)測方法[11]，直接從場景中提取特征，然后學(xué)習(xí)圖像特征至人群數(shù)量的映射關(guān)系。

總之，傳統(tǒng)方法大都依賴人工提取的特征。由于現(xiàn)實環(huán)境復(fù)雜，人群變化等因素普遍存在，導(dǎo)致人工提取的特征判別性不強，從而計數(shù)模型應(yīng)用時預(yù)測效果較差。

1.2 基于深度學(xué)習(xí)的方法

近些年，深度學(xué)習(xí)技術(shù)在圖像分類[12]、目標(biāo)檢測[13-14]、語義分割[15]等視覺任務(wù)上的應(yīng)用表現(xiàn)搶眼。相對于使用傳統(tǒng)技術(shù)，使用深度學(xué)習(xí)技術(shù)可以使算法的性能得到顯著提升，并且其更擅長處理復(fù)雜場景問題。因此，基于卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）的人群計數(shù)方法的研究陸續(xù)開展[16-18]，并取得了卓有成效的進(jìn)展。其主要過程是通過卷積神經(jīng)網(wǎng)絡(luò)提取特征，再利用全卷積形式生成包含人群數(shù)量和空間位置信息的人群分布密度圖。

為了處理多尺度問題，已有模型大多采用多陣列卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)[4-5]，通過不同的感受野去提取行人多尺度特征。Sindagi等人[19]提出了一種上下文金字塔網(wǎng)絡(luò)（contextual pyramid CNN，CP-CNN），通過融合全局和局部上下文信息，來提高生成密度圖的質(zhì)量和人數(shù)預(yù)測的精度；Sam 等人[20]提出Switch-CNN（switching convolutional neural network）模型，通過訓(xùn)練密度分類器，將圖像劃分為局部圖像塊，用分類器自適應(yīng)地輸出對應(yīng)等級；Cao等人[21]提出了一種基于編解碼結(jié)構(gòu)的尺度聚焦網(wǎng)絡(luò)（scale aggregation network，SANet），利用多尺度聚焦模塊來提取行人多尺度特征。此類方法的計數(shù)性能相比傳統(tǒng)方法雖然有了很大突破，但是其網(wǎng)絡(luò)結(jié)構(gòu)冗余，參數(shù)量過大，導(dǎo)致模型訓(xùn)練困難。為了簡化網(wǎng)絡(luò)復(fù)雜度和提高訓(xùn)練效率，單列網(wǎng)絡(luò)架構(gòu)重新獲得關(guān)注。Li 等人提出單列計數(shù)網(wǎng)絡(luò)CSRNet（network for congested scene recognition）[22]，通過空洞卷積擴(kuò)大感受野，以捕獲多尺度特征同時降低網(wǎng)絡(luò)模型的參數(shù)量。為了解決背景噪聲干擾問題，Liu等人[6]提出了一種用于人群計數(shù)的可形變卷積網(wǎng)絡(luò)（attention-injective deformable convolutional network for crowd understanding，ADCrowdNet），該網(wǎng)絡(luò)融合了注意力機(jī)制，讓模型只關(guān)注人群區(qū)域，從而忽略背景噪聲的干擾。此外，亦有研究通過將圖像語義分割技術(shù)應(yīng)用于人群計數(shù)領(lǐng)域，以去除背景噪聲?？傊?，如何增強特征的尺度適應(yīng)性和降低背景噪聲干擾仍然是人群計數(shù)領(lǐng)域目前重點關(guān)注的問題。

2 CSANet模型

本文提出的融合通道與空間注意力的人群計數(shù)模型CSANet的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。整體采用了易于端到端訓(xùn)練的編解碼架構(gòu)。其中，編碼器使用VGG16[1]網(wǎng)絡(luò)的前13 層作為主干，構(gòu)建特征提取網(wǎng)絡(luò)，提取多個不同深度層次的語義特征，來辨識場景中的多尺度人群；解碼器在逐步恢復(fù)空間信息的同時，將多尺度信息與空間上下文信息充分融合，以增強網(wǎng)絡(luò)的表征能力。并且融入通道與空間注意力模塊，聚焦前景人群區(qū)域，抑制弱相關(guān)背景特征，以生成高質(zhì)量、高分辨率的密度圖進(jìn)行人群計數(shù)。

圖2 CSANet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Architecture of CSANet

2.1 編解碼器Encoder-Decoder

編解碼器包含兩部分，其中編碼器可以提取不同尺度行人特征。為了提取多層次更具有表征能力的深度特征，且易于網(wǎng)絡(luò)的搭建和訓(xùn)練，本部分選取了經(jīng)過預(yù)訓(xùn)練的VGG16 網(wǎng)絡(luò)前13 層作為編碼器的主干網(wǎng)絡(luò)。在訓(xùn)練的過程中，保留4個具有代表性的不同層次深度語義特征Conv2_2、Conv3_3、Conv4_3、Conv5_3，其尺寸分別為原始輸入圖片分辨率的1/2、1/4、1/8、1/16，這些不同深度提取的特征可以捕獲不同尺度的行人信息。隨著網(wǎng)絡(luò)深度遞增，特征圖分辨率逐漸減小，維度逐步增加。解碼器主要用于逐步恢復(fù)圖像空間特征信息與聚焦前景人群區(qū)域。通過解碼恢復(fù)的多層次深度特征與編碼器各階段輸出的對應(yīng)層特征進(jìn)行融合，最大程度上減少卷積和下采樣等操作造成的特征損失，并進(jìn)一步整合空間上下文信息。在融合之后，對特征添加通道與空間注意力，以此來凸出前景人群區(qū)域，抑制弱相關(guān)背景區(qū)域特征的權(quán)重。解碼器對不同階段特征圖進(jìn)行融合主要是對兩個特征圖進(jìn)行通道拼接，特征融合之后新的特征圖分辨率大小不變，通道為兩者之和。其網(wǎng)絡(luò)參數(shù)配置如表1所示。

表1 網(wǎng)絡(luò)參數(shù)Table 1 Network parameters

在ConvX_Y(K-C-S)中，X_Y代表卷積所在層的深度，K表示卷積核大小，C為卷積核個數(shù)，S為步長。最后輸出的密度圖分辨率大小與原始輸入圖片的相等。Upsampling 使用雙線性插值將分辨率擴(kuò)大至輸入特征的2 倍，Concat 為特征融合操作，將輸入的2 組特征圖進(jìn)行通道拼接，CBAM module 為通道與空間特征注意力模塊。

2.2 通道與空間注意力模塊

背景噪聲干擾問題給人群計數(shù)任務(wù)帶來了嚴(yán)峻的挑戰(zhàn)，復(fù)雜背景可能極大降低模型的預(yù)測精度。視覺注意力機(jī)制的作用已經(jīng)在大量的工作中被證實，它在關(guān)鍵特征提取以及模型性能增強等方面有著良好的效果。如果將注意力機(jī)制應(yīng)用于人群計數(shù)，將有助于模型更加關(guān)注感興趣的人群區(qū)域，從而抑制弱相關(guān)背景信息的影響。Woo 等人[23]提出的CBAM（convolutional block attention module）注意力模型可以在通道和空間兩個維度上添加注意力，相較于單通道域或單空間域注意力，更適合人群計數(shù)任務(wù)。因為人群計數(shù)模型生成的特征圖不僅包含人群數(shù)量信息，還包含空間位置信息。對于一個給定的中間特征圖，CBAM 模塊會沿著通道和空間兩個獨立的維度依次推斷注意力圖，然后將注意力圖與輸入特征圖相乘以進(jìn)行自適應(yīng)特征優(yōu)化來提高感興趣區(qū)域的權(quán)重。添加CBAM 注意力模塊時，一般將其添加到網(wǎng)絡(luò)每個卷積層之后或結(jié)合殘差添加。

為了增強模型在多層次特征融合之后對人群區(qū)域的聚焦能力，CSANet 網(wǎng)絡(luò)在解碼器部分添加了CBAM注意力模塊，融合方式如圖3所示。編碼器和解碼器提取的特征圖在對應(yīng)層次進(jìn)行通道疊加，以充分整合空間上下文信息，再使用通道與空間注意力模塊，對其前景行人區(qū)域進(jìn)行關(guān)注，并對背景區(qū)域特征權(quán)重進(jìn)行抑制。具體過程為：首先將編碼階段提取的多尺度特征Fe與對應(yīng)層解碼恢復(fù)的特征Fd做特征疊加操作，得到特征累加之后的特征圖F′，如式（1）所示：

圖3 注意力融合方式Fig.3 Fusing attention method

其中，⊕為特征通道疊加操作，F(xiàn)′為多層信息融合之后的特征圖，并作為注意力模塊的輸入，然后依次利用通道和空間注意力模塊微調(diào)輸入特征F′，得到最終經(jīng)過加權(quán)之后的特征圖FAtt。通道注意力模塊學(xué)習(xí)通道上的權(quán)重信息，再按通道元素相乘，作為后一階段的輸入；空間注意力模塊學(xué)習(xí)空間權(quán)重，與輸入特征空間相乘，如式（2）和式（3）所示：

σ為Sigmoid函數(shù)，輸入特征圖F∈RC×H×W，通道注意力為Mc∈RC×1×1，為每個單獨通道上的平均池化和最大池化，MLP為多層感知機(jī)，這里僅使用了一個隱藏層，其神經(jīng)元個數(shù)為RC/r×1×1,r為參數(shù)縮減率，r=16 ；空間注意力為為所有通道上的全局平均池化和最大池化，做通道相加操作，f7×7為7×7 卷積。

2.3 損失函數(shù)

在訓(xùn)練過程中，使用歐式距離評估真實密度圖與預(yù)測密度圖之間的差異，其定義如式（4）所示：

N是一次訓(xùn)練圖片的總數(shù)量，Xi為第i張訓(xùn)練圖片，Z(Xi;θ)為第i張圖片的預(yù)測密度圖，其中i∈[1,N]，θ為網(wǎng)絡(luò)模型參數(shù)，為第i張訓(xùn)練圖片的真實密度圖。

3 訓(xùn)練方法

本章將詳細(xì)闡述端到端人群計數(shù)模型CSANet的訓(xùn)練環(huán)境，包括真實密度圖的生成方式、數(shù)據(jù)增強方法以及實驗參數(shù)和硬件配置。

3.1 真實密度圖

由于當(dāng)下主流人群計數(shù)數(shù)據(jù)集通常只提供人頭中心點的坐標(biāo)位置信息，而模型對于單個像素點的預(yù)測效率低下，普遍做法是將坐標(biāo)點進(jìn)行區(qū)間擴(kuò)散，以提升模型的學(xué)習(xí)效率。本文使用幾何自適應(yīng)高斯核生成密度圖，作為預(yù)測學(xué)習(xí)的標(biāo)簽，具體如式（5）所示：

其中，x為當(dāng)前圖像中的每個像素點，xi為第i個人頭中心點坐標(biāo)，G(x)為高斯核濾波器，為人頭坐標(biāo)點xi與其最近的K個人頭的平均距離。參照文獻(xiàn)[22]的參數(shù)設(shè)置，將β設(shè)為0.3。

3.2 數(shù)據(jù)增強

由于人群數(shù)據(jù)集圖片數(shù)量有限，而標(biāo)注圖片代價過高，為了獲得更多的圖片用于訓(xùn)練，本文在數(shù)據(jù)輸入網(wǎng)絡(luò)之前對數(shù)據(jù)集中的圖片進(jìn)行了一系列數(shù)據(jù)增強操作。具體為對每張圖片隨機(jī)裁剪出分辨率大小為400×400 的局部圖像塊，如圖4 所示。對于邊長不足400 的圖片，對其進(jìn)行雙線性插值，使得邊長增大到400。再對裁剪出的局部圖像塊隨機(jī)進(jìn)行鏡像翻轉(zhuǎn)，調(diào)整對比度和灰度來擴(kuò)大數(shù)據(jù)量，以獲得更豐富的訓(xùn)練數(shù)據(jù)。

圖4 隨機(jī)裁剪示例Fig.4 Example of random cropping

3.3 實驗設(shè)置

實驗所使用的操作系統(tǒng)為Windows 10，深度學(xué)習(xí)框架為PyTorch 1.6.0，使用兩塊顯存為11 GB 的NVIDIA-1080Ti顯卡。

編碼器部分使用基于ImageNet[24]預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)的前13層參數(shù)對網(wǎng)絡(luò)進(jìn)行初始化，其他參數(shù)則利用均值為0，方差為0.01的高斯函數(shù)進(jìn)行隨機(jī)初始化。模型訓(xùn)練過程中，使用學(xué)習(xí)率為1E-4 的Adam優(yōu)化器進(jìn)行模型優(yōu)化，訓(xùn)練迭代次數(shù)收斂即停止。對于UCF-QNRF 數(shù)據(jù)集，其平均尺寸為2 013×2 902，分辨率過大，訓(xùn)練效率低，因此在進(jìn)行數(shù)據(jù)增強之前，本文使用雙線性插值方法將其大小統(tǒng)一調(diào)整至1 024×768。

4 實驗與分析

為了驗證算法的有效性和性能，在4個經(jīng)典人群計數(shù)數(shù)據(jù)集上進(jìn)行了實驗。與已有計數(shù)算法相比，CSANet 性能更優(yōu)，而且訓(xùn)練過程更加簡單、靈活。本章首先介紹計數(shù)模型的評價指標(biāo)，然后簡單描述用于實驗的4個數(shù)據(jù)集的基本情況，并比較分析了各個算法的實驗結(jié)果。

4.1 評價指標(biāo)

平均絕對誤差（mean absolute error，MAE）和均方根誤差（root mean square error，RMSE）是人群計數(shù)算法常用的評價指標(biāo)；MAE 和RMSE 均可以表示預(yù)測人數(shù)與真實人數(shù)的差異程度，但是MAE 通常用來評估模型的準(zhǔn)確性，而RMSE通常用來度量被評估模型的魯棒性。MAE 和RMSE 的值越小，表示模型性能越好，其計算方法如式（6）和式（7）所示：

其中，N為數(shù)據(jù)集圖像總數(shù)；Ci為第i張圖片的預(yù)測人數(shù)；為第i張圖片的真實人數(shù)。

4.2 數(shù)據(jù)集與實驗分析

4.2.1 ShanghaiTech數(shù)據(jù)集

ShanghaiTech[5]是一個大型的人群計數(shù)數(shù)據(jù)集，共標(biāo)注了1 198 幅圖像，人頭總數(shù)為330 165 個。按照數(shù)據(jù)來源和場景稀疏程度劃分，可分為Part_A 和Part_B 這兩部分，其中Part_A 隨機(jī)采集自互聯(lián)網(wǎng)，人群分布較為密集，共有300幅圖像作為訓(xùn)練集，182幅圖像作為測試集；而Part_B 采集自上海市的部分監(jiān)控視頻，人群分布較為稀疏，有400 幅圖像作為訓(xùn)練集，316幅圖像作為測試集。該數(shù)據(jù)集的實驗結(jié)果如表2所示。

表2 不同計數(shù)方法在ShanghaiTech數(shù)據(jù)集上的性能比較Table 2 Performance comparison of different methods on ShanghaiTech dataset

與已有算法相比，CSANet 在Part_A 上的性能指標(biāo)MAE與RMSE均達(dá)到了最優(yōu)值，而在Part_B上，性能僅次于SFANet。總損失變化趨勢如圖5 所示，訓(xùn)練之初由于隨機(jī)程度較高，損失較大，但是隨著模型不斷迭代訓(xùn)練，損失呈現(xiàn)明顯的下降趨勢并趨于穩(wěn)定；Part_A 部分在整體可控范圍內(nèi)波動，Part_B 部分在400次迭代之后基本達(dá)到了穩(wěn)定狀態(tài)。

圖5 ShanghaiTech數(shù)據(jù)集訓(xùn)練過程Fig.5 Training process on ShanghaiTech dataset

4.2.2 UCF_QNRF數(shù)據(jù)集

UCF_QNRF[29]是一個挑戰(zhàn)性極大的數(shù)據(jù)集，場景豐富且人群分布雜亂，共標(biāo)注了1 535 幅圖像，其中訓(xùn)練集有1 201 幅圖像，測試集有334幅圖像，標(biāo)注總?cè)藬?shù)達(dá)到了1 251 642。

表3顯示了各種人群計數(shù)算法在UCF_QNRF 數(shù)據(jù)集上的實驗結(jié)果。由表3 可見，CSANet 網(wǎng)絡(luò)的兩個性能指標(biāo)MAE 和RMSE 均為最優(yōu)，證明CSANet模型在跨場景計數(shù)時具有較好的性能。CSANet 的訓(xùn)練損失曲線如圖6 所示，前500 次迭代的波動較大，500次后逐漸趨于穩(wěn)定。

圖6 UCF_QNRF數(shù)據(jù)集訓(xùn)練過程Fig.6 Training process on UCF_QNRF dataset

表3 不同計數(shù)方法在UCF_QNRF數(shù)據(jù)集上的性能比較Table 3 Performance comparison of different methods on UCF_QNRF dataset

4.2.3 UCF_CC_50數(shù)據(jù)集

UCF_CC_50數(shù)據(jù)集[33]中的圖像全部采集自互聯(lián)網(wǎng)，其場景包括音樂會、游行示威等人群高度密集的場合，總共有50幅不同分辨率、不同視角拍攝的極度密集圖像，共標(biāo)注人頭數(shù)量為63 974 個，每幅圖像標(biāo)注人數(shù)從最低94人到最高4 543 人不等，平均每張圖片標(biāo)注的人頭數(shù)為1 280 個，其數(shù)量遠(yuǎn)超其他人群計數(shù)數(shù)據(jù)集。數(shù)據(jù)集使用5折標(biāo)準(zhǔn)交叉驗證訓(xùn)練，實驗結(jié)果如表4所示。由表4可見，即使是在極端密集的場景中，CSANet 網(wǎng)絡(luò)的計數(shù)準(zhǔn)確性和魯棒性依然優(yōu)于已有模型。

表4 不同計數(shù)方法在UCF_CC_50數(shù)據(jù)集上的性能比較Table 4 Performance comparison of different methods on UCF_CC_50 dataset

4.2.4 實驗結(jié)果可視化分析

為了更好地說明模型的預(yù)測效果，本小節(jié)展示了CSANet網(wǎng)絡(luò)在不同數(shù)據(jù)集上預(yù)測的部分密度圖，如圖7 所示。其中，第1 行圖片選自ShanghaiTechPart_A測試集，代表了高度擁擠和嚴(yán)重背景干擾場景的預(yù)測效果；第2行圖片選自ShanghaiTech Part_B測試集，表示了在正常街道中，人群分布不均時的預(yù)測效果；第3行為UCF_QNRF測試集圖片，來自一個游行集會場景。由絕大多數(shù)場景的可視化表現(xiàn)可知，CSANet 模型生成的人群分布密度圖非常接近真實的人群分布密度圖，說明CSANet具有良好的多尺度特征提取能力和背景噪聲抑制能力。

圖7 結(jié)果可視化Fig.7 Result visualization

4.3 消融實驗

為了驗證CSANet 網(wǎng)絡(luò)中各模塊的有效性，在ShanghaiTech數(shù)據(jù)集上做了相關(guān)的消融實驗，結(jié)果如表5所示。

表5 ShanghaiTech數(shù)據(jù)集消融實驗Table 5 Ablation study on ShanghaiTech dataset

主干網(wǎng)絡(luò)為CSANet網(wǎng)絡(luò)中設(shè)計的編解碼部分，由表5 可見，其計數(shù)精度優(yōu)于絕大多數(shù)經(jīng)典計數(shù)網(wǎng)絡(luò)，表現(xiàn)出了骨干網(wǎng)絡(luò)強大的特征提取能力。在融入通道與空間注意力模塊之后，CSANet網(wǎng)絡(luò)的計數(shù)效果顯著提升。本節(jié)還對消融實驗的結(jié)果進(jìn)行了可視化，如圖8 所示。由圖8 可見，對于圖中紅色框中的背景區(qū)域部分，主干網(wǎng)絡(luò)已經(jīng)能夠獲得比較準(zhǔn)確的密度圖，但是經(jīng)過注意力前景增強和背景抑制之后可以看出，密度圖的前景部分更加顯著，背景誤差也相對減少。

圖8 消融實驗結(jié)果可視化Fig.8 Visualization of ablation study results

5 結(jié)束語

本文提出了一種融合通道與空間注意力的編解碼人群計數(shù)網(wǎng)絡(luò)CSANet。該模型能夠以端到端的形式進(jìn)行訓(xùn)練，整體采用了編解碼結(jié)構(gòu)以提取多尺度特征和充分融合空間上下文信息，并加以通道與空間注意力模塊來提升前景行人區(qū)域的權(quán)重，并抑制弱相關(guān)背景特征，以此生成高質(zhì)量的密度圖。經(jīng)過實驗分析，證明CSANet網(wǎng)絡(luò)具有良好的準(zhǔn)確性與魯棒性。未來的工作中，將考慮如何采用可形變卷積等方面，更加準(zhǔn)確地聚焦人群區(qū)域，以進(jìn)一步提高人群計數(shù)的精度。