亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合通道與空間注意力的編解碼人群計數(shù)算法

        2022-11-15 16:17:38朱慧琳
        計算機(jī)與生活 2022年11期
        關(guān)鍵詞:尺度計數(shù)注意力

        余 鷹,潘 誠,朱慧琳,錢 進(jìn),湯 洪

        華東交通大學(xué) 軟件學(xué)院,南昌330013

        人群計數(shù)作為智能視頻監(jiān)控的重要組成部分,主要任務(wù)是分析統(tǒng)計場景中人群的數(shù)量、密度和分布,現(xiàn)已廣泛應(yīng)用在大型集會、旅游景點等人群密集的線下活動場景,在維護(hù)群眾人身安全等方面發(fā)揮著巨大的作用。近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)[1-3]在計算機(jī)視覺領(lǐng)域的大放異彩,基于深度學(xué)習(xí)的人群計數(shù)算法取得了顯著的進(jìn)展,計數(shù)形式從簡單的稀疏場景行人數(shù)量統(tǒng)計發(fā)展到了復(fù)雜密集場景的密度圖計數(shù),通過充分利用深度神經(jīng)網(wǎng)絡(luò)強大的特征表達(dá)能力,提升模型的計數(shù)精度。

        隨著計算機(jī)視覺和深度學(xué)習(xí)技術(shù)的快速發(fā)展,有關(guān)人群計數(shù)問題的研究已經(jīng)取得了巨大的進(jìn)展,優(yōu)秀的模型和算法不斷涌現(xiàn),但是在人群密集場景中,要實現(xiàn)準(zhǔn)確的計數(shù)依然存在諸多困難和挑戰(zhàn)。如圖1 所示,該現(xiàn)實場景存在背景干擾、人群分布雜亂、行人尺度變化等問題,極大地影響了計數(shù)精度。在圖1(a)中,遠(yuǎn)近景人群目標(biāo)尺度差異較大,樹與密集人群特征相似,容易對計數(shù)造成干擾;在圖1(b)中,同樣存在遠(yuǎn)近景目標(biāo)尺度多樣化問題,同時人群分布雜亂將對計數(shù)性能造成影響。

        圖1 人群計數(shù)的挑戰(zhàn)Fig.1 Challenge of crowd counting

        為了解決行人尺度變化問題,一些學(xué)者試圖通過引入多陣列卷積結(jié)構(gòu)來感受不同尺度的行人特征[4-5],以提高模型預(yù)測精度。盡管這些方法增強了算法對多尺度特征的感知能力,但同時也帶來了無效的冗余分支結(jié)構(gòu)和大量訓(xùn)練時間。對于背景噪聲干擾,Liu等人[6]試圖使用注意力機(jī)制去抑制背景區(qū)域。通過級聯(lián)方式,預(yù)先訓(xùn)練注意力圖生成器,檢測前景人群區(qū)域,抑制弱相關(guān)復(fù)雜背景信息,然后使用人群密度估計器進(jìn)行人群計數(shù)。此時,場景圖片已經(jīng)聚焦在前景人群區(qū)域,可以有效減少背景噪聲的干擾。這類方法對注意力生成器要求極高,容易造成前景和背景的誤判,也不能自適應(yīng)地在線調(diào)整背景區(qū)域范圍,可能在計數(shù)之前引入誤差,增加了計數(shù)任務(wù)的復(fù)雜性。

        針對上述問題,本文提出了一種融合通道與空間注意力的編解碼結(jié)構(gòu)人群計數(shù)網(wǎng)絡(luò)(channel and spatial attention-based encoder-decoder network for crowd counting,CSANet),以解決計數(shù)任務(wù)中存在的目標(biāo)尺度變化、人群分布雜亂以及背景噪聲干擾等問題。在編碼階段,通過不同深度層次的卷積提取人群的不同尺度特征;在解碼階段,使用卷積和上采樣操作逐步恢復(fù)空間語義信息,并將多尺度語義信息與空間上下文信息充分融合,然后注入通道和空間注意力,使網(wǎng)絡(luò)關(guān)注點聚焦在感興趣前景人群區(qū)域,進(jìn)一步降低弱相關(guān)背景干擾,以此提高密度圖的生成質(zhì)量。本文的主要貢獻(xiàn)如下:

        (1)提出了一種融合通道與空間注意力的編解碼結(jié)構(gòu)計數(shù)網(wǎng)絡(luò),通過將多尺度信息與空間上下文信息進(jìn)行融合以提高圖像特征的魯棒性,最終提升計數(shù)精度。

        (2)將多維度注意力機(jī)制引入人群計數(shù),使得端到端的計數(shù)網(wǎng)絡(luò)能夠自適應(yīng)地聚焦前景人群區(qū)域,降低弱相關(guān)背景區(qū)域的干擾,提升生成密度圖質(zhì)量。

        1 相關(guān)工作

        人群計數(shù)任務(wù)所遇到的挑戰(zhàn)主要為場景擁擠、人群尺度變化多樣和人群分布雜亂等。為了降低其帶來的計數(shù)精度下降問題,主要研究路線大致可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法使用經(jīng)過預(yù)訓(xùn)練的分類器人工提取目標(biāo)底層特征[7-8],然后判別出行人從而實現(xiàn)計數(shù);基于深度學(xué)習(xí)的方法利用卷積神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)人群特征并生成場景密度圖,密度圖中不僅包含行人數(shù)量信息,還有豐富的空間位置信息。

        1.1 傳統(tǒng)方法

        傳統(tǒng)方法可分為基于檢測和基于回歸兩類。基于檢測的方法[9]首先通過滑動窗口提取圖像特征,然后使用已經(jīng)訓(xùn)練好的分類器來識別行人。此類方法在人群稀疏的場景中計數(shù)效果良好,但是在復(fù)雜的人群密集場景中,由于行人之間的嚴(yán)重遮擋和背景雜亂干擾,導(dǎo)致無法提取完整的個體特征,計數(shù)性能較差。為了克服密集場景中行人特征不完整等問題,研究者設(shè)計出判別身體部分特征的檢測器[10],但是算法仍然難以勝任高密度場景的計數(shù)需求?;诖耍岢隽肆硪环N自適應(yīng)的回歸預(yù)測方法[11],直接從場景中提取特征,然后學(xué)習(xí)圖像特征至人群數(shù)量的映射關(guān)系。

        總之,傳統(tǒng)方法大都依賴人工提取的特征。由于現(xiàn)實環(huán)境復(fù)雜,人群變化等因素普遍存在,導(dǎo)致人工提取的特征判別性不強,從而計數(shù)模型應(yīng)用時預(yù)測效果較差。

        1.2 基于深度學(xué)習(xí)的方法

        近些年,深度學(xué)習(xí)技術(shù)在圖像分類[12]、目標(biāo)檢測[13-14]、語義分割[15]等視覺任務(wù)上的應(yīng)用表現(xiàn)搶眼。相對于使用傳統(tǒng)技術(shù),使用深度學(xué)習(xí)技術(shù)可以使算法的性能得到顯著提升,并且其更擅長處理復(fù)雜場景問題。因此,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的人群計數(shù)方法的研究陸續(xù)開展[16-18],并取得了卓有成效的進(jìn)展。其主要過程是通過卷積神經(jīng)網(wǎng)絡(luò)提取特征,再利用全卷積形式生成包含人群數(shù)量和空間位置信息的人群分布密度圖。

        為了處理多尺度問題,已有模型大多采用多陣列卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)[4-5],通過不同的感受野去提取行人多尺度特征。Sindagi等人[19]提出了一種上下文金字塔網(wǎng)絡(luò)(contextual pyramid CNN,CP-CNN),通過融合全局和局部上下文信息,來提高生成密度圖的質(zhì)量和人數(shù)預(yù)測的精度;Sam 等人[20]提出Switch-CNN(switching convolutional neural network)模型,通過訓(xùn)練密度分類器,將圖像劃分為局部圖像塊,用分類器自適應(yīng)地輸出對應(yīng)等級;Cao等人[21]提出了一種基于編解碼結(jié)構(gòu)的尺度聚焦網(wǎng)絡(luò)(scale aggregation network,SANet),利用多尺度聚焦模塊來提取行人多尺度特征。此類方法的計數(shù)性能相比傳統(tǒng)方法雖然有了很大突破,但是其網(wǎng)絡(luò)結(jié)構(gòu)冗余,參數(shù)量過大,導(dǎo)致模型訓(xùn)練困難。為了簡化網(wǎng)絡(luò)復(fù)雜度和提高訓(xùn)練效率,單列網(wǎng)絡(luò)架構(gòu)重新獲得關(guān)注。Li 等人提出單列計數(shù)網(wǎng)絡(luò)CSRNet(network for congested scene recognition)[22],通過空洞卷積擴(kuò)大感受野,以捕獲多尺度特征同時降低網(wǎng)絡(luò)模型的參數(shù)量。為了解決背景噪聲干擾問題,Liu等人[6]提出了一種用于人群計數(shù)的可形變卷積網(wǎng)絡(luò)(attention-injective deformable convolutional network for crowd understanding,ADCrowdNet),該網(wǎng)絡(luò)融合了注意力機(jī)制,讓模型只關(guān)注人群區(qū)域,從而忽略背景噪聲的干擾。此外,亦有研究通過將圖像語義分割技術(shù)應(yīng)用于人群計數(shù)領(lǐng)域,以去除背景噪聲??傊?,如何增強特征的尺度適應(yīng)性和降低背景噪聲干擾仍然是人群計數(shù)領(lǐng)域目前重點關(guān)注的問題。

        2 CSANet模型

        本文提出的融合通道與空間注意力的人群計數(shù)模型CSANet的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。整體采用了易于端到端訓(xùn)練的編解碼架構(gòu)。其中,編碼器使用VGG16[1]網(wǎng)絡(luò)的前13 層作為主干,構(gòu)建特征提取網(wǎng)絡(luò),提取多個不同深度層次的語義特征,來辨識場景中的多尺度人群;解碼器在逐步恢復(fù)空間信息的同時,將多尺度信息與空間上下文信息充分融合,以增強網(wǎng)絡(luò)的表征能力。并且融入通道與空間注意力模塊,聚焦前景人群區(qū)域,抑制弱相關(guān)背景特征,以生成高質(zhì)量、高分辨率的密度圖進(jìn)行人群計數(shù)。

        圖2 CSANet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Architecture of CSANet

        2.1 編解碼器Encoder-Decoder

        編解碼器包含兩部分,其中編碼器可以提取不同尺度行人特征。為了提取多層次更具有表征能力的深度特征,且易于網(wǎng)絡(luò)的搭建和訓(xùn)練,本部分選取了經(jīng)過預(yù)訓(xùn)練的VGG16 網(wǎng)絡(luò)前13 層作為編碼器的主干網(wǎng)絡(luò)。在訓(xùn)練的過程中,保留4個具有代表性的不同層次深度語義特征Conv2_2、Conv3_3、Conv4_3、Conv5_3,其尺寸分別為原始輸入圖片分辨率的1/2、1/4、1/8、1/16,這些不同深度提取的特征可以捕獲不同尺度的行人信息。隨著網(wǎng)絡(luò)深度遞增,特征圖分辨率逐漸減小,維度逐步增加。解碼器主要用于逐步恢復(fù)圖像空間特征信息與聚焦前景人群區(qū)域。通過解碼恢復(fù)的多層次深度特征與編碼器各階段輸出的對應(yīng)層特征進(jìn)行融合,最大程度上減少卷積和下采樣等操作造成的特征損失,并進(jìn)一步整合空間上下文信息。在融合之后,對特征添加通道與空間注意力,以此來凸出前景人群區(qū)域,抑制弱相關(guān)背景區(qū)域特征的權(quán)重。解碼器對不同階段特征圖進(jìn)行融合主要是對兩個特征圖進(jìn)行通道拼接,特征融合之后新的特征圖分辨率大小不變,通道為兩者之和。其網(wǎng)絡(luò)參數(shù)配置如表1所示。

        表1 網(wǎng)絡(luò)參數(shù)Table 1 Network parameters

        在ConvX_Y(K-C-S)中,X_Y代表卷積所在層的深度,K表示卷積核大小,C為卷積核個數(shù),S為步長。最后輸出的密度圖分辨率大小與原始輸入圖片的相等。Upsampling 使用雙線性插值將分辨率擴(kuò)大至輸入特征的2 倍,Concat 為特征融合操作,將輸入的2 組特征圖進(jìn)行通道拼接,CBAM module 為通道與空間特征注意力模塊。

        2.2 通道與空間注意力模塊

        背景噪聲干擾問題給人群計數(shù)任務(wù)帶來了嚴(yán)峻的挑戰(zhàn),復(fù)雜背景可能極大降低模型的預(yù)測精度。視覺注意力機(jī)制的作用已經(jīng)在大量的工作中被證實,它在關(guān)鍵特征提取以及模型性能增強等方面有著良好的效果。如果將注意力機(jī)制應(yīng)用于人群計數(shù),將有助于模型更加關(guān)注感興趣的人群區(qū)域,從而抑制弱相關(guān)背景信息的影響。Woo 等人[23]提出的CBAM(convolutional block attention module)注意力模型可以在通道和空間兩個維度上添加注意力,相較于單通道域或單空間域注意力,更適合人群計數(shù)任務(wù)。因為人群計數(shù)模型生成的特征圖不僅包含人群數(shù)量信息,還包含空間位置信息。對于一個給定的中間特征圖,CBAM 模塊會沿著通道和空間兩個獨立的維度依次推斷注意力圖,然后將注意力圖與輸入特征圖相乘以進(jìn)行自適應(yīng)特征優(yōu)化來提高感興趣區(qū)域的權(quán)重。添加CBAM 注意力模塊時,一般將其添加到網(wǎng)絡(luò)每個卷積層之后或結(jié)合殘差添加。

        為了增強模型在多層次特征融合之后對人群區(qū)域的聚焦能力,CSANet 網(wǎng)絡(luò)在解碼器部分添加了CBAM注意力模塊,融合方式如圖3所示。編碼器和解碼器提取的特征圖在對應(yīng)層次進(jìn)行通道疊加,以充分整合空間上下文信息,再使用通道與空間注意力模塊,對其前景行人區(qū)域進(jìn)行關(guān)注,并對背景區(qū)域特征權(quán)重進(jìn)行抑制。具體過程為:首先將編碼階段提取的多尺度特征Fe與對應(yīng)層解碼恢復(fù)的特征Fd做特征疊加操作,得到特征累加之后的特征圖F′,如式(1)所示:

        圖3 注意力融合方式Fig.3 Fusing attention method

        其中,⊕為特征通道疊加操作,F(xiàn)′為多層信息融合之后的特征圖,并作為注意力模塊的輸入,然后依次利用通道和空間注意力模塊微調(diào)輸入特征F′,得到最終經(jīng)過加權(quán)之后的特征圖FAtt。通道注意力模塊學(xué)習(xí)通道上的權(quán)重信息,再按通道元素相乘,作為后一階段的輸入;空間注意力模塊學(xué)習(xí)空間權(quán)重,與輸入特征空間相乘,如式(2)和式(3)所示:

        σ為Sigmoid函數(shù),輸入特征圖F∈RC×H×W,通道注意力為Mc∈RC×1×1,為每個單獨通道上的平均池化和最大池化,MLP為多層感知機(jī),這里僅使用了一個隱藏層,其神經(jīng)元個數(shù)為RC/r×1×1,r為參 數(shù)縮減率,r=16 ;空間注意力為為所有通道上的全局平均池化和最大池化,做通道相加操作,f7×7為7×7 卷積。

        2.3 損失函數(shù)

        在訓(xùn)練過程中,使用歐式距離評估真實密度圖與預(yù)測密度圖之間的差異,其定義如式(4)所示:

        N是一次訓(xùn)練圖片的總數(shù)量,Xi為第i張訓(xùn)練圖片,Z(Xi;θ)為第i張圖片的預(yù)測密度圖,其中i∈[1,N],θ為網(wǎng)絡(luò)模型參數(shù),為第i張訓(xùn)練圖片的真實密度圖。

        3 訓(xùn)練方法

        本章將詳細(xì)闡述端到端人群計數(shù)模型CSANet的訓(xùn)練環(huán)境,包括真實密度圖的生成方式、數(shù)據(jù)增強方法以及實驗參數(shù)和硬件配置。

        3.1 真實密度圖

        由于當(dāng)下主流人群計數(shù)數(shù)據(jù)集通常只提供人頭中心點的坐標(biāo)位置信息,而模型對于單個像素點的預(yù)測效率低下,普遍做法是將坐標(biāo)點進(jìn)行區(qū)間擴(kuò)散,以提升模型的學(xué)習(xí)效率。本文使用幾何自適應(yīng)高斯核生成密度圖,作為預(yù)測學(xué)習(xí)的標(biāo)簽,具體如式(5)所示:

        其中,x為當(dāng)前圖像中的每個像素點,xi為第i個人頭中心點坐標(biāo),G(x)為高斯核濾波器,為人頭坐標(biāo)點xi與其最近的K個人頭的平均距離。參照文獻(xiàn)[22]的參數(shù)設(shè)置,將β設(shè)為0.3。

        3.2 數(shù)據(jù)增強

        由于人群數(shù)據(jù)集圖片數(shù)量有限,而標(biāo)注圖片代價過高,為了獲得更多的圖片用于訓(xùn)練,本文在數(shù)據(jù)輸入網(wǎng)絡(luò)之前對數(shù)據(jù)集中的圖片進(jìn)行了一系列數(shù)據(jù)增強操作。具體為對每張圖片隨機(jī)裁剪出分辨率大小為400×400 的局部圖像塊,如圖4 所示。對于邊長不足400 的圖片,對其進(jìn)行雙線性插值,使得邊長增大到400。再對裁剪出的局部圖像塊隨機(jī)進(jìn)行鏡像翻轉(zhuǎn),調(diào)整對比度和灰度來擴(kuò)大數(shù)據(jù)量,以獲得更豐富的訓(xùn)練數(shù)據(jù)。

        圖4 隨機(jī)裁剪示例Fig.4 Example of random cropping

        3.3 實驗設(shè)置

        實驗所使用的操作系統(tǒng)為Windows 10,深度學(xué)習(xí)框架為PyTorch 1.6.0,使用兩塊顯存為11 GB 的NVIDIA-1080Ti顯卡。

        編碼器部分使用基于ImageNet[24]預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)的前13層參數(shù)對網(wǎng)絡(luò)進(jìn)行初始化,其他參數(shù)則利用均值為0,方差為0.01的高斯函數(shù)進(jìn)行隨機(jī)初始化。模型訓(xùn)練過程中,使用學(xué)習(xí)率為1E-4 的Adam優(yōu)化器進(jìn)行模型優(yōu)化,訓(xùn)練迭代次數(shù)收斂即停止。對于UCF-QNRF 數(shù)據(jù)集,其平均尺寸為2 013×2 902,分辨率過大,訓(xùn)練效率低,因此在進(jìn)行數(shù)據(jù)增強之前,本文使用雙線性插值方法將其大小統(tǒng)一調(diào)整至1 024×768。

        4 實驗與分析

        為了驗證算法的有效性和性能,在4個經(jīng)典人群計數(shù)數(shù)據(jù)集上進(jìn)行了實驗。與已有計數(shù)算法相比,CSANet 性能更優(yōu),而且訓(xùn)練過程更加簡單、靈活。本章首先介紹計數(shù)模型的評價指標(biāo),然后簡單描述用于實驗的4個數(shù)據(jù)集的基本情況,并比較分析了各個算法的實驗結(jié)果。

        4.1 評價指標(biāo)

        平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean square error,RMSE)是人群計數(shù)算法常用的評價指標(biāo);MAE 和RMSE 均可以表示預(yù)測人數(shù)與真實人數(shù)的差異程度,但是MAE 通常用來評估模型的準(zhǔn)確性,而RMSE通常用來度量被評估模型的魯棒性。MAE 和RMSE 的值越小,表示模型性能越好,其計算方法如式(6)和式(7)所示:

        其中,N為數(shù)據(jù)集圖像總數(shù);Ci為第i張圖片的預(yù)測人數(shù);為第i張圖片的真實人數(shù)。

        4.2 數(shù)據(jù)集與實驗分析

        4.2.1 ShanghaiTech數(shù)據(jù)集

        ShanghaiTech[5]是一個大型的人群計數(shù)數(shù)據(jù)集,共標(biāo)注了1 198 幅圖像,人頭總數(shù)為330 165 個。按照數(shù)據(jù)來源和場景稀疏程度劃分,可分為Part_A 和Part_B 這兩部分,其中Part_A 隨機(jī)采集自互聯(lián)網(wǎng),人群分布較為密集,共有300幅圖像作為訓(xùn)練集,182幅圖像作為測試集;而Part_B 采集自上海市的部分監(jiān)控視頻,人群分布較為稀疏,有400 幅圖像作為訓(xùn)練集,316幅圖像作為測試集。該數(shù)據(jù)集的實驗結(jié)果如表2所示。

        表2 不同計數(shù)方法在ShanghaiTech數(shù)據(jù)集上的性能比較Table 2 Performance comparison of different methods on ShanghaiTech dataset

        與已有算法相比,CSANet 在Part_A 上的性能指標(biāo)MAE與RMSE均達(dá)到了最優(yōu)值,而在Part_B上,性能僅次于SFANet。總損失變化趨勢如圖5 所示,訓(xùn)練之初由于隨機(jī)程度較高,損失較大,但是隨著模型不斷迭代訓(xùn)練,損失呈現(xiàn)明顯的下降趨勢并趨于穩(wěn)定;Part_A 部分在整體可控范圍內(nèi)波動,Part_B 部分在400次迭代之后基本達(dá)到了穩(wěn)定狀態(tài)。

        圖5 ShanghaiTech數(shù)據(jù)集訓(xùn)練過程Fig.5 Training process on ShanghaiTech dataset

        4.2.2 UCF_QNRF數(shù)據(jù)集

        UCF_QNRF[29]是一個挑戰(zhàn)性極大的數(shù)據(jù)集,場景豐富且人群分布雜亂,共標(biāo)注了1 535 幅圖像,其中訓(xùn)練集有1 201 幅圖像,測試集有334幅圖像,標(biāo)注總?cè)藬?shù)達(dá)到了1 251 642。

        表3顯示了各種人群計數(shù)算法在UCF_QNRF 數(shù)據(jù)集上的實驗結(jié)果。由表3 可見,CSANet 網(wǎng)絡(luò)的兩個性能指標(biāo)MAE 和RMSE 均為最優(yōu),證明CSANet模型在跨場景計數(shù)時具有較好的性能。CSANet 的訓(xùn)練損失曲線如圖6 所示,前500 次迭代的波動較大,500次后逐漸趨于穩(wěn)定。

        圖6 UCF_QNRF數(shù)據(jù)集訓(xùn)練過程Fig.6 Training process on UCF_QNRF dataset

        表3 不同計數(shù)方法在UCF_QNRF數(shù)據(jù)集上的性能比較Table 3 Performance comparison of different methods on UCF_QNRF dataset

        4.2.3 UCF_CC_50數(shù)據(jù)集

        UCF_CC_50數(shù)據(jù)集[33]中的圖像全部采集自互聯(lián)網(wǎng),其場景包括音樂會、游行示威等人群高度密集的場合,總共有50幅不同分辨率、不同視角拍攝的極度密集圖像,共標(biāo)注人頭數(shù)量為63 974 個,每幅圖像標(biāo)注人數(shù)從最低94人到最高4 543 人不等,平均每張圖片標(biāo)注的人頭數(shù)為1 280 個,其數(shù)量遠(yuǎn)超其他人群計數(shù)數(shù)據(jù)集。數(shù)據(jù)集使用5折標(biāo)準(zhǔn)交叉驗證訓(xùn)練,實驗結(jié)果如表4所示。由表4可見,即使是在極端密集的場景中,CSANet 網(wǎng)絡(luò)的計數(shù)準(zhǔn)確性和魯棒性依然優(yōu)于已有模型。

        表4 不同計數(shù)方法在UCF_CC_50數(shù)據(jù)集上的性能比較Table 4 Performance comparison of different methods on UCF_CC_50 dataset

        4.2.4 實驗結(jié)果可視化分析

        為了更好地說明模型的預(yù)測效果,本小節(jié)展示了CSANet網(wǎng)絡(luò)在不同數(shù)據(jù)集上預(yù)測的部分密度圖,如圖7 所示。其中,第1 行圖片選自ShanghaiTechPart_A測試集,代表了高度擁擠和嚴(yán)重背景干擾場景的預(yù)測效果;第2行圖片選自ShanghaiTech Part_B測試集,表示了在正常街道中,人群分布不均時的預(yù)測效果;第3行為UCF_QNRF測試集圖片,來自一個游行集會場景。由絕大多數(shù)場景的可視化表現(xiàn)可知,CSANet 模型生成的人群分布密度圖非常接近真實的人群分布密度圖,說明CSANet具有良好的多尺度特征提取能力和背景噪聲抑制能力。

        圖7 結(jié)果可視化Fig.7 Result visualization

        4.3 消融實驗

        為了驗證CSANet 網(wǎng)絡(luò)中各模塊的有效性,在ShanghaiTech數(shù)據(jù)集上做了相關(guān)的消融實驗,結(jié)果如表5所示。

        表5 ShanghaiTech數(shù)據(jù)集消融實驗Table 5 Ablation study on ShanghaiTech dataset

        主干網(wǎng)絡(luò)為CSANet網(wǎng)絡(luò)中設(shè)計的編解碼部分,由表5 可見,其計數(shù)精度優(yōu)于絕大多數(shù)經(jīng)典計數(shù)網(wǎng)絡(luò),表現(xiàn)出了骨干網(wǎng)絡(luò)強大的特征提取能力。在融入通道與空間注意力模塊之后,CSANet網(wǎng)絡(luò)的計數(shù)效果顯著提升。本節(jié)還對消融實驗的結(jié)果進(jìn)行了可視化,如圖8 所示。由圖8 可見,對于圖中紅色框中的背景區(qū)域部分,主干網(wǎng)絡(luò)已經(jīng)能夠獲得比較準(zhǔn)確的密度圖,但是經(jīng)過注意力前景增強和背景抑制之后可以看出,密度圖的前景部分更加顯著,背景誤差也相對減少。

        圖8 消融實驗結(jié)果可視化Fig.8 Visualization of ablation study results

        5 結(jié)束語

        本文提出了一種融合通道與空間注意力的編解碼人群計數(shù)網(wǎng)絡(luò)CSANet。該模型能夠以端到端的形式進(jìn)行訓(xùn)練,整體采用了編解碼結(jié)構(gòu)以提取多尺度特征和充分融合空間上下文信息,并加以通道與空間注意力模塊來提升前景行人區(qū)域的權(quán)重,并抑制弱相關(guān)背景特征,以此生成高質(zhì)量的密度圖。經(jīng)過實驗分析,證明CSANet網(wǎng)絡(luò)具有良好的準(zhǔn)確性與魯棒性。未來的工作中,將考慮如何采用可形變卷積等方面,更加準(zhǔn)確地聚焦人群區(qū)域,以進(jìn)一步提高人群計數(shù)的精度。

        猜你喜歡
        尺度計數(shù)注意力
        讓注意力“飛”回來
        古人計數(shù)
        遞歸計數(shù)的六種方式
        財產(chǎn)的五大尺度和五重應(yīng)對
        古代的計數(shù)方法
        這樣“計數(shù)”不惱人
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        国模91九色精品二三四| √新版天堂资源在线资源| 人妻少妇无码精品视频区| 免费a级毛片无码a| 中文字幕免费观看视频| 日韩女优一区二区视频| 亚洲最大一区二区在线观看| 少妇熟女天堂网av| 国产亚洲婷婷香蕉久久精品| 国产精品午夜波多野结衣性色| 亚洲成生人免费av毛片| 日本一区二区三区免费精品| 色偷偷噜噜噜亚洲男人| 国产一区二区三区小说| 熟女乱乱熟女乱乱亚洲| 久久777国产线看观看精品 | 久久福利青草精品免费| 丰满人妻中文字幕乱码| 精品国产自在现线看久久| 97无码免费人妻超级碰碰夜夜| 中文字幕国产欧美| 成人在线视频亚洲国产| 国产成人精品无码免费看| 欧美老熟妇喷水| 福利一区视频| 一本色道久久综合亚州精品| 青春草免费在线观看视频| 国产成人精品一区二区三区免费| 国产精品黄色片在线观看| 国产毛片视频一区二区三区在线 | 国产高清天干天天视频| 日本顶级片一区二区三区 | 精品人妻一区二区三区狼人 | 人妻露脸国语对白字幕| 婷婷成人丁香五月综合激情| 亚洲男人av天堂午夜在| 亚洲国产中文在线二区三区免 | 色哟哟网站在线观看| 欧美精品一级| 中文字幕人妻在线少妇完整版| 国产精品久久久久久人妻无|