亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向人群計數(shù)的卷積注意力網(wǎng)絡(luò)模型

        2023-01-13 11:57:56朱宇斌李文根關(guān)佶紅張毅超
        計算機工程與應(yīng)用 2023年1期
        關(guān)鍵詞:實驗

        朱宇斌,李文根,關(guān)佶紅,張毅超

        同濟大學(xué) 計算機科學(xué)與技術(shù)系,上海 201804

        在過去十幾年中,目標(biāo)計數(shù)問題受到專家學(xué)者的廣泛關(guān)注,它旨在分析計數(shù)特定場景中目標(biāo)的數(shù)量。隨著世界人口的爆炸性增長和城市化進程不斷加深,目標(biāo)計數(shù)問題中的人群計數(shù)問題變得越來越重要,對于解決人群聚集等相關(guān)問題具有意義。

        圖1人群計數(shù)技術(shù)發(fā)展時間線Fig.1 Timeline of crowd counting

        人群計數(shù)作為群體事件分析的重要一環(huán),能夠針對特定場景下人群目標(biāo)數(shù)量進行估計,在重大事件的事先告警與事后復(fù)盤中具有重要應(yīng)用。另外,人群計數(shù)方法能夠輔助實現(xiàn)實時預(yù)測場景人數(shù),進而有效減少人群聚集,這對當(dāng)下新冠肺炎疫情的控制具有關(guān)鍵作用。人群計數(shù)旨在計算給定輸入圖片中的人數(shù)。與目標(biāo)檢測、目標(biāo)追蹤等計算機視覺問題不同,人群計數(shù)將重點放在“計數(shù)”上,而無需關(guān)心目標(biāo)的位置。整體來看,現(xiàn)有人群計數(shù)方法主要有三大類[1]:基于檢測的方法、基于回歸的方法和基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法。

        如圖1展示了人群計數(shù)相關(guān)技術(shù)發(fā)展時間線[1]。在人群計數(shù)發(fā)展初期,人們想到如果能夠使用模型準(zhǔn)確地檢測出視頻或圖片中的每個目標(biāo),那么可以很好地計算總數(shù)。故而提出了基于檢測的方法[2-4]。由于其準(zhǔn)確性和模型性能受到圖像分辨率低、目標(biāo)大小不一、目標(biāo)重疊模糊等因素的限制,研究者提出了基于回歸的模型[5-7],進一步提升了計數(shù)效果。然而,回歸模型的相關(guān)方法仍然忽視了空間尺度的相關(guān)信息,僅得到一個計數(shù)結(jié)果,不能學(xué)習(xí)到目標(biāo)的分布,導(dǎo)致其結(jié)果缺乏可信度和可解釋性。近年來,由于基于CNN的模型能夠提取出有效的空間尺度、紋理特征等深層信息,在復(fù)雜監(jiān)控環(huán)境下的圖片和視頻數(shù)據(jù)上表現(xiàn)優(yōu)異,成為人群計數(shù)領(lǐng)域的一大研究熱點。目前,大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的方法都是多列的網(wǎng)絡(luò)結(jié)構(gòu),并使用多任務(wù)學(xué)習(xí)和全監(jiān)督學(xué)習(xí)的方式訓(xùn)練模型。

        為解決人群計數(shù)中存在的背景干擾、目標(biāo)遮擋、目標(biāo)尺度不一和目標(biāo)分布不均等問題,不少專家學(xué)者進行了許多新穎的嘗試和改進[8]。MCNN[9]能夠一定程度上緩解目標(biāo)尺寸大小不一的問題,但對于背景干擾、目標(biāo)遮擋和目標(biāo)分布不均等問題卻沒有很好地解決。Switching CNN[10]通過訓(xùn)練一個回歸器來擬合最終的結(jié)構(gòu),能夠從一定程度上緩解人群計數(shù)問題中目標(biāo)尺度不一和目標(biāo)分布不均的問題,但對于背景干擾和目標(biāo)遮擋兩個問題并沒有得到解決。BL[11]通過直接學(xué)習(xí)標(biāo)注點的分布,從而對背景的干擾進行了屏蔽。同時將網(wǎng)絡(luò)模型的參數(shù)更加高效地用在解決目標(biāo)分布和目標(biāo)尺度問題上,對現(xiàn)有人群計數(shù)算法是一個很好的啟發(fā)——可以通過直接關(guān)注標(biāo)注位置本身學(xué)習(xí)訓(xùn)練模型,來獲得比模糊處理標(biāo)記訓(xùn)練更好的效果。

        目前人群計數(shù)研究仍然存在諸多不足:

        問題1現(xiàn)有方法通常使用高斯模糊預(yù)處理數(shù)據(jù),從而平滑標(biāo)記點,但這種做法會使背景和目標(biāo)變得更加難以區(qū)分,增大了背景干擾帶來的影響。

        問題2目標(biāo)遮擋帶來的計數(shù)誤差問題在領(lǐng)域內(nèi)仍然沒有較好方法來解決。

        問題3從研究現(xiàn)狀可以發(fā)現(xiàn),目前大多數(shù)網(wǎng)絡(luò)模型仍然采用多列網(wǎng)絡(luò)結(jié)構(gòu)。雖然這類方法能夠有效地在每一列提取不同尺度的目標(biāo)特征,但列間存在著大量冗余,并不能有效解決目標(biāo)尺度不一的問題。

        問題4仍然沒有一個有效的方法既能感知目標(biāo)在圖片上的尺度的變化規(guī)律,又能提取圖片中空間上的特征。

        本文旨在針對這些存在的問題提出相應(yīng)的解決方案,進而提高人群計數(shù)的準(zhǔn)確度。

        1 基于相似性度量的卷積注意力網(wǎng)絡(luò)

        針對當(dāng)前人群計數(shù)問題存在的四大難點,提出了一種基于相似性度量的卷積注意力網(wǎng)絡(luò)(similarity measured convolutional attention network,SMCAN)。如圖2展示了SMCAN網(wǎng)絡(luò)的基本結(jié)構(gòu)。該網(wǎng)絡(luò)包含主干網(wǎng)絡(luò)、注意力模塊和回歸卷積層三個模塊,并通過使用基于相似性度量的損失函數(shù)來定義預(yù)測密度圖與真實密度圖之間的損失。

        圖2 SMCAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of SMCAN

        下面將分別介紹SMCAN網(wǎng)絡(luò)三個模塊的功能、結(jié)構(gòu)和技術(shù)細(xì)節(jié)。

        1.1 主干網(wǎng)絡(luò)

        主干網(wǎng)絡(luò)是指整個模型中最開始的若干層,其作用是提取圖片中目標(biāo)的基本特征。主干網(wǎng)絡(luò)的有效性和復(fù)雜程度很大程度上影響最終人群計數(shù)結(jié)果的好壞。因此,在人群計數(shù)問題中,相關(guān)算法模型通常采用預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),并使用遷移學(xué)習(xí)來微調(diào)其參數(shù)。如圖3表示SMCAN網(wǎng)絡(luò)的主干網(wǎng)絡(luò)結(jié)構(gòu),其輸入圖像為原始圖片,依次通過通道數(shù)為64、128、128和512的卷積層,得到大小為原始圖片1/64的輸出層。

        圖3 SMCAN主干網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Backbone network structure of SMCAN

        SMCAN的主干網(wǎng)絡(luò)使用VGG16[12]的前4個卷積層,其權(quán)重通過在ILSVRC16數(shù)據(jù)集上預(yù)訓(xùn)練得到,所以其輸出層包含了原始圖像中深層次的特征,有利于空間和尺度注意力模塊的特征提取。

        1.2 注意力模塊

        如圖4表示SMCAN網(wǎng)絡(luò)的注意力模塊的具體結(jié)構(gòu)。模塊的輸入層大小為C×W×H,其中C、W和H分別代表通道數(shù)、寬度和高度,輸出層的大小與輸入層相同。

        圖4 注意力模塊結(jié)構(gòu)Fig.4 Attention module stracture of SMCAN

        在尺度注意力模塊中,輸入層首先通過一個1×1卷積,將其結(jié)果分別進行變形和變形轉(zhuǎn)置操作生成特征圖F1和F2,其中F1的大小為C×HW,F(xiàn)2的大小為HW×C。之后,將F1與F2相乘,得到大小為C×C的特征圖F3。然后,F(xiàn)3經(jīng)過softmax激活函數(shù)得到特征圖F4。該過程可表示為:

        類似地,在空間注意力模塊中的變換過程可以表示為:

        尺度注意力模塊和空間注意力模塊的不同之處在于:

        (1)從輸入輸出上看,尺度注意力模塊和空間注意力模塊的輸入層和輸出層大小是一致的,但生成特征圖的方法不同。尺度注意力模塊僅使用一個1×1卷積來提取注意力特征,而空間注意力模塊使用了三個。對于尺度注意力模塊,使用同一個卷積核能夠讓該模塊后續(xù)的網(wǎng)絡(luò)結(jié)構(gòu)不需要關(guān)心空間上的變化,而是將重點放在不同尺度上。

        (2)從注意力角度上看,兩個模塊的特征圖F4都蘊含了注意力信息。在尺度注意力模塊中,通過對尺度間相關(guān)性的注意來感知尺度間相似的局部圖案和紋理特征。在空間注意力模塊中,則將關(guān)注重點放在圖片中目標(biāo)的集中區(qū)域和全局呈現(xiàn)的透視現(xiàn)象上,從而提取對應(yīng)的空間注意力特征。

        盡管尺度注意力模塊和空間注意力存在差異,但從整體思路上看,其二者都是將輸入層變形為特定的維度,通過在該維度上的信息自乘得到注意力信息。經(jīng)過對注意力信息和輸入信息的融合,最終得到含有注意力特征的輸出。如果同時使用這兩個模塊來處理圖像,理論上能在一定程度上解決人群計數(shù)中目標(biāo)尺度不一和目標(biāo)分布不均的問題。

        1.3 回歸卷積層

        如圖5所示,SMCAN網(wǎng)絡(luò)的回歸卷積層首先將提取到的尺度和空間注意力特征連接起來,隨后連接一個卷積核大小為1×1、輸出通道數(shù)為1的卷積層。其目的是將注意力模塊得到的信息通過類似于“回歸”的卷積操作得出目標(biāo)的個數(shù),每個位置上的目標(biāo)個數(shù)組合起來便形成了密度圖,不過大小是原始圖片的1/64。最后將回歸卷積得到的密度圖通過插值上采樣方法,生成與原圖大小一致的預(yù)測密度圖。

        圖5 回歸卷積層結(jié)構(gòu)Fig.5 Structure of regression convolutional layer

        1.4 損失函數(shù)

        針對人群計數(shù)問題中背景干擾和目標(biāo)遮擋兩大問題,引入基于相似性度量的損失函數(shù)[13]:

        其中,LMAE(μ,ν)、LEMD(μ,ν)、LTV(μ,ν)分別為平均絕對誤差損失項、推土機距離損失項和全變差距離損失項,λ1和λ2為超參數(shù),分別用于調(diào)節(jié)推土機距離損失和全變差距離損失的權(quán)重。基于推土機距離損失項的優(yōu)勢在于可以直接度量預(yù)測密度圖與真實密度圖之間的相似性,進而替代通過高斯模糊預(yù)處理數(shù)據(jù)來度量預(yù)測密度圖與模糊后的真實密度圖的相似性。基于全變差距離損失項的優(yōu)勢在于可以通過度量概率分布的總體變化來計算預(yù)測密度圖與真實密度圖之間的差異,從而降低由目標(biāo)遮擋帶來的計數(shù)影響。該損失函數(shù)能夠定量計算預(yù)測密度圖與真實密度圖的差異,緩解背景干擾和目標(biāo)遮擋問題。

        2 實驗

        2.1 評價指標(biāo)

        本文使用平均絕對誤差(mean absolute error,MAE)和均方根誤差(mean squared error,RMSE)兩個指標(biāo)來評價人群計數(shù)方法的性能。兩個評價指標(biāo)的計算公式如下:

        其中N為測試圖片的數(shù)量,和分別代表圖片人群數(shù)量的預(yù)測結(jié)果和真實值。嚴(yán)格來說,MAE反映了預(yù)測的準(zhǔn)確性,RMSE反映了預(yù)測的穩(wěn)定性和魯棒性。

        2.2 實驗配置

        為了驗證提出方法在不同場景下的效果,本文將使用三個公開的數(shù)據(jù)集進行實驗。

        (1)Shanghai Tech數(shù)據(jù)集[9]:Shanghai Tech數(shù)據(jù)集最早由MCNN在2016年使用,是大規(guī)模人群計數(shù)數(shù)據(jù)集之一。該數(shù)據(jù)集由1 198張圖像和330 165個標(biāo)注組成,并根據(jù)不同的密度分布,分為Part A和Part B兩部分。Part A包含482張圖片,平均分辨率為589×868;Part B包含716張圖片,平均分辨率為768×1 024。該數(shù)據(jù)集中訓(xùn)練集和測試集的每一張圖片都對應(yīng)一個.mat格式的標(biāo)注文件,其中包含目標(biāo)的位置信息。需要注意的是,Part A圖片的復(fù)雜程度遠(yuǎn)高于Part B,具體表現(xiàn)在目標(biāo)的分布以及數(shù)量上。因此,Part A上的絕對誤差一般比Part B高。

        (2)UCF-QNRF數(shù)據(jù)集[14]:UCF-QNRF是2018年發(fā)表的數(shù)據(jù)集,包含1 535張富有含挑戰(zhàn)性的圖片和125萬個標(biāo)注。圖片的平均分辨率達到了2 013×2 902,平均每張圖片的目標(biāo)數(shù)量為815。

        (3)NWPU數(shù)據(jù)集[15]:NWPU是2020年公開的數(shù)據(jù)集,包含5 109張圖像和2 133 238個標(biāo)注。相比于以往的數(shù)據(jù)集,該數(shù)據(jù)集除了數(shù)據(jù)量更大外,還有負(fù)樣本和高分辨率圖片,圖片的平均分辨率達到2 311×3 383的圖片。

        由于使用高斯模糊對原始圖片中的標(biāo)記點進行平滑處理會對最后網(wǎng)絡(luò)模型的泛化性能造成嚴(yán)重的損傷,實驗將直接采用真實標(biāo)記數(shù)據(jù)替代以往的高斯模糊處理。

        此外,當(dāng)圖片較大、分辨率高和目標(biāo)較多時,經(jīng)過環(huán)境測試發(fā)現(xiàn)單一塊顯卡無法支持大圖片的訓(xùn)練。因此,在不增加實驗成本的情況下,本實驗將UCF-QNRF和NWPU數(shù)據(jù)集中的高清圖片拆分為四部分進行預(yù)測,并將得到的圖片拼接、人數(shù)相加得到最終預(yù)測結(jié)果。

        表1列舉了實驗環(huán)境的各項參數(shù)。在模型訓(xùn)練時,根據(jù)實驗分析,損失函數(shù)中的權(quán)重參數(shù)λ1和λ2分別設(shè)置為0.01和0.1。

        表1 實驗環(huán)境信息Table 1 Information of experimental environment

        2.3 方法對比實驗結(jié)果

        實驗對比了SMCAN網(wǎng)絡(luò)與主流人群計數(shù)模型的性能,包括MCNN[9]、CMTL[16]、Switching CNN[10]、ACSCP[17]、CSRNet[18]和CFF[19]。表2、表3和表4分別展示了各類模型在Shanghai Tech、UCF-QNRF和NWPU數(shù)據(jù)集上的實驗結(jié)果。從表中可以看出,從SMCAN與經(jīng)典人群計數(shù)方法實驗結(jié)果的定量數(shù)據(jù)與對比來看,相比單獨使用相似性度量損失函數(shù)和注意力模塊,SMCAN在Shanghai Tech數(shù)據(jù)集上取得了更好的效果,其Part A的MAE和RMSE均超過了CFF模型。在NWPU上的實驗數(shù)據(jù)也充分說明了SMCAN優(yōu)秀的預(yù)測效果。

        表2 Shanghai Tech數(shù)據(jù)集實驗結(jié)果Table 2 Experimental results on Shanghai Tech

        表3 UCF-QNRF數(shù)據(jù)集實驗結(jié)果Table 3 Experimental results on UCF-QNRF

        表4 NWPU數(shù)據(jù)集實驗結(jié)果Table 4 Experimental results on NWPU

        如圖6對SMCAN網(wǎng)絡(luò)的預(yù)測效果進行了可視化,展示了不同場景下的人群計數(shù)結(jié)果。從預(yù)測的直觀效果來看,SMCAN在3個數(shù)據(jù)集上都取得了較好的預(yù)測效果,其預(yù)測密度圖與真實密度圖分布大致相同,而且計數(shù)結(jié)果較為準(zhǔn)確。特別地,針對圖第一行中目標(biāo)尺度不一,圖第二行、第四行中目標(biāo)分布不均,圖第三行中背景干擾和圖第五行中目標(biāo)遮擋問題,該模型均能較為準(zhǔn)確地預(yù)測。因此,SMCAN通過結(jié)合基于相似性度量的損失函數(shù)和基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模塊,能夠有效解決基于視覺的人群計數(shù)問題存在的四大挑戰(zhàn),具有較高的實用價值。

        圖6 SMCAN預(yù)測效果樣例Fig.6 Samples of SMCAN prediction effects

        2.4 模塊有效性分析實驗結(jié)果

        為了進一步驗證尺度注意力模塊和空間注意力模塊在SMCAN網(wǎng)絡(luò)中的有效性,設(shè)計了如下4組對比實驗:

        組1原始VGG16模型;

        組2 VGG16與尺度注意力模塊組合;

        組3 VGG16與空間注意力模塊組合;

        組4提出的SMCAN網(wǎng)絡(luò)。

        4組實驗均采用基于相似性度量的損失函數(shù)進行訓(xùn)練。表5展示了4組實驗的結(jié)果。分別對比組1和組2、組3和組4可以發(fā)現(xiàn),尺度注意力模塊能夠有效提高人群數(shù)量預(yù)測的準(zhǔn)確性和穩(wěn)定性。另外,分別對比組1和組3、組2和組4可以發(fā)現(xiàn),空間注意力模塊也能夠提高預(yù)測準(zhǔn)確性和穩(wěn)定性。另外還可以發(fā)現(xiàn),SMCAN中基于相似性度量的損失函數(shù)與空間和尺度注意力模塊兼容性良好,從RMSE來看,SMCAN具有較好的穩(wěn)定性。

        表5 實驗結(jié)果對比Table 5 Comparsion of experimental results

        3 總結(jié)

        為了同時解決人群計數(shù)的四大挑戰(zhàn),本文結(jié)合基于相似性度量的損失函數(shù)和基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模塊,提出了一種基于相似性度量的卷積注意力網(wǎng)絡(luò)SMCAN。該網(wǎng)絡(luò)通過將基于推土機距離的損失項、基于全變差距離的損失項、尺度注意力模塊、空間注意力模塊與傳統(tǒng)的VGG16網(wǎng)絡(luò)有機結(jié)合起來,在多個數(shù)據(jù)集上取得了很好的人群計數(shù)效果。

        猜你喜歡
        實驗
        我做了一項小實驗
        記住“三個字”,寫好小實驗
        我做了一項小實驗
        我做了一項小實驗
        記一次有趣的實驗
        有趣的實驗
        小主人報(2022年4期)2022-08-09 08:52:06
        微型實驗里看“燃燒”
        做個怪怪長實驗
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        亚洲国产av精品一区二区蜜芽| 午夜一区二区三区福利视频| 91视色国内揄拍国内精品人妻| 无码视频在线观看| 国产精品 高清 尿 小便 嘘嘘 | 高跟丝袜一区二区三区| 亚洲丝袜美腿精品视频| 亚洲av日韩av女同同性| 久久精品一区二区三区av| 久久男人av资源网站无码| 麻豆国产精品伦理视频| 久久99精品久久久久婷婷| 久久人人爽天天玩人人妻精品| 国产在线拍偷自拍偷精品| 91人妻一区二区三区蜜臀| 日韩视频在线观看| 伊人久久无码中文字幕| 26uuu欧美日本在线播放| 高潮精品熟妇一区二区三区| 国产a国产片国产| 国自产偷精品不卡在线| 最大色网男人的av天堂| 熟女中文字幕一区二区三区| 无码ol丝袜高跟秘书在线观看| 国产精品偷伦免费观看的| 亚洲精品久久麻豆蜜桃| 欧洲熟妇色xxxx欧美老妇性| 色一乱一伦一图一区二区精品| 亚洲精品天堂在线观看| 日本第一影院一区二区| 国产成+人欧美+综合在线观看| 91免费播放日韩一区二天天综合福利电影 | 国内精品国产三级国产avx| 免费午夜爽爽爽www视频十八禁 | 久久久久久久性潮| 欧洲无码一级毛片无遮挡| 国产草逼视频免费观看| 乱色熟女综合一区二区三区| 老汉tv永久视频福利在线观看 | 色欲AV成人无码精品无码| 国产一级内射一片视频免费|