亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多尺度特征融合與注意力機制的人群計數(shù)算法

2022-03-16 00:10:12劉東華魏賓王國棟

青島大學(xué)學(xué)報(自然科學(xué)版) 2022年1期

關(guān)鍵詞：特征融合注意力機制卷積神經(jīng)網(wǎng)絡(luò)

劉東華魏賓王國棟

摘要：針對特征提取過程中缺乏對人群區(qū)域的針對性，不同大小人頭目標(biāo)不能同時檢測以及特征融合時多尺度特征信息丟失問題，提出多尺度注意力模塊，增強特征對高密度人群區(qū)域的關(guān)注。采用多尺度空洞卷積，結(jié)合提出的多通道特征融合模塊，提取更完善的多尺度特征，提高對不同尺寸人頭計數(shù)能力;利用密度圖回歸模塊，融合多尺度特征，減少了多尺度信息的損耗。實驗結(jié)果表明，本算法的計數(shù)結(jié)果更精確穩(wěn)定。

關(guān)鍵詞：圖像處理;卷積神經(jīng)網(wǎng)絡(luò);特征融合;注意力機制

中圖分類號：STP291???????? 文獻標(biāo)志碼：A

近年來，城市化進程不斷推進，城市人口日益增多，各種公共場所人群聚集現(xiàn)象更加頻繁，這使得高密度人群情況下的安全問題亟待解決。為減少意外事故，需要對聚集的人數(shù)進行估計。此外，人群計數(shù)還可以遷移到其他計數(shù)任務(wù)，如細胞計數(shù)、魚群計數(shù)等。隨著深度學(xué)習(xí)的快速發(fā)展，提出了很多卷積神經(jīng)網(wǎng)絡(luò)（Convolutional neural network）[1-6]，并應(yīng)用于人群計數(shù)。當(dāng)前人群計數(shù)面臨的主要問題為人頭尺寸的多變性、復(fù)雜背景干擾以及透視失真。針對透視失真問題。有如下解決方法，如利用自適應(yīng)空洞卷積和自糾正監(jiān)督網(wǎng)絡(luò)，解決透視失真造成的尺度變化問題，糾正點標(biāo)注位置[7];采用多分支金字塔網(wǎng)絡(luò)，提取上下文多尺度特征向量[8];將透視分析方法與計數(shù)網(wǎng)絡(luò)相結(jié)合，挖掘透視信息，促進計數(shù)網(wǎng)絡(luò)進行場景分析[9];將金字塔池模塊進行特征聚合，修復(fù)池化層導(dǎo)致的像素失真[10];利用反透視網(wǎng)絡(luò)，顯式地評估透視失真，均勻地扭曲輸入圖像校正畸變[11]。這些算法雖然在一定程度上解決了透視失真問題，但其效果提升并不明顯，且極大增加了網(wǎng)絡(luò)復(fù)雜度。針對人頭尺寸變化，學(xué)者們嘗試使用多通道或者多任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)提取多尺度特征。Zhang等[12]采用三列不同大小卷積核的卷積神經(jīng)網(wǎng)絡(luò)提取不同尺度的特征。Liu等[13]設(shè)計了一個由兩部分組成的網(wǎng)絡(luò)：檢測網(wǎng)絡(luò)（DNet）和編解碼網(wǎng)絡(luò)（ENet）。DNet在圖像中檢測清晰的人，并覆蓋這些人所在區(qū)域，ENet評估剩余區(qū)域的密度圖。Shi等[14]使用了四個通道的組合提取特征，Zhang等[15]利用多個通道提取不同角度的特征圖。這些網(wǎng)絡(luò)雖然注意到多尺度特征的提取，但其獲取多尺度特征信息時，僅采用多通道的結(jié)構(gòu)，多尺度信息提取不完全，且特征融合時，采用簡單的相加或串聯(lián)操作，導(dǎo)致多尺度信息損耗。前期研究中，針對透視失真、尺度變化問題，提出了不同的解決方法，雖不同程度提高了計數(shù)精確度，仍存在一定缺陷。一方面，僅在網(wǎng)絡(luò)中嵌入多列卷積結(jié)構(gòu)，將多列卷積提取的特征相加或合并，提取的多尺度特征不完善，無法獲取到足夠的多尺度特征信息，不能有效檢測不同大小目標(biāo)。另一方面，數(shù)據(jù)集背景復(fù)雜，且有時背景信息與頭部區(qū)域特征相似，導(dǎo)致誤判。為此，本文采用多尺度空洞卷積網(wǎng)絡(luò)，提出多列特征融合模塊（MsFF），在特征提取時將多尺度特征信息相互融合，促進特征信息的互補和完善;提出密度圖回歸模塊，采用逐步融合策略，減少有用特征信息消損;提出多尺度注意力機制，減小復(fù)雜背景對計數(shù)任務(wù)的影響，增強對目標(biāo)的激活響應(yīng)。

1 算法分析

1.1 基于檢測與基于回歸的算法

人群計數(shù)算法有兩類：基于檢測的算法和基于回歸的算法。其中，基于檢測的方法是早期研究的重點，主要思想是使用滑動檢測窗遍歷整個圖像，定位和統(tǒng)計滑動窗口中的人數(shù)[16]。檢測器主要通過支持向量機（Support vector machine）、隨機森林、Boosting等方法訓(xùn)練得到，提取低層特征，如哈爾小波（Haar wavelet）[17]或方向梯度直方圖（Histogram of oriented gradient）[18]檢測行人。由于圖像中人的互相遮擋和模糊，檢測整體行人具有很大的挑戰(zhàn)性。后續(xù)研究通過檢測身體的一部分定位目標(biāo)，如肩膀和頭部，與檢測整體相比，只檢測部分人體的方法取得更高的精度。這種基于檢測的方法在稀疏人群圖像上表現(xiàn)良好，然而，隨著人群密度增加，人與人之間的相互遮擋越來越嚴重，給檢測精度帶來巨大挑戰(zhàn)。因此，基于檢測的方法不適用于高密度人群場景。而基于回歸的算法是通過學(xué)習(xí)特征得到人數(shù)的映射，完成人群計數(shù)任務(wù)。該類算法一般由特征提取和回歸模型兩部分構(gòu)成：提取低層特征，如邊緣特征、紋理特征等;利用線性回歸或嶺回歸等回歸模型得到特征與人數(shù)的映射關(guān)系。這種使用可學(xué)習(xí)的參數(shù)估計人數(shù)的方法明顯優(yōu)于檢測方法。

針對檢測方法無法充分檢測的問題，Zhang等[12]提出基于密度圖回歸的算法。密度圖回歸是指根據(jù)圖像中人頭的坐標(biāo)，估計人頭的大小并得到人頭區(qū)域，進而使用高斯核模糊該人頭區(qū)域得到區(qū)域內(nèi)可能是人頭的概率，每個人頭模糊后概率總和為1，區(qū)域內(nèi)概率總和即為該區(qū)域內(nèi)的人數(shù)。假設(shè)人頭部的中心在像素xi

（a）??????????????? （b）

圖1 原始圖像及對應(yīng)的密度圖

（a）原始圖像;（b）密度圖

處，使用δ函數(shù)δx-xi表示。一張有N個人頭標(biāo)注的人群圖像可表示為

H（x）=∑Ni=1δx-xi （1）

對于高人群密度的數(shù)據(jù)集，如ShanghaiTech數(shù)據(jù)集的A部分和UCF_CC_50數(shù)據(jù)集，用幾何自適應(yīng)高斯核模糊處理每個頭部注釋，生成密度圖

F（x）=∑Ni=1δx-xi*Gσix（2）

其中，Gσi是幾何自適應(yīng)高斯核，σi=βi，i表示人頭xi與其最近的3個頭部注釋點之間距離的平均值，在本文中，β設(shè)為0.3。對于人群稀疏的ShanghaiTech數(shù)據(jù)集的B部分，本文使用固定標(biāo)準差15的高斯核成密度圖。原始圖像及對應(yīng)的密度圖如圖1所示。

1.2 注意力機制

注意力機制是人類視覺系統(tǒng)的特有機制，人類大腦在處理獲取的視覺信號時，會篩選出最值得關(guān)注的信息，過濾部分無用信息。計算機視覺模仿人的視覺特性，將注意力機制應(yīng)用到深度學(xué)習(xí)中，為特征分配重要權(quán)重，促使特征提取過程傾向于注意有用信息，忽略冗余和噪聲。在人群計數(shù)任務(wù)中，錯綜復(fù)雜的背景會被誤認為人頭，影響計數(shù)結(jié)果的準確性，這是因為在編碼過程中，部分背景特征可能與人頭相似，回歸模型解碼時，將部分背景判斷為人。因此，引入多尺度注意力機制，在前期特征編碼時，有效區(qū)分背景和人群并兼顧多尺度特征的提取，減少錯誤計數(shù)。

2 算法實現(xiàn)

2.1 總體結(jié)構(gòu)

本文算法的具體步驟為：圖像首先進入主干網(wǎng)絡(luò)提取淺層特征，主干網(wǎng)絡(luò)由VGG16前10層和多尺度注意力模塊構(gòu)成，VGG16具有優(yōu)秀的特征提取能力且結(jié)構(gòu)簡單，僅由3×3卷積層（conv）和最大池化層（Max Pooling Layer）構(gòu)成，VGG16使用3×3串聯(lián)卷積，參數(shù)比單獨使用大卷積核少。同時，比單個卷積層包含更多非線性變換。VGG16提取的特征接著輸送到多尺度注意力模塊中，提取全局注意力和局部注意力權(quán)重，與輸入特征融合。主干網(wǎng)絡(luò)的輸出是輸入圖像的1/8，因為VGG16前10層中包括3個最大池化層。

圖2（a）多列特征融合模塊以主干網(wǎng)絡(luò)輸出的淺層特征為輸入，使用空洞率分別為1，2，3的3列空洞卷積提取多尺度特征，并在特征提取后將不同尺度特征相互融合，彼此完善、互補特征信息。提取到的多尺度特征圖{M1，M2，M3}，被輸入到圖2（b）密度圖回歸模塊，進行兩步融合，回歸輸出預(yù)測密度圖。

（a）多列特征融合網(wǎng)絡(luò);（b）密度圖回歸模塊

圖3 MSA模塊結(jié)構(gòu)

2.2 多尺度注意力機制

VGG16前10層提取的特征圖不包含注意力信息，不能有效區(qū)分前景和背景，為防止背景對計數(shù)精度的干擾，引入多尺度注意力機制，并命名為MSA。MSA模塊提取兩種尺度的注意力權(quán)重：局部注意力權(quán)重和全局注意力權(quán)重，具體結(jié)構(gòu)如圖3所示。

MSA模塊有3個分支，上分支提取全局注意力，首先使用全局平均池化處理輸入特征，得到一個C×1×1的向量（C為輸入特征通道數(shù)），然后使用1×1卷積加權(quán)，加權(quán)后的向量使用ReLU激活函數(shù)激活后再用 1×1卷積加權(quán)，輸出全局注意力向量;中間分支提取局部注意力，其輸出是一個與輸入特征尺寸相同的特征圖。將輸入特征用1×1卷積加權(quán)后，經(jīng)ReLU激活函數(shù)激活特征，再用1×1卷積加權(quán)，得到最終輸出。全局注意力和局部注意力相加后，經(jīng)Sigmoid激活函數(shù)激活，與殘差分支相加。多尺度注意力機制可有效強化不同尺寸的頭部區(qū)域特征，抑制背景區(qū)域特征。

2.3 多尺度特征融合網(wǎng)絡(luò)

傳統(tǒng)算法中，只通過一個多列卷積神經(jīng)網(wǎng)絡(luò)提取多尺度特征，然后將不同列的特征串聯(lián)，這種方式所提取的多尺度特征不夠完善。為解決這一問題，本文設(shè)計了多尺度特征融合網(wǎng)絡(luò)，并命名為MsFF，核心思想是基于每一列獨立的特征提取過程，實現(xiàn)特征信息互通共享，3個獨立的通道，分別使用空洞率為1，2，3的空洞卷積提取特征?？斩淳矸e首次提出于圖像分割領(lǐng)域，在語義切分上取得很好的效果，得到廣泛應(yīng)用?？斩淳矸e的引入可以在不增加參數(shù)量的情況下，有效增加感受野，靈活地聚合多尺度信息，同時保持相同的分辨率?？斩绰蕿閞的空洞卷積的感受野尺寸為k+（k-1）（r-1）。例如，空洞率為3的3×3空洞卷積的感受野為49。普通3×3卷積的感受野僅為9。不同空洞率的卷積有不同大小的感受野，可以感知不同尺寸的目標(biāo)，每一階段特征提取后，每一列利用其他列的特征信息完善自身提取的特征。

1）多尺度特征融合網(wǎng)絡(luò)以主干網(wǎng)絡(luò)提取的淺層特征為輸入，進行三階段特征融合。第一階段，分別使用空洞率為1，2，3的3×3空洞卷積處理輸入特征，得到特征圖{F1，F(xiàn)2，F(xiàn)3}，將一，二通道（空洞率為1和2的通道）的特征相互融合，融合后的特征圖與第三通道的特征繼續(xù)用空洞卷積處理，得到特征圖{Q1，Q2，Q3}

Qi=conv_iF1+convF2+convcatF1，F(xiàn)2，i=1conv_iF2+convF1+convcatF1，F(xiàn)2，i=2conv_iF3，i=3（3）

其中，conv_i代表空洞率為i的3×3空洞卷積，conv表示1×1的普通卷積操作，cat是串聯(lián)操作。

2）第二階段為三個通道特征的相互融合，輸入特征為{Q1，Q2，Q3}，輸出特征圖是{D1，D2，D3}

Di=conv_i∑j≠iconvQj+convcatQ1，Q2，Q3，i=1，2，3（4）

3）第三階段重復(fù)了第二階段的所有操作。將特征相互融合后，各個通道的特征都得到完善，包含的多尺度特征信息更豐富。

2.4 密度圖回歸

密度圖回歸模塊的提出旨在減少密度圖回歸過程中多尺度特征的丟失。如圖2（b）所示，多尺度特征融合網(wǎng)絡(luò)有3個輸出{M1，M2，M3}。分別將M1，M2和M2，M3串聯(lián)（concatenation），然后使用1×1卷積和3×3卷積將通道數(shù)減少到1，得到初步密度圖d1和d2。最后，使用3×3卷積將d1加權(quán)處理，并融合到d2中，最終生成的密度圖包含了所有列的多尺度特征

d=α1γ1catM2，M3+ωα2γ2catM1，M2（5）

其中，d為最終預(yù)測密度圖，cat是串聯(lián)操作，{w，α1，α2，γ1，γ2}為卷積學(xué)習(xí)的參數(shù)。

2.5 損失函數(shù)

為了度量真值密度圖與該方法生成的密度圖之間的相似性，本文使用歐氏距離作為損失函數(shù)。歐氏距離能有效衡量真值圖與預(yù)測密度圖的差距，監(jiān)督參數(shù)往縮小差距方向?qū)W習(xí)[5，12]。損失函數(shù)

Lθ=12N∑Ni=1GiIi;θ-Pi22（6）

其中，θ是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的參數(shù)，N是訓(xùn)練圖像的總數(shù)，Gi（Ii，θ）和Pi分別代表第i張訓(xùn)練圖像的真實密度圖和預(yù)測密度圖，Ii表示第i張訓(xùn)練圖像。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

ShanghaiTech數(shù)據(jù)集包括1 198張圖像，共330 165個頭部標(biāo)注點，頭部標(biāo)注的數(shù)量是最大的數(shù)據(jù)集[12]。ShanghaiTech數(shù)據(jù)集分為A、B兩部分。A部分是互聯(lián)網(wǎng)上收集的高密度人群圖像，共有241 677個頭部注釋，單張圖像中頭部注釋的數(shù)量范圍從33到3 139，圖像的分辨率不固定，A部分共有482張圖像，其中300張用于訓(xùn)練，182張用于測試。B部分取自上海街道的監(jiān)控攝像頭，人群密度低。每幅圖像的分辨率為768×1 024。B部分共有716張圖像，其中400張用于訓(xùn)練，316張用于測試。

UCF_CC_50數(shù)據(jù)集[19]共包含50張圖像，每張圖像平均有1 280個頭部注釋。由于該數(shù)據(jù)集中圖像數(shù)量相對較少，且人群密度高，具有很大挑戰(zhàn)性。此數(shù)據(jù)集共有63 705個頭部標(biāo)注。每張圖像中頭部標(biāo)注數(shù)量范圍為94到4 543。UCF_CC_50數(shù)據(jù)集的50幅圖像均為互聯(lián)網(wǎng)上的公共圖像，具有不同的場景和密度，以及不同角度的扭曲。圖像中的場景包括抗議、馬拉松、體育場、音樂會和朝圣。在UCF_CC_50數(shù)據(jù)集上訓(xùn)練和測試時，本文將數(shù)據(jù)集分成10組，進行5次交叉驗證，計算5次測試的平均MAE和MSE評價本算法。

3.2 實驗參數(shù)

實驗使用NVIDIA Tesla K80顯卡，在Pytorch框架上訓(xùn)練網(wǎng)絡(luò)參數(shù)，采用隨機梯度下降（SGD）優(yōu)化算法優(yōu)化參數(shù)[20]。網(wǎng)絡(luò)輸出的密度圖的大小是輸入的1/8，因為網(wǎng)絡(luò)中使用的預(yù)訓(xùn)練VGG16包括3個最大池化層。為增強數(shù)據(jù)集，將訓(xùn)練集的圖像復(fù)制為原始圖像的4倍，將圖像順序洗牌，作為新訓(xùn)練集。在訓(xùn)練過程中，從訓(xùn)練集的原始圖像中隨機選取1/4的裁剪圖像塊，按一定幾率翻轉(zhuǎn)處理作為網(wǎng)絡(luò)輸入。經(jīng)過反復(fù)實驗，翻轉(zhuǎn)的概率設(shè)為0.2。這種數(shù)據(jù)增強方法可以保證每次訓(xùn)練的數(shù)據(jù)不同，有效防止過擬合。

3.3 評估指標(biāo)

用平均絕對誤差（MAE）和均方誤差（MSE）評測算法的計數(shù)能力

MAE=1M∑Mi=1Ri-RGTi（7）

MSE= 1M∑Mi=1Ri-RGTi2（8）

其中，M表示測試集中圖像總數(shù)，Ri和RGTi分別表示第i張圖像的預(yù)測人數(shù)和真實人數(shù)。MAE和MSE的值越低，算法的性能越好。

3.4 對比實驗

為證明算法的有效性，在ShanghaiTech數(shù)據(jù)集和UCF_CC_50數(shù)據(jù)集上進行充分實驗，結(jié)果見表1。

本方法在ShanghaiTech的A部分的MAE和MSE分別達到63.8和99.3，均優(yōu)于其他對比算法，與深度卷積神經(jīng)網(wǎng)絡(luò)（D-ConvNet）相比，MAE降低了12.1%;在B部分中，本文的MAE和MSE分別為8.5和14.4。這是因為本文提出的算法引入多尺度注意力機制抑制了背景信息的影響，同時設(shè)計多尺度特征融合網(wǎng)絡(luò)，提取了更豐富的多尺度特征信息。在UCF_CC_50數(shù)據(jù)集上，平均絕對誤差和均方誤差分別為207.1和273.3，遠遠領(lǐng)先其他對比算法，相比于檢測評估網(wǎng)絡(luò)（DENet），本算法的平均絕對誤差降低了34.8，均方誤差降低了72.1。這表明本算法在不同數(shù)據(jù)集上具有良好的泛化能力，部分預(yù)測結(jié)果如圖4所示。

3.5 消融實驗

為了測試不同主干網(wǎng)絡(luò)對實驗效果的影響，本文分別使用幾何組網(wǎng)絡(luò)（VGG）的前13層，殘差網(wǎng)絡(luò)（ResNet），谷歌網(wǎng)絡(luò)（GoogLeNet）替換算法主干網(wǎng)絡(luò)中VGG前10層，在上海科技數(shù)據(jù)集的A部分上測試;為驗證多尺度注意力機制（MSA）和多尺度特征融合模塊（MsFF）的有效性，分別將網(wǎng)絡(luò)中的多尺度注意力機制和多尺度特征融合模塊刪除，對比實驗結(jié)果見表2。可以看出，以VGG前10層作為主干網(wǎng)絡(luò)效果最好，在此基礎(chǔ)上去掉MSA和MsFF模塊，效果均下降。

4 結(jié)論

本文提出一種新的基于密度圖回歸的卷積神經(jīng)網(wǎng)絡(luò)解決人群計數(shù)問題，引入多尺度注意力機制，學(xué)習(xí)特征圖不同區(qū)域的重要程度;采用多尺度空洞卷積網(wǎng)絡(luò)和多列交叉特征融合提取多尺度特征，獲取包含完整的多尺度信息的特征。融合后的多尺度特征對尺度變化具有良好魯棒性;設(shè)計了密度圖回歸模塊，防止多尺度信息弱化，充分解決了圖像中相互遮擋和尺寸多樣性問題。實驗結(jié)果表明，該方法生成的密度圖較對比算法更為精確，充分證明了本算法的魯棒性。但本算法無法有效解決透視失真問題，在下一步的研究中，將設(shè)計高效的失真處理模塊，消除圖像透視造成的畸變。

參考文獻

[1]SZEGEDY C， LIU W， JIA Y， et al. Going deeper with convolutions[C]// IEEE Conference on Computer Vision and Pattern Recognition， Boston， 2015： 1-9.

[2]SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[DB/OL]. [2021-04-29]. https：//arxiv.org/abs/1409.1556.

[3]HE K M， ZHANG X Y， REN S Q， et al. Deep residual learning for image recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition， Las Vegas， 2016： 770-778.

[4]ZHU X Z， HU H， LIN S， et al. Deformable ConvNets V2： More deformable better results[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition， Long Beach， 2019： 9308-9316.

[5]陳磊，王國棟.用于人群密度估計的多級融合卷積神經(jīng)網(wǎng)絡(luò)[J].青島大學(xué)學(xué)報（自然科學(xué)版），2020，33（4）：31-36.

[6]鞠成國，王國棟.用于人體實例分割的卷積神經(jīng)網(wǎng)絡(luò)[J].青島大學(xué)學(xué)報（自然科學(xué)版），2021，34（1）：34-39.

[7]BAI S， HE Z Q， QIAO Y， et al. Adaptive dilated network with self-correction supervision for counting[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition， Seattle， 2020： 4593-4602.

[8]YANG Y F， LI G R， WU Z， et al. Weakly-supervised crowd counting learns from sorting rather than locations[C]// European Conference on Computer Vision， Online， 2020： 1-17.

[9]YANG Y F， LI G R， DU D W， et al. Embedding perspective analysis into multi-column convolutional neural network for crowd counting[J]. IEEE Transactions on Image Processing， 2020， 30： 1395-1407.

[10] WANG Z， XIAO Z H， XIE K， et al. In Defense of single-column networks for crowd counting[DB/OL]. [2021-04-10]. https：//arxiv.org/abs/1808.06133.

[11] YANG Y F， LI G R， WU Z， et al. Reverse perspective network for perspective-aware object counting[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition， Electr Network， 2020： 4373-4382.

[12] ZHANG Y Y， ZHOU D S，? CHEN S Q， et al. Single-image crowd counting via multi-column convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition， Seatlle， 2016： 589-597.

[13] LIU L， JIANG W， JIA W J， et al. Denet： A universal network for counting crowd with varying densities and scales[J]. IEEE Transactions on Multimedia， 2021， 23： 1060-1068.

[14] SHI M J， YANG Z H， XU C， et al. Revisiting perspective information for efficient crowd counting[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）， Long Beach， 2019： 7271-7280.

[15] ZHANG Q， CHAN A B. Wide-area crowd counting via ground-plane density maps and multi-view fusion CNNs[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）， Long Beach， 2019： 8289-8298.

[16] 王亮亮，王國棟，趙毅，等.基于車窗特征的快速車輛檢測算法[J].青島大學(xué)學(xué)報（自然科學(xué)版），2019，32（3）：1-7.

[17] VIOLA P， JONES M J. Robust real-time face detection[J]. International Journal of Computer Vision， 2004， 57（2）： 137-154.

[18] DALAL N， TRIGGS B. Histograms of oriented gradients for human detection[C]//Conference on Computer Vision and Pattern Recognition， San Diego， 2005： 886-893.

[19] IDREES H， SALEEMI I， SEIBERT C， et al. Multi-source multi-scale counting in extremely dense crowd images[C]// 26th IEEE Conference on Computer Vision and Pattern Recognition， Portland， 2013： 2547-2554.

[20] PASZKE A， GROSS S， MASSA F， et al. Pytorch： An imperative style， high-performance deep learning library[C]//33 rd Conference on Neural Information Processing Systems，Vancouver，2019.

[21] SAM D B， SURYA S， BABU R V. Switching convolutional neural network for crowd counting[C]// 30th IEEE Conference on Computer Vision and Pattern Recognition， Honolulu， 2017： 4031-4039.

[22] SINDAGI V A， PATEL V M. Generating high-quality crowd density maps using contextual pyramid CNNs[C]// 16th IEEE International Conference on Computer Vision， Venice， 2017： 1879-1888.

[23] SAM D B， SAJJAN N N， BABU R V， et al. Divide and grow： Capturing huge diversity in crowd images with incrementally growing CNN[C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition， Salt Lake City， 2018： 3618-3626.

[24] LI Y H， ZHANG X F， CHEN D M. Csrnet： Dilated convolutional neural networks for understanding the highly congested scenes[C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition， Salt Lake City， 2018： 1091-1100.

[25] RANJAN V， LE H， HOAI M. Iterative crowd counting[C]// 15th Proceedings of the European Conference on Computer Vision （ECCV）， Munich， 2018： 270-285.

[26] ZHANG L， SHI Z L， CHENG M M， et al. Nonlinear regression via deep negative correlation learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2021， 43（3）： 982-998.

[27] LIU Y T， SHI M J， ZHAO Q J， et al. Point in， box out： Beyond counting persons in crowds[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）， Long Beach， 2019： 6462-6471.

[28] DING X H， HE F J， LIN Z R， et al. Crowd density estimation using fusion of multi-layer features[J]. IEEE Transactions on Intelligent Transportation Systems， 2020，99（8）： 4776-4787.

[29] 杜培德，嚴華.基于多尺度空間注意力特征融合的人群計數(shù)網(wǎng)絡(luò)[J].計算機應(yīng)用，2021，41（2）：537-543.

Crowd Counting Algorithm Based on Multi Scale Feature

Fusion and Attention Mechanism

LIU Dong-huaa， WEI Binb， WANG Guo-donga

（a. College of Computer Science and Technology， b. Key Laboratory of Digital Medicine and

Computer Aid， Affiliated Hospital， Qingdao University， Qingdao 266071， China）

Abstract：

Due to the lack of pertinence to the crowd area in the process of feature extraction， human heads of different sizes cannot be detected at the same time. And multi-scale feature information is lost during feature fusion. A multi-scale attention module was proposed to enhance the attention of features to high-density crowd areas. Multi-scale dilated convolution was used to extract more perfect multi-scale features and improve the counting ability of heads of different sizes by combining with the proposed multi-channel feature fusion module. Density map regression module was proposed to gradually integrate multi-scale features and reduce the loss of multi-scale information.? Experimental results show that the counting results of this algorithm are more accurate and stable.

Keywords：

image processing; convolutional neural network; feature fusion; attention mechanism

收稿日期：2021-05-11

基金項目：

山東省自然科學(xué)基金（批準號：ZR2019MF050）資助。

通信作者：王國棟，男，博士，副教授，主要研究方向為變分圖像科學(xué)、人臉識別、三維重建和醫(yī)學(xué)圖像處理和分析等。E-mail：doctorwgd@gmail.com

1837501186290