亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多層次融合與注意力機(jī)制的人群計(jì)數(shù)算法

        2023-01-17 09:00:40孫艷歌郭華平
        關(guān)鍵詞:尺度計(jì)數(shù)注意力

        李 萌, 孫艷歌, 郭華平, 吳 飛

        (信陽(yáng)師范學(xué)院 計(jì)算機(jī)與信息技術(shù)學(xué)院, 河南 信陽(yáng) 464000)

        0 引 言

        中國(guó)是世界上人口數(shù)量眾多的國(guó)家, 其過(guò)高的人口密度對(duì)維護(hù)城市安全、 預(yù)防緊急公共事件都帶來(lái)很大困難。2020年一場(chǎng)突如其來(lái)的疫情改變了人們正常的生產(chǎn)生活秩序, 人群的過(guò)度聚集引發(fā)了很多起集中性的感染案例。例如, 在工業(yè)園區(qū)入口、 高校餐廳、 商場(chǎng)等人員密集場(chǎng)所, 由于人員的過(guò)度聚集, 造成了大量的集中性感染, 給疫情防控帶來(lái)了嚴(yán)峻的挑戰(zhàn)。目前, 在疫情防控常態(tài)化、 規(guī)范化下, 嚴(yán)格控制各公共場(chǎng)所中的人員數(shù)量是一種有效切斷疫情傳播鏈的方法。而通過(guò)在人群易聚集的公共場(chǎng)所布置攝像設(shè)備, 應(yīng)用人群計(jì)數(shù)的方法, 可高效快捷地統(tǒng)計(jì)出實(shí)時(shí)人群信息, 相關(guān)人員可及時(shí)地對(duì)人群密集的場(chǎng)所施行引流、 分流、 限制出入等措施, 可有效控制疫情集中性擴(kuò)散的風(fēng)險(xiǎn)。因此, 如何從圖像或視頻中及時(shí)準(zhǔn)確地估計(jì)人群數(shù)目與密度是非常值得研究的課題。

        透視效應(yīng)是人群計(jì)數(shù)問(wèn)題中不可忽視的關(guān)鍵問(wèn)題, 由于不同人群距離監(jiān)控設(shè)備之間的遠(yuǎn)近不同, 在一張人群圖像中會(huì)存在多個(gè)尺度的人群, 對(duì)人群計(jì)數(shù)的精度產(chǎn)生干擾。為解決透視效應(yīng)引起的人群尺度變化問(wèn)題, 人們利用多列卷積(MCNN: Multi-Column Convolutional Neural Network)或在不同卷積層上使用不同尺度的卷積核應(yīng)對(duì), 或采用擴(kuò)張卷積替換不同的卷積核, 但上述方法仍存在許多不足, 不能完善地解決尺度變化問(wèn)題。多列卷積會(huì)使網(wǎng)絡(luò)變得更加復(fù)雜, 計(jì)算復(fù)雜度的急劇增加將導(dǎo)致模型難以收斂或梯度爆炸等問(wèn)題。Li等[1]提出在MCNN中由不同列卷積得到的特征幾乎相同, 其對(duì)解決尺度變化問(wèn)題的貢獻(xiàn)很小。基于上述討論, 為更好地學(xué)習(xí)到不同尺度上的特征, 筆者采用一種編解碼網(wǎng)絡(luò)在不同層級(jí)的卷積上提取不同尺度的特征, 以應(yīng)對(duì)透視效應(yīng)帶來(lái)的尺度變化問(wèn)題。通過(guò)對(duì)編解碼網(wǎng)絡(luò)遷移預(yù)訓(xùn)練后的VGG16(Visual Geometry Group Network)[2]參數(shù), 降低網(wǎng)絡(luò)的復(fù)雜度。

        由于人群場(chǎng)景的復(fù)雜性, 樹(shù)木、 車(chē)輛等復(fù)雜背景會(huì)導(dǎo)致人群圖像存在大量遮擋, 只應(yīng)用人群密度圖對(duì)抗背景的干擾并不完善, 難以達(dá)到對(duì)人群區(qū)域的特征增強(qiáng)效果。大多工作只考慮了高層卷積對(duì)高級(jí)語(yǔ)義信息的提取, 而低層卷積對(duì)遮擋邊緣細(xì)節(jié)的提取常常被忽略。受多層次注意力模塊[3]的啟發(fā), 在不同的卷積層次上融合提取到的尺度注意力, 以對(duì)抗復(fù)雜背景的干擾。

        人群圖像經(jīng)過(guò)多次池化后, 其空間分辨率急劇下降, 丟失了大量的空間信息, 影響人群密度圖的生成。因此, 筆者在網(wǎng)絡(luò)的末端使用轉(zhuǎn)置卷積的方法對(duì)空間信息進(jìn)行補(bǔ)充, 并提高了圖像分辨率?;谏鲜? 筆者提出了一種多層次融合與注意力機(jī)制的人群計(jì)數(shù)算法(MLFAM: Multi-Level Fusion and Attention Mechanism Based Crowd Counting Algorithm), 其貢獻(xiàn)主要包括3個(gè)方面: 1) 引入編解碼網(wǎng)絡(luò)對(duì)人群圖像的高層語(yǔ)義信息和低層邊緣特征進(jìn)行提取并生成尺度注意力, 由于不同層級(jí)的卷積包含不同的語(yǔ)義信息與尺度特征, 高低層特征的融合可有效解決由透視效應(yīng)引發(fā)的尺度變化問(wèn)題; 2) 提出多層次融合模塊在多個(gè)卷積層次上融合尺度注意力以對(duì)抗人群圖像中存在的嚴(yán)重遮擋與尺度變化問(wèn)題; 3) 在解碼層和網(wǎng)絡(luò)的末端使用反池化與轉(zhuǎn)置卷積恢復(fù)由編碼層多層池化引起的分辨率下降、 空間信息與全局信息丟失等問(wèn)題, 以生成更高質(zhì)量的人群密度圖。應(yīng)用遷移學(xué)習(xí)的思想, 在編解碼層中遷移了預(yù)訓(xùn)練后的VGG16參數(shù), 有效地降低了計(jì)算復(fù)雜度與網(wǎng)絡(luò)復(fù)雜度。

        1 相關(guān)工作

        影響人群計(jì)數(shù)的主要因素是人群尺度變化、 復(fù)雜背景干擾等。為解決上述問(wèn)題帶來(lái)的計(jì)數(shù)精度下降, 目前人們采用如下方法進(jìn)行研究。

        1.1 傳統(tǒng)方法

        傳統(tǒng)方法分為基于回歸和基于檢測(cè)兩大類(lèi)。基于檢測(cè)方法的主要思想是先檢測(cè)到每個(gè)行人, 再對(duì)行人數(shù)量進(jìn)行相加, 得到總?cè)藬?shù)。Dollar等[4]使用類(lèi)似于滑動(dòng)窗口的方式從圖像中提取特征, 再通過(guò)分類(lèi)器對(duì)行人進(jìn)行識(shí)別, 最后將人數(shù)相加得到總?cè)藬?shù)。該方法在面對(duì)稀疏的人群場(chǎng)景時(shí)可以得到較好的結(jié)果, 但真實(shí)人群圖往往十分擁擠, 且行人間存在著嚴(yán)重的互相遮擋, 無(wú)法提取到完整的行人特征。因此, Felzenszealb等[5]設(shè)計(jì)與訓(xùn)練了一個(gè)只利用人體部分特征判斷的分類(lèi)器, 但該分類(lèi)器在面對(duì)高密度的人群場(chǎng)景時(shí), 仍存在較為嚴(yán)重的誤差。為解決上述方法在應(yīng)對(duì)高密度人群場(chǎng)景時(shí)的缺陷, Chen等[6]提出了一種自適應(yīng)的回歸預(yù)測(cè)方法, 通過(guò)從人群場(chǎng)景中提取的特征學(xué)習(xí)圖像特征到人群數(shù)量之間的映射關(guān)系。

        綜上, 傳統(tǒng)方法主要依賴(lài)人工提取的特征對(duì)行人進(jìn)行識(shí)別, 但該類(lèi)方法不能很好反應(yīng)人群圖像的真實(shí)情況, 且容易受到多尺度、 背景復(fù)雜等問(wèn)題的干擾, 對(duì)人群計(jì)數(shù)的精度產(chǎn)生影響, 在實(shí)際應(yīng)用中的預(yù)測(cè)效果較差。

        1.2 基于深度學(xué)習(xí)方法

        近年來(lái), 隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)任務(wù)[7-10]中的不斷發(fā)展, 應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)對(duì)人群圖像進(jìn)行特征提取與人數(shù)預(yù)測(cè)是目前最為有效的方法。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)提取的深度特征生成包含有人群空間與數(shù)量信息的人群密度圖, 再對(duì)密度圖逐像素求和得到總?cè)藬?shù)。針對(duì)人群圖像中的尺度變化問(wèn)題, Zhang等[11]提出的多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)使用多尺寸的卷積核提取不同感受野的特征。類(lèi)似地, Sam等[12]提出了一種密度分類(lèi)網(wǎng)絡(luò)(Switch-CNN: Switching Convolutional Neural Network), 使用密度分類(lèi)器自適應(yīng)地輸出密度等級(jí)。Amirgholipour等[13]提出了一種基于金字塔密度感知注意力的網(wǎng)絡(luò)(PDANet: Pyramid Density-Aware Attention based Network), 通過(guò)金字塔規(guī)模特征和兩個(gè)分支解碼模塊在提取不同尺度特征的同時(shí)抑制背景噪聲。Sindagi等[14]提出了一種多層次的自下而上和自上而下的融合網(wǎng)絡(luò)(MBTTBF: Multi-level Bottom-Top and Top-Bottom Feature Fusion), 通過(guò)一種雙向的特征融合方式, 將低層特征融合到高層, 也將高層特征融合到低層, 從而提升了網(wǎng)絡(luò)對(duì)尺度信息的表達(dá)能力。

        針對(duì)復(fù)雜背景造成的人群遮擋問(wèn)題, 主要的解決方案為利用視覺(jué)注意力機(jī)制, 使網(wǎng)絡(luò)有意識(shí)地聚焦人群圖像中更有用的信息, 以提高計(jì)數(shù)精度。Liu等[15]提出了一種可形變卷積神經(jīng)網(wǎng)絡(luò)(ADCrowdNet: An Attention-Injective Deformable Convolutional Network), 通過(guò)一階段網(wǎng)絡(luò)AMG(Attention Map Generator)為二階段網(wǎng)絡(luò)DME(Density Map Estimator)提供人群區(qū)域候選與擁擠度等先驗(yàn)信息的方式, 提升了網(wǎng)絡(luò)對(duì)復(fù)雜背景的過(guò)濾能力以及在不同人群分布下的性能。Ilyas等[16]提出了一種基于CNN(Convolutional Neural Network)的密集特征提取網(wǎng)絡(luò), 利用密集特征提取模塊(DFEMs: Dense Feature Extraction Modules)和通道注意模塊(CAM: Channel Attention Module)將底層提取的特征通過(guò)密集連接傳播到上層, 并加入通道注意力以獲得全局信息, 提升了網(wǎng)絡(luò)在密集場(chǎng)景下的計(jì)數(shù)精度。

        2 多層次融合與注意力機(jī)制的人群計(jì)數(shù)算法

        在應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)模型解決人群計(jì)數(shù)問(wèn)題時(shí), 多數(shù)方法都是直接將人群圖映射為密度圖, 從而忽略了人群圖像背景產(chǎn)生的干擾。近年來(lái)提出的一些方法應(yīng)用注意力機(jī)制解決背景干擾的問(wèn)題, 但往往只考慮了由高層特征生成的注意力, 忽視了低層的細(xì)節(jié)特征, 其在面對(duì)如樹(shù)葉、 建筑物、 車(chē)輛等復(fù)雜背景的干擾時(shí)并不能很好的對(duì)人群密度圖進(jìn)行預(yù)測(cè)。而傳統(tǒng)方法在應(yīng)對(duì)由透視效應(yīng)引起的人群尺度變化問(wèn)題時(shí), 無(wú)法進(jìn)行有效的識(shí)別與判斷, 影響了人群密度圖的精度。因此, 筆者提出了一種多層次融合與注意力機(jī)制的人群計(jì)數(shù)算法(MLFAM), 其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        圖1 MFAN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 The diagram of MFAN network structure

        該網(wǎng)絡(luò)結(jié)構(gòu)包含尺度注意力提取與多層次融合兩個(gè)子網(wǎng)絡(luò), 用于在多層級(jí)卷積上融合不同尺度的注意力, 以實(shí)現(xiàn)對(duì)密度圖更好地預(yù)測(cè),

        2.1 尺度注意力提取網(wǎng)絡(luò)

        表1 多尺度注意力提取網(wǎng)絡(luò)參數(shù)配置

        2.2 多層次融合網(wǎng)絡(luò)

        多層次融合網(wǎng)絡(luò)由兩個(gè)階段構(gòu)成, 分別為融合特征提取和人群密度圖的生成。第1階段采用預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)中前13層卷積作為主干, 并在每個(gè)卷積塊之前增加一個(gè)特征融合操作, 即

        (1)

        2.3 損失函數(shù)

        筆者采用歐幾里得距離衡量真實(shí)密度圖與預(yù)測(cè)密度圖之間的差值, 其定義如下

        (2)

        其中θ表示一組在網(wǎng)絡(luò)訓(xùn)練時(shí)的參數(shù),N表示訓(xùn)練的樣本數(shù)量。Fd(xi,θ)表示在參數(shù)為θ的網(wǎng)絡(luò)中輸入xi圖像后輸出的預(yù)測(cè)密度圖,yt表示與輸入圖像xi對(duì)應(yīng)的真實(shí)密度圖。

        3 實(shí) 驗(yàn)

        在2塊RTX 2080Ti GPU上進(jìn)行實(shí)驗(yàn)。網(wǎng)絡(luò)整體基于Pytorch架構(gòu), 使用初始學(xué)習(xí)率為1×10-5的Adam優(yōu)化器對(duì)網(wǎng)絡(luò)參數(shù)優(yōu)化, 并在除輸出層外的每個(gè)卷積層應(yīng)用批正則化和Relu, 以提高網(wǎng)絡(luò)的訓(xùn)練速度并有效地避免梯度消失和爆炸等情況。

        3.1 真值的生成

        現(xiàn)有的數(shù)據(jù)集大都提供原始圖像中人群的空間位置坐標(biāo)與總?cè)藬?shù)。首先, 對(duì)原始圖像的真值圖進(jìn)行裁剪, 得到4幅用于監(jiān)督尺度注意力提取網(wǎng)絡(luò)的真值圖集。其次, 使用自適應(yīng)的高斯核函數(shù)生成人群密度圖的真值, 自適應(yīng)高斯核函數(shù)定義如下

        (3)

        3.2 評(píng)價(jià)標(biāo)準(zhǔn)

        使用兩個(gè)在人群計(jì)數(shù)方法中常用的指標(biāo), 即平均絕對(duì)誤差(MAE: Mean Absolute Error,EMAE)與均方誤差(MSE: Mean Squared Error,EMSE)。其中MAE可以表示預(yù)測(cè)的準(zhǔn)確性, MSE表示預(yù)測(cè)的魯棒性。具體定義如下

        (4)

        (5)

        其中N表示測(cè)試圖像的總數(shù)量,Fdi表示對(duì)第i個(gè)圖像的預(yù)測(cè)人數(shù),Di表示第i個(gè)圖像的真實(shí)人數(shù)。

        3.3 在ShangHaitech數(shù)據(jù)集上的實(shí)驗(yàn)

        ShangHaitech數(shù)據(jù)集是一個(gè)多樣且擁擠的數(shù)據(jù)集, 該數(shù)據(jù)集包括了Part A和Part B兩個(gè)部分。其中Part A是從互聯(lián)網(wǎng)上搜集的高密度人群照片, 共有482張圖片, 每張圖片的平均人數(shù)達(dá)到了501人, 人數(shù)最多的一張圖片中有3 139人。Part B是通過(guò)在上海街頭布置的攝像設(shè)備抓拍得到的, 相對(duì)于Part A, 其人群密度較為稀疏, 圖片的平均人數(shù)為124人, 最多的一幅圖片中有578人。在Part A和Part B中分別設(shè)置300張圖片和400張圖片進(jìn)行訓(xùn)練, 182張圖片和316張圖片進(jìn)行測(cè)試。

        表2給出了使用MAE和MSE評(píng)價(jià)指標(biāo)與最先進(jìn)方法進(jìn)行比較的結(jié)果。從表2可以看出, 在PartB數(shù)據(jù)集的測(cè)試中筆者方法明顯優(yōu)于其他方法, MAE提高了17%; MSE提高了25%, 有效證明了該方法的優(yōu)越性。同時(shí), 在Part A數(shù)據(jù)集上, MAE提高了1.6%, 可以說(shuō)明本模型具有良好的準(zhǔn)確性。但在MAE方面稍低于CAT-CNN(Crowd Attention Convolutional Neural Network)模型, 這表明筆者方法在預(yù)測(cè)的魯棒性上存在一定的問(wèn)題。

        表2 在ShangHaitech數(shù)據(jù)集上使用不同方法的性能比較

        圖2給出了訓(xùn)練后的模型對(duì)人群密度圖進(jìn)行預(yù)測(cè)的結(jié)果, 并與其真值進(jìn)行了對(duì)比, 第1列為原始圖像, 第2列為MFAN得到預(yù)測(cè)人群密度圖, 第3列為人群密度圖的真值??梢钥闯? 本模型生成了人群分布較為準(zhǔn)確的密度圖, 有效地解決了復(fù)雜背景造成的遮擋問(wèn)題。

        圖2 在ShangHaitech數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比Fig.2 Experimental comparison on the ShangHaitech dataset

        3.4 在UCF_CC_50數(shù)據(jù)集上的實(shí)驗(yàn)

        UCF_CC_50數(shù)據(jù)集包含了50張具有不同視角和分辨率的圖像, 每張圖像的平均人數(shù)達(dá)到了1 280人, 最多的一幅圖像中更是達(dá)到了4 543人, 整個(gè)數(shù)據(jù)集共標(biāo)記了63 075人。由于該數(shù)據(jù)集中可供選擇的圖像太少, 不便于進(jìn)行訓(xùn)練集和測(cè)試集的劃分, 因此采用五折交叉驗(yàn)證的方法對(duì)數(shù)據(jù)集進(jìn)行最大限度地利用。5次實(shí)驗(yàn)結(jié)果如表3所示。

        表3 在UCF_CC_50數(shù)據(jù)集上使用不同方法的性能比較

        將五折交叉驗(yàn)證得到結(jié)果與目前最先進(jìn)的方法在MAE和MSE方面進(jìn)行比較, 其結(jié)果如表3所示。可以看出, 相較于最先進(jìn)的方法, 筆者方法的MAE提高了7%, 但在MSE方面稍差于PCC Net(Perspective Crowd Counting via Spatial Convolutional Network)。該結(jié)果有效地說(shuō)明了本模型具有較高的準(zhǔn)確性, 但在魯棒性方面還存在一定的問(wèn)題。

        圖3給出了訓(xùn)練后的模型對(duì)人群密度進(jìn)行預(yù)測(cè)的結(jié)果, 并與其真值進(jìn)行了比較。第1列為原始圖像, 第2列為MFAN得到預(yù)測(cè)人群密度圖, 第3列為人群密度圖的真值??梢钥闯? 本模型可以較好的解決由透視效應(yīng)引發(fā)的人群尺度變化問(wèn)題, 可對(duì)擁擠的人群進(jìn)行較好地預(yù)測(cè)并生成準(zhǔn)確的人群密度圖。

        圖3 在UCF_CC_50數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比Fig.3 Experimental comparison on the UCF_CC_50 dataset

        3.5 消融實(shí)驗(yàn)

        為證明MFAN結(jié)構(gòu)的有效性, 在ShanghaiTech Part A數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn), 結(jié)果如表4所示。主網(wǎng)絡(luò)即多層次融合網(wǎng)絡(luò)去除掉注意力模塊的其余部分, 其結(jié)果已優(yōu)于大部分的經(jīng)典人計(jì)數(shù)網(wǎng)絡(luò), 證明了骨干網(wǎng)絡(luò)具有較為優(yōu)秀的特征提取能力。在加入尺度注意力后, MFAN的計(jì)數(shù)精度得到顯著提升, 驗(yàn)證了筆者所提方法的合理性。

        表4 在ShangHaitech數(shù)據(jù)集上的消融實(shí)驗(yàn)

        4 結(jié) 語(yǔ)

        筆者提出了一種多層次融合與注意力機(jī)制的編解碼人群計(jì)數(shù)網(wǎng)絡(luò), 采用編解碼網(wǎng)絡(luò)進(jìn)行尺度注意力提取, 并在多層次融合網(wǎng)絡(luò)中對(duì)提取到的尺度注意力進(jìn)行融合, 在對(duì)抗復(fù)雜背景的同時(shí), 有效地抑制了由透視效應(yīng)帶來(lái)的尺度變化問(wèn)題, 進(jìn)而生成高質(zhì)量的人群密度圖。經(jīng)過(guò)實(shí)驗(yàn)分析, 證明了MFAN具有較好的魯棒性與準(zhǔn)確性。在未來(lái)的工作中, 將在其他人群計(jì)數(shù)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn), 以充分說(shuō)明MFAN在不同環(huán)境下的性能, 并考慮利用圖片與現(xiàn)實(shí)世界間空間關(guān)系的先驗(yàn)知識(shí), 以進(jìn)一步改善尺度注意力的提取。

        猜你喜歡
        尺度計(jì)數(shù)注意力
        讓注意力“飛”回來(lái)
        古人計(jì)數(shù)
        遞歸計(jì)數(shù)的六種方式
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        古代的計(jì)數(shù)方法
        這樣“計(jì)數(shù)”不惱人
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        三级国产女主播在线观看| 好大好湿好硬顶到了好爽视频| 国产综合无码一区二区辣椒| 一本一本久久a久久精品综合 | 少妇仑乱a毛片| 无码精品日韩中文字幕| 女人与牲口性恔配视频免费| 色婷婷丁香综合激情| 亚洲综合中文日韩字幕| 亚洲高清国产一区二区| 中文字幕有码无码人妻av蜜桃| 国产无遮挡又爽又刺激的视频老师 | 国产成人无码精品久久久露脸| 久久99精品国产99久久6尤物| 国产成+人+综合+亚洲 欧美 | 熟女人妻一区二区中文字幕| 国产高清在线视频一区二区三区 | 水蜜桃久久| 亚洲欧美在线视频| 国产精品毛片大尺度激情| 风韵丰满熟妇啪啪区99杏| 国产精品午夜爆乳美女视频| 韩日美无码精品无码| 麻豆久久久国内精品| 亚洲中文高清乱码av中文| 99精品国产在热久久无毒不卡| 色一情一乱一伦| 激情五月婷婷综合| 亚洲美女av二区在线观看| 老鲁夜夜老鲁| 性无码免费一区二区三区在线| 国产一及毛片| 无遮高潮国产免费观看韩国 | 无码伊人66久久大杳蕉网站谷歌| 国产女主播白浆在线观看| 国产激情对白一区二区三区四| 亚洲日本一区二区在线观看| 在线观看午夜视频国产| 亚欧色一区w666天堂| 久久综合给合久久狠狠狠97色69| 日产精品一区二区免费|