亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的人群計(jì)數(shù)研究綜述

        2021-12-14 11:32:50朱慧琳苗奪謙
        計(jì)算機(jī)研究與發(fā)展 2021年12期
        關(guān)鍵詞:尺度計(jì)數(shù)卷積

        余 鷹 朱慧琳 錢 進(jìn) 潘 誠(chéng) 苗奪謙,2

        1(華東交通大學(xué)軟件學(xué)院 南昌 330013) 2(同濟(jì)大學(xué)電子與信息工程學(xué)院 上海 201804)

        人群計(jì)數(shù)是估計(jì)圖像或視頻中人群的數(shù)量、密度或分布[1],它是智能視頻監(jiān)控分析領(lǐng)域的關(guān)鍵問(wèn)題和研究熱點(diǎn),也是后續(xù)行為分析[2-3]、擁塞分析[4]、異常檢測(cè)[5-6]和事件檢測(cè)[7]等高級(jí)視頻處理任務(wù)的基礎(chǔ).隨著城市化進(jìn)程的快速推進(jìn),城市人口數(shù)量急劇增長(zhǎng),導(dǎo)致各種人員高度聚集的社會(huì)活動(dòng)頻繁發(fā)生,如果管控不當(dāng),極易發(fā)生擁擠踩踏事故.例如上?!?2.31”外灘踩踏事故中,由于現(xiàn)場(chǎng)管理和應(yīng)對(duì)措施不當(dāng),引發(fā)了人群擁擠和摔倒,最終造成了重大人員傷亡的嚴(yán)重后果[8-9].如果有精度良好的人群計(jì)數(shù)系統(tǒng)實(shí)時(shí)統(tǒng)計(jì)相關(guān)場(chǎng)所的人群數(shù)量、分布或密度等信息,及時(shí)發(fā)現(xiàn)人群擁擠和異常行為并進(jìn)行預(yù)警,以便采取措施進(jìn)行疏導(dǎo),就可以避免悲劇的發(fā)生[10-11].性能良好的人群計(jì)數(shù)算法也可以遷移到其他目標(biāo)計(jì)數(shù)領(lǐng)域,如顯微圖片中的細(xì)菌與細(xì)胞計(jì)數(shù)[12]、擁擠道路上的汽車計(jì)數(shù)[13]等,拓展人群計(jì)數(shù)算法的應(yīng)用范圍.因此,人群計(jì)數(shù)方法的研究有著重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值.

        隨著人工智能、計(jì)算機(jī)視覺(jué)等技術(shù)的不斷發(fā)展,人群計(jì)數(shù)受到了國(guó)內(nèi)外眾多學(xué)者的廣泛關(guān)注和研究.早期人群計(jì)數(shù)主要使用傳統(tǒng)的計(jì)算機(jī)視覺(jué)方法提取行人特征[14],然后通過(guò)目標(biāo)檢測(cè)[15-19]或回歸[20-21]的方式獲取圖像[22-25]或視頻[26-28]中人群的數(shù)量.傳統(tǒng)方法具有一定局限性,無(wú)法從圖像中提取更抽象的有助于完成人群計(jì)數(shù)任務(wù)的語(yǔ)義特征,使得面對(duì)背景復(fù)雜、人群密集、遮擋嚴(yán)重的場(chǎng)景時(shí),計(jì)數(shù)精度無(wú)法滿足實(shí)際需求.近年來(lái),深度學(xué)習(xí)技術(shù)發(fā)展迅猛,在許多計(jì)算機(jī)視覺(jué)任務(wù)中得到成功應(yīng)用[29],促使研究人員開(kāi)始探索基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[30]的人群計(jì)數(shù)辦法.相比于傳統(tǒng)方法,基于CNN的人群計(jì)數(shù)方法在處理場(chǎng)景適應(yīng)性、尺度多樣性等問(wèn)題時(shí)表現(xiàn)更優(yōu).而且由于特征是自學(xué)習(xí)的,不需要人工選取,可以顯著提升計(jì)數(shù)效果,因此已經(jīng)成為當(dāng)前人群計(jì)數(shù)領(lǐng)域的研究熱點(diǎn).使用CNN的人群計(jì)數(shù)方法主要分為直接回歸計(jì)數(shù)法和密度圖估計(jì)法2類.直接回歸法只需向CNN送入人群圖片,就可以直接輸出人群數(shù)量,適用于人群稀疏場(chǎng)景.在密度圖法中,CNN輸出的是人群密度圖,再以數(shù)學(xué)積分求和的方式計(jì)算出人數(shù).這類方法性能的好壞一定程度上依賴于密度圖的質(zhì)量.為了提升密度圖質(zhì)量,會(huì)引入新的損失函數(shù)[31]來(lái)提高密度圖的清晰度和準(zhǔn)確度.無(wú)論采用哪種方法,都需要先進(jìn)行特征提取.為了提升特征的魯棒性,常使用多尺度預(yù)測(cè)、上下文感知、空洞卷積、可形變卷積等方法改進(jìn)特征提取過(guò)程,以增強(qiáng)特征的判別能力.

        得益于深度學(xué)習(xí)模型強(qiáng)大的特征提取能力,基于深度學(xué)習(xí)的人群計(jì)數(shù)方法的研究已經(jīng)取得了很多優(yōu)秀的成果.根據(jù)計(jì)數(shù)對(duì)象,可以將這些方法歸納為基于圖像和基于視頻的2類;根據(jù)網(wǎng)絡(luò)模型結(jié)構(gòu),可將它們劃分為單分支結(jié)構(gòu)、多分支結(jié)構(gòu)和特殊結(jié)構(gòu)3類;根據(jù)度量規(guī)則,可將它們劃分為基于歐氏距離損失、基于SSIM損失和基于對(duì)抗損失等多類.

        本文重點(diǎn)討論基于深度學(xué)習(xí)的靜態(tài)圖像人群計(jì)數(shù)方法,主要貢獻(xiàn)可以歸納為3個(gè)方面:

        1)從不同層面,對(duì)人群計(jì)數(shù)領(lǐng)域的研究現(xiàn)狀進(jìn)行系統(tǒng)全面的總結(jié)和深入的探討,包括計(jì)數(shù)網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)、性能評(píng)價(jià)指標(biāo)等.這種全面梳理可以幫助研究人員快速了解基于深度學(xué)習(xí)的人群計(jì)數(shù)算法的研究現(xiàn)狀和關(guān)鍵技術(shù).

        2)基于數(shù)據(jù)比較了不同模型的計(jì)數(shù)效果,分析了計(jì)數(shù)模型性能優(yōu)劣的原因,為未來(lái)研究人員設(shè)計(jì)更加優(yōu)化的計(jì)數(shù)模型提供借鑒.

        3)歸納總結(jié)了在模型設(shè)計(jì)、損失函數(shù)定義、ground-truth生成等方面存在的問(wèn)題,為未來(lái)該領(lǐng)域的研究指明了方向.

        1 人群計(jì)數(shù)網(wǎng)絡(luò)

        1.1 單分支結(jié)構(gòu)計(jì)數(shù)網(wǎng)絡(luò)

        早期使用CNN的人群計(jì)數(shù)網(wǎng)絡(luò)均為只包含一條數(shù)據(jù)通路的單分支網(wǎng)絡(luò)結(jié)構(gòu).Wang等人[32]最先將CNN引入人群計(jì)數(shù)領(lǐng)域,提出了一種適用于密集人群場(chǎng)景的端到端CNN回歸模型.該模型對(duì)AlexNet網(wǎng)絡(luò)[33]進(jìn)行改進(jìn),將最后的全連接層替換為單神經(jīng)元層,直接預(yù)測(cè)人群數(shù)量.由于沒(méi)有預(yù)測(cè)人群密度圖,所以無(wú)法統(tǒng)計(jì)場(chǎng)景中的人員分布情況.此外,雖然該模型通過(guò)CNN自動(dòng)學(xué)習(xí)了有效的計(jì)數(shù)特征,但是由于AlexNet的寬度較窄,深度也較淺,導(dǎo)致特征魯棒性不夠強(qiáng),在人群密集場(chǎng)景下的計(jì)數(shù)效果較差,并且在跨場(chǎng)景計(jì)數(shù)時(shí),效果不甚理想,缺乏足夠的泛化性.

        為了解決跨場(chǎng)景問(wèn)題,Zhang等人[24]提出了一種基于AlexNet的跨場(chǎng)景計(jì)數(shù)模型Crowd CNN,首次嘗試輸出人群密度圖,其總體結(jié)構(gòu)如圖1[24]所示:

        Fig.1 The cross-scene crowd counting model proposed by Reference[24]

        Fig.2 Normalized crowd density map for training[24]

        其中,圖1(a)描繪了計(jì)數(shù)網(wǎng)絡(luò)的預(yù)訓(xùn)練(pre-trained)過(guò)程,通過(guò)人群密度圖(crowd density map)和人群計(jì)數(shù)(crowd counts)這2個(gè)目標(biāo)任務(wù)的交替訓(xùn)練來(lái)優(yōu)化模型.然后,算法會(huì)根據(jù)目標(biāo)場(chǎng)景特點(diǎn),選擇相似場(chǎng)景對(duì)計(jì)數(shù)模型進(jìn)行微調(diào)(fine-tuning),如圖1(b)所示,以達(dá)到跨場(chǎng)景計(jì)數(shù)的目的.為了提升計(jì)數(shù)準(zhǔn)確性,作者還提出了透視圖(perspective map)的概念,如圖2(a)所示,顏色越淺代表目標(biāo)尺度越大.然后,通過(guò)密度圖和透視圖的融合,如圖2(b)所示,降低透視形變(perspective distortion)的不良影響,提升密度圖質(zhì)量.但是透視圖較難獲得,限制了該模型的推廣.該工作的另一個(gè)貢獻(xiàn)是建立了經(jīng)典的人群計(jì)數(shù)數(shù)據(jù)集WorldExpo’10,為交叉場(chǎng)景人群計(jì)數(shù)模型的測(cè)評(píng)提供數(shù)據(jù).

        1.2 多分支結(jié)構(gòu)計(jì)數(shù)網(wǎng)絡(luò)

        人群分布相對(duì)監(jiān)控?cái)z像頭位置具有較大的不確定性,導(dǎo)致拍攝視角差異較大,所拍攝到的圖像或視頻中目標(biāo)尺寸變化較大.對(duì)于人群計(jì)數(shù)任務(wù)來(lái)說(shuō),如何提高計(jì)數(shù)網(wǎng)絡(luò)對(duì)目標(biāo)尺度變化的適應(yīng)性是亟待解決的問(wèn)題.

        為了解決多尺度問(wèn)題,Boominathan等人[34]基于CNN提出了一種雙分支結(jié)構(gòu)計(jì)數(shù)網(wǎng)絡(luò)CrowdNet,如圖3所示.通過(guò)一個(gè)淺層網(wǎng)絡(luò)(shallow network)和一個(gè)深層網(wǎng)絡(luò)(deep network)分別提取不同尺度的特征信息進(jìn)行融合來(lái)預(yù)測(cè)人群密度圖.這種組合可以同時(shí)捕獲高級(jí)和低級(jí)語(yǔ)義信息,以適應(yīng)人群的非均勻縮放和視角的變化,因此有利于不同場(chǎng)景不同尺度的人群計(jì)數(shù).

        通過(guò)引入多路網(wǎng)絡(luò),使用大小不同的感受野提取不同尺度特征可以有效解決多尺度問(wèn)題,由此衍生出了一系列多列卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的人群計(jì)數(shù)算法.

        Zhang等人[25]受多分支深度卷積神經(jīng)網(wǎng)絡(luò)[35]的啟發(fā),提出了一種多列卷積神經(jīng)網(wǎng)絡(luò)(multi-column CNN, MCNN)用于人群計(jì)數(shù),其結(jié)構(gòu)如圖4所示.每一分支網(wǎng)絡(luò)采用不同大小的卷積核來(lái)提取不同尺度目標(biāo)的特征信息,減少因?yàn)橐暯亲兓纬傻哪繕?biāo)大小不一導(dǎo)致的計(jì)數(shù)誤差.MCNN建立了圖像與人群密度圖之間的非線性關(guān)系,通過(guò)用全卷積層替換全連接層,使得模型可以處理任意大小的輸入圖片.為了進(jìn)一步修正視角變化帶來(lái)的影響,MCNN在生成密度圖時(shí),沒(méi)有采用固定的高斯核,而是利用自適應(yīng)高斯核計(jì)算密度圖,提升了密度圖質(zhì)量.該工作的另一貢獻(xiàn)是收集并標(biāo)注了ShanghaiTech人群計(jì)數(shù)數(shù)據(jù)集,該數(shù)據(jù)集由1 198張帶標(biāo)注的圖像組成,包含人群分布從稀疏到密集變化的各種場(chǎng)景,目前該數(shù)據(jù)集已成為人群計(jì)數(shù)領(lǐng)域的基準(zhǔn)數(shù)據(jù)集之一.

        Fig.3 The structure of two-column crowd crounting network[34]

        Fig.4 The structure of the multi-column crowd counting network[25]

        計(jì)數(shù)性能的好壞主要依賴于密度圖的質(zhì)量.為了生成更高質(zhì)量的密度圖,Sindagi等人[36]提出了上下文金字塔卷積神經(jīng)網(wǎng)絡(luò)計(jì)數(shù)模型CP-CNN,其結(jié)構(gòu)如圖5所示,通過(guò)多個(gè)CNN獲取不同尺度的場(chǎng)景上下文信息,并將這些上下文信息顯式地嵌入到密度圖生成網(wǎng)絡(luò),提升密度估計(jì)的精度.CP-CNN由4個(gè)部分組成,其中全局上下文估計(jì)器(global context estimator, GCE)和局部上下文估計(jì)器(local context estimator, LCE)分別提取圖像的全局和局部上下文信息,即分別從全局和局部的角度預(yù)測(cè)圖像的密度等級(jí);密度估計(jì)器(density map estimator, DME)沒(méi)有直接生成密度圖,而是沿用了MCNN的多列網(wǎng)絡(luò)結(jié)構(gòu)生成高維特征圖;融合卷積神經(jīng)網(wǎng)絡(luò)(fusion-CNN, F-CNN)則將前3個(gè)部分的輸出進(jìn)行融合,生成密度圖.為了彌補(bǔ)DME中丟失的細(xì)節(jié)信息,F(xiàn)-CNN使用了一系列小數(shù)步長(zhǎng)卷積層幫助重建密度圖的細(xì)節(jié).現(xiàn)有的CNN計(jì)數(shù)網(wǎng)絡(luò)主要使用像素級(jí)歐氏距離損失函數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò),這導(dǎo)致生成的密度圖比較模糊.為此,CP-CNN引入對(duì)抗損失(adver-sarial loss),利用生成對(duì)抗網(wǎng)絡(luò)(generative adver-sarial net, GAN)[37]來(lái)克服歐氏距離損失函數(shù)的不足.

        2017年,Sam等人[38]提出了一種多列選擇卷積神經(jīng)網(wǎng)絡(luò)(switch convolution neural network, Switch-CNN)用于人群計(jì)數(shù),其結(jié)構(gòu)如圖6所示.與MCNN不同之處在于,Switch-CNN雖然采用多列網(wǎng)絡(luò)結(jié)構(gòu),但是各列網(wǎng)絡(luò)獨(dú)立處理不同的區(qū)域.在送入網(wǎng)絡(luò)之前,圖像被切分成3×3的區(qū)域,然后對(duì)每個(gè)區(qū)域使用特定的SWITCH模塊進(jìn)行密度等級(jí)劃分,并根據(jù)密度等級(jí)選擇對(duì)應(yīng)的分支進(jìn)行計(jì)數(shù).通過(guò)對(duì)于密度不同的人群有針對(duì)性地選用不同尺度的回歸網(wǎng)絡(luò)進(jìn)行密度估計(jì),使得最終的計(jì)數(shù)結(jié)果更為準(zhǔn)確.Switch-CNN也存在不容忽視的弊端,如果分支選擇錯(cuò)誤將會(huì)大大影響計(jì)數(shù)準(zhǔn)確度.

        Fig.5 Architecture of CP-CNN[36]

        Fig.6 Architecture of Switch-CNN[38]

        Switch-CNN根據(jù)圖像塊的內(nèi)容選擇合適的分支網(wǎng)絡(luò)進(jìn)行人群密度估計(jì)的做法,為設(shè)計(jì)多列計(jì)數(shù)網(wǎng)絡(luò)提供了新思路.但是Swith-CNN將密度等級(jí)固定劃分為3個(gè)層次,難以應(yīng)對(duì)人群密度變化范圍很大的場(chǎng)景.為此,Sam等人[39]對(duì)Switch-CNN進(jìn)行改進(jìn),提出了逐步增長(zhǎng)卷積神經(jīng)網(wǎng)絡(luò)(incrementally growing CNN, IG-CNN),其層次化訓(xùn)練過(guò)程如圖7所示.從一個(gè)基礎(chǔ)CNN模型(Base CNN)開(kāi)始,通過(guò)不斷地迭代,最后生成1棵CNN二叉樹(shù),葉子節(jié)點(diǎn)即為用于密度估計(jì)的回歸器,其中每個(gè)回歸器對(duì)應(yīng)1種特定的密度等級(jí).第1層通過(guò)聚類將訓(xùn)練集D0劃分成D00和D01這2個(gè)部分,然后R00和R01是由復(fù)制R0而來(lái),隨后R00和R01分別在對(duì)應(yīng)的訓(xùn)練集D00和D01上訓(xùn)練,其他層的構(gòu)建情況相似.最終通過(guò)層次聚類,將原始訓(xùn)練集劃分成多個(gè)子集,每個(gè)子集對(duì)應(yīng)1個(gè)密度等級(jí),由相應(yīng)的密度估計(jì)器負(fù)責(zé)計(jì)數(shù).測(cè)試階段則會(huì)根據(jù)圖片的密度等級(jí)選擇對(duì)應(yīng)的密度估計(jì)器.

        Fig.7 Training process of IG-CNN[39]

        Fig.8 Architecture of DecideNet[41]

        在已有的人群計(jì)數(shù)模型中,通常單純地假設(shè)場(chǎng)景中的人群分布是稀疏或密集的.針對(duì)稀疏場(chǎng)景,采用檢測(cè)方法進(jìn)行計(jì)數(shù)[40];而針對(duì)密集場(chǎng)景,則采用回歸方法進(jìn)行人群密度估計(jì).這樣的模型往往難以應(yīng)對(duì)密度變化范圍很廣的人群場(chǎng)景的計(jì)數(shù).為了解決這個(gè)問(wèn)題,Liu等人[41]提出了一種檢測(cè)和回歸相結(jié)合的人群計(jì)數(shù)模型DecideNet,其結(jié)構(gòu)如圖8所示.該模型也是一種多列結(jié)構(gòu)的計(jì)數(shù)網(wǎng)絡(luò),其中RegNet模塊采用回歸方法直接從圖像中估計(jì)人群密度,DetNet模塊則在Faster-RCNN的后面添加了一個(gè)高斯卷積層(Gaussian convolution),直接將檢測(cè)結(jié)果轉(zhuǎn)化為人群密度圖,然后QualityNet引入注意力模塊,自動(dòng)判別人群密集程度,并根據(jù)判別結(jié)果自適應(yīng)地調(diào)整檢測(cè)和回歸這2種方法的權(quán)重,再根據(jù)這個(gè)權(quán)重將這2種密度圖進(jìn)行融合,以此獲取更好的最優(yōu)解.但是由于RegNet和DetNet這2個(gè)子網(wǎng)絡(luò)均使用了較大的感受野,模型參數(shù)過(guò)多,導(dǎo)致該模型的訓(xùn)練復(fù)雜度較高.

        多列計(jì)數(shù)網(wǎng)絡(luò)使用不同大小的卷積核提取圖像的多尺度特征,其良好的效果說(shuō)明多尺度表達(dá)的重要性.但是多列計(jì)數(shù)網(wǎng)絡(luò)也引入了新的問(wèn)題,首先多尺度表達(dá)的性能通常依賴于網(wǎng)絡(luò)分支的數(shù)量,即尺度的多樣性受限于分支數(shù)目,其次已有工作大多采用歐氏距離作為損失函數(shù),假設(shè)像素之間互相獨(dú)立,導(dǎo)致生成的密度圖比較模糊.

        為了解決上述問(wèn)題,Cao等人[42]提出了一種尺度聚合網(wǎng)絡(luò)(scale aggregation network, SANet),其結(jié)構(gòu)如圖9所示.該模型沒(méi)有采用MCNN的多列網(wǎng)絡(luò)結(jié)構(gòu),而是借鑒了Inception[43]的架構(gòu)思想,在每個(gè)卷積層同時(shí)使用不同大小的卷積核提取不同尺度的特征,最后通過(guò)反卷積生成高分辨率的密度圖.整個(gè)模型由FME(feature map encoder)和DME(density map estimator)這2個(gè)部分組成,F(xiàn)ME聚合提取出多尺度特征,DME融合特征生成高分辨率的密度圖.度量預(yù)測(cè)的密度圖與ground-truth的相似度時(shí),采用SSIM計(jì)算局部一致性損失,然后對(duì)歐氏損失和局部一致性損失進(jìn)行加權(quán)得到總損失.

        Fig.9 Architecture of SANet[42]

        Fig.10 Architectureof SAAN[44]

        由于“透視畸變”問(wèn)題,位于不同景深的目標(biāo)尺寸差異較大,對(duì)人群計(jì)數(shù)模型的建模能力提出了很高的要求.為了解決這個(gè)問(wèn)題,Hossain等人[44]首次將注意力機(jī)制引入人群計(jì)數(shù)領(lǐng)域,提出了多分支的尺度感知注意力網(wǎng)絡(luò)(scale-aware attention network, SAAN),其結(jié)構(gòu)如圖10[44]所示.該網(wǎng)絡(luò)由4個(gè)模塊組成,其中多尺度特征提取器(multi-scale feature extractor, MFE)負(fù)責(zé)從輸入圖像中提取多尺度特征圖.受到MCNN[25]啟發(fā),MFE被設(shè)計(jì)成包含3個(gè)分支的多列網(wǎng)絡(luò),每個(gè)分支的感受野大小不同,可以捕獲不同尺度的特征;為了獲得圖像的全局密度信息,與MFE中3個(gè)不同尺度的分支相對(duì)應(yīng),定義了3個(gè)全局密度等級(jí),然后利用全局尺度注意力(global scale attentions, GSA)模塊負(fù)責(zé)提取輸入圖像的全局上下文信息,計(jì)算3個(gè)全局密度等級(jí)對(duì)應(yīng)的評(píng)分,并對(duì)這3個(gè)分值進(jìn)行歸一化.GSA只能提取圖像的全局尺度信息,但在實(shí)際的人群計(jì)數(shù)圖像中,不同位置往往存在密度差異,為此增加了局部尺度注意力(local scale attention, LSA)負(fù)責(zé)提取圖像不同位置的細(xì)粒度局部上下文信息,并生成3張像素級(jí)的注意力圖,用于描述局部尺度信息;最后,根據(jù)全局和局部的尺度信息對(duì)MFE提取的特征圖進(jìn)行加權(quán),然后將加權(quán)后的特征圖輸入融合網(wǎng)絡(luò)(fusion network, FN)生成最終的密度圖.

        與DecideNet[41]相比,SAAN通過(guò)注意力機(jī)制進(jìn)行尺度選擇的方式更加靈活.但是,由于SAAN包含4個(gè)子網(wǎng)絡(luò),且MFE包含多個(gè)分支,網(wǎng)絡(luò)模型復(fù)雜、參數(shù)多、訓(xùn)練難度很大.

        1.3 特殊結(jié)構(gòu)計(jì)數(shù)網(wǎng)絡(luò)

        雖然多分支結(jié)構(gòu)計(jì)數(shù)網(wǎng)絡(luò)取得了較好的計(jì)數(shù)效果,但是多分支結(jié)構(gòu)網(wǎng)絡(luò)模型的復(fù)雜性較高,由此也帶來(lái)了一些新的問(wèn)題[45].首先,網(wǎng)絡(luò)模型參數(shù)繁多、訓(xùn)練困難,導(dǎo)致計(jì)數(shù)實(shí)時(shí)性較差;其次,多分支網(wǎng)絡(luò)的結(jié)構(gòu)冗余度較高.多分支計(jì)數(shù)網(wǎng)絡(luò)原本是想通過(guò)不同的分支采用大小不等的感受野來(lái)提取不同尺度的特征,增強(qiáng)特征的適用性和魯棒性.但研究表明,不同分支學(xué)習(xí)到的特征相似度很高,并沒(méi)有因?yàn)閳?chǎng)景密集程度不同而出現(xiàn)明顯差異.為了克服這些問(wèn)題,研究人員開(kāi)始嘗試將一些新型CNN結(jié)構(gòu),例如空洞卷積網(wǎng)絡(luò)(dilated convolutional networks)[46]、可形變卷積網(wǎng)絡(luò)(deformable convolutional network)[47]、GAN[37]等,引入人群計(jì)數(shù)領(lǐng)域,以降低計(jì)數(shù)模型復(fù)雜度,提升計(jì)數(shù)精度和人群密度圖的還原度.

        2018年,Li等人[45]提出了一種適用于密集人群計(jì)數(shù)的空洞卷積神經(jīng)網(wǎng)絡(luò)模型CSRNet,其網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示.CSRNet沒(méi)有采用以往廣泛使用的多分支網(wǎng)絡(luò)結(jié)構(gòu),而是將舍棄了全連接層的VGG-16作為該網(wǎng)絡(luò)的前端部分,后端則采用6層空洞卷積神經(jīng)網(wǎng)絡(luò),構(gòu)成一個(gè)單通道計(jì)數(shù)網(wǎng)絡(luò),大幅削減了網(wǎng)絡(luò)參數(shù)量,降低了訓(xùn)練難度.同時(shí),借助空洞卷積可以在保持分辨率的同時(shí)擴(kuò)大感受野的優(yōu)勢(shì),保留了更多的圖像細(xì)節(jié)信息,使得生成的人群分布密度圖質(zhì)量更高.CSRNet后端有A,B,C,D這4組不同的配置,其中B組方案在ShanghaiTech PartA數(shù)據(jù)集上的表現(xiàn)最優(yōu).

        CSRNet的成功為密集人群計(jì)數(shù)提供了新的思路,隨后許多學(xué)者開(kāi)始效仿采用空洞卷積進(jìn)行人群計(jì)數(shù)研究[48].

        Fig.11 Configuration of CSRNet[45]

        多分支計(jì)數(shù)網(wǎng)絡(luò)的不同分支之間缺少相互協(xié)作,每個(gè)分支只是試圖通過(guò)最小化歐氏損失優(yōu)化自己的估計(jì).由于每個(gè)分支只在特定尺度上表現(xiàn)良好,導(dǎo)致平均各分支結(jié)果后生成的密度圖較模糊,同時(shí)由于在網(wǎng)絡(luò)中使用池化層,大大降低了密度圖的分辨率,使得最終的計(jì)數(shù)結(jié)果產(chǎn)生誤差.此外,存在跨尺度統(tǒng)計(jì)不一致問(wèn)題,一個(gè)圖像分割成多份分別輸入網(wǎng)絡(luò)得到的總?cè)藬?shù)和將輸入整張圖像計(jì)算得出的人數(shù)存在差異.

        為解決這些問(wèn)題,受GAN在圖像翻譯方面[49]成功應(yīng)用的啟發(fā),文獻(xiàn)[50]提出了一種基于GAN的跨尺度人群計(jì)數(shù)網(wǎng)絡(luò)(adversarial cross-scale consis-tency pursuit network, ACSCP),其結(jié)構(gòu)如圖12[50]所示.對(duì)抗損失的引入使得生成的密度圖更加尖銳,U-Net 結(jié)構(gòu)[51]的生成器保證了密度圖的高分辨率,同時(shí)跨尺度一致性正則化約束了圖像間的跨尺度誤差.因此,該模型最終能生成質(zhì)量好、分辨率高的人群分布密度圖,從而獲得更高的人群計(jì)數(shù)精度.

        利用GAN來(lái)提高人群計(jì)數(shù)精度的方法,開(kāi)啟了一種新的思路.在SFCN[52]計(jì)數(shù)網(wǎng)絡(luò)中,使用了改進(jìn)的Cycle GAN[53]產(chǎn)生數(shù)據(jù)集風(fēng)格相似的圖片,并貢獻(xiàn)了GCC數(shù)據(jù)集.DACC[54]中也使用Cycle GAN進(jìn)行風(fēng)格遷移.

        基于深度神經(jīng)網(wǎng)絡(luò)的人群計(jì)數(shù)解決方案雖然取得了顯著成果,但在高度擁擠嘈雜場(chǎng)景中,計(jì)數(shù)效果仍然會(huì)受到背景噪音、遮擋和不一致的人群分布的嚴(yán)重影響.為了解決這個(gè)問(wèn)題,Liu等人[55]提出了一種融合了注意力機(jī)制的可形變卷積網(wǎng)絡(luò)ADCrowdNet用于人群計(jì)數(shù).如圖13[55]所示,該網(wǎng)絡(luò)模型主要由2個(gè)部分串聯(lián)而成,其中注意力圖生成器(attention map generator, AMG)用于檢測(cè)人群候選區(qū)域,并估計(jì)這些區(qū)域的擁擠程度,為后續(xù)人群密度圖的生成提供精細(xì)化的先驗(yàn)知識(shí).通過(guò)注意力機(jī)制,可以過(guò)濾掉復(fù)雜背景等無(wú)關(guān)信息,使得后續(xù)工作只關(guān)注人群區(qū)域,降低各種噪聲的干擾.密度圖估計(jì)器(density map estimator, DME)是一個(gè)多尺度可形變卷積網(wǎng)絡(luò),用于生成高質(zhì)量的密度圖.由于注入了注意力,可形變卷積添加了方向參數(shù),卷積核在注意力指導(dǎo)下在特征圖上延伸,可以對(duì)不同形狀的人群分布進(jìn)行建模,很好地適應(yīng)了真實(shí)場(chǎng)景中攝像機(jī)視角失真和人群分布多樣性導(dǎo)致的畸變,保證了擁擠場(chǎng)景中人群密度圖的準(zhǔn)確性.

        Fig.12 Architecture of ACSCP[50]

        Fig.13 Architecture of ADCrowdNet[55]

        注意力圖生成器AMG的網(wǎng)絡(luò)結(jié)構(gòu)如圖14所示,采用了VGG-16網(wǎng)絡(luò)前10個(gè)卷積層作為前端(front end),用來(lái)提取圖像的底層特征,后端(back end)架構(gòu)類似Inception結(jié)構(gòu)[43],采用多個(gè)空洞率不同的空洞卷積層[56]擴(kuò)大感受野,應(yīng)對(duì)不同尺度的人群分布.后端輸出2通道的特征圖Fc和Fb,分別代表前景(人群)和背景.然后,通過(guò)對(duì)特征圖取全局平均池化GAP獲得相應(yīng)的權(quán)重Wc和Wb,再對(duì)其結(jié)果用softmax進(jìn)行分類獲取概率Pc和Pb.最后,對(duì)特征圖和概率進(jìn)行點(diǎn)乘獲得注意力圖.

        密度圖估計(jì)器DME的網(wǎng)絡(luò)結(jié)構(gòu)如圖15所示,前端依然使用VGG-16,后端架構(gòu)依然類似inception結(jié)構(gòu),但是采用了更適合擁擠嘈雜場(chǎng)景的多尺度可形變卷積,以適應(yīng)人群分布的幾何形變.

        同年,DADNet[57]也同樣使用可形變卷積進(jìn)行人群計(jì)數(shù),取得了較好的計(jì)數(shù)效果.

        Fig.14 Architecture of attention map generator

        Fig.15 Architecture of density map estimator

        背景噪聲會(huì)對(duì)人群計(jì)數(shù)算法的性能帶來(lái)重大影響.為了減少背景噪聲干擾,許多學(xué)者進(jìn)行了嘗試,例如ADCrowdNet通過(guò)注意力機(jī)制,過(guò)濾掉背景,讓模型只關(guān)注人群區(qū)域.此外,也有學(xué)者試圖將圖像分割技術(shù)MASK R-CNN[58]應(yīng)用于人群計(jì)數(shù)領(lǐng)域,以去除背景噪聲.

        實(shí)現(xiàn)背景和人群分割的難點(diǎn)在于如何制作用于分割的ground truth.為此,研究者們進(jìn)行了各種嘗試,SFANet[59]采用了將原本的坐標(biāo)點(diǎn)ground truth進(jìn)行固定高斯核大小的高斯模糊,再選取一定閾值對(duì)其進(jìn)行0和1的二值化,由此形成分割ground truth;MAN[60]采用了固定高斯核對(duì)原本坐標(biāo)點(diǎn)ground truth進(jìn)行處理,并將非0值全置為1,形成分割ground truth;W-Net[61]則采用SANet[42]中的歸一化高斯核方法對(duì)坐標(biāo)點(diǎn)圖進(jìn)行高斯模糊,再設(shè)置一定的閾值進(jìn)行二分類;SGANet[62]采用每個(gè)人頭使用25×25的方格表示,以此制作ground truth.

        總之,如何降低背景噪聲干擾仍然是人群計(jì)數(shù)領(lǐng)域未來(lái)需要重點(diǎn)關(guān)注的問(wèn)題.除了以上結(jié)合分割算法的人群計(jì)數(shù)算法以外,CFF[63]將分割任務(wù)、分類任務(wù)、計(jì)數(shù)任務(wù)結(jié)合,為我們提供了多任務(wù)結(jié)合的思路.

        由分析可知,隨著研究的深入,計(jì)數(shù)模型的結(jié)構(gòu)在不斷發(fā)生變化.為了解決多尺度問(wèn)題,計(jì)數(shù)網(wǎng)絡(luò)從最初簡(jiǎn)單的單分支結(jié)構(gòu)演變?yōu)閺?fù)雜的多分支結(jié)構(gòu),使得計(jì)數(shù)準(zhǔn)確性得到了提升.但是多分支結(jié)構(gòu)會(huì)帶來(lái)了網(wǎng)絡(luò)參數(shù)量大、計(jì)算復(fù)雜度高等問(wèn)題,導(dǎo)致計(jì)數(shù)模型的效率低下.為了克服這些問(wèn)題,研究人員在設(shè)計(jì)時(shí)又試圖重新回歸簡(jiǎn)單的單分支網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)引入各種新型CNN技術(shù)來(lái)降低模型復(fù)雜度,同時(shí)提升計(jì)數(shù)精度.因此,減少分支數(shù)量,讓計(jì)數(shù)模型既簡(jiǎn)單又有效,將是未來(lái)模型網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)方向.

        此外,從分析中可知,注意力機(jī)制、空洞卷積、對(duì)抗生成網(wǎng)絡(luò)、可形變卷積等CNN技術(shù)可以解決計(jì)數(shù)領(lǐng)域存在的多尺度、復(fù)雜背景干擾等問(wèn)題,幫助提升密度圖質(zhì)量.因此,未來(lái)在設(shè)計(jì)網(wǎng)絡(luò)時(shí),可以考慮結(jié)合這些技術(shù)提升計(jì)數(shù)精度.

        2 人群計(jì)數(shù)損失函數(shù)

        損失函數(shù)的作用是評(píng)價(jià)模型的預(yù)測(cè)值與真實(shí)值ground-truth的一致程度,是模型訓(xùn)練中不可缺少的一部分.損失函數(shù)值越小,說(shuō)明預(yù)測(cè)值越接近真實(shí)值,則模型的計(jì)數(shù)性能越好.在人群計(jì)數(shù)任務(wù)中,通過(guò)定義損失函數(shù),可以將人群密度圖的映射關(guān)系學(xué)習(xí)轉(zhuǎn)化為一個(gè)最優(yōu)化問(wèn)題.常用的人群計(jì)數(shù)損失函數(shù)包括歐氏損失、結(jié)構(gòu)相似性損失等.神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目的就是是找到使損失函數(shù)值最小的網(wǎng)絡(luò)參數(shù)值.

        2.1 歐氏距離損失

        早期絕大多數(shù)基于密度圖進(jìn)行人群計(jì)數(shù)的工作,例如跨場(chǎng)景計(jì)數(shù)模型[24]、MCNN[25]、CrowdNet[34]、Switch-CNN[38]、CSRNet[45]等方法,均采用像素級(jí)的歐氏距離作為模型損失函數(shù),度量估計(jì)密度圖與真實(shí)密度圖之間的差距:

        (1)

        其中,F(xiàn)(Xi;θ)是參數(shù)為θ的映射函數(shù),它將輸入圖像Xi映射到預(yù)測(cè)密度圖,F(xiàn)i是真實(shí)密度圖,N為訓(xùn)練樣本個(gè)數(shù).

        由于歐氏距離損失簡(jiǎn)單、訓(xùn)練速度快,且計(jì)數(shù)效果較好,早期得到了較為廣泛的應(yīng)用.但是歐氏距離損失的魯棒性較差,很容易因?yàn)閭€(gè)別像素點(diǎn)的極端情況而影響整體的計(jì)數(shù)效果.此外,歐氏距離損失是取所有像素點(diǎn)的平均,并不關(guān)注圖片的結(jié)構(gòu)化信息.對(duì)于同一張圖片,容易出現(xiàn)人群密集區(qū)域預(yù)測(cè)值偏小,而人群稀疏區(qū)域預(yù)測(cè)值偏大的問(wèn)題,但是最終的平均結(jié)果卻沒(méi)有體現(xiàn)這些問(wèn)題,從而導(dǎo)致生成的密度圖模糊、細(xì)節(jié)不清晰.

        2.2 結(jié)構(gòu)相似性損失

        由于歐氏距離損失不足以表達(dá)人的視覺(jué)系統(tǒng)對(duì)圖片的直觀感受,導(dǎo)致生成的密度圖質(zhì)量不高.為了克服歐氏距離損失的不足,SANet[42]提出了以結(jié)構(gòu)相似性指標(biāo)(structual similarity index)[31]為基礎(chǔ)的結(jié)構(gòu)相似性損失來(lái)度量密度圖的質(zhì)量.結(jié)構(gòu)相似性指標(biāo)是由Wang等人[31]提出的一種圖像質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),記為SSIM.不同于基于像素的誤差評(píng)價(jià)標(biāo)準(zhǔn),SSIM從圖像的亮度、對(duì)比度和結(jié)構(gòu)這3個(gè)方面度量圖像相似性,并通過(guò)均值、方差、協(xié)方差3個(gè)局部統(tǒng)計(jì)量計(jì)算2張圖像之間的相似度.SSIM的取值范圍在-1~1之間,SSIM值越大,說(shuō)明相似度越高.結(jié)構(gòu)相似性指標(biāo)SSIM的計(jì)算方法為

        (2)

        (3)

        其中,N代表密度圖的像素點(diǎn)數(shù)量,X是生成密度圖與真實(shí)密度圖相同像素點(diǎn)位置對(duì)應(yīng)的圖像塊集合.

        實(shí)驗(yàn)表明,結(jié)構(gòu)相似性損失確實(shí)可以提高生成密度圖質(zhì)量,相比于關(guān)注像素間差異的歐氏距離損失,結(jié)構(gòu)相似性損失能夠更好地關(guān)注圖像間對(duì)應(yīng)局部塊的差異,從而更好地生成密度圖.在后續(xù)的研究中,計(jì)數(shù)模型SFCN[52]也采用了類似的做法.

        為了進(jìn)一步提高計(jì)數(shù)精度,許多學(xué)者對(duì)結(jié)構(gòu)相似性損失進(jìn)行改進(jìn).DSSINet[64]將空洞卷積融入結(jié)構(gòu)相似性度量中,構(gòu)建了一個(gè)空洞卷積網(wǎng)絡(luò)DMS-SSIM用于計(jì)算結(jié)構(gòu)相似性損失LSSIM.通過(guò)擴(kuò)大SSIM指標(biāo)的感受野,每個(gè)像素點(diǎn)可以融合多尺度信息,使得在不同尺度下,可以輸出局部區(qū)域的高質(zhì)量密度圖.

        思想道德修養(yǎng)與法律基礎(chǔ)課程的設(shè)置主要是對(duì)大學(xué)生進(jìn)行社會(huì)主義道德教育和法制教育。在不改變課程屬性和課程內(nèi)容前提下,從課程設(shè)計(jì)的主線、內(nèi)容的排序、課程載體及考核等方面借鑒工作過(guò)程系統(tǒng)化設(shè)計(jì)課程。將原本課程章節(jié)組合設(shè)置為4大專題,如,“大學(xué)新生變形記”,“愛(ài)己、愛(ài)他(她)、愛(ài)家庭、愛(ài)工作崗位、愛(ài)自然、愛(ài)國(guó)家”系列專題,結(jié)合當(dāng)前現(xiàn)實(shí)生活熱點(diǎn)案例設(shè)置為“×××案例之我見(jiàn)”與“我的道德踐行錄”。因此,課程考核可從網(wǎng)絡(luò)教學(xué)、課堂教學(xué)、實(shí)踐教學(xué)3個(gè)方面進(jìn)行。

        2.3 生成對(duì)抗損失

        基于密度圖的人群計(jì)數(shù)方法通常以單張靜態(tài)的人群圖像作為輸入,然后輸出1張與輸入圖像對(duì)應(yīng)的人群密度圖,這一目標(biāo)本質(zhì)上可視作一個(gè)圖像轉(zhuǎn)換問(wèn)題(image-to-image translation).GAN[37]為解決圖像轉(zhuǎn)換問(wèn)題提供了一個(gè)可行的思路,即可以通過(guò)生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的不斷博弈,進(jìn)而使生成網(wǎng)絡(luò)學(xué)習(xí)人群密度分布,生成密度圖的質(zhì)量逐漸趨好;判別網(wǎng)絡(luò)也通過(guò)不斷訓(xùn)練,提高本身的判別能力.損失函數(shù)作為生成對(duì)抗網(wǎng)絡(luò)的關(guān)鍵,對(duì)于生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練、求解最優(yōu)值的過(guò)程尤為重要.在人群計(jì)數(shù)領(lǐng)域,可以使用對(duì)抗損失函數(shù),通過(guò)對(duì)抗的方式對(duì)生成圖片進(jìn)行矯正,由此避免出現(xiàn)密度圖模糊問(wèn)題.

        CP-CNN[36]網(wǎng)絡(luò)在歐氏距離損失的基礎(chǔ)上,增加了生成對(duì)抗損失,提高了預(yù)測(cè)密度圖的質(zhì)量,其損失函數(shù)為

        LT=LE+λaLA,

        (4)

        (5)

        LA=-log(φD(φ(X))),

        (6)

        其中,LT是總損耗,LE是生成密度圖與對(duì)應(yīng)的真實(shí)密度圖之間的像素級(jí)歐氏損失,λa是權(quán)重因子,LA是對(duì)抗性損失,X是尺寸為W×H的輸入圖像,Y是ground truth密度圖,φ是由DME和F-CNN組成的網(wǎng)絡(luò),φD是用于計(jì)算對(duì)抗損失的鑒別子網(wǎng)絡(luò).

        在之后的人群計(jì)數(shù)算法研究中,對(duì)抗損失屢見(jiàn)不鮮.ACSCP[50]網(wǎng)絡(luò)采用U-Net作為密度圖生成器,并使用了對(duì)抗損失,可定義為

        LA(G,D)=Ex,y~Pdata(x,y)[logD(x,y)]+

        Ex~Pdata(x)[log(1-D(x,G(x)))],

        (7)

        其中,x表示訓(xùn)練塊,y表示相應(yīng)的ground truth.G是生成網(wǎng)絡(luò),D是判別網(wǎng)絡(luò),G試圖最小化這個(gè)目標(biāo)函數(shù),而D試圖將其最大化,通過(guò)判別網(wǎng)絡(luò)與生成網(wǎng)絡(luò)的一種聯(lián)合訓(xùn)練得到最終的模型.RPNet[65]采用了一種對(duì)抗結(jié)構(gòu)來(lái)提取擁擠區(qū)域的結(jié)構(gòu)特征.

        對(duì)抗損失對(duì)于密度圖質(zhì)量的提升有著顯著作用,但對(duì)抗損失也有著難以訓(xùn)練的缺點(diǎn).除這3種損失外,人群計(jì)數(shù)任務(wù)使用的損失函數(shù)還有很多,例如人群統(tǒng)計(jì)損失,但是每個(gè)損失函數(shù)各有優(yōu)缺點(diǎn),因此實(shí)際應(yīng)用中,常常會(huì)聯(lián)合多種損失,共同構(gòu)建一個(gè)綜合性的損失函數(shù).

        對(duì)于人群計(jì)數(shù)任務(wù)來(lái)說(shuō),密度圖質(zhì)量的優(yōu)劣將直接影響計(jì)數(shù)性能.現(xiàn)有的損失函數(shù)雖然可以生成密度圖,但是仍有許多亟待改進(jìn)的地方.未來(lái)如何定義新的損失函數(shù),以生成高質(zhì)量的密度圖也是該領(lǐng)域的一個(gè)研究重點(diǎn).

        3 ground-truth密度圖生成方法

        為了訓(xùn)練計(jì)數(shù)網(wǎng)絡(luò),需要對(duì)人群圖片中的目標(biāo)進(jìn)行標(biāo)注.常見(jiàn)的做法是為圖片中的每個(gè)人頭標(biāo)注中心坐標(biāo),然后再利用高斯核將坐標(biāo)圖轉(zhuǎn)化為ground-truth人群密度圖.ground-truth密度圖質(zhì)量的高低,直接影響網(wǎng)絡(luò)的訓(xùn)練結(jié)果.優(yōu)質(zhì)的ground-truth能使網(wǎng)絡(luò)更好地學(xué)習(xí)到人群圖片特征,計(jì)數(shù)網(wǎng)絡(luò)的魯棒性和適應(yīng)性也會(huì)更好.近年來(lái)對(duì)ground-truth生成方法的研究從未停止過(guò),ground-truth密度圖生成的關(guān)鍵在于如何選擇高斯核,設(shè)置不同的高斯核對(duì)網(wǎng)絡(luò)性能的影響很大,常用的3種高斯核設(shè)置方法為:

        1)幾何自適應(yīng)法

        Fig.16 Geometric adaptive method[25]

        2)固定高斯核法

        該方法忽略了人頭尺寸差異,以及自身與鄰居的相似性,無(wú)論圖片中哪個(gè)位置的人頭均采用方差大小固定的高斯核對(duì)每個(gè)人頭進(jìn)行高斯模糊,采用固定高斯核的算法有CP-CNN[36],其生成的ground-truth密度圖如圖17[36]所示.固定高斯核法解決了幾何自適應(yīng)法中的近處人頭消失的問(wèn)題,但是由于高斯核大小固定,對(duì)于遠(yuǎn)處人頭來(lái)說(shuō),高斯核尺寸可能過(guò)大,使得遠(yuǎn)處人頭出現(xiàn)重疊,降低了密度圖質(zhì)量.

        Fig.17 Fixed Gaussian kernel method[36]

        3)內(nèi)容感知標(biāo)注法

        為解決方法1)2)存在的問(wèn)題,Oghaz等人[66]提出了一種通過(guò)內(nèi)容感知標(biāo)注技術(shù)生成密度圖的方法.首先,用暴力最近鄰(brute-force nearest neighbor)算法定位最近的頭部,再用無(wú)監(jiān)督分割算法Chan-Vese分割出頭部區(qū)域,然后依據(jù)鄰居頭部的大小計(jì)算高斯核尺寸,其生成的密度圖如圖18[66]所示.該方法也是根據(jù)鄰居情況靈活確定高斯核大小,但是與幾何自適應(yīng)法相比,它采用brute-force最近鄰算法替代k-d樹(shù)空間劃分法(k-d tree space partitioning approach)來(lái)尋找最近鄰,這樣能確保尋找結(jié)果與實(shí)際相符.

        Fig.18 Content-aware annotation method[66]

        總之,高質(zhì)量密度圖是人群計(jì)數(shù)算法成功的基礎(chǔ)和關(guān)鍵,因此ground-truth的生成方法將是人群計(jì)數(shù)領(lǐng)域未來(lái)的一個(gè)研究重點(diǎn).

        4 評(píng)價(jià)指標(biāo)

        為了對(duì)不同模型的準(zhǔn)確率以及魯棒性進(jìn)行測(cè)評(píng),需要有合適的評(píng)價(jià)指標(biāo).在人群計(jì)數(shù)領(lǐng)域,常用的評(píng)價(jià)指標(biāo)有均方誤差(mean squared error,MSE)、平均絕對(duì)誤差(mean absolute error,MAE)和均方根誤差(root mean squared error,RMSE),具體定義為

        (8)

        (9)

        (10)

        MSE和RMSE可以反映模型的魯棒性,而MAE可以反映模型的準(zhǔn)確性.通過(guò)對(duì)各個(gè)人群計(jì)數(shù)模型的評(píng)價(jià)指標(biāo)MSE,MAE,RMSE的比較,可以評(píng)定各個(gè)計(jì)數(shù)模型的性能.

        由于上述評(píng)價(jià)指標(biāo)存在一定的局限性,很多研究人員進(jìn)行了不同的改進(jìn),以適應(yīng)不同的評(píng)價(jià)需求.例如,原始的MSE,MAE,RMSE只能度量全局魯棒性和準(zhǔn)確性,無(wú)法評(píng)價(jià)局部區(qū)域的計(jì)數(shù)性能,因此Tian等人[67]將MAE和RMSE擴(kuò)展成塊平均絕對(duì)誤差(patch mean absolute error,PMAE),和塊均方誤差(patch mean squared error,PMSE),用于評(píng)價(jià)局部區(qū)域的計(jì)數(shù)效果.此外,對(duì)于基于密度圖的人群計(jì)數(shù)算法來(lái)說(shuō),密度圖質(zhì)量高低對(duì)算法性能優(yōu)劣具有決定性作用,因此也可以采用已有的圖像質(zhì)量評(píng)價(jià)指標(biāo)來(lái)衡量計(jì)數(shù)模型的性能.

        5 人群計(jì)數(shù)數(shù)據(jù)集

        隨著人群計(jì)數(shù)算法研究的不斷推進(jìn),該領(lǐng)域數(shù)據(jù)集的豐富性和針對(duì)性在逐步提高,圖片數(shù)量以及質(zhì)量也在進(jìn)一步提升.表1按照時(shí)間順序列舉了具有代表性的人群計(jì)數(shù)數(shù)據(jù)集,不僅包括早期創(chuàng)建的經(jīng)典人群計(jì)數(shù)數(shù)據(jù)集,也包括近年來(lái)新出現(xiàn)的數(shù)據(jù)集.這些數(shù)據(jù)集在拍攝視角、場(chǎng)景類型、平均分辨率、圖像數(shù)量、每張圖像所標(biāo)注的目標(biāo)數(shù)量等方面各有不同,總體呈現(xiàn)多樣化特點(diǎn).分2個(gè)部分對(duì)數(shù)據(jù)集進(jìn)行簡(jiǎn)要介紹.

        Table 1 Crowd Counting Datasets

        5.1 經(jīng)典人群計(jì)數(shù)數(shù)據(jù)集

        本節(jié)主要介紹早期的經(jīng)典人群計(jì)數(shù)數(shù)據(jù)集,包括WorldExpo’10[24,70],ShanghaiTech[25],UCSD[68],Mall[69],UCF_CC_50[21],它們經(jīng)常被看作是驗(yàn)證計(jì)數(shù)算法有效性的基準(zhǔn)數(shù)據(jù)集,在近幾年的人群計(jì)數(shù)算法研究中應(yīng)用最為廣泛[81].其中,UCSD,Mall,WorldExpo’10,ShanghaiTech PartB主要針對(duì)人群稀疏場(chǎng)景,UCF_CC_50和ShanghaiTech PartA則主要針對(duì)人群密集場(chǎng)景;在數(shù)據(jù)量方面,WorldExpo’10,UCSD,Mall的數(shù)據(jù)量較大;UCSD,Mall,World-Expo’10,ShanghaiTech PartB數(shù)據(jù)集圖片的分辨率是固定的,其他2個(gè)數(shù)據(jù)集中的圖像分辨率是隨機(jī)變化的.

        數(shù)據(jù)集UCSD和Mall中的圖像均來(lái)自相同的視頻序列,在圖像之間不存在視角變化.而其他經(jīng)典數(shù)據(jù)集的圖像樣本來(lái)自不同的視頻序列,視角和人群尺度的變化較大.表2~7通過(guò)度量準(zhǔn)確性的MAE和度量魯棒性的MSE這2個(gè)評(píng)價(jià)指標(biāo),比較了不同計(jì)數(shù)算法在各種經(jīng)典人群計(jì)數(shù)數(shù)據(jù)集上的表現(xiàn),分析了算法表現(xiàn)優(yōu)劣的原因.所有實(shí)驗(yàn)數(shù)據(jù)均來(lái)自算法相關(guān)的參考文獻(xiàn).

        UCSD數(shù)據(jù)集[68]是最早創(chuàng)建的人群計(jì)數(shù)數(shù)據(jù)集之一.包含2 000幀從人行道視頻監(jiān)控中采集的圖像,每幀的分辨率為238×158.每隔5幀人工標(biāo)注1次,其余幀中的行人位置則使用線性插值方式創(chuàng)建,最終標(biāo)注了49885個(gè)行人目標(biāo).該數(shù)據(jù)集的人群密度相對(duì)較低,平均1幀約15人,由于數(shù)據(jù)是從一個(gè)位置采集的,場(chǎng)景和透視角度單一.

        表2列出了不同計(jì)數(shù)網(wǎng)絡(luò)在UCSD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,由表可知,隨著時(shí)間推移,算法性能在不斷提升.評(píng)價(jià)指標(biāo)MAE和MSE排名前3的算法分別是E3D[82],PACNN[83],PaDNet[67].其中,PaDNet提出了針對(duì)不同密度人群進(jìn)行計(jì)數(shù)的泛密度計(jì)數(shù)方法;E3D中最主要的創(chuàng)新是結(jié)合了3D卷積核來(lái)編碼局部時(shí)空特征,該網(wǎng)絡(luò)主要針對(duì)視頻中的人群計(jì)數(shù),但在圖像數(shù)據(jù)集上依然取得了良好的性能;PACNN將透視信息集成到密度回歸中,以方便融合目標(biāo)比例變化相關(guān)的特征.其次,考慮了局部注意力的網(wǎng)絡(luò)ADCrowdNet以及考慮尺度多樣性的計(jì)數(shù)網(wǎng)絡(luò)MCNN,SANet,ACSCP等性能表現(xiàn)均較好.由此分析可知,對(duì)于較為稀疏的人群場(chǎng)景,場(chǎng)景的尺度多樣性是最應(yīng)該考慮的要素,而且將局部信息作為額外的輔助信息,將有助于提升計(jì)數(shù)性能.

        Table 2 Comparison of Crowd Counting Networks on UCSD

        Mall數(shù)據(jù)集[69]是由安裝在購(gòu)物中心的監(jiān)控?cái)z像頭采集而來(lái),共包含2 000幀分辨率為320×240的圖像樣本,標(biāo)注了行人目標(biāo)6 000個(gè),前800幀用于訓(xùn)練,剩余1 200幀用于測(cè)試.該數(shù)據(jù)集場(chǎng)景復(fù)雜,人群密度以及光照條件差異較大,而且圖像存在嚴(yán)重的透視畸變,目標(biāo)的表觀特征和尺度差異較大.與UCSD數(shù)據(jù)集相比,Mall數(shù)據(jù)集的人群密度相對(duì)較高,然而這2個(gè)數(shù)據(jù)集由于都在固定地點(diǎn)拍攝,所以均存在場(chǎng)景單一的問(wèn)題,無(wú)法反應(yīng)室內(nèi)場(chǎng)景的實(shí)際狀況.此外,該數(shù)據(jù)集還存在由場(chǎng)景對(duì)象,例如攤位、植物等,引起的嚴(yán)重遮擋,這一特性增加了人群計(jì)數(shù)的難度.

        表3列出不同計(jì)數(shù)網(wǎng)絡(luò)在Mall數(shù)據(jù)集上的運(yùn)行結(jié)果.其中按照MAE和MSE排名,表現(xiàn)最好的算法包括DecideNet[41],DRSAN[90],E3D[82],SAAN[44].其中,SAAN網(wǎng)絡(luò)利用了多尺度注意力機(jī)制;E3D考慮了局部時(shí)空特征;DecideNet中有檢測(cè)分支,更加關(guān)注局部信息;DRSAN主要是通過(guò)區(qū)域精細(xì)化過(guò)程自適應(yīng)地解決了可學(xué)習(xí)的空間變換模塊中的2個(gè)問(wèn)題,來(lái)更好地適應(yīng)攝像機(jī)的不同視角變化,這種方法很好地考慮到了圖片中不同人群的尺度特征.

        Table 3 Comparison of Crowd Counting Networks on Mall

        相較于其他數(shù)據(jù)集,Mall與UCSD這2個(gè)數(shù)據(jù)集的人群密度均較小.由這2個(gè)數(shù)據(jù)集中各模型的實(shí)驗(yàn)結(jié)果可得,對(duì)于較為稀疏的場(chǎng)景,我們應(yīng)該更關(guān)注人群局部特征和多尺度特征,而空洞卷積在稀疏場(chǎng)景的效果并沒(méi)有特別突出.

        MCNN網(wǎng)絡(luò)在提出多陣列網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí),還創(chuàng)建了人群計(jì)數(shù)數(shù)據(jù)集ShanghaiTech.該數(shù)據(jù)集包含1 198張圖片,分為partA和partB這2個(gè)部分,共標(biāo)注了330 165個(gè)頭部位置.人群分布較為密集的PartA包含300張訓(xùn)練圖片,182張測(cè)試圖片,圖像分辨率是變化的;人群分布較為稀疏的PartB包含400張訓(xùn)練圖片,316張測(cè)試圖片,圖像分辨率固定不變.總體上看,在ShanghaiTech數(shù)據(jù)集上進(jìn)行精確計(jì)數(shù)是具有挑戰(zhàn)性的,因?yàn)樵摂?shù)據(jù)集無(wú)論是場(chǎng)景類型,還是透視角度和人群密度都變化多樣.

        表4和表5為各計(jì)數(shù)網(wǎng)絡(luò)在ShanghaiTech PartA和Part B上的運(yùn)行結(jié)果.在PartA上,性能表現(xiàn)較好的網(wǎng)絡(luò)包括SPANet+SANet,S-DCNet,PGCNet,ADSCNet.其中,SPANet將空間上下文融入人群計(jì)數(shù),并與考慮尺度特征的SANet相結(jié)合,得到的模型擁有很好的魯棒性;S-DCNet是一種空間分而治之的網(wǎng)絡(luò),通過(guò)獲取局部特征來(lái)實(shí)現(xiàn)圖片整體的計(jì)數(shù);PGCNet克服了由于透視效應(yīng)而產(chǎn)生的場(chǎng)景尺度變化,獲得了較好的計(jì)數(shù)性能;ADSCNet提出了一種具有自我校正監(jiān)督的自適應(yīng)空洞網(wǎng)絡(luò)計(jì)數(shù)算法,對(duì)空洞卷積進(jìn)行改進(jìn),使其可以根據(jù)圖片場(chǎng)景及尺度變換而自適應(yīng)地選擇不同的空洞卷積.PartB部分去除了PGCNet網(wǎng)絡(luò),增加了DSSINet網(wǎng)絡(luò)的比較.該網(wǎng)絡(luò)引入了基于空洞卷積的結(jié)構(gòu)化損失,能更好地體現(xiàn)圖片中的局部損失.

        Table 4 Comparison of Crowd Counting Networks on ShanghaiTech Part A

        Table 5 Comparison of Crowd Counting Networks on ShanghaiTech Part B

        由數(shù)據(jù)對(duì)比可知,稀疏場(chǎng)景的人群計(jì)數(shù)效果明顯優(yōu)于密集場(chǎng)景的人群計(jì)數(shù)效果.因此,在未來(lái)的研究中,密集場(chǎng)景人群計(jì)數(shù)將依然是該領(lǐng)域的研究重點(diǎn).

        UCF_CC_50數(shù)據(jù)集是第1個(gè)真正意義上具有挑戰(zhàn)性的大規(guī)模人群計(jì)數(shù)數(shù)據(jù)集.包含了50張不同分辨率的圖片,內(nèi)容涵蓋了音樂(lè)會(huì)、抗議活動(dòng)、體育場(chǎng)和馬拉松比賽等不同場(chǎng)景.整個(gè)數(shù)據(jù)集中共標(biāo)注了63 075個(gè)頭部位置,其中每張圖片包含的人數(shù)從94到4 543不等,密度等級(jí)變化極大.

        表6是不同計(jì)數(shù)網(wǎng)絡(luò)在UCF_CC_50數(shù)據(jù)集上的運(yùn)行結(jié)果.在性能指標(biāo)MAE和MSE上排名前4的方法包括PaDNet,SPN+L2SM,ASD,CAN,其中PaDNet表現(xiàn)最好,其采用的融合圖像不同密度的泛密度方法恰好適用于UCF_CC_50這種人群密度變化范圍較廣的數(shù)據(jù)集;SPN提出了一個(gè)比例金字塔網(wǎng)絡(luò)(SPN),該網(wǎng)絡(luò)采用共享的單個(gè)深列結(jié)構(gòu),并通過(guò)尺度金字塔模塊提取高層的多種尺度信息,其與L2SM結(jié)合,更加關(guān)注于人群多尺度信息;ASD是一個(gè)場(chǎng)景自適應(yīng)框架,能夠更好地對(duì)可變?nèi)巳簣?chǎng)景進(jìn)行計(jì)數(shù);CAN采用了空間金字塔池化結(jié)構(gòu)處理人群多尺度特征,在此數(shù)據(jù)集上獲得了較好的魯棒性.

        由表6和分析可得,空洞卷積和多尺度網(wǎng)絡(luò)在此數(shù)據(jù)集上的表現(xiàn)效果更好.相比UCSD,Mall,ShanghaiTech,UCF_CC_50這4個(gè)數(shù)據(jù)集的效果,Switch-CNN網(wǎng)絡(luò)的性能提升明顯,而UCF_CC_50數(shù)據(jù)集的場(chǎng)景更為復(fù)雜,由此可得,Switch結(jié)構(gòu)增加了模型的魯棒性,多陣列模型的效果明顯好于單列計(jì)數(shù)網(wǎng)絡(luò)模型.

        早期的人群計(jì)數(shù)方法主要關(guān)注單一場(chǎng)景的計(jì)數(shù)問(wèn)題,導(dǎo)致模型跨場(chǎng)景計(jì)數(shù)性能較差,為此Zhang等人構(gòu)建了采集于上海世界博覽會(huì)的人群計(jì)數(shù)數(shù)據(jù)集WorldExpro’10.該數(shù)據(jù)集由108個(gè)監(jiān)控探頭采集的1 132個(gè)視頻序列組成,通過(guò)從不同位置的攝像頭采集數(shù)據(jù),確保了場(chǎng)景類型的多樣性.其中,3 980幀圖像進(jìn)行了人工標(biāo)注,每幀的分辨率為576×720,總共標(biāo)注了199 923個(gè)目標(biāo)位置.該數(shù)據(jù)集被劃分為2個(gè)部分,來(lái)自103個(gè)場(chǎng)景的1 127個(gè)視頻序列作為訓(xùn)練集,其余5個(gè)場(chǎng)景的數(shù)據(jù)作為測(cè)試集.每個(gè)測(cè)試場(chǎng)景由120個(gè)標(biāo)記幀組成,觀眾數(shù)量從1~220不等.雖然嘗試捕捉不同密度級(jí)別的場(chǎng)景,但在測(cè)試集中,多樣性僅限于5個(gè)場(chǎng)景,人群數(shù)量最大被限制在220個(gè).因此,該數(shù)據(jù)集不足以評(píng)估為極端密集場(chǎng)景設(shè)計(jì)的人群計(jì)數(shù)算法.

        Table 6 Comparison of Crowd Counting Networks on UCF_CC_50

        表7列出了不同計(jì)數(shù)網(wǎng)絡(luò)在WorldExpo’10數(shù)據(jù)集上的MAE值.其中,采用融入空洞率的結(jié)構(gòu)性損失的網(wǎng)絡(luò)DSSINet的平均性能最好;融合了圖像上下文信息的CP-CNN和CAN網(wǎng)絡(luò)對(duì)于多角度、多尺度場(chǎng)景的效果較好;在S2,S3,S5場(chǎng)景中,空洞卷積的表現(xiàn)都是最好;此外,包含空洞卷積和可形變卷積的ADCrowdNet在S4場(chǎng)景下得到了很好的計(jì)數(shù)效果;加入透視引導(dǎo)卷積(PGC)的網(wǎng)絡(luò)PGCNet在場(chǎng)景S3上獲得很好的效果,可見(jiàn)尺度信息對(duì)于場(chǎng)景S3的重要性.由分析可知,在人群相對(duì)稀疏的場(chǎng)景下,空洞卷積可以在不同場(chǎng)景下取得很好的效果,結(jié)構(gòu)性損失在多個(gè)場(chǎng)景的計(jì)數(shù)中都表現(xiàn)良好.

        Table 7 Comparison of Crowd Counting Networks on WorldExpo’10

        5.2 其他人群計(jì)數(shù)數(shù)據(jù)集

        本節(jié)主要介紹近幾年新出現(xiàn)的人群計(jì)數(shù)數(shù)據(jù)集,包括DISCO[80],NWPU-Crowd[78],UCF-QNRF[72],JHU-CROWD++[79]等.這些數(shù)據(jù)集的出現(xiàn)在一定程度上緩解了經(jīng)典數(shù)據(jù)集存在的場(chǎng)景單一、圖像質(zhì)量不高、數(shù)據(jù)規(guī)模過(guò)小等問(wèn)題.

        CityUHK-X[71]是由香港城市大學(xué)VISAL實(shí)驗(yàn)室創(chuàng)建的人群計(jì)數(shù)數(shù)據(jù)集,包含來(lái)自55個(gè)場(chǎng)景的3 191張圖片,其中訓(xùn)練集由來(lái)自43個(gè)場(chǎng)景的2 503張圖片構(gòu)成,共標(biāo)注了78 592個(gè)實(shí)例;測(cè)試集則由來(lái)自12個(gè)場(chǎng)景的688張圖片構(gòu)成,共標(biāo)注了28 191個(gè)實(shí)例.該數(shù)據(jù)集的特色在于將拍攝角度和高度作為場(chǎng)景上下文輔助信息,然后卷積核權(quán)重隨之自適應(yīng)變化,以提升計(jì)數(shù)準(zhǔn)確性.

        UCF-QNRF[72]數(shù)據(jù)集具有場(chǎng)景豐富,視角、密度以及光照條件均變化多樣的特點(diǎn),是一個(gè)非常具有挑戰(zhàn)性的人群計(jì)數(shù)數(shù)據(jù)集.它共包含1 535張密集人群場(chǎng)景圖片的數(shù)據(jù)集,其中訓(xùn)練集1 201張圖像,測(cè)試集334張圖像,共有1 251 642個(gè)目標(biāo)被標(biāo)注,由于標(biāo)注數(shù)量眾多,該數(shù)據(jù)集適合采用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.此外,該數(shù)據(jù)集圖片的分辨率很高,因此在訓(xùn)練過(guò)程中可能出現(xiàn)內(nèi)存不足.

        SmartCity數(shù)據(jù)集[73]主要用于驗(yàn)證計(jì)數(shù)模型在人群稀疏場(chǎng)景中的有效性.現(xiàn)有的人群計(jì)數(shù)數(shù)據(jù)集主要采集自人群密集場(chǎng)景,基于密集場(chǎng)景數(shù)據(jù)集訓(xùn)練出來(lái)的網(wǎng)絡(luò)難以保證對(duì)稀疏場(chǎng)景的泛化性.為此,騰訊優(yōu)圖從10種不同城市場(chǎng)景中,采集了50張圖片.這些圖像包括室內(nèi)和室外2種場(chǎng)景,均采用了很高的視角拍攝,圖像中行人稀少,平均數(shù)量只有7.4個(gè).

        Fudan-ShanghaiTech數(shù)據(jù)集[74]為進(jìn)行基于視頻的人群計(jì)數(shù)算法的研究提供了數(shù)據(jù).已有的數(shù)據(jù)集主要面向基于圖像的人群計(jì)數(shù),為了更好地推動(dòng)基于視頻的人群計(jì)數(shù)算法的研究,研究人員從13個(gè)不同場(chǎng)景中捕獲了100個(gè)視頻,這些視頻包含150 000幀圖片,共標(biāo)注了394 081個(gè)實(shí)體.其中訓(xùn)練集包含60個(gè)視頻,共9 000幀圖像;測(cè)試集包含剩余的40個(gè)視頻,共6 000幀圖像.

        Beijing-BRT[75]是一個(gè)智能交通領(lǐng)域的人群計(jì)數(shù)數(shù)據(jù)集,包含1 280張從北京快速公交(bus rapid transit, BRT)采集的圖片,其中720張用于訓(xùn)練,560張用于測(cè)試.每張圖片像素大小為640×360,共標(biāo)注了16 795個(gè)行人目標(biāo).該數(shù)據(jù)集與實(shí)際情況比較相符,涵蓋了各種光照條件,而且時(shí)間跨度比較大,從白天到夜晚均有圖像數(shù)據(jù),因此基于該數(shù)據(jù)集訓(xùn)練出來(lái)的計(jì)數(shù)模型泛化能力較強(qiáng).

        DroneCrowd[76]數(shù)據(jù)集是由天津大學(xué)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘?qū)嶒?yàn)室的AISKYEYE團(tuán)隊(duì)通過(guò)無(wú)人機(jī)拍攝創(chuàng)建,由288段視頻剪輯和10 209張靜態(tài)圖像構(gòu)成.數(shù)據(jù)集圖像涵蓋不同的地理位置、標(biāo)注目標(biāo)類型以及密集程度,變化范圍廣泛,很具有代表性.不僅可以用于視頻或圖像的目標(biāo)檢測(cè)和跟蹤任務(wù)的研究,也可以用于人群計(jì)數(shù)任務(wù)的研究.

        DLR-ACD[77]是一個(gè)包括33張航拍圖像的人群計(jì)數(shù)數(shù)據(jù)集,數(shù)據(jù)集圖片來(lái)自不同的城市場(chǎng)景,包括運(yùn)動(dòng)會(huì)、露天集會(huì)、慶典等存在大量人員聚集的場(chǎng)合,采用安裝在直升機(jī)上的攝像頭直接拍攝,所得到圖片的空間分辨率在4.5cm/pixel~15cm/pixel之間變化.對(duì)圖片中的每個(gè)人進(jìn)行了手工標(biāo)注,共標(biāo)注了226 291個(gè)實(shí)例.

        NWPU-Crowd[78]是目前人群計(jì)數(shù)領(lǐng)域最大的數(shù)據(jù)集,擁有5 109張圖片和2 133 238個(gè)標(biāo)注實(shí)體,而且單張圖片的標(biāo)注實(shí)體數(shù)量變化范圍非常大,對(duì)計(jì)數(shù)任務(wù)來(lái)說(shuō)雖然挑戰(zhàn)極大,但也有助于提升訓(xùn)練模型的泛化性;該數(shù)據(jù)集的圖片分辨率較高,有利于計(jì)數(shù)準(zhǔn)確性的提升.此外,部分圖片的目標(biāo)標(biāo)注數(shù)量為0,這些負(fù)樣本的加入有助于提升訓(xùn)練模型的魯棒性.該數(shù)據(jù)集還提供了一個(gè)平臺(tái),供研究人員進(jìn)行計(jì)數(shù)模型的性能比較.

        JHU-CROWD++[79]也是一個(gè)非常具有挑戰(zhàn)性的大規(guī)模人群計(jì)數(shù)數(shù)據(jù)集,包含4 372張圖像,共計(jì)151萬(wàn)個(gè)標(biāo)注,所有圖像采集于各種不同的場(chǎng)景和環(huán)境條件,甚至包括一些基于惡劣天氣變化和光照變化的圖像,覆蓋面很廣.此外,該數(shù)據(jù)集與NWPU-Crowd類似,引入負(fù)樣本,增強(qiáng)訓(xùn)練模型的魯棒性,同時(shí)對(duì)人頭采用了多種標(biāo)注方式,包括點(diǎn)、近似邊界框、模糊級(jí)別等,為不同計(jì)數(shù)算法的訓(xùn)練提供支撐條件.

        DISCO[80]是一個(gè)極具特色的大規(guī)模人群計(jì)數(shù)基準(zhǔn)數(shù)據(jù)集,包含1 935張圖片和170 270個(gè)帶標(biāo)注的實(shí)體,每張圖片對(duì)應(yīng)一段時(shí)長(zhǎng)為1 s的音頻剪輯.最終通過(guò)聲音和圖像的共同作用,實(shí)現(xiàn)視聽(tīng)人群計(jì)數(shù).

        5.3 討 論

        隨著人群計(jì)數(shù)領(lǐng)域受關(guān)注程度的提高和研究的深入,人群計(jì)數(shù)數(shù)據(jù)集也逐漸增多,主要呈現(xiàn)5個(gè)特點(diǎn):

        1)在場(chǎng)景方面,由早期的單一化向多樣化演變,部分?jǐn)?shù)據(jù)集甚至包含極端條件下的場(chǎng)景圖像,由此訓(xùn)練出來(lái)的模型跨場(chǎng)景遷移能力更強(qiáng).

        2)在圖像分辨率方面,早期場(chǎng)景圖像分辨率較低,圖像質(zhì)量較差,人群特征不明顯,不利于模型訓(xùn)練.隨著視頻設(shè)備發(fā)展,圖像分辨率不斷增強(qiáng),計(jì)數(shù)的準(zhǔn)確率不斷攀升.

        3)在視角和尺度方面,變化范圍更廣,更貼近現(xiàn)實(shí)情況,有助于提升計(jì)數(shù)模型的泛化性和實(shí)用性.

        4)數(shù)據(jù)規(guī)模不斷增強(qiáng),更加適合采用深度學(xué)習(xí)方法進(jìn)行訓(xùn)練.此外,數(shù)據(jù)規(guī)模的增強(qiáng)降低了模型的過(guò)擬合風(fēng)險(xiǎn).

        5)樣本類型更加豐富.早期人群計(jì)數(shù)數(shù)據(jù)集中每張圖片均有人,標(biāo)注數(shù)量至少為1,無(wú)人負(fù)樣本的加入可以幫助模型過(guò)濾噪聲,提升魯棒性.

        此外,分析實(shí)驗(yàn)數(shù)據(jù)可知,采用了注意力機(jī)制、空洞卷積以及額外輔助信息的網(wǎng)絡(luò)往往性能較好.主要是由于注意力機(jī)制可以幫助計(jì)數(shù)網(wǎng)絡(luò)專注于有效信息,排除噪聲干擾;空洞卷積可以在不增加模型參數(shù)和計(jì)算量的前提下,擴(kuò)大感受野,捕獲多尺度信息,保留圖像更多細(xì)節(jié);而額外的輔助信息,例如視角,可以輔助處理多尺度問(wèn)題.

        目前,雖然已經(jīng)構(gòu)建了各種人群計(jì)數(shù)數(shù)據(jù)集,為驗(yàn)證計(jì)數(shù)算法的有效性提供了數(shù)據(jù)支撐,但是在場(chǎng)景多樣性、標(biāo)注準(zhǔn)確性以及視圖多樣性等方面依然無(wú)法滿足實(shí)驗(yàn)需求,這些也將是今后構(gòu)建數(shù)據(jù)集時(shí),需要重點(diǎn)考慮的問(wèn)題.對(duì)于某些場(chǎng)景來(lái)說(shuō),采集圖像非常困難且無(wú)法實(shí)現(xiàn)準(zhǔn)確標(biāo)注,此時(shí)可以考慮通過(guò)人工合成的方法生成圖片,例如GCC[52]通過(guò)生成對(duì)抗網(wǎng)絡(luò)人工合成了大量圖片,為構(gòu)建數(shù)據(jù)集提供了新思路.

        6 總結(jié)與展望

        近年來(lái)人群計(jì)數(shù)算法研究,尤其是基于深度學(xué)習(xí)的人群計(jì)數(shù)算法研究已經(jīng)取得了明顯進(jìn)展,但是要在智能視頻監(jiān)控系統(tǒng)中真正應(yīng)用并普及仍然面臨許多挑戰(zhàn)[110],例如相互遮擋、透視扭曲、照明變化以及天氣變化等因素,都會(huì)影響計(jì)數(shù)的準(zhǔn)確性.今后可以針對(duì)這些問(wèn)題,從3個(gè)方面開(kāi)展工作:

        1)遮擋條件下的人群計(jì)數(shù).隨著人群密度增大,人與人之間會(huì)產(chǎn)生遮擋,下一步可以研究在遮擋條件下如何進(jìn)行人群計(jì)數(shù)同時(shí)獲取人群分布等細(xì)節(jié)信息.

        2)特殊天氣條件下的人群計(jì)數(shù).現(xiàn)實(shí)中天氣變化多樣,不僅有風(fēng)和日麗,亦有風(fēng)雨交加.特殊天氣下的數(shù)據(jù)采集和標(biāo)注較困難[111],研究相對(duì)較少.下一步可以重點(diǎn)關(guān)注特殊天氣條件下的人群計(jì)數(shù)問(wèn)題,同時(shí)構(gòu)建相應(yīng)的數(shù)據(jù)集.

        3)昏暗光照條件下的人群計(jì)數(shù).在光照不足的環(huán)境中,攝像頭拍攝的圖片往往較模糊,人頭無(wú)法清晰辨認(rèn),下一步可以研究昏暗光照條件下人群計(jì)數(shù)問(wèn)題的處理方法.

        本文針對(duì)近年來(lái)人群計(jì)數(shù)領(lǐng)域的相關(guān)論文進(jìn)行調(diào)研, 在簡(jiǎn)單回顧傳統(tǒng)人群計(jì)數(shù)算法之后, 對(duì)基于深度學(xué)習(xí)的人群計(jì)數(shù)方法進(jìn)行了系統(tǒng)性的總結(jié)和介紹,并給出了這個(gè)方向未來(lái)的研究趨勢(shì),希望可以給相關(guān)研究人員提供一些參考.

        作者貢獻(xiàn)聲明:余鷹負(fù)責(zé)綜述選題確定、文章主體撰寫和修訂等工作,并指導(dǎo)和督促完成相關(guān)文獻(xiàn)資料的收集整理以及論文初稿的寫作;朱慧琳和錢進(jìn)參與文獻(xiàn)資料的分析、整理和論文初稿的寫作;潘誠(chéng)參與了文獻(xiàn)資料的收集以及部分圖表數(shù)據(jù)的繪制;苗奪謙負(fù)責(zé)提出論文修改意見(jiàn),指導(dǎo)論文寫作.

        猜你喜歡
        尺度計(jì)數(shù)卷積
        古人計(jì)數(shù)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        遞歸計(jì)數(shù)的六種方式
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        古代的計(jì)數(shù)方法
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        這樣“計(jì)數(shù)”不惱人
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        亚洲av最新在线网址| 护士人妻hd中文字幕| 又黄又爽又色的视频| 国产视频最新| 区三区久久精品水蜜桃av| 青青草在线成人免费视频| 日本伊人精品一区二区三区| 国产亚洲精品精品精品| 国产成人+亚洲欧洲+综合| 久久久久久人妻一区精品| 亚洲免费成年女性毛视频| 日本免费一区二区在线看片| 国产97在线 | 日韩| 美女高潮无遮挡免费视频| 丝袜人妻无码中文字幕综合网| 亚洲视频一区二区免费看| 中文字幕精品一区二区三区| 大胸少妇午夜三级| 国产最新网站| 老熟妇高潮av一区二区三区啪啪| 国产精品毛片极品久久| 精品国产免费一区二区三区| 久久精品久久久久观看99水蜜桃| 亚洲成a人片在线观看高清| av在线免费观看麻豆| a级国产乱理伦片| 精品爆乳一区二区三区无码av| 久久AⅤ天堂Av无码AV| 好看的日韩精品视频在线| 国产在线 | 中文| 国产黑色丝袜一区在线| 好看的国内自拍三级网站| 日韩人妻系列在线观看| 天天爽天天爽夜夜爽毛片| 欧美国产日韩a在线视频| 国产360激情盗摄一区在线观看 | 国产精品亚洲片在线观看不卡| 日本乱子人伦在线视频| 亚洲成AV人国产毛片| 亚洲av一区二区三区色多多| 亚洲av成人中文无码专区|