基于深度學習的人群計數(shù)研究綜述

2021-12-14 11:32:50朱慧琳苗奪謙

計算機研究與發(fā)展 2021年12期

關鍵詞：模型

余鷹朱慧琳錢進潘誠苗奪謙,2

1(華東交通大學軟件學院南昌 330013) 2(同濟大學電子與信息工程學院上海 201804)

人群計數(shù)是估計圖像或視頻中人群的數(shù)量、密度或分布[1]，它是智能視頻監(jiān)控分析領域的關鍵問題和研究熱點，也是后續(xù)行為分析[2-3]、擁塞分析[4]、異常檢測[5-6]和事件檢測[7]等高級視頻處理任務的基礎.隨著城市化進程的快速推進，城市人口數(shù)量急劇增長，導致各種人員高度聚集的社會活動頻繁發(fā)生，如果管控不當，極易發(fā)生擁擠踩踏事故.例如上?！?2.31”外灘踩踏事故中，由于現(xiàn)場管理和應對措施不當，引發(fā)了人群擁擠和摔倒，最終造成了重大人員傷亡的嚴重后果[8-9].如果有精度良好的人群計數(shù)系統(tǒng)實時統(tǒng)計相關場所的人群數(shù)量、分布或密度等信息，及時發(fā)現(xiàn)人群擁擠和異常行為并進行預警，以便采取措施進行疏導，就可以避免悲劇的發(fā)生[10-11].性能良好的人群計數(shù)算法也可以遷移到其他目標計數(shù)領域，如顯微圖片中的細菌與細胞計數(shù)[12]、擁擠道路上的汽車計數(shù)[13]等，拓展人群計數(shù)算法的應用范圍.因此,人群計數(shù)方法的研究有著重要的現(xiàn)實意義和應用價值.

隨著人工智能、計算機視覺等技術的不斷發(fā)展，人群計數(shù)受到了國內(nèi)外眾多學者的廣泛關注和研究.早期人群計數(shù)主要使用傳統(tǒng)的計算機視覺方法提取行人特征[14]，然后通過目標檢測[15-19]或回歸[20-21]的方式獲取圖像[22-25]或視頻[26-28]中人群的數(shù)量.傳統(tǒng)方法具有一定局限性，無法從圖像中提取更抽象的有助于完成人群計數(shù)任務的語義特征，使得面對背景復雜、人群密集、遮擋嚴重的場景時，計數(shù)精度無法滿足實際需求.近年來，深度學習技術發(fā)展迅猛，在許多計算機視覺任務中得到成功應用[29]，促使研究人員開始探索基于卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)[30]的人群計數(shù)辦法.相比于傳統(tǒng)方法，基于CNN的人群計數(shù)方法在處理場景適應性、尺度多樣性等問題時表現(xiàn)更優(yōu).而且由于特征是自學習的,不需要人工選取，可以顯著提升計數(shù)效果，因此已經(jīng)成為當前人群計數(shù)領域的研究熱點.使用CNN的人群計數(shù)方法主要分為直接回歸計數(shù)法和密度圖估計法2類.直接回歸法只需向CNN送入人群圖片，就可以直接輸出人群數(shù)量，適用于人群稀疏場景.在密度圖法中，CNN輸出的是人群密度圖，再以數(shù)學積分求和的方式計算出人數(shù).這類方法性能的好壞一定程度上依賴于密度圖的質(zhì)量.為了提升密度圖質(zhì)量，會引入新的損失函數(shù)[31]來提高密度圖的清晰度和準確度.無論采用哪種方法，都需要先進行特征提取.為了提升特征的魯棒性，常使用多尺度預測、上下文感知、空洞卷積、可形變卷積等方法改進特征提取過程，以增強特征的判別能力.

得益于深度學習模型強大的特征提取能力，基于深度學習的人群計數(shù)方法的研究已經(jīng)取得了很多優(yōu)秀的成果.根據(jù)計數(shù)對象，可以將這些方法歸納為基于圖像和基于視頻的2類；根據(jù)網(wǎng)絡模型結構，可將它們劃分為單分支結構、多分支結構和特殊結構3類；根據(jù)度量規(guī)則，可將它們劃分為基于歐氏距離損失、基于SSIM損失和基于對抗損失等多類.

本文重點討論基于深度學習的靜態(tài)圖像人群計數(shù)方法，主要貢獻可以歸納為3個方面：

1)從不同層面，對人群計數(shù)領域的研究現(xiàn)狀進行系統(tǒng)全面的總結和深入的探討，包括計數(shù)網(wǎng)絡結構、損失函數(shù)、性能評價指標等.這種全面梳理可以幫助研究人員快速了解基于深度學習的人群計數(shù)算法的研究現(xiàn)狀和關鍵技術.

2)基于數(shù)據(jù)比較了不同模型的計數(shù)效果，分析了計數(shù)模型性能優(yōu)劣的原因，為未來研究人員設計更加優(yōu)化的計數(shù)模型提供借鑒.

3)歸納總結了在模型設計、損失函數(shù)定義、ground-truth生成等方面存在的問題，為未來該領域的研究指明了方向.

1 人群計數(shù)網(wǎng)絡

1.1 單分支結構計數(shù)網(wǎng)絡

早期使用CNN的人群計數(shù)網(wǎng)絡均為只包含一條數(shù)據(jù)通路的單分支網(wǎng)絡結構.Wang等人[32]最先將CNN引入人群計數(shù)領域，提出了一種適用于密集人群場景的端到端CNN回歸模型.該模型對AlexNet網(wǎng)絡[33]進行改進，將最后的全連接層替換為單神經(jīng)元層，直接預測人群數(shù)量.由于沒有預測人群密度圖，所以無法統(tǒng)計場景中的人員分布情況.此外,雖然該模型通過CNN自動學習了有效的計數(shù)特征，但是由于AlexNet的寬度較窄，深度也較淺，導致特征魯棒性不夠強，在人群密集場景下的計數(shù)效果較差，并且在跨場景計數(shù)時，效果不甚理想，缺乏足夠的泛化性.

為了解決跨場景問題，Zhang等人[24]提出了一種基于AlexNet的跨場景計數(shù)模型Crowd CNN，首次嘗試輸出人群密度圖，其總體結構如圖1[24]所示:

Fig.1 The cross-scene crowd counting model proposed by Reference[24]

Fig.2 Normalized crowd density map for training[24]

其中，圖1(a)描繪了計數(shù)網(wǎng)絡的預訓練(pre-trained)過程，通過人群密度圖(crowd density map)和人群計數(shù)(crowd counts)這2個目標任務的交替訓練來優(yōu)化模型.然后，算法會根據(jù)目標場景特點，選擇相似場景對計數(shù)模型進行微調(diào)(fine-tuning)，如圖1(b)所示，以達到跨場景計數(shù)的目的.為了提升計數(shù)準確性，作者還提出了透視圖(perspective map)的概念，如圖2(a)所示，顏色越淺代表目標尺度越大.然后，通過密度圖和透視圖的融合，如圖2(b)所示，降低透視形變(perspective distortion)的不良影響，提升密度圖質(zhì)量.但是透視圖較難獲得，限制了該模型的推廣.該工作的另一個貢獻是建立了經(jīng)典的人群計數(shù)數(shù)據(jù)集WorldExpo’10，為交叉場景人群計數(shù)模型的測評提供數(shù)據(jù).

1.2 多分支結構計數(shù)網(wǎng)絡

人群分布相對監(jiān)控攝像頭位置具有較大的不確定性，導致拍攝視角差異較大，所拍攝到的圖像或視頻中目標尺寸變化較大.對于人群計數(shù)任務來說，如何提高計數(shù)網(wǎng)絡對目標尺度變化的適應性是亟待解決的問題.

為了解決多尺度問題，Boominathan等人[34]基于CNN提出了一種雙分支結構計數(shù)網(wǎng)絡CrowdNet，如圖3所示.通過一個淺層網(wǎng)絡(shallow network)和一個深層網(wǎng)絡(deep network)分別提取不同尺度的特征信息進行融合來預測人群密度圖.這種組合可以同時捕獲高級和低級語義信息，以適應人群的非均勻縮放和視角的變化，因此有利于不同場景不同尺度的人群計數(shù).

通過引入多路網(wǎng)絡，使用大小不同的感受野提取不同尺度特征可以有效解決多尺度問題，由此衍生出了一系列多列卷積神經(jīng)網(wǎng)絡結構的人群計數(shù)算法.

Zhang等人[25]受多分支深度卷積神經(jīng)網(wǎng)絡[35]的啟發(fā)，提出了一種多列卷積神經(jīng)網(wǎng)絡(multi-column CNN, MCNN)用于人群計數(shù)，其結構如圖4所示.每一分支網(wǎng)絡采用不同大小的卷積核來提取不同尺度目標的特征信息，減少因為視角變化形成的目標大小不一導致的計數(shù)誤差.MCNN建立了圖像與人群密度圖之間的非線性關系，通過用全卷積層替換全連接層，使得模型可以處理任意大小的輸入圖片.為了進一步修正視角變化帶來的影響，MCNN在生成密度圖時，沒有采用固定的高斯核，而是利用自適應高斯核計算密度圖，提升了密度圖質(zhì)量.該工作的另一貢獻是收集并標注了ShanghaiTech人群計數(shù)數(shù)據(jù)集，該數(shù)據(jù)集由1 198張帶標注的圖像組成，包含人群分布從稀疏到密集變化的各種場景，目前該數(shù)據(jù)集已成為人群計數(shù)領域的基準數(shù)據(jù)集之一.

Fig.3 The structure of two-column crowd crounting network[34]

Fig.4 The structure of the multi-column crowd counting network[25]

計數(shù)性能的好壞主要依賴于密度圖的質(zhì)量.為了生成更高質(zhì)量的密度圖，Sindagi等人[36]提出了上下文金字塔卷積神經(jīng)網(wǎng)絡計數(shù)模型CP-CNN，其結構如圖5所示，通過多個CNN獲取不同尺度的場景上下文信息，并將這些上下文信息顯式地嵌入到密度圖生成網(wǎng)絡，提升密度估計的精度.CP-CNN由4個部分組成，其中全局上下文估計器(global context estimator, GCE)和局部上下文估計器(local context estimator, LCE)分別提取圖像的全局和局部上下文信息，即分別從全局和局部的角度預測圖像的密度等級；密度估計器(density map estimator, DME)沒有直接生成密度圖，而是沿用了MCNN的多列網(wǎng)絡結構生成高維特征圖；融合卷積神經(jīng)網(wǎng)絡(fusion-CNN, F-CNN)則將前3個部分的輸出進行融合，生成密度圖.為了彌補DME中丟失的細節(jié)信息，F(xiàn)-CNN使用了一系列小數(shù)步長卷積層幫助重建密度圖的細節(jié).現(xiàn)有的CNN計數(shù)網(wǎng)絡主要使用像素級歐氏距離損失函數(shù)來訓練網(wǎng)絡，這導致生成的密度圖比較模糊.為此，CP-CNN引入對抗損失(adver-sarial loss)，利用生成對抗網(wǎng)絡(generative adver-sarial net, GAN)[37]來克服歐氏距離損失函數(shù)的不足.

2017年，Sam等人[38]提出了一種多列選擇卷積神經(jīng)網(wǎng)絡(switch convolution neural network, Switch-CNN)用于人群計數(shù)，其結構如圖6所示.與MCNN不同之處在于，Switch-CNN雖然采用多列網(wǎng)絡結構，但是各列網(wǎng)絡獨立處理不同的區(qū)域.在送入網(wǎng)絡之前，圖像被切分成3×3的區(qū)域，然后對每個區(qū)域使用特定的SWITCH模塊進行密度等級劃分，并根據(jù)密度等級選擇對應的分支進行計數(shù).通過對于密度不同的人群有針對性地選用不同尺度的回歸網(wǎng)絡進行密度估計，使得最終的計數(shù)結果更為準確.Switch-CNN也存在不容忽視的弊端，如果分支選擇錯誤將會大大影響計數(shù)準確度.

Fig.5 Architecture of CP-CNN[36]

Fig.6 Architecture of Switch-CNN[38]

Switch-CNN根據(jù)圖像塊的內(nèi)容選擇合適的分支網(wǎng)絡進行人群密度估計的做法，為設計多列計數(shù)網(wǎng)絡提供了新思路.但是Swith-CNN將密度等級固定劃分為3個層次，難以應對人群密度變化范圍很大的場景.為此，Sam等人[39]對Switch-CNN進行改進，提出了逐步增長卷積神經(jīng)網(wǎng)絡(incrementally growing CNN, IG-CNN)，其層次化訓練過程如圖7所示.從一個基礎CNN模型(Base CNN)開始，通過不斷地迭代，最后生成1棵CNN二叉樹，葉子節(jié)點即為用于密度估計的回歸器，其中每個回歸器對應1種特定的密度等級.第1層通過聚類將訓練集D0劃分成D00和D01這2個部分，然后R00和R01是由復制R0而來，隨后R00和R01分別在對應的訓練集D00和D01上訓練，其他層的構建情況相似.最終通過層次聚類，將原始訓練集劃分成多個子集，每個子集對應1個密度等級，由相應的密度估計器負責計數(shù).測試階段則會根據(jù)圖片的密度等級選擇對應的密度估計器.

Fig.7 Training process of IG-CNN[39]

Fig.8 Architecture of DecideNet[41]

在已有的人群計數(shù)模型中，通常單純地假設場景中的人群分布是稀疏或密集的.針對稀疏場景，采用檢測方法進行計數(shù)[40]；而針對密集場景，則采用回歸方法進行人群密度估計.這樣的模型往往難以應對密度變化范圍很廣的人群場景的計數(shù).為了解決這個問題，Liu等人[41]提出了一種檢測和回歸相結合的人群計數(shù)模型DecideNet，其結構如圖8所示.該模型也是一種多列結構的計數(shù)網(wǎng)絡，其中RegNet模塊采用回歸方法直接從圖像中估計人群密度，DetNet模塊則在Faster-RCNN的后面添加了一個高斯卷積層(Gaussian convolution)，直接將檢測結果轉化為人群密度圖，然后QualityNet引入注意力模塊，自動判別人群密集程度，并根據(jù)判別結果自適應地調(diào)整檢測和回歸這2種方法的權重，再根據(jù)這個權重將這2種密度圖進行融合，以此獲取更好的最優(yōu)解.但是由于RegNet和DetNet這2個子網(wǎng)絡均使用了較大的感受野，模型參數(shù)過多，導致該模型的訓練復雜度較高.

多列計數(shù)網(wǎng)絡使用不同大小的卷積核提取圖像的多尺度特征，其良好的效果說明多尺度表達的重要性.但是多列計數(shù)網(wǎng)絡也引入了新的問題，首先多尺度表達的性能通常依賴于網(wǎng)絡分支的數(shù)量，即尺度的多樣性受限于分支數(shù)目，其次已有工作大多采用歐氏距離作為損失函數(shù)，假設像素之間互相獨立，導致生成的密度圖比較模糊.

為了解決上述問題，Cao等人[42]提出了一種尺度聚合網(wǎng)絡(scale aggregation network, SANet)，其結構如圖9所示.該模型沒有采用MCNN的多列網(wǎng)絡結構，而是借鑒了Inception[43]的架構思想，在每個卷積層同時使用不同大小的卷積核提取不同尺度的特征，最后通過反卷積生成高分辨率的密度圖.整個模型由FME(feature map encoder)和DME(density map estimator)這2個部分組成，F(xiàn)ME聚合提取出多尺度特征，DME融合特征生成高分辨率的密度圖.度量預測的密度圖與ground-truth的相似度時，采用SSIM計算局部一致性損失，然后對歐氏損失和局部一致性損失進行加權得到總損失.

Fig.9 Architecture of SANet[42]

Fig.10 Architectureof SAAN[44]

由于“透視畸變”問題，位于不同景深的目標尺寸差異較大，對人群計數(shù)模型的建模能力提出了很高的要求.為了解決這個問題，Hossain等人[44]首次將注意力機制引入人群計數(shù)領域，提出了多分支的尺度感知注意力網(wǎng)絡(scale-aware attention network, SAAN)，其結構如圖10[44]所示.該網(wǎng)絡由4個模塊組成，其中多尺度特征提取器(multi-scale feature extractor, MFE)負責從輸入圖像中提取多尺度特征圖.受到MCNN[25]啟發(fā)，MFE被設計成包含3個分支的多列網(wǎng)絡，每個分支的感受野大小不同，可以捕獲不同尺度的特征；為了獲得圖像的全局密度信息，與MFE中3個不同尺度的分支相對應，定義了3個全局密度等級，然后利用全局尺度注意力(global scale attentions, GSA)模塊負責提取輸入圖像的全局上下文信息，計算3個全局密度等級對應的評分，并對這3個分值進行歸一化.GSA只能提取圖像的全局尺度信息，但在實際的人群計數(shù)圖像中，不同位置往往存在密度差異，為此增加了局部尺度注意力(local scale attention, LSA)負責提取圖像不同位置的細粒度局部上下文信息，并生成3張像素級的注意力圖，用于描述局部尺度信息；最后，根據(jù)全局和局部的尺度信息對MFE提取的特征圖進行加權，然后將加權后的特征圖輸入融合網(wǎng)絡(fusion network, FN)生成最終的密度圖.

與DecideNet[41]相比，SAAN通過注意力機制進行尺度選擇的方式更加靈活.但是，由于SAAN包含4個子網(wǎng)絡，且MFE包含多個分支，網(wǎng)絡模型復雜、參數(shù)多、訓練難度很大.

1.3 特殊結構計數(shù)網(wǎng)絡

雖然多分支結構計數(shù)網(wǎng)絡取得了較好的計數(shù)效果，但是多分支結構網(wǎng)絡模型的復雜性較高，由此也帶來了一些新的問題[45].首先，網(wǎng)絡模型參數(shù)繁多、訓練困難，導致計數(shù)實時性較差；其次，多分支網(wǎng)絡的結構冗余度較高.多分支計數(shù)網(wǎng)絡原本是想通過不同的分支采用大小不等的感受野來提取不同尺度的特征，增強特征的適用性和魯棒性.但研究表明，不同分支學習到的特征相似度很高，并沒有因為場景密集程度不同而出現(xiàn)明顯差異.為了克服這些問題，研究人員開始嘗試將一些新型CNN結構，例如空洞卷積網(wǎng)絡(dilated convolutional networks)[46]、可形變卷積網(wǎng)絡(deformable convolutional network)[47]、GAN[37]等，引入人群計數(shù)領域，以降低計數(shù)模型復雜度，提升計數(shù)精度和人群密度圖的還原度.

2018年，Li等人[45]提出了一種適用于密集人群計數(shù)的空洞卷積神經(jīng)網(wǎng)絡模型CSRNet，其網(wǎng)絡結構如圖11所示.CSRNet沒有采用以往廣泛使用的多分支網(wǎng)絡結構，而是將舍棄了全連接層的VGG-16作為該網(wǎng)絡的前端部分，后端則采用6層空洞卷積神經(jīng)網(wǎng)絡，構成一個單通道計數(shù)網(wǎng)絡，大幅削減了網(wǎng)絡參數(shù)量，降低了訓練難度.同時,借助空洞卷積可以在保持分辨率的同時擴大感受野的優(yōu)勢，保留了更多的圖像細節(jié)信息，使得生成的人群分布密度圖質(zhì)量更高.CSRNet后端有A，B，C，D這4組不同的配置，其中B組方案在ShanghaiTech PartA數(shù)據(jù)集上的表現(xiàn)最優(yōu).

CSRNet的成功為密集人群計數(shù)提供了新的思路，隨后許多學者開始效仿采用空洞卷積進行人群計數(shù)研究[48].

Fig.11 Configuration of CSRNet[45]

多分支計數(shù)網(wǎng)絡的不同分支之間缺少相互協(xié)作，每個分支只是試圖通過最小化歐氏損失優(yōu)化自己的估計.由于每個分支只在特定尺度上表現(xiàn)良好，導致平均各分支結果后生成的密度圖較模糊，同時由于在網(wǎng)絡中使用池化層，大大降低了密度圖的分辨率，使得最終的計數(shù)結果產(chǎn)生誤差.此外，存在跨尺度統(tǒng)計不一致問題，一個圖像分割成多份分別輸入網(wǎng)絡得到的總人數(shù)和將輸入整張圖像計算得出的人數(shù)存在差異.

為解決這些問題，受GAN在圖像翻譯方面[49]成功應用的啟發(fā)，文獻[50]提出了一種基于GAN的跨尺度人群計數(shù)網(wǎng)絡(adversarial cross-scale consis-tency pursuit network, ACSCP)，其結構如圖12[50]所示.對抗損失的引入使得生成的密度圖更加尖銳，U-Net 結構[51]的生成器保證了密度圖的高分辨率，同時跨尺度一致性正則化約束了圖像間的跨尺度誤差.因此，該模型最終能生成質(zhì)量好、分辨率高的人群分布密度圖，從而獲得更高的人群計數(shù)精度.

利用GAN來提高人群計數(shù)精度的方法，開啟了一種新的思路.在SFCN[52]計數(shù)網(wǎng)絡中，使用了改進的Cycle GAN[53]產(chǎn)生數(shù)據(jù)集風格相似的圖片，并貢獻了GCC數(shù)據(jù)集.DACC[54]中也使用Cycle GAN進行風格遷移.

基于深度神經(jīng)網(wǎng)絡的人群計數(shù)解決方案雖然取得了顯著成果，但在高度擁擠嘈雜場景中，計數(shù)效果仍然會受到背景噪音、遮擋和不一致的人群分布的嚴重影響.為了解決這個問題，Liu等人[55]提出了一種融合了注意力機制的可形變卷積網(wǎng)絡ADCrowdNet用于人群計數(shù).如圖13[55]所示，該網(wǎng)絡模型主要由2個部分串聯(lián)而成，其中注意力圖生成器(attention map generator, AMG)用于檢測人群候選區(qū)域，并估計這些區(qū)域的擁擠程度，為后續(xù)人群密度圖的生成提供精細化的先驗知識.通過注意力機制，可以過濾掉復雜背景等無關信息，使得后續(xù)工作只關注人群區(qū)域，降低各種噪聲的干擾.密度圖估計器(density map estimator, DME)是一個多尺度可形變卷積網(wǎng)絡，用于生成高質(zhì)量的密度圖.由于注入了注意力，可形變卷積添加了方向參數(shù)，卷積核在注意力指導下在特征圖上延伸，可以對不同形狀的人群分布進行建模，很好地適應了真實場景中攝像機視角失真和人群分布多樣性導致的畸變，保證了擁擠場景中人群密度圖的準確性.

Fig.12 Architecture of ACSCP[50]

Fig.13 Architecture of ADCrowdNet[55]

注意力圖生成器AMG的網(wǎng)絡結構如圖14所示，采用了VGG-16網(wǎng)絡前10個卷積層作為前端(front end)，用來提取圖像的底層特征，后端(back end)架構類似Inception結構[43]，采用多個空洞率不同的空洞卷積層[56]擴大感受野，應對不同尺度的人群分布.后端輸出2通道的特征圖Fc和Fb，分別代表前景(人群)和背景.然后，通過對特征圖取全局平均池化GAP獲得相應的權重Wc和Wb，再對其結果用softmax進行分類獲取概率Pc和Pb.最后，對特征圖和概率進行點乘獲得注意力圖.

密度圖估計器DME的網(wǎng)絡結構如圖15所示，前端依然使用VGG-16，后端架構依然類似inception結構，但是采用了更適合擁擠嘈雜場景的多尺度可形變卷積，以適應人群分布的幾何形變.

同年，DADNet[57]也同樣使用可形變卷積進行人群計數(shù)，取得了較好的計數(shù)效果.

Fig.14 Architecture of attention map generator

Fig.15 Architecture of density map estimator

背景噪聲會對人群計數(shù)算法的性能帶來重大影響.為了減少背景噪聲干擾，許多學者進行了嘗試，例如ADCrowdNet通過注意力機制，過濾掉背景，讓模型只關注人群區(qū)域.此外，也有學者試圖將圖像分割技術MASK R-CNN[58]應用于人群計數(shù)領域，以去除背景噪聲.

實現(xiàn)背景和人群分割的難點在于如何制作用于分割的ground truth.為此，研究者們進行了各種嘗試，SFANet[59]采用了將原本的坐標點ground truth進行固定高斯核大小的高斯模糊，再選取一定閾值對其進行0和1的二值化，由此形成分割ground truth；MAN[60]采用了固定高斯核對原本坐標點ground truth進行處理，并將非0值全置為1，形成分割ground truth；W-Net[61]則采用SANet[42]中的歸一化高斯核方法對坐標點圖進行高斯模糊，再設置一定的閾值進行二分類；SGANet[62]采用每個人頭使用25×25的方格表示，以此制作ground truth.

總之，如何降低背景噪聲干擾仍然是人群計數(shù)領域未來需要重點關注的問題.除了以上結合分割算法的人群計數(shù)算法以外，CFF[63]將分割任務、分類任務、計數(shù)任務結合，為我們提供了多任務結合的思路.

由分析可知，隨著研究的深入，計數(shù)模型的結構在不斷發(fā)生變化.為了解決多尺度問題，計數(shù)網(wǎng)絡從最初簡單的單分支結構演變?yōu)閺碗s的多分支結構，使得計數(shù)準確性得到了提升.但是多分支結構會帶來了網(wǎng)絡參數(shù)量大、計算復雜度高等問題，導致計數(shù)模型的效率低下.為了克服這些問題，研究人員在設計時又試圖重新回歸簡單的單分支網(wǎng)絡結構，通過引入各種新型CNN技術來降低模型復雜度，同時提升計數(shù)精度.因此，減少分支數(shù)量，讓計數(shù)模型既簡單又有效，將是未來模型網(wǎng)絡結構的設計方向.

此外，從分析中可知，注意力機制、空洞卷積、對抗生成網(wǎng)絡、可形變卷積等CNN技術可以解決計數(shù)領域存在的多尺度、復雜背景干擾等問題，幫助提升密度圖質(zhì)量.因此，未來在設計網(wǎng)絡時，可以考慮結合這些技術提升計數(shù)精度.

2 人群計數(shù)損失函數(shù)

損失函數(shù)的作用是評價模型的預測值與真實值ground-truth的一致程度，是模型訓練中不可缺少的一部分.損失函數(shù)值越小，說明預測值越接近真實值，則模型的計數(shù)性能越好.在人群計數(shù)任務中，通過定義損失函數(shù)，可以將人群密度圖的映射關系學習轉化為一個最優(yōu)化問題.常用的人群計數(shù)損失函數(shù)包括歐氏損失、結構相似性損失等.神經(jīng)網(wǎng)絡訓練的目的就是是找到使損失函數(shù)值最小的網(wǎng)絡參數(shù)值.

2.1 歐氏距離損失

早期絕大多數(shù)基于密度圖進行人群計數(shù)的工作，例如跨場景計數(shù)模型[24]、MCNN[25]、CrowdNet[34]、Switch-CNN[38]、CSRNet[45]等方法，均采用像素級的歐氏距離作為模型損失函數(shù)，度量估計密度圖與真實密度圖之間的差距：

(1)

其中，F(xiàn)(Xi;θ)是參數(shù)為θ的映射函數(shù)，它將輸入圖像Xi映射到預測密度圖，F(xiàn)i是真實密度圖，N為訓練樣本個數(shù).

由于歐氏距離損失簡單、訓練速度快，且計數(shù)效果較好，早期得到了較為廣泛的應用.但是歐氏距離損失的魯棒性較差，很容易因為個別像素點的極端情況而影響整體的計數(shù)效果.此外，歐氏距離損失是取所有像素點的平均，并不關注圖片的結構化信息.對于同一張圖片，容易出現(xiàn)人群密集區(qū)域預測值偏小，而人群稀疏區(qū)域預測值偏大的問題，但是最終的平均結果卻沒有體現(xiàn)這些問題，從而導致生成的密度圖模糊、細節(jié)不清晰.

2.2 結構相似性損失

由于歐氏距離損失不足以表達人的視覺系統(tǒng)對圖片的直觀感受，導致生成的密度圖質(zhì)量不高.為了克服歐氏距離損失的不足，SANet[42]提出了以結構相似性指標(structual similarity index)[31]為基礎的結構相似性損失來度量密度圖的質(zhì)量.結構相似性指標是由Wang等人[31]提出的一種圖像質(zhì)量評價標準，記為SSIM.不同于基于像素的誤差評價標準，SSIM從圖像的亮度、對比度和結構這3個方面度量圖像相似性，并通過均值、方差、協(xié)方差3個局部統(tǒng)計量計算2張圖像之間的相似度.SSIM的取值范圍在-1～1之間，SSIM值越大，說明相似度越高.結構相似性指標SSIM的計算方法為

(2)

(3)

其中，N代表密度圖的像素點數(shù)量，X是生成密度圖與真實密度圖相同像素點位置對應的圖像塊集合.

實驗表明，結構相似性損失確實可以提高生成密度圖質(zhì)量，相比于關注像素間差異的歐氏距離損失，結構相似性損失能夠更好地關注圖像間對應局部塊的差異，從而更好地生成密度圖.在后續(xù)的研究中，計數(shù)模型SFCN[52]也采用了類似的做法.

為了進一步提高計數(shù)精度，許多學者對結構相似性損失進行改進.DSSINet[64]將空洞卷積融入結構相似性度量中，構建了一個空洞卷積網(wǎng)絡DMS-SSIM用于計算結構相似性損失LSSIM.通過擴大SSIM指標的感受野，每個像素點可以融合多尺度信息，使得在不同尺度下，可以輸出局部區(qū)域的高質(zhì)量密度圖.

思想道德修養(yǎng)與法律基礎課程的設置主要是對大學生進行社會主義道德教育和法制教育。在不改變課程屬性和課程內(nèi)容前提下，從課程設計的主線、內(nèi)容的排序、課程載體及考核等方面借鑒工作過程系統(tǒng)化設計課程。將原本課程章節(jié)組合設置為4大專題，如，“大學新生變形記”，“愛己、愛他(她)、愛家庭、愛工作崗位、愛自然、愛國家”系列專題，結合當前現(xiàn)實生活熱點案例設置為“×××案例之我見”與“我的道德踐行錄”。因此，課程考核可從網(wǎng)絡教學、課堂教學、實踐教學3個方面進行。

2.3 生成對抗損失

基于密度圖的人群計數(shù)方法通常以單張靜態(tài)的人群圖像作為輸入，然后輸出1張與輸入圖像對應的人群密度圖，這一目標本質(zhì)上可視作一個圖像轉換問題(image-to-image translation).GAN[37]為解決圖像轉換問題提供了一個可行的思路，即可以通過生成網(wǎng)絡和判別網(wǎng)絡的不斷博弈，進而使生成網(wǎng)絡學習人群密度分布，生成密度圖的質(zhì)量逐漸趨好；判別網(wǎng)絡也通過不斷訓練，提高本身的判別能力.損失函數(shù)作為生成對抗網(wǎng)絡的關鍵，對于生成對抗網(wǎng)絡訓練、求解最優(yōu)值的過程尤為重要.在人群計數(shù)領域，可以使用對抗損失函數(shù)，通過對抗的方式對生成圖片進行矯正，由此避免出現(xiàn)密度圖模糊問題.

CP-CNN[36]網(wǎng)絡在歐氏距離損失的基礎上，增加了生成對抗損失，提高了預測密度圖的質(zhì)量，其損失函數(shù)為

LT=LE+λaLA，

(4)

(5)

LA=-log(φD(φ(X)))，

(6)

其中，LT是總損耗，LE是生成密度圖與對應的真實密度圖之間的像素級歐氏損失，λa是權重因子，LA是對抗性損失，X是尺寸為W×H的輸入圖像，Y是ground truth密度圖，φ是由DME和F-CNN組成的網(wǎng)絡，φD是用于計算對抗損失的鑒別子網(wǎng)絡.

在之后的人群計數(shù)算法研究中，對抗損失屢見不鮮.ACSCP[50]網(wǎng)絡采用U-Net作為密度圖生成器，并使用了對抗損失，可定義為

LA(G,D)=Ex,y～Pdata(x,y)[logD(x,y)]+

Ex～Pdata(x)[log(1-D(x,G(x)))]，

(7)

其中，x表示訓練塊，y表示相應的ground truth.G是生成網(wǎng)絡，D是判別網(wǎng)絡，G試圖最小化這個目標函數(shù)，而D試圖將其最大化，通過判別網(wǎng)絡與生成網(wǎng)絡的一種聯(lián)合訓練得到最終的模型.RPNet[65]采用了一種對抗結構來提取擁擠區(qū)域的結構特征.

對抗損失對于密度圖質(zhì)量的提升有著顯著作用，但對抗損失也有著難以訓練的缺點.除這3種損失外，人群計數(shù)任務使用的損失函數(shù)還有很多，例如人群統(tǒng)計損失，但是每個損失函數(shù)各有優(yōu)缺點，因此實際應用中，常常會聯(lián)合多種損失，共同構建一個綜合性的損失函數(shù).

對于人群計數(shù)任務來說，密度圖質(zhì)量的優(yōu)劣將直接影響計數(shù)性能.現(xiàn)有的損失函數(shù)雖然可以生成密度圖，但是仍有許多亟待改進的地方.未來如何定義新的損失函數(shù)，以生成高質(zhì)量的密度圖也是該領域的一個研究重點.

3 ground-truth密度圖生成方法

為了訓練計數(shù)網(wǎng)絡，需要對人群圖片中的目標進行標注.常見的做法是為圖片中的每個人頭標注中心坐標，然后再利用高斯核將坐標圖轉化為ground-truth人群密度圖.ground-truth密度圖質(zhì)量的高低，直接影響網(wǎng)絡的訓練結果.優(yōu)質(zhì)的ground-truth能使網(wǎng)絡更好地學習到人群圖片特征，計數(shù)網(wǎng)絡的魯棒性和適應性也會更好.近年來對ground-truth生成方法的研究從未停止過，ground-truth密度圖生成的關鍵在于如何選擇高斯核，設置不同的高斯核對網(wǎng)絡性能的影響很大，常用的3種高斯核設置方法為：

1)幾何自適應法

Fig.16 Geometric adaptive method[25]

2)固定高斯核法

該方法忽略了人頭尺寸差異，以及自身與鄰居的相似性，無論圖片中哪個位置的人頭均采用方差大小固定的高斯核對每個人頭進行高斯模糊，采用固定高斯核的算法有CP-CNN[36]，其生成的ground-truth密度圖如圖17[36]所示.固定高斯核法解決了幾何自適應法中的近處人頭消失的問題，但是由于高斯核大小固定，對于遠處人頭來說，高斯核尺寸可能過大，使得遠處人頭出現(xiàn)重疊，降低了密度圖質(zhì)量.

Fig.17 Fixed Gaussian kernel method[36]

3)內(nèi)容感知標注法

為解決方法1)2)存在的問題，Oghaz等人[66]提出了一種通過內(nèi)容感知標注技術生成密度圖的方法.首先，用暴力最近鄰(brute-force nearest neighbor)算法定位最近的頭部，再用無監(jiān)督分割算法Chan-Vese分割出頭部區(qū)域，然后依據(jù)鄰居頭部的大小計算高斯核尺寸，其生成的密度圖如圖18[66]所示.該方法也是根據(jù)鄰居情況靈活確定高斯核大小，但是與幾何自適應法相比，它采用brute-force最近鄰算法替代k-d樹空間劃分法(k-d tree space partitioning approach)來尋找最近鄰，這樣能確保尋找結果與實際相符.

Fig.18 Content-aware annotation method[66]

總之，高質(zhì)量密度圖是人群計數(shù)算法成功的基礎和關鍵，因此ground-truth的生成方法將是人群計數(shù)領域未來的一個研究重點.

4 評價指標

為了對不同模型的準確率以及魯棒性進行測評，需要有合適的評價指標.在人群計數(shù)領域，常用的評價指標有均方誤差(mean squared error,MSE)、平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean squared error,RMSE)，具體定義為

(8)

(9)

(10)

MSE和RMSE可以反映模型的魯棒性，而MAE可以反映模型的準確性.通過對各個人群計數(shù)模型的評價指標MSE，MAE，RMSE的比較，可以評定各個計數(shù)模型的性能.

由于上述評價指標存在一定的局限性，很多研究人員進行了不同的改進，以適應不同的評價需求.例如，原始的MSE，MAE，RMSE只能度量全局魯棒性和準確性，無法評價局部區(qū)域的計數(shù)性能，因此Tian等人[67]將MAE和RMSE擴展成塊平均絕對誤差(patch mean absolute error,PMAE)，和塊均方誤差(patch mean squared error,PMSE)，用于評價局部區(qū)域的計數(shù)效果.此外，對于基于密度圖的人群計數(shù)算法來說，密度圖質(zhì)量高低對算法性能優(yōu)劣具有決定性作用，因此也可以采用已有的圖像質(zhì)量評價指標來衡量計數(shù)模型的性能.

5 人群計數(shù)數(shù)據(jù)集

隨著人群計數(shù)算法研究的不斷推進，該領域數(shù)據(jù)集的豐富性和針對性在逐步提高，圖片數(shù)量以及質(zhì)量也在進一步提升.表1按照時間順序列舉了具有代表性的人群計數(shù)數(shù)據(jù)集，不僅包括早期創(chuàng)建的經(jīng)典人群計數(shù)數(shù)據(jù)集，也包括近年來新出現(xiàn)的數(shù)據(jù)集.這些數(shù)據(jù)集在拍攝視角、場景類型、平均分辨率、圖像數(shù)量、每張圖像所標注的目標數(shù)量等方面各有不同，總體呈現(xiàn)多樣化特點.分2個部分對數(shù)據(jù)集進行簡要介紹.

Table 1 Crowd Counting Datasets

5.1 經(jīng)典人群計數(shù)數(shù)據(jù)集

本節(jié)主要介紹早期的經(jīng)典人群計數(shù)數(shù)據(jù)集，包括WorldExpo’10[24,70]，ShanghaiTech[25]，UCSD[68]，Mall[69]，UCF_CC_50[21]，它們經(jīng)常被看作是驗證計數(shù)算法有效性的基準數(shù)據(jù)集，在近幾年的人群計數(shù)算法研究中應用最為廣泛[81].其中，UCSD，Mall，WorldExpo’10，ShanghaiTech PartB主要針對人群稀疏場景，UCF_CC_50和ShanghaiTech PartA則主要針對人群密集場景；在數(shù)據(jù)量方面，WorldExpo’10，UCSD，Mall的數(shù)據(jù)量較大；UCSD，Mall，World-Expo’10，ShanghaiTech PartB數(shù)據(jù)集圖片的分辨率是固定的，其他2個數(shù)據(jù)集中的圖像分辨率是隨機變化的.

數(shù)據(jù)集UCSD和Mall中的圖像均來自相同的視頻序列，在圖像之間不存在視角變化.而其他經(jīng)典數(shù)據(jù)集的圖像樣本來自不同的視頻序列，視角和人群尺度的變化較大.表2～7通過度量準確性的MAE和度量魯棒性的MSE這2個評價指標，比較了不同計數(shù)算法在各種經(jīng)典人群計數(shù)數(shù)據(jù)集上的表現(xiàn)，分析了算法表現(xiàn)優(yōu)劣的原因.所有實驗數(shù)據(jù)均來自算法相關的參考文獻.

UCSD數(shù)據(jù)集[68]是最早創(chuàng)建的人群計數(shù)數(shù)據(jù)集之一.包含2 000幀從人行道視頻監(jiān)控中采集的圖像，每幀的分辨率為238×158.每隔5幀人工標注1次，其余幀中的行人位置則使用線性插值方式創(chuàng)建，最終標注了49885個行人目標.該數(shù)據(jù)集的人群密度相對較低，平均1幀約15人，由于數(shù)據(jù)是從一個位置采集的，場景和透視角度單一.

表2列出了不同計數(shù)網(wǎng)絡在UCSD數(shù)據(jù)集上的實驗結果，由表可知，隨著時間推移，算法性能在不斷提升.評價指標MAE和MSE排名前3的算法分別是E3D[82]，PACNN[83]，PaDNet[67].其中，PaDNet提出了針對不同密度人群進行計數(shù)的泛密度計數(shù)方法；E3D中最主要的創(chuàng)新是結合了3D卷積核來編碼局部時空特征，該網(wǎng)絡主要針對視頻中的人群計數(shù)，但在圖像數(shù)據(jù)集上依然取得了良好的性能；PACNN將透視信息集成到密度回歸中，以方便融合目標比例變化相關的特征.其次，考慮了局部注意力的網(wǎng)絡ADCrowdNet以及考慮尺度多樣性的計數(shù)網(wǎng)絡MCNN，SANet，ACSCP等性能表現(xiàn)均較好.由此分析可知，對于較為稀疏的人群場景，場景的尺度多樣性是最應該考慮的要素，而且將局部信息作為額外的輔助信息，將有助于提升計數(shù)性能.

Table 2 Comparison of Crowd Counting Networks on UCSD

Mall數(shù)據(jù)集[69]是由安裝在購物中心的監(jiān)控攝像頭采集而來，共包含2 000幀分辨率為320×240的圖像樣本，標注了行人目標6 000個，前800幀用于訓練，剩余1 200幀用于測試.該數(shù)據(jù)集場景復雜，人群密度以及光照條件差異較大，而且圖像存在嚴重的透視畸變，目標的表觀特征和尺度差異較大.與UCSD數(shù)據(jù)集相比，Mall數(shù)據(jù)集的人群密度相對較高，然而這2個數(shù)據(jù)集由于都在固定地點拍攝，所以均存在場景單一的問題，無法反應室內(nèi)場景的實際狀況.此外，該數(shù)據(jù)集還存在由場景對象，例如攤位、植物等，引起的嚴重遮擋，這一特性增加了人群計數(shù)的難度.

表3列出不同計數(shù)網(wǎng)絡在Mall數(shù)據(jù)集上的運行結果.其中按照MAE和MSE排名，表現(xiàn)最好的算法包括DecideNet[41]，DRSAN[90]，E3D[82]，SAAN[44].其中，SAAN網(wǎng)絡利用了多尺度注意力機制；E3D考慮了局部時空特征；DecideNet中有檢測分支，更加關注局部信息；DRSAN主要是通過區(qū)域精細化過程自適應地解決了可學習的空間變換模塊中的2個問題,來更好地適應攝像機的不同視角變化，這種方法很好地考慮到了圖片中不同人群的尺度特征.

Table 3 Comparison of Crowd Counting Networks on Mall

相較于其他數(shù)據(jù)集，Mall與UCSD這2個數(shù)據(jù)集的人群密度均較小.由這2個數(shù)據(jù)集中各模型的實驗結果可得，對于較為稀疏的場景，我們應該更關注人群局部特征和多尺度特征，而空洞卷積在稀疏場景的效果并沒有特別突出.

MCNN網(wǎng)絡在提出多陣列網(wǎng)絡結構的同時，還創(chuàng)建了人群計數(shù)數(shù)據(jù)集ShanghaiTech.該數(shù)據(jù)集包含1 198張圖片，分為partA和partB這2個部分，共標注了330 165個頭部位置.人群分布較為密集的PartA包含300張訓練圖片，182張測試圖片，圖像分辨率是變化的；人群分布較為稀疏的PartB包含400張訓練圖片，316張測試圖片，圖像分辨率固定不變.總體上看，在ShanghaiTech數(shù)據(jù)集上進行精確計數(shù)是具有挑戰(zhàn)性的，因為該數(shù)據(jù)集無論是場景類型，還是透視角度和人群密度都變化多樣.

表4和表5為各計數(shù)網(wǎng)絡在ShanghaiTech PartA和Part B上的運行結果.在PartA上，性能表現(xiàn)較好的網(wǎng)絡包括SPANet+SANet，S-DCNet，PGCNet，ADSCNet.其中，SPANet將空間上下文融入人群計數(shù)，并與考慮尺度特征的SANet相結合，得到的模型擁有很好的魯棒性；S-DCNet是一種空間分而治之的網(wǎng)絡，通過獲取局部特征來實現(xiàn)圖片整體的計數(shù)；PGCNet克服了由于透視效應而產(chǎn)生的場景尺度變化，獲得了較好的計數(shù)性能；ADSCNet提出了一種具有自我校正監(jiān)督的自適應空洞網(wǎng)絡計數(shù)算法，對空洞卷積進行改進，使其可以根據(jù)圖片場景及尺度變換而自適應地選擇不同的空洞卷積.PartB部分去除了PGCNet網(wǎng)絡，增加了DSSINet網(wǎng)絡的比較.該網(wǎng)絡引入了基于空洞卷積的結構化損失，能更好地體現(xiàn)圖片中的局部損失.

Table 4 Comparison of Crowd Counting Networks on ShanghaiTech Part A

Table 5 Comparison of Crowd Counting Networks on ShanghaiTech Part B

由數(shù)據(jù)對比可知，稀疏場景的人群計數(shù)效果明顯優(yōu)于密集場景的人群計數(shù)效果.因此，在未來的研究中，密集場景人群計數(shù)將依然是該領域的研究重點.

UCF_CC_50數(shù)據(jù)集是第1個真正意義上具有挑戰(zhàn)性的大規(guī)模人群計數(shù)數(shù)據(jù)集.包含了50張不同分辨率的圖片，內(nèi)容涵蓋了音樂會、抗議活動、體育場和馬拉松比賽等不同場景.整個數(shù)據(jù)集中共標注了63 075個頭部位置，其中每張圖片包含的人數(shù)從94到4 543不等，密度等級變化極大.

表6是不同計數(shù)網(wǎng)絡在UCF_CC_50數(shù)據(jù)集上的運行結果.在性能指標MAE和MSE上排名前4的方法包括PaDNet，SPN+L2SM，ASD，CAN，其中PaDNet表現(xiàn)最好，其采用的融合圖像不同密度的泛密度方法恰好適用于UCF_CC_50這種人群密度變化范圍較廣的數(shù)據(jù)集；SPN提出了一個比例金字塔網(wǎng)絡(SPN)，該網(wǎng)絡采用共享的單個深列結構，并通過尺度金字塔模塊提取高層的多種尺度信息，其與L2SM結合，更加關注于人群多尺度信息；ASD是一個場景自適應框架，能夠更好地對可變?nèi)巳簣鼍斑M行計數(shù)；CAN采用了空間金字塔池化結構處理人群多尺度特征，在此數(shù)據(jù)集上獲得了較好的魯棒性.

由表6和分析可得，空洞卷積和多尺度網(wǎng)絡在此數(shù)據(jù)集上的表現(xiàn)效果更好.相比UCSD,Mall,ShanghaiTech,UCF_CC_50這4個數(shù)據(jù)集的效果，Switch-CNN網(wǎng)絡的性能提升明顯，而UCF_CC_50數(shù)據(jù)集的場景更為復雜，由此可得，Switch結構增加了模型的魯棒性，多陣列模型的效果明顯好于單列計數(shù)網(wǎng)絡模型.

早期的人群計數(shù)方法主要關注單一場景的計數(shù)問題，導致模型跨場景計數(shù)性能較差，為此Zhang等人構建了采集于上海世界博覽會的人群計數(shù)數(shù)據(jù)集WorldExpro’10.該數(shù)據(jù)集由108個監(jiān)控探頭采集的1 132個視頻序列組成，通過從不同位置的攝像頭采集數(shù)據(jù)，確保了場景類型的多樣性.其中，3 980幀圖像進行了人工標注，每幀的分辨率為576×720，總共標注了199 923個目標位置.該數(shù)據(jù)集被劃分為2個部分，來自103個場景的1 127個視頻序列作為訓練集，其余5個場景的數(shù)據(jù)作為測試集.每個測試場景由120個標記幀組成，觀眾數(shù)量從1～220不等.雖然嘗試捕捉不同密度級別的場景，但在測試集中，多樣性僅限于5個場景，人群數(shù)量最大被限制在220個.因此，該數(shù)據(jù)集不足以評估為極端密集場景設計的人群計數(shù)算法.

Table 6 Comparison of Crowd Counting Networks on UCF_CC_50

表7列出了不同計數(shù)網(wǎng)絡在WorldExpo’10數(shù)據(jù)集上的MAE值.其中，采用融入空洞率的結構性損失的網(wǎng)絡DSSINet的平均性能最好；融合了圖像上下文信息的CP-CNN和CAN網(wǎng)絡對于多角度、多尺度場景的效果較好；在S2，S3，S5場景中，空洞卷積的表現(xiàn)都是最好；此外，包含空洞卷積和可形變卷積的ADCrowdNet在S4場景下得到了很好的計數(shù)效果；加入透視引導卷積(PGC)的網(wǎng)絡PGCNet在場景S3上獲得很好的效果，可見尺度信息對于場景S3的重要性.由分析可知，在人群相對稀疏的場景下，空洞卷積可以在不同場景下取得很好的效果，結構性損失在多個場景的計數(shù)中都表現(xiàn)良好.

Table 7 Comparison of Crowd Counting Networks on WorldExpo’10

5.2 其他人群計數(shù)數(shù)據(jù)集

本節(jié)主要介紹近幾年新出現(xiàn)的人群計數(shù)數(shù)據(jù)集，包括DISCO[80]，NWPU-Crowd[78]，UCF-QNRF[72]，JHU-CROWD++[79]等.這些數(shù)據(jù)集的出現(xiàn)在一定程度上緩解了經(jīng)典數(shù)據(jù)集存在的場景單一、圖像質(zhì)量不高、數(shù)據(jù)規(guī)模過小等問題.

CityUHK-X[71]是由香港城市大學VISAL實驗室創(chuàng)建的人群計數(shù)數(shù)據(jù)集，包含來自55個場景的3 191張圖片，其中訓練集由來自43個場景的2 503張圖片構成，共標注了78 592個實例；測試集則由來自12個場景的688張圖片構成，共標注了28 191個實例.該數(shù)據(jù)集的特色在于將拍攝角度和高度作為場景上下文輔助信息，然后卷積核權重隨之自適應變化，以提升計數(shù)準確性.

UCF-QNRF[72]數(shù)據(jù)集具有場景豐富，視角、密度以及光照條件均變化多樣的特點，是一個非常具有挑戰(zhàn)性的人群計數(shù)數(shù)據(jù)集.它共包含1 535張密集人群場景圖片的數(shù)據(jù)集，其中訓練集1 201張圖像，測試集334張圖像，共有1 251 642個目標被標注，由于標注數(shù)量眾多，該數(shù)據(jù)集適合采用深度卷積神經(jīng)網(wǎng)絡進行訓練.此外，該數(shù)據(jù)集圖片的分辨率很高，因此在訓練過程中可能出現(xiàn)內(nèi)存不足.

SmartCity數(shù)據(jù)集[73]主要用于驗證計數(shù)模型在人群稀疏場景中的有效性.現(xiàn)有的人群計數(shù)數(shù)據(jù)集主要采集自人群密集場景，基于密集場景數(shù)據(jù)集訓練出來的網(wǎng)絡難以保證對稀疏場景的泛化性.為此，騰訊優(yōu)圖從10種不同城市場景中，采集了50張圖片.這些圖像包括室內(nèi)和室外2種場景，均采用了很高的視角拍攝，圖像中行人稀少，平均數(shù)量只有7.4個.

Fudan-ShanghaiTech數(shù)據(jù)集[74]為進行基于視頻的人群計數(shù)算法的研究提供了數(shù)據(jù).已有的數(shù)據(jù)集主要面向基于圖像的人群計數(shù)，為了更好地推動基于視頻的人群計數(shù)算法的研究，研究人員從13個不同場景中捕獲了100個視頻，這些視頻包含150 000幀圖片，共標注了394 081個實體.其中訓練集包含60個視頻，共9 000幀圖像；測試集包含剩余的40個視頻，共6 000幀圖像.

Beijing-BRT[75]是一個智能交通領域的人群計數(shù)數(shù)據(jù)集，包含1 280張從北京快速公交(bus rapid transit, BRT)采集的圖片，其中720張用于訓練，560張用于測試.每張圖片像素大小為640×360，共標注了16 795個行人目標.該數(shù)據(jù)集與實際情況比較相符，涵蓋了各種光照條件，而且時間跨度比較大，從白天到夜晚均有圖像數(shù)據(jù)，因此基于該數(shù)據(jù)集訓練出來的計數(shù)模型泛化能力較強.

DroneCrowd[76]數(shù)據(jù)集是由天津大學機器學習和數(shù)據(jù)挖掘?qū)嶒炇业腁ISKYEYE團隊通過無人機拍攝創(chuàng)建，由288段視頻剪輯和10 209張靜態(tài)圖像構成.數(shù)據(jù)集圖像涵蓋不同的地理位置、標注目標類型以及密集程度，變化范圍廣泛，很具有代表性.不僅可以用于視頻或圖像的目標檢測和跟蹤任務的研究，也可以用于人群計數(shù)任務的研究.

DLR-ACD[77]是一個包括33張航拍圖像的人群計數(shù)數(shù)據(jù)集，數(shù)據(jù)集圖片來自不同的城市場景，包括運動會、露天集會、慶典等存在大量人員聚集的場合，采用安裝在直升機上的攝像頭直接拍攝，所得到圖片的空間分辨率在4.5cm/pixel～15cm/pixel之間變化.對圖片中的每個人進行了手工標注，共標注了226 291個實例.

NWPU-Crowd[78]是目前人群計數(shù)領域最大的數(shù)據(jù)集，擁有5 109張圖片和2 133 238個標注實體，而且單張圖片的標注實體數(shù)量變化范圍非常大，對計數(shù)任務來說雖然挑戰(zhàn)極大，但也有助于提升訓練模型的泛化性；該數(shù)據(jù)集的圖片分辨率較高，有利于計數(shù)準確性的提升.此外，部分圖片的目標標注數(shù)量為0，這些負樣本的加入有助于提升訓練模型的魯棒性.該數(shù)據(jù)集還提供了一個平臺，供研究人員進行計數(shù)模型的性能比較.

JHU-CROWD++[79]也是一個非常具有挑戰(zhàn)性的大規(guī)模人群計數(shù)數(shù)據(jù)集，包含4 372張圖像，共計151萬個標注，所有圖像采集于各種不同的場景和環(huán)境條件，甚至包括一些基于惡劣天氣變化和光照變化的圖像，覆蓋面很廣.此外，該數(shù)據(jù)集與NWPU-Crowd類似，引入負樣本，增強訓練模型的魯棒性，同時對人頭采用了多種標注方式，包括點、近似邊界框、模糊級別等，為不同計數(shù)算法的訓練提供支撐條件.

DISCO[80]是一個極具特色的大規(guī)模人群計數(shù)基準數(shù)據(jù)集，包含1 935張圖片和170 270個帶標注的實體，每張圖片對應一段時長為1 s的音頻剪輯.最終通過聲音和圖像的共同作用，實現(xiàn)視聽人群計數(shù).

5.3 討論

隨著人群計數(shù)領域受關注程度的提高和研究的深入，人群計數(shù)數(shù)據(jù)集也逐漸增多，主要呈現(xiàn)5個特點：

1)在場景方面，由早期的單一化向多樣化演變，部分數(shù)據(jù)集甚至包含極端條件下的場景圖像，由此訓練出來的模型跨場景遷移能力更強.

2)在圖像分辨率方面，早期場景圖像分辨率較低，圖像質(zhì)量較差，人群特征不明顯，不利于模型訓練.隨著視頻設備發(fā)展，圖像分辨率不斷增強，計數(shù)的準確率不斷攀升.

3)在視角和尺度方面，變化范圍更廣，更貼近現(xiàn)實情況，有助于提升計數(shù)模型的泛化性和實用性.

4)數(shù)據(jù)規(guī)模不斷增強，更加適合采用深度學習方法進行訓練.此外，數(shù)據(jù)規(guī)模的增強降低了模型的過擬合風險.

5)樣本類型更加豐富.早期人群計數(shù)數(shù)據(jù)集中每張圖片均有人，標注數(shù)量至少為1，無人負樣本的加入可以幫助模型過濾噪聲，提升魯棒性.

此外，分析實驗數(shù)據(jù)可知，采用了注意力機制、空洞卷積以及額外輔助信息的網(wǎng)絡往往性能較好.主要是由于注意力機制可以幫助計數(shù)網(wǎng)絡專注于有效信息，排除噪聲干擾；空洞卷積可以在不增加模型參數(shù)和計算量的前提下，擴大感受野，捕獲多尺度信息，保留圖像更多細節(jié)；而額外的輔助信息，例如視角，可以輔助處理多尺度問題.

目前，雖然已經(jīng)構建了各種人群計數(shù)數(shù)據(jù)集，為驗證計數(shù)算法的有效性提供了數(shù)據(jù)支撐，但是在場景多樣性、標注準確性以及視圖多樣性等方面依然無法滿足實驗需求，這些也將是今后構建數(shù)據(jù)集時，需要重點考慮的問題.對于某些場景來說，采集圖像非常困難且無法實現(xiàn)準確標注，此時可以考慮通過人工合成的方法生成圖片，例如GCC[52]通過生成對抗網(wǎng)絡人工合成了大量圖片，為構建數(shù)據(jù)集提供了新思路.

6 總結與展望

近年來人群計數(shù)算法研究，尤其是基于深度學習的人群計數(shù)算法研究已經(jīng)取得了明顯進展，但是要在智能視頻監(jiān)控系統(tǒng)中真正應用并普及仍然面臨許多挑戰(zhàn)[110]，例如相互遮擋、透視扭曲、照明變化以及天氣變化等因素，都會影響計數(shù)的準確性.今后可以針對這些問題，從3個方面開展工作：

1)遮擋條件下的人群計數(shù).隨著人群密度增大，人與人之間會產(chǎn)生遮擋，下一步可以研究在遮擋條件下如何進行人群計數(shù)同時獲取人群分布等細節(jié)信息.

2)特殊天氣條件下的人群計數(shù).現(xiàn)實中天氣變化多樣，不僅有風和日麗，亦有風雨交加.特殊天氣下的數(shù)據(jù)采集和標注較困難[111]，研究相對較少.下一步可以重點關注特殊天氣條件下的人群計數(shù)問題，同時構建相應的數(shù)據(jù)集.

3)昏暗光照條件下的人群計數(shù).在光照不足的環(huán)境中，攝像頭拍攝的圖片往往較模糊，人頭無法清晰辨認，下一步可以研究昏暗光照條件下人群計數(shù)問題的處理方法.

本文針對近年來人群計數(shù)領域的相關論文進行調(diào)研, 在簡單回顧傳統(tǒng)人群計數(shù)算法之后, 對基于深度學習的人群計數(shù)方法進行了系統(tǒng)性的總結和介紹，并給出了這個方向未來的研究趨勢，希望可以給相關研究人員提供一些參考.

作者貢獻聲明：余鷹負責綜述選題確定、文章主體撰寫和修訂等工作，并指導和督促完成相關文獻資料的收集整理以及論文初稿的寫作；朱慧琳和錢進參與文獻資料的分析、整理和論文初稿的寫作；潘誠參與了文獻資料的收集以及部分圖表數(shù)據(jù)的繪制；苗奪謙負責提出論文修改意見，指導論文寫作.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放