郭淑濤, 韓 琳
(公安部第一研究所, 北京 100044)
不同場合、不同人流密度、不同人體姿態(tài)都增加了密集場景下的人流密度統(tǒng)計(jì)方法的研究難度。在火車站、地鐵站、大型商場等人群密集的地方,人群的頻繁流動(dòng)容易引發(fā)交通擁堵、人員踩踏等事故。通過對密集場景下的人流密度統(tǒng)計(jì)方法的研究, 實(shí)時(shí)監(jiān)控統(tǒng)計(jì)公共區(qū)域的人流密度,相關(guān)部門及時(shí)安排安防人員疏散人群,引導(dǎo)人群流動(dòng),有利于提前預(yù)防和有效減少突發(fā)性事故。在新冠疫情防控背景下,結(jié)合智能機(jī)器人、邊緣智能盒子的密集場景下人流密度統(tǒng)計(jì)算法,可有效檢測人流、防止人員聚集。在建設(shè)智慧城市方面,該研究領(lǐng)域市場前景廣闊,其作用也必將日益凸顯。 實(shí)現(xiàn)密集人群的人數(shù)統(tǒng)計(jì)通常有兩類方法:一類是基于回歸的人數(shù)統(tǒng)計(jì),另一類是基于檢測的人數(shù)統(tǒng)計(jì)。
基于輸入圖像的預(yù)測密度圖訓(xùn)練回歸模型即把圖像像素當(dāng)作計(jì)量單位,用整個(gè)密度圖的像素總和來預(yù)測最終人數(shù)。Zhang 等[1]搜集并標(biāo)注了相關(guān)的圖片數(shù)據(jù)集,并提出了簡單高性能的多維卷積神經(jīng)網(wǎng)絡(luò)MCNN, 從單幅圖片中的任意密度和視角就能正確估計(jì)圖像中人群的數(shù)量;Li等[2]提出了更高維的神經(jīng)網(wǎng)絡(luò)模型CSRNet,其前端采用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)用來提取圖片的2D 特征,后端則采用了膨脹卷積神經(jīng)網(wǎng)絡(luò)用來傳送輸入圖像中更大的感受野,替換了池化操經(jīng)網(wǎng)絡(luò)TEDNet,能將不同編碼階段的分等級(jí)圖像特征合并到多條的解碼路徑;Idrees 等[4]發(fā)現(xiàn)密集人群的圖像中計(jì)數(shù)、 密度圖估計(jì)和人員定位三者之間存在內(nèi)在聯(lián)系, 并以此使損失函數(shù)優(yōu)化深度卷積神經(jīng)網(wǎng)絡(luò);Cao 等[5]提出了一種編解碼結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)SANet,編碼器端提取多尺度圖像特征, 解碼器端采用一系列反卷積層生成高分辨率人群密度圖,還改進(jìn)了損失函數(shù),將歐幾里得損失函數(shù)和局部模式的一致性損失函數(shù)結(jié)合起來。Victor 等[6]提出了一種監(jiān)督學(xué)習(xí)的框架,并改進(jìn)了損失函數(shù)。 見圖1,第一張是測試圖片,第二張是真實(shí)標(biāo)簽的熱力圖,第三張是模型估計(jì)的熱力圖,圖1 演示了該方法過程和效果[25-27]。
圖1 基于回歸的人數(shù)統(tǒng)計(jì)方法演示Fig.1 Demonstration of the regression-based numerical statistics methods
基于檢測的人數(shù)統(tǒng)計(jì)方法即在經(jīng)過預(yù)先訓(xùn)練的目標(biāo)檢測模型中輸入圖像,模型經(jīng)過圖像分類,計(jì)算出類別為人的邊界框數(shù)量,獲得最終的人數(shù)。 其流程見圖2。
圖2 基于檢測的人數(shù)統(tǒng)計(jì)流程圖Fig.2 Flow chart of population statistics based on detection
基于檢測的人數(shù)統(tǒng)計(jì)模型在簡單的一階段目標(biāo)檢測模型和兩階段目標(biāo)檢測模型的基礎(chǔ)上進(jìn)一步改變和發(fā)展,并形成該領(lǐng)域獨(dú)特的方法。 Gao 等[12]提出了一種獲取流動(dòng)人員的活動(dòng)區(qū)域, 再用注水算法檢測和篩選活動(dòng)區(qū)域的方法, 通過追蹤檢測活動(dòng)區(qū)域的人頭數(shù)統(tǒng)計(jì)人員總數(shù);Luo 等[13]提出了一個(gè)多視角頭肩模型檢測室內(nèi)人員的局部位置, 并改進(jìn)了K 均值聚類算法確定人數(shù);Chi 等[14]利用人頭檢測任務(wù)和人體檢測任務(wù)有內(nèi)在聯(lián)系, 提出了一種同時(shí)檢測人頭和人體的模型JointDet;Peng 等[15]提出一種檢測室內(nèi)中較小人頭的級(jí)聯(lián)多尺度網(wǎng)絡(luò)模型FRN,F(xiàn)RN 有兩個(gè)檢測器提取圖像特征,一個(gè)提取較大物體和全局圖像特征,一個(gè)提取較小圖像特征;Vu 等[16]提出了子模型Global CNN 和Pairwise CNN,兩種子模型混合形成一種人頭檢測模型;Vora 等[17]提出了一種快速人頭檢測的模型FCHD,適用于嵌入式設(shè)備開發(fā)。
下文介紹兩類簡單的目標(biāo)檢測模型: 一類是一階段的檢測算法,另一類是兩階段的檢測算法。一階段的檢測算法即物體檢測過程中檢測算法一步完成——物體檢測采用一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò), 該神經(jīng)網(wǎng)絡(luò)的輸入為原始圖像,輸出為Bounding box(邊界框)和box(框)中物體類別[22-24],常見的模型有yolo[7],ssd[8];兩階段的檢測算法即物體檢測過程中檢測算法分兩步完成——首先獲取檢測物體的候選區(qū)域,然后進(jìn)行分類[17-21],常見模型有RCNN[9],F(xiàn)ast R-CNN[10]和Faster R-CNN[11]。一階段檢測比兩階段檢測實(shí)時(shí)檢測性能好,但是準(zhǔn)確率較差。
以yolo 為例介紹一階段檢測模型,yolo 模型采用一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò),直接輸入為一整張圖像,直接輸出為預(yù)測出的邊界框的坐標(biāo)、 框中物體所屬類別的概率和置信度;圖3 是其檢測物體流程:
圖3 一階段檢測物體流程Fig.3 One stage object detection process
(1)將圖像統(tǒng)一裁剪大小,作為神經(jīng)網(wǎng)絡(luò)的輸入(yolo模型將圖像大小裁剪到448×448)。
(2)通過一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò),得到一些邊界框的坐標(biāo)、框中物體所屬類別的概率和置信度;
(3)進(jìn)行非極大值抑制(NMS),篩選框(Boxes)。
以R-CNN 為例介紹兩階段檢測模型,R-CNN 模型采用選擇性搜索策略作為候選區(qū)域方法來獲取待檢測目標(biāo)的感興趣區(qū)域,并利用候選區(qū)域法創(chuàng)建了約2000 個(gè)感興趣區(qū)域,這些區(qū)域被轉(zhuǎn)換為固定大小的圖像,將圖像輸入到卷積神經(jīng)網(wǎng)絡(luò),待訓(xùn)練完成后,采用SVM 對感興趣區(qū)域進(jìn)行分類,采用線性回歸損失來校正邊界框,以實(shí)現(xiàn)目標(biāo)分類并得到邊界框。 其流程圖見圖4。
圖4 R-CNN 兩階段檢測模型流程圖Fig.4 Flow chart of R_CNN two-stage detection model
兩階段目標(biāo)檢測模型的設(shè)計(jì)思路是模擬一個(gè)人的見到新物品的思考過程,當(dāng)人見到一個(gè)陌生物品時(shí),首先確定物品的具體位置,其次觀察物品形狀、顏色等特征,最后對物品分類。二階段目標(biāo)檢測模型與上述流程類似,首先是得到檢測對象的候選框,其次是提取檢測對象特征,最后再對檢測對象分類。
系統(tǒng)總結(jié)當(dāng)前兩種基于回歸的人數(shù)統(tǒng)計(jì)和基于檢測的人數(shù)統(tǒng)計(jì)的研究方法中常用數(shù)據(jù)集、 各個(gè)數(shù)據(jù)集的介紹、以及對應(yīng)的評價(jià)指標(biāo)。
SmartCity 數(shù)據(jù)集是騰訊優(yōu)圖實(shí)驗(yàn)室采集整理而成的數(shù)據(jù)集,涵蓋了十類場景,每類場景包含了50 張高視角監(jiān)控?cái)z像頭拍攝的圖片, 用于研究室內(nèi)場景和室外場景下行人數(shù)量變化帶來的影響。
Shanghaitech 數(shù)據(jù)集約有1200 張圖片, 分為part_A和part_B 兩部分?jǐn)?shù)據(jù)集。
WorldExpo's 數(shù)據(jù)集約有4000 張圖片, 測試數(shù)據(jù)涵蓋了五類場景, 每類場景包含了120 張圖片和感興趣區(qū)域(region of interest),并在感興趣區(qū)域標(biāo)記了人群計(jì)數(shù)。
The UCF_CC_50 數(shù)據(jù)集有50 張圖片,具有圖片數(shù)量較少,不同圖片中人數(shù)變化較大的特點(diǎn)。
UCF-QNRF 數(shù)據(jù)集是佛羅里達(dá)大學(xué)采集整理得到的數(shù)據(jù)集,該數(shù)據(jù)集約有1500 張圖片,該數(shù)據(jù)集是目前注釋數(shù)量最多的數(shù)據(jù)集,具有多場景、多視角、多光線、多人群密度變化的特點(diǎn),其多場景囊括了建筑物、植物、道路等世界各地的室外場景, 極大推動(dòng)了不同地區(qū)人群密度統(tǒng)計(jì)任務(wù)的研究。 其常用數(shù)據(jù)集見表1。
表1 基于回歸的人流密度統(tǒng)計(jì)數(shù)據(jù)集Tab.1 Data sets of pedestrian density statistics based on regression
式中:N—測試圖片的數(shù)量; C^i—在第ith張密集人群圖片中人數(shù)量的估計(jì)值;Ci—在第ith張密集人群圖片中人數(shù)量的真實(shí)值;MAE—預(yù)測結(jié)果的準(zhǔn)確度;MSE—預(yù)測結(jié)果的魯棒性,對預(yù)測的異常點(diǎn)敏感,當(dāng)模型表現(xiàn)越差,預(yù)測結(jié)果和真實(shí)結(jié)果之間的誤差越大,該值越大。 在不同數(shù)據(jù)集上,各種研究方法的評價(jià)指標(biāo)數(shù)值不同, 當(dāng)前UCF_CC_50 數(shù)據(jù)集上評價(jià)指標(biāo)數(shù)值見表2。
表2 UCF_CC_50 數(shù)據(jù)集的評價(jià)指標(biāo)Tab.2 Evaluation index of UCF_CC_50 dataset
當(dāng)前基于檢測的人數(shù)統(tǒng)計(jì)的常用數(shù)據(jù)集可以分為三類:基于人頭檢測的數(shù)據(jù)集、基于人體檢測的數(shù)據(jù)集、可基于人頭和人體檢測的數(shù)據(jù)集。 所用數(shù)據(jù)集見表3。
表3 基于檢測的人流密度統(tǒng)計(jì)常用數(shù)據(jù)集Tab.3 Common data sets of pedestrian density statistics based on detection
3.3.1 基于人頭檢測的數(shù)據(jù)集
Brainwash 數(shù)據(jù)集采集于一家咖啡館, 詳實(shí)標(biāo)注了館內(nèi)的密集人群人頭信息。 其中, 訓(xùn)練集約有10800 張圖片,驗(yàn)證集有500 張圖片,測試集則有500 張圖片。
3.3.2 基于人體檢測的數(shù)據(jù)集
Crowd Image 數(shù)據(jù)集是阿里云提供在天池平臺(tái)上的人體檢測數(shù)據(jù)集,含7345 張多人圖片,當(dāng)畫面中行人數(shù)量大于100 時(shí),均按100 計(jì)算。
3.3.3 可基于人頭和人體檢測的數(shù)據(jù)集
CrowdHuman 數(shù)據(jù)集有規(guī)模較大、取材跨度大、標(biāo)記詳實(shí)的特點(diǎn)。 訓(xùn)練集和驗(yàn)證集一共有470000 個(gè)人類實(shí)例,每個(gè)人類實(shí)例中標(biāo)注了人體頭部框、肉眼可見的區(qū)域框和人體全身框。
人頭檢測任務(wù)和人體檢測任務(wù)上的性能評價(jià)指標(biāo)有平均準(zhǔn)確率mAP (mean Average Precision), 檢測時(shí)間(ms)、漏檢個(gè)數(shù)三項(xiàng)。 人頭檢測精度用平均準(zhǔn)確率表示,人頭檢測速度用檢測時(shí)間表示; 沒有被正確檢測的人頭個(gè)數(shù)用漏檢個(gè)數(shù)表示[31]。precision(精確率)和recall(召回率)的公式化定義分別為:
密集場景下人流密度統(tǒng)計(jì)的相關(guān)研究主要面臨如下兩個(gè)難點(diǎn):一是場景中高度重疊的人員信息特征相似,容易導(dǎo)致神經(jīng)網(wǎng)絡(luò)表征錯(cuò)誤;二是場景中個(gè)體高度重疊,容易導(dǎo)致NMS 過度抑制。解決兩個(gè)難點(diǎn)是此領(lǐng)域之關(guān)鍵。密集場景下,識(shí)別人員的身體特征,清晰表達(dá)人員特征信息并進(jìn)行特征信息分類,是該領(lǐng)域研究的熱點(diǎn)和下一步方向。
本文介紹了密集場景下的人流密度統(tǒng)計(jì)方法的背景、應(yīng)用場景、技術(shù)路線、研究方法,總結(jié)整理了基于回歸和基于檢測的兩種人數(shù)統(tǒng)計(jì)方法常用數(shù)據(jù)集和評測兩種方法模型性能的評價(jià)指標(biāo), 總結(jié)了密集場景下的人流密度統(tǒng)計(jì)方法的研究課題當(dāng)前存在的關(guān)鍵問題和研究難點(diǎn),展望了未來的發(fā)展趨勢。