亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

密集場景下的人流密度統(tǒng)計(jì)方法研究綜述

2022-12-20 06:41:20郭淑濤

機(jī)電產(chǎn)品開發(fā)與創(chuàng)新 2022年6期

關(guān)鍵詞：檢測模型

郭淑濤，韓琳

（公安部第一研究所，北京 100044）

0 引言

不同場合、不同人流密度、不同人體姿態(tài)都增加了密集場景下的人流密度統(tǒng)計(jì)方法的研究難度。在火車站、地鐵站、大型商場等人群密集的地方，人群的頻繁流動(dòng)容易引發(fā)交通擁堵、人員踩踏等事故。通過對密集場景下的人流密度統(tǒng)計(jì)方法的研究，實(shí)時(shí)監(jiān)控統(tǒng)計(jì)公共區(qū)域的人流密度，相關(guān)部門及時(shí)安排安防人員疏散人群，引導(dǎo)人群流動(dòng)，有利于提前預(yù)防和有效減少突發(fā)性事故。在新冠疫情防控背景下，結(jié)合智能機(jī)器人、邊緣智能盒子的密集場景下人流密度統(tǒng)計(jì)算法，可有效檢測人流、防止人員聚集。在建設(shè)智慧城市方面，該研究領(lǐng)域市場前景廣闊，其作用也必將日益凸顯。實(shí)現(xiàn)密集人群的人數(shù)統(tǒng)計(jì)通常有兩類方法：一類是基于回歸的人數(shù)統(tǒng)計(jì)，另一類是基于檢測的人數(shù)統(tǒng)計(jì)。

1 基于回歸的人數(shù)統(tǒng)計(jì)方法

基于輸入圖像的預(yù)測密度圖訓(xùn)練回歸模型即把圖像像素當(dāng)作計(jì)量單位，用整個(gè)密度圖的像素總和來預(yù)測最終人數(shù)。Zhang 等[1]搜集并標(biāo)注了相關(guān)的圖片數(shù)據(jù)集，并提出了簡單高性能的多維卷積神經(jīng)網(wǎng)絡(luò)MCNN，從單幅圖片中的任意密度和視角就能正確估計(jì)圖像中人群的數(shù)量；Li等[2]提出了更高維的神經(jīng)網(wǎng)絡(luò)模型CSRNet，其前端采用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)用來提取圖片的2D 特征，后端則采用了膨脹卷積神經(jīng)網(wǎng)絡(luò)用來傳送輸入圖像中更大的感受野，替換了池化操經(jīng)網(wǎng)絡(luò)TEDNet，能將不同編碼階段的分等級(jí)圖像特征合并到多條的解碼路徑；Idrees 等[4]發(fā)現(xiàn)密集人群的圖像中計(jì)數(shù)、密度圖估計(jì)和人員定位三者之間存在內(nèi)在聯(lián)系，并以此使損失函數(shù)優(yōu)化深度卷積神經(jīng)網(wǎng)絡(luò)；Cao 等[5]提出了一種編解碼結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)SANet，編碼器端提取多尺度圖像特征，解碼器端采用一系列反卷積層生成高分辨率人群密度圖，還改進(jìn)了損失函數(shù)，將歐幾里得損失函數(shù)和局部模式的一致性損失函數(shù)結(jié)合起來。Victor 等[6]提出了一種監(jiān)督學(xué)習(xí)的框架，并改進(jìn)了損失函數(shù)。見圖1，第一張是測試圖片，第二張是真實(shí)標(biāo)簽的熱力圖，第三張是模型估計(jì)的熱力圖，圖1 演示了該方法過程和效果[25-27]。

圖1 基于回歸的人數(shù)統(tǒng)計(jì)方法演示Fig.1 Demonstration of the regression-based numerical statistics methods

2 基于檢測的人數(shù)統(tǒng)計(jì)方法

基于檢測的人數(shù)統(tǒng)計(jì)方法即在經(jīng)過預(yù)先訓(xùn)練的目標(biāo)檢測模型中輸入圖像，模型經(jīng)過圖像分類，計(jì)算出類別為人的邊界框數(shù)量，獲得最終的人數(shù)。其流程見圖2。

圖2 基于檢測的人數(shù)統(tǒng)計(jì)流程圖Fig.2 Flow chart of population statistics based on detection

基于檢測的人數(shù)統(tǒng)計(jì)模型在簡單的一階段目標(biāo)檢測模型和兩階段目標(biāo)檢測模型的基礎(chǔ)上進(jìn)一步改變和發(fā)展，并形成該領(lǐng)域獨(dú)特的方法。 Gao 等[12]提出了一種獲取流動(dòng)人員的活動(dòng)區(qū)域，再用注水算法檢測和篩選活動(dòng)區(qū)域的方法，通過追蹤檢測活動(dòng)區(qū)域的人頭數(shù)統(tǒng)計(jì)人員總數(shù)；Luo 等[13]提出了一個(gè)多視角頭肩模型檢測室內(nèi)人員的局部位置，并改進(jìn)了K 均值聚類算法確定人數(shù)；Chi 等[14]利用人頭檢測任務(wù)和人體檢測任務(wù)有內(nèi)在聯(lián)系，提出了一種同時(shí)檢測人頭和人體的模型JointDet；Peng 等[15]提出一種檢測室內(nèi)中較小人頭的級(jí)聯(lián)多尺度網(wǎng)絡(luò)模型FRN，F(xiàn)RN 有兩個(gè)檢測器提取圖像特征，一個(gè)提取較大物體和全局圖像特征，一個(gè)提取較小圖像特征；Vu 等[16]提出了子模型Global CNN 和Pairwise CNN，兩種子模型混合形成一種人頭檢測模型；Vora 等[17]提出了一種快速人頭檢測的模型FCHD，適用于嵌入式設(shè)備開發(fā)。

下文介紹兩類簡單的目標(biāo)檢測模型：一類是一階段的檢測算法，另一類是兩階段的檢測算法。一階段的檢測算法即物體檢測過程中檢測算法一步完成——物體檢測采用一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)的輸入為原始圖像，輸出為Bounding box（邊界框）和box（框）中物體類別[22-24]，常見的模型有yolo[7]，ssd[8]；兩階段的檢測算法即物體檢測過程中檢測算法分兩步完成——首先獲取檢測物體的候選區(qū)域，然后進(jìn)行分類[17-21]，常見模型有RCNN[9]，F(xiàn)ast R-CNN[10]和Faster R-CNN[11]。一階段檢測比兩階段檢測實(shí)時(shí)檢測性能好，但是準(zhǔn)確率較差。

2.1 一階段目標(biāo)檢測模型

以yolo 為例介紹一階段檢測模型，yolo 模型采用一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò)，直接輸入為一整張圖像，直接輸出為預(yù)測出的邊界框的坐標(biāo)、框中物體所屬類別的概率和置信度；圖3 是其檢測物體流程：

圖3 一階段檢測物體流程Fig.3 One stage object detection process

（1）將圖像統(tǒng)一裁剪大小，作為神經(jīng)網(wǎng)絡(luò)的輸入（yolo模型將圖像大小裁剪到448×448）。

（2）通過一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò)，得到一些邊界框的坐標(biāo)、框中物體所屬類別的概率和置信度；

（3）進(jìn)行非極大值抑制（NMS），篩選框（Boxes）。

2.2 兩階段目標(biāo)檢測模型

以R-CNN 為例介紹兩階段檢測模型，R-CNN 模型采用選擇性搜索策略作為候選區(qū)域方法來獲取待檢測目標(biāo)的感興趣區(qū)域，并利用候選區(qū)域法創(chuàng)建了約2000 個(gè)感興趣區(qū)域，這些區(qū)域被轉(zhuǎn)換為固定大小的圖像，將圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)，待訓(xùn)練完成后，采用SVM 對感興趣區(qū)域進(jìn)行分類，采用線性回歸損失來校正邊界框，以實(shí)現(xiàn)目標(biāo)分類并得到邊界框。其流程圖見圖4。

圖4 R-CNN 兩階段檢測模型流程圖Fig.4 Flow chart of R_CNN two-stage detection model

兩階段目標(biāo)檢測模型的設(shè)計(jì)思路是模擬一個(gè)人的見到新物品的思考過程，當(dāng)人見到一個(gè)陌生物品時(shí)，首先確定物品的具體位置，其次觀察物品形狀、顏色等特征，最后對物品分類。二階段目標(biāo)檢測模型與上述流程類似，首先是得到檢測對象的候選框，其次是提取檢測對象特征，最后再對檢測對象分類。

3 常用數(shù)據(jù)集和評價(jià)指標(biāo)

系統(tǒng)總結(jié)當(dāng)前兩種基于回歸的人數(shù)統(tǒng)計(jì)和基于檢測的人數(shù)統(tǒng)計(jì)的研究方法中常用數(shù)據(jù)集、各個(gè)數(shù)據(jù)集的介紹、以及對應(yīng)的評價(jià)指標(biāo)。

3.1 基于回歸的數(shù)據(jù)集

SmartCity 數(shù)據(jù)集是騰訊優(yōu)圖實(shí)驗(yàn)室采集整理而成的數(shù)據(jù)集，涵蓋了十類場景，每類場景包含了50 張高視角監(jiān)控?cái)z像頭拍攝的圖片，用于研究室內(nèi)場景和室外場景下行人數(shù)量變化帶來的影響。

Shanghaitech 數(shù)據(jù)集約有1200 張圖片，分為part_A和part_B 兩部分?jǐn)?shù)據(jù)集。

WorldExpo's 數(shù)據(jù)集約有4000 張圖片，測試數(shù)據(jù)涵蓋了五類場景，每類場景包含了120 張圖片和感興趣區(qū)域（region of interest），并在感興趣區(qū)域標(biāo)記了人群計(jì)數(shù)。

The UCF_CC_50 數(shù)據(jù)集有50 張圖片，具有圖片數(shù)量較少，不同圖片中人數(shù)變化較大的特點(diǎn)。

UCF-QNRF 數(shù)據(jù)集是佛羅里達(dá)大學(xué)采集整理得到的數(shù)據(jù)集，該數(shù)據(jù)集約有1500 張圖片，該數(shù)據(jù)集是目前注釋數(shù)量最多的數(shù)據(jù)集，具有多場景、多視角、多光線、多人群密度變化的特點(diǎn)，其多場景囊括了建筑物、植物、道路等世界各地的室外場景，極大推動(dòng)了不同地區(qū)人群密度統(tǒng)計(jì)任務(wù)的研究。其常用數(shù)據(jù)集見表1。

表1 基于回歸的人流密度統(tǒng)計(jì)數(shù)據(jù)集Tab.1 Data sets of pedestrian density statistics based on regression

3.2 基于回歸的數(shù)據(jù)評價(jià)指標(biāo)

式中：N—測試圖片的數(shù)量； C^i—在第ith張密集人群圖片中人數(shù)量的估計(jì)值；Ci—在第ith張密集人群圖片中人數(shù)量的真實(shí)值；MAE—預(yù)測結(jié)果的準(zhǔn)確度；MSE—預(yù)測結(jié)果的魯棒性，對預(yù)測的異常點(diǎn)敏感，當(dāng)模型表現(xiàn)越差，預(yù)測結(jié)果和真實(shí)結(jié)果之間的誤差越大，該值越大。在不同數(shù)據(jù)集上，各種研究方法的評價(jià)指標(biāo)數(shù)值不同，當(dāng)前UCF_CC_50 數(shù)據(jù)集上評價(jià)指標(biāo)數(shù)值見表2。

表2 UCF_CC_50 數(shù)據(jù)集的評價(jià)指標(biāo)Tab.2 Evaluation index of UCF_CC_50 dataset

3.3 基于檢測的數(shù)據(jù)集

當(dāng)前基于檢測的人數(shù)統(tǒng)計(jì)的常用數(shù)據(jù)集可以分為三類：基于人頭檢測的數(shù)據(jù)集、基于人體檢測的數(shù)據(jù)集、可基于人頭和人體檢測的數(shù)據(jù)集。所用數(shù)據(jù)集見表3。

表3 基于檢測的人流密度統(tǒng)計(jì)常用數(shù)據(jù)集Tab.3 Common data sets of pedestrian density statistics based on detection

3.3.1 基于人頭檢測的數(shù)據(jù)集

Brainwash 數(shù)據(jù)集采集于一家咖啡館，詳實(shí)標(biāo)注了館內(nèi)的密集人群人頭信息。其中，訓(xùn)練集約有10800 張圖片，驗(yàn)證集有500 張圖片，測試集則有500 張圖片。

3.3.2 基于人體檢測的數(shù)據(jù)集

Crowd Image 數(shù)據(jù)集是阿里云提供在天池平臺(tái)上的人體檢測數(shù)據(jù)集，含7345 張多人圖片，當(dāng)畫面中行人數(shù)量大于100 時(shí)，均按100 計(jì)算。

3.3.3 可基于人頭和人體檢測的數(shù)據(jù)集

CrowdHuman 數(shù)據(jù)集有規(guī)模較大、取材跨度大、標(biāo)記詳實(shí)的特點(diǎn)。訓(xùn)練集和驗(yàn)證集一共有470000 個(gè)人類實(shí)例，每個(gè)人類實(shí)例中標(biāo)注了人體頭部框、肉眼可見的區(qū)域框和人體全身框。

3.4 基于檢測的數(shù)據(jù)評價(jià)指標(biāo)：

人頭檢測任務(wù)和人體檢測任務(wù)上的性能評價(jià)指標(biāo)有平均準(zhǔn)確率mAP （mean Average Precision），檢測時(shí)間（ms）、漏檢個(gè)數(shù)三項(xiàng)。人頭檢測精度用平均準(zhǔn)確率表示，人頭檢測速度用檢測時(shí)間表示；沒有被正確檢測的人頭個(gè)數(shù)用漏檢個(gè)數(shù)表示[31]。precision（精確率）和recall（召回率）的公式化定義分別為：

4 關(guān)鍵問題與研究難點(diǎn)

密集場景下人流密度統(tǒng)計(jì)的相關(guān)研究主要面臨如下兩個(gè)難點(diǎn)：一是場景中高度重疊的人員信息特征相似，容易導(dǎo)致神經(jīng)網(wǎng)絡(luò)表征錯(cuò)誤；二是場景中個(gè)體高度重疊，容易導(dǎo)致NMS 過度抑制。解決兩個(gè)難點(diǎn)是此領(lǐng)域之關(guān)鍵。密集場景下，識(shí)別人員的身體特征，清晰表達(dá)人員特征信息并進(jìn)行特征信息分類，是該領(lǐng)域研究的熱點(diǎn)和下一步方向。

5 結(jié)束語

本文介紹了密集場景下的人流密度統(tǒng)計(jì)方法的背景、應(yīng)用場景、技術(shù)路線、研究方法，總結(jié)整理了基于回歸和基于檢測的兩種人數(shù)統(tǒng)計(jì)方法常用數(shù)據(jù)集和評測兩種方法模型性能的評價(jià)指標(biāo)，總結(jié)了密集場景下的人流密度統(tǒng)計(jì)方法的研究課題當(dāng)前存在的關(guān)鍵問題和研究難點(diǎn)，展望了未來的發(fā)展趨勢。