亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多任務(wù)全卷積網(wǎng)絡(luò)的人流監(jiān)測(cè)系統(tǒng)

2018-04-16 08:08:33彭天亮

計(jì)算機(jī)與數(shù)字工程 2018年3期

韋　蕊　彭天亮

（1.西安培華學(xué)院　西安　710125）（2.江西省水信息協(xié)同感知與智能處理重點(diǎn)實(shí)驗(yàn)室南昌工程學(xué)院　南昌　330099）

1　引言

在旅游景點(diǎn)和公共集會(huì)等場(chǎng)景中，使用計(jì)算機(jī)視覺技術(shù)通過(guò)圖像或監(jiān)控視頻流，對(duì)場(chǎng)景中人群的數(shù)量進(jìn)行準(zhǔn)確而穩(wěn)健的估計(jì)，以防止因過(guò)高度擁擠可能導(dǎo)致的擠壓、踩踏等事件，對(duì)公共安全具有重大意義。

現(xiàn)有的人群統(tǒng)計(jì)方法一般可以分為兩類：基于檢測(cè)的方法和基于回歸的方法?；跈z測(cè)的方法通常假定可以通過(guò)使用給定的對(duì)象檢測(cè)器［1～3］來(lái)檢測(cè)和定位人群圖像上的每個(gè)人，然后通過(guò)累積每個(gè)檢測(cè)到的人來(lái)計(jì)數(shù)，然而，這些方法［4～6］需要巨大的計(jì)算資源而且往往受人為遮擋和復(fù)雜的限制背景，在實(shí)際情況下，產(chǎn)生的相對(duì)較低魯棒性和準(zhǔn)確性?；诨貧w的方法直接從圖像中計(jì)算人群的數(shù)量。Chan等［7］使用手工特征來(lái)將人群統(tǒng)計(jì)任務(wù)轉(zhuǎn)化為回歸問(wèn)題；文獻(xiàn)［8～9］提出了更多人群相關(guān)的特征，包括基于結(jié)構(gòu)的特征和局部紋理的特征；Lempitsky等［10］提出了一種基于密度的算法，其通過(guò)整合估計(jì)的密度圖來(lái)進(jìn)行計(jì)數(shù)。

最近，深層卷積神經(jīng)網(wǎng)絡(luò)在人群統(tǒng)計(jì)場(chǎng)景中顯示了出較好的效果。Wan等［11］直接使用基于CNN的模型來(lái)建模圖像到人數(shù)的映射關(guān)系；Zhang等［12］提出了多列CNN來(lái)提取多尺度特征；Boominathan等［13］提出了一個(gè)多網(wǎng)絡(luò)的CNN來(lái)提高對(duì)人的分辨率；這些算法在解決尺度變換造成的分辨率問(wèn)題的同時(shí)，使得網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜，這些網(wǎng)絡(luò)在訓(xùn)練時(shí)，需要預(yù)先訓(xùn)練單一網(wǎng)絡(luò)進(jìn)行全局優(yōu)化，且引入了更多參數(shù)，需要消耗更多的計(jì)算資源，使得難以實(shí)際應(yīng)用。本文基于多任務(wù)的全卷積神經(jīng)網(wǎng)絡(luò)（MTFCN）來(lái)進(jìn)行人流的監(jiān)測(cè)，一方面通過(guò)采用不同尺度類似Inception模塊［14］中所用的卷積核來(lái)提取尺度相關(guān)特征，另一方面通過(guò)同時(shí)學(xué)習(xí)密度和數(shù)量?jī)蓚€(gè)任務(wù)來(lái)提高數(shù)據(jù)的利用效率，進(jìn)而提高網(wǎng)絡(luò)訓(xùn)練速度，所提方法在ShanghaiTech數(shù)據(jù)集上達(dá)到了較好的效果，并遷移到具體場(chǎng)景中，建立了實(shí)時(shí)人流監(jiān)測(cè)系統(tǒng)。

2　模型

由于透視失真，人群圖像通常由不同尺寸的人像組成，因此很難用相同尺寸的卷積核來(lái)建模尺度的變化。文獻(xiàn)［15］中提出了一個(gè)初始模塊來(lái)處理各種尺度的視覺信息，并匯總到下個(gè)階段。本文采用不同尺度的卷積核和1×1的卷積核相結(jié)合使用的方法，來(lái)提取多尺度特征，并采用全卷積網(wǎng)絡(luò)來(lái)學(xué)習(xí)原始圖像的密度圖，同時(shí)采用一個(gè)較小的多層網(wǎng)絡(luò)對(duì)人群數(shù)量進(jìn)行回歸，通過(guò)這種將兩個(gè)任務(wù)一起學(xué)習(xí)的結(jié)構(gòu)來(lái)實(shí)現(xiàn)對(duì)高密度人流的估計(jì)。

2.1　多任務(wù)全卷積網(wǎng)絡(luò)體系結(jié)構(gòu)

圖1　多任務(wù)全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

多任務(wù)全卷積神經(jīng)網(wǎng)絡(luò)（MTFCN）的結(jié)構(gòu)如圖1所示，包括特征映射、多尺度特征提取、密度估計(jì)和人群數(shù)量估計(jì)。第一個(gè)卷積層采用單一尺寸的卷積核來(lái)提取底層特征，接著采用一種Inception模塊（如圖2所示）來(lái)提取多尺度融合的特征，其由多個(gè)不同尺寸（包括1×1，5×5和3×3）的卷積核組成，至此提取的特征作為后續(xù)多任務(wù)的共享特征。對(duì)于密度估計(jì)采用全卷積網(wǎng)絡(luò)中和卷積操作對(duì)偶的反卷積操作實(shí)現(xiàn)，并采用多層感知機(jī)結(jié)構(gòu)來(lái)對(duì)人群數(shù)量進(jìn)行回歸，由于密度圖中的像素取值總為正值，所以非線性激活函數(shù)采用ReLU函數(shù)［16］實(shí)現(xiàn)，以增強(qiáng)對(duì)密度圖的估計(jì)精度。

圖2　多尺度特征提取

2.2　損失函數(shù)

對(duì)于密度估計(jì)部分，為了高質(zhì)量地生成具有尺度相關(guān)性的密度圖，本文參考Zhang等［12］的由于尺度自適應(yīng)的核密度估計(jì)方法。對(duì)于圖像中每個(gè)人的標(biāo)注區(qū)域，本文采用一個(gè)delta函數(shù)δ(x-xi)來(lái)指示其所在的位置，同時(shí)采用一個(gè)高斯核Gσ來(lái)描述其區(qū)域密度分布，因此，最終的概率密度圖可以用F(x)=H(x)*Gσ(x)來(lái)表示。進(jìn)一步，考慮到每個(gè)人所在的位置只和周圍人的位置相關(guān)，本文假設(shè)可以采用特定對(duì)象xi和其周圍的7個(gè)人之間的平均距離來(lái)度量高斯核的方差，進(jìn)而可用式（1）對(duì)密度圖進(jìn)行度量：

其中，M為標(biāo)記圖像中人群個(gè)數(shù)，通常根據(jù)經(jīng)驗(yàn)可以設(shè)置β=0.3。進(jìn)而可以采用歐式距離作為密度估計(jì)的度量函數(shù)，如式（2）所示：

其中，N為訓(xùn)練樣本的個(gè)數(shù)，Xi為第i個(gè)樣本圖像，F(xiàn)i為和第i個(gè)樣本對(duì)應(yīng)的真實(shí)密度圖。

對(duì)于人群數(shù)量估計(jì)，同樣采用歐式距離來(lái)定義損失函數(shù)，具體見式（3）：

其中，f(Xi)預(yù)測(cè)的人群數(shù)量，Yi為樣本圖像中真實(shí)的人群數(shù)量。

因此，整個(gè)網(wǎng)絡(luò)的損失函數(shù)由密度損失函數(shù)和人群數(shù)量損失函數(shù)兩部分組成，即：

訓(xùn)練過(guò)程采用RMSProp優(yōu)化算法，其中動(dòng)量設(shè)置為0.9，衰減為0.0005，以加速整個(gè)網(wǎng)絡(luò)的訓(xùn)練。

3　實(shí)驗(yàn)

對(duì)所提的MTFCN神經(jīng)網(wǎng)絡(luò)的評(píng)估，本文在標(biāo)準(zhǔn)的ShanghaiTech數(shù)據(jù)集上進(jìn)行了測(cè)試，實(shí)驗(yàn)結(jié)果表明，本文所提的方法在精度和魯棒性方面均有較好的表現(xiàn)，網(wǎng)絡(luò)的訓(xùn)練采用Caffe框架進(jìn)行實(shí)現(xiàn)［17］。

3.1　評(píng)估指標(biāo)

采用平均絕對(duì)誤差（MAE）和均方誤差（MSE）來(lái)評(píng)估所提方法的性能，MAE和MSE的計(jì)算見式（5）和式（6）：

3.2　數(shù)據(jù)集

ShanghaiTech數(shù)據(jù)集是一個(gè)大規(guī)模的人群統(tǒng)計(jì)數(shù)據(jù)集［12］，其包含1198幅注釋圖像，共330，165人。數(shù)據(jù)集由2部分：A部分包含482幅從互聯(lián)網(wǎng)上爬取的圖像，B部分包含716張街道的圖像。在實(shí)驗(yàn)時(shí)，用800幅圖像作為訓(xùn)練集，其余為測(cè)試集。

3.3　實(shí)驗(yàn)效果

在實(shí)驗(yàn)時(shí)，本文將所提方法和其他3種方法進(jìn)行了比較，LBP+RP的方法采用LBP特征來(lái)回歸人群數(shù)量［12］，采用多列CNN來(lái)估計(jì)人群數(shù)量（MCNN-CCR）和人群密度（MCNN），表1表明所提方法的有效性，且具有較好的魯棒性。

表1　

4　基于MTFCN的人流監(jiān)測(cè)系統(tǒng)

基于上述模型及實(shí)驗(yàn)效果，本文設(shè)計(jì)了一種用于實(shí)時(shí)監(jiān)測(cè)公共場(chǎng)合中人群數(shù)量的監(jiān)測(cè)系統(tǒng)，輸入為實(shí)時(shí)視頻流，然后對(duì)視頻中的圖像采用MTFCN網(wǎng)絡(luò)進(jìn)行人群數(shù)量的估計(jì)，并進(jìn)行實(shí)時(shí)顯示，系統(tǒng)效果如圖3所示。

圖3　人流監(jiān)測(cè)系統(tǒng)效果

其中，上半部分為實(shí)時(shí)的人群數(shù)量統(tǒng)計(jì)情況，下面為視頻幀及對(duì)應(yīng)人群密度估計(jì)圖，監(jiān)測(cè)過(guò)程的其他實(shí)驗(yàn)效果如圖4所示。

圖4　監(jiān)測(cè)實(shí)驗(yàn)效果

5　結(jié)語(yǔ)

本文提出了一個(gè)多任務(wù)全卷積神經(jīng)網(wǎng)絡(luò)（MTFCN）實(shí)現(xiàn)對(duì)人群數(shù)量的統(tǒng)計(jì)。和其他基于CNN的方法相比，所提算法采用了多尺度卷積操作以提取多級(jí)特征，并結(jié)合多任務(wù)以提高數(shù)據(jù)利用率，并可以直接采用端到端的訓(xùn)練的方法。實(shí)驗(yàn)表明所提算法可以達(dá)到更高的精度和較好的魯棒性，并通過(guò)建立實(shí)時(shí)的人流監(jiān)測(cè)系統(tǒng)證明了算法的實(shí)用性及有效性。

［1］Sheng-Fuu Lin，Jaw-Yeh Chen，Hung-Xin Chao.Estimation of number of people in crowded scenes using perspective transformation［J］.IEEETransactions onSystems，Man，and Cybernetics-Part A：Systems and Humans，2001，31（6）：645-654.

［2］Navneet Dalal and Bill Triggs.Histograms of oriented gra-dients for human detection［C］//Computer Vision and Pattern Recognition，2005.CVPR 2005.IEEEComputer Society Conference on.IEEE，2005，1：886-893.

［3］Meng Wang，Xiaogang Wang.Automatic adaptation of a generic pedestrian detector to a specific traffic scene［C］//in Computer Vision and Pattern Recognition（CVPR），2011 IEEEConference on.IEEE，2011：3401-3408.

［4］Weina Ge and Robert T Collins.Marked point processes for crowd counting［C］//in Computer Vision andPattern Recognition，2009.CVPR 2009.IEEE Conference on.IEEE，2009：2913-2920.

［5］Haroon Idrees，Khurram Soomro，Mubarak Shah.Detecting humans in dense crowds using locallyconsistent scale prior and global occlusion reasoning［J］.IEEE transactions on pattern analysis andmachine intelligence，2015，37（10）：1986-1998.

［6］Zhe Lin，Larry SDavis.Shape-based human detection and segmentation via hierarchical part-templatematching［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2010，32（4）：604-618.

［7］Antoni B Chan，Zhang-Sheng John Liang，Nuno Vasconcelos.Privacy preserving crowd monitoring：Counting people without people models or tracking［C］//in Computer Vision and Pattern Recognition，2008.CVPR 2008.IEEE Conference on.IEEE，2008：1-7.

［8］Antoni B Chan，Nuno Vasconcelos.Bayesian poisson regression for crowd counting［C］//in Computer Vision，009 IEEE 12th International Conference on.IEEE，2009：545-551.

［9］Ke Chen，Chen Change Loy，Shaogang Gong，Tony Xiang.Feature mining for localised crowd counting［J］.in BMVC，2012，1：3.

［10］Victor Lempitsky，Andrew Zisserman.Learning to count objects in images［J］.in Advances in Neural Information Processing Systems，2010：1324-1332.

［11］Chuan Wang，Hua Zhang，Liang Yang，Si Liu，Xiaochun Cao.Deep people counting in extremely dense crowds［C］//in Proceedings of the 23rd ACM internationalconference on Multimedia.ACM，2015：1299-1302.

［12］Yingying Zhang，Desen Zhou，Siqin Chen，Shenghua Gao，YiMa.Single-image crowd counting viamulti-column convolutionalneural network［C］//in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2016：589-597.

［13］Lokesh Boominathan，Srinivas SS Kruthiventi，R Venkatesh Babu.Crowdnet：A deep convolutional network for dense crowd counting［C］//in Proceedings of the 2016 ACM on Multimedia Conference.ACM，2016：640-644.

［14］Christian Szegedy，Wei Liu，Yangqing Jia，Pierre Sermanet，Scott Reed，Dragomir Anguelov，Dumitru Erhan，Vincent Vanhoucke，Andrew Rabinovich.Going deeper with convolutions［C］//in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2015：1-9.

［15］Min Lin，Qiang Chen，Shuicheng Yan.Network in network［C］//arXiv preprintarXiv：1312.4400，2013.

［16］Vinod Nair，Geoffrey EHinton.Rectified linear units improve restricted boltzmann machines［C］//in Proceedings of the 27th international conference on machine learning（ICML-10），2010：807-814.

［17］Yangqing Jia，Evan Shelhamer，Jeff Donahue，Sergey Karayev，Jonathan Long，Ross Girshick，Sergio Guadarrama，Trevor Darrell.Caffe：Convolutional architecture for fast feature embedding［C］//in Proceedings of the 22ndACMinternational conference on Multimedia.ACM，2014：675-678.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多任務(wù)全卷積網(wǎng)絡(luò)的人流監(jiān)測(cè)系統(tǒng)

1 引言

2 模型

2.1 多任務(wù)全卷積網(wǎng)絡(luò)體系結(jié)構(gòu)

2.2 損失函數(shù)

3 實(shí)驗(yàn)

3.1 評(píng)估指標(biāo)

3.2 數(shù)據(jù)集

3.3 實(shí)驗(yàn)效果

4 基于MTFCN的人流監(jiān)測(cè)系統(tǒng)

5 結(jié)語(yǔ)