亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度卷積神經(jīng)網(wǎng)絡的人群密度估計方法

        2017-08-12 15:45:56譚智勇袁家政劉宏哲
        計算機應用與軟件 2017年7期
        關鍵詞:特征方法

        譚智勇 袁家政,2 劉宏哲 李 青

        1(北京市信息服務工程重點實驗室 北京 100101)2(北京成像技術高精尖創(chuàng)新中心 北京 100048)

        ?

        基于深度卷積神經(jīng)網(wǎng)絡的人群密度估計方法

        譚智勇1袁家政1,2劉宏哲1李 青1

        1(北京市信息服務工程重點實驗室 北京 100101)2(北京成像技術高精尖創(chuàng)新中心 北京 100048)

        人群密度自動估計作為人群控制和管理的方法,是當前視頻監(jiān)控中的一個重要研究領域。現(xiàn)有的方法通過提取復雜的特征來進行人群密度估計,由于人群遮擋、透視效果和環(huán)境復雜等條件限制,難以滿足實際應用中的需求,而深度卷積神經(jīng)網(wǎng)絡在特征學習上具有較強的能力。提出了一種基于深度卷積神經(jīng)網(wǎng)絡DCNN(Deep Convolution Neural Network)的方法來進行自然場景下人群密度估計。首先,為了消除攝像機透視效果,以圖像中行人身高作為尺度基準,將圖像分成多個子圖像塊。其次,設計一種新的深度卷積神經(jīng)網(wǎng)絡結構,利用多種不同的卷積核提取人群圖像的深層次特征進行人群密度估計。實驗結果證明該方法在自然場景下人群密度估計具有良好的穩(wěn)定性和魯棒性。

        人群密度估計 圖像分塊 深度卷積神經(jīng)網(wǎng)絡

        0 引 言

        隨著經(jīng)濟的發(fā)展,人們的社會活動越來越多,各種公共場所如超市、地鐵、火車站、體育館等地常常有著大量的人群,因而容易發(fā)生踩踏群傷事故。人群分析已經(jīng)成為人群檢測和智能視頻監(jiān)控的一個重要研究課題。特別是人群密度估計成為人群安全控制和管理研究的重點,它能夠自動監(jiān)測公共場所中人群的大小,幫助工作人員很好地進行管理;此外,它在預防過度擁擠和檢測潛在的安全問題上有著極其重要的作用。

        在自然人群場景中的人群密度估計存在以下幾個難點:第一,攝像機的透視效果,造成人群遠近尺度不同;第二,由于人群過度擁擠遮擋,無法有效檢測人群的大??;第三,在自然場景下,環(huán)境復雜、光照變化大,視頻圖像中存在大量噪聲。所以,在自然場景下特別是高密度人群的場景下的人群密度估計仍是一個極具挑戰(zhàn)的任務。

        為解決人群密度估計存在的問題,國內(nèi)外學者提出了許多的方法。目前人群密度估計的相關方法大致可以分為兩類:基于像素的和基于紋理。

        基于像素的方法,通過前景區(qū)域[1, 2, 4]、邊緣直方圖[3, 7]、邊界統(tǒng)計[1, 3, 7]等進行人群密度估計。如Davies等[1]提出了通過圖像處理的方法來進行人群密度估計。該方法假設人群密度和前景像素存在一定的線性關系,利用背景建模、前景提取和邊緣檢測等方法計算人群像素總數(shù),然后通過回歸擬合估計人群密度。這種方法被證明簡單有效,容易實現(xiàn)。但實際中,卻只能用在一些特殊的環(huán)境下,像車站這種高密度的環(huán)境下則由于人群的過度遮擋而無法使用。Hussain等[10]通過背景去除和邊緣檢測提取人群特征輸入到訓練好的BP神經(jīng)網(wǎng)絡中估計人群數(shù)目從而實現(xiàn)人群密度估計。該方法同樣在高密度環(huán)境下,由于人群的過度擁擠遮擋,性能表現(xiàn)明顯下降。

        基于紋理的方法則是利用不同的紋理描述子如灰度共生矩陣GLDM(Gray Level Dependence Matrices)[4,9,13,24]、局部二值模式LBP(Local Binary Pattern)[12,14,16]等對人群圖像提取紋理特征,從而實現(xiàn)人群密度估計。由于不同的人群密度圖像有著不同的紋理特征,當人群密度比較高時,人群圖像的紋理表現(xiàn)為細紋理;反之,當人群密度較低時,人群圖像的紋理表現(xiàn)為粗紋理。Marana等[2]針對高密度下的人群提出了基于GLDM的人群密度估計方法,該方法用灰度共生矩陣提取人群特征,通過自組織神經(jīng)網(wǎng)絡對這些特征分類實現(xiàn)人群密度估計。然而,該方法在人群密度較低時容易受到背景噪聲的干擾,且精度只有81.88%。為了更好地提高人群密度估計性能,Wu等[4]首次提出利用支持向量機SVM(Support Vector Machine)對提取的GLDM進行分類。Li等[5]提出了一種多尺度分析和SVM結合的方法來進行人群密度估計。Ma等[5]對LBP進行改進提出了高級局部二值模式ALBP(Advanced Local Binary Pattern),該方法利用ALBP表示人群的紋理特征,通過將ALBP輸入到SVM中實現(xiàn)人群密度估計。Zhang等[8]提出了拼接圖像差分特征AMID(Accumulated Mosaic Image Difference)表示場景內(nèi)人群運動模式進行前景檢測,同樣通過使用SVM對人群圖像特征向量識別分類從而分析人群密度。這類方法在特定的環(huán)境中,紋理描述子的效果各不一樣,基于SVM表現(xiàn)出來的性能還是有所不足。

        近年來,深度學習框架在計算機視覺領域取得不錯的效果。LeCun等[11]早在1998年就提出了經(jīng)典的LeNet網(wǎng)絡。而現(xiàn)在卷積神經(jīng)網(wǎng)絡CNN(Convolution Neural Network)嘗試對原有CNN網(wǎng)絡架構進行了改善。Sermanet 等[14]引入了新的深度學習的方法通過學習和預測對象邊界來定位對象。并獲得了2013年ImageNet計算機視覺識別挑戰(zhàn)賽(ILSVRC2013)圖像定位冠軍。Zhang等[7]提出了一種基于卷積神經(jīng)網(wǎng)絡的不同場景下的人群計數(shù)的方法,該方法通過交替學習人群密度和人群數(shù)目方法來訓練人群CNN模型,從而實現(xiàn)人群計數(shù)。現(xiàn)在CNN已經(jīng)成功地應用在人臉檢測[15]、圖像分割[16]、語音檢測[17]等領域。大型圖像數(shù)據(jù)集如ImageNet和基于集群的大規(guī)模分布式深度學習的發(fā)展,使得CNN成為計算機視覺領域的最有效的工具。

        考慮到CNN在圖像特征表示上巨大優(yōu)勢,本文提出了一種在自然場景下基于深度卷積神經(jīng)網(wǎng)絡的人群密度估計的方法。該方法將分為圖像分塊預處理和設計深度卷積神經(jīng)網(wǎng)絡結構兩部分。其中第一部分是圖像分塊預處理。利用圖像中行人身高作為尺度基準制作透視圖,根據(jù)場景中實際的面積將圖像分成多個圖像子塊并進行標記,作為DCNN的訓練樣本。采用這種局部分析的方法不僅有效地克服了攝像機的透視效果,同時降低了對訓練樣本的依賴性,第二部分是設計一種適合人群密度估計的DCNN。通過多層卷積神經(jīng)網(wǎng)絡結構,深度提取圖像的高層特征,通過特征學習避免了復雜的特征設計過程。最后采用Softmax回歸模型對提取的圖像高層特征進行人群密度估計。將卷積神經(jīng)網(wǎng)絡和Softmax回歸模型結合起來分析、檢測動態(tài)場景下的人群密度,使該方法適應性較強,具有較好的泛化能力。

        1 深度卷積神經(jīng)網(wǎng)絡簡介

        DCNN是一種有監(jiān)督的深度學習模型,它一種是將卷積神經(jīng)網(wǎng)絡和深度學習網(wǎng)絡相結合而產(chǎn)生的新型卷積神經(jīng)網(wǎng)絡。CNN的核心思想是局部感受野、權值共享、時間或空間亞采樣。CNN主要由卷積層和全連接層組成,其中每個特征圖都由前一層的網(wǎng)絡輸出結果與當前層學習獲得卷積核進行卷積運算產(chǎn)生,而最后是全連接層,輸出層是一個Softmax分類器,最后一層全連接隱層的輸出值為所提取的輸入樣本的高層特征,通過外部標簽對網(wǎng)絡有監(jiān)督的學習,這樣保證了通過CNN所提取的特征具有較好的不變性。

        1.1 卷積層(Convolution Layer)

        卷積層中利用上一層網(wǎng)絡輸出的特征圖和當前卷積層學習獲得的卷積核進行卷積操作,對卷積操作后結果進行加權求和,然后經(jīng)過非線性函數(shù)處理從而得到這一層的特征圖。這樣每個神經(jīng)元可以提取到輸入圖像的多種結構特征,如方向、線段、端點、角點等,卷積操作計算如公式(1)所示:

        (1)

        設當前層包含M個特征圖,卷積操作之后的特征圖M大小如公式(2)計算所得:

        (2)

        式中,Mn和Mn-1表示當前層的特征圖和上一層的特征圖,Kn表示當前層的卷積核大小,Sn表示當前層的卷積核的步長,p表示對當前層添加的邊界大小。

        1.2 最大池化層(Max-pooling Layer)

        最大池化層中的采樣操作是對上一層的特征圖同一大小的子區(qū)域進行不重疊采集,選取其中的最大值作為輸出結果。通過降低特征圖的分辨率并抽樣選取較好的特征,使得訓練CNN模型具有更好的抗噪能力,同時降低了特征維度。最大池化層的一般形式如公式(3)所示:

        (3)

        式中,第i個輸出特征Oi中每個神經(jīng)元在一個s×s的不重合區(qū)域內(nèi)進行最大值采樣。最大池化層輸出特征的大小的方法如式(1)所示。

        2 基于DCNN的人群密度估計模型

        基于DCNN的人群密度估計方法主要分為模型訓練和樣本估計兩個過程,在模型訓練前需要對訓練樣本歸一化預處理。其中模型訓練通過有監(jiān)督的方法進行網(wǎng)絡學習。處理流程如圖1所示。

        圖1 處理流程圖

        2.1 圖像分塊

        人群密度估計模型主要是通過深度學習方式獲得能夠將人群圖像根據(jù)密度等級進行分類的關系F如公式(4)所示:

        F=X→D

        (4)

        式中,X表示從訓練樣本中提取的人群特征,D表示人群密度等級。本文從訓練圖像中選取一定數(shù)量的圖像子塊作為模型的訓練樣本,每個圖像子塊對應的人群密度等級作為訓練樣本的真實類別,其中每個模型訓練的輸入圖像子塊的人數(shù)同時通過人工標記出來。

        1) 計算透視關系圖

        由于攝像機存在透視效果,行人在圖像中具有不同的尺度,當行人靠近攝像機時目標更大,而遠離的攝像機的行人目標更小。離攝像機較遠的區(qū)域人群更加密集,相互遮擋更嚴重,這時只能通過行人肩膀和頭部判斷行人所在的位置,從而大大增加人群密度估計的難度。因此,透視歸一化是人群密度估計必須的關鍵步驟。

        根據(jù)Chen等[3]提出方法,在圖像坐標系中,行人身高會隨著圖像縱坐標減小而增加,所以攝像機的透視關系可以表示為圖像中行人身高和行人在圖像位置的函數(shù)。本文在實際場景中,根據(jù)與攝像機的距離,由近到遠隨機選取多個成年人,假設成年人的身高都是175cm,標記行人從頭到腳的長度。通過線性回歸方式獲取透視關系圖M如公式(5)所示:

        hi=ayi+b

        (5)

        式中,hi是圖像中標記的行人的身高,yi是圖像中行人的頭部的中心縱坐標,a、b則是圖像中行人身高與圖像縱坐標的關系參數(shù)。透視關系圖M(p)中的每個像素值表示在該位置實際場景中一米的長度在圖像中包含的像素的個數(shù),透視關系如圖2所示。

        圖2 透視關系圖

        2) 獲取圖像子塊

        在獲得透視圖和感興趣區(qū)域內(nèi)人頭的中心位置后,根據(jù)透視圖M(p)中每個像素點值,在感興趣區(qū)域內(nèi)將透視程度相似的區(qū)域依次分為幾個實際場景面積為3×3m2的圖像子塊,相鄰圖像子塊之間允許存在一定的重復區(qū)域,這樣可以盡可能地覆蓋全部感興趣區(qū)域。本文中通過透視歸一化將感興趣區(qū)域內(nèi)圖像分成多個透視程度相同圖像子塊,這樣可以消除由于攝像機透視帶來的影響,保證每個圖像子塊中行人的大小不存在明顯的差異,圖像分塊示意如圖3所示。

        圖3 圖像分塊示意圖

        將感興趣區(qū)域劃分為多個具有相同透視程度的圖像子塊后,本文采用人工的方式對每個圖像子塊的行人數(shù)目進行統(tǒng)計,當圖像子塊的行人只有部分身體在內(nèi)時,則本文通過計算其面積統(tǒng)計。根據(jù)圖像子塊中包含的人數(shù),將圖像子塊的人群密度劃分為5個等級,分表代表塊中的人群密度為很低(VL)、低(L)、中等(M)、高(H)、很高(VH),具體的分類標準如表1所示。

        表1 基于圖像塊的人群密度等級分類標準

        當確定感興趣區(qū)域內(nèi)每個圖像子塊的密度等級后,感興趣區(qū)域的總體密度等級計算如公式(6)所示:

        (6)

        式中,D(Xi)表示第i個圖像的人群密度等級,N表示圖像Xi感興趣區(qū)域內(nèi)的圖像塊個數(shù),j的表示圖像Xi感興趣區(qū)域內(nèi)第j個圖像塊,D(Xi;pj)表示圖像塊pj的人群密度等級,round()表示采用四舍五入取整。

        2.2 深度卷積神經(jīng)網(wǎng)絡的構建

        本文采用DCNN構建人群密度估計的深度學習網(wǎng)絡。根據(jù)人群密度估計的需要,利用DCNN建出的網(wǎng)絡結構如圖4所示。該模型以標記了圖像子塊作為訓練集,通過卷積層、池化層多次卷積、池化操作后自動提取圖像的中人群特征,然后將學習的特征通過全連接網(wǎng)絡輸入到Softmax分類器處理,輸入圖像子塊的密度等級。其中特征提取和密度分類通過網(wǎng)絡的自主學習實現(xiàn)。

        圖4 深度卷積神經(jīng)網(wǎng)絡結構示意圖

        本文構建的學習網(wǎng)絡共分為7層,其中包含1個輸入層,3個卷積層(Conv1、Conv2、Conv3)和3個全連接層(FC4、FC5、FC6),在第一卷積層(Conv1)和第二卷積層(Conv2)后加上最大池化層。最后一層輸出單元數(shù)目為類別的數(shù)目。由于本文中將人群密度分為5個等級,因此最后一層的輸出為5個單元,依次對應人群不同的密度很低、低、中等、高、很高。密度分類采用Softmax loss函數(shù)作為損失函數(shù)。每個卷積層和全連接層中選用線性校正單元(ReLU)作為激活函數(shù)。

        在訓練階段,所有的參數(shù)通過批量梯度下降BGD(Batch gradient descent)和反向傳播BP(Back Propagation)進行優(yōu)化。沖量(Momentum)設置為0.9,使用的Dropout概率為50%,權值衰減(Weight decay)設置為0.01,避免訓練過程過擬合。在測試階段,利用訓練好的人群密度估計模型對輸入的圖像子塊密度估計,然后得到的圖像子塊的密度通過式(6)計算出圖像中的人群密度。

        訓練樣本是從訓練集圖像中獲得圖像子塊,其中每個圖像子塊表示實際場景中面積為3×3m2的區(qū)域,由于每個圖像子塊的大小各不相同,因此在輸入網(wǎng)絡前所有圖像子塊大小歸一化為72×72后再輸入模型中。

        基于DCNN的人群密度估計方法如下:

        1) 網(wǎng)絡學習過程

        ① 對訓練集圖像進行卷積采樣操作深度學習特征。

        ② 利用BGD和BP學習DCNN網(wǎng)絡,不斷調(diào)整網(wǎng)絡參數(shù),使得損失函數(shù)最小。

        2) 樣本分類過程

        ① 對于測試樣本,通過DCNN網(wǎng)絡提取深度學習特征。

        ② 利用Softmax分類器對測試樣本進行分類。

        網(wǎng)絡各層的具體參數(shù)如表2所示。

        表2 網(wǎng)絡各層的具體參數(shù)

        3 實驗結果與分析

        3.1 數(shù)據(jù)庫

        由于人群密度估計沒有標準的數(shù)據(jù)集,針對本文提出的方法分別在三種數(shù)據(jù)集進行測試驗證,數(shù)據(jù)集包括:UCSD[3]、PETS_2009[9]以及北京聯(lián)合大學校園內(nèi)拍攝的一段視頻(BUU_Campus)。這三個數(shù)據(jù)集中的人群密度變化包含了各個等級,三個數(shù)據(jù)集詳細的描述如表3所示。表中,Nf表示幀數(shù),S表示視頻大小,F(xiàn)PS表示幀率,D表示每幀圖像感興趣區(qū)域內(nèi)人數(shù)的最大值和最小值。其中UCSD、PETS_2009都是來自其他文獻使用的數(shù)據(jù)集,BUU_Campus則是實際生活中拍攝的一段視頻。BUU_Campus視頻總共時間將近1h,由于本文中提出的方法是對視頻圖像進行分類,因此本文對BUU_Campus視頻每隔10秒進行抽樣,每兩幀之間沒有交集,對BUU_Campus視頻抽樣共得到1596張視頻圖像。對每幀圖像感興趣區(qū)域內(nèi)的行人進行人工統(tǒng)計,BUU_Campus中行人數(shù)目的變化范圍為17-73人。三個數(shù)據(jù)集中的不同人群密度的圖像如圖5所示。圖中第一行展示的是BUU_Campus的示例,第二行展示的是UCSD的示例,第三行展示的是PETS_2009的示例。

        表3 三個數(shù)據(jù)集的統(tǒng)計情況

        圖5 不同場景中的不同密度等級樣本

        根據(jù)本文中提出的圖像分塊方法,首先對圖像進行分塊,并將圖像子塊按照表1的標準根據(jù)圖像子塊中的行人數(shù)目分成5個等級。為了更好地進行實驗驗證,本文將圖像子塊分為2部分:選取60%的圖像子塊作為DCNN模型的訓練集,剩下40%的圖像子塊作為DCNN模型的測試集。由于圖像子塊都是相對獨立的,因此本文在劃分兩個集合時隨機從不同級別的人群密度中選取圖像子塊。不同場景訓練數(shù)據(jù)集情況如表4所示。

        3.2 實驗結果

        在實驗中,本文使用伯克利大學視覺與學習中心(BVLC)提供的開源深度學習架構Caffe訓練本文的DCNN模型。人群DCNN模型訓練完后在測試集上的準確率為95.02%,三個數(shù)據(jù)集中每一類人群密度的準確率如表5所示。從表5可知,三個不同的數(shù)據(jù)集中人群密度為中等時預測準確率最低,這是由于人群密度等級的相鄰類之間的差異較大,在圖像子塊中行人數(shù)目靠近類別邊界時,DCNN模型出現(xiàn)分類錯誤。

        根據(jù)本文中提出的圖像分塊方法,首先對圖像進行分塊,并將圖像子塊按照表1的標準根據(jù)圖像子塊中的行人數(shù)目分成5個等級。為了更好地進行實驗驗證,本文將圖像子塊分為2部分:選取60%的圖像子塊作為DCNN模型的訓練集,剩下40%的圖像子塊作為CNN模型的測試集。由于圖像子塊都是相對獨立的,因此本文在劃分兩個集合時隨機從不同級別的人群密度中選取圖像子塊。不同場景訓練數(shù)據(jù)集情況如表4所示。

        表4 實驗數(shù)據(jù)集

        3.2 實驗結果

        在實驗中,本文使用伯克利大學視覺與學習中心(BVLC)提供的開源深度學習架構Caffe訓練本文的DCNN模型。人群DCNN模型訓練完后在測試集上的準確率為95.02%,三個數(shù)據(jù)集中每一類人群密度的準確率如表5所示。

        表5 不同數(shù)據(jù)集的DCNN準確率

        從表5可知,三個不同的數(shù)據(jù)集中人群密度為中等時預測準確率最低,這是由于人群密度等級的相鄰類之間的差異較大,在圖像子塊中行人數(shù)目靠近類別邊界時,DCNN模型出現(xiàn)分類錯誤。

        在BUU_Campus數(shù)據(jù)集上的測試準確率明顯不如另外兩個數(shù)據(jù)集。經(jīng)分析認為主要存在有兩個方面的原因:(1)該場景下存在大量的陰影,環(huán)境相對比較復雜,DCNN學習特征時將陰影部分當成特征作為模型的輸入。(2)由于每個類別的訓練樣本不均勻,可能造成了訓練時過擬合從而影響了網(wǎng)絡的精確度。

        但總體而言,本文提出DCNN模型在3個不同的數(shù)據(jù)集中都擁有較高的準確率,特別是在UCSD數(shù)據(jù)集中表現(xiàn)更為突出。本文提出的方法不僅在各種不同的復雜自然場景下都擁有較高的準確率,特別是在UCSD數(shù)據(jù)集中表現(xiàn)更為突出。本文提出的方法不僅在各種不同的復雜自然場景下能適用,同時不需要去完成攝像機標定和背景去除工作,是一種準確率高魯棒性強的人群密度估計方法。

        為了對本文提出的方法進行驗證和分析,本文選取了3種代表性的方法進行比較,第一種是Hinton等[12]經(jīng)典深度卷積神經(jīng)網(wǎng)絡模型AlexNet,AlexNet包含5個卷積層和3個全連接層,采用ReLU作為激活函數(shù)。第二種是Li等[6]提出的基于自適應LBP的人群密度估計方法,該方法首先利用三維的海塞矩陣檢測輸入圖像的特征點,通過自適應的LBP計算圖像的紋理特征,然后利用SVM進行特征分類,從而實現(xiàn)人群密度估計。第三種方法是Kim等[13]采用計算運動區(qū)域和對比信息的方法估計人群密度,其中運動區(qū)域通過光流法計算,而對比信息基于GLDM的紋理統(tǒng)計,用提取的兩種人群特征去訓練BP神經(jīng)網(wǎng)絡,從而實現(xiàn)人群密度估計。

        為了更好地體現(xiàn)每種方法的性能,本文將各類方法在實際環(huán)境更為復雜的BUU_Campus數(shù)據(jù)集上進行了測試,圖6列出了各類方法在BUU_Campus數(shù)據(jù)集上的人群密度估計分類的準確率。

        從圖6可知,在BUU_Campus數(shù)據(jù)集上人群密度等級分類的準確率中,本文中提出的DCNN的方法在極低、低、高和極高的情況下明顯優(yōu)于其他方法。而BPNN的方法效果最差,LBP-SVM和AlexNet的方法效果差別不大。

        這主要是因為在BUU_Campus數(shù)據(jù)集中背景復雜,存在較多陰影?;贐PNN的方法由于基于光流法的運動區(qū)域在行人停止時失效,此時只能依靠紋理特征進行分類,而實驗環(huán)境過于復雜,表現(xiàn)不佳,而自適應LBP特征的方法同樣由于陰影干擾過于嚴重,LBP表現(xiàn)出的區(qū)分能力較弱。BNPP和LBP-SVM在特征區(qū)分能力上如CNN深度學習的特征強,且在低密度的情況下容易受到噪聲干擾,從而影響了分類器的性能。AlexNet由于網(wǎng)絡層數(shù)較多和卷積核較小,在人群密度較高時人群特征較豐富,使用較小的卷積核能夠學習到更多細節(jié)的變化,從而更加準確對人群密度進行判斷,而當人群密度較低時導致提取的特征大部分為空,導致信息丟失過快,獲得人群特征不足導致準確率降低。而本文中提出的DCNN方法針對單幀圖像分塊處理,所以可以很好地對靜態(tài)或運動圖像中人群進行估計,同時網(wǎng)絡層數(shù)減小有效地避免了信息丟失的問題,保證了較高準確率。

        圖6 實驗結果對比圖

        4 結 語

        本文提出了一種基于DCNN的方法來解決復雜自然場景中人群密度估計的問題。首先使用圖像中行人身高作為尺度基準將圖像分為多個子圖像塊,利用訓練好人群DCNN模型對輸入圖像估計圖像子塊的人群密度等級,所有圖像子塊的等級均值為該場景下的實際人群密度等級。

        通過實驗和理論分析,本文中提出的方法具有以下主要特點:(1)適用性強,不需要進行攝像機標定來計算圖像透視關系,同時省去背景去除的工作;(2)準確性高,特別是復雜充滿陰影的復雜場景下準確率相比其他方法表現(xiàn)得更好。

        雖然在復雜場景下的人群密度進行估計上取得了一些進展,但由于環(huán)境復雜性、光照的多變性和攝像機透視效果的影響,我們提出方法存在的問題與現(xiàn)有的其他算法一樣,在訓練場景和測試場景不同時,很難獲得較好的效果,而這將是下一步研究的重點。

        [1] Davies A C, Yin J H, Velastin S A. Crowd monitoring using image processing[J]. Electronics & Communication Engineering Journal, 1995, 7(1):37-47.

        [2] Marana A N, Velastin S A, Costa L F, et al. Automatic estima-tion of crowd density using texture[J]. Safety Science, 1998, 28(3):165-175.

        [3] Chan A B, Liang Z S J, Vasconcelos N. Privacy preserving crowd monitoring: Counting people without people models or tracking[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. DBLP, 2008:1-7.

        [4] Wu X, Liang G, Lee K K, et al. Crowd Density Estimation Using Texture Analysis and Learning[C]// IEEE International Conference on Robotics and Biomimetics, Robio 2006, Kunming, China, 17-20 December. 2006:214-219.

        [5] Li X, Shen L, Li H. Estimation of Crowd Density Based on Wavelet and Support Vector Machine[J]. Transactions of the Institute of Measurement & Control, 2006, 28(3):299-308.

        [6] Ma W, Huang L, Liu C. Advanced Local Binary Pattern Descriptors for Crowd Estimation.[C]// PACIIA 2008, Volume 2, 2008 IEEE Pacific-Asia Workshop on Computational Intelligence and Industrial Application, 19-20 December 2008, Wuhan, China. 2008:958-962.

        [7] Li Y, Zou T, Chen P. Estimation of Crowd Density Based on Adaptive LBP[J]. Advanced Materials Research, 2014(998/999):864-868.

        [8] Zhang C, Li H, Wang X, et al. Cross-scene crowd counting via deep convolutional neural networks[C]// IEEE Conference on Computer Vision & Pattern Recognition. IEEE, 2015:833-841.

        [9] Zhang A Z, Li M. Crowd density estimation based on statistical analysis of local intra-crowd motions for public area surveillance[J]. Optical Engineering, 2012, 51(4):7204.

        [10] Ferryman J, Shahrokni A. An overview of the PETS 2009 challenge[J]. IEEE, 2009.

        [11] Hussain N, Yatim H S M, Hussain N L, et al. CDES: A pixel-based crowd density estimation system for Masjid al-Haram[J]. Safety Science, 2011, 49(6):824-833.

        [12] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

        [13] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classi-fication with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2):2012.

        [14] Kim G, An T, Kim M. Estimation of crowd density in public areas based on neural network.[J]. Ksii Transactions on Internet & Information Systems, 2012, 6(9):2170-2190.

        [15] Sermanet P, Eigen D, Zhang X, et al. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks[J]. Eprint Arxiv, 2013.

        [16] Sun Y, Liang D, Wang X, et al. DeepID3: Face Recognition with Very Deep Neural Networks[J]. Computer Science, 2015.

        [17] Girshick, Ross, Donahue, Jeff, Darrell, Trevor, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. Computer Science, 2014:580-587.

        [18] Abdel-Hamid O, Mohamed A R, Jiang H, et al. Convolutional Neural Networks for Speech Recognition[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2014, 22(10):1533-1545.

        CROWD DENSITY ESTIMATION METHOD BASED ON DEEP CONVOLUTION NEURAL NETWORKS

        Tan Zhiyong1Yuan Jiazheng1,2Liu Hongzhe1Li Qing1

        1(BeijingKeyLaboratoryofInformationServiceEngineering,Beijing100101,China)2(BeijingHigh-techInnovationCentreofImagingTechnology,Beijing100048,China)

        Crowd density estimation is an important research topic in intelligent surveillance system, which is an effective way for crowd control and management. But the existing methods are hard to satisfy the demand of the practical applications, due to severe occlusions, scene perspective distortions and variable weather. In addition, most existing methods use general the hand-crafted features, which have low representation capability for crowd. To address these problems, a deep convolution neural networks (DCNN)-based method to estimate the crowd density in natural scenes is proposed. Firstly, we divide the crowed image into several image patches according to the criterion of the mean height of the adult pedestrian, which overcome the impact of perspective distortion on the pedestrian images Secondly, the deep convolution neural network has been designed. The DCNN is used to extract crowd features by different convolution kernels on the pedestrian image. The learned crowd features are employed to estimate crowd density. We test our approach on three different data sets, the experimental results demonstrate the effectiveness and robustness of the proposed method in the different scenes.

        Crowd Density Estimation Image Block Deep convolution neural network

        2016-08-30。國家自然科學基金項目(61271369,61502036,61571045);國家科技支撐項目(2014BAK08B,2015BAH55F03);北京市自然科學基金項目(4152018,4152016)。譚智勇,碩士生,主研領域:數(shù)字圖像處理,深度學習。袁家政,教授。劉宏哲,教授。李青,講師。

        TP391

        A

        10.3969/j.issn.1000-386x.2017.07.025

        猜你喜歡
        特征方法
        抓住特征巧觀察
        新型冠狀病毒及其流行病學特征認識
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        學習方法
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲精品久久7777777| 精品中文字幕手机在线| 中文字幕人妻久久一区二区三区| 午夜国产视频一区二区三区| 天天综合网在线观看视频| 国产一起色一起爱| 97久久综合区小说区图片区| 国产乱淫h侵犯在线观看| 97久久久久人妻精品区一| 久久久久亚洲精品天堂| 国产精品久久久久亚洲| 久久精品国产自产对白一区| 丰满少妇弄高潮了www| 国产成人无码精品午夜福利a| 国产精品18久久久久久首页| 亚洲一区二区蜜桃视频| 国产夫妇肉麻对白| 亚洲的天堂av无码| 日本一区二区不卡超清在线播放| 日本女优激情四射中文字幕 | 国产99页| 成年男女免费视频网站点播| 欧美性白人极品1819hd| 日韩人妻无码免费视频一区二区三区| 亚洲AV无码精品一区二区三区l| 亚洲av高清一区三区三区| 婷婷四虎东京热无码群交双飞视频 | 亚洲福利一区二区不卡| 亚洲国产亚综合在线区| 亚洲av无码国产剧情| 深夜福利国产| 久久热免费最新精品视频网站| 亚洲av无码成人网站在线观看 | 国产av无码专区亚洲av| 国产高清黄色在线观看91| 中国老熟女露脸老女人| 亚洲狠狠婷婷综合久久久久图片 | 久久久久亚洲AV无码专| 亚洲五码av在线观看| 韩国三级在线观看久| 区二区欧美性插b在线视频网站|