亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)方法

        2017-09-03 10:23:54閆勝業(yè)
        計(jì)算機(jī)應(yīng)用 2017年6期
        關(guān)鍵詞:集上行人卷積

        徐 超,閆勝業(yè),2

        (1.江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室(南京信息工程大學(xué)),南京 210044; 2.大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,南京 210044)

        改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)方法

        徐 超1,閆勝業(yè)1,2*

        (1.江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室(南京信息工程大學(xué)),南京 210044; 2.大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,南京 210044)

        (*通信作者電子郵箱shengye.yan@gmail.com)

        為了在行人檢測(cè)任務(wù)中使卷積神經(jīng)網(wǎng)絡(luò)(CNN)選擇出更優(yōu)模型并獲得定位更準(zhǔn)確的檢測(cè)框,提出一種改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法。改進(jìn)主要涉及兩個(gè)方面:如何決定CNN樣本迭代學(xué)習(xí)次數(shù)和如何進(jìn)行重合窗口的合并。首先,關(guān)于CNN樣本迭代次序問(wèn)題,在順序迭代訓(xùn)練多個(gè)CNN分類(lèi)模型的基礎(chǔ)上,提出一種基于校驗(yàn)集正確率及其在迭代系列分類(lèi)器中展現(xiàn)出的穩(wěn)定性進(jìn)行更優(yōu)模型選擇的策略,以使最終選擇的分類(lèi)器推廣能力更優(yōu)。其次,提出了一種不同于非極大值抑制(NMS)的多個(gè)精確定位回歸框合并機(jī)制。精確定位回歸框的獲取以CNN檢測(cè)過(guò)程輸出的粗定位框作為輸入。然后,對(duì)每個(gè)粗定位框應(yīng)用CNN精確定位過(guò)程并獲得對(duì)應(yīng)的精確定位回歸框。最后,對(duì)多個(gè)精確定位回歸框進(jìn)行合并,合并過(guò)程考慮了每個(gè)精確定位回歸框的正確概率。更精確地說(shuō),最終的合并窗口是基于多個(gè)相關(guān)的精確定位回歸框的概率加權(quán)求和方式獲得。針對(duì)提出的兩個(gè)改進(jìn),在國(guó)際上廣泛使用的行人檢測(cè)公共測(cè)試數(shù)據(jù)集ETH上進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提的兩個(gè)改進(jìn)方法均能有效地提高系統(tǒng)的檢測(cè)性能,在相同的測(cè)試條件下,融合兩個(gè)改進(jìn)的方法相比Fast R-CNN算法檢測(cè)性能提升了5.06個(gè)百分點(diǎn)。

        深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);圖像分類(lèi);行人檢測(cè)

        0 引言

        人是各類(lèi)社會(huì)活動(dòng)的中心,在各種現(xiàn)實(shí)場(chǎng)景中,人都是最為重要的關(guān)注對(duì)象,如行人過(guò)馬路、車(chē)站安檢等。人體目標(biāo)檢測(cè)作為一種特定物體檢測(cè),是車(chē)輛輔助駕駛、智能視頻監(jiān)控和人體行為分析等應(yīng)用的前提,也可以應(yīng)用在老年人監(jiān)護(hù)、受害者營(yíng)救等新興領(lǐng)域中。隨著硬件設(shè)備功能的不斷強(qiáng)大和相關(guān)算法的提出、改進(jìn),使得人體目標(biāo)檢測(cè)系統(tǒng)的性能也不斷提高[1-3]。因此人體目標(biāo)檢測(cè)具有非常重要的研究意義和價(jià)值,受到越來(lái)越多的研究人員關(guān)注。與此同時(shí),人體目標(biāo)檢測(cè)依然存在一些問(wèn)題。

        首先,相比于車(chē)輛等不易發(fā)生形變的物體,人體具有非剛性特點(diǎn)。人身體的各部位具有極高的自由度,當(dāng)人做出蹲下、跑步和跳舞等動(dòng)作時(shí),人體姿態(tài)會(huì)發(fā)生很大變化。其次,人穿著衣物顏色和款式的不同,如風(fēng)衣、裙子和帽子等都會(huì)對(duì)人體目標(biāo)外觀(guān)造成極大差異,也在不同程度上對(duì)人體造成了遮擋。最后,人體圖像是人體表面反射外界光線(xiàn)并經(jīng)過(guò)攝像設(shè)備光電轉(zhuǎn)換和量化后的結(jié)果,光照強(qiáng)度的不同使得圖像亮度存在變化,而光照方向的不同會(huì)導(dǎo)致圖像上出現(xiàn)陰影或拉絲,從而影響圖像質(zhì)量。這些問(wèn)題的存在使得人體目標(biāo)檢測(cè)成為計(jì)算機(jī)視覺(jué)的研究熱點(diǎn)與難點(diǎn)之一。前人對(duì)于這些問(wèn)題進(jìn)行了多方面的嘗試:在分類(lèi)器選擇方面,具有代表性的有支持向量機(jī)(Support Vector Machine, SVM)[4]、隨機(jī)森林(Random Forest, RF)[5]和瀑布式分類(lèi)器(Boosting)[6]等;在特征提取方面,提出了很多非常有意義的特征,包括Haar-like特征[7]、Edgelet特征[8]、Shapelet特征[9]、梯度直方圖(Histogram of Oriented Gradient, HOG)特征[10]、詞袋(Bag of Words, BoW)特征[11]、Integral Histograms特征[12]、Color Histograms特征[13]、Covariance Descriptors特征[14]等。這些特征從不同側(cè)面嘗試捕獲圖像的不同表示,為系統(tǒng)后續(xù)操作提供了更多地選擇。

        人體目標(biāo)檢測(cè)任務(wù)具有里程碑意義的工作是文獻(xiàn)[10]提出的HOG特征結(jié)合SVM算法,該算法在保證精度大幅度提升地同時(shí)極大地提高了檢測(cè)速度。文獻(xiàn)[15]提出利用積分通道特征(Integral Channel Feature, ICF)和瀑布式分類(lèi)器相結(jié)合的方法,使得行人檢測(cè)效果進(jìn)一步提升。文獻(xiàn)[16]提出基于可變形部件模型(Deformable Part Model, DPM)檢測(cè)算法,其主要思想是針對(duì)人體高自由度形變部件,建立一定形式的空間約束,根模型與部件模型共同作用來(lái)檢測(cè)人體目標(biāo),該算法在當(dāng)時(shí)取得了很好的性能。雖然上述傳統(tǒng)檢測(cè)方法在不同程度上對(duì)物體檢測(cè)方法進(jìn)行改進(jìn),但手工設(shè)計(jì)的特征對(duì)于復(fù)雜場(chǎng)景下目標(biāo)多樣性變化沒(méi)有很好的魯棒性,而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[17]最大的特點(diǎn)是可以通過(guò)大量數(shù)據(jù)自動(dòng)地學(xué)習(xí)出物體特征,將這種特征送入分類(lèi)器中可以獲得極好的分類(lèi)性能。卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展可以追溯到文獻(xiàn)[17]提出的反向傳播(Back Propagation, BP)算法,該算法有效地訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò),使得其成功運(yùn)用到手寫(xiě)數(shù)字識(shí)別問(wèn)題中。

        文獻(xiàn)[18]使用深度卷積神經(jīng)網(wǎng)絡(luò)算法在ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)[19]上取得了當(dāng)時(shí)最低的圖像分類(lèi)錯(cuò)誤率,導(dǎo)致計(jì)算機(jī)視覺(jué)領(lǐng)域引發(fā)了研究深度學(xué)習(xí)的熱潮。針對(duì)行人檢測(cè)任務(wù),文獻(xiàn)[20]提出利用行人屬性和場(chǎng)景屬性來(lái)聯(lián)合優(yōu)化行人檢測(cè)問(wèn)題,設(shè)計(jì)多任務(wù)深度模型協(xié)調(diào)各個(gè)任務(wù)并減小不同數(shù)據(jù)集之間的差異,有效地降低了誤檢率,使得分類(lèi)性能提高。文獻(xiàn)[21]提出深度部件算法,該算法使用大量行人部件檢測(cè)器,為深度學(xué)習(xí)處理遮擋行人的檢測(cè)提供了思路。但上述兩種算法并沒(méi)有訓(xùn)練模型對(duì)粗定位檢測(cè)框進(jìn)行回歸操作,所以檢測(cè)框定位存在不準(zhǔn)確情況。

        文獻(xiàn)[22]提出了區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region proposals with CNN, R-CNN)物體檢測(cè)框架,該框架使用CNN分別訓(xùn)練了檢測(cè)框分類(lèi)模型和回歸模型,在物體檢測(cè)庫(kù)Pascal VOC Challenge[23]上表現(xiàn)出色。R-CNN算法是將每一個(gè)候選區(qū)域圖像塊都送入網(wǎng)絡(luò)中進(jìn)行一次卷積操作,這導(dǎo)致R-CNN存在運(yùn)算量大、檢測(cè)速度慢等缺點(diǎn)。文獻(xiàn)[24]提出了空間金字塔池化網(wǎng)絡(luò)(Spatial Pyramid Pooling Net, SPP-Net)算法來(lái)對(duì)R-CNN進(jìn)行加速,該算法的優(yōu)點(diǎn)是只需提取一次整幅圖片的卷積層特征,再通過(guò)坐標(biāo)映射[24]就可以得到每個(gè)候選區(qū)域?qū)?yīng)的卷積特征。其缺點(diǎn)是特征提取CNN的訓(xùn)練和SVM分類(lèi)器的訓(xùn)練在時(shí)間上是先后順序,兩者訓(xùn)練方式獨(dú)立,因此網(wǎng)絡(luò)只能更新全連接層參數(shù)[24],這在一定程度上限制了深度CNN的潛力。文獻(xiàn)[25]提出的Fast R-CNN算法改進(jìn)了R-CNN和SPP-Net算法中的不足,該算法最大的特點(diǎn)是將分類(lèi)任務(wù)和坐標(biāo)回歸任務(wù)同時(shí)訓(xùn)練以更新整個(gè)網(wǎng)絡(luò)參數(shù),相比于R-CNN和SPP-Net提升了效率和精度。

        Fast R-CNN算法仍然存在缺點(diǎn):一方面隨著訓(xùn)練迭代次數(shù)不斷增加,會(huì)產(chǎn)生很多中間模型(每迭代訓(xùn)練1 000次保存一次模型),該算法選擇最后一次迭代產(chǎn)生的模型作為最終模型,而訓(xùn)練模型過(guò)程中樣本選擇是概率事件,最后一次迭代產(chǎn)生的模型不一定使得分類(lèi)性能最優(yōu);另一方面Fast R-CNN算法雖然進(jìn)行了粗定位檢測(cè)框坐標(biāo)回歸,但部分檢測(cè)框定位依然不準(zhǔn)確,影響檢測(cè)性能。

        針對(duì)上述問(wèn)題,本文提出投票Fast R-CNN算法。實(shí)驗(yàn)結(jié)果表明,本文提出的兩個(gè)改進(jìn)方法能夠有效地提高檢測(cè)性能,設(shè)置相同測(cè)試條件下,投票Fast R-CNN算法相比Fast R-CNN算法,檢測(cè)性能提升了5.06個(gè)百分點(diǎn)。

        1 投票Fast R-CNN行人檢測(cè)算法

        投票Fast R-CNN行人檢測(cè)算法改進(jìn)主要體現(xiàn)在兩個(gè)方面:第一,測(cè)試所有中間模型在驗(yàn)證集上的檢測(cè)性能,根據(jù)驗(yàn)證集測(cè)試結(jié)果的離散分布情況,挑選出最優(yōu)模型;第二,使用非極大值抑制(Non-Maximum Suppression, NMS)[22]操作之前的精確定位檢測(cè)框得分和位置信息,采用概率加權(quán)投票方式來(lái)確定最終檢測(cè)框位置,使檢測(cè)性能進(jìn)一步提升。

        1.1 候選區(qū)域提取

        基于特征的目標(biāo)推薦(Object Proposal)是一類(lèi)常用的目標(biāo)搜索策略,與窮舉搜索策略[10]不同之處在于窮舉搜索策略會(huì)為每類(lèi)物體分別設(shè)置滑動(dòng)窗口尺寸并考慮目標(biāo)尺度問(wèn)題,而基于特征的目標(biāo)推薦策略無(wú)需窮舉出圖像每個(gè)尺度位置上的目標(biāo)區(qū)域,且不考慮類(lèi)別問(wèn)題,比較適用于圖像中目標(biāo)類(lèi)別較多時(shí)的候選區(qū)域提取。該類(lèi)算法首先根據(jù)一些特征來(lái)生成圖像中的疑似目標(biāo)區(qū)域,其數(shù)量遠(yuǎn)少于窮舉搜索策略產(chǎn)生的候選框數(shù)量,極大地減輕了系統(tǒng)后續(xù)操作的計(jì)算量。基于特征的目標(biāo)推薦策略代表算法有selective-search[26]、Edge-Boxes[27]等,其中,selective-search算法使用相似區(qū)域聚合來(lái)提取候選框,而Edge-Boxes算法使用邊緣信息來(lái)提取候選框。本文算法在數(shù)據(jù)準(zhǔn)備階段需要提供圖片數(shù)據(jù)集的感興趣區(qū)域(疑似人體目標(biāo)區(qū)域),考慮到行人目標(biāo)利用邊緣信息提取候選框更加合理,所以本文使用 Edge-Boxes算法來(lái)提取圖片數(shù)據(jù)集中的感興趣區(qū)域候選框。

        1.2 感興趣區(qū)域池化層

        Fast R-CNN算法中感興趣區(qū)域池化層[25]實(shí)質(zhì)上是SPP-Net算法中空間金字塔池化層的簡(jiǎn)化版[24],即將所有感興趣區(qū)域卷積特征都池化到同一個(gè)尺度。感興趣區(qū)域池化層輸入的是表示整幅圖像特征的N個(gè)特征圖和數(shù)量為R的感興趣區(qū)域,其中R?N。整幅圖像特征圖由網(wǎng)絡(luò)最后一層卷積層提供(本文使用VGG16[28]網(wǎng)絡(luò)的conv5_3卷積層),使用使用多維矩陣H*W*C表示:H表示行數(shù),W表示列數(shù),C表示通道數(shù)。每一個(gè)感興趣區(qū)域用{k,r,c,h,w}表示,其中:k表示每個(gè)感興趣區(qū)域的索引,(r,c)、h和w分別表示感興趣區(qū)域的左上角坐標(biāo)、高和寬。由于每個(gè)感興趣區(qū)域大小不同,導(dǎo)致其卷積特征圖大小也不同,而全連接層要求輸入維度不變,所以對(duì)于不同大小的感興趣區(qū)域特征圖,其池化操作塊大小是變化的[25]。具體計(jì)算式如式(1)所示:

        (1)

        其中:i∈N+;si表示池化操作塊大??;hi和wi表示感興趣區(qū)域特征圖的行和列;H′和W′表示感興趣區(qū)域池化層的固定輸出大小(VGG16網(wǎng)絡(luò)中為7×7),最終感興趣區(qū)域池化層輸出多維矩陣H′*W′*C。

        1.3 網(wǎng)絡(luò)損失函數(shù)

        圖1 網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        網(wǎng)絡(luò)總損失L為分類(lèi)任務(wù)損失和坐標(biāo)回歸任務(wù)損失之和,計(jì)算式如式(2)所示:

        L(p,k,t,t*)=Lcls(p,k)+λ[k≥1]Lloc(t,t*)

        (2)

        其中:k表示類(lèi)別標(biāo)簽,k≥1表示只對(duì)人體正樣本進(jìn)行坐標(biāo)回歸;Lcls(p,k)表示標(biāo)準(zhǔn)交叉熵?fù)p失。Lcls(p,k)計(jì)算式如式(3)所示:

        Lcls(p,k)=-ln(pk)

        (3)

        (4)

        其中:Pi={Px,Py,Pw,Ph}表示需要回歸的正樣本中心點(diǎn)位置、寬和高;Gi={Gx,Gy,Gw,Gh}表示真實(shí)標(biāo)注框中心點(diǎn)位置、寬和高。計(jì)算出t和t*后,回歸模型的代價(jià)損失函數(shù)計(jì)算式如式(5)所示:

        (5)

        其中smoothL1計(jì)算式如式(6)所示:

        (6)

        投票Fast R-CNN算法中網(wǎng)絡(luò)損失函數(shù)引入?yún)?shù)λ的目的是為了控制兩個(gè)子任務(wù)之間的平衡。本文所有實(shí)驗(yàn)中設(shè)置λ=1,表示分類(lèi)任務(wù)和檢測(cè)任務(wù)同等重要。

        1.4CNN樣本迭代學(xué)習(xí)次序

        FastR-CNN這類(lèi)物體檢測(cè)算法[22,24-25]在測(cè)試階段使用最后一次迭代產(chǎn)生的模型作為最終模型,但卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中樣本選擇存在隨機(jī)性,隨著迭代次數(shù)不斷增加,最后一次產(chǎn)生的模型效果往往不是最優(yōu)?;诖丝紤],本文將迭代產(chǎn)生的40個(gè)模型分別在訓(xùn)練集和驗(yàn)證集上測(cè)試模型性能,其性能評(píng)價(jià)標(biāo)準(zhǔn)和測(cè)試集評(píng)價(jià)標(biāo)準(zhǔn)一致[29]。隨著迭代次數(shù)不斷增加,模型在訓(xùn)練集上檢測(cè)性能越來(lái)越優(yōu),而驗(yàn)證集上中間迭代次數(shù)產(chǎn)生的模型檢測(cè)性能最優(yōu),這對(duì)最后一次迭代產(chǎn)生的模型效果不是最優(yōu)的假設(shè)提供了支持。

        考慮CNN樣本迭代次序?qū)z測(cè)性能的影響情況,假設(shè)每個(gè)中間模型為最優(yōu)模型的可能性使用置信值β來(lái)表示,其中β∈[0,1],那么通過(guò)最小值方法取對(duì)應(yīng)模型作為最優(yōu)模型的做法可能并不充分。本文針對(duì)多個(gè)CNN模型在驗(yàn)證集上的檢測(cè)性能結(jié)果,提出取離散數(shù)據(jù)中最平滑點(diǎn)對(duì)應(yīng)模型為最優(yōu)模型的方法,使得其在測(cè)試集上檢測(cè)性能更優(yōu)。對(duì)離散數(shù)據(jù)取平滑的方法有多種,其中常用的一種是均值平滑法[30],該方法具有計(jì)算簡(jiǎn)單、平滑效果明顯等優(yōu)點(diǎn),其計(jì)算式如式(7)所示:

        (7)

        考慮到迭代模型在驗(yàn)證集上所展現(xiàn)的檢測(cè)性能結(jié)果極可能是呈曲線(xiàn)形式的,中間往后的數(shù)據(jù)平滑穩(wěn)定可能性較大,而均值平滑處理方法并沒(méi)有使用權(quán)重信息,所以本文提出使用傅里葉變換中測(cè)不準(zhǔn)原理[31]關(guān)于分辨率的定義,來(lái)平滑處理中間模型在驗(yàn)證集上的檢測(cè)性能數(shù)據(jù),其中關(guān)于分辨率的計(jì)算式如式(8)所示:

        (8)

        其中:s(r)表示檢測(cè)性能,r表示迭代次數(shù),迭代次數(shù)和檢測(cè)性能成對(duì)應(yīng)關(guān)系。選擇最優(yōu)模型具體做法是將測(cè)不準(zhǔn)原理分辨率計(jì)算公式中的積分變成離散加和,找出Δr2的最小值即分辨率最低點(diǎn),就得到離散數(shù)據(jù)最平滑穩(wěn)定點(diǎn)和對(duì)應(yīng)迭代次數(shù)模型,此模型作為最終檢測(cè)模型。

        1.5 概率加權(quán)投票合重框

        FastR-CNN算法中雖然訓(xùn)練了模型對(duì)粗定位檢測(cè)框坐標(biāo)進(jìn)行回歸,但最終檢測(cè)結(jié)果依然會(huì)出現(xiàn)類(lèi)似于圖3中定位不準(zhǔn)確的虛線(xiàn)檢測(cè)框?;诖硕ㄎ徊粶?zhǔn)確情況,本文提出了使用精確定位檢測(cè)框概率加權(quán)投票算法,進(jìn)一步精確檢測(cè)框位置,從而滿(mǎn)足大部分行人檢測(cè)算法采用的評(píng)估標(biāo)準(zhǔn),即檢測(cè)框和真實(shí)標(biāo)注框重合度至少50%的條件[29]。整體檢測(cè)框投票算法流程如圖2所示。

        圖2 合重框算法流程

        首先將測(cè)試圖片送入到本文使用的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行檢測(cè),使用標(biāo)準(zhǔn)NMS[22]之后得到的檢測(cè)框集合標(biāo)記為Y={(Si,Bi)},其中:i∈N+,Si表示檢測(cè)框決策得分,Bi表示檢測(cè)框左上角坐標(biāo)、寬和高。使用類(lèi)似的定義表示需要進(jìn)行投票的檢測(cè)框集合y={(Sj,Bj)},其中:Bj∈N(Bi),N(Bi)表示NMS后被抑制掉的檢測(cè)框中與Bi重合度達(dá)到50% 以上的檢測(cè)框集合。檢測(cè)框投票的主要思想是根據(jù)Bj得到最終檢測(cè)框的坐標(biāo)位置,其投票權(quán)重為Sj,權(quán)重計(jì)算式如式(9)所示:

        wj=max(0,Sj)

        (9)

        概率加權(quán)投票后,最終檢測(cè)框位置計(jì)算式如式(10)所示:

        (10)

        最終檢測(cè)框集合記為Y′={(Si,Bi′)},檢測(cè)框投票算法示意圖如圖3所示。圖3(a)中的檢測(cè)框都是進(jìn)行了坐標(biāo)回歸的精確定位檢測(cè)框,其中實(shí)線(xiàn)框表示被抑制掉的檢測(cè)框,虛線(xiàn)框表示NMS之后保留的檢測(cè)框,即不使用概率加權(quán)投票方法的最終結(jié)果檢測(cè)框。相比于圖3(b)實(shí)線(xiàn)的真實(shí)標(biāo)注框,顯然圖3(a)虛線(xiàn)的檢測(cè)框定位不夠準(zhǔn)確。利用圖3(a)實(shí)線(xiàn)的精確定位框,使用概率加權(quán)投票合重框算法后,得到最終檢測(cè)框如圖3(b)虛線(xiàn)框所示,可見(jiàn)該檢測(cè)框達(dá)到評(píng)估為正確檢測(cè)框的要求[29]。

        圖3 檢測(cè)框投票示意圖

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)集

        2.1.1 訓(xùn)練數(shù)據(jù)集

        實(shí)驗(yàn)使用多個(gè)數(shù)據(jù)集圖片來(lái)組成訓(xùn)練集,其中包括INRIA行人數(shù)據(jù)庫(kù)[10]提供的訓(xùn)練集(共614張圖片)、TUD-MotionPairs行人數(shù)據(jù)庫(kù)[32]中的訓(xùn)練集(共1 092張圖片,將未標(biāo)注完全的圖片進(jìn)行了手工標(biāo)注,增加了2 864個(gè)行人目標(biāo))和一些手工標(biāo)注了的互聯(lián)網(wǎng)圖片。整個(gè)訓(xùn)練集共有2 981張圖片,圖片包含9 679個(gè)人體目標(biāo)。驗(yàn)證集由訓(xùn)練集中隨機(jī)取出的600張圖片組成,包含1 232個(gè)人體目標(biāo)。輸入卷積神經(jīng)網(wǎng)絡(luò)的圖片和訓(xùn)練樣本示例如圖4所示,其中人體正樣本(圖中實(shí)線(xiàn)框)要求與真實(shí)標(biāo)注框(圖中較小實(shí)線(xiàn)框)重合度至少50%以上,負(fù)樣本(圖中虛線(xiàn)框)要求與真實(shí)標(biāo)注框重合度在0.1到0.5之間,按照FastR-CNN算法中的實(shí)驗(yàn)設(shè)置,每張圖片隨機(jī)選取64個(gè)感興趣區(qū)域(16個(gè)正樣本,48個(gè)負(fù)樣本)送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練[25]。在訓(xùn)練集準(zhǔn)備過(guò)程中,采用了水平翻轉(zhuǎn)的方式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充[18]。

        圖4 訓(xùn)練樣本示意圖

        2.1.2 測(cè)試數(shù)據(jù)集

        為了評(píng)估本文提出算法的性能,測(cè)試集選擇國(guó)際上廣泛使用且非常具有挑戰(zhàn)的行人檢測(cè)公共測(cè)試數(shù)據(jù)集ETH[33],ETH數(shù)據(jù)集采用一對(duì)車(chē)載的AVTMarlinsF033C攝像頭進(jìn)行拍攝。由于拍攝場(chǎng)景是行人眾多的街道,所以圖像背景信息較為復(fù)雜。整個(gè)測(cè)試集含有3個(gè)視頻序列,分別在正常光照(999張)、陰天(446張)、強(qiáng)光(354張)3種光照條件下進(jìn)行拍攝,其中每張圖片分辨率為640×480,幀率13~14frame/s,給出標(biāo)定信息和行人標(biāo)注信息。

        2.2 實(shí)驗(yàn)設(shè)置

        考慮到使用FastR-CNN給定的原始參數(shù)[25]不會(huì)對(duì)本文提出的算法造成影響,所以在設(shè)置實(shí)驗(yàn)相關(guān)參數(shù)時(shí),按照FastR-CNN的設(shè)置將所有網(wǎng)絡(luò)層的權(quán)重學(xué)習(xí)率設(shè)置為1,偏差學(xué)習(xí)率設(shè)置為2,全連接層參數(shù)使用標(biāo)準(zhǔn)偏差在0.001到0.01之間的零均值高斯分布初始化。對(duì)于訓(xùn)練數(shù)據(jù)集,考慮到VGG16網(wǎng)絡(luò)結(jié)構(gòu)深度[28]會(huì)導(dǎo)致訓(xùn)練時(shí)間很長(zhǎng),本文設(shè)置訓(xùn)練迭代總次數(shù)為40 000次,其中前30 000次迭代使用的全局學(xué)習(xí)率為0.001,后10 000次迭代使用的全局學(xué)習(xí)率為0.000 1,沖量設(shè)置為0.9,權(quán)重衰減因子設(shè)置為0.000 5。

        2.3 性能評(píng)價(jià)指標(biāo)

        目前大部分行人檢測(cè)算法[20-22,24]使用進(jìn)行修改后的Pascal目標(biāo)檢測(cè)競(jìng)賽[23]評(píng)估標(biāo)準(zhǔn)。圖片送入卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)后,輸出結(jié)果包含最終檢測(cè)框的左上角坐標(biāo)、寬、高和決策得分。如果檢測(cè)框與真實(shí)標(biāo)注框重合面積大于某個(gè)閾值,則認(rèn)為該檢測(cè)框與真實(shí)標(biāo)注框相匹配。實(shí)驗(yàn)中使用重合面積必須大于50%的標(biāo)準(zhǔn)[29],重合面積計(jì)算公式如式(11)所示:

        (11)

        其中:BBdt表示最終檢測(cè)框;BBgt表示真實(shí)標(biāo)注框。若多個(gè)BBdt與BBgt匹配,則決策得分高的檢測(cè)框?qū)⒈贿x擇,而沒(méi)有被匹配的BBdt記為誤檢,未被匹配的BBgt記為漏檢。

        實(shí)驗(yàn)中使用的檢測(cè)性能評(píng)價(jià)數(shù)據(jù)是漏檢比例(MissingRate)和平均每幅圖像誤檢率(FalsePositivePerImage,FPPI)[29],其中漏檢率MR計(jì)算式如式(12)所示:

        MR=1-TP/Npos

        (12)

        平均每幅圖像誤檢率FPPI計(jì)算式如式(13)所示:

        FPPI=FP/Nimg

        (13)

        其中:TP表示準(zhǔn)確檢測(cè)的正例;Npos表示正例總數(shù);FP表示誤檢總數(shù);Nimg表示測(cè)試圖片總數(shù)。MR和FPPI構(gòu)成檢測(cè)性能的受試者工作特征(Receiver Operating Characteristic, ROC)曲線(xiàn),改變決策得分閾值可以得到不同的ROC曲線(xiàn),當(dāng)增大決策得分閾值后,可以排除更多的誤檢,同時(shí)漏檢率也會(huì)增加,而當(dāng)減小決策得分閾值時(shí),可以降低漏檢率,相應(yīng)地,誤檢也會(huì)增多,由此可見(jiàn)MR和FPPI呈負(fù)相關(guān)。大部分物體檢測(cè)算法性能都使用FPPI數(shù)值分別在{0.010 0,0.017 8,0.031 6,0.056 2,0.100 0,0.177 8,0.316 2,0.562 3,1.000 0}時(shí)對(duì)應(yīng)漏檢率數(shù)值求平均定義,即平均漏檢率(AverageMissRate)[29],所以本文所說(shuō)的檢測(cè)性能也采用這種方式表示。FPPI數(shù)值為0.1表示在10張圖存在1個(gè)誤檢的情況,如果對(duì)應(yīng)的漏檢率越低則表示算法性能越好,由此可見(jiàn),平均漏檢率也是越低檢測(cè)性能越好。

        2.4 實(shí)驗(yàn)分析

        為了測(cè)試投票FastR-CNN行人檢測(cè)算法性能,本文分別進(jìn)行了3個(gè)方面的實(shí)驗(yàn):樣本迭代學(xué)習(xí)次序?qū)嶒?yàn)、重框處理機(jī)制對(duì)比實(shí)驗(yàn)和正確檢測(cè)率及檢測(cè)時(shí)間對(duì)比實(shí)驗(yàn)。

        2.4.1 樣本迭代學(xué)習(xí)次序?qū)嶒?yàn)

        通常FastR-CNN算法挑選最后一次迭代產(chǎn)生的模型作為最終模型,實(shí)驗(yàn)得到第40 000次迭代模型在ETH測(cè)試集上的平均漏檢率數(shù)值為45.07%。進(jìn)行多組實(shí)驗(yàn)后觀(guān)察到,迭代過(guò)程中產(chǎn)生的其他中間模型檢測(cè)效果也很好?;诖丝紤],為了選擇性能最優(yōu)的模型,實(shí)驗(yàn)首先固定決策得分閾值為0.8,NMS閾值為0.3,然后將得到的40個(gè)模型依次在訓(xùn)練集和驗(yàn)證集上進(jìn)行測(cè)試。檢測(cè)性能和迭代次數(shù)關(guān)系如圖5所示。

        圖5 檢測(cè)性能和迭代次數(shù)關(guān)系

        隨著迭代次數(shù)的增加,模型在訓(xùn)練集上檢測(cè)性能越來(lái)越優(yōu),如圖5中實(shí)折線(xiàn)所示。在設(shè)置相同參數(shù)和實(shí)驗(yàn)步驟情況下,模型在驗(yàn)證集上的檢測(cè)性能,如圖5中虛折線(xiàn)所示。

        由于訓(xùn)練過(guò)程是概率事件,具有隨機(jī)性,通過(guò)在驗(yàn)證集離散數(shù)據(jù)上使用最小值法選擇模型不一定最優(yōu)。本文選擇性能圖最平滑點(diǎn)對(duì)應(yīng)的迭代模型作為最終檢測(cè)模型??紤]到迭代模型在驗(yàn)證集上性能極可能是呈曲線(xiàn)形式,中間往后的數(shù)據(jù)平滑穩(wěn)定的可能性較大,所以本文使用傅里葉變換中測(cè)不準(zhǔn)原理[31]計(jì)算分辨率的方法來(lái)找離散結(jié)果最平滑點(diǎn)。通常情況下,這樣取得的點(diǎn)對(duì)應(yīng)的模型效果會(huì)更優(yōu)。實(shí)驗(yàn)結(jié)果表明,第27 000次迭代對(duì)應(yīng)的點(diǎn)在驗(yàn)證集上為最小值點(diǎn),而經(jīng)過(guò)計(jì)算后得到第31 000次迭代對(duì)應(yīng)的點(diǎn)為最平滑點(diǎn)。

        本文分別將這兩個(gè)模型在ETH測(cè)試集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如圖6所示。由圖6可以看出,第31 000次迭代模型的平均漏檢率數(shù)值為41.63%,而第27 000次迭代模型的平均漏檢率數(shù)值為43.58%,表明第31 000次迭代模型在ETH測(cè)試集上的檢測(cè)性能優(yōu)于第27 000次迭代模型,即使用計(jì)算分辨率方法得到的模型使得分類(lèi)性能更優(yōu),對(duì)本文所提出的假設(shè)進(jìn)行了驗(yàn)證。所以本文采用計(jì)算中間模型在驗(yàn)證集上檢測(cè)性能最平滑點(diǎn)方法找到最終模型,即選取第31 000次迭代產(chǎn)生的模型。

        圖6 測(cè)試集檢測(cè)性能對(duì)比

        2.4.2 重框處理機(jī)制對(duì)比實(shí)驗(yàn)

        大部分目標(biāo)檢測(cè)算法在后處理過(guò)程中,采用標(biāo)準(zhǔn)策略的NMS[22]算法消除多余的檢測(cè)框,其特點(diǎn)是簡(jiǎn)單高效。如果NMS閾值設(shè)置太高,檢測(cè)結(jié)果中會(huì)保留很多誤檢框;而閾值設(shè)置得太低,則導(dǎo)致靠近的目標(biāo)中決策得分低的檢測(cè)框被決策得分高的檢測(cè)框所抑制;以上兩種情況都會(huì)影響檢測(cè)性能。

        本次實(shí)驗(yàn)使用第31 000次迭代模型,固定決策得分閾值為0.8,設(shè)置NMS閾值從0.3~0.6間隔0.05取值,測(cè)試NMS閾值對(duì)檢測(cè)性能的影響。由圖7結(jié)果可知,當(dāng)增大NMS閾值時(shí),誤檢框保留太多會(huì)導(dǎo)致性能下降比較明顯。FastR-CNN算法在ETH測(cè)試集上使用標(biāo)準(zhǔn)NMS的檢測(cè)性能如圖7中折線(xiàn)所示。為了將本文提出的加權(quán)投票合重框方法和FastR-CNN提出的標(biāo)準(zhǔn)NMS方法進(jìn)行性能對(duì)比,選擇FastR-CNN取得較優(yōu)檢測(cè)性能時(shí)的NMS閾值(0.35)作為加權(quán)投票合重框方法的NMS參數(shù),其檢測(cè)性能在圖7中使用方塊表示。由圖7可知,相比于FastR-CNN算法提出的標(biāo)準(zhǔn)NMS處理精確定位框方法,本文提出的概率加權(quán)投票合重框機(jī)制使得最終檢測(cè)框定位更加準(zhǔn)確,在ETH測(cè)試數(shù)據(jù)集上取得了更優(yōu)的檢測(cè)性能,平均漏檢率數(shù)值降低了1.62個(gè)百分點(diǎn)。

        圖7 重框處理機(jī)制對(duì)比

        分析圖7實(shí)驗(yàn)結(jié)果可知,F(xiàn)astR-CNN只是保留了在一定重合條件下決策得分最高的檢測(cè)框,然而針對(duì)最高決策得分對(duì)應(yīng)的檢測(cè)框本身定位不準(zhǔn)確的情況,F(xiàn)astR-CNN沒(méi)有進(jìn)行處理。而本文提出的基于概率加權(quán)投票合重框方法,本質(zhì)上與NMS不同,在得到?jīng)Q策得分最高的檢測(cè)框后,利用NMS之前的那些精確定位檢測(cè)框?qū)Q策得分最高的檢測(cè)框進(jìn)行位置再精確,使得那些原來(lái)檢測(cè)為行人卻由于不符合評(píng)估標(biāo)準(zhǔn)而被記為誤檢的檢測(cè)框,重新記為正確檢測(cè)框。這樣在降低了誤檢率的同時(shí)也提高了正檢率,從而使得檢測(cè)性能提升。

        2.4.3 檢測(cè)正確率及檢測(cè)時(shí)間對(duì)比實(shí)驗(yàn)

        將投票FastR-CNN算法與HOG+SVM[10]、局部相關(guān)通道特征(LocallyDecorrelatedChannelFeature,LDCF)[34]、Roerei[35]、FastR-CNN[25]、可切換深度網(wǎng)絡(luò)(SwitchableDeepNetwork,SDN)[36]和SpatialPooling[37]這幾種行人檢測(cè)算法從正確檢測(cè)率角度進(jìn)行了對(duì)比,正確檢測(cè)率定義為各算法在ETH上得到的結(jié)果檢測(cè)框中與真實(shí)標(biāo)注框重合度大于50%的檢測(cè)框(正檢)個(gè)數(shù)和結(jié)果檢測(cè)框總數(shù)的比值,該比值表示了模型找到正樣本的可靠性。在選取平均每幅圖像誤檢個(gè)數(shù)都為0.1的情況下,各行人檢測(cè)算法的正確檢測(cè)率如表1所示。

        表1 不同算法在ETH數(shù)據(jù)集的正確檢測(cè)率對(duì)比

        從表1中可知,本文提出的投票FastR-CNN行人檢測(cè)算法具有較高的正確檢測(cè)率。

        本文對(duì)投票FastR-CNN算法的檢測(cè)時(shí)間也進(jìn)行了評(píng)估,實(shí)驗(yàn)選用幾種比較受關(guān)注的且檢測(cè)精度較高的行人檢測(cè)算法來(lái)對(duì)比檢測(cè)時(shí)間,由于有些算法是使用中央處理器(CentralProcessingUnit,CPU)實(shí)現(xiàn)的,而有些算法是使用圖形處理器(GraphicProcessingUnit,GPU)實(shí)現(xiàn)的,不太好直接比較其計(jì)算復(fù)雜度,所以本文實(shí)驗(yàn)不區(qū)分各算法的硬件環(huán)境。其中,HOG+SVM[10]、LDCF[34]、Roerei[35]和SpatialPooling[37]這幾種算法的檢測(cè)時(shí)間是在CPU環(huán)境下測(cè)得的,而FastR-CNN[25]、SDN[36]和本文算法的檢測(cè)時(shí)間是在GPU環(huán)境下測(cè)得的。檢測(cè)時(shí)間為檢測(cè)一張640×480大小的圖片所需的時(shí)間,單位為s。不同算法在ETH行人數(shù)據(jù)集上的檢測(cè)性能平均漏檢率和時(shí)間比較如表2所示。

        由表2中可以看出,相比于其他幾種行人檢測(cè)算法,本文提出的投票FastR-CNN算法檢測(cè)性能較優(yōu),同時(shí)檢測(cè)速度也較快。

        表2 不同行人檢測(cè)算法檢測(cè)時(shí)間對(duì)比

        2.5 實(shí)驗(yàn)結(jié)果

        根據(jù)上述實(shí)驗(yàn)分析,最終設(shè)置決策得分閾值為0.8,NMS閾值為0.35,并選擇第31 000次迭代產(chǎn)生的模型作為檢測(cè)模型。FastR-CNN算法和本文投票FastR-CNN算法的檢測(cè)性能比較如圖8所示,本文算法迭代訓(xùn)練多個(gè)CNN模型,并選擇最優(yōu)模型的方法使得分類(lèi)性能更優(yōu),而通過(guò)加權(quán)投票合重框方法使得最終檢測(cè)框定位更準(zhǔn)確,結(jié)合這兩種改進(jìn)方法相比較于FastR-CNN算法,在ETH測(cè)試集上檢測(cè)性能提升了5.06個(gè)百分點(diǎn)。

        圖8 本文算法與Fast R-CNN算法檢測(cè)性能對(duì)比

        為了更進(jìn)一步比較檢測(cè)性能,將本文算法與其他幾種受關(guān)注的且精度較高的行人檢測(cè)算法進(jìn)行了檢測(cè)性能比較,實(shí)驗(yàn)結(jié)果對(duì)比如圖9所示。在相同測(cè)試數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)下,本文算法取得較好的檢測(cè)性能。

        圖9 不同行人檢測(cè)算法性能對(duì)比

        圖10顯示了本文算法在ETH行人測(cè)試數(shù)據(jù)集上進(jìn)行檢測(cè)的部分效果,從圖10中可以看出投票FastR-CNN算法取得了很好的檢測(cè)效果。

        圖10 本文算法行人檢測(cè)結(jié)果

        3 結(jié)語(yǔ)

        本文提出了一種卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法。為了選擇出更優(yōu)模型使得檢測(cè)性能提升,在順序迭代訓(xùn)練多個(gè)CNN分類(lèi)模型的基礎(chǔ)上,提出根據(jù)校驗(yàn)集正確率及其分類(lèi)器展現(xiàn)出的穩(wěn)定性進(jìn)行更優(yōu)模型選擇的策略,使最終分類(lèi)器推廣能力更優(yōu)。為了獲得定位更準(zhǔn)確的檢測(cè)框,提出一種新的重框處理機(jī)制,機(jī)制中對(duì)候選區(qū)域精確定位框進(jìn)行概率加權(quán)合并。實(shí)驗(yàn)結(jié)果表明,相同測(cè)試條件下,融合兩個(gè)改進(jìn)方法相比FastR-CNN算法性能提升了5.06個(gè)百分點(diǎn),在國(guó)際上廣泛使用的行人檢測(cè)公共測(cè)試數(shù)據(jù)集ETH上取得了40.01%的結(jié)果。但是本文針對(duì)離散數(shù)據(jù)平滑處理的方法和精確定位重框處理機(jī)制的初步探索,仍然存在一些不足,如何使結(jié)果檢測(cè)框定位更準(zhǔn)、效率更高將是下一步工作的研究方向。

        )

        [1]CAIZ,SABERIANM,VASCONCELOSN.Learningcomplexity-awarecascadesfordeeppedestriandetection[C]//Proceedingsofthe2015IEEEInternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2015: 3361-3369.

        [2]ORENM,PAPAGEORGIOUC,SINHAP,etal.Pedestriandetectionusingwavelettemplates[C]//Proceedingsofthe1997IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 1997: 193-199.

        [3]HOSANGJ,BENENSONR,DOLLARP,etal.Whatmakesforeffectivedetectionproposals[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2016, 38(4): 814-830.

        [4]MAJIS,BERGAC,MALIKJ.Classificationusingintersectionkernelsupportvectormachinesisefficient[C]//CVPR2008:Proceedingsofthe2008IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2008: 1-8.

        [5]BREIMANL.Randomforests[J].Machinelearning, 2001, 45(1): 5-32.

        [6]FREUNDY,SCHAPIRERE.Adecision-theoreticgeneralizationofon-linelearningandanapplicationtoboosting[C]//EuroCOLT’95:Proceedingsofthe1995SecondEuropeanConferenceonComputationalLearningTheory,LNCS904.Berlin:Springer, 1995: 23-37.

        [7]ZHANGS,BAUCKHAGEC,CREMERSAB.InformedHaar-likefeaturesimprovepedestriandetection[C]//Proceedingsofthe2014IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2014: 947-954.

        [8]WUB,NEVATIAR.Detectionofmultiple,partiallyoccludedhumansinasingleimagebybayesiancombinationofedgeletpartdetectors[C]//ICCV’05:Proceedingsofthe2005TenthIEEEInternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2005: 90-97.

        [9]SABZMEYDANIP,MORIG.Detectingpedestriansbylearningshapeletfeatures[C]//Proceedingsofthe2007IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2007: 1-8.

        [10]DALALN,TRIGGSB.Histogramsoforientedgradientsforhumandetection[C]//CVPR’05:Proceedingsofthe2005IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2005: 886-893.

        [11]LAMPERTCH,BLASCHKOMB,HOFMANNT.Beyondslidingwindows:objectlocalizationbyefficientsubwindowsearch[C]//CVPR’08:Proceedingsof2008IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2008: 1-8.

        [12]PORIKLIF.Integralhistogram:afastwaytoextracthistogramsincartesianspaces[C]//CVPR’05:Proceedingsof2005IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2005: 829-836.

        [13]WALKS,MAJERN,SCHINDLARK,elal.Newfeaturesandinsightsforpedestriandetection[C]//Proceedingsof2010IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2010: 1030-1037.

        [14]TUZELO,PORIKLIF,MEERP.Pedestriandetectionviaclassificationonriemannianmanifolds[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2008, 30(10): 1713-1727.

        [15]DOLLARP,TUZ,PERONAP,elal.Integralchannelfeatures[C]//Proceedingsofthe2009BritishMachineVisionConference.Durham,UK:BMVA, 2009: 91.1-91.11

        [16]FELZENZWALBPF,GRISHICKRB,MCALLISTERD,etal.Objectdetectionwithdiscriminativelytrainedpart-basedmodels[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2010, 32(9): 1627-1645.

        [17]LECUNY,BOSERB,DENKERJS,etal.Backpropagationappliedtohandwrittenzipcoderecognition[J].NeuralComputation, 1989, 1(4): 541-551.

        [18]KRIZHEVSKYA,SUTSKEVERI,HINTONGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[C]//NIPS’12:Proceedingsofthe25thInternationalConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2012: 1097-1105.

        [19]RUSSAKOVSKYO,DENGJ,SUH,elal.ImageNetlargescalevisualrecognitionchallenge[J].InternationalJournalofComputerVision, 2015, 115(3): 211-252.

        [20]TIANYL,LUOP,WANGXG,etal.Pedestriandetectionaidedbydeeplearningsemantictasks[C]//Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2015: 5079-5087.

        [21]TIANYL,LUOP,WANGXG,etal.Deeplearningstrongpartsforpedestriandetection[C]//Proceedingsofthe2015IEEEInternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2015: 1904-1912.

        [22]GIRSHICKR,DONAHUEJ,DARRELLT,etal.Region-basedconvolutionalnetworksforaccurateobjectdetectionandsegmentation[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2016, 38(1): 142-158.

        [23]EVERINGHAMM,VANGOOLL,WILLIAMSCKI,etal.Thepascalvisualobjectclasses(VOC)challenge[J].InternationalJournalofComputerVision, 2010, 88(2): 303-338.

        [24]HEKM,ZHANGXY,RENSQ,etal.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition[C]//Proceedingsofthe2014 13thEuropeanConferenceonComputerVision,LNCS8691.Berlin:Springer, 2014: 346-361.

        [25]GRISHICKR.FastR-CNN[C]//Proceedingsof2015IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2015: 1440-1448.

        [26]UIJLINGSJRR,VANDESANDEKEA,GEVERST,etal.Selectivesearchforobjectrecognition[J].InternationalJournalofComputerVision, 2013, 104(2): 154-171.

        [27]ZITNICKCL,DOLLRP.Edgeboxes:locatingobjectproposalsfromedges[C]//ECCV2014:Proceedingsof2014 13thEuropeanConferenceonComputerVision,LNCS8693.Berlin:Springer, 2014: 391-405.

        [28]SIMONYANK,ZISSERMANA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition[EB/OL]. [2016- 09- 14].http://www.philkr.net/CS395T/slides/w5_vgg.pdf.

        [29]DOLLARP,WOJEKC,SCHIELEB,etal.Pedestriandetection:anevaluationofthestateoftheart[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012, 34(4): 743-761.

        [30] 馮興輝,張旭,陳禮貴,等.直線(xiàn)特征測(cè)量數(shù)據(jù)的平滑去噪[J].機(jī)械制造,2015,53(4):71-72.(FENGXH,ZHANGX,CHENLG,etal.Smoothingdenoisingoflinearfeaturemeasurementdata[J].Machinery, 2015, 53(4): 71-72.)

        [31] 劉遠(yuǎn)社.傅里葉變換與測(cè)不準(zhǔn)原理[J].西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,29(5):567-569.(LIUYS.Fouriertransformanduncertaintyprinciple[J].JournalofSouthwestUniversityforNationalities(NaturalScienceEdition), 2003, 29(5): 567-569.)

        [32]WOJEKC,WALKS,SCHIELEB.Multi-cueonboardpedestriandetection[C]//CVPR2009:Proceedingsofthe2009IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2009: 794-801.

        [33]ESSA,LEIBEB,VANGOOLL.Depthandappearanceformobilesceneanalysis[C]//Proceedingsofthe2007IEEE11thInternationalConferenceonComputerVision.Piscataway,NJ:IEEE, 2007: 1-8.

        [34]NAMW,DOLLRP,HANJH.Localdecorrelationforimprovedpedestriandetection[C]//Proceedingsofthe2014InternationalConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2014: 424-432.

        [35]BENENSONR,MATHIASM,TUYTELAARST,etal.Seekingthestrongestrigiddetector[C]//CVPR’13:Proceedingsofthe2013IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2013: 3666-3673.

        [36]LUOP,TIANYL,WANGXG,etal.Switchabledeepnetworkforpedestriandetection[C]//Proceedingsofthe2014IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2014: 899-906.

        [37]PAISITKRIANGKRAIS,SHENCH,VANDENHENGELA.Strengtheningtheeffectivenessofpedestriandetectionwithspatiallypooledfeatures[C]//Proceedingsofthe2014EuropeanConferenceonComputerVision,LNCS8692.Berlin:Springer, 2014: 546-561.

        ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61300163).

        XU Chao, born in 1991, M. S. candidate. His research interests include pedestrian detection, convolutional neural network, object detection.

        YAN Shengye, born in 1978, Ph. D., professor. His research interests include object detection and recognition, object tracking, feature point location.

        Improved pedestrian detection method based on convolutional neural network

        XU Chao1, YAN Shengye1,2*

        (1.JiangsuKeyLaboratoryofBigDataAnalysisTechnology(NanjingUniversityofInformationScience&Technology),NanjingJiangsu210044,China; 2.CollaborativeInnovationCenterofAtmosphericEnvironmentandEquipmentTechnology,NanjingJiangsu210044,China)

        In order to choose better model and acquire more accurate bounding-box when using the Convolutional Neural Network (CNN) in pedestrian detection, an improved pedestrian detection method based on CNN was proposed. The improvements include two aspects: how to determine the iterative learning number of training CNN samples and how to merge multiple responses of an object. Firstly, on the solution of the first improvement, multiple candidate CNN classifiers were learned from different training samples in different training iterations. And a new strategy was proposed to select the model with better generalization ability. Both the accuracy on the validation set and the stability of the accuracies during the iterative training procedure were considered by the proposed strategy. On the improvement of combining multiple responses, an enhanced refined bounding-box combination method was proposed which was different from the Non-Maximum Suppression (NMS) method. The coarse bounding-box of CNN detection procedure output was taken as the input for obtaining the one-to-one refined bounding-box. Then, the CNN accurate positioning process was used for each coarse bounding-box to get the corresponding refined bounding-box. Finally, the multiple refined bounding-boxes were merged by considering the correction probability of each bounding-box. Exactly, the final output bounding-box was obtained by the weighted average of multiple relevant refined bounding boxes with respect to their correction probabilities. To investigate the proposed two improvements, the comprehensive experiments were conducted on well-recognized pedestrian detection benchmark dataset — ETH. The experimental results show that, the two proposed improvements have effectively improved the detection performance of the system. Compared with the benchmark method of Fast Region proposals with CNN (R-CNN), the detection performance of the proposed method with the fusion of two improvements has greatly improved by 5.06 percentage points under the same test conditions.

        deep learning; Convolutional Neural Network (CNN); image classification; pedestrian detection

        2016- 10- 14;

        2017- 01- 13。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61300163)。

        徐超(1991—),男,江蘇鹽城人,碩士研究生,主要研究方向:行人檢測(cè)、卷積神經(jīng)網(wǎng)絡(luò)、物體檢測(cè); 閆勝業(yè)(1978—),男,河南新鄉(xiāng)人,教授,博士,主要研究方向:物體檢測(cè)與識(shí)別、物體跟蹤、特征點(diǎn)定位。

        1001- 9081(2017)06- 1708- 08

        10.11772/j.issn.1001- 9081.2017.06.1708

        TP391.41

        A

        猜你喜歡
        集上行人卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        毒舌出沒(méi),行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        路不為尋找者而設(shè)
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        復(fù)扇形指標(biāo)集上的分布混沌
        我是行人
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        性色av无码中文av有码vr| 日本一区二区三级免费| 极品粉嫩小仙女高潮喷水操av| 轻点好疼好大好爽视频| 无码夜色一区二区三区| 亚洲av永久无码精品成人| av在线播放免费观看| 337p粉嫩日本欧洲亚洲大胆| 国模少妇一区二区三区| 久久婷婷国产精品香蕉| 国产黄色一级大片一区二区| 国产欧美日韩va另类在线播放| 欧美性开放bbw| 99久久久精品免费| 亚洲精品中文字幕91| 久久亚洲日韩精品一区二区三区| 又黄又爽又色的视频| 狠狠躁夜夜躁人人爽天天不卡| 国产天堂av在线播放资源| 亚洲av成人片色在线观看高潮| 永久黄网站色视频免费| 日本高清一区二区三区视频| 成年人干逼视频水好多| 国产人妻久久精品二区三区老狼| 精品人妻VA出轨中文字幕| 日本伦理视频一区二区| 曰韩无码av一区二区免费| 日日碰狠狠添天天爽超碰97| 欧洲国产成人精品91铁牛tv| 一本久道久久丁香狠狠躁| 久久精品国产精品青草| 欧美日韩亚洲成人| 亚洲国产成人精品一区刚刚| 精品国产yw在线观看| 亚洲av无码一区二区三区四区| 久久久国产不卡一区二区| 亚洲精品中文字幕一二三四| 影音先锋中文字幕无码资源站| 精品欧美乱子伦一区二区三区| 天堂av一区一区一区| 亚洲av片无码久久五月|