曹帥,張曉偉,馬健偉
(青島大學(xué) 計算機科學(xué)技術(shù)學(xué)院,青島266071)
隨著人工智能與計算機視覺技術(shù)的發(fā)展以及人們對公共安全領(lǐng)域的日益重視,智能視頻監(jiān)控技術(shù)已經(jīng)發(fā)展為當(dāng)前的研究熱點。行人檢測是智能化視頻監(jiān)控系統(tǒng)中的核心關(guān)鍵技術(shù)之一,并為后續(xù)的更高層次的視頻分析與理解提供可靠的數(shù)據(jù)支持。因此,行人檢測技術(shù)直接影響著智能視頻監(jiān)控的智能化水平,具有重要的研究意義和應(yīng)用價值。
近年來,基于深度卷積神經(jīng)網(wǎng)絡(luò)的通用目標(biāo)檢測[1-3]取得了巨大的成功,尤其是Girshick等提出的基于R-CNN[4]目標(biāo)檢測模型,代替了手工設(shè)計特征[5-6]極大地提高了行人檢測的性能。然而,在視頻監(jiān)控系統(tǒng)中行人存在不同空間尺度的差異,尤其是大尺度、低分辨率的行人目標(biāo)對行人檢測技術(shù)帶來了極大的挑戰(zhàn)。為解決行人在空間尺度變化下的檢測問題,目前主要分為2種策略:圖像金字塔[7-8]和特征金字塔[2,9-10]?;趫D像金字塔的多尺度行人檢測方法通過采樣輸入圖像得到不同尺度的圖像金字塔集合,以預(yù)測最終的檢測結(jié)果。其中,具有代表性的圖像金字塔的尺度歸一化網(wǎng)絡(luò)(SNIP)[7]及其加強版具有高效重采樣的圖像金字塔的尺度歸一化網(wǎng)絡(luò)(SNIPER)[8],其選取若干個正樣本區(qū)域和負(fù)樣本區(qū)域作為圖像金字塔。然而,這種基于圖像金字塔的行人檢測方法在時間和內(nèi)存方面的消耗是巨大的,限制了在實時智能監(jiān)控視頻任務(wù)中的應(yīng)用。
為兼顧精度與速度,基于特征金字塔的多尺度方法被廣泛應(yīng)用到目標(biāo)檢測。與圖像金字塔相比,特征金字塔需要的內(nèi)存空間和計算量要少的多,并且結(jié)構(gòu)簡單,能夠有效地嵌入到各類目標(biāo)檢測器中。其中,單鏡頭多盒檢測器(SSD)[2]就是基于視覺幾何組網(wǎng)絡(luò)(VGG-16)提取不同分辨率的多層特征圖集合用于多尺度目標(biāo)檢測。感受野塊網(wǎng)絡(luò)(RFB-Net)[9]在SSD網(wǎng)絡(luò)的基礎(chǔ)上采用2個模擬人類視覺感受野的特征提取模塊替換原有卷積層,并使用6個不同層級的特征圖用于檢測。類似的,漸進定位網(wǎng)絡(luò)(ALFNet)[10]在Res-Net-50[11]后3個階段的最后一個卷積層以及新添加卷積層上堆疊多個目標(biāo)分類和空間位置坐標(biāo)回歸模塊,形成漸進定位網(wǎng)絡(luò),從而實現(xiàn)對多尺度目標(biāo)精確定位。
大量研究表明[12-13],通過添加橫向連接和自上而下信息傳播路徑進行特征融合,生成的特征表達能力更強。特征金字塔網(wǎng)絡(luò)(FPN)[14]通過自上而下的跨層路徑有效地融合了高層特征所具有的魯棒語義信息生成特征金字塔網(wǎng)絡(luò)。路徑聚合網(wǎng)絡(luò)(PANet)[15]基于FPN網(wǎng)絡(luò)結(jié)構(gòu)添加自底向上的擴展路徑,以精確的定位信息增強整個特征金字塔表達能力,有效提高了目標(biāo)分割的準(zhǔn)確度。多級特征金字塔目標(biāo)檢測器(M2Det)[16]提出了多層次的特征金字塔網(wǎng)絡(luò),使用多層次重復(fù)的網(wǎng)絡(luò)結(jié)構(gòu)生成具有更強表達能力的特征金字塔。受上述研究工作的啟發(fā),為充分利用不同尺度特征層在視覺語義信息上的互補性,本文提出了跨尺度特征聚合網(wǎng)絡(luò)(TS-FAN)模塊,在幾乎沒有增加任何時間耗費的前提下實現(xiàn)了不同層次特征信息的聚合,以增強特征金字塔的語義魯棒性和定位精確性。
另一方面,為檢測視頻圖像中的不同尺度目標(biāo),F(xiàn)aster R-CNN[1]基 于 多 尺 度 區(qū) 域 建 議 網(wǎng) 絡(luò)(RPN)生成多尺度初始候選目標(biāo)區(qū)域檢測多尺度目標(biāo)。進而FPN利用多個RPN子網(wǎng)絡(luò)來盡可能的覆蓋圖像中目標(biāo)的所有尺度,但這種方式忽略了不同路徑RPN網(wǎng)絡(luò)生成的候選目標(biāo)集存在行人分類與定位回歸之間的不一致性,從而影響多尺度行人的檢測性能。為解決這一問題,本文引入一種基于多路徑RPN的尺度補償策略來有效處理多尺度目標(biāo),以提高不同尺度行人的召回率。受尺度自適應(yīng)的三叉戟網(wǎng)絡(luò)(TridentNet)[17]多分支檢測的啟發(fā),為避免極端尺度行人對不同路徑模型訓(xùn)練影響,本文利用尺度感知的策略使不同路徑RPN檢測與特征層感受野相匹配的多尺度行人候選框,并將不同路徑RPN生成的候選目標(biāo)區(qū)域單獨處理,避免了不同路徑下不同候選目標(biāo)相互之間產(chǎn)生的影響。同時,根據(jù)Li等[18]的研究,不同尺度行人實例在不同特征層上具有不同的特征表達,因此本文對不同尺度行人使用不同的特征映射函數(shù),為多路徑RPN生成的不同尺度候選目標(biāo)區(qū)域集匹配相適應(yīng)的聚合特征層,形成多尺度行人檢測網(wǎng)絡(luò)。
綜上所述,本文主要貢獻如下:
1)引入一種基于多路徑RPN的尺度補償策略,依據(jù)不同分辨率行人實例構(gòu)建多路徑RPN網(wǎng)絡(luò),使各路徑RPN網(wǎng)絡(luò)分支基于有效感受野大小自適應(yīng)地生成候選目標(biāo)尺度集,以提高多尺度目標(biāo)的召回率,并通過非極大值抑制的方法得到多尺度的目標(biāo)候選區(qū)域集合。
2)根據(jù)不同分辨率特征層在視覺語義信息和精確定位信息上的差異性,本文提出了TS-FAN模塊,通過跨層連接聚合多尺度特征信息,極大地縮短了底層特征信息傳播到頂層特征層的路徑,增強了特征金字塔的語義魯棒性和定位精確性。
3)基于尺度感知的端到端訓(xùn)練方案,將多路徑RPN中得到的不同尺度候選目標(biāo)集映射到與之匹配的聚合特征層中進行特征提取,形成多尺度行人檢測網(wǎng)絡(luò)。實驗結(jié)果表明,在Caltech[19]和ETH[20]數(shù)據(jù)集上明顯優(yōu)于目前一流行人檢測方法TLL-TFA[21],尤其對大尺寸、低分辨率行人的檢測性能提升較為顯著。
TS-FAN總體結(jié)構(gòu)如圖1所示,主要包含3個部分:基于尺度補償策略的多路徑RPN、TS-FAN模塊和多尺度行人檢測網(wǎng)絡(luò)。TS-FAN網(wǎng)絡(luò)模型基于端到端的訓(xùn)練方式聯(lián)合不同路徑RPN子網(wǎng)絡(luò)和TS-FAN模塊,通過多路徑RPN產(chǎn)生得到的行人候選區(qū)域自適應(yīng)感知其在相應(yīng)特征聚合網(wǎng)絡(luò)模塊上的有效特征,并采用尺度感知的策略形成多尺度行人檢測網(wǎng)絡(luò)。圖中:C1~C5分別為Res-Net-50的5個不同階段;H3~H5分別為不同分辨率的聚合特征。
圖1 TS-FAN總體網(wǎng)絡(luò)架構(gòu)Fig.1 TS-FAN overall network architecture
RPN在Faster R-CNN[1]中被提出,因其引入了多尺度滑動窗口遍歷特征圖的每個空間位置,極大地提高了目標(biāo)檢測的召回率。然而,RPN只在某一深度卷積特征層上提取候選目標(biāo),其固定尺寸的卷積核限制了單一特征層的視覺感受野大小。對此,F(xiàn)PN[14]在多個特征層上生成多尺度候選目標(biāo),進一步提升了目標(biāo)檢測的召回率。在此基礎(chǔ)上,本文開展了對多路徑RPN行人召回率的實驗分析,發(fā)現(xiàn)不同深度卷積特征層對不同尺度行人候選目標(biāo)召回率具有較大的性能差異。大尺寸行人在高層特征圖具有較高的召回率,而小尺寸行人在分辨率高的低層特征具有較高的召回率。為此,根據(jù)各深度卷積特征層的有效感受野大?。?2],本文采用尺度補償策略,將行人候選目標(biāo)劃分為3個路徑的RPN來適應(yīng)行人的多尺度變化,如圖2所示。其中左、右分支作為輔助檢測網(wǎng)絡(luò),中間分支則為主檢測網(wǎng)絡(luò)。本文使用ResNet-50作為特征提取基礎(chǔ)網(wǎng)絡(luò),定義C3、C4、C5代表基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)中每個階段的最后一個殘差塊res3d、res4 f、res5c。不同分支RPN中設(shè)置有效真實標(biāo)注框的高度(行人實例高度像素值)分別在小于50像素、所有像素、大于100像素范圍內(nèi),跨越該范圍的真實標(biāo)注視為無效標(biāo)注,不參與該RPN分支訓(xùn)練。由于每個RPN路徑針對不同尺度的行人目標(biāo)進行訓(xùn)練,所以不同RPN路徑使用獨立損失函數(shù),其中RPN多任務(wù)損失函數(shù)定義為
圖2 多路徑RPNFig.2 Multipath region proposal network
L=lcls+φ[y=1]lloc(1)
式中:lcls為分類損失采用交叉熵?fù)p失函數(shù)[1];lloc為位置回歸損失采用Smooth-L1損失函數(shù)[1];φ為一個超參數(shù);y=1表示只有正樣本進行位置回歸?;趩蝹€RPN損失函數(shù),給出總體損失函數(shù),其定義為
式中:L1、L2、L3分別為左、中、右分支的多任務(wù)損失函數(shù)。
基于上述多路徑RPN得到具有不同尺度范圍的候選區(qū)域集P={Ps,Pa,Pl},其中Ps和Pl分別為小尺度集和大尺度集,它們是對所有尺度集Pa的尺度補償。對于上述候選區(qū)域集使用閾值為0.7的非極大值抑制減少重疊候選目標(biāo)框,為目標(biāo)識別階段提供高質(zhì)量的候選區(qū)域。
特征金字塔被廣泛應(yīng)用到多尺度檢測的模型中,如 圖3所 示,SSD[2]和STDN[23]網(wǎng) 絡(luò) 都 是基于自底向上的信息傳播方式生成不同空間分辨的特征金字塔。然而這種方法沒有考慮到不同層次信息的互 補 性[24-26],TLL-TFA[21]、CSP[27]等利用反卷積等上采樣操作將不同層次的特征層歸一化到同一分辨率,并通過特征通道疊加的方式進行特征融合。FPN[14]和PANet[15]模型構(gòu)建了自上而下和自底向上的信息傳播路徑,融合不同層次特征層作為目標(biāo)檢測特征層。而M2Det[16]提出了多層次的FPN,使用更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)生成具有更強表達能力的特征金字塔。然而這些方法都是通過復(fù)雜的網(wǎng)絡(luò)構(gòu)建更多的特征金字塔,從而得到更加魯棒的特征表示,其忽略了低層次特征的重要性,丟失大量的細(xì)節(jié)特征信息。
圖3 多種特征金字塔模型示意圖Fig.3 Schematic diagram ofmultiple feature pyramid models
本文提出的TS-FAN模塊是在FPN網(wǎng)絡(luò)模型的基礎(chǔ)上通過添加自底向上快速路徑,縮短低層次高分辨率特征圖到高層次特征圖的傳播路徑,以有效聚合低層特征圖中的局部細(xì)節(jié)特征信息。本文在自底向上的特征編碼路徑引入平均池化層,來豐富用于檢測特征層的特征信息,實現(xiàn)不同尺度卷積特征的增強表示。
本文提出的TS-FAN模塊有效地融合了自頂向下、由底向上和同層映射三種路徑特征,如圖4所示。在特征融合之前,首先使用1×1卷積核對當(dāng)前特征層Ci和上、下相鄰特征層Ci+1、Ci-1(i?{3,4,5})實現(xiàn)特征維度的統(tǒng)一,得到空間分辨率不同但 是 特 征 通 道 數(shù) 相 同 的 特 征 層C′i+1、C′i、C′i-1。在自上而下的特征傳播路徑中,使用雙線性插值的上采樣方法將C′i+1特征層的空間分辨率擴大到原來的2倍,并且保持特征維度不變,保留其高層特征圖中較為魯棒的語義特征信息。另一方面,為保留低層有利于目標(biāo)定位較為敏感的局部位置信息,在自底向上的特征增強路徑中,采用平均池化方法對C′i-1層特征層下采樣縮放至原來一半的空間分辨率大小,并且不改變其特征維度,保留其低層特征圖中較為精確的定位信息。特征聚合通過對特征圖逐像素相加的方式實現(xiàn),其能夠增加特征的信息量,但特征維度本身沒有增加,這對于最終的圖像分類是有益的。最后為減少上采樣過程中的混疊效應(yīng),添加了一個3×3卷積處理融合后的特征圖生成最終的具有強表達能力的特征圖。TS-FAN模塊的計算公式為
圖4 特征聚合模塊Fig.4 Feature aggregation module
式中:c為特征通道維度;Ki為3×3卷積核;“*”為卷積操作;Avgpooling為平均池化操作;Upsampling為上采樣操作;Hi為TS-FAN模塊得到的增強特征表示。
本文根據(jù)不同分辨率的特征層對于不同尺度行人的有效性,通過多尺度檢測方法聯(lián)合多路徑RPN生成的多尺度行人候選集Pi={Ps,Pa,Pl}和TS-FAN模塊得到的聚合特征Hi={H3,H4,H5}提取候選區(qū)域特征編碼。如多路徑RPN中的主檢測分支生成Pa集合中的行人候選區(qū)域匹配到相應(yīng)的TS-FAN生成的聚合特征H4,從而得到該特征層的感興趣區(qū)域,利用RoI-pooling歸一化提取的特征編碼得到7×7×512特征,將提取的特征編碼由全連接層變換到1 024維高維特征向量,精確計算候選區(qū)域的置信度分?jǐn)?shù)和4個坐標(biāo)偏移量,得到最終的檢測結(jié)果,其他2個輔助檢測分支類似。對于不同尺度集的候選區(qū)域使用對應(yīng)的檢測分支,每個檢測分支訓(xùn)練都有真實類別標(biāo)注p*和真實標(biāo)注框b*=分別為真實標(biāo)注框的左下角坐標(biāo)和寬、高。本文單分支行人檢測訓(xùn)練的損失函數(shù)定義如下:
式中:Lcls為分類交叉損失函數(shù);Lreg為候選目標(biāo)的回歸損失函數(shù),Lreg(b,b*)=R(b-b*),R為Smooth-L1損失函數(shù);p和b=(bx,by,bw,bh)為網(wǎng)絡(luò)候選目標(biāo)框置信度分?jǐn)?shù)和空間位置;λ為平衡分類與回歸任務(wù)的損失函數(shù),本文中λ=10。預(yù)測得到的候選目標(biāo)框與任何一個真實標(biāo)注框的重疊度大于0.5時p*=1,否則p*=0。多尺度行人檢測的具體實現(xiàn)過程如算法1所示。
算法1基于TS-FAN的多尺度行人檢測。
輸出:網(wǎng)絡(luò)模型權(quán)重ω和ωb。
初始化:加載ImageNet數(shù)據(jù)集上的預(yù)訓(xùn)練權(quán)重,為新添加的卷積層使用高斯函數(shù)初始化權(quán)重。設(shè)定學(xué)習(xí)率ζω和ζωb。
迭代循環(huán):
其中:t和T分別為當(dāng)前迭代次數(shù)和總迭代次數(shù);Lfar、Lmedium、Lnear分別為大尺寸、中尺寸、小尺寸分支路徑的損失函數(shù);ζω和ζωb分別為權(quán)重的學(xué)習(xí)率和偏置項的學(xué)習(xí)率。
本節(jié)在2個公開基準(zhǔn)數(shù)據(jù)集Caltech和ETH上測試本文的TS-FAN方法對多尺度行人檢測的有效性。本文基于Caltech評估標(biāo)準(zhǔn)[19]:平均每幅圖像假陽性(FPPI)在[10-2,100]之間的行人漏檢率,用MR-2表示。依據(jù)Caltech測試集數(shù)據(jù)劃分標(biāo)準(zhǔn)[19],劃分為:Reasonable子集(行人高度大于50像素和可見度在65%以上);All子集(高度最小為20像素和可見度在20%以上);Large、Near、Medium和Far子集分別表示行人高度范圍為大于100像素、大于80像素、30~80像素之間和20~30像素之間的測試子集。設(shè)置學(xué)習(xí)率為0.001、權(quán)重衰減為0.0005、梯度更新權(quán)重為0.9,在單GPU上每個mini-batch使用2張圖片,選擇使用SGD優(yōu)化器。實驗所使用環(huán)境為Ubuntu14.0、caffe2、CUDA8.0.61、python2.7.12,硬件配置為NVIDIA GeForce GTX 1080Ti(一塊)、Intel(R)Xeon(R)CPU E5-2609v4@1.70GHz×16。
2.2.1 RPN尺度補償策略的重要性
為驗證基于尺度補償策略的多路徑RPN對多尺度行人候選目標(biāo)生成的有效性,本文在Caltech數(shù)據(jù)集上通過RPN獲取300個目標(biāo)候選框,以評估行人檢測的召回率(表示為R300)。本實驗設(shè)置預(yù)測目標(biāo)框與真實標(biāo)注框重疊度閾值大于0.5即為判斷為正樣本,否則為負(fù)樣本。
首先,在ResNet-50的不同層次特征層(C3、C4、C5)中引入RPN,P34表示為FPN網(wǎng)絡(luò)中聯(lián)合使用P3、P4特征層,C34表示為聯(lián)合使用C3、C4特征層,其他依次類推。從表1數(shù)據(jù)可以看出,小尺寸的行人在高分辨率的特征層上具有較高的召回率,如C3要比C5表現(xiàn)得更好。而在C4層,該層能夠更好地兼顧不同尺度行人實例,對于多尺度檢測表現(xiàn)出良好的效果,但對于小尺寸行人實例召回率僅為75.2%,這意味著單卷積層的RPN并不能有效覆蓋圖像中行人實例的所有尺度。本文引入多路徑RPN尺度補償策略提取多尺度目標(biāo)候選框,在整個Caltech多尺度行人集合上取得了97.2%的行人召回率。而且從表1中還可以看到,在卷積特征層上聯(lián)合多路徑RPN生成行人候選目標(biāo)比在FPN中更為有效,其原因可歸結(jié)為經(jīng)過卷積后的特征層比融合后的FPN特征含有更多的局部細(xì)節(jié)信息。
表1 在Caltech數(shù)據(jù)集上對于RPN的消融實驗Table 1 Ablation experim ent of RPN on Caltech dataset
2.2.2 跨尺度聚合特征對于行人檢測的有效性
為驗證本文TS-FAN模塊對行人檢測的有效性,本節(jié)將其與FPN的行人檢測結(jié)果進行了實驗對比。表2中的Proposal為單路徑RPN的輸入,如FPN-P3和TS-FAN-H3分別表示FPN網(wǎng)絡(luò)和TS-FAN網(wǎng)絡(luò)在ResNet-50第3階段檢測,其余類似,TS-FAN-H3H4H5表示多分支檢測。從表2中可以觀察到,TS-FAN 模塊 TS-FAN-H3和 TSFAN-H4相較于FPN 的FPN-P3和FPN-P4在Caltech數(shù)據(jù)集上均有明顯的檢測性能提升。尤其是TS-FAN-H3比FPN-P3在Caltech的Reasonable、Near、Medium子集上的行人漏檢率MR-2降低了17.45%、28%、11.25%,TS-FAN-H4相對于FPN-P4在Far子集上的行人漏檢率MR-2提升了9.91%。這可歸因于聚合低層次特征的細(xì)節(jié)信息有利于提升行人的檢測效果。
表2 Caltech數(shù)據(jù)集上驗證跨尺度聚合特征的有效性Tab le 2 Verification of validity of trans-scale aggregation features on Caltech dataset
值得關(guān)注的是在FPN-P5加入低層次特征后,TS-FAN-H5只在Caltech的Near測試子集上表現(xiàn)出性能提升,其原因可歸結(jié)為該特征層分辨率較低,更加傾向于大尺寸行人實例的檢測。而且表2中聯(lián)合各跨尺度聚合特征在Caltech的Reasonable和Near測試子集上表現(xiàn)效果略低于單跨尺度聚合特征,而在Medium和Far測試子集上行人漏檢率MR-2為17.24%和50.38%,明顯優(yōu)于單跨尺度聚合特征。這是由于低層次特征的加入,使得網(wǎng)絡(luò)更加關(guān)注中、小尺度行人。最后,本文相對于單路徑RPN,在多路徑RPN下聯(lián)合各跨尺度聚合特征TS-FAN-H3H4H5,能夠更有效地檢測多尺度行人實例,在Reasonable、Near、Medium、Far測試子集上行人漏檢率MR-2分別達到5.53%、0.47%、13.76%、47.30%。其在不同尺度行人的檢測性能上均有明顯的提升,其原因可歸結(jié)為多路徑RPN為第二階段行人識別和預(yù)測行人目標(biāo)包圍框提供了高召回率、高質(zhì)量行人候選區(qū)域集。
本節(jié)為橫向?qū)Ρ缺疚姆椒▽Χ喑叨刃腥藱z測的有效性,首先在Caltech測試數(shù)據(jù)集上與目前表現(xiàn)較好的行人檢測方法FasterRCNN+ATT[28]、RPN +BF[29]、AdaptFasterRCNN[30]、F-DNN +SS[31]、PCN[32]、GDFL[33]、F-DNN2+SS[34]、TLLTFA和AR-Ped[35]進行了實驗對比。從表3中可以看出,本文TS-FAN方法在Caltech數(shù)據(jù)集上取得了最好的檢測性能,其在Reasonable、All、Near、Medium和Far的子集上,行人漏檢率MR-2分別為5.53%、26.21%、0.47%、13.76%和47.30%。在Caltech測試數(shù)據(jù)集Reasonable子集上,本文方法相較于當(dāng)前一流的AR-Ped方法,行人漏檢率MR-2降低了0.92%。與當(dāng)前領(lǐng)先的TLL-TFA方法相比,在All、Near、Medium和Far的子集上行人漏檢率 MR-2分別降低了11.94%、0.25%、9.16%和12.79%。量化的實驗對比結(jié)果如圖5中所示,可以明顯地觀察到本文提出的TS-FAN網(wǎng)絡(luò)對于不同尺度的行人實例均表現(xiàn)出較好的行人檢測效果。
圖5 在Caltech數(shù)據(jù)集上,本文方法與目前一流方法的對比Fig.5 Comparison of proposed method with some state-of-the-artmethods on Caltech dataset
表3 在Caltech數(shù)據(jù)集不同重疊評估設(shè)置上,本文方法與目前一流方法的比較Tab le 3 Com parison of p roposed m ethod w ith som e state-of-the-art m ethods on the Caltech dataset under differen t overlapping evaluation p rotocols
低層次特征帶來局部細(xì)節(jié)特征信息和較為精確的定位信息,使得網(wǎng)絡(luò)對于位置感知能力更強,從而在行人間的遮擋問題上同樣表現(xiàn)出具有競爭力的行人檢測效果。TS-FAN方法在Caltech數(shù)據(jù)集的Partial和Heavy子集上與當(dāng)前領(lǐng)先的TLLTFA方法相比,在Partial和Heavy子集上行人漏檢率MR-2分別降低了7.81%和10.84%。在Partial子集上與AR-Ped方法相比,行人漏檢率MR-2降低了1.25%。
在ETH測試數(shù)據(jù)集上,TS-FAN方法與目前檢測性能較好的行人檢測方法ChnFtrs[36]、Joint-Deep[37]、MultiSDP[38]、DBN-Mut[39]、TA-CNN[40]、RPN+BF和F-DNN2+SS進行對比實驗,實驗結(jié)果如圖6所示。見圖6(a)和(b),TS-FAN方法在All和Reasonable測試子集上比目前檢測效果較好的F-DNN2+SS方法行人漏檢率MR-2降低了7.28%和2.73%。尤其在Medium和Far子集上,TS-FAN方法行人漏檢率MR-2提升了19.97%和29.21%,如圖6(e)和(f)所示。而在Near子集上,TS-FAN方法較RPN+BF方法和F-DNN2+SS方法行人漏檢率MR-2分別降低了1.51%和3.19%。其原因可歸結(jié)為本文TS-FAN方法沒有使用更深層次的卷積層(如特征圖分辨率較原圖下采樣64倍)。
圖6 在ETH數(shù)據(jù)集上,本文方法與目前一流方法的對比Fig.6 Comparison of proposed method with some state-of-the-artmethods on ETH dataset
為形象地觀測本文TS-FAN模型在Caltech數(shù)據(jù)集和ETH數(shù)據(jù)集上的檢測效果,圖7和圖8顯示了本文方法與當(dāng)前一流行人檢測方法的輸出結(jié)果。
圖7 在Caltech數(shù)據(jù)集上,本文方法與目前一流方法可視化效果對比Fig.7 Comparison of visualized effects of proposed method with some state-of-the-artmethods on Caltech dataset
圖8 在ETH數(shù)據(jù)集上,本文方法與目前一流方法可視化效果對比Fig.8 Comparison of visualized effects of proposed method with some state-of-the-artmethods on ETH dataset
1)本文針對多尺度行人檢測任務(wù),設(shè)計了一種跨尺度特征聚合的多尺度行人檢測網(wǎng)絡(luò),其通過多路徑RPN尺度補償策略為行人識別階段提供了高質(zhì)量的目標(biāo)候選區(qū)域。
2)提出的TS-FAN網(wǎng)絡(luò)模塊為多尺度行人檢測網(wǎng)絡(luò)提供了高魯棒性的特征層用于特征提取,并通過實驗驗證TS-FAN網(wǎng)絡(luò)模塊能顯著提高行人檢測性能。
3)通過多尺度行人檢測網(wǎng)絡(luò),聯(lián)合多路徑RPN得到的候選目標(biāo)區(qū)域和跨尺度聚合特征進行行人識別和精細(xì)化空間位置。實驗結(jié)果表明,本文方法TS-FAN在Caltech數(shù)據(jù)集和ETH數(shù)據(jù)集上取得了一流的多尺度行人檢測性能。