鄭明 夏定純 胡雨陽 張承
摘要:傳統(tǒng)目標(biāo)檢測方法存在準(zhǔn)確率低、可靠性差、效率低等問題,基于SSD(Single Shot MultiBox Detector)網(wǎng)絡(luò),對連續(xù)視頻中行人出現(xiàn)的第一幀這一關(guān)鍵幀中的行人成功檢測,根據(jù)跟蹤目標(biāo)連續(xù)性和目標(biāo)形狀不會突變的性質(zhì),再將同一視頻不同幀圖像中最可能屬于同一行人的特征對象進(jìn)行檢測,將連續(xù)視頻幀中框定出的目標(biāo)行人的中心坐標(biāo)進(jìn)行保存并連接,從而得到目標(biāo)行人的運(yùn)動軌跡并在視頻中顯示。設(shè)置了置信度值解決連續(xù)幀中出現(xiàn)誤檢測的問題,在保證檢測跟蹤幀率的同時,成功完成對目標(biāo)進(jìn)行檢測跟蹤的任務(wù)。
關(guān)鍵詞:SSD網(wǎng)絡(luò);目標(biāo)檢測;跟蹤;軌跡
中圖分類號:TP391.4文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2020)24-62-4
0引言
目標(biāo)檢測跟蹤是計(jì)算機(jī)視覺領(lǐng)域中最具挑戰(zhàn)的課題之一,廣泛應(yīng)用于視覺監(jiān)控、人機(jī)交互、智能汽車、醫(yī)療圖像及現(xiàn)代化軍事等領(lǐng)域[1]。目標(biāo)檢測跟蹤算法是在一段連續(xù)的視頻圖像序列中框出某物體的物理位置,并將連續(xù)幀中目標(biāo)物體連接形成目標(biāo)軌跡的技術(shù)。
傳統(tǒng)算法中的行人檢測效果主要取決于特征描述子,如何提取更優(yōu)的描述子是眾多學(xué)者研究的重點(diǎn)。其中最為突出的是Dalal等提出的HOG特征描述子,能有效刻畫出人體的邊緣特征。在2012年ImageNet圖像識別比賽中奪冠的AlexNet[2],開啟了深度學(xué)習(xí)目標(biāo)檢測的新篇章。相比傳統(tǒng)方法,基于深度學(xué)習(xí)的目標(biāo)檢測算法能夠?qū)W習(xí)到更好的目標(biāo)特征。
目前該領(lǐng)域的深度學(xué)習(xí)方法主要分為2類:基于候選區(qū)域和基于回歸算法[3]。前者是先由算法生成一系列樣本的候選框,再通過CNN進(jìn)行樣本分類;后者則不用產(chǎn)生候選框,直接將目標(biāo)邊框定位的問題轉(zhuǎn)化為回歸問題。本文采用的SSD網(wǎng)絡(luò)屬于后者,保證了目標(biāo)檢測跟蹤速度的同時,確保了實(shí)驗(yàn)結(jié)果的穩(wěn)定和準(zhǔn)確。
1行人目標(biāo)檢測跟蹤方法
目前各實(shí)驗(yàn)中使用的行人目標(biāo)檢測跟蹤方法大致分為2種:一種是在視頻流出現(xiàn)行人的第一幀中手動框出行人目標(biāo),在之后的每一幀,利用跟蹤算法對行人進(jìn)行跟蹤,這個過程可以實(shí)現(xiàn)短時間的行人目標(biāo)跟蹤;另一種是使用行人目標(biāo)檢測算法對視頻流進(jìn)行逐幀行人檢測,然后將成功檢測出的行人目標(biāo)框進(jìn)行連接,得出的曲線則是該行人的運(yùn)動軌跡,這個過程可以實(shí)現(xiàn)相對長時間的行人目標(biāo)跟蹤。
后者避免了手動框定這個步驟,并且此方法在對系統(tǒng)的運(yùn)算能力,和系統(tǒng)配置的要求并不高的情況下,可成功地對視頻中行人目標(biāo)進(jìn)行逐幀檢測。
2傳統(tǒng)目標(biāo)檢測跟蹤的基本原理
傳統(tǒng)目標(biāo)檢測主要基于滑窗操作[4],可分為訓(xùn)練和預(yù)測2個步驟。訓(xùn)練主要是用來得到分類器,比如SVM。預(yù)測是使用訓(xùn)練好的分類器對圖像中的滑動窗口進(jìn)行特征提取再分類,得到檢測結(jié)果。傳統(tǒng)目標(biāo)檢測方法原理如圖1所示。
在預(yù)測階段有2種滑動窗口策略:一種是使用不同大小的滑動窗口,對每個滑動窗口提取特征并分類判斷是否是行人,最后經(jīng)過NMS得到檢測結(jié)果,不同檢測層的Anchor類似于不同大小的滑動窗口;另外一種策略是構(gòu)造圖像金字塔,只使用一種大小的滑動窗口在所有金字塔圖像上滑動,對每個滑動窗口提取特征并分類判斷是否是行人,經(jīng)過NMS得到最后的檢測結(jié)果。
3深度學(xué)習(xí)下的目標(biāo)檢測跟蹤方法
利用神經(jīng)網(wǎng)絡(luò)能夠提取出更加魯棒的圖像特征,從而使后續(xù)跟蹤方法的跟蹤更加精準(zhǔn),進(jìn)一步提升跟蹤的準(zhǔn)確度。CNN憑借其強(qiáng)大的特征學(xué)習(xí)和特征表達(dá)能力,被廣泛地運(yùn)用在計(jì)算機(jī)視覺領(lǐng)域,是圖像目標(biāo)檢測中用途最廣泛、使用最簡單的深度學(xué)習(xí)方法。這類方法主要分為2類:一類是先由算法生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本分類,如Faster R-CNN;另一類不用產(chǎn)生候選框,直接將目標(biāo)邊框定位的問題轉(zhuǎn)化為回歸問題,如YOLO[5]和SSD。
3.1 Faster R-CNN網(wǎng)絡(luò)
經(jīng)過R-CNN網(wǎng)絡(luò)和Fast R-CNN網(wǎng)絡(luò)逐步改進(jìn),F(xiàn)aster R-CNN[6]引入RPN算法提取預(yù)選框,并且將預(yù)選框通過ROI P ooling得到固定的特征圖,經(jīng)過全連接層得到檢測結(jié)果。Faster R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示,由VGG16特征提取網(wǎng)絡(luò)、RPN網(wǎng)絡(luò)、ROIPooling網(wǎng)絡(luò)和全連接層分類網(wǎng)絡(luò)構(gòu)成。
3.2 SSD網(wǎng)絡(luò)
與Faster R-CNN相比,SSD網(wǎng)絡(luò)沒有生成預(yù)選框的過程,在保證檢測精度和準(zhǔn)確率的情況下,提高了檢測速度。SSD網(wǎng)絡(luò)主要由基礎(chǔ)網(wǎng)絡(luò)和金字塔網(wǎng)絡(luò)兩部分組成,采用VGG16作為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),將VGG16的全連接層FC6和FC7轉(zhuǎn)換成3×3的卷積層Conv6和1×1的卷積層Conv7;隨后增加了4個卷積層來構(gòu)造網(wǎng)絡(luò)結(jié)構(gòu);去掉所有的Dropout層和Fc8層;將池化層pool5由原來的stride=2的2×2變成stride=1的3×3;添加了Atrous算法,獲得更加密集的得分映射。網(wǎng)絡(luò)最后的NMS層,對行人目標(biāo)成功檢測。SSD網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示。