鄭明 夏定純 胡雨陽 張承
摘要:傳統(tǒng)目標檢測方法存在準確率低、可靠性差、效率低等問題,基于SSD(Single Shot MultiBox Detector)網(wǎng)絡,對連續(xù)視頻中行人出現(xiàn)的第一幀這一關(guān)鍵幀中的行人成功檢測,根據(jù)跟蹤目標連續(xù)性和目標形狀不會突變的性質(zhì),再將同一視頻不同幀圖像中最可能屬于同一行人的特征對象進行檢測,將連續(xù)視頻幀中框定出的目標行人的中心坐標進行保存并連接,從而得到目標行人的運動軌跡并在視頻中顯示。設置了置信度值解決連續(xù)幀中出現(xiàn)誤檢測的問題,在保證檢測跟蹤幀率的同時,成功完成對目標進行檢測跟蹤的任務。
關(guān)鍵詞:SSD網(wǎng)絡;目標檢測;跟蹤;軌跡
中圖分類號:TP391.4文獻標志碼:A文章編號:1008-1739(2020)24-62-4
0引言
目標檢測跟蹤是計算機視覺領域中最具挑戰(zhàn)的課題之一,廣泛應用于視覺監(jiān)控、人機交互、智能汽車、醫(yī)療圖像及現(xiàn)代化軍事等領域[1]。目標檢測跟蹤算法是在一段連續(xù)的視頻圖像序列中框出某物體的物理位置,并將連續(xù)幀中目標物體連接形成目標軌跡的技術(shù)。
傳統(tǒng)算法中的行人檢測效果主要取決于特征描述子,如何提取更優(yōu)的描述子是眾多學者研究的重點。其中最為突出的是Dalal等提出的HOG特征描述子,能有效刻畫出人體的邊緣特征。在2012年ImageNet圖像識別比賽中奪冠的AlexNet[2],開啟了深度學習目標檢測的新篇章。相比傳統(tǒng)方法,基于深度學習的目標檢測算法能夠?qū)W習到更好的目標特征。
目前該領域的深度學習方法主要分為2類:基于候選區(qū)域和基于回歸算法[3]。前者是先由算法生成一系列樣本的候選框,再通過CNN進行樣本分類;后者則不用產(chǎn)生候選框,直接將目標邊框定位的問題轉(zhuǎn)化為回歸問題。本文采用的SSD網(wǎng)絡屬于后者,保證了目標檢測跟蹤速度的同時,確保了實驗結(jié)果的穩(wěn)定和準確。
1行人目標檢測跟蹤方法
目前各實驗中使用的行人目標檢測跟蹤方法大致分為2種:一種是在視頻流出現(xiàn)行人的第一幀中手動框出行人目標,在之后的每一幀,利用跟蹤算法對行人進行跟蹤,這個過程可以實現(xiàn)短時間的行人目標跟蹤;另一種是使用行人目標檢測算法對視頻流進行逐幀行人檢測,然后將成功檢測出的行人目標框進行連接,得出的曲線則是該行人的運動軌跡,這個過程可以實現(xiàn)相對長時間的行人目標跟蹤。
后者避免了手動框定這個步驟,并且此方法在對系統(tǒng)的運算能力,和系統(tǒng)配置的要求并不高的情況下,可成功地對視頻中行人目標進行逐幀檢測。
2傳統(tǒng)目標檢測跟蹤的基本原理
傳統(tǒng)目標檢測主要基于滑窗操作[4],可分為訓練和預測2個步驟。訓練主要是用來得到分類器,比如SVM。預測是使用訓練好的分類器對圖像中的滑動窗口進行特征提取再分類,得到檢測結(jié)果。傳統(tǒng)目標檢測方法原理如圖1所示。
在預測階段有2種滑動窗口策略:一種是使用不同大小的滑動窗口,對每個滑動窗口提取特征并分類判斷是否是行人,最后經(jīng)過NMS得到檢測結(jié)果,不同檢測層的Anchor類似于不同大小的滑動窗口;另外一種策略是構(gòu)造圖像金字塔,只使用一種大小的滑動窗口在所有金字塔圖像上滑動,對每個滑動窗口提取特征并分類判斷是否是行人,經(jīng)過NMS得到最后的檢測結(jié)果。
3深度學習下的目標檢測跟蹤方法
利用神經(jīng)網(wǎng)絡能夠提取出更加魯棒的圖像特征,從而使后續(xù)跟蹤方法的跟蹤更加精準,進一步提升跟蹤的準確度。CNN憑借其強大的特征學習和特征表達能力,被廣泛地運用在計算機視覺領域,是圖像目標檢測中用途最廣泛、使用最簡單的深度學習方法。這類方法主要分為2類:一類是先由算法生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡進行樣本分類,如Faster R-CNN;另一類不用產(chǎn)生候選框,直接將目標邊框定位的問題轉(zhuǎn)化為回歸問題,如YOLO[5]和SSD。
3.1 Faster R-CNN網(wǎng)絡
經(jīng)過R-CNN網(wǎng)絡和Fast R-CNN網(wǎng)絡逐步改進,F(xiàn)aster R-CNN[6]引入RPN算法提取預選框,并且將預選框通過ROI P ooling得到固定的特征圖,經(jīng)過全連接層得到檢測結(jié)果。Faster R-CNN的網(wǎng)絡結(jié)構(gòu)示意圖如圖2所示,由VGG16特征提取網(wǎng)絡、RPN網(wǎng)絡、ROIPooling網(wǎng)絡和全連接層分類網(wǎng)絡構(gòu)成。
3.2 SSD網(wǎng)絡
與Faster R-CNN相比,SSD網(wǎng)絡沒有生成預選框的過程,在保證檢測精度和準確率的情況下,提高了檢測速度。SSD網(wǎng)絡主要由基礎網(wǎng)絡和金字塔網(wǎng)絡兩部分組成,采用VGG16作為基礎網(wǎng)絡結(jié)構(gòu),將VGG16的全連接層FC6和FC7轉(zhuǎn)換成3×3的卷積層Conv6和1×1的卷積層Conv7;隨后增加了4個卷積層來構(gòu)造網(wǎng)絡結(jié)構(gòu);去掉所有的Dropout層和Fc8層;將池化層pool5由原來的stride=2的2×2變成stride=1的3×3;添加了Atrous算法,獲得更加密集的得分映射。網(wǎng)絡最后的NMS層,對行人目標成功檢測。SSD網(wǎng)絡的結(jié)構(gòu)如圖3所示。