李 恒 朱東弼
行人檢測(Pedestrian Detection)是檢測圖像中的目標(biāo)位置,利用相關(guān)技術(shù)判定所提供的圖像是否存在行人并給出精確的位置標(biāo)識[1]。行人檢測方法可分兩大類,一類是基于背景建模的方法,核心是將前景中的目標(biāo)進行特征提取然后判斷是否存在目標(biāo),但背景建模會受到環(huán)境因素的影響會導(dǎo)致模型復(fù)雜。另一類是基于統(tǒng)計學(xué)習(xí)的檢測方法,它的核心是依據(jù)海量樣本對圖像特征進行提取,然后分類,但是也會受到多種因素干擾而發(fā)生漏檢或者重復(fù)檢測的問題,而影響檢測效果。
2012 年后,目標(biāo)檢測進入深度學(xué)習(xí)時代,2013 年,Sermanet 等人使用卷積稀疏編碼對卷積神經(jīng)網(wǎng)絡(luò)進行行人檢測的研究[2]。謝林江等人針對復(fù)雜背景因素影響檢測效果問題,提出了改進版的神經(jīng)網(wǎng)絡(luò)模型,使得行人的特征更加明顯[3]。當(dāng)前經(jīng)典的目標(biāo)檢測算法網(wǎng)絡(luò)模型分為兩大類:一類是基于區(qū)域建議的two-stage 算法,如2015 年的開創(chuàng)者RCNN、改進的Fast R-CNN 及2016 年進階版的Faster R-CNN[4],另一大類是one-stage 算法,比如經(jīng)典的YOLO 系列、SSD 等算法,相比于two-stage 算法,這些算法不包含區(qū)域建議模塊,不利于網(wǎng)絡(luò)學(xué)習(xí),從而拉低了整體的準(zhǔn)確率。
雖然行人檢測系統(tǒng)與深度學(xué)習(xí)相結(jié)合使得檢測效果有所提升,但是由于人體姿態(tài)的復(fù)雜程度和背景因素的影響,且行人屬于小尺度目標(biāo),因此會影響檢測出行人的準(zhǔn)確率。
Faster-RCNN 行人檢測流程首先使用全卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)對原始圖像進行特征提取,然后對特征圖進行候選框推薦,對于更可能是目標(biāo)物體的給與更高的概率完成候選區(qū)域的推薦。同時對特征圖進行窗口的選擇,由于推薦的窗口大小不同,采用自適應(yīng)池化層進行統(tǒng)一,最后固定檢測框在全連接層實現(xiàn)回歸分類任務(wù)。
RPN 用于生成網(wǎng)絡(luò)建議框,在輸入圖片時,產(chǎn)生候選框并進行定位顯示分類概率。將RPN 和Faster-RCNN 進行訓(xùn)練,從而得到輸出[4]。對于Faster-RCNN,沒有固定的輸入原始圖片尺寸,但通常將輸入的圖片短邊設(shè)置成600。如對于一張1 200×1 800 的圖片,會把圖片縮放到600×900 上。對于所輸出的特征圖尺寸進行五次成倍數(shù)裁剪,這里有兩個基本的模塊,一是Conv Block,為了改變網(wǎng)絡(luò)維度;另一個是Identity Block,用于加深網(wǎng)絡(luò)。為在圖片中生成候選區(qū)域,要在輸出的特征圖中進行滑窗選擇。針對特征圖中的多個窗口,分別要預(yù)測出k 個目標(biāo)候選區(qū)域,稱為“錨”(Anchor)。每個anchor 有相對應(yīng)的尺寸。如在3×3 的滑窗的中心處,根據(jù)三種不同的長寬比得到九個不同尺寸的矩形三種形狀寸的anchor。使得精確度有所提升。
在一張圖片中,真正需要檢測的目標(biāo)不會占據(jù)太大面積,這會產(chǎn)生過多的負樣本,并且固定的anchor 尺寸使檢測受限,所以提出使用特征去指導(dǎo)每個矩形框的中心,自行生成長寬比,既可以節(jié)約時間,又可以生成合適的長寬比,既可以減少生成anchor 的時間,又可以生成合適的長寬比,這樣對于多變的人體姿態(tài)檢測效果更好。在RPN 結(jié)構(gòu)中每一層都加入Guided Anchoring 模塊,作用是對特征圖進行建議框預(yù)測,其中的一個anchor generation 模塊作用是矩陣框的獲取不同于以往的滑窗,是要在預(yù)測特征圖的每一個點的像素作為目標(biāo)置信度,作用是降低負樣本的數(shù)量,并且高和寬的比例尺寸不是固定不變的,用CNN 的方法進行回歸這樣與行人的尺度可以更好地對齊。另一個模塊是Feature adaption 模塊,將anchor 的高和寬轉(zhuǎn)換成一個有兩個通道的特征圖,之后再次對該特征圖進行卷積,即特征重采樣。用該方法通過RPN 和檢測網(wǎng)絡(luò)共享卷積層的方法縮減圖像中區(qū)域建議框的計算時間來提高檢測精度。
為了提高對于行人的檢測能力,本文以Faster R-CNN 模型為基礎(chǔ),提出對RPN 中的模型結(jié)構(gòu)進行改進,可提高行人檢測的精準(zhǔn)度,并且去除了重復(fù)性計算,使得綜合性能有不錯的效果。