張可心,宋 輝,劉 淇
(1.沈陽工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,沈陽 110870;2.煙臺東方威思頓電氣有限公司,煙臺 264000)
隨著技術(shù)的發(fā)展和基礎(chǔ)設(shè)施建設(shè)的完善,為保證交通安全,從視頻或圖像中對行人目標(biāo)進(jìn)行檢測已成為近年來研究的熱門課題。在道路交通場景中,由于受到行人的關(guān)節(jié)部位的運(yùn)動(dòng)變化、背景遮擋、行人重疊等因素的影響,對行人進(jìn)行即時(shí)準(zhǔn)確的檢測就變得十分復(fù)雜。行人檢測算法可以根據(jù)行人檢測的研究過程分為傳統(tǒng)行人檢測算法和基于深度學(xué)習(xí)技術(shù)的行人檢測算法[1]。目前基于深度學(xué)習(xí)的行人檢測技術(shù)主要被分為兩類:基于回歸模型的一階段檢測算法和基于區(qū)域生成的二階段檢測算法。行人被遮擋的情況在行人檢測問題中是占絕大多數(shù)的,令許多學(xué)者的目光關(guān)注到對被遮擋的行人的檢測上。在遮擋行人檢測中,行人突然從司機(jī)的視野里出現(xiàn)或消失這一現(xiàn)象雖然屬于小概率事件,但不能完全避免,也一直缺乏解決的對策。對于被遮擋行人的檢測算法,遮擋面積的大小以及遮擋的部位都對檢測的準(zhǔn)確性有一定影響,且由于行人的遮擋情況比較復(fù)雜,無法對每種遮擋情況進(jìn)行逐一研究;同時(shí)由于遮擋行人的姿態(tài)較為多樣,模板匹配法不能很好地匹配被遮擋行人的目標(biāo)特征。針對現(xiàn)有的諸多問題,在此提出一種基于前后幀關(guān)聯(lián)的部分被遮擋行人檢測方法。
在基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測算法中,二階段算法的特點(diǎn)是需要使用生成算法找到不同的候選框,然后將候選框提取的特征組作為回歸和分類輸入[2]。2014 年,Donahue 等人[3]提出了經(jīng)典二階段目標(biāo)檢測算法R-CNN,采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,替代了傳統(tǒng)的特征提取方法,之后用SVM 分類器進(jìn)行回歸分類,是首次將深度學(xué)習(xí)應(yīng)用到目標(biāo)檢測之上的算法。2015 年,何凱明團(tuán)隊(duì)提出了Faster R-CNN 網(wǎng)絡(luò)[4],采用區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network, RPN)獲取預(yù)選區(qū)域,并使用多種尺度的錨框解決多尺度目標(biāo)和檢測問題,提升了網(wǎng)絡(luò)檢測速度。在此基礎(chǔ)上,特征金字塔網(wǎng)絡(luò)[5](Feature Pyramid Networks, FPN)采用多尺度特征融合模型解決了目標(biāo)尺度差異較大的問題。
另一類方法是基于回歸的一階段算法,常用的包括YOLO[6]、SSD[7]、RetinaNet[8]等。這類算法只需要一步即可完成所有操作,極大地提高了網(wǎng)絡(luò)的檢測速度。YOLOv5 算法在速度與精度的平衡上做了許多優(yōu)化,比如最近有人提出的改進(jìn)YOLOv5 的行人檢測算法[9],通過放大數(shù)據(jù)集的訓(xùn)練網(wǎng)格的方式,提高了對遮擋行人的檢測精度。
針對部分遮擋行人目標(biāo)的檢測問題,在此提出一種基于目標(biāo)跟蹤的被遮擋行人檢測方法,其網(wǎng)絡(luò)整體設(shè)計(jì)流程圖如圖1 所示。
圖1 網(wǎng)絡(luò)整體設(shè)計(jì)流程圖
方法的總體思路為:通過目標(biāo)跟蹤的方式對被遮擋的行人目標(biāo)進(jìn)行圖像前后幀關(guān)聯(lián),將數(shù)據(jù)集輸入到基線網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,輸出預(yù)測結(jié)果;同時(shí)對同一個(gè)視頻的視頻幀判斷輸出的預(yù)測結(jié)果中是否存在目標(biāo)缺失,若存在目標(biāo)缺失,即可能存在未被檢測出的被遮擋行人目標(biāo)。將預(yù)測結(jié)果作為訓(xùn)練樣本再次輸入基線模型進(jìn)行二次訓(xùn)練,通過卡爾曼濾波算法對未被檢出的目標(biāo)可能出現(xiàn)的區(qū)域進(jìn)行預(yù)測,隨后利用匈牙利算法對目標(biāo)消失區(qū)域進(jìn)行特征兩兩匹配,以實(shí)現(xiàn)前后幀目標(biāo)關(guān)聯(lián),從而檢測出未能被檢出的被遮擋目標(biāo)。
為解決行人目標(biāo)被遮擋問題,通過目標(biāo)跟蹤的方式對被遮擋的行人目標(biāo)進(jìn)行前后幀關(guān)聯(lián),整體檢測結(jié)構(gòu)如圖2 所示。
圖2 基于跟蹤關(guān)聯(lián)的行人檢測結(jié)構(gòu)圖
將數(shù)據(jù)集輸入到模型中進(jìn)行第一次訓(xùn)練,判斷模型的預(yù)測結(jié)果在同視頻的情況下是否存在目標(biāo)缺失,若存在目標(biāo)缺失的問題,則將全部的預(yù)測結(jié)果輸入到針對被遮擋的行人檢測模型中。模型通過卡爾曼濾波利用圖像中行人目標(biāo)的運(yùn)動(dòng)信息和外觀信息得到關(guān)聯(lián)矩陣,對第一次檢測中存在目標(biāo)缺失的區(qū)域進(jìn)行位置預(yù)測,關(guān)聯(lián)出感興趣的區(qū)域,然后通過匈牙利算法進(jìn)行預(yù)測匹配,通過比較完整行人目標(biāo)與感興趣區(qū)域的顏色特征、紋理特征以及輪廓特征,在該模型的感興趣區(qū)域找出與完整目標(biāo)部分特征相同的區(qū)域。當(dāng)存在部分特征相同,則代表信息匹配,說明這是缺失的目標(biāo),因此能夠檢測出在第一次檢測中未被檢出的被遮擋的行人目標(biāo)。此方法能夠減小網(wǎng)絡(luò)的搜索區(qū)域,在提高被遮擋行人檢測的準(zhǔn)確率的同時(shí)也能提高檢測效率。
實(shí)驗(yàn)選擇滴滴發(fā)布的D2-City 視頻跟蹤數(shù)據(jù)集為樣本庫,它是大規(guī)模行車視頻數(shù)據(jù)集,涵蓋不同的天氣、道路、交通情況,視頻均以高清或超高清分辨率錄制。選取含遮擋行人的視頻片段轉(zhuǎn)換成視頻幀,標(biāo)簽用labelimg 工具進(jìn)行標(biāo)注。數(shù)據(jù)集樣本總量3744 張,并按6:2:2 的數(shù)量比例進(jìn)行劃分。
采用TPH-YOLOv5[10]作為基線網(wǎng)絡(luò)模型。它是一種基于YOLOv5 網(wǎng)絡(luò)的改進(jìn)算法,在YOLOv5 的基礎(chǔ)上,在Head 部分加入一個(gè)用于檢測更小尺度物體的檢測頭。此處采用Transformer Prediction Head(TPH)替換YOLOv5 的預(yù)測頭,提升了預(yù)測潛力。為了能大范圍覆蓋圖像,此處采用注意力模塊CBAM生成注意力圖,提高對一些易混淆類別的分辨能力。
評價(jià)指標(biāo)選用平均精度AP、召回率R、平均對數(shù)漏檢率。其中,召回率R 指的是在所有正樣本中,TP 所占比例,即:
平均對數(shù)漏檢率LAMR 是衡量模型漏檢的指標(biāo),定義為:
LAMR 越大,模型的漏檢率越高,性能也就越好。同樣,平均精確率AP 值越高,模型的檢測效果也越好。
實(shí)驗(yàn)所得到的數(shù)據(jù)如表1 所示。包括常規(guī)AP、召回率R、LAMR 以及AP(遮擋行人)四個(gè)指標(biāo),再分不同情況進(jìn)行分析。
表1 對比實(shí)驗(yàn)結(jié)果
1)光線不足(過暗)的情況
在光線過暗場景且行人服裝顏色幾乎與背景融為一體的情況下,本模型的檢測準(zhǔn)確率較原模型有所提高。主要是在將目標(biāo)跟蹤的關(guān)聯(lián)方式引入模型后,相當(dāng)于在原模型中加入了一個(gè)“注意力機(jī)制”,預(yù)測被遮擋的目標(biāo)可能出現(xiàn)的位置,以減小模型的搜索范圍,同時(shí)提高模型的檢測效率和對行人特征的識別度。檢測效果的實(shí)際對比如圖3 所示。
圖3 光線不足情況下的實(shí)驗(yàn)效果對比
從圖3 可以看出,在光線不足時(shí),由于行人所穿衣服以黑色居多,與昏暗背景環(huán)境幾乎融合,因此導(dǎo)致原模型只檢測出了兩個(gè)行人,而本模型檢測出了四個(gè),其中包括一個(gè)被嚴(yán)重遮擋的行人目標(biāo)。
2)遮擋面積較大的情況
影響模型檢測準(zhǔn)確度的因素有很多,遮擋面積也是重要影響因素之一。本模型通過在制作數(shù)據(jù)集時(shí)選取大量部分被遮擋的行人樣本來使網(wǎng)絡(luò)對其進(jìn)行學(xué)習(xí),同時(shí)通過對被露出的特征進(jìn)行匹配,以期解決對被遮擋的行人目標(biāo)檢測準(zhǔn)確度較低甚至漏檢的問題。從數(shù)據(jù)集中選取行人被嚴(yán)重遮擋的圖片進(jìn)行檢測檢測。檢測效果的實(shí)際對比圖4 所示。
圖4 遮擋范圍較大情況下的實(shí)驗(yàn)效果對比
表1 數(shù)據(jù)表明,本算法的LAMR 相比原模型降低了7.39%,被遮擋行人的AP 值也提高了9.84%。行人的漏檢情況得到了很大的改善。
圖4中行人被柵欄的遮擋面積很大,只露出了約20%,且由于書包顏色與柵欄在顏色上很相似,模型很難識別。對此,原網(wǎng)絡(luò)只檢測到了2 個(gè)行人,而本模型檢測出了3 個(gè)行人,其一被嚴(yán)重遮擋,也被檢測出來。
本研究提出的基于目標(biāo)跟蹤的前后幀關(guān)聯(lián)的行人檢測算法模型在對網(wǎng)絡(luò)預(yù)測結(jié)果進(jìn)行目標(biāo)關(guān)聯(lián)的情況下,被遮擋的行人目標(biāo)檢測準(zhǔn)確率獲得了極大的提升,即使在同樣只檢測出一個(gè)行人目標(biāo)的情況下,本算法模型的置信度也要高于原模型的表現(xiàn),表明基于目標(biāo)跟蹤的行人檢測算法在被遮擋行人目標(biāo)的檢測準(zhǔn)確度上有實(shí)質(zhì)性的改善。