相敏月, 涂振宇, 孫逸飛, 方 強(qiáng), 馬 飛
(南昌工程學(xué)院信息工程學(xué)院, 南昌 330000)
行人檢測(cè)是目標(biāo)檢測(cè)的重要研究領(lǐng)域之一,在智能交通、視頻監(jiān)控及無(wú)人機(jī)等方面的應(yīng)用十分廣泛。
傳統(tǒng)的行人檢測(cè)方法主要依賴于人工提取特征的方式,Dalal 等人[1]于2005 年開(kāi)發(fā)了一種使用方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征和支持向量機(jī)(Support Vector Machine,SVM)分類器的行人檢測(cè)模型。 該模型首先使用滑動(dòng)窗口在圖像中識(shí)別候選區(qū)域;其次,提取HOG 特征并使用SVM 對(duì)其進(jìn)行分類;最后,使用極大抑制方法將輸出結(jié)果組合在一起。 Felzenszwal 等人[2]在2008 年引入了可變形零件模型(Deformable Part Model,DPM)用于行人檢測(cè)。 DPM 使用HOG 特征并將圖像分成幾個(gè)部分,DPM 可以使用組件的組合來(lái)檢測(cè)行人,并能夠?qū)π腥说目勺冃尾糠纸?,從而更?zhǔn)確地檢測(cè)不同大小和形狀的行人。 這些模型存在明顯的局限性,手工特征提取單一,難以適用于遮擋、姿態(tài)變化和低照度等復(fù)雜環(huán)境下的行人目標(biāo)檢測(cè),導(dǎo)致不同程度的漏檢和誤檢等問(wèn)題。
近年來(lái),深度學(xué)習(xí)在行人檢測(cè)中逐漸得到廣泛的應(yīng)用。 這種方法具有強(qiáng)大的表征能力,能夠解決傳統(tǒng)方法需要人工提取特征的問(wèn)題。 目標(biāo)檢測(cè)從階段上分為兩種,一階段和二階段。 一階段主要包括快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast Region - based Convolutional Neural Network,F(xiàn)ast R-CNN)和更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region - based Convolutional Neural Network,F(xiàn)aster R-CNN)等,這類網(wǎng)絡(luò)預(yù)先回歸一次目標(biāo)候選框,再利用網(wǎng)絡(luò)對(duì)候選框進(jìn)行分類和回歸,雖然精度較高但檢測(cè)時(shí)間過(guò)長(zhǎng)。 二階段主要包括單激發(fā)多框探測(cè)器(Single Shot MultiBoxDetector,SSD) 和YOLO (You Only Look Once)等為代表,只進(jìn)行一次分類和定位,大大提高了檢測(cè)速度,但同時(shí)也導(dǎo)致了精度較差。 何自芬[3]等針對(duì)輔助駕駛中夜間小目標(biāo)紅外行人檢測(cè)精度低的問(wèn)題,提出在網(wǎng)絡(luò)中添加空間金字塔池化模塊與更小的感受野的檢測(cè)層,來(lái)增強(qiáng)網(wǎng)絡(luò)輸出特征圖的表征能力;郝帥[4]等通過(guò)構(gòu)建分層注意力映射模塊來(lái)增強(qiáng)行人特征表達(dá)能力;李傳東[5]以輕量級(jí)LFFD(Light and Fast Face Detector)網(wǎng)絡(luò)為基礎(chǔ),由兩級(jí)改進(jìn)網(wǎng)絡(luò)組合,提高了檢測(cè)精度。 但是在低照度環(huán)境下,這些研究依舊存在不同程度的漏檢問(wèn)題。
深度學(xué)習(xí)的行人檢測(cè)方法大多應(yīng)用于可見(jiàn)光下的場(chǎng)景,針對(duì)低照度等復(fù)雜環(huán)境下的檢測(cè),往往效果較差。 可見(jiàn)光圖像的優(yōu)勢(shì)在于依據(jù)物體的反射率的不同進(jìn)行成像,光譜信息較多,分辨率較高,圖像背景比較豐富,但易受到外界環(huán)境因素的影響,在低照度等復(fù)雜環(huán)境下不能正常工作。 而在紅外圖像中,受光照條件的影響較少,更容易識(shí)別出行人位置。
本文改進(jìn)YOLOv5s 的主干網(wǎng)絡(luò),加入通道注意力機(jī)制ECA(Efficient Channel Attention),加強(qiáng)網(wǎng)絡(luò)對(duì)行人特征的初步提取;在頸部網(wǎng)絡(luò)中引入加權(quán)雙向特征金字塔( Bidirectional Feature Pyramid Network,BIFPN),通過(guò)殘差連接增強(qiáng)特征的融合能力;最后,采用公開(kāi)的韓國(guó)科學(xué)技術(shù)院KAIST 多光譜行人檢測(cè)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),進(jìn)行模型性能測(cè)試,并與YOLOv5 其他模型進(jìn)行對(duì)比。
YOLOv5 通過(guò)調(diào)整兩個(gè)參數(shù),即網(wǎng)絡(luò)深度和特征圖寬度劃分出多個(gè)模型,其中YOLOv5s 深度最小,特征圖的寬度最小,是當(dāng)前一種實(shí)時(shí)性和準(zhǔn)確性俱佳的行人檢測(cè)模型,并且在多尺度目標(biāo)檢測(cè)中具有良好的效果。 所以本文采用YOLOv5s 模型,模型結(jié)構(gòu)如圖1 所示。
圖1 YOLOv5s 模型結(jié)構(gòu)Fig. 1 YOLOv5s model structure
整個(gè)模型結(jié)構(gòu)主要包含4 個(gè)部位,分別為輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和頭部(Head)檢測(cè)模塊。 檢測(cè)模塊相對(duì)于YOLOv3和YOLOv4 沒(méi)有變化;主干網(wǎng)絡(luò)(Backbone)主要是用于提取輸入圖像的特征,F(xiàn)oucs 模塊對(duì)圖片進(jìn)行切片操作,使網(wǎng)絡(luò)提取到更加充分的特征信息;頸部網(wǎng)絡(luò)主要用于生成特征金字塔,增強(qiáng)網(wǎng)絡(luò)模型對(duì)不同尺度物體的檢測(cè)能力,實(shí)現(xiàn)對(duì)同一物體不同尺寸和尺度的識(shí)別。 YOLOv5s 在特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)結(jié)構(gòu)的基礎(chǔ)上參考路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet),實(shí)現(xiàn)了多尺度特征融合,增強(qiáng)了特征的表達(dá)能力。
在低照度環(huán)境下,行人檢測(cè)或多或少會(huì)存在漏檢和誤檢的問(wèn)題,本文在YOLOv5s 的基礎(chǔ)上,在主干網(wǎng)絡(luò)中插入ECA 通道注意力機(jī)制,提升模型對(duì)低照度環(huán)境下行人細(xì)節(jié)的提取能力;在頸部網(wǎng)絡(luò)中,用BIFPN 網(wǎng)絡(luò)來(lái)代替PANet 網(wǎng)絡(luò),使得模型可以更精確的識(shí)別行人目標(biāo),加快特征融合。 改進(jìn)后的BEYOLOv5s 模型結(jié)構(gòu)如圖2 所示。
圖2 改進(jìn)后的BE-YOLOv5s 模型結(jié)構(gòu)Fig. 2 Improved BE-YOLOv5s module structure
在神經(jīng)網(wǎng)絡(luò)中加入不同的通道注意力機(jī)制,可以提升模型的檢測(cè)精度,更準(zhǔn)確的識(shí)別和定位在低照度環(huán)境下的行人目標(biāo)。 注意力機(jī)制的原理是根據(jù)權(quán)重系數(shù),重新加權(quán)求和。 注意力機(jī)制的本質(zhì)在于對(duì)不同的任務(wù)可以根據(jù)輸入進(jìn)行特征匹配,ECA 通道注意力機(jī)制有效的減少了參數(shù)計(jì)算量,提升了檢測(cè)速度。
ECA 通道注意力機(jī)制的工作原理如圖3 所示。首先, 剔除原來(lái)的壓縮和激勵(lì)(Squeeze - and Excitation,SE)模塊中的全連接層,將輸入特征圖進(jìn)行全局平均化池操作;其次,進(jìn)行卷積核大小為k的一維卷積操作,使用Sigmoid 激活函數(shù)生成通道權(quán)重;最后,將特征圖與通道權(quán)重相乘,得到輸出特征圖。 同時(shí)ECA 通道注意力機(jī)制將原來(lái)SE 模塊中的多層感知機(jī)模塊轉(zhuǎn)變?yōu)橐痪S卷積形式,降低了參數(shù)計(jì)算量,實(shí)現(xiàn)了跨通道交互,用更少的計(jì)算成本提高檢測(cè)網(wǎng)絡(luò)的性能。
圖3 ECA 通道注意力機(jī)制Fig. 3 ECA Channel attention mechanism
在YOLOv5 提取行人的初始特征過(guò)程中,由于受到低照度環(huán)境的影響,特征顯示不足,本文在主干網(wǎng)絡(luò)的最后一個(gè)CSP(Cross Stage Partial)模塊后加入ECA 通道注意力機(jī)制,控制了參數(shù)量且增強(qiáng)了對(duì)行人特征的提取能力。
引入BIFPN 加權(quán)雙向特征金字塔,該結(jié)構(gòu)多次使用特征網(wǎng)絡(luò)層,進(jìn)行加權(quán)特征融合。 對(duì)于不同分辨率特征的融合,BIPFN 為每個(gè)輸入添加額外的權(quán)重,并讓網(wǎng)絡(luò)區(qū)分不同特征的重要程度,結(jié)構(gòu)設(shè)計(jì)如圖4 所示。
圖4 加權(quán)雙向特征金字塔Fig. 4 Bidirectional Feature Pyramid
本文在YOLOv5s 的頸部采用BIFPN 網(wǎng)絡(luò),快速進(jìn)行多尺度特征融合,提升檢測(cè)效果。
實(shí)驗(yàn)采用Pytorch 深度學(xué)習(xí)框架進(jìn)行網(wǎng)絡(luò)模型部署,整體基于Windows10 操作系統(tǒng),CPU 為AMD Ryzen 5 3600X 處理器,顯卡為NVIDIA GeForce RTX 2070S(8 G)。
本文網(wǎng)絡(luò)模型訓(xùn)練所用實(shí)驗(yàn)數(shù)據(jù)來(lái)源于韓國(guó)科學(xué)技術(shù)院公開(kāi)的KAIST 數(shù)據(jù)集,抽取2 000 張可見(jiàn)光圖像,以及與之對(duì)應(yīng)的2 000 張紅外圖像作為數(shù)據(jù)集,按照8 ∶1 ∶1 的比例,劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。
本文主要采用準(zhǔn)確率(P,Precision)、召回率(R,Recall)、 平均精度均值(mAP,mean Average Precision)以及推理時(shí)間作為模型評(píng)價(jià)指標(biāo)。P和R的計(jì)算公式如式(1) 和式(2):
其中,TP表示正例被正確預(yù)測(cè);FP表示負(fù)例被錯(cuò)誤預(yù)測(cè)為正例;FN表示正例被錯(cuò)誤預(yù)測(cè)。
mAP是對(duì)P和R的一種綜合處理指標(biāo),表示PR曲線下的面積。 推理時(shí)間代表檢測(cè)每個(gè)圖像需要消耗的時(shí)間。
與YOLOv5s、YOLOv5l、YOLOv5n 模型進(jìn)行實(shí)驗(yàn)對(duì)比,在可見(jiàn)光數(shù)據(jù)集和紅外數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見(jiàn)表1、表2。
表1 可見(jiàn)光數(shù)據(jù)集性能指標(biāo)對(duì)比Tab. 1 Comparison of performance indicators for visible light datasets
表2 紅外數(shù)據(jù)集性能指標(biāo)對(duì)比Tab. 2 Comparison of performance indicators for infrared datasets
由表1 和表2 可見(jiàn),在兩種不同的數(shù)據(jù)集上,改進(jìn)后的BE-YOLOv5s 模型相比于改進(jìn)前,均大幅提升了檢測(cè)準(zhǔn)確率P,由于P和R之間存在一定的相關(guān)性,所以難以避免地會(huì)使檢測(cè)召回率R稍有降低,改進(jìn)后的模型在兩種數(shù)據(jù)集上均顯著提升了mAP。 推理時(shí)間方面,改進(jìn)后模型的檢測(cè)時(shí)間相比于改進(jìn)前雖有所提高,但仍滿足實(shí)時(shí)性要求。YOLOv5l 和YOLOv5n 是通過(guò)調(diào)整YOLOv5 不同的網(wǎng)絡(luò)深度和寬度這兩個(gè)參數(shù)得到的模型,YOLOv5n的兩個(gè)參數(shù)小于YOLOv5s,其檢測(cè)速度更快,但精度更差。 YOLOv5l 的兩個(gè)參數(shù)均大于YOLOv5s,其檢測(cè)速度更慢,但精度更高。 由此可見(jiàn),BE -YOLOv5s 模型在提升行人檢測(cè)準(zhǔn)確性的同時(shí),保持了原模型的檢測(cè)速度。 在兩種數(shù)據(jù)集上訓(xùn)練時(shí),4種模型在驗(yàn)證集上的mAP0.5: 0.95 對(duì)比如圖5 所示。
圖5 4 個(gè)模型mAP0.5:0.95 對(duì)比Fig. 5 Comparison of four models mAP0.5:0.95
另一方面,從表2 可見(jiàn),紅外數(shù)據(jù)集上的各項(xiàng)精度指標(biāo)均高于可見(jiàn)光數(shù)據(jù)集,推理時(shí)間滿足實(shí)時(shí)性要求。 由此可見(jiàn),紅外圖像增強(qiáng)了行人目標(biāo)與背景信息之間的特征差異,提升行人檢測(cè)的準(zhǔn)確性。 在YOLOv5s 模型的部分測(cè)試集的可見(jiàn)光圖像與紅外圖像的行人檢測(cè)結(jié)果如圖6 所示,目標(biāo)框上的數(shù)字表示置信度。
圖6 YOLOv5s 模型的檢測(cè)結(jié)果Fig. 6 YOLOv5s model detection performance
由圖6 可見(jiàn),由于夜晚光照條件不足,YOLOv5s模型在可見(jiàn)光圖像上檢測(cè)效果較差,可見(jiàn)光圖像中的3 個(gè)位于光線較暗處的行人均未檢測(cè)出,而在紅外圖像中,依舊有兩位行人未檢測(cè)出。 改進(jìn)后的BE-YOLOv5s 模型下的行人檢測(cè)結(jié)果如圖7 所示,可見(jiàn)兩種圖像中均可準(zhǔn)確檢測(cè)出所有行人。 綜合結(jié)果分析,BE-YOLOv5s 模型在低照度的環(huán)境下檢測(cè)效果較好。
圖7 BE-YOLOv5s 模型的檢測(cè)結(jié)果Fig. 7 BE-YOLOv5s model detection results
本文針對(duì)YOLOv5s 模型在低照度環(huán)境下對(duì)多尺度行人檢測(cè)準(zhǔn)確率低的問(wèn)題,引入ECA 通道注意力機(jī)制,提高模型對(duì)行人特征的提取,將原PANet網(wǎng)絡(luò)替換為BIFPN 網(wǎng)絡(luò),加強(qiáng)了不同尺度的特征融合,得到了準(zhǔn)確性和實(shí)時(shí)性俱佳的BE-YOLOv5s 目標(biāo)檢測(cè)模型。 在可見(jiàn)光數(shù)據(jù)集和紅外數(shù)據(jù)集上分別進(jìn)行測(cè)試,并與YOLOv5s、YOLOv5l、YOLOv5n模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明:改進(jìn)后的BE-YOLOv5s模型在兩種數(shù)據(jù)集上的mAP值均高于原模型,并且保持了原模型高實(shí)時(shí)性,有效提升了行人檢測(cè)的精度。 未來(lái)將融合可見(jiàn)光圖像和紅外圖像各自的優(yōu)勢(shì),不斷提升檢測(cè)精度。