鄧?yán)m(xù)方,吳 強(qiáng),周文正
(1.河南林業(yè)職業(yè)學(xué)院 信息工程系,河南 洛陽(yáng) 471002;2.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001;3.中國(guó)空間技術(shù)研究院西安分院,陜西 西安 710100)
目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)任務(wù),是解決目標(biāo)跟蹤、場(chǎng)景理解、圖像描述和事件識(shí)別等更高層次視覺(jué)任務(wù)的基石[1],廣泛應(yīng)用于軍工、醫(yī)療、工業(yè)、交通和安防等領(lǐng)域[2]。目標(biāo)檢測(cè)技術(shù)主要分為圖像分類(lèi)和目標(biāo)定位2個(gè)子任務(wù),利用圖像特征信息計(jì)算各目標(biāo)類(lèi)別置信度并對(duì)其位置進(jìn)行回歸實(shí)現(xiàn)檢測(cè)[3]。隨著實(shí)際檢測(cè)場(chǎng)景逐漸復(fù)雜,目標(biāo)在圖像中的大小、數(shù)量以及姿態(tài)等愈發(fā)多樣化,使得目標(biāo)檢測(cè)效果受到了較大的影響[4-5]。因此,如何針對(duì)復(fù)雜場(chǎng)景下的目標(biāo)特征,設(shè)計(jì)一種高性能的目標(biāo)檢測(cè)方法,對(duì)目標(biāo)檢測(cè)的理論豐富以及實(shí)際應(yīng)用都有較大推動(dòng)作用。
目標(biāo)檢測(cè)技術(shù)的發(fā)展大致分為傳統(tǒng)方法和深度學(xué)習(xí)方法2個(gè)階段[6],傳統(tǒng)方法主要通過(guò)區(qū)域選擇、特征提取以及目標(biāo)分類(lèi)實(shí)現(xiàn)檢測(cè),雖然具有較強(qiáng)的可解釋性,但魯棒性較差,僅適用于特定目標(biāo)和場(chǎng)景[7-8]。深度學(xué)習(xí)利用海量參數(shù)學(xué)習(xí)提取圖像中穩(wěn)定性且泛化性較高的特征,再結(jié)合高性能分類(lèi)器,使目標(biāo)檢測(cè)性能得到了較大突破[9]。文獻(xiàn)[10-11]針對(duì)目標(biāo)檢測(cè)任務(wù)提出了基于先驗(yàn)框(Anchor-base)的RCNN系列網(wǎng)絡(luò),通過(guò)兩步走策略先提取目標(biāo)推薦區(qū)域再進(jìn)行目標(biāo)分類(lèi),雖檢測(cè)精度高,但所需算力過(guò)大,無(wú)法較好地應(yīng)用于邊緣設(shè)備中。文獻(xiàn)[12-13]為緩解RCNN系列網(wǎng)絡(luò)高計(jì)算量的問(wèn)題,移除了候選區(qū)域提取步驟,提出了單階段端到端訓(xùn)練的YOLO系列網(wǎng)絡(luò),雖在一定程度上提升了效率,但其預(yù)測(cè)方式容易造成小面積目標(biāo)漏檢。Law等[14]將目標(biāo)檢測(cè)看作關(guān)鍵點(diǎn)檢測(cè)問(wèn)題,提出了無(wú)需引入先驗(yàn)框(Anchor-free)的CornerNet網(wǎng)絡(luò),進(jìn)一步提升了檢測(cè)器速度,但由于解空間過(guò)大,使得誤檢目標(biāo)較多。可見(jiàn),現(xiàn)階段的目標(biāo)檢測(cè)方法仍存在一定局限,檢測(cè)性能仍有較大的提升空間。
針對(duì)上述基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法存在的不足,本文在總結(jié)前人研究的基礎(chǔ)上,提出了一種基于分組注意力和高斯多尺度的目標(biāo)檢測(cè)方法。本文主要工作如下:
① 設(shè)計(jì)了一種由粗到精的特征提煉結(jié)構(gòu),以深度可分離卷積、注意力機(jī)制以及多維特征交互卷積等方式充分提取目標(biāo)特征;
② 提出了基于分組卷積的注意力模塊,根據(jù)通道特征相似性對(duì)不同目標(biāo)特征分組,再分別利用空間注意力機(jī)制增強(qiáng)目標(biāo)位置信息,使網(wǎng)絡(luò)能更好地聚焦目標(biāo)相關(guān)特征;
③ 引入了高斯多尺度空間特征融合結(jié)構(gòu),保障網(wǎng)絡(luò)計(jì)算效率的同時(shí)提升單階段網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的識(shí)別效果。
所提目標(biāo)檢測(cè)網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示,網(wǎng)絡(luò)主要分為特征提取、分組注意力機(jī)制以及高斯多尺度融合三部分。特征提取采用由粗到精的提取策略,以深度可分離卷積結(jié)合跨層融合方式保障目標(biāo)信息充分提取;分組注意力機(jī)制根據(jù)特征相似度對(duì)不同目標(biāo)特征進(jìn)行分組,再針對(duì)每組特征利用空間注意力機(jī)制增強(qiáng)各目標(biāo)所在位置特征的信息;高斯多尺度融合將各維度特征融合后利用高斯模糊算法實(shí)現(xiàn)多尺度變換,并結(jié)合相應(yīng)維度特征實(shí)現(xiàn)對(duì)不同尺度目標(biāo)的檢測(cè)。
圖1 目標(biāo)檢測(cè)網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.1 Overall structure of object detection network
特征提取結(jié)構(gòu)針對(duì)目標(biāo)基礎(chǔ)特征和關(guān)鍵特征依次進(jìn)行提取,其中基礎(chǔ)特征主要通過(guò)骨干結(jié)構(gòu)進(jìn)行提取。骨干結(jié)構(gòu)分為輸入模塊以及多個(gè)不同維度的特征提取單元首尾串聯(lián)構(gòu)成,輸入模塊主要考慮到目標(biāo)所處場(chǎng)景存在較多光線(xiàn)過(guò)亮或過(guò)暗的圖像,若直接基于原圖進(jìn)行卷積計(jì)算,容易增加后續(xù)特征提取難度。因此,該模塊在原始RGB圖像基礎(chǔ)上設(shè)計(jì)了如圖2(a)所示圖像增強(qiáng)過(guò)程來(lái)突出目標(biāo),主要通過(guò)灰度化綜合RGB三通道信息后再利用直方圖均衡化算法提升圖像對(duì)比度,降低光照對(duì)目標(biāo)的影響;同時(shí),為避免圖像增強(qiáng)過(guò)程對(duì)正常目標(biāo)的影響,將原圖、灰度圖以及均衡化后的圖像進(jìn)行拼接后作為后續(xù)模塊輸入,使網(wǎng)絡(luò)保留原始信息的同時(shí)突出復(fù)雜環(huán)境下的目標(biāo)特征。特征提取單元串聯(lián)結(jié)構(gòu)如圖2(b)所示,主要由一系列高效率的卷積單元堆疊構(gòu)成,由淺到深地提取目標(biāo)特征信息。同時(shí),受文獻(xiàn)[15-16]網(wǎng)絡(luò)結(jié)構(gòu)啟發(fā),深層特征采用大卷積核可更好地提升網(wǎng)絡(luò)性能,故特征提取骨干結(jié)構(gòu)對(duì)最深層次的維度特征采用5×5卷積核,其他層次采用3×3卷積核。卷積單元詳細(xì)結(jié)構(gòu)如圖2(c)所示,主要以深度卷積、點(diǎn)卷積結(jié)合hard-Swish激活函數(shù)構(gòu)成,使網(wǎng)絡(luò)保證計(jì)算效率的同時(shí)盡可能地捕獲目標(biāo)信息。而不同維度的特征提取單元之間采用步長(zhǎng)為2的3×3標(biāo)準(zhǔn)卷積來(lái)綜合所有通道特征進(jìn)行連接,如圖2(c)中虛線(xiàn)所示。
圖2 特征提取骨干結(jié)構(gòu)模塊Fig.2 Feature extraction backbone structure module
為了更好地突出目標(biāo)特征,本文設(shè)計(jì)了如圖3所示的分組注意力機(jī)制,同時(shí)結(jié)合跨層特征融合結(jié)構(gòu)進(jìn)一步提煉目標(biāo)信息。
圖3 分組注意力機(jī)制Fig.3 Group attention mechanism
分組注意力機(jī)制以每個(gè)維度特征提取單元最后一層輸出特征作為輸入,利用全局平均池化獲取通道特征全局信息后,將特征均值進(jìn)行聚類(lèi)分組(通常同一目標(biāo)通道特征均值相似),分組計(jì)算方式如式(1)~式(3)所示;然后,針對(duì)每組特征,從空間位置角度利用均值、最大值以及標(biāo)準(zhǔn)差分別獲取該組特征中每個(gè)位置的全局信息,再通過(guò)1×1點(diǎn)卷積和K×K標(biāo)準(zhǔn)卷積來(lái)綜合空間及鄰域信息后輸出每個(gè)位置權(quán)重,K值根據(jù)當(dāng)前特征圖大小自主調(diào)整,計(jì)算方式如(4)所示。同時(shí),為提升各維度特征交互,將分組注意力處理后的特征以圖1提煉層所示的連接方式對(duì)目標(biāo)信息深入挖掘,使各維度特征充分融合目標(biāo)全局以及局部信息,進(jìn)而提升網(wǎng)絡(luò)表達(dá)能力。
式中:X表示輸入的特征,Avg表示求均值,Sort表示對(duì)值排序,index表示排序后記錄對(duì)應(yīng)特征索引,Y表示排序后的特征,式(1)表示計(jì)算特征圖均值后進(jìn)行排序并記錄對(duì)應(yīng)排序索引供后續(xù)分組使用;NX表示輸入特征通道數(shù)量,NC表示目標(biāo)總數(shù),NG表示特征分組數(shù)量,式(2)表示根據(jù)目標(biāo)類(lèi)別總數(shù)對(duì)當(dāng)前特征通道進(jìn)行分組;Y[0∶NG]表示對(duì)排序后的前NG個(gè)通道特征作為一組,以此類(lèi)推,將特征分為NG組后再分別進(jìn)行空間位置增強(qiáng),式(3)表示根據(jù) 式(1)的特征排序索引對(duì)特征進(jìn)行分組;d表示特征圖長(zhǎng)邊像素長(zhǎng)度,odd表示取奇數(shù),式(4)根據(jù)當(dāng)前特征維度動(dòng)態(tài)調(diào)整鄰域范圍。
對(duì)于網(wǎng)絡(luò)檢測(cè)部分,考慮到目標(biāo)大小、姿態(tài)多樣化,為保證各個(gè)目標(biāo)都能被準(zhǔn)確識(shí)別,需要綜合不同尺度的目標(biāo)信息,基于此,本文設(shè)計(jì)了高斯多尺度融合結(jié)構(gòu),如圖4所示。
圖4 高斯多尺度融合結(jié)構(gòu)Fig.4 Gaussian multi-scale fusion structure
所提高斯多尺度結(jié)構(gòu)以注意力機(jī)制提煉后的特征為輸入,將各尺度特征采樣至注意力提煉層3的維度后利用可訓(xùn)練的參數(shù)進(jìn)行自適應(yīng)加權(quán)融合,如圖4(a)所示,融合方式如式(5)所示;然后,基于融合后的特征利用高斯模糊算法構(gòu)建特征金字塔,如圖4(b)所示,高斯模糊算法如式(6)和式 (7)所示;最后,將高斯金字塔特征結(jié)合對(duì)應(yīng)的提煉層特征進(jìn)行融合檢測(cè)。通過(guò)高斯金字塔方式雖弱化了部分目標(biāo)特征,但有效降低了冗余計(jì)算且保留了目標(biāo)多尺度信息。
式中:feature3表示表示提煉層3的維度,i表示除feature3外的其他提煉層,xi→feature3表示將i提煉層維度采樣采用至feature3維度,αi、βfeature3表示各維度特征對(duì)應(yīng)的自適應(yīng)權(quán)重,且滿(mǎn)足αi、βfeature3∈[0,1],αi+βfeature=1;Ffeature3表示自適應(yīng)融合后的特征,F(x,y)表示高斯金字塔輸入特征,G(x,y,σ)表示高斯函數(shù),σ表示尺度參數(shù)。
為驗(yàn)證所提網(wǎng)絡(luò)結(jié)構(gòu)的可行性和魯棒性,本文分別采用ImageNet、PASCAL VOC以及MS COCO 三個(gè)主流目標(biāo)檢測(cè)標(biāo)準(zhǔn)數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。考慮到標(biāo)準(zhǔn)數(shù)據(jù)集中圖像數(shù)量過(guò)大且存在部分目標(biāo)不清晰的圖像,實(shí)驗(yàn)時(shí)僅篩選了部分質(zhì)量較高的圖像進(jìn)行訓(xùn)練測(cè)試。實(shí)驗(yàn)數(shù)據(jù)以及環(huán)境配置信息如表1所示,同時(shí),為更好地體現(xiàn)所提網(wǎng)絡(luò)有效性,網(wǎng)絡(luò)訓(xùn)練時(shí)超參數(shù)參考了當(dāng)前主流目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行設(shè)置,如表2所示。
表1 實(shí)驗(yàn)環(huán)境配置
表2 超參數(shù)設(shè)置
對(duì)于目標(biāo)檢測(cè)性能評(píng)估采用均值平均精度(mAP)以及每秒圖像處理張數(shù)(fps)進(jìn)行衡量。同時(shí),為評(píng)估網(wǎng)絡(luò)的尺度不變性,實(shí)驗(yàn)借鑒COCO數(shù)據(jù)集中的目標(biāo)劃分策略,根據(jù)目標(biāo)標(biāo)注框以[大目標(biāo)>962>中目標(biāo)>322>小目標(biāo)]的標(biāo)準(zhǔn)劃分大中小目標(biāo),并分別以mAPs、mAPm、mAPl來(lái)衡量不同大小目標(biāo)的檢測(cè)效果。
針對(duì)所提方法的可行性驗(yàn)證,實(shí)驗(yàn)主要采用ImageNet數(shù)據(jù)集,以YOLOv4單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)為基礎(chǔ),通過(guò)依次替換所提各個(gè)模塊進(jìn)行測(cè)試對(duì)比。實(shí)驗(yàn)首先針對(duì)圖像輸入模塊,分別測(cè)試對(duì)比了引入前后的檢測(cè)效果,結(jié)果如表3所示。
表3 輸入模塊測(cè)試結(jié)果
由對(duì)比結(jié)果可以看出,在新增灰度化和均衡化的圖像后,較好地豐富了輸入數(shù)據(jù),同時(shí)也增強(qiáng)了目標(biāo)信息,使網(wǎng)絡(luò)檢測(cè)精度有較明顯的提升。對(duì)于特征提取部分,實(shí)驗(yàn)依次測(cè)試了引入基礎(chǔ)特征提取結(jié)構(gòu)和注意力機(jī)制特征提煉結(jié)構(gòu)后的網(wǎng)絡(luò)檢測(cè)精度與效率的變化,結(jié)果如表4所示。
表4 特征提取結(jié)構(gòu)測(cè)試對(duì)比
根據(jù)測(cè)試結(jié)果可以看出,YOLO網(wǎng)絡(luò)的特征提取結(jié)構(gòu)中每一層都由稠密的標(biāo)準(zhǔn)卷積進(jìn)行提取,可以充分利用上一層特征信息,但也引入了過(guò)多的參數(shù),且冗余計(jì)算較多。所提骨干結(jié)構(gòu)選擇相對(duì)稀疏的深度可分離卷積,并設(shè)置了相對(duì)較少的特征通道進(jìn)行特征提取,有效降低了冗余信息的計(jì)算,大幅提升了網(wǎng)絡(luò)效率,但也導(dǎo)致特征利用不夠充分,網(wǎng)絡(luò)精度也較差。繼續(xù)引入注意力特征提煉結(jié)構(gòu)后,在基礎(chǔ)特征結(jié)構(gòu)上針對(duì)目標(biāo)關(guān)鍵信息進(jìn)一步提取,使網(wǎng)絡(luò)更好地專(zhuān)注目標(biāo)特征,且背景信息的干擾也更少,雖增加了部分計(jì)算量,但檢測(cè)效果得到了較大提升。為進(jìn)一步驗(yàn)證所提分組注意力機(jī)制的優(yōu)越性,實(shí)驗(yàn)與當(dāng)前主流的注意力機(jī)制進(jìn)行了對(duì)比,并提取特征層3信息分別可視化了不同注意力機(jī)制下的效果,結(jié)果如表5和圖5所示。
表5 不同注意力融合對(duì)比
圖5 特征層3注意力可視化對(duì)比Fig.5 Visual contrast of attention in feature layer 3
通過(guò)對(duì)比不同注意力機(jī)制下網(wǎng)絡(luò)檢測(cè)性能以及特征可視化效果可以看出,SE和ViT注意力機(jī)制分別專(zhuān)注特征通道和特征空間位置特征,雖對(duì)目標(biāo)識(shí)別效果雖有一定提升,但相對(duì)有限。CBAM和Triplet注意力機(jī)制雖同時(shí)考慮了特征通道和空間信息,但增強(qiáng)目標(biāo)特征的同時(shí)也增加了噪聲信息,容易造成目標(biāo)誤檢。而所提分組注意力機(jī)制基于全局信息對(duì)目標(biāo)特征進(jìn)行分組聚類(lèi),并利用局部卷積代替全連接降低計(jì)算量,使網(wǎng)絡(luò)在增強(qiáng)特征時(shí)更具針對(duì)性,更好地提升了網(wǎng)絡(luò)檢測(cè)性能。對(duì)于多尺度結(jié)構(gòu)驗(yàn)證,實(shí)驗(yàn)分別與FPN跳層融合、ASFF自適應(yīng)融合進(jìn)行了對(duì)比,結(jié)果如表6所示。
表6 多尺度模塊對(duì)比
根據(jù)不同特征融合結(jié)果可以看出,所提高斯多尺度融合結(jié)構(gòu)利用自適應(yīng)融合獲取各維度特征信息,并結(jié)合高斯金字塔完成多尺度檢測(cè),雖未達(dá)到最優(yōu)性能,但有效平衡了網(wǎng)絡(luò)檢測(cè)精度與效率,可以更好地應(yīng)用于實(shí)際場(chǎng)景中。而對(duì)于所提整個(gè)網(wǎng)絡(luò)的有效性測(cè)試,實(shí)驗(yàn)分別與其他網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了對(duì)比,如表7和圖6所示。
表7 不同目標(biāo)檢測(cè)網(wǎng)絡(luò)性能對(duì)比
圖6 ImageNet數(shù)據(jù)集目標(biāo)檢測(cè)效果對(duì)比Fig.6 Comparison of object detection effects in ImageNet dataset
根據(jù)上述實(shí)驗(yàn)結(jié)果可見(jiàn),所提目標(biāo)檢測(cè)網(wǎng)絡(luò)相對(duì)于基于兩階段Anchor-based的Mask R-CNN和基于Anchor-free的CornerNet在計(jì)算效率以及檢測(cè)效果方面得到了更好的平衡。而與同類(lèi)型的單階段YOLO網(wǎng)絡(luò)相比,該結(jié)構(gòu)在目標(biāo)有效特征提取融合以及網(wǎng)絡(luò)非線(xiàn)性表達(dá)能力等方面都得到較大提升,故檢測(cè)效果也相對(duì)更優(yōu)。綜上實(shí)驗(yàn)結(jié)果可以看出,所提網(wǎng)絡(luò)的各個(gè)模塊以及整體結(jié)構(gòu)對(duì)目標(biāo)檢測(cè)效果都有一定提升,有效驗(yàn)證了所提方法的可行性。
為進(jìn)一步驗(yàn)證網(wǎng)絡(luò)的魯棒性,實(shí)驗(yàn)利用相對(duì)復(fù)雜的PASCAL VOC以及MS COCO數(shù)據(jù)集分別對(duì)所提網(wǎng)絡(luò)以及其他同類(lèi)深度學(xué)習(xí)目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行測(cè)試對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表8、表9和圖7所示。
表8 PASCAL VOC數(shù)據(jù)集測(cè)試結(jié)果
表9 MS COCO數(shù)據(jù)集測(cè)試結(jié)果
圖7 VOC和COCO數(shù)據(jù)集檢測(cè)效果(前兩排:VOC;后兩排:COCO)Fig.7 Detection effect of VOC and COCO datasets (first two rows:VOC; second two rows:COCO)
根據(jù)上述測(cè)試結(jié)果可見(jiàn),雖然在復(fù)雜場(chǎng)景下,各網(wǎng)絡(luò)的檢測(cè)精度都有一定下降,但本文方法相對(duì)于其他方法,檢測(cè)精度受影響程度相對(duì)較小。同時(shí),從可視化檢測(cè)結(jié)果也可看出,相比于CornerNet、YOLO網(wǎng)絡(luò),本文方法在目標(biāo)遮擋以及小目標(biāo)識(shí)別上都有較大提升,較好地改善了目標(biāo)漏檢和誤檢等情況。而相比于Mask R-CNN網(wǎng)絡(luò),該方法也在保證高效檢測(cè)前提下基本達(dá)到了與之相近的檢測(cè)效果。
本文針對(duì)現(xiàn)有基于深度學(xué)習(xí)目標(biāo)檢測(cè)方法存在的不足,從圖像輸入、特征提取、關(guān)鍵信息提煉以及多尺度特征融合等幾個(gè)部分進(jìn)行了深入研究,提出了一種基于分組注意力以及高斯多尺度的目標(biāo)檢測(cè)網(wǎng)絡(luò)。網(wǎng)絡(luò)通過(guò)直方圖均衡化來(lái)降低光照影響,突出過(guò)暗或過(guò)亮環(huán)境下的目標(biāo),并采用雙階段特征提取結(jié)構(gòu)來(lái)依次提取和提煉目標(biāo)信息。其次,引入了分組注意力機(jī)制,利用通道特征均值對(duì)各目標(biāo)特征聚類(lèi)分組,通過(guò)空間注意力機(jī)制分別對(duì)各組目標(biāo)指南針增強(qiáng),突出目標(biāo)關(guān)鍵信息的同時(shí)避免了背景信息的影響。最后,針對(duì)網(wǎng)絡(luò)尺度不變性,設(shè)計(jì)了高斯多尺度結(jié)構(gòu),以多維特征自適應(yīng)融合結(jié)合高斯金字塔方式實(shí)現(xiàn)目標(biāo)多尺度檢測(cè)。通過(guò)在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的測(cè)試結(jié)果表明,所提方法可以準(zhǔn)確高效地完成目標(biāo)檢測(cè)任務(wù),且具有較強(qiáng)的泛化能力。盡管所提方法在一定程度提升了目標(biāo)檢測(cè)網(wǎng)絡(luò)的性能,但仍有較多值得探索的地方,后期將深入研究更優(yōu)特征選擇方式,進(jìn)一步提升網(wǎng)絡(luò)檢測(cè)效果。