摘" 要: 針對通道注意力降維時導致細節(jié)信息損失和特征融合不充分的問題,提出一種并行池化注意力及多特征融合增強方法。首先,對輸入圖像使用兩種池化模塊并行處理,實現(xiàn)特征注意力增強。其中:熵引導池化模塊利用通道信息熵生成特征權重系數(shù),加強邊緣紋理等細節(jié)信息;方向感知池化模塊捕獲圖像在垂直和水平方向上的空間方向信息,再計算通道均值實現(xiàn)逐步降維保留關鍵特征。其次,多特征融合增強模塊利用特征圖尺度的對數(shù)函數(shù)自適應選取卷積核的大小,再將卷積后的特征分組重塑為與輸入圖像維度相同的通道、高度和寬度方向上的三個特征子圖,并進行元素相乘獲得增強特征圖。最后,增強特征圖與輸入圖像加權融合,同時增強目標的位置和細節(jié)信息。實驗結果表明,文中方法在參數(shù)量不變的情況下,在VOC2007數(shù)據(jù)集上,mAP@0.5較YOLOX和YOLOv7分別提升4.62%、4.46%,在COCO數(shù)據(jù)集上,mAP@0.5較YOLOX和YOLOv7分別提升4.57%、4.63%。
關鍵詞: 通道注意力; 降維; 并行池化; 多特征融合增強; 自適應; 目標檢測
中圖分類號: TN911.73?34; TP391.4" " " " " " " " "文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2025)05?0059?09
Object detection method based on parallel pooling of attention"and multi?feature fusion enhancement
CHENG Jie1, 2, BIAN Changzhi3, ZHANG Jing3, LI Xiaoxia1, 2, DING Nan1, 2
(1. School of Information Engineering, Southwest University of Science and Technology, Mianyang 621010, China;
2. Sichuan Industrial Autonomous and Controllable Artificial Intelligence Engineering Technology Research Center, Mianyang 621010, China;
3. Mianyang Cigarette Factory, China Tobacco Sichuan Industrial Co., Ltd., Mianyang 621000, China)
Abstract: A parallel pooling of attention and multi?feature fusion enhancement (PPA?MfFE) method is proposed to get rid of the detail information loss and inadequate feature fusion caused by channel attention dimension reduction. Firstly, two pooling modules are used to process the input image in parallel to enhance the feature attention. In the entropy?guided pooling module, the channel information entropy is used to generate the feature weight coefficient and enhance the detailed information of edge texture. The directional awareness pooling module is responsible for capturing the spatial direction information of the image in both vertical and horizontal directions. And then, the channel mean is calculated, so as to achieve gradual dimensionality reduction and retain the key features. Secondly, the multi?feature fusion enhancement module is used to select the size of the convolution kernel adaptively by the logarithmic function of the feature graph scale, and reshape the convolution feature group into three feature subgraphs in the directions of channel, height and width with the same dimension as the input image, and then multiply the elements to obtain the enhanced feature graph. Finally, the enhanced feature graph is weighted and fused with the input image to enhance the location and detail information of the object. Experimental results show that, with the same number of parameters, the mAP@0.5 of the proposed algorithm is 4.62% and 4.46% higher than those of YOLOX and YOLOv7 in VOC2007 dataset, respectively, and its mAP@0.5 is 4.57% and 4.63% higher than those of YOLOX and YOLOv7 in COCO dataset, respectively.
Keywords: channel attention; dimensionality reduction; parallel pooling; multi?feature fusion enhancement; self?adaptation; object detection
0" 引" 言
目標檢測在計算機視覺領域具有重要意義,其任務是準確地定位和識別輸入圖像中的目標物體[1]。這一任務被廣泛應用于公共安全[2]、輔助駕駛[3]、智能醫(yī)療[4]、工業(yè)檢測[5]等多個領域。深度學習模型[6],尤其是卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)為該領域的發(fā)展與應用帶來了明顯的改善。然而,目標檢測同樣也面臨著許多重要挑戰(zhàn),包括尺度變化、目標遮擋、背景干擾等。
近期研究表明,將注意力機制[7]應用于卷積神經(jīng)網(wǎng)絡中,能夠顯著提升目標檢測任務的性能。注意力機制使得模型能夠更加聚焦于圖像中的關鍵區(qū)域,提高對重要特征的感知能力。通過引入可學習的注意力權重,模型可以有選擇性地關注圖像的局部信息,從而提高目標檢測的準確性和魯棒性。
通道注意力如文獻[8]提出的壓縮激勵(Squeeze and Excitation, SE)模塊。壓縮模塊通過全局平均池化(Global Average Pooling, GAP)來擠壓網(wǎng)絡中每個特征圖的維度,產(chǎn)生全局特征描述符;激勵模塊使用兩次全連接層對通道進行聚合和擴張,以獲得各個通道的注意力向量,并乘以特征圖以縮放輸入特征的通道數(shù)。
為了減小模型復雜度,SE采用了減少通道數(shù)量的策略。然而,這一策略未能直接建立權重向量與輸入之間的顯式對應關系,從而降低了結果的質(zhì)量。相比之下,文獻[9]提出的高效通道注意力(Efficient Channel Attention, ECA)模塊使用全局平均池化獲得通道權重,并借助1×1卷積將權重映射到原始特征圖上,實現(xiàn)了對通道的加權。這一方法避免了降維操作,同時能夠捕捉跨通道的相互作用,從而提升了模型的性能。
同樣,文獻[10]提出的門控通道轉換(Gated Channel Transformation, GCT)模塊通過使用門控機制對通道間的特征關系進行顯示建模,這一機制在促進淺層特征之間合作的同時,也引導深層特征之間的競爭。由此,淺層特征能夠更好地捕捉通用屬性,而深層特征則更有效地提取與任務相關的鑒別性特征。
文獻[11]提出了頻率通道注意力(Frequency Channel Attention, FCA)模塊,從壓縮角度分析捕獲的全局信息,并思考頻域中的全局平均池化,證明全局平均池化是離散余弦變換(DCT)僅保留直流分量時的特殊情況,因此模型通過引入更多的頻率分量來充分利用信息。
此外,文獻[12]提出了一種無參通道注意力(Parameter?free Channel Attention, PFCA)模塊,使用全局平均池化將整個特征圖的高度和寬度降至1,同時保留通道數(shù),利用均值與方差統(tǒng)計不同通道中有用的信息來生成通道注意力權重,這些權重可以捕捉到圖像中的重要特征,并增強模型的性能。
空間注意力如文獻[13]提出了一種利用特征上下文的聚集?激發(fā)注意力(Gather?Excite Attention, GE)模塊,可以在很大的空間范圍內(nèi)聚合特征響應,并將合并的信息重新分布到局部特征。聚集操作符用于從局部的空間位置上提取特征,激發(fā)操作符則用于將其進行縮放還原回原始尺寸。
文獻[14]提出了一種空間分組注意力(Spatial Group?wise Enhance, SGE)模塊,該模塊將卷積特征圖中的通道劃分為多個子特征,子特征以組的形式分布在每一層的特征圖中。SGE在每個子特征組內(nèi)生成一個注意力權重,注意力權重可以確定每個子特征的重要性,每個子特征組也可以有針對性地學習和抑制噪聲。
通常情況下,引入單一的通道注意力或者空間注意力確實能夠提升模型性能,但這種提升往往受到限制。研究者們發(fā)現(xiàn),更進一步的性能提升可以通過準確組合通道注意力和空間注意力,充分發(fā)揮它們各自的優(yōu)勢,從而更全面地捕捉特征信息[15]。
基于這種思路,文獻[16]提出混合注意力(Convolutional Block Attention Module, CBAM)模塊,該模塊采用通道注意力與空間注意力串聯(lián)的方式。其中:通道注意力部分在SE基礎上引入了全局最大池化(Global Max Pooling, GMP),通過全局最大池化和全局平均池化來學習通道間的關系,并使用權重調(diào)節(jié)不同通道特征的貢獻;空間注意力部分則是基于通道維度分別執(zhí)行最大值和平均值的操作,然后運用7×7卷積來提取空間信息,以關注輸入數(shù)據(jù)中更重要的區(qū)域。
SE在捕捉跨通道關系之前使用全局池化來整合全局空間信息,但它忽視了位置信息的重要性。CBAM采用卷積操作捕獲局部關系,但卻無法有效建模長期依賴關系。為了克服這些限制,文獻[17]提出了協(xié)調(diào)注意力(Coordinate Attention, CA)模塊,CA通過將位置信息嵌入通道注意力中,使得網(wǎng)絡能夠以較小的計算成本關注重要區(qū)域。通過使用空間坐標信息生成注意力權重,并將其應用于原始特征圖以增強感興趣目標的表示。
此外,文獻[18]提出了一種協(xié)作注意力框架(Collaboration Attentions Trait, CAT),CAT將特征表示為可訓練的系數(shù),以自適應地結合不同注意模塊的貢獻,更好地適應不同的圖像層次和任務。同時設計了一種自適應機制來捕捉不同注意力算子之間的內(nèi)在協(xié)作關系,并融合三種池化的輸出結果。
文獻[19]從CA中得到啟發(fā),跨維度的交互作用有助于通道或空間注意力預測,因此提出了一種新的跨空間學習方法(Efficient Multi?scale Attention, EMA),并設計了一個用于建立短期和長期依賴關系的多尺度并行子網(wǎng)絡。在保留每個通道信息和減少計算開銷的基礎上,對部分通道進行批量重構,并將通道維度分組為多個子特征,使空間語義特征在每個特征組內(nèi)均勻分布。
盡管上述注意力機制在目標檢測任務中取得了成功,但仍然面臨一些局限性:在獲得高精度的同時,不可避免地增加了模型的參數(shù)量;盡管目前一些方法降低了計算成本,但是忽略了各個維度中信息的交互;利用通道降維建立跨通道關系會影響對深層特征的提取,導致信息丟失;在特征選擇時僅僅單獨考慮全局信息或局部信息,無法提升模型的泛化能力。
針對以上問題,本文設計了一種并行池化注意力及多特征融合增強(Parallel Pooling of Attention and Multi?feature Fusion Enhancement, PPA?MfFE)方法。該方法結合了全局特征整合和方向性特征捕捉的優(yōu)勢,采用雙分支并行處理,包括熵引導池化(Entropy Guided Pooling, EGP)模塊、方向感知池化(Direction Aware Pooling, DAP)模塊和多特征融合增強(Multi?feature Fusion Enhancement, MfFE)模塊。
具體來說,原始特征圖被同時送入熵引導池化(EGP)模塊和方向感知池化(DAP)模塊。EGP模塊捕獲特征圖的平均信息和突出信息,使模型能夠全面理解圖像的全局特性。DAP模塊捕捉特征圖的坐標信息,強化模型對復雜空間關系的識別能力。通過拼接整合全局特征和方向特征形成細節(jié)信息更全面的特征圖。然后,多特征融合增強(MfFE)模塊根據(jù)特征圖尺度自適應計算一維卷積的卷積核大小,通過跨通道交互,獲取上下文信息,并將卷積后的特征分組重塑為寬度、高度和通道方向上的三個特征子圖。最后,三個特征子圖通過元素相乘后,再與原始特征圖相乘融合,獲得更具區(qū)分性的特征表示,有助于提升網(wǎng)絡對目標特征的感知和檢測能力。
1" 相關網(wǎng)絡
1.1" YOLOX
YOLOX[20]是由曠視科技推出的高性能目標檢測網(wǎng)絡,采用了數(shù)據(jù)增強、檢測頭和分類頭分離、無錨框設計和正負樣本匹配策略等改進手段。其整體由三個部分構成,分別是主干特征提取網(wǎng)絡(CSPDarknet[21])、增強特征提取網(wǎng)絡(SPP[22]+FPN[23])以及分類回歸模塊(YOLO Head)。
主干特征提取網(wǎng)絡負責提取圖像的特征信息,首先,F(xiàn)ocus模塊調(diào)整輸入數(shù)據(jù)的尺度和通道數(shù),然后經(jīng)過4個殘差體(Resblock Body)模塊,最終獲得3個有效特征層。加強特征提取網(wǎng)絡先后通過兩次上采樣與兩次下采樣對上層網(wǎng)絡輸出的三層不同維度的特征進行融合。YOLO Head是YOLOX的分類器和回歸器,通過加強特征提取網(wǎng)絡輸出的三個特征圖來判斷是否有物體與特征點對應。
1.2" YOLOv7
YOLOv7是由文獻[24]提出的新一代目標檢測網(wǎng)絡,采用了重參數(shù)化、標簽分配策略、帶輔助頭訓練和分割梯度路徑層聚合架構等改進手段。其整體由三個部分構成,分別是骨干網(wǎng)絡(Darknet?53[25])、頸部網(wǎng)絡(SPP+PAN[26])以及預測網(wǎng)絡(Prediction)。
骨干網(wǎng)絡同樣用于提取圖像的特征信息。首先,3個堆疊的卷積塊用于提取輸入數(shù)據(jù)的初始特征,然后經(jīng)過下采樣和層聚合架構ELAN提取首層、底層以及中間層的特征。頸部網(wǎng)絡將得到的3個特征層先自頂向下再自底向上進行特征融合。預測網(wǎng)絡把融合后的特征圖經(jīng)矩陣融合和權重相加形成單特征圖,最終在特征圖上預測大、中、小型目標。
2" 具體方法
本節(jié)介紹了并行池化注意力及多特征融合增強(PPA?MfFE)方法。首先,整體介紹了模塊對特征圖的處理流程,具體結構如圖1所示,然后詳細描述了熵引導池化(EGP)模塊、方向感知池化(DAP)模塊以及多特征融合增強(MfFE)模塊。
圖1中,[F∈RC×H×W]是輸入特征圖,其中[H]、[W]和[C]分別代表高度、寬度和通道。先利用并行池化結構提取輸入圖像的全局池化特征和方向池化特征,將提取到的特征進行拼接,生成細節(jié)信息更全面的特征。
然后,使用一維卷積進行更深層次的信息交互,在保留通道信息的同時整合不同高度和寬度位置的特征。將交互后的特征分組重塑為高度、寬度和通道方向上的3個特征子圖,對得到的特征子圖進行元素相乘,形成注意力因子。
最后,將輸入特征圖與注意力因子相乘,特征圖在不同維度上的重要性被凸顯,從而獲得更全面的特征表示。
2.1" 熵引導池化模塊
為減少單一池化造成空間維度上目標信息的丟失,本文設計了熵引導池化(EGP)模塊。利用熵對通道特征的信息含量進行度量,生成特征權重系數(shù),然后對全局池化結果進行加權,引導模型加強對邊緣紋理等細節(jié)信息的關注。熵引導池化模塊結構如圖2所示。
全局平均池化(GAP)計算特征圖中每個通道的平均值,保留特征圖的整體信息。全局最大池化(Global Max Pooling, GMP)提取特征圖中每個通道的最大值,突出特征圖中每個通道最顯著的局部特征。全局熵池化(GEP)計算特征圖中每個通道的熵值來評估特征的復雜度,從而識別通道中的信息含量。
具體來說,GEP首先壓縮特征圖的高度和寬度維度,然后對每個通道內(nèi)的特征應用Softmax操作,計算每個元素的概率分布[pi]。接著通過將[pi]與其對數(shù)的積累加求和來計算熵(entropy),具體操作如式(1)、式(2)所示:
[pi=exp(xi)i=1H×Wexp(xi)] (1)
式中[xi]表示輸入特征圖在通道[C]、位置[i]的特征值。
[entropy=-i=1H×Wpi·ln[pi+μ]] (2)
式中[μ]=[1×10-6],用于避免對數(shù)函數(shù)計算中出現(xiàn)零的情況。
低熵值的通道表示特征較為一致、信息較少,對應著無關的背景區(qū)域。高熵值的通道表示特征豐富、多樣性高,與邊緣和紋理信息相關。使用Sigmoid函數(shù)對熵值進行映射,將其歸一化到[0,1]區(qū)間,然后分別乘以GAP和GMP的輸出對其進行加權,有助于增加模型對邊緣和紋理特征的關注,減少無關背景對模型的影響,抑制噪聲干擾。
將經(jīng)過加權后的特征圖進行元素相加(Add),完成通道維度上信息的融合,減少目標信息的丟失,然后進行張量重塑操作(Reshape),將得到的特征圖變?yōu)橐痪S的形式[[C,1]],提高計算效率。
得到的全局池化特征為[FGP∈R1×C]。
[FGP=R(GAP'⊕GMP')] (3)
[GEP'=SigmoidRGEP(F)] (4)
[GAP'=GEP'?GAP(F)] (5)
[GMP'=GEP'?GMP(F)] (6)
式中[R·]代表Reshape操作。
2.2" 方向感知池化模塊
為捕捉圖像的全局信息并構建空間方向上的長距離依賴關系,本文設計了方向感知池化(DAP)模塊。將圖像的高度信息和寬度信息分別集成到兩個不同的特征圖中,再使用逐步降維的方式保留關鍵特征,減少空間信息的丟失,模型能夠更精確地識別和定位感興趣的對象。方向感知池化模塊結構如圖3所示。
使用兩個空間池化核分別沿水平方向和垂直方向對每個通道進行編碼,將輸入圖像的高度信息和寬度信息分別集成到兩個不同的特征圖[[C,H,1]]和[[C,1,W]]中,具體操作如式(7)、式(8)所示:
[FX=X_GAP(F)] (7)
[FY=Y_GAP(F)] (8)
式中:[X_GAP]表示沿寬度方向全局平均池化;[Y_GAP]表示沿高度方向全局平均池化。
這種池化策略不僅可以捕捉到一個空間方向上的長距離依賴關系,還能保持另一個空間方向上精確的位置信息。
然后對兩個方向上得到的特征圖進行通道平均(Channel Mean, CM)操作,強化不同通道之間的關聯(lián)性,減少不同通道之間的冗余信息。通過在通道方向上進行平均,得到形狀為[[1,H,1]]和[[1,1,W]]的張量,隨后進行Reshape操作,將特征圖形狀變?yōu)閇[1,H]]、[[1,W]],提高計算效率。具體操作如式(9)、式(10)所示:
[FXX=RCM(FX)] (9)
[FYY=RCM(FY)] (10)
式中:[R·]代表Reshape操作;CM代表通道平均操作。
最后,通過拼接(Concat)將兩個一維特征向量合并成更全面、更豐富的方向池化特征[FDP∈R1×(H+W)]。
[FDP=Concat[FXX,F(xiàn)YY]] (11)
2.3" 多特征融合增強模塊
為減少因網(wǎng)絡深度增加而導致參數(shù)量增長,同時模型能夠自適應獲取不同大小的感受野,本文設計了多特征融合增強(MfFE)模塊。根據(jù)特征圖尺度自適應選取卷積核的大小,捕獲上下文信息,將卷積后的特征按照輸入圖像維度分組重塑為指定大小的通道、高度和寬度特征,并通過激活函數(shù)加權融合不同維度的特征信息,增強模型對不同層次語義信息的表征能力。多特征融合增強模塊結構如圖4所示。
多特征融合增強(MfFE)模塊的輸入為經(jīng)過熵引導池化(EGP)和方向感知池化(DAP)后通過拼接(Concat)得到的特征[FC∈R1×(C+H+W)]。具體操作如式(12)所示:
[FC=Concat[FGP,F(xiàn)DP]] (12)
由于[FC]在第三維度(特征維度)上拼接了來自EGP和DAP的全局池化特征和方向池化特征,因此使用一維卷積沿著特征維度滑動卷積核,捕捉特征之間的局部依賴關系。
MfFE根據(jù)特征圖尺度自適應選取卷積核大小[K],實現(xiàn)感受野大小的動態(tài)調(diào)整,避免因卷積核過大導致模型失去對局部特征的敏感性,同時也避免因卷積核過小,模型難以捕獲足夠廣泛的上下文信息。
具體為利用對數(shù)函數(shù)將特征圖尺寸信息映射到卷積核大小范圍內(nèi),再進一步壓縮卷積核大小并調(diào)整為奇數(shù),確保輸出尺度不變。對于給定的尺度([C+H+W]),卷積核[K]可以表示為:
[K=k," " "k=Oddk+1," " " k=Even] (13)
式中:[k=ceillog2(C+H+W)3],ceil表示向上取整。經(jīng)過一維卷積處理后的權重矩陣可以表示為[FC1∈R1×(C+H+W)]。
[FC1=Conv1d(FC)] (14)
之后,將經(jīng)過Sigmoid激活后的[FC1]與[FC]相乘,因為經(jīng)過Sigmoid操作,特征被映射至0~1,相乘操作可以對[FC]中的特征進行加權,突出邊緣、紋理等細節(jié)信息。激活后的信息可以表示為[FC2∈R1×(C+H+W)]。
[FC2=FC?Sigmoid(FC1)] (15)
接著將[FC2]按照高度、寬度和通道的大小進行分組(Split)操作,將特征圖分解為三個特征子圖,每個子圖可以獨立地表示輸入圖像在對應維度上的特征。
對每個分離的特征子圖進行Reshape操作,讓特征子圖的形狀與輸入圖像維度相同,其形式為:[1,[H],1]、[1,1,[W]]、[[C],1,1]。對每個Reshape后的特征圖再次進行Sigmoid操作,之后將三個特征圖進行元素相乘,得到增強特征[Fa∈RC×H×W]。具體操作如式(16)~式(19)所示:
[Fa=α?β?γ] (16)
[α=SigmoidRSH(FC2)] (17)
[β=SigmoidRSW(FC2)] (18)
[γ=SigmoidRSC(FC2)] (19)
式中:[SH(·)]、[SW(·)]、[SC(·)]分別代表從高度、寬度、通道進行分組操作。
最終,將原始特征[F]和增強特征[Fa]相乘,以獲得更具區(qū)分性的特征表示[FA∈RC×H×W]。
[FA=F?Fa] (20)
2.4" 引入PPA?MfFE方法的網(wǎng)絡結構
為驗證提出的并行池化注意力及多特征融合增強(PPA?MfFE)方法的效果,將其加入到YOLOX和YOLOv7目標檢測網(wǎng)絡中進行測試。
PPA?MfFE方法在YOLOX和YOLOv7中的添加位置如圖5所示。在YOLOv7中使用空間金字塔池化注意力模塊(Spatial Pyramid Pooling Attention Module, SPPAM)替換SPPCSPC模塊,結構如圖6所示。PPA?MfFE方法的功能是進一步加強特征提取網(wǎng)絡的特征提取能力。由于將模塊添加到主干網(wǎng)絡中,就會改變主干網(wǎng)絡的預訓練參數(shù),導致網(wǎng)絡的預測精度下降。所以選擇將模塊添加到增強特征網(wǎng)絡提取的部分,而不破壞主干網(wǎng)絡提取的原始特征,以提高對圖像中關鍵信息的有效捕捉。
3" 實驗結果與分析
3.1" 數(shù)據(jù)集
本文在Pascal VOC2007和MS COCO2017數(shù)據(jù)集上對提出的方法進行對比實驗,在Pascal VOC2007+2012數(shù)據(jù)集上進行消融實驗。
Pascal VOC2007數(shù)據(jù)集涵蓋了20個不同的對象類別,共計9 963張彩色圖像。Pascal VOC2012數(shù)據(jù)集是VOC2007數(shù)據(jù)集的升級版,數(shù)據(jù)集同樣包含20個不同的對象類別,共有11 530張彩色圖片。實驗按照9∶1劃分訓練集和測試集。
MS COCO2017數(shù)據(jù)集涵蓋了80個不同的對象類別,共計163 957張彩色圖像,限于硬件條件,訓練集從train2017中選取80張不同類別的圖片,然后在剩余圖片中隨機選取8 741張圖片,共計8 821張彩色圖片。同樣,測試集從val2017中選取80張不同類別的圖片,然后在剩余圖片中選取831張圖片,共計911張彩色圖片。
3.2" 評估指標
實驗使用IoU閾值為0.5時的AP(mAP@0.5)、計算量(FLOPs/(×109))、參數(shù)量(Parameters/(×106))、準確率([P])和召回率([R])作為評價指標,驗證本文方法的有效性。
mAP是將所有類別的平均正確率(Average Precision, AP)進行綜合加權平均得到的,其計算公式如下:
[mAP=1nk=1nAPk] (21)
[AP=01PRdR] (22)
[P=TPFP+TP] (23)
[R=TPTP+FN] (24)
式中:TP代表預測為正,實際為正的個數(shù);FP代表預測為正,實際為負的個數(shù);FN代表預測為負,實際為正的個數(shù);[P]代表精確率,表示分類正確的正樣本個數(shù)占分類器所有的預測正樣本個數(shù)的比例;[R]代表召回率,表示分類正確的正樣本個數(shù)占實際正樣本個數(shù)的比例;以召回率[R]為橫軸、準確率[P]為縱軸繪制出的曲線又稱[P?R]曲線,其與坐標軸圍成圖形的面積大小即為AP;[n]為目標檢測的總類別數(shù)。
計算量與參數(shù)量用來衡量模型的復雜程度,其值越小,運行時速度越快,模型的復雜程度越低。當輸入張量大小為[[Cin,H,W]],輸出張量大小為[[Cout,H,W]],卷積核大小為[[kh,kw]]時,參數(shù)量與計算量計算公式如下:
[Parameters=(kh×kw×Cin)×Cout+Cout] (25)
[FLOPs=[(kh×kw×Cin)×Cout+Cout]×H×W] (26)
3.3" 實驗設置
本文算法基于PyTorch框架,實驗所使用的計算平臺為Ubuntu 20.04.4,硬件配置如下:Intel Xeon Gold 5120 CPU @ 2.20 GHz、NVIDIA GeForce RTX 3080 GPU(10 GB內(nèi)存)。在圖像預處理階段,對訓練集的數(shù)據(jù)進行概率為0.5的馬賽克數(shù)據(jù)增強處理,并對馬賽克增強后的圖片進行概率為0.5的混合增強處理,數(shù)據(jù)增強操作只在前70個epoch生效。在訓練模型階段,本文使用100個epoch和動量參數(shù)為0.937的Adam優(yōu)化器訓練網(wǎng)絡,批量大小為8,圖像分辨率設置為640×640,采用余弦退火學習率,初值設為0.001,最小學習率設為0.000 01,權值衰減設為0。
3.4" 消融實驗
為驗證所提的并行池化注意力及多特征融合增強目標檢測方法的性能,本文在YOLOv7上對并行池化模塊進行消融實驗,其中還研究了熵引導池化(EGP)模塊中GAP和GMP之間的相互關系。
實驗結果如表1所示。表中加粗字體表示最優(yōu)結果,括號內(nèi)表示該指標較于基準網(wǎng)絡的提升量,“—”表示未添加對應模塊,“√”表示添加對應模塊。
在實驗2中,添加并行池化模塊,去除GAP、GEP結構,指標mAP@0.5較基準網(wǎng)絡提升2.39%,[P]提升2.35%,[R]提升1.52%。在實驗3中,添加并行池化模塊,去除GMP、GEP結構,指標mAP@0.5較基準網(wǎng)絡提升2.23%,[P]提升2.25%,[R]提升1.54%。實驗2和實驗3的結果表明,在并行池化模塊中,GAP和GMP在捕捉不同層次、尺度和特征的信息方面發(fā)揮著互補的作用。
在實驗4中,添加DAP模塊,去除EGP模塊,指標mAP@0.5較基準網(wǎng)絡提升2.31%,[P]提升2.22%,[R]提升1.46%。在實驗5中添加EGP模塊(不含GEP),去除DAP模塊,指標mAP@0.5較基準網(wǎng)絡提升2.15%,[P]提升2.09%,[R]提升1.40%。在實驗6中,添加EGP模塊(不含GEP)和DAP模塊,指標mAP@0.5值較基準網(wǎng)絡提升3.17%,[P]提升3.09%,[R]提升2.29%。
實驗7驗證了本文方法對目標檢測的有效性。較基準網(wǎng)絡,在不增加參數(shù)量,計算量僅增加0.01×109,就能獲得大幅精度提升,指標mAP@0.5值較基準網(wǎng)絡提升4.92%,[P]提升4.99%,[R]提升4.41%。
3.5" 對比實驗
為驗證所提方法的先進性,在YOLOX網(wǎng)絡和YOLOv7網(wǎng)絡中添加各種主流注意力模塊,與并行池化注意力及多特征融合增強(PPA?MfFE)方法進行比較。分別在VOC2007數(shù)據(jù)集和COCO2017數(shù)據(jù)集上進行對比實驗,實驗結果如表2所示。表中最好的結果用粗體表示,括號內(nèi)表示該指標相比基準網(wǎng)絡的提升量。
本文方法(PPA?MfFE)只使用池化與一維卷積來提取特征權重,在參數(shù)量不變、計算量相當?shù)那闆r下,本文提出的方法在VOC2007數(shù)據(jù)集和COCO2017數(shù)據(jù)集上的檢測精度優(yōu)于其他主流的注意力模塊。
由表2可知,引入本文方法在參數(shù)量與基準網(wǎng)絡相同的情況下,計算量較YOLOX和YOLOv7僅增加了0.013×109和0.01×109。在VOC2007數(shù)據(jù)集上, mAP@0.5較YOLOX和YOLOv7分別提升4.62%、4.46%,[P]分別提升4.43%、4.29%,[R]分別提升1.63%、4.71%。對于COCO數(shù)據(jù)集,mAP@0.5較YOLOX和YOLOv7分別提升4.57%、4.63%,[P]分別提升4.32%、4.64%,[R]分別提升3.37%、5.35%。實驗結果表明,本文方法具有更高的精度。
3.6" 可視化分析
圖7中所選樣本分別為物體遮擋、昏暗場景、密集場景和復雜背景四種樣本。第一列為原始圖片,第二列為基準網(wǎng)絡檢測后的圖片,后四列為基準網(wǎng)絡加入相關注意力模塊檢測后的圖片。標識框上方標注了目標置信度分數(shù)。使用熱力圖展示網(wǎng)絡對圖像中目標的關注程度,圖中熱點區(qū)域灰度值越小表示特征權重越大。
從視覺效果可以看出,本文算法檢測出的目標框明顯多于其他注意力模塊,對目標位置的判斷更加準確,且熱力圖呈現(xiàn)更集中,表明本文方法在目標檢測任務中更具有優(yōu)勢。
4" 結" 語
針對通道注意力降維時導致細節(jié)信息損失和特征融合不充分的問題,本文提出一種并行池化注意力及多特征融合增強方法。利用熵引導池化模塊加強邊緣紋理等細節(jié)信息,使用方向感知池化模塊實現(xiàn)逐步降維,保留關鍵特征,減少空間信息損失,通過多特征融合增強模塊進一步增強目標的語義和位置信息。實驗結果表明,本文方法在與基準網(wǎng)絡參數(shù)量相同時,在VOC2007數(shù)據(jù)集上mAP@0.5相比基準網(wǎng)絡YOLOX和YOLOv7分別提升4.62%、4.46%,在COCO2017數(shù)據(jù)集上分別提升4.57%、4.63%。本文提出的方法優(yōu)于目前主流的注意力方法,本文的創(chuàng)新和改進有望能為工程應用中的目標檢測任務提供有價值的參考。
注:本文通訊作者為李小霞。
參考文獻
[1] ARANI E, GOWDA S, MUKHERJEE R, et al. A comprehensive study of real?time object detection networks across multiple domains: A survey [EB/OL]. [2022?08?29]. https://doi.org/10.48550/arXiv.2208.10895.
[2] 龔益玲,張鑫昕,陳松.基于深度學習的視頻異常檢測研究綜述[J].數(shù)據(jù)通信,2023(3):45?49.
[3] LI C, CAO Y N, PENG Y K. Research on automatic driving target detection based on YOLOv5s [J]. Journal of physics: Conference series, 2022, 2171(1): 012047.
[4] 吳志力,吳宇.目標檢測集成框架在醫(yī)學圖像AI輔助分析中的應用[J].人工智能,2018(4):38?50.
[5] GORSCHLüTER F, ROJTBERG P, P?LLABAUER T. A survey of 6D object detection based on 3D models for industrial applications [J]. Journal of imaging, 2022, 8(3): 53.
[6] GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning [M]. Cambridge, Massachusetts: MIT Press, 2016.
[7] HASSANIN M, ANWAR S, RADWAN I, et al. Visual attention methods in deep learning: An in?depth survey [J]. Information fusion, 2024, 108: 102417.
[8] HU J, SHEN L, SUN G. Squeeze?and?excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 7132?7141.
[9] WANG Q L, WU B G, ZHU P F, et al. ECA?Net: Efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 11534?11542.
[10] YANG Z X, ZHU L C, WU Y, et al. Gated channel transformation for visual recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 11791?11800.
[11] QIN Z Q, ZHANG P Y, WU F, et al. FcaNet: Frequency channel attention networks [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 763?772.
[12] SHI Y X, YANG L X, AN W P, et al. Parameter?free channel attention for image classification and super?resolution [EB/OL]. [2023?05?22]. https://doi.org/10.48550/arXiv.2303.11055.
[13] HU J, SHEN L, ALBANIE S, et al. Gather?excite: Exploiting feature context in convolutional neural networks [C]// Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018. [S.l.: s.n.], 2018: 9423?9433.
[14] LI X, HU X L, YANG J. Spatial group?wise enhance: Improving semantic feature learning in convolutional networks [EB/OL]. [2020?06?08]. http://arxiv.org/abs/1905.09646.
[15] GUO M H, XU T X, LIU J J, et al. Attention mechanisms in computer vision: A survey [J]. Computational visual media, 2022, 8(3): 331?368.
[16] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 3?19.
[17] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13713?13722.
[18] WU Z Z, WANG M, SUN W W, et al. CAT: Learning to collaborate channel and spatial attention from multi?information fusion [J]. IET computer vision, 2023, 17(3): 309?318.
[19] OUYANG D L, HE S, ZHANG G Z, et al. Efficient multi?scale attention module with cross?spatial learning [C]// IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York: IEEE, 2023: 1?5.
[20] GE Z, LIU S T, WANG F, et al. YOLOX: Exceeding YOLO series in 2021 [C]// Online meeting: 2021 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2021: 1?7.
[21] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection [EB/OL]. [2020?04?28]. https://arxiv.org/abs/2004.10934.
[22] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904?1916.
[23] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 2117?2125.
[24] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag?of?freebies sets new state?of?the?art for real?time object detectors [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 7464?7475.
[25] REDMON J, FARHADI A. YOLOv3: An incremental improvement [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1804.02767.
[26] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 8759?8768.
基金項目:國家自然科學基金面上項目(62071399);四川省科技計劃重點研發(fā)項目(2023YFG0262,2023NSFSC1388)
作者簡介:程" 杰(1996—),男,四川綿陽人,碩士研究生,研究方向為目標檢測、行人重識別。
卞長智(1986—),男,山東臨清人,工程師,研究方向為自動化控制、人工智能。
張" 婧(1986—),女,內(nèi)蒙古赤峰人,工程師,研究方向為目標檢測。
李小霞(1976—),女,北京人,博士研究生,教授,研究方向為模式識別、計算機視覺。
丁" 楠(1999—),男,河南周口人,碩士研究生,研究方向為醫(yī)學圖像分割。