亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合注意力機(jī)制的多尺度紅外目標(biāo)檢測

2023-07-31 02:33:38李向榮孫立輝

紅外技術(shù) 2023年7期

關(guān)鍵詞：特征提取特征融合

李向榮，孫立輝

〈圖像處理與仿真〉

融合注意力機(jī)制的多尺度紅外目標(biāo)檢測

李向榮，孫立輝

（河北經(jīng)貿(mào)大學(xué) 信息技術(shù)學(xué)院，河北石家莊 050061）

針對紅外圖像存在細(xì)節(jié)紋理特征差、對比度低、目標(biāo)檢測效果差等問題，基于YOLOv4（You Only Look Once version 4）架構(gòu)提出了一種融合通道注意力機(jī)制的多尺度紅外目標(biāo)檢測模型。該模型首先通過降低主干特征提取網(wǎng)絡(luò)深度，減少了模型參數(shù)。其次，為補(bǔ)充淺層高分辨率特征信息，重新構(gòu)建多尺度特征融合模塊，提高了特征信息利用率。最后在多尺度加強(qiáng)特征圖輸出前，融入通道注意力機(jī)制，進(jìn)一步提高紅外特征提取能力，降低噪聲干擾。實驗結(jié)果表明，本文算法模型大小僅為YOLOv4的28.87%，對紅外目標(biāo)的檢測精度得到了明顯提升。

紅外圖像；目標(biāo)檢測；YOLOv4；通道注意力機(jī)制

0 引言

紅外成像技術(shù)依據(jù)不同物體間的紅外熱輻射強(qiáng)度差異進(jìn)行成像[1]，具有受天氣影響小、抗光線干擾能力強(qiáng)等優(yōu)點，彌補(bǔ)了可見光成像受光線條件影響的缺陷，能夠?qū)崿F(xiàn)全天候獲取檢測目標(biāo)。但與可見光成像相比，紅外目標(biāo)成像存在紋理特征少、對比度低、信噪比低、成像模糊等特點，這些特點的存在增大了紅外目標(biāo)檢測難度，目標(biāo)檢測準(zhǔn)確率較低。因此，開展紅外目標(biāo)檢測算法研究，對提高紅外目標(biāo)檢測效果有重要意義。

傳統(tǒng)的紅外目標(biāo)檢測[2-4]多采用模板匹配、閾值分割、統(tǒng)計學(xué)習(xí)等方法，通過抑制背景區(qū)域來突出目標(biāo)區(qū)域?qū)崿F(xiàn)目標(biāo)檢測，但這些方法魯棒性差、對場景敏感，實際應(yīng)用效果不理想。隨著計算能力的提升，基于深度卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks, CNN）的目標(biāo)檢測技術(shù)在可見光圖像領(lǐng)域中取得了巨大進(jìn)展，將深度卷積神經(jīng)網(wǎng)絡(luò)運用到紅外目標(biāo)檢測領(lǐng)域受到越來越多學(xué)者的關(guān)注，并開展了許多相關(guān)研究。如Hao等人[5]對RCNN[6]（Regions with CNN features）進(jìn)行改進(jìn)，提出一種雙層區(qū)域建議網(wǎng)絡(luò)，并在主干網(wǎng)絡(luò)中引入多尺度池模塊，實現(xiàn)了多尺度紅外目標(biāo)檢測；顧佼佼等人[7]在Faster RCNN[8]的基礎(chǔ)上，通過拼接多尺度特征圖得到具有更豐富語義信息特征向量，提高了紅外目標(biāo)檢測精度；劉智嘉等人[9]在YOLOv3[10]基礎(chǔ)上對主干特征提取網(wǎng)絡(luò)進(jìn)行輕量化操作，并減少特征金字塔結(jié)構(gòu)的尺度，明顯提升了檢測速度，但檢測準(zhǔn)確率因此而下降。總體而言，基于深度卷積神經(jīng)網(wǎng)絡(luò)的紅外目標(biāo)檢測的精確度和速度仍有待提高。

深度卷積神經(jīng)網(wǎng)絡(luò)利用色彩、紋理等信息進(jìn)行特征提取，構(gòu)建高層語義信息，但在處理紅外圖像時，紅外目標(biāo)像素占比少，深層網(wǎng)絡(luò)中目標(biāo)特征丟失嚴(yán)重，致使特征提取效果不理想。除此之外，紅外圖像缺少色彩信息，目標(biāo)與背景特征差異小，深度卷積神經(jīng)網(wǎng)絡(luò)不能對有效信息和無效信息產(chǎn)生區(qū)分，致使紅外目標(biāo)檢測難度增大，檢測準(zhǔn)確度低。

針對上述紅外目標(biāo)檢測中存在的問題，本文提出一種融合通道注意力機(jī)制的多尺度紅外目標(biāo)檢測模型SE-YOLOv4。該模型首先使用K-means算法對紅外目標(biāo)錨框尺寸進(jìn)行調(diào)整，并在不影響特征提取能力的前提下，對主干特征提取網(wǎng)絡(luò)作精簡，減少網(wǎng)絡(luò)計算量。其次，重新構(gòu)建多尺度特征融合模塊，補(bǔ)充淺層高分辨率特征信息，進(jìn)而實現(xiàn)多尺度目標(biāo)精確識別。最后，在路徑聚合網(wǎng)絡(luò)輸出前融入通道注意力機(jī)制SE（Squeeze-and-Excitation Networks）[11]，增強(qiáng)特征融合效果的同時加強(qiáng)網(wǎng)絡(luò)對顯著性特征的關(guān)注，從而整體提高紅外目標(biāo)檢測性能。通過在自制紅外數(shù)據(jù)集和FLIR公開紅外數(shù)據(jù)集上對不同目標(biāo)檢測算法進(jìn)行性能驗證，實驗結(jié)果表明，本文算法具有更好的紅外目標(biāo)檢測效果。

1 模型設(shè)計

1.1 目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu)

深度卷積神經(jīng)網(wǎng)絡(luò)對紅外目標(biāo)進(jìn)行特征提取時，由于目標(biāo)信噪比低、像素占比低，經(jīng)過多次卷積下采樣操作后像素信息會隨特征圖尺寸變小逐漸消失，導(dǎo)致紅外目標(biāo)檢測效果并不理想。為提高紅外目標(biāo)檢出率，本文以YOLOv4[12]為基礎(chǔ)網(wǎng)絡(luò)，提出一種融合注意力機(jī)制的多尺度紅外目標(biāo)檢測網(wǎng)絡(luò)SE-YOLOv4。

SE-YOLOv4目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，包含Backbone主干特征提取網(wǎng)絡(luò)、Neck頸部網(wǎng)絡(luò)和Head目標(biāo)預(yù)測網(wǎng)絡(luò)3部分。主干特征提取網(wǎng)絡(luò)為CSPDarknet53改進(jìn)后的CSPDarknet44，用于提取圖像特征，采集多層特征圖，以供后續(xù)檢測使用。Neck頸部網(wǎng)絡(luò)由空間金字塔池化結(jié)構(gòu)（Spatial Pyramid Pooling，SPP）和多尺度特征融合網(wǎng)絡(luò)組成。SPP結(jié)構(gòu)包含4個不同尺度的最大池化層，將主干特征提取網(wǎng)絡(luò)的最后一層特征層經(jīng)3次卷積后進(jìn)行最大池化處理，增大特征層感受野，分離出最顯著的上下文特征。為充分利用淺層特征信息，本文重新構(gòu)建多尺度特征融合網(wǎng)絡(luò)，將有效特征層的選取由降32、16、8倍改為降16、8、4倍，并通過FPN[13]結(jié)構(gòu)和PAN[14]結(jié)構(gòu)實現(xiàn)深層、淺層語義信息充分融合，豐富目標(biāo)特征信息。為了進(jìn)一步增強(qiáng)特征融合效果，引入通道注意力機(jī)制SE，使網(wǎng)絡(luò)自動學(xué)習(xí)特征圖通道間相關(guān)性，緩解跨尺度融合中的混疊效應(yīng)[15]。與此同時，通過重新分配特征圖通道間權(quán)重，增強(qiáng)特征圖中對有效信息關(guān)注，抑制冗余信息干擾。目標(biāo)預(yù)測網(wǎng)絡(luò)YOLO Head對獲得的加強(qiáng)特征圖進(jìn)行特征整合，得到預(yù)測結(jié)果。

圖1 SE-YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)

1.2 目標(biāo)先驗框設(shè)計

合理的先驗框（anchor）能有效提高目標(biāo)檢測性能[16]。YOLOv4原始設(shè)定的先驗框是根據(jù)可見光coco數(shù)據(jù)集得來的，主要面向自然光場景下的目標(biāo)檢測。將原先驗框直接應(yīng)用于紅外目標(biāo)檢測中，先驗框與紅外目標(biāo)邊框的重合度較低，不利于精準(zhǔn)預(yù)測目標(biāo)位置，從而影響目標(biāo)檢測效果。為了使先驗框尺寸更加適用于紅外數(shù)據(jù)集，增強(qiáng)先驗框與目標(biāo)邊框重合度，本文對紅外目標(biāo)尺寸大小重新聚類，得到更適合的anchor參數(shù)。通過聚類使得anchor與聚類中心之間的重合度交并比IoU（Intersection over Union）值更大，距離更小。距離衡量公式如式(1)所示：

式中：box為目標(biāo)標(biāo)簽框，centroid為聚類中心。

SE-YOLOv4結(jié)構(gòu)輸出3個尺度特征層，每層采用3個先驗框，實現(xiàn)目標(biāo)位置的預(yù)測。按照上述方法，采用Kmeans算法對紅外數(shù)據(jù)集中的目標(biāo)尺寸進(jìn)行聚類分析得到尺寸更適合的anchor，并將得到的聚類結(jié)果分配到對應(yīng)的3個輸出特征層上，如表1所示。

表1 本文紅外數(shù)據(jù)集先驗框尺寸表

1.3 主干特征提取網(wǎng)絡(luò)模塊

CSPDarknet53網(wǎng)絡(luò)主要由CSPStage與殘差塊ResBlock相結(jié)合的Resblock_body構(gòu)成，網(wǎng)絡(luò)不同層之間使用跳躍連接，有效緩解了因網(wǎng)絡(luò)過深造成梯度消失的問題，但由于網(wǎng)絡(luò)層數(shù)較深，隨著卷積和池化次數(shù)的增加，深層特征層包含的細(xì)節(jié)紋理信息越來越弱，目標(biāo)特征丟失嚴(yán)重。因此，將CSPDarknet53的C5、C4、C3三層特征層替換成C4、C3、C2三層特征層作為有效特征層參與后續(xù)特征融合。C4、C3、C2中含有更豐富的淺層信息，可有效緩解紅外圖像特征丟失的問題。此時網(wǎng)絡(luò)底層特征層C5未起到檢測作用，增加了網(wǎng)絡(luò)參數(shù)量，舍去CSPDarknet53最后一層Resblock_body結(jié)構(gòu)，用CSPDarknet44作為主干特征提取網(wǎng)絡(luò)，降低模型大小，提升訓(xùn)練速度。

CSPDarknet44網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。網(wǎng)絡(luò)輸入圖像尺寸為416×416，經(jīng)3×3卷積核對輸入圖像進(jìn)行卷積處理，激活函數(shù)選用泛化能力好的Mish函數(shù)。卷積后的圖像經(jīng)4個Resblock_body塊繼續(xù)深入提取特征，Reblock_body塊主要包括主干和大殘差邊兩部分，主干部分進(jìn)行殘差塊的堆疊，另一部分將大殘差邊簡單處理后與主干部分相連接。其中，4個Reblock_body塊內(nèi)部殘差塊堆疊個數(shù)分別為1、2、8、8，并將網(wǎng)絡(luò)最后三層提取到的特征圖供檢測使用。

1.4 多尺度特征融合模塊

1.4.1 融入通道注意力機(jī)制的特征融合

不同尺度的特征圖經(jīng)上采樣或下采樣操作完成尺度統(tǒng)一后，采用串聯(lián)堆疊concat操作將不同尺度的特征信息融合。假設(shè)concat兩路輸入的通道數(shù)分別為1，2，…，X和1，2，…，Y，那么concat的單個輸出通道如式(2)所示，其中*表示卷積。

從上式可看出，concat操作只是實現(xiàn)通道維度上合并[17]，并沒有關(guān)注通道內(nèi)在特征間的聯(lián)系，易造成跨尺度融合中的混疊效應(yīng)，使得融合過程中的信息衰減。受SENet的啟發(fā)，將其引入到特征融合網(wǎng)絡(luò)中，通過計算特征圖每個通道與關(guān)鍵信息的相關(guān)度，對通道分配相應(yīng)權(quán)重，增強(qiáng)特征圖通道間的相關(guān)性。

圖2 主干特征提取網(wǎng)絡(luò)結(jié)構(gòu)

Fig.2 Backbone feature extraction network structure

1.4.2 多尺度特征融合網(wǎng)絡(luò)

將基于通道注意力機(jī)制的特征融合算法應(yīng)用于多尺度特征融合網(wǎng)絡(luò)中，網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。整個網(wǎng)絡(luò)主要流程：經(jīng)CSPDarknet44網(wǎng)絡(luò)特征提取后得到C2、C3、C4三個不同深度的特征層輸入到多尺度特征融合網(wǎng)絡(luò)，首先FPN結(jié)構(gòu)使深層特征層信息融入到淺層中，將C4特征層上采樣與中層特征層C3串聯(lián)堆疊后，進(jìn)行5次卷積生成特征圖P3，P3再經(jīng)上采樣與淺層特征層C2融合，得到加強(qiáng)特征圖P2。為了充分利用淺層特征信息，實現(xiàn)淺層特征層信息融入到深層中，PAN結(jié)構(gòu)將淺層加強(qiáng)特征層P2經(jīng)下采樣與特征層P3融合，生成加強(qiáng)特征圖N3，N3再經(jīng)下采樣與P4特征融合后，生成加強(qiáng)特征圖N4。N2、N3、N4經(jīng)通道注意力模塊SE，對特征圖每個通道上的權(quán)重進(jìn)行顯式建模，使得特征圖能夠自動學(xué)習(xí)通道間相關(guān)性，增強(qiáng)特征提取效果。

該網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計有以下優(yōu)點：①輸入的有效特征層淺層信息更豐富，有利于紅外特征信息保留，提高檢測性能。②通道注意力機(jī)制SE的融入，避免了特征融合中信息衰減的問題。③輸出的3個尺度加強(qiáng)特征圖中因通道間權(quán)重關(guān)系得到優(yōu)化，更加關(guān)注有效信息的存在，減少噪聲信息干擾。

1.5 通道注意力機(jī)制SE模塊

通道注意力SE可在增加少量參數(shù)量的情況下，分配特征圖通道間的權(quán)重，加強(qiáng)對有用信息的關(guān)注的同時抑制噪聲干擾，從而提升卷積神經(jīng)網(wǎng)絡(luò)性能。SENet網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，給定一個輸入特征圖，高和寬分別為,，通道數(shù)為，通過全局平均池化global average pooling得到該輸入層個feature map的通道權(quán)重數(shù)值分布情況，計算公式如式(3)所示：

上式(3)將××的輸入轉(zhuǎn)換成1×1×的輸出，對應(yīng)圖3中的sq操作。輸出c表示為經(jīng)過Squeeze壓縮后得到的通道權(quán)重數(shù)組，長度為，X表示輸入特征圖，X(,)表示在輸入特征圖上坐標(biāo)為(,)的點。

為了完全捕獲通道間的相關(guān)性，將壓縮得到的通道權(quán)重值Z經(jīng)過一個全連接層操作1×Z，1的維度是/×，其中為縮放系數(shù)，在本文中取的是16，最終經(jīng)過1全連接層后的結(jié)果是1×1×/，在經(jīng)過一個Relu層其輸出的維度不變；然后在經(jīng)過一個全連接層操作2×Relu(1, Z)，2的維度是×/，因此輸出維度是1×1×，最后經(jīng)過sigmoid函數(shù)激活，得到結(jié)果S，計算公式如式(4)所示：

通過上述兩個全連接操作得到了通道相關(guān)性，即通道注意力權(quán)重S。最后，加權(quán)調(diào)整輸入特征圖的通道，即把個通道都乘以相應(yīng)的通道注意力權(quán)重，計算公式如式(5)所示：

X￠＝scale(X,S)?S(5)

式中：￠為輸入特征圖經(jīng)過通道注意力加權(quán)后的結(jié)果，符號“?”表示逐元素相乘，以上為通道注意力機(jī)制SENet模型的原理。

圖4 SENet網(wǎng)絡(luò)結(jié)構(gòu)

2 實驗結(jié)果與分析

2.1 數(shù)據(jù)集介紹

公開紅外數(shù)據(jù)集的圖像紋理特征更清晰，與實際中常用的紅外攝像機(jī)成像差異較大。為使實驗數(shù)據(jù)更加真實，切實解決現(xiàn)實問題，本文實驗數(shù)據(jù)集采用自行采集的紅外數(shù)據(jù)集，如圖5所示。使用Xcore Micro Ⅱ系列非制冷紅外攝像機(jī)拍攝全天不同時段、多個場景的戶外街道上行駛的車輛、行人和自行車的視頻，并將視頻逐幀提取圖片，經(jīng)過篩選制作成紅外數(shù)據(jù)集。該數(shù)據(jù)集中共4000張圖片，分辨率大小為640×480，使用Labelme軟件對車輛、行人、自行車3類紅外目標(biāo)進(jìn)行PascalVOC格式人工標(biāo)注。將數(shù)據(jù)集劃分訓(xùn)練集:驗證集:測試集＝8:1:1，采用凍結(jié)訓(xùn)練的方式進(jìn)行訓(xùn)練。

圖5 紅外數(shù)據(jù)集樣本及人工標(biāo)注示例

2.2 實驗條件

本實驗的計算機(jī)操作系統(tǒng)為Ubuntu 18.04，GPU型號為RTX 2080Ti，運行內(nèi)存為16GB，CUDA版本為11.4。算法編寫采用Pytorch框架，Python編程語言，Adam優(yōu)化器動態(tài)優(yōu)化網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練。為加快訓(xùn)練速度，初始凍結(jié)主干網(wǎng)絡(luò)并設(shè)置學(xué)習(xí)率r為0.001，batchsize為8，訓(xùn)練50個epoch；將主干網(wǎng)絡(luò)解凍后，設(shè)置學(xué)習(xí)率r為0.0001，batchsize為4，訓(xùn)練150個epoch。

2.3 評價指標(biāo)

本文通過平均準(zhǔn)確率（Average Precision，AP）、（mean Average Precision，mAP）、參數(shù)量和模型大小等指標(biāo)對目標(biāo)檢測網(wǎng)絡(luò)的性能進(jìn)行評價。其中AP、mAP值的計算與查準(zhǔn)率Precision和召回率Recall有關(guān)，這兩項計算公式如式(6)、(7)所示。

式中：TP（True Positives）為正確預(yù)測正樣本的數(shù)量；FP（False Positives）為錯誤預(yù)測負(fù)樣本的數(shù)量；FN（False Negatives）為錯誤預(yù)測正樣本的數(shù)量。

以Recall為橫軸，Precision為縱軸可以畫出的一條-曲線，-曲線下的面積定義為AP值。AP與mAP計算公式如式(8)、(9)所示，其中代表目標(biāo)檢測類別數(shù)量。

2.4 實驗結(jié)果與分析

在自采的紅外數(shù)據(jù)集上將本文SE-YOLOv4模型與多種目標(biāo)檢測模型進(jìn)行實驗對比，驗證本文算法的有效性。

2.4.1 SE-YOLOv4與YOLOv4實驗結(jié)果對比

將本文SE-YOLOv4算法與YOLOv4算法的檢測實驗結(jié)果進(jìn)行對比，如圖6所示?？梢钥闯鲈赟E-YOLOv4算法對3類目標(biāo)的檢測AP值均得到了提高，檢測效果提升明顯。其中，car目標(biāo)AP值為93%，比YOLOv4的89%提升了4%；person目標(biāo)AP值為90%，比YOLOv4的85%提升了5%；bicycle目標(biāo)AP值為81%，比YOLOv4的70%提升了11%。

2.4.2 檢測效果對比

本文SE-YOLOv4與YOLOv4算法在不同場景下進(jìn)行的目標(biāo)檢測效果對比，如圖7所示，其中(a)、(b)分別為YOLOv4和SE-YOLOv4算法的檢測效果圖。可以看出在多場景下進(jìn)行紅外目標(biāo)檢測，SE-YOLOv4檢測效果得到很大提升。

圖7展現(xiàn)了3組YOLOv4和SE-YOLOv4的檢測效果實驗對比圖。在第一組圖中，YOLOv4未檢測到左側(cè)車輛，SE-YOLOv4可對其精準(zhǔn)檢測。第二組圖中，YOLOv4只檢測到person，而SE-YOLOv4對不明顯的bicycle也可以檢測到。第三組圖中，SE-YOLOv4對各目標(biāo)檢測精度均高于YOLOv4檢測結(jié)果。

2.4.3 目標(biāo)檢測算法實驗對比

為了進(jìn)一步驗證SE-YOLOv4算法的性能，將SE-YOLOv4與EfficientDet[18]、Faster R-CNN、SSD[19]、YOLO[10,12,20-21]系列算法進(jìn)行實驗對比，實驗結(jié)果如表2所示。

圖6 YOLOv4和SE-YOLOv4檢測精度對比

圖7 SE-YOLOv4與YOLOv4檢測效果對比

表2 相關(guān)目標(biāo)檢測模型實驗結(jié)果

實驗結(jié)果表明，本文算法SE-YOLOv4檢測性能高于其他算法，mAP值為87.85%，比原YOLOv4算法的mAP值高6.57%，比EfficientDet、Faster-RCNN、SSD、YOLOv3、YOLOv5算法的mAP值分別高16.77%、20.32%、14.31%、7.42%、2.85%，說明本文SE-YOLOv4算法對于紅外目標(biāo)有更好的檢測效果。

對比各類目標(biāo)的AP值可以發(fā)現(xiàn)，YOLOv3、YOLOv4、YOLOv5算法在進(jìn)行檢測時對于低對比度的目標(biāo)檢測效果不好，bicycle表現(xiàn)的尤為明顯，目標(biāo)與背景差異小，相比于其他目標(biāo)檢測難度大。SE-YOLOv4算法通過重新設(shè)計多尺度特征融合策略，引入通道注意力機(jī)制的方式，增強(qiáng)網(wǎng)絡(luò)對紅外低對比度目標(biāo)的特征提取能力。本文SE-YOLOv4算法實驗結(jié)果中低對比度bicycle的AP值為81%，比YOLOv3高14%，比YOLOv4高11%，并且比目前性能最好的YOLOv5高7%，實驗結(jié)果表明SE-YOLOv4算法大大提高了對紅外目標(biāo)的檢測性能。

2.4.4 消融實驗

為了分析每個模塊對提高模型性能的作用進(jìn)行了消融實驗，實驗結(jié)果如表3所示。消融實驗共5組，分別是YOLOv4模型，重構(gòu)多尺度特征融合的網(wǎng)絡(luò)模型，加入改進(jìn)主干網(wǎng)絡(luò)后的模型，單獨引入SE的模型以及本文SE-YOLOv4算法模型。

第二組實驗通過改變多尺度特征融合網(wǎng)絡(luò)中的有效特征層，充分利用淺層特征層信息進(jìn)行多尺度特征融合，使得對3類目標(biāo)的檢測精度都得到了提升，尤其是針對低對比度目標(biāo)bicycle的精度漲了10%，說明優(yōu)化后網(wǎng)絡(luò)選取的有效特征層在保持普通紅外目標(biāo)的檢測精度的同時，有效提高了對紅外低對比度目標(biāo)的檢測能力，并且網(wǎng)絡(luò)參數(shù)量下降為YOLOv4的56.32%；第三組實驗降低主干網(wǎng)絡(luò)深度，在不影響特征提取能力的情況下減少了48.8%的網(wǎng)絡(luò)參數(shù)量；第四組實驗通過只引入SE通道注意力機(jī)制，提高網(wǎng)絡(luò)抗干擾能力，對每一類目標(biāo)的檢測精度都有提升，mAP值提高了2.04%；最后一組實驗即本文SE-YOLOv4算法，在主干網(wǎng)絡(luò)和有效特征層改進(jìn)后再引入SE，比第三組實驗的mAP值高了1.9%。綜上所述，本文SE-YOLOv4算法在檢測精度上得到了很大的提升，網(wǎng)絡(luò)模型大小僅為YOLOv4的28.87%，為紅外目標(biāo)檢測提供了更好的性能。

2.5 在FLIR數(shù)據(jù)集上的實驗對比

為了進(jìn)一步驗證本文SE-YOLOv4算法的檢測性能，同時在FLIR公開紅外數(shù)據(jù)集上進(jìn)行實驗對比，檢測實驗結(jié)果如表4所示。FLIR數(shù)據(jù)集由FLIR Black Fly熱像儀拍攝，同樣有行人、車輛、自行車3類目標(biāo)，但與自行采集的紅外數(shù)據(jù)集相比成像更加清晰，對比度更低，實驗效果對比如圖8所示。

表4中實驗結(jié)果表明，與YOLOv3、YOLOv4、YOLOv5模型相比，SE-YOLOv4有更好的檢測效果。SE-YOLOv4的mAP值比YOLOv4高了7.08%，比YOLOv3和YOLOv5分別高了21.42%、5.08%。其中，SE-YOLOv4算法對bicycle精度值提升最明顯，比YOLOv4高20%，比YOLOv3和YOLOv5分別高37%、16%。

表3 消融實驗

表4 相關(guān)目標(biāo)檢測模型實驗結(jié)果

圖8中展示了FLIR數(shù)據(jù)集在YOLOv4和SE-YOLOv4模型中的檢測效果對比，左側(cè)為YOLOv4檢測圖，右側(cè)為SE-YOLOv4檢測圖?？擅黠@看到對于對比度低、輪廓模糊的目標(biāo)，本文算法檢測性能更好。SE-YOLOv4通過充分利用淺層特征層信息，并融合注意力機(jī)制，以此加強(qiáng)紅外目標(biāo)特征提取能力，使得總體檢測性能更強(qiáng)，準(zhǔn)確度更高。

3 結(jié)語

針對紅外目標(biāo)特點，本文提出了融入注意力機(jī)制的多尺度紅外目標(biāo)檢測模型，有效提高了紅外目標(biāo)檢測精度，同時減少了網(wǎng)絡(luò)冗余計算量。該模型重新構(gòu)建了多尺度特征融合網(wǎng)絡(luò)，網(wǎng)絡(luò)中充分利用淺層特征層信息，有效緩解了因特征丟失導(dǎo)致檢測準(zhǔn)確度低的問題。其次，通過融入通道注意力讓網(wǎng)絡(luò)自動學(xué)習(xí)特征圖通道間相關(guān)性，突出紅外目標(biāo)信息的同時提高了網(wǎng)絡(luò)抗干擾能力。為了證明方法的有效性，在自采紅外數(shù)據(jù)集和公開紅外數(shù)據(jù)集中與相關(guān)目標(biāo)檢測算法進(jìn)行對比測試，實驗結(jié)果表明，本文算法模型大小僅為YOLOv4的28.87%，紅外目標(biāo)檢測準(zhǔn)確度得到了明顯提升。但本文算法在檢測中仍存在目標(biāo)漏檢現(xiàn)象，下一步工作將根據(jù)存在的問題繼續(xù)研究，以達(dá)到更好的紅外目標(biāo)檢測效果。

[1] 史澤林, 馮斌, 馮萍. 基于波前編碼的無熱化紅外成像技術(shù)綜述（特邀）[J]. 紅外與激光工程, 2022, 51(1): 32-42.

SHI Zelin, FENG Bin, FENG Ping. An overview of non thermal infrared imaging technology based on wavefront coding (invited) [J]., 2022, 51(1): 32-42.

[2] CHEN C, LI H, WEI Y, et al. A local contrast method for small infrared target detection[J]., 2013, 52(1): 574-581.

[3] LIU R, LU Y, GONG C, et al. Infrared point target detection with improved template matching[J]., 2012, 55(4): 380-387.

[4] Teutsch M, Muller T, Huber M, et al. Low resolution person detection with a moving thermal infrared camera by hot spot classification[C]//, 2014: 209-216.

[5] HAO Q, ZHANG L, WU X, et al. Multiscale object detection in infrared streetscape images based on deep learning and instance level data augmentation[J]., 2019, 9(3): 565.

[6] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//, 2014: 580-587.

[7] 顧佼佼, 李炳臻, 劉克, 等. 基于改進(jìn)Faster R-CNN的紅外艦船目標(biāo)檢測算法[J]. 紅外技術(shù), 2021, 43(2): 170-178.

GU Jiaojiao, LI Bingzhen, LIU Ke, et al Infrared ship target detection algorithm based on improved Faster R-CNN[J]., 2021, 43(2): 170-178.

[8] REN S, HE K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]., 2016, 39(6): 1137-1149.

[9] 劉智嘉, 汪璇, 趙金博, 等. 基于YOLO算法的紅外圖像目標(biāo)檢測的改進(jìn)方法[J].激光與紅外, 2020, 50(12): 1512-1520.

LIU Zhijia, WANG Xuan, ZHAO Jinbo, et al. An improved method of infrared image target detection based on YOLO algorithm[J]., 2020, 50(12): 1512-1520.

[10] Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018.

[11] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//, 2018: 7132-7141.

[12] Bochkovskiy A, Wang C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J/OL].: 2004.10934, 2020.

[13] LIN T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]//(CVPR), 2017: 2117-2125.

[14] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//(CVPR), 2018: 8759-8768.

[15] LUO Y, CAO X, ZHANG J, et al. CE-FPN: enhancing channel information for object detection[J/OL].: 2103. 10643, 2021.

[16] 謝俊章, 彭輝, 唐健峰, 等. 改進(jìn)YOLOv4的密集遙感目標(biāo)檢測[J]. 計算機(jī)工程與應(yīng)用, 2021, 57(22): 247-256.

XIE Junzhang, PENG Hui, TANG Jianfeng, et al. Improved dense remote sensing target detection of YOLOv4[J]., 2021, 57(22): 247-256.

[17] 鞠默然, 羅江寧, 王仲博, 等. 融合注意力機(jī)制的多尺度目標(biāo)檢測算法[J].光學(xué)學(xué)報, 2020, 40(13): 132-140.

JU Muran, LUO Jiangning, WANG Zhongbo, et al. Multi scale target detection algorithm integrating attention mechanism[J]., 2020, 40(13): 132-140.

[18] TAN M, PANG R, LE Q V. Efficient det: Scalable and efficient object detection[C]//, 2020: 10781-10790.

[19] LIU W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//, 2016: 21-37.

[20] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//, 2016: 779-788.

[21] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//, 2017: 7263-727.

Multiscale Infrared Target Detection Based on Attention Mechanism

LI Xiangrong，SUN Lihui

(College of Information Technology, Hebei University of Economics and Business, Shijiazhuang 050061, China)

To address the problems of poor textural detail, low contrast, and poor target detection in infrared images, a multiscale infrared target detection model that integrates a channel attention mechanism is proposed based on Yolov4 (You Only Look Once version 4). First, the number of model parameters is reduced by reducing the depth of the backbone feature extraction network. Second, to supplement the shallow high-resolution feature information, the multiscale feature fusion module is reconstructed to improve the utilization of the feature information. Finally, before the multiscale feature map is generated, the channel attention mechanism is integrated to further improve the infrared feature extraction ability and reduce noise interference. The experimental results show that the size of the algorithm model in this study was only 28.87% of the Yolov4. The detection accuracy of the infrared targets also significantly improved.

infrared image, target detection, YOLOv4, attention mechanism

TN215

1001-8891(2023)07-0746-09

2022-04-10；

2022-07-20.

李向榮（1998-），女，碩士研究生，研究方向：圖像處理、目標(biāo)檢測。E-mail: 243404315@qq.com。

孫立輝（1970-），男，博士，教授，研究領(lǐng)域：圖像處理、數(shù)據(jù)分析。E-mail: Sun_lh@163.com。

河北省重點研發(fā)計劃項目（20350801D）。