谷 雨,張宏宇,彭冬亮
(1.杭州電子科技大學(xué)自動化學(xué)院,浙江 杭州 310018;2.杭州電子科技大學(xué)圣光機(jī)聯(lián)合學(xué)院,浙江 杭州 310018)
紅外成像系統(tǒng)具有全天候、抗干擾能力強(qiáng)、探測距離遠(yuǎn)等優(yōu)勢,因此基于紅外成像的目標(biāo)檢測技術(shù)在軍事偵查、紅外制導(dǎo)、自動駕駛等領(lǐng)域得到了廣泛應(yīng)用[1]。與可見光圖像不同,紅外圖像分辨率低、背景復(fù)雜,目標(biāo)多呈現(xiàn)為弱小目標(biāo)狀態(tài),嚴(yán)重影響了檢測精度,因此如何提高紅外小目標(biāo)檢測性能成為亟待解決的問題。
傳統(tǒng)的紅外小目標(biāo)檢測方法主要有三種[2],基于濾波器的紅外小目標(biāo)檢測算法思路簡單、計(jì)算量小,但其對于復(fù)雜背景的抑制較差,檢測精度低;基于人眼視覺系統(tǒng)的檢測方法易于實(shí)現(xiàn),但其檢測精度依賴于分割閾值,有一定局限性;基于矩陣分解的方法對于復(fù)雜背景有較高的可靠性,但由于計(jì)算復(fù)雜,檢測實(shí)時(shí)性較差。
隨著深度學(xué)習(xí)理論的發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測取得了遠(yuǎn)超傳統(tǒng)方法的性能。基于深度學(xué)習(xí)的通用目標(biāo)檢測算法可以分為基于候選框的兩階段檢測算法和基于回歸的單階段檢測算法[3]。直接將上述通用目標(biāo)檢測算法用于紅外小目標(biāo)檢測時(shí),由于紅外圖像分辨率低、目標(biāo)尺寸小、缺乏細(xì)節(jié)紋理特征的特性,增加了紅外目標(biāo)的檢測難度,檢測性能會降低,因此研究學(xué)者針對深度學(xué)習(xí)紅外圖像弱小目標(biāo)檢測進(jìn)行了一系列優(yōu)化。Wu等人[4]基于YOLOv3[5]算法,將網(wǎng)絡(luò)預(yù)測層擴(kuò)展到4個(gè)特征尺度,通過引入GIoU[6]改進(jìn)了損失函數(shù),提高了檢測性能,在FLIR紅外數(shù)據(jù)集上平均準(zhǔn)確率提高了3.4 %。Zheng等人[7]針對紅外小型無人機(jī)目標(biāo)檢測,設(shè)計(jì)了一個(gè)特征增強(qiáng)模塊以增強(qiáng)“目標(biāo)特征”,同時(shí)將自適應(yīng)特征融合方法引入特征融合中,以解決跨尺度特征融合中特征表達(dá)弱化的問題。Zhao等人[8]結(jié)合DenseNet[9]和YOLOv5s[10],將YOLOv5s的部分C3模塊替換為DenseBlock模塊,并且在主干網(wǎng)絡(luò)中加入SENet[11]模塊,提高了特征提取能力同時(shí)降低參數(shù)量,并且使用簡化的BiFPN取代了原始PANet[12]結(jié)構(gòu),增強(qiáng)了網(wǎng)絡(luò)提取不同尺度特征的能力,在夜間道路場景下對行人和車輛檢測的平均準(zhǔn)確率提高了3.49 %。MFSSD[13]重新設(shè)計(jì)了特征融合網(wǎng)絡(luò),加強(qiáng)了不同層次網(wǎng)絡(luò)之間的信息交互,實(shí)現(xiàn)了深層特征和淺層特征的有效融合?,F(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)受感受野限制,無法獲取大范圍內(nèi)目標(biāo)和背景的差異性,后續(xù)的研究學(xué)者開始嘗試將Transformer[14]用于目標(biāo)檢測,TPH-YOLOv5[15]通過探索自注意力機(jī)制使用Transformer預(yù)測頭,提升了密集場景和遮擋情況下小目標(biāo)的檢測性能。Xin等人[16]使用SwinTransformer替換YOLOv5s中的部分C3模塊,在FLIR數(shù)據(jù)集上平均準(zhǔn)確率較初始YOLOv5s提高了5.6 %。Liu等人[17]為了獲取紅外圖像中的全局依賴,提出了一種基于Transformer的紅外弱小目標(biāo)檢測方法,利用Transformer的自注意力機(jī)制,在全局范圍內(nèi)學(xué)習(xí)目標(biāo)特征。同時(shí)為了避免目標(biāo)丟失,使用了類似U-Net[18]的網(wǎng)絡(luò)結(jié)構(gòu)來融合不同尺度的特征,在兩個(gè)公共數(shù)據(jù)集上取得了更好的檢測結(jié)果。
結(jié)合紅外圖像的特性和YOLO系列算法的優(yōu)勢,本文提出了一種基于改進(jìn)YOLOv5s的實(shí)時(shí)紅外小目標(biāo)檢測模型,主要的創(chuàng)新點(diǎn)如下:
(1)在特征提取階段,使用SPD-Conv[19]進(jìn)行下采樣,避免小目標(biāo)特征丟失,同時(shí)通過串聯(lián)多個(gè)不同空洞率的空洞卷積增強(qiáng)多尺度特征提取能力。在主干網(wǎng)絡(luò)中加入了CBAM[20]空間和通道混合注意力模塊,以提高模型的表征能力,提升小目標(biāo)的檢測性能。
(2)在特征融合階段,引入由深到淺的注意力模塊,將深層語義特征嵌入到淺層空間特征中,提高淺層特征的表達(dá)能力。
(3)在預(yù)測階段,裁剪網(wǎng)絡(luò)中針對大目標(biāo)檢測的預(yù)測層及相關(guān)特征提取和特征融合層,降低了模型大小,提高了檢測實(shí)時(shí)性。
(4)最后采用Infrared-PV和SIRST[21]數(shù)據(jù)集驗(yàn)證了提出算法的有效性。
根據(jù)網(wǎng)絡(luò)深度和寬度不同,YOLOv5模型由小到大可分為YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。由于紅外圖像分辨率較低,樣本數(shù)量少,復(fù)雜的網(wǎng)絡(luò)會導(dǎo)致過擬合,因此本文選擇YOLOv5s作為紅外小目標(biāo)檢測基準(zhǔn)模型。YOLOv5主要分為輸入、特征提取、特征融合和預(yù)測輸出四個(gè)部分。輸入模塊使用Mosaic進(jìn)行數(shù)據(jù)增強(qiáng)以增加樣本數(shù)量。特征提取模塊主要由CBS、C3和SPPF模塊組成,CBS采用步長為2的卷積對特征圖進(jìn)行下采樣。C3模塊借鑒了CSPNet[22](Cross Stage Partial Network)的設(shè)計(jì),將CSPBottleNeck中的卷積減少到3個(gè),在不降低檢測精度的前提下減少了模型參數(shù),提高了實(shí)時(shí)性。SPPF模塊在空間金字塔池化[23](Spatial Pyramid Pooling,SPP)的基礎(chǔ)上使用多個(gè)小尺寸池化核級聯(lián)代替SPP模塊中單個(gè)大尺寸池化核,進(jìn)一步提高了檢測速度。在特征融合階段,YOLOv5s采用特征金字塔網(wǎng)絡(luò)[24](Feature Pyramid Network,FPN)和PANet(Path Aggregation Network)的多尺度特征融合策略,增強(qiáng)多尺度特征的融合能力。預(yù)測模塊主要用于檢測目標(biāo),當(dāng)輸入圖像分辨率為640×640時(shí),分別輸出20×20、40×40和80×80大小的特征圖,對應(yīng)大、中、小目標(biāo)檢測層。
盡管YOLOv5s性能優(yōu)異,但其在紅外場景下的檢測精度仍有待提高,故本文從特征提取、特征融合、預(yù)測輸出三個(gè)方面改進(jìn)YOLOv5s,提出了一個(gè)實(shí)時(shí)紅外小目標(biāo)檢測模型Infrared-YOLOv5s,以提高紅外小目標(biāo)檢測精度,其結(jié)構(gòu)如圖1所示,圖中改進(jìn)模塊用不同顏色標(biāo)識。
圖1 Infrared-YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)
2.2.1 基于SPD-Conv和IASPP的改進(jìn)特征提取網(wǎng)絡(luò)
現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)通常使用步長為2的卷積或最大池化進(jìn)行下采樣,由于紅外圖像分辨率低、目標(biāo)細(xì)節(jié)特征缺失,這種下采樣方式會導(dǎo)致細(xì)節(jié)信息丟失。因此,本文引入了SPD-Conv來替換YOLOv5s中的下采樣模塊。
SPD-Conv由空間到深度轉(zhuǎn)換層(Space-to-depth,SPD)和一個(gè)1×1卷積的CBS模塊組成。SPD層對特征圖進(jìn)行下采樣時(shí)保留了通道維度中的所有信息,因此沒有信息丟失。在SPD層后添加1×1卷積降低通道數(shù)。如圖2所示,給定S×S×C1的特征圖,將其切片為四個(gè)S/2×S/2×C1的特征子圖,將這些子圖按通道拼接,得到S/2×S/2×4C1的特征圖,最后使用1×1卷積調(diào)整通道數(shù)。使用SPD-Conv進(jìn)行下采樣可以最大程度保留小目標(biāo)的細(xì)節(jié)特征,有利于后續(xù)的特征提取操作。
圖2 SPD-Conv結(jié)構(gòu)圖
針對YOLOv5采樣過程中小目標(biāo)容易丟失的問題,如圖1所示,本文在特征提取階段加入CBAM[20]注意力模塊,使網(wǎng)絡(luò)更專注于對小目標(biāo)的檢測。在目標(biāo)檢測任務(wù)中,較大的感受野可以獲得更為全局、語義層次更高的特征,但下采樣操作增大感受野的同時(shí)會帶來分辨率的降低,導(dǎo)致小目標(biāo)丟失。為了解決這個(gè)矛盾,引入空洞卷積[25](AtrousConvolution),在減少分辨率損失的前提下,增大感受野??斩纯臻g金字塔池化[26](Atrous SpatialPyramidPooling,ASPP)將不同感受野特征圖融合,使得像素點(diǎn)分類更準(zhǔn)確。然而,隨著采樣率的增加,空洞卷積的效果會變差。為了在融合多尺度特征信息的同時(shí)獲得更大的感受野,本文重新設(shè)計(jì)了ASPP模塊,提出了改進(jìn)空洞空間金字塔池化(Improved AtrousSpatialPyramidPooling,IASPP)模塊。如圖3所示,ISAPP包含三個(gè)分支,輸入特征圖經(jīng)過1×1卷積得到輸出out;經(jīng)過自適應(yīng)全局平均池化得到輸出pool;在空洞卷積分支中,經(jīng)過3×3的普通卷積得到輸出out1,然后將out1輸入采樣率為2的空洞卷積得到out2,并將其與out1拼接得到add1,輸入到采樣率為3的空洞卷積得到輸出out3,將out3與add1拼接得到add2,串聯(lián)的空洞卷積結(jié)構(gòu)可以在不同采樣率的特征圖間共享特征,從而改善ASPP因采樣率變大導(dǎo)致效果變差的問題,增大感受野的同時(shí)又能獲取多尺度信息。ISAPP的最終輸出為Cat(pool,out,add2)。
圖3 IASPP模塊結(jié)構(gòu)圖
2.2.2 基于由深到淺注意力的多尺度特征融合
淺層特征感受野小,分辨率高,包含更多細(xì)節(jié)信息,對于目標(biāo)定位較為重要;深層特征可以提供更好的語義信息和對場景上下文的理解,有助于解決目標(biāo)和背景干擾物之間的歧義,但隨著分辨率的降低細(xì)節(jié)信息丟失嚴(yán)重。因此實(shí)現(xiàn)淺層特征和深層特征的有效融合,可以提高檢測性能。如圖4(a)所示,YOLOv5通過Concat操作將淺層特征和深層特征直接按通道拼接,不能反映不同尺度特征的重要性。在多尺度特征融合階段,引入由深到淺的注意力模塊(Deep-to-Shallow Attention Module,DSAM)如圖4(b)所示,將深層語義特征嵌入到淺層空間特征,可以幫助處理歧義,提高分類準(zhǔn)確率。
圖4 深層特征與淺層特征融合策略
對深層特征H首先通過全局平均池化(Global Average Pooling,GAP)編碼得到全局特征U,然后利用1×1卷積學(xué)習(xí)各通道之間的關(guān)系,再經(jīng)過Sigmoid激活函數(shù)將輸出限制在0~1之間,得到權(quán)重w:
w=σ(SiLU(Conv(U)))
(1)
式中,σ表示Sigmoid激活函數(shù),Conv為1×1卷積,SiLU為卷積層激活函數(shù);將權(quán)重w與原始深層特征H相乘即可得到加權(quán)后的特征H′。最后,將加權(quán)后的深層特征H′和淺層特征L拼接,得到融合特征圖。該模塊可以將深層特征更有效地傳遞給淺層特征,提高了特征融合效果。
2.2.3 適用于紅外小目標(biāo)檢測的預(yù)測層結(jié)構(gòu)
本文檢測對象為紅外圖像中的弱小目標(biāo),在YOLOv5中,大目標(biāo)檢測層的特征圖是對輸入圖像進(jìn)行32倍下采樣得到的,當(dāng)目標(biāo)尺寸小于32×32像素時(shí),會出現(xiàn)目標(biāo)采樣不到的現(xiàn)象。因此,對于檢測紅外小目標(biāo),YOLOv5中的大目標(biāo)檢測層屬于冗余層,會增加模型大小但對于小目標(biāo)檢測沒有幫助。基于上述結(jié)論,如圖1所示,本文裁減了YOLOv5網(wǎng)絡(luò)中的大目標(biāo)檢測層及其相應(yīng)特征提取和特征融合層,只進(jìn)行4次下采樣,僅保留8倍和16倍下采樣的特征圖進(jìn)行紅外小目標(biāo)檢測,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)去除了大量冗余計(jì)算,在保證檢測精度的前提下,降低了模型大小,防止出現(xiàn)過擬合,提高了檢測實(shí)時(shí)性。
本文使用SIRST紅外數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集是南京航空航天大學(xué)發(fā)布的一個(gè)不同場景下的單幀紅外小目標(biāo)數(shù)據(jù)集[21]。共有427張紅外圖像,包含500多個(gè)目標(biāo)。圖5為SIRST數(shù)據(jù)集中的部分紅外圖像及標(biāo)注信息。目標(biāo)所處的環(huán)境復(fù)雜多變,且目標(biāo)尺寸多樣且亮度差異較大。數(shù)據(jù)集標(biāo)注信息使用SIRST數(shù)據(jù)集的分割真值圖像利用最小包圍盒算法得到,標(biāo)注為VOC格式,保存為XML文件。其中訓(xùn)練集256張圖片,驗(yàn)證集85張圖片,測試集86張圖片。
圖5 SIRST數(shù)據(jù)集示例圖像及標(biāo)注信息
本文模型實(shí)現(xiàn)采用Pytorch1.7.1,實(shí)驗(yàn)所用的計(jì)算機(jī)配置如下:CPU為i7-8700k,主頻為3.70 GHz,GPU為1080Ti,內(nèi)存為32 G,操作系統(tǒng)為Windows10。實(shí)驗(yàn)代碼基于YOLOv5-6.1版本改進(jìn),訓(xùn)練次數(shù)(epoch)為100次,批大小為16,初始學(xué)習(xí)率為0.01,采用SGD梯度下降優(yōu)化器,采用one-cycle學(xué)習(xí)率衰減,輸入的紅外圖像分辨率為640×640,其他為默認(rèn)參數(shù)設(shè)置。
為準(zhǔn)確評估模型在紅外圖像上的檢測性能,本文采用平均精度值(mean Average precision,mAP)和F1值(F1-Score)作為評價(jià)指標(biāo)。數(shù)據(jù)集中每個(gè)類別根據(jù)準(zhǔn)確率(Precision,P)和召回率(Recall,R)可繪制一條PR曲線,曲線與坐標(biāo)軸圍成的面積即為AP值。其中準(zhǔn)確率和召回率計(jì)算如式(2),其TP為真正例,FP為假正例,FN為假反例:
(2)
當(dāng)檢測框與真值框的交并比(Intersection over Union,IoU)大于0.5時(shí)認(rèn)為目標(biāo)被準(zhǔn)確預(yù)測,在IoU取0.5時(shí)計(jì)算每個(gè)類別的平均精度和總平均精度,記為mAP0.5。
F1值是分類問題的一個(gè)評價(jià)指標(biāo),同時(shí)兼顧了分類模型的精確率和召回率,可以看作是模型精確率和召回率的一種調(diào)和平均值,計(jì)算方法如式(3):
(3)
為驗(yàn)證各模塊的有效性,本文以YOLOv5s為基準(zhǔn),設(shè)計(jì)了如下消融實(shí)驗(yàn):A為采用2.2.1節(jié)的基于SPD-Conv和IASPP的改進(jìn)特征提取網(wǎng)絡(luò),B為采用2.2.2節(jié)的基于由深到淺注意力的多尺度特征融合,C為采用2.2.3節(jié)的適用于紅外小目標(biāo)檢測的預(yù)測層結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果如表1所示,其中實(shí)驗(yàn)1為YOLOv5s基準(zhǔn)模型實(shí)驗(yàn)結(jié)果。
表1 不同模塊消融實(shí)驗(yàn)結(jié)果
(1)實(shí)驗(yàn)2和6證明,在不同的預(yù)測層結(jié)構(gòu)下,采用基于SPD-Conv和IASPP的改進(jìn)特征提取網(wǎng)絡(luò),mAP0.5分別提高了1.4 %和1.7 %。SPD-Conv下采樣模塊最大程度地保留了小目標(biāo)特征,改進(jìn)空洞空間金字塔池化模塊可以融合多尺度特征,增大了感受野,以適應(yīng)不同目標(biāo)尺寸大小的變化,CBAM注意力模塊同時(shí)利用了空間注意力和通道注意力,使網(wǎng)絡(luò)更關(guān)注目標(biāo),進(jìn)一步提高了檢測精度。
(2)實(shí)驗(yàn)3和7證明,在特征融合階段引入由深到淺的注意力模塊,在不增加額外的內(nèi)存占用的情況下,mAP0.5分別提高了0.4 %和0.6 %。DSAM注意力模塊將深層特征豐富的語義信息嵌入到淺層特征,提高了淺層特征的表達(dá)能力,相比原始YOLOv5直接通道相加的方法,可以獲得更豐富的語義和空間特征,因此可以提高檢測精度。
(3)實(shí)驗(yàn)4證明,與基準(zhǔn)YOLOv5s比較,使用適用于紅外小目標(biāo)檢測的預(yù)測層結(jié)構(gòu),mAP0.5僅降低0.4 %,模型大小僅為原始的四分之一左右,提升了檢測實(shí)時(shí)性。
綜上所述,使用所有改進(jìn)策略的實(shí)驗(yàn)8,提出的Infrared-YOLOv5s較基準(zhǔn)YOLOv5s,mAP0.5提高了2.3 %,且模型大小僅為原始的27.1 %,驗(yàn)證了改進(jìn)算法在紅外小目標(biāo)圖像數(shù)據(jù)集上的有效性。
為驗(yàn)證本文算法的有效性,本文以YOLOv5s模型為基準(zhǔn),并與文獻(xiàn)[17]和[21]提出的算法進(jìn)行了對比。實(shí)驗(yàn)結(jié)果如表2所示,在SIRST數(shù)據(jù)集上,較基準(zhǔn)模型YOLOv5s,改進(jìn)模型mAP0.5提高了2.3 %,F1分?jǐn)?shù)提高了3.18,驗(yàn)證了改進(jìn)算法在紅外數(shù)據(jù)集上的有效性。雖然F1分?jǐn)?shù)比文獻(xiàn)[17]提出的模型低,但由于文獻(xiàn)[17]使用了Transformer結(jié)構(gòu),使模型參數(shù)增加,訓(xùn)練和檢測速度較慢,本文算法檢測實(shí)時(shí)性更好,檢測時(shí)間僅為文獻(xiàn)[17]的十分之一,實(shí)現(xiàn)了檢測性能和檢測速度的平衡。由圖6的檢測結(jié)果圖像可知,Infrared-YOLOv5s模型在低對比度和復(fù)雜多目標(biāo)場景下的紅外小目標(biāo)檢出率優(yōu)于YOLOv5s,虛警率更低。
表2 不同算法在SIRST數(shù)據(jù)集上的檢測性能
圖6 不同算法在SIRST數(shù)據(jù)集的檢測結(jié)果圖像
為充分驗(yàn)證本文算法的有效性和魯棒性,在自建的Infrared-PV數(shù)據(jù)集上進(jìn)行了遷移實(shí)驗(yàn)。Infrared-PV數(shù)據(jù)集包括行人(Person)和車輛(Vehicle)兩類目標(biāo),總計(jì)包2138張圖片,其中白熱圖1000張,黑熱圖838張,熱力圖300張,采用VOC格式進(jìn)行標(biāo)注,保存為XML文件。平均單張圖片包含20個(gè)左右目標(biāo),單張圖片最多目標(biāo)數(shù)超過100個(gè),目標(biāo)比較密集,且目標(biāo)占整幅圖像的10 %以下,以中小目標(biāo)為主,適合遷移驗(yàn)證本文算法的有效性。圖7為Infrared-PV數(shù)據(jù)集的示例圖像。
圖7 Infrared-PV數(shù)據(jù)集示例圖像
圖8 不同算法在Infrared-PV數(shù)據(jù)集的檢測結(jié)果圖像
實(shí)驗(yàn)結(jié)果如表3所示,YOLOv7采用高效的ELAN主干網(wǎng)絡(luò)并結(jié)合多種訓(xùn)練優(yōu)化策略,檢測精度比YOLOv5s提高了2.3 %。本文提出的模型針對紅外小目標(biāo)檢測任務(wù)改進(jìn)特征提取網(wǎng)絡(luò)并結(jié)合基于注意力的特征融合,較YOLOv5s基準(zhǔn)模型,檢測精度提高了2.8 %,達(dá)到84.5 %,優(yōu)于YOLOv7算法和兩階段的CascadeRCNN算法。由于采用了適用于紅外小目標(biāo)檢測的預(yù)測層結(jié)構(gòu),在PC機(jī)上推理速度可達(dá)172.5 f/s,實(shí)時(shí)性更好。由圖8中檢測結(jié)果圖像可知,改進(jìn)模型在密集和遮擋場景下表現(xiàn)優(yōu)于YOLOv5s模型。實(shí)驗(yàn)表明,本文算法對于尺度差異較大、重疊目標(biāo)和密集目標(biāo)實(shí)現(xiàn)了較好的魯棒性。
表3 不同算法在Infrared-PV數(shù)據(jù)集上的檢測性能
為驗(yàn)證本文算法在移動設(shè)備上的性能,在Nvidia Xavier設(shè)備上進(jìn)行了部署實(shí)驗(yàn)。Xavier是一款高性能AI邊緣設(shè)備,擁有一顆8核心ARM架構(gòu)CPU,16GB、256位LPDDR4x內(nèi)存,其GPU含有8個(gè)流式多核處理器,擁有512個(gè)CUDA核、64個(gè)張量核(Tensor-Core)、兩個(gè)深度學(xué)習(xí)加速器(Deep Learning Accelerator,DLA)和其他硬件資源,最高算力可達(dá)32萬億次每秒(TeraOperationsPerSecond,TOPS),功耗在10W到30W之間,擁有強(qiáng)大的計(jì)算能力且功耗較低,其軟硬件資源如表4所示。
表4 NvidiaXavier軟硬件資源
圖9為NvidiaXavier設(shè)備部署實(shí)物圖,界面使用QT搭建,集成了模型訓(xùn)練、圖像及視頻檢測、性能測試等功能。使用PC機(jī)訓(xùn)練得到的權(quán)重文件在Xavier設(shè)備上進(jìn)行測試,推理速度可達(dá)28 f/s,達(dá)到邊緣設(shè)備部署的實(shí)時(shí)性要求。
圖9 NvidiaXavier設(shè)備部署實(shí)物圖
本文研究了YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)及其各個(gè)模塊的作用,通過分析紅外小目標(biāo)圖像的特性,提出了一種基于YOLOv5s的改進(jìn)實(shí)時(shí)紅外小目標(biāo)檢測模型Infrared-YOLOv5s。首先在特征提取階段采用SPD-Conv下采樣避免了紅外小目標(biāo)特征丟失,設(shè)計(jì)了改進(jìn)空洞空間金字塔池化模塊,增強(qiáng)多尺度特征提取能力,以適應(yīng)目標(biāo)尺寸變化;其次在特征融合階段引入由深到淺的注意力模塊,將深層語義特征嵌入到淺層空間特征中,提高淺層特征的表達(dá)能力;預(yù)測階段裁剪了針對大目標(biāo)檢測的特征提取、融合以及預(yù)測層,降低了模型大小,提升了檢測實(shí)時(shí)性。最后基于SIRST數(shù)據(jù)集對各個(gè)改進(jìn)模塊設(shè)計(jì)了消融實(shí)驗(yàn)和不同算法之間的對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法在SIRST數(shù)據(jù)集上mAP0.5提高了2.3 %,保證檢測精度的同時(shí),在NvidiaXavier設(shè)備上推理速度達(dá)到28 f/s,能夠滿足實(shí)際部署需求。在Infrared-PV數(shù)據(jù)集上的遷移實(shí)驗(yàn)表明,改進(jìn)模型較YOLOv5s基準(zhǔn)模型,mAP0.5提高2.8 %,進(jìn)一步驗(yàn)證了改進(jìn)算法的有效性和魯棒性。