杜妮妮,單凱東,王建超
(1.浙江工商職業(yè)技術(shù)學(xué)院,浙江 寧波 315100;2.浙江摩根集團(tuán)有限公司,浙江 寧波 315012)
相比于可見(jiàn)光圖像容易受到自然界中光照條件、氣象、目標(biāo)遮擋等因素的影響,難以對(duì)目標(biāo)準(zhǔn)確地進(jìn)行捕獲和觀測(cè),紅外圖像由于其特殊的成像機(jī)理,能夠?qū)⒛繕?biāo)物體與周?chē)h(huán)境之間的熱輻射差異反應(yīng)為紅外圖像中的灰度差異,具有較強(qiáng)的抗干擾能力、較強(qiáng)的夜間探測(cè)能力以及更高的精度,廣泛應(yīng)用于軍事、安防、航空航天等領(lǐng)域。近些年來(lái),隨著紅外技術(shù)的發(fā)展,從紅外圖像中對(duì)小尺寸目標(biāo)進(jìn)行高效檢測(cè)引起了學(xué)術(shù)界廣泛的關(guān)注[1]。
相較于普通的自然圖像目標(biāo)檢測(cè)任務(wù),紅外小目標(biāo)檢測(cè)通常面臨著來(lái)自多個(gè)方面的挑戰(zhàn):①由于成像距離遠(yuǎn),導(dǎo)致紅外目標(biāo)占整幅圖像比例較小,通常不到0.15%;②紅外輻射能量隨距離顯著衰減,使物體看起來(lái)非常模糊,因此缺乏特定的形狀及紋理,使得單純以目標(biāo)為中心的表示方法不足以進(jìn)行可靠的檢測(cè);③原始紅外圖像中通常包含不同類(lèi)型的干擾,如高亮度背景、混合噪聲等,導(dǎo)致信噪比較低,目標(biāo)容易被噪聲所淹滅,難以實(shí)現(xiàn)檢測(cè)。
為了高效、準(zhǔn)確地檢測(cè)出紅外小目標(biāo),早期的研究主要基于背景抑制的方法,通過(guò)在圖像上滑動(dòng)一個(gè)特定大小的窗口來(lái)增強(qiáng)目標(biāo)同時(shí)抑制背景實(shí)現(xiàn)實(shí)現(xiàn)小目標(biāo)檢測(cè),如:高帽濾波[2]、最大平均濾波以及最大中值濾波器[3],然而這類(lèi)方法只能對(duì)特定的均勻噪聲實(shí)現(xiàn)一定程度的抑制,在處理紅外圖像中復(fù)雜多樣的背景噪聲時(shí)效率低下,會(huì)產(chǎn)生大量的虛警,難以滿(mǎn)足實(shí)際要求。此外有學(xué)者還受到人類(lèi)視覺(jué)系統(tǒng)的啟發(fā)[4-6],假設(shè)目標(biāo)是一個(gè)與背景有顯著灰度差異的局部區(qū)域,基于滑動(dòng)窗口,對(duì)比中心像素與相鄰像素之間的差值或比值來(lái)實(shí)現(xiàn)小目標(biāo)檢測(cè)。然而,由于紅外輻射的遠(yuǎn)距離衰減以及目標(biāo)本身的較弱的輻射強(qiáng)度,紅外圖像中的小目標(biāo)往往具有較低的灰度值,并不總是滿(mǎn)足此類(lèi)方法的假設(shè)。還有學(xué)者將低秩表示以及稀疏分解引入到紅外小目標(biāo)檢測(cè)領(lǐng)域[7-10],其中Zhang 等人[11]提出了一種用于稀疏目標(biāo)分離和低秩背景的對(duì)角塊自適應(yīng)目標(biāo)約束表示方法;Guo 等人[12]提出了ReWIPI 檢測(cè)算法在保留背景邊緣信息的同時(shí)對(duì)背景斑片圖像進(jìn)行限制。然而這些方法僅僅在處理一些高信噪比的紅外圖像時(shí)有效,對(duì)復(fù)雜背景下形狀復(fù)雜的目標(biāo)仍然存在較高的誤警率??偟膩?lái)說(shuō),上述這些基于模型驅(qū)動(dòng)的方法不需要大量的標(biāo)注數(shù)據(jù),可以為特定的場(chǎng)景獲得更好的效果。然而,對(duì)于復(fù)雜多變的真實(shí)場(chǎng)景,存在著檢測(cè)精度差、特征識(shí)別能力不足、對(duì)場(chǎng)景變化敏感的超參數(shù)等問(wèn)題。
考慮到深度學(xué)習(xí)可以將紅外小目標(biāo)檢測(cè)任務(wù)視為一個(gè)相對(duì)較高級(jí)的視覺(jué)感知問(wèn)題,為了解決復(fù)雜多變的真實(shí)場(chǎng)景中的精確檢測(cè)問(wèn)題,近些年來(lái),許多研究人員開(kāi)始通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)紅外小目標(biāo)檢測(cè)[13-14]。與模型驅(qū)動(dòng)的方法不同,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的方法具有以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)特征的能力。Dai 等人[15]在模型驅(qū)動(dòng)的基礎(chǔ)上提出了一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型(attentional local contrast networks,ALCNet),克服了單純模型驅(qū)動(dòng)方法所面臨的檢測(cè)性能不足以及魯棒性欠缺的雙重挑戰(zhàn)。然而,該方法在需要手動(dòng)調(diào)整模型參數(shù),導(dǎo)致最終的小目標(biāo)檢測(cè)效果對(duì)模塊超參數(shù)的設(shè)置較為敏感。之后,Wang 等人[16]采用了一種基于生成對(duì)抗網(wǎng)絡(luò)的MDvsFA(Miss Detection vs.False Alarm),能夠?qū)崿F(xiàn)漏檢以及虛警之間的權(quán)衡。Chen 等人[17]采用UNet 作為骨干網(wǎng)絡(luò)來(lái)保持空間分辨率和語(yǔ)義信息,利用金字塔池模塊進(jìn)一步提取特征,提高了目標(biāo)分割的精度,此外還提出了一種多任務(wù)框架降低了模型復(fù)雜度同時(shí)顯著提升了算法的推理速度。為了在更大的感受野中檢測(cè)目標(biāo),基于CNN 的方法[18-21]主要利用卷積層的疊加,逐層增加網(wǎng)絡(luò)的感受域,但特征圖中的每個(gè)值只響應(yīng)前面特征圖中局部感受域內(nèi)的值,這種固有的局部性使得學(xué)習(xí)圖像中的遠(yuǎn)距離依賴(lài)關(guān)系變得困難。同時(shí),此類(lèi)方法為了對(duì)不同尺度的信號(hào)進(jìn)行處理通常采用池化或是下采樣操作,忽略了細(xì)節(jié)損失問(wèn)題。
近期,自注意力機(jī)制在各種計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)出了強(qiáng)大的非局部特征學(xué)習(xí)的能力并隨后被其他研究人員改進(jìn)和擴(kuò)展[22-25]。由于其在對(duì)特征局部相似性以及遠(yuǎn)程依賴(lài)性進(jìn)行建模的能力遠(yuǎn)優(yōu)于CNN,因此可以用于緩解在紅外小目標(biāo)檢測(cè)任務(wù)中單純使用CNN 所產(chǎn)生的局限性。然而,采用基本的Transformer結(jié)構(gòu)通常需要注意到兩個(gè)方面的問(wèn)題:首先,標(biāo)準(zhǔn)全局自注意力模塊的計(jì)算復(fù)雜度通常與特征的空間維數(shù)呈平方關(guān)系,此外,另外一種基于局部窗口的自注意力計(jì)算模塊雖然能夠降低計(jì)算資源的壓力,然而由于特定大小的窗口導(dǎo)致感受域受限。
為解決上述問(wèn)題,本文在此前研究工作的基礎(chǔ)上,提出了一種多級(jí)回歸Transformer網(wǎng)絡(luò)的紅外小目標(biāo)檢測(cè)算法(HRformer)。針對(duì)紅外場(chǎng)景中尺寸大小變化的弱小目標(biāo),HRformer 采用了一種多尺度特征的層次結(jié)構(gòu),在每一層,輸入通過(guò)像素逆重組(PixelUnShuffle)操作所獲取,不會(huì)存在信息損失。此外,為實(shí)現(xiàn)不同層級(jí)之間的信息交互,受到注意力機(jī)制的啟發(fā),本文還設(shè)計(jì)了一種交叉注意力融合(cross attention fusion,CAF)模塊,能夠從不同層級(jí)中較高分辨率以及較低分辨率的特征圖中分別提取空間注意力以及通道注意力,并將二者分別與原先的特征圖進(jìn)行交叉融合,從而實(shí)現(xiàn)特征的充分提取以及不同層級(jí)信息互補(bǔ)。此外,為了進(jìn)一步提升檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確率以及抑制虛警率,本文還采用了一種局部-全局Transformer(local-global transformer,LGT)結(jié)構(gòu),能夠同時(shí)捕獲局部及全局遠(yuǎn)距離依賴(lài)關(guān)系。實(shí)驗(yàn)結(jié)果表明,本文所提出的HRformer 具有較高的檢測(cè)性能。
本文提出的HRformer 總體框架如圖1所示,采用了一種三級(jí)網(wǎng)絡(luò)結(jié)構(gòu)用于實(shí)現(xiàn)紅外小目標(biāo)檢測(cè)。首先,利用PixelUnShuffle 操作將輸入紅外圖像下采樣到不同層級(jí),由于像素?cái)?shù)是固定的,只是空間分辨率降低,而通道數(shù)增加,因此不會(huì)產(chǎn)生信息損失;相反,本文采用可學(xué)習(xí)的PixelShuffle 操作對(duì)每一層級(jí)的輸出特征圖進(jìn)行上采樣,由于是將特征圖通道維信息轉(zhuǎn)換到空間維,因此不會(huì)像雙線性插值等上采樣過(guò)程引入插值操作,也使網(wǎng)絡(luò)能夠自適應(yīng)的學(xué)習(xí)上采樣操作。
圖1 基于多級(jí)回歸Transformer網(wǎng)絡(luò)的紅外小目標(biāo)檢測(cè)框架Fig.1 Infrared small target detection framework based on hierarchical regression transformer network
對(duì)于每一層級(jí),首先通過(guò)淺層特征提取模塊進(jìn)行初步特征提取以及提升特征的通道數(shù),其中殘差塊由兩個(gè)普通的3×3 卷積,批歸一化操作;接著,通過(guò)交叉注意力融合模塊分別計(jì)算不同維度注意力,實(shí)現(xiàn)信息交互;再通過(guò)局部-全局Transformer 結(jié)構(gòu)分別沿著局部以及全局兩個(gè)分支提取局部上下文信息同時(shí)建模全局依賴(lài)關(guān)系,集成了普通Transformer 結(jié)構(gòu)以及基于窗口的Transformer 結(jié)構(gòu)的優(yōu)點(diǎn),節(jié)省計(jì)算成本的同時(shí)還能獲得更大感受野;最后通過(guò)一個(gè)由幾個(gè)卷積組成的head 模塊對(duì)所在層級(jí)的分割結(jié)果進(jìn)行初步預(yù)測(cè)并與前一層級(jí)的特征進(jìn)行整合。此外,頂層使用較多的殘差塊來(lái)有效地整合不同層級(jí)特征,從而最終產(chǎn)生高置信度的分割結(jié)果。
圖2 交叉注意力融合模塊Fig.2 Cross attention fusion module
為緩解標(biāo)準(zhǔn)空間維Transformer 所產(chǎn)生計(jì)算資源消耗大的問(wèn)題,基于窗口的Transformer 結(jié)構(gòu)能夠?qū)⒆宰⒁饬26]的計(jì)算限制在一個(gè)大小固定的窗口內(nèi),從而顯著降低計(jì)算復(fù)雜度。然而這種結(jié)構(gòu)通常感受野受限,一些具有高度相關(guān)內(nèi)容的圖像塊(Tokens)在計(jì)算自注意時(shí)不能相互匹配,也就無(wú)法對(duì)全局相關(guān)性進(jìn)行建模。基于此,本文提出了局部-全局Transformer結(jié)構(gòu),能夠分別沿著局部以及全局兩個(gè)分支提取局部上下文信息同時(shí)建模全局依賴(lài)關(guān)系,節(jié)省計(jì)算成本的同時(shí)還能獲得更大感受野??傮w結(jié)構(gòu)如圖3(a)所示,輸入特征首先經(jīng)過(guò)層歸一化操作,通過(guò)局部-全局自注意力計(jì)算(local-global self-attention,LGSA)塊(如圖3(c)所示)實(shí)現(xiàn)基于局部-全局信息的自注意力的計(jì)算,接著進(jìn)行殘差連接以及層歸一化操作,最后通過(guò)前饋網(wǎng)絡(luò)(如圖3(b)所示)增強(qiáng)模型的擬合能力。
圖3 局部-全局transformer 模塊Fig.3 Local-global transformer module
1)局部自注意力計(jì)算分支
2)全局自注意力計(jì)算分支
同樣的,Qg、Kg、Vg會(huì)沿著通道維劃分為h個(gè)head:Qg=[Qg1,…,Qgh],Kg=[Kg1,…,Kgh]以及Vg=[Vg1,…,Vgh]。對(duì)于每一個(gè)head 內(nèi)的全局自注意Agi的計(jì)算過(guò)程可以表示為:
最終通過(guò)線性映射將局部分支以及全局分支的注意力計(jì)算結(jié)果進(jìn)行聚合:
本文在NUDT-SIRST 數(shù)據(jù)集[28]上進(jìn)行實(shí)驗(yàn),其中包含了427 張具有代表性的紅外圖像以及480 個(gè)小目標(biāo)實(shí)例,同時(shí)為了方便和大部分方法進(jìn)行比較,本文將大約50%的數(shù)據(jù)用于訓(xùn)練、20%以及30%的數(shù)據(jù)分別用于驗(yàn)證及測(cè)試。
本文基于PyTorch 平臺(tái)對(duì)所提出算法進(jìn)行實(shí)驗(yàn)驗(yàn)證,GPU 為RTX3090Ti,操作系統(tǒng)為Ubuntu20.04。同時(shí)本文采用AdaGrad 作為網(wǎng)絡(luò)迭代優(yōu)化器,初始學(xué)習(xí)率設(shè)為0.04,網(wǎng)絡(luò)一共需要訓(xùn)練500 個(gè)epoch,衰減率為10-4,batch 大小為8。本文同一些目前較為先進(jìn)的紅外小目標(biāo)檢測(cè)算法進(jìn)行對(duì)比,包括:ALCNet[15],IAANet[29],AGPCNet[30],ACMNet[28],MDvsFA[16],WSLCM[31],TLLCM[32],IPI[33],NRAM[34],PSTNN[35]以及MSLSTIPT[36]。
和大多數(shù)紅外小目標(biāo)檢測(cè)方法一樣,本文采用了IoU、nIoU、Pd以及Fa這幾個(gè)常用的指標(biāo)將所提出的HRformer 與其他方法進(jìn)行比較:
交并比IoU 定義為:
IoU=Ai/ Au(6)
式中:Ai和Au分別表示相交區(qū)域和并集區(qū)域的大小;nIoU 是IoU 的標(biāo)準(zhǔn)化,即:
式中:N表示樣本總數(shù);TP[?]表示被模型正確預(yù)測(cè)的正樣本的像素?cái)?shù)目;T[?]和P[?]分別表示圖像中真實(shí)值和預(yù)測(cè)為正樣本的像素?cái)?shù)目。
檢測(cè)率Pd表示正確檢測(cè)出的目標(biāo)Npred與所有目標(biāo)Nall的比值:
虛警率Fa表示錯(cuò)誤預(yù)測(cè)的目標(biāo)像素?cái)?shù)Nfalse與圖像中所有像素Nall的比值:
本文通過(guò)設(shè)置消融實(shí)驗(yàn)對(duì)所提出的不同模塊對(duì)網(wǎng)絡(luò)性能的影響進(jìn)行分析,具體包含3 個(gè)部分:
①是否采用UnShuffle 對(duì)輸入數(shù)據(jù)做下采樣以及采用Shuffle 操作對(duì)每一層級(jí)的輸出進(jìn)行上采樣操作。本文通過(guò)普通的下采樣操作以及插值上采樣操作對(duì)UnShuffle 以及Shuffle 進(jìn)行替換從而實(shí)現(xiàn)對(duì)該部分有效性的驗(yàn)證。實(shí)驗(yàn)結(jié)果如表1所示,實(shí)驗(yàn)8 為原始HRformer 的結(jié)果,通過(guò)與實(shí)驗(yàn)1 的結(jié)果進(jìn)行對(duì)比,可以發(fā)現(xiàn)IoU 指標(biāo)增加了1.07,證明該處理方式的有效性;同時(shí),本文還對(duì)實(shí)驗(yàn)4、實(shí)驗(yàn)7 這一組的結(jié)果進(jìn)行對(duì)比,能夠發(fā)現(xiàn)采用UnShuffle 以及Shuffle 操作進(jìn)行的下采樣以及上采樣能夠較好地維持原始圖像的信息,使得各項(xiàng)指標(biāo)均有所提升。
表1 消融實(shí)驗(yàn)結(jié)果Table 1 Ablation experimental result s
②是否采用本文所設(shè)計(jì)的交叉注意力(CAF)模塊對(duì)不同層級(jí)的特征信息進(jìn)行交互。通過(guò)對(duì)表1 中的實(shí)驗(yàn)2、實(shí)驗(yàn)8 以及實(shí)驗(yàn)5、實(shí)驗(yàn)7 這兩組實(shí)驗(yàn)的結(jié)果分別進(jìn)行對(duì)比,不難發(fā)現(xiàn),采用CAF 模塊能夠顯著提升檢測(cè)的各項(xiàng)指標(biāo),證明該模塊對(duì)于不同層級(jí)信息進(jìn)行融合對(duì)于紅外小目標(biāo)檢測(cè)任務(wù)的有效性。
③是否采用本文所構(gòu)建的局部-全局Transformer(LGT)結(jié)構(gòu)用于實(shí)現(xiàn)基于局部-全局信息的自注意力的計(jì)算。對(duì)表1 中實(shí)驗(yàn)3、實(shí)驗(yàn)8 以及實(shí)驗(yàn)6、實(shí)驗(yàn)7這兩組實(shí)驗(yàn)的結(jié)果進(jìn)行對(duì)比,可以看到不包含LGT 模塊的IoU 指標(biāo)和nIoU 指標(biāo)分別降低了1.22(3.46)和0.78(3.41)。能夠證明該結(jié)構(gòu)的有效性。得益于對(duì)輸入圖像局部-全局相關(guān)性的建模,網(wǎng)絡(luò)能夠提升對(duì)特征圖中的小目標(biāo)的判別能力,因而檢測(cè)性能顯著提升。
為了對(duì)本文所提出HRformer 紅外小目標(biāo)檢測(cè)算法的先進(jìn)性,在SIRST 數(shù)據(jù)集[28]上與現(xiàn)有的一些經(jīng)典算法進(jìn)行比較,如表2所示(最優(yōu)指標(biāo)已被加粗)。不難看出,傳統(tǒng)算法由于大都基于一些手工先驗(yàn),在處理具有挑戰(zhàn)性的樣例時(shí)往往受限,導(dǎo)致檢測(cè)性能與其一些基于深度學(xué)習(xí)的方法差距較大。同時(shí),在單純基于CNN 的算法中,由于自身表達(dá)能力不夠以及對(duì)全局信息建模能力不夠,導(dǎo)致難以對(duì)掩碼進(jìn)行準(zhǔn)確地預(yù)測(cè),因此各項(xiàng)指標(biāo)都較低;此外,這類(lèi)算法在噪聲背景下的學(xué)習(xí)判別能力比較弱,因此容易造成對(duì)目標(biāo)的漏檢以及錯(cuò)檢。與這些方法相比,本文所提出的HRformer 網(wǎng)絡(luò),在所有的評(píng)價(jià)指標(biāo)方面都表現(xiàn)出了最好的性能,并且相較于ALCNet,IoU 指標(biāo)和nIoU 指標(biāo)分別提升2.64%以及2.99%,且參數(shù)量不及ALCNet的一半;同時(shí)本文所提算法在參數(shù)量、單張圖像推理時(shí)間都遠(yuǎn)少于IAANet 的情況下,還取得了更加優(yōu)異的檢測(cè)性能,證明了HRformer的先進(jìn)性以及高效性。
表2 對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Experimental results comparison of different algorithms
如圖4所示,本文對(duì)這些檢測(cè)算法的可視化結(jié)果進(jìn)行了對(duì)比,不難看出,即使是在一些具有較低信噪比以及低對(duì)比度的紅外圖像作為輸入的情況下,本文所提出的HRformer 同樣能夠?qū)δ繕?biāo)進(jìn)行準(zhǔn)確的定位,同時(shí)所檢測(cè)出的目標(biāo)形狀大致完整且準(zhǔn)確。這些得益于本文所采用的UnShuffle 操作對(duì)輸入圖像進(jìn)行的下采樣操作,能夠避免有效信息的損失;同時(shí)LGT 模塊分別對(duì)于局部以及全局進(jìn)行的建模也提升了網(wǎng)絡(luò)的表達(dá)能力以及鑒別學(xué)習(xí)能力,和其他算法的檢測(cè)結(jié)果相比,較少出現(xiàn)漏檢以及錯(cuò)檢情況。最后,如圖5所示,本文還繪制了一些算法的ROC 曲線,可以看到,本文所采用的HRformer網(wǎng)絡(luò)的性能明顯優(yōu)于其他算法。
圖4 不同算法紅外圖像檢測(cè)結(jié)果Fig.4 Experimental results of different algorithms
圖5 不同算法ROC 曲線Fig.5 Curves of ROC by different methods
本文提出了一個(gè)新穎的基于多級(jí)回歸Transformer(HRformer)網(wǎng)絡(luò)來(lái)解決低信噪比、低對(duì)比度以及復(fù)雜背景條件下的紅外小目標(biāo)檢測(cè)任務(wù)。首先,為了在獲得多尺度信息的同時(shí)盡可能避免原始圖像信息的損失,本文采用了Pixel UnShuffle 操作來(lái)獲取不同層級(jí)網(wǎng)絡(luò)的輸入,同時(shí)采用了可學(xué)習(xí)的PixelShuffle 操作對(duì)每一層級(jí)的輸出特征圖進(jìn)行上采樣,用于提升網(wǎng)絡(luò)的靈活性;接著,為實(shí)現(xiàn)網(wǎng)絡(luò)中不同層級(jí)之間信息交互,本文還設(shè)計(jì)了一種包含空間注意力計(jì)算分支以及通道注意力計(jì)算分支在內(nèi)的交叉注意力融合(CAF)模塊實(shí)現(xiàn)特征融合以及信息互補(bǔ);最后為進(jìn)一步提升網(wǎng)絡(luò)的檢測(cè)性能,考慮到普通Transformer 結(jié)構(gòu)具有較大感受野而計(jì)算復(fù)雜度高、基于窗口的Transformer 結(jié)構(gòu)具有較少計(jì)算復(fù)雜度而感受野受限的情況,提出了一種局部全局Transformer(LGT)結(jié)構(gòu),能夠在提取局部上下文信息的同時(shí)建模全局依賴(lài)關(guān)系,計(jì)算成本也得到節(jié)省。通過(guò)在SIRST數(shù)據(jù)集上與其他先進(jìn)算法進(jìn)行的大量對(duì)比實(shí)驗(yàn),證明了本文所提出的算法的優(yōu)越性。