摘 要:針對(duì)對(duì)無人機(jī)采集到的多源圖像的艦船目標(biāo)融合檢測問題,提出一種基于多模態(tài)特征融合旋轉(zhuǎn)檢測網(wǎng)絡(luò)(multi modal feature fusion detection network based on rotation, MFFDet R)的多源艦船圖像融合檢測方法。首先,為提升檢測速度,采用單階段無錨框設(shè)計(jì)降低計(jì)算量。隨后,為提升檢測精度,采用旋轉(zhuǎn)任務(wù)對(duì)齊學(xué)習(xí)進(jìn)行標(biāo)簽分配和對(duì)齊。然后,為實(shí)現(xiàn)多模態(tài)特征的充分融合,設(shè)計(jì)多模態(tài)特征融合網(wǎng)絡(luò)。最后,根據(jù)特定場景有針對(duì)性地設(shè)計(jì)檢測頭和角度預(yù)測頭,以提升網(wǎng)絡(luò)檢測性能。通過實(shí)驗(yàn)對(duì)比驗(yàn)證,結(jié)果表明所提方法可以有效實(shí)現(xiàn)對(duì)多源艦船的融合檢測,且對(duì)不同場景艦船目標(biāo)的檢測性能優(yōu)于其他方法。
關(guān)鍵詞: 多源圖像; 融合檢測; 任務(wù)對(duì)齊學(xué)習(xí); 特征融合
中圖分類號(hào): TP 391.4
文獻(xiàn)標(biāo)志碼: ADOI:10.12305/j.issn.1001 506X.2025.02.06
Multi source ship image fusion detection method based on MFFDet R
JIANG Jie, LING Qing*, YAN Wenjun, LIU Kai
(Aviation Combat Service Academy, Naval Aviation University, Yantai 264001,China)
Abstract:A multi source ship image fusion detection method based on multi modal feature fusion detection network based on rotation (MFFDet R) is proposed to address the issue of ship target fusion detection for multi source images obtained by unmanned aerial vehicles. Firstly, a single stage anchor free frame design is adopted to reduce computational complexity to improve detection speed. Subsequently, rotation task alignment learning is adopted for label allocation and alignment to improve detection accuracy. Then, a multimodal feature fusion network is designed to achieve full fusion of multimodal features. Finally, detection heads and angle prediction heads are designed for specific scenarios to improve network detection performance. Through experimental comparison and verification, the results show that the proposed method can effectively achieve fusion detection of multi source ships, and its detection performance for ship targets in different scenarios is superior to other methods.
Keywords:multi source image; fusion detection; task alignment learning; feature fusion
0 引 言
當(dāng)前,隨著無人機(jī)航拍數(shù)據(jù)采集的愈加便捷,其在各個(gè)領(lǐng)域應(yīng)用的場景也愈加廣泛,無人機(jī)在智慧交通、地質(zhì)勘測、蟲害預(yù)防、預(yù)警偵查等方面發(fā)揮出重要作用,通過對(duì)無人機(jī)采集到的多源視頻圖像進(jìn)行目標(biāo)檢測跟蹤識(shí)別,是當(dāng)前研究的重點(diǎn)內(nèi)容[1-3]。艦船目標(biāo)一直是檢測任務(wù)中的難點(diǎn)問題,一是艦船目標(biāo)種類較多且形狀和大小不規(guī)則,因船型、船種、船舶用途等因素而異;二是艦船在航行時(shí)易被其他船只、建筑物、云霧等遮擋,且艦船本身的顏色、紋理等特征較少,也會(huì)影響檢測效果;三是海上環(huán)境復(fù)雜,易受海浪、浮冰、光照變化等因素干擾;四是數(shù)據(jù)集的不足,對(duì)艦船目標(biāo)的數(shù)據(jù)獲取和標(biāo)注成本較高[4-6]。針對(duì)上述情況,通過對(duì)無人機(jī)采集到的多源圖像進(jìn)行特征提取融合,是有效提升檢測效果的重要途徑之一。多源圖像融合(multi source image fusion, MIF)是指將多源信道所采集到的關(guān)于同一目標(biāo)的圖像數(shù)據(jù)經(jīng)過圖像和計(jì)算機(jī)技術(shù)處理,最大限度地提取各自信道中的有利信息,最后綜合成高質(zhì)量的圖像。融合后的結(jié)果可以更好地將多幅圖像在時(shí)空上的相關(guān)性和信息上的互補(bǔ)性進(jìn)行整合,從而將更為重要的圖像特征進(jìn)行表征,以便于后續(xù)處理。
因此,多源圖像的融合檢測,相比于單源圖像融合檢測而言,其特征信息更加豐富,應(yīng)用場景更加廣泛,可以有效增強(qiáng)檢測的準(zhǔn)確性,特別是對(duì)小目標(biāo)、疑似目標(biāo)具有更高的檢出率,可進(jìn)一步減少檢測的波動(dòng)性和不確定性,增強(qiáng)算法的魯棒性[7-9]。
針對(duì)多源圖像的融合檢測同樣存在許多研究難點(diǎn),一是數(shù)據(jù)的異構(gòu)性,不同傳感器采集到的數(shù)據(jù)類型、格式及精度存在差異;二是數(shù)據(jù)的不確定性,多源數(shù)據(jù)受到的干擾因素更多,易產(chǎn)生誤差;三是融合算法的選擇,需要考慮如何兼顧檢測的實(shí)時(shí)性和準(zhǔn)確性[10]。為解決以上問題,相關(guān)學(xué)者做了大量的研究工作,并提出很多方法。目前,針對(duì)多源融合檢測的方法主要分為4類,一是基于像素級(jí)的融合方法,即根據(jù)圖像色度、飽和度、亮度的色彩空間,將多源圖像合成為一幅圖像后,再進(jìn)行特征提取和檢測。文獻(xiàn)[11]提出一種基于小波變換的像素融合方法,通過將圖像分解為不同頻率的子圖像,然后采用不同的融合策略,重構(gòu)出新的圖像。文獻(xiàn)[12]提出一種基于潛在低階表示的自適應(yīng)尺度像素融合方法,將紅外和可見光圖像分解為兩個(gè)尺度表示,以構(gòu)造自適應(yīng)權(quán)值,用于圖像重建。二是基于特征融合的方法,即對(duì)圖像幾何特征、紋理特征、方向梯度直方圖等進(jìn)行提取,將多個(gè)圖像源的特征進(jìn)行融合后再進(jìn)行檢測。文獻(xiàn)[13]提出一種基于邊緣卷積濾波與合成孔徑雷達(dá)及光學(xué)多特征分類的檢測方法。文獻(xiàn)[14]設(shè)計(jì)一種基于不變特征的風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò),利用多源數(shù)據(jù)間的共享知識(shí)學(xué)習(xí)不變特征,以實(shí)現(xiàn)信息互補(bǔ),再采用通用網(wǎng)絡(luò)完成目標(biāo)檢測。三是基于決策融合的方法,即對(duì)圖像源信息進(jìn)行提取并分類后,根據(jù)現(xiàn)實(shí)任務(wù)需要選擇有用的特征信息進(jìn)行融合,從而做出最優(yōu)的決策。文獻(xiàn)[15]提出一種將有監(jiān)督和無監(jiān)督分類器相結(jié)合的方法以進(jìn)行信息提取,再通過支持向量機(jī)完成決策的選擇。文獻(xiàn)[16]提出利用社會(huì)網(wǎng)絡(luò)分析多模態(tài)生物特征的模式,根據(jù)多源圖像的類間特征和類內(nèi)特征進(jìn)行決策融合。四是基于深度學(xué)習(xí)的方法,利用深度學(xué)習(xí)模型對(duì)多個(gè)圖像源進(jìn)行訓(xùn)練,然后將模型進(jìn)行融合,得到最終的檢測結(jié)果。文獻(xiàn)[17]設(shè)計(jì)一種低秩雙線性池化注意力網(wǎng)絡(luò),將不同模態(tài)的圖像特征雙線性池化后,利用權(quán)重矩陣進(jìn)行低秩分解,根據(jù)低秩權(quán)重因子進(jìn)行反向傳播,實(shí)現(xiàn)端到端學(xué)習(xí)。文獻(xiàn)[18]提出一種艦船關(guān)鍵子區(qū)域檢測識(shí)別融合網(wǎng)絡(luò),根據(jù)艦船特征點(diǎn)劃分不同的子區(qū)域,在特征金字塔上提取不同子區(qū)域特征,對(duì)其分配不同權(quán)重,并與全局特征進(jìn)行融合,以增強(qiáng)表征能力。
目前,基于深度學(xué)習(xí)的方法相比于其他3類方法,檢測效果較好,適用范圍更廣,但是用于多源艦船目標(biāo)檢測的方法相對(duì)較少,且沒有針對(duì)性地解決艦船多尺度、小目標(biāo)、受遮擋等問題。基于此,本文提出一種基于深度學(xué)習(xí)的多源艦船圖像融合檢測方法,構(gòu)建多模態(tài)特征融合旋轉(zhuǎn)檢測網(wǎng)絡(luò)(multi modal feature fusion detection network based on rotation, MFFDet R),通過多路骨干網(wǎng)絡(luò)對(duì)多源圖像進(jìn)行特征提取,并有針對(duì)性地設(shè)計(jì)網(wǎng)絡(luò)頸部和頭部,最終完成對(duì)多源艦船目標(biāo)的檢測。
1 MFFDet R目標(biāo)檢測算法
MFFDet R是一個(gè)高效的單階段無錨框旋轉(zhuǎn)框檢測網(wǎng)絡(luò),采用旋轉(zhuǎn)框檢測是因?yàn)閷?duì)于近岸場景下的艦船目標(biāo)而言,船與船的排列十分密集,采用旋轉(zhuǎn)框檢測,可以有效提升檢測性能。旋轉(zhuǎn)框是指具有一定角度的矩形框,因?yàn)槲矬w本身與圖像坐標(biāo)軸會(huì)存在大小不一的傾斜角,所以使用旋轉(zhuǎn)框描述物體相比于使用水平框進(jìn)行描述,可以包含更少的背景,從而使定位更加精細(xì)[19]。特別是當(dāng)前的旋轉(zhuǎn)框檢測算法多為有錨框的方法,且多使用插值和可復(fù)型卷積網(wǎng)絡(luò)來對(duì)齊卷積特征圖和旋轉(zhuǎn)物體,為模型的部署帶來了不便。因此,MFFDet R采用無錨框方法,在每一個(gè)像素上放置一個(gè)錨點(diǎn),為檢測頭設(shè)置上、下邊界,將基準(zhǔn)真實(shí)值分配給相應(yīng)的特征圖,然后計(jì)算邊界框的中心位置,選擇最近的像素點(diǎn)作為正樣本。
1.1 網(wǎng)絡(luò)框架
網(wǎng)絡(luò)主干RESCSPNet,由殘差網(wǎng)絡(luò)ResNet50與跨階段局部網(wǎng)絡(luò)CSPNet結(jié)合組成,可以將殘差連接緩解梯度消失與跨階段密度連接降低計(jì)算負(fù)擔(dān)兩個(gè)優(yōu)勢互補(bǔ)。網(wǎng)絡(luò)結(jié)構(gòu)共包含3個(gè)連續(xù)卷積層,通過殘差塊ResBlock[20]進(jìn)行連接,同時(shí)有效擠壓提?。╡ffective squeeze and extraction,ESE)層[21]也被用于在每個(gè)特征提取階段中施加通道注意力[22],以多模態(tài)特征融合網(wǎng)絡(luò)(multi modal feature fusion network,MFFN)作為頸部,引出P3、P4和P5這3個(gè)特征圖做檢測。為進(jìn)一步提升模型精度,設(shè)計(jì)高效任務(wù)對(duì)齊頭(efficient task aligned head, ET head),引入了一個(gè)解耦的角度預(yù)測頭。算法的框架模型如圖1所示。
1.2 旋轉(zhuǎn)任務(wù)對(duì)齊學(xué)習(xí)
考慮到在近岸場景下艦船目標(biāo)排列十分緊密且相互間存在遮擋的情況,為更好地克服分類和定位不一致的問題,提升檢測準(zhǔn)確度,提出旋轉(zhuǎn)任務(wù)對(duì)齊學(xué)習(xí)(rotated task alignment learning, Rotated TAL)方法,對(duì)標(biāo)簽分配采用Rotated TAL方法[23]來完成旋轉(zhuǎn)框檢測。該方法由動(dòng)態(tài)標(biāo)簽分配和任務(wù)對(duì)齊損失組成,動(dòng)態(tài)標(biāo)簽分配意味著預(yù)測損失感知,根據(jù)預(yù)測為每個(gè)基準(zhǔn)真實(shí)值分配動(dòng)態(tài)數(shù)量的正錨框,通過顯式地對(duì)齊這兩個(gè)任務(wù),Rotated TAL可以同時(shí)獲得最高的分類分?jǐn)?shù)和最精確的邊界框;對(duì)于旋轉(zhuǎn)任務(wù)對(duì)齊損失,使用標(biāo)準(zhǔn)化的任務(wù)一致性度量t,即t^,來替換損失中的目標(biāo),采用每個(gè)實(shí)例中最大的交并比(intersection over union, IoU)進(jìn)行歸一化,該分類的二進(jìn)制交叉熵(binary cross entropy, BCE)[24]可以重寫為
L=∑Ni=1BCE(pi,t^i)(1)
式中:pi表示該角度i在每個(gè)區(qū)間內(nèi)下降的概率。
任務(wù)一致性度量的計(jì)算方法為
t=sα·uβ(2)
式中:s為預(yù)測的分類得分;u為預(yù)測的邊界框與相應(yīng)的基準(zhǔn)真實(shí)值之間的IoU值;α、β為系數(shù)。
1.3 多模態(tài)特征融合網(wǎng)絡(luò)MFFN
為了提取更加豐富的語義信息特征并與精確定位信息相結(jié)合,對(duì)多模態(tài)特征的融合處理,除采用傳統(tǒng)特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)[25]自頂向下進(jìn)行上采樣的模式,還設(shè)計(jì)了多種融合路徑。首先,對(duì)每個(gè)特征圖進(jìn)行感興趣區(qū)域(region of interest, ROI)對(duì)齊操作,以提取目標(biāo)的特征。然后,對(duì)元素級(jí)特征進(jìn)行最大融合操作,以使網(wǎng)絡(luò)適配新的特征,對(duì)于相鄰的層特征不是簡單地疊加到一起,而是采用拼接的方式,以獲得更高的預(yù)測準(zhǔn)確度。最后,設(shè)計(jì)自底向上進(jìn)行下采樣的路徑,將底層信息與高層信息相融合,設(shè)計(jì)增強(qiáng)路徑,采用橫向、跨級(jí)連接的方式來豐富每個(gè)級(jí)別的特征信息,縮短底層到頂層的距離,以減少計(jì)算量。路徑結(jié)構(gòu)如圖2所示。
1.4 高效任務(wù)對(duì)齊頭
針對(duì)艦船多尺度、小目標(biāo)的問題,提出速度和準(zhǔn)確性兼具的ET head。ET head可以很好地增強(qiáng)檢測過程中分類與回歸的交互性。ET head通過計(jì)算任務(wù)交互的特征值,由任務(wù)對(duì)齊預(yù)測器(task aligned predictor, TAP)[26]進(jìn)行預(yù)測,根據(jù)任務(wù)對(duì)齊學(xué)習(xí)提供的學(xué)習(xí)信號(hào)對(duì)兩個(gè)預(yù)測的空間分布進(jìn)行對(duì)齊。
ET Head和Rotated TAL通過協(xié)作改進(jìn)兩項(xiàng)任務(wù)的一致性,如圖3所示。ET Head首先對(duì)FPN特征進(jìn)行分類和定位預(yù)測。然后,Rotated TAL基于一種任務(wù)對(duì)齊度量來計(jì)算兩個(gè)預(yù)測之間的對(duì)齊程度。最后,ET Head在反向傳播過程中使用Rotated TAL計(jì)算的學(xué)習(xí)信號(hào)自動(dòng)調(diào)整其分類概率和定位預(yù)測。對(duì)齊程度最高的錨點(diǎn)通過概率圖獲得更高的分類分?jǐn)?shù),并通過學(xué)習(xí)的偏移量獲得更準(zhǔn)確的邊界框預(yù)測。
1.5 ProbIoU損失
由于角度的周期性和邊緣的交換能力,基于直接回歸的旋轉(zhuǎn)對(duì)象檢測器存在邊界不連續(xù)問題。采用ProbIoU損失作為回歸損失[27]進(jìn)行聯(lián)合優(yōu)化(x,y,w,h,θ)。為了計(jì)算ProbIoU損失,將旋轉(zhuǎn)矩形框建模為高斯矩形框(Gaussian bounding box,GBB),然后利用兩個(gè)GBB之間的距離等度量作為回歸損失。
給定兩個(gè)以GBB表示的對(duì)象,使用巴氏系數(shù)計(jì)算兩個(gè)概率分布之間的距離,來獲得一個(gè)實(shí)際的距離度量。兩個(gè)二維概率密度函數(shù)p(x)和q(x)之間的巴氏距離BD為
BD(p,q)=-ln BC(p,q)(3)
式中:BC為巴氏系數(shù);p為預(yù)測得分;q為目標(biāo)IoU得分。巴氏距離BD并不是一個(gè)實(shí)際的距離,因?yàn)槠洳粷M足三角不等式,因此定義海林格距離HD為實(shí)際距離:
HD(p,q)=1-Bc(p,q)(4)
式中:HD(p,q)滿足距離度量的所有要求,并且可以作為高斯參數(shù)的函數(shù)分析表達(dá)。
將GBB和ProbIoU用于訓(xùn)練紅外與可見光融合旋轉(zhuǎn)檢測器,假設(shè)p={x1,y1,a1,b1,c1}是網(wǎng)絡(luò)回歸的GBB參數(shù)集,q={x2,y2,a2,b2,c2}是期望GBB的真實(shí)標(biāo)注。對(duì)象檢測器中的定位損失為
L1(p,q)=HD(p,q)=1-ProbIoU(p,q)∈[0,1]
L2(p,q)=BD(p,q)=-ln(1-L21(p,q))∈[0,∞](5)
式中:定位損失可以相對(duì)于p微分,并且梯度可以解析計(jì)算,當(dāng)p=q時(shí)達(dá)到理想的最小值零。
1.6 解耦的角度預(yù)測頭
傳統(tǒng)旋轉(zhuǎn)框檢測模型直接在一個(gè)回歸分支中預(yù)測(x,y,w,h,θ)。然而,對(duì)于學(xué)習(xí)矩陣而言,其需要更多的特征,因此對(duì)其進(jìn)行解耦,設(shè)計(jì)一個(gè)獨(dú)立的輕量級(jí)角度預(yù)測分支,僅包含一個(gè)ESE注意力模塊和一層卷積層[28]。
采用分類聚焦損失(distribution focal loss, DFL)[29]直接學(xué)習(xí)角度的通用分布,將[0,π/2]的角度區(qū)間劃分為90份,每一份的區(qū)間大小為π/180,然后通過積分得到預(yù)測的角度值:
θ=∑90°i=0°pi·i·ω(6)
式中:pi表示該角度在每個(gè)區(qū)間內(nèi)下降的概率。
1.7 可學(xué)習(xí)門控單元
針對(duì)艦船目標(biāo)特性,為加強(qiáng)對(duì)微小和密集目標(biāo)的檢測性能,加速推理過程和降低部署難度,增加可學(xué)習(xí)門控單元(learnable gating unit, LGU),以控制來自前一層的信息,實(shí)現(xiàn)自適應(yīng)融合不同感受野的特征。在訓(xùn)練階段,網(wǎng)絡(luò)包含3×3卷積、1×1卷積、直連(shortcut)連接等結(jié)構(gòu),以強(qiáng)化推理階段,通過重新參數(shù)化處理將網(wǎng)絡(luò)變換為類視覺幾何組(visual geometry group, VGG)網(wǎng)絡(luò)的3×3卷積規(guī)范結(jié)構(gòu)。
y=f(x)+α1g(x)+α2x(7)
式中:f(x)為1×1卷積函數(shù);g(x)為3×3卷積函數(shù);α1和α2是可學(xué)習(xí)的參數(shù)。在推理過程中,可學(xué)習(xí)的參數(shù)可以與卷積層一起重新參數(shù)化,從而使參數(shù)的速度和數(shù)量都不會(huì)發(fā)生變化。
1.8 損失函數(shù)
分別將變焦損失(varifocal loss, VFL)[30]和DFL應(yīng)用到目標(biāo)檢測器中,對(duì)分類和定位任務(wù)進(jìn)行學(xué)習(xí),以獲得性能的改善。計(jì)算公式如下:
VFL(p,q)=-q(qln p+(1-q)ln(1-p), qgt;0
-αpγln(1-p), q=0(8)
式中:對(duì)于正樣本,q為生成的邊界框與基準(zhǔn)邊界框之間的IoU,對(duì)于負(fù)樣本,q為0。
DFL(Si,Si+1)=-((yi+1-y)ln Si+
(y-yi)ln(Si+1))(9)
式中:yi與yi+1分別為標(biāo)簽y附近的預(yù)測值;Si、Si+1分別為預(yù)測值yi、yi+1對(duì)應(yīng)的概率。
VFL使用目標(biāo)分?jǐn)?shù)對(duì)正樣本的損失進(jìn)行加權(quán),使高IoU正樣本對(duì)損失的貢獻(xiàn)相對(duì)較大,讓模型在訓(xùn)練期間更加關(guān)注高質(zhì)量樣本,而非低質(zhì)量樣本。對(duì)于DFL,為了解決檢測框表示不靈活的問題,使用一般分布來預(yù)測邊界框。
最終設(shè)計(jì)損失函數(shù)Loss如下:
Loss=α·lossVFL+β·lossGIoU+γ·lossDFL∑Nposit^(10)
式中:t^表示歸一化目標(biāo)分?jǐn)?shù);α、β、γ為權(quán)重系數(shù);lossVFL為變焦損失函數(shù);lossDFL為分類聚焦損失函數(shù);lossGIoU為高斯分布損失函數(shù)。
2 實(shí)驗(yàn)與結(jié)果分析
2.1 數(shù)據(jù)集構(gòu)建
實(shí)驗(yàn)數(shù)據(jù)集通過操作民用無人機(jī)航拍采集不同地點(diǎn)、不同場景下的多模態(tài)艦船視頻影像進(jìn)行制作,首先使用OpenCV工具包將視頻分解成一系列的圖像幀,并按照設(shè)定的時(shí)間間隔對(duì)視頻幀進(jìn)行提取,在分解視頻幀、生成圖像幀的過程中,根據(jù)每個(gè)圖像幀的幀列序號(hào)進(jìn)行命名,有助于保證整個(gè)數(shù)據(jù)集的順序和組織,最終共得到紅外和可見光船舶圖像30 506張。將圖像分別存放于兩個(gè)文件夾,其中相同圖像序號(hào)為同一時(shí)間同一場景采集,但是因傳感器的差異,其視場角大小不同,故圖像并非嚴(yán)格對(duì)齊,使用Label img工具對(duì)樣本進(jìn)行標(biāo)注,并將樣本保存為VOC數(shù)據(jù)格式。圖4為所制作的多源艦船圖像數(shù)據(jù)集的部分樣本。
2.2 實(shí)驗(yàn)環(huán)境及評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)操作系統(tǒng)為Ubuntu20.04,深度學(xué)習(xí)框架為Pytorch1.9.0,開發(fā)工具為Visual Studio,硬件環(huán)境CPU為Inter(R) Core(R)i7,GPU為NVIDIA(R) GTX(R) 3080。
評(píng)價(jià)指標(biāo)包括平均準(zhǔn)確率均值(mean average precision, mAP)、參數(shù)量(parameters)、每秒十萬億次浮點(diǎn)運(yùn)算次數(shù)(giga float point operations per second, GFLOPs)、每秒處理幀數(shù)((frames per second, FPS),F(xiàn)PS、mAP數(shù)值越大,表示模型檢測性能越好。
算法消融實(shí)驗(yàn)、對(duì)比實(shí)驗(yàn)及網(wǎng)絡(luò)訓(xùn)練結(jié)果均采用可見光圖像輸入作為檢測網(wǎng)絡(luò)基準(zhǔn)模型。多源檢測輸入源圖像在同一時(shí)刻采用同一標(biāo)簽,將輸出可視化結(jié)果設(shè)定為可見光圖像。
2.3 消融實(shí)驗(yàn)
為驗(yàn)證旋轉(zhuǎn)任務(wù)對(duì)齊學(xué)習(xí)、解耦角度預(yù)測頭、角度預(yù)測與DFL、可學(xué)習(xí)門控單元對(duì)模型檢測性能的提升,共設(shè)計(jì)4組消融實(shí)驗(yàn)進(jìn)行對(duì)比,對(duì)比結(jié)果如表1所示。表1中的參數(shù)為每秒百萬浮點(diǎn)運(yùn)算(million float point operations per second, MFLOPs)從實(shí)驗(yàn)結(jié)果可以看出,采用旋轉(zhuǎn)任務(wù)對(duì)齊學(xué)習(xí)方法可以有效提升網(wǎng)絡(luò)的檢測精度且不會(huì)影響實(shí)時(shí)性,改進(jìn)角度預(yù)測頭雖然在一定程度上增加了參數(shù)量,但是對(duì)檢測精度的提升也是顯著的,角度預(yù)測與DFL可學(xué)習(xí)門控單元的引入也對(duì)精度的提升有一定的增益,最終相比于原基線網(wǎng)絡(luò),mAP提升了2.53%,參數(shù)量增加了2.64M,GLOPs增加了12.56。
2.4 算法性能對(duì)比實(shí)驗(yàn)
為客觀評(píng)價(jià)改進(jìn)模型對(duì)算法性能的整體提升效果,選取當(dāng)前主流的旋轉(zhuǎn)目標(biāo)檢測算法進(jìn)行對(duì)比,采用DOTA1.0和DOTA2.0數(shù)據(jù)集進(jìn)行測試,該數(shù)據(jù)集來自不同傳感器和平臺(tái)航拍圖像,其中DOTA1.0共包含15個(gè)類別共2 806幅圖片,DOTA2.0共包含18個(gè)類別共11 268幅圖片。針對(duì)檢測實(shí)時(shí)性,采用Tesla V100數(shù)據(jù)集進(jìn)行測試。如表2所示,mAP1、mAP2分別為DOTA1.0、2.0數(shù)據(jù)集檢測結(jié)果,F(xiàn)PS為Tesla V100數(shù)據(jù)集檢測結(jié)果??梢钥闯觯疚乃惴ǖ膍AP分別可達(dá)82.7%和62.3%,F(xiàn)PS可達(dá)78.0,反映出模型結(jié)構(gòu)改進(jìn)對(duì)網(wǎng)絡(luò)的性能有明顯的提升效果,算法的準(zhǔn)確度和實(shí)時(shí)性都優(yōu)于其他算法。
2.5 網(wǎng)絡(luò)訓(xùn)練及驗(yàn)證
使用自建多源艦船數(shù)據(jù)集對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,采用隨機(jī)抽取的方式,選用8 000張圖像構(gòu)建訓(xùn)練集,選用2 000張圖像用作測試集。修改配置文件參數(shù)為訓(xùn)練周期數(shù)為100,學(xué)習(xí)率為0.001,批大小為4,置信度閾值為0.5,步長為32。使用隨機(jī)梯度下降作為優(yōu)化器進(jìn)行迭代,輸入圖片像素統(tǒng)一設(shè)定為512×512。
算法經(jīng)訓(xùn)練后如圖5所示,圖5(a)、圖5(b)分別為平均精確度和分類損失的訓(xùn)練結(jié)果??梢钥闯?,網(wǎng)絡(luò)模型經(jīng)本數(shù)據(jù)集訓(xùn)練后,訓(xùn)練效果較好,整體損失值較少,未出現(xiàn)過擬合現(xiàn)象,收斂速度快,波動(dòng)小,檢測精度高。
為比較不同回歸損失函數(shù)對(duì)算法性能的影響,選取旋轉(zhuǎn)目標(biāo)檢測損失函數(shù)、相對(duì)熵進(jìn)行比較,旋轉(zhuǎn)目標(biāo)檢測損失函數(shù)通過采用卡爾曼濾波器模擬傾斜交叉比的定義,實(shí)現(xiàn)與傾斜交叉比的趨勢水平對(duì)齊。不同損失函數(shù)的計(jì)算兩個(gè)高斯分布之間的庫-萊伯勒散度,并將其作為相對(duì)熵的回歸損失。對(duì)比結(jié)果如表3所示,可以看出選取其他損失函數(shù)會(huì)導(dǎo)致檢測性能降低。
為驗(yàn)證多源融合檢測網(wǎng)絡(luò)對(duì)不同源圖像檢測的提升效果,排除網(wǎng)絡(luò)模型參數(shù)變化對(duì)檢測結(jié)果的影響,對(duì)單源圖像及兩路同源圖像的檢測結(jié)果進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表4所示。從對(duì)比結(jié)果可以看出,網(wǎng)絡(luò)對(duì)多源圖像檢測精度的提升是符合預(yù)期的。
為驗(yàn)證旋轉(zhuǎn)框檢測對(duì)多源艦船目標(biāo)檢測性能的提升,選取當(dāng)前主流水平框算法進(jìn)行對(duì)比實(shí)驗(yàn),所用數(shù)據(jù)集為自建離岸數(shù)據(jù)集和近岸數(shù)據(jù)集,以驗(yàn)證在不同場景下的檢測效果。mAP1、mAP2分別為離岸結(jié)果和近岸結(jié)果,結(jié)果如表5所示??梢钥闯?,本文算法對(duì)近岸場景下的檢測效果優(yōu)于水平框檢測算法。
2.6 可視化結(jié)果
多源艦船圖像融合檢測方法適用于處理有云霧影響、海浪干擾、光照條件較差等復(fù)雜場景。此時(shí)采用單源檢測難以取得較好的效果,因此選取數(shù)據(jù)集中部分檢測難度大的樣本的檢測結(jié)果,如圖6和圖7所示,以作為可視化展示。
圖6所示為無人機(jī)在遠(yuǎn)距離拍攝下,受海平面反射影響,艦船目標(biāo)較小且色彩紋理特征不明顯,可以驗(yàn)證網(wǎng)絡(luò)的抗干擾性能。從驗(yàn)證結(jié)果可以看出,單一檢測下可見光和紅外的置信度分別為0.83和0.35,經(jīng)融合檢測后置信度提升至0.86,反映出算法可以提升對(duì)小目標(biāo)的檢測性能,有效處理干擾情況。
圖7是拍攝艦船在有云霧干擾下的場景,可以驗(yàn)證網(wǎng)絡(luò)對(duì)遮擋情況的檢測性能。從驗(yàn)證結(jié)果可以看出,單一檢測下可見光和紅外的置信度分別為0.61和0.34,經(jīng)融合檢測后置信度為0.81,反映出算法處理云霧遮擋的效果較好。
圖8是多艦船目標(biāo)在同一畫面中的場景,可以驗(yàn)證網(wǎng)絡(luò)對(duì)多目標(biāo)的融合檢測性能。從驗(yàn)證結(jié)果可以看出,單一檢測下兩個(gè)目標(biāo)的可見光和紅外的置信度為0.74、0.66和0.61、0.74,經(jīng)融合檢測后置信度為0.85、0.84,反映出算法可以有效實(shí)現(xiàn)多目標(biāo)的融合檢測,且融合后的檢測精度有明顯提升。
3 結(jié)束語
為解決多源艦船圖像融合檢測問題,提出MFFDet R。根據(jù)無人機(jī)航拍艦船目標(biāo)特點(diǎn),有針對(duì)性地設(shè)計(jì)網(wǎng)絡(luò)模塊,首先采用單階段無錨框范式,并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,降低網(wǎng)絡(luò)參數(shù)量和時(shí)延,提升實(shí)時(shí)性。隨后,采用旋轉(zhuǎn)任務(wù)對(duì)齊學(xué)習(xí)方法提升檢測精度,并通過強(qiáng)化檢測頭、解耦角度預(yù)測頭提升對(duì)遮擋目標(biāo)的檢測性能。最后,設(shè)計(jì)可學(xué)習(xí)門控單元,加強(qiáng)了對(duì)小目標(biāo)的檢測能力。通過對(duì)網(wǎng)絡(luò)性能的實(shí)驗(yàn)驗(yàn)證并與其他同類算法進(jìn)行對(duì)比,結(jié)果表明本文方法不僅可以實(shí)現(xiàn)多源目標(biāo)融合檢測,并且可有效提升對(duì)艦船目標(biāo)的檢測性能,從可視化實(shí)驗(yàn)結(jié)果中可以看出本文方法能夠較好地滿足現(xiàn)實(shí)任務(wù)的需要。下一步將對(duì)不同模態(tài)下的艦船目標(biāo)融合識(shí)別問題展開進(jìn)一步研究。
參考文獻(xiàn)
[1]王彥情, 馬雷, 田原. 光學(xué)遙感圖像艦船目標(biāo)檢測與識(shí)別綜述[J]. 自動(dòng)化學(xué)報(bào), 2011, 37(9): 1029-1039.
WANG Y Q, MA L, TIAN Y. Overview of ship target detection and recognition in optical remote sensing images[J]. Journal of Automation, 2011, 37(9): 1029-1039.
[2]趙其昌, 吳一全, 苑玉彬. 光學(xué)遙感圖像艦船目標(biāo)檢測與識(shí)別方法研究進(jìn)展[J]. 航空學(xué)報(bào), 2023, 34(1): 242-251.
ZHAO Q C, WU Y Q, YUAN Y B. Research progress on ship target detection and recognition methods in optical remote sensing images[J]. Journal of Aeronautics, 2023, 34(1): 242-251.
[3]何友, 熊偉, 劉俊, 等. 海上信息感知與融合研究進(jìn)展及展望[J]. 火力與指揮控制, 2018, 43(6): 1-10.
HE Y, XIONG W, LIU J, et al. Research progress and prospects on maritime information perception and fusion[J]. Firepower and Command and Control, 2018, 43(6): 1-10.
[4]甘春生. 星載遙感圖像艦船檢測方法研究[D]. 遼寧: 沈陽航空航天大學(xué), 2016.
GAN C S. Research on ship detection methods in spaceborne remote sensing images[D]. Liaoning: Shenyang University of Aeronautics and Astronautics, 2016.
[5]LEI S, ZOU Z X, LIU D G, et al. Sea land segmentation for infrared remote sensing images based on superpixels and multi scale features[J]. Infrared Physics amp; Technology, 2018, 91: 12-17.
[6]ZHI B X, ZHOU F. Analysis of new top hat transformation and the application for infrared dim small target detection[J]. Pattern Recognition, 2010, 43(6): 2145-2156.
[7]LIU R, LU Y, GONG C, et al. Infrared point target detection with improved template matching[J]. Infrared Physics amp; Technology, 2012, 55(4): 380-387.
[8]李海軍, 孔繁程, 林云. 基于改進(jìn)YOLOv5s的紅外艦船檢測算法[J]. 系統(tǒng)工程與電子技術(shù), 2023, 45(8): 2415-2422.
LI H J, KONG F C, LIN Y. Infrared ship detection algorithm based on improved YOLOv5s[J]. Systems Engineering and Electronics, 2023, 45(8): 2415-2422.
[9]潘為年. 基于深度學(xué)習(xí)的紅外成像艦船目標(biāo)檢測方法研究[D]. 成都: 電子科技大學(xué), 2021.
PAN W N. Research on infrared imaging ship target detection method based on deep learning[D]. Chengdu: University of Electronic Science and Technology of China, 2021.
[10]ZHANG J X. Multi source remote sensing data fusion: status and trends[J]. International Journal of Image and Data Fusion, 2010, 1(1): 5-24.
[11]LI M J, DONG Y B, WANG X L. Pixel level image fusion based the wavelet transform[C]∥Proc.of the 6th International Congress on Image and Signal Processing, 2013, 2: 995-999.
[12]HAN X, LYU Y, SONG T X. An adaptive two scale image fusion of visible and infrared images[J]. IEEE Access, 2019, 7: 56341-56352.
[13]YOU T T, TANG Y. Visual saliency detection based on adaptive fusion of color and texture features[C]∥Proc.of the 3rd IEEE International Conference on Computer and Communications, 2017: 2034-2039.
[14]楊曦, 張鑫, 郭浩遠(yuǎn), 等. 基于不變特征的多源遙感圖像艦船目標(biāo)檢測算法[J]. 電子學(xué)報(bào), 2022, 50(4): 887.
YANG X, ZHANG X, GUO H Y, et al. Ship target detection algorithm based on invariant features in multi source remote sensing images[J]. Journal of Electronics, 2022, 50(4): 887.
[15]WANG A, JIANG J N, ZHANG H Y. Multi sensor image decision level fusion detection algorithm based on D S evidence theory[C]∥Proc.of the 4th International Conference on Instrumentation and Measurement, Computer, Communication and Control, 2014, 620-623.
[16]PAUL P P, GAVRILOVA M L, ALHAJJ R. Decision fusion for multimodal biometrics using social network analysis[J]. IEEE Trans.on Systems, Man, and Cybernetics: Systems, 2014, 44(11): 1522-1533.
[17]關(guān)欣, 國佳恩, 衣曉. 基于低秩雙線性池化注意力網(wǎng)絡(luò)的艦船目標(biāo)識(shí)別[J]. 系統(tǒng)工程與電子技術(shù), 2023, 45(5): 1305-1314.
GUAN X, GUO J E, YI X. Ship target recognition based on low rank bilinear pooling attention network[J]. Systems Engineering and Electronics, 2023, 45(5): 1305-1314.
[18]DELIANG X, YIHAO X U, JIANDA C, et al. An algorithm based on a feature interaction based keypoint detector and sim CSPNet for SAR image registration[J]. Journal of Radars, 2022, 11(6): 1081-1097.
[19]ZHANG Y C, ZHANG W B, YU J Y, et al. Complete and accurate holly fruits counting using YOLOX object detection[J]. Computers and Electronics in Agriculture, 2022, 198: 107062.
[20]DEVER W G. The chronology of Syria Palestine in the second millennium BCE: a review of current issues[J]. Bulletin of the American Schools of Oriental Research, 1992, 288(1): 1-25.
[21]SONG G L, LIU Y, WANG X G. Revisiting the sibling head in object detector[C]∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 11563-11572.
[22]FU A M, ZHANG X L, XIONG N X, et al. VFL: a verifiable federated learning with privacy preserving for big data in industrial IOT[J]. IEEE Trans.on Industrial Informatics, 2020, 18(5): 3316-3326.
[23]FENG C J, ZHONG Y J, GAO Y, et al. Tood: task aligned one stage object detection[C]∥Proc.of the IEEE/CVF International Conference on Computer Vision, 2021: 3490-3499.
[24]LI X, WANG W H, WU L J, et al. Generalized focal loss: learning qualified and distributed bounding boxes for dense object detection[J]. Advances in Neural Information Processing Systems, 2020, 33: 21002-21012.
[25]LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]∥Proc.of the IEEE conference on computer vision and pattern recognition, 2017: 2117-2125.
[26]LIU Z, LI Y, YAO L, et al. Task aligned generative meta learning for zero shot learning[C]∥Proc.of the AAAI Confe rence on Artificial Intelligence, 2021, 35(10): 8723-8731.
[27]LLERENA J E. Probabilistic intersection over union for training and evaluation of oriented object detectors[J]. 2022, 15(6): 156-178.
[28]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[29]ZHANG H Y, WANG Y, DAYOUB F, et al. Varifocalnet: an IoU aware dense object detector[C]∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 8514-8523.
[30]LI X, WANG W H, WU L J, et al. Generalized focal loss: learning qualified and distributed bounding boxes for dense object detection[J]. Advances in Neural Information Processing Systems, 2020, 33: 21002-21012.
作者簡介
姜 杰(1990—),男,助理工程師,博士研究生,主要研究方向?yàn)槿斯ぶ悄堋D像處理。
凌 青(1987—),女,副教授,博士,主要研究方向?yàn)殡姶判盘?hào)處理。
閆文君(1986—),男,副教授,博士,主要研究方向?yàn)殡姶判盘?hào)處理。
劉 凱(1986—),男,副教授,博士,主要研究方向?yàn)槿斯ぶ悄?、深度學(xué)習(xí)。