錢 坤, 李晨瑄, 陳美杉, 郭繼偉, 潘 磊
(1. 海軍航空大學(xué)岸防兵學(xué)院, 山東 煙臺(tái) 264000; 2. 中國(guó)人民解放軍32127部隊(duì), 遼寧 大連 116100; 3. 航天工程大學(xué)研究生院, 北京 101416)
近年來(lái),隨著計(jì)算機(jī)圖形算力的爆發(fā)式增長(zhǎng)和人工智能算法的長(zhǎng)足進(jìn)步,計(jì)算機(jī)視覺(jué)領(lǐng)域進(jìn)入了新的技術(shù)時(shí)代,圖像分割作為計(jì)算機(jī)視覺(jué)的重要分支,是根據(jù)一定的規(guī)則將圖像中的像素分成不同的部分,并添加相應(yīng)標(biāo)簽,可以視為是圖像分類識(shí)別向像素級(jí)的延伸,而其中的實(shí)例分割兼具了目標(biāo)檢測(cè)和語(yǔ)義分割的雙重任務(wù),在實(shí)現(xiàn)上更具挑戰(zhàn)意義和實(shí)用價(jià)值。目前,實(shí)例分割已經(jīng)廣泛應(yīng)用于汽車自動(dòng)駕駛、智能輔助醫(yī)療和遙感影像判讀等民用領(lǐng)域。在軍事應(yīng)用上,實(shí)例分割也是精確制導(dǎo)、偵察監(jiān)視等研究領(lǐng)域的核心問(wèn)題,對(duì)于推進(jìn)軍事現(xiàn)代化和信息化有著重要意義[1]。
早期的實(shí)例分割受益于目標(biāo)檢測(cè)相關(guān)研究成果的延伸,Hariharan等首次使用同時(shí)檢測(cè)和分割算法[2]通過(guò)生成建議框、特征提取、區(qū)域分類與改良等步驟同時(shí)完成了檢測(cè)和分割操作。He等人提出的掩模區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(mask region-convolutional neural network, Mask R-CNN)[3]是一種功能強(qiáng)大的基線算法,通過(guò)添加預(yù)測(cè)興趣區(qū)域的語(yǔ)義分割分支能夠高效地完成實(shí)例分割任務(wù),也引領(lǐng)了后續(xù)一系列改進(jìn)算法的產(chǎn)生,如掩模評(píng)分區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(mask scoring R-CNN, MS R-CNN)[4]、邊界保持Mask R-CNN(boundary-preserving Mask R-CNN, BMask R-CNN)[5]等。Long等人提出的全卷積網(wǎng)絡(luò)(fully convolutional networks, FCN)[6]是一種端到端的圖像分割方法,通過(guò)使用全卷積網(wǎng)絡(luò)、反卷積層和跳躍連接實(shí)現(xiàn)了圖像分割,成為該領(lǐng)域的代表性算法。為進(jìn)一步提升FCN算法的精度,Bolya等人提出了只看系數(shù)算法(you only look at coefficients, YOLACT)[7],該算法通過(guò)兩個(gè)并行的子網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)實(shí)例分割,一個(gè)用來(lái)得到類似FCN的分割原型圖,另一個(gè)用來(lái)得到檢測(cè)框,然后融合原型圖和檢測(cè)框后得到掩碼,其在處理速度上實(shí)現(xiàn)了突破,成為首個(gè)能夠完成實(shí)時(shí)實(shí)例分割的算法,隨后的YOLACT++算法[8]繼續(xù)優(yōu)化了算法結(jié)構(gòu)和執(zhí)行效率,進(jìn)一步提升了算法速度和精度。
近兩年來(lái),發(fā)軔于自然語(yǔ)言處理(natural language processing, NLP)的Transformer[9]模型在計(jì)算視覺(jué)領(lǐng)域大放異彩,在實(shí)例分割研究中相較傳統(tǒng)CNN展現(xiàn)出了極強(qiáng)的競(jìng)爭(zhēng)力?;赥ransformer的實(shí)例分割算法[10]是首個(gè)基于Transformer的實(shí)例分割框架,通過(guò)使用循環(huán)細(xì)化策略進(jìn)行檢測(cè)和分割,為實(shí)例分割提供了新角度。隨后的基于Transformer的圖像分割算法[11],使用Transformer預(yù)測(cè)每個(gè)實(shí)例類別,并動(dòng)態(tài)生成具有多個(gè)分割的掩碼級(jí)上采樣模塊,該算法與原始Transformer相比在運(yùn)算速度和資源開(kāi)銷上更具優(yōu)勢(shì)。基于滑動(dòng)窗口的Transformer(shifted windows Transformer,Swin Transformer)[12]實(shí)例分割算法,使用滑動(dòng)窗口策略和層級(jí)化設(shè)計(jì),其將注意力計(jì)算限制在一個(gè)窗口中,旨在引入與CNN卷積類似的局部性操作,并顯著降低計(jì)算量,進(jìn)一步提高了實(shí)例分割的速度和精度。隨著對(duì)Swin Transformer模型研究的不斷深入,如何在保持較低運(yùn)算開(kāi)銷條件下盡量充分地實(shí)現(xiàn)上下文信息的交互,如何理解算法中自注意力機(jī)制的作用方式以及如何對(duì)其他模塊進(jìn)行優(yōu)化等問(wèn)題的提出,為進(jìn)一步提升Swin Transformer模型性能提供了可能的方向。
海戰(zhàn)場(chǎng)艦船目標(biāo)精確識(shí)別與分割是反艦導(dǎo)彈末段圖像制導(dǎo)的核心問(wèn)題,對(duì)于艦船目標(biāo)的檢測(cè)識(shí)別算法很多,但細(xì)化至像素級(jí)的實(shí)例分割研究相對(duì)較少,已有研究也多是針對(duì)合成孔徑雷達(dá)(synthetic aperture radar,SAR)圖像進(jìn)行實(shí)例分割[13],而SAR圖像多為高空俯視視角,從俯視視角得到的艦船輪廓相對(duì)單一,對(duì)于數(shù)據(jù)集的準(zhǔn)備和訓(xùn)練也相對(duì)容易。目前,現(xiàn)役主戰(zhàn)反艦導(dǎo)彈為保證隱蔽突防的成功率,多采用低飛掠海攻擊模式,從艦船側(cè)視角接近目標(biāo)時(shí),艦船目標(biāo)的尺度和角度變化更加劇烈,因此對(duì)于算法的要求也更高。為進(jìn)一步提升海戰(zhàn)場(chǎng)目標(biāo)檢測(cè)能力,實(shí)現(xiàn)精確化打擊,對(duì)于將一般的目標(biāo)檢測(cè)識(shí)別延伸細(xì)化至像素級(jí)精度的實(shí)例分割,有著很強(qiáng)的實(shí)戰(zhàn)意義。
本文提出了一種將改進(jìn)Swin Transformer作為骨干網(wǎng)絡(luò)的艦船目標(biāo)實(shí)例分割算法,在Swin Transformer模塊前增加了局部增強(qiáng)感知模塊,旨在提高網(wǎng)絡(luò)的上下文信息交互能力并拓展感受野,提高分割精度;在特征融合中使用反向特征金字塔(reverse feature pyramid,RevFP)網(wǎng)絡(luò),在優(yōu)化分割準(zhǔn)確率的同時(shí)進(jìn)一步提升圖像處理速度;使用在線困難樣例挖掘方法,改善自制數(shù)據(jù)集難易樣本失衡問(wèn)題,優(yōu)化算法在小樣本數(shù)據(jù)集條件下的訓(xùn)練效果;在經(jīng)過(guò)自制的艦船目標(biāo)數(shù)據(jù)集訓(xùn)練后,相關(guān)實(shí)驗(yàn)結(jié)果表明,算法能夠?qū)崿F(xiàn)多角度、多尺度艦船目標(biāo)實(shí)例分割,分割邊緣清晰準(zhǔn)確,相較基線算法兼具精度和速度優(yōu)勢(shì)。
Transformer模型最先在NLP任務(wù)中被廣泛應(yīng)用,在NLP任務(wù)中需要編碼器抽取很多特征。其中,首先需要考慮的就是每個(gè)詞的上下文語(yǔ)義,因?yàn)槊總€(gè)詞的具體含義都跟上下文強(qiáng)相關(guān),而上下文又分為方向和距離兩個(gè)屬性,傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[14]只能對(duì)句子進(jìn)行單向編碼,CNN只能對(duì)短句進(jìn)行編碼,而Transformer既可以同時(shí)編碼雙向語(yǔ)義,又能夠抽取長(zhǎng)距離特征,所以在上下文語(yǔ)義抽取方面要優(yōu)于RNN和CNN。NLP任務(wù)需要抽取的第二種特征是序列的順序,在這方面Transformer的表現(xiàn)一般介于RNN和CNN之間。NLP任務(wù)對(duì)計(jì)算速度是比較敏感的,由于RNN無(wú)法并行處理序列信息,因此表現(xiàn)最差,CNN和Transformer都可以進(jìn)行并行計(jì)算,但Transformer模型結(jié)構(gòu)稍顯復(fù)雜,所以在速度方面稍遜CNN。綜上,由于Transformer在效果和速度方面性能表現(xiàn)均衡,所以在NLP任務(wù)中很快便脫穎而出,之后隨著研究的深入,Transformer被引入其他任務(wù)中,均有不俗表現(xiàn),已隱隱呈現(xiàn)出成為高效的通用計(jì)算架構(gòu)的趨勢(shì)。
Transformer模型是一種典型的編碼器-解碼器結(jié)構(gòu),其中最為重要是多頭自注意力(multi-head self-attention,MSA),殘差連接和歸一化(add &layer normalization,Add &LN)以及前饋網(wǎng)絡(luò)3個(gè)模塊。MSA負(fù)責(zé)將輸入投影到不同空間,得到Q、K、V這3個(gè)矩陣,投影操作是避免后續(xù)矩陣Q和V直接進(jìn)行點(diǎn)積操作,并使輸入的每個(gè)部分能夠融合上下文的語(yǔ)義,增加多樣性,之后再進(jìn)行注意力的計(jì)算。在Add &LN模塊中先對(duì)注意力計(jì)算的輸出進(jìn)行投影和隨機(jī)舍棄運(yùn)算,加上原始輸入后再進(jìn)行LN操作,添加原始輸入是參考了殘差連接的思想,相當(dāng)于在求導(dǎo)時(shí)增加了一個(gè)恒等項(xiàng),達(dá)到避免發(fā)生梯度消失的目的。同時(shí),歸一化的做法在神經(jīng)網(wǎng)絡(luò)中主要起到提升網(wǎng)絡(luò)泛化性的作用,另外,將歸一化設(shè)置在激活函數(shù)之前,也能夠有效避免數(shù)據(jù)落入飽和區(qū),進(jìn)一步減少梯度消失的情況。前饋網(wǎng)絡(luò)模塊主要作用是給Transformer提供非線性變換,提升擬合能力,在這一過(guò)程中選擇了高斯誤差線性單元(Gaussian error linear unit, GeLU)函數(shù)[15]作為激活函數(shù),因?yàn)镚eLU函數(shù)引入了正則思想,越小的值越有可能被舍棄,相當(dāng)于線性修正單元函數(shù)(rectified linear units, ReLU)[16]和隨機(jī)舍棄的綜合,因?yàn)镽eLU函數(shù)的值只有0和1,所以單純使用ReLU就缺乏這樣的隨機(jī)性。
Swin Transformer的創(chuàng)新性思想主要表現(xiàn)在層次性、局部性以及平移不變性。層次性體現(xiàn)在特征提取階段使用了類似CNN中的層次化構(gòu)建方法,對(duì)輸入圖像分別進(jìn)行4倍、8倍和16倍的下采樣,得到多尺度特征圖。局部性主要體現(xiàn)在自注意力計(jì)算過(guò)程中,將計(jì)算約束在劃分好的局部非重疊窗口內(nèi)進(jìn)行,使得算法復(fù)雜度從此前的和圖像大小的平方關(guān)系變成了線性關(guān)系,大幅降低了計(jì)算量,提升了算法效率。在前后兩層的Transformer模塊中,非重疊窗口的劃分相比前一層做了半個(gè)窗口的偏移,這樣使得上下兩個(gè)窗口的信息得到了有效交互,相比于CNN中常見(jiàn)的滑動(dòng)窗口設(shè)計(jì),保持了平移不變性的同時(shí)也沒(méi)有造成準(zhǔn)確率的降低。
Swin Transformer的算法流程大致如下,輸入圖像為H×W大小的RGB(red, gree, blue)三通道圖像,首先通過(guò)圖塊分割模塊進(jìn)行分塊操作,分為4×4大小的圖塊,之后沿3個(gè)通道方向進(jìn)行展平,展平后大小為4×4×3=48,所以通過(guò)圖塊分割后圖像由[H,W,3]變?yōu)閇H/4,W/4,48],而后通過(guò)線性嵌入模塊對(duì)每個(gè)像素通道數(shù)據(jù)進(jìn)行線性變換,得到[H/4,W/4,C],以上操作均通過(guò)二維卷積實(shí)現(xiàn),具體結(jié)構(gòu)如圖1所示。
圖1 Swin Transformer網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of Swin Transformer net
隨后數(shù)據(jù)進(jìn)入Swin Transformer模塊,經(jīng)歸一化后,進(jìn)入窗口多頭自注意力(windows multi-head self-attention,W-MSA)計(jì)算模塊,將圖像塊進(jìn)一步劃分成互不重疊的區(qū)域,并在區(qū)域內(nèi)計(jì)算自注意力;多層感知機(jī)(multilayer perceptron,MLP)是一個(gè)使用GeLU函數(shù)作為激活函數(shù)的前饋網(wǎng)絡(luò),旨在完成非線性變換,提升算法擬合能力。由于在W-MSA中,只會(huì)在每個(gè)窗口內(nèi)進(jìn)行自注意力計(jì)算,所以窗口與窗口之間是無(wú)法進(jìn)行信息傳遞的。為此,引入了偏移(shifted W-MSA, SW-MSA)模塊,在第L層劃分互不重疊窗口后,在第L+1層內(nèi)偏移半個(gè)窗口距離重新劃分窗口,使得不同層中有部分窗口的信息得以交互,以上操作可以歸結(jié)為第一階段,Swin Transformer模塊結(jié)構(gòu)如圖2所示。
圖2 Swin Transformer模塊結(jié)構(gòu)Fig.2 Architecture of Swin Transformer blocks
為了得到多尺度的特征信息,還需要構(gòu)建一個(gè)層級(jí)式結(jié)構(gòu),Swin Transformer網(wǎng)絡(luò)中設(shè)計(jì)了圖塊拼接模塊,來(lái)實(shí)現(xiàn)類似CNN中池化操作,經(jīng)過(guò)拼接過(guò)后圖像的寬高尺寸減半,通道數(shù)翻倍,而后再通過(guò)Swin Transformer模塊,這樣的結(jié)構(gòu)以串聯(lián)的形式相連,即圖1中的第2階段到第4階段。
為應(yīng)對(duì)不同需求,Swin Transformer實(shí)現(xiàn)了網(wǎng)絡(luò)結(jié)構(gòu)的系列化,其網(wǎng)絡(luò)由簡(jiǎn)單到復(fù)雜依次是Swin-Ting,Swin-Small,Swin-Baes和Swin-Large,網(wǎng)絡(luò)越復(fù)雜性能越強(qiáng),但相應(yīng)的計(jì)算開(kāi)銷也越大,圖1就是以Swin-Ting為例繪制的。
本算法使用Swin Transformer作為骨干網(wǎng)絡(luò),完成特征提取工作,圖像進(jìn)入圖像分割模塊后形成序列化小塊,并沿通道方向展平,通過(guò)線性嵌入模塊完成線性到非線性再到線性的3次變換;在進(jìn)入Swin Transformer塊前,先通過(guò)局部增強(qiáng)感知(local enhanced sensing,LES)模塊,旨在進(jìn)一步抑制無(wú)效特征,增強(qiáng)有效參數(shù),提高上下文信息之間的交互;在特征融合階段使用RevFP網(wǎng)絡(luò)[17],在采用局部融合操作的同時(shí),集成高級(jí)與低級(jí)特征,獲得更好的融合效果和更低的延遲;在網(wǎng)絡(luò)的訓(xùn)練階段,使用在線困難樣例挖掘(online hard example mining, OHEM)[18]方法,解決自制數(shù)據(jù)集難易樣本不均衡,訓(xùn)練效果不理想的問(wèn)題,通過(guò)設(shè)置負(fù)樣本池反復(fù)迭代,使算法在小樣本數(shù)據(jù)集上獲得更好的效果;最后使用基于Mask R-CNN的檢測(cè)頭,完成實(shí)例分割任務(wù)。算法整體框架如圖3所示。
圖3 算法框架Fig.3 Algorithm framework
在Swin Transformer模型中,為了在與圖像大小成線性關(guān)系的計(jì)算復(fù)雜度下盡可能地實(shí)現(xiàn)上下文語(yǔ)義信息的“全局”范圍交互,在層次化結(jié)構(gòu)中使用偏移窗口方案來(lái)實(shí)現(xiàn)不同窗口間的信息交互。但實(shí)際上,每次偏移半個(gè)窗格,在空間上依然存在大量上下文信息不能很好地交流,為此,本文提出了在Swin Transformer模塊前插入一個(gè)局部增強(qiáng)感知模塊,旨在進(jìn)一步提升信息交互能力,拓展感受野尺寸,具體結(jié)構(gòu)如圖4所示。
圖4 帶有LES模塊的Swin Transformer骨干網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Swin Transformer backbone network structure with LES block
在卷積神經(jīng)網(wǎng)絡(luò)中,卷積核大小決定了卷積感受野的尺寸,而與之對(duì)應(yīng)的是不同尺寸的感受野適合識(shí)別分割不同尺寸的目標(biāo),由于反艦導(dǎo)彈在接近艦船目標(biāo)過(guò)程中,目標(biāo)變化的過(guò)程具有多角度、多尺度特性,所以設(shè)計(jì)能夠融合多尺度的感受野對(duì)于提升識(shí)別和分割精度有著重要作用。受“深度實(shí)驗(yàn)室”系列算法[19-22]啟發(fā),設(shè)計(jì)了包含3條并行支路的局部增強(qiáng)感知模塊。
在Swin Transformer中數(shù)據(jù)流由向量構(gòu)成,數(shù)據(jù)首先進(jìn)行特征向量的重新投影,形成多維空間特征映射,然后通過(guò)并行的空洞卷積(dilated convolution, DConv)[23]分支,其中,每個(gè)支路中核大小為1×1的普通卷積旨在降低通道數(shù),3條分支的空洞卷積擴(kuò)張率分別為r=1,r=3和r=5,根據(jù)空洞卷積卷積核計(jì)算公式K=(r-1)(k-1)+k。其中,K為空洞卷積卷積核尺寸,r為擴(kuò)張率,k為常規(guī)卷積卷積核尺寸,由此分別獲得3×3,7×7和11×11大小的感受野,利用DConv來(lái)增加感受野尺寸并不以犧牲特征分辨率為代價(jià),且可以在不同的尺度上對(duì)大范圍的上下文信息進(jìn)行良好編碼,使特征圖獲取更精確的語(yǔ)義與定位信息,有效增強(qiáng)尺度、角度劇烈變化時(shí)的艦船目標(biāo)識(shí)別分割的魯棒性[24]。
數(shù)據(jù)通過(guò)3條擴(kuò)張率不同的空洞卷積分支,X為輸入特征,Y為輸出特征,3條支路的輸出如下所示:
(1)
式中:Conv為卷積核為k的普通卷積運(yùn)算;DConv為擴(kuò)張率為r的DConv運(yùn)算。
通過(guò)并行的3條支路后,輸出特征經(jīng)通道拼接,通過(guò)GeLU激活函數(shù),并采用殘差網(wǎng)絡(luò)思想,增加跳躍連接,隨后輸出至Swin Transformer模塊。
在特征融合階段,特征金字塔網(wǎng)絡(luò)[25](feature pyramid networks,FPN)是目前最為常用的選擇,其結(jié)構(gòu)如圖5(a)所示。后續(xù)相關(guān)研究提出了多種不同的架構(gòu),如路徑聚合網(wǎng)絡(luò)(path-aggregation network,PANet)[26],雙向FPN(bi-directional FPN,BiFPN)[27]等,這些方法使用了不同形式的雙向特征融合。相關(guān)實(shí)驗(yàn)表明,以上改進(jìn)結(jié)構(gòu)均能有效改善網(wǎng)絡(luò)性能,已在目標(biāo)檢測(cè)、實(shí)例分割領(lǐng)域得到了廣泛應(yīng)用,但這些網(wǎng)絡(luò)通常是以固定順序堆疊特征金字塔,更長(zhǎng)的信息鏈路,會(huì)降低推理速度。此外,由于FPN中僅在近鄰層級(jí)特征進(jìn)行了局部融合,這就導(dǎo)致非相鄰特征的語(yǔ)義信息會(huì)被稀釋。文獻(xiàn)[17]提出了RevFP網(wǎng)絡(luò),這是一種利用局部雙向特征融合的簡(jiǎn)化的雙向金字塔推理架構(gòu),相比于其他雙向金字塔架構(gòu),RevFP具有更好的性能、更小巧的模型和更低的延遲,RevFP結(jié)構(gòu)如圖5(b)所示。
圖5 FPN和RevFP特征融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 FPN and RevFP feature fusion network structure
傳統(tǒng)的FPN網(wǎng)絡(luò)采用自頂向下的方式將高層特征傳遞至低層特征,底層特征包含豐富的幾何性狀信息,而高層特征則包含更多的語(yǔ)義信息,FPN網(wǎng)絡(luò)的信息傳遞可以描述為如下形式:
Pi=fi(Ci,Pi+1),i∈{2,3,…,6}
(2)
為進(jìn)一步促進(jìn)高效的雙向特征融合,在RevFP網(wǎng)絡(luò)中采用局部融合操作同時(shí)集成高級(jí)與低級(jí)特征:
Pi=fi(Ci,Ci+1,Pi-1)
(3)
式中:Ci為特征提取骨干提取的特征,i為階段數(shù),即圖像特征分辨率減半的次數(shù)。如C3表示特征提取第3階段,輸出為原圖像1/8尺寸的特征圖,對(duì)應(yīng)融合后的輸出記作Pi。
在線困難樣例挖掘主要用于解決數(shù)據(jù)樣本不均衡或簡(jiǎn)單樣本過(guò)多的問(wèn)題。通常情況下,在訓(xùn)練網(wǎng)絡(luò)的最后階段,當(dāng)前的網(wǎng)絡(luò)模型會(huì)對(duì)所有訓(xùn)練集中的樣本進(jìn)行測(cè)試,逐個(gè)分析其當(dāng)前的損失函數(shù)值,并將樣本按照置信概率誤差進(jìn)行降序排列,其中誤差較大的樣本就是所謂的困難樣例。
在理想狀態(tài)下,一個(gè)數(shù)據(jù)集的難易樣例設(shè)置應(yīng)該是相對(duì)平衡的,但在小規(guī)?;蜃灾茢?shù)據(jù)集中,樣本難易不平衡的現(xiàn)象幾乎普遍存在。比如掠海攻擊視角,艦船目標(biāo)角度變化明顯,導(dǎo)致相同部位在不同角度上觀察變化巨大;再如,數(shù)據(jù)集規(guī)模較小時(shí),對(duì)于某類目標(biāo)的特征學(xué)習(xí)不夠,會(huì)導(dǎo)致?lián)p失函數(shù)和訓(xùn)練效果退化。為提高數(shù)據(jù)集利用效率和算法精度,受數(shù)據(jù)增強(qiáng)和在線困難樣例挖掘思想啟發(fā),設(shè)置了負(fù)樣本檢測(cè)池,在訓(xùn)練20輪后,將每批次檢測(cè)準(zhǔn)確率小于0.5的樣本置于負(fù)樣本檢測(cè)池中,累計(jì)64個(gè)負(fù)樣本后,將其重新投入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,反復(fù)迭代以改進(jìn)算法對(duì)于困難樣本的特征提取能力。
為模擬反艦武器掠海攻擊模式末段圖像制導(dǎo)呈現(xiàn)的影像,選用文獻(xiàn)[28]提出的基于水平或低視角的艦船目標(biāo)數(shù)據(jù)集,數(shù)據(jù)集共有1 554幅圖像,作戰(zhàn)艦艇區(qū)分航空母艦和驅(qū)逐艦,分別有636幅和741幅,民用船只包含漁船、液化天然氣船、集裝箱船、快艇、帆船等類別,共558幅,由于網(wǎng)絡(luò)支持多分辨率圖像訓(xùn)練,所以沒(méi)有統(tǒng)一圖像大小,所有圖像大小介于500×680至1 280×960之間。
為強(qiáng)化反艦武器打擊效果,標(biāo)注過(guò)程中將艦體主體作為重點(diǎn)標(biāo)注目標(biāo),艦體外緣突出的垂直天線、艦炮炮管等細(xì)長(zhǎng)狀目標(biāo),以及甲板欄桿、雷達(dá)天線等存在較大間隙的目標(biāo)不作為艦船主體進(jìn)行標(biāo)注,標(biāo)注示例如圖6所示。
圖6 標(biāo)注示例Fig.6 Annotation example
經(jīng)統(tǒng)計(jì),共標(biāo)注1 052幅圖像,每圖像平均標(biāo)注1.23個(gè)目標(biāo)。標(biāo)注使用開(kāi)源工具labelme,并將標(biāo)注后生成的.json格式的文件使用腳本轉(zhuǎn)換成微軟通用目標(biāo)語(yǔ)義(Microsoft common objects in context, MS COCO)數(shù)據(jù)集[29]標(biāo)準(zhǔn)格式,并按照MS COCO數(shù)據(jù)集的目錄構(gòu)成要求進(jìn)行文件的組織和保存。另外,在訓(xùn)練前還需要將標(biāo)注好的數(shù)據(jù)集按照8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,3個(gè)子集的數(shù)量分別為842幅、106幅和104幅。具體標(biāo)注情況如表1所示。
表1 數(shù)據(jù)集標(biāo)注信息統(tǒng)計(jì)表Table 1 Statistical table of dataset annotation information
算法依托深度學(xué)習(xí)主流開(kāi)源框架PyTorch,使用NVIDIA CUDA GPU加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推斷,具體實(shí)驗(yàn)環(huán)境如表2所示。
表2 實(shí)驗(yàn)環(huán)境Table 2 Experimental environment
在圖像實(shí)例分割研究中,常用MS COCO數(shù)據(jù)集中的一些評(píng)價(jià)指標(biāo)來(lái)衡量算法的優(yōu)劣,最主要的指標(biāo)是平均精度(average precision,AP),表示對(duì)某一類目標(biāo)檢測(cè)精度,AP由交并比(intersection-over union,IoU)定義,IoU表示兩個(gè)實(shí)例掩碼的重疊度。其他比較重要的性能指標(biāo)還有參數(shù)量和幀率(frame per second, FPS),參數(shù)量由網(wǎng)絡(luò)模型結(jié)構(gòu)確定,單位為M,FPS主要用來(lái)衡量算法執(zhí)行的速度,常用的評(píng)價(jià)指標(biāo)如表3所示。
表3 MS COCO數(shù)據(jù)集主要評(píng)價(jià)指標(biāo)Table 3 Main evaluation indexes of MS COCO dataset
將網(wǎng)絡(luò)在艦船目標(biāo)數(shù)據(jù)集上進(jìn)行訓(xùn)練,待網(wǎng)絡(luò)收斂后,得到改進(jìn)后的網(wǎng)絡(luò)模型和相應(yīng)的權(quán)重文件,為驗(yàn)證算法性能,在相同實(shí)驗(yàn)平臺(tái)和訓(xùn)練數(shù)據(jù)條件下,選擇5個(gè)經(jīng)典的實(shí)例分割算法進(jìn)行性能對(duì)比,分別是FCN、Mask R-CNN、級(jí)聯(lián)Mask R-CNN(Cascade Mask R-CNN)、YOLACT++算法和以Swin-Ting為骨干網(wǎng)絡(luò)的Swin Transformer算法。由于本文算法的骨干網(wǎng)絡(luò)是在Swin-Ting基礎(chǔ)上改進(jìn)而來(lái),所以在實(shí)驗(yàn)對(duì)比對(duì)象的選擇上也盡可能選擇網(wǎng)絡(luò)模型大小相近的算法進(jìn)行對(duì)比,具體實(shí)驗(yàn)結(jié)果如表4所示。
表4 算法對(duì)比結(jié)果Table 4 Algorithm comparison results
圖7為本文算法與基線算法的實(shí)例分割結(jié)果對(duì)比圖,圖7(a)組中放大區(qū)域顯示本文算法相較基線算法對(duì)目標(biāo)邊緣的分割效果更加準(zhǔn)確;圖7(b)組中基線算法出現(xiàn)了誤檢;圖7(c)組中兩個(gè)算法均準(zhǔn)確分割出目標(biāo),但本文算法給出的目標(biāo)置信概率顯著高于基線算法;圖7(d)組基線算法出現(xiàn)了錯(cuò)檢,將航空母艦同時(shí)識(shí)別成了航空母艦和驅(qū)逐艦。
圖7 對(duì)比實(shí)驗(yàn)結(jié)果示例Fig.7 Examples of comparative experimental results
為驗(yàn)證不同模塊對(duì)于實(shí)例分割算法的影響,設(shè)計(jì)了消融實(shí)驗(yàn),消融實(shí)驗(yàn)依然以原始Swin-Ting+FPN,且無(wú)OHEM輔助訓(xùn)練的算法作為基線算法進(jìn)行對(duì)比。6組消融實(shí)驗(yàn)是單一模塊或兩兩模塊的組合算法,最后一組是本文的完整算法,即改進(jìn)Swin-Ting+RevFP+OHEM,具體實(shí)驗(yàn)結(jié)果如表5所示。其中,“×”表示未使用該模塊;“√”表示使用了該模塊進(jìn)行改進(jìn)優(yōu)化。
表5 消融實(shí)驗(yàn)數(shù)據(jù)Table 5 Ablation experiment data
實(shí)驗(yàn)結(jié)果表明,單一或組合模塊的改進(jìn)在分割準(zhǔn)確度或處理速度上大多可以產(chǎn)生正向優(yōu)化效果,證明對(duì)原始基線算法的改進(jìn)是有效的。其中,LES模塊對(duì)于網(wǎng)絡(luò)分割準(zhǔn)確度的提升比較明顯,但也會(huì)相應(yīng)增加一定計(jì)算開(kāi)銷,降低圖像處理速度;RevFP模塊的主要貢獻(xiàn)在于對(duì)算法處理速度的提升,對(duì)準(zhǔn)確度的提升相對(duì)有限;在基線算法基礎(chǔ)上單獨(dú)應(yīng)用OHEM方法即可對(duì)算法精度有一定提升,證明了數(shù)據(jù)集的樣本難易平衡性能夠直接影響網(wǎng)絡(luò)訓(xùn)練效果,在規(guī)模較小的數(shù)據(jù)集上能夠取得相對(duì)優(yōu)異的訓(xùn)練效果,這對(duì)于樣本容量和質(zhì)量比較有限的自制數(shù)據(jù)集有著重要意義。為進(jìn)一步驗(yàn)證OHEM方法在該方面的作用,還進(jìn)行了60%和80%訓(xùn)練集的實(shí)驗(yàn),結(jié)果如表6所示。
表6 不同規(guī)模訓(xùn)練集訓(xùn)練效果對(duì)照實(shí)驗(yàn)結(jié)果Table 6 Comparative experimental results of training effects of different scale training sets %
實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)集樣本容量相同情況下,使用了OHEM方法進(jìn)行訓(xùn)練的Swin-T網(wǎng)絡(luò)訓(xùn)練結(jié)果均優(yōu)于基線算法,在80%數(shù)據(jù)集條件下,mAP高出0.9%,在60%數(shù)據(jù)集條件下,mAP高出1.2%,在數(shù)據(jù)集容量有限的情況下,優(yōu)勢(shì)有擴(kuò)大趨勢(shì)。
傳統(tǒng)艦船目標(biāo)識(shí)別多使用檢測(cè)框標(biāo)示出目標(biāo),為將目標(biāo)識(shí)別延伸至像素級(jí)別,本文提出了一種基于改進(jìn)Swin Transformer的艦船目標(biāo)實(shí)例分割算法,可以實(shí)現(xiàn)多尺度,多角度,基于掠海攻擊視角的多類別艦船目標(biāo)實(shí)例分割,算法分割精度、速度均優(yōu)于基線算法,結(jié)合消融實(shí)驗(yàn),論證了對(duì)算法改進(jìn)的有效性。
(1) 針對(duì)傳統(tǒng)Swin Transformer模型存在圖像上下文信息交互不充分的問(wèn)題,設(shè)計(jì)了由并行DConv分支組成的局部增強(qiáng)模塊,拓展感受野尺寸和語(yǔ)義交互能力,使算法mAP提高0.9%。
(2) 針對(duì)傳統(tǒng)FPN特征融合網(wǎng)絡(luò)存在非相鄰的特征語(yǔ)義信息被稀釋的問(wèn)題,使用RevFP網(wǎng)絡(luò)進(jìn)行替代,在分割精度和速度上均有不同程度提升。
(3) 針對(duì)自制數(shù)據(jù)集樣本數(shù)量較少,樣本難易程度不平衡導(dǎo)致的訓(xùn)練結(jié)果不佳的問(wèn)題,使用OHEM方法反復(fù)迭代以改善訓(xùn)練效果,切實(shí)提升了小樣本數(shù)據(jù)集的訓(xùn)練效果。
下一階段的研究重點(diǎn)是進(jìn)一步提高網(wǎng)絡(luò)模型的特征提取能力,并建立樣本數(shù)量更大的艦船目標(biāo)數(shù)據(jù)集,重點(diǎn)解決復(fù)雜島岸背景下的艦船目標(biāo)識(shí)別或?qū)嵗指顔?wèn)題。同時(shí),將算法遷移至嵌入式平臺(tái)端,對(duì)彈載平臺(tái)的分割效果進(jìn)行實(shí)驗(yàn)驗(yàn)證。