何民華,張潤(rùn)達(dá),趙勝利
(1. 交通運(yùn)輸部南海航海保障中心廣州海事測(cè)繪中心,廣東 廣州 510000;2. 廣州市地鐵設(shè)計(jì)研究院股份有限公司,廣東 廣州 510000)
航天遙感衛(wèi)星技術(shù)的快速發(fā)展使得遙感衛(wèi)星影像在時(shí)間、空間分辨率上取得了很大進(jìn)步,以衛(wèi)星遙感影像為基礎(chǔ)的相關(guān)技術(shù)也在林業(yè)資源管理、軍事偵察、應(yīng)急救援等領(lǐng)域發(fā)揮了越來(lái)越重要的作用[1]?;谶b感影像的船舶目標(biāo)檢測(cè)技術(shù)對(duì)于提高海上航行效率、軍事情報(bào)偵察以及海上交通安全等方面具有重要的應(yīng)用價(jià)值,是當(dāng)前遙感影像智能處理的熱點(diǎn)研究方向之一。許多結(jié)合人工算子與機(jī)器學(xué)習(xí)的方法曾被用于檢測(cè)遙感影像中的艦船目標(biāo),Tran T H[2]等曾提出一種結(jié)合視覺背景提取器與頻譜殘差的海上船舶檢測(cè)算法;da Silva B R F[3]等也曾提出一種在候選圖像中使用梯度直方圖,再利用支持向量機(jī)和K近鄰算法對(duì)艦船目標(biāo)進(jìn)行分類的算法,上述方法大多先通過(guò)傳統(tǒng)算子來(lái)描述艦船目標(biāo)特征,再通過(guò)淺層機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)特征目標(biāo)的檢測(cè)。然而,受傳統(tǒng)算子對(duì)目標(biāo)非線性特征表達(dá)能力不足[4]、淺層機(jī)器學(xué)習(xí)模型泛化能力較差[5]等因素影響,上述經(jīng)典方法在實(shí)施以小尺度目標(biāo)為主的遙感影像船舶檢測(cè)任務(wù)時(shí),普遍存在誤檢、漏檢率高,對(duì)不同背景下的船只目標(biāo)不敏感等問(wèn)題。近兩年不依賴人工設(shè)計(jì)算子、非線性特征提取能力更強(qiáng)的深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)算法正成為目標(biāo)檢測(cè)、實(shí)例分割等領(lǐng)域的主流方法,已在多個(gè)領(lǐng)域取得了很多的應(yīng)用成果。劉冰潔[6]等運(yùn)用Faster R-CNN 與U-Net 的組合設(shè)計(jì)了基于遙感影像的尾礦庫(kù)檢測(cè)方法,能在稀少樣本條件下,通過(guò)特征提取與最優(yōu)特征組合實(shí)現(xiàn)不同區(qū)域尾礦庫(kù)高精度識(shí)別與提取,可為尾礦庫(kù)科學(xué)管理工作提供一定技術(shù)支持;黃文涵[7]等針對(duì)復(fù)雜駕駛場(chǎng)景下的目標(biāo)檢測(cè)問(wèn)題,以RetinaNet為基本框架提出了一種基于擴(kuò)張卷積特征自適應(yīng)融合的檢測(cè)方法,在復(fù)雜駕駛場(chǎng)景數(shù)據(jù)集BDD100 K 上的測(cè)試結(jié)果表明,該方法能有效提升目標(biāo)檢測(cè)算法在復(fù)雜駕駛場(chǎng)景下的檢測(cè)性能;黃西堯[8]等針對(duì)地球同步軌道目標(biāo)的檢測(cè)問(wèn)題,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與拓?fù)鋻呙璧臋z測(cè)方法,在測(cè)試數(shù)據(jù)集上取得了80.7%召回率的檢測(cè)結(jié)果;周佳瑋[9]等提出了一種結(jié)合高分辨率和多時(shí)序遙感影像的深度學(xué)習(xí)水稻提取方法,通過(guò)全卷積網(wǎng)絡(luò)對(duì)BJ-2號(hào)高分遙感影像進(jìn)行分類,使用長(zhǎng)短期記憶網(wǎng)絡(luò)與隨機(jī)森林Sentinel-2 多時(shí)序遙感影像進(jìn)行分類,再通過(guò)面向?qū)ο蟮姆指詈屯镀睂?duì)3 種方法的分類結(jié)果進(jìn)行融合,最終取得了較好的分類效果,上述結(jié)果都充分說(shuō)明了深度學(xué)習(xí)在目標(biāo)檢測(cè)與實(shí)例分割任務(wù)領(lǐng)域的優(yōu)勢(shì);Kathiravan M[10]等基于R-CNN 模型提出了一種基于合成孔徑雷達(dá)影像的船舶檢測(cè)算法,能對(duì)海上的船舶目標(biāo)進(jìn)行有效分類。
然而,相對(duì)于一般目標(biāo)的檢測(cè)任務(wù),基于遙感影像的船舶檢測(cè)任務(wù)具有更多的特殊性。首先,在目標(biāo)尺度方面,不同類型船舶的跨度較大,這就需要檢測(cè)模型擁有較好的小目標(biāo)檢測(cè)能力;其次,由于船舶目標(biāo)的特點(diǎn),除碼頭以外的大部分單幅遙感影像內(nèi)僅包含極少數(shù)船舶目標(biāo),這就需要大量且豐富的樣本類型才能充分訓(xùn)練模型。鑒于此,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的艦船目標(biāo)檢測(cè)方法(Att-DConv),針對(duì)小目標(biāo)特征,同時(shí)設(shè)計(jì)了4 層全局融合結(jié)構(gòu)作為特征增強(qiáng)網(wǎng)絡(luò),并利用改進(jìn)的非極大值抑制算法優(yōu)化選取最終的檢測(cè)框。為了讓檢測(cè)結(jié)果與實(shí)際目標(biāo)更貼合,使用帶有旋轉(zhuǎn)角度的錨點(diǎn)框?qū)嵤z測(cè);針對(duì)圖像內(nèi)樣本個(gè)數(shù)較少且類型不豐富的問(wèn)題,采用數(shù)字圖像處理手段優(yōu)化圖像質(zhì)量,以馬賽克增強(qiáng)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行處理,使模型得到更充分的訓(xùn)練。
卷積核感受野是指卷積處理后獲取的特征圖在原始圖像中映射的區(qū)域大小。骨干網(wǎng)絡(luò)作為整個(gè)模型的前端結(jié)構(gòu),通過(guò)多個(gè)卷積特征提取層與下采樣層提取到不同感受野的特征圖來(lái)實(shí)現(xiàn)對(duì)不同尺度目標(biāo)的檢測(cè)輸出。隨著感受野的擴(kuò)張,圖像中的目標(biāo)信息會(huì)不斷丟失,一些小尺寸樣本的特征信息甚至?xí)煌耆ㄈァ榱顺浞直A粜〕叽鐦颖咎卣鲗?duì)模型進(jìn)行充分訓(xùn)練,在特征提取層中采用空洞卷積核進(jìn)行特征提取。常規(guī)卷積核與空洞卷積核的計(jì)算過(guò)程見圖1。
圖1 常規(guī)卷積與空洞卷積
式中,為第l層特征提取層中第i個(gè)卷積核的輸出;(f)為進(jìn)行操作的卷積核;f和a、b分別為對(duì)應(yīng)的特征及其元素;d為空洞卷積的分離率。
在特征提取層中使用空洞卷積核能夠保留較多的小目標(biāo)特征,但持續(xù)使用相同分離率的空洞卷積核則會(huì)造成采樣不連續(xù)的問(wèn)題[11],進(jìn)而影響小目標(biāo)特征信息的完整度。因此,在特征提取層中采用并聯(lián)的方式組合不同分離率的空洞卷積核,同時(shí)添加快捷鏈路拼接原始特征圖與提取后特征圖,以提高特征圖的復(fù)雜程度。為了避免模型因?qū)訑?shù)過(guò)深而產(chǎn)生訓(xùn)練數(shù)據(jù)的內(nèi)部協(xié)變量偏移問(wèn)題,以及訓(xùn)練階段每次送入模型的訓(xùn)練樣本數(shù)量batch 設(shè)置較小時(shí)產(chǎn)生的非獨(dú)立同分布和minibatch 問(wèn)題[12],在每個(gè)卷積核的輸出端后采用批量規(guī)范化層對(duì)輸出特征進(jìn)行規(guī)范化處理,避免模型在訓(xùn)練過(guò)程中出現(xiàn)梯度消失問(wèn)題。遙感影像通常尺寸較大且背景復(fù)雜,而艦船目標(biāo)在影像內(nèi)的數(shù)量較少,這就產(chǎn)生了較嚴(yán)重的正負(fù)樣本不平衡現(xiàn)象。為緩解該問(wèn)題,在特征提取層末端設(shè)置了壓縮—激勵(lì)組合的通道注意力模塊,讓模型更聚焦于學(xué)習(xí)正樣本特征信息。通道注意力模塊首先在壓縮操作層中將輸入的多通道二維平面特征圖拉長(zhǎng)為1×1×C維度的向量,C為輸入特征的通道維度;然后使用帶有激活函數(shù)與全連接層的激勵(lì)操作層通過(guò)兩個(gè)全連接層生成每個(gè)通道的權(quán)重參數(shù);最后將每個(gè)通道的權(quán)重與原始特征圖相乘,實(shí)現(xiàn)對(duì)正負(fù)樣本特征的聚焦與抑制。通道注意力機(jī)制和特征提取層結(jié)構(gòu)見圖2,以輸入圖像尺寸為608×608為例,骨干網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)參數(shù)見表1。
表1 骨干網(wǎng)絡(luò)結(jié)構(gòu)表
圖2 特征提取模塊結(jié)構(gòu)圖
為了讓模型更好地學(xué)習(xí)非線性特征,選取參數(shù)化的ReLU 函數(shù)作為特征提取后的激活函數(shù),具體公式為:
式中,xi為第i個(gè)通道的輸入特征;ai為可學(xué)習(xí)動(dòng)態(tài)更新的參數(shù)。
為盡量保留原始的目標(biāo)特征信息,避免池化層在下采樣時(shí)造成大量的特征損失,利用1×1的可學(xué)習(xí)卷積核作為算子,采用兩倍步長(zhǎng)下采樣的方式實(shí)現(xiàn)對(duì)特征圖的尺寸下采樣。
特征增強(qiáng)網(wǎng)絡(luò)能在骨干網(wǎng)絡(luò)的基礎(chǔ)上提高特征圖的信息復(fù)雜度,并輸出多尺度的特征圖參與最終的檢測(cè)框輸出。為更好地實(shí)現(xiàn)不同感受野下特征圖間的信息交互,首先采用全局融合模式的特征增強(qiáng)網(wǎng)絡(luò),以全部的輸出特征圖為基礎(chǔ),通過(guò)下采樣與上采樣實(shí)現(xiàn)尺寸歸一化;再將其融合為一張多通道的特征圖,該特征圖內(nèi)包含了全部感受野下特征圖的信息;然后根據(jù)船舶以小目標(biāo)為主的尺寸特征,以融合特征圖為基礎(chǔ)進(jìn)行兩次上采樣與兩次下采樣;最后輸出4 個(gè)層次的特征圖進(jìn)行多尺度目標(biāo)的檢測(cè),具體結(jié)構(gòu)見圖3。
圖3 特征增強(qiáng)層結(jié)構(gòu)圖
為了讓檢測(cè)框與真實(shí)目標(biāo)更貼近,本文采用帶有旋轉(zhuǎn)角度的目標(biāo)框來(lái)實(shí)施檢測(cè)。Att-DConv在訓(xùn)練過(guò)程中使用的損失函數(shù)由邊框回歸損失函數(shù)Lloc與目標(biāo)置信度回歸損失函數(shù)Lconf的加權(quán)和組成,具體公式為:
式中,N為錨點(diǎn)框的數(shù)量;objn為區(qū)分正、負(fù)樣本的二元參數(shù);Lreg為改進(jìn)的Smooth L1 函數(shù);、vn分別為預(yù)測(cè)框與真實(shí)框的偏移量;、vθ分別為預(yù)測(cè)角度與真實(shí)角度的偏移量;SkewIoU 為旋轉(zhuǎn)預(yù)測(cè)框與旋轉(zhuǎn)真實(shí)框間的重疊度;c為樣本的目標(biāo)置信度;為第j個(gè)正樣本。
NMS算法通過(guò)對(duì)眾多近似的檢測(cè)框結(jié)果進(jìn)行打分而剔除冗余邊框。經(jīng)典NMS算法是以目標(biāo)框與真實(shí)框的交并比(IoU)為標(biāo)準(zhǔn)進(jìn)行打分,在保留得分最高目標(biāo)框的基礎(chǔ)上直接剔除剩余所有候選框。該方法剔除標(biāo)準(zhǔn)嚴(yán)格,且僅考慮了兩框之間的重疊面積,對(duì)各種類型檢測(cè)框的描述不夠全面。因此,本文采用加權(quán)平均GIoU算法作為最終檢測(cè)框的篩選算法,同時(shí)以多個(gè)檢測(cè)框的加權(quán)結(jié)果生成最終的輸出框,具體公式為:
式中,wi為權(quán)重值;Bi為第i個(gè)檢測(cè)框;M為輸出的檢測(cè)框;C為檢測(cè)框與實(shí)際框的最大包含面積。
以開源數(shù)據(jù)集UCMerced_LandUse與FAIR1M為數(shù)據(jù)源獲取混合遙感影像船舶數(shù)據(jù)集,對(duì)Att-DConv 進(jìn)行訓(xùn)練和測(cè)試。將所有包含艦船目標(biāo)的遙感影像按照8∶2的比例劃分為訓(xùn)練集和測(cè)試集,首先對(duì)訓(xùn)練集中的影像尺寸進(jìn)行歸一化處理;然后為提高訓(xùn)練后模型的泛化性,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行直方圖均衡化、暗通道先驗(yàn)濾波、高斯濾波等增強(qiáng)處理,并選取部分樣本進(jìn)行馬賽克拼接,即通過(guò)將4 個(gè)訓(xùn)練樣本拼接為一張的方式來(lái)提高樣本的豐富程度,部分處理結(jié)果見圖4;最后將增強(qiáng)處理和馬賽克處理后的影像放入訓(xùn)練集中,參與訓(xùn)練的影像為874張,包括目標(biāo)1 458個(gè),測(cè)試數(shù)據(jù)集內(nèi)的影像未經(jīng)過(guò)任何處理。
圖4 數(shù)據(jù)集預(yù)處理結(jié)果圖
為了客觀全面地衡量模型性能,本文采用多種指標(biāo)來(lái)評(píng)價(jià)提出模型的檢測(cè)精度、檢測(cè)速度和模型體量。在檢測(cè)精度方面,采用精確率、召回率以及IoU閾值為0.5 的精度均值(AP0.5)作為評(píng)價(jià)指標(biāo);在檢測(cè)速度方面,采用每秒檢測(cè)圖像幀數(shù)(FPS)作為評(píng)價(jià)指標(biāo);在模型體量方面,采用訓(xùn)練后模型權(quán)重文件大小和檢測(cè)運(yùn)行參數(shù)量作為評(píng)價(jià)指標(biāo)。AP為精度—召回率曲線下的面積,相關(guān)計(jì)算公式為:
式中,TP為真樣本;FP為錯(cuò)誤檢測(cè)的真樣本;FN為錯(cuò)誤檢測(cè)的假樣本。
模型的訓(xùn)練和測(cè)試均在相同的環(huán)境下進(jìn)行,具體配置為:CPU Intel I7 i9800k、GPU Nvidia 1080Ti、內(nèi)存大小16 GB、硬盤1 TB、操作系統(tǒng)Ubuntu 18.04、CUDA 版本11.1,機(jī)器學(xué)習(xí)框架為以TensorFlow(1.13.1)為backend 的Keras(2.2.4)。為使模型在訓(xùn)練過(guò)程中快速充分地?cái)M合,在訓(xùn)練過(guò)程中配置了多種優(yōu)化策略,經(jīng)過(guò)多次調(diào)參后完成訓(xùn)練,具體參數(shù)配置:輸入模型訓(xùn)練的圖像尺寸為608×608,Batch Size設(shè)置為10,采用退火算法實(shí)現(xiàn)學(xué)習(xí)率的動(dòng)態(tài)調(diào)節(jié),初始學(xué)習(xí)率設(shè)置為10e-4,使用自適應(yīng)矩估計(jì)算法更新訓(xùn)練權(quán)重,動(dòng)量參數(shù)設(shè)置為0.9,迭代次數(shù)設(shè)置為1 000。為了驗(yàn)證本文算法的有效性,以單階段的SSD、YoloV4、YoloV5s、RetinaNet 模型,二階段的Faster RCNN、Cascade RCNN模型,帶有旋轉(zhuǎn)框的Yolov5m-obb模型為基準(zhǔn),采用相同的運(yùn)行環(huán)境與數(shù)據(jù)集進(jìn)行訓(xùn)練,并使用同一組指標(biāo)對(duì)所有模型進(jìn)行評(píng)價(jià)。完整技術(shù)流程見圖5。
圖5 完整技術(shù)流程圖
全部模型的測(cè)試結(jié)果見表2,本文模型的部分檢測(cè)結(jié)果見圖6,可以看出,本文模型在檢測(cè)精度方面優(yōu)于所有對(duì)比模型,AP0.5達(dá)到了0.85,比單階段的SSD、YoloV4、YoloV5s、RetinaNet 以及YoloV5m-obb分別提高了24.65% 、 8.33% 、 15.18% 、 62% 和5.8%,相較于經(jīng)典Faster RCNN 和Cascade RCNN 分別提高了49.2%、37.9%,說(shuō)明Att-DConv 在船舶檢測(cè)任務(wù)中具有更明顯的精度優(yōu)勢(shì);在檢測(cè)速度方面,測(cè)試環(huán)境下Att-DConv 能達(dá)到34 f/s,相較于YoloV4、SSD 模型均有顯著優(yōu)勢(shì),但稍低于YoloV5s 模型;在模型結(jié)構(gòu)方面,本文模型在骨干網(wǎng)絡(luò)中設(shè)置了空洞卷積核組注意力模塊,同時(shí)輸出了4 個(gè)尺度的特征圖實(shí)現(xiàn)最終檢測(cè),而YoloV5s 作為YoloV5 系列的輕量級(jí)模型,擁有較小的參數(shù)量,但在檢測(cè)精度方面表現(xiàn)不理想。
表2 模型評(píng)價(jià)結(jié)果對(duì)比表
圖6 部分檢測(cè)結(jié)果
進(jìn)一步通過(guò)不同復(fù)雜程度背景的影像來(lái)直觀說(shuō)明本文模型的檢測(cè)能力,在圖6 a、6 b、6 e、6 f中包含較多的港口和鄰近建筑物,背景復(fù)雜且負(fù)樣本居多,剩余圖像則沒有太多負(fù)樣本且樣本個(gè)數(shù)較少,從檢測(cè)結(jié)果可以看出,Att-DConv 模型能準(zhǔn)確檢出不同背景復(fù)雜程度、不同密集程度的艦船目標(biāo),說(shuō)明本文模型在具有較高檢測(cè)精度的同時(shí),還具有良好的泛化能力。
針對(duì)基于衛(wèi)星遙感影像船舶場(chǎng)景下的背景復(fù)雜、小尺寸樣本居多、正負(fù)樣本不均衡等問(wèn)題,本文提出了一種帶有空洞卷積與通道注意力組合的遙感影像艦船檢測(cè)模型Att-DConv。在骨干網(wǎng)絡(luò)中使用并聯(lián)空洞卷積核組進(jìn)行特征提取,同時(shí)在提取層內(nèi)引入通道注意力機(jī)制來(lái)聚焦正樣本特征;再通過(guò)上下采樣組合融合骨干網(wǎng)絡(luò)輸出的全部尺度特征圖;最后利用增強(qiáng)數(shù)據(jù)集完成模型訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,在多種復(fù)雜場(chǎng)景下Att-DConv 對(duì)不同密集程度的艦船目標(biāo)均表現(xiàn)出良好穩(wěn)定的性能,AP0.5達(dá)到0.91,顯著優(yōu)于現(xiàn)有主流深度學(xué)習(xí)模型,在測(cè)試環(huán)境中的檢測(cè)速度可達(dá)到34 f/s,低于YoloV5s,但可開展對(duì)艦船目標(biāo)的實(shí)時(shí)檢測(cè)。在下一階段的研究中,將嘗試采用結(jié)構(gòu)剪枝、模型量化等方法對(duì)現(xiàn)有模型進(jìn)行輕量化壓縮,然后通過(guò)部署在Nvidia Jetson 等邊緣硬件上實(shí)現(xiàn)低功耗環(huán)境下的離線推理;還將嘗試通過(guò)生成對(duì)抗網(wǎng)絡(luò)來(lái)模擬極端天氣等復(fù)雜場(chǎng)景下的艦船遙感影像,并使用帶有角度的目標(biāo)框?qū)θ繕颖具M(jìn)行重新標(biāo)注,通過(guò)追加訓(xùn)練,進(jìn)一步提高模型的泛化能力和目標(biāo)定位的準(zhǔn)確性。