張路青 郭 瑩
(1.海軍駐武漢地區(qū)第七軍事代表室 武漢 430223)(2.武漢數(shù)字工程研究所 武漢 430205)
隨著遙感技術(shù)的迅速發(fā)展,各種不同成像方式、不同空間分辨率的遙感平臺得以涌現(xiàn),產(chǎn)生了大量遙感圖像。高分辨率遙感圖像作為信息的有效載體,它不僅具備全天時、全天候、實時傳輸?shù)哪芰?,同時擴寬了人的視野范圍,提高了目標(biāo)觀察精度。艦船作為海上商業(yè)貿(mào)易的重要運輸工具以及戰(zhàn)時易遭受攻擊的重點軍事目標(biāo),為確保海上監(jiān)測、救援等非軍事活動和軍事任務(wù)的順利展開,使用航天遙感衛(wèi)星對海上艦船動向進行監(jiān)視,并尋求技術(shù)手段對遙感衛(wèi)星獲取的圖像數(shù)據(jù)進行艦船目標(biāo)的檢測與識別,關(guān)乎國家安全和社會經(jīng)濟發(fā)展[1]。開展基于遙感圖像的艦船目標(biāo)檢測和識別無論在民用還是軍事領(lǐng)域都有著廣闊的應(yīng)用前景。在民用方面,可以監(jiān)控特定港口或海域的海運交通,輔助遇難船只救援,配合安全管理部門監(jiān)測和打擊非法捕魚、非法傾倒油污、走私和海盜等違法行為;在軍事領(lǐng)域,可以監(jiān)視敵方重點港口和海域的艦船部署與動態(tài),分析敵方的海上作戰(zhàn)實力,評估戰(zhàn)時海上打擊效果,形成海上作戰(zhàn)情報等[2]。
近年來,隨著GPU 計算性能的大幅度提升和各大數(shù)據(jù)集的公開,基于深度學(xué)習(xí)的目標(biāo)檢測與識別算法已經(jīng)逐步取代了傳統(tǒng)算法,成為當(dāng)前主流的目標(biāo)檢測與識別算法。目前發(fā)展較為成熟的深度學(xué)習(xí)目標(biāo)檢測與識別算法分為兩類,分別為以R-CNN[3]、Fast R-CNN[4]、Faster R-CNN[5]為基礎(chǔ)的兩段式和以YOLO[6~8]、SSD[9]為代表的一段式目標(biāo)檢測與識別算法,其他算法大多以上述算法作為基礎(chǔ)進行優(yōu)化和改進。其中兩段式的檢測算法與傳統(tǒng)的目標(biāo)檢測與識別算法類似,將目標(biāo)檢測與識別作為分類問題來處理。首先根據(jù)一系列特征從輸入圖像提取出過量的候選區(qū)域,然后計算每個候選區(qū)域的特征,最后對各個候選區(qū)域進行分類。而一段式的目標(biāo)檢測與識別算法則直接將目標(biāo)的定位轉(zhuǎn)化為回歸問題處理。由于兩類算法在設(shè)計上的不同,其性能和精度產(chǎn)生了差異,一段式的算法在計算速度上有著絕對的優(yōu)勢,而兩段式的算法則具有較高的定位精度和識別率。
從上述可以看出,一段式目標(biāo)檢測與識別算法在處理速率上是優(yōu)于兩段式目標(biāo)檢測與識別算法,但在目標(biāo)檢測與識別精度是不及兩段式目標(biāo)檢測與識別算法的。而在軍事行動中,艦船目標(biāo)的檢測與識別精度是核心問題,只有保證了識別信息的準(zhǔn)確性,才能更好地掌握海情態(tài)勢,輔助指揮員決策。本文以Faster R-CNN 模型為基礎(chǔ),提出一種基于改進卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像艦船目標(biāo)檢測與識別方法。
海面艦船目標(biāo)在可見光圖像成像中主要表現(xiàn)為大尺度跨度和多方向分布的特征,本文以Faster R-CNN 網(wǎng)絡(luò)模型為基礎(chǔ),結(jié)合海面艦船目標(biāo)的成像特征,構(gòu)建了一種適用于艦船目標(biāo)檢測與識別的卷積神經(jīng)網(wǎng)絡(luò)模型,如圖1 所示,該模型由深度卷積特征提取網(wǎng)絡(luò)、多層次候選區(qū)提取網(wǎng)絡(luò)、多層級特征融合網(wǎng)絡(luò)、候選區(qū)特征生成網(wǎng)絡(luò)、目標(biāo)精確定位網(wǎng)絡(luò)和目標(biāo)分類識別網(wǎng)絡(luò)六個模塊組成。
圖1 艦船目標(biāo)檢測與識別網(wǎng)絡(luò)框圖
本文構(gòu)建的深度卷積神經(jīng)網(wǎng)絡(luò)通過大規(guī)模的數(shù)據(jù)擬合復(fù)雜模型,學(xué)習(xí)出艦船目標(biāo)的深層語義特征,更具體的表征待檢測物體。該網(wǎng)絡(luò)模塊由5 個處理單元構(gòu)成,如圖2 所示。處理單元分為兩類,前兩個基本處理單元分為一類,分別對輸入圖像進行兩次卷積和ReLU 操作之后連接了極大值池化層;后三個基本處理單元分為一類,分別對輸入圖像進行經(jīng)過三次卷積和ReLU操作之后連接了極大值池化層。
圖2 深度卷積特征提取網(wǎng)絡(luò)
其中,所有的卷積層都使用尺寸為3×3 的卷積核;所有的極大值池化層都使用2×2 池化核來對卷積特征進行縮放。
當(dāng)前目標(biāo)識別模型在多尺度問題的處理上較為薄弱,對小尺度目標(biāo)和大尺度目標(biāo)的檢測率低。深度卷積網(wǎng)絡(luò)多尺度候選區(qū)域生成技術(shù)從獲選區(qū)域產(chǎn)生步驟入手,使用多尺度候選區(qū)域生成網(wǎng)絡(luò)在不同縮放級別的卷積特征圖上生成尺度多樣化的初始窗口。
為了適應(yīng)圖像中艦船目標(biāo)任意方向的特點,用以生成不同角度,不同尺度,不同比例的候選區(qū)域。本文結(jié)合Ma等提出的傾斜候選區(qū)域生成網(wǎng)絡(luò)(Rotation Region Proposal Networks)[11]的思想,建立了適于艦船目標(biāo)檢測與識別的多層次候選區(qū)域提取網(wǎng)絡(luò),如圖3所示。
圖3 多層次候選區(qū)域提取網(wǎng)絡(luò)
多層次候選區(qū)域提取網(wǎng)絡(luò)中分別在4 個不同層級的卷積特征圖上進行了候選框檢測,這些特征圖在進行候選區(qū)域生成前分別進行了3 次、4 次、5次和6 次2×2 的最大值池化操作,大小分別為原輸入圖像的1/8、1/16、1/32、1/64。在多個不同大小的卷積特征圖上進行相同窗口大小的滑窗,將獲得與原圖中不同尺度物體相對應(yīng)的候選框,有效地改善圖像中過大或過小尺度目標(biāo)的漏檢問題。
針對遙感圖像艦船目標(biāo)水面姿態(tài)及種類的多樣性,在多層次候選區(qū)域提取網(wǎng)絡(luò)中,本文使用了10×2、2×10、4×4、8×2、2×8 五個不同大小的窗口在卷積特征圖上生成初始候選框,通過對五個大小的卷積核的訓(xùn)練,連接Loss_Conv1、Conv5_3、Conv6_1、Pool6 四個卷積特征的卷積層將根據(jù)每個窗口的卷積特征回歸出候選框的4 個主要參數(shù),在添加方向控制參數(shù)以控制候選框的方向。在訓(xùn)練階段,回歸出的候選框參數(shù)將與人工標(biāo)注給出的目標(biāo)框進行比較,得出每個候選框的誤差,將誤差反向傳播給前面的每一層,對每一層的參數(shù)進行調(diào)整優(yōu)化。
特征的表達能力是決定分類器性能的關(guān)鍵因素之一,更強的表達能力能夠更具體地描述待檢測目標(biāo)的特性,減少分類器的搜索空間,從而達到提高分類器分類精度的效果。深度卷積網(wǎng)絡(luò)多層級特征融合技術(shù)通過對不同深度的卷積特征進行特征外推和融合,將深度卷積網(wǎng)絡(luò)學(xué)習(xí)到的低級、高級特征進行組合,通過學(xué)習(xí)的手段獲得更適合艦船目標(biāo)表達的融合特征。
圖像卷積特征分為淺層特征和深層特征,淺層卷積特征主要表示目標(biāo)的表面紋理、形狀輪廓特征;而深層卷積特征則表示了目標(biāo)的語義特征。在RRoI Pooling[10]之間,將不同深度的多層卷積特征進行融合,然后在融合特征上進行候選區(qū)域特征抽取,得到的候選區(qū)域特征將具有更強的表達能力。
本文構(gòu)建的多層級特征融合網(wǎng)絡(luò)如圖4 所示,多層級特征融合網(wǎng)絡(luò)主要對分類、回歸、反卷積層等全連接層的參數(shù)值進行調(diào)整,并在一定程度上微調(diào)特征提取網(wǎng)絡(luò)的卷積核權(quán)值,優(yōu)化特征提取和候選區(qū)域生成效果。
圖4 多層級特征融合網(wǎng)絡(luò)
loss=αClsLoss+βCoordLoss
其中,類別損失是用softmax 分類層計算得出,邊界誤差則是通過下式計算的出:
式中(dx,dy,dw,dh)為人工標(biāo)注艦船目標(biāo)邊界框的相關(guān)參數(shù)。
候選區(qū)域特征生成網(wǎng)絡(luò)將多層次候選區(qū)域提取網(wǎng)絡(luò)和多層級特征融合網(wǎng)絡(luò)的輸出作為輸入,生成每個候選區(qū)域?qū)?yīng)的卷積特征,并將特征矢量化,為定位和識別網(wǎng)絡(luò)提供標(biāo)準(zhǔn)化輸入。
為了方便整個模型實現(xiàn)端到端的運算,在本模型中使用了全連接層來完成邊界框回歸與候選區(qū)域分類任務(wù)。全連接層以全連接的方式連接相鄰的兩層神經(jīng)元,認(rèn)為下一層的輸入與上一層所有的輸入都相關(guān)。全連接層的每個輸出結(jié)點的輸出值是所有輸入結(jié)點輸入值的加權(quán)和,其計算公式如下所示:
其中,N為輸入結(jié)點的個數(shù),xi為第i個輸入結(jié)點的輸入值,ωij為連接第j個輸出結(jié)點對第i個輸入結(jié)點的網(wǎng)絡(luò)的權(quán)值。
在訓(xùn)練階段,其網(wǎng)絡(luò)結(jié)構(gòu)圖5 所示。在訓(xùn)練過程中,使用多任務(wù)聯(lián)合損失函數(shù)訓(xùn)練整個網(wǎng)絡(luò)模型,通過聯(lián)合誤差的反向傳播來調(diào)整網(wǎng)絡(luò)內(nèi)損失層、全連接層以及卷積層的參數(shù)。
圖5 精確定位與分類識別網(wǎng)絡(luò)結(jié)構(gòu)圖
由于艦船所處位置包含靠岸、近岸、離岸,其分布包含單只、并列及復(fù)雜隊形,這些情況使得艦船目標(biāo)本身可能存在被遮擋問題。當(dāng)艦船目標(biāo)部分區(qū)域被遮擋時,其識別特征與未被遮擋的艦船目標(biāo)的識別特征具有一定的差異性。通過對艦船目標(biāo)的實際航行與錨泊狀態(tài)分析得出,根據(jù)艦船目標(biāo)被遮擋的部分進行分類,可以分為艦艏被遮擋的船只、艦艉被遮擋的船只、左舷被遮擋的船只及右舷被遮擋的船只。為了提高這四類部分遮擋船只的檢測率,本文將候選框分為了四個部分,如圖6 所示。
圖6 艦船目標(biāo)子區(qū)域劃分
根據(jù)上述的子區(qū)域劃分,對于任意一個候選框box,本文所使用的多子區(qū)域聯(lián)合損失函數(shù)定義如下:
loss=lbox+λ(lh,le,ll,lr)
其中,lbox為整個候選框的損失,lh為艦艏損失,le為艦艉損失,ll為左舷損失,lr為右舷損失,λ為加權(quán)系數(shù)。
實驗數(shù)據(jù)部分來自于公開數(shù)據(jù)部分來自于商業(yè)衛(wèi)星圖像及Google Earth。
在進行實驗時由很多評估參數(shù),IoU(intersection over union)用以衡量兩個區(qū)域覆蓋程度,即:
在目標(biāo)檢測中,通常有一個閾值來判斷預(yù)測是否正確。當(dāng)邊界框的預(yù)測分?jǐn)?shù)大于閾值α?xí)r則為正樣本,反之為負樣本。當(dāng)IoU 比閾值大時,檢測框為TP,如果小于閾值時為FP。FN 指的是模型預(yù)測框中沒有目標(biāo),但實際上包含目標(biāo)。混淆矩陣如表1所示。
表1 混淆矩陣
采用TPR、FNR、Precision多方位評估指標(biāo)對本文測試結(jié)果進行評估,計算公式如下。
其中,TPR 為真正率、FNR 為假負率、Precision 為精準(zhǔn)率。
實驗設(shè)置如表2所示。
表2 實驗環(huán)境配置和參數(shù)設(shè)置
針對實驗數(shù)據(jù),在已有的測試集中隨機抽取800 張圖片作為測試圖片,根據(jù)得到的測試結(jié)果,測試該800張圖片共耗時156800ms,平均的檢測時間為196ms,采用TPR、FNR、Precision 評估結(jié)果如表3所示。
表3 艦船目標(biāo)檢測與識別結(jié)果分析
為了對模型進行充分測試,本文針對不同的海面場景進行檢測識別測試,圖7 給出了三種不同的海面場景下艦船目標(biāo)檢測識別結(jié)果。
圖7 不同海面情況下艦船目標(biāo)檢測結(jié)果
圖7(a)為一艘靠岸民船,檢測結(jié)果與實際結(jié)果一致,識別為民船的置信度為0.8694。圖7(b)中為多艘艦艇泊岸檢測,檢測結(jié)果如表4所示。
表4 圖7(b)艦船目標(biāo)識別結(jié)果
結(jié)合表4 和圖7(b),從檢測結(jié)果可以看出,圖像中所有艦船目標(biāo)均正確檢測出來,但是將目標(biāo)4錯誤地識別為驅(qū)逐艦。圖7(c)為兩艘船泊岸檢測,從檢測結(jié)果看,雖然圖片中的艦船目標(biāo)部分缺失,但仍然能準(zhǔn)確定位并識別出目標(biāo),識別結(jié)果與實際目標(biāo)類型一致。
針對遙感圖像中目標(biāo)方向、目標(biāo)大小、拍攝角度及場景的多樣性導(dǎo)致遙感圖像艦船目標(biāo)檢測與識別精度不高的問題,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的艦船目標(biāo)檢測與識別方法,該方法提高了卷積神經(jīng)網(wǎng)絡(luò)對旋轉(zhuǎn)變換的魯棒性,通過多層次候選區(qū)域提取技術(shù)減少了目標(biāo)的漏檢情況,采用多層級特征融合提取表達能力更強的融合特征,使得在艦船目標(biāo)的檢測與識別中展現(xiàn)出較好的效果。從實驗示例可以看出,雖然在不同情況下本文方法均能正確的檢測出圖像中的艦船目標(biāo),但是在目標(biāo)識別時還是存在錯誤的分類。下階段的工作需要繼續(xù)對艦船目標(biāo)的識別能力進行優(yōu)化,使得模型的整體性能進一步提升。