姜德文,和曉軍
(沈陽理工大學 自動化與電氣工程學院,沈陽110159)
基于卷積神經網絡(Convolutional Neural Network,CNN)的目標檢測模型在自然場景數據集PASCAL VOC[1]、MS COCO[2]、ImageNet[3]等上已經取得了非??捎^的檢測效果。隨著科技的發(fā)展,獲得的遙感圖像與自然背景圖像在色彩上差異不大,分辨率差異也在不斷縮小,這使得常用的目標識別算法應用到遙感圖像檢測成為可能[4]。但遙感圖像在高空拍攝,高度不固定,圖像存在視野大、背景復雜、目標尺度多樣、目標方向任意的問題[5],直接將自然圖像識別算法應用在遙感影像檢測,達不到相同的檢測精度。因此,在應用過程中需要對算法模型做針對性的改進以提高識別效果。
檢測模型從結構上可分為兩種:一種是基于區(qū)域建議的方法,包括Faster R-CNN[6]、R-FCN[7]、Mask R-CNN[8]等,該種方法先提出可能含有目標的區(qū)域建議,再基于這些建議進行分類和坐標回歸;另一種是基于回歸的方法,包括YOLO[9]、SSD[10]、RetinaNet[11]等,該種方法通過目標檢測器對目標進行實例預測,把檢測過程簡化為一個回歸問題。相比較而言,基于區(qū)域建議方法檢測過程中對目標進行了兩次篩選,在檢測速度上不如基于回歸的方法,但對于復雜的檢測環(huán)境適應性好,檢測準確率較高[12]。
殷文斌[13]在Faster R-CNN的基礎上,融合級聯算法,提高了對于飛機目標的檢測準確率。Xu Y L等[14]將卷積網絡提取的深層特征與淺層特征相融合,減少了識別過程中的小目標丟失。戴媛等[15]在Faster R-CNN基礎上,加入旋轉區(qū)域推薦,應對目標的任意方向問題。Yang X等[16]在Faster R-CNN的基礎上加入多維注意力網絡抑制背景噪聲,并在損失函數中添加交并比因子,從而解決邊界框回歸問題。
從目前的檢測效果看,目標的尺度多變是影響檢測結果的一個重要因素,由于遙感圖像中目標的大小不一且小目標較多,在檢測過程中很容易漏檢。本文基于常用的區(qū)域建議模型Faster R-CNN進行改進,通過對特征的深度提取和多尺度的融合,減少檢測過程中小目標的丟失問題,同時更換特征提取網絡,整體提高模型性能。
Faster R-CNN共由四部分組成,包括特征提取層(Conv)、區(qū)域建議層(Region Proposal Network,RPN)、感興趣區(qū)域池化層、分類層和區(qū)域回歸層。具體流程是:先通過特征提取層由輸入的圖片得到特征圖,并傳入RPN層,該層在特征圖上以每個像素點為中心,放置n個不同尺度的錨點框,通過分類預測和尺度回歸預測獲得每個框含有目標或背景的概率以及尺度的調整信息。接著利用建議算法在錨點框中挑選出可信度最高的2000個感興趣區(qū)域(Region of Interest,ROI),完成第一階段的區(qū)域建議輸出。第二階段使用感興趣區(qū)域池化層對得到區(qū)域的尺度進行統一,將ROI平均劃分為同樣數量的子區(qū)域,對每個子區(qū)域實施池化操作,這樣就使得每個子區(qū)域都映射為一個像素值。由于不同尺寸的ROI都劃分了同樣數量的子區(qū)域,最終使得所有ROI都變?yōu)橥瑯哟笮?,從而得到固定尺度的區(qū)域建議。最后,通過歸一化指數函數層對區(qū)域中的目標進行具體分類,并再次使用坐標回歸方法,對坐標框進行微調,得到輸出結果。Faster R-CNN目標檢測流程如圖1所示。
圖1 aster R-CNN目標檢測流程圖
在遙感圖像中,單張圖像均包含大量的背景信息,在很大程度上影響檢測結果。如收費站、服務區(qū)等建筑在俯視圖下與普通房屋相近。因此,需要提取更多的特征信息以更加準確地分辨目標。
在特征提取網絡中,深層網絡比淺層網絡能夠提取到更多復雜特征。Faster R-CNN原模型中使用特征提取網絡VGG16,卷積層較少,難以充分獲取圖像中的目標特征。本文采用更深的特征提取網絡ResNext[17]替換VGG16以提高模型的特征提取能力。
ResNext是以殘差網絡ResNet為基礎的改進網絡,在結構上增加并行卷積層加深網絡,并行的拓撲結構都是相同的,不需要進行人為設計,并且殘差結構能夠有效解決網絡加深后出現的退化問題。常用的ResNext層數有50、101、152,從性能上看,隨著深度的不斷增加,特征提取能力不斷增強,考慮到訓練和驗證的時間成本,使用ResNext50(32c×4d)進行對比實驗。特征提取網絡的卷積層結構(卷積核尺寸,輸出通道數)如表1所示。
表1 VGG16與ResNext50特征提取網絡結構對比
表1中c為并行卷積塊的個數,d是每個卷積塊內部特征圖傳遞的深度。為保證提取到的特征圖尺度能夠與Faster R-CNN檢測模型相匹配,將conv1中的卷積核調整為3×3,由于需要完成檢測任務,去掉了全連接層。網絡主干由49個卷積層組成,每個卷積層之間包含激活函數和卷積核為2步長為2的卷積層的池化層。以800×800的輸入圖像為例,每層的特征圖輸出長寬分別為[800,400,200,100,50]。
在遙感圖像中,目標的尺度變化很大,在像素面積上可能相差上千倍,模型需要完成對不同尺度目標變化的分類和定位。通過對卷積網絡不同層提取到的特征進行分析可知,淺層的特征圖卷積和池化次數少,圖像的分辨率較高,目標的位置和細節(jié)信息更多。深層的特征圖經過了多次卷積與池化,目標的邊界信息模糊,像素減少,但包含更多的語義信息。因此,按Faster R-CNN方法通過卷積的最后一層獲得圖像特征圖進行識別會忽略掉許多小尺度目標信息,從而降低小尺度目標識別準確率。
特征金字塔(Feature Pyramid Network,FPN)[18]方法利用卷積神經網絡在正向傳播過程中的尺度變化構建特征金字塔,通過自頂向下的融合方式得到不同尺度的特征圖,再送入后續(xù)的檢測層中分別進行檢測。這種方法能夠顯著提高具有多尺度目標圖像的檢測精度,減少小目標丟失。然而,檢測的目標都是在融合后的某一尺度的特征圖上得到,并沒有綜合考慮該目標在其他尺度特征圖上的信息,由此本文在FPN結構的基礎上做如下調整:在模型中將每個尺度選出的目標框進行匯總,對于每個目標框,將其在不同尺度上對應位置的特征進行融合,融合后的目標框再一次使用二分類預測,然后使用感興趣區(qū)域挑選層選出最終的區(qū)域建議。
具體過程是:首先,通過RPN層對不同尺度的特征圖P2、P3、P4、P5分別進行預測,得到每個尺度下的建議區(qū)域。然后,獲取每個建議區(qū)域在不同尺度上對應位置的特征。以P5層中8×8的區(qū)域建議為例,其在每層的對應區(qū)域的尺度分別為[8×8,16×16,32×32,64×64]。在特征融合時需要保證特征圖在各維度上尺度統一,因此,先使用1×1的卷積核將特征通道數統一為512,然后,以P4特征圖尺度為標準,將P5的特征使用雙線性插值法進行上采樣,P3、P2的特征使用平均值池化進行下采樣。最后將融合各尺度特征的區(qū)域建議通過分類層進行重新分類,基于新的分類得分進行篩選,得到最終的區(qū)域建議。整體的改進模型結構如圖2所示。
具體實驗環(huán)境如表2所示。
表2 實驗環(huán)境
圖2 改進模型結構
遙感圖像目標檢測數據集[19]中包含800×800尺寸的23463張遙感圖像,共有192465個水平框標注的目標,包括飛機、機場、車輛、船、橋、籃球場等共20種類別,圖像對地分辨率為0.5~30m。數據集中圖片在多種不同的天氣、季節(jié)、成像條件和圖像質量下采集,能夠綜合評估檢測模型對于圖像變化的魯棒性。
實驗使用的數據集各類別分布情況如圖3所示,其中訓練集共5862張圖片,包含32591個實例目標;驗證集共5863張圖片,包含35434個實例目標;測試集共11738張圖片,包含124440個實例目標。實驗中使用訓練集和驗證集對模型進行訓練,使用測試集測試模型性能。
圖3 數據集類別數目統計圖
本文中以最常用的平均準確率(Mean Average Precision,mAP)值作為評估指標。mAP為各類別檢測結果準確率(Average Precision,AP)的平均值,準確率由精確率和召回率計算得到。
精確率Precision和召回率Recall分別為
(1)
(2)
式中:TP為檢測結果判定為正樣本的正樣本數;FP為判定為負樣本的正樣本數;FN為判定為負樣本的負樣本數。
AP值為
(3)
式中P(r)為Precision-Recall曲線函數。
訓練中使用翻轉和旋轉操作進行樣本增強,錨點框的尺度為[8,16,32],長寬比為[0.3,0.5,1,2]。動量優(yōu)化器的學習率和動量值分別為0.001和0.9。
將改進后的各模型在相同的環(huán)境下進行實驗,為保證實驗數據的準確性,實驗結果取5次結果的平均值,檢測結果如表3所示。
表中A模型為Faster R-CNN原模型,B為在Faster R-CNN基礎上將特征提取網絡替換為ResNet50并加入FPN,C為在B的基礎上加入了改進的FPN。D為本文的整體改進模型,在Faster R-CNN的基礎上加入了改進的FPN,并使用ResNext50作為特征提取網絡。
總體上看,改進方法有效提升了模型性能。
表3 各模型檢測結果
從各類別的檢測效果看,改進的FPN能夠有效提高小目標的檢測準確率,如飛機、船、車等,由C模型的結果可以看出,改進后的FPN在多個類別的檢測準確率上比原方法有小幅提升。D模型加入ResNext后,由于特征提取能力的提升,在港口、收費站、網球場等多個類別檢測準確率都有所提高,與A模型相比,mAP值提高了10.9%,與B模型相比,提高了1.6%。
圖4為A模型與D模型對測試集中兩張遙感圖片的識別結果對比。
圖4 模型檢測結果對比
從圖4可見,改進后的模型識別效果明顯提升,小目標的識別率更高。
根據目前遙感圖像目標檢測存在的問題,在aster R-CNN目標檢測模型基礎上,使用ResNext50替換原有特征提取網絡,加入FPN算法并進行了改進。通過實驗結果可以看出,修改后的模型對于小目標的檢測效果有明顯提升。
由于FPN的介入,使網絡模型需要關注更多尺度的目標信息,在大尺度目標較多的體育場、服務區(qū)類別上,修改后的D模型不如原模型,今后可在此基礎上做針對性的改進,進一步提高遙感圖像數據集識別準確率。