劉媛
( 北京建筑大學(xué) 測(cè)繪與城市空間信息學(xué)院,北京100044)
遙感數(shù)據(jù)日益多元化,數(shù)據(jù)獲取的速度加快,更新周期縮短,時(shí)效性越來(lái)越強(qiáng)[1],極大的促進(jìn)了遙感影像相關(guān)的應(yīng)用研究。傳統(tǒng)的遙感影像目標(biāo)識(shí)別主要是基于人工提取特征的方法,但遙感圖像中豐富多樣的細(xì)節(jié)信息使得人工描述的單一特征不足以全面表達(dá)目標(biāo)地物,且多依賴于專家經(jīng)驗(yàn)。此外,建立在概率統(tǒng)計(jì)基礎(chǔ)上的機(jī)器學(xué)習(xí)通常需要復(fù)雜的特征描述,并且基于其淺層的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)到的特征表達(dá)在處理復(fù)雜的目標(biāo)檢測(cè)問(wèn)題時(shí)表現(xiàn)性能及泛化能力有明顯不足。
2000 年以后隨著計(jì)算資源大規(guī)模提高,基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法蓬勃發(fā)展。深度神經(jīng)網(wǎng)絡(luò)能夠通過(guò)大量的訓(xùn)練數(shù)據(jù)及具有隱藏層的深度學(xué)習(xí)模型學(xué)習(xí)高維特征,提高了目標(biāo)檢測(cè)的分類精度。深度學(xué)習(xí)的深層結(jié)構(gòu)及特征學(xué)習(xí)能力在圖像處理領(lǐng)域取得了巨大的成功,大量學(xué)者也將其運(yùn)用到遙感目標(biāo)檢測(cè)與識(shí)別領(lǐng)域。本文對(duì)當(dāng)前深度學(xué)習(xí)應(yīng)用于遙感圖像處理的方法進(jìn)行對(duì)比分析,有助于追趕深度學(xué)習(xí)的發(fā)展步伐,幫助研究人員更好的了解這一研究領(lǐng)域。
遙感圖像目標(biāo)檢測(cè)方法包括基于區(qū)域提議方法和基于回歸的方法,基于區(qū)域提議的方法先生成一系列目標(biāo)候選框,然后再利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行分類與邊框回歸,具有高精度的優(yōu)點(diǎn)。本文主要對(duì)基于區(qū)域提議的目標(biāo)檢測(cè)進(jìn)行分析與對(duì)比。
1.1 R-CNN。2014 年,Girshick[2]使用“區(qū)域提議+卷積神經(jīng)網(wǎng)絡(luò)”的方法代替?zhèn)鹘y(tǒng)目標(biāo)檢測(cè)使用的“滑動(dòng)窗口+手工設(shè)計(jì)特征”方法,設(shè)計(jì)了R-CNN框架,使得目標(biāo)檢測(cè)技術(shù)取得了巨大突破。R-CNN利用選擇性搜索算法在輸入圖像中提取約2000 個(gè)候選區(qū)域;然后將每個(gè)候選區(qū)域縮放為固定大小后送入模型中提取特征向量;最后把特征向量輸入一組多類別支持向量機(jī)對(duì)每個(gè)候選區(qū)域進(jìn)行分類與候選框精修。R-CNN的處理過(guò)程如圖1 所示。雖然R-CNN方法相較于傳統(tǒng)方法進(jìn)步巨大,但其重復(fù)計(jì)算提取特征造成了效率低下。
圖1 R-CNN 檢測(cè)流程
1.2 Fast R-CNN。為了提高目標(biāo)檢測(cè)的效率及精度,SPP-net[3]去掉了R-CNN 縮放候選區(qū)域以統(tǒng)一圖片尺寸的處理方式,在CNN結(jié)構(gòu)中加入了空間金字塔池化層使得任意尺寸的圖像輸入網(wǎng)絡(luò)可以輸出固定維數(shù)的特征向量。Fast R-CNN[4]采納了類似方法,增加了類似空間金字塔池化層的RoI 池化層,對(duì)輸入全連接層的特征向量尺寸進(jìn)行歸一化處理。另外,SPP-net 與Fast R-CNN 對(duì)輸入圖像只進(jìn)行一次卷積特征提取也大大縮短了計(jì)算時(shí)間。Fast R-CNN的處理過(guò)程如圖2 所示。雖然這一改進(jìn)提高了速度,但是仍然沿用選擇性搜索算法獲得目標(biāo)候選框的方式也嚴(yán)重制約其效率。
圖2 Fast R-CNN 檢測(cè)流程
1.3 Faster R-CNN。2017 年,Ren 等人在Fast R-CNN的基礎(chǔ)上提出了Faster R-CNN[5],采用區(qū)域提議網(wǎng)絡(luò)取代選擇性搜索算法生成目標(biāo)候選框,并與Fast R-CNN結(jié)合形成了一個(gè)端到端的卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)模型。其中區(qū)域提議網(wǎng)絡(luò)僅需通過(guò)一次卷積操作提取目標(biāo)候選框及特征圖,并且進(jìn)行了兩次候選框精修與分類,在效率與精度方面都得到了很大的提升。Faster R-CNN的處理過(guò)程如圖3 所示。
圖3 Faster R-CNN 檢測(cè)流程
1.4 Mask R-CNN。Mask R-CNN[6]算法是在Faster R-CNN的基礎(chǔ)上添加了一個(gè)額外的掩碼分支與現(xiàn)有分支并行來(lái)預(yù)測(cè)用于包圍框檢測(cè)的目標(biāo)掩碼。Mask R-CNN采用“ResNet+FPN”的主干網(wǎng)絡(luò)結(jié)構(gòu),將低層次特征與高層次特征結(jié)合,適用于多尺度目標(biāo)的檢測(cè)。此外還將RoI 池化層替換為RoIAlign 層,在下采樣時(shí)對(duì)齊特征以減少多量化引起的誤差對(duì)回歸定位產(chǎn)生的影響。Mask R-CNN的處理過(guò)程如圖4 所示。
圖4 Mask R-CNN 檢測(cè)流程
遙感圖像目標(biāo)檢測(cè)方法常用的評(píng)價(jià)指標(biāo)包括精確率(Precision)、召回率(Recall)、平均精度(AP)、F1-score 等。
上式中,TP(真正,True Positive)表示被模型預(yù)測(cè)為正的正樣本數(shù)量;FP(假正,F(xiàn)alse Positive)表示被模型預(yù)測(cè)為正的負(fù)樣本數(shù)量。
上式中,F(xiàn)N(假負(fù),F(xiàn)alse Negative)表示被模型預(yù)測(cè)為負(fù)的正樣本數(shù)量。上式中,P 指精確率Precision;R 指召回率Recall。
上式中,P 指精確率Precision;R 指召回率Recall。
數(shù)據(jù)集對(duì)于深度學(xué)習(xí)目標(biāo)檢測(cè)方法非常重要,具有較強(qiáng)適應(yīng)性的數(shù)據(jù)集能夠促進(jìn)遙感圖像目標(biāo)檢測(cè)技術(shù)的發(fā)展。在過(guò)去的幾十年中,多個(gè)研究小組發(fā)布了公開的遙感圖像數(shù)據(jù)集。表1 中介紹了流行的遙感圖像數(shù)據(jù)集相關(guān)信息。
表1 常用遙感圖像數(shù)據(jù)集
隨著遙感圖像目標(biāo)檢測(cè)需求的不斷增長(zhǎng)以及計(jì)算機(jī)技術(shù)的發(fā)展,極大地促進(jìn)了深度學(xué)習(xí)在遙感圖像目標(biāo)檢測(cè)領(lǐng)域的應(yīng)用研究。目標(biāo)檢測(cè)算法日新月異,遙感圖像目標(biāo)檢測(cè)與識(shí)別任務(wù)仍面臨著諸多挑戰(zhàn)。
(1)遙感圖像目標(biāo)具有尺度差異性,目前大多采用融合多層特征的方式來(lái)獲取多尺度特征以優(yōu)化小目標(biāo)及密集目標(biāo)的識(shí)別效果,但目前仍舊缺乏適合遙感多尺度目標(biāo)檢測(cè)的性能更優(yōu)異的方法。
(2)由于大量的遙感標(biāo)注數(shù)據(jù)耗費(fèi)巨大獲取不易,缺乏有效的訓(xùn)練集也是制約目標(biāo)檢測(cè)精度提升的瓶頸,因此采用弱監(jiān)督、無(wú)監(jiān)督的方法,或利用遷移學(xué)習(xí)解決數(shù)據(jù)不足的問(wèn)題也是今后發(fā)展的趨勢(shì)。
(3)遙感數(shù)據(jù)是多模態(tài)的,特定數(shù)據(jù)集針對(duì)特定任務(wù)的難以遷移問(wèn)題也是面臨的挑戰(zhàn)之一,因此利用多源異構(gòu)數(shù)據(jù)和信息的融合,協(xié)同互補(bǔ)地利用這些數(shù)據(jù)源構(gòu)建易遷移的通用模型十分重要。
(4)雖然理論上多層網(wǎng)絡(luò)確實(shí)可能學(xué)習(xí)出最優(yōu)的函數(shù)模型,但它無(wú)法解釋該模型如何構(gòu)建以及模型背后的含義[13]。加強(qiáng)網(wǎng)絡(luò)的理論研究并掌握最佳網(wǎng)絡(luò)深度與檢測(cè)性能、硬件、效率之間的平衡也是今后重要的研究課題之一。