秦登達,萬里,何佩恩,張軼,郭亞,陳杰
中南大學 地球科學與信息物理學院,長沙 410083
光學遙感影像目標檢測是確定給定的航空或衛(wèi)星影像是否包含一個或多個屬于興趣類別的對象,并定位圖像中每個預測對象的位置。遙感影像目標檢測作為衛(wèi)星遙感影像理解領域中最基礎的任務之一,在軍事領域、城市規(guī)劃(Zhong 和Wang,2007)和環(huán)境監(jiān)測(Durieux 等,2008)等諸多領域發(fā)揮著重要的作用。因此,目標檢測與識別任務對于遙感影像解譯具有極其重要的研究意義(馮霞等,2014)。
雖然基于深度學習的目標檢測算法取得了矚目的結果,但還是存在一些問題亟待解決。樣本不均衡問題(Shrivastava等,2016;Lin等,2017a;Li 等,2019)是當前目標檢測研究的熱點問題之一,并且有很多相關的研究工作。在多任務遙感影像目標檢測中,復雜的影像背景對檢測任務造成了許多干擾(Chen 等,2020),并且還存在著各種尺度大小不一的檢測對象,不同地物目標的尺度都是不同的;此外,有些類別的尺度差別也很大,大的地物目標如田徑場其像元個數(shù)達幾萬個,而小的地物目標如車輛只占幾十個像元。而模型對于地物尺度的泛化性是有一定限度的,因而這種尺度的多樣性和類別差異性給遙感影像目標檢測任務帶來了極大的挑戰(zhàn)。
為了減輕由此帶來的負面影響,Pang 等(2019)提出了一個平衡學習目標檢測框架Libra R-CNN。它集成了3 個新的組成部分:IoU 均衡采樣、均衡特征金字塔和均衡L1 損失函數(shù),分別用于減少樣本、特征和目標層次上的不均衡。得益于整體平衡設計,Libra R-CNN 顯著提高了檢測性能。在線難例挖掘算法(OHEM)選擇損失最大的一些樣本作為訓練的樣本從而改善因為樣本數(shù)目不平衡而導致檢測效果差的問題(Shrivastava 等,2016)。Cao 等(2020)提出了一種稱為“主要樣本注意”(PISA)的抽樣和學習策略,它將訓練過程的重點指向重要樣本,在訓練檢測器時,聚焦于原始樣本通常比聚焦于“難例”更有效。圖像金字塔尺度歸一化(SNIP)訓練方案根據(jù)圖像尺度的變化有選擇地反向傳播不同大小目標實例的梯度(Singh 和Davis,2018),其核心思想是輸入多尺度圖像,只在該尺度圖像下合適尺寸的目標樣本尺寸進行訓練。
光學遙感影像存在著大量不同尺度和小樣本目標,以及各種復雜的背景(姚紅革等,2020)。多尺度特征融合可以有效提高小目標和不同目標的檢測效果(Li 等,2020)。當前基于卷積神經(jīng)網(wǎng)絡的目標檢測算法可以分為兩大類:其一,是把檢測分為區(qū)域建議和分類回歸兩階段算法,這類算法以RCNN 系列(Girshick 等,2014;Girshick,2015;Ren 等,2017;Lin 等,2017b;Cai 和Vasconcelos,2018)為代表;其二,是一次性直接完成目標框回歸和目標分類的單階段算法,這類似算法以SSD(Liu 等,2016)和YOLO(Redmon 等,2016;Redmon 和Farhadi,2017,2018)等算法為代表,相關算法在遙感上都有較多應用(江一帆等,2020;王冰 等,2021;楊耘 等,2021)。Girshick等(2014)在2014年結合卷積神經(jīng)網(wǎng)絡提出了RCNN 網(wǎng)絡,該網(wǎng)絡取代了傳統(tǒng)目標檢測方法。Faster RCNN(Ren 等,2017)拋棄了選擇性搜索算法生成候選框,而采用了RPN 網(wǎng)絡進行候選框篩選提升了檢測效率和檢測性能。SSD(Liu 等,2016)算法通過將VGG16(Simonyan 和Zisserman,2015)的多個不同尺寸特征圖共同進行目標框的回歸進行不同尺度的預測,最終在小目標的預測精度優(yōu)于同年的YOLO(Redmon 等,2016)。特征金字塔網(wǎng)絡(FPN)網(wǎng)絡提出了特征層融合結構(Lin 等,2017b),該結構能有效提取圖片的不同尺度特征信息。由于遙感影像本身存在著各種尺度的目標,多尺度融合結構在遙感目標檢測取得了優(yōu)秀的效果,同時該結構成為最為常用的多尺度特征提取網(wǎng)絡。RetinaNet(Lin 等,2017a)模型則采用FPN 作為特征提取網(wǎng)絡,提出Focal Loss來減輕正負樣本對精度的影響,PaNet(Liu 等,2018)則在FPN(Lin等,2017b)的基礎上新增了一個自底向上的融合結構。于野等人在FPN 的基礎上融入特征的顯著性圖提出A-FPN(于野等,2020)以提高淺層特征的特征表達。雖然以上多尺度方法在遙感影像上能夠顧及不同尺度的目標信息,但在每一個尺度特征層上都對各尺寸的目標進行識別,而不同尺度的特征層并不是對每一種尺度的目標信息都非常清晰。所以,采用FoveaBox(Kong 等,2020)在遙感影像上根據(jù)不同目標尺寸在不同的尺度特征圖上進行目標識別。
針對樣本類別不均衡的問題,提出了解決思路。首先,為了解決樣本數(shù)目不均衡的問題,本文提出一種基于圖像融合的數(shù)據(jù)增強策略,通過將兩張圖像融合為一張新的圖像實現(xiàn)數(shù)據(jù)增強。由于這是針對數(shù)據(jù)層面上的處理,可以應用于任何基于深度學習的目標檢測模型??紤]到光學遙感影像的特點,并且基于多尺度特征表達與選擇的目標檢測的策略(Kong 等,2020)更加適合遙感影像目標檢測,因此將該方法應用于光學遙感影像目標檢測中。其次,將影像融合與多尺度特征表達與選擇的目標檢測進行結合,能減輕復雜背景和類別不均衡的影響。通過在兩個開源數(shù)據(jù)集上驗證了該方法的有效性和普適性。
基于多尺度特征選擇與表達的模型結合圖像融合的方法對高分光學遙感影像進行目標檢測。結合數(shù)據(jù)融合與特征選擇的遙感影像尺度多樣目標檢測流程圖如圖1所示:首先,將用于訓練的數(shù)據(jù)集進行圖像融合增強,使得訓練數(shù)據(jù)中不同類別更加均衡;其次,在模型訓練時,訓練圖片先經(jīng)過特征金字塔(FPN)提取5 個不同尺度的特征,5 個層次的特征分別預測不同尺度范圍的地物目標;最后,進行類別預測與地物目標中心特征的邊界框的訓練和預測。
圖1 算法流程圖Fig.1 The flow chart of our method
高分遙感影像包含了豐富的地物目標和細節(jié)信息,同時影像豐富的信息對于感興趣地物帶來許多背景信息的干擾。地物目標提取的特征是否具有代表性是影響模型性能的一方面因素(Pang等,2019)。并且,地物目標自身的存在的差異性在影像上出現(xiàn)的概率都不盡相同,導致制作的數(shù)據(jù)集中不同類別的目標圖片數(shù)量存在差異。模型訓練過程中會由于訓練數(shù)據(jù)類別的不均衡而使得各類別圖片訓練的比重不同,這種各類別影像數(shù)量的失衡使得模型更注重于數(shù)量多的影像,而降低了對影像數(shù)量較少類別檢測的敏感性,最終性能偏向于影像數(shù)量多的類別。
針對上述問題,通過提出影像融合增強來削弱類別失衡和復雜背景的影響。影像融合增強通過將需要增強的訓練影像與不包含任何目標的背景影像按照系數(shù)θ進行兩者的融合。首先,對待增強影像與背景影像的比例進行統(tǒng)計,以最大長、寬作為融合影像的尺寸;其次,將目標影像像素矩陣乘以系數(shù)θ,將背景影像像素矩陣乘上系數(shù)1-θ;最后,以融合影像的長寬為基準,將得到的新的影像矩陣和新的背景矩陣賦值給融合影像,其中重合的部分則取兩者之和進行目標影像與背景影像的融合得到最終融合影像。影像融合的公式可以由如下表示:
式中,h、w代表待增強影像和背景影像的最大長寬;I是待增強的影像;Pk為背景影像;θ表示在[0,1]之間的系數(shù);V表示最終影像融合結果;⊕表示矩陣按對應坐標相加;×表示矩陣和數(shù)相乘。
通過上述方法進行的影像融合,在尺寸上會存在3種情況,即融合后的圖像尺寸大于待增強影像、等于待增強影像以及小于待增強影像。對于大于待增強影像尺寸的情況,根據(jù)式(1)可知待增強影像目標區(qū)域的絕對坐標是沒有改變的;對于大于待增強影像尺寸的情況,待增強影像目標區(qū)域的絕對坐標顯然是沒有改變的;同樣對于小于待增強影像尺寸的情況,待增強影像目標區(qū)域的絕對坐標也是沒有改變的。因此,融合后的圖像標簽依然可使用待增強圖像I的標簽。融合后的影像如圖2 所示。其中,圖2(a)是原始影像,圖2(b)、(c)、(d)分別為3 張不同的背景影像;影像圖2(e)、(f)、(g) 分別為利用3 張不同的背景圖像進行融合后的結果。其結果表明,圖2(e)、(f)、(g)在保留了原始地物目標情況下,場景也變得更加多樣和豐富,從而在對數(shù)據(jù)樣本進行擴充的同時,達到增強樣本場景的多樣性和模型訓練后的魯棒性。
圖2 影像融合前后示意圖Fig.2 Diagram before and after image fusion
針對不同的數(shù)據(jù)集,影像融合增強的目標類別是不同的,對于NWPUVHR-10 數(shù)據(jù)集(Cheng等,2014,2016),增強的類別有:船只、棒球場、網(wǎng)球場、籃球場、港口、油桶、橋梁和車輛,這些類別的目標數(shù)相對較少。而對于RSOD(Xiao等,2015;Long 等,2017)數(shù)據(jù)集,由于數(shù)據(jù)集類別只有4 類,所以4 個類別的訓練數(shù)據(jù)都有增強,兩個數(shù)據(jù)集根據(jù)8∶2劃分為訓練集和測試集,影像融合只對訓練數(shù)據(jù)集進行操作,后續(xù)實驗基于原始數(shù)據(jù)集抽取的測試集進行精度測試。兩個數(shù)據(jù)集圖像融合前后的數(shù)量對比如圖3 所示。其中,圖3(a)表示RSOD數(shù)據(jù)集影像融合前后數(shù)據(jù)分布;圖3(b)為NWPUVHR-10數(shù)據(jù)集增強前后各類別數(shù)量分布;通過影像融合后的兩個數(shù)據(jù)集各類別圖片數(shù)量相比于原始訓練集更加均衡,更利于各類別圖片的訓練。
圖3 影像融合前后訓練集各類圖片數(shù)量分布Fig.3 Image quantity distribution of training set before and after image fusion
尺度多樣性一直是遙感影像目標檢測亟待解決的問題。當前針對多尺度遙感影像目標檢測常用的策略有兩個方面:首先,F(xiàn)PN(Lin等,2017b)提出了多尺度特征預測,利用多種尺度的特征圖分別進行預測。然而,大尺度的目標通常是在FPN(Lin 等,2017b)的深層特征層中預測的,因此這些目標的邊界可能過于模糊,無法獲得準確的位置,而小尺度特征則是在淺層特征進行預測的,語義信息較少,不足以識別目標的類別。其次,F(xiàn)aster RCNN(Ren 等,2017)通過事先設置大量的錨框。最后,利用這些錨框進行目標框的預測,而錨框的尺度設置要盡可能的覆蓋數(shù)據(jù)集各個目標尺度范圍,所以錨框的設置很難符合遙感影像中各種尺度的地物目標,最終影響影像的檢測效果。
基于上面兩點,在光學遙感影像上采用一種多尺度特征選擇的訓練方式和一種基于目標中心預測候選框的方法(Kong 等,2020)。多尺度特征選擇通過利用合適尺度的特征圖來預測相應尺度的目標類別,同時允許同一尺度目標在相鄰的特征圖上進行預測,使得特征圖可以根據(jù)目標的尺度來更好地訓練。由于錨框的設置會影像檢測效果,因此直接利用目標中心區(qū)域的特征預測目標的邊界框,其預測的邊界框框尺度更符合實際情況。
遙感影像中存在著眾多尺度不一的地物目標,選擇FPN 特征提取出來的多個級別的特征圖Pi(i=3,4,…,7)進行預測,每個級別的特征圖的長寬依次增加一倍,這5個級別的特征圖分別并行地進行預測。為將合適尺度的特征圖來預測相應尺度的目標,根據(jù)5 個尺度大小的特征圖將其劃分5 個尺度的目標大小范圍,這5 個尺度的地物目標范圍的并集會包含數(shù)據(jù)集所有地物目標的尺度范圍。如圖1 所示,5 種不同尺度的特征圖負責預測相應尺度等級的目標,并且各個尺度范圍有一定的重疊度。具體地,根據(jù)數(shù)據(jù)集中訓練目標的大致尺度范圍,劃分每個級別特征圖預測的目標尺度范圍;同時,各尺度區(qū)間范圍之間有一定的重合,使得同一目標能在相鄰尺度特征下進行預測。尺度范圍的劃分可以由[Si/2,Si·2]表示,其中Si表示特征圖Pi的基礎像素面積,其值可以由如下公式計算:
式中,4i表示的是每個級別的特征圖面積相差大小,S為最小特征圖的面積大小。
以上過程劃分了各個特征圖所負責預測的尺度范圍,在訓練時網(wǎng)絡忽略那些目標大小在相應尺度范圍之外的實例,由于最終劃分的尺度區(qū)間包含了數(shù)據(jù)集中各類目標的所有尺度,因此一個目標至少會在一個層次的特征圖上進行預測。
在Faster RCNN(Ren 等,2017)中,通過人為設置9種固定尺度的錨框,然后訓練這些錨框偏置值使預測框盡可能接近真實的標注框。然而,人為設置的錨框并不能很好的和真實框相吻合,也不利于后續(xù)的訓練。因此,采用目標中心區(qū)域的特征進行目標邊界框和目標類別預測,可以獲取任意尺度的候選框。并且,預測結果是根據(jù)目標特征得到,預測的邊界框會與真實的標注框會更加吻合,從而更有利于后續(xù)的訓練。模型對于結果的訓練和預測并不是基于目標中心點,而是基于目標中心一定范圍區(qū)域的特征進行預測。圖4為基于目標中心區(qū)域的候選框預測示意圖,其中紅色框表示真實的標注框,黃色框表示根據(jù)真實框進行訓練和預測的范圍框。中心區(qū)域的訓練范圍可以由目標檢測數(shù)據(jù)集中訓練圖片的標注框形狀和位置確定。首先將真實框映射到各個級別的特征圖Pi中,并且確定真實框中心在原圖的位置,該過程可以由如下公式表示:
圖4 目標中心區(qū)域的邊界框預測示意圖Fig.4 Diagram of bounding box prediction for object center area
式中,x1、y1、x2、y2表示真實框在原圖上的兩個頂點坐標,xf1、yf1、xf2、yf2表示真實框映射到特征圖上的兩個頂點坐標,2i表示特征圖下采樣步長,cx和cy表示真實框映射到特征圖上的中心點坐標。
得到中心點坐標后,據(jù)此獲取目標中心區(qū)域范圍(xp1,yp1,xp2,yp2),此區(qū)域的特征將用來進行候選框的訓練和預測,其過程可以由如下公式表示:
式中,xp1,yp1,xp2,yp2表示用于預測的特征范圍的左上角和右下角坐標,μ是一個控制這個區(qū)域大小的參數(shù),當μ大于1 時,預測區(qū)域會大于真實框區(qū)域,當μ小于1 時,預測區(qū)域會小于真實框。由于真實框是目標的外接矩形框,所以會包含一些背景信息。模型使用目標中心區(qū)域的特征來進行訓練和預測,不僅可以提高準確率,也可以提高模型對地物目標提取的特征表達能力,因此μ的設置會小于1,即訓練區(qū)域會小于真實框。
文中的方法主要在兩個具有挑戰(zhàn)性的公開遙感影像目標檢測數(shù)據(jù)集上評估所提出的方法。分別是RSOD-Dataset和NWPUVHR10-Dataset。
(1)RSOD-Dataset(Xiao 等,2015;Long 等,2017)是由武漢大學團隊標注,包含飛機、操場、立交橋、油桶4類目標。
(2)NWPUVHR10-Dataset(Cheng 等,2014,2016a,2016b)是由西北工業(yè)大學團隊標注,共包含10 類目標,這10 類物體分別是飛機、輪船、儲罐、棒球場、網(wǎng)球場、籃球場、地面田徑場、港口、橋梁和車輛。這些圖像是從谷歌地球和瓦辛根數(shù)據(jù)集中裁剪出來的,然后由專家手工標注。
實驗采用平均查準率(AP)和平均準確度(mAP)這兩個常用的評價指標評估模型在上述兩種數(shù)據(jù)集上的效果。平均查準率是指精度和召回率曲線下的面積,它是一種結合了精度和召回率的度量;平均準確度是多類別平均查準率的平均值,它是評價多類目標檢測最重要的指標。這兩個指標越大越好。召回率(Recall)是測試集所有正樣本樣例中,被正確識別為正樣本的比例,其表達式為:
準確度(Precision)指預測為正樣本是正樣本所占的比例,其表達式為:
式中,TP 表示被正確地劃分成正例的個數(shù),F(xiàn)P 表示被錯誤地劃分為正例的個數(shù),F(xiàn)N 表示被錯誤地劃分為負例的個數(shù),即實際為正例但被分類器劃分為負例的數(shù)量。
類別均衡實驗在RSOD 和NWPUVHR10 數(shù)據(jù)集上對比了OHEM(Shrivastava 等,2016)、Libra R-CNN(Pang 等,2019)、旋轉和翻轉常規(guī)增強(表中名稱為FoveaBox & aug)幾種方法。兩個數(shù)據(jù)集以8∶2 的比例隨機分為訓練集和測試集,其中,模型的精度評價基于未使用影像融合的測試集。在RSOD 數(shù)據(jù)集上所有模型采用1000×900 的圖片尺寸訓練,NWPUVHR10 數(shù)據(jù)集訓練和測試尺寸為1024×512,并且兩個數(shù)據(jù)集都進行120 個epoch 的訓練,初始學習率為0.01,分別在40、80、100個epoch進行衰減率為0.1的學習率衰減。
多尺度特征選擇與表達的實驗對比同時在RSOD 和NWPUVHR10 數(shù)據(jù)集上對比Faster RCNN(Ren 等,2017)、SSD300(Liu 等,2016)、FPN(Lin 等,2017b)、RetinaNet (Lin 等,2017a)、FoveaBox(Kong 等,2020)方法。訓練集和數(shù)據(jù)集RSOD 數(shù)據(jù)集的訓練和測試的尺寸為1000×900,NWPUVHR10 數(shù)據(jù)集使用1024×512 進行模型的訓練和測試,而SSD300 的訓練圖片尺寸為300×300。其他模型設置均采用最大訓練120個迭代次數(shù),并且設置0.001 為初始學習率,學習率在訓練中衰減3 次,分別在40、80、100 次迭代時學習率衰減為原來的學習率的0.1 倍。RetinaNet 訓練與測試時的網(wǎng)絡設置與FPN 網(wǎng)絡一致。多尺度特征選擇與表達的模型設置與上述網(wǎng)絡一致,網(wǎng)絡中控制訓練區(qū)域的參數(shù)μ設置為0.4。特征提取網(wǎng)絡都采用ImageNet的預訓練模型進行訓練。
為驗證影像融合增強對結果的有效性,將文中使用的影像融合和特征選擇的多尺度網(wǎng)絡分別在RSOD和NWPUVHR10兩個數(shù)據(jù)集上進行實驗對比。值得注意的是,用于模型的訓練數(shù)據(jù)和測試數(shù)據(jù)集是以8∶2的比例從整體數(shù)據(jù)集中隨機抽取,并且只對訓練數(shù)據(jù)進行影像融合增強。相關模型的精度值見表1、表2。從表1的RSOD數(shù)據(jù)集中精度對比可以看出:結合數(shù)據(jù)融合與特征選擇多尺度方法相較于在線難例挖掘和平衡學習目標檢測框架的方法分別有2.69%和2.38%的平均準確度的提升;且影像融合增強方法相較于旋轉、翻轉的常規(guī)增強方法有0.88%的平均精度優(yōu)勢。在表2 的NWPUVHR10 數(shù)據(jù)集上的精度表明:結合數(shù)據(jù)融合與特征選擇多尺度方法比另兩種均衡方法性能更具優(yōu)勢;且相對于旋轉、翻轉常規(guī)數(shù)據(jù)增強平均精度提升了3.96%。兩個數(shù)據(jù)集的結果說明影像數(shù)據(jù)融合增強對網(wǎng)絡性能有較強的促進作用,使得模型具有更好的性能與泛化能力。
表1 RSOD數(shù)據(jù)集類別均衡實驗的AP50精度對比Table 1 The AP50 accuracy comparison for category balance experiment in RSOD dataset /%
表2 NWPUVHR10數(shù)據(jù)集類別均衡實驗的AP50精度對比Table 2 The AP50 accuracy comparison for category balance experiment in NWPUVHR10 dataset /%
為驗證影像融合和特征選擇的多尺度網(wǎng)絡在遙感影像上的有效性,分別在RSOD 和NWPUVHR10兩個數(shù)據(jù)集上進行實驗對比。如表3 所示,RSOD數(shù)據(jù)集中的精度表明基于影像融合和特征選擇的多尺度網(wǎng)絡整體性能更加優(yōu)秀。雖然對比于未進行融合的多尺度特征選擇與表達模型只提升了0.12%,但由于RSOD 數(shù)據(jù)集中只包含有4 個類別,訓練和預測過程比大型數(shù)據(jù)集更容易。而且,每個類別的可用的訓練圖像數(shù)量比例相差不大,所以在多尺度特征選擇模型的訓練和預測時并沒有很好的體現(xiàn)圖像融合的優(yōu)勢。
表3 RSOD數(shù)據(jù)集AP50精度對比Table 3 The AP50 accuracy comparison in RSOD dataset /%
表4中NWPUVHR10數(shù)據(jù)集各類別識別精度可以看出:基于影像融合和特征選擇的多尺度網(wǎng)絡對比于其他幾種主流方法精度有顯著提升,并且經(jīng)過影像融合增強的船只、棒球場、網(wǎng)球場、籃球場、港口、橋梁和車輛等這些類別在精度上有較大提升,達到了幾種方法中最好的精度。整體表明特征選擇與表達的網(wǎng)絡在包含了各種尺度大小目標的遙感影像下的地物識別能取得較高的精度。影像融合增強能夠一定程度消除訓練數(shù)據(jù)中類別不均衡的問題,幾種典型的目標檢測網(wǎng)絡的數(shù)據(jù)融合增強對比可以發(fā)現(xiàn)圖像融合增強的策略具有更強的普適性,對模型的性能以及魯棒性都有一定的提升。
表4 NWPUVHR10數(shù)據(jù)集AP50精度對比Table 4 The AP50 accuracy comparison in NWPUVHR10 dataset /%
合和特征選擇的多尺度網(wǎng)絡的方式對復雜背景下的4種地物類別有更好的識別效果,并且具有更少的誤檢框,說明該方式應用于遙感影像能具有比較好的魯棒性和性能優(yōu)勢。
圖5 顯示的是RSOD 數(shù)據(jù)集上不同模型的可視化結果,圖6 是NWPU VHR-10 預測的可視化結果。圖5 中可以看到,RetinaNet 模型對于排列復雜密集的飛機影像識別效果不理想,基于影像融
圖5 RSOD數(shù)據(jù)集測試結果可視化Fig.5 Visualization of test results in RSOD dataset
從圖6 的可視化結果可以看出,使用圖像融合增強的多尺度選擇與表達的模型后,在飛機類別、船舶、海港、田徑場不同尺度大小的目標上,相對于其他的多尺度網(wǎng)絡有更好的識別效果。對于田徑場相對大尺度場景下,另外兩個方法難以識別出更小的網(wǎng)球場;在岸邊包含船舶的影像上,F(xiàn)PN 以及RetinaNet 很難將河岸和船舶很好地區(qū)分開(圖6 第5 行),而采用基于影像融合和特征選擇的多尺度網(wǎng)絡的方法對復雜背景下的目標的識別也相對更加準確,說明圖像融合增強了樣本場景的多樣性,并且模型結果整體表明在光學遙感影像中不同尺度的目標都能夠合理的預測出來。
圖6 NWPU VHR-10數(shù)據(jù)集測試結果可視化Fig.6 Visualization of test results in NWPU VHR-10 dataset
本文將多尺度特征選擇的模型應用在了遙感影像上,通過多尺度特征的表達與選擇能更加契合于復雜背景下遙感數(shù)據(jù)的不同尺度大小的目標。而且,提出了圖像融合增強的策略。相較于之前的數(shù)據(jù)增強方式,文中提出的方法具有以下幾點優(yōu)勢:(1)不會改變圖像的現(xiàn)狀大小以及目標的絕對位置。(2)由于采用的是同一樣本庫的圖像進行融合,因此不會改變樣本庫的分布。(3)多尺度特征表達與選擇和圖像增強融合可以應對遙感影像中相對復雜背景的影像,減輕類別不均衡的影響,更加符合遙感影像使用的場景。
遙感影像的俯視成像使得影像中的目標具有密集且方向任意的特點,這些特點對目標檢測的性能同樣存在影響。但在本文中還未結合影像中目標的這些特點。在未來的研究中,將從卷積神經(jīng)網(wǎng)絡的特征提取的特性出發(fā),結合更多遙感影像中目標的特性,完善高分遙感目標檢測模型。