陳 磊,陳 穎,李文舉,石艷嬌
(上海應用技術大學,上海 201418)
RGB和NIR傳感器是在不同任務中經(jīng)常同時使用的兩種傳感器,例如人臉檢測、對象跟蹤、土地覆蓋分類和無人駕駛汽車。對于遙感圖像,捕獲的RGB圖像最接近人類的視覺,但是會受到光照和大氣條件等的嚴重影響,而NIR圖像對于天氣條件會有更高的魯棒性。兩者都有其各自的優(yōu)勢,通過配準可以更加高效地使用其互補信息。由于NIR和RGB圖像是在不同波段下通過不同的成像機制獲取的,所以NIR和RGB圖像之間存在很大的幾何差異和不同的輻射強度。這可能會使常規(guī)的依賴強度和漸變的配準方法失效。
目前,許多基于特征點的算法[1]在光學配準問題中達到了很好的效果,但在NIR和RGB遙感圖像配準中并不理想?;趨^(qū)域的方法對于定義相似性度量標準要求較高。常用相似性度量方法有歸一化互相關(NCC)[2]和互信息(MI)[3]。NCC主要用于光學圖像配準,但是在NIR和RGB圖像配準中表現(xiàn)不佳,MI則在不同模式的圖像配準中有廣泛的應用[4]。
由于不同的傳感器成像條件的差異會引起各種非線性變化,人工標注的特征及上述方法無法很好地進行NIR和RGB圖像的配準。與人工標注的特征相比,深度學習獲得的特征[5-7]在遙感圖像領域的使用越來越多,大多是用于檢測和分類。遙感圖像配準也已經(jīng)使用卷積網(wǎng)絡和全連接網(wǎng)絡[8-10],這些方法成功用于相同模式的遙感圖像配準。但是在NIR和RGB遙感圖像配準中存在以下三個問題。
首先由于平滑卷積的特性導致特征提取網(wǎng)絡的最后幾層會忽略圖像的低級特征。尤其對于遙感圖像,其低級的紋理等特征也具有很重要的作用。其次,當前網(wǎng)絡對于NIR和RGB圖像匹配的能力不足。最后是深度學習經(jīng)常出現(xiàn)由于損失函數(shù)設計單一造成的過擬合問題。如常用的交叉損失[11],它們的目標都是單一的最大化負樣本及最小化正樣本間的距離。
對于遙感圖像的特殊性,比如當前幾乎所有的遙感圖像都經(jīng)過地理編碼。通過經(jīng)緯度的編碼遙感圖像的地理定位已經(jīng)限定在一定的范圍內(nèi),但是由于空間姿態(tài)角的不精確測量總會導致地理定位錯誤,例如Worldview-2,PRISM或QuickBird等光學衛(wèi)星圖像的絕對地理精度范圍在4到30m[8]。這樣就可以在有限的搜索區(qū)域內(nèi)通過基于區(qū)域的方法去檢測匹配點對。
針對這三個問題和遙感NIR和RGB圖像配準的特殊性,本文主要工作和貢獻如下:首先,為了有效利用低級特征,增強NIR和RGB圖像之間的匹配能力,提出了一種創(chuàng)新的殘差塊改進密集連接暹羅網(wǎng)絡結(jié)構(gòu);其次,引入了用于光學圖像和紅外圖像的模板匹配框架[12],通過模版匹配方案將匹配好的圖像塊用于配準后期的變換;最后,為了防止過擬合,使用改進的增強交叉熵損失函數(shù)來提高不同數(shù)據(jù)集上網(wǎng)絡的學習能力。通過對本文提出的模型與近幾年的模型進行定量和定性分析,驗證了本文算法的優(yōu)越性。
本文采用殘差塊改進的密集連接暹羅網(wǎng)絡提取遙感圖像特征,并改進了損失函數(shù)以增強網(wǎng)絡的性能。最后使用網(wǎng)絡輸出的得分圖進行配準變換。
暹羅網(wǎng)絡有三種變形結(jié)構(gòu)。第一種是兩幅圖像分別輸入兩個共享權值的相同結(jié)構(gòu)網(wǎng)絡,輸出兩幅圖像的相似性得分,如SCNN[9];第二種結(jié)構(gòu)與第一種結(jié)構(gòu)的輸入輸出相同,區(qū)別在于網(wǎng)絡權值不共享,如H-Net[13];第三種結(jié)構(gòu)是將兩幅圖像通過通道堆疊的形式輸入同一網(wǎng)絡,輸出為兩幅圖像的相似性得分,如文獻[14, 15]。對于NIR和RGB圖像的匹配,文獻[14]表明,在近距離NIR和RGB圖像匹配方面,通道堆疊網(wǎng)絡優(yōu)于前兩種暹羅網(wǎng)絡。針對以上分析,本文采用第三種通道堆疊的暹羅網(wǎng)絡結(jié)構(gòu)。
圖1 殘差塊改進的密集連接暹羅網(wǎng)絡結(jié)構(gòu)
為了利用網(wǎng)絡底層低級特征來增強網(wǎng)絡的學習能力,本文在通道堆疊的暹羅網(wǎng)絡結(jié)構(gòu)基礎上增加了殘差結(jié)構(gòu)和跨層輸入的密集連接結(jié)構(gòu)。如圖1所示,網(wǎng)絡的輸入是將遙感圖像R、G、B和NIR四個通道進行堆疊。該網(wǎng)絡有六個卷積層、兩個殘差塊,兩個最大池化層和兩個全聯(lián)接層。每個卷積層都經(jīng)過線性整流函數(shù)(ReLU)進行激活。其計算式為
f(m)=max(0,m)
(1)
其中當輸入m<0時,f取0,當m≥0時f取m。
為了剔除圖像的低層無用信息,網(wǎng)絡從殘差塊開始進行密集連接。這樣既保留了低層的有用信息,又充分利用了高層信息,增強了網(wǎng)絡的學習能力。網(wǎng)絡中殘差塊首先將經(jīng)過卷積和最大池化的堆疊圖像進行低層信息的處理,處理后的信息不僅直接傳入下一層,還傳入更深的網(wǎng)絡層。即當前層的輸入是前面幾層級聯(lián)之后再輸入的信息。
網(wǎng)絡中的殘差學習單元可以表示為
xl+1=f(h(xl)+F(xl,Wl))
(2)
其中xl和xl+1分別表示第l個殘差單元的輸入和輸出,F(xiàn)是殘差函數(shù),表示學習到的殘差,Wl為第l個殘差單元學習到的權值,f是ReLU激活函數(shù)。從而得到從淺層l到深層L的學習特征為
(3)
整體網(wǎng)絡結(jié)構(gòu)如下:網(wǎng)絡1、3、5層為卷積層,均有64個通道和3×3的卷積核;第2、4層為兩個殘差塊;第六層使用1×1卷積核融合多個層級的信息以輸出具有256通道的特征圖。最后兩個卷積層用于進一步調(diào)整這些多級特征的相互依賴性。全聯(lián)接層(FC)用于將二維特征圖壓縮為一維向量,最后一個全連接層通過Sigmoid函數(shù)將向量轉(zhuǎn)換為標量(相似性分數(shù))。通道數(shù)、每個層的內(nèi)核大小以及FC層的長度均顯示在圖1中。
在機器學習領域中,為了提高模型的可識別性,經(jīng)常采取最大化正樣本和負樣本之間的距離這一策略。對于二進制交叉熵,它獲得的相似分基本上都是接近0或1,這可能會導致模型過擬合[16]。為了防止模型過擬合,并且提高匹配精度,本文損失函數(shù)設計如下:
二進制交叉熵(BinaryCrossEntropy, BCE)表示為
BCE=-qloga-(1-y)log(1-a)
(4)
其中a和q是二進制交叉熵的兩個變量,這兩個變量差距越少,損失函數(shù)將會越小。為了更好地表示數(shù)據(jù)集的分布,本文以t和p分別為數(shù)據(jù)集標簽的原始分布和預測分布。從而得到二進制交叉熵損失函數(shù)Loss
Loss(t,p)=-plogt-(1-p)log(1-t)
(5)
為了提高匹配精度,在二進制交叉熵損失的基礎上引入均勻分布方法,使其相似度曲線更加平滑,而不是都接近0和1。另外,為了防止過擬合,將標簽正則化作為損失函數(shù)
Loss(t′,p)=(1-ε)Loss(t,p)+εLoss(u,p)
(6)
Loss(t′,p)是最終的增強交叉熵損失,其中t′是標簽的正則分布,Loss(t,p)代表常規(guī)交叉熵損失。Loss(u,p)為第二損失項,即平滑項,測量均勻分布u與預測分布p之間的偏差。通過使用平滑參數(shù)ε對兩個損失進行加權,最終的損失函數(shù)會使相似度得分的分布曲線更平滑。
圖2 整體配準流程
本文NIR和RGB圖像配準模型整體流程分為兩個主要步驟,分別為模型訓練階段和模版配準階段。具體過程如圖2所示。
1) 模型訓練階段:
模型訓練階段進行特征塊的搜集和匹配。為了獲得更多的訓練樣本,在待配準圖像中檢測出(M*M像素)子圖像作為待配準圖像塊。由于經(jīng)過地理編碼的圖像對之間的偏移量不大,圍繞待配準圖像塊相同位置在參考圖像上繪制出[(M+s)*(M+s)]的搜索框圖像塊。將待配準圖像塊和搜索框圖像塊輸入到網(wǎng)絡中,輸出兩圖像塊的相似性得分。
2) 模版配準階段:
模版配準階段進行外點的移除和最終配準。通過網(wǎng)絡學習得到圖像每個位置的相似度得分,并逐像素滑動生成相似性得分圖。如圖3所示,得分圖中間黃色較亮點為得分高(接近于1),周圍藍色較暗部分為得分低(接近于0)。然后將這些得分最高的位置作為正確匹配點,將得分低的位置作為外點進行移除。由于圖像對之間的偏移,實際未配準的圖像得分最大部分往往不在其中心。故將分數(shù)最大位置與其相對中心的偏移量假定為待配準圖像特征點和參考圖像特征點地理位置之間的偏移量。最后通過將待配準圖像變換到參考圖像上,對過濾后的匹配點進行最終配準。
圖3 相似性得分圖示例
實驗數(shù)據(jù)包括Landsat 8衛(wèi)星捕獲的五對NIR和RGB圖像,大小為7000*7000像素。為了評估訓練模型在不同情況下的性能,五對圖像包含不同的采集季節(jié)和地理位置(表1)。為了證明本文方法的泛化能力,只有第1對和第2對包含訓練樣本,其它3對圖像作為測試樣本。
表1 實驗數(shù)據(jù)集
本文通過均勻裁剪第1對和第2對中的圖像生成訓練樣本集。在第1對或第2對上分別裁剪出6089和6084個64×64像素的圖像塊作為正樣本,對于負樣本,通過對每個正樣本做隨機移動視差來生成。將生成的正負樣本隨機選出10%的驗證集和10%測試集。
實驗使用的硬件配置如下:處理器為Quad-Core Intel Core i5 2.3GHz;內(nèi)存(RAM)為8.0GB;開發(fā)工具為Python。在本文的實驗中,訓練時超參數(shù)都采用如下相同設置:使用128的batch size和隨機梯度下降(SGD)優(yōu)化器對所有網(wǎng)絡進行96個epoch的訓練,初始學習率為1×10-3,動量為0.9。每10個epoch學習率降低0.1倍。將訓練圖像和測試圖像的像素值歸一化為(0,1),再輸入網(wǎng)絡。
在本文實驗中,分別使用定量指標和視覺指標進行評估。定量的指標使用特征點與真實位置的均方根誤差(Root Mean Square Error, RMSE)、平均正確匹配率(Average Match Rate, AMR)和運行時間,視覺指標使用相似性得分圖和配準后圖像與參考圖像生成的棋盤格圖像。MR即正確匹配數(shù)與所有參考點數(shù)之間的比率。AMR就是五個數(shù)據(jù)集上MR的平均值。
為了更好地顯示本文方法的配準的效果,本文以棋盤格形式展示配準結(jié)果,并與密集連接網(wǎng)絡方法和MI方法進行對比。如圖4所示,a顯示了本文方法的配準結(jié)果,圖中可以清晰地看出,圖像各處銜接自然流暢,河流等地形邊緣線都幾乎沒有偏移。為了更好地比較密集連接網(wǎng)絡方法、MI方法和本文方法(b和c中從左到右)的配準效果,b和c中顯示了從a中紅框和藍框位置繪制的放大子圖像。從b和c中可以看出,由于對復雜地形的識別力不足,MI方法和密集連接網(wǎng)絡方法配準效果不好,配準結(jié)果中河流等地形線仍出現(xiàn)錯位。本文方法配準結(jié)果中河流等地形邊緣線銜接更加準確。從而證明了本文方法可以用于NIR和RGB遙感圖像配準,并獲得了較好的效果。
圖4 棋盤格顯示的配準結(jié)果
為了驗證本文方法在網(wǎng)絡結(jié)構(gòu)上的優(yōu)勢以及損失函數(shù)改進的有效性,在第二個實驗中,本文方法分別與暹羅網(wǎng)絡、偽暹羅網(wǎng)絡、雙通道網(wǎng)絡、密集連接網(wǎng)絡以及本文方法在改進損失函數(shù)前的結(jié)果進行比較。默認情況下,將閾值設置為0.5,如果算法預測的匹配分數(shù)高于閾值,則將NIR和RGB圖像塊對視為“匹配”。從表2可以看出,由于通道堆疊結(jié)構(gòu)的優(yōu)勢,雙通道網(wǎng)絡比其它兩種暹羅網(wǎng)絡結(jié)構(gòu)準確率更高。由于加入了密集連接結(jié)構(gòu),文獻[20]使用最新的密集連接網(wǎng)絡準確率有提升。本文用殘差塊替換普通的卷積塊后,AMR比密集連接網(wǎng)絡提高了3.43%,改進損失函數(shù)后,AMR在原有基礎上再次提高了2.65%,達到了94.93%,驗證了本文網(wǎng)絡結(jié)構(gòu)和損失函數(shù)改進的有效性。在運行時間方面,本文方法接近1.5ms,也獲得了較好的效果。
表2 網(wǎng)絡性能和損失函數(shù)改進性能
為了更加直觀地顯示本文方法在網(wǎng)絡訓練上的優(yōu)勢,第三個實驗中,改進的網(wǎng)絡在數(shù)據(jù)集Pair1上進行訓練,并通過訓練準確度曲線的形式與最新的密集連接網(wǎng)絡[20]方法進行了比較。訓練模型損失函數(shù)和匹配準確率如圖5所示,藍色為密集連接網(wǎng)絡的結(jié)果,橙色為本文網(wǎng)絡結(jié)果。從圖中可以看出本文網(wǎng)絡與密集連接網(wǎng)絡相比,由于使用了殘差塊改進,在相同的訓練次數(shù)下得到了更小的損失值和更高的準確度。
圖5 訓練模型損失函數(shù)和匹配準確率
為了更加直觀地顯示本文方法在圖像塊匹配上的準確性,第四個實驗采用相似性得分圖的形式將本文方法與密集連接網(wǎng)絡方法和傳統(tǒng)MI方法進行比較。
為了避免偶然性結(jié)果,實驗從數(shù)據(jù)集中隨機選取4個不同地形的測試圖像對比較。如圖6所示,從左到右依次為RGB參考圖像、密集連接網(wǎng)絡方法得分圖、本文方法得分圖(中間)、MI方法得分圖和NIR待配準圖像。為了更好的測試,本文采用已配準的圖像對,因此理想的得分圖應該是中心位置有一個高峰值(黃色亮處),周圍的其它位置都保持低峰(藍色暗處)。如圖6所示,本文方法和MI方法的測試結(jié)果都表現(xiàn)為黃色高峰值在中心,其它部分為藍色低峰,但本文方法高峰更加集中,表明可分辨性更好。密集連接網(wǎng)絡方法在地形特征差異不大時表現(xiàn)良好,但對于第2幅包含了陸地和海洋的圖像,由于其對復雜圖像的識別力不足,密集連接網(wǎng)絡方法得分圖在很多情況下都出現(xiàn)了高峰值,無法找到正確配準位置。實驗結(jié)果表明本文方法具有更強的魯棒性和準確度。
圖6 相似性得分圖比較
針對NIR和RGB遙感圖像配準,提出了一種新的深度學習方法。該方法使用殘差塊改進的密集連接暹羅網(wǎng)絡來學習圖像塊之間的共同特征,確定匹配點位置,然后根據(jù)找到的匹配點對待配準圖像做仿射變換,獲得最后的配準結(jié)果。在各種NIR和RGB圖像數(shù)據(jù)集上的實驗表明,本文方法要優(yōu)于傳統(tǒng)方法和其它神經(jīng)網(wǎng)絡方法。證明了將衛(wèi)星遙感圖像的低級特征應用于高層是有效的。實驗結(jié)果也證明了深度學習在多模式遙感圖像配準尤其是NIR和RGB圖像配準的潛力。
將本文方法運用到其它的多模式的遙感圖像配準(如:合成孔徑雷達(SAR)、熱紅外(TIR)等),或者多時相遙感圖像,是未來工作所關注的一個方向。