魏泓安,單小軍,鄭 柯,霍連志,唐 娉
(1.中國科學(xué)院大學(xué) 電子電氣與通信工程學(xué)院,北京 100049;2.中國科學(xué)院空天信息創(chuàng)新研究院,北京 100094)
影像配準(zhǔn)是指從2幅或多幅影像中識別出相同或相似的結(jié)構(gòu)并將其對應(yīng)起來[1],異源影像配準(zhǔn)則是影像來源或獲取條件等不同的一種影像配準(zhǔn)情況[2],相比于同源影像配準(zhǔn),異源影像往往包含較大的非線性差異。在遙感領(lǐng)域,影像配準(zhǔn)是數(shù)據(jù)融合、目標(biāo)識別等工作的關(guān)鍵前提,對異源遙感影像進(jìn)行綜合利用能夠獲取更加豐富的信息,光學(xué)與合成孔徑雷達(dá)(SAR)影像各自存在優(yōu)勢與不足,將2種影像配準(zhǔn)后提取信息將大大提高數(shù)據(jù)利用率,對后續(xù)應(yīng)用有重要意義。
傳統(tǒng)的影像配準(zhǔn)通過比較所提取的影像特征或區(qū)域內(nèi)像素的輻射強(qiáng)度的相似性進(jìn)行配準(zhǔn),一般分為基于特征的方法和基于區(qū)域的方法[3]。基于特征的方法通常通過改進(jìn)特征提取描述算子使其適應(yīng)異源圖像的差異,比如文獻(xiàn)[4-7]等對SIFT[8]算子改進(jìn);或開發(fā)專門用于SAR與光學(xué)影像配準(zhǔn)的特征提取描述方法,比如Ye等[9-10]提出的手工設(shè)計(jì)特征HOPC和CFOG;基于區(qū)域的配準(zhǔn)方法關(guān)鍵是相似性度量的選擇,主要分為基于信息理論的相似性度量[11-13]、基于輻射強(qiáng)度的相似性度量[14]和基于頻率域的模態(tài)統(tǒng)一[15-16]等。
異源影像,尤其是SAR與光學(xué)這種成像機(jī)理迥異導(dǎo)致輻射和幾何特征都有很大區(qū)別的影像,通常的配準(zhǔn)方法所提取圖像特征的相似性難以保證,因而難以提升圖像配準(zhǔn)的準(zhǔn)確性。深度學(xué)習(xí)方法提供了新的特征提取工具。利用深度學(xué)習(xí)方法,無需手工設(shè)計(jì)特征提取和特征描述方法,基于特征相似性定義損失函數(shù),驅(qū)動多層卷積神經(jīng)網(wǎng)絡(luò)提取到圖像結(jié)構(gòu)、紋理甚至語義等各個層級的適宜圖像配準(zhǔn)的深度特征,可準(zhǔn)確地完成圖像間非線性關(guān)系的估計(jì),能更好地適應(yīng)異源影像之間的差異,達(dá)到優(yōu)異的配準(zhǔn)效果。
近年來,異源影像配準(zhǔn)得到了許多關(guān)注[2]并在醫(yī)學(xué)影像[17]等領(lǐng)域迅速發(fā)展,在遙感領(lǐng)域雖有一些配準(zhǔn)方面的綜述[18]或關(guān)于深度學(xué)習(xí)的配準(zhǔn)總結(jié)[19],但少有聚焦于SAR與光學(xué)影像配準(zhǔn)的深度學(xué)習(xí)方法回顧。
根據(jù)是否直接從SAR與光學(xué)影像上提取待匹配特征,本文將基于深度學(xué)習(xí)的SAR與光學(xué)影像配準(zhǔn)方法分為特征描述符學(xué)習(xí)(Feature Descriptor Learning)與風(fēng)格遷移(Style Transfer)兩大類,特征描述符學(xué)習(xí)方法直接使用深度學(xué)習(xí)網(wǎng)絡(luò)提取2種影像上的特征及特征描述向量進(jìn)行配準(zhǔn)[20-23];風(fēng)格遷移方法則將其中一種影像通過深度網(wǎng)絡(luò)轉(zhuǎn)換為與另一種影像模態(tài)特征相似的影像[24],統(tǒng)一模態(tài)后再通過傳統(tǒng)或深度學(xué)習(xí)的方法提取特征進(jìn)行配準(zhǔn)[25]。
本文將基于深度學(xué)習(xí)的SAR與光學(xué)影像配準(zhǔn)分為特征描述符學(xué)習(xí)和風(fēng)格遷移2類對現(xiàn)有研究進(jìn)行匯總,詳細(xì)介紹了現(xiàn)有的可用于SAR與光學(xué)影像配準(zhǔn)的公開數(shù)據(jù)集和自制數(shù)據(jù)集方法,對研究中用于衡量配準(zhǔn)效果的評價(jià)指標(biāo)進(jìn)行梳理和分析,最后進(jìn)行總結(jié)和未來可能的發(fā)展方向展望。
影像配準(zhǔn)的主要途徑是通過提取2幅影像的特征進(jìn)行特征匹配找到對應(yīng)同名地物匹配點(diǎn)的過程?;谏疃葘W(xué)習(xí)的配準(zhǔn)方法是通過提取圖像深度特征進(jìn)行特征匹配的過程。SAR與光學(xué)影像匹配的特征描述符學(xué)習(xí)方法通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提取2種影像上的深度特征描述符進(jìn)行匹配;SAR與光學(xué)影像匹配的風(fēng)格遷移方法重點(diǎn)是通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)將一種模態(tài)影像轉(zhuǎn)換為與另一種模態(tài),然后再匹配。
在特征描述符學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)配準(zhǔn)方法中孿生網(wǎng)絡(luò)[20](Siamese Network)及其變體是非常流行的網(wǎng)絡(luò)框架,孿生網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。孿生網(wǎng)絡(luò)是基于2個人工神經(jīng)網(wǎng)絡(luò)建立的耦合構(gòu)架,是“連體的神經(jīng)網(wǎng)絡(luò)”,神經(jīng)網(wǎng)絡(luò)的“連體”是通過共享權(quán)值來實(shí)現(xiàn)的。孿生網(wǎng)絡(luò)的雙流架構(gòu)使其天然適用于圖像配準(zhǔn)的雙輸入任務(wù),它以2個樣本為輸入,2個子網(wǎng)絡(luò)各自接收一個輸入,輸出2個輸入圖像的特征描述符,通過計(jì)算特征描述符的相似性距離(或損失函數(shù)),例如歐式距離,以比較2個樣本的相似程度。特征描述符學(xué)習(xí)方法的不同主要體現(xiàn)在特征提取器和特征相似度計(jì)算方法的不同上。
圖1 孿生網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of Siamese Network
Zhang等[26]使用孿生網(wǎng)絡(luò)對多源遙感圖像進(jìn)行配準(zhǔn),特征提取結(jié)構(gòu)與HardNET[27]相似,使用7層卷積層步幅改為1以減少輸出得分圖的空間準(zhǔn)確度損失,采用二元交叉熵作為網(wǎng)絡(luò)損失進(jìn)行優(yōu)化,網(wǎng)絡(luò)輸出的得分圖表示主從影像在大幅搜索影像各個點(diǎn)上的相似度得分,該得分將會作為匹配點(diǎn)選取的唯一標(biāo)準(zhǔn)。Ma等[28]采用預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò)進(jìn)行微調(diào)用來提取影像各個層特征,從深到淺對特征進(jìn)行匹配,然后利用空間關(guān)系對配對結(jié)果約束進(jìn)行位置調(diào)整以減小配準(zhǔn)誤差。Zhang等[29]同樣使用孿生網(wǎng)絡(luò)結(jié)構(gòu),使用VGG進(jìn)行像素級深度稠密特征提取在高級抽象信息和低級信息保存之間獲得更好的平衡。由于稠密特征相較于一般深度學(xué)習(xí)網(wǎng)絡(luò)中的稀疏特征計(jì)算量大很多,該方法使用誤差平方和(SSD)作為相似性度量在頻域得到顯著加速,結(jié)合softmax歸一化和負(fù)難例挖掘取得了良好的配準(zhǔn)效果。
與孿生網(wǎng)絡(luò)共享網(wǎng)絡(luò)權(quán)重參數(shù)不同,偽孿生網(wǎng)絡(luò)(Pseudo-Siamese Network)是指雙支路網(wǎng)絡(luò)結(jié)構(gòu)相同卻有獨(dú)立權(quán)重參數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)。一般認(rèn)為,偽孿生網(wǎng)絡(luò)可以學(xué)到特定于模態(tài)的特征,因而能在一定程度上更好地適應(yīng)SAR與光學(xué)圖像不同的特征表示,但也大大增加了數(shù)據(jù)量和計(jì)算負(fù)擔(dān)。偽孿生神經(jīng)網(wǎng)絡(luò)如圖2所示,兩邊可以是不同的神經(jīng)網(wǎng)絡(luò)(如一個是LSTM,一個是CNN),也可以是相同類型的神經(jīng)網(wǎng)絡(luò)。
圖2 偽孿生網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 A rchitecture of Pseudo Siamese Network
Hughes等[30]提出的用于SAR和光學(xué)圖像稀疏圖像匹配的三步框架包含3個子網(wǎng)絡(luò),分別實(shí)現(xiàn)粗匹配、精匹配和誤匹配剔除3個步驟,實(shí)現(xiàn)端到端的異源大幅遙感影像配準(zhǔn)。粗匹配和精匹配網(wǎng)絡(luò)都采用偽孿生網(wǎng)絡(luò)結(jié)構(gòu),粗匹配網(wǎng)絡(luò)使用VGG-11骨架和二元交叉熵?fù)p失;精匹配網(wǎng)絡(luò)使用多尺度特征提取、空間注意力特征降維和均方誤差損失;誤匹配剔除網(wǎng)絡(luò)認(rèn)為良好匹配的特征點(diǎn)在對應(yīng)模態(tài)圖像中有且僅有單一特征點(diǎn)與之相對,所以精匹配網(wǎng)絡(luò)輸出的熱力圖分布應(yīng)表現(xiàn)為單一窄峰而不是多峰或廣泛分布,使用多個卷積與池化層的組合,采用Sigmoid激活函數(shù)和二元交叉熵?fù)p失函數(shù),將誤匹配剔除任務(wù)化為熱力圖二分類問題,通過設(shè)置網(wǎng)絡(luò)輸出概率置信度過濾分布彌散的熱力圖從而達(dá)到誤匹配剔除的目的。在訓(xùn)練和測試階段,該研究中的網(wǎng)絡(luò)組有不同的工作流程,訓(xùn)練時數(shù)據(jù)集首先輸入精匹配網(wǎng)絡(luò),再由精匹配網(wǎng)絡(luò)訓(xùn)練的結(jié)果訓(xùn)練粗匹配網(wǎng)絡(luò)和誤匹配剔除網(wǎng)絡(luò);預(yù)測時先將大幅影像輸入進(jìn)粗匹配網(wǎng)絡(luò)得到可能適合匹配區(qū)域,再由精匹配網(wǎng)絡(luò)預(yù)測配準(zhǔn)點(diǎn),最后經(jīng)過誤匹配剔除網(wǎng)絡(luò)得到最終的高精度但稀疏的配準(zhǔn)點(diǎn)。Mou等[21]采用偽孿生網(wǎng)絡(luò)實(shí)現(xiàn)超高分辨率SAR與光學(xué)圖像對的匹配,Hughes等[22]對其進(jìn)行擴(kuò)展,通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)中雙支路融合的部分,使用不同的訓(xùn)練策略,糾正了配準(zhǔn)中存在的正偏差結(jié)果。Quan等[31]對光學(xué)和SAR影像分別設(shè)計(jì)了生成器和判別器來生成與原始圖像對應(yīng)的不同模態(tài)圖像,從而獲得大量的匹配光學(xué)SAR圖像對,利用偽孿生網(wǎng)絡(luò)結(jié)構(gòu)和二元交叉熵?fù)p失優(yōu)化網(wǎng)絡(luò)進(jìn)行配準(zhǔn)。
Bürgmann等[32]使用改進(jìn)的HardNET為基礎(chǔ)在孿生網(wǎng)絡(luò)雙支路的結(jié)構(gòu)上增加難負(fù)例支路構(gòu)成三元損失,如圖3所示。將錨點(diǎn)、與錨點(diǎn)匹配的正圖像和與錨點(diǎn)不匹配的負(fù)圖像同時輸入網(wǎng)絡(luò),通過正負(fù)樣本歐幾里得距離之差加上特定余量來計(jì)算損失,賦予網(wǎng)絡(luò)區(qū)分圖像對是否匹配的能力。該方法使用了錨點(diǎn)交換技術(shù),即正負(fù)例間距離小于錨點(diǎn)與負(fù)例間距離時錨點(diǎn)與正例交換,以此保證使用最難辨別的負(fù)例來訓(xùn)練網(wǎng)絡(luò)達(dá)到更好的配準(zhǔn)效果。
圖3 三元損失孿生網(wǎng)絡(luò)Fig.3 Triple loss Siamese Network
在不使用孿生網(wǎng)絡(luò)的描述符學(xué)習(xí)方法中,為了減少缺乏數(shù)據(jù)集對深度學(xué)習(xí)匹配帶來的影響,Hughes等[33]提出了一種半監(jiān)督學(xué)習(xí)的方法對SAR與光學(xué)圖像進(jìn)行配準(zhǔn),該方法使用自動編碼器對標(biāo)記和未標(biāo)記的描述符進(jìn)行半監(jiān)督學(xué)習(xí),并使用對抗性損失來對齊描述符代表的隱空間。該網(wǎng)絡(luò)由雙支路自動編碼器和判別器組成,自動編碼器的編碼部分基于VGG-11進(jìn)行改進(jìn)將輸入圖像進(jìn)行特征提取獲得描述符,解碼器部分由卷積和轉(zhuǎn)置卷積層構(gòu)成對描述符進(jìn)行重建,訓(xùn)練過程中獲取所有圖像的重建損失和帶標(biāo)簽圖像的匹配損失進(jìn)行優(yōu)化;判別器是一個3層的全連接網(wǎng)絡(luò),通過對隱代碼施加連續(xù)先驗(yàn)分布來減小數(shù)據(jù)不足造成的影像,增加潛在空間的平滑性。
風(fēng)格遷移類的圖像配準(zhǔn)方法是通過風(fēng)格遷移將匹配圖像實(shí)現(xiàn)模態(tài)統(tǒng)一后再進(jìn)行配準(zhǔn)的方法。風(fēng)格遷移類圖像配準(zhǔn)方法包括2部分:第一部分是風(fēng)格遷移,通常使用生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[24];第二部分是使用傳統(tǒng)或深度學(xué)習(xí)方法對統(tǒng)一模態(tài)后的影像進(jìn)行配準(zhǔn)。
風(fēng)格遷移部分中的GSN與孿生網(wǎng)絡(luò)類似,也是由2個網(wǎng)絡(luò)組成的網(wǎng)絡(luò)組,但GAN包含的2個網(wǎng)絡(luò)是相互獨(dú)立實(shí)現(xiàn)不同功能的,與傳統(tǒng)GAN輸入噪聲不同,在風(fēng)格遷移任務(wù)中生成器的輸入往往是一種模態(tài)的圖像,生成有另一種模態(tài)特征的合成圖像輸入到判別器中,判別輸入圖像是真實(shí)圖像還是合成圖像,通過2個網(wǎng)絡(luò)的對抗讓生成器生成更加逼真的異源圖像,網(wǎng)絡(luò)架構(gòu)如圖4所示。雖然雷達(dá)影像具有更高的地理定位精度,但現(xiàn)有研究幾乎全部使用光學(xué)圖像作為基準(zhǔn)生成類SAR圖像,原因在于風(fēng)格遷移的過程很難真實(shí)的模擬光學(xué)影像豐富的光譜特征,并且SAR影像上的斑點(diǎn)噪聲也不適合作為生成器的輸入樣本。
圖4 風(fēng)格遷移的生成式對抗網(wǎng)絡(luò)Fig.4 Generative adversarial network on style transfer
Du等[25]提出了一個K-means聚類生成對抗網(wǎng)絡(luò)(KCG-GAN),通過約束空間信息來提高合成的圖像質(zhì)量,該方法將SAR影像的K-means分割作為GAN的一個輸入來控制空間信息,利用對抗損失結(jié)合特征匹配損失、L1損失和分割損失對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其中L1損失能夠確保生成圖像與原圖像內(nèi)容的一致性;特征匹配損失最小化判別器在識別圖像對真假時在各層提取特征的差別,能夠使訓(xùn)練更加穩(wěn)定并且產(chǎn)生一個自然的高頻結(jié)構(gòu)來增加紋理細(xì)節(jié)。Merkle等[34]利用條件生成對抗網(wǎng)絡(luò)(cGAN)[35]從光學(xué)影像生成類SAR影像來改善傳統(tǒng)配準(zhǔn)方法在SAR與光學(xué)圖像配準(zhǔn)上的表現(xiàn)。該方法首先使用土地覆蓋類型輔助半手工選取適合進(jìn)行匹配的區(qū)域,即幾何外觀大致相同并包含顯著特征的區(qū)域,可以很大程度上避免由SAR成像機(jī)理造成的幾何畸變對配準(zhǔn)的影像;接下來利用具有U-net結(jié)構(gòu)的cGAN從光學(xué)影像生成具有光學(xué)幾何特征和SAR輻射特征的類SAR影像;最后使用傳統(tǒng)的基于特征和強(qiáng)度的方法對真SAR和類SAR圖像進(jìn)行配準(zhǔn)。
除利用GAN實(shí)現(xiàn)模態(tài)統(tǒng)一外,宋智禮等[36]基于VGG網(wǎng)絡(luò)實(shí)現(xiàn)風(fēng)格遷移算法,得到由浮動圖像提供內(nèi)容信息、基準(zhǔn)圖像提供風(fēng)格信息的合成圖像,再將之與基準(zhǔn)圖進(jìn)行配準(zhǔn)以獲得更好的效果。該算法使用了16個卷積層和5個池化層,取消了全連接層,分別計(jì)算浮動圖像與生成圖像之間的內(nèi)容差異和基準(zhǔn)圖像與生成圖像之間的風(fēng)格差異,并以最小化二者之和為目標(biāo)構(gòu)建損失函數(shù)訓(xùn)練網(wǎng)絡(luò)。風(fēng)格遷移后將原始浮動圖像中沒有明顯紋理的區(qū)域替換到生成圖像中去掉多余的紋理以免影響配準(zhǔn)結(jié)果。最后,利用加速魯棒性特征(SURF)[37]算法提取特征點(diǎn),對最終的生成圖像和基準(zhǔn)圖像進(jìn)行圖像配準(zhǔn)。
以上方法的模型、損失函數(shù)、使用數(shù)據(jù)、評價(jià)標(biāo)準(zhǔn)及效果和發(fā)表時間如表1所示。其中“使用數(shù)據(jù)”欄中的SEN1-2和SARptical為公開的用于配準(zhǔn)的數(shù)據(jù)集,其他數(shù)據(jù)均為自制數(shù)據(jù)集,2種模態(tài)的數(shù)據(jù)中間用連接號相連,連接號前為SAR數(shù)據(jù)來源,連接號后為光學(xué)數(shù)據(jù)來源;表中“評價(jià)標(biāo)準(zhǔn)及效果”欄是原文中給出的。由于數(shù)據(jù)集不同、圖像對數(shù)量不同等影響,該欄無法直觀代表各方法的優(yōu)劣。
表1 各方法對比
基于深度學(xué)習(xí)的影像配準(zhǔn)算法必須有數(shù)據(jù)集的支撐以訓(xùn)練特征描述符提取網(wǎng)絡(luò)。由于數(shù)據(jù)獲取和處理的不易,相對其他單模態(tài)或計(jì)算機(jī)視覺領(lǐng)域深度學(xué)習(xí)的公共數(shù)據(jù)集,現(xiàn)有的可開放獲取的SAR與光學(xué)影像數(shù)據(jù)已配準(zhǔn)的數(shù)據(jù)集數(shù)量較少,主要包括SEN1-2[38]系列、So2Sat LCZ42[39]系列等。上述系列數(shù)據(jù)集包含的數(shù)據(jù)皆為哨兵一號SAR影像和哨兵二號光學(xué)影像,這是由于哨兵一號、哨兵二號影像具有匹配度高、連續(xù)性好和免費(fèi)獲取的便利,因此圖像匹配數(shù)據(jù)集大多來源于此。為了豐富訓(xùn)練數(shù)據(jù)的多樣性、提高網(wǎng)絡(luò)的泛化能力,很多學(xué)者也會選擇自制數(shù)據(jù)集。接下來將從現(xiàn)有數(shù)據(jù)集和自制數(shù)據(jù)集兩方面介紹基于深度學(xué)習(xí)的SAR與光學(xué)影像配準(zhǔn)中數(shù)據(jù)集的使用情況。
現(xiàn)有用于影像配準(zhǔn)的公開數(shù)據(jù)集中使用最廣泛的是SEN1-2數(shù)據(jù)集[38]。該數(shù)據(jù)集中包含282 384對已配準(zhǔn)的哨兵一號合成孔徑雷達(dá)影像和哨兵二號光學(xué)影像,圖像尺寸為256 pixel×256 pixel,位深為8位。SEN1-2數(shù)據(jù)集是首個包含超過100 000對圖像對的SAR與光學(xué)遙感影像數(shù)據(jù)集,該數(shù)據(jù)集中的影像采樣自全球大部分地區(qū)和國家,包含城市、耕地、林地、山地和水體等不同種類的地物,數(shù)據(jù)的豐富性使其能夠賦予網(wǎng)絡(luò)良好的泛化能力潛力,并且數(shù)據(jù)集按照季節(jié)和ROI區(qū)域進(jìn)行組織劃分可以容易地分成獨(dú)立的訓(xùn)練和測試數(shù)據(jù),支持對不可見數(shù)據(jù)進(jìn)行無偏估計(jì)。多篇基于深度學(xué)習(xí)的SAR與光學(xué)影像配準(zhǔn)研究[25,29]使用此數(shù)據(jù)集進(jìn)行研究。
SEN1-2中哨兵一號C波段SAR影像的方位向分辨率為5 m,距離像分辨率為20 m,采用VV極化,利用恢復(fù)的軌道信息與30 m SRTM-DEM進(jìn)行了精確的幾何校正,SRTM-DEM缺失的部分采用ASTER DEM進(jìn)行補(bǔ)充,為了使數(shù)據(jù)集能夠滿足不同的使用需求,沒有對SAR影像進(jìn)行斑點(diǎn)噪聲去除。哨兵二號光學(xué)影像采用紅、綠、藍(lán)(波段4、3、2)三通道真彩色合成,與哨兵一號類似未對影像輻射強(qiáng)度進(jìn)行進(jìn)一步處理,采用原有的大氣層頂輻射值來適應(yīng)后續(xù)使用的不同需求。使用谷歌地球引擎(Google Earth Engine)對原始數(shù)據(jù)進(jìn)行處理,處理步驟包括隨機(jī)ROI采樣、數(shù)據(jù)選擇、圖像鑲嵌、圖像導(dǎo)出、首次人工檢查、瓦片化和二次人工檢查。人工檢查的作用是去除大面積無數(shù)據(jù)區(qū)域、厚云區(qū)域和強(qiáng)變形區(qū)域等以保證數(shù)據(jù)集的良好質(zhì)量。
數(shù)據(jù)集SEN12MS[40]是在SEN1-2基礎(chǔ)上對其進(jìn)行擴(kuò)展增加了MODIS土地覆蓋數(shù)據(jù)形成的三元圖像對數(shù)據(jù)集。該數(shù)據(jù)集包含180 662組已配準(zhǔn)的哨兵一號雙極化SAR數(shù)據(jù)、哨兵二號多光譜數(shù)據(jù)和MODIS衍生的土地覆蓋類型圖。與SEN1-2相似,SEN12MS數(shù)據(jù)集中的影像同樣包含多種地物類型,數(shù)據(jù)采樣自全球大部分地區(qū)和國家,并且按照四季和ROI區(qū)域進(jìn)行組織劃分。但數(shù)據(jù)格式不同,SEN1-2中的圖像是8位的PNG格式,SEN12MS提供16位GeoTiffs格式數(shù)據(jù),分辨率全部重采樣至10 m,哨兵一號SAR數(shù)據(jù)包含VV和VH極化兩通道,哨兵二號包含13個多光譜波段(B1,B2,B3,B4,B5,B6,B7,B8,B8a,B9,B10,B11,B12),MODIS土地覆蓋數(shù)據(jù)包含IGBP、LCCS土地覆蓋、LCCS土地利用和LCCS地表水文4個通道。數(shù)據(jù)集SEN12MS的數(shù)據(jù)處理在SEN1-2數(shù)據(jù)處理流程的基礎(chǔ)上將多光譜無云數(shù)據(jù)提取進(jìn)行細(xì)化,犧牲一部分?jǐn)?shù)據(jù)數(shù)量來提高數(shù)據(jù)質(zhì)量。
SEN12MS-CR數(shù)據(jù)集[41]又是在數(shù)據(jù)集SEN12MS基礎(chǔ)上發(fā)展而來的。該數(shù)據(jù)集將SEN12MS中的MODIS土地覆蓋數(shù)據(jù)換為有云的哨兵二號多光譜數(shù)據(jù),用于去云深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。數(shù)據(jù)集包含122 218組已配準(zhǔn)的哨兵一號雙極化SAR數(shù)據(jù)和哨兵二號無云、有云的多光譜數(shù)據(jù),以16位的GeoTiffs格式提供。
除SEN系列外,2020年發(fā)布的So2Sat LCZ42數(shù)據(jù)集[39]同樣使用哨兵一號、哨兵二號數(shù)據(jù),包含400 673組32 pixel×32 pixel大小的已配準(zhǔn)的SAR與光學(xué)圖像對,此外還包含與其對應(yīng)的局地氣候區(qū)(Local Climate Zones,LCZ)分類標(biāo)簽,分布在全球不同國家和文化區(qū)域的42個城市。其中哨兵一號數(shù)據(jù)通過ESA SNAP軟件進(jìn)行處理,包括應(yīng)用軌道文件、輻射校準(zhǔn)、TOPSAR去脈沖、偏振斑點(diǎn)噪聲去除和地形校正5個步驟;哨兵二號通過谷歌地球引擎和Matlab進(jìn)行查詢、評分和拼接3步處理。So2Sat LCZ42數(shù)據(jù)集提供h5格式數(shù)據(jù),分為3個版本:版本1包含訓(xùn)練集和驗(yàn)證集,版本2增加了測試集,版本3增加了其他2種訓(xùn)練集測試集分割。
數(shù)據(jù)集SARptical[42]提供了更精細(xì)尺度上的數(shù)據(jù),由2009—2013年間柏林區(qū)域的109張1 m分辨率Terra-SAR數(shù)據(jù)和9張20 cm分辨率Ultra CAM數(shù)據(jù),分別使用差分SAR層析反演(D-TomoSAR)和光學(xué)多視圖立體匹配估計(jì)來自SAR和光學(xué)數(shù)據(jù)的3-D點(diǎn)云進(jìn)行匹配,匹配精度1~2 m,圖像大小112 pixel×112 pixel。值得注意的是,由于無人機(jī)相對于衛(wèi)星成像距離近成像頻率高的特性造成了其影像角度的多樣性,一張SAR影像可能對應(yīng)多張不同角度的光學(xué)影像。雖然SARptical具有超高分辨率,但數(shù)據(jù)量較小,只有10 000對左右,并且圖像之間有50%左右的重疊,另外數(shù)據(jù)獲取范圍局限在建筑物密集的城市區(qū)域地物類型單一,使其在深度學(xué)習(xí)應(yīng)用中使用十分受限,沒有SEN1-2數(shù)據(jù)集使用廣泛。MOU等[21]和Hughes[22]等使用了此數(shù)據(jù)集。
SEN1-2數(shù)據(jù)集和SARptical數(shù)據(jù)集的影像樣例如圖5所示。高分辨率城市地區(qū)的SAR影像往往伴隨更加嚴(yán)重的幾何畸變。從圖5中可以看出,尺度更大、分辨率較低的SEN1-2數(shù)據(jù)集SAR與光學(xué)影像整體結(jié)構(gòu)上的視覺相似度比小尺度、高分辨率的SARptical數(shù)據(jù)集高,使SEN-2數(shù)據(jù)集更加適合深度網(wǎng)絡(luò)的配準(zhǔn)任務(wù)。SEN1-2衍生數(shù)據(jù)集和So2Sat LCZ42數(shù)據(jù)集雖然包含配準(zhǔn)的SAR與光學(xué)影像圖像對,但卻是為專門的任務(wù)開發(fā),在配準(zhǔn)方面實(shí)用性不高。目前研究中SEN1-2數(shù)據(jù)集和SARptical數(shù)據(jù)集仍為主要使用數(shù)據(jù)。現(xiàn)有公開數(shù)據(jù)集的影像來源、分辨率、圖像對數(shù)量和圖像尺寸等信息如表2所示,列出了現(xiàn)有用于影像配準(zhǔn)的公開數(shù)據(jù)集信息。
(a) SEN1-2數(shù)據(jù)集樣例
表2 公開數(shù)據(jù)集
由于公開的圖像匹配數(shù)據(jù)集大多來源于哨兵一號、哨兵二號的影像,無法滿足一些研究對數(shù)據(jù)來源多樣性的需求,許多學(xué)者選擇自制更符合研究要求的數(shù)據(jù)集。自制的途徑有2種:一是將所研究的多光譜和SAR影像配準(zhǔn)后裁剪生成訓(xùn)練數(shù)據(jù)集;二是利用生成式對抗網(wǎng)絡(luò)將一個模態(tài)的數(shù)據(jù)轉(zhuǎn)換成另一個模態(tài)生成數(shù)據(jù)集。
Merkle等[34]的自制數(shù)據(jù)集使用了46對正射校正,并利用Urban Atlas項(xiàng)目配準(zhǔn)的2.5 m分辨率光學(xué)(PRISM)影像和1.25 m分辨率SAR(TerraSAR-X)影像,總體配準(zhǔn)誤差在3 m以內(nèi),覆蓋歐洲13個城市的郊區(qū)、工業(yè)區(qū)和農(nóng)村地區(qū)。為了獲取更大的數(shù)據(jù)集,將PRISM數(shù)據(jù)重采樣至3.75 m,將TerraSAR-X影像重采樣至2.5,3.75 m分辨率,并且為了探索斑點(diǎn)噪聲對匹配效果的影響,用Deledalle等[44]的方法進(jìn)行了斑點(diǎn)噪聲去除。Zhang等[26]采用3對大區(qū)域的谷歌地球光學(xué)影像與TerraSAR-X雷達(dá)影像制作數(shù)據(jù)集,其中2對數(shù)據(jù)為德國區(qū)域,圖像分辨率為3 m,另一對為加拿大區(qū)域,圖像分辨率為1.75 m。大區(qū)域圖像經(jīng)過粗配準(zhǔn)、在主從影像上搜索特征點(diǎn)、精配準(zhǔn)、選取更多高置信度配準(zhǔn)點(diǎn)等處理步驟后,裁剪了30 178對65 pixel×65 pixel和85 pixel×85 pixel大小的圖像對,組成配準(zhǔn)的SAR與光學(xué)影像數(shù)據(jù)集。
利用GAN影像模態(tài)轉(zhuǎn)換生成制作數(shù)據(jù)集的方法主要包括2種途徑:一是將一種模態(tài)的影像風(fēng)格遷移到另一種模態(tài),再將相同模態(tài)的影像進(jìn)行配準(zhǔn);二是用單幅影像生成與之相對應(yīng)的另一模態(tài)影像組成配準(zhǔn)影像對,進(jìn)而生成跨模態(tài)配準(zhǔn)數(shù)據(jù)集。Merkle等[34]采用第1種途徑,利用小型已配準(zhǔn)的SAR與光學(xué)數(shù)據(jù)集訓(xùn)練生成式對抗網(wǎng)絡(luò)獲得帶有光學(xué)幾何特征的人工類SAR影像后與真實(shí)SAR影響進(jìn)行配準(zhǔn);Quan等[31]提出的生成匹配網(wǎng)絡(luò)(Generative Matching Network,GMN)采用第2種途徑,利用GAN為真實(shí)的光學(xué)和SAR影像生成其對應(yīng)的不同模態(tài)模擬圖像,其中采用生成損失、圖像損失和重建損失分別從分布、像元和重建3個方面對網(wǎng)絡(luò)進(jìn)行優(yōu)化,圖像損失指生成圖像與原始圖像之間逐像元的歐氏距離,重建損失是指原始圖像通過2個生成器重建的同模態(tài)圖像與原始圖像之間的差別,獲得成對的配對和非配對SAR與光學(xué)影像帶標(biāo)簽數(shù)據(jù)集。
基于深度學(xué)習(xí)的SAR與光學(xué)影像配準(zhǔn)評價(jià)和傳統(tǒng)方法圖像配準(zhǔn)的評價(jià)沒有根本的不同,現(xiàn)有研究中一般通過3個方面的指標(biāo)進(jìn)行評價(jià):均方根誤差(Root Mean Square Error,RMSE)和互信息(Mutual Information,MI)、配準(zhǔn)點(diǎn)數(shù)(Number of Correct Correspondences,NOCC)和配準(zhǔn)率(Rate of Correct Correspondences,ROCC)以及配準(zhǔn)效率。
均方根誤差:評估配準(zhǔn)精度,值越小代表配準(zhǔn)效果越好。計(jì)算公式為
(1)
式中,N為用來評價(jià)配準(zhǔn)精度的配準(zhǔn)點(diǎn)對{(xi,yi),(x′i,y′i)}總數(shù)。文獻(xiàn)[23,25,28,31,36]使用RMSE對配準(zhǔn)效果進(jìn)行評估。
互信息:代表2個數(shù)據(jù)集之間的統(tǒng)計(jì)相關(guān)性,可以作為一種圖像對的相似性測量度量,評價(jià)配準(zhǔn)精度[28]。2幅圖像X,Y之間的MI計(jì)算公式為
MI(X,Y)=H(X)+H(Y)-H(X,Y),
(2)
(3)
(4)
式中,H(X),H(Y)分別為圖像X,Y的信息熵;H(X,Y)為兩圖像的聯(lián)合熵;N為圖像的灰度級數(shù);p為某一灰度級出現(xiàn)的概率。計(jì)算時可根據(jù)實(shí)際情況確定對數(shù)運(yùn)算的底數(shù),不同底數(shù)運(yùn)算取得的熵值單位不同。
配準(zhǔn)點(diǎn)數(shù):評價(jià)配準(zhǔn)方法的魯棒性。配準(zhǔn)點(diǎn)數(shù)是指配準(zhǔn)方法在圖像中獲得的正確匹配的配準(zhǔn)點(diǎn)。配準(zhǔn)點(diǎn)數(shù)越多,得到精確的配準(zhǔn)結(jié)果越容易。
配準(zhǔn)率:評價(jià)配準(zhǔn)方法魯棒性的另一個指標(biāo),表示配準(zhǔn)點(diǎn)數(shù)在總配準(zhǔn)數(shù)中的比例。匹配結(jié)果中通常會有誤匹配點(diǎn)。誤匹配點(diǎn)數(shù)(Number of False Correspondences,NOFC)的多少影響配準(zhǔn)的魯棒性,因此,采用ROCC評價(jià)配準(zhǔn)的魯棒性。配準(zhǔn)率是在配準(zhǔn)點(diǎn)中去除誤匹配后正確匹配點(diǎn)占配準(zhǔn)點(diǎn)數(shù)的百分比,計(jì)算公式為:
(5)
配準(zhǔn)點(diǎn)數(shù)與配準(zhǔn)率是基于深度學(xué)習(xí)的SAR與光學(xué)影像配準(zhǔn)結(jié)果評價(jià)中最常用的指標(biāo)。Quan等[31]、宋智禮等[36]以及Shabanov等[45]統(tǒng)計(jì)了配準(zhǔn)點(diǎn)數(shù)量;Zhang等[26,29]統(tǒng)計(jì)了配準(zhǔn)率;Du等[25]和Ma等[28]等同時統(tǒng)計(jì)了配準(zhǔn)點(diǎn)數(shù)和配準(zhǔn)率。
文獻(xiàn)[30]認(rèn)為少數(shù)高質(zhì)量配準(zhǔn)點(diǎn)即可準(zhǔn)確估計(jì)圖像變換參數(shù),因此在配準(zhǔn)過程中加入非極大值抑制等步驟減少配準(zhǔn)點(diǎn)數(shù)量,導(dǎo)致配準(zhǔn)點(diǎn)數(shù)量無法直接用于判斷配準(zhǔn)效果的優(yōu)劣。更精細(xì)的配準(zhǔn)率評價(jià)統(tǒng)計(jì)了配準(zhǔn)誤差在1像元和3像元以內(nèi)的配準(zhǔn)率。
匹配效率通常用網(wǎng)絡(luò)推理時間(Running Time)衡量,配準(zhǔn)網(wǎng)絡(luò)DDFN在GPU環(huán)境下對18 144對圖像對匹配時間為93 s,遠(yuǎn)小于其他配準(zhǔn)方法[29],證明其提出的FFT加速策略效果顯著。
隨著深度學(xué)習(xí)方法的不斷發(fā)展,其在SAR與光學(xué)配準(zhǔn)領(lǐng)域的應(yīng)用獲得了長足進(jìn)步[46],從僅使用CNNs提取特征到端到端的自動配準(zhǔn)網(wǎng)絡(luò)組,配準(zhǔn)效果得到了大幅度提高。但開發(fā)一個快速、準(zhǔn)確提取異源圖像配準(zhǔn)點(diǎn)的網(wǎng)絡(luò)仍面臨以下挑戰(zhàn):
① 數(shù)據(jù)集仍然不足。SAR與光學(xué)配準(zhǔn)網(wǎng)絡(luò)的訓(xùn)練需要大量已配準(zhǔn)的圖像塊,然而制作配準(zhǔn)精度高、數(shù)據(jù)量大的已配準(zhǔn)數(shù)據(jù)集需要對大幅原始數(shù)據(jù)進(jìn)行手工配準(zhǔn)裁剪等處理,耗費(fèi)大量人力物力。SARptical數(shù)據(jù)集[42]和SEN1-2數(shù)據(jù)集[38]是現(xiàn)有研究中使用最廣泛的數(shù)據(jù)集,但仍無法滿足不同研究的多樣性需求。
② 誤匹配點(diǎn)難以剔除。由于遙感圖像相對其他領(lǐng)域圖像的復(fù)雜性以及異源影像的差異性,特征提取、描述和匹配相當(dāng)困難,而且利用圖像局部信息產(chǎn)生的特征之間的相似性作為匹配標(biāo)準(zhǔn)必然會產(chǎn)生一定數(shù)量的誤匹配,這將會嚴(yán)重影響圖像變換的準(zhǔn)確性進(jìn)而影響最終配準(zhǔn)結(jié)果。
③ 匹配效率提升困難。由于異源數(shù)據(jù)在輻射、幾何特征上的巨大差異導(dǎo)致網(wǎng)絡(luò)參數(shù)增多,即使使用孿生網(wǎng)絡(luò)同步更新雙支路參數(shù)也會比同源數(shù)據(jù)消耗更多計(jì)算量,因此SAR與光學(xué)影響匹配的網(wǎng)絡(luò)訓(xùn)練和預(yù)測效率難以得到提升。
針對以上問題,基于深度學(xué)習(xí)的SAR與光學(xué)影像配準(zhǔn)將在以下方面尋求突破:① 開發(fā)能夠使用非對應(yīng)數(shù)據(jù)集的半監(jiān)督[33]、無監(jiān)督網(wǎng)絡(luò),或使用遷移學(xué)習(xí)等方法來適應(yīng)數(shù)據(jù)集的不足;② 探索更加適合深度網(wǎng)絡(luò)的誤匹配剔除方式[30]代替?zhèn)鹘y(tǒng)RANSAC等方法對配準(zhǔn)點(diǎn)進(jìn)行優(yōu)化;③ 優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)減少參數(shù)或使用FFT等加速方法提高配準(zhǔn)效率。