鄧良劍,冉燃,吳瀟,張?zhí)砭?/p>
電子科技大學(xué),成都 611731
遙感衛(wèi)星搭載的成像傳感器旨在采集能夠精確記錄和反映地物特征的多/高光譜圖像數(shù)據(jù)。提升傳感器在光譜域與空間域的響應(yīng)范圍可以獲得高分辨率的圖像數(shù)據(jù)。然而受到搭載衛(wèi)星信噪比、衍射極限等因素的限制,很難獲得高分辨率的遙感圖像(張良培和張立福,2011)。解決這一問題的一個有效方案就是利用全色銳化技術(shù)將特征互補(bǔ)的圖像數(shù)據(jù)進(jìn)行融合,進(jìn)而得到高分辨率的遙感圖像(肖亮等,2020)。
全色銳化(即遙感圖像全色銳化(pansharpening))旨在應(yīng)用信號處理、機(jī)器學(xué)習(xí)等方法將遙感衛(wèi)星搭載的不同傳感器所記錄的同一目標(biāo)區(qū)域的單波段高空間分辨率全色圖像(panchromatic,PAN)與低空間分辨率的多光譜圖像(low-spatial resolution multispectral,LRMS)進(jìn)行信息融合、優(yōu)勢互補(bǔ),從而得到優(yōu)質(zhì)的高空間分辨率的多光譜圖像(high-spatial resolution multispectral,HRMS)(王樂和楊曉敏,2021)。其具體過程如圖1所示,將同一地表場景獲取的高空間分辨率全色圖像(左)和低空間分辨率的多光譜圖像(中)進(jìn)行融合,最終得到高空間分辨率的融合圖像(右)。
圖1 全色銳化問題示例(來源:WorldView-3 衛(wèi)星)
空間和光譜分辨率是衡量遙感圖像應(yīng)用價值的兩個重要指標(biāo)??臻g分辨率指的是遙感圖像中能夠識別的兩個相鄰地物之間的最小距離,而光譜分辨率則是指傳感器可以分辨的最短波長間隔。因此HRMS圖像具有豐富的空間信息和光譜信息,能夠準(zhǔn)確地觀察和識別到目標(biāo)地物的大小、形狀等幾何特征,同時精細(xì)地反映地物的內(nèi)在物理特性。全色銳化技術(shù)使得LRMS和PAN圖像的有效信息得到充分利用,突破了單一成像傳感器的局限性,極大提高了遙感圖像的應(yīng)用價值。目前世界各國發(fā)射的很多衛(wèi)星都搭載了各種不同的成像傳感器,能夠同時獲得LRMS與PAN圖像,例如美國“WorldView”系列衛(wèi)星,以及中國“高分”系列衛(wèi)星。將這些圖像進(jìn)行融合得到HRMS圖像,能夠為后續(xù)的分析和應(yīng)用提供更好的數(shù)據(jù)支撐,為遙感監(jiān)測技術(shù)提供有利保障。因此,全色銳化技術(shù)具有廣闊的應(yīng)用前景和重要的社會經(jīng)濟(jì)效益。例如,多光譜遙感技術(shù)與軍事發(fā)展息息相關(guān),這帶來了巨大的商業(yè)價值。美國軍事影像情報部門使用的世界上首顆空間分辨率達(dá)到 1 m的遙感衛(wèi)星是由美國DigitalGlobe公司于1999年發(fā)射的IKONOS衛(wèi)星,成為太空時代的一個重大里程碑。2006年,我國啟動了“高分辨率對地觀測系統(tǒng)重大專項”,構(gòu)建了穩(wěn)定運(yùn)行的高分辨率對地觀測體系,推動了空間信息產(chǎn)業(yè)的發(fā)展。此外,隨著遙感技術(shù)的迅猛發(fā)展,人類不斷獲取到豐富的遙感圖像數(shù)據(jù),通過全色銳化技術(shù)獲得的HRMS圖像在地質(zhì)勘探、環(huán)境監(jiān)測、精準(zhǔn)農(nóng)業(yè)分析和國防安全等領(lǐng)域都發(fā)揮著重要作用,是相關(guān)產(chǎn)業(yè)技術(shù)領(lǐng)域所倚重的重要信息技術(shù)手段。目前針對全色銳化問題已有大量的研究工作,特別是受到廣泛關(guān)注的基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的方法,展示出了其出色的融合能力(楊勇 等,2022)。然而,這個領(lǐng)域依然存在一些亟待解決的問題,如缺少公開公平的數(shù)據(jù)集和簡單高效的代碼編寫框架等,從而制約了基于CNN的全色銳化方法的發(fā)展。綜上,本文關(guān)注的基于CNN的全色銳化問題具有重要的科學(xué)研究和實際應(yīng)用價值。
全色銳化研究發(fā)展至今,大量關(guān)于全色銳化的方法相繼提出。通常全色銳化方法大致可分為成分替代法(component substitution,CS)、多分辨率分析法(multiresolution analysis,MRA)、變分優(yōu)化方法(variational optimization,VO)和機(jī)器學(xué)習(xí)方法(machine learning,ML)4大類。本文在此分類的基礎(chǔ)上,按照提出時間將前3類歸為傳統(tǒng)方法,一些優(yōu)秀綜述如Vivone等人(2015)對傳統(tǒng)方法進(jìn)行了深入分析。本文將進(jìn)一步討論當(dāng)前一個重要的主流方法——深度學(xué)習(xí)方法。
本文將CS方法、MRA方法和基于VO的方法視做傳統(tǒng)方法。其中CS方法主要思想是將LRMS圖像投影在變換域,用PAN圖像的空間細(xì)節(jié)替換LRMS的空間信息分量,同時盡量保持其原有的光譜信息。代表性方法包括強(qiáng)度—色調(diào)—飽和度方法(Carper等,1990;Laben和Brower,2000)、主成分分析方法(Chavez和Kwarteng,1989;Shah等,2008;Shettigara,1992)、格拉姆—施密特方法(Tu等,2001)和自適應(yīng)成分替換方法(Choi等,2011)等。MRA方法主要思想是通過對LRMS圖像進(jìn)行多分辨率分解,提取其空間成分,用高頻細(xì)節(jié)信息豐富的全色圖像進(jìn)行替換。代表性方法包括拉普拉斯金字塔分解(Burt和Adelson,1987)、小波變換方法(Mallat,1989;Nason和Silverman,1995)和輪廓波方法(Do和Vetterli,2005)等。此外,基于VO的方法利用已知的先驗信息構(gòu)建正則項對模型進(jìn)行合理約束,通過高效的求解算法得到最終的全色銳化結(jié)果。代表性方法包括基于稀疏先驗構(gòu)造正則項的全色銳化模型(Fang等,2013)、基于圖像的非局部相似性(Buades等,2014)和分片光滑性(Deng等,2019)的正則化模型,這些方法可顯著提高模型的光譜與空間維度的保真能力。上述3類方法的優(yōu)缺點詳見表1。
表1 主要方法的優(yōu)缺點粗略比較
得益于計算機(jī)軟硬件技術(shù)的發(fā)展,基于ML的方法(Deng等,2022)在全色銳化問題上展示出了巨大潛力。主流的ML方法主要包括字典學(xué)習(xí)(dictionary learning)方法(Cheng等,2014;Fang等,2013;Li等,2013;Zhu等,2016)和基于深度學(xué)習(xí)(deep learning,DL)的方法。
字典學(xué)習(xí)是一種特殊的數(shù)據(jù)表示方法,主要基于稀疏編碼從輸入數(shù)據(jù)中找到稀疏線性表示,形成所謂的字典矩陣和相應(yīng)系數(shù)。但這類方法通常也是基于一些人工先驗假設(shè)(比如稀疏性)下建立模型,如果假設(shè)并不是非常精確,則此類方法就會像傳統(tǒng)VO方法一樣效果受到限制。
深度學(xué)習(xí)(deep learning,DL)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,隨著DL技術(shù)在眾多領(lǐng)域取得突破,將深度學(xué)習(xí)技術(shù)應(yīng)用到全色銳化問題成為一個重要的探索領(lǐng)域。2015年,Huang等人(2015)受到稀疏去噪任務(wù)的自動編碼器方案啟發(fā),開創(chuàng)性地將DL技術(shù)用于全色銳化問題。2016年,Masi等人(2016)搭建并訓(xùn)練了第一個基于CNN的全色銳化網(wǎng)絡(luò)PNN(pansharpening by convolutional neural network),該架構(gòu)主要由3個卷積層組成,其靈感來自于單圖超分辨率問題的卷積神經(jīng)網(wǎng)絡(luò)SRCNN(super-resolution CNN)(Dong等,2016)。PNN方法作為第一個基于CNN的全色銳化方法獲得了當(dāng)時最優(yōu)秀的融合結(jié)果,同時也啟發(fā)后續(xù)學(xué)者沿著此工作不斷開展研究,不過由于PNN方法只有3個卷積層,并且沒有使用能加速收斂的跳躍連接技術(shù),因此這個方法在效果和收斂速度上相較于后來的方法都是較弱的。同時,Zhong等人(2016)也提出了一種基于GS(Gerchberg-Saxton)變換的全色銳化方法,其利用高效的超分辨率CNN對LRMS圖像進(jìn)行超分辨率融合。得益于CNN強(qiáng)大的非線性擬合和特征表示能力,在這些開創(chuàng)性的方法取得非常優(yōu)秀的效果之后,這一方向受到了更多研究人員的關(guān)注,大量基于DL的全色銳化工作相繼提出。與PNN簡單的網(wǎng)絡(luò)結(jié)構(gòu)不同,后續(xù)的全色銳化網(wǎng)絡(luò)結(jié)構(gòu)得到了加深和拓寬,在訓(xùn)練階段具有越來越復(fù)雜的模型結(jié)構(gòu)。例如,基于殘差學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效緩解梯度消失和爆炸現(xiàn)象,從而加快網(wǎng)絡(luò)收斂,廣泛應(yīng)用于全色銳化問題(Wei等,2017;Yang等,2017)。這些算法雖然在網(wǎng)絡(luò)的深度和寬度方面不斷加強(qiáng)并且取得較好的效果,但是其還未充分挖掘圖像的另一個重要性質(zhì),即多尺度性質(zhì)。隨后,多尺度金字塔結(jié)構(gòu)的網(wǎng)絡(luò)能夠獲取不同尺度下圖像所包含的信息,取得了優(yōu)越的效果(Yuan等,2018;Zhang等,2019;Zhang等,2022)。
在最近的研究中,無監(jiān)督學(xué)習(xí)策略也被引入到全色銳化領(lǐng)域(Liu等,2021;Luo等,2020;Ma等,2020;Qu等,2021)。無監(jiān)督學(xué)習(xí)旨在探索沒有任何標(biāo)記數(shù)據(jù)下的網(wǎng)絡(luò)潛在特征,這意味著不需要標(biāo)簽數(shù)據(jù)集進(jìn)行訓(xùn)練,其效果主要依賴于損失函數(shù)的構(gòu)建。無監(jiān)督學(xué)習(xí)是未來研究的重要方向,其優(yōu)點是可以根據(jù)實際數(shù)據(jù)進(jìn)行學(xué)習(xí),進(jìn)而得到效果優(yōu)良、泛化性好的結(jié)果;而其弱點在于缺乏足夠好的損失函數(shù),造成不充分的訓(xùn)練學(xué)習(xí),通常效果并不比基于監(jiān)督學(xué)習(xí)的方法效果更優(yōu)。此外,Liu等人(2021)首次利用生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)來解決全色銳化問題(稱為PSGAN(pansharpening GAN));該方法由一個用于輸出HRMS圖像的生成器和一個判斷圖像真實性的鑒別器組成,實驗驗證了其在真實數(shù)據(jù)上的有效性。Ma等人(2020)提出了一種新的無監(jiān)督全色銳化方法,可以避免高分辨率圖像退化仿真時帶來的分辨率損失。而Qu等人(2021)提出了一種基于自注意力機(jī)制的無監(jiān)督學(xué)習(xí)全色銳化技術(shù),實驗驗證了這類方法具有良好的泛化能力?;贕AN的方法具有很好的全色銳化效果,尤其是對真實數(shù)據(jù)效果通常較好;但這類方法有時候會造成“無中生有”的效果,產(chǎn)生一些不真實存在的圖像細(xì)節(jié)。
除了上述4種主流全色銳化方法外,近期研究人員還從不同角度展開了相關(guān)研究。例如,基于非負(fù)矩陣分解的全色銳化方法(Berné等,2010;Kawakami等,2011;Yokoya等,2012)、基于貝葉斯的全色銳化方法(Hardie等,2004;Molina等,2008;Zhang等,2009)等。
此外,一些將傳統(tǒng)VO方法和DL方法結(jié)合的混合方法成為全色銳化等圖像融合領(lǐng)域的一個前景方向(Dian等,2021;Feng等,2022;Shen等,2019;Wu等,2020,2022;Xie等,2020),這種結(jié)合可以共享不同方法的優(yōu)點,如深度學(xué)習(xí)的高精度圖像融合效果和傳統(tǒng)VO方法優(yōu)秀的數(shù)據(jù)泛化性。將DL方法和VO方法組合的技術(shù)路線目前主要分為3類:變分優(yōu)化模型展開策略(unfolding vo model)(Feng等,2022;Xu等,2021;Xie等,2020)、即插即用策略(plug-and-play,PnP)(Teodoro等,2017)和深度嵌入式變分優(yōu)化模型的策略(Shen等,2019;Wu等,2020,2022)。針對模型展開的方法,Xie等人(2020)通過將構(gòu)建的傳統(tǒng)變分優(yōu)化模型展開為若干個子問題,對每個子問題的求解構(gòu)建合適的網(wǎng)絡(luò)近似對應(yīng),最后通過端到端的訓(xùn)練獲得優(yōu)秀的高光譜和多光譜圖像融合效果。Feng等人(2022)首先提出一個基于空間細(xì)節(jié)分解的兩步優(yōu)化模型,然后在梯度下降的框架下將給定的模型展開,進(jìn)一步構(gòu)建出相應(yīng)的端到端CNN網(wǎng)絡(luò)結(jié)構(gòu)。變分優(yōu)化模型展開成網(wǎng)絡(luò)的方法綜合了優(yōu)化模型良好泛化性和深度學(xué)習(xí)方法大數(shù)據(jù)訓(xùn)練的優(yōu)點,獲得非常優(yōu)秀的融合結(jié)果。不過據(jù)作者所了解,因為模型展開的方法涉及到求解優(yōu)化模型的大量外迭代,從而使這類模型的算法參數(shù)和計算量相較于其他深度學(xué)習(xí)方法更多。而針對PnP的方法,Teodoro 等人(2017)首先假設(shè)出隱式的先驗正則項,然后通過變量替換等技術(shù)將原始帶隱式先驗的優(yōu)化問題轉(zhuǎn)化為若干個子問題,其中一個為帶隱式先驗的去噪子問題,通過其他已有的高效去噪器(如BM3D)可快速求解此子問題,最后在外迭代框架下不斷更新問題的解,最終獲得融合圖像。這類方法設(shè)計巧妙,并且能有效結(jié)合傳統(tǒng)優(yōu)化模型和深度學(xué)習(xí)方法的優(yōu)點,但是其依然和模型展開方法一樣可能會遭遇模型參數(shù)和計算量大的缺點。針對深度嵌入式變分優(yōu)化模型的方法,Shen等人(2019)將從DL模型學(xué)習(xí)到的全色銳化結(jié)果嵌入到梯度域下的變分優(yōu)化模型框架中,該策略雖然簡單,但在實際應(yīng)用中效果非常優(yōu)秀。Wu等人(2022)進(jìn)一步考慮構(gòu)建刻畫深度學(xué)習(xí)全色銳化圖像和潛在高分辨率圖像之間距離的深度嵌入項,并設(shè)計一個自適應(yīng)權(quán)重算子用于約束這兩個圖像之間像素級的距離關(guān)系;最終的變分優(yōu)化模型由兩個傳統(tǒng)的保真項和所提的深度嵌入項構(gòu)成;這類方法將傳統(tǒng)方法和深度學(xué)習(xí)方法融合在統(tǒng)一的優(yōu)化模型框架下,進(jìn)而針對優(yōu)化模型設(shè)計相關(guān)算法;這種方法取得了優(yōu)異的融合效果,并且深度先驗可以直接來自于預(yù)訓(xùn)練模型,可以不消耗巨大的網(wǎng)絡(luò)模型參數(shù)和計算量。
本文的主要貢獻(xiàn)如下:
1)從全色銳化發(fā)展的角度,對其概念、意義以及國內(nèi)外研究趨勢進(jìn)行回顧。詳細(xì)介紹7種典型的基于CNN的全色銳化方法,并在統(tǒng)一的數(shù)據(jù)集、代碼框架下進(jìn)行公平比較。
2)發(fā)布全色銳化訓(xùn)練和測試數(shù)據(jù)集“PanCollection”,并對數(shù)據(jù)集的產(chǎn)生細(xì)節(jié)進(jìn)行介紹。據(jù)作者了解,發(fā)布的數(shù)據(jù)集是國內(nèi)外第一個可以直接用于深度學(xué)習(xí)訓(xùn)練和測試的全色銳化數(shù)據(jù)集。讀者可以非常容易地將其應(yīng)用于深度學(xué)習(xí)方法。
3)針對以往全色銳化深度學(xué)習(xí)代碼編寫方式不統(tǒng)一,進(jìn)而可能造成的不公平比較問題,本文將發(fā)布一個基于Pytorch深度學(xué)習(xí)庫的統(tǒng)一Python代碼編寫框架(上述比較的7種深度學(xué)習(xí)方法均在此框架下進(jìn)行)。此代碼框架具有統(tǒng)一的數(shù)據(jù)輸入/輸出結(jié)構(gòu),以及簡單、高效的代碼編寫框架。讀者只需要將框架中的核心部分更改為自己方法的模塊,即可迅速獲得模型的輸出。
4)發(fā)布統(tǒng)一的全色銳化傳統(tǒng)—深度學(xué)習(xí)方法MATLAB測試軟件包,便于后來學(xué)者進(jìn)行公平的測試。此外,本文將對本領(lǐng)域未來的研究方向進(jìn)行討論和展望。
本文將詳細(xì)介紹7種具有代表性的基于CNN的全色銳化方法,包括網(wǎng)絡(luò)結(jié)構(gòu)、方法細(xì)節(jié)和一些相關(guān)的討論。這7種方法分別為PNN(CNN-based pansharpening)(Masi等,2016),PanNet(deep network for pan-sharpening)(Yang等,2017),DiCNN(detail injection based convolutional neural network)(He等,2019),MSDCNN(multiscale and multidepth CNN)(Yuan等,2018),BDPN(bidirectional pyramid network)(Zhang等,2019),F(xiàn)usionNet(deep convolutional neural network for fusion)(Deng等,2021)和LAGConv(local-context adaptive convolution)(Jin等,2022)。這些方法都屬于監(jiān)督學(xué)習(xí)的范疇,因此它們的表現(xiàn)主要依賴于在仿真數(shù)據(jù)集上的訓(xùn)練。本文將在相同的訓(xùn)練和測試數(shù)據(jù)集上對它們進(jìn)行比較。同時值得強(qiáng)調(diào)的是,本文并未選擇無監(jiān)督方法或者基于GAN的方法進(jìn)行比較,因為它們需要和監(jiān)督學(xué)習(xí)不一樣的數(shù)據(jù)集,進(jìn)而無法進(jìn)行公平的比較。
作為基于PNN的全色銳化開山之作,Masi等人(2016)在2016年首次將一個簡單的3層CNN結(jié)構(gòu)應(yīng)用于全色銳化任務(wù)(簡稱PNN),并獲得優(yōu)秀的融合效果。這個3層結(jié)構(gòu)來自于自然圖像單圖超分辨率方法SRCNN(Dong等,2016)。針對全色銳化這個新任務(wù),PNN首先對低分辨率多光譜圖像LRMS進(jìn)行插值上采樣到全色圖的尺寸。然后將上采樣后的圖像與PAN圖沿譜維度進(jìn)行疊加,形成網(wǎng)絡(luò)的輸入。這個輸入已經(jīng)是高分辨率目標(biāo)圖像的尺寸,因此在網(wǎng)絡(luò)的中間層不需要使用任何上采樣操作。當(dāng)網(wǎng)絡(luò)的輸入通過PNN的3層卷積后,網(wǎng)絡(luò)獲得和多光譜圖像MS具有相同光譜波段數(shù)的輸出。最終網(wǎng)絡(luò)的輸出和高分辨率多光譜圖像在L2損失函數(shù)下進(jìn)行網(wǎng)絡(luò)訓(xùn)練,得到網(wǎng)絡(luò)的訓(xùn)練參數(shù)。具體網(wǎng)絡(luò)結(jié)構(gòu)詳見圖2(a)。
盡管 PNN 只是簡單利用SRCNN中的3層CNN網(wǎng)絡(luò)架構(gòu)并將其擴(kuò)展到全色銳化任務(wù),但這個方法的提出在基于深度學(xué)習(xí)的全色銳化領(lǐng)域扮演著相當(dāng)重要的角色,已經(jīng)成為基于深度學(xué)習(xí)全色銳化方法的一個基準(zhǔn)方法。由于PNN的主要結(jié)構(gòu)只涉及3個簡單的沒有任何跳躍連接的卷積層,它的收斂速度相對較慢,不過其網(wǎng)絡(luò)參數(shù)較少。
Yang等人(2017)提出PanNet全色銳化網(wǎng)絡(luò),其主要思想是將全色銳化任務(wù)分為兩個目標(biāo),即光譜保真和空間細(xì)節(jié)注入。具體來說,為了光譜保真,PanNet將具有較好光譜信息的上采樣MS圖直接和空間細(xì)節(jié)學(xué)習(xí)網(wǎng)絡(luò)的輸出相加,這樣可以有效地將光譜信息直接傳播到輸出圖像??臻g細(xì)節(jié)學(xué)習(xí)網(wǎng)絡(luò)主要包含一個預(yù)處理卷積層,其可以增加特征通道;然后采用4個ResNet塊,其可以有效加深網(wǎng)絡(luò)深度以獲得更好的特征提取。PanNet網(wǎng)絡(luò)同樣采用L2損失函數(shù)進(jìn)行網(wǎng)絡(luò)參數(shù)的訓(xùn)練。具體網(wǎng)絡(luò)結(jié)構(gòu)詳見圖2(b)。
圖2 本文涉及的7種代表性的基于CNN的全色銳化方法
通常大多數(shù)基于深度學(xué)習(xí)的全色銳化技術(shù)都是在圖像域上設(shè)計網(wǎng)絡(luò),而PanNet 的設(shè)計思想是在高頻域上設(shè)計網(wǎng)絡(luò)架構(gòu)。這種在高頻域上的網(wǎng)絡(luò)設(shè)計策略可以獲得優(yōu)秀的數(shù)據(jù)泛化性,因為從不同傳感器獲得的圖像具有類似的高頻信息分布。此外,由于高頻細(xì)節(jié)特征圖大部分像素值接近于零,使得映射空間減少,進(jìn)而網(wǎng)絡(luò)更加容易訓(xùn)練。
He等人(2019)提出一種基于圖像細(xì)節(jié)注入的全色銳化深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),其可有效學(xué)習(xí)多光譜圖像的細(xì)節(jié)信息并將其注入到低分辨多光譜圖像,這一過程與傳統(tǒng)的濾波方法物理過程相似。文中提出兩種基于細(xì)節(jié)注入的全色銳化模型,它們和PNN相似,都是受到SRCNN的啟發(fā),構(gòu)建兩個3層的卷積網(wǎng)絡(luò)。但是不同于PNN,DiCNN的兩個模型都加上了跳躍連接。這種策略有助于緩解梯度爆炸并加速網(wǎng)絡(luò)的收斂。本文采用的模型即為DiCNN的第1個模型(為了方便,這里稱其為DiCNN方法)。DiCNN方法首先將PAN圖和上采樣的低分辨率MS圖串聯(lián)在一起,然后進(jìn)入3個簡單的卷積層用于學(xué)習(xí)圖像的殘差細(xì)節(jié),最后網(wǎng)絡(luò)的輸出直接與上采樣的低分辨率MS圖像相加得到最終的融合圖像輸出,并在L2損失函數(shù)下進(jìn)行網(wǎng)絡(luò)訓(xùn)練。這個方法的結(jié)構(gòu)非常簡單、高效,并且由于其簡單的網(wǎng)絡(luò)結(jié)構(gòu)所涉及的參數(shù)量很小。具體網(wǎng)絡(luò)結(jié)構(gòu)詳見圖2(c)。
總體來說,與其他圖像處理任務(wù)相似,跳躍連接的策略對于全色銳化任務(wù)非常有效,其可以有效提高網(wǎng)絡(luò)訓(xùn)練的收斂速度甚至精度,也是后來全色銳化深度學(xué)習(xí)網(wǎng)絡(luò)最常使用的策略。DiCNN方法在全色銳化表現(xiàn)優(yōu)秀,并且參數(shù)量少,不過也是由于其網(wǎng)絡(luò)結(jié)構(gòu)簡單參數(shù)量少,不能更加有效地提取特征,因此在融合效果上稍微遜于其他具有更深層網(wǎng)絡(luò)的方法。
Yuan等人(2018)提出了MSDCNN全色銳化網(wǎng)絡(luò)結(jié)構(gòu),其核心思想就是通過不同大小的卷積核去卷積特征圖,進(jìn)而提取能表征不同尺度并具有不同感受野的特征,從而增強(qiáng)網(wǎng)絡(luò)的表示能力。在全色銳化問題中,圖像的結(jié)構(gòu)和紋理細(xì)節(jié)對修復(fù)的結(jié)果非常重要。而由于遙感圖像獲取的時間不同,地物目標(biāo)的大小變化很大、種類眾多等因素,因此如何有效刻畫表示圖像的多尺度特征顯得尤為重要。針對這個問題,作者提出了一種包含3個并行卷積層的多尺度模塊,每個并行卷積層的卷積核大小分別為3、5和7。此外,作者還針對每個多尺度塊采用跳躍連接進(jìn)而形成多尺度殘差塊(分支1)。另外,MSDCNN還采用具有3個卷積層的淺層網(wǎng)絡(luò)去提取淺層特征,這3個卷積層的卷積核大小分別為9、1和5(分支2)。最終將兩個分支的輸出結(jié)果相加得到融合圖像。具體網(wǎng)絡(luò)結(jié)構(gòu)見圖2(d)。
總體來說,MSDCNN受益于通過不同大小的卷積核獲得不同尺度的特征(稱為多尺度操作)。通過這種策略,具有不同感受野的特征圖被整合在一起去改進(jìn)特征提取的精度。此外,第2個分支結(jié)構(gòu)通過簡單的卷積層去靈活學(xué)習(xí)所謂的淺層特征,但實際上這個分支效果不明顯,反而會讓兩個分支過于靈活,導(dǎo)致深淺層特征學(xué)習(xí)的不確定性。
傳統(tǒng)基于MRA的方法主要是通過手工提取PAN圖的多尺度細(xì)節(jié)信息來改進(jìn)MS圖的空間分辨率。而多尺度細(xì)節(jié)信息提取對全色銳化的質(zhì)量尤為重要,如果細(xì)節(jié)提取不足會造成圖像模糊,但如果細(xì)節(jié)提取過多則會導(dǎo)致圖像偽影和光譜失真現(xiàn)象。為了更精確地提取多光譜圖像中的多尺度細(xì)節(jié)信息,Zhang等人(2019)提出一種雙方向多尺度學(xué)習(xí)的全色銳化方法(稱為BDPN)。這種方法根據(jù)傳統(tǒng)的MRA方法思想,設(shè)計了一種基于金字塔結(jié)構(gòu)的雙方向網(wǎng)絡(luò)架構(gòu)去分別處理低分辨MS圖和高分辨率PAN圖。通過這個網(wǎng)絡(luò),PAN圖的多尺度細(xì)節(jié)可以有效被提取出來并注入到MS圖得到高分辨率輸出。具體地,整個網(wǎng)絡(luò)結(jié)構(gòu)在不同尺度間轉(zhuǎn)換,其中提取細(xì)節(jié)的網(wǎng)絡(luò)使用了數(shù)個經(jīng)典的殘差網(wǎng)絡(luò)塊(ResBlock),而重構(gòu)圖像的網(wǎng)絡(luò)采用子像素卷積層(subpixel convolutional layer)去上采樣MS像。因為網(wǎng)絡(luò)中間會產(chǎn)生多個不同尺度的輸出,所以這種方法采用了多個損失函數(shù)監(jiān)督訓(xùn)練的策略。具體網(wǎng)絡(luò)結(jié)構(gòu)見圖2(e)。
雖然雙方向網(wǎng)絡(luò)結(jié)構(gòu)的想法之前已在其他多分辨率融合任務(wù)上提出(如深度圖像超分辨率(depth image SR)(Hui等,2016)),但是BDPN首次將這種思想引入到全色銳化領(lǐng)域,并證明了這種結(jié)構(gòu)的有效性。但是由于其使用的多尺度卷積層太多,導(dǎo)致BDPN方法具有大量參數(shù)。而Zhuo等人(2022)提出基于高通濾波的多尺度卷積網(wǎng)絡(luò)并使用更少參數(shù)的網(wǎng)絡(luò)來提取特征,在高光譜全色銳化上取得了更好的結(jié)果。因此,探索如何采用更有效的方法來減輕這類方法的參數(shù)量仍然是一個研究熱點。
傳統(tǒng)基于CS和MRA的全色方法取得了非常優(yōu)秀的效果,然而這些傳統(tǒng)方法是在假設(shè)線性注入模型的基礎(chǔ)上建立的,實際上并不適用于傳感器的光譜響應(yīng)特性。而CNN方法具有優(yōu)秀的非線性表征能力,這激發(fā)了研究人員利用非線性技術(shù)(如CNN)來替代傳統(tǒng)的線性全色銳化模型的想法。在Deng等人(2021)的方法中,聯(lián)合CNN方法和傳統(tǒng)方法(如CS和MRA)的物理模型思想,提出一種新型全色銳化融合網(wǎng)絡(luò)架構(gòu)(稱為FusionNet)。其主要策略就是通過深度網(wǎng)絡(luò)結(jié)構(gòu)去估計關(guān)于上采樣MS圖和PAN圖細(xì)節(jié)的非線性注入模型。不同于PanNet采用高通濾波器提取圖像細(xì)節(jié),F(xiàn)usionNet直接用原始的上采樣MS圖與PAN圖作差提取圖像細(xì)節(jié),這種方式可以有效保持圖像的空間信息和潛在的光譜信息。所提取的細(xì)節(jié)被輸入到數(shù)個殘差網(wǎng)絡(luò)塊進(jìn)行特征提取和細(xì)節(jié)學(xué)習(xí),最后的輸出與上采樣MS圖進(jìn)行相加獲得融合圖像。FusionNet依然采用常用的L2損失函數(shù)進(jìn)行網(wǎng)絡(luò)的訓(xùn)練。具體網(wǎng)絡(luò)結(jié)構(gòu)見圖2(f)。
得益于傳統(tǒng)方法啟發(fā)的FusionNet可以在輸入和輸入之間進(jìn)行更好更快的數(shù)據(jù)回歸,在訓(xùn)練和測試時獲得有競爭力的結(jié)果。
前述基于CNN的全色銳化方法都是基于傳統(tǒng)卷積方式的方法,而基于傳統(tǒng)卷積方式的深度模型在空間全局區(qū)域都采用一組相同的卷積核來提取特征,這樣限制網(wǎng)絡(luò)特征的表達(dá)能力并使得網(wǎng)絡(luò)難以優(yōu)化。例如在空間的不同局部區(qū)域可能存在不同的目標(biāo)特征,而整個空間上只采用一組相同的卷積核提取特征顯然不是最優(yōu)的。為了解決這個問題,Jin等人(2022)提出一種能夠?qū)植績?nèi)容自適應(yīng)的卷積模塊LAGConv,其主要包括局部自適應(yīng)卷積核生成和全局偏置機(jī)制。局部自適應(yīng)卷積核的生成方式采用在傳統(tǒng)卷積核上乘上可學(xué)習(xí)的自適應(yīng)權(quán)重矩陣來實現(xiàn),其主要涉及兩個維度規(guī)模較小的全連接網(wǎng)絡(luò)。而全局偏置機(jī)制主要是為了補(bǔ)充前面的局部自適應(yīng)卷積造成的全局信息丟失問題,其實現(xiàn)也是通過兩個規(guī)模較小的全連接網(wǎng)絡(luò)來實現(xiàn)。所提的整體網(wǎng)絡(luò)框架詳見圖2(g),而LAGConv模塊的細(xì)節(jié)見圖2(g)的右下角。
LAGConv方法能非常高效地提取并表示特征,且網(wǎng)絡(luò)的參數(shù)也不高,其可以非??焖俸陀行У財M合訓(xùn)練數(shù)據(jù),因此在相應(yīng)的測試數(shù)據(jù)上表現(xiàn)優(yōu)秀。
上述7種方法的優(yōu)缺點可以在表2中找到。除了上述7種代表性的基于CNN的全色銳化方法,還有很多優(yōu)秀方法從不同角度陸續(xù)提出,這里不作詳細(xì)介紹。本文的目的在于針對這些CNN方法在統(tǒng)一公開的數(shù)據(jù)集、代碼框架上進(jìn)行比較,以給讀者對于全色銳化問題一個全局的視角,推動本領(lǐng)域的發(fā)展。
表2 7種深度學(xué)習(xí)方法的優(yōu)缺點總結(jié)
數(shù)據(jù)集是基于深度學(xué)習(xí)的方法最重要的因素之一,以往的工作有時數(shù)據(jù)集各異、細(xì)節(jié)不明,造成讀者對本領(lǐng)域的困惑,也抑制了本領(lǐng)域的健康發(fā)展。本文一個重要的目的就是努力講清楚基于深度學(xué)習(xí)的全色銳化數(shù)據(jù)集的來龍去脈,為后續(xù)初學(xué)者作參考。本文將具體從如下方面進(jìn)行說明。
本文將在3種衛(wèi)星傳感器獲取的數(shù)據(jù)集上進(jìn)行CNN的訓(xùn)練和測試,數(shù)據(jù)集的具體信息如下。
1)WorldView-3(WV3)數(shù)據(jù)集。此數(shù)據(jù)集主要由WV3衛(wèi)星在可見光和近紅外光譜范圍獲取的全色圖像和多光譜圖像(波段數(shù)為8)數(shù)據(jù)組成,全色圖像和多光譜圖像的空間采樣間隔(spatial sampling interval,SSI)分別為0.3 m和1.2 m,它們之間的空間分辨率比例為4,輻射測量分辨率(radiometric resolution)為11位。本數(shù)據(jù)集主要包含由WV3衛(wèi)星拍攝的兩個地方的圖像數(shù)據(jù),即: WV3 Rio和WV3 Tripoli。為了表征不同季相同地點的地表變化情況,進(jìn)一步考慮這兩個地方不同季節(jié)的圖像數(shù)據(jù)。最終獲得如圖3右邊的4幅圖像用于網(wǎng)絡(luò)的訓(xùn)練和測試,具體的數(shù)據(jù)詳情(如地點、月份、多光譜圖像MS的尺寸)可在圖中找到,所涉及的圖像數(shù)據(jù)包含多種地表特征,如建筑、植被、海洋或河流等,能覆蓋大部分衛(wèi)星觀測目標(biāo)的類型。其中,前兩幅WV3圖像數(shù)據(jù)(即WV3 Rio(5月)和WV3 Tripoli(8月))右邊的1/4部分被切割出來制造仿真測試數(shù)據(jù)集,制造過程采用Wald準(zhǔn)則(具體細(xì)節(jié)詳見圖4)。此外,真實測試數(shù)據(jù)集也在與仿真數(shù)據(jù)集相同的圖像上進(jìn)行,但其制造過程不需要進(jìn)行下采樣,而是直接對圖像進(jìn)行切割獲得。
2)QuickBird(QB)數(shù)據(jù)集。此數(shù)據(jù)集主要由QB衛(wèi)星在可見光和近紅外光譜范圍獲取的全色圖像和多光譜圖像(波段數(shù)為4)數(shù)據(jù)組成,全色圖像和多光譜圖像的空間采樣間隔SSI分別為0.61 m和2.44 m,空間分辨率比例為4,輻射測量分辨率為11位。本數(shù)據(jù)集主要包含由QB衛(wèi)星在Indianapolis拍攝的一幅圖像數(shù)據(jù),即QB Indianapolis。最終獲得如圖3左邊的一幅圖像用于網(wǎng)絡(luò)的訓(xùn)練和測試,具體的數(shù)據(jù)詳情(如地點、月份、多光譜圖像的尺寸)可在圖中找到。其中,這幅圖(即QB Indianapolis)右邊的1 000個像素被切割出來制造仿真和真實測試數(shù)據(jù)集,其制造過程與WV3數(shù)據(jù)集相似。
3)GaoFen-2(GF2)數(shù)據(jù)集。此數(shù)據(jù)集由GF2(高分2號)衛(wèi)星在可見光和近紅外光譜范圍獲取的全色圖像和多光譜圖像(波段數(shù)為4)數(shù)據(jù)組成,全色圖像和多光譜圖像的空間采樣間隔SSI分別為1 m和4 m,空間分辨率比例為4,輻射測量分辨率為10位。本數(shù)據(jù)集包含由GF2衛(wèi)星在廣州(Guangzhou)拍攝的一幅圖像數(shù)據(jù),即GF2 Guangzhou。最終獲得如圖3中間的一幅圖像用于網(wǎng)絡(luò)的訓(xùn)練和測試,具體的數(shù)據(jù)詳情(如地點、月份、多光譜圖像的尺寸)可在圖中找到。其中,這幅圖(即GF2 Guangzhou)右邊的1 000個像素被切割出來制造仿真和真實測試數(shù)據(jù)集,其制造過程依然與WV3數(shù)據(jù)集相似。
由于上述獲得的幾種遙感圖像數(shù)據(jù)集缺乏真實的高分辨多光譜圖像,因此需要仿真出訓(xùn)練數(shù)據(jù)(包括輸入數(shù)據(jù)和標(biāo)簽數(shù)據(jù))和測試數(shù)據(jù)。具體的仿真過程如圖3所示(以WV3數(shù)據(jù)為例),主要包括數(shù)據(jù)切割和數(shù)據(jù)仿真兩個步驟。1)數(shù)據(jù)切割:原始獲取的全色圖(PAN)和低分辨率多光譜圖(MS)首先被切割為N個尺寸為256×256和64×64×8的PAN和MS圖像塊。2)數(shù)據(jù)仿真(利用Wald協(xié)議):將1)中的圖像塊利用每個衛(wèi)星特有的調(diào)制傳遞函數(shù)(modulation transfer function, MTF)首先進(jìn)行濾波操作,然后采用“nearest”插值下采樣獲得低分辨尺度上的全色圖像塊(pan)和多光譜圖像塊(ms),進(jìn)一步利用“23-tap polynomial”插值(Aiazzi等,2002)獲得上采樣的多光譜圖像塊(lms),下采樣前的MS圖像塊作為標(biāo)簽數(shù)據(jù)(gt)。最終獲得如圖4(c)用于網(wǎng)絡(luò)訓(xùn)練/驗證的數(shù)據(jù)集。特別地,測試數(shù)據(jù)的仿真也與此過程相同。
通過數(shù)據(jù)仿真過程(即圖4),2.1小節(jié)的數(shù)據(jù)(即圖3)被仿真為大量用于網(wǎng)絡(luò)訓(xùn)練和測試的數(shù)據(jù)集,最終生成的數(shù)據(jù)集詳情見圖5。通過圖5可以清晰地了解整個數(shù)據(jù)仿真的過程??傮w來說,本數(shù)據(jù)集的優(yōu)點是衛(wèi)星數(shù)據(jù)種類多,包含不同波段、不同分辨率、不同地點和地表內(nèi)容的衛(wèi)星數(shù)據(jù),并詳細(xì)展示數(shù)據(jù)獲取的地點和時間、哪部分?jǐn)?shù)據(jù)用于訓(xùn)練、哪部分用于測試、數(shù)據(jù)的總樣本個數(shù)(包括訓(xùn)練和驗證樣本)、測試數(shù)據(jù)(包括仿真數(shù)據(jù)和真實數(shù)據(jù))的選取原則和樣本個數(shù)。這些細(xì)節(jié)有益于讀者從整體角度了解數(shù)據(jù)的構(gòu)造流程。而數(shù)據(jù)集的難點在于如何通過MTF來仿真數(shù)據(jù)集,如何將數(shù)據(jù)集的仿真細(xì)節(jié)描述清楚,便于讀者理解。此外,測試數(shù)據(jù)集選取了不同的場景內(nèi)容來進(jìn)行測試,對深度學(xué)習(xí)方法來說更具挑戰(zhàn)性。特別地,本文將在第5節(jié)為讀者提供相關(guān)的數(shù)據(jù)集下載和使用細(xì)節(jié)。
圖3 本文涉及的網(wǎng)絡(luò)訓(xùn)練和測試數(shù)據(jù)集
圖4 數(shù)據(jù)仿真詳細(xì)流程(以WV3數(shù)據(jù)為例)
圖5 最終生成的數(shù)據(jù)詳情
本節(jié)將在上述數(shù)據(jù)集的基礎(chǔ)上對7種典型的基于CNN的全色銳化方法進(jìn)行比較,同時也針對代表性的傳統(tǒng)方法進(jìn)行比較,具體情況如下所述。特別地,本文所涉及的方法比較均在相同的設(shè)備和環(huán)境下進(jìn)行,具體為在CPU為 i9-10900X, GPU為 GeForce RTX 3090,操作系統(tǒng)為Ubuntu 20.04的設(shè)備上進(jìn)行實驗,深度學(xué)習(xí)方法的訓(xùn)練和測試在函數(shù)庫PyTorch 1.9.0平臺下進(jìn)行,最終所有的方法測試比較在MATLAB(2022a)上進(jìn)行。
本文將在相同的測試數(shù)據(jù)集上對13種分屬不同類別的全色銳化方法進(jìn)行比較,主要包括:
1)EXP方法。作為基準(zhǔn)的上采樣多光譜圖,即圖4中經(jīng)過“23-tap polynomial”插值上采樣的多光譜圖。
2)CS方法。包括:BT-H:帶霧霾校正的優(yōu)化Brovey變換方法(Lolli等,2017);BDSD-PC:帶物理約束的波段相關(guān)空間細(xì)節(jié)方法(Vivone,2019)。
3)MRA方法。包括:MTF-GLP-FS:基于MTF匹配濾波器的廣義拉普拉斯金字塔方法(Vivone等,2018b);MTF-GLP-HPM-R:基于MTF匹配濾波器的廣義拉普拉斯金字塔高通調(diào)制注入模型方法(Vivone等,2018a)。
4)VO方法。TV:基于全變分模型的全色銳化方法(Palsson等,2014)。
5)DL方法。包括:PNN:基于3層卷積的CNN全色銳化方法(Masi等,2016);PanNet:基于高頻細(xì)節(jié)學(xué)習(xí)的CNN全色銳化方法(Yang等,2017);DiCNN:基于細(xì)節(jié)注入的CNN全色銳化方法(He等,2019);MSDCNN:基于多尺度多深度的CNN全色銳化方法(Yuan等,2018);BDPN: 基于雙方向網(wǎng)絡(luò)的全色銳化方法;FusionNet:基于機(jī)器學(xué)習(xí)和傳統(tǒng)方法的CNN全色銳化方法(Deng等,2021);LAGConv:基于局部內(nèi)容自適應(yīng)的CNN全色銳化方法(Jin等,2022)。
特別地,傳統(tǒng)方法的源代碼已經(jīng)在網(wǎng)站開源:https://openremotesensing.net/knowledgebase/a-critical-comparison-among-pansharpening-algorithms/,而CNN方法的源代碼網(wǎng)址見本文摘要的課題主頁。
對全色銳化圖像進(jìn)行量化評估是一個備受爭議的問題。通常做法是在Wald協(xié)議下對銳化結(jié)果的一致性和合成性進(jìn)行評估來衡量結(jié)果的優(yōu)劣。而針對仿真數(shù)據(jù)和真實數(shù)據(jù)各有不同的量化指標(biāo)。
1)仿真數(shù)據(jù)的量化指標(biāo)。由于仿真數(shù)據(jù)集中包括高分辨的多光譜(即標(biāo)簽數(shù)據(jù)gt),在這種情況下可以通過3個常用的全色銳化指標(biāo)對融合圖像質(zhì)量進(jìn)行評估(Vivone等,2021)。這3個指標(biāo)分別為SAM(spectral angle mapper),ERGAS(the relative dimensionless global error in synthesis),Q2n(the multi-band extension of the universal image quality index)(當(dāng)為4波段數(shù)據(jù)時使用Q4,當(dāng)為8波段數(shù)據(jù)時使用Q8)。其中SAM和ERGAS越小越好(0為理想值),而Q2n越大越好(1為理想值)。
2)真實數(shù)據(jù)的量化指標(biāo)。由于真實數(shù)據(jù)集中沒有高分辨的多光譜圖像(即標(biāo)簽數(shù)據(jù)gt),在這種情況下可以通過另外3個全色銳化指標(biāo)對融合圖像質(zhì)量進(jìn)行評估。這3個指標(biāo)是用于衡量空間失真的指標(biāo)Ds,用于衡量光譜失真的指標(biāo)Dλ,以及無參考質(zhì)量指標(biāo)(hybrid quality with no reference, HQNR)。其中Ds和Dλ越小越好(0為理想值),而HQNR越大越好(1為理想值)。更多關(guān)于指標(biāo)的詳情參見Arienzo等人(2022)文獻(xiàn)。
CNN方法的超參數(shù)和其他設(shè)置詳情,包括批數(shù)量、學(xué)習(xí)率、優(yōu)化算法和損失函數(shù)等細(xì)節(jié)參見表3。特別地,由于本文將所有比較的CNN方法統(tǒng)一在Pytorch深度框架下,一些原來在TensorFlow框架下的方法由于編程環(huán)境的變化(如兩種框架下的參數(shù)初始化不同),需要對部分超參數(shù)進(jìn)行細(xì)調(diào)以達(dá)到合理效果。注意,由于本文對不同數(shù)據(jù)集采用了一組相同的超參數(shù),因此可能一些深度方法并沒有達(dá)到最優(yōu)(調(diào)參并不是本文的主要目的),后來讀者可在本文代碼框架下對每類數(shù)據(jù)集分別調(diào)參以實現(xiàn)最優(yōu)效果。這里特別強(qiáng)調(diào):由于所比較的各CNN方法是在新數(shù)據(jù)集上進(jìn)行的,而本文采用的超參數(shù)依然是各方法原文的設(shè)置,因此有可能本文展示的結(jié)果并不是每個方法的最優(yōu)結(jié)果(尤其是真實數(shù)據(jù)上的結(jié)果),本文結(jié)果只作為讀者的參考。
表3 基于CNN方法的最優(yōu)參數(shù)設(shè)置
為驗證各類方法在全色銳化中的有效性,本節(jié)將分析各類方法在WV3數(shù)據(jù)集上的表現(xiàn)。針對這7種基于CNN的全色銳化方法,首先將其在WV3數(shù)據(jù)集上訓(xùn)練,然后在20個WV3仿真數(shù)據(jù)集和20個真實數(shù)據(jù)上進(jìn)行測試,并與其他較優(yōu)的傳統(tǒng)方法進(jìn)行比較。數(shù)據(jù)集詳情見第2節(jié),選取的測試數(shù)據(jù)來自不同的地表特征(如海岸、植被和建筑等),具有良好的代表性。
3.4.1 仿真實驗結(jié)果
本節(jié)將評估所有方法在20個WV3衛(wèi)星(拍攝于Rio和Tripoli地區(qū))仿真測試數(shù)據(jù)集上的表現(xiàn),這些數(shù)據(jù)集與用于訓(xùn)練的數(shù)據(jù)集具有相似的地理區(qū)域(參見圖5中的數(shù)據(jù)介紹)。表4展示了各類比較方法在WV3測試數(shù)據(jù)集上的定量評價結(jié)果。容易觀察到,深度學(xué)習(xí)方法比傳統(tǒng)方法獲得了更好的平均指標(biāo),也具有更小的標(biāo)準(zhǔn)差(std),表明深度學(xué)習(xí)方法相較于傳統(tǒng)方法具有更好的魯棒性。具體來說,LAGConv在這些測試數(shù)據(jù)上明顯優(yōu)于其他比較方法。此外,F(xiàn)usionNet、MSDCNN和DiCNN也具有很強(qiáng)的競爭力。總體來說,由于訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集具有相似的數(shù)據(jù)結(jié)構(gòu)和圖像特征,基于深度學(xué)習(xí)方法的結(jié)果比傳統(tǒng)方法具有明顯的優(yōu)勢。這證實了CNN在訓(xùn)練階段強(qiáng)大的非線性擬合能力和特征提取能力,因此很容易針對全色銳化任務(wù)學(xué)習(xí)端到端的關(guān)系。
為了更直觀地進(jìn)行方法間的視覺比較,圖6展示了不同全色銳化方法在WV3測試數(shù)據(jù)上的視覺效果(從20個測試數(shù)據(jù)中選取1個樣例進(jìn)行顯示,后同)。可知,視覺效果與表4中的量化指標(biāo)表現(xiàn)一致,基于深度學(xué)習(xí)的方法對比傳統(tǒng)方法具有更強(qiáng)的光譜保真和空間細(xì)節(jié)刻畫能力。而傳統(tǒng)方法(如TV)存在明顯的偽影和光譜失真現(xiàn)象。特別地,深度學(xué)習(xí)方法中BDPN的譜保真能力較差,對高頻邊緣區(qū)域的重建能力較弱。而LAGConv和FusionNet等方法獲得的圖像很好地保留了光譜信息,并且能夠有效保持圖像的紋理等信息。
表4 WV3數(shù)據(jù)集仿真實驗量化指標(biāo)結(jié)果
3.4.2 真實實驗結(jié)果
除了對仿真數(shù)據(jù)集進(jìn)行測試外,本節(jié)將在真實數(shù)據(jù)集WV3 Rio和WV3 Tripoli上進(jìn)行各種方法的性能比較,數(shù)據(jù)詳情參見圖5。
圖7和表5展示了不同方法取得的定量和視覺結(jié)果。很容易觀察到,先進(jìn)的傳統(tǒng)方法能獲得優(yōu)秀的表現(xiàn),甚至將它們與基于深度學(xué)習(xí)的方法進(jìn)行比較,證明了其空間和光譜的保真能力。具體來看,傳統(tǒng)方法中,MTF-GLP-HPM-R方法得到的HQNR最高,僅次于深度學(xué)習(xí)方法中最優(yōu)越的DiCNN。而對于Dλ指標(biāo),MTF-GLP-FS和MTF-GLP-HPM-R都取得了優(yōu)秀的表現(xiàn),證明了其空間保真能力強(qiáng)。另外,基于深度學(xué)習(xí)的方法在Ds指標(biāo)上的表現(xiàn)普遍優(yōu)于傳統(tǒng)方法,證明了深度學(xué)習(xí)方法杰出的光譜保真能力??傮w來說,基于深度學(xué)習(xí)的方法在真實數(shù)據(jù)集上的性能相比仿真數(shù)據(jù)集顯著降低,造成這種現(xiàn)象的可能原因是真實數(shù)據(jù)與仿真數(shù)據(jù)的分辨率不一致,訓(xùn)練好的網(wǎng)絡(luò)參數(shù)不能很好地適應(yīng)測試數(shù)據(jù)。因此,如何提高深度學(xué)習(xí)方法的泛化能力是未來亟待解決的問題。
表5 WV3數(shù)據(jù)集真實實驗量化指標(biāo)結(jié)果
與前面的實驗設(shè)計相似,本節(jié)主要測試不同方法在QB數(shù)據(jù)集上的全色銳化表現(xiàn)。測試數(shù)據(jù)集包括含有代表性地物目標(biāo)的20個仿真數(shù)據(jù)和20個真實數(shù)據(jù)。
3.5.1 仿真實驗結(jié)果
本節(jié)主要展示所有方法在QB仿真數(shù)據(jù)集上的表現(xiàn)。由表6可知,所有基于CNN的深度學(xué)習(xí)方法均表現(xiàn)出優(yōu)秀的定量結(jié)果,其效果大幅度領(lǐng)先于傳統(tǒng)方法。這主要是由于深度學(xué)習(xí)方法針對大量的QB數(shù)據(jù)進(jìn)行訓(xùn)練,而測試的數(shù)據(jù)與訓(xùn)練數(shù)據(jù)類型相似,則學(xué)習(xí)出的模型能有效融合測試數(shù)據(jù)。其中,基于自適應(yīng)卷積的LAGConv方法表現(xiàn)最為亮眼,這也是由于其優(yōu)秀的局部特征提取能力以及數(shù)據(jù)擬合能力。而經(jīng)典的PNN方法的量化指標(biāo)甚至超過PanNet方法,這可能是因為剛好在這個數(shù)據(jù)集上,PNN相較于PanNet能更好地擬合訓(xùn)練數(shù)據(jù)。傳統(tǒng)方法中MTF-GLP-HPM-R在Q4和SAM指標(biāo)上表現(xiàn)最好,但是ERGAS弱于其他方法,顯示其相較于其他傳統(tǒng)方法雖然光譜保真能力較強(qiáng),但是空間保真能力較弱。圖8展示了不同方法的仿真測試視覺效果,其結(jié)果基本與定量指標(biāo)一致。
表6 QB數(shù)據(jù)集仿真實驗量化指標(biāo)結(jié)果
圖8 不同方法在QB仿真數(shù)據(jù)的視覺效果展示
3.5.2 真實實驗結(jié)果
本小節(jié)將所有方法在QB真實數(shù)據(jù)集上的實驗結(jié)果進(jìn)行了量化指標(biāo)對比,參見表7。從表中可以清晰地看出,一些基于CNN的深度學(xué)習(xí)方法(如PanNet、DiCNN和FusionNet)都取得了很高的HQNR量化表現(xiàn)。此外,大多數(shù)基于深度學(xué)習(xí)的方法比其他傳統(tǒng)技術(shù)(如BT-H和BDSD-PC)取得更好的指標(biāo)。在所有基于深度學(xué)習(xí)的方法中,PanNet、DiCNN和FusionNet都屬于最佳性能一類。特別地,PanNet在所有指標(biāo)上都取得最優(yōu)表現(xiàn),原因與WV3真實數(shù)據(jù)集的一致。而相比于在仿真實驗中的表現(xiàn),BDPN在真實數(shù)據(jù)上的表現(xiàn)并不出色,這是由于對訓(xùn)練數(shù)據(jù)集的強(qiáng)大擬合性能導(dǎo)致模型在性質(zhì)不同的數(shù)據(jù)集上出現(xiàn)不匹配的現(xiàn)象,這也說明了基于CNN的模型泛化性與復(fù)雜度之間難以平衡。
表7 QB數(shù)據(jù)集真實實驗量化指標(biāo)結(jié)果
為了更加全面地評估所有方法的性能,本節(jié)在4波段的GF2數(shù)據(jù)集上進(jìn)行實驗,與之前的實驗類似,分別研究了在仿真數(shù)據(jù)集和真實數(shù)據(jù)集上的性能表現(xiàn)。
3.6.1 仿真實驗結(jié)果
本節(jié)主要展示所有方法在GF2仿真數(shù)據(jù)集上的表現(xiàn)。由表8可知,與上一節(jié)的結(jié)果相似,所有基于CNN的深度學(xué)習(xí)方法的量化效果都能夠超越傳統(tǒng)方法。值得注意的是,傳統(tǒng)方法中的BT-H有著極具競爭力的表現(xiàn),與基于大數(shù)據(jù)訓(xùn)練的BDPN方法十分相近。同時,基于CNN的深度學(xué)習(xí)方法中除LAGConv具有明顯的優(yōu)勢之外,基于高頻細(xì)節(jié)特征提取的PanNet和結(jié)合傳統(tǒng)方法的FusionNet在所有指標(biāo)上都有優(yōu)越的表現(xiàn)。為了進(jìn)行視覺比較,圖9中展示了所有方法的融合結(jié)果。從融合后的高分辨率圖像可以看出,所有基于CNN的深度學(xué)習(xí)方法都能較好地保留圖像內(nèi)容的紋理和其他空間細(xì)節(jié),這表明了這些方法的有效性。
表8 GF2數(shù)據(jù)集仿真實驗量化指標(biāo)結(jié)果
圖9 不同方法在GF2仿真數(shù)據(jù)的視覺效果展示
3.6.2 真實實驗結(jié)果
與在QB數(shù)據(jù)集上的實驗流程一致,本節(jié)同樣在GF2的真實數(shù)據(jù)集上進(jìn)行了方法測試和對比。表9展示了所有方法的定量指標(biāo)。對表9中的結(jié)果進(jìn)行分析,PanNet遠(yuǎn)優(yōu)于其他對比方法??傮w來說,傳統(tǒng)方法(除了MTF-GLP-HPM-R和MTF-GLP-FS)獲得的性能遠(yuǎn)遠(yuǎn)低于大多數(shù)基于CNN的深度學(xué)習(xí)方法。所有深度學(xué)習(xí)方法中,通過PNN方法得到的HQNR最低,表明PNN學(xué)到的模型不能適應(yīng)真實數(shù)據(jù)。
表9 GF2數(shù)據(jù)集真實實驗量化指標(biāo)結(jié)果
本節(jié)將進(jìn)一步對前述的比較方法進(jìn)行實驗討論,主要包括測試時間比較,以及不同深度學(xué)習(xí)方法的訓(xùn)練時間、參數(shù)量以及計算量GFlops(giga floating-point operations per second)的比較。
3.7.1 測試時間比較
表10展示了所有對比方法的測試時間,傳統(tǒng)方法(除了TV)表現(xiàn)出非常少的測試時間,證明其方法的有效性?;谏疃葘W(xué)習(xí)的方法也具有較少的測試時間。所有方法中只有TV方法測試時間最多,因為其需要迭代求解一個最優(yōu)化模型,在迭代的過程中耗費了大量的計算時間。
表10 所有方法在WV3仿真測試數(shù)據(jù)集上的測試時間比較
3.7.2 訓(xùn)練時間—參數(shù)量—計算量比較
表11展示了7種CNN方法在WV3訓(xùn)練數(shù)據(jù)集上的訓(xùn)練時間、參數(shù)量和計算量GFlops。由表11可知,PNN和BDPN耗費的訓(xùn)練時間最多,而FusionNet最少;DiCNN的參數(shù)量最少,對比之下BDPN的參數(shù)量最多,超過了100萬;DiCNN的GFlops最少,而BDPN的GFlops最多。為了更形象地表示參數(shù)量和性能指標(biāo)之間的關(guān)系,圖10分別展示了這7種CNN方法在WV3仿真數(shù)據(jù)集上的參數(shù)量和Q8、SAM、ERGAS之間的關(guān)系。
表11 基于CNN的方法在WV3訓(xùn)練數(shù)據(jù)集上的訓(xùn)練時間、參數(shù)量和GFlops比較
從實驗結(jié)果可知,基于深度學(xué)習(xí)方法(本文中主要是CNN方法)當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)性質(zhì)接近時,可以獲得出色的圖像融合效果。而當(dāng)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)性質(zhì)差異較大時,CNN獲得的結(jié)果往往不盡如人意,即數(shù)據(jù)泛化性差。這實際上也是在意料之中的,因為CNN是針對當(dāng)前訓(xùn)練數(shù)據(jù)去“學(xué)習(xí)”或“歸納”(或數(shù)學(xué)上稱之為擬合)其潛在“規(guī)律”(或稱之為先驗),因此若在新的具有不同特征的數(shù)據(jù)下測試,通常學(xué)習(xí)到的“規(guī)律”并不適用此類數(shù)據(jù),進(jìn)而不能獲得優(yōu)秀效果(有時甚至差于傳統(tǒng)方法)。而傳統(tǒng)方法由于沒有基于大量數(shù)據(jù)的訓(xùn)練,可能對數(shù)據(jù)潛在的先驗挖掘并不充分,因此通常效果會弱于深度學(xué)習(xí)的方法。此外,基于深度學(xué)習(xí)方法的資源耗費問題(如大量數(shù)據(jù)集需求、訓(xùn)練時間長等)也是其一大弱點之一。
傳統(tǒng)方法的優(yōu)勢在于其良好的數(shù)據(jù)泛化性,只需一對PAN和MS圖像輸入即可獲得融合圖像(即零樣本),并且不需要通過下采樣獲得的標(biāo)簽數(shù)據(jù)(注:下采樣過程會降低圖像分辨率,因此訓(xùn)練得到的模型并不是在原始分辨率上獲得的,即無監(jiān)督)。因此,基于深度學(xué)習(xí)的全色銳化方法在未來可以朝著這兩個具有潛力和挑戰(zhàn)性的方向前進(jìn)(即無監(jiān)督、零樣本方法),進(jìn)而逐漸克服當(dāng)前深度學(xué)習(xí)方法的弱點。
同樣,針對上述傳統(tǒng)方法和深度學(xué)習(xí)方法的優(yōu)缺點,另一個有潛力的方向是通過合理的策略將兩類方法嵌入到一個框架下,共享兩類方法的優(yōu)點。這個思路已有研究人員進(jìn)行過嘗試,大體包括兩種思路。一種方法是通過將變分優(yōu)化模型進(jìn)行模型展開(unfolding),進(jìn)而針對展開的子問題設(shè)計相似的網(wǎng)絡(luò)結(jié)構(gòu)(主要是通過網(wǎng)絡(luò)去近似模擬子問題的求解),最后在大量訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練獲得優(yōu)異的測試結(jié)果(Xie等,2020);另一種方法是針對變分優(yōu)化模型的未知正則項進(jìn)行合適的變量替換,進(jìn)而構(gòu)建帶隱式正則項的子問題(通??梢曌鲆粋€去噪問題),子問題的求解過程還是按照傳統(tǒng)子問題交替更新的方式進(jìn)行,只不過在求解帶隱式正則項子問題的時候通常使用一個預(yù)訓(xùn)練好的深度學(xué)習(xí)去噪器(也可以是傳統(tǒng)效果優(yōu)良的去噪器,如BM3D)(Teodoro等,2017),這類方法稱之為即插即用(plug-and-play,PnP)方法。近來,一種更為簡單直接的結(jié)合傳統(tǒng)方法和深度學(xué)習(xí)方法的思路是直接將深度學(xué)習(xí)預(yù)訓(xùn)練模型的結(jié)果嵌入到傳統(tǒng)變分優(yōu)化模型中(Shen等,2019;Wu等,2020,2022)。其主要通過構(gòu)造一個潛在融合圖像和深度學(xué)習(xí)預(yù)訓(xùn)練圖像之間的近似項將傳統(tǒng)變分模型和深度學(xué)習(xí)結(jié)果連接在一起,后續(xù)的模型求解過程和傳統(tǒng)變分模型求解方式一致。其主要研究的科學(xué)問題集中在如何去構(gòu)造連接潛在融合圖像和深度學(xué)習(xí)預(yù)訓(xùn)練圖像的權(quán)重距離函數(shù)。上述提到的方法都是近年全色銳化方向傳統(tǒng)變分方法和深度學(xué)習(xí)方法結(jié)合的主要思路,這些方法有效提高了深度學(xué)習(xí)方法的效果,尤其是數(shù)據(jù)泛化性。但依然面臨如參數(shù)量過大、訓(xùn)練/測試時間過長等問題,這些問題是后續(xù)可以進(jìn)一步研究的方向。
本節(jié)分享的相關(guān)數(shù)據(jù)代碼資源見本課題主頁: https://liangjiandeng.github.io/PanCollection.html。
正如前文所提到的那樣,基于深度學(xué)習(xí)的全色銳化領(lǐng)域當(dāng)前并沒有統(tǒng)一公平的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,嚴(yán)重制約本領(lǐng)域的發(fā)展。本文另一個重要目的就是正式發(fā)布全色銳化相關(guān)的訓(xùn)練和測試數(shù)據(jù)集,并且詳細(xì)給出數(shù)據(jù)集的生成細(xì)節(jié)(包括數(shù)據(jù)集獲取地點和時間、訓(xùn)練和測試數(shù)據(jù)的截取情況、仿真細(xì)節(jié)等,詳見第2節(jié))。
亦如前文提到的那樣,當(dāng)前基于深度學(xué)習(xí)的各種方法代碼編寫方式、平臺框架等不盡相同,造成后續(xù)研究者入門困難,更可能造成方法比較的不公平性。為了有效處理這個問題,本文將正式發(fā)布一個基于Pytorch的統(tǒng)一代碼編寫框架。此框架具有統(tǒng)一的數(shù)據(jù)輸入和輸出模塊、簡單易懂的編寫模式、清晰的使用指南,后續(xù)研究者只需要將方法模塊替換為自己的工作即可有效地與已有方法進(jìn)行比較。特別地,本文比較的7種CNN方法將在此框架下運(yùn)行,讀者可通過運(yùn)行相關(guān)方法的代碼輕松入門本領(lǐng)域。
通常,深度學(xué)習(xí)方法得到的結(jié)果需要與傳統(tǒng)方法進(jìn)行公平比較,但是傳統(tǒng)方法并沒有Python的軟件包。常用的方法是將深度學(xué)習(xí)的結(jié)果(Python代碼得到)放入已有的全色銳化MATLAB軟件包中進(jìn)行比較。本文亦會發(fā)布一個更簡單的全色銳化MATLAB測試軟件包,在此軟件包中將預(yù)留存放深度學(xué)習(xí)結(jié)果的文件路徑,讀者只需要將深度學(xué)習(xí)結(jié)果存入相應(yīng)路徑,然后運(yùn)行測試函數(shù),即可一鍵得到所有傳統(tǒng)方法和深度學(xué)習(xí)方法的比較結(jié)果(包括量化結(jié)果和視覺結(jié)果),并將結(jié)果存儲在相應(yīng)的文件夾,便于讀者使用。
本文針對深度學(xué)習(xí)全色銳化問題中幾個亟待解決的問題(如數(shù)據(jù)集的細(xì)節(jié)呈現(xiàn)、公平的訓(xùn)練—測試數(shù)據(jù)集、統(tǒng)一的編程代碼框架、方便的全色銳化測試MATLAB軟件包)展開討論,并開源相關(guān)的數(shù)據(jù)和代碼。正如引言部分所提到的貢獻(xiàn),本文:1)詳細(xì)介紹了7種典型的基于CNN的全色銳化方法,并在統(tǒng)一的數(shù)據(jù)集下對這些方法進(jìn)行公平的實驗比較;2)對涉及的訓(xùn)練—測試數(shù)據(jù)集的仿真細(xì)節(jié)進(jìn)行討論,發(fā)布相關(guān)全色銳化數(shù)據(jù)集;3)發(fā)布基于Pytorch深度學(xué)習(xí)庫的統(tǒng)一編程代碼框架,便于后來初學(xué)者的入門以及研究開展;4)發(fā)布統(tǒng)一的全色銳化傳統(tǒng)—深度學(xué)習(xí)方法MATLAB測試軟件包,方便研究人員的測試;5)對本領(lǐng)域的未來研究方向進(jìn)行討論和展望。作者相信,本文可以推動全色銳化問題的發(fā)展,尤其是在實驗比較的前提下,能盡量厘清當(dāng)前傳統(tǒng)方法和深度學(xué)習(xí)方法各自的優(yōu)缺點,進(jìn)一步探索當(dāng)前全色銳化面臨的挑戰(zhàn),希望成為其他同行優(yōu)秀研究工作的一個參考。