王迎春
安徽省基礎測繪信息中心,合肥 230031
隨著對地觀測技術的快速發(fā)展,多種平臺傳感器獲取的影像日趨豐富,為遙感信息的解譯和分析提供了重要的數(shù)據(jù)來源(楊威等,2022)。復雜環(huán)境目標區(qū)域的探測,經(jīng)常受到云霧遮擋、成像質(zhì)量等因素的影響,往往難以通過單一類型的影像獲取目標區(qū)域的全局信息(趙怡濤,2020)。通過結(jié)合多種類型影像的觀測優(yōu)勢,能夠得到更為準確的分析結(jié)果。由于不同模態(tài)影像的輻射特征和幾何特征差異顯著,實際應用中它們之間高精度匹配一直是影像分析處理的難點(錢學飛等,2021;韋春桃等,2022;姚永祥等,2022)。
基于圖像特征點的影像匹配方法當前研究較為廣泛,利用特征提取器在圖像上檢測特征點,構(gòu)建特征點描述符,并計算特征描述符之間的相似性,獲取同名特征點(張傳輝等,2021)。其中最重要的是如何實現(xiàn)圖像特征穩(wěn)健的提取、描述與匹配,對此,國內(nèi)外研究提出了多種多模態(tài)圖像匹配的方法(梁建國和馬紅,2014;Ma 等,2018;Ye 等,2019)。總體來說,圖像特征匹配方法經(jīng)歷了由手工設計的淺層特征匹配到深度學習特征匹配的演化過程。手工設計的淺層特征中最著名的是尺度不變特征轉(zhuǎn)換(scale invariant feature transform,SIFT)特征描述符,但由于多模態(tài)影像之間的波段、成像模式、時相等差異顯著(陳鐘鴻,2020;崔學榮等,2022),直接利用SIFT 算法檢測的特征對比度變化較大,難以獲得高度可重復性的同名特征,且SIFT算法檢測的特征點具有分布不均勻性,使得影像匹配效果通常較差(Fan 等,2018)。近年來,深度學習被廣泛應用于計算機視覺、圖像處理、大數(shù)據(jù)處理等方面(段蕓杉等,2022),深度卷積神經(jīng)網(wǎng)絡通過對圖像信息從低層到高層進行非線性學習,顯著提升了特征表達能力,有著很強的泛化性能(Yang 等,2018),理論上能夠抵抗由于輻射差異、幾何形變及非線性畸變等帶來的干擾,提升多模態(tài)影像匹配的穩(wěn)健性(藍朝楨等,2021)。早期的深度學習特征提取方法很好地解決了特征向量的描述問題,如Simo-Serra 等(2015)提出的一種與SIFT 特征描述符維度等價的深度學習描述符,直接替代SIFT 特征之后取得了更優(yōu)的效果。但由于多模態(tài)影像的匹配,需要特征具有較強的泛化能力和像素精確定位能力。卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)特征進行匹配經(jīng)常出現(xiàn)特征描述與泛化能力相矛盾,以及特征描述缺乏精確的像素定位等問題(姚永祥等,2021)。因此,Noh等(2017)針對大規(guī)模地標圖像檢索,在提出的深度局部特征中引入了注意力機制進行特征點選擇和匹配,取得了很好的效果。此外,多模態(tài)遙感影像的訓練樣本缺乏,限制了深度學習技術在遙感影像處理中的廣泛應用(廖明哲等,2020;鄭權和劉亮,2020)。為了解決遙感影像小樣本量的問題,Wang 等(2018)提出了一種端到端的遙感影像匹配的深度學習框架,通過學習待匹配圖像和參考圖像之間的特征塊和對應標簽進行匹配;從多模態(tài)遙感影像匹配精度和穩(wěn)健性的角度考慮,Ma 等(2019)基于CNN 提取的深度特征引入一種由粗到精的策略,完成了鄰近空間關系和局部精確特征匹配的遙感影像匹配方法。這些基于深度學習特征的影像匹配方法有效地增加了特征匹配的穩(wěn)健性。然而,這些方法訓練需要大量的影像對,且處理過程相對煩瑣,難以實現(xiàn)直接端到端的匹配(楊根新等,2022)。
綜上可知,基于深度學習方法提取的學習型特征顯著提升了圖像匹配性能,但是由于深度學習是一種基于數(shù)據(jù)驅(qū)動的技術,當訓練樣本不足時,難以得到完備的特征表達。因此,如何利用已有的訓練模型,通過遷移學習來有效表征圖像的學習型特征,以提高其在圖像匹配應用中的穩(wěn)健性,是研究重點。本研究通過深度殘差神經(jīng)網(wǎng)絡結(jié)構(gòu)自主訓練影像的學習型特征,得到多模態(tài)圖像之間更為豐富和更為準確的同名特征點對;并選取可靠且可重復的檢測器和描述符(reliable and repeatable detector and descriptor,R2D2)、輻射變化不敏感特征變換(radiation-variation insensitive feature transform,RIFT)方法與本文方法進行對比分析。
通過增加卷積神經(jīng)網(wǎng)絡層數(shù),利用深層卷積神經(jīng)網(wǎng)絡提取更加穩(wěn)健的圖像深度學習特征是有效提升學習型特征匹配性能的方法(范大昭等,2018)。研究基于Google 的Landmarks 大規(guī)模數(shù)據(jù)集(Weyand 等,2020),利用預訓練ResNet50 模型,構(gòu)造尺度因子為倍的圖像金字塔,獲取不同尺度圖像學習型特征;特征表示方式通過卷積層、激活層和池化層非線性映射之后得到,特征點位置使用卷積之后對應輸入圖上區(qū)域(感受野)中心的像素點坐標表示。
由于ResNet50 網(wǎng)絡輸出的特征圖是密集型特征,直接匹配會帶來計算量大、效率低下等問題,為此,研究利用帶有自注意力機制的編碼器學習圖像局部稀疏特征,特征描述符的相關性則通過特征得分函數(shù)進行度量,得分函數(shù)表達為α(f n;θ),其中,θ是得分函數(shù)α(·) 的參數(shù),fn為用于與得分模型一同學習的影像特征量,網(wǎng)絡訓練是通過不斷迭代權重文件,輸出結(jié)果是對特征向量的加權求和:
式中,W∈RM×d為CNN 全連接層的權重。
網(wǎng)絡中的損失函數(shù)為交叉熵損失函數(shù),可以表達為
式中,y*為多模態(tài)影像特征的真值。其參數(shù)能夠通過反向傳播算法學習得到,網(wǎng)絡模型目標是求解交叉熵損失函數(shù)最小時的反向傳播參數(shù)θ,損失函數(shù)對θ的梯度計算如下:
式中,αn=α(fn;θ)為輸出函數(shù)。訓練后的模型提取多模態(tài)影像特征流程,如圖1 所示。
圖1 多模態(tài)影像深度學習特征提取流程Fig.1 Deep learning feature extraction process for multimodal images
由于不同卷積神經(jīng)網(wǎng)絡學習到的特征不同,通過融合多種包含豐富組合信息的網(wǎng)絡深層特征(簡稱高層特征)能夠有效綜合不同特征的優(yōu)點(高莎等,2022)。因此,本文先組合不同的高層特征,將特征維度升高,再使用最大池化方法對組合的特征進行聚合,來降低特征維度。具體操作如下。
假設組合k個高層特征{f1,… ,fj,…,fk},則最大的特征維度表示為
式中,Cj為第j個高層特征fj的特征維度。
為了能夠把所有特征圖對齊統(tǒng)一,通過補充0值的方式將所有特征圖都擴充到Cmax:
式中,xij為第i個高層特征fi中的第j個特征圖:
將所有高層特征對應的特征圖采用分塊對角矩陣的形式進行合并,得到特征為
所有特征合并后的特征圖尺寸為W×H×Cmax,W和H的計算原理如下:
式中,wi為第i個特征圖的寬度;hi為第i個特征圖的高度。
為了將融合后的特征維度和直接提取的高層特征維度一致,可通過池化的方法將組合特征的維度降低到1 × 1 ×C維,得到一個C維的特征向量,以保持維度的一致性。
多模態(tài)影像網(wǎng)絡模型訓練基于微調(diào)方式,訓練和測試數(shù)據(jù)來源于Landmarks 大規(guī)模數(shù)據(jù)集中的多模態(tài)影像匹配數(shù)據(jù)集(https://github.com/StaRainJ/)。網(wǎng)絡模型是基于ResNet50 預訓練模型的微調(diào),訓練時輸入圖像隨機裁剪為224 像素×224 像素,訓練優(yōu)化器選用 Adam,學習率設置為 0.0005,BatchSize 設置為8,迭代次數(shù)為200。
實驗數(shù)據(jù)來自多模態(tài)影像匹配數(shù)據(jù)集的測試集,選取了具有代表性的多模態(tài)遙感影像作為實驗數(shù)據(jù),包含不同的紋理、地物類型、季節(jié)變化、尺度、成像方式的多模態(tài)影像,可較好地應用于測試算法驗證。
為測試多尺度特征融合對提純穩(wěn)健學習型特征的影響,實驗設置了尺度范圍為0.25~2.0,構(gòu)建尺度因子為倍的圖像金字塔,得到0.25、0.356、0.5、0.707、1、1.414、2 共7 種不同的尺度因子,并提取每一尺度下的學習型特征。并對這7 種不同的尺度分別進行逐層疊加,目的是明晰每一尺度層的作用機理,同時記錄多尺度的學習型特征檢測數(shù)量和提純后穩(wěn)健特征數(shù)量,具體結(jié)果如表1 所示。
表1 不同尺度系數(shù)的穩(wěn)健特征提取率Tab.1 Robust feature extraction rate of different scale coefficients
單尺度逐層特征提取和多尺度特征提取實驗表明,隨尺度系數(shù)的增加,特征檢測數(shù)量和提純后的特征數(shù)量呈現(xiàn)不斷增長趨勢。當單尺度因子為0.25 時穩(wěn)健特征提取率僅為56.2%,當單尺度因子為2 時,穩(wěn)健特征提取率增長至93.0%,增幅為36.8%,單尺度因子平均提取率為88.9%;融合多尺度因子的特征提取跟單尺度因子具有近似的特性,即隨著特征金字塔層數(shù)的增加,特征檢測數(shù)量和特征提純數(shù)量都會隨之增長,當多尺度因子為前2 層時,提取率為75.0%;當多尺度因子為全部的7 層時,提取率上升至94.7%,增幅為19.7%。相比于單尺度因子,融合多尺度層的特征檢測數(shù)量、穩(wěn)健特征提純結(jié)果和穩(wěn)健特征提取率均具有更好的穩(wěn)健性,表明了通過融合圖像多尺度特征之后,能夠得到更好的匹配效果。
進一步分析表1 可知,對于單尺度下的穩(wěn)健特征提取率來說,當尺度系數(shù)為0.25 和0.356 時,特征提取率低于65%;而在0.356~1 尺度空間快速上升,當尺度因子為1 時,提取率接近90%;尺度系數(shù)再往后增加時,增長幅度較小,從1 增加到2,提取率僅增長4.5%。對于多尺度因子的特征提取率,呈現(xiàn)出持續(xù)上升趨勢。從融合前2 層的尺度因子到融合前5 層的尺度因子,提取率增加15.8%,顯著上升至90.8%;再從融合前5 層尺度到融合全部的7 層的尺度因子時,提取率緩慢增加至94.7%,增幅為3.9%。由此可知:單尺度因子小于1 時對學習型特征提取的數(shù)量具有較大影響;單尺度因子大于1 時影響呈現(xiàn)不斷下降趨勢。
利用本文方法、基于深度學習特征的R2D2 方法和基于手工設計特征的RIFT 方法在多模態(tài)影像數(shù)據(jù)集進行多組不同影像對匹配實驗,最終匹配結(jié)果,如圖2 所示。
圖2 三種方法下多模態(tài)影像與光學影像匹配結(jié)果Fig.2 Matching results of multimodal images with optical images under three methods
通過匹配實驗結(jié)果可知,本文提出的多模態(tài)遙感影像匹配算法在6 組不同多模態(tài)影像匹配結(jié)果中均獲取了較為豐富且分布均勻的匹配點對,其他兩種對比方法則無法完全適應所有場景,出現(xiàn)了無法匹配或匹配點對較少的情況,表明了算法對多模態(tài)影像匹配具有很強的適應性和穩(wěn)健性,能夠為多模態(tài)遙感影像的高精度配準提供了可靠的算法支撐。
基于前述6 組實驗,詳細統(tǒng)計了不同情形下的粗匹配數(shù)量、精匹配數(shù)量、正確匹配率(精匹配數(shù)量/粗匹配數(shù)量)、匹配耗時和匹配均方根誤差(root mean square error,RMSE),如表2 所示??芍瑢τ谟跋翊制ヅ涠?,不同模態(tài)影像粗匹配數(shù)量相差不明顯,這跟實驗所用影像大小、影像質(zhì)量和匹配參數(shù)設置相關。對于提純后的影像精匹配而言,每種情形表現(xiàn)不同,越多的精匹配點對說明匹配效果越好,實驗中精匹配數(shù)量差異較大,精匹配數(shù)量最高的是507 對,最低僅為192 對,差距高達315對,表明不同模態(tài)之間影像匹配存在一定的不穩(wěn)定性;對于正確匹配率而言,最高的匹配率是夜光影像和光學影像匹配率,高達75.0%;最低是電子影像和光學影像的匹配,僅有36.9%的匹配率。就匹配時間效率而言,整體差異不大,差值不超過2 s,同時RMSE 均較好地控制在1 像素左右,表明本文方法具有較好的匹配精度。
表2 不同情形匹配結(jié)果統(tǒng)計Tab.2 Statistical analysis of matching results in different scenarios
圖3 分析了三種方法在特征粗匹配數(shù)量、精匹配數(shù)量、正確匹配率和匹配耗時四個方面的差異??梢园l(fā)現(xiàn),本文方法在粗匹配數(shù)量方面具有相對較低的結(jié)果,但對于精匹配數(shù)量和匹配正確率具有顯著優(yōu)勢,說明了本文方法對多模態(tài)圖像匹配的穩(wěn)健性。對于匹配耗時,本文方法和其他兩種方法相差不大,表明了在匹配耗時方面的穩(wěn)健性。
圖3 三種方法結(jié)果對比Fig.3 Comparison of results among three methods
為解決多模態(tài)影像的高精度匹配問題,基于在大型數(shù)據(jù)集上預訓練的ResNet50 網(wǎng)絡模型,本文提出了一種融合多尺度深度學習特征的多模態(tài)影像匹配方法,通過深度殘差神經(jīng)網(wǎng)絡結(jié)構(gòu)自主訓練學習影像的學習型特征,得到多模態(tài)圖像之間更為豐富和更為準確的同名特征點對,并在差異顯著的多模態(tài)影像中進行了匹配實驗。結(jié)果表明,本文方法在多組不同環(huán)境下的多模態(tài)影像匹配中均得到了較好的匹配結(jié)果,具有一定的實際應用價值,這在一定程度上為多模態(tài)遙感影像自動配準提供了基礎和參考。
然而,由于深度學習特征匹配算法性能對訓練數(shù)據(jù)數(shù)量和質(zhì)量依賴較大,面對實際問題時常常難以有效獲取高質(zhì)量、大規(guī)模的訓練數(shù)據(jù)。因此,對于數(shù)據(jù)訓練數(shù)據(jù)規(guī)模不足時如何高效完成多模態(tài)遙感圖像匹配是未來研究的一項重要任務。