張青月,趙 杰
(1.國網(wǎng)新源控股有限公司檢修分公司,北京 100067;2.北京大學 大數(shù)據(jù)分析與應用技術(shù)國家工程實驗室,北京 100871)
遙感圖像變化檢測是一項具有挑戰(zhàn)性的任務,其目的是基于雙時相或多時相遙感圖像自動檢測同一地理區(qū)域內(nèi)建筑物或土地利用的變化。近年來越來越豐富的遙感數(shù)據(jù)和強大的計算能力使得變化檢測任務成為重要的研究方向,在城市規(guī)劃[1]、土地利用[2]、災害評估[3]和森林監(jiān)測[4]等領(lǐng)域發(fā)揮了重要的作用。
計算機視覺中的深度學習一直在不斷發(fā)展,很多學者將深度學習技術(shù)應用到遙感圖像的分割[5-6]、目標檢測[7-8]和變化檢測[9-10]等任務,深度學習可以自動從原始數(shù)據(jù)中學習遙感圖像的變化目標特征。目前基于深度學習的變化檢測任務主要有單分支網(wǎng)絡和雙分支網(wǎng)絡。單分支網(wǎng)絡直接輸入2幅變化前后的配準圖像,經(jīng)過卷積神經(jīng)網(wǎng)絡生成變化檢測結(jié)果。Du等[11]在卷積網(wǎng)絡中應用SFA來抑制緩慢變化的不變像素之間的光譜差異并增強變化的像素。Mou等[12]將卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡引入端到端網(wǎng)絡,來生成光譜-空間特征表示并揭示雙時間圖像中的時間依賴性。Lyu等[13]應用基于循環(huán)神經(jīng)網(wǎng)絡(RNN)的遷移學習方法,使用Landsat數(shù)據(jù)進行年度城市動態(tài)檢測。張涵等[14]提出一種注意力引導的三維卷積神經(jīng)網(wǎng)絡用于高分遙感影像場景變化檢測的方法,在一個語義級高分辨率遙感場景變化檢測數(shù)據(jù)集中獲得了很好的性能。雙分支網(wǎng)絡通常采用孿生網(wǎng)絡同時處理變化前后的2幅圖像,之后通過映射到高維空間計算不同時間圖像的像素變化得到變化檢測圖。Lyu等[15]從用于土地覆蓋變化檢測的RNN中學習可轉(zhuǎn)移的變化規(guī)則。郭海濤等[16]提出了融合多尺度特征的Siam-DeepLabv3+網(wǎng)絡,采用相似性度量和形態(tài)學后處理方法提高遙感圖像變化檢測精度。Fang等[17]聯(lián)合孿生網(wǎng)絡和U-Net++網(wǎng)絡設計了SNUNet-CD網(wǎng)絡,實現(xiàn)了可以獨立提取不同時相影像特征和融合多尺度語義信息的目的。
大多數(shù)算法可以很好地檢測變化特征,但很少關(guān)注特征上下文信息,缺乏對整體特征提取的關(guān)注和對目標變化精細區(qū)域的關(guān)注,原始雙時相圖像的差異圖也沒有充分利用起來?;诖?本文提出了一種基于差異增強的和雙注意力機制的Transformer神經(jīng)網(wǎng)絡模型,通過在孿生網(wǎng)絡架構(gòu)的特征提取部分引入更加高效的ResNeXt單元,在不增加參數(shù)復雜度的情況下提高準確率,將分層結(jié)構(gòu)的Transformer編碼-解碼器與通道和空間雙注意力模塊相結(jié)合,獲得更大的感受野和更強的上下文塑造能力,該網(wǎng)絡還關(guān)注雙時相圖像的差異化特征,通過引入差異增強模塊對每個像素進行加權(quán),選擇性地對特征進行聚合,獲得更加精確的變化檢測結(jié)果。
本文的貢獻總結(jié)如下:
①提出一個帶有孿生架構(gòu)的基于差異增強和雙注意力機制的Transformer模型,能夠有效關(guān)注到遙感圖像變化檢測的不同尺度上下文特征,并充分利用雙時相圖像的差異圖特征;
②將更加高效的ResNeXt引入特征提取部分,通過2個共享權(quán)重的特征提取模塊來學習變化前后圖像的多尺度特征,提高模型準確率的同時不增加參數(shù)的計算量;
③引入具有更大感受野和上下文建模能力的Transformer結(jié)構(gòu)作為特征的編碼器和解碼器,增強模型對變化檢測的建模能力;
④在編碼器和解碼器之間引入通道和空間雙注意力機制模塊,通過權(quán)重分配使網(wǎng)絡關(guān)注更重要的變化特征;
⑤考慮到不同時間遙感圖像的變化包含一定的噪聲,在模型架構(gòu)上增加差異增強模塊,利用差異化特征充分挖掘變化信息。
針對遙感圖像中的變化檢測任務,本文提出了一種基于差異增強和雙注意力機制的Transformer模型,網(wǎng)絡架構(gòu)如圖1所示,由特征提取模塊、差異增強模塊、Transformer Encoder-Decoder模塊與通道和空間雙注意力模塊組成。特征提取模塊用來對輸入的變化前后遙感圖像T1和T2進行特征編碼提取,生成的特征圖分別進行通道上的特征融合和像素級的特征相差,2個不同的特征圖分別進行不同路徑的映射,特征融圖經(jīng)過Transformer Encoder、雙注意力模塊和Transformer Decoder提取準確的變化特征圖,通過 Transformer層的堆疊代替標準卷積中矩陣乘法來學習遙感變化圖中的全局上下文信息,雙注意力模塊可以聚焦不同時間和位置的重要特征。特征相差圖通過圖像差異和卷積層相結(jié)合生成遙感圖像變化強度圖,之后對變化特征圖和變化強度圖進行像素級加權(quán)和有選擇的聚合特征,進一步提高網(wǎng)絡模型對于變化特征的提取和生成能力。
圖1 網(wǎng)絡架構(gòu)Fig.1 Network architecture
由于遙感圖像變化檢測需要像素級預測,借鑒ResNet[18]相關(guān)結(jié)構(gòu)來構(gòu)建特征提取器,雙時相遙感圖像首先由2個共享參數(shù)的特征提取模塊進行特征提取,如圖1(c)所示,輸入圖像在經(jīng)過卷積和池化層初步處理后進入串聯(lián)的4層殘差卷積單元進行多尺度語義特征提取,每層由帶有2倍下采樣的ResNeXt單元和1×1的卷積組成,之后統(tǒng)一由上采樣模塊獲得與第一層殘差單元一樣的特征圖尺寸,由此可以得到融合了不同尺度的高級語義信息和低級空間信息,最后將4層的變換特征圖在通道上進行串聯(lián),并輸入2個不同的卷積層(3×3和1×1)以生成最終的特征圖,該特征圖具有更具區(qū)分性和緊湊的特征表達。
增強神經(jīng)網(wǎng)絡表達能力的方法有3種:增加網(wǎng)絡深度、增加網(wǎng)絡寬度和改善網(wǎng)絡結(jié)構(gòu)設計。ResNeXt[19]改變了傳統(tǒng)VGG和Resnet堆疊的思想,還是采用分解-變換-合成的策略,通過一組具有相同拓撲結(jié)構(gòu)的網(wǎng)絡層并行處理。如圖2所示,ResNeXt拋棄了增加網(wǎng)絡的深度和寬度的方法,而是提出了一種結(jié)構(gòu)組的新維度,增加結(jié)構(gòu)組比增加深度和寬度更加有效,提高模型準確率的同時降低模型的復雜度。每一組拓撲結(jié)構(gòu)都是一樣的,由1×1卷積、3×3卷積和1×1卷積串聯(lián)構(gòu)成,輸入特征圖通過32個并行結(jié)構(gòu)組進行處理后直接像素級相加,并以殘差形式合并輸入特征圖得到最后的輸出特征圖。ResNeXt的這種結(jié)構(gòu)方式可以在不增加參數(shù)復雜度的前提下提高模型的準確率,同時減少超參數(shù)的數(shù)量。
圖2 ResNeXt單元Fig.2 ResNeXt unit
輸入的變化前后雙時相圖像在經(jīng)過共享權(quán)重的特征提取器之后進行通道上的合并,之后經(jīng)過Transformer Encoder(如圖1(d)所示)學習全局信息,通道和空間雙注意力模塊學習上下文信息,Transformer Decoder(如圖1(f)所示)獲得變化檢測的結(jié)果圖。Transformer Encoder由一系列下采樣模塊(步長為2的卷積層)和Transformer Block[20]串聯(lián)組成,用來進一步提取變化特征,Transformer Encoder由一系列上采樣模塊(雙線性插值)和Transformer Block串聯(lián)組成,通過全局上下文信息生成變化檢測特征圖。
Transformer Block結(jié)構(gòu)如圖3所示。
圖3 Transformer Block結(jié)構(gòu)Fig.3 Transformer Block structure
主要由多頭注意力模塊、多層感知器和深度可分離卷積層通過殘差網(wǎng)絡進行連接組成,最關(guān)鍵的環(huán)節(jié)是多頭注意力模塊,其由多個自注意力連接組成,表示為:
(1)
式中:Q(Query)、K(Key)和V(Value)分別表示要查詢的信息、被查詢的向量和查詢得到的值,都是經(jīng)過線性變換得到的;dhead為通道維數(shù),Softmax為歸一化指數(shù)函數(shù),目的是將多分類的結(jié)果以概率的形式展現(xiàn)出來,計算每個位置的注意力權(quán)重。Positional Encoding位置信息是由多層感知器和深度可分離卷積模塊得到,表示如下:
Fout=MLP(GELU(Conv2D3×3(MLP(Fin))))+Fin,
(2)
式中:Fin為自注意力的特征圖,GELU為Gaussian Error Linear Unit激活函數(shù),MLP為多層感知機,通過輸入層、隱藏層和輸出層3個網(wǎng)絡層組成;Conv2D為2D版本的卷積神經(jīng)網(wǎng)絡層。
雙注意力模塊由2個獨立的通道注意力模塊和空間注意力模塊組成[21],分別進行通道和空間尺度上的注意力機制,如圖4所示,通過增加圖像特征的權(quán)重來關(guān)注重要的特征,忽略次要特征。
圖4 雙注意力模塊Fig.4 Diagram of dual attention mechanism
雙注意力模塊的流程如圖1(e)所示,通道注意力模塊是將輸入的特征圖分別經(jīng)過全局最大池化和全局平均池化得到2種池化方式的特征圖,之后分別經(jīng)過一個共享權(quán)重的多層感知器并作像素級相加操作,最后經(jīng)過Sigmoid函數(shù)得到通道注意力特征圖??臻g注意力模塊是將通道注意力特征圖作為輸入,首先分別經(jīng)過基于通道的全局最大池化和全局平均池化得到2種池化方式的特征圖,之后將2個特征圖在通道層面進行拼接并進行一個7×7的卷積操作,最后經(jīng)過Sigmoid函數(shù)得到空間注意力特征圖,將其與通道注意力特征圖相乘得到最終的雙注意力特征圖。雙通道注意力模塊將通道和空間注意力2個模塊以串行和并行的方式組合起來,計算任意2個像素在不同時間和位置之間的注意力權(quán)重,來生成更具判別力的特征,使網(wǎng)絡能夠更好地區(qū)分特征之間的重要程度,從而聚焦有用特征。
由于雙時圖像變化會受到光譜和位置誤差的影響,為了消除這些噪聲影響并提高變化檢測能力,將圖像差異和卷積層相結(jié)合構(gòu)建差異增強模塊,如圖1(b)所示。將雙時相遙感圖像差分圖進行卷積操作,在卷積過程中采用類似ResNet的殘差連接,將提取的差異特征圖用于對原始雙時相圖像提取的特征進行加權(quán)相乘,得到最后的遙感變化檢測結(jié)果。差異增強模塊可以對不同時間差異圖像進行建模,將差分圖像映射到新的特征空間,從而充分挖掘變化信息,提取變化密度圖并過濾噪聲,該模塊使得網(wǎng)絡額外關(guān)注雙時圖像的差異化特征,通過引入差異增強模塊,對特征圖的每個像素進行加權(quán),自動進行有選擇的聚合特征,提高了網(wǎng)絡的有效性和變化特征的提取能力。
本文實驗采用LEVIR-CD和DSIFN兩個大型公開變化檢測數(shù)據(jù)集。LEVIR-CD遙感圖像變化檢測數(shù)據(jù)集包含637對高分辨率(1 024 pixel×1 024 pixel)建筑物遙感圖像,均來自2002—2018年美國德克薩斯州幾個城市的不同區(qū)域,將該數(shù)據(jù)集的圖像裁剪為256 pixel×256 pixel,并隨機劃分70%數(shù)據(jù)量用于模型訓練、10%數(shù)據(jù)量用于模型驗證和20%數(shù)據(jù)量用于模型測試。DSIFN dataset遙感圖像變化檢測數(shù)據(jù)集由谷歌Earth手動收集,它覆蓋了中國6個城市(北京、成都、深圳、重慶、武漢和西安),分辨率為512 pixel×512 pixel。數(shù)據(jù)增強后得到3 940個雙時間圖像對,訓練數(shù)據(jù)集中有3 600個圖像對,驗證數(shù)據(jù)集中有340個圖像對,測試數(shù)據(jù)集中有48個圖像對。
LEVIR-CD和DSIFN數(shù)據(jù)集中部分樣本如圖5所示,使用了水平和垂直翻轉(zhuǎn)做數(shù)據(jù)增強。
(a)LEVIR-CD數(shù)據(jù)集變化前后和標注圖像
(g)(e)和(f)的標注圖像
模型訓練時采用了Dice損失和交叉熵損失結(jié)合的綜合損失函數(shù),其中Dice_loss代表預測的分割結(jié)果與標注的目標的偏差,如下:
(3)
式中:TP表示模型自動分割與手動標注重疊區(qū)域,FP表示模型自動分割的錯誤區(qū)域,FN表示模型未能自動分割出的目標區(qū)域。因此Dice_loss的值越小說明分割結(jié)果越準確。
交叉熵用來評估2個樣本分布之間的距離,使用交叉熵來評估當前訓練得到的概率分布與真實分布的差異情況,如下:
(4)
式中:q為真值概率,p為預測概率,N為樣本總數(shù),i為第i個樣本,取值1~N。
在1個NVIDIA Tesla V100 GPU上采用PyTorch深度學習框架進行模型的訓練和測試,使用Adam算法來最小化損失,初始學習率設置為0.02,并使用固定長度衰減策略來更新學習率,分辨率為256 pixel×256 pixel的變化前后遙感圖像作為模型的輸入,輸出為目標變化檢測分割結(jié)果,Batch Size為20,訓練的Epoch為500。為了與其他相關(guān)模型對比,采用Precision、Recall、F1、Intersection over Union (IoU) 和Overall Accuracy(OA) 作為評價指標對比遙感圖像的變化檢測結(jié)果。
表1展示了不同方法在變化檢測數(shù)據(jù)集LEVIR-CD中的結(jié)果對比,本文提出方法的F1、IoU和OA評價指標均高于目前最好的模型,相比最好結(jié)果分別提升1.6%、1.2%和0.2%,表明模型對復雜場景下的不同大小目標變化檢測效果具有優(yōu)勢。
表1 現(xiàn)有方法在LEVIR-CD數(shù)據(jù)集的變化檢測結(jié)果對比Tab.1 Comparison of building segmentation results ofexisting methods on the LEVIR-CD dataset
表2展示了不同方法在變化檢測數(shù)據(jù)集DSIFN中的結(jié)果對比,提出的方法在F1、IoU和OA評價指標均高于目前最好的模型,相比最好結(jié)果分別提升1.06、2.7%和1.05%,表明模型對復雜場景下的不同目標變化檢測效果具有優(yōu)勢。
表2 現(xiàn)有方法在DSIFN數(shù)據(jù)集的變化檢測結(jié)果對比Tab.2 Comparison of building segmentation results ofexisting methods on the DSIFN dataset
為了驗證本文模型的有效性和穩(wěn)定性,通過消融實驗研究刪去其中一個算法對實驗結(jié)果的影響,如分別刪除特征提取模塊的ResNeXt單元(WithoutResNeXt)、邊界增強模塊(WithoutDE)和雙注意力模塊(WithoutDA),將TransformerEncoder-Decoder替換為普通的編碼-解碼器等(WithoutTransformer),所有模型采用相同的數(shù)據(jù)集和服務器環(huán)境。結(jié)果表明,集成上述模塊的基于差異增強和雙注意力機制的Transformer模型在5個指標(Precision、Recall、F1、IoU和OA)中獲得了最好的性能。
2.4.1 在LEVIR-CD數(shù)據(jù)集上的消融實驗
消融實驗結(jié)果如表3所示,本文提出的方法在5個指標上均有顯著提升。消融實驗的部分分割結(jié)果如圖6所示。
表3 消融實驗結(jié)果對比Tab.3 Comparison of ablation experiment results
圖6 模型在LEVIR-CD數(shù)據(jù)集的消融實驗結(jié)果圖6 Fig.6 Ablation experiment results of the model on the LEVIR-CD dataset
對比可知,第一行遙感變化檢測圖像為消失的小目標建筑物,小目標物體在深度卷積神經(jīng)網(wǎng)絡中很容易被忽略,本文方法可以很好地學習小目標的不同尺度特征信息,通過上下文特征的融合保證小目標檢測的準確率。第二行遙感變化檢測圖像為大塊新增建筑物,成塊建筑物相對比較容易檢測,但邊緣信息較難保持,本文方法相對而言較好地保持了邊緣信息。第三行遙感變化檢測圖像為新增的成片小目標建筑物,視野內(nèi)目標較多時容易丟失個別目標且導致小目標連起來,本文方法較好地保持了不同小目標的獨立性。第四行遙感變化檢測圖像為在原來樹木的基礎(chǔ)上新增的少量建筑物,原有的相對明顯的樹木會導致差異圖像的噪聲產(chǎn)生,本文方法較好地避免了這個問題,獲得了較好的檢測結(jié)果。
2.4.2 在DSIFN數(shù)據(jù)集上的消融實驗
消融實驗結(jié)果如表4所示,本文提出的方法在5個指標上均有顯著提升。消融實驗的部分分割結(jié)果如圖7所示。
表4 消融實驗結(jié)果對比Tab.4 Comparison of ablation experiment results
圖7 模型在DSIFN數(shù)據(jù)集的消融實驗結(jié)果Fig.7 Ablation experiment results of the model on the DSIFN dataset
對比可知,第一行和第二行遙感變化檢測圖像主要為道路和建筑物變化,遙感圖像中的道路變化相對建筑物比較直觀但跨度較大,往往需要全局信息,本文方法可以很好地提取到遙感圖像的全局信息,對變化的道路進行準確的檢測。第三行和第四行遙感變化檢測圖像主要為植被裸地變化和建筑物變化,圖像中的植被裸地容易受到季節(jié)變化的影響,春夏和秋冬的顏色存在巨大區(qū)別,本文方法較好地識別了植被裸地的區(qū)域,對變化區(qū)域進行了準確的檢測。
通過消融實驗可以驗證,提出的基于差異增強和雙注意力機制的Transformer模型能提取到不同形狀目標的特征,對有不同目標建筑物、道路和植被的變化檢測效果有很大提升。
本文提出了一種基于差異增強的和雙注意力機制的Transformer神經(jīng)網(wǎng)絡模型,通過在孿生網(wǎng)絡架構(gòu)的特征提取部分引入更加高效的ResNeXt單元,將分層結(jié)構(gòu)的Transformer編碼-解碼器與通道和空間雙注意力模塊相結(jié)合,該網(wǎng)絡還關(guān)注雙時相圖像的差異化特征,通過引入差異增強模塊對每個像素進行加權(quán),選擇性地對特征進行聚合。該方法可以有效學習不同尺度、不同層級的變化特征,使網(wǎng)絡具有更大的感受野和更強的上下文塑造能力,提高了圖像紋理和細節(jié)提取能力,相比其他方法(如STANet、SNUNet和IFNet等)可獲得更高的精度和更強的變化檢測能力。目前該方法還是依賴裁剪小圖像進行處理,在之后的研究中將關(guān)注如何在保證高分辨率遙感圖像的基礎(chǔ)上進行精確的變化檢測。