傅繪錦
(1.武漢大學(xué) 遙感信息工程學(xué)院,湖北 武漢 430079)
利用遙感影像動(dòng)態(tài)掌握國土資源變化,可為國家提供地理國情信息決策支撐。傳統(tǒng)人工變化檢測(cè)對(duì)高分辨率衛(wèi)星遙感圖像的特征刻畫能力較差,且工作量巨大,而基于深度學(xué)習(xí)的解譯方法可自動(dòng)分析變化信息,但如何提升檢測(cè)效率和準(zhǔn)確性仍是業(yè)界重要討論的主題。變化檢測(cè)主要分為兩步,即先進(jìn)行圖像內(nèi)的目標(biāo)提取,再計(jì)算圖像間的信息差,因此高效正確的目標(biāo)提取對(duì)后續(xù)信息差計(jì)算影響很大。
在深度學(xué)習(xí)普及前,傳統(tǒng)方法根據(jù)像素閾值、顏色等信息進(jìn)行目標(biāo)提取,如袁敏[1]等利用最大流、最小割函數(shù)進(jìn)行圖像分割,但無法消除遙感影像中“同物異譜、同譜異物”的影響;肖明虹[2]等提出的超像素協(xié)同分割變化檢測(cè)方法有效克服了椒鹽噪聲,但忽略了像素塊之間的關(guān)系,檢測(cè)效果不理想。隨著深度學(xué)習(xí)的快速發(fā)展,變化檢測(cè)方法得到了相關(guān)算法的支持與改進(jìn),如LYU H[3]等利用卷積神經(jīng)網(wǎng)絡(luò)提取遙感影像抽象特征,但只重點(diǎn)關(guān)注了高維語義信息,重要邊界細(xì)節(jié)易丟失;GONG M[4]等利用分類圖獲取訓(xùn)練樣本,通過深度學(xué)習(xí)訓(xùn)練得到變化檢測(cè)圖,但特征提取較少,預(yù)分類結(jié)果缺少空間結(jié)構(gòu)信息。業(yè)界提出利用語義分割提取目標(biāo)的方法,語義分割網(wǎng)絡(luò)形成兩大流派:①以SVM、UNet為代表的下采樣后復(fù)原方法,如孫紅巖[5]提出的SVM與多特征融合的方法,該方法受噪聲影響較大,在特征圖分辨率縮小的過程中仍有空間信息流失;②以DeepLab為代表的保持特征高分辨率的方法,如趙祥[6]等提出的改進(jìn)的DeepLab3+孿生網(wǎng)絡(luò),計(jì)算繁雜、效率不高。相較于傳統(tǒng)目視方法,深度學(xué)習(xí)降低了檢測(cè)成本,但目前只有少數(shù)研究關(guān)注到保持高空間語義信息對(duì)模型性能的影響,為了做出改進(jìn),SUN K[7]等在研究人類姿勢(shì)時(shí)提出了一種并行結(jié)構(gòu)網(wǎng)絡(luò)HRNet,不同于傳統(tǒng)語義分割網(wǎng)絡(luò),其通?;趶母叩降偷木幋a器提取特征圖,使特征提取同時(shí)擁有高分辨率和高語義,能保留重要的形狀和邊界細(xì)節(jié)。受上述研究啟發(fā),本文以CHEN H[8]等提出的BIT-CD框架為基礎(chǔ),設(shè)計(jì)了一種基于HRNet方法的H-BIT遙感影像變化檢測(cè)方法,通過HRNet融合高分辨率和高語義信息,Transformer整合特征向量與語義特征輸出強(qiáng)化特征,最后生成二值變化結(jié)果;并在LEVIR-CD數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),驗(yàn)證了本文方法的有效性和魯棒性,還通過消融實(shí)驗(yàn)獲取了最佳模型。
H-BIT變化檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由HRNet-V2特征提取主網(wǎng)絡(luò)、雙時(shí)態(tài)圖像自注意力變換網(wǎng)絡(luò)Transformer和差異計(jì)算預(yù)測(cè)Predction Head三個(gè)模塊組成。
圖1 H-BIT變化檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)
1.1.1 HRNet-V2特征提取主網(wǎng)絡(luò)
受HRNet[7]啟發(fā),本文采用多分辨率并行的HRNet-V2網(wǎng)絡(luò),對(duì)不同分辨率的特征圖進(jìn)行提取后再跨分辨率融合,從而解決傳統(tǒng)串聯(lián)網(wǎng)絡(luò)提取語義高維信息時(shí)高分辨率空間信息被壓縮、對(duì)小尺度目標(biāo)特征提取能力有限的問題,保證在高分辨率特征圖下較精確完整的空間位置信息,對(duì)位置敏感的語義分割任務(wù)友好。
如圖2所示,HRNet-V2網(wǎng)絡(luò)對(duì)圖像特征進(jìn)行并行提取,特征單元塊通過下采樣使語義聚合、上采樣恢復(fù)高分辨率,再通過層間融合得到一代特征圖X i,即可在提取高維語義信息的同時(shí),保留高分辨率特征。
圖2 HRNet-V2特征提取主網(wǎng)絡(luò)結(jié)構(gòu)
1.1.2 雙時(shí)態(tài)圖像自注意力變換網(wǎng)絡(luò)Transformer
Transformer主要包括詞元分析器、編碼器和解碼器,用于處理一代特征圖。如圖3所示,詞元分析器可將HRNet-V2輸出的一代特征圖轉(zhuǎn)換為詞元,類似自然語言處理,將語句切分后用詞元去表達(dá),CHEN H[8]等設(shè)計(jì)了孿生形的詞元集,將X1、X2兩幅特征圖送入同一個(gè)詞元分析器網(wǎng)絡(luò)分別進(jìn)行卷積操作,將提取的特征圖也分為A1、A2兩套子圖,并分別映射為T1、T2兩套詞元集。為了匯聚空間層面上的信息,本文利用Woo S[9]等提出的Convolutional Block Attention Module中的空間注意力模塊來壓縮通道,得到語義豐富的緊湊詞元。
圖3 詞元分析器結(jié)構(gòu)
編碼器與Dosovitskiy A[10]等提出的ViT相似,但本文模塊更小,注意力模塊只堆疊了4次。如圖4所示,將Transformer輸出的兩套詞元集T1、T2串聯(lián)成為一個(gè)詞元集后進(jìn)行編碼、范數(shù)計(jì)算,得到Query、Key和Value。多頭自我注意力機(jī)制模塊并行處理,串聯(lián)后計(jì)算范數(shù),送入多層感知機(jī)模塊。多頭自我注意力機(jī)制利用不同位置的多種子圖信息表達(dá),擁有異源信息共同作用的優(yōu)勢(shì)。多層感知機(jī)模塊則通過GELU激活函數(shù)[11]連接兩個(gè)線性轉(zhuǎn)換層構(gòu)成,最終將輸出的詞元集切片還原為富含高級(jí)語義信息的詞元集
解碼器采用孿生網(wǎng)絡(luò)形式,結(jié)合詞元信息對(duì)原始特征進(jìn)行改進(jìn)。為了將編碼器得到的富語義詞元集重投影到像素空間,解碼器利用原始影像特征向量X1、X2每個(gè)像素與富語義詞元集之間的關(guān)系,得到優(yōu)化后的特征向量如圖4所示,解碼器由多頭交叉注意力模塊和多層感知機(jī)模塊組成,不同于Siamese解碼器[12],利用多頭交叉注意力模塊代替原始多頭自我注意力模塊,可有效避免像素間富連接造成的不良影響,此時(shí)Query、Key和Value分別來自不同的輸入序列,即Query來自一代特征圖,Key和Value來自富語義詞元集。
圖4 編碼器與解碼器結(jié)構(gòu)
1.1.3 差異計(jì)算預(yù)測(cè)Predction Head
在最后的預(yù)測(cè)模塊,Prediction Head對(duì)改進(jìn)后得到的兩幅特征圖作差再取絕對(duì)值得到差異特征張量,利用FCN的思想,在分類器中通過兩個(gè)卷積核大小為3×3的卷積層,得到最終預(yù)測(cè)輸出的二值變化圖。
在訓(xùn)練階段,為優(yōu)化網(wǎng)絡(luò)參數(shù),選擇最大程度降低交叉熵?fù)p失L,計(jì)算公式為:
式中,l(P hw,y)=-log(Phwy)為交叉熵?fù)p失函數(shù);Y hw為位于(h,w)上像素的標(biāo)簽。
本文在PyTorch上實(shí)現(xiàn)了H-BIT方法。訓(xùn)練時(shí)采用動(dòng)量梯度隨機(jī)下降(SGD)優(yōu)化器,動(dòng)量設(shè)置為0.99,權(quán)重衰減設(shè)置為5×10-4,學(xué)習(xí)率最大值max_lr=0.01,并在前30%的迭代輪次中進(jìn)行學(xué)習(xí)率預(yù)熱,從0緩慢上升到max_lr,再隨迭代輪次逐步衰減到max_lr/75。每輪訓(xùn)練后對(duì)模型進(jìn)行驗(yàn)證,驗(yàn)證集中的最佳模型用于測(cè)試集預(yù)測(cè)。實(shí)驗(yàn)在武漢大學(xué)超級(jí)計(jì)算中心的GPU服務(wù)器上完成模型訓(xùn)練,具體硬件配置為兩塊Intel(R)Xeon(R)E5-2640 v4 x86_64、24 GHz、20核心,4塊Nvidia Tesla V100 16GB和128GB DDR4 2 400 MHz ECC,共迭代100輪,訓(xùn)練635幅遙感影像數(shù)據(jù)。模型每迭代一輪大約需要花費(fèi)5 min。
LEVIR-CD數(shù)據(jù)集源于北航LEVIR團(tuán)隊(duì)的公開論文[8],包含637對(duì)由航拍器采集的遙感影像對(duì),時(shí)間跨度為5~14 a,每幅圖像由近紅外、紅色和綠色3個(gè)波段組成,大小均為1 024像素×1 024像素,影像分辨率為0.5 m,共有31 333個(gè)變化建筑實(shí)例作為數(shù)據(jù)集的變化信息,平均變化大小為987像素。由于GPU內(nèi)存限制,將圖像切成256×256的無重疊小尺寸圖像塊,按照訓(xùn)練集、驗(yàn)證集、測(cè)試集的劃分,分別得到7 120對(duì)訓(xùn)練圖像塊、1 024對(duì)驗(yàn)證圖像塊和2 048對(duì)測(cè)試圖像塊。
鑒于遙感影像變化檢測(cè)可看作像素點(diǎn)的二分類問題,本文的評(píng)價(jià)指標(biāo)選取機(jī)器學(xué)習(xí)統(tǒng)計(jì)學(xué)中用以衡量二分類模型精確度的F1得分(可兼顧分類模型的精確率和召回率)、精確率(precision)、召回度(recall)、交并比(IoU)、總體精度(OA)。
TP表示將正類預(yù)測(cè)為正類,F(xiàn)P表示將負(fù)類預(yù)測(cè)為正類,TN表示將負(fù)類預(yù)測(cè)為負(fù)類,F(xiàn)N表示將正類預(yù)測(cè)為負(fù)類,構(gòu)成變化檢測(cè)混淆矩陣如表1所示。
表1 變化檢測(cè)混淆矩陣
利用訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行端對(duì)端的輸出預(yù)測(cè);在LEVIR-CD數(shù)據(jù)集上,將H-BIT方法與原始BIT方法進(jìn)行比較實(shí)驗(yàn),數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境均相同。定量和定性結(jié)果如表2和圖5所示,可以看出,H-BIT方法各項(xiàng)指標(biāo)均優(yōu)于原始BIT方法,說明H-BIT方法能有效提升模型變化檢測(cè)精度;兩種方法均能識(shí)別檢測(cè)目標(biāo)的變化,但H-BIT方法效果更好。圖5中白色代表建筑變化,黑色代表未變化,黃色標(biāo)記圈出了H-BIT方法的優(yōu)點(diǎn),與標(biāo)準(zhǔn)變化標(biāo)簽圖相比,原始BIT方法存在錯(cuò)檢、漏檢現(xiàn)象,大型變化建筑檢測(cè)結(jié)果結(jié)構(gòu)丟失、部分內(nèi)部有較大空洞,小型變化建筑檢測(cè)結(jié)果邊界模糊、形態(tài)缺陷;而H-BIT方法在復(fù)雜背景下也表現(xiàn)優(yōu)越,建筑邊界更平滑,去除了噪點(diǎn)影響,能完整提取目標(biāo)、有效區(qū)分變化像素與偽變化像素,極少出現(xiàn)錯(cuò)檢、漏檢現(xiàn)象,對(duì)于不同尺度目標(biāo)的提取均能發(fā)揮較好的效果,因此在定性結(jié)果上,H-BIT方法也優(yōu)于原始BIT方法。
表2 H-BIT與BIT方法的精度對(duì)比/%
圖5 H-BIT方法與原始BIT方法檢測(cè)結(jié)果對(duì)比
為了獲得性能最優(yōu)的H-BIT模型,本文控制一些參數(shù)的設(shè)置,仍采用F1得分、precision、recall、IoU和OA五個(gè)評(píng)價(jià)指標(biāo),通過調(diào)整學(xué)習(xí)率預(yù)熱所占總體訓(xùn)練輪次的比例和Token_length,獲得一個(gè)較穩(wěn)定的模型。本文分別在預(yù)熱比例為0.3、0.5、0.7和Token_length為4、6的情況下訓(xùn)練模型,具體結(jié)果如表3所示,可以看出,模型在預(yù)熱比例為0.3和Token_length為6時(shí)的表現(xiàn)較好;預(yù)熱比例為0.5和0.7時(shí),雖然模型訓(xùn)練經(jīng)過預(yù)熱已經(jīng)穩(wěn)定,但剩下較少的訓(xùn)練輪次,模型無法取得足夠的訓(xùn)練條件;模型在Token_length為6時(shí),更加符合數(shù)據(jù)集語義信息,因此學(xué)習(xí)率預(yù)熱比例為0.3,Token_length為6的H-BIT模型在LEVIR-CD上表現(xiàn)最優(yōu)。
表3 消融實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
本文將遙感影像變化檢測(cè)視為目標(biāo)提取與差異計(jì)算兩大塊,基于BIT變化檢測(cè)框架提出了一種改進(jìn)后以HRNet為目標(biāo)提取主干網(wǎng)絡(luò)的H-BIT模型;在公開的遙感影像變化檢測(cè)數(shù)據(jù)集LEVIR-CD上進(jìn)行訓(xùn)練與測(cè)試;并與原始BIT模型進(jìn)行定性和定量的測(cè)試對(duì)比。同時(shí),為了獲得性能最優(yōu)的模型,本文對(duì)H-BIT模型進(jìn)行了參數(shù)消融實(shí)驗(yàn),結(jié)果表明:
1)以HRNet為目標(biāo)提取的主干網(wǎng)絡(luò),在很大程度上降低了錯(cuò)檢漏、檢概率,提高了變化檢測(cè)精度。H-BIT方法的precision、recall、F1得分和OA分別達(dá)到了86.95%、90.24%、87.93%和96.62%,較原始BIT方法分別提高了11.02%、10.22%、10.86%和3.95%。HRNet有利于目標(biāo)邊界的平滑處理,對(duì)于背景與目標(biāo)模糊的影像也能完整提取出目標(biāo)。
2)不同于原始卷積神經(jīng)網(wǎng)絡(luò)降低分辨率的做法,經(jīng)HRNet網(wǎng)絡(luò)提取的特征圖像融合了高分辨率和高語義信息兩大優(yōu)勢(shì),高分辨率有利于后續(xù)差異計(jì)算,對(duì)小目標(biāo)的變化也很敏感,即使影像復(fù)雜,存在多種尺度目標(biāo),H-BIT方法也能表現(xiàn)出較高的變化檢測(cè)性能。
3)相較于原始方法,H-BIT方法的參數(shù)數(shù)量和計(jì)算量更少,訓(xùn)練速度更快,擁有時(shí)間優(yōu)勢(shì)。
本文提出的基于HRNet的H-BIT模型仍存在一些不足,如訓(xùn)練樣本變化檢測(cè)目標(biāo)種類單一等,下一步將獲取擁有不同種類目標(biāo)的數(shù)據(jù)進(jìn)行檢測(cè),以進(jìn)一步提高該方法的目標(biāo)可拓展性。