董 晨,鄭 祿,于 舒,饒白云
(1.中南民族大學(xué) 計算機(jī)科學(xué)學(xué)院;2.湖北省制造企業(yè)智能管理工程技術(shù)研究中心;3.農(nóng)業(yè)區(qū)塊鏈與智能管理湖北省工程研究中心,湖北 武漢 430074)
遙感影像變化檢測任務(wù)旨在比較同一地理區(qū)域不同時間內(nèi)拍攝的遙感影像圖片之間的差異。變化檢測方法在現(xiàn)實(shí)生活中有著廣泛應(yīng)用,例如城市發(fā)展規(guī)劃、農(nóng)業(yè)監(jiān)測、自然災(zāi)害評估等。傳統(tǒng)遙感變化檢測處理方法包括人工目視解譯或手動勾勒,需要耗費(fèi)大量人力時間,處理效率較低。此外,遙感圖像存在著各種噪聲,例如光照、傳感器導(dǎo)致圖像扭曲和分辨率變化,此時人工處理方法將無法有效地區(qū)分圖像的真實(shí)變化區(qū)域和背景噪聲,因此難以提升模型的準(zhǔn)確率[1]。
深度學(xué)習(xí)技術(shù)為遙感變化檢測提供了新的解決方案,并且性能良好。CNN 卷積網(wǎng)絡(luò)在圖像處理任務(wù)上表現(xiàn)較好,Daudt 等[2]率先將孿生結(jié)構(gòu)與CNN 相結(jié)合,實(shí)驗(yàn)表明孿生結(jié)構(gòu)能提升模型的檢測精度,使得孿生網(wǎng)絡(luò)嵌入CNN 網(wǎng)絡(luò)成為變化檢測的常用方法。
為了進(jìn)一步提升變化檢測的準(zhǔn)確率,許多研究在提取、細(xì)化深層特征上作了大量工作。Chen 等[3]提出使用金字塔結(jié)構(gòu)的DASNet,通過融合4 層特征圖提取多尺度特征,但網(wǎng)絡(luò)參數(shù)量較大。為了提升檢測效率,Liu 等[4]采用差分金字塔結(jié)構(gòu)LSNet,將骨干網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積替換為空洞卷積,實(shí)驗(yàn)表明該方法在小型數(shù)據(jù)集上表現(xiàn)良好,但在大型數(shù)據(jù)集(LEVIR-CD)上檢測精度較低。
除了多尺度提取特征之外,注意力機(jī)制也能幫助分類器取得更精確的變化檢測結(jié)果。Hu 等[5]在SENet 中通過通道注意力SE 模塊(Squeeze-and-Excitation Block),解決了在卷積池化過程中由于不同通道特征圖所占的重要性不同帶來的損失問題,但未關(guān)注空間層面。Woo 等[6]在SE模塊的基礎(chǔ)上,將通道注意力和空間注意力相結(jié)合提出CBAM(Convolutional Block Attention Module),但該模塊存在兩個最重要的缺點(diǎn):未充分利用多尺度的特征,只捕獲了單一尺度的空間信息;空間注意力未考慮非局部區(qū)域的信息,缺乏建立遠(yuǎn)距離依賴能力。Zhang 等[7]在EPSANet中提出PSA(Pyramid Split Attention)對通道進(jìn)行切分,再使用SE 模塊提取不同尺度特征圖的通道注意力,但SE 模塊無法根據(jù)全局上下文進(jìn)行建模,因此PSA 缺乏捕獲全局上下文信息的能力。
此外,STANet[8]、DASNet[3]均使用了PAM(Pyramid Attention Module)和BAM(Basic Attention Module)。其中,PAM 包含4 個分支,在每個分支中PAM 對每個子區(qū)域的像素應(yīng)用BAM,再聚合4 個分支的輸出張量得到多尺度的注意力表示。BAM 的作用是學(xué)習(xí)、捕捉任意兩個位置間的時空相關(guān)性(注意力權(quán)重),通過時空中所有位置特征的加權(quán)和來計算每個位置的響應(yīng)。因此,BAM 能十分有效地建模遠(yuǎn)距離時空依賴關(guān)系,獲得全局信息,但計算量較大。
為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)感受野,充分利用全局上下文信息,本文在通道注意力的基礎(chǔ)上引入多尺度思想,提出結(jié)合全局信息的金字塔分割注意力的模塊(Pyramid Segmentation Attention,PSG),實(shí)現(xiàn)了一個端到端的孿生變化檢測網(wǎng)絡(luò)SPAN。實(shí)驗(yàn)證明該網(wǎng)絡(luò)在大數(shù)據(jù)集LEVIR-CD 和小數(shù)據(jù)集CDD 上均取得了較好效果。
本文網(wǎng)絡(luò)主要由特征提取模塊、注意力模塊、比較模塊構(gòu)成,如圖1 所示(彩圖掃OSID 可見,下同)。首先將T1、T2 時間的圖像同時輸入孿生特征提取器,得到兩幅特征圖(橙色部分);然后將兩幅橙色特征圖共同輸入PSG 注意力模塊得到注意力特征圖(藍(lán)色部分);最后通過像素級的歐氏距離計算特征圖的相似度,生成差分圖像。
Fig.1 SPAN model overall framework圖1 SPAN模型整體框架
Fig.2 Feature extractor based on siamese network圖2 基于孿生網(wǎng)絡(luò)的特征提取器
由圖2 可見,模型首先對每一層級的特征圖分別進(jìn)行卷積操作,構(gòu)造出一個在所有層級上具有較強(qiáng)語義信息的特征金字塔;然后進(jìn)行特征映射連接開始卷積處理;最終得到特征圖。具體為,從網(wǎng)絡(luò)的不同階段得到4 組特征映射,同時將最后的輸出特征圖輸入卷積層(CONV 1),使其維數(shù)轉(zhuǎn)換為C1。同時,將第2、3、4 階段的輸出特征圖分別輸入3 個不同卷積層(CONV2、CONV3、CONV4),使每個通道維度都轉(zhuǎn)換為C1,然后將4 個特征圖上采樣后在通道維數(shù)上進(jìn)行連接(4×C1),再送入兩個不同的卷積層(C2、C3)中提取更豐富的高級特征,生成最終特征圖。
在遙感影像中,由于地物自身尺寸差異,難以用單個尺度進(jìn)行分析,而具有高度區(qū)別性的特征可提升分類器的檢測效果,因此采用多尺度的注意力機(jī)制避免差異特征帶來的影響成為了通用的處理手段。
然而,傳統(tǒng)注意力模塊只關(guān)注空間維度或通道維度,忽視了非局部位置特征提供的有用信息,使得差異化表示較弱。為了利用非局部信息(全局上下文信息),本文在PSA 模塊[7]基礎(chǔ)上提出PSG(Pyramid Split and Global)模塊,如圖3所示。
Fig.3 Pyramid split global module圖3 PSG模塊
SPC 模塊首先進(jìn)行特征切分操作,將輸入特征圖使用不同大小的核卷積拆分成不同尺度的特征圖,然后引入GC 模塊來構(gòu)建某一位置與其他所有位置間的關(guān)系。GC模塊在上下文信息建模部分(黃色虛線區(qū)域)使用簡化后的NL 模塊[11];在Transform 階段(紫色虛線區(qū)域)選用SE模塊[5],使得在不增加計算量的同時,確保具有相似特征的任意兩個位置在任何距離上都具有相互可辨別性。GC塊[12]的詳細(xì)體系結(jié)構(gòu)如圖4 所示,具體計算公式如式(1)所示。
Fig.4 Global context module圖4 GC模塊
Fig.5 CDD dataset圖5 CDD數(shù)據(jù)集
Fig.6 LEVIR-CD dataset圖6 LEVIR-CD數(shù)據(jù)集
式中:Wk代表全局注意力權(quán)重;X′代表轉(zhuǎn)換后的特征。
具體而言,GC 模塊包括:①獲取上下文信息的全局注意池,使用1×1 卷積和softmax 函數(shù)獲得注意權(quán)重,然后通過共享注意權(quán)重獲得全局上下文特征;②通過1×1 卷積Wv進(jìn)行特征變換以捕獲通道依賴性;③將全局上下文特征和每個位置的特征使用加法聚合,以實(shí)現(xiàn)特征融合。
PSG 模塊使網(wǎng)絡(luò)關(guān)注每一層尺度下的通道特征;然后將不同尺度上的特征合并,通過重新計算不同尺度通道注意力的特征,得到交互后的多尺度通道注意力權(quán)重;最后將多尺度權(quán)重作用于相應(yīng)的特征圖,得到一個細(xì)化后的特征圖(信息表示更豐富,有利于提升模型檢測能力)。
在變化檢測任務(wù)中,變化和不變像素數(shù)量差距很大,容易造成類不平衡的問題使實(shí)驗(yàn)產(chǎn)生較大誤差,因此除了從像素級別進(jìn)行平衡之外,還需考慮前后景不均衡的問題。目前,常用的檢測指標(biāo)包含F(xiàn)ocalLoss[13,14]和Dice-Loss[15-17],F(xiàn)ocalLoss 用于測量訓(xùn)練樣本不平衡及樣本難易程度,DiceLoss 檢測前后景或分割內(nèi)容是否不均衡,具體公式如式(3)、式(4)。
芬蘭OUTOTEC公司開發(fā)的硫酸鋅溶液砷鹽凈化技術(shù)除去電積液中鎳、鈷具有國際先進(jìn)水平[4-5],成功之處在于引進(jìn)了電位、BT值、晶種返回等先進(jìn)理念以及項(xiàng)目的自動化控制系統(tǒng)的設(shè)計,為保證凈化系統(tǒng)的穩(wěn)定運(yùn)行創(chuàng)造了良好的條件[6-7]。該技術(shù)與專利設(shè)備固然有其先進(jìn)性,但是在工業(yè)化應(yīng)用過程又同時存在很多明顯缺陷。硫酸鋅溶液除鎘能否達(dá)到工藝要求,反應(yīng)器的流態(tài)化沸騰層穩(wěn)定控制是工藝的關(guān)鍵所在。如何評價運(yùn)行期間沸騰層的穩(wěn)定?關(guān)鍵在于相鄰反應(yīng)器之間的液位差[8]。本文將從沸騰層形成機(jī)理開始,從內(nèi)部控制到外部基礎(chǔ)進(jìn)全方位的闡述沸騰層的控制要素。
式中:Pij為位置(i,j)上的預(yù)測值,取值范圍為[0,1];為位置(i,j)上的真實(shí)值,取值非0 即1,0 代表該像素點(diǎn)未變化,1代表該像素點(diǎn)發(fā)生變化。
由于遙感圖像不僅存在樣本不均的問題,還存在難分類問題。為此,本文將FocalLoss 與DiceLoss 相結(jié)合。
最終,將γ設(shè)置為2,λ設(shè)置為0.5[18]。
CDD 數(shù)據(jù)集[19]由11 對多源遙感圖像組成,具體包括7對4 725×2 200 像素的季節(jié)變化圖像和4 對1 900×1 000 像素的圖像。本文將CDD 圖像裁剪為16 000 個大小為256×256 的圖像,具體為train(10 000 張)、val(3 000 張)、test(3 000張)。
LEVIR-CD 數(shù)據(jù)集由谷歌Earth 平臺[8]采集的637 對HSR 雙時間遙感影像組成,每張圖像大小為1 024×1 024像素,空間分辨率為0.5 m,分為train(445 對)、val(64 對)和test(128對)。
為了評價該方法的性能,本文使用精度(P)、召回率(R)、F1 評分(F1)和總體精度(OA)進(jìn)行評價。其中,在遙感變化檢測任務(wù)中精度越高,預(yù)測結(jié)果的誤檢次數(shù)越少;召回率值越大,預(yù)測結(jié)果漏檢次數(shù)越少;F1 評分和OA 用于綜合評價預(yù)測結(jié)果,數(shù)值越大預(yù)測結(jié)果越好。具體計算公式為:
式中:TP為真陽性數(shù);FP為假陽性數(shù);TN為真陰性數(shù);FN為假陰性數(shù)。
本文選取了現(xiàn)有4 種遙感變化檢測模型與本文模型進(jìn)行比較。其中,SPAN 網(wǎng)絡(luò)訓(xùn)練的批處理大小為16,優(yōu)化器算法為AdamW,學(xué)習(xí)率初始化為0.001,所選取網(wǎng)絡(luò)如下:①FC-EF[2],基于UNet 模型的全卷積神經(jīng)網(wǎng)絡(luò),包括4個最大池化層和4 個上采樣層;②FC-Siam-Diff[2],是FCEF 的改進(jìn),針對不同時間的圖像特征分別編碼,以concat絕對差值的方式送入解碼器進(jìn)行解碼,通過softMax 操作得到變化圖;③DASNet[3],基于ResNet,通過權(quán)值共享的語義分割網(wǎng)絡(luò)獨(dú)立生成兩個特征,并使用度量方法計算兩個特征之前的差異來生成差異圖;④LSNet,基于ResNet,使用4 個復(fù)合層組成的差分金字塔,得到4 組差分特征,然后將特征疊加得到差異圖。
表1 為不同模型在LEVIR-CD 數(shù)據(jù)集上的結(jié)果。表2為不同模型在CDD 數(shù)據(jù)集上的結(jié)果。由表1、表2 可知,本文模型在兩個數(shù)據(jù)集上表現(xiàn)較好,相較于DASNet 在LEVIR-CD 數(shù)據(jù)集和CDD 數(shù)據(jù)集上,F(xiàn)1 分別提高1.7%、2.5%;相較于LSNet 在LEVIR-CD 數(shù)據(jù)集和CDD 數(shù)據(jù)集上,分別提高18%、0.7%。LSNet 雖然在CDD 數(shù)據(jù)集上表現(xiàn)較好,但并不適用于大型數(shù)據(jù)集LEVIR-CD,檢測精度較低,而本文模型可同時在大型數(shù)據(jù)集和小型數(shù)據(jù)集得到較好的檢測結(jié)果,證明了本文模型相較于其他模型優(yōu)越性與普適性更強(qiáng)。
Table 1 Results of different models on the LEVIR-CD dataset表1 不同模型在LEVIR-CD數(shù)據(jù)集上的結(jié)果
Table 2 Results of different models on the CDD dataset表2 不同模型在CDD數(shù)據(jù)集上的結(jié)果
圖7 中A 代表T1 時間點(diǎn)圖像,B 代表T2 時間點(diǎn)圖像。由此可見,從A 到B 的地表覆蓋發(fā)生了很大變化,建筑物及其顏色、紋理均發(fā)生了變化,只保留了基本結(jié)構(gòu)。由圖7、圖8 中A 與B 圖的差異可發(fā)現(xiàn),SPAN 網(wǎng)絡(luò)生成的差異圖相較于其他模型與Label 最接近,相較于LSNet 連接塊較少且更完整。由圖7、圖8 中C 可見,DASNet 生成的差異圖邊界明顯產(chǎn)生了不屬于建筑物形狀的扭曲,LSNet與SPAN 生成的差異圖邊緣更平滑,更接近真實(shí)的變化圖Label,證明了SPAN 網(wǎng)絡(luò)識別與定位變化區(qū)域的效果更好,對建筑物、道路的變化檢測效果更好。
Fig.7 Results of each model on the CCD dataset圖7 在CCD數(shù)據(jù)集上各個模型結(jié)果
Fig.8 Results of ablation experiment圖8 消融實(shí)驗(yàn)結(jié)果
為了驗(yàn)證改進(jìn)模塊的有效性,以全局上下文信息對遙感變化檢測任務(wù)的重要性,設(shè)計消融實(shí)驗(yàn)比較改進(jìn)ResNet50、改進(jìn)ResNet50+PSA(傳統(tǒng)多尺度注意力)和本文模型。表3、圖8 顯示了消融研究和在LEVIR-CD 測試集上的結(jié)果差異。由表3 可知,加入注意力模塊后模型性能得到明顯改善,本文模型相較于改進(jìn)ResNet50、改進(jìn)ResNet50+PSA 模型的F1分別提高4.5%、2.1%。
Table 3 Ablation experiments on the LEVIR-CD dataset表3 LEVIR-CD數(shù)據(jù)集上的消融實(shí)驗(yàn)
為了進(jìn)一步觀察上下文信息對變化檢測任務(wù)的影響,將消融實(shí)驗(yàn)?zāi)P蜕傻牟町悎D進(jìn)行比較。由圖8 第二行可見,基線模型生成的差異圖中建筑物輪廓較為圓潤,不符合建筑物的邊緣特征;加入傳統(tǒng)多尺度注意力模塊PSA后,模型對建筑物的描述更精細(xì),但依然存在一定程度的凸起;而將上下文信息與多尺度融合的模型生成的差異圖邊緣輪廓最清晰,白色變化區(qū)域大小與Label 的描述范圍大小更接近。
由圖8 中B 與第三行可見,基線模型與加入傳統(tǒng)多尺度注意力模塊PSA 的模型生成的差異圖中建筑物存在空缺或缺失,而將上下文信息與多尺度融合的模型能有效避免空缺及缺失問題,證明了加入上下文信息的PSG 模塊能充分提取具有判別性的特征,也證明了全局上下文信息對遙感變化檢測任務(wù)十分重要。
本文針對遙感變化檢測任務(wù)中未充分利用上下文信息,導(dǎo)致變化檢測網(wǎng)絡(luò)無法有效分辨變化區(qū)域的問題,提出一種基于上下文感知與多尺度注意力的變化檢測方法SPAN。該方法相較于圖像的注意力機(jī)制方法,能充分提取具有判別性的特征,可提升SPAN 網(wǎng)絡(luò)的檢測精度。
在LEVIR-CD 和CDD 數(shù)據(jù)集上的比較實(shí)驗(yàn)顯示,本文模型相較于現(xiàn)有模型,無論在精度還是訓(xùn)練效果上均表現(xiàn)良好。此外,為了驗(yàn)證各模塊的有效性,設(shè)計消融實(shí)驗(yàn)進(jìn)一步證明了PSG 的改進(jìn)成效與融合上下文信息的有效性。