崔賓閣,吳景,李心慧,任廣波,路燕
1.山東科技大學 計算機科學與工程學院,青島 266590;
2.自然資源部第一海洋研究所,青島 266061
濱海濕地是陸地生態(tài)系統(tǒng)和海洋生態(tài)系統(tǒng)的過渡地帶,在改善氣候、維護區(qū)域生態(tài)平衡、維護生物多樣性等方面發(fā)揮著重要的作用。同時,濱海濕地承受著自然過程與人類活動的雙重影響,是敏感的生態(tài)脆弱區(qū),也是國家重點保護的濕地環(huán)境之一(徐東霞和章光新,2007)??焖贉蚀_地提取濕地地物類型信息是合理開展保護和恢復濱海濕地工作的前提(Yang 等,2016)。濱海濕地環(huán)境復雜,大部分地區(qū)難以進入現(xiàn)場勘察,遙感技術(shù)作為有效的大規(guī)模監(jiān)測手段,具有監(jiān)測范圍廣、周期短等多種優(yōu)點,在濱海濕地信息提取方面發(fā)揮了重要作用(范德芹 等,2016)。
傳統(tǒng)濱海濕地信息提取方法大多采用面向?qū)ο蠓诸惙椒ɑ蚴褂霉庾V分析、提取影像淺層特征等方法得到不同的遙感地物特征,然后使用人工閾值或傳統(tǒng)機器學習模型進行信息提取,如決策樹DT(Decision Tree)(王建步 等,2014)、支持向量 機SVM(Support Vector Machines)(Yang 等,2016;Han等,2018)、隨機森林RF(Random Forest)(劉家福 等,2018;張磊 等,2019)等。但傳統(tǒng)機器學習模型的結(jié)構(gòu)較簡單,不能有效表達復雜的地物特征(Wang等,2015)。
近年來,以卷積神經(jīng)網(wǎng)絡CNN(Convolutional Neural Networks)為代表的深度學習方法受到了越來越多的關(guān)注。與傳統(tǒng)機器學習方法相比,深度學習擁有復雜的網(wǎng)絡結(jié)構(gòu)和更強大的特征學習能力,已被證明能夠很好地從原始圖像中提取深層特征(盧宏濤和張秦川,2016;周飛燕 等,2017)。深度學習分類方法已在濱海濕地信息提取中得到了大量應用。Hu等(2019a,2019b)采用深度卷積神經(jīng)網(wǎng) 絡DCNN(Deep Convolutional Neural Networks)對黃河口濕地CHRIS高光譜影像進行了信息提??;后提出了多目標CNN 模型和決策融合方法解決類別混淆現(xiàn)象。Feng等(2019)提出了一種融合多時相不同傳感器數(shù)據(jù)的多分支DCNN,對黃河三角洲濕地的Sentinel 影像進行了信息提取。Liu 等(2021)提出了一種融合高光譜影像和多光譜影像的多數(shù)據(jù)流CNN,對黃河口濕地和鹽城濕地的高分五號和Sentinel 影像進行了信息提取。上述方法在進行大尺度濕地地物信息提取時效果較好。
然而,對濱海濕地植被進行精細信息提取仍是具有挑戰(zhàn)性的任務。河流、地下水和海水的相互作用造成了濱海濕地含鹽量的空間分異,整體上,濱海濕地的土壤含鹽量呈現(xiàn)沿海岸線向內(nèi)陸遞減、河道向兩側(cè)遞增的趨勢。而濱海濕地植被的生長勢與生物量會因生長區(qū)域水鹽條件的不同產(chǎn)生較大差異(劉玉斌 等,2017),這使得濱海濕地植被呈現(xiàn)形變程度高、尺度變化大的特點,且部分植被在生物量峰值時光譜特征極其相似,加大了植被精細信息提取的難度。此外,在濱海濕地廣袤的潮灘上,鹽地堿蓬與檉柳、蘆葦、互花米草等植物混合交錯生長,且大多植株矮小、分布稀疏、底質(zhì)濕度大,導致其在遙感影像中信號較弱。與中低分辨率遙感影像相比,高分辨率遙感影像能提供更豐富的地物信息,如紋理、幾何特征等(孟祥銳,2019),因此植株矮小且分布稀疏的植被可在高分辨率遙感影像上擁有更多信息。但空間分辨率的增加導致了地物類別之間的光譜可分離性降低,使得光譜混淆現(xiàn)象較為嚴重。
針對上述情況,本文提出了基于空間金字塔技術(shù)和注意力機制(張宸嘉 等,2021)的增強多尺度特征提取模塊E-MFE(Enhanced Multi-scale Feature Extraction),結(jié)合典型植被指數(shù),設(shè)計了濱海濕地遙感影像深度語義分割網(wǎng)絡MFVNet,并分析了不同植被指數(shù)對信息提取的影響。
編碼器—解碼器結(jié)構(gòu)被廣泛應用于現(xiàn)代語義和實例分割網(wǎng)絡中。編碼器逐步減少特征圖的尺寸,并通過更大的感受野(Luo 等,2016)學習抽象特征;解碼器將編碼器輸出的小尺寸特征圖上采樣至輸入圖像的尺寸,以實現(xiàn)逐像素分類。在遙感影像語義分割網(wǎng)絡中,感受野的大小影響著地物特征提取的范圍。如果感受野太小,則不利于模型提取大尺度地物特征;如果感受野太大,則不利于模型提取小尺度地物特征。將不同感受野或不同層次的地物特征進行融合,可以提高網(wǎng)絡對于不同尺度濱海濕地地物的提取效果,如空洞空間金字塔池化ASPP(Atrous Spatial Pyramid Pooling)(Chen 等,2018)、特征金字塔網(wǎng)絡FPN(Feature Pyramid NetWork)(Lin等,2017)、金字塔場景解析網(wǎng)絡PSPNet(Pyramid Scene Parsing Network)(Zhao等,2017)。
本文提出的端到端MFVNet架構(gòu)如圖1所示。整體上,MFVNet 可分為編碼器和解碼器兩個階段。編碼器由5 個增強多尺度特征提取模塊E-MFE 和4 個下采樣操作構(gòu)成,在前4 個E-MFE 模塊后接一個下采樣,以增大感受野,使卷積操作能在更大的空間范圍內(nèi)進行特征提取。解碼器由5 個EMFE 模塊、4 個3×3 卷積、多個上采樣操作和1 個1×1卷積構(gòu)成。前4個E-MFE 模塊接受編碼器同一層次E-MFE 模塊輸出的特征圖與解碼器下一層次上采樣后的特征圖,進行多尺度地物特征提??;最后一個E-MFE 模塊接受前4 個E-MFE 模塊不同倍率上采樣和卷積后的特征圖,進行不同層次語義和細節(jié)信息融合。最后,使用一個卷積核數(shù)目為地物類別數(shù)、激活函數(shù)為Softmax 的1×1 卷積來輸出MFVNet的預測結(jié)果。
圖1 MFVNet整體架構(gòu)Fig.1 The overall architecture of the MFVNet
本研究使用交叉熵損失函數(shù)作為網(wǎng)絡的損失函數(shù),其公式如式(1)所示。
式中,y表示真實標簽值,p表示網(wǎng)絡預測值,n表示地物類別數(shù),i∈(1,n),m表示像素總數(shù)。
濱海濕地植被在遙感影像中呈現(xiàn)形變程度高、尺度變化大的特點,這對精細尺度信息提取提出了挑戰(zhàn)。受空洞卷積金字塔結(jié)構(gòu)和注意力機制的啟發(fā),本文設(shè)計了一種增強的多尺度特征提取模塊E-MFE,將不同感受野的地物特征進行融合,以獲得濱海濕地植被多尺度特征,其結(jié)構(gòu)如圖2所示。
圖2 增強多尺度特征提取模塊Fig.2 Enhance multi-scale feature extraction module
E-MFE由一個卷積核大小為3×3的雙卷積分支、3 個擴張率分別為2、3、5 的空洞卷積分支、一個通道權(quán)重分支和兩個1×1卷積構(gòu)成。其中,通道權(quán)重分支使用全局平均池化來聚合每個通道的特征,并利用Sigmoid 函數(shù)獲得特征圖不同通道的權(quán)重。E-MFE 首先使用一個1×1 卷積對輸入特征圖進行通道信息整合,然后分別使用3×3雙卷積和擴張率為2、3、5的空洞卷積進行多尺度特征提取。由于特征圖各通道的重要性不同,本文設(shè)計了一種通道注意力共享機制,即將通道權(quán)重與空洞卷積提取的多尺度特征圖相乘,得到通道注意力增強后的多尺度特征。進而,將雙卷積分支提取的特征與增強后的多尺度特征進行拼接,并對拼接后的結(jié)果使用1×1卷積進行特征融合。最后,將前一個1×1 卷積的輸出作為恒等映射,與后一個1×1 卷積的輸出進行求和,以改善網(wǎng)絡訓練并提升網(wǎng)絡表征能力。E-MFE計算過程可以表示為
式中,X表示輸入特征圖,X′表示前一個1×1 卷積輸出的特征圖,X″表示后一個1×1卷積輸出的特征圖,Z表示通道注意力增強后的多尺度特征,Y表示輸出特征圖,Conv1×1(.) 表示1×1 卷積操作,表示卷積核大小i×i、擴張率為j的空洞卷積操作,表示3×3雙卷積操作,Cat(.)表示拼接操作,S(.)表示Sigmoid 激活函數(shù),G(.)表示全局平均池化操作。
濱海濕地植被易被混淆分類,且部分稀疏植被的影像特征不明顯,因此本文引入了典型植被指數(shù)以增強植被特征表示。針對濱海濕地植被影像特征不明顯的問題,本文選擇了對植被靈敏度高的歸一化植被指數(shù)(NDVI)(Rouse 等,1974)和比值植被指數(shù)(RVI)(Pearson和Miller,1972);針對濱海濕地植被覆蓋密度不同致使土壤背景會對信息提取結(jié)果造成影響的問題,本文選擇了能減弱土壤反射率變化的修正土壤調(diào)節(jié)植被指數(shù)(MSAVI)(Qi等,1994)和差值植被指數(shù)(DVI)(Li等,1995;朱玉玲,2020)。
以上植被指數(shù)定義如表1 所示,其中,NIR 表示遙感影像中近紅外波段反射率,R表示紅光波段反射率。
表1 植被指數(shù)定義Table 1 Definition of vegetation index
本文所用的遙感數(shù)據(jù)為2016 年8 月GF-2 衛(wèi)星拍攝的黃河口濕地多光譜遙感影像。黃河口濕地位于黃河入海口處,經(jīng)緯度范圍約為37°35'N—37°55'N、119°1'E—119°20'E,處于山東省東營市黃河三角洲國家級自然保護區(qū)內(nèi)。研究區(qū)位置與實驗影像如圖3所示,影像大小為7300×6908,空間分辨率為4 m,以標準假彩色(NIR、R、G)圖像顯示。
圖3 研究區(qū)位置與實驗影像Fig.3 Location of the study area and experimental images
根據(jù)對黃河口濕地現(xiàn)場踏勘情況與使用的影像數(shù)據(jù)特點,結(jié)合專家目視解譯結(jié)果,確定該影像的分類類別為蘆葦、互花米草、檉柳混生區(qū)、海草床、裸潮灘、潮灘稀疏植被、水體和其他等8 類。考慮到潮灘稀疏植被在遙感影像中可視化效果較差(如圖4(a)中紅框所示),本文在目視解譯時使用歸一化植被指數(shù)NDVI 增強視覺效果(圖4(b))。結(jié)合現(xiàn)場踏勘獲取的數(shù)據(jù)資料,得到的標簽圖像如圖4(c)所示。
圖4 遙感影像與標簽圖像Fig.4 Remote sensing image and label image
本文選擇TensorFlow 為后端的Keras 框架實現(xiàn)MFVNet 模型和其他深度學習模型,并在NVIDIA Tesla P100 上進行訓練,訓練迭代次數(shù)為100。采用10折交叉驗證,優(yōu)化器為Adam算法,學習率為0.0001,批量大小為8。
首先對遙感影像進行輻射定標和大氣校正,然后根據(jù)黃河口濕地典型地物的空間分布和現(xiàn)場踏勘結(jié)果,選擇訓練樣本區(qū)域,如圖5 中紅框所示。訓練樣本區(qū)域約占整幅影像11%,測試數(shù)據(jù)為去除訓練樣本區(qū)域后的影像數(shù)據(jù),測試數(shù)據(jù)和訓練樣本區(qū)域的像素數(shù)目如表2所示。
表2 訓練樣本區(qū)域與測試數(shù)據(jù)的像素數(shù)目Table 2 The number of pixels in the training samples area and test data
圖5 訓練樣本區(qū)域選取Fig.5 Training samples area selection
由于GPU 內(nèi)存的限制,本文以128×128 大小的圖像作為深度學習模型的輸入。為擴充模型的訓練數(shù)據(jù)并保持上下文信息的完整性,本文將選擇的訓練樣本區(qū)域切割成128×128大小的圖像,切割時步長設(shè)為32。然后,將切割后的圖像進行歸一化處理,使圖像數(shù)據(jù)保持在0—1,以提高模型的收斂速度。
為評估各種方法的精度,本文使用混淆矩陣對測試樣本進行類別統(tǒng)計,混淆矩陣構(gòu)造如表3所示。
表3 混淆矩陣表示Table 3 Confusion matrix representation
本文采用精準率Precision(P)、召回率Recall(R)和F1 分數(shù)作為分類結(jié)果中各種地物的精度評價指標,其計算公式如式(6)—式(8)所示。
采用總體精度OA 和Kappa 系數(shù)作為分類結(jié)果的整體評價指標,其計算公式如式(8)和式(9)所示。
本文將MFVNet與傳統(tǒng)的機器學習模型SVM以及典型的深度學習模型UNet(Ronneberger 等,2015)、MultiResUNet(Ibtehaz 和Rahman,2020)和HRNet(Sun等,2019)應用于黃河口濕地地物分類實驗,各種方法的信息提取結(jié)果如圖6所示。
圖6 黃河口濕地信息提取結(jié)果Fig.6 Results of extraction of wetland information in the Yellow River Estuary
從整體來看,SVM 分類結(jié)果混淆現(xiàn)象比較嚴重。UNet 在潮灘稀疏植被上識別效果較好,但對于顏色和紋理相近的蘆葦與互花米草,混淆分類較為嚴重,如圖6(c)上方框圖所示。MultiResUNet采用多層卷積堆疊的方式增加感受野,以提取多分辨率特征,但對潮灘稀疏植被的提取效果不佳,如圖6(d)下方框圖所示。HRNet 在并行的多分辨率子網(wǎng)上反復交換信息以增強高分辨率特征表示,在互花米草和其他上獲得了較好提取效果,但在檉柳混生區(qū)和蘆葦上混淆分類較為嚴重,如圖6(e)上方框圖所示。MFVNet 使用修正土壤調(diào)節(jié)植被指數(shù)MSAVI、差值植被指數(shù)DVI 和比值植被指數(shù)RVI 增強植被特征,并用增強多尺度特征提取模塊E-MFE 獲取不同尺度地物特征,有效緩解了提取結(jié)果的混淆分類現(xiàn)象,改善了多種地物的提取效果,如圖6(f)框圖所示。
各種模型和方法在測試數(shù)據(jù)上的結(jié)果如表4所示。MFVNet 的總體精度和Kappa 分別達到了93.89%和0.9072,優(yōu)于其他方法,在檉柳混生區(qū)、海草床和潮灘稀疏植被等地物上的精確率、召回率和F1分數(shù)均遠高于其他方法。
表4 信息提取結(jié)果精度對比Table 4 Accuracy comparison of information extraction results
為了驗證MFVNet 的泛化能力,本文使用另一幅GF-2 遙感影像(2017 年8 月拍攝)進行了對比實驗,因該幅影像云和陰影過多,故裁剪了部分區(qū)域進行實驗,如圖7所示。UNet、MultiResUNet、HRNet和MFVNet這4種深度學習模型的信息提取結(jié)果如圖7(c)至圖7(f)所示。從整體來看,UNet的混淆分類現(xiàn)象較為嚴重,MultiResUNet 和HRNet在海草床上識別較好,但對潮灘稀疏植被提取效果不佳。MFVNet 緩解了混淆分類現(xiàn)象,并極大提高了檉柳混生區(qū)和潮灘稀疏植被的提取精度。以上模型在測試數(shù)據(jù)上的精度如表5 所示。MFVNet的總體精度和Kappa 達到了92.18%和0.8998,優(yōu)于其他方法。
表5 2017年遙感影像信息提取結(jié)果精度對比Table 5 Accuracy comparison of information extraction results from remote sensing images in 2017
圖7 2017年黃河口遙感影像信息提取結(jié)果Fig.7 Yellow River Estuary remote sensing image information extraction results in 2017
E-MFE 模塊使用多個空洞卷積同時捕獲不同感受野的地物特征,并利用通道注意力共享機制對多尺度特征進行增強或抑制,選擇出對濱海濕地地物分類有用的特征。為了驗證E-MFE 模塊和植被指數(shù)V-Index 的有效性,本文進行了消融實驗,結(jié)果如表6所示。從表6中可以看出,加入E-MFE模塊后,網(wǎng)絡模型的總體精度和Kappa 分別提升1.58%和0.0238;加入V-Index 后,網(wǎng)絡模型的總體精度和Kappa 分別提升1.01%和0.0155;同時加入E-MFE 模塊和V-Index 后,網(wǎng)絡模型的總體精度和Kappa分別提升2.43%和0.0372。
表6 MFVNet消融實驗結(jié)果Table 6 MFVNet ablation experiment results
植被指數(shù)是人們通過長期實踐總結(jié)出來的不同遙感光譜波段間的線性或非線性組合,被普遍認為能較好地反映植被覆蓋度和生長狀態(tài)的差異。為了研究加入不同植被指數(shù)對濱海濕地信息提取的作用,本文開展了植被指數(shù)影響分析實驗,結(jié)果如表7所示。為了消除深度學習模型訓練的隨機誤差的影響,本文分別進行了10次實驗,并計算了10次實驗結(jié)果的均值與標準差。從表7中可以看出,加入NDVI之后模型的總體精度和Kappa均有所下降,但海草床的精準率提升較大;加入MSAVI之后,總體精度和Kappa提升較大,蘆葦?shù)恼倩芈屎蜋f柳混生區(qū)的精準率提升較大;加入RVI之后,蘆葦和互花米草的精準率提升較大、檉柳混生區(qū)和潮灘稀疏植被的召回率提升較大。加入DVI之后,蘆葦和檉柳混生區(qū)的召回率、互花米草和海草床的精準率提升較大,以上4種植被的F1分數(shù)均提升較大。
表7 MFVNet使用不同植被指數(shù)的結(jié)果Table 7 The results of using different vegetation indices to MFVNet
為了得到最優(yōu)的濱海濕地信息提取結(jié)果,本文基于表7 的實驗結(jié)果設(shè)計了5 種植被指數(shù)組合方案。方案1是NDVI、MSAVI、RVI和DVI共4種植被指數(shù)的組合;方案2是在大部分植被地物上表現(xiàn)較好的MSAVI、DVI和RVI的組合;方案3是MSAVI和DVI的組合;方案4是MSAVI和RVI的組合;方案5是DVI和RVI的組合。不同植被指數(shù)組合方案在測試數(shù)據(jù)上的結(jié)果如表8 所示。從表8 中可以看出,方案2在所有植被類型上都獲得最高的精度,且總體精度和Kappa 與表7 中加入單一植被指數(shù)的結(jié)果相比提升較大。因此,本文使用方案2中MSAVI、DVI和RVI等3種植被指數(shù)的組合增強植被特征表示。
表8 MFVNet增加不同植被指數(shù)組合方案的結(jié)果Table 8 The results of MFVNet adds different vegetation index combinations
本文提出了一種結(jié)合深度學習和植被指數(shù)的濱海濕地信息提取網(wǎng)絡MFVNet,緩解了植被易被混淆分類的問題,結(jié)果的總體精度和Kappa分別達到93.89%和0.9072。為了有效捕獲不同尺度的地物特征,本文基于空洞卷積和注意力機制提出了增強多尺度特征提取模塊,有效提高了濱海濕地信息提取精度。針對濱海濕地植被易被混淆分類,且部分植株矮小和分布稀疏導致在遙感影像上特征不明顯的問題,本文引入了典型植被指數(shù)以增強植被特征,并基于MFVNet 實驗了不同植被指數(shù)對信息提取的影響。實驗表明,同時增加修正土壤調(diào)節(jié)植被指數(shù)MSAVI、差值植被指數(shù)DVI 和比值植被指數(shù)RVI可對濱海濕地信息提取的貢獻最大。
本文的實驗證明,在深度語義分割網(wǎng)絡中加入植被指數(shù)有利于提高濱海濕地植被的信息提取精度,但本文僅初步探究了不同典型植被指數(shù)對濱海濕地信息提取的作用,未涉及不同時相植被指數(shù)的影響分析。下一步計劃引入多時相遙感影像,研究不同時相下的植被指數(shù)與深度學習結(jié)合對改善濱海濕地植被信息提取精度的影響。