寧紀鋒 倪 靜 何宜家 李龍飛 趙志新 張智韜
(1.西北農(nóng)林科技大學信息工程學院, 陜西楊凌 712100; 2.西北農(nóng)林科技大學水利與建筑工程學院, 陜西楊凌 712100)
地膜具有提高土壤溫度、保持土壤水分、防止害蟲侵襲和促進農(nóng)作物生長等功能,已成為提高農(nóng)作物產(chǎn)量的重要方法之一。隨著農(nóng)用地膜面積的快速增長[1],由此引發(fā)的環(huán)境問題也日益凸顯。一方面,地膜覆蓋地表抑制了水分蒸發(fā),提高了水分利用率同時也改變了地表陸面參數(shù),阻斷了土壤與大氣間的水分交換,從而可能會對區(qū)域氣候產(chǎn)生一定的影響[2-4];另一方面,地膜在農(nóng)田中的長期殘留會降低土壤孔隙度和含水率,造成對土壤的污染[5-6]。因此迫切需要準確、及時地了解農(nóng)田地膜的時空分布情況,為掌握農(nóng)田地膜時空分布、開展農(nóng)作物監(jiān)測和殘膜污染防控提供決策管理依據(jù)。
獲取地膜覆蓋信息傳統(tǒng)方法需要進行實地調(diào)查,工作量大且效率低。由于衛(wèi)星遙感具有大尺度監(jiān)測[7]的優(yōu)勢,并且多光譜遙感影像具有多波段特點,含有豐富的地物特征,利用其進行農(nóng)田地膜信息的監(jiān)測取得了良好的進展[8-11]。而無人機遙感具有機動靈活和成像分辨率高等特點[12-13],近年來在農(nóng)田級區(qū)域[14-15]的應(yīng)用越來越廣泛。同時,隨著深度學習的發(fā)展,深度語義分割模型具有像素級分類的效果,其在效率和性能上相較于傳統(tǒng)的分類方法具有明顯的優(yōu)勢。文獻[16]提出一種基于深度學習的大棚及地膜農(nóng)田無人機航拍監(jiān)測方法,通過構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional network,F(xiàn)CN)[17]對采集到的赤峰市王爺府鎮(zhèn)地區(qū)覆膜農(nóng)田圖像實現(xiàn)快速識別。文獻[18]利用無人機獲取內(nèi)蒙古自治區(qū)2018年5月地膜覆蓋的多光譜遙感影像,采用SegNet[19]深度語義分割方法且結(jié)合紋理特征和光譜特征實現(xiàn)對地膜的精確識別。
注意力機制[20-22]能夠在進行視覺信息處理時選擇性地關(guān)注部分信息,在語義分割中,利用其可將全局信息選擇性地聚合到每個像素點上,使得不同類別的像素特征區(qū)分度更大,從而提高模型的識別精度。近年來,基于注意力機制的深度學習方法在農(nóng)業(yè)中也逐漸得到應(yīng)用[23]。
本文將注意力機制應(yīng)用于地膜農(nóng)田無人機多光譜遙感影像識別,并與可見光遙感圖像的識別效果進行對比,考慮地膜表觀變化對模型識別精度的影響,在訓練數(shù)據(jù)中增加地膜農(nóng)田表觀變化的數(shù)據(jù),提供多樣化的訓練數(shù)據(jù)。在DeepLabv3+[24]網(wǎng)絡(luò)基礎(chǔ)上加入注意力機制,以自適應(yīng)學習地膜注意力,得到適應(yīng)不同分布的大規(guī)模地膜農(nóng)田空間分布信息監(jiān)測模型,以期獲得更為準確的地膜農(nóng)田覆蓋信息。
實驗區(qū)域為內(nèi)蒙古自治區(qū)西部河套灌區(qū)沙壕渠灌域,地理坐標為40°52′~41°0′N,107°5′~107°10′E,海拔1 034~1 037 m,是內(nèi)蒙古自治區(qū)河套灌區(qū)西北部解放閘灌域內(nèi)部的一個獨立區(qū)域。該灌溉區(qū)域總面積為52.4 km2,其形狀為南窄北寬,地面較為平坦。主要種植的農(nóng)作物有向日葵、小麥、玉米和西葫蘆,其中向日葵的種植面積最大,約占47.9%。該地區(qū)夏季高溫少雨,冬季寒冷干燥,屬于典型的大陸性干旱半干旱氣候,通過使用塑料地膜來提高農(nóng)作物的產(chǎn)量。根據(jù)實地調(diào)研結(jié)果,選擇地膜覆蓋面積最大的4塊實驗田作為實驗地,并依次編號為1、2、3、4號地,單塊實驗田面積在1.5×105~2.5×105m2之間,位置分布如圖1所示。
1.2.1數(shù)據(jù)采集
實驗所用的采集設(shè)備為大疆創(chuàng)新科技有限公司生產(chǎn)的經(jīng)緯M600型六旋翼無人機,搭載的多光譜傳感器為美國Tetracam公司生產(chǎn)的Micro-MCA型多光譜相機(簡稱MCA),如圖2所示。相機包含6個波段(3個可見光波段,3個近紅外波段)的光譜采集通道,其中心波長分別為490 nm(藍光)、550 nm(綠光)、680 nm(紅光)、720 nm(紅邊)、800 nm(近紅外)、900 nm(近紅外),每個通道的寬度為35 nm,并且每個波段配備130萬像素的CMOS傳感器,圖像分辨率均為1 280像素×1 024像素。
無人機遙感影像的采集過程分為2個時間段,分別為2018年5月3日和2019年5月14、16日。每次實驗設(shè)定無人機的飛行高度為120 m,拍攝開始時間為13:00,平均飛行速度為9.2 m/s,影像的地面采樣距離(Ground sample distance,GSD)為0.065 m。
無人機航拍的圖像通過Pix4Dmapper軟件進行拼接,利用地面控制點對其進行幾何校正,生成最終的正射影像。拼接后的每塊實驗田遙感影像平均分辨率約為10 000像素×10 000像素,共有8幅,以TIFF格式存儲。
1.2.2數(shù)據(jù)標注
根據(jù)地面調(diào)查,采集到的地膜數(shù)據(jù)主要有3種類型,分別為旱作黑膜、旱作透明膜和灌溉地膜,如圖3所示。道路、裸地、作物農(nóng)田、水渠等劃為背景類。采用開源軟件LabelMe對拼接后的圖像進行手工標注。圖4為地膜農(nóng)田像素級標注示例。
通過統(tǒng)計2年每塊實驗田的標簽圖像,對各類別的數(shù)據(jù)分布進行分析。由圖5a可知,2018年地膜數(shù)據(jù)中旱作黑膜主要集中在2號地和3號地,旱作透明膜存在于2號地和4號地,灌溉地膜相對較少,且主要分布在3號地和4號地。由圖5b可知,2019年地膜數(shù)據(jù)中旱作黑膜極少且只存在于3號地中,灌溉地膜分布在2號地、3號地和4號地,旱作透明膜居多且每塊實驗田都有分布。由此發(fā)現(xiàn)不同年份各塊實驗田地膜種類分布差距較大。從圖5c可以看出,整體上2年的背景變化較小,相差不大。各地膜種類2018年中旱作透明膜居多,旱作黑膜次之,灌溉地膜最少,而2019年地膜種類中旱作透明膜最多,灌溉地膜次之,旱作黑膜最少。其中,2年的灌溉地膜差距最大,同時不同年份地膜也存在較大的表觀變化。圖6為2018年和2019年典型的旱作透明膜遙感圖像,可以看出2018年的旱作透明膜特征明顯,和圖3b中旱作黑膜區(qū)分度較大。而2019年出現(xiàn)部分旱作透明膜的表觀變化較大,與旱作黑膜相似的地膜特征容易被錯誤識別。
為了減少數(shù)據(jù)分布不均衡以及數(shù)據(jù)多樣性問題對模型的訓練與測試產(chǎn)生影響,在制作訓練集時分別裁取各研究地塊的遙感影像,并通過預(yù)處理裁剪生成每種類別數(shù)量大致相等的尺寸為256像素×256像素的訓練圖像。同時利用數(shù)據(jù)增強方法擴充數(shù)據(jù)集,主要包括隨機旋轉(zhuǎn)、加噪、縮放以及翻轉(zhuǎn)等處理,并按照8∶2的比例劃分為訓練集和驗證集,測試集為2019年的遙感數(shù)據(jù)。本次實驗根據(jù)數(shù)據(jù)集的差異設(shè)計了2組實驗,其中實驗1用2018年的數(shù)據(jù)訓練模型,共有圖像15 500幅,測試集是2019年的數(shù)據(jù)。實驗2是將2019年3號地裁剪分為2部分,其中一部分增加至訓練集,共有圖像18 000幅,測試集是2019年的1號地、2號地、3號地部分和4號地。
1.4.1DeepLabv3+模型
DeepLabv3+是深度學習語義分割領(lǐng)域的一種代表性方法,包含編碼器和解碼器2部分。其中,編碼器由帶有空洞卷積的特征提取網(wǎng)絡(luò)和空洞空間卷積池化金字塔(Atrous spatial pyramid pooling,ASPP)[25]結(jié)構(gòu)組成,解碼器融合低層特征并進行上采樣,得到與輸入圖像尺寸相同的逐像素分類結(jié)果。在特征提取網(wǎng)絡(luò)中,使用空洞卷積降低語義分割任務(wù)中存在的特征分辨率與感受野的矛盾,使得特征圖的邊界信息盡可能減少丟失,進一步提升分割效果。ASPP結(jié)構(gòu)由3個3×3卷積和1個全局平均池化操作構(gòu)成,其中3個3×3卷積操作的擴張率分別為6、12、18,該結(jié)構(gòu)能夠?qū)μ卣鲌D采用不同采樣率的空洞卷積操作并行采樣,增強對多尺度目標的適應(yīng)性。在解碼器部分,DeepLabv3+在特征圖的恢復過程中融合低層特征,用雙線性插值的方法恢復目標的邊界信息,實現(xiàn)了較高的分類精度。
DeepLabv3+中帶空洞卷積操作的特征提取網(wǎng)絡(luò)用來解決感受野增大時特征分辨率降低的問題,ASPP結(jié)構(gòu)中不同的擴張率(6、12、18)能夠并行處理輸入的特征圖,用來提取多尺度的目標信息。但過大的擴張率會使網(wǎng)絡(luò)無法較好地提取圖像邊緣目標特征,同時也會影響大尺度目標局部特征之間的關(guān)聯(lián),從而產(chǎn)生大尺度目標語義分割空洞現(xiàn)象。對于無人機遙感影像中的大面積地膜分割時這種現(xiàn)象尤為明顯,從而會影響模型的分割精度。
1.4.2基于卷積注意力機制的DeepLabv3+語義分割模型
卷積注意力機制[26]將基于注意力的特征細化應(yīng)用于通道和空間2個不同的模塊,在不顯著增加計算量和參數(shù)量的前提下提升網(wǎng)絡(luò)模型的特征提取能力,在深度學習的多個領(lǐng)域已有成功應(yīng)用。DeepLabv3+是通用的語義分割模型,在對無人機遙感影像地膜農(nóng)田進行分類時,需進行遷移學習,以克服原始模型和具體應(yīng)用的域不一致問題。
本文將注意力機制與DeepLabv3+模型融合,學習面向地膜語義分割的通道注意力和空間注意力特征,提出一種改進的DeepLabv3+深度語義分割模型,增強對地膜農(nóng)田的識別性能。在DeepLabv3+骨干網(wǎng)絡(luò)之后、ASPP結(jié)構(gòu)之前增加卷積注意力模塊,基于骨干網(wǎng)絡(luò)提取的特征圖,依次經(jīng)過通道和空間2個注意力模塊學習地膜注意力圖,并將其與輸入特征圖點乘以進行自適應(yīng)特征優(yōu)化,提高不同種類地膜像素特征之間的判別性。
圖7a為注意力模塊網(wǎng)絡(luò)結(jié)構(gòu),圖7b為改進的基于注意力的DeepLabv3+網(wǎng)絡(luò)結(jié)構(gòu)。首先,多光譜遙感圖像經(jīng)過骨干網(wǎng)絡(luò)處理后得到特征圖F。接著,特征圖先經(jīng)過通道注意力模塊得到通道注意力Attc,并與特征圖F融合得到Fc,再經(jīng)過空間注意力模塊得到空間注意力Atts,并與Fc融合得到最終的注意力特征圖Fs,計算公式為
Fc=Attc(F)?F(F∈RC×H×W,F(xiàn)c∈RC×1×1)
(1)
Fs=Atts(Fc)?Fc(Fs∈R1×H×W)
(2)
式中 ?——逐元素相乘
Fc——卷積注意力機制的一維通道注意力圖
通道注意力模塊中使用最大池化和平均池化來聚合特征映射的空間信息,在空間注意力模塊中使用2個池化操作來聚合特征映射的通道信息。當特征圖經(jīng)過整個卷積注意力模塊時能夠有效增強和壓縮提取中間特征,并且保持了小的參數(shù)開銷。
實驗的硬件環(huán)境為英特爾Intel(R) Core(TM) i7-7700K CPU,NVIDIA 1080Ti GPU,16 GB內(nèi)存,操作系統(tǒng)為Ubuntu 16.04 LTS,深度學習框架為Tensorflow1.4[27],編程語言及版本為Python 3.6.5。
使用在ImageNet[28]上預(yù)訓練的ResNet模型初始化骨干網(wǎng)絡(luò)權(quán)重,輸入的圖像分辨率為256像素×256像素,使用交叉熵損失函數(shù)以及動量梯度下降算法對模型進行優(yōu)化。迭代次數(shù)為30 000次,批處理大小為6,初始學習率為0.007,結(jié)束學習率為1×10-6,權(quán)重衰減以及動量參數(shù)分別為0.000 5和0.9。本文所有模型在2組實驗數(shù)據(jù)集上的訓練集和測試集均保持一致。
平均像素精度(Mean pixel accuracy,MPA)[29]作為衡量語義分割算法精度的一個指標,能夠計算每個類內(nèi)被正確分類像素的比例,之后求所有類的平均。
對于無人機多光譜遙感影像的地膜農(nóng)田識別結(jié)果,基于設(shè)計的2組實驗,從3方面進行分析討論。首先,對比分析多光譜與可見光遙感圖像對地膜農(nóng)田的識別效果。其次,基于2組實驗結(jié)果,對比不同的數(shù)據(jù)集差異,分析地膜農(nóng)田表觀變化對識別精度的影響。最后,將嵌入注意力模塊的DeepLabv3+網(wǎng)絡(luò)和原網(wǎng)絡(luò)的識別效果進行比較,分析改進效果。在實時性方面,對于分辨率為1 000像素×1 000像素的圖像,SegNet模型的預(yù)測時間為32.6 s,DeepLabv3+模型的預(yù)測時間為46.7 s,本文提出的基于注意力機制的DeepLabv3+模型的預(yù)測時間為47.5 s,相對于原網(wǎng)絡(luò)僅增加0.8 s,滿足語義分割算法的實時性要求。表1、2分別為可見光與多光譜遙感影像的識別結(jié)果。
表1 可見光遙感圖像3種深度語義分割模型對4塊實驗田的平均像素精度識別結(jié)果Tab.1 Recognition accuracy of four experimental fields of visible remote sensing image by three deep semantic segmentation models %
表2 多光譜遙感圖像3種深度語義分割模型對4塊實驗田的平均像素精度識別結(jié)果Tab.2 Recognition accuracy of four experimental fields of multispectral remote sensing image by three deep semantic segmentation models %
2.3.1可見光與多光譜識別結(jié)果分析
可見光遙感圖像只包含3個波段的信息,而無人機多光譜圖像不僅包含紋理特征并且具有豐富的光譜信息,可以把地物波譜的微弱差異區(qū)分并記錄下來,得到各類別地膜的光譜信息,從而對地膜農(nóng)田的分辨能力較強。對比表1和表2可以看出,對于4塊實驗田的識別效果,整體上3種模型方法均為多光譜的識別精度優(yōu)于可見光。其中,在實驗1數(shù)據(jù)集上,DeepLabv3+和改進的DeepLabv3+模型對多光譜遙感圖像的平均像素精度均比可見光高7.1個百分點。在實驗2數(shù)據(jù)集上,DeepLabv3+模型多光譜的平均像素精度超出可見光11.3個百分點。這表明豐富的光譜信息相對于可見光,有助于將地膜農(nóng)田從各種復雜的背景中較好地識別。
以實驗1數(shù)據(jù)集上2號實驗田部分為例,圖8展示3種模型的多光譜與可見光圖像的預(yù)測結(jié)果。從圖8a可以看出,在可見光數(shù)據(jù)集上3種模型對地膜特征明顯的部分識別效果較好,對灌溉地膜和旱作透明膜的識別效果不佳。而多光譜圖像的識別效果如圖8b所示,3種模型均能不同程度地對地膜特征微弱的灌溉地膜和旱作透明膜進行識別。
2.3.2地膜農(nóng)田表觀變化對識別結(jié)果的影響
由于種植作物和氣象的變化,實驗田2年的地膜農(nóng)田表觀有一定的差異。實驗1為在2019年4塊地上測試模型的泛化性能。實驗2針對第2年地膜農(nóng)田表觀的變化,在第1年數(shù)據(jù)集的基礎(chǔ)上,將第2年反映地膜農(nóng)田表觀變化的一部分樣本數(shù)據(jù)增加至訓練集中,在2019年剩余的數(shù)據(jù)上進行測試,以提高模型的分類精度。
增加數(shù)據(jù)集后,訓練集地膜農(nóng)田樣本類型更豐富,表2中實驗2的結(jié)果表明,SegNet、DeepLabv3+和改進的DeepLabv3+模型在4塊實驗田上的地膜識別分割精度相對于實驗1都有提高。其中,SegNet、DeepLabv3+和改進的DeepLabv3+在4塊大田的平均分類精度分別提升13、8.5、7.7個百分點,SegNet提升精度最高。特別地,2019年3號實驗田地膜表觀相對于2018年有明顯變化,而上一年的訓練集沒有該類樣本,導致實驗田3種分割模型的識別精度都比較低。當實驗2訓練集中增加了相應(yīng)的地膜樣本后,分類精度均有顯著提升。
圖9為2019年3號實驗田3種分割模型的實驗1和實驗2部分識別結(jié)果。在實驗1中,對于訓練集中未見過的表觀變化較大的旱作透明膜,SegNet、DeepLabv3+以及改進的DeepLabv3+模型均不同程度地將其識別成旱作黑膜,其中SegNet分類錯誤最為明顯。在實驗2中,當訓練數(shù)據(jù)經(jīng)擴充更具代表性后,3種分割模型對這類旱作透明膜的分割精度顯著提高,分類錯誤明顯降低。
通過對比實驗1和實驗2數(shù)據(jù)集上的識別效果,可以明顯看出由于外界因素導致的地膜表觀出現(xiàn)較大變化,擴充其數(shù)據(jù)能夠有效提升該類別地膜的識別精度,這表明增加地膜農(nóng)田數(shù)據(jù)的多樣性有助于建立一個從復雜場景中識別各類地膜的魯棒模型。
2.3.3基于注意力機制的改進DeepLabv3+分類性能分析
DeepLabv3+網(wǎng)絡(luò)的ASPP結(jié)構(gòu)中過大的擴張率,對地膜農(nóng)田遙感影像識別時,容易造成目標邊緣分割不連續(xù)和分割結(jié)果出現(xiàn)空洞。本文通過在DeepLabv3+中增加注意力機制,以抑制這種現(xiàn)象,從而提高分類精度。表2表明,在實驗1和實驗2中,改進的基于卷積注意力機制的DeepLabv3+模型相對于原始的DeepLabv3+模型,在4塊實驗田上均有提升,并且平均像素精度優(yōu)于SegNet和DeepLabv3+。改進后的DeepLabv3+模型在1號、2號、3號和4號地的分類平均像素精度分別提升0.7、3.3、21.4、5.2個百分點,實驗1的平均像素精度比原網(wǎng)絡(luò)高2.2個百分點,實驗2的平均像素精度比DeepLabv3+提高1.4個百分點。表明添加注意力機制后的DeepLabv3+網(wǎng)絡(luò)模型相對于原網(wǎng)絡(luò),識別性能有效提高,驗證了提出模型的適用性。
基于注意力機制的DeepLabv3+網(wǎng)絡(luò),能夠?qū)崿F(xiàn)自適應(yīng)學習地膜特征,分割效果見圖10。從圖10c的1號地和4號地可以看出,DeepLabv3+分割結(jié)果的地膜邊緣不準確,存在明顯錯分的現(xiàn)象。而卷積注意力模塊能夠利用不同通道的相關(guān)地膜農(nóng)田類別特征間的聯(lián)系,會對不同地膜農(nóng)田特征類別進行特征強化,突出相互聯(lián)系的特征圖并使特定的地膜語義特征得以促進,從而較好地分割出目標。圖10d中1號地和4號地為改進后網(wǎng)絡(luò)的分割結(jié)果圖,可看出該塊區(qū)域旱作透明膜邊緣分割像素錯分問題得到明顯改善,分割效果更好。從圖10c的2號地和3號地可看出,地膜分割時都不同程度地出現(xiàn)尺寸不一的空洞,而加入的卷積注意力模塊能夠獲取豐富的全局特征的上下文信息,增強不同位置同類地膜農(nóng)田特征,從而減少大面積地膜農(nóng)田分割出現(xiàn)的空洞問題,圖10d的2號地和3號地顯示了改進后的DeepLabv3+網(wǎng)絡(luò)對抑制空洞現(xiàn)象的有效性。
(1)在3種深度語義分割模型上,基于多光譜遙感影像的識別效果均優(yōu)于可見光,表明相較于基于可見光遙感影像,多光譜遙感影像更多的光譜信息有助于提升復雜場景中地膜農(nóng)田的識別精度。
(2)將地膜農(nóng)田表觀變化的數(shù)據(jù)增加至樣本訓練數(shù)據(jù)集時,SegNet、DeepLabv3+及改進的基于卷積注意力機制的DeepLabv3+語義分割模型,對于旱作透明膜、旱作黑膜以及灌溉地膜的識別精度均有所提升。這表明訓練樣本更豐富的地膜農(nóng)田數(shù)據(jù)能提升模型對于無人機多光譜遙感影像地膜農(nóng)田的分類精度。
(3)基于卷積注意力模塊的改進DeepLabv3+網(wǎng)絡(luò)模型,相比于原始的DeepLabv3+,在2組實驗的每塊實驗田上均表現(xiàn)出穩(wěn)定的提升效果,表明注意力機制能夠有效減少遙感影像中大尺度目標分割存在的空洞現(xiàn)象,并且利用通道和空間像素特征信息能夠較好地推斷出大面積地膜覆蓋的邊緣特征位置,有效克服原始DeepLabv3+模型應(yīng)用于無人機遙感影像中,對地膜農(nóng)田分割不準確的問題。