楊蜀秦 宋志雙 尹瀚平 張智韜 寧紀(jì)鋒,5
(1.西北農(nóng)林科技大學(xué)機械與電子工程學(xué)院,陜西楊凌 712100; 2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點實驗室,陜西楊凌 712100;3.西北農(nóng)林科技大學(xué)信息工程學(xué)院,陜西楊凌 712100; 4.西北農(nóng)林科技大學(xué)水利與建筑工程學(xué)院,陜西楊凌 712100;5.陜西省農(nóng)業(yè)信息感知與智能服務(wù)重點實驗室,陜西楊凌 712100)
隨著精準(zhǔn)農(nóng)業(yè)的發(fā)展,利用遙感信息對農(nóng)田作物進行快速準(zhǔn)確的分類以獲取其種植面積及空間分布信息的需求越來越大。作為長勢監(jiān)測、墑情調(diào)查、產(chǎn)量預(yù)估和災(zāi)害評估等[1-5]工作的基本前提,遙感監(jiān)測對農(nóng)業(yè)生產(chǎn)分析、管理和決策具有十分重要的意義。
目前,利用遙感技術(shù)監(jiān)測作物主要包括衛(wèi)星和無人機兩種方式[6-7]。高空衛(wèi)星遙感覆蓋面積大、探測周期短,是大范圍農(nóng)情信息監(jiān)測的重要技術(shù)手段[8-9]。相關(guān)應(yīng)用主要包括提取地表植被指數(shù)[10]、光譜、紋理和地形特征[11],以及融合雷達(dá)與光學(xué)影像等數(shù)據(jù)[12]識別地物。低空無人機遙感具有機動靈活、時效性強和分辨率高等特點,已被廣泛用于農(nóng)田級區(qū)域的農(nóng)情信息獲取,特別是田地種植分布信息的提取[13-17]。韓文霆等[15]基于可見光遙感影像,結(jié)合支持向量機和決策樹分類模型,對土地利用和覆被分類進行研究。戴建國等[16]從無人機遙感影像中提取紋理和低通濾波特征,采用支持向量機方法實現(xiàn)了對農(nóng)田作物的分類。WU等[17]利用農(nóng)作物收獲后和作物生長期的數(shù)字表面模型(Digital surface model, DSM),采用基于對象的分類方法和最大似然方法,結(jié)合遙感圖像和作物高度信息識別作物類型。
目前,對農(nóng)田作物種植分布的研究主要基于人工選擇特征,采用支持向量機等傳統(tǒng)機器學(xué)習(xí)方法,其分類結(jié)果具有一定局限性[18]。近年來,深度學(xué)習(xí)語義分割方法在圖像分類領(lǐng)域取得了較大突破[19-20],已在地膜識別[21-22]和溫室大棚分類[23]等農(nóng)業(yè)領(lǐng)域取得良好的效果,相對基于人工特征的分類方法優(yōu)勢明顯[24]。但在農(nóng)田作物種植分布監(jiān)測研究方面卻鮮見報道。
為精準(zhǔn)獲取農(nóng)田作物的種植信息,本文提出一種基于無人機多光譜農(nóng)田遙感影像的深度語義分割模型。通過改進輸入層結(jié)構(gòu)以適應(yīng)多光譜圖像和農(nóng)田植被先驗特征融合,修改激活函數(shù)以優(yōu)化DeepLab V3+模型,克服其在農(nóng)業(yè)遙感解譯領(lǐng)域的限制。為驗證模型的泛化性能,基于研究區(qū)域2018—2019年的遙感影像,在2018年數(shù)據(jù)集上訓(xùn)練建模,在2019年數(shù)據(jù)集上測試模型性能。并與支持向量機(Support vector machine, SVM)方法、SegNet網(wǎng)絡(luò)和DeepLab V3+網(wǎng)絡(luò)進行比較,以驗證本文方法的有效性和優(yōu)越性。
試驗地點位于內(nèi)蒙古河套灌區(qū)西部的沙壕渠灌域(北緯40°52′~41°1′,東經(jīng)107°5′~107°12′),地處我國干旱與半干旱、荒漠與草原的過渡地帶,具備中溫帶高原的大陸性氣候特征,氣候干燥,蒸發(fā)量大,屬于無灌溉即無農(nóng)業(yè)地區(qū)。如圖1所示,研究區(qū)域包括2塊土壤條件和作物種類不盡相同的試驗田,每塊試驗田拍攝面積在20~30 hm2之間。1號試驗田鹽堿化較嚴(yán)重,主要作物包括向日葵(81.16%)和玉米(5.03%)。2號試驗田鹽分相對較低,主要種植玉米(5.06%)、向日葵(5.27%)、西葫蘆(4.56%)等作物。
采用大疆經(jīng)緯M600型多旋翼無人機,搭載Micro-MCA型高分辨率多光譜相機(分辨率為1 280像素×1 024像素),于2018年8月中旬和2019年8月中旬連續(xù)兩年的同一時期采集試驗區(qū)域在6個不同波長下的遙感影像,包括490 nm(B)、550 nm(G)、680 nm(R)3個可見光波長和720、800、900 nm 3個近紅外波長。無人機飛行高度150 m,遙感圖像地面采樣距離(Ground sampling distances, GSD)為81 mm,航向重疊率85%,旁向重疊率70%,按預(yù)定飛行軌跡點進行拍攝。為減少太陽高度角的影響,拍攝時間設(shè)在13:00。無人機航拍的原始單通道圖像首先由PixelWrench2軟件配準(zhǔn)合成,再通過Pix4Dmapper軟件拼接,拼接后每塊試驗田遙感影像平均分辨率約為10 000像素×10 000像素。
采用2018年遙感影像數(shù)據(jù)作為分類模型的訓(xùn)練集和驗證集,2019年數(shù)據(jù)作為測試集。其中,訓(xùn)練集用來訓(xùn)練模型,驗證集隨訓(xùn)練集一起輸入模型但不參與訓(xùn)練,用于調(diào)整模型的超參數(shù)和評估模型,測試集用于檢驗?zāi)P偷姆夯阅?。首先,結(jié)合實地調(diào)查和目視解譯,利用LabelMe工具人工標(biāo)注正射遙感影像,得到兩塊試驗田的地面實況(Ground truth, GT);其次,從2018年拍攝的2幅圖像中隨機裁切出4 000幅256像素×256像素的樣本圖像;再通過加噪、旋轉(zhuǎn)、縮放和鏡像等處理進行圖像擴充,并按3∶1的比例將擴充后的圖像劃分成訓(xùn)練集和驗證集,其樣本數(shù)量分別為12 000幅和4 000幅。
全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional networks, FCN)是由SHELHAMER等[25]于2014年提出的一種端到端的語義分割網(wǎng)絡(luò),是深度學(xué)習(xí)語義分割領(lǐng)域的開創(chuàng)性工作。它將全連接層轉(zhuǎn)換為卷積層,在實現(xiàn)像素級預(yù)測的同時保留了原始圖像的空間信息,其后的語義分割網(wǎng)絡(luò)都是在其基礎(chǔ)上發(fā)展改進的。SegNet深度語義分割模型[26]在編碼及解碼方面進行了改進。編碼器采用VGG16網(wǎng)絡(luò),用于提取圖像的深層特征。解碼器是與編碼結(jié)構(gòu)對稱的上采樣結(jié)構(gòu),每一個編碼層都對應(yīng)一個解碼層,解碼操作是不斷從編碼器中釋放出存儲的位置信息,從而完成上采樣操作,解碼層最終的特征圖經(jīng)過Softmax分類器對每個像素進行分類。
DeepLab V3+網(wǎng)絡(luò)是在DeepLab V3的基礎(chǔ)上進一步改進得來[27]。在DeepLab V3中,最終的輸出圖像是直接對特征圖像16倍上采樣得到,不足以重構(gòu)物體分割細(xì)節(jié),導(dǎo)致最終分割結(jié)果的邊界細(xì)節(jié)較差。DeepLab V3+采用空洞卷積,使其在級聯(lián)模塊(采用50層或101層的ResNet網(wǎng)絡(luò))和空洞空間金字塔池化(Atrous spatial pyramid pooling, ASPP)的框架下,能夠獲得更多的尺度信息[28]。在編碼-解碼結(jié)構(gòu)方面,采用低維特征逐步對高維特征上采樣,以便更好地恢復(fù)邊界細(xì)節(jié)。在提高網(wǎng)絡(luò)尺寸適應(yīng)性方面,DeepLab V3+為帶孔空間金字塔池化模塊增加了不同尺度范圍內(nèi)語義信息的區(qū)分和提取,利用多種比例和有效感受野的不同分辨率特征,挖掘多尺度的上下文內(nèi)容信息,以實現(xiàn)對不同尺寸目標(biāo)的識別。此外,DeepLab V3+運用Xception模塊,將帶孔空間金字塔池化模塊改為深度可分離卷積結(jié)構(gòu),有效地降低了計算復(fù)雜度。
將現(xiàn)有深度語義分割模型直接用于農(nóng)田多光譜遙感影像會存在一些限制。例如,不能直接處理多波段圖像、沒有有效利用農(nóng)業(yè)遙感影像先驗知識、常用的ReLU激活函數(shù)對負(fù)值無響應(yīng)易導(dǎo)致性能下降等[29-30]。因此,針對這些不足,本文基于DeepLab V3+模型從先驗信息融合、輸入層結(jié)構(gòu)修改和激活函數(shù)選擇3方面提出相應(yīng)改進,構(gòu)建適用于多波段農(nóng)田遙感影像的深度語義分割網(wǎng)絡(luò),以獲得更優(yōu)的多光譜遙感作物分類模型,其結(jié)構(gòu)如圖2所示。
模型的主要改進包括:首先,構(gòu)建融合各類植被指數(shù)的特征模塊,以充分利用多光譜遙感影像的光譜信息。該模塊通過對遙感影像相應(yīng)通道進行波段運算,得到一系列植被指數(shù),剔除奇異值后,對所有指數(shù)做歸一化處理,并以特征圖的形式合并到輸入通道。其次,由于DeepLab V3+的研究主要集中在可見光圖像處理領(lǐng)域,無法直接處理更多通道圖像,本文按照波段數(shù)和植被指數(shù)特征圖增加輸入通道,使模型適用于輸入融合農(nóng)田先驗知識的多光譜遙感影像。另外,針對眾多的植被指數(shù)和光譜特征導(dǎo)致信息冗余和模型不易收斂問題,運用SENet[31]中提出的方法建模特征通道間的相關(guān)性,采用全局池化生成每個特征通道的權(quán)重,以提取最重要的分類特征。最后,考慮到當(dāng)前廣泛使用的ReLU激活函數(shù)對負(fù)值無響應(yīng),將其修改為最近提出的Swish激活函數(shù)[32],使得網(wǎng)絡(luò)在具備ReLU優(yōu)點的同時,當(dāng)輸入為負(fù)值時,仍能進行反向傳播,從而訓(xùn)練出更魯棒的分類模型。
為了驗證提出算法的有效性,本文將其與傳統(tǒng)的SVM機器學(xué)習(xí)算法以及SegNet和DeepLab V3+兩種常用的深度語義分割模型進行比較。
對于SVM[33]機器學(xué)習(xí)算法,根據(jù)文獻[16]提出的方法,將遙感影像的可見光波段圖像轉(zhuǎn)換到HSI顏色空間中,并通過紋理濾波處理得到H-CLP、H-Ent、I-Cor、I-CLP、I-Ent、S-CLP和I-Var等7個輸入特征,對農(nóng)田作物進行分類。
對于SegNet、DeepLab V3+和本文方法3種深度學(xué)習(xí)模型,首先將數(shù)據(jù)集轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)集格式,然后下載公共數(shù)據(jù)集上訓(xùn)練好的開源預(yù)訓(xùn)練模型以增加深度學(xué)習(xí)的泛化性能和訓(xùn)練速度[34]。訓(xùn)練時根據(jù)模型損失及時調(diào)整超參數(shù),并找到較優(yōu)的初始值。最后,以訓(xùn)練好的模型預(yù)測測試集圖像并計算準(zhǔn)確率。
在本文改進算法中,選取NDVI、EVI、DVI、NDWI、ARVI 5種植被指數(shù)構(gòu)建先驗特征圖模塊,利用開源下載的ResNet 101模型作為預(yù)訓(xùn)練模型,并采用與DeepLab V3+相同的超參數(shù)進行訓(xùn)練,以加快訓(xùn)練速度。NDVI為歸一化植被指數(shù),EVI為增強植被指數(shù),DVI為差值植被指數(shù),NDWI為歸一化水指數(shù),ARVI為大氣阻抗植被指數(shù)。
本文深度學(xué)習(xí)運行硬件環(huán)境為Lenovo SystemX 3650 M5服務(wù)器,搭載NVIDIA Tesla P100顯卡。操作系統(tǒng)為Ubuntu 16.04,采用Tensorflow深度學(xué)習(xí)框架構(gòu)建網(wǎng)絡(luò);SVM運行硬件環(huán)境為Dell Precision Tower 7810服務(wù)器,軟件環(huán)境為Matlab 2016b。
SVM類型選擇為C-SVC,核函數(shù)類型為RBF函數(shù)。SegNet、DeepLab V3+及改進的DeepLab V3+模型采用分段常數(shù)下降法控制學(xué)習(xí)率,迭代次數(shù)為50 000次。其中SegNet初始學(xué)習(xí)率為0.001,批尺寸為6;DeepLab V3+以及改進的DeepLab V3+初始學(xué)習(xí)率為0.1,批尺寸為6,矩為0.9,權(quán)值退化率為0.000 4。
采用平均像素精度(Mean pixel accuracy, mPA)和平均交并比(Mean intersection over union, mIoU)作為分類結(jié)果評價指標(biāo)[35]。
SVM方法和3種深度學(xué)習(xí)方法的試驗結(jié)果指標(biāo)如表1所示。其中,SVM、SegNet和DeepLab V3+的結(jié)果是針對3通道的可見光圖像,而改進的DeepLab V3+的分類結(jié)果是針對融合5種植被特征的6波段多光譜圖像。圖3為4種算法在2019年無人機遙感影像預(yù)測集上的分類結(jié)果。
3.1.1人工特征與深度學(xué)習(xí)的比較
表1和圖3的分類結(jié)果說明SVM的分類精度不高,分類效果呈現(xiàn)不連續(xù)的塊狀。而SegNet、DeepLab V3+和改進的DeepLab V3+等3種深度學(xué)習(xí)方法則表現(xiàn)出更高的分類精度及更為精細(xì)的分類效果。其中,SegNet和DeepLab V3+網(wǎng)絡(luò)平均像素精度分別比SVM高12.41、15.19個百分點,本文方法則高SVM 17.75個百分點,獲得了93.06%的最優(yōu)分類效果。在運行速度方面,SVM能快速擬合適量樣本數(shù)據(jù),但預(yù)測速度較低。深度學(xué)習(xí)雖然訓(xùn)練模型時間較長,但其像素級的分類方法可直接輸入整幅圖像,因此預(yù)測效率更高。
表1 無人機遙感影像作物分類結(jié)果比較Tab.1 Comparison of crop classification results based on UAV remote sensing images
3.1.2深度語義分割模型比較
對比圖3中3種深度學(xué)習(xí)方法的分類效果可以看出,SegNet和DeepLab V3+的預(yù)測結(jié)果均有較為明顯的拼接痕跡,雖然農(nóng)田覆蓋整體分類正確,但仍存在較多細(xì)節(jié)錯誤。例如,1號試驗田容易對玉米區(qū)域誤檢測,2號試驗田對于稀疏的西葫蘆地塊識別準(zhǔn)確度相對較低,并對部分向日葵地塊識別錯誤。而改進的DeepLab V3+分類效果最優(yōu),mPA和mIoU指標(biāo)均最高,誤分類區(qū)域相對較少,且具有更少的噪聲點,其混淆矩陣如圖4所示,對3種作物和背景的像素精度均超過90%。這表明本文提出的融合植被指數(shù)的深度學(xué)習(xí)方法能夠提高模型的特征提取能力和作物分類精度,并具有較好的泛化性能。從運行時間上來看,由于改進的DeepLab V3+模型輸入除可見光信息外還包含近紅外光譜數(shù)據(jù)和植被指數(shù)特征圖,因此訓(xùn)練時間最長,但對預(yù)測集的運行時間卻與DeepLab V3+接近。
3.2.1深度學(xué)習(xí)與傳統(tǒng)方法的比較
本文采用的無人機多光譜遙感影像的時間及空間跨度較大、作物種類復(fù)雜,分類目標(biāo)中包括了高冠層密度作物(玉米)、中等冠層密度作物(向日葵)以及低冠層密度作物(西葫蘆)。研究區(qū)域鹽堿化嚴(yán)重且程度分布不均衡造成植被長勢復(fù)雜。2019年向日葵受多種因素影響,其長勢與2018年同時期的向日葵差異明顯。另外,從圖3b中可看出,該時期的西葫蘆和向日葵顏色特征差異較小,這些因素都對分類模型的泛化性能提出了更高的要求。
基于滑動窗口以及人工特征的SVM采用人工設(shè)計特征,是一種基于塊的分類方法,受主觀設(shè)計經(jīng)驗、特征分類能力以及實際作物空間分布等因素限制,適用于檢測具有明顯光譜特征差異的簡單目標(biāo)。對于低冠層密度或粗紋理特征的作物,固定的滑動窗口限制了SVM的感受野,使其更易受到背景影響。試驗結(jié)果也表明SVM對冠層密度高的玉米分類效果相對較好,而對更為稀疏或冠層密度較低的向日葵和西葫蘆,誤分類則明顯增加。特別是圖3a中的向日葵長勢更為稀疏,由分類結(jié)果可見,這對具有小感受野的SVM的預(yù)測精度影響更大。
深度學(xué)習(xí)感受野較大,并具備像素級的分類能力。大感受野使得深度學(xué)習(xí)模型既能識別簡單目標(biāo),也能對稀疏特征目標(biāo)很好地分類[36]。更深的層數(shù)能夠提取高層語義特征,因而比單純的人工特征能更好地表示目標(biāo)。另外,在運行速度方面,雖然深度學(xué)習(xí)在構(gòu)建模型時需要大量時間,但均以更少的預(yù)測時間獲得了更高的分類精度,這使得訓(xùn)練好的深度學(xué)習(xí)網(wǎng)絡(luò)更適合用于實際場景中。
3.2.2植被指數(shù)特征圖模塊對分類性能的影響
改進的DeepLab V3+模型根據(jù)波段運算繪制歸一化的像素級植被指數(shù)分布圖,并通過計算波段間權(quán)重自動選擇對特定植被更有效的農(nóng)田先驗特征。由圖5可見,DVI[37]對土壤背景變化較為敏感,對不同類型的作物區(qū)域都能較好地擬合植被覆蓋度,因而適合區(qū)分土壤背景和農(nóng)田作物;另外,在近紅外波段,相對于向日葵,玉米的反射值較低,導(dǎo)致了后者的NDVI值比前者更低,說明NDVI能夠較好地區(qū)分向日葵種植區(qū)、玉米種植區(qū)與背景區(qū)域。而對于其他區(qū)分度較低的植被指數(shù),提出的算法則通過SE模塊自動賦予較低的權(quán)重,減少其對分類性能的干擾。因此,模型中加入這些計算簡便、特性穩(wěn)定的植被指數(shù)特征圖模塊,對于基于深層特征提取的深度學(xué)習(xí)將起到一定補充作用。
3.2.3光譜特征對分類性能的影響
相對于可見光影像,6波段的多光譜影像提供了更豐富的信息。除用于構(gòu)建植被指數(shù)外,近紅外光譜信息對深度學(xué)習(xí)模型的性能也會產(chǎn)生影響。在不考慮植被指數(shù)特征圖模塊的前提下,利用本文方法測試不同近紅外波段組合的遙感影像分類性能,結(jié)果如表2所示,其中,N1為波長720 nm的近紅外通道,N2為波長800 nm的近紅外通道,N3為波長900 nm的近紅外通道。RGB與NIR試驗組都只包含3個波段信息,其分類精度接近。為RGB影像增加1個近紅外通道,分類精度會略有提升。而6通道的RGB_NIR試驗組的mPA和mIoU指標(biāo)分別達(dá)到92.12%和86.46%,略低于表1中加入植被指數(shù)特征圖模塊的最佳分類精度。因此,可認(rèn)為影響模型分類性能的主要因素在于RGB通道與近紅外通道所共有的紋理特征,通過增加光譜通道能夠有效提高分類性能。
表2 不同波段組合的分類結(jié)果Tab.2 Classification results of experimental groups with different band combinations
從圖5中可以看出,向日葵和西葫蘆的光譜特征在冠層顏色和植被指數(shù)方面較為接近,因此增加波段對向日葵和西葫蘆的分類效果提升有限。西葫蘆與向日葵在紋理特征上具有較大的差異,如西葫蘆相對更為稀疏且果實明顯,因此紋理特征對向日葵和西葫蘆分類影響最大。
(1)針對包含不同作物和不同土壤環(huán)境的農(nóng)田多光譜無人機遙感影像,將深度語義分割模型應(yīng)用于農(nóng)田作物分類。利用卷積神經(jīng)網(wǎng)絡(luò)端到端強大的特征學(xué)習(xí)能力,基于DeepLab V3+模型,通過修改輸入層、融合多光譜信息和植被指數(shù)先驗信息、并修改激活函數(shù)來優(yōu)化模型,提出了一種改進的作物分類方法。與SVM分類方法和SegNet、DeepLab V3+兩種代表性的深度學(xué)習(xí)方法相比,改進的DeepLab V3+模型獲得了最優(yōu)的分類結(jié)果,同時具有實時性。
(2)通過對比分析不同波段組合的多光譜遙感影像分類性能,發(fā)現(xiàn)三通道的可見光圖像和近紅外圖像的性能相近,且具有更多通道數(shù)量的輸入圖像,能夠得到更好的分類結(jié)果。試驗結(jié)果表明,由于無人機遙感影像高分辨率的特點,農(nóng)田作物的紋理特征是分類的主要依據(jù),融合更多光譜信息和植被指數(shù)特征有助于提高分類性能。