張燕斌,杜健民,王圓, 3,皮偉強,高新超
(1. 內(nèi)蒙古農(nóng)業(yè)大學機電工程學院,呼和浩特市,010010; 2. 內(nèi)蒙古農(nóng)業(yè)大學職業(yè)技術學院,內(nèi)蒙古包頭,014109;3. 鄂爾多斯應用技術學院,內(nèi)蒙古鄂爾多斯,017000)
草原是我國重要的生態(tài)系統(tǒng)和自然資源,對于筑牢國家生態(tài)安全屏障、鞏固邊疆穩(wěn)定、鑄牢中華民族共同體和促進經(jīng)濟社會可持續(xù)發(fā)展等方面具有戰(zhàn)略性作用。中國是世界上草原資源最豐富的國家之一[1-2]。黨的十八大以來,草原保護修復工作取得顯著成效,部分地區(qū)草原生態(tài)明顯恢復,但目前荒漠草原面臨的壓力仍然較大,部分地區(qū)的草原生態(tài)系統(tǒng)脆弱,有向逐漸裸露化或荒漠化發(fā)展的趨勢[3-5]。內(nèi)蒙古作為中國北方重要的生態(tài)安全屏障和綠色農(nóng)畜產(chǎn)品生產(chǎn)加工輸出基地,荒漠化給當?shù)氐纳鷳B(tài)環(huán)境、草牧產(chǎn)業(yè)經(jīng)濟發(fā)展造成嚴重威脅[6-8]。草原生態(tài)系統(tǒng)群落結構簡單,是最易荒漠化的生態(tài)系統(tǒng)之一,內(nèi)蒙古近98.5%的荒漠化土地來自草原生態(tài)系統(tǒng)的逆行演替[9]。
草原荒漠化表現(xiàn)為植被群落總覆蓋度減少、植被種類減少、土壤侵蝕模數(shù)增加、裸地面積增加、鼠洞面積增加等[10-11],因此植被群落總覆蓋度和地表土壤性質(zhì)均是荒漠化的重要監(jiān)測指標,對二者的高精度的監(jiān)測與統(tǒng)計是草原荒漠化研究的重要基礎環(huán)節(jié),也是草原荒漠化分級治理的重要依據(jù)。傳統(tǒng)的草地監(jiān)測手段主要采用布置固定站點現(xiàn)場測量,其具有精度高、數(shù)據(jù)可靠等優(yōu)點,但也存在費時費力、周期長、成本高,無法實現(xiàn)對荒漠草原實時、大面積監(jiān)測等缺點[12]。無人機(Unmanned Aerial Vehicle,UAV)+高光譜遙感圖像(Hyper Spectral Image,HSI)形成的低空遙感平臺具有覆蓋范圍廣、數(shù)據(jù)源豐富、可以快速重復部署、省時省力等優(yōu)勢[13],獲取的圖像具有較高的時間分辨率、空間分辨率和光譜分辨率,是研究細尺度地物組成的無可比擬的數(shù)據(jù)源,正成為傳統(tǒng)航天遙感和衛(wèi)星遙感的優(yōu)異補充手段[14]。近年來,低空遙感技術已發(fā)展為草地測量、草地資源評估、草地退化動態(tài)監(jiān)測、地物種類識別、形態(tài)參數(shù)反演、生物量估測、草地多樣性評價和災害監(jiān)測等研究的有效手段[15-19]。因此,將無人機+高光譜遙感手段應用于草原地物精細識別和分類,對于研究草原退化和生態(tài)環(huán)境保護具有重要的現(xiàn)實意義。
由于高光譜遙感影像數(shù)據(jù)具有維度高、數(shù)據(jù)量巨大的特點,傳統(tǒng)的統(tǒng)計模式識別方法在處理高光譜數(shù)據(jù)時,會面臨極大的困難。為了解決這一問題,許多不同類型的分類方法如神經(jīng)網(wǎng)絡算法在高光譜影像分析上得到了廣泛應用。深度學習方法使圖像分析發(fā)生了革命性的變化,并被證明是處理高維遙感數(shù)據(jù)的有力工具[20],主動學習和遷移學習等技術幫助改善由有限訓練樣本主導的訓練場景中非常深入的神經(jīng)模型的最終性能[21]。VGG16和ResNet18等卷積神經(jīng)網(wǎng)絡模型廣泛應用于醫(yī)學圖像、作物圖像識別上[22],并逐漸被引入到遙感圖像分類中[23],但引入高光譜圖像對草原地物分類研究中尚不多見,尤其是在荒漠草原生態(tài)系統(tǒng)中的應用鮮見報道。
通過利用光譜分辨率高、光譜波段信息豐富的高光譜成像儀結合無人機組建無人機高光譜遙感系統(tǒng),其高空間分辨率、高靈活性、高效率等特性為基于低空遙感手段的荒漠草原細小、分散地物的實時監(jiān)測與高精度統(tǒng)計提供硬件基礎。經(jīng)過無人機高光譜遙感系統(tǒng)對試驗區(qū)荒漠草原的高光譜遙感影像采集,進行數(shù)據(jù)預處理、波段選擇,并利用VGG16和ResNet18深度學習模型及其改進卷積核的3D-ResNet模型對高光譜遙感影像中的植被、土壤、陰影等細小特征進行分類。旨在實現(xiàn)利用無人機高光譜遙感系統(tǒng)對荒漠草原從數(shù)據(jù)獲取到數(shù)據(jù)分析完整流程的嘗試,為基于遙感的荒漠草原高精度統(tǒng)計與反演提供硬件與軟件基礎,是為進一步更精細的草原地物分類的有效探索。
無人機高光譜遙感系統(tǒng)主要由高光譜成像儀、六旋翼無人機、云臺和機載計算機四部分組成,詳見圖1。高光譜儀使用的是雙利合譜Gaiasky-mini-VN型,該光譜儀共有256個波段,搭載Sony ICX285型鏡頭,高光譜儀部分參數(shù)見表1。六旋翼無人機為大疆MATRICE 600 PRO型,搭載專業(yè)級A3 PRO飛行控制系統(tǒng),配備三套IMU和高精度D-RTK GNSS模塊,滿載續(xù)航時間為18 min,無人機部分參數(shù)見表2。為了穩(wěn)定高光譜儀,使用Ronin-MX云臺,核定最大負載重量4.5 kg,角度抖動量±0.02°。機載計算機主要由i7-7567U、512G固態(tài)硬盤等組成。無人機高光譜遙感系統(tǒng)總重量為14.05 kg。
圖1 無人機高光譜遙感系統(tǒng)Fig. 1 UAV hyperspectral remote sensing system
表1 高光譜儀部分參數(shù)Tab. 1 Some parameters of high spectrometer
表2 無人機部分參數(shù)Tab. 2 Some parameters of UAV
試驗區(qū)格根塔拉草原(41°75′36″N,111°86′48″E)位于內(nèi)蒙古自治區(qū)中部的四子王旗,屬于農(nóng)牧結合區(qū),農(nóng)區(qū)面積占18.3%,牧區(qū)面積占81.7%,畜牧業(yè)為主導產(chǎn)業(yè),海拔高度為1 200~2 200 m,境內(nèi)河流稀少,年均降水量約200 mm,水資源匱乏[24]。夏季日照充足且炎熱,其余3個季節(jié)大風日多,年均風速達4.6 m/s,土壤類型為淡栗鈣土,風蝕嚴重,含沙量大,有機質(zhì)含量低。植被稀疏,種類貧乏,葉片狹長,根系發(fā)達,結實期平均高度不足8 cm。建群種為短花針茅(Stipa breviflora)、優(yōu)勢種為冷蒿(Artemisia frigida),主要伴生種為豬毛菜(Salsola collina)、櫛葉蒿(Neopallasia pectinate)、銀灰旋花(Convolvulus ammannii)等[25-26]。結合2021年草原氣候特點和牧草生長期特性,在2021年8月24—26日每日的10:00到14:00之間,無風至微風(風速0~3.4 m/s),無云或云量小于2%時采集數(shù)據(jù)。
本研究采用無人機懸停方式采集試驗區(qū)內(nèi)地物高光譜遙感影像,無人機飛行高度為30 m,空間分辨率為2.6 cm/pixel,為保證采集質(zhì)量,每個懸停點采集兩幅高光譜遙感影像,單幅圖像采集時間耗時7 s,包含懸停點間飛行時間,一個架次約可采集86幅遙感影像,即43個懸停點。由于在采集時間內(nèi),光量隨著云的移動而變化,因此在每次起飛前后進行標準參考白板校準。
首先,通過人工檢查去除成像效果差(由于光量變化和陣風)的遙感圖像,選出一組成像質(zhì)量最好的遙感圖像。然后使用光譜專業(yè)軟件(Spectraview)進行反射率校正,并識別真正的反射率值和感興趣的特征。植被、土壤、其他和陰影四種地面物體的光譜曲線如圖2所示。
圖2 植被、土壤、其他和陰影四種地面物體的光譜曲線圖Fig. 2 Spectral curves of four ground objects, vegetation, soil, other, and shadow
四種地物的光譜反射率曲線差異較大,如圖2所示。由于健康植被的葉綠素含量較高,植被的光譜反射率曲線在660~680 nm之間有明顯的紅光吸收帶,680~760 nm之間的反射率明顯增加。土壤光譜反射率曲線在可見光波段上升趨勢明顯,坡度較大,近紅外波段增加幅度較小,坡度較可見光波段小。陰影的光譜反射曲線對可見光有很強的吸收,因此在波長0~680 nm之間的反射率較低,在波長680~1 000 nm之間的近紅外波段反射率略有增加。
荒漠草原地物分布存在稀疏低矮、交錯覆蓋及“同物異譜、同譜異物”的典型特點。為將這一差異放大,本文利用ENVI 5.3制作分類樣本標簽,首先進行光譜縮放[27](Spectral curve scaling),縮放公式如式(1)所示。
Scs=KSj
(1)
式中:Sj——光譜數(shù)據(jù)中波長為j時的反射率值;
K——放縮系數(shù),當K≥1時為光譜放大,K的取值取決于所分地物種類。
其次,基于荒漠草原地物分布特點,通過Region of Interest Tool制作不同地物的感興趣區(qū)域10~15個,且每個感興趣區(qū)域包含300~500個像元,并利用Computer Statistics對不同區(qū)域內(nèi)閾值進行統(tǒng)計,以便確定不同地物之間是否有重疊區(qū)域。將植被、土壤、其他和陰影四種地物閾值的最值統(tǒng)計結合目視解譯法[28]確定其最佳可分性閾值,由此來確定地物分布真實值。
本試驗采集的高光譜圖像有256個波段,光譜分辨率為3.5 nm,空間分辨率為2.6 cm/pixel。輻射校正后的單幅圖像占據(jù)了約1.2 GB的存儲空間,包括豐富的地面物體光譜信息,從而實現(xiàn)高精度的物體分類。從圖2中可以看出,一些波段具有較小的差異和較高的相似性。
噪聲在很多情況下干擾明顯的波段,降噪損失的信息量小,同時保留完整的譜空間信息,為了達到數(shù)據(jù)降維的目的,我們使用了經(jīng)典的Frobenius norm2[29-30],如式(2)所示。
(2)
式中:X——張量;
r——張量的行數(shù),對應高光譜圖像中的樣本(samples);
c——張量的列數(shù),對應高光譜圖像中的線(lines);
b——張量的維數(shù),對應高光譜圖像中的波段(bands)。
圖像對應的F-norm2值表示對應波段的能量:如果值太小,則表示包含的信息太少;如果該值過大,說明噪聲干擾嚴重。降維后保留了180個波段,單幅圖像的存儲空間減少到0.83 GB左右,有效提高了數(shù)據(jù)后處理效率。
在利用F-norm2降低高光譜數(shù)據(jù)噪聲干擾和維數(shù)的基礎上,基于深度學習框架庫Pytorch,搭建VGG16和ResNet18經(jīng)典深度學習模型,并將ResNet18模型的2D卷積核替換為3D卷積核,搭建3D-ResNet深度學習模型。鑒于3D卷積參與運算的參數(shù)量較多,我們在DELL Precision 7920 Tower+處理器CPU Intel(R) Xeon(R) Gold6134 CPU@3.20 GHz+顯卡NVIDIA Quadro P4000+內(nèi)存256 GB的專業(yè)工作站計算環(huán)境下,對F-norm2降維后的高光譜數(shù)據(jù)進行處理。
VGG模型是卷積神經(jīng)網(wǎng)絡的一種,其本質(zhì)是通過梯度下降法最小化損失函數(shù)對網(wǎng)絡中的權重值進行反向調(diào)節(jié),經(jīng)過多次迭代訓練后不斷優(yōu)化[31],從而提高高光譜圖像識別和分類準確率的一種深度學習的方法。VGG16由13個卷積層組成(2D卷積核由Conv1*1-XXX、Conv3*3-XXX表示;XXX為卷積核數(shù)),3個全連接層(用Fc-X表示),4個池化層(用Max pooling表示)。
基于He等[32]提出的ResNet模型利用Pytorch模塊搭建ResNet18卷積神經(jīng)網(wǎng)絡,該模型為深度殘差網(wǎng)絡(Deep residual network)的簡寫,其本質(zhì)是對每層的輸入增加了一個恒等映射,學習形成殘差函數(shù),能使網(wǎng)絡層數(shù)大大加深,減少梯度消失或者梯度爆炸,加速神經(jīng)網(wǎng)絡訓練,實現(xiàn)了利用深層網(wǎng)絡結構提取細節(jié)特征,大大提升模型的準確率。ResNet18由17個卷積層(由Conv7*7-XXX、Conv3*3-XXX表示;XXX為卷積核數(shù)),1個全連接層(用Fc表示),2個池化層(用Max pooling,Average pooling表示)。
深度學習模型的結構如表3所示。
表3 深度學習模型的結構Tab. 3 Structure of deep learning model
改進后的3D-ResNet18模型與ResNet模型具有相同的深度,卷積層中的2D卷積核被改進為3D卷積核,在表3中分別表示為Conv3*3*3-XXX和Conv7*7*7-XXX,XXX為卷積核數(shù)量;卷積層將根據(jù)模型的結構特性組成卷積層(塊),用Block_X表示,每殘差塊中進行兩次卷積層運算,并與卷積前的參數(shù)進行疊加,隨后利用激活函數(shù)ReLU激活進入下一個殘差塊。此外,基于3D-ResNet網(wǎng)絡模型又進行了3種不同卷積核數(shù)的分類性能對比,分別為A、B、C三種卷積核數(shù),其中3D-ResNet-A模型的卷積核數(shù)為(32,32,64,128,256),3D-ResNet-B模型的卷積核數(shù)為(64,64,128,256,512),3D-ResNet-C模型的卷積核數(shù)為(128,128,256,512,1 024),對應的卷積核數(shù)如表3所示,表中Conv7*7*7-32代表3D-ResNet18-A的Block_1層卷積核數(shù)量為32,卷積核尺寸為7*7*7;Conv3*3*3-32代表3D-ResNet-A的Block_2層卷積核數(shù)量為32,卷積核尺寸為3*3*3,以此類推。
各深度學習模型訓練過程的參數(shù)設置詳見表4。
表4 深度學習模型訓練過程的參數(shù)設置Tab. 4 Parameter setting of deep learning model training process
為提高處理速度,選擇一張高光譜圖像并將其隨機裁剪為250列×250個樣本×180個波段,總共62 500個像素。為了識別特征,隨機選擇30%的標記樣本作為訓練數(shù)據(jù),其余的作為測試數(shù)據(jù),以匹配植被(綠)、土壤(紅)、陰影(藍)和其他(黃)特征的顏色。顏色編碼和樣本數(shù)量見表5。
表5 顏色編碼和樣本數(shù)量Tab. 5 Color coding and sample number
VGG16、ResNet18和3D-ResNet18三種深度學習模型的分類精度結果如表6所示。表6中的精度值是從模型的5次重復操作中獲得的平均值。本文將用總體分類精度和生產(chǎn)者精度進行分類精度評價。
總體分類精度(Overall Accuracy,OA)是指被正確分類的像元總和除以總像元數(shù),能夠直觀地反映出高光譜遙感圖像劃分結果的準確性。總體分類精度公式如式(3)所示。
(3)
式中:N——樣本總像元數(shù);
k——分類的類型數(shù)量;
Pii——分類結果中第i類型被正確分類的樣本數(shù)目。
生產(chǎn)者精度(Producer’s Accuracy,PA)指將整個圖像的像元正確分為某類的像元數(shù)與該類真實參考總數(shù)的比率。生產(chǎn)者精度公式如式(4)所示。
(4)
式中:Pi——分類結果中第i類型被正確分類的樣本數(shù)目;
Ri——第i類型像元真實值。
從表6可以看出,VGG16模型對植被、土壤有較好的生產(chǎn)者精度,PA分別為97%和93.8%,但對小樣本“陰影”分類性能較差,且不具備對“其他”的分類能力,OA為95.01%。ResNet18模型同樣對植被、土壤有較好的生產(chǎn)者精度,PA分別為95.1%和96.0%,對小樣本地物“陰影、其他”分類性能較差,但對“其他”具備可分性且PA僅為26.5%。而將2D卷積核改進為3D卷積核的3D-ResNet18模型總體分類精度更高,三種3D-ResNet模型(A、B和C)的分類性能均優(yōu)于VGG16和ResNet18模型,尤其是對小樣本地物的分類性能有明顯提升,對“植被”分類的PA均達到96%以上,對“土壤”分類的PA均達到97%以上,對“陰影”分類的PA均達到86%以上,對“其他”分類的PA均達到75%以上。三種3D-ResNet模型的多樣本地物單體精度差異較小,小樣本地物最佳的生產(chǎn)者精度出現(xiàn)在3D-ResNet-B模型中,其對植被、土壤的PA分別為97.4%和98.0%,對小樣本“陰影、其他”分類性能大幅提升,PA分別為93.3%和92.8%,OA為97.73%。
表6 深度學習模型的分類結果Tab. 6 Classification result of deep learning models %
VGG16、ResNet18和3D-ResNet18-B深度學習模型得到的分類結果如圖3所示。
(a) 假彩色圖像
(b) VGG16
(c) ResNet18
(d) 3D-ResNet18-B圖3 圖像分類結果Fig. 3 Image classification results
結合圖3和表6可以得出以下結果。
1) 就單類別分類性能而言,VGG16、ResNet18及3D-ResNet18三種模型對高光譜影像中的多樣本地物“植被、土壤”均具備較好的分類性能,改進為3D卷積核的3D-ResNet18模型相比ResNet18模型的“植被、土壤”生產(chǎn)者精度小幅提升1%~2%,對二者分類精度最佳。三種模型對高光譜影像中的小樣本地物“陰影、其他”分類性能差異較大,改進為3D卷積核的3D-ResNet18模型相比VGG16和ResNet18模型分類精度大幅提升。
2) 就總體分類性能而言,ResNet18模型優(yōu)于VGG16模型,這得益于ResNet18模型的殘差塊結構和較深的網(wǎng)絡深度;將ResNet18網(wǎng)絡模型改進為3D卷積核仍表現(xiàn)出相同的分類性能規(guī)律。具備3D卷積核的網(wǎng)絡模型不僅對小樣本地物“陰影、其他”展現(xiàn)出較好的分類性能,而且對多樣本地物“植被、土壤”中零散分布部分具備更佳的分類性能,這得益于3D卷積核可以同時提取高光譜數(shù)據(jù)中三個維度的光譜信息,相比2D卷積核同時提取X、Y兩個維度的光譜信息,3D卷積核對細小特征的提取能力更強。
3) 不同卷積核數(shù)量的3D-ResNet18-A、3D-ResNet18-B、3D-ResNet18-C模型分類性能更加突出,對高光譜影像中多樣本地物“植被、土壤”的分類性能差異較小,小樣本地物“陰影、其他”分類性能差異較大,不同卷積核數(shù)量的三種3D-ResNet18模型相比ResNet18模型對“陰影”的生產(chǎn)者精度分別提高了16.2%、23.2%、22.1%,對“其他”的生產(chǎn)者精度分別提高了48.8%、66.3%、63.1%。不同卷積核數(shù)量的三種模型中,3D-ResNet18-B分類性能最好。
建立的無人機高光譜遙感系統(tǒng),可采集荒漠草原地物紅光—近紅外波段400~1 000 nm的光譜信息,光譜分辨率為3.5 nm,光譜通道數(shù)為256,在飛行高度為30 m時,高光譜數(shù)據(jù)的空間分辨率為2.6 cm/pixel,單架次18 min可采集1.36 hm2的荒漠草原遙感數(shù)據(jù),兼具豐富的波段信息、高光譜分辨率、高空間分辨率和高效性,豐富了草地荒漠化遙感研究的空間尺度,也為草地荒漠化遙感進行了必要的硬件集成探索。
本研究所用的VGG16和ResNet18兩種經(jīng)典深度學習模型對荒漠化遙感影像中的植被、土壤取得了較好的分類結果,而經(jīng)過3D卷積核改進的不同卷積核數(shù)量的三種3D-ResNet18-A、3D-ResNet18-B和3D-ResNet18-C模型均對荒漠化遙感影像中植被、土壤的零散部分和小樣本地物取得了更好的分類潛力,其中3D-ResNet18-B的分類性能最好,總體分類精度相比較VGG16和ResNet18提升2%~3%,達到97.73%,為下一步荒漠草原高光譜遙感圖像中植物物種等細尺度地物的識別、分類與反演提供了思路,為荒漠化草原整體生態(tài)系統(tǒng)研究奠定基礎,是基于高光譜遙感的荒漠化草原細小地物的精細分類在深度模型方法上的有效嘗試。