楊可明 何家樂 李艷茹 吳 兵 張建紅
(中國礦業(yè)大學(xué)(北京)地球科學(xué)與測繪工程學(xué)院,北京 100083)
玉米是世界主要的谷類作物,近年來玉米的總產(chǎn)量僅次于水稻,位居我國第二位[1],玉米已經(jīng)逐漸成為日常生活中基本的糧食、飼料和生產(chǎn)原料等。因此玉米種植中的健康生長尤為重要,玉米的合理化種植逐漸成為研究熱點[2]。如果土壤中的重金屬含量超標(biāo),就會逐漸被農(nóng)作物吸收并累積,從而對人體有嚴(yán)重影響[3-4],其中鉛(Pb)是重金屬污染物中毒性較大的一種,能直接傷害人的腦細(xì)胞;而銅(Cu)中毒輕者會產(chǎn)生胃腸道黏膜刺激癥狀,重者甚至?xí)霈F(xiàn)腎功能衰竭及尿毒癥、休克等[5-7]。
農(nóng)作物的重金屬污染監(jiān)測非常關(guān)鍵,只有正確地識別重金屬污染元素的類別,才可以對農(nóng)作物接下來種植的土壤進(jìn)行調(diào)整[8-10],因此對玉米生長中所受重金屬污染的辨別研究顯得尤為重要,采用高光譜技術(shù)辨別重金屬污染逐漸成為了遙感應(yīng)用熱點[11],目前采用高光譜技術(shù)進(jìn)行參量反演的方法比較常見[12-13],但是運用到農(nóng)作物重金屬污染辨別的還較少。
高偉等[14]建立了CLCDF污染判別特征,對作物中的重金屬污染種類進(jìn)行判別,為重金屬脅迫的光譜辨別提供了新的思路;GUO等[15]通過基于高光譜的ML模型,確定污染垂直分布的關(guān)鍵因素和判斷地下土壤中的金屬(類);LI等[16]通過構(gòu)建新的光譜指數(shù),快速識別了土壤重金屬污染中的元素,經(jīng)過驗證該模型的通用性和魯棒性都較好。還有學(xué)者采用了特征光譜融合提取[17-19]以及深度強(qiáng)化學(xué)習(xí)[20-22]的方法對植被災(zāi)害以及污染進(jìn)行辨別。
上述研究在重金屬脅迫辨別方面均取得了較好的結(jié)果,但是光譜處理與辨別方法較為繁瑣,辨別準(zhǔn)確度仍需提高,算法較為復(fù)雜,計算量大,不易進(jìn)行應(yīng)用,因此尋找一種快速辨別農(nóng)作物重金屬污染的方法變得尤為重要。本文以受不同程度銅鉛(Cu、Pb)脅迫的玉米葉片為研究對象,采用ASD光譜儀獲取玉米葉片的光譜,經(jīng)過0.1~1.0階的分?jǐn)?shù)階微分(Fractional derivatives,FD)處理后,通過競爭性自適應(yīng)重加權(quán)算法(Competitive adapative reweighted sampling,CARS)提取光譜的特征光譜,最后通過比較多種辨別模型的性能,最終選擇性能最佳的多層感知機(jī)(Multi-layer perceptron,MLP),構(gòu)建FD-CARS-MLP模型并進(jìn)行試驗,以達(dá)到辨別玉米葉片中Cu、Pb污染信息的目的。
以不同梯度重金屬元素(Cu、Pb)脅迫的不同時期玉米生長葉片為研究對象,選用玉米品種為中糯1號。共分為兩組:重金屬元素(Cu、Pb)脅迫試驗分別選CuSO4·5H2O和Pb(NO3)2溶液作為試劑,脅迫梯度為0、50、100、150、200、300、400、600、800、1 000、1 200 μg/g,脅迫梯度平行試驗共3組。試驗期間,保持土壤濕潤,空氣暢通,保證各盆栽生長環(huán)境一致,避免其他因素對試驗結(jié)果產(chǎn)生影響。
選取ASD FieldSpec 4型便攜式地物光譜儀,進(jìn)行重金屬元素(Cu、Pb)脅迫試驗苗期、拔節(jié)期、抽穗期玉米葉片高光譜數(shù)據(jù)采集。每次光譜反射率測定前使用標(biāo)準(zhǔn)白板對光譜反射系數(shù)進(jìn)行校準(zhǔn),光纖探頭視場角為25°,探頭垂直于葉片表面,垂距小于5 cm,每盆玉米葉片光譜測量5次。得到不同重金屬(Cu、Pb)脅迫試驗的光譜曲線如圖1所示。
圖1 重金屬(Cu、Pb)脅迫的光譜曲線
分?jǐn)?shù)階微分的定義形式有很多種,其中主要有Riemann-Liouville、Grünwald-Letnikov、Caputo、Remann-liouville、廣義函數(shù)等[23-24],本研究選擇Grünwald-Letnikov進(jìn)行光譜數(shù)據(jù)處理。若設(shè)f(λ)為一維的光譜曲線,則分?jǐn)?shù)階微分定義可表示為
(1)
式中q——任意階數(shù)n——波段數(shù)
λ——波段的中心波長
將波長范圍按步長h進(jìn)行等分,[a,t]為波長范圍區(qū)間,λ∈[a,t],因為玉米葉片在光譜采集時,光譜儀光譜重采樣間隔為1 nm,因此令h=1,n=t-a。
競爭性自適應(yīng)重加權(quán)采樣法(CARS)結(jié)合了蒙特·卡羅方法(Monte Carlo,MC)和最小偏二乘回歸方法(Partial least squares regression,PLS)對特征變量進(jìn)行選擇[25-26],該算法和達(dá)爾文的“適者生存”理念非常相似。CARS采用自適應(yīng)加權(quán)采樣(Adaptive reweighted sampling,ARS)的方法,選擇PLS中回歸系數(shù)絕對值占比權(quán)重相對較大的波長,形成新的組合形式[27],去掉權(quán)重占比較小的特征波長,以新建的組合為基礎(chǔ)重復(fù)上述方法,得到PLS交互驗證均方根誤差(Root mean square error of cross validation,RMSECV)最小的最優(yōu)組合,該組合中的剩余波長將被作為原始光譜的特征波段,進(jìn)行接下來的數(shù)據(jù)辨別,具體過程如下:
(1)通過蒙特·卡羅方法,從原數(shù)據(jù)中隨機(jī)抽取一部分?jǐn)?shù)據(jù)用于模型建立[28],剩余數(shù)據(jù)將作為PLS模型的預(yù)測數(shù)據(jù)(一般建模數(shù)據(jù)與預(yù)測數(shù)據(jù)的比例為8∶2),采樣時PLS中的回歸系數(shù)權(quán)重的絕對值計算式為
(2)
式中bi——第i個變量回歸系數(shù)
wi——第i個變量回歸系數(shù)權(quán)重
m——采樣剩余變量的數(shù)量
(2)通過指數(shù)衰減函數(shù)(Exponentially decreasing function,EDF)剔除回歸系數(shù)權(quán)重占比絕對值相對較小的波段,第i次MC采樣構(gòu)建PLS模型時,通過EDF獲取保留波段點的占比Ri為
Ri=ue-ki
(3)
式中u、ki——常數(shù)
(3)每輪采樣均從前一輪采樣時的數(shù)據(jù)中,通過自適應(yīng)加權(quán)采樣(ARS)提取Ri的n個波段,進(jìn)行建模,并經(jīng)過計算得到RMSECV。
(4)經(jīng)過所有的采樣后,CARS生成了多組待選擇的特征波段集合,并且每個集合都有相對應(yīng)的RMSECV,最后保留RMSECV最小的一組作為所需要的特征波段。
交叉驗證又名循環(huán)估計,是一種統(tǒng)計學(xué)中將數(shù)據(jù)作為總集合分成多個子集合的過程[29]。K-fold交叉驗證即在樣本空間中,選擇大量數(shù)據(jù)作為訓(xùn)練樣本,剩余數(shù)據(jù)作為模型的測試樣本,并且求出剩余樣本的誤差、準(zhǔn)確度以及其平均值。將樣本的誤差平方相加,即可得到模型的預(yù)測誤差。常見的交叉驗證方法有簡單交叉驗證、K-fold交叉驗證和留一驗證,本研究選擇最常用的K-fold交叉驗證,在數(shù)據(jù)辨別之前劃分出訓(xùn)練、預(yù)測數(shù)據(jù)。
分類是一種通過機(jī)器學(xué)習(xí)(Machine learning)的自然語言處理任務(wù),機(jī)器學(xué)習(xí)中的分類算法,是通過訓(xùn)練集來預(yù)測其他數(shù)據(jù)將會屬于某個種類的概率。本研究選擇的分類算法為多層感知機(jī)(Multi-layer perceptron,MLP)、K-最近鄰(K-nearest neighbors,KNN)、支持向量機(jī)(Support vector machine,SVM),經(jīng)過試驗最終選擇性能最優(yōu)的MLP分類模型作為主辨別方法。
以MLP分類模型為例,該模型分為輸入層、隱藏層和輸出層,其中輸入層為數(shù)據(jù)的不同特征,在本研究中就是光譜不同波段的反射率,即輸入層的神經(jīng)元個數(shù)就是光譜的波段數(shù)目;隱藏層為1層,有25個神經(jīng)元;最后輸出層共有2個神經(jīng)元,分別表示銅污染和鉛污染信息。
分?jǐn)?shù)階微分處理后的光譜數(shù)據(jù)和原數(shù)據(jù)差別較大,它可以放大數(shù)據(jù)的特征,獲取到光譜數(shù)據(jù)中的更多細(xì)節(jié)信息,相較于原數(shù)據(jù)更有利于污染信息的辨別。綜合考慮光譜數(shù)據(jù)量和數(shù)據(jù)質(zhì)量,本研究選擇以拔節(jié)期玉米葉片光譜數(shù)據(jù)為主,苗期和抽穗期為輔進(jìn)行辨別,對受重金屬(Cu、Pb)脅迫生長的玉米葉片高光譜數(shù)據(jù)進(jìn)行從原光譜到1.0階的分?jǐn)?shù)階微分處理(即0~1.0,以0.1為間隔依次增加),隨著微分階數(shù)的不斷增加,光譜逐漸產(chǎn)生變化,以200 μg/g濃度梯度銅脅迫下的拔節(jié)期玉米葉片光譜為例,經(jīng)過0.1~1.0階分?jǐn)?shù)階微分的光譜曲線如圖2所示。
圖2 0.1~1.0階分?jǐn)?shù)階微分的光譜曲線
原數(shù)據(jù)的波段為350~2 500 nm,如果直接運用,不僅后續(xù)處理數(shù)據(jù)量龐大,數(shù)據(jù)處理時間過長,而且特征點過多也會使分類的精度降低。CARS可以通過計算,直接篩選出回歸系數(shù)權(quán)重占比最大的波段,直接得出原數(shù)據(jù)的最佳特征波段,該方法相較于傳統(tǒng)的主成分分析法(Principal components analysis,PCA)等方法更加方便,不用手動調(diào)整參數(shù)即可直接給出多種特征波段組合以及其每一種波段組合的RMSECV,該均方根誤差越小表示該波段組合的性能越好,通過比較每一種波段組合的RMSECV即可直接給出最佳特征波段,采用該種方法進(jìn)行特征提取更加簡便智能,而且不會遺漏特征波段組合。
本研究的特征波段提取過程由Python編程實現(xiàn),對經(jīng)過分?jǐn)?shù)階微分后的光譜數(shù)據(jù)通過CARS進(jìn)行特征數(shù)據(jù)提取,從2 250個波段中進(jìn)行自動的特征波段選取。進(jìn)行脅迫辨別時要求相同波段對應(yīng),本研究對以重金屬(Cu、Pb)脅迫的光譜數(shù)據(jù)進(jìn)行CARS計算。接下來以拔節(jié)期Cu、Pb脅迫光譜數(shù)據(jù)為例,結(jié)合圖3進(jìn)行分析。
圖3 經(jīng)過CARS計算的拔節(jié)期Cu、Pb脅迫原數(shù)據(jù)
對于拔節(jié)期的重金屬(Cu、Pb)脅迫光譜數(shù)據(jù)進(jìn)行CARS計算,其最佳篩選次數(shù)與特征波段數(shù)如表1所示。
表1 最佳篩選次數(shù)與特征波段數(shù)
由圖3和表1可得,隨著迭代次數(shù)的增加,得到的特征光譜數(shù)量不斷減少,RMSECV呈現(xiàn)先降低后增加的趨勢,對于重金屬(Cu、Pb)脅迫光譜數(shù)據(jù)來說,隨著分?jǐn)?shù)階微分階數(shù)的不斷增加,最佳特征波段所對應(yīng)的的迭代次數(shù)不斷減少,波段數(shù)量不斷增加。
經(jīng)過分?jǐn)?shù)階微分和CASR處理后,得到了代表每一組光譜的最佳特征波段,然后選擇不同的分類模型進(jìn)行脅迫污染辨別,選取最適合玉米葉片光譜數(shù)據(jù)的模型,以達(dá)到最好的污染辨別效果。本研究選擇的分類算法為MLP、KNN、SVC。在數(shù)據(jù)辨別之前先通過5折交叉驗證(K=5)劃分出訓(xùn)練數(shù)據(jù)和預(yù)測數(shù)據(jù),以方便后續(xù)對所建的模型進(jìn)行性能評估?;诮邮照卟僮魈卣髑€(Receiver operating characteristic curve,ROC),本研究選擇ROC曲線下面積(Area under curve,AUC)、準(zhǔn)確率(Accuracy,Acc)、精確度(Precision,Pre)、錯誤接受率(False acceptance rate,FAR)以及錯誤拒絕率(False rejection rate,FRR)5個評價指標(biāo),5個評價指標(biāo)均位于0~100%之間,其中AUC、Acc、Pre 3個指標(biāo)數(shù)值越接近于100%,FAR、FRR 2個指標(biāo)越接近于0表示所建立的模型辨別性能越好。3種分類模型指標(biāo)如圖4所示。
圖4 基于MLP、KNN、SVM分類模型的拔節(jié)期Cu、Pb 污染辨別評價指標(biāo)對比
由圖4可得,3個分類模型中,KNN模型的AUC、Acc、Pre 3個指標(biāo)數(shù)值均在95%以上,除原數(shù)據(jù)以外,均為96%以上;FAR、FRR均在4%以下;MLP模型的AUC、Acc、Pre均在97%以上,除原數(shù)據(jù)以外,均為98%以上;FAR、FRR均在2%以下,MLP模型相比于KNN模型在5個指標(biāo)數(shù)值上均提高2個百分點,性能較好,對于重金屬(Cu、Pb)脅迫玉米葉片的辨別能力較好;而SVM明顯不適用于本次研究數(shù)據(jù)的辨別。
本研究的數(shù)據(jù)量較大,因此SVM并不適用;KNN分類模型的計算量較大,特別是當(dāng)特征變量增多時,而本試驗的特征變量較大,并且如果樣本量不平衡時,其精度也會有所降低;MLP分類模型辨別率高且分類速度快,因此MLP綜合來看最適合本研究的分類任務(wù)。
選取MLP作為數(shù)據(jù)辨別的方法,對重金屬(Cu、Pb)脅迫的光譜數(shù)據(jù)進(jìn)行辨別。分析可得,經(jīng)過分?jǐn)?shù)階微分的污染信息辨別評價指標(biāo)高于原數(shù)據(jù),并且最佳的階數(shù)為0.1和0.2,隨著階數(shù)的增加,辨別準(zhǔn)確度有所下降,但是仍高于原始光譜數(shù)據(jù)。由此可以構(gòu)建一個新的玉米葉片重金屬(Cu、Pb)污染信息高光譜遙感辨別模型——FD-CARS-MLP模型。
為了驗證FD-CARS-MLP模型的可行性,選擇拔節(jié)期、抽穗期重金屬(Cu、Pb)脅迫的玉米葉片進(jìn)行驗證,分?jǐn)?shù)階微分選擇效果最好的0.1、0.2階進(jìn)行驗證,結(jié)果如表2所示。
表2 FD-CARS-MLP模型驗證
由表2可知,運用高光譜數(shù)據(jù)的分?jǐn)?shù)階微分處理結(jié)果,FD-CARS-MLP模型對于受脅迫的玉米葉片Cu、Pb污染信息辨別的精度較高且更穩(wěn)定,為監(jiān)測谷類作物不同脅迫的重金屬污染監(jiān)測提供了技術(shù)與方法。
(1)光譜數(shù)據(jù)經(jīng)分?jǐn)?shù)階微分處理后,許多光譜特征被加強(qiáng),能夠獲取到更多細(xì)節(jié)信息,相較于原始光譜數(shù)據(jù)更有利于污染信息的辨別,試驗可得,所有經(jīng)過分?jǐn)?shù)階微分處理光譜數(shù)據(jù)的辨別精度均大于原數(shù)據(jù),其中0.1、0.2階的分?jǐn)?shù)階微分效果最好,數(shù)據(jù)辨別評估指標(biāo)AUC、Acc、Pre的精度可以達(dá)到99%以上,FAR、FRR的精度可以達(dá)到1%以下。
(2)CARS相較于傳統(tǒng)的特征光譜波段提取方法,可以涵蓋每一組特征波段組合,更加全面化,且不用手動調(diào)整參數(shù),更加方便快捷,CARS可以通過算法直接給出最佳的特征波段組合,使特征波段的選擇更加智能化。
(3)經(jīng)試驗證明,FD-CARS-MLP模型可以有效地對受脅迫的葉片光譜數(shù)據(jù)進(jìn)行Cu、Pb污染信息辨別,該模型的辨別評估指標(biāo)AUC、Acc、Pre可以高達(dá)98%以上,FAR、FRR可以達(dá)到2%以下。FD-CARS-MLP模型辨別玉米在生長過程中受重金屬脅迫的葉片污染信息效果良好,并且具有較好的可靠性和穩(wěn)定性。