湯 超
(安徽理工大學空間信息與測繪工程學院,安徽 淮南 232000)
精準農(nóng)業(yè)作為我國目前的農(nóng)業(yè)發(fā)展重要方向,是把農(nóng)業(yè)和現(xiàn)代技術結合的一種現(xiàn)代化農(nóng)業(yè)應用系統(tǒng)[1]。快速獲取土壤理化性質(zhì)成為實現(xiàn)精確農(nóng)業(yè)的重要環(huán)節(jié),因此光譜分析掌握土壤有機質(zhì)含量對精準農(nóng)業(yè)有重要意義。土壤有機質(zhì)中含有各種碳類有機化合物,其中含有植物生長所必需的各種元素[2],同時是地下微生物活動的生命之源,是把持土壤肥力和養(yǎng)分供應能力的重要因素[3]。隨著工業(yè)化、城鎮(zhèn)化的快速發(fā)展,礦山類型企業(yè)成為國民經(jīng)濟穩(wěn)步增長的重要支點,伴隨共生的重金屬污染、生態(tài)環(huán)境惡化等問題,致使收集土壤有機質(zhì)含量的變化進行分析顯現(xiàn)得尤為重要。目前,高光譜遙感是較為成熟的現(xiàn)代技術用以快速監(jiān)測土壤有機質(zhì)含量的方式。
現(xiàn)行條件下,有2種獲取高光譜數(shù)據(jù)的方式,光譜分析法和傳統(tǒng)的實驗室分析法。實驗室法會挑選采集并添加標簽,風干,篩選出雜物,最后通過化學方法如光度法、重鉻酸鉀容量法等方法計算有機質(zhì)的含量。傳統(tǒng)方式的野外地面實測具有建模精度高、速度快等優(yōu)點,但是利用人工測量不可避免會出現(xiàn)實用區(qū)域小、周期長,且模型的延展性低等缺點[4,5]。高光譜遙感法,利用遙感技術中的高光譜獲取范圍廣、周期短、實時性強,適用于大面積建模等優(yōu)點,通過辨別地物之間細微的吸收和反射特性來實測地物的地球化學元素含量。從而得到光譜反射率和含量之間的曲線,通過分析地球化學元素含量的相關性,找到化學元素的敏感波段,建立線性或者非線性模型,以此反演化學元素的含量分布[6-10]。王婷等[6]通過對華南地區(qū)75組高光譜數(shù)據(jù)的選取,選擇敏感的單波段和雙組合波段,對比分析了線性回歸和非線性的回歸效果,得到最佳的精度模型,相對誤差也更小。Lijuan Cui等[7]根據(jù)敏感波段用多元線性回歸法建立有機質(zhì)與反射率的模型,經(jīng)過精度評價,其均方誤差(RMSE)的值在0.38%~1.67%;全文詮釋了有機質(zhì)的建立和形成的長期變化,并建立模型[11-13]。目前有機質(zhì)的研究,關注點在構建模型和光譜指標變換。因此,本文通過ASD便攜式光譜儀對朱莊礦采集的樣本進行密室探照,檢測測定土壤光譜數(shù)據(jù)后用實驗室分析法獲取土壤具體有機質(zhì)含量,構建安徽省淮北市朱莊礦區(qū)的土壤有機質(zhì)高光譜估算模型,用建立的模型估測礦區(qū)的有機質(zhì)含量,為今后的研究提供堅實的基礎,進一步為淮北礦區(qū)采動裂隙評價和礦區(qū)土地復墾以及生態(tài)資環(huán)修復打下基礎。
研究區(qū)朱莊煤礦位于安徽省淮北市中部,具體位于離淮北市區(qū)9km的安徽省北市杜集區(qū)礦山集鎮(zhèn)境內(nèi)。地處N33°16′~34°10′,E116°24′~117°03′。近年來,煤礦開采,礦區(qū)已多處產(chǎn)生裂隙。由于該地開采嚴重,生態(tài)系統(tǒng)的恢復能力較差,所以對該地進行有機質(zhì)含量的反演有重要的實際意義。在朱莊礦將土壤有機質(zhì)含量樣品送往安徽理工大學分析測試中心,采用元素分析儀法測定土壤中含碳量,將測定的有機碳含量轉化為有機質(zhì)含量。
1.2.1 土壤光譜反射率測定及處理
采用ASD便攜式地物光譜儀對研究區(qū)土壤樣本的光譜反射率進行了測量,有效的光譜波段為350~2500nm。在光源上選擇與太陽光源相似的50W鹵素燈,將土壤樣品放入具有角度為10°探頭的密室內(nèi)測定以避免周圍其它因素的干擾,在礦區(qū)的南北6個深度,取10個點位為樣品點,用ASD viewSpecpro軟件進行預處理,剔除異常曲線,在每個點位求平均值確定為每條光譜的反射率。
1.2.2 光譜數(shù)據(jù)分析
在MATLAB軟件中采用Savitzky-Golay平滑方法,目的是在剔除異常曲線后將波形中噪聲引起的細小突出平滑。如圖1所示,經(jīng)過處理后的光譜曲線分別在紫外可見光(350~1100nm)呈現(xiàn)上升趨勢,但是在1300nm中有一個降低,之后又穩(wěn)步上升。近紅外(1100~2500nm)上在1500nm處有一個明顯的凹陷,之后又緩步上升,但是上升趨勢減緩。所有曲線的趨勢大致相同,總體都呈快速上升,然后在1300nm和1600nm段有個呈現(xiàn)波谷式的下降,之后上升趨勢減緩,推測是因為礦區(qū)粘土中所含的水分子或者羥基的吸收帶。
圖1 土壤反射率平滑后光譜曲線
1.2.3 朱莊礦土壤屬性統(tǒng)計特征分析
土壤的理化性質(zhì)包括土壤pH、有機質(zhì)、有效磷、速效鉀等各方面。而對土壤理化屬性的描述統(tǒng)計方法包括變異系數(shù)、標準差、平均值、最小值、最大值等。平均值和均值是數(shù)理統(tǒng)計中廣泛用于描述頻率分布以及中心位置集中趨勢的2種方法。變異系數(shù)(CV)用來反映數(shù)據(jù)集的離散程度。本文有機質(zhì)含量變異系數(shù)為0.603(0.1≤CV≤1),表現(xiàn)為中等變異性。變異系數(shù)越大,表明土壤理化性質(zhì)中的空間離散程度越大,而變異系數(shù)越大,也有利于模型的構建,使模型更具普適性。
表1 土壤有機質(zhì)特征分析
1.2.4 光譜變換
Al-Abbs[15]等研究表明,土壤有機質(zhì)的含量與反射光譜呈負相關。在可見光與紅外光的波段發(fā)現(xiàn)本實驗數(shù)據(jù)滿足以上關系[15-17]。根據(jù)以上關系,測定數(shù)據(jù)時可以根據(jù)有機質(zhì)含量的起伏變化關系發(fā)現(xiàn)敏感波段,為建模打下基礎[17]。在選擇光譜變換指標時不應該只選擇線性的,受到土壤和測量環(huán)境的影響,也應該考慮非線性的指標對反射率的變化。光譜的一階微分和二階微分能變化去除一些線性噪聲和基線漂移等產(chǎn)生的影響,而進行吸光率變換(倒數(shù)的導數(shù))也是處理方式之一,吸光率變換能解決一些非線性和光照條件的影響,增強光譜數(shù)據(jù)和土壤有機質(zhì)之間的相關性。綜上,選擇反射率、一階微分、二階微分導數(shù)的對數(shù)變換作為光譜數(shù)據(jù)構建的指標進行處理,找到波形上劇烈起伏大且對土壤有機質(zhì)含量敏感的波段。
表2 光譜指標描述
1.2.5 模型建立與驗證
在篩選光譜指標上,利用皮爾遜(Pearson)相關分析方法進行篩選。光譜指標中的函數(shù)自變量選擇反射率指標和經(jīng)過變換后的反射率指標,因變量則選擇通過實驗室密室測得的土壤有機質(zhì)含量,選擇合適的模型進行回歸反演。相關系數(shù)用于詮釋事物或者變量之間相關性程度強弱關系,皮爾遜相關系數(shù)是最常見但不是唯一的相關系數(shù)。不同的事物或者變量之間對應著不同特征的統(tǒng)計指標。在光譜分析中,會分析許多變量之間的關系問題,如在土壤有機質(zhì)反演中,會分析土壤有機質(zhì)含量和反射率及其反射率變換的指標(曲線的為非線性)的相關關系,會分析土壤理化性質(zhì)之間的相關關系,會分析土壤訓練集與驗證的得到的模型預測值與實測值之間的相關關系。會根據(jù)以上找到合適的相關性強的敏感波段,建立模型揭示土壤有機質(zhì)和光譜的關系。而土壤預測值與實測值之間的關系一般條件下選擇y=x模型檢驗最后的模型精度。
光譜分析中2個事物或者變量之間有正相關、負相關和無關等,本文分析高光譜有機質(zhì)含量和光譜指標的關系,研究表明都呈現(xiàn)負相關。而2個變量的線性相關用相關系數(shù)r2或r表示。相關系數(shù)r公式:
(1)
相關性分析可用于建立土壤有機質(zhì)含量和反射率光譜指標之間的相關性強弱關系,也是較為常用的進行光譜反演建模的分析手段。如圖2-5所示,將土壤原始光譜數(shù)據(jù)和轉換后的一階微分、二階微分、吸光率變換(倒數(shù)的對數(shù))與土壤有機質(zhì)含量進行Pearson相關分析。在圖2中觀察經(jīng)過平滑后的反射率曲線與有機質(zhì)含量的Pearson相關性變化趨勢,正如大部分研究所示一樣,有機質(zhì)含量與平滑后的反射率曲線都是負數(shù),呈現(xiàn)為負相關,且相關性程度隨著可見光到紅外光的波段呈降低趨勢。在350~1761nm波段都表現(xiàn)出很好的相關性,在558nm處達到相關最大。一階微分變換能夠去除部分線性的噪聲,增強局部位置的光譜響應差異。一階微分變換數(shù)據(jù)與有機質(zhì)含量在350~2500nm波段上可以明顯地找到更多的吸收反射特征點,并在350~1760nm的波段上可以發(fā)現(xiàn)更多的拐點,在一階微分變換的數(shù)據(jù)中,507nm、519nm、1399nm、1432nm的光譜波段表現(xiàn)十分顯著。而在二階微分中,二階微分能夠消除一些基線漂移和一些儀器背景的影響,二階微分表現(xiàn)的光譜數(shù)據(jù)中,在350~1310nm段相關性起伏皆不大,1390nm、1399nm、1409nm、1446nm波段分別達到一個極大值或者極小值點,并且后面又趨于穩(wěn)定。收集樣本點的光譜信號時,由于土壤表面的散射和吸收作用引起吸收強度的變化造成一些非線性的光譜噪聲。將反射率轉化為吸光率是處理非線性的常用方法,將土壤反射率轉化為吸光率不僅增強了光譜反射的差異性,還可以減少光照條件等其它隨機因素的影響,更好地反映土壤的理化性質(zhì)。吸光率和反射率的趨勢相似,在極值點531nm段達到極大值點后,便不斷下降。
圖2 反射率與有機質(zhì)含量的相關系數(shù)
圖3 反射率一階微分變換與有機質(zhì)的相關系數(shù)
圖4 反射率二階微分與有機質(zhì)的相關系數(shù)
由圖2-5可知,土壤有機質(zhì)反射率的光譜曲線的波形在可見光和紅外光的波譜上除了羥基和水分子的影響都較為平直,明顯有機質(zhì)含量的吸收特征都不明顯,所以需要將土壤光譜進行光譜指標變換。而變換之后的曲線,能擴大光譜特征中差異不大的部分,增大光譜的吸收特征,突出對有機質(zhì)含量中較敏感的波段,方便識別各種光譜指標中敏感波段中的差異。將原始光譜反射率進行光譜一階微分變換、二階微分變換、吸光率(倒數(shù)的導數(shù))轉換等處理,從圖2至圖5可以看出,土壤光譜曲線在經(jīng)過微分變換后,可見光與紅外光波段上的光譜指標的細小差異被凸顯出來。
圖5 反射率吸光率變換(倒數(shù)的對數(shù))與有機質(zhì)的相關系數(shù)
偏最小二乘回歸(PLSR)是一種主成分分析和相關分析相結合的多元統(tǒng)計回歸方法。偏最小二乘回歸的優(yōu)點是當多個自變量相關時,更容易識別噪聲和處理信息,且模型將包括所有自變量。本研究認為,PLSR模型更適用于土壤光譜估計分析,通過建立X(土壤光譜數(shù)據(jù))與Y(土壤有機質(zhì)含量)的最優(yōu)模型,達到土壤光譜信息準確估算理化參量的目的。
在參與回歸反演的PLSR模型,選擇參與回歸的變量個數(shù)非常關鍵。如果變量合格數(shù)太少,則模型的擬合程度不高;反之變量個數(shù)太多,則會出現(xiàn)過度擬合現(xiàn)象。所以選擇交叉檢驗方法(K-CV)作為檢驗模型的精度和估算結果。在研究中,原始數(shù)據(jù)集被隨機分成K個子樣本,選擇其中一個樣本為驗證數(shù)據(jù)集,剩下的K-1個樣本用于訓練集,最后總的重復驗證K次。根據(jù)數(shù)據(jù)選擇K的值為3,原始數(shù)據(jù)集被隨機分成3個相等的組,其中任意2組為訓練集,剩下的一組為驗證機,重復3次上述操作。
建模以后需要對建模進行精度檢驗,通常選擇表現(xiàn)線性擬合程度的決定系數(shù)(R2)和表示觀測值與真值偏差差異的均方根誤差(RMSE)。平均相對誤差(MRE)來預測模擬值與真值的精度。驗證模型選用的指標是決定系數(shù)(R2)、平均相對誤差(MRE)和均方根誤差(RMSE),計算公式分別如式(2)、(3)、(4):
(2)
(3)
(4)
為了消除噪聲和基線漂移以及非線性噪聲影響,將反射率進行4種光譜指標變換處理,分別為經(jīng)過Savitzky-Golay平滑后的反射率曲線,一階微分、二階微分、吸光率(倒數(shù)的導數(shù))變換。分別篩選出4種光譜指標中相關性較高也產(chǎn)生起伏的敏感波段。如表3所示。
表3 有機質(zhì)含量的敏感波段及其相關系數(shù)
通過上述的相關性分析成果和交換檢驗方法,在SPSS軟件中用PLSR建立模型,分別對不同的建模集和驗證集進行分析,從而選擇最佳的模型預測建模模擬預測值。土壤有機質(zhì)PLSR的估算模型結果如表4所示。
表4 土壤有機質(zhì)偏最小二乘法估算模型
由表4可知,在所有的反射率以及光譜變換形式下,反射率轉換為吸光率具有較好的反演能力,其中吸光率無論是在建模集還是驗證集R2,RMSE的值都有較好的準確性,R2值越大,RMSE值越小,說明吸光率變換有著很好的反映能力。在建模集的R2值達到0.45,在驗證集達到最大0.657。在RMSE的值在吸光率變換時都很小,如在建模集為1.082,而在驗證集達到0.932,都在很大程度上確保了吸光率變換的可靠性。吸光率模型:
(5)
建模完成后對建立的模型檢驗可靠性,將驗證集中有機質(zhì)含量的實測數(shù)據(jù)與預測數(shù)值進行對比分析。模擬實測值與預測值的含量值在0.3~5.3g·kg-1,平均值是2.55g·kg-1,相關系數(shù)(R2)達到0.65,計算最后以反射率轉化為吸光率的平均相對誤差(MRE)為78.6%。上述數(shù)據(jù)和圖像皆可說明土壤有機質(zhì)用光譜吸光率來反演較為可靠。
圖6 土壤有機質(zhì)模型實測值與預測模擬值之間的比較
安徽省淮北市朱莊礦區(qū)開采多年,空間變異顯著,該區(qū)域適合進行有機質(zhì)含量反演。
光譜反射率與有機質(zhì)含量呈現(xiàn)負相關,在紫外到可見光以及近紅外都與有機質(zhì)含量表現(xiàn)較好的相關性。其中與吸光率的變換形式最佳,可在該礦區(qū)推廣使用。研究區(qū)的有機質(zhì)反演模型以吸光率為自變量時,決定系數(shù)(R2)能達到0.45,均方根誤差(RMSE)能達到1.08。當用吸光率模型預測有機質(zhì)含量時,與實測值的決定系數(shù)(R2)達到0.65,平均相對誤差(MRE)為78.6%。以上均說明預測模型精度高,穩(wěn)定性好。
研究區(qū)為礦區(qū),開采嚴重,出現(xiàn)地面水下跌、錯動下沉、礦區(qū)裂隙等問題,研究有機質(zhì)含量反演結果可為礦區(qū)生態(tài)修復、礦區(qū)復墾,以及礦區(qū)土地修復提供數(shù)據(jù)。
本研究對有機質(zhì)含量反演的影響,在光譜變換、建模方法等方面存在缺陷,后面會考慮非線性的模擬方法,如決策時、人工BP神經(jīng)網(wǎng)絡、光譜變換指標選擇小波變換等。