王 正,孫兆軍,禹 昭,何 俊,韓 磊,李 茜
(1.寧夏大學土木與水利工程學院,銀川 750021;2.寧夏大學新華學院,銀川 750021;3.寧夏大學環(huán)境工程研究院,銀川 750021;4.寧夏(中阿)旱區(qū)資源評價與環(huán)境調控重點實驗室,銀川 750021)
土壤有機質是耕作土壤中最重要的屬性之一,它不僅為作物的生長提供條件,而且在改良土壤理化性質方面發(fā)揮著重要作用,尤其在鹽堿土壤生態(tài)修復中的表現(xiàn)更為顯著[1]。大量研究表明,可利用多種工具進行土壤有機質含量的估算,如粒子群優(yōu)化[2]、偏最小二乘回歸[3]、高光譜數(shù)據(jù)處理[4]等。另外,土壤鹽分參數(shù)與有機質含量之間存在極其復雜的聯(lián)系,這使得利用智能算法來高效、準確估算有機質含量成為可能[4]。
利用智能算法來估算土壤有機質含量的方法,國內外學者做了大量工作[5,6]。劉二永[7]等研究了環(huán)境因子與有機質的相關關系,并利用環(huán)境因子所對應參數(shù)結合回歸-光滑薄板樣條插值方法(R-STPS)對有機質含量進行了空間預測,預測結果表明,R-STPS能高效地進行預測。但其建立的模型過于簡單,未考慮土壤類型和耕作方式等對有機質的影響。蔡劍華[8]等探討了將經(jīng)驗模態(tài)分解方法與近紅外光譜數(shù)據(jù)結合來預測土壤有機質含量,結果表明,該方法具有較高的可靠性,預測效果明顯優(yōu)于傳統(tǒng)方法。Razakamanarivo[9]等利用線性回歸模型、多元回歸模型和回歸樹三種方法結合生態(tài)環(huán)境因素和空間因素對土壤有機質含量進行了預測,結果表明回歸樹相比前兩種方法來說具有更高的精度,同時也非常適合處理非線性的數(shù)學模型。Manpreet[10]等討論了不同類型的土壤在不同含鹽量的情況下對土壤有機質含量的影響。
目前,多數(shù)估算土壤有機質含量的文獻都是基于高光譜、遙感數(shù)據(jù)等無人機遙感技術,再結合智能算法對其進行了預測與反演[11,12]。但是這些方法最大弊端是只能針對表層大約10 cm左右的土壤進行預測反演,無法應用于深層土壤,而且,由于土壤表層會被其他物質或植被掩蓋和包圍再加上電磁波的穿透能力有限,這樣就難免會對預測的結果形成消極影響[13]。另外,無人機遙感很容易受氣候、地理條件等客觀因素的影響,會導致不充分、不可靠和不準確的計算結果[14]。鑒于BP神經(jīng)網(wǎng)絡(BPNN)變化多端的結構形式以及強大的非線性模型的表現(xiàn)能力,回歸型支持向量機 (SVR)在多因子檢測分類領域中是一種非常有效且精確度較高的工具[15-17],它們被廣泛應用于模式預測、識別等智能預測評估領域[18-20]。本研究針對BPNN學習速度慢且容易陷入局部最優(yōu)值的缺點,對其網(wǎng)格中的權值和閾值進行了改進,而且基于改進BPNN優(yōu)化算法的SVR提出有機質含量估算模型。分析土壤有機質含量與鹽堿土鹽分之間的相關關系,并利用鹽分參數(shù)對寧夏吳忠樹新林場的鹽堿土壤有機質含量進行預測,并從估算結果、決定系數(shù)、均方誤差等方面進行對比分析。
樹新林場地處寧夏平原中部的青銅峽市(38°36′N,105°56′E),位于黃河西岸,屬中溫帶半干旱氣候,晝夜溫差大,年平均氣溫為8.5 ℃,年降水量為260.7 mm。樹新林場處于黃河沖積平原,土壤主要以砂質壤土為主,次生鹽漬化較嚴重,其中原狀土飽和泥漿電導率介于4.60~25.50 dS/m之間,pH值介于8.50~11.80之間。
土壤鹽分數(shù)據(jù)采集于2017年8月。此次選取了吳忠樹新林場內的鹽堿試驗地,將樣地設置面積為16 m2的等大正方形區(qū)域11個,然后在正方形形心位置處重復取3次樣,采樣深度為0~20、20~40、40~60、60~80和80~100 cm等5個處理,共采集樣品165個。采集的土壤樣品帶回后,經(jīng)過挑揀雜物、自然晾干、過1 mm孔篩等前處理工序后,然后按照土壤鹽分、土壤有機質、土壤pH值等項目逐步進行測量,求取平均值后的結果如表1所示。
建立基于改進BPNN與回歸支持向量機(SVR)的有機質預測模型。其中,利用改進BPNN方法選取最優(yōu)SVR參數(shù),而SVR則選用分塊算法對樣本數(shù)據(jù)進行訓練,減少算法的運算時間,同時研究不同核函數(shù)對模型性能的影響,并將土壤鹽分參數(shù)作為預測變量并進行回歸分析。
1.2.1 回歸支持向量機(SVR)
表1 試驗區(qū)中的土樣數(shù)據(jù)Tab.1 Soil sample’s data in the test area
建立如下的線性回歸函數(shù):
f(x)=λΨ(x)+ξ
(1)
式中:λ為權重參數(shù)向量;Ψ(x)為非線性映射函數(shù);ξ為偏置參數(shù)向量。
為了便于處理,可以利用Largrange函數(shù)將原問題轉換為對偶問題,最終得到回歸函數(shù)為:
f(x)=λ*Ψ(x)+ξ*=
(2)
式中:xi為待求解問題中的支持向量。
1.2.2 BP神經(jīng)網(wǎng)絡(BPNN)
誤差反向傳播算法(EBPA)是著名的BPNN學習算法,由Rumelhart[21]等人提出。中心思想是將實際輸出與理想輸出之間的誤差歸因于權值和閾值的“過錯”,通過反向傳播將該誤差“攤派”給各個神經(jīng)元,并對權值和閾值進行調整。
因此,本文利用式(3)和式(4)對權值和閾值進行調整改進了算法。
(3)
(4)
式中:η1和η2分別為隱含層和輸出層的學習步長。
1.2.3 模型評價
為了更好地研究預測模型的精度,本研究利用決定系數(shù)(R2)來衡量其穩(wěn)定性,用均方差(MSE)來反映模型的預測能力,用平均相對誤差(ARE)反映預測模型的可信程度,評價指標的誤差值越小就說明模型的精度越高。
2.1.1 描述性統(tǒng)計分析
剔除異常數(shù)值后的土壤有機質統(tǒng)計特征如表2所示。從表2可以看出,變異系數(shù)為63.46%,所以樹新林場的土壤有機質屬于中等變異。檢驗土壤有機質數(shù)據(jù)的偏度和峰度,偏度為0.34,峰度為-0.71,基本服從正態(tài)分布。
2.1.2 土壤有機質與土壤鹽分參數(shù)相關性分析
表2 樹新林場的土壤有機質統(tǒng)計特征 Tab.2 Statistic characteristic values of soil organic matter in Shuxin forest farm
表3 土壤有機質與土壤鹽分參數(shù)間的相關系數(shù) Tab.3 Correlations between soil salinity parameters and soil organic matters
基于改進BPNN算法的SVR參數(shù)尋優(yōu)的具體步驟如下:①隨機確定初始的層間神經(jīng)元的權值和閾值,以及其他參數(shù)的初始化。②根據(jù)選定的神經(jīng)網(wǎng)絡模式計算輸入層、隱含層和輸出層等三層的輸入和輸出。③按照式(3)和式(4)修正權值和閾值。④計算全局誤差,判斷誤差是否滿足要求,滿足時停止運算,否則返回第②步后反復訓練直到男足要求。
本研究中模型運算時由MATLAB編程實現(xiàn),改進BPNN-SVR模型的具體運算流程如圖1所示。
圖1 改進BPNN-SVR模型建立流程圖Fig.1 The flowchart of the improved BPNN-SVR model
本研究共采集了165個土樣的鹽分參數(shù)和有機質含量數(shù)據(jù),為了不失一般性,采用隨機產(chǎn)生訓練集和測試集的方法,即隨機選取120個樣本作為訓練集,剩余45個樣本作為測試集對模型進行性能評價。本研究是基于改進BPNN-SVR建立的模型進行土壤有機質含量估算,而在SVR中,選取核函數(shù)的類型和確定最優(yōu)核函數(shù)參數(shù)是最為關鍵的步驟之一,主要的核函數(shù)類型有線性、多項式、RBF和多層感知機等。其中,線性核函數(shù)無任何其他參數(shù);多項式核函數(shù)需要選取階數(shù)d,這里選取d=3;RBF核函數(shù)和多層感知機核函數(shù)需要選取懲罰因子c、方差g和不敏感損失參數(shù)ε,這里利用5-折交叉驗證方法(5-folder cross-validation,k-CV)結合網(wǎng)格搜索法尋找最佳參數(shù)c、g和ε,其搜索范圍分別為[0,100]、[0,100]和[-10,10],并在MATLAB軟件中進行了多次迭代試驗,最終得到核函數(shù)最優(yōu)參數(shù)。
得到了核函數(shù)最優(yōu)參數(shù)如表4所示,以RBF核函數(shù)為例進行了模擬研究,由于訓練集和測試集是隨機產(chǎn)生的,因此每次運行的結果均不相同,在多次次運行結束后求取平均值后,結果如圖2、圖3所示。
表4 不同核函數(shù)的最優(yōu)參數(shù) Tab.4 Best values for different parameters of kernel
現(xiàn)利用評價指標來評價圖2和圖3中的預測結果。其中,訓練集的吻合度較高,決定系數(shù)達到了0.938,均方誤差為0.074 2,而測試集均方差為0.106 5,吻合度也較好,決定系數(shù)達0.941 5,這表明基于改進BPNN-SVR的土壤有機質估算模型具有非常好的泛化能力。為了對比改進BPNN-SVR模型的性能,這里將之與傳統(tǒng)的BPNN網(wǎng)絡模型進行對比并采用相同的訓練集和測試集,其測試集的預測結果如圖4所示。這種情況下,傳統(tǒng)的BPNN模型的決定系數(shù)為0.870 3,均方差為0.116 2,相對于改進BPNN-SVR模型比較不難發(fā)現(xiàn),傳統(tǒng)的BPNN模型的性能要劣于改進BPNN-SVR模型的性能。
本研究選用的核函數(shù)為RBF核函數(shù),為了討論不同核函數(shù)對模型訓練集合測試集的影響,以下進行20次模擬研究后求取平均值的對比結果,如表5所示。
據(jù)表5中有機質含量的實際數(shù)據(jù)和不同核函數(shù)預測模型的預測結果及分析可知,以測試集結果為例,傳統(tǒng)的BPNN模型預測結果的平均相對誤差(9.78%)高于改進BPNN-SVR模型,而且決定系數(shù)(0.804 9)低于多項式核函數(shù)模型(0.849 8)和RBF核函數(shù)模型(0.890 8)。總體上說,傳統(tǒng)BPNN預測模型在性能指標上要劣于改進BPNN-SVR預測模型,而且設計結構和確定參數(shù)要相對困難。另外,雖然多項式回歸模型預測結果的決定系數(shù)達0.849 8,但是平均相對誤差(7.55%)和均方差(0.147 6)明顯高于其他核函數(shù)模型,說明多項式核函數(shù)模型的泛化能力較差。對于改進BPNN-SVR模型來說,不同核函數(shù)對模型預測結果的影響存在顯著差異。多項式核函數(shù)模型預測結果中的相對誤差、均方誤差均大于RBF核函數(shù)模型的預測結果,線性核函數(shù)模型的預測結果中決定系數(shù)最小,均方誤差較大,不適合用于土壤有機質含量的估算。多層感知機核函數(shù)模型的預測結果平均相對誤差和局方誤差較低,性能僅次于RBF核函數(shù)模型。RBF核函數(shù)模型預測結果平均相對誤差(5.98%)和均方誤差(0.074 6)均小于其他模型,決定系數(shù)也高達0.890 8,與此同時,基于RBF核函數(shù)的改進的BPNN-SVR模型相對于傳統(tǒng)的BPNN模型來說,訓練集預測結果中的平均相對誤差和均方差降低了42.22%和34.21%,決定系數(shù)提高了11.32%;測試集預測結果中的平均相對誤差和均方差降低了38.85%和30.99%,決定系數(shù)提高了10.67%。通過與其他模型進行比較得知,基于RBF核函數(shù)的改進BPNN-SVR模型具有明顯的優(yōu)勢,且預測精度最高,非常適合于土壤有機質的估算。
圖4 傳統(tǒng)的BPNN模型預測結果對比Fig.4 Comparison between forecasted values with actual values of conventional BPNN model
表5 不同模型預測結果的對比Tab.5 Comparison of the prediction results for different models
(1)通過對已檢測165個土樣的鹽分參數(shù)和有機質含量進行相關性分析,得到土壤鹽分離子含量、全鹽含量與土壤有機質呈強相關性,其中HCO- 3的相關系數(shù)最高,達到了0.559 8,利用改進BPNN來優(yōu)化SVR的參數(shù)進行了土壤有機質的估算,并對預測結果進行了分析。
(2)將最優(yōu)核函數(shù)參數(shù)應用到改進BPNN-SVR模型中并結合歸一化后土壤鹽分參數(shù)對土壤有機質含量進行估算的研究中,基于RBF核函數(shù)的模型在訓練集和預測集中的表現(xiàn)優(yōu)異,訓練集中決定系數(shù)達到0.938,均方差為0.074 2,測試集中決定系數(shù)為0.941 5,均方差為0.106 5。在相同試驗樣本的情形下,利用傳統(tǒng)的BPNN模型對土壤有機質也進行了估算,結果顯示傳統(tǒng)BPNN模型的性能略遜于本研究提出的改進BPNN-SVR模型。
(3)通過對比不同核函數(shù)條件下改進BPNN-SVR模型的預測結果發(fā)現(xiàn),RBF核函數(shù)的預測結果能夠較為理想地估算土壤有機質的含量,且可信度較高,平均決定系數(shù)為0.908 6,平均均方差為0.074 6,平均相對誤差為5.6%。