陳道坤 周海 華紅梅 孫遠 何濤 胡翩
摘要 為提高土壤有機質(zhì)(SOM)含量預(yù)測精度和模型的適用性,提出了1種隨機森林回歸(RFR)和BP神經(jīng)網(wǎng)絡(luò)結(jié)果加權(quán)融合模型(BP-RFR),對土壤有機質(zhì)含量進行預(yù)測。選取陜西安康盆地研究區(qū)40個樣點數(shù)據(jù),對比分析RFR、BP神經(jīng)網(wǎng)絡(luò)和BP-RFR模型預(yù)測效果,使用決定系數(shù)([R2])、平均絕對百分比誤差(MAPE)和均方誤差(MSE)來評估模型性能。結(jié)果表明,BP-RFR、BP和RFR 模型三者預(yù)測值與實測值的決定系數(shù)([R2])分別為0.954 5、0.951 4、0.933 5,MAPE分別為0.037 7、0.045 1、0.091 8,MSE分別為1.837 7、1.961 1、2.686 8。綜合分析可知,BP-RFR模型預(yù)測精度效果優(yōu)于BP神經(jīng)網(wǎng)絡(luò)、隨機森林回歸(RFR)模型,因此結(jié)果加權(quán)融合模型(BP-RFR)能夠用于土壤有機質(zhì)含量的預(yù)測。
關(guān)鍵詞 土壤有機質(zhì);隨機森林;BP神經(jīng)網(wǎng)絡(luò);結(jié)果加權(quán)融合
中圖分類號 S156.8? ?文獻標(biāo)識碼 A
文章編號 1007-7731(2023)10-0124-05
BP neural network and random forest to predict the accuracy of soil organic matter
CHEN Daokun ZHOU Hai HUA Hongmei? ?SUN Yuan1? ?HE Tao HU Pian
(1School of Earth and Environment, Anhui University of Science & Technology,Huainan Anhui 232001;
2Xi'an Center of Mineral Resources Survey, China Geological Survery, Xi'an Shaanxi 710100;
3Civil-military Integration Center of Geological Survey, China Geological Survey, Chengdu Sichuan 610036)
Abstract To improve the accuracy of soil organic matter content (SOM) prediction and the applicability of the model in improving the accuracy of prediction, a multiple regression model was established to analyze soil organic matter to obtain better prediction accuracy. Data from 40 sample sites in the study area of the Ankang Basin were selected for comparative analysis of random forest regression (RFR), BP neural network and weighted fusion model (BP-RFR), and the performance of the model was evaluated using the coefficient of determination ([R2] mean absolute percentage error (MAPE) and mean square error (MSE). The results showed that the determination coefficients [R2]) of the predicted and measured values of BP-RFR, BP and RFR models were 0.954 5, 0.951 4 and 0.933 5, respectively, MAPE was 0.037 7, 0.045 1 and 0.091 8, MSE was 1.837 7, 1.961 1 and 2.686 8. Comprehensive analysis showed that the prediction accuracy of BP-RFR model was higher than that of BP neural network, followed by random forest regression (RFR) model. Therefore, the weighted fusion of results can improve the overall prediction accuracy of the model.
Keywords soil organic matter; random forest; BP neural network; results weighted fusion
近年來,隨著人工智能技術(shù)的快速發(fā)展,國內(nèi)外眾多學(xué)者廣泛使用機器學(xué)習(xí)方法與SOM含量預(yù)測相結(jié)合,如隨機森林(RF)、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(SVM)等方法來進行預(yù)測研究[1-2]。機器學(xué)習(xí)原理是對象及其相互關(guān)系的數(shù)學(xué)表示,其中隨機森林(RF)是由決策樹發(fā)展而來的一種自然的非線性建模工具,計算效率高具有對多元共線性不敏感易克服過度擬合等特點,能夠準(zhǔn)確刻畫變量間的非線性關(guān)系[3]。楊煜岑等[4]運用RF對陜西省周至縣農(nóng)耕區(qū)進行土壤SOM進行預(yù)測,其預(yù)測結(jié)果相關(guān)系數(shù)為0.782。BP神經(jīng)網(wǎng)絡(luò)作為成熟有監(jiān)督的機器學(xué)習(xí)算法具有操作簡單、可塑性好的優(yōu)點,但是BP神經(jīng)網(wǎng)絡(luò)是基于最速下降法或者擬牛頓法,因而會不可避免會導(dǎo)致陷入全局最優(yōu)或者過度擬合等缺點[5]。楊文靜等[6]使用BP神經(jīng)網(wǎng)絡(luò)對青藏高原土壤養(yǎng)進行評價得出模型R2效果較好。單一模型存在不同的缺陷,但也具有各自的優(yōu)勢,模型間不是相互間對立排斥,而是相互聯(lián)系和補充的。因此,有學(xué)者通過適當(dāng)?shù)姆绞綄我坏哪P瓦M行融合,充分利用各模型的優(yōu)勢來提高模型的預(yù)測精度和可靠性,如國佳欣等[7]采用PLSR-BP復(fù)合模型對紅壤有機質(zhì)含量進行反演,其結(jié)果表現(xiàn)優(yōu)于單一模型精度。
本研究以陜西安康盆地土壤SOM含量為研究對象,基于實測樣品化驗數(shù)據(jù),運用BP神經(jīng)網(wǎng)絡(luò)和隨機森林并將其結(jié)果加權(quán)進行模型融合方法來對土壤有機質(zhì)含量預(yù)測,根據(jù)模型預(yù)測結(jié)果對融合模型預(yù)測效果進行評價,為模型的可行性提供參考。
1 材料與方法
1.1 數(shù)據(jù)來源與預(yù)處理
樣點布設(shè)依據(jù)DZ/T 0295—2016《土地質(zhì)量地球化學(xué)評價規(guī)范》,按照1∶50 000布設(shè)采樣點,共設(shè)計采樣點位40個,采樣深度為0~20 cm。并在每個采樣點20~50 m附近進行“X”型多點等量混合采樣組合成一件樣品,樣品采集后自然晾干,剔除樹枝、根系、石塊、蟲體等雜質(zhì),過10~60目鋼篩后采用四分法混合留取做好標(biāo)記保存裝入樣品瓶。土壤pH值采用上海雷磁儀器廠PHS-3C酸度計測定;全氮和銨態(tài)氮、硝態(tài)氮測定分別使用凱氏定氮法和比色法;采用日本島津制造ICPS-7500型電感耦合等離子體發(fā)射光譜儀測定土壤全磷、全鉀;使用日本島津制造UV-2600紫外可見分光光度計測定土壤全硫、硫化物;采用日本島津制造AA-7000型原子吸收分光光度計測定土壤有機質(zhì)和腐殖質(zhì)。土壤各參數(shù)測定結(jié)果均符合相關(guān)標(biāo)準(zhǔn)方法的質(zhì)量控制與要求。
為預(yù)防化驗結(jié)果原始數(shù)據(jù)集具有一定的分布規(guī)律,將數(shù)據(jù)集隨機打亂,使得訓(xùn)練集和測試集的每一部分數(shù)據(jù)比較有代表性,模型學(xué)習(xí)曲線平滑,數(shù)據(jù)集隨機打亂可防止模型過擬合,提高模型的泛化能力。40個樣品數(shù)據(jù)以8∶2的比例劃分訓(xùn)練集和測試集,將pH、全氮、全磷、全鉀、全硫、硫化物、銨態(tài)氮、硝態(tài)氮、腐殖質(zhì)共9個參數(shù)作為模型的輸入?yún)?shù),有機質(zhì)作為模型的輸出參數(shù)。
歸一化方法泛指把數(shù)據(jù)特征轉(zhuǎn)換為相同尺度的方法,是一種無量綱處理手段,簡化計算,縮小量值的有效辦法。能夠使訓(xùn)練誤差達到最小,提高計算過程的收斂速度。對訓(xùn)練數(shù)據(jù)進行最大最小值歸一化處理,處理后的變量取值范圍為[0,1]之間,其計算公式如下:
1.2 模型建立
1.2.1 BP神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)是1種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),具有任意復(fù)雜的模式分類能力和優(yōu)良的多維函數(shù)映射能力而被廣泛運用。本研究以Python為編程軟件,BP神經(jīng)網(wǎng)絡(luò)隱藏層過多會導(dǎo)致模型復(fù)雜化,出現(xiàn)過擬合問題。3層網(wǎng)絡(luò)結(jié)構(gòu)能很好地滿足研究需求,所以本研究建立由輸入層、隱藏層和輸出層構(gòu)成的3層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。輸入層節(jié)點數(shù)為9個,輸出層系節(jié)點數(shù)為1。隱藏層節(jié)點數(shù)的過多或過少都會影響模型的預(yù)測效果,當(dāng)神經(jīng)網(wǎng)絡(luò)選擇合適的節(jié)點,可獲得更優(yōu)的預(yù)測效果。最佳隱藏層節(jié)點數(shù)計算公式如下:
1.2.2 機器學(xué)習(xí)模型構(gòu)建。基于預(yù)處理的數(shù)據(jù)集通過構(gòu)建支持向量回歸機(SVR)、K近鄰(KNN)、決策樹(DT)、隨機森林回歸(RFR)、Lasso回歸模型。運用訓(xùn)練數(shù)據(jù)集訓(xùn)練機器學(xué)習(xí)模型從中選擇最優(yōu)模型。
1.2.2.1 支持向量回歸機(SVR)。支持向量回歸機(SVR)是支持向量機(SVM)的重要應(yīng)用分支,是一種在高維特征空間中構(gòu)建線性決策函數(shù)的新型學(xué)習(xí)方法[8]。SVR回歸是找到一個回歸平面,讓一個集合的所有數(shù)據(jù)到該平面的距離最近。該模型是基于結(jié)構(gòu)風(fēng)險最小化的原理,能夠快速處理小樣本問題和非線性問題,能夠使建立的模型與實際情況間的偏差和錯誤概率最小。
1.2.2.2 K近鄰(KNN)。K近鄰(KNN)核心算法思想為如果一個樣本在特征空間中的K個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別[9]。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。使用KNN計算某個數(shù)據(jù)點的預(yù)測值時,模型會從訓(xùn)練數(shù)據(jù)集中選擇離該數(shù)據(jù)點最近的k個數(shù)據(jù)點,并且把他們的y值取均值,把該均值作為新數(shù)據(jù)點的預(yù)測值。
1.2.2.3 決策樹(DT)。決策樹(DT)算法是使用逼近離散函數(shù)值的思想,決策樹回歸就是根據(jù)特征向量來決定對應(yīng)的輸出值[10]。該模型簡單直觀,生成的決策樹很直觀, 對于異常值的容錯能力好,健壯性高等特點。
1.2.2.4 隨機森林回歸(RFR)。隨機森林回歸(RFR)是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。它通過對原始數(shù)據(jù)的隨機抽取多個樣本形成子數(shù)據(jù),每個子數(shù)據(jù)集進行決策樹建模組合成多個決策樹的預(yù)測模型,最后根據(jù)各個決策數(shù)模型的平均值來獲得最終預(yù)測結(jié)果[11]。
1.2.2.5 Lasso回歸。Lasso通過構(gòu)造一個懲罰函數(shù)得到一個較為精煉的模型,使得它壓縮一些系數(shù),同時設(shè)定一些系數(shù)為0[12],因此保留了子集收縮的優(yōu)點,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計。Lasso對于數(shù)據(jù)的要求是極其低的,具有很強的解釋力。
1.2.3 模型融合。模型融合是將多個訓(xùn)練模型按照一定的方法進行集成,這種方式具有構(gòu)成簡單,易于理解,增強模型效果等特點。模型融合的集成方法分為平均法、投票法、學(xué)習(xí)法。本研究使用平均法進行融合,根據(jù)各個模型的結(jié)果表現(xiàn)分配不同的權(quán)重,來改變其對最終結(jié)果的影響大小。結(jié)果加權(quán)融合具有容易理解、簡單高效和效果突出的特點,結(jié)果加權(quán)融合模型的預(yù)測能力強于單個模型。其計算公式如下:
1.3 模型效果評價指標(biāo)
為了評估BP神經(jīng)網(wǎng)絡(luò)、隨機森林(RF)以及結(jié)果加權(quán)融合模型(BP-RFR)的預(yù)測效果,本研究采用決定系數(shù)([R2]),平均絕對百分比誤差(MAPE)和均方誤差(MSE)來衡量實測值與預(yù)測的一致性[13]。
2 結(jié)果與分析
2.1 機器學(xué)習(xí)模型選擇
通過樣本數(shù)據(jù)集來構(gòu)建5種機器學(xué)習(xí)算法,來測試機器學(xué)習(xí)模型效果。這5種機器學(xué)習(xí)模型如下:支持向量機(SVR)、K近鄰(KNN)、決策樹(DT)、隨機森林回歸(RFR)、Lasso回歸。每個模型得到均方差結(jié)果如圖2所示。
通過對比各模型均方誤差,發(fā)現(xiàn)隨機森林回歸(RFR)模型表現(xiàn)出最佳MSE,這樣有利于和BP神經(jīng)網(wǎng)絡(luò)進行模型融合,提高模型的預(yù)測性能。
2.2 模型效果對比
使用公式(3)將BP神經(jīng)網(wǎng)絡(luò)和隨機森林(RFR)進行預(yù)測結(jié)果直接加權(quán)組成BP-RFR模型。通過對比BP、RFR和BP-RFR模型對土壤有機質(zhì)進行預(yù)測,3種模型土壤有機質(zhì)預(yù)測值與實際值的決定系數(shù)(R2)、平均絕對百分比誤差(MAPE)和均方誤差(MSE)進行誤差分析判斷模型預(yù)測能力如表2所示。
通過模型對比分析,BP-RFR模型要明顯優(yōu)于BP神經(jīng)網(wǎng)絡(luò)和隨機森林回歸(RFR)對土壤有機質(zhì)預(yù)測。BP神經(jīng)網(wǎng)絡(luò)預(yù)測SOM結(jié)果與RFR模型相比的MAPE和MSE分別下降了0.046 7、0.725 7,決定系數(shù)(R2)提升了0.017 9。BP-RFR模型預(yù)測SOM結(jié)果與BP神經(jīng)網(wǎng)絡(luò)模型相比的MAPE和MSE分別下降了0.007 4、0.123 4,決定系數(shù)(R2)提升了0.003 1。3種模型預(yù)測結(jié)果表明,BP-RFR模型在預(yù)測誤差、模型擬合度均優(yōu)于BP神經(jīng)網(wǎng)絡(luò)和隨機森林回歸(RFR)模型,能夠更好地捕捉自變量與SOM含量復(fù)雜的非線性關(guān)系。將各模型的預(yù)測結(jié)果進行反歸一化處理,將預(yù)測值映射回原來的量綱中。從圖3可以看出,BP神經(jīng)網(wǎng)絡(luò)模型個別點預(yù)測值能夠較好接近實測值,但BP-RFR模型整體上的預(yù)測值更加接近實測值,強于BP神經(jīng)網(wǎng)絡(luò)提高了模型的整體預(yù)測性能。
3 結(jié)論
本文構(gòu)建單一模型(RFR、BP)和結(jié)果加權(quán)融合模型(BP-RFR)預(yù)測SOM含量,比較分析各模型的預(yù)測精度,得出如下結(jié)論:BP-RFR模型預(yù)測精度最高,表現(xiàn)為決定系數(shù)([R2])為0.954 5,平均絕對百分比誤差(MAPE)和均方誤差(MSE)分別為0.037 7、1.837 7,均優(yōu)于單一模型。因此,可采用結(jié)果加權(quán)融合模型(BP-RFR)來預(yù)測土壤有機質(zhì)的含量。
4 致謝
感謝中國地質(zhì)調(diào)查局西安礦產(chǎn)資源調(diào)查中心田輝對本研究的樣品數(shù)據(jù)支撐,在此對“南水北調(diào)漢中流域陜西段水生態(tài)修復(fù)支撐調(diào)查”項目組成員一并致謝。
參考文獻
[1] HUANG D Y,LIU H T,ZHU L,et al. Soil organic matter determination based on artificial olfactory system and PLSR-BPNN[J]. Measurement Science and Technology,2021,32(3):035801.
[2] 張鑫,楊超,劉洪斌,等. 基于機器學(xué)習(xí)的植煙區(qū)土壤有機質(zhì)和全氮含量預(yù)測[J]. 煙草科技,2022,55(8):20-27.
[3] ZHANG H,WU P B,YIN A J,et al. Prediction of soil organic carbon in an intensively managed reclamation zone of eastern China:A comparison of multiple linear regressions and the random forest model[J]. Science of The Total Environment,2017,592:704-713.
[4] 楊煜岑,楊聯(lián)安,任麗,等. 基于隨機森林的農(nóng)耕區(qū)土壤有機質(zhì)空間分布預(yù)測[J]. 浙江農(nóng)業(yè)學(xué)報,2018,30(7):1211-1217.
[5] 韓磊,李銳,朱會利. 基于BP神經(jīng)網(wǎng)絡(luò)的土壤養(yǎng)分綜合評價模型[J]. 農(nóng)業(yè)機械學(xué)報,2011,42(7):109-115.
[6] 楊文靜,王一博,劉鑫,等. 基于BP神經(jīng)網(wǎng)絡(luò)的青藏高原土壤養(yǎng)分評價[J]. 冰川凍土,2019,41(1):215-226.
[7] 國佳欣,趙小敏,郭熙,等. 基于PLSR-BP復(fù)合模型的紅壤有機質(zhì)含量反演研究[J]. 土壤學(xué)報,2020,57(3):636-645.
[8] 陳思明,王寧,秦艷芳,等. 基于特征變量與支持向量機回歸克里格(SVRK)法的濕地土壤有機質(zhì)空間變異特征分析[J]. 土壤,2020,52(6):1298-1305.
[9] 毋雪雁,王水花,張煜東. K最近鄰算法理論與應(yīng)用綜述[J]. 計算機工程與應(yīng)用,2017,53(21):1-7.
[10] 楊學(xué)兵,張俊. 決策樹算法及其核心技術(shù)[J]. 計算機技術(shù)與發(fā)展,2007,17(1):43-45.
[11] 方匡南,吳見彬,朱建平,等. 隨機森林方法研究綜述[J]. 統(tǒng)計與信息論壇,2011,26(3):32-38.
[12] RANSTAM J,COOK J A. LASSO regression[J]. British Journal of Surgery,2018,105(10):1348.
[13] CHICCO D,WARRENS M J,JURMAN G. The coefficient of determination R-squared is more informative than SMAPE,MAE,MAPE,MSE and RMSE in regression analysis evaluation[J]. PeerJ. Computer Science,2021,7:e623.
(責(zé)編:張宏民)