摘要:為了提高水資源承載力評價的效率和準確性,提出了一種基于主成分分析(PCA)、遺傳算法(GA)和極限梯度提升樹(XGBoost)的指標評價模型。定義了以水資源、社會經濟、生態(tài)環(huán)境為子系統(tǒng)的14項評價指標;采用主成分分析法對評價指標進行降維處理;基于梯度提升決策樹對吉林省2011—2021年的水資源承載力進行評價分析,并利用遺傳算法對極限梯度提升樹中4個參數(shù)進行優(yōu)化。結果表明:經主成分分析簡化評價指標后,PCA-GA-XGBoost模型的相關系數(shù)等指標均優(yōu)于GA-BP、GA-SVM、GA-XGBoost和XGBoost;2011—2021年吉林省水資源承載力位于0.192~0.724,為先上升后下降再上升趨勢,承載力狀況逐年改善;利用模型內置的特征值重要度排序功能,識別得出重要度最大的指標為每公頃化肥施用量(0.530 7),是影響吉林省水資源承載力的關鍵因素。
關鍵詞:主成分分析;遺傳算法;極限梯度提升樹;水資源承載力;吉林省
中圖分類號:TV21 文獻標識碼:A 文章編號:1001-9235(2024)04-0098-09
Carrying Capacity Evaluation on Water Resources of Jilin Province Based on PCA-GA-XGboost Model
PANG Bowen1,2,LI Zhijun1,2*
(1.College of Hydraulic and Electrical Engineering,Heilongjiang University,Harbin 150080,China;
2.Institute of Cold Groundwater Research,Heilongjiang University,Harbin 150050,China)
Abstract: To improve the efficiency and accuracy of carrying capacity evaluation in water resources,this paper proposes an indicator evaluation model based on principal component analysis (PCA),genetic algorithm (GA),and eXtreme gradient boosting tree (XGBoost).Meanwhile,fourteen evaluation indicators are defined with water resources,socio-economics,and ecological environment employed as subsystems.PCA is adopted to reduce the dimensionality of the evaluation indicators.Additionally,based on XGBoost,this paper conducts an evaluation analysis on the carrying capacity of water resources from 2011 to 2021 and utilizes GA to optimize four parameters in XGBoost.The results show that after simplifying the evaluation indicators by PCA,the correlation coefficient of the PCA-GA-XGBoost model is better than GA-B,GA-SVM,GA-XGBoost,and XGBoost.The carrying capacity of water resources in Jilin Province from 2011 to 2021 is between 0.192 and 0.724,presenting a trend of first increasing,then decreasing,and finally increasing with improved carrying capacity situation.Meanwhile,the built-in function of eigenvalue importance ranking in the model is leveraged to conclude the fact that the indicator with the largest importance is identified as the applied fertilizer amount per hectare (0.530 7).
Keywords:principal component analysis;genetic algorithm;extreme gradient boosting tree;carrying capacity of water resources;Jilin Province
水資源短缺、水環(huán)境污染等問題是當今社會亟待解決的重點問題,如何處理好水資源供需矛盾是社會-自然和諧發(fā)展的關鍵。近年來,水資源承載力評價已成為區(qū)域水資源與社會經濟、生態(tài)環(huán)境協(xié)調發(fā)展能力的重要分析方法[1]。
為提高模型預測精度,國內外學者對水資源承載力評價方法和指標體系建立的改進創(chuàng)新層出不窮,如系統(tǒng)動力學模型、TOPSIS模型、云模型、水生態(tài)足跡等,但各種方法由于自身屬性的缺陷,都存在一定的局限性。如Marsalis等[2]采用系統(tǒng)動力學方法對拉斯維加斯農業(yè)水資源承載力進行預測。但系統(tǒng)動力學[3]是一種包含眾多信息復雜動態(tài)模型,其無法確定復雜系統(tǒng)中反饋關系不明顯反饋環(huán)之間的聯(lián)系,導致其結果對某些指標不敏感。TOPSIS法[4]只能對每個評價對象的優(yōu)劣進行排序,求得的最優(yōu)解未必是最接近理想點的解。近年來機器學習算法被廣泛應用于水資源綜合評價領域如BP神經網絡[5]、支持向量機[6]、隨機森林[7]等。XGBoost是新興的機器學習算法,是基于GBDT(梯度提升樹)的改良和工程實現(xiàn),以決策樹為基學習器的集成學習模型XGBoost有較強的非現(xiàn)象映射能力,可以更好對復雜非線性的指標評價體系進行預測分析。以其預測精度和靈活性,在氣象、工業(yè)、醫(yī)療和水資源領域有廣泛的應用,例如陳志月等[8]利用XGBoost、CatBoost模型預測江西地區(qū)水面蒸發(fā)量進行對比分析;Bhagat等[9]通過XGBoost模型預測澳大利亞灣金屬沉積物,并采用BP神經網絡和支持向量機進行驗證;張孟昕等[10]采用麻雀優(yōu)化算法(SSA)優(yōu)化XGBoost模型對拱壩未來的位移和變形程度預測和分析;Fakhri等[11]基于XGBoost模型耦合多種優(yōu)化算法預測不同類型混凝土的有效斷裂韌性。
因此,本文以提高水資源承載力評價模型預測精度和效率為目的,以2011—2021年的吉林省水資源為研究對象,提出了PCA-GA-XGBoost指標評價模型。其中主成分分析是針對水資源承載力評價指標因素信息重疊的特點,對評價指標進行降維處理,從而起到降低輸入模型的復雜度的作用;XGBoost模型中涉及眾多超參數(shù)的選擇,對預測結果影響較大。因此,本研究耦合了遺傳優(yōu)化算法,識別最優(yōu)的超參數(shù)組合以提高模型預測的準確性,以期對研究區(qū)水資源開發(fā)保護提供有利參考。
1 數(shù)據(jù)來源與研究方法
1.1 研究區(qū)概況
吉林省位于中國東北部地區(qū),中部轄區(qū)面積18.17萬km2,地勢由東南向西北傾斜,呈現(xiàn)東南高、西北低的特征。從東南向西北由濕潤氣候過渡到半濕潤氣候再到半干旱氣候。吉林省年均降雨量為400~600 mm,水資源時空分布不均勻,80%集中在夏季,東多西少,季節(jié)性、區(qū)域性缺水的情況時有發(fā)生。
1.2 數(shù)據(jù)來源
水資源承載力受社會經濟、生態(tài)環(huán)境、水資源3個方面影響。水資源量、供水量、污水回用率等數(shù)據(jù)來源于2011—2021年《吉林省水資源公報》,各產業(yè)GDP、人口數(shù)據(jù)來源于《吉林省統(tǒng)計年鑒》,化學需氧量(COD)排放數(shù)據(jù)來源于《中國能源統(tǒng)計年鑒》。
1.3 研究方法
1.3.1 評價指標體系構建
社會經濟、生態(tài)環(huán)境、水資源量是影響水資源承載力的主要因素。選取以下指標作為主要因素[12-13]:人均水資源量、產水模數(shù)、人均供水量、水資源開發(fā)利用率、森林覆蓋率、萬元工業(yè)增加值COD排放量、生態(tài)環(huán)境用水率、污水回用率、每公頃化肥施用量、人口密度、城鎮(zhèn)化率、萬元工業(yè)增加值用水量、萬元GDP用水量、農田灌溉用水定額。
本文將水資源承載力指數(shù)分為5個等級,Ⅰ(1.0,0.8)為優(yōu)秀、Ⅱ(0.8,0.6)為良好、Ⅲ(0.6,0.4)為臨界、Ⅳ(0.4,0.2)為較差、Ⅴ(0.2,0.0)為極差。評價指標分級標準主要根據(jù)以往研究[14-15]和國際標準。因評價對象為吉林省及其市級行政區(qū),水資源等指標有其區(qū)域特點,若嚴格參考上述標準可能會造成指標數(shù)據(jù)集過于集中的現(xiàn)象,影響評價準確度。因此在參考標準的基礎上依照研究區(qū)實際情況做部分修改,見表1。
1.3.2 主成分分析
主成分分析是被廣泛使用的數(shù)據(jù)降維方法,它通過降維將多個指標簡化為少數(shù)的主成分,可以反映原始指標中大部分信息[16]。
主要步驟如下:①假設存在n個樣本,每個樣本由m個指標組成,則樣本可表示為n行m列的矩陣,x1,1,x1,2…xn,m,對矩陣進行標準化處理得到矩陣Xij;②計算矩陣的相關系數(shù)矩陣Rm×m,計算特征值和特征向量,并將特征值λi由大到小排序并對應的特征向量αi;③主成分Fi=Xij×αi,主成分Fi彼此相互獨立;④采用式(1)計算各主成分的貢獻率和累計貢獻率,當累計貢獻率超過90%時,選擇這些主成分代替m個指標,形成新的指標體系,見式(2)。
式中 Ci——第i個主成分的貢獻率;Cs——累加到第s個主成分的累計貢獻率,取Cs≥90%。
1.3.3 極限梯度提升樹原理
極限梯度提升樹是基于加法模型和前向優(yōu)化算法的有監(jiān)督學習算法,XGBoost回歸算法是通過對初始基學習器迭代優(yōu)化殘差,再將多個基學習器預測結果累加作為輸出結果。其相比于梯度提升樹優(yōu)化了損失函數(shù),提高了模型的精度,并引入正則化項,控制樹模型的復雜度,防止過擬合[17]。其原理為:給定數(shù)據(jù)集D=(xi,yi),其中xi∈Rm,i∈1,2…n,n為樣本數(shù),m為指標數(shù),以CART回歸樹作為基學習器,構建第一個基學習器,在此基礎上迭代,每次迭代都學習一棵CART樹擬合之前回歸樹預測結果與真實值的殘差。最后將所有CART回歸樹進行累加作為輸出結果,見式(3)。
式中 i——當前K棵樹累加的預測值;ft(xi)——第t棵回歸樹;k-1i——前K-1棵回歸樹的預測值;fkt(xi)——當前優(yōu)化的回歸樹。
XGBoost的目標函數(shù)由損失函數(shù)和正則化項組成,損失函數(shù)為預測值和真實值的差值。
1.3.4 遺傳算法
遺傳算法是模仿達爾文進化論和遺傳學機理的自適應全局搜索優(yōu)化算法,將初始的不同個體通過適應度函數(shù)的選擇后,進行交叉、變異的操作篩選出優(yōu)秀的個體,不斷循環(huán)迭代直至搜索到適應度函數(shù)得分最高的個體。
1.3.5 PCA-GA-XGBoost模型
采用主成分分析得的簡化評價指標,將指標輸入到XGBoost模型,并以均方根誤差為適應度函數(shù),使用遺傳算法對樹的最大深度、學習率、每個決策樹訓練樣本占總樣本比例、特征采樣比例4個參數(shù)進行優(yōu)化,實現(xiàn)過程見圖1。
2 結果與討論
2.1 主成分分析
將2011—2021年吉林省水資源承載力評價指標數(shù)據(jù)輸入SPSS進行主成分分析。被提取的主成分及其貢獻率見表2,主成分因子成分矩陣見表3。
由表2、3可知:主成分F1累計貢獻率為62.148%,主要影響指標為x5、x10、x12、x13、x14。主成分F2累計貢獻率為80.878%,主要影響指標為x1、x2、x9。主成分F3累計貢獻率90.556%,主要影響指標為x7。
2.2 GA-XGBoost模型構建
以1.3.1節(jié)的評價指標劃分等級為準,在相鄰層級間生成15個隨機數(shù),對應其水資源承載力指數(shù)隨機數(shù)作為真實值[18]。共生成75個樣本,用于模型訓練。
采用遺傳算法優(yōu)化的XGBoost參數(shù)和尋優(yōu)范圍為:樹深度[3,15]、學習率[0,0.2]、特征采樣比例[0,1]、子節(jié)點最小樣本權重[0,1]。GA-XGBoost模型初始參數(shù)和優(yōu)化后參數(shù)見表4。
2.3 測試集預測結果分析
將測試集輸入模型進行評估,預測結果與真實值對比見圖2。發(fā)現(xiàn)該模型預測值與真實值評分近似,并具有同樣的走向趨勢,可以完成水資源承載力評價預測任務。
結合以往水資源承載力評價領域中應用的機器學習回歸模型[5-6],與本文模型進行對比分析。選擇GA-BP神經網絡、GA-SVM、GA-XGBoost和XGBoost模型分別進行訓練集訓練和測試集測試分析,并與本文模型進行對比。RMSE、MAE、MBE作為模型預測效果準確性評價指標。值越小說明預測結果和真實值之間的離散程度越小,模型預測的穩(wěn)定性越好,不同模型對比結果見圖3。
觀察圖2、3可知PCA-GA-XGBoost模型的RMSE、MAE、MBE均小于GA-BP神經網絡、GA-SVM、GA-XGBoost和XGBoost模型。PCA-GA-XGBoost模型的相關系數(shù)為0.940 1,優(yōu)于GA-BP(0.900 6)、GA-SVM(0.928 9)、GA-XGBoost(0.922 2)和XGBoost(0.884 8)。通過進一步計算模型平均絕對誤差百分比得到PCA-GA-XGBoost模型的預測準確度為87.84%,相比較GA-BP神經網絡、GA-SVM、GA-XGBoost和XGBoost模型分別提高了7.82%、6.75%、5.22%和7.58%。GA-BP、GA-SVM相較于PCA-GA-XGBoost模型準確度低的主要原因為BP神經網絡和SVM屬于單一機器學習模型,而XGBoost為集成機器學習模型,擁有更好的泛化能力和準確率。
2.4 吉林省水資源承載力評價
采用模型預測了吉林省及其主要城市2011—2021年的水資源承載力指數(shù),結果見表5。水資源承載力指數(shù)處于極差(2011)至良好(2021),整體處于上升趨勢。吉林省主要城市2011—2021年平均水資源承載力指數(shù)排序依次為吉林、延邊、白山、長春、白城、通化、松原、四平。各市年平均水資源承載力等級均處于Ⅲ(臨界),且在2018年后基本屬于Ⅱ(良好)。2011、2014年部分地區(qū)水資源承載力偏低的原因2011、2014年屬于枯水年,各地水資源量都低于多年平均水資源量的20%~40%,受水資源子系統(tǒng)的影響較大。在后續(xù)年份除白山市、延邊自治州和松原市承載力指數(shù)波動不大,其余地區(qū)基本呈上漲趨勢,從水資源承載力分區(qū)來看東部承載力略高于西部。
在XGBoost和隨機森林等以決策樹作為基學習器的加法模型中都具有計算特征值重要性的功能[19],通過gian值識別不同特征值在葉節(jié)點進行分裂時的重要程度并通過內置程序賦值輸出。水資源承載力受多種因素影響,且因素間可能存在復雜的內在聯(lián)系,對水資源承載力多個影響因素進行定量的重要度分析有助于深入理解水資源承載力時空演變的機理,XGBoost輸出結果見圖4??砂l(fā)現(xiàn)XGBoost輸出的特征值重要度與2.1主成分分析中通過不同主成分特征向量提取的特征值貢獻度排序大致相同,進一步證明了XGBoost重要性排序的穩(wěn)定性。結合實際分析,2011—2021年吉林省每公頃化肥施用量在634.8~744.6 kg之間,高于全國平均值的1.5~1.7倍左右,且玉米、大豆、水稻等主要作物化肥利用率低于40%,導致大量化肥未利用成分,通過地表徑流、下滲等方式流入水體,導致水體富營養(yǎng)化問題。但隨著當?shù)卣瞥龌试霎a減量行動后,利用有機肥、微生物新型肥料等替代化肥,2015年后吉林省化肥施用量呈現(xiàn)明顯負增長,2021年每公頃化肥施用量為634.8 kg,較2015年下降14.8%,是影響吉林市水資源承載力的關鍵因素。
將吉林省評價年份劃分為2個演變階段。第一階段為2011—2017年,這一階段水資源承載力處于極差Ⅴ、較差Ⅳ和臨界Ⅲ狀態(tài)。結合圖4分析,這一階段萬元工業(yè)增加值用水量為112.13萬~55.98 m3/萬元,萬元GDP用水量為169.68~115.96 m3/萬元,農田灌溉用水定額為14.74萬元~13.75萬m3/km2,此階段吉林省產業(yè)結構轉型還未完成,在工農業(yè)生產中節(jié)水技術不完善,且2014—2017年間全省化肥施用量達714.6萬~744.6 kg/hm2,導致水資源承載力偏低。第二階段為2018—2021年,此階段水資源承載力處于良好Ⅱ狀態(tài)。此階段萬元工業(yè)增加值用水量、萬元GDP用水量、農田灌溉用水定額較上一階段降低57.6%、30.4%、12.7%,且生態(tài)環(huán)境因子,如化肥施用量(634.8~712.63 kg/hm2),森林覆蓋率等指標有明顯提升,且2016年后豐水年偏多,水資源相對豐富,尤其在2020、2021年較多年均值提升23.8%、16.9%。
2.5 討論與建議
依據(jù)本文的分析評價結果,研究時段吉林省水資源承載力等級年度差異顯著。根據(jù)吉林省的水資源狀況以及面臨的問題,建議從以下方面提高水資源承載力水平。
a)發(fā)展高效節(jié)水灌溉制度,繼續(xù)推進化肥增產減量計劃。吉林省作為中國農業(yè)大省,農業(yè)用水量占全省總用水量的70%左右,因此,繼續(xù)發(fā)展農業(yè)現(xiàn)代化,進一步向廣大農村推廣農業(yè)節(jié)水工程,提高農村居民的節(jié)水意識,是提高農業(yè)用水效率的重要手段。此外增產減肥行動的開展已經取得一定成效,建議繼續(xù)研發(fā)新型可替代肥料,將農業(yè)水污染程度進一步降低。
b)合理調整產業(yè)結構,降低社會經濟用水。吉林省中部地區(qū),如長春市、吉林市是社會經濟發(fā)展中心,城市及重工業(yè)供水壓力較大。應分析其產業(yè)結構的合理性,適當調整耗水量大,技術相對落后的產業(yè),發(fā)展工業(yè)水重復利用率高的產業(yè)及設備。
c)明確水資源開發(fā)要求,建立預警監(jiān)測機制。規(guī)定水資源開發(fā)上限,完善不同產業(yè)用水制度。定期監(jiān)測水資源承載力水平,對超標區(qū)域預警管控。
3 結論
本文通過PCA降低冗余指標個數(shù),并將評價指標輸入至GA-XGBoost模型中對吉林省及其主要城市水資源承載力進行綜合評價。主要結論如下。
a)對比發(fā)現(xiàn)PCA-GA-XGBoost模型R2、RMSE、MAE、MBE優(yōu)于GA-BP神經網絡、GA-SVM、GA-XGBoost、XGBoost等模型,證明該模型在水資源能承載力研究中有較高適用性。但本文提出的模型仍有不足之處,XGBoost屬于黑箱模型,其做出預測的過程是不可見的,相對其他方法預測結果的可解釋性較差,除模型傳統(tǒng)的重要性排序外,在后續(xù)的研究中還需融合其他的解釋模型增加預測結果的可分析性。
b)吉林省2011—2021年水資源承載力指數(shù)為0.192~0.724,基本為上升趨勢,2016年后增長明顯。分區(qū)水資源承載力指數(shù)除白城市、延邊自治州和松原市變化幅度偏小外,其他地區(qū)基本呈上升趨勢,以空間尺度分析吉林省水資源承載力為東高西低。
c)通過重要度排序發(fā)現(xiàn),影響吉林省水資源承載力提升的關鍵因素主要為農業(yè)、工業(yè)用水壓力及農業(yè)水污染問題。因此,應分析其影響因素,提出針對性策略,使吉林省有限的水資源可以在社會、經濟、環(huán)境間達到可持續(xù)發(fā)展、相互促進協(xié)調。
參考文獻:
[1]李雨欣,薛東前,宋永永.中國水資源承載力時空變化與趨勢預警[J].長江流域資源與環(huán)境,2021,30(7):1574-1584.
[2]MASHALY A F,F(xiàn)ERNALD A G.Identifying Capabilities and Potentials of System Dynamics in Hydrology and Water Resources as a Promising Modeling Approach for Water Management[J].Water,2020,12(5):1432-1435.
[3]SUN B Y,YANG X H.Simulation of Water Resources Carrying Capacity in Xiongan New Area Based on System Dynamics Model[J].Water,2019,11(5).DOI:10.3390/w11051085
[4]張修宇,曹彥坤,包添豪,等.基于組合權重TOPSIS模型的河南省引黃受水區(qū)水資源承載力研究[J].人民黃河,2023,45(7):73-78.
[5]左朝暉,李紹康,楊津津,等.基于GA-BP神經網絡的頁巖氣開發(fā)區(qū)域水資源承載力研究[J].環(huán)境工程技術學報,2021,11(1):194-201.
[6]龐博文,李治軍.基于SD-SVM模型的遼寧省水資源承載力發(fā)展趨勢預測[J].農業(yè)與技術,2023,43(15):101-108.
[7]陸佳慧.基于隨機森林算法的湖北省水資源承載力評價模型及其應用[J].湖北農業(yè)科學,2020,59(13):72-76.
[8]陳志月,吳立峰,劉小強,等.基于GPR、CatBoost、XGBoost三種模型預測江西地區(qū)水面蒸發(fā)量[J].水資源與水工程學報,2020,31(6):116-125,131.
[9]BHAGAT S K ,TIYASHA T ,KUMAR A ,et al.Integrative artificial intelligence models for Australian coastal sediment lead prediction:An investigation of in-situ measurements and meteorological parameters effects[J].Journal of Environmental Management,2022,38(8):11-19.
[10]張孟昕,陳波,劉偉琪,等.SSA-XGBoost與時空特征選取的大壩變形預測模型[J].水力發(fā)電學報,2023,42(6):1-14.
[11]FAKHRI D ,KHODAYARI A ,MAHMOODZADEH A .Prediction of Mixed-mode I and II effective fracture toughness of several types of concrete using the extreme gradient boosting method and metaheuristic optimization algorithms[J].Engineering Fracture Mechanics,2022,276(8):11-18.
[12]薛穎博.黃河流域水資源承載力與利用效率耦合診斷分析[D].太原:山西財經大學,2023.
[13]李治軍,董智,陳末,等.基于模糊分析法的合肥市水資源承載力評價[J].水電能源科學,2020,38(2):44-46.
[14]薛晴,楊侃.基于BP神經網絡-系統(tǒng)動力學耦合模型的江蘇省水資源承載力預測與調控研究[J].水利水電技術(中英文),2022,53(11):86-99.
[15]王濤,李治軍.基于PSO-SVM模型的黑龍江省水資源承載力評價[J].人民珠江,2023,44(9):51-60.
[16]王雪,謝淼,周玲菲,等.基于成分數(shù)據(jù)處理的主成分分析研究[J].科學技術創(chuàng)新,2023(18):94-98.
[17]楊鶴,馬洪波,孫韋男,等.基于XGBoost算法的吉林省強對流天氣分類識別研究[J].氣象災害防御,2023,30(2):28-33.
[18]曹敬椿,盧敏.基于麻雀搜索算法優(yōu)化支持向量機的區(qū)域水資源安全評價[J].水電能源科學,2023,41(5):52-54.
[19]張欣怡,戴成元,李微雨,等.基于TPE-XGBoost算法的再生粗骨料混凝土抗壓強度預測模型[J].建筑科學與工程學報,2023,40(5):1-13.
(責任編輯:李澤華)