王文川, 梅寶瀾, 李磊, 徐雷
(華北水利水電大學 水資源學院,河南 鄭州 450046)
氣候變化以及人類活動的加劇引發(fā)了水土流失、植被破壞、極端洪水等一系列問題,進而導致流域生態(tài)系統(tǒng)遭受了不同程度的破壞。因此,生態(tài)系統(tǒng)的健康狀況引起了人們的廣泛關注[1]。生態(tài)系統(tǒng)健康的概念產(chǎn)生于20世紀70年代,RAPPORT D J[2]在全球生態(tài)系統(tǒng)普遍退化的背景下講述了生態(tài)系統(tǒng)健康的內(nèi)涵。流域生態(tài)系統(tǒng)健康,一方面是指從生態(tài)系統(tǒng)自身出發(fā),其本身能夠保持結(jié)構(gòu)完整性、穩(wěn)定性以及自我修復性;另一方面是指人類活動與自然生態(tài)之間的相互影響,能夠促進人類經(jīng)濟社會和諧發(fā)展,充分發(fā)揮流域生態(tài)系統(tǒng)的服務功能。在流域生態(tài)系統(tǒng)健康備受重視的今天,對流域生態(tài)系統(tǒng)健康狀況進行評價,及時掌握流域生態(tài)健康狀況以及為人類社會發(fā)揮服務功能的情況,可為今后流域內(nèi)的水資源管理與保護、生物多樣性、流域可持續(xù)發(fā)展等提供有益的借鑒。
針對流域生態(tài)健康評價,國內(nèi)外學者對此進行了大量的研究。國外起步較早,如美國、英國、澳大利亞等國家建立了不同的評價標準體系[3-8],許多學者也從不同角度進行了研究[9-12]。國內(nèi)這方面的研究起步較晚,主要是對流域生態(tài)健康體系[13-15]以及評價方法的研究。其中,針對評價方法的研究主要包括層次分析法[16]、綜合指數(shù)法[17]、模糊物元模型法[18]、灰色關聯(lián)分析法[19]等。這些方法偏于受主觀因素的影響,且在流域影響因素較多、評價指標較多的情況下,這些方法對處理高維非線性樣本數(shù)據(jù)的適應能力不強[20]。隨著數(shù)據(jù)信息的不斷增加,刻畫流域生態(tài)系統(tǒng)健康的要求更加細致,需要更多的指標來衡量一個流域的生態(tài)系統(tǒng)健康情況,由此凸顯傳統(tǒng)評價方法的不足。因此,探討合適的評價方法就顯得十分必要。隨機森林算法是一種機器學習算法,該方法不同于指標賦權法,它不會造成主觀上的偏差;它能夠根據(jù)數(shù)據(jù)信息進行驅(qū)動,利用計算機強大的數(shù)據(jù)處理能力解決高維非線性數(shù)據(jù)樣本的問題;不需要做特征選擇,對數(shù)據(jù)的泛化能力強,即便是有一部分特征數(shù)據(jù)缺失,隨機森林算法仍能夠維持一定的準確度,并在計算過程中得出特征的重要性排序。
清水河是寧夏境內(nèi)直入黃河的第一大支流,對其進行流域生態(tài)系統(tǒng)評價可以判斷其健康狀況,并依據(jù)評價結(jié)果對其進行修復。習近平總書記于2019年9月18日提出,推進黃河流域生態(tài)保護和高質(zhì)量發(fā)展,已上升為國家重大發(fā)展戰(zhàn)略。保護好母親河是中華民族永續(xù)發(fā)展的大計,要從根本上解決黃河流域面臨的生態(tài)保護與社會經(jīng)濟發(fā)展之間的結(jié)構(gòu)性矛盾[21-22]。因此,本文以清水河流域生態(tài)系統(tǒng)健康評價為例,提出基于隨機森林算法的流域生態(tài)系統(tǒng)健康評價方法,更加準確地揭示清水河流域的生態(tài)健康狀況,以期為清水河流域生態(tài)保護和高質(zhì)量發(fā)展提供參考依據(jù),并為保護和恢復清水河流域生態(tài)系統(tǒng)健康提供理論支撐。
清水河是寧夏境內(nèi)入黃河的最大支流,發(fā)源于六盤山北端東麓沽源縣開城鄉(xiāng)黑刺溝,自南向北流經(jīng)寧夏的固原、同心縣城,在中寧縣泉眼山注入黃河,其流域形狀如圖1所示。地理位置在東經(jīng)105°00′~107°07′,北緯35°36′~37°37′,河道平均比降為1.49‰。清水河流域總面積為14 481 km2,其中寧夏境內(nèi)面積為13 511 km2,甘肅境內(nèi)面積為970 km2[23]。
圖1 清水河流域圖
本文研究范圍為清水河流域原州區(qū)段,選取7個控制斷面,分別為原州城區(qū)、三營鎮(zhèn)、頭營鎮(zhèn)、彭堡鎮(zhèn)、開城鎮(zhèn)、中河鄉(xiāng)以及寨科鄉(xiāng)。從生境結(jié)構(gòu)、水生生物、生態(tài)壓力3個方面進行評價,其中:生境結(jié)構(gòu)的評價指標為水質(zhì)狀況指數(shù)、枯水期徑流量占同期年均徑流量比例、河道連通性3項;水生生物的評價指標為大型底棲動物多樣性綜合指數(shù)、魚類物種多樣性綜合指數(shù)、特有性物種保持率3項;生態(tài)壓力的評價指標為水資源開發(fā)利用強度、水生生境干擾指數(shù)2項。將流域評價體系分為目標層、準則層、指標層3個層次,目標層即為流域生態(tài)系統(tǒng)的健康狀況,準測層即為生境結(jié)構(gòu)、水生生物、生態(tài)壓力3個方面,指標層即為上述8項指標。本文數(shù)據(jù)來源于文獻[24],其值見表1。
根據(jù)生態(tài)環(huán)境部發(fā)布的《地表水環(huán)境質(zhì)量評價方法》《河流生態(tài)調(diào)查技術方法》,文中將此次研究的8項指標的評價結(jié)果根據(jù)不同的標準劃分為優(yōu)秀、良好、一般、較差、差5個級別,具體見表2。
表1 清水河流域(原州區(qū)段)7個控制斷面的評價體系與數(shù)據(jù)
表2 清水河流域(原州區(qū)段)8項指標的評價等級
隨機森林算法是由加州大學伯克利分校的Leo Breiman提出的,屬于集成機器學習方法[25]。隨機建立多決策樹組成森林,決策樹之間無關聯(lián),每棵決策樹采用Bootstrap法進行有放回采樣,根據(jù)所有決策樹回歸目標的平均值作為最終回歸結(jié)果。隨機森林算法可以視為由大量弱回歸器(決策樹)集合而成的強回歸器。具體步驟如下,算法流程圖如圖2所示。
步驟1 構(gòu)建自助樣本集:基于bootstrap法從原始樣本中有放回地抽取樣本,得到m個自助樣本集。
步驟2 構(gòu)建決策樹和袋外數(shù)據(jù)集:利用步驟1得出的m個自助樣本集,分別構(gòu)建m棵決策樹,并將未選中的樣本組成m個袋外數(shù)據(jù)用于檢測。
步驟3 隨機選取屬性:每棵決策樹都有分叉節(jié)點,從n個屬性中隨機選取l個屬性(l 步驟4 遞歸分解:自頂向下地從每個分叉點進行劃分的候選屬性中,按照節(jié)點不純度最小的原則對每棵決策樹進行分解,直到滿足條件為止。 步驟5 得到結(jié)果:對每棵決策樹的結(jié)果求平均,得到整個隨機森林的最終結(jié)果。 在隨機森林算法中,決策樹數(shù)量與分叉數(shù)量這兩個參數(shù)對回歸精度影響較大。決策樹數(shù)量設置過小,容易造成隨機森林算法訓練的不夠充分,進而造成模型“欠擬合”;數(shù)值設置過大,則容易造成訓練過度,進而造成模型“過擬合”。分叉數(shù)量若設置過小,容易造成模型訓練過度,進而造成模型“過擬合”;若設置過大,容易造成模型訓練不足,進而造成模型“欠擬合”。無論是“欠擬合”還是“過擬合”均會影響模型的最終精度。 圖2 隨機森林算法流程圖 根據(jù)上文給出的清水河流域生態(tài)系統(tǒng)健康評價指標體系與數(shù)據(jù),可構(gòu)建基于隨機森林算法的流域生態(tài)系統(tǒng)健康評價模型。具體步驟如下,流程如圖3所示。 步驟1樣本數(shù)據(jù)集建立。根據(jù)表2的評價等級閾值,在每個區(qū)間內(nèi)生成200組樣本,隨機內(nèi)插到1 200組樣本中,再將5個評價等級與7個控制斷面數(shù)據(jù)列為12組數(shù)據(jù),共得到1 212組數(shù)據(jù),將此作為樣本數(shù)據(jù)集。 步驟2樣本設置。從1 212組數(shù)據(jù)集中,隨機選取600組樣本數(shù)據(jù)作為訓練樣本,其余612組樣本數(shù)據(jù)為測試樣本,其中評價等級與控制斷面數(shù)據(jù)需要放在測試樣本中。 步驟3隨機森林模型構(gòu)建。利用MATLAB R2016a軟件,安裝隨機森林工具箱,將樣本中的8項評價指標值作為輸入向量,評價等級作為輸出向量,建立“8輸入、1輸出”的基于隨機森林算法的流域生態(tài)系統(tǒng)健康評價模型。 步驟4模型參數(shù)設置。構(gòu)建決策樹,隨機選取屬性,設置分叉數(shù)量,進行遞歸分解。決策樹數(shù)量ntree與分叉數(shù)量mtry對模型結(jié)果影響較大,建立ntree從10到100每10棵遞增,mtry從1到10每1個遞增的循環(huán)計算模型,選取均方差作為誤差判斷標準,根據(jù)均方差最小值來選取最優(yōu)方案,輸出結(jié)果。通過指標分析,對其評價等級進行估計,將結(jié)果當作模型先驗輸入。 步驟5閾值設定。根據(jù)步驟4,選擇最優(yōu)的決策樹與分叉數(shù),并將測試樣本中5個評價等級的結(jié)果設置為閾值。 步驟6模型結(jié)果輸出。根據(jù)新的閾值設定,將7個待測樣本的輸出結(jié)果與閾值對比,得出最終評價結(jié)果。 步驟7主要影響因子判斷。將1~8分別設為水質(zhì)狀況指數(shù)、枯水期徑流量占同期年均徑流量的比例、河道連通性、大型底棲動物多樣性綜合指數(shù)、魚類物種多樣性綜合指數(shù)、特有性物種保持率、水資源開發(fā)利用強度、水生生境干擾指數(shù)。由于計算過程中指標的浮動對模擬結(jié)果的準確性、均方誤差以及重要性測度誤差均有影響,則對此進行排序,可識別出主要影響因子。 圖3 基于隨機森林算法的流域生態(tài)系統(tǒng)健康評價模型 模型計算結(jié)果如圖4—7所示。從圖4中可以看出,在10至100棵決策樹計算過程中,總是在分叉數(shù)量為5時誤差值達到最小,可認為針對該評價體系與評價指標在分叉數(shù)量達到5時,計算結(jié)果最優(yōu)。從圖5中可以看出,在決策樹數(shù)量達到50棵時,誤差值達到最小,則認為當決策樹為50棵時,計算結(jié)果最優(yōu)。 圖4 決策樹數(shù)量為10到100棵時,分叉數(shù)量對誤差的影響結(jié)果 圖5 決策樹數(shù)量對誤差的影響結(jié)果 圖6 清水河流域(原州區(qū)段)生態(tài)系統(tǒng)評價結(jié)果 通過計算可以得出:據(jù)評價標準所對應的結(jié)果值,判斷[0,1.172)為優(yōu)秀,[1.172,2.185)為良好,[2.185,3.124)為一般,[3.124,3.844)為較差,[3.844,4.752]為差。據(jù)此標準,由圖6可以判斷:原州城區(qū)和彭堡鎮(zhèn)的生態(tài)系統(tǒng)健康評價結(jié)果為差,但彭堡鎮(zhèn)的非常接近較差;三營鎮(zhèn)、頭營鎮(zhèn)的生態(tài)系統(tǒng)健康評價結(jié)果為較差,但頭營鎮(zhèn)的相對較好;開城鎮(zhèn)、中河鄉(xiāng)以及寨科鄉(xiāng)的為一般,其中開城鎮(zhèn)與寨科鄉(xiāng)的非常接近良好。 圖7(a)—圖7(c)分別表示8項因子對模擬準確度、均方誤差、重要性測度的影響。綜合來看:8項指標中,對評價結(jié)果影響程度較大的指標為水資源開發(fā)利用程度和枯水期徑流量占同期年均徑流量的比例,其次為大型地棲動物多樣性綜合指數(shù)和河道連通性,再次為水生生境干擾指數(shù)和水質(zhì)狀況指數(shù),影響最小的為魚類物種多樣性綜合指數(shù)和特有性物種保持率。 為驗證評價結(jié)果的合理性,用支持向量機模型對清水河流域生態(tài)系統(tǒng)進行健康評價,其模型計算過程可參考文獻[26]。得出的評價標準為:[0,0.970)為優(yōu)秀,[0.970,1.908)為良好,[1.908,2.948)為一般,[2.948,4.058)為較差,[4.058,5.066)為差。原州城區(qū)的生態(tài)系統(tǒng)健康評價結(jié)果為差,三營鎮(zhèn)、頭營鎮(zhèn)和彭堡鎮(zhèn)的評價結(jié)果為較差,開城鎮(zhèn)、中河鄉(xiāng)以及寨科鄉(xiāng)的為一般。與隨機森林算法結(jié)果的比較見表3。 由表3可以看出:兩種模型的評價結(jié)果中只有彭堡鎮(zhèn)的不同,隨機森林算法的結(jié)果為差,支持向量機模型的結(jié)果為較差。但從隨機森林算法計算的評價數(shù)值上來看,彭堡鎮(zhèn)的計算結(jié)果非常接近較差的標準。因此,這兩種方法的評價結(jié)果基本一致,說明提出的基于隨機森林算法的清水河流域生態(tài)系統(tǒng)健康評價方法是合理的、可靠的。 通過比較兩種機器學習方法對清水河流域生態(tài)系統(tǒng)的健康評價情況可知:隨機森林算法具有參數(shù)選取易、模型精度高、泛化能力強和計算簡便等優(yōu)點;支持向量機模型具有小樣本學習能力強、計算步驟簡便、可操作性強的優(yōu)點。隨機森林算法相較于支持向量機模型,其計算速度快且不需要對數(shù)據(jù)進行歸一化處理,在訓練過程中,能夠檢測不同特征之間的影響。因此,筆者認為隨機森林算法更加適用于處理這類問題。 本文基于隨機森林算法構(gòu)建了清水河流域(原州區(qū)段)生態(tài)系統(tǒng)健康評價模型,得到如下結(jié)論。 1)當隨機森林決策樹數(shù)量為50棵、分叉數(shù)量為5時,評價結(jié)果誤差最小。 2)原州城區(qū)與彭堡鎮(zhèn)的生態(tài)系統(tǒng)健康評價結(jié)果為差,三營鎮(zhèn)與頭營鎮(zhèn)的評價結(jié)果為較差,開城鎮(zhèn)、中河鄉(xiāng)以及寨科鄉(xiāng)的評價結(jié)果為一般。 3)水資源開發(fā)利用程度與枯水期徑流量占同期年均徑流量比例兩項指標對評價結(jié)果影響最為顯著,為此次評價的重要影響因子。 4)將隨機森林算法的評價結(jié)果與支持向量機模型的評價結(jié)果進行對比,二者基本一致。驗證了隨機森林算法用于流域生態(tài)系統(tǒng)健康評價的合理性和有效性。 5)隨著流域生態(tài)系統(tǒng)健康評價指標體系越來越完善,需要計算與分析的數(shù)據(jù)也會越來越多,隨機森林算法通過數(shù)據(jù)之間的潛在信息與關聯(lián)性,能夠高效、快捷地判斷當前流域生態(tài)系統(tǒng)的健康狀態(tài)。文中提出的方法可為今后流域生態(tài)系統(tǒng)健康評價提供一種新的途徑,也可為黃河流域生態(tài)保護與高質(zhì)量發(fā)展提供參考。2 清水河流域生態(tài)系統(tǒng)健康評價
2.1 模型構(gòu)建
2.2 模型計算結(jié)果
3 結(jié)果分析與討論
4 結(jié)語