宋鵬超
(遼寧省葫蘆島水文局,遼寧 葫蘆島 125000)
近幾年,隨著經(jīng)濟的發(fā)展,人們對于生活環(huán)境的要求變得越來越高,特別是在追求生態(tài)、自然生態(tài)方面上。因此,必須牢固梳理“安全、景觀、資源、環(huán)境”的理念建設(shè)生態(tài)型河道,從而實現(xiàn)兼顧生態(tài)、景觀與環(huán)境的功能性河道,將水資源利用、濱河景觀、防洪安全與河道整治相結(jié)合,建設(shè)以“清、疏、建、拆、綠、管”為主要內(nèi)容的綜合型河道。
六股河發(fā)源于葫蘆島市建昌縣玲瓏塔鄉(xiāng)北婁子山,源頭海拔高程1092m,全長153km,于寬邦鎮(zhèn)大河西村入綏中縣,成為興城市和綏中縣的界河,其河長64km,于小莊子鄉(xiāng)大漁場流入渤海。六股河水系整體呈南北寬,東西窄,形似牽牛花,該水系地勢西北高,東南低,平均海拔高程200m,沿岸土壤以黃色為主,流域內(nèi)多種植果樹,大田,河床組成以卵石,粗沙為主,河網(wǎng)由若干小溪構(gòu)成,中上游有馬道子中型水庫一座,中下游有龍屯大型水庫一座,小(1)、小(2)型水庫六座均分布于中下游。各種引水設(shè)施及用水工程沿岸分布,以灌溉及生活供水為主。六股河水資源對葫蘆島市經(jīng)濟發(fā)展和城市建設(shè)起著重要支撐作用,水生態(tài)健康狀況直接關(guān)系著城市未來發(fā)展。因此,研究評估六股河水生態(tài)健康狀況,對河流水生態(tài)保護和水資源管理提供參考依據(jù)。
隨機森林算法(RF)是一種具有較強數(shù)據(jù)挖掘、泛化以及非線性模擬能力的智能算法,該算法由多個決策樹組成森林,通過分類預(yù)測投票獲取最終的評價結(jié)果及分類,其特點是利用有放回的隨機抽樣方式對每個決策樹產(chǎn)生訓(xùn)練集,同時每個節(jié)點劃分時利用當前一定個數(shù)的屬性進行決策,可以更好地保證問題的客觀性[1]。
對于每個節(jié)點劃分的待優(yōu)選屬性集Di(i=1,2,…,n),可以隨機選擇當前可利用的F個屬性,最佳分類屬性可以按照信息增益率進行確定,如果樣本i占集合D的比例為P,其信息熵Entropy(D)可以表示為:
(1)
樣本集合T在特征A作用下被轉(zhuǎn)變成k個部分,該條件下的信息熵Entropy(DA)、信息增益Gain(D,A)、信息值SplitEntropy(D,A)和信息增益率GainRation(D,A)的計算式為[2]:
(2)
(3)
(4)
(5)
采用隨機森林算法在評價水生態(tài)健康時可能會存在數(shù)據(jù)不平衡和屬性特征重要性不足的問題。因此,研究提出一種改進的隨機森林算法(IRF),通過將節(jié)點屬性隨機選擇與信息值相結(jié)合來保證優(yōu)化方案的合理性。根據(jù)信息值計算屬性特征的重要度,按照信息值將屬性空間劃分成強、弱相關(guān)部分,在此基礎(chǔ)上選擇節(jié)點屬性。其中,目標類別屬性Y與屬性X之間的相關(guān)性一般利用信息值(IV)描述,其表達式為:
(6)
式中:Pi為目標類別Y=y在屬性X=xi時的概率,Pi′為目標類別Y≠y在X=xi時的概率;n為類別數(shù)量。
為了防止出現(xiàn)信息重復(fù)冗余的情況,選取的參評指標數(shù)量不宜過多,并且要最大程度地反映多個維度[6]。文章充分考慮各層面影響因素,將各影響因素劃分為四大類,并進一步篩選出各類影響指標,從而更好地分析河流水生態(tài)健康狀況如表1所示。
表1 六股河水生態(tài)健康評價體系
根據(jù)葫蘆島市生態(tài)水系規(guī)劃報告和健康河流診斷指數(shù)相關(guān)研究,將河流水生態(tài)健康劃分成病態(tài)、微病態(tài)、亞健康、微健康、健康5個等級,對應(yīng)的指數(shù)依次為1、2、3、4、5,各指標等級標準如表1所示。
對六股河2018—2020年水生態(tài)健康狀況考慮利用改進的IRF算法進行評價,按照以下流程進行計算分析:
1)選擇檢驗和訓(xùn)練樣本。為了評價水生態(tài)健康狀況,利用健康指數(shù)調(diào)控模型輸出,并生成300組樣本[7]。將評價標準分成5個等級,每個評價標準生成60組樣本,其輸出模式及樣本組數(shù)如表2所示。
表2 設(shè)計樣本組與期望輸出
2)數(shù)據(jù)預(yù)處理。為消除各指標數(shù)量級或量綱不同而帶來的不可通透性,必須先歸一化處理各指標初始數(shù)據(jù)。對于正向(越大越優(yōu)型)、負向(越小越優(yōu)型)指標的預(yù)處理公式如下:
(7)
式中:x、x′為初始數(shù)據(jù)和歸一化值;xmax、xmin為指標閾值的上限與下限值。
3)建立IRF模型。采用自帶的工具集合和Matlab軟件構(gòu)建RF模型,對隨機選擇節(jié)點屬性時利用信息值優(yōu)化模型。模型輸入為訓(xùn)練樣本經(jīng)預(yù)處理后的數(shù)值,輸入項18個,輸出為目標輸出健康指數(shù),輸出項1個,從而建立18-1映射關(guān)系的模型,改進隨機森林算法的關(guān)鍵就是有效處理該映射過程。研究以相同的方式建立傳統(tǒng)算法(RF)和神經(jīng)網(wǎng)絡(luò)模型(ANN-RBF),通過比較運算效率判定IRF算法的效率和適用性[8]。
4)訓(xùn)練檢驗。本研究通過訓(xùn)練、檢驗樣本對IRF、RF和ANN-RBF模型利進行運算,采用運行時間(RT)、最大(MREA)和平均(AREA)相對誤差絕對值評價模型的運算效果及性能。對比分析模型運行100次的各性能指標,并以運算100次時CPU消耗的時間作為運行時間。為了達到最優(yōu)的運算性能,采用網(wǎng)格搜索法來測試每個模型的主要影響參數(shù)(決策樹、分裂特征數(shù)、期望誤差和徑向基函數(shù)),并對比分析各模型性能參數(shù)如表3所示。
表3 不同模型性能評價
5)模型性能評價。從運行時間、最大、平均相對誤差絕對值上比較各模型的優(yōu)缺點,結(jié)果表明IRF模型具有較強的泛化能力和高計算精度,并且運算速度更快,有助于節(jié)省運算的資源和時間。因此,對六股河水生態(tài)健康評估改進的IEF模型具有較好適用性與可靠性。
6)實例分析。統(tǒng)計收集2018—2020年六股河相關(guān)指標數(shù)據(jù)如表4所示,將歸一化處理后的數(shù)據(jù)輸入已訓(xùn)練好的IRF模型,應(yīng)用Matlab軟件計算評價2018—2020年六股河水生態(tài)健康狀況如表4所示。
表4 2018—2020年六股河水生態(tài)健康狀況
結(jié)果表明,2018—2020年六股河水生態(tài)健康總體呈現(xiàn)出好轉(zhuǎn)趨勢,健康指數(shù)從2018年的2.25不斷增大到4.42健康狀況從微病態(tài)轉(zhuǎn)變成微健康水平。葫蘆島市政府及環(huán)保、水利等部門按照“一年初見成效、三年大變樣、五年基本完成”的總體目標,針對六股河實施了一系列生態(tài)治理措施,恢復(fù)了河道自然行洪能力,維護與恢復(fù)河流生態(tài)、美化環(huán)境、改善水質(zhì)及遏制沙塵。對河道沿岸重點保護地段進行堤岸工程治理,達到生態(tài)宜居城鎮(zhèn)標準;實施沿河整修工程,按現(xiàn)代化城鎮(zhèn)規(guī)劃標準維修、加固、改造破損嚴重的沿河、跨河建筑物;實施河道兩岸綠化工程,全面提升河流水質(zhì)和沿岸景觀,實現(xiàn)河道景觀、功能與生態(tài)的統(tǒng)一,將六股河打造成“水清、岸綠、景美”的城鄉(xiāng)水環(huán)境,經(jīng)調(diào)查分析治理成效顯著[9-12]。因此,文章評價結(jié)果準確反映了六股河近幾年水生態(tài)實際變化情況,改進的隨機森林算法對河流水生態(tài)健康狀況評價具有較強適用性與可靠性。
文章針對傳統(tǒng)算法可能存在的數(shù)據(jù)不平衡和屬性特征重要性不足的問題,提出一種改進的隨機森林算法評價2018—2020年六股河水生態(tài)健康狀況。結(jié)果表明,2018—2020年六股河水生態(tài)健康總體呈好轉(zhuǎn)趨勢,從最初的微病態(tài)逐漸轉(zhuǎn)變成微健康水平,這主要與近幾年葫蘆島市針對六股河實施一系列的生態(tài)治理措施有關(guān)。評價結(jié)果可以準確反映了六股河水生態(tài)實際變化情況,改進的隨機森林算法對河流水生態(tài)健康狀況評價具有較強適用性與可靠性,可以為河流水生態(tài)保護和水資源管理提供指導(dǎo)參考。