葛 強(qiáng)
(北京大學(xué)城市與環(huán)境學(xué)院,北京 100871)
可持續(xù)水資源管理是當(dāng)今世界水問(wèn)題研究的熱點(diǎn),也是中國(guó)水資源可持續(xù)利用發(fā)展的重大需求問(wèn)題??沙掷m(xù)發(fā)展是一個(gè)多系統(tǒng)、多層次、多指標(biāo)的大系統(tǒng)。在國(guó)內(nèi)隨著水資源承載力概念的研究,許多學(xué)者從20 世紀(jì)90 年代也開(kāi)展了水與可持續(xù)利用的相關(guān)研究,縱觀中國(guó)水資源時(shí)空分布特點(diǎn)及開(kāi)發(fā)利用現(xiàn)狀,水資源可持續(xù)發(fā)展定義為在選擇水資源相關(guān)影響因素的基礎(chǔ)上,構(gòu)建科學(xué)合理的評(píng)價(jià)指標(biāo)體系,制定符合實(shí)際區(qū)域情況的評(píng)價(jià)指標(biāo)分級(jí)標(biāo)準(zhǔn),運(yùn)用一定的評(píng)價(jià)方法,來(lái)判斷水資源可持續(xù)利用系統(tǒng)的發(fā)展水平,為水資源優(yōu)化配置與可持續(xù)利用發(fā)展提供科學(xué)依據(jù)和決策支持。葛強(qiáng)[1]等人以云南高原典型流域?yàn)檠芯繀^(qū)域構(gòu)建評(píng)價(jià)指標(biāo)體系,運(yùn)用主成分分析法進(jìn)行水資源承載力與可持續(xù)利用評(píng)價(jià);陳寧[2]等人界定了水資源可持續(xù)發(fā)展的概念,建立3個(gè)層次體系的16個(gè)可持續(xù)發(fā)展評(píng)價(jià)指標(biāo),并提出可行性建議;何丙能[3]等人認(rèn)為水資源開(kāi)發(fā)利用能獲得最大的經(jīng)濟(jì)效益、社會(huì)效益和生態(tài)效益,滿足工農(nóng)業(yè)持續(xù)發(fā)展和人民生活日益提高對(duì)水量水質(zhì)的要求;同時(shí)又有一個(gè)良好的生態(tài)環(huán)境,使經(jīng)濟(jì)建設(shè)和水資源開(kāi)發(fā)利用、保護(hù)同步發(fā)展。李強(qiáng)[4]等人認(rèn)為水資源可持續(xù)利用是指通過(guò)協(xié)調(diào)水資源價(jià)值的當(dāng)代利用與后代利用、文中區(qū)域利用與其他區(qū)域利用,協(xié)調(diào)水資源系統(tǒng)的投入與產(chǎn)出,協(xié)調(diào)水資源利用的經(jīng)濟(jì)效益、社會(huì)效益與生態(tài)環(huán)境效益,協(xié)調(diào)水資源利用與其他資源利用之間的關(guān)系,來(lái)實(shí)現(xiàn)生態(tài)完整、社會(huì)公平、經(jīng)濟(jì)發(fā)展的多個(gè)目標(biāo)與水資源系統(tǒng)的持續(xù)、高效、協(xié)調(diào)運(yùn)作。
根據(jù)研究區(qū)域的特點(diǎn)和社會(huì)經(jīng)濟(jì)的發(fā)展?fàn)顩r,考慮到新疆奎屯河特殊的地理區(qū)域,水資源影響因素在新疆地區(qū)的重要性出發(fā),以奎屯河為研究區(qū)域,運(yùn)行隨機(jī)森林模型算法,進(jìn)行水資源綜合評(píng)價(jià)研究,對(duì)研究區(qū)域的水資源可持續(xù)利用具有一定的科學(xué)指導(dǎo)。
奎屯河流域位于新疆天山北部,準(zhǔn)噶爾盆地南部,位于東經(jīng)83°22′00″~85°47′00″,北緯43°30′00″~47°04′00″,地處于天山北坡西緣的“金三角”經(jīng)濟(jì)帶,以石油化工和農(nóng)業(yè)為基礎(chǔ),人均GDP達(dá)到15 506元,有效灌溉面積為18.49萬(wàn)hm2。流域水系由奎屯河、四棵樹(shù)河、古爾圖河3條河流組成,總流域面積2.83萬(wàn)km2,多年平均徑流量為12.58億m3。水資源量為17.71億m3,多年平均降水量161.5 mm,流域降水在時(shí)空上分布不均勻。流域氣候干燥,多年平均蒸發(fā)量1 785 mm,年平均氣溫在4℃~7℃,全年實(shí)際日照時(shí)數(shù)為2 600~8 000 h,屬大陸性干旱氣候。
隨機(jī)森林(Random Forest,RF)是以統(tǒng)計(jì)學(xué)原理為基礎(chǔ)的組合分類智能算法模型,是一種非線性的建模工具,在建模的過(guò)程過(guò)不需要處理原始數(shù)據(jù)標(biāo)準(zhǔn)化或者歸一化的量綱不統(tǒng)一問(wèn)題,可以把組合分類的影響縮小到最小,具有模型參數(shù)設(shè)置少和較強(qiáng)的數(shù)據(jù)挖掘能力,準(zhǔn)確性和運(yùn)算效率高的特點(diǎn),同時(shí)能夠解釋各個(gè)評(píng)價(jià)指標(biāo)的重要性。
隨機(jī)森林分類是由多個(gè)分類樹(shù)組合而成的組合模型,其結(jié)果是由多個(gè)分類結(jié)果組合而成,本文主要是采用投票表決法來(lái)說(shuō)明最優(yōu)分類,計(jì)算公式如下:
式中l(wèi)——輸入變量分類結(jié)果;k——決策樹(shù)的數(shù)目;I——示性函數(shù);nhi,c——樹(shù)對(duì)類c的分類結(jié)果;nhi——樹(shù)的節(jié)點(diǎn)數(shù)。
模型的最終分類結(jié)果為:
式中H(x)——組合分類模型;hi(x)——單個(gè)分類決策模型。
根據(jù)水資源評(píng)價(jià)的定義和內(nèi)涵為基礎(chǔ),考慮水資源評(píng)價(jià)的影響因素及建立的評(píng)價(jià)指標(biāo)體系能夠反應(yīng)系統(tǒng)關(guān)系的真實(shí)情況,提供該流域可持續(xù)發(fā)展的可靠性支持,保證該流域的可持續(xù)發(fā)展的道路不偏離預(yù)期軌跡,同時(shí)也能滿足最嚴(yán)格水資源管理的要求,依照“科學(xué)性、可操作性、代表性、指標(biāo)量化”等選取原則,盡可能包括系統(tǒng)內(nèi)的主要影響因素,同時(shí)參考了奎屯河流域水資源相關(guān)文獻(xiàn)[11-12],共選取8個(gè)評(píng)價(jià)指標(biāo)作為輸入變量,充分解釋水資源評(píng)價(jià)的影響因素。
水資源可持續(xù)利用評(píng)價(jià)指標(biāo)等級(jí)標(biāo)準(zhǔn)確定主要是通過(guò)以下三種方式:①參考國(guó)家標(biāo)準(zhǔn)以及國(guó)家對(duì)某些指標(biāo)發(fā)展的規(guī)劃值來(lái)確定標(biāo)準(zhǔn)值;②依據(jù)現(xiàn)有理論分析并結(jié)合研究區(qū)域的實(shí)際典型特征來(lái)確定標(biāo)準(zhǔn)值;③參考現(xiàn)有的文獻(xiàn)資料或?qū)?jīng)驗(yàn)豐富的專家進(jìn)行咨詢來(lái)確定標(biāo)準(zhǔn)值。具體評(píng)價(jià)等級(jí)標(biāo)準(zhǔn)見(jiàn)表1。
表1 水資源可持續(xù)利用評(píng)價(jià)等級(jí)標(biāo)準(zhǔn)值
參考新疆奎屯河流域水資源調(diào)查評(píng)價(jià)與水資源優(yōu)化配置分析的評(píng)價(jià)指標(biāo)體系,根據(jù)新疆水資源公報(bào)與新疆統(tǒng)計(jì)年鑒等相關(guān)資料的收集,考慮流域具體的實(shí)際情況,人均水資源量、供水模數(shù)、農(nóng)業(yè)灌溉利用系數(shù)等指標(biāo)具有很重要的參考性和代表性,因此,選取2016—2017現(xiàn)狀年的數(shù)據(jù)為原始基礎(chǔ)數(shù)據(jù),進(jìn)行水資源可持續(xù)利用評(píng)價(jià)計(jì)算。
3.3.1 樣本選取
樣本的選取是隨機(jī)森林(Random Forest,RF)模型構(gòu)造的重要因素,樣本質(zhì)量也決定了水資源評(píng)價(jià)的效果。根據(jù)流域水資源利用工程建設(shè)、引用水現(xiàn)狀、生態(tài)環(huán)境變化等情況的綜合考慮,以2016—2017現(xiàn)狀年為時(shí)間節(jié)點(diǎn),采用隨機(jī)生成的辦法在流域被對(duì)各個(gè)評(píng)價(jià)指標(biāo)等級(jí)標(biāo)準(zhǔn)閾值中生成30組樣本,其中24組作為訓(xùn)練樣本,6組作為檢驗(yàn)樣本,通過(guò)人工樣本點(diǎn)識(shí)別,將樣本觀測(cè)點(diǎn)作為一個(gè)樣本集,其數(shù)據(jù)值作為基礎(chǔ)數(shù)據(jù),進(jìn)行初步數(shù)據(jù)計(jì)算和檢驗(yàn)結(jié)果后的分析。通過(guò)大量數(shù)據(jù)的分析,隨機(jī)森林(Random Forest,RF)模型對(duì)數(shù)據(jù)的量綱不統(tǒng)一性并不敏感,不需要進(jìn)行標(biāo)準(zhǔn)化處理。
表2 樣本數(shù)據(jù)評(píng)價(jià)值
能夠客觀合理地評(píng)價(jià)隨機(jī)森林(RF)模型的分類性能,選擇分類評(píng)價(jià)準(zhǔn)確率作為分類性能評(píng)價(jià)的指標(biāo),其中,分類評(píng)價(jià)準(zhǔn)確率是模型的分類預(yù)測(cè)值與真實(shí)值的差異程度,是由正確分類的樣本數(shù)與總樣本數(shù)的比值,比值越大,表明所選用數(shù)學(xué)模型的分類能力就越強(qiáng)。為了避免選取樣本的偶然性對(duì)樣本數(shù)據(jù)造成的不準(zhǔn)確定性結(jié)果,采用重復(fù)交叉的訓(xùn)練方法進(jìn)行分析驗(yàn)證,樣本數(shù)據(jù)評(píng)價(jià)值見(jiàn)表2。
3.3.2 模型實(shí)現(xiàn)
通過(guò)Random Forest軟件程序包進(jìn)行模型編程,隨機(jī)森林(Random Forest,RF)模型主要包括了2個(gè)實(shí)現(xiàn)參數(shù),一個(gè)是模型中決策樹(shù)的數(shù)量(Nt),另一個(gè)是決策樹(shù)節(jié)點(diǎn)待選劃分變量(Mt)。對(duì)于一般的分類來(lái)說(shuō),Nt值越大,擬合效果就越小,常規(guī)的取值建議大于100個(gè);Mt值是每次分割中隨機(jī)選取候選變量的個(gè)數(shù),其數(shù)值越大,子模型的差異性就越小,通過(guò)分析比較,方差誤差較小和變量誤差估計(jì)最小時(shí),決策樹(shù)的數(shù)量Nt取Nt=105,決策樹(shù)節(jié)點(diǎn)待選劃分變量Mt取Mt=4。
本文通過(guò)模型分析,選取了分類評(píng)價(jià)準(zhǔn)確率來(lái)進(jìn)行分類性能評(píng)價(jià)。分類評(píng)價(jià)準(zhǔn)確率會(huì)受到選取初級(jí)樣本和測(cè)試樣本的影響,為了減小不確定性因素的存在,分析比較人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)、隨機(jī)森林(RF)的性能。因此獲得隨機(jī)森林(RF)模型在訓(xùn)練階段的結(jié)果,具體的計(jì)算結(jié)果見(jiàn)表3。
根據(jù)表2的30個(gè)基礎(chǔ)數(shù)據(jù)可知,利用分類評(píng)價(jià)準(zhǔn)確率計(jì)算得到了隨機(jī)森林(RF)模型分類評(píng)價(jià)標(biāo)準(zhǔn),即正確分類的樣本數(shù)與總樣本數(shù)的比值。通過(guò)計(jì)算,隨機(jī)森林(RF)模型分類評(píng)價(jià)標(biāo)準(zhǔn)率達(dá)到了99.5%,表明該模型的分類評(píng)價(jià)準(zhǔn)確率很高,保證不確定性因素的影響,隨機(jī)森林(RF)模型的計(jì)算結(jié)果與人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)進(jìn)行比較,基本上保持一致,說(shuō)明采用隨機(jī)森林(RF)模型進(jìn)行評(píng)價(jià)計(jì)算是合理的,計(jì)算結(jié)果具有一定科學(xué)指導(dǎo)價(jià)值。
選取新疆奎屯河特殊的地理區(qū)域的30個(gè)基礎(chǔ)樣本數(shù)據(jù),將其中的前24個(gè)訓(xùn)練基礎(chǔ)樣本數(shù)據(jù)進(jìn)行劃分等量10部分,進(jìn)行3種模型的分類評(píng)價(jià)準(zhǔn)確率計(jì)算,具體計(jì)算結(jié)果見(jiàn)表4。結(jié)果排序?yàn)殡S機(jī)森林(RF)模型較好,支持向量機(jī)(SVM)次之,人工神經(jīng)網(wǎng)絡(luò)(ANN)較差,隨機(jī)森林(RF)模型表現(xiàn)出了較好穩(wěn)定性和準(zhǔn)確性,體現(xiàn)了分析性能和抗干擾性能。
表4 三種模型的分類評(píng)價(jià)準(zhǔn)確率
模型評(píng)價(jià)指標(biāo)在水資源可持續(xù)利用評(píng)價(jià)中體現(xiàn)隨機(jī)變量的重要性,在新疆奎屯河流域的水資源可持續(xù)利用評(píng)價(jià)中,水資源開(kāi)發(fā)利用率和農(nóng)業(yè)灌溉用水量最為重要,在水資源模型的預(yù)測(cè)計(jì)算中,要特別注意這兩個(gè)評(píng)價(jià)指標(biāo)的計(jì)算準(zhǔn)確度。
考慮到新疆奎屯河流域特殊地理位置,建立隨機(jī)森林(RF)模型進(jìn)行水資源可持續(xù)利用評(píng)價(jià),并對(duì)評(píng)價(jià)指標(biāo)記性決策樹(shù)分類,并獲得30個(gè)樣本數(shù)據(jù)的評(píng)價(jià)結(jié)果和前24個(gè)訓(xùn)練樣本數(shù)據(jù)進(jìn)行分類評(píng)價(jià)準(zhǔn)確率計(jì)算。結(jié)果可知,3種模型的分類評(píng)價(jià)準(zhǔn)確率計(jì)算,隨機(jī)森林(RF)模型較好,人工神經(jīng)網(wǎng)絡(luò)(ANN)較差,體現(xiàn)了隨機(jī)森林(RF)模型具有較好的準(zhǔn)確性和分析抗干擾性能。
在今后一定時(shí)期的研究中,將對(duì)新疆奎屯河流域的水資源可持續(xù)利用評(píng)價(jià)基礎(chǔ)數(shù)據(jù)的收集提出更高的要求,完善水資源評(píng)價(jià)指標(biāo)體系,優(yōu)化隨機(jī)森林(RF)模型的指標(biāo)參數(shù),進(jìn)一步地提高評(píng)價(jià)指標(biāo)計(jì)算的準(zhǔn)確性。