杜尚海,古成科,張文靜
隨機(jī)森林理論及其在水文地質(zhì)領(lǐng)域的研究進(jìn)展
杜尚海1,2,3,古成科1,張文靜2,3*
(1.吉林大學(xué)建設(shè)工程學(xué)院,吉林 長(zhǎng)春 130021;2.吉林大學(xué)地下水資源與環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,吉林 長(zhǎng)春 130021;3.吉林大學(xué)新能源與環(huán)境學(xué)院,吉林長(zhǎng)春 130021)
隨機(jī)森林理論是近年來(lái)快速發(fā)展的一種人工智能集成學(xué)習(xí)算法,由于其對(duì)數(shù)據(jù)系列中異常值的容忍度較高,且預(yù)測(cè)結(jié)果準(zhǔn)確度顯著高于其他常用算法,在以水文地質(zhì)領(lǐng)域?yàn)榇淼淖匀豢茖W(xué)研究中的應(yīng)用越來(lái)越廣泛.本文在介紹隨機(jī)森林算法理論和應(yīng)用方法的基礎(chǔ)上,結(jié)合國(guó)外內(nèi)已有研究成果,分析其在地下水潛力評(píng)估、地表水-地下水轉(zhuǎn)化、地下水水質(zhì)評(píng)價(jià)和地下水污染預(yù)測(cè)等水文地質(zhì)領(lǐng)域的應(yīng)用效果,對(duì)隨機(jī)森林理論在水文地質(zhì)領(lǐng)域的應(yīng)用前景和進(jìn)一步發(fā)展的方向進(jìn)行了討論.結(jié)果表明,隨機(jī)森林理論可以有效解決水文地質(zhì)領(lǐng)域研究中的參數(shù)和過(guò)程不確定性問(wèn)題,在水文地質(zhì)結(jié)構(gòu)精確刻畫(huà)、水文地質(zhì)參數(shù)準(zhǔn)確反演、水文地質(zhì)過(guò)程的描述均具有廣闊的應(yīng)用前景.
人工智能;隨機(jī)森林;地下水;地表水-地下水轉(zhuǎn)化;地下水水質(zhì)評(píng)價(jià);地下水污染預(yù)測(cè)
隨機(jī)森林是一種功能強(qiáng)大的機(jī)器學(xué)習(xí)數(shù)據(jù)驅(qū)動(dòng)方法,不僅處理數(shù)據(jù)快、抗噪性強(qiáng),與其他機(jī)器模型相比在預(yù)測(cè)精度也更有優(yōu)勢(shì).與物理模型相比其在處理大數(shù)據(jù)上具有優(yōu)勢(shì),其建模速度快,準(zhǔn)確率也能達(dá)到相當(dāng)不錯(cuò)的程度.隨機(jī)森林在水文地質(zhì)學(xué)領(lǐng)域應(yīng)用越來(lái)越廣泛,例如將其用于地下水水量和水質(zhì)的預(yù)測(cè)建模[1].本文系統(tǒng)總結(jié)隨機(jī)森林在水文地質(zhì)領(lǐng)域的應(yīng)用,重點(diǎn)介紹隨機(jī)森林在地下水潛力評(píng)估、地表水-地下水轉(zhuǎn)化、地下水水質(zhì)評(píng)價(jià)、地下水污染預(yù)測(cè)等科學(xué)研究中的應(yīng)用,并對(duì)進(jìn)一步拓展其在水文地質(zhì)領(lǐng)域應(yīng)用范圍和提高其性能進(jìn)行展望.
隨機(jī)森林(RF)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的組合分類(lèi)智能算法,由Breiman在2001年提出[2],其原理是利用Bootstrap重抽樣方法從原始數(shù)據(jù)中抽取多個(gè)樣本,構(gòu)建所有Bootstrap樣本的決策樹(shù),并對(duì)所有決策樹(shù)的預(yù)測(cè)結(jié)果進(jìn)行組合,并投票選出最終結(jié)果.
隨機(jī)森林屬于機(jī)器學(xué)習(xí)的一個(gè)重要分支-集成學(xué)習(xí)[3],所使用的Bootstrap重抽樣方法也是集成學(xué)習(xí)眾多抽樣方法之一.Bagging名稱(chēng)來(lái)源于Bootstrap aggregating,即為引導(dǎo)聚集算法又稱(chēng)裝袋算法,最初由Leo Breiman在1996年提出[4].Bagging是一種用于訓(xùn)練數(shù)據(jù)的創(chuàng)建技術(shù),是在原始數(shù)據(jù)集上通過(guò)重復(fù)隨機(jī)有放回抽樣,選擇出個(gè)數(shù)據(jù)集并分別訓(xùn)練個(gè)分類(lèi)器,其訓(xùn)練數(shù)據(jù)中允許存在重復(fù)數(shù)據(jù),但個(gè)數(shù)據(jù)集都是具有相同分布的獨(dú)立隨機(jī)向量.因此,某些數(shù)據(jù)可能會(huì)在模型訓(xùn)練中多次使用,而其他數(shù)據(jù)可能永遠(yuǎn)不會(huì)被使用.這些沒(méi)有被抽取的數(shù)據(jù),約占三分之一,被稱(chēng)為袋外數(shù)據(jù)(OOB),由于其沒(méi)有參與訓(xùn)練集模型的擬合,因此常常被用來(lái)檢測(cè)模型泛化能力.
隨機(jī)森林算法以決策樹(shù)作為基礎(chǔ)學(xué)習(xí)器,基于許多決策樹(shù)的生成及其組合以產(chǎn)生最終輸出,其輸出類(lèi)別由個(gè)別樹(shù)輸出類(lèi)別的眾數(shù)決定.決策樹(shù)是一種基本的分類(lèi)與回歸辦法,基于樹(shù)結(jié)構(gòu)來(lái)決策.當(dāng)決策樹(shù)用于分類(lèi)時(shí)被稱(chēng)為分類(lèi)樹(shù),用于回歸時(shí)被稱(chēng)為回歸樹(shù).決策樹(shù)由節(jié)點(diǎn)和有向邊組成,類(lèi)似于枝杈和樹(shù)枝.節(jié)點(diǎn)有兩種類(lèi)型,內(nèi)部節(jié)點(diǎn)(枝杈)和葉節(jié)點(diǎn)(枝梢),其中內(nèi)部節(jié)點(diǎn)表示一個(gè)特征,葉節(jié)點(diǎn)表示一個(gè)類(lèi)(即決策結(jié)果).每個(gè)內(nèi)部節(jié)點(diǎn)包含一部分樣本集合,會(huì)從這些樣本集合中隨機(jī)選擇出的特征進(jìn)行特征測(cè)試并根據(jù)測(cè)試結(jié)果將樣本劃分到子節(jié)點(diǎn)中,最終一步步被劃分到葉節(jié)點(diǎn)中.根節(jié)點(diǎn)包含樣本全集,從根節(jié)點(diǎn)到每個(gè)葉節(jié)點(diǎn)的路徑對(duì)應(yīng)了每一個(gè)判定測(cè)試序列.其結(jié)構(gòu)像樹(shù)一樣,因此被稱(chēng)為決策樹(shù),其學(xué)習(xí)本質(zhì)是從訓(xùn)練集中歸納出一組分類(lèi)規(guī)則.
隨機(jī)森林中“森林”就是決策樹(shù)的集成,而“隨機(jī)”是指數(shù)據(jù)采樣的隨機(jī)和從所有特征中選擇部分特征來(lái)建立模型的隨機(jī).隨機(jī)森林算法過(guò)程有幾個(gè)階段:首先,從給定的原始訓(xùn)練集中隨機(jī)選擇樣本,為每個(gè)樣本創(chuàng)建一個(gè)決策樹(shù),并得到每個(gè)決策樹(shù)的分類(lèi)結(jié)果.接下來(lái)對(duì)每個(gè)分類(lèi)結(jié)果進(jìn)行投票表決決定最終結(jié)果(圖1)[5].隨機(jī)森林集合了多個(gè)決策樹(shù),比單個(gè)決策樹(shù)有更好的選擇結(jié)果,它通過(guò)對(duì)結(jié)果求平均值來(lái)降低過(guò)擬合,因此不宜出現(xiàn)過(guò)擬合現(xiàn)象,且預(yù)測(cè)準(zhǔn)確度較高.
總的來(lái)說(shuō),它具有以下優(yōu)點(diǎn)[6-7]:
(1)通過(guò)反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類(lèi)或回歸,因此同等精度下計(jì)算量比其他機(jī)器學(xué)習(xí)方法(如神經(jīng)網(wǎng)絡(luò)或支持向量機(jī))要低很多.
(2)可以處理數(shù)千個(gè)輸入變量,且無(wú)需刪除變量.
(3)具有估計(jì)缺失數(shù)據(jù)的有效方法,并在大量數(shù)據(jù)缺失時(shí)保持準(zhǔn)確性.
(4)對(duì)噪聲、異常值和過(guò)度訓(xùn)練不敏感,預(yù)測(cè)精度高誤差小.
(5)運(yùn)行時(shí)會(huì)生成泛化誤差的內(nèi)部無(wú)偏估計(jì),并給出了分類(lèi)中每個(gè)變量的重要性估計(jì)值.
(6)可以學(xué)習(xí)復(fù)雜的模式,同時(shí)考慮到解釋變量和因變量之間的任何非線性復(fù)雜關(guān)系,并給出有關(guān)變量與分類(lèi)之間的關(guān)系信息.
(7)可以保存建立的模型,以便將來(lái)用于其他數(shù)據(jù).
圖1 隨機(jī)森林算法概念圖
地下水是水資源的重要組成部分,由于水量穩(wěn)定,與地表水相比更不容易受到污染,因此在許多國(guó)家的國(guó)民經(jīng)濟(jì)中被廣泛使用,例如飲用水和工業(yè)供水,灌溉和礦泉水.而氣候變化,人口增長(zhǎng)和經(jīng)濟(jì)發(fā)展帶來(lái)的用水需求,以及人類(lèi)各種各樣的活動(dòng),都對(duì)地下水的資源貯存量、水質(zhì)和水文地球化學(xué)作用產(chǎn)生影響.因此對(duì)與地下水潛力評(píng)估、地表水-地下水轉(zhuǎn)化、地下水水質(zhì)評(píng)價(jià)、地下水污染預(yù)測(cè)等類(lèi)似的數(shù)據(jù)分析,都是隨機(jī)森林在水文地質(zhì)領(lǐng)域研究的重點(diǎn).
本文在介紹隨機(jī)森林在水文地質(zhì)領(lǐng)域應(yīng)用方向的每個(gè)小節(jié)時(shí)都附有相應(yīng)流程圖(圖2~5),這些流程圖是對(duì)各個(gè)方向工作流程的綜合歸納概括.實(shí)際使用隨機(jī)森林時(shí),會(huì)在某個(gè)平臺(tái)(python軟件、R語(yǔ)言等)上運(yùn)行隨機(jī)森林代碼,將輸入的自變量和要模擬的因變量數(shù)據(jù)集按一定比例(常用的是七三分)分為訓(xùn)練集和測(cè)試集,用訓(xùn)練集進(jìn)行建模運(yùn)算并用測(cè)試集進(jìn)行驗(yàn)證,輸出結(jié)果中包括模型結(jié)果、評(píng)價(jià)模型性能的參數(shù)和衡量各變量重要性的指數(shù),其他模型建模時(shí)流程與隨機(jī)森林類(lèi)似.因變量即是要預(yù)測(cè)模擬的對(duì)象,如地下水潛力分布情況、地下水補(bǔ)給和排泄情況、地下水水質(zhì)評(píng)價(jià)標(biāo)準(zhǔn)和地下水中污染物濃度及分布情況.自變量為可能影響因變量的眾多水文變量,如氣候、水文、地質(zhì)、離子濃度等,其大致分類(lèi)在圖2~5展示,常用的水文地質(zhì)變量和解釋見(jiàn)表1. 由于4個(gè)方向不同,其選取的水文變量種類(lèi)也不同,但由于隨機(jī)森林工作流程固定,故圖2~5的結(jié)構(gòu)類(lèi)似.若結(jié)果表現(xiàn)形式中含有地圖圖件如地下水潛力圖,需要使用Arcgis軟件把自變量和因變量的數(shù)據(jù)源圖件(如地質(zhì)圖、水系地圖)等轉(zhuǎn)成表格類(lèi)文件作為數(shù)據(jù)輸入的實(shí)際形式,經(jīng)模擬生成表格形式的結(jié)果后再導(dǎo)入Arcgis軟件即可得到成果圖.若結(jié)果表現(xiàn)形式不需要地圖圖件,比如某些地下水水質(zhì)評(píng)價(jià),就只需將自變量和因變量數(shù)據(jù)以表格形式輸入,建立模型即可得出地下水水質(zhì)預(yù)測(cè)情況.
表1 常用的水文地質(zhì)變量和解釋
地下水潛力研究即是評(píng)價(jià)地下水可開(kāi)采資源量的一種方法,旨在確定地下水開(kāi)發(fā)的最佳區(qū)域,在最近幾年被大量關(guān)注[8-9].地下水潛力繪圖已被定義為水資源系統(tǒng)開(kāi)發(fā)和規(guī)劃的一種工具,其成果-地下水潛力圖被定義為基于一系列間接指標(biāo)對(duì)地形的物理容量進(jìn)行空間分布估計(jì),以產(chǎn)生足夠地下水供特定用途使用.目前地下水潛力分區(qū)有兩種主要方法:專(zhuān)家決策系統(tǒng)和機(jī)器學(xué)習(xí)方法[10].專(zhuān)家決策系統(tǒng)直接基于人類(lèi)判斷,包括簡(jiǎn)單加法權(quán)重、多影響因子技術(shù)、分析層次結(jié)構(gòu)過(guò)程等.機(jī)器學(xué)習(xí)方法包含多種方法,包括人工神經(jīng)網(wǎng)絡(luò)擬合、邏輯回歸、回歸樹(shù)、隨機(jī)森林和統(tǒng)計(jì)樹(shù)算法等.一般來(lái)說(shuō),機(jī)器學(xué)習(xí)不太容易出現(xiàn)程序錯(cuò)誤和感知偏差,而專(zhuān)家方法具有依靠豐富經(jīng)驗(yàn)來(lái)辨別可能逃脫自動(dòng)檢測(cè)特征的優(yōu)勢(shì),但也意味著必然在某種程度上依賴(lài)于專(zhuān)家判斷,會(huì)產(chǎn)生一定程度主觀性,且這種方法制出的潛力圖分辨率也不高,只適用于大范圍或尺度.
使用隨機(jī)森林進(jìn)行地下水區(qū)域潛力預(yù)測(cè),繪制地下水潛力圖,充分發(fā)揮了機(jī)器學(xué)習(xí)發(fā)現(xiàn)大型數(shù)據(jù)集中的隱藏關(guān)聯(lián)、根據(jù)現(xiàn)有信息來(lái)源(各種制圖、衛(wèi)星圖像、數(shù)字高程模型、鉆孔數(shù)據(jù)等)確定哪些變量與地下水密切相關(guān)的優(yōu)勢(shì),也是當(dāng)下隨機(jī)森林在地下水領(lǐng)域最主要的幾個(gè)應(yīng)用方向之一.
Chen等[11]基于隨機(jī)森林(RF)、支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、多元線性回歸(MLR)等模型,使用降水量、土壤水分蒸發(fā)蒸騰損失總量、徑流、土壤濕度、雪水當(dāng)量、植被冠層水分含量這6個(gè)水文變量預(yù)測(cè)河北省邯鄲市地下水總儲(chǔ)水量,結(jié)果表明隨機(jī)森林預(yù)測(cè)最好.同時(shí)使用這6個(gè)變量進(jìn)行降尺度研究,成功將總儲(chǔ)水量和地下水儲(chǔ)量的分辨率從1°(110km)降到0.25°(約25km).
Chen等[12]使用隨機(jī)森林(RF)、核邏輯回歸(KLR)和交替決策樹(shù)(ADTree)模型為中國(guó)陜西省北部檸條塔地區(qū)繪制了地下水泉潛力圖,其中隨機(jī)森林的AUC(接受者操作特性曲線與坐標(biāo)軸圍成的面積)值最高,為0.909.Naghibi等[13-15]使用隨機(jī)森林和其他機(jī)器模型繪制了伊朗3個(gè)地區(qū)的地下水潛力圖,隨機(jī)森林的正確率都很高.
除了直接使用隨機(jī)森林外,不少學(xué)者也對(duì)隨機(jī)森林進(jìn)行了一定的改進(jìn).Sameen等[16]將自我學(xué)習(xí)框架(Self-Learning Framework)技術(shù)和隨機(jī)森林結(jié)合開(kāi)發(fā)了一個(gè)新的自學(xué)隨機(jī)森林模型(SLRF),在預(yù)測(cè)地下水潛力分區(qū)時(shí)也得到了比改進(jìn)前更高的準(zhǔn)確率.Miraki等[17]提出一種基于隨機(jī)子空間集合的新型的分類(lèi)器集合方法-隨機(jī)森林分類(lèi)器(RS-RF),用于伊朗庫(kù)爾德斯坦省代赫戈蘭地區(qū)的地下水潛力繪圖,其性能比改進(jìn)前要好.這表示了隨機(jī)森林不止在繪制地下水潛力圖上已然成熟,也說(shuō)明其在提高性能上有著很大進(jìn)步空間.
圖2 地下水潛力評(píng)估流程
地表水與地下水的相互作用及轉(zhuǎn)化關(guān)系一直是水文地質(zhì)等領(lǐng)域研究的熱點(diǎn)和難點(diǎn),準(zhǔn)確掌握其機(jī)理和過(guò)程是支撐流域水資源綜合利用和保護(hù)的基礎(chǔ)條件[18].在水文循環(huán)中,水質(zhì)上天然水化學(xué)成分一定程度上記錄著水分運(yùn)移和離子轉(zhuǎn)化,水量上地表水與地下水之間存在補(bǔ)給與排泄,水溫上地溫梯度使得地表水與地下水溫度存在縱向上的差異[19].目前對(duì)地下水與地表水的水量交換測(cè)定常用方法是用滲透流量?jī)x對(duì)空間和時(shí)間進(jìn)行點(diǎn)測(cè)量,直接量化滲流率,其精確度和測(cè)定范圍一直在改進(jìn)中[20].
地下水的水化學(xué)場(chǎng)和溫度場(chǎng)的演變?nèi)Q于滲流場(chǎng)的變化,也是滲流場(chǎng)變化的一種表現(xiàn)[21].各種水化學(xué)參數(shù),如主要離子(Ca2+、Na+、CO32?、Cl?)和電導(dǎo)率(EC)已被很好地用作確定地表水和地下水之間關(guān)系的示蹤劑[22].水的穩(wěn)定氫和氧同位素也常用作研究水文循環(huán)的天然示蹤劑,但往往只能得到半定量的結(jié)果,難以實(shí)現(xiàn)連續(xù)動(dòng)態(tài)監(jiān)測(cè).而人工示蹤法可能造成污染,且受場(chǎng)地條件限制.這些直接測(cè)量(溫度、同位素、水文化學(xué))只反映了測(cè)量時(shí)的條件,可能無(wú)法提供足夠的信息來(lái)評(píng)估未來(lái)的情景(即灌溉、土地利用變化和氣候變化)[23].
此外基于物理和概念的方法也可以模擬地表水與地下水的相互作用[24].基于物理的方法在水頭和水力連通性的基礎(chǔ)上模擬地表水-地下水的相互作用,通常將地表水模型和基于物理的地下水模型進(jìn)行耦合[25],但這些耦合模型需要大量水文地質(zhì)學(xué)數(shù)據(jù),通常具有精細(xì)時(shí)間分辨率,有時(shí)有數(shù)值收斂問(wèn)題.基于概念的方法通過(guò)不同概念存儲(chǔ)之間的水轉(zhuǎn)移來(lái)模擬地表水-地下水交互作用,需要的數(shù)據(jù)較少,但缺乏對(duì)“水位”的表述,且必須考慮流域間的地下水流動(dòng).
而將隨機(jī)森林模型運(yùn)用于分析地表水與地下水的相互作用,可以綜合考慮地質(zhì)、氣候變化、人類(lèi)影響等各個(gè)因素,以高準(zhǔn)確率、高分辨率和低成本評(píng)價(jià)當(dāng)前和預(yù)測(cè)未來(lái)變化,是近幾年較為突出的一個(gè)方向.
圖3 地表水-地下水轉(zhuǎn)化流程
Stahl等[26]使用隨機(jī)森林為美國(guó)本土建立了一個(gè)淺層地下水2H和18O同位素預(yù)測(cè)模型,不僅以高于90%的準(zhǔn)確度預(yù)測(cè)了2H和18O的分布規(guī)律,還根據(jù)地下水同位素的空間模式可以幫助確定含水層補(bǔ)給的來(lái)源和季節(jié)性時(shí)間,并揭示了地表水和地下水相互作用的程度和范圍(如輸入河流的基流). Yang等[27]使用隨機(jī)森林和國(guó)家尺度的地質(zhì)學(xué)、水文學(xué)和土地利用數(shù)據(jù)建立了一種預(yù)測(cè)河口尺度地表水-地下水相互作用性質(zhì)的模型,預(yù)測(cè)了新西蘭的地表-地下水間補(bǔ)給、排泄情況,并得出坡度、與上游的距離、與海岸的距離和地質(zhì)是主導(dǎo)地表水和地下水相互作用的因素.
同時(shí),地下水的補(bǔ)給和排泄發(fā)生的動(dòng)態(tài)變化,會(huì)引起地下水埋深的時(shí)空演變.因此研究地下水埋深的時(shí)空變化規(guī)律和變化成因,亦是分析地表水與地下水的相互作用.Koch等[28]使用隨機(jī)森林模型以50m分辨率來(lái)模擬了丹麥日德蘭半島的淺水層的冬季最低深度,水域關(guān)系和DK模型(丹麥國(guó)家水資源模型)是最重要的兩個(gè)協(xié)變量.楊光等[29]使用隨機(jī)森林分析了中國(guó)黑河中游地下水埋深的時(shí)空演變規(guī)律及其變化成因.
除此之外,Rong等[30]使用隨機(jī)森林從晶粒尺寸分布分析了從鉆孔中采集的非固結(jié)沉積物樣品,可以預(yù)測(cè)含水層的滲透系數(shù),為量化深層地下水流動(dòng)和輸送提供關(guān)鍵信息.
地下水水質(zhì)評(píng)價(jià)是地下水資源評(píng)價(jià)的重要內(nèi)容,是根據(jù)地下水中主要物質(zhì)成分和給定的水質(zhì)標(biāo)準(zhǔn),分析地下水水質(zhì)的時(shí)空分布狀況,進(jìn)而對(duì)地下水進(jìn)行管理、預(yù)防或修復(fù),以服務(wù)于長(zhǎng)遠(yuǎn)未來(lái)[31].
現(xiàn)階段的水質(zhì)評(píng)價(jià)方法可分為三類(lèi):水質(zhì)類(lèi)別確定、水質(zhì)污染指數(shù)、水質(zhì)分級(jí).最常用的方法包括:單因素評(píng)價(jià)、綜合指數(shù)法、水污染指數(shù)(WPI)、水質(zhì)指數(shù)(WQI)、模糊綜合評(píng)價(jià)等.我國(guó)地下水水質(zhì)的評(píng)價(jià)常采用單因素評(píng)價(jià)方法,對(duì)單個(gè)水質(zhì)指標(biāo)獨(dú)立進(jìn)行評(píng)價(jià),但得到的結(jié)論不能全面地反映地下水質(zhì)量的狀況,會(huì)出現(xiàn)較大偏差;綜合指數(shù)法具有忽略水質(zhì)分級(jí)界線的模糊性缺陷,評(píng)價(jià)結(jié)果反映出的水質(zhì)污染狀況不夠真實(shí)[32].水污染指數(shù)易于計(jì)算,可以識(shí)別主要污染因素,并可用于水質(zhì)類(lèi)別和定量評(píng)估,但評(píng)估結(jié)果過(guò)于保守[33].水質(zhì)指數(shù)法則會(huì)導(dǎo)致數(shù)據(jù)丟失,并且缺乏處理復(fù)雜環(huán)境問(wèn)題的能力[34].模糊綜合評(píng)價(jià)方法解決了水質(zhì)評(píng)價(jià)的局限性和不確定性,消除了單個(gè)成分的單側(cè)性與分類(lèi)邊界之間的不連續(xù)性,但是在確定評(píng)價(jià)因子的權(quán)重上較為麻煩,需要與層次分析法、主成分分析、因子分析方法和灰色關(guān)聯(lián)法等賦權(quán)方法相結(jié)合.隨著計(jì)算機(jī)的發(fā)展,機(jī)器學(xué)習(xí)被廣泛運(yùn)用于地下水水質(zhì)評(píng)價(jià),其中的隨機(jī)森林分類(lèi)準(zhǔn)確度高、可以處理缺失數(shù)據(jù)、且能綜合評(píng)判每個(gè)因子的貢獻(xiàn)率并給出重要性排序,因而被廣泛使用.
圖4 地下水水質(zhì)評(píng)價(jià)流程
很多學(xué)者[35-38]都使用隨機(jī)森林模型和區(qū)域地下水水質(zhì)監(jiān)測(cè)數(shù)據(jù),進(jìn)行了地下水水質(zhì)的綜合評(píng)價(jià),并繪制區(qū)域地下水水質(zhì)分區(qū)圖.Jeihouni等[39]使用從伊朗大不里士市附近地區(qū)80口井得到的硬度、pH值、氯化物和EC等參數(shù),使用和比較普通決策樹(shù)(ODT)、隨機(jī)森林(RF)、隨機(jī)樹(shù)(RT)、卡方自動(dòng)交互檢測(cè)器(CHAID)和迭代二分法3(ID3)5種基于決策樹(shù)的機(jī)器模型來(lái)預(yù)測(cè)和進(jìn)行飲用地下水水質(zhì)分區(qū).結(jié)果表明隨機(jī)森林預(yù)測(cè)準(zhǔn)確率高達(dá)97.10%,研究區(qū)域內(nèi)地下水的質(zhì)量從南到北以及從東到西都有所下降.Norouzi等[40]采用隨機(jī)森林和模糊邏輯算法,對(duì)伊朗馬哈巴德平原的含水層使用地下水質(zhì)量指數(shù)(GQI)確定地下水質(zhì),預(yù)測(cè)的AUC值高達(dá)0.96.總之,近年來(lái)的研究表明,隨機(jī)森林算法已成為作為評(píng)價(jià)地下水水質(zhì)的重要方法,且預(yù)測(cè)準(zhǔn)確率非常高.
然而有些井同時(shí)揭露了多層含水層,從這些井中取得的地下水樣本有時(shí)無(wú)法確定其真實(shí)含水層來(lái)源,會(huì)影響到下一步行動(dòng).Baudron等[41]基于隨機(jī)森林(RF)的監(jiān)督分類(lèi)方法,根據(jù)樣本的主要離子成分來(lái)識(shí)別從西班牙卡塔赫納多層含水層系統(tǒng)中提取的地下水樣本所屬含水層,結(jié)果表明,隨機(jī)森林分類(lèi)結(jié)果的準(zhǔn)確率達(dá)到90%以上,這進(jìn)一步表明隨機(jī)森林在地下水水質(zhì)方向適用性較好.
地下水中的污染物質(zhì),是影響地下水水質(zhì)、影響地下水用途劃分的因素.地下水內(nèi)的污染物質(zhì)中除了生物所需要的鈉鹽鉀鹽等,也可能含有會(huì)造成水體污染的“三氮”(硝酸鹽、亞硝酸鹽和氨氮)[42]和磷酸鹽等,以及對(duì)人體產(chǎn)生直接危害高價(jià)鐵、錳、氟化物、砷化物等[43-44].因此使用隨機(jī)森林進(jìn)行地下水中污染濃度預(yù)測(cè),對(duì)預(yù)防和修復(fù)水質(zhì),劃分飲用水、工業(yè)水分區(qū)而言非常有意義.
圖5 地下水污染預(yù)測(cè)流程
數(shù)值模型以前曾用于地下水質(zhì)量建模目的.然而,這些模型的性能基本上取決于對(duì)所討論過(guò)程的水文行為的充分理解,以及地下水系統(tǒng)特性的詳細(xì)數(shù)據(jù)可用性,需要大量數(shù)據(jù)和相當(dāng)長(zhǎng)的時(shí)間,并且具有限制其使用的復(fù)雜結(jié)構(gòu).而在一些粗略的估計(jì)中,基于主觀評(píng)級(jí)方法(指數(shù)方法和混合方法)的地下水脆弱性指數(shù),如DRASTIC、EPIK和SI等經(jīng)常被用來(lái)預(yù)測(cè)污染物如非點(diǎn)源硝酸鹽污染概率,或是使用地理信息系統(tǒng)(GIS)中的表面插值技術(shù)預(yù)測(cè)表面值再使用地下水脆弱性指數(shù)預(yù)測(cè)污染物分布情況.
隨著人工智能(AI)技術(shù)的發(fā)展,如人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)、決策樹(shù)(DT)等機(jī)器學(xué)習(xí)方法成為傳統(tǒng)物理模型在各種學(xué)科中的有效替代建模工具.這些機(jī)器學(xué)習(xí)方法可以在使用相對(duì)較少的成本、精力和數(shù)據(jù)對(duì)復(fù)雜的水文過(guò)程進(jìn)行建模方面表現(xiàn)出可靠的性能.而隨機(jī)森林模型作為其中之一,也已有不少實(shí)例使用.
有研究使用隨機(jī)森林模型預(yù)測(cè)了區(qū)域硝酸鹽濃度,生成硝酸鹽濃度預(yù)測(cè)概率圖并進(jìn)行了原因分析[45-47].Nafouanti等[48]使用隨機(jī)森林(RF)、人工神經(jīng)網(wǎng)絡(luò)(ANN)和邏輯回歸(LR)進(jìn)行中國(guó)大同盆地地下水氟化物預(yù)測(cè),并探究了各因子與氟化物之間的關(guān)系,發(fā)現(xiàn)TDS、Cl-、NO3-、Na+等4個(gè)因子最能影響地下水中氟化物濃度. Podgorski等[49]、付宇等[50]使用隨機(jī)森林繪制了區(qū)域砷濃度濃度概率圖.Podgorski等[51]使用隨機(jī)森林對(duì)來(lái)源于全球各國(guó)的結(jié)合現(xiàn)場(chǎng)工具測(cè)量和復(fù)雜實(shí)驗(yàn)室分析得到的80項(xiàng)地下水中砷測(cè)量結(jié)果數(shù)據(jù)建立了全球砷風(fēng)險(xiǎn)預(yù)測(cè)模型,結(jié)果顯示風(fēng)險(xiǎn)最高的地區(qū)包括亞洲南部和中部以及南美洲地區(qū).李沖[52]使用隨機(jī)森林預(yù)測(cè)中國(guó)貴州省一個(gè)巖溶區(qū)的酸性煤礦井水錳污染.
此外,還有不少針對(duì)隨機(jī)森林預(yù)測(cè)污染物濃度預(yù)測(cè)的改進(jìn),例如 Canion等[53]用隨機(jī)森林為美國(guó)佛羅里達(dá)州喀斯特泉域地下水硝酸鹽濃度預(yù)測(cè)建模時(shí),使用克里金法對(duì)殘差進(jìn)行插值,通過(guò)考慮空間自相關(guān)的誤差來(lái)改進(jìn)隨機(jī)森林模型(回歸-克里格法),使得最終的預(yù)測(cè)準(zhǔn)確率高于95%.Bindal等[54]采用了基于隨機(jī)森林組合算法(對(duì)每個(gè)變量進(jìn)行單變量邏輯回歸,并通過(guò)值評(píng)估系數(shù)的顯著性)的混合方法,來(lái)預(yù)測(cè)印度北方邦地下水的砷污染,結(jié)果表明混合隨機(jī)森林模型的表現(xiàn)優(yōu)于單變量(Univariate)、邏輯回歸(LR)、模糊(Fuzzy)、自適應(yīng)模糊(AFR)和自適應(yīng)神經(jīng)模糊算法(ANFIS).
隨機(jī)森林也可以用來(lái)預(yù)測(cè)地下水中發(fā)生氧化還原的位置.Friedel等[55]通過(guò)使用基于監(jiān)督學(xué)習(xí)算法(隨機(jī)森林RF、線性判別分析LDA、提升回歸樹(shù)BRT)和基于無(wú)監(jiān)督學(xué)習(xí)算法(修改自組織圖MSOM)4種機(jī)器學(xué)習(xí)方法預(yù)測(cè)新西蘭主要農(nóng)業(yè)區(qū)的地下水氧化還原狀態(tài)(氧化、混合和缺氧)來(lái)判斷地下水反硝化作用發(fā)生的位置,然而結(jié)果表明基于無(wú)監(jiān)督學(xué)習(xí)算法(修改自組織圖)能準(zhǔn)確預(yù)測(cè)地下水氧化還原的時(shí)空演變規(guī)律,而基于監(jiān)督學(xué)習(xí)的3個(gè)算法預(yù)測(cè)結(jié)果并不理想.但由于這只是隨機(jī)森林預(yù)測(cè)地下水氧化還原反應(yīng)位置的個(gè)例,未來(lái)需要更多的實(shí)例來(lái)綜合評(píng)價(jià)這一領(lǐng)域的適用性.
表2 隨機(jī)森林在水文地質(zhì)領(lǐng)域應(yīng)用匯總
注:“/”表示只使用了隨機(jī)森林一種模型.
如表2所示,這些研究都使用了隨機(jī)森林模型,有些研究也使用了其他模型,例如SVM、ANN、LR等. BRT(增強(qiáng)回歸樹(shù))、CART(回歸決策樹(shù))、RTF(旋轉(zhuǎn)森林)、交替決策樹(shù)(ADTree)和隨機(jī)森林(RF)這些樹(shù)模型都是由決策樹(shù)(DT)改進(jìn)發(fā)展而來(lái)的,可以視為決策樹(shù)的分支.表2中所有研究使用的模型中有部分和隨機(jī)森林都屬于機(jī)器學(xué)習(xí)的分支,如決策樹(shù)(DT)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM);有部分則是數(shù)學(xué)模型,如多元線性回歸(MLR).
隨機(jī)森林理論對(duì)數(shù)據(jù)系列要求相對(duì)較低,幾十到一百的數(shù)據(jù)量和大數(shù)據(jù)都能預(yù)測(cè)出較好的效果,這一點(diǎn)對(duì)水文地質(zhì)領(lǐng)域非常友好.這是因?yàn)樗牡刭|(zhì)觀測(cè)數(shù)據(jù)多來(lái)源于鉆孔、水井和油井等,與地表水可以直接監(jiān)測(cè)不同,小尺度區(qū)域往往因?yàn)榫當(dāng)?shù)量不足所以地下水?dāng)?shù)據(jù)稀缺,而大尺度區(qū)域由于各國(guó)各個(gè)地區(qū)眾多監(jiān)測(cè)站的長(zhǎng)年監(jiān)測(cè)產(chǎn)生了大量具有時(shí)間序列的地下水?dāng)?shù)據(jù),這些大數(shù)據(jù)不僅處理起來(lái)非常復(fù)雜,如何全部被充分利用也是問(wèn)題,并且還要考慮到個(gè)別數(shù)據(jù)缺失或錯(cuò)誤的情況.例如Rong等[30]預(yù)測(cè)含水層的滲透系數(shù)時(shí)觀測(cè)數(shù)據(jù)只有106個(gè); Koch等[28]模擬淺水層的冬季最低深度時(shí)使用了1998~2017年間包括15000口井的數(shù)據(jù)和1900個(gè)沿著溪流、海岸線和湖泊的額外觀測(cè)數(shù)據(jù)來(lái)訓(xùn)練模型,最后都達(dá)到了不錯(cuò)的預(yù)測(cè)精度.而將當(dāng)?shù)氐刭|(zhì)圖、數(shù)字高程模型(DEM)等水文變量數(shù)據(jù)在ArcGIS軟件中轉(zhuǎn)化為可以被隨機(jī)森林模型直接使用的數(shù)據(jù)格式時(shí),數(shù)據(jù)量將數(shù)以萬(wàn)計(jì),也都可以被成功預(yù)測(cè),并且建立模型的時(shí)間很短.
在準(zhǔn)確率方面,隨機(jī)森林理論在地下水資源量評(píng)價(jià)、地表水-地下水交互作用、地下水水質(zhì)評(píng)價(jià)和地下水中溶質(zhì)運(yùn)移的預(yù)測(cè)中與其他模型相比更為準(zhǔn)確,基本都在0.85以上,其中一些預(yù)測(cè)結(jié)果如Stahl等[26]建立淺層地下水2H和18O同位素預(yù)測(cè)模型時(shí)預(yù)測(cè)準(zhǔn)確度高達(dá)97%和93%.Naghibi等[13-15]繪制伊朗地區(qū)地下水潛力圖時(shí),在2015年的研究中隨機(jī)森林預(yù)測(cè)的結(jié)果在眾多模型中表現(xiàn)最差,而在2019年和2020年的隨機(jī)森林預(yù)測(cè)及隨機(jī)森林模型改進(jìn)中均獲得了非常好的預(yù)測(cè)精度.此外,其他針對(duì)隨機(jī)森林的各種改進(jìn)也都能取得更高的精度.
隨機(jī)森林能在預(yù)測(cè)后給出水文變量的重要性排序,指出哪些變量對(duì)結(jié)果最有影響并分析討論這些變量影響結(jié)果的方式.例如Wu等[38]評(píng)價(jià)寧夏回族自治區(qū)鹽池縣天然鹽湖的地下水質(zhì)量時(shí),經(jīng)評(píng)價(jià)最重要指標(biāo)是Na、TDS(溶解性總固體)、TH(水總硬度)和F,而最不重要的指標(biāo)是As.這在后續(xù)的研究中非常有意義,因?yàn)槟軐?duì)這些重要性高的水文變量進(jìn)行改進(jìn)以增加預(yù)測(cè)精度,例如采用更精確的測(cè)量手段.又或者在地下水中污染物預(yù)測(cè)中根據(jù)水文變量重要性排序?qū)ζ溥M(jìn)行治理,能最有效地降低地區(qū)污染.
隨機(jī)森林屬于機(jī)器學(xué)習(xí)的一種,和人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)等眾多機(jī)器學(xué)習(xí)模型一樣,本質(zhì)上都屬于黑箱理論.盡管隨機(jī)森林構(gòu)建原理已經(jīng)清楚,但是并不具有對(duì)全部工作過(guò)程完全的理解能力.即無(wú)法通過(guò)簡(jiǎn)單直接的公式對(duì)整個(gè)隨機(jī)森林的結(jié)構(gòu)和每棵樹(shù)的計(jì)算方法進(jìn)行說(shuō)明,也無(wú)法解釋調(diào)節(jié)隨機(jī)森林各個(gè)權(quán)重參數(shù)后結(jié)果改變的原因.而在某一領(lǐng)域的科學(xué)研究中往往會(huì)同時(shí)應(yīng)用多種機(jī)器學(xué)習(xí)模型,比較預(yù)測(cè)模擬結(jié)果并選擇最好的結(jié)果作為最終成果.前文總結(jié)的這些水文地質(zhì)領(lǐng)域的研究表明隨機(jī)森林和隨機(jī)森林模型的改進(jìn)預(yù)測(cè)模擬效果在眾多模型中具有優(yōu)勢(shì).盡管其優(yōu)勢(shì)的根本原理無(wú)法解釋,但是這些成功運(yùn)用的經(jīng)驗(yàn)表明隨機(jī)森林確實(shí)適用于水文地質(zhì)領(lǐng)域.并且隨機(jī)森林仍在不斷發(fā)展,對(duì)其進(jìn)行改進(jìn)以提高模型性能非常具有意義.
隨機(jī)森林在水文地質(zhì)領(lǐng)域預(yù)測(cè)時(shí),要求輸入眾多的水文變量,但并沒(méi)有統(tǒng)一標(biāo)準(zhǔn)進(jìn)行變量選擇,研究者們往往根據(jù)實(shí)際情況綜合考慮進(jìn)行選擇,但有時(shí)會(huì)忽略幾個(gè)重要的水文變量,例如在繪制地下水潛力圖時(shí)的土壤,有的考慮是土壤物質(zhì)組分,有的是土壤濕度,有的干脆沒(méi)有考慮,同樣情況的還有水體關(guān)系這一重要變量.同時(shí)多個(gè)研究中有些水文變量指的是同一種,但是名稱(chēng)并不統(tǒng)一.這些在研究中或許影響細(xì)微,但若是對(duì)多個(gè)地區(qū)進(jìn)行連續(xù)評(píng)價(jià)或是對(duì)某一地區(qū)連續(xù)評(píng)價(jià)時(shí),例如代替?zhèn)鹘y(tǒng)的DRASTIC方法評(píng)價(jià)多個(gè)行政區(qū)時(shí),具有統(tǒng)一的標(biāo)準(zhǔn)就非常必要了.一些相關(guān)的變量應(yīng)當(dāng)單獨(dú)評(píng)價(jià)或是歸為一個(gè)大類(lèi),例如從DEM計(jì)算出的平面曲率和剖面曲率,有的單獨(dú)考慮而有的將其歸為一個(gè)地形大類(lèi),這無(wú)疑會(huì)對(duì)結(jié)果產(chǎn)生重要影響.
盡管隨機(jī)森林在水文地質(zhì)的應(yīng)用近年來(lái)不斷增多,但其尚未得到廣泛應(yīng)用.在水文地質(zhì)的其他方向,也有關(guān)于隨機(jī)森林的不斷嘗試,例如地下水水位預(yù)測(cè)、地下水樣本來(lái)源識(shí)別.相關(guān)研究也表明,隨機(jī)森林在地下水領(lǐng)域在降尺度方面有很大潛力,可以獲得高分辨率圖,而這正是地下水領(lǐng)域的熱門(mén).
此外,使用隨機(jī)森林進(jìn)行地下水有機(jī)污染預(yù)測(cè)的應(yīng)用較少,可以將其與預(yù)測(cè)有機(jī)污染物的軟件[56]相結(jié)合應(yīng)用.而將水文地質(zhì)物理模型和隨機(jī)森林結(jié)合,進(jìn)行地下水脆弱性評(píng)價(jià)也或許是一項(xiàng)很好的應(yīng)用.
多項(xiàng)研究均表明[11,39,41,45,48,54],隨機(jī)森林比其他機(jī)器模型在性能上更具有優(yōu)勢(shì).但是仍可對(duì)隨機(jī)森林進(jìn)行改進(jìn)以進(jìn)一步提高精度,例如隨機(jī)子空間集合的隨機(jī)森林分類(lèi)器(RS-RF)、自學(xué)隨機(jī)森林模型(SLRF)、基于隨機(jī)森林組合算法(單變量邏輯回歸)和回歸-克里格法降誤差.這些是通過(guò)增強(qiáng)隨機(jī)森林的隨機(jī)性、篩選變量降低噪音[57]、分析誤差等手段提高其性能.
4.1 隨機(jī)森林在水文地質(zhì)領(lǐng)域應(yīng)用廣泛,目前在各個(gè)方面的應(yīng)用都取得了不錯(cuò)的效果,其理論在水文地質(zhì)領(lǐng)域也不斷發(fā)展,使其建模更契合于實(shí)際.對(duì)隨機(jī)森林進(jìn)行適當(dāng)?shù)母倪M(jìn)能進(jìn)一步提高其性能,例如增強(qiáng)隨機(jī)性、篩選變量降低噪音、誤差分析等手段提高模型精度.
4.2 隨機(jī)森林對(duì)數(shù)據(jù)要求低,無(wú)論數(shù)據(jù)多少均能取得不錯(cuò)的精度,在水文地質(zhì)領(lǐng)域有著很強(qiáng)的適用性,且預(yù)測(cè)準(zhǔn)確率比其他模型普遍要好.但是在水文變量選擇上大多根據(jù)實(shí)際情況考慮,并沒(méi)有統(tǒng)一的名稱(chēng)和選擇標(biāo)準(zhǔn),這一點(diǎn)應(yīng)當(dāng)進(jìn)行改進(jìn).此外隨機(jī)森林可以根據(jù)輸出的變量重要性排序和模型預(yù)測(cè)結(jié)果進(jìn)行變量影響性分析,探究其原因進(jìn)行合理解釋[58].因此可以改進(jìn)隨機(jī)森林對(duì)重要性高的水文變量的測(cè)量手段,以提高預(yù)測(cè)精度,或是在預(yù)測(cè)地下水污染時(shí)根據(jù)變量重要性排序進(jìn)行針對(duì)性治理.此外,一些改進(jìn)的隨機(jī)森林算法,例如神經(jīng)隨機(jī)森林[59]、伯努利隨機(jī)森林[60]和隨機(jī)信條隨機(jī)森林(RCRF)[61],未來(lái)也可以應(yīng)用于水文地質(zhì)領(lǐng)域.
4.3 隨機(jī)森林在地下水資源評(píng)價(jià)、地表水-地下水交互作用、地下水水質(zhì)評(píng)價(jià)和地下水中污染物預(yù)測(cè)方向均有應(yīng)用.但目前在污染物預(yù)測(cè)方向針對(duì)的主要是無(wú)機(jī)污染,未來(lái)可以將其用于有機(jī)污染物預(yù)測(cè).也可以將水文地質(zhì)物理模型和隨機(jī)森林結(jié)合,進(jìn)行地下水脆弱性評(píng)價(jià).
[1] Tyralis H, Papacharalampous G, Langousis A. A brief review of random forests for water scientists and practitioners and their recent history in water resources [J]. Water, 2019,11(5):910.
[2] Breiman L. Random forests [J]. Machine Learning, 2001,45(1):5-32.
[3] 王奕森,夏樹(shù)濤.集成學(xué)習(xí)之隨機(jī)森林算法綜述 [J]. 信息通信技術(shù), 2018,12(1):7:49-55.
Wang Y S, Xia S T. A survey of random forests algorithms [J]. Information and Communications Technologies, 2018,12(1):7:49-55.
[4] Bbeiman L. Bagging predictors [J]. Machine Learning, 1996,24(2): 123-140.
[5] 呂紅燕,馮 倩.隨機(jī)森林算法研究綜述 [J]. 河北省科學(xué)院學(xué)報(bào), 2019,36(3):37-41.
Lv H Y, Feng Q. A survey of random forests algorithm [J]. Journal of the Hebei Academy of Sciences, 2019,36(3):37-41.
[6] Robert I. Kabacoff. R語(yǔ)言實(shí)戰(zhàn)(第2版) [M]. 北京:人民郵電出版社, 2016:1011-1016.
Robert I. Kabacoff. R in action(version 2) [M]. Beijing: Posts and Telecom Press, 2016:1011-1016.
[7] 董紅瑤,王弈丹,李麗紅.隨機(jī)森林優(yōu)化算法綜述 [J]. 信息與電腦, 2021,33(17):34-37.
Dong H Y, Wang Y D, Li L H. A review of random forest optimization algorithms [J]. China Computer and Communication, 2021,33(17):34- 37.
[8] 林 壢,雷曉東,楊 峰.地下水資源評(píng)價(jià)方法-水量均衡法的探討 [J]. 北京水務(wù), 2011,(2):41-44.
Lin L, Lei X D, Yang F. Groundwater resources evaluation method- discussion on water balance method [J]. Beijing Water, 2011,(2):41- 44.
[9] 丁 楠.內(nèi)蒙古察右翼前旗-集寧區(qū)地下水資源評(píng)價(jià)與開(kāi)采潛力分析 [D]. 中國(guó)地質(zhì)大學(xué)(北京), 2018.
Ding N. Evalution of groudwater resources and analsysis of explotiation potential in Chahar Youyiqianqi-Dining district [D]. China University of Geosciences (Beijing), 2018.
[10] Díaz-Alcaide S, Martínez-Santos P. Review: Advances in groundwater potential mapping [J]. Hydrogeol Journal, 2019,27(7): 2307-2324.
[11] Chen L, He Q, Liu K, et al. Downscaling of GRACE-derived groundwater storage based on the random forest model [J]. Remote Sensing, 2019,11(24):2979.
[12] Chen W, Li Y, Tsangaratos P, et al. Groundwater spring potential mapping using artificial intelligence approach based on kernel logistic regression, random forest, and alternating decision tree models [J]. Applied Sciences, 2020,10(2):425.
[13] Naghibi S A, Pourghasemi H R, Dixon B. GIS-based groundwater potential mapping using boosted regression tree,classification and regression tree, and random forest machine learning models in iran [J]. Environmental Monitoring and Assessment, 2016,188(1):44.
[14] Naghibi S A, Dolatkordestani M, Rezaei A. Application of rotation forest with decision trees as base classifier and a novel ensemble model in spatial modeling of groundwater potential [J]. Environmental Monitoring and Assessment Volume, 2019,191(4):248.
[15] Naghibi S A, Hashemi H, Berndtsson R, et al. Application of extreme gradient boosting and parallel random forest algorithms for assessing groundwater spring potential using DEM-derived factors [J]. Journal of Hydrology, 2020,589(1):125-197.
[16] Sameen M I, Pradhan B, Lee S. Self-learning random forests model for mapping groundwater yield in data-scarce areas [J]. Natural Resources Research, 2018,28(3):757-775.
[17] Miraki S, Zanganeh S H, Chapi K, et al. Mapping groundwater potential using a novel hybrid intelligence approach [J]. Water Resources Management, 2019,33(1):281-302.
[18] 韓 玉,盧文喜,李峰平,等.渾河流域地表水地下水水質(zhì)耦合模擬 [J]. 中國(guó)環(huán)境科學(xué), 2020,40(4):1677-1686.
Han Y, Lu W X, Li F P, et al. Water quality coupling simulation of surface water and groundwater in Hunhe river basin [J]. China Environmental Science, 2020,40(4):1677-1686.
[19] 殷禹宇,胡友彪,劉啟蒙,等.地表水與地下水相互作用研究進(jìn)展 [J]. 綠色科技, 2016,(4):50-52.
Yin Y Y, Hu Y B, Liu Q M, et al. Review on research progress of interaction between surface water and groundwater [J]. Journal of Green Science and Technology, 2016,(4):50-52.
[20] Hatch C E, Fisher A T, Revenaugh J S, et al. Quantifying surface water - groundwater interactions using time series analysis of streambed thermal records: method development [J]. Water Resources Research, 2006,42(10).
[21] Zhou Z W, Zhou Z F, Xu H Y, et al. Surface water-groundwater interactions of xiluodu reservoir based on the dynamic evolution of seepage, temperature, and hydrochemistry due to impoundment [J]. Hydrological Processes, 2021,35(8).
[22] Kong F, Song J, Zhang Y, et al. Surface water-groundwater interaction in the guanzhong section of the Weihe River Basin, China [J]. Ground Water, 2018,57(4):647-660.
[23] Yang J, Mcmillan H, Zammit C. Modeling surface water-groundwater interaction in New Zealand: Model development and application [J]. Hydrological Processes, 2017,31(4):925-934.
[24] Haque A, Salama A, Lo K, et al. Surface and groundwater interactions: A review of coupling strategies in detailed domain models [J]. Hydrology, 2021,8(1):35.
[25] 朱金峰,劉悅憶,章樹(shù)安,等.地表水與地下水相互作用研究進(jìn)展 [J]. 中國(guó)環(huán)境科學(xué), 2017,37(8):3002-3010.
Zhu J F, Liu Y Y, Zhang S A, et al. Review on the research of surface water and groundwater interactions [J]. China Environmental Science, 2017,37(8):3002-3010.
[26] Stahl M O, Gehring J, Jameel Y. Isotopic variation in groundwater across the conterminous United States - Insight into hydrologic processes [J]. Hydrological Processes, 2020,34(16):3506-3523.
[27] Yang J, Griffiths J, Zammit C .National classification of surface- groundwater interaction using random forest machine learning technique [J]. River Research and Applications, 2019,35(7):932-943.
[28] Koch J, Berger H, Henriksen H J, et al. Modelling of the shallow water table at high spatial resolution using random forests [J]. Hydrology and Earth System Sciences Discussions, 2019,23(11):1-26.
[29] 楊 光,粟曉玲.基于隨機(jī)森林的黑河中游地下水埋深變化及成因 [J]. 水土保持研究, 2017,24(1):109-114.
Yang G, Su X L. Change of groundwater depth Heihe river basin and its causes in middle dtream of the based on the random forest [J]. Research of Soil and Water Conservation, 2017,24(1):109-114.
[30] Rong M, Shi J, Zhang Y, et al. Variation of hydraulic conductivity with depth in the North China plain [J]. Arabian Journal of Geosciences, 2016,9(10):1-13.
[31] 高瑞忠,秦子元,張 生,等.吉蘭泰鹽湖盆地地下水Cr6+,As,Hg健康風(fēng)險(xiǎn)評(píng)價(jià) [J]. 中國(guó)環(huán)境科學(xué), 2018,38(6):2353-2362.
Gao R Z, Qin Z Y, Zhang S, et al. Health risk assessment of Cr6+, As and Hg in groundwater of Jilantai salt lake basin [J]. China Environmental Science, 2018,38(6):2353-2362.
[32] 姜海濤.黑龍江省林口縣蓮花新鎮(zhèn)地下水資源評(píng)價(jià) [D]. 長(zhǎng)春:吉林大學(xué), 2014.
Jiang H T. The evaluation of groundwater resources in Lianhuaxin Town Linkou Ctiy Heilongjiang Province [D]. Changchun: Jilin University, 2014.
[33] Zhang F C, Wu B, Gao F, et al. Hydrochemical characteristics of groundwater and evaluation of water quality in arid area of northwest China: A case study in the plain area of Kuitun River Basin [J]. Arabian Journal of Geosciences, 2021,14(20):1-19.
[34] Chai Y, Xiao C, Li M, et al. Hydrogeochemical characteristics and groundwater quality evaluation based on multivariate statistical analysis [J]. Water, 2020,12(10):2792.
[35] 吳 敏,溫小虎,馮 起,等.基于隨機(jī)森林模型的干旱綠洲區(qū)張掖盆地地下水水質(zhì)評(píng)價(jià) [J]. 中國(guó)沙漠, 2018,38(3):657-663.
Wu M, Wen X H, Feng Q, et al. Assesssment of groundwater quality based on random forest model in arid oasis area [J]. Journal of Desert Research, 2018,38(3):657-663.
[36] 王 雪.基于隨機(jī)森林算法的唐山市水質(zhì)評(píng)價(jià) [J]. 水利技術(shù)監(jiān)督, 2018,(5):173-176.
Wang X. Evaluation of water quality of Tangshan city based on random forest algorithm [J]. Technical Supervision in Water Resources, 2018,(5):173-176.
[37] 閆佰忠,孫 劍,安 娜.基于隨機(jī)森林模型的地下水水質(zhì)評(píng)價(jià)方法 [J]. 水電能源科學(xué), 2019,37(11):66-69.
Yan B Z, Sun J, An N. Assessment of groundwater quality based on random forest model [J]. Water Resources and Power, 2019,37(11):66- 69.
[38] Wu C, Fang C, Wu X, et al. Health-risk assessment of arsenic and groundwater quality classification using random forest in the yanchi region of northwest China [J]. Exposure and Health, 2019,(5):761- 774.
[39] Jeihouni M, Toomanian A, Mansourian A. Decision tree-based data mining and rule induction for identifying high quality groundwater zones to water supply management: A novel hybrid use of data mining and GIS [J]. Water Resources Management, 2020,34(1):139-154.
[40] Norouzi H, Moghaddam A A. Groundwater quality assessment using random forest method based on groundwater quality indices (case study: Miandoab plain aquifer, NW of Iran [J]. Arabian Journal of Geosciences, 2020,13(18):1-13.
[41] Baudron P, Alonso-Sarria F, Garcia-Arostegui, et al. Identifying the origin of groundwater samples in a multi-layer aquifer system with random forest classification [J]. Journal of Hydrology, 2013,499:303- 315.
[42] 吳娟娟,卞建民,萬(wàn)罕立,等.松嫩平原地下水氮污染健康風(fēng)險(xiǎn)評(píng)估 [J]. 中國(guó)環(huán)境科學(xué), 2019,39(8):3493-3500.
Wu J J, Pian J M, Wan H L, et al. Health risk assessment of groundwater nitrogen pollution in Songnen Plain [J]. China Environmental Science, 2019,39(8):3493-3500.
[43] 周巾枚,蔣忠誠(chéng),徐光黎,等.鐵礦周邊地下水金屬元素分布及健康風(fēng)險(xiǎn)評(píng)價(jià) [J]. 中國(guó)環(huán)境科學(xué), 2019,39(5):1934-1944.
Zhou J M, Jiang Z C, Xv G L, et al. Distribution and health risk assessment of metals in groundwater around iron mine [J]. China Environmental Science, 2019,39(5):1934-1944.
[44] 鄧安琪,董兆敏,高 群,等.中國(guó)地下水砷健康風(fēng)險(xiǎn)評(píng)價(jià) [J]. 中國(guó)環(huán)境科學(xué), 2017,37(9):3556-3565.
Deng A Q, Dong Y M, Gao Q, et al. Health risk assessment of arsenic in groundwater across China [J]. China Environmental Science, 2017, 37(9):3556-3565.
[45] Rodriguez-Galiano V, Mendes M P, Garcia-Soldado M J, et al. Predictive modeling of groundwater nitrate pollution using random forest and multisource variables related to intrinsic and specific vulnerability: a case study in an agricultural setting (Southern Spain) [J]. Science of the Total Environment, 2014,476:189-206.
[46] Tesoriero A J, Gronberg J A, Juckem P F, et al. Predicting redox‐sensitive contaminant concentrations in groundwater using random forest classification [J]. Water Resources Research, 2017,53(8):7316- 7331.
[47] Nolan B T, Gronberg J A M, Faunt C C, et al. Modeling nitrate at domestic and public-supply well depths in the central Valley, California [J]. Environmental Science and Technology, 2014,48(10): 5643-51.
[48] Nafouanti M B, Li J X, Mustapha N A, et al.Prediction on the fluoride contamination in groundwater at the datong basin, northern china: comparison of random forest, logistic regression and artificial neural network [J]. Applied Geochemistry, 2021,132.
[49] Podgorski J E, Labhasetwar P, Saha D, et al. Prediction modeling and mapping of groundwater fluoride contamination throughout India [J]. Environmental Science Technology, 2018,52(17):9889-9898.
[50] 付 宇,曹文庚,張娟娟.基于隨機(jī)森林建模預(yù)測(cè)河套盆地高砷地下水風(fēng)險(xiǎn)分布 [J]. 巖礦測(cè)試, 2021,40(6):860-870.
Fu Y, Cao W G, Zhang J J. High Arsenic Risk Distution Prediction of Groundwater in the Hetao Basin by Random Forest Modeling [J]. Rock and Mineral Analysis, 2021,40(6):860-870.
[51] Podgorski J, Berg M. Global threat of arsenic in groundwater [J]. Science, 2020,368(6493):845-850.
[52] 李 沖.隨機(jī)森林模型預(yù)測(cè)巖溶區(qū)酸性煤礦井水錳污染 [J]. 中國(guó)煤炭地質(zhì), 2021,33(3):43-47,59.
Li C. Prediction of karst region Acidic coalmine water manganese pollution based on random forest [J]. Coal Geology of China, 2021, 33(3):43-47,59.
[53] Canion A, Mccloud L, Dobberfuhl D. Predictive modeling of elevated groundwater nitrate in a karstic spring-contributing area using random forests and regression-kriging [J]. Environmental Earth Sciences, 2019,78(9).
[54] Bindal S, Singh C K. Predicting groundwater arsenic contamination: Regions at risk in highest populated state of India [J]. Water Research, 2019,159:65-76.
[55] Friedel M J, Wilson S R, Close M E, et al. Comparison of four learning-based methods for predicting groundwater redox status [J]. Journal of Hydrolgy, 2020,580.
[56] Pietrzak D. Modeling migration of organic pollutants in groundwater - review of available software [J]. Environmental Modelling and Software, 2021,144.
[57] Speiser J L, Miller M E, Tooze J, et al. A comparison of random forest variable selection methods for classification prediction modeling [J]. Expert Systems with Application, 2019,134:93-101.
[58] Blanchet L, Vitale R, Stavropoulos G, et al. Constructing bi-plots for Random Forest: tutorial [J]. Analytica Chimica Acta, 2020,1131:146- 155.
[59] Biau G, Scornet E, Welbl, J. Neural random forests [J]. Sankhya-series A-mathematical Statistics and Probability, 2019,81(2):347-386.
[60] Wang Y A, Xia S T, Tang Q T, et al. A novel consistent random forest framework: bernoulli random forests [J]. IEEE Transactions on Neural Networks and Learning Systems, 2017,29(8):3510-3523.
[61] Mantas C J, Castellano J G, Moral-García S, et al. A comparison of random forest based algorithms: random credal random forest versus oblique random forest [J]. Soft Computing, 2019,23(21):10739- 10754.
致謝:感謝本課題組所有成員以及為本研究提供幫助的吉林大學(xué)地下水資源與環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室.
A review on the progresses in random forests theory and its applications in hydrogeology.
DU Shang-hai1,2,3, GU Cheng-ke1, ZHANG Wen-jing2,3*
(1.College of Construction Engineering, Jilin University, Changchun 130021, China;2.Key Laboratory of Groundwater Resources and Environment, Jilin University, Changchun 130021, China;3.College of New Energy and Environment, Jilin University, Changchun 130021, China)., 2022,42(9):4285~4295
Random Forest Theory is a rapidly developing artificial intelligence integrated learning algorithm and increasingly used in the fields of hydrogeology due to its higher tolerance of outliers in data series and significantly higher accurate prediction than other commonly used algorithms do. Based on the introduction of the theory and applications of the random forest algorithm, this paper reviewed its applications in the hydrogeological fields such as groundwater potential assessment, surface water-groundwater conversion, groundwater quality assessment and groundwater contamination prediction. The results show that the random forest theory can effectively solve the problems related to parameter and process uncertainty in hydrogeological researches, and has broad application prospects in the accurate portrayal of hydrogeological structure, accurate inversion of hydrogeological parameters and description of hydrogeological processes.
artificial intelligence;random forest theory;groundwater;surface water-groundwater conversion;groundwater quality assessment;groundwater contamination prediction
X523,P641
A
1000-6923(2022)09-4285-11
2022-02-28
國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目((2019YFC1804804)
*責(zé)任作者, 教授, zhangwenjing80@hotmail.com
杜尚海(1986-),男,安徽宿州人,副教授,博士,主要從事地下水資源評(píng)價(jià)與管理研究.發(fā)表論文50余篇.