亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SHAP 重要性排序和機(jī)器學(xué)習(xí)算法的灌區(qū)渠道調(diào)度流量預(yù)測(cè)

        2023-10-08 07:19:24葛建坤雷國(guó)相陳皓銳張寶忠陳來寶白美健于子慧
        關(guān)鍵詞:泄水閘渠道調(diào)度

        葛建坤,雷國(guó)相,陳皓銳,張寶忠,陳來寶,白美健,蘇 楠,于子慧

        (1.華北水利水電大學(xué)水利學(xué)院,鄭州 450045;2.中國(guó)水利水電科學(xué)研究院流域水循環(huán)模擬與調(diào)控國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100048;3.國(guó)家節(jié)水灌溉北京工程技術(shù)研究中心,北京 100048;4.安徽省淠史杭灌區(qū)管理總局,六安 237005)

        0 引言

        灌區(qū)渠道除接受上游水庫/渠道的供水外,還可能接受沿程的坡面匯流、平交河道的洪水匯入,在暴雨條件下,渠道上游來流疊加沿程的各種面狀(坡面洪水)和線狀匯流(平交河道匯流),可能會(huì)導(dǎo)致渠道水位過高,影響渠道的安全運(yùn)行,灌區(qū)泄水閘能夠快速宣泄這部分洪水,確保汛期渠道安全。因此,如何合理的進(jìn)行渠道泄水閘的決策是灌區(qū)管理者在汛期需要面對(duì)的問題。與自然流域洪水過程類似,渠道洪水的發(fā)生和推進(jìn)也包括渠道沿程集水區(qū)的降雨產(chǎn)匯流過程和洪水在渠道中的演進(jìn)過程;與其不同的是,渠道中節(jié)制閘、分水閘和泄水閘的人工調(diào)度會(huì)對(duì)洪水入渠后的推進(jìn)過程有較大的影響,其邊界條件較自然流域更為復(fù)雜,這也給合理開展渠道防洪調(diào)度帶來了挑戰(zhàn)。

        基于物理機(jī)制的明渠/河道泄水需在摸清灌區(qū)渠道來水匯入點(diǎn)、沿程匯流集水區(qū)、泄水點(diǎn)和分水點(diǎn)的空間分布和水力拓?fù)潢P(guān)系的基礎(chǔ)上,通過耦合產(chǎn)匯流模型、一維明渠水流運(yùn)動(dòng)和調(diào)度優(yōu)化模型進(jìn)行防洪調(diào)度決策優(yōu)化。防洪調(diào)度是一個(gè)非線性復(fù)雜決策過程,這使得調(diào)度方案的優(yōu)化決策難以實(shí)現(xiàn)[1-2]?;谖锢頇C(jī)制的防洪調(diào)度優(yōu)化方法主要分為線性規(guī)劃(linear programming,LP)、非線性規(guī)劃(non-linear programming,NLP)、動(dòng)態(tài)規(guī)劃(dynamic programming,DP)、鵜鶘優(yōu)化算法(pelican optimization algorithm,POA)和遺傳算法等。李其梁等[3]建立了基于線性規(guī)劃的兩湖河道聯(lián)合調(diào)度數(shù)學(xué)模型,可為汛期洪水資源配置提供決策依據(jù)。非線性規(guī)劃能夠處理目標(biāo)函數(shù)不可分和非線性約束問題,能夠應(yīng)用于更復(fù)雜的優(yōu)化調(diào)度場(chǎng)景中,林瑜等[4]構(gòu)建了基于馬斯京根模型的非線性規(guī)劃模擬河段渠道中的洪水演進(jìn)過程,為汛期渠道斷面流量決策提供了可靠的方法。但LP 和NLP方法不能考慮單個(gè)泄水閘的狀態(tài),因此不適合處理灌區(qū)渠道調(diào)度決策問題。ZHAO 等[5]將單調(diào)關(guān)系與動(dòng)態(tài)規(guī)劃進(jìn)行合并,提出了改進(jìn)DP 的新算法,該算法可以作為防洪調(diào)度的有用工具測(cè)試不同的洪水情景并確定最優(yōu)決策。LIU 等[6]利用POA 方法確定了考慮河道優(yōu)化的汛期多目標(biāo)最優(yōu)調(diào)度規(guī)則。但DP 和POA 計(jì)算工作量大,泄水閘數(shù)量較多時(shí),容易造成“維數(shù)災(zāi)難”,需要一定的降維方法。AFAN 等[7]以尼羅河高阿斯旺大壩為研究對(duì)象,采用遺傳算法優(yōu)化了河流流量的預(yù)測(cè)精度,確定了時(shí)間序列下預(yù)測(cè)洪水的有效輸入?yún)?shù),研究結(jié)果可為其他類似地區(qū)的河道防洪調(diào)控提供參考。但遺傳算法編程較為復(fù)雜,且算法內(nèi)包含的交叉率、變異率等參數(shù)的設(shè)定依然需要人工經(jīng)驗(yàn)確定?;谖锢頇C(jī)制的防洪調(diào)度優(yōu)化模型不僅在各環(huán)節(jié)的物理過程控制方程的求解和耦合方面較為復(fù)雜,而且涉及大量的模型參數(shù),其實(shí)際應(yīng)用過程中對(duì)數(shù)據(jù)資料的要求和模型使用者的專業(yè)要求較高。因此,如果能夠基于影響渠道泄水決策的主要影響因素獲得相對(duì)容易監(jiān)測(cè)的數(shù)據(jù),開展渠道防洪調(diào)度的決策,可以避免上述物理機(jī)制模型的缺點(diǎn)。

        近年來,人工智能技術(shù)發(fā)展迅速,機(jī)器學(xué)習(xí)作為人工智能技術(shù)的核心分支,能夠?qū)W習(xí)經(jīng)驗(yàn)數(shù)據(jù)中輸入和輸出之間的復(fù)雜關(guān)系,快速提取高維數(shù)據(jù)特征和處理非線性數(shù)據(jù),且具有良好的容錯(cuò)性[8]。高瑋志等[9]利用機(jī)器學(xué)習(xí)解決了太湖流域多層次防洪調(diào)度方案的評(píng)價(jià)問題。張帆等[10]采用多種機(jī)器學(xué)習(xí)模型對(duì)洪水特征指標(biāo)進(jìn)行了評(píng)估,為防洪措施的制定提供了參考。盡管機(jī)器學(xué)習(xí)算法在先前研究中表現(xiàn)良好,但由于其特有的“黑箱”性質(zhì),無法解釋各變量對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)程度。Shapley Additive exPlanations(SHAP)作為當(dāng)前熱門的機(jī)器學(xué)習(xí)事后解釋工具,能夠檢測(cè)特征之間的交互作用,從而提供更加全面的特征重要性排序結(jié)果[11-12]。目前已用于環(huán)境監(jiān)測(cè)、土地利用、信息科學(xué)等[11,13-14]重要領(lǐng)域,該方法能夠清楚量化機(jī)器學(xué)習(xí)算法中特征變量的全局重要性,可為防洪調(diào)度中關(guān)鍵因素的識(shí)別以及機(jī)器學(xué)習(xí)算法優(yōu)化提供重要幫助。

        目前,灌區(qū)渠道防洪調(diào)度決策依賴復(fù)雜物理機(jī)制的調(diào)度優(yōu)化模型,決策者需要對(duì)各渠段在不同暴雨條件下的來洪過程、洪量和洪峰大小、渠道的承洪能力、泄洪效果等非常了解才能做出較為合理的調(diào)度決策,若了解不充分,則可能造成渠道水量過度下泄等問題,危害下游渠系建筑物的安全。鑒于此,為給灌區(qū)渠道防洪調(diào)度決策提供一種簡(jiǎn)單高效的方法,本研究以安徽淠史杭灌區(qū)灌口集泄水閘為例,基于實(shí)測(cè)的閘上水位、歷史和預(yù)報(bào)降雨信息以及泄水調(diào)度流量數(shù)據(jù),比較不同機(jī)器學(xué)習(xí)算法的預(yù)測(cè)精度,同時(shí)采用SHAP 法篩選特征變量組合,進(jìn)一步優(yōu)化算法精度。以期為灌區(qū)現(xiàn)代化管理提供技術(shù)支撐。

        1 材料與方法

        1.1 研究區(qū)概況

        淠史杭灌區(qū)位于安徽省中西部和河南省東南部,是中國(guó)特大灌區(qū)之一。其中安徽部分由淠河、史河、杭埠河三大灌區(qū)組成(圖1)。灌區(qū)地貌包括山丘和平原兩大類型,對(duì)于途經(jīng)山丘區(qū)的渠段,在遭遇暴雨時(shí),渠道一側(cè)坡面的降雨產(chǎn)流會(huì)匯入渠道,引起渠道水位過高,從而引發(fā)渠道運(yùn)行安全問題,該問題在南方丘陵灌區(qū)具有典型代表性。史河灌區(qū)位于淠史杭灌區(qū)西部,該灌區(qū)的局管渠道包括5 個(gè)泄水閘,渠道防汛調(diào)度以節(jié)制閘為界劃分為4 個(gè)調(diào)度單元,各調(diào)度單元來洪基本在單元內(nèi)排除。灌口集調(diào)度單元進(jìn)口為看花樓節(jié)制閘,出口為河套汀渡槽,該單元有2 片側(cè)向坡面來水,分別通過白嗒河和坡面散流進(jìn)入渠道,單元內(nèi)設(shè)置了灌口集泄水閘用于排除洪水。灌口集泄水閘單孔閘寬7 m,共5 孔,設(shè)計(jì)流量265 m3/s,閘上設(shè)計(jì)水位57.32 m。

        圖1 淠史杭灌區(qū)示意圖Fig.1 Schematic diagram of irrigation area of Pi Shihang

        1.2 影響因素分析和數(shù)據(jù)來源

        灌區(qū)渠道泄洪調(diào)度期間,對(duì)于特定的泄水閘而言,其所在渠道的集水區(qū)面積、土壤質(zhì)地、下墊面條件、集水區(qū)坡面/入渠河道的地形和坡度、坡面或者入渠河道的糙率、渠道斷面和坡度、渠道糙率等因素一般固定不變。灌區(qū)渠道在汛期關(guān)閉進(jìn)水閘或分水閘時(shí),渠道無上游來水,洪水完全來自單元流域內(nèi)的降雨[15]。渠道水位是汛期灌區(qū)管理人員進(jìn)行洪水調(diào)度時(shí)的首要關(guān)注指標(biāo),各泄水閘段的渠道水位不能超過警戒水位,防止漫頂[16]。通過咨詢灌區(qū)管理部門可知,對(duì)于灌口集調(diào)度單元而言,當(dāng)啟動(dòng)防洪調(diào)度時(shí),單元進(jìn)口閘(看花樓節(jié)制閘)關(guān)閉,即渠道上游來流始終為0,該單元沿渠也未受其他閘門影響(圖2)。因此,灌口集泄水閘的調(diào)度方式主要取決于過去的落地雨量、未來預(yù)報(bào)的雨量以及泄水閘前的實(shí)時(shí)水位及動(dòng)態(tài)變化量。為盡可能全面考慮泄水閘調(diào)度的影響因素,本研究選取過去1、2、3、6、9 h 和未來1、3、6 h 累積降雨量、灌口集泄水閘閘上水位和閘上水位差作為特征變量,以灌口集泄水閘調(diào)度流量作為目標(biāo)變量(表1),其中降雨量以集水片區(qū)內(nèi)部及其附近的8個(gè)降雨站點(diǎn)平均值代表面雨量(白塔畈、龔店、薛販、萬山橋、小高廟、朱小堰、紅石嘴、梅山)。上述各類數(shù)據(jù)來源于安徽省水文局和淠史杭灌區(qū)管理總局。

        表1 變量及說明Table 1 Variables and descriptions

        圖2 灌口集泄水單元連接關(guān)系圖Fig.2 Guan Kouji drainage unit connection relationship diagram

        為檢驗(yàn)特征變量是否能解釋調(diào)度流量變化規(guī)律,對(duì)灌口集泄水閘調(diào)度流量Y進(jìn)行分析。由圖3 可以看出,調(diào)度流量分布曲線在偏度及峰度上與正態(tài)分布曲線均有一定的相似度,采用柯爾莫哥洛夫-斯米爾諾夫檢驗(yàn)(kolmogorov-smirnov,K-S 檢驗(yàn))得到變量Y及x1~x10的P值分別為0.225、0.140、0.131、0.133、0.121、0.075、0.130、0.122、0.135、0.232、0.208(P>0.05),均服從正態(tài)分布,參考文獻(xiàn)[17],將x1~x10全部用于算法預(yù)測(cè)及驗(yàn)證。

        圖3 灌口集泄水閘調(diào)度流量分布曲線Fig.3 Distribution curve of dispatching flow of Guan Kouji drainage gate

        1.3 研究方法

        本研究所用方法分為預(yù)測(cè)方法和特征變量篩選方法兩大類,其中預(yù)測(cè)方法用來建立特征變量與調(diào)度流量之間的關(guān)系,特征變量篩選方法是在分析特征變量對(duì)調(diào)度流量預(yù)測(cè)結(jié)果的影響程度大小的基礎(chǔ)上,篩選變量組合。預(yù)測(cè)方法選取了線性回歸(linear regression,LR)、K 近鄰回歸(k-nearest neighbors regressor,KNR)、嶺回歸(ridge regression,RDR)、決策樹回歸(decision tree regression,DTR)4 種傳統(tǒng)回歸算法和支持向量回歸(support vector regression,SVR)、自適應(yīng)提升回歸(adaptive boosting regression,ABR)、極度梯度提升回歸(extreme gradient boosting,regression,XGR)、隨機(jī)森林回歸(random forest regression,RFR)4 種集成學(xué)習(xí)算法進(jìn)行比較。傳統(tǒng)回歸算法中LR 可判斷變量與目標(biāo)因子之間線性相關(guān)程度的強(qiáng)弱[18]。KNR 適宜對(duì)連續(xù)時(shí)間的數(shù)據(jù)進(jìn)行預(yù)測(cè)[19],符合本研究的數(shù)據(jù)類型。RDR 能夠處理自變量間多重共線性問題[20]。DTR 能夠表現(xiàn)數(shù)據(jù)間復(fù)雜的非線性關(guān)系,對(duì)缺失值不敏感且訓(xùn)練速度較快,適合用于小規(guī)模數(shù)據(jù)集的回歸預(yù)測(cè)[21]。集成學(xué)習(xí)算法能夠串聯(lián)傳統(tǒng)機(jī)器學(xué)習(xí)算法中的多個(gè)基學(xué)習(xí)器,提高預(yù)測(cè)性能。本文采用的4 種集成學(xué)習(xí)算法可分為3 類,其中SVR 和RFR 分別屬于堆疊算法(stacking)和裝袋算法(bagging),ABR 和XGR 屬于提升算法(boosting)。Stacking 集成的高層模型使用線性回歸等基學(xué)習(xí)器進(jìn)行組合輸出[22],bagging 使用同質(zhì)弱學(xué)習(xí)器,其輸出投票或平均產(chǎn)生,最終獲得比基學(xué)習(xí)器更小的方差;boosting串聯(lián)各個(gè)基學(xué)習(xí)器調(diào)整樣本的損失函數(shù)或權(quán)重,通過疊加來減少總模型的預(yù)測(cè)偏差[23]。其中ABR 和XGR 在擬合殘差方式上有所不同。8 種機(jī)器學(xué)習(xí)算法的關(guān)鍵參數(shù)及說明見表2。

        表2 算法參數(shù)及說明Table 2 Algorithm parameters and description

        采用SHAP 法對(duì)特征變量進(jìn)行篩選。SHAP 法能夠提供多特征交互影響下各個(gè)特征對(duì)于預(yù)測(cè)結(jié)果的貢獻(xiàn)值[11]。將x1~x10作為特征變量,Y作為目標(biāo)變量,對(duì)8種機(jī)器學(xué)習(xí)算法預(yù)測(cè)精度進(jìn)行比較并挑選出最優(yōu)算法,再利用SHAP 法對(duì)特征變量進(jìn)行篩選組合,確定最終的調(diào)度流量決策模型(圖4)。各方法及說明見表2。

        圖4 研究技術(shù)路線Fig.4 Technology roadmap of this study

        1)LR 算法

        線性回歸算法用于確定兩個(gè)及多個(gè)變量之間定量關(guān)系[18],通用計(jì)算式為

        2)KNR 算法

        K近鄰回歸算法采用測(cè)量特征值之間距離的方法進(jìn)行預(yù)測(cè)[19],樣本的回歸預(yù)測(cè)輸出值為

        式中wv為樣本權(quán)重,S為訓(xùn)練樣本數(shù),yv為第v個(gè)樣本的輸出值。

        3)RDR 算法

        嶺回歸是一種專用于處理共線性數(shù)據(jù)的回歸方法[20],一般回歸分析的(矩陣)形式如下:

        式中X為輸入變量矩陣,β為回歸系數(shù)矩陣,ε為誤差矩陣。

        4)DTR 算法

        在機(jī)器學(xué)習(xí)中,決策樹表示對(duì)象屬性與其值之間的映射[21]。將輸入空間劃分為M 個(gè)區(qū)域R1,R2,……,RM,選定的劃分區(qū)域相應(yīng)輸出函數(shù)為

        式中M為區(qū)域個(gè)數(shù),Rm為第m個(gè)區(qū)域空間,j為區(qū)域中的輸入變量,ym為區(qū)域Rm的目標(biāo)變量輸出值。

        5)SVR 算法

        支持向量機(jī)用于回歸問題時(shí)尋求二分法以最小化到超平面最遠(yuǎn)樣本點(diǎn)的“距離”[24],遵循使用核技巧轉(zhuǎn)換數(shù)據(jù)的技術(shù)找到最佳輸出邊界。位于邊界得到內(nèi)的點(diǎn)滿足:

        式中w為權(quán)向量,a為輸入變量,? (a)為高維特征空間,c為偏置常數(shù)。

        6)ABR 算法

        ABR 采用迭代思想,分類輸出取決于這些多個(gè)分類器的組合效果[25]。構(gòu)建的最終強(qiáng)分類器為

        式中ht為基學(xué)習(xí)器,αt為每個(gè)基學(xué)習(xí)器的權(quán)重系數(shù),T為基學(xué)習(xí)器個(gè)數(shù),g為輸入變量。

        7)XGR 算法

        XGR 是一種基于CART(classification and regression tree)的Boosting 類集成學(xué)習(xí)模型[26],其目標(biāo)函數(shù)為

        8)RFR 算法

        隨機(jī)森林回歸是一種基于決策樹的集成學(xué)習(xí)算法[27],包含層次上的的隨機(jī)性,進(jìn)行回歸預(yù)測(cè)時(shí),從所有的特征輸入值H中隨機(jī)選擇h個(gè)值構(gòu)建每棵決策樹,從這h個(gè)值中去選擇優(yōu)化每個(gè)分割節(jié)點(diǎn)時(shí),從而降低相關(guān)性,提高預(yù)測(cè)能力。

        9)SHAP 法

        SHAP 是一種將傳統(tǒng)方法與博弈論和局部解釋聯(lián)系起來,根據(jù)預(yù)期表示一致性和局部準(zhǔn)確性的特征歸因方法[11]。SHAP value 為樣本中特征的分配數(shù)值,滿足等式:

        式中Yn為輸出的SHAP 值,yb為所有樣本目標(biāo)變量的均值,f(xn,1) 為第n個(gè)樣本中第1 個(gè)特征變量對(duì)該樣本預(yù)測(cè)的貢獻(xiàn)值,f(xn,P) 以此類推。

        1.4 數(shù)據(jù)標(biāo)準(zhǔn)化與算法評(píng)價(jià)指標(biāo)

        將搜集到的180 組變量數(shù)據(jù)按照4:1 的比例分為訓(xùn)練集與測(cè)試集,調(diào)用Python 3.9 進(jìn)行算法預(yù)測(cè)與驗(yàn)證。

        1)為消除數(shù)據(jù)量綱對(duì)于研究效果的影響,模型數(shù)據(jù)采用Z-score 標(biāo)準(zhǔn)化方法,其計(jì)算式如下:

        式中ZB表示標(biāo)準(zhǔn)化后的數(shù)值,Z表示原始數(shù)據(jù),Z表示原始數(shù)據(jù)的平均數(shù),σ 表示原始數(shù)據(jù)的標(biāo)準(zhǔn)差。

        2)為評(píng)估算法預(yù)測(cè)精度,利用灌口集泄水閘調(diào)度流量預(yù)測(cè)值與實(shí)際值之間的均方根誤差(SRMSE)、平均絕對(duì)誤差(SMAE)、均方誤差(SMSE)和決定系數(shù)(R2)作為評(píng)價(jià)指標(biāo)。其中SRMSE、SMAE和SMSE越接近0,表示模型偏差度越??;R2越接近1,表明預(yù)測(cè)值與實(shí)際值之間的吻合度越高。具體計(jì)算公式如下:

        式中Rk為第k組數(shù)據(jù)的實(shí)際調(diào)度流量值;Pk為第k組數(shù)據(jù)的預(yù)測(cè)調(diào)度流量值;R為Rk的平均值;P為Pk的平均值;F為樣本個(gè)數(shù)。

        2 結(jié)果與分析

        2.1 基于不同機(jī)器算法的調(diào)度流量預(yù)測(cè)精度比較

        為了驗(yàn)證8 種機(jī)器學(xué)習(xí)算法在整個(gè)數(shù)據(jù)集上是否適用,本研究同時(shí)對(duì)訓(xùn)練集和測(cè)試集進(jìn)行預(yù)測(cè),分析其SRMSE、SMAE、SMSE及R2指標(biāo)并進(jìn)行比較(表3)。

        表3 基于8 種算法的調(diào)度流量預(yù)測(cè)評(píng)價(jià)Table 3 Prediction evaluation of dispatching flow based on 8 algorithms

        由表3 可得,傳統(tǒng)回歸算法中DTR 訓(xùn)練集及測(cè)試集誤差指標(biāo)均為4 種算法中最優(yōu),LR 的訓(xùn)練集SMSE較最大的KNR 僅降低了6.6%,其余指標(biāo)均為4 種算法中最差。因此,LR 在傳統(tǒng)回歸算法中的預(yù)測(cè)精度最差。集成學(xué)習(xí)算法中SVR 訓(xùn)練集及測(cè)試集SMAE較最大的ABR 分別降低了0.7%、5.3%,降幅不大,其余指標(biāo)均為4 種算法中最差。因此,SVR 在4 種集成學(xué)習(xí)算法中的預(yù)測(cè)精度最差。對(duì)比SVR 和DTR,SVR 訓(xùn)練集及測(cè)試集誤差指標(biāo)均優(yōu)于DTR。綜上,集成學(xué)習(xí)算法較傳統(tǒng)回歸算法預(yù)測(cè)精度更佳。集成學(xué)習(xí)算法間的預(yù)測(cè)精度也具有一定差異,RFR 訓(xùn)練集SRMSE、SMAE、SMSE、R2分別為0.146 m3/s、0.094 m3/s、0.021 m3/s、0.976;測(cè)試集分別為0.306 m3/s、0.197 m3/s、0.093 m3/s、0.931,在集成學(xué)習(xí)算法中RFR 的預(yù)測(cè)精度最高。DTR 訓(xùn)練集SRMSE、SMAE、SMSE、R2分別為0.476 m3/s、0.324 m3/s、0.227 m3/s、0.724;測(cè)試集分別為0.511 m3/s、0.381 m3/s、0.261 m3/s、0.808,相比DTR,RFR 的預(yù)測(cè)精度更高。

        對(duì)比4 種集成學(xué)習(xí)算法,XGR 在訓(xùn)練集及測(cè)試集誤差指標(biāo)上均優(yōu)于ABR,RFR 的訓(xùn)練集SMAE與XGR 相差不大,其余指標(biāo)均優(yōu)于XGR,集成學(xué)習(xí)算法的預(yù)測(cè)精度排序?yàn)椋篟FR>XGR>ABR>SVR,3 類集成學(xué)習(xí)算法的預(yù)測(cè)精度由高到低依次為裝袋算法、提升算法、堆疊算法。綜上,隨機(jī)森林回歸(RFR)在8 種算法中的預(yù)測(cè)精度最優(yōu)(訓(xùn)練集SRMSE=0.146 m3/s、SMAE=0.094 m3/s、SMSE=0.021 m3/s、R2=0.976,測(cè)試集SRMSE=0.306 m3/s、SMAE=0.197 m3/s、SMSE=0.093 m3/s、R2=0.931)。

        2.2 變量篩選優(yōu)化

        2.2.1 特征變量重要性分析

        機(jī)器學(xué)習(xí)算法中,特征重要性是指特征變量對(duì)目標(biāo)變量的影響程度,特征的選擇對(duì)機(jī)器學(xué)習(xí)算法預(yù)測(cè)精度有較大影響,數(shù)量過多和不足分別會(huì)產(chǎn)生過擬合、欠擬合的問題,模擬精度均無法達(dá)到最佳。為檢驗(yàn)采用10 組變量進(jìn)行隨機(jī)森林回歸算法預(yù)測(cè)是否出現(xiàn)過擬合現(xiàn)象,本研究對(duì)10 組變量進(jìn)行重要性分析(表4),得到不同變量對(duì)于預(yù)測(cè)結(jié)果的影響權(quán)重,通過比較不同變量組合下隨機(jī)森林回歸算法預(yù)測(cè)誤差指標(biāo),挑選最佳變量組合進(jìn)一步優(yōu)化算法。

        表4 SHAP 法特征重要性分析結(jié)果Table 4 Results of features importance analysis of SHAP method

        由表4 得SHAP 法確定的變量組合特征重要性排序?yàn)椋簒9>x5>x8>x4>x3>x2>x6>x1>x10>x7,x9對(duì)預(yù)測(cè)結(jié)果的影響最大,占SHAP 值總和的34.6%。過去時(shí)段降雨量(x1~x5)SHAP 值總和為0.473,未來時(shí)段降雨量(x6~x8)SHAP 值總和為0.287,可見過去時(shí)段降雨對(duì)泄水調(diào)度決策的影響程度比未來降雨更大。

        2.2.2 特征變量篩選

        根據(jù)表4 建立10 種組合分析訓(xùn)練集和測(cè)試集誤差指標(biāo)及變化趨勢(shì)(表5)。由表5 可以看出,不同變量組合下,RFR 訓(xùn)練集SMSE、SMAE、SRMSE及R2均優(yōu)于測(cè)試集,依次去除特征重要性最小的因素,誤差指標(biāo)SRMSE、SMAE、SMSE呈現(xiàn)出先減小后增大的趨勢(shì),R2呈現(xiàn)出先增大后減小的趨勢(shì)。可見,當(dāng)把x1~x10作為輸入變量時(shí)出現(xiàn)了過擬合現(xiàn)象,變量組合x4+x8+x5+x9訓(xùn)練集及測(cè)試集指標(biāo)均為10 種組合最優(yōu),由SHAP 法確定以x4+x5+x8+x9作為輸入變量時(shí),隨機(jī)森林回歸(RFR)算法的預(yù)測(cè)效果最佳(訓(xùn)練集SRMSE=0.126 m3/s、SMAE=0.080 m3/s、SMSE=0.016 m3/s、R2=0.982;測(cè)試集SRMSE=0.263 m3/s、SMAE=0.164 m3/s、SMSE=0.069 m3/s、R2=0.950)。其訓(xùn)練集及測(cè)試集R2較采用所有特征變量預(yù)測(cè)分別提高了0.6%、2.0%;SRMSE、SMAE、SMSE分別降低了13.7%、14.9%、23.8%、14.1%、16.3%、25.8%;可見變量選擇對(duì)預(yù)測(cè)精度的影響較為顯著。

        表5 基于SHAP 法和RFR 的10 種組合訓(xùn)練集及測(cè)試集評(píng)價(jià)指標(biāo)Table 5 Evaluation metrics for 10 combined training sets and test sets based on SHAP method and RFR

        3 討論

        3.1 目標(biāo)變量影響因子分析

        本研究選擇的10 個(gè)特征變量可歸類為水位和降雨2種類型。LONG 等[28]指出,水位波動(dòng)對(duì)三峽大壩的日調(diào)節(jié)流量影響較大;JANE 等[29]也提出,水位流量關(guān)系是分析洪水成因,進(jìn)行風(fēng)險(xiǎn)評(píng)估的重要內(nèi)容;紀(jì)亞星等[30]認(rèn)為不同降雨重現(xiàn)期對(duì)理想?yún)^(qū)域的洪峰流量削減率不同;崔春光等[31]將中尺度數(shù)值模式的預(yù)報(bào)降雨信息輸入新安江模型,結(jié)果表明預(yù)見期內(nèi)的降水量直接影響洪水流量預(yù)報(bào)的精度,以上研究均表明水位和降雨是影響流量的重要因素。由表4 可得,在特征變量重要性排列中第一位為x9,其原因?yàn)殚l上水位是影響灌口集泄水閘調(diào)度流量的直接因素,閘前水位高,其泄水流量必然趨向增大。降雨是誘發(fā)洪水的驅(qū)動(dòng)因素和激發(fā)條件[32],本研究中不同時(shí)段降雨量對(duì)泄水調(diào)度流量的影響不同,這與魯洋等[33-34]研究一致。表4 中過去時(shí)段降雨對(duì)泄水調(diào)度決策的影響程度較未來降雨更大的原因是落地雨除去損失后的凈雨為產(chǎn)流過程,未來降雨形成的徑流過程需凈雨通過坡面和溝道產(chǎn)生,降雨先后經(jīng)歷該2 個(gè)過程的變化,使徑流的相關(guān)性弱于產(chǎn)流[35]。

        3.2 不同機(jī)器學(xué)習(xí)算法預(yù)測(cè)精度差異

        從表3 看出,集成學(xué)習(xí)算法誤差指標(biāo)明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,這是因?yàn)閭鹘y(tǒng)機(jī)器學(xué)習(xí)算法中各類基學(xué)習(xí)器在不同數(shù)據(jù)源上的學(xué)習(xí)效果不同,單一基學(xué)習(xí)器對(duì)于樣本的學(xué)習(xí)誤差可能較大。集成學(xué)習(xí)能夠訓(xùn)練多個(gè)基學(xué)習(xí)器模型,得到一個(gè)較好的集成模型,從而提高整個(gè)模型的泛化能力[36],由于基學(xué)習(xí)器的種類、訓(xùn)練模式以及輸出方法不同,集成學(xué)習(xí)算法的預(yù)測(cè)結(jié)果也不盡相同。由表3 得到3 類集成學(xué)習(xí)算法中裝袋算法預(yù)測(cè)精度最高的原因是:特征變量和目標(biāo)變量分布趨勢(shì)較為相似,裝袋算法對(duì)于訓(xùn)練模型差距不大的樣本,能夠通過投票或平均化最大程度還原目標(biāo)值。趙敬濤等[23]采用3 類集成學(xué)習(xí)算法對(duì)企業(yè)自律性進(jìn)行評(píng)估,得到預(yù)測(cè)精度由高到低依次為:提升算法、裝袋算法、堆疊算法,與本研究有所不同,這是因?yàn)椋浩髽I(yè)自律性評(píng)價(jià)數(shù)據(jù)集同時(shí)存在離散類和連續(xù)類特征,裝袋算法的各個(gè)基學(xué)習(xí)器的輸出只作一個(gè)簡(jiǎn)單的投票或平均,其學(xué)習(xí)效果有相當(dāng)大的局限性[37]。而提升算法中梯度提升決策樹(gradient boosting decision tree,GBDT)的每個(gè)分類器都會(huì)在上一輪訓(xùn)練基礎(chǔ)上不斷降低偏差,對(duì)于多特征數(shù)據(jù)集學(xué)習(xí)效果更佳。同時(shí),趙敬濤等得到XGR 預(yù)測(cè)精度優(yōu)于ABR,與本研究結(jié)果一致,這是因?yàn)椋篈BR 通過擬合殘差逐漸減少殘差,而XGR 基于GBDT 的每次計(jì)算都能減少殘差,XGR 較ABR 可更大程度上減少誤差。

        本研究對(duì)比8 種機(jī)器學(xué)習(xí)算法預(yù)測(cè)評(píng)價(jià)指標(biāo),隨機(jī)森林算法預(yù)測(cè)精度高于其他算法的原因可能是:1)現(xiàn)有的隨機(jī)森林算法不需要考慮一般回歸問題所面臨的多元共線性問題,在部分?jǐn)?shù)據(jù)缺失或數(shù)據(jù)量相對(duì)較小的情況下仍能保持一定的精度[38];2)隨機(jī)森林算法具有一定的抗噪聲能力;3)時(shí)間、降雨、水位及流量間的數(shù)據(jù)維度相差較大,隨機(jī)森林算法無需做特征選擇,對(duì)數(shù)據(jù)集的適應(yīng)能力強(qiáng)。HASAN 等[39]以沿海地區(qū)為例,研究得到隨機(jī)森林算法能夠準(zhǔn)確預(yù)估洪水敏感性,為防洪策略制定提供了可靠思路;高瑋志等[40]基于KNN 和隨機(jī)森林算法構(gòu)建流域、區(qū)域、城鎮(zhèn)多層次調(diào)度方案綜合評(píng)價(jià)模型,為防洪調(diào)度方案的優(yōu)選提供科學(xué)參考。以上研究結(jié)果均證實(shí)了隨機(jī)森林算法在防洪調(diào)度決策上的可行性。

        3.3 特征變量篩選對(duì)預(yù)測(cè)精度的影響

        機(jī)器學(xué)習(xí)算法模擬精度受數(shù)據(jù)集特征選擇的影響[41]。STEPHEN 等[42]認(rèn)為合理的特征選擇可以消除數(shù)據(jù)中的噪聲,提高模型性能。本研究采用SHAP 法對(duì)所選10 組特征變量進(jìn)行重要性排序,并分為10 種組合進(jìn)行預(yù)測(cè)對(duì)比,結(jié)果表明,采用x4+x5+x8+x9作為輸入變量時(shí),隨機(jī)森林回歸算法預(yù)測(cè)精度最佳。同時(shí),選用x4+x5+x8+x9相比于選用全部變量也降低了數(shù)據(jù)收集成本和難度。綜合2010—2020 年歷史數(shù)據(jù),過去6 h 降雨量、過去9 h降雨量、未來6 h 降雨量、灌口集泄水閘閘上水位是影響灌口集泄水閘調(diào)度流量的主要因素。

        本研究基于機(jī)器學(xué)習(xí)構(gòu)建的泄水調(diào)度決策模型,屬于數(shù)據(jù)驅(qū)動(dòng)型的黑箱模型,與相關(guān)的產(chǎn)匯流—洪水演進(jìn)—泄水調(diào)度耦合性機(jī)理模型在本質(zhì)上有較大區(qū)別,兩者各有其優(yōu)缺點(diǎn),機(jī)理模型雖然能夠得到諸如入渠洪水流量過程、渠道及洪水位演進(jìn)等中間要素的動(dòng)態(tài)變化,但其需要的水文水動(dòng)力方程耦合計(jì)算過程較為復(fù)雜;機(jī)器學(xué)習(xí)雖無法得到相關(guān)水文演進(jìn)過程,但其主要優(yōu)點(diǎn)在于能夠利用降雨和水位等相對(duì)易獲取的監(jiān)測(cè)和預(yù)報(bào)數(shù)據(jù),快速地獲取泄水閘的調(diào)度決策方案,避免了耦合機(jī)理模型所需要的多源數(shù)據(jù)搜集和預(yù)前處理。

        4 結(jié)論

        本研究基于安徽淠史杭灌區(qū)灌口集泄水閘調(diào)度流量及閘上水位和降雨數(shù)據(jù),采用4 種傳統(tǒng)機(jī)器學(xué)習(xí)回歸算法(線性回歸(linear regression,LR)、K 近鄰回歸(knearest neighbors regressor,KNR)、嶺回歸(ridge regression,RDR)、決策樹回歸(decision tree regression,DTR))和4 種集成學(xué)習(xí)類算法(支持向量回歸(support vector regression,SVR)、自適應(yīng)提升回歸(adaptive boosting regression,ABR)、極度梯度提升回歸(extreme gradient boosting regression,XGR)、隨機(jī)森林回歸(random forest regression,RFR))進(jìn)行預(yù)測(cè)對(duì)比,并通過SHAP 法進(jìn)行特征重要性分析,得到結(jié)論如下:

        1)集成學(xué)習(xí)算法預(yù)測(cè)評(píng)價(jià)指標(biāo)優(yōu)于傳統(tǒng)回歸算法,8 種機(jī)器學(xué)習(xí)算法中RFR 的預(yù)測(cè)精度最高(訓(xùn)練集均方根誤差、平均絕對(duì)誤差、均方誤差及決定系數(shù)分別為0.146 m3/s、0.094 m3/s、0.021 m3/s、0.976,測(cè)試集分別為0.306 m3/s、0.197 m3/s、0.093 m3/s、0.931)。

        2)采用Shapley Additive exPlanations(SHAP)法確定的特征變量重要性排序表明灌口集泄水閘閘上水位對(duì)于泄水閘調(diào)度流量的預(yù)測(cè)結(jié)果影響最大,占特征重要性值總和的34.6%。

        3)以過去6 h 降雨量、過去9 h 降雨量、未來6 h降雨量、灌口集泄水閘閘上水位為輸入變量的隨機(jī)森林回歸算法預(yù)測(cè)灌口集泄水閘調(diào)度流量效果最佳,模型誤差指標(biāo)為(訓(xùn)練集均方根誤差、平均絕對(duì)誤差、均方誤差及決定系數(shù)分別為0.126 m3/s、0.080 m3/s、0.016 m3/s、0.982;測(cè)試集分別為0.263 m3/s、0.164 m3/s、0.069 m3/s、0.950)。

        本研究的不足之處在于采用SHAP 法和隨機(jī)森林算法構(gòu)建的調(diào)度流量預(yù)測(cè)模型是針對(duì)灌區(qū)渠道特定閘門的決策模型,在考慮因素時(shí)候只選取了不同時(shí)期的降雨和水位。因此,若要將其推廣至更大的下墊面區(qū)域,后續(xù)研究應(yīng)將更多的變動(dòng)影響因素(如流域下墊面面積、河道斷面糙率、渠道斷面坡度等)納入考慮。

        猜你喜歡
        泄水閘渠道調(diào)度
        聚焦“五個(gè)一” 打通為僑服務(wù)渠道
        書業(yè)如何擁抱新渠道?
        出版人(2021年11期)2021-11-25 07:34:04
        《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護(hù)手冊(cè)》正式出版
        一種基于負(fù)載均衡的Kubernetes調(diào)度改進(jìn)算法
        泄水閘工作門槽側(cè)軌變形原因分析及處理探討
        虛擬機(jī)實(shí)時(shí)遷移調(diào)度算法
        水利樞紐工程泄水閘閘墩牛腿施工技術(shù)優(yōu)化
        航電樞紐工程中泄水閘混凝土攪拌樁技術(shù)解析
        泄水閘監(jiān)控系統(tǒng)防雷改造分析
        渠道
        亚洲av日韩综合一区尤物| 在线观看国产高清免费不卡黄| 中文字幕无码毛片免费看| 波多野42部无码喷潮| 久久久无码中文字幕久...| 中日韩欧美在线观看| 国产一区二区黑丝美女| 国产麻豆久久av入口| 人人妻人人澡人人爽欧美一区九九| 日韩成人极品在线内射3p蜜臀| 国产欧美日产久久| 国产精品三级在线专区1| 免费福利视频二区三区| 日本成年一区久久综合| 国产又色又爽又黄的| 亚洲美腿丝袜综合一区| 在线观看黄片在线播放视频| 国产精品美女久久久网站三级 | 久久永久免费视频| 中文字幕人妻少妇久久| 中文字幕日韩人妻少妇毛片 | 亚洲午夜久久久精品影院| 婷婷色香五月综合激激情| 国偷自产av一区二区三区| 日本一区二区三区专区| 最新日本人妻中文字幕| 浪货趴办公桌~h揉秘书电影 | 国产女精品视频网站免费| 精品国产自拍在线视频| 日本女优久久精品观看| 亚洲av乱码一区二区三区按摩| 亚洲av色先锋资源电影网站| 亚洲成a∨人片在线观看无码| 精品国产亚洲av成人一区| 国产一区二区av免费在线观看| 一边吃奶一边摸做爽视频| 日韩爱爱视频| 一本色道久久综合亚洲精品不| 中文无码一区二区三区在线观看| 亚洲香蕉视频| 国产精品亚洲av无人区二区|