摘要:
為提升H-ADCP在平原水網(wǎng)區(qū)的測流精度,以淮河流域平原水網(wǎng)區(qū)東臺(泰)水文站為例,選取纜道和固定式H-ADCP 2022~2023年河道全斷面點流速實測數(shù)據(jù),基于Python軟件,分別運用6種機器學(xué)習(xí)模型:多層感知機模型、支持向量機回歸模型、最小二乘線性回歸模型、嶺回歸模型、袋裝算法和隨機森林算法擬合河道斷面流量,并對6種模型的斷面流量計算精度進行了比較分析。結(jié)果表明:隨機森林算法的流量計算精度高于其他模型,系統(tǒng)誤差、隨機不確定度、符號檢驗、適線檢驗、數(shù)值檢驗均能達到水文資料整編規(guī)范三類精度要求。研究成果對H-ADCP流量在線監(jiān)測的應(yīng)用推廣有借鑒意義。
關(guān)鍵詞:
流量測算; H-ADCP; 機器學(xué)習(xí)模型; 平原水網(wǎng)區(qū); 淮河流域
中圖法分類號:P332.4
文獻標志碼:A
DOI:10.15974/j.cnki.slsdkb.2025.02.004
文章編號:1006-0081(2025)02-0022-04
0 引 言
水文測驗是水文工作的基礎(chǔ),可為防汛抗旱、江河治理、工程建設(shè)、水資源管理等提供重要依據(jù)。其中,河道斷面流量測驗是水文測驗的重要任務(wù)之一[1]。聲學(xué)多普勒流速剖面儀(Acoustic Doppler Current Profiler,ADCP)能夠在不干擾流場情況下測出流速剖面,具有測量精度高、數(shù)據(jù)體量大、自動化程度高和效率高等特點,可實現(xiàn)流速數(shù)據(jù)的實時連續(xù)采集、傳輸和處理,以及流量的在線監(jiān)測[2]。ADCP已廣泛應(yīng)用于水文流量測驗工作中,并逐漸取代機械式、電磁式流速儀成為標準的流速測量儀器。目前最為常見的是水平式ADCP,即H-ADCP。
H-ADCP測得斷面某一水層的流速分布與斷面平均流速有相關(guān)性,因此數(shù)據(jù)獲取后需經(jīng)過分析處理才能用于推求斷面流量。斷面流量的推求方法主要有流速剖面法和代表流速法[3]。代表流速法通過分析某一水層上的流速分布,建立某一區(qū)間的代表流速與斷面平均流速之間的相關(guān)關(guān)系,進而推求斷面平均流量[1]。諸多應(yīng)用成果表明,在形狀基本穩(wěn)定,寬度、深度、流態(tài)等水力因素基本相同的斷面,代表流速與斷面平均流速之間存在著較強的相關(guān)關(guān)系,一般采用一元一次方程或二次方程擬合計算得到的流量就能達到滿足規(guī)范和生產(chǎn)要求的推流精度[4-8]。
近年來,機器算法、神經(jīng)網(wǎng)絡(luò)等先進技術(shù)逐步應(yīng)用于H-ADCP流量在線監(jiān)測推流。劉墨陽等[3]綜合考慮儀器入水深度、落差等因素,建立多元線性回歸模型推算斷面平均流速,利用最小二乘法求解模型參數(shù),同時針對小流量下推流精度低的問題,充分考慮相關(guān)性較強的單個流速網(wǎng)格單元,采用機器學(xué)習(xí)中的LASSO回歸模型進行參數(shù)估計,充分挖掘每個網(wǎng)格流速與實測斷面平均流速的關(guān)系,構(gòu)建推流方案。胡焰鵬等[9]采用小波分析法進行濾波處理,通過BP神經(jīng)網(wǎng)絡(luò)建立斷面平均流速與H-ADCP代表流速關(guān)系,實現(xiàn)了復(fù)雜水流河段(三峽—葛洲壩段)的流量自動測報及資料整編。袁德忠等[10]采用支持向量機、BP神經(jīng)網(wǎng)絡(luò)、極限學(xué)習(xí)機等機器學(xué)習(xí)方法,根據(jù)清泉溝水文站H-ADCP數(shù)據(jù)模擬斷面流速分布,探究了機器學(xué)習(xí)方法與傳統(tǒng)水文測驗結(jié)合的可能。
目前對于小流速且受通航影響的平原水網(wǎng)區(qū)的H-ADCP 應(yīng)用研究較少。本文基于Python軟件,以淮河流域東臺(泰)水文站纜道和固定式H-ADCP實際觀測資料為基礎(chǔ),利用多層感知機模型、支持向量機回歸模型、最小二乘線性回歸模型、嶺回歸模型模型、袋裝算法模型和隨機森林算法模型等6種機器學(xué)習(xí)算法擬合斷面流量,并利用均方誤差、平均誤差等進行精度比較研究,以此探索平原水網(wǎng)區(qū)小流速、通航條件下H-ADCP推流方案,研究結(jié)果對H-ADCP流量在線監(jiān)測推流的應(yīng)用推廣有借鑒意義。
1 研究方法
通過應(yīng)用Python機器學(xué)習(xí)開源框架scikit-learn,對水文資料整編中常用的纜道常測法所獲取的數(shù)據(jù)進行分析,以實現(xiàn)流量的高精度推算。具體而言,本研究選取了多層感知機(Multilayer Perceptron,MLP)模型、支持向量機回歸(Support Vector Regression,SVR)模型、最小二乘線性回歸(Ordinary Least Squares Regression,OLS)模型、嶺回歸(Ridge Regression,RG)模型、袋裝(Bagging,BAG)算法模型及隨機森林(Random Forest Algorithm,RF)算法模型作為模型框架。這些模型以測流時段的水位、斷面面積、斷面平均水深以及H-ADCP單元流速等水文參數(shù)作為自變量,通過自動尋優(yōu)算法優(yōu)化網(wǎng)絡(luò)層數(shù)、神經(jīng)元個數(shù)和優(yōu)化器等關(guān)鍵參數(shù),以期獲得更為精確的流量推算結(jié)果。
同時,采用實測流量與推算流量之間的系統(tǒng)誤差、標準差和隨機不確定度作為評估指標,對各模型的預(yù)測精度進行了綜合評估。
1.1 多層感知機模型
多層感知機是一種基于前饋神經(jīng)網(wǎng)絡(luò)的分類模型,它由輸入層、隱藏層和輸出層組成[11]。輸入樣本從輸入層經(jīng)隱藏層依次傳遞至輸出層。輸出與期望輸出誤差反向傳播[12]分攤至隱藏層、輸入層各個單元,并據(jù)其修正各單元權(quán)值,直至誤差滿足要求,或達到預(yù)定學(xué)習(xí)次數(shù)為止[13]。
1.2 支持向量機回歸模型
支持向量機是有監(jiān)督的機器學(xué)習(xí)算法,可用于分類和回歸分析[14]。將支持向量機應(yīng)用至回歸問題中,被稱之為支持向量機回歸。該方法是將非線性關(guān)系使用核函數(shù)映射至特征空間,達到降維目的,只有能產(chǎn)生支持向量的樣本點會影響函數(shù)模型,經(jīng)過最小化總損失和最大化間隔優(yōu)化后得出最佳模型[15]。
1.3 最小二乘線性回歸模型
最小二乘線性回歸模型的基本思想是通過最小化殘差平方和,找到使模型與觀測數(shù)據(jù)擬合最好的參數(shù)值。
1.4 嶺回歸模型
嶺回歸模型是一種專用于共線性數(shù)據(jù)分析的有偏估計回歸方法,實質(zhì)上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數(shù)更為符合實際、更可靠的回歸方法,對病態(tài)數(shù)據(jù)的擬合要強于最小二乘法。
1.5 袋裝算法模型
袋裝算法通過從觀測數(shù)據(jù)中抽取多個數(shù)據(jù)集,對每個數(shù)據(jù)集分別建立預(yù)測模型,再對模型的多個預(yù)測值求均值,減小預(yù)測值方差以提高預(yù)測精度,尤其對于那些不穩(wěn)定的預(yù)測模型,通過求均值減小方差使預(yù)測值更加穩(wěn)定[16]。
1.6 隨機森林算法模型
隨機森林算法常用于解決回歸問題、分類問題,能使模型預(yù)測方差減小,泛化能力較強[17]。隨機森林算法基本思路是訓(xùn)練樣本集經(jīng)過訓(xùn)練后構(gòu)造一棵決策樹,但由于單棵決策樹易導(dǎo)致過度擬合,因此將多棵決策樹集成“森林”,形成強大的決策分類器[18]。
1.7 評價指標
采用系統(tǒng)誤差、標準差和隨機不確定度評價流量模擬精度。以n表示觀測值數(shù)量;Qi表示i次實際觀測流量,m3/s;Qci表示模型i次擬合流量,m3/s。
(1) 系統(tǒng)誤差(ME)采用實測點與關(guān)系線相對誤差的平均值,計算公式如下:
ME=1n∑ni=1Qi-QciQci×100%
(2) 標準差(Se)計算公式如下:
Se=1n-2∑ni=1Qi-QciQci×100%212
(3) 隨機不確定度計算公式如下:
X′Q=2Se
式中:X′Q為置信水平為95%的隨機不確定度。
2 應(yīng)用實例
2.1 研究區(qū)概況
東臺(泰)水文站設(shè)于2003年1月1日,位于江蘇省鹽城市的通榆河和泰東河接線段,是鹽城市和泰州市分界河道監(jiān)測站。測驗河段下游150.0 m處開始彎曲與通榆河相連,河道邊坡高程0~3.0 m,部分為混凝土護坡,坡比1∶3;邊坡底高程-4.0~0 m部分為自然土坡,坡比1∶5;河底較為平坦,底寬45.0 m,斷面實測最低高程為-4.88 m,主泓道位于起點距50.0~65.0 m處。河道流速一般為-0.10~0.45 m/s,最大流速約0.50 m/s。河段水位、流量受泰東河上游來水及其下游通榆河來水影響。
自2003年建站以來,東臺(泰)水文站一直采用傳統(tǒng)的連實測流量過程線法進行資料整編。2014年3月開始嘗試采用H-ADCP測量河道流速,但因河道水流受行船影響,H-ADCP代表流速與斷面流速之間相關(guān)關(guān)系無法達到滿足規(guī)范要求的推流精度,增大了H-ADCP在該河段應(yīng)用的難度。
2.2 數(shù)據(jù)選擇及處理
本研究數(shù)據(jù)采用東臺(泰)水文站2022年1月至2023年5月纜道實測斷面平均流速、斷面面積、斷面平均水深。船行波對觀測數(shù)據(jù)的影響是一個不可忽視的因素,為了最大限度地減少這種影響,采取了與纜道測流法中垂線位置一致的策略,即選擇在河道中心進行測量。H-ADCP同期平均流速選取左側(cè)第23單元和中間第45單元各39組實測數(shù)據(jù)。H-ADCP 選用的第23單元和第45單元起點位置如圖1所示。隨機選取數(shù)據(jù)集的75%作為訓(xùn)練集,25%作為測試集。
2.3 結(jié)果分析
6種模型測試數(shù)據(jù)預(yù)測精度成果見表1。由表1可知,從系統(tǒng)誤差、標準差以及系統(tǒng)不確定度來看,隨機森林(RF)算法擬合結(jié)果最優(yōu),其次是袋裝算法(BAG),支持向量機回歸模型(SVR)擬合結(jié)果最差。多次隨機選取訓(xùn)練集和測試集,測試結(jié)果雖稍有差異,但均未影響精度評定結(jié)論。
為進一步驗證隨機森算法的推流精度,選取未參加模型訓(xùn)練的2023年6~8月實測數(shù)據(jù)進行分析。模擬結(jié)果顯示,推算流量與實測流量的系統(tǒng)誤差為0.8%,標準差為6.9%,系統(tǒng)不確定度為13.8%,模擬結(jié)果較好。實測流量與推算流量的曲線見圖2。根據(jù)SL/T 247-2020《水文資料整編規(guī)范》規(guī)定,對實測流量與模擬流量進行符號、適線和偏離檢驗,檢驗結(jié)果均符合三項檢驗允許值要求(表2)。
3 結(jié) 語
為加強H-ADCP在平原水網(wǎng)區(qū)小流速、通航河段的應(yīng)用,以東臺(泰)水文站纜道實測斷面流速和H-ADCP同期流速為基礎(chǔ),將6種機器學(xué)習(xí)模型應(yīng)用于H-ADCP推流,并比較模擬結(jié)果,得出下列結(jié)論:
(1) 對于平原水網(wǎng)區(qū)小流速、通航河段,在H-ADCP代表流速與斷面流速之間相關(guān)關(guān)系無法達到規(guī)范要求時,可以通過機器學(xué)習(xí)模型開展推流工作。
(2) 從系統(tǒng)誤差、標準差來看,隨機森林算法模型擬合效果最好,精度最高,在實際推流中可優(yōu)先考慮。
由于H-ADCP在東臺(泰)水文站運行時間不長,其間又經(jīng)歷維護改造,本次應(yīng)用采用的樣本數(shù)量集還不夠多,后續(xù)應(yīng)持續(xù)開展觀測比較,以進一步驗證模型的準確性和穩(wěn)定性。本次研究取用2個單元流速作為輸入變量,實際中也可以根據(jù)斷面流速分布特點及其復(fù)雜性,選取3個或者多個單元流速作為輸入,可進一步提高模型的精度。
參考文獻:
[1] 朱彩琳,陳利晶,李冰瑤,等.感潮河道 H-ADCP 代表流速優(yōu)選[J].水利水電快報,2024,45(1):12-17.
[2] 吳志勇,徐梁,唐運憶,等.水文站流量在線監(jiān)測方法研究進展[J].水資源保護,2020,36(4):1-7.
[3] 劉墨陽,蔣四維,林云發(fā),等.復(fù)雜水情下H-ADCP 流量在線監(jiān)測推流方法[J].水利水電科技進展,2022,42(2):27-34.
[4] 韋立新,蔣建平,曹貫中.南京水文實驗站ADCP 流量測驗方法改進研究[J].水利水電快報,2017,38(6):11-14.
[5] 曾雅立,張偉革,樊麗娜,等.宜昌站H-ADCP 流量關(guān)系率定及應(yīng)用[J].水利水電快報,2019,40(2):14-16,25.
[6] 洪為善,鄭月光,羅玉全,等.水平式聲學(xué)多普勒流速儀在受水工程影響測站的應(yīng)用[J].水文,2011,31(增1):84-86.
[7] 杜興強,秦凱,楊成,等.湖北清江高壩洲水文站流量自動化監(jiān)測實踐[J].水利水電快報,2020,41(7):14-17.
[8] 徐剛,胡焰鵬,樊云,等.H-ADCP 實時流量在線監(jiān)測系統(tǒng)研究[J].中國農(nóng)村水利水電,2009(9):92-95.
[9] 胡焰鵬,葉德旭,李云中.基于小波分析和 BP 神經(jīng)網(wǎng)絡(luò)的水平式聲學(xué)多普勒流速儀整編方法研究[J].水文,2011,31(增1):143-147.
[10] 袁德忠,曾凌,蔣正清.機器學(xué)習(xí)模型在H-ADCP在線測流系統(tǒng)中的應(yīng)用[J].人民長江,2020,51(11):70-75.
[11] 齊煥東,朱程,李序春,等.基于規(guī)則集和多層感知機的Argo溫度數(shù)據(jù)質(zhì)量控制方法[J].熱帶海洋學(xué)報,2024,43(5):190-202.
[12] 何如,管兆勇,金龍.一種神經(jīng)網(wǎng)絡(luò)的云圖短時預(yù)測方法[J].大氣科學(xué)學(xué)報,2010,33(6):725-730.
[13] 李倩,申雙和,曹雯,等.南方塑料大棚冬春季溫濕度的神經(jīng)網(wǎng)絡(luò)模擬[J].中國農(nóng)業(yè)氣象,2012,33(2):190-196.
[14] 吳慧臻,李東升,楊再強,等.基于四種算法比較分析 Venlo 型玻璃溫室氣溫季節(jié)預(yù)報模型[J].中國農(nóng)業(yè)氣象,2024,45(2):135-146.
[15] 王定成.溫室環(huán)境的支持向量機回歸建模[J].農(nóng)業(yè)機械學(xué)報,2004(5):106-109.
[16] 李香飛,張曉光,吳鴻雁.機器學(xué)習(xí)模型在切削力預(yù)測中應(yīng)用研究[J].機電工程技術(shù),2022,51(5):123-127.
[17] 薛薇.Python機器學(xué)習(xí)數(shù)據(jù)建模與分析[M].北京:機械工業(yè)出版社,2021.
[18] 李文娟,趙放,酈敏杰,等.基于數(shù)值預(yù)報和隨機森林算法的強對流天氣分類預(yù)報技術(shù)[J].氣象,2018,44(12):1555-1564.
(編輯:江 文)
Accuracy comparative study on H-ADCP flow measurement based on machine learning models in plain water network area
PAN Daohong1,XIN Penglei2,XIA Fei1,WANG Qi1,LI Ang1,ZHA Hong1
(1.Yancheng Substation,Bureau of Hydrology and Water Resources Survey of Jiangsu Province,Yancheng 224000,China;
2.Nantong Substation,Bureau of Hydrology and Water Resources Survey of Jiangsu Province,Nantong 226001,China)
Abstract: In order to improve the accuracy of H-ADCP flow measurement in plain water network,we took the Dongtai hydrographic station of Huaihe River Basin plain water network area as an example,and selected full section flow velocity measurement data of the cable type and fixed H-ADCP from 2022 to 2023.Then we used six machine learning models,namely multi-layer perception,support vector regression machine,least squares linear regression,ridge regression model,bagging method,and random forest algorithm to fit the river section flow based on Python software.And an comparative study on accuracy of the flow by the 6 models was conducted.The results showed that the random forest algorithm had a higher accuracy than other models,and the system error,random uncertainty,symbol test,fitting test,and numerical test could meet the third class accuracy requirements of the hydrological data compilation standards.The research results can provide a reference for the application and promotion of H-ADCP online traffic monitoring.
Key words:
flow measurement; H-ADCP; machine learning model; plain water network area; Huaihe River Basin