孫 前,陳 方,劉金濤,吳國群
(1.太湖流域水文水資源監(jiān)測中心,江蘇 無錫 214024; 2.河海大學(xué)水文水資源學(xué)院, 江蘇 南京 210098)
基于影響因子數(shù)據(jù)年際分類的太湖典型口門流量估算方法
孫 前1,2,陳 方1,劉金濤2,吳國群2
(1.太湖流域水文水資源監(jiān)測中心,江蘇 無錫 214024; 2.河海大學(xué)水文水資源學(xué)院, 江蘇 南京 210098)
基于太湖典型口門瓜涇口站1966—2014年(1989—2005年缺)的流量、水位、降水及周圍站點水位等數(shù)據(jù),采用多元線性回歸分析法構(gòu)建太湖流量估算模型。采用聚類分析方法,對流量的影響因子年際序列矩陣進行相似分類,找出與目標年(待估算流量的年份)相似的年份,然后依據(jù)相似年份數(shù)據(jù)率定回歸模型參數(shù)。通過與基于常系列數(shù)據(jù)建立的回歸模型進行比較發(fā)現(xiàn),基于相似年份數(shù)據(jù)建立的回歸模型的估算精度更高。
太湖瓜涇口站;聚類分析;流量估算;多元線性回歸
太湖流域重要河湖口門取水總量的估算,對開展太湖取水總量控制和計劃用水工作,細化流域水量分配,以及實現(xiàn)依法治水、依法管水等具有重要意義。估算水量的傳統(tǒng)一潮推流法,使用廣泛,能夠達到精度要求,但不適合所有情形的口門,特別是對于閘門變動較大的水閘,每年需重新校測,測驗任務(wù)繁重,目前還沒有較好的解決方法[1]。國內(nèi)學(xué)者在水量估算方面做了眾多研究,如萬曉凌等[2]改進的水位差關(guān)系法,較為簡易可行,但對測次及使用條件有一定要求。左一鳴等[3]、朱漫莉等[4]采用動力學(xué)方法進行流域水量平衡過程模擬,此類研究能有效提高計算速度,縮短計算時間,但建模過程較為復(fù)雜,工作量大,且計算時間較長[3]。此外,遙感與同位素技術(shù)也被應(yīng)用于太湖河網(wǎng)區(qū)的水量估算。如陸寶宏等[5]利用水量平衡與同位素質(zhì)量守恒原理構(gòu)建了河網(wǎng)地區(qū)水量分配模型,可以用來近似估算河網(wǎng)區(qū)不同地點的受水量;張國慶等[6]結(jié)合湖面高程與面積變化對區(qū)域氣候變化的響應(yīng),利用遙感衛(wèi)星數(shù)據(jù)快速有效估算湖泊水量平衡。然而,水樣同位素測試和遙感信息提取對人員和設(shè)備的要求較高,限制此類方法的推廣。
傳統(tǒng)的基于數(shù)理統(tǒng)計的水文學(xué)方法,根據(jù)收集的歷年數(shù)據(jù),利用多元線性回歸推求估算公式,特點是方法簡單,精度較高[7],可方便地進行流量估算。且太湖局采用由基點站和巡測斷面所組成的水文駐測與巡測相結(jié)合的水文觀測方式,可為此方法提供大量數(shù)據(jù)[8]。但是,由于環(huán)湖口門水文條件可能隨時間發(fā)生改變[9],數(shù)據(jù)系列會存在不一致現(xiàn)象。因此,在建立回歸模型的過程中,需要對數(shù)據(jù)系列進行分類,以消除這種影響。為此,筆者通過引入聚類分析方法,對瓜涇口站流量影響因子的時間序列數(shù)據(jù)[10-11]進行分類,進而建立流量的估算回歸模型,以期提高估算精度。
圖1 太湖流域水資源分區(qū)與瓜涇口站及周圍站點分布Fig.1 Water resources division and locations of Guajingkou Station and surrounding stations in Taihu Lake Basin
1.1 資料來源
根據(jù)太湖流域水系特點及行政分區(qū),將其分為8個四級水資源區(qū)(圖1),其中與環(huán)太湖出入湖水量最為密切的有5個區(qū),分別為湖西區(qū)、浙西區(qū)、陽澄淀泖區(qū)、武澄錫虞區(qū)和杭嘉湖區(qū)[12]。
依據(jù)太湖流域水文監(jiān)測站點的分布情況以及計算方法對資料系列的要求,以位于太湖東側(cè)、資料最全面的瓜涇口站為研究對象,建立模型估算1966—1988年、2006—2014年(共32 a)中任一目標年的流量。建模時以同期的瓜涇口站水位、降水[13]、蒸發(fā)及瓜涇口下游與其具有較密切水力聯(lián)系的水位站陳墓站、商榻站[14]的水位作為可能的影響因子,同時各數(shù)據(jù)均采用月平均值。
1.2 研究方法
首先,收集瓜涇口站及鄰近站點的相關(guān)數(shù)據(jù),基于SPSS軟件,采用單相關(guān)系數(shù)法(Pearson法)遴選與流量相關(guān)的影響因子;然后,確定目標年,并分別采用常規(guī)方法與分類方法構(gòu)建流量估算公式。常規(guī)方法采用目標年之前所有年份的數(shù)據(jù),利用多元線性回歸分析方法建立月平均流量與所遴選的影響因子之間的關(guān)系模型,并通過最小二乘法確定該模型各項的系數(shù)。分類方法通過引入聚類分析,對瓜涇口站影響因子的多年數(shù)據(jù)進行分類,從而選出與目標年數(shù)據(jù)相似的年份,依據(jù)相似年份的數(shù)據(jù)進行多元線性回歸分析,構(gòu)建流量估算模型。
如果以年為單位,以目標預(yù)測年的流量為對象,則某些年份的輸入矩陣可能會與其他年份的相似。分類方法在建立回歸模型前,對數(shù)據(jù)矩陣進行分類,得出與目標年數(shù)據(jù)相似的年份,然后用該年份的影響因子矩陣率定模型參數(shù),估算精度會顯著提高。
根據(jù)遴選的影響因子(自變量x1、x2、…、xm)對流量(因變量y)建立的多元線性回歸模型為
y=β0+β1x1+β2x2+…+βmxm+ε
(1)
式中:ε——相互獨立且服從N(0,σ2)的隨機變量;m——自變量個數(shù);β0~βm——系數(shù)。假設(shè)共有n組實測數(shù)據(jù),可以根據(jù)實測值采用最小二乘法對參數(shù)β0~βm做出估計。
1.3 結(jié)果評價
選用年總流量累計誤差δ(式(2))及確定性系數(shù)R2(式(3))對預(yù)測結(jié)果進行評價。
(2)
(3)
2.1 水文影響因子遴選
由于瓜涇口站、陳墓站、商榻站數(shù)據(jù)較全,因此為了保證數(shù)據(jù)系列的一致性,選取瓜涇口站水位Zg、瓜涇口站降水Pg、陳墓站水位Zcm、商榻站水位Zst、瓜涇口站與陳墓站水位差(Zg-Zcm)、瓜涇口站與商榻站水位差(Zg-Zst)6個因子進行影響因子分析。所選站點數(shù)據(jù)均采用月平均數(shù)據(jù),水位數(shù)據(jù)均為黃?;?。
采用Pearson法對多年以及單個年份的影響因子數(shù)據(jù)進行相關(guān)性分析,結(jié)果見表1。由表1可知,Zg、Pg、Zg-Zcm、Zg-Zst與流量Qg的相關(guān)系數(shù)較高,t檢驗的顯著性概率均小于0.05,表明瓜涇口站Qg與這些影響因子始終呈顯著相關(guān)。而Zcm、Zst與Qg的相關(guān)性較差,未通過顯著性檢驗。由表1可知,顯著影響因子沒有因年份的不同發(fā)生改變,故最終選定的影響因子為:Zg、Pg、Zg-Zcm、Zg-Zst。
表1 各影響因子與流量Qg的相關(guān)分析結(jié)果
2.2 聚類分析
因各影響因素的單位不同,因此需要對指標數(shù)據(jù)進行標準化,本文采用Z-score標準化方法,也稱為標準差標準化。
由聚類樹狀圖(圖2)可知,瓜涇口站1966—1988年數(shù)據(jù)與2006—2014年數(shù)據(jù)被分成2類。這是由于2002年后,“引江濟太”工程以及瓜涇口的疏浚工程的實施,使得瓜涇口站的數(shù)據(jù)情況發(fā)生了質(zhì)的變化[13],所以1966—1988年的數(shù)據(jù)無法用于2002年后流量情況的估算。因此,分別在2類數(shù)據(jù)中進行分析,并各選取一個目標年進行流量的推求。為使目標年所具有的歷史數(shù)據(jù)足夠長,且保障在數(shù)據(jù)系列中目標年具有一個最為相似的年份,故以年份相對靠后以及在圖2中位置相對靠上的1988年和2011年為例進行聚類分析。根據(jù)圖2及聚類分析中的相似性水平λ值,同一組中相對位置靠上的2樣本,相似度更高,因此與1988年數(shù)據(jù)最接近的年份為1985年,而與2011年數(shù)據(jù)最接近的年份為2008年。
圖2 瓜涇口站1966—1988年、2006—2014年數(shù)據(jù)聚類結(jié)果Fig.2 Data hierarchical diagram during periods from 1966 to 1988 and from 2006 to 2014 at Guajingkou Station
2.3 流量計算
2.3.1 1988年流量計算
由圖2可知,與1988年最接近的是1985年的數(shù)據(jù)。所以用1985年數(shù)據(jù)做多元線性回歸,得出流量計算公式:
Qg=-66.388+157.801Zg+0.008Pg-129.398(Zg-Zcm)-18.981(Zg-Zst)
(4)
同時采用瓜涇口站1966—1987年歷史數(shù)據(jù)推求1988年流量,得到常規(guī)方法的流量估算公式:
Qg=-61.322+25.202Zg-0.023Pg+2.038(Zg-Zcm)-1.017(Zg-Zst)
(5)
圖3給出了常規(guī)方法與分類方法推求的1988年流量過程線,從圖3可以看出,分類方法推求的結(jié)果較好,不僅趨勢一致,且系統(tǒng)誤差也大大降低,僅個別月份出現(xiàn)較大誤差,結(jié)果較為理想。
圖3 常規(guī)方法與分類方法推求的1988年流量過程線Fig.3 Discharge hydrographs in 1988 obtained from conventional method and classification method
2.3.2 2011年流量計算
由圖2可知,與2011年最接近的是2008年的數(shù)據(jù),所以用2008年數(shù)據(jù)做多元線性回歸,得出的2011年瓜涇口站流量計算公式為
Qg=-168.108+229.435Zg-0.009Pg+1.646(Zg-Zcm)+199.527(Zg-Zst)
(6)
采用瓜涇口站2006—2010年歷史數(shù)據(jù)推求2011年流量,得出常規(guī)方法的流量估算公式:
Qg=-186.485+200.760Zg-0.024Pg-6.376(Zg-Zcm)-149.617(Zg-Zst)
(7)
圖4給出了常規(guī)方法與分類方法推求的2011年流量過程線。由圖4可知,使用與2011年最為接近的2008年推求出的結(jié)果與常規(guī)方法推求的結(jié)果均較好,趨勢基本一致。
圖4 常規(guī)與分類方法推求的2011年流量過程線Fig.4 Discharge hydrographs in 2011 obtained from conventional method and classification method
2.3.3 誤差分析
由圖3~4、表2可得,1988年確定性系數(shù)由常規(guī)方法的0.58上升到分類方法的0.77,年流量相對誤差相應(yīng)地由50.5%下降到15.7%,各月的總流量相對誤差也有大幅下降,因此,分類方法相較于常規(guī)方法,無論是流量過程還是流量的預(yù)測精度均有較大幅度的提升。分類方法需要長系列年的數(shù)據(jù)予以支撐,數(shù)據(jù)年份較多的時候,更容易找到相似程度較高的年份,推求出的效果也會更佳。例如2011年,常規(guī)方法與聚類分析的方法推求出的結(jié)果差別不大,這正是由于缺少與2011年數(shù)據(jù)相似程度較高的年份來率定模型參數(shù),在這種情況下,可以分別計算和比較2種方法的確定性系數(shù)及相對誤差,選擇預(yù)測精度相對較高的方法。
需要說明的是,2種方法對不同目標年的預(yù)測效果存在不同程度的差異,主要是由于瓜涇口站每年的水文條件不盡相同,收集的影響因子數(shù)據(jù)可能不夠全面[15],或者存在較大或較小的“特殊值”,文中所建立的多元線性回歸模型仍屬于統(tǒng)計學(xué)范疇,容易受到特殊值的擾動,影響預(yù)測效果,同時對于波峰、波谷數(shù)據(jù)的預(yù)測誤差也相對較大[16]。
表2 常規(guī)方法與分類方法估算的流量相對誤差
建立了基于多元回歸方程的太湖典型口門流量估算模型,建模時嘗試引入水文時間序列相似分析方法,即以年份為單位,通過聚類分析方法對已收集的歷史數(shù)據(jù)序列進行分類,據(jù)此建立回歸模型并進行目標年流量估算。對瓜涇口站1966—2014年(缺1989—2005年)資料序列的聚類分析,分別選用常系列數(shù)據(jù)和最相似年份(1985年和2008年)數(shù)據(jù)建立回歸模型。預(yù)測結(jié)果顯示,基于聚類分析的線性回歸方法明顯優(yōu)于常規(guī)方法。這表明,在具備足夠長的歷史資料的前提下,這種改進方法可以有效提高太湖主要口門流量估算的精度。
值得注意的是,分類方法需要一定序列長度的歷史數(shù)據(jù),通常為20 a以上,所以對目標站點的選取是有一定要求的。此外,系列中數(shù)據(jù)相似程度較高的年份,采用該方法的改進效果更為顯著(例如對1988年的預(yù)測效果提升要好于2011年)。
[ 1 ] 仲兆林. 常州沿江感潮河道水文站水位流量關(guān)系綜合定線分析[J]. 廣東水利水電, 2009(11):33-34.(ZHONG Zhao lin. Comprehensive alignment analysison the stage-discharge relation at hydrological station intided channel along the river in Changzhou[J]. Guangdong Water Resources and Hydropower,2009(11):33-34.(in Chinese))
[ 2 ] 萬曉凌, 陸小明, 周毅,等. 感潮水閘引水量計算方法研究[J]. 長江科學(xué)院院報, 2013, 30(4):17-20.(WAN Xiaoling, LU Xiaoming, ZHOU Yi,et al.Method of calculating water diversion amount of tidal sluice[J].Journal of YangtzeRiver Scientific Research Institute,2013, 30(4):17-20. (in Chinese))
[ 3 ] 左一鳴, 崔廣柏. 二維水動力模型的并行計算研究[J]. 水科學(xué)進展, 2008, 19(6):846-850.(ZUO Yiming, CUI Guangbai.Parallel computation for 2D flow model [J].Advances in Water Science,2008, 19(6):846-850. (in Chinese))
[ 4 ] 朱漫莉,高海鷹,徐力剛,等.基于系統(tǒng)動力學(xué)方法的鄱陽湖流域水量平衡過程模擬與分析[J].水資源保護,2015,31(3):46-52. (ZHU Manli, GAO Haiying, XU Ligang, et al.Simulation and analysis of water balance process in Poyang Lake Basin based on system dynamic approach [J]. Water Resources Protection, 2015,31(3):46-52. (in Chinese))
[ 5 ] 陸寶宏, 孫營營, 馬樂軍,等. 利用同位素質(zhì)量守恒原理估算太湖河網(wǎng)受水量[J]. 河海大學(xué)學(xué)報(自然科學(xué)版), 2009, 37(6):645-649. (LU Baohong, SUN Yingying, MA Lejun,et al.Estimation of water amount in river network of Taihu Lake based on isotopic mass conservation [J]. Journal ofHohaiUniversity(Natural Sciences),2009, 37(6):645-649.(in Chinese))
[ 6 ] 張國慶, XIE Hongjie,姚檀棟,等. 基于ICESat和Landsat的中國十大湖泊水量平衡估算[J]. 科學(xué)通報, 2013(26):2664-2678.(ZHANG Guoqing, XIE HongJie, YAO Tandong, et al. Water balance estimates of ten greatest lakes in China using ICESat and Landsat data[J]. Chin Sci Bull, 2013(26):2664-2678.(in Chinese))
[ 7 ] 向速林, 劉占孟, 尤本勝.地下水流量預(yù)測的多元線性回歸分析模型研究[J]. 水文, 2006, 26(6):36-37.(XIANG Sulin, LIU Zhanmeng, YOU Bensheng.Study on multivariate linear regression analyzing model for groundwater discharge forecasting [J]. Journal of ChinaHydrology,2006, 26(6):36-37. (in Chinese))
[ 8 ] 劉文龍,壽祥,張文龍. 太湖進出水量平衡計算與分析[J]. 中國西部科技,2010,9(14):34-35.(LIU Wenlong, SHOU Xiang, ZHANG Wenlong.Estamites and analysisofTaihu Lake Water Balance. [J] Science and Technology of West China,2010,9(14):34-35. (in Chinese))
[ 9 ] 沈國華, 王謙. 太湖進出水量變化對水環(huán)境的影響[J]. 水資源保護, 2013, 29(1):46-50.(SHEN Guohua, WANG Qian.Influences of input and output flow on water environment in Taihu Lake [J].Water Resources Protection,2013, 29(1):46-50.(in Chinese))
[10] 湯成友, 郭麗娟, 王瑞. 水文時間序列逐步回歸隨機組合預(yù)測模型及其應(yīng)用[J]. 水利水電技術(shù), 2007, 6(6):1-4.(TANG Chengyou, GUO Lijuan, WANG Rui.Application of prediction model for stochastic combination of stepwise regression of hydrologic time series[J].Water Resources and Hydropower Engineering,2007, 6(6):1-4. (in Chinese))
[11] 歐陽如琳, 任立良, 周成虎. 水文時間序列的相似性搜索研究[J]. 河海大學(xué)學(xué)報(自然科學(xué)版), 2010, 3(3):241-245.(OUYANG Rulin,REN Liliang,ZHOU Chenghu.Similarity search in hydrological time series[J]. Journal of Hohai University(Natural Sciences), 2010, 3(3):241-245.(in Chinese))
[12] 申金玉, 甘升偉, 陳潤,等. 環(huán)太湖出入湖水量影響因素分析及對策措施研究[J]. 水資源保護, 2011, 27(6):48-52.(SHEN Jinyu, GAN Shengwei, CHEN Run,et al. Analysis of influencing factors of inflow and outflow around Taihu Lake andcountermeasures[J].Water Resources Protection, 2011, 27(6):48-52. (in Chinese))
[13] 申金玉,石亞東,甘升偉,等. 太湖流域湖西區(qū)入湖水量變化趨勢及成因分析[J]. 水資源保護,2011,27(4):48-50.(SHEN Jinyu, SHI Yadong, GAN Shengwei, et al. Changing trend of water entering western area of Taihu Lake Basin and causalanalysis[J]. Water Resources Protection, 2011,27(4):48-50. (in Chinese))
[14] 戈禮賓,潘彩英,張泉榮,等.太湖水位資料系列分析與水位特征值計算[J]. 水資源研究,2008,29(4):7-8.(GE Libing, PAN Caiying, ZHANG Quanrong, et al. The analysis with the water leveland eigenvalue calculation in Taihu Lake [J]. Water Resources Research, 2008, 29(4): 7-8. (in Chinese))
[15] 李文運,張偉,戈建民,等. 水量平衡分析方法及應(yīng)用[J]. 水資源保護, 2011, 27(6):83-87.(ZHANG Wenyun, ZHANG Wei, GE Jianmin, et al.Water balance analysis method and its application[J]. Water Resources Protection,2011, 27(6):83-87. (in Chinese))
[16] 周文斌,車倩. 多元線性回歸法在水文預(yù)報中的應(yīng)用[J]. 山西建筑,2009, 35(1):359-360.(ZHOU Wenbin, CHE Qian. Use of multi factor line regression method for hydrogicalforecast[J]. Shanxi Architecture,2009, 35(1):359-360. (in Chinese))
Method for estimation of discharge at typical entrance of TaihuLake based on annual classification of impact factor data
SUN Qian1, 2, CHEN Fang1, LIU Jintao2, WU Guoqun2
(1.MonitoringCenterofHydrologyandWaterResourcesofTaihuBasinAuthority,Wuxi214024,China;2.CollegeofHydrologyandWaterResources,HohaiUniversity,Nanjing210098,China)
Based on discharge, water level, and precipitation data at the Guajingkou Station and water level data at surrounding stations from 1966 to 2014 (with data missing from 1989 to 2005), a model for estimation of discharge in Taihu Lake was established with multiple linear regression. The annual sequence matrixes of the impact factors of the discharge were classified using clustering analysis according to the similarity, the years similar to the objective years were determined, and, finally, the regression model parameters were calibrated based on the data from similar years. Compared with the regression model based on the common series data, the regression model based on the data from similar years has a higher accuracy.
Guajingkou Station in Taihu Lake;clustering analysis; discharge estimation;multiple linear regression
10.3876/j.issn.1000-1980.2017.03.005
2016-05-17
國家“十三五”重點研發(fā)計劃(2016YFC0401501)
孫前(1991—),男,河南鄭州人,碩士研究生,主要從事流域水文模擬研究。E-mail:qhsqsc2006@163.com
P333.1
A
1000-1980(2017)03-0218-06