袁福懷,王清香
(中順大圍工程管理處,廣東 中山 528400)
珠江三角洲河網(wǎng)地區(qū)水事件頻發(fā),每年都會(huì)經(jīng)歷洪水、暴雨、臺(tái)風(fēng)暴潮及咸潮等事件,受潮汐影響,每天都有潮起潮落,水文環(huán)境時(shí)刻發(fā)生著變化,復(fù)雜錯(cuò)綜的水事件或因果相關(guān),或偶發(fā)疊加,在應(yīng)對(duì)和防御這些事件的過程中,當(dāng)?shù)厮こ坦芾聿块T采取了一系列水利工程調(diào)度措施,這些工程開啟閉運(yùn)行指令的組合都構(gòu)成事件。
這些事件或獨(dú)立發(fā)生,或疊加發(fā)生,但均有開始、演變、發(fā)展和結(jié)束等過程。事件的開始和結(jié)束均有明顯的時(shí)間標(biāo)記和水文特征值,演變過程由一系列水文特征數(shù)值組成,與時(shí)間序列對(duì)應(yīng)。它們常常疊加發(fā)生,互相影響,具備因果關(guān)系,如臺(tái)風(fēng)可能導(dǎo)致暴雨、暴潮,暴雨時(shí)常與洪水相伴,洪水有時(shí)會(huì)遭遇天文大潮,應(yīng)對(duì)事件必須要采取相應(yīng)的工程調(diào)控措施,工程措施實(shí)施后會(huì)影響受控范圍的水文特征變化。但事件的過程建立在時(shí)間序列上,伴隨事件產(chǎn)生和結(jié)束。
作為一種新的數(shù)據(jù)分析工具,數(shù)據(jù)挖掘技術(shù)的發(fā)展十分迅速,而水文數(shù)據(jù)挖掘研究近年來不斷發(fā)展,從早期水文數(shù)據(jù)的單項(xiàng)和局部數(shù)據(jù)的模擬與處理方面[1-2],向?qū)谒臄?shù)據(jù)庫的全局性、多元化、相似性等因素?cái)?shù)據(jù)挖掘研究和應(yīng)用方面不斷深入[3-5]。本文利用水文數(shù)據(jù)的相似性特點(diǎn),提出了基于事件的多元水文數(shù)據(jù)整編與挖掘思路,通過對(duì)事件的分類、定義、數(shù)據(jù)提取,特征搜索與數(shù)據(jù)挖掘,以期構(gòu)建基于水事件的經(jīng)驗(yàn)?zāi)P秃椭R(shí)體系。
正確理解和掌握事件的實(shí)時(shí)性、連續(xù)性、偶發(fā)性、多元性、相似性等特點(diǎn),通過時(shí)間序列上的多元相關(guān)性分析應(yīng)用,借助數(shù)據(jù)挖掘,綜合分析,查找出事件發(fā)生規(guī)律,總結(jié)出應(yīng)對(duì)事件的經(jīng)驗(yàn)和方法,達(dá)到對(duì)未來事件正確防范、從容應(yīng)對(duì)的目標(biāo)。
中順大圍試驗(yàn)區(qū)位于廣東省中山市,屬珠江三角洲河網(wǎng)地區(qū),長 120 km,分東西 2 條干堤,與南部五桂山區(qū)構(gòu)成 1 個(gè) 790 km2的三角形防洪工程,沿堤近 50 座水閘控制著內(nèi)部上百條縱橫交錯(cuò)的河網(wǎng)流態(tài),形成了 1 個(gè)封閉的流域范圍,圍內(nèi)(中順大圍范圍內(nèi))主要水事件有洪水、暴雨、臺(tái)風(fēng)、咸潮及水閘調(diào)度等 5 類事件。
主要指西江上游產(chǎn)生洪峰,中順大圍外江水位上漲,參考水文站水位到達(dá)防洪預(yù)案設(shè)定限值時(shí)的演變過程,關(guān)注重點(diǎn)是外江水位、潮位,圍內(nèi)降雨和內(nèi)河水位,同時(shí)關(guān)注與之伴隨的工程調(diào)度措施。洪水期間,堤防水閘一般關(guān)閉,圍內(nèi)河網(wǎng)水體停流,如遇圍內(nèi)暴雨或外江水位長期高位維持,圍內(nèi)則面臨內(nèi)澇和水環(huán)境惡化的困境,需要挖掘或提取綜合利用洪水資源、借助下游潮汐和泵站調(diào)度解決內(nèi)澇或水環(huán)境困境的知識(shí)體系,建立應(yīng)對(duì)洪水事件的經(jīng)驗(yàn)?zāi)P汀?/p>
主要指圍內(nèi)發(fā)生降雨,根據(jù)強(qiáng)度演變?yōu)榭赡艿谋┯?、大暴雨等事件,?dǎo)致圍內(nèi)內(nèi)河水位上漲,重點(diǎn)關(guān)注降雨量、降雨強(qiáng)度、內(nèi)河水位演變過程,相關(guān)關(guān)注外江水位、潮位及與之伴隨的工程調(diào)度措施。暴雨期間,需要對(duì)圍內(nèi)水量預(yù)排,排水量大小關(guān)系內(nèi)澇和圍內(nèi)工農(nóng)業(yè)用水,需要挖掘或提取歷史暴雨及預(yù)排的應(yīng)對(duì)調(diào)度措施,建立不同降雨量、強(qiáng)度下圍內(nèi)河涌水位上升速度與排澇工程措施的關(guān)系模型,以期建立起應(yīng)對(duì)暴雨事件的經(jīng)驗(yàn)?zāi)P汀?/p>
主要指西太平洋或南海生成的熱帶氣旋,視強(qiáng)度不同經(jīng)由熱帶低氣壓、熱帶風(fēng)暴、強(qiáng)熱帶風(fēng)暴、臺(tái)風(fēng)、強(qiáng)臺(tái)風(fēng)、超強(qiáng)臺(tái)風(fēng)等 6 個(gè)等級(jí)的變化過程。重點(diǎn)關(guān)注中心位置、移動(dòng)方向和速度、風(fēng)力等級(jí)等,相關(guān)關(guān)注由此產(chǎn)生的降雨、水位、潮位變化及采取的工程調(diào)度防御措施等。臺(tái)風(fēng)往往帶來大的風(fēng)暴潮和暴雨,但有時(shí)并沒有多少降雨,因此在防御臺(tái)風(fēng)事件時(shí)常常綜合防御暴雨事件,圍內(nèi)水位與風(fēng)暴潮高度的反向水頭差大小直接影響水閘工程的安全,需要挖掘和提取歷史上防御臺(tái)風(fēng)和暴雨綜合事件過程中的水文模型和相應(yīng)的工程調(diào)度措施,正確掌握確保工程安全和防止內(nèi)澇的平衡關(guān)系。
至枯水季節(jié),上游來水不足,伴隨大潮,潮水上溯,外江潮水含鹽度上升,產(chǎn)生咸潮,咸潮屬水質(zhì)事件,重點(diǎn)關(guān)注水體含鹽量、潮水位,相關(guān)關(guān)注應(yīng)對(duì)咸潮采取的工程調(diào)度防御措施等。
應(yīng)對(duì)上述事件和圍內(nèi)生產(chǎn)、環(huán)境用水而采取的調(diào)度措施,由一系列調(diào)度指令組成,具體到每個(gè)工程個(gè)體的開啟閉操作指令,如全日關(guān)閘、排漬,關(guān)閘防咸、蓄水,水體置換等典型調(diào)度事件。
中順大圍已建成完善的工程監(jiān)控系統(tǒng),包括近100 個(gè)水位站點(diǎn)、15 個(gè)雨量站點(diǎn)、4 個(gè) ADCP 流量站、4 個(gè)自動(dòng)測咸站,實(shí)時(shí)獲取水位、雨量、流量等水文數(shù)據(jù),監(jiān)控系統(tǒng)長期自動(dòng)記錄工程運(yùn)行狀態(tài)。系統(tǒng)已積累了大量的多元水文數(shù)據(jù),并將長期不斷地持續(xù)積累。
基于事件的多元水文數(shù)據(jù)主要?jiǎng)澐譃橐韵聨最悾?/p>
1)水位數(shù)據(jù)。各水位(潮位)站點(diǎn)在時(shí)間序列上的數(shù)值記錄,當(dāng)水位達(dá)到某警戒值時(shí)記錄為洪水事件。
2)雨量數(shù)據(jù)。各雨量站點(diǎn)在時(shí)間序列上的數(shù)值記錄,當(dāng)錄得降雨時(shí),記錄降雨事件,視記錄降雨量大小區(qū)分暴雨、大暴雨、特大暴雨事件。
3)熱帶氣旋數(shù)據(jù)。熱帶氣旋時(shí)間序列上的特征值記錄,包括中心位置、移動(dòng)速度、中心風(fēng)速、氣壓等。視中心風(fēng)速在時(shí)間序列上區(qū)分熱帶風(fēng)暴、強(qiáng)熱帶風(fēng)暴、臺(tái)風(fēng)、強(qiáng)臺(tái)風(fēng)、超強(qiáng)臺(tái)風(fēng)。
4)咸潮數(shù)據(jù)。潮水含鹽量在時(shí)間序列上的特征值記錄,當(dāng)錄得鹽度值時(shí)記錄咸潮事件,視咸度值大小,啟動(dòng)關(guān)閘防咸調(diào)度事件。
5)調(diào)度數(shù)據(jù)。為滿足各種事件防御需要而啟動(dòng)的工程運(yùn)行指令組合,依調(diào)度目標(biāo)不同,啟動(dòng)不同調(diào)度事件,記錄時(shí)間序列上各被調(diào)度工程的啟閉運(yùn)行狀態(tài)。
6)事件數(shù)據(jù)。反映事件類別、名稱、編號(hào)、開始和結(jié)束時(shí)間,以及事件水文特征信息等。
2.2.1 數(shù)據(jù)現(xiàn)狀
數(shù)據(jù)整編的目的是為了滿足基于事件的多元相關(guān)分析和數(shù)據(jù)挖掘需要,為了獲取和積累事件應(yīng)對(duì)經(jīng)驗(yàn)和知識(shí)體系。
中順大圍水文遙測系統(tǒng)按照規(guī)范標(biāo)準(zhǔn)建有水文遙測數(shù)據(jù)庫,由于站點(diǎn)建設(shè)的時(shí)間先后,存儲(chǔ)了跨度達(dá) 1~20 a 的數(shù)據(jù),較為完整的數(shù)據(jù)為 6 a 內(nèi)數(shù)據(jù),流量數(shù)據(jù)不足 1 a。
2.2.2 整編原則
數(shù)據(jù)整編按照以下 3 個(gè)原則分類進(jìn)行:
1)區(qū)分時(shí)間精度。指基于事件特征記錄值的時(shí)間間隔密度,最高時(shí)間精度為初始入庫時(shí)的原始記錄間隔值,一般為 5 min 間隔。提出時(shí)間精度概念,是為了便于檢索和查詢,提高數(shù)據(jù)挖掘效率,不同的時(shí)間精度,整編出不同的數(shù)據(jù)表庫對(duì)應(yīng),以滿足不同時(shí)間尺度下的查詢分析和應(yīng)用展示。按照不同的時(shí)間精度,主要整編了 5、15 min,1、4、24 h 數(shù)據(jù);5 min~1 h 數(shù)據(jù)時(shí)間跨度不超過 1 月,1 h 數(shù)據(jù)間隔以上數(shù)據(jù)跨度不超過 1 a。
2)按照事件分類。整編不同時(shí)間精度下的水位、降雨、熱帶氣旋、咸潮、工程調(diào)度運(yùn)行等數(shù)據(jù)。
3)面向數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是基于事件的多元水文數(shù)據(jù)整編的目標(biāo),整編、搭建易于挖掘和綜合分析的數(shù)據(jù)倉庫系統(tǒng),為獲取經(jīng)驗(yàn)和知識(shí)模型提供保障。
2.2.3 整編方法
以自動(dòng)整編為主,人工干預(yù)為輔進(jìn)行整編,基于水文遙測和工程監(jiān)控系統(tǒng)的為數(shù)據(jù)源,在數(shù)據(jù)管理系統(tǒng)中通過軟件進(jìn)行自動(dòng)整編。
水位、雨量、咸度、流量數(shù)據(jù)通過數(shù)據(jù)庫服務(wù)軟件自動(dòng)提取和抽稀獲取,并重構(gòu)不同時(shí)間精度的多元水文數(shù)據(jù)庫;
調(diào)度事件數(shù)據(jù)通過自動(dòng)獲取工程監(jiān)控系統(tǒng)中的工程開關(guān)狀態(tài)及時(shí)間,在人工輔助下完善不能自動(dòng)獲取的工程運(yùn)行狀態(tài)數(shù)據(jù),隨著中順大圍工程調(diào)度決策支持系統(tǒng)的建成運(yùn)行,調(diào)度事件數(shù)據(jù)整編也會(huì)實(shí)現(xiàn)自動(dòng)化;
熱帶氣旋數(shù)據(jù)庫借助第三方專業(yè)臺(tái)風(fēng)監(jiān)控平臺(tái)自動(dòng)獲取,并且實(shí)時(shí)更新;
事件數(shù)據(jù)整編由人工生成并通過歷史數(shù)據(jù)校準(zhǔn)。對(duì)于洪水事件,當(dāng)參考站水位值達(dá)到限值時(shí)自動(dòng)記錄開始時(shí)間,以上級(jí)三防部門的預(yù)案啟動(dòng)和結(jié)束的通知做校核;暴雨事件由氣象部門的預(yù)警信息作為啟動(dòng)和結(jié)束點(diǎn),以事件結(jié)束后的歷史降雨數(shù)據(jù)做校核,重新界定起止時(shí)間;臺(tái)風(fēng)事件按照氣象部門的預(yù)報(bào)和級(jí)別人工輸入;咸潮事件由系統(tǒng)界定咸度超標(biāo)時(shí)記錄,低于標(biāo)準(zhǔn)時(shí)結(jié)束。
人工輔助干預(yù)的事件整編已納入業(yè)務(wù)部門的值班人員日常工作范疇,通過系統(tǒng)界面錄入即可,事件分類已經(jīng)約定,事件和編號(hào)由系統(tǒng)自動(dòng)生成。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程[6]。數(shù)據(jù)挖掘技術(shù)在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟[7]。知識(shí)發(fā)現(xiàn)過程由以下 3 個(gè)階段組成:1)數(shù)據(jù)準(zhǔn)備;2)數(shù)據(jù)挖掘;3)結(jié)果表達(dá)和解釋。
本文提出基于事件的多元水文數(shù)據(jù)挖掘,旨在通過對(duì)本地區(qū)水事件的相似性分析,對(duì)各類事件演變過程產(chǎn)生的時(shí)間序列數(shù)據(jù)進(jìn)行抽取、清理,經(jīng)過系統(tǒng)加工、匯總和整編構(gòu)建數(shù)據(jù)倉庫,在數(shù)據(jù)挖掘技術(shù)支撐下,獲取各類事件的特征和演變規(guī)律,重要的是獲取應(yīng)對(duì)事件所采取的綜合調(diào)度措施、方法,積累一系列經(jīng)驗(yàn)?zāi)P秃椭R(shí)集合,為積極應(yīng)對(duì)洪水、暴雨、風(fēng)暴潮等嚴(yán)重水事件,科學(xué)調(diào)度水利工程提供決策支持。
中順大圍工程調(diào)度系統(tǒng)是集信息采集、通訊網(wǎng)絡(luò)、遠(yuǎn)程監(jiān)控、調(diào)度指揮、決策支持系統(tǒng)為一體的水利信息化應(yīng)用系統(tǒng),其中工程調(diào)度決策支持系統(tǒng)是系統(tǒng)的核心。調(diào)度決策支持系統(tǒng)以數(shù)據(jù)倉庫和挖掘?yàn)槟繕?biāo),基于事件,對(duì)多元水文數(shù)據(jù)進(jìn)行挖掘,應(yīng)用儀表盤軟件設(shè)計(jì)思路表達(dá),在時(shí)間序列上,綜合表達(dá)水位、雨量、流量、事件、咸度等多元水文信息,開發(fā)了多元水文信息查詢系統(tǒng),系統(tǒng)界面如圖 1 所示。
圖1 多元水文信息查詢系統(tǒng)界面
系統(tǒng)將水位、雨量、流量、咸度等多元水文信息與事件集成在同一時(shí)間軸上,形成時(shí)間流與數(shù)據(jù)流對(duì)應(yīng),時(shí)間尺度與事件尺度對(duì)應(yīng),直觀顯示在同一事件時(shí)段內(nèi)水位、降雨、流量、咸度等的變化及相關(guān)性。圖 1 中左側(cè)為特征查詢數(shù)據(jù)顯示區(qū),右側(cè)為綜合查詢選擇區(qū),頂欄為時(shí)間精度選擇,中間多元信息查詢顯示區(qū)可依次選擇水位、雨量、流量或咸度,也可自由組合,無降雨的季節(jié)可以補(bǔ)充選擇咸度,底部 3欄自上而下分別為事件、時(shí)間、月相等軸。
事件軸:用標(biāo)準(zhǔn)臺(tái)風(fēng)、暴雨符號(hào)、自行設(shè)計(jì)的工程調(diào)度指令符號(hào)標(biāo)注事件的開始和結(jié)束時(shí)間點(diǎn)。
時(shí)間軸:在時(shí)間軸上拖動(dòng)選擇框可以方便地選擇時(shí)間范圍,也可以左右擴(kuò)展時(shí)間框范圍,不同的時(shí)間精度也約定了相應(yīng)的時(shí)間范圍,選擇事件的開始標(biāo)志可以框定事件開始到結(jié)束的時(shí)間范圍框。
月相軸:感潮地區(qū),非常關(guān)注農(nóng)歷時(shí),潮汐規(guī)律與月相相關(guān),月相軸用月亮的陰晴圓缺變化來直觀表達(dá)潮汐規(guī)律,同時(shí)也是農(nóng)歷時(shí)間軸。
數(shù)據(jù)挖掘通過分類、估計(jì)、預(yù)測、相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚類、描述、可視化等流程與方法獲取知識(shí)和經(jīng)驗(yàn)?zāi)P蚚6]。
由于已構(gòu)建了基于事件的多元水文數(shù)據(jù)倉庫,基于事件的水文特征聚類分析變得可行和簡單。傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)庫管理系統(tǒng)提供的多項(xiàng)復(fù)合條件檢索,已為中順大圍工程調(diào)度決策支持系統(tǒng)獲取一系列水事件發(fā)生規(guī)律,包括時(shí)間、演進(jìn)、特征范圍,特別是為獲取應(yīng)對(duì)事件所采取的防御措施、調(diào)度方法等知識(shí)經(jīng)驗(yàn)提供便利,輔以專家決策,對(duì)將要發(fā)生的水事件進(jìn)行評(píng)估和特征預(yù)測也已初步可行。
多元水文信息查詢系統(tǒng)目前已實(shí)現(xiàn)基于 SQL Server 數(shù)據(jù)庫的綜合應(yīng)用查詢,可以綜合查詢臺(tái)風(fēng)、暴雨及綜合調(diào)度事件,借助數(shù)據(jù)庫復(fù)合檢索查詢,獲取歷史臺(tái)風(fēng)、暴雨產(chǎn)生的多元水文特征數(shù)據(jù),以及基于事件(相似形分組[6])的關(guān)聯(lián)查詢,通過綜合分析和挖掘,獲取的知識(shí)和經(jīng)驗(yàn)?zāi)P桶v年洪水特征和演進(jìn)、暴雨及特征、臺(tái)風(fēng)演進(jìn)及暴雨、暴潮特征、咸潮規(guī)律等模型,以及防御上述事件所采取的工程綜合調(diào)度模型。在試驗(yàn)區(qū)內(nèi),基于算法的數(shù)據(jù)挖掘尚在起步中。
本文提出的思路,是在中順大圍工程調(diào)度決策支持系統(tǒng)建設(shè)中的一個(gè)應(yīng)用嘗試,數(shù)據(jù)倉庫和挖掘是一門新興技術(shù),涉及一系列數(shù)據(jù)倉庫支撐技術(shù)[7]、各類挖掘算法[3-4],需要在今后系統(tǒng)深入建設(shè)中進(jìn)一步深入應(yīng)用和研究。
[1]艾萍,王志堅(jiān),索麗生,等. 水文數(shù)據(jù)在線分析與知識(shí)發(fā)現(xiàn)系統(tǒng)模型研究[J]. 水利學(xué)報(bào),2001(11): 15-16.
[2]艾萍,倪偉新. 我國水文數(shù)據(jù)挖掘技術(shù)研究的回顧與展望[J]. 計(jì)算機(jī)工程與應(yīng)用,2003 (28): 13-14.
[3]李士進(jìn),朱躍龍,張曉花,等. 基于 BORDA 計(jì)數(shù)法的多元水文時(shí)間序列相似性分析[J]. 水利學(xué)報(bào),2009 (3):378-379.
[4]張奕韜,萬定生. 水文時(shí)間序列關(guān)聯(lián)規(guī)則挖掘模型研究[J]. 計(jì)算機(jī)與數(shù)字工程,2008 (12): 35-36.
[5]歐陽如琳,任立良,周成虎. 水文時(shí)間序列的相似性搜索研究[J]. 河海大學(xué)學(xué)報(bào):自然科學(xué)版,2010(3): 241-242.
[6]譚建豪. 數(shù)據(jù)挖掘技術(shù)[M]. 北京:中國水利水電出版社,2009: 128-185.
[7]陳志泊. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M]. 北京:清華大學(xué)出版社,2009: 8-120.