包志炎 鄭高安 王 萱 邱 雁 魏 杰
(1.浙江水利水電學(xué)院計算機應(yīng)用技術(shù)研究所, 杭州 310018; 2.浙江省水利信息管理中心, 杭州 310009;3.杭州錢塘新區(qū)建設(shè)投資集團(tuán)有限公司, 杭州 311228)
隨著社會經(jīng)濟(jì)的發(fā)展、人口的增加以及人類對水資源需求的提高,水資源日益短缺。預(yù)計到2050年,全球人口將增長到95億,屆時糧食需增產(chǎn)60%、農(nóng)業(yè)用水量需增加19%,才能滿足基本需求[1]。中國是農(nóng)業(yè)大國,農(nóng)業(yè)是最主要的用水部門。在區(qū)域水資源配置時,農(nóng)業(yè)與工業(yè)、生活、服務(wù)業(yè)等其他行業(yè)一起參與用水分配。保障國家糧食安全,核心在灌區(qū)。灌區(qū)以占全國耕地49%的面積,生產(chǎn)了約占全國總量75%的糧食和90%以上的經(jīng)濟(jì)作物[2]。因此,加強灌區(qū)水資源配置研究,科學(xué)、合理、有計劃、有重點地用水顯得尤為重要和迫切。
目前,國內(nèi)外灌區(qū)水資源配置方法主要包括規(guī)劃優(yōu)化、系統(tǒng)模擬和智能計算。規(guī)劃優(yōu)化方法基于數(shù)學(xué)規(guī)劃理論,在既定約束條件下,面向單目標(biāo)[3-5]或多目標(biāo)[6-9]實現(xiàn),在多種方案中尋求最優(yōu)方案,較為常用的有線性規(guī)劃[10]、動態(tài)規(guī)劃[7-8,11]和隨機規(guī)劃[12-13]等,該方法需要構(gòu)造較為復(fù)雜的目標(biāo)函數(shù)和嚴(yán)格的約束條件。系統(tǒng)模擬方法既有面向農(nóng)田的作物全生育期需水量模型[14-15],也有面向區(qū)域、灌區(qū)的分布式水循環(huán)模型[16-17]和水文模型[18-19],需要模擬灌區(qū)水資源系統(tǒng)內(nèi)部的復(fù)雜關(guān)系。智能計算方法將粗糙集、神經(jīng)網(wǎng)絡(luò)[20]、粒子群算法[21]、果蠅算法[22]、人工魚群[23]等算法應(yīng)用于灌區(qū)水資源配置中,需要進(jìn)行收斂性分析,有時會出現(xiàn)局部最優(yōu)解。數(shù)據(jù)挖掘側(cè)重關(guān)聯(lián)分析,不必進(jìn)行嚴(yán)格的邏輯推理和收斂分析,從而能避開復(fù)雜的目標(biāo)函數(shù)建模和邊界條件分析過程,實現(xiàn)從海量數(shù)據(jù)中抽取感興趣的、隱含的、有價值的知識,是當(dāng)前水資源預(yù)測理論發(fā)展的重要趨勢之一。EKASINGH等[24]基于數(shù)據(jù)挖掘建立了灌區(qū)農(nóng)作物選擇規(guī)則;THOMPSON等[25]和MOHAN等[26]利用數(shù)據(jù)挖掘改進(jìn)水資源日常管理,將決策過程簡單化;SHAHANAS等[27]提出了智能水管理的技術(shù)架構(gòu)。隨著我國水資源監(jiān)控能力建設(shè)項目的實施[28],全國各地水資源感知監(jiān)測體系不斷完善,灌區(qū)數(shù)據(jù)資源日益豐富,為數(shù)據(jù)挖掘在水資源配置中的應(yīng)用創(chuàng)造了條件。蔣云鐘等[29]提出了水資源數(shù)據(jù)挖掘的體系框架,劉予偉等[30]在分析水資源大數(shù)據(jù)采集的基礎(chǔ)上提出構(gòu)建水資源大數(shù)據(jù)云平臺的思想,楊小柳等[31]基于數(shù)據(jù)挖掘提出節(jié)水的精準(zhǔn)化、差異化管理。目前的相關(guān)研究更多側(cè)重于理論框架和設(shè)想建議。本文基于數(shù)據(jù)挖掘,融合相關(guān)性分析、聚類分析、相似性度量等算法,對浙江省行政區(qū)域行業(yè)間配水進(jìn)行特征分析,對中型灌區(qū)需水量進(jìn)行預(yù)測,為科學(xué)合理配水提供決策支持。
構(gòu)建灌區(qū)大數(shù)據(jù),匯聚足夠豐富的高質(zhì)量灌區(qū)水資源數(shù)據(jù)資源是開展數(shù)據(jù)挖掘的前提。灌區(qū)數(shù)據(jù)資源既包括灌區(qū)占地、工程設(shè)施、作物種植結(jié)構(gòu)等基本數(shù)據(jù),也包括所在行政區(qū)域水資源、經(jīng)濟(jì)、人口、水文、氣象等相關(guān)數(shù)據(jù);既包括實時監(jiān)測數(shù)據(jù),也包括歷年用水?dāng)?shù)據(jù),如表1所示。表中數(shù)據(jù)均可以從區(qū)域水文、水資源、經(jīng)濟(jì)發(fā)展的統(tǒng)計年報或灌區(qū)感知監(jiān)測數(shù)據(jù)庫中獲取。
表1 灌區(qū)數(shù)據(jù)資源構(gòu)成Tab.1 Data resources of irrigation area
以行政區(qū)域為研究單元,當(dāng)區(qū)域可供水量不能滿足所需水量時,既要強調(diào)農(nóng)業(yè)用水的基礎(chǔ)性,又要保障區(qū)域社會經(jīng)濟(jì)目標(biāo)實現(xiàn)。因此,在不同行業(yè)、不同部門之間就會產(chǎn)生競爭用水問題。由于區(qū)域間經(jīng)濟(jì)發(fā)展水平、產(chǎn)業(yè)結(jié)構(gòu)和資源稟賦不一,各行業(yè)用水需求差異較大。在有限的區(qū)域水資源條件下,需要解決行業(yè)間如何合理配水問題。
針對某省所有行政區(qū)域,匯聚工業(yè)、生活以及生態(tài)環(huán)境等領(lǐng)域的歷年用水?dāng)?shù)據(jù),聚焦農(nóng)業(yè)灌溉用水,引入模糊聚類算法,對區(qū)域行業(yè)配水案例進(jìn)行聚類分析,從中發(fā)現(xiàn)同類區(qū)域行業(yè)配水的顯著特征,為管理者開展區(qū)域行業(yè)間配水提供決策支持。區(qū)域行業(yè)配水聚類分析流程如下:
(1)建立行業(yè)配水案例集。假設(shè)某省共有n個市級行政區(qū),選取m個能反映某一時期在農(nóng)業(yè)、工業(yè)、生活和生態(tài)等領(lǐng)域用水的相關(guān)指標(biāo),建立由n個區(qū)域行業(yè)配水案例組成的案例集,以各案例的指標(biāo)值為內(nèi)容構(gòu)造數(shù)據(jù)矩陣
(1)
(2)標(biāo)準(zhǔn)化數(shù)據(jù)矩陣。為消除各參數(shù)間不同量綱的偏差,通過“平移-標(biāo)準(zhǔn)差-極差”變換[32]將數(shù)據(jù)轉(zhuǎn)換到[0,1]區(qū)間,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,計算得到矩陣
A′=[a′ij]n×m
(2)
其中
(3)計算模糊相似矩陣。為了定量地進(jìn)行分類,引入夾角余弦相關(guān)系數(shù)作為聚類統(tǒng)計量,將矩陣A′轉(zhuǎn)換為一個模糊相似矩陣
(3)
(4)配水案例聚類分析。用平方法求A″的傳遞閉包t(A″)。使用λ-截矩陣,使閾值λ由1減小到0,則t(A″)的分類由細(xì)變粗,形成一個動態(tài)的聚類圖。根據(jù)λ的不同取值,可以得到不同分類。λ取值應(yīng)遵循“類間案例相似性最小化,類內(nèi)案例相似性最大化”原則,分類過細(xì)或過粗均不利于共性特征提取,一般可分為2~4類,且應(yīng)避免出現(xiàn)類間距的突變[32]。在得到區(qū)域行業(yè)間配水的類別分組后,即可分析歸入同一類的顯著特征。
灌區(qū)可供水量與該灌區(qū)所在區(qū)域降水、地表水、地下水、耗水以及其他行業(yè)競爭用水相關(guān)。灌區(qū)需水量與灌區(qū)類型、面積、種植結(jié)構(gòu)等相關(guān)。在有限的區(qū)域水資源條件下,面向不同特征的灌區(qū),需要解決灌區(qū)間如何合理配水問題。
以灌區(qū)為研究對象,建立一批典型灌區(qū),匯聚其歷年可供水量、需水量的相關(guān)數(shù)據(jù),形成灌區(qū)配水案例集。對于預(yù)先給定的一個新灌區(qū)(或改造灌區(qū)),在灌區(qū)配水案例集中匹配出最相似灌區(qū),為該灌區(qū)配水提供決策支持。
(1)建立灌區(qū)配水案例集。假設(shè)共有n個典型灌區(qū),選取m個與可供水量、需水量相關(guān)的指標(biāo),建立由n個灌區(qū)配水案例組成的案例集,以各案例的指標(biāo)值為內(nèi)容構(gòu)造數(shù)據(jù)矩陣B,待估灌區(qū)記為bx,即
(4)
bx=(bx1,bx2,…,bxm)
(5)
(2)計算差異矩陣。對B的行(每一案例)與bx進(jìn)行差運算,并進(jìn)行歸一化處理,計算得到其差異矩陣
(6)
(3)確定參數(shù)權(quán)重。權(quán)重反映某參數(shù)對于目標(biāo)指標(biāo)的重要程度。以灌區(qū)需水量為預(yù)測指標(biāo),確定其他各參數(shù)的權(quán)重。通過對各參數(shù)權(quán)重在[0,1]區(qū)間內(nèi)按一定的步長窮舉,使用窮舉權(quán)重,把每一個灌區(qū)視作新灌區(qū),用剩余的n-1個灌區(qū)預(yù)測需水量,并與實際值對比。當(dāng)相對誤差均在預(yù)先設(shè)定的范圍內(nèi)時,此時權(quán)重即為所求的解。若有兩個及以上的解,相對誤差總和最小的為最優(yōu)解[33]。當(dāng)灌區(qū)配水案例集發(fā)生變化,權(quán)重會隨著更新,這樣的賦權(quán)方法實現(xiàn)了動態(tài)賦權(quán),且具有客觀性。權(quán)重向量記為w=(w1,w2,…,wm)。
(4)獲取相似實例??紤]到各參數(shù)之間的權(quán)重差異,引入加權(quán)的歐氏距離,計算新灌區(qū)與其他灌區(qū)間的相似度S(bx,bi),最大相似度所對應(yīng)的灌區(qū)即為所求相似灌區(qū)。如果將相似度進(jìn)行降序排序,可以獲取排名靠前的若干灌區(qū)組成相似實例組。相似度計算式為
(7)
式中wj——第j個參數(shù)權(quán)重
修正2.2節(jié)獲取的相似實例(或相似實例組)的需水量,可預(yù)測新灌區(qū)需水量。兩種修正算法如下:
構(gòu)造加權(quán)影響因子法,計算式為
(8)
式中Rx——新灌區(qū)需水量
Ri——相似灌區(qū)需水量
指數(shù)平滑法,計算式為
(9)
式中Rj、Rk——相似實例組成員的需水量
α——平滑系數(shù),其取值方法詳見文獻(xiàn)[34]
浙江省目前擁有150個大中型灌區(qū),分布在11個市行政區(qū)域,其中中Ⅰ型灌區(qū)91個,中Ⅱ型灌區(qū)48個,大型灌區(qū)11個。表2為2018年浙江省各市工業(yè)、農(nóng)業(yè)、城鎮(zhèn)公共、居民生活以及生態(tài)環(huán)境等領(lǐng)域配水?dāng)?shù)據(jù);表3為2018年金華、麗水、衢州、臺州、溫州等地區(qū)部分中型灌區(qū)可供水量、毛需水量的相關(guān)數(shù)據(jù)。按灌區(qū)規(guī)模,分別用數(shù)字1~4表示小型、中Ⅰ型、中Ⅱ型和大型灌區(qū)。為方便說明問題,以烏溪江引水灌區(qū)、橫錦水庫灌區(qū)、羅岙水庫灌區(qū)作為待估灌區(qū),如表4所示,運用本文建立的方法,分析浙江區(qū)域行業(yè)配水特征,匹配每一個待求灌區(qū)的相似灌區(qū),并在此基礎(chǔ)上預(yù)測其毛需水量。
基于表2,建立2018年浙江省各市行政區(qū)域行業(yè)配水案例集,構(gòu)造相應(yīng)的數(shù)據(jù)矩陣
表2 2018年浙江省各市行政區(qū)域行業(yè)配水量Tab.2 Department water distribution cases in administrative regions of Zhejiang in 2018
表3 2018年浙江典型中型灌區(qū)配水量Tab.3 Water distribution cases of typical medium-sized irrigation areas of Zhejiang in 2018
表4 待估灌區(qū)參數(shù)Tab.4 Parameters of irrigated area to be estimated
歸一化后,計算得到模糊相似矩陣
按2.1節(jié)的聚類算法,生成動態(tài)聚類圖,如圖1所示。由圖可知,當(dāng)閾值λ=0.994、0.992、0.987時,案例分別被劃分為5、4、2類,考慮到在0.992之前類間距約為0.002,下一個值將出現(xiàn)0.005的較大間距,因此λ取0.992。
當(dāng)λ=0.992時,各市行政區(qū)配水被分為4個組別:Ⅰ類{麗水,衢州,金華,臺州,溫州},Ⅱ類{湖州,嘉興 },Ⅲ類{紹興,寧波,杭州},Ⅳ類{舟山} ??梢姡耦惖貐^(qū)單位面積水資源量高,農(nóng)田灌溉水有效利用系數(shù)較低,萬元GDP用水量偏高;Ⅱ類地區(qū)單位面積水資源量較少,農(nóng)業(yè)用水占比最高,單位面積用水量偏高;Ⅲ類地區(qū)工農(nóng)業(yè)用水基本相當(dāng),萬元GDP用水量處于較低水平,人均生活用水、城鎮(zhèn)公共及居民生活用水偏高;Ⅳ類地區(qū)單位面積水資源量和用水量均處于最低水平,農(nóng)業(yè)用水占比也最低。
圖1 區(qū)域配水動態(tài)聚類圖Fig.1 Dynamic cluster view of regional water allocation cases
基于表3,建立2018年浙江部分灌區(qū)配水案例集,構(gòu)造相應(yīng)的數(shù)據(jù)矩陣
待估的3個灌區(qū)分別記為
bx1=(115.20,421.00,17 048,14 061,3,0.494)bx2=(84.00,267.00,7 160,6 374,3,0.547)bx3=(95.70,358.00,947,845,2,0.558)
以羅岙水庫灌區(qū)為例,計算B的差異矩陣
按2.2節(jié)權(quán)重動態(tài)賦權(quán)法,以灌區(qū)需水量為預(yù)測指標(biāo),取固定步長為0.01窮舉權(quán)重組合,設(shè)定相對誤差閾值為15%,可計算得到權(quán)重向量w=(0.05,0.20,0.25,0.35,0.10,0.05)。
采用加權(quán)歐氏距離,按式(7)計算待估灌區(qū)與其他灌區(qū)間的相似度,結(jié)果如表5所示。由此,可得到bx1(烏溪江引水灌區(qū))、bx2(橫錦水庫灌區(qū))、bx3(羅岙水庫灌區(qū))的相似灌區(qū)分別為b8(銅山源水庫灌區(qū),相似度為0.990 5)、b1(南江水庫灌區(qū),相似度為0.991 4)、b11(里林灌區(qū),相似度為0.994 6)。
表5 相似度S(bx,bi)計算結(jié)果Tab.5 Similarity calculation results
因灌區(qū)配水案例集中成員較少,不宜采用指數(shù)平滑法,選擇構(gòu)造加權(quán)影響因子法,按式(8)計算待估灌區(qū)的毛需水量,結(jié)果如表6所示,相對誤差均不大于9.39%,說明本文方法有效。
表6 需水量估算結(jié)果Tab.6 Water demand estimation results
需要指出的是,合理選擇典型灌區(qū),建立有效的灌區(qū)配水案例集是實現(xiàn)科學(xué)預(yù)測的前提。當(dāng)案例集中灌區(qū)案例不夠豐富,案例指標(biāo)值分布不合理,未能覆蓋待估灌區(qū)的行政區(qū)域或類似灌區(qū)規(guī)模時,待估灌區(qū)往往無法獲取到足夠相似的歷史灌區(qū)案例,預(yù)測結(jié)果也會不理想。
(1)針對行政區(qū)域行業(yè)間配水問題,匯聚區(qū)域水資源、經(jīng)濟(jì)、人口、行業(yè)用水等數(shù)據(jù),聚焦農(nóng)業(yè)灌溉用水,運用模糊聚類分析,構(gòu)建區(qū)域水資源行業(yè)配水案例分類及特征分析模型,并應(yīng)用于2018年浙江省各市行業(yè)配水案例分析。結(jié)果顯示,浙江省不同區(qū)域行業(yè)間配水被劃分為4類,均呈現(xiàn)出較明顯的特征。
(2)針對灌區(qū)需水量預(yù)測問題,采用固定步長窮舉法對灌區(qū)配水相關(guān)參數(shù)進(jìn)行動態(tài)賦權(quán),運用模糊距離匹配相似灌區(qū),通過構(gòu)造加權(quán)影響因子和采用指數(shù)平滑法,對基于實例推理的灌區(qū)進(jìn)行需水量預(yù)測,并將該方法應(yīng)用于2018年浙江省中型灌區(qū)的需水量預(yù)測,預(yù)測相對誤差均不大于9.39%,驗證了方法的有效性。
(3)與規(guī)劃優(yōu)化、系統(tǒng)模擬和智能計算等其他水資源配置方法相比,本文方法基于模糊數(shù)據(jù)挖掘,可以對各類數(shù)據(jù)直接進(jìn)行相關(guān)分析,避開了復(fù)雜的函數(shù)建模、邊界條件設(shè)置和收斂性分析等過程,運用相對簡單、易行。但也存在一定局限性:要求涉及相關(guān)指標(biāo)可量化,且各指標(biāo)已經(jīng)匯聚相對比較豐富的歷史數(shù)據(jù);因數(shù)據(jù)挖掘結(jié)果反映的是相關(guān)關(guān)系,未經(jīng)嚴(yán)格邏輯驗證,存在不確定性,需要在實際應(yīng)用中不斷驗證。