梁振東,何曉靜,方紅遠
(揚州大學,江蘇 揚州 225009)
?
基于聚類線性回歸法的區(qū)域用水量影響因素分析
梁振東,何曉靜,方紅遠
(揚州大學,江蘇揚州225009)
摘 要:闡述了區(qū)域用水量內涵及其影響因素分析方法,把區(qū)域用水量影響歸納為區(qū)域經濟發(fā)展驅動和水資源稟賦約束兩方面;根據聚類線性回歸計算原理,建立了區(qū)域用水量影響因素分析模型及其計算方法步驟。針對太湖流域的水資源利用影響因素,從人口規(guī)模、生產總值、產業(yè)結構等方面入手,利用聚類線性回歸模型對太湖流域區(qū)域用水量的影響因素進行評價研究;從相關分析看,區(qū)域經濟發(fā)展的用水剛性需求是太湖流域區(qū)域用水量的主要驅動因素,區(qū)域產業(yè)結構對太湖流域的用水形成顯著的抑制效應;而在水資源稟賦約束方面,太湖流域受水資源短缺脅迫較小,區(qū)域用水量還存在增長的空間。
關鍵詞:區(qū)域;用水量;影響因素;聚類線性回歸
在水循環(huán)的研究方面,以自然水循環(huán)為基本對象的水文學已形成較為完善的體系,近幾十年來立足于社會經濟用水的社會水循環(huán)研究也越來越被關
2.1區(qū)域用水量內涵
水是基礎性的自然資源和經濟資源,是生態(tài)環(huán)境的基本控制性要素,人類的各類社會生產活動及其生活環(huán)境都與水資源息息相關[1]。隨著社會的發(fā)展和科學技術的不斷進步,區(qū)域水資源開發(fā)利用程度不斷提高,區(qū)域用水量自始至終影響著人類社會區(qū)域開發(fā),受區(qū)域開發(fā)與規(guī)劃干預機制的強烈影響,區(qū)域用水量具備鮮明的時空演變特征。地理區(qū)位從總體上框定了水資源利用的范疇,而且區(qū)域水資源稟賦也基本決定了區(qū)域用水的發(fā)展類別,如是否可以發(fā)展耗水密集型產業(yè)、是否適合布局對水資源存在威脅的產業(yè)、如何選擇適合的作物灌溉制度等[2]。
區(qū)域用水量具有社會與自然二重性,區(qū)域用水量的社會屬性是指區(qū)域內可開采的水資源量可以滿足區(qū)域內人類基本生存及社會經濟發(fā)展需要,即區(qū)域內社會發(fā)展需要一定數(shù)量與質量的水資源來支撐;自然屬性方面主要是指自然水文循環(huán)的各個基本環(huán)節(jié):降水、蒸發(fā)、徑流,不但人類社會需要用水,自然環(huán)境與生態(tài)也同樣需要以降水和徑流為主要形式的水資源來維持。假設沒有人類社會發(fā)展的需求,水資源作為天然的水循環(huán)過程,它與環(huán)境和生態(tài)相統(tǒng)一,不會存在水資源短缺問題,也不會產生用水危機,即用水問題產生于區(qū)域用水量不能滿足社會發(fā)展的剛性需求;從另一方面來說,為了克服用水問題,社會發(fā)展對用水量的需求應控制在一定的范圍內,即這種需求應在區(qū)域水資源承載能力之內,以不破壞自然水文循環(huán)為限度[3]。狹義上的區(qū)域用水量是指各類用水戶所使用的水量之和,通常包括工業(yè)用水、農業(yè)用水、城鄉(xiāng)居民生活用水、水力發(fā)電用水、航運用水、漁業(yè)用水、防洪調節(jié)用水以及水質凈化用水等。
2.2區(qū)域用水量影響因素
水資源利用驅動因素眾多,錯綜復雜,區(qū)域用水量影響因素主要包括外部驅動因素和內部驅動因素。在我國,農業(yè)生產用水量普遍是區(qū)域總用水量的主體,人口增長及農產品需求變化是農業(yè)用水量的原始驅動力,而農田灌溉利用了幾乎全部的有效降雨和超過60%的人工取水量,耕地面積直接反映了農業(yè)用水的規(guī)模[4]。工業(yè)生產和服務業(yè)布局左右其自身用水發(fā)展,產業(yè)結構的調整和升級是調控區(qū)域用水的主要途徑。生活用水的需求來源于人類日常生活的基本需求,這種需求驅動著生活用水結構和層次的不斷演進。這3種用水主要影響因素有人口規(guī)模、區(qū)域經濟強度、產業(yè)結構構成及產值、居民收入狀況、區(qū)域耕地面積、灌溉模式、林木漁業(yè)發(fā)展、科技進步、糧食安全等。以上影響因素為區(qū)域用水量內部驅動,即“要用多少水”。隨著人類對水資源開發(fā)力度的不斷加大,區(qū)域的自然屬性制約或促進用水的發(fā)展,區(qū)域水資源稟賦從根本上決定了用水的類型和量級,水資源稟賦對區(qū)域用水量的約束日益加強。影響因素主要包括區(qū)域水資源總量、地表水資源量、地下水資源量、人均水資源量、區(qū)域水環(huán)境納污容量、降水量等,此為區(qū)域用水量外部驅動因素,即“有多少水可以用”。區(qū)域用水受社會經濟發(fā)展需求、經濟技術水平、水資源稟賦約束等影響,其中社會經濟發(fā)展需求為用水系統(tǒng)提供正向驅動力,水資源稟賦約束對用水系統(tǒng)提供負向約束,而經濟技術水平決定了用水系統(tǒng)對上述驅動和約束力的反應能力[5]。即在內因和外因的共同驅動和約束下,區(qū)域用水量達到一個穩(wěn)步上升的平衡狀態(tài)。
聚類分析的目的是降低因規(guī)模過大造成的復雜程度。常用的聚類分析方法主要有系統(tǒng)聚類法、基于密度的方法、基于人工神經網格的方法、K-均值方法、模糊C均值方法等。當影響指標變量的因子多而復雜時,研究人員主要采用主成因分析、計量經濟學回歸分析、系統(tǒng)動力學等方法識別變量影響因素[6]。聚類回歸分析方法最早在1979年由Spath等人提出,后來許多學者從模型實際應用的角度出發(fā)對該模型做了修正和改進。與傳統(tǒng)聚類分析模型相比,該模型可以在細分觀測對象的同時,預測每個細分類別的回歸系數(shù),即解釋每個聚類自變量對因變量均值和方差的具體程度。聚類回歸分析方法從細分對象的角度,打破了傳統(tǒng)的根據樣本對心理感知或偏好等多個感觀變量的距離進行分類的思路,采用一種新的聚類回歸分析方法基于變量間的因果關系對觀測值進行細分,不僅可以把不同屬性的觀測值有目的地劃分成具有不同特點的群體,而且可以根據不同要素的因果關系確定不同群體中的主要影響要素[5]。
一般來說,回歸分析用于研究某種現(xiàn)象對幾種影響因素的依賴關系。普通最小二乘法是運用最廣、最為經典的一類回歸模型,它是對變量“均值”的估計,比較適用于平穩(wěn)型的序列[7]。但是對于一組具有“異質性”的序列做回歸,擬合效果的特性就會有缺失。為此,聚類線性回歸模型把聚類分析的方法引入到回歸模型中,即在回歸分析中嵌入了聚類技術,把變量分類后再分別進行回歸,同時給出回歸參數(shù)和每個輸出變量對不同聚類的隸屬度,用以判斷模型的擬合程度。
3.1模型描述[7-9]
考慮n組觀測值y=(y1,y2,…,yn)′和k個解釋變量 X=(1n,x1,x2,…,xk),其中 x=(xi1,xi2,…,xik)′的值都是清晰的數(shù)據,在進行分類時,我們用每個聚類的回歸系數(shù)表示這組模型,并以此把這n組數(shù)據分成r類。對于第 j類,假設它的回歸參數(shù)為 βj,[βj=(β0j,β1j,…,βkj)′,j=1,2,…,r]。若把這些參數(shù)組成矩陣B,則:
可以按照如下方法,得到線性回歸模型為:
式中:1r×1?y是 nr×1的向量;Ir?X是 nr× (k+1) r階矩陣;ey是nr×1維殘差向量。
考慮到Bezdek的模糊聚類分析的方法,可得到關于清晰值的輸出變量與輸入變量的聚類線性回歸模型如下:
式中:α(α≥1)是權重元素;U是由所有輸出變量對于每個聚類的隸屬度組成的nr階對角矩陣;uij(i=1,2,…,r)是輸出變量第 i個觀測值對第j個聚類的隸屬度。P=1′r×1?In是n×nr階矩陣,PU1nr×1=1nr×1。
式中:Δ是距離矩陣,是nr階對角矩陣,是輸出變量第i個觀測值對第 j個聚類的線性回歸模型的歐氏距離。
要使式(3)最小化,則:
3.2迭代最小二乘估計的算法
(1)固定α和r,并且給出初始值U(0),U(1)滿足式(3)。
(2)根據式(5)、(6)計算出參數(shù)、回歸系數(shù):Δ2、B。
(3)根據式(4)計算出U(1)。
(4)記U(t)為第t次迭代得到的輸出變量的隸屬度矩陣,計算U(t+1),U(t)的距離,若<ε(ε是給定的足夠小的正實數(shù)),則停止迭代,得到U(t+1);否則,回到第(2)步。
3.3擬合檢驗
本節(jié)給出一些聚類線性回歸的擬合優(yōu)度的指標,它們是關于傳統(tǒng)回歸分析的控制系數(shù)的延伸,作用于清晰輸出變量的聚類回歸分析。
中心均值為:
第j個聚類的線性回歸模型的擬合優(yōu)度可通過決定系數(shù)的均值來測量:
利用分配系數(shù)PC描述聚類效度:
4.1研究區(qū)概況
筆者選取太湖流域作為主要研究對象。太湖流域位于我國東部、長江三角洲南端,處于東經119°11′~121°53′、北緯30°28′~32°15′。流域呈近似三角形,北通長江,東臨東海,南接錢塘江,西邊以天目山、茅山和界嶺為界。流域面積36 895 km2,行政區(qū)劃分屬江蘇、上海、浙江以及安徽3省1市。流域屬亞熱帶季風氣候區(qū),多年平均氣溫15~17℃,無霜期多年平均為220~250 d,氣候溫和濕潤,雨量充沛,多年平均年降雨量1 177 mm,降水總量434.4億m3,多年平均年水面蒸發(fā)量822 mm,變化幅度為750~900 mm,多年平均年徑流量為161.5 億m3。太湖流域河網密布,湖泊眾多,水域面積6 134 km2,水面率達17%,河道和湖泊各占1/2;面積在0.5 km2以上的湖泊189個;河道總長度12萬km,平原地區(qū)河道密度達3.2 km/km2,縱橫交錯,湖泊星羅棋布,為典型“江南水網”。太湖流域是長江水系最下游的支流水系,流域水系以太湖為中心,分上游水系和下游水系,水系相連,河湖溝通,緊密依存。長江水量豐沛,是太湖流域的重要補給水源,也是流域排水的主要出路之一。圖1顯示太湖流域主要水系分布狀況。其中,太湖是我國第三大淡水湖泊,現(xiàn)有水面2 338 km2,位于太湖流域的中心。其多年平均年吞吐水量52億m3,水量交換系數(shù)1.2,換水周期約300 d。太湖具有蓄洪、供水、灌溉、航運、旅游等多方面功能,是流域的重要供水水源地,擔負著無錫、蘇州、吳縣、吳江、長興、宜興、武進市(縣)的城鄉(xiāng)供水,在太浦河開通后還將向上海供水并改善黃浦江上游的水質,其供水服務范圍超過2 000萬人,占太湖流域總人口的55%。
圖1 太湖流域主要水系
社會經濟方面,太湖流域位于長江三角洲的核心地帶,是目前我國經濟最發(fā)達、大中城市最密集的地區(qū)之一。流域內有直轄市上海,一線城市杭州、蘇州、無錫、常州等,以及眾多迅速發(fā)展的小城市,城鎮(zhèn)化率達72.6%。據統(tǒng)計,現(xiàn)狀太湖流域總人口達5 971萬人,占全國的4.4%;工業(yè)增加值約為24 407.5億元,國內生產總值(GDP)達57 957億元,占全國的10%;人均GDP約為9.7萬元。水資源狀況方面,太湖流域多年平均水資源量為176億m3,其中地表水資源量161億m3。由于人口和產業(yè)高度集中,人均水資源量僅為348 m3,不到全國平均水平的1/5。2013年流域水資源總量為160.5億m3,比常年偏少15.5億m3。2013年太湖流域3省1市中,江蘇省用水量最大、占總用水量的53%,上海市用水量占總用水量的32%,浙江省用水量占總用水量的14.4%,安徽省用水量最少、占總用水量的0.06%。太湖流域各省市用水量及用水構成,見表1。
表1 太湖流域各省市2013年用水量統(tǒng)計 億m3
4.2數(shù)據說明
一般而言,區(qū)域用水量的影響因素很多,上文提到的“內因”和“外因”類影響因子涵蓋也很廣,根據主次程度以及實際情況,筆者針對太湖流域的特點選用以下7個因素:人口規(guī)模(P)、生產總值(G)、產業(yè)結構(S)、耕地面積(F)、環(huán)境建設用水(E)、降水量(R)、水資源總量(W)。
為了消除量綱影響,采用C-D函數(shù)雙對數(shù)回歸模型[10],則回歸模型建立如下:
式中:A為區(qū)域用水量(億m3);P為人口規(guī)模(萬人);G為生產總值(元);S為產業(yè)結構(第二產業(yè)產值/第三產業(yè)產值);F為耕地面積(萬畝);E為環(huán)境建設用水量(億m3);R為降水量(mm);W為水資源總量(億m3);μ為殘差。
筆者選取太湖流域2003—2014年連續(xù)12年的用水量、人口規(guī)模、生產總值、一二產業(yè)產值、耕地面積、環(huán)境建設用水量、降水量、水資源總量的統(tǒng)計數(shù)據,數(shù)據來源于相關年份的《太湖流域及東南諸河水資源公報》及太湖流域所屬轄區(qū)的統(tǒng)計年鑒。
4.3模型計算結果
把聚類線性回歸模型運用于太湖流域的區(qū)域用水量(A)和7個用水影響因素(P,G,S,F(xiàn),E,R,W)之間關系的研究,有12×7組獨立變量的觀測值X=(x1,x2,x3,x4,x5,x6,x7)、12×1組輸出變量區(qū)域用水量的觀測值y12×1。
令r依次取1,2,3,得到如下結果,見表2。
表2 聚類線性回歸模型結果:回歸系數(shù)B
輸出變量yi對r=2和r=3時的每個聚類的隸屬度uij,見表3。
表3 輸出變量yi對每個聚類的隸屬度uij
比較3種分類結果的擬合效度,見表4。在r=2時,即觀測系列分為2類時擬合效度最好。
表4 3種分類結果的擬合效度
4.4分析與結論
筆者利用聚類線性回歸的方法,對太湖流域區(qū)域用水量與人口規(guī)模、生產總值、產業(yè)結構、耕地面積、環(huán)境建設用水量、降水量、水資源總量的關系進行了實證分析。結果表明,分成2類進行回歸分析擬合效果最合理,且由表2—3可知:
(1)2003—2014年,太湖流域人口規(guī)模、生產產值的回歸系數(shù)都是正向影響,即人口規(guī)模、生產產值對區(qū)域用水量是促進作用;產業(yè)結構及耕地面積的回歸系數(shù)均為負向影響,即產業(yè)結構及農田面積因子對區(qū)域用水量是抑制作用。
(2)對于第1個分類 u1,2006、2007、2008、2009、2011、2012年中人口規(guī)模、生產總值、環(huán)境建設用水量、降水量、水資源總量以回歸系數(shù)2.832 4、1.754 2、0.874 5、0.541 2、0.545 6對區(qū)域用水量成正向影響,而產業(yè)結構、耕地面積以回歸系數(shù)-3.978 5、-0.124 5對區(qū)域用水量成負向影響。
(3)對于第2個分類 u2,2003、2004、2005、2010、2013、2014年中人口規(guī)模、生產總值、降水量以回歸系數(shù)5.796 5、2.321 6、0.214 5對區(qū)域用水量成正向影響,產業(yè)結構、耕地面積、環(huán)境建設用水量、水資源總量以回歸系數(shù)-4.745 1、-0.142 4、-0.855 5、-0.745 5對區(qū)域用水量成負向影響。
基于上述結果,從選取的各個區(qū)域用水影響因素變化來看,區(qū)域用水量的主要影響因素以“內部影響”為主,即區(qū)域經濟的用水剛性需求是區(qū)域用水量的主要驅動因素,尤其是人口規(guī)模和生產產值對太湖流域用水量作出的貢獻最大,用水增長與人口增長及經濟發(fā)展規(guī)模具有很好的一致性,二者線性關系明顯。區(qū)域產業(yè)結構的布局(二三產業(yè)比)對太湖流域用水量作出的貢獻為負,這是因為太湖流域處于工業(yè)化中后期,工業(yè)布局基本完成,工業(yè)用水水平提高較快,與之對應的服務業(yè)發(fā)展迅猛,作為用水相對小型的第三產業(yè)比例不斷提高,對太湖流域的用水成顯著的抑制效應。耕地面積對區(qū)域用水表現(xiàn)為小幅的負向影響,因為太湖流域耕地面積維持穩(wěn)定略有減少,對農業(yè)用水增長的貢獻率減小。在水資源總量、降水量等“外部影響”方面,區(qū)域用水量影響系數(shù)較小,說明太湖流域受水資源短缺脅迫較小,用水量還有增長的空間。
區(qū)域用水量影響因素分析涉及整個社會的諸多方面,筆者分析了區(qū)域用水量內涵及其影響因素,把區(qū)域用水量影響歸納為區(qū)域經濟發(fā)展驅動和水資源稟賦約束2個方面;從人口規(guī)模、生產總值、產業(yè)結構入手,利用聚類線性回歸模型從定性與定量2個方面對太湖流域區(qū)域用水量的影響因素進行評價研究;從相關分析看,區(qū)域經濟的用水剛性需求是太湖流域區(qū)域用水量的主要驅動因素,區(qū)域產業(yè)結構對太湖流域的用水形成顯著的抑制效應。而水資源稟賦約束方面,太湖流域受水資源短缺脅迫較小,區(qū)域用水量還有增長的空間。
從筆者基于聚類線性回歸法的區(qū)域用水量影響因素分析模型建立以及計算分析來看,在我國目前區(qū)域水資源供需情況普遍緊張的情況下,區(qū)域用水量影響因素分析評價可以為區(qū)域高效合理開發(fā)利用水資源、促進水資源合理配置供需平衡提供理論決策依據。
參考文獻
[1]董四方,董增川,陳康寧.基于DPSIR概念模型的水資源系統(tǒng)脆弱性分析[J].水資源保護,2010(4):1-3,25.
[2]王浩,龍愛華,于福亮,等.社會水循環(huán)理論基礎探析Ⅰ:定義內涵與動力機制[J].水利學報,2011(4):379-387.
[3]王利民,程伍群,彭江鴻.社會生產活動對流域水資源供需狀況影響分析[J].南水北調與水利科技,2011(3):163-166.
[4]王建華,王浩.社會水循環(huán)原理與調控[M].北京:科學出版社,2014:57.
[5]王霞,包啟挺.聚類回歸分析(CLR)在市場細分研究中的應用[J].數(shù)理統(tǒng)計與管理,2008(2):338-345.
[6]王惠文,葉明,Gilbert Saporta.多元線性回歸模型的聚類分析方法研究[J].系統(tǒng)仿真學報,2009(22):7048-7050,7056.
[7]Christian Hennig.Fixed point clusters for linear regression:Computation and Comparison[J].Journal of Classification,2002(192):74-79.
[8]Kung C C,Lin J C,2003.A novel cluster validity criterion for fuzzy c-regression model clustering algorithm.IEEE Interna?tional Conference on Fuzzy Systems[J].Computational Statis?tics&Data Analysis,2006(51):287-313.
[9]Pierpaolo,D'Urso.Linear regression analysis for fuzzy/crisp input and fuzzy/crisp output data[J].Computational Statistics &Data Analysis,2003,42(1-2):47-72.
中圖分類號:TV213.9
文獻標識碼:A
文章編號:1004-7328(2016)03-0032-06
DOI:10.3969/j.issn.1004-7328.2016.03.012
收稿日期:2016—03—14
基金項目:國家自然科學基金項目(51379181)
作者簡介:梁振東(1992—),男,碩士研究生,主要研究方向為水資源規(guī)劃及管理方面。注。節(jié)水型社會建設、從供水管理為主轉向需水管理為主的水資源管理模式的確立,都將社會水循環(huán)原理與調控作為其重要的科學基礎之一。區(qū)域用水量的研究是社會水循環(huán)中的關鍵環(huán)節(jié),區(qū)域用水量的漸變機制以及各類用水主體、經濟產業(yè)規(guī)模和結構調整的共同作用造就了其自身通量的漲落與變化。在當前最嚴格水資源管理制度的背景下,區(qū)域用水量研究為解釋不同地區(qū)的社會水循環(huán)的演化方向、預測未來用水趨勢、合理有效地利用水資源、有效應對水危機提供了理論支持,促進了經濟社會與水資源協(xié)調發(fā)展。筆者針對一實際區(qū)域,運用聚類線性回歸模型對其用水量影響因素進行評價分析。
Analysis on Impacting Factors of Regional Water Resources Utilization Based on Clusterwise Linear Regression Method
LIANG Zhen-dong,HE Xiao-jing,F(xiàn)ANG Hong-yuan
(School of Hydraulic Energy and Power Engineering,Yangzhou University,Yangzhou 225009,China)
Abstract:The connotation of regional water resources utilization and its influencing factors are described and analyzed,and the regional economic development driving and water resources endowment restricting are generalized as two aspects in influencing factors of regional water resources utilization.Clusterwise linear regression model is introducted and described,furthermore the influencing factors of regional water resources utilization of Taihu basin area are analyzed.Some factors are selected such as population proportion,GDP,industrial structure etc,and clusterwise linear regression method is applied to evaluate and research influencing factors of regional water resources utilization.According to the analysis,there is a result that the dominant factor of Taihu basin water resources utilization is that water resources rigid requirements of regional eco?nomic development.Additionally,industrial structure on the Taihu Basin bring about inhibited effect in utilization of water resources.For the water resources endowment restricting,the water resources shortage stress of Taihu basin is comparative?ly low,there until is climbing space of water resources utilization.
Key words:regional;water resources utilization;influencing factors;clusterwise linear regression