葉 楓,王 露,王志堅,張 鵬,毛聲錄
(1.河海大學(xué) 計算機與信息學(xué)院,江蘇 南京 211100;2.江蘇省水利工程規(guī)劃辦公室,江蘇 南京 210029;3.南京市六合區(qū)水利局,江蘇 南京 211500)
簡訊
使用?R對?1995—2011?年我國水資源狀況的分析
葉 楓1,王 露1,王志堅1,張 鵬2,毛聲錄3
(1.河海大學(xué) 計算機與信息學(xué)院,江蘇 南京 211100;
2.江蘇省水利工程規(guī)劃辦公室,江蘇 南京 210029;
3.南京市六合區(qū)水利局,江蘇 南京 211500)
緩解水資源危機,合理開發(fā)利用水資源,關(guān)鍵是從時空維度量化水資源,分析和挖掘出有價值的知識和規(guī)律。R 是一種免費的軟件,具有豐富的統(tǒng)計計算和圖形展現(xiàn)等功能,已成為大數(shù)據(jù)分析、挖掘和展現(xiàn)的利器。在概述水資源數(shù)據(jù)特點的基礎(chǔ)上,以 1995—2011 年全國各省份水資源統(tǒng)計數(shù)據(jù)集為例,介紹如何使用 R 對水資源數(shù)據(jù)進行分析,包括假設(shè)檢驗、趨勢分析等。結(jié)果既能通過圖形化方式清晰直觀地看到不同地區(qū)、省份的空間維度下,水資源按時間的變化情況, 也可以快速選擇出最佳趨勢擬合方式等,符合領(lǐng)域業(yè)務(wù)要求。
大數(shù)據(jù);R 語言;水資源;數(shù)據(jù)分析
水資源[1]是人類賴以生存、發(fā)展的基礎(chǔ)。隨著經(jīng)濟發(fā)展與人口增長,全球水資源的需求量也與日俱增。與發(fā)展相伴隨的是嚴重的水資源浪費與污染。作為最大的發(fā)展中國家,我國水資源現(xiàn)狀也不容樂觀,主要在于:1)水資源時空分布不均,直接影響全局規(guī)劃與區(qū)域發(fā)展;2)粗放型的管理和使用機制,使得寶貴的水資源得不到充分利用;3)水污染狀況日益嚴峻。要緩解水資源危機,合理地開發(fā)利用水資源,積極推進國家水資源監(jiān)控能力建設(shè)[2],關(guān)鍵是從時空維度量化水資源,分析和挖掘出有價值的知識和規(guī)律,并加以科學(xué)應(yīng)用。但是,對于水資源數(shù)據(jù)的量化、分析和挖掘工作是非常困難的,這是由于:1)隨著各類水文、水質(zhì)傳感器得到更加廣泛的應(yīng)用,所獲取的水資源數(shù)據(jù)規(guī)模和增長速度都是空前的。2)水資源大數(shù)據(jù)類型眾多(實時水雨情、水文、水質(zhì)、氣象、水利普查等)、數(shù)據(jù)血統(tǒng)復(fù)雜(來源于不同的事權(quán)單位)[3],并且數(shù)據(jù)之間存在著豐富的時空關(guān)聯(lián)信息。
科學(xué)研究的“第四范式”[4],也即數(shù)據(jù)密集型的知識發(fā)現(xiàn),為研究水利領(lǐng)域的數(shù)據(jù)提供了嶄新思路。以物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)處理[5]為代表的新技術(shù),可用于數(shù)據(jù)獲取、管理、分析和挖掘等方面,是實現(xiàn)“第四范式”的核心技術(shù)。其中,大數(shù)據(jù)處理是當(dāng)前研究與應(yīng)用的熱點,其核心是通過對海量數(shù)據(jù)的整合、分析與挖掘,得出其中有價值的信息與知識。R[6-7]是一種免費的統(tǒng)計軟件,具有豐富的統(tǒng)計計算和數(shù)據(jù)展現(xiàn)等功能,已成為大數(shù)據(jù)分析、挖掘和展現(xiàn)的利器?;?R 的大數(shù)據(jù)深度分析研究[8-9]已有了一些進展。因此,使用 R 對水利信息化領(lǐng)域的特定大數(shù)據(jù)進行分析、挖掘等是可行的。
本文的主要工作是具體介紹如何結(jié)合水資源數(shù)據(jù)的特點,使用 R 對水資源數(shù)據(jù)進行分析,例如趨勢分析、假設(shè)檢驗等,并通過使用 1995—2011 年全國各省水資源統(tǒng)計數(shù)據(jù)集做例示,這是最終構(gòu)建基于 R 的水利領(lǐng)域大數(shù)據(jù)處理平臺的基礎(chǔ)。
R 是當(dāng)前發(fā)展最為迅速一種開源免費的統(tǒng)計軟件。它提供了有彈性的和互動的環(huán)境來分析、可視及展現(xiàn)數(shù)據(jù);也提供了 3 700 多個統(tǒng)計程序包,以及一些集成的統(tǒng)計工具和各種數(shù)學(xué)、統(tǒng)計計算的函數(shù),幾乎覆蓋了整個統(tǒng)計領(lǐng)域的前沿算法。用戶只需根據(jù)統(tǒng)計模型,指定相應(yīng)的數(shù)據(jù)庫及相關(guān)的參數(shù),便可靈活機動地進行數(shù)據(jù)分析等工作,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法,這樣就簡化數(shù)據(jù)分析過程,從數(shù)據(jù)的存取,到計算結(jié)果的展現(xiàn),能夠更好地分析和解決問題。R 可以對多種文件格式進行讀取處理,包括:Excel,XML,CSV,ARFF 及 PMML 等。當(dāng)前,在國外諸多領(lǐng)域中,R已經(jīng)得到深度應(yīng)用,與水利相關(guān)專業(yè)數(shù)據(jù)處理的 R包也已有一些,例如:hydroTSM 包是高度面向水文建模任務(wù);EnvStats 包可用于環(huán)境數(shù)據(jù)的統(tǒng)計。在文獻 [7] 中,介紹了使用 R 對水樣中的藍藻數(shù)據(jù)進行預(yù)處理、探索性數(shù)據(jù)分析和構(gòu)建預(yù)測模型等。但是,在國內(nèi)水利信息化領(lǐng)域,依然需要更多的研究和實例來挖潛 R 的分析、展現(xiàn)等能力。
針對大數(shù)據(jù)的研究是當(dāng)前信息技術(shù)的熱點,R也已成為大數(shù)據(jù)分析、挖掘和展現(xiàn)的利器。對于大數(shù)據(jù)深度挖掘分析的應(yīng)用,已有很多研究工作,如文獻 [8-10],介紹了諸多開源的、商用的深度分析工具。其中,在文獻 [9] 中,概述了當(dāng)前基于 R 的大數(shù)據(jù)分析和挖掘的現(xiàn)狀,并提出基于云計算集成 R 的大數(shù)據(jù)分析挖掘服務(wù)平臺。該平臺是前期的工作,已具有了分類與預(yù)測、聚類、回歸分析和時間序列分析等數(shù)據(jù)分析挖掘服務(wù)。但是,上述工作并沒有考慮結(jié)合水利領(lǐng)域的特定業(yè)務(wù)和具體數(shù)據(jù)進行數(shù)據(jù)挖掘。
綜上所述,大數(shù)據(jù)的發(fā)展如火如荼,但是結(jié)合具體領(lǐng)域數(shù)據(jù)特點進行分析和挖掘,更具有應(yīng)用價值。對于水利領(lǐng)域而言,由于水資源相關(guān)的大數(shù)據(jù)類型眾多、血統(tǒng)復(fù)雜并且數(shù)據(jù)之間存在著豐富的時空關(guān)聯(lián)信息,需要考慮結(jié)合水資源數(shù)據(jù)的特點,利用已有的大數(shù)據(jù)深度分析和挖掘的基礎(chǔ)開展更多的研究工作。
水資源數(shù)據(jù)往往具有下述主要特征[11]:
1)只可能是非負的值。
2)存在異常的數(shù)值。
3)數(shù)據(jù)往往是非正態(tài)分布的。
4)當(dāng)數(shù)據(jù)值低于或高于某一閾值時,應(yīng)加以關(guān)注。例如:低于某一種或多個檢測限的濃度、每年的水位高度中超過眾所周知的記錄水平的時候,應(yīng)該進行水質(zhì)或水位的報警。
5)具有季節(jié)性模式。
6)自相關(guān)性(Autocorrelation)。連續(xù)觀測的值往往是彼此密切相關(guān)的。
7)依賴于其它變量。例如,數(shù)據(jù)值往往與排水量、導(dǎo)水率或其它的一些變量有著強烈的共變。
根據(jù)上述特點,通常用于衡量水資源數(shù)據(jù)的測度有均值、中位數(shù)及極值等。例如,均值能直接反映數(shù)據(jù)的整體平均趨勢;異常值出現(xiàn)時,通常需要關(guān)注或者報警。對水資源數(shù)據(jù)分析的統(tǒng)計方法有:假設(shè)檢驗、簡單關(guān)聯(lián)分析、多元線性回歸、趨勢分析等。例如,考察年徑流量是否服從某種分布,相鄰兩測站不同時段降雨量系列的均值是否有明顯差異等都要對水文數(shù)據(jù)的分布性質(zhì)和參數(shù)情況做出某種假設(shè);經(jīng)常把水資源數(shù)據(jù)與人口、季節(jié)性數(shù)據(jù)進行關(guān)聯(lián)性分析;由于時空分布不均,變化分布不均對地表水進行趨勢分析。
使用圖形表現(xiàn)數(shù)據(jù)中隱含的模式和理論直觀方便。對于單一數(shù)據(jù)集,常用的圖形化方式有:柱狀圖、莖葉圖(Stem-and-Leaf Display)、盒圖(Boxplots)、四分位圖(Quantile Plots)和概率圖(Probability Plots)等;用于 2 個或多個數(shù)據(jù)集的比較時,常用的圖形化表示有:柱狀圖、Q-Q 圖(Q-Q Plots)、中位數(shù)或標(biāo)準(zhǔn)偏差的點圖或線圖、盒圖(Boxplots)、概率圖;對于多元數(shù)據(jù),可以使用剖面圖(Profile Plot)、星狀圖(Star Plots)、三線圖(Trilinear Diagrams)、主成分分析圖(Plots of Principal Components)等。
可將水資源數(shù)據(jù)的特點總結(jié)為如圖1 所示的內(nèi)容。
3.1 基本的統(tǒng)計和展現(xiàn)
圖1 水資源數(shù)據(jù)的特征
使用 R 對數(shù)據(jù)進行基本的統(tǒng)計和展現(xiàn),是非常簡單和易用的,對于常用的水資源數(shù)據(jù)也沒有例外。在 R 中,對于均值、中位數(shù)、方差等有直接的函數(shù),分別是 mean( ),median( ),var( );對于圖形化展現(xiàn),餅圖、直方圖、盒圖等也可以直接調(diào)用相關(guān)函數(shù)。除了上文提及的 hydroTSM 包和 EnvStats包,還有一些特定的庫(library)可專門用于水利領(lǐng)域的數(shù)據(jù)處理。例如:waterData 包用于檢索、分析和日水文序列的異常計算;weatherData 包中的函數(shù)可以獲取相關(guān)站點提供的天氣數(shù)據(jù)(氣溫、氣壓等)以便用于天氣相關(guān)的分析。更多的 R 包和具體用法可以直接參考文獻 [12]。
3.2 假設(shè)檢驗
Mann-Kendall 檢驗是水文數(shù)據(jù)分析中最為廣泛使用的非參數(shù)性檢驗方法,它不需要樣本遵從一定的分布,也不受少數(shù)異常值的干擾。通過加載 R 中的 Kendall 包,調(diào)用其中的 Kendall( ) 方法就可實現(xiàn),其 R 描述的偽代碼實現(xiàn)為
1)輸入。水文數(shù)據(jù) S,自變量列名 X,因變量列名 Y。
2)輸出。參數(shù)檢驗結(jié)果 R。
a.library (Kendall);/*加載 Kendall 分析包*/
b.x<—S$X;/*取出列名為 X 的數(shù)據(jù)*/
c.y<—S$Y;/*取出列名為 Y 的數(shù)據(jù)*/
d.result<—Kendall (x,y);/*調(diào)用方法 Kendall( )處理數(shù)據(jù)并返回結(jié)果*/
e.return result./* 返回結(jié)果*/
3.3 趨勢擬合
趨勢擬合是用平滑的曲線反映出數(shù)據(jù)變化的總體趨勢,從而使數(shù)據(jù)易于分析與預(yù)測。最常見的數(shù)據(jù)擬合方式有樣條差值與 Lowess 局部加權(quán)擬合法。樣條差值法是常用的、得到平滑曲線的一種差值方法,三次樣條又是其中較為廣泛的一種;Lowess局部加權(quán)擬合法是對二維散點圖進行平滑的常用方法,它結(jié)合了傳統(tǒng)線性回歸的簡潔性和非線性回歸的靈活性。當(dāng)要估計某個響應(yīng)變量時,先從其預(yù)測變量附近取 1 個數(shù)據(jù)子集,然后對該子集進行線性或二次回歸,回歸時采用加權(quán)最小二乘法,即越靠近估計點的值其權(quán)重越大,最后利用得到的局部回歸模型估計響應(yīng)變量的值,用這種方法進行逐點運算得到整條擬合曲線。以 Lowess 擬合為例,其 R 描述的偽代碼描述為
1)輸入。水文數(shù)據(jù) S,自變量列名 X,因變量列名 Y,平滑程度參數(shù) f_v,預(yù)測回歸參數(shù) deg。
2)輸出。擬合曲線圖和回歸預(yù)測圖。
a.x<—S$X;/*取出列名為 X 的數(shù)據(jù)*/
b.y<—S$Y;/*取出列名為 Y 的數(shù)據(jù)*/
c.l<—lowess (x,y,f=f_v);/*生成擬合數(shù)據(jù)*/
d.lowess<—drawLowess (l);/*利用擬合數(shù)據(jù)畫出擬合曲線*/
e.p<—predict (loess(y~x,degree=deg));/*計算水文數(shù)據(jù) S 的個數(shù)*/
f.pred<—drawPredict (p);/*利用預(yù)測數(shù)據(jù)畫出預(yù)測曲線*/
g.return [lowess,pred]./*返回擬合和預(yù)測曲線*/
所選用的數(shù)據(jù)集來自中國計算機學(xué)會數(shù)字圖書館中的 1995—2011 年的全國各省水資源統(tǒng)計數(shù)據(jù),該數(shù)據(jù)集具體包括:1997—2011 年全國各地區(qū)水資源總量數(shù)據(jù),2003—2011 年各地區(qū)地表水、地下水及重復(fù)量的數(shù)據(jù)。該數(shù)據(jù)集基于 Excel 文件,數(shù)據(jù)可靠性高,但是有缺值。結(jié)合使用的數(shù)據(jù)集是 1997—2011 年全國各地區(qū)人口數(shù)據(jù)[13]。
由于數(shù)據(jù)集規(guī)模不大,試驗環(huán)境可基于單機環(huán)境,使用的 R 版本為 R386 3.1.0。若數(shù)據(jù)規(guī)模超過單機能力,可以參考文獻 [9] 或者利用 R 具有的并行計算能力。
4.1 數(shù)據(jù)的整理
對原始數(shù)據(jù)集進行分類整理,主要包括對于缺失值的處理,如處理某些省份地表水缺失的情況;按時間—地區(qū)的處理,如分析某省的水資源變化情況;按區(qū)域進行分析、比較,如分析不同地區(qū)的水資源狀況等。其中,對于缺失值,計算時可以按有值年份計算,比如很多省份缺少 1995 和 1996 年數(shù)據(jù),計算時可以從 1997 年開始計算,不能用均值補入的原因是時間序列過短,并且很多區(qū)域水資源變化極大,易造成較大誤差。
4.2 圖形化分析
可分析全國水資源總量的總體狀況。1997—2011 年全國水資源總量如圖2 所示,15 年來我國水資源總量大體維持在 24 000~30 000 億m3左右,在 34 000 億m3區(qū)間內(nèi)存在一個極大值,主要原因是1998 年全國發(fā)生了大范圍洪水。
圖2 全國水資源總量直方圖
2011 年全國水資源總量如圖3 所示。其中,西南地區(qū)水資源尤其豐富,而華北地區(qū)呈現(xiàn)為水資源量短缺。但是,西南地區(qū)的水資源供需矛盾依然嚴峻,不少城市供水不足,中小型河流污染嚴重,并且地形變化復(fù)雜,高原、山原、低谷和盆地相互交錯分布,從而導(dǎo)致水資源利用困難[14]。
圖3 2011 年全國水資源總量直方圖
1997 年全國水資源總量分布如圖4 所示,全國各地區(qū) 15 年水資源總量均值如圖5 所示。西南地區(qū)水資源量占全國水資源總量的 35.65%,華北地區(qū)僅為 2.5%。華東和華中地區(qū)水資源總量均值范圍波動較為平穩(wěn)。然而,華北地區(qū)出現(xiàn)均值范圍遠超總體均值水平的現(xiàn)象。西南地區(qū)水資源狀況波動較大。結(jié)合文獻 [14],可分析出主因是西南地區(qū)海拔相差懸殊,區(qū)域氣候差異相差極大,降水量不穩(wěn)定所導(dǎo)致,有必要開展時空調(diào)節(jié)。
進一步可以分析水資源數(shù)據(jù)集的概率分布及區(qū)間段的累計頻率。為了分析數(shù)據(jù)的累積頻率和區(qū)間段數(shù)據(jù)及極值點出現(xiàn)的概率,可以選取 Cunnane公式計算累積頻率作為計算的標(biāo)準(zhǔn) pi = (i -a)/ (n + 1 - 2 a),其中 a = 0.4,n 為數(shù)據(jù)集規(guī)模。它是相對于 Weibull 公式(a = 0),Blom 公式(a = 0.375),Gringorten 公式(a = 0.44)及 Hazen 公式(a = 0.5)的一種對比較數(shù)據(jù)分位數(shù)較合適的分布概率圖,它被北美及一些歐洲的水文學(xué)家用于做水量數(shù)據(jù)和洪水頻度曲線,對于處理小數(shù)據(jù)集的水文數(shù)據(jù)極其方便。例如,參數(shù) a 值(0~0.5)的不同選擇如圖6 所示,數(shù)據(jù)集的分位數(shù)圖呈現(xiàn)不同的分布。在 28 000~30 000 億m3區(qū)間曲線陡峭,說明出現(xiàn)頻率越高數(shù)據(jù)分布越密集,30 000 億m3以上區(qū)間曲線趨于平緩說明出現(xiàn)頻率較低。
圖4 1997 年全國水資源總量分布餅圖
圖5 各地區(qū) 15 年水資源總量均值盒圖
圖6 15 年全國水資源總量分位數(shù)圖
為了分析各地區(qū)水資源總量趨勢圖,以華南地區(qū)為例,1997—2011 年華南地區(qū)水資源總量如圖7所示。該地區(qū)水資源量波動較大,有個別極值點,1997 年水資源量為 5 547.90 億m3,2004 年則出現(xiàn)15 年來的最小極值點,水資源量只有 2 963.30 億m3,與均值 4 075.60 億m3比較看,低于均值近 1 000 億m3的水量,相差非常大。結(jié)合文獻 [15],原因可能是由于 2004 年月平均氣溫比常年偏高,時空分布不均及人為的嚴重浪費與破壞水資源導(dǎo)致 2004 年華南地區(qū)出現(xiàn)嚴重的旱情。
水資源及人口總量數(shù)據(jù)如圖8 所示,可分析出相對應(yīng)的全國人均水資源量的變化趨勢。2004 及2011 年全國人均水資源量達到了極小值點,我國人均水資源量均值在 2 030 m3左右,僅為世界水平的1/4[15-16],而 2004 年人均水資源量,遠遠低于均值水平。2010 年出現(xiàn)了 15 年來人均水資源量的極大值點為 2 304.883 m3,主要是因為 2011 年降水量比往年偏多。我國水資源總量總體呈現(xiàn)下降趨勢,而我國人口數(shù)量總體呈現(xiàn)上升趨勢,2 者成反比導(dǎo)致我國人均水資源量總體呈現(xiàn)下降趨勢,值得密切關(guān)注。
圖7 1997—2011 年華南地區(qū)水資源總量折線圖
圖8 1997—2011 年全國人均水資源量趨勢圖
通過分析地表水、地下水及重復(fù)量的數(shù)據(jù),各地區(qū)水資源污染現(xiàn)狀并集合各地區(qū)地勢、環(huán)境、氣候等因素能分析出污染的可能原因。以最近幾年廣受關(guān)注的華北地區(qū)為例,對華北地區(qū)各城市與各省份的水資源總量、地表水量、地下水量及重復(fù)量進行分析,生成華北地區(qū)各?。ㄊ校┶厔輰Ρ葓D,如圖9 所示。
內(nèi)蒙古自治區(qū)地表水呈現(xiàn)較平穩(wěn)的態(tài)勢,地下水與重復(fù)量雖沒有較大波動,但均有下降的趨勢,這很大程度上是受人為因素的影響[17]。北京的狀況主要受地下水變化的影響,年份差異非常大。作為人口密集的國際化都市,其人均水資源占有量約為285 m3/人,只是全國人均水資源占有量的 1/7[18]。天津為典型的北方地區(qū),存在典型的時空的差異問題,導(dǎo)致其成為全國人均水資源占有量最少的省市之一,僅為全國人均占有量的 1/13,在天津地區(qū)由于地表水資源極度崩潰,超量開采地下水,導(dǎo)致地下水位下降,引發(fā)大面積的地下沉降和海水入侵等環(huán)境問題[19]。山西省地處山地、高原地區(qū),總的地勢北高南低,因為山地和季風(fēng)氣候的原因,主要會由于暴雨形成山洪暴發(fā),洪水出現(xiàn)的平均間隔也具有一定的規(guī)律性,局部地區(qū)的洪災(zāi)平均 3~4 年出現(xiàn)1 次[20],這可能是導(dǎo)致山西省水資源總量大幅度變化的原因。河北省水資源量波動較大,地下水資源量影響著全省水資源總量的變化,地表水資源量遠遠小于地下水資源量是由于河北省的地表水已專供北京和天津地區(qū)使用[21]??偠灾?,華北地區(qū)水資源極為短缺并且人們過分依賴于地下水的開采,導(dǎo)致地下水位持續(xù)下降,使華北地區(qū)成為世界上最大的地下水漏斗區(qū)。
圖9 華北地區(qū)各省(市)水資源趨勢圖
4.3 假設(shè)檢驗
利用假設(shè)檢驗,對各區(qū)域進行趨勢檢驗。在給定的置信水平 = 0.05 上,如果支持原假設(shè)(水資源數(shù)據(jù)有明顯趨勢變化)的概率為 p,當(dāng) p < 0.05 則原假設(shè)將被拒絕,說明隨著時間變化的序列不存在明顯的變化趨勢;當(dāng) p>0.05 則接受原假設(shè),說明隨著時間變化的序列存在明顯的變化趨勢;得到的 p 值如表 1 所示,除華東地區(qū)以外,其值小于 0.05,所以華東地區(qū)有足夠的理由拒絕原假設(shè),因此沒有明顯的變化趨勢。其它 6 個區(qū)域的 p 值均大于 0.05,因此趨勢性檢驗顯著。
另外,通過趨勢性檢驗的測量值可以說明各區(qū)域降水量隨年份變化的具體趨勢。從表 1 中可以看出華北與東北地區(qū)的檢驗值均為正值,說明華北與東北地區(qū) 15 年來水資源總量總體呈上升趨勢,而其它區(qū)域均為負值,故呈現(xiàn)下降趨勢。
表 1 各地區(qū) Mann-Kendall 趨勢性檢驗值
4.4 趨勢擬合
利用三次差值擬合法得到的平滑曲線如圖10 所示,Lowess 局部加權(quán)擬合與預(yù)測圖如圖11 所示,從圖11 中則可以看出根據(jù)平滑程度為目的,選擇一個合適的 f 是由主觀決定的。平滑的 Lowess 變化通過改變窗口的寬度,就像被平滑因子 f 所控制。f 取值越小說明曲線平滑程度越低越接近于數(shù)據(jù)的具體趨勢,f 取值越大越接近于 1 說明曲線平滑程度越高只能說明數(shù)據(jù)的大體趨勢不能更精確地表達數(shù)據(jù),有較大的誤差。在 Lowess 中根據(jù)回歸次數(shù)不同,預(yù)測的模型曲線則不同。圖11 中可以看出二次回歸的預(yù)測值與趨勢線擬合程度比一次回歸的要高,更接近于數(shù)據(jù)的準(zhǔn)確性。
圖10 三次樣條差值擬合
圖11 Lowess 局部加權(quán)擬合與預(yù)測圖
主要以 1995—2011 年全國各省水資源統(tǒng)計數(shù)據(jù)集為例,通過圖形化方式清晰展示了不同地區(qū)、省份的空間維度下水資源按時間的變化情況,也可以快速地比較出最合適的趨勢擬合方式。這些工作都符合日常水利業(yè)務(wù)領(lǐng)域的需求,是非常有價值和意義的。
未來的研究將主要在 2 個方面:1)由于所選用的數(shù)據(jù)集數(shù)據(jù)量小,周期序列不夠長,展現(xiàn)出的趨勢擬合效果有限。后續(xù)工作將集中于面向水利領(lǐng)域傳感器流數(shù)據(jù)的分析與挖掘,深入應(yīng)用 R 語言在大數(shù)據(jù)方面的處理能力;2)在前期工作的基礎(chǔ)上,構(gòu)建面向水利領(lǐng)域特定數(shù)據(jù)的分析展現(xiàn)平臺。
參考文獻:
[1] 劉昌明,王紅瑞.淺析水資源與人口、經(jīng)濟和社會環(huán)境的關(guān)系[J].自然資源學(xué)報,2003,18 (5): 635-644.
[2] 蔡陽.國家水資源監(jiān)控能力建設(shè)項目及其進展[J].水利信息化,2013 (6): 5-10.
[3] 馮鈞,許瀟,唐志賢,等.水利大數(shù)據(jù)及其資源化關(guān)鍵技術(shù)研究[J].水利信息化,2013 (4): 6-9.
[4] T.Hey,S.Tansley,K.Tolle.第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)[M].北京:科學(xué)出版社,2012: i-xxiv.
[5] A.Rajaraman,J.D.Ullman.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘[M].北京:人民郵電出版社,2012: 1-40.
[6] J.Maindonald,W.J.Braun.Data Analysis and Graphics Using R—an Example-Based Approach[M].Third Edition.New York: Cambridge University Press,2010: 1-10.
[7] L.Torgo.Data Mining with R: Learning with Case Studies[M].Boca Raton: Chapman&Hall/CRC,2011: 1-94.
[8] S.Das,Y.Sismanis,K.S.Beyer,et al.Ricardo: Integrating R and Hadoop[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data.Indiana: ACM Press,2010: 987-998.
[9] F.Ye,Z.J.Wang,F.C.Zhou,et al.Cloud-based Big Data Mining &Analyzing Services Platform integrating R[C]//Processing of 2013 International Conference on Advanced Cloud and Big Data.Nanjing: IEEE Computer Society,2013: 147-151.
[10] F.Zulkernine,M.Bauer,A.Aboulnaga.Towards Cloudbased Analytics-as-a-Service (CLAaaS) for Big Data Analytics in the Cloud[C]//Processding of 2013 IEEE International Congress on Big Data.Santa Clara,IEEE ComputerSociety,2013: 62-69.
[11] D.R.Helsel,R.M.Hirsch.Statistical Methods in Water Resources[A]// Techniques of Water-Resources Investigations of the US Geological Survey Book 4,Hydrologic Analysis and Interpretation[M].http://water.usgs.gov/pubs/twri/ twri4a3/,2012: 1-97.
[12] R Development Core Team.R: A Language and Environment for Statistical Computing[Z].R Foundation for Statistical Computing.[2014-08-14].http://www.R-project.org/
[13] 中華人民共和國國家統(tǒng)計局.中國人口統(tǒng)計年鑒 1949—2012[EB/OL].[2014-08-14].http://www.datatang.com/ data/46244.
[14] 陳傳友.西南地區(qū)水資源及其評價[J].自然資源學(xué)報,1992,7 (4): 312-328.
[15] 中華人民共和國水利部.2004 年全國水資源公報[R].北京:中國水利水電出版社,2005: 1-5.
[16] 中華人民共和國水利部.2011 年全國水資源公報[R].北京:中國水利水電出版社,2012: 1-24.
[17] 劉艷慧.內(nèi)蒙古水資源供求現(xiàn)狀分析與評價[J].內(nèi)蒙古統(tǒng)計,2008,3 (2): 21-22.
[18] 北京市水務(wù)局.2011 年北京市水資源公報[R].北京:中國水利水電出版社,2012: 1-17.
[19] 天津市水務(wù)局.2011 年天津市水資源公報[R].北京:中國水利水電出版社,2012: 1-10.
[20] 薛鳳海.山西省水資源問題研究[J].水資源保護,2004,20 (1): 53-56.
[21] 呂長安.河北省水資源現(xiàn)狀分析與解決措施[J].中國水利,2003,3 (6): 76-77.
Analysis of Water Resources Data in Different Provinces between 1995-2011 Using R
YE Feng1,WANG Lu1,WANG Zhijian1,ZHANG Peng2,MAO Shenglu3
(1.College of Computer and Information,Hohai University,Nanjing 211100,China;
2.Hydraulic Engineering Planning Office of Jiangsu,Nanjing 210029,China;
3.Water Conservancy Bureau of Liuhe District,Nanjing 211500,China)
Aimed at easing the water crisis,developing and utilizing the water resource appropriately,it is critical to quantify water resource from the space-time dimension,as well as analyze and mine the valuable knowledge and patterns in the datasets.As a free software with a wealth of statistical computing and data presentation capabilities,R has become a major data analysis,mining and graphical presentation tool for big data.Based on summarizing the characters of water resource data,and according to the analysis of statistics of water resources in different provinces from 1995 to 2011,it introduces how to utilize different methods to analyze water resources using R including hypothesis tests and trend analysis.Through graphical presentation,the results can show how the water resource varies with time in different areas or provinces,and quickly choose the best trend fitting mode for the business demand in the water conservancy domain.
big data;R language;water resource;data analysis
TP312;TV21
A
1674-9405(2015)01-0001-08
2014-08-03
江蘇水利科技項目“‘智慧河流’研究及其在六合滁河管理中的應(yīng)用”(2013025);國家科技支撐計劃項目數(shù)字流域關(guān)鍵技術(shù)(2013BAB05B00);基于物聯(lián)網(wǎng)的流域信息獲取技術(shù)研究(2013BAB05B01);河海大學(xué)中央高?;究蒲袠I(yè)務(wù)費項目(2009B21614)
葉 楓(1980-),男,山東濟南人,講師,主要從事云計算和水信息學(xué)的研究。