周鵬飛,盧澤雨
(河北工程大學 水利水電學院,河北 邯鄲 056000)
隨著我國人口持續(xù)增長、經(jīng)濟飛速發(fā)展、人民生活水平不斷提高,城市工業(yè)和生活用水量增加,使得城市水資源量的供需矛盾加劇。城市用水量預測是城市給水系統(tǒng)規(guī)劃設計和優(yōu)化運行的重要基礎,直接影響到城市的規(guī)劃、城市的可持續(xù)發(fā)展和區(qū)域水資源優(yōu)化配置等。因此,準確預測城市用水量的需求對城市發(fā)展有著極其重要的作用。一般來說,城市用水量采用綜合指標法、平均增長率法等經(jīng)驗類推可以取得較好的研究結(jié)果。但在城市的發(fā)展過程中,由于城市用水量受人類活動影響較大,其市場數(shù)據(jù)存在不規(guī)則的變化,采用歷史數(shù)據(jù)類推達不到理想的效果。因此,目前城市用水量預測常用的方法有定額預測法、回歸分析法、灰色預測法等[1]
本文采用多元線性回歸中的逐步回歸分析法,利用SPSS軟件進行多元回歸分析,建立城市用水量預測模型。多元線性回歸不僅要對回歸系數(shù)進行檢驗,還需要對預測以及假設性檢驗方面進行討論與研究,考慮各個自變量之間的相互關系,檢驗是否存在共線性問題。如果存在共線問題,需要對變量進行篩選,為了克服共線問題,增加預測的精確度。所以,本文采用多元線性逐步回歸分析法。
在現(xiàn)實生活中,要對某個因變量進行統(tǒng)計分析時,由于影響該因變量的自變量往往不止1個。需要考慮k個自變量X1、X2、X3……、XK與因變量y之間的關系時,建立回歸方程:
yi=b0+b1xi1+b2xi2+…+bkxik+ui
(1)
式中:b0、b1、…、bk為待估的回歸系數(shù);i=1,2,…,n(n是樣本容量);ui為隨機誤差。
假設隨機誤差總體分布N(0,σ2)分布且相互獨立,就可在X、Y的觀測樣本下以最小二乘法來估計b0、b1、…、bk,該回歸方程可以寫成矩陣形式:
矩陣表示的多元線性回歸模型為:
Y=XB+u
(2)
式中:Y為觀測值的向量;B為參數(shù)向量;X為常數(shù)向量;u為隨機誤差向量。
采用最小二乘法估計總體參數(shù),其估計量為B=(b0,b1,…,bk)T,總體參數(shù)的最小二乘估計量:
BLS=(XTX)-1XTY
(3)
回歸方程的顯著性檢驗用統(tǒng)計量F檢驗,記:
(4)
回歸系數(shù)的顯著檢驗用統(tǒng)計量t來檢驗,記:
(5)
式中:bj為最小二乘估計;S(bj)為樣本估計量。
SPSS是目前世界上最流行的統(tǒng)計軟件之一,被廣泛用于社會科學和自然科學的各個領域。SPSS的基本功能包括數(shù)據(jù)管理、統(tǒng)計分析、圖表分析和輸出管理,其基本功能主要包含有描述性統(tǒng)計、相關分析、回歸分析、聚類分析、時間序列分析等十幾大類,具有操作簡單、操作方便、功能強大、數(shù)據(jù)接口全面、功能模塊組合靈活、針對性強的特點[3]。
影響城市用水量的因素有很多,根據(jù)2005~2014年邯鄲市統(tǒng)計年鑒資料和2005~2014邯鄲市《水資源公報》,選取7個影響城市用水量的因素,見表1。其中,X1為GDP(萬元),X2為人均GDP(元),X3為固定資產(chǎn)投資(萬元),X4為工業(yè)個數(shù),X5為城市總?cè)丝?萬人),X6為工業(yè)用水量(104m3/a),X7為人均日常生活用水量(L),Y為總用水量(104m3/a),建立數(shù)學模型,對邯鄲市的城市用水量進行預測[4]。
在實際問題中,人們總是希望選擇一些對Y有顯著影響的變量作為自變量,應用多元回歸分析的方法,建立“最優(yōu)”的回歸方程,以便對因變量進行預測和分析。逐步回歸分析就是依據(jù)這種原則提出來的一種回歸分析方法。它的基本思路是建立多元線性回歸方程時,這些因子的挑選是逐步進行的,即每進行一步挑選一個因子。首先,計算m個因子的方差貢獻,挑選其中未引進因子中方差最大者給定信度α下的F檢驗(即引進檢驗)。若通過檢驗,則引進該因子;如果沒有通過檢驗,則不引進該因子。引進2個因子后,在計算m個因子的方差貢獻,挑選其中引進因子中方差貢獻最小者進行給定信度α下的F檢驗(即剔除檢驗),若通過該檢驗則剔除該因子,否則不剔除。最后,直至回歸方程中既不能引進也不能剔除因子或者可供挑選的因子均通過引進檢驗而全部被引進時,逐步回歸結(jié)束[5]。
表1 城市用水量及其影響因素的基本資料Table 1 Urban water consumption and its influencing factors
SPSS具體操作過程如下:打開SPSS文件窗口,錄入表1中數(shù)據(jù)。在SPSS菜單上選擇“分析→回歸→線性”,則出現(xiàn)“線性回歸”主對話框,將Y選入“因變量”,將X1到XK選入到“自變量”中;在統(tǒng)計量對話框中選擇“估計”、“模型擬合度”和“部分相關和偏相關性”,點擊“繼續(xù)”;在“保存”對話框中選擇“未標準化”,點擊“繼續(xù)”;在“方法”框中選擇“逐步”,然后完成以上操作步驟后,點擊OK。
將數(shù)據(jù)輸入到SPSS Data Editor 中,對數(shù)據(jù)進行多元線性回歸分析,軟件會自動在數(shù)據(jù)編輯窗口中保存數(shù)據(jù)和計算結(jié)果。結(jié)果見表2~表4。
表2 模型匯總Table 2 Model Summary
注:模型1預測自變量為X6;模型2預測自變量為X6、X7;模型3預測自變量為X6、X7、X5;模型4預測自變量為X6、X7、X5、X3;模型5預測自變量為X6、X7、X5、X3、X4。
表2是各步模型匯總的情況。從表2中可以看出,多元線性逐步回歸分析模型的相關系數(shù)R為1.000>0.999>0.994>0.951>0.865,說明第五步的自變量與因變量之間的相關性較好;決定系數(shù)R2反映總體回歸效果,決定系數(shù)R2=0.999。以上結(jié)果表明,第五步的多元線性回歸方程的擬合度較好,即所選的因變量Y與所選的5個自變量(X6、X7、X5、X3、X4)之間存在非常密切的線性相關性。
表3 方差分析Table3 Analysis of variance
注:預測自變量為X6、X7、X5、X3、X4;因變量為y;相伴概率中文采用ρ,而表中采用Sig.
表3是第五步模型的方差分析表。第五步F值最大,具體顯示為對因變量Y有顯著影響的變量分別為工業(yè)用水量、人均日常生活用水量、城市總?cè)丝?、固定資產(chǎn)投資和工業(yè)個數(shù)。該模型的回歸平方和U=31 373 903.44,殘差平方和Q=25 000.964,離差平方和Syy=31 499 904.4,其對應的自由度分別為5、4、9。當統(tǒng)計量F=1 007.158時,相伴概率ρ=0.000<0.001,說明回歸方程通過了顯著檢驗(F檢驗),表明所建立的線性回歸模型具有統(tǒng)計學意義。
表4 回歸系數(shù)及顯著性檢驗Table 4 Regression coefficients and the test of significance
注:因變量為y;B為回歸系數(shù);相伴概率中文采用ρ,而表中采用Sig.
表4是第五步模型的回歸系數(shù)。該模型常數(shù)項系數(shù)b0=26 422.704 248,回歸系數(shù)為b1=0.241 547,b2=29.673 624,b3=-68.125 082,b4=-0.000 165,b5=-5.007 862。經(jīng)過t檢驗,各項回歸系數(shù)的相伴概率值ρ都小于剔除因子標準值0.1。所以,不能從回歸方程中剔除,表明回歸系數(shù)有統(tǒng)計學意義。逐步回歸方程為:
(6)
表5 多元線性回歸方程的城市用水量擬合檢驗Table 5 Urban Water Consumption Fitting Test for Multiple Linear Regression Equations
續(xù)表5
通過SPSS軟件模擬出的預測值與實際值在圖形上也可以明顯的看出擬合效果良好,見圖1。
圖1 實際值和預測值擬合效果圖Figure 1 Actual value and predictive value fitting effect chart
1) 影響城市用水量的因素有7個,應用多元線性回歸分析原理,利用SPSS軟件通過逐步回歸分析的方法,最終選擇工業(yè)用水量、人均日常生活用水量、城市總?cè)丝?、固定資產(chǎn)投資、工業(yè)個數(shù)5個變量建立回歸模型。并對實際值和預測值進行比較,該模型預測最大的相對誤差是0.378%,最小的誤差為0.058%,平均誤差為0.241%,說明SPSS逐步線性回歸模型具有較高的精確度,擬合情況良好,可以用來預測用水量。
2) 該方法建模過程簡單、結(jié)果直觀、精確度高,大幅度減少了計算時間,以便于推廣和應用。如果在樣本足夠且具有典型性和代表性時,可以得到更加精確的結(jié)果。