張中月 吳長(zhǎng)悅 鄭浩
(華北理工大學(xué),河北 唐山 063210)
近百年來(lái),全球氣候變暖對(duì)自然生態(tài)和人類生存環(huán)境產(chǎn)生了顯著影響,各種極端天氣及災(zāi)害事件不斷增加,給人類的生產(chǎn)生活和經(jīng)濟(jì)發(fā)展帶來(lái)嚴(yán)重影響[1,2]。其中降水也是極其重要的,并且對(duì)人類生活與經(jīng)濟(jì)有著重要的影響。作為氣候變化的基本要素之一,降水是一種復(fù)雜自然事件,在時(shí)間和空間上都表現(xiàn)出顯著的多變性[3,4]。作為陸地水循環(huán)的重要組成部分,降水不僅是陸地表面重要的水源補(bǔ)給,還對(duì)土壤-水分狀態(tài)密切相關(guān)的生態(tài)系統(tǒng)和農(nóng)業(yè)生產(chǎn)力、水分和溫度狀態(tài)函數(shù)關(guān)聯(lián)的生物地球化學(xué)過(guò)程以及依賴于水資源可持續(xù)性經(jīng)濟(jì)系統(tǒng)的功能等具有重要的作用[5,6]。本文以甘肅省為例,基于MTALAB軟件研究多元回歸模型在降水量空間分布格局中的應(yīng)用。
本實(shí)驗(yàn)共獲取了甘肅省53個(gè)氣象臺(tái)站的經(jīng)度、緯度、海拔、多年的年降水量以及年蒸發(fā)量的平均數(shù)據(jù),選取其中43組數(shù)據(jù),作為模型建立的基礎(chǔ)數(shù)據(jù),將剩余的10組數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)以驗(yàn)證模型精度。
1.2.1 歸一化處理
本研究為消除指標(biāo)之間的量綱影響,對(duì)降水?dāng)?shù)據(jù)集標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性,使原始數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化處理后,各指標(biāo)處于同一數(shù)量級(jí),適合進(jìn)行綜合對(duì)比評(píng)價(jià)。歸一化處理的2種常用方法包括Z-score標(biāo)準(zhǔn)化方法和min-max標(biāo)準(zhǔn)化方法。本文使用min-max標(biāo)準(zhǔn)化方法也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0-1]之間。轉(zhuǎn)換函數(shù)如下:
(1)
式中,max為樣本數(shù)據(jù)的最大值;min為樣本數(shù)據(jù)的最小值。
對(duì)選定的43個(gè)氣象臺(tái)站的樣本數(shù)據(jù),利用式(1)進(jìn)行歸一化處理,將原始數(shù)據(jù)歸一化為[0,1]之間的無(wú)量綱數(shù)據(jù)。
1.2.2 相關(guān)分析
相關(guān)分析的任務(wù),是揭示地理要素之間相互關(guān)系的密切程度。而地理要素之間相互關(guān)系密切程度的測(cè)定,主要是通過(guò)對(duì)相關(guān)系數(shù)的計(jì)算與檢驗(yàn)來(lái)完成的。
相關(guān)系數(shù)的計(jì)算:
(2)
表1 相關(guān)系數(shù)與相關(guān)程度關(guān)系
1.2.3 多元線性回歸分析
1.2.3.1 多元線性回歸模型的建立
多元線性回歸模型的結(jié)構(gòu)形式如下[7]:
ya=β0+β1x1a+β2x2a+…+βkxka+εa
(3)
式中,β0,β1,…,βk為待定參數(shù);εa為隨機(jī)變量。
如果b0,b1,…,bk分別為式(3)中β0,β1,β2,…,βk的擬和值,則回歸方程為:
(4)
在式(4)中,b0為常數(shù),b1,b2,…,bk稱為偏回歸系數(shù)。偏回歸系數(shù)的意義是,當(dāng)其自變量都固定時(shí),自變量xi每變化一個(gè)單位而使因變量平均改變的數(shù)值。
1.2.3.2 多元逐步回歸分析
逐步回歸是一種通過(guò)添加或刪除預(yù)測(cè)變量來(lái)構(gòu)建模型的方法,通常通過(guò)一系列F檢驗(yàn)或T檢驗(yàn)。根據(jù)估計(jì)系數(shù)的檢驗(yàn)統(tǒng)計(jì)量選擇要添加或刪除的變量。以確保每次引入新的變量之前回歸方程中只包含顯著性變量。
將甘肅省各氣象臺(tái)的經(jīng)緯度以及海拔數(shù)據(jù)作為自變量,降水量和蒸發(fā)量作為因變量。可以利用式(2)對(duì)降水量(p)和經(jīng)度(x)、緯度(y)、海拔(a)之間的相關(guān)系數(shù)以及蒸發(fā)量(v)和經(jīng)度(x)、緯度(y)、海拔(a)之間的相關(guān)系數(shù)進(jìn)行計(jì)算,結(jié)果見表2。
表2 氣象臺(tái)站的降水量、蒸發(fā)量與經(jīng)緯度、海拔的相關(guān)性
結(jié)合表2與表4分析可得到年降水量(p)與經(jīng)度(x)高度相關(guān);與緯度(y)和年蒸發(fā)量(v)顯著相關(guān),且呈負(fù)相關(guān);與海拔(a)間存在實(shí)相關(guān)關(guān)系。年蒸發(fā)量與緯度(y)呈正相關(guān),與經(jīng)度(x)和年降水量呈負(fù)相關(guān);與海拔之間相關(guān)性僅為0.0004,相關(guān)性微弱,可忽略不計(jì),與經(jīng)度(x)實(shí)相關(guān),與年降水量(p)顯著相關(guān),與緯度的相關(guān)性高達(dá)0.905,兩者高度相關(guān)。
因?yàn)槟杲邓颗c經(jīng)緯度、海拔、年蒸發(fā)量都具有一定的相關(guān)性,因此將年降水量(p)作為因變量,將經(jīng)度(x)、緯度(y)、海拔(a)以及年蒸發(fā)量(v)作為自變量建立多元線性回歸方程:
p=β0+β1x+β2y+β3a+β4v
(5)
利用MATLAB軟件中regress函數(shù)進(jìn)行多元線性回歸,得到降水量(p)的擬合方程:
p=0.7370+0.1625x-0.8659y+0.1531a-0.1510v
(6)
擬合方程的R2為0.8497,F(xiàn)統(tǒng)計(jì)量為53.7205,顯著性P值為3.9317×10-15。
利用rcoplot(r,rint)繪制殘差圖,進(jìn)行異常值剔除,異常值是指一組測(cè)定值中與平均值的偏差超過(guò)2倍標(biāo)準(zhǔn)差的測(cè)定值,與平均值的偏差超過(guò)3倍標(biāo)準(zhǔn)差的測(cè)定值,稱為高度異常的異常值。建立循環(huán)函數(shù)對(duì)數(shù)據(jù)的異常值進(jìn)行異常值剔除。得到最終的無(wú)異常值存在的35組數(shù)據(jù),剔除過(guò)程如圖1所示。
利用殘差剔除后的35組數(shù)據(jù)再次建立多元線性回歸模型,得到降水量(p)的擬合方程:
p=0.4280+0.4629x-0.6133y+0.1916a-0.0743v
(7)
擬合方程的R2為0.9210,是一個(gè)評(píng)價(jià)擬合好壞的指標(biāo),R2越接近1,擬合效果越好;F統(tǒng)計(jì)量為87.4911,顯著性P值為4.28×10-16,F(xiàn)統(tǒng)計(jì)量用于判定模型中自變量X中是否至少有1個(gè)對(duì)因變量Y產(chǎn)生影響,如果呈現(xiàn)出顯著性(看P值),則說(shuō)明所有X中至少1個(gè)會(huì)對(duì)Y產(chǎn)生影響關(guān)系。分析可得,年平均降水量(p)的擬合方程的擬合程度很高,且相較于殘差剔除前的擬合效果提高顯著。
利用異常值剔除之后的數(shù)據(jù)在顯著性概率95%的條件進(jìn)行多元逐步回歸分析,篩選出滿足顯著性條件的參數(shù)。通過(guò)非參數(shù)檢驗(yàn)將經(jīng)度(x)、緯度(y)、海拔(a)以及年蒸發(fā)量(v)4個(gè)變量作為自變量賦值為X1、X2、X3、X4,以年平均降水量(p)作為因變量,對(duì)年平均降水量(p)的影響因素進(jìn)行多元逐步回歸分析,納入標(biāo)準(zhǔn)為α=0.05。
多元逐步回歸分析結(jié)果顯示,參數(shù)X4(海拔a)不符合標(biāo)準(zhǔn),F(xiàn)=119.224,P=4.1547×10-17,R2=0.9202,RMSE=0.0822。說(shuō)明回歸方程成立且擬合較好。影響年平均降水量的因素按其效應(yīng)由大到小依次為緯度(y)、經(jīng)度(x)、海拔(a)。多元回歸分析結(jié)果如圖2所示。
利用多元逐步回歸分析的結(jié)果在regress中再次建立回歸方程,求解參數(shù),重新建立年平均降水量的擬合方程:
p=0.4134+0.4840x-0.6642y+0.2019a
(8)
采用方差分析法進(jìn)行回歸方程總體顯著性檢驗(yàn)。在MTALAB中利用regstats函數(shù)求解方程的F統(tǒng)計(jì)量為119.224,F(xiàn)檢驗(yàn)的P值為4.1547×10-17。在給定的顯著水平0.05下,按單尾檢驗(yàn)法,以分子自由度3,分母自由度31為引數(shù),查F分布表Fa為2.9113,可知F遠(yuǎn)大于Fa,總體回歸效果顯著,說(shuō)明年平均降水量(p)和緯度(y)、經(jīng)度(x)、海拔(a)之間線性相關(guān)可信。
參數(shù)顯著性檢驗(yàn)。在多元線性回歸中,并不滿足于回歸方程是顯著的這一結(jié)論,因?yàn)镕>Fa只能說(shuō)明方程總體的回歸效果,但并不能排除某個(gè)β=0,所以還需逐一對(duì)參數(shù)的顯著性進(jìn)行檢驗(yàn)。在MTALAB中利用regstats函數(shù)求解方程各參數(shù)的t統(tǒng)計(jì)量,見表3。
表3 各參數(shù)t統(tǒng)計(jì)量及查表值
查t分布表,在自由度為31時(shí),t0.05=2.0395,顯然t>tα,這表明在置信度水平α=0.05上,回歸方程的系數(shù)β0、β1、β2、β3是顯著的。
回歸分析的一個(gè)主要目的是根據(jù)給定的x值對(duì)y值進(jìn)行預(yù)報(bào)。甘肅省年平均降水量(p)的有效線性回歸方程如式(8)所示,利用式(5)、式(6)計(jì)算歸一化后的預(yù)報(bào)值的區(qū)間估計(jì)。并進(jìn)行反歸一化,得到年降水量的預(yù)報(bào)區(qū)間,選擇10個(gè)氣象臺(tái)站的年平均降水量作為預(yù)報(bào)區(qū)間驗(yàn)證。驗(yàn)證數(shù)據(jù)及預(yù)報(bào)區(qū)間見表4。
表4 氣象臺(tái)站經(jīng)緯度、海拔及降水量驗(yàn)證數(shù)據(jù)
表4的結(jié)果顯示,10組數(shù)據(jù)的實(shí)際年降水量都在預(yù)報(bào)區(qū)間內(nèi),其中民勤氣象臺(tái)站的實(shí)際數(shù)據(jù)接近預(yù)報(bào)區(qū)間邊緣,準(zhǔn)確度較低。其余9組數(shù)據(jù)的預(yù)測(cè)可靠性較高。也證實(shí)了回歸方程的擬合效果顯著??捎糜陬A(yù)測(cè)甘肅省不同經(jīng)緯度、海拔的年平均降水量。
本文對(duì)年降水量及蒸發(fā)量做相關(guān)性分析,得到年降水量及蒸發(fā)量與其他各參數(shù)間的相關(guān)程度。利用甘肅省各氣象臺(tái)站多年平均降水量作為因變量,以經(jīng)度、緯度、海拔、年平均蒸發(fā)量作為自變量,建立多元回歸模型。通過(guò)逐步回歸剔除了年平均蒸發(fā)量,篩選出滿足顯著性0.95以上對(duì)多年平均降水量的影響程度為緯度>經(jīng)度>海拔。所建立的模型計(jì)算結(jié)果精度較高,對(duì)甘肅省年平均降水量的空間分布格局的預(yù)測(cè)有一定的參考價(jià)值,對(duì)農(nóng)業(yè)發(fā)展中不同季節(jié)降水量有著預(yù)測(cè)作用。