申屠惠良
(國家林業(yè)局華東林業(yè)調(diào)查規(guī)劃設(shè)計院,浙江 杭州 310019)
使用懷特檢驗判斷生物量模型的異方差性
申屠惠良
(國家林業(yè)局華東林業(yè)調(diào)查規(guī)劃設(shè)計院,浙江 杭州 310019)
為了在生物量建模過程中得到回歸模型的最優(yōu)估計,針對回歸模型存在的異方差性,提出用懷特檢驗方法來定量分析模型,再結(jié)合殘差分布圖來輔助判斷,并應(yīng)用懷特檢驗方法和殘差分布圖實例分析了普通最小二乘法擬合櫟類生物量模型結(jié)果存在異方差性,建議采用加權(quán)最小二乘法擬合櫟類生物量模型。
生物量;模型;懷特檢驗;異方差性
生物量建模過程中,要求模型的誤差項必須滿足零數(shù)學(xué)期望、獨立和等方差,這樣才能得到回歸模型的最優(yōu)估計,而誤差項的方差經(jīng)常會隨著自變量的變化,產(chǎn)生規(guī)律性的增加或減少,即不滿足等方差,也就是回歸模型存在異方差性。如何判斷建立的回歸模型存在異方差性,本文采用懷特檢驗方法來定量分析模型,再結(jié)合殘差分布圖來輔助判斷。
生物量模型表達式為:
式中,M表示生物量,D為胸徑,H為樹高,V為材積,a、b為常數(shù)。
懷特檢驗是通過建立輔助回歸模型的方式來判斷異方差性,在生物量建模應(yīng)用過程中設(shè)定如下輔助回歸模型:
式中,E2為殘差平方,ai為輔助回歸模型的參數(shù),υ為滿足古典回歸模型基本假設(shè)的誤差項。
懷特檢驗輔助回歸模型的原理是,將殘差平方與胸徑、樹高、材積的一次項、二次項和交叉乘積項建立回歸方程,擬合產(chǎn)生回歸模型的參數(shù)項和誤差項,再根據(jù)建立的輔助回歸模型計算殘差平方的擬合值,分析殘差平方的原始值和擬合值之間存在的關(guān)系,可以判斷回歸模型的異方差性。
假定輔助回歸模型的R2值在零假設(shè)條件下不存在異方差性,也就是輔助回歸模型的回歸結(jié)果不存在異方差性,則R2與樣本容量的乘積服從分布。在生物量建模應(yīng)用過程中,設(shè)定上側(cè)分位數(shù)置信區(qū)間為“0.05”,即α = 0.05,且自由度為3,當(dāng)nR2大于上側(cè)分位數(shù)值,說明生物量模型存在異方差性,也就是回歸模型不滿足“獨立、正態(tài)、等方差”的基本假設(shè)。
生物量建模數(shù)據(jù),按樣本的部位可以分解為樹干、樹枝、樹葉和樹根,各部位可以單獨建立回歸模型,在實例分析中采用2010年采集的櫟類數(shù)據(jù),且將樣本各部位生物量數(shù)據(jù)組合成為一個總體,使用懷特檢驗和殘差圖判別法來驗證回歸模型的異方差性。
3.1 懷特檢驗
原始采集的生物量建模數(shù)據(jù)因天氣、樣本所在的地理位置等原因,部分樣本不符合建模要求,稱為擾動數(shù)據(jù)。剔除擾動數(shù)據(jù)以后,實際樣本數(shù)量n =52,自由度為p = 3個,分別是D、H和V,使用回歸模型表達式為式(1),經(jīng)普通最小二乘法擬合,結(jié)果見表1。
表1 普通最小二乘法擬合結(jié)果Table 1 Fitting statistics by ordinary least squares
由此可以建立櫟類總體生物量的回歸方程:
表2 懷特輔助回歸模型擬合結(jié)果Table 2 Fitting statistics by associated regression model
式中,Q為輔助回歸模型的殘差平方和,U為輔助回歸模型的離差平方和。
由此獲得的計算結(jié)果如表3。
表3 懷特檢驗結(jié)果Table 3 White test
櫟類總體生物量數(shù)據(jù)如果使用普通最小二乘法進行擬合,從懷特檢驗結(jié)果表中可以看出,nR2值大于上側(cè)分位數(shù)(xα2),回歸模型存在異方差性,也就是說,回歸模型擬合結(jié)果不是最優(yōu)解,需要將模型進行變換,采用加權(quán)最小二乘法進行估計,消除異方差性。
3.2 殘差分布圖
回歸模型是否存在異方差性,也可以從殘差平方分布圖中判斷。按普通最小二乘法回歸后獲得櫟類總體生物量樣本的擬合值()和殘差平方值(),將擬合值()作為X軸,殘差平方值()為Y軸,繪制殘差平方分布圖(圖1)。
從殘差平方分布圖中可以看出散點的分布成發(fā)散趨勢,殘差平方隨擬合值有顯著變化,說明普通最小二乘法擬合結(jié)果存在異方差性,和懷特檢驗的定量分析是一致的。
圖1 生物量殘差平方分布Figure 1 Residuals distribution
[1] 唐守正. 多元統(tǒng)計分析方法[M]. 中國林業(yè)出版社,1984.
[2] 張會儒,唐守正,胥輝. 關(guān)于生物量模型中的異方差問題[J]. 林業(yè)資源管理,1999(1):46-49.
[3] 彭偉,陳圣滔. 回歸模型中異方差的檢驗方法[J]. 欽州學(xué)院學(xué)報,2007,22(6):29-31, 42.
White Test for Heteroskedasticity of Biomass Model
SHENTU Hui-liang
(East China Forest Inventory and Planning Institute of State Forestry Administration, Hangzhou 310019, China)
In order to have the optimal estimation during regression model for biomass, White test was recommended to quantitative analyze model, associated by residuals distribution. Application of White test and residuals was conducted on analysis of biomass model for Quercus L. fitted by ordinary least squares, the result showed that there had heteroskedasticity. Therefore, weighted least squares were recommended to fit biomass model for Quercus L.
biomass; model; white test; heteroskedasticity
S718.55+6
A
1001-3776(2012)03-0043-03
2011-11-15;
2012-03-03
申屠惠良(1960-),男,浙江東陽人,工程師,從事林業(yè)調(diào)查規(guī)劃設(shè)計相關(guān)的林業(yè)技術(shù)研究。