丘甜,華偉平,李寶銀,江希鈿
(1.武夷學院商學院,福建武夷山354300;2.武夷學院生態(tài)與資源工程學院,福建武夷山354300;3.福建江夏學院,福建福州350108;4.福建農林大學林學院,福建福州350002)
線性回歸模型中非正態(tài)數(shù)據(jù)的處理
丘甜1,華偉平2,李寶銀3,江希鈿4
(1.武夷學院商學院,福建武夷山354300;2.武夷學院生態(tài)與資源工程學院,福建武夷山354300;3.福建江夏學院,福建福州350108;4.福建農林大學林學院,福建福州350002)
為了對非正態(tài)數(shù)據(jù)進行線性回歸分析,需要對非正態(tài)數(shù)據(jù)的處理方法進行研究。在Box-Cox變換的基礎上改進的雙冪變換是一種有效的處理方法。結合Matlab軟件給出了雙冪變換下線性回歸模型中參數(shù)的極大似然估計與最小二乘估計方法,并通過實例研究顯示:雙冪變換使非正態(tài)數(shù)據(jù)服從正態(tài)分布,對于異常數(shù)據(jù)的處理有一定的效果,是數(shù)據(jù)正態(tài)變換的理想工具。
非正態(tài)數(shù)據(jù);雙冪變換;線性回歸模型;極大似然估計;最小二乘估計
線性回歸模型的因變量假定來源于正態(tài)分布的總體。在這一假定前提下,通常的做法是采用極大似然法或最小二乘法給出參數(shù)的估計。如果通過隨機抽樣的數(shù)據(jù)非正態(tài)分布,則會使顯著性檢驗程序是無效的,實際上估計出來的參數(shù)沒有意義,直接影響回歸分析結果。這意味著,當數(shù)據(jù)不滿足正態(tài)性假定時,可能拒絕實際上好的模型,大大地增加了統(tǒng)計推斷中所犯第一類錯誤的概率。因此,非正態(tài)數(shù)據(jù)的處理是應用線性回歸模型時需要解決的問題。
1.1 Box-Cox變換
在考察可觀測隨機因變量Y和自變量X之間的關系時,經常采用如下正態(tài)線性回歸模型[1-2]:
其中β∈Rp為回歸系數(shù),ε為不可觀測隨機誤差向量。易知,模型(1)實際上需要滿足Gauss-Markov條件:Y~Nn(Xβ,σ2In)。針對所獲得的數(shù)據(jù),對其進行回歸診斷,若不滿足Gauss-Markov條件,研究者在統(tǒng)計推斷時有可能會增加犯錯誤的概率。常用的處理方式是對數(shù)據(jù)采取某種“治療”措施,其中,數(shù)據(jù)變換就是一種常用的處理非正態(tài)數(shù)據(jù)的辦法。至于采取何種變換更為有效,這取決于數(shù)據(jù)本身的特點,也成為了如今國內外統(tǒng)計學界研究的熱點問題之一。迄今為止,如下由觀測值Y到Y(λ)的Box-Cox變換[3](依賴于未知參數(shù)λ):
式(2)是研究得最為透徹的變換。通過參數(shù)的選擇,達到對非正態(tài)數(shù)據(jù)的綜合治理。雖然Box-Cox變換具有許多優(yōu)點,但注意到
這表明Box-Cox變換存在截斷問題,即當λ<0時,Y(λ)在-1/λ處右截斷,而λ>0時,Y(λ)是在-1/λ處左截斷的,只有在λ=0時,Y(λ)取值范圍是(-∞,+∞),從而認為Y經過變換(2)得到的f(Y,λ)是一組正態(tài)樣本是不正確的(除了λ=0這種情況)。
1.2 雙冪變換
為了克服Box-Cox變換中的截斷問題,諸多學者進行了研究。目前,Yang[4-5]引入了如下變換。
變換(3)是在Box-Cox變換的基礎上進行修正而得到的一種新變換,被稱為雙冪變換。非正態(tài)數(shù)據(jù)通過雙冪變換后服從以下正態(tài)線性回歸模型:
式中:X是已知n×p列滿秩設計陣;ε是不可觀測的n維隨機誤差向量;λ∈(-∞,+∞),β,σ2是未知參數(shù)。
對于參數(shù)λ∈(-∞,+∞)均有g(Y,-λ)=g(Y,λ)成立,這意味著根據(jù)樣本Y=(Y1,…,Yn)T不能唯一確定模型(4)中的參數(shù)λ。因此,為了消除這種不確定性,將參數(shù)λ限制在區(qū)間[0,+∞)內。
2.1 極大似然估計
由模型(4)可得未知參數(shù)λ,β,σ2基于Y=(Y1,…,Yn)T的對數(shù)似然函數(shù)為:
其中J(Y,λ)表示變量Y(λ)=(Y1(λ),…,Yn(λ))T和Y=(Y1,…,Yn)T之間的變換Jacob行列式,其表達式為:
當λ≥0已知時,由(5)利用熟知的正態(tài)線性回歸模型極大似然估計的結果可得知(β,σ2)的極大似然估計分別為:
其中PX=(XTX)-1XT為一正交投影陣。將(7)式代入(5)中可得:
這說明了參數(shù)λ∈[0,+∞)的極大似然估計是以下極值問題的解∈[0,+∞),而參數(shù)β∈Rp,σ2>0的極大似然估計分別為用Matlab中內嵌的函數(shù)fminbnd可方便地算出[6-7]。
2.2 最小二乘估計
最小二乘估計作為另一種參數(shù)估計方法,也經常被人們所運用。作為比較,本文同時考慮模型(4)中參數(shù)λ,β,σ2的最小二乘估計法。此時,相應的誤差平方和為:
由此及熟知的線性回歸模型最小二乘估計的結果可得已知λ≥0時,β的最小二乘估計為:
在實際分析時,常??紤]多個變量,并且這些變量中有一個變量是特別關心的,稱為因變量Y,其他變量作為影響因變量的自變量(考慮三個自變量X1、X2和X3)。為了分析自變量對因變量的影響,按照隨機原則抽取了36個樣本數(shù)據(jù),如表1所示。
表1 樣本數(shù)據(jù)Table 1 Sample data
3.1 非正態(tài)數(shù)據(jù)診斷
數(shù)據(jù)非正態(tài)性診斷[8-10]的常用方法是K-S檢驗。該檢驗的原假設認為總體符合正態(tài)分布。在顯著性水平取0.05時,若檢驗的P值小于0.05,則否定原假設,認為總體呈現(xiàn)非正態(tài)分布。
通過對因變量Y進行基本統(tǒng)計分析,統(tǒng)計結果(表2)顯示K-S檢驗的P值為0.031,小于0.05,說明數(shù)據(jù)總體不符合正態(tài)分布,并且偏態(tài)系數(shù)為0.912,表現(xiàn)出一定程度的右偏,這在圖1有更直觀的表現(xiàn)。通過統(tǒng)計軟件SPSS操作,并輸出結果??梢耘袛嘣撘蜃兞渴欠钦龖B(tài)數(shù)據(jù)。因此,在進行回歸分析前必須進行數(shù)據(jù)正態(tài)性處理。
表2 因變量Y的基本統(tǒng)計量Table 2 Basic statistics of dependent variable Y
3.2 數(shù)據(jù)變換及正態(tài)性檢驗
采用雙冪變換對因變量Y進行修正得到Y(λ),用極大似然法估計出變換參數(shù)λ^ML為1.128 6,用最小二乘法估計λ^LS為0.883 4。對變換的效果進行正態(tài)性檢驗。通過軟件SPSS進行基本統(tǒng)計分析,得到變換后的偏度系數(shù)及K-S檢驗結果(表3),發(fā)現(xiàn)右偏程度有所減少,且變換值能順利通過K-S檢驗。
表3 原數(shù)據(jù)的雙冪變換及正態(tài)分布檢驗結果Table 3 The results of the dual power transformation and normal distribution of the original data
為更直觀的反映雙冪變換下兩種估計的正態(tài)效果,給出變換后的與的正態(tài)Q-Q圖,同變換前進行比較,見圖2。
3.3 雙冪變換后線性回歸分析
由于線性回歸分析[11]的思路是一致的,目的在于考察變量之間的數(shù)量關系,并通過一定的數(shù)學表達式即回歸方程將關系描述出來,進而確定自變量對因變量的影響程度。以通過極大似然估計下雙冪變換后線性回歸分析為例。以Y()為因變量,X1、X2和X3為自變量進行多元線性回歸分析,具體結果見表4、表5。
圖2 原數(shù)據(jù)與雙冪變換后數(shù)據(jù)Q-Q圖比較Figure 2 Comparison of the original data and the dual power transformation data Q-Q
表4 方差分析Table 4 Variance analysis
從表4中得到,模型復相關系數(shù)達到0.998,而決定系數(shù)為0.996,取得了較好的擬合優(yōu)度。檢驗回歸方程的P值為0,小于顯著性水平0.05,通過了回歸方程的顯著性檢驗,即所得到的回歸方程有統(tǒng)計學意義。
標準回歸系數(shù)的絕對值反映了影響因變量的程度,絕對值越大,則有越大的控制。由表5可看出影響程度從大到小依次為X3、X2、X1。回歸方程為:
表5 參數(shù)估計Table 5 Parameter estimation
回歸系數(shù)的顯著性檢驗是要檢驗自變量對因變量的影響是否顯著。由表5可知,在顯著性水平為0.05時,三個自變量X1、X2、X3的回歸系數(shù)顯著性水平t檢驗的P值都小于0.05,所以拒絕原假設,即認為這些回歸系數(shù)和0有顯著差異。
當搜集回來的樣本數(shù)據(jù)不滿足正態(tài)分布時,用線性回歸模型分析所得到的結論是不準確的。因此,需要進行非正態(tài)數(shù)據(jù)的正態(tài)變換。目前,Box-Cox變換是一種研究的最為透徹的方法之一,但存在截斷問題。而雙冪變換能夠克服截斷問題。結合Matlab軟件給出了雙冪變換下線性回歸模型中參數(shù)的極大似然估計與最小二乘估計的求法。在實例分析中,采用統(tǒng)計軟件SPSS對數(shù)據(jù)診斷其正態(tài)性后,用雙冪變換對該數(shù)據(jù)進行正態(tài)變換,結果表明雙冪變換具有較強的正態(tài)變換能力,是非正態(tài)數(shù)據(jù)正態(tài)變換的理想工具。
[1]王桂松,史建紅.線性模型引論[M].北京:科學出版社,2004:175-178.
[2]王松桂.線性統(tǒng)計模型:線性回歸與方差分析[M].北京:高等教育出版社,1999:1-20.
[3]BOX G E P,COX D R.An analysis of transformation[J].Journal of the Royal Statistical Society B,2012(26):211-252.
[4]YANG Z L.A modified family of power transformations[J].Economics Letters,2006,92(1):14-19.
[5]YANG Z L,Anthony F.Inference for general parametric functions in Box-Cox-type transformation models[J].Canadian Journal of Statistics,2008,36(2):301-319.
[6]張學敏.Matlab基礎及應用[M].北京:中國電力出版社,2009:201-205.
[7]趙芳芳,賈翔宇,許作良.CIR模型參數(shù)校準的極大似然法[J].統(tǒng)計與信息論壇,2015(9):3-7.
[8]李曉暉,袁峰,白曉宇,等.典型礦區(qū)非正態(tài)分布土壤元素數(shù)據(jù)的正態(tài)變換方法對比研究[J].地理與地理信息科學,2010(6):102-105.
[9]莊泓剛.基于非正態(tài)分布的動態(tài)金融波動性模型研究[D].天津:天津大學,2009.
[10]焦璨,張敏強,黃慶均,等.非正態(tài)分布測量數(shù)據(jù)對克隆巴赫信度α系數(shù)的影響[J].應用心理學,2008(3):276-281.
[11]劉兆君.伴隨置信度的線性回歸模型[J].統(tǒng)計與信息論壇,2015(7):3-7.
(責任編輯:葉麗娜)
Processing of Non-normal Data in Linear Regression M odel
QIU Tian1,HUAWeiping2,LIBaoyin3,JIANG Xidian4
(1.School of Business,Wuyi University,Wuyishan,Fujian 354300;2.School of Ecology Resource Engineering,Wuyi University,Wuyishan,Fujian 354300;3.Fujian Jiangxia University,Fuzhou,Fujian 350108;4.School of Forestry,Fujian Agriculture and Forestry University,Fuzhou,Fujian 350002)
In order tomake a linear regression analysis on the non-normal data,it is necessary to study the non-normal data processingmethod.Based on the Box-Cox transform,the improved dual power transformation is an effectivemethod.Themaximum likelihood estimation and least square estimation of the parameters in the linear regression model are given by the Matlab software.The case studies show that the non-normal data is subject to normal distribution with the dual power transformation,which has a certain effect on the processing of abnormal data and is an ideal tool for the normal transformation of data.
non-normal data;dual power transformation;linear regressionmodel;maximum likelihood estimate;least squares estimation
O212
A
:1674-2109(2017)06-0053-05
2017-02-16
南平市科技計劃項目(N2014Z01);??蒲许椖浚╔LZ201401,XL201512S);福建省生態(tài)產業(yè)綠色技術重點實驗資助項目(WYKF2017-8)。
丘甜(1988-),女,漢族,助教,主要從事空間計量模型的統(tǒng)計推斷研究。
江希鈿(1958-),男,漢族,教授,主要從事生物數(shù)學建模研究。