吳 燕,何道江
(安徽師范大學(xué) 統(tǒng)計系,安徽 蕪湖241003)
考慮線性回歸模型:
其中:Y為n維可觀測隨機向量;X為n×p階設(shè)計矩陣,且rank(X)=p;β為p×1維參數(shù)向量;ε為n維隨機誤差向量;σ2>0是未知參數(shù).
對于模型(1),β的最小二乘估計(LSE)為
LSE是無偏估計,其在很長一段時間內(nèi)被認(rèn)為是最好的估計.但當(dāng)模型出現(xiàn)復(fù)共線性時,LSE的表現(xiàn)較差,有較大的均方誤差.為了克服這一缺點,研究者們放棄了無偏性,提出了一些有偏估計.如Hoerl等[1]提出了嶺估計(RE):
其中k>0是可選參數(shù),稱為嶺參數(shù).嶺估計的本質(zhì)是在設(shè)計陣的計算中引入一個偏參數(shù)k,通過合理取k值減少由復(fù)共線性帶來的誤差.之后,Hoerl等[2]又提出了嶺估計的一種推廣形式,稱為廣義嶺估計(GRE):
其中:K=diag(k1,k2,…,kp),ki>0(i=1,2,…,p)為參數(shù);Q=(φ1,φ2,…,φp)為標(biāo)準(zhǔn)正交陣,而φ1,φ2,…,φp為X′X 的標(biāo)準(zhǔn)正交化特征向量,即Q′X′XQ=diag(λ1,λ2,…,λp),λ1≥λ2≥…≥λp>0為X′X的特征值.嶺估計和廣義嶺估計都是嶺參數(shù)的一個復(fù)雜函數(shù),因此如何選擇合理的嶺參數(shù)是一個困難問題.
文獻[3]提出了一種均勻壓縮估計即Stein估計,表示為
其中s>1稱為壓縮參數(shù).Stein估計是最簡單的一種有偏估計.
Swindel[4]基于參數(shù)向量β的先驗信息,提出了改進的嶺估計(MRE):
其中:η0是一個給定的非隨機向量,其選擇依賴于β的先驗信息;k>0是嶺參數(shù).
許瑩等[5]針對混合系數(shù)線性模型提出了一類新估計,稱為s-K 估計.對于模型(1),相應(yīng)的估計為
其中:K=diag(k1,k2,…,kp),ki≥0(i=1,2,…,p)為可選參數(shù);s≥1為壓縮參數(shù).
本文在文獻[4-5]的基礎(chǔ)上,基于參數(shù)向量β的先驗信息提出一類新的s-K 估計,稱為改進s-K 估計.
若令
定義1 對于模型(1),β改進s-K 估計定義為
其中:s和K意義同式(7);η0是β的先驗信息.
注1 改進s-K 估計實際上是最小二乘估計與先驗信息η0的一個“凸組合”.
記Z=XQ,α=Q′β,則模型(1)可改寫成:
其中Z′Z =Q′X′XQ =Λ∶=diag(λ1,λ2,…,λp).模型(11)稱為模型(1)的典則形式.
對于典則形式(11),α相應(yīng)的估計為
這里η=Q′η0.
由于
下面在均方誤差陣的準(zhǔn)則下,研究改進s-K 估計相對于最小二乘估計、廣義嶺估計、Stein估計、改進的嶺估計及s-K 估計的優(yōu)良性.
引理2[7]設(shè)M 為p階正定陣,γ是p維列向量,則M-γγ′>0當(dāng)且僅當(dāng)γ′M-1γ<1.
于是
從而
進而可得:
定理2 設(shè)s>1,則改進s-K 估計的均方誤差陣小于廣義嶺估計均方誤差陣的充要條件是b′1(σ2D2+b2b′2)-1b1<1.
定理3 設(shè)ki>0(i=1,2,…,p),則改進s-K 估計的均方誤差陣小于Stein估計均方誤差陣的充要條件是b′1[σ2D3+b3b′3]-1b1<1.
于是
從而
定理4 設(shè)ki>(1-s)λi+k(i=1,2,…,p),則改進s-K 估計的均方誤差陣小于改進嶺估計均方誤差陣的充要條件是b′1[σ2D4+b4b′4]-1b1<1.
從而
由此可得:
定理5 設(shè)s>1,則改進s-K 估計的均方誤差陣小于s-K 估計均方誤差陣的充要條件是αα′-(α-η)(α-η)′>0.
為進一步考察所提估計類的均方誤差,下面進行Monte Carlo數(shù)值模擬.模擬中,設(shè)計矩陣X=(xij)n×p和響應(yīng)變量y=(y1,y2,…,yn)′分別由下式給出:
其中:ωij(i=1,2,…,n;j=1,2,…,p+1)由獨立的標(biāo)準(zhǔn)正態(tài)隨機數(shù)產(chǎn)生;γ為給定的數(shù),γ越大,表明解釋變量間的相關(guān)性越強,從而模型的復(fù)共線性越強.取σ=1,p=3,n=100,β的真實值取為X′X最小特征值所對應(yīng)的特征向量[8].與文獻[9]相同,取先驗信息η=0.95β.實驗的重復(fù)次數(shù)為N=10 000,對于β=(β1,β2,β3)′的估計,均方誤差按下式計算:
最小二乘估計(LSE)、嶺估計(RE)、Stein估計(Stein)、改進的嶺估計(MRE)、s-K 估計(s-K)以及本文提出的改進s-K估計的均方誤差數(shù)值模擬結(jié)果分別列于表1~表6.它們分別對應(yīng)于σ=1,2及γ=0.9,0.99,0.999的6種情況.
對應(yīng)于γ=0.9,0.99,0.999,X′X 的條件數(shù)Cond(X′X)分別為9.868 7,93.785 5,941.244 6.根據(jù)文獻[6]知,若Cond(X′X)<100,則復(fù)共線性很?。蝗?00<Cond(X′X)<1 000,則存在中等程度的復(fù)共線性;若Cond(X′X)>1 000,則存在嚴(yán)重的復(fù)共線性.可見,模擬中設(shè)定模型的復(fù)共線性不很嚴(yán)重.
表1 σ=1,γ=0.9時各估計的均方誤差Table 1 Simulated MSEs of estimators whenσ=1,γ=0.9
表2 σ=1,γ=0.99時各估計的均方誤差Table 2 Simulated MSEs of estimators whenσ=1,γ=0.99
表3 σ=1,γ=0.999時各估計的均方誤差Table 3 Simulated MSEs of estimators whenσ=1,γ=0.999
表4 σ=2,γ=0.9時各估計的均方誤差Table 4 Simulated MSEs of estimators whenσ=2,γ=0.9
表5 σ=2,γ=0.99時各估計的均方誤差Table 5 Simulated MSEs of estimators whenσ=2,γ=0.99
表6 σ=2,γ=0.999時各估計的均方誤差Table 6 Simulated MSEs of estimators whenσ=2,γ=0.999
由表1~表6可見,改進s-K估計性能最好,除s=1或K=0的平凡場合外,其均方誤差都小于最小二乘估計、嶺估計、Stein估計、改進的嶺估計以及s-K估計.
[1]Hoerl A E,Kennard R W.Ridge Regression:Biased Estimation for Nonorthogonal Problems [J].Technometrics,1970,12(1):55-67.
[2]Hoerl A E,Kennard R W.Ridge Regression:Application to Nonorthogonal Problems[J].Technometrics,1970,12(1):69-82.
[3]Stein C.Inadmissibility of the Usual Estimator for Mean of Multivariate Normal Distribution [C]//Proc Third Berkeley Symp Math Statist Probab.Oakland:University of Calif Press,1956:197-206.
[4]Swindel B F.Good Ridge Estimators Based on Prior Information[J].Communications in Statistics:Theory and Methods,1976,5(11):1065-1075.
[5]XU Ying,HE Dao-jiang.A New Class of Estimators for Coefficients in Mixed Effect Linear Model[J].Acta Mathematica Scientia,2013,33A(4):702-708.(許瑩,何道江.混合系數(shù)線性模型參數(shù)的一類新估計 [J].數(shù)學(xué)物理學(xué)報,2013,33A(4):702-708.)
[6]王松桂,史建紅,尹素菊,等.線性模型引論 [M].北京:科學(xué)出版社,2004.
[7]Farebrother R W.Further Results on the Mean Square Error of Ridge Regression[J].J R Stat Soc B,1976,38(3):248-250.
[8]LIU Ke-jian.Using Liu-Type Estimator to Combat Collinearity[J].Communications in Statistics:Theory and Methods,2003,32(5):1009-1020.
[9]LI Ya-lian,YANG Hu.A New Liu-Type Estimator in Lingear Regression Model[J].Statistical Papers,2012,53(2):427-437.