殷立爽,范永輝
(天津師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,天津 300387)
研究線性回歸模型
其中:y 為n×1 的隨機(jī)觀測向量;X 為n×p 的設(shè)計(jì)陣,其秩為p;β 為p×1 的未知回歸系數(shù)向量;e 為n×1的隨機(jī)誤差向量;σ 為未知參數(shù).
對(duì)于回歸自變量較多的大型回歸問題,回歸自變量之間往往存在著近似線性關(guān)系,稱為復(fù)共線性.當(dāng)設(shè)計(jì)陣X 存在復(fù)共線性時(shí),會(huì)使β 的均方誤差變得很大,從而使最小二乘(LS)估計(jì)的性能變壞,因此有必要對(duì)β 進(jìn)行修正.一個(gè)理想的改進(jìn)方法是在降低均方誤差的同時(shí)使得均方殘差不能增加的太多,為此相關(guān)學(xué)者做了許多研究[1-7].文獻(xiàn)[2]針對(duì)最小二乘估計(jì)的不足,提出了回歸系數(shù)的廣義根方估計(jì)(K),其中K為對(duì)角陣,并給出了其顯式解.文獻(xiàn)[3]針對(duì)特征根很小而接近于零的部分,運(yùn)用壓縮最小二乘估計(jì)長度的思想提出了嶺型組合主成分估計(jì).文獻(xiàn)[4]提出了廣義嶺型組合主成分估計(jì),改變了文獻(xiàn)[3]中矩陣對(duì)角元素中的嶺參數(shù),并給出了嶺參數(shù)的選取方法.文獻(xiàn)[5]針對(duì)線性模型中回歸系數(shù)的估計(jì)給出一個(gè)估計(jì)類:廣義壓縮最小二乘估計(jì).文獻(xiàn)[6]給出了Gamma 回歸模型中嶺估計(jì)的幾種改進(jìn)嶺參數(shù).文獻(xiàn)[7]提出了logistic 回歸模型的限制性嶺估計(jì).本文結(jié)合嶺估計(jì)和主成分估計(jì)提出了一種廣義嶺估計(jì)的改進(jìn)方法,在均方誤差意義下,證明了改進(jìn)的嶺估計(jì)優(yōu)于最小二乘估計(jì)、 普通嶺估計(jì)和主成分估計(jì).
為方便,引入線性回歸模型(1)的典則形式.X′X為正定矩陣, 故可設(shè) λ1≥…≥λp≥0 為 X′X 的特征值,φ1,…,φp為對(duì)應(yīng)的標(biāo)準(zhǔn)正交化特征向量,記Φ=(φ1,…,φp),Φ 為 p×p 的標(biāo)準(zhǔn)正交陣,令 Λ=diag{λ1,…,λp},于是 X′X= ΦΛΦ′.模型(1)的典則形式為
其中: Z = XΦ, α = Φ′β.Z′Z = Φ′X′XΦ = Λ =diag{λ1,…,λp}, α 的 LS 估計(jì)為
λ1、λ2的貢獻(xiàn)率為因此確定r=2.采用k1,k2,r 型嶺估計(jì)來估計(jì)回歸系數(shù),其迭代法過程如下:
步驟 1: 計(jì)算出 α1、α2、 α3的值,作為初始值;
步驟 2: 由式(9)計(jì)算 k1和 k2, 利用 k1、 k2, 采用R 語言計(jì)算新的 α1、 α2、 α3;
步驟 3: 重復(fù)步驟 2, 直至 α1、 α2、 α3的值均趨于穩(wěn)定時(shí),確定k1和k2.
經(jīng)計(jì)算確定k1=2.80,k2=6.70,進(jìn)而得到對(duì)應(yīng)的k1,k2,r 型嶺估計(jì)為
各變量的平均值為
相應(yīng)地有
從而得到 k1,k2,r 型嶺估計(jì)回歸方程為
為與其他估計(jì)進(jìn)行比較,表1 給出了LS 估計(jì)、嶺估計(jì)、主成分估計(jì)和k1,k2,r 型嶺估計(jì)回歸方程的各項(xiàng)系數(shù).由表 1 可見, k1,k2,r 型嶺估計(jì)與普通嶺估計(jì)和主成分估計(jì)都比較接近,而與LS 估計(jì)相比, x1和x3的系數(shù)變化較大,并且x1系數(shù)的符號(hào)也發(fā)生了變化.
表1 算例問題4 種估計(jì)的回歸方程系數(shù)Tab.1 Coefficients of regression equations for 4 kinds of estimator