林盼盼, 張鳳月, 王立春
(北京交通大學(xué)理學(xué)院,北京 100044)
線性模型是現(xiàn)代統(tǒng)計學(xué)中應(yīng)用最為廣泛的模型之一,生物、醫(yī)學(xué)、經(jīng)濟和管理等領(lǐng)域的眾多現(xiàn)象都可以用線性模型近似描述.目前,關(guān)于其無約束條件下的參數(shù)估計方法已經(jīng)十分成熟,但在許多情況下,需要對約束條件下的回歸參數(shù)進行估計.約束條件可能是真實的,例如,經(jīng)濟計量中支出份額模型要求支出總和等于收入或者成本函數(shù)中投入價格的總和為常數(shù);約束條件也有可能是假定的,例如,解決復(fù)共線性時往往會對參數(shù)施加約束條件.眾所周知,當(dāng)回歸自變量存在著近似線性關(guān)系時,最小二乘估計表現(xiàn)不理想,有時某些回歸參數(shù)的估計的絕對值異常大,有時回歸參數(shù)的估計值的符號與問題的實際意義相違背等.因此,在約束條件下對回歸參數(shù)進行估計具有重要意義.
線性貝葉斯估計是由Rao[1]首先提出并且持續(xù)受到關(guān)注,相關(guān)的文獻有[2-4].Wei 和Zhang[5]在加權(quán)平方損失下獲得了回歸參數(shù)的線性貝葉斯估計,并且證明了在均方誤差矩陣準(zhǔn)則和Pitman closeness 準(zhǔn)則下線性貝葉斯估計相對于最小二乘估計的優(yōu)越性;進一步,Zhang 等[6]研究了分塊線性模型中回歸參數(shù)的線性貝葉斯估計的優(yōu)良性;Qiu 等[7]考察了平衡損失下回歸參數(shù)的線性貝葉斯估計.然而,上述文獻關(guān)注的多是無約束條件下回歸參數(shù)的估計問題.
本文主要結(jié)合貝葉斯方法討論在約束條件下的回歸參數(shù)的估計問題,提出了回歸參數(shù)的線性貝葉斯估計并論證其優(yōu)越性.文章安排如下:第2 節(jié),提出線性貝葉斯估計的表達式;第3 節(jié),考察其性質(zhì);第4 節(jié),借用蒙特卡洛模擬和實際數(shù)例佐證其性質(zhì);第5 節(jié),給出結(jié)論.
考慮下面的約束線性模型
其中rank(X)=p, rank(R)=m <p,σ2為方差參數(shù).
若d ?= 0,設(shè)β0是(2)式的特解,有R(β ?β0) = 0.令β1= β ?β0,上述模型可以轉(zhuǎn)變?yōu)?/p>
這里y1=y ?Xβ0,故(2)式中只考慮d=0 的情形.
將所有滿足約束條件的β 記為集合Gβ={β :Rβ =0},那么,由約束條件可知
這里M(R′)⊥表示R′的列向量張成的子空間M(R′)的正交補空間.因此,可將β 與無約束最小二乘估計?β =(X′X)?1X′y 建立如下關(guān)系式
由于A 列滿秩,所以τ 的廣義最小二乘估計為
從而β 的約束最小二乘估計為
和
將(7)式代入下式,有
此處
為對稱冪等矩陣.定理證畢.
假設(shè)π(β)為參數(shù)β 的先驗分布,并滿足下列條件
由(11)式可得b=(I ?B)E(β)=(I ?B)μ,因此
這里H =A[A′(X′X)A]?1A′,且我們利用了下列事實
和
下面給出線性貝葉斯估計的性質(zhì):
和
因此,由無偏性的定義有
由協(xié)方差矩陣的定義有
將B =Σ(σ2H +Σ)?1代入上式并化簡得
于是,由(17)和(20)式有
注意到,由σ2H+Σ ≥Σ >0 可推得(σ2H+Σ)?1≤Σ?1,因此,Σ(σ2H+Σ)?1Σ ≤Σ.從而
定理證畢.
證明 由均方誤差矩陣的定義知
和
由(23)式和(24)式知
定理證畢.
本小節(jié)利用蒙特卡洛模擬闡明線性貝葉斯估計的優(yōu)越性.
設(shè)模型如下
其中rank(X)=p, rank(R)=m <p,σ2為方差常數(shù).
若根均方誤差越小,則說明相對應(yīng)的估計量對真值近似的效果越好.
其中
由(9)式可獲得剩余參數(shù)βp?m的先驗分布π(βp?m),再和樣本似然函數(shù)f(y|βp?m)結(jié)合來獲得βp?m的后驗分布f(βp?m|y).為了研究先驗分布的類型對估計量估計效果的影響,對于β 選取兩種先驗分布:正態(tài)先驗和均勻先驗,且為了便于比較,兩種分布在模擬時選取的均值與協(xié)方差矩陣相等.
情形1由于β 具有正態(tài)先驗,導(dǎo)出剩余參數(shù)βp?m具有正態(tài)先驗Np?m(β0,Σ0),從而βp?m的后驗為
此為正態(tài)分布Np?m(β1,Σ1),其中
C1和C2為常數(shù).
情形2由于β 具有均勻先驗,導(dǎo)出剩余參數(shù)βp?m具有均勻先驗,即βp?m在區(qū)域D 上服從均勻分布,從而βp?m的后驗為
此為截斷的正態(tài)分布Np?m(β2,Σ2)ID(βp?m),其中ID(βp?m)為示性函數(shù),C3和C4為常數(shù).
注意到二次損失下,βp?m的貝葉斯估計為后驗均值.在表1 至表4 中,我們針對不同的β 維數(shù)和不同約束條件個數(shù)的組合進行了模擬.
表1: p=2 和m=1 時,估計量的根均方誤差
表2: p=3 和m=1,且剩余參數(shù)的各分量先驗獨立時,估計量的根均方誤差
表3: p=3 和m=1,且剩余參數(shù)的各分量先驗不獨立時,估計量的根均方誤差
表4: p=3 和m=2 時,估計量的根均方誤差
由表1 至表4 可知,當(dāng)β 的維數(shù)、約束條件個數(shù)和先驗分布相同時,三種估計量與真值β 的距離隨著樣本量的增大均有減小的趨勢,表明隨著樣本信息增多,估計效果越好;此外,從表1、表2 和表3 中可以發(fā)現(xiàn),正態(tài)先驗分布下LBE與BE近似相等,且它們與β 的距離均小于CLS與β 的距離,而均勻先驗分布下?βLBE與β 的距離小于CLS和BE與β 的距離.還可以發(fā)現(xiàn),無論βp?m的各分量獨立與否,LBE均有著良好的近似效果.進一步,在表4 中,三種估計量與真值的距離近似相等且與表2 和表3 對比存在明顯減小,此表明隨著約束條件增多,有關(guān)回歸參數(shù)的信息增加,LBE、CLS和BE的近似差異逐漸減小.總體來看,線性貝葉斯估計不僅具有顯示表達式,其在模擬方面也要優(yōu)于約束最小二乘估計和貝葉斯估計,而且對于先驗分布的改變具有一定的穩(wěn)健性.
下面研究當(dāng)先驗參數(shù)改變時,估計量的根均方誤差的變化情況.這里考察正態(tài)先驗下的情形,取p = 2 和m = 1,且選取的先驗均值相同、相關(guān)系數(shù)相同,但先驗的方差不同,如表5 所示.
表5: 正態(tài)先驗分布的參數(shù)取值
表6: 正態(tài)先驗分布下,?βCLS 和?βLBE 的根均方誤差
圖1: 正態(tài)先驗分布下,根均方誤差隨樣本量的變化
下面用硅酸鹽水泥的數(shù)據(jù)來驗證我們的結(jié)論.數(shù)據(jù)來自于文獻[8],并且被Hamaker[9],Gorman 和Toman[10]以及Nomura[11]廣泛分析.數(shù)據(jù)主要探究的是硅酸鹽水泥在凝固和硬化過程中產(chǎn)生的熱量與四種化合物所占百分比的關(guān)系.這四種成分是:鋁酸三鈣、硅酸三鈣、鐵鋁酸四鈣和硅酸二鈣,分別記為X1, X2, X3, X4.固化180 天后產(chǎn)生的熱量用每克水泥所含的卡路里來計算,并用y 表示.Hald 和Friedman[8], Gorman 和Toman[10]以及Daniel 和Wood[12]對該數(shù)據(jù)用非齊次線性回歸模型進行擬合,如公式(26),收集數(shù)據(jù)如下
其中矩陣X 是13×5,第一列為常數(shù)列,剩余4 列分別對應(yīng)變量X1, X2, X3, X4,對應(yīng)參數(shù)分別為β0, β1, β2, β3, β4,并且矩陣X′X 的特征值為
X′X 的條件數(shù)為最大特征值與最小特征值之比,即14372006,故可以認(rèn)為矩陣X 存在嚴(yán)重的復(fù)共線性.根據(jù)Ka?ciranlar 等[13]的建議,添加約束條件:β1?β2+β3=0,并且該約束條件在5%的顯著水平下是不被拒絕的.令β3= ?β1+β2,代入(26)式中,化為如下無約束模型
令
故
y =X1θ+ε, ε ~N13(0,σ2I13),
β =(β0,β1,β2,β3,β4)′的先驗均值和協(xié)方差陣及相應(yīng)的模擬結(jié)果如下:
這里βp?m各分量獨立時計算所得
βp?m各分量不獨立時計算所得
表7: 正態(tài)先驗分布下CLS 及LBE 與BE 的距離
表7: 正態(tài)先驗分布下CLS 及LBE 與BE 的距離
β E(β) Cov(β) ‖?βCLS ??βBE‖ ‖?βLBE ??βBE‖βp?m各分量獨立 01210 4 0 0 0 0 0 9 0 ?8 0 0 0 16 16 0 0 ?8 16 25 0 0 0 0 0 25 141.190 0.024 βp?m各分量不獨立 01210 4 0 0 0 ?4 0 9 6 ?2 0 0 6 16 10 0 0 ?2 10 13 0?4 0 0 0 25 141.422 0.010
本文主要研究了約束線性模型中回歸參數(shù)的線性貝葉斯估計的表達式及其性質(zhì),證明了線性貝葉斯估計相對于約束最小二乘估計的優(yōu)越性,并利用蒙特卡洛模擬和數(shù)值實例驗證了相關(guān)理論結(jié)果.