程海港
(華北理工大學(xué),河北 唐山 063210)
最小二乘估計(jì)在回歸分析中應(yīng)用較為廣泛,但當(dāng)自變量自身之間存在某種復(fù)共線性關(guān)系,使得最小二乘估計(jì)的法方程系數(shù)矩陣N奇異,最終的參數(shù)估計(jì)與真實(shí)值相差很大,使得建立的模型很不穩(wěn)定,最小二乘估計(jì)法在這類問題應(yīng)用中無法得到較為準(zhǔn)確的結(jié)果[1,2]。而嶺估計(jì)是針對處理復(fù)共線性數(shù)據(jù)分析的有偏估計(jì)手段,其是以犧牲最小二乘法的無偏性和局部精確度為代價,從而找到效果略次于此但更加接近實(shí)際情況的回歸過程,最終得到較為準(zhǔn)確的模型結(jié)果[3]。
嶺估計(jì)方法于1962由A E Hoerl首次提出,后來通過R W Kennard在1970年進(jìn)行系統(tǒng)完善發(fā)展,該方法可以在很大程度上降低設(shè)計(jì)矩陣列復(fù)共線時最小二乘估計(jì)量的均方誤差,增強(qiáng)估計(jì)的穩(wěn)定性。嶺估計(jì)的研究和應(yīng)用得到廣泛的重視是自1970年開始的,此后嶺估計(jì)便在有偏估計(jì)這一領(lǐng)域占有了一席之地。嶺估計(jì)之所以區(qū)別于常態(tài)的最小二乘估計(jì)是因其帶有約束條件線性模型回歸系數(shù),屬于嶺估計(jì)理論的內(nèi)容。模型回歸系數(shù)的最小二乘估計(jì)的分量有偏大的趨勢的原因是設(shè)計(jì)陣呈病態(tài)而導(dǎo)致其性質(zhì)變差,故通過對其千分量加以約束的方法而獲得的估計(jì)來改善這一不足。嶺估計(jì)相對于非約束病態(tài)模型的最小二乘估計(jì)確實(shí)有所改進(jìn),但并不能改變其不唯一性這一特性。
嶺估計(jì)作為對最小二乘估計(jì)的一種改進(jìn)的有偏估計(jì),參數(shù)X的嶺估計(jì)為:
(1)
嶺估計(jì)的中心思想是一種改良的最小二乘估計(jì)法,嶺估計(jì)方法的目的主要是在減少均方誤差的同時盡可能提高估計(jì)量的穩(wěn)定性,但其缺點(diǎn)是估計(jì)量是有偏的。估計(jì)量的方差與k值的大小呈反比,同時,k的引入也導(dǎo)致偏性發(fā)生變化使其成為有偏估計(jì)量,偏誤趨勢的大小與k值呈正比。一個優(yōu)質(zhì)的估計(jì)量雖然應(yīng)同時具備無偏性、方差最小這2個標(biāo)準(zhǔn),但是由于這2個標(biāo)準(zhǔn)是相互矛盾的,因此選k的值擇成了一個難點(diǎn)。雖然許多專家學(xué)者已提出多種確定k值的方法,但是,還沒有一種大家公認(rèn)的、最優(yōu)的確定k值的方法。
方程的各回歸系數(shù)的嶺估計(jì)大概率呈平穩(wěn)狀態(tài);進(jìn)行一般最小二乘法估計(jì)時,正負(fù)號的出現(xiàn)使回歸系數(shù)出現(xiàn)病態(tài),嶺估計(jì)可以使其符號變得合理,即嶺估計(jì)方法的使用改善了回歸方程參數(shù)估計(jì)的效果,嶺估計(jì)相對于非約束病態(tài)模型的最小二乘估計(jì)確實(shí)有所改進(jìn),但并不能改變其不唯一性這一特性;回歸系數(shù)的符號全部合理;估計(jì)量沒有損失太多的精度,即殘差項(xiàng)的平方和增量很小。
一種確定隨機(jī)嶺參數(shù)的公式稱為雙h公式,可簡化h1=t,h2=0。
(2)
式中,A>0為已知矩陣,此公式因含有h1,h22個可自定義的參數(shù),故有“雙h公式”之名。其是由Vinod和UIIah等歸納總結(jié)一系列結(jié)果而提出的一種方法。若使用式(2)來確定嶺參數(shù),一般稱相對的嶺估計(jì)為雙h類嶺估計(jì)(Double h-class ridge estimate),若取A=I,h1=p,h2=0,式(2)即為Hoerl-Kennard- Baldwin迭k公式。
(3)
若取A=X′X,h1=p,h2=0,則式(2)即為Lawless-Wang迭k公式。
(4)
在式(2)中,若Q′AQ為對角陣,h1,h2滿足:
(5)
則對一切β,σ2,雙h類嶺估計(jì)比LS估計(jì)有較小的均方誤差。這里ηp為式(2)中A的最小特征根。證明考慮β的任雙h類嶺估計(jì):
(6)
(7)
(8)
由式(7)、式(8)可得:
(9)
(10)
(11)
這里ηi為W的對角元,欲
(12)
一個充分條件為h1>0,且式(11)的第2項(xiàng)均值部分小于0。假設(shè)h1>0,h2≥0,則
△g>0
(13)
于是式(12)成立的一個充分條件為:
(14)
將式(11)對i求和,從式(14)可知:
(15)
此外,還可以根據(jù)Hoerl、Kernard和Baldwin提出的方法取k的固定值。具體確定方法如下。標(biāo)準(zhǔn)化的回歸模型為:
(16)
k的計(jì)算公式:
(17)
迭代法是將上面計(jì)算的k的固定取值作為k的初始值,記為k0,然后建立回歸方程,估計(jì)回歸方程的參數(shù),并計(jì)算新的k:
(18)
按同樣的方法,用k計(jì)算k2,重復(fù)這一過程,直到k的前后2個估計(jì)值之間的差異不是很明顯為止。
為了對監(jiān)測網(wǎng)的變形分析更加深入地了解驗(yàn)證方法的可行性,選取某區(qū)域地面沉降水準(zhǔn)測量基準(zhǔn)網(wǎng)作為試驗(yàn)網(wǎng)形,對4個點(diǎn)位其進(jìn)行10個周期的觀測,得到各個點(diǎn)位的觀測值并通過計(jì)算得到其沉降量。數(shù)據(jù)來源于呂棟的《基于秩虧自由網(wǎng)平差的變形分析與C#程序設(shè)計(jì)》。原始數(shù)據(jù)如表1所示。在MATLAB中使用雙h法,選取h1=4,h2=0,計(jì)算結(jié)果如表2所示。
表1 原始數(shù)據(jù)
表2 ABCD 4點(diǎn)高程的最小二乘估值
表3 ABCD 4點(diǎn)高程嶺估計(jì)估計(jì)值
圖1 嶺估計(jì)結(jié)果
由圖1可知,嶺估計(jì)在k取得最大值時效果最優(yōu),即k=10時。圖2直觀地描述出了最小二乘估計(jì)與嶺估計(jì)值的差值(相同顏色的實(shí)線虛線為同一點(diǎn)的估計(jì)值,實(shí)線表示的是最小二乘估計(jì)值,虛線表示嶺估計(jì)值),可以看出最小二乘估計(jì)值略高于嶺估計(jì)值。
由表1、表2可知,最小二乘估計(jì)的殘差較大,原因是法方程出現(xiàn)病態(tài),從而歪曲了參數(shù)求解的穩(wěn)定性,導(dǎo)致轉(zhuǎn)換結(jié)果不穩(wěn)定。為此,本文利用嶺估計(jì)平差方法進(jìn)行多項(xiàng)式曲面擬合,消除法方程病態(tài)以后,轉(zhuǎn)換結(jié)果得到了有效的改善。因此,利用嶺估計(jì)法進(jìn)行沉降數(shù)據(jù)處理,能有效克服法方程的病態(tài)性,提高數(shù)據(jù)處理的穩(wěn)定性。
圖2 不同方法計(jì)算結(jié)果對比
通過計(jì)算可得二者均方誤差,最小二乘的MSE=73.2382 ,嶺估計(jì)的MSE=0.1463,對比均方誤差可以看到,由于數(shù)據(jù)存在共線性,最小二乘回歸得到的均方誤差大于嶺估計(jì)方法,說明計(jì)算結(jié)果存在一定的偏差,說明嶺估計(jì)確實(shí)在均方誤差意義下改進(jìn)了LS估計(jì)。本文通過實(shí)例計(jì)算驗(yàn)證了嶺估計(jì)方法在二次曲面模型在高程擬合中的優(yōu)越性,表明雙h公式法求嶺參數(shù)是可行的,而且效果顯著。可以看出,嶺估計(jì)法不僅可以解決變形監(jiān)測計(jì)算點(diǎn)位高程時出現(xiàn)的法方程病態(tài)情況,而且擬合精度也有所提高。