□劉君 余哲
(太原理工大學(xué)測繪科學(xué)與技術(shù)系,山西太原030024)
常用穩(wěn)健估計(jì)方法在多元線性回歸中的有效性比較
□劉君 余哲
(太原理工大學(xué)測繪科學(xué)與技術(shù)系,山西太原030024)
多元線性回歸是一種在測量中應(yīng)用廣泛的參數(shù)估計(jì)方法,其回歸參數(shù)通常基于LS法求得,但LS法不具備抵抗粗差的能力。在粗差不可避免的情況下,穩(wěn)健估計(jì)能達(dá)到減弱粗差對參數(shù)估計(jì)的影響。本文就多元線性回歸在測量中的應(yīng)用進(jìn)行研究,當(dāng)觀測值的不同位置含有不同數(shù)量的粗差時,探討和比較常用穩(wěn)健估計(jì)方法(Huber法、Tukey法、Danish法和IGGⅢ方案)在多元線性回歸模型中的有效性,結(jié)果表明IGGⅢ方案比LS法和其他三種常用穩(wěn)健估計(jì)方法更為有效。
多元線性回歸;穩(wěn)健估計(jì);有效性比較
多元線性回歸是處理變量間相關(guān)關(guān)系的參數(shù)估計(jì)方法,在生產(chǎn)實(shí)踐與科學(xué)實(shí)驗(yàn)中應(yīng)用較為廣泛,其回歸參數(shù)通常基于最小二乘法(LS法)求得[1]。在數(shù)據(jù)采集時,觀測值不可避免地會帶有粗差。而LS法在計(jì)算過程中對每個觀測值都賦予相同的權(quán)重,由此帶來對粗差的處理不當(dāng),使回歸系數(shù)估值產(chǎn)生較大偏差,從而影響了回歸模型的有效性[2]。
為了消除或減弱粗差對參數(shù)估計(jì)的影響,1953年,G.E.P.BOX提出了穩(wěn)健估計(jì)的概念。1964年,Huber發(fā)表的論文《定位參數(shù)的穩(wěn)健估計(jì)》為穩(wěn)健估計(jì)理論奠定了基礎(chǔ)。1968年,Relles[3]提出了改進(jìn)最小二乘穩(wěn)健回歸。1973年,Huber[4]提出把M-估計(jì)引入到回歸分析中,并對最大似然估計(jì)回歸的定義及其漸近性進(jìn)行了理論與實(shí)證。1977年,Holland和Welsch[5]提出了選權(quán)迭代法。吳健平和張立[1]通過對LS法和穩(wěn)健估計(jì)方法進(jìn)行比較,指出穩(wěn)健估計(jì)方法是LS法的改進(jìn),以地理數(shù)據(jù)中的一元線性回歸為例,說明穩(wěn)健估計(jì)能有效地減弱粗差對回歸系數(shù)估值的影響,并且在回歸過程中不用去判斷哪些數(shù)據(jù)含有粗差。本文通過在算例中改變粗差的位置與數(shù)量來探討和比較不同穩(wěn)健估計(jì)方法在多元線性回歸模型中的有效性。
假設(shè)某一因變量受個自變量(x1,x2,…,xm)的影響,其 組觀測值為yi,xi1,xi2,…,xim,(i=1,2,…,n)。則多元線性回歸模型為:
y?=β0+β1xi1+β2xi2+…+βmxim+εi
式中:β0,β1,…,βm是未知參數(shù),εi是隨機(jī)誤差,xi1,xi2,…,xim是m個可測量并可控制的非隨機(jī)變量[6]。
四種常見穩(wěn)健估計(jì)方法的權(quán)函數(shù)如下。其中,u代表標(biāo)準(zhǔn)化的殘差(ui=vi/σ),ω(u)表示權(quán)函數(shù);a、b和c表示調(diào)和系數(shù),均采用有關(guān)文獻(xiàn)的推薦值。
(1)Huber法[7]:
(2)Tukey法[8]:
(3)Danish法[9]:
(4)IGGⅢ方案[10]:
多元線性回歸在測量中有著廣泛的應(yīng)用,如:利用LTS獲得的點(diǎn)云數(shù)據(jù)采用切片分割法所得的株冠體積與冠高和冠高直徑滿足二元線性關(guān)系[11];井下三角高程測量中鋼尺丈量誤差與高差、水平距和測站數(shù)滿足三元線性關(guān)系[12];福建半日潮區(qū)理論深度基準(zhǔn)面值與分潮M2,S2,K1,O1四個主要分潮的平均振幅滿足四元線性關(guān)系[13]等。本文主要以二元線性回歸和四元線性回歸為例,進(jìn)行探討和分析。
用切片分割法所得的紫穗槐株冠體積y(dm3)與冠高x1(cm)、冠高直徑x2(cm)滿足二元線性關(guān)系。有15組觀測數(shù)據(jù)如表1。
由LS法得觀測值的單位權(quán)中誤差為1.9,選擇10倍左右的單位權(quán)中誤差(+ 20dm3)作為粗差。下面設(shè)計(jì)了三種方案分別進(jìn)行試驗(yàn)。其中,用n表示觀測值的數(shù)量,g表示粗差的數(shù)量,i、j和k分別表示在第i個、第j個和第k個觀測值中加入粗差(+ 20dm3)。
A1:在不同的位置加入一個粗差(n=15,g=1),結(jié)果見表2。
A2:在不同的位置加入兩個粗差(n=15,g=2),結(jié)果見表3。
A3:加入三個粗差(n=15,g=3),結(jié)果見表4。
表1 二元線性回歸算例的觀測值Tab.1 The observations of binary linear regression
表2 二元線性回歸LS法、Huber法、Tukey法、Danish法和IGGIII方案的殘差(n=15,g=1)Tab.2 Residual of LS,Huber,Tukey,Danish and IGGIII robust estimation methods of binary linear regression(n=15,g=1)
表3 二元線性回歸LS法、Huber法、Tukey法、Danish法和IGGIII方案的殘差(n=15,g=2)Tab.3 Residual of LS,Huber,Tukey,Danish and IGGIII robust estimation methods of binary linear regression(n=15,g=2)
表4 二元線性回歸LS法、Huber法、Tukey法、Danish法和IGGIII方案的殘差(n=15,g=3)Tab.4 Residual of LS,Huber,Tukey,Danish and IGGIII robust estimation methods of binary linear regression(n=15,g=3)
將表2、表3和表4中各參數(shù)估計(jì)方法所得的殘差與粗差相比較可知,在二元線性回歸模型中,當(dāng)g=1時,穩(wěn)健估計(jì)方法(Huber法、Danish法、Tukey法和IGGIII方案)比LS法都能更有效地消除或減弱粗差對參數(shù)估計(jì)的影響,且四者有效性相差不大。當(dāng)g=2時,穩(wěn)健估計(jì)方法依然優(yōu)于LS法,而且Huber法、Danish法和IGGIII方案比Tukey法更為有效。當(dāng)g=3時,Huber法和IGGIII方案比LS法、Tukey法和Danish法能夠更有效地消除或減弱粗差對參數(shù)估計(jì)的影響。
福建半日潮區(qū)理論深度基準(zhǔn)面值y與分潮M2,S2,K1,O1四個主要分潮的平均振幅x1,x2,x3,x4滿足四元線性關(guān)系。有15組觀測數(shù)據(jù)如表5。
由LS法得觀測值的單位權(quán)中誤差為3.2,選擇10倍左右的單位權(quán)中誤差(-30cm)作為粗差。下面設(shè)計(jì)三種方案分別進(jìn)行試驗(yàn)。其中,用n表示觀測值的數(shù)量,g表示粗差的數(shù)量,i、j和k分別表示在第i個、第j個和第k個觀測值中加入粗差(-30cm)。
B1:在不同的位置加入一個粗差(n=15,g=1),結(jié)果見表6。
B2:在不同的位置加入兩個粗差(n=15,g=2),結(jié)果見表7。
B3:加入三個粗差(n=15,g=3),結(jié)果見表8。
表5 四元線性回歸算例的觀測值Tab.5 The observations of quadruple linear regression
表6 四元線性回歸LS法、Huber法、Tukey法、Danish法和IGGIII方案的殘差(n=15,g=1)Tab.6 Residual of LS,Huber,Tukey,Danish and IGGIII robust estimation methods of quadruple linear regression(n=15,g=1)
表7 四元線性回歸LS法、Huber法、Tukey法、Danish法和IGGIII方案的殘差(n=15,g=2)Tab.7 Residual of LS,Huber,Tukey,Danish and IGGIII robust estimation methods of quadruple linear regression(n=15,g=2)
表8 四元線性回歸LS法、Huber法、Tukey法、Danish法和IGGIII方案的殘差(n=15,g=3)Tab.8 Residual of LS,Huber,Tukey,Danish and IGGIII robust estimation methods of quadruple linear regression(n=15,g=3)
將表6、表7和表8中各參數(shù)估計(jì)方法所得的殘差與粗差相比較可知,在四元線性回歸中,當(dāng)g=1和g=2時,穩(wěn)健估計(jì)方法(Huber法、Tukey法、Danish法和IGGIII方案)比LS法能夠更有效地消除或減弱粗差對參數(shù)估計(jì)的影響,且Danish法、Tukey法和IGGIII方案相對Huber法更為有效。當(dāng)g=3時,Danish法和IGGIII方案比LS法、Huber法和Tukey法能夠更為有效地消除或減弱粗差對參數(shù)估計(jì)的影響。
本文以二元和四元線性回歸在測量中的應(yīng)用為例,當(dāng)觀測值的不同位置有不同數(shù)量的粗差時,分析穩(wěn)健估計(jì)方法(Huber法、Tukey法、Danish法和IGGIII方案)所得觀測值的殘差,結(jié)果表明四種常用穩(wěn)健估計(jì)方法比LS法能更有效地在多元線性回歸中消除或減弱粗差對參數(shù)估計(jì)的影響,其中,IGGIII方案比Huber法、Tukey法和Danish法在多元線性回歸中消除或減弱粗差對參數(shù)估計(jì)的影響更為有效。
【1】吳健平,張立.地理數(shù)據(jù)線性回歸中的穩(wěn)健估計(jì)方法[J].干旱區(qū)地理,1994,3(1):83-88.
【2】陳艷國.回歸預(yù)測模型的穩(wěn)健性分析[J].工程地質(zhì)計(jì)算機(jī)應(yīng)用,2005,3(39):22-25.
【3】Relies,D.A.Robust Regression by Modified Least[M].Ph.D.thesis,Yale Univ.1968.
【4】Peter J.Huber.Robust Regression:Asymptotics Conjectures and Monte Carlo[J].The Annals of Statistics,1973,(5):799-821.
【5】P.W.Holland AND R.E.Welsch,Robust Regression Using Iteratively Reweighted Leastsquares[J].Commun Statist-Theor.Meth,A6(1977),pp.813-827.
【6】王新洲,陶本藻,邱衛(wèi)寧等,高等測量平差[M].測繪出版社,2006,4.
【7】Baselga,S.Global optimization solution of robust estimation[J].Journal of Surveying Engineering,2007,133(3):123-128.
【8】Pennacchi,P.Robust estimate of excitations in mechanical systems using M-estimators-Theoretical background and numerical applications[J].Journal of Sound and Vibration,2008,310:923-946.
【9】Nathan L.Knight and Jinling Wang.A Comparison of Outlier Detection Procedures and Robust Estimation Methods in GPS Positioning[J].Journal of Navigation,2009,62:699-709.
【10】Chang,Z.Q.,Hao,J.M.,Zhang,C.J.,and Cui,J.Y.(2008).'Regularization combined with robust estimation and its application for GPS rapid positioning.'J.G.G.,28(3),83-86.
【11】畢銀麗,齊禮帥,陳書琳等,基于點(diǎn)云數(shù)據(jù)的株冠體積測量方法[J].科學(xué)報(bào),2013,1(27):31-36.
【12】王帥,高井祥,胡洪等,多元線性回歸算法在井下三角高程測量中的應(yīng)用研究[J].測繪與空間地理信息,2011.2:63-66.
【13】陳楠,福建半日潮去理論深度基準(zhǔn)面值回歸方程的建立[J].測繪通報(bào),1999,9:28-29.
余哲(1963年——),男,高工,碩士,畢業(yè)于太原理工大學(xué),主要從事測量數(shù)據(jù)處理和開采沉陷。
P207
A
2095-7319(2014)03-0044-05
劉君(1990年——),女,畢業(yè)于太原理工大學(xué)測繪科學(xué)與技術(shù)系,碩士研究生,研究方向?yàn)榭臻g數(shù)據(jù)采集方法和數(shù)據(jù)處理。