王苗苗, 李博峰,2, 沈云中
(1.同濟(jì)大學(xué) 測繪與地理信息學(xué)院,上海 200092; 2.國家地理信息工程國家重點實驗室,西安 710054)
?
顧及自變量與因變量誤差及相關(guān)性的線性回歸
王苗苗1, 李博峰1,2, 沈云中1
(1.同濟(jì)大學(xué) 測繪與地理信息學(xué)院,上海 200092; 2.國家地理信息工程國家重點實驗室,西安 710054)
摘要:提出一種顧及自變量和因變量觀測誤差及誤差相關(guān)性的線性回歸新方法,并導(dǎo)出了求解線性回歸系數(shù)的迭代公式.以一元線性回歸為例,導(dǎo)出了與最小二乘回歸系數(shù)表達(dá)形式類似的解析解,并揭示了新方法與最小二乘方法的本質(zhì)區(qū)別.此外,對于含有多個自變量的多元線性回歸,給出了相應(yīng)的同時考慮自變量和因變量觀測誤差及誤差相關(guān)性的回歸系數(shù)求解方法.試驗表明,當(dāng)自變量是非隨機(jī)變量時,新方法與最小二乘方法的回歸效果相同;當(dāng)因變量和自變量都是隨機(jī)變量(自變量與因變量的觀測誤差相關(guān)或不相關(guān))時,新方法的回歸系數(shù)比最小二乘方法的回歸系數(shù)更加接近實際值.
關(guān)鍵詞:回歸分析; 一元線性回歸; 相關(guān)系數(shù); 自變量誤差
1引言
變量之間的關(guān)系包括確定性的函數(shù)關(guān)系與非確定性的相關(guān)關(guān)系[1].回歸分析是處理隨機(jī)變量之間相關(guān)關(guān)系的數(shù)學(xué)工具[2-3],其目的是找出因變量與自變量之間的統(tǒng)計關(guān)系,然后利用這種統(tǒng)計關(guān)系預(yù)測自變量值對應(yīng)的因變量值,或者由給定的因變量值來控制自變量值的變化范圍.因此,回歸分析的關(guān)鍵是根據(jù)自變量和因變量觀測值及某些合理假設(shè)建立它們之間的(線性或者非線性)函數(shù)模型,即求解相應(yīng)的回歸系數(shù)[4].由于變量之間的非線性關(guān)系往往可通過一定的方法,例如變量變換轉(zhuǎn)化為線性關(guān)系,因而線性回歸是回歸分析中最簡單常用的回歸模型.
線性回歸中最簡單的,最具代表性的是只有一個自變量的一元線性回歸模型,為了敘述方便,記模型自變量和因變量分別為x和y.不失一般性,假設(shè)x和y的觀測精度分別為σx=1,σy=3,且觀測誤差的相關(guān)系數(shù)為ρ=-0.8,則實際觀測值的點位誤差橢圓如圖1a所示,即需要嚴(yán)格考慮自變量和因變量的誤差特性,才能獲得合理的回歸系數(shù).目前計算回歸系數(shù)的方法都未能充分考慮自變量與因變量的觀測誤差以及它們的相關(guān)性.文獻(xiàn)[5-9]給出了同時考慮自變量誤差εx與因變量誤差εy的回歸分析方法,但都忽略了εx與εy的相關(guān)性,即將原本按傾斜誤差橢圓分布的誤差(圖1a)按照與主軸平行的誤差橢圓分布的誤差處理,如圖1b所示.然而,傳統(tǒng)的回歸分析方法,如最小二乘方法不僅忽略了自變量與因變量觀測誤差的相關(guān)性,更甚至忽略了自變量的誤差εx,只考慮因變量的誤差εy,即用圖1c的誤差分布代替圖1a的點位誤差橢圓,顯然這樣的處理方式是不合理的.
a 實際誤差分布
b 忽略變量誤差相關(guān)性的誤差分布
c 只考慮因變量誤差的誤差分布
綜上所述,回歸分析中的自變量和因變量觀測值都來自實際觀測,不可避免地存在觀測誤差,甚至是具有相關(guān)性的觀測誤差.回歸分析時如果按照只考慮因變量誤差,或者只考慮自變量和因變量誤差但忽略誤差相關(guān)性的方式處理觀測數(shù)據(jù),都必然導(dǎo)致獲得的回歸系數(shù)不合理,即建立的回歸模型不合理,影響回歸分析的效果及其應(yīng)用.文獻(xiàn)[10-11]中的變量隨機(jī)模型可以用來描述自變量與因變量的觀測誤差及誤差之間的相關(guān)關(guān)系.本文從線性回歸分析的角度,以一元線性回歸為例,分析自變量和因變量觀測誤差以及誤差相關(guān)性對回歸系數(shù)求解的影響.不同于文獻(xiàn)[5-9],本文給出了回歸系數(shù)的解析解形式,并指出不同的回歸分析方法都采用誤差改正的“新觀測值”代替原始觀測值求解回歸系數(shù).
提出一種同時顧及自變量和因變量觀測誤差及誤差相關(guān)性的線性回歸新方法,并研究了新方法求解回歸系數(shù)的迭代方式,導(dǎo)出了新方法獲得的回歸系數(shù)的解析形式,揭示了回歸分析新方法的廣泛性及其與最小二乘方法的區(qū)別,最后,采用實例驗證了新方法的回歸效果.
2傳統(tǒng)一元線性回歸
一元線性回歸方程為
(1)它描述了因變量y隨自變量x的總體變化情況.通常采用m>2組觀測數(shù)據(jù)確定回歸模型系數(shù)β0和β1,對應(yīng)的回歸模型為
(4a)
(5)
3顧及自變量與因變量誤差及誤差相關(guān)性的線性回歸
自變量和因變量觀測值通常都來源于實際觀測,都不可避免地被觀測誤差εy和εx污染,上述一元線性回歸模型的傳統(tǒng)最小二乘解法只考慮了因變量y的觀測誤差而忽略了自變量x的觀測誤差.當(dāng)εy和εx之間存在相關(guān)性,即σxy≠0,如圖1a所示,除了考慮εy和εx,還應(yīng)該考慮誤差的相關(guān)性σxy.因而,需要一種充分考慮變量觀測誤差及誤差相關(guān)性的線性回歸方法.將一元線性回歸模型(2)改為
(6)誤差εx與εy之間的相關(guān)程度為ρ=σxy/(σx·σy).假設(shè)自變量與因變量各自等精度觀測,則類似于文獻(xiàn)[10-11],模型(6)對應(yīng)的隨機(jī)模型為
(7)其中,?表示克羅內(nèi)克積[15-16].當(dāng)ρ=0時,隨機(jī)模型(7)與文獻(xiàn)[6-9]中考慮自變量觀測誤差的加權(quán)總體最小二乘的隨機(jī)模型一致;當(dāng)εx=0時,模型(6)等價于模型(2),即傳統(tǒng)的最小二乘方法與加權(quán)總體最小二乘方法是新方法的一種特例.因此,為了說明自變量和因變量觀測誤差以及誤差相關(guān)性對回歸分析效果的影響,下文只分析傳統(tǒng)的最小二乘方法與新方法的差異之處與共同之處.
(8)式中,拉格朗日乘常數(shù)λ是m×1的未知向量.對各未知量求偏導(dǎo)數(shù)并令其等于零有
(9a)
(9b)
(9c)
易證該Hessian矩陣是非負(fù)定矩陣.因此方程9a—9d的解即是滿足目標(biāo)方程(8)的最優(yōu)解[10].聯(lián)合求解方程9a—9d,得:
(10)
(11a)
(11b)
(12)
(13)
(14)
即
(15)
(16)
(17a)
(17b)
(18)
(19a)
(19b)
對于含有多個自變量的多元線性回歸模型,類似于模型(6),有
(20)
(21)
其中A=[em,X],EA=[0,EX],H=[0n×1,In].模型(20)對應(yīng)的隨機(jī)模型為
(22)
(23)
(24)
(25)
(26a)
(26b)
若回歸模型只有一個自變量,模型(20)等價于模型(6),相應(yīng)的法方程(24)等價于法方程(14),回歸系數(shù)的估值式(25)等價于式(16),自變量和因變量觀測誤差的估值式(26)等價于式(19).因此,同時考慮自變量和因變量觀測誤差及誤差相關(guān)性的線性回歸思想在一元線性回歸和多元線性回歸中都是適用的,即本文對觀測誤差及其特性的處理方法具有廣泛性.
4回歸方法比較
對于回歸方程y=β0+β1x,分別等精度觀測自變量和因變量.傳統(tǒng)最小二乘方法求解的回歸系數(shù)為
新方法求解的回歸系數(shù)為
為了比較顧及變量誤差及誤差相關(guān)性的新回歸方法與傳統(tǒng)最小二乘回歸方法在一元線性回歸分析中的效果,以及兩個方法之間的差異與共性,設(shè)計模擬實驗:假設(shè)自變量和因變量各自按照給定的精度σx和σy進(jìn)行等精度觀測,給變量觀測誤差不同的相關(guān)性,即改變σxy,按照直線y=2x+5分別模擬m組觀測數(shù)據(jù)[xi,yi].按照以下2種情形進(jìn)行討論:
如圖2所示,相對于傳統(tǒng)的最小二乘方法,顧及自變量與因變量觀測誤差及誤差相關(guān)性的新方法獲得的回歸直線更加接近真實的直線.如回歸系數(shù)解(17)與(4)所示,兩種方法進(jìn)行回歸分析時實際采用的觀測數(shù)據(jù)(觀測點)是不同的,傳統(tǒng)的最小二乘方法采用原始觀測點,而新方法將原始觀測點的誤差進(jìn)行改正,然后利用改正后的“觀測數(shù)據(jù)”,采用最小二乘方法求解回歸直線.
a ρ=-0.9
b ρ=-0.5
c ρ=0.5
d ρ=0.9
correlationcoefficientρ=0.8.
a 0
correlation coefficientρ=-0.8.
表1幾種線性回歸方法獲得的回歸系數(shù)
Tab.1The regression coefficients from different linear regression methods
σxρ最小二乘加權(quán)總體最小二乘新方法β^0β^1β^0β^1β^0β^11-0.85.00801.60225.00851.90015.00862.0007 05.00361.81755.00351.99895.00351.9989 0.84.99922.03584.99922.08424.99921.999305.00151.99995.00151.99995.00151.9999
從表1以及圖3,圖4可以看出,各組試驗獲得的回歸直線的截距基本是一致的,說明回歸分析中常數(shù)項的求解結(jié)果基本不受自變量觀測誤差的影響.雖然回歸直線的斜率受自變量觀測誤差及其與因變量觀測誤差的相關(guān)性影響較大,但是新方法綜合考慮了變量的觀測誤差以及誤差之間的相關(guān)性,其獲得的回歸直線與真實的直線更加接近.
由于加權(quán)總體最小二乘方法是新方法的特殊情形,因此本文只比較了最小二乘方法與新方法.兩種方法的共同點在于:
(1) 兩種方法獲得的回歸系數(shù)的解析形式相同,如式(4)與(17)所示.回歸系數(shù)都可以用觀測數(shù)據(jù)x和y的方差s以及相應(yīng)的相關(guān)系數(shù)γ表示.
兩種回歸分析方法的差異在于:
(1) 傳統(tǒng)最小二乘方法只考慮了因變量的觀測誤差而忽略了自變量的觀測誤差;新方法不但同時考慮了自變量和因變量的觀測誤差εx和εy,還考慮了觀測誤差之間的相關(guān)性ρ.
5結(jié)論
在實際回歸分析應(yīng)用中,例如自回歸模型,自變量和因變量觀測誤差的相關(guān)性通常難以準(zhǔn)確獲得,可以根據(jù)經(jīng)驗判斷誤差的相關(guān)性.
參考文獻(xiàn):
[1]鄧勃. 分析測試數(shù)據(jù)的統(tǒng)計處理方法[M]. 北京:清華大學(xué)出版社, 1994.
DENG Bo. Statistical processing method for data of analytic and test[M]. Beijing: Tsinghua university press, 1994.
[2]Ryan A G, Montgomery D C, Peck E A,etal. Introduction to linear regression analysis, solutions manual to accompany [M]. 5th ed. Hoboken: Wiley, 2013.
[3]Chambers J M, Cleveland W S, Kleiner B, Tukey P A. Graphical methods for data analysis[M]. Belmont: Duxbury Press, 1983.
[4]Sykes A O. An introduction to regression analysis[M]. Chicago: The Inaugural Coase Lecture, Law School, University of Chicago, 1993.
[5]魯鐵定,陶本藻,周世健. 基于整體最小二乘法的線性回歸建模和解法[J]. 武漢大學(xué)學(xué)報:信息科學(xué)版, 2008, 33(5): 504.
LU Tieding, TAO Benzao, ZHOU Shijian. Modeling and algorithm of linear regression based on total least squares[J]. Geomatics and Information Science of Wuhan University, 2008, 33(5):504.
[6]Schaffrin B, Wieser A. On weighted total least-squares adjustment for linear regression[J]. Journal of Geodesy, 2008, 82(7):415.
[7]Shen Y Z, Li B F, Chen Y. An iterative Solution of weighted total least-squares adjustment[J]. Journal of Geodesy, 2011, 85(10):229.
[8]Li B F, Shen Y Z, Li W X. The seamless model for three-dimensional datum transformation[J]. Science China: Earth Science, 2012, 55(12):2099.
[9]Xu P L, Liu J N, Shi C. Total least squares adjustment in partial errors-in-variables models: algorithm and statistical analysis[J]. Journal of Geodesy, 2012, 86(8): 661.
[10]Snow K. Topics in total least-squares adjustment within the errors-in-variables model: singular cofactor matrices and priori information[D]. Columbus: School of Earth Sciences, the Ohio State University, 2012.
[11]Fang X. Weighted total least squares: necessary and sufficient conditions, fixed and random parameters[J]. Journal of Geodesy, 2013, 87(8): 733.
[12]張堯庭,方開泰. 多元統(tǒng)計分析引論[M]. 武漢:武漢大學(xué)出版社, 2013.
ZHANG Yaoting, FANG Kaitai. An introduction to multivariate statistical analysis[M]. Wuhan: Wuhan University Press, 2013.
[13]Edwards A L. An introduction to linear regression and correlation[M]. New York: William H. Freeman and Company, 1976.
[14]Gideon R A. The correlation coefficients[J]. Journal of Modern Applied Statistical Methods, 2007, 6(2):517.
[15]Koch K R. Least-squares adjustment and collocation[J]. Bulletin géodésique, 1977, 51(2):127.
[16]Koch K R. Parameter estimation and hypothesis testing in linear models[M]. 2nd ed. Berlin/Heidelberg/New York: Springer, 1999.
[17]Li B F, Wang M M, Yang Y X. Multiple linear regression with correlated explanatory variables and responses[J]. Survey Review, 2015. DOI: http://dx.doi.org/10.1179/1752270615Y.0000000006.
[18]Xu P L, Liu J N, Zeng W X,etal. Effects of errors-in-variables on weighted least squares estimation[J]. Journal of geodesy, 2014, 88(7): 705.
Linear Regression with Corrected Errors of Independent and Dependent Variables
WANG Miaomiao1, LI Bofeng1,2, SHEN Yunzhong1
(1. College of Surveying and Geo-Informatics, Tongji University, Shanghai, 200092, China; 2. State Key Laboratory of Geo-information Engineering, Xi’an, 710054, China)
Abstract:This paper presented a new linear regression method where the errors of dependent and independent variables and correlations of errors were adequately captured. The iteration formulae for calculating the regression parameters were derived at the same time. Taking univariate linear regression problem as an example, analytical formulas for linear regression parameters that similar to those from least-squares method were derived, with which the essential difference between least-squares method and new method were demonstrated. In addition, for the multiple linear regression that with multiple independent variables, the corresponding method, which considers the errors of both independent and dependent variables and the correlations of errors, for calculating the linear regression parameters were also shown. The experiment results shown that the new method and least-squares method were equivalent to each other when independent variables were non-random; whereas, the regressive parameters from new method were more closer to the true values than those from the least-squares method when both independent and dependent variables were all random (no matter their errors were correlated or not).
Key words:regression analysis; univariate linear regression; correlation coefficient; errors of independent variables
文獻(xiàn)標(biāo)志碼:A
中圖分類號:P207.1
基金項目:國家自然科學(xué)基金(41374031;41574023);國家地理信息工程國家重點實驗室開放研究基金(SKLGIE2013-M-2-2);測繪地理信息公益性行業(yè)科研專項經(jīng)費資助(HY14122136);中央高?;究蒲袠I(yè)務(wù)費專項資金資助(20133080;20151225)
收稿日期:2015-04-28
第一作者: 王苗苗(1989—),女,博士生,主要研究方向為測量數(shù)據(jù)處理和衛(wèi)星導(dǎo)航系統(tǒng)理論與應(yīng)用.E-mail:5wmmgps@#edu.cn