唐薇,馮長煥
(西華師范大學(xué)數(shù)學(xué)與信息學(xué)院,四川南充637002)
一元線性回歸模型的參數(shù)估計(jì)法的誤差分析
唐薇,馮長煥
(西華師范大學(xué)數(shù)學(xué)與信息學(xué)院,四川南充637002)
對橫向距離平方和最小法與最小二乘法的誤差進(jìn)行分析,發(fā)現(xiàn)二者的誤差大小與擬合直線的斜率有關(guān).這兩種方法的參數(shù)估計(jì)表達(dá)式與最小距離平方和法的參數(shù)估計(jì)表達(dá)式有相應(yīng)的關(guān)系.通過舉例比較和討論了這三種數(shù)據(jù)擬合方法的優(yōu)劣,并分別給出了較合理的應(yīng)用控制條件.
參數(shù)估計(jì);橫向距離平方和最小法;最小二乘法;回歸分析
數(shù)據(jù)擬合的原理是:給定一組觀測數(shù)據(jù)(或散點(diǎn)等)(xi,yi)(i=1,2,3,…,m),在某一類曲線中尋找一條最佳曲線y=φ(x),使該曲線擬合這些數(shù)據(jù),曲線的選取要靠經(jīng)驗(yàn)和對數(shù)據(jù)的直觀分析,因此有時稱為經(jīng)驗(yàn)公式,最佳的標(biāo)準(zhǔn)是使總體誤差最小.如果采用絕對誤差,數(shù)學(xué)上采用微積分知識求最小值不容易處理,因此通常采用最小二乘法來處理[1].
橫向距離平方和最小法跟最小二乘法一樣是一種將距離簡化處理的方法,它們分別采用橫向(x向)和縱向(y向)離差代替綜合離差(x向和y向),降低了運(yùn)算的復(fù)雜程度,但同時帶來了一定的誤差.
1.1 兩種方法的參數(shù)估計(jì)準(zhǔn)則
最小二乘法是給出一條直線,使得每個樣本點(diǎn)離這條直線的縱向距離的平方和達(dá)到最小[2].其縱向距離平方和為
從式(1)可以看出最小二乘法屬于單方向(縱軸y向)的數(shù)據(jù)擬合,即用表示待擬合點(diǎn)(xi,yi)到擬合直線的距離.顯然di縱不是點(diǎn)到直線的垂直距離(最小距離),因?yàn)樗皇菃畏较?y向)擬合.最小二乘法所得參數(shù)a,b的估計(jì)值為:
橫向距離平方和最小法是給出一條直線,使得每個點(diǎn)離這條直線的橫向距離的平方和達(dá)到最小[3].令橫向距離平方和為
從式(2)可以看出橫向距離平方和最小法屬于單方向(橫軸x向)的數(shù)據(jù)擬合,即用表示待擬合點(diǎn)(xi,yi)到擬合直線的橫向距離.同樣di橫不是點(diǎn)到直線的垂直距離(最小距離),因?yàn)樗皇菃畏较?x向)擬合.橫向距離平方和最小法的參數(shù)a,b的估計(jì)值為:
1.2 圖形分析兩種方法的誤差
現(xiàn)通過圖示來進(jìn)一步分析前兩種簡化處理的方法和全最小二乘法的差別.如圖1,設(shè)擬合的曲線為y=a?+b?x,其與x正方向的夾角為α,則有tanα=b.過任一待擬合點(diǎn)(xi,yi)分別作出其到擬合直線的最小距離di、縱向距離di縱、橫向距離di橫.顯然存在幾何關(guān)系di=di縱cosα=di橫sinα.令
當(dāng)||b=1時,Δ縱=Δ橫,最小二乘法和橫向距離平方和法的誤差相等,兩種方法求得的擬合直線相同.當(dāng)||b>1時,Δ橫<Δ縱,應(yīng)采用橫向距離平方和最小法精確度更高.當(dāng)||b<1時,Δ縱<Δ橫,應(yīng)采用最小二乘法精確度更高.
圖1 橫向距離平方和最小法與最小二乘法的差別
雖然這兩種方法有一定的擬合誤差,但它們是一種十分重要的簡化處理手段.最小二乘法是假設(shè)自變量沒有觀測誤差,橫向距離平方和最小法是假設(shè)因變量沒有觀測誤差.從誤差分析來看,最小距離平方和法即全最小二乘法可以改善這些問題.為所有樣本點(diǎn)(xi,yi)到直線y=a+bx的垂直距離的平方,因?yàn)?,所以使上?1)式和(2)式的和M+N達(dá)到最小即是使樣本點(diǎn)到直線的垂直距離的平方和最小,即:
通過這次活動,山西省孝義市中和路小學(xué)將遵從傳統(tǒng)儀規(guī),以禮樂致敬先賢,吟誦經(jīng)典,傳承禮儀,在中和這片沃土上,人人爭做“中允明德,和協(xié)至善”的好少年!
設(shè)(xi,yi)到擬合直線的距離為di,則使
為全最小二乘法的準(zhǔn)則.當(dāng)模型中難以區(qū)分因變量和自變量時,即所有變量都有不可忽略的誤差時,使用經(jīng)典的最小二乘法已經(jīng)不再合適.這就需要使用考慮了所有變量誤差的全最小二乘法.與經(jīng)典最小二乘法相比全最小二乘法得到回歸參數(shù)與真實(shí)模型參數(shù)更為接近[4].
對b求偏導(dǎo),得:
一個表達(dá)式與橫向距離平方和法求得的一致,另一個表達(dá)式與最小二乘法求得的擬合直線是互相垂直的關(guān)系,說明最小距離平方和法的斜率參數(shù)應(yīng)小于或等于橫向距離平方和法的斜率參數(shù).
最小距離平方和法的斜率參數(shù)的選擇可根據(jù)擬合結(jié)果y倚x是正相關(guān)還是負(fù)相關(guān).計(jì)算線性回歸分析中的相關(guān)系數(shù),當(dāng)r>0則選擇,當(dāng)r<0則
運(yùn)用國家統(tǒng)計(jì)局公布的關(guān)于中國1994-2004年旅游年總收入數(shù)據(jù),自變量t是年份序號,因變量y是旅游總收入,建立一元線性回歸模型(表1).
表1 1994-2004年我國旅游年總收入Table1 1994-2004 annualgross incomeof tourism
根據(jù)最小二乘法、橫向距離平方和最小法、最小一乘法、全最小一乘法四種方法的原理,利用SPSS和LINGO軟件建立的一元線性回歸方程分別為:
利用全最小二乘法得到的回歸方程為:
前四種方法的殘差平方和分別為556 366.8、112 376.6、658 827.6、659 987.4,而全最小二乘法的殘差平方和僅為34 748.42,表明全最小二乘法更符合實(shí)際,它的參數(shù)估計(jì)精度較高.但不能忽略橫向距離平方和最小法在大斜率時擬合效果好且容易求解的優(yōu)勢.
為檢驗(yàn)各種方法的穩(wěn)健性,采用前后均值法把2003年的旅游收入用2002年與2004年的數(shù)據(jù)的平均值4 294.535取代,并假設(shè)是在不受異常點(diǎn)影響下建立的模型.通過SPSS和LINGO軟件重新根據(jù)四種方法的原理對模型的參數(shù)進(jìn)行估計(jì),獲得的公式分別為[3]:
此時利用全最小二乘法得到的回歸方程為:
穩(wěn)健性是指當(dāng)個別點(diǎn)變化時,最優(yōu)直線也發(fā)生變化,其強(qiáng)弱由參數(shù)相對變化率反映[6].參數(shù)的相對變化率越小,說明此種方法的穩(wěn)健性越好.表2給出了不同方法下參數(shù)的變化率.
表2 不同方法下參數(shù)的變化率[3]Table2 The rateofparameters changeunder differentmethod
通過比較可以發(fā)現(xiàn)全最小二乘法參數(shù)b的穩(wěn)健性很好,參數(shù)a的穩(wěn)健性不好.因?yàn)椤ィ惓V堤幚矸椒ú划?dāng)使得差異很大,引起參數(shù)a的穩(wěn)健性不好.但該方法的穩(wěn)健性高于最小二乘法.
全最小二乘法考慮的是綜合離差,該方法所得直線方程不會因?yàn)樽鴺?biāo)系選取的不同而改變.盡管全最小二乘法可減少數(shù)據(jù)擬合的誤差.但不能忽略橫向距離平方和最小法在大斜率時擬合效果好且容易求解的優(yōu)勢.
為了兼顧各種方法的優(yōu)點(diǎn),根據(jù)它們的應(yīng)用控制條件,得到如下結(jié)論:
(3)全最小二乘擬合精度高但計(jì)算較為麻煩,并且它的解不適合作預(yù)報(bào)[8].前兩種方法求解的方程為回歸方程,并非相關(guān)方程,原因是它要求相關(guān)的兩個變量一個為因變量一個為自變量,且假設(shè)其中一個變量沒有觀測誤差.前兩種方法帶來的誤差并不能保證雙向(x向和y向)同時相關(guān),所以在求解相關(guān)方程時只有采用全最小二乘法才能得到滿意的相關(guān)關(guān)系.
[1]周浩.線性時間擬合方法的誤差分析及其改進(jìn)應(yīng)用[J].大學(xué)數(shù)學(xué),2013(1):70-76.
[2]曹昭.一元線性回歸中的相關(guān)系數(shù)與回歸直線斜率探討[J].統(tǒng)計(jì)與決策,2009(9):147-148.
[3]唐薇,馮長煥.參數(shù)估計(jì)的新方法——橫向距離平方和最小法[J].綿陽師范學(xué)院學(xué)報(bào),2013(8):9-14.
[4]王福昌,曹慧榮,朱紅霞.經(jīng)典最小二乘與全最小二乘法及其參數(shù)估計(jì)[J].統(tǒng)計(jì)與決策,2009(1):16-17.
[5]WuW L,Zhang Y,Fu ZQ,etal.A new leastsquaremethod on linear fitting[J].Scientific Journalof Electrical Engineering,2013,3(1): 8-12.
[6]楊桂元.最小一乘法在建立預(yù)測模型中的應(yīng)用[J].江蘇統(tǒng)計(jì), 1998,(5):17-19.
[7]楊述武,趙立竹,沈國土.普通物理實(shí)驗(yàn)(力學(xué)及熱學(xué)部分)[M].第4版.北京:高等教育出版社,2007.
[8]張洪俄,黃勁東,范文雷.全最小二乘法及其在參數(shù)估計(jì)中的應(yīng)用[J].1995(1):40-47.
【編校:許潔】
Error Analysisof Parameter Estimating Method in Single Variable Linear Regression
TANGWei,FENGChanghuan
(CollegeofMathematicsand Information,ChinaWestNormalUniversity,Nanchong,Sichuan 637002,China)
Theminimum sum of lateraldistance square and the leastsquaremethod were analyzed,finding that theirerror are related to the slope of the fitted line and that the parameter estimating expression of the twomethods are associated with the expression of the least distance squaremethod.Through comparison,the advantages and disadvantages of the threemethodswere discussed and reasonableapplication control conditionsweregiven.
parameter estimation;theminimum sum of lateral distance square;the leastsquaremethod;regression analysis
O212.1
A
1671-5365(2014)12-0018-04
2014-05-27修回:2014-07-09
唐薇(1989-),女,碩士研究生,研究方向?yàn)榻y(tǒng)計(jì)學(xué)理論及應(yīng)用
馮長煥(1972-),女,教授,碩士生導(dǎo)師,研究方向?yàn)榻y(tǒng)計(jì)學(xué)理論及應(yīng)用
時間:2014-07-11 09:33
http://www.cnki.net/kcms/detail/51.1630.Z.20140711.0933.002.htm l