易志杰
【摘要】簡(jiǎn)單線性回歸是研究?jī)蓚€(gè)可測(cè)變量之間線性關(guān)系的方法,可被用于預(yù)測(cè)和控制,是統(tǒng)計(jì)學(xué)中最基本也是最重要的方法之一,被廣泛應(yīng)用于各個(gè)研究領(lǐng)域。本文系統(tǒng)的研究并總結(jié)了簡(jiǎn)單線性回歸的步驟,包括用最小二乘法進(jìn)行參數(shù)估計(jì),以及F檢驗(yàn)和測(cè)定系數(shù)R2兩種優(yōu)度檢驗(yàn),并研究了如何用統(tǒng)計(jì)軟件R語言實(shí)現(xiàn)簡(jiǎn)單線性回歸。
【關(guān)鍵詞】簡(jiǎn)單線性回歸 ?最小二乘法 ?F檢驗(yàn) ?R2 ?R語言
【中圖分類號(hào)】G42 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2018)40-0217-02
回歸分析是研究變量與變量之間關(guān)系的方法,起源于19世紀(jì)50年代,由生物學(xué)家、統(tǒng)計(jì)學(xué)家高爾頓在研究父母和孩子身高關(guān)系時(shí)最早提出[1]?;貧w分析對(duì)科學(xué)研究方面幫助極大,很多關(guān)系式都是先進(jìn)行試驗(yàn)得出數(shù)據(jù),再通過回歸分析得出的?;貧w分析的作用是可以進(jìn)行預(yù)測(cè)與控制,可以利用擬合得出的關(guān)系式,對(duì)變量進(jìn)行預(yù)測(cè),對(duì)想要的因變量值進(jìn)行反解得出需要控制的自變量的值?;貧w分析有多種具體方法,分別為線性回歸,對(duì)數(shù)回歸,多元回歸等。本文重點(diǎn)以線性回歸為研究對(duì)象進(jìn)行研究。
1.線性回歸模型步驟
1.1模型的建立
我們根據(jù)實(shí)際試驗(yàn)并測(cè)量,得到n對(duì)觀測(cè)案例數(shù)據(jù)(xi,yi)。假設(shè)x與y是變量,x是自變量,y是因變量,他們之間有某種函數(shù)關(guān)系f,即y=f(x)。通過對(duì)f進(jìn)行形式上的假設(shè),然后用類似于解方程的方法去求得f中參數(shù)的值,從而得出f的具體表達(dá)式。
簡(jiǎn)單線性回歸是最基本的回歸方式,它假設(shè)f是一元線性方程,即y=ax+b,圖形上畫出來是一條直線。簡(jiǎn)單線性回歸可以說是回歸分析的基礎(chǔ),因?yàn)榇罅科渌瘮?shù)表達(dá)式的形式都是線性函數(shù)的變種,例如y=ax2+b與y=lnx可看作為簡(jiǎn)單線性回歸的變種或疊加,即y=a*g(x)+b。
殘差,也可稱作統(tǒng)計(jì)誤差,即因?yàn)槿藶橐蛩鼗蚬ぞ呔葐栴}導(dǎo)致的測(cè)得的實(shí)際數(shù)據(jù)與通過模型推導(dǎo)出的擬合值之間產(chǎn)生的誤差。殘差用e表示,第i組的殘差用ei表示。簡(jiǎn)單線性回歸通常假設(shè)ei服從正態(tài)分布,且均值為0(即殘差的固定成分是可以忽略不計(jì)的)。
由此簡(jiǎn)單線性回歸模型可描述為[2]:
yi=β0+β1xi+ei ? ?i=1,2,……n
其中E(ei)=0,cov(ei, ej)=0
1.2參數(shù)的估計(jì)——最小二乘法
要推導(dǎo)該函數(shù)關(guān)系中的β0與β1,通常使用最小二乘法。最小二乘法,即以使得殘差的平方和(設(shè)為RSS)最小為準(zhǔn)則求得參數(shù)β0、β1的方法。
即:求出使得RSS=■[yi-(β0+β1xi)]2最小時(shí)的β0、β1[3]。
求解的方法是讓RSS分別對(duì)β0、β1求導(dǎo)并讓導(dǎo)數(shù)為0[2],即
■=■=-2■[yi-(β0+β1xi)]=0
■=■=-2■[yi-(β0+β1xi)]xi=0
整理上述兩式,得出:
β0n+β1■xi=■yi
β0■xi+β1■xi2=■xiyi
為方便表示,記x=■, y=■, SXX=■(xi-x)2,SXY=■(xi-x)(yi-y),
則可解出:
■1=■,■0=y-■1x
最小二乘法的優(yōu)點(diǎn):僅依賴數(shù)據(jù),計(jì)算方便。
最小二乘法的缺點(diǎn):
(1)任何兩個(gè)相同的數(shù)據(jù)集都會(huì)有相同的回歸擬合。
(2)y其實(shí)跟x并沒有關(guān)系,也可以通過最小二乘法得出一個(gè)線性關(guān)系式,但實(shí)際上此關(guān)系式并非真實(shí),因此需要判定擬合效果是否真實(shí)。
1.3擬合效果檢驗(yàn)
由前述最小二乘估計(jì)的缺點(diǎn)可知,需要對(duì)得出的簡(jiǎn)單線性回歸公式進(jìn)行檢驗(yàn)。檢驗(yàn)方法通常有兩種。
1.3.1 F檢驗(yàn)
F檢驗(yàn)是用來檢驗(yàn)x是否跟y存在線性關(guān)系的方法,它檢驗(yàn)的是β1是否顯著的不為0。如果顯著不為0,則說明確實(shí)存在線性關(guān)系,若并不顯著的不為0,即x對(duì)y的影響并不顯著,那么線性關(guān)系就不顯著,模型的擬合效果就不好。
若β1=0,則模型為:yi=β0+ej
此時(shí),同樣可以用最小二乘法算出,最佳的估計(jì)■0=y,此時(shí),模型的殘差平方和RSS=■(yi-y)2 =SYY (1)
而若β1不等于0,可以將■1=■,■0=y-■1x
帶入
RSS=■[yi-(β0+β1xi)]2
得出RSS=SYY-■ (2)
可知(1)-(2)=SYY-(SYY-■)= ■
代表原簡(jiǎn)單模型加入變量x之后殘差平方和減少的量,把它記為SSreg,稱為回歸平方和,SSreg越大則說明加入x對(duì)模型的改進(jìn)越大,則說明x跟y之間的線性關(guān)系越強(qiáng)[2]。
統(tǒng)計(jì)上構(gòu)造變量F=SSreg/RSS來進(jìn)行上述問題的判斷,可以證明SYY=SSreg+RSS 所以,F(xiàn)=■,因此F跟SSreg是正相關(guān)關(guān)系。SSreg大則F大,F(xiàn)大則SSreg大,x跟y就具有更顯著相關(guān)關(guān)系。而在ei服從均值為0且相互獨(dú)立的前提假設(shè)下,統(tǒng)計(jì)上容易證明,如果β1=0,那么F將服從f分布:F~F(1,n-2),其中n為樣本點(diǎn)個(gè)數(shù)[4],可以通過查表查到F將在99%概率下不會(huì)超過多少,記為F(0.01;1,n),若通過觀測(cè)值帶入得出的F比該值還要大,則說明“幾乎不可能的事情”(1%概率)發(fā)生了,也就是說β1=0這個(gè)假設(shè)是錯(cuò)的,由此簡(jiǎn)單線性模型擬合程度較高。
通過F檢驗(yàn)驗(yàn)證回歸模型是否合理,就是通過對(duì)比實(shí)際算出的F值和查表得出的F(0.01;1,n)值,若F> F(0.01;1,n),那我們說在p值為0.01的情況下模型顯著,反之則不顯著。
P值是在β1=0為真的情況下,F(xiàn)值比觀察值更大的條件概率。一般以0.1、0.01、0.05作為評(píng)判標(biāo)準(zhǔn),若p值小于這些值,則說明相應(yīng)的系數(shù)顯著不為0。
1.3.2 測(cè)定系數(shù):R2
測(cè)定系數(shù)R2定義為R2=■
通過公式可以推算出SYY=SSreg+RSS,統(tǒng)計(jì)上一般用一個(gè)變量的方差來代表這個(gè)變量本身所承載的信息量,上式中SYY就是Y的方差,由關(guān)系式可知它由RSS和SSreg兩部分組成,如前所述SSreg代表加入x的線性項(xiàng)之后模型殘差的減少量,可以理解為Y的信息中可由x的線性關(guān)系解釋的部分,而RSS則是除去這部分之后的非線性以及統(tǒng)計(jì)誤差的部分。
因此,測(cè)定系數(shù)R2越大,則說明回歸所承載的y的信息量就越大,也越能表示回歸模型的真實(shí)性。
2.簡(jiǎn)單線性回歸的R語言應(yīng)用
R語言是一種有強(qiáng)大統(tǒng)計(jì)計(jì)算和繪圖功能的數(shù)據(jù)分析軟件,由一個(gè)強(qiáng)大的專門的研究型社區(qū)維護(hù),R語言中有很多開源的數(shù)據(jù)包可供直接調(diào)用。R語言中通常用lm()函數(shù)回歸進(jìn)行線性回歸[5],用法為:lm(formula,data),其中formula要擬合的模型,用“~”連接,對(duì)于簡(jiǎn)單線性回歸來說,假設(shè)x、y分別為自變量、因變量,則formula為y~x,data為用于擬合的數(shù)據(jù)。
輸出結(jié)果示例如下:
在Estimate下的兩個(gè)值即分別β0與β1,而后面的“?鄢”則表示與之對(duì)應(yīng)的回歸系數(shù)顯著不為0的p值所代表的顯著性,“?鄢”越多則越顯著,得出的系數(shù)就越有效。Multiple R-squared即測(cè)定系數(shù)R2,F(xiàn)-statistic即F檢驗(yàn),后面的p-value即對(duì)應(yīng)的p值,可將之與0.01或0.05等進(jìn)行比較,若更小,則說明擬合較優(yōu)。示例圖中表示,F(xiàn)檢驗(yàn)下,擬合程度很好,但R2并不高,應(yīng)對(duì)模型進(jìn)行適當(dāng)改進(jìn)再進(jìn)行擬合。
參考文獻(xiàn):
[1]于忠義.高爾頓發(fā)現(xiàn)相關(guān)與回歸的歷史回顧與反思[J].統(tǒng)計(jì)與信息論壇,2009,24:17-25
[2]邵鴻翔.線性回歸方法在數(shù)據(jù)挖掘中的應(yīng)用和改進(jìn)[J].統(tǒng)計(jì)與決策,2012,14:76-80
[3]田生昌.最小二乘法的統(tǒng)計(jì)學(xué)原理及在農(nóng)業(yè)試驗(yàn)分析中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2015,45:124-133
[4]S.Weisberg.應(yīng)用線性回歸[M].北京:中國(guó)統(tǒng)計(jì)出版社,1998:15-20
[5]Robert I.Kabacoff.R語言實(shí)戰(zhàn)[M].北京:人民郵電出版社,2013:161-163