亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

簡(jiǎn)單線性回歸理論及應(yīng)用研究

2018-01-18 10:05:10易志杰

課程教育研究 2018年40期

易志杰

【摘要】簡(jiǎn)單線性回歸是研究?jī)蓚€(gè)可測(cè)變量之間線性關(guān)系的方法，可被用于預(yù)測(cè)和控制，是統(tǒng)計(jì)學(xué)中最基本也是最重要的方法之一，被廣泛應(yīng)用于各個(gè)研究領(lǐng)域。本文系統(tǒng)的研究并總結(jié)了簡(jiǎn)單線性回歸的步驟，包括用最小二乘法進(jìn)行參數(shù)估計(jì)，以及F檢驗(yàn)和測(cè)定系數(shù)R2兩種優(yōu)度檢驗(yàn)，并研究了如何用統(tǒng)計(jì)軟件R語言實(shí)現(xiàn)簡(jiǎn)單線性回歸。

【關(guān)鍵詞】簡(jiǎn)單線性回歸 ?最小二乘法 ?F檢驗(yàn) ?R2 ?R語言

【中圖分類號(hào)】G42 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089（2018）40-0217-02

回歸分析是研究變量與變量之間關(guān)系的方法，起源于19世紀(jì)50年代，由生物學(xué)家、統(tǒng)計(jì)學(xué)家高爾頓在研究父母和孩子身高關(guān)系時(shí)最早提出[1]?；貧w分析對(duì)科學(xué)研究方面幫助極大，很多關(guān)系式都是先進(jìn)行試驗(yàn)得出數(shù)據(jù)，再通過回歸分析得出的?；貧w分析的作用是可以進(jìn)行預(yù)測(cè)與控制，可以利用擬合得出的關(guān)系式，對(duì)變量進(jìn)行預(yù)測(cè)，對(duì)想要的因變量值進(jìn)行反解得出需要控制的自變量的值?；貧w分析有多種具體方法，分別為線性回歸，對(duì)數(shù)回歸，多元回歸等。本文重點(diǎn)以線性回歸為研究對(duì)象進(jìn)行研究。

1.線性回歸模型步驟

1.1模型的建立

我們根據(jù)實(shí)際試驗(yàn)并測(cè)量，得到n對(duì)觀測(cè)案例數(shù)據(jù)（xi，yi）。假設(shè)x與y是變量，x是自變量，y是因變量，他們之間有某種函數(shù)關(guān)系f，即y=f（x）。通過對(duì)f進(jìn)行形式上的假設(shè)，然后用類似于解方程的方法去求得f中參數(shù)的值，從而得出f的具體表達(dá)式。

簡(jiǎn)單線性回歸是最基本的回歸方式，它假設(shè)f是一元線性方程，即y=ax+b，圖形上畫出來是一條直線。簡(jiǎn)單線性回歸可以說是回歸分析的基礎(chǔ)，因?yàn)榇罅科渌瘮?shù)表達(dá)式的形式都是線性函數(shù)的變種，例如y=ax2+b與y=lnx可看作為簡(jiǎn)單線性回歸的變種或疊加，即y=a*g（x）+b。

殘差，也可稱作統(tǒng)計(jì)誤差，即因?yàn)槿藶橐蛩鼗蚬ぞ呔葐栴}導(dǎo)致的測(cè)得的實(shí)際數(shù)據(jù)與通過模型推導(dǎo)出的擬合值之間產(chǎn)生的誤差。殘差用e表示，第i組的殘差用ei表示。簡(jiǎn)單線性回歸通常假設(shè)ei服從正態(tài)分布，且均值為0（即殘差的固定成分是可以忽略不計(jì)的）。

由此簡(jiǎn)單線性回歸模型可描述為[2]：

yi=β0+β1xi+ei ? ?i=1，2，……n

其中E（ei）=0，cov（ei， ej）=0

1.2參數(shù)的估計(jì)——最小二乘法

要推導(dǎo)該函數(shù)關(guān)系中的β0與β1，通常使用最小二乘法。最小二乘法，即以使得殘差的平方和（設(shè)為RSS）最小為準(zhǔn)則求得參數(shù)β0、β1的方法。

即：求出使得RSS=■[yi-（β0+β1xi）]2最小時(shí)的β0、β1[3]。

求解的方法是讓RSS分別對(duì)β0、β1求導(dǎo)并讓導(dǎo)數(shù)為0[2]，即

■=■=-2■[yi-（β0+β1xi）]=0

■=■=-2■[yi-（β0+β1xi）]xi=0

整理上述兩式，得出：

β0n+β1■xi=■yi

β0■xi+β1■xi2=■xiyi

為方便表示，記x=■， y=■， SXX=■（xi-x）2，SXY=■（xi-x）（yi-y），

則可解出：

■1=■，■0=y-■1x

最小二乘法的優(yōu)點(diǎn)：僅依賴數(shù)據(jù)，計(jì)算方便。

最小二乘法的缺點(diǎn)：

（1）任何兩個(gè)相同的數(shù)據(jù)集都會(huì)有相同的回歸擬合。

（2）y其實(shí)跟x并沒有關(guān)系，也可以通過最小二乘法得出一個(gè)線性關(guān)系式，但實(shí)際上此關(guān)系式并非真實(shí)，因此需要判定擬合效果是否真實(shí)。

1.3擬合效果檢驗(yàn)

由前述最小二乘估計(jì)的缺點(diǎn)可知，需要對(duì)得出的簡(jiǎn)單線性回歸公式進(jìn)行檢驗(yàn)。檢驗(yàn)方法通常有兩種。

1.3.1 F檢驗(yàn)

F檢驗(yàn)是用來檢驗(yàn)x是否跟y存在線性關(guān)系的方法，它檢驗(yàn)的是β1是否顯著的不為0。如果顯著不為0，則說明確實(shí)存在線性關(guān)系，若并不顯著的不為0，即x對(duì)y的影響并不顯著，那么線性關(guān)系就不顯著，模型的擬合效果就不好。

若β1=0，則模型為：yi=β0+ej

此時(shí)，同樣可以用最小二乘法算出，最佳的估計(jì)■0=y，此時(shí)，模型的殘差平方和RSS=■（yi-y）2 =SYY （1）

而若β1不等于0，可以將■1=■，■0=y-■1x

帶入

RSS=■[yi-（β0+β1xi）]2

得出RSS=SYY-■ （2）

可知（1）-（2）=SYY-（SYY-■）= ■

代表原簡(jiǎn)單模型加入變量x之后殘差平方和減少的量，把它記為SSreg，稱為回歸平方和，SSreg越大則說明加入x對(duì)模型的改進(jìn)越大，則說明x跟y之間的線性關(guān)系越強(qiáng)[2]。

統(tǒng)計(jì)上構(gòu)造變量F=SSreg/RSS來進(jìn)行上述問題的判斷，可以證明SYY=SSreg+RSS 所以，F(xiàn)=■，因此F跟SSreg是正相關(guān)關(guān)系。SSreg大則F大，F(xiàn)大則SSreg大，x跟y就具有更顯著相關(guān)關(guān)系。而在ei服從均值為0且相互獨(dú)立的前提假設(shè)下，統(tǒng)計(jì)上容易證明，如果β1=0，那么F將服從f分布：F～F（1，n-2），其中n為樣本點(diǎn)個(gè)數(shù)[4]，可以通過查表查到F將在99%概率下不會(huì)超過多少，記為F（0.01;1，n），若通過觀測(cè)值帶入得出的F比該值還要大，則說明“幾乎不可能的事情”（1%概率）發(fā)生了，也就是說β1=0這個(gè)假設(shè)是錯(cuò)的，由此簡(jiǎn)單線性模型擬合程度較高。

通過F檢驗(yàn)驗(yàn)證回歸模型是否合理，就是通過對(duì)比實(shí)際算出的F值和查表得出的F（0.01;1，n）值，若F> F（0.01;1，n），那我們說在p值為0.01的情況下模型顯著，反之則不顯著。

P值是在β1=0為真的情況下，F(xiàn)值比觀察值更大的條件概率。一般以0.1、0.01、0.05作為評(píng)判標(biāo)準(zhǔn)，若p值小于這些值，則說明相應(yīng)的系數(shù)顯著不為0。

1.3.2 測(cè)定系數(shù)：R2

測(cè)定系數(shù)R2定義為R2=■

通過公式可以推算出SYY=SSreg+RSS，統(tǒng)計(jì)上一般用一個(gè)變量的方差來代表這個(gè)變量本身所承載的信息量，上式中SYY就是Y的方差，由關(guān)系式可知它由RSS和SSreg兩部分組成，如前所述SSreg代表加入x的線性項(xiàng)之后模型殘差的減少量，可以理解為Y的信息中可由x的線性關(guān)系解釋的部分，而RSS則是除去這部分之后的非線性以及統(tǒng)計(jì)誤差的部分。

因此，測(cè)定系數(shù)R2越大，則說明回歸所承載的y的信息量就越大，也越能表示回歸模型的真實(shí)性。

2.簡(jiǎn)單線性回歸的R語言應(yīng)用

R語言是一種有強(qiáng)大統(tǒng)計(jì)計(jì)算和繪圖功能的數(shù)據(jù)分析軟件，由一個(gè)強(qiáng)大的專門的研究型社區(qū)維護(hù)，R語言中有很多開源的數(shù)據(jù)包可供直接調(diào)用。R語言中通常用lm（）函數(shù)回歸進(jìn)行線性回歸[5]，用法為：lm（formula，data），其中formula要擬合的模型，用“～”連接，對(duì)于簡(jiǎn)單線性回歸來說，假設(shè)x、y分別為自變量、因變量，則formula為y～x，data為用于擬合的數(shù)據(jù)。

輸出結(jié)果示例如下：

在Estimate下的兩個(gè)值即分別β0與β1，而后面的“？鄢”則表示與之對(duì)應(yīng)的回歸系數(shù)顯著不為0的p值所代表的顯著性，“？鄢”越多則越顯著，得出的系數(shù)就越有效。Multiple R-squared即測(cè)定系數(shù)R2，F(xiàn)-statistic即F檢驗(yàn)，后面的p-value即對(duì)應(yīng)的p值，可將之與0.01或0.05等進(jìn)行比較，若更小，則說明擬合較優(yōu)。示例圖中表示，F(xiàn)檢驗(yàn)下，擬合程度很好，但R2并不高，應(yīng)對(duì)模型進(jìn)行適當(dāng)改進(jìn)再進(jìn)行擬合。

參考文獻(xiàn)：

[1]于忠義.高爾頓發(fā)現(xiàn)相關(guān)與回歸的歷史回顧與反思[J].統(tǒng)計(jì)與信息論壇，2009，24：17-25

[2]邵鴻翔.線性回歸方法在數(shù)據(jù)挖掘中的應(yīng)用和改進(jìn)[J].統(tǒng)計(jì)與決策，2012，14：76-80

[3]田生昌.最小二乘法的統(tǒng)計(jì)學(xué)原理及在農(nóng)業(yè)試驗(yàn)分析中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí)，2015，45：124-133

[4]S.Weisberg.應(yīng)用線性回歸[M].北京：中國(guó)統(tǒng)計(jì)出版社，1998：15-20

[5]Robert I.Kabacoff.R語言實(shí)戰(zhàn)[M].北京：人民郵電出版社，2013：161-163