亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

相關(guān)系數(shù)與相關(guān)指數(shù)的產(chǎn)生和關(guān)系

2018-03-28 08:02:08馬錦赫

速讀·下旬 2018年3期

由偏差平方和分解公式我們知道，殘差平方和越小，回歸平方和就越大，回歸變量[y]（亦即解釋變量x）對預(yù)報變量y的貢獻就越大，用回歸變量[y]作為預(yù)報變量y的估計值就越準確，從而x與y的線性相關(guān)性就越強。在偏差平方和分解公式的兩邊同除以[i=1n（y1-y）]2，我們得到：

[i=1n（yi-yi）2i=1n（yi-y）2]+[i=1n（yi-y）2i=1n（yi-y）2]=1。

等式左邊第一項是隨機誤差ε對預(yù)報變量的貢獻率，第二項是回歸變量[y]（亦即解釋變量x）對預(yù)報變量y的貢獻率。記：

[R2=i=1n（yi-y）2i=1n（yi-y）2]=1-[i=1n（yi-y）2i=1n（yi-y）2]。

[R2]叫做相關(guān)指數(shù)。

學(xué)習(xí)《數(shù)學(xué)（選修）》，感覺相關(guān)系數(shù)與相關(guān)指數(shù)是兩大難點，只要突破這兩點，線性回歸的學(xué)習(xí)就容易多了。本文沿著課本上用最小二乘法求線性回歸方程的系數(shù)的推導(dǎo)做下去，揭示相關(guān)系數(shù)與相關(guān)指數(shù)的來龍去脈和它們的關(guān)系。

已知n組數(shù)據(jù)[xi，yi]，[i=1，2，3，…，n]，設(shè)線性回歸模型為：[y=y+ε]。其中[y=a+bx]，將這n組數(shù)據(jù)代入回歸模型得：

[yi=yi+εi]，[i=1，2，3，…，n]，其中[yi=a+bxi]。

殘差平方和[Qa，b]=[i=1nε2i]=[i=1n（yi-yi）2]=[i=1n（yi-a-bxi）2]。

記[x=1ni=1nxi]，[y=1ni=1nyi]，則

[Qa，b]=[i=1nyi-y+y-a+bx-bxi-x2]

=[i=1nyi-y2]+[ny-a+bx2]+[b2i=1n（xi-x）2]

+[2y-a+bx·i=1nyi-y-2by-a+bx·i=1nxi-x]

-[2bi=1nxi-xyi-y]，

其中，[2y-a+bx·i=1nyi-y-][2by-a+bx·i=1nxi-x]

=[2y-a+bxi=1nyi-y-bxi+bx]

=[2y-a+bxi=1nyi-bxi-y-bx]

=[2y-a+bxi=1nyi-bxi-ny-bx]=0

所以，[Qa，b]

=[i=1nyi-y2+ny-a+bx2+b2i=1nxi-x2-2bi=1nxi-xyi-y]

=[i=1nyi-y2+ny-a+bx2+i=1nxi-x2b2-2bi=1nxi-xyi-yi=1nxi-x2]

=[i=1nyi-y2+ny-a+bx2+i=1nxi-x2b-i=1nxi-xyi-yi=1nxi-x22]

[-i=1nxi-xyi-y2i=1nxi-x2]。

由于[xi，i=1，2，3，…，n]這n個數(shù)據(jù)一般不會相等（否則這n對數(shù)據(jù)已經(jīng)在一條平行于y軸的直線上了，再求回歸直線已失去意義），所以

[i=1nxi-x2≠0]

觀察上面最后的表達式，其中[yi，y，n，x，xi]都是常數(shù)，而含a，b的兩項是非負數(shù)，當且僅當它們等于0時，[Qa，b]取最小值，這就是說，當

[b=i=1nxi-xyi-yi=1nxi-x2]，[a=y-bx]

時[Qa，b]達到最小值。

以上是課本上利用最小二乘法求線性回歸方程系數(shù)的過程。我們沿著這個思路繼續(xù)下去，就能得到相關(guān)系數(shù)和相關(guān)指數(shù)。

一、相關(guān)系數(shù)r的產(chǎn)生

由上面的推導(dǎo)可知，在[b=i=1nxi-xyi-yi=1nxi-x2]，[a=y-bx]

時，[Qa，b]達到最小值，最小值為

[m=i=1nyi-y2-i=1nxi-xyi-y2i=1nxi-x2]=

[i=1nyi-y2[1-i=1nxi-xyi-y2i=1nxi-x2i=1nyi-y2]

記[r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2]，則[m=i=1nyi-y21+r2]。

m的值就是殘差平方和的最小值，m的大小就能描述變量[x，y]的線性相關(guān)的程度，m越小，變量[x，y]的線性相關(guān)程度就越強，m越大，變量[x，y]的線性相關(guān)程度就越弱，但是，m是一個有單位的量，同時m的值受樣本容量的影響很大，為了使不同的樣本和不同的樣本容量的數(shù)據(jù)有一個統(tǒng)一的評判標準，我們選擇r來刻畫變量[x，y]的線性相關(guān)程度，r叫做相關(guān)系數(shù)，它是一個沒有單位的量，并且無論樣本容量多大，總有[-1≤r≤1]，所以，用r來描述變量[x，y]的線性相關(guān)程度顯得更方便一些[∣r∣]。越大，m的值就越小，兩個變量的線性相關(guān)性就越強，[∣r∣]越小，m的值就越大，兩個變量的線性相關(guān)性就越弱，通常，當[∣r∣>0.75]時認為兩個變量有很強的線性相關(guān)關(guān)系，當[0.30≤∣r∣<0.75]時認為兩個變量相關(guān)性一般，而當[∣r∣<0.30]時認為兩個變量不具有線性相關(guān)性。

由m與r的關(guān)系式我們還可以得到：因為[m≥0]，[i=1nyi-y2≥0]，所以[1-r2≥0]，所以，[∣r∣≤1]。由此可以得出著名的柯西不等式。

若[∣r∣=1]，則[m=0]，樣本數(shù)據(jù)[xi，yi，i=1，2，3，…，n]全部落在直線[y=a+bx]上，這時變量x，y的關(guān)系已經(jīng)不是相關(guān)關(guān)系而是函數(shù)關(guān)系。所以，函數(shù)關(guān)系是相關(guān)關(guān)系的一種極限狀態(tài)，是一種特殊的相關(guān)關(guān)系。

由r和b的表達式我們得到r和b的關(guān)系式：[bi=1nxi-x2=ri=1nyi-y2]，由此看到，r和b的符號是相同的，當r>0時，b>0，[y=a+bx]是增函數(shù)，所以x與y是正相關(guān)關(guān)系，當r<0時，b<0，[y=a+bx]是減函數(shù)，所以x與y是負相關(guān)關(guān)系。

二、相關(guān)指數(shù)R2的產(chǎn)生

由上面的推導(dǎo)可知，殘差平方和的最小值[m=i=1nεi2=i=1nyi-y2=i=1nyi-y21-r2=i=1nyi-y2-r2i=1nyi-y2][=i=1nyi-y2-b2i=1nxi-x2=i=1nyi-y2-i=1nbxi-bx2=i=1nyi-y2][-i=1na+bxi-a+bx2=i-1nyi-y2-i=1nyi-y2]，

即：[i=1nyi-y2=i=1nyi-yi2+i=1nyi-y2]。

這個公式叫做偏差平方和分解公式，我們對它的統(tǒng)計意義作一點分析。

在一元線性回歸模型[y=y+ε=a+bx+ε]中，預(yù)報變量y值的變化效應(yīng)由回歸變量[y]（即解釋變量x）和隨機誤差ε共同決定。我們知道，描述一個隨機變量的變化、分散程度的量是這個隨機變量的方差，我們用隨機變量的樣本方差估計它的方差。

預(yù)報變量y的樣本方差為[1ni=1nyi-y2]，其中[i=1nyi-y2]叫做總偏差平方和。

下面我們來求隨機誤差ε的樣本方差。由上面的推導(dǎo)可知，[y=a+bx+ε]，并且[y=a+bx]，所以，[ε]=0，即隨機誤差ε的樣本均值為零，所以，由樣本方差的定義得[σ2=1ni=1nεi2]，所以，隨機誤差ε的樣本方差為[1ni=1nεi2]，其中[i=1nεi2=i=1nyi-yi2]就是殘差平方和。

我們來看[i=1nyi-yi2]：因為[1ni=1nyi=1ni=1na+bx][=a+b1ni=1nxi][=a+bx=y]，所以[y]不僅是預(yù)報變量y的樣本均值，也是回歸變量[y]的樣本均值，所以[1ni=1nyi-y2]就是回歸變量[y]的樣本方差，我們把[i=1nyi-y2]叫做回歸平方和。所以，偏差平方和分解公式的意思就是：

總偏差平方和=回歸平方和+殘差平方和。

偏差平方和分解公式精確的刻畫了這樣一個事實：預(yù)報變量y變化的總效應(yīng)是由回歸變量[y]（即解釋變量x）與隨機誤差ε的變化效應(yīng)的和決定的。

由偏差平方和分解公式我們知道，殘差平方和越小，回歸平方和就越大，回歸變量[y]（亦即解釋變量x）對預(yù)報變量y的貢獻就越大，用回歸變量[y]作為預(yù)報變量y的估計值就越準確，從而x與y的線性相關(guān)性就越強。在偏差平方和分解公式的兩邊同除以[i=1nyi-y2]，我們得到：

[i=1nyi-yi2i=1nyi-y2+i=1nyi-yi2i=1nyi-y2=1]

等式左邊第一項是隨機誤差ε對預(yù)報變量y的貢獻率，第二項是回歸變量[y]（亦即解釋變量x）對預(yù)報變量y的貢獻率。記

[R2=i=1nyi-y2i=1nyi-y2=1-i=1nyi-yi2i=1nyi-y2]

定義：[R2]叫做相關(guān)指數(shù)。

顯然有[R2≤1]，[R2]表達的是回歸變量[y]（即解釋變量x）對預(yù)報變量y的貢獻率，[R2]越大，即回歸平方和越大，殘差平方和就越小，表明回歸變量[y]（即解釋變量x）對預(yù)報變量y的貢獻率就越大，這也就表明了變量x，y的線性相關(guān)程度越強。[R2]越小，即回歸平方和越小，殘差平方和就越大，表明回歸變量[y]（即解釋變量x）對預(yù)報變量y的貢獻率就越小，這也就表明了變量x，y的線性相關(guān)程度越弱，所以，用[R2]的大小可以檢驗變量x，y的線性相關(guān)程度的強弱。

三、相關(guān)系數(shù)與相關(guān)指數(shù)的關(guān)系

定理：[R2=r2]。其中r是相關(guān)系數(shù)，[R2]是相關(guān)指數(shù)。

證法一：[m=i=1nyi-yi2][=i=1nyi-y21-r2r2=][1-i=1nyi-yi2i=1nyi-y2][=i=1nyi-y2i=1nyi-y2=R2]。

證法二：

因為當[∣r∣>0.75]時認為兩個變量有很強的線性相關(guān)關(guān)系，所以，一般認為當[R2>0.752=0.5625]時，認為兩個變量有很強的線性相關(guān)關(guān)系。

用相關(guān)系數(shù)r和相關(guān)指數(shù)[R2]檢驗兩個變量的線性相關(guān)性各有優(yōu)缺點，由于相關(guān)指數(shù)表示解釋變量x對預(yù)報變量y的貢獻率，所以用相關(guān)指數(shù)

進行檢驗，顯得直觀一些，但是相關(guān)指數(shù)[R2]的計算需要先求出線性回歸方程，計算它太麻煩，一旦兩個變量不線性相關(guān)，求出的線性回歸方程就變得毫無意義。用相關(guān)系數(shù)r進行檢驗，只需用原始的數(shù)據(jù)，顯得更方便一些，如果經(jīng)檢驗兩個變量不線性相關(guān)，就不必求回歸方程了，免得走彎路。

上面借助最小二乘法論述了相關(guān)系數(shù)和相關(guān)指數(shù)是怎樣產(chǎn)生的，揭示了這兩個量的來龍去脈，同時打通了回歸系數(shù)b，相關(guān)系數(shù)r和相關(guān)指數(shù)[R2]的關(guān)系，即：

[b=i=1nxi-xyi-yi=1nxi-x2?ri=1nyi-y2=bi=1nxi-x2]

[?i=1nyi-yi2?i=1nyi-y21-r2?i=1nxi-x2][=i=1nyi-yi2+i=1nyi-y2?R2=r2]。

指導(dǎo)教師點評：線性回歸內(nèi)容是從大學(xué)教材上下放下來的，在下放的過程中，原有的知識體系和原有的邏輯被打破了，這些下放的知識不能只是一放了之，必須重新整合，新舊知識要加以熔合和整改，重塑新的知識體系和邏輯體系，只有這樣，才能被中學(xué)生接受，否則，中學(xué)生對這些知識的學(xué)習(xí)必成夾生飯，對學(xué)生的發(fā)展，對中學(xué)數(shù)學(xué)教學(xué)是無益的。有鑒如此，本文作者在這方面所做的努力和嘗試，是值得肯定的。

參考文獻

[1]高中數(shù)學(xué)2-3（A版）[M].人民教育出版社，2016.

[2]高中數(shù)學(xué)2-3（B版）[M].人民教育出版社，2016.

[3]劉婉如，徐信之.概率與統(tǒng)計[M].高等教育出版社，2010.

作者簡介

馬錦赫（1999.09—），男，漢族，北京市海淀區(qū)，現(xiàn)就讀于中國人民大學(xué)附屬中學(xué)分校高三4班，在學(xué)習(xí)上喜歡獨立思考。