【摘 要】采用最小二乘法配置回歸直線,把非線性擬合參數(shù)問題加以線性化,進(jìn)行參數(shù)估算,得到回歸直線實(shí)際應(yīng)用的數(shù)學(xué)模型,進(jìn)行了誤差分析,并給出了應(yīng)用的實(shí)例。
【關(guān)鍵詞】直線回歸;回歸方程;方差分析
0.引言
“回歸”是個(gè)借用已久因而相沿成習(xí)的名稱。若某一變量Y隨另一變量X的變動(dòng)而變動(dòng),則稱X為自變量,Y為因變量。這種關(guān)系在數(shù)學(xué)上被稱為Y是X的函數(shù),但在其他領(lǐng)域里,自變量與因變量的關(guān)系和數(shù)學(xué)上的函數(shù)關(guān)系有所不同。例如成年人年齡和血壓的關(guān)系,通過大量調(diào)查,看出平均收縮壓隨年齡的增長而增高,并且呈直線趨勢,但各點(diǎn)并非恰好都在直線上。為強(qiáng)調(diào)這一區(qū)別,統(tǒng)計(jì)上稱這是血壓在年齡上的回歸。
直線回歸(linear regression)是用直線回歸方程表示兩個(gè)數(shù)量變量間依存關(guān)系的統(tǒng)計(jì)分析方法,屬雙變量分析的范疇。如果某一個(gè)變量隨著另一個(gè)變量的變化而變化,并且它們的變化在直角坐標(biāo)系中呈直線趨勢,就可以用一個(gè)直線方程來定量地描述它們之間的數(shù)量依存關(guān)系,這就是直線回歸分析?;貧w分析的方法在園藝植物、醫(yī)學(xué)領(lǐng)域等的生產(chǎn)和科學(xué)研究中有著廣泛的應(yīng)用,如利用溫度或雨量的變化,預(yù)測某種園藝植物的主要物侯期 ( 萌芽、開花 ) 、產(chǎn)量、品質(zhì)以及病蟲害發(fā)生;應(yīng)用實(shí)生苗的某些性狀,預(yù)測成年樹的某些性狀等。
直線回歸分析中兩個(gè)變量的地位不同,其中一個(gè)變量是依賴另一個(gè)變量而變化的,因此分別稱為因變量(dependent variable)和自變量(independent variable),習(xí)慣上分別用y和x來表示。其中x可以是規(guī)律變化的或人為選定的一些數(shù)值(非隨機(jī)變量),也可以是隨機(jī)變量,前者稱為I型回歸,后者稱為II型回歸。
1.直線回歸方程式
將x與y兩個(gè)變數(shù)的n對觀察值(x,y),(x,y)...(x,y)分別以坐標(biāo)點(diǎn)的形式標(biāo)記于同一直角坐標(biāo)平面上,作成散點(diǎn)圖,如果這兩個(gè)變數(shù)的 n 對觀察值在散點(diǎn)圖上呈線性,則說明兩變數(shù)間的數(shù)量關(guān)系可用直線回歸方程來表示。在解析幾何上,表示一個(gè)平面上的任何直線方程的一般形式為:
=a+bx (1)
上式稱為“y依x的直線回歸方程”,x是自變量;a是x=0時(shí)y的值,也是回歸直線在y軸上的截距,叫做回歸截距(intercept);b 是回歸系數(shù)(coefficient of regression),表示x每增加一個(gè)單位,y平均將要增加 (b>0)或減少(b<0)的單位數(shù)。
要使(1)式成為實(shí)際資料的最佳線性配合,并滿足預(yù)測要求,必須使觀測值yi與回歸值偏離達(dá)到最小。當(dāng)變量x取x(i=1,2,···,n)時(shí),可以得到=bx+a(i=1,2,···,n)。它與實(shí)際收集到的yi之間的偏差是y-=y-(bx+a)(i=1,2,···,n)。
這樣,用這n個(gè)偏差的和來刻畫“各點(diǎn)與此直線的整體偏差”是比較合適的。由于(y-)可正可負(fù),為了避免相互抵消,可以考慮用
y
-代替,但由于它含有絕對值,運(yùn)算不太方便,所以改用Q=(y-a-bx)···(2)來刻畫n個(gè)點(diǎn)與回歸直線在整體上的偏差。
這樣問題就歸結(jié)為:當(dāng)a,b取什么值時(shí)Q最小,即總體偏差最小。為此分別求Q關(guān)于a,b的偏導(dǎo)數(shù),并令他們等于零:
Q(a,b)=
(y-a-bxi)(-2)=0
Q(a,b)=
(y
-a-bxi)(-2x)=0
解得
=
=
-b,其中=x,=y.
此時(shí)回歸直線為=+x。
通過求(2)式的最小值而得回歸直線的方法,即求回歸直線,使得樣本數(shù)據(jù)的點(diǎn)到它的距離的平方和最小,這一方法叫做最小二乘法。該方程是實(shí)際資料的線性最佳配合。
2.直線回歸方程式的計(jì)算
例1、測得某地10對父子身高(單位:英寸)如下:
表1
如果x與y之間具有線性相關(guān)關(guān)系,求回歸直線方程;如果父親的身高為78英寸,試估計(jì)兒子的身高。
分析:對于兩個(gè)變量,在確定具有線性相關(guān)關(guān)系后,可以利用“最小二乘法”來求回歸方程。用“最小二乘法”求回歸直線方程的關(guān)鍵在于正確地利用回歸方程中系數(shù)公式求出系數(shù),這樣回歸方程也就建立起來了。
首先根據(jù)實(shí)際觀測值計(jì)算出下列數(shù)據(jù):
=∑x/n=668/10=66.8,=∑y/n=670.1/10=67.01
L=∑x-(∑x)/n=44794-(668)/10=171.6
L=∑xy-=44842.4-=79.72
L=∑y-(∑y)/n=44941.93-(670.1)/10=38.529
b===0.465
a=-b=67.01-0.465×66.8=35.948
=35.948+0.465x
所以當(dāng)父親的身高為78英寸時(shí),估計(jì)兒子的身高約為72.2138英寸。
評注:“最小二乘法”是求回歸直線方程常用的方法,在回歸直線方程中,a,b是回歸直線方程中的系數(shù),其中b是回歸直線的斜率,表示自變量變化1個(gè)單位時(shí)因變量的平均變化值。
例2、某醫(yī)生研究兒童體重與心臟橫徑的關(guān)系,測得13名8歲正常男童的體重與心臟橫徑,數(shù)據(jù)見表。試作回歸分析。
(1)以體重作為自變量,心臟橫徑作為因變量,作散點(diǎn)圖,發(fā)現(xiàn)呈直線趨勢,可擬合直線回歸方程。在作回歸直線圖時(shí),以x變數(shù)為橫坐標(biāo),y變數(shù)為縱坐標(biāo),并標(biāo)明名稱和單位。若不是以零起始的,要在近原點(diǎn)處劃一折斷號。劃出直線圖后,應(yīng)將實(shí)際觀察各點(diǎn)標(biāo)明在圖上,且將回歸方程以及相關(guān)系數(shù)(或決定系數(shù))分別標(biāo)于直線的上方或下方。同時(shí)應(yīng)注意,繪制的回歸直線兩端不要超出x變數(shù)的取值范圍。
表2 13名8歲健康男童體重與心臟橫徑的關(guān)系
(2)求回歸方程:本例n=13, (下轉(zhuǎn)第92頁)
(上接第58頁)∑x=301.5,∑x=7072.75,∑y=116.3,
∑y=1044.63,=23.19,=8.95,∑xy=2713.65,
L=∑x-(∑x)/n=7072.75-301.5/13=80.2692,
L=∑y-(∑y)/n=1044.63-116.3/13=4.1923,
L=∑xy-(∑x)(∑y)/n=2713.65-301.5*116.3/13=16.3846,
∴b===0.2041,a=-b=8.95-0.2041*23.19=4.2121,
∵回歸方程式為=4.2121+0.2041x。
根據(jù)直線回歸方程可作出回歸直線,并不是所有的散點(diǎn)都恰好落在回歸直線上,這說明用去估計(jì)y是有偏差的。
3.應(yīng)用直線回歸的注意事項(xiàng)
(1)作回歸分析要有實(shí)際意義,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象,隨意進(jìn)行回歸分析,忽視事物現(xiàn)象間的內(nèi)在聯(lián)系和規(guī)律;如對兒童身高與小樹的生長數(shù)據(jù)進(jìn)行回歸分析既無道理也無用途。
(2)直線回歸分析的資料,一般要求應(yīng)變量Y是來自正態(tài)總體的隨機(jī)變量,自變量X可以是正態(tài)隨機(jī)變量,也可以是精確測量和嚴(yán)密控制的值。若稍偏離要求時(shí),一般對回歸方程中參數(shù)的估計(jì)影響不大,但可能影響到標(biāo)準(zhǔn)差的估計(jì),也會(huì)影響假設(shè)檢驗(yàn)時(shí)P值的真實(shí)性。
(3)進(jìn)行回歸分析時(shí),應(yīng)先繪制散點(diǎn)圖(scatter plot)。若提示有直線趨勢存在時(shí),可作直線回歸分析;若提示無明顯線性趨勢,則應(yīng)根據(jù)散點(diǎn)分布類型,選擇合適的曲線模型(curvilinear modal),經(jīng)數(shù)據(jù)變換后,化為線性回歸來解決。
(4)繪制散點(diǎn)圖后,若出現(xiàn)一些特大特小的離群值(異常點(diǎn)),則應(yīng)及時(shí)復(fù)核檢查,對由于測定、記錄或計(jì)算機(jī)錄入的錯(cuò)誤數(shù)據(jù),應(yīng)予以修正和剔除。
特別要指出的是:利用直線回歸方程進(jìn)行預(yù)測或控制時(shí),一般只適用于原來研究的范圍,不能隨意把范圍擴(kuò)大。若需要擴(kuò)大預(yù)測和控制范圍,則要有充分的理論依據(jù)或進(jìn)一步的實(shí)驗(yàn)依據(jù)。
【參考文獻(xiàn)】
[1]丁勇.直線回歸的最小面積法[J].工程數(shù)學(xué)學(xué)報(bào),2003(03).
[2]李平.非等精度測量條件下的一元線性回歸[J].大學(xué)物理實(shí)驗(yàn),2003(03).
[3]孫彥清.最小二乘法線性擬合應(yīng)注意的兩個(gè)問題[J].漢中師范學(xué)院學(xué)報(bào),2002(03).
[4]吳傳生.概率論與數(shù)理統(tǒng)計(jì).高等教育出版社,2004,7.