丁 勇
(南京醫(yī)科大學(xué)康達(dá)學(xué)院 理學(xué)部,江蘇 連云港 222000)
回歸和相關(guān)是統(tǒng)計學(xué)研究的重要內(nèi)容,也是在實際問題中得到廣泛應(yīng)用的統(tǒng)計方法[1-4]。原始數(shù)據(jù)的獲得,由于各種原因,或多或少的帶有一些誤差,這些誤差會導(dǎo)致數(shù)據(jù)的波動,從而對計算結(jié)果產(chǎn)生一定的干擾,當(dāng)數(shù)據(jù)量龐大、計算過程較復(fù)雜時,這些干擾會相互影響、傳播到下一步。因此,分析數(shù)據(jù)波動對結(jié)果的影響,尋找更穩(wěn)健的算法,減少數(shù)據(jù)波動帶來的干擾,使結(jié)果更客觀準(zhǔn)確、分析更可靠,是一個值得研究的課題[5],特別是在大數(shù)據(jù)時代的今天。經(jīng)典的最小二乘法、最小一乘法以及各種加權(quán)法,本質(zhì)上就是從不同的角度出發(fā),探討如何盡可能地減少數(shù)據(jù)波動的影響[6-9]。本文就最常用的直線回歸和相關(guān)問題探討因變量數(shù)據(jù)波動的影響,發(fā)現(xiàn)其中的規(guī)律性。
設(shè) 有 一 組 觀 察 數(shù) 據(jù)x=(x1,x2,…,xn)、y=(y1,y2,…,yn),將x作為自變量,y作為因變量,擬合直線回歸方程y=a+bx,則由最小二乘法可得[8,9]:斜率截距a=yˉ-bxˉ以 及 相 關(guān) 系 數(shù)其 中為自變量的離均差平方和為因變量的離均差平方和,為離均差積和。
在統(tǒng)計學(xué)中,回歸和相關(guān)是緊密聯(lián)系的兩個部分。當(dāng)因變量的數(shù)據(jù)有波動時,因變量的值會隨之改變,下面討論yj的改變對回歸直線和相關(guān)的影響。
函數(shù)在某一點的導(dǎo)數(shù)描述了這個函數(shù)在這一點附近的變化率,因此,可用求導(dǎo)數(shù)的方法,探討某個因變量yj的數(shù)據(jù)波動對斜率、截距和相關(guān)系數(shù)的影響。對相關(guān)問題,本文更關(guān)心的是兩個變量之間的相關(guān)程度|r|,但由于對絕對值求導(dǎo)數(shù)不方便,故而考慮r2,因為當(dāng)r的絕對值變大(?。r,r2也變大(?。.?dāng)lxy=0時,b=0,r=0,此時直線和相關(guān)都沒有什么意義,所以不考慮lxy=0的情況。
所以:
引理1[10]:Cauchy不等式:為任意實數(shù)(i=1,2,…,n),等號當(dāng)且僅當(dāng)ai與bi對應(yīng)成比例時成立。
從而,當(dāng)xj≠xˉ時:
由定理1可得如下3個性質(zhì)。
性質(zhì)1:當(dāng)xj<xˉ時,b隨著yj的增大(減?。┒鴾p?。ㄔ龃螅划?dāng)xj=xˉ時,b不受yj的大小影響;當(dāng)xj>xˉ時,b隨著yj的增大(減?。┒龃螅p小)。
數(shù)理統(tǒng)計已證明[8,9],回歸直線經(jīng)過點 (xˉ,yˉ)。
由公式(1)可得性質(zhì)1,性質(zhì)1的幾何意義為:在自變量樣本均數(shù)xˉ這一點,函數(shù)值波動對斜率沒有影響,從來看,也是顯然的,當(dāng)時與yj無關(guān);該點的函數(shù)值增加(減少)時,回歸直線平行地上(下)移。在其左邊的點,函數(shù)值的增大(減?。⑹剐甭首冃。ù螅?;在其右邊的點,函數(shù)值的增大(減小)將使斜率變大(?。?。
性質(zhì)2:當(dāng)xˉ=0時,a隨著yj(j=1,2, …,n)的增大(減少)而增大(減少);當(dāng)時,a不受yj的大小影響;如果xˉ<0 ,則當(dāng)時,a隨著yj的增大(減?。┒龃螅p小);當(dāng)時,a隨著yj的增大(減?。┒鴾p?。ㄔ龃螅?;如果xˉ>0,則當(dāng)時,a隨著yj的增大(減?。┒鴾p?。ㄔ龃螅?;當(dāng)時,a隨著yj的增大(減小)而增大(減?。?。
由公式(3)可得性質(zhì)3。當(dāng)xj≠xˉ時,由公式(4)、公式(5)可得性質(zhì)3的幾何解釋:將經(jīng)過兩點 (xˉ,yˉ)、(xj,yj)的直線斜率與確定值進(jìn)行比較,或者將回歸直線的斜率b與斜率的比值,與相關(guān)系數(shù)的平方r進(jìn)行比較,可以判斷相關(guān)系數(shù)如何受函數(shù)值的影響。例如,當(dāng)時,在左邊的函數(shù)值增大(減少)將使相關(guān)系數(shù)的絕對值減小(增大)。
定理2:
由r與b的計算公式可知,r、b都與lxy同號,所以不等式(6)和式(7)幾何意義說明,以下4種情況的因變量的數(shù)據(jù)波動,在不超過回歸直線的情況下,可以提高數(shù)據(jù)的相關(guān)性:
①正相關(guān)(lxy>0),在xˉ左邊、回歸直線上面的點向下移動;
②正相關(guān)(lxy>0),在xˉ右邊、回歸直線下面的點向上移動;
③負(fù)相關(guān)(lxy<0),在xˉ左邊、回歸直線下面的點向上移動;
④負(fù)相關(guān)(lxy<0),在xˉ右邊、回歸直線上面的點向下移動。
特別若r2≈1時,如果yj<a+bxj,則:
類似可知,如果yj>a+bxj,則
由公式(3)可知,當(dāng)相關(guān)系數(shù)較大時,在回歸直線下面的點向上移動或回歸直線上面的點向下移動(不超過回歸直線),都可以提高變量的相關(guān)性。
為驗證性質(zhì)1至性質(zhì)3,本文構(gòu)造自變量包含xˉ和數(shù)據(jù)。在引理中,取ai=xi,bi=1,可知這兩個數(shù)的大小關(guān)系為:如果xˉ<0 ,則如果0 ,則
記x=(x1,x2,…,xn-2,xn-1,xn),不妨設(shè)x1,x2,…,xn-2(n>2)已知,令xn-1=xˉ,則有:
解一元二次方程得:
將得到的xn-1代入式(8)可得相應(yīng)的xn。
取x1,x2,x3,x4為一組正數(shù)1,4,7,10,為使x5,x6也為正數(shù),式(9)的開方取正號(取負(fù)號也行,可以得到另外一組數(shù)據(jù))。按公式(8)和公式(9),得到表1的一組x數(shù)據(jù)(數(shù)據(jù)重新按從小到大排序),再取一組y數(shù)據(jù)(見表1),由這批數(shù)據(jù)可求出:xˉ=5.8375,yˉ=22.1667,lxx=47.2776,7.1873,r=0.9733,b=3.5891,a=1.2152。
表1 數(shù)據(jù)計算
表1的散點圖和回歸直線如圖1所示,已知回歸直線經(jīng)過中心點(xˉ,yˉ)(圖1中“○”),當(dāng)某個yj有微小的波動時,近似認(rèn)為對yˉ沒有影響。對于xj<xˉ的情況,如果yj變大,可以看成回歸直線圍繞中心點在左邊向上升,從而直線的斜率變??;如果yj變小,此時回歸直線圍繞中心點在左邊向下降,從而直線的斜率變大;對xj>xˉ有類似的結(jié)果,這與性質(zhì)1是相符的。
圖1 直線回歸圖
一般的直觀感覺認(rèn)為,當(dāng)數(shù)據(jù)點向回歸直線靠近時,變量的相關(guān)性會提高(相關(guān)系數(shù)絕對值增大),但事實并非完全如此。定理2證明了4種情況下這個結(jié)論是正確的,而另外4種情況(正相關(guān)、在左邊、回歸直線下面的點向上移動,正相關(guān)、在xˉ右邊、回歸直線上面的點向下移動,負(fù)相關(guān)、在xˉ左邊、回歸直線上面的點向下移動,負(fù)相關(guān)、在xˉ右邊、回歸直線下面的點向上移動)則不一定,下面通過一個例子進(jìn)行說明。
取x如表1所示,y=[0 1.1 0.5 1.6 0.6 1.7](圖2中“*”,回歸直線為虛線),此時相關(guān)系數(shù)r=0.7526,由圖2可知,y1=0(圖2中“*”)在回歸直線(圖2中虛線)下面,將y1向上移動,變?yōu)?.1(圖2中“○”),此時相關(guān)系數(shù)r=0.7350(此時的回歸直線見圖2實線),相關(guān)性反而變差了。
圖2 數(shù)據(jù)點移動對相關(guān)系數(shù)的影響
直線相關(guān)與回歸是統(tǒng)計的基礎(chǔ)內(nèi)容,其研究成果也很成熟。本文從因變量數(shù)據(jù)波動入手,深入探討了數(shù)據(jù)波動對直線相關(guān)和回歸影響的問題,挖掘出一些有價值的新信息。從公式(1)至公式(3)得到相應(yīng)的3個重要指標(biāo):自變量均值xˉ、自變量的二階原點矩與一階原點矩的比值因變量離均差平方和與離差平方和的比值這3個指標(biāo)分別對應(yīng)斜率、截距和相關(guān)系數(shù):前2個指標(biāo)值可看成閾值,通過自變量與其比較大小來判斷因變量波動對回歸影響,在這2個點,因變量波動不影響回歸直線的斜率、截距;后一個指標(biāo),要通過某個點與平均值的點的斜率與該指標(biāo)比較大小來判斷該點因變量波動對相關(guān)的影響,例如,當(dāng)時,因變量波動不影響相關(guān)系數(shù)。另一個有趣的現(xiàn)象是:兩個斜率(回歸直線的斜率與某個點與平均值點的斜率)之比與相關(guān)系數(shù)平方(r2)的大小的比較,也有同樣的效果。
3個公式的偏導(dǎo)數(shù)大小也是判斷數(shù)據(jù)波動影響大小的依據(jù),從導(dǎo)數(shù)的數(shù)學(xué)意義可知,其絕對值越大,數(shù)據(jù)波動產(chǎn)生的影響也越大,表1的實例數(shù)據(jù)也充分說明了這一點。
本文還糾正了一般的直觀感覺:認(rèn)為當(dāng)數(shù)據(jù)點向回歸直線靠近時,變量的相關(guān)性會提高,這樣的情況僅在一定的條件是正確的,本文給出了這樣的條件以及不滿足這樣條件的一個反例。
通過以上分析,使我們對因變量數(shù)據(jù)波動對直線回歸和相關(guān)的影響有了更深入的認(rèn)識。