曹玉茹
(上海對外經(jīng)貿(mào)大學(xué) 統(tǒng)計與信息學(xué)院,上海 201620)
在統(tǒng)計學(xué)中,線性回歸是利用最小平方函數(shù)對一個或多個自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。這種函數(shù)是一個或多個稱為回歸系數(shù)的模型參數(shù)的線性組合。只有一個自變量的情況稱為簡單回歸,大于一個自變量情況的叫做多元回歸。
線性回歸模型經(jīng)常用最小二乘逼近來擬合,但線性回歸的前提條件無法滿足時,也可能用別的方法來擬合。線性回歸雖然有廣泛的使用,但其適用條件也非常嚴(yán)格,很多時候大家在使用線性回歸時并未過多考慮其條件是否滿足,因此估計量不具備最佳線性無偏特性,從而可能造成預(yù)測準(zhǔn)確度不夠,甚至于出現(xiàn)錯誤的預(yù)測,尤其在多元回歸中,隨著自變量的數(shù)量增加,擬合優(yōu)度調(diào)整的R2也會增大[1],但很有可能是由于自變量的自相關(guān)性造成的偽回歸導(dǎo)致的結(jié)果,而并非就說明模型擬合程度好。且如果殘差為異方差序列,則在不同的X取值處,Y的實(shí)際分散程度不同,則回歸線的預(yù)測在不同的X點(diǎn)準(zhǔn)確度不同,回歸預(yù)測效果不穩(wěn)定,或者說此時在不同的X水平,其與Y的關(guān)系是有很大差別的,無法用單一的回歸方程去預(yù)測Y。此時的回歸分析可能失效,從而無法進(jìn)行準(zhǔn)確的預(yù)測問題。如何得到相對準(zhǔn)確的、穩(wěn)定的預(yù)測模型是學(xué)者們一直致力研究的問題。然而最基本的問題當(dāng)然是必須要滿足以下的回歸分析的基本條件:(1)自變量與因變量間存在線性關(guān)系。(2)殘差序列獨(dú)立。(3)殘差分布是均值為0的正態(tài)分布。(4)殘差序列是方差齊性的。本文通過具體的示例主要圍繞著回歸分析條件檢驗(yàn)方法及其相關(guān)的處理方法展開研究,著重研究異方差的檢驗(yàn)方法及其應(yīng)對措施。
由文獻(xiàn)[2]可知,無論自變量x取怎樣的值,對應(yīng)殘差的方差都應(yīng)該相等,他不應(yīng)隨解釋變量或被解釋變量的取值的變化而變化,否則就出現(xiàn)了異方差現(xiàn)象。當(dāng)存在異方差時,參數(shù)的最小二乘估計不再是最小方差的無偏估計,不再是有效性估計;容易導(dǎo)致回歸系數(shù)顯著性檢驗(yàn)的t值偏高,從而容易拒絕原假設(shè),使那些不該保留的變量保留下來了,使得最終模型的預(yù)測偏差較大。下面通過具體的示例來說明異方差的檢驗(yàn)方法。
本文利用SPSS自帶的數(shù)據(jù)polishing.sav為例分析說明產(chǎn)品半徑能否預(yù)測產(chǎn)品拋光時間問題。首先用線性回歸做散點(diǎn)圖及簡單線性回歸,并對殘差做進(jìn)一步檢驗(yàn)得到結(jié)果見圖1、圖2所示。
圖1 加擬合線的散點(diǎn)圖
圖2 殘差的自相關(guān)、偏自相關(guān)函數(shù)圖
表1 模型匯總表b
表2 方差分析表b
表3 系數(shù)a(回歸統(tǒng)計表)
線性回歸,結(jié)果見表1至表3所示,結(jié)果表明:產(chǎn)品半徑確實(shí)對拋光時間產(chǎn)生影響顯著影響,雖然擬合優(yōu)度不高,但回歸方程及回歸系數(shù)的顯著性都通過檢驗(yàn);而且通過散點(diǎn)圖可知單個產(chǎn)品對象的擬合效果很不錯,甚至R2達(dá)到0.876,因此有理由進(jìn)一步具體分析變量半徑和拋光時間之間存在的關(guān)系。由簡單線性回歸得到產(chǎn)品半徑與拋光時間的回歸方程為:
從前面的分類散點(diǎn)圖可以看出,這個方程預(yù)測準(zhǔn)確度可能有問題,而且總體的擬合優(yōu)度0.49也不是很高。因此本文考慮做進(jìn)一步的分析。
鑒于前面提到的回歸模型的適用條件要求殘差具備正態(tài)性、獨(dú)立性和方差齊性的特點(diǎn)??紤]到可能是回歸的適用性條件不滿足造成的回歸方程有問題。一方面通過SPSS回歸分析自帶的DW參數(shù)(本例中為1.858)初步判斷殘差獨(dú)立,進(jìn)一步利用時間序列分析工具[3]得到殘差的自相關(guān)函數(shù)圖(見圖2)基本可以認(rèn)為殘差是獨(dú)立的;再通過非參數(shù)檢驗(yàn)單樣本K-S檢驗(yàn),K-S統(tǒng)計量對應(yīng)的伴隨概率明顯大于0.05基本斷定殘差是正態(tài)分布的,結(jié)果如表4所示。
表4 單樣本K-S檢驗(yàn)
至此,回歸分析的前三個條件是得到滿足了,但為什么回歸分析的結(jié)果不滿意呢,很可能第四個條件出問題了。根據(jù)預(yù)測值的殘差分布圖發(fā)現(xiàn)殘差可能存在異方差現(xiàn)象,進(jìn)一步根據(jù)殘差和預(yù)測變量的等級相關(guān)檢驗(yàn)結(jié)果[4]說明確實(shí)存在異方差現(xiàn)象,等級相關(guān)檢驗(yàn)的具體方法是先求出殘差和預(yù)測變量,將殘差求絕對值后和預(yù)測變量一起轉(zhuǎn)成秩變量,再利用SPSS相關(guān)分析求出Speaman等級相關(guān)系數(shù)。
結(jié)果表明:由伴隨概率值sig=.001<0.05得出,殘差的秩和預(yù)測值的秩之間存在顯著的相關(guān)性,也即進(jìn)一步證明殘差確實(shí)存在顯著異方差現(xiàn)象,檢驗(yàn)見圖3所示。
圖3 殘差的異方差檢驗(yàn)
其中圖3表示回歸的標(biāo)準(zhǔn)化預(yù)測值與標(biāo)準(zhǔn)化殘差的散點(diǎn)圖,表5為等級相關(guān)分析的分析結(jié)果。
表5 等級相關(guān)分析結(jié)果
至此得到上面的回歸模型違背了基本的適用條件,原來的回歸方程(公式1)可能無法準(zhǔn)確的預(yù)測結(jié)果,需要重新構(gòu)建回歸模型。
上面的回歸模型的失效原因是異方差造成的,進(jìn)一步如何去除回歸中的異方差現(xiàn)象呢?利用SPSS軟件中的加權(quán)最小二乘法估計法得到回歸加權(quán)變量,再利用加權(quán)變量完成回歸分析的方法,可以大大緩解殘差的異方差現(xiàn)象,從而得到較為精確的回歸模型。根據(jù)文獻(xiàn)[5],可以先對解釋變量實(shí)施方差穩(wěn)定變換后再進(jìn)行回歸參數(shù)的估計,本文嘗試?yán)肧pss中的加權(quán)回歸得到加權(quán)變量,再利用加權(quán)變量作為回歸分析中的加權(quán)最小二乘變量得到新的加權(quán)回歸模型(公式2)及其對應(yīng)的檢驗(yàn)結(jié)果如下:
Time=0.691+3.208*diam (2)
經(jīng)過加權(quán)回歸分析,結(jié)果見表6至表8所示。結(jié)果表明:雖然擬合優(yōu)度有些許降低,但估計的標(biāo)準(zhǔn)誤差降低非常明顯;且回歸方程及回歸系數(shù)的顯著性均通過檢驗(yàn);殘差的自相關(guān)函數(shù)圖(見圖4)基本可以認(rèn)為殘差是獨(dú)立的;通過非參數(shù)檢驗(yàn)單樣本K-S檢驗(yàn),K-S統(tǒng)計量對應(yīng)的伴隨概率明顯大于0.05基本斷定殘差是正態(tài)分布的,結(jié)果如表9所示。
表6 模型匯總表
表7 方差分析表
表8 回歸統(tǒng)計表
利用加權(quán)變量得到新的殘差和新的預(yù)測變量,將殘差求絕對值后和預(yù)測變量一起轉(zhuǎn)成秩變量,再利用相關(guān)分析求出Speaman等級相關(guān)系數(shù),由伴隨概率值sig>0.05得出,相關(guān)性不顯著,即殘差的異方差現(xiàn)象確實(shí)消除,檢驗(yàn)見圖5、表10所示。
圖4 新模型殘差的自相關(guān)、偏自相關(guān)函數(shù)圖
表9 單樣本Kolmogorov-Smirnov檢驗(yàn)
圖5 異方差檢驗(yàn)
表10 異方差檢驗(yàn)(等級相關(guān)分析)表
表示加權(quán)后的標(biāo)準(zhǔn)化預(yù)測值和標(biāo)準(zhǔn)化殘差。
鑒于以上分析,新的模型通過了回歸分析的異方差條件檢驗(yàn),且估計誤差大大縮小,新的模型可能相比原先的模型更適合進(jìn)行預(yù)測分析使用。
又通過SPSS的探索性分析得到time變量的樣本數(shù)據(jù)分布非正態(tài),見表11所示。
表11 正態(tài)性檢驗(yàn)結(jié)果
因此可以先進(jìn)行正態(tài)化處理[6]后再進(jìn)行回歸分析,結(jié)果見下頁表12、表13所示。
其他過程如上面的加權(quán)處理過程,此處省略,結(jié)果發(fā)現(xiàn):模型估計誤差進(jìn)一步縮小,擬合優(yōu)度也有所改善,效果可以更好。
表12 正態(tài)化之后的回歸結(jié)果(模型匯總b,c)
表13 三種模型估計指標(biāo)匯總對比
雖然估計誤差得到改善,而且回歸條件也都通過檢驗(yàn),但是擬合優(yōu)度還是不盡如人意,究其原因,可以發(fā)現(xiàn)在本文開頭的散點(diǎn)圖中可能不同類別的產(chǎn)品拋光時間的變化是不相同的,因此,本文考慮分別討論不同種類對象的回歸情況。SPSS中可以通過拆分文件再分析的方法得到分析結(jié)果,結(jié)果如表14。
表14 模型摘要表
顯然,不同類別的對象其回歸結(jié)果差異很大,對于產(chǎn)品Casserole和Plate非常不適合使用半徑來預(yù)測其拋光時間,而Tray卻效果非常好,相應(yīng)的檢驗(yàn)也都能通過,此處不再贅述。
回歸分析廣泛應(yīng)用于計量經(jīng)濟(jì)和金融數(shù)據(jù)分析領(lǐng)域,主要用來對各種經(jīng)濟(jì)現(xiàn)象和金融現(xiàn)象進(jìn)行預(yù)測,雖然對于回歸模型的檢驗(yàn)有很多指標(biāo)和方法,但回歸模型的前提條件是否滿足可能會直接導(dǎo)致模型的準(zhǔn)確性,因此為了得到更加優(yōu)化、合理的回歸模型進(jìn)行預(yù)測,本文從回歸模型的適用性條件是否滿足入手,借助于各種常規(guī)檢驗(yàn)方法并結(jié)合時間序列中的自相關(guān)和偏自相關(guān)函數(shù)圖示對實(shí)際案例中的回歸適用性條件給出了新的檢驗(yàn)方法,并利用SPSS軟件中的加權(quán)最小二乘工具得到回歸中的權(quán)重變量,消除了回歸模型中的異方差,進(jìn)一步修正了原來的回歸模型,并結(jié)合SPSS中的分類散點(diǎn)圖技術(shù)為原來的分析尋求到一個更加合適的回歸模型。