胡良平
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專(zhuān)業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
回歸分析是研究因變量如何依賴自變量變化而變化的規(guī)律的重要統(tǒng)計(jì)分析方法之一,然而,回歸分析的基本要素涉及兩個(gè)方面,其一,變量狀態(tài)及相互關(guān)系;其二,樣品(測(cè)定變量取值的對(duì)象)狀態(tài)及相互關(guān)系。因篇幅所限,本文僅討論前述的“第二個(gè)要素”。
通常,適合于采用回歸分析的數(shù)據(jù)結(jié)構(gòu)中的每個(gè)“樣品”對(duì)應(yīng)著“一個(gè)個(gè)體”。若受試對(duì)象或調(diào)查對(duì)象是“人”,則每個(gè)“人”在統(tǒng)計(jì)學(xué)上被稱(chēng)為一個(gè)“樣品”。例如,從30例某病患者的血液樣品中測(cè)得“載脂蛋白A1、載脂蛋白B、載脂蛋白E、載脂蛋白C、低密度脂蛋白中膽固醇”的含量[1],其數(shù)據(jù)結(jié)構(gòu)見(jiàn)表1。
表1 30例患者載脂蛋白和低密度脂蛋白中膽固醇含量的測(cè)量結(jié)果
又例如,調(diào)查某地區(qū)某時(shí)間段內(nèi)685例年齡≥70歲老年人的“一般情況、與健康有關(guān)的各項(xiàng)指標(biāo)的取值和生活質(zhì)量”所得到的資料[2]。顯然,若受試對(duì)象或調(diào)查對(duì)象是某種“動(dòng)物”,則每只“動(dòng)物”在統(tǒng)計(jì)學(xué)上也被稱(chēng)為一個(gè)“樣品”。由此可知,以每個(gè)“樣品”為觀察單位時(shí),就可以稱(chēng)其為“單個(gè)體型樣品”。
有時(shí),觀察單位不是一個(gè)個(gè)體,而是由具有相近條件的多個(gè)個(gè)體組成。例如,某試驗(yàn)研究藥物劑量與有效率之間的關(guān)系,數(shù)據(jù)結(jié)構(gòu)如表2所示[1]。
表2 藥物不同劑量與有效數(shù)
在表2中,每個(gè)劑量組的“全部動(dòng)物”被視為一個(gè)“觀察單位”,共有10個(gè)劑量組。顯然,每個(gè)“觀察單位”有多只動(dòng)物。
又例如,某棉紡廠為減輕試驗(yàn)工作量,擬用較易測(cè)定的每毫克重纖維的根數(shù)x估計(jì)測(cè)定工作量較大的原棉單纖維強(qiáng)力y。研究者收集到的試驗(yàn)資料見(jiàn)表3。其中,mi為在第i個(gè)試驗(yàn)點(diǎn)xi上進(jìn)行的獨(dú)立重復(fù)試驗(yàn)次數(shù);yi實(shí)際上是第i個(gè)試驗(yàn)點(diǎn)上mi個(gè)yij(j=1,2,…,mi)的算術(shù)平均值(注:若未求平均值,就可求出方差)[3]。
表3 每毫克重纖維的根數(shù)x與原棉單纖維強(qiáng)力y之間關(guān)系的測(cè)定結(jié)果
在表3中,各“編號(hào)”代表一批試驗(yàn)或被稱(chēng)為一個(gè)“觀察單位”,若對(duì)其進(jìn)行回歸分析,各“編號(hào)”對(duì)應(yīng)的數(shù)據(jù)被稱(chēng)為“樣品”。則每個(gè)“編號(hào)”由重復(fù)試驗(yàn)次數(shù)不等的多個(gè)樣品構(gòu)成,被稱(chēng)為“多個(gè)體型樣品”。
與變量間相互關(guān)系相比,樣品間相互關(guān)系比較難理解,因?yàn)闃悠烽g關(guān)系需要借助“幾何圖形”呈現(xiàn)出來(lái)才便于直觀判斷。通常,可通過(guò)在二維直角坐標(biāo)系中的全部(x,y)散點(diǎn)分布情況,用目測(cè)法得出全部“樣品”或“試驗(yàn)點(diǎn)”間實(shí)際存在的相互關(guān)系(簡(jiǎn)稱(chēng)為“幾何方法”);然而,當(dāng)自變量數(shù)目≥2時(shí),要在高維空間中直接呈現(xiàn)全部樣品間相互關(guān)系非常困難。
解決前述困難的辦法是:在二維空間中,找到合適的統(tǒng)計(jì)處理方法(簡(jiǎn)稱(chēng)“代數(shù)方法”),從而建立起“幾何方法”與“代數(shù)方法”之間的聯(lián)系。由此,可將“代數(shù)方法”推廣到高維空間中去研究“樣品”間的相互關(guān)系。
根據(jù)數(shù)學(xué)理論和實(shí)踐結(jié)果,上面提及的“代數(shù)方法”可歸結(jié)為給“每個(gè)樣品”一個(gè)“權(quán)重系數(shù)”,它的作用是反映每個(gè)樣品在計(jì)算中的“分量”或“作用大小”。也就是說(shuō),“權(quán)重系數(shù)”大的“樣品”要比“權(quán)重系數(shù)”小的“樣品”發(fā)揮更大的作用。對(duì)于同一個(gè)回歸分析資料,選取不同的依據(jù)來(lái)構(gòu)造“權(quán)重系數(shù)”并據(jù)此來(lái)構(gòu)建回歸模型,其精確度是不同的。因此,可將全部可能的“依據(jù)”都用來(lái)構(gòu)造“權(quán)重系數(shù)”,從而可構(gòu)建出多種不同的回歸模型。于是,可從中選出“最精準(zhǔn)的回歸模型”。
3.2.1 樣品的同質(zhì)性
在對(duì)計(jì)量資料進(jìn)行t檢驗(yàn)或方差分析時(shí),統(tǒng)計(jì)學(xué)教科書(shū)上都會(huì)明確交代:資料必須滿足“獨(dú)立性”“正態(tài)性”和“方差齊性”三個(gè)前提條件;而在對(duì)資料進(jìn)行相關(guān)與回歸分析,尤其是進(jìn)行多重回歸分析時(shí),統(tǒng)計(jì)學(xué)教科書(shū)上則很少提及極其重要的“前提條件”,即所有樣品對(duì)于全部變量應(yīng)滿足“同質(zhì)性”。其含義是:所有樣品或個(gè)體在全部變量上的“取值規(guī)律”是基本相同的。例如:研究某地區(qū)某時(shí)間段內(nèi)正常成年人的體重是如何隨身高變化而變化的依賴關(guān)系時(shí),當(dāng)所有被觀測(cè)個(gè)體(或稱(chēng)為“樣品”)在(身高,體重)兩個(gè)變量上的取值對(duì)應(yīng)的“數(shù)據(jù)點(diǎn)”沿一條直線(或曲線)變化趨勢(shì)隨機(jī)地散布,沒(méi)有偏離“絕大多數(shù)樣品”所在“區(qū)域”較遠(yuǎn)或很遠(yuǎn)的“數(shù)據(jù)點(diǎn)”,就稱(chēng)該資料中的所有“個(gè)體或樣品”具有較好的“同質(zhì)性”。
3.2.2 異常點(diǎn)
在前面的(身高,體重)例子中,若其中包含了少數(shù)特體型個(gè)體(例如,身高約為2.3 m,但體重約為50 kg;體重約為250 kg,但身高僅1.6 m;身高約為1.0 m,但體重為80 kg),那么,這少數(shù)特體型人與絕大多數(shù)正常成年人就不是“同質(zhì)的”。于是,那些“特體型個(gè)體”在統(tǒng)計(jì)學(xué)上就被稱(chēng)為“異常點(diǎn)(即異常的個(gè)體)”。之所以說(shuō)它們是“異常點(diǎn)”,是因?yàn)楫?dāng)采用“幾何方法”呈現(xiàn)時(shí),它們所處的“空間位置”會(huì)偏離其他“數(shù)據(jù)點(diǎn)”所在的“變化區(qū)域”。在二維直角坐標(biāo)系中,繪制出資料的散布圖,數(shù)據(jù)點(diǎn)的分布情況將一覽無(wú)余,見(jiàn)圖1。
圖1 四組數(shù)據(jù)的散布圖
在圖1中,從左上角至右下角的對(duì)角線上有數(shù)據(jù)點(diǎn)較粗的4幅小圖,其中,最后兩幅小圖中均各有一個(gè)“異常點(diǎn)”。
在進(jìn)行直線回歸分析時(shí),若存在“異常點(diǎn)”,但分析者對(duì)其視而不見(jiàn),就很容易得出錯(cuò)誤的結(jié)果和結(jié)論;在進(jìn)行多重回歸分析時(shí),若存在“異常點(diǎn)”,分析者也同樣容易“誤入歧途”。在SAS的“REG過(guò)程”中,可以通過(guò)“學(xué)生化殘差”和“Cook’s D距離統(tǒng)計(jì)量”來(lái)進(jìn)行“異常點(diǎn)診斷”,淘汰掉資料中“嚴(yán)重的異常點(diǎn)”,將有助于提高回歸模型的擬合質(zhì)量。當(dāng)一個(gè)資料中存在較大比例的“異常點(diǎn)”且又不適合將它們?nèi)縿h除時(shí),需要找到對(duì)“異常點(diǎn)”有一定“耐受性”的回歸建模方法,常稱(chēng)為“穩(wěn)健回歸分析法”[4]。經(jīng)過(guò)比較發(fā)現(xiàn):“分位數(shù)回歸分析法”[5]比“參數(shù)法中的諸多穩(wěn)健回歸分析法”[4]更加“穩(wěn)健”。
3.3.1 某變量在各樣品上取值的平方的倒數(shù)
選取某個(gè)變量(因變量或自變量),其在每個(gè)“樣品”上會(huì)有不同的取值。若在大多數(shù)樣品上的取值比較接近,而在少數(shù)樣品上的取值“非常大”,那么,就這個(gè)“變量”而言,可能意味著:取值“非常大”的那幾個(gè)“樣品”很可能是“異常點(diǎn)”。若取該“變量平方的倒數(shù)”為“權(quán)重系數(shù)”,則取值“非常大”的“樣品”的“權(quán)重系數(shù)”就比較“小”,從而,它們?cè)诨貧w系數(shù)估計(jì)中所起的作用就相應(yīng)地變小了。也就是說(shuō),這實(shí)際上是間接削弱了“可疑異常點(diǎn)”的影響,使回歸系數(shù)的估計(jì)趨于“穩(wěn)健”。
3.3.2 因變量在各樣品上殘差平方的倒數(shù)
也可以這樣做:先不盲目地尋找任何“依據(jù)”來(lái)構(gòu)建“權(quán)重系數(shù)”,而采取通常的方法構(gòu)建回歸模型,再利用此回歸模型計(jì)算出各“樣品”上因變量的“預(yù)測(cè)值”;進(jìn)而可計(jì)算出各“樣品”上的“殘差”。于是,可以求出各“樣品”上“殘差平方的倒數(shù)”。估計(jì)回歸系數(shù)時(shí),以各“樣品”上“殘差平方的倒數(shù)”為“權(quán)重系數(shù)”。道理如前所述,此處從略。
3.3.3 某變量在每個(gè)樣品上全部取值的方差的倒數(shù)
若在某個(gè)變量取每個(gè)特定值的條件下都進(jìn)行了多次重復(fù)試驗(yàn),就會(huì)獲得因變量的多個(gè)觀測(cè)值,于是,就可計(jì)算出多個(gè)因變量觀測(cè)值的方差,進(jìn)而可計(jì)算出“因變量方差的倒數(shù)”。若選取各樣品上“因變量方差的倒數(shù)”為“權(quán)重系數(shù)”,則“方差大”的樣品上的“權(quán)重系數(shù)”就很小,故它們?cè)诨貧w系數(shù)估計(jì)中所起的作用就相對(duì)變小了。
3.3.4 各樣品上重復(fù)試驗(yàn)次數(shù)的倒數(shù)
當(dāng)各樣品上有次數(shù)不等的重復(fù)試驗(yàn)時(shí),可以取“重復(fù)試驗(yàn)次數(shù)的倒數(shù)”為“權(quán)重系數(shù)”。因?yàn)橹貜?fù)試驗(yàn)次數(shù)較多的樣品上“因變量”的不同觀測(cè)值的數(shù)目可能就會(huì)多一些,也就間接反映了該樣品上“因變量的方差可能比較大”。于是,取“重復(fù)試驗(yàn)次數(shù)的倒數(shù)”為“權(quán)重系數(shù)”,相當(dāng)于取“因變量方差的倒數(shù)”為“權(quán)重系數(shù)”。道理同上,此處不再贅述。
3.3.5基于“觀測(cè)權(quán)重”與“抽樣權(quán)重”構(gòu)造“綜合權(quán)重”[7]
對(duì)抽樣調(diào)查資料進(jìn)行回歸建模時(shí),選取合適的“權(quán)重系數(shù)”至關(guān)重要。這里可能涉及到多個(gè)有關(guān)的概念,如觀測(cè)權(quán)重、抽樣權(quán)重。
觀測(cè)權(quán)重是基于綜合評(píng)價(jià)中權(quán)重系數(shù)的思想,在回歸分析中引入反映各個(gè)體或觀測(cè)對(duì)總體的重要性的度量,表示在其他觀測(cè)不變的情況下,該觀測(cè)的變化對(duì)結(jié)果的影響程度。常用的有經(jīng)驗(yàn)權(quán)重法、試驗(yàn)次數(shù)權(quán)重法、貢獻(xiàn)權(quán)重法等。
抽樣權(quán)重是在抽樣研究中,為反映所抽取樣本中各個(gè)觀測(cè)在總體中的重要程度,或樣本中各個(gè)觀測(cè)代表總體中個(gè)體的數(shù)目。抽樣權(quán)重的大小與抽樣方法有關(guān),分為基礎(chǔ)抽樣權(quán)重、調(diào)整抽樣權(quán)重與總抽樣權(quán)重。例如,將某省或州劃分為3個(gè)地區(qū)(即“層”),各層總樣本量、抽取的樣本量和抽樣權(quán)重的計(jì)算方法和結(jié)果見(jiàn)表4。
表4 美國(guó)兩個(gè)州各地區(qū)(層)中農(nóng)場(chǎng)的數(shù)目、抽樣數(shù)目和抽樣權(quán)重
表4中,抽樣權(quán)重=農(nóng)場(chǎng)數(shù)目/抽樣數(shù)目,例如,第1行上被抽取的3個(gè)農(nóng)場(chǎng)中的每一個(gè)代表全部農(nóng)場(chǎng)(100個(gè))中的1/3,即33.333個(gè)。
綜合權(quán)重是在對(duì)隨機(jī)抽樣所得數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí),不僅考慮抽樣權(quán)重,還考慮觀測(cè)權(quán)重,計(jì)算各個(gè)觀測(cè)對(duì)結(jié)果的總的重要程度。其計(jì)算方法是:綜合權(quán)重=觀測(cè)權(quán)重×抽樣權(quán)重。
在SAS/STAT的“SURVEREG過(guò)程”[8]中,若采用分層隨機(jī)抽樣,則選擇“抽樣權(quán)重”作為“權(quán)重系數(shù)”。
3.4.1 無(wú)重復(fù)試驗(yàn)的回歸分析問(wèn)題
3.4.1.1 問(wèn)題與數(shù)據(jù)結(jié)構(gòu)
【例1】某公司對(duì)12次投標(biāo)情況進(jìn)行研究。設(shè)投標(biāo)規(guī)模為x(單位:百萬(wàn)美元),企業(yè)準(zhǔn)備投標(biāo)的費(fèi)用為y(單位:千美元)。具體數(shù)據(jù)見(jiàn)表5。試建立y關(guān)于x的回歸方程[4]。
表5 某地某年投標(biāo)規(guī)模x與企業(yè)準(zhǔn)備投標(biāo)費(fèi)用y的數(shù)據(jù)
注:表4數(shù)據(jù)摘自文獻(xiàn)《應(yīng)用線性回歸模型》(約翰·內(nèi)特, 威廉·沃塞曼, 邁克爾·H·庫(kù)特納, 著, 張勇, 王國(guó)明, 趙秀珍, 譯. 北京: 中國(guó)統(tǒng)計(jì)出版社, 1990: 178)
若繪制出(x,y)的散布圖,各散點(diǎn)隨自變量x的增加,y的離散度也變大,為節(jié)省篇幅,繪制散布圖的SAS程序和散布圖均省略。
下面,先不考慮“權(quán)重系數(shù)”擬合直線回歸模型,然后再選取不同的“依據(jù)”構(gòu)建“權(quán)重系數(shù)”,并據(jù)此構(gòu)建直線回歸模型?;谀P偷臄M合優(yōu)度(R2、誤差等)確定最合適的“權(quán)重系數(shù)”。
3.4.1.2 所需要的SAS程序
data a1;
inputxy@@;
/*以下產(chǎn)生三個(gè)新變量,分別代表不同的權(quán)重系數(shù)*/
wx=1/(x**2);
wy=1/(y**2);
wxy=1/(x*y);
cards;
2.1315.5 1.2111.111.0062.6 6.0035.4 5.6024.9 6.9128.1 2.9715.0 3.3523.210.3942.0 1.1010.0 4.3620.0 8.0047.5
;
run;
/*以下程序采用普通最小平方法1創(chuàng)建含截距項(xiàng)的直線回歸模型*/
proc reg data=a1;
modely=x/r;
quit;
/*以下程序采用普通最小平方法2創(chuàng)建不含截距項(xiàng)的直線回歸模型*/
proc reg data=a1;
modely=x/ nointr;
quit;
/*以下程序采用加權(quán)最小平方法1創(chuàng)建直線回歸模型*/
proc reg data=a1;
modely=x/r;
weightwx;
quit;
/*以下程序采用加權(quán)最小平方法2創(chuàng)建直線回歸模型*/
proc reg data=a1;
modely=x/r;
weightwy;
quit;
/*以下程序采用加權(quán)最小平方法3創(chuàng)建直線回歸模型*/
proc reg data=a1;
modely=x/r;
weightwxy;
quit;
/*以下程序采用普通最小平方法創(chuàng)建直線回歸模型,提取各樣品點(diǎn)上的殘差*/
proc reg data=a1 noprint;
modely=x/ nointr;
output out=aaa residual=resid;
quit;
/*以下程序?yàn)榍笕「鳂悠伏c(diǎn)上殘差平方的倒數(shù)*/
data a2;
set aaa;
wr=1/resid**2;
run;
/*以下程序采用加權(quán)最小平方法4創(chuàng)建含截距項(xiàng)的直線回歸模型*/
proc reg data=a2;
modely=x/r;
weightwr;
quit;
/*以下程序采用加權(quán)最小平方法5創(chuàng)建不含截距項(xiàng)的直線回歸模型*/
proc reg data=a2;
modely=x/ nointr;
weightwr;
quit;
【SAS程序說(shuō)明】
以上SAS程序很長(zhǎng),各段SAS程序之前都有“注釋語(yǔ)句”,這些注釋語(yǔ)句解釋了其后面程序的作用,此處不再贅述。
3.4.1.3 主要計(jì)算結(jié)果匯總
“普通最小平方法”和“加權(quán)最小平方法”擬合直線回歸模型的參數(shù)估計(jì)結(jié)果見(jiàn)表6。
表6 普通與加權(quán)最小平方法擬合直線回歸模型的參數(shù)估計(jì)值等內(nèi)容比較
在表6中,“普通最小平方法1”對(duì)應(yīng)的結(jié)果中,截距項(xiàng)無(wú)統(tǒng)計(jì)學(xué)意義;“普通最小平方法2”中就沒(méi)有包含截距項(xiàng)。
在表6中,“加權(quán)最小平方法”有5種,其中,前4種對(duì)應(yīng)的“權(quán)重系數(shù)”分別為“自變量x的平方的倒數(shù)”“因變量y的平方的倒數(shù)”“自變量x與因變量y的乘積的倒數(shù)”“因變量y的殘差平方的倒數(shù)”,而“加權(quán)最小平方法5”與“加權(quán)最小平方法4”的“權(quán)重系數(shù)”相同,都是“因變量y的殘差平方的倒數(shù)”,它們的區(qū)別在于“是否保留截距項(xiàng)”。
淘汰掉“普通最小平方法1”和“加權(quán)最小平方法4”的結(jié)果之后,還有5種方法對(duì)應(yīng)的結(jié)果,分別為“普通最小平方法2”和“加權(quán)最小平方法1”“加權(quán)最小平方法2”“加權(quán)最小平方法3”“加權(quán)最小平方法5”。那么,這5種方法對(duì)應(yīng)的結(jié)果哪一個(gè)相對(duì)更好?
若從假設(shè)檢驗(yàn)的P值來(lái)看,很難分辨出孰優(yōu)孰劣。但可以依據(jù)參數(shù)“標(biāo)準(zhǔn)誤”大小進(jìn)行比較,標(biāo)準(zhǔn)誤小者為好。由此可知,“加權(quán)最小平方法5”給出的斜率的“標(biāo)準(zhǔn)誤0.05057”最小,故該法相對(duì)其他4種更好。
下面,再列出上述各種方法對(duì)應(yīng)的“R2”“調(diào)整R2”“均方根誤差”和“預(yù)測(cè)殘差平方和,簡(jiǎn)稱(chēng)PRESS”,見(jiàn)表7。
表7 普通與加權(quán)最小平方法擬合直線回歸模型的擬合優(yōu)度內(nèi)容比較
續(xù)表1:
加權(quán)最小平方法10.91510.90660.8896710.32205加權(quán)最小平方法20.89970.88970.164170.34635加權(quán)最小平方法30.90680.89750.383971.90498加權(quán)最小平方法40.90870.89961.04916109.89517加權(quán)最小平方法50.99890.99881.0028913.00709
由統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)可知:對(duì)于直線回歸模型而言,“R2”和“調(diào)整R2”的數(shù)值越大越好;而“均方根誤差”和“PRESS(預(yù)測(cè)殘差平方和)”越小越好。由此可知,在表7中,最后一行的結(jié)果是最好的。
3.4.1.4 本例小結(jié)
結(jié)合表6和表7的結(jié)果以及比較得出的結(jié)論可知:本例以“因變量y的殘差平方的倒數(shù)”構(gòu)建“權(quán)重系數(shù)”,并采取“加權(quán)最小平方法”擬合直線回歸模型且不含截距項(xiàng)(因?yàn)榻鼐囗?xiàng)無(wú)統(tǒng)計(jì)學(xué)意義,需刪除),其擬合效果最佳。
3.4.2 多重線性回歸分析問(wèn)題
3.4.2.1 問(wèn)題與數(shù)據(jù)結(jié)構(gòu)
【例2】沿用前面的“表1資料”,設(shè)y代表“低密度脂蛋白”,x1~x4分別代表表1中第2列至第5列上的4種“載脂蛋白”,試建立y依賴4個(gè)自變量的多重線性回歸模型。
3.4.2.2 所需要的SAS程序
data a1;
input idx1-x4y@@;
wy=1/y**2;
cards;
11731067.014.713721391326.417.816231981126.916.713441181387.115.71885139948.613.6138617516012.120.3215713115411.221.517181581419.729.614891581377.418.2197101321517.517.2113111621106.015.91451214411310.142.881131621377.220.7185141691298.516.7157151291386.310.11971616614811.533.4156171851186.017.5156181551216.120.4154191751114.127.2144201361109.426.090211531338.516.9215221101499.524.718423160865.310.8118241121238.016.6127251471108.518.4137262041226.121.0126271311026.613.4130281701278.424.7135291731238.719.01883013213113.829.2122
;
run;
/*不加權(quán)且保留截距項(xiàng),三種常規(guī)篩選方法所得結(jié)果相同,僅留一種*/
proc reg data=a1;
modely=x1-x4/selection=backward sls=0.05r;
title1'此處創(chuàng)建的是模型1';
quit;
/*不加權(quán)且不保留截距項(xiàng),三種常規(guī)篩選方法所得結(jié)果相同,僅留一種*/
/*數(shù)據(jù)集aaa中包含各樣品點(diǎn)上的殘差resid1*/
proc reg data=a1;
modely=x1-x4/noint selection=backward sls=0.05r;
output out=aaa residual=resid1;
title1'此處創(chuàng)建的是模型2';
quit;
/*以下程序基于aaa數(shù)據(jù)集,用殘差平方的倒數(shù)作為權(quán)重系數(shù)*/
/*這實(shí)際上就是做了一次加權(quán)多重線性回歸分析*/
data a2;
set aaa;
wr1=1/resid1**2;
run;
proc reg data=a2;
modely=x1-x4/noint selection=backward sle=0.05r;
weightwr1;
title1 '此處創(chuàng)建的是模型3';
quit;
/*加權(quán)且保留截距項(xiàng),三種常規(guī)篩選方法所得結(jié)果相同,僅留一種*/
proc reg data=a1;
modely=x1-x4/selection=backward sls=0.05r;
weightwy;
title1'此處創(chuàng)建的是模型4';
quit;
/*加權(quán)且不保留截距項(xiàng),三種常規(guī)篩選方法所得結(jié)果相同,僅留一種*/
/*數(shù)據(jù)集bbb中包含各樣品點(diǎn)上的殘差resid2*/
proc reg data=a1;
modely=x1-x4/noint selection=backward sls=0.05r;
weightwy;
output out=bbb residual=resid2;
title1'此處創(chuàng)建的是模型5';
quit;
/*以下程序基于bbb數(shù)據(jù)集,用殘差平方的倒數(shù)作為權(quán)重系數(shù)*/
/*這實(shí)際上就是做了第二次加權(quán)多重線性回歸分析*/
data b2;
set bbb;
wr2=1/resid2**2;
run;
proc reg data=b2;
modely=x1-x4/noint selection=backward sle=0.05r;
weightwr2;
title1'此處創(chuàng)建的是模型6';
quit;
3.4.2.3 主要計(jì)算結(jié)果匯總
“普通最小平方法”和“加權(quán)最小平方法”擬合多重線性回歸模型的參數(shù)估計(jì)結(jié)果見(jiàn)表8。
表8 普通與加權(quán)最小平方法擬合多重線性回歸模型的參數(shù)估計(jì)值等內(nèi)容比較
由表8可知:模型1和模型4均不夠理想,因?yàn)樗鼈兌及藷o(wú)統(tǒng)計(jì)學(xué)意義的截距項(xiàng);模型2與模型3具有可比性,但模型3中參數(shù)的標(biāo)準(zhǔn)誤小于模型2中參數(shù)的標(biāo)準(zhǔn)誤,稍好一些;同理,模型6比模型5更好。
那么模型3與模型6哪一個(gè)更好?為回答這個(gè)問(wèn)題,需要列出與“擬合優(yōu)度”有關(guān)統(tǒng)計(jì)量的計(jì)算結(jié)果,見(jiàn)表9。
表9 普通與加權(quán)最小平方法擬合多重線性回歸模型的擬合優(yōu)度內(nèi)容比較
在表9中,NI代表模型中自變量的個(gè)數(shù),Cp值越接近模型中自變量的個(gè)數(shù),表明模型對(duì)資料的擬合度越好。模型3與模型6相比,R2和調(diào)整R2都比較接近;模型6的均方根誤差小于模型3的均方根誤差;特別是Cp值,說(shuō)明模型6優(yōu)于模型3。
3.4.2.4 本例小結(jié)
模型1和模型2都是基于普通最小平方法建模,前者保留截距項(xiàng),后者不保留截距項(xiàng);模型3僅采取殘差平方的倒數(shù)為“權(quán)重系數(shù)”,進(jìn)行了一次“加權(quán)最小平方法構(gòu)建回歸模型”;模型4和模型5都是基于因變量y平方的倒數(shù)為“權(quán)重系數(shù)”,進(jìn)行了第一次“加權(quán)最小平方法構(gòu)建回歸模型”;而模型6在模型5的基礎(chǔ)上,又基于殘差平方的倒數(shù)為“權(quán)重系數(shù)”,進(jìn)行了第二次“加權(quán)最小平方法構(gòu)建回歸模型”。最終的結(jié)論是:基于兩次加權(quán)回歸分析得到的模型6優(yōu)于其他模型。其回歸模型為: