亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

回歸建模的基礎(chǔ)與要領(lǐng)(Ⅳ)
——樣品狀態(tài)與相互間關(guān)系

2019-01-16 11:41:20胡良平

四川精神衛(wèi)生 2018年6期

胡良平

(1.軍事科學(xué)院研究生院，北京 100850；2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專(zhuān)業(yè)委員會(huì)，北京 100029*通信作者：胡良平，E-mail：lphu812@sina.com)

1 概述

回歸分析是研究因變量如何依賴自變量變化而變化的規(guī)律的重要統(tǒng)計(jì)分析方法之一，然而，回歸分析的基本要素涉及兩個(gè)方面，其一，變量狀態(tài)及相互關(guān)系；其二，樣品(測(cè)定變量取值的對(duì)象)狀態(tài)及相互關(guān)系。因篇幅所限，本文僅討論前述的“第二個(gè)要素”。

2 樣品狀態(tài)

2.1 單個(gè)體型樣品

通常，適合于采用回歸分析的數(shù)據(jù)結(jié)構(gòu)中的每個(gè)“樣品”對(duì)應(yīng)著“一個(gè)個(gè)體”。若受試對(duì)象或調(diào)查對(duì)象是“人”，則每個(gè)“人”在統(tǒng)計(jì)學(xué)上被稱(chēng)為一個(gè)“樣品”。例如，從30例某病患者的血液樣品中測(cè)得“載脂蛋白A1、載脂蛋白B、載脂蛋白E、載脂蛋白C、低密度脂蛋白中膽固醇”的含量[1]，其數(shù)據(jù)結(jié)構(gòu)見(jiàn)表1。

表1 30例患者載脂蛋白和低密度脂蛋白中膽固醇含量的測(cè)量結(jié)果

又例如，調(diào)查某地區(qū)某時(shí)間段內(nèi)685例年齡≥70歲老年人的“一般情況、與健康有關(guān)的各項(xiàng)指標(biāo)的取值和生活質(zhì)量”所得到的資料[2]。顯然，若受試對(duì)象或調(diào)查對(duì)象是某種“動(dòng)物”，則每只“動(dòng)物”在統(tǒng)計(jì)學(xué)上也被稱(chēng)為一個(gè)“樣品”。由此可知，以每個(gè)“樣品”為觀察單位時(shí)，就可以稱(chēng)其為“單個(gè)體型樣品”。

2.2 多個(gè)體型樣品

有時(shí)，觀察單位不是一個(gè)個(gè)體，而是由具有相近條件的多個(gè)個(gè)體組成。例如，某試驗(yàn)研究藥物劑量與有效率之間的關(guān)系，數(shù)據(jù)結(jié)構(gòu)如表2所示[1]。

表2 藥物不同劑量與有效數(shù)

在表2中，每個(gè)劑量組的“全部動(dòng)物”被視為一個(gè)“觀察單位”，共有10個(gè)劑量組。顯然，每個(gè)“觀察單位”有多只動(dòng)物。

又例如，某棉紡廠為減輕試驗(yàn)工作量，擬用較易測(cè)定的每毫克重纖維的根數(shù)x估計(jì)測(cè)定工作量較大的原棉單纖維強(qiáng)力y。研究者收集到的試驗(yàn)資料見(jiàn)表3。其中，mi為在第i個(gè)試驗(yàn)點(diǎn)xi上進(jìn)行的獨(dú)立重復(fù)試驗(yàn)次數(shù)；yi實(shí)際上是第i個(gè)試驗(yàn)點(diǎn)上mi個(gè)yij(j=1,2,…,mi)的算術(shù)平均值(注：若未求平均值，就可求出方差)[3]。

表3 每毫克重纖維的根數(shù)x與原棉單纖維強(qiáng)力y之間關(guān)系的測(cè)定結(jié)果

在表3中，各“編號(hào)”代表一批試驗(yàn)或被稱(chēng)為一個(gè)“觀察單位”，若對(duì)其進(jìn)行回歸分析，各“編號(hào)”對(duì)應(yīng)的數(shù)據(jù)被稱(chēng)為“樣品”。則每個(gè)“編號(hào)”由重復(fù)試驗(yàn)次數(shù)不等的多個(gè)樣品構(gòu)成，被稱(chēng)為“多個(gè)體型樣品”。

3 樣品間相互關(guān)系

3.1 概述

與變量間相互關(guān)系相比，樣品間相互關(guān)系比較難理解，因?yàn)闃悠烽g關(guān)系需要借助“幾何圖形”呈現(xiàn)出來(lái)才便于直觀判斷。通常，可通過(guò)在二維直角坐標(biāo)系中的全部(x，y)散點(diǎn)分布情況，用目測(cè)法得出全部“樣品”或“試驗(yàn)點(diǎn)”間實(shí)際存在的相互關(guān)系(簡(jiǎn)稱(chēng)為“幾何方法”)；然而，當(dāng)自變量數(shù)目≥2時(shí)，要在高維空間中直接呈現(xiàn)全部樣品間相互關(guān)系非常困難。

解決前述困難的辦法是：在二維空間中，找到合適的統(tǒng)計(jì)處理方法(簡(jiǎn)稱(chēng)“代數(shù)方法”)，從而建立起“幾何方法”與“代數(shù)方法”之間的聯(lián)系。由此，可將“代數(shù)方法”推廣到高維空間中去研究“樣品”間的相互關(guān)系。

根據(jù)數(shù)學(xué)理論和實(shí)踐結(jié)果，上面提及的“代數(shù)方法”可歸結(jié)為給“每個(gè)樣品”一個(gè)“權(quán)重系數(shù)”，它的作用是反映每個(gè)樣品在計(jì)算中的“分量”或“作用大小”。也就是說(shuō)，“權(quán)重系數(shù)”大的“樣品”要比“權(quán)重系數(shù)”小的“樣品”發(fā)揮更大的作用。對(duì)于同一個(gè)回歸分析資料，選取不同的依據(jù)來(lái)構(gòu)造“權(quán)重系數(shù)”并據(jù)此來(lái)構(gòu)建回歸模型，其精確度是不同的。因此，可將全部可能的“依據(jù)”都用來(lái)構(gòu)造“權(quán)重系數(shù)”，從而可構(gòu)建出多種不同的回歸模型。于是，可從中選出“最精準(zhǔn)的回歸模型”。

3.2 樣品的同質(zhì)性與異常點(diǎn)

3.2.1 樣品的同質(zhì)性

在對(duì)計(jì)量資料進(jìn)行t檢驗(yàn)或方差分析時(shí)，統(tǒng)計(jì)學(xué)教科書(shū)上都會(huì)明確交代：資料必須滿足“獨(dú)立性”“正態(tài)性”和“方差齊性”三個(gè)前提條件；而在對(duì)資料進(jìn)行相關(guān)與回歸分析，尤其是進(jìn)行多重回歸分析時(shí)，統(tǒng)計(jì)學(xué)教科書(shū)上則很少提及極其重要的“前提條件”，即所有樣品對(duì)于全部變量應(yīng)滿足“同質(zhì)性”。其含義是：所有樣品或個(gè)體在全部變量上的“取值規(guī)律”是基本相同的。例如：研究某地區(qū)某時(shí)間段內(nèi)正常成年人的體重是如何隨身高變化而變化的依賴關(guān)系時(shí)，當(dāng)所有被觀測(cè)個(gè)體(或稱(chēng)為“樣品”)在(身高，體重)兩個(gè)變量上的取值對(duì)應(yīng)的“數(shù)據(jù)點(diǎn)”沿一條直線(或曲線)變化趨勢(shì)隨機(jī)地散布，沒(méi)有偏離“絕大多數(shù)樣品”所在“區(qū)域”較遠(yuǎn)或很遠(yuǎn)的“數(shù)據(jù)點(diǎn)”，就稱(chēng)該資料中的所有“個(gè)體或樣品”具有較好的“同質(zhì)性”。

3.2.2 異常點(diǎn)

在前面的(身高，體重)例子中，若其中包含了少數(shù)特體型個(gè)體(例如，身高約為2.3 m，但體重約為50 kg；體重約為250 kg，但身高僅1.6 m；身高約為1.0 m，但體重為80 kg)，那么，這少數(shù)特體型人與絕大多數(shù)正常成年人就不是“同質(zhì)的”。于是，那些“特體型個(gè)體”在統(tǒng)計(jì)學(xué)上就被稱(chēng)為“異常點(diǎn)(即異常的個(gè)體)”。之所以說(shuō)它們是“異常點(diǎn)”，是因?yàn)楫?dāng)采用“幾何方法”呈現(xiàn)時(shí)，它們所處的“空間位置”會(huì)偏離其他“數(shù)據(jù)點(diǎn)”所在的“變化區(qū)域”。在二維直角坐標(biāo)系中，繪制出資料的散布圖，數(shù)據(jù)點(diǎn)的分布情況將一覽無(wú)余，見(jiàn)圖1。

圖1 四組數(shù)據(jù)的散布圖

在圖1中，從左上角至右下角的對(duì)角線上有數(shù)據(jù)點(diǎn)較粗的4幅小圖，其中，最后兩幅小圖中均各有一個(gè)“異常點(diǎn)”。

在進(jìn)行直線回歸分析時(shí)，若存在“異常點(diǎn)”，但分析者對(duì)其視而不見(jiàn)，就很容易得出錯(cuò)誤的結(jié)果和結(jié)論；在進(jìn)行多重回歸分析時(shí)，若存在“異常點(diǎn)”，分析者也同樣容易“誤入歧途”。在SAS的“REG過(guò)程”中，可以通過(guò)“學(xué)生化殘差”和“Cook’s D距離統(tǒng)計(jì)量”來(lái)進(jìn)行“異常點(diǎn)診斷”，淘汰掉資料中“嚴(yán)重的異常點(diǎn)”，將有助于提高回歸模型的擬合質(zhì)量。當(dāng)一個(gè)資料中存在較大比例的“異常點(diǎn)”且又不適合將它們?nèi)縿h除時(shí)，需要找到對(duì)“異常點(diǎn)”有一定“耐受性”的回歸建模方法，常稱(chēng)為“穩(wěn)健回歸分析法”[4]。經(jīng)過(guò)比較發(fā)現(xiàn)：“分位數(shù)回歸分析法”[5]比“參數(shù)法中的諸多穩(wěn)健回歸分析法”[4]更加“穩(wěn)健”。

3.3 可用于構(gòu)造“權(quán)重系數(shù)”的常見(jiàn)“依據(jù)”[3，6]

3.3.1 某變量在各樣品上取值的平方的倒數(shù)

選取某個(gè)變量(因變量或自變量)，其在每個(gè)“樣品”上會(huì)有不同的取值。若在大多數(shù)樣品上的取值比較接近，而在少數(shù)樣品上的取值“非常大”，那么，就這個(gè)“變量”而言，可能意味著：取值“非常大”的那幾個(gè)“樣品”很可能是“異常點(diǎn)”。若取該“變量平方的倒數(shù)”為“權(quán)重系數(shù)”，則取值“非常大”的“樣品”的“權(quán)重系數(shù)”就比較“小”，從而，它們?cè)诨貧w系數(shù)估計(jì)中所起的作用就相應(yīng)地變小了。也就是說(shuō)，這實(shí)際上是間接削弱了“可疑異常點(diǎn)”的影響，使回歸系數(shù)的估計(jì)趨于“穩(wěn)健”。

3.3.2 因變量在各樣品上殘差平方的倒數(shù)

也可以這樣做：先不盲目地尋找任何“依據(jù)”來(lái)構(gòu)建“權(quán)重系數(shù)”，而采取通常的方法構(gòu)建回歸模型，再利用此回歸模型計(jì)算出各“樣品”上因變量的“預(yù)測(cè)值”；進(jìn)而可計(jì)算出各“樣品”上的“殘差”。于是，可以求出各“樣品”上“殘差平方的倒數(shù)”。估計(jì)回歸系數(shù)時(shí)，以各“樣品”上“殘差平方的倒數(shù)”為“權(quán)重系數(shù)”。道理如前所述，此處從略。

3.3.3 某變量在每個(gè)樣品上全部取值的方差的倒數(shù)

若在某個(gè)變量取每個(gè)特定值的條件下都進(jìn)行了多次重復(fù)試驗(yàn)，就會(huì)獲得因變量的多個(gè)觀測(cè)值，于是，就可計(jì)算出多個(gè)因變量觀測(cè)值的方差，進(jìn)而可計(jì)算出“因變量方差的倒數(shù)”。若選取各樣品上“因變量方差的倒數(shù)”為“權(quán)重系數(shù)”，則“方差大”的樣品上的“權(quán)重系數(shù)”就很小，故它們?cè)诨貧w系數(shù)估計(jì)中所起的作用就相對(duì)變小了。

3.3.4 各樣品上重復(fù)試驗(yàn)次數(shù)的倒數(shù)

當(dāng)各樣品上有次數(shù)不等的重復(fù)試驗(yàn)時(shí)，可以取“重復(fù)試驗(yàn)次數(shù)的倒數(shù)”為“權(quán)重系數(shù)”。因?yàn)橹貜?fù)試驗(yàn)次數(shù)較多的樣品上“因變量”的不同觀測(cè)值的數(shù)目可能就會(huì)多一些，也就間接反映了該樣品上“因變量的方差可能比較大”。于是，取“重復(fù)試驗(yàn)次數(shù)的倒數(shù)”為“權(quán)重系數(shù)”，相當(dāng)于取“因變量方差的倒數(shù)”為“權(quán)重系數(shù)”。道理同上，此處不再贅述。

3.3.5基于“觀測(cè)權(quán)重”與“抽樣權(quán)重”構(gòu)造“綜合權(quán)重”[7]

對(duì)抽樣調(diào)查資料進(jìn)行回歸建模時(shí)，選取合適的“權(quán)重系數(shù)”至關(guān)重要。這里可能涉及到多個(gè)有關(guān)的概念，如觀測(cè)權(quán)重、抽樣權(quán)重。

觀測(cè)權(quán)重是基于綜合評(píng)價(jià)中權(quán)重系數(shù)的思想，在回歸分析中引入反映各個(gè)體或觀測(cè)對(duì)總體的重要性的度量，表示在其他觀測(cè)不變的情況下，該觀測(cè)的變化對(duì)結(jié)果的影響程度。常用的有經(jīng)驗(yàn)權(quán)重法、試驗(yàn)次數(shù)權(quán)重法、貢獻(xiàn)權(quán)重法等。

抽樣權(quán)重是在抽樣研究中，為反映所抽取樣本中各個(gè)觀測(cè)在總體中的重要程度，或樣本中各個(gè)觀測(cè)代表總體中個(gè)體的數(shù)目。抽樣權(quán)重的大小與抽樣方法有關(guān)，分為基礎(chǔ)抽樣權(quán)重、調(diào)整抽樣權(quán)重與總抽樣權(quán)重。例如，將某省或州劃分為3個(gè)地區(qū)(即“層”)，各層總樣本量、抽取的樣本量和抽樣權(quán)重的計(jì)算方法和結(jié)果見(jiàn)表4。

表4 美國(guó)兩個(gè)州各地區(qū)(層)中農(nóng)場(chǎng)的數(shù)目、抽樣數(shù)目和抽樣權(quán)重

表4中，抽樣權(quán)重=農(nóng)場(chǎng)數(shù)目/抽樣數(shù)目，例如，第1行上被抽取的3個(gè)農(nóng)場(chǎng)中的每一個(gè)代表全部農(nóng)場(chǎng)(100個(gè))中的1/3，即33.333個(gè)。

綜合權(quán)重是在對(duì)隨機(jī)抽樣所得數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí)，不僅考慮抽樣權(quán)重，還考慮觀測(cè)權(quán)重，計(jì)算各個(gè)觀測(cè)對(duì)結(jié)果的總的重要程度。其計(jì)算方法是：綜合權(quán)重=觀測(cè)權(quán)重×抽樣權(quán)重。

在SAS/STAT的“SURVEREG過(guò)程”[8]中，若采用分層隨機(jī)抽樣，則選擇“抽樣權(quán)重”作為“權(quán)重系數(shù)”。

3.4 實(shí)例演示

3.4.1 無(wú)重復(fù)試驗(yàn)的回歸分析問(wèn)題

3.4.1.1 問(wèn)題與數(shù)據(jù)結(jié)構(gòu)

【例1】某公司對(duì)12次投標(biāo)情況進(jìn)行研究。設(shè)投標(biāo)規(guī)模為x(單位：百萬(wàn)美元)，企業(yè)準(zhǔn)備投標(biāo)的費(fèi)用為y(單位：千美元)。具體數(shù)據(jù)見(jiàn)表5。試建立y關(guān)于x的回歸方程[4]。

表5 某地某年投標(biāo)規(guī)模x與企業(yè)準(zhǔn)備投標(biāo)費(fèi)用y的數(shù)據(jù)

注：表4數(shù)據(jù)摘自文獻(xiàn)《應(yīng)用線性回歸模型》(約翰·內(nèi)特, 威廉·沃塞曼, 邁克爾·H·庫(kù)特納, 著, 張勇, 王國(guó)明, 趙秀珍, 譯. 北京: 中國(guó)統(tǒng)計(jì)出版社, 1990: 178)

若繪制出(x，y)的散布圖，各散點(diǎn)隨自變量x的增加，y的離散度也變大，為節(jié)省篇幅，繪制散布圖的SAS程序和散布圖均省略。

下面，先不考慮“權(quán)重系數(shù)”擬合直線回歸模型，然后再選取不同的“依據(jù)”構(gòu)建“權(quán)重系數(shù)”，并據(jù)此構(gòu)建直線回歸模型?；谀Ｐ偷臄M合優(yōu)度(R2、誤差等)確定最合適的“權(quán)重系數(shù)”。

3.4.1.2 所需要的SAS程序

data a1;

inputxy@@;

/*以下產(chǎn)生三個(gè)新變量，分別代表不同的權(quán)重系數(shù)*/

wx=1/(x**2);

wy=1/(y**2);

wxy=1/(x*y);

cards;

2.1315.5 1.2111.111.0062.6 6.0035.4 5.6024.9 6.9128.1 2.9715.0 3.3523.210.3942.0 1.1010.0 4.3620.0 8.0047.5

;

run;

/*以下程序采用普通最小平方法1創(chuàng)建含截距項(xiàng)的直線回歸模型*/

proc reg data=a1;

modely=x/r;

quit;

/*以下程序采用普通最小平方法2創(chuàng)建不含截距項(xiàng)的直線回歸模型*/

proc reg data=a1;

modely=x/ nointr;

quit;

/*以下程序采用加權(quán)最小平方法1創(chuàng)建直線回歸模型*/

proc reg data=a1;

modely=x/r;

weightwx;

quit;

/*以下程序采用加權(quán)最小平方法2創(chuàng)建直線回歸模型*/

proc reg data=a1;

modely=x/r;

weightwy;

quit;

/*以下程序采用加權(quán)最小平方法3創(chuàng)建直線回歸模型*/

proc reg data=a1;

modely=x/r;

weightwxy;

quit;

/*以下程序采用普通最小平方法創(chuàng)建直線回歸模型，提取各樣品點(diǎn)上的殘差*/

proc reg data=a1 noprint;

modely=x/ nointr;

output out=aaa residual=resid;

quit;

/*以下程序?yàn)榍笕「鳂悠伏c(diǎn)上殘差平方的倒數(shù)*/

data a2;

set aaa;

wr=1/resid**2;

run;

/*以下程序采用加權(quán)最小平方法4創(chuàng)建含截距項(xiàng)的直線回歸模型*/

proc reg data=a2;

modely=x/r;

weightwr;

quit;

/*以下程序采用加權(quán)最小平方法5創(chuàng)建不含截距項(xiàng)的直線回歸模型*/

proc reg data=a2;

modely=x/ nointr;

weightwr;

quit;

【SAS程序說(shuō)明】

以上SAS程序很長(zhǎng)，各段SAS程序之前都有“注釋語(yǔ)句”，這些注釋語(yǔ)句解釋了其后面程序的作用，此處不再贅述。

3.4.1.3 主要計(jì)算結(jié)果匯總

“普通最小平方法”和“加權(quán)最小平方法”擬合直線回歸模型的參數(shù)估計(jì)結(jié)果見(jiàn)表6。

表6 普通與加權(quán)最小平方法擬合直線回歸模型的參數(shù)估計(jì)值等內(nèi)容比較

在表6中，“普通最小平方法1”對(duì)應(yīng)的結(jié)果中，截距項(xiàng)無(wú)統(tǒng)計(jì)學(xué)意義；“普通最小平方法2”中就沒(méi)有包含截距項(xiàng)。

在表6中，“加權(quán)最小平方法”有5種，其中，前4種對(duì)應(yīng)的“權(quán)重系數(shù)”分別為“自變量x的平方的倒數(shù)”“因變量y的平方的倒數(shù)”“自變量x與因變量y的乘積的倒數(shù)”“因變量y的殘差平方的倒數(shù)”，而“加權(quán)最小平方法5”與“加權(quán)最小平方法4”的“權(quán)重系數(shù)”相同，都是“因變量y的殘差平方的倒數(shù)”，它們的區(qū)別在于“是否保留截距項(xiàng)”。

淘汰掉“普通最小平方法1”和“加權(quán)最小平方法4”的結(jié)果之后，還有5種方法對(duì)應(yīng)的結(jié)果，分別為“普通最小平方法2”和“加權(quán)最小平方法1”“加權(quán)最小平方法2”“加權(quán)最小平方法3”“加權(quán)最小平方法5”。那么，這5種方法對(duì)應(yīng)的結(jié)果哪一個(gè)相對(duì)更好？

若從假設(shè)檢驗(yàn)的P值來(lái)看，很難分辨出孰優(yōu)孰劣。但可以依據(jù)參數(shù)“標(biāo)準(zhǔn)誤”大小進(jìn)行比較，標(biāo)準(zhǔn)誤小者為好。由此可知，“加權(quán)最小平方法5”給出的斜率的“標(biāo)準(zhǔn)誤0.05057”最小，故該法相對(duì)其他4種更好。

下面，再列出上述各種方法對(duì)應(yīng)的“R2”“調(diào)整R2”“均方根誤差”和“預(yù)測(cè)殘差平方和，簡(jiǎn)稱(chēng)PRESS”，見(jiàn)表7。

表7 普通與加權(quán)最小平方法擬合直線回歸模型的擬合優(yōu)度內(nèi)容比較

續(xù)表1：

加權(quán)最小平方法10.91510.90660.8896710.32205加權(quán)最小平方法20.89970.88970.164170.34635加權(quán)最小平方法30.90680.89750.383971.90498加權(quán)最小平方法40.90870.89961.04916109.89517加權(quán)最小平方法50.99890.99881.0028913.00709

由統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)可知：對(duì)于直線回歸模型而言，“R2”和“調(diào)整R2”的數(shù)值越大越好；而“均方根誤差”和“PRESS(預(yù)測(cè)殘差平方和)”越小越好。由此可知，在表7中，最后一行的結(jié)果是最好的。

3.4.1.4 本例小結(jié)

結(jié)合表6和表7的結(jié)果以及比較得出的結(jié)論可知：本例以“因變量y的殘差平方的倒數(shù)”構(gòu)建“權(quán)重系數(shù)”，并采取“加權(quán)最小平方法”擬合直線回歸模型且不含截距項(xiàng)(因?yàn)榻鼐囗?xiàng)無(wú)統(tǒng)計(jì)學(xué)意義，需刪除)，其擬合效果最佳。

3.4.2 多重線性回歸分析問(wèn)題

3.4.2.1 問(wèn)題與數(shù)據(jù)結(jié)構(gòu)

【例2】沿用前面的“表1資料”，設(shè)y代表“低密度脂蛋白”，x1～x4分別代表表1中第2列至第5列上的4種“載脂蛋白”，試建立y依賴4個(gè)自變量的多重線性回歸模型。

3.4.2.2 所需要的SAS程序

data a1;

input idx1-x4y@@;

wy=1/y**2;

cards;

11731067.014.713721391326.417.816231981126.916.713441181387.115.71885139948.613.6138617516012.120.3215713115411.221.517181581419.729.614891581377.418.2197101321517.517.2113111621106.015.91451214411310.142.881131621377.220.7185141691298.516.7157151291386.310.11971616614811.533.4156171851186.017.5156181551216.120.4154191751114.127.2144201361109.426.090211531338.516.9215221101499.524.718423160865.310.8118241121238.016.6127251471108.518.4137262041226.121.0126271311026.613.4130281701278.424.7135291731238.719.01883013213113.829.2122

;

run;

/*不加權(quán)且保留截距項(xiàng)，三種常規(guī)篩選方法所得結(jié)果相同，僅留一種*/

proc reg data=a1;

modely=x1-x4/selection=backward sls=0.05r;

title1'此處創(chuàng)建的是模型1';

quit;

/*不加權(quán)且不保留截距項(xiàng)，三種常規(guī)篩選方法所得結(jié)果相同，僅留一種*/

/*數(shù)據(jù)集aaa中包含各樣品點(diǎn)上的殘差resid1*/

proc reg data=a1;

modely=x1-x4/noint selection=backward sls=0.05r;

output out=aaa residual=resid1;

title1'此處創(chuàng)建的是模型2';

quit;

/*以下程序基于aaa數(shù)據(jù)集，用殘差平方的倒數(shù)作為權(quán)重系數(shù)*/

/*這實(shí)際上就是做了一次加權(quán)多重線性回歸分析*/

data a2;

set aaa;

wr1=1/resid1**2;

run;

proc reg data=a2;

modely=x1-x4/noint selection=backward sle=0.05r;

weightwr1;

title1 '此處創(chuàng)建的是模型3';

quit;

/*加權(quán)且保留截距項(xiàng)，三種常規(guī)篩選方法所得結(jié)果相同，僅留一種*/

proc reg data=a1;

modely=x1-x4/selection=backward sls=0.05r;

weightwy;

title1'此處創(chuàng)建的是模型4';

quit;

/*加權(quán)且不保留截距項(xiàng)，三種常規(guī)篩選方法所得結(jié)果相同，僅留一種*/

/*數(shù)據(jù)集bbb中包含各樣品點(diǎn)上的殘差resid2*/

proc reg data=a1;

modely=x1-x4/noint selection=backward sls=0.05r;

weightwy;

output out=bbb residual=resid2;

title1'此處創(chuàng)建的是模型5';

quit;

/*以下程序基于bbb數(shù)據(jù)集，用殘差平方的倒數(shù)作為權(quán)重系數(shù)*/

/*這實(shí)際上就是做了第二次加權(quán)多重線性回歸分析*/

data b2;

set bbb;

wr2=1/resid2**2;

run;

proc reg data=b2;

modely=x1-x4/noint selection=backward sle=0.05r;

weightwr2;

title1'此處創(chuàng)建的是模型6';

quit;

3.4.2.3 主要計(jì)算結(jié)果匯總

“普通最小平方法”和“加權(quán)最小平方法”擬合多重線性回歸模型的參數(shù)估計(jì)結(jié)果見(jiàn)表8。

表8 普通與加權(quán)最小平方法擬合多重線性回歸模型的參數(shù)估計(jì)值等內(nèi)容比較

由表8可知：模型1和模型4均不夠理想，因?yàn)樗鼈兌及藷o(wú)統(tǒng)計(jì)學(xué)意義的截距項(xiàng)；模型2與模型3具有可比性，但模型3中參數(shù)的標(biāo)準(zhǔn)誤小于模型2中參數(shù)的標(biāo)準(zhǔn)誤，稍好一些；同理，模型6比模型5更好。

那么模型3與模型6哪一個(gè)更好？為回答這個(gè)問(wèn)題，需要列出與“擬合優(yōu)度”有關(guān)統(tǒng)計(jì)量的計(jì)算結(jié)果，見(jiàn)表9。

表9 普通與加權(quán)最小平方法擬合多重線性回歸模型的擬合優(yōu)度內(nèi)容比較

在表9中，NI代表模型中自變量的個(gè)數(shù)，Cp值越接近模型中自變量的個(gè)數(shù)，表明模型對(duì)資料的擬合度越好。模型3與模型6相比，R2和調(diào)整R2都比較接近；模型6的均方根誤差小于模型3的均方根誤差；特別是Cp值，說(shuō)明模型6優(yōu)于模型3。

3.4.2.4 本例小結(jié)

模型1和模型2都是基于普通最小平方法建模，前者保留截距項(xiàng)，后者不保留截距項(xiàng)；模型3僅采取殘差平方的倒數(shù)為“權(quán)重系數(shù)”，進(jìn)行了一次“加權(quán)最小平方法構(gòu)建回歸模型”；模型4和模型5都是基于因變量y平方的倒數(shù)為“權(quán)重系數(shù)”，進(jìn)行了第一次“加權(quán)最小平方法構(gòu)建回歸模型”；而模型6在模型5的基礎(chǔ)上，又基于殘差平方的倒數(shù)為“權(quán)重系數(shù)”，進(jìn)行了第二次“加權(quán)最小平方法構(gòu)建回歸模型”。最終的結(jié)論是：基于兩次加權(quán)回歸分析得到的模型6優(yōu)于其他模型。其回歸模型為：

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

回歸建模的基礎(chǔ)與要領(lǐng)(Ⅳ)——樣品狀態(tài)與相互間關(guān)系

1 概 述

2 樣品狀態(tài)

2.1 單個(gè)體型樣品

2.2 多個(gè)體型樣品

3 樣品間相互關(guān)系

3.1 概述

3.2 樣品的同質(zhì)性與異常點(diǎn)

3.3 可用于構(gòu)造“權(quán)重系數(shù)”的常見(jiàn)“依據(jù)”[3，6]

3.4 實(shí)例演示

回歸建模的基礎(chǔ)與要領(lǐng)(Ⅳ)
——樣品狀態(tài)與相互間關(guān)系

1 概述

3.3 可用于構(gòu)造“權(quán)重系數(shù)”的常見(jiàn)“依據(jù)”[3，6]