亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        提高回歸模型擬合優(yōu)度的策略(Ⅰ)
        ——啞變量變換與其他變量變換

        2019-03-29 03:03:16胡良平
        四川精神衛(wèi)生 2019年1期
        關(guān)鍵詞:因變量頻數(shù)名義

        胡良平

        (1.軍事醫(yī)學(xué)科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會,北京 100029

        1 變量變換的必要性及變換方法

        1.1 多值名義變量的變量變換

        1.1.1 選擇合適變量變換方法的必要性

        在進(jìn)行回歸分析時(shí),若自變量中有“多值名義變量”(如職業(yè)、血型、儀器品牌等),其具體的“表現(xiàn)或水平”不能用“文字”或“字母”表示,也不能簡單地賦值“1、2、3……”前者無法參與統(tǒng)計(jì)計(jì)算,而后者將會導(dǎo)致計(jì)算結(jié)果錯(cuò)誤。那么,究竟應(yīng)該對“多值名義變量”進(jìn)行什么樣的變量變換呢?本文將介紹常規(guī)做法,即進(jìn)行“啞變量變換”。

        在回歸分析中應(yīng)如何處置“多值有序變量”?在統(tǒng)計(jì)學(xué)上,人們認(rèn)為:直接采用多值有序變量各水平的數(shù)值為其取值,例如:假定x代表“腫瘤分級”,依據(jù)臨床專業(yè)知識,已知它可以分為五級,于是,認(rèn)為 x的取值就是“1、2、3、4、5”。依據(jù)基本常識可知,這樣的做法是不妥的。因?yàn)楫?dāng)腫瘤處于不同等級,其對結(jié)果的影響可能不是“線性關(guān)系”,很可能是較復(fù)雜的“非線性關(guān)系”。因此,應(yīng)將“多值有序自變量”視為“多值名義自變量”,采用合適的變量變換方法。

        1.1.2 對多值名義變量進(jìn)行“啞變量變換”

        所謂啞變量變換,就是將一個(gè)具有k個(gè)水平的多值名義變量轉(zhuǎn)換成(k-1)個(gè)新變量,每個(gè)新變量都是一個(gè)“二值變量(即僅有兩個(gè)不同取值的變量)”。這些新變量像“啞巴”一樣,其中的每一個(gè)都攜帶著原變量的一部分信息,在計(jì)算中發(fā)揮一定的作用,但又不能完全取代原變量,故它們都被形象地稱為“啞變量”。

        實(shí)施啞變量變換的方法是:選擇一個(gè)頻率高的水平作為“基準(zhǔn)水平”,其他水平都與該基準(zhǔn)水平作比較而產(chǎn)生一個(gè)“比較變量”(即啞變量)。例如:在ABO血型系統(tǒng)中,假定在樣本資料中屬于O型血的人數(shù)最多,就可以以“O型血的人”為“基準(zhǔn)水平”,其他三種血型的人相對于O型血的人分別產(chǎn)生一個(gè)“啞變量”。簡化形式呈現(xiàn)如下:

        個(gè)體編號血型XA|OXB|OXAB|O1A1002B0103AB0014O000

        在上面的簡化形式中,“XA|O、XB|O、XAB|O”這三個(gè)變量都是與“血型”這個(gè)4值名義變量對應(yīng)的“啞變量”,它們分別代表“是否為A型血”“是否為B型血”和“是否為AB型血”。

        1.1.3 對多值名義變量進(jìn)行“其他變量變換”

        在進(jìn)行回歸分析中,上面的“啞變量變換”已經(jīng)成為統(tǒng)計(jì)學(xué)界處置“多值名義自變量”的“金標(biāo)準(zhǔn)”。是否還有更合理的“變量變換”方法可以取代“啞變量變換”呢?此問題將在本期“科研方法專題”的另三篇文章中深入討論。

        1.2 定量變量的變量變換

        1.2.1 選擇合適變量變換方法的必要性

        通常情況下,人們在進(jìn)行回歸分析時(shí),對于定量的自變量和/或因變量不作任何變換。然而,由基本常識可知,前述做法是不切實(shí)際的,通常情況下,效果是不夠好的。因?yàn)樽兞恐g的關(guān)系往往是錯(cuò)綜復(fù)雜的,它們之間永遠(yuǎn)以“一次方”形式存在聯(lián)系的可能性是非常罕見的。因變量Y可能與某個(gè)自變量之間是拋物線關(guān)系、指數(shù)曲線關(guān)系或?qū)?shù)曲線關(guān)系;因變量Y本身可能偏離正態(tài)分布很遠(yuǎn),而很多統(tǒng)計(jì)模型要求因變量必須服從正態(tài)分布。因此,需要對定量因變量作合適的變量變換,以使其符合特定統(tǒng)計(jì)模型的基本要求;需要對某些定量自變量作合適的變量變換,以更真實(shí)地呈現(xiàn)其與定量因變量之間的變化趨勢。

        1.2.2 對定量自變量進(jìn)行兩方面的變量變換

        第一方面的變量變換就是對某定量自變量作了某種變量變換后,丟棄原先的那個(gè)自變量,而僅采用變換后的變量。例如:建模時(shí),只用“l(fā)og(x1)”,而丟棄“x1”。第二方面的變量變換就是不僅用變換后的變量,還保留未變換的原變量。這樣做的結(jié)果會使自變量的數(shù)目大大增加,常稱為產(chǎn)生“派生變量”。例如:假定有10個(gè)定量變量,可以給它們都取對數(shù)變換,就會增加10個(gè)新變量;也可以對10個(gè)變量進(jìn)行平方變換或平方根變換;還可以基于10個(gè)定量變量產(chǎn)生交叉乘積項(xiàng)等。

        1.2.3 對定量因變量進(jìn)行變量變換

        在通常情況下,人們進(jìn)行的是“一元多重回歸分析”,因此,若對定量因變量進(jìn)行變量變換,在回歸建模時(shí),只使用變換后的因變量,而不會同時(shí)使用原先的“因變量”與變換后的因變量(因?yàn)檫@樣做已經(jīng)把“一元”問題轉(zhuǎn)變成“二元”問題了)。

        何時(shí)需要對定量因變量進(jìn)行變換呢?通常在以下兩種情況之一:其一,已知因變量與自變量之間呈某種函數(shù)關(guān)系,就選擇相應(yīng)的變量變換方法。例如:當(dāng)因變量與自變量之間呈“指數(shù)函數(shù)”變化關(guān)系時(shí),就可以對因變量取對數(shù)變換;其二,當(dāng)定量因變量(嚴(yán)格地說,應(yīng)該是模型的誤差項(xiàng))偏離正態(tài)分布很遠(yuǎn)時(shí),需要選擇一種合適的變量變換方法,目的是使變換后的因變量服從模型所要求的某種概率分布,如正態(tài)分布、指數(shù)分布或威布爾分布等。

        2 實(shí)際問題與數(shù)據(jù)結(jié)構(gòu)

        2.1 實(shí)際問題

        研究者關(guān)心的定量結(jié)果變量為“氧化氮釋放量(nox)”,該定量指標(biāo)的數(shù)值測自單缸發(fā)動機(jī)。已知影響因素有:燃油種類(fuel)、壓縮比(cpratio)和等值比(eqratio)。其中,燃油種類(fuel)是多值名義變量,而氧化氮釋放量(nox)、壓縮比(cpratio)和等值比(eqratio)都是計(jì)量變量。該資料來自SAS軟件中的“幫助”數(shù)據(jù)庫,數(shù)據(jù)集名為:sashelp.gas。

        試以“氧化氮釋放量(nox)”為因變量,以“燃油種類(fuel)、壓縮比(cpratio)和等值比(eqratio)”為自變量,創(chuàng)建一元多重回歸模型。

        【說明】該實(shí)際問題和對應(yīng)的數(shù)據(jù)來源于“SAS/STAT的TRANSREG過程中的樣例及SASHELP數(shù)據(jù)庫,其數(shù)據(jù)集名為sashelp.gas”[1]。

        2.2 數(shù)據(jù)結(jié)構(gòu)

        利用以下SAS程序可以顯示該例的數(shù)據(jù)結(jié)構(gòu):

        proc print data=sashelp.gas;

        run;

        【燃油資料的數(shù)據(jù)結(jié)構(gòu)】

        ObsFuelCpRatioEqRatioNOx1Ethanol120.9073.7412Ethanol120.7612.2953Ethanol121.1081.4984Ethanol121.0162.8815Ethanol121.1890.760

        以上顯示出數(shù)據(jù)集的前5個(gè)觀測,全部資料共171個(gè)觀測。其中,在結(jié)果變量nox上有兩個(gè)缺失值。

        利用如下SAS程序可以顯示三個(gè)自變量(一個(gè)為多值名義自變量、一個(gè)為多值有序自變量、一個(gè)為定量自變量)及定量結(jié)果變量(nox)的頻數(shù)分布情況:

        proc freq data=sashelp.gas;

        tables fuel eqratio cpratio nox;

        run;

        【燃油種類的頻數(shù)分布】

        Fuel頻數(shù)百分比累積頻數(shù)累積百分比82rongas95.2695.2694%Eth2514.623419.88Ethanol9052.6312472.51Gasohol137.6013780.12Indolene2212.8715992.98Methanol127.02171100.00

        以上結(jié)果表明:共有6種燃油,其中,頻數(shù)最多的是“Ethanol”,涉及此種燃油的觀測共有90個(gè)。

        【壓縮比的頻數(shù)分布】

        Compression RatioCpRatio頻數(shù)百分比累積頻數(shù)累積百分比7.59354.399354.399179.9411064.33122414.0413478.36152011.7015490.0618179.94171100.00

        以上結(jié)果表明:壓縮比只有5種,屬于“多值有序”變量(注意:以下簡稱為“定量變量”)。其中,頻數(shù)最多的是“7.5”,涉及此種壓縮比的觀測共有93個(gè)。

        等值比(eqratio)與氧化氮釋放量(nox)的取值都很多,其頻數(shù)分布表此處從略;但利用下面的SAS程序可以顯示這兩個(gè)變量的頻數(shù)分布直方圖,同時(shí),還可以對它們進(jìn)行正態(tài)性檢驗(yàn):

        proc univariate data=sashelp.gas normal;

        var eqratio nox;

        histogram eqratio nox/normal;

        run;

        【等值比的正態(tài)性檢驗(yàn)結(jié)果】

        正態(tài)性檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量PShapiro-WilkW0.969774PrD0.0941Cramer-von MisesW-Sq0.196943Pr>W-Sq0.0058Anderson-DarlingA-Sq1.289752Pr>A-Sq<0.0050

        以上結(jié)果表明:等值比不服從正態(tài)分布。

        等值比的頻數(shù)分布直方圖見圖1。由圖1可知,等值比呈“負(fù)偏態(tài)分布”

        【氧化氮釋放量的正態(tài)性檢驗(yàn)結(jié)果】

        正態(tài)性檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量PShapiro-WilkW0.945485PrD<0.0100Cramer-von MisesW-Sq0.336953Pr>W-Sq<0.0050Anderson-DarlingA-Sq2.431071Pr>A-Sq<0.0050

        以上結(jié)果表明:氧化氮釋放量不服從正態(tài)分布。

        氧化氮釋放量的頻數(shù)分布直方圖見圖2。由圖2可知:氧化氮釋放量呈“正偏態(tài)分布”。

        圖1 等值比的頻數(shù)分布直方圖 圖2 氧化氮釋放量的頻數(shù)分布直方圖

        3 變量變換,為回歸建模做準(zhǔn)備工作

        3.1 對“燃油種類(fuel)”這個(gè)6值名義自變量進(jìn)行啞變量變換[2]

        選擇出現(xiàn)頻數(shù)最多的水平“Ethanol”為“基準(zhǔn)”,產(chǎn)生5個(gè)啞變量:g1到g5。實(shí)現(xiàn)此任務(wù)的SAS程序如下:

        data a1;

        set sashelp.gas;

        g1=0;g2=0;g3=0;g4=0;g5=0;

        if fuel=' 82rongas' then g1=1;

        else if fuel=' 94%Eth' then g2=1;

        else if fuel=' Gasohol' then g3=1;

        else if fuel=' Indolene' then g4=1;

        else if fuel=' Methanol' then g5=1;

        run;

        g1到g5分別代表:“是否為82rongas燃油”“是否為94%Eth燃油”“是否為Gasohol燃油”“是否為Indolene燃油”和“是否為Methanol燃油”。

        3.2 產(chǎn)生派生變量[3]

        在數(shù)據(jù)集a1基礎(chǔ)上增加由定量自變量派生出來的13個(gè)新變量,產(chǎn)生數(shù)據(jù)集a2。SAS程序如下:

        data a2;

        set a1;

        x1=eqratio**2;x2=eqratio*cpratio;

        x3=cpratio**2;x4=x1*eqratio;

        x5=x3*cpratio;x6=x1*cpratio;

        x7=x3*eqratio;x8=sqrt(eqratio);

        x9=sqrt(cpratio);x10=log(eqratio);

        x11=log(cpratio);x12=exp(eqratio);

        x13=exp(cpratio);

        run;

        【說明】cpratio和eqratio是資料中兩個(gè)原始的定量自變量;x1、x4、x8、x10、x12分別是“eqratio”的平方變換、立方變換、平方根變換、自然對數(shù)變換和指數(shù)變換的結(jié)果;x3、x5、x9、x11、x13分別是“cpratio”的平方變換、立方變換、平方根變換、自然對數(shù)變換和指數(shù)變換的結(jié)果;x2是“eqratio”與“cpratio”的交叉乘積項(xiàng);x6是“eqratio”的平方項(xiàng)與“cpratio”的交叉乘積項(xiàng);而x7是“cpratio”的平方項(xiàng)與“eqratio”的交叉乘積項(xiàng)。

        3.3 對定量因變量進(jìn)行5種變量變換

        在數(shù)據(jù)集a2基礎(chǔ)上同時(shí)增加定量因變量的對數(shù)變換y1、平方根變換y2、指數(shù)變換y3、倒數(shù)變換y4和Logistic變換y5,產(chǎn)生數(shù)據(jù)集a3。SAS程序如下:

        data a3;

        set a2;

        y1=log(nox);y2=sqrt(nox);y3=exp(nox);

        y4=1/nox;y5=exp(nox)/(1+exp(nox));

        run;

        4 以“啞變量變換”為基礎(chǔ)的回歸建模

        4.1 回歸建模策略概述

        對一個(gè)“多值名義自變量”采取“啞變量變換”,以其為基礎(chǔ),再分別選取定量因變量(nox)的6種不同“表現(xiàn)”為每次建模的“因變量”,并對定量自變量在“不做變量變換”和“引入13個(gè)派生變量”且分別在回歸模型中假定“包含截距項(xiàng)”與“不含截距項(xiàng)”的條件下,采取“前進(jìn)法”“后退法”和“逐步法”篩選自變量。

        4.2 定量因變量(nox)的6種不同“表現(xiàn)”

        定量因變量(nox)的6種不同“表現(xiàn)”分別是:①定量因變量(nox),即對“定量因變量(nox)”不做變量變換;②定量因變量[y1=log(nox)],即對“定量因變量(nox)”做自然對數(shù)變換;③定量因變量[y2=SQRT(nox)],即對“定量因變量(nox)”做平方根變換;④定量因變量[y3=exp(nox)],即對“定量因變量(nox)”做指數(shù)變換;⑤定量因變量(y4=1/nox),即對“定量因變量(nox)”做倒數(shù)變換;⑥定量因變量{y5=exp(nox)/[1+exp(nox)]},即對“定量因變量(nox)”做Logistic變換。

        4.3 在定量因變量(nox)每種“表現(xiàn)”下找出4個(gè)“最優(yōu)回歸模型”

        在定量因變量(nox)每種“表現(xiàn)”且分別在定量自變量“不做變換”與“引入派生變量”的條件下,再在回歸模型中假定“包含截距項(xiàng)”與“不含截距項(xiàng)”時(shí),分別采取“前進(jìn)法”“后退法”和“逐步法”篩選自變量。這實(shí)際上就有“2×2×3=12”個(gè)回歸模型,它們分屬于4種情形:①“定量自變量不做變換”且假定“包含截距項(xiàng)”;②“定量自變量不做變換”且假定“不含截距項(xiàng)”;③“定量自變量做變換”且假定“包含截距項(xiàng)”;④“定量自變量做變換”且假定“不含截距項(xiàng)”。每種情形都涉及3種篩選自變量的方法,最多有3種不同的回歸模型,從中選取一個(gè)擬合最好的回歸模型。

        所以,在每種特定的因變量條件下,就對應(yīng)著4個(gè)“最優(yōu)回歸模型”;故在因變量的6種條件下,一共有24個(gè)“最優(yōu)回歸模型”。見表1。

        表1 反映24個(gè)多重回歸模型擬合優(yōu)度的計(jì)算結(jié)果

        續(xù)表1:

        第5組模型:對定量因變量做倒數(shù)變換170.0891 0.0781 0.37187 2.5112 2 有180.58300.5780 0.37923 2.2523 2 無190.8285 0.8199 0.0726513.5416 8 有200.9243 0.9185 0.0732018.7606 12 無第6組模型:對定量因變量做Logistic變換210.0856 0.0746 0.01436 7.06592 2 有220.9545 0.9525 0.03543 7.00000 7 無230.9539 0.9504 0.0007715.4067 12 有240.9991 0.9990 0.0007616.1852 16 無

        注:第1組模型對應(yīng)的因變量為“氧化氮釋放量(nox)”;第2組模型對應(yīng)的因變量為“氧化氮釋放量的自然對數(shù)變換結(jié)果(y1)”;第3組模型對應(yīng)的因變量為“氧化氮釋放量的平方根變換結(jié)果(y2)”;第4組模型對應(yīng)的因變量為“氧化氮釋放量的指數(shù)變換結(jié)果(y3)”;第5組模型對應(yīng)的因變量為“氧化氮釋放量的倒數(shù)變換結(jié)果(y4)”;第6組模型對應(yīng)的因變量為“氧化氮釋放量的Logistic變換結(jié)果(y5)”

        5 擬合優(yōu)度評價(jià)標(biāo)準(zhǔn)與評價(jià)結(jié)果

        5.1 回歸模型擬合優(yōu)度高低的評價(jià)標(biāo)準(zhǔn)

        一般來說,當(dāng)模型中包含的自變量數(shù)目相等且都包含截距項(xiàng)或都不含截距項(xiàng)時(shí),R2值越大越好;此時(shí),Cp值越接近自變量個(gè)數(shù)越好;當(dāng)保留在模型中的自變量個(gè)數(shù)相差較多時(shí),在前述判斷方法基礎(chǔ)上,再加上“均方誤差”(越小越好)和“調(diào)整R2”(越大越好),則更好。

        5.2 基于“啞變量變換與其他變量變換”回歸建模效果的評價(jià)

        5.2.1 第1組模型的擬合效果評價(jià)

        第1組模型對應(yīng)的因變量為“氧化氮釋放量”,模型1與模型2都是基于“5個(gè)啞變量加上2個(gè)定量自變量”進(jìn)行變量篩選,其區(qū)別在于模型1假定包含截距項(xiàng),而模型2假定不含截距項(xiàng);模型3與模型4都是基于“5個(gè)啞變量加上2個(gè)定量自變量及其13個(gè)派生變量”進(jìn)行變量篩選,其區(qū)別在于模型3假定包含截距項(xiàng),而模型4假定不含截距項(xiàng)。由表1中前4行結(jié)果可知:模型2優(yōu)于模型1、模型4優(yōu)于模型3,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型4優(yōu)于模型2,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

        5.2.2 第2組模型的擬合效果評價(jià)

        第2組模型對應(yīng)的因變量為“氧化氮釋放量的自然對數(shù)變換結(jié)果(y1)”,模型5與模型6都是基于“5個(gè)啞變量加上2個(gè)定量自變量”進(jìn)行變量篩選,其區(qū)別在于模型5假定包含截距項(xiàng),而模型6假定不包含截距項(xiàng);模型7與模型8都是基于“5個(gè)啞變量加上2個(gè)定量自變量及其13個(gè)派生變量”進(jìn)行變量篩選,其區(qū)別在于模型7假定包含截距項(xiàng),而模型8假定不包含截距項(xiàng)。由表1中第5~8行結(jié)果可知:模型6優(yōu)于模型5、模型8優(yōu)于模型7,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型8優(yōu)于模型6,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

        5.2.3 第3組模型的擬合效果評價(jià)

        第3組模型對應(yīng)的因變量為“氧化氮釋放量的平方根變換結(jié)果(y2)”,模型9與模型10都是基于“5個(gè)啞變量加上2個(gè)定量自變量”進(jìn)行變量篩選,其區(qū)別在于模型9假定包含截距項(xiàng),而模型10假定不包含截距項(xiàng);模型11與模型12都是基于“5個(gè)啞變量加上2個(gè)定量自變量及其13個(gè)派生變量”進(jìn)行變量篩選,其區(qū)別在于模型11假定包含截距項(xiàng),而模型12假定不包含截距項(xiàng)。由表1中第9~12行結(jié)果可知:模型10優(yōu)于模型9、模型12優(yōu)于模型11,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型12優(yōu)于模型10,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

        5.2.4 第4組模型的擬合效果評價(jià)

        第4組模型對應(yīng)的因變量為“氧化氮釋放量的指數(shù)變換結(jié)果(y3)”,模型13與模型14都是基于“5個(gè)啞變量加上2個(gè)定量自變量”進(jìn)行變量篩選,其區(qū)別在于模型13假定包含截距項(xiàng),而模型14假定不包含截距項(xiàng);模型15與模型16都是基于“5個(gè)啞變量加上2個(gè)定量自變量及其13個(gè)派生變量”進(jìn)行變量篩選,其區(qū)別在于模型15假定包含截距項(xiàng),而模型16假定不包含截距項(xiàng)。由表1中第13~16行結(jié)果可知:模型14優(yōu)于模型13、模型16優(yōu)于模型15,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型16優(yōu)于模型14,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

        5.2.5 第5組模型的擬合效果評價(jià)

        第5組模型對應(yīng)的因變量為“氧化氮釋放量的倒數(shù)變換結(jié)果(y4)”,模型17與模型18都是僅基于“3個(gè)定量自變量”進(jìn)行變量篩選,其區(qū)別在于模型17假定包含截距項(xiàng),而模型18假定不包含截距項(xiàng);模型19與模型20都是基于“3個(gè)定量自變量及其18個(gè)派生變量”進(jìn)行變量篩選,其區(qū)別在于模型19假定包含截距項(xiàng),而模型20假定不包含截距項(xiàng)。由表1中第17~20行結(jié)果可知:模型18優(yōu)于模型17、模型20優(yōu)于模型19,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型20優(yōu)于模型18,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

        5.2.6 第6組模型的擬合效果評價(jià)

        第6組模型對應(yīng)的因變量為“氧化氮釋放量的Logistic變換結(jié)果(y5)”,模型21與模型22都是僅基于3個(gè)定量自變量進(jìn)行變量篩選,其區(qū)別在于模型21假定包含截距項(xiàng),而模型22假定不包含截距項(xiàng);模型23與模型24都是基于3個(gè)定量自變量及其18個(gè)派生變量進(jìn)行變量篩選,其區(qū)別在于模型23假定包含截距項(xiàng),而模型24假定不包含截距項(xiàng)。由表1中第21~24行結(jié)果可知:模型22優(yōu)于模型21、模型24優(yōu)于模型23,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型24優(yōu)于模型22,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

        5.2.7各組模型中最優(yōu)模型擬合優(yōu)度總評價(jià)

        從以上的“評價(jià)結(jié)果”可知:模型4、模型8、模型12、模型16、模型20和模型24分別是從6組模型中挑選出來的“最優(yōu)模型”,現(xiàn)將它們從表1中摘錄出來,以便直觀比較和判斷。見表2。

        表2 各組挑選出來的6個(gè)“最優(yōu)”多重回歸模型擬合優(yōu)度的計(jì)算結(jié)果

        由表2可知:模型24是6個(gè)“最優(yōu)”模型中“最佳”的。該模型的因變量為“氧化氮釋放量(nox)的Logistic變換結(jié)果(y5)”,從全部(5+2+13=20個(gè))自變量中篩選出了16個(gè)具有統(tǒng)計(jì)學(xué)意義的自變量,模型中不含截距項(xiàng)。具體計(jì)算結(jié)果如下:

        方差分析源自由度平方和均方FPr > F模型16126.039047.8774410431.6<0.0001誤差1530.115540.00075515未校正合計(jì)169126.15458

        變量參數(shù)估計(jì)值標(biāo)準(zhǔn)誤差I(lǐng)I 型 SSFPr > Fg10.053670.009990.0217928.86<0.0001g30.060210.008660.0365048.33<0.0001g40.059570.007130.0527569.85<0.0001EqRatio2915.10929665.612980.0144819.18<0.0001CpRatio-932.92081221.155370.0134417.79<0.0001x1-591.67642128.766190.0159421.11<0.0001x2-0.096580.043720.003694.880.0287x329.765427.057010.0134317.79<0.0001x493.2702919.619880.0170722.60<0.0001x5-0.558000.132320.0134317.78<0.0001x60.072000.019400.0104013.770.0003x7-0.002270.001120.003074.070.0454x8-5597.266531310.349450.0137818.25<0.0001x93191.32640756.404990.0134417.80<0.0001x10785.94985188.216330.0131717.44<0.0001x136.991368E-71.657578E-70.0134317.79<0.0001

        輸出以上結(jié)果的“SAS過程步程序”如下:

        /*模型24:R2=0.9991,調(diào)整R2=0.9990,MSE=0.00075515,Cp=16.1852,niv=16,無截距項(xiàng)*/

        proc reg data=a3;

        model y5=g1-g5 eqratio cpratio x1-x13/noint

        selection=backward sls=0.05 r;

        /*模型24*/

        run;

        應(yīng)注意:全部啞變量共有5個(gè)(它們之間不是互相對立的),采用篩選自變量的方法,保留下來其中的3個(gè)。嚴(yán)格地說,由一個(gè)多值名義自變量產(chǎn)生的全部啞變量應(yīng)當(dāng)同時(shí)被保留在回歸模型中或同時(shí)被排除出回歸模型,但這兩種結(jié)局都存在局限性;而將有關(guān)聯(lián)性的5個(gè)啞變量視為“獨(dú)立”的,根據(jù)假設(shè)檢驗(yàn)結(jié)果保留其中的3個(gè),這個(gè)結(jié)果也存在弊端。如何更妥善地處置“多值名義自變量”,將在本期科研方法專題后續(xù)文章中繼續(xù)討論。

        猜你喜歡
        因變量頻數(shù)名義
        調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
        中國藥房(2022年7期)2022-04-14 00:34:30
        逆行,以生命的名義
        適應(yīng)性回歸分析(Ⅳ)
        ——與非適應(yīng)性回歸分析的比較
        以二胎的名義,享受生活
        好日子(2018年9期)2018-10-12 09:57:18
        偏最小二乘回歸方法
        中考頻數(shù)分布直方圖題型展示
        學(xué)習(xí)制作頻數(shù)分布直方圖三部曲
        頻數(shù)和頻率
        以創(chuàng)新的名義宣誓發(fā)展
        盜汗病治療藥物性味歸經(jīng)頻數(shù)分析
        亚洲无码激情视频在线观看| 久久久老熟女一区二区三区 | 亚洲日本va午夜在线电影| 亚洲国产精品500在线观看| 女同中文字幕在线观看| 日本av在线一区二区| 亚洲国色天香卡2卡3卡4| 在线天堂中文字幕| 精品黑人一区二区三区| 青青草成人在线播放视频| 日韩精品极品视频在线观看免费| 天天做天天爱天天综合网| 欧美片欧美日韩国产综合片| av网站免费在线浏览| 天堂中文最新版在线中文| 亚洲精品成人专区在线观看| 国产高清精品在线二区| 一区二区国产av网站| 水蜜桃精品一二三| 一级一级毛片无码免费视频| 一区二区亚洲精美视频| av无码精品一区二区三区| 成av人片一区二区三区久久| 激情 一区二区| 人妻少妇av中文字幕乱码| 久久久久亚洲精品无码网址蜜桃| 高清无码一区二区在线观看吞精| 性一交一乱一乱一视频亚洲熟妇 | 国产精品亚洲五月天高清| av黄片免费在线观看| 精品国产a一区二区三区v| 欧美精品videossex少妇| 日本免费一区二区三区在线看| 国产久久久自拍视频在线观看| 真实的国产乱xxxx在线| 精品熟女少妇av免费观看| 放荡人妻一区二区三区| 一区二区三区免费看日本| 色噜噜狠狠一区二区三区果冻| 日本少妇按摩高潮玩弄| 杨幂一区二区系列在线|