亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        第四講 回歸分析中的變量篩選技術(shù)及統(tǒng)計檢驗

        2016-09-13 05:05:22徐靜安徐淑惠
        上海化工 2016年8期
        關(guān)鍵詞:回歸系數(shù)回歸方程殘差

        徐靜安 徐淑惠

        技術(shù)講壇

        第四講回歸分析中的變量篩選技術(shù)及統(tǒng)計檢驗

        徐靜安徐淑惠

        回歸分析中的變量篩選技術(shù)是回歸分析技術(shù)得到廣泛應(yīng)用的一個突破,它將方差分析中的F檢驗和回歸分析技術(shù)進(jìn)行集成,形成一個新的算法,為工程應(yīng)用開拓了廣泛的前景。

        在筆者藏書中,涉及回歸分析中變量篩選技術(shù)的專著有:《概率統(tǒng)計計算》(中國科學(xué)院計算中心概率統(tǒng)計組編著,科學(xué)出版社,1979);《回歸分析及其試驗設(shè)計》(上海師范大學(xué)數(shù)學(xué)系概率統(tǒng)計教研組編,上海教育出版社,1978);《回歸分析方法》(中國科學(xué)院數(shù)學(xué)研究所數(shù)理統(tǒng)計組編,科學(xué)出版社,1974);《試驗優(yōu)化技術(shù)》(任露泉主編,機(jī)械工業(yè)出版社,1987);《應(yīng)用回歸分析》(盛承懋、李慧芬、錢君燕編譯,上??茖W(xué)技術(shù)文獻(xiàn)出版社,1989);《技術(shù)數(shù)理統(tǒng)計方法》(曾秋成編著,安徽科學(xué)技術(shù)出版社,1982);《均勻設(shè)計與均勻設(shè)計表》(方開泰著,科學(xué)出版社,1994);《正交與均勻試驗設(shè)計》(方開泰、馬長興著,科學(xué)出版社,2001);《生物統(tǒng)計學(xué)》(李春喜、姜麗娜、邵云、王文林編著,科學(xué)出版社,2005)。

        上述專著討論變量篩選技術(shù)均采用逐步回歸法,從逐步回歸的基本思想、數(shù)學(xué)模型、線性代數(shù)、計算框架、源程序等不同角度加以描述,各有側(cè)重。對于非應(yīng)用數(shù)學(xué)專業(yè)的工程技術(shù)人員,其遇到的困難可能在線性代數(shù)方面。20世紀(jì)70年代末筆者自學(xué),初次接觸矩陣轉(zhuǎn)置、求逆……時,也是“一頭霧水”。為了知道一點“所以然”,自行編寫程序,進(jìn)行工程應(yīng)用,花了不少時間、精力學(xué)習(xí)線性代數(shù)。

        新世紀(jì),隨著數(shù)據(jù)處理軟件的推廣應(yīng)用,逐步回歸法篩選變量技術(shù)得到進(jìn)一步的普及應(yīng)用,現(xiàn)已不需要自行編寫計算程序,所以從應(yīng)用角度推薦水泥凝固放熱的案例,資料摘錄自《六西格瑪管理統(tǒng)計指南——MINITAB使用指導(dǎo)》(馬逢時、周暐、劉傳冰編著,中國人民大學(xué)出版社,2007)。

        該案例是著名統(tǒng)計學(xué)家Hald于1952年給出的,被多本專著引用,采用不同的軟件計算,結(jié)果相同。該案例把逐步回歸的基本思想、自變量的篩選過程、回歸模型的評價等描述得比較清晰,所以本文僅作簡單解讀。

        一、案例簡介

        計算響應(yīng)值y的發(fā)熱量。

        13組不同成分組合水泥凝固時的發(fā)熱量數(shù)據(jù)見表1。首先要對自變量有專業(yè)的認(rèn)識,自變量之間可能存在相關(guān)性。

        表1 不同成分組合水泥凝固時散熱量數(shù)據(jù)記錄

        方法一:采用一般的多元回歸分析方法

        線性全回歸方程為:

        散熱量=62.4+1.55x1+0.510x2+0.102x3-0.144x4回歸系數(shù)顯著性檢驗:

        回歸總效果度量:

        回歸方程顯著性檢驗:

        從對回歸方程的顯著性檢驗結(jié)果來看,P值=0<α=0.05,說明回歸方程總效果是顯著的。但從回歸系數(shù)檢驗輸出來看,自變量x1,x2,x3,x4的P值都大于α=0.05,都不顯著,這就牽涉到如何分析各回歸變量系數(shù)檢驗結(jié)果的問題。在各回歸變量的系數(shù)檢驗中,P>0.05為不顯著,相對應(yīng)變量x應(yīng)予刪除,而不進(jìn)入統(tǒng)計模型。本例先刪除x3,又刪除x4,修整后回歸方程為:

        散熱量=52.6+1.47x1+0.662x2

        方法二:采用逐步回歸法

        逐步回歸分析方法的基本思想就是讓計算機(jī)參與多元回歸分析中的自變量篩選工作。篩選的方法有三種:

        (1)“向前選擇法”。思路是:逐個引入自變量,先選入對y影響最大(P值最小)者,再從其余自變量中尋找影響次最大(P值次最小)者,直到無任何變量P值小于指定的“選入α值”可以被引入為止。在向前選擇方法中,自變量一旦被加進(jìn)回歸模型就不再被刪除。

        (2)“向后消除法”。思路是:一開始引入全部自變量,對于P值大于指定的“刪除α值”者,進(jìn)行逐個刪除,直至不能再刪除為止(該方法就如同方法一的修整)。

        (3)“逐步法(向前和向后)”。思路是:自變量逐個引入,邊引入邊檢查已引入自變量中最大的P值是否已大于指定的“刪除α值”,若大于,則從模型中刪除該項,再重復(fù)上述過程。如果沒有任何自變量可以刪除,則會嘗試再加入一個新的自變量,重復(fù)上述過程,直至不能再引入乜不能再刪除為止。

        分析證明,幾種方法的最終結(jié)果可能略有不同,以逐步法為最優(yōu)。該案例是采用MINITAB軟件進(jìn)行計算。

        逐步回歸:散熱量與x1,x2,x3,x4

        入選用Alpha:0.15;刪除用Alpha:0.15(計算機(jī)默認(rèn))

        響應(yīng)為4個自變量上的散熱量,N=13

        二、案例解讀

        原案例采用多元線性(一次項)回歸方法,對計算機(jī)輸出解讀非常重要、非常精彩,值得一讀,本文不重復(fù)?,F(xiàn)對回歸方程顯著性檢驗、回歸總效果度量、回歸系數(shù)、顯著性檢驗的相關(guān)指標(biāo)進(jìn)行說明(數(shù)據(jù)取自方法一線性全回歸模型)。

        (1)P值一般和顯著性水平一致,取其值為α=0.05,0.01,P>0.05,不顯著。

        (2)回歸方程的方差為:

        按回歸方程變量自由度DFA=4,誤差自由度DFE=8,查F分布表,其相應(yīng)臨界值為:,高度顯著。

        R(2決定系數(shù))是傳統(tǒng)回歸總效果變量值,其臨界值也可查相關(guān)系數(shù)臨界值表。

        回歸方程自變量個數(shù)m=4,樣本量n=13,

        查表得R=0.811,R2=0.652<0.982,回歸方程有顯著意義。

        此處P為進(jìn)入模型的變量個數(shù)(包括常數(shù)項)。當(dāng)前,度量回歸模型的擬合效果時,很看重R2(調(diào)整)值,它能反映模型總項數(shù)的影響。

        此處,S為回歸方程擬合殘差標(biāo)準(zhǔn)差。

        概念上,在同類型回歸模型擬合時,希望S越小越好;數(shù)量上,它是上述討論的各指標(biāo)中唯一沒有臨界值的一個指標(biāo)。但相對指標(biāo)還是有的,由于正態(tài)分布的誤差,在(y±2S)范圍內(nèi)包含95%的數(shù)據(jù);同時變異系數(shù),不同專業(yè)有不同的要求,本案例為CV=2%~4%,可以接受。

        (6)該案例回歸總效果變量、回歸方程顯著性檢驗均有顯著性意義,但自變量回歸系數(shù)顯著性檢驗均不顯著,原因在于自變量之間存在相關(guān)性。相關(guān)分析:x1,x2,x3,x4

        結(jié)果說明:x1與x3,x2與x4都高度負(fù)相關(guān),原本在4個變量都包含在方程中時,刪除任何一個變量對整個方程的影響都不大,但刪除x3之后,x1就是顯著的了;同理,刪除x4之后,x2可能就顯著了。

        從案例的相關(guān)分析可以看出,X1與X3相關(guān)系數(shù)r=-0.824、P值=0.001<0.05;X2與X4的相關(guān)系數(shù)r=-0.973、P值=0,都是高度顯著負(fù)相關(guān)。相關(guān)分析結(jié)果和化學(xué)組分的專業(yè)認(rèn)識是一致的。

        三、求取“最優(yōu)”回歸模型解析

        1從所有可能的變量組合中人工挑選最優(yōu)我們首先估計工作量,本案例有4個變量。如果按普適性的二次多項式考慮,可形成項,可能形成的回歸方程有214-1=16 383個組合,事實上難以操作。案例根據(jù)經(jīng)驗只考慮一次項的多項式回歸,可能形成24-1=15個回歸方程。計算結(jié)果見資料《回歸分析及其試驗設(shè)計》、見表2。在15個方程中σ2=S2=MSE最小的為第12個方程,但b2有一定的影響,b4不顯著,經(jīng)過綜合檢驗,確定第5個方程為“最優(yōu)”。

        2逐個刪除不顯著變量

        案例方法一很清晰地演示、解讀了刪除過程,得到了:

        這里需要強(qiáng)調(diào)指出的是,如果按普適性的二次多項式考慮,形成m=14大于實驗樣本量n=13,就無法進(jìn)行逐個刪除。案例僅考慮一次項m=4,小于n=13,可逐個刪除不顯著變量。

        由此可以看出,如果自變量較多,再考慮二次多項式,人工逐個刪除不顯著變量的工作量也是非常大的。

        表2 考慮一次項的多項式回歸方程計算結(jié)果

        3采用逐步回歸法

        前進(jìn)法是“只進(jìn)不出”,后退法是“只出不進(jìn)”,在自變量相關(guān)性復(fù)雜的情況下,還是“有進(jìn)有出”的逐步法為優(yōu)選。

        MINITAB軟件在逐步回歸計算結(jié)果輸出時,有一個Mallows Cp值。該值以接近進(jìn)入模型的變量項數(shù)(包括常數(shù)項)為好。

        案例采用逐步回歸法,Mallows Cp值的變化為138.7→5.5→3.0→2.7,此時進(jìn)入模型的量有x1,x2及常數(shù)項共3項,Cp值最為接近。Cp值可以輔助判斷變量的引入或刪除。

        案例采用前進(jìn)法、后退法及逐步法時,選用了不同的引入、刪除變量F檢驗的顯著性水平α值,分別為0.25,0.10,0.15,事實上不同軟件設(shè)置的默認(rèn)值也不相同。但是不影響回歸方程顯著性及回歸系數(shù)顯著性檢驗時,公認(rèn)的標(biāo)準(zhǔn)為p=α≤0.05。

        對于離散性較大的工程數(shù)據(jù)、宏觀統(tǒng)計數(shù)據(jù),也有α=0.10的報道。

        逐步回歸法獲得模型y=52.58+1.47x1+0.662x2,結(jié)果見表3。

        為了進(jìn)一步的討論,筆者和在讀研究生徐淑惠同學(xué)采用DPS軟件進(jìn)行計算、解讀。

        表3 DPS逐步回歸法計算結(jié)果

        四、用DPS軟件進(jìn)行驗證性計算

        點擊:多元分析——回歸分析——逐步回歸,計算輸出結(jié)果和MINITAB等計算結(jié)果一致。

        需要說明的是:

        (1)DPS系統(tǒng)在逐步回歸計算時,采用浮動Fα臨界值的方法,計算軟件自動調(diào)整Fα值以保證選入一個自變量因子。然后軟件在α=0.10條件下逐步引入或剔除變量。

        如果入選的自變量數(shù)目不多,可以人為干預(yù)降低引入門檻,如在α=0.15等條件下篩選變量,反之亦然。

        (2)DPS系統(tǒng)在逐步回歸計算輸出時,除了①回歸系數(shù)顯著性檢驗;②回歸總效果變量;③回歸方程顯著性檢驗;還給出了④擬合誤差(殘差)表。在統(tǒng)計檢驗具有顯著性意義的前提下,由擬合誤差表可以大致分析出是否存在可疑的異常點、特殊地位的杠桿點,以免影響模型的穩(wěn)定性。本案例擬合誤差最大的樣本6擬合誤差的絕對值為4.047 5<2~2.5 S,且CV=s=2%~4%,相對于本模型觀察數(shù)據(jù)yˉ正常。如果不正常,則需要進(jìn)行進(jìn)一步的分析討論。

        (3)DPS系統(tǒng)在逐步回歸計算輸出時,還輸出了Durbin-Watson統(tǒng)計量d,這是當(dāng)前回歸分析統(tǒng)計檢驗中殘差診斷的一個重要統(tǒng)計量(0<d<4)。如果d接近0,表示殘差存在正相關(guān);d接近4,表示殘差存在負(fù)相關(guān);d接近2,表示殘差相互獨立。本案例d=1.92,模型正常。如果不正常,就要對自變量進(jìn)行變換,修正模型,如選用高次方程等。結(jié)果見表4。

        五、模型預(yù)測結(jié)果的整體估計

        討論解讀至此,本文的重點是在多元回歸分析中如何采用一種較優(yōu)的方法——逐步回歸法篩選因子變量,獲得“最優(yōu)”的回歸統(tǒng)計模型。多項統(tǒng)計檢驗證明,本模型是有顯著性意義的、正常的、合理的。這些討論解讀還只是局限在模型對實驗觀察值的擬合效果范圍內(nèi)的。我們求取統(tǒng)計模型(求取理論模型、半經(jīng)驗?zāi)P偷南鄳?yīng)系數(shù))的目的一是求得極值,二是將模型用于控制或仿真,這均涉及到模型預(yù)測結(jié)果的整體估計。

        表4 擬合結(jié)果

        擬合不好的模型,預(yù)報效果一定不好;擬合好的模型,預(yù)測效果可能好,也可能不好。對于模型預(yù)測結(jié)果的整體估計Press及驗證實驗,另有案例討論。此外,本案例統(tǒng)計建模沒有混料配才約束∑xi=1,甚為可惜,另行專題討論。

        猜你喜歡
        回歸系數(shù)回歸方程殘差
        基于雙向GRU與殘差擬合的車輛跟馳建模
        采用直線回歸方程預(yù)測桑癭蚊防治適期
        線性回歸方程的求解與應(yīng)用
        線性回歸方程要點導(dǎo)學(xué)
        基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        走進(jìn)回歸分析,讓回歸方程不再是你高考的絆腳石
        多元線性回歸的估值漂移及其判定方法
        電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較
        多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時Bayes估計及優(yōu)良性
        国产午夜免费高清久久影院| 久久亚洲精品成人综合| 一区二区三区视频偷拍| 午夜福利影院成人影院| 国产成人精品白浆久久69| 欧美性猛交xxxx乱大交蜜桃| 国产男女乱婬真视频免费| 区一区二区三区四视频在线观看| 欧洲熟妇色| 在线观看国产精品日韩av| 无码一区二区三区在| 综合激情五月三开心五月| 午夜时刻免费入口| 无码一区二区三区老色鬼| 无码专区亚洲avl| 精品国产亚洲一区二区三区四区| 婷婷色香五月综合缴缴情| 国产香蕉97碰碰视频va碰碰看| av无码一区二区三| 日韩极品在线观看视频| 好紧好爽免费午夜视频| 日韩一线无码av毛片免费| 一本色道久久综合狠狠躁中文| 美艳善良的丝袜高跟美腿| 国产av无码专区亚洲av蜜芽| 成人三级在线| av有码在线一区二区| 国产精品国产高清国产专区 | 亚洲国产精品激情综合色婷婷| 国产欧美成人一区二区a片| 国产丰满老熟女重口对白| 亚洲成片在线看一区二区| 久久精品女人av一区二区| 蜜桃久久精品成人无码av| 亚洲熟妇网| 97中文乱码字幕在线| 少妇被爽到高潮喷水久久欧美精品| 亚洲综合无码一区二区| 国产小视频一区二区三区| 日本道免费一区二区三区日韩精品| 天天做天天爱天天爽综合网|