亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        穩(wěn)健主成分回歸及其醫(yī)學(xué)應(yīng)用*

        2011-03-11 14:01:58劉偉新郭東星
        關(guān)鍵詞:共線性估計(jì)值協(xié)方差

        劉偉新 郭東星

        主成分回歸(principal component regression PCR)可用于處理數(shù)據(jù)中的自變量多重共線性問題,而這個(gè)問題在醫(yī)學(xué)資料的數(shù)據(jù)分析中經(jīng)常會(huì)出現(xiàn)。但是,當(dāng)數(shù)據(jù)中存在異常點(diǎn)時(shí)會(huì)影響主成分回歸模型的建立,在進(jìn)行主成分回歸分析時(shí)除了可以進(jìn)行異常點(diǎn)的診斷〔1-2〕外,本文將再介紹一種穩(wěn)健主成分回歸方法來(lái)解決這個(gè)問題。

        原理和方法

        1.穩(wěn)健主成分分析(ROBPCA)〔3〕

        ROBPCA(robust principal component analysis)是一種穩(wěn)健主成分分析的新方法。其結(jié)合了投影尋蹤(projection pursuit)的思想〔4,5〕和穩(wěn)健的協(xié)方差矩陣〔6,7〕估計(jì)的思想。

        步驟一:降低數(shù)據(jù)空間維數(shù)

        設(shè)原始數(shù)據(jù)為Xn,p。n表示觀測(cè)樣本數(shù),p表示自變量的原始數(shù)目。通過(guò)中心化數(shù)據(jù)矩陣的奇異值分解,產(chǎn)生

        令Zn,r0=UD,變成新的數(shù)據(jù)矩陣,這個(gè)奇異值分解就是數(shù)據(jù)在V中的r0列所占據(jù)的子空間中的仿射轉(zhuǎn)置,并且不會(huì)失去任何信息。為了方便起見,新的數(shù)據(jù)仍然用xi來(lái)表示。

        步驟二:找到h(h<n)個(gè)‘最小異常值’的數(shù)據(jù)點(diǎn)

        事先不知道異常點(diǎn)的數(shù)目,就讓h=max{[αn],[(n+kmax+1)/2]},kmax代表將要被計(jì)算的主成分的最大數(shù)目,默認(rèn)為10。參數(shù)α在0.5和1之間選擇。默認(rèn)時(shí)α=0.75。

        (1)對(duì)每一個(gè)數(shù)據(jù)點(diǎn)xi,計(jì)算它的異常值(outlyingness),從中找到h個(gè)具有最小異常值的數(shù)據(jù)點(diǎn),

        (2)用^μ1和S0來(lái)代表H0中的h個(gè)觀測(cè)點(diǎn)的均數(shù)和協(xié)方差矩陣。協(xié)方差矩陣的特征值按降序排列,而且特征向量被相應(yīng)地標(biāo)記。則

        L=diag(~l1,…,~lr),是特征值的對(duì)角矩陣,r≤ri

        協(xié)方差矩陣S0決定在未來(lái)的分析中,將要保留的主成分的個(gè)數(shù)k0(k0≤r)。在這過(guò)程可以用多種方法達(dá)到這個(gè)目的,例如,可以觀察特征值的單調(diào)遞減的一個(gè)斜線圖,或者能利用累積貢獻(xiàn)率的選擇標(biāo)準(zhǔn)。

        (3)將數(shù)據(jù)點(diǎn)投影到S0的前k0個(gè)特征向量所在的子空間上。即令:

        這里Pr1,k0包括了(3)中的P0的前k0列。步驟三:利用MCD估計(jì)值〔7〕,穩(wěn)健地估計(jì)X*

        n,k0中的數(shù)據(jù)點(diǎn)的方差-協(xié)方差矩陣。

        需要找到h個(gè)數(shù)據(jù)點(diǎn),使它們的協(xié)方差矩陣有著最小的行列式。利用由步驟二得到的異常值測(cè)量(2)

        (4)將P2的列轉(zhuǎn)換回原始空間,產(chǎn)生最后的穩(wěn)健特征向量矩陣Pp,k。最后穩(wěn)健中心^μ通過(guò)將^μ5轉(zhuǎn)換回原始空間來(lái)獲得,而最后的p維秩為k的穩(wěn)健分散矩陣 S 由 S=Pp×kLk×kP'p×k給出。公式(8)中的得分在Rp中可以寫為Tn×k=(Xn×p-1n^μ')Pp×k。

        穩(wěn)健主成分分析的部分至此完成。

        2.穩(wěn)健回歸法則-LTS(least trimmed squares〔8-10〕)

        在穩(wěn)健主成分回歸中,用重新加權(quán)的LTS法,眾所周知,最小二乘法回歸是將殘差平方和最小化。對(duì)于LTS方法,殘差平方和被殘差平方的修剪的和所代替。殘差平方由低到高排列,然后從最低的殘差到排

        ^y-i,k是主成分?jǐn)?shù)目為k時(shí),觀測(cè)點(diǎn)i暫時(shí)作為驗(yàn)證樣本時(shí)從已建模型中獲得的預(yù)測(cè)值。這時(shí)具有最小的RMSECV值所對(duì)應(yīng)的k被認(rèn)為是最優(yōu)的數(shù)目。

        在穩(wěn)健主成分回歸中,因?yàn)椴幌朐赗MSECV值中包括異常點(diǎn)的預(yù)測(cè)誤差,所以我們用穩(wěn)健的RMSECV值

        w-i由上面穩(wěn)健回歸時(shí)的公式所得到。

        由此,具有最小的R-RMSECV值所對(duì)應(yīng)的k被認(rèn)為是最優(yōu)的數(shù)目。

        (2)穩(wěn)健的R2值

        n

        實(shí)例與分析

        采用17所醫(yī)院的人力利用情況及有關(guān)醫(yī)院任務(wù)的資料〔1〕,其中,X1為平均每天住院人數(shù);X2為每月X線照光人數(shù);X3為每月占病床天數(shù);X4為服務(wù)范圍內(nèi)人口數(shù)(千人);X5為每名病人平均住院天數(shù);Y為每月使用人力(小時(shí))。以下結(jié)果采用SAS 8.0和MATLAB 7.1軟件編程實(shí)現(xiàn)。

        1.常規(guī)描述分析和共線性診斷見表1,表2。

        表1 17所醫(yī)院的人力利用及醫(yī)院任務(wù)情況的簡(jiǎn)相關(guān)矩陣

        表1中可見,X1與 X2,X3,X4的相關(guān)系數(shù)、X2與X3,X4、X3與X4的相關(guān)系數(shù)均大于90%,提示自變量間可能有多重共線性存在。

        表2 17所醫(yī)院的人力利用及醫(yī)院任務(wù)情況的共線性診斷

        在表2中可以看出,條件指數(shù)11.416,33.881,390.423均大于 10,對(duì)應(yīng)的方差比 0.728,0.944,0.999,0.998大于0.50,因此確定自變量之間存在多重共線性。進(jìn)行穩(wěn)健主成分回歸分析。

        2.進(jìn)行主成分個(gè)數(shù)選擇

        圖1,2中表示,選擇第一,第二主成分后穩(wěn)健的R-RMSECV值最小,且穩(wěn)健的R2值最高,所以選擇第一和第二兩個(gè)主成分。

        3.穩(wěn)健主成分分析ROBPCA結(jié)果:穩(wěn)健均數(shù)估計(jì)值^μ=

        [81.2328 10595.3629 2435.8449 65.4358 5.4438],穩(wěn)健特征值為[84131696.2849 517807.0308],穩(wěn)健

        數(shù)據(jù)中心化,可以計(jì)算得到穩(wěn)健的主成分。

        圖 1 穩(wěn)健的 RMSECV 值(1912,757.4,851,1023,639.2)

        圖 2 穩(wěn)健的值(0.9871,0.9960,0.9951,0.9963,0.9964)

        4.兩個(gè)主成分與因變量的穩(wěn)健回歸結(jié)果

        參數(shù)估計(jì)值^φ1=0.2256,^φ2=0.6436,截距=2683.029,R2=0.99435,所以方程為 ^Y=2683.029+0.2256T1+0.6436T2

        反代回原始自變量得:

        ^Y=34.9719+0.0219X1+0.0946X2+0.6751X3+0.0018X4+0.0005X5。

        5.穩(wěn)健主成分回歸還將產(chǎn)生可以診斷異常點(diǎn)的診斷圖:

        圖3 穩(wěn)健主成分分析的主成分診斷圖

        由圖3 可見,點(diǎn)10,14,15,16,17 為異常點(diǎn)。其中點(diǎn)14,15,17為無(wú)影響PCA杠桿點(diǎn),點(diǎn)10為正交異常點(diǎn),點(diǎn)16為有影響PCA杠桿點(diǎn)。

        圖4 穩(wěn)健主成分回歸的回歸方面的異常點(diǎn)診斷圖

        由圖4可見,點(diǎn)15,17為無(wú)影響異常點(diǎn),點(diǎn)9,10為垂直異常點(diǎn),點(diǎn)14,16為有影響異常點(diǎn)。

        圖5 經(jīng)典的主成分分析的主成分診斷圖

        由圖5可見,只有點(diǎn)10,17被診斷為異常點(diǎn)。

        圖6 經(jīng)典主成分回歸的回歸方面的異常點(diǎn)診斷圖

        由圖6可見,只有點(diǎn)9和點(diǎn)16,17被診斷為異常點(diǎn),其他三個(gè)異常點(diǎn)并沒有被診斷出來(lái)。

        討 論

        本文所介紹的穩(wěn)健主成分回歸方法是由兩部分穩(wěn)健方法組成:穩(wěn)健主成分分析方法ROBPCA和穩(wěn)健回歸方法即重新加權(quán)的LTS法。這兩種方法均為目前最新的非常穩(wěn)健的方法。這兩部分方法的失效點(diǎn)均達(dá)到50%。這種穩(wěn)健主成分回歸方法計(jì)算速度快,并且對(duì)于低維和高維的數(shù)據(jù)都能夠處理。而且既可以用在有異常點(diǎn)的數(shù)據(jù),也可以用于沒有異常點(diǎn)的數(shù)據(jù)。在實(shí)例分析中表明,當(dāng)數(shù)據(jù)中包含異常點(diǎn)時(shí),與經(jīng)典的主成分回歸相比較,此方法得到了穩(wěn)健的估計(jì)值,并且診斷圖對(duì)于確定異常點(diǎn)也非常有用。

        通常在診斷出異常點(diǎn)以后,不能簡(jiǎn)單地將異常點(diǎn)刪除,因?yàn)檫@樣做可能將異常點(diǎn)攜帶的一些有用的信息丟失,所以應(yīng)該對(duì)不同情況的異常點(diǎn)給予不同處理。如果證實(shí)是數(shù)據(jù)錄入錯(cuò)誤,可以刪除。而多數(shù)情況下,剔除只是一種識(shí)別數(shù)據(jù)是否異常的方法,不是診斷分析的最終目的。對(duì)于處理的方法,除了有本文提到的穩(wěn)健估計(jì)方法外,還需要以后進(jìn)一步的研究和探討。

        1.郭東星,劉偉新.主成分回歸中異常點(diǎn)的穩(wěn)健診斷.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(1):31-34.

        2.劉偉新,郭東星.主成分回歸中異常點(diǎn)的二步診斷法及其醫(yī)學(xué)應(yīng)用.現(xiàn)代預(yù)防醫(yī)學(xué),2007,34(13):2423-2425.

        3.Mia H,Peter JR.ROBPCA:a new approach to robust principal component analysis.Technometrics,2005,47:64-79.

        4.Jolliffe IT.Principal component analysis.New York:Springer,1986.

        5.Li G,Chen Z.Projection-Pursuit approach to robust dispersion matrices and principal components:primary theory and Monte Carlo.Journal of A-merican statistical association,1982,80:759-766.

        6.Rousseeuw PJ,Van DK.A fast algorithm for the minimum covariance determinant estimator.Technometrics,1999,41:212-223.

        7.Croux C,Haesbroeck G.Influence function and efficiency of the minimum covariance determinant scatter matrix estimator.Journal of Multivariate A-nalysis,1999,71:161-190.

        8.Pell RJ.Multiple outlier detection for multivariate calibration using robust statistical techniques.Chemometrics and Intelligent Laboratory Systems,2000,52:87-104.

        9.Rousseeuw PJ,Leroy A.Robust regression and outlier detection.New York:John wiley,1987.

        10.Walczak B.Outlier detection in multivariate calibration.Chemometrics and Intelligent Laboratory Systems,1998,28:259-272.

        猜你喜歡
        共線性估計(jì)值協(xié)方差
        銀行不良貸款額影響因素分析
        一道樣本的數(shù)字特征與頻率分布直方圖的交匯問題
        文氏圖在計(jì)量統(tǒng)計(jì)類課程教學(xué)中的應(yīng)用
        ——以多重共線性內(nèi)容為例
        不完全多重共線性定義存在的問題及其修正建議
        統(tǒng)計(jì)信息
        2018年4月世界粗鋼產(chǎn)量表(續(xù))萬(wàn)噸
        不確定系統(tǒng)改進(jìn)的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報(bào)器
        一種基于廣義協(xié)方差矩陣的欠定盲辨識(shí)方法
        2014年5月世界粗鋼產(chǎn)量表萬(wàn)噸
        縱向數(shù)據(jù)分析中使用滑動(dòng)平均Cholesky分解對(duì)回歸均值和協(xié)方差矩陣進(jìn)行同時(shí)半?yún)?shù)建模
        免费人成黄页网站在线观看国内| 亚洲色自偷自拍另类小说| 蜜桃一区二区在线视频| 蜜桃视频插满18在线观看| 亚洲av无码码潮喷在线观看| 青青国产揄拍视频| 无码精品人妻一区二区三区人妻斩| 少妇人妻在线视频| 亚洲熟妇AV一区二区三区宅男| 久久无码一二三四| 高清高速无码一区二区| 美腿丝袜美腿国产在线| 久久精品亚洲热综合一本色婷婷| 大香蕉av一区二区三区| 免费人成小说在线观看网站| 国产成人无码精品久久二区三区| 婷婷色中文字幕综合在线| 欧洲熟妇乱xxxxx大屁股7| 久久青草国产精品一区| 亚洲情精品中文字幕有码在线| 日韩亚洲国产中文字幕| 国产性虐视频在线观看| 97se色综合一区二区二区| 中文字幕人妻无码一夲道| 精品人妻系列无码一区二区三区 | 99热门精品一区二区三区无码| 久久伊人久久伊人久久| 成人免费av色资源日日| 亚洲 日本 欧美 中文幕| 女人被狂躁高潮啊的视频在线看| 成人国产精品免费视频| 98精品国产高清在线xxxx| 精品国产亚洲av久一区二区三区| 国产精品久久久久久久久电影网| 无码人妻精品一区二区| 色999欧美日韩| 日本一区不卡高清在线观看| 日韩精品中文字幕第二页 | 久久精品国产亚洲av试看| 亚洲自偷自拍另类第1页| 中文字幕精品久久久久人妻红杏1 丰满人妻妇伦又伦精品国产 |