亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        截尾分位數(shù)回歸及其在生存分析中的應(yīng)用*

        2011-03-11 14:01:42
        中國衛(wèi)生統(tǒng)計(jì) 2011年2期
        關(guān)鍵詞:離群位數(shù)回歸系數(shù)

        王 娟 王 彤

        在傳統(tǒng)的生存分析中,多因素分析常采用Cox比例風(fēng)險回歸模型和加速失效時間模型,Cox比例風(fēng)險回歸模型要求資料滿足等比例風(fēng)險假定和對數(shù)線性假定,加速失效時間模型要求資料分布已知。但醫(yī)學(xué)研究中,某些資料不滿足上述要求,特別當(dāng)觀察值中有離群點(diǎn)(outliers),所擬合的回歸方程因“遷就”這個(些)離群點(diǎn)而使整體的擬合結(jié)果產(chǎn)生不同程度的偏離,以致影響了穩(wěn)定性;再者,當(dāng)總體存在異方差,即y的條件分布中方差不為常數(shù)時;或者研究興趣在于分布在尾端區(qū)域數(shù)據(jù)的建模,亦不宜用Cox比例風(fēng)險回歸模型和加速失效時間模型。本文介紹一種適合于當(dāng)生存資料不滿足上述條件時的回歸方法——截尾分位數(shù)回歸。

        原理與方法

        所謂截尾分位數(shù)回歸(censored regression quantiles,CRQ),就是根據(jù)估計(jì)(生存時間的對數(shù)形式)的分位數(shù),其模型為:

        QY|X(τ,x)=xβ(τ)

        與加速失效時間模型不同的是,QY|X(τ,x)表示給定x的條件下,y的第τ分位數(shù)的估計(jì)值。其中τ的取值范圍為0<τ<1,當(dāng)τ=0.5時,截尾分位數(shù)回歸就是中位數(shù)回歸(median regression)。截尾分位數(shù)回歸中,參數(shù)估計(jì)一般用加權(quán)最小一乘(weighted least absolute,WLA)準(zhǔn)則,即使目標(biāo)函數(shù):

        模擬分析

        1.滿足參數(shù)模型假定的模擬分析

        如果生存時間服從指數(shù)分布,既能建立加速失效時間模型log(t)=+x+ε,又能建立比例風(fēng)險回歸模型 h(t,x)=h0(t)exp(x'β),且兩個模型中回歸參數(shù)的相互關(guān)系為= - β〔2〕。

        模擬方法如下〔3〕:模擬的樣本含量為200,截尾比例為20%、40%、60%。首先產(chǎn)生服從(0,1)均勻分布的隨機(jī)數(shù)S,令生存函數(shù)S(t)=S,同時產(chǎn)生服從N(0,1)的隨機(jī)數(shù)作為自變量 x。令 β=1,利用 t=產(chǎn)生相應(yīng)的生存時間t。產(chǎn)生服從B(200,0.2)的隨機(jī)數(shù)作為截尾指示變量,這時截尾比例為20%。每次得到1000個模擬樣本,分別采用Cox比例風(fēng)險回歸模型(Cox)、加速失效時間模型(AFT)和截尾分位數(shù)回歸模型(CRQ),最后計(jì)算出這1000個樣本的回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)差。模擬結(jié)果見表1。

        表格中出現(xiàn)缺項(xiàng)的原因是因?yàn)殡S著截尾比例的不斷增加,越來越多的截尾生存時間會隨機(jī)地出現(xiàn)在生存時間分布的上游,直到觀察結(jié)束時,生存率未降到0,即生存分布不完全,無法估計(jì)高分位數(shù)水平對應(yīng)的回歸方程。

        模擬結(jié)果顯示:對滿足比例風(fēng)險假定和對數(shù)線性假定的數(shù)據(jù),Cox比例風(fēng)險回歸模型和截尾分位數(shù)回歸模型擬合的回歸系數(shù)與真值1非常接近,估計(jì)效率也相似。由于資料中不存在異質(zhì)問題,所以不同分位數(shù)水平對應(yīng)的回歸系數(shù)非常接近。隨著截尾比例的不斷增加,回歸系數(shù)可能會偏離真值1,估計(jì)的效率逐漸降低。該數(shù)據(jù)模擬實(shí)際上符合指數(shù)回歸模型,采用加速失效時間模型估計(jì)的回歸系數(shù)與真值1最接近,標(biāo)準(zhǔn)差最小,效率最高。

        表1 不同截尾比例下回歸系數(shù)的模擬分析

        2.參數(shù)條件下存在離群點(diǎn)的模擬分析

        模擬方法如下:模擬的樣本含量為200,模擬的截尾比例分別為20%,40%,60%,模擬的離群點(diǎn)比例為5%,10%,15%,20%。首先產(chǎn)生服從(0.5,1.5)均勻分布的隨機(jī)數(shù)作為自變量,再產(chǎn)生服從W(1,1)的威布爾分布隨機(jī)數(shù)作為誤差項(xiàng),產(chǎn)生服從B(200,0.2)的隨機(jī)數(shù)作為截尾指示變量,這時截尾比例為20%。如擬定的模型是無離群點(diǎn)模型,利用log t=1+βx+ε(令β=1)便可以得到相應(yīng)的對數(shù)生存時間log t。如擬定的模型是有離群點(diǎn)模型,離群點(diǎn)比例為5%,先從200例中隨機(jī)抽取5%的對數(shù)生存時間數(shù)據(jù),被抽中的對數(shù)生存時間數(shù)值在原值的基礎(chǔ)上加5,作為離群點(diǎn)的對數(shù)生存時間,而原樣本中其他個體的對數(shù)生存時間保持不變。由此構(gòu)造離群點(diǎn)比例為5%的有離群點(diǎn)樣本。每次得到1000個模擬樣本,分別采用Cox比例風(fēng)險回歸模型(Cox)、加速失效時間模型(AFT)以及截尾分位數(shù)回歸模型(CRQ),最后計(jì)算出這1000個樣本的回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)差。模擬結(jié)果見表2~4。

        表2 不同比例離群點(diǎn)下回歸系數(shù)的模擬比較(截尾比例=20%)

        表3 不同比例離群點(diǎn)下回歸系數(shù)的模擬比較(截尾比例=40%)

        模擬結(jié)果表明,當(dāng)離群點(diǎn)存在時,Cox比例風(fēng)險回歸模型擬合的回歸系數(shù)明顯偏離真值1,出現(xiàn)了偏性,并且隨著離群點(diǎn)比例不斷增加,偏性越明顯。當(dāng)截尾比例較低(≤40%)時,截尾分位數(shù)回歸模型(τ=0.5)擬合的回歸系數(shù)較加速失效時間模型接近真值1,效率也比較高。但是截尾比例繼續(xù)增加時,截尾分位數(shù)回歸(τ=0.5)擬合的回歸系數(shù)偏性比加速失效時間模型大,標(biāo)準(zhǔn)差也偏大,這是因?yàn)殡S著截尾比例的增加,就容易在生存分布的上游出現(xiàn)一定比例的截尾,從而造成了在較高水平的分位數(shù)函數(shù)估計(jì)有偏,效率也降低,但是在低水平的分位數(shù)函數(shù)擬合良好。

        表4 不同比例離群點(diǎn)下回歸系數(shù)的模擬比較(截尾比例=60%)

        3.違背比例風(fēng)險假定的模擬分析

        有理論表明〔4〕,在參數(shù)加速失效時間模型家族中,只有威布爾回歸模型(包括指數(shù)分布)既屬于加速失效時間模型,又屬于比例風(fēng)險模型。對數(shù)正態(tài)回歸模型和對數(shù)logistic回歸模型不滿足比例風(fēng)險假定。此次模擬采用對數(shù)正態(tài)回歸模型來產(chǎn)生數(shù)據(jù)。

        模擬方法如下:模擬的樣本含量為200,模擬的截尾比例分別為20%,40%,60%。首先產(chǎn)生服從(0,1)均勻分布的隨機(jī)數(shù)作為自變量x,再產(chǎn)生服從N(0,1)正態(tài)分布的隨機(jī)數(shù)作為誤差項(xiàng)ε,產(chǎn)生服從B(200,0.2)的隨機(jī)數(shù)作為截尾指示變量,這時截尾比例為20%。利用t=exp(1+βx+ε)(令β=1)便可以得到相應(yīng)的生存時間t。每次得到1000個模擬樣本,分別采用Cox比例風(fēng)險回歸模型(Cox)、截尾分位數(shù)回歸模型(CRQ),最后計(jì)算出這1000個樣本的回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)差。模擬結(jié)果如下(在模擬結(jié)果中,考慮到兩模型中的回歸系數(shù)不具有可比性,便將Cox模型中的回歸系數(shù)按式QCox(τ|x)=H-10(-log(1-τ)exp(-x'iβ))進(jìn)行了轉(zhuǎn)換,表5中列出的就是轉(zhuǎn)換后的結(jié)果)。模擬結(jié)果見表5。

        模擬結(jié)果表明,Cox估計(jì)的回歸系數(shù)有偏;CRQ擬合的結(jié)果接近真值1,且效率相比Cox模型偏高。隨著截尾比例的不斷增加,CRQ估計(jì)的效率有下降的趨勢。

        實(shí)例分析

        導(dǎo)尿及留置導(dǎo)尿管是臨床上診斷、治療各種危重病人的常用護(hù)理措施之一,但長期留置導(dǎo)尿管的多數(shù)病人會不同程度地出現(xiàn)導(dǎo)尿管引流不暢及尿液從導(dǎo)尿管滲漏等問題,且并發(fā)癥較多,其中最嚴(yán)重的是尿路感染。因此尋找尿管誘發(fā)尿路感染的影響因素是我們迫切需要解決的問題,從而為預(yù)防感染提供一定的科學(xué)依據(jù)。

        表5 不同截尾比例下回歸系數(shù)的模擬分析

        某醫(yī)院泌尿外科的臨床醫(yī)師搜集了76例配備有便攜式透析設(shè)備的腎衰病人。記錄了這些病人從開始插入導(dǎo)管到感染的時間(以天計(jì)算),如果直到研究結(jié)束仍未出現(xiàn)感染,或因?yàn)槟承┰?感染除外)中途移除導(dǎo)管的病人,視為截尾。隨訪結(jié)束時,共有58例患者出現(xiàn)了感染。此外,還搜集了病人的年齡、性別、疾病類型以及衰弱評分四項(xiàng)指標(biāo)。這四項(xiàng)指標(biāo)的賦值情況和基本統(tǒng)計(jì)表見表6。利用76例腎衰病人擬合截尾分位數(shù)回歸模型,在

        表6 76例腎衰病人生存資料預(yù)后因素及其基本統(tǒng)計(jì)量

        α=0.10水平上,利用手動向后篩選變量法,入選的變量為性別(sex)、疾病類型GN(disease GN)、疾病類型

        AN(disease AN)、疾病類型PKD(disease PKD)以及衰弱評分(frail),交互項(xiàng)均無意義。模型擬合結(jié)果顯示在不同的分位數(shù)函數(shù)上不僅表現(xiàn)為影響變量個數(shù)的不同,還表現(xiàn)為相同自變量對應(yīng)的回歸系數(shù)值大小不等。這里,只列舉τ=0.1,0.5,0.9三個分位數(shù)水平對應(yīng)的回歸方程。

        log t0.1=8.91 -2.73GN -2.273AN+32.183PKD

        log t0.5=54.06 -98.35sex -5GN - 69.87AN +15.90PKD-81.61frail

        log t0.9=373.24 -96.81GN -141.49AN+156.70PKD-176.82frail

        從圖1可以看出性別對log t影響的回歸系數(shù)隨著τ的變化而變化(先增加后下降),疾病類型AN(以other為參考)對log t影響的回歸系數(shù)的絕對值隨著τ的增加而增加,衰弱評分對log t影響回歸系數(shù)的絕對值隨著τ的增加而增加。即隨著生存時間的增加,說明性別對生存時間的保護(hù)作用先逐漸增強(qiáng)后又逐漸減弱,疾病類型AN(以other為參考)和衰弱評分對生存時間的威脅性越來越強(qiáng)。而從Cox模型擬合的效果來看,各回歸系數(shù)幾乎不隨τ變化,低估了性別、疾病類型AN和衰弱評分對生存時間的影響作用。從專業(yè)角度看,截尾分位數(shù)回歸擬合的結(jié)果更接近實(shí)際情況。

        討 論

        在生存分析中,截尾分位數(shù)回歸模型一般用于如下情況:(1)當(dāng)數(shù)據(jù)有離群值,為削弱其對回歸模型的影響;(2)當(dāng)y的方差不是常數(shù)方差,即存在異方差,或者存在其他類型的異質(zhì)性問題。此時,用中位數(shù)回歸模型估計(jì)給定x時y的平均水平(中位數(shù)),用其他分位數(shù)回歸模型估計(jì)相應(yīng)的容許區(qū)間或參考值范圍。截尾分位數(shù)回歸模型的特性亦類似于百分位數(shù)。如在截尾分位數(shù)回歸中,中位數(shù)回歸模型較其他百分位數(shù)回歸模型穩(wěn)定,越是接近0%和100%的百分位數(shù)回歸模型越易受離群值和截尾值的影響,越是不穩(wěn)定。因此,在用截尾分位數(shù)回歸模型確定y的容許區(qū)間時,宜用70%,80%或90%的區(qū)間,而不用95%,98%或99%的區(qū)間〔5〕。

        截尾分位數(shù)回歸模型中,回歸系數(shù)向量中^β(τ)第j個元素表示的是固定其他協(xié)變量時第j個協(xié)變量的單位變化引起第τ分位數(shù)的平均變化量。如果在線性截尾分位數(shù)回歸模型中只表現(xiàn)為截距項(xiàng)的不等,即位置的漂移,而協(xié)變量對應(yīng)的回歸系數(shù)不隨著τ變化,說明總體中不存在異質(zhì)性;如果截尾分位數(shù)回歸模型中協(xié)變量的回歸系數(shù)隨著τ變化,說明總體中存在異質(zhì)性。因此,分位數(shù)回歸模型不只可用來做多因素的統(tǒng)計(jì)分析,還能作為一種檢驗(yàn)異質(zhì)性的診斷方法。

        1.Portnoy S.Censored regression quantiles.J.Amer.Statist.Assoc,2003,98:1001-1012.

        2.Mara Tableman,Jong Sung Kim.Survival Analysis Using S:Analysis of Time-to-event Data.New York:Chapman & Hall/CRC,2004.

        3.余紅梅.Cox比例風(fēng)險回歸模型診斷及預(yù)測有關(guān)問題的研究:〔博士學(xué)位論文〕西安:第四軍醫(yī)大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室,2001.

        4.Kalblfeisch JD,Prentice RL.The Statistical Analysis of Failure Time Data.New York:Wiley,1980.

        5.季莘,陳峰.百分位數(shù)回歸及其應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),1998,15(6):9-11.

        猜你喜歡
        離群位數(shù)回歸系數(shù)
        五次完全冪的少位數(shù)三進(jìn)制展開
        多元線性回歸的估值漂移及其判定方法
        電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較
        多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時Bayes估計(jì)及優(yōu)良性
        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
        離群的小雞
        遙感衛(wèi)星CCD相機(jī)量化位數(shù)的選擇
        應(yīng)用相似度測量的圖離群點(diǎn)檢測方法
        一種基于核空間局部離群因子的離群點(diǎn)挖掘方法
        “判斷整數(shù)的位數(shù)”的算法分析
        河南科技(2014年11期)2014-02-27 14:09:41
        国产毛片网| 国产日产欧产精品精品蜜芽| 一边做一边喷17p亚洲乱妇50p| 亚洲av无码一区二区三区性色 | 欧美精品日韩一区二区三区| 日韩精品午夜视频在线| 久久久久成人精品免费播放动漫| 老师脱了内裤让我进去| 97精品国产91久久久久久久| 在线观看免费的黄片小视频 | 天天狠天天添日日拍| 性夜影院爽黄a爽在线看香蕉 | 久久精品人妻一区二区三区| 无码伊人66久久大杳蕉网站谷歌 | 日韩制服国产精品一区| 日韩国产成人精品视频| 自拍偷拍亚洲视频一区二区三区| 男人吃奶摸下挵进去啪啪软件 | 久久久精品波多野结衣| 爆乳午夜福利视频精品| 日本高清视频在线观看一区二区 | 久久人妻少妇嫩草av蜜桃| 中文字幕人妻熟女人妻| 国产精品免费久久久久影院| 亚洲日韩国产精品不卡一区在线| 中文字幕久久久人妻人区| 97人人模人人爽人人少妇| 亚洲日韩一区二区一无码| 国产精品亚洲av一区二区三区| 老熟女富婆激情刺激对白| 国产性一交一乱一伦一色一情| 日韩精人妻无码一区二区三区| 日本免费精品一区二区| 女女互揉吃奶揉到高潮视频| 狠狠久久精品中文字幕无码| 精品国产精品久久一区免费| 国产精品高清一区二区三区不卡| 青青青国产精品一区二区| 国产后入内射在线观看| 中文字幕日韩人妻少妇毛片| 久久久噜噜噜www成人网|