劉紅偉 ,張?zhí)鹛?,劉媛媛 ,李長(zhǎng)平 ,2,胡良平
(1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,天津 300070;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專(zhuān)業(yè)委員會(huì),北京 100029;3.軍事科學(xué)院研究生院,北京 100850
在分析多個(gè)因素對(duì)生存時(shí)間的影響時(shí),人們通常希望像一般的回歸分析一樣,能建立生存時(shí)間(因變量)隨危險(xiǎn)因素(自變量或協(xié)變量)變化的回歸方程,以便對(duì)危險(xiǎn)因素的作用大小有一個(gè)全面的了解和掌握,并根據(jù)危險(xiǎn)因素的不同取值對(duì)生存率(或危險(xiǎn)率)進(jìn)行預(yù)測(cè)。能實(shí)現(xiàn)此目的的生存分析方法有Cox模型回歸分析和參數(shù)模型回歸分析。當(dāng)生存時(shí)間的準(zhǔn)確分布無(wú)法獲得時(shí),可采用Cox模型回歸分析[1],此模型在形式上與參數(shù)模型相似,但對(duì)模型中各參數(shù)進(jìn)行估計(jì)時(shí)不依賴(lài)于特定分布的假設(shè),所以又稱(chēng)半?yún)?shù)模型。當(dāng)然,在可以通過(guò)圖示法或統(tǒng)計(jì)檢驗(yàn)法得到待分析的生存時(shí)間服從某特定分布的參數(shù)模型時(shí),如指數(shù)分布回歸模型或Weibull分布回歸模型,可采用生存資料的參數(shù)模型回歸分析直接擬合之,所得結(jié)果將更加準(zhǔn)確[2]。
生存資料參數(shù)回歸模型分析的一個(gè)重要內(nèi)容是模型擬合或分布擬合。描述生存時(shí)間分布的模型通常有指數(shù)分布、Weibull分布、Log-logistic分布、對(duì)數(shù)正態(tài)分布、廣義Gamma分布模型等。在生存分析研究中,常用概率密度函數(shù)f(t)、生存函數(shù)S(t)和風(fēng)險(xiǎn)函數(shù)(或稱(chēng)危險(xiǎn)率函數(shù))h(t)來(lái)描述生存過(guò)程,這三種函數(shù)在數(shù)學(xué)推導(dǎo)上是等價(jià)的[3],如果給定其中一種函數(shù),另外兩種函數(shù)即可推導(dǎo)得出,它們的關(guān)系如下:
對(duì)實(shí)際的生存數(shù)據(jù)進(jìn)行分布擬合時(shí),可用上述模型分別進(jìn)行擬合,根據(jù)擬合優(yōu)度檢驗(yàn)的結(jié)果選擇適當(dāng)?shù)哪P?。有時(shí),對(duì)于一批生存數(shù)據(jù),事先不知道生存時(shí)間的確切分布,也難以判斷何種模型最合適,許多研究者一般直接采用非參數(shù)或半?yún)?shù)回歸模型。但是,如果已知一批數(shù)據(jù)確實(shí)符合某特定的參數(shù)回歸模型,由于非參數(shù)或半?yún)?shù)方法的精度一般低于參數(shù)方法,此時(shí),宜選用相應(yīng)的參數(shù)回歸模型。由于篇幅所限,本文主要介紹指數(shù)分布回歸模型、Weibull分布回歸模型和Log-logistic分布回歸模型。
2.1.1 僅以生存時(shí)間t為自變量的指數(shù)分布回歸模型
指數(shù)分布回歸模型是最簡(jiǎn)單的生存資料參數(shù)回歸模型,在任何時(shí)間點(diǎn)上的風(fēng)險(xiǎn)函數(shù)為一常數(shù),風(fēng)險(xiǎn)函數(shù)的大小不受生存時(shí)間長(zhǎng)短的影響,即“無(wú)記憶性”。設(shè)生存時(shí)間服從指數(shù)分布,則生存時(shí)間變量的概率密度函數(shù)為:
分布函數(shù)為:
生存函數(shù)為:
風(fēng)險(xiǎn)函數(shù)為:
λ為常數(shù),與時(shí)間無(wú)關(guān),代表指數(shù)分布回歸模型的風(fēng)險(xiǎn)率,決定了生存率下降的快慢。風(fēng)險(xiǎn)率越大,生存率下降越快,生存時(shí)間越短;風(fēng)險(xiǎn)率越小,生存率下降越慢,生存時(shí)間越長(zhǎng)。
指數(shù)分布回歸模型自變量既滿(mǎn)足比例風(fēng)險(xiǎn)(Proportional Hazard,PH)假設(shè),也滿(mǎn)足加速失效時(shí)間(Accelerated Failure Time,AFT)假設(shè)。PH假設(shè)要求一個(gè)人的風(fēng)險(xiǎn)與任何其他人的風(fēng)險(xiǎn)成正比,且比例為一個(gè)常數(shù),與時(shí)間無(wú)關(guān);AFT假設(shè)要求對(duì)于任一固定生存概率,不同個(gè)體間生存時(shí)間比值為一個(gè)常數(shù),這個(gè)常數(shù)稱(chēng)為加速因子(Accelerated factor)。因此PH假設(shè)中預(yù)測(cè)變量(即自變量或影響因素)對(duì)個(gè)體發(fā)生風(fēng)險(xiǎn)的影響成比例,而AFT假設(shè)中預(yù)測(cè)變量對(duì)個(gè)體生存時(shí)間的影響成比例[4]。
2.1.2 基于生存時(shí)間t添加其他自變量的指數(shù)分布回歸模型
在上面的四個(gè)模型表達(dá)式中,生存時(shí)間t為自變量,其因變量分別為f(t)、F(t)、S(t)和h(t),它們分別為密度函數(shù)、分布函數(shù)、生存函數(shù)和風(fēng)險(xiǎn)函數(shù)。但是,在處理實(shí)際的生存資料時(shí),研究者希望考察除時(shí)間t之外的其他許多自變量或協(xié)變量對(duì)前述提及的四個(gè)因變量的影響,于是,統(tǒng)計(jì)學(xué)家將模型中的“重要參數(shù)”視為除時(shí)間t之外的其他許多自變量或協(xié)變量的函數(shù)(基于數(shù)學(xué)上處理方便角度考量,選取“指數(shù)函數(shù)”形式)。這樣,就建立起因變量依賴(lài)包括生存時(shí)間t在內(nèi)并包含其他自變量的回歸模型。為簡(jiǎn)便起見(jiàn),下面的例子中只包含了一個(gè)叫做“TRT”的“新自變量”。
將指數(shù)分布回歸模型應(yīng)用到42例白血病患者數(shù)據(jù)中[4],其中21例患者接受了治療,另外21例患者使用了安慰劑。結(jié)局為白血病患者的生存時(shí)間,預(yù)測(cè)變量(即自變量)是TRT,取值(0,1),1代表接受了治療,0代表未接受治療。
基于PH假設(shè),包含預(yù)測(cè)變量的指數(shù)分布回歸模型表達(dá)式(此處特指風(fēng)險(xiǎn)函數(shù))為:
其中h(t)為個(gè)體風(fēng)險(xiǎn)大小,TRT表示是否接受治療,則治療組相對(duì)于非治療組的風(fēng)險(xiǎn)比(Hazard ratio)為:
基于AFT假設(shè),包含預(yù)測(cè)變量的指數(shù)分布回歸模型表達(dá)式為:
上式中,t代表個(gè)體生存時(shí)間,S(t)代表個(gè)體生存函數(shù)。對(duì)任一固定生存概率S(t)=q,治療組相對(duì)于非治療組的加速因子(Acceleration factor)γ為:
若α1> 0,則exp(α1)> 1,表明相對(duì)于安慰劑,治療對(duì)于生存時(shí)間有正向促進(jìn)作用,延長(zhǎng)了患者的生存時(shí)間;若α1< 0,則exp(α1)< 1,表明相對(duì)于安慰劑,治療對(duì)于生存時(shí)間有反向抑制作用,縮短了患者的生存時(shí)間。
2.2.1 僅以生存時(shí)間t為自變量的Weibull分布回歸模型
Weibull分布回歸模型是最廣泛使用的參數(shù)回歸模型,由瑞典科學(xué)家Waloddi Weibull提出。Weibull分布是指數(shù)分布的一種推廣形式,應(yīng)用更廣泛。設(shè)生存時(shí)間服從Weibull分布,則對(duì)應(yīng)的概率密度函數(shù)為:
生存函數(shù)為:
風(fēng)險(xiǎn)函數(shù)為:
λ是尺度參數(shù),γ是形狀參數(shù),決定函數(shù)圖像的形狀。若γ>1,風(fēng)險(xiǎn)隨著時(shí)間的增加而增加;若γ=1,風(fēng)險(xiǎn)為常數(shù),則Weibull分布變?yōu)橹笖?shù)分布;若γ<1,風(fēng)險(xiǎn)隨著時(shí)間的增加而減小。
2.2.2 基于生存時(shí)間t添加其他自變量的Weibull分布回歸模型
基于PH假設(shè),包含預(yù)測(cè)變量的Weibull分布回歸模型表達(dá)式(此處特指風(fēng)險(xiǎn)函數(shù))為:
基于AFT假設(shè),包含預(yù)測(cè)變量的Weibull分布回歸模型表達(dá)式為:
風(fēng)險(xiǎn)比(Hazard ratio)和加速因子(Acceleration factor)的求解和解釋同指數(shù)分布類(lèi)似,此處不再贅述。
2.3.1 僅以生存時(shí)間t為自變量的Log-logistic分布回歸模型
在生存分析中,Log-logistic分布用于描述事件的發(fā)生率,例如診斷或治療后的腫瘤患者的死亡率。設(shè)生存時(shí)間服從Log-logistic分布,則對(duì)應(yīng)的概率密度函數(shù)為:
生存函數(shù)為:
風(fēng)險(xiǎn)函數(shù)為:
γ是形狀參數(shù),當(dāng)γ≤1時(shí),風(fēng)險(xiǎn)值隨著時(shí)間增加而下降;若γ>1,則風(fēng)險(xiǎn)值先增加后減小,風(fēng)險(xiǎn)函數(shù)圖像為“單峰”。Log-logistic分布回歸模型要求自變量滿(mǎn)足AFT假設(shè),不滿(mǎn)足PH假設(shè),但滿(mǎn)足比例優(yōu)比(Proportional odds,PO)假設(shè),PO假設(shè)要求生存優(yōu)勢(shì)比(Survival odds ratio)隨著時(shí)間的變化保持不變,即生存優(yōu)勢(shì)比為常數(shù),其中生存優(yōu)勢(shì)比(Survival odds ratio,SOR)定義為兩個(gè)個(gè)體的生存比值的比值,表達(dá)式為:
其中,S1(t)是個(gè)體1的生存函數(shù),S2(t)是個(gè)體2的生存函數(shù),若SOR和時(shí)間無(wú)關(guān),則Log-logistic分布回歸模型自變量滿(mǎn)足PO假設(shè)。
2.3.2 基于生存時(shí)間t添加其他自變量的Log-logistic分布回歸模型
以42例白血病患者數(shù)據(jù)中的白細(xì)胞計(jì)數(shù)變量(white blood cell count,WBCCAT)為例,WBCCAT變量取值1和2,1代表中位數(shù),2代表最大值。基于PO假設(shè),包含預(yù)測(cè)變量的Log-logistic分布回歸模型表達(dá)式為:
其中,變量WBCCAT的失效比為:
若β1>0,則WBCCAT取值1的結(jié)局風(fēng)險(xiǎn)更大?;贏FT假設(shè),包含預(yù)測(cè)變量的Log-logistic分布回歸模型表達(dá)式為:
加速因子的求解與解釋與指數(shù)分布回歸模型類(lèi)似,此處不再贅述。
2.4.1 對(duì)數(shù)正態(tài)分布回歸模型
對(duì)數(shù)正態(tài)分布參數(shù)回歸模型定義為時(shí)間變量的對(duì)數(shù)遵從正態(tài)分布,其概率密度函數(shù)為:
生存函數(shù)為:
風(fēng)險(xiǎn)函數(shù)為:
其中,a=exp(-μ),Φ(x)為標(biāo)準(zhǔn)正態(tài)分布函數(shù)。對(duì)數(shù)正態(tài)分布的形狀與Log-logistic分布形狀接近,不同的是對(duì)數(shù)正態(tài)分布模型要求自變量滿(mǎn)足AFT假設(shè),但不滿(mǎn)足PO假設(shè)。
2.4.2 Gompertz分布回歸模型
Gompertz分布回歸模型定義為生存時(shí)間服從Gompertz分布,其概率密度函數(shù)為:
生存函數(shù)為:
風(fēng)險(xiǎn)函數(shù)為:
Gompertz模型自變量不滿(mǎn)足AFT假設(shè),但回歸模型和Cox模型相似。
2.4.3 廣義Gamma分布回歸模型
廣義Gamma分布回歸模型有三個(gè)參數(shù),形狀有更大的靈活性。設(shè)生存時(shí)間服從廣義Gamma分布,則對(duì)應(yīng)的概率密度函數(shù)為:
生存函數(shù)為:
風(fēng)險(xiǎn)函數(shù)為:
指數(shù)分布回歸模型根據(jù)S(t)=e-λt可以得出log[S(t)]=-λt,可繪制出log[S(t)]對(duì)t的Kaplan-Meier圖,若圖像是經(jīng)過(guò)原點(diǎn)的一條直線(xiàn),表明數(shù)據(jù)符合指數(shù)分布回歸模型,斜率是-λ的估計(jì)值。
Weibull分布回歸模型根據(jù)S(t)=exp[-(λt)γ],可以得到ln[-lnS(t)]=γlnλ+γlnt,即ln[-lnS(t)]和lnt是線(xiàn)性關(guān)系,斜率為γ??衫L制出ln[-lnS(t)]對(duì)lnt的Kaplan-Meier圖,若圖像是一條直線(xiàn),表明數(shù)據(jù)符合Weibull分布回歸模型,斜率為γ,截距為γlnλ。
參數(shù)回歸模型中回歸系數(shù)可以通過(guò)求極大似然函數(shù)最大值的方法得到。參數(shù)回歸模型的似然函數(shù)是觀測(cè)數(shù)據(jù)和未知參數(shù)的一個(gè)函數(shù),等于每個(gè)個(gè)體似然值相乘,其中似然函數(shù)的形式和結(jié)局變量的概率密度函數(shù)有關(guān)。在生存分析中似然函數(shù)和普通的似然函數(shù)區(qū)別在于數(shù)據(jù)包含刪失數(shù)據(jù),刪失數(shù)據(jù)類(lèi)型一般包括左刪失、右刪失和區(qū)間刪失。個(gè)體失效時(shí)間與似然值之間的關(guān)系見(jiàn)表1。
表1是不同個(gè)體的失效時(shí)間和對(duì)應(yīng)的似然值,其中f(t)是個(gè)體生存時(shí)間的概率密度函數(shù)。若該研究共有表1中的5人,則總的似然函數(shù)為:
未知參數(shù)的解可以通過(guò)最大化似然函數(shù)得到,最大化似然函數(shù)的過(guò)程通常是將ln(L)對(duì)各參數(shù)求偏導(dǎo)數(shù),并令偏導(dǎo)數(shù)為零,從而獲得所謂的“正規(guī)方程組”,然后求解此方程組便可獲得各參數(shù)的估計(jì)值,即:
表1 個(gè)體失效時(shí)間和似然值
對(duì)同一個(gè)生存資料擬合了兩個(gè)包含參數(shù)數(shù)目不同的參數(shù)回歸模型后,需要比較它們之中哪一個(gè)更好,稱(chēng)為“擬合優(yōu)度檢驗(yàn)”,通??刹捎谩八迫槐葯z驗(yàn)”。比較嵌套模型之間的擬合效果可以采用似然比檢驗(yàn)[5],似然比統(tǒng)計(jì)量的公式為:
式中服從自由度為v的χ2分布,-2logLq和-2logLq+v分別為含有q和q+v個(gè)參數(shù)的回歸模型的對(duì)數(shù)似然函數(shù)值。
一般來(lái)說(shuō),一個(gè)回歸模型對(duì)應(yīng)的“-2log(L)”的數(shù)值間接反映了模型對(duì)生存資料的擬合效果。當(dāng)有兩個(gè)回歸模型時(shí),若所含參數(shù)數(shù)目相同,此值越小越好;若所含參數(shù)數(shù)目不相同,含參數(shù)數(shù)目多的回歸模型的“-2log(L)”的數(shù)值必須明顯小于含參數(shù)數(shù)目少的回歸模型的“-2log(L)”的數(shù)值(即上述檢驗(yàn)結(jié)果為P<0.05),則應(yīng)選取含參數(shù)數(shù)目多的回歸模型。否則,應(yīng)選擇含參數(shù)數(shù)目少的回歸模型。
在生存資料參數(shù)回歸模型中,圖示法幫助我們選擇合適的概率分布,擬合優(yōu)度檢驗(yàn)幫助我們確定嵌套模型中的最優(yōu)模型,兩種方法結(jié)合提供了一個(gè)有效的模型選擇方法。
相對(duì)于非參數(shù)和半?yún)?shù)回歸模型而言,參數(shù)回歸模型的結(jié)果精確度要高一些,但是,目前暫無(wú)非常精準(zhǔn)的方法判定待分析的生存資料中的生存時(shí)間究竟服從何種概率分布,這可能是生存資料參數(shù)回歸模型在實(shí)際使用中比較受限的根本原因。
本文比較詳細(xì)地介紹了三種常見(jiàn)的概率分布回歸模型的構(gòu)建、求解和擬合優(yōu)度的比較方法;扼要地介紹了其他幾種并非常用但很重要的概率分布回歸模型。在實(shí)際應(yīng)用過(guò)程中,應(yīng)首先采用圖示法判斷資料中的生存時(shí)間是否符合特定的概率分布,然后擬合對(duì)應(yīng)的參數(shù)回歸模型,采用最大似然法求解參數(shù),通過(guò)擬合優(yōu)度的比較,最后選擇出最優(yōu)的參數(shù)回歸模型。