亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

生存資料回歸模型分析
——生存資料參數(shù)回歸模型分析基礎(chǔ)

2020-06-03 08:15:50劉紅偉張?zhí)鹛?/span>劉媛媛李長(zhǎng)平胡良平

四川精神衛(wèi)生 2020年1期

劉紅偉，張?zhí)鹛?，劉媛媛，李長(zhǎng)平，2，胡良平

（1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院，天津 300070；2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專(zhuān)業(yè)委員會(huì)，北京 100029；3.軍事科學(xué)院研究生院，北京 100850

在分析多個(gè)因素對(duì)生存時(shí)間的影響時(shí)，人們通常希望像一般的回歸分析一樣，能建立生存時(shí)間（因變量）隨危險(xiǎn)因素（自變量或協(xié)變量）變化的回歸方程，以便對(duì)危險(xiǎn)因素的作用大小有一個(gè)全面的了解和掌握，并根據(jù)危險(xiǎn)因素的不同取值對(duì)生存率（或危險(xiǎn)率）進(jìn)行預(yù)測(cè)。能實(shí)現(xiàn)此目的的生存分析方法有Cox模型回歸分析和參數(shù)模型回歸分析。當(dāng)生存時(shí)間的準(zhǔn)確分布無(wú)法獲得時(shí)，可采用Cox模型回歸分析［1］，此模型在形式上與參數(shù)模型相似，但對(duì)模型中各參數(shù)進(jìn)行估計(jì)時(shí)不依賴(lài)于特定分布的假設(shè)，所以又稱(chēng)半?yún)?shù)模型。當(dāng)然，在可以通過(guò)圖示法或統(tǒng)計(jì)檢驗(yàn)法得到待分析的生存時(shí)間服從某特定分布的參數(shù)模型時(shí)，如指數(shù)分布回歸模型或Weibull分布回歸模型，可采用生存資料的參數(shù)模型回歸分析直接擬合之，所得結(jié)果將更加準(zhǔn)確［2］。

1 生存資料參數(shù)回歸模型概述

生存資料參數(shù)回歸模型分析的一個(gè)重要內(nèi)容是模型擬合或分布擬合。描述生存時(shí)間分布的模型通常有指數(shù)分布、Weibull分布、Log-logistic分布、對(duì)數(shù)正態(tài)分布、廣義Gamma分布模型等。在生存分析研究中，常用概率密度函數(shù)f(t)、生存函數(shù)S(t)和風(fēng)險(xiǎn)函數(shù)（或稱(chēng)危險(xiǎn)率函數(shù)）h(t)來(lái)描述生存過(guò)程，這三種函數(shù)在數(shù)學(xué)推導(dǎo)上是等價(jià)的［3］，如果給定其中一種函數(shù)，另外兩種函數(shù)即可推導(dǎo)得出，它們的關(guān)系如下：

對(duì)實(shí)際的生存數(shù)據(jù)進(jìn)行分布擬合時(shí)，可用上述模型分別進(jìn)行擬合，根據(jù)擬合優(yōu)度檢驗(yàn)的結(jié)果選擇適當(dāng)?shù)哪Ｐ?。有時(shí)，對(duì)于一批生存數(shù)據(jù)，事先不知道生存時(shí)間的確切分布，也難以判斷何種模型最合適，許多研究者一般直接采用非參數(shù)或半?yún)?shù)回歸模型。但是，如果已知一批數(shù)據(jù)確實(shí)符合某特定的參數(shù)回歸模型，由于非參數(shù)或半?yún)?shù)方法的精度一般低于參數(shù)方法，此時(shí)，宜選用相應(yīng)的參數(shù)回歸模型。由于篇幅所限，本文主要介紹指數(shù)分布回歸模型、Weibull分布回歸模型和Log-logistic分布回歸模型。

2 常用的三種參數(shù)回歸模型介紹

2.1 指數(shù)分布回歸模型

2.1.1 僅以生存時(shí)間t為自變量的指數(shù)分布回歸模型

指數(shù)分布回歸模型是最簡(jiǎn)單的生存資料參數(shù)回歸模型，在任何時(shí)間點(diǎn)上的風(fēng)險(xiǎn)函數(shù)為一常數(shù)，風(fēng)險(xiǎn)函數(shù)的大小不受生存時(shí)間長(zhǎng)短的影響，即“無(wú)記憶性”。設(shè)生存時(shí)間服從指數(shù)分布，則生存時(shí)間變量的概率密度函數(shù)為：

分布函數(shù)為：

生存函數(shù)為：

風(fēng)險(xiǎn)函數(shù)為：

λ為常數(shù)，與時(shí)間無(wú)關(guān)，代表指數(shù)分布回歸模型的風(fēng)險(xiǎn)率，決定了生存率下降的快慢。風(fēng)險(xiǎn)率越大，生存率下降越快，生存時(shí)間越短；風(fēng)險(xiǎn)率越小，生存率下降越慢，生存時(shí)間越長(zhǎng)。

指數(shù)分布回歸模型自變量既滿(mǎn)足比例風(fēng)險(xiǎn)（Proportional Hazard，PH）假設(shè)，也滿(mǎn)足加速失效時(shí)間（Accelerated Failure Time，AFT）假設(shè)。PH假設(shè)要求一個(gè)人的風(fēng)險(xiǎn)與任何其他人的風(fēng)險(xiǎn)成正比，且比例為一個(gè)常數(shù)，與時(shí)間無(wú)關(guān)；AFT假設(shè)要求對(duì)于任一固定生存概率，不同個(gè)體間生存時(shí)間比值為一個(gè)常數(shù)，這個(gè)常數(shù)稱(chēng)為加速因子（Accelerated factor）。因此PH假設(shè)中預(yù)測(cè)變量（即自變量或影響因素）對(duì)個(gè)體發(fā)生風(fēng)險(xiǎn)的影響成比例，而AFT假設(shè)中預(yù)測(cè)變量對(duì)個(gè)體生存時(shí)間的影響成比例［4］。

2.1.2 基于生存時(shí)間t添加其他自變量的指數(shù)分布回歸模型

在上面的四個(gè)模型表達(dá)式中，生存時(shí)間t為自變量，其因變量分別為f（t）、F（t）、S（t）和h（t），它們分別為密度函數(shù)、分布函數(shù)、生存函數(shù)和風(fēng)險(xiǎn)函數(shù)。但是，在處理實(shí)際的生存資料時(shí)，研究者希望考察除時(shí)間t之外的其他許多自變量或協(xié)變量對(duì)前述提及的四個(gè)因變量的影響，于是，統(tǒng)計(jì)學(xué)家將模型中的“重要參數(shù)”視為除時(shí)間t之外的其他許多自變量或協(xié)變量的函數(shù)（基于數(shù)學(xué)上處理方便角度考量，選取“指數(shù)函數(shù)”形式）。這樣，就建立起因變量依賴(lài)包括生存時(shí)間t在內(nèi)并包含其他自變量的回歸模型。為簡(jiǎn)便起見(jiàn)，下面的例子中只包含了一個(gè)叫做“TRT”的“新自變量”。

將指數(shù)分布回歸模型應(yīng)用到42例白血病患者數(shù)據(jù)中［4］，其中21例患者接受了治療，另外21例患者使用了安慰劑。結(jié)局為白血病患者的生存時(shí)間，預(yù)測(cè)變量（即自變量）是TRT，取值（0，1），1代表接受了治療，0代表未接受治療。

基于PH假設(shè)，包含預(yù)測(cè)變量的指數(shù)分布回歸模型表達(dá)式（此處特指風(fēng)險(xiǎn)函數(shù)）為：

其中h(t)為個(gè)體風(fēng)險(xiǎn)大小，TRT表示是否接受治療，則治療組相對(duì)于非治療組的風(fēng)險(xiǎn)比（Hazard ratio）為：

基于AFT假設(shè)，包含預(yù)測(cè)變量的指數(shù)分布回歸模型表達(dá)式為：

上式中，t代表個(gè)體生存時(shí)間，S(t)代表個(gè)體生存函數(shù)。對(duì)任一固定生存概率S(t)=q，治療組相對(duì)于非治療組的加速因子（Acceleration factor）γ為：

若α1＞ 0，則exp(α1)＞ 1，表明相對(duì)于安慰劑，治療對(duì)于生存時(shí)間有正向促進(jìn)作用，延長(zhǎng)了患者的生存時(shí)間；若α1＜ 0，則exp(α1)＜ 1，表明相對(duì)于安慰劑，治療對(duì)于生存時(shí)間有反向抑制作用，縮短了患者的生存時(shí)間。

2.2 Weibull分布回歸模型

2.2.1 僅以生存時(shí)間t為自變量的Weibull分布回歸模型

Weibull分布回歸模型是最廣泛使用的參數(shù)回歸模型，由瑞典科學(xué)家Waloddi Weibull提出。Weibull分布是指數(shù)分布的一種推廣形式，應(yīng)用更廣泛。設(shè)生存時(shí)間服從Weibull分布，則對(duì)應(yīng)的概率密度函數(shù)為：

生存函數(shù)為：

風(fēng)險(xiǎn)函數(shù)為：

λ是尺度參數(shù)，γ是形狀參數(shù)，決定函數(shù)圖像的形狀。若γ＞1，風(fēng)險(xiǎn)隨著時(shí)間的增加而增加；若γ=1，風(fēng)險(xiǎn)為常數(shù)，則Weibull分布變?yōu)橹笖?shù)分布；若γ＜1，風(fēng)險(xiǎn)隨著時(shí)間的增加而減小。

2.2.2 基于生存時(shí)間t添加其他自變量的Weibull分布回歸模型

基于PH假設(shè)，包含預(yù)測(cè)變量的Weibull分布回歸模型表達(dá)式（此處特指風(fēng)險(xiǎn)函數(shù)）為：

基于AFT假設(shè)，包含預(yù)測(cè)變量的Weibull分布回歸模型表達(dá)式為：

風(fēng)險(xiǎn)比（Hazard ratio）和加速因子（Acceleration factor）的求解和解釋同指數(shù)分布類(lèi)似，此處不再贅述。

2.3 Log-logistic分布回歸模型

2.3.1 僅以生存時(shí)間t為自變量的Log-logistic分布回歸模型

在生存分析中，Log-logistic分布用于描述事件的發(fā)生率，例如診斷或治療后的腫瘤患者的死亡率。設(shè)生存時(shí)間服從Log-logistic分布，則對(duì)應(yīng)的概率密度函數(shù)為：

生存函數(shù)為：

風(fēng)險(xiǎn)函數(shù)為：

γ是形狀參數(shù)，當(dāng)γ≤1時(shí)，風(fēng)險(xiǎn)值隨著時(shí)間增加而下降；若γ＞1，則風(fēng)險(xiǎn)值先增加后減小，風(fēng)險(xiǎn)函數(shù)圖像為“單峰”。Log-logistic分布回歸模型要求自變量滿(mǎn)足AFT假設(shè)，不滿(mǎn)足PH假設(shè)，但滿(mǎn)足比例優(yōu)比（Proportional odds，PO）假設(shè)，PO假設(shè)要求生存優(yōu)勢(shì)比（Survival odds ratio）隨著時(shí)間的變化保持不變，即生存優(yōu)勢(shì)比為常數(shù)，其中生存優(yōu)勢(shì)比（Survival odds ratio，SOR）定義為兩個(gè)個(gè)體的生存比值的比值，表達(dá)式為：

其中，S1(t)是個(gè)體1的生存函數(shù)，S2(t)是個(gè)體2的生存函數(shù)，若SOR和時(shí)間無(wú)關(guān)，則Log-logistic分布回歸模型自變量滿(mǎn)足PO假設(shè)。

2.3.2 基于生存時(shí)間t添加其他自變量的Log-logistic分布回歸模型

以42例白血病患者數(shù)據(jù)中的白細(xì)胞計(jì)數(shù)變量（white blood cell count，WBCCAT）為例，WBCCAT變量取值1和2，1代表中位數(shù)，2代表最大值。基于PO假設(shè)，包含預(yù)測(cè)變量的Log-logistic分布回歸模型表達(dá)式為：

其中，變量WBCCAT的失效比為：

若β1＞0，則WBCCAT取值1的結(jié)局風(fēng)險(xiǎn)更大?；贏FT假設(shè)，包含預(yù)測(cè)變量的Log-logistic分布回歸模型表達(dá)式為：

加速因子的求解與解釋與指數(shù)分布回歸模型類(lèi)似，此處不再贅述。

2.4 其他概率分布下參數(shù)回歸模型簡(jiǎn)介

2.4.1 對(duì)數(shù)正態(tài)分布回歸模型

對(duì)數(shù)正態(tài)分布參數(shù)回歸模型定義為時(shí)間變量的對(duì)數(shù)遵從正態(tài)分布，其概率密度函數(shù)為：

生存函數(shù)為：

風(fēng)險(xiǎn)函數(shù)為：

其中，a=exp(-μ)，Φ(x)為標(biāo)準(zhǔn)正態(tài)分布函數(shù)。對(duì)數(shù)正態(tài)分布的形狀與Log-logistic分布形狀接近，不同的是對(duì)數(shù)正態(tài)分布模型要求自變量滿(mǎn)足AFT假設(shè)，但不滿(mǎn)足PO假設(shè)。

2.4.2 Gompertz分布回歸模型

Gompertz分布回歸模型定義為生存時(shí)間服從Gompertz分布，其概率密度函數(shù)為：

生存函數(shù)為：

風(fēng)險(xiǎn)函數(shù)為：

Gompertz模型自變量不滿(mǎn)足AFT假設(shè)，但回歸模型和Cox模型相似。

2.4.3 廣義Gamma分布回歸模型

廣義Gamma分布回歸模型有三個(gè)參數(shù)，形狀有更大的靈活性。設(shè)生存時(shí)間服從廣義Gamma分布，則對(duì)應(yīng)的概率密度函數(shù)為：

生存函數(shù)為：

風(fēng)險(xiǎn)函數(shù)為：

3 基于圖示法判斷生存時(shí)間的概率分布

3.1 基于圖示法判斷生存時(shí)間服從指數(shù)分布的方法

指數(shù)分布回歸模型根據(jù)S(t)=e-λt可以得出log[S(t)]=-λt，可繪制出log[S(t)]對(duì)t的Kaplan-Meier圖，若圖像是經(jīng)過(guò)原點(diǎn)的一條直線(xiàn)，表明數(shù)據(jù)符合指數(shù)分布回歸模型，斜率是-λ的估計(jì)值。

3.2 基于圖示法判斷生存時(shí)間服從Weibull分布的方法

Weibull分布回歸模型根據(jù)S(t)=exp[-(λt)γ]，可以得到ln[-lnS(t)]=γlnλ+γlnt，即ln[-lnS(t)]和lnt是線(xiàn)性關(guān)系，斜率為γ?？衫L制出ln[-lnS(t)]對(duì)lnt的Kaplan-Meier圖，若圖像是一條直線(xiàn)，表明數(shù)據(jù)符合Weibull分布回歸模型，斜率為γ，截距為γlnλ。

3.3 基于圖示法判斷生存時(shí)間服從Log-logistic分布的方法

4 基于最大似然估計(jì)法求解參數(shù)回歸模型中的參數(shù)

參數(shù)回歸模型中回歸系數(shù)可以通過(guò)求極大似然函數(shù)最大值的方法得到。參數(shù)回歸模型的似然函數(shù)是觀測(cè)數(shù)據(jù)和未知參數(shù)的一個(gè)函數(shù)，等于每個(gè)個(gè)體似然值相乘，其中似然函數(shù)的形式和結(jié)局變量的概率密度函數(shù)有關(guān)。在生存分析中似然函數(shù)和普通的似然函數(shù)區(qū)別在于數(shù)據(jù)包含刪失數(shù)據(jù)，刪失數(shù)據(jù)類(lèi)型一般包括左刪失、右刪失和區(qū)間刪失。個(gè)體失效時(shí)間與似然值之間的關(guān)系見(jiàn)表1。

表1是不同個(gè)體的失效時(shí)間和對(duì)應(yīng)的似然值，其中f(t)是個(gè)體生存時(shí)間的概率密度函數(shù)。若該研究共有表1中的5人，則總的似然函數(shù)為：

未知參數(shù)的解可以通過(guò)最大化似然函數(shù)得到，最大化似然函數(shù)的過(guò)程通常是將ln(L)對(duì)各參數(shù)求偏導(dǎo)數(shù)，并令偏導(dǎo)數(shù)為零，從而獲得所謂的“正規(guī)方程組”，然后求解此方程組便可獲得各參數(shù)的估計(jì)值，即：

表1 個(gè)體失效時(shí)間和似然值

5 兩個(gè)參數(shù)回歸模型擬合優(yōu)度的比較

對(duì)同一個(gè)生存資料擬合了兩個(gè)包含參數(shù)數(shù)目不同的參數(shù)回歸模型后，需要比較它們之中哪一個(gè)更好，稱(chēng)為“擬合優(yōu)度檢驗(yàn)”，通?？刹捎谩八迫槐葯z驗(yàn)”。比較嵌套模型之間的擬合效果可以采用似然比檢驗(yàn)［5］，似然比統(tǒng)計(jì)量的公式為：

式中服從自由度為v的χ2分布，-2logLq和-2logLq+v分別為含有q和q+v個(gè)參數(shù)的回歸模型的對(duì)數(shù)似然函數(shù)值。

一般來(lái)說(shuō)，一個(gè)回歸模型對(duì)應(yīng)的“-2log（L）”的數(shù)值間接反映了模型對(duì)生存資料的擬合效果。當(dāng)有兩個(gè)回歸模型時(shí)，若所含參數(shù)數(shù)目相同，此值越小越好；若所含參數(shù)數(shù)目不相同，含參數(shù)數(shù)目多的回歸模型的“-2log（L）”的數(shù)值必須明顯小于含參數(shù)數(shù)目少的回歸模型的“-2log（L）”的數(shù)值（即上述檢驗(yàn)結(jié)果為P＜0.05），則應(yīng)選取含參數(shù)數(shù)目多的回歸模型。否則，應(yīng)選擇含參數(shù)數(shù)目少的回歸模型。

6 討論與小結(jié)

6.1 討論

在生存資料參數(shù)回歸模型中，圖示法幫助我們選擇合適的概率分布，擬合優(yōu)度檢驗(yàn)幫助我們確定嵌套模型中的最優(yōu)模型，兩種方法結(jié)合提供了一個(gè)有效的模型選擇方法。

相對(duì)于非參數(shù)和半?yún)?shù)回歸模型而言，參數(shù)回歸模型的結(jié)果精確度要高一些，但是，目前暫無(wú)非常精準(zhǔn)的方法判定待分析的生存資料中的生存時(shí)間究竟服從何種概率分布，這可能是生存資料參數(shù)回歸模型在實(shí)際使用中比較受限的根本原因。

6.2 小結(jié)

本文比較詳細(xì)地介紹了三種常見(jiàn)的概率分布回歸模型的構(gòu)建、求解和擬合優(yōu)度的比較方法；扼要地介紹了其他幾種并非常用但很重要的概率分布回歸模型。在實(shí)際應(yīng)用過(guò)程中，應(yīng)首先采用圖示法判斷資料中的生存時(shí)間是否符合特定的概率分布，然后擬合對(duì)應(yīng)的參數(shù)回歸模型，采用最大似然法求解參數(shù)，通過(guò)擬合優(yōu)度的比較，最后選擇出最優(yōu)的參數(shù)回歸模型。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

生存資料回歸模型分析——生存資料參數(shù)回歸模型分析基礎(chǔ)

1 生存資料參數(shù)回歸模型概述

2 常用的三種參數(shù)回歸模型介紹

2.1 指數(shù)分布回歸模型

2.2 Weibull分布回歸模型

2.3 Log-logistic分布回歸模型

2.4 其他概率分布下參數(shù)回歸模型簡(jiǎn)介

3 基于圖示法判斷生存時(shí)間的概率分布

3.1 基于圖示法判斷生存時(shí)間服從指數(shù)分布的方法

3.2 基于圖示法判斷生存時(shí)間服從Weibull分布的方法

3.3 基于圖示法判斷生存時(shí)間服從Log-logistic分布的方法

4 基于最大似然估計(jì)法求解參數(shù)回歸模型中的參數(shù)

5 兩個(gè)參數(shù)回歸模型擬合優(yōu)度的比較

6 討論與小結(jié)

6.1 討論

6.2 小結(jié)

生存資料回歸模型分析
——生存資料參數(shù)回歸模型分析基礎(chǔ)