阮燦華,林甲祥
(福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院,福州350002)
(?通信作者電子郵箱ruancanhua@fafu.edu.cn)
生存分析(survival analysis)是一種估計(jì)事件時(shí)間(timeto-event)的統(tǒng)計(jì)方法,已被廣泛應(yīng)用于臨床醫(yī)學(xué)、衛(wèi)生保健、生物信息學(xué)、人口統(tǒng)計(jì)學(xué)、機(jī)械制造、經(jīng)濟(jì)學(xué)等領(lǐng)域[1]。在生存分析問題中,“生存”不僅可以指人或動(dòng)物存活的狀態(tài)(相對(duì)于死亡事件),還可以表示某藥物的有效作用(相對(duì)于失效事件)、患者病情穩(wěn)定的狀態(tài)(相對(duì)于疾病復(fù)發(fā)或病情惡化事件),以及儀器設(shè)備的正常工作狀態(tài)(相對(duì)于故障事件)等。因此,“生存時(shí)間”也是廣義的,不單單是指通常意義下生物體的存活時(shí)間,而是泛指研究者所關(guān)心的某現(xiàn)象(如患者體征穩(wěn)定)的持續(xù)時(shí)間。生存分析的核心問題是對(duì)事件時(shí)間進(jìn)行估計(jì),即預(yù)測(cè)某研究對(duì)象的生存時(shí)間或特定時(shí)間段內(nèi)某事件未發(fā)生的概率。生存分析是研究特定人群壽命、各類慢性疾病、藥物療效以及提高醫(yī)療衛(wèi)生服務(wù)的一項(xiàng)重要課題。例如,臨床醫(yī)學(xué)研究需要預(yù)估冠心病患者出院后下一次可能復(fù)發(fā)的時(shí)間;流行病學(xué)和生物學(xué)研究則需要檢測(cè)樣本從接觸感染到發(fā)病所需要的時(shí)間;機(jī)械制造過程中人們常常對(duì)設(shè)備的可靠性進(jìn)行測(cè)試,并估算故障發(fā)生時(shí)間(即設(shè)備使用壽命)。
傳統(tǒng)生存分析方法按照生存時(shí)間分布假設(shè)及模型參數(shù)可以分為無參、有參和半?yún)⑷N類型。無參模型主要包括Kaplan-Meier(KM)估計(jì)[2]、Nelson-Aalen 估計(jì)[3]以及生命表法(life table);有參模型通常假設(shè)事件時(shí)間服從某種特殊分布時(shí),并采用正態(tài)、韋伯(Weibull)、log-Logistic等分布函數(shù)估計(jì)生存概率。然而,大多數(shù)情況下,關(guān)于事件時(shí)間的先驗(yàn)知識(shí)相對(duì)較少,因此應(yīng)用局限性較大。半?yún)ⅲ╯emi-parametric)模型的主要代表是比例風(fēng)險(xiǎn)(proportional-hazard)Cox回歸模型[4],該模型具有簡(jiǎn)單易用的特點(diǎn)。近年來,機(jī)器學(xué)習(xí)方法也被廣泛用于生存數(shù)據(jù)處理以及生存模型的參數(shù)學(xué)習(xí):Leblanc等[5]提出了一種針對(duì)刪失數(shù)據(jù)的分類回歸樹,即生存樹(survival tree);Khan等[6]提出了一種針對(duì)刪失數(shù)據(jù)的支持向量回歸(Support Vector Regression,SVR)模型;楊銘等[7]針對(duì)復(fù)雜中醫(yī)腫瘤臨床數(shù)據(jù)提出了一種采用生存網(wǎng)絡(luò)結(jié)構(gòu)模型;潘浩等[8]提出了一種基于深度學(xué)習(xí)的Cox-Lasso生存分析方法用于肺癌細(xì)胞自動(dòng)檢測(cè);Fisher等[9]針對(duì)縱向數(shù)據(jù)(longitudinal data)提出了一種動(dòng)態(tài)Cox模型;Cortese等[10]提出了一種可以處理內(nèi)在(internal)風(fēng)險(xiǎn)因子變量的多狀態(tài)對(duì)比風(fēng)險(xiǎn)模型;Wang[11]提出了一種針對(duì)動(dòng)態(tài)風(fēng)險(xiǎn)因子的數(shù)值插入法以及對(duì)未知鏈接函數(shù)進(jìn)行估計(jì)的動(dòng)態(tài)比例風(fēng)險(xiǎn)模型。
研究事件發(fā)生規(guī)律常常需要對(duì)樣本進(jìn)行長(zhǎng)期追蹤,因此本文需要處理的事件時(shí)間數(shù)據(jù)包含大量隨時(shí)間變化的風(fēng)險(xiǎn)因子變量(如哮喘病患者在不同時(shí)間點(diǎn)的血液含氧量和二氧化碳分壓觀測(cè)值)。然而,現(xiàn)有的生存分析方法大多無法有效處理這類復(fù)雜的動(dòng)態(tài)數(shù)據(jù),這些方法通常采用簡(jiǎn)單的單點(diǎn)取樣[12](如當(dāng)前值抽樣和平均值抽樣),在估計(jì)某時(shí)刻的生存概率時(shí)只考慮當(dāng)前記錄時(shí)間點(diǎn)的風(fēng)險(xiǎn)因子變量值而忽略歷史數(shù)據(jù)的作用,這在許多實(shí)際應(yīng)用中并不合理,例如哮喘患者在服用β2激動(dòng)劑之后,本文會(huì)觀測(cè)到生理指標(biāo)一秒鐘用力呼氣容積(Forced Expiratory Volume in one second,F(xiàn)EV1)在很長(zhǎng)一段時(shí)間內(nèi)都會(huì)受該藥劑影響,因此某一時(shí)刻的FEV1觀測(cè)值并不能刻畫病人的病情發(fā)展以及變量FEV1與生存概率之間的關(guān)系。總體而言,如何有效分析復(fù)雜的動(dòng)態(tài)事件時(shí)間數(shù)據(jù)、構(gòu)建事件時(shí)間預(yù)測(cè)模型是一個(gè)亟待解決的難點(diǎn)和熱點(diǎn)問題,因此,本文的工作重點(diǎn)是探究刻畫風(fēng)險(xiǎn)因子變量觀測(cè)序列的數(shù)據(jù)模型以及生存機(jī)器學(xué)習(xí)方法。
事件時(shí)間數(shù)據(jù)作為一種特殊的觀測(cè)型數(shù)據(jù),包含大量刪失數(shù)據(jù),可以用于事件預(yù)測(cè)模型學(xué)習(xí)的事件時(shí)間信息多有缺失。多任務(wù)學(xué)習(xí)方法能夠?yàn)槊總€(gè)訓(xùn)練任務(wù)提供更多的信息,從而提高模型精度并降低預(yù)測(cè)錯(cuò)誤率,例如,多任務(wù)學(xué)習(xí)預(yù)測(cè)病情發(fā)展、HIV(Human Immunodeficiency Virus)治療、基因數(shù)據(jù)分析等[13-14]。鑒于此,本文提出了一種多任務(wù)Logistic生存學(xué)習(xí)模型(Multi-task Logistic Survival Learning,MLSL),該模型將生存預(yù)測(cè)任務(wù)轉(zhuǎn)化為一系列不同時(shí)間點(diǎn)的Logistic生存回歸學(xué)習(xí)與分類問題,即多任務(wù)學(xué)習(xí)與預(yù)測(cè)。針對(duì)風(fēng)險(xiǎn)因子變量的動(dòng)態(tài)觀測(cè)值,本文將構(gòu)建一個(gè)新的全數(shù)據(jù)生存函數(shù),利用所有可觀測(cè)值估計(jì)累計(jì)事件風(fēng)險(xiǎn),提高數(shù)據(jù)利用率;另外,本文的新方法利用Logistic回歸模型分別估計(jì)事件樣本和刪失樣本在不同時(shí)間點(diǎn)的事件概率,并根據(jù)各時(shí)間點(diǎn)的概率對(duì)事件時(shí)間進(jìn)行估計(jì)。為了學(xué)習(xí)MLSL模型的參數(shù),本文在優(yōu)化目標(biāo)函數(shù)中對(duì)模型參數(shù)進(jìn)行了正則化和平滑處理,避免模型過擬合。最后,本文在多個(gè)臨床事件時(shí)間數(shù)據(jù)上開展對(duì)比實(shí)驗(yàn),并驗(yàn)證模型的有效性和實(shí)用性。
本章介紹事件時(shí)間數(shù)據(jù),并描述動(dòng)態(tài)事件時(shí)間數(shù)據(jù)特性以及Logistic生存函數(shù)和概率模型。
不同于一般類型的數(shù)據(jù),事件時(shí)間數(shù)據(jù)是一種特殊的觀測(cè)型數(shù)據(jù),常常包含右刪失(right-censoring)、左刪失、區(qū)間刪失等類型的事件刪失樣本。事件刪失的主要原因有以下兩種:
失訪 某些與研究無關(guān)的原因?qū)е聵颖緹o法訪問,如肺癌患者在隨訪期間死于心肌梗塞、自殺或車禍。
追蹤終止 追蹤在事件發(fā)生之前終止。
如圖1所示的7個(gè)樣本中,A、B、G的初始觀測(cè)時(shí)間未知,即事件左刪失;樣本B、C、E中途退出實(shí)驗(yàn),G在追蹤終止時(shí)仍未有事件發(fā)生,這4個(gè)樣本都屬于事件右刪失類型。本文主要針對(duì)最常見的右刪失類型數(shù)據(jù)開展模型研究和應(yīng)用研究。
圖1 事件時(shí)間數(shù)據(jù)示例Fig.1 An exampleof time-to-event data
樣本i在t時(shí)刻的D個(gè)風(fēng)險(xiǎn)因子變量的觀測(cè)值記為x(i t)=(xi(1t),xi(2t),…,xiD(t))。對(duì)于給定數(shù)據(jù)集,假設(shè)所有非刪失樣本的事件時(shí)間點(diǎn)為τ1<τ2<…<τK。給定風(fēng)險(xiǎn)因子變量觀測(cè)時(shí)間點(diǎn)集合為φ,動(dòng)態(tài)事件時(shí)間數(shù)據(jù)X i=(x(i u1),x(i u2),…,xi(u|φ|)),其中uj∈φ是風(fēng)險(xiǎn)因子變量觀測(cè)時(shí)間點(diǎn)。特別地,本文用φ(t)表示在時(shí)間t之前的所有觀測(cè)時(shí)間點(diǎn)。生存狀態(tài)zi為表示事件是否發(fā)生的二元變量,即zi∈{0,1}:當(dāng)i的事件已發(fā)生則取值為1,否則為0;標(biāo)簽時(shí)間變量yi∈R+在zi=1時(shí)為生存時(shí)間Ti,即yi=Ti,而當(dāng)zi=0,則為刪失事件時(shí)間Ci,即yi=Ci。本文用E1={i|zi=1}表示追蹤期內(nèi)有事件發(fā)生的所有樣本。對(duì)于刪失事件樣本,本文無法在追蹤期內(nèi)觀測(cè)到事件是否發(fā)生,也無法得知其在追蹤期外的生存狀態(tài),但至少本文已知在丟失其可觀測(cè)的最后時(shí)間點(diǎn)之前仍是“存活”的。換言之,右刪失樣本的生存時(shí)間大于或等于刪失時(shí)間,即Ti≥Ci,?i∈E0,集合E0={i|zi=0}包含所有追蹤期內(nèi)沒有事件發(fā)生的樣本。
生存預(yù)測(cè)的核心任務(wù)是預(yù)測(cè)事件時(shí)間,即預(yù)測(cè)事件在某時(shí)間點(diǎn)發(fā)生的概率,其概率密度函數(shù)為F(t)=Pr(T≤t)。生存函數(shù)S(t)表示t時(shí)刻的生存概率,即事件不會(huì)早于t發(fā)生的概率,因此S(t)=Pr(T>t)=1-F(t)。實(shí)際上,任意形式的分布(如指數(shù)分布、Weibull分布、正態(tài)分布),只要滿足時(shí)間變量t∈[0,∞)都可以作為生存分布假設(shè)[15]。例如當(dāng)且僅當(dāng)lnT=η+σU時(shí)(U∈(-∞,∞)為隨機(jī)變量),T服從log-Logistic分布,生存概率則為:
從式(1)可以看出,生存函數(shù)與風(fēng)險(xiǎn)因子變量無關(guān),因此傳統(tǒng)的log-Logistic有參模型無法估計(jì)風(fēng)險(xiǎn)因子變量對(duì)事件發(fā)生的影響。本文改寫η為風(fēng)險(xiǎn)因子變量的線性函數(shù),并構(gòu)造如下生存函數(shù):
這里,參數(shù)w刻畫了風(fēng)險(xiǎn)因子自變量在t時(shí)刻對(duì)事件發(fā)生的瞬時(shí)作用。生存函數(shù)S表示觀察對(duì)象隨訪到t時(shí)刻的累積生存率,該生存概率只由當(dāng)前觀測(cè)值決定,而風(fēng)險(xiǎn)因子觀測(cè)值的變化對(duì)事件時(shí)間的影響作用被忽略。
本章給出新的風(fēng)險(xiǎn)累積Logistic生存函數(shù)和多任務(wù)學(xué)習(xí)方法、回歸模型系數(shù)的選擇策略,以及事件時(shí)間估計(jì)方法。
為了估計(jì)風(fēng)險(xiǎn)因子變量在整個(gè)觀測(cè)期內(nèi)對(duì)生存概率的累積作用,本文構(gòu)建以下Logistic生存函數(shù):
其中Ri(u,W)是i在觀測(cè)時(shí)間點(diǎn)u的累積事件風(fēng)險(xiǎn),計(jì)算如下:
指數(shù)函數(shù)η(u,t)為u時(shí)刻的事件風(fēng)險(xiǎn)到t時(shí)刻的衰減率,取值范圍為(0,1],即時(shí)間越久,風(fēng)險(xiǎn)衰減越多。換言之,累積生存函數(shù)可以充分利用觀測(cè)數(shù)據(jù),更符合臨床應(yīng)用中的實(shí)際情況,例如病人用藥之后的很長(zhǎng)一段時(shí)間內(nèi),生理指標(biāo)都會(huì)受到藥效影響,且該影響會(huì)隨著時(shí)間變小。
實(shí)際上,風(fēng)險(xiǎn)因子變量與事件發(fā)生概率之間的關(guān)系是隨時(shí)間而變化的,因此本文設(shè)定一個(gè)新的回歸系數(shù)矩陣W=(w0,w1,w2,…,w K)用于描述風(fēng)險(xiǎn)因子變量對(duì)生存概率的潛在影響力:w k是在tk時(shí)刻的D維回歸系數(shù)向量。樣本i的生存狀態(tài)在觀測(cè)期內(nèi)的變化可以表示成一個(gè)二元序列,zi(τ2),…,zi(τK)),當(dāng)t≤Ti時(shí),zi(t)取值為0,t>Ti時(shí)則取值為1。為了求取最優(yōu)的回歸系數(shù)W*,本文將優(yōu)化關(guān)于W的似然函數(shù)。該似然估計(jì)實(shí)際上是在給定參數(shù)時(shí)對(duì)z i概率的估計(jì)。給定i∈E1,關(guān)于W的似然函數(shù)為:
最大化似然函數(shù)可以轉(zhuǎn)化為最小化似然函數(shù)的負(fù)對(duì)數(shù),由此,本文的學(xué)習(xí)任務(wù)為:
正則化系數(shù)λ可以在驗(yàn)證集上采用交叉驗(yàn)證方法進(jìn)行優(yōu)化。為了避免優(yōu)化過程中目標(biāo)函數(shù)出現(xiàn)常數(shù)項(xiàng),本文對(duì)訓(xùn)練集風(fēng)險(xiǎn)因子變量矩陣X和驗(yàn)證集風(fēng)險(xiǎn)因子變量矩陣U的各列,以及訓(xùn)練集事件輸出列向量Y和驗(yàn)證集事件輸出列向量Q都進(jìn)行標(biāo)準(zhǔn)化處理。最優(yōu)的λ值能夠使得模型在驗(yàn)證集上的預(yù)測(cè)錯(cuò)誤率最低,因此正則化系數(shù)優(yōu)化的核心是解決下述最小化問題:
為了計(jì)算方便,上述優(yōu)化問題的解可以近似估計(jì)為ridge回歸模型的正則化系數(shù)最優(yōu)解,因此
目標(biāo)函數(shù)O關(guān)于λ的偏導(dǎo)數(shù)為:
根據(jù)推論1以及矩陣計(jì)算,本文可以得到:
將式(11)和式(9)代入式(10),并令J=XTX+λI,則本文有:
式(12)包含大量的矩陣轉(zhuǎn)置計(jì)算,難度大且效率低,因此,本文用XTX的分解特征值來改寫式(12)。假設(shè)矩陣V的每列為特征向量,γ為特征值向量,那么XTX=Vdiag(γ)VT。G=XTX+λI的特征向量仍然為V,特征值則為γ+λI。因此,本文有G=Vdiag(γ+λI)VT。假設(shè)P=diag((γ+λI)-1),P-1=VPVT,則
推論1 假設(shè)M是一個(gè)基于實(shí)參κ的方陣,且各分量函數(shù)可導(dǎo),M(κ)對(duì)于所有的T都是可逆的,那么d
證明假設(shè)mij(κ)是M的分量函數(shù),mjk(κ)是M-1(κ)的分量函數(shù)。給定矩陣M的階n以及克羅內(nèi)克(Kronecker)函數(shù),對(duì)于任意κ,本文有:
其中Ξ={τ1,τ2,…,τK}。損失函數(shù)Δ(G,T)為預(yù)測(cè)事件時(shí)間G和真實(shí)事件時(shí)間T之間的誤差,如絕對(duì)誤差|G-T|或?qū)?shù)誤差|lnG-lnT|。
本文的多任務(wù)回歸學(xué)習(xí)方法將生存函數(shù)(曲線)的擬合問題轉(zhuǎn)化為各時(shí)間點(diǎn)的生存狀態(tài)預(yù)測(cè)問題。這些預(yù)測(cè)任務(wù)是緊密相關(guān)的,各時(shí)間點(diǎn)的預(yù)測(cè)結(jié)果滿足生存概率的單調(diào)性。
與參數(shù)模型相比,本文的新模型無需生存時(shí)間分布假設(shè),而且可以給出各時(shí)間點(diǎn)的事件風(fēng)險(xiǎn)率以及風(fēng)險(xiǎn)因子變量對(duì)風(fēng)險(xiǎn)率的影響,具有一定的普遍適用性。Cox模型采用比例風(fēng)險(xiǎn)假設(shè),并估計(jì)生存概率為:
其中:基線風(fēng)險(xiǎn)H(0t)為不考慮風(fēng)險(xiǎn)因子變量時(shí)的累積風(fēng)險(xiǎn),通常由Breslow估計(jì)法[16]確定;基線概率SCo(xt)=S(t(|0,0,…,0)),表示在t時(shí)刻的基準(zhǔn)死亡比例(即發(fā)病密度或死亡密度)?;貧w系數(shù)β描述了生存概率與風(fēng)險(xiǎn)因子變量之間的關(guān)系,該關(guān)系不隨時(shí)間變化而變化。靜態(tài)回歸系數(shù)簡(jiǎn)單,但卻不如本文的動(dòng)態(tài)回歸參數(shù)更符合實(shí)際情況,這也是動(dòng)態(tài)Cox(Time-dependent Cox,TCox)模型[9]采用動(dòng)態(tài)系數(shù)βk的主要原因。類似地,Cox的半比例風(fēng)險(xiǎn)(Semi-Proportional Hazards,SPH)[17]模型也采用動(dòng)態(tài)回歸系數(shù)。與SPH模型的全數(shù)據(jù)學(xué)習(xí)方法類似,新模型充分利用刪失數(shù)據(jù)優(yōu)化參數(shù)。本質(zhì)上,新模型和基于Cox的模型采用的都是風(fēng)險(xiǎn)乘積方式。
新模型中的全數(shù)據(jù)似然函數(shù)不同于Cox模型的最大化如下局部似然估計(jì)(Maximum Partial Likelihood Estimate,MPLE)[18]函數(shù):
模型學(xué)習(xí)在訓(xùn)練樣本上優(yōu)化生存函數(shù)參數(shù)并得到最優(yōu)值W*。因此,對(duì)給定風(fēng)險(xiǎn)因子變量值Xtest的測(cè)試樣本,本文用Logistic回歸函數(shù)估計(jì)生存概率為S(t|Xtes)t=(1+R(i u,W*))-1。鑒于生存函數(shù)只能估計(jì)生存概率,且目前尚沒有具體的生存時(shí)間估計(jì)方法,本文對(duì)樣本i的事件時(shí)間估計(jì)如下:
其中χ(yi)是在時(shí)間yi前所有未有事件發(fā)生的樣本。另外,新模型的目標(biāo)函數(shù)沒有采用傳統(tǒng)的Elastic-Net[19]懲罰因子
本章首先說明數(shù)據(jù)集及預(yù)處理工作,接著給出對(duì)比模型和性能評(píng)價(jià)標(biāo)準(zhǔn),最后介紹實(shí)驗(yàn)過程并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型的有效性和效率進(jìn)行分析。
本實(shí)驗(yàn)將在如表1所示的10個(gè)數(shù)據(jù)集上開展,其中,Lung、Prostate和Colorectal三個(gè)癌癥數(shù)據(jù)集是由NIH CDAS(https://cdas.cancer.gov)提供;其他7個(gè)數(shù)據(jù)集從R database獲得,且本文利用tmerge函數(shù)[20]為每個(gè)數(shù)據(jù)集生成動(dòng)態(tài)風(fēng)險(xiǎn)因子變量值。為了減少觀測(cè)值差異對(duì)相似度度量的影響,本文將數(shù)值型數(shù)據(jù)集的觀測(cè)值都進(jìn)行標(biāo)準(zhǔn)化處理。對(duì)于類屬性變量,本文利用虛擬變量法(dummy variable)將其轉(zhuǎn)化為0-1二元變量,這樣所有風(fēng)險(xiǎn)因子變量便可以直接用于回歸模型的計(jì)算。虛擬變量法的核心是將有l(wèi)(l≥2)個(gè)觀測(cè)值的分類型風(fēng)險(xiǎn)因子變量用其中任意l-1個(gè)觀測(cè)值所構(gòu)成的0-1二元虛擬變量所表示。例如,生理指標(biāo)BMI(Body Mass Index)一般有“體重過輕”“正?!薄俺亍焙汀胺逝帧彼膫€(gè)類屬性變量值,本文任選三個(gè)變量值作為虛擬變量來描述變量BMI。假設(shè)(體重過輕、正常、超重)為一組虛擬變量,每個(gè)虛擬變量取值1(“是”)或0(“否”),(0,0,0)則表示“肥胖”。本文都從每組數(shù)據(jù)中抽取10%的樣本作為驗(yàn)證集用于選擇MLSL的正則化系數(shù)。
表1 事件時(shí)間數(shù)據(jù)集統(tǒng)計(jì)信息Tab.1 Statisticsof time-to-event datasets
本文將MLSL與以下6個(gè)具有代表性的生存預(yù)測(cè)模型作對(duì)比:
1)TCox,即動(dòng)態(tài) Cox模型[9],由 R 提供的 survival宏包實(shí)現(xiàn)。
2)CoxEN,即彈性網(wǎng)絡(luò)(Elastic-Net)規(guī)范化Cox模型[19],由R宏包survival和glmnet實(shí)現(xiàn)。
3)RSF,即隨機(jī)生存森林(Random Survival Forest)[21],可以用randomForestSRC包實(shí)現(xiàn),模型參數(shù)為R函數(shù)默認(rèn)值。
4)Cox-TRACE,即基于Cox的跡準(zhǔn)則多任務(wù)生存分析模型,由文獻(xiàn)[22]提供的開源代碼實(shí)現(xiàn)。
5)SPH,即半比例風(fēng)險(xiǎn)模型,以Cox為基礎(chǔ)用于處理序列型特征變量,本文對(duì)比實(shí)驗(yàn)采用與文獻(xiàn)[17]相同的參數(shù)設(shè)置。
6)AFT,即疊加失效時(shí)間(Accelerated Failure Time)模型[23],假設(shè)事件時(shí)間滿足 Weibull分布,由R函數(shù)WeibullReg實(shí)現(xiàn)。
為了評(píng)價(jià)各模型的生存概率預(yù)測(cè)能力,本文采用常用的AUC(Area Under the Curve)和C-index[24]作為評(píng)價(jià)指標(biāo)。在隨訪學(xué)習(xí)結(jié)束時(shí),預(yù)測(cè)事件是否發(fā)生是一個(gè)二元分類問題,因此本文采用如下的AUC指標(biāo)檢測(cè)模型的預(yù)測(cè)(二分類)能力:
其中:I是0-1示性函數(shù),t0為隨訪時(shí)間。
C-index指標(biāo)是AUC指標(biāo)的泛化形式,用于評(píng)價(jià)模型概率預(yù)測(cè)的能力。若數(shù)據(jù)集共有n個(gè)可以按照真實(shí)事件時(shí)間排序的樣本組合,則:
其中:i∈E1,yi≤yj表示所有可排序的樣本組合i、j。C-index統(tǒng)計(jì)在各觀測(cè)時(shí)間點(diǎn)yi所有滿足預(yù)測(cè)事件概率的排序與真實(shí)事件時(shí)間排序一致的樣本對(duì)i、j的個(gè)數(shù),并考慮了生存并列(ties)樣本的存在[25]。AUC和C-index指標(biāo)的取值范圍通常是0.5(完全隨機(jī)預(yù)測(cè))到1.0(最佳預(yù)測(cè))。
為了檢測(cè)模型預(yù)測(cè)事件時(shí)間的準(zhǔn)確率,本文對(duì)比預(yù)測(cè)時(shí)間G和真實(shí)事件時(shí)間T之間的誤差,并定義如下相對(duì)錯(cuò)誤率(Relative Error rate,RE):
顯然,RE值越小,模型預(yù)測(cè)的事件時(shí)間越準(zhǔn)確。
3.4.1 生存預(yù)測(cè)結(jié)果對(duì)比
每個(gè)模型在10個(gè)數(shù)據(jù)集上各進(jìn)行100次10折交叉驗(yàn)證,所得結(jié)果的平均值為最終結(jié)果。表2的每個(gè)單元格列出了平均AUC和平均C-index值,同時(shí)表3給出了對(duì)應(yīng)的MLSL模型正則化系數(shù)。
表2 各模型關(guān)于AUC和C-index指標(biāo)的預(yù)測(cè)結(jié)果比較Tab.2 Comparison of prediction resultsof each model in termsof AUCand C-index
表3 MLSL正則化系數(shù)Tab.3 Regularized coefficientsfor MLSL
表2結(jié)果表明不論是對(duì)于刪失比例很高的PBC、Nwtco、Veteran和Lung四個(gè)數(shù)據(jù)集,還是在樣本數(shù)和維度都較大的Prostate和Colorectal數(shù)據(jù)集上,MLSL均獲得了較高的預(yù)測(cè)精度,由此可見本文提出的MLSL模型對(duì)各類復(fù)雜數(shù)據(jù)具有較強(qiáng)的適用性。盡管對(duì)比模型能夠在個(gè)別數(shù)據(jù)集上取得較好的結(jié)果,如SPH在CGD和Lung數(shù)據(jù)集上,Cox-TRACE在Standford2數(shù)據(jù)集上達(dá)到或超越了MLSL的預(yù)測(cè)精度,但是整體表現(xiàn)不如MLSL,其主要原因就是這兩個(gè)模型是基于Cox的等比例風(fēng)險(xiǎn)假設(shè)。同樣地,TCox和CoxEN魯棒性也較差。參數(shù)模型AFT在所有數(shù)據(jù)集上都表現(xiàn)較差,原因在于Weibull分布假設(shè)并不符合大多數(shù)數(shù)據(jù)的真實(shí)情況。值得注意的是,多數(shù)情況下,模型在同一數(shù)據(jù)集上獲得的C-index精度往往比AUC略低,這是因?yàn)镃-index作為泛化的AUC,在計(jì)算過程中需要對(duì)全部樣本生存時(shí)間進(jìn)行精確排序,難度較大。
表4給出了模型在測(cè)試集上的事件時(shí)間預(yù)測(cè)結(jié)果的相對(duì)錯(cuò)誤率。除了在FLchain數(shù)據(jù)集上相對(duì)錯(cuò)誤率比SPH的稍大以外,MLSL關(guān)于事件時(shí)間的預(yù)測(cè)結(jié)果都是最好的,這主要得益于全數(shù)據(jù)學(xué)習(xí)和多任務(wù)學(xué)習(xí)對(duì)生存概率的估計(jì)和生存函數(shù)參數(shù)的優(yōu)化。另外,生存函數(shù)本身也對(duì)事件時(shí)間的預(yù)測(cè)起決定性作用,本文的Logistic生存函數(shù)只需要在參數(shù)得到優(yōu)化的情況下就可以較精確地?cái)M合數(shù)據(jù)集中的樣本生存概率分布。然而,基于Cox的方法雖然在參數(shù)學(xué)習(xí)過程不需要估計(jì)基線風(fēng)險(xiǎn),但是在預(yù)測(cè)生存概率和事件時(shí)間時(shí)則需要用到某些參數(shù)估計(jì)方法(如Breslow估計(jì))[16],從而影響了預(yù)測(cè)準(zhǔn)確率。
3.4.2 生存概率曲線對(duì)比
圖2繪出了一位67歲的男性肺癌(Lung)患者和一位82歲女性直腸癌(Colorectal)患者在一年內(nèi)(52周)的生存概率曲線。肺癌患者和直腸癌患者的生存時(shí)間分別為13周和10周,因此從理論意義上說,從第13周開始,肺癌患者的生存概率為0,即S(t>13)=0,而直腸癌患者則從第10周開始生存概率應(yīng)當(dāng)為0,即S(t>10)=0。從圖2(a)可以看出MLSL在第13周時(shí)所預(yù)測(cè)的生存概率最低,且早在第8周,MLSL預(yù)測(cè)該肺癌患者的生存概率低于50%,遠(yuǎn)比其他預(yù)測(cè)模型所得到的生存概率低。在圖2(b)中,MLSL預(yù)測(cè)的結(jié)腸直腸癌患者生存概率在第10周之后是最低的。由此可見,MLSL模型具有一定的預(yù)警能力,能夠盡早發(fā)出警告,這在臨床決策具有相當(dāng)重要的意義。另外,目標(biāo)函數(shù)中的參數(shù)平滑處理使得MLSL生存曲線要比其他曲線略微平滑。
表4 事件時(shí)間預(yù)測(cè)的相對(duì)錯(cuò)誤率比較Tab.4 REcomparison of predicted time-to-events
圖2 各模型預(yù)測(cè)的生存概率曲線對(duì)比Fig.2 Comparison of predicted survival curves by different models
3.4.3 模型效率對(duì)比
對(duì)比實(shí)驗(yàn)中預(yù)測(cè)模型的測(cè)試效率都較高,且差異不明顯,因此本文只給出各模型的訓(xùn)練效率。圖3列出了各模型在10個(gè)數(shù)據(jù)集上的訓(xùn)練時(shí)間(單位:s)。由圖可見,MLSL在大數(shù)據(jù)集上的效率高于同樣采用動(dòng)態(tài)系數(shù)的TCox模型,這主要是由于新模型的似然估計(jì)對(duì)每個(gè)樣本的生存概率估計(jì)是相互獨(dú)立的,目標(biāo)函數(shù)收斂速度比偏似然估計(jì)快。CoxEN需要估計(jì)兩個(gè)模型參數(shù),當(dāng)風(fēng)險(xiǎn)因子變量較多時(shí),參數(shù)優(yōu)化消耗時(shí)間較多,因此處理維度較高的數(shù)據(jù)時(shí)效率較低。RSF模型中,樹節(jié)點(diǎn)的分裂過程需要評(píng)估log-rank結(jié)果,訓(xùn)練時(shí)間受樣本數(shù)量影響較大,因此處理不同規(guī)模數(shù)據(jù)的效率差異明顯。SPH優(yōu)化具有瞬時(shí)風(fēng)險(xiǎn)約束條件的目標(biāo)函數(shù),模型復(fù)雜度相對(duì)較高,算法迭代次數(shù)增加,因而其運(yùn)行時(shí)間也有所增加。
為了進(jìn)一步分析MLSL的泛化能力,本文檢測(cè)了MLSL的效率與樣本數(shù)量N和數(shù)據(jù)維度D之間的關(guān)系。以Prostate數(shù)據(jù)為例,本文重新合成該數(shù)據(jù)集,分別調(diào)整N和D并測(cè)試MSLS的效率:固定數(shù)據(jù)維度D=30,并不斷增加樣本數(shù)量,MLSL的運(yùn)行時(shí)間與樣本數(shù)呈線性關(guān)系,如圖4(a)所示;當(dāng)固定樣本數(shù)量N=3500,并不斷增加風(fēng)險(xiǎn)因子個(gè)數(shù),MLSL的運(yùn)行時(shí)間與維度D也呈現(xiàn)線性關(guān)系,如圖4(b)所示。以上結(jié)果表明本文的MLSL具有很強(qiáng)的泛化能力,適用于不同規(guī)模的數(shù)據(jù)。
圖3 MLSL的訓(xùn)練時(shí)間與數(shù)據(jù)規(guī)模和數(shù)據(jù)維度之間的關(guān)系Fig.3 Relationship between training time and data size/dimensionality of MLSL
本文提出了一種針對(duì)動(dòng)態(tài)事件時(shí)間數(shù)據(jù)的多任務(wù)Logistic生存學(xué)習(xí)模型MLSL。新模型通過全數(shù)據(jù)學(xué)習(xí)方式估計(jì)事件樣本和刪失樣本的生存概率,并構(gòu)建了具有參數(shù)正則化約束和平滑約束的優(yōu)化目標(biāo)函數(shù)。MLSL將生存預(yù)測(cè)轉(zhuǎn)化為一系列在不同時(shí)間點(diǎn)的Logistic回歸學(xué)習(xí)任務(wù),無需未知數(shù)據(jù)生存分布假設(shè),同時(shí)增強(qiáng)了模型對(duì)刪失數(shù)據(jù)的預(yù)測(cè)能力。針對(duì)動(dòng)態(tài)數(shù)據(jù)的特性,MLSL刻畫了風(fēng)險(xiǎn)因子序列特征,并估計(jì)事件累積風(fēng)險(xiǎn)。與傳統(tǒng)方式相比,新模型能夠挖掘出風(fēng)險(xiǎn)因子變量與生存概率之間的潛在關(guān)系。在實(shí)際臨床數(shù)據(jù)上的對(duì)比實(shí)驗(yàn)結(jié)果表明,MLSL可以有效地預(yù)測(cè)動(dòng)態(tài)事件時(shí)間數(shù)據(jù),其預(yù)測(cè)精度優(yōu)于目前經(jīng)典的生存分析方法,并且大幅度提升了預(yù)測(cè)結(jié)果的穩(wěn)定性。