范雙龍 趙志強(qiáng) 余紅梅 王 蕾 鄭楚楚 黃雪倩 陽(yáng)楨寰 邢 蒙 呂 慶 羅艷虹△
【提 要】 目的 基于概率校準(zhǔn),預(yù)測(cè)彌漫性大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)患者兩年內(nèi)的死亡風(fēng)險(xiǎn),為醫(yī)生決策和臨床治療提供參考。方法 使用Cox回歸篩選DLBCL患者兩年內(nèi)死亡的影響因素。選擇logistic回歸(logistic regression,logit)、隨機(jī)森林(random forest,RF)、支持向量機(jī)(support vector machines,SVM)、前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network,F(xiàn)NN)構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型。同時(shí),使用三種概率校準(zhǔn)方法對(duì)上述模型進(jìn)行校準(zhǔn):platt scaling(Platt)、isotonic regression(IsoReg)、shape-restricted polynomial regression(RPR)。使用ROC曲線下的面積(AUC)評(píng)價(jià)模型的區(qū)分性能,使用Hosmer-Lemeshow(H-L)goodness-of-fit test、expected calibration error(ECE)、maximum calibration error(MCE)評(píng)價(jià)模型的校準(zhǔn)性能。結(jié)果 logit和FNN能夠提供準(zhǔn)確的概率估計(jì),校準(zhǔn)后其預(yù)測(cè)性能無(wú)提升;RF和SVM的預(yù)測(cè)概率與真實(shí)概率的差異具有統(tǒng)計(jì)學(xué)意義。除SVM-IsoReg外,三種概率校準(zhǔn)方法都能對(duì)有偏預(yù)測(cè)進(jìn)行良好的校準(zhǔn),且RPR校準(zhǔn)效果最好。結(jié)論 logit和FNN具有良好的校準(zhǔn)性能,而RF和SVM校準(zhǔn)性能較差,概率校準(zhǔn)能夠有效降低它們的預(yù)測(cè)誤差。基于概率校準(zhǔn)所構(gòu)建的風(fēng)險(xiǎn)預(yù)測(cè)模型達(dá)到預(yù)期效果。
彌漫性大B細(xì)胞淋巴瘤是一種常見(jiàn)的惡性淋巴瘤,由于其在臨床表現(xiàn)和預(yù)后方面具有很強(qiáng)的異質(zhì)性,目前仍是一個(gè)巨大的臨床挑戰(zhàn)[1-2]。盡管有超過(guò)50%的病例經(jīng)過(guò)標(biāo)準(zhǔn)治療可以達(dá)到持續(xù)緩解,但是仍有近三分之一的患者出現(xiàn)耐藥或復(fù)發(fā),使得生存率大大降低[3-4]。準(zhǔn)確的風(fēng)險(xiǎn)估計(jì)是實(shí)現(xiàn)精準(zhǔn)醫(yī)療的關(guān)鍵,這能夠幫助臨床醫(yī)生做出最佳決策,使患者盡早地開(kāi)始合適的治療,減少無(wú)效藥物的使用,并最終改善個(gè)體患者的臨床結(jié)局[5-7]。因此,有必要為DLBCL患者提供準(zhǔn)確的死亡風(fēng)險(xiǎn)預(yù)測(cè)。
區(qū)分度和校準(zhǔn)度是評(píng)價(jià)一個(gè)臨床預(yù)測(cè)模型不可或缺的兩個(gè)尺度[8]。區(qū)分度是指將會(huì)發(fā)生某一結(jié)局的患者與不會(huì)發(fā)生該結(jié)局的患者區(qū)分開(kāi)的能力。校準(zhǔn)度衡量的是在不同風(fēng)險(xiǎn)分層的患者中,模型的預(yù)測(cè)概率與真實(shí)概率的吻合程度。雖然本文的目的是為DLBCL患者提供準(zhǔn)確的風(fēng)險(xiǎn)估計(jì),但是當(dāng)一個(gè)模型區(qū)分度較差時(shí),無(wú)需進(jìn)一步評(píng)價(jià)其預(yù)測(cè)概率的準(zhǔn)確性[8]。因此,本文選擇logit、RF、SVM、FNN,四個(gè)常用且在以往報(bào)道中具有良好分類性能的分類器構(gòu)建預(yù)測(cè)模型。既往研究表明:一個(gè)具有良好區(qū)分度的模型,仍然可能提供有偏的概率估計(jì),例如RF和SVM[9-12]。幸運(yùn)地是,這些有偏的預(yù)測(cè)值可以通過(guò)概率校準(zhǔn)方法進(jìn)行校準(zhǔn)。概率校準(zhǔn)是指尋找一個(gè)校準(zhǔn)函數(shù),將初始預(yù)測(cè)映射為更加精確的后驗(yàn)概率[9]。
Platt是一種參數(shù)化校準(zhǔn)方法,其通過(guò)使用sigmoid函數(shù)修正有偏的預(yù)測(cè)值。但是當(dāng)模型的輸出不是“S”型的情況下,此方法校準(zhǔn)效果較差[10,12]。IsoReg試圖找到一個(gè)保序(非遞減)函數(shù)對(duì)有偏的預(yù)測(cè)值進(jìn)行校準(zhǔn),由于其約束簡(jiǎn)單,適用性較強(qiáng)。然而,有研究表明在訓(xùn)練樣本較少的情況下,此方法校準(zhǔn)效果較差[12]。相比于Platt和IsoReg,RPR是一種更為靈活和具有普遍適應(yīng)性的方法,其不受特定分類器及樣本量的約束[13]。本文同時(shí)引入以上三種校準(zhǔn)方法,探討在不同分類器下的校準(zhǔn)性能。本研究旨在為DLBCL患者提供準(zhǔn)確的死亡風(fēng)險(xiǎn)估計(jì),為醫(yī)生決策和臨床治療提供參考。
1.數(shù)據(jù)來(lái)源
本研究所使用的數(shù)據(jù)來(lái)源于某醫(yī)院2010-2017年確診的406例DLBCL患者,其中兩年內(nèi)死亡人數(shù)為116人。通過(guò)電子病歷記錄,共搜集了17個(gè)特征,具體特征及分組見(jiàn)表1。
表1 406例DLBCL患者特征及分組
2.方法
(1)概率校準(zhǔn)
概率校準(zhǔn)是指將分類器的初始概率估計(jì)或得分映射為更加精確的預(yù)測(cè),即尋找校準(zhǔn)函數(shù)f,使其滿足下述目標(biāo):
f(s)=P{y=1|s(x)=s}
其中,s是樣本x的初始概率估計(jì)或得分,P為該樣本屬于類別1的真實(shí)概率。
①Platt
Platt是一種參數(shù)化方法,其通過(guò)sigmoid函數(shù),將分類器的原始輸出映射為更加精確的后驗(yàn)概率[10]:
②IsoReg
IsoReg是一種非參數(shù)方法,其試圖找到某個(gè)保序(非遞減)函數(shù)滿足下述的目標(biāo)[14]:
其中,yi=[y1,y2,y3,…,yN]是樣本按照初始得分排序后所對(duì)應(yīng)的標(biāo)簽序列,如果樣本屬于正類,則對(duì)應(yīng)標(biāo)簽為1,否則為0。
pair adjacent violators(PAV)算法可以用來(lái)估計(jì)保序函數(shù)[15]。在使用該算法時(shí),首先從標(biāo)簽序列的首個(gè)元素開(kāi)始觀察,一旦出現(xiàn)亂序元素,則停止觀察,從該亂序元素開(kāi)始逐個(gè)吸收下一個(gè)元素組成一個(gè)序列,直到此序列所有元素的平均值小于或等于下一個(gè)待吸收的元素,并以平均值取代此序列中的所有元素。上述過(guò)程遞歸執(zhí)行,直到f1≤f2≤…≤fN。最終,可以在初始得分區(qū)間上獲得一個(gè)分段常數(shù)解。當(dāng)預(yù)測(cè)一個(gè)新樣本x時(shí),只需找到其得分s(x)所在區(qū)間,該區(qū)間對(duì)應(yīng)的分段常數(shù)即為該樣本校準(zhǔn)后的概率。
③RPR
RPR通過(guò)多項(xiàng)式回歸校準(zhǔn)初始概率,其校準(zhǔn)函數(shù)具有以下形式[13]:
通過(guò)以下優(yōu)化問(wèn)題進(jìn)行求解:
(1)
(2)
(3)
通過(guò)約束(1),所有校準(zhǔn)后的概率都保證落在[0,1]區(qū)間。約束(2)來(lái)源于多項(xiàng)式的導(dǎo)數(shù),能夠保證校準(zhǔn)函數(shù)在整個(gè)得分區(qū)間的單調(diào)性。在約束(3)中,通過(guò)a的l1-范數(shù),防止多項(xiàng)式過(guò)擬合。
(2)評(píng)估及度量
隨機(jī)抽取五分之四的樣本作為訓(xùn)練集,剩余樣本作為測(cè)試集。為了盡可能保證數(shù)據(jù)分布的一致性,每次劃分均采用分層抽樣。為防止校準(zhǔn)函數(shù)過(guò)擬合,將分類器在交叉驗(yàn)證中的驗(yàn)證集上得分的合集來(lái)訓(xùn)練校準(zhǔn)函數(shù)。首先訓(xùn)練上述分類器及三種校準(zhǔn)函數(shù),然后在測(cè)試集上進(jìn)行評(píng)價(jià)。為減少因數(shù)據(jù)劃分而帶來(lái)的變異,上述劃分與評(píng)估重復(fù)300次。最終評(píng)價(jià)依據(jù)300次結(jié)果的中位數(shù)。
模型評(píng)價(jià)基于區(qū)分度和校準(zhǔn)度。雖然我們的目的是提供準(zhǔn)確的風(fēng)險(xiǎn)估計(jì),但是當(dāng)一個(gè)模型區(qū)分度較差時(shí),無(wú)需進(jìn)一步評(píng)價(jià)其校準(zhǔn)性能。因此,我們使用AUC評(píng)價(jià)模型的區(qū)分性能,使用H-L檢驗(yàn)、ECE、MCE評(píng)價(jià)模型的校準(zhǔn)性能。
H-L檢驗(yàn)用來(lái)評(píng)估預(yù)測(cè)概率與真實(shí)概率的差異是否由抽樣誤差造成[16]。ECE和MCE是與可靠性圖(reliability diagram)相關(guān)的兩個(gè)度量[17]。在計(jì)算這些指標(biāo)時(shí),預(yù)測(cè)值被由小到大排序,然后分成大小相似的k個(gè)區(qū)間。對(duì)于每個(gè)區(qū)間,預(yù)測(cè)概率為該區(qū)間中所有預(yù)測(cè)值的均數(shù),真實(shí)(觀測(cè))概率為該區(qū)間中陽(yáng)性樣本所占比例。ECE和MCE分別測(cè)量這些區(qū)間上平均預(yù)測(cè)誤差和最大預(yù)測(cè)誤差:
MCE=max(|pi-oi|),i=1,2,…,k
其中,pi和oi分別為第i個(gè)區(qū)間的預(yù)測(cè)概率與觀測(cè)概率。ECE和MCE越小,則預(yù)測(cè)值的校準(zhǔn)誤差越小。
(3)參數(shù)及實(shí)現(xiàn)
logit、RF、SVM在R 3.6中分別使用 “glm”、“randomForest”、“e1071”包實(shí)現(xiàn)。FNN和RPR在Python 3.6中分別使用Keras和CVXPY實(shí)現(xiàn)[23-24]。
1.Cox回歸結(jié)果
本研究中,與結(jié)局呈單變量關(guān)系(P<0.1)的特征被納入到多變量Cox回歸中,結(jié)果如表2所示。性別、疾病分期、IPI、KPS及是否使用利妥昔單抗是DLBCL患者兩年內(nèi)死亡的獨(dú)立影響因素(P<0.05),將被用作風(fēng)險(xiǎn)模型的預(yù)測(cè)因子。
表2 多變量Cox回歸結(jié)果
2.各模型校準(zhǔn)前后性能比較
表3給出了各模型校準(zhǔn)前后的性能?!?Platt”、“-IsoReg”、“-RPR”分別代表對(duì)應(yīng)模型使用三種概率校準(zhǔn)方法校準(zhǔn)的結(jié)果。主要特點(diǎn)總結(jié)如下:
表3 各模型校準(zhǔn)前后的性能
四個(gè)分類器的AUC均大于0.75,可以認(rèn)為具有較好的區(qū)分性能。其中,F(xiàn)NN的AUC最大,為0.813,SVM最小,為0.792。
logit和FNN具有良好的校準(zhǔn)性能,預(yù)測(cè)概率與真實(shí)概率的差異不具有統(tǒng)計(jì)學(xué)意義(P>0.05)。對(duì)于它們而言,無(wú)論使用何種校準(zhǔn)方法,校準(zhǔn)誤差都無(wú)顯著改善,特別是在logit-IsoReg和FNN-IsoReg中。
RF和SVM校準(zhǔn)性能較差,預(yù)測(cè)概率與真實(shí)概率的差異具有統(tǒng)計(jì)顯著性(P<0.05)。對(duì)于RF,三種校準(zhǔn)方法都能改善模型的校準(zhǔn)性能。其中,RF-IsoReg的ECE最小,RF-RPR的MCE最小,分別為8.871和26.550。對(duì)于SVM,Platt和RPR能實(shí)現(xiàn)良好的校準(zhǔn),而IsoReg不能。其中,SVM-RPR具有最小的校準(zhǔn)誤差,ECE和MCE分別為10.893和26.300。
在所有模型中,RF-IsoReg具有最小的ECE,為8.871;FNN和FNN-RPR具有最小的MCE,為23.500。
本文使用logit、RF、SVM、FNN四種分類器構(gòu)建DLBCL患者死亡風(fēng)險(xiǎn)預(yù)測(cè)模型,同時(shí)使用三種概率校準(zhǔn)方法進(jìn)行校準(zhǔn)。
雖然四個(gè)分類器在區(qū)分性能上是十分相似的,但是校準(zhǔn)性能差異較大。根據(jù)H-L檢驗(yàn)可知,logit和FNN可以產(chǎn)生準(zhǔn)確的概率估計(jì),而RF和SVM的預(yù)測(cè)概率與真實(shí)概率具有顯著差異。該結(jié)果與某些研究一致。對(duì)于RF,由于很難在所有樹(shù)上獲得相同的預(yù)測(cè)結(jié)果,概率估計(jì)往往會(huì)被推離0和1[9,11-12]。對(duì)于SVM,預(yù)測(cè)值將被推離0和1,同時(shí)發(fā)生“S”型扭曲[10,12]。盡管決策值的大小可以作為預(yù)測(cè)信心的一種度量,但是這些值往往沒(méi)有經(jīng)過(guò)良好的校準(zhǔn)。
當(dāng)預(yù)測(cè)值發(fā)生“S”型扭曲時(shí),Platt是一種有效的校準(zhǔn)方法。在我們的研究中,Platt對(duì)RF和SVM都實(shí)現(xiàn)了良好的校準(zhǔn)。因?yàn)閮H要求校準(zhǔn)函數(shù)是非遞減的,因此IsoReg是一種通用的校準(zhǔn)方法。然而,在我們的研究中,SVM經(jīng)過(guò)IsoReg校準(zhǔn)后,校準(zhǔn)性能并沒(méi)有顯著改善。這可能是因?yàn)闃颖玖枯^少而發(fā)生了過(guò)擬合。Niculescu-Mizil的研究表明,IsoReg不適用于較小的數(shù)據(jù)集,特別是在樣本量小于1000時(shí)[12]。相比于Platt和IsoReg,RPR是一種更為靈活和強(qiáng)大的校準(zhǔn)方法。不同于Platt,由于對(duì)初始預(yù)測(cè)值的分布沒(méi)有要求,RPR適用于各種分類器。與IsoReg相比,RPR在整個(gè)得分區(qū)間上是連續(xù)的。另外,RPR嚴(yán)格滿足校準(zhǔn)函數(shù)的單調(diào)性要求,并且可以通過(guò)某些優(yōu)化工具方便地求解,例如CVXPY。理論上,隨著多項(xiàng)式次數(shù)的增加,RPR可以擬合具有任意復(fù)雜度的校準(zhǔn)函數(shù)。在我們的研究中,RPR對(duì)SVM的校準(zhǔn)效果最好。無(wú)論是ECE還是MCE,SVM-RPR均小于SVM-Platt和SVM-IsoReg。對(duì)于RF,雖然RF-IsoReg的ECE小于RF-RPR,但是如果同時(shí)考慮校準(zhǔn)性能分布,可以認(rèn)為RPR校準(zhǔn)效果最好。
嚴(yán)格單調(diào)的校準(zhǔn)函數(shù)不會(huì)改變ROC。因?yàn)榻?jīng)過(guò)概率校準(zhǔn),根據(jù)預(yù)測(cè)值排序后的樣本的順序不會(huì)發(fā)生改變。本文中,對(duì)于以sigmoid函數(shù)進(jìn)行校準(zhǔn)的Platt,各模型校準(zhǔn)后的AUC與校準(zhǔn)前均一致。對(duì)于IsoReg和RPR,由于它們?cè)谡麄€(gè)得分區(qū)間上僅是非遞減的,所以某些初始預(yù)測(cè)值相近的樣本在校準(zhǔn)后可能會(huì)獲得相同的概率預(yù)測(cè)值,而樣本的“排序”也可能會(huì)受這部分樣本的影響而發(fā)生改變。因此,各模型經(jīng)上述兩種方法校準(zhǔn)后的AUC與校準(zhǔn)前相比均有降低。與RPR相比,IsoReg降低程度較大,這或許是因?yàn)槠湫?zhǔn)函數(shù)為不連續(xù)的分段常數(shù)所致。RF和SVM經(jīng)RPR校準(zhǔn)后AUC略有降低,與其所帶來(lái)的校準(zhǔn)性能的提升相比,這或許是可以接受的。
本文選取logit、RF、SVM、FNN構(gòu)建DLBCL患者死亡風(fēng)險(xiǎn)預(yù)測(cè)模型,同時(shí)使用三種概率校準(zhǔn)方法對(duì)概率估計(jì)進(jìn)行校準(zhǔn)。logit和FNN以及經(jīng)過(guò)校準(zhǔn)的RF和SVM能夠提供準(zhǔn)確的風(fēng)險(xiǎn)預(yù)測(cè),達(dá)到了預(yù)期效果。其中,RF-IsoReg具有最小的ECE,F(xiàn)NN和FNN-RPR具有最小的MCE。羅艷虹等使用WSVM和WRF構(gòu)建先天性心臟病概率預(yù)測(cè)模型并分別使用Platt和IsoReg進(jìn)行校準(zhǔn)。結(jié)果顯示,校準(zhǔn)后的模型預(yù)測(cè)性能更優(yōu)[25]。呂奕等對(duì)AdaBoost和SVM進(jìn)行概率校準(zhǔn)后,構(gòu)建腸癌轉(zhuǎn)移預(yù)測(cè)的集成模型。與直接將分類器進(jìn)行集成相比,引入概率校準(zhǔn)后的模型性能進(jìn)一步提高[26]。
本研究存在不足:首先,AUC及MCE仍有較大提升空間,下一步可以收集更多相關(guān)特征,探討這些新特征加入模型后是否會(huì)帶來(lái)性能的提升。其次,本文所構(gòu)建的模型基于某家醫(yī)院提供的數(shù)據(jù),對(duì)于模型的泛化性能如何,需要進(jìn)行外部驗(yàn)證。