亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于概率校準(zhǔn)的彌漫性大B細(xì)胞淋巴瘤患者死亡風(fēng)險(xiǎn)預(yù)測(cè)*

2021-11-22 07:38:14范雙龍趙志強(qiáng)余紅梅鄭楚楚黃雪倩陽(yáng)楨寰羅艷虹

中國(guó)衛(wèi)生統(tǒng)計(jì) 2021年5期

關(guān)鍵詞：方法模型

范雙龍趙志強(qiáng) 余紅梅王蕾鄭楚楚黃雪倩陽(yáng)楨寰邢蒙呂慶羅艷虹△

【提要】目的基于概率校準(zhǔn)，預(yù)測(cè)彌漫性大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma，DLBCL)患者兩年內(nèi)的死亡風(fēng)險(xiǎn)，為醫(yī)生決策和臨床治療提供參考。方法使用Cox回歸篩選DLBCL患者兩年內(nèi)死亡的影響因素。選擇logistic回歸(logistic regression，logit)、隨機(jī)森林(random forest，RF)、支持向量機(jī)(support vector machines，SVM)、前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network，F(xiàn)NN)構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型。同時(shí)，使用三種概率校準(zhǔn)方法對(duì)上述模型進(jìn)行校準(zhǔn)：platt scaling(Platt)、isotonic regression(IsoReg)、shape-restricted polynomial regression(RPR)。使用ROC曲線下的面積(AUC)評(píng)價(jià)模型的區(qū)分性能，使用Hosmer-Lemeshow(H-L)goodness-of-fit test、expected calibration error(ECE)、maximum calibration error(MCE)評(píng)價(jià)模型的校準(zhǔn)性能。結(jié)果 logit和FNN能夠提供準(zhǔn)確的概率估計(jì)，校準(zhǔn)后其預(yù)測(cè)性能無(wú)提升；RF和SVM的預(yù)測(cè)概率與真實(shí)概率的差異具有統(tǒng)計(jì)學(xué)意義。除SVM-IsoReg外，三種概率校準(zhǔn)方法都能對(duì)有偏預(yù)測(cè)進(jìn)行良好的校準(zhǔn)，且RPR校準(zhǔn)效果最好。結(jié)論 logit和FNN具有良好的校準(zhǔn)性能，而RF和SVM校準(zhǔn)性能較差，概率校準(zhǔn)能夠有效降低它們的預(yù)測(cè)誤差。基于概率校準(zhǔn)所構(gòu)建的風(fēng)險(xiǎn)預(yù)測(cè)模型達(dá)到預(yù)期效果。

彌漫性大B細(xì)胞淋巴瘤是一種常見(jiàn)的惡性淋巴瘤，由于其在臨床表現(xiàn)和預(yù)后方面具有很強(qiáng)的異質(zhì)性，目前仍是一個(gè)巨大的臨床挑戰(zhàn)[1-2]。盡管有超過(guò)50%的病例經(jīng)過(guò)標(biāo)準(zhǔn)治療可以達(dá)到持續(xù)緩解，但是仍有近三分之一的患者出現(xiàn)耐藥或復(fù)發(fā)，使得生存率大大降低[3-4]。準(zhǔn)確的風(fēng)險(xiǎn)估計(jì)是實(shí)現(xiàn)精準(zhǔn)醫(yī)療的關(guān)鍵，這能夠幫助臨床醫(yī)生做出最佳決策，使患者盡早地開(kāi)始合適的治療，減少無(wú)效藥物的使用，并最終改善個(gè)體患者的臨床結(jié)局[5-7]。因此，有必要為DLBCL患者提供準(zhǔn)確的死亡風(fēng)險(xiǎn)預(yù)測(cè)。

區(qū)分度和校準(zhǔn)度是評(píng)價(jià)一個(gè)臨床預(yù)測(cè)模型不可或缺的兩個(gè)尺度[8]。區(qū)分度是指將會(huì)發(fā)生某一結(jié)局的患者與不會(huì)發(fā)生該結(jié)局的患者區(qū)分開(kāi)的能力。校準(zhǔn)度衡量的是在不同風(fēng)險(xiǎn)分層的患者中，模型的預(yù)測(cè)概率與真實(shí)概率的吻合程度。雖然本文的目的是為DLBCL患者提供準(zhǔn)確的風(fēng)險(xiǎn)估計(jì)，但是當(dāng)一個(gè)模型區(qū)分度較差時(shí)，無(wú)需進(jìn)一步評(píng)價(jià)其預(yù)測(cè)概率的準(zhǔn)確性[8]。因此，本文選擇logit、RF、SVM、FNN，四個(gè)常用且在以往報(bào)道中具有良好分類性能的分類器構(gòu)建預(yù)測(cè)模型。既往研究表明：一個(gè)具有良好區(qū)分度的模型，仍然可能提供有偏的概率估計(jì)，例如RF和SVM[9-12]。幸運(yùn)地是，這些有偏的預(yù)測(cè)值可以通過(guò)概率校準(zhǔn)方法進(jìn)行校準(zhǔn)。概率校準(zhǔn)是指尋找一個(gè)校準(zhǔn)函數(shù)，將初始預(yù)測(cè)映射為更加精確的后驗(yàn)概率[9]。

Platt是一種參數(shù)化校準(zhǔn)方法，其通過(guò)使用sigmoid函數(shù)修正有偏的預(yù)測(cè)值。但是當(dāng)模型的輸出不是“S”型的情況下，此方法校準(zhǔn)效果較差[10，12]。IsoReg試圖找到一個(gè)保序(非遞減)函數(shù)對(duì)有偏的預(yù)測(cè)值進(jìn)行校準(zhǔn)，由于其約束簡(jiǎn)單，適用性較強(qiáng)。然而，有研究表明在訓(xùn)練樣本較少的情況下，此方法校準(zhǔn)效果較差[12]。相比于Platt和IsoReg，RPR是一種更為靈活和具有普遍適應(yīng)性的方法，其不受特定分類器及樣本量的約束[13]。本文同時(shí)引入以上三種校準(zhǔn)方法，探討在不同分類器下的校準(zhǔn)性能。本研究旨在為DLBCL患者提供準(zhǔn)確的死亡風(fēng)險(xiǎn)估計(jì)，為醫(yī)生決策和臨床治療提供參考。

資料與方法

1.數(shù)據(jù)來(lái)源

本研究所使用的數(shù)據(jù)來(lái)源于某醫(yī)院2010-2017年確診的406例DLBCL患者，其中兩年內(nèi)死亡人數(shù)為116人。通過(guò)電子病歷記錄，共搜集了17個(gè)特征，具體特征及分組見(jiàn)表1。

表1 406例DLBCL患者特征及分組

2.方法

(1)概率校準(zhǔn)

概率校準(zhǔn)是指將分類器的初始概率估計(jì)或得分映射為更加精確的預(yù)測(cè)，即尋找校準(zhǔn)函數(shù)f，使其滿足下述目標(biāo)：

f(s)=P{y=1|s(x)=s}

其中，s是樣本x的初始概率估計(jì)或得分，P為該樣本屬于類別1的真實(shí)概率。

①Platt

Platt是一種參數(shù)化方法，其通過(guò)sigmoid函數(shù)，將分類器的原始輸出映射為更加精確的后驗(yàn)概率[10]：

②IsoReg

IsoReg是一種非參數(shù)方法，其試圖找到某個(gè)保序(非遞減)函數(shù)滿足下述的目標(biāo)[14]：

其中，yi=[y1，y2，y3，…，yN]是樣本按照初始得分排序后所對(duì)應(yīng)的標(biāo)簽序列，如果樣本屬于正類，則對(duì)應(yīng)標(biāo)簽為1，否則為0。

pair adjacent violators(PAV)算法可以用來(lái)估計(jì)保序函數(shù)[15]。在使用該算法時(shí)，首先從標(biāo)簽序列的首個(gè)元素開(kāi)始觀察，一旦出現(xiàn)亂序元素，則停止觀察，從該亂序元素開(kāi)始逐個(gè)吸收下一個(gè)元素組成一個(gè)序列，直到此序列所有元素的平均值小于或等于下一個(gè)待吸收的元素，并以平均值取代此序列中的所有元素。上述過(guò)程遞歸執(zhí)行，直到f1≤f2≤…≤fN。最終，可以在初始得分區(qū)間上獲得一個(gè)分段常數(shù)解。當(dāng)預(yù)測(cè)一個(gè)新樣本x時(shí)，只需找到其得分s(x)所在區(qū)間，該區(qū)間對(duì)應(yīng)的分段常數(shù)即為該樣本校準(zhǔn)后的概率。

③RPR

RPR通過(guò)多項(xiàng)式回歸校準(zhǔn)初始概率，其校準(zhǔn)函數(shù)具有以下形式[13]：

通過(guò)以下優(yōu)化問(wèn)題進(jìn)行求解：

(1)

(2)

(3)

通過(guò)約束(1)，所有校準(zhǔn)后的概率都保證落在[0，1]區(qū)間。約束(2)來(lái)源于多項(xiàng)式的導(dǎo)數(shù)，能夠保證校準(zhǔn)函數(shù)在整個(gè)得分區(qū)間的單調(diào)性。在約束(3)中，通過(guò)a的l1-范數(shù)，防止多項(xiàng)式過(guò)擬合。

(2)評(píng)估及度量

隨機(jī)抽取五分之四的樣本作為訓(xùn)練集，剩余樣本作為測(cè)試集。為了盡可能保證數(shù)據(jù)分布的一致性，每次劃分均采用分層抽樣。為防止校準(zhǔn)函數(shù)過(guò)擬合，將分類器在交叉驗(yàn)證中的驗(yàn)證集上得分的合集來(lái)訓(xùn)練校準(zhǔn)函數(shù)。首先訓(xùn)練上述分類器及三種校準(zhǔn)函數(shù)，然后在測(cè)試集上進(jìn)行評(píng)價(jià)。為減少因數(shù)據(jù)劃分而帶來(lái)的變異，上述劃分與評(píng)估重復(fù)300次。最終評(píng)價(jià)依據(jù)300次結(jié)果的中位數(shù)。

模型評(píng)價(jià)基于區(qū)分度和校準(zhǔn)度。雖然我們的目的是提供準(zhǔn)確的風(fēng)險(xiǎn)估計(jì)，但是當(dāng)一個(gè)模型區(qū)分度較差時(shí)，無(wú)需進(jìn)一步評(píng)價(jià)其校準(zhǔn)性能。因此，我們使用AUC評(píng)價(jià)模型的區(qū)分性能，使用H-L檢驗(yàn)、ECE、MCE評(píng)價(jià)模型的校準(zhǔn)性能。

H-L檢驗(yàn)用來(lái)評(píng)估預(yù)測(cè)概率與真實(shí)概率的差異是否由抽樣誤差造成[16]。ECE和MCE是與可靠性圖(reliability diagram)相關(guān)的兩個(gè)度量[17]。在計(jì)算這些指標(biāo)時(shí)，預(yù)測(cè)值被由小到大排序，然后分成大小相似的k個(gè)區(qū)間。對(duì)于每個(gè)區(qū)間，預(yù)測(cè)概率為該區(qū)間中所有預(yù)測(cè)值的均數(shù)，真實(shí)(觀測(cè))概率為該區(qū)間中陽(yáng)性樣本所占比例。ECE和MCE分別測(cè)量這些區(qū)間上平均預(yù)測(cè)誤差和最大預(yù)測(cè)誤差：

MCE=max(|pi-oi|)，i=1，2，…，k

其中，pi和oi分別為第i個(gè)區(qū)間的預(yù)測(cè)概率與觀測(cè)概率。ECE和MCE越小，則預(yù)測(cè)值的校準(zhǔn)誤差越小。

(3)參數(shù)及實(shí)現(xiàn)

logit、RF、SVM在R 3.6中分別使用 “glm”、“randomForest”、“e1071”包實(shí)現(xiàn)。FNN和RPR在Python 3.6中分別使用Keras和CVXPY實(shí)現(xiàn)[23-24]。

結(jié) 果

1.Cox回歸結(jié)果

本研究中，與結(jié)局呈單變量關(guān)系(P<0.1)的特征被納入到多變量Cox回歸中，結(jié)果如表2所示。性別、疾病分期、IPI、KPS及是否使用利妥昔單抗是DLBCL患者兩年內(nèi)死亡的獨(dú)立影響因素(P<0.05)，將被用作風(fēng)險(xiǎn)模型的預(yù)測(cè)因子。

表2 多變量Cox回歸結(jié)果

2.各模型校準(zhǔn)前后性能比較

表3給出了各模型校準(zhǔn)前后的性能?！?Platt”、“-IsoReg”、“-RPR”分別代表對(duì)應(yīng)模型使用三種概率校準(zhǔn)方法校準(zhǔn)的結(jié)果。主要特點(diǎn)總結(jié)如下：

表3 各模型校準(zhǔn)前后的性能

四個(gè)分類器的AUC均大于0.75，可以認(rèn)為具有較好的區(qū)分性能。其中，F(xiàn)NN的AUC最大，為0.813，SVM最小，為0.792。

logit和FNN具有良好的校準(zhǔn)性能，預(yù)測(cè)概率與真實(shí)概率的差異不具有統(tǒng)計(jì)學(xué)意義(P>0.05)。對(duì)于它們而言，無(wú)論使用何種校準(zhǔn)方法，校準(zhǔn)誤差都無(wú)顯著改善，特別是在logit-IsoReg和FNN-IsoReg中。

RF和SVM校準(zhǔn)性能較差，預(yù)測(cè)概率與真實(shí)概率的差異具有統(tǒng)計(jì)顯著性(P<0.05)。對(duì)于RF，三種校準(zhǔn)方法都能改善模型的校準(zhǔn)性能。其中，RF-IsoReg的ECE最小，RF-RPR的MCE最小，分別為8.871和26.550。對(duì)于SVM，Platt和RPR能實(shí)現(xiàn)良好的校準(zhǔn)，而IsoReg不能。其中，SVM-RPR具有最小的校準(zhǔn)誤差，ECE和MCE分別為10.893和26.300。

在所有模型中，RF-IsoReg具有最小的ECE，為8.871；FNN和FNN-RPR具有最小的MCE，為23.500。

討論

本文使用logit、RF、SVM、FNN四種分類器構(gòu)建DLBCL患者死亡風(fēng)險(xiǎn)預(yù)測(cè)模型，同時(shí)使用三種概率校準(zhǔn)方法進(jìn)行校準(zhǔn)。

雖然四個(gè)分類器在區(qū)分性能上是十分相似的，但是校準(zhǔn)性能差異較大。根據(jù)H-L檢驗(yàn)可知，logit和FNN可以產(chǎn)生準(zhǔn)確的概率估計(jì)，而RF和SVM的預(yù)測(cè)概率與真實(shí)概率具有顯著差異。該結(jié)果與某些研究一致。對(duì)于RF，由于很難在所有樹(shù)上獲得相同的預(yù)測(cè)結(jié)果，概率估計(jì)往往會(huì)被推離0和1[9，11-12]。對(duì)于SVM，預(yù)測(cè)值將被推離0和1，同時(shí)發(fā)生“S”型扭曲[10，12]。盡管決策值的大小可以作為預(yù)測(cè)信心的一種度量，但是這些值往往沒(méi)有經(jīng)過(guò)良好的校準(zhǔn)。

當(dāng)預(yù)測(cè)值發(fā)生“S”型扭曲時(shí)，Platt是一種有效的校準(zhǔn)方法。在我們的研究中，Platt對(duì)RF和SVM都實(shí)現(xiàn)了良好的校準(zhǔn)。因?yàn)閮H要求校準(zhǔn)函數(shù)是非遞減的，因此IsoReg是一種通用的校準(zhǔn)方法。然而，在我們的研究中，SVM經(jīng)過(guò)IsoReg校準(zhǔn)后，校準(zhǔn)性能并沒(méi)有顯著改善。這可能是因?yàn)闃颖玖枯^少而發(fā)生了過(guò)擬合。Niculescu-Mizil的研究表明，IsoReg不適用于較小的數(shù)據(jù)集，特別是在樣本量小于1000時(shí)[12]。相比于Platt和IsoReg，RPR是一種更為靈活和強(qiáng)大的校準(zhǔn)方法。不同于Platt，由于對(duì)初始預(yù)測(cè)值的分布沒(méi)有要求，RPR適用于各種分類器。與IsoReg相比，RPR在整個(gè)得分區(qū)間上是連續(xù)的。另外，RPR嚴(yán)格滿足校準(zhǔn)函數(shù)的單調(diào)性要求，并且可以通過(guò)某些優(yōu)化工具方便地求解，例如CVXPY。理論上，隨著多項(xiàng)式次數(shù)的增加，RPR可以擬合具有任意復(fù)雜度的校準(zhǔn)函數(shù)。在我們的研究中，RPR對(duì)SVM的校準(zhǔn)效果最好。無(wú)論是ECE還是MCE，SVM-RPR均小于SVM-Platt和SVM-IsoReg。對(duì)于RF，雖然RF-IsoReg的ECE小于RF-RPR，但是如果同時(shí)考慮校準(zhǔn)性能分布，可以認(rèn)為RPR校準(zhǔn)效果最好。

嚴(yán)格單調(diào)的校準(zhǔn)函數(shù)不會(huì)改變ROC。因?yàn)榻?jīng)過(guò)概率校準(zhǔn)，根據(jù)預(yù)測(cè)值排序后的樣本的順序不會(huì)發(fā)生改變。本文中，對(duì)于以sigmoid函數(shù)進(jìn)行校準(zhǔn)的Platt，各模型校準(zhǔn)后的AUC與校準(zhǔn)前均一致。對(duì)于IsoReg和RPR，由于它們?cè)谡麄€(gè)得分區(qū)間上僅是非遞減的，所以某些初始預(yù)測(cè)值相近的樣本在校準(zhǔn)后可能會(huì)獲得相同的概率預(yù)測(cè)值，而樣本的“排序”也可能會(huì)受這部分樣本的影響而發(fā)生改變。因此，各模型經(jīng)上述兩種方法校準(zhǔn)后的AUC與校準(zhǔn)前相比均有降低。與RPR相比，IsoReg降低程度較大，這或許是因?yàn)槠湫?zhǔn)函數(shù)為不連續(xù)的分段常數(shù)所致。RF和SVM經(jīng)RPR校準(zhǔn)后AUC略有降低，與其所帶來(lái)的校準(zhǔn)性能的提升相比，這或許是可以接受的。

本文選取logit、RF、SVM、FNN構(gòu)建DLBCL患者死亡風(fēng)險(xiǎn)預(yù)測(cè)模型，同時(shí)使用三種概率校準(zhǔn)方法對(duì)概率估計(jì)進(jìn)行校準(zhǔn)。logit和FNN以及經(jīng)過(guò)校準(zhǔn)的RF和SVM能夠提供準(zhǔn)確的風(fēng)險(xiǎn)預(yù)測(cè)，達(dá)到了預(yù)期效果。其中，RF-IsoReg具有最小的ECE，F(xiàn)NN和FNN-RPR具有最小的MCE。羅艷虹等使用WSVM和WRF構(gòu)建先天性心臟病概率預(yù)測(cè)模型并分別使用Platt和IsoReg進(jìn)行校準(zhǔn)。結(jié)果顯示，校準(zhǔn)后的模型預(yù)測(cè)性能更優(yōu)[25]。呂奕等對(duì)AdaBoost和SVM進(jìn)行概率校準(zhǔn)后，構(gòu)建腸癌轉(zhuǎn)移預(yù)測(cè)的集成模型。與直接將分類器進(jìn)行集成相比，引入概率校準(zhǔn)后的模型性能進(jìn)一步提高[26]。

本研究存在不足：首先，AUC及MCE仍有較大提升空間，下一步可以收集更多相關(guān)特征，探討這些新特征加入模型后是否會(huì)帶來(lái)性能的提升。其次，本文所構(gòu)建的模型基于某家醫(yī)院提供的數(shù)據(jù)，對(duì)于模型的泛化性能如何，需要進(jìn)行外部驗(yàn)證。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于概率校準(zhǔn)的彌漫性大B細(xì)胞淋巴瘤患者死亡風(fēng)險(xiǎn)預(yù)測(cè)*

資料與方法

結(jié) 果

討 論

討論