羅艷虹 李 治 余紅梅 郭虎生 曹紅艷 王 蕾 宋春英 郭興萍△ 張巖波△
我國是先心病高發(fā)國家,2010-2011年我國活產(chǎn)新生兒先心病的發(fā)生率高于其他類型出生缺陷[1]。遺傳因素、母親孕期患病及用藥等因素都會(huì)導(dǎo)致子代先心病的發(fā)生,因此早期預(yù)測子代先心病的發(fā)病風(fēng)險(xiǎn),盡可能消除各種可能的危險(xiǎn)因素,對(duì)預(yù)防先心病起關(guān)鍵作用。利用山西省先心病數(shù)據(jù),采用機(jī)器學(xué)習(xí)算法,建立預(yù)測性能優(yōu)良的預(yù)測模型,可為篩選先心病高危人群提供參考依據(jù)。國內(nèi)外基于影響因素對(duì)出生缺陷的預(yù)測研究較多,但大多數(shù)研究關(guān)注分類預(yù)測[2-5],很少有研究針對(duì)先心病進(jìn)行概率預(yù)測,故本文研究先心病的風(fēng)險(xiǎn)概率預(yù)測。對(duì)于全部出生兒的調(diào)查數(shù)據(jù)進(jìn)行先心病概率預(yù)測時(shí),先心病發(fā)生與否的兩種類別存在比例不平衡,機(jī)器學(xué)習(xí)算法通常針對(duì)類別平衡數(shù)據(jù),因此,對(duì)于不平衡數(shù)據(jù),機(jī)器學(xué)習(xí)算法對(duì)于多數(shù)類易產(chǎn)生“過擬合”,導(dǎo)致預(yù)測概率有偏差,降低預(yù)測性能[6-8]。
針對(duì)不平衡數(shù)據(jù)的處理方法大致分兩種:一種是改變訓(xùn)練樣本分布,可以采用隨機(jī)抽樣以增加少數(shù)類樣本或減少多數(shù)類樣本降低數(shù)據(jù)的不平衡性[9];另一種通過改進(jìn)算法補(bǔ)償數(shù)據(jù)的不平衡性,如代價(jià)敏感性學(xué)習(xí)。綜上所述,利用不平衡數(shù)據(jù)構(gòu)建模型進(jìn)行概率預(yù)測時(shí),先心病預(yù)測概率有可能存在偏差,對(duì)此可以采用代價(jià)敏感性學(xué)習(xí)和概率校準(zhǔn)的方法進(jìn)行“糾正”,提高模型的概率預(yù)測性能。
概率校準(zhǔn)(probability calibration)就是采用函數(shù)把原始模型的分類或概率轉(zhuǎn)換為準(zhǔn)確的概率[10]。一個(gè)良好校準(zhǔn)的預(yù)測模型可以反映疾病發(fā)生的潛在概率。常用的概率校準(zhǔn)方法是Platt scaling和Isotonic regression[11-12]。眾多研究表明,經(jīng)過Platt scaling校準(zhǔn)的支持向量機(jī)(support vector machines,SVM)、隨機(jī)森林(random forest,RF)和boosted tree的預(yù)測概率最準(zhǔn)確,其中boosted tree不僅訓(xùn)練時(shí)間長而且需要的存儲(chǔ)量大,所以首選SVM和RF模型[13-14]。因此,選取SVM、RF及應(yīng)用廣泛的logistic回歸模型作為本文的概率預(yù)測模型。logistic回歸的預(yù)測概率不產(chǎn)生偏倚,校準(zhǔn)效果不明顯[14]。
根據(jù)山西省各縣、市的生態(tài)環(huán)境、地理位置、醫(yī)療條件和經(jīng)濟(jì)狀況等因素,本文的研究對(duì)象選自山西省6個(gè)縣(市)(中陽縣、代縣、平定縣、懷仁縣、交口縣和汾陽市)在2006-2008年出生的所有健康新生兒及先心病患兒的母親或父親,通過讓研究對(duì)象填寫出生情況調(diào)查表獲取調(diào)查數(shù)據(jù)。先心病的確診以先前醫(yī)生的診斷為準(zhǔn);先心病疑似病例請(qǐng)先心病專家確診。
通過對(duì)調(diào)查數(shù)據(jù)進(jìn)行初步分析發(fā)現(xiàn),涉及的多數(shù)危險(xiǎn)因素如母親孕期患病和母親既往病史等因素的發(fā)生率很低,直接引入方程,影響預(yù)測效果,故對(duì)變量進(jìn)行初步分析,本文生成9個(gè)綜合變量,其中綜合變量的值為包含的各個(gè)危險(xiǎn)因素的值相加得到[15-16]。綜合變量包含的危險(xiǎn)因素見表1。
(1)加權(quán)支持向量機(jī)
支持向量機(jī)利用核函數(shù)采用非線性映射將線性不可分的原始數(shù)據(jù)投影到高維空間,使原始數(shù)據(jù)在高維空間線性可分。常用的核函數(shù)有線性核、徑向基核和多項(xiàng)式核等。本文通過測試確定SVM的核函數(shù)為線性核。當(dāng)SVM處理的數(shù)據(jù)存在類別不平衡時(shí),可以采用Veropoulos等提出的代價(jià)敏感性算法,將多數(shù)類和少數(shù)類樣本的懲罰系數(shù)之比定為二者例數(shù)的倒數(shù),該法是SVM分析非平衡數(shù)據(jù)的常用方法[17]。本文采用該法,構(gòu)建WSVM。
(2)加權(quán)隨機(jī)森林
RF對(duì)原始樣本進(jìn)行多次bootstrap重抽樣產(chǎn)生多個(gè)樣本,每個(gè)樣本的樣本量和原始樣本相同,對(duì)所有樣本構(gòu)建決策樹,且決策樹在生長過程中不剪枝,最終的預(yù)測結(jié)果通過對(duì)多棵決策樹的預(yù)測結(jié)果進(jìn)行多數(shù)投票產(chǎn)生[18-19]。對(duì)于本文的先心病不平衡數(shù)據(jù),為了保留原有數(shù)據(jù)結(jié)構(gòu),本文基于代價(jià)敏感性思想,構(gòu)建WRF。根據(jù)相關(guān)文獻(xiàn)建議,小類的權(quán)重設(shè)定為2或3,本研究經(jīng)過對(duì)比選擇權(quán)重為2[20]。
表1 9個(gè)綜合變量的描述
RF有三個(gè)主要參數(shù):一是構(gòu)成RF的決策樹棵數(shù)ntree;二是樹節(jié)點(diǎn)處預(yù)選的變量數(shù)mtry;三是葉節(jié)點(diǎn)nodesize的大小。經(jīng)過對(duì)比,這些參數(shù)的取值分別設(shè)定為ntree=500,mtry=3,nodesize=65,cutoff=c(0.7,0.3)。
對(duì)于預(yù)測模型,需要從原數(shù)據(jù)中進(jìn)行重抽樣生成訓(xùn)練集和測試集。對(duì)于本文的極端不平衡數(shù)據(jù),采用分層bootstrap重抽樣,即從少數(shù)類和多數(shù)類樣本中分別隨機(jī)抽取三分之二構(gòu)成訓(xùn)練集,剩余的樣本構(gòu)成測試集。本文采用三折交叉驗(yàn)證及網(wǎng)格搜索(grid search)選取WSVM和WRF的參數(shù)。由于隨機(jī)抽樣會(huì)使構(gòu)建的模型結(jié)果存在多變性,故抽樣及構(gòu)建模型過程重復(fù)1000次。本文所有程序均采用R軟件實(shí)現(xiàn)。
兩種常用的概率校準(zhǔn)方法為Platt scaling校準(zhǔn)和Isotonic regression校準(zhǔn)。當(dāng)模型的預(yù)測值產(chǎn)生S形扭曲,采用Platt scaling校準(zhǔn)。Isotonic regression校準(zhǔn)屬于非參數(shù)校準(zhǔn),采用pair-adjacent violators(PAV)算法[21-22]。
(1)Platt校準(zhǔn)
針對(duì)模型的預(yù)測結(jié)果f(x),由(1)式sigmoid函數(shù)產(chǎn)生校準(zhǔn)概率:
(1)
其中,f=f(x),采用最大似然估計(jì)得到參數(shù)A和B的取值[11]。
(2)Isotonic校準(zhǔn)
保序回歸的公式如下:
yi=m(fi)+εi
(2)
常用的概率預(yù)測評(píng)價(jià)指標(biāo)有AUC和RMSE。AUC的取值較高,RMSE的取值較低時(shí),模型的預(yù)測精度較高。任何模型都不可能在所有的評(píng)價(jià)指標(biāo)上取值都理想。當(dāng)模型合適的評(píng)價(jià)指標(biāo)未知時(shí),SAR是一個(gè)穩(wěn)健的評(píng)價(jià)指標(biāo),SAR=(ACC+AUC+(1 -RMSE))/3[23-24],其中ACC為Accuracy的簡稱。選用AUC、RMSE和SAR作為本文模型的評(píng)價(jià)指標(biāo)。
本文調(diào)查總?cè)藬?shù)為33831人,其中健康新生兒33753例,先心病患兒78例。綜合變量的描述見表1。
由于篇幅所限,本文結(jié)果僅針對(duì)測試集。表2給出重復(fù)抽樣1000次,6個(gè)模型評(píng)價(jià)指標(biāo)的中位數(shù)、上四分位數(shù)P25和下四分位數(shù)P75,其中WSVM-Platt、WSVM-Iso分別代表基于Platt校準(zhǔn)和Isotonic校準(zhǔn)的WSVM模型。WRF-Platt和WRF-Iso分別代表基于Platt校準(zhǔn)和Iso校準(zhǔn)的WRF模型。
由表2可得,logistic模型的AUC和SAR值的中位數(shù)分別高于0.83和0.92;AUC值的P25和P75都高于0.8,SAR值的P25和P75都高于0.9。
表2 測試集6種模型預(yù)測結(jié)果的比較(Median(P25- P75))
從表2的WSVM-Platt 和WSVM-Iso的評(píng)價(jià)指標(biāo)可得,二者的AUC及SAR值的中位數(shù)均高于0.83和0.90,且WSVM-Platt的AUC值和SAR值的中位數(shù)、P25和P75均高于WSVM-Iso;WSVM-Platt和WSVM-Iso的RMSE中位數(shù)均低于0.07,且WSVM-Platt的RMSE值的中位數(shù)、P25和P75均低于WSVM-Iso,故Platt校準(zhǔn)效果略優(yōu)于Iso校準(zhǔn)。
WRF-Platt、WRF-Iso和WRF的AUC和SAR中位數(shù)值均分別高于0.81和0.85。WRF-Platt和WRF-Iso與WRF相比,在AUC指標(biāo)上,中位數(shù)、P25和P75取值接近;對(duì)比RMSE值可知,WRF-Platt和WRF-Iso的RMSE值的中位數(shù)、P25和P75均低于WRF對(duì)應(yīng)的RMSE值,且WRF-Platt的上述三種取值均略低于WRF-Iso;WRF-Platt和WRF-Iso的SAR值的中位數(shù)、P25和P75均高于WRF,且WRF-Platt的上述三種取值均略高于WRF-Iso。由上可知,校準(zhǔn)提高了WRF概率預(yù)測效果,且Platt校準(zhǔn)效果略優(yōu)于Iso校準(zhǔn)。
現(xiàn)階段關(guān)于先心病及其他出生缺陷的研究多數(shù)集中在發(fā)生率的預(yù)測、影響因素的探索及分類預(yù)測等方面。楊峰利用決策樹進(jìn)行出生缺陷分類預(yù)測[2]。方俊群等利用判別分析和C5.0決策樹對(duì)2007-2008年湖南省45家醫(yī)院的出生缺陷患兒進(jìn)行分類預(yù)測[3]。劉長云采用logitboost和分類樹算法進(jìn)行唇腭裂概率預(yù)測[4]。趙佳璐利用關(guān)聯(lián)規(guī)則對(duì)出生缺陷進(jìn)行概率預(yù)測[5]。Wang JF等采用SVM對(duì)和順縣1998-2005年出生的7880名嬰兒進(jìn)行出生缺陷分類預(yù)測[25]。Sainz JA等進(jìn)行了先心病分類研究[26],Wieczorek A等利用心血管風(fēng)險(xiǎn)得分預(yù)測先心病。在出生缺陷的預(yù)測中,關(guān)于分類預(yù)測較多,基于全人群調(diào)查資料進(jìn)行先心病概率預(yù)測的研究甚少[27]。
本研究基于代價(jià)敏感性和概率校準(zhǔn)構(gòu)建了先心病概率預(yù)測模型,預(yù)測結(jié)果符合預(yù)期。國內(nèi)有關(guān)概率校準(zhǔn)的研究相對(duì)較少。呂奕等對(duì)SVM和AdaBoost的概率預(yù)測結(jié)果進(jìn)行Platt校準(zhǔn),然后將二者的校準(zhǔn)概率和logistic回歸的預(yù)測概率進(jìn)行集成,結(jié)果顯示,經(jīng)過校準(zhǔn)模型的預(yù)測效果提高[28]。沈翠華對(duì)SVM進(jìn)行保序回歸校準(zhǔn)用于個(gè)人信用評(píng)估,預(yù)測效果優(yōu)良[29]。從表2模型的對(duì)比可知,WSVM校準(zhǔn)模型和logistic模型的預(yù)測結(jié)果都優(yōu)于WRF及其校準(zhǔn)模型,WRF雖然是性能優(yōu)良的學(xué)習(xí)器,但不適合處理不平衡數(shù)據(jù)。WRF-Platt和WRF-Iso預(yù)測效果優(yōu)于WRF,說明校準(zhǔn)提高了模型概率預(yù)測性能。準(zhǔn)確的預(yù)測概率對(duì)于預(yù)防先心病很關(guān)鍵,可為篩選先心病高危人群提供初步參考。
有關(guān)概率預(yù)測效果評(píng)價(jià)指標(biāo)的選取,本文不僅選擇了概率評(píng)價(jià)指標(biāo)RMSE和AUC,同時(shí)采用了SAR評(píng)價(jià)指標(biāo)。由于SAR包含了閾值評(píng)價(jià)指標(biāo)ACC、等級(jí)評(píng)價(jià)指標(biāo)AUC和概率評(píng)價(jià)指標(biāo)RMSE,故而非常穩(wěn)健。該指標(biāo)提示校準(zhǔn)提高了模型的概率預(yù)測性能[23]。
本文存在不足之處。第一,本研究僅選用了三種模型,在今后的研究中,將考慮建立其他模型如神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等進(jìn)行比較;第二,由于本文建立了綜合變量,故而沒有考慮交互作用。