鞏曉文 鳳思苑 崔 壯△ 高 靜 李長平 劉媛媛 劉 寅 馬 駿
【提 要】 目的 采用梯度提升機與隨機森林法對在天津市胸科醫(yī)院行CABG手術后出現(xiàn)復發(fā)缺血性癥狀的患者是否會發(fā)生SVGD進行預測,并評價兩種模型的分類性能。方法 將606例研究對象按7:3比例隨機分為訓練集和測試集進行模型訓練和測試。用NRI和IDI評價兩種集成算法對CART基分類器的提升程度,并采用診斷試驗評價指標對模型的分類性能進行評價。結果 以CART基分類器為參照,梯度提升機的NRI和IDI分別為0.31和0.15,而隨機森林NRI和IDI分別為0.08和0.08。在測試集上GBM的AUC和ACC分別為0.89和0.83高于RF 0.80和0.73。二者篩選出的最重要的5個臨床指標相同,依次為橋齡、左室舒張期徑長、VLDL、隱靜脈橋支數和心臟病類型。結論 梯度提升機和隨機森林法均能提升基分類器的分類性能,且前者優(yōu)于后者。梯度提升機比隨機森林有更好的泛化能力,更適合對外部數據的分類預測。
隱靜脈移植血管(saphenous vein graft,SVG)解剖部位表淺,且有足夠的長度,因此常被用作冠脈動脈旁路移植術(coronary artery bypass grafting,CABG)的搭橋血管,據文獻報道[1],SVG被廣泛應用到約70%的CABG中。然而,隱靜脈移植血管疾病(saphenous vein graft disease,SVGD)是臨床上面臨的一大難題。CABG術后1個月約10%的SVG發(fā)生閉塞性病變;術后1年約20%的SVG發(fā)生慢性阻塞性病變;術后5~10年內約25%~50%的SVG發(fā)生狹窄或者閉塞性病變;而10年后約50%的SVG發(fā)生閉塞病變,未閉塞的SVG也發(fā)生嚴重的彌漫性狹窄病變。行CABG手術患者往往因為復發(fā)缺血性癥狀而再入院進行冠狀動脈造影(coronary arteriography,CAG)等相關檢查,由此造成了較大的經濟負擔。
隨著計算機性能的提升,boosting和bagging等集成算法相繼出現(xiàn),其中boosting算法的典型代表是Adaboost和梯度提升機(gradient boosting machine,GBM),bagging算法的典型代表是隨機森林(random forest,RF)[2]。本文選取了RF和GBM兩種模型對CABG術后患者是否發(fā)生靜脈移植血管病變進行分類預測,以期幫助臨床醫(yī)生對病人進行早期風險管理。同時比較二者對CART基分類器性能的提升程度,并用一系列診斷試驗指標來評價兩種模型的分類預測性能。
1.研究對象
本研究收集了在2015年3月至2017年12月期間,在天津市胸科醫(yī)院行CABG手術,由于出現(xiàn)復發(fā)性缺血性癥狀而再入院的863名患者的數據。SVGD的診斷標準:經CAG檢查患者至少有1個SVG出現(xiàn)顯著的狹窄(狹窄程度≥50%)。納入標準:CABG術后出現(xiàn)復發(fā)性缺血性癥狀而再入院檢查的患者。排除標準:嚴重瓣膜病、急性代償失調性心衰、惡性腫瘤、腎或肝功能缺陷、急性或慢性感染和/或炎癥、貧血、血液疾病或慢性阻塞性肺病。最終有606例患者符合納入排除標準。本研究收集的數據包括患者的人口學信息、并發(fā)癥、家族史、CABG前血管造影/PCI資料、以及再入院時的臨床、實驗室數據。
2.研究方法
(1)基本原理
梯度提升機基本原理:Friedman[3]在1999年提出梯度提升模型,它的基本思想是每一次新的迭代都是為了減少上一次迭代的殘差,使模型沿著殘差減小最快的方向進行,由此產生一系列弱分類器,每個弱分類器都是一棵二叉樹,最終將這些弱分類器組合形成能使損失函數達到極小的模型。為了避免模型學習太快出現(xiàn)過擬合(over-fitting),因此模型引入收縮性參數(shrinkage),該參數越小,模型學習越“充分”,但同時會帶來模型的時間復雜度增加的問題[4]。在梯度提升機中,每棵樹之間的關系是垂直且相關的。
隨機森林基本原理:隨機森林是基于大量決策樹集成的分類或回歸算法,所謂“隨機”包含兩層含義:一是樣本的隨機,通過Bootstrap抽樣隨機抽取樣本,二是變量的隨機,即每個節(jié)點只選取部分特征進行分裂[5]。在分類問題時,所有擬合的樹通過“投票”決定該觀測所屬的類別。在隨機森林中,每棵樹之間的關系是獨立且平行的。
(2)模型評價方法
表1簡要描述了本研究用于模型分類性能評價的8個指標的意義及計算公式[6]。其中,TP、FP、TN和FN分別代表混淆矩陣中的真陽性、假陽性、真陰性和假陰性例數。準確率、靈敏度、特異度、陽性預測值和陰性預測值是評價模型分類效果的單一指標,而ROC曲線下面積(AUC)、幾何均值和F1得分為模型評價分類效果的綜合指標。此外,本研究使用重分類改善指數(net reclassification improvement,NRI)和綜合判別改善指數(integrated discrimination improvement,IDI)來比較梯度提升機和隨機森林作為集成算法對單分類器(以CART為參照)性能的改善程度[7-8]。
表1 分類模型常用的評價指標
(3)統(tǒng)計學方法
本研究定性資料用頻數(構成比)描述,定量資料用M(Q1,Q3)表示。對定性和定量資料分別采用卡方檢驗、秩和檢驗進行單因素分析,檢驗水準為α=0.05。采用有統(tǒng)計學意義或臨床意義的指標構建模型。分別使用R 3.4.4中的rpart,gbm和randomForest軟件包實現(xiàn)CART,GBM隨機森林三種模型。
1.一般情況及單因素分析
將研究對象按7∶3比例隨機分成訓練集合測試集,分別對收集的臨床指標進行單因素分析。表2僅展示了單因素分析有意義或認為有臨床意義的指標,即:橋齡、左室舒張期徑長、VLDL、LP(a)、左室射血分數、心臟病類型、原位病變血管支數和隱靜脈橋支數,這些指標將用于模型構建。
2.CART決策樹模型
通過10折交叉驗證進行確定最優(yōu)復雜度參數(CP=0.02),并進行剪枝。最終模型納入四個指標,分別為左室舒張期徑長、橋齡、左室射血分數和VLDL,出現(xiàn)如下三種情況可判定為SVGD:①左室舒張期徑長≥52.50mm。②左室舒張期徑長<52.50mm,橋齡≥5.5年,VLDL≥0.38mmol/L。③左室舒張期徑長<52.50mm,橋齡<5.5年,左室射血分數<57.50%。其余情況判定為非SVGD。詳見表3。
3.梯度提升機模型
表2 建模指標在非SVGD和SVGD人群中的分布
*:定量資料用M(Q1,Q3)表示,定性資料用n(%)表示。
表3 CART決策樹結果
*:CART決策樹的預測結果
圖1 GBM和RF中各指標的相對重要性
4.隨機森林模型
根據是否為SVGD這一變量進行分層bootstrap有放回抽樣,每次分裂時候選變量的個數(mtry)為總變量目的開方。結合袋外誤差調整模型參數,最終選擇葉節(jié)點的例數(nodesize)為15,樹的數目(ntree)為500。與梯度提升機類似,用Gini不純性的平均下降值衡量變量的相對重要排序。結果如圖1所示。
5.模型分類效果對比
NRI和IDI兩個指標定量的給出GBM和RF對CART基分類器的提升程度。通過bootstrap法得到表1中各指標的點估計值及95%CI。為了方便比較將CART基分類器的結果也展示在內。就訓練集而言,RF模型的ACC、SE、SP、PPV、NPV、AUC、G-mean和F1-score稍高于GBM。但在訓練集上,GBM分類效果優(yōu)于CART和RF。結果詳見表4。
上述模型結果表明,橋齡、左室舒張期徑長、VLDL、隱靜脈橋支數和心臟病類型這五個指標對于預測判斷患者是否為SVGD重要的臨床意義。且橋齡越大、左室舒張期徑長越長、VLDL越高、隱靜脈橋支數越多越有可能發(fā)生SVGD,且心臟病類型為ACS的患者更容易發(fā)生SVGD。國內李麗[11]等一項關于2010-2015年92例CABG術后癥狀復發(fā)而再入院檢查研究結果表明,SVGD與冠心病傳統(tǒng)危險因素無明顯關聯(lián),這一結論與本研究的結果基本一致。國外有研究表明橋齡是SVGD發(fā)生的危險因素,與本研究結果一致[12]。此外,有研究初步發(fā)現(xiàn)了許多潛在的SVGD的生物標志物如淋巴單核細胞比、維生素D、血小板比積、IL-6、CRP等[13],本研究尚未發(fā)現(xiàn)此結果,這些危險因素及生物標志物能夠用于中國人群SVGD仍需要進一步研究。
表4 CART,GBM與RF分類效果對比
*:NRI和IDI均以CART基分類器為參照計算,大于0表示正提升,小于0表示負提升。
CART決策樹作為一種基學習器,其學習能力比較弱,為此一系列集成算法如隨機森林和梯度提升機相繼出現(xiàn)。Sotiris K一項關于集成算法性能的研究納入了34個不同數據集,當以決策樹作為基分類器時,boosting算法在19個數據集上準確率高于bagging算法[14]。劉玉堯利用梯度提升算法建立了早期腫瘤發(fā)生的預測模型,并發(fā)現(xiàn)其預測性能優(yōu)于隨機森林[15]。這提示兩種算法性能可能與具體應用場景有關。在本研究中,RF和GBM均可改善CART的分類性能,且在測試集上GBM優(yōu)于RF。GBM在測試集上的表現(xiàn)與訓練集相差無幾,表明GBM有更好的泛化能力,這可能與GBM算法內部設置學習率來避免模型過擬合有關。而RF雖然在訓練集上表現(xiàn)略好于GBM,但在更具有推廣意義的測試集上遜色于GBM。SVGD是臨床上面臨的一大難題,本文旨在通過機器學習算法對曾行CABG的患者是否會發(fā)生SVGD進行分類預測,從而協(xié)助臨床醫(yī)生進行早期干預。通過研究發(fā)現(xiàn)GBM的分類性能優(yōu)于RF。本研究的局限在于樣本例數相對較少,且納入的研究對象是出現(xiàn)復發(fā)缺血性癥狀如胸痛進而到醫(yī)院進一步檢查的患者。今后仍需更大的樣本來驗證結果的外推性。總之,GBM為SVGD的分類預測開拓了新的思路,其優(yōu)良的預測性能可為臨床決策提供有價值的信息。