張志堅(jiān), 陳涵枝, 李 程, 周樂(lè)汀, 劉曉斌, 單煒薇, 劉 斌, 王 涼
(南京醫(yī)科大學(xué)無(wú)錫醫(yī)學(xué)中心/南京醫(yī)科大學(xué)附屬無(wú)錫人民醫(yī)院 腎內(nèi)科, 江蘇 無(wú)錫, 214000)
終末期腎病(ESRD)是慢性腎臟病(CKD)的終末階段,屬于世界范圍內(nèi)的重大公共衛(wèi)生問(wèn)題之一[1-2]。維持性血液透析(MHD)是ESRD患者最常用的治療手段,可極大改善預(yù)后與生活質(zhì)量,然而患者仍會(huì)面臨眾多并發(fā)癥的威脅,如貧血、營(yíng)養(yǎng)不良、高磷血癥、低鈣血癥和心腦血管意外等[3-4]。貧血和營(yíng)養(yǎng)不良在MHD患者中相當(dāng)普遍且與死亡風(fēng)險(xiǎn)升高相關(guān),早期識(shí)別并干預(yù)可有效改善預(yù)后[5]。目前,生物電阻抗分析(BIA)因具有無(wú)創(chuàng)、簡(jiǎn)單、客觀且快速等優(yōu)點(diǎn),已被廣泛用于評(píng)估MHD患者的容量情況和營(yíng)養(yǎng)狀態(tài)[6-7]。受人體化學(xué)成分和物理成分的影響,生物電阻抗可能與血清生化成分和營(yíng)養(yǎng)狀況相關(guān),但生物電阻抗矢量分析(BIVA)在評(píng)估MHD患者血清生化指標(biāo)(尤其是貧血和營(yíng)養(yǎng)狀況指標(biāo))中的作用目前尚不明確。白蛋白(Alb)、總膽固醇(TC)、低密度脂蛋白膽固醇(LDL-C)、血紅蛋白(Hb)是反映MHD患者貧血與營(yíng)養(yǎng)狀況的重要指標(biāo)。本研究基于BIVA法分析人體成分分析儀(BCM)采集的MHD患者生物電信號(hào)數(shù)據(jù),建立基于不同機(jī)器學(xué)習(xí)算法的預(yù)測(cè)模型,以期為MHD患者貧血和營(yíng)養(yǎng)狀況的評(píng)估提供輔助性依據(jù)。
本研究共納入1 925例尿毒癥患者,年齡19~85歲,女758例(平均年齡60.3歲),男1 167例(平均年齡59.5歲)。排除標(biāo)準(zhǔn): 測(cè)量前1個(gè)月內(nèi)發(fā)生過(guò)急性心腦血管事件、嚴(yán)重感染者,肝功能異常、肺功能不全、原發(fā)性甲狀腺疾病患者,惡性腫瘤或精神疾病患者。收集患者生物電阻抗數(shù)據(jù)3 742個(gè)和血生化指標(biāo)數(shù)據(jù)109 234個(gè),后者包括Alb(45 300個(gè))、TC(14 765個(gè))、LDL-C(9 047個(gè))和Hb(40 122個(gè)),所有數(shù)據(jù)于2016年5月—2022年7月獲得。
患者的一般資料于每次阻抗測(cè)量前收集,身高H(m)和體質(zhì)量W(kg)根據(jù)國(guó)際標(biāo)準(zhǔn)測(cè)量,體質(zhì)量指數(shù)(BMI)計(jì)算公式為W/H2。于每周第1次透析前為患者采血,使用自動(dòng)化學(xué)分析儀(Beckman Coulter AU5800型號(hào))和自動(dòng)血液分析儀(Sysmex XN-9000型號(hào))檢測(cè)血生化指標(biāo)水平。使用多頻阻抗分析儀(Fresenius, 上海)在50個(gè)頻率上測(cè)量阻抗矢量Z(Ω)和相位角φ(度),并導(dǎo)出對(duì)應(yīng)的細(xì)胞內(nèi)電阻Ri(Ω)、細(xì)胞內(nèi)電阻率ρi(Ω/m)、細(xì)胞外電阻Re(Ω)、細(xì)胞外電阻率ρe(Ω/m)、細(xì)胞膜電容Cm(F)、細(xì)胞膜介電常數(shù)ε(F/m)等,共計(jì)106個(gè)變量。血生化指標(biāo)分類標(biāo)準(zhǔn): ① Hb, <110.0 g/L為低, 110.0~130.0 g/L為正常, >130.0 g/L為高; ② TC, <3.0 mmol/L為低, 3.0~5.7 mmol/L為正常, >5.7 mmol/L為高; ③ LDL-C, <1.6 mmol/L為低, 1.6~3.4 mmol/L為正常, >3.4 mmol/L為高; ④ Alb, <35.0 g/L為低, 35.0~55.0 g/L為正常, >55.0 g/L為高。
本研究通過(guò)主成分分析(PCA)對(duì)原始106個(gè)生物電學(xué)指標(biāo)變量和年齡、身高、體質(zhì)量進(jìn)行分析,并通過(guò)各主要成分的貢獻(xiàn)率以及方差值實(shí)現(xiàn)對(duì)原始變量的降維,消除變量冗余特征。選取前8個(gè)貢獻(xiàn)率最高的特征作為模型的輸入特征。隨機(jī)選擇80%的生化-生物電記錄作為訓(xùn)練集,其余記錄則作為測(cè)試集。
對(duì)主要生物電學(xué)指標(biāo)測(cè)量值與生化指標(biāo)測(cè)量值進(jìn)行個(gè)體相關(guān)性分析,考慮到數(shù)據(jù)在個(gè)體內(nèi)被多次測(cè)量,本研究采用重復(fù)測(cè)量相關(guān)性分析來(lái)確定記錄的共同個(gè)體內(nèi)關(guān)聯(lián)。與簡(jiǎn)單回歸相關(guān)性分析不同,重復(fù)測(cè)量相關(guān)性分析不違反觀察獨(dú)立性假設(shè),且具有更強(qiáng)大的統(tǒng)計(jì)能力[8]。
具體流程如下: ① 在主要生物電學(xué)指標(biāo)(Ri、ρi、Re、ρe、Cm、ε)測(cè)量值和生化指標(biāo)(Alb、TC、LDL-C、Hb)測(cè)量值間進(jìn)行線性回歸分析,得到斜率值和殘差自由度值。根據(jù)斜率值的正負(fù)來(lái)判斷生物電學(xué)指標(biāo)測(cè)量值與生化指標(biāo)測(cè)量值的相關(guān)系數(shù)方向。② 將每種生物電學(xué)指標(biāo)變量從模型中刪除后進(jìn)行線性回歸分析,并分別計(jì)算刪除每個(gè)變量后的殘差平方和。③ 根據(jù)殘差平方和的比較結(jié)果,計(jì)算出刪除每個(gè)變量對(duì)應(yīng)的統(tǒng)計(jì)量F值,得出生物電學(xué)指標(biāo)測(cè)量值與生化指標(biāo)測(cè)量值的相關(guān)系數(shù)的P值。
隨機(jī)森林模型通過(guò)集成學(xué)習(xí)Bagging的思想將不同參數(shù)的樹模型進(jìn)行集成,并將CART決策樹作為弱學(xué)習(xí)器。由于隨機(jī)森林模型在分類領(lǐng)域中應(yīng)用廣泛,本研究基于CART分類樹評(píng)估MHD患者的營(yíng)養(yǎng)生化指標(biāo)(Alb、TC、LDL-C、Hb)。算法過(guò)程: ① 用N表示訓(xùn)練數(shù)據(jù)集個(gè)數(shù),用M表示特征數(shù)目,即生物電學(xué)指標(biāo)8維PCA值。② 輸入特征數(shù)目m, 用于確定決策樹上一個(gè)節(jié)點(diǎn)的決策結(jié)果,其中m應(yīng)遠(yuǎn)小于M。③ 從N個(gè)訓(xùn)練數(shù)據(jù)集中以有放回抽樣的方式取樣N次,形成一個(gè)訓(xùn)練集(即bootstrap取樣),并用未抽到的用例(樣本)作預(yù)測(cè),評(píng)估其誤差。④ 對(duì)于每一個(gè)節(jié)點(diǎn),隨機(jī)選擇m個(gè)特征,決策樹上每個(gè)節(jié)點(diǎn)的決定都基于這些特征確定。根據(jù)這m個(gè)特征,計(jì)算其最佳分裂方式。⑤ 每棵樹都會(huì)完整成長(zhǎng)而不會(huì)剪枝,這有可能在建完一棵正常樹狀分類器后會(huì)被采用。⑥ 對(duì)于最后的分支節(jié)點(diǎn),采用投票算法得到每個(gè)樣本的類別信息。
Adaboost算法是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器,然后將這些弱分類器集合起來(lái),構(gòu)成一個(gè)強(qiáng)分類器。本研究采用CART決策樹作為弱分類器,用于MHD患者的營(yíng)養(yǎng)生化指標(biāo)(Alb、TC、LDL-C、Hb)評(píng)估。算法過(guò)程: ① 用N表示訓(xùn)練數(shù)據(jù)集個(gè)數(shù),先通過(guò)對(duì)N個(gè)訓(xùn)練樣本的學(xué)習(xí)得到CART決策樹作為第1個(gè)弱分類器; ② 將被弱分類器分錯(cuò)的樣本和其他新數(shù)據(jù)一起構(gòu)成一個(gè)新的N個(gè)的訓(xùn)練樣本,通過(guò)對(duì)這個(gè)樣本的CART決策樹學(xué)習(xí)得到第2個(gè)弱分類器; ③ 將弱分類器1和弱分類器2都分錯(cuò)了的樣本加上其他新樣本構(gòu)成另一個(gè)新的N個(gè)的訓(xùn)練樣本,通過(guò)對(duì)這個(gè)樣本的CART決策樹學(xué)習(xí)得到第3個(gè)弱分類器; ④ 為幾個(gè)弱分類器指定權(quán)值,得到最終經(jīng)過(guò)提升的強(qiáng)分類器,某個(gè)數(shù)據(jù)被分為哪一類由各分類器權(quán)值決定。
SVM的基本思想是構(gòu)造一個(gè)超平面將訓(xùn)練數(shù)據(jù)分開,并且使分隔面與每一類數(shù)據(jù)點(diǎn)間的距離最大化,即“支持向量”。假設(shè)有M個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)(x1,y1), (x2,y2),…, (xm,ym), 其中xi是特征向量,每個(gè)數(shù)據(jù)點(diǎn)包含由多頻阻抗分析儀中導(dǎo)出的110個(gè)生物電學(xué)指標(biāo)變量計(jì)算得到的2維PCA值;yi是標(biāo)記(yi∈{-1, +1}), 每個(gè)數(shù)據(jù)點(diǎn)包含血生化指標(biāo)的含量分類值(“低”或“正?!被颉案摺?。因此,支持向量機(jī)的問(wèn)題就是求解超平面w·x+b=0, 使得?i∈{1,2,…,m},yi=(w·xi+b)≥1, 同時(shí)使得‖w‖最小化。求解SVM問(wèn)題的方法是對(duì)‖w‖2/2求解拉格朗日乘數(shù),并對(duì)乘數(shù)進(jìn)行求解,最終得到w和b。當(dāng)分類問(wèn)題存在非線性可分情況時(shí),可以通過(guò)在特征空間內(nèi)使用核函數(shù)(如多項(xiàng)式核、高斯核等)構(gòu)造高維特征,從而解決非線性可分情況。主要步驟: ① 使用核函數(shù)將低維的生物電學(xué)指標(biāo)2維PCA值輸入空間映射到高維的特征空間。② 通過(guò)上述優(yōu)化算法,針對(duì)血生化指標(biāo)含量分類值求解出最優(yōu)的分離超平面,得到w和b。③ 對(duì)于新的生物電學(xué)指標(biāo)輸入數(shù)據(jù),使用已經(jīng)得到的最優(yōu)分離超平面對(duì)其對(duì)應(yīng)血生化指標(biāo)進(jìn)行預(yù)測(cè),即可將其分配到相應(yīng)類別。
通過(guò)常見(jiàn)的評(píng)估指標(biāo),如準(zhǔn)確率、召回率和F1值等,評(píng)估并比較基于隨機(jī)森林算法模型、基于Adaboost算法模型和基于SVM算法模型的性能。
對(duì)主要生物電學(xué)指標(biāo)(Ri、ρi、Re、ρe、Cm、ε)測(cè)量值與主要營(yíng)養(yǎng)指標(biāo)(血生化指標(biāo)Alb、TC、LDL-C、Hb)測(cè)量值間進(jìn)行個(gè)體相關(guān)性分析,結(jié)果顯示,生物電學(xué)指標(biāo)與營(yíng)養(yǎng)指標(biāo)顯著相關(guān)(P<0.05或P<0.01), 提示生物電學(xué)指標(biāo)可用于評(píng)估MHD患者相關(guān)血生化指標(biāo),見(jiàn)表1(男性)、表2(女性)。
表1 男性患者主要生物電學(xué)指標(biāo)與主要營(yíng)養(yǎng)指標(biāo)的個(gè)體相關(guān)性分析結(jié)果
表2 女性患者主要生物電學(xué)指標(biāo)與主要營(yíng)養(yǎng)指標(biāo)的個(gè)體相關(guān)性分析結(jié)果
經(jīng)過(guò)優(yōu)化調(diào)參,基于SVM、Adaboost和隨機(jī)森林算法的各模型參數(shù)見(jiàn)表3?;诓煌惴ǖ?個(gè)模型對(duì)Alb、TC、LDL-C、Hb進(jìn)行分類的結(jié)果見(jiàn)表4~表7??傮w而言,基于隨機(jī)森林算法的模型表現(xiàn)最佳,表明其在相關(guān)指標(biāo)預(yù)測(cè)方面具有較強(qiáng)的魯棒性(Hb: F1值0.808、召回率0.773、準(zhǔn)確率0.904; Alb: F1值0.844、召回率0.827、準(zhǔn)確率0.880; LDL-C: F1值0.775、召回率0.710、準(zhǔn)確率0.879; TC: F1值0.742、召回率0.664、準(zhǔn)確率0.937)。此外,無(wú)論男女,基于隨機(jī)森林算法的模型均表現(xiàn)出較好的分類準(zhǔn)確性,相關(guān)結(jié)果明顯優(yōu)于基于AdaBoost算法的模型和基于SVM算法的模型。
表3 基于支持向量機(jī)、Adaboost和隨機(jī)森林算法的各模型參數(shù)
表4 基于不同算法的3種模型對(duì)血紅蛋白的分類結(jié)果
表5 基于不同算法的3種模型對(duì)白蛋白的分類結(jié)果
表6 基于不同算法的3種模型對(duì)低密度脂蛋白膽固醇的分類結(jié)果
表7 基于不同算法的3種模型對(duì)總膽固醇的分類結(jié)果
基于隨機(jī)森林、Adaboost、SVM算法的3種模型對(duì)4個(gè)血生化指標(biāo)變量(Alb、TC、LDL-C、Hb)預(yù)測(cè)性能的混淆矩陣見(jiàn)圖1~圖3, 結(jié)果顯示,基于隨機(jī)森林算法的模型在對(duì)角線上的預(yù)測(cè)值最高,說(shuō)明該模型對(duì)Alb、TC、LDL-C、Hb這4個(gè)變量的預(yù)測(cè)性能最佳。
A: 白蛋白; B: 血紅蛋白; C: 低密度脂蛋白膽固醇; D: 總膽固醇。
A: 白蛋白; B: 血紅蛋白; C: 低密度脂蛋白膽固醇; D: 總膽固醇。
A: 白蛋白; B: 血紅蛋白; C: 低密度脂蛋白膽固醇; D: 總膽固醇。
近年來(lái),ESRD的發(fā)病率逐年上升,己成為世界范圍內(nèi)影響人類健康的常見(jiàn)疾病。MHD患者常合并不同程度的貧血、營(yíng)養(yǎng)不良,與其生活質(zhì)量下降和死亡風(fēng)險(xiǎn)升高密切相關(guān)[9-12], 早期識(shí)別貧血和營(yíng)養(yǎng)不良具有重要的臨床意義。然而, MHD患者往往難以接受頻繁的有創(chuàng)檢驗(yàn),故亟需探尋可無(wú)創(chuàng)且快速評(píng)估貧血與營(yíng)養(yǎng)狀況的方法。生物電阻抗是人體電特性的一種度量指標(biāo),由電阻和電抗變量組成,其中電阻主要與體內(nèi)導(dǎo)電物質(zhì)的濃度有關(guān),尤其是水和電解質(zhì),電抗則主要與人體內(nèi)細(xì)胞膜脂質(zhì)雙分子層兩側(cè)的電容性質(zhì)有關(guān)[13-15]。MULASI U等[16]通過(guò)評(píng)估臨床人群的肌肉組織,發(fā)現(xiàn)了BIA在評(píng)估營(yíng)養(yǎng)狀況方面的準(zhǔn)確性和其他優(yōu)勢(shì)。BIVA可以克服傳統(tǒng)BIA受身高和體質(zhì)量個(gè)體差異影響的缺點(diǎn)[17]。ONOFRIESCU M等[18]基于131例MHD患者的隨機(jī)對(duì)照試驗(yàn)發(fā)現(xiàn)了BIVA在血液透析液體管理中的價(jià)值; 趙新菊等[19]通過(guò)BIVA評(píng)價(jià)血液透析患者的干體質(zhì)量,證實(shí)其可作為估計(jì)干體質(zhì)量的敏感輔助工具。生物電阻抗數(shù)據(jù)目前已被廣泛應(yīng)用于MHD患者容量負(fù)荷的評(píng)估中,但其在貧血和營(yíng)養(yǎng)不良診斷中的作用仍有待進(jìn)一步研究。本研究基于MHD患者資料分析BIVA與重要血生化指標(biāo)的關(guān)聯(lián),并開發(fā)基于BIVA的機(jī)器學(xué)習(xí)算法模型,以期為擴(kuò)展生物電阻抗的臨床應(yīng)用范圍提供理論基礎(chǔ)。
由于MHD患者的水含量經(jīng)常變化,傳統(tǒng)的營(yíng)養(yǎng)評(píng)估方法無(wú)法準(zhǔn)確評(píng)估其營(yíng)養(yǎng)狀況。本研究發(fā)現(xiàn), BIVA指標(biāo)與Alb、TC、LDL-C、Hb等指標(biāo)均存在顯著關(guān)聯(lián),表明BIVA指標(biāo)可在一定程度上反映患者貧血及營(yíng)養(yǎng)狀況,與既往研究[18]結(jié)論相符,這為建立基于BIVA及機(jī)器學(xué)習(xí)算法的預(yù)測(cè)模型奠定了理論依據(jù)。本研究結(jié)果表明,通過(guò)BIVA對(duì)MHD患者進(jìn)行定期監(jiān)測(cè)和隨訪,有助于臨床醫(yī)生及時(shí)了解MHD患者的體液、貧血、營(yíng)養(yǎng)狀態(tài),從而有針對(duì)性地指導(dǎo)治療。借助基于隨機(jī)森林算法的預(yù)測(cè)模型,臨床醫(yī)師可通過(guò)常規(guī)生物電測(cè)量初步評(píng)估相關(guān)生化指標(biāo)情況,實(shí)現(xiàn)早期預(yù)警和早期干預(yù),這對(duì)提高M(jìn)HD患者生活質(zhì)量、節(jié)約醫(yī)療資源具有重要意義。但本研究亦存在一些局限性: 營(yíng)養(yǎng)不良、貧血和生存質(zhì)量也可能與患者年齡和原發(fā)病有關(guān),并會(huì)對(duì)統(tǒng)計(jì)學(xué)結(jié)果產(chǎn)生一定影響,未來(lái)應(yīng)基于性別、年齡和健康狀況進(jìn)行分層研究; 本研究為橫斷面研究,無(wú)遠(yuǎn)期隨訪觀察結(jié)果,未來(lái)應(yīng)進(jìn)一步深入研究。
綜上所述,本研究基于MHD患者常規(guī)隨訪的BIVA數(shù)據(jù)和3種機(jī)器學(xué)習(xí)算法(隨機(jī)森林、SVM和Adaboost算法),建立了針對(duì)Alb、TC、LDL-C、Hb這4個(gè)血生化指標(biāo)的3個(gè)預(yù)測(cè)模型。3個(gè)預(yù)測(cè)模型中,基于隨機(jī)森林算法的模型表現(xiàn)最優(yōu)(預(yù)測(cè)Alb、LDL-C、Hb、TC的準(zhǔn)確率分別為0.880、0.879、0.904、0.937), 可為MHD患者貧血和營(yíng)養(yǎng)狀態(tài)的無(wú)創(chuàng)評(píng)估提供輔助決策意見(jiàn)。