張雪梅,鐘小鋼,,龔 軍,田 君, 張 誼,陳穎哲,崔 婧,汪曾子,冉淑瓊,向天雨,謝友紅,孫興國(guó),3△
(1.重慶醫(yī)科大學(xué)附屬康復(fù)醫(yī)院,重慶 400050;2.重慶醫(yī)科大學(xué)醫(yī)學(xué)數(shù)據(jù)研究院,重慶 400016;3.國(guó)家心血管病中心中國(guó)醫(yī)學(xué)科學(xué)院阜外醫(yī)院,北京 100037;4.首都醫(yī)科大學(xué)附屬北京中醫(yī)院,北京 100010)
高血壓是全世界導(dǎo)致心血管疾病及死亡的主要危險(xiǎn)因素[1]。有研究顯示,預(yù)計(jì)到2025 年,全球?qū)⒂?5.6 億人受高血壓的影響[2]。高血壓性心臟?。╤ypertensive heart disease, HHD)是由高血壓所引起的以左心室肥厚為特征的疾病,如得不到有效控制,則會(huì)逐漸出現(xiàn)代償性負(fù)荷增加,最終導(dǎo)致心力衰竭[3,4]。先前的研究顯示,HHD 與死亡風(fēng)險(xiǎn)增加相關(guān),但鮮有價(jià)值的生物標(biāo)志物可預(yù)測(cè)臨床實(shí)踐中從單純性高血壓到HHD 的進(jìn)展[5,6]。因此,本文利用機(jī)器學(xué)習(xí)等算法建立高血壓進(jìn)展至HHD 的預(yù)測(cè)模型,為HHD 的發(fā)生提供診斷方法。
數(shù)據(jù)來(lái)源于某醫(yī)科院校醫(yī)學(xué)數(shù)據(jù)研究院,該平臺(tái)共包含7 家附屬醫(yī)院的醫(yī)療數(shù)據(jù)。根據(jù)國(guó)際疾病分類(lèi) 第10 版(international classification of diseases 10th edition, ICD-10)從該平臺(tái)選取2016 年1 月1 日至2019 年12 月31 日診斷為高血壓性心臟病或高血壓的病例,診斷標(biāo)準(zhǔn)根據(jù)中國(guó)2018 年高血壓指南并參考美國(guó)AHA、ACC2017 高血壓指南和歐洲ESC2018高血壓指南[7-9]。實(shí)驗(yàn)組納入標(biāo)準(zhǔn):(1)主要診斷為HHD;(2)病案首頁(yè)中有明確的原發(fā)性高血壓診斷。排除標(biāo)準(zhǔn):(1)由其他疾病引發(fā)的心臟病[7-9]。對(duì)照組納入標(biāo)準(zhǔn):(1)主要診斷為明確的原發(fā)性高血壓[7-9]。排除標(biāo)準(zhǔn):(1)繼發(fā)性高血壓[7-9];(2)其他疾病引發(fā)的高血壓[7-9]。
選取研究對(duì)象的人口學(xué)信息,包含性別、年齡、飲酒、吸煙等;相關(guān)的實(shí)驗(yàn)室檢查、檢驗(yàn)指標(biāo),包含血細(xì)胞分析、生化檢查、血清離子、凝血功能檢查等共計(jì)85 項(xiàng)指標(biāo)。
采用Excel 2013 錄入并核對(duì)數(shù)據(jù),SPSS 和R 3.6.1 進(jìn)行統(tǒng)計(jì)學(xué)分析。采用t檢驗(yàn)、卡方檢驗(yàn)、非參數(shù)秩和檢驗(yàn)進(jìn)行單因素分析。采用logistics 回歸模型(α入=0.05,α出=0.10)進(jìn)一步篩選影響因素。采用random Forest 包、xgboost 包分別建立隨機(jī)森林(random forest, RF)模型、極限梯度上升(extreme gradient boosting, XGBoost)模型。采用曲線下面積(area under the curve, AUC)等指標(biāo)評(píng)價(jià)模型的性能。對(duì)于缺失率≤30%的指標(biāo)采用missForest 包進(jìn)行填補(bǔ)[7]。
共計(jì)獲得有效病例5 155 例,其中HHD 3 020 例,原發(fā)性高血壓2 135 例。病例以老年人為主。男性比例低于女性比例。刪除缺失率大于30%的指標(biāo),對(duì)缺失率小于等于30%的指標(biāo)進(jìn)行填補(bǔ)[10],共有78 項(xiàng)指標(biāo)納入后續(xù)分析。
實(shí)驗(yàn)組和對(duì)照組在性別、吸煙、飲酒、年齡、收縮壓、舒張壓、中性粒細(xì)胞計(jì)數(shù)、中性粒細(xì)胞百分比、單核細(xì)胞計(jì)數(shù)、單核細(xì)胞百分比、嗜堿性粒細(xì)胞計(jì)數(shù)、嗜堿性粒細(xì)胞百分比、嗜酸性粒細(xì)胞計(jì)數(shù)、嗜酸性粒細(xì)胞百分比、大型血小板比率、平均紅細(xì)胞體積、平均紅細(xì)胞血紅蛋白含量、平均紅細(xì)胞血紅蛋白濃度、淋巴細(xì)胞計(jì)數(shù)、白細(xì)胞計(jì)數(shù)、紅細(xì)胞分布寬度變異系數(shù)、紅細(xì)胞分布寬度標(biāo)準(zhǔn)差、紅細(xì)胞計(jì)數(shù)、血小板分布寬度、平均血小板體積、血小板計(jì)數(shù)、血紅蛋白、γ.谷氨?;D(zhuǎn)移酶、丙氨酸氨基轉(zhuǎn)移酶、乳酸脫氫酶、低密度脂蛋白膽固醇、前白蛋白、天門(mén)冬氨酸氨基轉(zhuǎn)移酶、尿素、尿酸、總膽固醇、總膽紅素、總蛋白、球蛋白、甘油三酯、白蛋白、直接膽紅素、堿性磷酸酶、肌酐、葡萄糖、載脂蛋白A1、載脂蛋白B、間接膽紅素、高密度脂蛋白膽固醇、氯、磷、鈣、鈉、鉀、鎂、D.二聚體、凝血酶原時(shí)間、活化部分凝血活酶時(shí)間、纖維蛋白原這59 項(xiàng)指標(biāo)有統(tǒng)計(jì)學(xué)差異(P<0.05,表1)。
表1. 高血壓性心臟?。℉DD)相關(guān)指標(biāo)單因素分析
續(xù)表1. 高血壓性心臟病(HDD)相關(guān)指標(biāo)單因素分析
為進(jìn)一步探索HHD 的影響因素,我們將單因素有統(tǒng)計(jì)學(xué)差異的指標(biāo)納入二元Logistics 回歸模型分析,結(jié)果顯示γ-谷氨?;D(zhuǎn)移酶、乳酸脫氫酶、凝血酶時(shí)間、天門(mén)冬氨酸氨基轉(zhuǎn)移酶、平均紅細(xì)胞血紅蛋白濃度、總膽紅素、活化部分凝血活酶時(shí)間、淋巴細(xì)胞計(jì)數(shù)、紅細(xì)胞分布寬度變異系數(shù)、纖維蛋白原、肌酐、血小板分布寬度、平均血小板體積、載脂蛋白A1、間接膽紅素、高密度脂蛋白膽固醇、磷、鎂這18 項(xiàng)指標(biāo)仍具有統(tǒng)計(jì)學(xué)差異(P<0.05,表2)。
表2. 高血壓性心臟?。℉HD)差異性指標(biāo)Logistic 回歸分析
將所有樣本以7 ∶3 的比例隨機(jī)分配到訓(xùn)練集和測(cè)試集中(訓(xùn)練集中實(shí)驗(yàn)組樣本2 107 例,對(duì)照組樣本1 502 例;測(cè)試集中實(shí)驗(yàn)組樣本913 例,對(duì)照組樣本633 例),訓(xùn)練集用于探究模型最優(yōu)參數(shù),測(cè)試集用于評(píng)價(jià)模型。通過(guò)訓(xùn)練集發(fā)現(xiàn)當(dāng)max-depth 為0.8 時(shí),XGBoost 模型的性能最優(yōu);當(dāng)mtry 為5 時(shí),隨機(jī)森林模型的性能最優(yōu)。此時(shí)測(cè)試集XGBoost 模型、隨機(jī)森林模型的AUC 分別為0.990 和0983(表3)。
表3. 不同模型性能評(píng)價(jià)表
HHD 是由高血壓所引發(fā)的并發(fā)癥,通常以左心室肥厚、血管及心室硬化、心室充盈受損為主要臨床表現(xiàn),如不積極治療,會(huì)導(dǎo)致心力衰竭[11]。臨床上,主要采用心電圖、超聲、心血管磁共振特征追蹤等手段對(duì)HHD 進(jìn)行診斷[12,13]。但有相關(guān)研究顯示,心電圖對(duì)于左心室肥厚的測(cè)量,尤其是對(duì)于肥胖患者,具有敏感度低等特點(diǎn),而心血管磁共振特征追蹤技術(shù)存在價(jià)格較高等特點(diǎn)[8]。因此,尋找用于診斷HHD 的生物標(biāo)志物非常必要。
本文通過(guò)某醫(yī)學(xué)數(shù)據(jù)研究平臺(tái),選取了高血壓和HHD 患者共計(jì)5 155 例患者的85 項(xiàng)指標(biāo)。相對(duì)于高血壓患者,通過(guò)單因素和多因素分析發(fā)現(xiàn)HHD 患者的γ-谷氨?;D(zhuǎn)移酶等18 項(xiàng)指標(biāo)存在統(tǒng)計(jì)學(xué)差異。本文建立的3 種預(yù)測(cè)模型發(fā)現(xiàn)XGBoost 機(jī)器學(xué)習(xí)算法模型最優(yōu),可實(shí)現(xiàn)γ-谷氨?;D(zhuǎn)移酶等18 個(gè)指標(biāo)的敏感度為0.993,特異度為0.984,曲線下面積為0.990的良好預(yù)測(cè)模型。
研究顯示國(guó)內(nèi)外進(jìn)行了多項(xiàng)針對(duì)HHD 診斷標(biāo)志物的篩選,如學(xué)者Kangxing Song 等人通過(guò)meta 分析發(fā)現(xiàn)HHD 患者血漿中的心肌營(yíng)養(yǎng)素-1(cardiotrophin-1)明顯升高[6]。國(guó)外學(xué)者Begon?aLo′pez 等人發(fā)現(xiàn)血漿中心肌營(yíng)養(yǎng)素-1 濃度用于預(yù)測(cè)HHD 的敏感度為0.70,特異度為0.75[14]。學(xué)者張光彩等人發(fā)現(xiàn)相對(duì)于高血壓患者,HHD 患者的血清超敏反應(yīng)蛋白和同型半胱氨酸升高,可作為預(yù)測(cè)HHD 不良事件發(fā)生的效應(yīng)指標(biāo)[15]。學(xué)者初志輝等人發(fā)現(xiàn)超聲心電圖聯(lián)合親環(huán)素A 和親環(huán)素B 診斷HHD 可實(shí)現(xiàn)敏感度為0.94,特異度為0.90,曲線下面積為0.987,具有良好的診斷結(jié)果[16]。本文建立的XGBoost 預(yù)測(cè)模型無(wú)論是靈敏度、特異度還是曲線下面積,均優(yōu)于上述的預(yù)測(cè)模型。其次,本文還基于上述18 個(gè)差異指標(biāo)同時(shí)建立了Logistics 回歸模型、隨機(jī)森林模型,所有模型的靈敏度、特異度和曲線下面積均超過(guò)了0.90,說(shuō)明指標(biāo)比較穩(wěn)定,模型比較可靠。
本研究的優(yōu)勢(shì)包括:(1)選取的指標(biāo)廣,包含了生化檢查等78 項(xiàng)指標(biāo);(2)樣本量大,數(shù)據(jù)來(lái)源于7 家醫(yī)療機(jī)構(gòu);(3)得出的結(jié)論相對(duì)可靠,同時(shí)使用了3 種預(yù)測(cè)模型,且分成了訓(xùn)練集與測(cè)試集。本研究也存在一些不足之處,比如(1)對(duì)于缺失率超過(guò)30%的指標(biāo),采取了直接刪除,其于HHD 的關(guān)系有待進(jìn)一步探索;(2)本文預(yù)測(cè)模型包含18 個(gè)指標(biāo),指標(biāo)個(gè)數(shù)相對(duì)較多,有待進(jìn)一步精簡(jiǎn)及優(yōu)化。
中國(guó)應(yīng)用生理學(xué)雜志2021年2期