劉妍?賈龍斌?許麗娜?劉偉
【摘要】目的 基于機(jī)器學(xué)習(xí)算法評估急性穿支動脈閉塞性腦梗死預(yù)測模型并篩選優(yōu)勢模型,為臨床管理急性穿支動脈梗死患者提供依據(jù)。方法 選取441例急性穿支動脈閉塞性腦梗死患者為研究對象,排除臨床信息不完整10例,多次腦梗死患者28例,共納入403例。將結(jié)果變量分為預(yù)后良好組[改良Rankin量表(mRS)評分0~2分]和預(yù)后不良組(mRS評分>2分)。采用單、多因素Logistic回歸(LR)以逐步回歸法分析篩選預(yù)測變量。使用LR、隨機(jī)森林(RF)、支持向量機(jī)(SVM)3種機(jī)器學(xué)習(xí)算法構(gòu)建功能預(yù)后預(yù)測模型,在測試集中通過受試者操作特征(ROC)曲線的曲線下面積(AUC)、準(zhǔn)確度、靈敏度、特異度等指標(biāo)比較預(yù)測模型對患者發(fā)病90 d功能預(yù)后的預(yù)測價值。結(jié)果 403例患者中男性占68.73%,年齡(60.4±11.4)歲。從44個變量中選出7個變量作為預(yù)測變量,分別為白細(xì)胞計(jì)數(shù)、血小板計(jì)數(shù)、就診時血糖、膽固醇、既往糖尿病病史、既往服用降糖藥物史、既往吸煙史(P均< 0.05)。LR、RF、SVM預(yù)測預(yù)后的AUC分別為0.610、0.690、0.780。結(jié)論 機(jī)器學(xué)習(xí)算法在預(yù)測急性穿支動脈閉塞性腦梗死中有一定的預(yù)判能力。RF、SVM(非線性模型)在預(yù)測模型中的表現(xiàn)優(yōu)于傳統(tǒng)LR模型(線性模型)。
【關(guān)鍵詞】腦梗死;預(yù)后;穿支動脈粥樣硬化性疾病;穿支動脈;機(jī)器學(xué)習(xí);預(yù)測模型
Study of a prediction model for acute penetrating artery territory infarction based on machine learning Liu Yan△, Jia Longbin, Xu Lina, Liu Wei.△Changzhi Medical College, Changzhi 046000, China
Corresponding author, Jia Longbin, E-mail: sxjcjlb@163.com
【Abstract】Objective To evaluate the performance of prediction models for? acute penetrating artery territory occlusive cerebral infarction based on machine learning algorithms and select the optimal model, aiming to provide evidence for clinical management of acute penetrating artery territory infarction. Methods A total of 441 patients diagnosed with acute perforator artery territory infarction were enrolled in this study. Patients with incomplete clinical information (n = 10) and multiple cerebral infarctions (n = 28) were excluded, resulting in a final sample size of 403 patients. The outcome variables were divided into two groups: good prognosis (mRS scores of 0-2) and poor prognosis (mRS scores>2). Univariate and multi-variate Logistic regression (LR) using the stepwise regression method were employed to identify prediction variables. LR, random forest (RF)? and support vector machine (SVM) models were utilized to develop a prognostic prediction model. The dataset was further divided randomly into a training set and a test set in a 7:3 ratio. In the test set, the predictive performance of the model for 90-day functional prognosis in patients with BAD (with poor prognosis defined as mRS scores > 2) was evaluated using metric such as the area under the receiver operating characteristic (ROC) curve (AUC), accuracy, sensitivity and specificity, etc. Results Among 403 patients with BAD, 68.73% of them were male, with an average age of (60.4±11.4) years. Using the stepwise regression method, 7 prediction variables were selected from a pool of 44 variables: white blood cell count, platelet count, blood glucose, cholesterol, history of diabetes mellitus, history of taking hypoglycemic drugs, and history of smoking (all P < 0.05). The AUC of LR, RF and SVN for predicting clinical prognosis was 0.610, 0.690, and 0.780, respectively. Conclusions Machine learning algorithms have demonstrated certain predictive ability for acute penetrating artery territory infarction. The performance of RF and SVM models (nonlinear models) is superior to traditional logistic regression model (linear model).
【Key words】Cerebral infarction;Prognosis;Branch atheromatous disease;Penetrating artery;Machine learning;
Predictive model
腦卒中已經(jīng)成為全球致殘和致死的第二大原因,具有高患病率、高復(fù)發(fā)率、高病死率的特點(diǎn),而且患病率逐年上升,給低收入和中等收入國家?guī)砹司薮筘?fù)擔(dān)[1-2]。研究顯示,90 d腦梗死復(fù)發(fā)率為2.81%,病死率也處于較高水平[3]。腦卒中除了會導(dǎo)致常見的感覺、運(yùn)動、自主功能障礙及認(rèn)知功能障礙以外,還會引發(fā)腦心綜合征[4-5]。隨之而來的康復(fù)需求及殘疾適應(yīng)周期等經(jīng)濟(jì)負(fù)擔(dān)是沉重的[6-7]。超過80%的腦卒中患者為缺血性腦卒中,14.9%為腦出血卒中,3.1%為蛛網(wǎng)膜下隙出血卒中[1, 9]。穿支動脈粥樣硬化性疾?。˙AD)以動脈閉塞為特征,微動脈粥樣硬化使得血栓堵塞在母動脈孔附近相對較大的穿支(直徑700~
800 ?m),是引起急性孤立性皮層下梗死最常見且重要的病因,尤以亞洲人群多見,在發(fā)病急性期內(nèi),BAD引發(fā)的腦卒中更易出現(xiàn)癥狀波動或神經(jīng)功能惡化[10-11]。在急性缺血性腦血管病住院患者中,約10.3%~10.8%為BAD患者,其中17%~75%運(yùn)動系統(tǒng)受累患者的癥狀呈進(jìn)行性加重[12]。到目前為止,還沒有針對BAD的最佳治療方法,因此預(yù)測BAD相關(guān)腦卒中的預(yù)后尤為重要[10-11, 13]。
機(jī)器學(xué)習(xí)是人工智能(AI)的一個重要分支,監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)是目前機(jī)器學(xué)習(xí)的重點(diǎn)類型。精準(zhǔn)醫(yī)療是未來醫(yī)療的發(fā)展趨勢,而AI是實(shí)現(xiàn)精準(zhǔn)醫(yī)療的重要手段[14]。目前已有將機(jī)器學(xué)習(xí)應(yīng)用于腦卒中的相關(guān)研究,包括影像學(xué)、生物信息學(xué)、基因研究等方面[15-17]。準(zhǔn)確的預(yù)后預(yù)測一直是腦卒中研究的中心目標(biāo),有助于制定最適合的短期和長期治療目標(biāo)。
預(yù)測模型的建立可以幫助臨床醫(yī)師根據(jù)預(yù)測結(jié)果選擇更有針對性的治療方案。目前基于機(jī)器學(xué)習(xí)的預(yù)測研究雖然很多,但針對BAD相關(guān)腦卒中的預(yù)測研究甚少。本研究旨在采用機(jī)器學(xué)習(xí)對急性穿支動脈閉塞性腦梗死構(gòu)建神經(jīng)功能預(yù)測模型,并通過相關(guān)指標(biāo)對其進(jìn)行評估,選擇優(yōu)勢模型,為BAD相關(guān)腦卒中的治療提供參考依據(jù)。
對象與方法
一、研究對象
研究對象來源于山西省醫(yī)學(xué)重點(diǎn)學(xué)科、首批省級臨床重點(diǎn)???、國家衛(wèi)健委腦卒中篩查與防治基地——長治醫(yī)學(xué)院附屬晉城市人民醫(yī)院神經(jīng)內(nèi)科。收集2020年1月至2021年12月連續(xù)入院的急性穿支動脈閉塞性腦梗死患者441例的臨床資料,按以下納入與排除標(biāo)準(zhǔn)進(jìn)行篩選,納入標(biāo)準(zhǔn):①年齡>18歲;②根據(jù)BAD的定義,經(jīng)頭顱CT或MRI確診腦梗死;頭部MRI擴(kuò)散加權(quán)成像(DWI)顯示存在穿支動脈供血區(qū)(基底節(jié)區(qū)、內(nèi)囊、丘腦、腦橋等)孤立梗死病灶(直徑< 30 mm),梗死病灶在水平位至少累及不少于2個DWI 影像層面,或DWI顯示梗死病灶最大層面直徑≥ 15 mm,或DWI顯示梗死病灶與腦橋腹側(cè)的腦表面相連,梗死病灶靠近中線、位于一側(cè)且不超過中線;③發(fā)病在3 d內(nèi);④住院接受治療。排除標(biāo)準(zhǔn):①臨床信息不完整;②發(fā)病90 d內(nèi)死亡;③多發(fā)性、皮質(zhì)性梗死。最終納入研究對象403例。本研究屬于回顧性研究,由晉城市人民醫(yī)院醫(yī)學(xué)倫理委員會審核通過(批件號:JCPH.NO20221201006)。
二、基線數(shù)據(jù)
1.納入變量
通過住院系統(tǒng)收集患者的人口學(xué)信息(年齡、身高 、體質(zhì)量、BMI)、入院時實(shí)驗(yàn)室檢查結(jié)果[血紅蛋白、紅細(xì)胞、白細(xì)胞、血小板、中性粒細(xì)胞、淋巴細(xì)胞、中性粒細(xì)胞/淋巴細(xì)胞、血小板/
淋巴細(xì)胞、膽紅素、尿素、肌酐、尿素/肌酐、C反應(yīng)蛋白(CRP)、LDL-C、甘油三酯、膽固醇、血糖、D-二聚體、同型半胱氨酸(HCY)]、既往病史[高血壓、糖尿病、冠狀動脈粥樣硬化性心臟?。ü谛牟。?、心房顫動、腦出血、腦梗死]、個人史(吸煙史、飲酒史)、既往服藥史(降壓藥、調(diào)脂藥、降糖藥、抗凝藥、抗血小板藥等)、評分[入院時美國國立衛(wèi)生研究院卒中量表(NIHSS)評分、加重后NIHSS評分、出院時NIHSS評分、入院時改良Rankin量表(mRS)評分、出院時mRS評分]、神經(jīng)功能惡化情況。由數(shù)據(jù)監(jiān)察員獨(dú)立審核數(shù)據(jù)的完整性、準(zhǔn)確性。
2.結(jié)局變量
采用電話隨訪的形式,使用mRS評估發(fā)病90 d時患者的預(yù)后。將患者按照預(yù)后良好(mRS評分0~2分)和預(yù)后不良(mRS評分>2分)分為2組。
三、統(tǒng)計(jì)學(xué)處理
采用SPSS 25.0和Python 3.7進(jìn)行數(shù)據(jù)分析。二分類變量采用例(%)表示,比較采用χ 2檢驗(yàn)。符合正態(tài)分布的計(jì)量資料用表示,比較采用t檢驗(yàn);不符合正態(tài)分布的計(jì)量資料用M(P25,P75)表示,比較采用秩和檢驗(yàn)。雙側(cè)P < 0.05為差異有統(tǒng)計(jì)學(xué)意義。
四、預(yù)測模型建立方法
將單因素Logistic回歸(LR)中P < 0.25的預(yù)測因素納入多因素分析,多因素LR以逐步回歸法進(jìn)行特征篩選,最終將P < 0.05的變量納入預(yù)測模型中。使用EM插補(bǔ)法對缺失值進(jìn)行填充。將納入的研究對象按 7∶3隨機(jī)分為訓(xùn)練集和測試集,采用LR、隨機(jī)森林(RF)、支持向量機(jī)(SVM)3種機(jī)器學(xué)習(xí)的方法分別建立預(yù)測模型。在測試集內(nèi)對各個預(yù)測模型的預(yù)測性能進(jìn)行內(nèi)部驗(yàn)證。模型評價指標(biāo)包括受試者操作特征(ROC)曲線的曲線下面積(AUC)、準(zhǔn)確度、靈敏度、特異度。AUC 為0.5~0.7 時表示預(yù)測模型的準(zhǔn)確度較低,為0.7~0.9 時表示預(yù)測模型具有一定準(zhǔn)確度,AUC>0.9 時則表示預(yù)測模型具有較高的準(zhǔn)確度。根據(jù)AUC評估模型價值,并選出優(yōu)勢模型。
結(jié)果
一、2組急性穿支動脈閉塞性腦梗死患者基線資料比較
本研究納入符合條件的急性穿支動脈閉塞性腦梗死患者共403例,其中預(yù)后良好組353例、預(yù)后不良組50例。2組患者的白細(xì)胞、血小板、D-二聚體、入院時NHISS評分、加重后NHISS評分、出院時NHISS評分、出院時mRS評分、既往糖尿病病史、個人吸煙史比較差異有統(tǒng)計(jì)學(xué)意義(P均<0.05)。見表1。
二、預(yù)測變量篩選結(jié)果
多因素LR逐步回歸結(jié)果顯示,白細(xì)胞、血小板、就診時血糖、膽固醇、既往糖尿病病史、既往服用降糖藥、個人吸煙史可作為3種機(jī)器學(xué)習(xí)模型的變量(P均< 0.05)。見表2。
三、預(yù)測模型評價
LR、RF、SVM預(yù)測模型預(yù)測急性穿支動脈閉塞性腦梗死患者神經(jīng)功能預(yù)后的AUC分別為0.610、0.690、0.780。準(zhǔn)確度、特異度、靈敏度見表3、圖1。
討論
本研究從基線變量中篩選出7個變量作為預(yù)測變量。對于預(yù)測變量選擇的方法很重要,因?yàn)樵谀P蜆?gòu)建的過程中,數(shù)據(jù)集的數(shù)量龐大,但大多數(shù)的預(yù)測變量與目標(biāo)變量無關(guān),可能會降低機(jī)器學(xué)習(xí)的準(zhǔn)確性。因此,本文采用LR逐步回歸法進(jìn)行預(yù)測變量的篩選,具有自動化選擇、靈活性強(qiáng)、節(jié)約成本及時間、避免模型欠擬合等優(yōu)勢。
本研究基于機(jī)器學(xué)習(xí)的方法建立了急性穿支動脈閉塞性腦梗死患者90 d神經(jīng)功能預(yù)后的預(yù)測模型,結(jié)果顯示非線性模型RF(AUC=0.690)、SVM(AUC=0.780)算法構(gòu)建的機(jī)器學(xué)習(xí)模型預(yù)測能力比傳統(tǒng)的非線性模型LR(AUC=0.610)的表現(xiàn)更優(yōu)秀,表明機(jī)器學(xué)習(xí)對預(yù)測急性穿支動脈閉塞性腦梗死患者的神經(jīng)功能預(yù)后具有可行性,且非線性模型的效果優(yōu)于線性模型。有研究顯示,包括RF、分類和回歸樹、C5.0決策樹、SVM、自適應(yīng)提升、最小絕對收縮和選擇算子、LR在內(nèi)的模型可以預(yù)測發(fā)病90 d缺血性腦卒中患者的神經(jīng)功能預(yù)后,具有一定的準(zhǔn)確性(AUC 0.66~0.71)[18-19]。
對于影響B(tài)AD患者治療效果的具體因素目前尚無確切定論,且BAD 相關(guān)腦卒中患者的癥狀更易出現(xiàn)波動及進(jìn)展,導(dǎo)致預(yù)后不佳[20]。本研究將急性穿支動脈閉塞性腦梗死與機(jī)器學(xué)習(xí)相聯(lián)系,通過機(jī)器學(xué)習(xí)找到預(yù)測患者神經(jīng)功能預(yù)后的可靠方法,對BAD患者早期采取更有針對性的臨床干預(yù)提供了依據(jù)。
本研究存在一些局限性:①由于BAD相關(guān)腦梗死患者的分布廣泛,其預(yù)后容易受到醫(yī)療水平等特定因素的影響,本文僅選取了單一機(jī)構(gòu)的急性穿支動脈閉塞性腦梗死患者數(shù)據(jù)集,存在一定的局限性。②本研究未進(jìn)行影像學(xué)指標(biāo)預(yù)測,可能會影響預(yù)測模型的特異度。
綜上所述,新的科技變革會促使更多的AI技術(shù)服務(wù)于醫(yī)學(xué)。機(jī)器學(xué)習(xí)被用于醫(yī)學(xué)領(lǐng)域是發(fā)展趨勢,對醫(yī)學(xué)的進(jìn)步將產(chǎn)生巨大的影響。
參 考 文 獻(xiàn)
[1] Saini V, Guada L, Yavagal D R. Global epidemiology of stroke and access to acute ischemic stroke interventions[J]. Neurology, 2021, 97(20 Suppl 2): S6-S16.
[2] Tu W J, Zhao Z, Yin P,et al. Estimated burden of stroke in China in 2020[J]. JAMA Netw Open, 2023, 6(3): e231455.
[3] 王隴德, 彭斌, 張鴻祺, 等. 《中國腦卒中防治報(bào)告2020》概要[J]. 中國腦血管病雜志, 2022, 19(2): 136-144.
Wang L D, Peng B, Zhang H Q, et al.Brief report on stroke prevention and treatment in China[J]. Chin J Cerebrovasc Dis,2022, 19(2): 136-144.
[4] Rost N S, Brodtmann A, Pase M P, et al. Post-stroke cognitive impairment and dementia[J]. Circ Res, 2022, 130(8): 1252-1271.
[5] 龔家俊, 王文敏. 急性腦卒中后腦心綜合征的臨床特點(diǎn)及其對患者預(yù)后的影響[J]. 新醫(yī)學(xué), 2021, 52(5): 371-375.
Gong J J, Wang W M. Clinical characteristics of cerebro-cardiac syndrome and its effect on clinical prognosis of patients with acute stroke[J]. J New Med, 2021, 52(5): 371-375.
[6] Luengo-Fernandez R, Violato M, Candio P, et al. Economic burden of stroke across Europe: a population-based cost analysis[J]. Eur Stroke J, 2020, 5(1): 17-25.
[7] Cieza A, Causey K, Kamenov K, et al. Global estimates of the need for rehabilitation based on the Global Burden of Disease study 2019: a systematic analysis for the Global Burden of Disease Study 2019[J]. Lancet Lond Engl, 2020, 396: 2006-2017.
[8] GBD 2015 Neurological Disorders Collaborator Group. Global, regional, and national burden of neurological disorders during 1990-2015: a systematic analysis for the Global Burden of Disease Study 2015[J]. Lancet Neurol. 2017, 16(11): 877-897.
[9] Tu W J, Wang L D, Special Writing Group of China Stroke Surveillance Report. China stroke surveillance report 2021[J]. Mil Med Res, 2023, 10(1): 33.
[10] Takahashi S, Kokudai Y, Kurokawa S, et al. Prognostic evaluation of branch atheromatous disease in the pons using carotid artery ultrasonography[J]. J Stroke Cerebrovasc Dis, 2020, 29(7): 104852.
[11] Deguchi I, Takahashi S. Pathophysiology and optimal treatment of intracranial branch atheromatous disease[J]. J Atheroscler Thromb, 2023, 30(7): 701-709.
[12] Nagasawa J, Suzuki K, Hanashiro S, et al. Association between middle cerebral artery morphology and branch atheromatous disease[J]. J Med Invest, 2023, 70(3.4): 411-414.
[13] Senda J, Ito K, Kotake T, et al. Investigation of inpatient convalescent rehabilitation outcomes in branch atheromatous disease[J]. J Stroke Cerebrovasc Dis, 2023, 32(3): 106937.
[14] Bonkhoff A K, Grefkes C. Precision medicine in stroke: towards personalized outcome predictions using artificial intelligence[J]. Brain, 2022, 145(2): 457-475.
[15] Sheth S A, Giancardo L, Colasurdo M, et al. Machine learning and acute stroke imaging[J]. J Neurointerv Surg, 2023, 15(2): 195-199.
[16] Bao H, Li J, Zhang B, et al. Integrated bioinformatics and machine-learning screening for immune-related genes in diagnosing non-alcoholic fatty liver disease with ischemic stroke and RRS1 pan-cancer analysis[J]. Front Immunol, 2023, 14: 1113634.
[17] Sirsat M S, Fermé E, C?mara J. Machine learning for brain stroke: a review[J]. J Stroke Cerebrovasc Dis, 2020, 29(10): 105162.
[18] Campagnini S, Arienti C, Patrini M, et al. Machine learning methods for functional recovery prediction and prognosis in post-stroke rehabilitation: a systematic review[J]. J Neuroeng Rehabil, 2022, 19(1): 54.
[19] Alaka S A, Menon B K, Brobbey A, et al. Functional outcome prediction in ischemic stroke: a comparison of machine learning algorithms and regression models[J]. Front Neurol, 2020, 11: 889.
[20] 陳娜, 楊海華, 吳海威, 等. 靜脈溶栓治療急性穿支動脈閉塞腦梗死的影響因素[J]. 河北醫(yī)藥, 2023, 45(14): 2100-2105.
Chen N, Yang H H, Wu H W, et al. Analysis of influencing factors for the therapeutic efficacy of intravenous thrombolysis on acute cerebral infarction caused by perforating artery occlusion and the prognosis[J]. Hebei Med J, 2023, 45(14): 2100-2105.
(收稿日期:2023-12-03)
(本文編輯:洪悅民)