伍剛,許國(guó)宇,劉廣韜,周青,劉策,常鵬飛
決策樹模型與logistic回歸模型在腦出血預(yù)后分析中的應(yīng)用
伍剛,許國(guó)宇,劉廣韜,周青,劉策,常鵬飛
目的通過應(yīng)用決策樹分類和回歸樹模型與logistic 回歸模型分析影響腦出血患者預(yù)后的風(fēng)險(xiǎn)因素,為臨床治療腦出血提供借鑒。方法根據(jù)臨床常見影響腦出血患者預(yù)后的風(fēng)險(xiǎn)因素,建立決策樹模型和logistic回歸模型,比較兩種方法分析結(jié)果的差異。結(jié)果Logistic回歸分析結(jié)果顯示血腫體積(OR=0.953)、首次GCS評(píng)分(OR=1.210)、肺部感染(OR=0.295)、基底節(jié)區(qū)出血(OR=0.336)是腦出血預(yù)后不良的風(fēng)險(xiǎn)因素。決策樹模型分析結(jié)果顯示,血腫體積和首次格拉斯哥昏迷GCS評(píng)分是影響腦出血預(yù)后最主要的因素。兩種模型對(duì)腦出血預(yù)后的評(píng)價(jià)作用近似(Z=0.402,P=0.688)。結(jié)論決策樹模型判斷腦出血預(yù)后的價(jià)值與logistic模型近似,同時(shí)還具有可對(duì)風(fēng)險(xiǎn)因素進(jìn)行交互分析、更為直觀的特點(diǎn)。
腦出血;Logistic模型;決策樹;預(yù)后;危險(xiǎn)因素
研究表明,腦出血(intracerebral hemorrhage,ICH)已占到國(guó)人所有腦血管疾病的18.8%~47.6%[1-3]。國(guó)內(nèi)部分城市流行病學(xué)調(diào)查結(jié)果顯示,ICH標(biāo)準(zhǔn)化發(fā)病率為38.1~77.1/10萬人年,高于歐美等經(jīng)濟(jì)發(fā)達(dá)國(guó)家[2,4]。ICH 1個(gè)月的死亡率約40%[5],嚴(yán)重威脅患者健康。對(duì)ICH的預(yù)后進(jìn)行風(fēng)險(xiǎn)評(píng)估有助于指導(dǎo)臨床工作[6]。Logistic回歸模型作為有效的統(tǒng)計(jì)學(xué)方法,常用于ICH預(yù)后以及療效等臨床指標(biāo)的分析[7]。決策樹(decision tree)是數(shù)據(jù)挖掘中的一種重要分類技術(shù)。分類和回歸樹模型(classification and regression trees,CART)是決策樹模型的一個(gè)分支,其基本原理是將研究的人群通過某些特征(自變量取值)分解成數(shù)個(gè)相對(duì)同質(zhì)的亞人群,每一個(gè)亞人群內(nèi)部因變量的取值高度一致,相應(yīng)的變異盡量落在不同的亞人群中,經(jīng)常使用的測(cè)量指標(biāo)是Gini指數(shù)。因?yàn)镃ART可以對(duì)患者的風(fēng)險(xiǎn)進(jìn)行分層處理,可以發(fā)現(xiàn)因素之間的交互作用,已經(jīng)應(yīng)用于多種疾病的臨床研究工作[8-9]。本研究擬同時(shí)引入決策樹CART模型和logistic回歸模型,回顧研究單中心ICH病例,分析影響ICH預(yù)后的相關(guān)因素,旨在為臨床積極有效地治療ICH提供借鑒。
1.1 研究對(duì)象 回顧性調(diào)查解放軍309醫(yī)院2011年1月-2014年5月入院診斷為ICH的患者共396例,所有患者均根據(jù)文獻(xiàn)[10]的標(biāo)準(zhǔn)進(jìn)行診斷,排除腦外傷出血、蛛網(wǎng)膜下腔出血、腦腫瘤出血、腦干出血以及信息不完整病例,其中有效病例共計(jì)310例,占總病例數(shù)的78.3%。310例患者中男214例,女96例,年齡57.5±12.9歲。
1.2 研究方法 收集病例資料,主要包括:年齡、性別;是否有院前意識(shí)障礙,是否有高血壓病史、既往ICH史、腦梗死史、糖尿病史、透析病史、吸煙史、服用阿司匹林史;出血部位(腦室、基底節(jié)區(qū)、丘腦、額葉、頂葉、枕葉、小腦、多腦葉);入院后是否伴發(fā)肺部感染、應(yīng)激性潰瘍消化道出血、泌尿系感染、深靜脈血栓、腦積水;入院首次格拉斯哥昏迷評(píng)分(Glasgow coma scale,GCS)、收縮壓值、血糖值、血紅蛋白值、血小板值;首次CT掃描按ABC/2法估算血腫體積。治療1個(gè)月后進(jìn)行格拉斯哥預(yù)后評(píng)分(Glasgow outcome scale,GOS),GOS 1~3分為預(yù)后不良,GOS 4~5分為預(yù)后良好。
1.3 統(tǒng)計(jì)學(xué)處理 以患者預(yù)后結(jié)果為因變量(預(yù)后良好為1,預(yù)后不良為0)。應(yīng)用SPSS 19.0軟件處理數(shù)據(jù),其中連續(xù)變量單因素分析采用Studentt檢驗(yàn),分類變量單因素分析采用χ2檢驗(yàn)。有統(tǒng)計(jì)學(xué)意義的自變量納入多因素logistic回歸分析。Logistic回歸選擇逐步法,其相應(yīng)自變量也進(jìn)入CART模型進(jìn)行分析。繪制logistic回歸模型和CART模型對(duì)ICH患者預(yù)后判斷的受試者工作特征(receiver operating characteristic curve,ROC)曲線。應(yīng)用Medcalc軟件對(duì)兩種模型ROC曲線下面積(area under curve,AUC)進(jìn)行比較。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2.1 單因素分析 單因素分析結(jié)果顯示,院前意識(shí)障礙、腦室出血、基底節(jié)出血、枕葉出血、首次收縮壓、首次GCS評(píng)分、肺部感染、消化道出血、深靜脈血栓、血腫體積共計(jì)10個(gè)自變量對(duì)ICH預(yù)后的影響有統(tǒng)計(jì)學(xué)意義,納入logistic回歸模型和CART模型。年齡、性別,高血壓病史、既往ICH史、腦梗死史、糖尿病史、透析病史、吸煙史、服用阿司匹林史,丘腦出血、額葉出血、頂葉出血、多腦區(qū)出血,泌尿系感染、腦積水、血糖值、血紅蛋白值、血小板值共計(jì)18個(gè)自變量對(duì)ICH預(yù)后的影響無統(tǒng)計(jì)學(xué)意義,予以排除。
2.2 多因素logistic回歸分析 回歸模型檢驗(yàn)χ2=137.070,P<0.001,有統(tǒng)計(jì)學(xué)意義。逐步logistic回歸分析篩選影響ICH 預(yù)后的危險(xiǎn)因素,分析結(jié)果見表1。其中自變量血腫體積、首次GCS評(píng)分、基底節(jié)區(qū)出血、并發(fā)肺部感染是影響ICH患者預(yù)后的主要相關(guān)因素。Hosmer & Lemeshow檢驗(yàn)χ2=4.314,P=0.828,說明模型能夠較好地?cái)M合數(shù)據(jù)。
2.3 CART分析結(jié)果 在入選的10個(gè)自變量中,血腫體積和首次GCS評(píng)分對(duì)于判斷ICH不良預(yù)后具有重要作用,并對(duì)ICH患者預(yù)后結(jié)果進(jìn)行分層。首次GCS評(píng)分13~15分的患者中,ICH預(yù)后良好占74.5%,預(yù)后不良占24.5%。應(yīng)用血腫體積分層后,血腫體積≤13.0ml者預(yù)后良好占89.3%,而血腫體積>13.0ml者預(yù)后良好僅占60.8%。首次GCS評(píng)分3~12分的患者中,ICH預(yù)后不良占72.1%,預(yù)后良好占27.9%。應(yīng)用血腫體積分層后,血腫體積≤27.5ml者預(yù)后不良占52.4%,血腫體積>27.5ml者預(yù)后不良比例高達(dá)86.9%(圖1)。該模型估計(jì)風(fēng)險(xiǎn)為0.261,標(biāo)準(zhǔn)誤0.025。10個(gè)自變量對(duì)模型估計(jì)的重要程度見圖2。
2.4 Logistic回歸模型與CART模型對(duì)ICH患者預(yù)后的評(píng)價(jià)效能比較 CART 模型評(píng)價(jià)ICH患者預(yù)后良好的AUC為0.738(95%CI 0.685~0.786),logistic回歸模型評(píng)價(jià)ICH患者預(yù)后良好的AUC為0.748(95%CI 0.695~0.795),二者比較Z=0.402,P=0.688,說明二者的評(píng)價(jià)效能無明顯差異(圖3)。
表1 影響腦出血患者預(yù)后結(jié)果的多因素logistic回歸分析Tab. 1 Logistic regression analysis of prognostic factors in patients with cerebral hemorrhage
本文通過對(duì)單中心310例ICH患者預(yù)后的回顧性研究發(fā)現(xiàn),CART模型和logistic回歸模型在分析多種因素對(duì)疾病的影響方面具有相似的作用,這與其他臨床研究的結(jié)果相仿[8-9]。本研究發(fā)現(xiàn)ICH血腫體積和首次GCS評(píng)分同時(shí)納入兩個(gè)模型內(nèi),且均顯示出對(duì)ICH患者的預(yù)后具有顯著影響,與之前的研究結(jié)果近似[11-13]。其中,血腫體積是ICH預(yù)后不良的獨(dú)立風(fēng)險(xiǎn)因素[13-14]。通過CART模型可以量化觀察首次GCS評(píng)分和ICH體積對(duì)ICH患者預(yù)后的影響。本組首次GCS評(píng)分為3~12分的患者中,ICH體積>27.5ml的患者預(yù)后不良的比例要遠(yuǎn)高于血腫體積≤27.5ml的患者,而首次而GCS評(píng)分為13~15分的患者中,ICH體積≤13ml的患者往往能夠獲得較為滿意的療效。
圖1 腦出血患者預(yù)后結(jié)果的CART模型預(yù)測(cè)圖Fig. 1 Prognosis of patients with cerebral hemorrhage by CART model
本研究在CART模型中進(jìn)行亞群分類時(shí),限定病例數(shù)至少應(yīng)滿足50例。當(dāng)分類所包含的病例數(shù)<50例時(shí),相應(yīng)的危險(xiǎn)因素就不能作為病例繼續(xù)分類的依據(jù),從而不能出現(xiàn)在二叉分類圖中。納入logistic回歸模型的自變量中,肺部感染、基底節(jié)區(qū)出血和院前意識(shí)障礙并沒有顯示在CART的二叉樹圖中,這種差別并非意味著上述3個(gè)危險(xiǎn)因素對(duì)ICH患者預(yù)后的影響不大。在實(shí)際臨床工作中,肺部感染是ICH患者常見的并發(fā)癥,多因發(fā)病時(shí)誤吸和氣管插管機(jī)械通氣所致,是導(dǎo)致ICH患者死亡的原因之一[12],基底節(jié)區(qū)出血、院前意識(shí)障礙也是影響ICH患者預(yù)后的重要因素[15]。但是在本組病例中,通過比較兩個(gè)模型的分類預(yù)測(cè)能力,我們發(fā)現(xiàn)CART模型的AUC為0.738,與logistic模型的AUC相仿,表明首次GCS評(píng)分和血腫體積在CART模型中所占權(quán)重較大,并能很好地解釋ICH患者的預(yù)后。為防止CART模型對(duì)數(shù)據(jù)過度擬合,筆者認(rèn)為本研究不需要降低分組標(biāo)準(zhǔn)以納入更多風(fēng)險(xiǎn)因素。當(dāng)然為明確其他風(fēng)險(xiǎn)因素的重要性,可以在病例研究中通過適當(dāng)分層和擴(kuò)大樣本量加以進(jìn)一步分析。
本研究結(jié)果顯示,CART分析結(jié)果能更為直觀、形象地反映ICH亞群的特征。相比logistic回歸模型,CART模型不僅可篩選出有統(tǒng)計(jì)學(xué)意義的風(fēng)險(xiǎn)因素,還能直觀比較各種風(fēng)險(xiǎn)因素對(duì)ICH患者預(yù)后的影響強(qiáng)度。應(yīng)用風(fēng)險(xiǎn)因素對(duì)ICH患者分類,可快速找到對(duì)ICH影響最大的因素組合,方便指導(dǎo)臨床工作。本研究旨在為評(píng)估ICH患者預(yù)后提供一種新穎的輔助工具,相信通過進(jìn)一步充實(shí)患者的臨床信息及擴(kuò)大樣本量,應(yīng)用CART模型和logistic回歸模型能夠進(jìn)一步完善對(duì)ICH患者預(yù)后風(fēng)險(xiǎn)的評(píng)估,從而為ICH的治療提高更有價(jià)值的臨床指導(dǎo)方案。
圖3 CART模型和logistic回歸模型預(yù)測(cè)腦出血患者預(yù)后結(jié)果的ROC曲線Fig. 3 ROC curve of the prognosis of cerebral hemorrhage patients predicted by CART model and logistic regression model
[1]He J,Gu DF,Wu XG,et al. Major causes of death among men and women in China[J]. N Engl J Med,2005,353(11): 1124-1134.
[2]Jiang B,Wang WZ,Chen HL,et al. Incidence and trends of stroke and its subtypes in China - Results from three large cities[J]. Stroke,2006,37(1): 63-68.
[3]Liu M,Wu B,Wang WZ,et al. Stroke in China: epidemiology,prevention,and management strategies[J]. Lancet Neurol,2007,6(5): 456-464.
[4]Tsai CF,Thomas B,Sudlow CLM. Epidemiology of stroke and its subtypes in Chinesevswhite populations A systematic review[J]. Neurology,2013,81(3): 264-272.
[5]van Asch CJJ,Luitse MJA,Rinkel GE,et al. Incidence,case fatality,and functional outcome of intracerebral haemorrhage overtime,according to age,sex,and ethnic origin: a systematic review and meta-analysis[J]. Lancet Neurol,2010,9(2): 167-176.
[6]Wang GQ,Li SQ,Zhang WW,et al. Can minimal invasive puncture and drainage for hypertension spontaneous basal ganglia intracerebral hemorrhage improve patient outcome: A prospective non-randomized comparative study[J]. Med J Chin PLA,2014,39(7): 531-541. [王國(guó)強(qiáng),李世強(qiáng),張微微,等. 微創(chuàng)穿刺引流對(duì)高血壓自發(fā)基底神經(jīng)節(jié)區(qū)腦出血預(yù)后的影響——前瞻性非隨機(jī)對(duì)照研究[J]. 解放軍醫(yī)學(xué)雜志,2014,39(7): 531-541.]
[7]Wang DY,Xu X,Guo JW. Multivariate logistic regression analysis of risk factors of hematoma enlargement in patients of hypertensive intracerebral hemorrhage within 24hrs of onset: A retrospective study of 265 cases from a single center in China[J]. Med J Chin PLA,2015,40(2): 151-155. [王大永,徐翔,郭建文. 高血壓性腦出血患者發(fā)病24h內(nèi)血腫擴(kuò)大的危險(xiǎn)因素分析:一項(xiàng)單中心256例回顧性研究[J]. 解放軍醫(yī)學(xué)雜志,2015,40(2): 151-155.]
[8]Fonarow GC,Adams KF Jr,Abraham WT,et al. Risk stratification for in-hospital mortality in acutely decompensated heart failure - Classification and regression tree analysis[J]. JAMA,2005,293(5): 572-580.
[9]Garzotto M,Beer TM,Hudson RG,et al. Improved detection of prostate cancer using classification and regression tree analysis[J]. J Clin Oncol,2005,23(19): 4322-4329.
[10] Chinese Society of Neurology,Chinese Society of Neurosurgery. Main points of diagnosis of cerebral vascular diseases[J]. Chin J Neurol,1996,29(6): 379-380.[中華神經(jīng)科學(xué)會(huì),中華神經(jīng)外科學(xué)會(huì). 各類腦血管疾病診斷要點(diǎn)[J]. 中華神經(jīng)科雜志,1996,29(6): 379-380.]
[11] Davis SM,Broderick J,Hennerici M,et al. Hematoma growth is a determinant of mortality and poor outcome after intracerebral hemorrhage[J]. Neurology,2006,66(8): 1175-1181.
[12] Naidech AM,Bendok BR,Tamul P,et al. Medical Complications Drive Length of Stay After Brain Hemorrhage: A Cohort Study[J]. Neurocrit Care,2009,10(1): 11-19.
[13] Broderick JP,Brott TG,Duldner JE,et al. Volume of intracerebral hemorrhage. A powerful and easy-to-use predictor of 30-day mortality[J]. Stroke,1993,24(7): 987-993.
[14] Dowlatshahi D,Demchuk AM,Flaherty ML,et al. Defining hematoma expansion in intracerebral hemorrhage Relationship with patient outcomes[J]. Neurology,2011,76(14): 1238-1244.
[15] Mendelow AD,Gregson BA,Fernandes HM,et al. Early surgery versus initial conservative treatment in patients with spontaneous supratentorial intracerebral haematomas in the International Surgical Trial in Intracerebral Haemorrhage (STICH): a randomised trial[J]. Lancet,2005,365(9457): 387-397.
Risk stratification for prognosis in intracerebral hemorrhage: A decision tree model and logistic regression
WU Gang1,XU Guo-yu2,LIU Guang-tao1,ZHOU Qing1,LIU Ce1,CHANG Peng-fei11Department of Neurosurgery,2Department of Radiology,309 Hospital of PLA,Beijing 100091,China
This wok was supported by the Fund of 309 Hospital of PLA (2014MS-009)
ObjectiveTo analyze the risk factors for prognosis in intracerebral hemorrhage using decision tree (classification and regression tree,CART) model and logistic regression model.MethodsCART model and logistic regression model were established according to the risk factors for prognosis of patients with cerebral hemorrhage. The differences in the results were compared between the two methods.ResultsLogistic regression analyses showed that hematoma volume (OR-value 0.953),initial Glasgow Coma Scale (GCS) score (OR-value 1.210),pulmonary infection (OR-value 0.295),and basal ganglia hemorrhage (OR-value 0.336) were the risk factors for the prognosis of cerebral hemorrhage. The results of CART analysis showed that volume of hematoma and initial GCS score were the main factors affecting the prognosis of cerebral hemorrhage. The effects of two models on the prognosis of cerebral hemorrhage were similar (Z-value 0.402,P=0.688).ConclusionsCART model has a similar value to that of logistic model in judging the prognosis of cerebral hemorrhage,and it is characterized by using transactional analysis between the risk factors,and it is more intuitive.
cerebral hemorrhage; logistic models; decision trees; prognosis; risk factors
R743.34
A
0577-7402(2015)12-1003-04
10.11855/j.issn.0577-7402.2015.12.13
2015-06-31;
2015-10-28)
(責(zé)任編輯:胡全兵)
解放軍第309醫(yī)院院課題基金(2014MS-009)
伍剛,醫(yī)學(xué)博士。主要從事腦血管疾病的診斷和治療工作
100091 北京 解放軍第309醫(yī)院神經(jīng)外科(伍剛、劉廣韜、周青、劉策、常鵬飛),放射科(許國(guó)宇)