娜迪熱·艾孜熱提艾力,封紅亮,張帥美,王美瑤,劉煜敏
腦白質(zhì)疏松癥(leukoaraiosis,LA)是雙側(cè)側(cè)腦室周圍和(或)半卵圓中心區(qū)腦白質(zhì)異常的影像學(xué)概念[1],屬于腦小血管病的一種。LA在腦磁共振成像(magnetic resonance imaging,MRI)掃描時(shí)T1加權(quán)像上呈等信號(hào)或低信號(hào)影,T2加權(quán)像(T2-weighted imaging,T2WI)和液體衰減反轉(zhuǎn)恢復(fù)序列(fluid attenuated inversion recovery,F(xiàn)LAIR)上均為高信號(hào)影[2]。需指出的是,LA有廣義和狹義之分,廣義LA指血管源性、中毒、感染、脫髓鞘、腦積水、腫瘤和免疫等多種病因引起的腦白質(zhì)影像學(xué)改變;狹義LA專指血管源性LA(vasogenic leukoaraiosis,VLA)。本研究排除非血管因素所致LA患者,分析VLA相關(guān)因素。目前國(guó)內(nèi)外研究報(bào)道年齡和高血壓為VLA獨(dú)立的危險(xiǎn)因素[3],也有報(bào)道提出腦動(dòng)脈粥樣硬化、既往腦梗死或腦出血病史、糖尿病、吸煙、尿酸水平等多種因素與VLA相關(guān)[4-6],但仍存在多種爭(zhēng)議[7]。既往大部分有關(guān)VLA相關(guān)因素的研究中使用單因素和多因素Logistic回歸分析方法,有些研究中存在統(tǒng)計(jì)學(xué)分析不嚴(yán)謹(jǐn)或樣本量較少等問(wèn)題,因此,本研究嘗試使用數(shù)據(jù)挖掘技術(shù)分析1197例住院患者臨床數(shù)據(jù),探討VLA相關(guān)因素。
1.1 研究對(duì)象 回顧性地收集2015年4月-2017年2月武漢大學(xué)中南醫(yī)院神經(jīng)內(nèi)科滿足條件的住院患者。納入標(biāo)準(zhǔn):①年齡>40歲;②已通過(guò)1.5T或3T超導(dǎo)磁共振掃描獲得T2WI-FLAIR圖像。排除標(biāo)準(zhǔn):①磁共振T2WI-FLAIR圖像質(zhì)量影響Fazekas評(píng)分的評(píng)估;②診斷為特異性的中樞神經(jīng)系統(tǒng)脫髓鞘疾病或中樞神經(jīng)系統(tǒng)感染性疾病;③MRI發(fā)現(xiàn)顱內(nèi)腫瘤,顱內(nèi)血腫等占位性病變;④患有急性或者陳舊性大面積腦梗死(>1/3大腦中動(dòng)脈供血區(qū)),或者存在直徑>2 cm的新發(fā)或陳舊側(cè)腦室旁梗死灶;⑤存在其他可能影響Fazekas評(píng)分的疾病,如嚴(yán)重腦外傷、腦結(jié)構(gòu)變異和各種原因?qū)е碌哪X積水等;⑥住院資料中擬研究因素相關(guān)數(shù)據(jù)缺失較多等患者。
1.2 臨床數(shù)據(jù)收集 收集的擬相關(guān)因素?cái)?shù)據(jù)包括性別、年齡、顱內(nèi)動(dòng)脈狹窄[計(jì)算機(jī)斷層掃描血管成像(computed tomography angiography,CTA)或磁共振血管造影(magnetic resonance angiography,MRA)檢查發(fā)現(xiàn)任一顱內(nèi)動(dòng)脈狹窄超過(guò)50%]、頸內(nèi)動(dòng)脈狹窄程度、高血壓病史、2型糖尿病史、冠狀動(dòng)脈粥樣硬化性心臟病史、吸煙史。檢驗(yàn)科指標(biāo):白細(xì)胞計(jì)數(shù)、紅細(xì)胞計(jì)數(shù)、血紅蛋白濃度、血小板計(jì)數(shù)、紅細(xì)胞壓積、平均紅細(xì)胞體積、紅細(xì)胞分布寬度、平均紅細(xì)胞血紅蛋白濃度、平均紅細(xì)胞血紅蛋白含量、尿素氮、肌酐、尿酸、空腹血糖、甘油三酯、總膽固醇、高密度脂蛋白和低密度脂蛋白。為了避免涉及患者隱私,在錄用數(shù)據(jù)時(shí)為每位患者進(jìn)行單獨(dú)編碼,隱去姓名、住院號(hào)等可能暴露患者身份信息的數(shù)據(jù)。
Fazekas評(píng)分:根據(jù)T2WI-FLAIR圖像顯示的腦白質(zhì)損害程度和部位不同可進(jìn)行Fazeks評(píng)分[8]。評(píng)分規(guī)則為側(cè)腦室旁高信號(hào):0分:無(wú)病灶;1分:病灶呈帽狀或鉛筆樣薄層;2分:呈光滑的暈圈病灶;3分:不規(guī)則的腦室旁高信號(hào),延伸到深部白質(zhì)。深部白質(zhì)高信號(hào):0分:無(wú)病灶;1分:點(diǎn)狀病灶;2分:病灶開(kāi)始融合;3分:病灶大片融合[9]。對(duì)側(cè)腦室旁和深部白質(zhì)評(píng)分進(jìn)行相加獲得最終Fazekas評(píng)分(0~6分)。此項(xiàng)評(píng)分作為數(shù)據(jù)分析時(shí)目標(biāo)特征,即為患者分類依據(jù)。Fazekas評(píng)分0分為非LA患者,評(píng)分1~6為L(zhǎng)A患者。上述住院資料收集和Fazekas評(píng)分均由兩名神經(jīng)內(nèi)科醫(yī)師獨(dú)立完成,數(shù)據(jù)不一致時(shí)通過(guò)協(xié)商或第三方再次審閱患者資料后確定。
1.3 數(shù)據(jù)挖掘方法分析步驟 數(shù)據(jù)挖掘是通過(guò)機(jī)器學(xué)習(xí)的算法搜索與發(fā)現(xiàn)隱藏于大量數(shù)據(jù)中的信息與知識(shí)的過(guò)程。隨著醫(yī)院電子病歷系統(tǒng)的完善,臨床醫(yī)療數(shù)據(jù)每天都以指數(shù)級(jí)別增長(zhǎng),而數(shù)據(jù)挖掘的優(yōu)點(diǎn)正是快速有效地處理和分析大規(guī)模數(shù)據(jù)。因此本研究中嘗試?yán)脭?shù)據(jù)挖掘方法分析臨床數(shù)據(jù),以此探討VLA相關(guān)因素。數(shù)據(jù)挖掘方法由三大步驟組成,分別為數(shù)據(jù)預(yù)處理、相關(guān)因素分析和預(yù)測(cè)模型的訓(xùn)練及其評(píng)價(jià)(圖1)[10]。本文將通過(guò)這3個(gè)步驟講述分析數(shù)據(jù)過(guò)程。
圖1 數(shù)據(jù)挖掘的步驟圖
1.3.1 數(shù)據(jù)預(yù)處理 首先從中南醫(yī)院電子病歷系統(tǒng)中收集研究對(duì)象臨床數(shù)據(jù)。臨床資料中存在大量非數(shù)值型數(shù)據(jù),如既往史記錄、影像學(xué)表現(xiàn)等。通過(guò)編碼規(guī)則將文本資料轉(zhuǎn)化為能進(jìn)行分析利用的數(shù)據(jù)。本研究中,對(duì)于二分類變量(<60歲、男性、高血壓病史等)進(jìn)行0或1編碼。對(duì)于檢驗(yàn)科計(jì)量資料數(shù)據(jù),根據(jù)非LA患者每項(xiàng)數(shù)據(jù)四分位數(shù)進(jìn)行變量編碼。編碼后產(chǎn)生的數(shù)據(jù)集作為研究數(shù)據(jù)集。
由于電子病歷系統(tǒng)中既往史等部分由人工錄入,可能存在漏寫(xiě)等情況,因此收集臨床數(shù)據(jù)時(shí)發(fā)現(xiàn)部分項(xiàng)目沒(méi)有明確記錄,即出現(xiàn)缺失值。本研究中顱內(nèi)動(dòng)脈狹窄、頸內(nèi)動(dòng)脈狹窄程度和吸煙史等因素都有缺失值,需進(jìn)行缺失值處理。顱內(nèi)動(dòng)脈狹窄的缺失值占12.87%,建立自變量間簡(jiǎn)單相關(guān)系數(shù)矩陣所得顱內(nèi)動(dòng)脈狹窄跟年齡、高血壓病史、2型糖尿病史、高密度脂蛋白膽固醇(high-density lipoprotein cholesterol,HDL-C)水平、白細(xì)胞計(jì)數(shù)等5種特征相關(guān)性最大。因此以上述5種變量為變量特征,利用已知1000余例患者數(shù)據(jù),建立顱內(nèi)動(dòng)脈狹窄預(yù)測(cè)模型,以此獲得相關(guān)缺失數(shù)據(jù)的替代值。頸內(nèi)動(dòng)脈狹窄程度特征的缺失值占29.57%,吸煙史特征的缺失值占78.95%,由于缺失值過(guò)多,無(wú)法準(zhǔn)確預(yù)測(cè)出缺失值,因此刪除這兩項(xiàng)因素?cái)?shù)據(jù)。
1.3.2 相關(guān)因素分析方法 特征是指納入研究的VLA潛在相關(guān)因素,比如性別、年齡、是否有高血壓等為患者3種不同特征。特征構(gòu)建是指上述數(shù)據(jù)收集后對(duì)各項(xiàng)特征數(shù)據(jù)進(jìn)行編碼處理,刪除存在大量缺失值的特征以及通過(guò)編碼建立新的特征的過(guò)程(如血紅蛋白濃度符合條件者為貧血,編碼為1;不符合條件為非貧血,編碼為0;條件為:男性血紅蛋白濃度<120 g/L,女性血紅蛋白濃度<110 g/L,以此構(gòu)建出貧血特征)。最后的研究數(shù)據(jù)集中每例患者有24個(gè)特征,目標(biāo)特征為MRI上是否發(fā)現(xiàn)LA,即Fazekas評(píng)分是否≥1。
利用數(shù)據(jù)挖掘技術(shù)從上述24種特征中選出與VLA相關(guān)性最大的因素,此過(guò)程稱之為特征選擇。過(guò)濾方法是最常用的特征選擇方法,該方法通過(guò)對(duì)每一個(gè)特征進(jìn)行評(píng)分,根據(jù)分?jǐn)?shù)的高低將特征排序,然后選擇指定數(shù)目的特征[11]。本研究中利用Pearson相關(guān)性分析和卡方檢驗(yàn)(Chi2)方法對(duì)每一個(gè)特征進(jìn)行評(píng)分,根據(jù)分?jǐn)?shù)的高低對(duì)特征進(jìn)行排序(表1)。Pearson相關(guān)性系數(shù)是衡量特征與目標(biāo)因素之間的線性關(guān)系的指標(biāo),值越大表明相關(guān)性越強(qiáng)??ǚ綑z驗(yàn)最基本的思想是通過(guò)觀察實(shí)際值與理論值的偏差來(lái)確定理論的正確與否,卡方值越大表明特征與目標(biāo)因素之間的相關(guān)性較強(qiáng)。為了確定上述二者中以哪個(gè)評(píng)分結(jié)果為最終排序,分別以兩種特征排序結(jié)果為基礎(chǔ)建立了數(shù)據(jù)挖掘模型,根據(jù)性能最佳的模型來(lái)確定最終特征排序和被選出的特征數(shù)目。
表1 特征選擇表
1.3.3 預(yù)測(cè)模型的訓(xùn)練及其評(píng)價(jià)標(biāo)準(zhǔn) 目前有多種數(shù)據(jù)挖掘模型,其中常用于臨床數(shù)據(jù)分析的有決策樹(shù)模型(decision tree model,DT)、邏輯回歸模型(logistic regression model,LR)、支持向量機(jī)模型(support vector machine model,SVM)和人工神經(jīng)網(wǎng)絡(luò)模型(artificial neural network model,ANN)。其中DT利用樹(shù)形結(jié)構(gòu)在數(shù)據(jù)集中自動(dòng)構(gòu)建分類規(guī)則,該模型的最大優(yōu)點(diǎn)是直觀,便于理解與解釋。LR在線性回歸模型的基礎(chǔ)上用邏輯函數(shù)f(x)=1/(1+e-x)將數(shù)據(jù)進(jìn)行分類。
圖2 Pearson相關(guān)性方法的性能圖
圖3 Chi2特征選擇方法的性能圖
表2 各個(gè)模型在最佳特征下的性能比較
SVM首先利用核函數(shù)將數(shù)據(jù)轉(zhuǎn)化為高維數(shù)據(jù)集,然后在高維數(shù)據(jù)集上尋找分開(kāi)數(shù)據(jù)集的完美分割線。人工神經(jīng)網(wǎng)絡(luò)模型模仿人腦的結(jié)構(gòu),構(gòu)建多層網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)多層網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)線性模型難以表達(dá)的非線性關(guān)系。
本研究同時(shí)建立了上述4種數(shù)據(jù)挖掘模型,利用敏感度、特異度、準(zhǔn)確率及受試者工作特征曲線下面積(area under the curve,AUC)(橫坐標(biāo)為false positive rate,縱坐標(biāo)為true positive rate的曲線)值等評(píng)價(jià)模型性能。一般情況下AUC面積值大于0.5小于1。AUC值越大表示模型的預(yù)測(cè)性能越好。
2.1 特征排序方法比較 為比較兩種評(píng)分方法(Pearson相關(guān)性分析和卡方檢驗(yàn))所得出的特征排序準(zhǔn)確性,用數(shù)據(jù)挖掘算法分別在兩種特征排序基礎(chǔ)上構(gòu)建出模型,模型的性能比較圖見(jiàn)圖2和3。根據(jù)AUC值評(píng)價(jià)模型的性能,卡方檢驗(yàn)排序的特征基礎(chǔ)上建立的4種模型性能更佳,因此預(yù)測(cè)模型性能比較,特征選擇等步驟將在卡方檢驗(yàn)方法排序基礎(chǔ)上進(jìn)行。
2.2 預(yù)測(cè)模型性能比較 4個(gè)模型在最佳的特征集上的性能見(jiàn)表2,表中顯示每一個(gè)模型在最佳特征下性能的95%可信區(qū)間。敏感度最高的是神經(jīng)網(wǎng)絡(luò)模型,特異度最高的是SVM模型,準(zhǔn)確率最高的是LR模型。用AUC值綜合評(píng)價(jià)時(shí)性能最佳模型為L(zhǎng)R模型。
2.3 相關(guān)因素分析(特征選擇)LR模型最高AUC值對(duì)應(yīng)的特征數(shù)量為9,因此我們選取了卡方檢驗(yàn)排序法前9項(xiàng)特征(表1)為本研究特征選擇結(jié)果,即VLA相關(guān)因素。根據(jù)LR模型中此9項(xiàng)特征對(duì)應(yīng)的回歸系數(shù)β的大小,9項(xiàng)特征中跟VLA正相關(guān)的有:年齡(β=1.59),高血壓病史(β=1.06),顱內(nèi)動(dòng)脈狹窄(β=0.33),貧血(β=0.27),2型糖尿?。é?0.24),肌酐(β=0.14),紅細(xì)胞分布寬度(β=0.10);而跟VLA負(fù)相關(guān)的有:紅細(xì)胞計(jì)數(shù)(β=-0.07),血紅蛋白濃度(β=-0.03)。
2.4 決策樹(shù)可視化結(jié)果 利用決策樹(shù)模型預(yù)測(cè)性能最佳時(shí)(AUC=0.788±0.017)對(duì)應(yīng)的4個(gè)特征,得到該決策樹(shù)的可視化結(jié)果見(jiàn)圖4。圖中E表示決策路徑對(duì)應(yīng)的錯(cuò)誤率。這種結(jié)果圖更為直觀地揭示幾種不同的VLA相關(guān)因素共存的情況,也比較符合臨床上老年患者多種危險(xiǎn)因素共存的現(xiàn)狀。
已有多項(xiàng)研究表明年齡和高血壓為VLA的獨(dú)立危險(xiǎn)因素[12-13],本研究得出的特征中,年齡和高血壓均與VLA呈正相關(guān),根據(jù)特征排序結(jié)果認(rèn)為與VLA相關(guān)性最大的因素為年齡,其次為高血壓病史,此結(jié)果與既往研究結(jié)果一致。VLA是腦小血管病的一種,但Seung-Jae Lee等[14]發(fā)現(xiàn),LA在大動(dòng)脈粥樣硬化性卒中患者中很常見(jiàn)。本研究中顱內(nèi)動(dòng)脈狹窄與VLA呈正相關(guān),這可能是因?yàn)槎哂泄餐kU(xiǎn)因素。Pierleone Lucatelli等[15]認(rèn)為糖尿病與LA呈正相關(guān),但也有一項(xiàng)Meta分析認(rèn)為二者無(wú)關(guān)[16],糖尿病是否與VLA相關(guān)仍需進(jìn)一步研究。因?yàn)槟I臟和大腦特殊的微脈管系統(tǒng),兩個(gè)系統(tǒng)均易受血管因素?fù)p害[17],因此肌酐值作為腎功能損害的指標(biāo),或許與VLA有一定相關(guān)性,本研究也發(fā)現(xiàn)肌酐與VLA呈正相關(guān)。
特征選擇發(fā)現(xiàn)的其余4個(gè)相關(guān)因素均為紅細(xì)胞數(shù)量和功能方面檢驗(yàn)指標(biāo)。貧血是結(jié)合性別和血紅蛋白濃度進(jìn)行編碼的特征,而國(guó)內(nèi)外很少有研究報(bào)道貧血與VLA關(guān)系,Marco Inzitari等[18]發(fā)現(xiàn)合并有貧血的高血壓患者患LA風(fēng)險(xiǎn)增高,而無(wú)高血壓的群體中,貧血與腦白質(zhì)病變無(wú)關(guān)。本次研究通過(guò)特征選擇發(fā)現(xiàn)貧血與VLA呈正相關(guān),且相關(guān)程度僅次于年齡、高血壓、顱內(nèi)動(dòng)脈狹窄等特征,或許這結(jié)果為后期研究提供一個(gè)新的潛在相關(guān)因素。有關(guān)紅細(xì)胞分布寬度與VLA關(guān)系的研究不多,有研究報(bào)道,紅細(xì)胞分布寬度可能為急性腦梗死合并VLA的獨(dú)立危險(xiǎn)因子且與LA的嚴(yán)重程度呈正相關(guān),對(duì)LA具有一定的預(yù)測(cè)價(jià)值[19],本研究表明紅細(xì)胞分布寬度可能是VLA的相關(guān)因素。
圖4 決策樹(shù)的可視化圖
本次研究利用數(shù)據(jù)挖掘技術(shù)分析臨床數(shù)據(jù),探討了VLA相關(guān)因素,并通過(guò)特征選擇方法選出9種與VLA有關(guān)的因素。其中年齡、高血壓等是已被公認(rèn)的危險(xiǎn)因素,且在決策樹(shù)可視化圖中可見(jiàn)這兩項(xiàng)因素在預(yù)測(cè)VLA發(fā)病時(shí)權(quán)重很大,也比較符合臨床上老年高血壓患者LA發(fā)病率很高的現(xiàn)實(shí)。除此之外,本次研究也發(fā)現(xiàn)貧血、紅細(xì)胞分布寬度、肌酐值等仍沒(méi)被廣泛研究的因素也跟VLA發(fā)病相關(guān),對(duì)后期進(jìn)一步研究有一定的指向性作用。本次研究另一特點(diǎn)是探討數(shù)據(jù)挖掘方法在臨床數(shù)據(jù)分析應(yīng)用方面的可行性。本次研究不足之處為患者例數(shù)僅為1000余例,研究納入的潛在相關(guān)因素也只有24種,仍然不能很好地體現(xiàn)數(shù)據(jù)挖掘技術(shù)的優(yōu)越性。醫(yī)院信息系統(tǒng)功能的完善和臨床專業(yè)數(shù)據(jù)庫(kù)的建立為這種嶄新的數(shù)據(jù)分析方法提供更為廣泛的數(shù)據(jù)來(lái)源,這也一定程度上呼吁臨床工作者了解和探討數(shù)據(jù)挖掘技術(shù)在臨床科研中的應(yīng)用,以此獲得更多有意義的、可指導(dǎo)臨床工作的研究成果。