李 桃,蔣伏松,陳 霆,鄭西川*
(1.上海交通大學(xué)附屬第六人民醫(yī)院計(jì)算機(jī)中心,上海 200233;2.上海健康醫(yī)學(xué)院附屬第六人民醫(yī)院東院計(jì)算機(jī)中心,上海 201306;3.上海交通大學(xué)附屬第六人民醫(yī)院內(nèi)分泌代謝科,上海 200233)
2型糖尿?。╰ype 2 diabetes mellitus,T2DM)的一個(gè)嚴(yán)重危害就是導(dǎo)致心腦血管疾病,甚至致死致殘。動(dòng)脈粥樣硬化是心腦血管疾病發(fā)生的重要病理基礎(chǔ)[1],但其發(fā)病機(jī)制目前尚不明確[2]。研究顯示,血脂、血糖、年齡、性別、吸煙、家族史以及一些炎癥因子是動(dòng)脈粥樣硬化的重要影響因素[3],但缺乏精確且高效的綜合評(píng)判方法。由于研究結(jié)果的差異,關(guān)于這些因素中哪些最為關(guān)鍵也常常面臨著爭(zhēng)議[4-5]。在臨床中常利用頸動(dòng)脈斑塊評(píng)判動(dòng)脈粥樣硬化。中國(guó)人發(fā)生心腦血管疾病具有一些與西方人不同的特征,在糖尿病易患性方面也存在差異,所以需要進(jìn)一步了解我國(guó)T2DM患者發(fā)生頸動(dòng)脈斑塊的相關(guān)特點(diǎn)。
隨著我國(guó)醫(yī)療事業(yè)的發(fā)展,各個(gè)醫(yī)療機(jī)構(gòu)逐步積累了大量的臨床資料和檢驗(yàn)結(jié)果,但對(duì)這些數(shù)據(jù)的處理和應(yīng)用也提出更高的要求。大數(shù)據(jù)和機(jī)器學(xué)習(xí)等技術(shù)近年來快速發(fā)展,將其應(yīng)用到臨床實(shí)踐已取得很多有價(jià)值的成果[6-8],特別是在糖尿病的個(gè)體化診治中具有重要意義[8]。對(duì)T2DM患者頸動(dòng)脈斑塊發(fā)生發(fā)展的預(yù)測(cè)是提高防治效果的前提。因此,本研究擬通過數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)[9-10]對(duì)T2DM并發(fā)大血管病變的特征進(jìn)一步研究,初步建立T2DM并發(fā)頸動(dòng)脈斑塊風(fēng)險(xiǎn)的預(yù)測(cè)模型,為控制這類患者的心血管事件風(fēng)險(xiǎn)因素和精準(zhǔn)醫(yī)療提供依據(jù)。
研究數(shù)據(jù)來源于醫(yī)院信息系統(tǒng)(hospital information system,HIS)和臨床信息系統(tǒng)(clinical information system,CIS),涵蓋上海交通大學(xué)附屬第六人民醫(yī)院內(nèi)分泌代謝科8 499例T2DM住院患者(2006—2012年),包括患者的性別(Gender)、年齡(Age)、身高、體質(zhì)量、血壓等基本信息及病程、實(shí)驗(yàn)室檢查、頸動(dòng)脈超聲檢查、腹部超聲檢查等臨床參數(shù)。實(shí)驗(yàn)室檢查主要包括谷丙轉(zhuǎn)氨酶(ALT)、載脂蛋白A(ApoA)、載脂蛋白 A1(ApoA1)、載脂蛋白 B(ApoB)、載脂蛋白 E(ApoE)、天冬氨酸轉(zhuǎn)氨酶(AST)、120 min C 肽(C-peptide 120)、30 min C 肽(C-peptide 30)、直接膽紅素(DBIL)、糖尿病病程(Duration)、脂肪肝(FLD)、空腹血糖(FPG)、糖化白蛋白(GA)、糖化血紅蛋白(HbAlc)、高密度脂蛋白(HDL)、高血壓(Hyperten)、空腹胰島素(INS)、120 min胰島素(INS120)、30 min胰島素(INS30)、低密度脂蛋白(LDL)、120 min血糖(PG120)、30 min血糖(PG30)、總膽紅素(TBIL)、總膽固醇(TC)、甘油三酯(TG)。頸動(dòng)脈斑塊診斷標(biāo)準(zhǔn)為:超聲檢查顯示頸動(dòng)脈局限內(nèi)中膜厚度≥1.5 mm。使用其中27個(gè)常用的相關(guān)臨床參數(shù)(特征)作為數(shù)據(jù)集預(yù)測(cè)頸動(dòng)脈斑塊。為了方便預(yù)測(cè)模型的推廣使用,根據(jù)各參數(shù)在各級(jí)醫(yī)療機(jī)構(gòu)是否易于獲取以及重要性而逐步減少數(shù)據(jù)的維數(shù)。如果使用較多維度,則缺失的值增多,導(dǎo)致可納入分析的病例數(shù)減少;反之,隨著維度的減少,可納入分析的病例數(shù)量則增加。
在任何有效的預(yù)測(cè)方法實(shí)施之前,都需要解決原始數(shù)據(jù)存在的一些共性問題,即異構(gòu)性、不完全性、噪聲等。本文所采用的數(shù)據(jù)來源于幾個(gè)醫(yī)療系統(tǒng),主要是從HIS中收集基本信息,從CIS中獲取生化數(shù)據(jù),并從影像歸檔和通信系統(tǒng)(picture archiving and communication systems,PACS)中獲取彩色超聲診斷結(jié)果。因此,數(shù)據(jù)組成是多源異構(gòu)的,但都有一個(gè)對(duì)應(yīng)的共享列PatientId。數(shù)組和維度的詳細(xì)組成如圖1所示。
圖1 數(shù)據(jù)結(jié)構(gòu)示意圖
需要注意的是,有相當(dāng)多的意外值,例如“N/A”“?”“無(wú)”,這些可能是未知的、遺漏或錯(cuò)誤輸入的值,要根據(jù)一些算法做出刪除或替換。例如,在基本數(shù)據(jù)集中,790 407個(gè)值包含247 917個(gè)意外值。
由于上述原始數(shù)據(jù)的固有特性,本研究通過數(shù)據(jù)集成、數(shù)據(jù)精簡(jiǎn)、數(shù)據(jù)規(guī)范化的方法對(duì)數(shù)據(jù)進(jìn)行初步處理,數(shù)據(jù)流如圖2所示。原始數(shù)據(jù)充滿了原始值,其中一些不相關(guān)的屬性價(jià)值有限,如果不適當(dāng)排除,容易降低頸動(dòng)脈斑塊預(yù)測(cè)模型的分析效能。因此,在本研究中初步選擇缺失值相對(duì)較少的43個(gè)屬性,并通過不同數(shù)據(jù)源的患者身份將數(shù)據(jù)集成到一個(gè)統(tǒng)一的矩陣中,然后根據(jù)它們的質(zhì)量截?cái)嘁恍?shù)據(jù)元組和維度,并通過歸一化方法將數(shù)據(jù)轉(zhuǎn)換成正態(tài)分布。另外,對(duì)于某些噪聲,例如一些非常大、非常小或不相關(guān)的稀少值,不宜直接進(jìn)行任何分析。
2.2.1 數(shù)據(jù)集成
數(shù)據(jù)集成包括合并不同來源的數(shù)據(jù),并使用統(tǒng)一的用戶界面。每個(gè)患者都有一個(gè)獨(dú)特的身份,在原始數(shù)據(jù)中標(biāo)記為PatientId,利用PatientId整合所需的來自不同的數(shù)據(jù)集的信息。對(duì)于生化和訪問涌現(xiàn)數(shù)據(jù),由于它們具有不同的結(jié)構(gòu)組織,所以至少需要一個(gè)將行轉(zhuǎn)換為列的遞歸過程。例如,生化項(xiàng)目存儲(chǔ)在一列中(見表1),而本研究的分析模型需要將每個(gè)項(xiàng)目均作為一列(見表2),因此編制了一個(gè)枚舉程序幫助完成行列轉(zhuǎn)換。
圖2 數(shù)據(jù)處理的數(shù)據(jù)流
表1 生化數(shù)據(jù)的結(jié)構(gòu)
表2 橫表結(jié)構(gòu)(表1經(jīng)枚舉程序轉(zhuǎn)換)
在數(shù)據(jù)集成過程中,首先選擇了8 499個(gè)患者的43個(gè)特征作為初始矩陣(表示為m)。這些特征是根據(jù) Fabris等[3]、Hong 等[4]和 Rocha 等[5]的研究選擇的。有些特性的值是非結(jié)構(gòu)化的(如非酒精性脂肪肝的結(jié)果被存儲(chǔ)為文本格式),由不同的醫(yī)生記錄,并有不同的技術(shù)詞匯來描述診斷。為了解決這個(gè)問題,本文采用正則表達(dá)式的方法來推斷,并通過抽樣進(jìn)行人工檢查。
2.2.2 數(shù)據(jù)精簡(jiǎn)
在數(shù)據(jù)集成之后,仍然存在一些不規(guī)則的值和重疊的特征,需要做數(shù)據(jù)精簡(jiǎn)以提高效率和降低成本。數(shù)據(jù)精簡(jiǎn)是最小化需要處理的數(shù)據(jù)量的過程。
首先,采用特征選擇方法對(duì)特征進(jìn)行篩選,簡(jiǎn)化分類模型,減少方差和訓(xùn)練時(shí)間,使其更易于理解。一些維數(shù)災(zāi)難和過度擬合的問題也可以通過特征選擇技術(shù)來避免。本研究通過以下2個(gè)步驟進(jìn)行特征篩選:第一步,去掉一些異常離散值,這些值大于算術(shù)平均數(shù)一個(gè)閾值(例如30%)。而“無(wú)”值也適用于這一規(guī)則,因?yàn)樗鼈儾粌H對(duì)預(yù)測(cè)毫無(wú)貢獻(xiàn),還會(huì)降低模型的性能。通過這一步可以排除5個(gè)特征。第二步,使用樹型策略改善數(shù)據(jù)的純度,方法是計(jì)算特征重要性并根據(jù)特征的重要性排序選擇。
其次,盡管已經(jīng)刪除了一些不相關(guān)的或價(jià)值低的特征,但仍然有一些遺漏的特征值得關(guān)注,如尿糖、家族史等。這些特征值可以通過平均數(shù)或其他基于模型的技術(shù)來估計(jì)。但基于真實(shí)的、可驗(yàn)證性的考慮,本文最終保留可用且沒有缺失值的樣本。
最終,數(shù)據(jù)矩陣m減至2 690行×9個(gè)特征和1 743行×27個(gè)特征之間。
2.2.3 數(shù)據(jù)規(guī)范化
數(shù)據(jù)規(guī)范化是將數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式的關(guān)鍵步驟,為大數(shù)據(jù)處理奠定了基礎(chǔ)。由于臨床數(shù)據(jù)來源不同、性質(zhì)不同,不同的特征值以不同的格式記錄。其中,有些特征是正態(tài)分布的連續(xù)變量,有些是離散變量;有些特征值極差非常大,有些則集中在一個(gè)小范圍內(nèi),如血紅蛋白值在50~232g/L范圍內(nèi),載脂蛋白A1值在0.014~3.422mmol/L范圍內(nèi)。此外,這些特征還具有不同的度量單位、最大值和最小值。因此,本研究采用標(biāo)準(zhǔn)分?jǐn)?shù)[11]來標(biāo)準(zhǔn)化,這種方法是衡量比較不同類別間偏差最常用的方法之一[12]。給定一個(gè)特征的值x,其標(biāo)準(zhǔn)得分z=(x-μ)/δ,其中 μ 是平均值,δ是數(shù)據(jù)的標(biāo)準(zhǔn)偏差。z的絕對(duì)值表示以標(biāo)準(zhǔn)偏差為單位的x與μ之間的距離。當(dāng)x低于平均值時(shí)z為負(fù),否則為正。
預(yù)測(cè)過程是指采用各種統(tǒng)計(jì)技術(shù),包括預(yù)測(cè)建模、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘,分析當(dāng)前和歷史事實(shí)以預(yù)測(cè)未來或未知事件。本研究應(yīng)用臨床數(shù)據(jù)訓(xùn)練一個(gè)模型來預(yù)測(cè)頸動(dòng)脈斑塊。本研究所采用的集成學(xué)習(xí)算法是隨機(jī)森林[13],訓(xùn)練時(shí)構(gòu)造大量的決策樹[14-15],輸出的是類(分類)或每個(gè)樹的平均預(yù)測(cè)(回歸)模式的類[13]。采用這種算法的優(yōu)點(diǎn)是易于實(shí)現(xiàn),能夠在不需要先驗(yàn)知識(shí)或輸入準(zhǔn)備的情況下快速學(xué)習(xí)。
隨機(jī)森林的訓(xùn)練過程將自舉匯聚法(或bagging)的一般技術(shù)應(yīng)用于樹學(xué)習(xí)者。假設(shè)訓(xùn)練集為X{x1,x2,…,xn,y},它反復(fù)選擇一個(gè)替換了訓(xùn)練集的隨機(jī)樣本,并對(duì)這些樣本進(jìn)行樹擬合,其中K是重復(fù)數(shù)。這個(gè)過程的偽代碼如下:
訓(xùn)練后,可以對(duì)所有單獨(dú)回歸樹的預(yù)測(cè)進(jìn)行平均,從而對(duì)未知樣本x'進(jìn)行預(yù)測(cè),表示為(x′),其中fk表示決策樹模型,x′表示測(cè)試值,y?表示預(yù)測(cè)結(jié)果。
使用上面討論的方法對(duì)真實(shí)的臨床數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
經(jīng)過數(shù)據(jù)分析和處理,成功地省略了一些非結(jié)構(gòu)化數(shù)據(jù),并使數(shù)據(jù)矩陣m與它們的標(biāo)簽相關(guān)。對(duì)于這些密切相關(guān)的特性,通過隨機(jī)森林算法對(duì)其重要性進(jìn)行排序,其中年齡、低密度脂蛋白、空腹胰島素一直是重要的貢獻(xiàn)因素(如圖3所示)。
圖3 不同特征數(shù)的重要性
此外,基于醫(yī)生的經(jīng)驗(yàn)知識(shí),進(jìn)一步壓縮特征集,目的是在保持預(yù)測(cè)精度的同時(shí)使用較少的特征(便于臨床實(shí)踐推廣)。圖3描述了收縮集的特征及其重要性,以及降維過程。由圖3可以看出,低密度脂蛋白、年齡、空腹胰島素是預(yù)測(cè)T2DM患者是否合并頸動(dòng)脈斑塊的重要特征。這一結(jié)果基本上與大多數(shù)醫(yī)生的經(jīng)驗(yàn)知識(shí)和前期研究一致[2,5-6]。
隨機(jī)選取一部分(約60%)的數(shù)據(jù)(DataNum)來訓(xùn)練分類器,剩余部分(TestNum)預(yù)測(cè)其類別。表3顯示了不同特征數(shù)的結(jié)果。從表3可以看出,預(yù)測(cè)精度保持在75%以上。在最小集(9個(gè)特征)中,頸動(dòng)脈斑塊的預(yù)測(cè)精度為80.0%,說明9個(gè)特征數(shù)模型可以利用較少的檢查項(xiàng)目而保持較高的預(yù)測(cè)精度。而使用相同的DataNum,二元Logistics回歸模型的預(yù)測(cè)精度為68.2%~69.1%。
大數(shù)據(jù)技術(shù)具有廣泛的應(yīng)用價(jià)值,已經(jīng)有很多研究者將大數(shù)據(jù)方法用于臨床醫(yī)學(xué)的研究中[9-10,16]。本研究根據(jù)已知的一些影響動(dòng)脈粥樣硬化的因素,使用數(shù)據(jù)挖掘技術(shù)分析了住院T2DM患者的真實(shí)臨床資料,發(fā)現(xiàn)在不同維度的6個(gè)模型中,低密度脂蛋白、年齡、胰島素、甘油三酯、總膽固醇、高密度脂蛋白、空腹血糖、糖化血紅蛋白、糖尿病病程這9個(gè)變量均有較高權(quán)重。其中低密度脂蛋白、年齡、空腹胰島素一直占有更高的權(quán)重,這提示在臨床中應(yīng)對(duì)其給予更多的關(guān)注。為了提高模型的可用程度便于推廣,一些權(quán)重相對(duì)低的影響因素在降維(減少特征數(shù)量)的過程中被剔除,如性別、高血壓。這可能會(huì)引起爭(zhēng)議,但頸動(dòng)脈斑塊預(yù)測(cè)模型中性別和高血壓確實(shí)不是強(qiáng)的預(yù)測(cè)因素。根據(jù)研究結(jié)果,在包含9個(gè)維度的變量的模型中如果預(yù)測(cè)結(jié)果是陽(yáng)性,即使血壓正常,仍強(qiáng)烈建議做頸動(dòng)脈超聲來明確該患者是否有頸動(dòng)脈斑塊。
表3 選擇不同特征數(shù)的預(yù)測(cè)結(jié)果%
在起初的模型設(shè)計(jì)中,未將吸煙、心血管疾病家族史等重要因素納入。因?yàn)檫@些因素的采集和考量均比較困難,比如煙齡、煙的品種、吸煙量、戒煙以及戒煙的次數(shù)等,而且容易發(fā)生回憶偏倚。為了方便模型推廣,本文還根據(jù)數(shù)據(jù)是否容易獲取而在降維的過程中去除一些變量,比如腹部的超聲、餐后30 min或餐后120 min的血糖和胰島素等。值得欣慰的是,本模型最終獲得了80.0%的預(yù)測(cè)精度。一般來說,大數(shù)據(jù)分析的過程中,納入相關(guān)的特征越多越有利于預(yù)測(cè)[9]。本研究中,降維后預(yù)測(cè)的精度反而略微升高。這是由于數(shù)據(jù)庫(kù)有一定的缺失值,降維后納入的樣本量有了一定的提升,彌補(bǔ)了不足。另一方面也說明本文采取的這種降維方法是可取的。
與二元Logistics回歸預(yù)測(cè)模型相比,本研究采用模型的預(yù)測(cè)精度有了明顯的提升。在二元Logistics回歸模型中使用和本研究模型同樣的樣本和特征,但預(yù)測(cè)準(zhǔn)確度均不到70%。但在本模型中,不能反映某個(gè)特征的數(shù)值增高是頸動(dòng)脈斑塊的風(fēng)險(xiǎn)因素還是保護(hù)因素,這方面仍有賴于傳統(tǒng)的統(tǒng)計(jì)方法。隨著時(shí)間和數(shù)據(jù)的積累,以及醫(yī)學(xué)大數(shù)據(jù)采集效率的提升,本模型的數(shù)據(jù)量還會(huì)大大增加,從而進(jìn)一步完善模型的質(zhì)量。當(dāng)然,對(duì)T2DM患者是否有頸動(dòng)脈斑塊的預(yù)測(cè)與直接預(yù)測(cè)發(fā)生心腦血管事件以及相關(guān)死亡率并不是同一研究課題,這方面的關(guān)聯(lián)有待于進(jìn)一步研究驗(yàn)證。
通過本研究的分析發(fā)現(xiàn),根據(jù)一些常見的臨床指標(biāo),使用大數(shù)據(jù)方法可以較好地預(yù)測(cè)T2DM患者是否罹患頸動(dòng)脈斑塊。采集低密度脂蛋白、年齡、空腹胰島素、甘油三酯、總膽固醇、高密度脂蛋白、空腹血糖、糖化血紅蛋白、糖尿病病程等數(shù)據(jù)相對(duì)經(jīng)濟(jì),屬于管理糖尿病患者的必須隨訪的項(xiàng)目,在基層的醫(yī)療機(jī)構(gòu)也可方便地獲取。另外,根據(jù)本文的模型,提示臨床工作中需加強(qiáng)對(duì)T2DM患者低密度脂蛋白水平、胰島素水平和年齡的關(guān)注,做好T2DM患者頸動(dòng)脈斑塊的早發(fā)現(xiàn)和早預(yù)防。