孫敏嫻 張紅梅 毛紅 易蘭 周婕
糖尿病是目前最常見(jiàn)的慢性非傳染性疾病之一,我國(guó)糖尿病患者數(shù)量居世界首位,其患病率從1980年的0.67%上升至2017年的11.2%[1-2]。糖尿病患者臨床特征多樣,精準(zhǔn)醫(yī)療的需求顯得越來(lái)越重要[3]。機(jī)器學(xué)習(xí)可通過(guò)自動(dòng)學(xué)習(xí)大量輸入的數(shù)據(jù)樣本內(nèi)在結(jié)構(gòu)和規(guī)則,對(duì)新樣本進(jìn)行智能辨識(shí),甚至實(shí)現(xiàn)對(duì)未來(lái)的預(yù)測(cè),符合精準(zhǔn)醫(yī)療的需求,在醫(yī)學(xué)領(lǐng)域已得到越來(lái)越廣泛的應(yīng)用。我們收集了1 487例新診斷2型糖尿病(T2DM)患者的人體成分、生化指標(biāo)等數(shù)據(jù),應(yīng)用機(jī)器學(xué)習(xí)建模方法對(duì)T2DM不同代謝表型進(jìn)行分類(lèi)預(yù)測(cè),旨在為T(mén)2DM精準(zhǔn)醫(yī)療提供依據(jù)。
1.對(duì)象:收集2017年8月~2019年1月于我科住院的1 487例新診斷T2DM患者的臨床資料。納入標(biāo)準(zhǔn):(1)T2DM符合WHO 1999糖尿病診斷標(biāo)準(zhǔn);(2)年齡≥20歲。排除標(biāo)準(zhǔn):1型糖尿病、妊娠期糖尿病及其他類(lèi)型糖尿??;合并感染、急性糖尿病并發(fā)癥、急性心腦血管疾病、急性消化系統(tǒng)疾病、嚴(yán)重肝腎功能不全、自身免疫系統(tǒng)疾病、腫瘤性疾病、甲狀腺功能異常?;颊呔栽竻⑴c本研究并簽署知情同意書(shū)。
2.方法
(1)一般資料收集和體格檢查:收集患者的性別、年齡、煙酒嗜好、基礎(chǔ)疾病病史、目前用藥情況。測(cè)定患者的身高、腰圍、臀圍、血壓、心率。腰圍測(cè)量方法:腋中線髂前上棘與十二肋骨下緣連線的中點(diǎn),沿水平方向圍繞腹部一周。臀圍測(cè)量方法:沿股骨大轉(zhuǎn)子水平測(cè)量臀部最大周徑。
(2)人體成分分析:使用清華同方人體成分分析儀BCA-1B獲取人體成分?jǐn)?shù)據(jù)。要求所有受試者測(cè)試前6 h內(nèi)禁止劇烈活動(dòng),測(cè)試當(dāng)天空腹、排空大小便、脫去鞋襪、著薄衣,雙腳平行站于足形電極上,雙手握住手柄電極(拇指在上,其余四指在下),雙臂伸直外展30°。測(cè)量過(guò)程中保持安靜,不做身體移動(dòng)。分析指標(biāo)包括體重、BMI、腰臀比、體脂率、總水分、脂肪、骨質(zhì)、蛋白質(zhì)、肌肉、瘦體重、骨骼肌、基礎(chǔ)代謝率。
(3)生化指標(biāo)檢測(cè):患者空腹8~10 h后于次日清晨采集靜脈血,檢測(cè)糖化血紅蛋白(HbA1c)、ALT、白蛋白(Alb)、空腹血糖(FPG)、血尿素氮(BUN)、血肌酐(SCr)、尿酸(UA)、甘油三酯(TG)、總膽固醇(TC)、低密度脂蛋白膽固醇(LDL-C)和Hb。
1.T2DM患者的一般資料、人體成分與生化指標(biāo)情況:首先對(duì)1 487例數(shù)據(jù)進(jìn)行初步篩選,剔除部分有記錄缺失或不完整樣本,獲得合格樣本1 146例。除性別為分類(lèi)變量外,其余均為數(shù)值變量,經(jīng)Box-Cox轉(zhuǎn)換后均符合正態(tài)分布。1 146例合格樣本的一般資料、人體成分與生化指標(biāo)情況見(jiàn)表1。
表1 1 146例T2DM患者一般資料、人體成分與生化指標(biāo)情況
2.T2DM患者臨床代謝亞型的聚類(lèi)分析:相關(guān)指標(biāo)的聚類(lèi)分析結(jié)果見(jiàn)圖1,臨床代謝亞型的最佳分類(lèi)為3個(gè)。將3個(gè)臨床代謝亞型與原始指標(biāo)結(jié)合,利用隨機(jī)森林篩選臨床數(shù)據(jù)的特征指標(biāo)見(jiàn)表2。平均準(zhǔn)確度下降主要從精確度來(lái)衡量變量重要性,平均基尼指數(shù)下降主要從基尼指數(shù)來(lái)衡量變量重要性。由此篩選出10個(gè)作為臨床代謝亞型的敏感特征指標(biāo),按基尼指數(shù)排序依次為骨質(zhì)(181.814)、骨骼肌(177.686)、體重(114.874)、體脂率(61.12)、基礎(chǔ)代謝率(40.225)、腰臀比(24.934)、SCr(17.221)、BMI(12.886)、Hb(12.339)和年齡(11.748)。在篩選出上述10個(gè)特征指標(biāo)后再次進(jìn)行聚類(lèi)分析,提取3個(gè)亞型的特征值,并用雷達(dá)圖對(duì)這3種亞型的特征進(jìn)行臨床歸納和可視化(圖2):A型(高瘦體重型):骨質(zhì)、骨骼肌、體重、基礎(chǔ)代謝率高,體脂率低;B型(少肌少脂低體重型):體重、BMI、骨質(zhì)、骨骼肌、脂肪、體脂率、腰臀比均低,基礎(chǔ)代謝率極低;C型(高脂肪型):脂肪、體脂率、BMI、腰臀比大,骨骼肌、骨質(zhì)較少,基礎(chǔ)代謝率較低。
圖1 1 146例T2DM患者代謝亞型相關(guān)指標(biāo)的聚類(lèi)分析結(jié)果[A:t-分布式隨機(jī)鄰域嵌入(T-SNE)顯示3個(gè)分類(lèi)的聚類(lèi)效果;B:層次聚類(lèi)的聚類(lèi)效果]
圖2 3種臨床代謝亞型的特征變量雷達(dá)圖
表2 影響T2DM代謝亞型指標(biāo)的平均準(zhǔn)確度下降及平均基尼指數(shù)下降情況
3.T2DM患者代謝亞型的決策樹(shù)分析及預(yù)測(cè)評(píng)估:通過(guò)決策樹(shù)分析,自動(dòng)將所有特征指標(biāo)進(jìn)行離散化,結(jié)果顯示僅需5個(gè)變量即可對(duì)3種代謝亞型進(jìn)行判斷,這5個(gè)特征變量及其診斷點(diǎn)分別是:骨骼肌(診斷點(diǎn)為34 kg)、脂肪(診斷點(diǎn)為20 kg)、體脂率(診斷點(diǎn)為33%)、體重(診斷點(diǎn)為63 kg)和腰臀比(診斷點(diǎn)為0.89),繪制出決策樹(shù)流程圖見(jiàn)圖3。在1 146例T2DM患者的臨床數(shù)據(jù)中,驗(yàn)證集取源數(shù)據(jù)的1/3(即382例),決策樹(shù)模型的預(yù)測(cè)準(zhǔn)確度為91.36%,kappa一致性指數(shù)為0.868(>0.75),模型擬合效果較好。見(jiàn)表3。
圖3 決策樹(shù)流程圖
表3 決策樹(shù)模型的預(yù)測(cè)結(jié)果[例,(%)]
在糖尿病領(lǐng)域,近年來(lái)逐漸出現(xiàn)運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行糖尿病分型[5-6]、診斷[7]、預(yù)測(cè)[8]等方面的研究,其中糖尿病分型的目的是對(duì)病因、自然病史、遺傳學(xué)、臨床表型和最佳治療方法進(jìn)行更個(gè)體化的治療[9]。隨著研究不斷深入,糖尿病分型也在細(xì)化[5-6,10],以滿足臨床精準(zhǔn)醫(yī)療的需求。與之前糖尿病分類(lèi)所納入的變量不同[5-6],本研究基于T2DM患者人體成分分析的大數(shù)據(jù)進(jìn)行聚類(lèi)分析,利用隨機(jī)森林篩選臨床數(shù)據(jù)的特征量,最終得出5個(gè)人體成分的相關(guān)變量(骨骼肌、脂肪、體脂率、體重和腰臀比)作為特征指標(biāo),從而進(jìn)一步明確亞型的特點(diǎn),且本研究決策樹(shù)模型的預(yù)測(cè)結(jié)果提示,其對(duì)于糖尿病代謝亞型的預(yù)測(cè)準(zhǔn)確度達(dá)91.36%。
人體成分是指人體所有組織器官的總成分,分為脂肪和非脂肪兩部分,后者稱(chēng)為瘦體重(主要成分為肌肉、骨骼等)。瘦體重與基礎(chǔ)代謝具有相關(guān)性:性別與年齡對(duì)基礎(chǔ)代謝率的影響與瘦體重相關(guān),男性的瘦體重高于女性,因此男性基礎(chǔ)代謝率高于女性;隨著年齡的增加,瘦體重逐漸下降,因此基礎(chǔ)代謝率隨年齡增大逐漸減低[11]。我們既往的研究發(fā)現(xiàn),T2DM患者的BMI與基礎(chǔ)代謝率呈正相關(guān),同時(shí)瘦體重是影響基礎(chǔ)代謝率的主要因素,瘦體重與基礎(chǔ)代謝率呈顯著正相關(guān)[12]。本研究中機(jī)器學(xué)習(xí)探索的3個(gè)糖尿病臨床亞型基礎(chǔ)代謝特點(diǎn)與上述情況相符:具有高瘦體重的A型伴有高基礎(chǔ)代謝率,少肌少脂低體重的B型基礎(chǔ)代謝率最低,而高脂肪低瘦體重的C型基礎(chǔ)代謝率較低。另一方面,人體成分的異常變化也與多種代謝性疾病相關(guān):肥胖常伴隨脂肪代謝障礙,脂肪含量(尤其是內(nèi)臟脂肪)增加是T2DM、代謝綜合征、缺血性心腦血管病的高危因素。中國(guó)超重與肥胖人群的糖尿病患病率分別為12.8%和18.5%[13];而在糖尿病患者中超重比例為41.0%,肥胖比例為24.3%,腹型肥胖比例高達(dá)45.4%[14]。骨骼肌是胰島素介導(dǎo)代謝葡萄糖的主要場(chǎng)所之一,骨骼肌丟失使得胰島素敏感性下降,葡萄糖的代謝更差,同時(shí)出現(xiàn)高胰島素血癥,進(jìn)一步升高血糖[15]。有研究顯示,老年T2DM患者肌少癥的患病率約為14.85%[16]。盡管體脂率相當(dāng),伴肌少癥的T2DM患者骨骼肌量、體脂含量及基礎(chǔ)代謝率均低于不伴肌少癥的T2DM對(duì)照組[15]。肌少癥與肥胖共存時(shí)被稱(chēng)為肌少性肥胖(SO),類(lèi)似于本研究中的C型。與單純性肥胖者相比,SO患者同時(shí)存在肥胖和肌肉量下降,胰島素抵抗更嚴(yán)重,血糖控制更差。另外,低骨密度或骨質(zhì)疏松與肌少癥共存時(shí)稱(chēng)為“骨骼肌肉減少癥”[17],兩者均影響人體正常活動(dòng),增加骨折發(fā)生率及住院率,降低生活質(zhì)量。
在糖尿病的治療過(guò)程中,尤其要注意控制飲食及減重過(guò)程中帶來(lái)的人體成分變化。理想的體重控制應(yīng)達(dá)到脂肪含量的最大限度下降,而瘦體重?zé)o明顯下降,達(dá)到合適的體脂率,避免盲目節(jié)食或不合適運(yùn)動(dòng)所導(dǎo)致肌少癥、骨質(zhì)疏松或骨骼肌肉減少癥的發(fā)生[18]。盡管體重、BMI、腰圍、腰臀比是目前評(píng)估肥胖的主要指標(biāo),在代謝性疾病及心血管疾病的風(fēng)險(xiǎn)評(píng)估方面具有重要意義,但這些指標(biāo)不能全面反映人體成分情況。因此,納入人體成分的糖尿病亞型分類(lèi)可以幫助更精準(zhǔn)地進(jìn)行飲食和運(yùn)動(dòng)指導(dǎo),有利于糖尿病及相關(guān)代謝性疾病的控制。本研究發(fā)現(xiàn)的3個(gè)糖尿病亞型中,A型(高瘦體重型)伴有高基礎(chǔ)代謝率,需要適當(dāng)增加每日熱量的攝入以滿足身體每日需要;B型(少肌少脂低體重型)需要進(jìn)行增肌運(yùn)動(dòng),增加熱量攝入增肌增脂;C型(高脂肪型)高脂肪同時(shí)伴低瘦體重,需要著眼于減脂增肌運(yùn)動(dòng),控制熱量攝入。
綜上所述,本研究基于臨床大數(shù)據(jù)及人工智能計(jì)算機(jī)學(xué)習(xí)方法對(duì)T2DM進(jìn)行進(jìn)一步的臨床代謝類(lèi)型分型,但這種分型方法也存在不同程度的局限性,僅能與傳統(tǒng)的分型互相補(bǔ)充,而非替代。機(jī)器學(xué)習(xí)是通過(guò)統(tǒng)計(jì)學(xué)方法針對(duì)臨床數(shù)據(jù)得出的結(jié)論,探索T2DM可能的臨床代謝亞型,但仍需要更多基礎(chǔ)研究來(lái)證實(shí)其潛在的機(jī)制。隨著臨床醫(yī)學(xué)研究技術(shù)的不斷發(fā)展,樣本數(shù)量及臨床特征的不斷積累,人工智能方法能更好地利用這些醫(yī)療大數(shù)據(jù)挖掘其中隱藏的規(guī)律和信息知識(shí),為臨床醫(yī)療決策提供支持。