張洪俠,郭 賀,王金霞,徐巖艷,呂 斌,閆 東,常 佳,胡光瑞,王 雪,李洪軍,劉天戟*,李燕林,趙志強,牛曉強
(1.吉林大學中日聯(lián)誼醫(yī)院,吉林 長春130033;2. 北京青梧桐健康科技有限公司)
近年來,我國糖尿病患病率逐年增加,研究表明我國成人糖尿病患病率目前為10.9%,其中新診斷糖尿病患病率6.9%,既往已知糖尿病患病率4.0%,40歲以下糖尿病患病率高達5.9%[1],糖尿病發(fā)病年輕化趨勢嚴重,由糖尿病引發(fā)的心腦血管疾病的發(fā)病率也逐年提高,提前進行糖尿病患病風險的評估,對高危人群進行早期干預以降低糖尿病的發(fā)病率無疑是當前亟待解決的問題。
XGBoost是極端梯度上升( eXtreme Gradient Boosting)的簡稱,是一種基于梯度 Boosting 的集成學習算法,其原理是通過弱分類器的迭代計算實現(xiàn)準確的分類效果[2]。它是兼具線性模型和Boosted Tree模型的一種優(yōu)化模型 。XGBoost模型目前被機器學習、數(shù)據(jù)挖掘、統(tǒng)計學等專家廣泛應用于人工智能、數(shù)據(jù)分析和統(tǒng)計學習等領域[3]。影響糖尿病發(fā)生發(fā)展的因素有很多,如年齡、生活方式、肥胖、基因易感性等,本文結合人群體檢數(shù)據(jù)及基因檢測數(shù)據(jù)探討及評價應用XGBoost模型預測糖尿病患病風險。
1.1對象及分組
在我院體檢中心進行常規(guī)體檢的人員當中招募53名2型糖尿病患者和93名非糖尿病患者,年齡區(qū)間在18-65歲之間。本研究項目已經獲得醫(yī)院醫(yī)學倫理委員會批準,所有參與研究的志愿者均簽訂知情同意書。
1.2方法
1.2.1健康自測問卷 所有志愿者均填寫中華醫(yī)學會健康管理學分會推薦使用的《健康體檢自測問卷》[4]。
1.2.2體檢項目檢查 體檢項目包括內科、外科、血常規(guī)、尿常規(guī)、血糖、糖化血紅蛋白、血脂、肝功、腎功、心電、腹部超聲、胸片等項檢查,體檢項目在吉林大學中日聯(lián)誼醫(yī)院體檢中心、檢驗科、超聲科、放射科等進行。不同的志愿者體檢項目不完全相同,但是志愿者的體檢項目均有血糖和尿常規(guī)兩個檢測項目。
1.2.3糖尿病易感基因多態(tài)性檢測 單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP) 是人類基因組中最常見的基因多態(tài)性,是繼RFLP,STR之后的第3代遺傳學標記。它是指單個堿基的缺失、插入以及單個堿基的置換。也就是一個堿基對的差異。常以二等位基因的形式出現(xiàn)。我們對所有志愿者進行糖尿病易感基因的基因多態(tài)性質譜檢測,基因質譜檢測在北京青梧桐健康科技有限公司進行,所選SNP是根據(jù)文獻得出(見表1)[5-8]。
表1 糖尿病患病風險檢測基因信息表
1.2.3.1基因組DNA提取 EDTA抗凝血0.2 ml,采用康為世紀的全基因組DNA提取試劑盒提取外周血DNA,紫外分光光度計檢測OD260/280,比值在1.6-1.8,表明樣品純度較高,可做后續(xù)實驗。
1.2.3.2PCR擴增及純化 從Pubmed中檢索待測基因序列,利用Assay Designer(Sequenom)軟件包對每個待測位點均設計1對引物(由北京青梧桐健康科技有限公司提供)。 PCR反應體系:所有需要檢測的DNA樣本均稀釋到10 ng/μl, 取1 μl DNA樣本,將其與1.8 μl ddH2O、0.5 μl PCR緩沖液(含20 mmol/L MgCl2)、0.1 μl 的25 mmol/L dNTP、0.4 μl 25 mmol/L MgCl2、1 μl PCR引物以及0.2 μl Hotstar 酶(Roche)混合在一起。PCR反應條件:95 ℃ 2 min;95 ℃ 30 sec,56 ℃ 20 sec,72 ℃ 60 sec,共45個循環(huán);最終72℃ 5min。PCR擴增后,剩余的dNTP將被去磷酸消化掉,反應體系包括1.53 μl ddH2O、0.17 μl SAP緩沖液、0.3 Unit 堿性磷酸酶SAP(Agena Biosciencr)。該反應在37℃ 進行40 min, 然后85℃ 5 min使酶失活。
1.2.3.3待測位點的PEX反應 反應體系:0.94 μl 延伸引物(由北京青梧桐健康科技有限公司提供)、0.2 μl 10 X Gold緩沖液、0.2 μl 終止反應液、0.041 μl iPLEX酶(Sequenom)以及0.619 μl ddH2O。反應條件:94 ℃ 30 sec;94 ℃ 5 sec,52 ℃ 5 sec,80 ℃ 5 sec 5個循環(huán),共40個循環(huán);最終72℃ 3 min。在終止反應物中加入6 mg 陽離子交換樹脂(Sequenom)脫鹽,混合后加入16 μl ddH2O懸浮。
1.2.3.4樣本分析 使用MassARRAY Nanodispenser(Sequenom)將最終的分型產物點樣到一塊384孔的spectroCHIP (Sequenom)上,并用基質輔助激光解吸電離飛行時間質譜進行分析。最終結果由 MassARRAY RT軟件系統(tǒng)(版本號4.0)實時讀取,并由MassARRAY Typer軟件系統(tǒng)(版本號4.0)完成基因分型分析。
1.2.3.5等位基因判別 通過MALDI-TOF-MS檢測,各個引物及其PEX產物可形成2個(純合子)或3個(雜合子)信號峰,計算各個產物峰與相應的引物峰之間的m/z之差,得知所延伸的堿基的類型,可推斷該SNP位點的基因型。
1.2.4運用XGBoost模型建立糖尿病風險預測模型
1.2.4.1數(shù)據(jù)預處理 原始數(shù)據(jù)有699維的特征,部分特征列缺失數(shù)據(jù)嚴重,將數(shù)據(jù)缺失超過20%的特征列刪除,剩余92列。包含所有的SNP數(shù)據(jù),年齡性別等個人信息,以及部分生化檢驗信息。數(shù)據(jù)中的缺失值全部填充為0。
1.2.4.2特征提取 我們對特征列做進一步處理,首先剔除姓名、登記號、體檢日期三個與體檢指標無關的特征列。剩余的特征中,我們只保留特征內容為數(shù)值型,而非字符型的特征列,總共得到61列。此外,我們還對SNP位點進行編碼,每個SNP位點有三種類型,因而對于每個SNP特征列,編碼后形成三個新的特征列。
1.2.4.3樣本劃分 我們隨機將數(shù)據(jù)劃分為訓練集和測試集,其中80%的樣本為訓練集,其余為測試集。
1.2.4.4機器學習建模 我們使用XGBoost模型來進行建模與預測。傳統(tǒng)GBDT在優(yōu)化時只用到一階導數(shù)信息,XGBoost則同時用到了一階和二階導數(shù)的信息。XGBoost在代價函數(shù)里加入了正則項,用于控制模型的復雜度。正則項降低了模型的方差,使學習出來的模型更加簡單,防止過擬合。XGBoost還借鑒了隨機森林列抽樣的做法,能降低過擬合。隨機森林的原理是隨機建立大量的分類樹,每棵樹單獨對樣本進行分類,最終分類結果由每棵樹各自的分類結果通過投票確定。隨機森林算法提高了分類的準確性,且結果穩(wěn)健,易于調整參數(shù),但運行速度較慢。
1.3分析
1.3.1模型正確率的計算 我們采用準確率為指標來評價模型的預測效果,定義公式如下:正確率=預測正確的樣本數(shù)/總樣本數(shù)*100%。XGBoost模型預測得到的值為0-1之間的小數(shù),將其二值化,0.5以上的定為1,0.5以下的設為0。二值化后預測值與實際值進行比較,計算正確率。
1.3.2特征重要性評估法 通過 XGBoost 建??梢耘袛嗝總€特征變量對模型的貢獻程度,從而判斷哪些特征變量對于糖尿病的發(fā)病風險的影響更為顯著。以數(shù)字代號對應的體檢指標如表2所示。
2.1模型正確率
根據(jù)公式運用測試集檢測,最后的正確率約為86.6%。
2.2特征重要性評估結果
圖1為XGBoost模型的特征重要性評估。其中,排在前16位的重要特征有15位都是體檢特征,如血糖、甘油三酯、紅細胞計數(shù)等。之后的重要特征以SNP為主。
表2 特征代號對應的體檢特征名稱
圖1 xgboost模型的特征重要性評估
國內外糖尿病的發(fā)病風險模型很多,有建模方法為Logistic回歸模型的墨西哥后裔美國人和非西班牙白種人糖尿病發(fā)病預測模型、日籍美國人個體糖尿病發(fā)病風險預測模型、芬蘭人群DM個體危險評分模型;有建模方法為Cox回歸模型的適用于中國臺灣人的糖尿病風險評估模型;有建模方法為人工神經網(wǎng)絡的糖尿病和糖耐量受損的個體發(fā)病預測模型[9],上述建模方法各有利弊。本文采用的XGBoost是一種 Gradient Boosting 算法的快速實現(xiàn),它能夠充分利用多核 CPU 進行并行計算,同時在算法上進行改進以提高精度。
特征重要性評估結果顯示,對模型貢獻前三名的變量依次是空腹血糖、甘油三酯和SLC30A8基因rs13266634-C位點的等位基因。高血糖是糖尿病風險的最明顯的特征,眾多研究表明高甘油三酯血癥也與糖尿病發(fā)病密切相關[10]。SLC30A8基因,位于8號染色體(8q24),是鋅轉運體蛋白8(ZnT-8)的編碼基因,能夠特異性地在胰島β細胞中表達。ZnT-8能促進鋅從胰島β細胞的胞漿進入含有胰島素的分泌顆粒,參與胰島素的分泌。如果SLC30A8基因變異致ZnT-8的結構和功能異常,就會使胰島素分泌減少、胰高糖素分泌增加,導致血糖增高。研究證實SLC30A8增加2型糖尿病易感性可能是通過影響胰島β細胞功能使其紊亂、影響ZnT-8蛋白的功能從而導致鋅離子濃度發(fā)生變化和致胰島β細胞對前胰島素加工障礙所介導的。近期國內多項研究表明SLC30A8基因CC基因型及等位基因C是2型糖尿病的風險因素[11,12],與我們的XGBoost糖尿病風險預測模型一致。同時,應用測試集進行測試發(fā)現(xiàn)XGBoost糖尿病風險預測模型的準確度是86.6%,說明XGBoost糖尿病風險預測模型不但運算速度快,同時準確度也較高,對今后進一步臨床推廣具有現(xiàn)實意義。
另外,本研究的XGBoost糖尿病風險預測模型的特征重要性評估顯示:糖化血紅蛋白、年齡、總膽固醇分別排在第9位、第12位和第15位,說明高糖化血紅蛋白、高齡和高膽固醇血癥這三個變量對該模型的貢獻量較大,白細胞計數(shù)對模型的貢獻量排在第16位,考慮可能與糖尿病容易并發(fā)各種感染而引起的白細胞數(shù)增多有關。但對模型貢獻量排名前14的變量中還有紅細胞計數(shù)、紅細胞平均體積、紅細胞體積分布寬度、紅細胞平均血紅蛋白量、血小板平均體積、白蛋白、血小板計數(shù)、紅細胞平均血紅蛋白濃度、堿性磷酸酶,由于本研究樣本量不大,模型還需不斷優(yōu)化,因而這些變量對模型貢獻的機制還有待于進一步深入研究。
綜上所述,從模型的分類預測準確度方面來看,本研究搭建 XGBoost糖尿病風險預測模型是成功的,具有良好的穩(wěn)定性、較高的預測精度及運行的高效性,可以提前預警糖尿病風險,根據(jù)風險指標可給予精準健康干預,模型具有很強的可操作性和推廣性。本研究數(shù)據(jù)樣本量有限,后續(xù)研究中將逐漸擴大樣本量以建立預測效果更為準確的XGBoost模型。
[1]Wang L,Gao P,Zhang M,et al. Prevalence and ethnic pattern of diabetes and prediabetes in China in 2013 [J].JAMA,2017,317(24):2515.
[2]Chen T Q ,Guestrin C.XGBoost:A scalable tree boosting system[C]//ACM.Proceedings of the 22nd ACM SIGKDD.International Conference on Knowledge Discovery and Data Mining.New York:ACM,2016:785-794.
[3]賈文慧,孫林子,景英川.基于XGBoost模型的股骨頸骨折手術預后質量評分預測[J].太原理工大學學報,2018,49(1):174.
[4]中華醫(yī)學會健康管理學分會,中華健康管理學雜志編委會.健康體檢基本項目專家共識[J].中華健康管理學雜志,2014,8(2):81.
[5]Wu Y,Li H,Loos RJ,et al.Common variants in CDKAL1,CDKN2A/B,IGF2BP2,SLC30A8,and HHEX/IDE genes are associated with type 2 diabetes and impaired fasting glucose in a Chinese Han population[J].Diabetes,2008,57(10):2834.
[6]Ruchat SM,Vohl MC,Weisnagel SJ,et al.Combining genetic markers and clinical risk factors improves the risk assessment of impaired glucose metabolism[J].Ann Med,2010,42(3):196.
[7]Li H,Gan W,Lu L,et al.A genome-wide association study identifies GRK5 and RASGRP1 as type 2 diabetes loci in Chinese Hans[J].Diabetes,2013,62(1):291.
[8]Fuchsberger C,Flannick J,Teslovich TM,et al.The genetic architecture of type 2 diabetes[J].Nature,2016,536(7614):41.
[9]錢 玲,施侶元,程茂金.人工神經網(wǎng)絡應用于糖尿病并發(fā)癥的影響因素研究[J].現(xiàn)代預防醫(yī)學,2005,32(12):1625.
[10]Weijers RN.Lipid composition of cell membranes and its relevance in type 2 diabetes mellitus[J].Curr DiabeteS Rev,2015,8(5):390.
[11]劉 陽,王占友,池志宏,等.SLC30A8基因rs13266634 C/T單核有酸多態(tài)性與2型糖尿病易感性的相關性研究[J].中國醫(yī)科大學學報,2015,44(6):494.
[12]張淑蘭,劉 靜,郭陸晉,等.SLC30A8基因rs13266634多態(tài)性與甘肅漢族、回族2型糖尿病的相關性[J].中國老年學雜志,2015,35(4):898.