陳宇斌,王 成,藍(lán)元隆,緱 錦
(1.漳州衛(wèi)生職業(yè)學(xué)院 臨床醫(yī)學(xué)系,福建 漳州 363000; 2.華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門 361021;3.漳州市中醫(yī)院,福建 漳州 363000)
糖尿病(DM)是一種多病因的代謝疾病,其特點(diǎn)是慢性高血糖,是因胰島素(INS)分泌或作用缺陷引起的糖、脂肪和蛋白質(zhì)代謝紊亂的疾病[1].2020年,我國(guó)2型糖尿病(T2DM)患病率升至11.2%[2],作為其主要并發(fā)癥的糖尿病腎病(DKD)(下文中的DKD均指基于T2DM并發(fā)癥的糖尿病腎病)患病率也一路攀升.研究顯示,在我國(guó)住院慢性腎臟病(CKD)患者中DKD患者約占26.96%[3].
2017年,各國(guó)專家在國(guó)際共識(shí)中推薦“葡萄糖目標(biāo)范圍內(nèi)時(shí)間”(time in range,TIR)用于糖尿病(DM)臨床診斷[4].TIR強(qiáng)調(diào)的是血糖在正常達(dá)標(biāo)范圍內(nèi)的時(shí)間[5].近年來(lái),關(guān)于TIR的研究大多集中于TIR作為血糖管理指標(biāo)的作用[6].研究表明,TIR與糖尿病金指標(biāo)糖化血紅蛋白(HbA1c)之間存在密切關(guān)系[7].TIR與糖尿病并發(fā)癥也存在顯著相關(guān)性[8],通過(guò)TIR可預(yù)測(cè)糖尿病微血管并發(fā)癥的危險(xiǎn)性[9].美國(guó)Jaeb健康研究中心Beck教授研究發(fā)現(xiàn),TIR每下降10%,微量白蛋白尿的發(fā)生風(fēng)險(xiǎn)增加40%[10].余萍萍等針對(duì)T2DM患者的尿白蛋白水平與TIR進(jìn)行相關(guān)性研究[11],證實(shí)TIR在DKD預(yù)測(cè)方面具有重要作用[12].但目前仍無(wú)關(guān)于TIR對(duì)DKD診斷結(jié)果是否有效并量化有效程度的研究.
在算法選擇上,分類算法可有效預(yù)測(cè)T2DM[13],且在神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹(shù)、貝葉斯、支持向量機(jī)等機(jī)器學(xué)習(xí)算法中,決策樹(shù)算法預(yù)測(cè)DM的效果最佳[14],但目前卻少見(jiàn)使用決策樹(shù)算法預(yù)測(cè)DKD的文獻(xiàn)報(bào)道.本文選擇決策樹(shù)算法預(yù)測(cè)DKD,不但在理論上可行,且具有新穎性.其主要?jiǎng)?chuàng)新點(diǎn)和貢獻(xiàn)為:①提出一種基于決策樹(shù)算法的TIR用于診斷DKD的預(yù)測(cè)模型;②判別TIR屬性對(duì)DKD診斷預(yù)測(cè)是否有效,并量化TIR對(duì)DKD診斷結(jié)果的重要程度;③在漳州市區(qū)三乙以上醫(yī)院數(shù)據(jù)集的基礎(chǔ)上進(jìn)行驗(yàn)證.
選取漳州市區(qū)三乙以上醫(yī)院2020年9月至2021年3月進(jìn)行TIR采集的54條T2DM患者數(shù)據(jù),其中DKD患者20例,占比為37.03%.選取對(duì)DKD臨床診斷較有意義的9個(gè)特征屬性:性別、年齡、總膽固醇(TCHO)、甘油三酯(TG)、高密度脂蛋白(HDL-C)、低密度脂蛋白(LDL-C)、尿微量白蛋白(mALB)、糖化血紅蛋白(HbA1c)、尿微量白蛋白與尿肌酐的比值(UACR),以及1個(gè)待研究指標(biāo)TIR,見(jiàn)表1.未確診DKD的用0表示,確診DKD的用1表示.
表1 DKD數(shù)據(jù)集的屬性
1.2.1 基于決策樹(shù)的DKD診斷預(yù)測(cè)方法
在機(jī)器學(xué)習(xí)算法中,決策樹(shù)[15]也稱判定樹(shù),是用于分類的一種樹(shù)結(jié)構(gòu),也是一種簡(jiǎn)單且應(yīng)用廣泛的預(yù)測(cè)方法.決策樹(shù)的基本組成部分是決策結(jié)點(diǎn)、分支和葉結(jié)點(diǎn).每個(gè)決策結(jié)點(diǎn)代表對(duì)某個(gè)屬性的一次測(cè)試,每條分支代表一個(gè)測(cè)試結(jié)果,葉結(jié)點(diǎn)代表某個(gè)類或類的分布,最上面的結(jié)點(diǎn)是根結(jié)點(diǎn).決策樹(shù)算法采用自頂向下的遞歸方法,首先對(duì)數(shù)據(jù)進(jìn)行處理,利用歸納法生成可讀的規(guī)則和決策樹(shù),然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析[16].本質(zhì)上,決策樹(shù)算法是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程.好的決策樹(shù)希望類別越少,即樹(shù)越小,因此屬性選擇尤為重要.屬性選擇依賴于對(duì)樣本集合的不純度度量方法.
將表1中診斷預(yù)測(cè)DKD的9個(gè)常用指標(biāo),以及1個(gè)待研究的TIR指標(biāo)作為屬性,將是否確診DKD作為類別,基于數(shù)據(jù)驅(qū)動(dòng),利用決策樹(shù)和訓(xùn)練集構(gòu)建一個(gè)DKD診斷預(yù)測(cè)問(wèn)題的分類器,并在測(cè)試集上驗(yàn)證算法預(yù)測(cè)的精度,精度越高,說(shuō)明基于決策樹(shù)的DKD診斷預(yù)測(cè)方法的準(zhǔn)確性越高,具有一定的可行性.
1.2.2 基于決策樹(shù)的TIR對(duì)DKD診斷重要程度的評(píng)估方法
通過(guò)增減TIR屬性對(duì)DKD診斷結(jié)果的影響權(quán)重來(lái)確定TIR指標(biāo)的有效性.TIR(包含TIR和不包含TIR)對(duì)DKD診斷的作用越無(wú)法代替,基于決策樹(shù)的DKD診斷預(yù)測(cè)準(zhǔn)確率差異就越大.將DKD的9個(gè)常用指標(biāo)和TIR指標(biāo)作為自變量來(lái)生成決策樹(shù)模型,分析所有自變量的重要性,得出重要性數(shù)值和排名,并通過(guò)實(shí)驗(yàn)量化TIR的重要程度.TIR對(duì)DKD診斷重要程度的評(píng)估方法比較見(jiàn)表2.
表2 TIR對(duì)DKD診斷重要程度的評(píng)估方法比較
將Gini指數(shù)作為測(cè)量指標(biāo),采用留一法進(jìn)行交叉驗(yàn)證,使用風(fēng)險(xiǎn)評(píng)估及標(biāo)準(zhǔn)誤差對(duì)模型預(yù)測(cè)的正確性進(jìn)行測(cè)量,并給出所構(gòu)建的決策樹(shù)模型預(yù)測(cè)的準(zhǔn)確率[17].分析算法使用決策樹(shù)CRT算法,因變量為分類變量,生成的即為分類樹(shù)模型.數(shù)據(jù)分析使用IBM的SPSSStatistics 24版決策樹(shù)分析分類器[18].
1.3.1 自變量中含TIR屬性
自變量為表1中的1~10,最大樹(shù)深度設(shè)定為5.對(duì)模型的準(zhǔn)確率進(jìn)行統(tǒng)計(jì),并分析每個(gè)自變量對(duì)模型的重要性.其算法語(yǔ)法運(yùn)行如下:
* 決策樹(shù).
TREE診斷結(jié)果[n] BY 性別 [n] 年齡 [s] TG [s] HDLC [s] TCHO [s] LDLC [s] UmALB [s] HbA1c [s] UACR [s] TIR[s]
/TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO
/DEPCATEGORIES USEVALUES=['0' '1'] TARGET=['1']
/PRINT MODELSUMMARY IMPORTANCE CLASSIFICATION RISK
/GAIN CATEGORYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO
/PLOT IMPORTANCE
/METHOD TYPE=CRT MAXSURROGATES=AUTO PRUNE=NONE
/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=2 MINCHILDSIZE=1
/VALIDATION TYPE=CROSSVALIDATION(5) OUTPUT=TESTSAMPLE
/CRT IMPURITY=GINI MINIMPROVEMENT=0.0001
/COSTS EQUAL
/PRIORS FROMDATA ADJUST=NO
/MISSING NOMINALMISSING=MISSING
1.3.2 自變量中不含TIR屬性
自變量為表1中的1~9,其它參數(shù)設(shè)置同1.3.1.其算法語(yǔ)法運(yùn)行如下:
* 決策樹(shù).
TREE 診斷結(jié)果 [n] BY 性別 [n] 年齡 [s] TG [s] HDLC [s] TCHO [s] LDLC [s] UmALB [s] HbA1c [s] UACR [s]
/TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO
/DEPCATEGORIES USEVALUES=['0' '1'] TARGET=['1']
/PRINT MODELSUMMARY IMPORTANCE CLASSIFICATION RISK
/GAIN CATEGORYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO
/PLOT IMPORTANCE
/METHOD TYPE=CRT MAXSURROGATES=AUTO PRUNE=NONE
/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=5 MINCHILDSIZE=1
/VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES
/CRT IMPURITY=GINI MINIMPROVEMENT=0.0001
/COSTS EQUAL
/PRIORS FROMDATA ADJUST=NO
/MISSING NOMINALMISSING=MISSING
在使用CRT算法運(yùn)行后生成的含TIR的決策樹(shù)模型如圖1所示.其深度為4,總結(jié)點(diǎn)數(shù)為15,終端節(jié)點(diǎn)數(shù)為8,在根節(jié)點(diǎn)中確診DKD的比例為37%.樹(shù)模型的4層分別按照UACR,HDL-C、TCHO,年齡、TG,mALB、TIR作為節(jié)點(diǎn)進(jìn)行拆分,說(shuō)明這幾個(gè)屬性對(duì)希望預(yù)測(cè)的目標(biāo)類別(確診DKD)有較大影響.將樹(shù)模型往下第一層結(jié)點(diǎn)以“UACR(尿微量白蛋白/肌酐)”進(jìn)行拆分,拆分點(diǎn)為:是否超過(guò) 60.58 mg/g,符合2020版中國(guó)2型糖尿病防治指南中“UACR>30 mg/g, 腎組織活檢符合糖尿病腎病(DKD)病理改變,臨床可診斷為糖尿病腎病(DKD)”[2,19]. 由此說(shuō)明,該樹(shù)模型符合臨床實(shí)際,具有高度的可用性和參考性.
圖1 含TIR的樹(shù)模型結(jié)果Fig.1 Results of tree model with TIR
節(jié)點(diǎn)增益如表3所示.TIR≤78.5的節(jié)點(diǎn)13增益并列最高,其節(jié)點(diǎn)個(gè)案數(shù)僅占總樣本量的 9.3%,卻有 100%樣本被確診為DKD,即響應(yīng)率為 100%,遠(yuǎn)高于平均確診率 37%(見(jiàn)根結(jié)點(diǎn)).增益為節(jié)點(diǎn)確診個(gè)案樣本數(shù)與確診總樣本數(shù)的比值.指數(shù)體現(xiàn)增益一列百分比與節(jié)點(diǎn)一列百分比的比值信息.這說(shuō)明TIR值低于 78.5%對(duì)確診DKD有更重要的作用,在理論上有可能TIR低于 78.5%的2糖患者被確診為DKD的風(fēng)險(xiǎn)會(huì)增大,建議臨床上可針對(duì)此數(shù)值進(jìn)行深入研究.
表3 含TIR節(jié)點(diǎn)的增益
模型準(zhǔn)確率如表4所示.該模型的預(yù)測(cè)準(zhǔn)確率為100%,預(yù)測(cè)準(zhǔn)確率總體達(dá)100%.其中,0表示未確診DKD的樣本數(shù),1表示確診DKD的樣本數(shù).因此,該模型對(duì)是否確診DKD進(jìn)行分析預(yù)測(cè)的效果極好,其結(jié)果具有較高的參考價(jià)值.
表4 含TIR模型的準(zhǔn)確率
TIR在所有自變量中的重要性排名如表5所示.在“是否診斷DKD”的因變量中,排名前兩位的是“mALB”“UACR”,其與現(xiàn)有臨床DKD診斷標(biāo)準(zhǔn)基本符合[19],說(shuō)明此模型分析結(jié)果與實(shí)際相符,具有高度的準(zhǔn)確性.TIR作為新加入的待研究指標(biāo),重要性在“高密度脂蛋白”后,在10項(xiàng)診斷指標(biāo)中排名第4,說(shuō)明TIR指標(biāo)對(duì)診斷DKD的權(quán)重影響較大.
表5 含TIR的自變量重要性
在使用CRT算法運(yùn)行后生成的不含TIR的決策樹(shù)模型,其深度為4,總結(jié)點(diǎn)數(shù)為15,終端節(jié)點(diǎn)數(shù)為8.不含TIR的樹(shù)模型結(jié)果如圖2所示.樹(shù)模型的4層分別以UACR,HDL-C、TCHO,年齡、TG,mALB、TG作為節(jié)點(diǎn)進(jìn)行拆分,說(shuō)明除去TIR后仍是原來(lái)幾個(gè)屬性對(duì)目標(biāo)類別有影響,并沒(méi)有出現(xiàn)新的屬性替代TIR.這說(shuō)明TIR作為屬性,對(duì)目標(biāo)類別的作用是不可取代的.
圖2 不含TIR的樹(shù)模型結(jié)果Fig.2 Results of tree model without TIR
不含TIR樹(shù)模型的節(jié)點(diǎn)增益如表6所示,節(jié)點(diǎn)6、8、12、13的增益同時(shí)為最高,響應(yīng)率均為100%,節(jié)點(diǎn)14的響應(yīng)率為50%.
表6 不含TIR節(jié)點(diǎn)的增益
不含TIR的模型準(zhǔn)確率如表7所示.在預(yù)測(cè)確診DKD中出現(xiàn)了1條錯(cuò)誤數(shù)據(jù),即實(shí)際為確診樣本,但預(yù)測(cè)為未確診樣本,由此導(dǎo)致預(yù)測(cè)確診DKD的正確百分比只有19/20=95%,預(yù)測(cè)確診DKD的總體百分比為35/54=64.8%,預(yù)測(cè)未確診DKD的總體百分比為19/54=35.2%,從而使得總體準(zhǔn)確率下降至98.1%.這說(shuō)明TIR對(duì)“是否確診DKD”是有影響的.
表7 不含TIR模型的準(zhǔn)確率
不含TIR的9個(gè)自變量重要性排名如表8所示.在“是否診斷DKD”的因變量中,除去TIR后,所有自變量的重要性排名不變.這說(shuō)明此模型的分析結(jié)果與實(shí)際相符,具有高度的準(zhǔn)確性.
表8 不含TIR的自變量重要性
為研究TIR對(duì)DKD診斷是否有影響,本文構(gòu)建了基于決策樹(shù)算法的DKD診斷預(yù)測(cè)模型,并在漳州市區(qū)三乙以上醫(yī)院數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了驗(yàn)證,結(jié)果表明:TIR對(duì)臨床診斷DKD具有其他指標(biāo)不可替代的積極作用,TIR低于78.5%的T2DM患者可能被確診為DKD的風(fēng)險(xiǎn)增大;TIR自變量的重要性排名靠前,說(shuō)明其可作為DKD臨床診斷的重要指標(biāo)之一.
TIR作為新興指標(biāo),數(shù)據(jù)采集相對(duì)困難.本文所采集的數(shù)據(jù)僅限于漳州市區(qū)三乙以上醫(yī)院,數(shù)據(jù)的范圍和數(shù)量對(duì)建模來(lái)說(shuō)相對(duì)較少,因此在某種程度上會(huì)影響模型的預(yù)測(cè)效果.另外,除決策樹(shù)外,下一步研究應(yīng)嘗試采用更多的機(jī)器學(xué)習(xí)算法進(jìn)行DKD診斷預(yù)測(cè)效果的比較.