亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于決策樹(shù)算法的TIR對(duì)2型糖尿病腎病的診斷作用

2022-03-25 01:34:46陳宇斌藍(lán)元隆

湖州師范學(xué)院學(xué)報(bào) 2022年2期

關(guān)鍵詞：結(jié)點(diǎn)決策樹(shù)準(zhǔn)確率

陳宇斌,王成,藍(lán)元隆,緱錦

(1.漳州衛(wèi)生職業(yè)學(xué)院臨床醫(yī)學(xué)系，福建漳州 363000; 2.華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，福建廈門 361021;3.漳州市中醫(yī)院，福建漳州 363000)

0 引言

糖尿病(DM)是一種多病因的代謝疾病,其特點(diǎn)是慢性高血糖,是因胰島素(INS)分泌或作用缺陷引起的糖、脂肪和蛋白質(zhì)代謝紊亂的疾病[1].2020年，我國(guó)2型糖尿病(T2DM)患病率升至11.2%[2]，作為其主要并發(fā)癥的糖尿病腎病(DKD)(下文中的DKD均指基于T2DM并發(fā)癥的糖尿病腎病)患病率也一路攀升.研究顯示，在我國(guó)住院慢性腎臟病(CKD)患者中DKD患者約占26.96%[3].

2017年，各國(guó)專家在國(guó)際共識(shí)中推薦“葡萄糖目標(biāo)范圍內(nèi)時(shí)間”(time in range，TIR)用于糖尿病(DM)臨床診斷[4].TIR強(qiáng)調(diào)的是血糖在正常達(dá)標(biāo)范圍內(nèi)的時(shí)間[5].近年來(lái)，關(guān)于TIR的研究大多集中于TIR作為血糖管理指標(biāo)的作用[6].研究表明，TIR與糖尿病金指標(biāo)糖化血紅蛋白(HbA1c)之間存在密切關(guān)系[7].TIR與糖尿病并發(fā)癥也存在顯著相關(guān)性[8]，通過(guò)TIR可預(yù)測(cè)糖尿病微血管并發(fā)癥的危險(xiǎn)性[9].美國(guó)Jaeb健康研究中心Beck教授研究發(fā)現(xiàn)，TIR每下降10%，微量白蛋白尿的發(fā)生風(fēng)險(xiǎn)增加40%[10].余萍萍等針對(duì)T2DM患者的尿白蛋白水平與TIR進(jìn)行相關(guān)性研究[11]，證實(shí)TIR在DKD預(yù)測(cè)方面具有重要作用[12].但目前仍無(wú)關(guān)于TIR對(duì)DKD診斷結(jié)果是否有效并量化有效程度的研究.

在算法選擇上，分類算法可有效預(yù)測(cè)T2DM[13],且在神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹(shù)、貝葉斯、支持向量機(jī)等機(jī)器學(xué)習(xí)算法中，決策樹(shù)算法預(yù)測(cè)DM的效果最佳[14]，但目前卻少見(jiàn)使用決策樹(shù)算法預(yù)測(cè)DKD的文獻(xiàn)報(bào)道.本文選擇決策樹(shù)算法預(yù)測(cè)DKD，不但在理論上可行，且具有新穎性.其主要?jiǎng)?chuàng)新點(diǎn)和貢獻(xiàn)為：①提出一種基于決策樹(shù)算法的TIR用于診斷DKD的預(yù)測(cè)模型；②判別TIR屬性對(duì)DKD診斷預(yù)測(cè)是否有效，并量化TIR對(duì)DKD診斷結(jié)果的重要程度；③在漳州市區(qū)三乙以上醫(yī)院數(shù)據(jù)集的基礎(chǔ)上進(jìn)行驗(yàn)證.

1 研究對(duì)象與方法

1.1 研究對(duì)象

選取漳州市區(qū)三乙以上醫(yī)院2020年9月至2021年3月進(jìn)行TIR采集的54條T2DM患者數(shù)據(jù)，其中DKD患者20例，占比為37.03%.選取對(duì)DKD臨床診斷較有意義的9個(gè)特征屬性：性別、年齡、總膽固醇(TCHO)、甘油三酯(TG)、高密度脂蛋白(HDL-C)、低密度脂蛋白(LDL-C)、尿微量白蛋白(mALB)、糖化血紅蛋白(HbA1c)、尿微量白蛋白與尿肌酐的比值(UACR)，以及1個(gè)待研究指標(biāo)TIR，見(jiàn)表1.未確診DKD的用0表示，確診DKD的用1表示.

表1 DKD數(shù)據(jù)集的屬性

1.2 研究方法

1.2.1 基于決策樹(shù)的DKD診斷預(yù)測(cè)方法

在機(jī)器學(xué)習(xí)算法中，決策樹(shù)[15]也稱判定樹(shù)，是用于分類的一種樹(shù)結(jié)構(gòu)，也是一種簡(jiǎn)單且應(yīng)用廣泛的預(yù)測(cè)方法.決策樹(shù)的基本組成部分是決策結(jié)點(diǎn)、分支和葉結(jié)點(diǎn).每個(gè)決策結(jié)點(diǎn)代表對(duì)某個(gè)屬性的一次測(cè)試，每條分支代表一個(gè)測(cè)試結(jié)果，葉結(jié)點(diǎn)代表某個(gè)類或類的分布，最上面的結(jié)點(diǎn)是根結(jié)點(diǎn).決策樹(shù)算法采用自頂向下的遞歸方法，首先對(duì)數(shù)據(jù)進(jìn)行處理，利用歸納法生成可讀的規(guī)則和決策樹(shù)，然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析[16].本質(zhì)上，決策樹(shù)算法是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程.好的決策樹(shù)希望類別越少，即樹(shù)越小,因此屬性選擇尤為重要.屬性選擇依賴于對(duì)樣本集合的不純度度量方法.

將表1中診斷預(yù)測(cè)DKD的9個(gè)常用指標(biāo)，以及1個(gè)待研究的TIR指標(biāo)作為屬性，將是否確診DKD作為類別，基于數(shù)據(jù)驅(qū)動(dòng)，利用決策樹(shù)和訓(xùn)練集構(gòu)建一個(gè)DKD診斷預(yù)測(cè)問(wèn)題的分類器，并在測(cè)試集上驗(yàn)證算法預(yù)測(cè)的精度，精度越高，說(shuō)明基于決策樹(shù)的DKD診斷預(yù)測(cè)方法的準(zhǔn)確性越高，具有一定的可行性.

1.2.2 基于決策樹(shù)的TIR對(duì)DKD診斷重要程度的評(píng)估方法

通過(guò)增減TIR屬性對(duì)DKD診斷結(jié)果的影響權(quán)重來(lái)確定TIR指標(biāo)的有效性.TIR(包含TIR和不包含TIR)對(duì)DKD診斷的作用越無(wú)法代替，基于決策樹(shù)的DKD診斷預(yù)測(cè)準(zhǔn)確率差異就越大.將DKD的9個(gè)常用指標(biāo)和TIR指標(biāo)作為自變量來(lái)生成決策樹(shù)模型，分析所有自變量的重要性，得出重要性數(shù)值和排名，并通過(guò)實(shí)驗(yàn)量化TIR的重要程度.TIR對(duì)DKD診斷重要程度的評(píng)估方法比較見(jiàn)表2.

表2 TIR對(duì)DKD診斷重要程度的評(píng)估方法比較

1.3 算法選擇與參數(shù)設(shè)置

將Gini指數(shù)作為測(cè)量指標(biāo),采用留一法進(jìn)行交叉驗(yàn)證，使用風(fēng)險(xiǎn)評(píng)估及標(biāo)準(zhǔn)誤差對(duì)模型預(yù)測(cè)的正確性進(jìn)行測(cè)量，并給出所構(gòu)建的決策樹(shù)模型預(yù)測(cè)的準(zhǔn)確率[17].分析算法使用決策樹(shù)CRT算法，因變量為分類變量，生成的即為分類樹(shù)模型.數(shù)據(jù)分析使用IBM的SPSSStatistics 24版決策樹(shù)分析分類器[18].

1.3.1 自變量中含TIR屬性

自變量為表1中的1～10，最大樹(shù)深度設(shè)定為5.對(duì)模型的準(zhǔn)確率進(jìn)行統(tǒng)計(jì)，并分析每個(gè)自變量對(duì)模型的重要性.其算法語(yǔ)法運(yùn)行如下：

* 決策樹(shù).

TREE診斷結(jié)果[n] BY 性別 [n] 年齡 [s] TG [s] HDLC [s] TCHO [s] LDLC [s] UmALB [s] HbA1c [s] UACR [s] TIR[s]

/TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO

/DEPCATEGORIES USEVALUES=['0' '1'] TARGET=['1']

/PRINT MODELSUMMARY IMPORTANCE CLASSIFICATION RISK

/GAIN CATEGORYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO

/PLOT IMPORTANCE

/METHOD TYPE=CRT MAXSURROGATES=AUTO PRUNE=NONE

/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=2 MINCHILDSIZE=1

/VALIDATION TYPE=CROSSVALIDATION(5) OUTPUT=TESTSAMPLE

/CRT IMPURITY=GINI MINIMPROVEMENT=0.0001

/COSTS EQUAL

/PRIORS FROMDATA ADJUST=NO

/MISSING NOMINALMISSING=MISSING

1.3.2 自變量中不含TIR屬性

自變量為表1中的1～9，其它參數(shù)設(shè)置同1.3.1.其算法語(yǔ)法運(yùn)行如下：

* 決策樹(shù).

TREE 診斷結(jié)果 [n] BY 性別 [n] 年齡 [s] TG [s] HDLC [s] TCHO [s] LDLC [s] UmALB [s] HbA1c [s] UACR [s]

/TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO

/DEPCATEGORIES USEVALUES=['0' '1'] TARGET=['1']

/PRINT MODELSUMMARY IMPORTANCE CLASSIFICATION RISK

/GAIN CATEGORYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO

/PLOT IMPORTANCE

/METHOD TYPE=CRT MAXSURROGATES=AUTO PRUNE=NONE

/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=5 MINCHILDSIZE=1

/VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES

/CRT IMPURITY=GINI MINIMPROVEMENT=0.0001

/COSTS EQUAL

/PRIORS FROMDATA ADJUST=NO

/MISSING NOMINALMISSING=MISSING

2 結(jié)果與分析

2.1 含TIR的實(shí)驗(yàn)結(jié)果

在使用CRT算法運(yùn)行后生成的含TIR的決策樹(shù)模型如圖1所示.其深度為4，總結(jié)點(diǎn)數(shù)為15，終端節(jié)點(diǎn)數(shù)為8，在根節(jié)點(diǎn)中確診DKD的比例為37%.樹(shù)模型的4層分別按照UACR，HDL-C、TCHO，年齡、TG，mALB、TIR作為節(jié)點(diǎn)進(jìn)行拆分，說(shuō)明這幾個(gè)屬性對(duì)希望預(yù)測(cè)的目標(biāo)類別(確診DKD)有較大影響.將樹(shù)模型往下第一層結(jié)點(diǎn)以“UACR(尿微量白蛋白/肌酐)”進(jìn)行拆分，拆分點(diǎn)為：是否超過(guò) 60.58 mg/g，符合2020版中國(guó)2型糖尿病防治指南中“UACR>30 mg/g, 腎組織活檢符合糖尿病腎病(DKD)病理改變,臨床可診斷為糖尿病腎病(DKD)”[2,19]. 由此說(shuō)明，該樹(shù)模型符合臨床實(shí)際，具有高度的可用性和參考性.

圖1 含TIR的樹(shù)模型結(jié)果Fig.1 Results of tree model with TIR

節(jié)點(diǎn)增益如表3所示.TIR≤78.5的節(jié)點(diǎn)13增益并列最高，其節(jié)點(diǎn)個(gè)案數(shù)僅占總樣本量的 9.3%，卻有 100%樣本被確診為DKD，即響應(yīng)率為 100%，遠(yuǎn)高于平均確診率 37%(見(jiàn)根結(jié)點(diǎn)).增益為節(jié)點(diǎn)確診個(gè)案樣本數(shù)與確診總樣本數(shù)的比值.指數(shù)體現(xiàn)增益一列百分比與節(jié)點(diǎn)一列百分比的比值信息.這說(shuō)明TIR值低于 78.5%對(duì)確診DKD有更重要的作用，在理論上有可能TIR低于 78.5%的2糖患者被確診為DKD的風(fēng)險(xiǎn)會(huì)增大，建議臨床上可針對(duì)此數(shù)值進(jìn)行深入研究.

表3 含TIR節(jié)點(diǎn)的增益

模型準(zhǔn)確率如表4所示.該模型的預(yù)測(cè)準(zhǔn)確率為100%，預(yù)測(cè)準(zhǔn)確率總體達(dá)100%.其中，0表示未確診DKD的樣本數(shù)，1表示確診DKD的樣本數(shù).因此，該模型對(duì)是否確診DKD進(jìn)行分析預(yù)測(cè)的效果極好，其結(jié)果具有較高的參考價(jià)值.

表4 含TIR模型的準(zhǔn)確率

TIR在所有自變量中的重要性排名如表5所示.在“是否診斷DKD”的因變量中，排名前兩位的是“mALB”“UACR”，其與現(xiàn)有臨床DKD診斷標(biāo)準(zhǔn)基本符合[19]，說(shuō)明此模型分析結(jié)果與實(shí)際相符，具有高度的準(zhǔn)確性.TIR作為新加入的待研究指標(biāo)，重要性在“高密度脂蛋白”后，在10項(xiàng)診斷指標(biāo)中排名第4，說(shuō)明TIR指標(biāo)對(duì)診斷DKD的權(quán)重影響較大.

表5 含TIR的自變量重要性

2.2 不含TIR的實(shí)驗(yàn)結(jié)果

在使用CRT算法運(yùn)行后生成的不含TIR的決策樹(shù)模型，其深度為4，總結(jié)點(diǎn)數(shù)為15，終端節(jié)點(diǎn)數(shù)為8.不含TIR的樹(shù)模型結(jié)果如圖2所示.樹(shù)模型的4層分別以UACR,HDL-C、TCHO,年齡、TG,mALB、TG作為節(jié)點(diǎn)進(jìn)行拆分，說(shuō)明除去TIR后仍是原來(lái)幾個(gè)屬性對(duì)目標(biāo)類別有影響，并沒(méi)有出現(xiàn)新的屬性替代TIR.這說(shuō)明TIR作為屬性，對(duì)目標(biāo)類別的作用是不可取代的.

圖2 不含TIR的樹(shù)模型結(jié)果Fig.2 Results of tree model without TIR

不含TIR樹(shù)模型的節(jié)點(diǎn)增益如表6所示，節(jié)點(diǎn)6、8、12、13的增益同時(shí)為最高，響應(yīng)率均為100%，節(jié)點(diǎn)14的響應(yīng)率為50%.

表6 不含TIR節(jié)點(diǎn)的增益

不含TIR的模型準(zhǔn)確率如表7所示.在預(yù)測(cè)確診DKD中出現(xiàn)了1條錯(cuò)誤數(shù)據(jù)，即實(shí)際為確診樣本，但預(yù)測(cè)為未確診樣本，由此導(dǎo)致預(yù)測(cè)確診DKD的正確百分比只有19/20=95%，預(yù)測(cè)確診DKD的總體百分比為35/54=64.8%，預(yù)測(cè)未確診DKD的總體百分比為19/54=35.2%，從而使得總體準(zhǔn)確率下降至98.1%.這說(shuō)明TIR對(duì)“是否確診DKD”是有影響的.

表7 不含TIR模型的準(zhǔn)確率

不含TIR的9個(gè)自變量重要性排名如表8所示.在“是否診斷DKD”的因變量中，除去TIR后，所有自變量的重要性排名不變.這說(shuō)明此模型的分析結(jié)果與實(shí)際相符，具有高度的準(zhǔn)確性.

表8 不含TIR的自變量重要性

3 結(jié) 語(yǔ)

為研究TIR對(duì)DKD診斷是否有影響,本文構(gòu)建了基于決策樹(shù)算法的DKD診斷預(yù)測(cè)模型，并在漳州市區(qū)三乙以上醫(yī)院數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了驗(yàn)證，結(jié)果表明：TIR對(duì)臨床診斷DKD具有其他指標(biāo)不可替代的積極作用，TIR低于78.5%的T2DM患者可能被確診為DKD的風(fēng)險(xiǎn)增大；TIR自變量的重要性排名靠前，說(shuō)明其可作為DKD臨床診斷的重要指標(biāo)之一.

TIR作為新興指標(biāo)，數(shù)據(jù)采集相對(duì)困難.本文所采集的數(shù)據(jù)僅限于漳州市區(qū)三乙以上醫(yī)院，數(shù)據(jù)的范圍和數(shù)量對(duì)建模來(lái)說(shuō)相對(duì)較少，因此在某種程度上會(huì)影響模型的預(yù)測(cè)效果.另外，除決策樹(shù)外，下一步研究應(yīng)嘗試采用更多的機(jī)器學(xué)習(xí)算法進(jìn)行DKD診斷預(yù)測(cè)效果的比較.