亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹模型在臨床研究數(shù)據(jù)分析中的應(yīng)用

        2024-06-21 00:00:00沈范玲子王瑞平
        上海醫(yī)藥 2024年5期
        關(guān)鍵詞:臨床研究

        摘 要 決策樹模型是一種有監(jiān)督的機(jī)器學(xué)習(xí)方法,分類規(guī)則通常采取IF-THEN形式,分析結(jié)果常以樹形圖呈現(xiàn),具有可解釋性強(qiáng)、易于理解的優(yōu)勢,在災(zāi)害預(yù)測、環(huán)境監(jiān)測、臨床診療決策等領(lǐng)域均有廣泛的應(yīng)用。本文從決策樹模型概念入手,介紹了決策樹模型的一般構(gòu)建步驟、分類與回歸樹(classification and regression tree, CART)決策樹模型在臨床研究數(shù)據(jù)分析中的應(yīng)用,并應(yīng)用SPSS軟件示例CART決策樹模型的構(gòu)建過程和實現(xiàn)方法,以期為臨床研究者采用決策樹模型進(jìn)行數(shù)據(jù)分析提供參考。

        關(guān)鍵詞 決策樹 臨床研究 CART算法 SPSS軟件

        中圖分類號:G304; R-3 文獻(xiàn)標(biāo)志碼:C 文章編號:1006-1533(2024)05-0014-05

        引用本文 沈范玲子, 王瑞平. 決策樹模型在臨床研究數(shù)據(jù)分析中的應(yīng)用[J]. 上海醫(yī)藥, 2024, 45(5): 14-18.

        基金項目:上海市衛(wèi)生健康委員會衛(wèi)生行業(yè)臨床研究專項(202240371);上海申康醫(yī)院發(fā)展中心第二輪促進(jìn)市級醫(yī)院臨床技能與臨床創(chuàng)新三年行動計劃——研究型醫(yī)師創(chuàng)新轉(zhuǎn)化能力培訓(xùn)項目(SHDC2022CRS053);上海市皮膚病醫(yī)院引進(jìn)人才科研基金項目(2021KYQD01);上海人才發(fā)展基金資助項目(2021SHRCFZ01);上海市醫(yī)院協(xié)會醫(yī)院管理研究基金項目(X2022117)

        Application of decision tree modeling in clinical research data analysis

        SHEN Fanlingzi1, WANG Ruiping1,2

        (1. School of Public Health, Shanghai University of Traditional Chinese Medicine, Shanghai 201203, China; 2. Clinical Research Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)

        ABSTRACT Decision tree model is a supervised machine learning method and its classification rules usually take the form of IF-THEN, the analysis results are often presented in the form of tree diagrams, with the advantages of solid interpretability and ease understanding, and it has been widely used in the fields of disaster prediction, environmental monitoring, clinical diagnosis and treatment decision-making. This article starts from the concept of decision tree model, introduces the general construction steps of decision tree model, the application of classification and regression tree (CART) decision tree model in the analysis of clinical research data, and the construction process and realization method of CART decision tree model using the SPSS software example, so as to provide a better solution for clinical researchers to use decision tree model for data analysis.

        KEY WORDS decision trees; clinical research; CART algorithm; SPSS software

        臨床醫(yī)學(xué)研究中,在探討多個自變量和因變量之間關(guān)系時,常采用多元線性回歸、logistic回歸、Cox回歸分析、廣義線性模型等經(jīng)典統(tǒng)計分析方法。近年來,隨著臨床研究的深入和數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)已成為臨床研究數(shù)據(jù)分析的重要工具,以解決不同數(shù)據(jù)特征之間存在復(fù)雜相互作用問題。決策樹模型是機(jī)器學(xué)習(xí)中的一種重要算法,具有可解釋性強(qiáng)、易于理解的優(yōu)勢,被廣泛應(yīng)用于分類、預(yù)測、規(guī)則提取等領(lǐng)域[1]。在臨床研究中,決策樹模型常應(yīng)用于疾病預(yù)測和診斷、危險因素篩查、治療方法選擇等研究,其能較好地為研究人員提供科學(xué)的決策依據(jù)[2]。本文以上海地區(qū)銀屑病患者治療效果影響因素分析為例,介紹決策樹模型在臨床研究數(shù)據(jù)分析中的應(yīng)用,以及其在統(tǒng)計分析軟件SPSS 26.0中的實現(xiàn)方法。

        1 決策樹模型簡介

        決策樹模型是樹模型的一種類型,是一種非參數(shù)有監(jiān)督的機(jī)器學(xué)習(xí)方法,是數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)領(lǐng)域常用模型。迭代二叉樹3代(iterative dichotomiser 3, ID3)、C4.5、分類與回歸樹(classifi cation and regression tree, CART)、卡方自動交互檢測(chi-squared automatic interaction detector, CHAID)、快速無偏高效統(tǒng)計樹(quick unbiased effi cient statistical tree, QUEST)算法均是常見的決策樹模型算法。如圖1所示,一棵決策樹由一個根節(jié)點、若干個決策節(jié)點和若干個葉節(jié)點組成。根節(jié)點是決策樹的第一個選擇點,包含整個數(shù)據(jù)集;決策節(jié)點代表決策過程中所考慮的特征,根據(jù)特征取值將數(shù)據(jù)集進(jìn)一步劃分;葉節(jié)點表示分類或預(yù)測的結(jié)果,將不再繼續(xù)分割。在相連的兩個節(jié)點中,更靠近根節(jié)點的是父節(jié)點,另一個則是子節(jié)點,父節(jié)點是子節(jié)點的直屬上級節(jié)點[3]。

        決策樹模型的構(gòu)建一般包括3個步驟:特征的選擇、決策樹的生成和決策樹的剪枝[4]。首先,特征的選擇是最重要的環(huán)節(jié),其目標(biāo)在于找到最能區(qū)分不同類別的特征,從而提升決策樹的分類效果。實際應(yīng)用時,不同的決策樹算法有不同的特征衡量標(biāo)準(zhǔn)。例如,在ID3算法中使用“信息增益”作為特征選擇標(biāo)準(zhǔn),C4.5算法中使用“信息增益率”作為特征選擇標(biāo)準(zhǔn),而CHAID算法中則使用“卡方檢驗結(jié)果”作為特征選擇標(biāo)準(zhǔn)。其次,決策樹的生成采用自上而下的遞歸方式進(jìn)行,計算機(jī)會根據(jù)所選擇的特征的不同取值向下劃分,最終形成一棵決策樹。最后,決策樹的剪枝是為了防止過擬合現(xiàn)象發(fā)生,提高決策樹的泛化能力,剪枝方法有預(yù)剪枝和后剪枝2種類型[5]。

        2 CART決策樹算法

        CART是一種經(jīng)典的決策樹算法,由Leo Breiman等于1984年正式提出,廣泛應(yīng)用于分類或回歸問題[3]。CART算法使用“基尼指數(shù)”作為特征選擇標(biāo)準(zhǔn),基尼指數(shù)越小則代表所選擇的特征越好?;贑ART算法生成的決策樹是一棵二叉樹,具有清晰的層級結(jié)構(gòu),易于理解和解釋。同時,CART算法在構(gòu)建決策樹模型時既能處理分類變量也能處理連續(xù)變量,適用范圍大,目前正逐步在臨床研究中得到廣泛應(yīng)用。

        3 CART決策樹在臨床研究數(shù)據(jù)分析中的應(yīng)用

        3.1 數(shù)據(jù)來源

        本文以“吸煙飲酒對銀屑病患者治療效果的影響研究”數(shù)據(jù)集為例,闡述如何應(yīng)用CART決策樹模型探討銀屑病患者治療效果的影響因素。該數(shù)據(jù)集中包含8個變量(年齡、性別、文化程度、慢性病史、銀屑病家族史、吸煙史、飲酒史和治療效果),共512條數(shù)據(jù)記錄。因變量為銀屑病治療8周的臨床效果,包括“治療成功”和“治療不成功”2個分類。本研究將患者治療8周后銀屑病皮損面積和嚴(yán)重程度指數(shù)(psoriasis area and severity index, PASI)較基線改善程度≥75%的患者定義為“治療成功”,而PASI較基線改善程度<75%的患者定義為“治療不成功”。除治療效果外,其余7個變量均可視為影響治療效果的特征,為分類變量(年齡“<50=1,≥50=2”;性別“男性=1,女性=2”;文化程度“初中及以下=1,高中=2,大學(xué)及以上=3”;慢性病史“有=1,無=2”;銀屑病家族史“有=1,無=2”;吸煙史“有=1,無=2”;飲酒史“有=1,無=2”)。

        3.2 SPSS軟 件操作說明

        將銀屑病患者數(shù)據(jù)集轉(zhuǎn)為SPSS格式并導(dǎo)入SPSS軟件后,進(jìn)行參數(shù)設(shè)置。選擇“分析→分類→決策樹”,在彈窗中,可以單擊“定義變量屬性”對變量進(jìn)行定義,如已在“變量視圖”中進(jìn)行定義,可以選擇“確定”按鈕進(jìn)行后續(xù)操作(圖2)。

        如圖2所示,將“治療效果”放入因變量列表框,單擊“類別”,在復(fù)選框中選擇一個(或多個)感興趣的目標(biāo)類別。在本文中,可先將“治療成功”作為感興趣的目標(biāo)變量,單擊“繼續(xù)”返回主對話框;再把年齡、性別、文化程度、慢性病史、銀屑病家族史、吸煙史和飲酒史等7個變量放入自變量列表框;最后在“生長法”欄目中選擇“CRT”方法。

        在主對話框的右側(cè)有“輸出”“驗證”“條件”“保存”和“選項”等5個按鈕:單擊“輸出”,可以對輸出的樹形圖、生成分類規(guī)則等進(jìn)行設(shè)置;單擊“驗證”,可以選擇驗證方法;單擊“條件”,可以對最大樹深、父節(jié)點和子節(jié)點的最小樣本數(shù)量等進(jìn)行設(shè)置;單擊“保存”,可以選擇保存終端節(jié)點數(shù)、預(yù)測值、預(yù)測概率等;單擊“選項”,可以對缺失值、錯誤分類成本等進(jìn)行設(shè)置。本文選擇了以“表和圖表”的形式輸出決策樹模型,勾選輸出自變量對模型的重要性;采用隨機(jī)分割驗證,70%的數(shù)據(jù)用于訓(xùn)練集,30%的數(shù)據(jù)用于測試集;設(shè)置最大樹深為4層,設(shè)置父節(jié)點和子節(jié)點的最小樣本數(shù)量分別為50和10;勾選保存終端節(jié)點數(shù)、預(yù)測值、預(yù)測概率,單擊“繼續(xù)”返回主對話框。由此,單擊“確定”,得到?jīng)Q策樹模型,可在查看器中雙擊圖片,對圖片進(jìn)行編輯。參數(shù)設(shè)置如圖3所示,輸出結(jié)果如圖4所示。

        3.3 結(jié)果描述

        決策樹結(jié)果顯示“吸煙史”是模型的根節(jié)點,也是影響治療效果最重要的影響因素,不吸煙的銀屑病患者治療成功率明顯高于吸煙的銀屑病患者。其他變量根據(jù)重要性依次為飲酒史、性別、文化程度以及銀屑病家族史。決策樹模型共有9個葉節(jié)點,即可提取9條分類規(guī)則。如表1所示,節(jié)點15的分類規(guī)則為IF“吸煙史=無”AND“飲酒史=無”AND“文化程度=高中;大學(xué)及以上”AND“銀屑病家族史=無”THEN“治療效果=治療成功”,該節(jié)點人群治療成功的百分比為79.2%。

        3.4 預(yù)測效果評價

        使用受試者工作特征(receiver operating characteristic, ROC)曲線對模型進(jìn)行評價。如圖5所示,選擇“分析→分類→ROC曲線”,在檢驗變量框中放入之前保存的預(yù)測概率變量,狀態(tài)變量框中放入治療效果變量,設(shè)置狀態(tài)變量值,再在“顯示”一欄中勾選需要的參考線和數(shù)據(jù),單擊“確定”,即可生成ROC曲線圖。此外,可在查看器中雙擊圖片,對圖片進(jìn)行編輯。本文決策樹模型的ROC曲線結(jié)果如圖6所示。

        參考文獻(xiàn)

        [1] 張良均, 謝佳標(biāo), 楊坦, 等. R語言與數(shù)據(jù)挖掘[M]. 北京:機(jī)械工業(yè)出版社, 2016.

        [2] 張燕. 基于決策樹的老年心血管疾病住院患者衰弱預(yù)測模型構(gòu)建[D]. 汕頭: 汕頭大學(xué), 2021.

        [3] 黃智瀕. 現(xiàn)代決策樹模型及其編程實踐:從傳統(tǒng)決策樹到深度決策樹[M]. 北京: 機(jī)械工業(yè)出版社, 2022.

        [4] 汪靖翔. 決策樹算法的原理研究和實際應(yīng)用[J]. 電腦編程技巧與維護(hù), 2022(8): 54-56; 72.

        [5] 賴春廷. 決策樹分類算法研究[J]. 信息與電腦(理論版), 2020, 32(14): 59–62.

        猜你喜歡
        臨床研究
        平竇膏治療濕熱毒瘀型肛隱窩炎40例
        口干是否類風(fēng)濕關(guān)節(jié)炎中醫(yī)陰虛證候關(guān)鍵指標(biāo)的臨床研究
        碳酸氫鈉溶液關(guān)節(jié)腔持續(xù)沖洗治療痛風(fēng)性膝關(guān)節(jié)炎的臨床研究
        黃芝通腦絡(luò)膠囊治療糖尿病周圍神經(jīng)病變的臨床觀察
        小兒院前急救及急診心肺復(fù)蘇的臨床研究
        動態(tài)X光片在頸椎病早期診斷中的臨床研究
        血漿置換聯(lián)合血漿吸附治療慢性重型肝炎的臨床研究
        復(fù)方硼酸含漱液的藥理毒理學(xué)研究
        缺血性腦血管病患者腦動脈狹窄的分布
        少妇高潮潮喷到猛进猛出小说| 蜜桃av在线播放视频| 国产真实一区二区三区| 五月四房播播| 少妇人妻偷人精品视蜜桃| 国产高清在线精品一区αpp| 亚洲人妻av综合久久| 精品高朝久久久久9999| 亚洲一区二区三区无码国产| 亚洲国产欧美日韩一区二区| 亚洲国产精品午夜一区| 偷拍夫妻视频一区二区| 无码少妇一区二区性色av| 午夜高清福利| 区三区久久精品水蜜桃av| 中文字幕亚洲精品久久| 亚洲综合欧美在线一区在线播放| 久久精品这里只有精品| 性感人妻av在线播放| 青青草成人在线免费视频| 中国农村妇女hdxxxx| 粉嫩极品国产在线观看| 亚洲福利视频一区二区三区| 久久精品国产久精国产爱| 999久久久无码国产精品| 色欲AV成人无码精品无码| 亚洲天堂av在线观看免费| 中文字幕在线观看| 久久欧美与黑人双交男男 | 无码日韩精品一区二区三区免费| 在线精品无码一区二区三区| 高清成人在线视频播放| 欲求不満の人妻松下纱荣子| 婷婷成人基地| 亚洲一区二区成人在线视频| 东京热日本av在线观看| 亚洲精品乱码久久久久久日本蜜臀| 91久久精品无码人妻系列| 中文字幕亚洲乱码熟女1区2区| 成人国成人国产suv| 九九热在线视频观看这里只有精品|