亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于logistic回歸的二分類結(jié)局臨床預(yù)測模型的Stata實現(xiàn)方法*

2022-09-14 09:57:42張宇錚呂海永賈志芳

中國衛(wèi)生統(tǒng)計 2022年3期

鄭敏張宇錚，2 呂海永賈志芳姜晶，2△

【提要】目的結(jié)合早期胃癌患者淋巴結(jié)轉(zhuǎn)移臨床預(yù)測模型的實例，探討通過Stata軟件建立、評價和驗證二分類結(jié)局的臨床預(yù)測模型的實現(xiàn)方法。方法選取2010年至2018年收集的早期胃癌患者淋巴結(jié)轉(zhuǎn)移數(shù)據(jù)為實例數(shù)據(jù)集，并以2017年7月1日作為患者入組分界點，將數(shù)據(jù)分為建模集和驗證集，通過實例介紹利用Stata/SE 15.0建立、評價和驗證二分類結(jié)局臨床預(yù)測模型的方法。結(jié)果實例中建模集746例胃癌患者中144例(19.3%)發(fā)生淋巴結(jié)轉(zhuǎn)移。預(yù)測模型最終納入T分期、腫瘤最大徑、分化程度和脈管浸潤4個變量。模型的區(qū)分度評價指標(biāo)C指數(shù)為0.864，模型校準(zhǔn)度Hosmer-Lemeshow檢驗P=0.983，臨床決策曲線顯示臨床適用度較好。在驗證集中，模型的C指數(shù)為0.911，校準(zhǔn)度Hosmer-Lemeshow檢驗的P值為0.631。結(jié)論利用Stata軟件可以簡單、快捷地實現(xiàn)臨床預(yù)測模型的建立、評價和驗證過程，尤其在列線圖的繪制方面存在優(yōu)勢。

在臨床應(yīng)用中，研究者關(guān)注的結(jié)局往往不是連續(xù)變化的，而是某個特定事件是否發(fā)生，如是否罹患疾病、有無并發(fā)癥等二分類結(jié)局事件。二分類結(jié)局事件的發(fā)生率分布于0～1之間，不服從正態(tài)分布，無法采用線性回歸模型描述觀察指標(biāo)對結(jié)局的作用大小及方向。此時，logistic回歸模型可用于該結(jié)局事件發(fā)生概率的預(yù)測。

臨床預(yù)測模型可以通過數(shù)學(xué)公式估計特定個體當(dāng)前患有某病或?qū)戆l(fā)生某種結(jié)局的概率。對于二分類結(jié)局事件，常通過建立logistic回歸模型，預(yù)測特定個體發(fā)生結(jié)局的概率。但是，目前對于此類模型在Stata軟件中如何實現(xiàn)的介紹較少。本文擬利用2010年至2018年收集的早期胃癌(early gastric cancer，EGC)患者淋巴結(jié)轉(zhuǎn)移數(shù)據(jù)作為實例[1]，介紹此類模型的建立、評價和驗證的指標(biāo)體系及在Stata/SE 15.0軟件中的實現(xiàn)方法，以期為相關(guān)研究者提供借鑒。

基于logistic回歸的臨床預(yù)測模型的原理與評價方法

1.臨床預(yù)測模型的建立

(1)模型的變量篩選方法

建立臨床預(yù)測模型，首先從研究目的出發(fā)，參考既往文獻提出的該結(jié)局事件的影響因素，結(jié)合專業(yè)知識，初步選定欲探究的預(yù)測變量。再利用統(tǒng)計模型篩選、綜合評估備選預(yù)測變量與結(jié)局事件發(fā)生與否的關(guān)系，最終確定納入預(yù)測模型的變量。

(2)logistic回歸模型的基本形式

logistic回歸模型是一種預(yù)測、判斷結(jié)局發(fā)生概率的概率型非線性回歸模型[2]。其預(yù)測變量可以是任意類型的數(shù)據(jù)，包括連續(xù)型、等級型、無序多分類型或二分類型等，結(jié)局變量可以是二分類、有序變量或無序多分類變量。在實際應(yīng)用中，以二分類結(jié)局變量多見。

logistic回歸模型的基本形式為：

2.模型的評價

臨床預(yù)測模型評價常包括區(qū)分度(discrimination)、校準(zhǔn)度(calibration)、臨床實用性(clinical usefulness)三個維度。

(1)區(qū)分度評價

預(yù)測模型的區(qū)分度是指該模型區(qū)分發(fā)生事件的高風(fēng)險人群和較低風(fēng)險人群的能力。區(qū)分度越高，模型的辨別能力越強[3]。常用指標(biāo)包括C指數(shù)(C-index)、凈重新分類指數(shù)(net reclassification index，NRI)和綜合判別改善指數(shù)(integrated discrimination index，IDI)。

C指數(shù)是評價模型區(qū)分度的最常用指標(biāo)。在logistic回歸模型中，C指數(shù)等于根據(jù)構(gòu)建的模型繪制出受試者工作特征(receiver operating characteristic，ROC)曲線下面積(area under curve，AUC)。logistic回歸模型的C指數(shù)和AUC取值范圍在0～1之間，取值越大，代表模型的區(qū)分度越高。

(2)校準(zhǔn)度評價

校準(zhǔn)度反映模型預(yù)測的絕對風(fēng)險與實際觀察風(fēng)險的一致程度，也稱一致性。校準(zhǔn)度的評價方法包括擬合優(yōu)度檢驗(Hosmer-Lemeshow goodness of fit test)和校準(zhǔn)圖。校準(zhǔn)曲線是常用的一種校準(zhǔn)圖，是一條由個體發(fā)生結(jié)局事件的預(yù)測風(fēng)險和實際風(fēng)險的散點擬合而成的曲線，該曲線與斜率為1的參考線越接近、曲線擬合度越高，模型的校準(zhǔn)度就越高。

(3)臨床實用性評價——決策曲線分析

決策曲線分析法(decision curve analysis，DCA)用于解決臨床效用問題。以實例數(shù)據(jù)為例，假設(shè)胃癌患者已發(fā)生淋巴結(jié)轉(zhuǎn)移的概率為Pt，此時界定為淋巴結(jié)轉(zhuǎn)移和(或)應(yīng)當(dāng)采取干預(yù)措施；無論Pt取何值，都會有個體因接受了干預(yù)而受益，也有個體因干預(yù)遭受傷害或未干預(yù)產(chǎn)生健康損失，由此計算淋巴結(jié)轉(zhuǎn)移概率Pt下所有患者的凈受益。決策曲線分析的意義在于探索如何令所有觀察對象的凈受益最大化。

3.模型的驗證

建立預(yù)測模型后，還應(yīng)當(dāng)對模型進行驗證，評價模型的可重復(fù)性和外推性。驗證有內(nèi)部驗證和外部驗證兩種策略[4]。內(nèi)部驗證常在建立模型的數(shù)據(jù)集中進行，可采用留N法或K-折交叉驗證、隨機驗證或bootstrap重抽樣法。外部驗證是指于不同的時間和(或)不同的研究現(xiàn)場收集獨立的數(shù)據(jù)集，進而加以驗證，此獨立的數(shù)據(jù)集稱為外部驗證數(shù)據(jù)集。

4.模型的展示

臨床預(yù)測模型常用的展示方式包括公式法、評分系統(tǒng)、列線圖(nomogram)、網(wǎng)頁計算器等。其中，列線圖能夠直觀易懂地實現(xiàn)模型展示，適用于預(yù)測變量數(shù)不多的模型。

列線圖按照納入模型的預(yù)測變量的偏回歸系數(shù)進行評分。實際應(yīng)用中，根據(jù)某個體的預(yù)測變量的實際取值，計算所有變量的得分之和，查閱列線圖中該總分對應(yīng)的風(fēng)險概率。

實例應(yīng)用及結(jié)果解釋

臨床預(yù)測模型的構(gòu)建與驗證過程在常用的統(tǒng)計軟件中皆可實現(xiàn)，如Stata、R、SAS等。本文案例以早期胃癌淋巴結(jié)轉(zhuǎn)移(lymph node metastasis，LNM)預(yù)測模型的建立為例，展示使用Stata 15.0軟件進行模型的構(gòu)建、評價和驗證的方法。案例中，研究者共招募872例早期胃癌患者，早于2017年7月入組的患者組成建模集(dataset1)，共746例，之后的126例患者構(gòu)成驗證集(dataset2)。

1.預(yù)測變量篩選與模型構(gòu)建

本案例數(shù)據(jù)集共有1個結(jié)局變量和9個備選預(yù)測變量，相應(yīng)的變量名及含義見表1。

表1 變量命名、賦值及統(tǒng)計學(xué)描述

首先在建模集中進行結(jié)局變量LNM與上述9個備選預(yù)測變量關(guān)系的單因素分析，初步探究預(yù)測變量與結(jié)局變量是否相關(guān)，形成下一步變量篩選的變量池。單因素分析結(jié)果顯示，共有7個備選預(yù)測變量(P<0.1)。

將單因素分析P<0.1的變量納入多因素logistic回歸分析，采用向前篩選的方法，篩選可能與結(jié)局變量LNM獨立相關(guān)的因素?？紤]T分期是早期胃癌治療方法選擇的重要依據(jù)，將其強制納入模型(β=1.49，P=0.065)。除此之外，進入模型的變量還包括脈管浸潤(有vs無，β=3.38，P<0.001)、分化程度(低分化vs中高分化，β=0.68；P=0.015)和腫瘤直徑(>3.0 cm vs ≤3cm，β=0.59；P=0.045)。模型建立使用的Stata程序命令見表2。

表2 早期胃癌LNM預(yù)測模型構(gòu)建的命令及說明

2.模型評價與驗證

區(qū)分度評價結(jié)果顯示，LNM預(yù)測模型的AUC為0.864(95%CI：0.827～0.901，圖1a)，區(qū)分度較好。采用Bootstrap法進行500次自助抽樣進行內(nèi)部驗證，AUC為0.861(95%CI：0.851～0.864)；在126名研究對象構(gòu)成的外部驗證集中，AUC為0.911(95%CI：0.848～0.974，圖1b)。上述結(jié)果表明模型的區(qū)分度良好。

校準(zhǔn)度Hosmer-Lemeshow檢驗顯示，建模集中的P值為0.983(χ2=2.40)，驗證集中的P值為0.631(χ2=3.49)。校準(zhǔn)曲線顯示，建模集(圖1c)和驗證集(圖1d)的實際觀察值散點相對集中于斜率為1的參考線附近，表示模型預(yù)測值與實際觀察值擬合度良好。

臨床實用性評價結(jié)果顯示，當(dāng)LNM的概率閾值(Pt)的取值在10%～70%時，在該預(yù)測模型下觀察對象的凈受益較高。綜上，該模型適合用于評價接受內(nèi)窺鏡治療的EGC患者是否需要清掃淋巴結(jié)。

最終模型顯示，LNM預(yù)測模型的預(yù)測變量包括脈管浸潤、組織分化程度、腫瘤最大徑和浸潤深度(T分期)，基于上述變量構(gòu)建列線圖(圖2)。以上過程使用的Stata程序見表3。

表3 早期胃癌LNM預(yù)測模型驗證的命令及說明

圖1 早期胃癌LNM預(yù)測模型的區(qū)分度和校準(zhǔn)度分析

討論

臨床預(yù)測模型，作為直觀的風(fēng)險與獲益評估的工具，可為醫(yī)生、患者和衛(wèi)生政策制定者提供簡便易懂的資料[5]。模型的建立是個系統(tǒng)工程，不僅需要保證預(yù)測變量和參數(shù)計算方面準(zhǔn)確易得，在模型的評價、驗證和可視化方面也應(yīng)當(dāng)易于實現(xiàn)。Stata軟件作為公認(rèn)的統(tǒng)計分析軟件之一，在臨床預(yù)測模型的建立過程中有獨特優(yōu)勢。其語句簡單易懂，輸出圖形可直接用于發(fā)表，同時軟件提供了詳細的幫助和命令書寫說明，大大降低了相關(guān)研究的學(xué)習(xí)門檻。研究者可以快捷地實現(xiàn)相應(yīng)臨床預(yù)測模型建立的整個過程。

本研究實例建立的淋巴結(jié)轉(zhuǎn)移風(fēng)險預(yù)測模型的列線圖顯示，早期胃癌患者如果有脈管浸潤，此變量對應(yīng)的風(fēng)險評分記為10分，對應(yīng)的胃癌淋巴結(jié)轉(zhuǎn)移風(fēng)險升高50%，脈管浸潤是發(fā)生淋巴結(jié)轉(zhuǎn)移的重要預(yù)測因素。該發(fā)現(xiàn)與第5版日本《胃癌治療指南》中引用的eCura評分系統(tǒng)(OR=3.99，95%CI：2.43～6.55)[6-7]，以及Jeung等構(gòu)建的RSS評分系統(tǒng)(OR=25.448；95%CI：9.58～67.61)[8]等結(jié)論一致。值得一提的是，Stata軟件僅需借助“nomolog”這一命令，即可輸出列線圖，而且圖片質(zhì)量較高。

圖2 早期胃癌淋巴結(jié)轉(zhuǎn)移風(fēng)險預(yù)測模型的列線圖

總之，Stata軟件在臨床預(yù)測模型，尤其是基于logistic回歸的預(yù)測模型的建立上，結(jié)果可靠，操作簡便，是值得推薦的工具。