陳代權 林淑芳 戴志松 周銀發(fā) 陳堃
我國是結核病高負擔國家,通過持續(xù)開展結核病控制規(guī)劃,我國利福平敏感肺結核成功治療率已達到90%以上,但由于患者基數大,2020年全國登記的患者中仍有3萬余例活動性肺結核患者治療不成功[1]?,F有研究表明,不規(guī)律治療是影響治療轉歸的重要因素[2-5]。通過加強患者的服藥管理可以明顯降低患者不良轉歸率[3-6]。
我國于2015年起將結核病患者健康管理納入基本公共衛(wèi)生服務項目。隨著基本公共衛(wèi)生服務項目的開展,群眾對高質量基本公共衛(wèi)生服務的需求增加,基層醫(yī)療衛(wèi)生機構人員不足問題日漸凸顯[7]。近年來,“互聯網+”技術和各種智能工具在患者管理中得到廣泛應用,專家建議,應以患者為中心,按照多樣化、個性化和可調整的原則選擇合適的督導管理方式[8]。因此,開展患者治療不成功風險評估和分類,根據評估結果選擇合適的督導管理方式迫在眉睫。
現有的預測模型大部分基于專項調查或臨床檢查的數據,其中有些預測因素在縣級定點醫(yī)院結核門診無法及時獲得;且預測模型為復雜函數公式,不易理解,導致預測模型在基層醫(yī)療衛(wèi)生機構實際使用遇到困難。列線圖因其簡單易懂,容易操作,在臨床中得到廣泛應用,李本春等[9]和李顏玲等[10]分別使用列線圖對結核病患者治療依從性和治療不成功風險進行了預測,Yan等[11]對肺結核合并肺部真菌感染診斷進行了預測,均取得較好的預測效果。
本研究利用“中國疾病預防控制信息系統(tǒng)”的子系統(tǒng)“結核病管理信息系統(tǒng)”(以下簡稱“系統(tǒng)”)中的肺結核患者監(jiān)測信息,采用列線圖構建了一個供基層醫(yī)療衛(wèi)生機構使用的轉歸預測模型,旨在對患者發(fā)生治療不成功風險進行分類,對不同風險人群采取不同干預措施,加強高風險人群督導管理,從而提高患者成功治療率。
從系統(tǒng)中導出2016年1月1日至2020年12月31日登記的現住址為福建省的利福平敏感活動性肺結核患者的相關資料,去除患者個人標識信息等脫敏后進行統(tǒng)計分析。
圖1 模型構建樣本篩選流程圖
根據《中國結核病預防控制工作技術規(guī)范(2020版)》定義,利福平敏感肺結核患者治療轉歸分為:治愈、完成治療、治療失敗、死亡、失訪和其他,成功治療包括治愈和完成治療[13]。本研究將成功治療以外的轉歸定義為不良轉歸。本研究根據既往研究發(fā)現的肺結核不良轉歸影響因素和同類研究的預測因子[2,6,14],同時考慮不同地區(qū)差異,以患者服藥管理開始時可從系統(tǒng)中獲取的年齡、性別、職業(yè)、患者發(fā)現方式、治療分類、肺外結核、合并癥、現住址類型、戶籍地址類型、現住址所屬地市和初診病原學檢查結果等變量為潛在預測因子進行模型構建。
1. 列線圖:又稱諾謨圖,是基于多因素回歸分析的結果,同時整合多個預測因子,并根據這些預測因子預測結局事件發(fā)生的概率,該方法優(yōu)點是能夠將復雜統(tǒng)計預測模型可視化,用圖形直觀呈現,使其更為通俗易懂。其原理為根據模型中各個因素對結局變量的貢獻程度(回歸系數的大小),給每個影響因素的每個取值水平進行賦分,然后再將各個評分相加得到總評分,最后通過總評分與結局事件發(fā)生概率之間的函數轉換關系,計算出該個體結局事件的預測概率值。
2. 預測模型的構建:采用R語言sample函數將數據集按照1∶1的比例隨機分為訓練集和驗證集,訓練集37 532例,驗證集37 531例。在訓練集中,以是否發(fā)生不良轉歸為因變量,采用卡方檢驗和t檢驗進行單因素分析,以單因素分析中P<0.05的因素為自變量,采用多因素逐步logistic回歸進行變量篩選。以多因素逐步logistic回歸篩選出的自變量為預測因子,構建預測模型。采用列線圖進行預測模型展示。
3. 預測模型評價:分別從區(qū)分度、校準度和臨床實用性3個方面對預測模型進行評價。區(qū)分度采用一致性指數(index of concordance)和受試者工作特征(receiver operating characteristic curve,ROC)曲線的曲線下面積(area under curve,AUC)進行評價;校準度通過繪制校準曲線和Hosmer-Lemeshow檢驗進行評價;預測模型的臨床實用性采用決策曲線(decision curve analysis,DCA)通過計算模型凈獲益進行評價。
4. 預測模型驗證:在驗證集中,通過訓練集建立的預測模型計算每個個體發(fā)生不良轉歸的預測概率,并分別從區(qū)分度、校準度和臨床實用性等方面對預測模型在驗證集中的預測效果進行評價。
5. 動態(tài)列線圖:通過DynNom包生成網頁版動態(tài)列線圖,使用rsconnect包將動態(tài)預測模型部署到shinyapps的服務器網址(https://www.shinyapps.io)上,動態(tài)列線圖結果展示的網址為:https://fjcdq.shinyapps.io/dynnomapp/。
本研究使用的數據均為經專門工作人員從“系統(tǒng)”中導出并脫敏的常規(guī)監(jiān)測數據,不涉及人體組織、生物樣本或個人隱私信息,數據處理過程中使用的患者編號均為加密后的匿名編號,不影響患者的權益和利益,符合《涉及人的生命科學和醫(yī)學研究倫理審查辦法》第三十二條的規(guī)定,免于倫理學審查。
經檢驗,訓練集和驗證集在性別、年齡、民族、職業(yè)、現住址類型、戶籍地址類型、現住址所屬地市、患者發(fā)現方式、合并癥、患者治療分類、初診痰菌結果、是否合并其他部位結核及治療轉歸分類構成方面差異均無統(tǒng)計學意義(P值均>0.05),見表1。
表1 訓練集和驗證集一般情況的比較
采用訓練集數據構建預測模型,單因素分析結果顯示,性別、年齡、職業(yè)、戶籍地址類型、患者發(fā)現方式、是否有合并癥、治療分類、初診痰菌結果和現住址所屬地市與患者治療轉歸不良有關(P值均<0.05),見表2。以是否轉歸不良為因變量,以單因素分析中P<0.05的因素為自變量進行多因素逐步logistic回歸分析,變量賦值情況見表3。結果顯示,性別、年齡、職業(yè)、治療分類和現住址所屬地市與活動性肺結核轉歸不良有關,見表4。以多因素逐步回歸分析最后模型保留的因素為預測因子構建預測模型,采用列線圖進行模型展示,見圖2。
表2 利福平敏感肺結核治療轉歸影響因素的單因素分析
表3 多因素logistic回歸分析變量賦值表
表4 利福平敏感肺結核治療轉歸影響因素的多因素logistic回歸分析
圖2 預測利福平敏感肺結核患者不良轉歸的列線圖
1. 模型區(qū)分度:在訓練集中,預測模型的一致性指數為0.671;經ROC曲線分析顯示,模型區(qū)分度均表現一般,約登指數最大時的截斷值為9.64%,對應的AUC為0.671(0.662~0.680),見圖3。
圖3 訓練集和驗證集預測模型的ROC曲線圖
2. 模型校準度:Hosmer-Lemeshow檢驗結果顯示,模型校準度較高(χ2=5.045,P=0.753);校準曲線結果顯示,在訓練集中模型預測概率與實際概率高度一致,尤其是在預測概率低于20%時,預測概率與實際概率幾乎完全一致,見圖4。
3. 臨床實用性:決策曲線結果顯示,當閾值概率在0~32%范圍內時,預測模型能獲得正向的大于全干預模型和不干預模型的正向凈獲益。當閾值概率為10%時,預測模型凈獲益為0.205,即當治療不良轉歸發(fā)生率為10%時,采用預測模型可以減少20.5%患者的強化隨訪管理而不錯過任何治療轉歸不良的患者,見圖5。
圖5 預測模型的決策曲線
將預測模型應用于驗證集進行模型預測效果驗證,結果顯示,預測模型區(qū)分度表現一般,一致性指數為0.674,AUC為0.674(0.665~0.683),見圖3。Hosmer-Lemeshow檢驗結果顯示,模型校準度較高(χ2=3.091,P=0.929),校準曲線顯示當預測概率在20%以內時,預測概率與實際概率基本一致,實際概率>30%時,預測模型可能低估不良轉歸風險,見圖4。驗證集中預測模型的DCA曲線與訓練集基本重合,當閾值概率在0~32%范圍內時,預測模型能獲得正向的大于全干預模型和不干預模型的正向凈獲益,當閾值概率為10%時,預測模型凈獲益為0.204,即當治療不良轉歸發(fā)生率為10%時,采用預測模型可以減少20.4%患者的強化隨訪管理而不錯過任何治療轉歸不良的患者,見圖5。
福建省2016—2020年利福平敏感活動性肺結核不良轉歸率為9.15%,低于青海省的11.14%[15]和全球平均的19.9%[16],成功治療率達到“十三五”規(guī)劃大于90%的要求。5年間成功治療率呈上升趨勢,可能的原因之一為近年來福建省逐步加大活動性肺結核耐藥篩查力度,積極發(fā)現和治療耐藥患者,通過在治療開始和治療效果不理想時及時開展耐藥篩查,早期發(fā)現耐藥肺結核患者,避免了耐藥患者按敏感肺結核方案治療,最終出現不良轉歸的風險。不良轉歸主要原因為丟失、非結核死亡、不良反應和其他,提示應加強患者的治療管理,及時發(fā)現患者治療時發(fā)生的不良反應,督促患者按時復診,堅持完成治療。
在訓練集中,多因素logistic回歸分析發(fā)現,性別、年齡、職業(yè)、治療分類和現住址所屬地市與不良轉歸有關,與既往肺結核治療轉歸相關研究結論一致[15,17]。Peetluk等[14]對33項研究的37個結核病治療轉歸預測模型進行系統(tǒng)分析發(fā)現,最常用的潛在預測因子為年齡、性別、肺外結核、痰涂片結果、體質量指數、影像學檢查結果及既往治療史,納入模型的最常見因素為年齡、性別、肺外結核、痰涂片結果、體質量指數、影像學檢查結果、既往治療史和是否合并HIV感染。本研究以結核病日常監(jiān)測信息為基礎進行模型構建,主要是考慮監(jiān)測系統(tǒng)信息的可獲得性強,所有患者在登記時信息均已收集完善,使構建的預測模型在基層醫(yī)療衛(wèi)生機構可操作性強?;诖?本研究采用了通俗易懂、可視化強的列線圖對預測模型進行展示,同時本研究還提供了預測模型的網頁動態(tài)版本,以方便基層醫(yī)務人員使用(網址:https://fjcdq.shinyapps.io/dynnomapp/)。
既往系統(tǒng)綜述結果顯示,關于肺結核治療轉歸的預測模型的區(qū)分度常用ROC曲線的AUC評價,大部分預測模型區(qū)分度處于中等水平,AUC為0.75(0.68~0.84)[14]。本研究結果顯示,驗證集中預測模型區(qū)分度表現一般,AUC僅為0.674,低于其他相關模型[9-10,18],可能與本研究僅以監(jiān)測信息包含的變量進行模型構建,一些對治療結局有較大預測作用的臨床監(jiān)測指標或治療過程中的檢測指標未被納入有關;另一方面,本研究的研究對象為現住址為福建省的利福平敏感活動性肺結核患者,利福平耐藥和跨省流動等影響肺結核成功治療的重要影響因素在研究對象中不存在,可能也是本研究區(qū)分度表現不佳的原因之一;此外,本研究發(fā)生不良轉歸人群中有20.97%為非結核死亡,其發(fā)生原因多難以預測。驗證集內部驗證結果顯示,模型在驗證集中表現與訓練集基本一致,具有較好的外推性,這得益于本研究樣本量較大,模型穩(wěn)定性高。DCA曲線是Andrew Vickers博士等研究出的一種評價方法,其較ROC曲線的主要突破是能評價預測模型的實際臨床收益[19]。近年來,DCA曲線已廣泛用于預測模型實際臨床收益的評價[20]。本研究結果顯示,模型閾值概率在0~32%范圍內時,預測模型能獲得正向的高于全干預模型或不干預模型的凈獲益。當閾值概率為10%時,凈獲益為0.205,通過采用該預測模型,可以減少對20.5%的患者進行直接面視下服藥管理,不會錯過任何治療轉歸不良的患者。近年來,我國數字健康工具在結核病患者管理領域被廣泛使用,一項多中心大規(guī)模隨機對照試驗結果顯示,數字健康工具(電子藥盒)管理的患者治療結局與對照組差異無統(tǒng)計學意義,且對患者失訪率影響不大[21],而失訪是導致患者治療不成功的重要因素。通過使用該預測模型,每100例肺結核患者中有20例患者判定為不會發(fā)生不良轉歸且實際不會發(fā)生不良轉歸,可對預測模型判定低不良轉歸風險的人群使用電子藥盒等“互聯網+”等新型隨訪管理措施,減輕基層醫(yī)務工作者隨訪管理工作負擔,集中精力對其他人群加強管理,實際防控效益尚可。
本研究尚存在一些不足。首先,該預測模型為保證資料的可獲得性,采用“系統(tǒng)”中的資料進行模型構建,模型區(qū)分度較低,在下一步的研究中,應進一步探索納入更多易于收集的潛在預測因子,以提高模型區(qū)分度和預測性能。其次,雖然本研究采用了較大的樣本量進行模型構建,并在內部驗證中取得了較好的一致性,但未能進行外部驗證,未來可以選取若干縣區(qū),對模型效能進行外部驗證。再者,本研究以監(jiān)測信息為基礎開展研究,研究結果受監(jiān)測信息質量的影響較大,下一步可以通過專項調查數據,進一步驗證預測模型的效能。
綜上,本研究以“系統(tǒng)”中的登記信息構建了一個肺結核不良轉歸的預測模型,模型區(qū)分度一般,校準度較高,防控實際凈效益尚可??墒褂迷撃P蛯颊哌M行不良轉歸風險分類,加強高風險人群督導管理,從而提高患者成功治療率。
利益沖突所有作者均聲明不存在利益沖突
作者貢獻陳代權:研究設計、實施調查、論文撰寫、數據整理/分析、論文修改;林淑芳、戴志松、周銀發(fā):研究設計/指導、實施調查、數據整理、論文修改;陳堃:研究設計/指導、數據整理/分析、論文修改