莫海娟 賴(lài)銀娟 黃志碧 梁冰倩 陸華媛
(廣西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,南寧市 530021,電子郵箱:2401061229@qq.com)
近年來(lái)我國(guó)結(jié)核病的發(fā)病率和死亡率呈逐步下降趨勢(shì),但其患病率仍位居世界第二,僅次于印度[1]。脊柱結(jié)核占骨和關(guān)節(jié)結(jié)核的50%,是最常見(jiàn)的肺外結(jié)核,常導(dǎo)致不可逆轉(zhuǎn)的神經(jīng)損傷(包括癱瘓),降低患者的生活質(zhì)量[2],引發(fā)嚴(yán)重的社會(huì)和經(jīng)濟(jì)問(wèn)題。經(jīng)典的Logistic回歸模型是一種分析疾病影響因素的常用方法,但是對(duì)于非線(xiàn)性問(wèn)題效果不佳[3]。隨機(jī)森林法是由美國(guó)科學(xué)家Breiman將前期Bagging集成學(xué)習(xí)理論與Ho提出的隨機(jī)子空間方法結(jié)合的一種新組合分類(lèi)器 CART決策樹(shù)算法。隨機(jī)森林法在多種疾病研究中的應(yīng)用已逐漸成為統(tǒng)計(jì)學(xué)研究熱點(diǎn),與傳統(tǒng)的分類(lèi)算法相比,其具有準(zhǔn)確性高等優(yōu)點(diǎn)[4]。本文采用隨機(jī)森林算法結(jié)合Logistic回歸模型探討用于預(yù)測(cè)脊柱結(jié)核的模型,旨在用盡量少的自變量去預(yù)測(cè)脊柱結(jié)核,同時(shí)使模型具有較高的準(zhǔn)確度。
1.1 臨床資料 將2017年1月至2018年12月廣西醫(yī)科大學(xué)第一附屬醫(yī)院脊柱結(jié)核外科收治的250例脊柱結(jié)核患者作為研究組。納入標(biāo)準(zhǔn):(1)CT引導(dǎo)下穿刺活檢病理結(jié)果證實(shí)為結(jié)核;(2)有相應(yīng)的臨床表現(xiàn)和影像學(xué)表現(xiàn),且抗結(jié)核治療有效。排除標(biāo)準(zhǔn):(1)意識(shí)不清,無(wú)法表達(dá)病情者;(2)合并有其他感染性疾病者。研究組中男性149例、女性101例,年齡7~84(47.28±16.93)歲。并根據(jù)隨機(jī)數(shù)字表法抽取同一時(shí)期來(lái)科室檢查的250例非脊柱結(jié)核患者作為對(duì)照組,包括慢性腰背肌筋膜炎(診斷符合《臨床診療指南骨科分冊(cè)》[5])、脊柱腫瘤(手術(shù)時(shí)取活檢病理證實(shí)),排除意識(shí)不清者。 對(duì)照組中男性145例、女性105例,年齡10~81(44.34±17.34) 歲。兩組患者的性別、年齡差異均無(wú)統(tǒng)計(jì)學(xué)意義(均P>0.05),具有可比性。
1.2 資料收集 回顧性分析研究對(duì)象的相關(guān)基本信息和臨床表現(xiàn)、實(shí)驗(yàn)室指標(biāo)。(1)基本信息:性別、年齡。(2)臨床表現(xiàn):疲倦/乏力、體重下降、盜汗、貧血(男性血紅蛋白<120 g/L,女性血紅蛋白<110 g/L)、頸肩腰背痛、椎旁或腰大肌膿腫(X線(xiàn)出現(xiàn)單側(cè)或者雙側(cè)局限性陰影)、椎間隙狹窄(X線(xiàn)顯示間隙變窄或消失,邊緣不齊、模糊)、骨質(zhì)破壞(CT表現(xiàn)為蟲(chóng)蝕狀骨質(zhì)破壞,顯示為蜂窩或斑片樣改變)、脊柱生理曲度或椎體形狀改變(表現(xiàn)為頸椎和腰椎變直)、椎前及椎旁軟組織陰影增大腰椎(X線(xiàn)可見(jiàn)腰大肌陰影增大增深)、脊柱后凸(Cobb角>30°)、神經(jīng)功能受損(表現(xiàn)為感覺(jué)減退平面,病理征陽(yáng)性)、活動(dòng)受限(表現(xiàn)為拾物試驗(yàn)陽(yáng)性)。(3)實(shí)驗(yàn)室指標(biāo):血沉、白細(xì)胞計(jì)數(shù)、C反應(yīng)蛋白、血清白蛋白水平。其中血沉的正常范圍:成年男性為0~15 mm/h,女性為0~20 mm/h;白細(xì)胞計(jì)數(shù)的正常范圍為(4~10)×109/L;C反應(yīng)蛋白的正常范圍為0.8~8 mg/L;血清白蛋白的正常范圍為40~55 g/L。
1.3 統(tǒng)計(jì)學(xué)分析 采用IBM SPSS 25.0軟件分析隨機(jī)森林的預(yù)測(cè)變量的重要程度排序,根據(jù)滑動(dòng)窗口序貫向前選擇法(sliding windows sequential forward selection,SWSFS)[6]找出合適的變量個(gè)數(shù)。運(yùn)用SPSS 24.0軟件將考慮的變量納入二元Logistic回歸模型中進(jìn)行分析。
1.3.1 變量重要程度的排序情況:在隨機(jī)森林中,要構(gòu)建的分類(lèi)樹(shù)與回歸樹(shù)算法模型數(shù)量為500,為了結(jié)果重現(xiàn),隨機(jī)數(shù)種子設(shè)為111。將臨床常規(guī)診斷的指標(biāo)納入隨機(jī)森林模型并分析各個(gè)變量的重要性排序,包括疲倦/乏力、體重下降、盜汗、貧血、頸肩腰背痛、椎旁或腰大肌膿腫、椎間隙狹窄、骨質(zhì)破壞,脊柱生理曲度或椎體形狀改變、椎前及椎旁軟組織陰影增大、脊柱后凸、神經(jīng)功能受損、活動(dòng)受限以及血沉、白細(xì)胞計(jì)數(shù)、C反應(yīng)蛋白、白蛋白水平。
1.3.2 去躁降維:利用SWSFS,按重要程度大小逐步加入變量,每加入1個(gè)新變量再次運(yùn)行隨機(jī)森林分析[6-7]。由于每棵樹(shù)都是基于Bootstrap抽樣獲得的訓(xùn)練樣本計(jì)算的,約有1/3的數(shù)據(jù)未被抽中,即為袋外數(shù)據(jù)集,最終獲得袋外估算誤差率,用以表示該隨機(jī)森林模型進(jìn)行預(yù)測(cè)時(shí)的誤差。
1.3.3 Logistic回歸:以是否患脊柱結(jié)核為因變量,將隨機(jī)森林分析得出的結(jié)果作自變量,進(jìn)行二元Logistic回歸分析,運(yùn)用后退法篩選變量,以α=0.05作為變量納入模型的標(biāo)準(zhǔn)。
1.3.4 模型的評(píng)價(jià):以L(fǎng)ogistic回歸中的混淆矩陣評(píng)價(jià)所建立模型的預(yù)測(cè)效能。
2結(jié) 果
2.1 隨機(jī)森林變量的重要性排序情況 通過(guò)拆分到所有樹(shù)中的平均變量數(shù)而減少節(jié)點(diǎn)雜質(zhì)總量(按基尼指標(biāo)測(cè)量),節(jié)點(diǎn)雜質(zhì)減少越多,各個(gè)變量的重要性越靠前。重要性位列前5名的指標(biāo)依次為低白蛋白、脊柱后凸、血沉、椎旁或腰大肌膿腫、貧血,見(jiàn)表1及圖1。
表1 各個(gè)變量的節(jié)點(diǎn)雜質(zhì)減少情況及重要性排序
圖1 隨機(jī)森林預(yù)測(cè)變量排序
2.2 去躁降維結(jié)果 結(jié)合隨機(jī)森林排序情況,逐一加入變量,進(jìn)行SWSFS過(guò)程,結(jié)果顯示,當(dāng)自變量達(dá)10個(gè)時(shí),袋外估算誤差率相對(duì)較低且穩(wěn)定,見(jiàn)圖2。
圖2 SWSFS過(guò)程的袋外估算誤差率
2.3 多因素Logistic回歸分析 以是否患脊柱結(jié)核為因變量,以重要性位列前10的指標(biāo)(低白蛋白、脊柱后凸、血沉、椎旁或腰大肌膿腫、貧血、骨質(zhì)破壞、C反應(yīng)蛋白、盜汗、活動(dòng)受限、體重下降)作為自變量,進(jìn)行多因素Logistic回歸分析,變量賦值見(jiàn)表2。結(jié)果顯示,白蛋白降低、脊柱后凸、血沉升高、椎旁或腰大肌膿腫、貧血、骨質(zhì)破壞、C反應(yīng)蛋白升高、體重下降均與脊柱結(jié)核有關(guān)(均P<0.05),見(jiàn)表3。
表2 變量賦值
表3 多因素Logistic回歸分析結(jié)果
2.4 基于隨機(jī)森林模型的Logistic回歸的模型評(píng)價(jià) 基于隨機(jī)森林模型的Logistic回歸對(duì)脊柱結(jié)核患者預(yù)測(cè)的正確率為94.0%(235/250),判斷非脊柱結(jié)核患者的正確率為92.8%(232/250),總的準(zhǔn)確度是93.4%(467/500),見(jiàn)表4。
表4 混淆矩陣
脊柱結(jié)核是一種繼發(fā)于肺結(jié)核或淋巴結(jié)核的疾病,其受經(jīng)濟(jì)落后、結(jié)核耐藥菌株不斷出現(xiàn)及世界人口的大范圍流動(dòng)等因素的影響。脊柱結(jié)核患者常有結(jié)核病史,同時(shí)多有午后低熱、消瘦、貧血、盜汗等伴隨癥狀,從感染到出現(xiàn)相應(yīng)臨床表現(xiàn)一般需11.2個(gè)月[8]。
本研究從17個(gè)臨床指標(biāo)中,采用降維的方式,選擇重要性位于前10的變量納入多因素Logistic回歸模型中進(jìn)行分析。結(jié)果顯示,白蛋白降低、脊柱后凸、血沉升高、椎旁或腰大肌膿腫、貧血、骨質(zhì)破壞、C反應(yīng)蛋白升高、體重下降均與脊柱結(jié)核有關(guān)(均P<0.05),具有這些特征的患者患脊柱結(jié)核的可能性大。其中,貧血、體重下降均是結(jié)核感染的常見(jiàn)典型癥狀。血沉、C反應(yīng)蛋白均是反映機(jī)體炎性活動(dòng)的最常用指標(biāo),脊柱結(jié)核由結(jié)核桿菌感染引起,故機(jī)體血沉、C反應(yīng)蛋白明顯升高。骨質(zhì)破壞是該病基本病癥之一,結(jié)核桿菌感染后,結(jié)核的干酪化作用誘發(fā)局限性骨質(zhì)破壞[9]。脊柱后凸亦是結(jié)核桿菌侵犯椎體而引起的畸形。此外,結(jié)核桿菌侵入椎體后形成的膿液可流到椎旁或椎旁軟組織,如不加干預(yù)可累及腰大肌,表現(xiàn)為椎旁或腰大肌膿腫[10]??傊缁颊叽嬖谘?、C反應(yīng)蛋白、白蛋白異常,以及脊柱后凸、脊柱破壞、椎旁或腰大肌膿腫,應(yīng)高度警惕脊柱結(jié)核的可能。
本研究運(yùn)用隨機(jī)森林算法找出影響脊柱結(jié)核發(fā)病的重要程度前10位的變量,進(jìn)一步解析。從大多數(shù)變量中挑選影響較大的變量分析并預(yù)測(cè),能夠減少診斷的時(shí)間,節(jié)省人力。隨機(jī)森林算法在脊柱結(jié)核預(yù)測(cè)風(fēng)險(xiǎn)上有理想的結(jié)局,但是多因素Logistic回歸能直觀(guān)地解釋結(jié)果[11]。隨機(jī)森林可以克服自變量間高度相關(guān)和非線(xiàn)性問(wèn)題,Logistic回歸可以彌補(bǔ)隨機(jī)森林的解釋困難性缺陷,兩個(gè)模型結(jié)合預(yù)測(cè)脊柱結(jié)核的準(zhǔn)確度高達(dá)93.4%,說(shuō)明預(yù)測(cè)效果較佳。但本文的研究對(duì)象來(lái)源于醫(yī)院,結(jié)果具有一定局限性,若要應(yīng)用到社區(qū),則需進(jìn)一步增加樣本含量及采集樣本的途徑。