桑祎瑩 黃仕鑫 易 靜 曾 慶
(1 重慶市衛(wèi)生健康統(tǒng)計信息中心統(tǒng)計與政策研究部,重慶市 401120,電子郵箱:1341475734@qq.com;2 重慶市渝北區(qū)人民醫(yī)院,重慶市 401120;3 重慶醫(yī)科大學公共與衛(wèi)生管理學院,重慶市 401120)
糖尿病周圍神經(jīng)病變(diabetic peripheral neuropathy,DPN)在糖尿病患者中的發(fā)生率為41%~91%,是糖尿病常見的慢性并發(fā)癥之一,可嚴重影響糖尿病患者的生活質(zhì)量[1-2]。DPN的發(fā)病機制十分復雜,目前主要認為氧化應激、神經(jīng)炎癥和細胞凋亡在DPN的發(fā)病機制中起著關鍵作用[3]。早期診斷、早期治療是延緩DPN發(fā)展、改善患者預后的關鍵[4]。
近年來,數(shù)據(jù)挖掘技術已經(jīng)被廣泛應用于零售、金融、保險、電信、生物信息、醫(yī)療衛(wèi)生等領域中,在醫(yī)療衛(wèi)生領域,隨著醫(yī)學的進步和信息技術的發(fā)展,數(shù)據(jù)挖掘技術在疾病的相關因素分析、預后預測、診斷等方面得到了良好的應用[5]。在慢性病學研究中,Logistic回歸模型簡單易用,而隨機森林模型算法穩(wěn)健,對納入模型的數(shù)據(jù)結(jié)構(gòu)不做要求、不存在共線性與過擬合[6],因此兩者用途非常廣泛。本研究采用Logistic 回歸模型和基于機器學習理論的隨機森林模型建立DPN診斷模型,并比較這兩種模型診斷DPN的效果,為計算機輔助早期診斷DPN提供參考,從而改善患者的預后。
1.1 臨床資料 納入2016年1~12月在重慶醫(yī)科大學附屬第二醫(yī)院內(nèi)分泌科確診為DPN的患者(共計2 199例)為病例組,同時采用簡單隨機抽樣法從同期體檢對象中選取2 610例非DPN的體檢人群作為對照組。病例組納入標準:(1)均為2型糖尿病患者[7];(2)符合DPN的診斷標準。對照組納入標準:(1)無糖尿病及神經(jīng)疾病病史;(2)神經(jīng)系統(tǒng)檢查無陽性體征;(3)本次體檢中未發(fā)現(xiàn)有高血脂、高血壓、高血糖。兩組研究對象排除標準:(1)其他病因引起的神經(jīng)病變;(2)嚴重動靜脈血管性病變;(3)化療藥物及其他藥物引起的神經(jīng)損傷;(4)有嚴重心、肝、腎功能障礙者;(5)臨床檢驗指標缺失率>40%[8]。
1.2 DPN的診斷標準[7](1)有明確的糖尿病病史。(2)診斷糖尿病時或之后出現(xiàn)的神經(jīng)病變:有臨床癥狀 (疼痛、麻木、感覺異常等)者,5項檢查(踝反射、針刺痛覺、震動覺、壓力覺、溫度覺) 中任意1項異常;無臨床癥狀者,5項檢查(踝反射、針刺痛覺、震動覺、壓力覺、溫度覺)中任意2項異常。(3)需排除其他病因引起的神經(jīng)病變、嚴重動靜脈血管性病變、藥物引起的神經(jīng)毒性作用,以及腎功能不全相關的代謝毒物所致的神經(jīng)損傷。
1.3 數(shù)據(jù)收集 本研究僅納入19個臨床檢驗指標進行分析,包括超敏C反應蛋白、糖化血紅蛋白、LDL、HDL、三酰甘油、總膽固醇、總膽紅素、總蛋白、白蛋白、ALT、AST、堿性磷酸酶(alkaline phosphatase,ALP)、γ-谷氨酰轉(zhuǎn)肽酶、尿素、尿酸、血紅蛋白、鈣、鉀、鈉。病例組的臨床指標為住院患者入院時檢測,由信息科導出病案數(shù)據(jù)。
1.4 統(tǒng)計學分析
1.4.1 數(shù)據(jù)預處理:采用K-means法對19個臨床檢驗指標進行缺失值填補,以改進數(shù)據(jù)的質(zhì)量,并提高數(shù)據(jù)分析的可行性和準確性。應用R 3.6.0軟件有放回地重復隨機抽取全部樣本的70%作為訓練樣本(共3 395例),余下的30%的樣本作為測試樣本(共1 414例)。
1.4.2 Logistic回歸模型的建立:應用SPSS 22.0統(tǒng)計軟件對4 809例觀察對象涉及的19個臨床檢驗指標進行單因素分析,計量資料以(x±s)表示,組間比較采用t檢驗或t′檢驗,以P<0.05為差異有統(tǒng)計學意義。以單因素分析篩選出的差異有統(tǒng)計學意義的臨床檢驗指標作為Logistic回歸模型的自變量,以是否患有DPN作為二分類Logistic回歸模型的因變量。應用SPSS 22.0統(tǒng)計軟件對訓練樣本和測試樣本進行逐步Logistic回歸(α入=0.05,α出=0.15)分析,以P<0.05為差異有統(tǒng)計學意義。
1.4.3 隨機森林模型的建立:利用訓練樣本生成隨機森林模型,其中需設置兩個重要參數(shù),包括以模型誤判率最低的變量個數(shù)作為隨機森林模型樹節(jié)點預選變量個數(shù),以及以模型誤差趨于穩(wěn)定的決策樹數(shù)量作為隨機森林模型中樹的數(shù)量。采用逐一增加變量的方法從19個臨床檢驗指標變量中選出模型誤判率最低的樹節(jié)點變量個數(shù),結(jié)果顯示訓練樣本生成節(jié)點變量個數(shù)為4,決策樹數(shù)量為400時隨機森林模型誤差趨于穩(wěn)定。因此,本文構(gòu)建了決策樹節(jié)點處變量個數(shù)為4,決策樹數(shù)量為400的隨機森林模型,并利用多數(shù)投票的方式對測試樣本的類別做出預測,判定是否為DPN。同時,隨機森林模型具有評估變量重要性的功能,變量的重要性評分越高說明該變量對模型判別情況的影響越大。
1.4.4 模型診斷效能的評價:采用R 3.6.0軟件繪制受試者工作特征(receiver operating characteristic,ROC)曲線評價模型的診斷效能,其中曲線下面積越接近1說明其診斷價值越高。
2.1 多因素Logistic回歸模型 將19項臨床檢驗指標進行單因素分析,對照組與病例組之間19項指標的差異均有統(tǒng)計學意義(均P<0.05),見表1。將這19項臨床指標作為Logistic回歸模型的自變量(均以連續(xù)型變量納入),以DPN的診斷結(jié)果(DPN=1,非DPN=0)作為因變量進行多因素Logistic回歸分析。通過逐步法剔除變量后,最終有14項臨床檢驗指標納入回歸模型,見表2。經(jīng)測試集樣本驗證,模型正確率為81.4%,ROC曲線下面積為0.882,見表3。
表1 單因素分析結(jié)果(x±s)
表2 Logistic回歸分析結(jié)果
2.2 隨機森林模型 將19項臨床檢驗指標納入分析,隨機森林模型中各變量相應的重要性評分,見圖1。訓練樣本3 395例,節(jié)點處變量個數(shù)為4,決策樹數(shù)量為400,基于此參數(shù)對測試集樣本(1 414例)的數(shù)據(jù)進行分類;經(jīng)測試集樣本驗證,模型正確率為96.7%,ROC曲線下面積為0.963,見表3。
表3 Logistic回歸模型與隨機森林模型的診斷效能評價結(jié)果(n=1 414)
圖1 隨機森林模型變量重要性評分
注:僅展示前15個指標;Mean Decrease Accuracy代表的是隨機森林模型預測準確性的降低程度,該值越大表示重要性越大;Mean Decrease Gini代表的是通過基尼指數(shù)計算每個變量對分類樹每個節(jié)點觀測值的異質(zhì)性的影響。
DPN多起病隱匿,進程緩慢,患者開始無自覺癥狀,待其臨床癥狀出現(xiàn)時,周圍神經(jīng)已出現(xiàn)不可逆的病理改變,這給治療帶來較大困難,因此,早期診斷和早期治療顯得尤為重要[9-10]。傳統(tǒng)檢測方法對DPN早期患者的檢出率比較低,診斷存在片面性和延誤診斷等不足[11]。
隨機森林模型以建立N棵決策樹為基分類器,進行集成學習后得到一個組合分類器,結(jié)合了Bootstrap隨機重采樣技術和隨機子空間方法,通過自助法重采樣技術以有放回的方式抽取多個不同的訓練集樣本,在每一個樣本數(shù)據(jù)集上訓練決策樹分類器,決策樹集成產(chǎn)生之后,采用多數(shù)投票的方式對未知樣本的類別做出預測。與Logistic回歸模型相比,隨機森林模型不僅訓練速度快而且容易實現(xiàn),穩(wěn)健性較高,同時可以自動辨別模型的相關變量,避免了單獨觀察某一個指標的片面性和主觀性,且不易出現(xiàn)過度擬合的情況[12-14]。張曉林等[15]分析采用隨機森林算法和Logistic回歸法構(gòu)建的首發(fā)缺血性腦卒中患者出院90 d的復發(fā)預測模型的預測效果,結(jié)果顯示隨機森林模型的準確性、靈敏度、約登指數(shù)分別為89.2%、81.3%、0.425,均高于多因素Logistic回歸分析模型;梁冰倩等[16]采用隨機森林預測模型和Logistic回歸預測模型對高尿酸血癥進行預測,結(jié)果顯示隨機森林預測模型的ROC曲線下面積、靈敏度、特異度、準確率分別為0.759、97.2%、54.5%、0.920,均優(yōu)于Logistic回歸分析模型。以上結(jié)果說明隨機森林模型對疾病的預測效果較Logistic回歸模型有顯著優(yōu)勢。因此,本研究除采用Logistic回歸模型外,還采用隨機森林模型建立DPN的診斷模型,并對兩種診斷模型的效能進行比較。
本研究中,經(jīng)測試樣本驗證,Logistic回歸模型和隨機森林模型的正確率分別為81.4%、96.7%,靈敏度分別為72.5%、98.3%,特異度分別為89.2%、95.2%,ROC曲線下面積分別為0.882、0.963,提示隨機森林模型對DPN的早期診斷能力優(yōu)于Logistic回歸模型。因此,基于機器學習理論的隨機森林模型,或可為計算機輔助早期診斷DPN提供一種客觀可靠的方法。同時,隨機森林模型的分析結(jié)果給出了各個變量指標的重要性評分,從隨機森林變量指標的重要性可以看出,超敏C反應蛋白、糖化血紅蛋白、尿酸、白蛋白等變量的重要性更靠前。其他學者也發(fā)現(xiàn),超敏C反應蛋白、糖化血紅蛋白、尿酸、白蛋白等實驗室指標對于早期識別、預防和治療DPN有積極作用[17-19]。以上重要性靠前的變量或可作為研究DPN風險因素的重點關注指標。
總之,隨機森林模型對DPN的診斷效能優(yōu)于Logistic回歸模型,同時隨機森林模型的分析結(jié)果給出了各個變量指標的重要性評分,可為DPN的早期診斷提供重要的依據(jù)。本研究的不足之處:僅采集了實驗室指標作為變量,且實驗室指標的采集不全面;同時由于某些指標數(shù)據(jù)的缺失值大于40%,未納入分析,故可能遺漏某些早期診斷DPN的關鍵特征因素。DPN的影響因素繁多,利用模型進行診斷仍存在很大的挑戰(zhàn),因此,下一步將使用更全面的樣本集對本研究中的模型進行驗證和改進,從而建立更準確的診斷模型。