苗若琪,喬瑞萍,Clement Yaw EFFAH,郭詩琦,原慧潔,吳 艷,譚龍龍,苗麗君,劉 紅,吳擁軍
1)鄭州大學公共衛(wèi)生學院衛(wèi)生化學教研室 鄭州 450001 2)鄭州大學第一附屬醫(yī)院呼吸內科 鄭州 450052
肺炎是一種常見的急性呼吸道疾病,具有高發(fā)病率和高死亡率等特點[1],根據發(fā)生地點分為社區(qū)獲得性肺炎和醫(yī)院獲得性肺炎。社區(qū)獲得性肺炎是指在醫(yī)院外罹患的感染性肺實質炎癥,包括具有明顯潛伏期的病原體感染性肺炎,入院48 h內發(fā)病的肺炎[2]。研究[3]表明,有許多因素導致肺炎發(fā)病率及死亡率增加,其中包括人口老齡化、免疫力下降、診斷不充分、病原體復雜多樣和抗菌藥耐藥等。早期診斷和治療是社區(qū)獲得性肺炎的有效干預措施;因此,結合社區(qū)獲得性肺炎的危險因素及其臨床特征建立社區(qū)獲得性肺炎患病風險預測模型具有重要意義。隨著信息技術的快速發(fā)展,數(shù)據挖掘技術在醫(yī)學領域得到了廣泛應用。Logistic回歸可以考察多個因素對因變量的影響并進行預測及判別,支持向量機(support vector machine,SVM)對小樣本和高維模式識別數(shù)據表現(xiàn)出獨特優(yōu)勢,人工神經網絡(artificial neural network,ANN)具有良好的魯棒性和較強的歸納能力,而C5.0決策樹具有可讀性、分類速度快等優(yōu)點[4]。該研究擬將社區(qū)獲得性肺炎常見的危險因素、臨床特征及實驗室檢查指標相結合,分別采用SVM、ANN、C5.0決策樹和Logistic回歸模型構建社區(qū)獲得性肺炎患病風險預測模型,并評價4種模型的性能,為社區(qū)獲得性肺炎的早期診斷及治療提供依據。
1.1 研究對象選取2019年10月至2021年5月鄭州大學第一附屬醫(yī)院收治的年滿18周歲且診斷為急性下呼吸道疾病的住院患者535例,其中社區(qū)獲得性肺炎326例(肺炎組),支氣管炎209例(支氣管炎組)。社區(qū)獲得性肺炎診斷標準參考《成人社區(qū)獲得性肺炎基層診療指南(2018年)》[5],支氣管炎診斷標準參考《急性氣管-支氣管炎基層診療指南(2018年)》[6]。排除標準:結核分枝桿菌感染;非感染性肺間質性疾病;肺水腫、肺不張、肺栓塞、肺部腫瘤、肺嗜酸粒細胞浸潤癥及肺血管炎等。
1.2 觀察指標收集兩組患者的資料,包括流行病學資料(疾病診斷、年齡、性別、吸煙史、飲酒史、近期手術史、入院前90 d內是否使用抗生素、疾病史),臨床癥狀(發(fā)熱、咳嗽、咳痰、呼吸困難、氣管分泌物、聽診呼吸音減弱、心動過速、胸痛、胸腔積液)和實驗室檢查指標(白細胞計數(shù)、血紅蛋白、紅細胞比容、血小板計數(shù)、血清鈉、血清鉀、血清肌酐、總膽紅素、C反應蛋白、降鈣素原)??倲?shù)據集包括22個定性變量和11個定量變量,其中32個為預測變量,1個因變量為疾病診斷結果。變量賦值:支氣管炎=0,社區(qū)獲得性肺炎=1;性別:女=0,男=1;其他定性變量:否=0,是=1。
1.3 統(tǒng)計學處理應用SPSS 21.0處理數(shù)據。采用χ2檢驗或t檢驗比較兩組患者基線特征指標的差異,采用兩獨立樣本t檢驗或Mann-WhitneyU檢驗比較兩組患者實驗室檢查指標的差異。檢驗水準α=0.05。
1.4 4種模型參數(shù)的設置和預測性能評價SVM模型的參數(shù)設置如下。Mode:Expert;Stopping criteria:0.01;Kernel type:RBF;Regularization parameter(C):3;Regression precision(epsilon):0.1;RBF gamma:0.1;Gamma:4.0;Bias:0.0;Degree:3。
ANN模型的參數(shù)設置如下。Method:Prune;Stop on:1.0 min;Set random seed:121;Optimize:Memory;Mode:Expert;Hidden layers:2;Layer 1:35;Layer 2:35;Hidden rate:0.15;Input rate:0.15;Persistence:100;Hidden persistence:6;Input persistence:4;Overall persistence:3;Alpha:0.9;Initial Eta:0.3;High Eta:0.1;Eta decay:30;Low Eta:0.01。
C5.0決策樹模型的參數(shù)設置如下。Output type:Decision tree; Number of trials:2;Cross-validate:false;Mode:Expert;Pruning severity:70;Minimum records per child branch:2。
Logistic回歸模型參數(shù)設置如下。Procedure:Multinomial;Model type:Main Effects;Mode:Simple;Multinomial Method:Forwards。
使用SPSS Clementine 12.0將535例患者按照7∶3隨機分為訓練集和測試集,隨機種子數(shù)設為4 755 122,其中訓練集375例,測試集160例。應用SPSS Clementine 12.0依據訓練集數(shù)據建立4種預測模型,并對納入變量的重要性進行排序?;跍y試集數(shù)據,分別采用準確率、敏感度、特異度、陽性預測值和陰性預測值對4種模型的預測性能進行評價。
2.1 基本情況兩組患者基線特征和實驗室檢查指標的比較見表1、2。
2.2 輸入變量的選擇既往研究[7]提示白細胞計數(shù)和總膽紅素為社區(qū)獲得性肺炎的影響因素,故該研究將表1、2中差異有統(tǒng)計學意義的因素及白細胞計數(shù)和總膽紅素共15個因素作為輸入變量,建立社區(qū)獲得性肺炎患病風險預測模型。
表1 兩組患者基線特征的比較
表2 兩組患者實驗室檢查指標的比較
2.3 預測模型的構建和評價
2.3.14種預測模型的構建 4種模型訓練集和測試集樣本的分類結果見表3。4種模型的預測性能比較見表4。由表4可知,C5.0決策樹模型預測性能優(yōu)于其他3種模型。
表3 4種模型對訓練集和測試集的分類結果 例(%)
表4 4種模型預測性能的比較 %
2.3.24種模型納入變量的重要性排序 見表5。
表5 4種模型納入變量的重要性排序
肺炎是全球高發(fā)病率和高死亡率的疾病之一[1]。該研究篩選社區(qū)獲得性肺炎的相關因素構建風險預測模型,為社區(qū)獲得性肺炎的早期預防和治療提供依據。
該研究結果顯示氣管分泌物、咳嗽和咳痰為重要影響變量。研究[8]表明,患者出現(xiàn)呼吸道癥狀,如咳嗽、咳痰或呼吸困難應考慮診斷為肺炎。另有研究[9]表明社區(qū)獲得性肺炎患者伴胸腔積液使住院時間延長、病死率增加。C反應蛋白是細菌感染的標志[10],細菌感染時C反應蛋白水平升高。降鈣素原水平升高亦提示存在細菌感染,與社區(qū)獲得性肺炎患者的預后和疾病的嚴重程度有關[11]。血紅蛋白也是重要的影響因素,既往研究[12]表明,血紅蛋白水平隨著社區(qū)獲得性肺炎患者病情嚴重程度的增加而下降。本研究納入變量的重要性排序表明氣管分泌物、胸腔積液、C反應蛋白、降鈣素原及血紅蛋白為社區(qū)獲得性肺炎的重要影響因素,與上述研究一致。
SVM模型主要適用于小樣本數(shù)據和解決高維度問題,理論基礎比較完善,被廣泛應用于各個領域。ANN是一種模仿生物神經網絡結構和功能的模型,經過訓練,生成輸入變量加權組合的輸出結果,旨在解決各種分類或模式識別問題,具有良好的魯棒性、高容錯性和較強的歸納能力,可以確定潛在的預后影響因素。決策樹模型是一種基于預測變量對數(shù)據分類的算法,通過分析預測變量得到有關目標變量的結論,可以同時處理分類變量和連續(xù)變量。C5.0是決策樹模型的常用算法之一,適用于分類變量和大數(shù)據集。有研究[13]將C5.0決策樹模型與其他模型進行比較,建立糖尿病風險預測模型,均得到C5.0決策樹模型的預測性能最優(yōu)的結果。本研究基于患者流行病學資料、臨床癥狀和實驗室檢查結果,利用SVM、ANN、C5.0決策樹和Logistic回歸技術建立社區(qū)獲得性肺炎患病風險預測模型,結果顯示,C5.0決策樹模型的預測性能優(yōu)于SVM、ANN和Logistic回歸模型,該模型預測社區(qū)獲得性肺炎的準確率達83.12%。因此,建議利用C5.0決策樹模型鑒別社區(qū)獲得性肺炎高危人群,為社區(qū)獲得性肺炎的早期診斷和早期治療提供參考和依據。
該研究仍存在不足之處。首先,此次納入研究的樣本量還有待擴大;其次,該研究建立的模型僅有訓練集和測試集樣本,缺少臨床樣本驗證集;再次,社區(qū)獲得性肺炎的影響因素種類較多,如環(huán)境因素、感染細菌的種類、胸部CT等,而該研究納入的變量種類相對有限。