高孜博,李迪,段書音,周曉蕾,劉紅,王靜,王威,吳擁軍
晚期肺癌患者5年生存率僅5%,但若能在早期診斷并治療,5年存活率可達57%[1-2]。因此,結合肺癌危險因素及其臨床特征建立肺癌危險度預測模型對早期診斷及治療肺癌,提高患者5年生存率具有重要意義。近年來,數(shù)據(jù)挖掘技術已經(jīng)在生物醫(yī)學預測模型中得到廣泛應用。人工神經(jīng)網(wǎng)絡(artificial neural network,ANN)具有良好的魯棒性、高容錯性和較強的歸納能力,而C5.0算法作為決策樹模型的常用算法之一,適用于分類變量和大數(shù)據(jù)集[3]。因此,該研究擬將肺癌常見危險因素與臨床癥狀相結合,采用C5.0決策樹與ANN構建肺癌危險度預測模型,并評價兩模型的性能優(yōu)劣,為肺癌早期篩查及臨床輔助診斷提供依據(jù)和工具。
收集2014年10月至2016年10月鄭州大學第一附屬醫(yī)院的住院患者樣本420例,其中包括肺癌患者180例,肺良性疾病患者240例。入組患者均知情同意并自愿參加。
入選標準:肺癌組:以《中華醫(yī)學會肺癌臨床診療指南(2019版)》為標準[4],經(jīng)病理學或細胞學被證實為原發(fā)性肺癌患者;肺良性疾病組:由鄭州大學第一附屬醫(yī)院診斷為肺部良性病變患者。排除標準:(1)入組前曾接受放化療、藥物治療或手術治療者;(2)主要臟器功能衰竭患者;(3)合并肺或其他惡性腫瘤患者;(4)妊娠或哺乳期患者;(5)不同意入組者。
調查人員經(jīng)過統(tǒng)一培訓后,通過問卷訪談形式對患者進行調查詢問獲得數(shù)據(jù)資料,包括流行病學資料(疾病診斷、年齡、吸煙史、飲酒史、粉塵接觸史、輸血史、肺癌家族史、炎性反應史)和臨床癥狀(咳嗽、咳痰、痰中帶血、咯血、胸悶、胸痛、心慌、乏力、畏寒、發(fā)熱出汗)。其中年齡根據(jù)《中華醫(yī)學會肺癌臨床診療指南(2019版)》以45歲為界限進行分組??倲?shù)據(jù)集包括18個定性變量(17個預測變量和1個因變量),因變量為診斷結果,各變量賦值見表1。
表1 肺癌危險度評價研究的變量賦值說明Table1 Instructions of variables assignment in risk assessment studies of lung cancer
應用SPSS21.0對420例樣本數(shù)據(jù)進行統(tǒng)計分析,對所有變量進行描述性統(tǒng)計分析,采用χ2檢驗進行差異分析,檢驗水準α=0.05。
使用SPSS Clementine 12.0軟件建立兩種數(shù)據(jù)挖掘預測模型,使用MedCalc15.10軟件繪制受試者工作特征(receiver operating characteristic curve,ROC)曲線。將兩組樣本均按照7:3隨機分為兩部分,其中訓練數(shù)據(jù)集包含302例樣本,測試數(shù)據(jù)集包含118例樣本。C5.0決策樹模型和ANN模型的比較采用敏感度、特異性、準確度、陽性預測值(positive predictive values,PPV)、陰性預測值(positive and negative predictive values,NPV)、約登指數(shù)和ROC曲線下面積(area under ROC curve,AUC)進行評估。
420例患者中,肺癌患者180例(42.9%),肺良性疾病患者240例(57.1%)。肺良性疾病患者中小于45歲者(63.8%)明顯多于肺癌組(36.2%),差異有統(tǒng)計學意義(P=0.004)。肺癌患者中吸煙、飲酒者(57.1%、55.7%)均多于肺良性疾病患者(42.9%、44.3%)。肺癌組有粉塵接觸史或肺癌家族史者分別僅2例。肺良性疾病組中有6例有輸血史,而肺癌組中沒有。10個臨床癥狀變量中,肺癌組中痰中帶血(64.0%)及胸痛(55.3%)的比例高于肺良性疾病患者(36.0%、44.7%)。兩組樣本的基線特征分析結果見表2。
兩組間年齡(P=0.004)、吸煙史(P<0.001)、飲酒史(P=0.028)、輸血史(P=0.033)、炎癥史(P<0.001)、痰中帶血(P=0.001)、胸痛(P=0.006)、乏力(P=0.049)和發(fā)熱出汗(P<0.001)9個因素差異有統(tǒng)計學意義,見表2。此外由于既往研究提示粉塵接觸史、癌癥家族史、咳痰、咳嗽和咯血為肺癌的影響因素[4-5],該研究入選這14個因素作為輸入變量建立風險預測模型。
表2 肺癌組和肺良性疾病組的樣本基線特征及卡方檢驗 (n(%))Table 2 Baseline characteristics and chi-square test of lung cancer and lung benign disease groups (n(%))
2.3.1 兩種風險預測模型的建立 經(jīng)過訓練,C5.0決策樹風險預測模型的參數(shù)設置如下:Use partitioned data:no,Output type:Decision Tree,Group symbolic:no,Use boosting:yes,Cross-validate:no,Mode:expert,Pruning severity:75,Minimum records per child brunch:2,Use global pruning:yes,Window attributes:no,Use misclassification costs:no。ANN風險預測模型的參數(shù)設置如下:Use partitioned data:yes,Method:prune,Prevent overtraining sample:50%,Set random seed:321,Stop on:time (mins) 1 min,Optimize:memory,Continue training existing model:no;Use binary set encoding:yes,Show feedback graph:yes,Model selection:Use best network,Mode:expert。
2.3.2 兩種危險度預測模型的性能比較 兩種模型訓練集和測試集樣本的分類結果見表3。在訓練集與測試集樣本中C5.0模型的準確率分別為68.54%和61.0%,ANN模型的準確率分別為69.5%和65.3%??梢钥闯鯝NN模型在訓練集和預測集中準確度均高于C5.0模型。根據(jù)兩個數(shù)據(jù)挖掘模型的ROC曲線中各危險因素對應的AUC評估各自變量對模型的影響大小,重要性前10位影響因素排序見表4。由表可知,對模型影響最大的三個影響因素在ANN模型中分別是吸煙史、痰中帶血與胸痛;而在C5.0模型中分別是吸煙史、胸痛與年齡。在ANN模型和C5.0模型中吸煙均為最主要的影響因素。
表3 C5.0決策樹和ANN模型的訓練集和測試集樣本分類結果Table 3 Classification results of training set and testing set samples by Decision tree C5.0 and ANN models
表4 C5.0決策樹模型和ANN模型中納入變量的重要性排序Table 4 Importance ranking of variables in Decision tree C5.0 model and ANN model
兩種數(shù)據(jù)挖掘模型對肺癌綜合預測性能的相關指標包括準確度、約登指數(shù)、敏感度、特異性、預測值和AUC。其中C5.0決策樹模型的特異性和NPV高于ANN模型,ANN模型預測模型的準確度、約登指數(shù)、敏感度、PPV和AUC均高于C5.0決策樹模型,見表5。測試集中兩種數(shù)據(jù)挖掘模型的ROC曲線可發(fā)現(xiàn)ANN模型預測性能優(yōu)于C5.0決策樹模型,見圖1。
表5 兩種數(shù)據(jù)挖掘模型的測試集結果比較Table 5 Comparison of testing set results between two data mining models
圖1 測試集中兩種數(shù)據(jù)挖掘模型的ROC曲線Figure 1 ROC curves of two data mining models in testing set
當前,肺癌的高發(fā)病率和高病死率已經(jīng)造成巨大的公共衛(wèi)生負擔,利用肺癌的危險因素來預測肺癌危險度,對于肺癌的預防和早期篩查具有重要意義。本研究分別建立了C5.0決策樹與ANN肺癌風險預測模型,比較發(fā)現(xiàn),ANN模型預測性能優(yōu)于C5.0決策樹模型。
本研究按照0.05的顯著性水平,單因素檢驗發(fā)現(xiàn)有9個變量與肺癌患病率呈相關關系:5個流行病學變量中年齡、吸煙史、飲酒史、炎性反應史與肺癌患病率呈正相關,輸血史與肺癌患病率呈負相關;4個臨床癥狀中痰中帶血、胸痛與肺癌患病率正相關,乏力和發(fā)熱出汗與肺癌患病率存在負相關關系。同時,本研究的兩種數(shù)據(jù)挖掘模型中吸煙均為關鍵影響變量。既往研究表明肺癌常見于70歲以上人群且發(fā)病率和死亡率隨年齡增加而升高,同時吸煙、飲酒以及慢性炎性反應均為肺癌的危險因素之一[5],而圍手術期輸血對肺癌預后和復發(fā)的影響當前研究仍不一致[6],這與本研究結果基本相符。有研究顯示,遺傳因素與職業(yè)性粉塵接觸也是肺癌的危險因素之一[7],這與本研究結果不符。
決策樹模型是一種由層次分類逐步構建的貪心算法,作為一種新興的數(shù)據(jù)挖掘技術,它可以經(jīng)過多次迭代演算后得到最優(yōu)化的算法模型,具有較高的數(shù)據(jù)分析能力。相關研究已經(jīng)將C5.0決策樹模型用于利用基因表達數(shù)據(jù)和職業(yè)危險因素預測肺癌風險的模型建立[8-10]。C5.0算法作為決策樹模型的常用算法之一,適用于分類變量和大數(shù)據(jù)集,已經(jīng)在生物醫(yī)學預測模型的建立中得到廣泛應用。另外一些研究將C5.0決策樹模型與其他多種研究進行比較,建立疾病風險預測模型,均得到C5.0決策樹模型的預測性能最優(yōu)的結果[11-12]。
ANN模型的數(shù)學結構模擬人類大腦的生物神經(jīng)元學習動態(tài),對輸入變量經(jīng)過訓練產(chǎn)生一個加權組合的輸出結果。ANN相比于一般統(tǒng)計學方法優(yōu)勢顯著,具有良好的魯棒性、高容錯性和較強的歸納能力,可以快速識別線性模型、受閾值影響的非線性模型、分類模型、逐步線性模型,甚至偶然影響,故其可以確定潛在的預后影響因素[13]。已有研究將ANN應用于肺癌風險評估相關模型的構建[3,14]。該研究結果同樣顯示ANN模型在準確度、敏感度、約登指數(shù)、陽性預測值、ROC曲線下面積均優(yōu)于決策樹模型[15-16],這與相關研究結果一致。因此,本研究建議利用ANN模型結合人群的流行病學資料和臨床癥狀判別肺癌高危人群,為肺癌的早期診斷早期治療提供參考依據(jù)[17]。
本研究仍然存在一定的局限性:一方面,納入的樣本量較少,如果能收集更大樣本量和多中心樣本資料,樣本數(shù)據(jù)將具有更好的代表性,模型將具有更優(yōu)異的性能;另一方面,納入的變量種類有限,而與肺癌相關的危險因素眾多且對肺癌存在交互作用,如果能納入環(huán)境因素、職業(yè)因素、遺傳因素、行為生活方式等多種研究變量,模型將更為準確可靠。因此,我們建議未來的研究應涵蓋更大的樣本量,納入更為豐富的研究變量進行綜合分析,同時將ANN模型應用于肺癌高危人群中篩查驗證。