孫向東 董長征 陳曉妍 唐 玲 王 侃
(寧波市衛(wèi)生信息中心 寧波315010) (寧波大學(xué)醫(yī)學(xué)院 寧波315040) (寧波市衛(wèi)生信息中心 寧波315010)
?
決策樹在原發(fā)性肝癌鑒別診斷中的應(yīng)用*
孫向東 董長征 陳曉妍 唐 玲 王 侃
(寧波市衛(wèi)生信息中心 寧波315010) (寧波大學(xué)醫(yī)學(xué)院 寧波315040) (寧波市衛(wèi)生信息中心 寧波315010)
以95例原發(fā)性肝癌和190例肝硬化病例的CT診斷、乙肝表面抗原、甲胎蛋白、癌胚抗原和巖藻糖苷酶等影像學(xué)和血清學(xué)標志物檢測結(jié)果以及性別和年齡等為基本資料,利用決策樹算法和診斷指標建立判別規(guī)則,輔助對原發(fā)性肝癌進行鑒別診斷。結(jié)果表明以決策樹為代表的數(shù)據(jù)挖掘技術(shù)能夠較好地輔助肝癌鑒別診斷。
決策樹;原發(fā)性肝癌;判別規(guī)則;鑒別診斷
原發(fā)性肝癌(Primary Hepatocelluar Carcinoma,PHC)簡稱肝癌,是我國10大惡性腫瘤之一,死亡率排在惡性腫瘤第3位,是危及生命的常見病[1]。目前,肝癌確切的病因及發(fā)病機制仍不明確,一般來說,男性發(fā)病率高于女性,且發(fā)病率隨著年齡增長而上升,乙肝表面抗原(HbsAg)、飲酒和肝硬化等是肝癌的危險因素[1]。肝癌的預(yù)后相對較差,因此早期發(fā)現(xiàn)、早期診斷是早期治療的基礎(chǔ)和前提,也是有效提高肝癌患者生存率、改善其預(yù)后的重要保證。
甲胎蛋白(α-fetoprotein,AFP)、癌胚抗原(Carcino-embryonic Antigen,CEA)和α-L-巖藻糖苷酶(α-L-fucosidase,AFU)是肝癌重要的血清分子標志物,對于肝癌的早期診斷具有重要意義,但是這3個腫瘤標志物的敏感性和特異性都不夠高(介于40%~85%),因此主要用于肝癌的篩查[2-3]。CT和B超是肝癌的影像學(xué)檢查方法,是肝癌診斷的主要依據(jù)[4-5]。肝癌與一般的良性肝病(例如肝炎和脂肪肝)比較容易鑒別,主要鑒別對象是肝硬化,但二者無論是腫瘤標記物水平還是影像學(xué)都有相似之處[4,6]。本文采用決策樹(Decision Tree,DT)算法,綜合考慮年齡、性別、乙肝表面抗原、CT診斷、腫瘤標志物(甲胎蛋白、癌胚抗原和巖藻糖苷酶)等因素,為肝癌的鑒別診斷提供判別參考。
2.1 一般資料
病例資料來自于當(dāng)?shù)啬橙揍t(yī)院2013年1-12月住院資料,所有肝癌和肝硬化病例均通過病理診斷且資料齊全。肝癌組:共95例,均初次診斷為肝癌,排除復(fù)發(fā)和術(shù)后病例;其中,男性81例,女性14例,年齡介于18~82歲之間。肝硬化組:共190例,從肝硬化病例中隨機選取,排除肝癌;其中,男性134例,女性56例,年齡介于26~87歲之間。采集病例年齡、性別(男性1/女性0)、乙肝表面抗原(陽性1/陰性0)、CT診斷(陽性1/陰性0)、腫瘤標志物(甲胎蛋白、癌胚抗原和巖藻糖苷酶)等資料。
2.2 決策樹算法
決策樹采用二叉樹來建立判別規(guī)則,樹上的每個內(nèi)部節(jié)點表示根據(jù)某個分類指標大小進行判斷,判斷的結(jié)果指向下游不同的決策樹分支,每個樹葉節(jié)點代表最終的某個判別分類,從起始節(jié)點到最終樹葉節(jié)點即代表一條完整的判別規(guī)則,可供臨床作為診斷參考標準。決策樹的核心在于節(jié)點對于指標的選擇,一般通過特點算法(如CRT、C5和CHAID算法)來選擇節(jié)點分類指標,使得分類結(jié)果準確率達到最大化。本文采用分類和回歸樹(Classification and Regression Trees,CRT)算法,利用Gini系數(shù)分割構(gòu)建二叉決策樹,向后修建樹結(jié)構(gòu)。CRT算法的好處是對連續(xù)變量或離散變量的指標都能很好地適應(yīng),自動測算分割閾值進行構(gòu)樹,與人類專家決策思路更加接近[7]。節(jié)點最小個體數(shù)設(shè)置為5,最大樹深為6層,計算判別準確率和十倍交叉一致性(10-fold crossvalidation)來評估模型判別效果。決策樹算法通過SPSS 17.0統(tǒng)計軟件實現(xiàn)。
3.1 判別指標檢測結(jié)果
如表1所示,肝癌組85.3%為男性,14.7%為女性;肝硬化組70.5%為男性,29.5%為女性。CT檢測結(jié)果,肝癌組88.4%為“確診或首先考慮肝癌”,作為陽性結(jié)果,11.6%為“考慮或不排除肝癌”,作為陰性結(jié)果;肝硬化組98.9%為“確診肝硬化”,作為陰性結(jié)果,1.1%為“考慮肝癌”,作為陽性結(jié)果。肝癌組89.5%乙肝表面抗原為陽性,肝硬化組則為63.2%。由于經(jīng)正態(tài)性檢驗,甲胎蛋白、巖藻糖苷酶和癌胚抗原這3個血清腫瘤標志物數(shù)據(jù)均不服從正態(tài)分布,因此一般描述采用中位數(shù)(下四分位數(shù)、上四分位數(shù))形式表示。肝癌組甲胎蛋白、巖藻糖苷酶和癌胚抗原的中位數(shù)分別為71.0、20.5和1.9,肝硬化組分別為1.7、11.8和1.6,每個指標均存在一定交叉范圍。肝癌組年齡中位數(shù)為58,肝硬化組為57。
表1 判別指標檢測結(jié)果
3.2 決策樹判別結(jié)果
決策樹判別結(jié)果,見圖1。285例病例,共誤判5人,判別準確率達到98.2%,十倍交叉一致率達到95.4%,說明決策樹用于肝癌/肝硬化的判別分析取得了較好效果。具體判別規(guī)則,見表2,判別肝癌的規(guī)則分別是規(guī)則1、規(guī)則2、規(guī)則3及規(guī)則5,診斷準確率均為100%。判別肝硬化的規(guī)則分別是規(guī)則4和規(guī)則6,診斷準確率分別為94.4%和97.7%,分別有1例和4例肝癌被誤診為肝硬化。從誤診的結(jié)果來看,這5例肝癌均為不典型病例,一般肝癌病例CT診斷為陰性,甲胎蛋白和巖藻糖苷等標志物水平特別低。
圖1 決策樹對肝癌/肝硬化判別結(jié)果
4.1 數(shù)據(jù)挖掘技術(shù)的優(yōu)勢
在醫(yī)學(xué)診斷(如肝癌診斷)中,常常需要考慮多個因素(例如影像學(xué)和血清學(xué)指標)進行綜合判斷,但是綜合判斷又會遇到一些困難。一方面,病例的指標不一定非常典型,例如本文中就有一些肝癌病例的腫瘤標志物水平非常低,甚至影像學(xué)上也沒有明顯的腫瘤特征;另一方面,綜合判斷需要豐富的臨床經(jīng)驗,對于年輕醫(yī)生來說,這是一個長期的積累過程。以決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法和支持向量機為代表的數(shù)據(jù)挖掘技術(shù),在機器學(xué)習(xí)和模式識別領(lǐng)域具有獨特的優(yōu)勢。白雪峰等[6]利用人工神經(jīng)網(wǎng)絡(luò)進行肝癌診斷[6],趙紫奉等[7]基于決策樹CRT算法對15種疾病進行診斷分析,魏小玲等[8]利用決策樹C5算法和生物標志物對肺癌進行輔助診斷,余鵬等[9]基于遺傳算法對骨腫瘤進行分類,王家祥等[10]利用支持向量機和血清蛋白質(zhì)指紋圖譜來診斷甲狀腺癌,這些都說明相較于傳統(tǒng)的多元統(tǒng)計分析方法(如線性和logistic回歸),數(shù)據(jù)挖掘技術(shù)由于采用非線性算法并通過交叉一致性來計算預(yù)測準確率,具有較強的靈活性、適應(yīng)性和魯棒性,不需要較為明確的統(tǒng)計分布來計算P值。決策樹算法由于其判別規(guī)則與人類專家決策模式相近,而不像人工神經(jīng)網(wǎng)絡(luò)和遺傳算法等不管是算法還是參數(shù)都相對抽象,在醫(yī)學(xué)臨床診斷中更容易得到應(yīng)用。
表2 決策樹判別規(guī)則及結(jié)果
4.2 甲胎蛋白和巖藻糖苷酶對肝癌鑒別診斷的意義
在本文的判別診斷中,判別準確率和交叉一致率分別為98.2%和95.4%,取得了較為理想的判別結(jié)果。需要注意的是,如果單純采用CT進行診斷,診斷準確率能夠達到88.1%,說明在肝癌診斷中,CT仍是核心手段,而其他指標的聯(lián)合診斷將診斷準確率提高了約10%。CT結(jié)合造影能夠較為清晰地觀察到典型肝癌病例肝臟中腫瘤的形態(tài)、大小、包膜和病灶強化等,但是肝硬化結(jié)合和小肝癌的影像學(xué)表現(xiàn)有時難以區(qū)分,造影效果也跟造影技術(shù)以及病例肝臟血供等因素密切相關(guān),因此腫瘤標志物的輔助診斷對于肝癌的鑒別診斷具有重要的意義[4-5]。
本文獲得的對肝癌鑒別診斷的判別規(guī)則中,除了CT診斷外,甲胎蛋白和巖藻糖苷酶這兩個腫瘤標志物起到了主要作用,所有的判別規(guī)則都有這兩個指標的參與。甲胎蛋白是胎兒發(fā)育早期肝臟和卵黃囊合成的一種血清糖蛋白,中文全稱為“甲型-胚胎蛋白”;成人含量非常低,肝癌和肝硬化會明顯升高,因此是肝癌首選診斷指標[2-3,11]。巖藻糖苷酶是一種溶酶體酶,在肝癌和一些良性疾病(如糖尿病和胰腺炎)都可能會升高[2-3,11]。而且還可以進一步發(fā)現(xiàn),肝癌的主要診斷依據(jù)判別規(guī)則1“甲胎蛋白>2.72 并且 巖藻糖苷酶>14.8”,肝硬化的主要診斷依據(jù)判別規(guī)則6“甲胎蛋白<2.72 并且 巖藻糖苷酶<15.85”,這與甲胎蛋白和巖藻糖苷酶是主要的腫瘤標志物且具有相對較高的敏感性和特異性是一致的。其他一些指標如癌胚抗原,由于與甲胎蛋白和巖藻糖苷酶存在一定相關(guān)性或者與肝癌的關(guān)系相對不密切,均未被納入到判別規(guī)則中。這樣只需要考慮CT診斷、甲胎蛋白和巖藻糖苷酶這3個指標,依據(jù)相對簡單的判別規(guī)則就可以對肝癌和肝硬化做較為準確的鑒別。當(dāng)然,本文也存在一些限制,如未對肝癌的類型(包括肝細胞癌、膽管細胞癌等)進行詳細分類;未對肝癌進行分期;CT診斷只粗略考慮陽性/陰性,未充分利用CT的詳細數(shù)據(jù)等,這影響了更加深入地指導(dǎo)臨床診斷和治療方案,在今后的研究中需要加以完善。
本文構(gòu)建的決策樹在肝癌的鑒別診斷中獲得了很高的判別準確率,這說明以決策樹為代表的數(shù)據(jù)挖掘技術(shù)能夠較好地輔助肝癌鑒別診斷,促進肝癌的早期診斷。
1 葉家才, 崔書中, 巴明臣.原發(fā)性肝癌的流行病學(xué)特征及其危險因素[J].實用醫(yī)學(xué)雜志, 2008, 24(10): 1839-1841.
2 姚登福, 姚敏, 蔚丹丹,等. 原發(fā)性肝癌早期診斷特異分子標志物的研究進展[J]. 胃腸病學(xué)和肝病學(xué)雜志, 2012, 21(3): 202-205.
3 朱明, 徐吟亞. 腫瘤標志物聯(lián)合檢測對原發(fā)性肝癌診斷價值分析[J]. 國際檢驗醫(yī)學(xué)雜志, 2013, 33(18): 2274-2275.
4 施昌村, 韓必亮, 黃崇權(quán). CT掃描聯(lián)合血清甲胎蛋白檢測在原發(fā)性肝癌診斷中的意義[J]. 實用醫(yī)藥雜志, 2014, 22(12): 744-746.
5 陳大同, 穆偉斌, 張淑麗,等. PACS 系統(tǒng)數(shù)字化影像診斷結(jié)果聯(lián)合腫瘤標記物對肝癌早期診斷的應(yīng)用研究[J]. 中國普通外科雜志, 2014, 23(7): 986-988.
6 白雪峰, 王平瑜, 吳擁軍. 基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)的腫瘤標志聯(lián)合檢測在肝癌診斷中的應(yīng)用[J]. 實用醫(yī)藥雜志, 2012, 29(4): 298-300.
7 趙紫奉, 李韶斌, 孔抗美. 基于決策樹算法的疾病診斷分析[J]. 中國衛(wèi)生信息管理雜志, 2011,8(5): 67-69.
8 魏小玲, 譚善娟, 何其棟, 等. 決策樹聯(lián)合生物標志在肺癌輔助診斷中應(yīng)用 [J]. 中國公共衛(wèi)生, 2013, 29(10): 1479-1479.
9 余鵬, 吳朝霞. 基于遺傳算法的骨腫瘤分類方法研究[J]. 西安交通大學(xué)學(xué)報, 2001, 35(2): 166-170.
10 王家祥, 王利, 范應(yīng)中,等. 基于支持向量機的血清蛋白質(zhì)指紋圖譜模型在甲狀腺癌診斷中的應(yīng)用研究[J]. 中華醫(yī)學(xué)雜志, 2006, 86(14): 979-982.
11 趙運勝, 王猛, 崔辰瑩,等. 評價8種血清標志物在原發(fā)性肝癌診斷中的臨床價值[J]. 重慶醫(yī)學(xué), 2014, 43(2): 214-216.
Application of the Decision Tree in Differential Diagnosis of Primary Hepatocelluar Carcinoma
SUNXiang-dong,
NingboHealthInformationCenter,Ningbo315010,China;DONGChang-zheng,MedicalCollege,NingboUniversity,Ningbo315040,China;CHENXiao-yan,TANGLing,WANGKan,NingboHealthInformationCenter,Ningbo315010,china
By use of the decision tree algorithm and diagnostic indexes, the paper sets up the discrimination rules to make differential diagnosis of Primary Hepatocelluar Carcinoma(PHC) based on basic data of 95 patients with PHC and 190 patients with liver cirrhosis, including the CT diagnosis, testing results of imaging and serologic markers such as the HbsAg, AFP, CEA and AFU, sex and age, etc. As indicated by the results, the data mining technology represented by the decision tree can support the differential diagnosis of PHC.
Decision tree; Primary Hepatocellular Carcinoma(PHC); Discriminant rules; Differential diagnosis
2015-05-14
孫向東,副教授,發(fā)表論文18篇。
寧波市自然科學(xué)基金項目“早期肝癌輔助診斷系統(tǒng)數(shù)據(jù)挖掘方法及專家系統(tǒng)研究”(項目編號:2012A610191) 。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.09.013