來(lái)丹飛,陳雪東
(湖州師范學(xué)院 理學(xué)院,浙江 湖州313000)
門(mén)脈高壓癥是我國(guó)的常見(jiàn)病,但患者在進(jìn)行脾切除加門(mén)奇血管斷流或單純脾臟切除術(shù)后常并發(fā)門(mén)脈血栓(PVT).文獻(xiàn)報(bào)道,PVT 在斷流術(shù)后的發(fā)病率為6.3%~39.0%[1,2],嚴(yán)重影響患者術(shù)后恢復(fù)及病程療效,因此也受到相關(guān)人員越來(lái)越多的關(guān)注,找到一個(gè)既快速又準(zhǔn)確的預(yù)測(cè)PVT 的方法是目前所急需的.現(xiàn)有統(tǒng)計(jì)分析方法中的分類分析方法有聚類分析、判別分析、定性資料分析[3],上述方法對(duì)于本文研究的問(wèn)題,在分類的正確率上均存在一定的不足與缺陷,為了確定更有效的分類方法,本文采用現(xiàn)代數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)法對(duì)數(shù)據(jù)進(jìn)行分類分析.
湖州市某醫(yī)院經(jīng)手術(shù)治療門(mén)靜脈高壓癥確診患者48例,其中男22例,女26例;年齡23~76歲;單純脾切除30例,脾切除聯(lián)合門(mén)奇斷流術(shù)18例.術(shù)前1天及術(shù)后第1、3、5、7、14天P-sel、TpP、D-D、PLT 在血液中的含量數(shù)據(jù)為重復(fù)測(cè)量追蹤數(shù)據(jù).
決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法[4].卡方自動(dòng)交互檢驗(yàn)(chi-squared automatic interaction detector,CHAID)和分類回歸樹(shù)(Classification And Regression Tree,CRT)是決策樹(shù)中常用的兩種算法.CHAID 是根據(jù)給定的反應(yīng)變量和解釋變量對(duì)樣本進(jìn)行最優(yōu)分割,按照卡方檢驗(yàn)的顯著性進(jìn)行多元列聯(lián)表的自動(dòng)判斷分組,利用卡方自動(dòng)交互檢測(cè)法可以快速、有效地挖掘出主要的影響因素[5].而CRT 是一種專門(mén)用于對(duì)定類和定序數(shù)據(jù)進(jìn)行分類分析的方法,它具有較高的分類,預(yù)測(cè)精確度和工作效率,其核心思想是根據(jù)一個(gè)給定的目標(biāo)變量和其他經(jīng)過(guò)篩選的樣本特征指標(biāo)對(duì)樣本進(jìn)行最優(yōu)分割.CRT 方法具有兩大優(yōu)點(diǎn):一是具有互動(dòng)和自適應(yīng)功能,可以對(duì)目標(biāo)變量進(jìn)行最優(yōu)化分解;二是通過(guò)控制分類過(guò)程,可以根據(jù)特定的目的對(duì)分類結(jié)果進(jìn)行優(yōu)化組合[6].本研究結(jié)合這兩種算法,分別建立模型進(jìn)行比較并選擇最好的判別模型對(duì)PVT 進(jìn)行預(yù)測(cè).
本研究的目的是根據(jù)建立的模型結(jié)果,判斷患者接受手術(shù)后是否會(huì)產(chǎn)生并發(fā)癥PVT.因此,患者最后是否得PVT 作為模型建立的目標(biāo)變量.
選擇病案數(shù)據(jù)中對(duì)有助于判斷患者最后是否得PVT 的因素作為模型建立的自變量,包括P-sel、TpP、D-D、PLT 這四個(gè)指標(biāo).
分別采用卡方自動(dòng)交互檢驗(yàn)CHAID 和分類回歸樹(shù)CART 算法建立分類模型.參數(shù)設(shè)置中,在卡方的顯著性水平中拆分節(jié)點(diǎn)及合并分類都設(shè)置為0.05,設(shè)置最大生長(zhǎng)深度為5層,且葉節(jié)點(diǎn)中得樣本個(gè)數(shù)最少為1,父節(jié)點(diǎn)中得樣本個(gè)數(shù)最少為3.
通過(guò)對(duì)術(shù)后第1天的P-sel、TpP、D-D、PLT 四個(gè)指標(biāo)分別進(jìn)行CHAID 算法和CRT 算法分析建模.運(yùn)行結(jié)果顯示,CRT 算法得到的模型可以100%的正確判斷患者是否得PVT(因得到的樹(shù)型圖太占篇幅,在此僅作文字說(shuō)明).術(shù)后第1天的樹(shù)狀模型有6個(gè)葉節(jié)點(diǎn),共有10個(gè)節(jié)點(diǎn),從根節(jié)點(diǎn)向下一共有5層,即此樹(shù)模型的深度為5.從該模型中可以得出,我們預(yù)測(cè)P-選擇素值超過(guò)6.8%的患者、P-選擇素不超過(guò)6.8%但TpP值超過(guò)11.20mg/L的患者、P-選擇素不超過(guò)6.8%且TpP值不超過(guò)11.20mg/L但D-二聚體含量超過(guò)788ng/mL的患者都會(huì)并發(fā)PVT,因此應(yīng)提前介入治療.分類到此,該模型對(duì)PVT 的預(yù)測(cè)正確率已達(dá)97.9%,但因?yàn)橛?位患者最終是得了PVT 卻被分在不會(huì)得PVT 的組,所以最后還得再分析TpP和PLT 這兩個(gè)指標(biāo),當(dāng)患者TpP值超過(guò)7.02mg/L且PLT 值不超過(guò)87.0×10/L 時(shí)會(huì)并發(fā)PVT,這也得引起注意.
通過(guò)對(duì)術(shù)后第3天的P-sel、TpP、D-D、PLT 4個(gè)指標(biāo)進(jìn)行CHAID算法分析建模,運(yùn)行結(jié)果見(jiàn)圖1.
因此術(shù)后第3天的樹(shù)狀模型有4個(gè)葉節(jié)點(diǎn),共有5個(gè)節(jié)點(diǎn),從根節(jié)點(diǎn)向下一共有2層,即此樹(shù)模型的深度為2.該模型中僅由P-選擇素和TpP兩個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行了分類分析,且其判斷正確率達(dá)97.9%,是一個(gè)相對(duì)較好的樹(shù)模型,為了能更方便的理解該模型所表達(dá)的意思,故將其結(jié)果在平面直角坐標(biāo)系上繪制后得到表1.
表1 由術(shù)后第3天數(shù)據(jù)預(yù)測(cè)PVT的CHAID模型分析表Table 1 The analysis chart of the CHAID model which predicts PVT by the date of the third day after the operation
其中,A、B、C、D 為由模型結(jié)果分劃的四個(gè)區(qū)域,將P-選擇素作為橫坐標(biāo),TpP 值作為縱坐標(biāo),結(jié)果中的“Good”代表未并發(fā)PVT,“Bad”代表并發(fā)PVT.
再對(duì)術(shù)后第3天的P-sel、TpP、D-D、PLT 4個(gè)指標(biāo)進(jìn)行CRT 算法分析,運(yùn)行結(jié)果見(jiàn)圖2.
由CRT 算法得到的樹(shù)狀模型有4個(gè)葉節(jié)點(diǎn),共有6個(gè)節(jié)點(diǎn),從根節(jié)點(diǎn)向下一共有3層,即此樹(shù)模型的深度為3.該模型由P-選擇素、TpP、D-二聚體三個(gè)指標(biāo)共同作用,進(jìn)行分類分析,且判斷正確率達(dá)100%,因此這也是一個(gè)實(shí)用性很高的模型.類似的,將模型結(jié)果在直角坐標(biāo)系上繪制后得到表2,再對(duì)待定的B區(qū)域進(jìn)行分析得到表3.
圖1 由手術(shù)后第3天數(shù)據(jù)預(yù)測(cè)PVT的CHAID模型圖Fig. 1 The CHAID model which predicts PVT by the date of the third day after the operation
圖2 由手術(shù)3后第天數(shù)據(jù)PVT預(yù)CRT測(cè)的圖Fig. 2 The CRT model which predicts PVT by the date of the third day after the operation
表2 由術(shù)后第3天數(shù)據(jù)預(yù)測(cè)PVT的CRT模型分析表Table 2 The analysis chart of the CRT model which predicts PVT by the date of the third day after the operation
表3 待定的B區(qū)域結(jié)果分析表Table 3 The analysis of before-determined chart of area B
通過(guò)對(duì)術(shù)后第5天的P-sel、TpP、D-D、PLT 4個(gè)指標(biāo)進(jìn)行CRT 算法分析,運(yùn)行結(jié)果見(jiàn)圖3.
圖3 術(shù)后第 5天數(shù)據(jù)預(yù)測(cè)PVT的CRT模型圖Fig. 3 The CRT model which predicts PVT by the date of the fifth day after the operation
由CRT算法得到的樹(shù)狀模型有4個(gè)葉節(jié)點(diǎn),共有6個(gè)節(jié)點(diǎn),從根節(jié)點(diǎn)向下一共有3層,即此樹(shù)模型的深度為3.該模型由P-選擇素、D-二聚體、PLT 3個(gè)指標(biāo)共同作用,進(jìn)行分類分析,其判斷正確率達(dá)97.9%,且唯一沒(méi)有判斷正確的是將未得PVT的患者歸到了會(huì)得PVT 的組,對(duì)結(jié)果影響相對(duì)較小.類似的,對(duì)模型結(jié)果進(jìn)行表格式分析,得到表4和表5.
表4 由術(shù)后第5天數(shù)據(jù)預(yù)測(cè)PVT的CRT模型分析表Table 4 The analysis chart of the CRT model which predicts PVT by the date of the fifth day after the operation
表5 待定的B區(qū)域結(jié)果分析表Table 5 The analysis of before-determined chart of area B
通過(guò)對(duì)術(shù)后第7天的P-sel、TpP、D-D、PLT 4個(gè)指標(biāo)進(jìn)行CRT 算法分析建模,運(yùn)行結(jié)果顯示,CRT算法得到的模型判斷患者是否得PVT 的正確率為95.8%,但該樹(shù)狀模型有7個(gè)葉節(jié)點(diǎn),共有12個(gè)節(jié)點(diǎn),從根節(jié)點(diǎn)向下一共有5層,即此樹(shù)模型的深度為5.
該模型由TpP、D-D、PLT、P-sel 4個(gè)指標(biāo)共同作用,且TpP為該天最好的預(yù)測(cè)指標(biāo),但因并發(fā)PVT的患者都在術(shù)后3~8天形成,故用術(shù)后第7天的數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè),對(duì)PVT 的早期診斷價(jià)值不高.
通過(guò)對(duì)術(shù)后第14天的P-sel、TpP、D-D、PLT 四個(gè)指標(biāo)進(jìn)行CRT 算法分析建模,雖然運(yùn)行結(jié)果得到的模型判斷患者是否得PVT 的正確率為100%,但該模型有9個(gè)葉節(jié)點(diǎn),共16個(gè)節(jié)點(diǎn),深度為4,過(guò)于拖沓冗長(zhǎng),且分類到最后,每一個(gè)組別里的個(gè)數(shù)都較少,不具有代表性.另一方面,并發(fā)PVT 的患者都在術(shù)后3~8天內(nèi)形成,因此術(shù)后第14天的數(shù)據(jù)對(duì)PVT 的早期預(yù)測(cè)價(jià)值較小.
綜合術(shù)后1、3、5、7、14天得到的樹(shù)模型結(jié)果,在術(shù)后第3天得到了預(yù)測(cè)門(mén)脈高壓癥術(shù)后并發(fā)PVT的最優(yōu)模型,且P-選擇素為最好的判斷指標(biāo).由已知數(shù)據(jù)知,48位門(mén)脈高壓癥患者中有26位在術(shù)后并發(fā)PVT,且PVT 形成時(shí)間為術(shù)后3~8天,因此,在術(shù)后第3天檢測(cè)P-選擇素含量,結(jié)合TpP,D-二聚體兩個(gè)指標(biāo),對(duì)PVT 的早期診斷和及時(shí)的介入治療具有很大的現(xiàn)實(shí)意義.
[1]Winslow E R,Brunt L M,Drebin J A,et al.Portal vein thrombosis after splenectomy[J].Am J Surg,2002,184(6):631-635.
[2]Webster G J,Burroughs A K,Riordan S M.Review article:Portal vein thrombosis-new insights into aetiology and management[J].Aliment Pharmacol Ther,2005,21(1):1-9.
[3]何曉群.現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,1998:6.
[4]曹賽玉.幾種決策概率模型在現(xiàn)實(shí)生活中的應(yīng)用[J].理論與實(shí)踐理論月刊,2006(5):91-93.
[5]何凡,沈毅,葉眾.卡方自動(dòng)交互檢測(cè)法及其應(yīng)用[J].中華預(yù)防醫(yī)學(xué)雜志,2005,39(2):133.
[6]謝益輝.基于R軟件rpart包的分類與回歸樹(shù)應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2007(5):67-70.
湖州師范學(xué)院學(xué)報(bào)2013年6期