黃平,馮慧芬,王斌,趙敬,易佳音
(鄭州大學(xué)第五附屬醫(yī)院 1.消化內(nèi)科,2.感染科,河南 鄭州 450052)
手足口?。╤and-foot-mouth disease, HFMD)是一種由腸道病毒引起的,以嬰幼兒發(fā)病為主的急性傳染性疾病[1]。盡管多數(shù)患兒表現(xiàn)為癥狀輕微,但也有少部分患兒因各種嚴(yán)重的神經(jīng)系統(tǒng)、呼吸系統(tǒng)并發(fā)癥而導(dǎo)致后遺癥,甚至死亡,因而如何早期識(shí)別重癥患者成為臨床醫(yī)生面臨的重要難題[2]。數(shù)據(jù)挖掘是一種從大量的數(shù)據(jù)中,通過(guò)數(shù)理模式來(lái)探索隱藏?cái)?shù)據(jù)中未知規(guī)律的過(guò)程。本研究通過(guò)數(shù)據(jù)挖掘的思想,構(gòu)建決策樹(shù)模型,從復(fù)雜的臨床資料中找出較佳的預(yù)測(cè)指標(biāo),從而為臨床醫(yī)生HFMD診斷治療提供一種輔助決策手段。
選取2016年6月-2017年10月于鄭州大學(xué)第五附屬醫(yī)院收治的HFMD患兒838例。其中,男性513例,女性325例;年齡3個(gè)月~4歲,平均(2.3±1.1)歲;平均住院時(shí)間(4.5±0.8)d。所有患兒經(jīng)病原學(xué)確診。根據(jù)《手足口病診療指南(2010年版)》中的診斷標(biāo)準(zhǔn),將所有患兒分成輕癥組480例和重癥組358例[3]。輕癥組:僅表現(xiàn)為手、足、口及臀部的皮疹,伴或不伴發(fā)熱;重癥組:出現(xiàn)神經(jīng)系統(tǒng)受累的表現(xiàn),如頭痛、嘔吐;精神差、嗜睡、易驚、譫妄及驚厥;肢體抖動(dòng),肌陣攣、眼球震顫、共濟(jì)失調(diào)及眼球運(yùn)動(dòng)障礙;無(wú)力或急性弛緩性麻痹;體征可見(jiàn)腦膜刺激征,腱反射減弱或消失。收集患兒信息資料,初步制定預(yù)選的分析變量,包括性別、年齡、發(fā)熱時(shí)間、最高體溫、易驚、肢體抖動(dòng)、抽搐、寒戰(zhàn)、嗜睡及嘔吐等。
由專(zhuān)人負(fù)責(zé)設(shè)計(jì)問(wèn)卷調(diào)查表,通過(guò)交叉核對(duì),使用EpiData 3.1軟件進(jìn)行原始數(shù)據(jù)的錄入。通過(guò)一系列數(shù)據(jù)整理,包括去除缺失、異常及重復(fù)個(gè)案等,最后生成一份完整的數(shù)據(jù)。對(duì)所有預(yù)測(cè)變量進(jìn)行二分類(lèi)處理,并賦值為0或1。其中連續(xù)性變量處理后分別為:年齡<3歲,發(fā)熱時(shí)間≥3 d,體溫≥38.5℃,白細(xì)胞≥10.8×109/L,中性粒細(xì)胞比率≥75%,血糖≥8.3 mmol/L。滿(mǎn)足上述條件的均賦值為1,不滿(mǎn)足上述條件的賦值為0。其余變量按照是否存在相應(yīng)癥狀,將是賦值為1,否賦值為0;性別男賦值為1,女賦值為0;居住地農(nóng)村賦值為1,城市賦值為0。最后將處理后的數(shù)據(jù),進(jìn)行統(tǒng)計(jì)學(xué)分析。
數(shù)據(jù)分析采用SPSS Statistics 23.0統(tǒng)計(jì)軟件,模型構(gòu)建和評(píng)估采用SPSS Modeler 18.0軟件。Modeler軟件在決策樹(shù)構(gòu)建模塊提供了多種算法,包括隨機(jī)樹(shù)、分類(lèi)和回歸(classification and regression, C&R)樹(shù)、C5.0、χ2自動(dòng)交互檢測(cè)法(chi-squared automatic interaction detector, CHAID)及高效統(tǒng)計(jì)樹(shù)(quick unbiased efficient statistical tree, QUEST)等。所有算法的基本操作相同,即將數(shù)據(jù)分隔成多個(gè)子組來(lái)實(shí)現(xiàn)最佳分類(lèi)或預(yù)測(cè),但因輸入和目標(biāo)(輸出)字段的類(lèi)型是連續(xù)型變量或分類(lèi)變量而有區(qū)別。其中C&R和CHAID的輸入和目標(biāo)字段可以是連續(xù)或分類(lèi)變量,而QUEST和C5.0要求目標(biāo)字段必須是分類(lèi)變量。根據(jù)以上原理,在Modeler軟件中,先選用自動(dòng)分類(lèi)器,對(duì)上述常見(jiàn)算法進(jìn)行建模,最后根據(jù)總體精確性對(duì)所有算法進(jìn)行篩選,選取最優(yōu)算法,配置模型參數(shù),輸出分類(lèi)樹(shù)模型,評(píng)估模型的預(yù)測(cè)正確率,輸出模型的累計(jì)收益圖,評(píng)估模型擬合效果,同時(shí)繪制受試者工作特征(receiver operating characteristic, ROC)曲線(xiàn),評(píng)估模型的診斷性能。
經(jīng)過(guò)自動(dòng)分類(lèi)器篩選,最終確定C&R算法最佳。C&R樹(shù)是個(gè)組合,包括分類(lèi)樹(shù)和回歸樹(shù),目標(biāo)變量為分類(lèi)變量時(shí)使用分類(lèi)樹(shù),以Gini系數(shù)來(lái)確認(rèn)分割點(diǎn),為連續(xù)型變量時(shí)則使用回歸樹(shù),以方差來(lái)確認(rèn)分割點(diǎn)。決策樹(shù)包括種樹(shù)和修建2個(gè)環(huán)節(jié),模型參數(shù)設(shè)置包括構(gòu)建單個(gè)決策樹(shù),最大樹(shù)深度為5層,修建樹(shù)以防止過(guò)度擬合。中止規(guī)則為父分支使用最小記錄數(shù)2%,子分支為1%。兩組患兒居住地、發(fā)熱時(shí)間、體溫、白細(xì)胞、中性比率、血糖、精神差、嗜睡、易驚、肢體抖動(dòng)、嘔吐、寒戰(zhàn)及咽部皰疹比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。見(jiàn)表1和圖1~3。
C&R算法構(gòu)建的決策樹(shù)共包括3層7個(gè)節(jié)點(diǎn),其中終末節(jié)點(diǎn)共有4個(gè)。模型共納入3個(gè)解釋變量:易驚、嘔吐及肢體抖動(dòng)。決策樹(shù)生成原理第一步為訓(xùn)練樣本集生成決策樹(shù)的過(guò)程,第二步為決策樹(shù)的剪枝過(guò)程,以新的測(cè)試數(shù)據(jù)為對(duì)象進(jìn)行模型的修建過(guò)程,即總樣本被分為訓(xùn)練和測(cè)試2個(gè)數(shù)據(jù)集,圖中節(jié)點(diǎn)0的總數(shù)603例即為訓(xùn)練樣本大小,而圖中未顯示的測(cè)試樣本量為235例。Gini系數(shù)作為分割點(diǎn),它代表了目標(biāo)變量組間的差異程度,其系數(shù)越小,組間差異越大。從根節(jié)點(diǎn)出發(fā),計(jì)算每個(gè)節(jié)點(diǎn)的Gini系數(shù),然后再計(jì)算1個(gè)系數(shù)的變化量,代表了異質(zhì)性的下降,反應(yīng)到?jīng)Q策樹(shù)的圖形上,顯示為改進(jìn)等于系數(shù)變化量。決策樹(shù)從上往下分支,可以看到改進(jìn)越來(lái)越小。從生成的預(yù)測(cè)變量重要性圖中可以看出,HFMD的分組與肢體抖動(dòng)、易驚以及嘔吐相關(guān),而與其他變量則關(guān)系不大,再次驗(yàn)證了決策樹(shù)模型的納入變量選擇。見(jiàn)圖1~3。
表1 患者的臨床資料比較
圖1 C&R算法決策樹(shù)
圖2 簡(jiǎn)易決策樹(shù)
圖3 預(yù)測(cè)變量的重要性
為了評(píng)價(jià)決策樹(shù)模型的整體擬合效果,繪制模型累計(jì)收益圖,在前期快速達(dá)到較高點(diǎn)后,快速趨于平穩(wěn),而本研究構(gòu)建的決策樹(shù)模型可以看到距離理想模型參考線(xiàn)較為接近;根據(jù)模型的預(yù)測(cè)結(jié)果繪制ROC曲線(xiàn)圖,其曲線(xiàn)下面積為0.903[(95%CI:0.878,0.927),P=0.000]。模型的預(yù)測(cè)的準(zhǔn)確性為91.17%,敏感性為84.36%,特異性為96.25%,見(jiàn)圖4、5。
圖4 C&R決策樹(shù)模型的累計(jì)收益率
圖5 C&R決策樹(shù)模型的ROC曲線(xiàn)圖
近年來(lái),機(jī)器學(xué)習(xí)、人工智能等數(shù)據(jù)挖掘領(lǐng)域新興技術(shù)蓬勃發(fā)展,隨著大數(shù)據(jù)時(shí)代的到來(lái),對(duì)龐大數(shù)據(jù)的處理分析也變得更為復(fù)雜和關(guān)鍵[4-5]。借助統(tǒng)計(jì)建模等領(lǐng)域與大數(shù)據(jù)端口的聯(lián)結(jié),可以通過(guò)分析數(shù)據(jù)提供決策向?qū)В皶r(shí)應(yīng)對(duì)復(fù)雜的變化。決策樹(shù)作為建模的一種算法,在處理分類(lèi)問(wèn)題方面具有精確性高、輸出結(jié)果容易理解等優(yōu)勢(shì)[6]。
目前,國(guó)內(nèi)關(guān)于手足口病方面的臨床研究,較為常見(jiàn)的是使用Logistic回歸模型來(lái)篩選變量,預(yù)測(cè)病情[7-10]。Logistic回歸屬于一種參數(shù)統(tǒng)計(jì),其主要用于解決探討危險(xiǎn)因素以及預(yù)測(cè)發(fā)生概率等問(wèn)題[11]。它屬于一種線(xiàn)性模型,在分析主效應(yīng)方面占優(yōu),但是無(wú)法處理各種變量的交互效應(yīng)以及模型過(guò)度擬合的問(wèn)題。而決策樹(shù)屬于非參數(shù)統(tǒng)計(jì),可以很好地彌補(bǔ)Logistic回歸模型的不足[12]。在處理交互相應(yīng)方面較佳,能有效地避免模型的過(guò)度擬合,提升模型預(yù)測(cè)精確性的同時(shí),提高適用廣度[13]。此外,分類(lèi)樹(shù)模型可以很好地處理缺失值的情況,通過(guò)優(yōu)化的算法,使得模型在實(shí)際使用中更高效便捷。本研究通過(guò)回顧性分析臨床收集的患者資料,建立決策樹(shù)模型,從眾多待分析變量中篩選出預(yù)測(cè)變量,最后對(duì)模型進(jìn)行評(píng)估,模型預(yù)測(cè)準(zhǔn)確性為91.17%,提示模型擬合效果較好。隋美麗等[14]的研究顯示通過(guò)決策樹(shù)篩選出精神差、手足抖動(dòng)、易驚及熱峰≥39℃共4個(gè)解釋變量,預(yù)測(cè)準(zhǔn)確性為95.5%。ZHANG等[15]的臨床研究通過(guò)更高級(jí)的迭代決策樹(shù)算法,構(gòu)建的模型預(yù)測(cè)準(zhǔn)確性為92.3%??梢钥闯鰶Q策樹(shù)模型在預(yù)測(cè)HFMD方面有一定的優(yōu)勢(shì)。本研究尚有一定不足,由于樣本量偏小以及患者搜集時(shí)存在局限性,研究的人群能否很好地代表整體特征,以及模型的適用范圍仍有待驗(yàn)證。任何模型都有其優(yōu)勢(shì)和不足,由于實(shí)際數(shù)據(jù)的復(fù)雜多樣性,一種模型很難完全勝任,往往需要多種模型協(xié)調(diào)聯(lián)合,通過(guò)優(yōu)勢(shì)互補(bǔ),發(fā)揮功能。
綜上所述,本研究提供了一種新的思路,通過(guò)決策樹(shù)模型共納入3個(gè)解釋變量:易驚、嘔吐及肢體抖動(dòng),模型預(yù)測(cè)精確度較高,對(duì)臨床疾病診療有一定的輔助價(jià)值。后續(xù)仍需更多研究的深入開(kāi)展,以挖掘出更佳算法,構(gòu)建更優(yōu)模型應(yīng)用于臨床,為重癥手足口病的診療及預(yù)防做出更大的貢獻(xiàn)。