渭南市疾病預(yù)防控制中心(714000) 焦莉萍 郭晶晶 楊云云 魏明敏 劉 瑋 張系忠 沈 托 苗美榮
【提 要】 目的 使用決策樹中的分類方法CHAID模型和logistic回歸模型分析影響生活飲用水水質(zhì)的相關(guān)因素,并比較兩種模型分析結(jié)果的異同。方法 采用分層隨機(jī)抽樣的方法對(duì)渭南市2015-2017年452座集中式供水水廠的相關(guān)因素進(jìn)行分析,并用受試者工作曲線(ROC)評(píng)價(jià)兩種預(yù)測(cè)模型的效果。結(jié)果 logistic回歸分析結(jié)果顯示,消毒方式、正式運(yùn)營(yíng)時(shí)間、總投資和供水覆蓋人口是水質(zhì)不合格的影響因素,工程不消毒、工程運(yùn)營(yíng)時(shí)間越長(zhǎng),水廠規(guī)模(總投資和供水覆蓋人口)越小,水質(zhì)不合格率越高。決策樹CHAID模型分析結(jié)果顯示,消毒方式、總投資、供水覆蓋人口、正式運(yùn)營(yíng)時(shí)間、監(jiān)測(cè)點(diǎn)類型是水質(zhì)不合格的影響因素,工程不消毒是水質(zhì)不合格的主要影響因素。決策樹模型ROC曲線下面積稍大于logistic回歸模型(0.725 vs 0.701,Z=3.623,P<0.001)。結(jié)論 CHAID決策樹模型在水質(zhì)影響因素風(fēng)險(xiǎn)評(píng)估方面有一定的應(yīng)用價(jià)值,與logistic回歸模型結(jié)合應(yīng)用可從不同方面對(duì)水質(zhì)影響因素進(jìn)行分析預(yù)測(cè),為后期飲用水的監(jiān)管工作提供一定的科學(xué)依據(jù)。
決策樹法(decision tree)可以彌補(bǔ)傳統(tǒng)統(tǒng)計(jì)學(xué)分析方法的缺陷和不足[1]。決策樹方法能自動(dòng)檢測(cè)并估算出眾多自變量之間的交互效應(yīng),且不受多重共線性的影響,還可以更好地處理極值和缺失值[2]。本文用logistic回歸分析法和決策樹CHAID法對(duì)水質(zhì)結(jié)果的影響因素進(jìn)行分析,對(duì)渭南市水質(zhì)監(jiān)測(cè)結(jié)果現(xiàn)況調(diào)查數(shù)據(jù)建立決策樹模型與logistic回歸模型,并對(duì)兩者分析結(jié)果進(jìn)行比較。
1.研究對(duì)象
采用分層隨機(jī)抽樣的方法,選取2015-2017年渭南市臨渭、澄城、合陽(yáng)、大荔、蒲城、富平、白水、華陰、華洲、潼關(guān)10個(gè)縣(市、區(qū))108個(gè)鄉(xiāng)鎮(zhèn)的452座農(nóng)村集中式供水水廠進(jìn)行分析,這些水廠均為監(jiān)測(cè)點(diǎn),分別在豐水期和枯水期取1份出廠水和1~2份末梢水進(jìn)行監(jiān)測(cè),共2539份水。檢測(cè)項(xiàng)目包括感官指標(biāo)、一般化學(xué)指標(biāo)、毒理學(xué)指標(biāo)和微生物指標(biāo)。
2.研究方法
依據(jù)GB 5749-2006生活飲用水衛(wèi)生標(biāo)準(zhǔn),對(duì)生活飲用水常規(guī)項(xiàng)目及氨氮進(jìn)行檢測(cè)并判定結(jié)果,水質(zhì)監(jiān)測(cè)結(jié)果設(shè)置為因變量,合格賦值0,不合格為1。本文收集了影響水廠水質(zhì)的因素:水源類型、水期類型、消毒方式、監(jiān)測(cè)點(diǎn)類型、正式運(yùn)營(yíng)時(shí)間、總投資、日供水能力、供水覆蓋人口數(shù)、衛(wèi)生許可、水樣類型,將這些因素設(shè)為自變量,根據(jù)自變量與因變量的特征,選擇決策樹CHAID法與logistic回歸分析法對(duì)影響因變量的因素進(jìn)行分析。
3.統(tǒng)計(jì)分析原理
根據(jù)飲用水檢測(cè)結(jié)果及其相關(guān)因素分別建立決策樹CHAID模型和logistic回歸模型,比較分析結(jié)果的異同。CHAID即chi-squared automatic interaction detector,卡方自動(dòng)交互探測(cè)[3]。CHAID法會(huì)產(chǎn)生多個(gè)樹節(jié)點(diǎn),在每一個(gè)節(jié)點(diǎn)會(huì)有不同數(shù)目的分支來分割數(shù)據(jù),用來建立決策樹;其分類的原理則利用卡方檢驗(yàn)進(jìn)行檢測(cè)分支,根據(jù)得到的P值來決定是否仍繼續(xù)進(jìn)行分支。logistic回歸屬于傳統(tǒng)型統(tǒng)計(jì)學(xué)分析方法,屬于概率型非線性回歸[4],它研究自變量和因變量之間的依存關(guān)系,通過回歸分析進(jìn)行變量的分類與預(yù)測(cè)。
4.統(tǒng)計(jì)分析
本文以水質(zhì)監(jiān)測(cè)結(jié)果為因變量(合格為0,不合格為1),對(duì)自變量進(jìn)行量化賦值,采用SPSS 17.0統(tǒng)計(jì)軟件對(duì)資料進(jìn)行CHAID算法分析和logistic逐步回歸分析,檢驗(yàn)水準(zhǔn)α=0.05。根據(jù)分析結(jié)果找出影響生活飲用水水質(zhì)的重要因素。利用Medcalc 15.8軟件對(duì)兩種預(yù)測(cè)模型生成的預(yù)測(cè)值進(jìn)行比較,以水質(zhì)分析結(jié)果為狀態(tài)變量繪制logistic回歸模型和CHAID模型生成的受試者工作特征曲線(receiver operating characteristic curve,ROC),以此曲線判斷模型優(yōu)劣,P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
1.基本情況
2015-2017年共選取452座農(nóng)村集中式供水水廠,根據(jù)相關(guān)因素對(duì)自變量進(jìn)行賦值,水質(zhì)監(jiān)測(cè)結(jié)果設(shè)置為因變量。將水源類型、水期類型、消毒方式、監(jiān)測(cè)點(diǎn)類型、正式運(yùn)營(yíng)時(shí)間、總投資、日供水能力、供水覆蓋人口數(shù)、衛(wèi)生許可、水樣類型設(shè)置為自變量,并對(duì)變量進(jìn)行相應(yīng)的賦值,見表1。
表1 飲用水水質(zhì)影響因素賦值表
表2 飲用水水質(zhì)影響因素單因素分析結(jié)果
表3 飲用水水質(zhì)結(jié)果和多因素logistic回歸分析
2.單因素分析
單因素分析結(jié)果顯示,消毒方式、監(jiān)測(cè)點(diǎn)類型、正式運(yùn)營(yíng)時(shí)間、總投資、日供水能力、供水覆蓋人口等6個(gè)自變量對(duì)水質(zhì)結(jié)果的影響有統(tǒng)計(jì)學(xué)意義,將這6個(gè)自變量納入logistic回歸模型和CHAID模型中。水源類型、水期類型、衛(wèi)生許可、水樣類型共計(jì)4個(gè)自變量對(duì)水質(zhì)結(jié)果的影響差異無統(tǒng)計(jì)學(xué)意義,予以排除,見表2。
3.多因素logistic回歸分析
將影響水質(zhì)結(jié)果的6個(gè)相關(guān)因素用最大似然估計(jì)的向前逐步回歸法進(jìn)行分析,在α進(jìn)入=0.05,β剔除=0.10的條件下進(jìn)行,通過回歸模型檢驗(yàn)χ2=239.352,P<0.001,表明回歸方程有統(tǒng)計(jì)學(xué)意義,分析結(jié)果見表3。該模型錯(cuò)誤分類率為27.8%,分類效果較好。由表3可見,有4個(gè)因素進(jìn)入回歸方程,渭南市生活飲用水水質(zhì)受到消毒方式、正式運(yùn)營(yíng)時(shí)間、總投資、供水覆蓋人口的影響(P<0.05),監(jiān)測(cè)點(diǎn)類型、日供水能力被剔除。其中消毒方式對(duì)水質(zhì)的影響程度最大。通過分析得知工程不消毒、工程運(yùn)營(yíng)時(shí)間越長(zhǎng),水廠規(guī)模(總投資和供水覆蓋人口)越小,水質(zhì)不合格率越高。
4.決策樹CHAID模型分析
如果在某節(jié)點(diǎn)不存在有統(tǒng)計(jì)學(xué)意義的進(jìn)一步劃分,則在此節(jié)點(diǎn)停止分支成為葉節(jié)點(diǎn)[5]。該決策樹模型最大樹深度為3,父節(jié)點(diǎn)為100,子節(jié)點(diǎn)為50,產(chǎn)生的終末決策樹模型見圖1。水源類型、水期類型、衛(wèi)生許可、水樣類型、日供水能力被剔除出該模型。
圖1 CHAID方法對(duì)飲用水水質(zhì)結(jié)果影響因素分析的分類樹型圖
通過分析得出決策樹模型錯(cuò)誤分類率28.3%,分類能力較好。影響水質(zhì)結(jié)果的有消毒方式、總投資、供水覆蓋人口、正式運(yùn)營(yíng)時(shí)間、監(jiān)測(cè)點(diǎn)類型。決策樹第一層為消毒方式,表明消毒方式與水質(zhì)結(jié)果的相關(guān)性最高,消毒后水質(zhì)合格率(81.1%)比不消毒的水質(zhì)合格率(61.9%)高;在消毒飲水工程中供水覆蓋人口大于1000人的工程水質(zhì)合格率(86.7%)高于少于1000人的飲水工程(63.6%)。在大于1000人的供水工程中農(nóng)村飲水工程水質(zhì)合格率(90.8%)高于城市飲水水質(zhì)合格率(62.3%);在不消毒的飲水工程中總投資大于1000萬(wàn)的工程水質(zhì)合格率(81.9%)高于總投資小于1000萬(wàn)的飲水工程水質(zhì)合格率(52.8%)。在所有供水工程中運(yùn)營(yíng)時(shí)間越久的工程水質(zhì)合格率越低。
5.兩種模型預(yù)測(cè)能力評(píng)估
兩種模型的分析結(jié)果顯示,水源類型、水期類型、衛(wèi)生許可、水樣類型在兩方法中均被排除,均顯示此四種因素均不是水質(zhì)結(jié)果的影響因素。logistic回歸模型中的影響因素包括日供水能力,然而在決策樹模型中被剔除。決策樹類型中有監(jiān)測(cè)點(diǎn)類型,而在logistic中被剔除,顯示了兩模型的不同之處。
logistic回歸模型預(yù)測(cè)準(zhǔn)確率為72.2%,靈敏度為64.83%,特異度為67.95%,約登指數(shù)32.8%,ROC曲線下面積為0.701(95%CI0.682~0.718)。決策樹模型的預(yù)測(cè)準(zhǔn)確率為71.7%,靈敏度為81.13%,特異度為55.57%,約登指數(shù)36.7%,ROC曲線下面積為0.725(95%CI 0.707~0.743)。決策樹模型曲線下面積高于logistic回歸模型,兩個(gè)模型的ROC曲線下面積之間的差異有統(tǒng)計(jì)學(xué)意義(Z=3.623,P<0.001)。兩模型的預(yù)測(cè)效果為中等(0.7~0.9)(圖2)。
圖2 logistic回歸與CHAID模型的ROC曲線對(duì)比圖
決策樹是一種通過樹狀圖來表現(xiàn)數(shù)據(jù)受各變量影響情況的分類預(yù)測(cè)模型,不但可以篩選主要影響因素,還能清晰展示變量之間交互作用的功能,并可以根據(jù)對(duì)目標(biāo)變量產(chǎn)生效應(yīng)的不同而制定分類規(guī)則,它是建立在信息論基礎(chǔ)之上對(duì)數(shù)據(jù)進(jìn)行分類的一種方法[6]。從統(tǒng)計(jì)學(xué)角度來說,決策樹屬于非參數(shù)統(tǒng)計(jì),其打破了傳統(tǒng)的線性處理方式,消彌了變量間的共線性,避免了復(fù)雜參數(shù)估計(jì)來解釋變量間關(guān)系而不能用函數(shù)表達(dá)的分類問題[7]。本文將決策樹模型與多因素logistic回歸模型互為補(bǔ)充,以此來充分解釋變量間的關(guān)系。
本研究首次使用CHAID模型與logistic回歸模型對(duì)2539份飲用水進(jìn)行分析研究。通過研究發(fā)現(xiàn)應(yīng)用logistic回歸和決策樹兩種方法對(duì)水質(zhì)相關(guān)因素進(jìn)行分析,兩種方法分析結(jié)果較一致,消毒和水廠規(guī)模為主要影響因素。在兩種模型中消毒方式都是影響水質(zhì)結(jié)果的首要因素,消毒后的水質(zhì)合格率81.1%,遠(yuǎn)高于不消毒的水質(zhì)合格率61.9%??梢娤九c否是影響水質(zhì)的首要因素。由于農(nóng)村條件參差不齊,部分農(nóng)村集中式供水的消毒設(shè)備因經(jīng)濟(jì)因素?zé)o投資,考慮到消毒方式的重要影響,相關(guān)部門應(yīng)將專項(xiàng)資金撥款用于進(jìn)一步完善消毒設(shè)備配備及使用情況,購(gòu)買消毒劑及設(shè)備、管道更新和配備,提高水質(zhì)合格率。
在決策樹CHAID模型的構(gòu)建過程中,總投資、供水覆蓋人口作為連續(xù)變量進(jìn)入模型,軟件自動(dòng)將研究對(duì)象分割為兩部分,總投資分為1000萬(wàn)內(nèi)和超過1000萬(wàn)兩個(gè)子群,說明以1000萬(wàn)為分割點(diǎn);覆蓋人口分為小于1000人和大于1000人,說明以1000人為分割點(diǎn),這樣能最大限度提高決策樹模型信息增益率,實(shí)現(xiàn)分類效率最大化[8]。決策樹模型的第二層顯示,水廠規(guī)模(總投資和供水覆蓋人口)越小,水質(zhì)不合格率越高。在不消毒的供水工程中,總投資越小水質(zhì)不合格率越高,其原因可能是總投資高的水廠規(guī)模大,各項(xiàng)設(shè)備設(shè)施和人員管理方面都比較規(guī)范,相對(duì)于大投資水廠,低投資水廠各方面比較欠缺,更容易導(dǎo)致水質(zhì)不合格。在消毒供水工程中,供水覆蓋人口越大,水廠規(guī)模就越大,水廠管理更規(guī)范,水質(zhì)合格率就高。決策樹模型的第三層顯示,運(yùn)營(yíng)時(shí)間越久的工程水質(zhì)合格率越低。調(diào)查中發(fā)現(xiàn)渭南市集中式供水工程制水工藝比較陳舊,供水管網(wǎng)老化,輸水管網(wǎng)的管材以金屬為主,管網(wǎng)腐蝕和金屬析出現(xiàn)象嚴(yán)重,是造成水質(zhì)微生物、金屬等指標(biāo)超標(biāo)的一個(gè)重要原因[9]。大于1000人的消毒供水工程中,農(nóng)村供水工程水質(zhì)合格率高于城市供水工程。一個(gè)原因是城市飲水工程基數(shù)(樣本)較少,導(dǎo)致水質(zhì)合格率低;另一個(gè)原因可能是城市管網(wǎng)復(fù)雜、老化,施工或材料的問題加上使用時(shí)間過長(zhǎng),造成水質(zhì)差。
logistic回歸的優(yōu)勢(shì)是在分析水質(zhì)的合格率與各自變量的依存關(guān)系時(shí),是在控制其他變量的情況下來分析某種變量的作用,主要反應(yīng)某變量的主效應(yīng),而在自變量對(duì)因變量變化關(guān)系方面的信息比決策樹模型充分。但logistic回歸在反應(yīng)變量間的交互作用上不如決策樹模型的效果好。而決策樹模型表現(xiàn)出大量的交互作用后,卻無法反映因素的主效應(yīng)和疊加效應(yīng)[10],有研究表明[11-13],在實(shí)際應(yīng)用中應(yīng)將兩者結(jié)合,可以最大限度地發(fā)揮決策樹與logistic回歸兩種模型的優(yōu)越性;利用決策樹的直觀效果、易解釋、生成部分分類規(guī)則的優(yōu)點(diǎn),結(jié)合logistic回歸模型給出每個(gè)變量的參數(shù)估計(jì)值以及假設(shè)檢驗(yàn)結(jié)果的優(yōu)點(diǎn)[14],通過logistic回歸模型篩選主效應(yīng)變量,再利用決策樹模型進(jìn)一步研究變量間的交互作用[15]。
在本項(xiàng)研究中兩種預(yù)測(cè)模型的準(zhǔn)確率均達(dá)到70%以上,模型效果較好。決策樹模型的靈敏度、約登指數(shù)高于logistic回歸預(yù)測(cè)模型;logistic回歸預(yù)測(cè)模型的特異度、準(zhǔn)確度高于決策樹模型。ROC曲線一般位于機(jī)會(huì)線的上方,因此AUC在0.5到1之間,面積越接近1,說明模型的判別效果越好[16]。logistic回歸模型ROC曲線下面積為0.701,決策樹模型ROC曲線下面積為0.725。兩模型比較Z值為3.623,P<0.001,表明二者差異有統(tǒng)計(jì)學(xué)意義,說明決策樹模型的評(píng)價(jià)效能優(yōu)于logistic回歸預(yù)測(cè)模型。logistic回歸和決策樹的不同算法各有優(yōu)勢(shì)[17-18],決策樹模型靈敏度較高,logistic回歸模型的特異度較高,兩者結(jié)合,將更加有助于找出影響干預(yù)效果的因素[19]。
本研究納入的影響水質(zhì)合格率的個(gè)別變量結(jié)果無統(tǒng)計(jì)學(xué)意義,如水源類型、水期類型、衛(wèi)生許可、水樣類型未納入預(yù)測(cè)模型。本文旨在為水質(zhì)影響因素的研究提供新思路,水質(zhì)好壞的影響因素眾多,CHAID決策樹模型在生活飲用水水質(zhì)影響因素風(fēng)險(xiǎn)評(píng)估方面有較高的應(yīng)用價(jià)值,其與logistic回歸相結(jié)合應(yīng)用,能夠互相補(bǔ)充,從不同方面描述影響水質(zhì)合格率的因素及作用,為進(jìn)一步制定相關(guān)政策和方案提供依據(jù)和參考。