亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于C4.5分類的呼吸系統(tǒng)疾病危險(xiǎn)因素定量分析方法

        2016-03-21 11:40:56,,,
        關(guān)鍵詞:決策樹分類器人群

        , ,,

        隨著環(huán)境污染問題日益凸顯,呼吸系統(tǒng)疾病發(fā)病人數(shù)隨之增加,意味著呼吸系統(tǒng)發(fā)病與暴露在環(huán)境空氣污染中存在某些關(guān)聯(lián),尤其是PM10、二氧化硫(SO2)和二氧化氮(NO2)。如果環(huán)境污染問題得以控制,呼吸系統(tǒng)發(fā)病率也將隨之降低。

        目前,歐洲和北美在這一領(lǐng)域已開展了大量的研究[1]。歐洲空氣污染與健康項(xiàng)目(Air Pollution andHealth: A European Approach,APHEA)研究表明

        在溫暖季節(jié)中,臭氧濃度每小時(shí)增加10μg/m3,這種情況會(huì)引起每天死亡人數(shù)增加0.33%,心血管疾病死亡人數(shù)增加0.45%,呼吸系統(tǒng)疾病死亡人數(shù)增加1.13%[2-3]。而且在北美90個(gè)大城市開展的NMMAPS(National Morbidity, Mortality, and Air Pollution Study)研究指出,前一天空氣中PM10濃度每增加10μg/m3將導(dǎo)致日死亡率大約增加0.2%[4]。亞洲PAPA(Public Health and Air Pollution in Asia)項(xiàng)目研究表明,采用時(shí)間序列方法研究上海2001-2004年4年中室外空氣污染與死亡率的關(guān)系[5]。環(huán)境污染在不同人群中的影響存在差異性,因此本文的重點(diǎn)是分析在特定人群中引發(fā)呼吸系統(tǒng)疾病的危險(xiǎn)因素。

        在不同的人群中,定量分析各自對(duì)應(yīng)的呼吸系統(tǒng)疾病危險(xiǎn)因素和進(jìn)行重要因素選擇,有利于提升分類準(zhǔn)確率。因此本文基于C4.5分類方法分析特定人群的呼吸系統(tǒng)疾病發(fā)生的危險(xiǎn)因素,其結(jié)果可以應(yīng)用于預(yù)防和控制呼吸系統(tǒng)疾病發(fā)生。

        1 數(shù)據(jù)來源

        本文的數(shù)據(jù)來自于2009年1月1日至2011年12月31日北京3家大型綜合醫(yī)院的135 008例急診、診呼吸系統(tǒng)疾病數(shù)據(jù),包括患者就診日期,患者性別、年齡、就診科室、診斷結(jié)果及對(duì)應(yīng)的ICD編碼等(表1)。

        門診數(shù)據(jù)資源(均為急診門診的呼吸系統(tǒng)疾病數(shù)據(jù))中有76 359例男性數(shù)據(jù)(占56.56%),58 649例女性數(shù)據(jù)(占43.44%)。按照性別和年齡劃分的疾病數(shù)據(jù)資源如表2所示。

        表1 門診數(shù)據(jù)實(shí)例

        表2 按性別和年齡劃分的急診門診呼吸系統(tǒng)疾病數(shù)據(jù)資源

        從2009年1月1日到2011年12月31日的環(huán)境監(jiān)測(cè)數(shù)據(jù)來自北京環(huán)境監(jiān)測(cè)中心,共采集1 095天,主要包括空氣污染物和氣象指標(biāo)兩部分。其中已監(jiān)測(cè)的空氣污染物包括二氧化氮(NO2)、二氧化硫(SO2)、PM10,氣象指標(biāo)包括24小時(shí)平均溫度、相對(duì)濕度、風(fēng)速、氣壓、日照時(shí)長和降水量等(表3)。

        表3 環(huán)境數(shù)據(jù)實(shí)例

        2 方法

        本文中的危險(xiǎn)因素是指從不同人群的眾多因素中發(fā)現(xiàn)引發(fā)呼吸系統(tǒng)疾病的重要危險(xiǎn)因素。利用急診門診數(shù)據(jù)和環(huán)境記錄數(shù)據(jù),確定一種危險(xiǎn)因素定量分析方法,采用數(shù)據(jù)挖掘方法構(gòu)建算法模型。首先在數(shù)據(jù)預(yù)處理階段將急診門診數(shù)據(jù)分成兩類(一類是急性上呼吸道感染,另一類是流感、肺炎、慢性下呼吸道疾病等),并采用SMOTE(Synthetic Minority Over-sampling Technique)方法解決數(shù)據(jù)不平衡問題[6-8],然后將按照性別和年齡全體人群分成9組,再采用C4.5分類算法構(gòu)建危險(xiǎn)因素定量分析模型。整個(gè)過程主要包括數(shù)據(jù)預(yù)處理、解決數(shù)據(jù)不平衡問題、人群劃分和危險(xiǎn)因素定量分析四部分。

        2.1 數(shù)據(jù)預(yù)處理

        2.1.1 數(shù)據(jù)清洗

        由于在門診數(shù)據(jù)中存在空缺值、噪聲和語義不一致等問題,可能會(huì)對(duì)實(shí)驗(yàn)結(jié)果帶來一些不利影響。本文首先通過填充空缺值、識(shí)別孤立點(diǎn)、降噪、糾正不一致數(shù)據(jù)等逐一進(jìn)行處理,然后去除重復(fù)數(shù)據(jù)和空缺值過多的因素,最終得到30維135 008條數(shù)據(jù)資源。這些數(shù)據(jù)包含疾病情況、患者自身情況(如性別、年齡)和環(huán)境因素(如二氧化氮、二氧化硫、PM10、24小時(shí)平均氣溫、日最高氣溫、日最低氣溫、相對(duì)濕度、風(fēng)速、日最高風(fēng)速、日最低風(fēng)速、氣壓、日平均氣壓、日最高氣壓、日最低氣壓、日照時(shí)長、降水量和季節(jié)等)。

        2.1.2 數(shù)據(jù)分類

        根據(jù)患者病情,采用ICD-10編碼對(duì)呼吸系統(tǒng)疾病的診斷結(jié)果進(jìn)行編碼,如急性上呼吸道感染(J00-J06)、流感和肺炎(J09-J18)、慢性下呼吸道疾病(J40-J47)等[9]。依據(jù)呼吸道系統(tǒng)疾病病理及診斷結(jié)果,把本文中急性上呼吸道感染(J00-J06)定義為類型I[10],占整個(gè)數(shù)據(jù)量的87.74%;流感和肺炎(J09-J18)(占5.99%)、慢性下呼吸道疾病(J40-J47)(占4.12%)和其他疾病定義為類型II,共占12.26%。類型I和類型II的比例為7.16:1。因此,類型I類型II間存在數(shù)據(jù)不平衡問題。

        2.2 數(shù)據(jù)平衡

        為了解決數(shù)據(jù)不平衡問題,本文采用SMOTE采樣方法[6-8]。SMOTE方法是一種改進(jìn)的采樣方法,通過對(duì)少數(shù)類樣本的人工合成,來提高少數(shù)類樣本所占的比例,從而降低數(shù)據(jù)集中過度傾斜的問題。文中通過SMOTE方法增加少數(shù)類的樣本量,提升分類器的性能,消除或減少少數(shù)類的不平衡問題。

        比較采用SMOTE方法前后分類器的性能詳見表4。從表4可以看出,采用SMOTE方法之后分類器的性能普遍提升,類型I與類型II的比例基本接近1:1。

        表4 采用SMOTE 前后分類器性能對(duì)比

        注:AUC :ROC曲線下面積,可以直觀的評(píng)價(jià)分類器好壞,介于0.1~1之間,值越大越好

        2.3 人群劃分

        為了在不同人群中定量分析危險(xiǎn)因素,本文根據(jù)性別和年齡將全體人群分成8個(gè)子組。并根據(jù)C4.5算法原理,距離決策樹根節(jié)點(diǎn)越近的因素對(duì)急性呼吸系統(tǒng)疾病的影響越大。全體人群決策樹的上半部分如圖1所示,在決策樹中年齡和性別距離根節(jié)點(diǎn)最近,且年齡在49歲、11歲和68歲幾個(gè)節(jié)點(diǎn)處被分開[11-12]。因此我們按性別和年齡將全體人群劃分成8個(gè)子組,具體包括年齡>49歲、≤49歲、男性>49歲、女性>49歲、11<男性≤49歲、11<女性≤49歲、男性≤11歲和女性≤11歲,連同全體人群在一起共9組。

        圖1 全體人群決策樹的上半部分

        2.4 危險(xiǎn)因素定量分析

        在每組人群中發(fā)現(xiàn)的危險(xiǎn)因素原理圖如圖2所示,主要包括C4.5模型訓(xùn)練、危險(xiǎn)因素作用程度 (如公式1)計(jì)算、作用程度分析3個(gè)步驟。

        圖2 危險(xiǎn)因素定量分析的原理圖

        2.4.1 C4.5 模型訓(xùn)練

        由于C4.5算法用信息增益率來選擇重要因素,且在決策樹構(gòu)造過程中對(duì)只有幾個(gè)元素的節(jié)點(diǎn)采取剪枝處理,避免出現(xiàn)過擬合,同時(shí)提升分類準(zhǔn)確率。因此文中采用C4.5決策樹算法訓(xùn)練分類器模型,利用十折交叉法驗(yàn)證分類器。以>49歲組為例,首先通過訓(xùn)練集數(shù)據(jù)訓(xùn)練C4.5模型,再用十折交叉法驗(yàn)證,同時(shí)分析分類器模型的性能,得到?jīng)Q策樹。利用 Weka 3.5.8軟件訓(xùn)練分類器模型,訓(xùn)練參數(shù)分別為置信因子0.25,每個(gè)節(jié)點(diǎn)至少有兩個(gè)子節(jié)點(diǎn)。類似地,利用全體人群和其他7組子人群分別訓(xùn)練各自的分類器模型,各組C4.5分類器模型的性能如表5所示。

        表5 各組C4.5模型的性能

        2.4.2 因素作用程度計(jì)算

        通過全體人群和8個(gè)子組人群分別訓(xùn)練得到各自決策樹,根據(jù)決策樹前4層結(jié)構(gòu)分別計(jì)算各個(gè)危險(xiǎn)因素的作用程度,具體計(jì)算公式如公式(1)所示。

        其中,L 是某一危險(xiǎn)因素位于決策樹第L層,n是該危險(xiǎn)因素在第L層出現(xiàn)次數(shù)。

        2.4.3 作用程度分析

        分別對(duì)各組人群危險(xiǎn)因素的作用程度進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn),共有年齡(age)、性別(gender)、二氧化硫(SO2)、二氧化氮(NO2)、PM10、風(fēng)速(wind speed)、降水量(rainfall)、濕度(humidity)、溫度(temperature)、氣壓(air pressure)、光照時(shí)長(sunshine)、季節(jié)(season)等12個(gè)危險(xiǎn)因素出現(xiàn)在9個(gè)決策樹的前4層,具體分析結(jié)果在結(jié)果部分展示。

        3 結(jié)果

        3.1 危險(xiǎn)因素作用程度

        各組人群危險(xiǎn)因素引發(fā)急性呼吸系統(tǒng)疾病的作用程度如圖3-圖5所示。

        圖3 年齡>49人群環(huán)境危險(xiǎn)因素作用程度對(duì)比結(jié)果

        圖4 11<年齡≤49人群環(huán)境危險(xiǎn)因素作用程度對(duì)比結(jié)果

        圖5 年齡≤11人群環(huán)境危險(xiǎn)因素作用程度對(duì)比結(jié)果

        結(jié)合圖3-圖5對(duì)不同人群中環(huán)境危險(xiǎn)因素作用程度進(jìn)行分析,得到如下結(jié)果。一是NO2、PM10和SO2對(duì)11<年齡≤49男性的影響要大于11<年齡≤49女性;在11<年齡≤49人群中,NO2和PM10對(duì)男性的影響明顯大于女性,這兩種污染物對(duì)女性的影響很?。籗O2對(duì)男性的影響是女性的2倍;日照時(shí)長對(duì)11<年齡≤49女性的影響較大,而對(duì)11<年齡≤49男性基本沒有影響;氣壓對(duì)11<年齡≤49女性的影響是11<年齡≤49男性的3倍(圖4)。二是SO2對(duì) >49歲女性的影響遠(yuǎn)大于>49歲男性,>49歲男性比>49歲女性更易受NO2和PM10影響 (圖3)。三是日照時(shí)長對(duì)≤11歲女孩的影響要遠(yuǎn)大于≤11歲男孩,但≤11歲男孩比≤11歲女孩更易受NO2的影響(圖5)。四是年齡≤49歲人群比>49歲老年人更容易受空氣污染的影響,尤其是NO2和SO2;NO2對(duì)≤49歲人群中的作用程度是>49歲老年人的5倍多;濕度和溫度對(duì)>49歲老年人的作用程度比≤49歲要大,但≤49歲人群的影響很小。

        3.2 對(duì)比分析

        為了評(píng)價(jià)本文中所用分析方法的有效性,采用元分析方法開展對(duì)比實(shí)驗(yàn),元分析方法是該研究領(lǐng)域通常采用的方法[13-15]。同樣利用Weka 3.5.8訓(xùn)練元分析模型。以全體人群為例,通過元分析模型得到年齡、NO2和降水量是位于前3位引發(fā)呼吸系統(tǒng)疾病的危險(xiǎn)因素,與C4.5模型前3位危險(xiǎn)因素一致。但是該模型的準(zhǔn)確率比C4.5模型低12.70%,如表5和表6所示,且ROC曲線下面積AUC值比C4.5模型要小。構(gòu)建其他子人群的元分析模型,各模型性能如表6所示。

        表6 各人群元分析模型的性能表

        4 討論

        本文定量分析了引發(fā)呼吸系統(tǒng)疾病的危險(xiǎn)因素,該方法結(jié)合不同人群的特征分別給出各自的危險(xiǎn)因素,以及這些危險(xiǎn)因素對(duì)呼吸系統(tǒng)疾病影響程度的排序,并在因素之間進(jìn)行了定量對(duì)比分析,結(jié)果可應(yīng)用于挖掘空氣污染與呼吸系統(tǒng)疾病發(fā)生之間的關(guān)聯(lián)關(guān)系,有助于臨床醫(yī)生了解暴露于空氣污染環(huán)境與呼吸系統(tǒng)疾病就診情況的關(guān)系,以制定在不同的環(huán)境條件下相應(yīng)的接診應(yīng)對(duì)措施。

        本文采用基于C4.5決策樹的計(jì)算方法,以生成決策樹的形式展示分類規(guī)則,直觀易于理解,且算法準(zhǔn)確率較高。與元分析方法對(duì)比分析發(fā)現(xiàn)9組人群C4.5模型的準(zhǔn)確率都有提升(如表3和表4所示)。但C4.5方法在構(gòu)造決策樹的過程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的計(jì)算效率較低。同時(shí)本文中按性別和年齡細(xì)化人群的方法,對(duì)不同人群進(jìn)行有針對(duì)性的定量分析。之前相關(guān)研究中普遍使用元分析[16]、時(shí)間序列方法[17-18]和病歷交叉方法[19-20],如APHENA(Air Pollution and Health: A Combined European and North American Approach)研究中應(yīng)用元回歸方法和多城市的時(shí)間序列方法研究空氣污染對(duì)公眾健康的影響[2,21];Ling Tong采用時(shí)間序列分析方法研究空氣污染與心血管疾病發(fā)病率的關(guān)系[22];Valerie B Haley基于時(shí)間分層的病歷交叉方法估計(jì)PM2.5的短期影響對(duì)美國紐約地區(qū)心血管疾病住院人數(shù)的影響[23]。

        Francesca Dominici等人研究了北美地區(qū)空氣中PM10對(duì)全人群呼吸系統(tǒng)疾病死亡率的影響[4],Kan H等人研究了上海地區(qū)空氣污染與全人群中死亡率的關(guān)系[5],本文群在按年齡和性別劃分在人群的基礎(chǔ)上,進(jìn)一步細(xì)化了污染物因素對(duì)呼吸系統(tǒng)疾病的影響。

        由于從2013年1月1日起,環(huán)保部正式將PM2.5列入空氣監(jiān)測(cè)指標(biāo)中,本文暫未能獲取2009-2011年間PM2.5監(jiān)測(cè)數(shù)據(jù),文中未涉及PM2.5的分析。又因急診患者多由短期暴露在空氣污染中引發(fā)疾病,本文暫不考慮長期暴露于污染物對(duì)慢性病患者的影響,因此空氣污染物累積的長期影響在本文中沒有涉及?;颊咦陨砦鼰熓?、慢性病史等在急診門診中尚未采集,也是本文不足之處。

        本文定量分析了不同人群發(fā)生呼吸系統(tǒng)疾病的危險(xiǎn)因素,但這些危險(xiǎn)因素的敏感區(qū)間尚未知,如何發(fā)現(xiàn)敏感區(qū)間是下一步研究的重點(diǎn)。

        猜你喜歡
        決策樹分類器人群
        在逃犯
        糖尿病早預(yù)防、早控制
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        我走進(jìn)人群
        百花洲(2018年1期)2018-02-07 16:34:52
        財(cái)富焦慮人群
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于決策樹的出租車乘客出行目的識(shí)別
        国产伦精品一区二区三区免费| 亚洲欧美日韩精品高清| 加勒比精品一区二区三区| 日本一区二区三区爱爱视频| 自拍偷自拍亚洲一区二区| 国产精品 亚洲 无码 在线| 久久夜色精品国产噜噜亚洲av| 国产午夜福利精品| 日韩精品国产一区二区| 日本本土精品午夜视频| 波多野结衣不打码视频| av香港经典三级级 在线| 国内久久婷婷精品人双人| 中文字幕久区久久中文字幕| 最新国产女主播在线观看 | 亚洲中文字幕舔尻av网站| 色综合av综合无码综合网站| 处破痛哭a√18成年片免费| 日韩欧美亚洲中字幕在线播放| 日本不卡的一区二区三区| 成人国产精品一区二区八戒网 | 久久少妇高潮免费观看| 99久久精品在线视频| 中文无码一区二区不卡av| 欧美成a人片在线观看久| 精品一级毛片| 久久国产av在线观看| 偷拍综合在线视频二区日韩| 免费视频成人片在线观看| 精品推荐国产精品店| 日本精品视频一视频高清| 国产人妖伦理视频在线观看| 免费无码又爽又刺激网站直播| 国产亚洲精品久久久久久| 成人免费va视频| 麻豆成年视频在线观看| 国产一区二区三区免费av| 国产禁区一区二区三区| 野花社区视频在线观看| 亚洲一区二区在线| 在线亚洲免费精品视频|