亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的疾病預(yù)測(cè)模型的構(gòu)建與分析

        2016-09-20 05:46:04李?yuàn)^華趙潤(rùn)林運(yùn)城學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系運(yùn)城044000中國(guó)科學(xué)院大學(xué)北京0090
        現(xiàn)代計(jì)算機(jī) 2016年18期
        關(guān)鍵詞:數(shù)據(jù)挖掘模型研究

        李?yuàn)^華,趙潤(rùn)林(.運(yùn)城學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,運(yùn)城 044000 2.中國(guó)科學(xué)院大學(xué),北京 0090)

        基于數(shù)據(jù)挖掘的疾病預(yù)測(cè)模型的構(gòu)建與分析

        李?yuàn)^華1,2,趙潤(rùn)林1
        (1.運(yùn)城學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,運(yùn)城044000 2.中國(guó)科學(xué)院大學(xué),北京100190)

        0 引言

        自從1995年數(shù)據(jù)挖掘的概念提出以來,數(shù)據(jù)挖掘技術(shù)的發(fā)展雖然僅有二十多年的歷史,但其在商業(yè)、工程、電信等領(lǐng)域已經(jīng)獲得了廣泛的應(yīng)用,并取得了可觀的經(jīng)濟(jì)效益和社會(huì)效益。然而,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用尚處于起步階段。在信息爆炸的大數(shù)據(jù)時(shí)代,由于硬件和信息技術(shù)的迅猛發(fā)展,各行各業(yè)每時(shí)每刻都會(huì)產(chǎn)生大量的數(shù)據(jù),人們被淹沒在數(shù)據(jù)的海洋中,如何從這些海量的數(shù)據(jù)中發(fā)現(xiàn)潛在、有價(jià)值的信息難度很大。

        在醫(yī)療行業(yè),隨著醫(yī)院信息系統(tǒng)(HIS)在全國(guó)各大醫(yī)院的逐步推廣和應(yīng)用,醫(yī)院每天都會(huì)產(chǎn)生大量與病人相關(guān)的臨床數(shù)據(jù),而且這些數(shù)據(jù)的規(guī)模越來越大,在這些真實(shí)的數(shù)據(jù)中蘊(yùn)含著許多對(duì)病人和醫(yī)生來說潛在、有價(jià)值的信息[1]。如何有效地利用這些真實(shí)的臨床數(shù)據(jù),并從中發(fā)現(xiàn)一些對(duì)病人治療和醫(yī)生診斷有價(jià)值的規(guī)律和信息十分關(guān)鍵,也是當(dāng)前醫(yī)學(xué)信息處理研究中一個(gè)亟待解決的難題。上述問題的解決不僅能在一定程度上緩解當(dāng)前社會(huì)上存在的緊張醫(yī)患關(guān)系,而且還能有效地輔助醫(yī)生診斷、決策和治療,提高醫(yī)生的工作效率,進(jìn)而提高醫(yī)院的醫(yī)療服務(wù)質(zhì)量和競(jìng)爭(zhēng)力[2]。

        本文將據(jù)挖掘技術(shù)引入到醫(yī)學(xué)數(shù)據(jù)分析中,提出了一種基于決策樹的疾病預(yù)測(cè)模型,并在實(shí)際的醫(yī)學(xué)疾病數(shù)據(jù)集上驗(yàn)證了其效果。第2節(jié)簡(jiǎn)要地介紹了決策樹算法的原理,在此基礎(chǔ)上,第3節(jié)提出一種基于決策樹的疾病預(yù)測(cè)模型,并在真實(shí)醫(yī)學(xué)數(shù)據(jù)集上(二型糖尿病臨床數(shù)據(jù))進(jìn)行了實(shí)驗(yàn)驗(yàn)證,預(yù)測(cè)效果良好。

        1 決策樹算法的基本原理

        決策樹算法是數(shù)據(jù)挖掘技術(shù)中常用的一種分類和預(yù)測(cè)方法[3]。該算法以研究對(duì)象的屬性為基礎(chǔ),根據(jù)信息論的原理,通過多次遞歸的方式選擇信息增益最大的屬性來作為決策樹的當(dāng)前節(jié)點(diǎn)(即:最佳節(jié)點(diǎn)),在決策樹構(gòu)建過程中,已經(jīng)使用過的屬性在決策樹的后續(xù)構(gòu)建時(shí)不能再作為節(jié)點(diǎn)來使用,即:研究對(duì)象的每個(gè)屬性在決策樹中當(dāng)且僅當(dāng)出現(xiàn)一次。在決策樹的構(gòu)建過程中,遞歸過程的終止情況有下列三種:

        (1)當(dāng)前節(jié)點(diǎn)對(duì)應(yīng)的所有研究對(duì)象均屬于同一類別。

        (2)沒有剩余屬性被用來進(jìn)一步對(duì)當(dāng)前研究對(duì)象進(jìn)行分類。

        (3)當(dāng)前節(jié)點(diǎn)所對(duì)應(yīng)的屬性值對(duì)應(yīng)的研究對(duì)象個(gè)數(shù)為0。

        假設(shè)M、m分別表示研究對(duì)象集合和該集合中包含對(duì)象的個(gè)數(shù)。L={l1,l2,l3,…,ln}表示研究對(duì)象的類別集合。mi表示類別 li中研究對(duì)象的個(gè)數(shù),那么,根據(jù)信息論原理,對(duì)一個(gè)研究對(duì)象進(jìn)行分類需要的信息量如下:

        其中,pi=mi/m表示一個(gè)研究對(duì)象輸入類別li的概率。

        設(shè)一個(gè)屬性 X的取值集合為X={x1,x2,…,xs}。屬性X能夠把研究對(duì)象集合M劃分為s個(gè)子集{M1,M2,…,Ms},其中Mi表示屬性X=xi的研究對(duì)象的集合。如果屬性 X被選為決策樹的當(dāng)前節(jié)點(diǎn),mij表示子集 Mj中屬于li類別的研究對(duì)象的個(gè)數(shù),因此,采用屬 X對(duì)當(dāng)前研究對(duì)象集合進(jìn)行劃分所需信息熵的計(jì)算公式如下:

        其中,pij=mi/(|Mj|)表示研究對(duì)象子集Mj中任意一個(gè)對(duì)象屬于類別 li的概率。由公式(1)和(2)可知,通過屬性對(duì)相應(yīng)研究對(duì)象集合進(jìn)行劃分的信息增益計(jì)算公式如下:

        具體的決策樹算法描述如下:

        2 基于決策樹的疾病預(yù)測(cè)模型的構(gòu)建與分析

        針對(duì)醫(yī)療行業(yè)的現(xiàn)狀,為提高醫(yī)生疾病診斷的效率和緩解醫(yī)患矛盾,在數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,本文提出了一種基于決策樹的疾病預(yù)測(cè)模型,如圖1所示,并在真實(shí)醫(yī)學(xué)數(shù)據(jù)集上(即:二型糖尿病臨床數(shù)據(jù))進(jìn)行了實(shí)驗(yàn)。

        圖1 基于決策樹的疾病預(yù)測(cè)模型

        本文采用Clementine 12數(shù)據(jù)挖掘工具來構(gòu)建疾病預(yù)測(cè)模型,并在二型糖尿病臨床數(shù)據(jù)集上進(jìn)行了有效實(shí)驗(yàn)[4]。該數(shù)據(jù)集包含8個(gè)與二型糖尿病相關(guān)的臨床檢查病癥,共768條記錄,如圖2所示[5]。

        在實(shí)驗(yàn)過程中,本文把上述實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分,通過訓(xùn)練集來構(gòu)建和提取決策樹規(guī)則,利用測(cè)試集來對(duì)該模型在實(shí)際應(yīng)用中的效果進(jìn)行驗(yàn)證,預(yù)測(cè)效果如圖3所示。從圖3中,我們發(fā)現(xiàn)該疾病預(yù)測(cè)模型的預(yù)測(cè)正確率是74.52%,預(yù)測(cè)錯(cuò)誤率是25.48%,這也有效地驗(yàn)證了基于決策樹的疾病預(yù)測(cè)模型的有效性。實(shí)驗(yàn)證明,該模型可以有效地輔助醫(yī)生進(jìn)行疾病的診斷,提高醫(yī)生工作的效率,在一定程度上緩解病人看病難、排隊(duì)時(shí)間長(zhǎng)的問題,具有一定的實(shí)用價(jià)值。

        圖2 二型糖尿病臨床數(shù)據(jù)集

        3 結(jié)語(yǔ)

        針對(duì)醫(yī)療領(lǐng)域存在的問題,從數(shù)據(jù)挖掘的角度出發(fā),本文提出了一種基于決策樹的疾病預(yù)測(cè)模型,在真實(shí)醫(yī)學(xué)數(shù)據(jù)集——二型糖尿病數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),預(yù)測(cè)效果較明顯,能夠有效地輔助醫(yī)生進(jìn)行疾病的診斷,提高醫(yī)生疾病診斷的效率,具有一定的實(shí)際意義。

        圖3 二型糖尿病數(shù)據(jù)預(yù)測(cè)效果

        [1]徐剛,袁兆康.?dāng)?shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域的應(yīng)用和展望[J].實(shí)用臨床醫(yī)學(xué),2006,7(13):11-15.

        [2]石義芳,孔令人.數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)在病人流量分析中的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學(xué),2006,33(02),p23-25.[3]邵峰晶,于忠清.?dāng)?shù)據(jù)挖掘原理與算法[M].北京:科學(xué)出版社,2009.

        [4]熊平.?dāng)?shù)據(jù)挖掘算法與Clementine實(shí)踐[M].北京:清華大學(xué)出版社,2011.

        [5]張承紅.醫(yī)學(xué)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京:中國(guó)中醫(yī)藥出版社,2008.

        Big Data;Data Mining;HIS;Disease Prediction

        Design and Analysis of Disease Prediction Model Based on Data Mining

        LI Feng-hua1,2,ZHAO Run-lin2
        (1.Department of Computer Science and Technology,Yuncheng University,Yuncheng 044000;2.University of Chinese Academy of Sciences,Beijing 100190)

        國(guó)家自然科學(xué)基金項(xiàng)目(No.61272480)

        李?yuàn)^華(1977-),男,山西昔陽(yáng)縣人,博士,講師,研究方向?yàn)閿?shù)據(jù)挖掘、社會(huì)計(jì)算和電子健康

        2016-05-02

        2016-06-20

        在大數(shù)據(jù)時(shí)代,HIS在全國(guó)絕大多數(shù)醫(yī)院得到有效推廣,這在一定程度上提高醫(yī)院的工作效率,但是也產(chǎn)生一個(gè)亟待解決的重要問題:如何能在HIS的海量醫(yī)學(xué)數(shù)據(jù)中發(fā)現(xiàn)潛在、有價(jià)值的信息,從而有效地支持醫(yī)生進(jìn)行疾病的診斷與決策,進(jìn)而緩解當(dāng)前緊張的醫(yī)患關(guān)系。把數(shù)據(jù)挖掘技術(shù)引入到海量醫(yī)學(xué)數(shù)據(jù)的分析中,提出一種基于決策樹的疾病預(yù)測(cè)模型,并在實(shí)際的醫(yī)學(xué)疾病數(shù)據(jù)集上進(jìn)行驗(yàn)證,能取得較好的預(yù)測(cè)效果。

        大數(shù)據(jù);數(shù)據(jù)挖掘;醫(yī)院信息系統(tǒng);疾病預(yù)測(cè)

        趙潤(rùn)林(1960-),男,山西運(yùn)城人,本科,副教授,研究方向?yàn)橛?jì)算機(jī)系統(tǒng)結(jié)構(gòu)

        In big data era,HIS is applied in many hospitals of our country in order to improve their work efficiency.But there is a challenging problem to solve:how to find some latent and valuable information or principles from the massive data in HIS is very important,because this not only can support the disease diagnosis and decision of doctors in some extent,but also can relieve the tense relationships between doctors and patients.Applies data mining technologies to the analysis of massive medical data,proposes a disease prediction model based on decision tree method.Through the experiments of real medical datasets,some empirical studies are shown to demonstrate the effectiveness of this model on real medical data sets.

        猜你喜歡
        數(shù)據(jù)挖掘模型研究
        一半模型
        FMS與YBT相關(guān)性的實(shí)證研究
        遼代千人邑研究述論
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        3D打印中的模型分割與打包
        国产夫妻精品自拍视频| 免费大片黄在线观看| 亚洲精品黄网在线观看| 亚洲一区二区不卡日韩| 亚洲日本人妻少妇中文字幕| 亚洲国产精品无码专区在线观看| 97无码人妻福利免费公开在线视频| 欧美日韩激情在线一区二区| 亚洲女同性恋激情网站| 国产精品亚洲精品日韩已方| 亚洲丁香五月天缴情综合| 国产a级精精彩大片免费看| 蜜桃视频成年人在线观看| 亚洲线精品一区二区三区| 又爽又黄又无遮挡的激情视频| 91精品国产免费久久久久久青草| 麻豆成年人视频在线观看| 波多野结衣在线播放| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交| 最新欧美一级视频| 在线观看免费不卡网站| 亚洲乳大丰满中文字幕| 国产人碰人摸人爱视频| 亚洲av熟女天堂系列| 日本国产精品久久一线| 国产农村妇女精品一二区 | 久久久久中文字幕无码少妇| 一区二区三区少妇熟女高潮| 超碰国产精品久久国产精品99 | 国产精品天天狠天天看| 岛国视频在线无码| 亚洲一区二区三区99| 久久精品国产精品国产精品污| 亚洲午夜成人片| 偷拍偷窥在线精品视频| 又粗又大又硬毛片免费看| 猫咪www免费人成网最新网站 | 神马不卡影院在线播放| 成人内射国产免费观看| 免费一区二区三区久久| 国内专区一区二区三区|