亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)規(guī)則算法在臨床醫(yī)療診斷中的應(yīng)用

        2018-03-26 02:14:46姚旭升楊靜謝穎夫
        軟件導(dǎo)刊 2018年3期
        關(guān)鍵詞:挖掘出項(xiàng)集病案

        姚旭升 楊靜 謝穎夫

        摘要:

        為了從臨床數(shù)據(jù)中挖掘出疾病之間的相關(guān)性,為疾病臨床診斷提供一種輔助方法,使用SPSS Statistics進(jìn)行數(shù)據(jù)預(yù)處理,將數(shù)據(jù)轉(zhuǎn)化為布爾數(shù)據(jù),最后應(yīng)用SPSS Modeler搭建基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)流,采用云南某醫(yī)院2013年住院病案首頁數(shù)據(jù)(共54 841條)建立疾病間的關(guān)聯(lián)規(guī)則模型。從227種疾病中挖掘出信度大于20%的關(guān)聯(lián)規(guī)則共40條,涉及20種疾病。關(guān)聯(lián)規(guī)則挖掘可以從大量臨床數(shù)據(jù)中發(fā)現(xiàn)疾病間潛在關(guān)聯(lián),為相關(guān)疾病的臨床診斷提供輔助。

        關(guān)鍵詞:

        數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則挖掘;SPSS Modeler;臨床輔助診斷

        DOIDOI:10.11907/rjdk.172521

        中圖分類號(hào):TP319

        文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)003016203

        英文摘要Abstract:In order to dig out the correlation between diseases from clinical data, an auxiliary method is provided for the clinical diagnosis of disease. SPSS Statistics is used to preprocess the data and convert the data into Boolean data. Finally, SPSS Modeler is applied to build association rules mining data stream based on Apriori algorithm. An association rule model between diseases was established by using the first page of inpatient medical records(a total of 54 841) in a hospital in Yunnan in 2013. A total of 40 association rules with confidence setting greater than 20% were extracted from the 227 diseases, involving 20 diseases. Association rules mining can discover the latent association between diseases from a large amount of clinical data. This can provide an auxiliary method for the clinical diagnosis of related diseases.

        英文關(guān)鍵詞Key Words:data mining; association rules; SPSS Modeler; clinical assistant diagnosis

        0引言

        隨著信息技術(shù)的發(fā)展,目前很多領(lǐng)域已經(jīng)逐漸積累起海量數(shù)據(jù),數(shù)據(jù)挖掘手段可以從這些數(shù)據(jù)中挖掘出一些人類不容易發(fā)現(xiàn)的潛在規(guī)律。數(shù)據(jù)挖掘可以概括為一種決策支持過程,主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析原有數(shù)據(jù),作出歸納性推理,從中挖掘出潛在規(guī)律,預(yù)測(cè)分析對(duì)象的行為趨勢(shì),從而幫助決策或調(diào)整策略[1]。

        關(guān)聯(lián)規(guī)則算法是用來探索事務(wù)之間依賴關(guān)系的一種常用方法,最典型的應(yīng)用是挖掘超市交易數(shù)據(jù)中售出商品間潛在關(guān)系,用于找出顧客購買行為模式,從而優(yōu)化商品布置,以達(dá)到增長銷售額的目的[2]。目前關(guān)聯(lián)規(guī)則挖掘已廣泛應(yīng)用于各個(gè)行業(yè)。在醫(yī)學(xué)領(lǐng)域,關(guān)聯(lián)規(guī)則廣泛應(yīng)用于臨床用藥規(guī)律、疾病預(yù)測(cè)分析等方面[3]。關(guān)聯(lián)規(guī)則算法的特點(diǎn)是可以發(fā)現(xiàn)自然組合的關(guān)聯(lián),將該方法應(yīng)用于挖掘不同種疾病之間的相關(guān)性,對(duì)于疾病的主動(dòng)預(yù)防以及臨床輔助診斷是有意義的[4]。

        本文基于SPSS Modeler軟件提出一種針對(duì)住院病案首頁中診斷數(shù)據(jù)的疾病相關(guān)性挖掘方法,采用云南省昆明市某三甲醫(yī)院2013年住院病案首頁數(shù)據(jù),力圖挖掘出一些疾病間可能的潛在關(guān)聯(lián),為臨床診斷提供幫助。

        1關(guān)聯(lián)規(guī)則挖掘

        1.1關(guān)聯(lián)規(guī)則挖掘定義

        關(guān)聯(lián)規(guī)則挖掘可描述如下:

        設(shè)I={i1,i2,...,im}是有m個(gè)不同的項(xiàng)組成的集合,簡稱項(xiàng)集。給定一個(gè)事務(wù)集合D,其中每一個(gè)事務(wù)T是I中一組項(xiàng)的集合,即TI。若項(xiàng)集AI且AT,則事務(wù)T包含項(xiàng)集A[5]。關(guān)聯(lián)規(guī)則是形如A→B的關(guān)系式,其中A∪T,B∪T,且A∩B=;關(guān)聯(lián)規(guī)則挖掘是要在事務(wù)集合D中找出所有滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。

        1.2Apriori算法

        Apriori算法是一種最有影響的布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集挖掘算法[6],其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則[7],所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻集。

        該算法的基本思想:①找出所有頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少與預(yù)定義的最小支持度一樣;②由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度與最小可信度;③使用第1步找到頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合項(xiàng)的所有規(guī)則,其中每一條規(guī)則右部只有一項(xiàng)。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。

        3關(guān)聯(lián)規(guī)則挖掘方法

        3.1研究對(duì)象

        本文采用的數(shù)據(jù)是云南省某三甲醫(yī)院2013年全年的住院病案首頁數(shù)據(jù),共54 841條,根據(jù)住院病案首頁國家標(biāo)準(zhǔn),每個(gè)住院案例包含四大類指標(biāo),分別為患者基本信息、住院過程信息、診療信息與費(fèi)用信息[8]。由于本文研究的是疾病間潛在的聯(lián)系,故選擇以下字段作為研究指標(biāo):住院病案號(hào)(為保護(hù)患者隱私,采用住院病案號(hào)作為患者身份標(biāo)識(shí))、疾病編碼(主要診斷編碼)、疾病編碼1(其它診斷1編碼)……疾病編碼16(其它診斷16編碼),共17個(gè)指標(biāo)。

        3.2數(shù)據(jù)預(yù)處理

        2013年住院病案首頁數(shù)據(jù)中把本文不考察的其它指標(biāo)過濾掉,僅留下研究對(duì)象。采用SPSS Statistics 22將數(shù)據(jù)轉(zhuǎn)化為事務(wù)處理格式,統(tǒng)計(jì)疾病頻數(shù),疾病頻數(shù)小的疾病對(duì)于模型的影響微乎其微,故將疾病頻數(shù)小于100的案例刪除,提高建模效率。

        3.3關(guān)聯(lián)規(guī)則挖掘模型構(gòu)建

        SPSS Modeler軟件的特點(diǎn)是采用數(shù)據(jù)流形式處理數(shù)據(jù),可以直觀地分析數(shù)據(jù)處理過程、設(shè)置參數(shù)[910]。本文采用SPSS Modeler 14.1建立關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)流模型。模型如圖1所示。

        其中,在“Statistic文件”節(jié)點(diǎn)中輸入預(yù)處理后的數(shù)據(jù)源;在“類型”節(jié)點(diǎn)中將納入模型的變量類型設(shè)為“輸入”;在“標(biāo)志”節(jié)點(diǎn)中將“疾病代碼”設(shè)為標(biāo)志字段。按照“住院病案號(hào)”進(jìn)行匯總,其目的是將現(xiàn)有數(shù)據(jù)變成可以被布爾數(shù)據(jù)Apriori算法處理的數(shù)據(jù)。在“過濾”節(jié)點(diǎn)中將疾病編碼修改為疾病中文名,最后在“Apriori算法”節(jié)點(diǎn)中設(shè)置最小置信度為20%,最小支持度為2%,運(yùn)行模型、輸出關(guān)聯(lián)規(guī)則結(jié)果40條。

        4結(jié)果

        關(guān)聯(lián)規(guī)則算法對(duì)疾病間相關(guān)性挖掘結(jié)果見表1。從227種疾病中挖掘出40條關(guān)聯(lián)規(guī)則。其中前項(xiàng)和后項(xiàng)的含義是若事件A存在的同時(shí)事件B存在,那么前項(xiàng)就是A,后項(xiàng)是B;支持度的含義是事件AB同時(shí)發(fā)生的實(shí)例占總案例的比例;置信度的含義是AB事件同時(shí)發(fā)生占事件A的比例。如第一條的意義是多發(fā)性腦梗死的患者同時(shí)患有高血壓的占總案例數(shù)的5.5%,多發(fā)性腦梗死患者中66.1%的人同時(shí)患有高血壓。其關(guān)聯(lián)的內(nèi)在原因有待醫(yī)學(xué)專家進(jìn)一步研究。

        5結(jié)語

        數(shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域的應(yīng)用前景十分廣闊,本文應(yīng)用SPSS Modeler軟件,通過對(duì)某醫(yī)院2013年住院病案首頁數(shù)據(jù)的疾病相關(guān)性進(jìn)行挖掘,給出了一個(gè)可行的關(guān)聯(lián)規(guī)則挖掘?qū)嵤┓桨?,挖掘出一些可能有價(jià)值的關(guān)聯(lián)規(guī)則。當(dāng)數(shù)據(jù)量增大時(shí),可能會(huì)從中挖掘出更多有價(jià)值的潛在聯(lián)系。以上挖掘出部分關(guān)聯(lián)可以為臨床診斷提供輔助參考,同時(shí)對(duì)于疾病預(yù)防、宣傳也有一定的積極作用。

        參考文獻(xiàn)參考文獻(xiàn):

        [1]應(yīng)振潭.數(shù)據(jù)挖掘技術(shù)在生源質(zhì)量分析中的應(yīng)用[J].軟件導(dǎo)刊,2009(8):172173.

        [2]林獷.慢性腎小球腎炎的中醫(yī)癥狀證候藥物關(guān)聯(lián)規(guī)則挖掘的研究[D].成都:電子科技大學(xué),2016.

        [3]趙佳璐.基于關(guān)聯(lián)規(guī)則挖掘的出生缺陷預(yù)警系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2012.

        [4]鄭傳生,蔡偉鴻.一種關(guān)聯(lián)規(guī)則挖掘算法及其在醫(yī)療信息挖掘中的應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2007(7):1012.

        [5]SAHOO J, DAS A K, GOSWAMI A. An efficient approach for mining association rules from high utility itemsets[J]. Expert Systems With Applications, 2015,42(13):57545778.

        [6]AGRAWAL R, SRIKANT R. Mining sequential patterns[C]. IEEE Computer Society, 1995:314.

        [7]P TANNA, Y GHODASARA. Using apriori with WEKA for frequent pattern mining[J]. International Journal of Engineering Trends and Technology, 2014,12(3):127131.

        [8]國家衛(wèi)生計(jì)生委辦公廳.住院病案首頁數(shù)據(jù)填寫質(zhì)量規(guī)范(暫行)[R].北京:2016

        [9]張文彤,鐘云飛.IBM SPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹[D].北京:清華大學(xué)出版社,2013.

        [10]季聰華,曹毅,張穎,等.基于SPSS Clementine軟件的關(guān)聯(lián)規(guī)則算法的應(yīng)用[J].中醫(yī)藥管理雜志,2014(1):3133.

        責(zé)任編輯(責(zé)任編輯:劉亭亭)

        猜你喜歡
        挖掘出項(xiàng)集病案
        基于二維碼的病案示蹤系統(tǒng)開發(fā)與應(yīng)用
        從唱片里面挖掘出更多的細(xì)節(jié) Thorens多能士| TD 905黑膠唱盤
        三次實(shí)地采訪,挖掘出暖新聞背后的超暖細(xì)節(jié)
        感悟生活,拓展思維空間
        試論病案管理在防范醫(yī)療糾紛中的作用
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        新病案首頁中存在的問題及對(duì)策
        一種頻繁核心項(xiàng)集的快速挖掘算法
        神探小子 是誰挖掘出了贓物
        一種新的改進(jìn)Apriori算法*
        麻豆国产av在线观看| 中国丰满熟妇av| 久草热8精品视频在线观看| 揄拍成人国产精品视频肥熟女 | 中文无码日韩欧| 韩日美无码精品无码| 国产做床爱无遮挡免费视频| 骚货人妻视频中文字幕| 日韩av一区二区观看| 国产大片黄在线观看| 9lporm自拍视频区| 亚洲国产欧美另类va在线观看| 国产肥熟女视频一区二区三区| 免费在线视频亚洲色图| 欧美做受又硬又粗又大视频| av一区二区三区人妻少妇| 久久久久久中文字幕有精品| 国产女主播福利一区在线观看| 国产91精品在线观看| 免费国产在线精品一区| 国产尤物精品福利视频| 日韩一区二区不卡av| 中文字幕av一区二区三区诱惑| 日韩极品视频免费观看| 久久综合亚洲色hezyo国产| 亚洲乱码日产精品bd在线观看| 完整在线视频免费黄片| 午夜蜜桃视频在线观看| 国产欧美日韩一区二区加勒比| 亚洲色大成网站www久久九| 国产精品国产三级在线高清观看| 亚洲av一区二区网址| 日韩极品视频免费观看| 天下第二社区在线视频| 精品无码AV无码免费专区| 国产美女主播福利一区| 日本最新一区二区三区在线视频| 久久久久亚洲av成人无码| 7878成人国产在线观看| av天堂手机在线免费| 免费黄片小视频在线播放|