亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Apriori算法的中醫(yī)數(shù)據(jù)預(yù)處理方法分析及應(yīng)用

        2015-12-27 03:08:33仝武寧李宏斌王亞麗
        醫(yī)療衛(wèi)生裝備 2015年9期
        關(guān)鍵詞:藥名藥方數(shù)據(jù)挖掘

        仝武寧,李宏斌,王亞麗

        基于Apriori算法的中醫(yī)數(shù)據(jù)預(yù)處理方法分析及應(yīng)用

        仝武寧,李宏斌,王亞麗

        目的:為了提高數(shù)據(jù)挖掘的工作效率,保證數(shù)據(jù)挖掘出的知識或結(jié)論的準(zhǔn)確性,提出基于Apriori算法的中醫(yī)數(shù)據(jù)預(yù)處理方法。方法:通過分析數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中的重要地位、中醫(yī)數(shù)據(jù)的特點以及Apriori算法對挖掘數(shù)據(jù)的要求,結(jié)合實例創(chuàng)建多個函數(shù),從術(shù)語規(guī)范化、清理不合格數(shù)據(jù)、藥方數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)有序化等方面闡述了數(shù)據(jù)預(yù)處理方法。結(jié)果:構(gòu)造的新函數(shù)清晰明確、便于調(diào)用,預(yù)處理過的數(shù)據(jù)大大提高了中醫(yī)數(shù)據(jù)的挖掘效率。結(jié)論:基于Apriori算法的中醫(yī)數(shù)據(jù)預(yù)處理方法簡單易操作,從很大程度上解決了中醫(yī)數(shù)據(jù)挖掘的先行問題。

        Apriori算法;中醫(yī)數(shù)據(jù);數(shù)據(jù)預(yù)處理;數(shù)據(jù)挖掘;Excel

        0 引言

        數(shù)據(jù)挖掘通常由信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┻^程、模式評估和知識表示等8個步驟組成。其中,數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)清理、數(shù)據(jù)變換又合稱數(shù)據(jù)預(yù)處理[1]。在數(shù)據(jù)挖掘中,通常都是假定數(shù)據(jù)完整性好、冗余性少、屬性之間相關(guān)性小,然而實際系統(tǒng)中的數(shù)據(jù)往往受噪聲數(shù)據(jù)、丟失數(shù)據(jù)和不一致數(shù)據(jù)的侵?jǐn)_,一般都具有不完整性、冗余性和模糊性[2],通常至少60%以上的精力和時間花在了數(shù)據(jù)預(yù)處理過程中[1],故數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中占了很大比重。因此,只要能為數(shù)據(jù)挖掘算法提供有效、準(zhǔn)確、實用、高質(zhì)量的數(shù)據(jù),就能在很大程度上提高數(shù)據(jù)挖掘的工作效率,保證數(shù)據(jù)挖掘出的知識或結(jié)論的準(zhǔn)確性。

        1 中醫(yī)數(shù)據(jù)的特點

        中醫(yī)藥專家在診治疾病的臨床實踐中,積累了大量臨床資料,其中蘊含著疾病、證候、辨證診斷思維和技巧、處方用藥、治療方法、病癥演變轉(zhuǎn)歸及發(fā)展趨勢等方面的重要數(shù)據(jù)信息。這些數(shù)據(jù)存在以下特點:

        (1)數(shù)據(jù)模糊。中醫(yī)基礎(chǔ)概念的模糊性已存在幾千年了,中醫(yī)學(xué)對疾病的診斷是通過望、聞、問、切的4診合參來獲取有用信息,再結(jié)合醫(yī)生的經(jīng)驗對疾病作出診斷。癥狀的模糊性不僅表現(xiàn)在獲得信息的形式多樣,還表現(xiàn)在中醫(yī)癥狀存在著一癥多名和多癥一名的現(xiàn)象[3]。除了癥狀的模糊性,藥名也存在模糊性特點,由于中國地域廣闊,中藥在各地也有不一樣的名稱,因此,即使同樣的中藥材在不同的醫(yī)生開具的處方中也可能以不同的名稱存在。

        (2)數(shù)據(jù)量大。中醫(yī)數(shù)據(jù)信息既包括患者敘述自己病情所產(chǎn)生的原始主訴信息,又包括醫(yī)生根據(jù)主訴信息所做的癥狀信息及隨之產(chǎn)生的病證、治法與處方等信息[4-5],其中的病狀處方中含有面色、舌診、氣味、發(fā)病緩急、脈診等大量描述性數(shù)據(jù),因此數(shù)據(jù)量大。

        (3)非結(jié)構(gòu)化數(shù)據(jù)。中醫(yī)數(shù)據(jù)對病證、治法、處方等信息是采用長文本字段及其他非結(jié)構(gòu)化類型字段的方式進行描述的,如何從非結(jié)構(gòu)化數(shù)據(jù)中分離出病證、藥名及藥劑量,使其轉(zhuǎn)化為結(jié)構(gòu)化字段是中醫(yī)藥數(shù)據(jù)數(shù)字化的一個研究課題。

        2 Apriori算法對數(shù)據(jù)的要求

        Apriori算法是一種單維、單層、布爾關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法[6-7]。Apriori算法在挖掘關(guān)聯(lián)規(guī)則時,要求數(shù)據(jù)符合以下規(guī)則[8-9]:

        (1)只能處理分類型變量,無法處理數(shù)值型變量。分類變量是指其變量值是定性的,表現(xiàn)為互不相容的類別或?qū)傩裕粩?shù)值型變量是指定義成的數(shù)值形式的數(shù)據(jù)。這種數(shù)據(jù)可以直接進行加、減、乘、除等運算,運算的結(jié)果也是數(shù)值型的,所表達的是實數(shù),具有計算上的意義。

        (2)數(shù)據(jù)的存儲要求以項集的方式存在,項集存儲方式有事務(wù)表和事實表[10]2種。

        (3)Apriori算法包括2個部分:產(chǎn)生頻繁項集(第1步)和依據(jù)頻繁項集產(chǎn)生簡單關(guān)聯(lián)規(guī)則(第2步)。進行第1步操作時,要求每一項中的數(shù)據(jù)是排好序的。

        3 基于Apriori算法的中醫(yī)數(shù)據(jù)預(yù)處理設(shè)計

        根據(jù)Apriori算法的要求及中醫(yī)數(shù)據(jù)的特點,通過對中醫(yī)數(shù)據(jù)的術(shù)語規(guī)范化、清理不合格數(shù)據(jù)、藥方數(shù)據(jù)結(jié)構(gòu)化和有序化,使數(shù)據(jù)符合Apriori算法挖掘要求?;贏priori算法的中醫(yī)數(shù)據(jù)預(yù)處理設(shè)計流程如圖1所示。

        圖1 中醫(yī)數(shù)據(jù)預(yù)處理設(shè)計流程

        4 實例

        以中醫(yī)治療腦病數(shù)據(jù)為例,挖掘各處方中藥間的相關(guān)性。本次數(shù)據(jù)來源于某醫(yī)院中醫(yī)治療腦病數(shù)據(jù)庫,表1為部分原始數(shù)據(jù)。

        表1 原始數(shù)據(jù)

        下面以挖掘治療顫病的中藥間的關(guān)聯(lián)規(guī)則為例進行挖掘前的數(shù)據(jù)預(yù)處理,本次預(yù)處理選擇大家都熟悉的Excel軟件進行操作。

        由表1發(fā)現(xiàn):列有“顫病”“顫癥”等病名都屬于同一種?。凰幏阶侄沃泻兴幏降乃兄兴幖捌鋭┝?;藥方中的每味藥排列沒有規(guī)律。以上都為數(shù)據(jù)挖掘帶來了困難。為了有效地進行數(shù)據(jù)挖掘,按照Apriori算法對處理數(shù)據(jù)的要求,首先對數(shù)據(jù)進行預(yù)處理。對本次實驗數(shù)據(jù)的預(yù)處理包括術(shù)語規(guī)范化、清理不合格數(shù)據(jù)、將藥方數(shù)據(jù)結(jié)構(gòu)化(每味藥為一列)、按行排序,使數(shù)據(jù)符合Apriori算法挖掘要求。

        (1)術(shù)語規(guī)范化。首先建立病名、證候、藥名等的術(shù)語規(guī)范表,病名規(guī)范表見表2。

        表2 病名規(guī)范表

        在本例中,將與顫病同病不同名的病名全部統(tǒng)一稱顫病。隨后根據(jù)名稱規(guī)范表在Excel中使用VBA編程工具創(chuàng)建函數(shù)norm,實現(xiàn)病名的規(guī)范化操作。創(chuàng)建的norm函數(shù)如下所示:

        Sub norm()

        For i=2 To 10

        x=1

        Sheets("Sheet1").Select

        Cells(i,x).Select

        Name1=Cells(i,x)

        Selection.Copy

        Sheets("Sheet2").Select

        Columns("A:A").Select

        Selection.Find(What:=Name1,After:=Active-Cell,LookIn:=xlFormulas,LookAt_

        :=xlWhole,SearchOrder:=xlByRows,SearchDirec tion:=xlNext,MatchCase:=_

        False,MatchByte:=False,SearchFormat:=False).Activate

        Cells(ActiveCell.Row,ActiveCell.Column+1).Se-

        lect

        Selection.Copy

        Sheets("Sheet1").Select

        ActiveSheet.Paste

        Next

        End Sub

        (2)清理不合格數(shù)據(jù)。將缺失病名、藥名等數(shù)據(jù)刪除,并根據(jù)實驗的需要提取治療顫病的中藥,在Excel軟件中用篩選的方法即可篩選出合格數(shù)據(jù),表3為治療顫病的處方所用中藥,每一行為1個患者的處方用藥,并且去掉了不合格的整條數(shù)據(jù)。

        表3 治療顫病的處方用藥

        (3)藥方數(shù)據(jù)結(jié)構(gòu)化。本次實驗主要是找出治療顫病的中藥之間的關(guān)聯(lián)關(guān)系。在不同的處方中即使存在同一味藥,但劑量卻不盡相同,即同名不同量的中藥,它不是一個數(shù)據(jù)項,因此,在關(guān)聯(lián)挖掘中很難找到中藥之間的關(guān)聯(lián)性,為了解決這個問題,在實驗中只保留藥名,對藥名進行列分解。首先在數(shù)據(jù)選項卡下,將逗號作為分隔符進行列分解,其次用VBA創(chuàng)建函數(shù)delenum刪除所有劑量數(shù)據(jù),創(chuàng)建的函數(shù)delenum為:

        Sub delenum()

        Dim i As Integer

        Dim j As Integer

        Dim n As Integer

        Dim deles As String

        For i=1 To 100

        For j=1 To 500

        For n=1 To Len(Cells(i,j))

        If(Asc(Mid(Cells(i,j),n,1))>=48 And Asc(Mid(Cells (i,j),n,1))<=122)Then

        Else

        deles=deles&Mid(Cells(i,j),n,1)

        End If

        Next

        Cells(i,j)=deles

        deles=""

        Next

        Next

        End Sub

        藥方數(shù)據(jù)結(jié)構(gòu)化后見表4。

        表4 結(jié)構(gòu)化的藥方

        (4)按行排序,使數(shù)據(jù)符合Apriori算法挖掘要求,因為Apriori算法要求每條事務(wù)中的項集有序排列,因此對每一行的數(shù)據(jù)按拼音的升序進行排序。在VBA中設(shè)計按行進行排序的函數(shù)rowsort如下:

        Sub rowsort()

        Set ss=Selection

        For i=1 To ss.Rows.Count

        ss.Rows(i).Sort Key1:=ss.Rows(i),Order1:=xlAscending,Header:=xlNo,Orientation:=xlLeftToRight

        Next

        End Sub

        按設(shè)計的函數(shù)rowsort對表4行排序,排序結(jié)果見表5。

        表5 行排序后的藥方

        至此,已按Apriori算法數(shù)據(jù)挖掘的要求對原始數(shù)據(jù)進行了預(yù)處理,預(yù)處理過后的數(shù)據(jù)完整、可靠、有序,為下一步挖掘治療顫病的中藥間的潛在關(guān)聯(lián)規(guī)則奠定了良好的基礎(chǔ)。

        5 結(jié)語

        分析了中醫(yī)數(shù)據(jù)的特點以及Apriori挖掘算法對數(shù)據(jù)的要求,結(jié)合實例使用VBA編程工具,創(chuàng)建norm、delenum、rowsort等函數(shù)完成對中醫(yī)原始實驗數(shù)據(jù)術(shù)語規(guī)范化、清理不合格數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)化等預(yù)處理,使數(shù)據(jù)符合挖掘要求,進而可以大大提高數(shù)據(jù)挖掘效率。隨著電子化程度的不斷加強,醫(yī)院數(shù)據(jù)

        (????)(????)逐漸全方位電子化,已進入大數(shù)據(jù)時代,要從浩如煙海的數(shù)據(jù)庫中高效準(zhǔn)確地挖掘出對科研臨床有幫助的數(shù)據(jù),必須重視前期的數(shù)據(jù)預(yù)處理工作。本文方法使數(shù)據(jù)預(yù)處理工作創(chuàng)建的函數(shù)可以方便地被其他程序調(diào)用,該預(yù)處理思路和方法對中醫(yī)藥類數(shù)據(jù)挖掘預(yù)處理有很好的參考價值。

        [1]譚磊.New Internet:大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2013:75-78.

        [2]曹洪欣,蔡海英,土俠,等.基于EMR數(shù)據(jù)挖掘的臨床路徑構(gòu)建中EMR數(shù)據(jù)預(yù)處理[J].中國醫(yī)院管理,2013,33(3):58-60.

        [3]李凌艷,李認(rèn)書,孫鶴.數(shù)據(jù)挖掘技術(shù)在中藥研究中的應(yīng)用[J].中草藥,2010,40(5):附16-附18.

        [4]劉廣,孫宏.論中醫(yī)學(xué)數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理[J].遼寧中醫(yī)藥大學(xué)學(xué)報,2012,14(5):146-147.

        [5]屈景輝,廖琪梅,許衛(wèi)中.醫(yī)學(xué)信息數(shù)據(jù)庫的建立與數(shù)據(jù)挖掘[J].第四軍醫(yī)大學(xué)學(xué)報,2001,22(1):88-89.

        [6]秦亮曦,史忠植.關(guān)聯(lián)規(guī)則研究綜述[J].廣西大學(xué)學(xué)報:自然科學(xué)版,2005,3(4):310-317.

        [7]錢光超,賈瑞玉,張然,等.Apriori算法的一種優(yōu)化方法[J].計算機工程,2008,34(23):196-198.

        [8]劉星沙,譚利球,熊擁軍.關(guān)聯(lián)規(guī)則挖掘算法及其應(yīng)用研究[J].計算機工程與科學(xué),2007,29(1):83-86.

        [9]WU Xin-dong,Kumar V.數(shù)據(jù)挖掘十大算法[M].李文波,吳素研,譯.北京:清華大學(xué)出版社,2013.

        [10]薛薇,陳歡歌.基于Clementine的數(shù)據(jù)挖掘[M].北京:中國人民大學(xué)出版社,2012.

        (收稿:2014-10-28 修回:2015-02-15)

        Analysis and application of TCM data preprocessing method based on Apriori algorithm

        TONG Wu-ning1,LI Hong-bin2,WANG Ya-li3
        (1.Department of Science and Technology,Shaanxi University of Traditional Chinese Medicine,Xianyang 712046, Shaanxi Province,China;2.Network Center,the Affiliated Hospital of Shaanxi University of Traditional Chinese Medicine,Xianyang 712000,Shaanxi Province,China;3.Discipline Office,Shaanxi University of Traditional Chinese Medicine,Xianyang 712046,Shaanxi Province,China)

        ObjectiveTo present a data processing method of traditional Chinese medicine based on Apriori algorithm to improve the efficiency of data mining and ensure the accuracy of the knowledge or conclusion in the data mining.MethodsThe importance of data preprocessing in data mining was analyzed,along with the characteristics of TCM data and the requirements of Apriori algorithm for mining data.Some new functions were formed with considerations on the examples.The data preprocessing was explored from the aspects of terminology standardization,eliminating unqualified data, structured prescription data,data sorting and etc.ResultsThe new functions were simple and easy to operate,and the preprocessed data made the efficiency of TCM data mining enhanced greatly.ConclusionThe preprocessing method based on Apriori algorithm for TCM data facilities the TCM data mining.[Chinese Medical Equipment Journal,2015,36(9):55-57,132]

        Apriori algorithm;TCM data;data preprocessing;data mining;Excel software

        R318;TP311.13

        A

        1003-8868(2015)09-0055-04

        10.7687/J.ISSN1003-8868.2015.09.055

        陜西省教育廳科研項目(14JK1199)

        仝武寧(1977—),女,講師,主要從事醫(yī)學(xué)數(shù)據(jù)挖掘及分布式數(shù)據(jù)庫方面的研究工作,E-mail:successful77@163.com。

        712046陜西咸陽,陜西中醫(yī)學(xué)院科技處(仝武寧),學(xué)科辦(王亞麗);712000陜西咸陽,陜西中醫(yī)學(xué)院附屬醫(yī)院網(wǎng)絡(luò)中心(李宏斌)

        猜你喜歡
        藥名藥方數(shù)據(jù)挖掘
        張老師的“藥方”
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        重樓:梁春宏的脫貧“藥方”
        弩藥方提取工藝的優(yōu)化
        中成藥(2018年4期)2018-04-26 07:12:46
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        藥名
        買藥
        時尚北京(2016年6期)2016-05-14 21:43:53
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        給企業(yè)家腐敗現(xiàn)象開“藥方”
        清風(fēng)(2014年10期)2014-09-08 13:11:04
        藥名戲與《牡丹亭》
        国产传媒剧情久久久av| 精品国产一区二区三区av片 | 无码a级毛片免费视频内谢5j| 亚洲国产精品va在线播放| 国产精品亚洲专区无码web | 人人妻人人澡人人爽欧美精品| 欧美午夜刺激影院| 蜜桃av噜噜一区二区三区香| 风韵人妻丰满熟妇老熟女视频| 四川发廊丰满老熟妇| 91av手机在线观看| 红杏性无码免费专区| 久久精品人妻一区二三区| 老子影院午夜伦不卡| 亚洲免费网站观看视频| 人妻无码中文专区久久综合| 免费看黄在线永久观看| 亚洲一区精品无码| 377p日本欧洲亚洲大胆张筱雨 | 黑人巨大videos极度另类 | 国产黄在线观看免费观看不卡| 国产在线无码免费视频2021| 亚洲女同精品久久女同| 蜜桃成熟时日本一区二区| 又大又长粗又爽又黄少妇视频| 老外和中国女人毛片免费视频| 国产精在线| 成人全视频在线观看免费播放 | 国产jizzjizz视频免费看| 成人黄网站免费永久在线观看| 不卡视频在线观看网站| 80s国产成年女人毛片| 女人让男人桶爽30分钟| 中文字幕福利视频| 一本色道久久88综合亚洲精品 | 天天综合色中文字幕在线视频| 中文字幕亚洲无线码在线一区| 精品人妻系列无码一区二区三区 | 日本不卡一区二区三区在线视频| 人妻聚色窝窝人体www一区| 97中文字幕在线观看|