呂芳 魏杰 寧靜 胡杰 李富忠
(1山西農(nóng)業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院,山西 太谷 030800)
(2山西農(nóng)業(yè)大學(xué)軟件學(xué)院,山西 太谷 03800)
大數(shù)據(jù)在動(dòng)物醫(yī)院的應(yīng)用研究
呂芳1魏杰1寧靜1胡杰2李富忠2
(1山西農(nóng)業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院,山西太谷030800)
(2山西農(nóng)業(yè)大學(xué)軟件學(xué)院,山西太谷03800)
在對(duì)大數(shù)據(jù)中的特征與數(shù)據(jù)挖掘進(jìn)行了簡要介紹的基礎(chǔ)上,采用Map-Reducede方法,將大數(shù)據(jù)應(yīng)用在動(dòng)物醫(yī)院中,提出了寵物的電子芯片與動(dòng)物醫(yī)院中以電子病歷為中心的管理系統(tǒng)有效結(jié)合,為動(dòng)物醫(yī)院提供了大量的數(shù)據(jù)資源,采用關(guān)聯(lián)分析與維度表聯(lián)系,應(yīng)用模糊聚類的方法對(duì)其聚類分析以及異常點(diǎn)檢測,將大量的數(shù)據(jù)資源加載到具體的環(huán)境中,為我國動(dòng)物醫(yī)院的互聯(lián)互通和數(shù)據(jù)共享建立了一個(gè)良好的社會(huì)環(huán)境。
大數(shù)據(jù) 動(dòng)物醫(yī)院 聚類 Map-Reduce
1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂章”。從2009年開始,大數(shù)據(jù)成為互聯(lián)網(wǎng)信息技術(shù)的流行詞匯。維克托·舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中前瞻性地指出,大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟一次重大的時(shí)代轉(zhuǎn)型,并用三部分講述了大數(shù)據(jù)時(shí)代的思維變革、商業(yè)變革和管理變革。目前,動(dòng)物醫(yī)院中存在大量數(shù)據(jù)信息,是很值得去挖掘與利用的,但是目前并沒有去挖掘與利用,而大數(shù)據(jù)時(shí)代的核心是數(shù)據(jù)的分析和利用,模型的建立與數(shù)據(jù)挖掘是分析利用的核心,本文主要對(duì)動(dòng)物醫(yī)院的大量數(shù)據(jù)信息進(jìn)行模型建立與數(shù)據(jù)挖掘,通過挖掘利用,會(huì)為我國寵物市場與動(dòng)物醫(yī)院建立一個(gè)良好的信息共享系統(tǒng)。
有關(guān)大數(shù)據(jù),還沒有一個(gè)統(tǒng)一的定義,但卻有幾個(gè)一致的觀點(diǎn)。麥肯錫全球數(shù)據(jù)分析研究所發(fā)表的論文中給出這樣的定義,大數(shù)據(jù)是指大小超出了典型的數(shù)據(jù)庫軟件工具收集、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。Gartener給出這樣的定義,“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化信息資產(chǎn)[1]。
在大數(shù)據(jù)中,“大”涵蓋了大量的數(shù)據(jù),不僅指數(shù)據(jù)的容量多,也包涵了大數(shù)據(jù)源的其他特征。這些特征不僅包括不斷增加的容量,其中包括不斷增加的速度和多樣性。而大數(shù)據(jù)的特征業(yè)界將其歸納為4個(gè)“V”——數(shù)據(jù)體量大(Volume)、數(shù)據(jù)類型繁多(Variety)、處理速度快(Velocity)和價(jià)值密度低(Value)。大數(shù)據(jù)中的“數(shù)據(jù)”中最重要的是“數(shù)據(jù)挖掘”,數(shù)據(jù)挖掘是一種技術(shù),將傳統(tǒng)動(dòng)物醫(yī)院各種數(shù)據(jù)的分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合。數(shù)據(jù)挖掘任務(wù)在大數(shù)據(jù)中也是非常重要的,分為兩類。
2.1預(yù)測任務(wù)
這些任務(wù)的目標(biāo)是根據(jù)其結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù),來預(yù)測這種數(shù)據(jù)中特定的值。被預(yù)測的數(shù)據(jù)一般是目標(biāo)變量或因變量,而用來做預(yù)測的數(shù)據(jù)稱說明變量或自變量。
2.2描述任務(wù)
2.2.1預(yù)測建模
說明變量函數(shù)的方式為目標(biāo)變量建立模型。例如根據(jù)寵物檢查結(jié)果判斷動(dòng)物是否患有某種疾病。
2.2.2關(guān)聯(lián)分析
這種分析方法是用來描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征模式,這種模式通常有特征子集的形式表示。
2.2.3聚類分析
主要是用來發(fā)現(xiàn)緊密相關(guān)的觀測值組群,本文主要應(yīng)用模糊聚類的方法,來說明動(dòng)物醫(yī)院結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化,能更好地應(yīng)用于動(dòng)物醫(yī)院中。對(duì)于聚類分析中主要應(yīng)用的是模糊聚類的方法,其中簇是對(duì)象的集合。模糊集合論是一種處理不精確和不確定性的方法,可以在0~1之間屬于一個(gè)集合。
2.2.4異常檢測
主要任務(wù)是識(shí)別異常點(diǎn),異常檢測算法的目標(biāo)是發(fā)現(xiàn)真正的異常點(diǎn),從而避免錯(cuò)誤地將正常的對(duì)象標(biāo)注為異常點(diǎn)。
目前,動(dòng)物醫(yī)院的管理水平以及醫(yī)療技術(shù)在逐年提高,主旨在于服務(wù)小動(dòng)物?,F(xiàn)代生活中大量的寵物進(jìn)入人們的生活當(dāng)中,對(duì)寵物更人性化和更合理的管理方式也越顯重要。對(duì)寵物醫(yī)院的管理逐步進(jìn)入以信息服務(wù)為主的醫(yī)療技術(shù)服務(wù)、寵物主人滿意度和醫(yī)院知名度為中心的管理階段[2]。
3.1對(duì)動(dòng)物醫(yī)院的預(yù)測建模
擁有執(zhí)照的寵物脖子上有一個(gè)電子芯片,可以貯存和讀取寵物基本信息以及各種結(jié)構(gòu),通過這種數(shù)據(jù)可以很快了解病史,從而更有針對(duì)性的對(duì)寵物進(jìn)行治療。
在動(dòng)物醫(yī)院中以電子病歷為中心的管理信息系統(tǒng)將原有的電子信息系統(tǒng)、影像系統(tǒng)、檢驗(yàn)系統(tǒng)以及績效管理系統(tǒng)等有效地組織起來,實(shí)現(xiàn)動(dòng)物醫(yī)院以寵物為中心的全信息化服務(wù)。如果寵物醫(yī)療事業(yè)發(fā)展的更好,電子病歷系統(tǒng)可以通過互聯(lián)網(wǎng)相連接,實(shí)現(xiàn)數(shù)據(jù)共享,可以減少患病寵物的重復(fù)檢查,減輕主人的經(jīng)濟(jì)負(fù)擔(dān),提高看病效率[3]。由此可見,電子病歷系統(tǒng)產(chǎn)生的數(shù)據(jù)是大數(shù)據(jù),它包含3部分:動(dòng)物電子病歷數(shù)據(jù)、動(dòng)物醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)和動(dòng)物醫(yī)學(xué)影像數(shù)據(jù)。動(dòng)物電子病歷是通過主人描述癥狀和大夫記錄產(chǎn)生的以文字表述為主體的數(shù)據(jù),它是一種非結(jié)構(gòu)化的數(shù)據(jù),寵物信息管理系統(tǒng)業(yè)務(wù)登記表如表1所示,電子病歷管理信息登記表如表2所示;動(dòng)物醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)來自于動(dòng)物醫(yī)學(xué)檢驗(yàn)設(shè)備,如血常規(guī)檢查、肝功能檢驗(yàn)和心電圖檢查等,由這些醫(yī)學(xué)儀器產(chǎn)生的數(shù)據(jù)一般是數(shù)字?jǐn)?shù)據(jù),且有標(biāo)準(zhǔn)和規(guī)范,因此它是一種結(jié)構(gòu)化的數(shù)據(jù)。急診儀檢驗(yàn)報(bào)告單如表3所示,動(dòng)物影像數(shù)據(jù)來自于影像設(shè)備,是一種以圖像顯示為檢測結(jié)構(gòu)的醫(yī)學(xué)檢驗(yàn)裝置,由它產(chǎn)生的數(shù)據(jù)是圖像,是一種非結(jié)構(gòu)化數(shù)據(jù),X線片如圖1所示,B超影像如圖2所示等。
表1 寵物信息管理系統(tǒng)業(yè)務(wù)登記表
表2 電子病歷管理信息登記表
表3 急診儀檢驗(yàn)報(bào)告單
圖1 X線片
圖2 B超影像(圖中是犬脾上有結(jié)節(jié))
電子病歷系統(tǒng)的開發(fā)與電子芯片有效地結(jié)合起來,不管在什么地方給寵物看病,都會(huì)有以前的病歷,甚至可以通過電子芯片的植入來傳入芯片更多信息,再去動(dòng)物醫(yī)院看病的時(shí)候就可以直接通過掃描芯片了解寵物的病情。
通過對(duì)電子病歷系統(tǒng)產(chǎn)生的3種不同的大數(shù)據(jù)以及植入的電子芯片可以解析出很多信息并加以利用。如果一條寵物犬去動(dòng)物醫(yī)院就醫(yī),第一次去就醫(yī)時(shí)會(huì)將所有的信息填入病歷里,并將信息輸入到電子芯片中,這樣不管寵物隨主人走到哪里,全國的各個(gè)動(dòng)物醫(yī)院都可以通過芯片檢測到有用信息,那么這樣可以通過與芯片有感應(yīng)的儀器定位檢查,可以直接引導(dǎo)去具體的哪個(gè)科室去看病,醫(yī)生通過看電子病歷以及植入的芯片了解情況,不用通過主人的具體描述也可以知道寵物的基本情況,不過必要時(shí)問診也是應(yīng)該的,確診后直接開處方去取得藥物。下次同樣的寵物狗在不同的醫(yī)院看病時(shí),通過電子病歷查詢結(jié)果以及電子芯片有用信息,直接了解到寵物狗的具體情況,得出結(jié)論。這樣的看病方式較以往而言,不但節(jié)約主人的時(shí)間和金錢,而且為我國動(dòng)物醫(yī)學(xué)的發(fā)展起到了很大的促進(jìn)作用。
寵物信息、診療信息、處方醫(yī)囑和檢查報(bào)告等共同構(gòu)成了醫(yī)藥衛(wèi)生的大數(shù)據(jù)資源,可以通過對(duì)這些數(shù)據(jù)采集、抽取和轉(zhuǎn)換,形成醫(yī)療信息資源庫,為寵物和動(dòng)物醫(yī)生提供數(shù)據(jù)支持。面向?qū)櫸?,醫(yī)療信息資源庫為寵物提供個(gè)性化健康管理,如智能導(dǎo)診、健康記錄和健康預(yù)警等。面向動(dòng)物醫(yī)生,醫(yī)療信息資源庫以及電子芯片為動(dòng)物醫(yī)生診斷提供個(gè)性化臨床決策支持。例如基于動(dòng)物醫(yī)療大數(shù)據(jù)分析提煉病種的關(guān)鍵特征指標(biāo),形成膀胱結(jié)石、子宮積液和腸梗阻等幾個(gè)病種的診療模型[4]。
3.2對(duì)動(dòng)物醫(yī)院的關(guān)聯(lián)分析
通常在多個(gè)編輯系統(tǒng)中,有一個(gè)核心的編輯系統(tǒng)稱為Map-Reduce。Map-Reduce的實(shí)現(xiàn)使得很多基于大規(guī)模數(shù)據(jù)的最常見計(jì)算能夠在大規(guī)模計(jì)算機(jī)集群上高效實(shí)現(xiàn),而且它能夠支持計(jì)算機(jī)過程硬件容錯(cuò)性。通過Map-Reduce的方法,進(jìn)行對(duì)動(dòng)物醫(yī)院的電子病歷以及電子芯片進(jìn)行分析處理,進(jìn)而得出有用的信息。Map-Reduce程序執(zhí)行示意圖如圖3所示[5]。
圖3 Map-Reduce程序執(zhí)行示意圖
動(dòng)物醫(yī)院中的電子芯片與電子病歷的管理信息系統(tǒng)結(jié)合運(yùn)用,這樣使得更多大量信息得以利用,那么保存的這種信息表中,表的每個(gè)元組代表一次寵物身份與病理的記錄,那么在寵物信息管理系統(tǒng)登記中包含了主人姓名、寵物身份證號(hào)、品種、血型、年齡、性別和特征,在電子病歷管理信息登記中包含了病案首頁、病程記錄、檢查檢驗(yàn)結(jié)果、手術(shù)護(hù)理記錄和手術(shù)治療回訪記錄。在寵物信息管理系統(tǒng)登記表以及電子病歷管理信息登記表中的每個(gè)屬性代表的是一個(gè)重要的字段,對(duì)每個(gè)屬性又存在一個(gè)維度表給出的屬性的相關(guān)信息。
以寵物信息管理系統(tǒng)登記表和電子病歷管理信息登記表為例,在寵物信息管理系統(tǒng)表中將主人姓名、寵物身份證號(hào)、品種、血型、年齡、性別和特征設(shè)為一個(gè)維度表R(A1、B11、B12、B13、B14、B15和B16)其中A1表示主人姓名,每個(gè)B1i代表的是其寵物的身份證號(hào)、品種、血型、年齡、性別和特征,在電子病歷管理信息系統(tǒng)表中將病案首頁、病程記錄、檢查檢驗(yàn)結(jié)果、手術(shù)護(hù)理記錄和手術(shù)治療回話記錄設(shè)為一個(gè)維度表S(B1、C11、C12、C13、C14和C15),其中B1表示病案首頁,每個(gè)C1i代表的是其病程記錄、檢查檢驗(yàn)結(jié)果、手術(shù)護(hù)理記錄和手術(shù)治療回話記錄。通常來說,這只是其中的一部分,寵物信息管理系統(tǒng)登記表會(huì)遠(yuǎn)遠(yuǎn)大于維度表。R和S的規(guī)模分別是r和s,其中R和S兩個(gè)文件的每個(gè)文件塊傳遞給一個(gè)Map任務(wù),因此所有Map任務(wù)之和是r+s。Map任務(wù)的輸出規(guī)模與輸入的規(guī)模大體相當(dāng)。每個(gè)輸出的鍵-值對(duì)傳給一個(gè)Reduce任務(wù),而Reduce任務(wù)不太可能通過集群的互連來實(shí)現(xiàn),而不是從內(nèi)存到磁盤的傳輸。因此連接算法的方法是O(r+s)。
3.3對(duì)動(dòng)物醫(yī)院的聚類分析及異常檢測
其中R={A1,B11,B12,B13,B14,B15,B16}以及S={B1,C11,C12,C13,C14,C15}中,以R={A1,B11,B12,B13,B14,B15,B16}為例,應(yīng)用模糊聚類的方法,來說明動(dòng)物醫(yī)院結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化,能更好的應(yīng)用于動(dòng)物醫(yī)院中。模糊簇集為R={D1,D2,…,DK},數(shù)據(jù)點(diǎn)的集合R={A1,B11,B12,B13,B14,B15,B16},其中每個(gè)點(diǎn)Bi是一個(gè)n維點(diǎn),每個(gè)簇是Dj,隸屬權(quán)值為wij(0-1)。
算法:基本模糊c均值算法[6]:①選擇一個(gè)初始模糊偽劃分,即對(duì)所有的wij賦值;②repeat;③使用模糊偽劃分,計(jì)算每個(gè)簇的質(zhì)心;④重新計(jì)算模糊偽劃分,即wij;⑤until質(zhì)心不發(fā)生變化。
初始化:一般是隨機(jī)的初始化。
計(jì)算質(zhì)心:簇Dj,對(duì)應(yīng)質(zhì)心dj的公式為dj=∑wijpBiBi/∑wijp
更新模糊偽劃分:wij=(1/dist(Bi,Dj)2)1/p-1/∑(1/dist (Bi,Dq)2)1/p-1
每個(gè)簇的權(quán)值會(huì)受到1/p-1的影響:①如果p趨于無窮大時(shí),那么1/p-1趨于0,權(quán)值趨與1/k;②p趨于1時(shí),1/p-1加大賦予離點(diǎn)最近的簇的權(quán)值;③p趨于1,最近的簇的隸屬權(quán)值趨向1,其他簇的隸屬權(quán)值趨向0.4;p>2,1/p-1降低賦予離點(diǎn)最近的簇的權(quán)值。這樣就可以分析出在質(zhì)心不發(fā)生變化的情況下,數(shù)據(jù)聚集的情況。
總體來講,這種算法是通過將寵物信息管理系統(tǒng)登記表以及電子病歷管理信息登記表,與維度表聯(lián)系,之后用聚集、函數(shù)、組合等轉(zhuǎn)換使其變?yōu)榭捎脭?shù)據(jù),最終,這種數(shù)據(jù)會(huì)被加載到對(duì)它進(jìn)行具體分析的環(huán)境中去。
本文的主要貢獻(xiàn)在于針對(duì)目前動(dòng)物醫(yī)院的現(xiàn)狀,綜述如何打破各系統(tǒng)各動(dòng)物醫(yī)院間的信息孤島,實(shí)現(xiàn)互聯(lián)互通和數(shù)據(jù)共享業(yè)務(wù)協(xié)同,建立寵物醫(yī)療衛(wèi)生信息數(shù)據(jù)以及電子芯片在寵物體內(nèi)的植入,以及寵物醫(yī)療衛(wèi)生信息平臺(tái),為我國寵物市場和動(dòng)物醫(yī)院各方面建立一個(gè)良好的社會(huì)環(huán)境。同時(shí),在動(dòng)物醫(yī)院面臨龐大的數(shù)據(jù)面前,如何利用Map-Reduce的方法,將事實(shí)表和維度表進(jìn)行關(guān)聯(lián)分析,運(yùn)用模糊聚類的方法對(duì)數(shù)據(jù)深度挖掘,將數(shù)據(jù)轉(zhuǎn)化為有用信息,將這些有用信息在動(dòng)物醫(yī)院中得以應(yīng)用。
[1]Bill F.Taming the Big Date Tidal Wave:Finding Opportunitiesn Huge Data Streams with Advanced Analytics [M].ndianapolis:wiley published,inc.,2012.3-17.
[2]林德貴.國內(nèi)外小動(dòng)物醫(yī)學(xué)的發(fā)展與展望[J].農(nóng)產(chǎn)品市場周刊,2004(2):18-21.
[3]鄒北驥.大數(shù)據(jù)分析及其在醫(yī)療領(lǐng)域中的應(yīng)用[J].計(jì)算機(jī)教育,2014(7):24-29.
[4]陳鶴群.大數(shù)據(jù)環(huán)境下醫(yī)療數(shù)據(jù)隱私保護(hù)面臨的挑戰(zhàn)及相關(guān)技術(shù)梳理[J].電子技術(shù)與軟件工程,2014(16):51-53.
[5]Anand R,Jeffrey D U.Mining of Massive Datasets[M].America:Cambridge University Press,2012,21-22.
[6]Tan Pang-ning,Michael S,Vipin K.Introduction to Data Mining[M].America:Pearson Education,Inc.,2006,360-361.
Application of Big Data in Animal Hospital
LV Fang1,WEI Jie1,NING Jing1,HU Jie2,LI Fu-zhong2
(1.School of Economic Management,Shanxi Agricultural University,Taigu Shanxi 030800,China;)
(2.School of software,Shanxi Agricultural University,Taigu Shanxi 030800,China)
This paper introduces the characteristics of big data and data mining,and uses Map-Reduce method to implement the application of big data in animal hospital.It puts forward a method of combining electronic pet chip and the management system centered by animal hospital electronic medical records.This method provides a large amount of data resources to animal hospital.Based on clustering analysis and anomaly detection for big data resources performed by using correlation analysis,contact dimension table and fuzzy clustering method,the big data resources are loaded into specific environments to build a favorable social environment for interconnection and interworking and data sharing in animal hospital.
big data;animal hospital;clustering;Map-Reduce
TP393
A
1008-1739(2015)17-64-4
定稿日期:2015-08-12
山西省回國留學(xué)人員科研資助項(xiàng)目(2014-040);城鄉(xiāng)一體化土地市場研究——以山西省為例(2009HX02);企業(yè)電子商務(wù)建設(shè)研究(2009HX04)。