亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多源異構數(shù)據(jù)整合系統(tǒng)在醫(yī)療大數(shù)據(jù)中的應用

        2017-03-25 04:15:22曾汪旺謝穎夫胡光闊
        價值工程 2017年8期
        關鍵詞:模式匹配大數(shù)據(jù)

        曾汪旺++謝穎夫+胡光闊

        摘要:隨著醫(yī)院信息系統(tǒng)的快速發(fā)展,為醫(yī)院帶來了海量數(shù)據(jù)。對這些數(shù)據(jù)的有效利用、分析,挖掘其中隱含的信息,能為醫(yī)院管理提供更好的決策支持。但如何從醫(yī)院信息化進程中產(chǎn)生的海量多源異構數(shù)據(jù)中甄選出高質量數(shù)據(jù),是醫(yī)療大數(shù)據(jù)領域首當其沖的問題。文章在盡量不影響改變醫(yī)院現(xiàn)有系統(tǒng)的基礎上,利用數(shù)據(jù)中間件的形式,對多源異構數(shù)據(jù)進行清洗轉換,為上層應用提供標準數(shù)據(jù)集。

        Abstract: The rapid development of hospital information system has brought huge amounts of data for the hospital. The effective use of these data, analysis, and to mine the hidden information, can provide better decision support for hospital management. But how to select high quality data from the massive multi-source heterogeneous data in the process of hospital information is the most important problem in the field of big medical data. This paper is trying to make use of the form of data middleware to clean and convert multi-source heterogeneous data, and provide the standard data set for the upper application on the basis of not changing the existing hospital system.

        關鍵詞:大數(shù)據(jù);多源異構數(shù)據(jù);模式匹配

        Key words: big data;multi-source heterogeneous data;pattern matching

        中圖分類號:TP311.5;P208 文獻標識碼:A 文章編號:1006-4311(2017)08-0080-03

        0 引言

        信息技術及互聯(lián)網(wǎng)的高速發(fā)展和全球的數(shù)字信息資源的急劇增加,推動著大數(shù)據(jù)時代的來臨,各行各業(yè)每天都在產(chǎn)生數(shù)量巨大的數(shù)據(jù)碎片。在“大數(shù)據(jù)時代”我們所要做的事情就是對隱藏于大數(shù)據(jù)中有價值的信息進行分析與挖掘[1],將分散的數(shù)據(jù)變?yōu)橛杏玫男畔?,再加以?chuàng)新和積累形成知識。只有形成了知識的數(shù)據(jù)才具有資產(chǎn)價值。我們面臨的第一個挑戰(zhàn)就是如何采集高質量的數(shù)據(jù)。高質量的數(shù)據(jù)集需滿足以下5種特性:精確性、一致性、完整性、同一性和實效性。精確性指數(shù)據(jù)符合規(guī)定的精度,不超出誤差范圍;一致性指數(shù)據(jù)之間不能存在相互矛盾;完整性指數(shù)據(jù)的值不能為空;同一性指實體的標識是唯一的;時效性指數(shù)據(jù)的值反映了實際的狀態(tài)。此外,還需考慮到人為因素,即數(shù)據(jù)不能是人工偽造的。

        數(shù)據(jù)質量問題在醫(yī)療行業(yè)中表現(xiàn)得尤為突出。醫(yī)院信息化在近三十年的飛速發(fā)展過程中,信息系統(tǒng)的建設規(guī)模越來越大,應用越來越復雜多樣。這些系統(tǒng)因其處理的業(yè)務和采用的技術架構不同,其采集、處理、存儲和交換數(shù)據(jù)的標準均存在較大的差異。從數(shù)據(jù)的結構形式來看,分為結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。例如:PACS和心電監(jiān)護系統(tǒng)等產(chǎn)生視頻、音頻等以多媒體格式存儲的非結構化數(shù)據(jù);HIS和LIS產(chǎn)生患者檔案、醫(yī)囑處方、化驗單等以標準表單形式存儲的結構化數(shù)據(jù);電子病歷又以產(chǎn)生半結構化數(shù)據(jù)為主。另一方面,從信息記錄的模式來看,同一實體可能在多個系統(tǒng)均有記錄,但是其具體屬性集合可能各有不同。就算是同一屬性,其命名或數(shù)據(jù)更是可能在交互過程因為系統(tǒng)或者手工記錄的原因發(fā)生錯誤從而存在相互矛盾沖突的地方。

        從以上現(xiàn)象我們不難看出,醫(yī)療行業(yè)中的數(shù)據(jù)呈現(xiàn)出一種多源異構性,而且該特征會產(chǎn)生嚴重的數(shù)據(jù)質量問題?!笆е晾逯囈郧Ю铩?,這種不良的數(shù)據(jù)會對醫(yī)療大數(shù)據(jù)的后續(xù)應用產(chǎn)生極為不利的影響。為解決這個問題,我們必須對這些多源異構的數(shù)據(jù)集進行收集和整合,轉換為新的高質量的數(shù)據(jù)集,從而為上層的大數(shù)據(jù)分析應用打下良好的基礎。

        1 系統(tǒng)設計

        如果采用傳統(tǒng)的數(shù)據(jù)倉庫策略,我們的方法簡單說來可以分為以下幾步:先抽取原始數(shù)據(jù),再根據(jù)業(yè)務規(guī)則對其進行清洗和轉換,最后按標準的格式將數(shù)據(jù)裝載到數(shù)據(jù)倉庫中。其簡稱為ELT。這種策略可以提供有力的決策支持,但是也存在一些不足之處。首先,數(shù)據(jù)倉庫的策略多為離線處理,面對海量的實時數(shù)據(jù)處理,處理效率不高。其次,這種策略在抽取之前就需要定義好規(guī)則和標準,難以應對可能隨時會變更的需求。最后,如果想要在不中斷在用生產(chǎn)系統(tǒng)即無增量數(shù)據(jù)產(chǎn)生的前提下,對海量的存量數(shù)據(jù)進行一次性的ELT,成本太高。針對以上的不足,本文提出的解決方案如下。

        系統(tǒng)的結構圖如圖1所示。在不影響醫(yī)院在用的生產(chǎn)系統(tǒng)的基礎上,增加數(shù)據(jù)實時采集子系統(tǒng)和增量式映射管理平臺兩個中間件。生產(chǎn)系統(tǒng)上的實時數(shù)據(jù)和歷史數(shù)據(jù),先經(jīng)過數(shù)據(jù)采集子系統(tǒng)進行采集和過濾,然后將這些數(shù)據(jù)分發(fā)至備份數(shù)據(jù)存儲集群進行存儲,再由映射管理平臺對這些異構數(shù)據(jù)進行實時整合,建立緩存庫和知識庫,并為大數(shù)據(jù)分析平臺提供標準化的數(shù)據(jù)接口。

        1.1 數(shù)據(jù)實時采集子系統(tǒng)

        1.1.1 數(shù)據(jù)采集模塊

        該模塊的功能可分為歷史數(shù)據(jù)采集和實時數(shù)據(jù)采集。其中,歷史數(shù)據(jù)的采集采用設置規(guī)則過濾后全量導入的方式;實時數(shù)據(jù)的采集采用基于數(shù)據(jù)庫日志解析的方式來獲取增量變更實現(xiàn)數(shù)據(jù)的同步,這種方法對在用的生產(chǎn)系統(tǒng)幾乎不會產(chǎn)生任何負面的影響。

        1.1.2 數(shù)據(jù)預處理模塊

        該模塊負責對數(shù)據(jù)進行以下預處理:

        ①無效信息過濾。識別并剔除錯誤數(shù)據(jù)和重復數(shù)據(jù),提高處理效率和整合的準確度[3]。

        ②數(shù)據(jù)加密。為保障數(shù)據(jù)安全,對原始數(shù)據(jù)進行加密。

        ③數(shù)據(jù)壓縮。對原始數(shù)據(jù)采用無損的壓縮處理,提升存儲空間利用率和傳輸效率。

        1.2 增量式映射管理平臺

        該平臺包括查詢處理模塊、模式匹配模塊、語義轉換模塊、知識庫管理模塊、緩存管理模塊及緩存庫和知識庫。該平臺的工作流程如下[3]:

        ①查詢處理模塊接到數(shù)據(jù)查詢請求,首先查找緩存管理模塊中是否己經(jīng)整合過該請求。如查找成功,對于已緩存了數(shù)據(jù)集的,直接返回結果;對于未緩存數(shù)據(jù)集的查詢,進入步驟④。如果查找失敗,則進入步驟③。

        ②調用模式匹配模塊,根據(jù)查詢需求對各異構數(shù)據(jù)與標準目標數(shù)據(jù)進行匹配,建立映射關系。

        ③根據(jù)模式的映射關系,轉換查詢請求并下發(fā)到各匹配的異構數(shù)據(jù)源。

        ④查詢處理模塊整合返回的結果數(shù)據(jù)集,并調用語義轉換模塊對部分結果進行語義轉換并通過知識庫管理模塊更新知識庫。

        ⑤查詢處理模塊通過同一數(shù)據(jù)接口標準向上層系統(tǒng)提供查詢結果。

        為提高系統(tǒng)效率,各個模塊在必要情況下會對部分數(shù)據(jù)或中間結果進行緩存,而不是每次都重新計算或者重新查找。系統(tǒng)會隨著中間計算結果和映射的緩存不斷擴大,知識庫的不斷豐富,不斷提升查詢的效率跟精確度。

        以下對系統(tǒng)的關鍵處理模塊——模式匹配模塊和語義轉換模塊進行介紹。

        1.2.1 模式匹配模塊

        該模塊的匹配流程如圖2所示。

        圖中,進行模式匹配的依據(jù)為屬性的相似度,其簡易的度量公式(模式匹配算法公式)如下:

        sim(S1.ei,S2.ej)=AGG(simf(S1.ei,S2.ej))

        其中,ei與ej是分屬于模式S1和S2的兩個屬性,simf是基于特征f的相似度算法。AGG為聚合函數(shù)。該公式根據(jù)一定的聚合規(guī)則,綜合考慮多個相似度算法的結果,得出兩個屬性的最終相似度。目前國內外正在研究的相似度算法即屬性匹配器有:基于單詞相似度的屬性匹配器,基于單詞編輯距離的屬性匹配器,基于數(shù)據(jù)類型的屬性匹配器,基于數(shù)據(jù)實例的屬性匹配器。在實際應用場景中,還可以根據(jù)業(yè)務實際情況,添加自定義的屬性匹配器,通過各屬性匹配器的合理搭配使用,提高屬性近似度的精度。

        1.2.2 語義轉換模塊(詳見圖3)

        該模塊主要負責將各異構數(shù)據(jù)源的屬性數(shù)據(jù)轉換成標準數(shù)據(jù)。例如,上層分析系統(tǒng)可能需要獲取醫(yī)囑的具體內容,而某些數(shù)據(jù)源中僅僅包含醫(yī)囑代碼。這時,語義轉換模塊就可以根據(jù)知識庫中醫(yī)囑代碼與醫(yī)囑具體內容的映射關系,將醫(yī)囑代碼轉換為醫(yī)囑內容。我們設定一個閥值T,當在一個數(shù)據(jù)表中成功匹配到T及以上個樣例數(shù)據(jù)則匹配成功。如圖3所示的匹配過程中,我們設定的T值為1,經(jīng)過第一輪匹配,我們發(fā)現(xiàn)table1中存在樣例數(shù)據(jù)(“qd”→“每日一次”),table2中存在樣例數(shù)據(jù)(“bid”→“每日兩次”),即從知識庫中匹配到了兩個數(shù)據(jù)表。根據(jù)tablel和table2中的數(shù)據(jù),繼續(xù)轉換query中 “advice_code”屬性未轉換的數(shù)據(jù)。tablel中存在“qid”與“q2h”的數(shù)據(jù),table2中存在“qn”與“qh”的數(shù)據(jù),可直接轉換。但是query中“M.D.S”卻沒有找到對應的結果。進行第二次迭代匹配,發(fā)現(xiàn)了table3并在其中找到了“M.D.S”對應的轉換結果[3]。以上示例過程中,我們通過增加迭代匹配的次數(shù),來提高轉換率。但是這種處理會導致執(zhí)行時間的延長。因此,在實際場景中,我們需要對轉換率和執(zhí)行時間做一個折衷。另外,還可以通過機器學習、人為干預等方式,豐富我們的知識庫,從而提高其支撐的語義轉換模塊的轉換率。語義轉換最理想的目標是使得所有轉換只需一次匹配就能完成所有查詢數(shù)據(jù)的轉換。

        2 結語

        本文針對醫(yī)療數(shù)據(jù)中的多源異構特征產(chǎn)生的數(shù)據(jù)質量問題,提出了初步的解決方案。但是文中提到的幾個處理過程相對簡單,存在很大的改善空間,比如可利用云計算技術,采用分布式的采集和存儲提高效率。其依賴的模式匹配器的算法也需要對國內外的研究進展保持跟蹤,不斷進行優(yōu)化調整。此外,對醫(yī)院存在的大量非結構化數(shù)據(jù)的處理,以及對沖突數(shù)據(jù)的處理,也是本系統(tǒng)可以擴展的一個研究點。

        參考文獻:

        [1]鄒北驥.大數(shù)據(jù)分析及其在醫(yī)療領域中的應用[D].計算機教育,2014(7).

        [2]李曉菲.數(shù)據(jù)預處理算法的研究與應用[D].西南交通大學,2006.

        [3]葉茂偉.大規(guī)模異構數(shù)據(jù)即時整合系統(tǒng)的研究與實現(xiàn)[D].浙江大學,2016.

        猜你喜歡
        模式匹配大數(shù)據(jù)
        儲氫場景與氫氣儲運系統(tǒng)的多維度模式匹配優(yōu)化研究
        太陽能學報(2024年6期)2024-08-12 00:00:00
        基于模式匹配的計算機網(wǎng)絡入侵防御系統(tǒng)
        電子制作(2019年13期)2020-01-14 03:15:32
        具有間隙約束的模式匹配的研究進展
        移動信息(2018年1期)2018-12-28 18:22:52
        OIP-IOS運作與定價模式匹配的因素、機理、機制問題
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        基于散列函數(shù)的模式匹配算法
        性饥渴艳妇性色生活片在线播放 | 亚洲人成影院在线观看| 欧美性猛交xxxx富婆| 国产黄在线观看免费观看不卡| 国产精品人妻一码二码尿失禁 | 真实单亲乱l仑对白视频| 亚洲偷自拍国综合第一页| av天堂精品久久综合网| 少妇裸体性生交| 中文字幕精品一区二区2021年| 少妇人妻偷人精品视蜜桃| 1000部拍拍拍18勿入免费视频下载 | 日韩乱码中文字幕在线| 二区视频在线免费观看| 日本国产亚洲一区二区| av天堂午夜精品一区| 亚洲第一最快av网站| 果冻传媒2021精品一区| 最新高清无码专区| 亚洲乱码国产一区三区| 精品国产AⅤ一区二区三区4区| 久久国产精久久精产国| 最新国产午夜福利| 日本精品国产1区2区3区| 亚洲最大无码AV网站观看| 中文字幕亚洲综合久久| 男女啦啦啦视频在线观看| 久久成人精品国产免费网站 | 久久久极品少妇刺激呻吟网站| 丰满熟妇人妻av无码区| 亚欧美日韩香蕉在线播放视频| 国产精品无码a∨精品影院| 麻豆精品传媒一二三区| 日韩精品一区二区三区视频| 天堂网www在线资源| 日本一区二区三区激情视频| 亚洲视频在线播放免费视频| 人妻有码中文字幕在线| 国产一区亚洲二区三区极品| 人妻少妇满足中文字幕| 美女张开腿黄网站免费|