亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        醫(yī)療數(shù)據(jù)湖建設(shè)及醫(yī)療數(shù)據(jù)治理探索*

        2022-08-06 00:46:54嚴(yán)曉明陳秀娟麥爾丹吐魯甫黎美秀劉立宇
        關(guān)鍵詞:入湖數(shù)據(jù)倉庫結(jié)構(gòu)化

        吳 龍 嚴(yán)曉明 陳秀娟 麥爾丹·吐魯甫 黎美秀 劉立宇

        (廣東省人民醫(yī)院 廣州 510080) (生命奇點(diǎn)(北京)科技有限公司 北京 100089)

        張 帆 高云鶴 梁會營 楊小紅

        (廣州市婦女兒童醫(yī)療中心 廣州 510623) (廣東省人民醫(yī)院 廣州 510080)

        1 引言

        為實(shí)現(xiàn)醫(yī)院數(shù)字化管理,各醫(yī)院配套建設(shè)了數(shù)據(jù)倉庫、商務(wù)智能(Business Intelligence,BI)系統(tǒng)等數(shù)據(jù)管理工具支撐醫(yī)院運(yùn)維決策。隨著各臨床學(xué)科發(fā)展,物聯(lián)網(wǎng)、可穿戴設(shè)備的接入,各醫(yī)療系統(tǒng)間數(shù)據(jù)格式不一致、關(guān)聯(lián)性不強(qiáng)、值域不統(tǒng)一、數(shù)據(jù)異構(gòu)等問題越發(fā)突出。在數(shù)據(jù)管理方面現(xiàn)有數(shù)據(jù)倉庫模式已無法滿足醫(yī)院快速發(fā)展需要。隨著高水平醫(yī)院建設(shè)的推進(jìn),醫(yī)院對運(yùn)營管理風(fēng)險(xiǎn)防控、可視化監(jiān)控、預(yù)測分析和精細(xì)化管理提出更高要求,數(shù)據(jù)管理需要打破不同業(yè)務(wù)系統(tǒng)之間的壁壘,做到數(shù)據(jù)和業(yè)務(wù)流程的融會貫通,進(jìn)一步挖掘數(shù)據(jù)價(jià)值,提升醫(yī)院綜合決策能力[1]。醫(yī)療數(shù)據(jù)湖是可以存儲醫(yī)院各類原始數(shù)據(jù)的大型倉庫,其數(shù)據(jù)可供存取、處理、分析及傳輸。數(shù)據(jù)湖從院內(nèi)不同業(yè)務(wù)系統(tǒng)數(shù)據(jù)源獲取原始數(shù)據(jù),針對不同的入湖目的,同一份原始數(shù)據(jù)還可能有多種滿足特定內(nèi)部模型格式的數(shù)據(jù)副本。數(shù)據(jù)湖中被處理的數(shù)據(jù)可能是任意類型信息,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。醫(yī)院希望通過數(shù)據(jù)湖建設(shè)及數(shù)據(jù)治理提升醫(yī)療數(shù)據(jù)內(nèi)涵質(zhì)量,加強(qiáng)醫(yī)療數(shù)據(jù)價(jià)值挖掘,幫助臨床及管理部門快速獲取有用信息并通過數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法為醫(yī)院運(yùn)營管理和科研業(yè)務(wù)提供支撐。

        2 醫(yī)療數(shù)據(jù)湖建設(shè)發(fā)展概況

        2.1 數(shù)據(jù)湖發(fā)展及定義

        2.1.1 發(fā)展過程 數(shù)據(jù)管理經(jīng)歷了數(shù)據(jù)收集、數(shù)據(jù)庫、數(shù)據(jù)倉庫階段。數(shù)據(jù)庫面向應(yīng)用,每個(gè)應(yīng)用可能僅需要一個(gè)數(shù)據(jù)庫,如果一個(gè)企業(yè)有幾十個(gè)應(yīng)用就可能需要幾十個(gè)數(shù)據(jù)庫,由于這些數(shù)據(jù)庫之間無法進(jìn)行統(tǒng)一分析,因此發(fā)展出數(shù)據(jù)倉庫[2]。數(shù)據(jù)倉庫不面向任何應(yīng)用,而是對接到應(yīng)用數(shù)據(jù)庫,通過提取-轉(zhuǎn)換-加載(Extract-Transform-Load,ETL)進(jìn)行數(shù)據(jù)抽取和匯總,并按照范式模型進(jìn)行分析,得到一段時(shí)間內(nèi)的數(shù)據(jù)視圖。隨著數(shù)據(jù)量的增加及數(shù)據(jù)類型的變化,很多非結(jié)構(gòu)化數(shù)據(jù)占比越來越多。數(shù)據(jù)倉庫很難繼續(xù)支撐,越來越多的企業(yè)希望將原始數(shù)據(jù)以真實(shí)的初始狀態(tài)保留下來,在此類需求的推動(dòng)下數(shù)據(jù)湖理念逐漸形成。

        2.1.2 定義 數(shù)據(jù)湖(Data Lake)一詞最早由美國互聯(lián)網(wǎng)企業(yè)于 2011 年提出[2],其最早定義為以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng),是企業(yè)級數(shù)據(jù)解決方案。隨著大數(shù)據(jù)技術(shù)的融合發(fā)展,數(shù)據(jù)湖不斷演變,匯集了各種技術(shù),包括數(shù)據(jù)倉庫、實(shí)時(shí)和高速數(shù)據(jù)流、數(shù)據(jù)挖掘、深度學(xué)習(xí)、分布式存儲等技術(shù)[3],逐漸發(fā)展成為可以存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化任意規(guī)模數(shù)據(jù)并可以運(yùn)行不同類型數(shù)據(jù)的大數(shù)據(jù)工具,是可以對大數(shù)據(jù)進(jìn)行處理、實(shí)時(shí)分析和機(jī)器學(xué)習(xí)等操作的統(tǒng)一數(shù)據(jù)管理平臺[3]。

        2.2 數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別

        數(shù)據(jù)倉庫通常從業(yè)務(wù)系統(tǒng)中提取,在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前會對數(shù)據(jù)進(jìn)行清理與轉(zhuǎn)換[4]。在數(shù)據(jù)抓取中數(shù)據(jù)湖會獲取半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[2],而數(shù)據(jù)倉庫則是獲取結(jié)構(gòu)化數(shù)據(jù)并將其按模型進(jìn)行組織的[4]。數(shù)據(jù)湖適合深入分析非結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)倉庫因?yàn)榫哂懈叨冉Y(jié)構(gòu)化的特點(diǎn)而較適用于生成數(shù)據(jù)指標(biāo)、報(bào)表、報(bào)告等。數(shù)據(jù)湖與數(shù)據(jù)倉庫理念不同,相對于數(shù)據(jù)倉庫注重?cái)?shù)據(jù)管控,數(shù)據(jù)湖更傾向于數(shù)據(jù)服務(wù)。

        2.3 醫(yī)療數(shù)據(jù)湖建設(shè)面臨問題與挑戰(zhàn)

        2.3.1 數(shù)據(jù)情況錯(cuò)綜復(fù)雜 醫(yī)院業(yè)務(wù)系統(tǒng)因?yàn)樯墦Q代、更換廠商等原因,造成不同時(shí)期的數(shù)據(jù)在不同系統(tǒng)中,或者系統(tǒng)升級換代的過渡時(shí)期,兩套系統(tǒng)同時(shí)使用,難以區(qū)分業(yè)務(wù)數(shù)據(jù)重疊還是分散在不同系統(tǒng)中。數(shù)據(jù)在抽取、匯聚、分析過程中出現(xiàn)找不到、讀不懂、獲取難、不敢信等情況。

        2.3.2 標(biāo)準(zhǔn)不統(tǒng)一 醫(yī)院同一業(yè)務(wù)在不同時(shí)期、不同系統(tǒng)中術(shù)語不統(tǒng)一,進(jìn)行數(shù)據(jù)分析時(shí)處理數(shù)據(jù)、統(tǒng)一術(shù)語標(biāo)準(zhǔn)成為最耗時(shí)費(fèi)力的工作。例如診斷、手術(shù)操作、藥品、檢驗(yàn)項(xiàng)目等在不同時(shí)間段都存在不同標(biāo)準(zhǔn)術(shù)語集,使用這些數(shù)據(jù)就需要先統(tǒng)一標(biāo)準(zhǔn)集,每次處理業(yè)務(wù)數(shù)據(jù)都需要考慮同一業(yè)務(wù)在不同時(shí)期標(biāo)準(zhǔn)字典,還需進(jìn)行數(shù)據(jù)格式統(tǒng)一和數(shù)據(jù)匯總。

        2.3.3 數(shù)據(jù)使用不方便 臨床數(shù)據(jù)分布在不同系統(tǒng)中,各系統(tǒng)數(shù)據(jù)之間的關(guān)聯(lián)、條件查詢?nèi)狈ο到y(tǒng)支撐。不同系統(tǒng)中的數(shù)據(jù)缺少外鍵關(guān)聯(lián)或者外鍵關(guān)聯(lián)規(guī)則不統(tǒng)一,導(dǎo)致各系統(tǒng)關(guān)聯(lián)規(guī)則不一致、規(guī)則復(fù)雜等。例如要查詢臨床科研數(shù)據(jù)往往要訪問多個(gè)業(yè)務(wù)系統(tǒng),且各業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫之間的外鍵規(guī)則不統(tǒng)一,需要關(guān)聯(lián)中間表,查詢繁瑣、執(zhí)行效率低。

        3 數(shù)據(jù)入湖

        3.1 概述

        醫(yī)療數(shù)據(jù)湖是對醫(yī)療原始數(shù)據(jù)的匯聚,數(shù)據(jù)入湖過程中不對數(shù)據(jù)做轉(zhuǎn)換、清洗和加工,保留數(shù)據(jù)原始特征,為后期數(shù)據(jù)的加工和消費(fèi)提供豐富可能。數(shù)據(jù)入湖是數(shù)據(jù)消費(fèi)的基礎(chǔ),必須遵從一定入湖標(biāo)準(zhǔn)。

        3.2 數(shù)據(jù)入湖前準(zhǔn)備

        3.2.1 發(fā)布數(shù)據(jù)標(biāo)準(zhǔn) 入湖數(shù)據(jù)要有對應(yīng)的業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)。業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)包括數(shù)據(jù)資產(chǎn)目錄(數(shù)據(jù)資產(chǎn)目錄是元數(shù)據(jù)的集合,相當(dāng)于可用數(shù)據(jù)清單)、數(shù)據(jù)定義及規(guī)則(物理表結(jié)構(gòu)、字段、長度及業(yè)務(wù)屬性描述等)、責(zé)任主體,這些標(biāo)準(zhǔn)是醫(yī)院對數(shù)據(jù)的共同理解,一旦明確發(fā)布需要被共同遵守[5],如對時(shí)間域設(shè)置固定的數(shù)據(jù)長度,值域設(shè)置固定的格式“YYYY-MM-DD”即年-月-日,對性別設(shè)置標(biāo)準(zhǔn)代碼庫,業(yè)務(wù)系統(tǒng)中的“男”“男性”“male”“man”“1”等,都對應(yīng)標(biāo)準(zhǔn)代碼庫中“男”。

        3.2.2 定義數(shù)據(jù)密級 醫(yī)療數(shù)據(jù)入湖的必要條件。根據(jù)數(shù)據(jù)資產(chǎn)的重要程度定義不同密級,不同密級數(shù)據(jù)對應(yīng)不同數(shù)據(jù)消費(fèi)要求。數(shù)據(jù)密級決定了數(shù)據(jù)可以共享的級別及用戶。

        3.2.3 元數(shù)據(jù)注冊 將需要進(jìn)入醫(yī)療數(shù)據(jù)湖的業(yè)務(wù)元數(shù)據(jù)和數(shù)據(jù)湖的技術(shù)元數(shù)據(jù)進(jìn)行關(guān)聯(lián),包括邏輯實(shí)體和物理表的對應(yīng)關(guān)系,如超聲系統(tǒng)數(shù)據(jù)庫網(wǎng)絡(luò)地址與數(shù)據(jù)湖資產(chǎn)目錄注冊關(guān)聯(lián),業(yè)務(wù)表的結(jié)構(gòu)、業(yè)務(wù)屬性和表字段的對應(yīng)關(guān)系與數(shù)據(jù)湖技術(shù)元數(shù)據(jù)關(guān)聯(lián)。

        3.3 結(jié)構(gòu)化數(shù)據(jù)入湖流程

        3.3.1 概述 結(jié)構(gòu)化數(shù)據(jù)是指以二維表結(jié)構(gòu)表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),其遵循嚴(yán)格的數(shù)據(jù)格式和長度規(guī)范,通常在關(guān)系型數(shù)據(jù)庫中存儲和管理,見圖1。

        圖1 結(jié)構(gòu)化數(shù)據(jù)入湖流程

        3.3.2 醫(yī)療數(shù)據(jù)入湖需求分析 醫(yī)療數(shù)據(jù)入湖需求分為由數(shù)據(jù)管理部門發(fā)起的主動(dòng)規(guī)劃類需求和由數(shù)據(jù)消費(fèi)方發(fā)起的被動(dòng)類需求,每個(gè)入湖申請都要以使用目的為導(dǎo)向,有針對性地提出今后使用方向,如臨床科研、醫(yī)院運(yùn)維管理。發(fā)起人需要提供規(guī)劃清單,并由信息系統(tǒng)工程師提供信息系統(tǒng)分組、業(yè)務(wù)對象、邏輯實(shí)體、源系統(tǒng)物理表和物理字段、業(yè)務(wù)屬性對應(yīng)的界面截圖等信息,經(jīng)過業(yè)務(wù)系統(tǒng)部門負(fù)責(zé)人和數(shù)據(jù)湖項(xiàng)目建設(shè)負(fù)責(zé)人聯(lián)合評審?fù)ㄟ^。

        3.3.3 數(shù)據(jù)入湖條件和標(biāo)準(zhǔn)評估 檢查數(shù)據(jù)源是數(shù)據(jù)入湖的前提條件,檢查需要源系統(tǒng)的工程師提供數(shù)據(jù)字典和數(shù)據(jù)模型,并檢查源系統(tǒng)的物理表規(guī)范度,評估源系統(tǒng)的數(shù)據(jù)質(zhì)量[5]。評估標(biāo)準(zhǔn)包括明確數(shù)據(jù)所有者、發(fā)布數(shù)據(jù)標(biāo)準(zhǔn)、認(rèn)證數(shù)據(jù)源、定義數(shù)據(jù)密級、評估入湖數(shù)據(jù)質(zhì)量,不滿足上述任一入湖標(biāo)準(zhǔn)則需要源系統(tǒng)完成整改,滿足要求后方可實(shí)施數(shù)據(jù)入湖。

        3.3.4 實(shí)施數(shù)據(jù)入湖 數(shù)據(jù)湖管理員根據(jù)數(shù)據(jù)消費(fèi)場景選擇入湖方式,原則上不要求歷史數(shù)據(jù),數(shù)據(jù)量小且實(shí)時(shí)性要求高的場景可優(yōu)先考慮虛擬入湖;要求歷史數(shù)據(jù)的且數(shù)據(jù)量大、實(shí)時(shí)性要求不高的場景,優(yōu)先考慮物理入湖。數(shù)據(jù)入湖由數(shù)據(jù)湖承建商實(shí)施,并負(fù)責(zé)設(shè)計(jì)集成方案和數(shù)據(jù)質(zhì)量檢測方案,同醫(yī)院信息部門一起完成測試和上線驗(yàn)證。

        3.4 非結(jié)構(gòu)化數(shù)據(jù)入湖流程

        3.4.1 概述 醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)包括醫(yī)學(xué)影像、音頻、視頻、生命體征檢測波形數(shù)據(jù)、可穿戴設(shè)備數(shù)據(jù)、物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)及信息系統(tǒng)數(shù)據(jù)庫日志等異構(gòu)的格式文件。相較于結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)更難通過標(biāo)準(zhǔn)化理解。因此醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)管理不僅包含文件本身還包含對文件的描述屬性,即非結(jié)構(gòu)化的元數(shù)據(jù)信息。例如文件標(biāo)題、格式、所有者、設(shè)備信息等基本特征,非結(jié)構(gòu)化數(shù)據(jù)入湖包括基本特征入湖、文件解析內(nèi)容入湖、文件關(guān)系入湖、原始文件入湖,見圖2。

        圖2 非結(jié)構(gòu)化數(shù)據(jù)入湖流程

        3.4.2 基本特征數(shù)據(jù)入湖 基本特征數(shù)據(jù)入湖過程中,數(shù)據(jù)內(nèi)容仍存儲在源系統(tǒng),數(shù)據(jù)湖中僅存儲非結(jié)構(gòu)化數(shù)據(jù)的基本特征及元屬性。非結(jié)構(gòu)化數(shù)據(jù)的基本特征元屬性包括文件唯一標(biāo)識、文件類型(圖片、音頻、視頻)、創(chuàng)建者、文件內(nèi)容描述、創(chuàng)建或發(fā)布時(shí)間、版本、標(biāo)識、來院、關(guān)聯(lián)、密級等。

        3.4.3 文件解析內(nèi)容入湖 文件解析內(nèi)容入湖是對元數(shù)據(jù)的文件內(nèi)容進(jìn)行文本解析、拆分后入湖。入湖過程中原始文件仍存儲在源系統(tǒng),數(shù)據(jù)湖中僅存儲解析后的內(nèi)容增強(qiáng)元數(shù)據(jù)的描述[5]。如醫(yī)院早期手寫病歷,經(jīng)過掃描歸檔后,歸檔目錄中僅包含患者住院號、住院時(shí)間、住院科室信息。這些數(shù)據(jù)入湖時(shí)經(jīng)過對掃描文檔的文字識別及人工鑒別后(因工作量較大,僅對有科研價(jià)值的病歷進(jìn)行屬性補(bǔ)充),增加了患者主要診斷、主訴、檢驗(yàn)檢查等信息,為后續(xù)科研檢索提供服務(wù)。

        3.4.4 文件關(guān)系入湖 文件關(guān)系入湖過程中原始文件仍存儲在源系統(tǒng),數(shù)據(jù)湖中僅存儲文件的關(guān)系等增強(qiáng)元數(shù)據(jù)。如重癥監(jiān)護(hù)系統(tǒng)在建設(shè)時(shí)醫(yī)院尚未建設(shè)臨床數(shù)據(jù)倉庫(Clinical Data Repository,CDR)系統(tǒng),導(dǎo)致早期積累的PDF特護(hù)單不能在CDR中關(guān)聯(lián)調(diào)用。這些歷史數(shù)據(jù)入湖時(shí),通過重新建立元數(shù)據(jù)關(guān)聯(lián)實(shí)現(xiàn)特護(hù)單在CDR中調(diào)取。

        3.4.5 原始文件入湖 原始文件入湖是從源端將原始文件搬入數(shù)據(jù)湖,在數(shù)據(jù)湖中存儲原始文件并進(jìn)行全生命周期管理。

        4 數(shù)據(jù)治理

        4.1 元數(shù)據(jù)管控

        傳統(tǒng)的數(shù)據(jù)倉庫將數(shù)據(jù)存儲在關(guān)系表中,而數(shù)據(jù)湖則使用平面結(jié)構(gòu)。每個(gè)數(shù)據(jù)元素分配唯一標(biāo)識符,并用一組元數(shù)據(jù)標(biāo)簽進(jìn)行標(biāo)記[6]。如一條醫(yī)囑數(shù)據(jù)在醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)中存放在醫(yī)囑表中,并設(shè)有對應(yīng)的主外鍵關(guān)聯(lián)其他表;在進(jìn)入數(shù)據(jù)湖后,需要對醫(yī)囑數(shù)據(jù)進(jìn)行數(shù)據(jù)湖唯一標(biāo)識分配并增加數(shù)據(jù)標(biāo)簽為“醫(yī)囑數(shù)據(jù)”,同時(shí)更新醫(yī)囑表的主外鍵關(guān)系。經(jīng)過元數(shù)據(jù)管理,之前互不相通的業(yè)務(wù)系統(tǒng)數(shù)據(jù)可以實(shí)現(xiàn)關(guān)聯(lián)檢索。

        4.2 數(shù)據(jù)資源目錄管理

        數(shù)據(jù)資源目錄包含業(yè)務(wù)術(shù)語表關(guān)聯(lián)、標(biāo)簽管理、數(shù)據(jù)分類、數(shù)據(jù)來源和全文檢索[7]。每個(gè)進(jìn)入數(shù)據(jù)湖的系統(tǒng)都需要提供系統(tǒng)數(shù)據(jù)庫配置信息,表結(jié)構(gòu)、表描述及表之間的關(guān)聯(lián)關(guān)系等,經(jīng)過自動(dòng)化和人工操作更新數(shù)據(jù)湖資源目錄[8]。自動(dòng)化的工作會設(shè)計(jì)相應(yīng)模型,利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)自動(dòng)分類和打標(biāo)簽。

        4.3 數(shù)據(jù)清洗

        通過屬性錯(cuò)誤檢測進(jìn)行篩選,篩選出屬性錯(cuò)誤的數(shù)據(jù),根據(jù)已發(fā)布的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行清洗[9-10],如時(shí)間格式錯(cuò)誤、性別描述錯(cuò)誤、身份證號格式錯(cuò)誤等。除屬性錯(cuò)誤清洗外,數(shù)據(jù)清洗還包括不完整數(shù)據(jù)清洗,相似重復(fù)記錄清洗,都需要對數(shù)據(jù)進(jìn)行不完整或相似性重復(fù)檢測并根據(jù)規(guī)則進(jìn)行清洗。

        5 數(shù)據(jù)湖應(yīng)用路徑

        5.1 建立高效的數(shù)據(jù)同步工具

        建立數(shù)據(jù)中心服務(wù)器集群,通過基于Hadoop技術(shù)擴(kuò)展和封裝的醫(yī)療大數(shù)據(jù)平臺解決數(shù)據(jù)多源異構(gòu)問題。在數(shù)據(jù)湖生產(chǎn)平臺中可以看到各項(xiàng)作業(yè)的代碼、配置、運(yùn)行狀態(tài)、運(yùn)行日志等,并在實(shí)時(shí)采集系統(tǒng)資源狀態(tài)的同時(shí)進(jìn)行智能動(dòng)態(tài)分配。在該體系下集群資源得到充分利用的同時(shí),系統(tǒng)穩(wěn)定性也得到保證,數(shù)據(jù)安全與平臺運(yùn)行都處于可知、可控狀態(tài)。增量數(shù)據(jù)更新和高效的資源利用充分保證了數(shù)據(jù)的實(shí)時(shí)性。

        5.2 通用數(shù)據(jù)模型實(shí)現(xiàn)數(shù)據(jù)集成

        使用通用數(shù)據(jù)模型(Common Data Model,CDM)作為大數(shù)據(jù)平臺數(shù)據(jù)存儲的模型,覆蓋了醫(yī)院絕大部分業(yè)務(wù)與系統(tǒng),將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一數(shù)據(jù)模型,利用數(shù)據(jù)中臺存儲數(shù)據(jù)模型轉(zhuǎn)模規(guī)則,并通過統(tǒng)一調(diào)度平臺執(zhí)行作業(yè)的方式實(shí)現(xiàn)高效的數(shù)據(jù)轉(zhuǎn)換和存儲,且過程可知、可控。

        5.3 建立數(shù)據(jù)標(biāo)準(zhǔn)化服務(wù)

        利用自然語言處理(Natural Language Processing,NLP)技術(shù)實(shí)現(xiàn)術(shù)語的字典映射,將不同時(shí)期、不同系統(tǒng)中非標(biāo)準(zhǔn)術(shù)語進(jìn)行標(biāo)準(zhǔn)化處理,提高數(shù)據(jù)質(zhì)量和可用性。數(shù)據(jù)標(biāo)準(zhǔn)定義參照國家衛(wèi)生健康委員會以及國際標(biāo)準(zhǔn)如國際疾病分類(International Classification of Diseases,ICD)第9次、第10次修訂本等,建立代碼、數(shù)據(jù)元的分類標(biāo)準(zhǔn),依數(shù)據(jù)規(guī)范要求制定詳細(xì)的代碼標(biāo)準(zhǔn)和數(shù)據(jù)元分類標(biāo)準(zhǔn),為數(shù)據(jù)存儲、訪問、整合提供一致性保障,見圖3。

        圖3 數(shù)據(jù)湖建設(shè)框架

        6 結(jié)語

        目前借助數(shù)據(jù)湖所要達(dá)成的目標(biāo)涉及不止一種數(shù)據(jù)技術(shù),匯集了包括數(shù)據(jù)倉庫、實(shí)時(shí)和高速數(shù)據(jù)流技術(shù)、數(shù)據(jù)挖掘、深度學(xué)習(xí)、分布式存儲等技術(shù)在內(nèi)的多種技術(shù),已經(jīng)從一種“大數(shù)據(jù)存算方案”進(jìn)階到“大數(shù)據(jù)存算+處理分析+資產(chǎn)治理+安全隱私+數(shù)據(jù)變現(xiàn)”一攬子方案。在數(shù)字經(jīng)濟(jì)時(shí)代,從數(shù)據(jù)倉庫到數(shù)據(jù)湖不僅是數(shù)據(jù)存儲架構(gòu)的變革,更是大數(shù)據(jù)思維方式的升級。數(shù)據(jù)湖能為醫(yī)院賦能,幫助醫(yī)院優(yōu)化運(yùn)營模型,為醫(yī)院科研提供更多維度數(shù)據(jù)分析,有助于醫(yī)院提升運(yùn)營管理和科研能力。

        猜你喜歡
        入湖數(shù)據(jù)倉庫結(jié)構(gòu)化
        降雨事件下洱海北部主要入湖河流污染物特征分析*
        環(huán)洱海主要入湖河流水質(zhì)特征及入湖污染負(fù)荷估算
        人民長江(2022年1期)2022-04-01 02:44:35
        促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        入湖河口濕地恢復(fù)與重建規(guī)劃設(shè)計(jì)初探——以資興市興寧河入湖河口濕地為例
        分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        滇池入湖河流磷負(fù)荷時(shí)空變化及形態(tài)組成貢獻(xiàn)*
        基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
        丰满人妻被中出中文字幕| 亚洲精品成AV无在线观看| 色窝窝手在线视频| 久亚洲一线产区二线产区三线麻豆| 亚洲综合另类小说色区| 欧美aaaaaa级午夜福利视频| 国产欧美va欧美va香蕉在线观 | 在线亚洲精品中文字幕美乳色| 国产精品久久久久久久久久红粉| 精品成在人线av无码免费看| 亚洲精品无码不卡av| 国产一线视频在线观看高清 | 女人体免费一区二区| 久久亚洲精精品中文字幕早川悠里| 森中文字幕一区二区三区免费| 亚洲午夜福利在线视频| 国产色综合天天综合网| 亚洲av成人在线网站| 日本淫片一区二区三区| 粉嫩国产av一区二区三区| 性无码免费一区二区三区在线| 亚洲成人免费网址| 国产极品嫩模大尺度在线播放| 亚洲国产精品不卡av在线| 狠狠色噜噜狠狠狠狠米奇777| 精品一精品国产一级毛片| 日本一区二区三区四区在线看| 日韩人妻中文字幕专区| 国产精品爽爽ⅴa在线观看| 欧美bbw极品另类| 加勒比无码专区中文字幕| 视频一区中文字幕在线观看| 亚洲一区二区三区小说| 欧美freesex黑人又粗又大| 国产美女a做受大片免费| 蜜桃视频永久免费在线观看 | 综合人妻久久一区二区精品| 乱码窝窝久久国产无人精品| 免费a级毛片无码a∨免费软件| 国产成人福利在线视频不卡| 日本免费观看视频一区二区|