亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于通用數(shù)據(jù)模型的健康醫(yī)療大數(shù)據(jù)平臺數(shù)據(jù)治理研究*

        2022-08-06 00:46:54張弘政劉迷迷承垠林
        關(guān)鍵詞:標(biāo)準(zhǔn)化信息質(zhì)量

        張弘政 劉迷迷 李 琳 承垠林 周 毅

        (中山大學(xué)中山醫(yī)學(xué)院 廣州 510080)

        1 引言

        1.1 研究背景

        隨著“互聯(lián)網(wǎng)+”、大數(shù)據(jù)、人工智能、云計(jì)算等新興技術(shù)的不斷發(fā)展和應(yīng)用,醫(yī)療衛(wèi)生領(lǐng)域信息化程度和水平不斷提升,隨之產(chǎn)生的健康醫(yī)療數(shù)據(jù)也呈現(xiàn)快速增長[1-2]。這些健康醫(yī)療數(shù)據(jù)多源、多模態(tài)、異構(gòu)且分散存儲在不同醫(yī)療機(jī)構(gòu),具有巨大潛在價(jià)值,需要以真實(shí)世界多中心研究模式統(tǒng)一管理、高效共享和挖掘利用。但是目前我國醫(yī)療機(jī)構(gòu)的健康醫(yī)療數(shù)據(jù)存在質(zhì)量不高[3]、缺乏統(tǒng)一標(biāo)準(zhǔn)[4]等問題,開展多中心的大數(shù)據(jù)研究困難重重,真實(shí)世界健康醫(yī)療大數(shù)據(jù)也難以被真正挖掘和利用,因此亟需開展多中心數(shù)據(jù)治理,提高真實(shí)世界研究數(shù)據(jù)質(zhì)量[5-6]。

        1.2 政策支持

        2018年中國胸部腫瘤研究協(xié)作組發(fā)布《中國真實(shí)世界研究指南》,對數(shù)據(jù)源質(zhì)量、數(shù)據(jù)采集方案設(shè)計(jì)、數(shù)據(jù)標(biāo)準(zhǔn)化等方面提出要求和指導(dǎo)意見,表明了對數(shù)據(jù)質(zhì)量控制的重視;2020年國家藥品監(jiān)督管理局醫(yī)療器械技術(shù)審評中心發(fā)布《真實(shí)世界證據(jù)支持藥物研發(fā)與審評的指導(dǎo)原則(試行)》,國家藥品監(jiān)督管理局藥品審評中心發(fā)布《真實(shí)世界研究支持兒童藥物研發(fā)與審評的技術(shù)指導(dǎo)原則(試行)》,表明了臨床研究中數(shù)據(jù)質(zhì)量的重要性;2021年國家藥品監(jiān)督管理局藥品審評中心發(fā)布《用于產(chǎn)生真實(shí)世界證據(jù)的真實(shí)世界數(shù)據(jù)指導(dǎo)原則(試行)》,從治理、標(biāo)準(zhǔn)和質(zhì)量保障等方面對數(shù)據(jù)治理提出具體要求和指導(dǎo)性建議。真實(shí)世界研究相關(guān)政策文件的相繼發(fā)布,表明利用真實(shí)世界健康醫(yī)療數(shù)據(jù)開展研究成為我國重點(diǎn)發(fā)展領(lǐng)域,其中基于數(shù)據(jù)治理的數(shù)據(jù)質(zhì)量提升受到重視。

        1.3 研究內(nèi)容

        在此背景下本文面向健康醫(yī)療領(lǐng)域真實(shí)世界多中心研究,基于通用數(shù)據(jù)模型相關(guān)理論、方法與技術(shù)開展健康醫(yī)療大數(shù)據(jù)治理并建立相關(guān)研究平臺,包括具體實(shí)踐過程,提高多中心健康醫(yī)療大數(shù)據(jù)質(zhì)量的關(guān)鍵技術(shù)、面臨問題與挑戰(zhàn)以及解決方案等。經(jīng)數(shù)據(jù)治理研究建立的健康醫(yī)療大數(shù)據(jù)平臺及相關(guān)成果,可為跨機(jī)構(gòu)、跨部門的真實(shí)世界研究提供高質(zhì)量數(shù)據(jù),為多中心健康醫(yī)療大數(shù)據(jù)治理提供經(jīng)驗(yàn)和參考。

        2 數(shù)據(jù)治理與通用數(shù)據(jù)模型

        2.1 數(shù)據(jù)治理

        2.1.1 定義 數(shù)據(jù)治理是數(shù)據(jù)資源及其應(yīng)用過程中相關(guān)管控活動(dòng)、績效和風(fēng)險(xiǎn)管理等活動(dòng)的集合[7-8],具體包括數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)質(zhì)量提升、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用[9]。數(shù)據(jù)治理是一個(gè)體系性、系統(tǒng)性的集合,不僅通過數(shù)據(jù)管理提升數(shù)據(jù)質(zhì)量,更強(qiáng)調(diào)流程設(shè)定和權(quán)責(zé)劃分。

        2.1.2 內(nèi)容 目前健康醫(yī)療領(lǐng)域多中心真實(shí)世界數(shù)據(jù)治理目的是獲得高質(zhì)量數(shù)據(jù)用于分析挖掘,提升結(jié)論的真實(shí)性、可靠性,主要涉及數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)質(zhì)量提升,數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用還有待進(jìn)一步發(fā)展。其中健康醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化是參照公認(rèn)的標(biāo)準(zhǔn)規(guī)范,約束健康醫(yī)療數(shù)據(jù)的表達(dá),醫(yī)務(wù)或研究人員按照標(biāo)準(zhǔn)規(guī)范記錄和使用數(shù)據(jù),包括數(shù)據(jù)抽取與清洗、數(shù)據(jù)結(jié)構(gòu)化、術(shù)語映射等數(shù)據(jù)規(guī)范化以及基于醫(yī)學(xué)信息標(biāo)準(zhǔn)的數(shù)據(jù)交換和數(shù)據(jù)集成等[10-11]。而健康醫(yī)療數(shù)據(jù)質(zhì)量提升,主要內(nèi)容是構(gòu)建全流程數(shù)據(jù)治理體系[12],即在健康醫(yī)療數(shù)據(jù)治理過程中完善組織架構(gòu),明確權(quán)利責(zé)任分工,使數(shù)據(jù)質(zhì)量管理制度化、規(guī)范化,實(shí)現(xiàn)對數(shù)據(jù)的產(chǎn)生、共享、使用、統(tǒng)計(jì)全過程質(zhì)量把控以及日常監(jiān)測、質(zhì)控和改進(jìn);同時(shí)建立多中心級的數(shù)據(jù)標(biāo)準(zhǔn)、含義,梳理分散在不同中心各系統(tǒng)中的數(shù)據(jù),參考標(biāo)準(zhǔn)數(shù)據(jù)集確定統(tǒng)一的命名、定義、數(shù)據(jù)類型、值域規(guī)則、計(jì)算方法等。

        2.2 通用數(shù)據(jù)模型

        2.2.1 概述 通用數(shù)據(jù)模型(Common Data Model,CDM)是數(shù)據(jù)標(biāo)準(zhǔn)化的核心[13],是具有統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)模型,可規(guī)范健康醫(yī)療數(shù)據(jù)的格式和內(nèi)容,目的是將不同數(shù)據(jù)庫包含的數(shù)據(jù)轉(zhuǎn)換為通用格式以及應(yīng)用統(tǒng)一術(shù)語[14]。通用數(shù)據(jù)模型包含標(biāo)準(zhǔn)化詞匯表、標(biāo)準(zhǔn)化元數(shù)據(jù)、標(biāo)準(zhǔn)化臨床數(shù)據(jù)表、標(biāo)準(zhǔn)化健康系統(tǒng)數(shù)據(jù)表、標(biāo)準(zhǔn)化健康經(jīng)濟(jì)表和標(biāo)準(zhǔn)化派生元素6類,共39張表,見圖1。

        圖1 通用數(shù)據(jù)模型

        2.2.2 健康醫(yī)療數(shù)據(jù)分析和利用標(biāo)準(zhǔn)化 通用數(shù)據(jù)模型中包含大量醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)并支持開放獲取,其中包含世界衛(wèi)生組織制定的國際疾病分類與代碼(ICD10/ICD9)、國際醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化與研發(fā)組織制定的系統(tǒng)化醫(yī)學(xué)術(shù)語集臨床術(shù)語版(Systematized Nomenclature of Medicine—Clinical Terms,SNOMED CT)、美國國立醫(yī)學(xué)圖書館制定的醫(yī)學(xué)主題詞表(Medical Subject Headings,MeSH)、觀測指標(biāo)標(biāo)識符邏輯命名與編碼系統(tǒng)(Logical Observation Identifiers Names and Codes,LOINC)、美國國立醫(yī)學(xué)圖書館編制的臨床藥品規(guī)范化命名表(RxNorm)等100余個(gè)醫(yī)學(xué)術(shù)語表。這些術(shù)語表為健康醫(yī)療數(shù)據(jù)的分析和利用提供標(biāo)準(zhǔn)化映射的術(shù)語支持,健康醫(yī)療數(shù)據(jù)依據(jù)統(tǒng)一編碼體系和轉(zhuǎn)化規(guī)則被標(biāo)準(zhǔn)化為一致概念,基于統(tǒng)一術(shù)語表達(dá),后續(xù)可開展數(shù)據(jù)互聯(lián)互通,檢索獲取不同醫(yī)療衛(wèi)生機(jī)構(gòu)的數(shù)據(jù)分析與利用,為大數(shù)據(jù)研究提供支撐。

        2.2.3 健康醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化存儲 通用數(shù)據(jù)模型很好地解決健康醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化存儲問題。通用數(shù)據(jù)模型具有統(tǒng)一的醫(yī)學(xué)概念表達(dá)形式,標(biāo)準(zhǔn)化的臨床數(shù)據(jù)模型、醫(yī)學(xué)術(shù)語、編碼系統(tǒng)等,數(shù)據(jù)庫內(nèi)字段信息等屬性相對固定。在開展基于通用數(shù)據(jù)模型的多中心研究時(shí)不必考慮適配不同數(shù)據(jù)庫,減少人力、時(shí)間投入;通過數(shù)據(jù)標(biāo)準(zhǔn)指導(dǎo)收集和錄入數(shù)據(jù),規(guī)范了數(shù)據(jù)采集和管理過程,提高了數(shù)據(jù)完整性和一致性,保證了研究數(shù)據(jù)質(zhì)量。

        2.2.4 數(shù)據(jù)利用 經(jīng)過基于通用數(shù)據(jù)模型的健康醫(yī)療數(shù)據(jù)治理,不同醫(yī)療衛(wèi)生機(jī)構(gòu)的信息系統(tǒng)中的健康醫(yī)療數(shù)據(jù)以相同格式的數(shù)據(jù)結(jié)構(gòu)存儲,研究人員可以通過統(tǒng)一的調(diào)用方式調(diào)取、統(tǒng)計(jì)、分析數(shù)據(jù),可實(shí)現(xiàn)真實(shí)世界健康醫(yī)療大數(shù)據(jù)的最大化利用。

        3 數(shù)據(jù)治理實(shí)踐

        3.1 健康醫(yī)療大數(shù)據(jù)平臺總體設(shè)計(jì)

        為開展真實(shí)世界多中心健康醫(yī)療大數(shù)據(jù)研究,需要對各中心健康醫(yī)療數(shù)據(jù)進(jìn)行治理,并建立健康醫(yī)療大數(shù)據(jù)平臺。在平臺的數(shù)據(jù)治理實(shí)踐過程中,以通用數(shù)據(jù)模型為基礎(chǔ)建立一套數(shù)據(jù)入庫、清洗、質(zhì)量檢查、結(jié)構(gòu)化、數(shù)據(jù)映射的標(biāo)準(zhǔn)化處理流程。平臺從各個(gè)數(shù)據(jù)中心的不同信息系統(tǒng)中獲取患者基本信息、就診、診斷、用藥、檢驗(yàn)、手術(shù)、文本信息等數(shù)據(jù),并進(jìn)行數(shù)據(jù)加密與脫敏。取得的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù),對結(jié)構(gòu)化數(shù)據(jù)直接進(jìn)行抽取與清洗、質(zhì)量檢查,而對文本數(shù)據(jù)則利用自然語言處理技術(shù)進(jìn)行實(shí)體識別和關(guān)系抽取,轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。在對結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)預(yù)處理完成后,針對診斷、手術(shù)、藥品、檢驗(yàn)等數(shù)據(jù)參照標(biāo)準(zhǔn)術(shù)語集分別制定術(shù)語映射標(biāo)準(zhǔn)化作業(yè)程序(Standard Operation Procedure, SOP),并由醫(yī)學(xué)專家對映射數(shù)據(jù)進(jìn)行審校,映射合格的數(shù)據(jù)即為通用數(shù)據(jù)模型數(shù)據(jù)。在這種通用數(shù)據(jù)模型規(guī)范化和標(biāo)準(zhǔn)化的數(shù)據(jù)基礎(chǔ)上開展多中心的臨床科研、輔助診療、健康管理、疾病預(yù)測等應(yīng)用。

        圖2 平臺數(shù)據(jù)治理總體設(shè)計(jì)

        3.2 抽取與清洗

        3.2.1 數(shù)據(jù)抽取 該過程使用具有自主知識產(chǎn)權(quán)的數(shù)據(jù)脫敏技術(shù),以保證用于科研的數(shù)據(jù)經(jīng)過絕對脫敏且不可追溯原患者,從而確保科研的客觀性和患者隱私的保密性。平臺支持以接口與非接口化的形式采集數(shù)據(jù),支持標(biāo)準(zhǔn)消息傳遞協(xié)議,具備數(shù)據(jù)存儲和訪問功能,可將多源異構(gòu)數(shù)據(jù)進(jìn)行聚合。

        3.2.2 數(shù)據(jù)清洗 即對數(shù)據(jù)中存在的各種問題進(jìn)行處理,包括缺失值及異常值處理等。處理缺失值時(shí)通過統(tǒng)計(jì)內(nèi)容為空、內(nèi)容缺失數(shù)據(jù)詞頻占比確定缺失值數(shù)量并進(jìn)行對應(yīng)補(bǔ)充;處理異常值時(shí)針對部分?jǐn)?shù)據(jù)開頭或結(jié)尾包含特殊字符的情況進(jìn)行處理,替換掉特殊符號。數(shù)據(jù)清洗是為了達(dá)到補(bǔ)全數(shù)據(jù)、剔除重復(fù)數(shù)據(jù)等目的,最大限度地利用各中心已有臨床數(shù)據(jù),提供更加全面、準(zhǔn)確的健康醫(yī)療數(shù)據(jù)。

        3.3 質(zhì)量檢查

        在數(shù)據(jù)抽取與清洗完成后對數(shù)據(jù)進(jìn)行質(zhì)量檢查,包括完整性檢查、關(guān)聯(lián)性檢查和一致性檢查。完整性檢查是將原始數(shù)據(jù)接口、中間表、通用數(shù)據(jù)模型的數(shù)據(jù)量、分布情況進(jìn)行總體統(tǒng)計(jì)檢查。一致性檢查同樣針對以上信息,檢查原始數(shù)據(jù)接口、中間表、通用數(shù)據(jù)模型庫的醫(yī)療數(shù)據(jù),確保數(shù)據(jù)一致性。一致性檢查要求100%一致,對于校驗(yàn)中發(fā)現(xiàn)的不一致信息進(jìn)行評估,檢查并更新數(shù)據(jù)抽取工具或校驗(yàn)工具中的算法。關(guān)聯(lián)性檢查對患者基本信息與就診信息進(jìn)行關(guān)聯(lián)性檢查,并對患者每次就診信息,包括診斷、用藥、檢驗(yàn)、手術(shù)、文本信息等進(jìn)行關(guān)聯(lián)性檢查,確保患者信息與業(yè)務(wù)數(shù)據(jù)是準(zhǔn)確關(guān)聯(lián)的。關(guān)聯(lián)性檢查的要求是患者基本信息、就診信息與業(yè)務(wù)場景相符合。

        3.4 數(shù)據(jù)結(jié)構(gòu)化

        除了結(jié)構(gòu)化數(shù)據(jù),醫(yī)療數(shù)據(jù)還包括大量非結(jié)構(gòu)化文本數(shù)據(jù),需要利用自然語言處理技術(shù)抽取這些文本數(shù)據(jù)的實(shí)體和關(guān)系進(jìn)行結(jié)構(gòu)化。首先通過機(jī)器學(xué)習(xí)構(gòu)建命名實(shí)體識別(Named Entity Recognition, NER)模型和關(guān)系抽取模型,提取文本中的實(shí)體和關(guān)系。其中實(shí)體指的是文本中的信息字段,可分類為疾病診斷、時(shí)間、藥品名、癥狀表現(xiàn)、值等,關(guān)系是指兩個(gè)或多個(gè)實(shí)體之間存在的邏輯關(guān)系。文本數(shù)據(jù)結(jié)構(gòu)化后進(jìn)行校驗(yàn),針對命名實(shí)體識別模型和關(guān)系抽取模型在實(shí)體和關(guān)系提取時(shí)的可信度(即模型的準(zhǔn)確率)方面進(jìn)行驗(yàn)證,確保模型的準(zhǔn)確性達(dá)到90%以上,主要用準(zhǔn)確率、召回率、F1值3個(gè)指標(biāo)衡量文本數(shù)據(jù)結(jié)構(gòu)化處理效果,3個(gè)衡量指標(biāo)均≥90%則可認(rèn)為文本數(shù)據(jù)結(jié)構(gòu)化處理質(zhì)量達(dá)到要求。

        3.5 術(shù)語映射

        3.5.1 概述 平臺數(shù)據(jù)治理中的術(shù)語映射為半自動(dòng)化術(shù)語映射,即機(jī)器為主、人工為輔。標(biāo)準(zhǔn)概念由機(jī)器學(xué)習(xí)算法自動(dòng)推薦,并由醫(yī)學(xué)人員逐條確認(rèn)映射結(jié)果;對不同類型的術(shù)語制定術(shù)語映射標(biāo)準(zhǔn)作業(yè)程序,保證術(shù)語映射規(guī)則統(tǒng)一。平臺的術(shù)語映射主要包括數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)拆分、術(shù)語映射、專家審校等內(nèi)容。

        3.5.2 數(shù)據(jù)質(zhì)量評估 包括評估數(shù)據(jù)類型,分析待映射數(shù)據(jù)包含的數(shù)據(jù)類型、種類,確定待映射術(shù)語體系;評估數(shù)據(jù)完整性,分析數(shù)據(jù)是否存在缺失值及異常值等,針對存在問題及時(shí)反饋;評估整體情況,分析是否需要處理缺失值及異常值,以及是否有分詞需求。

        3.5.3 數(shù)據(jù)拆分 對不同類型數(shù)據(jù)參考不同術(shù)語體系做標(biāo)準(zhǔn)化,因此對包含多種類型的源數(shù)據(jù)按類別拆分后再進(jìn)行映射,見表1。

        表1 不同數(shù)據(jù)類型對應(yīng)的術(shù)語集

        3.5.4 術(shù)語映射 分為自動(dòng)映射和人工映射。自動(dòng)映射自動(dòng)匹配標(biāo)準(zhǔn)術(shù)語庫,完全精準(zhǔn)匹配結(jié)果不再進(jìn)行人工映射;人工映射時(shí),首先基于機(jī)器學(xué)習(xí)算法自動(dòng)推薦標(biāo)準(zhǔn)概念,并給出一個(gè)基于概率的置信度(0~100之間),然后通過機(jī)器自動(dòng)推薦結(jié)合醫(yī)學(xué)人員手動(dòng)搜索對照標(biāo)準(zhǔn)的術(shù)語字典逐條映射,并標(biāo)注映射狀態(tài)為“近似精準(zhǔn)”“向上映射”“存疑映射”或“無法映射”,見表2。

        表2 術(shù)語映射規(guī)則

        續(xù)表2

        3.5.5 專家審校 由醫(yī)學(xué)專家審校映射準(zhǔn)確性,針對近似精準(zhǔn)、向上映射、存疑數(shù)據(jù)由醫(yī)學(xué)專家對照標(biāo)準(zhǔn)集進(jìn)行校驗(yàn)及更正,針對無法映射術(shù)語由專家再次映射,仍無法映射的術(shù)語由專家指導(dǎo)構(gòu)建標(biāo)準(zhǔn)術(shù)語并補(bǔ)充到標(biāo)準(zhǔn)術(shù)語集,最終更新至映射規(guī)則庫。

        3.5.6 質(zhì)量核查 術(shù)語映射質(zhì)量核查即隨機(jī)抽取10%的映射數(shù)據(jù),如果映射準(zhǔn)確性≥90%則認(rèn)為數(shù)據(jù)映射合格。

        3.6 階段成果

        3.6.1 概況 平臺經(jīng)基于通用數(shù)據(jù)模型的數(shù)據(jù)治理匯聚3個(gè)醫(yī)療機(jī)構(gòu)的健康醫(yī)療數(shù)據(jù),包括131萬患者數(shù)據(jù),其中住院患者數(shù)據(jù)約12萬,門診患者數(shù)據(jù)約117萬,手術(shù)患者數(shù)據(jù)9萬,檢查檢驗(yàn)數(shù)據(jù)約3 000萬。平臺具有數(shù)據(jù)概覽、探索發(fā)現(xiàn)、隊(duì)列發(fā)現(xiàn)、科研管理等功能模塊,能夠支持科研人員高效、便捷地研究、統(tǒng)計(jì)、管理和分析患者數(shù)據(jù),提高研究效率,拓展研究范圍。

        3.6.2 數(shù)據(jù)概覽方面 支持對平臺全量數(shù)據(jù)及建立特定隊(duì)列的患者數(shù)量、住院患者數(shù)量、門診患者數(shù)量、手術(shù)數(shù)量、檢查檢驗(yàn)數(shù)量、性別、年齡、地域分布等數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與可視化,對數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)并以多種圖表的方式呈現(xiàn),使研究人員快速了解數(shù)據(jù)總體情況。

        3.6.3 數(shù)據(jù)檢索方面 對通用數(shù)據(jù)模型的健康醫(yī)療數(shù)據(jù)建立索引,通過搜索引擎快速、準(zhǔn)確地搜索相關(guān)結(jié)果并排序。支持通過常用信息、病案首頁、檢查信息、治療信息、用藥信息、檢驗(yàn)信息等進(jìn)行檢索。其中檢查信息包括影像檢查和檢查基本信息,治療信息包括手術(shù)信息,檢驗(yàn)信息包括基本信息和常用檢驗(yàn)項(xiàng)目。以此自定義條件檢索出符合條件的人群進(jìn)行探索性分析和隊(duì)列發(fā)現(xiàn),同時(shí)支持建立隊(duì)列,自動(dòng)匯聚和采集滿足隊(duì)列納入排除標(biāo)準(zhǔn)的回顧性數(shù)據(jù)和前瞻性數(shù)據(jù),并支持合并多個(gè)研究隊(duì)列。

        3.6.4 科研管理與數(shù)據(jù)分析方面 支持前瞻性和回顧性的科研項(xiàng)目建立、查看、資料修改與完善、數(shù)據(jù)使用、數(shù)據(jù)導(dǎo)出等科研管理。同時(shí)平臺集成了T檢驗(yàn)、卡方分析、方差分析等常用衛(wèi)生統(tǒng)計(jì)方法,支持簡單的數(shù)據(jù)分析與統(tǒng)計(jì);支持將隊(duì)列篩選和變量選擇所得數(shù)據(jù)導(dǎo)出,在更專業(yè)的統(tǒng)計(jì)分析工具中開展更深入的數(shù)據(jù)分析和挖掘。

        4 存在的問題與建議

        4.1 概述

        在平臺的數(shù)據(jù)治理實(shí)踐中實(shí)現(xiàn)了真實(shí)世界多中心健康醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化和質(zhì)量提升。通過制定不同的數(shù)據(jù)治理標(biāo)準(zhǔn)作業(yè)程序,將不同醫(yī)療機(jī)構(gòu)質(zhì)量參差不齊、結(jié)構(gòu)各異的健康醫(yī)療數(shù)據(jù)轉(zhuǎn)換成通用數(shù)據(jù)模型格式,為真實(shí)世界多中心健康醫(yī)療研究提供高質(zhì)量、高可靠的支撐。但在數(shù)據(jù)治理過程中還存在一些問題,也是當(dāng)前真實(shí)世界多中心健康醫(yī)療大數(shù)據(jù)治理研究的普遍問題。

        4.2 信息系統(tǒng)維護(hù)不足

        醫(yī)療機(jī)構(gòu)以滿足臨床業(yè)務(wù)為主,對信息系統(tǒng)的維護(hù)不足,使得信息系統(tǒng)里的數(shù)據(jù)存在不完整、不規(guī)范、不標(biāo)準(zhǔn)、缺乏關(guān)聯(lián)等問題。醫(yī)療機(jī)構(gòu)應(yīng)將數(shù)據(jù)作為資產(chǎn)管理,以通用數(shù)據(jù)模型為基礎(chǔ)構(gòu)建全流程的數(shù)據(jù)治理體系,做好數(shù)據(jù)日常維護(hù),以減少多中心研究中在單中心數(shù)據(jù)質(zhì)量控制上的人力、物力消耗。

        4.3 模型實(shí)體識別和關(guān)系抽取能力有待提升

        非結(jié)構(gòu)化中文文本數(shù)據(jù)存在歧義性和記錄信息不完整等問題,加上醫(yī)療概念復(fù)雜,自然語言處理模型難以處理醫(yī)學(xué)領(lǐng)域的常識和推理問題。可嘗試以病種為單位劃分?jǐn)?shù)據(jù)和搭建單病種知識圖譜,以點(diǎn)帶面構(gòu)建行業(yè)內(nèi)的常識性知識,并進(jìn)一步開展受限自然語言處理,提升模型的實(shí)體識別和關(guān)系抽取能力。

        4.4 數(shù)據(jù)不夠全面

        由于目前平臺集成了各中心一部分健康醫(yī)療數(shù)據(jù),數(shù)據(jù)還不夠全面,對研究結(jié)果可能有一定影響,需要補(bǔ)充影像、基因、隨訪等更多模態(tài)、來源的數(shù)據(jù),同時(shí)需要保證數(shù)據(jù)安全和患者隱私。為此可嘗試在平臺上接入更多基于通用數(shù)據(jù)模型的數(shù)據(jù)處理、分析與挖掘的統(tǒng)一代碼或工具;各中心利用分布式網(wǎng)絡(luò)調(diào)用平臺提供的代碼或工具對醫(yī)療數(shù)據(jù)進(jìn)行治理,存儲在本地,并對數(shù)據(jù)進(jìn)行分析和挖掘,共享研究結(jié)果。各中心不需要輸出可能包含患者隱私的數(shù)據(jù),只需要將研究結(jié)果整合起來,對外僅分享和發(fā)布整合研究結(jié)果。

        4.5 多中心健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展相關(guān)法規(guī)政策缺位

        目前我國未出臺專門針對多中心健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的專項(xiàng)法律法規(guī)、配套政策及監(jiān)督機(jī)制等,存在數(shù)據(jù)的歸屬權(quán)與使用權(quán)不明確、數(shù)據(jù)共享開放的管理制度以及應(yīng)用準(zhǔn)入與退出機(jī)制缺乏、數(shù)據(jù)應(yīng)用的公平性機(jī)制不清晰等問題,制約了我國健康醫(yī)療大數(shù)據(jù)的良性發(fā)展。因此需要在國家層面對規(guī)范數(shù)據(jù)質(zhì)量、數(shù)據(jù)來源的合法性、數(shù)據(jù)采集的合規(guī)性、個(gè)人信息授權(quán)、數(shù)據(jù)脫敏化處理、數(shù)據(jù)應(yīng)用的公平性等一系列健康醫(yī)療大數(shù)據(jù)應(yīng)用過程中的環(huán)節(jié)制定詳細(xì)的政策法規(guī)和體制機(jī)制。

        5 結(jié)語

        本文通過建立真實(shí)世界多中心健康醫(yī)療大數(shù)據(jù)平臺,提供基于通用數(shù)據(jù)模型、統(tǒng)一的理論、方法與技術(shù),實(shí)現(xiàn)多中心健康醫(yī)療數(shù)據(jù)的規(guī)范化和標(biāo)準(zhǔn)化,提高數(shù)據(jù)質(zhì)量,推動(dòng)跨機(jī)構(gòu)、跨部門的數(shù)據(jù)互聯(lián)互通和共享利用,使真實(shí)世界健康醫(yī)療大數(shù)據(jù)真正成為資源,發(fā)揮應(yīng)有價(jià)值。

        猜你喜歡
        標(biāo)準(zhǔn)化信息質(zhì)量
        “質(zhì)量”知識鞏固
        標(biāo)準(zhǔn)化簡述
        質(zhì)量守恒定律考什么
        做夢導(dǎo)致睡眠質(zhì)量差嗎
        標(biāo)準(zhǔn)化是綜合交通運(yùn)輸?shù)谋U稀庾x《交通運(yùn)輸標(biāo)準(zhǔn)化體系》
        中國公路(2017年9期)2017-07-25 13:26:38
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        質(zhì)量投訴超六成
        汽車觀察(2016年3期)2016-02-28 13:16:26
        論汽車維修診斷標(biāo)準(zhǔn)化(上)
        展會(huì)信息
        交通運(yùn)輸標(biāo)準(zhǔn)化
        成人丝袜激情一区二区| 国产精品伦人视频免费看| 亚洲综合原千岁中文字幕| 亚洲国产精品悠悠久久琪琪| 成人国成人国产suv| 国产成人精品一区二区三区免费 | 97色伦图片97综合影院久久| 一区二区三区国产97| 免费人成网站在线视频| 又粗又大又硬毛片免费看| 国产精品无码日韩欧| 欧美1区二区三区公司| 伊人精品成人久久综合97| 无码专区亚洲综合另类| 欧洲熟妇色xxxx欧美老妇多毛网站| 国产激情无码Av毛片久久| 国内精品毛片av在线播放| 亚洲av无码乱码在线观看牲色| 日日碰狠狠丁香久燥| 视频二区精品中文字幕| 国产一区二区三免费视频| 秘书边打电话边被躁bd视频| 亚洲依依成人综合在线网址| 丰满人妻无奈张开双腿av| 日韩精品专区在线观看| 亚洲欧美一区二区三区在线| 欧美日韩国产一区二区三区地区| 中文字幕一区二区三区喷水| 国产综合精品久久99之一| 亚洲熟女乱色综合亚洲图片| 免费看国产精品久久久久| 久久精品视频日本免费| 国产成人精品一区二区三区| 欧美国产日产一区二区| 成人影院免费观看在线播放视频| 亚洲字幕中文综合久久| 无码精品a∨在线观看| 国产精品麻豆A啊在线观看| 国产美腿丝袜一区二区| 国产aⅴ无码专区亚洲av麻豆| 久久精品无码一区二区乱片子|