亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向標(biāo)準(zhǔn)化數(shù)據(jù)整合的醫(yī)學(xué)通用數(shù)據(jù)模型探析

        2018-05-07 01:43:52
        關(guān)鍵詞:標(biāo)準(zhǔn)化標(biāo)準(zhǔn)研究

        隨著科學(xué)技術(shù)的快速發(fā)展,全球科學(xué)數(shù)據(jù)呈爆發(fā)性的增長態(tài)勢,科學(xué)研究進(jìn)入數(shù)據(jù)密集型的大數(shù)據(jù)時(shí)代。而醫(yī)學(xué)領(lǐng)域是大數(shù)據(jù)應(yīng)用的重要領(lǐng)域之一,大數(shù)據(jù)的快速發(fā)展促進(jìn)了數(shù)據(jù)驅(qū)動的精準(zhǔn)醫(yī)療模式的發(fā)展,近年國內(nèi)外都開展了大量基于醫(yī)學(xué)大數(shù)據(jù)的精準(zhǔn)醫(yī)學(xué)研究項(xiàng)目[1]。2016年,我國將精準(zhǔn)醫(yī)學(xué)研究列入國家“十三五”科技發(fā)展重大專項(xiàng),并上升為國家戰(zhàn)略。但是由于各數(shù)據(jù)資源的產(chǎn)生單位不同、建設(shè)時(shí)期不同,采用的數(shù)據(jù)標(biāo)準(zhǔn)也不盡相同,導(dǎo)致在數(shù)據(jù)資源的整合方面存在很大難度。為了更有效地利用醫(yī)學(xué)數(shù)據(jù),需要針對數(shù)據(jù)資源的異構(gòu)現(xiàn)象,建立統(tǒng)一的數(shù)據(jù)匯交標(biāo)準(zhǔn),實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的整合。

        國內(nèi)外的學(xué)者致力于多源電子化醫(yī)學(xué)數(shù)據(jù)的數(shù)據(jù)整合研究,衍生出許多標(biāo)準(zhǔn)模型。2006年,美國國立神經(jīng)疾病和卒中研究所(National Institutes of Neurological Disorders and Stroke,NINDS)開展了卒中通用數(shù)據(jù)元素(Common Data Element,CDE)的編制工作,以實(shí)現(xiàn)轉(zhuǎn)化醫(yī)學(xué)研究、臨床研究和人群研究等各類數(shù)據(jù)的整合共享[2]。也有研究者基于HL7臨床文檔架構(gòu)(Clinical Document Architecture,CDA)標(biāo)準(zhǔn)提出了針對異構(gòu)臨床數(shù)據(jù)信息系統(tǒng)的集成方案[3-4]。CDA標(biāo)準(zhǔn)是HL7 V3的一部分,專門規(guī)定了臨床文檔內(nèi)容的標(biāo)準(zhǔn)化,但是CDA只規(guī)范了文檔內(nèi)容表達(dá),不涉及文檔實(shí)例的打包和交換機(jī)制[5-6]。美國觀察性醫(yī)療結(jié)果合作組織也建立了一套統(tǒng)一的框架——通用數(shù)據(jù)模型,幫助解決科學(xué)研究中數(shù)據(jù)結(jié)構(gòu)和內(nèi)容的標(biāo)準(zhǔn)化問題,該模型目前已廣泛地應(yīng)用于各類科學(xué)研究[7-8]。

        為了更有效地研究醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化整合,本文深入探析了美國觀察性醫(yī)療結(jié)果合作組織(Observational Medical Outcomes Partnership,OMOP)建立的通用數(shù)據(jù)模型(Common Data Model,CDM)的主要模塊架構(gòu),梳理和總結(jié)了多源數(shù)據(jù)向CDM轉(zhuǎn)換的流程、每一步的實(shí)現(xiàn)方法和主要思路,并介紹了當(dāng)前模型的應(yīng)用情況,以促進(jìn)對模型的理解和數(shù)據(jù)規(guī)范化的實(shí)踐。最后,結(jié)合我國精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)整合共享的實(shí)際需求探討了模型應(yīng)用中的關(guān)鍵問題并提出了相關(guān)建議,以期為促進(jìn)我國精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)的集成整合和共享利用提供有益思路和方法。

        1 OMOP CDM的整體架構(gòu)

        1.1 概述

        OMOP創(chuàng)建于2008年,并不斷發(fā)展為一個(gè)新的合作項(xiàng)目,即觀察性健康數(shù)據(jù)科學(xué)和信息學(xué)(Observational Health Data Sciences and Informatics,OHDSI)[9]。OHDSI是一個(gè)涉及多類利益相關(guān)方的跨學(xué)科合作項(xiàng)目,致力于通過大規(guī)模的數(shù)據(jù)分析發(fā)揮觀察性健康數(shù)據(jù)的更多價(jià)值,目前OHDSI研究網(wǎng)絡(luò)已覆蓋全球6億多患者。OHDSI主要研究涉及開發(fā)、分析功能的軟件工具,包括OMOP CDM和可應(yīng)用于數(shù)據(jù)抽取-轉(zhuǎn)換-加載(Extraction-Transformation-Loading,ETL)過程的工具等。

        OMOP CDM定義了一種統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),可以規(guī)范多源異構(gòu)的觀察性數(shù)據(jù)的格式和內(nèi)容,如圖1所示。

        數(shù)據(jù)集1、數(shù)據(jù)集2和數(shù)據(jù)集3是來自不同數(shù)據(jù)源、具有不同數(shù)據(jù)結(jié)構(gòu)的3個(gè)數(shù)據(jù)集。通過對這3個(gè)數(shù)據(jù)集進(jìn)行數(shù)據(jù)的抽取、轉(zhuǎn)換、加載,將數(shù)據(jù)集轉(zhuǎn)換到OMOP CDM中,最后可形成統(tǒng)一的標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu),支持在該數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上進(jìn)行后續(xù)的數(shù)據(jù)分析并得到分析結(jié)果。

        圖1 將不同結(jié)構(gòu)的數(shù)據(jù)集轉(zhuǎn)換為OMOP CDM

        1.2 OMOP CDM的主要模塊

        經(jīng)不斷改進(jìn),OMOP CDM目前已更新到6.0版本[10],包括標(biāo)準(zhǔn)化詞匯表、標(biāo)準(zhǔn)化元數(shù)據(jù)表、標(biāo)準(zhǔn)化臨床數(shù)據(jù)表、標(biāo)準(zhǔn)化健康系統(tǒng)數(shù)據(jù)表、標(biāo)準(zhǔn)化健康經(jīng)濟(jì)數(shù)據(jù)表、標(biāo)準(zhǔn)化派生元素表、結(jié)果架構(gòu)表等7大模塊39個(gè)域表。

        標(biāo)準(zhǔn)化詞匯表包含了不同的標(biāo)準(zhǔn)術(shù)語以及源數(shù)據(jù)編碼與標(biāo)準(zhǔn)術(shù)語的映射信息(表1),標(biāo)準(zhǔn)化元數(shù)據(jù)表儲存了從源數(shù)據(jù)中派生的元數(shù)據(jù)的相關(guān)信息(表2),標(biāo)準(zhǔn)化臨床數(shù)據(jù)表包含了每個(gè)受試者在有效觀察期內(nèi)的縱向臨床數(shù)據(jù)以及相應(yīng)的人口統(tǒng)計(jì)學(xué)信息(表3),標(biāo)準(zhǔn)化健康系統(tǒng)數(shù)據(jù)表描述了負(fù)責(zé)管理患者醫(yī)療保健事項(xiàng)的醫(yī)療保健提供者和醫(yī)療場所的相關(guān)信息(表4),標(biāo)準(zhǔn)化健康經(jīng)濟(jì)數(shù)據(jù)表包含了醫(yī)療保健的成本信息(表5),標(biāo)準(zhǔn)化派生元素表包含了從CDM的其他域表中獲得的患者臨床數(shù)據(jù)的相關(guān)信息(非源數(shù)據(jù)獲得)(表6)。結(jié)果架構(gòu)表是CDM 6.0版本的新模塊,目前包含“隊(duì)列”和“隊(duì)列定義”兩個(gè)域表(表7)。

        表1 標(biāo)準(zhǔn)化詞匯表

        表2 標(biāo)準(zhǔn)化元數(shù)據(jù)表

        表3 標(biāo)準(zhǔn)化臨床數(shù)據(jù)表

        表4 標(biāo)準(zhǔn)化健康系統(tǒng)數(shù)據(jù)表

        表5 標(biāo)準(zhǔn)化健康經(jīng)濟(jì)數(shù)據(jù)表

        表6 標(biāo)準(zhǔn)化派生元素表

        表7 結(jié)果架構(gòu)表

        2 源數(shù)據(jù)到OMOP CDM的轉(zhuǎn)換方法

        2.1 整體轉(zhuǎn)換流程

        將源數(shù)據(jù)轉(zhuǎn)換為OMOP CDM需要經(jīng)過ETL過程,即對源數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換、加載等一系列操作,使源數(shù)據(jù)在語法和語義上與目標(biāo)CDM的結(jié)構(gòu)和術(shù)語協(xié)調(diào)一致[11]。本文對模型的具體轉(zhuǎn)換流程進(jìn)行梳理和總結(jié),繪制了源數(shù)據(jù)到OMOP CDM的轉(zhuǎn)換流程圖(圖2),通過4步處理將多源異構(gòu)的源數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu),便于數(shù)據(jù)綜合利用與分析。

        如圖2所示,整個(gè)ETL過程可分為源數(shù)據(jù)分析、數(shù)據(jù)表與字段映射、標(biāo)準(zhǔn)術(shù)語映射、ETL實(shí)現(xiàn)4個(gè)部分。源數(shù)據(jù)分析是分析各個(gè)源數(shù)據(jù)表的內(nèi)容和結(jié)構(gòu),了解源數(shù)據(jù)的信息記錄方式;數(shù)據(jù)表與字段映射主要是進(jìn)行整體映射的需求設(shè)計(jì),首先建立源數(shù)據(jù)表與對應(yīng)CDM域表的映射關(guān)系,然后進(jìn)一步建立源數(shù)據(jù)字段與對應(yīng)CDM字段的映射關(guān)系;標(biāo)準(zhǔn)術(shù)語映射是建立源數(shù)據(jù)編碼到OMOP標(biāo)準(zhǔn)術(shù)語的映射,在進(jìn)行源數(shù)據(jù)編碼的提取時(shí),應(yīng)按不同域表(即狀況、觀察、測量、藥物治療等)進(jìn)行源數(shù)據(jù)編碼的分解提取,并與對應(yīng)領(lǐng)域的標(biāo)準(zhǔn)術(shù)語建立映射;ETL實(shí)現(xiàn)是通過輸入源數(shù)據(jù)和術(shù)語映射表,根據(jù)映射邏輯將源數(shù)據(jù)逐一映射到每一個(gè)需要的CDM域表中,從而將源數(shù)據(jù)轉(zhuǎn)換為OMOP CDM的標(biāo)準(zhǔn)格式。

        由于多源數(shù)據(jù)結(jié)構(gòu)、類型的復(fù)雜性、規(guī)模的差異和標(biāo)準(zhǔn)的差異性,在將源數(shù)據(jù)轉(zhuǎn)換為OMOP CDM的整體過程中,OHDSI在源數(shù)據(jù)分析、數(shù)據(jù)表與字段映射以及標(biāo)準(zhǔn)術(shù)語映射3個(gè)階段分別提供了WhiteRabbit、Rabbit-In-a-Hat和Usagi工具,輔助研究人員進(jìn)行轉(zhuǎn)換過程的基本數(shù)據(jù)分析和轉(zhuǎn)換規(guī)則設(shè)計(jì)。最后的ETL實(shí)現(xiàn)階段較為復(fù)雜,OHDSI沒有提供集成的ETL實(shí)現(xiàn)工具,需要研究人員根據(jù)數(shù)據(jù)的實(shí)際情況通過個(gè)性化定制實(shí)現(xiàn)。目前多使用Java、C#等語言開發(fā)ETL生成器以完成最終源數(shù)據(jù)的標(biāo)準(zhǔn)轉(zhuǎn)換。

        圖2 源數(shù)據(jù)到OMOP CDM的轉(zhuǎn)換流程

        2.2 具體轉(zhuǎn)換步驟

        2.2.1 源數(shù)據(jù)分析

        首先通過源數(shù)據(jù)結(jié)構(gòu)和內(nèi)容分析了解數(shù)據(jù)集的結(jié)構(gòu)特征。以一份調(diào)查問卷數(shù)據(jù)集為例,調(diào)查問卷數(shù)據(jù)集包含個(gè)人信息、人口社會學(xué)特征、生活方式、疾病狀況、體格檢查5個(gè)模塊(表8),分別對應(yīng)Personal information.csv、Demographics.csv、Lifestyle.csv、Disease status.csv、Physical examination.csv 5個(gè)數(shù)據(jù)表。

        將調(diào)查問卷數(shù)據(jù)集的5個(gè)數(shù)據(jù)表導(dǎo)入WhiteRabbit工具,進(jìn)行數(shù)據(jù)掃描,生成并導(dǎo)出名為“ScanReport”的Excel掃描報(bào)告(圖3)。

        該掃描報(bào)告包含各個(gè)數(shù)據(jù)表的信息,每個(gè)數(shù)據(jù)表的字段信息,各個(gè)字段不同值的列表以及各個(gè)值的出現(xiàn)頻率。數(shù)據(jù)表和字段信息可以幫助了解數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)值和值的出現(xiàn)頻率可以幫助識別具體信息的記錄方式(如性別的編碼方式是“m”和“f”還是“1”和“2”等)。

        表8 調(diào)查問卷數(shù)據(jù)集與OMOP CDM的匹配

        圖3 使用WhiteRabbit進(jìn)行調(diào)查問卷數(shù)據(jù)集的掃描報(bào)告

        2.2.2 數(shù)據(jù)表與字段映射

        將得到的ScanReport報(bào)告導(dǎo)入Rabbit-In-a-Hat工具,進(jìn)行數(shù)據(jù)映射的需求設(shè)計(jì)。Rabbit-In-a-Hat是一個(gè)可視化的操作工具,支持研究人員手動建立各個(gè)源數(shù)據(jù)表、字段與CDM域表、字段的映射關(guān)系,并支持添加相關(guān)的轉(zhuǎn)換邏輯和注釋。值得注意的是,Rabbit-In-a-Hat允許研究人員選擇不同版本的CDM架構(gòu)文件,研究人員既可以使用OMOP提供的CDM架構(gòu)文件,也可以根據(jù)研究需求創(chuàng)建自定義版本的CDM架構(gòu)文件。本次轉(zhuǎn)換選擇6.0版本的OMOP CDM架構(gòu)文件。

        首先建立數(shù)據(jù)表的連接。一個(gè)源數(shù)據(jù)表可以映射到多個(gè)CDM域表,一個(gè)CDM域表也可以接收多個(gè)源數(shù)據(jù)表的映射。圖4展示了Rabbit-In-a-Hat的可視化操作界面,其中個(gè)人信息模塊的Personal information.csv數(shù)據(jù)表可映射到CDM的Person域表,人口社會學(xué)特征模塊的Demographics.csv數(shù)據(jù)表可映射到CDM的Person域表,疾病狀況模塊的Disease status.csv數(shù)據(jù)表可映射到CDM的Condition_occurrence、Drug_era、Care_site以及Cost域表,體格檢查模塊的Physical examination.csv數(shù)據(jù)表可映射到CDM的Measurement域表,生活方式模塊的Lifestyle.csv數(shù)據(jù)表無可匹配映射的CDM域表。

        然后進(jìn)一步建立各字段到CDM字段的連接。由于數(shù)據(jù)集的獨(dú)特性,源數(shù)據(jù)中可能存在不能映射到CDM中的表格或字段,CDM中也可能存在無法從源數(shù)據(jù)獲取填充信息的表格或字段。如圖5所示,以Personal information.csv數(shù)據(jù)表和Person域表為例,建立源字段與Person域表字段的連接,并標(biāo)注相應(yīng)的映射邏輯。完成全部表格和字段的連接建立和映射邏輯標(biāo)注后,Rabbit-In-a-Hat可生成并導(dǎo)出構(gòu)建ETL的需求設(shè)計(jì)文檔。

        圖4 Rabbit-In-a-Hat中各模塊數(shù)據(jù)表與CDM域表之間的連接

        圖5 Rabbit-In-a-Hat中數(shù)據(jù)字段與CDM字段的連接(以Person域表為例)

        2.2.3 標(biāo)準(zhǔn)術(shù)語映射

        由于源數(shù)據(jù)通常會使用與OMOP CDM不同的編碼標(biāo)準(zhǔn),所以需要進(jìn)行從源數(shù)據(jù)編碼到OMOP標(biāo)準(zhǔn)術(shù)語的映射。OMOP CDM使用多種標(biāo)準(zhǔn)術(shù)語集,且不同域表和標(biāo)準(zhǔn)術(shù)語之間并不是一一對應(yīng)的關(guān)系。如RxNorm標(biāo)準(zhǔn)術(shù)語可應(yīng)用于藥物域表,ICD9-Procedure標(biāo)準(zhǔn)術(shù)語可應(yīng)用于過程域表,而SNOMED標(biāo)準(zhǔn)術(shù)語則包含了所有醫(yī)學(xué)領(lǐng)域的概念,可應(yīng)用于多個(gè)域表的映射。不同域表與標(biāo)準(zhǔn)術(shù)語的對應(yīng)情況如表9所示。

        工具Usagi可輔助研究人員進(jìn)行術(shù)語映射的構(gòu)建。Usagi支持導(dǎo)入源數(shù)據(jù)編碼文件和OMOP標(biāo)準(zhǔn)術(shù)語文件,通過術(shù)語相似度的方法自動的建立各個(gè)源編碼到OMOP標(biāo)準(zhǔn)術(shù)語的建議映射,并獲得每一個(gè)映射的匹配得分(通常是0~1的數(shù)值,1為自信匹配)。

        如果建議映射不正確,Usagi允許研究人員進(jìn)行概念的手動搜索,從而對映射進(jìn)行修改。最后,研究人員對可以在ETL過程中應(yīng)用的映射進(jìn)行逐條批準(zhǔn),生成并導(dǎo)出包含源數(shù)據(jù)編碼、源概念I(lǐng)D、源術(shù)語ID、映射后的目標(biāo)概念I(lǐng)D、目標(biāo)術(shù)語ID等字段信息術(shù)語映射表(圖6)。

        表9 不同域表與標(biāo)準(zhǔn)術(shù)語的對應(yīng)情況

        圖6 使用Usagi進(jìn)行源數(shù)據(jù)編碼到標(biāo)準(zhǔn)術(shù)語的映射

        2.2.4 ETL實(shí)現(xiàn)

        完成數(shù)據(jù)表與字段映射和標(biāo)準(zhǔn)術(shù)語映射后,可進(jìn)行最終的ETL實(shí)現(xiàn)。在數(shù)據(jù)表與字段映射時(shí)得到的ETL需求文檔可作為實(shí)現(xiàn)ETL的整體數(shù)據(jù)映射規(guī)范,然后需要根據(jù)ETL需求文檔中記錄的表和字段的映射邏輯編寫程序,構(gòu)建需包含數(shù)據(jù)質(zhì)量控制、各字段的標(biāo)準(zhǔn)編碼格式轉(zhuǎn)換、各字段的數(shù)據(jù)映射實(shí)現(xiàn)等多種功能的ETL生成器。

        將源數(shù)據(jù)和通過Usagi得到的術(shù)語映射表輸入到ETL生成器中時(shí),首先應(yīng)對質(zhì)量較差、不能滿足研究目的的源數(shù)據(jù)進(jìn)行剔除,然后將需要轉(zhuǎn)換編碼格式的字段數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)術(shù)語的格式,并逐一完成Person域表、Condition_occurrence域表、Drug_era域表、Care_site域表、Cost域表以及Measurement域表中各字段與各模塊數(shù)據(jù)字段之間的映射,轉(zhuǎn)換為OMOP CDM標(biāo)準(zhǔn)結(jié)構(gòu)的數(shù)據(jù)信息將分別存儲在Person.csv、Condition_occurrence.csv、Drug_era.csv、Care_site.csv、Cost.csv以及Measurement.csv文件中。由于不同的源數(shù)據(jù)集通常具有不同的內(nèi)容結(jié)構(gòu)和編碼規(guī)則,所以每個(gè)ETL生成器的程序也都具有一定的獨(dú)特性,需要研究人員根據(jù)數(shù)據(jù)集的實(shí)際情況進(jìn)行個(gè)性化的構(gòu)建。

        通過完整的ETL過程,將多源異構(gòu)的科學(xué)數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為OMOP CDM的標(biāo)準(zhǔn)格式,可實(shí)現(xiàn)數(shù)據(jù)的整合,便于研究人員對數(shù)據(jù)進(jìn)行綜合分析。

        3 OMOP CDM的應(yīng)用

        2008年美國食品藥品管理局(Food and Drug Administration,F(xiàn)DA)開展了“哨兵行動(Sentinel Initiative)”,希望利用不同來源的電子醫(yī)療保健數(shù)據(jù),實(shí)現(xiàn)產(chǎn)品安全性的實(shí)時(shí)連續(xù)監(jiān)測,以加強(qiáng)相關(guān)產(chǎn)品上市后的安全性識別與分析,其中就包括了OMOP[12]。此后OMOP CDM逐漸應(yīng)用到更多領(lǐng)域,如幫助實(shí)現(xiàn)多源醫(yī)學(xué)數(shù)據(jù)的綜合利用、解決醫(yī)學(xué)數(shù)據(jù)整合中的數(shù)據(jù)標(biāo)準(zhǔn)問題、促進(jìn)跨中心跨地區(qū)的科學(xué)研究合作等。

        OMOP成立初期,與OMOP CDM相關(guān)的研究多集中在美國、歐洲等地。英國臨床實(shí)踐研究數(shù)據(jù)鏈(Clinical Practice Research Datalink,CPRD)[13]是一個(gè)初級護(hù)理數(shù)據(jù)庫,記錄了1 400萬患者的人口統(tǒng)計(jì)信息、人體測量信息、生活方式信息、醫(yī)療診斷以及處方數(shù)據(jù)信息等,被認(rèn)為是英國的人群代表。CPRD在國際上被廣泛應(yīng)用于流行病學(xué)研究,但是由于CPRD使用自身獨(dú)有的Multilex編碼標(biāo)準(zhǔn),極大地限制了與其他數(shù)據(jù)庫進(jìn)行數(shù)據(jù)整合和相關(guān)研究的可能性。Matcho等人[14]將CPRD的數(shù)據(jù)轉(zhuǎn)換到OMOP CDM,其轉(zhuǎn)化的所有要素都被評估為高質(zhì)量。研究者同時(shí)進(jìn)行了驗(yàn)證工作,在原始CPRD數(shù)據(jù)和CPRD CDM數(shù)據(jù)中檢查使用非甾體抗炎藥和首次急性心肌梗死的風(fēng)險(xiǎn),結(jié)果顯示兩項(xiàng)數(shù)據(jù)的患病率相等,證明CPRD可以準(zhǔn)確地轉(zhuǎn)換為OMOP CDM。Voss等人[15]也曾將6個(gè)不同來源的患者級數(shù)據(jù)庫轉(zhuǎn)換為OMOP CDM,探討將不同觀察健康數(shù)據(jù)庫網(wǎng)絡(luò)標(biāo)準(zhǔn)化到CDM和術(shù)語表中的優(yōu)點(diǎn)與成本,研究評估了在標(biāo)準(zhǔn)化的轉(zhuǎn)換過程中的信息丟失程度,結(jié)果顯示轉(zhuǎn)換為OMOP CDM 的信息損失最小,并且數(shù)據(jù)的標(biāo)準(zhǔn)化過程提高了數(shù)據(jù)質(zhì)量和分析效率,促進(jìn)了跨數(shù)據(jù)庫的數(shù)據(jù)研究比較。

        近年來,不僅歐美發(fā)達(dá)國家致力于應(yīng)用OMOP CDM進(jìn)行相關(guān)研究,亞洲地區(qū)的研究者也開始嘗試將醫(yī)學(xué)健康領(lǐng)域的數(shù)據(jù)轉(zhuǎn)化到OMOP CDM中,開展了許多標(biāo)準(zhǔn)化的數(shù)據(jù)研究。韓國亞洲大學(xué)醫(yī)學(xué)院的You Seng Chan等人[16]將韓國國民健康保險(xiǎn)服務(wù)-國家樣本隊(duì)列(NHIS-NSC)數(shù)據(jù)庫中113萬受試者的數(shù)據(jù)轉(zhuǎn)換為OMOP CDM,平均轉(zhuǎn)化率達(dá)到了99.1%。該研究是亞洲國家將國家隊(duì)列數(shù)據(jù)庫轉(zhuǎn)換為通用的OMOP CDM格式的第一次嘗試,這也使NHIS-NSC成為了支持多方面醫(yī)學(xué)研究的寶貴資源。北京大學(xué)的孫一鑫等人[17]為實(shí)現(xiàn)多源臨床數(shù)據(jù)資源的整合共享,同樣基于OMOP CDM 制定了呼吸系統(tǒng)疾病的專病隊(duì)列數(shù)據(jù)標(biāo)準(zhǔn)。他們分析了各個(gè)來源的專病隊(duì)列的數(shù)據(jù)特征,然后與OMOP CDM中的已有模塊進(jìn)行匹配,建立了基于OMOP CDM的呼吸隊(duì)列通用數(shù)據(jù)標(biāo)準(zhǔn),進(jìn)行呼吸系統(tǒng)疾病數(shù)據(jù)的回顧性整合。

        基于OMOP CDM可以將不同數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換成通用格式,方便研究人員進(jìn)行跨數(shù)據(jù)庫的數(shù)據(jù)抽取、整合,有利于開展不同數(shù)據(jù)庫的綜合研究或?qū)φ昭芯俊M瑫r(shí),結(jié)合OMOP CDM的標(biāo)準(zhǔn)結(jié)構(gòu),可建立不同特異性專病隊(duì)列的數(shù)據(jù)標(biāo)準(zhǔn),有助于日后開展長期隨訪和數(shù)據(jù)采集。

        4 問題與建議

        4.1 問題

        我國啟動了精準(zhǔn)醫(yī)學(xué)研究專項(xiàng),項(xiàng)目需要匯集我國各地域的自然人群隊(duì)列、乳腺癌、食管癌、胃癌、心血管疾病、腦血管疾病等多類型專病人群隊(duì)列、罕見病人群隊(duì)列等產(chǎn)出的精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù),亟待精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)規(guī)范和集成標(biāo)準(zhǔn),促進(jìn)數(shù)據(jù)存儲、利用和共享。OMOP CDM為我國多來源、多結(jié)構(gòu)化的精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)的整合、利用提供了寶貴的思路和方法,值得研究者探索和借鑒。由于我國精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)從疾病類型、數(shù)據(jù)類型、語種、術(shù)語標(biāo)準(zhǔn)化程度等各方面均與國外的數(shù)據(jù)存在顯著差異,因此CDM模型的具體應(yīng)用可能存在以下問題。

        一是我國的精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)包括組學(xué)數(shù)據(jù)、影像數(shù)據(jù)、病理數(shù)據(jù)、體檢數(shù)據(jù)、隨訪數(shù)據(jù)等多類型數(shù)據(jù)。OMOP CDM的現(xiàn)有架構(gòu)包括患者、狀況、觀察、測量、藥物治療、隨訪等數(shù)據(jù),雖然覆蓋了其中一些數(shù)據(jù)類型,但范圍并不全面,不能很好地滿足我國精準(zhǔn)醫(yī)學(xué)數(shù)據(jù)的整合需求。二是國外的醫(yī)學(xué)術(shù)語和編碼標(biāo)準(zhǔn)相對于國內(nèi)發(fā)展快、應(yīng)用較為廣泛,而國內(nèi)醫(yī)學(xué)術(shù)語和編碼標(biāo)準(zhǔn)研發(fā)和應(yīng)用還不完善。OMOP CDM使用的標(biāo)準(zhǔn)術(shù)語均為外文標(biāo)準(zhǔn),國內(nèi)醫(yī)學(xué)數(shù)據(jù)中雖然有些直接使用英文術(shù)語和編碼,但仍有部分需要進(jìn)行中文標(biāo)準(zhǔn)轉(zhuǎn)換的數(shù)據(jù)和很多缺乏標(biāo)準(zhǔn)描述的數(shù)據(jù),這些數(shù)據(jù)無法很好地實(shí)現(xiàn)OMOP CDM的映射。三是OMOP CDM的相關(guān)工具目前僅支持進(jìn)行英文數(shù)據(jù)的轉(zhuǎn)換,不支持非英文數(shù)據(jù)的轉(zhuǎn)換,缺乏本地化映射、轉(zhuǎn)換等處理工具支持。

        4.2 建議

        針對上述問題,OMOP CDM的本地化應(yīng)用中應(yīng)注意開展以下3個(gè)方面的工作。

        4.2.1 擴(kuò)展OMOP CDM構(gòu)建數(shù)據(jù)標(biāo)準(zhǔn)化模型

        OMOP CDM最初多應(yīng)用于藥物和器械安全性的相關(guān)研究。隨著OMOP CDM的應(yīng)用領(lǐng)域逐漸擴(kuò)大,涉及了流行病學(xué)、神經(jīng)學(xué)、藥學(xué)、消化科學(xué)等多方面研究,最新版的OMOP CDM也包含了針對臨床數(shù)據(jù)、健康系統(tǒng)數(shù)據(jù)、經(jīng)濟(jì)學(xué)數(shù)據(jù)、隊(duì)列數(shù)據(jù)等多類型數(shù)據(jù)的標(biāo)準(zhǔn)模塊。但在實(shí)際應(yīng)用中,由于多源數(shù)據(jù)的復(fù)雜性,各類型的醫(yī)學(xué)數(shù)據(jù)并不能完全與OMOP CDM包含的模塊相匹配,研究人員應(yīng)詳細(xì)分析需要標(biāo)準(zhǔn)化整合的多源數(shù)據(jù)的類型、結(jié)構(gòu)、變量、變量賦值、單位、標(biāo)準(zhǔn)和編碼等,根據(jù)實(shí)際需求和提取數(shù)據(jù)共性特征構(gòu)建本地化的通用數(shù)據(jù)模型。

        4.2.2 采用和建立適用的醫(yī)學(xué)術(shù)語和編碼標(biāo)準(zhǔn)

        OMOP CDM使用的標(biāo)準(zhǔn)術(shù)語和編碼包括藥物標(biāo)準(zhǔn)RxNorm、臨床標(biāo)準(zhǔn)SNOMED CT、手術(shù)標(biāo)準(zhǔn)ICD9-CM等,標(biāo)準(zhǔn)化術(shù)語的應(yīng)用更有助于數(shù)據(jù)的標(biāo)準(zhǔn)化和互操作。我國術(shù)語和編碼標(biāo)準(zhǔn)化的建設(shè)一直落后于國際水平,由于語種、標(biāo)準(zhǔn)適用性和應(yīng)用性問題,國內(nèi)醫(yī)學(xué)數(shù)據(jù)在標(biāo)準(zhǔn)方面的突出問題主要是缺乏標(biāo)準(zhǔn)規(guī)范的應(yīng)用、國際標(biāo)準(zhǔn)本地化問題[18]、適合我國醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)的制定不足等。種種原因?qū)е禄贠MOP CDM進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí),無法基于已有工具開展標(biāo)準(zhǔn)的映射,單純基于不同語種的術(shù)語翻譯會影響映射準(zhǔn)確性。因此,除需要在數(shù)據(jù)創(chuàng)建時(shí)促進(jìn)醫(yī)學(xué)術(shù)語和編碼標(biāo)準(zhǔn)的應(yīng)用外,還迫切需要建立適用于我國研究現(xiàn)狀的醫(yī)學(xué)術(shù)語和編碼標(biāo)準(zhǔn)以及建立多語種對照,以適應(yīng)我國醫(yī)學(xué)數(shù)據(jù)集成整合和與國際多源醫(yī)學(xué)數(shù)據(jù)的集成整合。

        4.2.3 研發(fā)本地化數(shù)據(jù)標(biāo)準(zhǔn)化模型轉(zhuǎn)換工具

        目前與OMOP CDM相關(guān)的研究工作多集中于美國、歐洲等地的數(shù)據(jù)庫,OHDSI提供的可應(yīng)用于ETL過程的轉(zhuǎn)換工具也都只能進(jìn)行英文數(shù)據(jù)的轉(zhuǎn)換。2016年,OHDSI在我國建立分部,通過利用數(shù)據(jù)科學(xué)和信息學(xué)方法,促進(jìn)我國健康醫(yī)療數(shù)據(jù)的集成整合的研究。但是想要有效推進(jìn)OMOP CDM模型更廣泛地應(yīng)用,有待更多研究者結(jié)合我國的實(shí)際情況,對現(xiàn)有的OMOP CDM以及相關(guān)研究方法和工具進(jìn)行拓展和本地化,建立適用于中文的醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換工具,開展中文醫(yī)學(xué)數(shù)據(jù)的整合和集成實(shí)踐。

        5 結(jié)語

        我國在醫(yī)學(xué)數(shù)據(jù)的整合方面尚未形成統(tǒng)一的數(shù)據(jù)模型與標(biāo)準(zhǔn),OMOP CDM為多源異構(gòu)的醫(yī)學(xué)數(shù)據(jù)整合提供了思路和方法,值得借鑒學(xué)習(xí)。因此,本文對OMOP CDM支持多源數(shù)據(jù)轉(zhuǎn)換的總體流程和具體步驟進(jìn)行了系統(tǒng)地分析和總結(jié),梳理了存在的問題并進(jìn)行分析和提出了建議。目前,我國對OMOP CDM的研究尚處于探索階段,將模型運(yùn)用到我國精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)的匯交整合中還存在一些問題和挑戰(zhàn),今后應(yīng)注重CDM的本土化研究,將現(xiàn)有模型與我國數(shù)據(jù)整合的實(shí)際情況相結(jié)合,建立和完善我國醫(yī)學(xué)數(shù)據(jù)整合的方法和標(biāo)準(zhǔn)。

        猜你喜歡
        標(biāo)準(zhǔn)化標(biāo)準(zhǔn)研究
        2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
        FMS與YBT相關(guān)性的實(shí)證研究
        標(biāo)準(zhǔn)化簡述
        遼代千人邑研究述論
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        忠誠的標(biāo)準(zhǔn)
        美還是丑?
        標(biāo)準(zhǔn)化是綜合交通運(yùn)輸?shù)谋U稀庾x《交通運(yùn)輸標(biāo)準(zhǔn)化體系》
        中國公路(2017年9期)2017-07-25 13:26:38
        一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長中的煩惱”
        專用汽車(2016年4期)2016-03-01 04:13:43
        www.91久久| 日本二区三区在线免费| 变态另类人妖一区二区三区 | 日本午夜a级理论片在线播放| 日韩美女av一区二区三区四区| 无码国内精品人妻少妇蜜桃视频| 黑人巨大av在线播放无码| 国产精品高潮无码毛片| 久久亚洲av午夜福利精品西区| 久久一本日韩精品中文字幕屁孩 | 国产精品福利久久香蕉中文| 精品熟女av中文字幕| 亚洲av无码专区在线| 欧美日韩亚洲国产精品| 亚洲 暴爽 AV人人爽日日碰 | 求网址日韩精品在线你懂的| 天天综合天天爱天天做| 久久夜色精品国产欧美乱| 1000部拍拍拍18勿入免费视频下载| 精品亚洲一区二区99| 少妇人妻无奈的跪趴翘起| 国产三级av在线播放| 亚洲 欧美 综合 另类 中字| 中文字幕av久久激情亚洲精品| 日本人妖熟女另类二区| 国产亚洲真人做受在线观看| 久久久久国产一级毛片高清版A| 国产一区二区三区特区| 新婚人妻不戴套国产精品| 天堂无码人妻精品av一区| 色老头久久综合网老妇女| 日本一区二区三区精品不卡| 无码熟妇人妻av在线网站| 久久久受www免费人成| 天天躁日日躁狠狠躁一区| 日本高清中文一区二区三区| 一区二区三区人妻av | 色先锋资源久久综合5566| 亚洲啊啊啊一区二区三区| 国产亚洲成人精品久久| 夜夜躁狠狠躁2021|