林志平
摘要:健康醫(yī)療大數(shù)據(jù)歷經(jīng)采集、清洗加工、數(shù)據(jù)脫敏、數(shù)字標(biāo)簽等過程,根據(jù)業(yè)務(wù)應(yīng)用及決策分析需求劃分為不同主題域及數(shù)據(jù)資產(chǎn),并且通過數(shù)據(jù)血緣分析實現(xiàn)數(shù)據(jù)融合處理的可追溯。健康醫(yī)療大數(shù)據(jù)是惠及千萬居民看病就醫(yī)的重要資源,它的應(yīng)用發(fā)展將帶來健康醫(yī)療模式的深刻變化,有利于激發(fā)深化醫(yī)藥衛(wèi)生體制改革的動力和活力,提升健康醫(yī)療服務(wù)效率和質(zhì)量。
關(guān)鍵詞:健康醫(yī)療大數(shù)據(jù);治理平臺;設(shè)計
一、數(shù)據(jù)流設(shè)計
針對數(shù)據(jù)流設(shè)計,采用Lambda架構(gòu)的設(shè)計方法實現(xiàn)。將實時數(shù)據(jù)與離線批量數(shù)據(jù)結(jié)合,達(dá)到對大數(shù)據(jù)的處理,具體的設(shè)計如下:
健康醫(yī)療大數(shù)據(jù)數(shù)據(jù)通過事件觸發(fā)自動同步數(shù)據(jù),數(shù)據(jù)采集通過大數(shù)據(jù)融合治理平臺的數(shù)據(jù)集成工具完成。采集源包括生產(chǎn)庫數(shù)據(jù),歷史庫數(shù)據(jù),確保大數(shù)據(jù)融合治理平臺歸集全量業(yè)務(wù)數(shù)據(jù),保障各應(yīng)用場景的應(yīng)用。
二、數(shù)據(jù)模型設(shè)計
對于大數(shù)據(jù)融合治理平臺的數(shù)據(jù)模型設(shè)計,主要三方面內(nèi)容:數(shù)據(jù)模型的分層、數(shù)據(jù)模型主題域的劃分、數(shù)據(jù)建模規(guī)范制定。針對大數(shù)據(jù)融合治理平臺數(shù)據(jù)模型的分層主要目標(biāo)是不同的分層有不同的職責(zé)和作用,可以更方便的定位和理解數(shù)據(jù),更快速的響應(yīng)外部數(shù)據(jù)需求;其一,STG。包括原始結(jié)構(gòu)化/半結(jié)構(gòu),和非結(jié)構(gòu)化數(shù)據(jù)庫,數(shù)據(jù)來源包括HIS系統(tǒng)、LIS系統(tǒng)、PACS系統(tǒng)、全民健康信息平臺等。其二,ODS層。對于需做標(biāo)準(zhǔn)化及內(nèi)容轉(zhuǎn)換的字段,保持轉(zhuǎn)換前的內(nèi)容及轉(zhuǎn)換后的內(nèi)容。其三,DWD層。對數(shù)據(jù)按設(shè)定的數(shù)據(jù)域進(jìn)行分類,整合,清洗,形成一套標(biāo)準(zhǔn)化數(shù)據(jù)模型。其四,DWS層 。按分析對象對實體進(jìn)行數(shù)據(jù)整合,輕度匯總,算法標(biāo)簽,面向應(yīng)用提供智能數(shù)據(jù)服務(wù)。其五,ADM層。存放面向最終業(yè)務(wù)應(yīng)用的通用數(shù)據(jù),例如描述自然屬性的標(biāo)簽、描述通用行為的數(shù)據(jù)等,包括疾病庫、藥品庫、處方庫等知識庫。
數(shù)據(jù)模型主題域劃分主要包括四個主題域:當(dāng)事人、診療信息、產(chǎn)品、事件。當(dāng)事人:包括:參保人、醫(yī)療機構(gòu)等。診療信息:包括醫(yī)療門診記錄、住院記錄、特殊診療信息等。產(chǎn)品:包括醫(yī)保類型、產(chǎn)品險種等實體。事件:包括結(jié)算事件、基金結(jié)算事件等實體。需要注意的是在此過程中需要建立和維護(hù)一套有效的工作流程和規(guī)范,保證不同的邏輯數(shù)據(jù)模型設(shè)計人員能夠按照統(tǒng)一口徑進(jìn)行操作。
三、大數(shù)據(jù)融合
健康醫(yī)療大數(shù)據(jù)涉及醫(yī)療、醫(yī)保、醫(yī)藥三個領(lǐng)域的數(shù)據(jù),需要對三方面的數(shù)據(jù)進(jìn)行有效地融合,借助數(shù)據(jù)融合引擎,可以有效地從技術(shù)層面支撐醫(yī)療、醫(yī)保、醫(yī)藥的數(shù)據(jù)治理。其一,融合數(shù)據(jù)規(guī)則配置。融合數(shù)據(jù)規(guī)則配置用于實現(xiàn)多種異構(gòu)數(shù)據(jù)源的質(zhì)量校驗、通知、管理服務(wù),包括數(shù)據(jù)探查、數(shù)據(jù)對比、數(shù)據(jù)質(zhì)量監(jiān)控、SQLScan等服務(wù)內(nèi)容。其二,融合數(shù)據(jù)全景。數(shù)據(jù)全景包括全局查找數(shù)據(jù)、個人賬號管理數(shù)據(jù)和管理員配置,支持關(guān)鍵字匹配精確匹配。其三,融合數(shù)據(jù)資產(chǎn)管理。數(shù)據(jù)資源平臺里都有大量的數(shù)據(jù)表、API等各類數(shù)據(jù)資產(chǎn),融合數(shù)據(jù)資產(chǎn)管理通過數(shù)據(jù)開發(fā)加工數(shù)據(jù)后,提供對整個平臺數(shù)據(jù)進(jìn)行統(tǒng)一管控服務(wù)。根據(jù)數(shù)據(jù)資源平臺里任務(wù)的運行信息和記錄,通過分析,提供數(shù)據(jù)表、字段級別的血緣關(guān)系,包含上下游血緣、影響分析。其四,融合數(shù)據(jù)服務(wù)發(fā)布。數(shù)據(jù)服務(wù)發(fā)布旨在搭建統(tǒng)一的數(shù)據(jù)服務(wù)總線,幫助統(tǒng)一管理對內(nèi)對外的API服務(wù)。
四、大數(shù)據(jù)治理
(一)數(shù)據(jù)采集匯聚
健康醫(yī)療大數(shù)據(jù)采集需求包括醫(yī)療環(huán)節(jié)動態(tài)監(jiān)測、醫(yī)療質(zhì)量檢查與評估、質(zhì)量指標(biāo)綜合分析、傳染病、免疫規(guī)劃、疾控綜合管理等數(shù)據(jù)。
1、數(shù)據(jù)調(diào)研及數(shù)據(jù)對接
數(shù)據(jù)調(diào)研基于已明確的數(shù)據(jù)需求確定數(shù)據(jù)來源系統(tǒng)、數(shù)據(jù)來源部門、數(shù)據(jù)存儲、數(shù)據(jù)更新、數(shù)據(jù)規(guī)模等信息的過程;在這個過程中,需要跟具體部門、具體系統(tǒng)、具體負(fù)責(zé)人員進(jìn)行反復(fù)的對接,已收集獲取具體的信息,為后續(xù)的數(shù)據(jù)采集匯聚服務(wù)。
2、采集模式設(shè)計
采集模式按照對接方式分為:直接對接、數(shù)據(jù)庫抽取對接、第三方接口采集等幾種模式。(1)直接對接。由數(shù)據(jù)采集服務(wù)直接訪問各個服務(wù)接口或文件資源,實現(xiàn)與數(shù)據(jù)中心的對接或文件抽取。(2)數(shù)據(jù)庫抽取對接。對于各業(yè)務(wù)系統(tǒng)數(shù)據(jù)采用前置機數(shù)據(jù)抽取的方式進(jìn)行數(shù)據(jù)的接入。通過可視化界面完成數(shù)據(jù)庫連接所需的參數(shù)配置,包括IP、端口、數(shù)據(jù)庫類型。(3)第三方接口對接。通過接口服務(wù)與各系統(tǒng)的事件來源的各個系統(tǒng)的對接,實現(xiàn)數(shù)據(jù)統(tǒng)一渠道接收。
3、數(shù)據(jù)采集監(jiān)控與管理
提供整體運行狀態(tài)監(jiān)控,最終實現(xiàn)運行狀態(tài)的查看與控制,包括采集基本信息、采集結(jié)果、采集數(shù)據(jù)質(zhì)量、采集異常信息。對采集的基本信息進(jìn)行監(jiān)控,基本信息項包括由誰什么時候發(fā)起的采集。
數(shù)據(jù)采集管理,旨在確保采集的質(zhì)量以及采集穩(wěn)定性,而圍繞采集各個環(huán)節(jié)進(jìn)行針對性的管控,實現(xiàn)對數(shù)據(jù)采集過程、采集結(jié)果全方位管控,數(shù)據(jù)可追溯,質(zhì)量可控制。
(二)數(shù)據(jù)清洗加工及共享
對數(shù)據(jù)源中數(shù)據(jù)重復(fù)、不正確、不完整、不標(biāo)準(zhǔn)、不一致的問題,制定數(shù)據(jù)清洗加工規(guī)則,進(jìn)行數(shù)據(jù)清洗加工,實現(xiàn)數(shù)據(jù)質(zhì)量提升。
數(shù)據(jù)共享服務(wù)的核心是構(gòu)建跨部門、跨業(yè)務(wù)板塊的數(shù)據(jù)資源共享和數(shù)據(jù)交換,主要包括數(shù)據(jù)資源編目、數(shù)據(jù)資源目錄管理以及數(shù)據(jù)接口服務(wù)。
數(shù)據(jù)資源編目實現(xiàn)對各部門共享數(shù)據(jù)的盤查,以支持信息資源的交換與共享,包括醫(yī)療、醫(yī)保、醫(yī)藥數(shù)據(jù)資源編目等。
數(shù)據(jù)資源目錄體系通過編目、編審、注冊、發(fā)布、維護(hù)、訂閱數(shù)據(jù)資源目錄內(nèi)容,實現(xiàn)數(shù)據(jù)資源管理、發(fā)現(xiàn)與定位。
構(gòu)建數(shù)據(jù)接口規(guī)范,規(guī)定數(shù)據(jù)訪問、接口的定義、數(shù)據(jù)格式等內(nèi)容。
(三)數(shù)據(jù)脫敏及標(biāo)簽
數(shù)據(jù)脫敏對某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。如身份證號、手機號、卡號、姓名等個人信息都需要進(jìn)行數(shù)據(jù)脫敏。
數(shù)據(jù)標(biāo)簽是基于業(yè)務(wù)場景創(chuàng)建、用于服務(wù)內(nèi)部和外部的數(shù)據(jù)服務(wù)需求,基于標(biāo)簽體系進(jìn)行多維度分析實現(xiàn)對于目標(biāo)群體的精準(zhǔn)定位,如高齡產(chǎn)婦群體、特定傳染病患者群體等。
參考文獻(xiàn)
[1]郭建. 健康醫(yī)療大數(shù)據(jù)應(yīng)用中的倫理問題及其治理思考[J]. 自然辯證法研究,2020,385(03):87-92.
[2]俞成功,丁靜. 基于區(qū)塊鏈的健康醫(yī)療大數(shù)據(jù)平臺構(gòu)建[J]. 電子技術(shù)與軟件工程,2020,176(06):182-185.