阮彤 邱加輝
醫(yī)療健康大數據與人工智能呈蓬勃發(fā)展的態(tài)勢。一方面,醫(yī)院互聯互通、國家與省市大數據中心的建設,為醫(yī)療健康大數據奠定了良好的基礎;另一方面,個性化診斷、疾病預測與輔助決策支持系統(tǒng)等各類醫(yī)療人工智能應用不斷涌現。
構建主數據管理庫
醫(yī)療數據的主數據主要有病人信息和醫(yī)生信息兩類。目前,在醫(yī)院層面,各業(yè)務系統(tǒng)對病人的信息分別進行存儲,但大型醫(yī)院都建立了臨床數據中心,為了唯一標識一個病人,需要通過構建病人主索引號將存儲于不同系統(tǒng)的病人關聯在一起。這里有兩個問題需要解決。第一,如何構建EMPI。識別不同系統(tǒng)中同一個病人不同ID之間的映射關系十分困難,特別是在區(qū)域平臺上每個系統(tǒng)都有獨立的ID,導致這個問題更復雜了。第二,一個病人的基礎信息可能同時存在于醫(yī)院信息系統(tǒng)、實驗室信息管理系統(tǒng)和影像存儲與傳輸系統(tǒng)等系統(tǒng)中。而各系統(tǒng)的側重點不同,難免會造成數據填寫質量不一致或數據未及時更新等問題。
為此,需要在定義系統(tǒng)主數據的情況下,構建主數據管理中央庫,解決主數據碎片問題??梢詮母鳂I(yè)務系統(tǒng)抽取數據,并進行數據融合,形成完備的主數據信息,然后再將主數據信息分發(fā)給各業(yè)務系統(tǒng),保證各業(yè)務系統(tǒng)中這些信息的準確性和完整性。這樣就形成了公共的重要屬性由主數據管理系統(tǒng)管理、各業(yè)務系統(tǒng)的特色 屬性由各系統(tǒng)獨立管理的模式。
在構建主數據管理庫時,首先需要從多個異構的業(yè)務子系統(tǒng)中以ETL的方式抽取關鍵數據,然后,利用元數據庫 對其中的編碼、描述進行標準化。接著,由于多個業(yè)務系統(tǒng)的數據可能不一致,還需要通過匹配算法完成對數據的錯誤消除和信息融合。對于匹配不到的孤立信息,要加以監(jiān)控跟蹤,進行人工處理。同時,以增量學習的方式不斷改進匹配算法。最后,將歸整好的主數據信息存入主數據庫。
在這些主數據管理的基礎服務之上,還可以提供諸如患者畫像等高級功能。目前患者就診時,醫(yī)生僅能夠通過患者自述的方式快速了解慢性病史、過敏史等信息。盡管可以查閱歷史檔案,但對于醫(yī)生來說很不方便。而通過對診斷等數據的分析,可以形成患者慢性病、過敏史的標注信息,將這些信息合并到病人的主數據中形成患者畫像?;颊呔驮\時醫(yī)生可以直接讀取到這些標注信息,從而準確、快速地獲取必要信息。
數據質量管控子系統(tǒng)
從數據產生過程來看,醫(yī)療數據質量問題主要來源于3個方面。
一是原始信息采集有誤差。在醫(yī)療系統(tǒng)內數據采集主要通過手工方式錄入,在醫(yī)生或護士輸入信息的過程中,可能會有意或無意地將數據錯誤引入系統(tǒng)。二是數據融合過程發(fā)生問題。在對不同來源的數據進行融合時,數據格式和語義可能會有誤差或不一致,導致融合結果有錯 。三是與數據的應用場景不匹配。
因此,在醫(yī)療數據治理流程中,需要了解最終的使用場景,也需要從業(yè)務系統(tǒng)的數據源頭控制質量,并保證每個融合和加工過程的正確性。另外,當發(fā)現錯誤的時候,可以實現自動或半自動的修正。因此,質量管控平臺包括了數據質量實時監(jiān)控、數據質量后評估以及數據的自動修正。數據質量實時監(jiān)控主要針對從業(yè)務系統(tǒng)抽取的或是從外部傳送的接口數據,通常從及時性、有效性和完整性等幾個指標監(jiān)測接口內容本身的數據質量問題,還需要對采集程序進行監(jiān)控,如接口采集程序是否正常啟動、是否正常結束等。數據質量后評估是指對融合后的數據進行質量評估。首先從確定評價對象和范圍著手,然后選取數據質量維度及評價標準,確定質量測度及評價方法,之后按照配置的評估指標執(zhí)行評估,產生權重化的評估結果,最后生成質量結果和報告。
醫(yī)療大數據
治理標準與治理能力評估
在單獨的業(yè)務系統(tǒng)以及數據互聯互通方面,國家衛(wèi)生健康委員會已建立了相應的標準。但是,在醫(yī)療大數據方面,還缺乏專門的標準。需要特別指出的是,數據標準包含病人、醫(yī)生、醫(yī)院等主數據標準,也包含檢查、疾病、用藥等數據值標準。數據標準還需要對不同的醫(yī)療行為進行標準化的描述。為了便于人工智能應用,對于文本數據和影像數據,也應有相應的標注規(guī)范。由于不同??菩枰臄祿侄斡胁顒e,有可能會進一步制定??埔?guī)范。總而言之,標準體系包含了相互關聯的多個標準,覆蓋面廣,種類眾多,標準的建設不是一蹴而就的。
除了醫(yī)療大數據治理標準外,值得一提的是醫(yī)療數據治理能力評估規(guī)范。數據治理能力評估規(guī)范可以考察企業(yè)對數據的管理能力,通過對企業(yè)的評估,可以逐步提高企業(yè)的數據治理能力。該評估標準經過修改后也可以用在醫(yī)療領域。
國內最早啟動相關研究的機構是全國信息技術標準化技術委員會,該機構于2014年開始開展相關的研究,并在2018年3月15日頒布了國家標準《數據管理能力成熟度評估模型》(GB/T 36073-2018)。該標準可以用于評估不同行業(yè)的企業(yè)的數據管理制度、手段、方法以及相關能力。《標準》從8個關鍵過程域考察了企業(yè)管理數據的能力。過程域和過程項包括:數據戰(zhàn)略(數據戰(zhàn)略框架、數據戰(zhàn)略實施、數據戰(zhàn)略評估、數據任務效益評估)、數據治理(數據治理組織、數據制度建設、數據治理溝通)、數據架構(組織數據模型、數據分布與整合、數據共享與應用服務、元數據管理)、數據應用(數據分析、數據開放共享、數據服務)、數據安全(數據安全策略、數據安全保護、數據安全審計)、數據質量(數據質量需求、數據質量檢查、數據質量分析、數據質量提升)、數據標準(業(yè)務術語、參考數據和主數據、數據元、指標數據)、數據生命周期(數據需求、數據設計與開發(fā)、數據運維、數據退役)。評價方法主要采用評價問卷和調研訪談兩種。評價問卷是根據數據能力成熟度模型定義每個域的評價指標,并對各個指標進行加權平均,計算自評結果。調研訪談則是根據重點問題,對相關單位人員進行輸入了解,準備評估數據能力的真實情況。上述成熟度評價模型都將成熟度定義為5個等級。以國家標準GB/T 36073-2018為例,5個等級被定義為:初始級、受管理級、穩(wěn)健級、量化管理級和優(yōu)化級。其中,初始級是指對數據需求的管理主要在項目級體現,沒有統(tǒng)一的管理流程,是一種被動的管理;受管理級是指組織已經意識到數據是資產,根據管理策略的要求制定了管理流程,指定了相關人員進行初步管理;穩(wěn)健級是指數據已經被當做實現組織績效目標的重要資產,在組織層面制定了系列標準化管理流程,促進數據管理的規(guī)范化;量化管理級是指數據被認為是獲取競爭優(yōu)勢的重要資源,數據管理的效率能夠被量化分析和監(jiān)控;優(yōu)化級是指數據被認為是組織生存的基礎,相關管理流程能夠實時優(yōu)化,能夠在行業(yè)內進行最佳實踐的分享。
目前大多數醫(yī)療機構的數據治理能力至多在受管理級,即把數據當作重要資產,進行了初步的數據集成工作,制定了一定的管理流程。但是,還遠遠未達到穩(wěn)健級,目前的數據管理流程還遠遠沒有達到標準化階段,無法滿足數據管理及應用能結合組織的業(yè)務戰(zhàn)略需求、經營管理需求以及監(jiān)管需求。
醫(yī)療數據治理是一個“修高速公路”的過程,人工智能和大數據挖掘應用是“跑車”。修路是一個基礎設施建設,需要大量的投入,而且不會快速產生效果。但是,若沒有成功的數據治理,數據可用性就會有問題,現有的人工智能和大數據挖掘算法的效率和有效性就會打折扣。因此,各級醫(yī)療機構和醫(yī)療管理部門應投入人力物力,建立有效的數據治理機制,保障國家人工智能和大數據戰(zhàn)略的有效實施。