龍思哲 吳震天 黎鵬安 張敦明 王 毅 周 毅
(中山大學附屬第一醫(yī)院信息數(shù)據(jù)中心 廣州 510080) (中山大學中山醫(yī)學院 廣州 510080)
張武軍
(中山大學附屬第一醫(yī)院信息數(shù)據(jù)中心 廣州 510080)
2016年6月國務院辦公廳發(fā)布的《關(guān)于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應用發(fā)展的指導意見》提出,健康醫(yī)療大數(shù)據(jù)是國家重要的基礎(chǔ)性戰(zhàn)略資源,要大力推動政府健康醫(yī)療信息系統(tǒng)和公眾健康醫(yī)療數(shù)據(jù)互聯(lián)融合、開放共享,消除信息孤島,積極營造促進健康醫(yī)療大數(shù)據(jù)安全規(guī)范、創(chuàng)新應用的發(fā)展環(huán)境[1]。2021年6月發(fā)布的《關(guān)于推動公立醫(yī)院高質(zhì)量發(fā)展的意見》指出,醫(yī)院應加強臨床專科建設(shè),以專科發(fā)展帶動診療能力和水平提升;推進醫(yī)學技術(shù)創(chuàng)新,加強基礎(chǔ)和臨床研究;強化信息化支撐作用,推動大數(shù)據(jù)等新一代信息技術(shù)與醫(yī)療服務深度融合[2]。隨著健康醫(yī)療大數(shù)據(jù)價值凸顯,基于真實世界數(shù)據(jù)的臨床研究成為醫(yī)學高質(zhì)量發(fā)展新動力[3]。醫(yī)院信息系統(tǒng)是???、專病數(shù)據(jù)的重要來源。以往系統(tǒng)建設(shè)以業(yè)務流程為導向,信息標準化程度、互聯(lián)互通成熟度不足,產(chǎn)出數(shù)據(jù)質(zhì)量難以保證,給專病數(shù)據(jù)庫的建設(shè)和臨床研究帶來巨大挑戰(zhàn)[4-5]。中山大學附屬第一醫(yī)院(以下簡稱中山一院)是國家衛(wèi)生健康委員會部屬大型三甲綜合醫(yī)院,2017年建設(shè)的基于衛(wèi)生信息交換平臺(Healhcare Information Exchange, HIE)[6]的臨床數(shù)據(jù)中心(Clinical Data Repository,CDR),已匯入2003年至今約155萬份住院病歷,包括住院病案首頁、電子病歷文書、檢查、檢驗、病理、醫(yī)囑、護理記錄、用血記錄等。2020年起啟動專病數(shù)據(jù)庫建設(shè),通過全周期治理,逐步解決數(shù)據(jù)標準不統(tǒng)一、采集低效、精準度不足、質(zhì)量無法核查和溯源等問題,形成長期持續(xù)、動態(tài)實時、初具規(guī)模、日趨完善的數(shù)據(jù)資產(chǎn)積累,構(gòu)建統(tǒng)一化、標準化、結(jié)構(gòu)化、可視化的專病數(shù)據(jù)庫,加速臨床病例資源到醫(yī)學研究資產(chǎn)轉(zhuǎn)化[7-8]。
目前國內(nèi)尚無統(tǒng)一的醫(yī)學術(shù)語標準,且部分標準存在缺乏整體概念體系、結(jié)構(gòu)化定義不清、覆蓋面不全等問題,為建立與需求相適應的標準化歸集體系,專病數(shù)據(jù)庫集成醫(yī)學系統(tǒng)命名法-臨床術(shù)語(Systematized Nomenclature of Medicine Clinical Terms,SNOMED CT),觀測指標標識符邏輯命名與編碼系統(tǒng)(Logical Observation Identifiers Names and Codes,LOINC(R)),中文人類表型標準用語(The Chinese Human Phenotype Ontology,CHPO),RxNorm,國際疾病分類第9次、第10次修訂本(International Classification of Disease V9,ICD-9/10)等數(shù)據(jù)標準[9],定義臨床術(shù)語本體中的重要概念類、類之間關(guān)系、類屬性及屬性分面。建立術(shù)語間關(guān)系,在相同條件下具有同義關(guān)系的術(shù)語賦予唯一代碼,實現(xiàn)多源數(shù)據(jù)互聯(lián)互通。
2.2.1 抽取-轉(zhuǎn)換-加載(Extract Transform Load,ETL) 應用ETL技術(shù)快速接收業(yè)務系統(tǒng)大量數(shù)據(jù),減少數(shù)據(jù)采集對生產(chǎn)業(yè)務系統(tǒng)的影響,實現(xiàn)多個數(shù)據(jù)源的同時統(tǒng)一采集,避免數(shù)據(jù)轉(zhuǎn)換系統(tǒng)對數(shù)據(jù)源的直接操作,同時進行清洗和標準化操作,包括數(shù)據(jù)字段映射、字典轉(zhuǎn)換、跨域主索引患者主索引(Enterprise Master Patient Index,EMPI)、數(shù)據(jù)校驗等步驟。
2.2.2 交互管理 表視圖查詢方式便于接口開通和維護,數(shù)據(jù)入庫效率快,平臺主要通過其實現(xiàn)與院內(nèi)生產(chǎn)系統(tǒng)的數(shù)據(jù)對接;Web Service對接方式較固化,傳輸安全性能較高,更多應用于隱秘性較強的數(shù)據(jù)對接通道構(gòu)建;部分數(shù)據(jù)可通過備份庫在業(yè)務數(shù)據(jù)倉庫(Operational Data Store,ODS)直接還原,適用于獲取歷史數(shù)據(jù),但增量數(shù)據(jù)同步效率受限。綜合考慮時效性、安全性、統(tǒng)一管理等因素,目前主要采用Web Service、消息推送進行不同類型數(shù)據(jù)的交互。
2.2.3 同步機制 數(shù)據(jù)同步時間一般根據(jù)需求分T+0、T+1、T+N等,不同模塊、類型的增量數(shù)據(jù)對接方式、對接頻率可差異化處理,如患者基線數(shù)據(jù)、基礎(chǔ)診療信息實時推送;檢查、檢驗、病理數(shù)據(jù)由于存在滯后或延時,考慮在實時推送基礎(chǔ)上增加定期遍歷搜索前一時段內(nèi)該部分數(shù)據(jù)的功能,保證患者信息完整性。
專病原始數(shù)據(jù)來自多個信息系統(tǒng),包括醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)、檢驗信息系統(tǒng)(Laboratory Information System,LIS)、醫(yī)學影像存儲與傳輸系統(tǒng)(Picture Archiving and Communication System,PACS)、病案、電子病歷、手術(shù)麻醉等業(yè)務數(shù)據(jù)。通過梳理患者全診療過程產(chǎn)生的業(yè)務數(shù)據(jù),形成15個標準的業(yè)務域分類和221個標準的檢索項,見圖1。標準業(yè)務域主要包括人口學信息、就診信息、診斷信息、一般檢驗、微生物檢驗、檢查報告、醫(yī)囑記錄、中醫(yī)藥方、門急診病歷、住院所有病歷、入院記錄、出院記錄、手術(shù)記錄、病案手術(shù)、生命體征,還可根據(jù)需求進行擴展,新增重癥監(jiān)護、腫瘤放化療、生物樣本庫、生物信息多組學、隨訪隊列等[10]。
圖1 專病通用數(shù)據(jù)集
2.4.1 患者主索引 以往醫(yī)院患者的門急診號、住院號單獨設(shè)置,給同一患者專病數(shù)據(jù)的整合帶來困難[11],需完善院內(nèi)患者主索引。完成標識字段治理,如身份證號、聯(lián)系電話等規(guī)范化處理或清洗,地址的歸一或截取,數(shù)據(jù)去冗歸一,以便EMPI判斷更精準;通過設(shè)定主索引權(quán)重和閾值,判定多條患者數(shù)據(jù)是否歸屬同一個EMPI,見圖2。針對判定失敗的患者可暫緩輪循,直至一段時間后再度執(zhí)行輪循匹配,反復完善。
圖2 患者主索引設(shè)置
2.4.2 診療流程融合 梳理專病數(shù)據(jù)集-診療活動、時序邏輯-數(shù)據(jù)采集來源的對應關(guān)系,以關(guān)鍵事件的發(fā)生時間為標志,形成患者診療時間軸,實現(xiàn)數(shù)據(jù)邏輯有序排列。以特定展示、查詢方式回嵌業(yè)務系統(tǒng),用于復診、隨訪等業(yè)務場景,見圖3。由于不同數(shù)據(jù)源的時間跨度不同,不同事件之間有復雜的時序邏輯,需分層次整合不同時間顆粒度的數(shù)據(jù),利于在后續(xù)分析中,通過特點指標回顧或預測患者轉(zhuǎn)歸或預后,為優(yōu)化專病診療路徑提供依據(jù)[12-14]。
圖3 專病診療流程融合(以腫瘤為例)
參照診斷、手術(shù)、藥品、檢查檢驗項目等數(shù)據(jù)標準和項目編碼目錄,通過自然語言的同義詞表、醫(yī)學術(shù)語的同義關(guān)聯(lián)詞表,在數(shù)據(jù)挖掘算法指導下,對文字表達不同但含義相對一致的字段信息進行歸一,為后續(xù)和上層應用提供正確且統(tǒng)一的信息表達。以標準表為基準,將數(shù)據(jù)實際出現(xiàn)的醫(yī)療詞向標準表做映射,包括機器學習加人工標注的過程。當出現(xiàn)標準表難以覆蓋實際數(shù)據(jù)時,由專業(yè)醫(yī)師決定是否擴充標準表。
2.6.1 后結(jié)構(gòu)化 針對歷史文本類數(shù)據(jù),運用自然語言處理(Natural Language Processing,NLP)技術(shù)分析文本隱含語義和上下文結(jié)構(gòu)關(guān)系[15],發(fā)現(xiàn)和挖掘結(jié)構(gòu)化所需的知識模塊,主要包括分詞、同義詞、主題和屬性詞關(guān)系圖譜、上下文匹配邏輯、規(guī)則庫、正則模板等[16-17]。首先,進行專病文本自主學習、自動標注,計算準確率、召回率;其次,自動標注不理想的數(shù)據(jù)元,篩選由近及遠的標準病例,由臨床醫(yī)師人工標注;再次,進行機器學習并建模,增加樣本量迭代完善標注模型;最后,標注結(jié)果人工審核,不斷迭代完善,滿足專病不同語料數(shù)據(jù)要求[18]。
2.6.2 前結(jié)構(gòu)化 一般規(guī)律、有效信息的密度越高數(shù)據(jù)前結(jié)構(gòu)化的價值越高、應用效果越好。主要針對病歷文書、醫(yī)技檢查報告、功能評分量表等文本的增量數(shù)據(jù),進行前瞻性結(jié)構(gòu)化采集、存儲和預處理,見表1。前結(jié)構(gòu)化改造由專病科室發(fā)起,涉及檢查報告的還需聯(lián)合醫(yī)技科室共同設(shè)計模板、數(shù)據(jù)采集、運算邏輯、觸發(fā)場景等,滿足臨床科研數(shù)據(jù)精準、精細的應用要求。
表1 前結(jié)構(gòu)化改造范疇
通過優(yōu)化業(yè)務流程、完善接口性能,保障數(shù)據(jù)完整性;設(shè)置數(shù)據(jù)錄入規(guī)則、邏輯校驗機制等保障準確性;以患者號(住院號、門診卡號)為第1維度,就診流水號為第2維度,強化業(yè)務數(shù)據(jù)關(guān)聯(lián)性;核查字典值域范疇,完善字典版本管理,約定業(yè)務數(shù)據(jù)流向,保障數(shù)據(jù)一致性;判斷時間邏輯關(guān)系、同步機制,保障及時性。此外還有規(guī)范性、唯一性等控制指標,缺失值、無效值、重復值等異常發(fā)現(xiàn)與處理。
設(shè)置權(quán)限管理模塊,根據(jù)合法合規(guī)、最小需求原則為用戶分配不同的角色、用戶組,防止用戶越級操作造成數(shù)據(jù)泄露;對信息更改等重要操作進行日志自動記錄,提供用戶名、訪問記錄、IP、登錄時間、操作內(nèi)容等用于回溯;針對敏感級別較高的數(shù)據(jù)采用加密或安全傳輸協(xié)議進行處理,對敏感字段的操作應有日志或報表供審核,嚴格控制對敏感數(shù)據(jù)的復制、導出等功能[19]。
3專病數(shù)據(jù)庫核心功能
根據(jù)研究目的創(chuàng)建科研項目,自定義研究隊列納入和排除條件;根據(jù)條件進行檢索,利用原文檢索、高級檢索及條件樹檢索進行模糊檢索或精確查詢;根據(jù)檢索到的病例對接院內(nèi)患者全息展示,基于結(jié)構(gòu)化內(nèi)容進行視圖展示,核查圈定研究對象;從病種數(shù)據(jù)映射,自定義衍生變量,形成所需的臨床實驗觀察表(Case Report Form,CRF)數(shù)據(jù)項變量;進一步核查所篩選的數(shù)據(jù)是否符合要求,經(jīng)必要的審核流程后,以多種形式導出,供后續(xù)統(tǒng)計分析[20]。
支持按照患者的門診、住院就診時序逐個展示單個就診次序下的患者全量診療信息,內(nèi)容包括基本概覽、病歷、醫(yī)囑、檢驗、檢查、量表、護理等信息。展示患者核心指標信息及對應的疾病信息,實現(xiàn)患者個人畫像視圖構(gòu)建,方便臨床科研人員更直接查看患者總體診療情況,輔助臨床科研入組判斷。
根據(jù)隨訪目的創(chuàng)建隨訪項目,自定義隊列納入和排除條件;根據(jù)患者身份證或就診卡號進行檢索,識別目標隨訪用戶;通過簽署知情同意書、授權(quán)書等將患者納入隨訪隊列進行后續(xù)隨訪計劃安排;根據(jù)隨訪隊列的研究需求制定隨訪表單,并對隨訪進行預警分析和干預;制定失訪等特殊事件的管理策略和處理流程,隨訪完成的問卷數(shù)據(jù)按權(quán)限申請導出下載,見表2。
表2 專病數(shù)據(jù)庫通用功能
截至2021年末中山一院已開展20個專病數(shù)據(jù)庫建設(shè),入庫病例數(shù)超過50萬份,60多位專病醫(yī)師、研究助理通過專病數(shù)據(jù)庫進行真實世界數(shù)據(jù)探索,已支撐多項回顧性、前瞻性臨床研究,將推動科學研究和臨床工作的規(guī)范化、標準化、規(guī)?;?,進一步提升專病臨床研究能力,反哺和促進學科發(fā)展。通過專病數(shù)據(jù)庫建設(shè)實踐,發(fā)現(xiàn)業(yè)務系統(tǒng)、集成平臺在數(shù)據(jù)標準、交互機制等方面存在的不足,需加強臨床科室、管理部門、信息部門、承建商的高效溝通協(xié)作。下一步將繼續(xù)以專病需求為導向、問題為切入點,推進數(shù)據(jù)治理的標準化、規(guī)范化、合理化落地,逐步構(gòu)建基于專病數(shù)據(jù)資產(chǎn)的綜合治理體系。對數(shù)據(jù)庫功能進行迭代和擴展,形成院前-院中-院后的專病全程閉環(huán)管理;建立院級科研數(shù)據(jù)中心,依托多中心共享平臺完善專病區(qū)域聯(lián)盟的數(shù)據(jù)資源合規(guī)共享和多元應用,共同構(gòu)建我國疾病診療規(guī)范。