馮晨陽 劉迷迷 劉 強(qiáng)
(中山大學(xué)腫瘤防治中心廣州 510006) (中山大學(xué)中山醫(yī)學(xué)院廣州 510080) (醫(yī)渡云(北京)技術(shù)有限公司廣州 510006)
何仲廉 周 毅 李超峰
(中山大學(xué)腫瘤防治中心廣州 510006) (中山大學(xué)中山醫(yī)學(xué)院廣州 510080) (中山大學(xué)腫瘤防治中心廣州 510006)
隨著大數(shù)據(jù)、人工智能等新興技術(shù)的發(fā)展,醫(yī)療行業(yè)數(shù)據(jù)量呈爆炸式增長。政府部門、醫(yī)療機(jī)構(gòu)已逐漸意識到數(shù)據(jù)作為一種資產(chǎn)的重要性及其蘊含的巨大價值[1]。醫(yī)療大數(shù)據(jù)是指醫(yī)療行業(yè)中日積月累產(chǎn)生的數(shù)據(jù)[2],具有類型繁雜、多源異構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)占比高等特點,對數(shù)據(jù)利用帶來挑戰(zhàn)[3]。要開展數(shù)據(jù)治理工作應(yīng)先了解所存在問題,對數(shù)據(jù)質(zhì)量做全面性評價。目前針對醫(yī)院數(shù)據(jù)質(zhì)量評價的標(biāo)準(zhǔn)和體系研究已較為成熟,其中大多數(shù)研究均將數(shù)據(jù)完整性、一致性、規(guī)范性、準(zhǔn)確性、時效性作為評價數(shù)據(jù)質(zhì)量的重要維度[4-5]。但在醫(yī)院信息化項目的實踐過程中發(fā)現(xiàn),基于醫(yī)療業(yè)務(wù)流程的復(fù)雜性、不同機(jī)構(gòu)的信息系統(tǒng)差異性,不同醫(yī)療機(jī)構(gòu)存在的數(shù)據(jù)問題和治理的側(cè)重點均不同,如何將標(biāo)準(zhǔn)化的評價模型與院內(nèi)實際情況相結(jié)合,從而因地制宜對院內(nèi)數(shù)據(jù)質(zhì)量進(jìn)行客觀真實評價是值得探討的問題。本文將中山大學(xué)腫瘤防治中心(以下簡稱中腫)基于醫(yī)療大數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)質(zhì)量評價及監(jiān)管的應(yīng)用情況進(jìn)行闡述,并提出相關(guān)思考和建議。
大數(shù)據(jù)平臺基于分布式技術(shù)架構(gòu),在不影響業(yè)務(wù)系統(tǒng)的前提下,將包括醫(yī)院信息系統(tǒng)(Hospital Information System,HIS),電子病歷(Electronic Medical Record,EMR),檢驗信息系統(tǒng)(Laboratory Information System,LIS),醫(yī)學(xué)影像存儲與傳輸系統(tǒng)(Picture Archiving and Communication System,PACS)等在內(nèi)的多個系統(tǒng)數(shù)據(jù)整合到標(biāo)準(zhǔn)的數(shù)據(jù)模型,形成患者維度和就診維度的全景數(shù)據(jù)。同時,大數(shù)據(jù)平臺通過自然語言處理(Natural Language Processing,NLP)技術(shù)將醫(yī)院內(nèi)業(yè)務(wù)系統(tǒng)產(chǎn)生的原始醫(yī)療文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。大數(shù)據(jù)平臺整體框架,見圖1。
圖1 大數(shù)據(jù)平臺整體框架
2.1.1 數(shù)據(jù)匯聚采集 在醫(yī)院內(nèi)網(wǎng)環(huán)境配置數(shù)據(jù)同步前置機(jī),通過OGG和發(fā)布訂閱等數(shù)據(jù)庫同步技術(shù),實現(xiàn)院內(nèi)臨床診療、醫(yī)技等多源異構(gòu)數(shù)據(jù)全量接入,支持以T+0/T+1/T+7等不同頻度進(jìn)行更新和調(diào)度。匯聚來自HIS、EMR、LIS、PACS、護(hù)理、病理、超聲、放療、手麻、重癥、內(nèi)鏡、心電圖、生物樣本庫、體檢、肺功能等系統(tǒng)的業(yè)務(wù)數(shù)據(jù)。同時前置機(jī)同步時會采用數(shù)據(jù)加密標(biāo)準(zhǔn)(Data Encryption Standard,DES)加密算法對患者姓名、身份證號、電話、地址等敏感信息進(jìn)行脫敏處理,見圖2。
圖2 數(shù)據(jù)庫同步
2.1.2 數(shù)據(jù)處理加工 (1)數(shù)據(jù)清洗。對數(shù)據(jù)進(jìn)行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正錯誤并保證數(shù)據(jù)一致性。一致性檢查是根據(jù)每個變量的合理取值范圍和相互關(guān)系檢查數(shù)據(jù)是否合乎要求,是否存在超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù),如無效值和缺失值、殘缺數(shù)據(jù)、錯誤數(shù)據(jù)、重復(fù)數(shù)據(jù)等。(2)患者主索引(Enterprise Master Patient Index,EMPI)合并和關(guān)聯(lián)。通過 EMPI整合患者歷次就診數(shù)據(jù),建立患者維度數(shù)據(jù)集。根據(jù)患者身份證號、就診卡號等可直接確認(rèn)患者身份的數(shù)據(jù)字段做就診關(guān)聯(lián)并生成EMPI患者唯一標(biāo)識。當(dāng)無法直接確認(rèn)患者身份時,根據(jù)姓名、性別、出生日期、身份證號等數(shù)據(jù)并通過EMPI算法規(guī)則判斷是否為同一患者。通過EMPI可將患者單次檢查或檢驗、就診維度進(jìn)行關(guān)聯(lián)。(3)標(biāo)準(zhǔn)化歸一?;谙嚓P(guān)指南和行業(yè)等標(biāo)準(zhǔn),如藥品詞典規(guī)范解剖學(xué)、治療學(xué)及化學(xué)分類系統(tǒng)(Anatomical Therapeutic Chemical,ATC)[6]、電子病歷基本架構(gòu)與數(shù)據(jù)標(biāo)準(zhǔn)[7]、衛(wèi)生信息基本數(shù)據(jù)集編制規(guī)范[8],對院內(nèi)采集匯聚的診斷、手術(shù)、藥品、檢驗、檢查等臨床診療和醫(yī)技相關(guān)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。通過自然語言的同義詞表、醫(yī)學(xué)術(shù)語的同義關(guān)聯(lián)詞表,在數(shù)據(jù)挖掘算法指導(dǎo)下對不同文字表達(dá)但含義相對的字段信息進(jìn)行歸一,為后續(xù)應(yīng)用提供正確且統(tǒng)一的信息表達(dá)。(4)數(shù)據(jù)結(jié)構(gòu)化。院內(nèi)采集匯聚的數(shù)據(jù)中病歷文書、護(hù)理記錄、檢查所見、檢查結(jié)論等醫(yī)療數(shù)據(jù)存在較多非結(jié)構(gòu)化或半結(jié)構(gòu)化記錄。大數(shù)據(jù)平臺通過自然語言處理技術(shù),結(jié)合醫(yī)療專業(yè)術(shù)語的語義結(jié)構(gòu),將醫(yī)療語義信息從原始自然語言表達(dá)擴(kuò)展分析為結(jié)構(gòu)化的Key-Value模式,對數(shù)據(jù)依據(jù)主題字段進(jìn)行劃分。數(shù)據(jù)治理針對電子病歷、影像檢查報告、手術(shù)記錄、臨床診斷等10類記錄進(jìn)行結(jié)構(gòu)化處理,覆蓋常規(guī)的檢驗、檢查、癥狀、疾病生命體征、家族史、婚育史、過敏史、手術(shù)、病理、藥品醫(yī)囑等臨床字段數(shù)據(jù),形成超過7 000條字段的數(shù)據(jù)集。
2.1.3 數(shù)據(jù)應(yīng)用 數(shù)據(jù)采集加工后,建立多個應(yīng)用充分挖掘數(shù)據(jù)價值。(1)病歷全景視圖/時間軸。將患者全病程數(shù)據(jù)按時間次序進(jìn)行整合,形成全景視圖。(2)病例檢索和科研子系統(tǒng)。根據(jù)科研相關(guān)流程進(jìn)行納排人群、指標(biāo)提取、統(tǒng)計分析等。(3)探索發(fā)現(xiàn)。通過數(shù)據(jù)可視化、?;鶊D等激發(fā)科研靈感。
2.2.1 確定數(shù)據(jù)維度和定量測量方法 參考國家數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn)[9]并依據(jù)中腫實際情況,將數(shù)據(jù)質(zhì)量問題劃分為5個維度并確定相應(yīng)定量計算方法,見表1。
表1 數(shù)據(jù)評價維度及定量測量計算方法
2.2.2 確定質(zhì)量評價業(yè)務(wù)覆蓋范圍,梳理評價規(guī)則 根據(jù)院內(nèi)信息系統(tǒng)情況,確定數(shù)據(jù)質(zhì)量評價業(yè)務(wù)覆蓋范圍。以臨床醫(yī)療數(shù)據(jù)為核心,范圍涵蓋HIS、EMR、LIS、放射信息系統(tǒng)(Radiology Information System,RIS)、移動護(hù)理、手術(shù)麻醉、重癥監(jiān)護(hù)、病案系統(tǒng)、體檢等臨床業(yè)務(wù)信息系統(tǒng),見表2。依據(jù)國家數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn)[9]、數(shù)據(jù)管理能力成熟度評估模型[10]、國家電子病歷規(guī)范[7],并結(jié)合實踐中常見問題情況和質(zhì)控重點梳理評價規(guī)則,見表3。
表2 質(zhì)量檢查覆蓋的業(yè)務(wù)系統(tǒng)/模塊范圍
續(xù)表2
表3 各數(shù)據(jù)維度規(guī)則舉例
為對數(shù)據(jù)質(zhì)量情況進(jìn)行直觀判斷,根據(jù)前述各規(guī)則判斷的數(shù)據(jù)問題計算總分,規(guī)則如下:分維度計算分值:單維度分值=∑(1-問題數(shù)據(jù)量/數(shù)據(jù)總量)/規(guī)則數(shù)量。舉例說明:規(guī)范性規(guī)則有兩條,計算公式為:{(1-規(guī)則1錯誤量/數(shù)據(jù)總量)+(1-規(guī)則2錯誤量/數(shù)據(jù)總量)}/2。各維度加權(quán)計分:總分=∑權(quán)重*單維度規(guī)則分。
通過對30余個業(yè)務(wù)系統(tǒng)全覆蓋式的數(shù)據(jù)采集、清洗和集成,建成以患者為中心、以唯一主索引為關(guān)聯(lián)、覆蓋診療全過程數(shù)據(jù)且T+0實時更新的真實世界大數(shù)據(jù)平臺,目前已匯集從2000年至今的160余萬患者全量數(shù)據(jù),治理病歷數(shù)超1 000萬,形成結(jié)構(gòu)化字段7 000余條,并基于患者維度的全景數(shù)據(jù)將原始記錄按照時序排列,形成患者診療時間軸。
通過構(gòu)建數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn),按照原生系統(tǒng)數(shù)據(jù)質(zhì)量的完整性、準(zhǔn)確性、規(guī)范性、時效性、一致性5個維度,共設(shè)置224個參評規(guī)則,參評字段158個,可視化呈現(xiàn)數(shù)據(jù)質(zhì)量情況??梢钥闯鲋心[數(shù)據(jù)在規(guī)范、時效、準(zhǔn)確性等方面質(zhì)量較好,而其一致性和完整性的質(zhì)量稍差,大部分是歷史原因所致的病案首頁缺漏和不一致。
針對每條參評規(guī)則,可查看規(guī)則設(shè)定的具體表、字段、錯誤的情況。為易于排查反饋,給出原生庫結(jié)構(gòu)化查詢語言(Structured Query Language,SQL)排查語句和問題樣例。最大程度上將檢索出的問題以最便捷的形式反饋給相關(guān)原生系統(tǒng),極大減少溝通時間成本。
數(shù)據(jù)質(zhì)量評價的目的不僅是從宏觀層面多維度了解當(dāng)前數(shù)據(jù)質(zhì)量情況,更重要的是方便發(fā)現(xiàn)問題,并有效反饋至原生系統(tǒng)進(jìn)行數(shù)據(jù)整改。因此監(jiān)管評價系統(tǒng)反饋數(shù)據(jù)具體情況在一定程度上減少了原生系統(tǒng)排查問題的工作量和難度。既往研究中的醫(yī)療數(shù)據(jù)質(zhì)量管理系統(tǒng)功能多停留在問題發(fā)現(xiàn)層面,并不直觀呈現(xiàn)問題來源。而本研究所構(gòu)建系統(tǒng)除了呈現(xiàn)發(fā)現(xiàn)問題的所屬表和字段外,還通過下鉆頁列舉問題樣例,利用對應(yīng)關(guān)系創(chuàng)新性地給出原生系統(tǒng)問題排查的SQL語句,以期以最易用、快捷的方式定位問題和成因,保障數(shù)據(jù)治理環(huán)節(jié)的流暢性,提高整改效率。同時數(shù)據(jù)問題的發(fā)現(xiàn)并不是橫斷面的,而是長期連續(xù)性的,通過持續(xù)實時監(jiān)控可以得到初次排查整改的問題反饋,實時發(fā)現(xiàn)新產(chǎn)生問題,從而形成評價-反饋-治理的良性閉環(huán)。
通過患者主索引將多個信息系統(tǒng)的數(shù)據(jù)關(guān)聯(lián)起來,不僅實現(xiàn)單一系統(tǒng)的數(shù)據(jù)評價,還可以發(fā)現(xiàn)跨系統(tǒng)之間存在的數(shù)據(jù)問題,如時效性維度,即患者手術(shù)系統(tǒng)操作時間應(yīng)在入院時間之后;一致性維度,即各系統(tǒng)姓名一致等。本研究通過各維度量化評分的計算將既往分散的規(guī)則付以權(quán)重,以百分制形式呈現(xiàn),以便管理人員直觀了解數(shù)據(jù)質(zhì)量情況。利用大數(shù)據(jù)平臺相關(guān)技術(shù)將各信息系統(tǒng)數(shù)據(jù)進(jìn)行有效關(guān)聯(lián)和分析,開展更全面的數(shù)據(jù)質(zhì)量評價。
通過人工智能技術(shù)對各系統(tǒng)數(shù)據(jù)進(jìn)行清洗以構(gòu)建大數(shù)據(jù)平臺,利用EMPI、NLP、標(biāo)準(zhǔn)化歸一等技術(shù)手段,對原始數(shù)據(jù)進(jìn)行終末治理,提升數(shù)據(jù)可用性,為各智能化應(yīng)用場景提供堅實的數(shù)據(jù)基礎(chǔ)。同時在監(jiān)管過程中核查數(shù)據(jù)情況,記錄并呈現(xiàn)數(shù)據(jù)問題。通過發(fā)現(xiàn)事后問題指導(dǎo)并協(xié)助原生系統(tǒng)進(jìn)行相關(guān)功能優(yōu)化,同時在事中進(jìn)行實時監(jiān)控,將問題發(fā)現(xiàn)的節(jié)點前置,避免問題數(shù)據(jù)產(chǎn)生,形成監(jiān)控-反饋-治理的良性閉環(huán),不斷提升數(shù)據(jù)治理水平。
本實踐通過對院內(nèi)各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集、清洗和整合構(gòu)建統(tǒng)一的大數(shù)據(jù)平臺。在此基礎(chǔ)上結(jié)合國家、行業(yè)標(biāo)準(zhǔn)實現(xiàn)對院內(nèi)數(shù)據(jù)的終末治理、系統(tǒng)質(zhì)量評價,并通過構(gòu)建實時數(shù)據(jù)質(zhì)量監(jiān)管系統(tǒng)實現(xiàn)數(shù)據(jù)問題可視化、易溯源,推動形成監(jiān)控-反饋-治理的良性閉環(huán),發(fā)揮治理工具價值并實現(xiàn)數(shù)據(jù)增值。受人為因素影響,如操作不規(guī)范、流程不合理可能導(dǎo)致數(shù)據(jù)缺失,跨系統(tǒng)對接不流暢可能導(dǎo)致數(shù)據(jù)不一致,因而數(shù)據(jù)治理實質(zhì)是管理。只有將質(zhì)量評價中發(fā)現(xiàn)的問題進(jìn)行深度剖析,協(xié)調(diào)人力落實問題整改、優(yōu)化流程、規(guī)范業(yè)務(wù),才能真正為提升數(shù)據(jù)質(zhì)量奠定基礎(chǔ)。后續(xù)將持續(xù)優(yōu)化數(shù)據(jù)評價模型、建立完善管理體系,全方位提升院內(nèi)數(shù)據(jù)治理能力,提高數(shù)據(jù)的可信性、可用性。