葉琪,趙亮,阮彤,馮東雷,高炬,劉珉
1. 華東理工大學(xué),上海 200237;
2. 萬(wàn)達(dá)信息股份有限公司,上海 200040;
3. 上海中醫(yī)藥大學(xué)附屬曙光醫(yī)院,上海 201203
在過(guò)去的十余年中,為促進(jìn)醫(yī)療信息的互聯(lián)互通與信息共享,加強(qiáng)衛(wèi)生監(jiān)管監(jiān)督,各省市大多建立了區(qū)域衛(wèi)生信息平臺(tái)。經(jīng)過(guò)若干年的積累,這些平臺(tái)已經(jīng)收集和存儲(chǔ)了區(qū)域內(nèi)醫(yī)院的大量電子病歷(electronic medical record,EMR)數(shù)據(jù),這些數(shù)據(jù)不但記錄了病人的基礎(chǔ)信息,也記錄了醫(yī)生的診斷信息、患者的用藥等治療信息。將這些數(shù)據(jù)用于臨床科研,對(duì)激活區(qū)域衛(wèi)生數(shù)據(jù)有重要的作用。臨床科研人員可以通過(guò)對(duì)海量臨床電子病歷數(shù)據(jù)的分析發(fā)現(xiàn)病人治療的效果、病情的變化情況,從而促進(jìn)新治療方案的提出和藥物的研發(fā)。近幾年各國(guó)政府正在積極推動(dòng)使用電子病歷進(jìn)行臨床研究,例如,美國(guó)國(guó)立衛(wèi)生研究院推動(dòng)的戰(zhàn)略健康IT高級(jí)研究項(xiàng)目(Strategic Health IT Advanced Research Projects,SHARP)[1]等。而在療效分析、轉(zhuǎn)歸分析和臨床工作流分析等臨床科研中,基于電子病歷的研究也受到廣泛的關(guān)注[2-4]。
由于區(qū)域衛(wèi)生平臺(tái)上的數(shù)據(jù)來(lái)源于醫(yī)院電子病歷系統(tǒng),或醫(yī)院多個(gè)信息系統(tǒng)融合而成的臨床數(shù)據(jù)中心(clinical data repository,CDR),這些系統(tǒng)在醫(yī)院發(fā)展過(guò)程中經(jīng)歷了多次版本變化,而在不同系統(tǒng)之間,數(shù)據(jù)的統(tǒng)一表示、關(guān)聯(lián)和集成都存在各種問(wèn)題。區(qū)域衛(wèi)生平臺(tái)數(shù)據(jù)又來(lái)源于不同醫(yī)院,異構(gòu)性更強(qiáng)。同時(shí),醫(yī)生錄入電子病歷主要記錄醫(yī)療過(guò)程,記錄過(guò)程中數(shù)據(jù)本身會(huì)有缺失,而如何記錄和表示這個(gè)過(guò)程,也缺乏語(yǔ)義規(guī)范。
另外,無(wú)論是區(qū)域平臺(tái)的構(gòu)造,還是電子病歷本身,都并不直接面向科學(xué)研究。從管理收費(fèi)角度來(lái)看質(zhì)量良好的數(shù)據(jù)可能無(wú)法滿(mǎn)足臨床科研的需求。因此,為了掌握區(qū)域平臺(tái)數(shù)據(jù)能否或在多大程度上支撐某一類(lèi)臨床科研,就需要在做科研之前,對(duì)數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。評(píng)估結(jié)果可以用于設(shè)計(jì)與細(xì)化實(shí)驗(yàn)分析過(guò)程,也可以用于未來(lái)改造醫(yī)學(xué)系統(tǒng),提升電子病歷數(shù)據(jù)質(zhì)量。
目前,電子病歷的研究工作集中在提出電子病歷數(shù)據(jù)的度量指標(biāo)以及利用指標(biāo)發(fā)現(xiàn)數(shù)據(jù)集合上的質(zhì)量問(wèn)題[5]。例如,Weiskopf N G等人[6]提出了Breadth、Documentation、Density、Predictive等多個(gè)面向數(shù)據(jù)完整性的指標(biāo),并在醫(yī)院數(shù)據(jù)上進(jìn)行了驗(yàn)證。參考文獻(xiàn)[7]提出電子病歷數(shù)據(jù)中存在的錯(cuò)誤和不準(zhǔn)確主要包括數(shù)據(jù)實(shí)體錯(cuò)誤、數(shù)據(jù)字段缺失、整個(gè)記錄缺失以及數(shù)據(jù)抽取和變換過(guò)程引發(fā)的錯(cuò)誤。參考文獻(xiàn)[8]提出了面向電子病歷的3個(gè)數(shù)據(jù)質(zhì)量維度:一致性、完整性和真實(shí)性,從外部規(guī)定和內(nèi)部特征兩個(gè)方面給出了質(zhì)量度量指標(biāo),并給出了每個(gè)度量指標(biāo)的實(shí)例,但這些度量指標(biāo)沒(méi)有應(yīng)用在具體的數(shù)據(jù)集中。參考文獻(xiàn)[9]不僅從完整性、準(zhǔn)確性和及時(shí)性3個(gè)方面定義了13個(gè)評(píng)估指標(biāo),還利用這13個(gè)指標(biāo)對(duì)支持iSanté系統(tǒng)的95家機(jī)構(gòu)的數(shù)據(jù)進(jìn)行了定量評(píng)估,發(fā)現(xiàn)了各機(jī)構(gòu)的數(shù)據(jù)質(zhì)量問(wèn)題,并給出機(jī)構(gòu)的數(shù)據(jù)質(zhì)量排名。
在上述研究中,使用哪些質(zhì)量指標(biāo)評(píng)估數(shù)據(jù)完全是根據(jù)評(píng)估者的經(jīng)驗(yàn)。根據(jù)數(shù)據(jù)質(zhì)量公認(rèn)的定義[10],質(zhì)量是“數(shù)據(jù)適合使用的程度(fit to use)”,數(shù)據(jù)使用的場(chǎng)景是數(shù)據(jù)質(zhì)量的核心,數(shù)據(jù)質(zhì)量評(píng)估的結(jié)果應(yīng)反映數(shù)據(jù)與使用的適合程度。為此,本文提出了一套基于“數(shù)據(jù)可用性”的通用評(píng)估流程,該流程包括評(píng)估需求模板的設(shè)計(jì)、評(píng)估需求的采集以及從評(píng)估需求中得到的評(píng)估度量。根據(jù)此評(píng)估流程,可以獲得一系列評(píng)估度量?;谠摲椒ǎ槍?duì)某個(gè)省級(jí)區(qū)域平臺(tái)的心力衰竭病人數(shù)據(jù)的臨床療效分析需求,做了數(shù)據(jù)質(zhì)量可用性評(píng)估。
Wang R Y[11]最早提出了一種基于過(guò)程管理的數(shù)據(jù)質(zhì)量管理(total data quality management,TDQM)方法,引入了工程管理中質(zhì)量管理的方法,全面管理數(shù)據(jù)的質(zhì)量。該方法分為4個(gè)步驟:定義、評(píng)估、分析、提高。該方法面向數(shù)據(jù)庫(kù)用戶(hù)建立一套信息質(zhì)量度量體系,評(píng)估數(shù)據(jù)錯(cuò)誤率、數(shù)據(jù)丟失率,并記錄一致性和最近數(shù)據(jù)情況等。隨后Lee Y W等人[12]提出了信息質(zhì)量評(píng)估方法(methodology for information quality assessment,AIMQ),幫助企業(yè)全面了解信息質(zhì)量狀況,并能隨時(shí)監(jiān)視信息質(zhì)量的改進(jìn)過(guò)程。AIMQ將信息按信息產(chǎn)品質(zhì)量和信息服務(wù)質(zhì)量、符合規(guī)范和滿(mǎn)足用戶(hù)期望情況分為4類(lèi):健全信息、有用信息、可信賴(lài)信息、可用信息。通過(guò)專(zhuān)家調(diào)研得到每類(lèi)信息的質(zhì)量維度,構(gòu)建產(chǎn)品服務(wù)性能/信息質(zhì)量(product service performance /information quality,PSP/IQ)模型。TDQM和AIMQ從不同角度分別建立了信息質(zhì)量度量體系,但這兩種方法均沒(méi)有涉及評(píng)估需求的產(chǎn)生過(guò)程,且建立的指標(biāo)體系與應(yīng)用場(chǎng)景無(wú)關(guān)。
考慮具體的應(yīng)用場(chǎng)景,Batini C等人[13]提出了一種綜合數(shù)據(jù)質(zhì)量管理方法——CDQM(complete data quality methodology)。CDQM關(guān)注數(shù)據(jù)與組織之間的密切關(guān)系,認(rèn)為數(shù)據(jù)質(zhì)量評(píng)估和改進(jìn)與業(yè)務(wù)流程和組織密切相關(guān)。該方法將評(píng)估分為3個(gè)階段:數(shù)據(jù)狀態(tài)的重構(gòu)、評(píng)估和選擇最優(yōu)的改進(jìn)流程。數(shù)據(jù)狀態(tài)的重構(gòu)階段重新建立組織機(jī)構(gòu)、流程、服務(wù)和數(shù)據(jù)之間的關(guān)系;評(píng)估階段根據(jù)與提供服務(wù)有關(guān)的主要問(wèn)題定義新的質(zhì)量維度,評(píng)估數(shù)據(jù)流和數(shù)據(jù)庫(kù)的數(shù)據(jù)質(zhì)量,并確定質(zhì)量問(wèn)題所在的位置。該方法能快速發(fā)現(xiàn)產(chǎn)生質(zhì)量問(wèn)題的數(shù)據(jù)所在位置,為提升數(shù)據(jù)質(zhì)量提供了依據(jù)。此外,Woodall P等人[14]提出了一種數(shù)據(jù)質(zhì)量評(píng)估的混合方法,目的是省略不必要的評(píng)估步驟,節(jié)約數(shù)據(jù)質(zhì)量評(píng)估的成本、時(shí)間和資源。通過(guò)抽取現(xiàn)有評(píng)估技術(shù)中的活動(dòng),對(duì)不同的活動(dòng)進(jìn)行分類(lèi),然后明確評(píng)估目標(biāo),根據(jù)需求選擇所需的活動(dòng),省略不必要的活動(dòng)或者將這些活動(dòng)并行運(yùn)行,組合成新的評(píng)估技術(shù)。上述研究的評(píng)估目標(biāo)主要是提升企業(yè)的數(shù)據(jù)質(zhì)量,要求數(shù)據(jù)符合管理需求。但在實(shí)際應(yīng)用中,數(shù)據(jù)集除了適用于管理,還有許多其他用途。
在醫(yī)療領(lǐng)域中,參考文獻(xiàn)[15]針對(duì)衣原體病和淋病患者的電子報(bào)告(ePR)進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估。評(píng)估過(guò)程分為5個(gè)步驟:驗(yàn)證報(bào)告文件格式,確認(rèn)所需字段都存在;分析ePR記錄是否都可報(bào)告;分析ePR記錄是否都能正確顯示;平行驗(yàn)證歷史數(shù)據(jù)中患者地址、治療日期、治療信息、種族、民族的完整性,測(cè)試ePR每日數(shù)據(jù)記錄的完整性和及時(shí)性;重新評(píng)估過(guò)程,對(duì)實(shí)驗(yàn)室報(bào)告記錄進(jìn)行再次驗(yàn)證,并將結(jié)果作為金標(biāo)準(zhǔn)。參考文獻(xiàn)[16]對(duì)電子病歷的數(shù)據(jù)用于產(chǎn)科研究的可靠性進(jìn)行了評(píng)估。研究者首先從電子病歷報(bào)告中提取數(shù)據(jù),然后根據(jù)經(jīng)驗(yàn)定義了評(píng)估指標(biāo):分娩方法、誘導(dǎo)產(chǎn)程、宮頸成熟、頂點(diǎn)呈現(xiàn)和產(chǎn)后出血等,對(duì)評(píng)估指標(biāo)的數(shù)據(jù)一致性進(jìn)行了評(píng)估。由于在醫(yī)療領(lǐng)域中每種應(yīng)用場(chǎng)景的質(zhì)量要求各不相同,評(píng)估的度量體系也各不相同,因此,需要定義一套可操作的通用評(píng)估流程,分析數(shù)據(jù)集在不同的應(yīng)用場(chǎng)景中是否適用。
本文提出的數(shù)據(jù)可用性評(píng)估方法如圖1所示。首先,通過(guò)評(píng)估需求模板收集評(píng)估需求,匯聚需求得到評(píng)估字段;其次,利用數(shù)據(jù)集成和數(shù)據(jù)篩選過(guò)程確定評(píng)估需求;再次,建立評(píng)估映射關(guān)系并定義評(píng)估度量,定義評(píng)估度量后可返回更新評(píng)估映射;最后,利用錯(cuò)誤自動(dòng)檢測(cè)技術(shù)定量地評(píng)估數(shù)據(jù)質(zhì)量,并根據(jù)評(píng)估結(jié)果分析數(shù)據(jù)的可用性。
整個(gè)過(guò)程可分為以下6個(gè)步驟:
步驟1 收集評(píng)估需求;
步驟2 確定評(píng)估數(shù)據(jù);
步驟3 建立評(píng)估映射;
步驟4 定義評(píng)估度量;
步驟5 評(píng)估數(shù)據(jù)質(zhì)量;
步驟6 分析評(píng)估結(jié)果。
整個(gè)過(guò)程主要由3類(lèi)角色參與,第一類(lèi)角色是領(lǐng)域?qū)<遥ɡ缗R床醫(yī)生),其負(fù)責(zé)步驟1,參與步驟3和步驟5。第二類(lèi)角色是數(shù)據(jù)管理者以及負(fù)責(zé)系統(tǒng)構(gòu)建與數(shù)據(jù)集成的信息技術(shù)(information technology,IT)工程師,其負(fù)責(zé)步驟2和步驟3,同時(shí)參與步驟5。第三類(lèi)角色是構(gòu)造與執(zhí)行質(zhì)量度量的數(shù)據(jù)質(zhì)量工程師,其負(fù)責(zé)步驟4和步驟5。對(duì)于步驟6,需要3類(lèi)角色共同參與,解釋數(shù)據(jù)結(jié)果。
為了采集評(píng)估需求的具體內(nèi)容,本文定義了一個(gè)評(píng)估需求模板,見(jiàn)表1。質(zhì)量評(píng)估需求模板包括:需求編號(hào)、評(píng)估字段類(lèi)別、評(píng)估字段、質(zhì)量要求、字段重要程度、語(yǔ)義相關(guān)字段與需求來(lái)源。評(píng)估需求的核心是評(píng)估字段和質(zhì)量要求。例如,評(píng)估字段是臨床診療中錄入或使用的數(shù)據(jù)字段;質(zhì)量要求是基于業(yè)務(wù)規(guī)則或醫(yī)療信息標(biāo)準(zhǔn),對(duì)數(shù)據(jù)字段質(zhì)量相關(guān)特性的描述。字段類(lèi)別描述了評(píng)估字段屬于哪一類(lèi)信息,需求來(lái)源是提供評(píng)估需求的人或參考資料,語(yǔ)義相關(guān)字段描述了與評(píng)估字段發(fā)揮類(lèi)似作用的字段信息。
表1 評(píng)估需求模板
圖1 數(shù)據(jù)可用性評(píng)估方法示意
通過(guò)Delphi過(guò)程確定最終評(píng)估需求。Delphi方法[17]又被稱(chēng)為專(zhuān)家調(diào)查法,它利用多輪專(zhuān)家咨詢(xún)調(diào)查,能快速匯集不同的意見(jiàn),具有針對(duì)性強(qiáng)、科學(xué)性強(qiáng)等特點(diǎn),被用于關(guān)鍵因素分析[18]、診療方案的有效性調(diào)查[19,20]等領(lǐng)域。在本文中,首先,選擇第一類(lèi)和第二類(lèi)角色作為領(lǐng)域?qū)<遥黄浯?,臨床科研人員填寫(xiě)評(píng)估需求模板中的評(píng)估內(nèi)容,數(shù)據(jù)質(zhì)量工程師根據(jù)《中國(guó)心力衰竭診斷和治療指南2014》[21]和文獻(xiàn)資料補(bǔ)充評(píng)估內(nèi)容,數(shù)據(jù)管理人員和IT工程師補(bǔ)充需求模板中的質(zhì)量要求,最終根據(jù)評(píng)估需求模板進(jìn)行多輪調(diào)查,確定對(duì)臨床療效分析研究重要的評(píng)估內(nèi)容。
面向心力衰竭的療效分析研究的需求,基于Delphi過(guò)程,最終得到的評(píng)估字段包括年齡、性別、診斷編碼、疾病名稱(chēng)、體征信息(血壓、心率)、檢驗(yàn)信息(血脂、腦鈉尿肽(brain natriuretic peptide,BNP)等)、影像檢查(心電圖、心臟彩超)和療效信息。
評(píng)估數(shù)據(jù)來(lái)源于某個(gè)省級(jí)區(qū)域平臺(tái),該平臺(tái)對(duì)該省內(nèi)的多家醫(yī)院內(nèi)部的醫(yī)院信息系統(tǒng)(hospital information system,HIS)、臨床信息系統(tǒng)(clinical information system,CIS)、實(shí)驗(yàn)室信息管理系統(tǒng)(laboratory information management system,LIS)和放射信息系統(tǒng)(radiology information system,RIS)等原始業(yè)務(wù)數(shù)據(jù)進(jìn)行整合,然后根據(jù)統(tǒng)一的接口規(guī)范進(jìn)行整合處理。整合過(guò)程需糾正部分?jǐn)?shù)據(jù)(例如醫(yī)院代碼等),將整合后的數(shù)據(jù)上傳到中心數(shù)據(jù)庫(kù)。
本文關(guān)注了區(qū)域平臺(tái)的心力衰竭病人數(shù)據(jù),選擇了2013—2016年在區(qū)域平臺(tái)覆蓋的醫(yī)院門(mén)診就診或住院的患者,經(jīng)過(guò)篩選最終得到大約380萬(wàn)條記錄,其中住院記錄122 177條,門(mén)診就診記錄3 673 222條,病人大約26萬(wàn)人。
建立步驟1中評(píng)估字段與步驟2中評(píng)估數(shù)據(jù)集之間的映射關(guān)系。針對(duì)表1的需求字段,根據(jù)區(qū)域平臺(tái)的數(shù)據(jù)交換接口規(guī)范,說(shuō)明評(píng)估字段的數(shù)據(jù)來(lái)源,如果評(píng)估字段存在于多個(gè)數(shù)據(jù)源中,則選定評(píng)估字段來(lái)自哪個(gè)數(shù)據(jù)源;說(shuō)明評(píng)估字段是結(jié)構(gòu)化數(shù)據(jù)類(lèi)型、文本類(lèi)型還是影像類(lèi)型。
針對(duì)心力衰竭療效分析需求,根據(jù)步驟1中醫(yī)生對(duì)評(píng)估需求模板的反饋,給出心力衰竭療效分析的評(píng)估度量指標(biāo)體系。根據(jù)前面得到的評(píng)估需求字段刪除評(píng)估需求中無(wú)數(shù)據(jù)來(lái)源的評(píng)估字段,選擇、組合或自定義評(píng)估指標(biāo),最終得到患者的基本信息(出生日期、性別)、體征信息(血壓、心律)、診斷信息(診斷編碼、診斷名稱(chēng))、檢驗(yàn)信息(血脂、BNP)和療效信息(治療效果、死亡信息)共計(jì)10個(gè)指標(biāo)。
上述10個(gè)評(píng)估指標(biāo)利用參考文獻(xiàn)[22]提出的金標(biāo)準(zhǔn)、數(shù)據(jù)元素存在性、數(shù)據(jù)元素一致性、數(shù)據(jù)源一致性等評(píng)估方法,根據(jù)表1中得到的質(zhì)量要求(評(píng)估規(guī)則),從數(shù)據(jù)的完整性和一致性?xún)蓚€(gè)方面進(jìn)行評(píng)估。其中,完整性評(píng)估判斷評(píng)估字段值是否為空、是否為無(wú)意義的系統(tǒng)默認(rèn)值,評(píng)估度量見(jiàn)表2。
一致性評(píng)估判斷評(píng)估字段是否遵循了統(tǒng)一的規(guī)范、是否保持了統(tǒng)一的格式以及不同數(shù)據(jù)來(lái)源的相同內(nèi)容是否一致,評(píng)估度量規(guī)則見(jiàn)表3。
表2和表3中定義的度量規(guī)則可以是復(fù)合規(guī)則(復(fù)合規(guī)則由多個(gè)基本規(guī)則組成)。
本文采用基于錯(cuò)誤自動(dòng)檢測(cè)技術(shù)[23,24]的比率法評(píng)估數(shù)據(jù)質(zhì)量。根據(jù)表2和表3定義的完整性和一致性的評(píng)估度量規(guī)則進(jìn)行錯(cuò)誤檢測(cè),執(zhí)行查詢(xún)語(yǔ)句,發(fā)現(xiàn)違反規(guī)則的所有記錄,迅速發(fā)現(xiàn)數(shù)據(jù)集中的錯(cuò)誤,計(jì)算出符合度量規(guī)則的記錄數(shù)與總記錄數(shù)之間的比率。評(píng)估算法描述如下。
表2 評(píng)估指標(biāo)的完整性度量規(guī)則
表3 評(píng)估指標(biāo)的一致性度量規(guī)則
輸入:評(píng)估數(shù)據(jù)集S0,評(píng)估指標(biāo)i,評(píng)估指標(biāo)i的度量規(guī)則表{Ri1…Rin}。
輸出:評(píng)估結(jié)果Vi。
方法:
從總體上看,本次評(píng)估的某區(qū)域平臺(tái)的心力衰竭患者數(shù)據(jù)在療效分析研究中具有一定的可用性。一方面,區(qū)域衛(wèi)生數(shù)據(jù)為臨床研究提供了豐富的樣本數(shù)。本次評(píng)估的心力衰竭的患者總數(shù)達(dá)到26萬(wàn),記錄數(shù)達(dá)380萬(wàn)。另一方面,數(shù)據(jù)整體完整性水平較高,評(píng)估結(jié)果如圖2所示?;颊呋拘畔⒅械某錾掌诤托詣e完整性分別達(dá)到75.18%和99.82%。診斷信息中的診斷編碼、診斷名稱(chēng)完整比例分別為80.18%和82.31%。治療結(jié)果的完整性高達(dá)99.44%。但是,現(xiàn)有區(qū)域數(shù)據(jù)質(zhì)量存在的一些問(wèn)題制約了數(shù)據(jù)的使用。具體包括以下幾個(gè)方面。
(1)部分?jǐn)?shù)據(jù)的完整性存在問(wèn)題
血壓和心率數(shù)據(jù)缺失較多,血壓和心率數(shù)據(jù)完整性分別為16.34%和4.96%,出現(xiàn)這一情況是由于這兩個(gè)指標(biāo)不直接影響醫(yī)院的管理,區(qū)域衛(wèi)生平臺(tái)并未強(qiáng)制要求提交相關(guān)信息,部分醫(yī)院的血壓和心率數(shù)據(jù)沒(méi)有集成到區(qū)域衛(wèi)生平臺(tái)中。此外,死亡信息的完整性也較低(比例為7.92%)。主要原因是受傳統(tǒng)風(fēng)俗觀(guān)點(diǎn)的影響,很多重癥患者臨終前會(huì)選擇回家,在醫(yī)院死亡的患者比例較低。
(2)檢驗(yàn)項(xiàng)目的分類(lèi)和名稱(chēng)的統(tǒng)一會(huì)提高數(shù)據(jù)的可用性
檢驗(yàn)項(xiàng)目中血脂和BNP數(shù)據(jù)完整性不能完全反映數(shù)據(jù)的真實(shí)情況。見(jiàn)表4,血脂和BNP檢驗(yàn)收費(fèi)記錄占總檢驗(yàn)記錄的比例分別為11.04%和2.45%。明顯可以看出,無(wú)論是有這兩項(xiàng)檢驗(yàn)收費(fèi)的記錄數(shù)還是包含這些檢查項(xiàng)目的報(bào)告數(shù)都較少,與患者的實(shí)際就診情況不符。
出現(xiàn)上述情況的原因是各家醫(yī)院檢驗(yàn)的項(xiàng)目分類(lèi)不盡相同,項(xiàng)目名稱(chēng)也是由各家醫(yī)院自行規(guī)定的,由于分類(lèi)和名稱(chēng)不統(tǒng)一,所以無(wú)法得到準(zhǔn)確的統(tǒng)計(jì)數(shù)據(jù)。例如,血脂的檢驗(yàn)項(xiàng)目包括多種,不同醫(yī)院血脂包含的指標(biāo)個(gè)數(shù)和指標(biāo)名稱(chēng)各不相同。血脂檢驗(yàn)項(xiàng)目可以包括總膽固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白4項(xiàng)檢驗(yàn)指標(biāo),也可以包括總膽固醇、甘油三酯、高密度脂蛋白膽固醇、低密度脂蛋白膽固醇、載脂蛋白AI、載脂蛋白B 6項(xiàng)指標(biāo)。每項(xiàng)指標(biāo)名稱(chēng)也不統(tǒng)一,例如高密度脂蛋白可記為“高密度脂蛋白膽固醇”“HDL”“HDL-C”等。由于沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),在提交的收費(fèi)記錄和檢驗(yàn)信息中,有的醫(yī)院使用血脂這一項(xiàng)目名稱(chēng),有的醫(yī)院使用具體的檢驗(yàn)指標(biāo)項(xiàng)目,檢驗(yàn)名稱(chēng)多達(dá)10余種,造成數(shù)據(jù)分析的大量誤差。檢驗(yàn)項(xiàng)目數(shù)據(jù)完整性情況見(jiàn)表4。
圖2 數(shù)據(jù)整體的完整性
(3)診斷術(shù)語(yǔ)的不統(tǒng)一影響數(shù)據(jù)的可用性
雖然區(qū)域衛(wèi)生平臺(tái)要求醫(yī)院提交的診斷數(shù)據(jù)必須遵守國(guó)家標(biāo)準(zhǔn)GB/T 14396(可看作中國(guó)版ICD-10),但使用標(biāo)準(zhǔn)中的診斷編碼和診斷名稱(chēng)進(jìn)行檢索時(shí),仍然無(wú)法獲得完整的診斷數(shù)據(jù)。將診斷編碼、診斷名稱(chēng)與GB/T 14396標(biāo)準(zhǔn)比較,發(fā)現(xiàn)與標(biāo)準(zhǔn)不相符的編碼和名稱(chēng)比例分別為17.38%和81.81%。出現(xiàn)這種情況的主要原因是現(xiàn)有ICD-10的編碼內(nèi)容不夠豐富,不能滿(mǎn)足臨床和管理的需要?,F(xiàn)有編碼內(nèi)容無(wú)法精準(zhǔn)描述疾病的精確部位、是首次確診還是復(fù)發(fā)、是否做了手術(shù)等疾病狀況。雖然部分醫(yī)院通過(guò)擴(kuò)展院內(nèi)編碼或者擴(kuò)展疾病名稱(chēng)的方式滿(mǎn)足了臨床需求(此時(shí)院內(nèi)信息系統(tǒng)上傳時(shí)需要與標(biāo)準(zhǔn)GB/T 14396進(jìn)行轉(zhuǎn)換),但是部分醫(yī)院將院內(nèi)編碼直接上傳造成了部分編碼與標(biāo)準(zhǔn)不一致。
(4)雖然平臺(tái)已制定數(shù)據(jù)交換接口規(guī)范,但部分?jǐn)?shù)據(jù)提交時(shí)未遵守規(guī)范
接口規(guī)范規(guī)定性別編碼“1”代表男性,“2”代表女性,實(shí)際數(shù)據(jù)中同一患者性別編碼不相同的比例為42.67%。規(guī)范規(guī)定出生日期的格式為“YYYYMMDD”,但實(shí)際數(shù)據(jù)表示各不相同。造成這一現(xiàn)象的原因是數(shù)據(jù)的產(chǎn)生部門(mén)及錄入途徑不同,且各業(yè)務(wù)子系統(tǒng)的建設(shè)時(shí)期不同,制定的內(nèi)部數(shù)據(jù)規(guī)范也各不相同,而且醫(yī)院進(jìn)行數(shù)據(jù)整合時(shí)也沒(méi)有將內(nèi)部數(shù)據(jù)按照規(guī)范要求進(jìn)行格式轉(zhuǎn)換或數(shù)據(jù)映射。
為了提高數(shù)據(jù)的可用性,需要從多方面入手提高數(shù)據(jù)的質(zhì)量。可以考慮從以下幾方面進(jìn)行改進(jìn)。
首先,區(qū)域衛(wèi)生平臺(tái)還需要集成更多的業(yè)務(wù)數(shù)據(jù)。血壓和心率數(shù)據(jù)是心血管疾病的重要指標(biāo)之一,現(xiàn)有平臺(tái)中這兩個(gè)指標(biāo)的數(shù)據(jù)缺失較多,需要部分醫(yī)院將血壓和心率數(shù)據(jù)集成到區(qū)域衛(wèi)生平臺(tái)。此外,影像數(shù)據(jù)(心電圖和心臟彩超)直接影響著心血管疾病的預(yù)后(也是療效評(píng)估的依據(jù)),對(duì)療效研究發(fā)揮著重要作用。而現(xiàn)有系統(tǒng)中缺乏此類(lèi)檢查數(shù)據(jù),區(qū)域數(shù)據(jù)平臺(tái)如果能集成這些數(shù)據(jù),將會(huì)增強(qiáng)療效分析研究數(shù)據(jù)的可用性。
表4 檢驗(yàn)項(xiàng)目數(shù)據(jù)完整性情況
其次,建立或使用統(tǒng)一規(guī)范的元數(shù)據(jù)。國(guó)際疾病分類(lèi)(international classification of diseases,ICD)編碼與名稱(chēng)一致性比較低,而檢驗(yàn)項(xiàng)名稱(chēng)也缺乏統(tǒng)一規(guī)范,需要大量的數(shù)據(jù)后處理工作。未來(lái)需在標(biāo)準(zhǔn)的疾病細(xì)分層面的基礎(chǔ)上使用規(guī)范的ICD編碼,全面使用衛(wèi)生和計(jì)劃生育委員會(huì)正在積極推廣的新版標(biāo)準(zhǔn)《GB/T 14396-2016 疾病分類(lèi)與代碼》。引入一套完整的檢驗(yàn)項(xiàng)名稱(chēng)和編碼規(guī)則,改善相關(guān)數(shù)據(jù)的質(zhì)量。此外,補(bǔ)充現(xiàn)有臨床術(shù)語(yǔ)或者編碼與標(biāo)準(zhǔn)術(shù)語(yǔ)或規(guī)范之間的映射表,實(shí)現(xiàn)數(shù)據(jù)的匹配和映射。
最后,建立數(shù)據(jù)質(zhì)量管理的閉環(huán)機(jī)制。各醫(yī)院嚴(yán)格遵守?cái)?shù)據(jù)上傳規(guī)范,減少數(shù)據(jù)的缺失和格式的不統(tǒng)一,同時(shí)區(qū)域平臺(tái)定期給出數(shù)據(jù)質(zhì)量情況分析,敦促各醫(yī)院不斷提高上傳數(shù)據(jù)的質(zhì)量。
本文提出了一種基于實(shí)用的標(biāo)準(zhǔn)化數(shù)據(jù)質(zhì)量評(píng)估框架,通過(guò)引入預(yù)定義的評(píng)估需求模板收集評(píng)估需求,并利用Delphi過(guò)程快速匯聚各方共識(shí),最終形成廣泛認(rèn)可的評(píng)估需求,然后根據(jù)評(píng)估需求采集評(píng)估數(shù)據(jù),建立映射關(guān)系,再定義評(píng)估度量,完成評(píng)估任務(wù)。該評(píng)估方法回答了數(shù)據(jù)集對(duì)不同應(yīng)用場(chǎng)景是否可用的問(wèn)題,雖然僅評(píng)估了從某區(qū)域數(shù)據(jù)平臺(tái)采集的數(shù)據(jù)集對(duì)心力衰竭臨床療效研究是否可用,但是該評(píng)估方法不僅適用于評(píng)估臨床療效這一場(chǎng)景,還適用于其他的應(yīng)用場(chǎng)景。
未來(lái)重點(diǎn)考慮利用SNOMED CT、LONIC編碼作為臨床術(shù)語(yǔ)表示的標(biāo)準(zhǔn),建立現(xiàn)有數(shù)據(jù)與標(biāo)準(zhǔn)的映射表,解決術(shù)語(yǔ)不統(tǒng)一的問(wèn)題。
[1]REA S, PATHAK J, SAVOVA G, et al.Building a robust, scalable and standardsdriven infrastructure for secondary use of EHR data[J]. Journal of Biomedical Informatics, 2012, 45(4): 763-771.
[2]BROWN J S, HOLMES J H, SHAH K, et al.Distributed health data networks: a practical and preferred approach to multiinstitutional evaluations of comparative effectiveness, safety, and quality of care[J]. Medical Care, 2010, 48(6): 45-51.
[3]BAYLEY K B, BELNAP T, SAVITZ L,et al. Challenges in using electronic health record data for CER: experience of 4 learning organizations and solutions applied[J]. Medical Care, 2013, 51(8): 80-86.
[4]MICHELLE R H, SARAH R B, ISAAC H G,et al. Secondary use of electronic health record data for clinical workflow analysis[J]. Journal of the American Medical Informatics Association, 2018,52(1): 40-46.
[5]REIMER A P, MILINOVICH A,ELIZABETH A M. Data quality assessment framework to assess electronic medical record data for use in research[J]. International Journal of Medical Informatics, 2016, 90(6): 40-47.
[6]WEISKOPF N G, HRIPCSAK G,SWAMINATHAN S, et al. Defining and measuring completeness of electronic health records for secondary use[J].Journal of Biomedical Informatics, 2013,46(5): 830-836.
[7]SUKUMAR S R, NATARAJAN R,FERRELL R K. Quality of big data in health care[J]. International Journal of Health Care Quality Assurance, 2015,28(6): 212-218.
[8]KAHN M G, CALLAHAN T J, BARNARD J,et al. A harmonized data quality assessment terminology and framework for the secondary use of electronic health record data[J]. EGEMS(Wash DC), 2016,4(1): 1244-1261.
[9]PUTTKAMMER N, BASEMAN J G,DEVINE E B, et al. An assessment of data quality in a multi-site electronic medical record system in Haiti[J]. International Journal of Medical Informatics, 2016,86(2): 104-116.
[10]JURAN J M. Juran on planning for quality[M].New York: Free Press, 1988: 14-23.
[11]WANG R Y. A product perspective on total data quality management[J]. Communications of the ACM, 1998, 41(2): 58-65.
[12]LEE Y W, STRONG D M, KAHN B K, et al.AIMQ: a methodology for information quality assessment[J]. Information &Management, 2002, 40(3): 133-146.
[13]BATINI C, SCANNAPIECO M. Data and information quality[M]. Heidelberg:Springer Press, 2016: 353-402.
[14]WOODALL P, BOREK A, PARLIKAD A K. Data quality assessment: the hybrid approach[J]. Information& Management,2013, 50(7): 369-382.
[15]TSENG M, RAKETICH N, SIMMONS C.Evaluation of chlamydia and gonnorhea electronic provider reports data quality[J].Journal of the Public Health Information,2018, 9(1): 337-344.
[16]ALTMAN M R, COLORAFI K, DARATHA K B. The reliability of electronic health record data used for obstetrical research[J]. Applied Clinical Informatics,2018, 9(1): 156-162.
[17]DALKEY N C, ROURKE D L.Experimental assessment of Delphi procedures with group value judgements [M].Santa Monica: Advanced Research Projects Agency, 1971: 1-58.
[18]MCGINN C A, GAGNON M P, SHAW N,et al. Users’ perspectives of key factors to implementing electronic health records in Canada: a Delphi study[J]. BMC Medical Informatics and Decision Making, 2012,12(11): 1-13.
[19]王磊, 張儉, 郭力恒, 等. 基于改良德?tīng)柗品▽?duì)急性心肌梗死中醫(yī)診療方案的調(diào)查分析[J].中西醫(yī)結(jié)合心腦血管病雜志, 2010, 8(10):1165-1167.WANG L, ZHANG J, GUO L H, et al.Investigation and analysis of traditional Chinese medicine diagnosis and treatment plan for acute myocardial infarction based on modified Delphi method[J]. Chinese Journal of Integrative Medicine on Cardio-/Cerebrovascular Disease, 2010,8(10): 1165-1167.
[20]KERRY N L, KATY A C, SARA T B, et al.Development of a core outcome set for clinical effectiveness trials in esophageal cancer resection surgery[J]. Annals of Surgery, 2018, 267(4): 700-710.
[21]中華醫(yī)學(xué)會(huì)心血管病學(xué)分會(huì). 中國(guó)心力衰竭診斷和治療指南2014[J]. 中華心血管病雜志,2014, 42(2): 3-10.Chinese Society of Cardiology. Chinese heart failure diagnosis and treatment guide 2014 [J]. Chinese Journal of Cardiology, 2014, 42(2): 3-10.
[22]WEISKOPF N G , WENG C H. Methods and dimensions of electronic health record data quality assessment: enabling reuse for clinical research[J]. Journal of the American Medical Informatics Association, 2013, 20(2): 144-151.
[23]CHEN W, FAN W, MA S. Analyses and validation of conditional dependencies with built-in predicates[C]// Database and Expert Systems Applications,August 31-September 4, 2009, Linz,Austria. Heidelberg: Springer Press,2009: 576-591.
[24]KONTOKOSTAS D, WESTPHAL P, AUER S, et al. Test-driven evaluation of linked data quality[C]// The 23rd International Conference on World Wide Web, April 7-11,2014, Seoul, Korea. New York: ACM Press,2014: 747-758.