陳韻,王潔琳
(四川大學(xué)華西第二醫(yī)院,四川 成都 610066)
一個(gè)患者對(duì)應(yīng)一份真實(shí)可靠又完整全面的醫(yī)療記錄,是醫(yī)療信息管理的一種理想狀態(tài)。這份醫(yī)療記錄在主數(shù)據(jù)管理(Master Data Management ,簡(jiǎn)稱(chēng)MDM)中被稱(chēng)為單一最佳記錄(Single Best Record,簡(jiǎn)稱(chēng)SBR)或者金質(zhì)記錄(Golden Record)。新生兒患者的SBR 不僅應(yīng)該包含新生兒科、兒科,以及將來(lái)成年后的相關(guān)醫(yī)療數(shù)據(jù),而且應(yīng)該包含其在產(chǎn)科出生時(shí)的記錄,甚至應(yīng)該包含母親整個(gè)妊娠過(guò)程的數(shù)據(jù)的關(guān)聯(lián)。
但現(xiàn)實(shí)中,新生兒患者存在多次建卡并在HIS 中擁有多個(gè)患者標(biāo)識(shí)號(hào),每個(gè)患者標(biāo)識(shí)號(hào)對(duì)應(yīng)的醫(yī)療記錄都不是SBR。首先新生兒在產(chǎn)科出生時(shí)醫(yī)院會(huì)自動(dòng)新建一個(gè)患者標(biāo)識(shí)號(hào),這個(gè)標(biāo)識(shí)號(hào)與母親生產(chǎn)就診時(shí)相關(guān)聯(lián)。新生兒患者從產(chǎn)科出院再就診時(shí),尤其是急診就診或急診入院,可能會(huì)再辦理一張新的就診卡,生成新的患者標(biāo)識(shí)號(hào),這個(gè)標(biāo)識(shí)號(hào)與其在產(chǎn)科時(shí)的標(biāo)識(shí)號(hào)無(wú)法直接關(guān)聯(lián)匹配。新生兒辦理出生證后,可能會(huì)以出生證號(hào)又再辦理一個(gè)患者標(biāo)識(shí)號(hào)來(lái)就診;新生兒辦理戶(hù)口后,還可能會(huì)以身份證號(hào)再辦理一個(gè)患者標(biāo)識(shí)號(hào)來(lái)就診。主動(dòng)找醫(yī)院合并標(biāo)識(shí)號(hào)的患兒數(shù)量占比非常小,大多數(shù)患兒直接使用新的標(biāo)識(shí)號(hào)就診,舊的標(biāo)識(shí)號(hào)可能不會(huì)再被使用。新生兒患者每次就診的醫(yī)療記錄被不同的患者標(biāo)識(shí)號(hào)分割成多組檔案,給臨床查閱帶來(lái)困難,還可能造成數(shù)據(jù)統(tǒng)計(jì)分析失實(shí)。新生兒在兒科的就診數(shù)據(jù)也失去了與母親整個(gè)孕期數(shù)據(jù)的珍貴聯(lián)系,導(dǎo)致研究母親懷孕生產(chǎn)情況和新生兒病情、生長(zhǎng)發(fā)育的多個(gè)科研項(xiàng)目因?yàn)樘崛〔坏疥P(guān)聯(lián)數(shù)據(jù)而難以進(jìn)行。綜上所述,醫(yī)院迫切需要一個(gè)可以自動(dòng)或者半自動(dòng)合并新生兒患者標(biāo)識(shí)號(hào)的平臺(tái)或模塊來(lái)解決上述問(wèn)題。
企業(yè)級(jí)患者主索引(Enterprise Master Patient Index,EMPI),將來(lái)自多個(gè)系統(tǒng)或多個(gè)業(yè)務(wù)版本的患者標(biāo)識(shí)進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)同一患者醫(yī)療信息的統(tǒng)一,最終保證一位患者只有一個(gè)全局唯一標(biāo)識(shí)號(hào)(Global Patient Identifier,GUID)。每個(gè)患者GUID 對(duì)應(yīng)唯一份最真實(shí)最可靠最全面的患者信息記錄,既SBR。EMPI 不僅可以解決患者在同個(gè)系統(tǒng)中存在多個(gè)標(biāo)識(shí)號(hào)的關(guān)聯(lián)問(wèn)題,而且可以整合同一患者在不同的院內(nèi)系統(tǒng)中的不同體系的患者標(biāo)識(shí)號(hào)。根據(jù)中國(guó)醫(yī)院協(xié)會(huì)信息專(zhuān)業(yè)委員會(huì)在2019—2020年度對(duì)1 017 家醫(yī)院的EMPI 的建立和使用情況的調(diào)查與分析,建立了EMPI 和GUID 的醫(yī)院比例達(dá)到75.81%。傳統(tǒng)的EMPI 雖然能較好地處理成人患者和年齡較大的患兒的身份信息匹配,但是在新生兒患者身上卻無(wú)法使用。
傳統(tǒng)EMPI 一般使用證件號(hào)、姓名、性別、出生日期、電話(huà)號(hào)碼等,交叉匹配計(jì)算每?jī)蓚€(gè)標(biāo)識(shí)號(hào)的信息相似度值,再同閾值比較判斷兩個(gè)及兩個(gè)以上的患者標(biāo)識(shí)是否屬于同一患者。兩個(gè)患者標(biāo)識(shí)對(duì)應(yīng)兩組信息x,x的加權(quán)相似度的計(jì)算公式如下:
指第個(gè)信息項(xiàng),α指第個(gè)信息項(xiàng)對(duì)應(yīng)的權(quán)重,Sim(x,x)指x,x中的第個(gè)信息項(xiàng)的相似度,相等時(shí)相似度為1,不等或者其一為空時(shí)相似度為0,對(duì)相似度加權(quán)求和就是x,x的整體相似度。
以國(guó)內(nèi)某著名醫(yī)療信息系統(tǒng)廠(chǎng)商提供的EMPI 為例,所用到的信息項(xiàng)權(quán)重如表1所示。
表1 傳統(tǒng)EMPI 所用關(guān)鍵信息項(xiàng)
當(dāng)任意兩組患者信息相似度的達(dá)到相似推薦閾值(大于30%)時(shí),說(shuō)明對(duì)應(yīng)的兩個(gè)患者標(biāo)識(shí)可能屬于同一患者,推薦進(jìn)行人工合并。
但是新生兒作為全新生命個(gè)體,短短幾個(gè)月時(shí)間從無(wú)身份編號(hào)到擁有出生證號(hào)、身份證號(hào),其就診名字也可能從某某之?huà)胱兂烧叫彰4送?,婚姻?duì)于新生兒來(lái)說(shuō)是無(wú)效信息項(xiàng),而證件號(hào)和姓名分別屬于靜態(tài)業(yè)務(wù)標(biāo)識(shí)和靜態(tài)人口學(xué)特征,在相似度算法中的權(quán)重非常大。同一新生兒不同患者標(biāo)識(shí)對(duì)應(yīng)的信息相似度很難達(dá)到合理的閾值,往往無(wú)法匹配出完整的結(jié)果;降低閾值又會(huì)匹配出過(guò)多不準(zhǔn)確的結(jié)果,給信息合并帶來(lái)干擾。因此,傳統(tǒng)的交叉匹配計(jì)算加權(quán)相似度的策略不適用于新生兒患者,EMPI 信息項(xiàng)需要針對(duì)新生兒重新設(shè)計(jì)和優(yōu)化。
綜合考慮了信息項(xiàng)的類(lèi)型劃分、易獲取性和歷史數(shù)據(jù)的完整度,本文整理出新生兒EMPI 可以用到的信息項(xiàng)如表2所示。
表2 新生兒EMPI 所用關(guān)鍵信息項(xiàng)
表2中13 個(gè)信息項(xiàng)包含靜態(tài)人口學(xué)特征4 個(gè),動(dòng)態(tài)人口學(xué)特征5 個(gè),以及靜態(tài)其他特征3 個(gè)。權(quán)重大小分配大致符合靜態(tài)人口學(xué)特征>=動(dòng)態(tài)人口學(xué)特征>=靜態(tài)其他特征規(guī)律。其中,聯(lián)系人姓名1 是患兒母親(生母)的姓名,聯(lián)系人姓名2 是聯(lián)系人中不確定是否為母親的聯(lián)系人姓名,將它們區(qū)分開(kāi)是為了給母親姓名更高的權(quán)重。此外,4 個(gè)電話(huà)綜合看作同一個(gè)信息項(xiàng),兩組患者信息中所有電話(huà)交叉比較,兩組中任有一對(duì)電話(huà)相同這個(gè)信息項(xiàng)的相似度就是1,占整體相似度的10%;若完全沒(méi)有電話(huà)相同,這個(gè)信息項(xiàng)的相似度就是0。
這些信息項(xiàng)都非常容易獲得,不論是將來(lái)患兒再次就診時(shí)由家屬提供,還是從歷史數(shù)據(jù)中提取都可行。患者姓名、性別、出生日期、聯(lián)系人姓名、電話(huà)、現(xiàn)住址作為患者注冊(cè)時(shí)必填的基本項(xiàng)目,其歷史數(shù)據(jù)和未來(lái)錄入的數(shù)據(jù)都有一定的數(shù)據(jù)質(zhì)量保證。產(chǎn)科新生兒可以通過(guò)分娩登記表關(guān)聯(lián)到母親作為聯(lián)系人姓名1。從2019年開(kāi)始,我院逐步提升未成年患者信息表中保存母親的患者標(biāo)識(shí)號(hào)的比例,通過(guò)母親的患者標(biāo)識(shí)號(hào)也可以準(zhǔn)確地獲得母親姓名。此外,孕周、分娩方式和多胎情況作為嬰兒出生時(shí)產(chǎn)生的關(guān)鍵信息,大多數(shù)患兒家屬能夠快速提供,可以考慮納入注冊(cè)基本信息由家屬填寫(xiě)或選擇。歷史數(shù)據(jù)中的孕周、分娩方式和多胎情況可以從分娩登記表和電子病歷個(gè)人史、現(xiàn)病史中進(jìn)行提取和整理。
本文選取了2019年至2021年在我院產(chǎn)科出生的所有嬰兒患者的信息63 043 條設(shè)為集合、我院產(chǎn)科出生后去了新生兒科但是患者標(biāo)識(shí)改變了的患者的信息11 891 條設(shè)為集合(新生兒科電子病歷上個(gè)人史中包含患者出生醫(yī)院,以此篩選我院產(chǎn)科出生的患者),使用Kettle 工具從電子病歷和病案系統(tǒng)中提取這些患者標(biāo)識(shí)對(duì)應(yīng)的含上述13 個(gè)信息項(xiàng)的原始內(nèi)容,導(dǎo)入中間庫(kù)Oracle 進(jìn)行后續(xù)處理。采用電子病歷和病案系統(tǒng)為數(shù)據(jù)源的原因是:病案系統(tǒng)會(huì)在患者出院后對(duì)電子病歷進(jìn)行遷出和歸檔,歸檔后電子病歷中的數(shù)據(jù)不再發(fā)生變化,相當(dāng)于關(guān)鍵信息項(xiàng)的一個(gè)信息快照。電子病歷數(shù)據(jù)示例如表3、表4所示。
表3 產(chǎn)科電子病歷數(shù)據(jù)示例
聯(lián)系人2陳**出生日期2019/01/26現(xiàn)住址電話(huà)183********戶(hù)口電話(huà)183********工作電話(huà)-聯(lián)系人電話(huà)183********現(xiàn)住址四川省成都市******孕周27分娩方式順產(chǎn)
表4 新生兒科電子病歷數(shù)據(jù)示例
觀(guān)察表3表4,會(huì)發(fā)現(xiàn)產(chǎn)科、新生兒科電子病歷的原始內(nèi)容無(wú)法直接進(jìn)行匹配,需要先進(jìn)行處理才能成標(biāo)準(zhǔn)的13個(gè)信息項(xiàng)才可以使用。處理的過(guò)程包括數(shù)據(jù)解析、數(shù)據(jù)清洗、整合與去重、統(tǒng)一值域等。
數(shù)據(jù)解析:產(chǎn)科電子病歷數(shù)據(jù)與目標(biāo)數(shù)據(jù)結(jié)構(gòu)基本一樣,但是新生兒科電子病歷數(shù)據(jù)需要從個(gè)人史和現(xiàn)病史中拆分出孕周和分娩方式。本文用到的文字解析方法是關(guān)鍵詞劃分,比如再個(gè)人史中通過(guò)截取“孕周”和第N 個(gè)“周”之間的字符,然后通過(guò)正則表達(dá)式判斷需要的部分,刪除不需要的部分,來(lái)得出最終的孕周數(shù)字“27”。對(duì)于更復(fù)雜的情況,可以借助NLP 工具來(lái)進(jìn)行處理。
數(shù)據(jù)清洗:數(shù)據(jù)清洗的過(guò)程可能不止一次,依據(jù)數(shù)據(jù)的情況而定。比如人名、電話(huà)、地址中也存在無(wú)效字符、多余空格等問(wèn)題,這些可以使用SQL 查詢(xún)腳本進(jìn)行去除與置空。
整合與去重:每個(gè)新生兒的產(chǎn)科出生病歷只有一份,但是一些新生兒可能會(huì)有多次新生兒科的就診。對(duì)于同個(gè)院內(nèi)患者標(biāo)識(shí)的新生兒病歷數(shù)據(jù)只需要整理出一份最全的目標(biāo)信息項(xiàng)即可。
統(tǒng)一值域:已表3表4為例,新生兒科記錄分娩方式為經(jīng)陰道分娩,但是在產(chǎn)科記錄的是順產(chǎn),其實(shí)是同種分娩方式的不同表達(dá)。兩組數(shù)據(jù)的分娩方式需要先轉(zhuǎn)換成同一個(gè)標(biāo)準(zhǔn)值域才能進(jìn)行匹配。
數(shù)據(jù)處理完畢后,本實(shí)驗(yàn)使用上文提到的相似度計(jì)算公式計(jì)算每一條記錄的相似度值Sim(,),其中∈,∈。接下來(lái)設(shè)置閾值,在不同閾值下匹配出結(jié)果,結(jié)果會(huì)存在下述兩類(lèi)錯(cuò)誤。
第一類(lèi)錯(cuò)誤概率:在集合中沒(méi)有匹配到對(duì)應(yīng)的,即我院產(chǎn)科出生的新生兒科患者匹配不到其在產(chǎn)科創(chuàng)建的患者信息的概率。
第二類(lèi)錯(cuò)誤概率:在集合中匹配到的實(shí)際上不是同一人的概率,即匹配結(jié)果錯(cuò)誤的概率。
實(shí)驗(yàn)采用5%的間隔逐步升高閾值,匹配出結(jié)果,計(jì)算出第一類(lèi)錯(cuò)誤,然后按照1%的比例隨機(jī)抽取匹配結(jié)果,通過(guò)人工核對(duì)嬰兒電子病歷信息、嬰兒腳掌印等方式去判斷匹配結(jié)果是否正確,計(jì)算出第二類(lèi)錯(cuò)誤的概率。然后根據(jù)不同閾值所對(duì)應(yīng)的第一類(lèi)錯(cuò)誤概率和第二類(lèi)錯(cuò)誤概率繪出模型效果評(píng)價(jià)圖如圖1所示。
圖1 模型效果評(píng)價(jià)
觀(guān)察圖片得知第一類(lèi)錯(cuò)誤與第二類(lèi)錯(cuò)誤此消彼長(zhǎng),當(dāng)閾值在45%時(shí),兩者相較達(dá)到平衡,此時(shí)第一類(lèi)錯(cuò)誤和第二類(lèi)錯(cuò)誤分別為4.07%和3.03%,滿(mǎn)足大多數(shù)統(tǒng)計(jì)分析的顯著性要求。此結(jié)果可以運(yùn)用在科研分析平臺(tái)中,對(duì)歷史數(shù)據(jù)進(jìn)行有效整合,提高醫(yī)療健康檔案的連續(xù)性和完整性。
表5 非單胎新生兒的區(qū)分信息項(xiàng)
對(duì)于雙胞胎,三胞胎和高序多胎的同性別新生兒患者而言,只依據(jù)1 至10 的信息項(xiàng)無(wú)法區(qū)分出生順序,而出生序號(hào)在新生兒科的記錄中缺失較為嚴(yán)重或者難以提取。出生體重和出生體長(zhǎng)可以較為容易地從產(chǎn)科分娩登記表、新生兒科電子病歷中獲取,完整度優(yōu)于只有產(chǎn)科才會(huì)詳細(xì)記錄的出身序號(hào),所以可以利用這兩項(xiàng)靜態(tài)數(shù)值信息項(xiàng)用于非單胎新生兒的二次匹配,以此區(qū)分患兒個(gè)體。對(duì)于無(wú)法判斷出生序號(hào)的多胎新生兒科患者,可以先完成第一步匹配,標(biāo)準(zhǔn)化出生體重和出生體長(zhǎng)后再計(jì)算歐式距離,歐式距離越小說(shuō)明更有可能是同一個(gè)人。
本文針對(duì)新生兒患者身份信息在傳統(tǒng)EMPI 平臺(tái)中無(wú)法有效整合的弊端,給出了新生兒患者主索引的構(gòu)建方案。通過(guò)重構(gòu)新生兒EMPI 平臺(tái)用于計(jì)算相似度的信息項(xiàng)和權(quán)重值來(lái)計(jì)算新生兒患者之間的相似度,對(duì)于達(dá)到相似度閾值的患兒進(jìn)行合并。利用出生體重和身長(zhǎng),進(jìn)行二次相似度匹配,區(qū)分出非單胎患兒的不同個(gè)體。讓新生兒患者在不同科室、不同階段、不同業(yè)務(wù)中的臨床數(shù)據(jù)構(gòu)成一份連續(xù)完整的醫(yī)療健康檔案,為母嬰臨床數(shù)據(jù)的區(qū)域共享與醫(yī)學(xué)研究打下堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。