劉方 李健明 王藝元 陳汝林 沈文婷
【摘 要】區(qū)域醫(yī)療信息平臺(tái)是連接區(qū)域內(nèi)多家醫(yī)療機(jī)構(gòu)信息系統(tǒng)的信息共享和交換的平臺(tái),醫(yī)療信息共享能夠最大限度地提高醫(yī)療服務(wù)的可及性、提升醫(yī)療診斷的質(zhì)量和效率、降低病人就醫(yī)的成本和風(fēng)險(xiǎn)。經(jīng)過多年的努力,深圳市福田區(qū)建設(shè)的區(qū)域醫(yī)療衛(wèi)生數(shù)據(jù)交換平臺(tái)基本完成。為了整合區(qū)域范圍內(nèi)不同醫(yī)療機(jī)構(gòu)的信息系統(tǒng),實(shí)現(xiàn)區(qū)域醫(yī)療信息共享和交換,需要解決相同病人在不同醫(yī)療信息系統(tǒng)中的身份標(biāo)識(shí)號(hào)如何進(jìn)行關(guān)聯(lián)的問題。本文中的病人主索引優(yōu)化方法是在福田區(qū)衛(wèi)計(jì)委在區(qū)域醫(yī)療衛(wèi)生信息平臺(tái)統(tǒng)建設(shè)的成果上,嘗試在主索引建立過程中病人身份屬性的優(yōu)先級(jí)分類及逐級(jí)匹配實(shí)現(xiàn)主索引的建立,從而改善匹配效率低和準(zhǔn)確性低等問題。本方法基于優(yōu)先級(jí)進(jìn)行逐級(jí)匹配,過程簡(jiǎn)單,匹配效率高,匹配準(zhǔn)確性高。
【關(guān)鍵詞】區(qū)域醫(yī)療衛(wèi)生信息平臺(tái);互連互通;病人主索引;匹配算法
【中圖分類號(hào)】R197 【文獻(xiàn)標(biāo)志碼】A 【文章編號(hào)】1005-0019(2018)10-261-01
Abstract Regional health information platform is the connection of several medical institutions information system in the area of information sharing and exchange platform for the medical information sharing can maximize the accessibility of medical service, improve the quality and efficiency of medical diagnosis, reduce costs and risks of a patient.After years of efforts, the shenzhen futian district construction of regional health data exchange platform basically completed.To integrate regional scale information systems of different medical institutions, realize the regional medical information sharing and exchange, the same patients need to be solved in the information system of different medical identification number how to carry out the related problems.Main index optimization method in this paper, the patient is in futian district health development planning commission on achievements of the construction of the regional health information platform system, try to patients in the process of the main indexes to establish identity attribute of priority classification and match step by step to realize the establishment of the main index, so as to improve the matching
(一)概述
近年來,醫(yī)療衛(wèi)生體制改革的不斷深入,各級(jí)醫(yī)院以及醫(yī)療衛(wèi)生管理機(jī)構(gòu)的信息化建設(shè)得到了很大的發(fā)展。經(jīng)過多年的努力,深圳市福田區(qū)建設(shè)的區(qū)域醫(yī)療衛(wèi)生數(shù)據(jù)交換平臺(tái)基本完成。截止到目前,區(qū)域平臺(tái)已接入了5家公立醫(yī)院,77家社康中心及多個(gè)公衛(wèi)機(jī)構(gòu)的系統(tǒng),涵蓋門(急)診、住院、成人健康體檢、社康全科診療,婦幼保?。ㄔ袐D建檔)、預(yù)防接種等方面健康檔案數(shù)據(jù)。健康檔案數(shù)據(jù)庫(kù)已超過170多萬筆業(yè)務(wù)數(shù)據(jù),建立了11多萬份健康檔案,結(jié)構(gòu)化數(shù)據(jù)容量超過1TB。
區(qū)域醫(yī)療信息平臺(tái)是連接區(qū)域內(nèi)多家醫(yī)療機(jī)構(gòu)信息系統(tǒng)的信息共享和交換的平臺(tái),醫(yī)療信息共享能夠最大限度地提高醫(yī)療服務(wù)的可及性、提升醫(yī)療診斷的質(zhì)量和效率、降低病人就醫(yī)的成本和風(fēng)險(xiǎn)。我國(guó)醫(yī)療信息系統(tǒng)具有垂直建設(shè)的特點(diǎn),區(qū)域內(nèi)的不同性質(zhì)的醫(yī)療機(jī)構(gòu),如綜合性醫(yī)院、社區(qū)衛(wèi)生服務(wù)中心、婦幼保健院、公共衛(wèi)生專業(yè)機(jī)構(gòu)、??漆t(yī)院等,相對(duì)獨(dú)立地開展業(yè)務(wù),病人信息分散在多個(gè)相互封閉的信息系統(tǒng)中,不能有效地共享和交換。為了整合區(qū)域范圍內(nèi)不同醫(yī)療機(jī)構(gòu)的信息系統(tǒng),實(shí)現(xiàn)區(qū)域醫(yī)療信息共享和交換,需要解決相同病人在不同醫(yī)療信息系統(tǒng)中的身份標(biāo)識(shí)號(hào)如何進(jìn)行關(guān)聯(lián)的問題。
美國(guó)放射學(xué)會(huì)(Radiological Society of North America,RSNA)及美國(guó)醫(yī)療信息和管理系統(tǒng)學(xué)會(huì)(Healthcare Information and Management Systems Society,HIMSS)等多家機(jī)構(gòu)共同發(fā)起并提供了一種集成醫(yī)療企業(yè)醫(yī)療(integration healthcare enterprise,IHE)健康信息集成規(guī)范,其中的病人身份交叉索引(patient identifier cross-referencing,PIX)技術(shù)框架為關(guān)聯(lián)不同醫(yī)療機(jī)構(gòu)的病人身份標(biāo)識(shí)號(hào)提供了指導(dǎo)標(biāo)準(zhǔn)。IHE PIX技術(shù)框架定了三種角色,分別為病人身份源(patient identity source)、PIX管理器(PIX manager)以及PIX使用者(PIX consumer)。PIX管理器可接收多個(gè)病人身份源提供的病人注冊(cè)信息,并通過唯一的主索引將多個(gè)病人身份源關(guān)聯(lián)在一起,并為PIX使用者提供查詢服務(wù)。其中,主索引是指在特定區(qū)域范圍內(nèi),用來標(biāo)識(shí)每個(gè)病人并保持其唯一性的編碼。
建立共享域范圍的病人主索引(master patient index,MPI)是PIX管理器的核心功能,一般通過病人信息匹配來實(shí)現(xiàn)。目前,最常采用的方法是對(duì)病人身份屬性進(jìn)行逐項(xiàng)匹配并根據(jù)各項(xiàng)屬性的權(quán)重計(jì)算匹配程度。這類方法的弊端是:各屬性的權(quán)重之和必須為1,當(dāng)任意屬性缺失時(shí),必須重新調(diào)整其余所有屬性的權(quán)重。在實(shí)際應(yīng)用中,由于不同醫(yī)療機(jī)構(gòu)登記個(gè)人信息時(shí)可能存在填寫不規(guī)范、不完全甚至出現(xiàn)偏差等情況,病人身份屬性的錯(cuò)誤率和缺失率較高,區(qū)域醫(yī)療信息平臺(tái)覆蓋的病人眾多,醫(yī)療機(jī)構(gòu)數(shù)據(jù)龐大,權(quán)重的調(diào)整流程十分復(fù)雜,嚴(yán)重影響病人主索引建立方法的效率性和準(zhǔn)確性,導(dǎo)致病人主索引在區(qū)域醫(yī)療中的使用價(jià)值顯著降低。
本文中的病人主索引優(yōu)化方法是在福田區(qū)衛(wèi)計(jì)委在區(qū)域醫(yī)療衛(wèi)生信息平臺(tái)統(tǒng)建設(shè)的成果上,嘗試在主索引建立過程中病人身份屬性的優(yōu)先級(jí)分類及逐級(jí)匹配實(shí)現(xiàn)主索引的建立,從而改善匹配效率低和準(zhǔn)確性低等問題。本方法基于優(yōu)先級(jí)進(jìn)行逐級(jí)匹配,過程簡(jiǎn)單,匹配效率高,匹配準(zhǔn)確性高。
(二)MPI的建立優(yōu)化方法實(shí)施步驟
區(qū)域醫(yī)療信息平臺(tái)的互聯(lián)互通與應(yīng)用,依賴于病人主索引的建立和準(zhǔn)確引導(dǎo)。目前建立病人主索引(MPI)最常采用的方法是對(duì)病人身份屬性進(jìn)行逐項(xiàng)匹配并根據(jù)各項(xiàng)屬性的權(quán)重計(jì)算匹配程度。其弊端是:當(dāng)任意屬性缺失時(shí),必須重新調(diào)整其余所有屬性的權(quán)重,由于實(shí)際當(dāng)中病人身份屬性的錯(cuò)誤率和缺失率較高,會(huì)嚴(yán)重影響病人主索引建立方法的效率性和準(zhǔn)確性,導(dǎo)致病人主索引在區(qū)域醫(yī)療中的使用價(jià)值顯著降低,進(jìn)一步影響區(qū)域醫(yī)療信息平臺(tái)的互聯(lián)互通和相關(guān)應(yīng)用的有效開展。
本文提出一種面向區(qū)域醫(yī)療的病人主索引建立方法,解決主索引建立過程中病人身份屬性的優(yōu)先級(jí)分類及逐級(jí)匹配實(shí)現(xiàn)主索引的建立,從而改善匹配效率低和準(zhǔn)確性低等問題。病人主索引建立方法,包括如下步驟:
步驟(1):將注冊(cè)病人的N種病人身份屬性根據(jù)事先按優(yōu)先級(jí)劃分的n個(gè)等級(jí)進(jìn)行分類,其中每個(gè)所述等級(jí)含有Mi種身份屬性,其中Mi為小于等于N的整數(shù),i表示等級(jí),為小于等于n的正整數(shù);
步驟(2):將Mi種身份屬性與當(dāng)前數(shù)據(jù)集合中的身份屬性進(jìn)行匹配,記匹配結(jié)果為數(shù)據(jù)集合Pi;
步驟(3):當(dāng)所述集合Pi含有零個(gè)元素,即所述Mi種身份屬性與所述當(dāng)前數(shù)據(jù)集合中病人的身份屬性不匹配,則為注冊(cè)病人建立主索引;
當(dāng)集合Pi只含有一個(gè)元素,即Mi種身份屬性與所述當(dāng)前數(shù)據(jù)集合中的一個(gè)病人的身份屬性匹配,則為注冊(cè)病人匹配數(shù)據(jù)建立交叉索引;
當(dāng)集合Pi至少含有兩個(gè)元素,即Mi種身份屬性與所述當(dāng)前數(shù)據(jù)集合中多個(gè)病人的身份屬性匹配,則進(jìn)入下一個(gè)級(jí)別,即i加1,并轉(zhuǎn)到所述步驟(2)重新匹配。
當(dāng)n為5,按優(yōu)先級(jí)高低依次為精確匹配屬性、關(guān)鍵匹配屬性、模糊匹配屬性、輔助匹配屬性和不匹配屬性。
在執(zhí)行步驟(2)之前判斷M1的值,M1的值不為0,則步驟(2)中的Mi為M1,并記匹配結(jié)果為數(shù)據(jù)集合P1; M1的值為0,則步驟(2)中的Mi中的i為大于1且小于等于n的正整數(shù),并記匹配結(jié)果為數(shù)據(jù)集合Pi。
相似度值的計(jì)算公式為:
向量B中包括的各項(xiàng)第i等級(jí)身份屬性不相關(guān),則相似度值的計(jì)算公式為:
similarity(BBBj)=1N1∑N1n1=1θ(Bn1,BBn1j)
其中,向量B=(B1,B2…,BN1),N1為向量B包括的第i等級(jí)身份屬性的數(shù)量,也為向量BBj包括的第i等級(jí)身份屬性的數(shù)量;向量BBj={BB1j,BB2j,…,BBN1j}; j表示數(shù)據(jù)集合Pi-1中的第j個(gè)病人;θ為字符串匹配函數(shù);
向量B中包含的各項(xiàng)第i等級(jí)身份屬性相關(guān),則所述相似度值的計(jì)算公式為:similarity(BBBj)=1N1∑N1n1=1θ(Bn1,BBn1j)
其中,向量B=(B1,B2…,BN1),N1為向量B包括的第i等級(jí)身份屬性的數(shù)量;向量BBj={BB1j,BB2j,…,BBN1j},N2為向量BBj包括的第i等級(jí)身份屬性的數(shù)量; j表示數(shù)據(jù)集合Pi-1的第j個(gè)病人;θ為字符串匹配函數(shù)。
優(yōu)先級(jí)劃分單元:用于將注冊(cè)病人的N種病人身份屬性根據(jù)事先按優(yōu)先級(jí)劃分的n個(gè)等級(jí)進(jìn)行分類,其中每個(gè)所述等級(jí)含有Mi種身份屬性,其中Mi為小于等于N的整數(shù),i表示等級(jí),為小于等于n的正整數(shù);
匹配單元:用于將所述優(yōu)先級(jí)劃分單元?jiǎng)澐趾蟮腗i種身份屬性與當(dāng)前數(shù)據(jù)集合中的身份屬性進(jìn)行匹配,記匹配結(jié)果為數(shù)據(jù)集合Pi;
主索引建立單元:用于如權(quán)利要求1所述的方法中為所述注冊(cè)病人建立主索引。
與現(xiàn)有技術(shù)相比,上述技術(shù)方案引入了對(duì)病人身份屬性的等級(jí)分類,使用的病人身份屬性更為全面,保證了身份匹配的準(zhǔn)確性和可靠性,而且無需為各項(xiàng)屬性分配權(quán)重,當(dāng)任意屬性缺失時(shí),也無需采取繁瑣的方法重新調(diào)整各項(xiàng)屬性的權(quán)重,操作流程簡(jiǎn)單,具有更好的實(shí)用性。
通過逐級(jí)匹配的方法對(duì)病人身份屬性進(jìn)行匹配,在保證匹配準(zhǔn)確率的同時(shí),可以大幅度減少匹配次數(shù),使得病人主索引建立的同時(shí)具備效率性和準(zhǔn)確性,而且在分級(jí)匹配過程中可以根據(jù)實(shí)際需要快速、便捷地調(diào)整匹配算法和匹配閾值,提高匹配結(jié)果的準(zhǔn)確性;引入人工處理的方式來處理可能出現(xiàn)多條匹配記錄的情況,保證病人主索引的唯一性和可靠性,提高病人主索引的實(shí)用價(jià)值。
(三)方法實(shí)例
以HL7(Health Level 7,衛(wèi)生信息交換標(biāo)準(zhǔn))標(biāo)準(zhǔn)中定義的30種病人身份屬性為例,根據(jù)精確性和重要性將HL7標(biāo)準(zhǔn)中定義的30種病人身份屬性按優(yōu)先級(jí)高低劃分為精確匹配屬性、關(guān)鍵匹配屬性、模糊匹配屬性、輔助匹配屬性和不匹配屬性五個(gè)等級(jí)(如圖1所示),即n=5。其中,各等級(jí)內(nèi)所包含的身份屬性可以根據(jù)實(shí)際情況改變。
首先,執(zhí)行步驟S1,將注冊(cè)病人的N種病人身份屬性根據(jù)事先按優(yōu)先級(jí)劃分的5個(gè)等級(jí)進(jìn)行分類,其中每個(gè)所述等級(jí)含有Mi種身份屬性,其中Mi為小于等于N的整數(shù),i表示等級(jí),為小于等于n的正整數(shù)。
假設(shè)注冊(cè)病人含有11種病人身份屬性(如圖2所示),即N=11,將這11種病人身份屬性和HL7標(biāo)準(zhǔn)中定義的30種病人身份屬性進(jìn)行比較,可知,其中每個(gè)等級(jí)含有的身份屬性分別為1,5,2,2和1,即M1=1,M2=5,M3=2,M4=2,M5=1。Mi的值根據(jù)實(shí)際注冊(cè)病人提供的信息進(jìn)行確定。
接著,執(zhí)行步驟S2,將Mi種身份屬性與當(dāng)前數(shù)據(jù)集合中的身份屬性進(jìn)行匹配,記匹配結(jié)果為數(shù)據(jù)集合Pi。在執(zhí)行上述步驟(2)之前判斷M1的值,所述M1的值不為0,則上述步驟(2)中的Mi為M1,并記匹配結(jié)果為數(shù)據(jù)集合P1;所述M1的值為0,則上述步驟(2)中的Mi的中的i為大于1且小于等于n的正整數(shù),并記匹配結(jié)果為數(shù)據(jù)集合Pi。
根據(jù)步驟S1可知,注冊(cè)病人含有一個(gè)精確匹配屬性,即M1=1,則將1種病人身份屬性(身份標(biāo)識(shí)號(hào))與存放病人主索引數(shù)據(jù)庫(kù)(MPI數(shù)據(jù)庫(kù))中的精確匹配屬性(身份標(biāo)識(shí)號(hào))進(jìn)行匹配,記匹配結(jié)果為數(shù)據(jù)集合P1。具體的匹配過程為:根據(jù)所述1種病人身份屬性(身份標(biāo)識(shí)號(hào))創(chuàng)建向量A={A1,A2,…,AL1},向量A中的元素為注冊(cè)病人的非空精確匹配屬性(身份標(biāo)識(shí)號(hào));接著根據(jù)MPI數(shù)據(jù)庫(kù)中第j個(gè)病人的精確匹配屬性(身份標(biāo)識(shí)號(hào))創(chuàng)建向量AAf={AA1j,AA2j…,AAL2j},向量AAj中的元素為MPI數(shù)據(jù)庫(kù)中第j個(gè)病人的非空精確匹配屬性(身份標(biāo)識(shí)號(hào));交叉比較向量A和向量AAj中的元素,遍歷整個(gè)MPI數(shù)據(jù)庫(kù),即將注冊(cè)病人的身份標(biāo)識(shí)號(hào)和MPI數(shù)據(jù)庫(kù)中每一個(gè)病人的身份標(biāo)識(shí)號(hào)都進(jìn)行了比較,將兩個(gè)向量中完全相同的元素放入P1中,所述P1中的元素為和注冊(cè)病人身份標(biāo)識(shí)號(hào)這個(gè)身份屬性匹配的病人(匹配數(shù)據(jù)),即如果向量A和向量AA5(j=5)中的元素完全相同,則表示注冊(cè)病人和MPI數(shù)據(jù)庫(kù)中第5個(gè)病人的身份屬性匹配,則將第5個(gè)病人放入P1中。其中,如果注冊(cè)病人的精確匹配屬性為身份標(biāo)識(shí)號(hào)列表,并且身份標(biāo)識(shí)號(hào)列表非空,則將其中的每個(gè)元素拆分出來,分別放入向量A中,則相應(yīng)地,將MPI數(shù)據(jù)庫(kù)中第j個(gè)病人的身份標(biāo)識(shí)號(hào)列表中的每個(gè)元素拆分出來放入向量AAj中。
如果注冊(cè)病人的N種身份屬性中不含有精確匹配屬性,即M1為0,則將注冊(cè)病人的N種身份屬性中的M2種身份屬性,即關(guān)鍵匹配屬性,與MPI數(shù)據(jù)庫(kù)中的關(guān)鍵匹配屬性進(jìn)行匹配,記匹配結(jié)果為數(shù)據(jù)集合P2。具體的匹配過程(如圖3所示),先執(zhí)行S201,根據(jù)所述M2種身份屬性創(chuàng)建向量B;接著執(zhí)行S202,根據(jù)數(shù)據(jù)庫(kù)中第j個(gè)病人的關(guān)鍵身份屬性創(chuàng)建向量BBj;再接著執(zhí)行S203,計(jì)算向量B和向量BBj的相似度值;最后執(zhí)行S204,比較所述相似度值和預(yù)先設(shè)定閾值的大小,則確定數(shù)據(jù)集合P2,所述集合P2中的元素為和注冊(cè)病人M2種身份屬性匹配的病人(匹配數(shù)據(jù))。
向量B中包括的各項(xiàng)關(guān)鍵身份屬性不相關(guān),則所述相似度值的計(jì)算公式為:
similarity(BBBj)=1N1∑N1n1=1θ(Bn1,BBn1j)(公式1)。其中,向量B=(B1,B2…,BN1),N1為向量B包括的關(guān)鍵身份屬性的數(shù)量,也為向量BBj包括的關(guān)鍵身份屬性的數(shù)量;向量BBj={BB1j,BB2j,…,BBN1j}; j表示MPI數(shù)據(jù)庫(kù)中的第j個(gè)病人;θ為字符串匹配函數(shù)。
當(dāng)所述向量B中包括的各項(xiàng)第i等級(jí)身份屬性相關(guān),則所述相似度值的計(jì)算公式為:
similarity(BjBBj)=1N1∑N1n1=1max1sn2·sN2θ(Bn1,BBn2j)(公式2)。其中,向量B={B1,B2…,BN1},N1為向量B包括的關(guān)鍵身份屬性的數(shù)量;向量BBj={BB1j,B2j,…,BN2j},N2為向量BBj包括的關(guān)鍵身份屬性的數(shù)量; j表示MPI數(shù)據(jù)庫(kù)中的第j個(gè)病人;θ為字符串匹配函數(shù)。
再接著執(zhí)行步驟S3,當(dāng)所述集合Pi為含有零個(gè)元素,即所述Mi種身份屬性與所述當(dāng)前數(shù)據(jù)集合中病人的身份屬性不匹配,則執(zhí)行步驟S4,為注冊(cè)病人建立主索引;當(dāng)所述集合Pi只含有一個(gè)元素,即所述Mi種身份屬性與所述數(shù)據(jù)庫(kù)中的一個(gè)病人的身份屬性匹配,則執(zhí)行步驟S5,為注冊(cè)病人和匹配數(shù)據(jù)建立交叉索引;當(dāng)所述集合Pi至少含有兩個(gè)元素,即所述Mi種身份屬性與數(shù)據(jù)庫(kù)中多個(gè)病人的身份屬性匹配,則進(jìn)入下一個(gè)級(jí)別,即i加1,并轉(zhuǎn)到所述步驟S2重新匹配。在本實(shí)例中,具體地,在步驟S2中確定了數(shù)據(jù)集合P1,當(dāng)P1為含有零個(gè)元素,即向量A和向量AAj不完全相同,則為注冊(cè)病人建立新的主索引,當(dāng)P1非空,即向量A和向量AAj完全相同,則為注冊(cè)病人和P1中的匹配病人建立交叉索引,由步驟S2中可知,P1中含有MPI數(shù)據(jù)庫(kù)中的第5個(gè)病人,則為注冊(cè)病人和MPI數(shù)據(jù)中的第5個(gè)病人建立交叉索引。
在注冊(cè)病人不含有精確匹配屬性的情況下,上述步驟S2中確定了數(shù)據(jù)集合P2,當(dāng)P2為含有零個(gè)元素,則執(zhí)行步驟S4,為注冊(cè)病人建立新的主索引;當(dāng)P2非空且只含有一個(gè)元素,則執(zhí)行步驟S5,為注冊(cè)病人和P2中的匹配病人建立交叉索引;當(dāng)P2非空且至少含有兩個(gè)元素,即注冊(cè)病人的5種關(guān)鍵身份屬性至少和MPI數(shù)據(jù)中的兩個(gè)病人的關(guān)鍵身份屬性匹配,則進(jìn)入下一級(jí)別,即模糊匹配,并轉(zhuǎn)到步驟S2重新匹配,此時(shí),將注冊(cè)病人的M3(M3=2)種模糊匹配屬性(出生日期和性別)與數(shù)據(jù)集合P2中病人的模糊屬性(出生日期和性別)進(jìn)行匹配,并確定數(shù)據(jù)集合P3。其中,匹配的過程和關(guān)鍵屬性匹配的過程相同,在計(jì)算相似度的公式(1)和公式(2)中j表示的是數(shù)據(jù)集合P2中的第j個(gè)病人。再根據(jù)數(shù)據(jù)集合P3中含有的元素個(gè)數(shù)來建立主索引,該過程如集合P2。當(dāng)集合P3至少含有兩個(gè)元素,則進(jìn)入下一個(gè)級(jí)別,即輔助匹配,并轉(zhuǎn)到步驟(2)重新匹配,此時(shí),將注冊(cè)病人的M4(M4=2)種輔助匹配屬性(聯(lián)系地址和家庭電話號(hào)碼)與數(shù)據(jù)集合P3中的病人輔助屬性(聯(lián)系地址和家庭電話號(hào)碼)進(jìn)行匹配,并確定數(shù)據(jù)集合P4,之后的過程如上述,在計(jì)算相似度的公式(1)和公式(2)中j表示的是數(shù)據(jù)集合P3中的第j個(gè)病人。當(dāng)集合P4至少含有兩個(gè)元素,由于不匹配等級(jí)并不參與匹配,則通過人工處理的方式來處理數(shù)據(jù),以保證病人主索引的唯一性和可靠性。
通過專門的功能實(shí)現(xiàn)模塊,配合經(jīng)以上方法處理的病人分類,建立病人主索引(如圖4所示)。功能實(shí)現(xiàn)模塊包括:優(yōu)先級(jí)劃分單元1、匹配單元2和主索引建立單元3。
優(yōu)先級(jí)劃分單元1適于將注冊(cè)病人的N種身份屬性根據(jù)事先按優(yōu)先級(jí)劃分的n個(gè)等級(jí)進(jìn)行分類,其中每個(gè)所述等級(jí)含有Mi種身份屬性,其中Mi為小于等于N的整數(shù),i表示等級(jí),為小于等于n的正整數(shù)。在本實(shí)例中,注冊(cè)病人11種病人屬性和HL7標(biāo)準(zhǔn)中定義的30種病人身份屬性進(jìn)行比較,則自動(dòng)將注冊(cè)病人的N種病人屬性進(jìn)行了劃分(如圖2所示)。
匹配單元2適于將所述優(yōu)先級(jí)劃分單元?jiǎng)澐趾蟮腗i種身份屬性與當(dāng)前數(shù)據(jù)集合中的身份屬性進(jìn)行匹配,記匹配結(jié)果為數(shù)據(jù)集合Pi。匹配單元中的確定集合單元包括創(chuàng)建向量單元、計(jì)算單元和比較單元。創(chuàng)建向量單元適于根據(jù)所述Mi種身份屬性創(chuàng)建向量B,并根據(jù)數(shù)據(jù)庫(kù)中第j個(gè)病人的第i等級(jí)的身份屬性創(chuàng)建向量BBj;計(jì)算單元適于計(jì)算向量B和向量BBj的相似度值;比較單元適于比較所述相似度值和預(yù)先設(shè)定閾值的大小,則確定數(shù)據(jù)集合Pi。
主索引建立單元3適于在以上方法中為所述注冊(cè)病人建立主索引。在本實(shí)例中,當(dāng)匹配單元中的P1為含有零個(gè)元素,則為注冊(cè)病人建立新的主索引;當(dāng)匹配單元中的P1非空,將為注冊(cè)病人和P1中的匹配病人建立交叉索引。當(dāng)匹配單元中的P2為含有零個(gè)元素,則為注冊(cè)病人建立新的主索引;當(dāng)匹配單元中的P2只含有一個(gè)元素,則為注冊(cè)病人和P2中的匹配數(shù)據(jù)建立交叉索引;當(dāng)匹配單元中P2至少含有兩個(gè)元素,則進(jìn)入下一級(jí)別,即模糊匹配,并轉(zhuǎn)到匹配單元重新匹配,此時(shí),匹配單元適于將注冊(cè)病人的M3種模糊匹配屬性與數(shù)據(jù)集合P2中的病人模糊屬性進(jìn)行匹配,并確定數(shù)據(jù)集合P3。再根據(jù)集合P3的情況來進(jìn)行后面的匹配,具體的過程如上述所述,當(dāng)進(jìn)行最后一級(jí)匹配所確定的集合中還含有至少兩個(gè)以上元素,則轉(zhuǎn)入人工處理單元。
(四)MPI建立優(yōu)化算法流程圖
(五)結(jié)論
深圳市福田區(qū)區(qū)域醫(yī)療衛(wèi)生數(shù)據(jù)交換平臺(tái)已接入了5家公立醫(yī)院,77家社康中心及多個(gè)公衛(wèi)機(jī)構(gòu)的系統(tǒng),健康檔案數(shù)據(jù)庫(kù)已超過170多萬筆業(yè)務(wù)數(shù)據(jù),平均每天產(chǎn)生20萬以上的診療數(shù)據(jù)量。
選取福田區(qū)區(qū)域醫(yī)療衛(wèi)生數(shù)據(jù)交換平臺(tái)截至2017年底的門診住院的病人信息量和病人信息登記表,優(yōu)化前后的病人主索引信息數(shù)據(jù)數(shù)量對(duì)比:
因此,本病人主索引建立的優(yōu)化方法具有以下優(yōu)點(diǎn):
(1)可自定義更改身份屬性匹配登記,根據(jù)當(dāng)?shù)亻T診住院對(duì)病人身份的登記偏好和實(shí)際情況調(diào)整病人主索引的匹配優(yōu)化效率和準(zhǔn)確率;
(2)通過本優(yōu)化方法,能顯著提高區(qū)域醫(yī)療衛(wèi)生系統(tǒng)門診住院信息的病人主索引率,提高平臺(tái)整體的信息互聯(lián)互通效率和應(yīng)用效果。
在各家醫(yī)療機(jī)構(gòu)登記病人的個(gè)人信息時(shí)普遍存在填寫不規(guī)范、不完全甚至出現(xiàn)偏差等情況,導(dǎo)致病人身份屬性的錯(cuò)誤率和缺失率較高的數(shù)據(jù)質(zhì)量現(xiàn)狀條件下,從實(shí)驗(yàn)數(shù)據(jù)結(jié)果中可看出,在采用傳統(tǒng)的病人主索引建立技術(shù)和方法時(shí),建立索引的比例明顯小于采用優(yōu)化后的比例。
而通過區(qū)域醫(yī)療衛(wèi)生數(shù)據(jù)交換平臺(tái)進(jìn)行互聯(lián)互通時(shí),病人主索引是數(shù)據(jù)互聯(lián)互通、應(yīng)用的基礎(chǔ),對(duì)數(shù)據(jù)利用效率、準(zhǔn)確性和應(yīng)用的有效性有明顯的影響,因此提高病人主索引的建立比例和質(zhì)量,有利于數(shù)據(jù)互聯(lián)互通、平臺(tái)應(yīng)用和大數(shù)據(jù)的挖掘。
參考文獻(xiàn)
[1] 基于SOA解決異構(gòu)醫(yī)療信息系統(tǒng)的互聯(lián)互通 何安勇 上海交通大學(xué),2010
[2] 區(qū)域醫(yī)療信息共享平臺(tái)構(gòu)建理論與實(shí)踐的研究 何琳《天津醫(yī)科大學(xué)》,2010