劉勇 陳文生
摘要:結(jié)構(gòu)化電子病歷具有數(shù)據(jù)標(biāo)準(zhǔn)化程度高、數(shù)據(jù)檢索方便的優(yōu)點(diǎn),能夠?yàn)檠C醫(yī)學(xué)、科研、教學(xué)提供有效的信息支撐,電子病歷數(shù)據(jù)錄入的質(zhì)量會(huì)影響臨床管理和決策水平。本文首先分析了影響電子病歷錄入質(zhì)量的相關(guān)因素,在此基礎(chǔ)上提出了電子病歷術(shù)語(yǔ)規(guī)范化流程,總結(jié)了關(guān)鍵技術(shù)、系統(tǒng)實(shí)現(xiàn)及界面設(shè)計(jì)經(jīng)驗(yàn),旨在為臨床提供客觀、準(zhǔn)確的數(shù)據(jù)以及實(shí)現(xiàn)輔助臨床診斷提供參考。
關(guān)鍵詞:電子病歷;術(shù)語(yǔ);規(guī)范化;輔助診斷
中圖分類(lèi)號(hào):R197.323? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:B? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.14.003
文章編號(hào):1006-1959(2020)14-0007-03
Electronic Medical Record Terminology Standardization Process and
Design of Clinical Assistant Diagnosis System
LIU Yong1,CHEN Wen-sheng2
(1.Information Center,Nanjing Jiangbei People's Hospital,Nanjing 210048,Jiangsu,China;
2.Library of Nanjing Vocational College of Science and Technology,Nanjing 210048,Jiangsu,China)
Abstract:The structured electronic medical record has the advantages of high data standardization and convenient data retrieval, and can provide effective information support for evidence-based medicine, scientific research, and teaching. The quality of electronic medical record data entry will affect clinical management and decision-making. This article first analyzes the relevant factors that affect the quality of electronic medical record entry, on this basis, it proposes a standardized process of electronic medical record terminology, summarizes key technologies, system implementation, and interface design experience, and aims to provide clinical and objective data and implementation assistance provide a reference for clinical diagnosis.
Key words:Electronic medical records;Terminology;Standardized;Auxiliary diagnosis
目前國(guó)內(nèi)主流的電子病歷系統(tǒng)在設(shè)計(jì)的時(shí)候也考慮到用結(jié)構(gòu)化的方法來(lái)實(shí)現(xiàn),但是由于醫(yī)學(xué)的復(fù)雜性和多變性,結(jié)構(gòu)化的電子病歷實(shí)施難度較高,且必須確保有醫(yī)療背景的高級(jí)用戶參與,參與程度則直接影響使用效果[1]。此外,結(jié)構(gòu)化病歷由于采取的是基于表格模板的一種方式,使得臨床醫(yī)生的自主決定的靈活性降低,部分功能如主訴等由于專(zhuān)業(yè)特異性不高,醫(yī)生常常選擇使用自由文本進(jìn)行錄入[2],因此存在不規(guī)范的信息錄入,從而影響電子病歷的書(shū)寫(xiě)質(zhì)量,如何對(duì)這些不規(guī)范的輸入進(jìn)行分析,包括特征術(shù)語(yǔ)篩選、提煉、分析、規(guī)范化、分類(lèi),最終為臨床提供客觀、準(zhǔn)確的數(shù)據(jù),提高臨床的管理和決策能力就顯得尤為重要。本文主要設(shè)計(jì)了電子病歷術(shù)語(yǔ)規(guī)范化流程,旨在為臨床決策提供客觀、詳盡的準(zhǔn)確的數(shù)據(jù),也為科研提供精確的資料。
1需求分析
本系統(tǒng)設(shè)計(jì)旨在實(shí)現(xiàn)電子病歷醫(yī)學(xué)術(shù)語(yǔ)的規(guī)范化,并提供疾病的輔助診斷功能。首先,構(gòu)建醫(yī)學(xué)術(shù)語(yǔ)相關(guān)標(biāo)準(zhǔn)術(shù)語(yǔ)集,包括可擴(kuò)充的非規(guī)范術(shù)語(yǔ)-規(guī)范術(shù)語(yǔ)映射詞典和同義詞詞典,為標(biāo)準(zhǔn)化和規(guī)范化醫(yī)學(xué)術(shù)語(yǔ)做好前期的數(shù)據(jù)準(zhǔn)備;其次,利用自然語(yǔ)言處理的相關(guān)技術(shù)對(duì)電子病歷文本進(jìn)行處理分析,自動(dòng)識(shí)別不規(guī)范醫(yī)學(xué)術(shù)語(yǔ),提示臨床人員予以更正,從而達(dá)到電子病歷的醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)規(guī)范化的目的;然后,應(yīng)用機(jī)器學(xué)習(xí)的相關(guān)方法,對(duì)醫(yī)學(xué)特征術(shù)語(yǔ)進(jìn)行特征分類(lèi),以獲取疾病的診斷分類(lèi)。最后,對(duì)系統(tǒng)的實(shí)現(xiàn)和界面進(jìn)行設(shè)計(jì),從而為醫(yī)療人員的臨床管理與決策提供方便。
2技術(shù)路線
2.1電子病歷結(jié)構(gòu)化的前期準(zhǔn)備工作? ①相關(guān)醫(yī)學(xué)術(shù)語(yǔ)詞典的構(gòu)建:標(biāo)準(zhǔn)化的字典對(duì)電子病歷結(jié)構(gòu)化和規(guī)范化是至關(guān)重要的,本系統(tǒng)使用人類(lèi)與獸類(lèi)醫(yī)學(xué)系統(tǒng)術(shù)語(yǔ)(SNOMED)、國(guó)際疾病分類(lèi)(ICD10和ICD9)的漢化版本,在實(shí)際使用中還可以將經(jīng)常使用到的未收錄術(shù)語(yǔ)增加到詞典中,進(jìn)一步豐富詞典的詞匯容量。②規(guī)范化對(duì)象的確定:電子病歷中的所有相關(guān)醫(yī)學(xué)術(shù)語(yǔ)包括規(guī)范醫(yī)學(xué)術(shù)語(yǔ)和非規(guī)范醫(yī)學(xué)術(shù)語(yǔ),兩類(lèi)術(shù)語(yǔ)被顯著標(biāo)識(shí),出錯(cuò)時(shí)由醫(yī)療人員予以更正,并確認(rèn)當(dāng)前識(shí)別出的非規(guī)范術(shù)語(yǔ)是否需要被添加到“非規(guī)范術(shù)語(yǔ)-規(guī)范術(shù)語(yǔ)映射”詞典(簡(jiǎn)稱(chēng)非規(guī)范對(duì)照詞典)中。
2.2電子病歷文本的自然語(yǔ)言處理相關(guān)技術(shù)
2.2.1漢語(yǔ)分詞? 主要方法如下:①基于詞典的分詞方法,包括正向最大匹配、逆向最大匹配法、雙向匹配法、最少切分法[3];②基于統(tǒng)計(jì)的方法,包括統(tǒng)計(jì)語(yǔ)言模型[3]、基于HMM的方法[4]、由字構(gòu)詞法[5]等。
2.2.2詞性標(biāo)注? 盡管漢語(yǔ)言詞性標(biāo)注有些情況較為復(fù)雜,但醫(yī)學(xué)術(shù)語(yǔ)涉及專(zhuān)業(yè)領(lǐng)域,大多數(shù)醫(yī)學(xué)術(shù)語(yǔ)可直接標(biāo)注為名詞詞形,便于簡(jiǎn)化詞性標(biāo)注的復(fù)雜度。
2.2.3醫(yī)學(xué)術(shù)語(yǔ)命名實(shí)體識(shí)別? 近年來(lái),隨著臨床信息化的發(fā)展和電子病歷開(kāi)始在臨床中逐漸普及,我國(guó)學(xué)者開(kāi)始對(duì)生物醫(yī)學(xué)領(lǐng)域內(nèi)的專(zhuān)有名詞進(jìn)行智能識(shí)別。在電子病歷中,命名實(shí)體的類(lèi)別繁多,除了時(shí)間、人名、地名、組織機(jī)構(gòu)等常見(jiàn)的實(shí)體類(lèi)別外,還有疾病、癥狀、手術(shù)操作、病因、病理、藥品等特有的實(shí)體類(lèi)別。在電子病歷中,涉及到輔助診斷的幾類(lèi)實(shí)體是疾病、臨床癥狀、手術(shù)操作、實(shí)驗(yàn)室檢查等。目前,命名實(shí)體的識(shí)別方法主要有3種:①基于詞典的方法:需要建立臨床規(guī)范標(biāo)準(zhǔn)的醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)集,要涵蓋醫(yī)學(xué)的各個(gè)領(lǐng)域,如SNOMED CT等中描述的相關(guān)的同義詞、變形詞,建立不規(guī)范和規(guī)范術(shù)語(yǔ)的映射等等,然后再運(yùn)用相應(yīng)的匹配算法根據(jù)詞典對(duì)文本中醫(yī)學(xué)術(shù)語(yǔ)實(shí)體進(jìn)行識(shí)別;②基于規(guī)則的方法:需要建立針對(duì)性的識(shí)別規(guī)則庫(kù),優(yōu)點(diǎn)是在特定領(lǐng)域準(zhǔn)確率較高,優(yōu)于基于統(tǒng)計(jì)的方法,缺點(diǎn)是規(guī)則的制定需要消耗大量的時(shí)間和人力,且所制定的規(guī)則往往與特定的領(lǐng)域相關(guān),可移植性較差;③基于機(jī)器學(xué)習(xí)的方法利用標(biāo)注過(guò)的語(yǔ)料進(jìn)行訓(xùn)練,語(yǔ)料的標(biāo)注也不需要較多的語(yǔ)言學(xué)知識(shí),較小規(guī)模的語(yǔ)料也可以在可接受的時(shí)間和人力代價(jià)內(nèi)完成。因此,該方法具有很好的移植性,目前已經(jīng)廣泛應(yīng)用于包括命名實(shí)體識(shí)別在內(nèi)的許多自然語(yǔ)言處理任務(wù)中。常用的機(jī)器學(xué)習(xí)模型包括隱馬爾可夫(hidden Markov model,HMM)[6]、條件隨機(jī)場(chǎng)(CRF)[7]等,近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的方法也常被應(yīng)用于命名實(shí)體識(shí)別,如基于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的Lattice LSTM模型抽取實(shí)體[8]。
2.2.4特征術(shù)語(yǔ)相似度度量? 通過(guò)實(shí)體識(shí)別出來(lái)的特征術(shù)語(yǔ),有的意思相似或相近,甚至意思完全一樣,只是因?yàn)椴僮魅藛T輸入了非規(guī)范術(shù)語(yǔ)造成的。例如“冠狀動(dòng)脈支架置入術(shù)”和“冠狀動(dòng)脈支架植入術(shù)”,實(shí)際上指代同一個(gè)意思,由于輸入的不規(guī)范,導(dǎo)致系統(tǒng)提取出兩個(gè)不同的特征術(shù)語(yǔ)。因此,需要通過(guò)計(jì)算特征術(shù)語(yǔ)之間的相似程度來(lái)規(guī)范化特征。度量特征文本相似度方法有以下幾種:①基于向量空間的度量方式 利用特征頻率-反向文檔頻率(TF-IDF)[9]將文檔向量化。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估特征項(xiàng)相對(duì)于文件集或語(yǔ)料庫(kù)中的一個(gè)文檔的重要程度。特征項(xiàng)的重要性與它在該文檔中出現(xiàn)的次數(shù)成正比,與它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比,最后計(jì)算向量之間的夾角余弦(Cosine)。②距離度量 Jaro-Winkler Distance[10] 作為Jaro Distance的一個(gè)擴(kuò)展,是一種計(jì)算兩個(gè)字符串之間相似度的方法。
2.3特征分類(lèi)流程? 本流程是根據(jù)電子病歷文本,得到病歷內(nèi)容對(duì)應(yīng)的疾病,為了驗(yàn)證特征分類(lèi)的效果,特收集了幾個(gè)疾病類(lèi)型,包括不同特征的疾病類(lèi)型和相似特征的疾病類(lèi)型,如高血壓心臟病、冠狀動(dòng)脈粥樣硬化性心臟病、急性支氣管炎、肺部感染、慢性阻塞性肺病等,其中有部分患者的電子病歷文本中夾雜著多種疾病類(lèi)型的特征,當(dāng)存在這種情況時(shí),疾病以該患者的第一診斷為主。疾病診斷可以被看作是一個(gè)文本分類(lèi)問(wèn)題,即輸入是一段病歷自然文本文本,經(jīng)過(guò)對(duì)醫(yī)學(xué)術(shù)語(yǔ)的規(guī)范化,提取相關(guān)醫(yī)學(xué)特征術(shù)語(yǔ),最后經(jīng)過(guò)分類(lèi)模型輸出疾病的診斷分類(lèi)。此外,分類(lèi)模型中使用的各種分類(lèi)器有很多,如支持向量機(jī)(SVM)、決策樹(shù)、隨機(jī)深林[11],以及神經(jīng)網(wǎng)絡(luò)[12]等。特征分類(lèi)流程圖見(jiàn)圖1。
3系統(tǒng)設(shè)計(jì)
根據(jù)系統(tǒng)需求,設(shè)計(jì)了基于機(jī)器學(xué)習(xí)的電子病歷規(guī)范化和輔助診斷的系統(tǒng)框架圖,見(jiàn)圖2。根據(jù)系統(tǒng)框架圖,整個(gè)研究可分為兩個(gè)部分:①醫(yī)學(xué)特征術(shù)語(yǔ)規(guī)范化:包括中文分詞、醫(yī)學(xué)實(shí)體識(shí)別、特征術(shù)語(yǔ)規(guī)范處理,其中在規(guī)范術(shù)語(yǔ)的過(guò)程中,可以將非規(guī)范術(shù)語(yǔ)添加到非規(guī)范對(duì)照詞典中,從而提高非規(guī)范術(shù)語(yǔ)的識(shí)別效率。②輔助診斷:將規(guī)范后的特征術(shù)語(yǔ),輸入到分類(lèi)模型中,得出相應(yīng)的疾病診斷。
3.1電子病歷文檔提取? 由于人工標(biāo)注較大規(guī)模的語(yǔ)料庫(kù)比較困難,本次設(shè)計(jì)考慮了人機(jī)結(jié)合的方式以快速建立一個(gè)小規(guī)模的語(yǔ)料庫(kù),具體步驟如下:①人工收集了1200份電子病歷文檔,涵蓋了心臟科、呼吸科等科室的患者資料;②程序自動(dòng)抽取每位患者的主訴、現(xiàn)病史、既往史、實(shí)驗(yàn)室及器械檢查等涉及的文本數(shù)據(jù),作為原始處理文件;③在此基礎(chǔ)上使用相應(yīng)的工具進(jìn)行文本的自動(dòng)標(biāo)注,再進(jìn)行人工審核標(biāo)注的方法,快速構(gòu)建一個(gè)語(yǔ)料庫(kù)。
3.2詞性標(biāo)注? 該模塊設(shè)計(jì)的目的是快速獲取文本的詞性。選取部分效果如下顯示:【主/a訴/v:/w咳嗽/v咳痰/n伴/v呼吸困難/n3/n天/q。/w現(xiàn)/t病史/n:/w3/n天/q前/f患者/n在/p我院/n呼吸/v科/n住院/v期間/f出現(xiàn)/v咳嗽/v、/w咳痰/n,/w自主/v排/v痰/n困難/a,/w需/v輔助/v排/v痰/n,/w為/p大量/m灰色/n粘液/n痰/n,/w未/d見(jiàn)/v痰/n中/f帶/v血/n?!?/p>
3.3詞位標(biāo)注? 為了獲取醫(yī)學(xué)實(shí)體識(shí)別學(xué)習(xí)必要訓(xùn)練語(yǔ)料,須對(duì)文檔中的所有字進(jìn)行詞位標(biāo)注,但顯然通過(guò)人工標(biāo)注的方式效率較低,考慮用計(jì)算機(jī)快速標(biāo)注方式解決。標(biāo)注的時(shí)候需要用到相關(guān)醫(yī)學(xué)領(lǐng)域的標(biāo)準(zhǔn)詞典,系統(tǒng)將ICD10、ICD-9-CM、SNOMED、同義詞詞典等的術(shù)語(yǔ)增加到字典中,以增加分詞的命中效率。診斷、手術(shù)、檢查的相關(guān)醫(yī)學(xué)術(shù)語(yǔ)長(zhǎng)度一般比較長(zhǎng),使用反向最大匹配算法并依據(jù)詞首(B)、詞中(I)、詞尾(E),進(jìn)行自動(dòng)標(biāo)注,考慮到詞典的覆蓋率問(wèn)題,由人工對(duì)自動(dòng)標(biāo)注后的語(yǔ)料庫(kù)進(jìn)行了核對(duì)。
3.4特征術(shù)語(yǔ)規(guī)范化處理? 特征提取后會(huì)得到一個(gè)特征術(shù)語(yǔ)集合,里面既包含規(guī)范的特征術(shù)語(yǔ),也可能包含了不規(guī)范的特征術(shù)語(yǔ),將這些特征術(shù)語(yǔ)與同義詞典中“非規(guī)范特征術(shù)語(yǔ)”比較,并自動(dòng)將非規(guī)范特征術(shù)語(yǔ)用紅色標(biāo)識(shí)出來(lái),并提供相似度較高的特征術(shù)語(yǔ)供臨床醫(yī)務(wù)人員參考選擇,“術(shù)語(yǔ)維護(hù)”功能可以將新的“非規(guī)范特征術(shù)語(yǔ)”添加到非規(guī)范術(shù)語(yǔ)-規(guī)范術(shù)語(yǔ)映射詞典中,見(jiàn)圖3。
3.5臨床輔助診斷? 在系統(tǒng)中點(diǎn)擊“載入文檔”,加載需要診斷的電子病歷文檔。點(diǎn)擊“特征詞加載”,自動(dòng)在后臺(tái)生成對(duì)應(yīng)的醫(yī)學(xué)特征術(shù)語(yǔ),再點(diǎn)擊“輔助診斷”根據(jù)這些醫(yī)學(xué)特征術(shù)語(yǔ),使用分類(lèi)模型該電子病歷文檔進(jìn)行分類(lèi),并且把分類(lèi)結(jié)果顯示在第一行,即“慢性阻塞性肺病急性發(fā)作”。最后,根據(jù)該電子病歷的醫(yī)學(xué)特征術(shù)語(yǔ)與已經(jīng)有明確診斷的且被作為標(biāo)準(zhǔn)對(duì)照的疾病標(biāo)注電子病歷文檔做比較,按照相似度降序顯示出來(lái),供臨床醫(yī)務(wù)人員參考。
4總結(jié)
由于電子病歷系統(tǒng)的特殊性,需要與其他各個(gè)系統(tǒng)做相應(yīng)的連接,這就使得電子病歷復(fù)雜性較高,包括臨床路徑、患者的其他相關(guān)記錄(首頁(yè)、病程記錄、檢查檢驗(yàn)結(jié)果、醫(yī)囑、手術(shù)記錄、護(hù)理記錄等),因此,電子病歷系統(tǒng)每天會(huì)產(chǎn)生大量的數(shù)據(jù),這些海量數(shù)據(jù)有很多都是不規(guī)范的自由文本輸入,包含的信息卻是很重要的,這就需要通過(guò)研究將重要的醫(yī)學(xué)特征抽取出來(lái),并且將其規(guī)范化,最后結(jié)合分類(lèi)模型達(dá)到臨床輔診、決策支持的目的。本系統(tǒng)的設(shè)計(jì)開(kāi)發(fā),最終規(guī)范了電子病歷的書(shū)寫(xiě),可為臨床提供客觀、準(zhǔn)確的數(shù)據(jù),進(jìn)而達(dá)到輔助臨床進(jìn)行診斷的功能。
參考文獻(xiàn):
[1]梅文華,刁君,常奕,等.結(jié)構(gòu)化電子病歷的應(yīng)用[J].中國(guó)數(shù)字醫(yī)學(xué),2016,11(3):22-25.
[2]朱彥斌.結(jié)構(gòu)化電子病歷在臨床管理中的應(yīng)用[J].中國(guó)醫(yī)藥導(dǎo)報(bào),2015,12(35):161-164.
[3]宗慶成.統(tǒng)計(jì)自然與語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008.
[4]朱咸軍,洪宇,黃雅琳,等.基于HMM的算法優(yōu)化在中文分詞中的應(yīng)用[J].金陵科技學(xué)院學(xué)報(bào),2019,35(3):1-7.
[5]黃昌寧.由字構(gòu)詞——中文分詞新方法[C]//中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集.2006.
[6]劉博,杜建強(qiáng),聶斌,等.基于二階HMM的中醫(yī)診斷古文詞性標(biāo)注[J].計(jì)算機(jī)工程,2017,43(7):211-216.
[7]宓林暉,袁駿毅.基于CRF模型的臨床醫(yī)囑信息實(shí)體識(shí)別方法應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(3):209-212.
[8]Zhang Y,Yang J.Chinese ner using lattice lstm[J].Preprint,2018(v1):1554-1564.
[9]黃春梅,王松磊.基于詞袋模型和TF-IDF的短文本分類(lèi)研究[J].軟件工程,2020,23(3):1-3.
[10]吳凌芬,楊小淵,葉添杰,等.改進(jìn)Jaro-Winkler算法在迎賓機(jī)器人語(yǔ)音交互中的應(yīng)用[J].現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版),2015(8):8-13.
[11]陳宋.基于機(jī)器學(xué)習(xí)的醫(yī)學(xué)輔助診斷算法研究[D].福州大學(xué),2018.
[12]陳欽界.基于機(jī)器學(xué)習(xí)的智能醫(yī)療診斷輔助方法研究[D].國(guó)防科學(xué)技術(shù)大學(xué),2017.
收稿日期:2020-05-11;修回日期:2020-05-20
編輯/錢(qián)洪飛
作者簡(jiǎn)介: 劉勇(1977.5-),男,江蘇鹽城人,碩士,工程師,主要從事機(jī)器學(xué)習(xí)、自然語(yǔ)言處理工作
通訊作者: 陳文生(1977.1-),男,河北黃驊人,碩士,館員,主要從事信息與信息系統(tǒng)管理工作