宓林暉 袁駿毅
(上海市胸科醫(yī)院 上海 200030)
醫(yī)囑是指患者在診療過程中由醫(yī)生對其發(fā)出的醫(yī)療命令,包括藥品、檢驗、檢查及護理等方面。實時抽取和識別醫(yī)生醫(yī)囑中的關(guān)鍵信息,能夠提升護理執(zhí)行的時效性,并為醫(yī)療決策支持提供重要的幫助[1]。完全依靠人工進行醫(yī)囑實體識別的訓(xùn)練成本高昂,而且長期的重復(fù)工作容易導(dǎo)致工作效率低下。因此,通過機器學(xué)習(xí)的方式來實現(xiàn)命名實體自動識別成為了國內(nèi)外眾多學(xué)者研究的課題。夏宇彬等[2]利用長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)電子病歷歸檔后的實體自動識別。Beissinger等[3]指出由于醫(yī)療的專業(yè)性,必須增加醫(yī)療文本識別的實時校正環(huán)節(jié),以此提高臨床使用環(huán)境下的適用性。
本文以上海市胸科醫(yī)院為研究背景,提出了一種嵌入于臨床業(yè)務(wù)信息系統(tǒng)的臨床醫(yī)囑實體識別方法。通過對歷史醫(yī)囑數(shù)據(jù)的回顧分析,建立起基于條件隨機場模型(Conditional Random Field,CRF)的智能化醫(yī)囑識別系統(tǒng),并形成醫(yī)囑專項語料詞庫。結(jié)合該系統(tǒng)的正式投入使用,將護士的日常操作與實體識別反饋有機融合,提高臨床醫(yī)療的工作效率。實證分析智能化醫(yī)囑實體識別方法的影響作用,建立有效性評估體系,為醫(yī)院全方面開展醫(yī)囑數(shù)據(jù)精細化利用提供相關(guān)的參考依據(jù)。
本文通過臨床醫(yī)生醫(yī)囑系統(tǒng)產(chǎn)生的醫(yī)囑數(shù)據(jù)實時進行實體識別。當(dāng)醫(yī)生在電子醫(yī)囑系統(tǒng)(Computerized Physician Order Entry,CPOE)輸入醫(yī)囑后,在醫(yī)囑專項詞庫的基礎(chǔ)上,系統(tǒng)利用CRF模型實現(xiàn)醫(yī)囑實體的自動識別。臨床護理信息系統(tǒng)(Nurse Information System,NIS)則將識別出的結(jié)果以標(biāo)簽的形式醒目地展現(xiàn)在護理工作站、護理PDA以及病區(qū)公告大屏等子系統(tǒng)上,以便于護士及時根據(jù)識別結(jié)果進行醫(yī)囑的相應(yīng)處理。若護士發(fā)現(xiàn)自動識別結(jié)果不正確或者存在醫(yī)囑未自動識別的情況,可以及時在終端上進行識別的正確反饋,系統(tǒng)后臺將更正的識別信息重新注入模型,進行自學(xué)習(xí),并將學(xué)習(xí)結(jié)果納入專項詞庫,從而形成一套閉環(huán)完整的實體識別體系框架,用于提供后續(xù)識別的準(zhǔn)確率。醫(yī)囑實體識別的流程框架見圖1。
圖1 醫(yī)囑實體識別流程框架
CRF模型是Lafferty等[4]提出的一種概率判別式模型,近年來廣泛使用于人工智能分詞、命名實體識別等方面。有別于以往使用的隱馬爾可夫模型,CRF模型對假設(shè)條件的限制更少,能有效避免最大熵模型標(biāo)記發(fā)生偏移,具有更廣泛的使用率。因此,在本文所研究的非結(jié)構(gòu)化文本醫(yī)囑的實體識別任務(wù)中,也選擇CRF模型進行處理。CRF模型在線性鏈條件下公式如下:
(1)
式中:x=(x1,x2,…,xi)為觀測序列,y=(y1,y2,…,yi)為標(biāo)注序列,Zx為歸一化因子,fk為特征函數(shù),λk則為特征函數(shù)所對應(yīng)的權(quán)值,且k≤24。
對于醫(yī)囑的實體識別問題,可將CRF模型使用于在已知醫(yī)囑實體文本x的情況下,求得令條件p達到最大值的y*,即最有可能的標(biāo)注序列,從而獲得該醫(yī)囑命名實體。
以I2B2信息抽取評測任務(wù)為參考依據(jù)[5],結(jié)合臨床上中文醫(yī)囑的特點及臨床實際應(yīng)用分類,可分為藥物類(D)、檢查類(E)、耗材類(M)、手術(shù)類(O)和護理類(N)等五大類型醫(yī)囑實體。通過對醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)中2018年12月全院13個病區(qū)的醫(yī)囑進行分析,共獲取醫(yī)囑記錄35 589條,其按類型分布情況見表1。
表1 醫(yī)院2018年12月醫(yī)囑數(shù)據(jù)分布
由于醫(yī)囑標(biāo)注屬于基于文字的模型標(biāo)注,因此使用了Sighan Bakeoff語料標(biāo)注法[6]。BIO標(biāo)注集是一種基于專項詞庫作為基線測試的中文分詞方法,包括測試集、訓(xùn)練集與正式集。將醫(yī)囑實體分為兩個部分,即F-Chat、O-Chat,分別代表了醫(yī)囑覆蓋字符與非覆蓋字符。同樣地,將專項詞庫也分為兩部分,F(xiàn)-Key、O-Key,分別代表了主關(guān)鍵字符與非關(guān)鍵字符,Null代表了不屬于醫(yī)囑命名實體的結(jié)果部分。
在前期的準(zhǔn)備工作中,我們從內(nèi)外科中各選擇一個病區(qū),對當(dāng)日醫(yī)生簽開的所有醫(yī)囑進行后期人工標(biāo)注,以此作為訓(xùn)練集及初始專項詞庫,同時將2018年12月的歷史醫(yī)囑數(shù)據(jù)加入測試集。由于CRF的特征函數(shù)對輸入序列在限定窗口下的文本具有相關(guān)約束關(guān)系[7],由此分析基于初始專項詞庫的測試集中醫(yī)囑文本通過CRF模型輸出結(jié)果的影響,并加入訓(xùn)練集中不斷迭代學(xué)習(xí)。最終,測試集的分析結(jié)果顯示,近似估計歸一因子Zx=0.8。測試分析過程見圖2。
圖2 測試集數(shù)據(jù)過程分析
本文的實驗數(shù)據(jù)采用了醫(yī)院的真實住院醫(yī)囑數(shù)據(jù),包含了智能化醫(yī)囑識別系統(tǒng)自2019年5月上線后處理的8 362條醫(yī)囑,涵蓋心內(nèi)科、心外科、呼吸內(nèi)科和胸外科4個病區(qū)。本文采用英文命名實體識別常用的3個評價指標(biāo)項,對該方法的識別效果進行衡量,即正確率(Precision-P)、召回率(Recall-R)、F值[8],其計算公式為:
(2)
(3)
(4)
在后臺管理模塊中對智能化醫(yī)囑識別系統(tǒng)上線后每月的醫(yī)囑文本命名實體識別結(jié)果進行統(tǒng)計,見表2。
表2 醫(yī)囑命名實體識別按周評價 %
可以看出,智能化醫(yī)囑識別系統(tǒng)剛上線第一周時的識別效果并不理想,準(zhǔn)確率和召回率分別只有69.64%和51.32%。原因是在信息化項目的起步階段,護士尚處于與新系統(tǒng)的磨合期,需要學(xué)習(xí)熟悉新的操作方法和工作流程[9]。通過前期多次培訓(xùn)以后,準(zhǔn)確性、召回率及F值逐月穩(wěn)步提高,在第五周時,F(xiàn)值已達到87.49%,這表明將命名實體標(biāo)注與臨床業(yè)務(wù)系統(tǒng)結(jié)合的智能標(biāo)注模式切實有效,具有可操作性[10]。
統(tǒng)計在藥物類(D)、檢查類(E)、耗材類(M)、手術(shù)類(O)和護理類(N)這五類醫(yī)囑實體識別上的表現(xiàn),其結(jié)果見圖3。
圖3 按類型評價醫(yī)囑命名實體識別效果
可以看出,藥物類(D)、耗材類(M)、手術(shù)類(O)和護理類(N)醫(yī)囑實體識別的準(zhǔn)確率均在80%以上,已可滿足臨床業(yè)務(wù)中準(zhǔn)確識別醫(yī)囑的要求。然而,檢查類(E)的效果仍不理想,造成此類狀況的原因,一是醫(yī)生偏好用縮略語來描述檢查或檢驗,如氣管鏡檢查可縮寫為TBB、TBLB、EBUS等;另外,還存在部分醫(yī)生用特殊符號與縮略語組合的形式來表示一套檢查項目,如PT·電·肝腎、PCT·血RT·肝腎等,導(dǎo)致出現(xiàn)專項詞庫無法及時對應(yīng)的狀況。
目前醫(yī)院已經(jīng)將智能化醫(yī)囑識別系統(tǒng)嵌入臨床醫(yī)護工作站的CPOE和NIS應(yīng)用軟件中。醫(yī)囑識別功能涵蓋了所有CPOE系統(tǒng)輸入的醫(yī)囑,通過識別后自動提示在護理公告大屏上,更直接地提醒護士所需執(zhí)行的各項護理任務(wù),從而指導(dǎo)調(diào)度病區(qū)護士日常工作。首先,智能化醫(yī)囑識別系統(tǒng)對患者的醫(yī)囑文本進行了預(yù)處理,包括過濾特殊符號、分詞等;接著,將處理后的數(shù)據(jù)傳入CRF模型進行實體識別,如果識別結(jié)果的置信度高于閾值,則將其實體詞條與專項詞庫中預(yù)設(shè)的醫(yī)囑小項進行對應(yīng);最后,根據(jù)頻次、執(zhí)行天數(shù)等按天拆分成護理任務(wù)標(biāo)注后,以直觀的形式展現(xiàn)在護理公告屏上。對于已經(jīng)自動識別但結(jié)果存在錯誤的醫(yī)囑,護士也可對結(jié)果進行人工校正,其界面見圖4。
圖4 智能化醫(yī)囑識別系統(tǒng)處理界面
智能化醫(yī)囑識別系統(tǒng)會對該次操作結(jié)果進行學(xué)習(xí),將護士選擇的小項映射到所屬的實體大類,再由此推導(dǎo)出正確的實體識別結(jié)果,并將其納入到訓(xùn)練集中,繼續(xù)用于優(yōu)化CRF模型,以提高系統(tǒng)下次識別的準(zhǔn)確度。
本文將命名實體識別技術(shù)運用于醫(yī)療業(yè)務(wù)信息系統(tǒng),利用CRF模型對醫(yī)囑文本進行實體識別,有效提升了智能識別的精度。在評價結(jié)果方面,采用準(zhǔn)確率、召回率和F值對醫(yī)囑實體識別的情況進行分析,證明了該方法的實用性和有效性。智能化醫(yī)囑識別系統(tǒng)自正式投入使用后,在1個月運行期間共納入了全院4個病區(qū)的8 362條醫(yī)囑,后臺數(shù)據(jù)庫積累了700多條醫(yī)囑專項詞庫,有效提升了護士執(zhí)行醫(yī)囑的及時性。在項目的推進過程中,通過調(diào)研發(fā)現(xiàn),使用智能化醫(yī)囑識別系統(tǒng)的病區(qū)護士在信息支撐滿意度方面與未使用病區(qū)護士有7.2%的提高。然而,在實際使用中也存在一些問題,如誤操作行為會導(dǎo)致學(xué)習(xí)錯誤的規(guī)則,影響同類醫(yī)囑實體的識別和臨床業(yè)務(wù),后續(xù)將針對這類問題繼續(xù)優(yōu)化完善,提高系統(tǒng)的容錯性,使其達到更好的實際運用效果。智能化醫(yī)囑識別系統(tǒng)建設(shè)的成功與否與醫(yī)囑語料密切相關(guān),在本研究的推進工作中積累了大量的醫(yī)囑專項語料詞庫,為日后在醫(yī)療領(lǐng)域的知識挖掘奠定了良好基礎(chǔ)。