亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自由文本電子病歷信息抽取綜述

        2021-04-20 14:07:00崔博文王建民
        計算機應用 2021年4期
        關鍵詞:命名病歷實體

        崔博文,金 濤,王建民

        (清華大學軟件學院,北京 100084)

        0 引言

        信息抽取是電子病歷后結構化的核心步驟。后結構化是指將以自由文本方式錄入的電子病歷進行結構化分析,提取出電子病歷中的非結構化信息,并將其轉換為結構化信息的過程。后結構化的分析過程往往會利用醫(yī)學本體(Ontology)的相關知識,使用自然語言處理(Natural Language Processing,NLP)領域的先進技術,并且需要嚴格遵循專業(yè)醫(yī)學術語以及病歷格式的相關規(guī)范。

        后結構化過程中的信息抽取可以幫助抽取出自由文本電子病歷中的關鍵信息,如疾病、檢查、癥狀、治療、疾病診斷分類等。在將這些信息按照專業(yè)的醫(yī)學邏輯進行組織分類之后,最終得到的結構化信息具有非常重要的作用。一方面,結構化的病歷信息可以方便病人和醫(yī)生更加直觀地獲取自己關心的內容;另一方面,結構化的電子病歷還有利于計算機的識別存儲,并為后續(xù)的數(shù)據挖掘、知識庫和知識圖譜構建及病歷語義檢索等信息分析處理工作奠定基礎[1]。

        自由文本病歷后結構化不僅僅包括信息抽取這一個階段,而是一個比較復雜的過程,經過相關領域多年的研究改進,常規(guī)的電子病歷后結構化流程如圖1所示。

        圖1 自由文本電子病歷后結構化的常規(guī)流程Fig.1 General process of post-structuration of free-text electronic medical records

        其中,預處理包括了對病歷文本進行的各種初步處理,以便于后續(xù)信息提取工作的開展,根據信息抽取方法和所用數(shù)據集的不同,預處理過程可能有很大區(qū)別。模板填充是在信息抽取完成之后的最終步驟,一般采用樹狀結構的結構化病歷模板,該步驟中最常使用的數(shù)據存儲語言是可擴展標記語言(eXtensible Markup Language,XML)。將信息抽取環(huán)節(jié)抽取到的結構化信息填充到病歷模板中的對應位置,從而形成最終的結構化電子病歷。而介于文本劃分和模板填充之間的信息抽取環(huán)節(jié)是整個后結構化過程的核心步驟,也是近年來相關成果的主要研究方向。

        概念(醫(yī)療問題、檢查、治療等實體)的識別、醫(yī)療問題的修飾和概念間關系的抽取是電子病歷信息抽取研究的三個核心任務。這三個核心任務均圍繞醫(yī)療問題這個中心展開,分別對應了電子病歷后結構化過程中的三個關鍵步驟:命名實體識別、實體修飾識別和實體關系抽取。

        本文將針對自由文本電子病歷信息抽取的這三個主要任務,分析近十幾年來國內外自由文本病歷信息抽取領域的相關文獻成果,將其中的核心思路、方法進行總結與橫向對比,分析出其中的創(chuàng)新點和不足之處,進而提出接下來可能的研究方向和發(fā)展趨勢。涉及到的文獻主要來自于BIBM(international conference on BioInformatics and BioMedicine)和EMNLP(conference on Empirical Methods in Natural Language Processing)等國際知名學術會議,以及JAMIA(Journal of the American Medical Informatics Association)和JBI(Journal of Biomedical Informatics)等著名醫(yī)學信息學期刊。

        1 電子病歷的命名實體識別

        1.1 電子病歷命名實體識別

        命名實體識別(Named Entity Recognition,NER)是自然語言處理的基礎任務之一,也是信息抽取重要的子任務,目的是定位非結構化自由文本中的命名實體,并將其分類為預先定義好的類別。命名實體識別可以作為信息抽取過程中的后續(xù)任務(如實體關系抽取等)的鋪墊,具有非常重要的地位。

        命名實體識別需要在識別實體邊界的同時,對定位出的實體類別進行標注。英文文本的實體識別往往以單詞為最小單位,而中文文本命名實體識別則常以單個漢字為最小單位,形式及單詞含義上的特點使得中文實體邊界的識別難度相對更高。

        對于中文電子病歷,命名實體識別任務的識別目標主要包括以下幾類實體:實驗室檢驗、影像檢查、手術(治療手段)、疾病、癥狀、藥物、解剖部位等。

        1.2 電子病歷命名實體識別常用數(shù)據集

        從最早的研究到目前國內外的最新研究成果,超過半數(shù)的研究采用的數(shù)據集是從各種不同的醫(yī)療機構或者醫(yī)療數(shù)據資源平臺收集的電子病歷文本,這些病歷文本會在經過人工標注之后作為研究進行的語料基礎。除此之外,也有一些較為專業(yè)權威的數(shù)據集具有相對較多的使用量。

        在命名實體識別研究的早期,專業(yè)的病歷文本數(shù)據集尚未出現(xiàn),但具有一定相關性的生物醫(yī)學語料庫GENETAG[2]和GENIA[3]已經得到了廣泛的使用,所以在本世紀初期的很多研究是在這兩個數(shù)據集上展開的。

        在2010 年前后,出現(xiàn)了I2B2(Informatics for Integrating Biology and the Bedside)系列評測任務數(shù)據集[4],如I2B2 2006、I2B2 2010、I2B2 2014 等,該系列數(shù)據集是比較專業(yè)的用于自然語言處理的臨床記錄數(shù)據集,在命名實體識別的相關研究中得到了廣泛的使用。

        NCBI-Disease[5]是專門用于疾病實體識別的數(shù)據集,在近幾年的國外研究中經常被使用。國內針對中文病歷文本的相關研究展開較晚,前期大多使用取自醫(yī)院并進行自標注的病歷文本。

        從2017 年開始,全國知識圖譜與語義計算大會(China Conference on Knowledge graph and Semantic computing,CCKS)每年都會舉辦與中文電子病歷相關的NLP評測任務比賽,并推出了專門用于命名實體識別的電子病歷數(shù)據集,使得近兩年來國內的研究取得了明顯進展。

        1.3 電子病歷命名實體識別評價指標

        電子病歷的命名實體識別需要同時確定實體邊界和實體類別,因此,只有當實體邊界以及實體類別的識別均正確時,才可以認為命名實體識別的結果是正確的。

        電子病歷命名實體識別常用的評價指標是準確率(Precision)、召回率(Recall)和F1值。針對命名實體識別任務的特點,用于計算以上三種評價指標數(shù)值的TP(True Positive)、FP(False Positive)以及FN(False Negative)也應當重新進行定義。例如:定義TP 為識別完全正確,定義FP 為實體識別正確但類別或邊界判定出現(xiàn)錯誤,定義FN為應該被識別但實際沒有被識別。

        對于電子病歷的實體修飾識別和實體關系抽取,常用的評價指標也是準確率、召回率和F1值,后文中不再贅述。

        1.4 電子病歷命名實體識別研究及方法

        電子病歷命名實體識別方法的發(fā)展整體上經歷了基于規(guī)則與詞典的方法,以條件隨機場(Conditional Random Field,CRF)CRF 為代表的統(tǒng)計機器學習和以循環(huán)神經網絡(Recurrent Neural Network,RNN)、BERT(Bidirectional Encoder Representations from Transformers)為代表的深度學習三個階段。

        基于規(guī)則與詞典的方法在20 世紀末期和21 世紀初期的早期研究中使用較多?;谠~典和規(guī)則的方法往往依賴于人工制定的規(guī)則模板,即需要命名實體相關領域的專家將專業(yè)領域內的各類專業(yè)名詞、術語等進行收集、整理,從而構建出可以作為識別依據的專業(yè)詞典,而對于詞典中缺少的專有名詞,主要的處理方法則是制定相應的規(guī)則。這類命名實體識別方法的主要思路是通過對文本結構特點、語言特點以及上下文特點進行分析與研究,來進一步構建符合這些特點的規(guī)則模型,之后再將需要識別的文本與構建出來的規(guī)則進行匹配,從而實現(xiàn)命名實體的識別?;谠~典和規(guī)則的方法主要通過專業(yè)領域詞典、知識庫和文本規(guī)則的構建來實現(xiàn)。因此,對最終的識別效果起到最為關鍵作用的,是詞典的專業(yè)性、完備性,以及構建出的規(guī)則的質量。早期醫(yī)療領域的多種代表性實體識別工具都是采用基于詞典的方法實現(xiàn)的,其中MedLEE(Medical Language Extraction and Encoding)于1994年由Friedman 等[6]研發(fā),利用詞匯及語法的規(guī)則及醫(yī)療實體詞典對疾病名稱和修飾成分進行識別;而IBM 的MedKAT(Medical Knowledge Analysis Tool)[7]和Mayo Clinic 的cTAKES(clinical Text Analysis and Knowledge Extraction System)[8]則只利用了詞典進行實體識別。

        隨著機器學習領域的發(fā)展,各種機器學習算法開始應用于命名實體識別任務。統(tǒng)計機器學習算法利用計算機自動對數(shù)據進行分析,并根據獲取到的內在規(guī)律,得到能夠應用于實際研究工作當中的模型。由于僅僅使用詞典或規(guī)則無法很好地處理復雜的語句內容,且基于規(guī)則與詞典的方法只適用于特定類型實體的識別,泛化能力不足,因此基于詞典和規(guī)則方法目前已經不再是主流,而往往作為機器學習方法的補充。與基于詞典和規(guī)則的方法相同,基于統(tǒng)計機器學習和深度學習的方法也離不開大規(guī)模專業(yè)標注語料庫的支持,為了更好地完成模型的訓練,需要對語料庫中的數(shù)據進行分詞處理以及詞性標注。除此之外,還需要結合詞典和規(guī)則,構建特征模板并用于文本的匹配[9]。

        在各種統(tǒng)計機器學習方法中,使用較早且比較廣泛的是基于支持向量機(Support Vector Machine,SVM)的多分類模型,基于SVM 分類的方法能夠充分利用醫(yī)療問題的上下文信息,綜合使用病歷文本中的上下文、句法、標題等多種特征,從而在效果上優(yōu)于傳統(tǒng)的基于規(guī)則和詞典的方法。

        基于隱馬爾可夫模型(Hidden Markov Model,HMM)的方法也是21 世紀初期醫(yī)療領域命名實體識別的常用方法之一。Zhou 等[10]將一個SVM 分類器和兩個HMM 分類器進行了組合,發(fā)現(xiàn)不同的分類器在數(shù)據集上的結果不同且可以相互補充,從而在GENETAG 數(shù)據集上的F1 值達到了0.83;de Bruijn等[11]利用HMM 在I2B2 2010 數(shù)據集上取得了0.85 的F1 值。然而,由于HMM 只依賴于每一個狀態(tài)和它對應的觀察對象,這與序列標注問題需要考慮序列長度和單詞上下文的特性并不相符,更適用于對實時性有要求或文本較短的命名實體識別,因此在后續(xù)研究中被逐漸淘汰。

        基于最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)的方法在2010 年前后得到了比HMM 更為廣泛的使用,F(xiàn)inkel 等[12]、Saha 等[13]的研究成果都利用了基于MEMM 的方法。與HMM 相比,MEMM 能夠捕捉到相鄰狀態(tài)之間的依賴關系,并且考慮到了整體輸入序列,因此表達能力更強。

        基于CRF 的方法經常被用來與基于SVM 的方法進行比較,在以Li等[14]、Jiang等[15]為代表的對比研究中,多數(shù)都得出了基于CRF 的方法效果優(yōu)于基于SVM 的方法的結論;同時,CRF模型在實踐和理論上均優(yōu)于HMM,因為CRF沒有嚴格的獨立性假設條件,可以靈活地容納上下文信息;而相對于MEMM,還克服了其標記偏置的缺點,能夠求得全局的最優(yōu)解,不過,這也導致了CRF 模型復雜度較高,訓練時間較長。由于CRF精度上的優(yōu)越性,業(yè)界知名的I2B2在2010年初次發(fā)起針對自由文本病歷實體識別的評測任務時,當時的主流思路就是使用CRF 來構建分類器,例如Jonnalagadda 等[16]、Jiang等[15]使用CRF分別在I2B2 2010數(shù)據集上取得了0.82和0.84的F1 值。而在基于長短期記憶(Long Short-Term Memory,LSTM)網絡的方法流行起來之前,SVM 與CRF 結合的方法一直是重要的研究方向。

        結構化支持向量機(Structural SVM,SSVM)是對SVM 模型的改進,通過修改SVM 的約束條件以及目標和核函數(shù),對SVM進行了拓展,使其可以預測結構化問題。Lei等[17]使用了基于SSVM 的方法,取得了不錯的效果。此外,曲春燕[18]嘗試了SSVM 與CRF 的組合,這種方法作為SVM+CRF 方法的改進版本,利用結構化SVM實現(xiàn)了判別能力的提升。

        隨著深度學習的逐漸流行,研究者發(fā)現(xiàn)RNN 十分適合用來解決序列標注問題,電子病歷命名實體識別研究進入了新的階段。

        在各種RNN 模型中,首先得到廣泛使用的是LSTM。LSTM是典型的序列標注模型,由于梯度消失和梯度爆炸等問題,傳統(tǒng)RNN 對于長期依賴無法很好地進行處理,而基于LSTM的方法可以更好地捕捉到文本中較長距離的依賴關系,非常適合用于對文本數(shù)據進行建模,且在大數(shù)據量的情況下效果優(yōu)于CRF。LSTM 模型應用于醫(yī)療領域命名實體識別在2015 年后開始流行,但由于無法編碼從后到前的信息,很快便被基于雙向長短期記憶(Bi-directional LSTM,BiLSTM)網絡的方法取代。在那之前,LSTM+CRF 是曾經比較流行的模型之一,如Ling 等[19]在LSTM+CRF 的基礎上使用了字符級別的卷積神經網絡(Convolutional Neural Network,CNN)和LSTM 來做embedding;Cai 等[20]的研究則加入了注意力(Attention)機制,在CCKS2018 提供的中文數(shù)據集中取得了0.80的F1值。

        基于BiLSTM 的方法在LSTM 模型的基礎上進行了改進,可以更好地捕捉雙向的語義依賴,因而成為了近幾年醫(yī)療領域命名實體識別應用最廣泛的方法之一,如李劍風[21]、Li等[22]都利用基于BiLSTM 的方法取得了較好的效果。為了更有效地提高模型效果,目前最先進的方法往往會將BiLSTM與其他模型,如CRF 等進行結合。BiLSTM+CRF 是目前最流行的序列標注模型之一,主要思路是將前向LSTM 和后向LSTM 的輸出拼接為新的向量作為后層條件隨機場的輸入,從而彌補了CRF 需要人工提取序列特征的缺點和BiLSTM 無法學習標注的上下文信息的缺點,實現(xiàn)了精度上的顯著提高。許多研究[23-29]均使用BiLSTM+CRF 取得了較好的結果。在此基礎上,還出現(xiàn)了許多改進版本,如Multitask-BiLSTM-CRF[30]、Attention-BiLSTM-CRF[31]、CNN-BiLSTM-CRF[32]等。其中,Ji等[33]利用兩個BiLSTM-CRF 模型與一個CNN 模型配合訓練,在CCKS2019中文醫(yī)療命名實體識別比賽中奪得冠軍。

        以BERT 為代表的預訓練模型也是近幾年的主流方法之一。這類方法的計算復雜度較高,但對于長距離依賴的捕捉能力比RNN 更強,在各種NLP 任務中經常被用來生成詞向量,例如Yu 等[34]利用BERT-BiLSTM-CRF 模型在I2B2 2010 數(shù)據集上取得了0.871 的F1 值,超過了之前的主流方法。由于BERT 的強大能力,很多研究者認為BERT 可以完全替代各種RNN 模型,例如Mao 等[35]僅僅使用BERT-CRF 就在MEDDOCAN(MEDical DOCument ANonymization track)評測任務中取得了0.937 5的F1值。

        2 電子病歷的實體修飾識別

        2.1 電子病歷實體修飾識別

        修飾識別(Assertion Detection)是自由文本電子病歷信息抽取過程特有的任務,指在給定病歷文本中的疾病、癥狀等特定類別實體的情況下,從文本中識別出這些實體的修飾成分的過程。

        修飾識別任務能夠用于判斷疾病、癥狀等醫(yī)學實體與患者的關系,即實體是否在患者身上發(fā)生以及實體如何在患者身上發(fā)生。早期的許多修飾識別研究專注于前者,即只判斷修飾成分表達的含義為肯定或否定。I2B2 2010評測[5]提出了6 種修飾成分類型:present(目前患有的)、absent(未患有的)、possible(可能發(fā)生的)、conditional(特定條件下發(fā)生的)、family(非患者本人的)、hypothetically(未來可能發(fā)生的)?,F(xiàn)在常用的修飾識別標簽大多在此基礎上進行調整,比如Zhang 等[36]提出的7種修飾成分類型,詳見表1所示。

        表1 常用修飾成分類型Tab.1 Typical assertion types

        這些修飾成分在患者病情的分析過程中起到了十分關鍵的作用。因此,為了確保信息抽取結果盡可能準確,自由文本電子病歷的修飾識別任務是非常重要的。

        2.2 電子病歷實體修飾識別常用數(shù)據集

        目前,I2B2 系列評測數(shù)據是電子病歷實體修飾識別最常用的數(shù)據集。MIMIC(Medical Information Mart for Intensive Care)[37]作為知名的醫(yī)療數(shù)據集,也在2019 年推出了新的放射報告數(shù)據集MIMIC-CXR(Medical Information Mart for Intensive Care,Chest X-Ray)[38]。除此之外,多數(shù)相關研究都選擇了在自標注的電子病歷文本上進行實驗。

        2.3 電子病歷實體修飾識別研究及方法

        電子病歷實體修飾識別的研究經歷了基于規(guī)則的方法、以SVM為代表的統(tǒng)計機器學習和RNN深度學習三個階段。

        基于規(guī)則的方法是早期最流行的方法之一,尤其是基于正則表達式規(guī)則的方法,在很長一段時間內都是修飾識別領域的主流方法,這些方法對于標簽類別較少的情況識別效果較好,Chapman 等[39]、Harkema 等[40]都提出了基于正則表達式規(guī)則的經典方法,在各類自標注的病歷文本上取得了較好的效果。

        但是,這類方法往往只能有效區(qū)分修飾成分的含義為肯定或否定,隨著修飾成分類別的逐漸增多,基于規(guī)則的方法對于后來越來越復雜的標簽類別并不能實現(xiàn)非常理想的分類效果,因此,在I2B2 提出的6 種修飾成分類型得到推廣之后,這類方法的使用往往只限于標簽較少的情況。例如Mehrabi等[41]只利用規(guī)則來識別肯定和否定,在采集自印第安納大學的電子病歷數(shù)據集中取得了高達0.96 的F1 值;而Sohn 等[42]在I2B2 2010 評測數(shù)據集中使用基于規(guī)則的方法,最終的F1值為0.84,遠低于當時流行的機器學習方法。

        在各種統(tǒng)計機器學習方法中,最常用的是基于SVM 的多分類方法,這種方法在I2B2 2010 評測任務中大放異彩,成為使用最為廣泛的模型之一。以SVM 為代表的機器學習方法相對于基于規(guī)則的傳統(tǒng)方法,能夠充分利用病歷文本的上下文信息,而特征的選取對于這類方法的效果有著非常重要的影響。Grouin 等[43]、Jiang 等[15]、de Bruijn 等[11]采用SVM 分類器分別在I2B2 2010 數(shù)據集上取得了0.93、0.93、0.94 的F1值。

        基于各種RNN 模型的深度學習方法是目前比較流行的方法,比較常見的包括BiLSTM、門控循環(huán)單元(Gated Recurrent Unit,GRU)等。這些方法往往首先利用先進的RNN模型獲取各種級別的表征,之后再進行分類。同時,這些方法經常會將RNN 與其他模型進行結合,如Zhang 等[36]將CNN 與GRU 進行結合,利用CNN 獲取字符級別的表征,利用GRU 獲取句子級別的表征,并結合Attention 機制,實現(xiàn)了較高的精度;Liventsev 等[44]利用加入了Attention 的LSTM 在MIMICCXR數(shù)據集中取得了0.95的F1值。

        3 電子病歷的實體關系抽取

        3.1 電子病歷實體關系抽取

        實體關系抽?。‥ntity Relation Extraction)是命名實體識別的后續(xù)任務,指按照預先定義的模板確定抽取任務及要求,然后對文本中實體間的關系信息進行識別和抽取。

        在自然語言處理問題中,電子病歷中的一些專業(yè)概念,如藥品、治療方法、癥狀等實體,相互之間存在著語義關系,這種關系與實體以及其對應的上下文有關[45]。

        實體關系抽取的主要任務目標不僅僅是抽取文本中的實體關系,更重要的是判斷實體間關系的類型。電子病歷的信息抽取主要關注治療、醫(yī)療問題(包括疾病、癥狀等)和檢查之間的關系,常用的關系定義來源于I2B2 2010 評測[5]提供的8種實體關系類型,詳見表2 所示。在此基礎上對問題進行細分則能夠得到更加復雜的實體關系類型。

        表2 I2B2定義的8種實體關系類型Tab.2 Eight types of entity relations defined by I2B2

        抽取這幾類實體間的關系具有非常重要的作用。一方面,可以基于這些關系構造能夠清晰表現(xiàn)患者健康狀況的病歷摘要;另一方面,可以利用這些關系挖掘潛在的藥物之間的關聯(lián);進一步地,還可以將抽取出的實體關系信息圍繞著醫(yī)療問題這個中心進行結構化組織,從而形成囊括了疾病、治療和檢查等常見醫(yī)療概念的系統(tǒng)表示[46]。

        3.2 電子病歷實體關系抽取常用數(shù)據集

        I2B2 系列評測數(shù)據在國外的相關研究中占據了重要地位,其中,使用最廣泛的是2010年的評測數(shù)據集。

        THYME(Temporal Histories of Your Medical Event)是專注醫(yī)療領域關系抽取的THYME 項目推出的醫(yī)療關系抽取標注數(shù)據集,使用了來自梅奧醫(yī)學中心的數(shù)據。

        與命名實體識別類似,國內大多數(shù)電子病歷實體關系抽取的研究采用的是經過人工標注的采集自不同醫(yī)院的自由文本電子病歷。

        除此之外,2019 年阿里云天池實驗室公開了中文糖尿病標注數(shù)據集,該數(shù)據集來源于中文糖尿病領域的權威期刊,涵蓋了近7 年來糖尿病領域最廣泛的研究內容和熱點,包括實體標注和關系標注。雖然由于推出時間較短等原因,暫時未得到廣泛使用,但仍是具有一定權威性的中文關系標注開源數(shù)據集。

        3.3 電子病歷實體關系抽取研究及方法

        電子病歷實體關系抽取的方法比較多樣,早期的共現(xiàn)(Co-occurrence)分析[47]基于“實體與其關聯(lián)實體往往更加容易同時出現(xiàn)”的假設,能夠一定程度上判斷出關系的存在。機器學習得到廣泛應用之后,基于SVM 的多分類模型迅速成為主流方法,如Nikfarjam 等[48]在SVM 的基礎上,加入了基于圖的參考機制和規(guī)則的使用,在I2B2 2012評測任務中取得了較高的排名;而Kim 等[49]利用parse tree 結構和實體類型后綴提高了SVM在關系抽取任務上的效果。

        除此之外,很多其他統(tǒng)計機器學習方法也曾取得了比較好的效果,如de Bruijn 等[11]利用基于MEMM 的多個分類器分別抽取不同類型的實體間關系;Lv 等[50]在CRF 的基礎上,利用自編碼器對輸入特征進行優(yōu)化,在I2B2 2010評測數(shù)據集上取得了0.8 的F1 值。與命名實體識別類似,基于機器學習方法的實體關系抽取往往也離不開各種專業(yè)醫(yī)療詞典及規(guī)則的輔助。由于自由文本病歷大多比較簡短,在進行實體關系的抽取時,不容易獲取到足夠的上下文特征,這時就需要從相關的詞典等外部資源中獲取一部分所需的關系信息。

        進入深度學習時代,基于CNN 的方法被用來解決關系抽取問題。Sahu 等[51]利用卷積神經網絡來減少對人工特征工程的依賴,并在I2B2 2010評測任務中取得了0.711 6的F1值。后續(xù)的很多工作在CNN 模型的基礎上進行改進,成為常見的思路之一。由于Attention 機制的引入在最近幾年成為一種流行趨勢。Zhang 等[52]以ResNet 為基礎,在多個殘差塊后加入Attention 機制,在自標注的中文電子病歷上F1 值達到了0.778。

        基于RNN 的方法是目前的主流方法,如Dligach 等[53]將不同類型的標注序列分別輸入CNN 和LSTM,并將二者的輸出結果進行融合,得到的集成分類器在THYME 數(shù)據集上取得了較好的效果;Christopoulou 等[54]利用添加了Attention 機制的BiLSTM 和Transformer 分別進行句子內部和句子之間的實體關系抽取,利用多任務模型在N2C2(National NLP Clinical Challenges)評測任務中取得了較高的排名;Song 等[55]將圖循環(huán)網絡(Graph Recurrent Network,GRN)與BiLSTM 相結合,從而提高了BiLSTM 模型的效果;Xue等[56]在BERT的基礎上利用Attention 機制實現(xiàn)了命名實體識別和實體關系抽取的多任務處理。

        4 討論分析

        4.1 中文電子病歷語料庫等資源的缺乏

        自由文本電子病歷信息抽取的核心環(huán)節(jié)——命名實體識別、實體修飾識別和實體關系抽取的相關研究,在過去的十多年間取得了長足的進步。

        在國外,像I2B2、THYME這類專業(yè)的用于命名實體識別、實體修飾識別或實體關系抽取的數(shù)據集和語料庫早已出現(xiàn),并且得到了不斷的改良和廣泛的應用。

        而在國內,不但相關領域的研究開始得比較晚,而且在很長一段時間內,都缺少專業(yè)且全面的病歷文本語料庫。

        在2017 年之前,國內的命名實體識別研究一般都會選擇取自不同醫(yī)院的電子病歷文本,并根據需要進行自標注。來源以及標注方法的不同使得命名實體識別方法的優(yōu)劣無法很好地根據模型在這些自標注病歷文本上的效果來判斷。CCKS 中文電子病歷命名實體識別評測任務比賽的出現(xiàn)緩解了這一僵局,CCKS推出的專門用于命名實體識別的電子病歷數(shù)據集,使得近兩年來國內的相關研究取得了顯著進展。

        與命名實體識別領域的研究類似,國內的中文電子病歷實體修飾識別和實體關系抽取研究也一直只能依靠自標注的病歷文本展開,并且目前尚未出現(xiàn)比較權威且得到廣泛使用的數(shù)據集。

        隨著深度學習的發(fā)展,利用神經網絡等方法進行命名實體識別、實體修飾識別和實體關系抽取對數(shù)據的要求也變得更高。人工對數(shù)據進行標注能夠確保正確率,但需要耗費大量時間和人力。這使得國內相關研究所使用的自標注數(shù)據集往往規(guī)模較小。

        現(xiàn)有的深度學習方法絕大多數(shù)是基于完整標注數(shù)據的監(jiān)督學習。中文醫(yī)療領域語料庫資源的不完善對于相關研究的開展有著顯著的影響。雖然可以通過先在其他大規(guī)模數(shù)據集上預訓練,再在小規(guī)模病歷數(shù)據集上微調的方法,在一定程度上改善這個問題,但為了更好地解決這個問題,主流的方法是將病歷文本與現(xiàn)有的醫(yī)學領域知識圖譜進行對齊,利用遠程監(jiān)督自動標注大規(guī)模訓練數(shù)據。比如,在實體關系抽取任務的遠程監(jiān)督中,包含了兩個在知識圖譜中被標記為某種關系的實體的句子,也被視為表達了這種關系,因此可以用作這種關系的訓練樣例。這種方法的缺陷是容易產生過多錯誤標注。近年來,遠程監(jiān)督的錯誤率已經得到了明顯降低,但仍無法完全保證標注質量。

        此外,由于現(xiàn)有中文分詞工具,如中國科學院的漢語詞法分析系統(tǒng) ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[57]等,在實際應用中具有一定的限制,可能無法正確地識別用于實驗的語料中的一些實體名稱和信息;而且實體關系抽取中的特征選擇,很大程度上依賴于各種自然語言處理工具,如詞性標注(Part-Of-Speech tagging,POS)等,但中文的語義結構相對來說比較復雜,在處理過程中出現(xiàn)各種錯誤是不可避免的。

        另一方面,當前流行的各種深度學習模型都需要將詞向量作為模型的輸入,而針對中文電子病歷的詞向量訓練模型及詞向量表非常缺乏且大多不夠成熟,這也一定程度上阻礙了研究的發(fā)展。

        4.2 流行的改進思路和最新的嘗試

        通過對現(xiàn)有研究成果的總結可以看出,目前基于深度學習的方法已經在這三個研究領域成為主流。

        具體來說,在自由文本電子病歷的命名實體識別領域,基于雙向LSTM 與CRF 的組合序列標注模型和BERT 等transformer 模型在近兩年的最新成果中占據了主要地位,這是由于LSTM 能夠更好地獲取到較長距離的依賴關系及詞語在句子中的前后順序關系,而雙向LSTM 則在此基礎上增加了獲取雙向語義依賴的能力,從而使得該模型能夠充分地對上下文信息進行建模;同樣,BERT 的流行也主要源于其極強的長距離依賴捕捉能力。

        病歷文本實體修飾識別的相關研究相對較少,目前流行的方法多為基于BiLSTM或GRU等RNN模型的混合方法。

        而在近幾年的自由文本電子病歷的實體關系抽取研究成果中,則出現(xiàn)了多種不同的思路:基于CNN 的方法、基于BiLSTM 的方法、基于BERT 的方法等都實現(xiàn)了比較不錯的效果。

        在這些方法的基礎上,很多最新的研究成果將關注點放在了如何優(yōu)化現(xiàn)有方法上。目前比較流行的優(yōu)化思路包括以下幾種:

        通過改進模型,使其能夠通過同一輸入得到多個輸出,同時實現(xiàn)多種具有相關性的目標的多任務模型。多任務模型能夠在提高效率的同時,利用不同任務部分的相互補充,使得多種任務的最終效果都得到提升。這些任務往往在模型實現(xiàn)和數(shù)據來源上具有一定的相似性。

        由于命名實體識別與實體關系抽取具有一定的關聯(lián),即后者需要依據前者識別出的實體進行關系的抽取,所以傳統(tǒng)的思路大多是將二者按序進行的流水線方法。這種方式有很多缺點:1)命名實體識別部分的錯誤會影響到后續(xù)的實體關系抽取,導致最后的結果錯誤率更高;2)在整個過程中大量信息會丟失,影響最后的關系抽取效果;3)對第一步識別出來的實體兩兩配對后再進行關系分類,沒有關系的實體對會造成信息的冗余,從而提升錯誤率。

        聯(lián)合學習是一種多任務方法,在電子病歷信息抽取過程中,聯(lián)合學習能夠利用實體和關系之間緊密的交互信息,通過命名實體識別和關系分類共享參數(shù)的聯(lián)合模型,直接得到實體關系三元組,同時完成命名實體識別和實體對分類的任務,從而很好地解決了傳統(tǒng)方法存在的問題[58-59],如Liu等[60]利用self-attention 學習句子內部的關系,提高了BiLSTM 的聯(lián)合抽取效果?,F(xiàn)有的方法大多只考慮了每個詞屬于一個三元組的情況,而且模型相對來說比較復雜,在數(shù)據量較少的情況下效果不夠理想,因此還有很大的提升空間。

        在BERT 等預訓練模型流行起來之后,在BERT 基礎上進行改良,并利用多任務模型完成實體識別和關系抽取的方法開始出現(xiàn),如Xue 等[56]利用動態(tài)距離Attention 機制增強了共享參數(shù)部分的特征表達能力,Eberts 等[61]則利用負采樣、局部化上下文表征等手段提高了BERT 模型在聯(lián)合抽取任務上的效果。

        同樣,命名實體識別與實體修飾識別具有較強的關聯(lián)性,也有研究將二者結合起來,利用多任務模型同時完成這兩項任務,如Bhatia 等[62]對常見的雙解碼器多任務模型進行了改良,讓兩個任務共享解碼器,只對修飾識別任務的輸出層進行特殊處理,最終使用I2B2 2010 數(shù)據集在實體識別、修飾識別任務中分別取得了0.855和0.905的F1值。

        另一種流行的思路是引入Attention 機制。Attention 機制能夠從較長的序列中學習到每一個元素的重要程度,并依靠重要程度對序列中的元素進行合并。這種機制的引入使得模型能夠選擇性地關注輸入序列中更具有價值的部分。事實證明,Attention 機制的引入對于部分命名實體識別、實體修飾識別和實體關系抽取模型具有一定的優(yōu)化效果。

        除了上述這些已經經過多次實踐檢驗的有效改進手段之外,還有一些相關領域的最新嘗試暫時沒有有效地應用在中文電子病歷的實體識別、修飾識別和關系抽取任務中。

        比如小樣本學習,這種方法的目標是在樣本有限的情況下盡可能地提升分類效果。Han 等[63]首次嘗試將小樣本學習引入到關系抽取任務中,利用度量學習、元學習、參數(shù)預測、原型網絡等小樣本學習方法分別進行嘗試,并在之后利用海量無監(jiān)督數(shù)據對BERT 進行了預訓練,從而為小樣本學習模型提供有效的語義特征,最終實現(xiàn)了較為理想的效果。

        利用關系之間的依賴關系來輔助進行信息抽取,但這種關系很難從數(shù)據集中學習到。引入關系路徑等作為先驗信息和利用ranking loss 建立關系依賴是目前比較常見的思路,但仍有很大研究空間。

        除此之外,利用圖神經網絡來進行關系推理是最近的熱門研究方向之一,但在電子病歷信息抽取的研究中暫時還沒有得到推廣,在未來一段時間內可能成為一個比較有潛力的發(fā)展趨勢。

        4.3 仍存在的其他不足和缺陷

        雖然現(xiàn)有的電子病歷信息抽取方法已經取得了大量優(yōu)秀的成果,也誕生了許多嶄新的研究思路,但目前仍存在著一些不足和缺陷沒有得到解決。

        首先,現(xiàn)有的方法往往只針對某種類型的封閉式數(shù)據集。即使是在電子病歷信息抽取這一個具體的領域,由于病歷文本在不同地區(qū)、不同醫(yī)院沒有統(tǒng)一的書寫規(guī)范,所以采集自不同醫(yī)院的病歷數(shù)據具有較大的差異性,導致在某個數(shù)據集上完成訓練并實現(xiàn)較高精度的模型,經常會在用其他數(shù)據集進行測試時無法取得令人滿意的效果。這不僅對模型的普適性提出了較高要求,同時也離不開相關標準規(guī)定的出臺和落實,是一個目前難以完全解決的問題。

        此外,深度學習相較于早期基于規(guī)則和詞典的方法,更容易消除歧義,但也存在著一定的不足,比如在命名實體識別任務中,深度學習模型往往在邊界的界定上不夠準確。引入詞典信息是目前比較常規(guī)的解決方法,即先利用詞典進行分詞,然后對分詞序列進行標注,然而這種簡單的方法容易由于誤差傳遞而導致最終的效果更差。針對這個問題,有研究提出可以為每個字符保存所有可能匹配的單詞[64],但缺點是儲存信息太多導致速度過慢。如何在引入詞典信息以提升精度的同時保證運行的效率,應當成為下一階段的研究重點之一。

        5 結語

        自由文本電子病歷信息抽取技術的發(fā)展,一方面能夠方便醫(yī)院對歷史病歷記錄和現(xiàn)在乃至未來的結構化病歷記錄進行系統(tǒng)性地管理,從而在需要時提高病歷信息查詢、統(tǒng)計、分析,各科室協(xié)同合作以及決策實施和調控的效率;另一方面也完善了醫(yī)療領域的各種知識庫,為后續(xù)的研究,如醫(yī)療領域知識圖譜的完善、臨床路徑的建設等提供更加專業(yè)且便于使用的數(shù)據來源。

        本文針對自由文本電子病歷信息抽取最重要的三個部分——命名實體識別、實體修飾識別和實體關系抽取分別調研了多篇嚴格挑選的國內外有創(chuàng)新性的論文,并對這些論文的主要方法、使用的外部資源、數(shù)據集、模型效果等進行了對比總結。

        自由文本電子病歷命名實體識別的幾個典型方法包括傳統(tǒng)的基于詞典和規(guī)則的方法、統(tǒng)計機器學習模型CRF 和深度學習模型LSTM?;谠~典和人工制定規(guī)則的方法可以實現(xiàn)很高的精確度,但由于詞典大小有限,使得召回率較低,從而造成整體的精度受限。CRF 模型融合了MEMM 和HMM 的優(yōu)點,能夠對隱含狀態(tài)進行建模,并學習狀態(tài)序列的特征,充分地利用豐富的內部和上下文特征信息,但具有需要人工提取序列特征的缺點。LSTM及BiLSTM能夠學習到輸入序列之間的依賴關系。在訓練過程中,LSTM能夠根據目標實體自動提取輸入序列的特征,但無法學習到輸出狀態(tài)序列(標注)之間的關系。因此,使用LSTM 的優(yōu)點在于可以不必進行繁瑣的特征工程,而缺點是無法學習到標注的上下文信息。而目前流行的BiLSTM-CRF模型則能夠將兩者的優(yōu)點結合起來。

        自由文本電子病歷實體修飾識別的流行方法多為基于各種RNN 模型的混合方法,這些方法在面對細致的修飾分類時,相較于基于規(guī)則的傳統(tǒng)方法,更能夠取得比較理想的效果。

        自由文本電子病歷實體關系抽取的典型方法為深度學習模型LSTM 和CNN。CNN 模型相對于LSTM,無法很好地獲取非連續(xù)詞之間的依賴關系,但對特征的提取更加充分,所以二者結合的CNN-LSTM 模型很好地結合了兩者的優(yōu)點,成為了比較流行的方法之一。

        目前,將現(xiàn)有模型進行結合,以及加入其他先進的自然語言處理模型(如BERT)在一段時間內仍將是研究的重點。針對標注數(shù)據代價較高的問題,可以利用遠程監(jiān)督來得到較為準確的訓練數(shù)據,從而使得現(xiàn)有模型的效果得到提升,但存在著誤差傳遞會導致最終的關系抽取任務準確率不夠高的問題。另一方面,電子病歷命名實體識別作為修飾識別和關系抽取的前置任務,與這兩個任務具有很強的關聯(lián)性和互補性,在現(xiàn)有研究成果中,這三項任務的主流方法均存在著一定的相似性。因此,將實體識別和修飾識別或關系抽取結合起來,進行端到端的聯(lián)合抽取,雖然現(xiàn)階段有著模型過于復雜的缺點,但隨著深度學習模型的不斷發(fā)展,在解決了數(shù)據資源不足問題之后,預計能夠取得較好的效果。除此之外,小樣本學習、圖神經網絡等研究方向尚在初步發(fā)展的階段,具有很大的發(fā)展?jié)摿Α?/p>

        中文電子病歷的信息抽取研究起步較晚,各種語料庫和工具資源相對短缺,病歷文本的格式缺乏統(tǒng)一的標準,并且由于中文和英文的語言特點差異,實際使用時的處理方法也不盡相同。以上這些因素在一定程度上限制了中文電子病歷相關研究的開展。因此,除了嘗試各種新的模型思路,改善這些實際存在的問題也是當務之急。在良好的規(guī)范與充足的資源的輔助下,自由文本中文電子病歷信息抽取這一研究領域將會得到進一步的發(fā)展。

        致謝:感謝百度-清華大學軟件學院AI 醫(yī)療科研合作項目對本文提供支持。

        猜你喜歡
        命名病歷實體
        強迫癥病歷簿
        趣味(語文)(2021年9期)2022-01-18 05:52:42
        命名——助力有機化學的學習
        “大數(shù)的認識”的診斷病歷
        前海自貿區(qū):金融服務實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        哲學評論(2017年1期)2017-07-31 18:04:00
        兩會進行時:緊扣實體經濟“釘釘子”
        振興實體經濟地方如何“釘釘子”
        為何要公開全部病歷?
        日本视频一区二区三区三州| 国产免费看网站v片不遮挡| 国产午夜福利短视频| 人人色在线视频播放| 97人妻碰碰视频免费上线| 亚洲av片不卡无码久久| 免费a级毛片在线观看| 亚洲精品aⅴ无码精品丝袜足| 少妇特殊按摩高潮惨叫无码| 国产av区亚洲av毛片| 成人爽a毛片在线播放| 一级r片内射视频播放免费 | 亚洲成av人片天堂网无码| 亚洲国产精华液网站w| 国产jizzjizz视频免费看| 91精品91| 亚洲国产精品久久性色av| 国产亚洲一区二区精品| 蜜桃视频网站在线观看一区| 国产精品天干天干综合网| 又大又粗又爽的少妇免费视频| 亚洲中文字幕无码mv| 麻豆久久五月国产综合| 亚洲综合网一区二区三区| 麻豆国产精品伦理视频| 国产无遮挡aaa片爽爽| 欧美内射深喉中文字幕| 国产激情з∠视频一区二区| 国产免费人成视频在线播放播| 亚洲无人区一码二码国产内射 | 人禽无码视频在线观看| 国产美女自拍国语对白| 91中文在线九色视频| 无套内内射视频网站| 国产精品污www一区二区三区| 国产资源在线视频| 日韩亚洲在线观看视频| 一区二区三区无码高清视频| 天天做天天爱天天综合网2021| 成在人线av无码免费| 99re6久精品国产首页|