趙琬清 胡佳慧 婁 培 陳凌云 方 安
(中國醫(yī)學科學院/北京協(xié)和醫(yī)學院醫(yī)學信息研究所 北京 100020)
相比開放領域數據,電子病歷數據具有較強隱私性。盡管國內外許多學者對電子病歷信息抽取進行了深入研究,但相關研究數據難以公開。通過開展電子病歷開放評測使更多研究人員參與到臨床信息抽取任務中,能夠促進更大范圍的臨床自然語言處理研究?;谟⑽牡呐R床信息抽取評測以美國國家臨床自然語言處理挑戰(zhàn)(Informatics for Integrating Biology & the Bedside / National NLP Clinical Challenges,i2b2/n2c2)和只標注醫(yī)療問題的命名實體語料庫(Shared Annotated Resources /Conference and Labs of the Evaluation Forum,ShARe/CLEF)健康評估實驗室(eHealth Evaluation Lab)為典型代表?;谌瘴牡呐R床信息抽取評測主要是日本國家科學信息系統(tǒng)中心信息檢索系統(tǒng)測試集會議(NII Testbeds and Community for Information Access Research,NTCIR)會議組織的電子病歷評測。我國基于中文的臨床信息抽取評測主要有兩項,分別是中國知識圖譜與語義計算大會(China Conference on Knowledge Graph and Semantic Computing,CCKS)和中國健康信息處理大會(China Conference on Health Information Processing,CHIP)每年組織的評測,均由中文信息學會主辦。本文基于國內外典型臨床信息處理開放評測案例,首先介紹評測基本概況,重點分析評測語料、評測任務以及信息抽取方法,在此基礎上探討面向臨床需求的信息抽取發(fā)展方向,為基于中文臨床文本的進一步分析與挖掘提供參考借鑒。
由美國國立衛(wèi)生研究院(National Institutes of Health,NIH)資助成立的生物醫(yī)學計算中心,自2006年起開始組織臨床記錄自然語言處理挑戰(zhàn)的研討會,至今已舉辦10屆。鑒于i2b2在臨床自然語言處理方面做出的卓越貢獻,這一系列評測于2018年被命名為美國國家臨床自然語言處理挑戰(zhàn)(National NLP Clinical Challenges,n2c2)。
主要針對歐洲語言進行的信息檢索開放評測平臺,于2003 年開展第1屆多語言問答系統(tǒng)評測項目。2013年CLEF發(fā)布臨床信息抽取相關評測[1],基于該評測數據集,SemEval2014[2]和SemEval2015[3]相繼開展臨床文本語義相似度任務。
為滿足面向咨詢檢索與自然語言處理研究需要,日本國家科學咨詢系統(tǒng)中心(National Center for Science Information Systems,NACSIS)開展基于日文的信息檢索測試集(NACSIS Test Collections for IR,NTCIR)計劃,將數據集作為相關研究的基礎語料。在臨床信息抽取方面NTCIR自2013年起舉辦了4屆相關評測任務。
由中國中文信息學會語言與知識計算專業(yè)委員會主辦。2017年至今針對中文電子病歷開展連續(xù)3屆評測任務。
由中國中文信息學會醫(yī)療健康與生物信息處理專業(yè)委員會主辦,會議涉及醫(yī)療、健康和生物信息處理相關領域。CHIP自2018年起已連續(xù)開展兩屆臨床信息相關抽取評測。
開放評測語料概況,見表1。出院小結中含有大量臨床實體,因此大量臨床信息評測任務選取出院小結作為原始文本數據。臨床信息抽取任務中的標準評測數據需要領域專家進行數據篩選與人工標注,從數據量角度,各評測任務中電子病歷數據量均未超過1 500份,說明臨床信息數據標注難度較大。而幾個數據量較多的評測任務,其量化數據的標準為句子和短語對,有些文本來源為互聯(lián)網開放數據。
表1 開放評測語料概況
續(xù)表1
3.2.1 臨床實體識別 從國內外開放評測任務數量來看,最多的評測任務為實體識別,識別不同類別實體,主要為隱私和臨床實體。臨床信息特殊性在于極強的隱私性,因此去隱私識別是臨床信息抽取以及后續(xù)科學研究分析的重要先決條件,已有多個評測開展去隱私識別任務。i2b2 2006發(fā)布去隱私識別任務,其中隱私信息包括患者姓名,醫(yī)生姓名,醫(yī)療和護理機構名稱,ID號(識別醫(yī)療記錄、患者、醫(yī)生或醫(yī)院的數字),日期(包括所有類型日期,但不包括年份),地理位置,電話號碼和年齡(90歲以上的為隱私,90歲以下的不做處理)。i2b2 2014發(fā)布糖尿病患者醫(yī)療記錄去隱私識別任務,在i2b2 2006的基礎上增加職業(yè)這一隱私類別。NTCIR 10(2013年)發(fā)布虛構電子病歷的去隱私任務。i2b2 2016發(fā)布精神病臨床記錄的去隱私任務。電子病歷中蘊含豐富的臨床實體,臨床實體識別是非結構化臨床文本處理的首要、關鍵步驟。國外已發(fā)布許多臨床實體識別相關評測任務。i2b2 2009評測任務從出院小結中提取7種與藥品相關的屬性信息,包括藥品名稱、劑量、用藥方式、用藥頻率、用藥持續(xù)時間、用藥原因以及列表/敘述(藥品信息出現(xiàn)在列表結構還是出院小結的敘述文本中)。該評測任務著眼于藥品相關信息,其提取可以為藥品不良反應的提取提供基礎支撐。i2b2 2010評測任務分別為從病程記錄和出院小結中抽取醫(yī)療概念、醫(yī)療概念的修飾分類以及醫(yī)療概念之間的關系,該屆評測是i2b2 舉辦的醫(yī)療文本處理領域評測中最受廣泛關注的一屆。醫(yī)療概念抽取任務可視為一個信息抽取任務,要求參賽者從無標注的患者病歷中抽取醫(yī)療問題、治療和檢查3類實體;醫(yī)療概念的修飾分類任務要求參賽者識別病歷中醫(yī)療問題概念的修飾;醫(yī)療概念間的關系抽取任務主要識別醫(yī)療問題、檢查和治療3類概念之間的關系。i2b2 2014的冠心病風險因素識別任務中冠心病風險因素識別包括吸煙史、家族史、高血壓、高血脂等因素的危險程度。n2c2 2018發(fā)布電子病歷中藥物與藥物不良反應的實體與關系提取的評測任務,從臨床記錄中提取藥物不良反應對用藥安全以及新藥研發(fā)具有臨床指導意義。n2c2 2019發(fā)布家族史信息提取評測任務[27],家族史信息在疾病尤其是遺傳病的診斷和治療中有重要作用,但這些信息通常存在于非結構化文本中,需要抽取家族史中的遺傳、生活習慣信息進行輔助治療。CLEF 2013的評測任務包括病歷疾病概念的提取。NTCIR 10(2013年)的評測任務為主訴和診斷的提取,NTCIR 11(2014年)的評測任務之一為從電子病歷中提取疾病名稱。近年來基于中文電子病歷的臨床實體識別受到廣泛關注,相關評測任務也相繼開展。CCKS自2017年起開展臨床信息的命名實體識別任務。CCKS 2017評測任務識別的臨床實體包括癥狀和體征、檢查和檢驗、疾病和診斷、治療以及身體部位5類。CCKS 2018評測任務聚焦現(xiàn)病史識別解剖部位、癥狀描述、獨立癥狀、藥物和手術5類臨床實體。CCKS 2019在結合前兩年評測任務的基礎上,識別疾病和診斷、檢查、檢驗、手術、藥物以及解剖部位6類臨床實體。此外在CHIP 2018評測任務中增添對影像報告文本的識別,從影像報告文本中抽取所需的腫瘤原發(fā)部位、病灶大小和轉移部位,這一任務可以看作臨床實體識別與實際臨床需求的更緊密結合,通過自動分析影像報告文本,更直觀地提供簡練的結構化分析結果。CCKS 2019在CHIP 2018醫(yī)療實體及屬性抽取任務的基礎上發(fā)布影像報告文本中臨床醫(yī)療實體及屬性抽取。此外電子病歷中時間信息非常重要,i2b2 2012 評測任務抽取出院小結中的時間關系。以往實體識別任務多關注臨床意義明確的醫(yī)療實體,如疾病、治療等,而時間線作為電子病歷記錄中的關鍵信息也需要進行結構化,這一信息處理過程能為臨床提供更多的參考信息。
3.2.2 分類任務 除實體識別任務外,另一類評測任務為患者分類任務。從不同維度對電子病歷中的內容標記,進而對患者進行分類。i2b2 2006發(fā)布吸煙狀態(tài)識別評測任務。吸煙狀態(tài)識別數據由兩名肺科醫(yī)生共同進行標注,標注不一致的地方再由另外兩名肺科醫(yī)生判斷。肺科醫(yī)生根據病歷信息和專業(yè)知識經驗將患者吸煙狀態(tài)分為5類:過去吸煙、當前吸煙、吸煙、不吸煙和未知。吸煙狀態(tài)識別任務是一個分類任務,基于電子病歷記錄對不同患者進行吸煙狀態(tài)分類,有助于后續(xù)進一步對不同類別患者進行臨床研究。i2b2 2008 評測任務從出院小結中自動抽取肥胖信息及15種常見并發(fā)癥,包括哮喘、動脈粥樣硬化性心血管疾病、充血性心力衰竭、抑郁癥、糖尿病、膽結石/膽囊切除術、胃食管反流病、痛風、高膽固醇血癥、高血壓、高甘油三酯血癥、阻塞性睡眠呼吸暫停、骨關節(jié)炎、外周血管病和靜脈功能不全。該評測任務與i2b2 2006的吸煙狀態(tài)識別任務類似,最終患者被分類為肥胖、不肥胖、可能肥胖與未提及4種類別。相比吸煙狀態(tài)識別任務,肥胖與相關并發(fā)癥的識別具有更強的臨床意義,評測方法對后續(xù)相關并發(fā)癥與肥胖研究有指導意義。i2b2 2016發(fā)布精神病學評估記錄中患者精神病癥狀嚴重程度分類任務?,F(xiàn)代社會對精神疾病的定義越發(fā)清晰,從精神病學評估記錄中確定患者精神病癥狀嚴重程度能夠對患者后續(xù)治療給予有力干預。n2c2 2018臨床試驗篩選任務從臨床記錄中確定患者是否符合臨床試驗篩選標準。該評測新增了臨床試驗篩選標準,臨床試驗是指通過受試者進行藥物的系統(tǒng)科學研究,一般通過人工比較受試者病歷記錄和臨床試驗篩選標準完成,這種方式費時費力且效率低下,通過自然語言處理和機器學習方法對臨床記錄進行自動解析并比對臨床試驗篩選標準,自動進行臨床試驗篩選。CHIP 2019試驗篩選標準短文本分類任務與n2c2 2018臨床試驗篩選任務十分相似,通過自然語言與機器學習方法自動從臨床記錄中提取符合臨床試驗的受試者,具有廣闊的實際應用前景和較高的臨床研究價值。NTCIR 13(2016年)的任務為tweet多標簽分類任務,將每條tweet標記為8種疾病/癥狀陰性或陽性的兩種標簽狀態(tài),共發(fā)布中、日、英3種語言的語料數據,這一任務的原始數據已經不屬于臨床信息領域,但是其目標疾病/癥狀為流感、腹瀉/胃痛、花粉過敏、咳嗽/喉嚨痛、頭痛、發(fā)燒、流鼻涕和感冒,具有一定的臨床研究價值。
3.2.3 臨床術語標準化 醫(yī)學統(tǒng)計中不可或缺的一項任務。由于各種臨床實體有多種不同的表述形式,標準化工作能為臨床實體找到標準化的表述形式。這本質上也是一種語義相似度匹配任務,與臨床文本的相似度計算類似。i2b2 2011 評測任務是指代消解,關注實體之間等價關系,抽取出院小結、病程記錄和臨床報告等病歷文本中相同指代實體。n2c2 2019第1個與第3個評測任務分別為臨床文本語義相似度計算[28]和臨床術語標準化[29]。以往的評測任務多針對臨床記錄的臨床實體進行識別,而電子病歷記錄的廣泛應用也帶來一系列問題,由于可復制粘貼、模板的使用造成電子病歷冗余和錯誤問題增多。臨床文本語義相似度計算任務旨在通過計算臨床文本之間的語義相似度,檢測和消除冗余信息,排查錯誤,優(yōu)化臨床決策。在非結構化臨床記錄中有效使用和交換臨床相關概念信息需要命名實體識別和命名實體規(guī)范化兩個互補過程。命名實體識別從臨床記錄中抽取臨床相關概念。命名實體規(guī)范化涉及將命名實體與標準化醫(yī)學術語中的概念聯(lián)系起來,將臨床上各種不同說法的概念找到對應的標準術語概念,便于電子病歷進行后續(xù)統(tǒng)計分析以及科學研究。TCIR 11(2014年)的任務是從電子病歷中提取疾病名稱與日期并將疾病名稱映射到ICD-10編碼中,旨在通過自動方法完成疾病名稱與標準化詞/編碼的映射;NTCIR 12(2015年)任務在NTCIR 11(2014年)的基礎上更改為完成患者電子病歷記錄到ICD-10編碼的映射。CHIP 2018的問句相似度匹配任務針對中文互聯(lián)網上真實患者疾病問答數據進行問句意圖匹配。CHIP 2019繼續(xù)開展疾病問答遷移學習評測任務,與前一年度的問句相似度匹配任務類似,為疾病問答數據增添新的語料,后續(xù)可以進行病種間的遷移學習,這兩次評測任務的數據主體來源于互聯(lián)網,為互聯(lián)網智能分診、智能客服等應用提供基礎。CHIP 2019發(fā)布臨床手術術語標準化評測任務,具體內容為臨床手術術語的標準化,為中文手術術語標準化研究提供珍貴語料。
開放評測為臨床信息抽取研究領域提供珍貴的語料數據,評測任務開展過程中參賽者選取的信息抽取方法為未來研究提供啟示。傳統(tǒng)方法多為字典、規(guī)則、隱馬爾科夫模型(Hidden Markov Model,HMM)、條件隨機場模型(Conditional Random Field,CRF)和支持向量機(Support Vector Machine, SVM)等,其中CRF模型在信息抽取領域取得較為顯著的成果。隨著神經網絡與深度學習的發(fā)展,越來越多的信息抽取任務采用深度學習方法,并結合傳統(tǒng)的規(guī)則與機器學習方法,如LSTM-CRF模型、BiLSTM-CRF模型等。中文相關臨床信息抽取評測較英文評測開展時間晚,相對來說方法更新穎,多采用融合方法,選取混合傳統(tǒng)規(guī)則與字典方法、機器學習、深度學習的模型。BERT(Bidirectional Encoder Representations from Transformers)模型[30]由Google AI團隊于2018年11月提出,基于該模型已在自然語言處理相關任務中表現(xiàn)出較好性能,2019年CCKS和CHIP兩項信息抽取評測任務中幾乎所有評測隊伍都融合該模型并取得顯著效果。
開放評測中的實體識別、分類、標準化等任務是信息抽取的基礎性工作。在非結構化臨床記錄中命名實體識別任務是從臨床記錄中抽取臨床相關概念的第1步,而這些臨床概念由于書寫錯誤、不同的表述形式,難以有效地使用和交換。因此需要通過臨床術語標準化任務將命名實體與標準化醫(yī)學術語中的概念聯(lián)系起來,為臨床上各種不同說法的概念找到對應的標準術語概念,便于電子病歷進行后續(xù)統(tǒng)計分析以及進一步科學研究。臨床術語標準化任務原理還可進一步用于病歷書寫質檢,提高電子病歷質量,更好地為患者服務。這些臨床信息抽取任務可看作是臨床記錄打標簽的過程,而臨床試驗自動篩選正是基于患者不同特征建模,進而篩選出符合臨床試驗的受試者。臨床文本相似度匹配任務可作為臨床信息檢索、患者健康問答的基礎,能夠快速、準確找到相似的臨床信息以及相關健康問答,為臨床科研以及健康科普提供有力支撐。
隨著醫(yī)學信息化與智能化不斷發(fā)展,電子病歷作為蘊含豐富醫(yī)療資源的寶庫越來越受到重視。i2b2是臨床信息抽取評測領域中開展最早且持續(xù)發(fā)布不同臨床信息評測任務的機構,其歷年的評測任務主要從不同類型實體識別任務轉為臨床信息分類、臨床術語標準化以及臨床試驗自動篩選,更進一步面向臨床信息處理的實際需求。中文臨床信息抽取相關評測雖然起步較晚,但受到的關注度較高。針對臨床術語的標準化研究工作,目前的評測任務只針對部分手術術語進行標準化,基于疾病、治療等臨床實體的標準化以及基于臨床文本語義相似度計算的中文臨床信息抽取相關研究還有待進一步開展。