隗 昊,周 愛,張益嘉,陳 飛,屈 雯,魯明羽
大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連116026
隨著生物醫(yī)學(xué)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,近年來,生物醫(yī)學(xué)領(lǐng)域相關(guān)資料、文獻(xiàn)、數(shù)據(jù)等數(shù)字化文本信息呈現(xiàn)出指數(shù)級(jí)增長趨勢[1]。海量的生物醫(yī)學(xué)文獻(xiàn)中蘊(yùn)含著豐富的、前沿的生物醫(yī)學(xué)知識(shí),是相關(guān)從業(yè)人員重要的知識(shí)來源,要從中迅速準(zhǔn)確地獲取真正需要的特定知識(shí),必須借助于智能化的文本挖掘等有效技術(shù)手段和工具來應(yīng)對信息爆炸時(shí)代的挑戰(zhàn)。作為文本挖掘的關(guān)鍵基礎(chǔ)和重要內(nèi)容,信息抽取的相關(guān)任務(wù)日漸成為人們關(guān)注的熱點(diǎn)。
信息抽取[2](Information Extraction,IE)肇始于20世紀(jì)60年代中期,是指從非結(jié)構(gòu)化或半結(jié)構(gòu)化文本中提取關(guān)鍵信息并整合為結(jié)構(gòu)化信息的一項(xiàng)綜合技術(shù),目前已被廣泛應(yīng)用于信息檢索、問答系統(tǒng)、輿情分析等多個(gè)重要任務(wù)。其中,命名實(shí)體識(shí)別(Named Entity Recognition,NER)和關(guān)系抽?。≧elation Extraction,RE)作為信息抽取的核心任務(wù)和基礎(chǔ)工作,也順理成章地成為研究重點(diǎn)之一。在生物醫(yī)學(xué)領(lǐng)域,信息抽取工作包括從醫(yī)學(xué)文獻(xiàn)中識(shí)別疾病名、藥品名、化合物名等實(shí)體,并抽取實(shí)體間的交互作用關(guān)系等(如圖1所示),這對于生物醫(yī)學(xué)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)研究的展開有著非常重要的意義和應(yīng)用價(jià)值。例如,識(shí)別并抽取蛋白質(zhì)之間的相互作用關(guān)系可以構(gòu)建蛋白質(zhì)復(fù)雜網(wǎng)絡(luò),以此進(jìn)行復(fù)合物發(fā)現(xiàn)工作;提取藥物和藥物以及藥物和疾病之間的相互作用關(guān)系可以開發(fā)“藥物-疾病”知識(shí)圖譜,并由此進(jìn)行“老藥新用”研究;藥物之間的相互作用關(guān)系可以發(fā)現(xiàn)藥物之間的不良反應(yīng),可應(yīng)用于指導(dǎo)病人科學(xué)服藥的在線診療系統(tǒng)。因此,以命名實(shí)體識(shí)別和關(guān)系抽取為代表的生物醫(yī)學(xué)信息抽取工作在領(lǐng)域知識(shí)圖譜構(gòu)建、藥物重定位、智能醫(yī)療等研究中具有非常重要的意義和作用。
圖1 生物醫(yī)學(xué)實(shí)體關(guān)系抽取Fig.1 Biomedical entity relation extraction
近年來,隨著計(jì)算機(jī)硬件性能和計(jì)算能力的提升,由Hinton等人[3]提出的深度學(xué)習(xí)方法迅速成為研究熱點(diǎn),因其幾乎不需要任何人工參與模型的訓(xùn)練過程且性能優(yōu)異、效果穩(wěn)定而被廣泛應(yīng)用于圖像處理、自然語言處理(Natural Language Processing,NLP)等領(lǐng)域。常見的深度神經(jīng)網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò)[4](Convolutional Neural Network,CNN)、Transformer網(wǎng)絡(luò)[5]、循環(huán)神經(jīng)網(wǎng)絡(luò)[6](Recurrent Neural Network,RNN)及其變種的長短時(shí)記憶網(wǎng)絡(luò)[7](Long Short-Term Memory,LSTM)和門控循環(huán)單元網(wǎng)絡(luò)[8](Gated Recurrent Unit,GRU)等。隨著深度學(xué)習(xí)時(shí)代的來臨,神經(jīng)網(wǎng)絡(luò)模型為生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別和關(guān)系抽取工作也帶來了新的突破。本文將對基于深度學(xué)習(xí)方法的生物醫(yī)學(xué)命名實(shí)體識(shí)別和關(guān)系抽取的發(fā)展歷程和研究進(jìn)展分別進(jìn)行歸納和概括。
在生物醫(yī)學(xué)領(lǐng)域,識(shí)別領(lǐng)域文本中的實(shí)體是整個(gè)生物醫(yī)學(xué)文本挖掘工作的基礎(chǔ)和關(guān)鍵,命名實(shí)體識(shí)別任務(wù)主要包括識(shí)別生物醫(yī)學(xué)文本中的基因、蛋白質(zhì)、疾病、藥物、化合物等名稱,一直是NLP領(lǐng)域中的研究熱點(diǎn)。由于生物醫(yī)學(xué)文本的自身存在復(fù)雜性高、縮寫詞多、領(lǐng)域性強(qiáng)等特點(diǎn),與通用領(lǐng)域相比,生物醫(yī)學(xué)領(lǐng)域?qū)嶓w識(shí)別任務(wù)存在以下諸多難點(diǎn),如:領(lǐng)域?qū)S袑?shí)體數(shù)量多且識(shí)別困難;短語類實(shí)體較多且邊界難以劃分;領(lǐng)域?qū)嶓w缺少統(tǒng)一的命名規(guī)則,產(chǎn)生許多存在歧義的命名實(shí)體;存在大量縮寫、嵌套、含特殊字符的命名實(shí)體等。示例如圖2所示。
圖2 生物醫(yī)學(xué)命名實(shí)體識(shí)別難點(diǎn)示例Fig.2 Difficulties of biomedical named entity recognition
生物醫(yī)學(xué)命名實(shí)體識(shí)別的評(píng)價(jià)標(biāo)準(zhǔn)為當(dāng)模型對基于BIO或IOBES等方案標(biāo)注的實(shí)體邊界及預(yù)先定義的實(shí)體類型均正確識(shí)別時(shí),方可判定預(yù)測結(jié)果為正確。評(píng)估模型性能常用的指標(biāo)為準(zhǔn)確率(P)、召回率(R)和F1值,具體的計(jì)算方法如下:
其中,TP表示模型預(yù)測為正例的真實(shí)正例個(gè)數(shù),即正確預(yù)測的樣本個(gè)數(shù);FP表示模型預(yù)測為正例的真實(shí)負(fù)例個(gè)數(shù);FN表示模型預(yù)測為負(fù)例的真實(shí)正例個(gè)數(shù)。FP+FN為模型預(yù)測錯(cuò)誤的樣本總數(shù)。
早期生物醫(yī)學(xué)的實(shí)體識(shí)別工作均是由人工構(gòu)造詞典或規(guī)則的方法完成[9-13]。這類方法均需要由領(lǐng)域?qū)<覅⑴c構(gòu)建領(lǐng)域詞典或規(guī)則模板,費(fèi)時(shí)費(fèi)力且對領(lǐng)域知識(shí)依賴性強(qiáng),擴(kuò)展性和可移植性差,后期多被用于數(shù)據(jù)清洗,并與機(jī)器學(xué)習(xí)方法結(jié)合以提升模型性能。隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,傳統(tǒng)機(jī)器學(xué)習(xí)方法被用于生物醫(yī)學(xué)領(lǐng)域?qū)嶓w識(shí)別工作[14-15]。這類模型通過數(shù)據(jù)預(yù)處理進(jìn)行特征選擇,由機(jī)器代替部分人工完成對輸入樣本的學(xué)習(xí)和訓(xùn)練,這相對降低了人工負(fù)擔(dān)和工作成本,在一定程度上提升了工作效率,但該類方法依舊依賴于特征工程,無法完全擺脫人工參與。
在基于深度學(xué)習(xí)方法的生物醫(yī)學(xué)NER研究方面,Yao等人[16]利用神經(jīng)網(wǎng)絡(luò)對大量生物醫(yī)學(xué)文本訓(xùn)練生成詞向量,然后構(gòu)建多層CNN進(jìn)行命名實(shí)體識(shí)別。Li等人[17]采用雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)方法構(gòu)建NER模型。Zhao等人[18]在疾病名和化合物識(shí)別任務(wù)中提出了多標(biāo)簽CNN方法,將實(shí)體識(shí)別任務(wù)作為分類任務(wù)處理,使用多標(biāo)簽機(jī)制獲取相鄰輸出標(biāo)簽間的關(guān)系。隨著研究的不斷深入,神經(jīng)網(wǎng)絡(luò)模型被發(fā)現(xiàn)無法處理序列標(biāo)注任務(wù)中的標(biāo)簽間強(qiáng)依賴問題,即預(yù)測標(biāo)簽不僅與當(dāng)前時(shí)刻的輸入特征相關(guān),還與先前時(shí)刻的預(yù)測標(biāo)簽相關(guān)。為了解決上述問題,研究者們考慮到條件隨機(jī)場模型(Conditional Random Field,CRF)在序列標(biāo)注問題中的優(yōu)勢,借鑒其主要思想,將標(biāo)簽轉(zhuǎn)移得分加入到了目標(biāo)函數(shù)中進(jìn)行標(biāo)簽預(yù)測,提出了BiLSTM-CRF架構(gòu),如圖3所示。Zeng等人[19]在藥物名識(shí)別任務(wù)中構(gòu)建了BiLSTMCRF模型,將雙向LSTM與CRF結(jié)合,并使用了詞向量和字符向量兩種特征表示,在2011和2013DDI實(shí)體識(shí)別任務(wù)中均取得了較好的效果。Lyu等人[20]使用基于大量生物醫(yī)學(xué)未標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練的詞向量和字符向量作為特征表示輸入,構(gòu)建了BiLSTM-RNN神經(jīng)網(wǎng)絡(luò)模型,最后通過CRF層解析句子標(biāo)簽,在JNLPBA和BC2GM數(shù)據(jù)集上F1值達(dá)到73.79%和86.55%。Li等人[21]提出CNN-BiLSTM-CRF模型,利用CNN獲取字符級(jí)特征表示用于捕獲生物醫(yī)學(xué)領(lǐng)域詞匯的內(nèi)部結(jié)構(gòu)特征,與詞向量結(jié)合后通過BiLSTM-CRF模型完成實(shí)體識(shí)別,在不依賴任何特征工程的前提下在JNLPBA和BC2GM數(shù)據(jù)集上F1值達(dá)到74.40%和89.09%。
圖3 BiLSTM-CRF模型基本框架Fig.3 Framework of BiLSTM-CRF model
對于生物醫(yī)學(xué)實(shí)體識(shí)別,文本序列中的不同字符攜帶信息的重要性和影響程度不同,通常存在大量的冗余信息,如何在神經(jīng)網(wǎng)絡(luò)特征學(xué)習(xí)中突出局部關(guān)鍵信息的作用成為提高NER模型性能的關(guān)鍵。Rei等人[22]基于BiLSTM-CRF的基礎(chǔ)架構(gòu),提出將詞級(jí)向量和字符級(jí)向量的拼接方式改為基于注意力機(jī)制的權(quán)重重分配求和,用于突出在特定的生物醫(yī)學(xué)領(lǐng)域下關(guān)鍵信息的重要程度,模型在四個(gè)生物醫(yī)學(xué)領(lǐng)域公共數(shù)據(jù)集上均取得了較好的效果。Pandey等人[23]基于BiLSTM結(jié)合注意力機(jī)制構(gòu)建了Encoder-Decoder模型,最后使用Skip-Chain CRF獲取標(biāo)簽序列,在根據(jù)Medline數(shù)據(jù)庫和電子健康記錄(EHR)構(gòu)建的兩個(gè)數(shù)據(jù)集中的實(shí)體識(shí)別效果較Baseline均有明顯提升。由于生物醫(yī)學(xué)領(lǐng)域?qū)嶓w存在命名規(guī)則不統(tǒng)一以及大量縮寫形式,Luo等人[24]在面向文檔級(jí)化合物命名實(shí)體識(shí)別中,構(gòu)建了BiLSTM-CRF與注意力機(jī)制相結(jié)合的NER模型,通過引入注意力機(jī)制獲取全局信息以保障文檔級(jí)數(shù)據(jù)中相同實(shí)體標(biāo)記的一致性,并提供了四種注意力權(quán)重的計(jì)算方法,在CHEMDNER和CDR語料中分別取得了91.14%和92.57%的F1值,證明了注意力機(jī)制的有效性。近期,隨著ELMo、BERT等預(yù)訓(xùn)練語言模型的出現(xiàn),基于情境化向量表示的神經(jīng)網(wǎng)絡(luò)模型也被廣泛地應(yīng)用于生物醫(yī)學(xué)領(lǐng)域。Lee等人[25]基于大量的生物醫(yī)學(xué)未標(biāo)注語料訓(xùn)練了BioBERT語言模型,Jin等人[26]基于PubMed摘要訓(xùn)練了BioELMo語言模型,Hakala等人[27]針對生物醫(yī)學(xué)實(shí)體識(shí)別任務(wù)構(gòu)建了多語種BERT。這類生物醫(yī)學(xué)預(yù)訓(xùn)練語言模型在各項(xiàng)主流NLP任務(wù)上均取得了先進(jìn)的性能。Yu等人[28]將BERT引入了BiLSTM-CRF模型,基于上下文語境動(dòng)態(tài)更新的向量表示輔助模型在電子病歷實(shí)體識(shí)別任務(wù)上實(shí)現(xiàn)了最佳性能。而Naseem等人[29]則整合了詞向量、字符向量、BioELMo和BioBERT多種特征表示,并構(gòu)建了基于注意力機(jī)制的BiLSTM-CRF,該模型在多種生物醫(yī)學(xué)NER數(shù)據(jù)集上均取得了較好的性能。這類方法需要依賴高性能設(shè)備和大規(guī)模運(yùn)算,但是大大提升了模型的特征捕獲和編碼能力。
深度學(xué)習(xí)方法雖然避免了對領(lǐng)域?qū)<摇I(yè)知識(shí)和特征工程的依賴,但一般需要大量預(yù)先標(biāo)注的訓(xùn)練語料,所以在基于深度學(xué)習(xí)方法的命名實(shí)體識(shí)別任務(wù)中如何在獲取更多訓(xùn)練樣本的同時(shí)降低噪聲數(shù)據(jù)的影響也是最近研究的重點(diǎn)。除了上述基于單任務(wù)學(xué)習(xí)的深度學(xué)習(xí)方法外,由于特定領(lǐng)域訓(xùn)練樣本不充分,許多學(xué)者采用遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)的方式訓(xùn)練模型,將與目標(biāo)任務(wù)關(guān)聯(lián)密切的輔助任務(wù)聯(lián)合起來協(xié)同訓(xùn)練,在減輕對帶標(biāo)注的訓(xùn)練數(shù)據(jù)依賴的同時(shí)獲取更多額外信息。Wang等人[30]基于BiLSTM-CRF構(gòu)建了三種多任務(wù)學(xué)習(xí)框架,并通過參數(shù)共享的方式建立全局模型,分別學(xué)習(xí)不同生物醫(yī)學(xué)實(shí)體類型的特征表示,通過對不同類型實(shí)體間詞級(jí)和字符級(jí)的信息共享,模型性能得到明顯提升,在包含四種生物醫(yī)學(xué)實(shí)體類型的五個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上取得了先進(jìn)的實(shí)驗(yàn)結(jié)果。由于生物醫(yī)學(xué)領(lǐng)域缺少充足的標(biāo)注訓(xùn)練樣本。Wei等人[31]提出了基于多任務(wù)學(xué)習(xí)的多通道BiGRU-CRF模型,首先分別利用生物醫(yī)學(xué)領(lǐng)域預(yù)訓(xùn)練詞向量、字符向量和ELMo拼接后生成豐富的輸入特征,并且使用單獨(dú)的雙向門控循環(huán)單元網(wǎng)絡(luò)(BiGRU)對其進(jìn)行訓(xùn)練,然后引入了類別標(biāo)簽相似的額外生物醫(yī)學(xué)語料庫輔助訓(xùn)練,該方法在JNLPBA和NCBI-Disease數(shù)據(jù)集上F1值達(dá)到76.0%和88.7%。Giorgi等人[32]從提升模型的泛化性出發(fā),以當(dāng)前主流的實(shí)體識(shí)別模型BiLSTM-CRF為基線,從多任務(wù)學(xué)習(xí)、遷移學(xué)習(xí)和變分Dropout三個(gè)方面進(jìn)行改進(jìn),最終模型性能在多種生物醫(yī)學(xué)數(shù)據(jù)集上均有提升,該項(xiàng)評(píng)估也驗(yàn)證了遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)等策略應(yīng)用在訓(xùn)練樣本較少的生物醫(yī)學(xué)領(lǐng)域中的有效性。
表1 列舉了近年來研究所采用的部分代表性數(shù)據(jù)集,包括名稱、實(shí)體類型以及下載鏈接。表2歸納和總結(jié)了基于深度學(xué)習(xí)的生物醫(yī)學(xué)命名實(shí)體識(shí)別方法的類型、代表工作和優(yōu)缺點(diǎn)。
表1 生物醫(yī)學(xué)領(lǐng)域命名實(shí)體識(shí)別部分代表性數(shù)據(jù)集Table 1 Mainstream corpora of biomedical named entity recognition
表2 生物醫(yī)學(xué)命名實(shí)體識(shí)別方法總結(jié)及優(yōu)缺點(diǎn)概述Table 2 Summary and limitations of biomedical named entity recognition methods
生物醫(yī)學(xué)領(lǐng)域關(guān)系抽取任務(wù)在于判斷文本中兩個(gè)實(shí)體之間的關(guān)系,比如在藥物文本中判斷兩個(gè)藥物之間是相互促進(jìn)、減弱還是會(huì)產(chǎn)生副作用等。生物醫(yī)學(xué)關(guān)系抽取揭示了醫(yī)學(xué)領(lǐng)域疾病、藥物、基因等重要實(shí)體之間的語義關(guān)系[33],在醫(yī)學(xué)知識(shí)圖譜構(gòu)建、可視化關(guān)系網(wǎng)絡(luò)生成、老藥新用等研究中具有重要作用。典型的生物醫(yī)學(xué)關(guān)系抽取任務(wù)有蛋白質(zhì)交互關(guān)系抽取[34](Protein-Protein Interaction,PPI)、藥物相互作用抽取[35](Drug-Drug Interaction,DDI)、化合物疾病交互關(guān)系抽取[36](Chemical-Disease Relation,CDR)等。
生物醫(yī)學(xué)文本資源豐富,但其中蘊(yùn)含的信息錯(cuò)綜復(fù)雜,存在大量領(lǐng)域性詞匯,對專業(yè)知識(shí)積累要求較高。與通用領(lǐng)域相比,生物醫(yī)學(xué)領(lǐng)域關(guān)系抽取任務(wù)存在以下諸多難點(diǎn),如:文本句式冗長復(fù)雜、存在關(guān)系的實(shí)體對分布密集以及存在大量重疊關(guān)系等。相關(guān)研究表明,生物醫(yī)學(xué)語料中所包含的實(shí)體數(shù)量為通用領(lǐng)域的2~3倍,存在關(guān)系的實(shí)體對更為通用領(lǐng)域4~6倍[37]。示例如圖4所示,例中復(fù)雜的長句下不僅且包含大量生物醫(yī)學(xué)領(lǐng)域特定詞匯和縮寫形式,而且存在密集分布的重疊關(guān)系實(shí)體對,此類情況在生物醫(yī)學(xué)文本中非常常見,大大增加了關(guān)系抽取工作的難度。
圖4 生物醫(yī)學(xué)關(guān)系抽取難點(diǎn)示例Fig.4 Difficulties of biomedical relation extraction
生物醫(yī)學(xué)關(guān)系抽取的評(píng)價(jià)標(biāo)準(zhǔn)為當(dāng)模型能夠正確識(shí)別測試樣本的預(yù)定義關(guān)系類型時(shí),方可判定預(yù)測結(jié)果為正確。與命名實(shí)體識(shí)別任務(wù)類似的,評(píng)估關(guān)系抽取模型性能常用的指標(biāo)為準(zhǔn)確率、召回率和F1值,依據(jù)模型提供的TP、FP和FN計(jì)算相應(yīng)的指標(biāo)。
早期的生物醫(yī)學(xué)領(lǐng)域關(guān)系抽取工作均是基于詞典和規(guī)則層面,即領(lǐng)域?qū)<医M織專業(yè)研究團(tuán)隊(duì)根據(jù)生物醫(yī)學(xué)領(lǐng)域相關(guān)的詞典、知識(shí)庫、本體庫等通過自然語言處理工具預(yù)處理后由人工設(shè)計(jì)規(guī)則模板完成醫(yī)學(xué)實(shí)體間關(guān)系的抽取[38-40]。上述基于生物醫(yī)學(xué)詞典和規(guī)則的關(guān)系抽取方法在詞典規(guī)模大、模板設(shè)計(jì)準(zhǔn)確的情況下具有較高的準(zhǔn)確性,但是可移植性和可擴(kuò)展性差且要求工作人員具備專業(yè)的生物醫(yī)學(xué)領(lǐng)域知識(shí),無法識(shí)別模板外的生物醫(yī)學(xué)實(shí)體關(guān)系,在海量的數(shù)字化醫(yī)學(xué)資源中效果不佳,而且在實(shí)際研究過程中,生物醫(yī)學(xué)領(lǐng)域詞典的構(gòu)建和規(guī)則模板的設(shè)計(jì)耗費(fèi)了大量精力和人力。隨著計(jì)算機(jī)技術(shù)的發(fā)展,傳統(tǒng)機(jī)器學(xué)習(xí)方法在一定程度上減輕了研究者們的人工負(fù)擔(dān),降低了生物醫(yī)學(xué)領(lǐng)域關(guān)系抽取任務(wù)的專業(yè)性壁壘。
傳統(tǒng)機(jī)器學(xué)習(xí)方法將生物醫(yī)學(xué)關(guān)系抽取作為文本n元分類問題處理,通過模型從標(biāo)注好的語料中抽取豐富特征訓(xùn)練后得到n元分類器[41-42]。另外,通過自行設(shè)計(jì)適應(yīng)生物醫(yī)學(xué)領(lǐng)域特性的核函數(shù)用于實(shí)體間關(guān)系的抽取也是傳統(tǒng)機(jī)器學(xué)習(xí)方法的主要研究內(nèi)容之一,通過向高維特征空間的映射實(shí)現(xiàn)對分類樣本的線性可分,是一種計(jì)算高維空間內(nèi)積的方法[43-45]?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)方法的生物醫(yī)學(xué)關(guān)系抽取與基于詞典和規(guī)則的方法相比雖然一定程度上減少了人工負(fù)擔(dān),避免了構(gòu)建大規(guī)模詞典和設(shè)計(jì)大量規(guī)則模板,但仍需要大量的特征工程,且在處理語料方面產(chǎn)生了較多的資源消耗。
近年來,隨著深度學(xué)習(xí)方法在各個(gè)領(lǐng)域的迅速風(fēng)靡,研究者們開始將其應(yīng)用于生物醫(yī)學(xué)關(guān)系抽取工作。深度神經(jīng)網(wǎng)絡(luò)僅需少量甚至無需任何特征工程,即可自發(fā)地從領(lǐng)域文本中提取特征訓(xùn)練模型,且依舊保持較高的準(zhǔn)確性和穩(wěn)定性。在生物醫(yī)學(xué)領(lǐng)域,CNN、LSTM和Transformer成為了當(dāng)前關(guān)系抽取的三大主流神經(jīng)網(wǎng)絡(luò)架構(gòu)。Liu等人[46]結(jié)合生物醫(yī)學(xué)領(lǐng)域預(yù)訓(xùn)練詞向量和位置向量表示構(gòu)建了Text-CNN模型用于藥物間相互作用提取,位置向量可以反映出輸入樣本中每個(gè)單詞與目標(biāo)實(shí)體對間的距離,適用于實(shí)體對分布密集的生物醫(yī)學(xué)長句,模型在DDI2013數(shù)據(jù)集上F1值達(dá)到了69.75%。Hua等人[47]提出基于最短依存路徑(Shortest Dependency Path,SDP)的CNN模型用于蛋白質(zhì)相互作用提取,SDP可以直接提取出層次結(jié)構(gòu)復(fù)雜的生物醫(yī)學(xué)長句式中的核心依存結(jié)構(gòu),將其與詞向量組合作為特征輸入,在AIMed和BioInfer數(shù)據(jù)集上F1值分別達(dá)到66.6%和75.3%。Zhao等人[48]提出一種兩階段句法CNN,將詞向量與句法信息、位置、詞性等多種外部特征結(jié)合,使用Enju和Word2vec生成句法詞向量,最后使用卷積操作提取特征完成關(guān)系分類。Lim等人[49]提出一種改進(jìn)的二叉樹LSTM,將詞向量結(jié)合了位置、句法信息等特征,并為藥物相互作用關(guān)系的檢測和分類提供了多種模式,在DDI2013評(píng)測數(shù)據(jù)中關(guān)系檢測F1值達(dá)到83.8%,關(guān)系分類F1值達(dá)到73.5%。Asada等人[50]將注意力機(jī)制與CNN結(jié)合用于藥物相互作用提取,通過注意力機(jī)制突出目標(biāo)句子中的關(guān)鍵信息。Yi等人[51]基于BiGRU構(gòu)建了多層注意力機(jī)制的關(guān)系抽取模型,提供了詞級(jí)和句級(jí)兩種注意力權(quán)重的計(jì)算方式,最終模型在DDI2013數(shù)據(jù)集上取得了72.20%的F1值。Christopoulou等人[52]基于多任務(wù)學(xué)習(xí)策略構(gòu)建了集成學(xué)習(xí)模型,采用基于注意力機(jī)制的BiLSTM進(jìn)行句子內(nèi)的關(guān)系抽取,同時(shí)引入Transformer用于提取句子間的實(shí)體關(guān)系,該模型在臨床關(guān)系抽取評(píng)測任務(wù)上取得了較好的性能。上述基于外部知識(shí)或注意力機(jī)制的關(guān)系抽取方法在一定程度上提升了模型性能,但受限于對上下文情境建模不佳等問題,在面對生物醫(yī)學(xué)的復(fù)雜長句時(shí)未能表現(xiàn)出良好的效果。
近期,生物醫(yī)學(xué)領(lǐng)域使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行圖結(jié)構(gòu)表示的關(guān)系抽取研究在與日俱增。Song等人[53]在BiLSTM的基礎(chǔ)上結(jié)合了圖循環(huán)神經(jīng)網(wǎng)絡(luò)GRN,基于圖的神經(jīng)網(wǎng)絡(luò)架構(gòu)可以更好地建模層次結(jié)構(gòu)復(fù)雜的生物醫(yī)學(xué)長句,有效地提升模型的特征提取能力。Park等人[54]分析了生物醫(yī)學(xué)領(lǐng)域的樣本特點(diǎn)并充分地考慮到輸入樣本的上下文語境信息和空間結(jié)構(gòu)信息,提出了一種注意力圖卷積神經(jīng)網(wǎng)絡(luò)模型AGCN,基于注意力機(jī)制設(shè)計(jì)了新的剪枝策略用于捕獲重要的句法特征,模型在DDI2013數(shù)據(jù)集上實(shí)現(xiàn)了76.86%的SOTA性能。另外,與命名實(shí)體識(shí)別任務(wù)類似的,當(dāng)前預(yù)訓(xùn)練語言模型在諸多領(lǐng)域的先進(jìn)方法中占據(jù)著主導(dǎo)地位,Zhang等人[55]基于ELMo和多頭注意力機(jī)制構(gòu)建了BiLSTM模型用于提取化合物-蛋白質(zhì)相互作用關(guān)系(Chemical-Protein Interaction,CPI),通過引入情境化向量表示使模型性能達(dá)到65.9%。Sun等人[56]在BERT的基礎(chǔ)上引入了包含蛋白質(zhì)和化合物等概念信息的生物醫(yī)學(xué)領(lǐng)域知識(shí),并通過高斯概率分布對特征表示進(jìn)行權(quán)重重分配,模型在CPI數(shù)據(jù)集上取得了76.56%的先進(jìn)性能。上述基于圖結(jié)構(gòu)或預(yù)訓(xùn)練語言模型的方法通過對上下文情境全局建模,可以大幅地提升模型性能,已成為當(dāng)前的熱門研究點(diǎn)之一,但此類方法對標(biāo)注訓(xùn)練數(shù)據(jù)的要求較高且需要依賴高性能的運(yùn)算環(huán)境。
隨著遠(yuǎn)程監(jiān)督學(xué)習(xí)在通用領(lǐng)域的長足發(fā)展,學(xué)者們在生物醫(yī)學(xué)領(lǐng)域亦有嘗試。Lamurias等人[57]提出了基于遠(yuǎn)程監(jiān)督的miRNA-基因關(guān)系抽取模型,可以有效地從未標(biāo)注的生物醫(yī)學(xué)文獻(xiàn)語料中提取關(guān)系。為了減少遠(yuǎn)程知識(shí)庫中有標(biāo)記數(shù)據(jù)的噪聲,Li等人[58]提出了多種啟發(fā)式算法對生物醫(yī)學(xué)樣本進(jìn)行預(yù)處理,在一定程度上緩解了遠(yuǎn)程監(jiān)督學(xué)習(xí)標(biāo)記準(zhǔn)確性不佳的問題。Sousa等人[59]將遠(yuǎn)程監(jiān)督學(xué)習(xí)與眾包機(jī)制相結(jié)合,眾包可以糾正或丟棄由遠(yuǎn)程知識(shí)庫標(biāo)記產(chǎn)生的噪聲數(shù)據(jù),將上述方法產(chǎn)生的新的標(biāo)注數(shù)據(jù)應(yīng)用在兩個(gè)先進(jìn)的生物醫(yī)學(xué)模型中,二者均實(shí)現(xiàn)了更好的性能。
生物醫(yī)學(xué)關(guān)系抽取作為信息抽取的核心工作,其重要性對數(shù)據(jù)挖掘的各項(xiàng)復(fù)雜技術(shù)影響深遠(yuǎn),意義重大,將會(huì)繼續(xù)成為未來的研究熱點(diǎn)。對近年來生物醫(yī)學(xué)領(lǐng)域關(guān)系抽取任務(wù)的研究進(jìn)展進(jìn)行概括和分析,歸納出了該任務(wù)的基本流程和框架(圖5),以及主要深度學(xué)習(xí)方法的類型、代表工作和優(yōu)缺點(diǎn)(表3)。最后,總結(jié)了該領(lǐng)域的部分代表性數(shù)據(jù)集的關(guān)系類型和下載鏈接,如表4所示。
表3 生物醫(yī)學(xué)關(guān)系抽取方法總結(jié)及優(yōu)缺點(diǎn)概述Table 3 Summary and limitations of biomedical relation extraction
表4 生物醫(yī)學(xué)關(guān)系抽取部分代表性數(shù)據(jù)集Table 4 Mainstream corpora of biomedical relation extraction
圖5 生物醫(yī)學(xué)關(guān)系抽取基本框架Fig.5 Framework of biomedical relation extraction
目前,生物醫(yī)學(xué)實(shí)體識(shí)別和關(guān)系抽取通常被研究者們視為獨(dú)立存在的任務(wù)單獨(dú)研究,但在實(shí)際的生物醫(yī)學(xué)信息抽取和文本挖掘工作中,命名實(shí)體識(shí)別作為關(guān)系抽取的研究基礎(chǔ)和關(guān)鍵,二者之間聯(lián)系密切,實(shí)體識(shí)別的準(zhǔn)確與否對關(guān)系抽取結(jié)果起著至關(guān)重要的作用。當(dāng)前對于上述兩個(gè)子任務(wù)的處理方式大多為流水線處理,即先對海量生物醫(yī)學(xué)文本數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別,將識(shí)別結(jié)果兩兩組合為實(shí)體對,再進(jìn)行實(shí)體對間關(guān)系的抽取,最后形成實(shí)體對和關(guān)系的三元組[60]。
流水線方式不僅會(huì)造成誤差疊加,導(dǎo)致錯(cuò)誤層級(jí)傳播,而且忽視了兩個(gè)原本聯(lián)系密切的子任務(wù)間的關(guān)系。為了解決上述問題,研究者們考慮對生物醫(yī)學(xué)文本進(jìn)行實(shí)體識(shí)別和關(guān)系抽取的聯(lián)合學(xué)習(xí),即將二者結(jié)合起來,構(gòu)建一個(gè)適合這兩個(gè)任務(wù)的聯(lián)合模型。
在前期研究中,Kordjamshidi等人[61]提出一種基于SpRL算法[62]的聯(lián)合學(xué)習(xí)方法用于生物醫(yī)學(xué)關(guān)系提取,根據(jù)不同層次構(gòu)造了四大類共25種生物醫(yī)學(xué)特征用于實(shí)體關(guān)系聯(lián)合抽取,在BioNLP-ST 2013任務(wù)評(píng)測中表現(xiàn)較之前系統(tǒng)有了明顯提升。Liu等人[63]基于結(jié)構(gòu)感知機(jī)實(shí)現(xiàn)藥物實(shí)體和關(guān)系的聯(lián)合學(xué)習(xí),設(shè)計(jì)打分函數(shù)并使用beamsearch方法縮小遍歷范圍,分別從實(shí)體特征和關(guān)系特征兩方面選取了中心詞、模式、領(lǐng)域詞典、并列結(jié)構(gòu)、依存結(jié)構(gòu)等適應(yīng)生物醫(yī)學(xué)領(lǐng)域特性的8種特征用于實(shí)體識(shí)別和關(guān)系抽取,模型在DDI2013的DrugBank部分測評(píng)中藥品名識(shí)別和藥物關(guān)系抽取F1值達(dá)到90.5%和50.3%,均高于基于CRF構(gòu)建的順序處理基準(zhǔn)模型?;谏鲜鰝鹘y(tǒng)機(jī)器學(xué)習(xí)方法構(gòu)造的生物醫(yī)學(xué)實(shí)體和關(guān)系聯(lián)合抽取模型,可以有效地緩解誤差疊加問題,但是需要大量的特征工程,對于人力成本要求較高。最近,人們考慮使用較少特征工程的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行生物醫(yī)學(xué)實(shí)體識(shí)別和關(guān)系抽取的聯(lián)合學(xué)習(xí)任務(wù)。Li等人[64]構(gòu)建了基于Bi-LSTM-RNN的聯(lián)合學(xué)習(xí)模型,用于藥物不良事件提?。ˋdverse Drug Extraction,ADE)和細(xì)菌-群落關(guān)系提?。˙acteria-Biotope,BB),該模型首先將詞向量與字符向量和位置向量結(jié)合完成命名實(shí)體識(shí)別,然后開始抽取實(shí)體對之間存在的特定關(guān)系,結(jié)合依存句法分析通過最短依存路徑在同一結(jié)構(gòu)的模型中完成關(guān)系抽取工作,通過共享訓(xùn)練參數(shù)的方式實(shí)現(xiàn)聯(lián)合學(xué)習(xí)目的。Bekoulis等人[65]在聯(lián)合抽取模型中通過使用對抗訓(xùn)練(Adversarial Training,AT)的正則化方法給訓(xùn)練數(shù)據(jù)增加擾動(dòng),提高BiLSTM模型的魯棒性。以上參數(shù)共享的方法雖然使實(shí)體識(shí)別和關(guān)系抽取兩個(gè)任務(wù)之間通過共享訓(xùn)練參數(shù)實(shí)現(xiàn)共享,但實(shí)際還是將兩任務(wù)先后分開處理,這仍然會(huì)產(chǎn)生錯(cuò)誤傳遞和信息冗余問題。Luo等人[66]提出一種基于標(biāo)注策略的生物醫(yī)學(xué)聯(lián)合學(xué)習(xí)模型,將命名實(shí)體識(shí)別和關(guān)系抽取聯(lián)合抽象為一種序列標(biāo)注任務(wù),通過合并兩個(gè)任務(wù)的類型標(biāo)簽設(shè)計(jì)了一種新的標(biāo)注方案和提取規(guī)則,并且以詞向量、字符向量和ELMo為輸入特征構(gòu)建了基于注意力機(jī)制的BiLSTM-CRF模型,該方法顯著提高了聯(lián)合抽取的性能并在一定程度上緩解了生物醫(yī)學(xué)關(guān)系抽取中的實(shí)體重疊問題,但在面對復(fù)雜關(guān)系重疊問題時(shí)仍未有良好的解決方案。基于參數(shù)共享或標(biāo)注策略的聯(lián)合學(xué)習(xí)方法可以充分利用命名實(shí)體識(shí)別和關(guān)系抽取兩個(gè)子任務(wù)間的密切聯(lián)系,已逐漸成為信息抽取領(lǐng)域的重點(diǎn)研究方向之一。
近年來,隨著深度學(xué)習(xí)等技術(shù)的不斷發(fā)展,以命名實(shí)體識(shí)別和關(guān)系抽取為代表的生物醫(yī)學(xué)領(lǐng)域信息抽取的各項(xiàng)任務(wù)取得了長足的進(jìn)步,但仍面臨諸多問題和挑戰(zhàn),在技術(shù)和方法方面仍有廣闊的提升空間。基于前述分析,本文認(rèn)為生物醫(yī)學(xué)領(lǐng)域命名實(shí)體識(shí)別和關(guān)系抽取仍有許多問題值得深入研究。
(1)在命名實(shí)體識(shí)別方面,由于生物醫(yī)學(xué)文本句式多變、實(shí)體邊界模糊、無統(tǒng)一的命名規(guī)則且存在大量的縮寫和簡略形式,面對當(dāng)前指數(shù)級(jí)增長的數(shù)字化文本,通過引入豐富的領(lǐng)域知識(shí)表示或通過外部知識(shí)庫指導(dǎo)等方式對實(shí)體進(jìn)行消歧和鏈接,以保持命名實(shí)體的一致性是后期性能提升需要面臨和解決的問題之一。另外,當(dāng)前生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別研究仍局限在以文本數(shù)據(jù)為載體的單模態(tài)模式下,然而生物醫(yī)學(xué)研究源遠(yuǎn)流長,積累了海量的領(lǐng)域資源,為了更充分地結(jié)合和利用這些豐富的領(lǐng)域先驗(yàn)知識(shí),引入生物醫(yī)學(xué)圖像、音頻等文本數(shù)據(jù)以外的其他多媒體信息的多模態(tài)命名實(shí)體識(shí)別也將是今后的主要研究方向之一。最后,受到語言問題的限制,世界各地的研究者們在生物醫(yī)學(xué)領(lǐng)域的研究所產(chǎn)生的學(xué)術(shù)文獻(xiàn)、電子病歷、診療記錄等數(shù)字化數(shù)據(jù)資源無法實(shí)現(xiàn)真正意義上的知識(shí)共享。將生物醫(yī)學(xué)命名實(shí)體識(shí)別研究由單語言模式擴(kuò)展到跨語言模式下,通過研究不同語言空間的語義相似度,構(gòu)建跨語言語義表示模型進(jìn)行多語言環(huán)境下的命名實(shí)體識(shí)別工作將是未來有意義的挑戰(zhàn)性工作之一。
(2)在關(guān)系抽取方面,遠(yuǎn)程監(jiān)督學(xué)習(xí)雖然可以有效地緩解生物醫(yī)學(xué)這類特定領(lǐng)域帶標(biāo)注的訓(xùn)練樣本不足的問題,但仍然存在遠(yuǎn)程知識(shí)庫錯(cuò)誤標(biāo)注和錯(cuò)誤傳播問題,現(xiàn)有的解決方案大都采用多示例學(xué)習(xí)或啟發(fā)式學(xué)習(xí)等方法緩解噪聲問題,但此類方法都不可保證初始訓(xùn)練樣本的標(biāo)注準(zhǔn)確性,下一步可基于強(qiáng)化學(xué)習(xí)或主動(dòng)學(xué)習(xí)思想,使遠(yuǎn)程監(jiān)督模型進(jìn)行引導(dǎo)性學(xué)習(xí),或可成為遠(yuǎn)程監(jiān)督在生物醫(yī)學(xué)領(lǐng)域關(guān)系抽取任務(wù)上新的嘗試。另外,當(dāng)前研究大多集中在單句層面,而在生物醫(yī)學(xué)文本中跨句子間的實(shí)體也存在大量復(fù)雜多樣的語義關(guān)系,采用指代消解、實(shí)體鏈接等方法與實(shí)體關(guān)系聯(lián)合訓(xùn)練或利用圖神經(jīng)網(wǎng)絡(luò)的全局建模優(yōu)勢提升跨句子實(shí)體間關(guān)系抽取效果將是當(dāng)前需要探索的重要方向之一。最后,當(dāng)前生物醫(yī)學(xué)領(lǐng)域的關(guān)系抽取工作均需要預(yù)先定義固定標(biāo)簽的關(guān)系類別,如此深度神經(jīng)網(wǎng)絡(luò)模型只能抽取特定類別的生物醫(yī)學(xué)關(guān)系。面對海量的關(guān)系類型復(fù)雜多樣的生物醫(yī)學(xué)數(shù)據(jù),開發(fā)和構(gòu)建基于半監(jiān)督、弱監(jiān)督或無監(jiān)督的開放式關(guān)系抽取模型將是當(dāng)前值得重點(diǎn)探索和研究的方向之一。
(3)當(dāng)前實(shí)體關(guān)系抽取方法由先前的流水線模式發(fā)展到后來的聯(lián)合學(xué)習(xí)模式,有效減少了誤差層疊,但在模型內(nèi)部仍存在無法有效地提取復(fù)雜的重疊關(guān)系等問題。未來可針對生物醫(yī)學(xué)文本表述特征改進(jìn)訓(xùn)練樣本的標(biāo)注方法,提出可區(qū)分重疊關(guān)系的細(xì)粒度標(biāo)注方案,或通過針對每一種關(guān)系類型構(gòu)造單獨(dú)的特征子空間以避免重疊關(guān)系的問題,進(jìn)一步改進(jìn)和完善命名實(shí)體識(shí)別和關(guān)系抽取聯(lián)合學(xué)習(xí)方法。
(4)除了上述從任務(wù)角度的研究展望外,從方法角度來看,學(xué)習(xí)能力強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)模型往往需要依賴大量標(biāo)注好的訓(xùn)練樣本,由于特定領(lǐng)域下訓(xùn)練語料匱乏且標(biāo)注語料需要依賴大量的領(lǐng)域?qū)<覅⑴c,為了節(jié)省標(biāo)注成本并打破領(lǐng)域知識(shí)壁壘,基于?。悖颖緦W(xué)習(xí)、自監(jiān)督學(xué)習(xí)或是針對現(xiàn)有標(biāo)注數(shù)據(jù)引入其他解釋性輔助知識(shí)的生物醫(yī)學(xué)信息抽取工作將是未來的研究方向之一。另外,當(dāng)前人工智能研究方興未艾,深度學(xué)習(xí)技術(shù)迅速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)模型在諸多領(lǐng)域都取得了優(yōu)越的表現(xiàn),但是其“黑盒”機(jī)制下參數(shù)學(xué)習(xí)的不可解釋性依舊是當(dāng)前亟待解決的問題之一。在生物醫(yī)學(xué)領(lǐng)域,采用深度學(xué)習(xí)技術(shù)進(jìn)行數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),除了展示實(shí)驗(yàn)結(jié)果外,對其背后的生物學(xué)機(jī)制進(jìn)行解釋顯得更為重要。因此,面向生物醫(yī)學(xué)領(lǐng)域開發(fā)可解釋的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),例如從神經(jīng)網(wǎng)絡(luò)與不確定性知識(shí)推理相結(jié)合的角度出發(fā)展開研究將是當(dāng)前充滿意義和前景的探索方向之一。
(5)中文生物醫(yī)學(xué)信息抽取由于語料庫缺乏、中文句式復(fù)雜等問題仍落后于英文方面研究,而國內(nèi)面向中醫(yī)中藥相關(guān)領(lǐng)域的數(shù)字化文本也在迅速增長,當(dāng)前藥物發(fā)現(xiàn)、知識(shí)圖譜構(gòu)建、在線醫(yī)療等工作正全面展開,信息抽取作為基礎(chǔ)工作亟待研究,后期可面向數(shù)字化中文生物醫(yī)學(xué)文本構(gòu)建標(biāo)注語料或訓(xùn)練大規(guī)模語言模型,針對基于中文生物醫(yī)學(xué)文本的命名實(shí)體識(shí)別和關(guān)系抽取等問題展開研究。
作為生物醫(yī)學(xué)文本挖掘的基礎(chǔ)工作,信息抽取各項(xiàng)任務(wù)的研究價(jià)值也正得到越來越多的認(rèn)可和重視。本文分析了近幾年來命名實(shí)體識(shí)別和關(guān)系抽取在生物醫(yī)學(xué)領(lǐng)域的研究現(xiàn)狀,總結(jié)出國內(nèi)外研究人員的工作進(jìn)展,分析了當(dāng)前面臨的主要問題,并探索了未來的研究方向。在了解生物醫(yī)學(xué)信息抽取的發(fā)展歷程和研究現(xiàn)狀的同時(shí),也要總結(jié)分析NLP相關(guān)領(lǐng)域甚至其他領(lǐng)域的研究成果,為生物醫(yī)學(xué)信息抽取各項(xiàng)任務(wù)更加深入地研究帶來新的機(jī)遇,以創(chuàng)新理念引領(lǐng)信息抽取研究不斷取得進(jìn)步。