羅熹 曾智穎 王建新 安瑩
摘要:從生物醫(yī)學文本中抽取藥物相互作用對可以快速更新藥物數(shù)據(jù)庫,具有非常重要的意義與醫(yī)學應用價值.現(xiàn)有的神經(jīng)網(wǎng)絡模型往往僅從句子序列或其他外部信息中學習到單一片面的特征,難以充分挖掘句中潛在的長距離依賴特征獲得全面的特征表示.本文提出一種結合語義和依存關系的藥物相互作用關系抽取方法,該方法在利用Bi-GRU網(wǎng)絡分別從句子序列和目標藥物實體的最短依存路徑序列中學習語義特征表示的同時,進一步結合多頭自注意力機制挖掘單詞之間潛在的依存關系,通過充分融合多源特征來有效提升生物醫(yī)學文本中藥物相互作用對的識別和抽取性能.在DDIExtraction-2013數(shù)據(jù)集上的實驗結果表明,該方法超過現(xiàn)有的藥物相互關系抽取方法獲得了75.82%的F1值.
關鍵詞:藥物相互作用;關系抽取;循環(huán)神經(jīng)網(wǎng)絡;多頭自注意力機制;最短依存路徑
中圖分類號:TP391文獻標志碼:A
Drug-drug Interaction Extraction Combining Semantics and Dependency
LUO Xi1,2,ZENG Zhiying1,WANG Jianxin1,AN Ying3
(1. School of Computer Science and Engineering,Central South University,Changsha 410075,China;2. Key Laboratory of Network Crime Investigation of Hunan Provincial Colleges,Hunan Police Academy,Changsha 410138,China;3. Big Data Institute,Central South University,Changsha 410083,China)
Abstract:Automatically extracting unknown drug-drug interactions from biomedical literature can update the drug database quickly,which is of great importance and medical value in application. Existing neural network models often can only learn a single one-sided feature in a certain aspect from sentence sequences or other external information,but it is difficult to fully mine the potential long-distance dependency features from sentences to obtain a comprehensive feature representation. This paper proposes a novel drug-drug interaction extraction method combin - ing semantics and dependency. In this method,we not only use the Bi-GRU network to learn the semantic feature representation from the sentence sequence and the shortest dependency path of the target drug entities,but also combine the multi-head self-attention mechanism to further capture the potential dependencies between words. Finally,these multi-source features are fully fused to effectively improve the performance of drug-drug interaction extraction. The experimental results on the DDIExtraction-2013 dataset show that our method outperforms other existing methods and obtains an F1 value of 75.82%.
Key words:drug-drug interaction;relation extraction;recurrent neural networks;multi-head self-attention mechanism;the shortest dependency path
藥物相互作用(Drug-Drug Interaction,DDI)是指同時或相繼使用兩種或兩種以上藥物時,某一藥物作用大小、持續(xù)時間甚至作用性質受到其他藥物或化學物質的影響而發(fā)生明顯改變或產(chǎn)生藥物不良反應的現(xiàn)象[1].不良的藥物相互作用可以減緩或者延遲藥物的吸收,導致病人的治療周期增長,治療效果減弱,嚴重的更會危及生命甚至導致死亡[2-3].在臨床治療中,患者在很多時候不可避免地會需要服用多種藥物,DDI的存在可能導致患者面臨嚴重的用藥風險,影響臨床治療的效果.隨著聯(lián)合用藥的日益普遍,如何避免不良藥物相互作用的發(fā)生已經(jīng)成為臨床安全性的一道難題.目前來看,盡可能多地了解藥物作用的相關信息,是解決不良藥物相互作用發(fā)生的有效途徑,對藥物研發(fā)和臨床治療有著重要的意義.
隨著研究人員對于DDI研究關注度的不斷提升,近年來涌現(xiàn)了大量的相關研究成果.這些研究成果大多以自由文本的形式存在于醫(yī)學文獻中,這使得醫(yī)學文獻成為了獲取最新DDI信息的最有效來源之一.目前雖然存在一些結構化的藥物數(shù)據(jù)庫可供用戶查詢藥物的相關信息,但是現(xiàn)有的數(shù)據(jù)庫大多通過人工采集的方式從文本中挖掘藥物相互作用關系來建立相關數(shù)據(jù)庫.這種過分依賴人工干預的方式導致現(xiàn)有藥物數(shù)據(jù)庫的構建和維護極為耗時費力,知識的更新緩慢低效,覆蓋范圍也十分有限,難以滿足數(shù)據(jù)規(guī)模爆炸式增長、數(shù)據(jù)復雜度不斷提高的大數(shù)據(jù)環(huán)境下藥物相關研究和臨床應用的實際需求.因此,實現(xiàn)非結構化生物醫(yī)學文本中的DDI自動提取具有極為重要的研究意義和應用價值.
傳統(tǒng)的基于統(tǒng)計的機器學習的方法雖然能夠從文本中自動地抽取DDIs,但是這類方法在特征提取的過程中通常依賴于人工制定的特征工程,抽取效果也不太理想.基于深度學習的方法避免了復雜的特征工程并且取得了不錯的效果,但是現(xiàn)有的方法往往僅從句子序列或其他外部信息中學習到片面的特征,難以充分地利用文本中多方面的相關信息獲得全面的特征表示.
本文提出了一種結合語義和依存關系的藥物相互作用關系抽取方法.在通過Bi-GRU網(wǎng)絡從句子序列中充分學習語義特征表示后,利用多頭自注意力機制從中挖掘句子內部單詞之間潛在的依存關系,獲得長距離依賴特征.同時,還通過引入目標藥物實體間的最短依存路徑,保留能表明候選藥物對關系的重要單詞,過濾掉其他無關的詞,并利用Bi- GRU網(wǎng)絡從最短依存路徑序列中學習特征.最后充分地融合句子序列和候選藥物對之間最短依存路徑之中的特征來實現(xiàn)文本中藥物相互作用對的識別和抽取.
1相關工作
生物醫(yī)學和醫(yī)學信息化的發(fā)展為藥物相關研究積累了各種形式的大量生物醫(yī)學數(shù)據(jù),越來越多的研究成果都以非結構化文本的形式展示在互聯(lián)網(wǎng)上,如何及時從這些開放領域的文本中獲取有價值的信息,成為一個亟待解決的問題.實體關系抽取的主要目的是從文本中識別實體并抽取實體之間的語義關系,從而解決原始文本中目標實體之間的關系分類問題,它也是構建復雜知識庫系統(tǒng)的重要步驟. 藥物相互作用關系抽取(Drug-Drug Interaction Extraction,DDIE)作為實體關系抽取中一個具體領域的子任務,也得到了廣泛的關注.
近年來,研究人員在DDIE任務上做出了許多努力.現(xiàn)有方法可以分為以下三類:基于規(guī)則的方法、基于機器學習的方法和基于深度學習的方法.早期的研究大多采用基于規(guī)則的方法,通過制定一系列規(guī)則從文本中抽取存在相互作用的藥物對[4-5].但是在生物醫(yī)學文獻中,由于描述藥物相互作用的語句結構復雜多變,基于人工規(guī)則的方法在藥物相互作用關系抽取任務中表現(xiàn)不佳.DDIExtraction-2011評測[6]和DDIExtraction-2013評測[7]的成功開展,為研究人員提供了一個已標注的藥物相互作用關系語料庫,它在區(qū)分藥物對是否存在相互作用的同時,還將藥物相互作用的類別進行了劃分.這個語料庫的發(fā)布給研究人員提供了標準有效的數(shù)據(jù)支撐,極大地促進了藥物相互作用抽取相關研究的發(fā)展.近年來,許多基于機器學習的方法開始被用于藥物相互作用關系抽取任務并取得了較好的效果.
基于機器學習的方法大體可分為兩類:基于特征的方法和基于核的方法.基于特征的方法利用人工提取的各種特征將候選實例表示為相應的特征向量以實現(xiàn)DDI的分類.常用的特征有單詞特征、上下文特征、句法特征等.例如Kim等人[8]提出了一種基于豐富特征的抽取DDI的方法,包括單詞特征,依賴圖特征,解析樹特征等.然而基于特征的機器學習方法存在著明顯的局限性:特征的人工提取十分耗時且依賴于研究人員的專業(yè)知識技能水平的高低.基于核的方法通過構建不同的核函數(shù)來量化兩個對象之間的相似性,Chowdhury等人[9]提出了一種用于DDI提取的混合核方法,包括基于特征的內核,淺語言內核等.但是核函數(shù)的有效設計是一個極富挑戰(zhàn)性的問題.因此,傳統(tǒng)的基于統(tǒng)計的機器學習方法在藥物相互作用關系抽取方面的性能仍然難以令人滿意.
隨著深度學習技術的發(fā)展,深度神經(jīng)網(wǎng)絡模型不依賴傳統(tǒng)特征工程的自動特征學習能力,使其在自然語言處理的多個子領域得到了廣泛的應用并獲得了一定的成功.近年來已經(jīng)提出了一些基于深度學習的方法用來從文本中抽取DDI.基于深度學習的方法可以利用深度神經(jīng)網(wǎng)絡的學習能力從數(shù)據(jù)中自動捕獲相關特征,并在一定程度上有效地提高DDIE的性能,因此它們吸引了廣泛的注意并且逐漸成為主流方法.
起初,基于深度學習的方法往往只考慮了文本中句子序列的語義特征.Liu等人[10]在2016年首次使用CNN模型來進行DDI的抽取,該方法將文本中的單詞轉化為詞向量并結合位置信息作為特征輸入,避免了傳統(tǒng)方法在提取特征過程中對于自然語言處理工具的過度依賴.Quan等人[11]則利用多通道融合不同版本的詞向量來獲得包含更豐富語義信息的詞向量表示,再利用卷積神經(jīng)網(wǎng)絡從句子序列中抽取DDI,獲得了優(yōu)于傳統(tǒng)方法的性能.
然而,僅僅通過句子序列分析雖然能獲得相關的語義線索,卻難以學習到句中包含的句法信息.因此,許多研究人員嘗試利用自然語言處理工具進行句子解析以獲取更多的句法特征來提高關系抽取的準確性.最常用的就是依存句法分析[12](Dependency Parsing).依存句法分析可以通過分析句內成分之間的依存關系揭示其句法結構,目前在自然語言處理領域取得了廣泛的應用.在藥物相互作用關系抽取任務中,依存分析的有效性也得到了有效驗證.比如Wang等人[13]通過依存句法分析得到句子的依存分析樹,通過對其使用深度優(yōu)先搜索和廣度優(yōu)先搜索得到相應的序列數(shù)據(jù)(DFS和BFS),再通過Bi-LSTM網(wǎng)絡從DFS、BFS和原句子序列中分別學習得到特征.Zhao等人[14]提出了一種結合了GRU和GCN(Graph Convolutional Network)的深度神經(jīng)網(wǎng)絡,分別用于從句子序列和句法圖中學習相關特征來對DDI進行分類.這些方法雖然在DDI抽取性能上取得了一定的提高,但是它們通常依賴于句子解析的準確性,而目前的自然語言處理工具并不完善,不可避免的存在一定的解析錯誤,尤其是對復雜長句的解析上效果較差,因此大大影響了它們的有效性.
除此之外,隨著注意力機制在各類自然語言處理任務中取得了成功的應用,相關研究人員也開始將其引入到藥物相互作用關系抽取任務中來.Wang等人[15]提出的Input Attention機制通過計算每個單詞與藥物實體的點積來衡量它們之間的相似度,從而給句中單詞分配不同的權重.Zhou等人[16]提出了position-aware Attention機制,把全句各單詞的位置信息加以考慮來捕捉特定單詞對目標實體關系的影響.這些方法通過Attention機制選擇性地關注來自輸入的重要信息,在DDIExtraction-2013數(shù)據(jù)集上取得了不錯的效果.但是這些方法忽略了句法特征的重要性,尤其是長距離依賴特征對于DDI識別和抽取的關鍵作用.
自注意力機制[17]是一種特殊的注意力機制,它可以根據(jù)當前單詞與同一序列中其他單詞的關聯(lián)度來評估其重要性,已經(jīng)被廣泛應用到各種自然語言處理任務中,比如Paulse等人[18]在抽象式摘要任務中通過自注意力機制來捕捉長距離依賴關系,Tan等人[19]利用多頭自注意力機制完成語義標注任務等,都取得了優(yōu)秀的表現(xiàn).本文提出的方法將自注意力機制引入到DDIE任務中來挖掘單詞間的潛在關聯(lián)以及句子中的長距離依賴.同時,為了獲得更豐富更全面的特征表示,采用多個并行頭來捕獲單詞間的相互依賴性.
綜上所述,盡管基于深度學習的方法取得了優(yōu)于基于機器學習的方法的表現(xiàn).但是,現(xiàn)有的神經(jīng)網(wǎng)絡模型學習到的特征往往是單一片面的,難以充分挖掘句中潛在的長距離依賴特征獲得全面的特征表示.因此,本文結合多頭自注意力機制提出了一種能融合文本更深層的語義特征和其他多層面多角度特征的方法來實現(xiàn)DDI的抽取.
2結合語義和依存關系的DDIE方法
本節(jié)將對本文方法進行詳細描述,其模型結構如圖1所示.將包含候選藥物對的句子作為輸入,本文模型可以自動從該句子中提取特征,然后確定該藥物對是否存在相互作用.其主要流程如下:
1)預處理:對句子進行相關預處理并利用Stanford parser解析句子得到目標藥物實體間的最短依存路徑.
2)嵌入層:通過嵌入層把句子序列和最短依存路徑序列中的單詞映射為預先訓練好詞向量,對于句子序列中的單詞還根據(jù)其與目標藥物的相對距離生成位置向量.
3)編碼層:使用Bi-GRU神經(jīng)網(wǎng)絡分別從句子序列和最短依存路徑序列中學習語義和句法特征.
4)Attention層:使用多頭自注意力機制從融合了上下文信息的句子序列中挖掘單詞之間的長距離依賴關系得到最終特征表示.
5)輸出層:通過頂層Bi-GRU融合多源特征實現(xiàn)DDI的識別和抽取.
2.1預處理
我們首先對數(shù)據(jù)集中的句子進行相應的預處理操作.為了增強模型的泛化能力,按照在句中出現(xiàn)的順序將候選實例中的兩個藥物名分別替換成“DRUG1”和“DRUG2”,句中其他藥物名均替換成“DRUG0”.同時,語料庫中有大量表示藥物劑量、百分比等的數(shù)值表達式,它們是導致假陰性的重要原因之一.因此,我們將句中表示藥物劑量、百分比等的整數(shù)和小數(shù)數(shù)值型實體分別用“num”和“float”標記代替.此外,為了簡化句子,在預處理步驟中還進一步刪除了句中冗余內容,如出現(xiàn)在括號中不包含目標藥物實體的補充說明內容.
另外,由于候選藥物相互作用對的選取方式是考慮句中所有藥物實體可能的組合,導致數(shù)據(jù)集中負樣本的數(shù)量遠多于正樣本的數(shù)量.例如對于句子“In patients receiving mercaptopurine (Purinethol)or azathioprine (Imuran),the concomitant administration of 300-600 mg of allopurinol per day will require a reduction in dose to approximately one-third to one-fourth of the usual dose of mercaptopurine or aza- thioprine.”,共包含7個藥物實體,將它們兩兩組合生成候選實例,則該句中一共存在62個候選的藥物相互作用對.但是其中只有兩個正樣例,其余均為負樣例.在DDIExtraction-2013訓練集中,正樣例數(shù)為4 020,而負樣例數(shù)為23 772,正負樣例的比例達到了1:5.9,數(shù)據(jù)存在明顯的不平衡現(xiàn)象.為了減輕樣本不平衡對模型訓練效果的影響,根據(jù)先前的工作[20-21],我們采用了下面的樣本過濾規(guī)則,將滿足其中任一條件的候選實體識別為負樣例并予以濾除.過濾規(guī)則具體描述如下:
規(guī)則1:候選關系實例中的兩個藥物實體名相同或者一個藥物名是另一個藥物名的別名或縮寫名.
規(guī)則2:候選關系實例中兩個藥物名出現(xiàn)在同一個并列結構中且該并列結構包含兩個以上藥物名.
在經(jīng)過預處理步驟后,得到包含有兩個目標藥物實體的句子序列:
S={w,w,…,w,…,w,…,w)(1)
其中w(i∈[1,n])為句中的單詞,w=“DRUG1”和w=“DRUG2”(u,v∈[1,n],u≠v)分別為候選藥物對中的兩個藥物實體.
2.2生成最短依存路徑
為了獲得更多的特征來提升藥物相互作用關系抽取模型的性能,本文使用Stanford parser126]來對句子進行依存句法分析,并根據(jù)依存分析的結果得到句子的依存關系圖.以依存關系圖中的“DRUG1”為起始節(jié)點,“DRUG2”為結束結點,找到它們之間的最短路徑X,即為兩目標藥物實體之間的最短依存路徑:
X={s,s,…,s}(2)
其中s(i∈[1,m])為最短依存路徑序列中的單詞.兩個藥物實體在依存關系圖中可能存在多條路徑,但兩個節(jié)點之間的最短路徑最可能攜帶有關它們相互關系的最有價值的信息.因此,在關系抽取任務中,可以通過最短依存路徑顯著縮小目標實體之間的線性順序距離來捕獲他們之間的關系.最短依存路徑生成的具體流程如圖2所示.
原句子經(jīng)過Stanford parser依存句法分析后得到若干個表示句中兩個單詞之間關系的三元組.比如對于三元組“dobj(potentiate-3,effects-6)”,表示“effects”是“potentiate”的直接賓語,“dobj”表示直接賓語關系,3和6分別表示“potentiate”和“effects”在句中的位置.根據(jù)依存分析結果得到句子的依存關系圖,依存關系圖使用節(jié)點來表示句子中的單詞,使用邊來描述單詞之間的依存關系.最后從依存關系圖中找到目標藥物實體間的最短依存路徑.可以看到,最短依存路徑將重要的詞保留在兩個實體之間的語法路徑上,同時過濾掉次要的輔助詞,并給出了相鄰詞之間的依存關系.因為表征單詞之間關系的依賴關系詞沒有一致的向量表示方法,通過隨機初始化再訓練的方式很難學習其中復雜的關系,所以我們只保留路徑中的單詞作為最短依存路徑.另外,句中除了兩個目標藥物實體外,往往還存在多個其他藥物實體.為了避免這些無關實體對識別目標藥物實體相互關系帶來的負面影響,本文對每條最短依存路徑中“DRUG0”的出現(xiàn)次數(shù)進行統(tǒng)計,并將“DRUG0”出現(xiàn)次數(shù)大于或等于路徑長度一半的最短依存路徑進行置空處理.
2.3嵌入層
完成預處理后,包含有兩個目標藥物實體的句子S及其對應的最短依存路徑X輸入到模型的嵌入層以生成句子序列和最短依存路徑序列的嵌入向量表示.我們直接利用了Pyysalo等人[22]基于大量PubMed和English Wikipedia文獻訓練得到的詞向量.同時,為了進一步獲得句中其他單詞與目標藥物實體的關聯(lián)關系,我們還將句中任意單詞w到兩個目標藥物實體w和w的相對距離標記為p和o,用來表示句中單詞的位置信息.
pi1=i-u,p=i-v(3)
然后,通過嵌入層將句中單詞和其與目標藥物之間的相對距離映射為對應的向量:
最后,句子序列S和其對應的最短依存路徑X可分別表示為如下的嵌入矩陣E和E:
2.4編碼層
循環(huán)神經(jīng)網(wǎng)絡(RNN)在處理文本序列信息時具有獨特的優(yōu)勢,很適合序列建模,但是易于遭遇梯度消失和梯度爆炸問題,為了解決這一問題,Long Short Term Memory(LSTM)[23]網(wǎng)絡和Gated RecurrentUnit(GRU)[24]網(wǎng)絡相繼被提出.本文中,我們采用了結構更為簡潔的GRU網(wǎng)絡.
z為更新門,用來表示第(t-1)個節(jié)點的狀態(tài)有多少需要傳遞到下一節(jié)點:
z=σ(W-[h,e])(9)
g=σ(W·[h,e])(11)
上式中的σ表示sigmoid激活函數(shù),tanh表示雙曲正切激活函數(shù),W,W,W都是學習到的參數(shù)矩陣.但是單個GRU網(wǎng)絡在計算當前狀態(tài)時只考慮了過去的狀態(tài)信息,而忽略后續(xù)的狀態(tài)信息.因此,本模型采用雙向GRU(Bi-GRU)網(wǎng)絡,充分地利用過去和未來的信息來獲得更全面的上下文特征,并得到e的向量表示y.
y=[y,y,…,y,…,y](15)
對于最短依存路徑的嵌入矩陣E亦經(jīng)過Bi- GRU網(wǎng)絡得到相應的特征表示y:
y=y=Bi-GRU(E)(16)
2.5Attention層的相關性,并將其輸入到softmax函數(shù)中,得到與值相對應的最終權值,最后與值進行加權求和得到該查詢經(jīng)過鍵值對映射后的Attention值,具體計算過程如下.
最后,來自h個并行頭的結果被拼接起來并映射為句子序列的最終特征表示r:
M=contact(head,head,…,head)(19)
r=M·W(20)
2.6輸出層
最后將從句子序列和最短依存路徑中學習到的特征表示r和y拼接起來輸入頂層Bi-GRU神經(jīng)網(wǎng)絡中獲得最終的融合特征表示:
g=[r,y](21)
y=Bi-GRU(g)(22)
其中g的維度為2d,y為融合各特征后得到的最終特征表示,維度為d.最后將y放入全連接層并通過softmax函數(shù)得到該候選藥物對屬于第,類的概率為:
y(p∈i)=softmax(W·r+b)(23)
其中W和b為權重參數(shù).
3實驗結果與分析
3.1數(shù)據(jù)集
本文使用的實驗數(shù)據(jù)均來自DDIExtraction- 2013評測數(shù)據(jù)集.該數(shù)據(jù)集在DDIExtraction-2011 測評數(shù)據(jù)集包含的來自DrugBank數(shù)據(jù)庫DDI文本的基礎上,還進一步增加了MedLine摘要文本,共計包含905份文本(其中730份DrugBank文本,175份Medline文本).通過隨機選擇的方式,語料庫中77% 的文本被用作訓練集,而剩余的部分則作為測試集. 數(shù)據(jù)集中的所有文本都以XML格式進行存儲,文本中的藥物名和藥物相互作用候選對均由相關領域專家完成人工標注,不僅標明了各候選實例是否存在相互作用,還對存在相互作用的藥物對細分為以下四類:
Int:句中說明了兩個目標藥物之間會發(fā)生相互作用,但未做出進一步說明.
Advise:句中說明了兩個目標藥物之間會發(fā)生相互作用,同時給出了建議.
Effect:句中說明了兩個目標藥物之間會發(fā)生相互作用,同時描述了相互作用產(chǎn)生的影響.
Mechanism:句中說明了兩個目標藥物之間會發(fā)生相互作用,并介紹了該DDI的藥代動力學機制.
根據(jù)預處理步驟中所述的過濾規(guī)則,我們對數(shù)據(jù)集中的實例進行了相應的預處理.過濾前后的數(shù)據(jù)集統(tǒng)計信息如表1所示.從表中可以看出,訓練集中總共過濾掉了166個正樣例和14 785個負樣例. 需要說明的是,對于測試集,將滿足過濾規(guī)則的總共8個正樣例判定為負樣例,并計入假陰性統(tǒng)計數(shù)據(jù),其余滿足過濾規(guī)則的所有負樣例直接計入真陰性統(tǒng)計數(shù)據(jù)中,參與最終的評估.
3.2實驗設置和評估指標
本文使用以TensorFlow為后端的Keras框架來實現(xiàn)相關的對比模型.詞嵌入和位置嵌入的維度分別設為200和15.為了防止過擬合,我們在模型的嵌入層和輸出層都采用了Dropout策略(Dropout1和Dropout2).主要實驗參數(shù)設置如表2所示.
本文采用了DDIExtraction-2013評測的評估標準,當且僅當某一藥物對被識別出存在相互作用并被正確分類到具體某個關系類型時,方認為該藥物對被正確地識別.具體的評價指標包括:準確率P(precision)、召回率R(Recall)和F值(F-score).相應的計算方法如下.
1)微準確率:以抽取的關系對的準確程度來對模型進行評估,公式如下:
2)微召回率:從查全率的角度來對模型進行評估,公式如下:
3)微F值:對模型從查全率和查準率進行綜合考量,公式如下:
其中TP(True Positive)是指被正確分類為正樣本的
樣本個數(shù),F(xiàn)P(False Positive)指負樣本中被錯誤分類為正樣本的樣本個數(shù),F(xiàn)N(False Negative)指正樣本中錯誤分類為負樣本的樣本個數(shù).
3.3Baseline方法
為了評價本文提出方法的有效性,我們與以下幾種baseline方法進行了比較.
FBK-irst[9]:該方法是一種基于核的方法,通過使用混合內核(包括淺層內核,基于特征的內核等)實現(xiàn)DDI的提取.
Feature-based kernel[25]:該方法是一種基于特征的方法,通過集成了多個相關特征例如單詞特征,短語特征,詞匯特征等來抽取DDI.
Basic-CNN[10]:該方法利用卷積神經(jīng)網(wǎng)絡從詞向量和位置向量中學習特征來實現(xiàn)從生物醫(yī)學文本中抽取DDI.
MCCNN[11]:該方法通過不同的通道融合多種詞向量獲得包含更豐富語義信息的詞向量表示,再利用卷積神經(jīng)網(wǎng)絡從中抽取DDI.
GRU+GCN[14]:該方法是一種結合了GRU和GCN(Graph Convolutional Network)的深度神經(jīng)網(wǎng)絡,分別從句子序列和句法圖中學習特征來對DDI進行分類.
UGC-DDI[21]:該方法通過融合用戶生成信息和句子信息,再利用LSTM從中提取特征來抽取DDI.
Dep-LSTM[13]:該方法是一個基于Bi-LSTM的模型,結合了句子序列特征和基于依存關系的特征.
LSTM+Att[16]:該方法提出一種關注位置信息的注意力機制,并利用Bi-LSTM從句中學習特征完成DDI的抽取.
BERE[27]:該方法使用混合編碼網(wǎng)絡來更好地結合語義特征和句法特征表示每個句子,并通過考慮相關語句后使用特征聚合網(wǎng)絡進行DDI的抽取.
3.4結果分析
3.4.1特征融合的有效性驗證
為了驗證融合語義和依存關系特征的有效性,我們在本文模型的基礎上實現(xiàn)了4種單純使用句子序列特征或最短依存路徑特征的簡化模型,并與我們提出的結合語義和依存關系的DDIE方法進行了性能比較.這些對比模型包括:1)單純利用最短依存路徑特征的Bi-GRU模型(SDP);2)單純利用句子序列特征的BI-GRU模型(Sen);3)單純利用句子序列特征并結合了多頭自注意力機制的Bi-GRU模型(Sen+Attention);4)SDP和Sen進行并行結合后版本(Sen+SDP).
由表3所示的實驗結果可以看到,SDP模型的準確率、召回率和F值是所有對比模型中最低的.這是因為最短依存路徑只保留了目標藥物實體之間部分最重要的單詞,容易丟失許多其他有用的信息,因而導致其識別精度受到較大影響.相比最短依存路徑,句子序列包含了更為完整和豐富的信息,因此,直接利用句子序列進行特征學習的Sen模型獲得了遠高于SDP模型的性能.通過融合句子序列和最短依存路徑兩方面的特征,Sen+SDP模型獲得了明顯優(yōu)于其他基于單一特征模型的性能,其準確率、召回率和F值分別達到了75.7%、74.16%和74.92%.此外,Sen+Attention雖然也僅僅使用了句子序列特征,但是,由于多頭自注意力機制的引入,增強了模型獲取長距離依賴特征的能力,所以,其超過其他兩種基于單一特征的方法并獲得了接近Sen+SDP的性能.本文提出的模型在融合語義和依存關系的基礎上,利用多頭自注意力機制進一步提升了模型的特征表示學習能力,因此取得了所有對比方法中最好的DDI分類效果,充分證明特征融合以及多頭自注意力機制對于提升DDI的識別能力起到了有益的促進作用.
3.4.2與baseline方法的性能比較
表4展示了幾種代表性的藥物相互作用關系抽取方法與本文方法的性能對比結果.從表中可以看出,基于機器學習的方法與基于深度學習的方法相比具有一定的差距.如,F(xiàn)BK-irst[9]的F值只有65.10%,是所有比較方法中最低的.盡管Feature- based kernel[25]通過使用多個人工制定的規(guī)則和特征有效地提高了DDI的識別性能,但其F值也僅為71.1%.這主要是因為這些方法通常利用依賴人工干預的傳統(tǒng)特征工程來實現(xiàn)特征的提取,特征選擇的主觀性和不全面性往往會極大地影響該類方法的實際性能.
相比之下,基于深度學習的方法可以自動地、更廣泛全面地捕獲數(shù)據(jù)中的相關特征,具有更強的特征學習和表示能力.其中,MCCNN[11]通過不同的通道結合五個版本的詞向量得到最終的特征表示,但是,由于忽略了句中單詞的位置信息,僅獲得了略高于Basic-CNN[10]的70.21%的F值.而GRU+GCN[14]和Dep-LSTM[13]融合了原始句子序列中的單詞和語義特征以及從依存路徑或句法圖中得到的其他句法結構特征,所以,二者的性能均高于MCCNN. UGC- DDI[21]方法通過使用UGC(user generated content)資源為DDI的抽取提供更多有用的外部特征信息,因而也取得了較高的F值.LSTM+Att[16]除了從句子序列中學習特征外,還通過注意力機制來捕獲全句各單詞的位置信息,從而將模型的F值進一步提高到了72.99%.BERE[27]則是通過Tree-GRU等獲得句子的向量表示后,進一步將實體的上下文特征嵌入到句子向量中,最后基于注意力機制加權求和得到最終特征表示進行分類,取得了73.9%的F值.值得注意的是,得益于對句子序列的語義特征、最短依存路徑中的句法結構特征以及由多頭自注意力機制提取的單詞間依賴關系,本文方法的F值達到了75.82%,獲得了最佳的性能.
3.4.3差錯分析
表5展示了本文方法對不同類別DDI的分類結果.從表中可以看出,一共有405個樣本被錯誤分類.在4737個負樣本中,有155個被誤分為正樣本,約占錯誤分類樣本的38%;在979個正樣本中有190個被錯誤分類為負樣本,約占錯誤分類樣本的47%. 這主要是因為描述藥物相互作用的句子往往結構多變,對于在訓練集中出現(xiàn)較少的句式難以學習到其中的特征.另外,通過觀察正負樣本被錯誤分類的句子,我們發(fā)現(xiàn),大多數(shù)句中除了包含兩個目標藥物實體外還存在多個其他的非目標藥物實體,這給目標藥物實體對的關系識別帶來了一定的干擾.從正樣本中的四類DDI的識別效果來看,我們的模型在“Effect”“Advise”和“Mechanism”三類DDI上取得了較好的表現(xiàn).其中,“Advise”類型DDI的抽取獲得了最高的79.34%的F值.這是因為關于用藥建議的描述形式通常較為標準和清晰,使得它們相對更易于區(qū)分. 然而,對于“Int”類型的DDI,由于訓練樣本較少(僅188個,不到其他類型訓練樣本量的25%),其分類性能最差,僅獲得了52.29%的F值.同時,從表中我們還可以看到,在總共96個“Int”類型的測試樣本中,56個被錯誤分類.其中,有37個(約66%)是因“Int”類型被誤分類為“Effect”類型所致.這是由于部分句子僅模糊地描述了兩種藥物聯(lián)合使用后的效果,從而導致模型在“Effect”類型和“Int”類型之間容易發(fā)生混淆.
4結論
藥物相互作用關系抽取是生物醫(yī)學關系抽取中的重要任務,現(xiàn)有的基于深度學習的方法往往僅從句子序列或其他外部信息中學習單一片面的特征,無法充分地利用文本中多方面的相關信息獲得全面的特征表示,針對這一問題,本文提出了一種結合語義和依存關系的藥物相互作用關系抽取方法.該方法在從句子序列中學習語義特征的基礎上,利用Bi- GRU網(wǎng)絡從目標藥物實體的最短依存路徑中獲取相關句法特征,同時進一步結合多頭自注意力機制來挖掘句子內部單詞之間潛在的依存關系,獲得長距離依賴特征,最終通過充分地融合多源特征有效地提升了生物醫(yī)學文本中藥物相互作用關系識別和抽取的整體性能.本文的不足之處在于,我們的方法只關注了同一句子內藥物相互作用關系的提取,而沒有考慮不同句子中藥物實體之間的關系.在未來的工作中,我們將擴展模型句子間藥物相互作用關系的識別和抽取能力,并在其他相關數(shù)據(jù)集上進一步驗證模型的有效性.
參考文獻
[1] CHO K,VAN MERRIENBOER B,GULCEHRE C,et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha,Qatar:Association for Computational Linguistics,2014:1724-1734.
[2] CHOWDHURY M F M,LAVELLI A. FBK-irst:A multi-phase kernel based approach for drug-drug Interaction detection and classification that exploits linguistic information [C]//Proceedings of the 7th International Workshop on Semantic Evaluation. Atlanta,Georgia,USA:Association for Computational Linguistics,2013:351-355.
[3] HINES LE,MURPHY J E. Potentially harmful drug - drug interactions in the elderly:a review[J]. The American Journal of (Geriatric Pharmacotherapy,2011,9(6):364-377.
[4] HOCHREITER S,SCHMIDHUBER J. Long short-term memory [J].Neural Computation,1997,9(8):1735-1780.
[5] HONG L,LIN J,LI S,et al. A novel machine learning framework for automated biomedical relation extraction from large-scale literature repositories[J]. Nature Machine Intelligence,2020,2:347-355.
[6] HONIG P K,WORTHAM D C,ZAMANI K,et al. Terfenadine- ketoconazole interaction:Pharmacokinetic and electrocardiographic consequences [J]. JAMA The Journal of the American MedicalAssociation,1993,269(12):1513-1518.
[7] KIM S,LIU H,YEGANOVA L,et al. Extracting drug - drug interactions from literature using a rich feature-based linear kernel approach[J]. Journal of Biomedical Informatics,2015,55:23-30.
[8] KLEIN D,MANNING C. Accurate Unlexicalized Parsing[C]// Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo,Japan:Association for Computational Linguistics,2003:423-430.
[9] LIU S,TANG B,CHEN Q,et al. Drug-drug interaction extraction via convolutional neural networks[J]. Computational and Mathematical Methods in Medicine,2016,2016:1-8.
[10] MIRANDA V,F(xiàn)EDE A,Nobuo,et al. Adverse drug reactions and drug interactions as causes of hospital admission in oncology[J]. Journal of Pain & Symptom Management,2011,42(3):342-353.
[11] NIVRE J. Dependency parsing[J]. Language & Linguistics Compass,2010,4(3):138-152.
[12] PAULUS R,XIONG C,SOCHER R. A deep reinforced model for abstractive summarization[C]// Proceedings of the 6th International Conference on Learning Representations. Vancouver,BC,Canada:ICLR,2018. DOI:10.48550/arXiv.1705.04304.
[13] PYYSALO S,GINTER F,MOEN H,et al. Distributional semantics resources for biomedical text processing[C]// Proceedings of the 5th International Symposium on Languages in Biology and Medicine. 2013:39-44.
[14] QUAN C,HUA L,SUN X,et al. Multichannel convolutional neural network for biological relation extraction[J]. BioMed Research International,2016,2016:1-10.
[15] RAIHANI A,LAACHFOUBI N. Extracting drug-drug interactions from biomedical text using a feature-based kernel approach [J]. Journal of Theoretical & Applied Information Technology,2016,92 (1):109-120.
[16] SEGURA-BEDMAR I,MARTINEZ P,HERRERO-ZAZO M. SemEval-2013 task 9:Extraction of drug-drug interactions from biomedical texts (DDIExtraction 2013)[C]//Proceedings of the 7th International Workshop on Semantic Evaluation. Atlanta,Georgia,USA:Association for Computational Linguistics,2013:341-350.
[17] SEGURA-BEDMAR I,MARTINEZ P,PABLO-SANCHEZ C D. A linguistic rule-based approach to extract drug-drug interactions from pharmacological documents[J]. BMC Bioinformatics,2011,12(Suppl2):S1.DOI:10.1186/1471-2105-12-S1-S1.
[18] SEGURA-BEDMAR I,MARTINEZ P,PABLO-SANCHEZ C D. The 1st DDIextraction-2011 challenge task:Extraction of drugdrug interactions from biomedical texts[C]// Proceedings of the 1st Challenge Task on Drug-Drug Interaction Extraction. Huelva,Spain:CEUR,2011:1-9.
[19] TAN Z,WANG M,XIE J,et al. Deep semantic role labeling with self-attention[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans,LA,USA:AAAI press,2018:4929-4936.
[20] TARI L,ANWAR S,LIANG S,et al. Discovering drug-drug inter- actions:a text-mining and reasoning approach based on properties of drug metabolism[J]. Bioinformatics,2010,26(18):i547 -i553.
[21] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need [C]// Proceedings of the 31st Annual Conference on Neural Information Processing Systems. Long Beach,CA,USA:Neural information processing systems foundation,2017:5999 - 6009.
[22] WANG Linlin,ZHU Cao,Melo G D,et al. Relation classification via multi-level attention cnns[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin,Germany:Association for Computational Linguistics,2016:1298-1307.
[23] WANG W,YANG X,YANG C,et al. Dependency-based long short term memory network for drug-drug interaction extraction [J]. BMC Bioinformatics,2017,18(S16):578. DOI:10.1186/ s12859-017-1962-8.
[24] XU B,SHI X,YIN Y,et al. Incorporating user generated content for drug drug interaction extraction based on full attention mechanism[J]. IEEE Transactions on Nanobioscience,2019,18(3):360-367.
[25] ZHAO D,WANG J,LIN H,et al. Extracting drug-drug interactions with hybrid bidirectional gated recurrent unit and graph convolutional network[J]. Journal of Biomedical Informatics,2019,99:103295.DOI:10.1016/j.jbi.2019.103295.
[26] ZHAO Z,YANG Z,LUO L,et al. Drug-drug interaction extraction from biomedical literature using syntax convolutional neural net- work[J]. Bioinformatics,2016,32(22):3444-3453.
[27] ZHOU D,MIAO L,HE Y L. Position-aware deep multi-task learning for drug - drug interaction extraction[J]. Artificial Intelligence in Medicine,2018,87:1-8.