于祥欽,王 香,李智強(qiáng),徐 賢
(華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237)
每年都有大量生物醫(yī)學(xué)相關(guān)的文獻(xiàn)在各類的期刊和會(huì)議上被發(fā)表,生物醫(yī)學(xué)文獻(xiàn)中蘊(yùn)含豐富的化學(xué)物質(zhì)-疾病關(guān)系,可以幫助藥物研究人員預(yù)測(cè)化學(xué)物質(zhì)和疾病之間的關(guān)系,研究藥物機(jī)理,降低藥物研究、臨床試驗(yàn)等的復(fù)雜性[1],生物醫(yī)學(xué)命名實(shí)體識(shí)別是其他生物醫(yī)學(xué)領(lǐng)域相關(guān)任務(wù)的先決條件,如:文本分類、語音識(shí)別、機(jī)器翻譯、機(jī)器問答、推薦系統(tǒng)等.作為基礎(chǔ)而又關(guān)鍵的一步,高效的從海量的生物醫(yī)學(xué)文本中識(shí)別出不同類型的實(shí)體信息,可以幫助相關(guān)領(lǐng)域的研究學(xué)者高效的開展研究,推動(dòng)相關(guān)領(lǐng)域的發(fā)展.
目前生物醫(yī)學(xué)命名實(shí)體識(shí)別的主流方法有以下幾種:基于詞典的方法、基于規(guī)則的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法.基于詞典和規(guī)則的方法的性能受限于詞典質(zhì)量和規(guī)則完整性;基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法在數(shù)據(jù)集完善且特征選取合理的情況下能發(fā)揮較好性能;基于深度學(xué)習(xí)的方法可以在不依賴人工特征的情況下發(fā)揮較好性能.
近年來,詞嵌入(Word Embedding)技術(shù)與深度學(xué)習(xí)結(jié)合的方法在自然語言處理領(lǐng)域獲得廣泛應(yīng)用.詞嵌入技術(shù)所得到的分布式詞向量有著低維、稠密等特點(diǎn),每一個(gè)維度都包含了潛在語義信息,可以通過詞向量之間的相似度來了解到單詞語義之間的相關(guān)性,通常在大規(guī)模相關(guān)語料上生成預(yù)訓(xùn)練詞向量.相較于通用領(lǐng)域,生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體任務(wù)的性能提升面臨諸多挑戰(zhàn).如實(shí)體長度較長、形態(tài)復(fù)雜多變、縮寫命名規(guī)范不統(tǒng)一、存在嵌套情況和新增相關(guān)詞匯數(shù)量迅速增加等問題,而預(yù)訓(xùn)練詞表容量有限,在初始化詞向量查找詞表時(shí)容易出現(xiàn)未登錄詞(out of vocabulary,OOV)問題,且詞向量是單詞級(jí)別的特征表示,缺少對(duì)生物醫(yī)學(xué)實(shí)體前后綴和拼寫等內(nèi)部特征的關(guān)注.
字符嵌入(Character Embedding)表示對(duì)單詞的字符序列向量化,是對(duì)詞嵌入的一種補(bǔ)充,在遇到詞表中沒有出現(xiàn)的單詞時(shí)可以使用字符嵌入對(duì)其語義進(jìn)行推斷.卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[2,3]和雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long Short Term Memory,BiLSTM)[4,5]常被用來提取字符級(jí)特征,CNN更關(guān)注局部特征,適合表示單詞的前后綴和組成;BiLSTM更關(guān)注長距離時(shí)序特征,適合表示單詞的拼寫,在不同上下文語境下兩種字符級(jí)特征對(duì)單詞的重要程度有所傾向,單一字符特征能捕捉到的潛在語義有限.
針對(duì)以上問題,本文提出一種基于字符級(jí)特征自適應(yīng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別模型.本文的主要貢獻(xiàn)點(diǎn)如下:
1)針對(duì)單一字符級(jí)特征對(duì)字符形態(tài)的表征有限,聯(lián)合使用CNN和BiLSTM提取字符級(jí)特征,將組合后的字符級(jí)特征作為詞表示的一部分;
2)針對(duì)不同語境下兩種字符級(jí)特征的重要程度不同問題,訓(xùn)練過程中動(dòng)態(tài)計(jì)算兩種字符向量的權(quán)重,使得重要的字符級(jí)特征權(quán)重變大,不重要的字符級(jí)特征權(quán)重變小;
3)將詞性分析、組塊分析作為額外特征輔助模型進(jìn)行實(shí)體邊界識(shí)別,實(shí)驗(yàn)結(jié)果表明,本文所提的字符級(jí)特征自適應(yīng)模型相比其他模型性能有明顯提升.
早期生物醫(yī)學(xué)命名實(shí)體識(shí)別常采用基于詞典和規(guī)則的命名實(shí)體識(shí)別方法.Yang等人[6]通過構(gòu)建一個(gè)基于詞典的系統(tǒng)用來識(shí)別多種生物醫(yī)學(xué)實(shí)體,該系統(tǒng)在匹配過程中改進(jìn)了編輯距離算法,結(jié)合前后關(guān)鍵字?jǐn)U展,詞性擴(kuò)展等后處理方法有效提升了命名實(shí)體識(shí)別的性能.但受詞典大小影響以及短語歧義的影響,該系統(tǒng)的識(shí)別性能受到一定限制.Fukuda等人[7]使用了基于規(guī)則的方法用來識(shí)別文本中的蛋白質(zhì)實(shí)體,無需特定背景知識(shí),在僅使用專有名詞字符串本身特征情況下,識(shí)別準(zhǔn)確率得到一定提升.但設(shè)計(jì)的規(guī)則依賴于當(dāng)前特定任務(wù),在新實(shí)體不斷更新的情況下識(shí)別過程容易產(chǎn)生錯(cuò)誤.基于規(guī)則和詞典的方法雖然簡單實(shí)用,但性能受詞典質(zhì)量和規(guī)則完整性的限制,且可擴(kuò)展性較差.
基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法主要是從人工處理標(biāo)記好的數(shù)據(jù)設(shè)計(jì)選取合適的特征,采用機(jī)器學(xué)習(xí)算法對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練迭代過程中優(yōu)化模型最終使其能夠在預(yù)測(cè)未標(biāo)注數(shù)據(jù)過程發(fā)揮較好性能.目前常用在命名實(shí)體識(shí)別任務(wù)中的機(jī)器學(xué)習(xí)方法有:隱馬爾科夫模型[8](Hidden Markov Model,HMM)、最大熵馬爾科夫模型[9](Maximum Entropy Markov Model,MEMM)、支持向量機(jī)[10](Support Vector Machine,SVM)、條件隨機(jī)場[11](Conditional Rondom Field,CRF)等.Ponomareva等人[12]利用HMM模型來構(gòu)建生物醫(yī)學(xué)實(shí)體識(shí)別器,將新的知識(shí)特征融入到HMM模型中.Li等人[13]利用大量未標(biāo)記數(shù)據(jù)中具有高度指示性特征的詞頻和共現(xiàn)信息生成更高層次的特征,將字典和基于條件隨機(jī)場(CRF)的方法結(jié)合,在基因識(shí)別任務(wù)上有不錯(cuò)的表現(xiàn).基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法的性能和實(shí)體的特征組合密切相關(guān),另一方面受訓(xùn)練數(shù)據(jù)質(zhì)量的影響,此類方法效果有限.
深度學(xué)習(xí)方法以其強(qiáng)大的非線性變換能力,已經(jīng)應(yīng)用在多種自然語言處理任務(wù)中.Habibi等人[14]采用了BiLSTM-CRF模型用于生物醫(yī)學(xué)命名實(shí)體識(shí)別,取得了較好的表現(xiàn).Luo等人[15]在BiLSTM-CRF模型的基礎(chǔ)上額外加入了一個(gè)注意力層(attention),有效的解決了同一文章中的標(biāo)注歧義問題.基于深度學(xué)習(xí)的方法在不依賴人工特征的情況下,能夠依靠自身的非線性變化能力學(xué)習(xí)到深層次的特征,在生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)上取得了不錯(cuò)的效果.
字符嵌入在處理OOV問題時(shí)表現(xiàn)出了良好的性能,常被作為詞表示的一部分.卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在計(jì)算機(jī)視覺相關(guān)任務(wù)中的視覺特征提取,在自然語言處理任務(wù)中的語料大部分是連續(xù)的,CNN能夠從輸入的單詞中很好的提取局部信息.CNN被應(yīng)用于序列標(biāo)注[16]和文本分類[17]領(lǐng)域.Santos等人[2]利用CNN提取了字符特征用于英語和葡萄牙語的詞性標(biāo)注工作并取得了良好的效果.李麗雙等人[3]使用CNN提取了字符級(jí)特征作為詞表示的一部分用于生物醫(yī)學(xué)命名實(shí)體識(shí)別并取得了很好的效果.
BiLSTM主要用于提取文本的上下文特征,可以捕捉文本中前后單詞的相關(guān)性.BiLSTM也可以用于提取字符級(jí)特征,與CNN提取字符級(jí)特征不同的是,BiLSTM更關(guān)注時(shí)序信息,可以捕捉單詞中前后字符的相關(guān)性.Gridach[4]使用BiLSTM提取了單詞的字符級(jí)特征并將其應(yīng)用于生物醫(yī)學(xué)命名實(shí)體識(shí)別,實(shí)驗(yàn)結(jié)果表明字符級(jí)能夠捕獲單詞的拼寫和形態(tài)學(xué)信息.Wang等人[5]利用BiLTSM對(duì)單詞的字符序列進(jìn)行建模,應(yīng)用于多任務(wù)學(xué)習(xí)中來進(jìn)行生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù),實(shí)驗(yàn)表明字符級(jí)的特征能夠很好的處理OOV問題從而提升系統(tǒng)的識(shí)別性能.
門控循環(huán)單元(Gate Recurrent Unit,GRU)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),GRU在性能上和LSTM接近但更加簡單高效,在保留重要時(shí)序特征的情況下訓(xùn)練時(shí)間大大縮短.Xu等人[18]使用GRU來捕獲中文字符的長距離特征應(yīng)用于中文命名實(shí)體識(shí)別,并取得了不錯(cuò)的效果.Jebbara等人[19]在細(xì)粒度情感分析中使用BiGRU提取了字符級(jí)別的詞向量將其作為輸入的一部分,結(jié)果表明BiGRU提取的字符級(jí)特征對(duì)于模型性能有積極的影響.
相關(guān)研究工作表明,字符級(jí)特征在生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)中效果顯著,但不同提取器所形成字符級(jí)特征有不同特點(diǎn),使用單一的字符級(jí)特征提取器效果有限.因此,本文聯(lián)合使用CNN和BiLSTM提取不同類型的字符級(jí)特征,在不同語境下對(duì)兩種字符級(jí)特征進(jìn)行適應(yīng)性融合,提出基于字符級(jí)特征自適應(yīng)的生物醫(yī)學(xué)命名實(shí)體識(shí)別模型.
圖1為本文所提出的字符級(jí)特征自適應(yīng)模型整體框架圖,模型整體由3個(gè)模塊組成:詞表示層,BiLSTM層和CRF層.首先查找預(yù)訓(xùn)練詞向量表得到單詞的詞向量;使用CNN生成單詞的字符向量VP,使用BiLSTM生成單詞的字符向量VT,對(duì)他們加權(quán)拼接形成字符級(jí)組合特征;將詞性信息、組塊分析信息作為額外特征.最后將詞向量、字符級(jí)組合特征和額外特征進(jìn)行拼接形成詞表示.詞表示輸入到BiLSTM模型中進(jìn)行訓(xùn)練,最后使用CRF模塊加入標(biāo)簽約束輸出概率最大的標(biāo)簽序列.
圖1 字符級(jí)特征自適應(yīng)模型Fig.1 Character level feature adaptive model
字符級(jí)特征在各種NLP任務(wù)中已經(jīng)被證實(shí)是有效的,能夠較好地提升此類任務(wù)的性能.文獻(xiàn)[20-22]表明字符級(jí)特征能夠明顯提升機(jī)器翻譯的性能,Xiao等人[23]將字符級(jí)特征應(yīng)用于文本分類中提升了一定的性能.使用字符級(jí)特征的優(yōu)勢(shì)在于可以直接從原始文本中提取而不用設(shè)計(jì)額外的手工特征,對(duì)原始語料無需復(fù)雜的預(yù)處理過程.本文分別使用CNN、BiLSTM和雙向門控循環(huán)單元(Bidirectional Gate Recurrent Unit,BiGRU)來提取單詞的字符級(jí)特征.
3.2.1 字符級(jí)CNN模型
CNN適合單詞的前后綴和組成進(jìn)行特征提取.CNN的結(jié)構(gòu)圖如圖2所示,具體過程如下,將原始文本中的每一個(gè)單詞進(jìn)行拆解,填充為最大單詞長度,使得字符向量矩陣維度大小保持一致.通過卷積操作從每個(gè)單詞的字符構(gòu)成的矩陣中提取當(dāng)前單詞的局部特征,卷積核大小決定了CNN可以提取局部特征的范圍大小;經(jīng)過池化過程進(jìn)行特征中關(guān)鍵信息的提取;最終映射成30維的字符向量.
圖2 CNN提取字符級(jí)特征示意圖Fig.2 Schematic diagram of character level feature extraction by CNN
3.2.2 字符級(jí)BiLSTM模型
BiLSTM適合表示單詞的拼寫信息.BiLSTM提取字符特征的結(jié)構(gòu)如圖3所示,首先從前往后讀取單詞的每個(gè)字符以計(jì)算前向的字符向量Vf,然后從后往前讀取單詞的字符計(jì)算后向的字符向量,將前向向量和后向向量進(jìn)行串聯(lián),可獲得單詞字符級(jí)別的向量VT,VT,同時(shí)保留了前向和后向的信息,最終表示為30維的字符向量.
3.2.3 字符級(jí)BiGRU模型
GRU結(jié)構(gòu)與LSTM大體相似,優(yōu)化門控網(wǎng)絡(luò)使得重要特征得以保留并減少訓(xùn)練時(shí)間,使用BiGRU提取字符特征的流程與使用BiLSTM的提取過程相似,已在3.2.2節(jié)闡述.
3.2.4 字符級(jí)特征自適應(yīng)
不同的字符級(jí)特征提取模型有著不同的特點(diǎn),CNN適合提取局部特征,適合表示單詞的前后綴和組成等信息,而缺少對(duì)長距離的依賴信息的關(guān)注;BiLSTM和BiGRU更關(guān)注時(shí)序特征,適合表示單詞的字符拼寫信息,而對(duì)局部特征缺少關(guān)注度.Cho等人[24]在生物醫(yī)學(xué)命名實(shí)體識(shí)別中將CNN和BiLSTM提取的字符級(jí)特征進(jìn)行直接拼接形成組合字符特征并將其作為輸入的一部分,實(shí)驗(yàn)結(jié)果表明組合特征的效果要優(yōu)于單個(gè)特征.Xu等人[18]將BiGRU提取的字符級(jí)特征再經(jīng)過卷積過程提取其中的局部特征用于中文命名實(shí)體識(shí)別,取得了不錯(cuò)的效果.
1http://www.nactem.ac.uk/GENIA/tagger/
α0+β0=2
(1)
(2)
Mish(x)=x·(tanh(ln(1+ex)))
(3)
z1=σ(Mish(VP))
(4)
z2=σ(Mish(VT))
(5)
(6)
β1=2-α1
(7)
VP′=α1·VP
(8)
VT′=β1·VT
(9)
(10)
上式中,Mish代表Mish激活函數(shù),該激活函數(shù)允許更好的信息深入神經(jīng)網(wǎng)絡(luò),σ是sigmoid激活函數(shù),z1和z2分別是經(jīng)過一系列非線性變換后的過渡矩陣,z1和z2中每一個(gè)數(shù)字的范圍都是0到1之間.α1代表局部特征矩陣的權(quán)重矩陣,β1代表時(shí)序特征矩陣的權(quán)重矩陣,對(duì)于輸入文本中的每一個(gè)單詞,模型有選擇性對(duì)該詞對(duì)應(yīng)的字符級(jí)局部特征進(jìn)行強(qiáng)化或弱化,同時(shí)對(duì)該詞的字符級(jí)時(shí)序特征進(jìn)行弱化或者強(qiáng)化,對(duì)兩種特征的操作的趨勢(shì)是相反的.最終將變換后的兩種字符級(jí)特征進(jìn)行拼接得到字符級(jí)組合特征.
由于生物醫(yī)學(xué)命名實(shí)體識(shí)別的復(fù)雜性,基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法經(jīng)常會(huì)使用語言特征作為輸入[25],詞性分析POS(Part Of Speech)和組塊分析特征Chunking是語言特征中重要的組成部分.生物醫(yī)學(xué)相關(guān)實(shí)體在文本的詞性是有規(guī)律的,如常見的基因、化合物和疾病等實(shí)體常以名詞形式出現(xiàn),文本加入詞性分析POS輔助模型進(jìn)行判斷,將詞性信息映射為20維的向量.由文本中單詞的詞性信息分析得來的組塊特征,可以反映句子中單詞之間的內(nèi)聯(lián)情況,本文使用組塊分析特征來輔助模型進(jìn)行實(shí)體邊界的判斷,將組塊分析信息映射為20維的向量.本文所使用語料的POS和Chunking特征均由GENIA Tagger1工具生成,表1是該工具輸出的一個(gè)示例.
南水北調(diào)東線工程淮安段水質(zhì)保證措施及實(shí)施效果……………………………… 王道虎,吳昌新,謝亞軍等(10.45)
表1 GENIA Tagger輸出示例Table 1 GENIA Tagger output example
3.4.1 BiLSTM層
LSTM是一種特殊形式的循環(huán)神經(jīng)網(wǎng)絡(luò),很好的改善了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失、梯度爆炸和短距依賴等問題.LSTM通過門控機(jī)制有選擇性的保存上下文信息,適合應(yīng)用在命名實(shí)體識(shí)別等任務(wù)中.LSTM的主要結(jié)構(gòu)可以表示為式(11)~式(16):
it=σ(Wi·[ht-1,xt]+bi)
(11)
ft=σ(Wf·[ht-1,xt]+bf)
(12)
ot=σ(Wo·[ht-1,xt]+bo)
(13)
(14)
(15)
ht=ot?tanh(ct)
(16)
3.4.2 CRF層
通過簡單的softmax分類器能夠輸出每個(gè)單詞對(duì)應(yīng)概率最大的標(biāo)簽,得到局部最優(yōu)的標(biāo)簽序列,但這種方式?jīng)]有考慮相鄰標(biāo)簽之間的約束關(guān)系.CRF層能夠?qū)iLSTM的輸出進(jìn)行合理修正從而捕捉依賴關(guān)系,例如針對(duì)疾病的命名實(shí)體識(shí)別任務(wù)中,當(dāng)使用BIO標(biāo)注方案時(shí),疾病實(shí)體只能由“B-Disease”開頭而不能以“I-Disease”開頭,如果實(shí)體由多個(gè)詞語組成則“B-Disease”后只能跟“I-Disease”而不能跟“O”標(biāo)簽.對(duì)于輸入的文本句子X,對(duì)應(yīng)句子的得分公式如式(17)所示:
(17)
其中,A是標(biāo)簽轉(zhuǎn)移矩陣,Ai,j是標(biāo)簽i轉(zhuǎn)移到j(luò)的概率,Pi,yi表示句子中第i個(gè)詞語標(biāo)簽為yi的概率.在給定輸入語句X時(shí),使用softmax函數(shù)歸一化計(jì)算序列y的概率公式如式(18)所示:
(18)
訓(xùn)練過程中,模型的目的在于最大化p(y|X),標(biāo)記序列的似然函數(shù)如式(19)所示:
(19)
在預(yù)測(cè)階段,可以得知概率最大的序列:
(20)
本文在NCBI-disease[26]數(shù)據(jù)集和Biocreative Ⅱ GM[27](BC2GM)數(shù)據(jù)集上進(jìn)行訓(xùn)練NCBI語料詳細(xì)介紹見表2,NCBI數(shù)據(jù)集包含的實(shí)體類型為疾病,BC2GM語料詳細(xì)介紹見表3,BC2GM數(shù)據(jù)集包含的實(shí)體類型為基因.本文對(duì)兩種數(shù)據(jù)集的評(píng)估均采用精確匹配模式,即嚴(yán)格匹配實(shí)體的前后邊界和類型.數(shù)據(jù)集采用BIOES標(biāo)注方案,該標(biāo)注方案在傳統(tǒng)的BIO標(biāo)注方案上增加了實(shí)體結(jié)束標(biāo)簽(End)和由單個(gè)詞組成組成的實(shí)體(Single).BIOES標(biāo)注方案提供了更多的信息,更有利于實(shí)體邊界的劃分[28].
表2 NCBI-disease數(shù)據(jù)集詳細(xì)信息Table 2 NCBI-disease dataset details
表3 BC2GM數(shù)據(jù)集詳細(xì)信息Table 3 BC2GM disease dataset details
本文分別使用Moen等人[29]在PubMed數(shù)據(jù)庫的摘要和全文文章以及維基百科語料庫通過Word2Vec模型得到的預(yù)訓(xùn)練詞向量,預(yù)訓(xùn)練詞向量的維度為200;學(xué)習(xí)率選取1e-3;字符級(jí)局部特征和字符級(jí)時(shí)序特征都是30維的向量;額外特征中POS和Chunking特征分別得到20維的向量.將預(yù)訓(xùn)練詞向量、組合字符特征和額外特征進(jìn)行拼接,輸入到BiLSTM中進(jìn)行訓(xùn)練,BiLSTM的隱藏層維度為200,通過Dropout來緩解模型過擬合的問題,Dropout值設(shè)置為0.5;優(yōu)化器選用隨機(jī)梯度下降SGD算法.
本文對(duì)模型的評(píng)價(jià)采用3種指標(biāo),分別是準(zhǔn)確率P(Precision)、召回率R(Recall)和F1值.具體公式如下:
(21)
(22)
(23)
實(shí)驗(yàn)結(jié)果如表4所示,為了驗(yàn)證本文所提出方法的實(shí)用性和意義,選擇BiLSTM-CRF并使用預(yù)訓(xùn)練詞向量(Word Embedding)作為基準(zhǔn)模型BCW,與其他方法進(jìn)行對(duì)比.
表4 不同方法在NCBI-disease和BC2GM數(shù)據(jù)集上的性能對(duì)比Table 4 Performance comparison of different methods on NCBI-disease and BC2GM dataset
4.4.1 字符級(jí)特征自適應(yīng)效果對(duì)比
為了驗(yàn)證字符級(jí)特征自適應(yīng)對(duì)于生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)的效果影響,進(jìn)行了單個(gè)類型、簡單拼接式組合和自適應(yīng)式組合所形成的字符級(jí)特征的對(duì)比實(shí)驗(yàn).單個(gè)類型的字符級(jí)特征提取器包括:(char-CNN)、(char-BiLSTM)和(char-BiGRU);簡單拼接式組合字符級(jí)特征提取器包括:char-(CNN,BiLSTM)和char-(CNN,BiGRU);自適應(yīng)字符級(jí)特征提取器包括:char-adapt-(CNN,BiLSTM)和char-adapt-(CNN,BiGRU).
從結(jié)果表中可以看出,BCW+(char-CNN)、BCW+(char-BiLSTM)和BCW+(char-BiGRU)模型相比于基準(zhǔn)模型BCW,P、R和F1值均有明顯提升,在兩個(gè)數(shù)據(jù)集上F1值平均提升了4.54%.生物醫(yī)學(xué)相關(guān)實(shí)體形態(tài)復(fù)雜,多數(shù)實(shí)體包含大小混合字母和特殊字符,且預(yù)訓(xùn)練詞表容量有限,在初始化詞向量時(shí)容易出現(xiàn)OOV問題,實(shí)驗(yàn)結(jié)果表明CNN、BiLSTM和BiGRU模塊能夠有效抽取字符級(jí)特征,緩解OOV問題,提升識(shí)別的F1值.其中BCW+(char-CNN)模型的F1值明顯高于BCW+(char-BiLSTM)和BCW+(char-BiGRU)模型,表明對(duì)于NCBI和BC2GM數(shù)據(jù)集而言,字符級(jí)局部特征相對(duì)于字符級(jí)時(shí)序特征更有利于提升模型的識(shí)別性能.而BCW+(char-BiLSTM)和BCW+(char-BiGRU)模型的F1值基本持平,表明在這2個(gè)數(shù)據(jù)集上BiLSTM和BiGRU所提取的長距離時(shí)序字符級(jí)特征對(duì)模型識(shí)別的增益效果沒有太大差別.BCW+char-(CNN,BiLSTM)和BCW+char-(CNN,BiGRU)模型的F1值高于單一字符級(jí)特征的模型,在2個(gè)數(shù)據(jù)集上的F1值相較于BCW+(char-CNN)模型平均提升了0.78%,召回率平均提升了0.97%.表明拼接后的組合字符特征相較于單一字符級(jí)特征能表達(dá)更加充分的信息.
為了說明給局部和時(shí)序字符級(jí)特征分配不同的權(quán)重對(duì)模型識(shí)別性能的影響,設(shè)置了手動(dòng)權(quán)重對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示,模型BCW+char-(α0CNN,β0BiLSTM)代表給CNN提取的字符級(jí)特征乘以權(quán)重系數(shù)α0,給BiLSTM提取的字符級(jí)特征乘以權(quán)重系數(shù)β0,將處理后的字符級(jí)特征進(jìn)行拼接.結(jié)果表明,當(dāng)給不同類型的字符級(jí)特征向量分配不同權(quán)重后,對(duì)模型的識(shí)別性能有明顯影響,當(dāng)α0和β0都為1.0時(shí),相當(dāng)于進(jìn)行直接拼接.當(dāng)α0取值為1.2時(shí),相對(duì)于α0取值為 1.0時(shí),模型在NCBI-disease數(shù)據(jù)集上的F1了提升0.11%,而在BC2GM數(shù)據(jù)集上手動(dòng)更改權(quán)重后,性能均有所下降.實(shí)驗(yàn)結(jié)果表明,調(diào)整不同類型字符特征的權(quán)重值會(huì)對(duì)模型性能產(chǎn)生一定影響,但宏觀的手工調(diào)整難以確定最優(yōu)權(quán)重系數(shù),且隨意調(diào)整對(duì)模型識(shí)別性能會(huì)產(chǎn)生消極影響.
表5 手動(dòng)更改權(quán)重性能對(duì)比Table 5 Manually change the weight performance comparison
采用自適應(yīng)結(jié)構(gòu)可以在單詞級(jí)別對(duì)不同字符級(jí)特征的權(quán)重進(jìn)行細(xì)粒度的調(diào)控,添加自適應(yīng)結(jié)構(gòu)的模型的F1值有明顯提升.其中BCW+char-adapt-(CNN,BiLSTM)模型在兩個(gè)數(shù)據(jù)集上的F1值相較于BCW+char-(CNN,BiLSTM)平均提升了0.26%,召回率提升了0.28%.BCW+char-adapt-(CNN,BiGRU)模型的F1值相較于BCW+char-(CNN,BiGRU)提升了0.21%,召回率提升了0.25%.表明自適應(yīng)方法能夠有選擇性的將需要關(guān)注的字符級(jí)特征進(jìn)行強(qiáng)化,避免了人工調(diào)整權(quán)重的不確定性,在字符粒度上更加充分的利用了信息,對(duì)模型的識(shí)別性能產(chǎn)生了積極的影響.
4.4.2 額外特征效果對(duì)比
為了驗(yàn)證所加入的POS和Chunking特征對(duì)生物醫(yī)學(xué)命名實(shí)體識(shí)別性能的影響,本文對(duì)基準(zhǔn)模型BCW和字符級(jí)特征自適應(yīng)模型BCW+char-adapt-(CNN,BiLSTM)分別設(shè)置了一組對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明,對(duì)基準(zhǔn)模型BCW,加入詞性和組塊分析特征作為額外特征后,在2個(gè)數(shù)據(jù)集上的F1值平均提升了0.59%,準(zhǔn)確率平均提升了0.69%.對(duì)于字符級(jí)特征自適應(yīng)模型BCW+char-adapt-(CNN,BiLSTM),加入詞性和組塊分析特征后,在2個(gè)數(shù)據(jù)集上的F1值平均提升了0.40%,準(zhǔn)確率平均提升了0.51%.結(jié)果表明,將詞性特征和組塊分析特征作為額外特征,提升了識(shí)別任務(wù)的準(zhǔn)確率,可以提升生物醫(yī)學(xué)命名實(shí)體識(shí)別模型的性能.
1)NCBI-disease語料
為了進(jìn)一步驗(yàn)證本文所提出方法的有效性,將其與相關(guān)文獻(xiàn)的NCBI數(shù)據(jù)集的表現(xiàn)進(jìn)行對(duì)比,如表6所示,Dang等人[30]提出D3NER模型將詞性信息、縮寫信息和字符特征等各種語言學(xué)特征輸入到BiLSTM-CRF模型中進(jìn)行訓(xùn)練,獲得了84.41%的F1值;Wang等人[5]使用BiLSTM提取了字符級(jí)特征并應(yīng)用到多任務(wù)學(xué)習(xí)中,獲得了86.14%的F1值;Xu等人[31]在多種生物醫(yī)學(xué)相關(guān)語料庫上訓(xùn)練了詞向量,并在BiLSTM-CRF模型的CRF層結(jié)合了疾病縮寫識(shí)別工具,獲得了86.20%的F1值;Cho等人[24]在BiLSTM-CRF模型中將CNN和BiLSTM提取的字符級(jí)特征進(jìn)行拼接并結(jié)合注意力機(jī)制,獲得了86.93%的F1值.以上方法在提取字符級(jí)特征時(shí)所用方法比較單一,效果有所局限.
表6 NCBI-disease數(shù)據(jù)集實(shí)驗(yàn)對(duì)比Table 6 Experimental comparison of NCBI-disease dataset
本文使用CNN提取字符級(jí)局部特征,使用BiLSTM或BiGRU提取字符級(jí)時(shí)序特征,在對(duì)文本中每一個(gè)句子中的每一個(gè)單詞提取字符向量時(shí),動(dòng)態(tài)計(jì)算局部特征和時(shí)序特征的權(quán)重,使重要特征得到進(jìn)一步加強(qiáng),在更細(xì)粒度上利用字符級(jí)特征;其次,本文將詞性和組塊分析特征作為額外特征作為詞表示的一部分,輔助模型進(jìn)行實(shí)體邊界的判斷.實(shí)驗(yàn)結(jié)果表明,相比于Dang等人[30]提出的模型F1值平均提升了2.73%;相比于Wang等人[5]提出的模型F1值平均提升了1.00%;相比于Xu等人[31]提出的模型F1值平均提升了0.94%;相比于Cho等人[24]提出的模型F1值平均提升了0.21%,取得了不錯(cuò)的效果.
2)BC2GM語料
為了說明本文所提模型的泛化能力,在BC2GM數(shù)據(jù)集上的表現(xiàn)對(duì)比如表7所示.Crichton等人[32]提出了基于CNN的多任務(wù)學(xué)習(xí)模型,獲得了73.17%的F1值;Lample等人[28]和Habibi等人[14]提出了基于BiLSTM-CRF的模型并使用BiLSTM提取了字符級(jí)特征,獲得了80.51%的F1值;Wang等人[5]將多任務(wù)學(xué)習(xí)引入生物醫(yī)學(xué)命中實(shí)體識(shí)別中,在單任務(wù)模型中使用BiLSTM-CRF模型并結(jié)合BiLSTM提取的字符級(jí)特征,獲得了80.74%的F1值.本文使用不同類型的提取器分別提取字符級(jí)的局部特征和時(shí)序特征,并在訓(xùn)練過程中動(dòng)態(tài)計(jì)算每種特征的權(quán)重,有選擇性的對(duì)重要特征進(jìn)行加強(qiáng),并結(jié)合語言特征中的POS和Chunking信息輔助模型進(jìn)行實(shí)體邊界判斷.實(shí)驗(yàn)結(jié)果表明,相比于Crichton等人[32]提出的模型,本文模型的F1值提升了7.87%;相比于Lample等人[28]和Habibi等人[14]提出的模型,本文模型的F1值提升了0.53%;相比于Wang等人[5]提出的模型,本文模型的F1值提升了0.30%,召回率提升了0.48%,取得了良好的效果.
表7 BC2GM數(shù)據(jù)集實(shí)驗(yàn)對(duì)比Table 7 Experimental comparison of BC2GM disease dataset
本文提出一種基于字符級(jí)特征自適應(yīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)命名實(shí)體識(shí)別模型.模型使用CNN提取單詞字符序列的局部特征,使用BiLSTM提取單詞序列的時(shí)序特征,并在模型訓(xùn)練過程中動(dòng)態(tài)給兩種字符級(jí)特征分配不同的權(quán)重,使得重要的字符級(jí)特征得到進(jìn)一步加強(qiáng),弱化不重要的字符級(jí)特征,在字符粒度上更充分利用信息.得到組合字符級(jí)特征后,將詞性信息和組塊分析特征作為額外特征,輔助模型判斷實(shí)體邊界,進(jìn)一步提升了模型的性能.實(shí)驗(yàn)結(jié)果表明,本文所提出方法能更充分利用文本字符粒度的信息,比已有的相關(guān)方法在生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)上表現(xiàn)更好.特征增多使得模型效果變好,但是同時(shí)也使得模型收斂時(shí)間增加,未來會(huì)考慮優(yōu)化模型的結(jié)構(gòu),在保證性能的前提下縮短訓(xùn)練時(shí)間.