馬建紅 魏字默 陳亞萌
(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院 天津 300401)
專(zhuān)業(yè)領(lǐng)域資源命名實(shí)體識(shí)別(Named Entity Recognition,NER)[1]和關(guān)系抽取(Relation Extraction,RE)[2]是對(duì)資源描述的文本進(jìn)行信息抽取的重要方式,基于實(shí)體和關(guān)系可以構(gòu)建出資源庫(kù)和資源知識(shí)圖譜,可以更好地促進(jìn)自然語(yǔ)言處理(Natural Language Processing,NLP)上層任務(wù)的發(fā)展。
當(dāng)前,完整解決NER和RE這類(lèi)問(wèn)題的場(chǎng)景需求很多,一般可以歸結(jié)為對(duì)應(yīng)的兩個(gè)子任務(wù),主要有兩種完成方式,一種是流水線方式;另一種是聯(lián)合學(xué)習(xí)方式。
目前的研究以流水線處理方式較多,例如:對(duì)于命名實(shí)體識(shí)別,張海楠等[3]、何炎祥等[4]分別使用神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)方法完成NER任務(wù);對(duì)于關(guān)系抽取,Yan等[5]、 Li等[6]采用改進(jìn)的深度學(xué)習(xí)方法完成RE任務(wù)。這種流水作業(yè)方式使得兩個(gè)子任務(wù)易于處理,但存在一些缺陷,例如:忽略了兩個(gè)子任務(wù)模塊之間的關(guān)聯(lián)性,前一個(gè)子任務(wù)的錯(cuò)誤會(huì)順延傳遞到下一個(gè)子任務(wù);兩個(gè)子任務(wù)都是對(duì)原始文本進(jìn)行處理,做了重復(fù)性的數(shù)據(jù)處理工作,處理效率低。
與流水線處理方式不同,聯(lián)合學(xué)習(xí)方式可以有效解決上述問(wèn)題?;谏疃葘W(xué)習(xí)的聯(lián)合抽取方式擁有以下優(yōu)勢(shì):① 采用深度學(xué)習(xí)的模型可以自動(dòng)學(xué)習(xí)句子特征,無(wú)須人工構(gòu)建復(fù)雜的特征工程;② 這一方式考慮了子任務(wù)之間關(guān)聯(lián)性的同時(shí),避免了流水線方法中子任務(wù)訓(xùn)練誤差、錯(cuò)誤率累計(jì)傳播和冗余實(shí)體產(chǎn)生等問(wèn)題;③ 端到端的學(xué)習(xí)方式較大地提升了處理效率[7]。因此,研究有效的聯(lián)合抽取方式更具實(shí)際意義。
本文將化學(xué)資源庫(kù)應(yīng)用于計(jì)算機(jī)輔助創(chuàng)新(Computer Aided Innovation,CAI)[8]中,對(duì)化學(xué)資源的完整描述包括資源物質(zhì)本身、資源的屬性或參數(shù)和相應(yīng)的量值。在非結(jié)構(gòu)化文本中它們會(huì)被全部或者部分地描述出來(lái),因此,本文以資源的物質(zhì)(RES)、屬性(PAR)、值(VAL)作為抽取的對(duì)象,表示為(RES,PAR,VAL)的三元組形式。分析表明,該領(lǐng)域文本主要存在以下特點(diǎn):
(1) 文本中各類(lèi)實(shí)體組合方式多變,詞長(zhǎng)主要為2~20字符不等,其中包含較多的長(zhǎng)實(shí)體名、文字夾帶符號(hào)的混合情況,例如,“5,6-二羥基吲哚”、“抗靜電劑SH-105”等。
(2) 一個(gè)自然句中包含的實(shí)體數(shù)量多,因此確定文本中三類(lèi)實(shí)體對(duì)象互相之間是否存在關(guān)系比較困難。
(3) 實(shí)體與實(shí)體間存在一對(duì)多的描述情況,即一個(gè)句子中某一實(shí)體可能會(huì)同時(shí)存在多個(gè)三元組中,存在一定的重疊關(guān)系。
聯(lián)合抽取的方法又可以分為參數(shù)共享和序列標(biāo)注兩類(lèi)。Miwa等[9]提出了一個(gè)基于參數(shù)共享的聯(lián)合抽取模型,NER子任務(wù)中的輸出和隱含層共同作為RE子任務(wù)輸入的一部分,實(shí)現(xiàn)共享參數(shù)。Li等[10]在Miwa等研究的基礎(chǔ)上加入了實(shí)體驗(yàn)證的處理,并將該模型應(yīng)用于提取細(xì)菌和細(xì)菌位置關(guān)系。Katiyar等[11]在參數(shù)共享的基礎(chǔ)上將注意力機(jī)制引入到RE子任務(wù)中。這種方式雖然在底層參數(shù)上進(jìn)行了共享,但兩個(gè)子任務(wù)是分別進(jìn)行的,依舊會(huì)產(chǎn)生冗余信息。Zheng等[12]提出了一個(gè)序列標(biāo)注的方式,通過(guò)將實(shí)體之間的關(guān)系類(lèi)型放入標(biāo)簽中,使用序列標(biāo)注模型直接抽取實(shí)體對(duì)及其關(guān)系。標(biāo)簽中包含三部分信息:實(shí)體的邊界信息、實(shí)體的關(guān)系類(lèi)型和實(shí)體的序號(hào)。針對(duì)在一個(gè)句子中出現(xiàn)相同類(lèi)型關(guān)系的多個(gè)實(shí)體,采用就近的原則來(lái)標(biāo)注實(shí)體。這種方法只考慮了一個(gè)實(shí)體屬于一種關(guān)系的情況,如圖1所示。而在很多情況下一個(gè)句子中存在多個(gè)三元組信息,并且同一個(gè)實(shí)體會(huì)出現(xiàn)在多個(gè)關(guān)系中,比如將此例句改為“The United States President Trump’s wife Melania Trump will…”。此時(shí)夫妻關(guān)系(Husband-Wife,HW)與國(guó)家-總統(tǒng)關(guān)系(Country-President ,CP)只能被標(biāo)注出一個(gè),導(dǎo)致最終的查全率受影響。本文所要研究的化學(xué)領(lǐng)域文本對(duì)于資源敘述中也會(huì)大量出現(xiàn)類(lèi)似的關(guān)系重疊情況,因此,本文提出一種新的標(biāo)注策略。
對(duì)于文本數(shù)據(jù)的向量化表示,在2018年以前的幾年中,NLP任務(wù)的起點(diǎn)多是以Word2vec為代表的詞向量。獲得詞向量以后,對(duì)其進(jìn)行平均或者求和得到句向量,這種處理方式難以實(shí)現(xiàn)深層語(yǔ)義的提取,導(dǎo)致上層任務(wù)效果提升困難。當(dāng)前很多詞向量表示的方法都是靜態(tài)的,如Word2vec、GloVe等,當(dāng)訓(xùn)練完成之后便獲得了一個(gè)詞的唯一確定的向量表示。由于一個(gè)詞很可能在不同的句子語(yǔ)境中表示不同的意思,Google在2018年提出BERT[13],譯為基于Transformer[14]的雙向編碼表征,實(shí)現(xiàn)了一詞多義的表示以及基于上下文的雙向特征表示,保證了其在表征上更高的準(zhǔn)確性。
另一方面問(wèn)題來(lái)自學(xué)習(xí)模型,深度學(xué)習(xí)方法中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)常被引入到關(guān)系分類(lèi)的任務(wù)上用于特征學(xué)習(xí),雖然取得了較好的表現(xiàn),但是在面對(duì)長(zhǎng)距離依賴(lài)的問(wèn)題上存在局限,當(dāng)增大上下文窗口大小的同時(shí),模型的性能也會(huì)下降。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)緩解了長(zhǎng)距離依賴(lài)的問(wèn)題,但是隨著間隔增大,RNN存在遺忘問(wèn)題,對(duì)捕獲遠(yuǎn)距離的特征依舊存在局限。因此研究者們提出了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(Long Short Term Memory,LSTM)來(lái)解決這個(gè)問(wèn)題,LSTM采用“門(mén)”讓上游信息有選擇性地傳遞給每個(gè)時(shí)序序列。在自然語(yǔ)言的處理中,句子當(dāng)前位置的特征不僅依賴(lài)于先前位置,還與后續(xù)位置特征也存在著較大的關(guān)系。隨即便有研究者們提出了BiLSTM模型,通過(guò)深度提取文本的上下文特征,增強(qiáng)對(duì)長(zhǎng)文本的處理能力。2015年開(kāi)始BiLSTM-CRF模型逐步在處理序列化標(biāo)注問(wèn)題上得到應(yīng)用,Plank等[15]研究表明了雙向長(zhǎng)短記憶模型在詞性標(biāo)注任務(wù)上具有較好的效果。Yang等[16]對(duì)CRF、BiLSTM及BiLSTM-CRF聯(lián)合模型在中文和英文語(yǔ)料上的詞性標(biāo)注效果進(jìn)行了對(duì)比,結(jié)果證明了BiLSTM-CRF模型在解決序列問(wèn)題上的優(yōu)異性。
基于化學(xué)領(lǐng)域的文本特點(diǎn),本文結(jié)合深度學(xué)習(xí)技術(shù)提出了一種聯(lián)合抽取的解決方法。本文貢獻(xiàn)主要體現(xiàn)在以下兩個(gè)方面:
(1) 提出一種針對(duì)實(shí)體及關(guān)系聯(lián)合抽取的模型,該模型由BERT、BiLSTM和CRF組成,能夠?qū)﹂L(zhǎng)文本進(jìn)行建模。
(2) 提出一套針對(duì)化學(xué)領(lǐng)域?qū)嶓w關(guān)系三元組抽取的標(biāo)注策略,該標(biāo)注策略可以有效地在多實(shí)體共現(xiàn)的文本中抽取存在重疊關(guān)系的三元組信息。
本文的實(shí)體關(guān)系抽取框架如圖2所示。IFT-Joint模型的核心部分由BERT預(yù)訓(xùn)練語(yǔ)言模型和BiLSTM-CRF網(wǎng)絡(luò)構(gòu)成,實(shí)現(xiàn)了一個(gè)抽取實(shí)體及關(guān)系三元組信息的端到端學(xué)習(xí)模型。
圖2 資源實(shí)體關(guān)系抽取框架
為了解決重疊關(guān)系問(wèn)題即實(shí)體之間關(guān)系一對(duì)多的情況,本文使用一種信息融合標(biāo)注策略。在多實(shí)體共現(xiàn)時(shí)根據(jù)各自對(duì)應(yīng)情況進(jìn)行劃分,標(biāo)簽中含有三部分信息:① 標(biāo)簽前綴。實(shí)體邊界信息,用BIN來(lái)表示,“B”表示實(shí)體的起始邊界,“I”表示后繼序列,“N”表示與實(shí)體無(wú)關(guān)的信息。② 標(biāo)簽中綴。實(shí)體類(lèi)型信息,“RES”表示資源實(shí)體,相當(dāng)于傳統(tǒng)三元組中的“實(shí)體1”;“PAR”表示屬性實(shí)體,該實(shí)體在三元組中位于中間位置,相當(dāng)于“關(guān)系”,本文將關(guān)系屬性作為一類(lèi)實(shí)體處理,擺脫同一個(gè)實(shí)體只能出現(xiàn)在一個(gè)關(guān)系中的局限性,從而解決實(shí)體一對(duì)多的問(wèn)題;“VAL”表示量值實(shí)體,該實(shí)體在三元組中位于最后的位置,即“實(shí)體2”。③ 標(biāo)簽后綴。各類(lèi)實(shí)體間對(duì)應(yīng)關(guān)系信息,“O、I、II、III、IV、V”的表征意義為屬性實(shí)體與值實(shí)體的對(duì)應(yīng)描述關(guān)系以及在缺失屬性實(shí)體的情況下值實(shí)體與資源實(shí)體的直接描述關(guān)系。例如,在文本中對(duì)“資源A”的描述中的資源實(shí)體標(biāo)簽用{B-RES-O,I-RES-O},相關(guān)的屬性實(shí)體標(biāo)簽用{B-PAR-I,I-PAR-I,B-PAR-II,I-PAR-II…B-PAR-V,I-PAR-V},對(duì)應(yīng)的值實(shí)體標(biāo)簽為{B-VAL-I,I-VAL-I,B-VAL-II,I-VAL-II…B-VAL-V,I-VAL-V},被省略屬性描述的值實(shí)體用{B-VAL-O,I-VAL-O}。圖3為一組文本標(biāo)注樣例。
鄰苯二甲酸氫鉀是一B-RES-OI-RES-OI-RES-OI-RES-OI-RES-OI-RES-OI-RES-ONN種化學(xué)物質(zhì),分子式NNNNNNB-PAR-II-PAR-II-PAR-I是C8H5KO4,NB-VAL-II-VAL-II-VAL-II-VAL-II-VAL-II-VAL-II-VAL-IN白色結(jié)晶性粉末;在B-VAL-OI-VAL-OI-VAL-OI-VAL-OI-VAL-OI-VAL-OI-VAL-ONN空氣中穩(wěn)定,能溶于NNNB-VAL-OI-VAL-ONB-VAL-OI-VAL-OI-VAL-O水,溶液呈酸性;分I-VAL-ONNNNB-VAL-OI-VAL-ONB-PAR-II子量:204.22I-PAR-III-PAR-IINB-VAL-III-VAL-III-VAL-III-VAL-III-VAL-III-VAL-II。N
從圖3的序列標(biāo)簽中,容易得到如表1所示的三元組信息。
表1 序列標(biāo)注的結(jié)果
其中第1組與第2組包含完整的三元組信息。同時(shí)可以看出屬性實(shí)體被省略的(Not Given,NG)值實(shí)體與資源實(shí)體的直接對(duì)應(yīng)關(guān)系,如第3組-第6組。基于現(xiàn)有知識(shí)庫(kù)所構(gòu)建的屬性量值字典對(duì)表中缺失屬性進(jìn)行補(bǔ)全(本文暫不對(duì)補(bǔ)全操作進(jìn)行論述)。即可抽取得到6組三元組信息,充分發(fā)掘文本內(nèi)容。
文本的文本向量表示即編碼階段,采用BERT預(yù)訓(xùn)練模型進(jìn)行微調(diào)完成。BERT是一種多層雙向Transformer編碼器,在訓(xùn)練過(guò)程中使用了“Masked語(yǔ)言模型”。圖4為BERT的模型結(jié)構(gòu)圖,其中:Ei為每個(gè)詞塊對(duì)應(yīng)的embedding表示;Trm為T(mén)ransformer編碼單元;Ti為輸出的每個(gè)token。
圖4 BERT模型結(jié)構(gòu)
BERT進(jìn)行遮蔽(Mask)預(yù)訓(xùn)練工作,通過(guò)隨機(jī)Mask輸入詞塊中的15%,其中的80%會(huì)直接用[MASK]符號(hào)代替,10%會(huì)替代為其他任意的詞,最后10%會(huì)保留原詞。將其傳入多層的Transformer中訓(xùn)練預(yù)測(cè)這些被Mask的詞塊,得到深度雙向語(yǔ)義表示的向量。
值得注意的是,BERT模型核心部分是一個(gè)多層雙向的Transformer編碼結(jié)構(gòu),不再依賴(lài)RNN或者CNN,只需要注意力機(jī)制就能夠一步到位地獲取全局信息。其中Transformer編碼單元的結(jié)構(gòu)如圖5所示,Add為做殘差連接,將模塊的輸入與輸出直接相加,作為最后的輸出;Normalize為對(duì)某一層神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)做0均值1方差的標(biāo)準(zhǔn)化。
圖5 Transformer編碼單元結(jié)構(gòu)
編碼部分主要是基于自注意力的,計(jì)算式如下:
(1)
式中:Q∈Rn×dk,K∈Rm×dk,V∈Rm×dv。如果忽略激活函數(shù)softmax的話,那么事實(shí)上它就是三個(gè)n×dk、dk×m、m×dv的矩陣相乘,最后的結(jié)果就是一個(gè)n×dv的矩陣。也可以將其視為一個(gè)Attention層,將n×dk的序列Q編碼成了一個(gè)新的n×dv的序列,因此,其實(shí)質(zhì)是一個(gè)重新編碼的過(guò)程。
這樣做的目的是獲得一個(gè)既可以表示詞本身特征又可以反映上下文關(guān)系的表達(dá)。為了增強(qiáng)其表示能力,Transformer使用了“多頭”模式對(duì)其進(jìn)行了優(yōu)化,使模型共同處理來(lái)自不同表達(dá)的子空間在不同位置的信息,如式(2)和式(3)所示。
MultiHead(Q,K,V)=Concat(head1,head2,…,
headi,…,headh)
(2)
(3)
(4)
FFN(x)=max(0,xW1+b1)W2+b2
(5)
式中:α和β是可學(xué)習(xí)的參數(shù);接近于0。W1、W2為全連接權(quán)重矩陣;b1、b2為正則化項(xiàng)。
Transformer是基于完全注意力的方法,與一般CNN和RNN編碼詞與詞之間位置的描述方式都不同,它能夠依據(jù)上下文距離長(zhǎng)短建模捕捉兩個(gè)詞之間的關(guān)系。為了使Transformer感知詞與詞之間的位置關(guān)系,BERT的輸入表征中使用位置編碼給每個(gè)詞加上位置信息。
如圖6所示,它的輸入表征通過(guò)對(duì)相應(yīng)詞塊嵌入、句段嵌入和位置嵌入求和來(lái)構(gòu)造。首先,將每個(gè)位置編號(hào),然后每個(gè)編號(hào)對(duì)應(yīng)一個(gè)向量,通過(guò)結(jié)合位置向量和詞向量,給每個(gè)詞都引入了位置信息,如式(6)和式(7)所示,這樣Attention就可以分辨出不同位置的詞了。
圖6 BERT輸入表征
(6)
PE(pos,2i+1)=cos(pos/10 0002i/dmodel)
(7)
式中:pos是指詞語(yǔ)在序列中的位置;i表示位置向量中每個(gè)值的維度;dmodel是模型的維度,故i BERT預(yù)訓(xùn)練模型真正做到了同時(shí)考慮上下文語(yǔ)義特征,能捕捉更長(zhǎng)距離的依賴(lài),可以為上層網(wǎng)絡(luò)模型的構(gòu)建提供更好的文本表征。 利用CRF層對(duì)BiLSTM層的輸出進(jìn)行進(jìn)一步處理。對(duì)于待預(yù)測(cè)的標(biāo)簽序列y={y1,y2,…,yT}則通過(guò)以下得分函數(shù)求得: (8) (9) 式中:s(x,y)為標(biāo)簽序列y的得分;Ayt-1,yt代表從第t-1個(gè)標(biāo)簽轉(zhuǎn)移到第t個(gè)標(biāo)簽的概率;Pt,yt為第t個(gè)詞映射到第t個(gè)標(biāo)簽的概率;P(y|x)為標(biāo)注為標(biāo)簽序列y的概率,為使其達(dá)到最大,采用對(duì)數(shù)最大似然估計(jì)得到代價(jià)函數(shù),最后使用維特比算法求得最優(yōu)標(biāo)簽序列。 如圖7所示,本文的IFT-Joint引入了BERT,在經(jīng)過(guò)大規(guī)模語(yǔ)料預(yù)訓(xùn)練后再由本文的領(lǐng)域數(shù)據(jù)進(jìn)行微調(diào),可以獲得高質(zhì)量的序列向量表示。原始文本輸入后,經(jīng)過(guò)多層Transformer的Encoder獲得深層的語(yǔ)義表示,再將BERT最后一層的結(jié)果輸入到BiLSTM中完成進(jìn)一步的編碼,最后交由CRF層輸出最優(yōu)標(biāo)簽序列。 圖7 IFT-Joint模型 由于目前化學(xué)領(lǐng)域還未形成統(tǒng)一的語(yǔ)料庫(kù),因此本文從百科以及專(zhuān)利文本中爬取文本語(yǔ)料,再結(jié)合目前已有的知識(shí)庫(kù)形成數(shù)據(jù)集。按照本文所提出的標(biāo)注策略進(jìn)行標(biāo)注,共標(biāo)注2 674句,包含184 080個(gè)字級(jí)別的標(biāo)簽。語(yǔ)料中的文本涉及化學(xué)物質(zhì)、材料、電器元件及其他分別占比為63%、21%、11%和5%,人工標(biāo)注結(jié)果經(jīng)過(guò)了CAI驗(yàn)證。各集合句子數(shù)量及3種命名實(shí)體數(shù)量如表2所示。 表2 訓(xùn)練集、驗(yàn)證集、測(cè)試集中3種命名實(shí)體數(shù)量 實(shí)驗(yàn)使用準(zhǔn)確率P、召回率R以及F1值對(duì)結(jié)果進(jìn)行評(píng)測(cè),其計(jì)算公式如下: (10) (11) (12) 式中:Nr為預(yù)測(cè)正確的實(shí)體總數(shù);Na為預(yù)測(cè)出的實(shí)體總數(shù);M為測(cè)試集合中的實(shí)體總數(shù)。 本文實(shí)驗(yàn)均采用統(tǒng)一的運(yùn)行環(huán)境進(jìn)行,如表3所示。 表3 環(huán)境參數(shù) BERT隱含單元數(shù)768,隱含層數(shù)12,初始化范圍0.1,處理序列最大長(zhǎng)度128,學(xué)習(xí)率為5e-5,訓(xùn)練批處理大小為32。本文下載使用Google提供的中文預(yù)訓(xùn)練模型“BERT-base Chinese”進(jìn)行Fine-tuning。BiLSTM_CRF部分隱含單元數(shù)128。 實(shí)驗(yàn)選取3.1節(jié)中所構(gòu)建的語(yǔ)料庫(kù)的訓(xùn)練樣本作為本文模型的訓(xùn)練集進(jìn)行訓(xùn)練,采用測(cè)試樣本進(jìn)行模型訓(xùn)練后的測(cè)試評(píng)估。參數(shù)驗(yàn)證結(jié)果如圖8所示。 (a) (b)圖8 不同參數(shù)值對(duì)F1值影響 在訓(xùn)練時(shí)為了防止出現(xiàn)過(guò)擬合引入了dropout策略。IFT-Joint模型F1值隨著丟碼率的變化如圖8(a)所示,當(dāng)丟碼率設(shè)置為0.5時(shí)模型總體效果最好,本文在接下來(lái)的對(duì)比實(shí)驗(yàn)中將模型的丟碼率設(shè)置為0.5。IFT-Joint模型在訓(xùn)練到3個(gè)epoch時(shí)便可以達(dá)到穩(wěn)定,其F1值可以到達(dá)76.55%,增加epoch后訓(xùn)練時(shí)長(zhǎng)會(huì)相應(yīng)增加,其F1值在76.50%左右小幅波動(dòng),每增加一個(gè)epoch,訓(xùn)練時(shí)長(zhǎng)增加1 590 s左右,因此訓(xùn)練成本會(huì)增加,本文在考慮訓(xùn)練效率最佳的情況下選取epoch為3來(lái)完成與其他模型的對(duì)比實(shí)驗(yàn)。 為體現(xiàn)本文方法在準(zhǔn)確度和穩(wěn)定性上的優(yōu)勢(shì),將IFT-Joint與CRF、RNN、BiLSTM和BiLSTM-CRF四種常用于解決序列問(wèn)題的方法在同一語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn)對(duì)比。為統(tǒng)一比較標(biāo)準(zhǔn),所有需要數(shù)據(jù)標(biāo)注的方法均使用本文3.1節(jié)中提出的策略進(jìn)行標(biāo)注,所有網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)均取128。另外,除本文模型外其他涉及分詞操作的方法均采用jieba分詞工具包做分詞處理,詞向量訓(xùn)練均采用Word2vec,詞向量訓(xùn)練部分選擇CBOW模型,詞向量的維度大小采用200。 本文報(bào)告了不同方法的實(shí)驗(yàn)結(jié)果,由于本文所使用的新標(biāo)注策略中標(biāo)簽分為三部分,標(biāo)簽前綴和中綴可以反映實(shí)體序列的預(yù)測(cè)結(jié)果,而后綴可以反映關(guān)系的對(duì)應(yīng)情況,故而實(shí)驗(yàn)從實(shí)體識(shí)別結(jié)果和三元組聯(lián)合抽取結(jié)果進(jìn)行統(tǒng)計(jì)分析。 (1) 表4通過(guò)對(duì)測(cè)試集上的標(biāo)簽序列的前綴和中綴進(jìn)行統(tǒng)計(jì),列出了三類(lèi)實(shí)體識(shí)別結(jié)果。如圖9所示,表4中的結(jié)果來(lái)自標(biāo)簽中對(duì)①部分的統(tǒng)計(jì)分析??梢钥闯觯蒙疃葘W(xué)習(xí)的方法識(shí)別效果要強(qiáng)于僅用CRF,CRF特征表示不充分,并且其結(jié)果受人工制定特征模板的影響嚴(yán)重,神經(jīng)網(wǎng)絡(luò)的方法總體上有效地提取了文本特征。BiLSTM方法效果優(yōu)于RNN,表明在本文所研究的長(zhǎng)序列問(wèn)題中RNN無(wú)法很好地解決長(zhǎng)距離依賴(lài)的問(wèn)題,而LSTM單元對(duì)RNN的改進(jìn)有效緩解了這個(gè)問(wèn)題,優(yōu)化了長(zhǎng)期記憶的功能。將CRF加入到BiLSTM中可以明顯提高其序列的準(zhǔn)確率,這也說(shuō)明了CRF在序列標(biāo)注問(wèn)題上可以有效考慮全局最優(yōu)的解。當(dāng)引入BERT后,模型整體效果有了較大提升,說(shuō)明在句子的表征能力上,BERT預(yù)訓(xùn)練模型可以提取更深層更有效的文本特征,較之Word2vec的embedding對(duì)網(wǎng)絡(luò)模型參數(shù)的優(yōu)化更有效。 表4 實(shí)體識(shí)別結(jié)果 % 圖9 標(biāo)簽結(jié)果分析 (2) 表5中的結(jié)果來(lái)自圖9標(biāo)簽②部分,這是對(duì)標(biāo)簽完整信息的統(tǒng)計(jì),即三類(lèi)實(shí)體最終構(gòu)成三元組(R,P/NG,V)結(jié)果的情況,其中“P/NG”為本文2.2節(jié)中提到的情況,即存在屬性信息的三元組或者被省略屬性信息的三元組,兩者均作為正確結(jié)果。通過(guò)與表4中結(jié)果對(duì)比分析發(fā)現(xiàn),不論哪類(lèi)模型均存在各類(lèi)實(shí)體的準(zhǔn)確率以及召回率均高于最終所構(gòu)成的三元組情況。究其原因,從標(biāo)簽后綴中獲得關(guān)系結(jié)果,標(biāo)簽中包含了兩大類(lèi)直接對(duì)應(yīng)關(guān)系,即一種是“資源實(shí)體”與被省略屬性的“值實(shí)體”,另一種是“屬性實(shí)體”與對(duì)應(yīng)的“值實(shí)體”,若對(duì)應(yīng)關(guān)系涉及的兩類(lèi)實(shí)體有一個(gè)未被正確識(shí)別或者未識(shí)別出都會(huì)造成一組三元組信息的錯(cuò)誤或者流失。如表6所示,“鄰苯二甲酸氫鉀是一種化學(xué)物質(zhì),分子式是C8H5KO4,…”當(dāng)資源實(shí)體“鄰苯二甲酸氫鉀”、屬性實(shí)體“分子式”和值實(shí)體“C8H5KO4”的實(shí)體部分均識(shí)別正確,討論其后綴的對(duì)應(yīng)關(guān)系才有意義,否則無(wú)效。本文的IFT-Joint模型在標(biāo)簽預(yù)測(cè)的整體準(zhǔn)確率上較高,因此在這樣的信息損失下依舊保持76%以上的F1值。 表5 聯(lián)合抽取結(jié)果 % 表6 IFT-Joint模型實(shí)體識(shí)別結(jié)果 續(xù)表6 (3) 本文還對(duì)模型的穩(wěn)定性進(jìn)行了探究,由圖10可知,IFT-Joint方法在訓(xùn)練數(shù)據(jù)集上取樣40%就基本達(dá)到了穩(wěn)定,而B(niǎo)iLSTM-CRF作為其他四種對(duì)比方法中效果最好的序列模型需要在訓(xùn)練集為70%以后才能趨于穩(wěn)定。由此可知,BERT在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)行微調(diào)使得訓(xùn)練模型的效率更高,IFT-Joint模型中引入BERT可以更為有效地提取文本特征,體現(xiàn)了本文方法在準(zhǔn)確度和穩(wěn)定性上的優(yōu)勢(shì)。 圖10 模型穩(wěn)定性實(shí)驗(yàn) 本文提出一種基于融合信息標(biāo)注的聯(lián)合抽取方法,首先在序列標(biāo)注的基礎(chǔ)上提出一套適用于化學(xué)領(lǐng)域資源實(shí)體及關(guān)系抽取的標(biāo)注方法,有效緩解了重疊關(guān)系的問(wèn)題。其次,BERT的引入提升了模型在編碼階段對(duì)文本特征的挖掘能力,也避免了構(gòu)建復(fù)雜的特征工程,經(jīng)實(shí)驗(yàn)驗(yàn)證,IFT-Joint模型的召回率在75%以上,優(yōu)于文中所提的其他模型。通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析發(fā)現(xiàn),該模型還具有識(shí)別訓(xùn)練集中未出現(xiàn)信息的能力。本文方法已經(jīng)為構(gòu)建領(lǐng)域知識(shí)庫(kù)提供了大量的領(lǐng)域基礎(chǔ)數(shù)據(jù)。在接下來(lái)的工作中,將在繼續(xù)增加語(yǔ)料的基礎(chǔ)上對(duì)方法進(jìn)行持續(xù)優(yōu)化,考慮引入主動(dòng)學(xué)習(xí)來(lái)選擇最有價(jià)值的未標(biāo)注語(yǔ)料進(jìn)行標(biāo)注,提升模型的泛化能力。2.4 BiLSTM_CRF模型
2.5 IFT-Joint模型
3 實(shí)驗(yàn)與結(jié)果分析
3.1 數(shù)據(jù)集的準(zhǔn)備與分析
3.2 評(píng)價(jià)指標(biāo)
3.3 參數(shù)設(shè)置
3.4 參數(shù)分析
3.5 對(duì)比分析
4 結(jié) 語(yǔ)