陳佳灃 滕沖
摘 要:針對(duì)現(xiàn)有的基于遠(yuǎn)程監(jiān)督的實(shí)體和關(guān)系抽取方法存在著標(biāo)簽噪聲問(wèn)題,提出了一種基于強(qiáng)化學(xué)習(xí)的實(shí)體關(guān)系聯(lián)合抽取方法。該模型有兩個(gè)模塊:句子選擇器模塊和實(shí)體關(guān)系聯(lián)合抽取模塊。首先,句子選擇器模塊選擇沒有標(biāo)簽噪聲的高質(zhì)量句子,將所選句子輸入到實(shí)體關(guān)系聯(lián)合抽取模型;然后,實(shí)體關(guān)系聯(lián)合抽取模塊采用序列標(biāo)注方法對(duì)輸入的句子進(jìn)行預(yù)測(cè),并向句子選擇器模塊提供反饋,指導(dǎo)句子選擇器模塊挑選高質(zhì)量的句子;最后,句子選擇器模塊和實(shí)體關(guān)系聯(lián)合抽取模塊同時(shí)訓(xùn)練,將句子選擇與序列標(biāo)注一起優(yōu)化。實(shí)驗(yàn)結(jié)果表明,該模型在實(shí)體關(guān)系聯(lián)合抽取中的F1值為47.3%,與CoType為代表的聯(lián)合抽取模型相比,所提模型的F1值提升了1%;與LINE為代表的串行模型相比,所提模型的F1值提升了14%。結(jié)果表明強(qiáng)化學(xué)習(xí)結(jié)合實(shí)體關(guān)系聯(lián)合抽取模型能夠有效地提高序列標(biāo)注模型的F1值,其中句子選擇器能有效地處理數(shù)據(jù)的噪聲。
Abstract: Existing entity and relation extraction methods that rely on distant supervision suffer from noisy labeling problem. A model for joint entity and relation extraction from noisy data based on reinforcement learning was proposed to reduce the impact of noise data. There were two modules in the model: an sentence selector module and a sequence labeling module. Firstly, high-quality sentences without labeling noise were selected by instance selector module and the selected sentences were input into sequence labeling module. Secondly, predictions were made by sequence labeling module and the rewards were provided to sentence selector module to help the module select high-quality sentences. Finally, two modules were trained jointly to optimize instance selection and sequence labeling processes. The experimental results show that the F1 value of the proposed model is 47.3% in the joint entity and relation extraction, which is 1% higher than those of joint extraction models represented by CoType and 14% higher than those of serial models represented by LINE(Large-scale Information Network Embedding). The results show that the joint entity and relation extraction model in combination with reinforcement learning can effectively improve F1 value of sequential labeling model, in which the sentence selector can effectively deal with the noise of data.
Key words: reinforcement learning; joint extraction; sequence tagging; named entity recognition; relation classification
0 引言
實(shí)體和關(guān)系的聯(lián)合抽取是從非結(jié)構(gòu)化文本中同時(shí)檢測(cè)實(shí)體引用和識(shí)別它們的語(yǔ)義關(guān)系,如圖1所示。不同于Banko等[1]從給定句子中抽取關(guān)系詞的開放信息抽取,在本任務(wù)中,關(guān)系詞是從預(yù)定義的關(guān)系集中抽取的,該關(guān)系集可能不會(huì)出現(xiàn)在給定句子中。它是知識(shí)抽取和知識(shí)庫(kù)自動(dòng)構(gòu)建中的一個(gè)重要途徑。
傳統(tǒng)方法以串行的方式處理此任務(wù),即Nadeau等[2]先抽取實(shí)體,然后Rink等[3]識(shí)別它們的關(guān)系。這個(gè)串行的框架使任務(wù)易于處理,并且每個(gè)組件可以更靈活;但是它忽略了這兩個(gè)子任務(wù)之間的相關(guān)性,并且每個(gè)子任務(wù)都是一個(gè)獨(dú)立的模型。Li等[4]提出實(shí)體識(shí)別的結(jié)果可能會(huì)影響關(guān)系分類的效果,并導(dǎo)致錯(cuò)誤的傳遞。
與傳統(tǒng)方法不同,聯(lián)合學(xué)習(xí)框架是使用單個(gè)模型將實(shí)體識(shí)別和關(guān)系抽取結(jié)合在一起。它能有效地整合實(shí)體信息和關(guān)系信息,在這項(xiàng)任務(wù)中取得了較好的效果。大多數(shù)現(xiàn)有的聯(lián)合方法是基于特征的結(jié)構(gòu)化系統(tǒng)[4]。它們需要復(fù)雜的特性工程,并且嚴(yán)重依賴于其他自然語(yǔ)言處理(Natural Language Processing, NLP)工具包,這也可能導(dǎo)致錯(cuò)誤傳播。為了減少特征抽取中的手工工作,Miwa等[5]提出了一種基于神經(jīng)網(wǎng)絡(luò)的端到端實(shí)體和關(guān)系聯(lián)合抽取方法。雖然聯(lián)合模型可以在單個(gè)模型中讓實(shí)體識(shí)別模塊與關(guān)系分類模塊共享參數(shù),但它們也是分別抽取實(shí)體和關(guān)系,并生成冗余信息。例如,圖1中的句子包含三個(gè)實(shí)體:“United States”“Trump”和“Apple Inc”,但只有“United States”和“Trump”才有固定的關(guān)系“Country-President”。在這句話中,實(shí)體“Apple Inc”與其他實(shí)體沒有明顯的關(guān)系,因此,從這句話中抽取的結(jié)果是{United States,Country-President,Trump},它在這里稱為三元組。Zheng等[6]提出了一個(gè)標(biāo)簽方案,將聯(lián)合抽取任務(wù)轉(zhuǎn)換為標(biāo)簽問(wèn)題。通過(guò)建立含有關(guān)系信息的標(biāo)簽,使用序列標(biāo)注模型直接抽取實(shí)體及其關(guān)系,而不單獨(dú)識(shí)別實(shí)體和關(guān)系。
大多數(shù)現(xiàn)有的工作都需要高質(zhì)量的標(biāo)注數(shù)據(jù)。為了獲得大規(guī)模的訓(xùn)練數(shù)據(jù),Mintz等[7]提出了遠(yuǎn)程監(jiān)督的方法,假設(shè)兩個(gè)實(shí)體在給定的知識(shí)庫(kù)中有關(guān)系,則包含這兩個(gè)實(shí)體的所有句子都會(huì)提到這種關(guān)系。遠(yuǎn)程監(jiān)督雖然能有效地實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)標(biāo)注,但存在著標(biāo)簽噪聲的問(wèn)題。以三元組{Barack Obama,BornIn,United States}為例,由遠(yuǎn)程監(jiān)督標(biāo)注的數(shù)據(jù)“Barack Obamba is the 44th president of the United State”就是一個(gè)噪聲數(shù)據(jù),遠(yuǎn)程監(jiān)督認(rèn)為這個(gè)句子中Barack Obama與United States的關(guān)系是“BornIn”,即使這句話根本沒有描述“BornIn”關(guān)系。
因此,以往的基于遠(yuǎn)程監(jiān)督的數(shù)據(jù)集上的實(shí)體關(guān)系聯(lián)合抽取的研究存在著標(biāo)簽噪聲的問(wèn)題。噪聲語(yǔ)句產(chǎn)生錯(cuò)誤的標(biāo)簽,會(huì)對(duì)聯(lián)合抽取模型產(chǎn)生不良影響。Feng等[8]提出了一種基于噪聲數(shù)據(jù)的句子級(jí)關(guān)系分類模型,其模型包括兩個(gè)模塊:句子選擇器和關(guān)系分類器。句子選擇器通過(guò)強(qiáng)化學(xué)習(xí)選擇高質(zhì)量的句子,將所選句子輸入到關(guān)系分類器;關(guān)系分類器進(jìn)行句子預(yù)測(cè),并為句子選擇器提供反饋。他們的模型能夠有效地處理數(shù)據(jù)的噪聲,在句子層次上獲得更好的關(guān)系分類效果。
本文提出了一種由句子選擇器和序列標(biāo)注模型兩個(gè)模塊組成的序列標(biāo)注模型。通過(guò)使用句子選擇器,可以從一個(gè)句子包中選擇高質(zhì)量的句子,然后通過(guò)序列標(biāo)注模型預(yù)測(cè)句子的標(biāo)簽。目前主要的挑戰(zhàn)是當(dāng)句子選擇器不清楚哪些句子的標(biāo)簽錯(cuò)誤時(shí),如何有效地聯(lián)合訓(xùn)練這兩個(gè)模塊。
本文將句子選擇任務(wù)當(dāng)作強(qiáng)化學(xué)習(xí)問(wèn)題來(lái)解決[9]。直觀地說(shuō),雖然模型沒有對(duì)句子選擇器進(jìn)行顯式監(jiān)督,但是可以把所選語(yǔ)句作為一個(gè)整體進(jìn)行評(píng)估,因此,句子選擇過(guò)程具有以下兩個(gè)性質(zhì):一是試錯(cuò)搜索,即句子選擇器試圖從每個(gè)實(shí)體的句子集合中選擇一些句子,并獲得對(duì)所選句子質(zhì)量的反饋;二是只有當(dāng)句子選擇器完成了句子選擇過(guò)程,才能獲得從序列標(biāo)注模塊的反饋,這個(gè)反饋通常是延遲的。這兩個(gè)特性讓本文使用強(qiáng)化學(xué)習(xí)技術(shù)。
本文工作中的貢獻(xiàn)包括:
1)提出了一種新的序列標(biāo)注模型,該模型由句子選擇器和序列標(biāo)注模型組成。這個(gè)模型能夠在相對(duì)沒有噪聲的數(shù)據(jù)中進(jìn)行實(shí)體和關(guān)系的聯(lián)合抽取。
2)將句子選擇定義為一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題,使得模型能夠在沒有明確的句子級(jí)標(biāo)注情況下執(zhí)行句子選擇,通過(guò)序列標(biāo)注模型較弱的監(jiān)督信號(hào)提供反饋。
3)根據(jù)實(shí)體將數(shù)據(jù)分成不同的集合,句子選擇器選擇實(shí)體集合中的高質(zhì)量句子,然后所有的集合中選擇的數(shù)據(jù)作為干凈的數(shù)據(jù)訓(xùn)練序列標(biāo)注模型。
1 相關(guān)工作
實(shí)體識(shí)別和關(guān)系分類是構(gòu)建知識(shí)庫(kù)的重要步驟,對(duì)許多NLP任務(wù)都有幫助。兩種主要框架被廣泛應(yīng)用于解決實(shí)體識(shí)別及其關(guān)系抽取的問(wèn)題:一種是流水線方法,另一種是聯(lián)合學(xué)習(xí)方法。
流水線方法將此任務(wù)視為兩個(gè)獨(dú)立的任務(wù),即命名實(shí)體識(shí)別(Named Entity Recognition, NER)和關(guān)系分類(Relation Classification, RC)。經(jīng)典的NER模型是線性統(tǒng)計(jì)模型,如隱馬爾可夫模型(Hidden Markov Model, HMM)和條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)[10],其中CRF模型結(jié)合了最大熵模型和隱馬爾可夫模型的優(yōu)點(diǎn)[11]。向曉雯等[12]、佘俊等[13]、張金龍等[14]采用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法研究命名實(shí)體識(shí)別任務(wù),取得了較好的結(jié)果。近幾年,Chiu等[15]、Huang等[16]、Lample等[17]幾種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)已成功應(yīng)用于NER,將命名實(shí)體識(shí)別任務(wù)處理成序列標(biāo)注任務(wù)?,F(xiàn)有的關(guān)系分類方法也可分為手工抽取特征的方法[3]和基于神經(jīng)網(wǎng)絡(luò)的方法。
聯(lián)合模型使用單個(gè)模型抽取實(shí)體和關(guān)系,而大多數(shù)聯(lián)合方法是基于特征的結(jié)構(gòu)化系統(tǒng),例如Ren等[18]、Singh等[19]、Miwa等[5]、Li等[4]提出的方法。最近,Miwa等[5]使用基于長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)的模型抽取實(shí)體和關(guān)系,這可以減少手工工作。Zheng等[6]提出了一個(gè)標(biāo)簽方案,可以將聯(lián)合抽取任務(wù)轉(zhuǎn)換為序列標(biāo)注問(wèn)題。基于這種標(biāo)簽方案,研究不同的端到端模型,可以直接抽取實(shí)體及其關(guān)系,而不單獨(dú)識(shí)別實(shí)體和關(guān)系。本文所提出的方法是基于一種特殊的標(biāo)簽方式,因此可以很容易地使用端到端模型來(lái)抽取結(jié)果,而不需要運(yùn)用NER和RC分別進(jìn)行。
一般來(lái)說(shuō),訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型需要大量的標(biāo)簽數(shù)據(jù),人工標(biāo)注數(shù)據(jù)是非常耗時(shí)的。為了解決這個(gè)問(wèn)題,Mintz等[7]提出了遠(yuǎn)程監(jiān)督方法,該方法假設(shè)所有關(guān)于三元組中的兩個(gè)實(shí)體的句子都描述了三元組中的關(guān)系。盡管遠(yuǎn)程監(jiān)督取得了成功,但這種方法存在著標(biāo)簽噪聲問(wèn)題。為了解決這一問(wèn)題,Lin等[20]、Ji等[21]提出了多個(gè)句子級(jí)別的注意力機(jī)制,可以降低噪聲句子的權(quán)重。然而,這種多句子學(xué)習(xí)模型并不能直接過(guò)濾掉噪聲數(shù)據(jù)的影響。Feng等[8]提出了一個(gè)基于噪聲數(shù)據(jù)的句子級(jí)關(guān)系分類模型,首先在強(qiáng)化學(xué)習(xí)框架下選擇正確的句子[22],然后預(yù)測(cè)過(guò)濾后數(shù)據(jù)中每個(gè)句子的關(guān)系。本文提出的方法首先在強(qiáng)化學(xué)習(xí)的框架下選擇正確的句子,然后從干凈的數(shù)據(jù)中預(yù)測(cè)每個(gè)句子的標(biāo)簽序列。
2 方法介紹
本文提出一個(gè)句子選擇器和序列標(biāo)注的聯(lián)合抽取模型,雙向長(zhǎng)短期記憶條件隨機(jī)場(chǎng)(Bidirectional Long Short-Term Memory Conditional Random Field, Bi-LSTM-CRF)模型來(lái)聯(lián)合抽取實(shí)體及其關(guān)系,句子選擇器來(lái)選擇高質(zhì)量的句子。在本章中,首先介紹如何將抽取問(wèn)題改為標(biāo)簽問(wèn)題,然后介紹用于選擇高質(zhì)量句子的強(qiáng)化學(xué)習(xí)模型。
2.1 標(biāo)簽?zāi)P?/p>
圖2是對(duì)訓(xùn)練集標(biāo)注的示例。句子中的每個(gè)詞都被打上一個(gè)有助于提取結(jié)果的標(biāo)簽。標(biāo)簽“O”表示“其他”標(biāo)簽,這意味著相應(yīng)的單詞獨(dú)立于提取的結(jié)果。除“O”外,其他標(biāo)簽還包括三個(gè)部分:實(shí)體中的單詞位置、關(guān)系類型和關(guān)系角色。本文使用實(shí)體開始(Begin,B)、實(shí)體內(nèi)部(Inner,I)、實(shí)體結(jié)尾(End,E)、單個(gè)實(shí)體(Single,S)等符號(hào)來(lái)表示實(shí)體中單詞的位置信息。關(guān)系類型信息從一組預(yù)定義的關(guān)系中獲取,關(guān)系角色信息由數(shù)字“1”和“2”表示。提取的結(jié)果由三元組表示:(Entity1;RelationType;Entity2)?!?”是指單詞屬于三元組中的第一個(gè)實(shí)體,“2”是指關(guān)系類型后面的第二個(gè)實(shí)體,因此,標(biāo)簽總數(shù)為N=2*4*r+1,其中r是預(yù)定義關(guān)系集的大小。
輸入語(yǔ)句標(biāo)簽以及結(jié)果如圖2所示。輸入語(yǔ)句包含兩個(gè)三元組:{United States,Country-President,Trump}和{Apple Inc,Company-Founder,Steven Paul Jobs},其中“Country-President”和“Company-Founder”是預(yù)定義的關(guān)系類型。單詞“United”“States”“Trump”“Apple”“Inc”“Steven”“Paul”和“Jobs”都與最終提取的結(jié)果相關(guān),因此,它們是根據(jù)本文的特殊標(biāo)簽進(jìn)行標(biāo)注的。例如,“United”這個(gè)詞是實(shí)體“United States”的第一個(gè)詞,與“Country-President”的關(guān)系有關(guān),所以它的標(biāo)簽是“B-CP-1”。另一個(gè)與“United States”相對(duì)應(yīng)的實(shí)體“Trump”被標(biāo)簽為“S-CP-2”。另外,其他與最終結(jié)果無(wú)關(guān)的詞被標(biāo)簽為“O”。
2.2 從標(biāo)簽獲取結(jié)果
從圖2的標(biāo)簽序列中,可以知道“Trump”和“United States”共享相同的關(guān)系類型“Country-President”;“Apple Inc”和“Steven Paul Jobs”共享相同的關(guān)系類型“Company-Founder”。最后將具有相同關(guān)系類型的實(shí)體組合成一個(gè)三元組以得到最終結(jié)果,因此,“Trump”和“United States”可以合并成三元組,關(guān)系類型為“Country-President”。因?yàn)椤癟rump”的關(guān)系角色是“2”,“United States”是“1”,最終結(jié)果是{United States,Country-President,Trump}。同樣可以得到三元組{Apple Inc,Company-Founder,Steven Paul Jobs}。
此外,如果一個(gè)句子包含兩個(gè)或兩個(gè)以上具有相同關(guān)系類型的三元組,模型會(huì)根據(jù)就近的原則將每?jī)蓚€(gè)實(shí)體組合成一個(gè)三元組。例如,如果圖2中的關(guān)系類型“Country-President”是“Company-Founder”,那么在給定的句子中會(huì)有四個(gè)具有相同關(guān)系類型的實(shí)體。“United States”最接近實(shí)體“Trump”,“Apple Inc”最接近“Steven Paul Jobs”,因此結(jié)果將是{United States,Company-Founder,Trump}、{Apple Inc,Company-Founder,Steven Paul Jobs}。
2.3 詞向量
詞向量是神經(jīng)網(wǎng)絡(luò)的輸入。對(duì)于詞嵌入的方法,本文選擇CBOW(Continuous Bag-Of-Words model)而不是Skip-Gram。本文的選擇是基于這樣一個(gè)考慮:CBOW是根據(jù)上下文預(yù)測(cè)一個(gè)詞,或者通過(guò)查看上下文最大化目標(biāo)詞的概率進(jìn)行預(yù)測(cè),而Skip-Gram的輸入是當(dāng)前詞的詞向量,而輸出是周圍詞的詞向量。也就是說(shuō),通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)周圍詞,即用于預(yù)測(cè)上下文。Skip-Gram需要更多的數(shù)據(jù)來(lái)訓(xùn)練,這樣它就可以學(xué)會(huì)理解很多單詞,甚至是罕見的單詞。對(duì)于NER任務(wù),是根據(jù)上下文預(yù)測(cè)詞的標(biāo)簽,而不是預(yù)測(cè)上下文,因此,本文訓(xùn)練CBOW嵌入模型以獲得雙向長(zhǎng)短期記憶(Bidirectional Long Short-Term Memory, Bi-LSTM)編碼器的輸入表示。
2.4 Bi-LSTM-CRF模型
2.4.1 CRF
條件隨機(jī)場(chǎng)結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn),是一種無(wú)向圖模型,近年來(lái)在分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)中取得了很好的效果。條件隨機(jī)場(chǎng)是一個(gè)典型的判別式模型,其聯(lián)合概率可以寫成若干勢(shì)函數(shù)聯(lián)乘的形式,其中最常用的是線性鏈條件隨機(jī)場(chǎng)。若讓x=(x1,x2,…,xn)表示被觀察的輸入數(shù)據(jù)序列,y=(y1,y2,…,yn)表示一個(gè)狀態(tài)序列,在給定一個(gè)輸入序列的情況下,序列標(biāo)注通常公式化為:
其中:tj(yi-1,yi,x,i)是一個(gè)轉(zhuǎn)移函數(shù),代表在標(biāo)注序列中,第i-1個(gè)和第i個(gè)的標(biāo)注與整個(gè)觀測(cè)序列之間的特征關(guān)系;sk(yi,x,i)是一個(gè)狀態(tài)函數(shù),代表標(biāo)注序列中第i個(gè)標(biāo)注與此時(shí)相對(duì)應(yīng)的觀測(cè)序列中的值的特征;λj和μk的值均是從訓(xùn)練數(shù)據(jù)中進(jìn)行估計(jì),較大的負(fù)值代表其對(duì)應(yīng)的特征模板可信度低,而較大的非負(fù)值代表其對(duì)應(yīng)的特征事件可信度高,其中Z(x)代表歸一化因子,其公式如下:
最終的最優(yōu)化輸出序列計(jì)算公式如下:
以往的研究表明,特征選擇在傳統(tǒng)的概念抽取中起著重要的作用。NER的性能在很大程度上取決于不同意見的領(lǐng)域知識(shí)的構(gòu)建和研究。
2.4.2 LSTM與Bi-LSTM
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)模型是一種在序列標(biāo)注任務(wù)上表現(xiàn)優(yōu)異的神經(jīng)網(wǎng)絡(luò)模型,因?yàn)樾蛄袠?biāo)注任務(wù)中,無(wú)論是序列內(nèi)部還是序列的邊界對(duì)上下文信息都是敏感的,而循環(huán)神經(jīng)網(wǎng)絡(luò)RNN與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,恰好有著時(shí)間序列這一特性,它更能充分地利用前面序列的信息,因此它更加適用于序列標(biāo)注的任務(wù)。長(zhǎng)短期記憶(Long Short Term Memory, LSTM)網(wǎng)絡(luò)模型采用LSTM單元來(lái)替代原先循環(huán)神經(jīng)網(wǎng)絡(luò)RNN模型中的隱藏層,該模型能夠有效處理較長(zhǎng)距離的依賴關(guān)系以及解決梯度消失問(wèn)題。
LSTM區(qū)別于RNN的地方,主要就在于它在算法中加入了一個(gè)判斷信息有用與否的“處理器”,這個(gè)處理器作用的結(jié)構(gòu)被稱為細(xì)胞(cell)。一個(gè)cell當(dāng)中被放置了三扇門,分別叫作輸入門(i)、遺忘門(f)和輸出門(o)。一個(gè)信息進(jìn)入LSTM的網(wǎng)絡(luò)當(dāng)中,可以根據(jù)規(guī)則來(lái)判斷是否有用。只有符合算法認(rèn)證的信息才會(huì)留下,不符的信息則通過(guò)遺忘門被遺忘。一個(gè)細(xì)胞的結(jié)構(gòu)如圖3所示。
i、 f、o分別表示輸入門、遺忘門和輸出門。W和b表示權(quán)重矩陣和偏移向量。遺忘門是決定需要從細(xì)胞狀態(tài)中丟棄什么信息,它會(huì)讀取ht-1和xt,輸出一個(gè)在0到1之間的數(shù)值。1表示“完全保留”,0表示“完全舍棄”。遺忘門的計(jì)算公式如下:
f=σ(Wf[ht-1,xt]+bf)(4)此處是否遺漏了公式,后面的參數(shù)說(shuō)明中沒有看到Ct、sig等函數(shù)?;貜?fù):沒有遺漏公式,其中包括了對(duì)圖三的說(shuō)明,Ct,Sig符號(hào)可以在圖三中看到
其中:ht-1表示的是上一個(gè)LSTM單元的輸出,xt表示的是當(dāng)前細(xì)胞的輸入,Ct-1是前一個(gè)單元的記憶,ht是當(dāng)前網(wǎng)絡(luò)的輸出,Ct是當(dāng)前單元的記憶。Sig表示sigmoid函數(shù),Mul表示向量乘法,Con表示向量加法,tanh為激活函數(shù)。
輸入門決定讓多少新的信息加入到cell狀態(tài)中來(lái)。實(shí)現(xiàn)這個(gè)需要包括兩個(gè)步驟:首先,一個(gè)叫作“輸入門”的sigmoid層決定哪些信息需要更新;一個(gè)tanh層生成一個(gè)向量,也就是備選的用來(lái)更新的內(nèi)容,Ct。在下一步,把這兩部分聯(lián)合起來(lái),對(duì)cell的狀態(tài)進(jìn)行一個(gè)更新。
接下來(lái)是更新舊細(xì)胞狀態(tài),Ct-1更新為Ct。需要把舊狀態(tài)與ft相乘,丟棄確定需要丟棄的信息。得到新的候選值后,根據(jù)決定更新每個(gè)狀態(tài)的程度進(jìn)行變化。公式如下:
輸出門需要確定輸出什么值。這個(gè)輸出將會(huì)基于當(dāng)前的細(xì)胞狀態(tài),也是一個(gè)過(guò)濾后的版本。首先,模型運(yùn)行一個(gè)sigmoid層來(lái)確定細(xì)胞狀態(tài)的哪個(gè)部分將輸出;接著,模型把細(xì)胞狀態(tài)通過(guò)tanh進(jìn)行處理(得到一個(gè)在-1到1之間的值)并將它和sigmoid層的輸出相乘,最終僅僅會(huì)輸出確定輸出的那部分。公式如下:
雙向長(zhǎng)短期記憶(Bi-LSTM)網(wǎng)絡(luò)模型是由前向的LSTM與后向的LSTM結(jié)合而成,Bi-LSTM的計(jì)算流程與單向長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM模型在本質(zhì)上是一樣的,也是利用LSTM的公式計(jì)算每個(gè)LSTM單元的細(xì)胞狀態(tài)與隱藏層輸出,不同的是,Bi-LSTM首先針對(duì)逆時(shí)序的隱藏層增加了和正時(shí)序的隱藏層處理相對(duì)應(yīng)的權(quán)重參數(shù)矩陣與偏置向量,正時(shí)序和逆時(shí)序?qū)⑼ㄟ^(guò)各自的權(quán)重參數(shù)矩陣與偏置向量得到隱藏層的輸出向量ht,再對(duì)這兩個(gè)輸出向量進(jìn)行合并操作,對(duì)于不同的應(yīng)用,它們的合并方式會(huì)略有差異,本文將采用連接的方式將兩個(gè)輸出向量進(jìn)行合并。
2.4.3 Bi-LSTM-CRF
上面介紹了在序列標(biāo)注問(wèn)題上效果比較優(yōu)異的傳統(tǒng)統(tǒng)計(jì)模型的代表?xiàng)l件隨機(jī)場(chǎng)(CRF)模型和被廣泛應(yīng)用于序列標(biāo)注任務(wù)中的Bi-LSTM網(wǎng)絡(luò)模型。其中,CRF模型的優(yōu)點(diǎn)在于能夠通過(guò)特征模板去掃描整個(gè)輸入文本,從而對(duì)整個(gè)文本局部特征的線性加權(quán)組合有著更多的考量,最關(guān)鍵的是,序列標(biāo)注中的X和Y代表的都是整個(gè)輸入文本和標(biāo)注序列,并非獨(dú)立的詞語(yǔ)或標(biāo)注,所以CRF模型優(yōu)化的目標(biāo)是出現(xiàn)概率最高的一個(gè)序列,而不是找出序列的每個(gè)位置出現(xiàn)最高概率的標(biāo)注;而它的缺點(diǎn)在于,首先特征模板的選取需要對(duì)訓(xùn)練語(yǔ)料有一定的先驗(yàn)知識(shí),需要從語(yǔ)料中相關(guān)信息的統(tǒng)計(jì)數(shù)據(jù)中分析出對(duì)標(biāo)注有著重要影響的特征,特征的數(shù)量多了會(huì)使模型出現(xiàn)過(guò)擬合的現(xiàn)象,特征數(shù)量少了則會(huì)使模型出現(xiàn)欠擬合的現(xiàn)象,特征之間如何組合是一項(xiàng)比較困難的工作;其次,條件隨機(jī)場(chǎng)模型在訓(xùn)練過(guò)程中,由于受限于特征模板制定的窗口大小,所以難以考察長(zhǎng)遠(yuǎn)的上下文信息。Bi-LSTM網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)在某種程度上與CRF模型恰恰相反,它在序列標(biāo)注任務(wù)的表現(xiàn)上異常強(qiáng)大,可以有效地將長(zhǎng)遠(yuǎn)的上下文信息利用進(jìn)來(lái),同時(shí)它還具備了神經(jīng)網(wǎng)絡(luò)本身的對(duì)于非線性數(shù)據(jù)的擬合能力,然而從圖3.5中可以看出,然而從圖3.5中可以將看到,這一句話需要去掉Bi-LSTM模型的輸出層輸出的標(biāo)注yt由當(dāng)前時(shí)刻的輸入文本向量xt和將正時(shí)序LSTM單元與逆時(shí)序LSTM單元的記憶輸出合并而成的隱藏層的輸出ht決定,而與其他時(shí)刻k的輸出層輸出的標(biāo)注yk沒有關(guān)系,因此,Bi-LSTM模型的優(yōu)化目標(biāo)是對(duì)于每個(gè)時(shí)刻都尋找到在這個(gè)時(shí)刻出現(xiàn)概率最大的標(biāo)注,再由這些標(biāo)注構(gòu)成序列,這往往會(huì)導(dǎo)致模型對(duì)標(biāo)注序列的輸出發(fā)生不連貫的現(xiàn)象。
這兩種模型的優(yōu)缺點(diǎn)恰好互補(bǔ),于是將兩者結(jié)合起來(lái)的模型Bi-LSTM-CRF出現(xiàn)了,即在傳統(tǒng)的Bi-LSTM模型的隱藏層上在加入一層線性CRF層,如圖4所示。
2.5 句子選擇器
本文將句子選擇作為一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題來(lái)處理。句子選擇器稱為代理“Agent”,它與由數(shù)據(jù)和序列標(biāo)注模型組成的環(huán)境“Environment”進(jìn)行交互?!癆gent”遵循一個(gè)策略來(lái)決定在每個(gè)狀態(tài)“State”(包括當(dāng)前句子、所選句子集)時(shí)執(zhí)行什么操作“Action”(選擇當(dāng)前句子或不選擇當(dāng)前句子),然后在作出所有選擇時(shí)從Bi-LSTM-CRF模型獲得反饋“Reward”。
如前所述,只有在完成對(duì)所有訓(xùn)練語(yǔ)料的選擇后,句子選擇器模型才能從序列標(biāo)注模型中獲得延遲反饋,因此,對(duì)于整個(gè)訓(xùn)練數(shù)據(jù)的每次遍歷,如果只更新一次策略函數(shù),這顯然是低效的。為了獲得更多的反饋并提高訓(xùn)練過(guò)程的效率,本文將訓(xùn)練語(yǔ)料X={x1,x2,…,xn}分到N個(gè)集合B={B1,B2,…,BN}中,并且當(dāng)完成一個(gè)集合的篩選后就計(jì)算一次反饋。集合根據(jù)實(shí)體進(jìn)行劃分,每個(gè)集合對(duì)應(yīng)一個(gè)不同的實(shí)體,每個(gè)包bk是一個(gè)包含同一個(gè)實(shí)體的句子序列{xk1,xk2,…,xk|Bk|},但是實(shí)體的標(biāo)簽是有噪聲的。本文將動(dòng)作定義為根據(jù)策略函數(shù)選擇句子或不選擇句子。一旦在一個(gè)包上完成選擇,就會(huì)計(jì)算反饋。當(dāng)句子選擇器的訓(xùn)練過(guò)程完成后,將每個(gè)包中的所有選定語(yǔ)句合并,得到一個(gè)干凈的數(shù)據(jù)集X,然后,將干凈的數(shù)據(jù)用于訓(xùn)練序列標(biāo)注模型。
本文將介紹句子選擇器(即狀態(tài)、行動(dòng)、反饋、優(yōu)化)如下。
1)狀態(tài)。
狀態(tài)si表示當(dāng)前句子和已選定的句子。本文將狀態(tài)表示為連續(xù)實(shí)值向量F(si),它編碼以下信息:a)從序列標(biāo)注模型中獲得的當(dāng)前句子的向量表示;b)已選句子集的表示,它是所有已選句子的向量的平均值。
2)動(dòng)作。
本文定義了一個(gè)動(dòng)作ai∈{0,1}來(lái)表示句子選擇器是否會(huì)選擇包B的第i個(gè)句子,通過(guò)策略函數(shù)πΘ(si,ai)來(lái)決定ai的取值,將一個(gè)邏輯函數(shù)作為策略函數(shù)表示如下:
其中:F(si)表示狀態(tài)向量,σ(·)表示sigmoid函數(shù),參數(shù)Θ={W,b}。
3)反饋。
反饋函數(shù)代表所選句子質(zhì)量的標(biāo)志。對(duì)于一個(gè)集合B={x1,x2,…,x|B|},本文為每個(gè)句子選擇一個(gè)動(dòng)作,以確定是否應(yīng)該選擇當(dāng)前句子。假設(shè)模型在完成所有選擇后有一個(gè)最終反饋,因此,句子選擇器模型只在最終狀態(tài)S|B|+1收到延遲反饋。其他狀態(tài)的反饋為零,因此,反饋的定義如下:
其中:B^為選擇的句子集合,是集合B的子集;r是集合代表的實(shí)體;p(r|xj)是由序列標(biāo)注模型計(jì)算出來(lái)的,對(duì)于特殊情況B^=,將反饋設(shè)置為訓(xùn)練集所有句子的平均值,這樣可以過(guò)濾掉全是噪聲的集合。
在選擇過(guò)程中,不僅最終的行為有助于反饋,所有先前的行為都有助于反饋,因此,這種反饋是延遲的,并且可以通過(guò)強(qiáng)化學(xué)習(xí)技術(shù)很好地處理。
4)優(yōu)化。
對(duì)于一個(gè)集合B,本模型希望得到最大的反饋,目標(biāo)函數(shù)定義如下:
2.6 句子選擇器+序列標(biāo)注模型
如圖5所示,左邊為句子選擇器,右邊為序列標(biāo)注模型,句子選擇器由策略函數(shù)、反饋函數(shù)等組成,用來(lái)在訓(xùn)練集中挑選高質(zhì)量的句子,作為序列標(biāo)注模型的輸入,序列標(biāo)注模型接收句子選擇器的輸入,然后給句子選擇器提供反饋,指導(dǎo)句子選擇器選出高質(zhì)量的句子。
3 實(shí)驗(yàn)介紹
3.1 數(shù)據(jù)集
為了評(píng)估本文方法的性能,本文使用由遠(yuǎn)程監(jiān)督方法生成的公共數(shù)據(jù)集紐約時(shí)報(bào)(New York Times, NYT)[18],采用遠(yuǎn)程監(jiān)督方式,無(wú)需人工標(biāo)注,即可獲得大量的訓(xùn)練數(shù)據(jù)。測(cè)試集是人工標(biāo)注的以確保其質(zhì)量??偟膩?lái)說(shuō),訓(xùn)練數(shù)據(jù)包含353000個(gè)三元組,測(cè)試集包含3880個(gè)三元組。此外,關(guān)系集的大小為24。
3.2 評(píng)估策略
本文采用準(zhǔn)確率(Precision, P)、召回率(Recall, R)和F1值對(duì)結(jié)果進(jìn)行評(píng)估。與傳統(tǒng)方法不同的是,本文方法可以在不知道實(shí)體類型信息的情況下抽取三元組。換句話說(shuō),本文沒有使用實(shí)體類型的標(biāo)簽來(lái)訓(xùn)練模型,因此在評(píng)估中不需要考慮實(shí)體類型。當(dāng)三元組的關(guān)系類型和兩個(gè)對(duì)應(yīng)實(shí)體的位置偏移都正確時(shí),則認(rèn)為它是正確的。本文從測(cè)試集隨機(jī)抽取10%的數(shù)據(jù)來(lái)創(chuàng)建驗(yàn)證集,并根據(jù)Ren等[18]的建議將剩余數(shù)據(jù)用作評(píng)估。本文將每個(gè)實(shí)驗(yàn)運(yùn)行10次,然后記錄平均結(jié)果。
3.3 參數(shù)設(shè)置
本文的模型由一個(gè)Bi-LSTM-CRF序列標(biāo)注模型和一個(gè)句子選擇器模型組成。詞向量是通過(guò)在NYT訓(xùn)練語(yǔ)料上運(yùn)行Word2vec[23]生成的。詞向量的維度為300。本文在嵌入層上使用droupout來(lái)防止過(guò)擬合,大小為0.5。LSTM隱藏層維度為300。對(duì)于句子選擇器的參數(shù),本文分別在預(yù)訓(xùn)練階段和聯(lián)合訓(xùn)練階段將學(xué)習(xí)率設(shè)置為0.02和0.01。延遲系數(shù)τ為0.001。
3.4 基準(zhǔn)線
將本文的方法與幾種經(jīng)典的三元組提取方法進(jìn)行了比較,這些方法可分為以下幾類:基于本文的標(biāo)記方案的流水線方法、聯(lián)合提取方法和Bi-LSTM-CRF方法。
對(duì)于流水線方法,本文遵循Ren等[18]的設(shè)置:通過(guò)CoType方法獲得NER結(jié)果,然后使用幾種經(jīng)典的關(guān)系分類方法檢測(cè)關(guān)系。這些方法包括:
1)2009年Mintz等[7]提出的DS-Logistic模型,這是一種遠(yuǎn)程監(jiān)督和基于特征的方法;
2)2015年Tang等[24]提出的LINE(Large-scale Information Network Embedding)模型,這是一種網(wǎng)絡(luò)嵌入方法,適用于任意類型的信息網(wǎng)絡(luò);
3)2015年Gormley等[25]提出的FCM(Fuzzy C-Mean)模型,這是一種復(fù)合方法,將詞匯化語(yǔ)言語(yǔ)境和嵌入詞結(jié)合起來(lái)進(jìn)行關(guān)系提取的模式。
本文采用的聯(lián)合提取方法如下:
4)2014年Li等[4]提出的DS-Joint模型,這是一種有監(jiān)督的方法,它利用人工標(biāo)注數(shù)據(jù)集上的結(jié)構(gòu)化感知器聯(lián)合提取實(shí)體和關(guān)系;
5)2011年Hoffmann等[26]提出的MULTIR(MULTi-Instance learning which handles overlapping Relations請(qǐng)補(bǔ)充MULTIR的英文全稱)模型,這是一種典型的基于多句子學(xué)習(xí)算法的遠(yuǎn)程監(jiān)控方法,用于對(duì)抗噪聲訓(xùn)練數(shù)據(jù);
6)2017年Ren等[18]提出的CoType模型,這是一個(gè)獨(dú)立于領(lǐng)域的框架,將實(shí)體信息、關(guān)系信息、文本特征和類型標(biāo)簽共同嵌入到有意義的表示中。
此外,本文方法還與經(jīng)典的端到端標(biāo)注模型進(jìn)行了比較:2016年Lample等[17]提出的LSTM-CRF模型,利用雙向LSTM對(duì)輸入句子進(jìn)行編碼,利用條件隨機(jī)場(chǎng)預(yù)測(cè)實(shí)體標(biāo)簽序列,實(shí)現(xiàn)實(shí)體識(shí)別的LSTM-CRF算法。
3.5 實(shí)驗(yàn)結(jié)果
本文的實(shí)驗(yàn)分為三個(gè)部分進(jìn)行,包括序列標(biāo)注模型的訓(xùn)練、句子選擇器模型的訓(xùn)練以及聯(lián)合訓(xùn)練。其中前面兩個(gè)模型的訓(xùn)練為預(yù)訓(xùn)練,目的是為了聯(lián)合模型能夠盡快地收斂。本文通過(guò)實(shí)驗(yàn)得到了不同方法的對(duì)比結(jié)果,其中LSTM-CRF模型與RL-LSTM-CRF(Reinforcement Learning for LSTM-CRF)本文方法的縮寫是Bi-LSTM-CRF,不是RL-LSTM-CRF吧?這個(gè)名稱也沒有英文縮寫,全文是否需要統(tǒng)一,請(qǐng)明確?;貜?fù):LSTM-CRF模型上文介紹了是利用雙向LSTM編碼的模型,也就是Bi-LSTM-CRF模型的縮寫。RL-LSTM-CRF中RL指的是加入強(qiáng)化學(xué)習(xí)的模型,RL是Reinforcement Learning的縮寫,LSTM-CRF同上。如果不明確的話,需要給RL-LSTM-CRF加上說(shuō)明RL-LSTM-CRF(Reinforcement Learning for LSTM-CRF)。
模型不僅記錄下了準(zhǔn)確率、召回率、F1值,還將實(shí)驗(yàn)的標(biāo)準(zhǔn)差記錄下來(lái),標(biāo)準(zhǔn)差是將每個(gè)模型運(yùn)行10次的結(jié)果,如表1所示。
可以看出,本文的方法RL-LSTM-CRF在F1分?jǐn)?shù)上優(yōu)于所有其他方法,與聯(lián)合抽取CoType模型相比本文模型的F1值提升了1%,與串行抽取LINE模型相比本文模型的F1值提升了14%。實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。此外,從表1中還可以看出,聯(lián)合提取方法優(yōu)于流水線方法,標(biāo)注方法優(yōu)于大多數(shù)聯(lián)合提取方法。它還驗(yàn)證了本文的標(biāo)簽方案對(duì)于聯(lián)合提取實(shí)體和關(guān)系的任務(wù)的有效性。與傳統(tǒng)方法相比,端到端模型的精度有了顯著提高,基于神經(jīng)網(wǎng)絡(luò)的方法能很好地?cái)M合數(shù)據(jù),因此,它們可以很好地學(xué)習(xí)訓(xùn)練集的共同特征。
4 結(jié)語(yǔ)
本文提出了一個(gè)新的模型,該模型由句子選擇器和序列標(biāo)注模型組成,通過(guò)強(qiáng)化學(xué)習(xí)框架在噪聲數(shù)據(jù)集中聯(lián)合抽取實(shí)體和關(guān)系。句子選擇器為序列標(biāo)注模型選擇高質(zhì)量的數(shù)據(jù)。Bi-LSTM-CRF模型預(yù)測(cè)句子級(jí)別的序列標(biāo)簽,并作為弱監(jiān)督信號(hào)向選擇器提供反饋,以監(jiān)督句子選擇過(guò)程。大量的實(shí)驗(yàn)表明,本文模型能夠過(guò)濾掉有噪聲的句子,并比現(xiàn)有的模型更好地執(zhí)行聯(lián)合實(shí)體和關(guān)系提取。
此外,本文的解決方案可以推廣到使用噪聲數(shù)據(jù)或遠(yuǎn)程監(jiān)督的其他任務(wù)中,這將是未來(lái)的工作。后期打算用更優(yōu)的端到端的模型來(lái)替換本文現(xiàn)有的序列標(biāo)注模型,例如用LSTM解碼層替換CRF解碼層等。本文只考慮一個(gè)實(shí)體屬于一個(gè)三元組的情況,并將重疊關(guān)系的識(shí)別留給以后的工作。
參考文獻(xiàn) (References)
[1] BANKO M, CAFARELLAM J, SODERLAND S, et al. Open information extraction from the Web[C]// Proceedings of the 20th International Joint Conference on Artificial Intelligence. New York: ACM, 2007: 2670-2676.
[2] NADEAU D, SEKINE S. A survey of named entity recognition and classification[J]. Lingvisticae Investigationes, 2005, 30(1): 3-26.
[3] RINK B, HARABAGIU A. UTD: classifying semantic relations by combining lexical and semantic resources[C]// Proceedings of the 5th International Workshop on Semantic Evaluation. New York: ACM, 2010: 256-259.
[4] LI Q, JI H. Incremental joint extraction of entity mentions and relations[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2014: 402-412.
[5] MIWA M, BANSAL M. End-to-end relation extraction using LSTMs on sequences and tree structures[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1105-1116.
[6] ZHENG S C, WANG F. Joint extraction of entities and relations based on a novel tagging scheme[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 1227-1236.
[7] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]// Proceedings of the 2009/47th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2009: 1003-1011
[8] FENG J, HUANG M, ZHAO L, et al. Reinforcement learning for relation classification from noisy data[C]// Proceedings of the 2018/32nd Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2018:5779-5786
[9] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks, 1998, 9(5): 1054-1054.
[10] LUO G, HUANG X J, LIN C Y, et al. Joint entity recognition and disambiguation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 879-888.
[11] 馮元勇,孫樂,張大鯤,等.基于小規(guī)模尾字特征的中文命名實(shí)體識(shí)別研究[J].電子學(xué)報(bào),2008,36(9):1833-1838.(FENG Y Y, SUN L, ZHANG D K, et al. Study on the Chinese named entity recognition using small scale tail hints[J]. Acta Electronica Sinaca, 2008, 36(9): 1833-1838.)
[12] 向曉雯,史曉東,曾華琳.一個(gè)統(tǒng)計(jì)與規(guī)則相結(jié)合的中文命名實(shí)體識(shí)別系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2005,25(10):2404-2406.(XIANG X W, SHI X D, ZENG H L. Chinese named entity recognition system using statistics-based and rules-based method [J]. Journal of Computer Applications, 2005, 25(10): 2404-2406.)
[13] 佘俊,張學(xué)清.音樂命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2010,20(11):2928-2931.(SHE J, ZHANG X Q. Musical named entity recognition method [J]. Journal of Computer Applications, 2010, 30(11): 2928-2931.)
[14] 張金龍,王石,錢存發(fā).基于CRF和規(guī)則的中文醫(yī)療機(jī)構(gòu)名稱識(shí)[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(3):159-162.(ZHANG J L, WANG S, QIAN C F. CRF and rules-based recognition of medical institutions name in Chinese [J]. Computer Applications and Software, 2014, 31(3): 159-162.)
[15] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[C]// Proceedings of the 2016 Transactions of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 357-370
[16] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. [2018-12-02]. https://arxiv.org/pdf/1508.01991.pdf.
[17] LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 260-270.
[18] REN X, WU Z, HE W, et al. CoType: joint extraction of typed entities and relations with knowledge bases[C]// Proceedings of the 26th International Conference on World Wide Web. New York: ACM, 2017: 1015-1024.
[19] SINGH S, RIEDEL S, MARTIN B, et al. Joint inference of entities, relations, and coreference[C]// Proceedings of the 2013 Workshop on Automated Knowledge Base Construction. New York: ACM, 2013: 1-6.
[20] LIN Y, SHEN S, LIU Z, et al. Neural relation extraction with selective attention over instances[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 2124-2133.
[21] JI G, LIU K, HE S, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]// Proceedings of the Thirty-First Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2017: 3060-3066.
[22] NARASIMHAN K, YALA A, BARZILAY R. Improving information extraction by acquiring external evidence with reinforcement learning[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 2355-2365.
[23] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.
[24] TANG J, QU M, WANG M, et al. LINE: large-scale information network embedding[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 1067-1077.
[25] GORMLEY M R, YU M, DREDZE M. Improved relation extraction with feature-rich compositional embedding models[C]// Proceedings of the 2015 Conference on Empirical Method in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1774-1784.
[26] HOFFMANN R, ZHANG C, LING X, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011: 541-550.