劉 峰,高 賽,于碧輝,郭放達(dá)
1(中國科學(xué)院大學(xué),北京 100049)
2(中國科學(xué)院 沈陽計(jì)算技術(shù)研究所,沈陽 110168)
3(東北大學(xué),沈陽 110819)
信息抽取是自然語言處理領(lǐng)域的一項(xiàng)重要任務(wù),其目標(biāo)是從普通的非結(jié)構(gòu)化文本中抽取易于機(jī)器或程序理解的結(jié)構(gòu)化信息,從而將互聯(lián)網(wǎng)上大量的信息存儲(chǔ)成一個(gè)龐大的知識(shí)庫,提供給用戶查看或者為其它自然語言處理任務(wù)提供服務(wù).隨著信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)上的信息越來越龐大,信息抽取任務(wù)就變得愈發(fā)重要.
關(guān)系抽取作為信息抽取的一個(gè)重要組成部分,它旨在從語義層面發(fā)現(xiàn)實(shí)體之間的關(guān)系.關(guān)系抽取可以使用一組三元組來描述<Entity1,Relation,Entity2>,其中Entity1 和Entity2 表示實(shí)體,Relation 表示兩個(gè)實(shí)體之間的關(guān)系.例如“<e1>葉莉</e1>是<e2>姚明</e2>的妻子”.其中“<e1>”和“</e1>”這兩個(gè)符號(hào)聲明第一個(gè)實(shí)體為“葉莉”,“<e2>”和“</e2>”則聲明第二個(gè)實(shí)體為“姚明”.可以看出,兩個(gè)實(shí)體之間的關(guān)系是"配偶".在無監(jiān)督或半監(jiān)督學(xué)習(xí)領(lǐng)域,關(guān)系抽取是指從沒有任何預(yù)先確定的實(shí)體和關(guān)系類別中提取事實(shí)以及關(guān)系短語;在監(jiān)督學(xué)習(xí)領(lǐng)域,關(guān)系抽取又可以看作一項(xiàng)關(guān)系分類任務(wù),是指將包含已知實(shí)體對(duì)的文本的實(shí)體關(guān)系分類到一組已知的關(guān)系類別上.本文的研究是在具有既定關(guān)系和已知實(shí)體對(duì)的數(shù)據(jù)集上進(jìn)行關(guān)系抽取任務(wù),因此本文的關(guān)系抽取任務(wù)就是一項(xiàng)關(guān)系分類任務(wù).
傳統(tǒng)的關(guān)系分類方法常用的有兩種,基于規(guī)則的方法和基于特征向量的方法.基于規(guī)則的方法需要領(lǐng)域?qū)<业慕槿肭倚枰斯?gòu)建大量的匹配規(guī)則,可擴(kuò)展性差.基于特征的方法需要人工構(gòu)建大量的特征,費(fèi)時(shí)費(fèi)力,且人工提取的特征都停留在詞法和句法層面,模型無法很好地捕獲文本的語義特征.近年來,隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)模型開始應(yīng)用在各類關(guān)系分類任務(wù)上,并取得出色表現(xiàn).本文在此研究基礎(chǔ)上,提出基于多頭注意力機(jī)制(multi-head attention)和雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)相結(jié)合的實(shí)體關(guān)系分類模型.本文主要貢獻(xiàn)如下:
(1)引入aulti-head Attention.它是self-attention的一種拓展,能夠從多個(gè)不同維度計(jì)算attention,從而使模型在不同子空間學(xué)習(xí)特征.
(2)模型的輸入在已有的詞向量和位置向量的基礎(chǔ)上,進(jìn)一步引入依存句法特征和相對(duì)核心謂詞依賴特征作為輸入,可以使模型更好地捕獲句法信息,進(jìn)一步提高模型分類的精度.
目前,已有的關(guān)系分類方法包括:基于規(guī)則的方法、基于特征向量的方法、基于核函數(shù)的方法和基于深度學(xué)習(xí)模型的方法.
基于規(guī)則的方法需要依賴領(lǐng)域?qū)<?通過構(gòu)建大量的模式匹配規(guī)則進(jìn)行關(guān)系分類,適合于特定領(lǐng)域的關(guān)系分類任務(wù).Aone[1]等通過人工構(gòu)建匹配規(guī)則開發(fā)了REES 系統(tǒng),該系統(tǒng)可識(shí)別100 多種關(guān)系.Humphreys[2]等對(duì)文本進(jìn)行句法分析,通過構(gòu)建復(fù)雜的句法規(guī)則來識(shí)別實(shí)體間的關(guān)系.基于規(guī)則的方法需要領(lǐng)域?qū)<业闹笇?dǎo),耗時(shí)耗力,且系統(tǒng)可移植性差.
基于特征向量的方法需要人工構(gòu)造特征,然后將特征轉(zhuǎn)化為向量,利用機(jī)器學(xué)習(xí)算法構(gòu)建模型,將特征向量作為模型的輸入對(duì)實(shí)體對(duì)之間的關(guān)系進(jìn)行分類.Kambhatla[3]等人通過結(jié)合詞匯特征、句法特征和語義特征,利用最大熵模型作為分類器,在ACE RDC2003的評(píng)測數(shù)據(jù)集上,最終分類的F值達(dá)到了52.8%.車萬翔[4]等人通過引入實(shí)體類型、兩個(gè)實(shí)體的出現(xiàn)順序、實(shí)體周圍的w個(gè)詞等特征,利用支持向量機(jī)(SVM)作為分類器,在ACE RDC2004 的評(píng)測數(shù)據(jù)集上,最終分類的F值達(dá)到了73.27%.基于機(jī)器學(xué)習(xí)的方法依賴于人工構(gòu)造特征,其效果的好壞也嚴(yán)重依賴于特征選取的好壞,且為達(dá)到較高的分類性能往往需要從不同層次構(gòu)造大量特征.
基于核函數(shù)的方法不需要顯示構(gòu)造特征,因此避免了人工構(gòu)造特征的過程.它將文本的字符串或者文本的句法樹作為輸入實(shí)例,使用核函數(shù)計(jì)算實(shí)例間的相似度來訓(xùn)練分類器.在關(guān)系分類任務(wù)中使用核函數(shù)的方法最早是由Zelenko[5]等人引入的,他們?cè)谖谋镜臏\層解析表示上定義核函數(shù),并將核函數(shù)與支持向量機(jī)(SVM)和投票感知器學(xué)習(xí)算法相結(jié)合.實(shí)驗(yàn)表明,該方法取得了良好的效果.
近年來,隨著深度學(xué)習(xí)的興起,越來越多的研究工作都嘗試使用神經(jīng)網(wǎng)絡(luò)模型去解決問題,從而避免顯式的人工構(gòu)造特征的過程.Liu CY 等人[6]在關(guān)系分類任務(wù)中最早嘗試使用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征.它建立了一個(gè)端到端(End-to-End)的網(wǎng)絡(luò),該網(wǎng)絡(luò)利用同義詞向量和詞法特征對(duì)句子進(jìn)行編碼,實(shí)驗(yàn)結(jié)果表明,該模型在ACE 2005 數(shù)據(jù)集上的性能比當(dāng)時(shí)最先進(jìn)的基于核函數(shù)的模型的F值高出9 個(gè)百分點(diǎn).Zeng DJ 等人[7]也使用了卷積神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行關(guān)系分類,他們使用了預(yù)先在大型未標(biāo)記語料庫上訓(xùn)練的詞向量(Word Embedding),并首次將位置向量(Position Embedding)引入模型的輸入.最終該模型在SemEval-2010 任務(wù)8 的評(píng)測數(shù)據(jù)集上的F值達(dá)到了82.7%.
卷積神經(jīng)網(wǎng)絡(luò)(CNN)雖然在關(guān)系抽取任務(wù)中取得了不錯(cuò)的表現(xiàn),然而CNN 不適合具有長距離依賴信息的學(xué)習(xí).循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)適用于解決具有長距離依賴的問題,但是它存在梯度消失問題,對(duì)上下文的處理就受到限制.為了解決這個(gè)問題,Hochreiter 和Schmidhuber 在1997年提出長短時(shí)記憶網(wǎng)絡(luò)(LSTM),該網(wǎng)絡(luò)通過引入門控單元來有效緩解RNN 的梯度消失問題.另外,近年來基于神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制(attention)相結(jié)合的模型也被廣泛應(yīng)用在關(guān)系分類任務(wù)上.注意力機(jī)制是對(duì)人類大腦注意力機(jī)制的一種模擬,最早應(yīng)用在圖像處理領(lǐng)域,Bahdanau 等人[8]最早將其應(yīng)用在機(jī)器翻譯任務(wù)上.此后注意力機(jī)制就被廣泛地應(yīng)用到各種NLP 任務(wù)中.Zhou P 等人[9]提出一種用于關(guān)系分類的神經(jīng)網(wǎng)絡(luò)ATT-BLSTM.該模型利用長短時(shí)記憶網(wǎng)絡(luò)對(duì)句子進(jìn)行建模,并結(jié)合自注意力機(jī)制(self-attention)來進(jìn)一步捕捉句子中重要的語義信息.通過計(jì)算self-attention,可以得到句子內(nèi)部詞之間依賴關(guān)系,捕獲句子內(nèi)部結(jié)構(gòu).本文的研究在文獻(xiàn)[9]工作的基礎(chǔ)上,引入多頭注意力機(jī)制(multi-head attention),其本質(zhì)是進(jìn)行多次self-attention 計(jì)算,可以進(jìn)一步提高實(shí)體關(guān)系分類精度.
本文采用雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)對(duì)文本特征進(jìn)行建模.在將詞向量和相對(duì)位置向量作為網(wǎng)絡(luò)層輸入的基礎(chǔ)上,進(jìn)一步考慮將依存句法特征和相對(duì)核心謂詞依賴特征引入網(wǎng)絡(luò)輸入層.將這兩個(gè)特征引入輸入層的原因是:
(1)依存句法分析可以很好地揭示文本句法結(jié)構(gòu),并且反映出兩個(gè)實(shí)體之間直接或間接的關(guān)系特征.
(2)大量研究表明,對(duì)一個(gè)句子的所有謂詞,核心謂詞對(duì)于識(shí)別實(shí)體邊界、承接實(shí)體關(guān)系起著至關(guān)重要的作用[10].因此每個(gè)詞與核心謂詞的相對(duì)依賴也是一種隱含特征,這種依賴關(guān)系必然也能反映出實(shí)體間的關(guān)系特征.
同時(shí)在網(wǎng)絡(luò)輸出層引入multi-head attention.Multi-head attention 由Vaswani[11]等人提出,基于Self-Attention.Self-Attention 通過計(jì)算每個(gè)詞和所有詞的注意力概率來捕獲句子的長距離依賴.所謂multi-head,就是進(jìn)行多次Self-attention 計(jì)算,每次計(jì)算時(shí)使用的映射矩陣不同,最后將每一次計(jì)算結(jié)果進(jìn)行拼接,作為最終multi head 計(jì)算結(jié)果.容易看出multi head attention 和單頭self-attention 相比,它可以學(xué)習(xí)多個(gè)映射器,進(jìn)而從不同維度,不同子空間來表征特征.最后通過將多個(gè)特征進(jìn)行拼接進(jìn)行特征融合,可以使模型進(jìn)一步提高特征表達(dá)能力.文獻(xiàn)[11]中的實(shí)驗(yàn)結(jié)果表明,使用單頭注意力機(jī)制可以學(xué)習(xí)得到句子內(nèi)部詞的某些長距離依賴關(guān)系,而multi-head attention 除了能夠加強(qiáng)這種學(xué)習(xí)能力以外,甚至能夠理解句子的句法和語義結(jié)構(gòu)信息.因此本文引入multi-head attention思想,來進(jìn)一步提高模型建模能力,從而提高實(shí)體關(guān)系分類的精度.
圖1 模型框架圖
本文的模型包含以下5 個(gè)部分,模型結(jié)構(gòu)圖如圖2所示.
(1)文本預(yù)處理、特征提取.
(2)Embedding 層:將網(wǎng)絡(luò)輸入的各種特征全部映射為低維向量表示.
(3)Bi-LSTM 層:使用Bi-LSTM 對(duì)輸入信息進(jìn)行建模,獲取高層特征表示.
(4)Multi-head attention 層:進(jìn)行多次selfattention 計(jì)算,并將多次計(jì)算結(jié)果進(jìn)行拼接和線性映射,獲取最終句子級(jí)特征表示.
(5)輸出層:采用SoftMax 函數(shù)作為分類器,將上一步得到的特征向量作為輸入,可以得到最終的關(guān)系類別.
圖2 模型結(jié)構(gòu)圖
以"<e1>葉莉</e1>是<e2>姚明</e2>的妻子"為例,使用哈工大的LTP 對(duì)句子進(jìn)行分詞和依存句法分析,結(jié)果如下圖所示,抽取以下三個(gè)特征:
(1)相對(duì)位置特征PF.即句子中每個(gè)詞分別到實(shí)體1 和實(shí)體2 的距離.如例句中兩個(gè)實(shí)體分別是“葉莉”、“姚明”.每個(gè)詞到實(shí)體1“葉莉”的距離PF1={0,1,2,3,4};每個(gè)詞到實(shí)體2“姚明”的距離PF2={-2,-1,0,1,2}
(2)依存句法特征DP.特征DP 包含兩部分DP_NAME 和DP_PAR.DP_NAME 要獲取每一個(gè)詞在句子中的依存句法屬性值,那么例句的DP_NAME={SBV,HED,ATT,RAD,VOB};DP_PAR 要獲取每一個(gè)詞所依賴的詞在句子中的索引值,那么例句的DP_PAR={2,0,5,3,2}
(3)相對(duì)核心謂詞依賴特征DEP.根據(jù)句子中每個(gè)詞與核心謂詞是否存在依賴關(guān)系,將DEP 特征取值分為三類:DEP_S(核心謂詞本身),DEP_C(核心謂詞子節(jié)點(diǎn)),DEP_O(其它).容易看出例句的核心謂詞為“是”,那么例句的DEP={DEP_C,DEP_S,DEP_O,DEP_O,DEP_C}.
假定句子S由T個(gè)詞組成,S={w1,w2,···,wT},對(duì)于每個(gè)詞wi都 要提取五種特征,用表示,其中1 ≤j≤5.每個(gè)特征所對(duì)應(yīng)的特征向量矩陣分別為:{Wword,Wpf,Wdp_name,Wdp_par,Wdep}.Wword∈Rdw×|V|,Wf∈Rdv×|Vf|,dw是詞向量的維度,|V|表示數(shù)據(jù)集詞匯量大小.f∈{pf,dp_name,dp_par,dep},dv是相應(yīng)特征向量的維度,Vf表示特征f取值類別個(gè)數(shù).Wword使用一個(gè)預(yù)訓(xùn)練好的詞向量矩陣[12],其余特征向量矩陣都采用隨機(jī)初始化的方式賦予初始值.使用式(1)對(duì)每個(gè)詞的各個(gè)特征進(jìn)行Embedding,得到每個(gè)特征的向量化表示.
LSTM 是RNN 的一種變體,它通過引入門控單元克服RNN 長期依賴問題從而緩解梯度消失.一個(gè)LSTM 單元由三個(gè)門組成,分別是輸入門it,遺忘門ft和輸出門ot.以特征embs={e1,e2,···,eT}作為輸入,將t作為當(dāng)前時(shí)刻,ht-1表 示前一時(shí)刻隱層狀態(tài)值,ct-1表示前一時(shí)刻細(xì)胞單元狀態(tài)值,計(jì)算第t時(shí)刻詞對(duì)應(yīng)的LSTM 各個(gè)狀態(tài)值:
通過以上計(jì)算,最終得到t時(shí)刻LSTM 隱層狀態(tài)的輸出值ht.在本文中使用的是Bi-LSTM.將前向LSTM 中t時(shí)刻隱層狀態(tài)值記為f_ht,將后向LSTM中t時(shí)刻隱層狀態(tài)的輸出值記為b_ht,則最終Bi-LSTM 第t時(shí)刻輸出值為:
Multi-head attention 本質(zhì)就是進(jìn)行多次selfattention 計(jì)算,它可以使模型從不同表征子空間獲取更多層面的特征,從而使模型能夠捕獲句子更多的上下文信息.Multi-head attention 模型結(jié)構(gòu)如圖3所示.
圖3 Multi-head attention
(1)單次self-attention 計(jì)算.使用符號(hào)H表示一個(gè)矩陣,它由Bi-LSTM 層所有時(shí)刻輸出向量組成[h1,h2,···,hT].使用符號(hào)r表示該層最終的輸出值,計(jì)算過程如下:
其中,H∈Rdh×T,dh是隱藏層節(jié)點(diǎn)數(shù),w是一個(gè)參數(shù)向量.w,?和r的維度分別是dh,T,dh.經(jīng)過selfattention 計(jì)算,可以得到單次attention 輸出特征值為:
(2)Multi-head attention 計(jì)算.即進(jìn)行k次selfattention 計(jì)算.在計(jì)算過程中,針對(duì)式(10),在每次使用H時(shí),需要先將H進(jìn)行一次線性變換[11],即,其中這樣,每次在進(jìn)行單次self-attention 計(jì)算時(shí),都會(huì)對(duì)H的維度進(jìn)行壓縮,且multi-head attention 計(jì)算可以并行執(zhí)行.另外,本文使用的是乘法注意力機(jī)制,乘法注意力機(jī)制在實(shí)現(xiàn)上可以使用高度優(yōu)化的矩陣乘法,那么整體計(jì)算成本和單次注意力機(jī)制的計(jì)算成本并不會(huì)相差很大,同時(shí)又提升了模型的特征表達(dá)能力.使用式(10)~(12)進(jìn)行k次計(jì)算,注意每次計(jì)算使用的w均不相同.將結(jié)果h?進(jìn)行拼接和線性映射,得到最終結(jié)果hs:
其中,向量ws的 維度是k×dh,?表示逐元素點(diǎn)乘.
在本文中,關(guān)系分類為一個(gè)多分類問題.使用SoftMax 函數(shù)計(jì)算每一個(gè)類別的條件概率,然后選取條件概率最大值所對(duì)應(yīng)的類別作為預(yù)測輸出類別.計(jì)算過程如下:
其中,Wo∈Rc×kdw,c表示數(shù)據(jù)集的類別個(gè)數(shù).目標(biāo)函數(shù)是帶有L2 正則化的類別標(biāo)簽y的負(fù)對(duì)數(shù)似然函數(shù):
其中,m是樣本的個(gè)數(shù),ti∈Rm是一個(gè)關(guān)于類別的onehot 向量,y′i是SoftMax 的輸出概率向量,λ是L2 正則化因子
本次實(shí)驗(yàn)采用SemEval-2010 任務(wù)8 的數(shù)據(jù)集.該數(shù)據(jù)集共包含10 種關(guān)系類別,其中有9 種是明確的關(guān)系類別,一種是未知類別“Other”.數(shù)據(jù)集中共有10 717 條人工標(biāo)注實(shí)體和關(guān)系類別的數(shù)據(jù),包括8000 條訓(xùn)練數(shù)據(jù),2717 條測試數(shù)據(jù).關(guān)系類別如表1所示.
表1 關(guān)系類別
在本次實(shí)驗(yàn)中采用官方評(píng)測標(biāo)準(zhǔn)F1 值(F1-Score)作為模型性能評(píng)價(jià)指標(biāo).表2為分類結(jié)果的混淆矩陣.
表2 分類結(jié)果混淆矩陣
在計(jì)算F1值之前,需要先計(jì)算查準(zhǔn)率P、查全率R,計(jì)算公式如下:
根據(jù)P、R值計(jì)算最終的F1值:
本文神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化方法采用Adam,其學(xué)習(xí)率設(shè)置為1.0,激活函數(shù)使用relu 函數(shù),隱層節(jié)點(diǎn)數(shù)dh設(shè) 置為300,每個(gè)單詞嵌入向量大小dw為50,輸入的batch 大小為50.另外,為了緩解過擬合現(xiàn)象,在目標(biāo)函數(shù)中加入L2 正則化項(xiàng),正則化因子取值為1 0-5,同時(shí)引入dropout 策略.將dropout 應(yīng)用在Embedding 層、Bi-LSTM 層,經(jīng)過多輪實(shí)驗(yàn)(采用5 折交叉驗(yàn)證),當(dāng)丟碼率(dropout rate)分別為0.3,0.3,模型可以達(dá)到一個(gè)比較好的性能.Multi-head 層中的參數(shù)k的值過大或過小都不好,參考文獻(xiàn)[11]的實(shí)驗(yàn),取[1,2,4,6,10,15,30]作為候選值(k要能被 dh整除),采用5 折交叉驗(yàn)證方法評(píng)估模型性能,實(shí)驗(yàn)結(jié)果如下表所示.易知,最終當(dāng)k值為4 的時(shí)候模型可以達(dá)到一個(gè)較好的性能.單次self-attention 要比k= 4 時(shí)multi-head attention 的效果差,但隨著k值的不斷增加,模型性能會(huì)下降.故最終選取k的值為4.
表3 k值實(shí)驗(yàn)結(jié)果
為將本文模型與其它模型效果進(jìn)行對(duì)比實(shí)驗(yàn),所有模型均采用同一數(shù)據(jù)集,關(guān)系類別個(gè)數(shù)為10.RNN 模型、ATT-LSTM 模型的輸入詞向量和位置向量、網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)、網(wǎng)絡(luò)激活函數(shù)、模型優(yōu)化方法等均與本文實(shí)驗(yàn)中的參數(shù)設(shè)置保持一致.另外CNN 中與本文無關(guān)的參數(shù)設(shè)置參考其原論文.實(shí)驗(yàn)結(jié)果如表4.
CNN:該模型是文獻(xiàn)[7]提出的.使用CNN 對(duì)句子進(jìn)行建模,同時(shí)引入位置特征和詞匯特征,使用SoftMax作為分類器.最終實(shí)驗(yàn)結(jié)果F1值達(dá)到80.3%.
RNN:該模型是文獻(xiàn)[13]提出的.使用雙向RNN來進(jìn)行關(guān)系分類,使用SoftMax 作為分類器.最終實(shí)驗(yàn)結(jié)果F1值達(dá)到81.5%.
ATT-LSTM:該模型文獻(xiàn)[9]提出.使用雙向LSTM對(duì)句子進(jìn)行建模,并引入自注意力機(jī)制,使用SoftMax 作為分類器.最終實(shí)驗(yàn)結(jié)果F1 值達(dá)到83.4%.
表4 實(shí)驗(yàn)結(jié)果
以上四種模型相比,本文提出的方法最終F1值達(dá)到85.4%,均高于以上三種模型.本文模型與以上三種模型相比,在embedding 層,進(jìn)一步引入了句法層面的信息.與CNN 和RNN 方法相比,本文神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用雙向LSTM.雙向LSTM 相比CNN 更能捕獲具有長期依賴的信息,更適合處理文本序列;與RNN 相比,LSTM 通過引入門控機(jī)制,緩解了模型的梯度消失問題.與ATT-LSTM 模型相比,本文的模型將單層selfattention 改為multi-head attention.綜上所述,本文方法在embedding 層融入了更加豐富的句法特征,通過使用雙向LSTM 使模型學(xué)到更多具有長期依賴的上下文信息,在最后的attention 層,通過使用multi-head attention 進(jìn)一步提高了模型的特征表達(dá)能力.通過實(shí)驗(yàn)驗(yàn)證,本文方法進(jìn)一步提高了實(shí)體關(guān)系分類模型的精度.
本文從現(xiàn)有的基于深度學(xué)習(xí)模型的關(guān)系抽取方法出發(fā),使用Bi-LSTM 和multi-head attention 機(jī)制對(duì)文本進(jìn)行建模,同時(shí)為了使模型更好地學(xué)習(xí)到文本句法結(jié)構(gòu)信息,進(jìn)一步引入句法結(jié)構(gòu)特征和相對(duì)核心謂詞依賴特征.在公共評(píng)測語料上的實(shí)驗(yàn)結(jié)果證明該方法相較于其他深度學(xué)習(xí)模型性能有進(jìn)一步提升.未來的工作可考慮如何進(jìn)一步改進(jìn)attention 以及如何將模型應(yīng)用到無監(jiān)督關(guān)系抽取研究上.