亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取

        2021-02-25 01:17:36邢毅雪朱永華高海燕
        關(guān)鍵詞:注意力實(shí)體卷積

        邢毅雪,朱永華,高海燕, 周 金, 張 克

        (1. 上海大學(xué)上海電影學(xué)院, 上海 200072; 2. 上海大學(xué)生命科學(xué)學(xué)院, 上海 200444)

        近年來, 由于信息技術(shù)發(fā)展迅速, 需要處理的文本信息量成倍增長, 構(gòu)成了一個(gè)巨大的信息資源庫, 如何從海量開放領(lǐng)域數(shù)據(jù)中快速提取出所需有效信息變得尤為重要. 實(shí)體關(guān)系抽取(relation extraction)是信息抽取和文本挖掘的核心任務(wù)之一, 其在實(shí)體識(shí)別的基礎(chǔ)上通過對(duì)文本信息建模, 自動(dòng)地從大量非結(jié)構(gòu)化文本中抽取實(shí)體對(duì)間預(yù)先定義的語義關(guān)系. 美國組織的自動(dòng)內(nèi)容抽取(automatic content extraction, ACE)評(píng)測(cè)會(huì)議于2000 年將關(guān)系抽取作為其評(píng)測(cè)的任務(wù)之一. ACE 的目標(biāo)是關(guān)注新聞?lì)I(lǐng)域的實(shí)體和實(shí)體關(guān)系抽取, 為抽取任務(wù)提供評(píng)測(cè)語料和實(shí)體關(guān)系類型, ACE 標(biāo)志著關(guān)系抽取研究開始進(jìn)一步細(xì)化. ACE 在2009 年被歸入TAC(Text Analysis Conference)的一個(gè)專題, 從此關(guān)系抽取任務(wù)成為構(gòu)建知識(shí)庫的重要組成部分, 其研究成果被廣泛應(yīng)用于機(jī)器翻譯、知識(shí)圖譜[1]、問答系統(tǒng)、文本摘要等領(lǐng)域.

        經(jīng)典的實(shí)體關(guān)系抽取技術(shù)中, 監(jiān)督學(xué)習(xí)能更有效地抽取特征, 獲得較高的準(zhǔn)確率和召回率, 但這種方法所需的大量訓(xùn)練語料要人工標(biāo)注, 非常耗費(fèi)時(shí)間和人力, 增加了成本. 針對(duì)這個(gè)局限, Mintz等[2]提出了將遠(yuǎn)程監(jiān)督(distant supervision)應(yīng)用于實(shí)體關(guān)系抽取任務(wù)中, 將紐約時(shí)報(bào)中的新聞文本與已存在的知識(shí)庫Freebase 進(jìn)行了實(shí)體對(duì)齊, 并將對(duì)齊結(jié)果作為實(shí)體關(guān)系的標(biāo)注; Zeng 等[3]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)對(duì)實(shí)體進(jìn)行了關(guān)系抽取, 將詞向量和詞位置向量串接后輸入網(wǎng)絡(luò), 并根據(jù)2 個(gè)實(shí)體將句子分成3 段這一特點(diǎn)對(duì)池化層做了修改.

        本工作提出了一種基于注意力機(jī)制的端到端的分段卷積神經(jīng)網(wǎng)絡(luò)(piecewise CNN,PCNN)方法. 為了檢測(cè)更加細(xì)微的特征, 在網(wǎng)絡(luò)輸入層添加了注意力機(jī)制, 自動(dòng)學(xué)習(xí)句子中與關(guān)系抽取相關(guān)的內(nèi)容; 基于位置特征和詞向量特征對(duì)句子進(jìn)行編碼, 使用CNN 抽取句子特征并進(jìn)行分類, 并在網(wǎng)絡(luò)中使用了效率較高的最大邊界損失函數(shù)衡量模型的性能. 實(shí)驗(yàn)結(jié)果表明, 該模型準(zhǔn)確率相比于幾種基線模型表現(xiàn)更出色.

        1 相關(guān)工作

        經(jīng)典的實(shí)體關(guān)系抽取方法有監(jiān)督、無監(jiān)督、弱監(jiān)督、半監(jiān)督4 種[17]. 由于經(jīng)典方法的特征提取誤差傳播問題很大程度上影響了抽取結(jié)果, 故學(xué)者們逐漸開始采用深度學(xué)習(xí)方法進(jìn)行實(shí)體關(guān)系抽取[4]. 基于深度學(xué)習(xí)的有監(jiān)督方法是近年來關(guān)系抽取的研究熱點(diǎn), 通過有效避免人工選擇特征過程改善誤差積累問題. 根據(jù)實(shí)體識(shí)別和實(shí)體關(guān)系抽取2 個(gè)子任務(wù)完成的先后順序區(qū)別, 基于深度學(xué)習(xí)的有監(jiān)督學(xué)習(xí)方法可分為聯(lián)合學(xué)習(xí)(joint learning)[19-20]方法和流水線(pipeline)[10,20]方法. Zeng 等[5]首次提出了使用CNN 進(jìn)行實(shí)體關(guān)系分類; Katiyar 等[6]首次在聯(lián)合提取實(shí)體和實(shí)體關(guān)系中運(yùn)用了注意力機(jī)制和雙向遞歸神經(jīng)網(wǎng)絡(luò). 目前監(jiān)督學(xué)習(xí)方法在關(guān)系抽取任務(wù)中效果較好.

        然而在監(jiān)督學(xué)習(xí)中, 大量的訓(xùn)練數(shù)據(jù)需要耗費(fèi)大量時(shí)間和人力去手工標(biāo)注, 成本大大增加. 為了解決這一問題, 基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督[7]關(guān)系抽取方法逐漸被提出. 該方法主要應(yīng)用神經(jīng)網(wǎng)絡(luò), 包括CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)、長短時(shí)記憶網(wǎng)絡(luò)(long short term memory network, LSTM)等結(jié)構(gòu)[18]. 使用遠(yuǎn)程監(jiān)督方法進(jìn)行實(shí)體關(guān)系抽取時(shí)存在2 個(gè)問題. 首先, 遠(yuǎn)程監(jiān)督是將語料庫中的文本與已存在的大型知識(shí)庫(Freebase)進(jìn)行啟發(fā)式對(duì)齊, 并將對(duì)齊結(jié)果作為文本的標(biāo)注. 然而啟發(fā)式對(duì)齊的假設(shè)過于強(qiáng)烈, 會(huì)不可避免地造成大量標(biāo)簽錯(cuò)誤. 其次, 目前基于統(tǒng)計(jì)學(xué)的方法過于依賴自然語言處理工具提取特征, 特征處理過程中生成的噪聲積累嚴(yán)重影響抽取結(jié)果. 因此, 一些學(xué)者在傳統(tǒng)方法上進(jìn)行了很多改進(jìn), 初步解決了錯(cuò)誤標(biāo)簽和特征抽取誤差積累問題. Zeng 等[3]提出了一種PCNN 方法, 在詞向量基礎(chǔ)上融合了詞位置向量, 對(duì)句子進(jìn)行更詳細(xì)的向量表示, 并且提出了分段max-pooling層自動(dòng)學(xué)習(xí)相關(guān)特征; Lin 等[8]提出了將PCNN 與注意力機(jī)制融合的方法; Ji 等[9]提出了在PCNN 和Attention 基礎(chǔ)上添加知識(shí)庫中實(shí)體的描述信息來進(jìn)行實(shí)體關(guān)系抽取. 這些方法在實(shí)體關(guān)系抽取任務(wù)中均效果較好.

        2 輸入表示

        由于該實(shí)驗(yàn)的輸入是原始的詞表示(word token), 故如果在實(shí)驗(yàn)中使用神經(jīng)網(wǎng)絡(luò), 則需要將句子中的單詞轉(zhuǎn)換成低維向量. 在該模型中, 首先使用詞向量表示對(duì)輸入的句子進(jìn)行編碼,為了更詳細(xì)地挖掘上下文語義和捕獲詞語順序, 在編碼中加入每個(gè)詞的位置向量. 為了捕獲每個(gè)單詞與目標(biāo)實(shí)體間更詳細(xì)的潛在關(guān)系, 在輸入向量上添加了一個(gè)基于對(duì)角矩陣的注意力機(jī)制.

        2.1 輸入向量表示

        2.1.1 詞向量

        詞向量表示將文本中的每一個(gè)詞映射成一個(gè)m維分布式實(shí)值向量, 目的在于捕獲每個(gè)單詞的句法和語義信息. 給定一個(gè)包含m個(gè)詞的句子S={w1,w2,··· ,wm}和2 個(gè)句子中已標(biāo)注的目標(biāo)實(shí)體e1和e2, 每個(gè)詞wi均以實(shí)值向量形式表示, 最后得到一個(gè)維度為dw×|V|的詞向量矩陣Wv, 其中V是輸入的詞匯,dw是詞向量的維度, 每個(gè)詞wi被映射成一個(gè)列向量∈Rdw.

        2.1.2 位置向量

        在實(shí)體關(guān)系抽取中, 單詞距離目標(biāo)實(shí)體越近, 其包含決定實(shí)體對(duì)間關(guān)系的信息就越多.本工作使用了每個(gè)單詞相對(duì)于目標(biāo)實(shí)體對(duì)位置信息編碼了位置向量, 以便幫助神經(jīng)網(wǎng)絡(luò)捕獲每個(gè)詞相對(duì)于頭部實(shí)體e1和尾部實(shí)體e2的位置, 由2 個(gè)位置共同構(gòu)成位置向量. 比如在句子“Bill Gates is the founder of Microsoft”中, 第i(i=4)個(gè)詞“foun der”與頭部實(shí)體“Bill Gates”距離為-3, 與尾部實(shí)體“Microsoft”距離為2:

        對(duì)于一個(gè)給定詞i, 分別得到2 個(gè)與實(shí)體e1和e2相關(guān)的位置向量wPi,1和wPi,2, 將詞向量和位置向量串接起來得到第i個(gè)詞的向量, 表示為. 假設(shè)位置向量的維度為dp,wMi ∈Rd(d=dw+dp×2), 所有詞語最終編碼的向量形式為

        2.2 輸入注意力機(jī)制

        本工作對(duì)輸入句子中的詞匯做了處理, 在詞向量基礎(chǔ)上加入了位置向量的編碼, 但是仍然無法非常準(zhǔn)確及全面地捕獲句子中特殊詞語與目標(biāo)實(shí)體間的關(guān)系及其對(duì)目標(biāo)關(guān)系的影響.Attention 機(jī)制和多示例方法都被用來減弱錯(cuò)誤標(biāo)簽帶來的噪聲問題, 但多示例只用了包中1條語句信息, 而Attention 機(jī)制則綜合利用了包中所有的示例語句信息[16,21], 能夠更好地提升遠(yuǎn)程監(jiān)督在實(shí)體關(guān)系抽取任務(wù)中的效果. 由于每個(gè)句子的長度不一樣, 無論句子多長, 可能只有少量單詞包含決定了目標(biāo)實(shí)體間關(guān)系的有用信息, 因此本模型在整個(gè)句子和2 個(gè)已標(biāo)注的實(shí)體上添加了Attention 機(jī)制, 來決定句子中哪部分對(duì)2 個(gè)實(shí)體間關(guān)系影響最深, 從而自動(dòng)識(shí)別輸入句子中包含決定實(shí)體關(guān)系的豐富信息的單詞. 輸入表示和輸入層上加的注意力機(jī)制結(jié)構(gòu)如圖1 所示.

        圖1 網(wǎng)絡(luò)輸入層加入注意力機(jī)制Fig.1 Attention-based network input representation

        比如, 在例子“Bill Gates is the founder of Microsoft”中, 非實(shí)體單詞“founder”對(duì)實(shí)體關(guān)系的抽取有重要的影響, 而根據(jù)語料庫也能發(fā)現(xiàn)“founder”和尾部實(shí)體“Microsoft”之間存在特殊的聯(lián)系. 因此本工作在輸入層加入了2 個(gè)對(duì)角矩陣Pj, 對(duì)角矩陣的值是第i個(gè)詞wi向量表示和第j個(gè)實(shí)體ej向量表示的內(nèi)積, 記為f(ej,wi), 這里函數(shù)f為內(nèi)積函數(shù), 隨訓(xùn)練過程不斷更新. 計(jì)算第i個(gè)詞wi和第j個(gè)目標(biāo)實(shí)體ej的關(guān)聯(lián)度(j ∈{1,2}), 定義因子為

        在得到2 個(gè)目標(biāo)實(shí)體相關(guān)因子α1i和α2i后, 將2 個(gè)因子與上面得到的向量表示進(jìn)行3 種不同形式的聯(lián)合計(jì)算, 得到神經(jīng)網(wǎng)絡(luò)的最終輸入形式. 這里, 第1 種處理形式是將2 個(gè)因子直接進(jìn)行簡(jiǎn)單的平均操作:

        第2 種處理方式是將2 個(gè)向量直接串聯(lián)來獲得每個(gè)詞與實(shí)體e1和e2關(guān)系之間的豐富語義信息:

        第3 種處理方式是將關(guān)系看成2 個(gè)實(shí)體間的映射, 通過計(jì)算實(shí)體間的距離來捕獲2 個(gè)實(shí)體間的關(guān)系:

        最終融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型的輸入表示為R= [r1,r2,··· ,rm], 這里m為句子長度.

        3 分段卷積神經(jīng)網(wǎng)絡(luò)模型

        對(duì)于給定的句子集合{x1,x2,··· ,xn}和每個(gè)句子中標(biāo)注的目標(biāo)實(shí)體e1和e2, 本工作提出的模型預(yù)測(cè)是實(shí)體對(duì)間所有可能關(guān)系r的概率. 關(guān)系抽取任務(wù)中存在的最大挑戰(zhàn)是句子中任何單詞都可能成為包含決定目標(biāo)實(shí)體間關(guān)系的重要信息, 故需要利用句子中都有的局部特征進(jìn)行學(xué)習(xí). 在對(duì)句子進(jìn)行向量表示后, 本工作使用了Zeng 等[3]提出的PCNN 對(duì)句子進(jìn)行特征提取, 其網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示. 圖中,W為卷積核,R為輸入序列,b表示偏置向量. 本工作使用滑動(dòng)窗口從卷積層提取局部特征, 長度為l. 將提取的局部特征全部結(jié)合, 輸入改進(jìn)的分段池化操作層, 最終得到一個(gè)已定義尺寸的向量. 最后在Softmax 層定義了網(wǎng)絡(luò)預(yù)測(cè)輸出g與候選關(guān)系y的距離函數(shù), 基于此函數(shù)提出基于邊界的損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練.

        圖2 用于句子編碼的PCNN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 PCNN network structure for sentence encoding

        3.1 卷積

        卷積操作是求權(quán)重矩陣w和輸入序列R的內(nèi)積. 這里, 權(quán)重矩陣又叫做卷積核W ∈Rdc×(l×d), 其中dc為句子向量. 對(duì)于輸入句子序列R = [r1,r2,··· ,rm], 定義向量qi ∈Rl×d作為第i個(gè)窗口內(nèi)的m個(gè)詞向量的串接

        由于滑動(dòng)窗口存在滑到句子邊界之外的可能, 故本工作給句子邊界設(shè)置了填充邊距, 即所有超出輸入向量范圍的部分都看作是零向量. 考慮到需要抽取不同特征, 本工作使用了多個(gè)卷積核. 假設(shè)實(shí)驗(yàn)過程中本工作使用了n個(gè)卷積核(W={w1,w2,··· ,wn}),b為偏置向量, 卷積層第i個(gè)卷積核提取特征為

        可見, 卷積操作得到的結(jié)果是一個(gè)矩陣P={p1,p2,··· ,pn}∈Rn×(m+l-1).

        3.2 分段最大池化

        為了避免特征抽取過程受句子長度影響, 需要將卷積層抽取到的特征結(jié)合起來. 傳統(tǒng)的CNN 中通常使用最大池化操作來解決句子長度多變的問題, 捕捉每個(gè)特征圖中的最有效特征.但是, 單層的最大池化操作過于粗糙, 難以捕捉關(guān)系抽取中的細(xì)粒度特征和2 個(gè)實(shí)體間的結(jié)構(gòu)信息. 在利用遠(yuǎn)程監(jiān)督進(jìn)行關(guān)系提取時(shí), 輸入句子中已標(biāo)注的2 個(gè)目標(biāo)實(shí)體將句子劃分為3 個(gè)部分, 因此提出一種分段最大池化操作返回每一部分最大值的方法. 每個(gè)過濾器的輸出pi被頭部實(shí)體e1和尾部實(shí)體e2分為3 部分:{pi1,pi2,pi3}, 分別在3 個(gè)部分中進(jìn)行池化操作, 最終輸出結(jié)果為

        每個(gè)過濾器的輸出經(jīng)過分段最大池化操作后得到一個(gè)3 維向量ci={ci1,ci2,ci3}, 然后將所有向量串接為ci:n, 最后采用一個(gè)雙曲正切非線性激活函數(shù). 池化層最終輸出向量為

        此時(shí)g的大小固定, 不再與句子長度有關(guān),g ∈R3m.

        3.3 損失函數(shù)

        學(xué)習(xí)過程存在2 個(gè)向量, 一個(gè)是將輸入句子編碼后映射到關(guān)系空間中得到的向量g, 另一個(gè)是模型自動(dòng)學(xué)習(xí)的實(shí)體對(duì)對(duì)應(yīng)的所有關(guān)系y ∈Y的向量My. 基于這2 個(gè)向量, 本工作定義了模型輸出g與候選關(guān)系y的距離函數(shù)

        基于上述目標(biāo)函數(shù)設(shè)計(jì)了一個(gè)基于邊界的損失函數(shù)L, 其中1 為邊界,δθ(S,-)為g和一個(gè)不正確的關(guān)系標(biāo)簽-的距離,δθ(S,-)為從所有不正確類中選出的得分最高項(xiàng):

        這種基于邊界的損失函數(shù)和其他損失函數(shù)相比具有較高的效率, 基于前面求出的距離函數(shù), 本工作最小化了預(yù)測(cè)輸出與ground-truth 標(biāo)簽之間的差距, 同時(shí)最大化了與所選錯(cuò)誤類別之間的距離, 參數(shù)θ′隨著隨機(jī)梯度下降(stochastic gradient descent, SGD)迭代更新, 最終使δθ(S,y)逐漸減小, 而δθ()逐漸增大. 參數(shù)更新為

        式中:λ和λ1為學(xué)習(xí)率,

        4 實(shí) 驗(yàn)

        4.1 數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn)

        本實(shí)驗(yàn)使用的數(shù)據(jù)集是Riedel 等[11]提出的NYT-FB,Hoffmann 等[12]和Surdeanu 等[13]也在該數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn). NTY-FB 是實(shí)體關(guān)系抽取的標(biāo)準(zhǔn)語料庫, 包含自己標(biāo)注命名實(shí)體的紐約時(shí)報(bào)語料庫文本, 該語料庫使用斯坦福的命名實(shí)體識(shí)別系統(tǒng)[14]標(biāo)注, 并且自動(dòng)將實(shí)體鏈接到Freebase 知識(shí)庫中, 通過將NYT 中成對(duì)的命名實(shí)體與Freebase 對(duì)齊來標(biāo)記實(shí)體的關(guān)系類型. 數(shù)據(jù)集中的關(guān)系被分為2 個(gè)部分, 分別用來訓(xùn)練和測(cè)試. 訓(xùn)練數(shù)據(jù)為知識(shí)庫對(duì)齊2005 年、2006 年文本獲得的, 測(cè)試數(shù)據(jù)為知識(shí)庫對(duì)齊2007 年文本獲得的. NYTFB 數(shù)據(jù)集中共有53 種關(guān)系, 包括一個(gè)特殊的關(guān)系NA(NA 表示頭部實(shí)體和尾部實(shí)體間沒有關(guān)系). 數(shù)據(jù)集中共有695 059 條數(shù)據(jù), 其中訓(xùn)練集包含522 611 條訓(xùn)練數(shù)據(jù), 281 270個(gè)實(shí)體對(duì)和18 252 個(gè)實(shí)體關(guān)系, 訓(xùn)練數(shù)據(jù)中有接近80% 的句子標(biāo)簽為NA. 測(cè)試集包含172 448 條測(cè)試語句, 96 678 個(gè)實(shí)體對(duì)和1 950 個(gè)關(guān)系事實(shí).

        本實(shí)驗(yàn)使用Mintz 等[15]提出的留出評(píng)估法對(duì)模型進(jìn)行評(píng)估. 這種方法通過比較測(cè)試語料庫中學(xué)習(xí)到的關(guān)系與Freebase 中的關(guān)系事實(shí)來評(píng)估模型的性能. 該評(píng)估方法不需要耗費(fèi)大量時(shí)間去人工評(píng)估, 也能達(dá)到很高的精確度. 將準(zhǔn)確率(precision)和召回率(recall)作為模型評(píng)估的基本評(píng)價(jià)指標(biāo):

        4.2 實(shí)驗(yàn)參數(shù)設(shè)置

        4.2.1 詞向量

        本工作中使用詞袋模型Word2vec 在NYT 語料庫上訓(xùn)練詞向量. 首先從訓(xùn)練文本數(shù)據(jù)中構(gòu)造一個(gè)詞匯庫, 然后學(xué)習(xí)單詞的向量表示. 訓(xùn)練過程中只保留在語料庫中出現(xiàn)的頻率超過100 的詞匯, 對(duì)于由多個(gè)詞組成的實(shí)體, 將多個(gè)詞向量進(jìn)行串接.

        4.2.2 參數(shù)設(shè)置

        根據(jù)之前的工作, 本工作使用網(wǎng)格搜索確定最優(yōu)參數(shù), 選擇隨機(jī)梯度下降方法的學(xué)習(xí)率λ ∈{0.3,0.03,0.003,0.000 3},λ1∈{0.1,0.01,0.001,0.000 1}, 滑動(dòng)窗口長度l ∈{1,2,3,4,5,6,7,8}, 句子向量大小n ∈{50,60,··· ,300}, batch sizeB ∈{40,160,640,1 280}. 由于其他參數(shù)對(duì)實(shí)驗(yàn)結(jié)果影響非常小, 故本工作采用Zeng 等[5]實(shí)驗(yàn)中的參數(shù)設(shè)置, 所有訓(xùn)練數(shù)據(jù)迭代訓(xùn)練25 次(見表1).

        表1 參數(shù)設(shè)置Table 1 Parameter setting

        4.3 實(shí)驗(yàn)結(jié)果分析

        表2 展示了本工作提出的基于注意力的PCNN 模型與當(dāng)前其他方法實(shí)驗(yàn)結(jié)果比較. 經(jīng)過比較發(fā)現(xiàn), 本工作提出的新的基于注意力的網(wǎng)絡(luò)結(jié)構(gòu)在實(shí)體關(guān)系分類數(shù)據(jù)集上取得了顯著的效果. 該網(wǎng)絡(luò)結(jié)構(gòu)在神經(jīng)網(wǎng)絡(luò)的輸入層加入了注意力機(jī)制, 卷積操作完成后經(jīng)過分層最大池化操作生成固定大小的輸出向量, 然后在Softmax 層對(duì)輸出向量應(yīng)用了一個(gè)基于邊界的新的損失函數(shù), 這種方法在NYT 數(shù)據(jù)集上取得了88.2%的準(zhǔn)確率. 為了解決標(biāo)簽錯(cuò)誤問題, Jiang等[16]提出了一種多示例多標(biāo)簽CNN(multi-instance multi-label CNN, MIMLCNN) 模型對(duì)實(shí)體關(guān)系抽取進(jìn)行分類, 而本工作提出的模型結(jié)果準(zhǔn)確率比MIMLCNN 模型(69.0%)高了很多.后來, Zeng 等[3]提出了廣泛應(yīng)用于實(shí)體關(guān)系抽取的遠(yuǎn)程監(jiān)督模型PCNN, 被用作實(shí)體關(guān)系抽取的基線模型, 該模型將PCNN 模型與多示例學(xué)習(xí)結(jié)合, 取得了不錯(cuò)的成果, 但本工作結(jié)果比經(jīng)典的PCNN+MIL 模型(86.0%)提高了2.0%, 相比于Ji 等[9]提出的在模型中加入實(shí)體描述信息和在網(wǎng)絡(luò)輸出加入注意力機(jī)制的APCNN+D 模型(87.0%)也提高了1.0%.

        表2 不同方法分類結(jié)果準(zhǔn)確率比較Table 2 Precision comparison of accuracy for relation extraction in the entity pairs with different methods

        為了更好地衡量模型中各部分的不同組合效果, 本工作還在另外幾個(gè)簡(jiǎn)化模型上進(jìn)行了實(shí)驗(yàn). 第1 種簡(jiǎn)化模型是將模型輸入層的注意力機(jī)制去掉, 將詞向量和位置向量的串接直接輸入網(wǎng)絡(luò)中訓(xùn)練; 第2 種是將基于邊界的損失函數(shù)換成一個(gè)簡(jiǎn)單的基于內(nèi)積的損失函數(shù). 實(shí)驗(yàn)結(jié)果可以看出, 這2 種簡(jiǎn)化模型相對(duì)于基線模型準(zhǔn)確率都有所提升.

        表3 主模型和簡(jiǎn)化模型變體結(jié)果準(zhǔn)確率比較Table 3 Comparison of accuracy between main and simplified models

        5 結(jié)束語

        本工件沒有使用復(fù)雜的自然語言預(yù)處理工具, 而是在應(yīng)用于實(shí)體關(guān)系抽取任務(wù)的經(jīng)典遠(yuǎn)程監(jiān)督模型PCNN 輸入層中添加了注意力機(jī)制, 并且在Softmax 層使用了一種新的基于邊界的損失函數(shù). 實(shí)驗(yàn)結(jié)果表明, 與過于依賴結(jié)構(gòu)化模型和NLP 資源先驗(yàn)知識(shí)的各種方法相比, 本工作提出的這種簡(jiǎn)單高效的模型性能更加優(yōu)異. 在以后的研究中, 如何進(jìn)一步提高實(shí)體關(guān)系分類的準(zhǔn)確率和模型的學(xué)習(xí)效率, 如何改進(jìn)本模型使其可以應(yīng)用于更多其他自然語言處理子任務(wù)是要繼續(xù)努力的方向.

        猜你喜歡
        注意力實(shí)體卷積
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        A Beautiful Way Of Looking At Things
        久久久99精品成人片| 午夜无码亚| 精品日韩av专区一区二区| 亚洲国产熟女精品传媒| 国产成人无码精品久久二区三区| 亚洲精品自产拍在线观看| 三级全黄的视频在线观看| 国产自拍三级黄片视频| 优优人体大尺大尺无毒不卡| 国产亚洲精品资源在线26u| 日本韩国一区二区三区| 加勒比久草免费在线观看| 白白在线视频免费观看嘛| 亚洲av福利无码无一区二区| 国产亚洲精品看片在线观看| 国产成人夜色在线视频观看| 国产天堂av在线一二三四| 黑色丝袜秘书夹住巨龙摩擦| 999国产精品视频| 国产精品一区二区三区黄片视频 | 国产亚洲精品97在线视频一| 欧洲熟妇色xxxx欧美老妇多毛| 手机看片福利盒子久久青| 最近中文字幕一区二区三区| 欧美乱妇高清无乱码免费| 亚洲av无码精品色午夜| 精品综合久久久久久8888 | 国产av剧情刺激对白| 亚洲av无码一区二区乱孑伦as| 狠狠躁夜夜躁人人爽天天| 少妇人妻在线伊人春色| 日本xxxx色视频在线观看| 精品人妻一区二区三区四区| 国产成年无码AⅤ片日日爱| 精品一区二区av在线| 免费看黑人男阳茎进女阳道视频| 99在线精品国产不卡在线观看| 亚洲一区二区丝袜美腿| 浓毛老太交欧美老妇热爱乱 | 国产精品理人伦国色天香一区二区| 一本大道加勒比东京热|