亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于實(shí)體圖路徑聚合的多實(shí)體關(guān)系抽取

        2020-09-04 04:58:50喬晶晶段利國
        關(guān)鍵詞:實(shí)體語義向量

        喬晶晶,溫 政,段利國+,王 莉

        (1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 太原 030024;2.太原理工大學(xué) 大數(shù)據(jù)學(xué)院,山西 太原 030024)

        0 引 言

        實(shí)體關(guān)系抽取是自然語言處理(NLP)領(lǐng)域中信息抽取的一個(gè)重要子任務(wù),其目的是抽取命名實(shí)體之間的語義關(guān)系,廣泛應(yīng)用于知識庫構(gòu)建、語義搜索、智能問答等領(lǐng)域,受到了研究者的廣泛關(guān)注。關(guān)系類型確定的關(guān)系抽取通過給實(shí)體對劃分一個(gè)預(yù)先定義好的關(guān)系類型完成關(guān)系抽取任務(wù)。已有的研究大多在僅包含一個(gè)標(biāo)注實(shí)體對的句子中進(jìn)行關(guān)系抽取,這種情況過于理想化,現(xiàn)實(shí)句子中往往包含多個(gè)實(shí)體。多實(shí)體關(guān)系抽取的相關(guān)研究仍處于起步階段,其研究對構(gòu)建商業(yè)應(yīng)用并落地具有重要的意義。

        本文針對多實(shí)體關(guān)系抽取進(jìn)行研究,主要貢獻(xiàn)如下:① 提出一種基于神經(jīng)網(wǎng)絡(luò)的多實(shí)體關(guān)系抽取模型。②在基于實(shí)體圖的多實(shí)體關(guān)系抽取時(shí)提出一種具有良好解釋性的路徑聚合算法。③在ACE 2005英文數(shù)據(jù)集的關(guān)系抽取任務(wù)上取得了很好的效果。

        1 相關(guān)工作

        單一實(shí)體對關(guān)系抽取的研究方法主要分為基于知識工程和基于機(jī)器學(xué)習(xí)兩種。基于知識工程的方法高度依賴專家構(gòu)建的規(guī)則庫,通過與規(guī)則的匹配進(jìn)行關(guān)系抽取。這種方法的優(yōu)點(diǎn)是在限定領(lǐng)域表現(xiàn)卓越,缺點(diǎn)是構(gòu)建規(guī)則過度依賴專家知識和經(jīng)驗(yàn),因此工作量巨大,而且領(lǐng)域界限明顯,通用性不足。

        越來越多的研究者將機(jī)器學(xué)習(xí)的方法應(yīng)用于關(guān)系抽取。一種方法是基于特征的方法,結(jié)合啟發(fā)式方法提取詞匯、句法、語義等特征,對特征向量化,利用機(jī)器學(xué)習(xí)算法完成關(guān)系抽取。實(shí)體詞義、詞性、相鄰實(shí)體信息等詞匯特征,語塊、句法樹等句法特征,實(shí)體類型、語義角色等語義特征被關(guān)系抽取研究者廣泛采用,特別是多特征融合對關(guān)系抽取性能的提升效果明顯?;诤撕瘮?shù)的方法通過核函數(shù)比較語料之間的句法結(jié)構(gòu)相似性進(jìn)行關(guān)系分類,節(jié)省了基于特征工程的方法構(gòu)建高維復(fù)雜特征工程的工作。常用的核函數(shù)有卷積核函數(shù)、實(shí)體對間最小公共子樹核函數(shù)、實(shí)體對間最短依存路徑核函數(shù)等。結(jié)構(gòu)信息的隱形特征中可能存在的噪聲、語義多樣性產(chǎn)生不同句法結(jié)構(gòu)樹、長短語料處理能力不同等都影響該方法的性能。

        近年來,基于深度學(xué)習(xí)的關(guān)系抽取方法成為主流。相關(guān)研究如下:文獻(xiàn)[1]從特定的標(biāo)記數(shù)據(jù)中學(xué)習(xí)到重要的特征,利用注意力機(jī)制計(jì)算句子中每個(gè)詞對于實(shí)體關(guān)系類別的重要程度,將詞嵌入、詞性嵌入、位置嵌入作為卷積神經(jīng)網(wǎng)絡(luò)的輸入實(shí)現(xiàn)語義關(guān)系抽取。文獻(xiàn)[2]將關(guān)系抽取擴(kuò)展到了多種語言,考慮到多語言文本中信息的一致性和完整性,使用跨語言注意力機(jī)制,提出多語言神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型。由于遠(yuǎn)程監(jiān)督方法構(gòu)造的數(shù)據(jù)集中存在大量的噪聲,文獻(xiàn)[3]用生成式對抗網(wǎng)絡(luò)(GAN)來過濾數(shù)據(jù),將生成器生成的正樣本視為負(fù)樣本,用以訓(xùn)練判別器,選擇判別器的判別能力達(dá)到最低時(shí)的生成器作為最優(yōu)的生成器,然后用這個(gè)生成器來過濾掉假陽性句子,最終生成低噪聲的關(guān)系抽取數(shù)據(jù)集。針對傳統(tǒng)方法未考慮深度學(xué)習(xí)模型輸入與輸出之間相關(guān)性這一問題,文獻(xiàn)[4]在長短期記憶網(wǎng)絡(luò)模型中加入注意力機(jī)制,提取了更有效的文本特征,提高了關(guān)系抽取的準(zhǔn)確率。文獻(xiàn)[5]提出基于全局優(yōu)化的端到端關(guān)系抽取模型,充分考慮上下文的作用,通過雙仿射關(guān)注解析器的長短期記憶網(wǎng)絡(luò)學(xué)習(xí)并獲取輸入句子的特征。孫紫陽等[6]首先使用雙向長短期記憶網(wǎng)絡(luò)學(xué)習(xí)最短依存路徑的表示信息,然后用卷積神經(jīng)網(wǎng)絡(luò)在長短期記憶網(wǎng)絡(luò)的輸出上訓(xùn)練分類模型。文獻(xiàn)[7]提出一種基于最短依存路徑的雙通道深度學(xué)習(xí)模型,將使用Word2vec表示的句子最短依存路徑作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,將使用GloVe表示的句子最短依存路徑作為雙向長短期記憶網(wǎng)絡(luò)的輸入,拼接兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)的特征,通過softmax分類器得出所屬關(guān)系的類型。實(shí)驗(yàn)結(jié)果表明結(jié)合順序記憶和卷積學(xué)習(xí)會有更好的效果。

        多實(shí)體對的研究由于數(shù)據(jù)集匱乏、難度高,目前相關(guān)研究比較少,是關(guān)系抽取研究的新趨勢。已有的研究有:文獻(xiàn)[8]提出了采用復(fù)制機(jī)制的端到端模型,在New York Times(NYT)數(shù)據(jù)集和WebNLG數(shù)據(jù)集的多實(shí)體關(guān)系抽取上均取得不錯(cuò)的效果。常規(guī)的關(guān)系抽取都是先進(jìn)行命名實(shí)體識別,然后確定實(shí)體間的關(guān)系類型。文獻(xiàn)[9]提供了新思路,在命名實(shí)體識別和關(guān)系抽取的聯(lián)合學(xué)習(xí)中,先進(jìn)行關(guān)系檢測,然后識別該關(guān)系的兩個(gè)實(shí)體;將任務(wù)分為關(guān)系指示符識別和關(guān)系中實(shí)體提取兩個(gè)分層強(qiáng)化學(xué)習(xí)過程,解決了關(guān)系抽取中一個(gè)句子存在多個(gè)關(guān)系和關(guān)系重疊的問題。文獻(xiàn)[10]考慮了句子中不同實(shí)體之間的關(guān)聯(lián),構(gòu)建有向圖并迭代的更新實(shí)體對之間邊的表示,為多實(shí)體關(guān)系抽取提供了新的啟發(fā),文中提出的路徑聚合算法雖然取得了不錯(cuò)的效果,但缺乏可解釋性,不符合節(jié)點(diǎn)間路徑的定義。

        本文基于以上研究,在實(shí)體間路徑聚合時(shí)提出一種方法,同時(shí)考慮實(shí)體間不同長度的路徑,將相同長度的路徑通過注意力機(jī)制表示成單一向量,不同長度路徑的單一向量表示拼接,作為特征,進(jìn)行關(guān)系抽取。

        2 關(guān)系抽取模型

        本文研究多實(shí)體關(guān)系抽取,針對文獻(xiàn)[10]的路徑聚合算法可解釋性不足,不符合對路徑直觀理解這一情況,提出一種路徑聚合算法。在路徑聚合時(shí)將實(shí)體間不同長度的路徑通過注意力機(jī)制聚合為單一向量,然后進(jìn)行關(guān)系抽取。圖1為多實(shí)體關(guān)系抽取的模型結(jié)構(gòu),包含向量層、雙向LSTM層、實(shí)體對及實(shí)體對上下文提取層、邊表示層、路徑聚合層和分類層。

        2.1 向量層

        向量層由兩部分組成:分別為詞向量和詞相對目標(biāo)實(shí)體對位置的位置向量。詞向量技術(shù)將詞語轉(zhuǎn)換成一個(gè)包含豐富語義信息的低維實(shí)值向量,語義相似的詞會有相似的詞向量,是基于深度學(xué)習(xí)的自然語言處理領(lǐng)域取得重大突破的關(guān)鍵技術(shù)。Word2vec是谷歌開發(fā)的目前最為通用的詞向量預(yù)訓(xùn)練模型。由于本文實(shí)驗(yàn)數(shù)據(jù)集規(guī)模較小,在數(shù)據(jù)集上訓(xùn)練的詞向量不夠充分,語義表示能力差,因此本文使用Mikolov等用Word2Vec在Google News語料上訓(xùn)練得到的詞向量對語句鏡像向量化表示。詞相對目標(biāo)實(shí)體對位置的位置向量定義為文檔中的詞與兩個(gè)實(shí)體詞之間距離的向量化表示,對判別兩個(gè)實(shí)體之間的語義信息有所幫助。

        2.2 BLSTM層

        長短期記憶網(wǎng)絡(luò)是一種特殊的RNN結(jié)構(gòu),通過自適應(yīng)門控機(jī)制決定記憶單元保留上一級記憶狀態(tài)和提取當(dāng)前輸入特征的程度,可以處理RNN面臨的長期依賴問題。長短期記憶網(wǎng)絡(luò)由遺忘門、輸入門、輸出門和記憶單元組成。雙向長短期記憶網(wǎng)絡(luò)同時(shí)考慮前向和后向的詞信息,能夠捕捉雙向語義信息。本文將文檔中每個(gè)詞的詞向量表示輸入雙向長短期記憶網(wǎng)絡(luò),為每個(gè)詞編碼上下文信息,BLSTM網(wǎng)絡(luò)的輸出為考慮了詞序列信息的新的詞級別的向量表示。對于每個(gè)詞w,將LSTM網(wǎng)絡(luò)從左到右和從右到左的輸出進(jìn)行拼接,作為該詞的BLSTM表示,如式(1)所示

        圖1 基于實(shí)體圖路徑聚合的多實(shí)體關(guān)系抽取模型

        (1)

        2.3 邊表示層

        利用實(shí)體對及實(shí)體對上下文提取層得到的實(shí)體對及實(shí)體對上下文表示實(shí)體對之間的邊。假設(shè)實(shí)體對包含實(shí)體ei和ej,如果一個(gè)實(shí)體由多個(gè)詞組成,將這些詞的BLSTM表示的平均作為該實(shí)體的BLSTM表示,如式(2)所示,其中in為實(shí)體ei包含詞的個(gè)數(shù),bik為實(shí)體ei的第k個(gè)詞的BLSTM向量表示

        (2)

        實(shí)體ei的向量表示由其BLSTM表示bi、實(shí)體類型表示ti及其與實(shí)體ej相對位置的位置向量pij拼接而成。同理,表示ej時(shí),使用其與ei的相對位置的位置向量pji。式(3)、式(4)所示為實(shí)體ei和實(shí)體ej的向量表示

        vi=[bi;ti;pij]

        (3)

        vj=[bj;tj;pji]

        (4)

        實(shí)體對ei和ej的上下文詞wz由其BLSTM表示bz及相對實(shí)體ei和ej位置的位置向量pzi和pzj拼接而成,如式(5)所示

        vijz=[bz;pzi;pzj]

        (5)

        將實(shí)體對不同上下文詞的表示通過注意力機(jī)制轉(zhuǎn)化為單一表示。過程為先計(jì)算每個(gè)上下文詞的權(quán)重,然后將其加權(quán)平均。如式(6)、式(7)、式(8)、式(9)所示

        (6)

        u=qTtanh(Cij)

        (7)

        α=softmax(u)

        (8)

        cij=CijαT

        (9)

        其中,m是上下文詞的個(gè)數(shù),q是一個(gè)可訓(xùn)練的注意力向量,維數(shù)為dc,dc=db+2dp,db是上下文詞BLSTM表示的維數(shù),dp是位置向量的維數(shù)。α是權(quán)重向量,cij為經(jīng)過加權(quán)平均的實(shí)體對上下文表示。

        最后,拼接實(shí)體和實(shí)體對上下文的表示,作為節(jié)點(diǎn)i到節(jié)點(diǎn)j有向邊的向量表示,如式(10)所示

        edgeij=[vi;vj;cij]

        (10)

        2.4 路徑聚合層

        路徑聚合的目的是將實(shí)體對間不同長度的路徑整合為單一表示,因此本文把文檔表示為有向圖,圖中的節(jié)點(diǎn)為文檔中的實(shí)體。當(dāng)實(shí)體個(gè)數(shù)為n時(shí),兩個(gè)實(shí)體間的路徑長度可以為1,2,3,…,n-1,選取路徑長度為1,2,…,m(m

        (11)

        u=Wp·tanh(Pathj)

        (12)

        α=softmax(u)

        (13)

        pathj=PathjαT

        (14)

        圖2 路徑長度為2時(shí)的路徑

        當(dāng)某種路徑長度的路徑不存在時(shí),用零向量作為該路徑長度的表示。最后,將不同路徑長度的向量表示拼接,作為實(shí)體對間關(guān)系的表示,如式(15)所示

        R=[path1,path2,…,pathl]

        (15)

        2.5 分類層

        將上一節(jié)考慮實(shí)體對、實(shí)體類別、實(shí)體位置、實(shí)體上下文的實(shí)體對間關(guān)系的表示輸入到帶softmax分類函數(shù)的全連接層,完成關(guān)系抽取,如式(16)所示。

        y=softmax(Wr(R°r)+br)

        (16)

        其中,Wr∈Rnr×nb,nr表示關(guān)系類型總數(shù),nb表示路徑聚合后向量的維度,br是偏差向量,符號°表示逐元素相乘,r∈Rnr是服從概率為ρ的零一分布的遮掩向量。

        模型的優(yōu)化目標(biāo)是最小化預(yù)測關(guān)系類型與實(shí)際關(guān)系類型之間的交叉熵?fù)p失函數(shù)。損失函數(shù)如式(17)所示

        (17)

        其中,Θ表示模型的超參數(shù),S表示訓(xùn)練集中所有的實(shí)體對集合,yi取值為1或0,表示實(shí)體對s與關(guān)系類別i對應(yīng)或不對應(yīng)。

        模型使用dropout避免過擬合,使用反向傳播計(jì)算梯度,采用Adam優(yōu)化器進(jìn)行優(yōu)化。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        本文使用標(biāo)準(zhǔn)數(shù)據(jù)集ACE 2005評測基于實(shí)體圖路徑聚合的多實(shí)體關(guān)系抽取模型,該數(shù)據(jù)集包含來自博客、新聞稿、廣播等不同來源的599篇文檔,7種關(guān)系類型,其中METONYMY、PER-SOC和PHYS是對稱的、沒有方向的,其余4種ART、GEN-AFF、ORG-AFF、PART-WHOLE是有方向的,加上Other類型,共12種關(guān)系類型。使用精確率、召回率和F1值作為評價(jià)標(biāo)準(zhǔn)。

        3.2 超參數(shù)設(shè)置

        本文從訓(xùn)練集中隨機(jī)劃分出1/10的數(shù)據(jù)作為驗(yàn)證集,在驗(yàn)證集上得出模型的超參數(shù)取值,見表1。

        表1 模型超參數(shù)及取值

        3.3 實(shí)驗(yàn)結(jié)果分析

        3.3.1 不同模型的結(jié)果分析

        為充分驗(yàn)證基于實(shí)體圖路徑聚合的多實(shí)體關(guān)系抽取模型的性能,本文選擇近年來在ACE 2005數(shù)據(jù)集上進(jìn)行實(shí)體關(guān)系抽取取得較好成績的方法進(jìn)行比較。

        Meishan Zhang等[5]提出全局優(yōu)化的關(guān)系抽取模型Global Optimization,該方法通過背景知識獲取語義信息,并且將其用于全局優(yōu)化。Miwa和Bansal[11]提出SPTree system,該方法在詞序列和依存樹結(jié)構(gòu)上堆疊雙向LSTM,在實(shí)體識別和關(guān)系抽取時(shí)共享權(quán)重參數(shù)。Fenian Christopoulou和Makoto Miwa[10]提出基于路徑聚合的方法Walk Aggregation,該方法在實(shí)體圖路徑聚合時(shí)采用線性變換,然后迭代地更新路徑。

        表2為不同方法的實(shí)驗(yàn)結(jié)果對比。由表可知,隨著采用路徑長度的增加,關(guān)系抽取的F1值會提高,在路徑長度為4時(shí),F(xiàn)1值最高,達(dá)到66.1,比Global Optimization方法高8.6,比SPTREE方法高0.8,比原始路徑聚合方法Walk Aggregation最高的F1值高1.9。表明本文提出的路徑聚合算法能夠有效抽取多實(shí)體關(guān)系。當(dāng)路徑長度繼續(xù)增加時(shí),F(xiàn)1值緩慢下降,經(jīng)過分析,可能原因如下:一方面,數(shù)據(jù)集中半數(shù)樣本包含5個(gè)及以下實(shí)體,這部分樣本路徑長度小于等于4。若繼續(xù)增加對這部分樣本的路徑,反而會增加模型參數(shù)的數(shù)量,增大過擬合的風(fēng)險(xiǎn),使模型在測試集上表現(xiàn)變差。另一方面,實(shí)體之間較短的路徑會蘊(yùn)含關(guān)系類型信息,而過長的路徑由于相隔距離遠(yuǎn),可能不再包含關(guān)系類型信息。

        表2 不同算法實(shí)驗(yàn)結(jié)果對比

        3.3.2 不同實(shí)體數(shù)目的結(jié)果分析

        為探究本文方法在實(shí)體數(shù)目不同時(shí)的表現(xiàn),本部分對實(shí)體數(shù)目不同時(shí)的F1值進(jìn)行分析,結(jié)果見表3。由表3,隨著句子中包含實(shí)體對數(shù)的增多,模型抽取效果下降,該結(jié)果符合常識,因?yàn)閷?shí)體對數(shù)多的句子中,不同實(shí)體錯(cuò)綜復(fù)雜,對關(guān)系抽取造成干擾。

        圖3為實(shí)體數(shù)為4~6、6~12、12~23時(shí)的實(shí)驗(yàn)結(jié)果。由圖可知,路徑長度從2增加到4時(shí),F(xiàn)1值均有所提升,表明對于包含實(shí)體數(shù)目較多的文檔,當(dāng)路徑長度增加時(shí),由于本文方法充分考慮了實(shí)體間不同長度路徑蘊(yùn)含的語義信息,能夠更好表示實(shí)體間的關(guān)系,抽取效果有所提升。

        圖3 路徑長度對結(jié)果的影響

        3.3.3 不同關(guān)系類型結(jié)果分析

        為探究本文方法在不同關(guān)系類別上的表現(xiàn),本部分對除other類之外的11種關(guān)系類型的F1值進(jìn)行分析,實(shí)驗(yàn)結(jié)果如圖4所示,橫坐標(biāo)中大寫字母為關(guān)系類型首字母的縮寫。

        圖4 不同關(guān)系類別上的實(shí)驗(yàn)結(jié)果

        由圖4可知,由于關(guān)系類型METONYMY和PHYS是對稱的,不需要考慮方向,比需要考慮方向的關(guān)系類型容易判斷,所以其F1值最高。PER-SOC結(jié)果最差,經(jīng)過分析發(fā)現(xiàn)數(shù)據(jù)集中該關(guān)系類型的樣本較少,導(dǎo)致學(xué)習(xí)不充分。

        4 結(jié)束語

        本文提出一種改進(jìn)的基于實(shí)體圖路徑聚合的多實(shí)體關(guān)系抽取模型,在基于實(shí)體圖的多實(shí)體關(guān)系抽取時(shí),同時(shí)考慮實(shí)體間不同長度的路徑,采用注意力機(jī)制聚合長度相同的不同路徑,綜合不同路徑蘊(yùn)含的語義信息。實(shí)驗(yàn)結(jié)果表明,在ACE 2005數(shù)據(jù)集上,本文方法性能優(yōu)于當(dāng)前已有的方法。

        與RNN相比,transformer有更強(qiáng)的捕獲長距離特征的能力,并且訓(xùn)練速度更快。下一步,我們將嘗試使用transformer特征抽取器或者多層自注意力代替LSTM,用抽取的結(jié)果表示實(shí)體圖中的邊,以期進(jìn)一步提高多實(shí)體關(guān)系抽取效果。

        猜你喜歡
        實(shí)體語義向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        語言與語義
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        午夜久久精品国产亚洲av| 极品夫妻一区二区三区| 中文字幕午夜精品一区二区三区 | 激情97综合亚洲色婷婷五| 欧美高h视频| 乳乱中文字幕熟女熟妇| 亚洲夜夜性无码| 狠狠躁天天躁中文字幕| 欧美丰满熟妇bbbbbb百度| 日韩欧美在线播放视频| 亚洲一区二区一区二区免费视频| 国产av剧情精品麻豆| 国产裸体美女永久免费无遮挡| 国产欧美日韩精品a在线观看| av一区二区三区亚洲| 中文字幕精品一区二区三区av| 国产成人无码a区在线观看导航| 无码精品人妻一区二区三区av | 久久亚洲sm情趣捆绑调教| 欧美日韩中文国产一区发布| 亚洲AV无码一区二区二三区我| 在线播放偷拍一区二区| 曰批免费视频播放免费| 欧妇女乱妇女乱视频| 91福利国产在线观一区二区| 亚洲精品一区二区三区av| 美女主播网红视频福利一区二区| 成人麻豆日韩在无码视频| 国产又色又爽无遮挡免费| 国产伦码精品一区二区| 被灌醉的日本人妻中文字幕| 亚欧美日韩香蕉在线播放视频| 精品欧美在线| 日日噜噜夜夜久久密挑| 91色区在线免费观看国产| 久久久久成人精品无码| 国产又黄又爽视频| 久久青青草原亚洲av| 国产精品久久久久久av| 日日碰狠狠躁久久躁96avv| 黄片在线观看大全免费视频|