亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合雙階段解碼的實(shí)體關(guān)系聯(lián)合抽取方法

        2023-10-30 08:58:02常思杰林浩田
        關(guān)鍵詞:三元組集上解碼

        常思杰,林浩田,江 靜

        北京聯(lián)合大學(xué) 智慧城市學(xué)院 物聯(lián)網(wǎng)與機(jī)器人實(shí)驗(yàn)室,北京 100101

        構(gòu)建知識(shí)圖譜需要大量的三元組,三元組的獲取除了可以通過(guò)IS-A 的上下位獲取,再就是關(guān)系抽取。關(guān)系抽取可以把文本中的實(shí)體對(duì)抽取出來(lái),并識(shí)別出實(shí)體對(duì)之間的語(yǔ)義關(guān)系,形成(主體實(shí)體,關(guān)系,客體實(shí)體)的形式,這種包含了語(yǔ)義關(guān)鍵信息的形式,稱為實(shí)體-關(guān)系(entity-relation)三元組(triplets)。因此,關(guān)系抽取可以在知識(shí)圖譜、信息檢索、問(wèn)答系統(tǒng)、情感分析、文本挖掘中廣泛應(yīng)用。

        現(xiàn)有的關(guān)系抽取主要包括有監(jiān)督方法、無(wú)監(jiān)督方法、半監(jiān)督方法和開(kāi)放式實(shí)體關(guān)系抽取方法?;谏疃葘W(xué)習(xí)階段的監(jiān)督實(shí)體關(guān)系抽取方法主要有流水線(Pipline)方法[1]和聯(lián)合(Joint)方法[2]兩種。在Pipline 中將實(shí)體抽取與關(guān)系抽取分為兩個(gè)獨(dú)立的過(guò)程,可以先做實(shí)體識(shí)別再做關(guān)系抽取,也可以先做關(guān)系抽取再做實(shí)體識(shí)別,這種方法在精度上可以達(dá)到很好的效果,但是容易造成誤差累積和實(shí)體冗余,同時(shí)也忽略了兩個(gè)任務(wù)之間的內(nèi)在聯(lián)系和依賴關(guān)系。在Joint中把實(shí)體抽取與關(guān)系抽取兩個(gè)任務(wù)同時(shí)進(jìn)行,通常用模型參數(shù)共享的方法來(lái)實(shí)現(xiàn),相比于Pipline的方式可以有效利用兩個(gè)任務(wù)之間的潛在信息,從而緩解錯(cuò)誤傳播的缺點(diǎn),但是如何加強(qiáng)實(shí)體抽取和關(guān)系抽取的交互、如何解決實(shí)體重疊問(wèn)題是聯(lián)合抽取的難點(diǎn)。

        早期Zeng等人[3]提出基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、Socher 等人[4]提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)進(jìn)行關(guān)系抽取,都有效提取出了單詞和句子級(jí)別的特征,但是由于網(wǎng)絡(luò)本身的特點(diǎn),不能很好地將上下文的語(yǔ)義聯(lián)系有效提取出來(lái)。Miwa 等人[5]提出了一種基于RNN 的端到端神經(jīng)模型,該方法將單詞embedding 之后,在解碼時(shí)分別用了雙向長(zhǎng)短期記憶模型(bi-directional long-short term memory,Bi-LSTM)和Bi-TreeLSTM 建模對(duì)序列數(shù)據(jù)進(jìn)行實(shí)體檢測(cè)和關(guān)系分類。但是,并不是每個(gè)實(shí)體對(duì)之間都存在關(guān)系,這種方法[5]將兩兩配對(duì)的實(shí)體作為關(guān)系分類的輸入,會(huì)造成實(shí)體冗余。為解決這個(gè)問(wèn)題,Zheng等人[6]提出了一種新的標(biāo)簽方案,該方法將聯(lián)合抽取問(wèn)題轉(zhuǎn)換成了標(biāo)注問(wèn)題,這種端到端的模型展現(xiàn)出較好的性能,但是基于標(biāo)簽生成的實(shí)體關(guān)系對(duì)三元組采用了就近組合的方式,因此會(huì)存在很多的問(wèn)題,同時(shí)也無(wú)法解決實(shí)體關(guān)系重疊問(wèn)題[7]。為解決關(guān)系重疊問(wèn)題,Wei 等人[8]提出了一種新的級(jí)聯(lián)二進(jìn)制標(biāo)記框架(CasRel),CasRel框架首先抽取出主體實(shí)體,然后在特定的關(guān)系下抽取客體實(shí)體,這種方法直接在三元組級(jí)別上進(jìn)行優(yōu)化,在關(guān)系的兩端抽取出唯一實(shí)體對(duì),減少了重疊問(wèn)題。

        為解決端到端關(guān)系抽取中的自回歸解碼的限制,Sui 等人[9]提出了一種無(wú)需固定關(guān)系順序的集合預(yù)測(cè)網(wǎng)絡(luò)SPN 模型,模型先使用Bert 和字節(jié)對(duì)編碼(byte pair encode,BPE),然后用N個(gè)包含關(guān)系之間的self-attention、關(guān)系與句子之間的inter-attention(cross-attention)的transformer層解碼關(guān)系三元組,解決了自回歸解碼器中需要固定關(guān)系三元組順序的問(wèn)題。但是,由于主體實(shí)體、客體實(shí)體和關(guān)系同時(shí)被解碼出來(lái),可能存在主客實(shí)體之間聯(lián)系性不強(qiáng)、實(shí)體與關(guān)系之間交互不理想的問(wèn)題。

        鑒于上述條件,本文提出了一種融合雙階段解碼的實(shí)體關(guān)系聯(lián)合抽取模型。模型遵循了端到端的工作方法,解決實(shí)體關(guān)系聯(lián)合抽取的問(wèn)題。在級(jí)聯(lián)解碼實(shí)體的基礎(chǔ)上,采用集合預(yù)測(cè)的方法抽取關(guān)系三元組,可以加強(qiáng)實(shí)體與實(shí)體之間、實(shí)體與關(guān)系之間的交互。模型由三部分組成:句子編碼器、實(shí)體解碼器和關(guān)系集合預(yù)測(cè)網(wǎng)絡(luò)。首先采用Bert[10]作為句子編碼器,然后基于多頭注意力機(jī)制識(shí)別實(shí)體,最后在生成關(guān)系時(shí)采用基于注意力機(jī)制的關(guān)系集合預(yù)測(cè)網(wǎng)絡(luò)解碼出嵌入主客實(shí)體信息的關(guān)系三元組。

        本文的貢獻(xiàn)在于:

        (1)提出一個(gè)新的端到端的網(wǎng)絡(luò)模型,基于級(jí)聯(lián)解碼的思想,識(shí)別主體實(shí)體和客體實(shí)體,抽取出的實(shí)體不受關(guān)系的限制,緩解了實(shí)體識(shí)別的不平衡性。

        (2)提出一種新的集合預(yù)測(cè)方法,將抽取出的實(shí)體融合到全文信息后嵌入到集合預(yù)測(cè)網(wǎng)絡(luò),抽取出關(guān)系。通過(guò)同一編碼器實(shí)現(xiàn)共享參數(shù),加強(qiáng)實(shí)體與關(guān)系之間的聯(lián)系和交互,同時(shí)進(jìn)一步加強(qiáng)實(shí)體與實(shí)體之間的聯(lián)系。

        (3)本文提出的方法在NYT 和WebNLG 兩個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)證明,該方法在準(zhǔn)確率和F1 值上表現(xiàn)較優(yōu),并且在復(fù)雜情況下的抽取結(jié)果具有一定優(yōu)勢(shì);在ACE2005 數(shù)據(jù)集上證明,該方法在準(zhǔn)確率上表現(xiàn)較優(yōu),在解決關(guān)系抽取問(wèn)題中具有可靠性。證明了模型的有效性。

        1 關(guān)系抽取的研究現(xiàn)狀

        1.1 基于流水線的方法

        現(xiàn)有的基于深度學(xué)習(xí)的監(jiān)督方法可以將關(guān)系抽取任務(wù)分為基于流水線的方法和基于聯(lián)合的方法?;诹魉€的方法將關(guān)系抽取任務(wù)劃分為命名實(shí)體識(shí)別[11]和關(guān)系抽取[12]兩個(gè)任務(wù),例如Wang等人[13]和Cai等人[14]的工作。Zhong 和Chen[15]提出了一種優(yōu)于大部分聯(lián)合模型的流水線方法,該方法基于兩個(gè)獨(dú)立的編碼器,將實(shí)體模型作為關(guān)系模型的輸入,驗(yàn)證了在關(guān)系模型中融合實(shí)體信息以及合并全局上下文的重要性。由于兩個(gè)任務(wù)串聯(lián)進(jìn)行,因此,實(shí)體識(shí)別任務(wù)和關(guān)系抽取任務(wù)不能很好地交互;同時(shí),前一個(gè)任務(wù)的錯(cuò)誤會(huì)累積到下一個(gè)任務(wù)中,從而產(chǎn)生誤差傳遞的問(wèn)題;最后,實(shí)體對(duì)是兩兩組合產(chǎn)生的,但是并不是每個(gè)實(shí)體對(duì)都存在關(guān)系,這樣就會(huì)產(chǎn)生冗余實(shí)體,也會(huì)產(chǎn)生誤差傳播,從而降低整個(gè)模型的性能。

        1.2 基于聯(lián)合抽取的方法

        為解決流水線模型的弊端,越來(lái)越多的學(xué)者嘗試用聯(lián)合模型來(lái)解決關(guān)系抽取問(wèn)題。聯(lián)合學(xué)習(xí)模型可以同時(shí)識(shí)別實(shí)體和關(guān)系,直接得到實(shí)體-關(guān)系三元組。按照建模對(duì)象的不同,又將聯(lián)合模型分為共享參數(shù)的方法和序列標(biāo)注的方法。其中,共享參數(shù)的方法有效解決了錯(cuò)誤傳播的問(wèn)題。Li 等人[16]在Miwa 等人[5]提出的模型上進(jìn)行了兩點(diǎn)改進(jìn):(1)在關(guān)系分類任務(wù)中引入了一種新的關(guān)系,以區(qū)分有效實(shí)體和無(wú)效實(shí)體;(2)為了避免單向逐步預(yù)測(cè)實(shí)體標(biāo)簽產(chǎn)生的錯(cuò)誤傳播問(wèn)題,將解碼方式由貪婪搜索換為波束搜索。Katiyar 等人[17]還提出了一種無(wú)需訪問(wèn)依賴樹(shù)的基于注意力的遞歸神經(jīng)網(wǎng)絡(luò),模型由多層雙向遞歸網(wǎng)絡(luò)組成,并使用頂層的隱藏表示進(jìn)行聯(lián)合實(shí)體和關(guān)系提取。不同于在單個(gè)編碼器內(nèi)捕獲兩個(gè)任務(wù)信息的設(shè)計(jì),Wang 等人[18]構(gòu)造了表編碼器和序列編碼器分別捕獲兩種不同任務(wù)的信息,并且在表示過(guò)程中相互學(xué)習(xí),將聯(lián)合任務(wù)轉(zhuǎn)化成表格填充問(wèn)題。序列標(biāo)注的方法除了可以解決錯(cuò)誤傳播的問(wèn)題,同時(shí)還解決了實(shí)體冗余的問(wèn)題。Li 等人[19]將實(shí)體關(guān)系抽取問(wèn)題轉(zhuǎn)化為多輪問(wèn)答問(wèn)題,模型首先查詢要識(shí)別的實(shí)體類或者關(guān)系類編碼的重要信息,然后聯(lián)合建模實(shí)體和關(guān)系,利用機(jī)器閱讀理解模型抽取實(shí)體或者關(guān)系。

        1.3 聯(lián)合抽中的重疊問(wèn)題

        目前,按照實(shí)體的重疊程度,可以將重疊問(wèn)題劃分為三種類型[8]:正常類(Normal),單實(shí)體重疊(single entity overlap,SEO)和實(shí)體對(duì)重疊(entity pair overlap,EPO),示例如表1所示。

        表1 關(guān)系重疊示例Table 1 Examples of overlapping relationships

        解決關(guān)系重疊問(wèn)題又分為基于序列到序列(sequence to sequence,Seq2Seq)、基于圖(graph-based)和基于預(yù)訓(xùn)練語(yǔ)言模型(pre-trained language model,PTM)三種方法。在這些方法之下又按照解決問(wèn)題建模方式的不同分為級(jí)聯(lián)解碼(cascade decoding)的方法和編碼器-解碼器(encoder-decoder)方法。

        Ma 等人[20]提出了一種級(jí)聯(lián)雙解碼抽取模型,不同于先檢測(cè)實(shí)體的模型,該方法首先檢測(cè)句子中的關(guān)系,然后在特定的關(guān)系下依次抽取主體實(shí)體和客體實(shí)體,使得該模型在解決重疊問(wèn)題上也達(dá)到了很好的效果。Dixit 等人[21]為解決span-level 特征的重疊實(shí)體建模問(wèn)題,并緩解順序解碼存在的級(jí)聯(lián)錯(cuò)誤,提出了一種可以直接建模所有可能span 的模型。田佳來(lái)等人[22]提出了一種基于BIO標(biāo)注方案的分層序列標(biāo)注方法,在抽取出主體實(shí)體的前提下,按照預(yù)先定義的關(guān)系類別抽取出客體實(shí)體,從而抽取出實(shí)體-關(guān)系三元組,該方法同時(shí)引入了GLU Dilated CNN 對(duì)句子進(jìn)行編碼,采用自注意力機(jī)制提高模型抽取能力,在WebNLG 公開(kāi)數(shù)據(jù)集上F1值達(dá)到86.4%,并成功將模型運(yùn)用到軍事領(lǐng)域,F(xiàn)1 值達(dá)到80.84%。這些級(jí)聯(lián)解碼的方法,在一定程度上都受到了特定條件的限制,使解碼的實(shí)體和關(guān)系之間的重要程度不平衡。

        Zeng 等人[23]提出一種采用自回歸解碼器且具有復(fù)制機(jī)制的CopyRE模型,該模型在解決重疊問(wèn)題上取得一定的效果,但是復(fù)制機(jī)制導(dǎo)致識(shí)別實(shí)體不全,且順序解碼三元組限制了無(wú)序關(guān)系的抽取。后來(lái),Zeng等人[24]雖然在原有的模型上進(jìn)行改進(jìn),但是并未打破自回歸解碼器本身的限制,得到的三元組依然存在交互不平衡的問(wèn)題。

        以解決關(guān)系抽取的重疊問(wèn)題為方向,解決三元組內(nèi)部及三元組之間的交互問(wèn)題和不平衡問(wèn)題為目標(biāo)。本文提出一種新的實(shí)體關(guān)系聯(lián)合抽取模型。模型首先采用Bert進(jìn)行編碼,然后采用級(jí)聯(lián)解碼的思想先解碼主體實(shí)體和客體實(shí)體,最后將初步所得的結(jié)果嵌入到非自回歸解碼器中,解碼出關(guān)系,從而得到實(shí)體-關(guān)系三元組。

        2 融合雙階段解碼的聯(lián)合抽取方法

        把關(guān)系預(yù)測(cè)問(wèn)題轉(zhuǎn)換為三元組建模問(wèn)題。關(guān)系抽取的目標(biāo)為抽取句子中的(s,r,o),其中,s為主體實(shí)體,o為客體實(shí)體,r為主客實(shí)體之間的關(guān)系。Seq2Seq模型的解碼方法如式(1)所示:

        其中,x為先驗(yàn)句子,為解碼出的詞語(yǔ),給定一個(gè)句子x,在所有y上建模,使生成的概率最大似然。由此,可以得出三元組的抽取方法如式(2)所示:

        其中,x是輸入的句子。首先抽取出主語(yǔ)s和客體o,然后將句子x和實(shí)體解碼出關(guān)系r。最終從輸入的句子中,得到n個(gè)實(shí)體si(i=1,2,…,n)和m個(gè)客體實(shí)體oj(j=1,2,…,m)以及它們之間的關(guān)系

        本章將詳細(xì)介紹模型的三個(gè)組成部分:句子編碼器、實(shí)體解碼器和非自回歸解碼器。本文模型框架如圖1 所示。其中Te表示BERT 編碼的句子向量;Sstart和Send分別表示主體實(shí)體的開(kāi)始位置和結(jié)束位置,Ostart和Oend分別表示客體實(shí)體的開(kāi)始位置和結(jié)束位置。

        圖1 模型框架Fig.1 Model framework

        2.1 任務(wù)定義

        實(shí)體關(guān)系聯(lián)合抽取是將給定句子中所有的實(shí)體以及所有實(shí)體之間的關(guān)系三元組抽取出來(lái)。給定一個(gè)句子,句子S=(x1,x2,…,xn)中包含n個(gè)字符,給定一個(gè)目標(biāo)三元組集合,集合Y={(s1,r1,o1),(s2,r2,o2),…,(sm,rm,om)|si,oi∈E,ri∈R}包含m個(gè)三元組,其中E和R分別為實(shí)體集和關(guān)系集。整個(gè)任務(wù)的算法流程圖如圖2 所示。在實(shí)體關(guān)系聯(lián)合抽取中將抽取出每一個(gè)句子的所有實(shí)體-關(guān)系三元組作為任務(wù)目的。

        圖2 算法流程圖Fig.2 Chart of algorithm flow

        2.2 句子編碼器

        為了加強(qiáng)句子中每個(gè)字符之間的感知,更好地獲得句子的上下文表征,本文采用來(lái)源于Transformer 雙向編碼器的Bert 為輸入模型中的句子進(jìn)行編碼,其中,Bert結(jié)構(gòu)如圖3所示,計(jì)算方法如式(3)和(4)所示:

        圖3 Bert網(wǎng)絡(luò)結(jié)構(gòu)模型Fig.3 Network structure model of Bert

        其中,S為輸入句子中字詞索引的one-hot 矩陣,Ws為字詞的embedding 矩陣,Wp為所有位置索引p的位置嵌入矩陣。hα為輸入句子在第α層的上下文表示。編碼后得到的每個(gè)字符的上下文特征為,其中n為句子的字符個(gè)數(shù),d為隱藏單元數(shù)量。

        2.3 實(shí)體解碼器

        實(shí)體解碼器的目標(biāo)是得到實(shí)體信息。在解碼實(shí)體的過(guò)程中采用多頭注意力機(jī)制[25]來(lái)進(jìn)一步提取特征。同時(shí),基于一個(gè)二進(jìn)制分類器,從輸入的句子中檢測(cè)到主體實(shí)體,其中包括主體實(shí)體的開(kāi)始位置和結(jié)束位置,然后將檢測(cè)到的候選實(shí)體作為下一階段解碼任務(wù)的先驗(yàn)知識(shí)。首先,將經(jīng)過(guò)Bert編碼得到的特征通過(guò)多頭注意力機(jī)制進(jìn)行建模,過(guò)程如式(5)所示:

        其中,表示第i個(gè)token經(jīng)過(guò)Bert編碼和多頭注意力機(jī)制后得到的向量表示。然后經(jīng)過(guò)全連接層得到輸出代表標(biāo)簽的數(shù)量的維度,以此來(lái)標(biāo)記主體實(shí)體的開(kāi)始位置和結(jié)束位置。計(jì)算方法如式(6)和(7)所示:

        2.4 關(guān)系集合預(yù)測(cè)網(wǎng)絡(luò)

        非自回歸解碼器由N個(gè)transformer 層構(gòu)成,對(duì)關(guān)系的預(yù)測(cè)本身是無(wú)序的,因此采用該解碼模塊可以不考慮三元組的順序問(wèn)題。采用集合預(yù)測(cè)方法生成三元組的條件概率如式(8)所示:

        其中,PL(m|S)表示目標(biāo)三元組集合的大小,m表示三元組個(gè)數(shù),P(Yi|S,Yi≠j;θ)表示Yi不僅與給定句子S有關(guān),還與其他三元組Yj≠i有關(guān)。

        由于將解碼得到的實(shí)體嵌入到了預(yù)測(cè)三元組的解碼器中,同時(shí)又受到SPN 模型[9]和DSPNEF 模型[26]的啟發(fā),將式(8)中條件概率公式展開(kāi)為式(9)所示:

        其中,ki是經(jīng)過(guò)transformer層得到的第i個(gè)三元組的嵌入信息,最后通過(guò)前饋神經(jīng)網(wǎng)絡(luò)將ki解碼成預(yù)測(cè)的實(shí)體-關(guān)系三元組。為加強(qiáng)實(shí)體信息在三元組預(yù)測(cè)中的作用,本文將得到的實(shí)體信息拼接到Bert 編碼的輸出中,構(gòu)建實(shí)體信息增強(qiáng)的原始數(shù)據(jù)信息表示。

        在具體操作中,首先需要將三元組初始化,同時(shí)設(shè)定PL(m|S)的大小為m,其中m的個(gè)數(shù)遠(yuǎn)大于句子中真實(shí)三元組的數(shù)量。初始化過(guò)程表示為式(10)所示:

        其中,表示第i個(gè)三元組的嵌入信息,gi表示初始化的三元組,Wg∈Rm×d表示訓(xùn)練權(quán)重,bg表示偏置項(xiàng)。初始化的三元組首先經(jīng)過(guò)多頭自注意力的建模,建模過(guò)程如式(11)所示:

        其中,ci表示融合了其他三元組特征的第i個(gè)三元組經(jīng)過(guò)多頭自注意力的輸出。然后,通過(guò)多頭間注意力將新的句子信息融合到初始建模的三元組中,具體過(guò)程如式(12)所示:

        其中,表示第i個(gè)三元組經(jīng)過(guò)多頭間注意力的輸出,te表示給定句子中帶有上下文信息的Bert 編碼器的輸出,es=sstart+send表示主體實(shí)體,eo=ostart+oend表示客體實(shí)體。最后,采用前饋神經(jīng)網(wǎng)絡(luò)將關(guān)系解碼出來(lái),計(jì)算方法如式(13)所示:

        其中,pr為預(yù)測(cè)的關(guān)系類型,Wr∈Rt×d表示可訓(xùn)練的權(quán)重。并且通過(guò)四個(gè)分類器分別預(yù)測(cè)主體和客體的開(kāi)始位置和結(jié)束位置索引,計(jì)算方法如下式所示:

        2.5 損失函數(shù)

        3 實(shí)驗(yàn)數(shù)據(jù)與分析

        3.1 數(shù)據(jù)集

        為完成實(shí)體關(guān)系聯(lián)合抽取任務(wù)并解決重疊問(wèn)題,本文在三個(gè)公開(kāi)數(shù)據(jù)集上評(píng)估本文模型:NYT 數(shù)據(jù)集、WebNLG數(shù)據(jù)集和ACE2005數(shù)據(jù)集。

        NYT 數(shù)據(jù)集是由遠(yuǎn)程監(jiān)督生成的新聞?wù)Z料庫(kù),數(shù)據(jù)集中包括了24種預(yù)定義的關(guān)系。WebNLG數(shù)據(jù)集起初是為自然語(yǔ)言生成準(zhǔn)備的,數(shù)據(jù)集包括了246種預(yù)定義的關(guān)系。這兩個(gè)數(shù)據(jù)集都按照三元組的不同重疊程度劃分出了三種類型[8],即正常類(Normal)、單實(shí)體重疊(SEO)和實(shí)體對(duì)重疊(EPO),需要注意的是一個(gè)句子既可以屬于SEO類型也可以屬于EPO類型。本文采用SPN[9]中的數(shù)據(jù)集。

        ACE2005 數(shù)據(jù)集包含7 種實(shí)體類型和6 種關(guān)系類型,有英語(yǔ)、阿拉伯語(yǔ)和普通話三種語(yǔ)言文本,并對(duì)實(shí)體、關(guān)系和事件進(jìn)行了注釋。可以進(jìn)行實(shí)體識(shí)別、值、關(guān)系和事件等系統(tǒng)性能的評(píng)估。本文將ACE2005英文文本數(shù)據(jù)集進(jìn)行預(yù)處理,實(shí)現(xiàn)抽取與重構(gòu)。具體是:抽取非結(jié)構(gòu)化數(shù)據(jù)中的“sentence”信息;“entity_mentions”中的實(shí)體名稱和具體實(shí)體類型,“relation_mentions”中的18種具體關(guān)系類型,并將這兩部分重構(gòu),形成新的三元組。最后,對(duì)處理后的數(shù)據(jù)進(jìn)行Normal、SEO和EPO三種分類統(tǒng)計(jì)。各數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表2所示。

        表2 數(shù)據(jù)集統(tǒng)計(jì)信息Table 2 Statistics of dataset

        3.2 評(píng)價(jià)指標(biāo)

        本文采用評(píng)價(jià)模型性能的指標(biāo)分別為:精準(zhǔn)率(Precision)、召回率(Recall)、F1 值。當(dāng)預(yù)測(cè)產(chǎn)生的實(shí)體-關(guān)系三元組與真實(shí)的實(shí)體-關(guān)系三元組完全一致時(shí),作為正確識(shí)別的三元組。

        3.3 基線模型

        為驗(yàn)證本文模型的有效性,將本文模型與以下基線模型進(jìn)行比較:

        (1)CasRel[8]:提出一種級(jí)聯(lián)二進(jìn)制標(biāo)記方案,首先識(shí)別主體實(shí)體,然后基于特定關(guān)系識(shí)別客體實(shí)體,直接抽取出實(shí)體-關(guān)系三元組。

        (2)SPN[9]:提出一種基于Transformer的非自回歸解碼器的集合預(yù)測(cè)網(wǎng)絡(luò),同時(shí)設(shè)計(jì)一種基于集合的損失,直接預(yù)測(cè)三元組。

        (3)PURE[15]:提出一種基于兩個(gè)獨(dú)立編碼器的流水線方法,采用實(shí)體模型構(gòu)建關(guān)系模型的輸入。

        (4)Model[17]:提出一種新的基于注意的遞歸神經(jīng)網(wǎng)絡(luò),用于實(shí)體提及和關(guān)系的聯(lián)合提取。

        (5)Multi-turn QA[19]:提出一種新的實(shí)體關(guān)系提取范式,將實(shí)體和關(guān)系的提取轉(zhuǎn)化為從上下文中識(shí)別答案范圍的多輪問(wèn)答任務(wù)。

        (6)Model[21]:提出一種可以直接建模所有可能跨度的模型,打破了無(wú)法輕松定義和實(shí)現(xiàn)span-level 特征的局限性。

        (7)HSL[22]:采取一種新的標(biāo)記方案,基于GLU Dilated CNN編碼和Bi-LSTM模型分層次解碼標(biāo)記的主體實(shí)體和客體實(shí)體。

        (8)CopyR[23]:提出一種基于序列到序列學(xué)習(xí)和復(fù)制機(jī)制方案,采用統(tǒng)一解碼和分離解碼兩種策略抽取實(shí)體和關(guān)系信息。

        (9)CopyMTL[24]:提出一種帶有復(fù)制機(jī)制的多任務(wù)學(xué)習(xí)框架,可以預(yù)測(cè)多標(biāo)記實(shí)體,有效緩解重疊問(wèn)題。

        (10)GraphRel[26]:提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)的實(shí)體關(guān)系聯(lián)合抽取模型,首先采用Bi-LSTM和GCN 抽取順序和區(qū)域依賴詞特征,然后基于預(yù)測(cè)的第一階段關(guān)系構(gòu)建完整的關(guān)系圖,進(jìn)一步考慮實(shí)體和關(guān)系之間的交互。

        3.4 實(shí)驗(yàn)結(jié)果及分析

        實(shí)驗(yàn)環(huán)境在Windows 系統(tǒng)下使用PyTorch 深度學(xué)習(xí)框架,使用CUDA框架10.2。GPU為NVIDIA GeForce RTX 3060,內(nèi)存16 GB。實(shí)驗(yàn)復(fù)現(xiàn)了SPN[9]模型,在一定條件下本文模型與復(fù)現(xiàn)優(yōu)秀模型有一定優(yōu)勢(shì),但與優(yōu)秀模型中的最好結(jié)果有一定差距,baseline 中展示復(fù)現(xiàn)結(jié)果,參數(shù)設(shè)置batch_size 為8,eopch 為100,NYT 數(shù)據(jù)集上初始化三元組個(gè)數(shù)為15,解碼層個(gè)數(shù)為3,na_rel_coef為1,max_grad_norm為1,encoder_lr為1E-5,decoder_lr為2E-5,WebNLG數(shù)據(jù)集上初始化三元組個(gè)數(shù)為10,解碼層個(gè)數(shù)為4,na_rel_coef為0.25,max_grad_norm為20,encoder_lr為2E-5,decoder_lr為5E-5。除此之外,還復(fù)現(xiàn)了用Bert進(jìn)行編碼的PURE[15]模型。

        3.4.1 模型性能的實(shí)驗(yàn)評(píng)估

        如表3所示,本文模型在NYT數(shù)據(jù)集上準(zhǔn)確率達(dá)到80.5%,比SPN 模型提升了1.7 個(gè)百分點(diǎn),F(xiàn)1 值達(dá)到73.6%,比SPN 模型提升了0.4 個(gè)百分點(diǎn)。在WebNLG數(shù)據(jù)集上召回率達(dá)到88.6%,比SPN 模型提升了1.6 個(gè)百分點(diǎn),F(xiàn)1值達(dá)到88.6%,比SPN模型提升了0.5個(gè)百分點(diǎn)。在ACE2005 數(shù)據(jù)集上準(zhǔn)確率比Model[21]模型提升了1.1個(gè)百分點(diǎn),比PURE模型提升了2.7個(gè)百分點(diǎn)。

        表3 模型在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of model on datasets 單位:%

        如表4所示,展示了本文方法對(duì)實(shí)體識(shí)別和關(guān)系抽取的作用。本文模型在NYT 數(shù)據(jù)集上,對(duì)關(guān)系的抽取表現(xiàn)較好,這種優(yōu)勢(shì)主要體現(xiàn)在準(zhǔn)確率(P)指標(biāo)上;在WebNLG 數(shù)據(jù)集上,在實(shí)體和關(guān)系的抽取上都表現(xiàn)較好,這種優(yōu)勢(shì)主要體現(xiàn)在關(guān)系實(shí)體識(shí)別和關(guān)系抽取的召回率(R)指標(biāo)上。

        表4 模型在三元組上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of model on triples 單位:%

        3.4.2 重疊問(wèn)題的實(shí)驗(yàn)評(píng)估

        為了驗(yàn)證模型在解決重疊問(wèn)題上的效果,本文在NYT數(shù)據(jù)集和WebNLG數(shù)據(jù)集上做進(jìn)一步的實(shí)驗(yàn)。

        如表5 所示,對(duì)于NYT 數(shù)據(jù)集,本模型在抽取正常類(Normal)三元組時(shí)效果與其他模型差距不大,在抽取單實(shí)體重疊類(SEO)時(shí)略高于SPN模型,在抽取實(shí)體對(duì)重疊類(EPO)三元組時(shí)比SPN 模型提升了0.5 個(gè)百分點(diǎn);對(duì)于WebNLG數(shù)據(jù)集,本模型在抽取正常類(Normal)三元組時(shí)效果不理想,比SPN模型的F1值低了1.9個(gè)百分點(diǎn),在抽取單實(shí)體重疊類(SEO)和實(shí)體對(duì)重疊類(EPO)三元組時(shí)比SPN模型分別提升了0.5個(gè)百分點(diǎn)。

        表5 模型和其他方法在測(cè)試集上的F1得分Table 5 F1 scores of model and other methods on test set 單位:%

        如圖4 所示,從(a)(b)(c)中看出,部分模型在處理重疊問(wèn)題時(shí)出現(xiàn)下降趨勢(shì),說(shuō)明SEO 問(wèn)題和EPO 問(wèn)題相比于Normal 問(wèn)題是較為復(fù)雜的問(wèn)題,本文模型在處理這類問(wèn)題時(shí)有一定優(yōu)勢(shì),且對(duì)SEO 問(wèn)題和EPO 問(wèn)題的處理更好一些。

        圖4 不同重疊模式的句子中提取關(guān)系三元組的F1得分Fig.4 F1 score for extracting relational triples from sentences with different overlapping patterns

        為了探究本文模型在不同數(shù)據(jù)集上的性能,分別在NYT 數(shù)據(jù)集、WebNLG 數(shù)據(jù)集和ACE2005 數(shù)據(jù)集上就Normal、SEO 和EPO 三個(gè)問(wèn)題進(jìn)行實(shí)驗(yàn)結(jié)果分析。實(shí)驗(yàn)結(jié)果如表5所示。

        從表6 可以看出,在解決關(guān)系抽取中的重疊問(wèn)題時(shí),本文模型在WebNLG數(shù)據(jù)集上綜合表現(xiàn)最優(yōu),在NYT數(shù)據(jù)集上綜合表現(xiàn)次之,且二者都遠(yuǎn)高于在ACE2005數(shù)據(jù)集上的表現(xiàn)。在ACE2005 數(shù)據(jù)集中,解決Normal類問(wèn)題的F1 得分遠(yuǎn)高于SEO 類和EPO 類,結(jié)合表2 中的數(shù)據(jù)集統(tǒng)計(jì)信息發(fā)現(xiàn),在訓(xùn)練集和測(cè)試集中所有存在EPO類問(wèn)題的句子均包含于存在SEO類問(wèn)題的句子,考慮是因?yàn)樵摂?shù)據(jù)集中句子含有復(fù)雜的三元組信息較少,導(dǎo)致了模型在ACE2005數(shù)據(jù)集上的表現(xiàn)不理想。

        表6 不同數(shù)據(jù)集上三類問(wèn)題的F1得分Table 6 F1 scores for three types of problems on different data sets 單位:%

        3.4.3 不同數(shù)量的三元組的實(shí)驗(yàn)評(píng)估

        為了進(jìn)一步驗(yàn)證重疊問(wèn)題中模型對(duì)句子中不同數(shù)量三元組的性能,本文將在NYT 數(shù)據(jù)集和WebNLG 數(shù)據(jù)集上繼續(xù)實(shí)驗(yàn)。

        如表7 所示,當(dāng)句子含有多個(gè)三元組的情況下,本文模型效果整體接近優(yōu)秀模型,在NYT數(shù)據(jù)集上,當(dāng)三元組個(gè)數(shù)為1、2、4 個(gè)時(shí),本文模型效果均優(yōu)于SPN 模型,當(dāng)三元組個(gè)數(shù)為3個(gè)和4個(gè)時(shí),本文模型效果穩(wěn)定略低于SPN模型;在WbNLG數(shù)據(jù)集上,當(dāng)三元組個(gè)數(shù)為1個(gè)、2 個(gè)和大于5 個(gè)時(shí),本文模型效果均優(yōu)于SPN 模型,當(dāng)三元組個(gè)數(shù)為3 個(gè)和4 個(gè)時(shí),本文模型效果穩(wěn)定略低于SPN模型。

        表7 句子中不同數(shù)量三元組的F1得分Table 7 F1 scores for different number of triples in sentence 單位:%

        如圖5所示,在(a)代表的NYT數(shù)據(jù)集上,模型在處理句子中包含多個(gè)三元組的問(wèn)題時(shí),模型效果與句子中包含三元組的個(gè)數(shù)成反比,在(b)代表的WebNLG 數(shù)據(jù)集上,本文模型與SPN 模型在效果中整體優(yōu)于其他模型,并且本文模型在現(xiàn)有的數(shù)據(jù)中呈現(xiàn)出隨著三元組個(gè)數(shù)的增加則模型效果更好的情況,說(shuō)明本文模型可以更好地抽取復(fù)雜場(chǎng)景中的三元組。

        為探究本文模型在不同數(shù)據(jù)集上的性能,本文首先統(tǒng)計(jì)了NYT、WebNLG 和ACE2005 三個(gè)數(shù)據(jù)集中三元組個(gè)數(shù)分別為1、2、3、4、5及以上的句子總數(shù),然后對(duì)句子中包含不同數(shù)量三元組的文本數(shù)據(jù)進(jìn)行實(shí)驗(yàn)評(píng)估。數(shù)據(jù)統(tǒng)計(jì)如表8所示,實(shí)驗(yàn)結(jié)果如表9所示。

        表8 不同數(shù)據(jù)集包含不同數(shù)量三元組的數(shù)據(jù)統(tǒng)計(jì)Table 8 Data statistics for different data sets containing different number of triples

        表9 不同數(shù)據(jù)集包含不同數(shù)量三元組的F1得分Table 9 F1 scores for different data sets containing different number of triads 單位:%

        如表8所示,ACE2005數(shù)據(jù)集比NYT數(shù)據(jù)集和WebNLG數(shù)據(jù)集中可訓(xùn)練的包含多個(gè)三元組的樣本數(shù)量少。

        從表9 可以看出,對(duì)于不同數(shù)量的三元組,模型在NYT 數(shù)據(jù)集和WebNLG 數(shù)據(jù)集上表現(xiàn)較優(yōu),且隨著三元組數(shù)量的不斷增多,模型表現(xiàn)更好。相比于模型在ACE2005數(shù)據(jù)集上表現(xiàn)不理想的情況,考慮數(shù)據(jù)自身如表8所示,在訓(xùn)練集和測(cè)試集中包含的多個(gè)三元組數(shù)量較少,導(dǎo)致訓(xùn)練和評(píng)估不足,影響了模型的效果。

        4 結(jié)束語(yǔ)

        本文提出一種融合雙階段解碼的實(shí)體關(guān)系聯(lián)合抽取模型,在實(shí)體解碼階段主要抽取實(shí)體集合,在關(guān)系集合預(yù)測(cè)網(wǎng)絡(luò)階段主要融合上級(jí)解碼結(jié)果并抽取數(shù)據(jù)中的關(guān)系三元組。

        實(shí)驗(yàn)結(jié)果表明,模型在NYT 和WebNLG 公開(kāi)數(shù)據(jù)集上效果較好,在ACE2005公開(kāi)數(shù)據(jù)集上的表現(xiàn)一般,驗(yàn)證了模型的有效性。模型又在三個(gè)數(shù)據(jù)集上分別對(duì)Normal、SEO 和EPO 三類問(wèn)題以及不同數(shù)量的三元組進(jìn)行驗(yàn)證,其中,在NYT和WebNLG數(shù)據(jù)集上整體表現(xiàn)良好,驗(yàn)證了模型為解決三元組重疊問(wèn)題的可靠性。對(duì)比SPN 模型原文,復(fù)現(xiàn)效果與原文有一定差距,且本文模型在NYT數(shù)據(jù)上的表現(xiàn)與WebNLG數(shù)據(jù)集上的表現(xiàn)也有一定差距,主要考慮參數(shù)設(shè)置等帶來(lái)的影響。在ACE2005數(shù)據(jù)集上的抽取效果不理想,由于該數(shù)據(jù)集處理重疊問(wèn)題的Baseline較少,考慮到可能是復(fù)雜樣本數(shù)據(jù)量較少的原因。

        猜你喜歡
        三元組集上解碼
        基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        《解碼萬(wàn)噸站》
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        解碼eUCP2.0
        關(guān)于余撓三元組的periodic-模
        NAD C368解碼/放大器一體機(jī)
        Quad(國(guó)都)Vena解碼/放大器一體機(jī)
        復(fù)扇形指標(biāo)集上的分布混沌
        欧美饥渴熟妇高潮喷水水| 中文字幕亚洲中文第一 | 无码精品国产午夜| 亚洲女同系列高清在线观看| 国产丝袜一区丝袜高跟美腿| 久久午夜福利无码1000合集| 丰满少妇高潮惨叫正在播放| 亚洲精品无码久久久久sm| 国产一区二区三区4区| 一区二区三区日本美女视频| 国产成人av一区二区三区不卡| 在线观看人成视频免费| 99精品国产一区二区三区不卡| 少妇太爽了在线观看免费视频| 亚洲精品成人无码中文毛片| 国产97在线 | 免费| 豆国产95在线 | 亚洲| 日本污视频| 日韩精品少妇专区人妻系列| 中文字幕人乱码中文字幕乱码在线| 国产精品人人做人人爽人人添 | 亚洲gay片在线gv网站| 久久人妻无码一区二区| 少妇仑乱a毛片| 日日躁夜夜躁狠狠躁超碰97| 国产三级精品三级国产| 亚洲成av在线免费不卡| 狠狠综合久久av一区二区三区| 一区二区三区四区中文字幕av| 中文无码一区二区三区在线观看| 国产欧美VA欧美VA香蕉在| 国产精品女同一区二区久| 校园春色人妻激情高清中文字幕 | 日日碰狠狠添天天爽| 无码日韩AⅤ一区二区三区| 久久精品日韩免费视频| 久久免费亚洲免费视频| 伦伦影院午夜理论片| 国产乱子伦一区二区三区| 亚洲欧美日韩国产色另类| 午夜精品久视频在线观看|