亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于森林的實(shí)體關(guān)系聯(lián)合抽取模型

        2023-09-27 06:31:00王炫力靳小龍侯中妮廖華明
        計(jì)算機(jī)應(yīng)用 2023年9期
        關(guān)鍵詞:三元組嵌套跨度

        王炫力,靳小龍*,侯中妮,廖華明,張 瑾

        (1.中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院計(jì)算技術(shù)研究所),北京 100190;2.中國(guó)科學(xué)院大學(xué),北京 100049)

        0 引言

        從非結(jié)構(gòu)化文本中抽取實(shí)體、關(guān)系信息是自動(dòng)化構(gòu)建知識(shí)圖譜的必要步驟。傳統(tǒng)流水線方法采用分離的兩個(gè)模型提取實(shí)體,然后對(duì)候選實(shí)體對(duì)的關(guān)系類型進(jìn)行分類;但這類模型忽略了兩個(gè)任務(wù)間的交互信息,容易發(fā)生級(jí)聯(lián)誤差。近年來(lái),研究者們開(kāi)始探索建立實(shí)體關(guān)系聯(lián)合抽取模型。實(shí)體關(guān)系聯(lián)合抽取模型可以有效利用實(shí)體、關(guān)系間的交互信息來(lái)預(yù)測(cè)出文本存在的三元組,從而取得更好的表現(xiàn);但是,嵌套實(shí)體識(shí)別仍是實(shí)體關(guān)系聯(lián)合抽取的一個(gè)重要問(wèn)題。

        嵌套實(shí)體是實(shí)體內(nèi)部存在其他實(shí)體的場(chǎng)景。而在三元組中,則存在兩種情況:嵌套實(shí)體間三元組和嵌套實(shí)體內(nèi)三元組,具體如表1 所示。

        表1 嵌套實(shí)體Tab.1 Nested entities

        早期的實(shí)體關(guān)系聯(lián)合抽取方法采用序列標(biāo)注方法[1],但該類方法無(wú)法識(shí)別嵌套實(shí)體。而現(xiàn)在的實(shí)體關(guān)系聯(lián)合抽取模型常使用基于序列標(biāo)注的方法[2]和基于跨度的方法[3-5]處理嵌套實(shí)體?;谛蛄袠?biāo)注的方法[2]對(duì)原始的序列標(biāo)注方法[1]進(jìn)行改進(jìn),通過(guò)對(duì)序列到序列的矩陣進(jìn)行多次序列標(biāo)注判斷對(duì)應(yīng)的兩個(gè)詞間是否組成實(shí)體、是否存在某種關(guān)系?;诳缍鹊姆椒ǎ?-5]通過(guò)枚舉所有可能的跨度并對(duì)其分類,得到實(shí)體,再枚舉所有可能的實(shí)體對(duì)并進(jìn)行關(guān)系分類,獲得關(guān)系三元組。前者以更高的復(fù)雜度為代價(jià)識(shí)別嵌套實(shí)體,而后者則通過(guò)枚舉所有可能的跨度識(shí)別嵌套實(shí)體,需要通過(guò)大量的負(fù)采樣學(xué)習(xí)識(shí)別嵌套實(shí)體的能力,兩者均無(wú)法在不增加時(shí)間或空間復(fù)雜度的前提下識(shí)別嵌套實(shí)體。此外,這兩類方法均未考慮嵌套實(shí)體對(duì)三元組預(yù)測(cè)的干擾。

        針對(duì)上述問(wèn)題,本文提出了基于森林的實(shí)體關(guān)系聯(lián)合抽取模型——EF2LTF(Entity Forest to Layering Triple Forest)。采用兩階段單步的聯(lián)合訓(xùn)練框架,分別處理實(shí)體抽取和三元組生成。在實(shí)體抽取部分,EF2LTF 先識(shí)別實(shí)體頭部,即實(shí)體森林中每棵實(shí)體樹(shù)的根節(jié)點(diǎn);再?gòu)拿總€(gè)根節(jié)點(diǎn)出發(fā)依次判斷之后的詞是否會(huì)分支出新的嵌套實(shí)體,該樹(shù)是否依然繼續(xù),直至該實(shí)體樹(shù)中所有實(shí)體均已抵達(dá)實(shí)體尾部,形成實(shí)體樹(shù)。多棵實(shí)體樹(shù)組成實(shí)體森林。在預(yù)測(cè)時(shí),EF2LTF 可從實(shí)體森林中解析出句中所有實(shí)體。在三元組生成部分,EF2LTF 則通過(guò)實(shí)體樹(shù)交互獲得多個(gè)實(shí)體樹(shù)的信息,再由該信息分層地生成三元組森林。依次選擇包含頭實(shí)體的實(shí)體樹(shù),再在實(shí)體樹(shù)內(nèi)部選擇頭實(shí)體,由頭實(shí)體判斷其所參與的關(guān)系類別,依據(jù)頭實(shí)體和對(duì)應(yīng)的關(guān)系,再分層地選擇尾實(shí)體。一方面,這種森林的方式可以高效地識(shí)別嵌套實(shí)體,無(wú)需進(jìn)行過(guò)多的負(fù)采樣,也沒(méi)有額外增加時(shí)間、空間復(fù)雜度;另一方面,EF2LTF在實(shí)體抽取和三元組生成部分均采用分層預(yù)測(cè)的方式,即在嵌套實(shí)體內(nèi)部區(qū)分嵌套實(shí)體,這增強(qiáng)了對(duì)嵌套實(shí)體的識(shí)別能力,也使得模型免于嵌套實(shí)體對(duì)三元組預(yù)測(cè)的干擾。

        本文還在四個(gè)公開(kāi)數(shù)據(jù)集:網(wǎng)絡(luò)自然語(yǔ)言生成(Web Natural Language Generation,WebNLG)數(shù)據(jù)集[6]、紐約時(shí)報(bào)(New York Times,NYT)數(shù)據(jù)集[7]、科技類實(shí)體關(guān)系共指簇(Scientific Entities,their Relations,and Coreference clusters,SciERC)數(shù)據(jù)集[8]和2005 自動(dòng)內(nèi)容提?。?005 Automatic Content Extraction,ACE2005)數(shù)據(jù)集[9]上評(píng)估了EF2LTF。實(shí)驗(yàn)結(jié)果表明,EF2LTF 優(yōu)于對(duì)比工作,并且在標(biāo)準(zhǔn)數(shù)據(jù)集上取得了較好的效果。進(jìn)一步的分析表明,EF2LTF 能夠更好地在實(shí)體關(guān)系聯(lián)合抽取中識(shí)別嵌套實(shí)體。

        1 相關(guān)研究

        傳統(tǒng)流水線處理實(shí)體關(guān)系抽取的方法將實(shí)體抽取和關(guān)系抽取兩個(gè)相關(guān)的任務(wù)完全分離,未考慮實(shí)體、關(guān)系間的交互信息[10]。為此,研究者們提出了實(shí)體關(guān)系聯(lián)合抽取的方法[1],它的效果顯著優(yōu)于多數(shù)流水線的工作,但卻完全忽略了嵌套實(shí)體?;诳缍阮A(yù)測(cè)的方法,如基于集合預(yù)測(cè)網(wǎng)絡(luò)的SPN(Set Prediction Network)[11]模型,在預(yù)測(cè)實(shí)體關(guān)系三元組時(shí),分別預(yù)測(cè)實(shí)體頭部所在位置、實(shí)體尾部所在位置,在結(jié)構(gòu)上可以無(wú)障礙地預(yù)測(cè)嵌套實(shí)體,但在三元組預(yù)測(cè)時(shí)處理嵌套實(shí)體的能力尚有待探討。

        多數(shù)數(shù)據(jù)集中普遍存在嵌套實(shí)體。NYT[7]、WebNLG[6]、SciERC[8]和ACE2005[9]數(shù)據(jù)集的所有實(shí)體中存在嵌套實(shí)體比率如表2 所示,因此嵌套實(shí)體是實(shí)體關(guān)系聯(lián)合抽取任務(wù)中需要考慮的重要問(wèn)題。而多數(shù)嵌套實(shí)體關(guān)系聯(lián)合抽取的方法來(lái)自于嵌套實(shí)體抽取。因此,本文首先對(duì)嵌套實(shí)體抽取和嵌套實(shí)體關(guān)系聯(lián)合抽取兩個(gè)任務(wù)進(jìn)行介紹。

        表2 數(shù)據(jù)集統(tǒng)計(jì)信息Tab.2 Statistics of datasets

        1.1 嵌套實(shí)體抽取

        嵌套實(shí)體抽取是能夠處理嵌套實(shí)體的實(shí)體抽取方法。主要分為修改序列標(biāo)注框架和探索新的框架兩種解決方案。

        修改標(biāo)注方式的方法包括擴(kuò)充標(biāo)簽[12]和拼接標(biāo)簽[13]兩類。擴(kuò)充標(biāo)簽的方法[12]將序列標(biāo)注的標(biāo)簽為BIO(Begin,Inside,Outside)的標(biāo)簽體系新增BH(Begin Head)、BI(Begin Inside)等標(biāo)簽,以求標(biāo)注嵌套實(shí)體;但這種標(biāo)注體系的擴(kuò)充嚴(yán)重依賴于數(shù)據(jù)集,不僅泛化性較低,而且還存在歧義。拼接標(biāo)簽的方法[13]則將原有的標(biāo)簽拼接組合成新的標(biāo)簽,從而達(dá)成在同一位置標(biāo)注嵌套實(shí)體的目的;但該方法導(dǎo)致標(biāo)簽數(shù)成指數(shù)增加,單個(gè)標(biāo)簽標(biāo)注稀疏,難以訓(xùn)練。

        分層序列標(biāo)注[14]從嵌套實(shí)體最內(nèi)層實(shí)體到最外層實(shí)體依次使用不同的序列標(biāo)注預(yù)測(cè),利用了嵌套實(shí)體內(nèi)的信息傳遞。嵌套實(shí)體抽取模型NNE(Nested Named Entity recognition)[15]先序列標(biāo)注嵌套實(shí)體的外層實(shí)體,再標(biāo)注內(nèi)層,解碼時(shí)通過(guò)維特比算法,同時(shí)考慮最優(yōu)解碼路線與次優(yōu)路線上的實(shí)體,從而避免最大實(shí)體數(shù)量或長(zhǎng)度的限制;但次優(yōu)路線并不一定能夠解碼出下一層實(shí)體,它與最優(yōu)路線重疊度較高,仍受到影響。LogSumExpDecoder[16]在每一層的序列標(biāo)注中使用不同的勢(shì)函數(shù),以此屏蔽其他層的最優(yōu)路線的影響。分層序列標(biāo)注的模型預(yù)測(cè)的實(shí)體會(huì)受到錯(cuò)誤信息傳遞的影響;并且,不同數(shù)據(jù)集中嵌套實(shí)體的層數(shù)不同,也會(huì)限制模型的泛化性能。

        序列標(biāo)注框架天然無(wú)法處理嵌套實(shí)體,需要以犧牲時(shí)間、空間復(fù)雜度為代價(jià)解決嵌套實(shí)體問(wèn)題;因此學(xué)者們開(kāi)始探索新的框架,主要包括基于跨度的框架和生成式的框架。

        基于跨度的框架包括枚舉跨度的模型和跨度預(yù)測(cè)的模型。枚舉跨度的模型[17]枚舉所有可能的跨度,進(jìn)行實(shí)體類別預(yù)測(cè):預(yù)測(cè)若為無(wú)實(shí)體則過(guò)濾,預(yù)測(cè)若為實(shí)體類別則輸出該實(shí)體。這類模型通常需要進(jìn)行大量的負(fù)采樣以支撐訓(xùn)練??缍阮A(yù)測(cè)的模型是對(duì)每種實(shí)體類型單獨(dú)標(biāo)記出實(shí)體的首尾位置信息,即跨度。閱讀理解式嵌套實(shí)體抽取模型MRC4NNE(Machine Reading Comprehension for Nested Named Entity recognition)[18]以閱讀理解的形式對(duì)實(shí)體類型提問(wèn),回答對(duì)應(yīng)的實(shí)體跨度。使用頭尾連接器的嵌套實(shí)體識(shí)別模 型HTLinker(Head-to-Tail Linker for nested named entity recognition)[19]先預(yù)測(cè)出實(shí)體頭部,再依據(jù)實(shí)體頭部和實(shí)體類型分別預(yù)測(cè)實(shí)體尾部,從而獲得嵌套實(shí)體。

        生成式的框架主要包括序列生成實(shí)體序列、序列生成實(shí)體集合和超圖的模型。序列生成實(shí)體序列的模型[20]通過(guò)拷貝機(jī)制依次生成實(shí)體1 的頭部、實(shí)體1 的尾部、實(shí)體2 的頭部等。該模型認(rèn)為實(shí)體之間存在次序,先預(yù)測(cè)的實(shí)體可以輔助后預(yù)測(cè)的實(shí)體的生成,但也因此造成了嚴(yán)重的誤差傳遞。序列生成實(shí)體集合的模型[21]和SPN[11]一樣,通過(guò)去除位置編碼和引入二部圖匹配的方式,生成實(shí)體集合,但仍受限于固定的生成實(shí)體數(shù)。超圖的模型[22]則將前述分層序列標(biāo)注的多層序列標(biāo)注中相同的標(biāo)簽合并,形成一張超圖,并通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的狀態(tài)轉(zhuǎn)移從輸入文本序列起始位置依次預(yù)測(cè)各詞的實(shí)體類別標(biāo)簽,如果預(yù)測(cè)結(jié)果有多個(gè)則分支,遇到無(wú)實(shí)體(O)標(biāo)簽則合并,最終預(yù)測(cè)得到所有嵌套實(shí)體。該模型不受生成序列長(zhǎng)度、嵌套層數(shù)的限制,但在實(shí)體前后均存在標(biāo)記為O 的節(jié)點(diǎn)與嚴(yán)重的傳遞誤差。

        這些嵌套實(shí)體模型通常需要以時(shí)間、空間復(fù)雜度為代價(jià)或需要大量負(fù)采樣的支撐來(lái)處理嵌套實(shí)體。超圖的模型[22]相比而言負(fù)例少、時(shí)間空間復(fù)雜度低,但存在嚴(yán)重的傳遞誤差。EF2LTF 基于超圖的模型[22],將超圖拆解為實(shí)體森林,進(jìn)一步削弱傳遞誤差,高效地識(shí)別嵌套實(shí)體,輔助實(shí)體關(guān)系聯(lián)合抽取。

        1.2 嵌套實(shí)體關(guān)系聯(lián)合抽取

        目前考慮嵌套實(shí)體的實(shí)體關(guān)系聯(lián)合抽取的模型較少,主要通過(guò)引入嵌套實(shí)體抽取模型處理聯(lián)合抽取中的嵌套實(shí)體。主要引入的嵌套實(shí)體抽取模型包括序列標(biāo)注的模型和基于跨度的模型。

        序列標(biāo)注的模型主要是分層序列標(biāo)注和修改標(biāo)注方式。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)的實(shí)體關(guān)系聯(lián)合抽取模 型2-Bi-LSTM-CRF(Bidirection Long Short-Term Memory with Conditional Random Field)[23]采用多任務(wù)框架,先序列標(biāo)注最外層實(shí)體,然后通過(guò)引入實(shí)體類型的子概念的信息,再次進(jìn)行序列標(biāo)注,標(biāo)記其內(nèi)層實(shí)體。而在關(guān)系預(yù)測(cè)方面,2-Bi-LSTM-CRF[23]使用支持向量機(jī)(Support Vector Machine,SVM)預(yù)測(cè)。使用令牌對(duì)鏈接的一階段實(shí)體關(guān)系聯(lián)合抽?。╯ingle-stage joint extraction of entities and relations through Token Pair Linking,TPLinker)模型[2]進(jìn)一步擴(kuò)充序列標(biāo)注,使用矩陣標(biāo)注。該矩陣為文本到文本的詞間關(guān)系矩陣。若矩陣中第i行第j列為1,則代表句中第i個(gè)詞到第j個(gè)詞存在鏈接。通過(guò)這種方式,標(biāo)記實(shí)體頭部到實(shí)體尾部的鏈接和頭實(shí)體到尾實(shí)體的鏈接,但該標(biāo)記方式不僅空間復(fù)雜度高,而且標(biāo)注稀疏、負(fù)例過(guò)多,難以訓(xùn)練。

        基于跨度的模型主要是枚舉跨度的模型?;诳缍鹊膶?shí)體關(guān)系聯(lián)合抽取模型SpERT(Span-based Entity and Relation Transformer)[5]先枚舉所有可能的跨度,在對(duì)它們進(jìn)行實(shí)體分類的同時(shí)過(guò)濾非實(shí)體跨度,再枚舉所有可能實(shí)體對(duì),并預(yù)測(cè)候選實(shí)體對(duì)間的關(guān)系。基于語(yǔ)法樹(shù)的模型[24]則在此基礎(chǔ)上進(jìn)一步融合了語(yǔ)法樹(shù)信息。動(dòng)態(tài)圖信息抽取(Dynamic Graph Information Extraction,DyGIE)[3]介紹了一個(gè)多任務(wù)的通用框架,以動(dòng)態(tài)構(gòu)造的跨度圖共享跨度表示,進(jìn)而預(yù)測(cè)實(shí)體、關(guān)系信息。動(dòng)態(tài)圖增強(qiáng)信息抽?。―ynamic Graph Information Extraction ++,DyGIE++)[4]在此基礎(chǔ)上構(gòu)建了一個(gè)統(tǒng)一的多任務(wù)框架用于三個(gè)信息抽取任務(wù):命名實(shí)體識(shí)別、關(guān)系抽取和事件抽取。它通過(guò)枚舉、提煉和對(duì)文本跨度評(píng)分來(lái)獲取句內(nèi)局部上下文和句間全局上下文信息,從而解決每個(gè)任務(wù)。在實(shí)體關(guān)系聯(lián)合抽取中,這些模型需要更多的負(fù)采樣以同時(shí)支撐對(duì)嵌套實(shí)體和關(guān)系三元組的處理。

        EF2LTF 在基于跨度預(yù)測(cè)的模型(SPN[11])基礎(chǔ)上通過(guò)引入實(shí)體森林增強(qiáng)對(duì)嵌套實(shí)體的識(shí)別能力。與序列標(biāo)注的模型相比,EF2LTF 無(wú)需多次序列標(biāo)注,僅以一次樹(shù)的生成即可獲得嵌套的實(shí)體和包含嵌套實(shí)體的三元組。而與基于枚舉跨度的模型相比,EF2LTF 無(wú)需枚舉所有可能的跨度和實(shí)體對(duì),而是自動(dòng)生成實(shí)體,組合成實(shí)體對(duì)。因此,EF2LTF 能在不增加時(shí)間、空間復(fù)雜度和產(chǎn)生大量負(fù)例的前提下識(shí)別嵌套實(shí)體;此外,EF2LTF 能在相互嵌套的實(shí)體中區(qū)分嵌套實(shí)體,從相似的嵌套實(shí)體中選擇實(shí)體對(duì)生成三元組,具有更強(qiáng)的嵌套實(shí)體識(shí)別能力和構(gòu)建三元組時(shí)對(duì)嵌套實(shí)體的分辨能力。

        2 基于森林的實(shí)體關(guān)系聯(lián)合抽取

        為處理嵌套實(shí)體,本文提出了EF2LTF。EF2LTF 結(jié)構(gòu)如圖1 所示,由編碼器、實(shí)體森林、實(shí)體樹(shù)交互和分層三元組森林四個(gè)部分組成。采用多階段單步的聯(lián)合訓(xùn)練框架,原始文本由編碼器編碼成分布式上下文表示,經(jīng)由實(shí)體森林預(yù)測(cè)嵌套實(shí)體,再由實(shí)體樹(shù)交互部分獲得交互信息,最后通過(guò)分層三元組森林在識(shí)別的嵌套實(shí)體中選擇頭實(shí)體、尾實(shí)體,預(yù)測(cè)關(guān)系,生成分層的三元組森林。

        圖1 EF2LTF的結(jié)構(gòu)Fig.1 Structure of EF2LTF

        2.1 編碼器

        鑒于Transformer 相關(guān)預(yù)訓(xùn)練模型的有效性,EF2LTF 模型采用預(yù)訓(xùn)練的BERT(Bidirectional Encoder Representation from Transformers)[25]作為編碼器,獲得輸入文本的分布式上下文表示。如式(1)所示:

        其中:Tw、Tp、Ts為輸入文本的獨(dú)熱碼向量、位置索引、分段標(biāo)志;Wt是詞嵌入矩陣;Wp是位置嵌入矩陣;Ws是分段嵌入矩陣;BERT(x)代表BERT模型;輸出He為輸入文本的上下文表示矩陣,行向量代表句中第i個(gè)詞的包含上下文信息的向量表示。

        2.2 實(shí)體森林

        為輔助聯(lián)合抽取高效識(shí)別嵌套實(shí)體,本文提出實(shí)體森林。實(shí)體森林存在數(shù)據(jù)結(jié)構(gòu)與模型結(jié)構(gòu)兩個(gè)概念。它的數(shù)據(jù)結(jié)構(gòu)如圖2 所示,將嵌套實(shí)體前綴相同的實(shí)體合并成嵌套實(shí)體樹(shù)的集合。實(shí)體森林的模型結(jié)構(gòu)則如圖2 實(shí)體森林部分所示,分為序列標(biāo)注模塊和多棵嵌套實(shí)體樹(shù)模塊。編碼器所得輸入文本的分布式表示He,首先經(jīng)過(guò)一個(gè)序列標(biāo)注模塊,標(biāo)注嵌套實(shí)體樹(shù)的根節(jié)點(diǎn),再?gòu)拿恳粋€(gè)根節(jié)點(diǎn)出發(fā)形成嵌套實(shí)體樹(shù),預(yù)測(cè)嵌套實(shí)體。這種分層地嵌套實(shí)體樹(shù)內(nèi)部識(shí)別嵌套實(shí)體的方式,能增強(qiáng)模型對(duì)嵌套實(shí)體的識(shí)別能力。

        圖2 實(shí)體森林的數(shù)據(jù)結(jié)構(gòu)Fig.2 Data structure of entity forest

        實(shí)體森林下半部分標(biāo)注出對(duì)應(yīng)文本的實(shí)體頭部(Begin,B)、無(wú)實(shí)體(Other,O)標(biāo)簽,即標(biāo)注出嵌套實(shí)體樹(shù)的根節(jié)點(diǎn)(每個(gè)嵌套實(shí)體的頭部)。具體如式(2)所示。

        其中:輸入文本的上下文表示He經(jīng)過(guò)dropout 和線性層獲得文本中每個(gè)詞屬于B、O 標(biāo)簽的概率;Wner、bner是線性層的權(quán)重和偏置,概率P∈Rl×c2

        通過(guò)交叉熵?fù)p失函數(shù)訓(xùn)練,如式(3)所示。

        其中:c2=2 是類別數(shù);l為輸入文本長(zhǎng)度;yic是真實(shí)標(biāo)簽,代表第i個(gè)詞是否存在第c個(gè)標(biāo)簽;Pic為P中對(duì)應(yīng)位置的概率。

        預(yù)測(cè)時(shí)如式(4)所示,概率最大的標(biāo)簽即所預(yù)測(cè)的標(biāo)簽yB*。如當(dāng)前詞標(biāo)簽預(yù)測(cè)為B,則為預(yù)測(cè)所得嵌套實(shí)體樹(shù)的根節(jié)點(diǎn),記作

        實(shí)體森林的上半部分每一棵嵌套實(shí)體樹(shù)從根節(jié)點(diǎn)出發(fā),使用長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)依次判斷根節(jié)點(diǎn)之后的詞是否是某個(gè)嵌套實(shí)體的尾部(構(gòu)成實(shí)體),是否繼續(xù)分支(該樹(shù)是否還有其他嵌套實(shí)體),從而形成一棵嵌套實(shí)體樹(shù)。具體實(shí)現(xiàn)步驟如下:

        2.3 實(shí)體樹(shù)交互

        實(shí)體樹(shù)交互模塊由去除Position Encoding 的Transformer的Decoder 部分組成,利用注意力機(jī)制(Attention Mechanism)獲得無(wú)序的實(shí)體樹(shù)間交互和實(shí)體樹(shù)與輸入文本的交互。該部分計(jì)算如式(9)所示,輸入為輸入文本的分布式表示He和實(shí)體樹(shù)表示HS,輸出為融合實(shí)體樹(shù)信息和輸入文本信息的隱層

        2.4 分層三元組森林

        使用如圖3 所示的樹(shù)形循環(huán)神經(jīng)網(wǎng)絡(luò)(Tree Recurrent Neural Network,Tree-RNN),對(duì)每一個(gè)實(shí)體樹(shù)生成一棵三元組樹(shù)。第1 個(gè)時(shí)間步輸入對(duì)應(yīng)實(shí)體樹(shù)的根節(jié)點(diǎn),依據(jù)隱層信息,選擇可以作為頭實(shí)體的實(shí)體樹(shù)分支(實(shí)體的尾部),然后輸入頭實(shí)體,預(yù)測(cè)關(guān)系,輸入關(guān)系,選擇尾實(shí)體所在實(shí)體樹(shù),再在實(shí)體樹(shù)內(nèi)部選擇實(shí)體。每一步的預(yù)測(cè)中如果存在多個(gè)結(jié)果,則分別輸入LSTM 單元,分別計(jì)算,形成分支,從而形成三元組樹(shù)。其中,三元組樹(shù)的每一個(gè)分支對(duì)應(yīng)一個(gè)三元組。

        圖3 Tree-RNN模型的結(jié)構(gòu)Fig.3 Structure of Tree-RNN model

        如果預(yù)測(cè)實(shí)體,則需要融合輸入文本信息后,再通過(guò)線性層計(jì)算選擇實(shí)體樹(shù)或?qū)嶓w的概率,計(jì)算如式(12)所示。

        其中:thresholdes、thresholdee為分類閾值;下標(biāo)es和ee代表單個(gè)實(shí)體的頭部和尾部,是gold label,真實(shí)存在的實(shí)體。

        為進(jìn)一步降低嵌套實(shí)體的識(shí)別難度,通過(guò)root_mask 和leaf_mask 將非可選項(xiàng)置零。此外,為削弱傳遞誤差,引入糾錯(cuò)機(jī)制。糾錯(cuò)機(jī)制在訓(xùn)練時(shí)考慮了預(yù)測(cè)上一步預(yù)測(cè)錯(cuò)誤的情況,從而使得預(yù)測(cè)階段和訓(xùn)練階段一致,以此降低傳遞誤差,提升聯(lián)合抽取的性能。具體表現(xiàn)為,在訓(xùn)練時(shí),可選項(xiàng)包括真實(shí)的實(shí)體樹(shù)根節(jié)點(diǎn)或?qū)嶓w尾部(實(shí)體樹(shù)的葉子)和依據(jù)相應(yīng)概率負(fù)采樣所得負(fù)例。負(fù)采樣考慮了預(yù)測(cè)時(shí)出錯(cuò)的情況,并在推斷時(shí)通過(guò)預(yù)測(cè)為無(wú)標(biāo)簽(Not Available,NA)糾正。在預(yù)測(cè)時(shí),則依據(jù)實(shí)體森林部分預(yù)測(cè)的實(shí)體遮掩不可選選項(xiàng)。具體如式(13)所示,預(yù)測(cè)所得實(shí)體樹(shù)為,實(shí)體尾部為

        最后,將各階段的損失函數(shù)加權(quán)組合,聯(lián)合訓(xùn)練,如式(15)所示。

        其中,wB、wEF和wLTF分別代表序列標(biāo)注損失、實(shí)體森林損失和分層三元組森林損失的權(quán)重。

        3 實(shí)驗(yàn)與結(jié)果分析

        本文通過(guò)實(shí)驗(yàn)評(píng)估上述模型在嵌套實(shí)體關(guān)系聯(lián)合抽取中的有效性。首先介紹數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置;隨后介紹實(shí)驗(yàn)中的對(duì)比模型,并闡述實(shí)驗(yàn)結(jié)果的分析;最后進(jìn)行消融實(shí)驗(yàn)。

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        為驗(yàn)證模型有效性,本文選擇近年來(lái)嵌套實(shí)體關(guān)系聯(lián)合抽取模型所用的通用數(shù)據(jù)集,包括WebNLG[6]、NYT[7]、SciERC[8]和ACE2005[9]數(shù)據(jù)集。WebNLG 和NYT 采取標(biāo)注出完整實(shí)體的實(shí)際標(biāo)注版本(Exact)[26];SciERC 數(shù)據(jù)集使用官方版本;ACE2005[9]保留了和之前工作[2,6,27]相同的劃分,但在處理時(shí),為體現(xiàn)EF2LTF 對(duì)嵌套實(shí)體的有效性,保留全部嵌套實(shí)體。這與嵌套實(shí)體抽取的模型一致[28]。具體統(tǒng)計(jì)數(shù)據(jù)如表2 所示。

        3.2 實(shí)驗(yàn)超參數(shù)設(shè)置

        遵循之前的工作[4],本文在SciERC 數(shù)據(jù)集的實(shí)驗(yàn)中采用SciBERT(uncased)[8],在其他數(shù)據(jù)集中采用BERT。學(xué)習(xí)率初始化BERT 和SciBERT 為10-5,而Transformer Decoder 為2 × 10-5。實(shí)體樹(shù)交互部分使用3 層Transformer Decoder。dropout 用于BERT 輸出部分和LSTM 輸出部分,比率設(shè)為0.1。優(yōu)化器為AdamW[29]。訓(xùn)練時(shí),各損失權(quán)重比例wB∶wEF∶wLTF=1∶1∶10。本文所有的實(shí)驗(yàn)均使用NVIDIA TESLA V100。這些參數(shù)的設(shè)置大多與SPN[11]一致。

        3.3 對(duì)比實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)結(jié)果如表3 所示,主要采用精確率(Precision,Prec)、召回率(Recall,Rec)和F1 值(Function 1,F(xiàn)1)評(píng)估。

        表3 不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 單位:%Tab.3 Experimental results on different datasets unit:%

        與基于跨度預(yù)測(cè)的SPN[11]相比,包括EF2LTF 在內(nèi)大多嵌套實(shí)體關(guān)系聯(lián)合抽取模型F1 值均高于SPN[11],且主要優(yōu)勢(shì)體現(xiàn)在召回率上。從1.0%嵌套實(shí)體的NYT 數(shù)據(jù)集到36.4%的ACE2005 數(shù)據(jù)集,隨著包含嵌套實(shí)體的句子在所有句子中占比的提升,SPN 模型從略優(yōu)于TPLinker 到和嵌套實(shí)體關(guān)系聯(lián)合抽取模型差距越來(lái)越大,與EF2LTF 的F1 值差距也從0.8 到5.0 再到11.5 個(gè)百分點(diǎn),主要體現(xiàn)在召回率的差距上。由此可見(jiàn),基于跨度預(yù)測(cè)的模型雖然理論上可以預(yù)測(cè)嵌套實(shí)體,但對(duì)嵌套實(shí)體的識(shí)別能力比嵌套實(shí)體關(guān)系抽取的模型差。

        與嵌套實(shí)體關(guān)系聯(lián)合抽取模型相比,在各個(gè)數(shù)據(jù)集上,EF2LTF 的F1 也取得了最好的效果。從NYT、WebNLG 到ACE2005 數(shù)據(jù)集,隨著嵌套實(shí)體數(shù)量的增加,EF2LTF 和TPLinker(BERT)的F1 值差距越來(lái)越大,從1.1、2.1 到11.3個(gè)百分點(diǎn),主要體現(xiàn)在召回率上。這一方面因?yàn)門PLinker 的標(biāo)注模式過(guò)于稀疏,存在大量負(fù)例難以訓(xùn)練;另一方面則是與其他多階段的嵌套實(shí)體關(guān)系聯(lián)合抽取模型相比,一階段的TPLinker 難以處理嵌套實(shí)體更多情況更復(fù)雜的ACE2005 數(shù)據(jù)集,因此效果較差。與SpERT、DyGIE 和DyGIE++相比,TPLinker 沒(méi)有通過(guò)負(fù)采樣學(xué)習(xí)嵌套實(shí)體與普通實(shí)體的區(qū)別,效果較差,而EF2LTF 僅需采樣少數(shù)負(fù)例即可訓(xùn)練過(guò)分層預(yù)測(cè)在嵌套實(shí)體內(nèi)部識(shí)別嵌套實(shí)體,具有更好的識(shí)別能力,且通過(guò)負(fù)采樣、分層預(yù)測(cè)和森林的結(jié)構(gòu)考慮了嵌套實(shí)體對(duì)三元組預(yù)測(cè)過(guò)程的影響,因此效果更好,F(xiàn)1 值取得了最優(yōu)值。

        綜上所述,EF2LTF 的分層預(yù)測(cè)、基于負(fù)采樣的糾錯(cuò)機(jī)制和森林有效,且隨著嵌套實(shí)體占比的增加,與其他模型的差距逐漸增大,因此,EF2LTF 更適合嵌套實(shí)體關(guān)系聯(lián)合抽取。

        3.4 消融實(shí)驗(yàn)

        為了測(cè)試EF2LTF 中的有效模塊,本文在ACE2005 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)中,參數(shù)不變,逐個(gè)刪除實(shí)體樹(shù)交互(Entity Tree Interaction,ETI)模塊、分層三元組森林(Layering Triple Forest,LTF)模塊和實(shí)體森林(Entity Forest,EF)模塊,實(shí)驗(yàn)結(jié)果如表4 所示。

        表4 消融實(shí)驗(yàn)結(jié)果 單位:%Tab.4 Ablation experimental results unit:%

        首先刪除ETI 模塊,該模塊主要用于為下一步的分層三元組森林提供信息支撐,將Transformer Decoder 的輸入改為隨機(jī)初始化的可訓(xùn)練向量,F(xiàn)1 值下降0.57 個(gè)百分點(diǎn)。

        其次刪除LTF 模塊。將分層三元組森林中Tree RNN 刪除,同時(shí)預(yù)測(cè)頭實(shí)體、關(guān)系、尾實(shí)體,這與SPN[11]中的生成三元組方式一致??梢钥吹?,F(xiàn)1 值下降了9.86 個(gè)百分點(diǎn),下降最為明顯。因此該模塊起主要作用。這驗(yàn)證了本文中三元組森林和分層預(yù)測(cè)的有效性。

        最后刪除EF 模塊。在刪除LTF 后,實(shí)體森林不再參與到模型預(yù)測(cè),此時(shí)該模型僅通過(guò)共享編碼為三元組生成提供嵌套實(shí)體信息,并依賴生成三元組模塊預(yù)測(cè)實(shí)體、關(guān)系,F(xiàn)1值下降了1.07 個(gè)百分點(diǎn)。驗(yàn)證了嵌套實(shí)體信息的交互能夠提升嵌套實(shí)體關(guān)系聯(lián)合抽取性能。

        綜上所述,起主要作用的是LTF 模塊,主要為模型提供三元組生成時(shí)對(duì)嵌套實(shí)體的分辨能力;其次是EF 模塊,提供嵌套實(shí)體的識(shí)別能力,并為三元組生成提供嵌套實(shí)體信息;最后是ETI 模塊,主要為模型提供實(shí)體樹(shù)之間、實(shí)體樹(shù)和文本之間的關(guān)聯(lián)信息。

        4 結(jié)語(yǔ)

        本文提出了基于森林的實(shí)體關(guān)系聯(lián)合抽取模型——EF2LTF。該模型一方面將嵌套的實(shí)體聚集成樹(shù),進(jìn)而組成森林,借助樹(shù)的結(jié)構(gòu)在嵌套的實(shí)體中識(shí)別嵌套實(shí)體,具有更強(qiáng)更高效的識(shí)別能力;另一方面則在三元組生成時(shí),將三元組森林和分層預(yù)測(cè)結(jié)合,在生成三元組時(shí)在嵌套實(shí)體中區(qū)分嵌套實(shí)體,具有更強(qiáng)的分辨能力,使得模型免于嵌套實(shí)體對(duì)三元組預(yù)測(cè)過(guò)程的干擾,最終取得了更好的實(shí)體關(guān)系聯(lián)合抽取性能。

        但在ACE2005 中存在大量未參與到三元組中的實(shí)體,這是目前實(shí)體關(guān)系聯(lián)合抽取難以處理的問(wèn)題之一,阻礙了其性能的提升。因此,下一步考慮將分層預(yù)測(cè)和森林的模型用于未參與到三元組中的實(shí)體上,以求進(jìn)一步提升實(shí)體關(guān)系聯(lián)合抽取性能。

        猜你喜歡
        三元組嵌套跨度
        基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        例析“立幾”與“解幾”的嵌套問(wèn)題
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        緩粘結(jié)預(yù)應(yīng)力技術(shù)在大跨度梁中的應(yīng)用
        基于嵌套Logit模型的競(jìng)爭(zhēng)性選址問(wèn)題研究
        大跨度連續(xù)剛構(gòu)橋線形控制分析
        關(guān)于余撓三元組的periodic-模
        組合鋁合金立柱在超大跨度玻璃幕墻中的應(yīng)用
        上海建材(2018年4期)2018-11-13 01:08:54
        三元組輻射場(chǎng)的建模與仿真
        一種基于區(qū)分服務(wù)的嵌套隊(duì)列調(diào)度算法
        蜜桃视频色版在线观看| 亚洲精品久久久久久久久av无码| 亚洲男人天堂2019| 久久精品国产亚洲AV高清wy | 国产草草影院ccyycom| 欧美做受视频播放| 日本高清一区二区三区视频 | 亚洲视频高清一区二区| 国产av永久无码天堂影院| 日韩AV无码一区二区三区不卡毛片| 一本一道久久a久久精品综合蜜桃| 国产女同舌吻1区2区| 色欲色欲天天天www亚洲伊| 伊人久久网国产伊人| 亚洲区1区3区4区中文字幕码| av男人的天堂亚洲综合网| 亚洲av中文无码乱人伦在线播放| 亚洲激情成人| 国产成人自拍视频在线观看网站 | 公和我做好爽添厨房| 全球av集中精品导航福利| 国产精品一区2区三区| 中文字幕有码久久高清| 国产综合精品一区二区三区| 久久久久99精品国产片| 日本av一区二区播放| 男女交射视频免费观看网站| 成人国内精品久久久久一区| 日韩欧美国产自由二区| 国产精品视频一区二区久久| 少妇被又大又粗又爽毛片| 又污又黄又无遮挡的网站| 亚洲精品一品二品av| 国产亚洲一区二区三区综合片| 亚洲精品第一国产综合亚av| av狼人婷婷久久亚洲综合| 免费在线国产不卡视频| 人与禽性视频77777| AV永久天堂网| 在线观看二区视频网站二区| 一本精品99久久精品77|