亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于優(yōu)化信息融合策略的關系抽取

        2022-11-18 03:43:38周煜坤趙容梅琚生根
        小型微型計算機系統(tǒng) 2022年11期
        關鍵詞:特征信息方法

        周煜坤,陳 渝,趙容梅,琚生根

        1(四川大學 計算機學院,成都 610065)2(四川民族學院 理工學院,四川 康定 626001)

        1 引 言

        關系抽取任務的目標是從文本中抽取出兩個目標實體之間存在的語義關系,是信息抽取領域的一項子任務.準確地從非結構化文本中提取語義關系對于許多自然語言應用具有十分重要的意義,如信息抽取[1,2]、自動問答[3,4]、機器翻譯[5]、知識圖譜[6]等.關系抽取方法主要分為兩類:有監(jiān)督方法和遠程監(jiān)督方法.本文重點研究有監(jiān)督學習的關系抽取方法.

        近年來,隨著深度學習的快速發(fā)展,最新的有監(jiān)督關系抽取研究主要集中于深度神經網絡模型.這些模型解決關系抽取任務的方法大體上可以歸納為以下步驟:

        1)從編碼器中獲得目標句子的詞嵌入信息,例如,word2vec[7]詞向量,glove[8]詞向量,以及預訓練語言模型BERT[9]詞向量等;

        2)使用深度神經網絡,如循環(huán)神經網絡RNN[10,11]、卷積神經網絡CNN[12,13]、圖神經網絡GNN[14,15]、預訓練語言模型[16-20]等對整個句子的詞嵌入進行編碼,以捕捉上下文信息作為全局特征,同時添加目標實體信息作為局部特征,最終生成一個固定維度的向量作為關系表示;

        3)將編碼獲得的關系表示作為分類器(如softmax分類器)的輸入,在標記訓練集上進行訓練.

        但是,這些方法通常存在以下缺陷:以往的大量研究僅僅對從編碼器中獲得的信息(句向量、實體向量等)進行簡單的拼接以作為關系表示,這意味著默認每種信息將在關系抽取中扮演同等重要的角色.但實際上,在不同句子中,每種信息的重要性有很大的差異,這樣的方法限制了模型的性能.

        本文以2019年的R-BERT模型[16]為例,從兩個方面討論這個問題.R-BERT模型是最早將BERT預訓練語言模型用于關系抽取的模型之一,它將句子的[CLS]標記所對應的句向量以及兩目標實體的隱向量三者連接構成關系表示進行分類,在Semeval2010 Task8數(shù)據(jù)集上的F1值為89.25,取得了state-of-the-art的效果.

        首先,句向量代表了輸入序列的全局特征,聚焦于整個句子,而實體向量則是一種局部特征,聚焦于目標實體.從經驗上來看,二者均是關系抽取任務中的關鍵因素:在不同的句子中,受到復雜語境的影響,有時全局特征起決定性影響,有時則是局部特征占據(jù)主導地位.因此,將句向量以及實體向量連接的方法忽略了二者在關系抽取中的不同貢獻.

        其次,從直覺上來看,將兩個實體向量連接的方法有一定的合理性,因為二者作為局部信息,在關系抽取任務中扮演著同樣的角色.但實際上,由于復雜的語境變化及兩個實體的語義、位置、主賓關系等隱含信息的不同,二者在關系抽取中的貢獻往往也是不同的.

        從BERT預訓練語言模型的角度來看,關系抽取是一項分類任務,在不添加外部知識和人工設計、不使用外部NLP工具的情況下,其重點在于如何充分且有效地利用給定句子及目標實體的信息,可以自然地作為BERT模型的下游任務.如上所述,以往的研究常常忽略了各種信息對分類所做出的不同貢獻,而是將它們作為同等重要的信息送入分類器,這在一定程度上限制了模型的性能.

        因此,本文提出了一種基于優(yōu)化信息融合策略(Optimized Information Fusion Strategy,OIFS)的關系抽取方法,針對關系抽取任務的特點,為其設計了一個新的BERT下游任務模型,以解決上述問題:

        1)考慮到全局特征和局部特征對于關系抽取的不同影響,從BERT模型獲得句向量以及實體向量后,將句向量分別融入到兩個實體向量中,以融合句子的全局信息和局部信息,獲得兩個復合特征,它們將類似地在關系抽取中具有不同的貢獻程度;

        2)隨后,采用一種自適應的信息學習策略,根據(jù)文本的具體結構和語義信息組合兩種復合特征作為最終的關系表示,使得模型自動聚焦于對分類更有價值的部分.最后將關系表示饋送到softmax分類器中進行分類.

        本文的主要貢獻如下:

        1)基于BERT預訓練語言模型,為關系抽取任務提出了一種新的下游任務模型框架OIFS,該框架能夠恰當?shù)厝诤陷斎刖渥拥娜志渥犹卣骱途植繉嶓w特征,并通過自適應信息學習機制,自動聚焦于對分類貢獻更大的信息,解決了以往模型忽略不同特征對分類的不同貢獻的缺點;

        2)在TACRED、TACREV、Semeval2010 Task8基準數(shù)據(jù)集上,進行了大量實驗,將本文的模型與多個基線系統(tǒng)進行了比較,并進行了一定的可視化分析.實驗結果表明,該模型獲得了最先進的性能;

        3)本文的模型無需復雜的人工設計和外部知識輸入,對不同的數(shù)據(jù)集只涉及微小的改動,方法簡練而高效,具備良好的可擴展性和可移植性.

        2 相關工作

        傳統(tǒng)的有監(jiān)督關系抽取方法主要包括基于模式匹配的方法[21,22]和基于機器學習的方法.基于機器學習的方法又可以分為基于特征向量的方法[23,24]和基于核函數(shù)的方法[25,26].這些傳統(tǒng)的關系抽取方法高度依賴于人工特征選擇和提取,存在著嚴重的誤差傳播問題.因此,傳統(tǒng)關系抽取方法的性能非常有限.

        基于深度學習有監(jiān)督方法進行關系抽取,能解決經典方法中存在的人工特征選擇、特征提取誤差傳播兩大主要問題,取得了良好的效果,是近年來關系抽取的研究熱點.

        最常見的深度學習關系抽取網絡結構包括循環(huán)神經網絡RNN[10,11]、卷積神經網絡CNN[12,13]、圖神經網絡GNN[14,15],均取得了一定的效果.但是,RNN及其變體在處理長序列時存在梯度消失的問題,且難以并行運算,限制了模型的性能和適用性;CNN所建模的信息往往是局部的,限制了模型處理遠程關系的能力.隨著深度學習技術的不斷發(fā)展以及新技術的出現(xiàn),基于RNN、CNN等的方法由于編碼能力的不足,已經不再是關系抽取的主流方法.而基于GNN的方法高度依賴于高效的依存解析器,往往存在著難以解決的誤差傳播問題,限制了模型的效果.

        近年來,預訓練語言模型已經被證明可以有效地改善許多自然語言處理任務.其中,由Devlin[9]等人提出的BERT預訓練語言模型在11個NLP任務上獲得了最新的研究成果,許多學者開始著手使用它來處理關系抽取問題.

        2019年,Wu等人[16]首次將BERT預訓練模型運用到關系抽取任務中.由于句子的關系類型依賴于目標實體的信息,作者在目標實體前后添加位置標記,一并輸入到BERT模型中,將實體嵌入以及句子[CLS]標記嵌入連接并進行分類.該文在SemEval2010 Task8數(shù)據(jù)集上實現(xiàn)了SOTA的效果,證實了BERT預訓練模型對關系抽取任務的有效性.

        2019年,Soares等人[17]提出了Matching the blanks的方法來預訓練關系抽取模型.作者還測試了BERT的不同的輸入和輸出方式對關系抽取結果的影響,探討了如何對包含實體信息的語句進行編碼以及如何輸出一個固定長度的關系表示更為合理,該模型在SemEval2010 Task8、KBP37、TACRED數(shù)據(jù)集上均達到了當時的SOTA效果.

        2020年,Wang等人[18]基于語言學知識,提出了利用句法框架增強關系分類,將輸入的句子分解成句法上更短的塊,以獲得關系抽取所需的關鍵信息,將其作為額外特征與實體向量和句向量連接并分類,該文的方法在SemEval2010 Task8數(shù)據(jù)集上超過了最先進的方法.

        2021年,Zhou等人[19]提出了一個改進的關系抽取基線模型,對模型中的實體表示和標簽表示問題進行了分析和改進,提出了一種新型的實體表示技術,并基于BERT、RoBERTa預訓練模型進行實驗和微調,在TACRED數(shù)據(jù)集上取得了SOTA效果.

        2021年,Park等人[20]提出了一種基于課程學習的關系抽取方法,根據(jù)數(shù)據(jù)難度將數(shù)據(jù)集分成若干組,并允許模型根據(jù)難度逐步學習.使用RoBERTa編碼句子得到實體向量,再將實體間的上下文送入圖注意網絡中進行編碼得到上下文向量,將二者連接后進行分類,提升了關系抽取的效果.

        以上方法往往只是將模型中的不同信息(局向量、實體向量、上下文向量、句法結構特征等)進行簡單的拼接構成關系表示,忽略了句子中各種特征對關系抽取的不同影響.2018年,Zhao等人[27]提出了一種自適應的學習方法用于文本分類任務,恰當?shù)厝诤狭司植空Z義和全局結構信息.受Zhao等人[27]的啟發(fā),本文將該方法擴展為融合模型的更多不同特征,并將其用于關系抽取任務:使用預訓練語言模型編碼句子后,充分考慮多種信息在關系抽取中所發(fā)揮的不同作用,恰當?shù)亟M合各類特征,使模型聚焦于對分類更有幫助的部分,從而提升關系抽取的效果.

        3 本文方法

        本文提出了一種基于自適應信息融合機制的關系抽取方法.首先,通過BERT網絡編碼獲得目標句子的句向量以及兩實體的隱狀態(tài)表示,并將句向量表示分別融入到兩個實體表示中,以獲得兩種復合特征,融合輸入序列的全局信息以及局部信息.隨后,采用一種自適應的信息學習策略來確定兩種復合特征對關系抽取的重要程度.具體來說,將BERT模型的倒數(shù)第2層輸出作為句子的上下文特征向量,根據(jù)該特征向量賦予兩種復合特征適當?shù)母怕手?,代表它們對分類的貢獻程度.最后,根據(jù)兩個概率值融合兩種復合特征作為最終的關系表示,送入softmax分類層進行分類.通過這種方法,使得模型能夠恰當?shù)厝诤先中畔⒑途植啃畔?,并自動聚焦于對分類貢獻更大的部分,獲得了更高質量的關系表示,提升了關系抽取的性能.模型整體框架如圖1所示.

        圖1 模型整體框架

        3.1 問題描述

        關系抽取任務的目標是從一段文本中識別出兩個給定實體之間的語義關系.例如,給定文本:“The was composed for a famous Brazilian.”

        其中,實體song和實體musician的位置信息分別由指示符,所標示.此外,TACRED和TACREV數(shù)據(jù)集還額外提供了目標實體的命名實體類型.模型的目標為識別其關系類型:Product-Producer(e1,e2).

        3.2 樣本預處理

        在將樣本句子輸入到BERT模型編碼之前,采用BERT模型的原始設置,在句子S開頭添加[CLS]標記,以捕獲整個序列的信息,在句子結尾添加一個[SEP]標記作為結束符號.

        現(xiàn)有的研究[16,19]已經證明在實體前后添加顯式的標記可以顯著提高關系抽取模型的性能.本文采取類似的方法為目標實體添加特殊token(圖1中的ST).考慮到數(shù)據(jù)集中關系類型的不同特點,對3個基準數(shù)據(jù)集的樣本采用不同的預處理方法,如圖2所示.

        圖2 樣本預處理

        對于TACRED和TACREV數(shù)據(jù)集,沿用Zhou等[19]的設置,在實體1和實體2兩側分別添加位置標記@和#,同時,標記兩實體類型并分別用*和^標記位置,從而得到序列T.其中,person是實體Bill的NER類型,city是實體Seattle的NER類型,已由數(shù)據(jù)集給出.

        對于Semeval2010 Task8數(shù)據(jù)集,在S中的兩個目標實體兩側分別添加位置標記[E11]、[E12]和[E21]、[E22]得到序列T.

        3.3 BERT編碼層

        BERT預訓練語言模型是一個多層的雙向Transformer編碼器,基于注意力機制對序列進行編碼以充分利用上下文信息.通過微調,BERT能夠為廣泛的NLP任務輸出有效的分布式表示,并取得良好的效果.

        首先將序列T送入BERT編碼器中進行編碼.在BERT模型中,每一個Transformer層均會輸出一組對應于輸入序列T的隱狀態(tài)向量.從理論上來講,每個Transformer層的隱狀態(tài)向量均可以作為輸入序列T的詞嵌入,但是,一般來說,越深層次的Transformer隱狀態(tài)往往越適合用于進行下游任務的微調.因此,首先利用最后一層Transformer的隱向量.

        在最后一層Transformer層的輸出中,設Hi至Hj對應了實體1的隱狀態(tài),Hm至Hn對應了實體2的隱狀態(tài),H[CLS]對應了輸入序列中[CLS]標記的隱狀態(tài).其中,Hi、Hj、Hm、Hn、H[CLS]∈Rh,h為隱狀態(tài)向量的維度.

        對于TACRED和TACREV數(shù)據(jù)集,取兩實體的頭部token的隱狀態(tài)分別作為目標實體的向量表示He1和He2;而對于Semeval2010 Task8數(shù)據(jù)集,則是使用平均運算得到He1和He2:

        (1)

        (2)

        對于[CLS]標記的隱狀態(tài),不對其進行額外的操作,直接將其記為輸入序列的句向量H0.即:

        H0=H[CLS]

        (3)

        (4)

        后續(xù)將在3.5節(jié)中詳細闡述上下文特征向量的作用.

        3.4 復合表示的獲取

        至此,已經獲得了輸入序列的句向量表示H0∈Rh,以及兩個目標實體表示He1、He2∈Rh.其中,句向量表示是融合了整個輸入序列信息的全局特征,兩實體表示則是與目標實體相關的局部特征,它們是關系抽取任務中起決定性作用的3種信息.為了提升關系抽取的效果,本節(jié)考慮如何更恰當?shù)厝诤?種表示作為最終的分類依據(jù).

        從經驗上來看,句向量和實體向量在不同的語境下中的作用是不同的:句向量由一個沒有明顯語義信息的[CLS]符號編碼得來,通過注意力機制融合文本中各個token的信息,是原始BERT模型所定義的分類任務的依據(jù).作為一種全局特征,句向量代表了整個句子的語義信息,即“理解”了整個句子;而實體向量則是一種局部特征,往往聚焦于與目標實體更相關的token的語義信息,即“理解”了目標實體.在關系抽取任務中,樣本的關系類型由眾多復雜的因素決定,除了與目標實體相關外,有時還與某些關鍵的謂詞、介詞、文本段甚至整個句子的語義信息有關.為了更好地說明句向量和實體向量的不同作用,在圖3中給出了4個例子.在句子S1中,通過實體room和實體house二者以及相關詞inside的局部語義特征即可判斷其關系類型為Component-Whole(e1,e2)(即部分-整體關系),全局信息的幫助較??;句子S2的情況與S1類似;而在句子S3中,僅憑實體distraction和incident及其局部語義特征不足以準確地判斷關系類型Cause-Effect(e1,e2)(即因-果關系),而需要整個句子的全局語義信息作為主導,句子S4的情況與S3類似.

        圖3 全局特征和局部特征的不同作用

        以往的模型往往通過簡單的連接操作組合句向量和實體向量,這意味著給予它們以同等的重視程度.本文重新審視了這個問題,并提出了一種新的信息組合方式:

        對于句向量表示H0,以及兩個目標實體表示He1和He2,采用向量相加運算對其進行信息組合:

        H1=He1+H0

        (5)

        H2=He2+H0

        (6)

        其中,H1、H2∈Rh.H1、H2融合了句向量表示和目標實體表示,可以看作是一種復合特征.這種方法對全局特征進行了更充分的利用,使得兩目標實體所對應的局部特征均與全局特征完成了融合.

        3.5 自適應信息學習層

        H1、H2作為復合表示,在包含全局特征的同時,還分別攜帶了不同的實體特征,由于兩個目標實體的語義、位置、主賓關系等隱含信息的不同,加之在不同的語境影響下,二者在關系抽取中的貢獻程度往往也會呈現(xiàn)出不同大小的差異.因此,應當采用恰當?shù)姆椒▽煞N復合特征進行組合.在本實驗中,采用一種自適應信息學習策略來確定兩種表示對關系抽取的重要程度,并對兩種表示進行恰當?shù)娜诤?

        在3.3節(jié)中,通過Transformer層的輸出得到了上下文特征向量Hs,它是輸入序列T在某一層面上的詞嵌入,隨著輸入句子的變化而變化,反映了文本的具體結構和語義信息.因此,本文以Hs為特征向量,為復合特征H1、H2賦予特定的概率值,作為其在關系抽取中的重要程度,從而實現(xiàn)自適應信息融合.

        圖4描述了自適應信息學習策略的簡單架構.根據(jù)上下文特征向量Hs,通過線性變換計算兩個特征表示S1、S2:

        圖4 自適應信息學習模塊

        S1=HS×W1+b1

        (7)

        S2=HS×W2+b2

        (8)

        其中,W1、W2∈Rh×h為線性變換矩陣,b1、b2∈Rh,為偏置項.S1、S2∈Rh.隨后,通過平均內積運算計算復合表示H1、H2與特征表示S1、S2之間的相似度來為復合表示對關系抽取的貢獻程度進行打分,記為權值p1、p2:

        p1=ρ(S1,H1)

        (9)

        p2=ρ(S2,H2)

        (10)

        最后,使用softmax函數(shù)對權值p1、p2進行歸一化:

        att1,att2=softmax(p1,p2)

        (11)

        其中,att1、att2是兩個歸一化權值,分別代表了復合表示H1、H2對關系抽取任務的貢獻程度.利用att1、att2對H1、H2進行組合,獲得最終的關系表示X:

        X=concat(att1×H1,att2×H2)

        (12)

        其中,X∈R2h.這種自適應的信息學習策略,可以使模型聚焦于對分類更有幫助的部分,更好地完成信息融合,生成更高質量的關系表示.

        3.6 模型訓練與預測

        為了訓練模型參數(shù)并預測樣本類別,將關系表示X送入全連接層和softmax層進行分類:

        h=(activation(X×W3+b3))×W4+b4

        (13)

        (14)

        p=softmax(h)

        (15)

        其中,W3∈R2h×h,W4∈Rh×L,為線性變換矩陣,b3∈Rh,b4∈RL為線性變換的偏置項,L為數(shù)據(jù)集中關系類型的個數(shù),activation為非線性激活函數(shù)ReLU或tanh.h、p∈RL,p中的各個元素代表了樣本屬于各個關系類型的歸一化概率.根據(jù)p,可以計算模型損失和預測樣本類別:

        在模型訓練過程中,計算歸一化概率p與樣本真實類別的one-hot向量之間的交叉熵損失作為損失函數(shù).為了防止模型過擬合,本文在模型中添加一個dropout層,以一定的概率丟棄某些網絡值.

        在模型的預測階段,選擇歸一化概率p中的最大值所對應的類別作為輸出:

        (16)

        4 實 驗

        本文采用的實驗環(huán)境配置為:Ubuntu18.04.5操作系統(tǒng),Titan RTX顯卡,編程語言和框架分別為Python3.6和Pytorch1.9.0.

        4.1 數(shù)據(jù)集及評價指標

        為了評估模型的性能,本文在公開數(shù)據(jù)集TACRED[28]、TACREV[29]以及SemEval-2010 Task8[30]上進行了實驗.

        TACRED數(shù)據(jù)集是關系抽取任務中最大規(guī)模的數(shù)據(jù)集之一,訓練集、驗證集、測試集的樣例總數(shù)分別為68124,22631,15509,共有42個關系類型,其中包含一個無關系類別“no_relation”;TACREV數(shù)據(jù)集是一個基于原始TACRED數(shù)據(jù)集構建的數(shù)據(jù)集:在樣本數(shù)和關系類型不變的情況下,糾正了TACRED原始開發(fā)集和測試集中的錯誤,而訓練集保持不變.SemEval-2010 Task 8數(shù)據(jù)集是關系抽取任務的一個傳統(tǒng)數(shù)據(jù)集,包含10717個有標記的實例,其中8000個用于訓練,2717個用于測試.所有實例標記了一個關系類型,其中包括9個關系類型以及一個其他類“Other”,考慮到關系的方向性,關系類型總數(shù)為2*9+1=19種.

        對于TACRED和TACREV數(shù)據(jù)集,采用其官方評價腳本評測模型的Micro-F1值以衡量模型性能;對于Semeval2010 Task8數(shù)據(jù)集,同樣采用其官方評價指標:9個實際關系(不包括Other類)的Macro-F1值來評價模型.

        4.2 超參數(shù)設置

        在本文的實驗中,使用RoBERTa-Large[31]配置作為TACRED和TACREV數(shù)據(jù)集樣本的編碼器,使用BERT-Large-Uncased[9]配置作為Semeval2010 Task8數(shù)據(jù)集樣本的編碼器.在反向傳播中,對3種數(shù)據(jù)集均采用AdamW[32]優(yōu)化器更新模型參數(shù).在TACRED和TACREV數(shù)據(jù)集實驗中,將dropout層設置在激活函數(shù)后;在Semeval2010 Task8數(shù)據(jù)集實驗中,將dropout層設置在He1、He2、H0的獲取過程中.實驗中的主要超參數(shù)取值如表1所示.

        表1 主要超參數(shù)取值

        4.3 基線模型

        為了說明模型的有效性,將本文提出的OIFS模型的實驗結果與近年來效果突出的大量主流基線模型的實驗結果進行了對比,包括:基于CNN/RNN的方法、基于GNN的方法和基于預訓練語言模型的方法:

        Attention-CNN[33]:將注意力機制引入卷積神經網絡中,以捕獲對目標實體影響最大的部分.

        PA-LSTM[28]:面向關系抽取任務提出了一種認知位置的神經序列模型,充分結合基于語義相似度和位置的兩種attention機制.

        C-GCN[14]:將圖卷積網絡應用到關系抽取任務中,基于依存結構對句子進行編碼,并提出了新的修剪策略.

        C-MDR-GCN[34]:提出了一種基于多種表征的圖神經網絡模型,結合多種類型的依賴表示方法,同時引入了可調節(jié)的重正化參數(shù)γ.

        R-BERT[16]:將BERT模型運用到關系抽取任務中,將[CLS]標記的嵌入和兩實體嵌入連接作為關系表示進行分類.

        KnowBERT[35]:聯(lián)合訓練語言模型和實體鏈接器,并使用知識注意機制和重上下文化機制,將知識庫引入預訓練模型,以形成知識增強的實體跨度表示形式.

        MTB[17]:提出了Matching the blanks的方法來預訓練關系抽取模型,并探討了如何對包含實體信息的語句進行編碼以及如何輸出一個固定長度的關系表示更為合理.

        Span-BERT[36]:提出了一個新的分詞級別的預訓練方法,通過使用分詞邊界的表示來預測被添加Mask的分詞的內容.

        LUKE[37]:提出了一種專門用于處理與實體相關的任務的上下文表示方法,在大型文本語料庫和知識圖對模型進行預訓練,并提出了一種實體感知的自我注意機制.

        ENT-BERT[38]:基于關系分類任務的特點,結合BERT和注意力機制,利用句向量和實體向量進行分類.

        EC-BERT[39]:提出了一種結合句子特征向量、目標實體以及實體上下文語句信息的BERT關系抽取方法,在Semeval2010 Task8數(shù)據(jù)集上表現(xiàn)良好.

        Typed entity marker(punct)[19]:提出了一種新型的實體表示技術,并基于BERT、RoBERTa模型進行實驗和微調,在TACRED、TACREV數(shù)據(jù)集上取得了SOTA效果.

        4.4 實驗結果

        OIFS模型與上述基線模型的實驗結果對比如表2所示.實驗結果顯示,本文的模型在TACRED、TACREV、Semeval2010 Task8 3種數(shù)據(jù)集上分別取得了75.35、83.71、90.16的F1值.

        表2 模型效果對比(F1值)

        相比于基于CNN/RNN的方法、OIFS模型在3個數(shù)據(jù)集上所取得的F1值分別提高了8.35、10.41和4.26,證實了預訓練語言模型相較于其他傳統(tǒng)編碼模型的強大能力;

        相比于基于GNN的方法,OIFS模型取得的F1值分別提高了7.35、9.11和5.26,這表明基于圖神經網絡的模型仍然存在著較為明顯的缺陷,如過度依賴于依存解析器所導致的錯誤傳播問題;

        相比于基于預訓練語言模型的方法,OIFS模型在TACRED數(shù)據(jù)集上的F1值提升了0.75至3.85;在TACREV數(shù)據(jù)集上的F1值提升了0.51至4.41;在Semeval2010 Task8數(shù)據(jù)集上的F1值提升了0.47至0.91.在3個數(shù)據(jù)集上的效果均優(yōu)于當前最先進的模型,證明了本文方法的有效性,表明OIFS模型能夠有效地對模型中的各種特征信息進行組合,解決了現(xiàn)有模型忽略不同特征對分類的不同貢獻的缺點.

        4.5 模型性能分析

        本節(jié)將OIFS模型與其他基于預訓練模型的基線方法進行了性能比較,從參數(shù)量大小以及是否使用外部知識兩個方面進行分析,如表3所示.

        表3 模型規(guī)模對比

        KnowBERT(2019)[35]和MTB(2019)[17]使用了BERT-Base作為語言模型,因此參數(shù)量較小,但它們分別在微調階段和預訓練階段融入了大量外部知識作為數(shù)據(jù)增強;

        本文提出的OIFS模型的參數(shù)量與大多數(shù)基線模型持平,且在不需要添加任何外部知識和復雜的人工設計的情況下,在3個數(shù)據(jù)集上的F1值均顯著優(yōu)于現(xiàn)有模型,顯示了本文方法的簡練性和高效性及其在關系抽取任務中的強大潛力.

        4.6 上下文特征向量選擇實驗

        為了使自適應信息學習機制更好地發(fā)揮作用,進行了上下文特征向量選擇實驗,分別選取RoBERTa模型(TACRED、TACREV)和BERT模型(Semeval2010 Task8)的最后6個Transformer層,依次作為上下文特征向量提供給自適應信息選擇層,并對比模型效果,如圖5、圖6、圖7所示.

        圖5 上下文特征向量選擇實驗(TACRED)

        圖6 上下文特征向量選擇實驗(TACREV)

        圖7 上下文特征向量選擇實驗(Semeval2010 Task8)

        圖中的水平參考線代表不使用自適應信息學習模塊時的模型效果(即消融實驗模型w/o AIL,將在4.8節(jié)中闡述).

        實驗結果表明,在3個數(shù)據(jù)集上,模型均在使用倒數(shù)第2個Transformer層作為上下文特征向量時達到了最好的效果.而使用倒數(shù)第1個Transformer層時,模型效果有所下降,這可能是由于對該層的過度利用導致了模型的過擬合.因此,在本文的實驗中,均選擇倒數(shù)第2個Transformer層作為上下文特征向量.

        4.7 特征維度選擇實驗

        為了提升模型效果,進行了特征維度(Hidden size)選擇實驗.RoBERTa-Large和BERT-Large模型輸出的隱狀態(tài)表示維度均默認為1024,將后續(xù)特征維度分別設置為256、512、768、1024、1280,在3個數(shù)據(jù)集上分別進行實驗,并對比模型效果,實驗結果如圖8、圖9、圖10所示.

        圖8 特征維度選擇實驗(TACRED)

        圖9 特征維度選擇實驗(TACREV)

        圖10 特征維度選擇實驗(Semeval2010 Task8)

        實驗結果表明,在3個數(shù)據(jù)集上,模型均在特征維度為1024時達到了最好的效果.因此,在本文的實驗中,均選擇將特征維度設置為1024.

        4.8 消融實驗

        為了揭示OIFS模型中各組成成分的有效性,本節(jié)設計了4個消融模型,并對比了實驗結果:

        w/o AIL:在得到復合向量H1、H2后,不使用自適應信息學習層(Adaptive Information Learning,AIL),直接將二者連接后送入全連接層和softmax層進行分類,其他設置不變.

        w/o GLIF:在獲得句向量H0和實體向量He1、He2后,不對句向量和實體向量進行融合,即全局信息和局部信息間的融合(Global and Local Information Fusion,GLIF),直接將三者送入自適應信息學習層,其他設置不變.

        w/o Entity1:在模型前饋過程中,不使用實體1的信息,即不獲取He1及其衍生表示H1,僅使用復合表示H2進行分類.

        w/o Entity2:在模型前饋過程中,不使用實體2的信息,即不獲取He2及其衍生表示H2,僅使用復合表示H1進行分類.

        表4報告了消融實驗的結果.

        表4 消融實驗結果對比

        在不使用自適應信息學習層的情況下,模型在3個數(shù)據(jù)集上的F1值分別下降了0.53、0.26和0.26,表明自適應信息學習機制確實有利于對模型特征進行恰當?shù)厝诤?,從而提升模型效果?/p>

        在不對全局信息和局部信息進行融合的情況下,模型的F1值分別下降了0.67、0.65和0.97,表明本文的方法有利于聚合模型中的全局句子特征和局部實體特征;

        在不使用實體1和不使用實體2的情況下,模型在TACRED數(shù)據(jù)集上的F1值分別下降了1.01和1.24,在TACREV數(shù)據(jù)集上的F1值分別下降了1.72和1.31,在Semeval2010 Task8數(shù)據(jù)集上的F1值分別下降了0.70和0.92,取得了不同的效果,表明實體1和實體2在關系抽取中的作用確實存在差異,應當對其加以不同的考量.

        4.9 模型對各關系類型的影響

        為了進一步說明OIFS模型的有效性,在表5中列出了模型在Semeval2010 Task8數(shù)據(jù)集中的每個類別上取得的查準率(Precision)、查全率(Recall)以及F1值,并與Wu等人[16]的R-BERT模型進行對比,該模型曾在Semeval2010 Task8數(shù)據(jù)集上取得了89.25的F1值.由于原論文沒有列出每個類別的具體數(shù)據(jù),本文選取Wang等人[18]對R-BERT模型進行的復現(xiàn)實驗的結果,其取得的F1值為89.26,與原論文持平.

        表5 Semeval2010 Task8數(shù)據(jù)集上各類別的查準率、查全率、F1值對比

        實驗結果表明,與R-BERT模型相比,本文的方法在6個類別上的查準率有提升,在7個類別上的查全率有提升,在8個類別上的Macro-F1值有提升,進一步證明了OIFS模型在關系抽取任務中的有效性.

        4.10 模型注意力可視化

        為了更清晰地展示OIFS模型捕捉信息的能力,以Semeval2010 Task8數(shù)據(jù)集中的一個樣本:“[CLS]the minister attributed the slow production of the[E11]materials[E12]by the local[E21]industries[E22]to their limited capacities”為例,針對目標實體“materials”,對模型中的最后一層Transformer的自注意力權重進行了可視化,同時,為了與現(xiàn)有模型進行對比,本文復現(xiàn)了Wu等人[16]的R-BERT模型并對其進行了類似的可視化,如圖11所示.

        圖11 模型注意力權重可視化

        在OIFS模型中,目標實體materials對[CLS]、production、by等token有更高的注意力權重,這些信息有利于模型判斷樣本的關系類型“Product-Producer(e1,e2)”.而在R-BERT模型中,目標實體materials對[CLS]、by的注意力權重有所下降,而將部分權重分配到了to、their等無關詞上.

        可視化結果表明,OIFS模型能夠更準確地聚焦于模型中的關鍵信息,降低了模型中噪聲信息的影響,有助于提升關系抽取的效果.

        5 總結與展望

        本文提出了一種基于優(yōu)化信息融合策略的關系抽取模型OIFS,針對以往模型對不同層次的信息一視同仁的缺陷,對BERT下游任務模型做出了改進:分析了關系抽取任務中不同信息在分類中的貢獻,并針對每種信息提出了不同的信息融合策略,使得模型不僅恰當?shù)厝诤狭巳直硎竞途植勘硎镜牟煌瑢哟蔚男畔ⅲ易詣泳劢褂趯Ψ诸惼鸶笞饔玫男畔?,從而得到了更高質量的關系表示,提高了關系抽取的效果.在TACRED、TACREV和Semeval-2010 Task 8基準數(shù)據(jù)集上,該文的方法在無需任何外部知識和人工設計的情況下,分別獲得了75.35,83.71,90.16的F1值,顯著優(yōu)于當前的最優(yōu)模型.

        在未來的工作中,將嘗試將本文的方法與其他預訓練模型結構相結合,同時考慮將自然語言推理的方法結合到模型當中,并探究其在更多復雜關系抽取數(shù)據(jù)集以及遠程監(jiān)督數(shù)據(jù)集中的表現(xiàn).

        猜你喜歡
        特征信息方法
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产成人a级毛片| 国产精在线| 人妻少妇一区二区三区| 亚洲成AV人在线观看网址| 国产大陆av一区二区三区| 国产成版人性视频免费版| 亚洲av成熟国产精品一区二区| 中文字幕日韩有码国产| 97人妻精品一区二区三区男同| 国产成人午夜高潮毛片| 日韩人妻无码一区二区三区| 国产精品一区二区久久| 99国产精品丝袜久久久久| 女同视频网站一区二区| 久久国产精品一区二区三区| 男人扒开添女人下部免费视频 | 亚洲日本va午夜在线影院| 国产精品精品| 国产成人久久精品亚洲小说| 青青草在线公开免费视频| 亚洲国产中文字幕无线乱码| 国产免费拔擦拔擦8x高清在线人| 日韩免费无码一区二区三区| 久久久综合九色合综国产| 国产风骚主播视频一区二区| 一区二区三区内射美女毛片| 中文字幕乱码免费视频| 欧美亚洲国产另类在线观看| 青青草伊人视频在线观看| 后入丝袜美腿在线观看| 国产超碰人人做人人爽av大片 | 亚洲av无码专区亚洲av| 久久精品国产亚洲综合色| 九九久久精品一区二区三区av | 无码 制服 丝袜 国产 另类| 国产成人久久精品激情91| 亚洲午夜经典一区二区日韩 | 99re热视频这里只精品| 欧美性xxx久久| 日本不卡一区二区三区久久精品| 狼人青草久久网伊人|