亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取

        2024-04-23 10:03:20吳海鵬錢育蓉冷洪勇
        計算機(jī)工程 2024年4期
        關(guān)鍵詞:語義模態(tài)文本

        吳海鵬,錢育蓉,3,冷洪勇

        (1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆維吾爾自治區(qū)信號檢測與處理重點(diǎn)實驗室,新疆 烏魯木齊830046;3.新疆大學(xué)軟件學(xué)院,新疆 烏魯木齊 830046)

        0 引言

        關(guān)系抽取是知識圖譜構(gòu)建的基本任務(wù),也是自然語言處理(NLP)的重要任務(wù)之一,旨在從給定句子中抽取出實體間的關(guān)系。傳統(tǒng)的關(guān)系抽取方法主要是純文本的單模態(tài)方法,只利用文本信息進(jìn)行關(guān)系抽取。傳統(tǒng)關(guān)系抽取方法通常從一段文本中提取出指定的關(guān)系三元組,具體表現(xiàn)形式為三元組,其中,E1與E2分別是文本中的頭實體與尾實體,r表示頭實體與尾實體間的關(guān)系。

        近些年,社交網(wǎng)絡(luò)發(fā)展迅速,單模態(tài)的關(guān)系抽取方法已經(jīng)無法滿足海量多模態(tài)數(shù)據(jù)抽取的需求,因此多模態(tài)關(guān)系抽取技術(shù)應(yīng)運(yùn)而生。多模態(tài)關(guān)系抽取任務(wù)的輸入為一個多模態(tài)實例L,它包含一個文本T和一個與文本關(guān)聯(lián)的圖像I。文本T由一個單詞序列組成,即T={w1,w2,…,wi,…,wn},其中,wi表示第i個單詞。在文本T中,有2個被標(biāo)記的實體E1和E2,任務(wù)的目標(biāo)是利用文本T以及圖像I的信息預(yù)測實體E1和E2之間的關(guān)系類型r。

        現(xiàn)有的多模態(tài)關(guān)系抽取方法利用圖像數(shù)據(jù)作為文本數(shù)據(jù)的補(bǔ)充,以輔助模型進(jìn)行關(guān)系抽取,但實際上圖像中往往存在與文本無關(guān)的冗余信息,而在現(xiàn)有方法下這些冗余信息最終會影響關(guān)系抽取的結(jié)果。

        為了解決這一問題,本文提出一種基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型。與僅計算圖像到文本的單向注意力的現(xiàn)有模型不同,該模型利用雙向注意力機(jī)制計算圖像到文本與文本到圖像2個方向上的注意力分布。這樣圖像中與文本更相關(guān)的物體將被賦予較高的權(quán)重,而與文本無關(guān)的冗余信息被賦予較低的權(quán)重。通過該模型可以在多模態(tài)關(guān)系抽取中削弱冗余信息的影響,從而提高抽取結(jié)果的準(zhǔn)確性,并且在公開的用于神經(jīng)關(guān)系提取的多模式數(shù)據(jù)集(MNRE)[1]上進(jìn)行了實驗驗證。

        1 相關(guān)工作

        1.1 多模態(tài)關(guān)系抽取

        關(guān)系抽取作為知識圖譜構(gòu)建的關(guān)鍵環(huán)節(jié)[2],長期以來都是學(xué)者們關(guān)注和研究的重要領(lǐng)域。早期的關(guān)系抽取方法主要是基于統(tǒng)計學(xué)[3],近年來隨著神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的興起,大量基于深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的方法開始出現(xiàn)。

        基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法起初多數(shù)依賴于外部NLP工具[4],容易受到NLP工具帶來的錯誤影響,學(xué)者們對此進(jìn)行了大量研究。WANG等[5]提出一個基于多級注意力卷積神經(jīng)網(wǎng)絡(luò)的抽取模型,該模型在不使用NLP工具的前提下依然取得了較好的效果。ZHANG等[6]提出一種基于長短期記憶(LSTM)網(wǎng)絡(luò)的關(guān)系抽取模型,該模型可以有效地從文本中挑選相關(guān)內(nèi)容而摒棄無關(guān)內(nèi)容,從而提升了抽取效果。ZENG等[7]利用多示例學(xué)習(xí)有效地解決了抽取過程中的噪聲問題。WEI等[8]提出一個重疊式的指針網(wǎng)絡(luò)較好地解決了關(guān)系抽取中存在的實體重疊問題。SOARES等[9]通過在來自Transformer的雙向編碼器表示(BERT)預(yù)訓(xùn)練過程中額外添加匹配空白(MTB)任務(wù),有效地提升了關(guān)系抽取性能。

        雖然以上方法在面向純文本的關(guān)系抽取任務(wù)上都取得了良好的效果,但面對多模態(tài)數(shù)據(jù)時卻往往因為文本中信息缺失而表現(xiàn)不佳。

        已有抽取方法主要是針對純文本信息進(jìn)行抽取,一般只利用了文本的單模態(tài)信息,隨著社交平臺的盛行,面對大量的多模態(tài)信息,面向純文本的單模態(tài)抽取方法已經(jīng)無法滿足社交媒體等多模態(tài)場景下的關(guān)系抽取需求[10-12],并且多模態(tài)關(guān)系抽取數(shù)據(jù)集也極為缺乏。為此,ZHENG等[1]提出MNRE數(shù)據(jù)集以解決多模態(tài)關(guān)系抽取數(shù)據(jù)集匱乏的問題,之后ZHENG等[10]又提出高效圖對齊的多模式關(guān)系抽取(MEGA)模型。該模型將圖像信息視為對文本信息的補(bǔ)充,利用視覺信息輔助模型進(jìn)行關(guān)系抽取并利用注意力機(jī)制對齊語義,在獲得對齊后的文本表示后再進(jìn)行關(guān)系抽取。

        MEGA在多模態(tài)數(shù)據(jù)集上的抽取效果明顯優(yōu)于傳統(tǒng)單模態(tài)抽取模型,然而存在信息冗余問題,圖像中與文本語義無關(guān)的物體也被學(xué)習(xí)到對齊后的文本表示中,對抽取結(jié)果造成干擾。為解決這一問題,本文利用雙向注意力機(jī)制緩解無關(guān)信息對抽取結(jié)果的干擾,進(jìn)一步提升了關(guān)系抽取效果。

        1.2 雙向注意力機(jī)制

        雙向注意力機(jī)制由SEO等[13]提出,之后被廣泛應(yīng)用于機(jī)器閱讀理解領(lǐng)域。傳統(tǒng)的注意力機(jī)制只通過查詢項(query)到鍵(key)進(jìn)行單向查詢,從而得出匯總值(value)所需的權(quán)重,建模的是查詢項到鍵之間的單向關(guān)系,而雙向注意力機(jī)制通過計算雙向查詢建模了查詢項與鍵之間的雙向關(guān)系。在很多場景下,查詢項與鍵往往是2種平行的數(shù)據(jù),如多模態(tài)場景中平行的圖像和文本、平行的語音和文本等,在這樣的情況下,另一個方向上的查詢,即鍵到查詢項的查詢也具有實際含義。近年來,學(xué)者們開始探索將雙向注意力機(jī)制應(yīng)用于相關(guān)領(lǐng)域。LI等[14]將雙向注意力機(jī)制應(yīng)用于神經(jīng)網(wǎng)絡(luò)強(qiáng)制對齊,實驗結(jié)果表明雙向注意力機(jī)制應(yīng)用在2種平行的數(shù)據(jù)上能夠提升任務(wù)效果。黃宏展等[15]將雙向注意力機(jī)制引入多模態(tài)情感分析任務(wù),實驗結(jié)果證明了雙向注意力機(jī)制在多模態(tài)場景下可以更充分地利用2種模態(tài)間的交互信息。

        根據(jù)以上研究,本文提出基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型,將雙向注意力機(jī)制應(yīng)用于多模態(tài)關(guān)系抽取任務(wù),以緩解無關(guān)信息對抽取結(jié)果的干擾,使模型能更準(zhǔn)確地抽取關(guān)系。

        2 基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型

        基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型由特征表示層、多模態(tài)特征對齊層、多模態(tài)特征融合層和輸出層4個部分組成,如圖1所示(彩色效果見《計算機(jī)工程》官網(wǎng)HTML版)。特征表示層分為語義特征表示層和結(jié)構(gòu)特征表示層,通過BERT模型和依存句法樹分別提取文本的語義特征表示和文本的結(jié)構(gòu)特征表示,并利用一個以Faster R-CNN為骨干網(wǎng)絡(luò)的場景圖生成模型同時提取圖像的語義特征與結(jié)構(gòu)特征。多模態(tài)特征對齊層分為語義特征對齊層與結(jié)構(gòu)特征對齊層,分別進(jìn)行結(jié)構(gòu)特征的對齊與語義特征的對齊。多模態(tài)特征融合層將結(jié)構(gòu)特征與語義特征整合成對齊后的視覺特征,再將文本中實體的語義表示與對齊后的視覺表示連接起來形成文本與圖像的融合特征。輸出層對融合特征計算所有關(guān)系分類的概率分?jǐn)?shù)并輸出預(yù)測關(guān)系。

        圖1 基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型結(jié)構(gòu)Fig.1 Structure of multimodal relation extraction model based on bidirectional attention mechanism

        2.1 特征表示層

        2.1.1 語義特征表示層

        MNRE數(shù)據(jù)集中每條數(shù)據(jù)都包含了一段文本描述和一張與其對應(yīng)的圖片。對數(shù)據(jù)中的文本信息,采用BERT模型作為編碼器提取特征,具體步驟如下:

        1)將文本信息轉(zhuǎn)換為一個token序列s1,在序列頭部增加“[CLS]”標(biāo)記,在序列尾部增加“[SEP]”標(biāo)記。

        3)通過對數(shù)據(jù)集的觀察以及對實驗效果的權(quán)衡取n=128作為token序列的最大長度,用“[PAD]”標(biāo)記將小于最大長度n的輸入序列填充到最大長度n。

        4)通過設(shè)置segment序列區(qū)分序列中的有效部分與填充部分,segment序列可以表示為s2=(1,1,…,1,…,0,0),數(shù)字“1”表示有效部分,數(shù)字“0”表示填充部分。

        5)通過詞嵌入與字符嵌入相結(jié)合來表示輸入文本中的詞,以充分獲取文本特征。

        (1)

        為了獲取視覺信息,采用對象級視覺特征(OLVF)作為圖像信息表示[16],OLVF是一種自下而上的圖像信息表示方式,通過提取視覺對象表示獲取輸入圖像的語義特征。為了提取圖片中的視覺對象,利用以Faster R-CNN為骨干網(wǎng)絡(luò)的場景圖生成模型,將圖像輸入場景圖生成模型獲取輸入圖像的場景圖。在場景圖中包含多個節(jié)點(diǎn)以及與節(jié)點(diǎn)相關(guān)的邊,節(jié)點(diǎn)包含視覺對象的特征,而邊則表示不同視覺對象之間的視覺關(guān)系。

        輸入圖像被表示為所提取的場景圖中的一組區(qū)域視覺特征,其中每個區(qū)域視覺特征代表圖像中的一個視覺對象,并以一個維度為dy的向量yi來表示。為檢測到的視覺對象設(shè)置一個置信度閾值,若大于該閾值則將其視為視覺對象,該閾值的具體取值由深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到。為盡量減少圖像中無關(guān)對象對抽取結(jié)果的干擾,取置信度較大的前m個視覺對象作為圖像的視覺特征,通過對實驗效果的觀察,在實驗中取m=10能取得較好的效果。最后,輸入圖像被轉(zhuǎn)換為矩陣Y,若圖像中檢測到的視覺對象數(shù)量少于m,則通過零填充將矩陣Y擴(kuò)充到最大尺寸m,如式(2)所示:

        Y= [y1,y2,…,ym]m×dy

        (2)

        2.1.2 結(jié)構(gòu)特征表示層

        在以往的工作中,句子的結(jié)構(gòu)(如依存句法樹)能為關(guān)系抽取提供重要信息[17],因此利用依存句法樹和場景圖生成模型分別為輸入文本和圖像生成2個單向圖,以提供協(xié)助多模態(tài)關(guān)系抽取的結(jié)構(gòu)特征信息。

        依存句法樹是一種表示詞與詞之間關(guān)系的結(jié)構(gòu),依存句法樹能夠為關(guān)系抽取提供重要信息,句子中2個詞之間對應(yīng)的依賴可以被表示為如式(3)所示的依存關(guān)系三元組:

        Rdependency=(wg,rtype,wd)

        (3)

        其中:wg是支配詞;wd是從屬詞;rtype表示從屬詞對支配詞的修飾關(guān)系。使用ELMo模型[18]作為句法樹提取工具,獲取輸入文本的依存句法樹及對應(yīng)的依存關(guān)系三元組。生成的依存樹的圖表示記作G1,如式(4)所示:

        G1=(V1,E1)

        (4)

        其中:V1是圖中點(diǎn)的集合,代表句子中的支配詞和從屬詞;E1是圖中邊的集合,代表2個詞之間的依賴關(guān)系。

        通過場景圖生成模型獲取輸入圖像中的m個視覺對象以及視覺對象間的視覺關(guān)系,由于視覺對象間的關(guān)系都是單向的,因此類似于依賴樹,在圖像中的每個視覺對象也會被它的關(guān)聯(lián)對象所指向,最后獲得輸入圖像的圖表示G2。G2由圖像中檢測到的視覺對象及視覺對象間的關(guān)系組成,如式(5)所示:

        G2=(V2,E2)

        (5)

        其中:V2是圖中點(diǎn)的集合,代表圖像中檢測到的視覺對象;E2是圖中邊的集合,代表視覺對象間的視覺關(guān)系。

        通過生成圖G1和G2得到輸入文本和圖片的結(jié)構(gòu)特征信息。

        2.2 多模態(tài)特征對齊層

        為了充分利用文本與圖像間的交互信息,從語義和結(jié)構(gòu)2個方面對齊多模態(tài)特征,利用雙向注意力機(jī)制對齊語義特征,并利用節(jié)點(diǎn)間的相似性對圖G1和G2進(jìn)行結(jié)構(gòu)對齊。

        2.2.1 語義對齊

        現(xiàn)有的多模態(tài)關(guān)系抽取模型主要依賴注意力機(jī)制,實現(xiàn)圖像到文本方向的單向?qū)R,以獲取對齊后的文本語義表示。然而,實際上圖像中往往存在與文本無關(guān)的冗余信息。例如,在圖1中,輸入圖像中檢測到的視覺對象“cup”顯然與對應(yīng)文本無關(guān),但在單向?qū)R過程中,對象“cup”的信息也會被學(xué)習(xí)到對齊后的文本表示中,從而影響關(guān)系抽取的準(zhǔn)確性。

        為解決這一問題,本文提出一種基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型,通過同時建立圖像到文本方向和文本到圖像方向的雙向?qū)R,通過賦予圖像中冗余信息較低的權(quán)重來降低其對文本語義表示的影響。這種雙向注意力機(jī)制有助于獲取包含雙向語義信息的文本語義表示,從而提高了關(guān)系抽取的準(zhǔn)確性。

        雙向注意力機(jī)制的輸入由query、key、value組成,其中,query為輸入圖像的語義表示,key和value為輸入文本的語義表示。為方便計算,將query、key和value的特征維度均設(shè)置為da,雙向注意力機(jī)制計算過程如圖2所示。

        圖2 雙向注意力機(jī)制計算過程Fig.2 Calculation process of bidirectional attention mechanism

        在圖2中,K1和V1為query矩陣Q∈m×da,K2為key矩陣K∈n×da,V2為value矩陣V∈n×da,m為圖像中檢測到的視覺對象的最大數(shù)量,n為文本最大長度。

        首先,計算匹配矩陣A∈n×m,Ai,j表示輸入文本中第i個字與輸入圖像中第j個視覺對象間的相似性,匹配矩陣計算公式如式(6)所示:

        A=Q×KT

        (6)

        通過匹配矩陣A計算圖像到文本方向與文本到圖像方向2個方向的注意力權(quán)重。圖像到文本方向的注意力權(quán)重W12的計算如式(7)所示:

        W12=Softmax(A)

        (7)

        文本到圖像方向的注意力權(quán)重W21的計算如式(8)所示:

        W21=Softmax(AT)

        (8)

        然后,計算得到圖像到文本方向上對齊后的文本語義表示O1和文本到圖像方向上對齊后的圖像語義表示O2,如式(9)所示:

        (9)

        其中:O1∈n×da;O2∈m×da。

        最后,通過式(10)計算得到對齊后的語義權(quán)重β。

        (10)

        其中:da為文本語義表示O1與圖像語義表示O2的特征維度。

        相較于現(xiàn)有的單向?qū)R機(jī)制,所提出的雙向?qū)R機(jī)制能夠增強(qiáng)文本語義表示的準(zhǔn)確性,從而提升模型的性能。

        2.2.2 圖結(jié)構(gòu)對齊

        利用節(jié)點(diǎn)信息來提取用于結(jié)構(gòu)對齊的多模態(tài)圖表示的結(jié)構(gòu)相似性。從2個圖集合G1(V1,E1)與G2(V2,E2)中提取節(jié)點(diǎn)集合V1與V2,通過計算2個圖集合間的節(jié)點(diǎn)相似性以獲取2個圖的結(jié)構(gòu)相似性。具體計算步驟如下:

        1)令集合U為節(jié)點(diǎn)集合V1、V2的并集,如式(11)所示:

        U=V1∪V2

        (11)

        2)為提取節(jié)點(diǎn)間的結(jié)構(gòu)相似性,對集合U中的每個節(jié)點(diǎn)u,計算其k跳鄰居的出度和入度,如式(12)、式(13)所示:

        (12)

        (13)

        其中:k∈[1,K],K是圖直徑;δ∈(0,1]是折扣因子。

        3)通過式(14)計算集合U中節(jié)點(diǎn)m∈V1和節(jié)點(diǎn)n∈V2之間的相似性:

        (14)

        4)計算2個圖之間的節(jié)點(diǎn)相似度,如式(15)所示,在計算完成后得到包含了結(jié)構(gòu)相似性特征的矩陣α。

        α=(αi,j)V1×V2

        (15)

        其中:αi,j表示文本中第i個詞與圖片中第j個視覺對象間的結(jié)構(gòu)相似性。

        采用圖結(jié)構(gòu)對齊方法來捕捉文本與圖像之間的結(jié)構(gòu)相似性。通過計算2個圖集合間的節(jié)點(diǎn)相似性,能夠獲取2個圖的結(jié)構(gòu)相似性。這種方法有助于模型更好地捕捉多模態(tài)數(shù)據(jù)中的關(guān)系信息。

        2.3 多模態(tài)特征融合層

        為充分利用對齊的語義信息β與結(jié)構(gòu)信息α,首先,利用式(16)整合對齊信息,以獲取對齊后的視覺特征Y*。

        Y*=(αT+β)V=αTV+YS

        (16)

        其中:V是視覺特征表示,通過整合語義對齊信息與結(jié)構(gòu)對齊信息,由文本引導(dǎo)的視覺特征最終表示為矩陣Y*∈m×da;YS代表經(jīng)過語義對齊處理后得到的視覺特征。

        然后,將視覺對象特征整合為向量表示,作為多模態(tài)信息融合的視覺信息表示,如式(17)所示:

        (17)

        (18)

        (19)

        在多模態(tài)特征融合層中,通過整合對齊的語義信息與結(jié)構(gòu)信息,得到了對齊后的視覺特征表示。將視覺對象特征整合為向量表示,并與文本中的實體表示拼接,以獲取最終的多模態(tài)特征表示。這種融合方法有效地將視覺信息和文本信息相結(jié)合,有助于捕捉多模態(tài)數(shù)據(jù)中的關(guān)聯(lián)信息,進(jìn)而提高關(guān)系抽取的準(zhǔn)確性和模型性能。

        2.4 輸出層

        如式(20)所示,輸出層使用一個多層感知機(jī)(MLP)作為分類器來預(yù)測關(guān)系類別,并輸出各個關(guān)系對應(yīng)的分類概率。

        poutput=Softmax(MLP(z))

        (20)

        其中:poutput∈nr表示nr個預(yù)定義關(guān)系的分類概率。

        3 實驗與結(jié)果分析

        3.1 實驗設(shè)置

        實驗通過BERT模型初始化文本語義表示,特征維度dx為768,該取值是基于BERT預(yù)訓(xùn)練模型的標(biāo)準(zhǔn)設(shè)置,已被證明在各種自然語言處理任務(wù)中能夠有效地學(xué)習(xí)文本特征。在場景圖中提取的視覺對象的特征維度dy為4 096,該取值是基于Faster R-CNN模型的設(shè)置,已被證明在各種視覺任務(wù)中能夠有效地檢測和提取目標(biāo)對象的特征。語義對齊維度da為1 536,該維度是對文本和視覺特征進(jìn)行整合的需要,使得多模態(tài)特征能夠在相同的語義空間中進(jìn)行對齊和融合。通過對數(shù)據(jù)集的觀察和實驗效果的權(quán)衡,將token序列的最大長度n設(shè)置為128,經(jīng)實驗驗證,將場景圖視覺對象最大數(shù)量m設(shè)置為10能夠取得較好的效果。模型采用AdamW優(yōu)化器訓(xùn)練目標(biāo)函數(shù),經(jīng)實驗驗證,將初始學(xué)習(xí)率設(shè)置為0.000 02和批量大小設(shè)置為10能夠在訓(xùn)練速度和模型性能之間達(dá)到較好的平衡。本文模型在NVIDIA RTX 3060顯卡上進(jìn)行訓(xùn)練。

        3.2 數(shù)據(jù)集

        目前,關(guān)于多模態(tài)關(guān)系抽取任務(wù)的相關(guān)研究較少,完全公開的數(shù)據(jù)集僅有MNRE數(shù)據(jù)集,本文所有實驗均在MNRE數(shù)據(jù)集上進(jìn)行。MNRE數(shù)據(jù)集原始數(shù)據(jù)來源于多模態(tài)命名實體識別數(shù)據(jù)集Twitter15[19]與Twitter17[20],以及一些從推特上爬取的數(shù)據(jù)。ZHENG等[1]通過人工標(biāo)記實體對間的關(guān)系并濾除原始數(shù)據(jù)中的部分錯誤樣本,構(gòu)建了MNRE數(shù)據(jù)集。MNRE數(shù)據(jù)集包括音樂、運(yùn)動、社會事件等主題,包含15 848個樣本、9 201張圖片與23種預(yù)定義的關(guān)系。

        3.3 評價指標(biāo)

        關(guān)系抽取工作的最終效果評價體系是在自動內(nèi)容抽取(ACE)會議上提出的,以精確率(P)、召回率(R)及F1值(F1)為衡量指標(biāo),其計算公式如下:

        (21)

        (22)

        (23)

        其中:NTP表示被正確預(yù)測為關(guān)系r的樣本數(shù);NFP表示被錯誤預(yù)測為關(guān)系r的樣本數(shù);NFN表示被錯誤預(yù)測為其他關(guān)系的樣本數(shù)。

        3.4 對比模型

        為驗證所提模型的有效性,與一些經(jīng)典的單模態(tài)關(guān)系抽取模型和主流多模態(tài)關(guān)系抽取模型進(jìn)行對比實驗,對比模型介紹如下:

        1)分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)模型[7]:是一種遠(yuǎn)程監(jiān)督關(guān)系抽取模型,利用外部知識圖自動標(biāo)記包含相同實體的句子,利用文本信息進(jìn)行關(guān)系抽取。

        2)MTB模型[9]:是一種基于BERT的預(yù)訓(xùn)練關(guān)系抽取模型,利用文本信息進(jìn)行關(guān)系抽取。

        3)統(tǒng)一多模態(tài)Transformer(UMT)模型[21]:將Transformer應(yīng)用于多模態(tài)場景,利用圖文信息進(jìn)行關(guān)系抽取。

        4)統(tǒng)一多模態(tài)圖融合(UMGF)模型[22]:利用圖文信息進(jìn)行關(guān)系抽取。

        5)自適應(yīng)共同注意力的預(yù)訓(xùn)練關(guān)系抽取模型(AdapCoAtt-BERT)[23]:設(shè)計多模態(tài)場景下的共同注意力網(wǎng)絡(luò),利用圖文信息進(jìn)行關(guān)系抽取。

        6)視覺預(yù)訓(xùn)練關(guān)系抽取模型(VisualBERT)[24]:是基于BERT預(yù)訓(xùn)練的多模態(tài)模型,利用圖文信息進(jìn)行關(guān)系抽取。

        7)視覺-語言預(yù)訓(xùn)練關(guān)系抽取模型(ViLBERT)[25]:擴(kuò)展了BERT以聯(lián)合表示圖像和文本,利用圖文信息進(jìn)行關(guān)系抽取。

        8)基于高效圖對齊的多模態(tài)關(guān)系抽取(MEGA)模型[1]:利用圖文信息進(jìn)行關(guān)系抽取。

        3.5 結(jié)果分析

        將所提模型與8個基準(zhǔn)模型進(jìn)行對比實驗,實驗結(jié)果如表1所示,其中最優(yōu)指標(biāo)值用加粗字體標(biāo)示。

        表1 在MNRE數(shù)據(jù)集上的實驗結(jié)果Table 1 Experimental results on the MNRE dataset %

        由表1的實驗結(jié)果可以看出,多模態(tài)關(guān)系抽取模型一般優(yōu)于單模態(tài)模型,這是因為多模態(tài)模型可以利用圖像信息作為文本信息的補(bǔ)充,得到更豐富的語義信息再進(jìn)行關(guān)系抽取。通過表1中標(biāo)注的最優(yōu)指標(biāo)值可以得知:所提模型較單模態(tài)關(guān)系抽取模型MTB的F1值提升了6.36個百分點(diǎn);所提模型較表現(xiàn)最好的多模態(tài)關(guān)系抽取模型MEGA的F1值提升了0.91個百分點(diǎn),這一提升歸功于所提模型采用雙向注意力機(jī)制來對齊多模態(tài)語義特征,使得模型能夠更有效地捕捉文本和圖像之間的相互依賴關(guān)系,從而提高關(guān)系抽取的準(zhǔn)確性;所提模型相較于其他多模態(tài)關(guān)系抽取模型,在捕捉圖像和文本間關(guān)聯(lián)信息方面更加準(zhǔn)確和高效。

        3.6 消融實驗

        為了進(jìn)一步驗證雙向注意力機(jī)制的有效性,在MNRE數(shù)據(jù)集上進(jìn)行了消融實驗,其中,-Biatt表示將所提模型中的雙向注意力機(jī)制替換為普通的單向注意力機(jī)制,-Att表示不使用注意力機(jī)制對齊圖像文本特征,只將圖像特征與文本特征直接相連作為語義特征。消融實驗結(jié)果如表2所示,在將雙向注意力機(jī)制替換為單向注意力機(jī)制后模型表現(xiàn)明顯下降,在去掉注意力機(jī)制之后,模型表現(xiàn)進(jìn)一步下降,從而驗證了雙向注意力機(jī)制能夠有效地捕捉圖像和文本間的關(guān)聯(lián)信息。

        表2 消融實驗結(jié)果Table 2 Results of ablation experiment %

        4 結(jié)束語

        本文提出基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型,將雙向注意力機(jī)制應(yīng)用于多模態(tài)關(guān)系抽取任務(wù),利用雙向注意力機(jī)制降低了圖像中冗余信息對關(guān)系抽取的影響,進(jìn)一步提升了關(guān)系抽取效果。實驗結(jié)果表明,與一些經(jīng)典的單模態(tài)關(guān)系抽取模型和主流多模態(tài)關(guān)系抽取模型相比,所提模型在精確率、召回率、F1值3項指標(biāo)上均表現(xiàn)出明顯的優(yōu)勢,驗證了所提模型的有效性。在未來的工作中,將考慮把一些傳統(tǒng)關(guān)系抽取模型引入多模態(tài)關(guān)系抽取任務(wù)以更充分地挖掘多模態(tài)語義信息,以不斷提升多模態(tài)關(guān)系抽取的性能,為相關(guān)領(lǐng)域的研究和應(yīng)用提供有力支持。

        猜你喜歡
        語義模態(tài)文本
        語言與語義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        認(rèn)知范疇模糊與語義模糊
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        无码91 亚洲| 亚洲av国产精品色午夜洪2| 国产精品后入内射日本在线观看| 亚洲无码性爱视频在线观看| 亚洲免费精品一区二区| 无码国内精品人妻少妇蜜桃视频| 国产精品18久久久久久麻辣| 无码人妻专区免费视频 | 国产熟女露脸大叫高潮| 人人妻人人澡人人爽人人精品浪潮| 国产成人aaaaa级毛片| 国产精品九九九无码喷水| 91九色国产在线观看| av网站在线观看入口| 中国农村熟妇性视频| 亚洲一区sm无码| 国产精品久久国产精麻豆| 精品无码人妻夜人多侵犯18| 越猛烈欧美xx00动态图| 国产精品国产三级国产专播| 女同亚洲一区二区三区精品久久| 亚洲国产精品成人精品无码区在线| 日日噜噜噜夜夜爽爽狠狠| 日本中文字幕一区二区高清在线 | 中文字幕文字幕一区二区| 日本精品久久久久中文字幕 | 国产日产精品久久久久久| 日本一区二区午夜视频| www夜片内射视频在观看视频| 人妻少妇精品视频一区二区三区| 一区欧美在线动漫| 国产中文字幕免费视频一区 | 欧美aa大片免费观看视频| a欧美一级爱看视频| 男女做那个视频网站国产| 女女女女女裸体处开bbb| 四虎永久在线精品免费观看地址| 国产午夜福利av在线麻豆| 精品亚洲成a人在线观看 | 天堂网www资源在线| 91视频免费国产成人|