多模態(tài)命名實(shí)體識(shí)別方法研究進(jìn)展

2024-03-09 02:52:00王海榮荊博祥

鄭州大學(xué)學(xué)報(bào)(工學(xué)版) 2024年2期

王海榮, 徐璽, 王彤, 荊博祥

(1.北方民族大學(xué) 計(jì)算科學(xué)與工程學(xué)院,寧夏銀川 750021;2.北方民族大學(xué) 圖像圖形智能處理國家民委重點(diǎn)實(shí)驗(yàn)室,寧夏銀川 750021)

命名實(shí)體識(shí)別任務(wù)是從數(shù)據(jù)中識(shí)別出專有名詞,最早在信息理解會(huì)議[1]上被提出。隨后形成了基于規(guī)則[2]和詞典[3]的方法、機(jī)器學(xué)習(xí)的方法、深度學(xué)習(xí)的方法等3類命名實(shí)體識(shí)別方法。基于規(guī)則和詞典的方法通過字符匹配進(jìn)行信息抽取,適用于數(shù)據(jù)更新較少的領(lǐng)域,但規(guī)則和詞典制定成本較高?；跈C(jī)器學(xué)習(xí)的方法將命名實(shí)體識(shí)別任務(wù)視為分類問題,并提出了如HMM-based[4]、CRF-based[5]的模型,該方法減少了人工成本,但選取特征的質(zhì)量決定了算法的性能?；谏疃葘W(xué)習(xí)的方法具有自動(dòng)挖掘高質(zhì)量上下文特征的能力,研究者相繼提出了CNN-based[6]、BiLSTM-based[7]、Transformer-based[8-10]、GNN-based[11-13]等模型,但要求文本有充足的上下文特征,因此在長文本數(shù)據(jù)集中的性能表現(xiàn)更好,在短文本數(shù)據(jù)集中性能表現(xiàn)不佳。

傳統(tǒng)的文本語義增強(qiáng)主要依賴字符特征[14]、詞匯信息[15]、知識(shí)圖譜[16-17]、檢索[18]、標(biāo)簽信息[19]等外部文本數(shù)據(jù),也結(jié)合了多任務(wù)學(xué)習(xí)來增強(qiáng)命名實(shí)體識(shí)別的能力。王蓬輝等[20]采用基于生成對(duì)抗的數(shù)據(jù)增強(qiáng)算法來解決標(biāo)注數(shù)據(jù)不足的問題。余傳明等[21]提出了實(shí)體和事件聯(lián)合抽取模型,從而在2個(gè)任務(wù)中均取得了更好的效果。武國亮等[22]提出將命名實(shí)體識(shí)別任務(wù)的輸出反饋到輸入端,來解決多任務(wù)聯(lián)合學(xué)習(xí)產(chǎn)生的損失不平衡問題。但隨著社交媒體平臺(tái)的廣泛應(yīng)用,以文本、圖像為主要媒介的多模態(tài)數(shù)據(jù)快速增長,為了從這些多模態(tài)數(shù)據(jù)中挖掘語義,進(jìn)而增強(qiáng)文本特征,人們提出了多模態(tài)命名實(shí)體識(shí)別(multimodal named entity recognition,MNER)方法。MNER研究難點(diǎn)是如何融合多模態(tài)特征中有益信息,并過濾有害信息。早期研究[23-25]關(guān)注使用視覺特征增強(qiáng)靜態(tài)詞表示的方法,取得了一些研究成果。范濤等[26]將MNER遷移到了地方志領(lǐng)域的實(shí)體識(shí)別研究。近年來,隨著預(yù)訓(xùn)練語言模型的發(fā)展,MNER方法的研究重點(diǎn)逐步轉(zhuǎn)向采用Transforme融合特征,取得了新的研究成果?，F(xiàn)有的MNER方法可分為4類,如表1所示。

表1 多模態(tài)命名實(shí)體識(shí)別方法分類表

2018年,Moon等[27]首次在BiLSTM-CRF模型中融入了視覺特征,提出了多模態(tài)實(shí)體識(shí)別方法,提出MA[27]模型。VAM[28]、CWI[29]等模型也被提出。這些模型均使用注意力機(jī)制為文本表示和視覺特征分配權(quán)重,拼接得到多模態(tài)特征,再通過BiLSTM+CRF網(wǎng)絡(luò)挖掘上下文特征并解碼,將此類模型歸納為前融合模型。前融合模型中使用Glove表示單詞,導(dǎo)致圖像特征與文本特征間的語義存在巨大鴻溝。針對(duì)該問題,一些學(xué)者提出ACN[29]、GAN[30]、DCN[35]等模型,先使用BiLSTM挖掘文本中上下文特征以增強(qiáng)單詞的實(shí)體語義,然后采用注意力機(jī)制作為多模態(tài)融合層,得到多模態(tài)特征,將此類模型歸納為后融合模型。

為了進(jìn)一步縮小文本與圖像特征的語義差距,2020年,基于Transformer的MNER方法首次被Yu等[33]提出,其中Chen等[36]使用BERT表示文本,并驗(yàn)證了提升單詞語義的重要性,之后UMGF[31]、MAF[32]、ITJ[37]、HSN[38]等模型相繼被提出,這些模型堆疊多個(gè)Transformer,對(duì)各模態(tài)特征進(jìn)行編碼、對(duì)齊或融合處理,得到多模態(tài)特征后,均只后接1個(gè)命名實(shí)體識(shí)別任務(wù),本文將此類模型歸納為Transfor-mer單任務(wù)模型。為了解決多模態(tài)特征與目標(biāo)語義間的偏差問題,一是在文本表示和多模態(tài)表示上構(gòu)建聯(lián)合實(shí)體識(shí)別任務(wù),以解決視覺偏差的問題,如Yu等[33]的邊界檢測任務(wù),Wang等[34]和Liu等[39]的文本視圖命名實(shí)體識(shí)別任務(wù)。二是通過輔助任務(wù)聯(lián)合訓(xùn)練多模態(tài)表示,增強(qiáng)特征的通用性。如李曉騰等[40]提出通過對(duì)比融合、實(shí)體聚類、邊界檢測等任務(wù)輔助學(xué)習(xí)多模態(tài)特征,Chen等[41]結(jié)合關(guān)系抽取任務(wù)訓(xùn)練多模態(tài)特征,本文將此類模型歸納為Transformer多任務(wù)模型。上面所提的4類模型尚沒有關(guān)注單視覺特征中圖像語義丟棄的問題。

此外,Sui等[42]構(gòu)建文本和語音數(shù)據(jù)集并提出M3T模型,進(jìn)一步驗(yàn)證多模態(tài)特征能幫助識(shí)別命名實(shí)體。Liu等[43]提出使用合成的聲學(xué)特征而不是真實(shí)的人類語音,并采用多頭注意力機(jī)制融合文本和語音2種模態(tài)的特征,穩(wěn)定地提高了中文命名實(shí)體識(shí)別的性能。馮皓楠等[44]提出了一種圖文注意力融合的主題標(biāo)簽推薦的方法,并表明相比單模態(tài)輸入,多模態(tài)方法具有更顯著的優(yōu)勢。鄭建興等[45]提出了基于評(píng)論文本情感注意力的推薦方法,使用注意力機(jī)制聚合用戶特征和項(xiàng)目特征信息,以得到聯(lián)合嵌入,進(jìn)而提升了模型的有效性。

1 MNER方法框架

根據(jù)MNER各方法的特點(diǎn),將MNER方法的框架劃分為模態(tài)輸入表示、上下文編碼層、多模態(tài)融合層、標(biāo)簽解碼和多任務(wù)融合層。多模態(tài)命名實(shí)體識(shí)別的基本框架如圖1所示。

圖1 多模態(tài)命名實(shí)體識(shí)別的基本框架

模態(tài)輸入表示是將各模態(tài)數(shù)據(jù)表示為特征向量。上下文編碼器旨在挖掘特征的上下文依賴關(guān)系,主要采用BiLSTM模型。多模態(tài)融合層旨在融合多模態(tài)特征,主要采用Attention、Co-Attention、Transformer、Transformer with Cross-Attention模型。多模態(tài)融合層和上下文編碼器呈現(xiàn)3種結(jié)構(gòu),前融合模型將圖像信息傳遞給每個(gè)單詞,再挖掘單詞間的上下文特征;后融合模型則相反;多模態(tài)表示使用Transformer作為聯(lián)合編碼模型,融合多模態(tài)特征。標(biāo)簽解碼層將多模態(tài)表示作為輸入特征來預(yù)測標(biāo)簽。此外,當(dāng)MNER方法結(jié)合了如對(duì)抗學(xué)習(xí)、邊界檢測、關(guān)系抽取等輔助任務(wù)共同訓(xùn)練,將之歸納為多任務(wù)融合層。綜上,可劃分為4種模型結(jié)構(gòu):前融合模型、后融合模型、Transformer單任務(wù)模型及Transformer多任務(wù)模型。

1.1 模態(tài)輸入表示

文本模態(tài)輸入表示主要采用字符嵌入、詞嵌入、混合嵌入表示文本特征。字符嵌入Xc通過CNN或RNN模型進(jìn)行表示,緩解out-of-vocabulary的問題;詞嵌入模型包括CBOW[46]、Word2Vec[47]、Glove[48]、FastText[49]、ELMo[50]、BERT等。對(duì)于輸入的句子S,靜態(tài)詞向量可表示為

Xs=Glove(S)。

(1)

動(dòng)態(tài)詞向量可表示為

Xb=BERT(S)。

(2)

混合嵌入[51]可表示為X=[Xs;Xc]。

對(duì)于輸入的圖像特征I,視覺模態(tài)輸入表示采用預(yù)訓(xùn)練數(shù)據(jù)模型進(jìn)行特征表示,區(qū)域視覺特征使用ResNet[52]模型提取,可表示為

Vr=ResNet(I),Vr∈Rn×d。

(3)

式中:d為特征維度;n為特征的數(shù)量。

(4)

利用Mask RCNN[53]提取對(duì)象級(jí)視覺標(biāo)簽,可表示為

Vl=MaskRCNN(I)。

(5)

圖像標(biāo)題使用圖像字幕[54](image captioning,IC)提取,可表示為

Vcap=IC(I)。

(6)

1.2 上下文編碼層和多模態(tài)融合層

雙向長短時(shí)記憶網(wǎng)絡(luò)(bi-directional long-short term memory,BiLSTM)作為上下文編碼器時(shí),能提取單詞上下文特征。自注意力機(jī)制能增強(qiáng)關(guān)鍵特征的權(quán)重。self-Attention(SA)、Multi Head self-Attention(MHSA),Cross-Attention(CA)、計(jì)算原理表示如下:

(7)

MHSA()=W′[SA0(),SA1(),…,SAm-1()];

(8)

(9)

式中:Q、K、V為輸入特征的投影向量;d為Q的特征維度;m為多頭注意力的頭數(shù);W′代表投影矩陣;Q1代表文本模態(tài)的輸入特征的投影向量;K2、V2代表視覺模態(tài)的輸入特征的投影向量。此外,multi head cross-attention(MHCA)是將MHSA()中的SA()替換為CA()。

Transformer能獲取到長距離依賴關(guān)系,由多個(gè)編碼器堆疊形成,每個(gè)編碼器由多頭自注意力機(jī)制、前饋層及規(guī)范化層組成。

Transformer作為多模態(tài)融合層時(shí),其多模態(tài)特征融合技術(shù)主要為以下3種構(gòu)建方式:①將文本表示和視覺表示投影到同一離散空間進(jìn)行對(duì)齊;②使用視覺語言模型對(duì)文本和圖像進(jìn)行聯(lián)合表示;③將視覺特征轉(zhuǎn)化為自然語言描述,使用語言模型統(tǒng)一表示。

1.3 標(biāo)簽解碼和多任務(wù)融合層

通常使用條件隨機(jī)場(conditional random field, CRF)作為標(biāo)簽解碼層,對(duì)多模態(tài)表示進(jìn)行解碼。設(shè)X={x0,x1,…,xn}為CRF的輸入特征,y={y0,y1,…,yn},解碼表示如下:

(10)

使用最大似然函數(shù)作為損失函數(shù),計(jì)算如下:

(11)

yo為預(yù)測輸出序列得分最高的序列,計(jì)算如下:

yo=argmaxyp(y|X),

(12)

多任務(wù)融合層中利用任務(wù)間的信息共享來訓(xùn)練模型參數(shù),以全局最優(yōu)的多模態(tài)特征或預(yù)測結(jié)果提升實(shí)體識(shí)別性能,增強(qiáng)模型的可用性,包括命名實(shí)體識(shí)別主任務(wù)和實(shí)現(xiàn)標(biāo)簽融合或優(yōu)化多模態(tài)表征的輔助任務(wù)。

2 基于BiLSTM的MNER方法

基于BiLSTM的MNER方法以BiLSTM和CRF作為基礎(chǔ)模塊,并引入多模態(tài)融合層,實(shí)現(xiàn)文本和圖像特征融合,以解決上下文特征匱乏的問題。根據(jù)多模態(tài)融合方法劃分為前融合模型和后融合模型,并對(duì)各方法進(jìn)行實(shí)驗(yàn)驗(yàn)證及對(duì)比分析。

2.1 前融合模型

前融合模型首先對(duì)各模態(tài)表示進(jìn)行拼接或加權(quán)拼接,接著使用BiLSTM挖掘上下文特征,最后將融合表示輸入CRF中預(yù)測標(biāo)簽。前融合模型框架如圖2所示。

圖2 前融合模型

Moon等[27]的多模態(tài)融合層是先拼接單詞表示、字符表示及區(qū)域視覺特征,將其映射到統(tǒng)一特征空間X=σ([Xs;Xc;Xv]),Xv=Vr,σ為投影函數(shù),使用注意力機(jī)制計(jì)算X中各模態(tài)權(quán)重[as;ac;av],得到融合表示M,以as為例,模態(tài)權(quán)重計(jì)算如下:

(13)

M=asXs+acXc+avXv。

(14)

Lu等[28]使用視覺注意力模型從圖像中提取與文本最相關(guān)的圖像特征,計(jì)算得到視覺上下文特征v,將v與詞表示、字符表示拼接,得到融合表示M=[vs;Xs;Xc],計(jì)算如下:

A=softmax(W1([Xs;Xc]⊕Xv));

(15)

(16)

式中:W1為權(quán)值矩陣;⊕為向量的求和函數(shù);A為視覺全局注意力權(quán)重。

Asgari-Chenaghlu等[55]分別挖掘出字符特征、單詞特征和圖像特征的上下文特征并拼接這些上下文特征作為多模態(tài)融合表示。

經(jīng)分析發(fā)現(xiàn)上述模型存在以下限制:單詞表示的實(shí)體語義微弱。當(dāng)單詞的拼寫錯(cuò)誤,只能通過隨機(jī)初始化進(jìn)行表示,文本的實(shí)體語義被降低。此外,實(shí)現(xiàn)處于不同特征空間的圖文特征對(duì)齊是很困難的。

2.2 后融合模型

后融合模型利用BiLSTM挖掘上下文特征,增強(qiáng)單詞表示的實(shí)體語義,使用多模態(tài)注意力融合圖文特征,再使用CRF模型解碼?？蚣苋鐖D3所示。

圖3 后融合模型

Zhang等[29]提出了共注意力網(wǎng)絡(luò)(CoAttention),對(duì)于輸入的圖文特征,先計(jì)算基于文本上下文的文本特征ht=BiLSTM([Xs;Xc]),再分別通過共注意力機(jī)制計(jì)算基于文本注意力的視覺特征Hcv和基于視覺注意力的文本特征Hct,通過門控機(jī)制gate(·)=softmax(ReLU(·))得到多模態(tài)表示M,計(jì)算如下:

[Hcv,Hct]=CoAttention(Xv,ht);

(17)

M=ht+Hct·gate(Hcv⊕Hct)。

(18)

但共注意力網(wǎng)絡(luò)忽略了細(xì)粒度視覺對(duì)象和文本實(shí)體之間的關(guān)系,可能導(dǎo)致不同類型實(shí)體的錯(cuò)誤預(yù)測。為此,Zheng等[30]利用對(duì)抗學(xué)習(xí)優(yōu)化投影函數(shù)將圖文特征映射為一個(gè)共享的表示,然后采用雙線性注意力計(jì)算每個(gè)單詞和對(duì)象標(biāo)簽的細(xì)粒度語義關(guān)系,以及共同表示G,通過門控機(jī)制生成融合表示M,計(jì)算如下:

(19)

G=Xv·AT;

(20)

M=σ([G;ht])°G+ht。

(21)

式中:σ()為投影函數(shù);one為向量;P為注意力得分的池化參數(shù)矩陣;W2、W3為參數(shù)矩陣;°為哈達(dá)瑪積。

Wu等[35]使用視覺標(biāo)簽表示圖像語義,引入密集的共注意力機(jī)制建立單詞和對(duì)象之間的關(guān)系,實(shí)現(xiàn)細(xì)粒度語義交互,得到多模態(tài)表示M。計(jì)算如下:

htsa=SA(ht,ht,ht);

(22)

hv=SA(Xv,Xv,Xv);

(23)

M=ht+CA(htsa,hv,hv)。

(24)

式中:Xv、ht代表視覺特征、文本特征;SA()和CA()分別代表自注意力機(jī)制和跨模態(tài)注意力機(jī)制。

2.3 方法分析

在Twitter 2015和Twitter 2017數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),使用評(píng)估指標(biāo)[56]如召回率R和F1值對(duì)MNER方法的有效性進(jìn)行對(duì)比分析。本文選擇Lu等[28]、Zhang等[29]和Chen等[36]提出的基線模型,前融合模型選取MA和VAM模型,后融合模型選取增加字符表示的ACN模型,以及在ACN模型上融合其他方法的模型,即使用視覺區(qū)域特征的ACN_BCR和使用視覺對(duì)象標(biāo)簽的ACN_BCL模型,融入對(duì)抗學(xué)習(xí)[30]但分別使用區(qū)域特征、視覺對(duì)象特征、視覺對(duì)象標(biāo)簽的ACN_GAN_BCR、ACN_GAN_BCL、ACN_GAN_BCO等模型。實(shí)驗(yàn)結(jié)果如表2所示,表中PER、LOC、ORG、MISC分別代表數(shù)據(jù)集中的人名、地名、組織名和雜項(xiàng)等4類實(shí)體。

表2 基于BiLSTM的MNER方法對(duì)比分析

相比使用Glove的文本表示,使用BERT使文本表示具有更完備的實(shí)體語義表示,因?yàn)锽ERT具備語言模型的背景知識(shí)。如在表2中VAM_GCR[28]、ACN_GCR[29]與ACN_BCR、VAM_BCR的實(shí)驗(yàn)對(duì)比中,后兩者明顯取得顯著的優(yōu)勢。在Twitter-2017數(shù)據(jù)集中,VAM_BCR方法較VAM_GCR[28]方法R、F1值分別高出6.48百分點(diǎn)、4.32百分點(diǎn),ACN_BCR的5項(xiàng)指標(biāo)均高于ACN_GCR[29]方法。

將字符表示和單詞表示進(jìn)行拼接,通過補(bǔ)全單詞表示中缺失的語義,以增強(qiáng)單詞表示,進(jìn)而得到更加準(zhǔn)確的預(yù)測標(biāo)簽。ACN_BCR與ACN_BR[36]相比,在Twitter-2015數(shù)據(jù)集中R和F1值分別高出0.22百分點(diǎn)和0.47百分點(diǎn),結(jié)果表明,使用文本模態(tài)內(nèi)多特征協(xié)同表達(dá),可以解決現(xiàn)有的文本表征模型存在語義缺失的問題。

由前融合模型MA、VAM與后融合模型ACN_BCR的對(duì)比中可以發(fā)現(xiàn),在2個(gè)數(shù)據(jù)集中,ACN_BCR的12個(gè)指標(biāo)均高于MA方法,10個(gè)指標(biāo)均高于VAM方法。這表明使用BiLSTM融合單詞表示和字符表示,使得文本表示具有更高的實(shí)體語義,能得到更好的多模態(tài)表示。

使用對(duì)抗學(xué)習(xí)實(shí)現(xiàn)2個(gè)表征空間的統(tǒng)一是有效的。對(duì)比ACN_GAN方法和ACN方法,11個(gè)最先進(jìn)的性能指標(biāo)出現(xiàn)在ACN_GAN方法,2個(gè)數(shù)據(jù)集中最高的F1值分別為ACN_GAN_BCO和ACN_GAN_BCR方法。這是因?yàn)閷?duì)抗學(xué)習(xí)能使得文本表示和區(qū)域視覺特征的語義分布相似,從而更準(zhǔn)確地融合,得到更高質(zhì)量的多模態(tài)表示。

3 基于Transformer的MNER方法

基于Transformer的MNER方法使用Transfor-mer模型和CRF作為基礎(chǔ)模塊,并使用BERT編碼文本以縮小圖文特征實(shí)體語義之間的差距。為解決視覺偏差的問題,利用多任務(wù)協(xié)同學(xué)習(xí)引導(dǎo)圖像和文本特征深度融合,本文根據(jù)任務(wù)結(jié)構(gòu),劃分為Transformer單任務(wù)模型和Transformer多任務(wù)模型,并對(duì)經(jīng)典方法進(jìn)行實(shí)驗(yàn)驗(yàn)證和方法分析。

3.1 Transformer單任務(wù)模型

Transformer單任務(wù)模型使用BERT進(jìn)一步縮小文本與圖像特征的語義差距,其處理流程是獲得各模態(tài)的輸入表示后采用多模態(tài)融合技術(shù)重新編碼所有的模態(tài)輸入表示,以獲得多模態(tài)表示,最后通過CRF模型得到最終標(biāo)簽,具體框架如圖4所示。Transformer單任務(wù)模型的核心是多模態(tài)融合技術(shù),本小節(jié)將介紹所涉及的3種多模態(tài)融合技術(shù)路線。

圖4 Transformer單任務(wù)模型

(1)圖文聯(lián)合編碼。如Asgari-chenaghlu等[55]調(diào)用Transformer聯(lián)合編碼文本S和圖像分類標(biāo)簽Vl,將輸出特征的文本部分作為多模態(tài)表示M,可表示為

[M,V′]=BERT([S;Vl])。

(25)

(2)感知表示融合技術(shù)。如Zhang等[31]將文本單詞特征Xb=BERT(S)和視覺對(duì)象Vr視作節(jié)點(diǎn),分別使用模態(tài)內(nèi)邊連接模態(tài)內(nèi)特征,使用模態(tài)間邊連接模態(tài)間特征,構(gòu)成無向圖G。然后堆疊n個(gè)基于圖的跨模態(tài)注意力模型對(duì)G進(jìn)行編碼,以實(shí)現(xiàn)特征融合,得到多模態(tài)表示M。

G=Graph(Xb,Vr);

(26)

[M,V″]=cross-attention(Xb,Vr)。

(27)

式中:Graph()為將單詞特征和視覺對(duì)象構(gòu)建為無向圖的函數(shù);cross-attention()為跨模態(tài)注意力機(jī)制,分別輸出多模態(tài)表示M和多模態(tài)視覺表示V″。

鐘維幸等[37]使用ALBERT分別對(duì)文本S和圖像描述L進(jìn)行編碼,再使用由3個(gè)自注意力模型、4個(gè)跨模態(tài)注意力模型組成的多模態(tài)融合模塊來計(jì)算多模態(tài)表示M。

(3)多模態(tài)語義對(duì)齊技術(shù)。如Xu等[32]通過跨模態(tài)注意力模型先將文本特征和視覺對(duì)象對(duì)齊,得到匹配表示,再使用多模態(tài)注意力模型融合文本特征和視覺對(duì)象得到多模態(tài)表示。Liu等[57]構(gòu)建了多層次的對(duì)齊來捕獲文本和圖像之間由粗粒度到細(xì)粒度的交互,并通過計(jì)算文本和圖像的相關(guān)性在不同語義層次上執(zhí)行跨模態(tài)交互來增強(qiáng)文本表示,最終得到多模態(tài)表示。

3.2 Transformer多任務(wù)模型

在單任務(wù)MNER模型的基礎(chǔ)上,擴(kuò)展了文本模態(tài)任務(wù)或其他輔助任務(wù),以解決視覺偏差問題。Transformer多任務(wù)模型的核心是多模態(tài)融合技術(shù)和多任務(wù)融合模塊,框架如圖5所示。

圖5 Transformer多任務(wù)模型

多模態(tài)融合技術(shù)通常使用Transformer融合模態(tài)輸入表示,得到多模態(tài)表示M。包含以下融合技術(shù)路線。

(1)感知表示融合技術(shù)。Yu等[33]提出由Transformer模型對(duì)文本進(jìn)行處理,多頭跨模態(tài)注意力機(jī)制(multi-head cross-modal attention,MHCA)融合圖文特征,得到多模態(tài)表示M,計(jì)算如下:

M=MHCA(Transformer(BERT(S)),Vr)。

(28)

式中:S為輸入文本;Vr為區(qū)域視覺特征。

Liu等[39]提出由2個(gè)Transformer模型分別對(duì)文本和視覺進(jìn)行處理,然后使用多頭跨模態(tài)注意力模型融合計(jì)算多模態(tài)表示M,計(jì)算如下:

M=MHCA(Transformer(BERT(S)),

Transformer(Vr))。

(29)

Zhang等[58]基于BERT文本token和SwinT視覺token構(gòu)造了多模態(tài)圖,使用對(duì)比學(xué)習(xí)實(shí)現(xiàn)文本節(jié)點(diǎn)和視覺節(jié)點(diǎn)之間的全局對(duì)齊和局部對(duì)齊,之后堆疊n個(gè)跨模態(tài)注意力模型進(jìn)行特征融合,得到多模態(tài)表示。

(2)圖文聯(lián)合編碼。如Wang等[34]提出將圖像描述Vcap、視覺對(duì)象Vl和文本S進(jìn)行拼接,使用BERT進(jìn)行編碼得到多模態(tài)文本表示M,計(jì)算如下:

[M,Vlcap]=BERT([S;Vl;Vcap])。

(30)

(31)

式中:i=1,2,…,12為Transformer編碼層編號(hào);Ti為第i層的編碼輸出,T1為輸入的文本編碼。Transformer編碼層的自注意力機(jī)制(self-Attention,SA)計(jì)算原理表示為

(32)

式中:Qi、Ki、Vi均為Ti的投影向量。

多任務(wù)融合層通過聯(lián)合優(yōu)化模型參數(shù),進(jìn)而提升實(shí)體識(shí)別性能,主要包含多模態(tài)命名實(shí)體識(shí)別主任務(wù)結(jié)合文本模態(tài)任務(wù)或輔助任務(wù)的結(jié)構(gòu)。多模態(tài)命名實(shí)體識(shí)別主任務(wù)是基于多模態(tài)表示的命名實(shí)體識(shí)別任務(wù)。文本模態(tài)任務(wù)是基于文本模態(tài)的解碼任務(wù),如Yu等[33]利用基于文本的實(shí)體跨度檢測輔助預(yù)測;Wang等[34]對(duì)齊多模態(tài)視圖和文本視圖的輸出分布預(yù)測;Liu等[39]通過不確定性判斷使用文本候選標(biāo)簽或者多模態(tài)候選標(biāo)簽。

輔助任務(wù)能解決多模態(tài)表示過度融合視覺特征導(dǎo)致的偏差問題。如李曉騰等[40]所使用的對(duì)比學(xué)習(xí)、實(shí)體聚類輔助任務(wù)、邊界檢測任務(wù);Chen等[41]的關(guān)系抽取任務(wù)能優(yōu)化多模態(tài)表示;Zhang等[58]的多重對(duì)比學(xué)習(xí)任務(wù)能學(xué)習(xí)文本和圖像表示的全局和局部一致性,從而過濾了語義不匹配或不相關(guān)的圖文特征;Xu等[59]提出數(shù)據(jù)鑒別器任務(wù),將數(shù)據(jù)分給文本模態(tài)命名實(shí)體識(shí)別任務(wù)或多模態(tài)命名實(shí)體識(shí)別任務(wù),獲得最優(yōu)的預(yù)測序列;Zhang等[60]提出的硬樣本挖掘策略,能優(yōu)化文本和視覺特征對(duì)齊,緩減視覺對(duì)象的數(shù)量和類型所造成的偏差;Wang等[61]提出的聚合命名實(shí)體分類任務(wù)和命名實(shí)體分割任務(wù)聚合視覺特征中的實(shí)體語義。

3.3 方法分析

在Twitter-2015和Twitter-2017 2個(gè)多模態(tài)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),這2個(gè)數(shù)據(jù)集分別由Lu等[28]和Zhang等[29]提出,將每個(gè)數(shù)據(jù)集分割為訓(xùn)練數(shù)據(jù)集(Train)、驗(yàn)證數(shù)據(jù)集(Dev)、測試數(shù)據(jù)集(Test),分別統(tǒng)計(jì)數(shù)據(jù)集中的人名(PER)、地名(LOC)、組織名(ORG)、雜項(xiàng)(MISC)等4類實(shí)體的數(shù)量,統(tǒng)計(jì)數(shù)據(jù)如表3所示。

表3 2個(gè)Twitter的多模態(tài)數(shù)據(jù)集的統(tǒng)計(jì)數(shù)量

通過評(píng)價(jià)指標(biāo)R和F1值對(duì)基于Transformer的MNER模型的有效性進(jìn)行對(duì)比分析。選取Transformer單任務(wù)模型中MSB[55]、UMGF[31]和MAF[32]模型,Transformer多任務(wù)模型中UMT[33、ITA[34]和HvpNET[41]模型進(jìn)行復(fù)現(xiàn)。在實(shí)驗(yàn)復(fù)現(xiàn)過程中,為了在同樣的實(shí)驗(yàn)環(huán)境中運(yùn)行,HvpNET批次大小降低為8,性能有所下降。具體實(shí)驗(yàn)結(jié)果如表4所示。

表4 基于Transformer的MNER方法對(duì)比分析

如表2和表4所示,在2個(gè)數(shù)據(jù)集中基于Transformer的方法整體優(yōu)于基于BiLSTM的方法。這是因?yàn)門ransformer的MNER方法使用BERT改進(jìn)了文本表示,和Transformer融合模塊具有同步挖掘上下文信息和融合多模態(tài)特征的能力,而基于BiLSTM的MNER方法是分階段實(shí)現(xiàn)這2個(gè)功能的。如在Twitter-2015數(shù)據(jù)集中,基于BiLSTM方法的F1值最高值要低于基于Transformer方法的最低值,在Twitter-2017數(shù)據(jù)集中,相較VAM[28]、ACN[29]及ACN[36],基于Transformer方法的性能更好。

對(duì)ACN[36]進(jìn)行改進(jìn),即通過融合字符表示或增加對(duì)抗學(xué)習(xí)任務(wù),進(jìn)一步補(bǔ)全文本語義以優(yōu)化多模態(tài)表征后,ACN-GAN方法和MSB方法的性能相近。這表明使用BERT來表示文本語義仍然有缺失,而通過輔助任務(wù)可以促進(jìn)多模態(tài)特征間的語義聚合,從而獲得更好的多模態(tài)特征。

Transformer多任務(wù)模型通過任務(wù)間的共享學(xué)習(xí)和損失均衡,有效增強(qiáng)多模態(tài)表示通用性,同時(shí)也避免了多模態(tài)表示陷入局部最優(yōu)值。由表4可以看出,在2個(gè)數(shù)據(jù)集上,Transformer多任務(wù)模型的各項(xiàng)指標(biāo)均高于單任務(wù)模型,驗(yàn)證了多任務(wù)協(xié)同模型在多模態(tài)命名實(shí)體識(shí)別領(lǐng)域的優(yōu)勢。

視覺模態(tài)多特征協(xié)同對(duì)MNER具有重要作用。HvpNET協(xié)同使用層次視覺特征和對(duì)象級(jí)視覺特征作為文本的前綴特征,而UMT、UMGF、MAF僅使用區(qū)域視覺特征。在表4中可以發(fā)現(xiàn),HvpNET方法的整體指標(biāo)顯著高于這3個(gè)方法。此外,使用視覺對(duì)象標(biāo)簽和圖像標(biāo)題的ITA方法,相比僅使用視覺對(duì)象標(biāo)簽的MSB方法,在2個(gè)數(shù)據(jù)集上的F1值分別高出2.13百分點(diǎn)、0.16百分點(diǎn)。這是因?yàn)?種視覺特征協(xié)同表示可以得到更全面的視覺語義。

進(jìn)一步可以發(fā)現(xiàn),相較于對(duì)象級(jí)視覺特征,使用自然語言對(duì)圖像進(jìn)行描述,圖文語義能夠更充分融合,如表4中,MSB的模型參數(shù)遠(yuǎn)小于UMT,卻獲得更好的性能。

3.4 模型的復(fù)雜度分析

模型參數(shù)量、單輪訓(xùn)練時(shí)間及單輪驗(yàn)證時(shí)間是衡量模型可用性的重要指標(biāo),對(duì)各模型進(jìn)行統(tǒng)計(jì),如表5所示?？梢园l(fā)現(xiàn)基于Transformer的MNER模型的參數(shù)量高于基于BiLSTM的MNER模型,綜合F1值來看,模型參數(shù)量不是決定模型F1值的核心因素。Transformer多任務(wù)模型的訓(xùn)練時(shí)間與單任務(wù)模型的訓(xùn)練時(shí)間相當(dāng),但Transformer多任務(wù)模型的性能有較大提升。

表5 不同模型的參數(shù)量、訓(xùn)練時(shí)間和驗(yàn)證時(shí)間對(duì)比

4 結(jié)束語

本文先對(duì)MNER任務(wù)的定義、難點(diǎn)及方法進(jìn)行了簡要介紹,然后總結(jié)了MNER方法框架,分別介紹框架中各部分的常用技術(shù)及其優(yōu)缺點(diǎn)。接著對(duì)近年來MNER的方法進(jìn)行梳理和分類,將其總結(jié)為2類方法和4種模型結(jié)構(gòu)。為了評(píng)估基于BiLSTM的MNER方法,將其總結(jié)為前融合模型和后融合模型結(jié)構(gòu),在Twitter-2015、Twitter-2017數(shù)據(jù)集對(duì)2種模型結(jié)構(gòu)中7種方法進(jìn)行實(shí)驗(yàn),分析如下:前融合模型是最早的MNER模型結(jié)構(gòu),該類模型在命名實(shí)體識(shí)別模型中添加視覺模態(tài),并以簡單、直接的方式實(shí)現(xiàn)多模態(tài)融合,其性能優(yōu)于命名實(shí)體識(shí)別模型。后融合模型是前融合模型的改進(jìn),它初步解決了文本語義和圖像語義不匹配的問題。筆者在后融合模型ACN的基礎(chǔ)上進(jìn)行拓展,解決現(xiàn)有文本表示方法中存在語義缺失問題,使用多特征協(xié)同表達(dá),補(bǔ)全文本語義,性能進(jìn)一步提升。

為了評(píng)估Transformer的MNER方法,將其總結(jié)為Transformer單任務(wù)模型、Transformer多任務(wù)模型,在Twitter-2015、Twitter-2017數(shù)據(jù)集對(duì)Transformer單任務(wù)模型、Transformer多任務(wù)模型中6種典型方法進(jìn)行實(shí)驗(yàn),分析如下:單任務(wù)模型使用BERT作為文本表示,利用Transformer實(shí)現(xiàn)多模態(tài)特征的深度融合,但存在視覺偏差問題,為此,通過利用文本表示或優(yōu)化多模態(tài)表示的方法,將單任務(wù)模型擴(kuò)展為多任務(wù)模型,其中包含2種多任務(wù)結(jié)構(gòu),即聯(lián)合命名實(shí)體識(shí)別任務(wù)解決視覺偏差問題或聚合輔助任務(wù)增強(qiáng)多模態(tài)表示的通用性。

5 展望

本文對(duì)4類模型進(jìn)行分析后,從以下3個(gè)方面指出了MNER未來的發(fā)展方向。

(1)多特征協(xié)同表達(dá)的重要性。模態(tài)內(nèi)多特征協(xié)同表達(dá)能解決特征語義的問題,從而獲得更加準(zhǔn)確和全面的模態(tài)信息描述。

(2)多模態(tài)表征空間統(tǒng)一的重要性。當(dāng)多模態(tài)特征空間統(tǒng)一,能解決融合特征時(shí)實(shí)體語義不匹配的問題。其中可以采用調(diào)用Transformer層對(duì)多模態(tài)表示重新編碼,實(shí)現(xiàn)表征空間的統(tǒng)一和使用輔助任務(wù)優(yōu)化特征投影,在投影空間中實(shí)現(xiàn)語義對(duì)齊。

(3)多任務(wù)學(xué)習(xí)的重要性。多任務(wù)模型與命名實(shí)體識(shí)別任務(wù)的結(jié)合是必要的,具體可以嘗試以下幾種研究思路:第一,使用多任務(wù)優(yōu)化模態(tài)特征以利于編碼、融合或?qū)R;第二,通過多任務(wù)協(xié)同學(xué)習(xí)通用的多模態(tài)表征,進(jìn)而提升MNER性能;第三,結(jié)合遷移學(xué)習(xí)解決中文數(shù)據(jù)標(biāo)注困難的問題,將多模態(tài)命名實(shí)體模型引入中文文本命名實(shí)體識(shí)別研究。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放