亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模態(tài)命名實體識別方法研究進(jìn)展

        2024-03-09 02:52:00王海榮荊博祥
        關(guān)鍵詞:實體語義模態(tài)

        王海榮, 徐 璽, 王 彤, 荊博祥

        (1.北方民族大學(xué) 計算科學(xué)與工程學(xué)院,寧夏 銀川 750021;2.北方民族大學(xué) 圖像圖形智能處理國家民委重點實驗室,寧夏 銀川 750021)

        命名實體識別任務(wù)是從數(shù)據(jù)中識別出專有名詞,最早在信息理解會議[1]上被提出。隨后形成了基于規(guī)則[2]和詞典[3]的方法、機器學(xué)習(xí)的方法、深度學(xué)習(xí)的方法等3類命名實體識別方法。基于規(guī)則和詞典的方法通過字符匹配進(jìn)行信息抽取,適用于數(shù)據(jù)更新較少的領(lǐng)域,但規(guī)則和詞典制定成本較高?;跈C器學(xué)習(xí)的方法將命名實體識別任務(wù)視為分類問題,并提出了如HMM-based[4]、CRF-based[5]的模型,該方法減少了人工成本,但選取特征的質(zhì)量決定了算法的性能?;谏疃葘W(xué)習(xí)的方法具有自動挖掘高質(zhì)量上下文特征的能力,研究者相繼提出了CNN-based[6]、BiLSTM-based[7]、Transformer-based[8-10]、GNN-based[11-13]等模型,但要求文本有充足的上下文特征,因此在長文本數(shù)據(jù)集中的性能表現(xiàn)更好,在短文本數(shù)據(jù)集中性能表現(xiàn)不佳。

        傳統(tǒng)的文本語義增強主要依賴字符特征[14]、詞匯信息[15]、知識圖譜[16-17]、檢索[18]、標(biāo)簽信息[19]等外部文本數(shù)據(jù),也結(jié)合了多任務(wù)學(xué)習(xí)來增強命名實體識別的能力。王蓬輝等[20]采用基于生成對抗的數(shù)據(jù)增強算法來解決標(biāo)注數(shù)據(jù)不足的問題。余傳明等[21]提出了實體和事件聯(lián)合抽取模型,從而在2個任務(wù)中均取得了更好的效果。武國亮等[22]提出將命名實體識別任務(wù)的輸出反饋到輸入端,來解決多任務(wù)聯(lián)合學(xué)習(xí)產(chǎn)生的損失不平衡問題。但隨著社交媒體平臺的廣泛應(yīng)用,以文本、圖像為主要媒介的多模態(tài)數(shù)據(jù)快速增長,為了從這些多模態(tài)數(shù)據(jù)中挖掘語義,進(jìn)而增強文本特征,人們提出了多模態(tài)命名實體識別(multimodal named entity recognition,MNER)方法。MNER研究難點是如何融合多模態(tài)特征中有益信息,并過濾有害信息。早期研究[23-25]關(guān)注使用視覺特征增強靜態(tài)詞表示的方法,取得了一些研究成果。范濤等[26]將MNER遷移到了地方志領(lǐng)域的實體識別研究。近年來,隨著預(yù)訓(xùn)練語言模型的發(fā)展,MNER方法的研究重點逐步轉(zhuǎn)向采用Transforme融合特征,取得了新的研究成果?,F(xiàn)有的MNER方法可分為4類,如表1所示。

        表1 多模態(tài)命名實體識別方法分類表

        2018年,Moon等[27]首次在BiLSTM-CRF模型中融入了視覺特征,提出了多模態(tài)實體識別方法,提出MA[27]模型。VAM[28]、CWI[29]等模型也被提出。這些模型均使用注意力機制為文本表示和視覺特征分配權(quán)重,拼接得到多模態(tài)特征,再通過BiLSTM+CRF網(wǎng)絡(luò)挖掘上下文特征并解碼,將此類模型歸納為前融合模型。前融合模型中使用Glove表示單詞,導(dǎo)致圖像特征與文本特征間的語義存在巨大鴻溝。針對該問題,一些學(xué)者提出ACN[29]、GAN[30]、DCN[35]等模型,先使用BiLSTM挖掘文本中上下文特征以增強單詞的實體語義,然后采用注意力機制作為多模態(tài)融合層,得到多模態(tài)特征,將此類模型歸納為后融合模型。

        為了進(jìn)一步縮小文本與圖像特征的語義差距,2020年,基于Transformer的MNER方法首次被Yu等[33]提出,其中Chen等[36]使用BERT表示文本,并驗證了提升單詞語義的重要性,之后UMGF[31]、MAF[32]、ITJ[37]、HSN[38]等模型相繼被提出,這些模型堆疊多個Transformer,對各模態(tài)特征進(jìn)行編碼、對齊或融合處理,得到多模態(tài)特征后,均只后接1個命名實體識別任務(wù),本文將此類模型歸納為Transfor-mer單任務(wù)模型。為了解決多模態(tài)特征與目標(biāo)語義間的偏差問題,一是在文本表示和多模態(tài)表示上構(gòu)建聯(lián)合實體識別任務(wù),以解決視覺偏差的問題,如Yu等[33]的邊界檢測任務(wù),Wang等[34]和Liu等[39]的文本視圖命名實體識別任務(wù)。二是通過輔助任務(wù)聯(lián)合訓(xùn)練多模態(tài)表示,增強特征的通用性。如李曉騰等[40]提出通過對比融合、實體聚類、邊界檢測等任務(wù)輔助學(xué)習(xí)多模態(tài)特征,Chen等[41]結(jié)合關(guān)系抽取任務(wù)訓(xùn)練多模態(tài)特征,本文將此類模型歸納為Transformer多任務(wù)模型。上面所提的4類模型尚沒有關(guān)注單視覺特征中圖像語義丟棄的問題。

        此外,Sui等[42]構(gòu)建文本和語音數(shù)據(jù)集并提出M3T模型,進(jìn)一步驗證多模態(tài)特征能幫助識別命名實體。Liu等[43]提出使用合成的聲學(xué)特征而不是真實的人類語音,并采用多頭注意力機制融合文本和語音2種模態(tài)的特征,穩(wěn)定地提高了中文命名實體識別的性能。馮皓楠等[44]提出了一種圖文注意力融合的主題標(biāo)簽推薦的方法,并表明相比單模態(tài)輸入,多模態(tài)方法具有更顯著的優(yōu)勢。鄭建興等[45]提出了基于評論文本情感注意力的推薦方法,使用注意力機制聚合用戶特征和項目特征信息,以得到聯(lián)合嵌入,進(jìn)而提升了模型的有效性。

        1 MNER方法框架

        根據(jù)MNER各方法的特點,將MNER方法的框架劃分為模態(tài)輸入表示、上下文編碼層、多模態(tài)融合層、標(biāo)簽解碼和多任務(wù)融合層。多模態(tài)命名實體識別的基本框架如圖1所示。

        圖1 多模態(tài)命名實體識別的基本框架

        模態(tài)輸入表示是將各模態(tài)數(shù)據(jù)表示為特征向量。上下文編碼器旨在挖掘特征的上下文依賴關(guān)系,主要采用BiLSTM模型。多模態(tài)融合層旨在融合多模態(tài)特征,主要采用Attention、Co-Attention、Transformer、Transformer with Cross-Attention模型。多模態(tài)融合層和上下文編碼器呈現(xiàn)3種結(jié)構(gòu),前融合模型將圖像信息傳遞給每個單詞,再挖掘單詞間的上下文特征;后融合模型則相反;多模態(tài)表示使用Transformer作為聯(lián)合編碼模型,融合多模態(tài)特征。標(biāo)簽解碼層將多模態(tài)表示作為輸入特征來預(yù)測標(biāo)簽。此外,當(dāng)MNER方法結(jié)合了如對抗學(xué)習(xí)、邊界檢測、關(guān)系抽取等輔助任務(wù)共同訓(xùn)練,將之歸納為多任務(wù)融合層。綜上,可劃分為4種模型結(jié)構(gòu):前融合模型、后融合模型、Transformer單任務(wù)模型及Transformer多任務(wù)模型。

        1.1 模態(tài)輸入表示

        文本模態(tài)輸入表示主要采用字符嵌入、詞嵌入、混合嵌入表示文本特征。字符嵌入Xc通過CNN或RNN模型進(jìn)行表示,緩解out-of-vocabulary的問題;詞嵌入模型包括CBOW[46]、Word2Vec[47]、Glove[48]、FastText[49]、ELMo[50]、BERT等。對于輸入的句子S,靜態(tài)詞向量可表示為

        Xs=Glove(S)。

        (1)

        動態(tài)詞向量可表示為

        Xb=BERT(S)。

        (2)

        混合嵌入[51]可表示為X=[Xs;Xc]。

        對于輸入的圖像特征I,視覺模態(tài)輸入表示采用預(yù)訓(xùn)練數(shù)據(jù)模型進(jìn)行特征表示,區(qū)域視覺特征使用ResNet[52]模型提取,可表示為

        Vr=ResNet(I),Vr∈Rn×d。

        (3)

        式中:d為特征維度;n為特征的數(shù)量。

        (4)

        利用Mask RCNN[53]提取對象級視覺標(biāo)簽,可表示為

        Vl=MaskRCNN(I)。

        (5)

        圖像標(biāo)題使用圖像字幕[54](image captioning,IC)提取,可表示為

        Vcap=IC(I)。

        (6)

        1.2 上下文編碼層和多模態(tài)融合層

        雙向長短時記憶網(wǎng)絡(luò)(bi-directional long-short term memory,BiLSTM)作為上下文編碼器時,能提取單詞上下文特征。自注意力機制能增強關(guān)鍵特征的權(quán)重。self-Attention(SA)、Multi Head self-Attention(MHSA),Cross-Attention(CA)、計算原理表示如下:

        (7)

        MHSA()=W′[SA0(),SA1(),…,SAm-1()];

        (8)

        (9)

        式中:Q、K、V為輸入特征的投影向量;d為Q的特征維度;m為多頭注意力的頭數(shù);W′代表投影矩陣;Q1代表文本模態(tài)的輸入特征的投影向量;K2、V2代表視覺模態(tài)的輸入特征的投影向量。此外,multi head cross-attention(MHCA)是將MHSA()中的SA()替換為CA()。

        Transformer能獲取到長距離依賴關(guān)系,由多個編碼器堆疊形成,每個編碼器由多頭自注意力機制、前饋層及規(guī)范化層組成。

        Transformer作為多模態(tài)融合層時,其多模態(tài)特征融合技術(shù)主要為以下3種構(gòu)建方式:①將文本表示和視覺表示投影到同一離散空間進(jìn)行對齊;②使用視覺語言模型對文本和圖像進(jìn)行聯(lián)合表示;③將視覺特征轉(zhuǎn)化為自然語言描述,使用語言模型統(tǒng)一表示。

        1.3 標(biāo)簽解碼和多任務(wù)融合層

        通常使用條件隨機場(conditional random field, CRF)作為標(biāo)簽解碼層,對多模態(tài)表示進(jìn)行解碼。設(shè)X={x0,x1,…,xn}為CRF的輸入特征,y={y0,y1,…,yn},解碼表示如下:

        (10)

        使用最大似然函數(shù)作為損失函數(shù),計算如下:

        (11)

        yo為預(yù)測輸出序列得分最高的序列,計算如下:

        yo=argmaxyp(y|X),

        (12)

        多任務(wù)融合層中利用任務(wù)間的信息共享來訓(xùn)練模型參數(shù),以全局最優(yōu)的多模態(tài)特征或預(yù)測結(jié)果提升實體識別性能,增強模型的可用性,包括命名實體識別主任務(wù)和實現(xiàn)標(biāo)簽融合或優(yōu)化多模態(tài)表征的輔助任務(wù)。

        2 基于BiLSTM的MNER方法

        基于BiLSTM的MNER方法以BiLSTM和CRF作為基礎(chǔ)模塊,并引入多模態(tài)融合層,實現(xiàn)文本和圖像特征融合,以解決上下文特征匱乏的問題。根據(jù)多模態(tài)融合方法劃分為前融合模型和后融合模型,并對各方法進(jìn)行實驗驗證及對比分析。

        2.1 前融合模型

        前融合模型首先對各模態(tài)表示進(jìn)行拼接或加權(quán)拼接,接著使用BiLSTM挖掘上下文特征,最后將融合表示輸入CRF中預(yù)測標(biāo)簽。前融合模型框架如圖2所示。

        圖2 前融合模型

        Moon等[27]的多模態(tài)融合層是先拼接單詞表示、字符表示及區(qū)域視覺特征,將其映射到統(tǒng)一特征空間X=σ([Xs;Xc;Xv]),Xv=Vr,σ為投影函數(shù),使用注意力機制計算X中各模態(tài)權(quán)重[as;ac;av],得到融合表示M,以as為例,模態(tài)權(quán)重計算如下:

        (13)

        M=asXs+acXc+avXv。

        (14)

        Lu等[28]使用視覺注意力模型從圖像中提取與文本最相關(guān)的圖像特征,計算得到視覺上下文特征v,將v與詞表示、字符表示拼接,得到融合表示M=[vs;Xs;Xc],計算如下:

        A=softmax(W1([Xs;Xc]⊕Xv));

        (15)

        (16)

        式中:W1為權(quán)值矩陣;⊕為向量的求和函數(shù);A為視覺全局注意力權(quán)重。

        Asgari-Chenaghlu等[55]分別挖掘出字符特征、單詞特征和圖像特征的上下文特征并拼接這些上下文特征作為多模態(tài)融合表示。

        經(jīng)分析發(fā)現(xiàn)上述模型存在以下限制:單詞表示的實體語義微弱。當(dāng)單詞的拼寫錯誤,只能通過隨機初始化進(jìn)行表示,文本的實體語義被降低。此外,實現(xiàn)處于不同特征空間的圖文特征對齊是很困難的。

        2.2 后融合模型

        后融合模型利用BiLSTM挖掘上下文特征,增強單詞表示的實體語義,使用多模態(tài)注意力融合圖文特征,再使用CRF模型解碼??蚣苋鐖D3所示。

        圖3 后融合模型

        Zhang等[29]提出了共注意力網(wǎng)絡(luò)(CoAttention),對于輸入的圖文特征,先計算基于文本上下文的文本特征ht=BiLSTM([Xs;Xc]),再分別通過共注意力機制計算基于文本注意力的視覺特征Hcv和基于視覺注意力的文本特征Hct,通過門控機制gate(·)=softmax(ReLU(·))得到多模態(tài)表示M,計算如下:

        [Hcv,Hct]=CoAttention(Xv,ht);

        (17)

        M=ht+Hct·gate(Hcv⊕Hct)。

        (18)

        但共注意力網(wǎng)絡(luò)忽略了細(xì)粒度視覺對象和文本實體之間的關(guān)系,可能導(dǎo)致不同類型實體的錯誤預(yù)測。為此,Zheng等[30]利用對抗學(xué)習(xí)優(yōu)化投影函數(shù)將圖文特征映射為一個共享的表示,然后采用雙線性注意力計算每個單詞和對象標(biāo)簽的細(xì)粒度語義關(guān)系,以及共同表示G,通過門控機制生成融合表示M,計算如下:

        (19)

        G=Xv·AT;

        (20)

        M=σ([G;ht])°G+ht。

        (21)

        式中:σ()為投影函數(shù);one為向量;P為注意力得分的池化參數(shù)矩陣;W2、W3為參數(shù)矩陣;°為哈達(dá)瑪積。

        Wu等[35]使用視覺標(biāo)簽表示圖像語義,引入密集的共注意力機制建立單詞和對象之間的關(guān)系,實現(xiàn)細(xì)粒度語義交互,得到多模態(tài)表示M。計算如下:

        htsa=SA(ht,ht,ht);

        (22)

        hv=SA(Xv,Xv,Xv);

        (23)

        M=ht+CA(htsa,hv,hv)。

        (24)

        式中:Xv、ht代表視覺特征、文本特征;SA()和CA()分別代表自注意力機制和跨模態(tài)注意力機制。

        2.3 方法分析

        在Twitter 2015和Twitter 2017數(shù)據(jù)集上進(jìn)行實驗,使用評估指標(biāo)[56]如召回率R和F1值對MNER方法的有效性進(jìn)行對比分析。本文選擇Lu等[28]、Zhang等[29]和Chen等[36]提出的基線模型,前融合模型選取MA和VAM模型,后融合模型選取增加字符表示的ACN模型,以及在ACN模型上融合其他方法的模型,即使用視覺區(qū)域特征的ACN_BCR和使用視覺對象標(biāo)簽的ACN_BCL模型,融入對抗學(xué)習(xí)[30]但分別使用區(qū)域特征、視覺對象特征、視覺對象標(biāo)簽的ACN_GAN_BCR、ACN_GAN_BCL、ACN_GAN_BCO等模型。實驗結(jié)果如表2所示,表中PER、LOC、ORG、MISC分別代表數(shù)據(jù)集中的人名、地名、組織名和雜項等4類實體。

        表2 基于BiLSTM的MNER方法對比分析

        相比使用Glove的文本表示,使用BERT使文本表示具有更完備的實體語義表示,因為BERT具備語言模型的背景知識。如在表2中VAM_GCR[28]、ACN_GCR[29]與ACN_BCR、VAM_BCR的實驗對比中,后兩者明顯取得顯著的優(yōu)勢。在Twitter-2017數(shù)據(jù)集中,VAM_BCR方法較VAM_GCR[28]方法R、F1值分別高出6.48百分點、4.32百分點,ACN_BCR的5項指標(biāo)均高于ACN_GCR[29]方法。

        將字符表示和單詞表示進(jìn)行拼接,通過補全單詞表示中缺失的語義,以增強單詞表示,進(jìn)而得到更加準(zhǔn)確的預(yù)測標(biāo)簽。ACN_BCR與ACN_BR[36]相比,在Twitter-2015數(shù)據(jù)集中R和F1值分別高出0.22百分點和0.47百分點,結(jié)果表明,使用文本模態(tài)內(nèi)多特征協(xié)同表達(dá),可以解決現(xiàn)有的文本表征模型存在語義缺失的問題。

        由前融合模型MA、VAM與后融合模型ACN_BCR的對比中可以發(fā)現(xiàn),在2個數(shù)據(jù)集中,ACN_BCR的12個指標(biāo)均高于MA方法,10個指標(biāo)均高于VAM方法。這表明使用BiLSTM融合單詞表示和字符表示,使得文本表示具有更高的實體語義,能得到更好的多模態(tài)表示。

        使用對抗學(xué)習(xí)實現(xiàn)2個表征空間的統(tǒng)一是有效的。對比ACN_GAN方法和ACN方法,11個最先進(jìn)的性能指標(biāo)出現(xiàn)在ACN_GAN方法,2個數(shù)據(jù)集中最高的F1值分別為ACN_GAN_BCO和ACN_GAN_BCR方法。這是因為對抗學(xué)習(xí)能使得文本表示和區(qū)域視覺特征的語義分布相似,從而更準(zhǔn)確地融合,得到更高質(zhì)量的多模態(tài)表示。

        3 基于Transformer的MNER方法

        基于Transformer的MNER方法使用Transfor-mer模型和CRF作為基礎(chǔ)模塊,并使用BERT編碼文本以縮小圖文特征實體語義之間的差距。為解決視覺偏差的問題,利用多任務(wù)協(xié)同學(xué)習(xí)引導(dǎo)圖像和文本特征深度融合,本文根據(jù)任務(wù)結(jié)構(gòu),劃分為Transformer單任務(wù)模型和Transformer多任務(wù)模型,并對經(jīng)典方法進(jìn)行實驗驗證和方法分析。

        3.1 Transformer單任務(wù)模型

        Transformer單任務(wù)模型使用BERT進(jìn)一步縮小文本與圖像特征的語義差距,其處理流程是獲得各模態(tài)的輸入表示后采用多模態(tài)融合技術(shù)重新編碼所有的模態(tài)輸入表示,以獲得多模態(tài)表示,最后通過CRF模型得到最終標(biāo)簽,具體框架如圖4所示。Transformer單任務(wù)模型的核心是多模態(tài)融合技術(shù),本小節(jié)將介紹所涉及的3種多模態(tài)融合技術(shù)路線。

        圖4 Transformer單任務(wù)模型

        (1)圖文聯(lián)合編碼。如Asgari-chenaghlu等[55]調(diào)用Transformer聯(lián)合編碼文本S和圖像分類標(biāo)簽Vl,將輸出特征的文本部分作為多模態(tài)表示M,可表示為

        [M,V′]=BERT([S;Vl])。

        (25)

        (2)感知表示融合技術(shù)。如Zhang等[31]將文本單詞特征Xb=BERT(S)和視覺對象Vr視作節(jié)點,分別使用模態(tài)內(nèi)邊連接模態(tài)內(nèi)特征,使用模態(tài)間邊連接模態(tài)間特征,構(gòu)成無向圖G。然后堆疊n個基于圖的跨模態(tài)注意力模型對G進(jìn)行編碼,以實現(xiàn)特征融合,得到多模態(tài)表示M。

        G=Graph(Xb,Vr);

        (26)

        [M,V″]=cross-attention(Xb,Vr)。

        (27)

        式中:Graph()為將單詞特征和視覺對象構(gòu)建為無向圖的函數(shù);cross-attention()為跨模態(tài)注意力機制,分別輸出多模態(tài)表示M和多模態(tài)視覺表示V″。

        鐘維幸等[37]使用ALBERT分別對文本S和圖像描述L進(jìn)行編碼,再使用由3個自注意力模型、4個跨模態(tài)注意力模型組成的多模態(tài)融合模塊來計算多模態(tài)表示M。

        (3)多模態(tài)語義對齊技術(shù)。如Xu等[32]通過跨模態(tài)注意力模型先將文本特征和視覺對象對齊,得到匹配表示,再使用多模態(tài)注意力模型融合文本特征和視覺對象得到多模態(tài)表示。Liu等[57]構(gòu)建了多層次的對齊來捕獲文本和圖像之間由粗粒度到細(xì)粒度的交互,并通過計算文本和圖像的相關(guān)性在不同語義層次上執(zhí)行跨模態(tài)交互來增強文本表示,最終得到多模態(tài)表示。

        3.2 Transformer多任務(wù)模型

        在單任務(wù)MNER模型的基礎(chǔ)上,擴展了文本模態(tài)任務(wù)或其他輔助任務(wù),以解決視覺偏差問題。Transformer多任務(wù)模型的核心是多模態(tài)融合技術(shù)和多任務(wù)融合模塊,框架如圖5所示。

        圖5 Transformer多任務(wù)模型

        多模態(tài)融合技術(shù)通常使用Transformer融合模態(tài)輸入表示,得到多模態(tài)表示M。包含以下融合技術(shù)路線。

        (1)感知表示融合技術(shù)。Yu等[33]提出由Transformer模型對文本進(jìn)行處理,多頭跨模態(tài)注意力機制(multi-head cross-modal attention,MHCA)融合圖文特征,得到多模態(tài)表示M,計算如下:

        M=MHCA(Transformer(BERT(S)),Vr)。

        (28)

        式中:S為輸入文本;Vr為區(qū)域視覺特征。

        Liu等[39]提出由2個Transformer模型分別對文本和視覺進(jìn)行處理,然后使用多頭跨模態(tài)注意力模型融合計算多模態(tài)表示M,計算如下:

        M=MHCA(Transformer(BERT(S)),

        Transformer(Vr))。

        (29)

        Zhang等[58]基于BERT文本token和SwinT視覺token構(gòu)造了多模態(tài)圖,使用對比學(xué)習(xí)實現(xiàn)文本節(jié)點和視覺節(jié)點之間的全局對齊和局部對齊,之后堆疊n個跨模態(tài)注意力模型進(jìn)行特征融合,得到多模態(tài)表示。

        (2)圖文聯(lián)合編碼。如Wang等[34]提出將圖像描述Vcap、視覺對象Vl和文本S進(jìn)行拼接,使用BERT進(jìn)行編碼得到多模態(tài)文本表示M,計算如下:

        [M,Vlcap]=BERT([S;Vl;Vcap])。

        (30)

        (31)

        式中:i=1,2,…,12為Transformer編碼層編號;Ti為第i層的編碼輸出,T1為輸入的文本編碼。Transformer編碼層的自注意力機制(self-Attention,SA)計算原理表示為

        (32)

        式中:Qi、Ki、Vi均為Ti的投影向量。

        多任務(wù)融合層通過聯(lián)合優(yōu)化模型參數(shù),進(jìn)而提升實體識別性能,主要包含多模態(tài)命名實體識別主任務(wù)結(jié)合文本模態(tài)任務(wù)或輔助任務(wù)的結(jié)構(gòu)。多模態(tài)命名實體識別主任務(wù)是基于多模態(tài)表示的命名實體識別任務(wù)。文本模態(tài)任務(wù)是基于文本模態(tài)的解碼任務(wù),如Yu等[33]利用基于文本的實體跨度檢測輔助預(yù)測;Wang等[34]對齊多模態(tài)視圖和文本視圖的輸出分布預(yù)測;Liu等[39]通過不確定性判斷使用文本候選標(biāo)簽或者多模態(tài)候選標(biāo)簽。

        輔助任務(wù)能解決多模態(tài)表示過度融合視覺特征導(dǎo)致的偏差問題。如李曉騰等[40]所使用的對比學(xué)習(xí)、實體聚類輔助任務(wù)、邊界檢測任務(wù);Chen等[41]的關(guān)系抽取任務(wù)能優(yōu)化多模態(tài)表示;Zhang等[58]的多重對比學(xué)習(xí)任務(wù)能學(xué)習(xí)文本和圖像表示的全局和局部一致性,從而過濾了語義不匹配或不相關(guān)的圖文特征;Xu等[59]提出數(shù)據(jù)鑒別器任務(wù),將數(shù)據(jù)分給文本模態(tài)命名實體識別任務(wù)或多模態(tài)命名實體識別任務(wù),獲得最優(yōu)的預(yù)測序列;Zhang等[60]提出的硬樣本挖掘策略,能優(yōu)化文本和視覺特征對齊,緩減視覺對象的數(shù)量和類型所造成的偏差;Wang等[61]提出的聚合命名實體分類任務(wù)和命名實體分割任務(wù)聚合視覺特征中的實體語義。

        3.3 方法分析

        在Twitter-2015和Twitter-2017 2個多模態(tài)數(shù)據(jù)集上進(jìn)行了實驗,這2個數(shù)據(jù)集分別由Lu等[28]和Zhang等[29]提出,將每個數(shù)據(jù)集分割為訓(xùn)練數(shù)據(jù)集(Train)、驗證數(shù)據(jù)集(Dev)、測試數(shù)據(jù)集(Test),分別統(tǒng)計數(shù)據(jù)集中的人名(PER)、地名(LOC)、組織名(ORG)、雜項(MISC)等4類實體的數(shù)量,統(tǒng)計數(shù)據(jù)如表3所示。

        表3 2個Twitter的多模態(tài)數(shù)據(jù)集的統(tǒng)計數(shù)量

        通過評價指標(biāo)R和F1值對基于Transformer的MNER模型的有效性進(jìn)行對比分析。選取Transformer單任務(wù)模型中MSB[55]、UMGF[31]和MAF[32]模型,Transformer多任務(wù)模型中UMT[33、ITA[34]和HvpNET[41]模型進(jìn)行復(fù)現(xiàn)。在實驗復(fù)現(xiàn)過程中,為了在同樣的實驗環(huán)境中運行,HvpNET批次大小降低為8,性能有所下降。具體實驗結(jié)果如表4所示。

        表4 基于Transformer的MNER方法對比分析

        如表2和表4所示,在2個數(shù)據(jù)集中基于Transformer的方法整體優(yōu)于基于BiLSTM的方法。這是因為Transformer的MNER方法使用BERT改進(jìn)了文本表示,和Transformer融合模塊具有同步挖掘上下文信息和融合多模態(tài)特征的能力,而基于BiLSTM的MNER方法是分階段實現(xiàn)這2個功能的。如在Twitter-2015數(shù)據(jù)集中,基于BiLSTM方法的F1值最高值要低于基于Transformer方法的最低值,在Twitter-2017數(shù)據(jù)集中,相較VAM[28]、ACN[29]及ACN[36],基于Transformer方法的性能更好。

        對ACN[36]進(jìn)行改進(jìn),即通過融合字符表示或增加對抗學(xué)習(xí)任務(wù),進(jìn)一步補全文本語義以優(yōu)化多模態(tài)表征后,ACN-GAN方法和MSB方法的性能相近。這表明使用BERT來表示文本語義仍然有缺失,而通過輔助任務(wù)可以促進(jìn)多模態(tài)特征間的語義聚合,從而獲得更好的多模態(tài)特征。

        Transformer多任務(wù)模型通過任務(wù)間的共享學(xué)習(xí)和損失均衡,有效增強多模態(tài)表示通用性,同時也避免了多模態(tài)表示陷入局部最優(yōu)值。由表4可以看出,在2個數(shù)據(jù)集上,Transformer多任務(wù)模型的各項指標(biāo)均高于單任務(wù)模型,驗證了多任務(wù)協(xié)同模型在多模態(tài)命名實體識別領(lǐng)域的優(yōu)勢。

        視覺模態(tài)多特征協(xié)同對MNER具有重要作用。HvpNET協(xié)同使用層次視覺特征和對象級視覺特征作為文本的前綴特征,而UMT、UMGF、MAF僅使用區(qū)域視覺特征。在表4中可以發(fā)現(xiàn),HvpNET方法的整體指標(biāo)顯著高于這3個方法。此外,使用視覺對象標(biāo)簽和圖像標(biāo)題的ITA方法,相比僅使用視覺對象標(biāo)簽的MSB方法,在2個數(shù)據(jù)集上的F1值分別高出2.13百分點、0.16百分點。這是因為2種視覺特征協(xié)同表示可以得到更全面的視覺語義。

        進(jìn)一步可以發(fā)現(xiàn),相較于對象級視覺特征,使用自然語言對圖像進(jìn)行描述,圖文語義能夠更充分融合,如表4中,MSB的模型參數(shù)遠(yuǎn)小于UMT,卻獲得更好的性能。

        3.4 模型的復(fù)雜度分析

        模型參數(shù)量、單輪訓(xùn)練時間及單輪驗證時間是衡量模型可用性的重要指標(biāo),對各模型進(jìn)行統(tǒng)計,如表5所示??梢园l(fā)現(xiàn)基于Transformer的MNER模型的參數(shù)量高于基于BiLSTM的MNER模型,綜合F1值來看,模型參數(shù)量不是決定模型F1值的核心因素。Transformer多任務(wù)模型的訓(xùn)練時間與單任務(wù)模型的訓(xùn)練時間相當(dāng),但Transformer多任務(wù)模型的性能有較大提升。

        表5 不同模型的參數(shù)量、訓(xùn)練時間和驗證時間對比

        4 結(jié)束語

        本文先對MNER任務(wù)的定義、難點及方法進(jìn)行了簡要介紹,然后總結(jié)了MNER方法框架,分別介紹框架中各部分的常用技術(shù)及其優(yōu)缺點。接著對近年來MNER的方法進(jìn)行梳理和分類,將其總結(jié)為2類方法和4種模型結(jié)構(gòu)。為了評估基于BiLSTM的MNER方法,將其總結(jié)為前融合模型和后融合模型結(jié)構(gòu),在Twitter-2015、Twitter-2017數(shù)據(jù)集對2種模型結(jié)構(gòu)中7種方法進(jìn)行實驗,分析如下:前融合模型是最早的MNER模型結(jié)構(gòu),該類模型在命名實體識別模型中添加視覺模態(tài),并以簡單、直接的方式實現(xiàn)多模態(tài)融合,其性能優(yōu)于命名實體識別模型。后融合模型是前融合模型的改進(jìn),它初步解決了文本語義和圖像語義不匹配的問題。筆者在后融合模型ACN的基礎(chǔ)上進(jìn)行拓展,解決現(xiàn)有文本表示方法中存在語義缺失問題,使用多特征協(xié)同表達(dá),補全文本語義,性能進(jìn)一步提升。

        為了評估Transformer的MNER方法,將其總結(jié)為Transformer單任務(wù)模型、Transformer多任務(wù)模型,在Twitter-2015、Twitter-2017數(shù)據(jù)集對Transformer單任務(wù)模型、Transformer多任務(wù)模型中6種典型方法進(jìn)行實驗,分析如下:單任務(wù)模型使用BERT作為文本表示,利用Transformer實現(xiàn)多模態(tài)特征的深度融合,但存在視覺偏差問題,為此,通過利用文本表示或優(yōu)化多模態(tài)表示的方法,將單任務(wù)模型擴展為多任務(wù)模型,其中包含2種多任務(wù)結(jié)構(gòu),即聯(lián)合命名實體識別任務(wù)解決視覺偏差問題或聚合輔助任務(wù)增強多模態(tài)表示的通用性。

        5 展望

        本文對4類模型進(jìn)行分析后,從以下3個方面指出了MNER未來的發(fā)展方向。

        (1)多特征協(xié)同表達(dá)的重要性。模態(tài)內(nèi)多特征協(xié)同表達(dá)能解決特征語義的問題,從而獲得更加準(zhǔn)確和全面的模態(tài)信息描述。

        (2)多模態(tài)表征空間統(tǒng)一的重要性。當(dāng)多模態(tài)特征空間統(tǒng)一,能解決融合特征時實體語義不匹配的問題。其中可以采用調(diào)用Transformer層對多模態(tài)表示重新編碼,實現(xiàn)表征空間的統(tǒng)一和使用輔助任務(wù)優(yōu)化特征投影,在投影空間中實現(xiàn)語義對齊。

        (3)多任務(wù)學(xué)習(xí)的重要性。多任務(wù)模型與命名實體識別任務(wù)的結(jié)合是必要的,具體可以嘗試以下幾種研究思路:第一,使用多任務(wù)優(yōu)化模態(tài)特征以利于編碼、融合或?qū)R;第二,通過多任務(wù)協(xié)同學(xué)習(xí)通用的多模態(tài)表征,進(jìn)而提升MNER性能;第三,結(jié)合遷移學(xué)習(xí)解決中文數(shù)據(jù)標(biāo)注困難的問題,將多模態(tài)命名實體模型引入中文文本命名實體識別研究。

        猜你喜歡
        實體語義模態(tài)
        語言與語義
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        兩會進(jìn)行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        認(rèn)知范疇模糊與語義模糊
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        色老板美国在线观看| 一本色道久久综合中文字幕| 一区二区黄色素人黄色| 久久精品一区午夜视频| 痉挛高潮喷水av无码免费| 国产在视频线精品视频www666| 喷潮出白浆视频在线观看| 精品国产一区二区三区av麻| 午夜射精日本三级| 无遮挡亲胸捏胸免费视频| 久久精品日本美女视频| 日韩精品一区二区三区乱码| 国产成人精品a视频一区| 日本一区二区精品88| 视频一区二区三区中文字幕狠狠 | 国产一级片毛片| 免费av在线视频播放| 日韩精品人妻久久久一二三| 久久丫精品国产亚洲av不卡| 99热成人精品国产免国语的| 男生自撸视频在线观看| 97人伦影院a级毛片| 国产成人无码精品午夜福利a| 国产AV秘 无码一区二区三区| 久久一区二区三区少妇人妻| 影音先锋中文字幕无码资源站 | 国内女人喷潮完整视频| 综合网自拍| 在线观看人成网站深夜免费 | 国产成人精品午夜福利在线| 国产成年女人特黄特色毛片免| 婷婷色婷婷开心五月四| 玩弄少妇高潮ⅹxxxyw| 亚洲中文无码精品久久不卡| 成人激情视频在线手机观看 | 黑人巨大跨种族video| 亚洲AV成人无码久久精品在| 人妻人妇av一区二区三区四区| 黄桃av无码免费一区二区三区 | 亚洲日韩欧美一区、二区| 91尤物视频在线观看|