亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模態(tài)語義協(xié)同交互的圖文聯(lián)合命名實體識別方法*

        2022-10-09 11:47:50鐘維幸王海榮
        廣西科學(xué) 2022年4期
        關(guān)鍵詞:圖文注意力實體

        鐘維幸,王海榮,王 棟,車 淼

        (北方民族大學(xué)計算機科學(xué)與工程學(xué)院,寧夏銀川 750021)

        關(guān)鍵字:多模態(tài)命名實體識別 圖文數(shù)據(jù) 多模態(tài)注意力 圖像描述 語義融合

        自媒體的廣泛應(yīng)用致使互聯(lián)網(wǎng)上的海量數(shù)據(jù)呈現(xiàn)圖像、文本、視頻等多模態(tài)交融態(tài)勢,這些數(shù)據(jù)具有語義互補性,因此,多模態(tài)數(shù)據(jù)的知識抽取和應(yīng)用成為研究熱點,作為基礎(chǔ)任務(wù)的多模態(tài)命名實體識別(Multimodal Named Entity Recognition,MNER)方法研究受到關(guān)注。

        MNER領(lǐng)域的初期工作旨在將圖像信息利用起來以提升命名識別的效果,通過將單詞與圖像區(qū)域?qū)R的方式,獲取與文本相關(guān)的有效視覺上下文。Esteves等[1]首次在MNER任務(wù)中使用了視覺信息,將圖文聯(lián)合命名實體識別帶入研究者的視野。隨后,Zhang等[2]提出了一種基于雙向長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)模型(BiLSTM)和共注意力機制的自適應(yīng)共注意網(wǎng)絡(luò),這是首個在MNER研究上有突出表現(xiàn)的工作。同年,Moon等[3]、Lu等[4]也相繼提出自己的MNER方法,前者提出一個通用的注意力模塊用于自適應(yīng)地降低或增強單詞嵌入、字符嵌入和視覺特征權(quán)重,后者則提出一個視覺注意模型,以尋找與文本內(nèi)容相關(guān)的圖像區(qū)域。在之前的工作中僅用單個單詞來捕捉視覺注意,該方式對視覺特征的利用存在不足,Arshad等[5]將自注意力機制擴展到捕獲兩個詞和圖像區(qū)域之間的關(guān)系,并引入門控融合模塊,從文本和視覺特征中動態(tài)選擇信息。但是在MNER中融合文本信息和圖像信息時,圖像并不總是有益的,如在Arshad等[5]和Lu等[4]的工作中均提及不相關(guān)圖像所帶來的噪聲問題,因此,如何在MNER中減小無關(guān)圖像的干擾成為研究重點。如Asgari-Chenaghlu等[6]擴展設(shè)計了一個多模態(tài)BERT來學(xué)習(xí)圖像和文本之間的關(guān)系。Sun等[7,8]提出一種用于預(yù)測圖文相關(guān)性的文本圖像關(guān)系傳播模型,其可以幫助消除模態(tài)噪聲的影響。為了緩解視覺偏差的問題,Yu等[9]在其模型中加入實體跨度檢測模塊來指導(dǎo)最終的預(yù)測。而Liu等[10]則結(jié)合貝葉斯神經(jīng)網(wǎng)絡(luò)設(shè)計一種不確定性感知的MNER框架,減少無關(guān)圖像對實體識別的影響。Tian等[11]提出分層自適應(yīng)網(wǎng)絡(luò)(Hierarchical Self-adaptation Network,HSN)來迭代地捕獲不同表示的子空間中更多的跨模態(tài)語義交互。

        上述方法學(xué)習(xí)了粗粒度的視覺對象與文本實體之間的關(guān)系。但粗粒度特征可能會忽略細粒度視覺對象與文本實體之間的映射關(guān)系,進而導(dǎo)致不同類型實體的錯誤檢測。為此,一些研究開始探索細粒度的視覺對象與文本實體之間的關(guān)系。Zheng等[12]提出一種對抗性門控雙線性注意神經(jīng)網(wǎng)絡(luò),將文本和圖像的不同表示映射為共享表示。Wu等[13]提出一種針對細粒度交互的密集協(xié)同注意機制,它將對象級圖像信息和字符級文本信息相結(jié)合來預(yù)測實體。Zhang等[14]提出一種多模態(tài)圖融合方法,充分利用了不同模態(tài)語義單元之間的細粒度語義。除了直接利用圖像的原始信息,一些額外信息的加入也有益于MNER任務(wù),如Chen等[15]在其模型中引入圖像屬性和圖像知識,Chen等[16]則將圖像的描述作為豐富MNER的上下文的一種方法。

        當前,MNER仍面臨兩大挑戰(zhàn):一是無關(guān)的圖像信息帶來的噪聲干擾,二是圖文語義交互中有效語義信息的丟失。為此,本文提出一種新的多模態(tài)語義協(xié)同交互的圖文聯(lián)合命名實體識別(Image-Text Joint Named Entity Recognition,ITJNER)模型,引入圖像描述以增強視覺數(shù)據(jù)的特征表示,建立多注意力機制耦合的多模態(tài)協(xié)同交互模塊,通過多個跨模態(tài)注意力機制實現(xiàn)模態(tài)間語義的充分交互并過濾錯誤圖像所帶來的噪聲信息,實現(xiàn)圖文聯(lián)合下命名實體的有效識別。

        1 方法模型

        ITJNER模型通過協(xié)同表示學(xué)習(xí)圖像、文本的深層特征,使用自注意力、跨模態(tài)注意力、門控機制通過協(xié)同交互的方式實現(xiàn)跨模態(tài)語義交互,并加入條件隨機場,利用標簽間的依賴關(guān)系得到最優(yōu)的預(yù)測標簽序列。具體模型如圖1所示。圖1展示了本方法的核心處理流程,其主要包含多模態(tài)特征表示、多模態(tài)協(xié)同交互與序列標注兩個核心模塊。

        圖1 圖文聯(lián)合命名實體識別模型的整體架構(gòu)

        2 多模態(tài)特征表示

        對圖像與文本進行多模態(tài)特征表示是圖文聯(lián)合命名實體識別工作的基礎(chǔ),大量研究表明,將文本表示和視覺表示作為多模態(tài)特征相結(jié)合,可以提高語義提取任務(wù)的性能[17,18]。為方便描述對圖文特征的抽取與表示工作,將圖文對數(shù)據(jù)集形式化地表示為

        (1)

        其中,I為圖像,S為文本,N為圖像-文本數(shù)。

        2.1 文本特征抽取與表示

        對文本特征的抽取是命名實體識別任務(wù)的基本,更加輕量化且不影響性能的模型有助于降低后續(xù)從算法模型到應(yīng)用落地的難度,因此本文采用ALBERT模型[19]對文本進行特征提取。ALBERT是一個輕量級的BERT模型,其參數(shù)比BERT-large更少且效果更好,為了降低參數(shù)量和增強語義理解能力,其引入詞嵌入矩陣分解和跨層參數(shù)共享策略,并使用句子順序預(yù)測(Sentence Order Prediction,SOP)任務(wù)替換原先的下一句預(yù)測(Next Sentence Prediction,NSP)任務(wù)。在模型中使用多層雙向Transformer編碼器對輸入序列進行編碼,其模型結(jié)構(gòu)見圖2。圖2展示了ALBERT模型的核心結(jié)構(gòu),包含輸入層、編碼層、輸出層,其中每一個Trm對應(yīng)一個Transformer編碼器。

        圖2 ALBERT模型結(jié)構(gòu)圖

        由于數(shù)據(jù)集文本可能存在無用的特殊字符,需要對數(shù)據(jù)進行預(yù)處理,對每個輸入句子S進行標記處理,對不存在的字符使用[UNK]替代,并分別在每個句子的開頭和結(jié)尾插入兩個特殊的標記即[CLS]和[SEP]。形式上,設(shè)S=[S0,S1,S2,…,Sn+1]為修改后的輸入句子,其中S0和Sn+1表示插入的兩個令牌。設(shè)E=[E0,E1,E2,…,En+1]為句子S的標記表示,其中Ei為字符向量、分段向量和位置向量的和。將E作為ALBERT編碼層的輸入。

        T=ALBERT(E),

        (2)

        T=[T0,T1,T2,…,Tn+1]為模型的輸出向量,其中Ti∈d為Ei生成的上下文感知表示,d是向量的維數(shù)。在獲得文本特征表示的同時,對圖像與圖像描述特征進行特征抽取。

        2.2 圖像及圖像描述特征的抽取與表示

        2.2.1 圖像特征抽取

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的最新研究進展顯示,更強的多尺度表示能力可以在廣泛的應(yīng)用中對圖像特征的提取帶來性能增益,因此本文采用預(yù)訓(xùn)練過的Res2Net[20]來提取圖像特征。Res2Net在粒度級別表示多尺度特征,并增加了每個網(wǎng)絡(luò)層的感受野,相比于傳統(tǒng)ResNet網(wǎng)絡(luò),其在不增加計算復(fù)雜度的情況下,提高了網(wǎng)絡(luò)的特征表示能力。更深層次的網(wǎng)絡(luò)已經(jīng)被證明對視覺任務(wù)具有更強的表示能力[21],在綜合考慮模型的性能與模型訓(xùn)練效率后,本文最終選擇采用101層的Res2Net (Res2Net-101)用于圖像特征的提取與表示。

        不同圖文對數(shù)據(jù)中的圖像大小可能不同,因此首先將它們的大小統(tǒng)一縮放為224×224像素,并經(jīng)隨機剪切、歸一化等圖像預(yù)處理方法進行數(shù)據(jù)增強;然后將調(diào)整后的圖像輸入Res2Net-101,如式(3)所示。

        U=Res2Net(I),I∈D。

        (3)

        本文在預(yù)訓(xùn)練的Res2Net-101中保留了最后一個卷積層輸出,以表示每幅圖像,遵循大部分研究對卷積核大小的設(shè)置,經(jīng)Res2Net進行特征抽取后,獲得7×7=49個視覺塊特征U=(u1,u2,…,u49),其中ui是第i個視覺塊,由2 048維向量表示。在將圖文特征輸入多模態(tài)協(xié)同交互模塊前需保持圖文特征向量的維度一致,因此對視覺塊特征U應(yīng)用線性變換得到V=(v1,v2,…,v49),如式(4)所示。

        (4)

        其中,Wu∈2048×d是一個權(quán)重矩陣。

        2.2.2 圖像描述特征抽取

        為了加強圖像與文本間的語義融合,本文加入圖像描述,并將其視為圖文間的過渡信息特征,描述可以幫助過濾掉從圖像特征中引入的噪聲,同時也可以更好地總結(jié)圖像的語義。本文使用包含視覺注意力的編解碼框架的描述生成模型來生成圖像描述,如圖3所示。

        圖3 圖像描述模型

        使用圖像特征提取到的視覺塊特征U作為長短時記憶(LSTM)網(wǎng)絡(luò)的輸入,LSTM網(wǎng)絡(luò)通過動態(tài)地選擇圖像特征,提取句子內(nèi)部單詞之間的句法特征、單詞位置編碼信息,學(xué)習(xí)圖像特征與句法特征、單詞特征之間的映射關(guān)系,同時加入注意力機制,賦予不同視覺區(qū)域以不同的權(quán)重,以此緩解視覺噪聲干擾。將加權(quán)圖像特征輸入LSTM,將圖像信息逐字轉(zhuǎn)換為自然語言,輸出目標為

        L=[L0,L1,L2,…,Ln+1],Li∈k

        (5)

        其中k是詞匯表的大小,n是描述句的長度,Li代表句子中的第i個單詞。再將描述L作為輸入,使用ALBERT編碼器,得到C=[C0,C1,C2,…,Cn+1],其中Ci∈d是Li生成的上下文表示,d是向量的維數(shù)。在得到多模態(tài)表示后將其作為協(xié)同交互模塊的輸入,實現(xiàn)多模態(tài)特征的語義交互。

        3 多模態(tài)協(xié)同交互與序列標注

        多模態(tài)協(xié)同交互模塊獲取圖像、文本、圖像描述特征,利用圖像引導(dǎo)進行文本模態(tài)融合、文本引導(dǎo)進行圖像模態(tài)融合,實現(xiàn)不同特征的語義交互,減少視覺偏差。圖4展示了多模態(tài)協(xié)同交互模塊的具體框架結(jié)構(gòu),其中包括了以文本向量為鍵值的跨模態(tài)注意力、以圖像向量為鍵值的跨模態(tài)注意力、以原始文本向量為鍵值的非標準自注意力、視覺門控機制。

        如圖4所示,在ALBERT模型得到的輸出后添加一個標準的自注意力層,以獲得每個單詞的文本隱藏層表示R=(r0,r1,…,rn+1),其中ri∈d為生成的文本隱藏層表示。對圖像描述特征C和視覺塊特征U線性變換所得的視覺塊特征V各添加一個標準自注意力層,分別得到圖像描述與圖像的隱藏層表示:

        O=(o0,o1,o2,…,on+1),

        (6)

        W=(w1,w2,…,w49),

        (7)

        其中oi∈d為生成的圖像描述隱藏層表示,wi∈d為生成的圖像隱藏層表示。

        3.1 圖像引導(dǎo)的文本模態(tài)融合

        如圖4左側(cè)所示,為了利用相關(guān)圖像學(xué)習(xí)更好的文本表示,本文采用多頭跨模態(tài)注意力機制,先利用圖像描述來引導(dǎo)文本融合,將O∈d×(n+1)作為查詢,將R∈d×(n+1)作為鍵和值,將m設(shè)為多頭數(shù):

        Ai(O,R)=

        (8)

        MHA(O,R)=WO[A1(O,R),…,Am(O,R)]T,

        (9)

        其中Ai指跨模態(tài)注意力的第i個頭,MHA表示多頭注意力,{Wqi,Wki,Wvi}∈d/m×d和W0∈d×d分別表示查詢、鍵、值和多頭注意力的權(quán)重矩陣。在跨模態(tài)注意層的輸出后堆疊前饋網(wǎng)絡(luò)和層歸一化等,另外3個子層得到描述感知文本表示P=(p0,p1,…,pn+1),如式(10)-(11)所示:

        (10)

        (11)

        其中FFN表示前饋網(wǎng)絡(luò),LN表示層歸一化。在利用圖像描述填補了文本與相關(guān)圖像間的語義空白后,再利用圖像與描述感知文本做跨模態(tài)注意力,將W∈d×49作為查詢,將P∈d×(n+1)作為鍵和值,與文本和描述的融合方法相似,疊加3個子層后輸出Z=(z1,z2,…,z49),由于以視覺表示作為查詢,所以生成的向量zi都對應(yīng)于第i個視覺塊,而非第i個輸入字符,因此另外加入一個跨模態(tài)注意力層,以文本表示R作為查詢,并將Z作為鍵和值,該跨模態(tài)注意力層生成最終的圖像感知文本表示H=(h0,h1,…,hn+1)。

        圖4 多模態(tài)協(xié)同交互模塊的框架結(jié)構(gòu)

        3.2 文本引導(dǎo)的圖像模態(tài)融合

        為了將每個單詞與其密切相關(guān)的視覺塊對齊,加入跨模態(tài)注意力層為視覺塊分配不同的注意力權(quán)重。將P作為查詢,W作為鍵和值。與圖像引導(dǎo)的文本模態(tài)融合對稱,文本引導(dǎo)的圖像模態(tài)融合會生成具有單詞感知能力的視覺表示,用Q=(q0,q1,…,qn+1)表示。

        相關(guān)圖像中,部分文本中的一些視覺塊可能與單詞沒有任何關(guān)聯(lián),同時,文本中的一些單詞如助詞、數(shù)詞等也與視覺塊少有關(guān)聯(lián)。因此,本文應(yīng)用一個視覺門控來動態(tài)控制每個視覺塊特征的貢獻,如式(12)所示:

        g=σ((Wh)TH+(Wq)TQ),

        (12)

        其中{Wh,Wq}∈d×d是權(quán)重矩陣,σ是元素級的S型激活函數(shù)?;趧討B(tài)視覺門控,得到最終的文本感知視覺表示為G=(g0,g1,…,gn+1)。

        在得到最終的圖像感知文本表示H和最終的文本感知視覺表示G后,本文將H和G拼接,得到圖像與文本最終融合的隱藏層表示A=(a0,a1,…,an+1),其中ai∈2d。

        3.3 標簽依賴的序列標注

        在命名實體識別任務(wù)中,輸出標簽對其鄰域有著強依賴性,如I-LOC不會出現(xiàn)在B-PER后。多模態(tài)協(xié)同交互只考慮了圖文對數(shù)據(jù)中上下文的信息,而沒有考慮標簽間的依賴關(guān)系,因此,本文添加了一個條件隨機場(Conditional Random Field,CRF)來標記全局最優(yōu)序列,并將隱藏層表示A轉(zhuǎn)化為最佳標記序列y=(y0,y1,…,yn+1),CRF可以有效提升此類任務(wù)的性能。本文對給定的輸入句子S及其關(guān)聯(lián)圖像I的標簽序列y計算如下:

        (13)

        (14)

        (15)

        (16)

        經(jīng)上述學(xué)習(xí)得到全局最優(yōu)標注序列。

        4 驗證實驗及結(jié)果分析

        4.1 數(shù)據(jù)集和方法驗證

        為驗證本文提出的方法,使用python語言,利用pytorch等技術(shù)在Ubuntu系統(tǒng)上搭建實驗環(huán)境,在Twitter-2015和Twitter-2017兩個公共數(shù)據(jù)集上進行實驗,數(shù)據(jù)集信息如表1所示。

        對于實驗中比較的每種單模態(tài)和多模態(tài)方法,考慮到文本數(shù)據(jù)的實際輸入范圍,將句子輸入的最大長度設(shè)置為128??紤]到訓(xùn)練速度的內(nèi)存大小,將批處理大小設(shè)置為8。對于本方法,對預(yù)訓(xùn)練語言模型的參數(shù)設(shè)置大多數(shù)遵循原始論文設(shè)置。使用ALBERT-Base模型進行文本抽取初始化,使用預(yù)訓(xùn)練的Res2Net-101來初始化視覺表示,并在訓(xùn)練中保持大小固定。對于多頭自注意力層和多頭跨模態(tài)注意力層,考慮訓(xùn)練效率與精度,在經(jīng)過調(diào)整訓(xùn)練后使用12個頭和768個隱藏單元。同時,經(jīng)過對超參數(shù)多次微調(diào),將學(xué)習(xí)率、dropout率和權(quán)衡參數(shù)λ分別設(shè)置為5e-5,0.1和0.5,可以在兩個數(shù)據(jù)集的開發(fā)集上獲得最好的性能。

        表1 數(shù)據(jù)集詳情

        本實驗使用召回率(Recall)、準確率(Precision)、F1值作為實驗評價指標,與HBiLSTM-CRF-GVATT[5]、BERT-CRF-GVATT[5]、AdaCAN-CNN-BiLSTM-CRF[3]等12種方法的對比結(jié)果如表2所示。

        表2 對比實驗結(jié)果

        續(xù)表

        4.2 對比實驗

        實驗結(jié)果表明,圖文聯(lián)合方法通常可以獲得更好的性能,本文方法在Twitter-2017數(shù)據(jù)集上的準確率、召回率、F1值較對比方法中的最優(yōu)方法UMGF分別提高了0.67%、2.26%和0.93%;在Twitter-2015數(shù)據(jù)集上,召回率提高了0.19%。

        對于單模態(tài)方法,預(yù)訓(xùn)練的方法明顯優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)。例如,BERT-CRF在Twitter-2017數(shù)據(jù)集上準確率、召回率、F1值的表現(xiàn)比HiBiLSTM-CRF分別高出0.29%、6.3%和3.34%,表明預(yù)訓(xùn)練模型在NER中具有明顯的優(yōu)勢。使用CRF解碼的BERT-CRF的性能優(yōu)于使用softmax的BERT-softmax,說明CRF層對NER的有效性。通過對比單模態(tài)與多模態(tài)方法,可以看到多模態(tài)方法的性能明顯優(yōu)于單模態(tài)方法。例如,加入視覺門控注意力后,在兩個數(shù)據(jù)集上HBiLSTM-CRF較之前的F1值分別提高了1.63%和1.5%。此外,相較于AGBAN、UMT-BERT-CRF等未使用圖像描述的模型,本文方法的性能表現(xiàn)更好,表明結(jié)合圖像描述有助于完成NER任務(wù)。

        針對本文方法在Twitter-2015數(shù)據(jù)集上表現(xiàn)不佳的情況,本文對數(shù)據(jù)集的內(nèi)容進行分析,統(tǒng)計兩個數(shù)據(jù)集的實體分布狀態(tài),通過對比圖文間實體分布的不同,反映出數(shù)據(jù)集的圖文關(guān)聯(lián)程度,并人工抽樣統(tǒng)計數(shù)據(jù)集的圖文關(guān)聯(lián)度,如圖5所示。

        從圖5可以看到數(shù)據(jù)集中文本實體分布與圖像實體分布之間的差異,圖像實體與文本實體并不是完全對應(yīng)的,圖像中的實體對象總量一般會多于其對應(yīng)的文本所含的命名實體數(shù)量,這一差別也體現(xiàn)了數(shù)據(jù)集中圖像文本對之間存在無關(guān)聯(lián)或弱關(guān)聯(lián)情況。對比數(shù)據(jù)集的圖文內(nèi)容后發(fā)現(xiàn),Twitter-2015中圖文無關(guān)聯(lián)或弱關(guān)聯(lián)現(xiàn)象比Twitter-2017中更多,而對本文所提出的方法,圖像描述與圖像本身有著更高的關(guān)聯(lián)性,因此,在圖文無關(guān)聯(lián)或弱關(guān)聯(lián)的圖文對數(shù)據(jù)中,圖像描述與文本的語義差距會更大,這也意味著在進行命名實體識別時,帶入了無關(guān)的噪聲數(shù)據(jù)。由此分析,本文提出的加強圖文間融合的方法可以為圖文存在相關(guān)性的MNER帶來益處,但對于圖文顯著無關(guān)的情況仍有待改進。

        圖5 數(shù)據(jù)集實體量對比圖

        4.3 消融實驗

        為了研究本文圖文聯(lián)合命名實體識別模型中模塊的有效性,對模型的核心部件進行消融實驗。如表3所示,圖像描述、視覺門控、圖像感知文本融合均對模型生效起重要影響,在去掉圖像描述后,模型在Twitter-2017數(shù)據(jù)集上的表現(xiàn)明顯變差,而在Twitter-2015數(shù)據(jù)集上的表現(xiàn)卻并沒有下滑甚至略有提升,這佐證了4.2節(jié)的觀點,即加入圖像描述所帶來的影響會因圖文數(shù)據(jù)關(guān)聯(lián)度不同而不同,圖文間關(guān)聯(lián)度更大,可以為NER任務(wù)提供幫助;若圖文間關(guān)聯(lián)度不足則可能會起到相反的作用。在多模態(tài)協(xié)同交互模塊中,去除圖像感知文本表示后性能明顯下降,顯示它對模型有不可或缺的作用。而去除視覺門控也會導(dǎo)致輕微的性能下降,這體現(xiàn)了它對整個模型有著一定的重要性。

        表3 消融實驗

        5 總結(jié)

        本文針對現(xiàn)有MNER研究中存在的噪聲影響和圖文語義融合不足的問題,提出了一種多模態(tài)語義協(xié)同交互的圖文聯(lián)合命名實體識別(ITJNER)模型。以圖像描述豐富多模態(tài)特征表示和圖像語義信息的表達,減少圖文交互中有效語義信息的丟失,提出一種將多頭跨模態(tài)注意力、多頭自注意力、門控機制相互耦合的多模態(tài)協(xié)同交互方法,可以在實現(xiàn)圖文語義間有效融合的同時,抑制多模態(tài)交互中的不完整或錯誤的語義信息。實驗結(jié)果表明,本模型有助于提取圖文間的共同語義信息且在圖文關(guān)聯(lián)度更高的數(shù)據(jù)中表現(xiàn)更優(yōu),但本模型對于圖文關(guān)聯(lián)度較低的數(shù)據(jù)的準確率仍有待提升。

        在未來的工作中,考慮增強模型對圖文不相關(guān)數(shù)據(jù)的處理能力,能夠排除過濾無關(guān)數(shù)據(jù)噪聲對模型的影響,以獲得一個更健壯的NER模型,同時考慮通過融合知識圖譜實現(xiàn)多模態(tài)數(shù)據(jù)的語義表達,并反向推動知識圖譜的構(gòu)建。

        猜你喜歡
        圖文注意力實體
        讓注意力“飛”回來
        畫與理
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        A Beautiful Way Of Looking At Things
        圖文配
        海外英語(2013年9期)2013-12-11 09:03:36
        圖文配
        海外英語(2013年10期)2013-12-10 03:46:22
        国产一区二区三区不卡在线观看 | 亚洲日韩精品欧美一区二区一| 亚洲精品宾馆在线精品酒店| 日本女优中文字幕四季视频网站| 在线免费黄网| 婷婷久久香蕉五月综合加勒比| 国产中文字幕免费视频一区| 成年女人片免费视频播放A| 亚洲级αv无码毛片久久精品 | 蜜桃18禁成人午夜免费网站| 九九日本黄色精品视频| 色欲麻豆国产福利精品| 久久97久久97精品免视看| 熟妇人妻精品一区二区视频| 中文字幕午夜AV福利片| 亚洲av成人无码网天堂| 久久久久久无码av成人影院| 变态另类手机版av天堂看网| 亚洲全国最大的人成网站| 国产a级精精彩大片免费看| 国产老熟女狂叫对白| 无码一区二区三区免费视频| av网站在线观看亚洲国产| 中文字幕被公侵犯的丰满人妻| 中国精品视频一区二区三区| 欧美国产日本高清不卡| 亚洲熟妇无码一区二区三区导航 | 久久精品国产亚洲AV高清wy| 69精品免费视频| 日日碰狠狠躁久久躁| 大屁股人妻女教师撅着屁股| 精品亚洲一区二区三区四| 国产91极品身材白皙| 亚洲精品一区二区三区蜜臀| 久久与欧美视频| 亚洲免费视频播放| 成av人片一区二区三区久久| 超碰cao已满18进入离开官网 | 免费观看在线视频播放| 日本五十路熟女在线视频| 最新国产成人在线网站|