亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于交互圖神經(jīng)網(wǎng)絡(luò)的方面級(jí)多模態(tài)情感分析

        2023-02-21 04:50:40李麗李平
        計(jì)算機(jī)應(yīng)用研究 2023年12期

        李麗 李平

        摘 要:多模態(tài)情感表征的關(guān)鍵是有效地從多模態(tài)數(shù)據(jù)中提取和融合特征。盡管,交叉注意力機(jī)制的方法能夠增強(qiáng)多模態(tài)數(shù)據(jù)的特征融合;但是,交叉注意力僅建立單一模態(tài)的全局語義與另一模態(tài)局部特征的關(guān)聯(lián),不足以反映多模態(tài)在局部特征上的對(duì)齊關(guān)系。為了獲取多模態(tài)間的深度交互信息,提出一種模態(tài)交互圖神經(jīng)網(wǎng)絡(luò),借助于方面詞,將不同模態(tài)的語義單元進(jìn)行連接,形成多模態(tài)交互圖;然后,利用圖注意力網(wǎng)絡(luò)中的消息傳遞機(jī)制進(jìn)行特征融合。在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相比于當(dāng)前先進(jìn)的注意力模型,模態(tài)交互圖神經(jīng)網(wǎng)絡(luò)在實(shí)現(xiàn)局部信息間的特征交互方面更加有效,且具有更小的時(shí)間復(fù)雜度。

        關(guān)鍵詞:方面級(jí)多模態(tài)情感分析; 模態(tài)交互圖神經(jīng)網(wǎng)絡(luò); 圖注意力網(wǎng)絡(luò)

        中圖分類號(hào):TP391?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號(hào):1001-3695(2023)12-025-3683-07

        doi:10.19734/j.issn.1001-3695.2022.10.0532

        Aspectlevel multimodal sentiment analysis based on interaction graph neural network

        Abstract:The key to multimodal sentiment representation is to effectively extract and fuse features from multimodal data. Although the method of crossattention mechanism can enhance the feature fusion of multimodal data. However, crossattention only establishes the association between the global semantics of a single modality and the local features of another modality, which is not enough to reflect the alignment relationship of multimodalities on local features. In order to obtain indepth interaction information between multiple modalities, this paper proposed a modal interaction graph neural network, which connected semantic units of different modalities by means of aspect words to form a multimodal interaction graph. Then, it used the message passing mechanism in the graph attention network to carry out feature fusion. Experimental results on two benchmark datasets show that compared with the current advanced attention models, the modal interaction graph neural network is more effective in realizing the feature interaction between local information, and has a smaller time complexity.

        Key words:aspectlevel multimodal sentiment analysis; modal interaction graph neural network; graph attention network

        0 引言

        情感分析的目的是利用自然語言處理技術(shù)挖掘文本中的主觀信息(如觀點(diǎn)、態(tài)度、情感傾向等)。在過去的幾十年中,識(shí)別文本中的情感極性被廣泛研究,并應(yīng)用于金融市場預(yù)測(cè)[1]、商業(yè)評(píng)論分析[2]、政治活動(dòng)[3]、犯罪預(yù)測(cè)[4]等。根據(jù)不同的粒度,情感分析可分為文檔級(jí)、句子級(jí)和方面級(jí)。文檔級(jí)和句子級(jí)情感分析為預(yù)測(cè)一段文本的整體情感極性,不同之處在于文檔級(jí)情感分析需要對(duì)更長的文本進(jìn)行建模。相對(duì)于文檔/句子級(jí)情感分析,方面級(jí)情感分析側(cè)重于預(yù)測(cè)特定目標(biāo)方面的情感極性。例如,在“我對(duì)這部電影的題材很感興趣,但是演員我不是特別喜歡?!边@句話中提到了電影的“題材”和“演員”兩個(gè)方面,并且表達(dá)了相反的態(tài)度。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,面向方面的情感分析任務(wù)也取得了巨大的成功。例如:Chen等人[5]提出的記憶循環(huán)注意網(wǎng)絡(luò)(recurrent attention network on memory,RAM)、Sun等人[6]提出的依存樹上的卷積模型(convolution over dependency tree,CDT)、Wang等人[7]提出的關(guān)系圖注意力網(wǎng)絡(luò)(relational graph attention network,RGAT),這些模型都取得了不錯(cuò)的效果。然而,上述模型都只利用了文本模態(tài)的信息。由于社交媒體的快速發(fā)展,用戶在社交平臺(tái)上發(fā)表觀點(diǎn)的方式變得越來越多樣化。除了純文本的評(píng)論和留言之外,用戶還可以上傳各種各樣的圖片和視頻。俗話說:“有圖有真相”。用戶上傳的這些視覺材料包含了主觀態(tài)度的補(bǔ)充信息,用于豐富文本的表述。例如,在評(píng)論一款手機(jī)的“外觀”時(shí),購買者往往會(huì)在評(píng)論中添加正面情感的文字和手機(jī)的漂亮照片以表示對(duì)“外觀”的喜歡;或者使用消極的文字和丑陋的手機(jī)照片來表達(dá)對(duì)“外觀”的不滿意。因此,結(jié)合不同模態(tài)的數(shù)據(jù)有助于提升情緒預(yù)測(cè)的效果。圖1展示了實(shí)驗(yàn)數(shù)據(jù)集中的幾個(gè)代表性例子,每個(gè)數(shù)據(jù)樣本包括一段文本和一張圖片,其中加粗部分為方面短語,下標(biāo)為該方面的情感極性。例如:在“RT@NYRangers:OFFICIAL:martin St.Louis announces retirement from the National Hockey League.”中,方面為“martin”,情感極性為消極,對(duì)應(yīng)圖像中人物揮手告別的動(dòng)作及沮喪的表情均可以增強(qiáng)負(fù)面情緒的表達(dá)。

        在方面級(jí)多模態(tài)任務(wù)中,如何有效地進(jìn)行多模態(tài)特征融合是其關(guān)鍵所在。一般的多模態(tài)融合可以通過拼接、元素求和、哈達(dá)瑪積等方法實(shí)現(xiàn)。近年來,注意力機(jī)制在改善多模態(tài)融合方面表現(xiàn)出較好的效果。率先研究方面級(jí)多模態(tài)情感分析任務(wù)的工作是Xu等人[8]在2019年提出的一種多交互記憶網(wǎng)絡(luò)模型(multiinteractive memory network,MIMN),該模型通過兩個(gè)記憶網(wǎng)絡(luò)使文本和視覺特征更專注于給定方面相關(guān)的信息。隨后,Yu等人[9]提出實(shí)體敏感注意力和融合網(wǎng)絡(luò)(entitysensitive attention and fusion network,ESAFN)。它利用注意力機(jī)制生成實(shí)體敏感的文本表示和實(shí)體敏感的視覺表示,并通過門控機(jī)制去除視覺上下文中的噪聲。以上基于注意力機(jī)制的方法均利用單一模態(tài)的全局信息去提取與之相關(guān)的另一模態(tài)的局部信息。然而,由于各模態(tài)中可能包含較為復(fù)雜的信息,將模態(tài)的整體特征表示用于語義對(duì)齊會(huì)產(chǎn)生較大噪聲。例如圖1所示的第一個(gè)數(shù)據(jù)樣本,文本講述一個(gè)球員宣布從國家冰球聯(lián)盟退役,圖像中顯示其悲傷情緒的是揮手的動(dòng)作和沮喪的表情,背景觀眾和球員的其他身體部分沒有明顯的情感表達(dá)。因此,用圖像的整體表征去查詢文本的局部信息容易引入噪聲。此外,基于注意力機(jī)制的方法還有另一個(gè)弊端,這類方法通常需要精心設(shè)計(jì)注意力方式,如多層/多次的交互注意力,多層注意力將會(huì)引入較多參數(shù),從而增加模型的復(fù)雜性。

        為了解決交互注意力帶來的以上問題,本文提出了一種模態(tài)交互圖神經(jīng)網(wǎng)絡(luò)(interaction graph neural network,IGNN)。IGNN提出的依據(jù)是,任意單一模態(tài)的語義信息均可以在不同粒度上進(jìn)行分析,在細(xì)粒度上進(jìn)行模態(tài)交互能夠有效減少噪聲信息,例如文本中的無關(guān)上下文或圖像中的無關(guān)背景。IGNN將各模態(tài)的數(shù)據(jù)分解為細(xì)粒度的語義單元,利用方面詞與各個(gè)模態(tài)之間的關(guān)聯(lián)性,建立多模態(tài)細(xì)粒度語義單元之間的聯(lián)系,從而使多模態(tài)特征融合直接在細(xì)粒度語義單元之間進(jìn)行,即采用局部對(duì)齊局部的方式為各模態(tài)的表征信息建立映射關(guān)系,用于充分融合文本的語義信息和圖像的局部信息。 IGNN對(duì)多模態(tài)的初始數(shù)據(jù)進(jìn)行交互建模,在文本的詞粒度和圖像的局部視覺塊之間建立連接,同時(shí)利用文本模態(tài)中詞與詞之間的語法依賴關(guān)系和圖像中視覺塊之間的空間位置信息在模態(tài)內(nèi)形成聯(lián)系,從而構(gòu)造了一個(gè)多模態(tài)交互圖。在此基礎(chǔ)上,運(yùn)用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)各節(jié)點(diǎn)的表示。經(jīng)過多層卷積后,各模態(tài)的語義單元將聚合其他模態(tài)節(jié)點(diǎn)的特征,從而實(shí)現(xiàn)多模態(tài)特征的融合。IGNN與MIMN不同的是,IGNN將圖像劃分成不同的視覺塊,有利于模型獲得圖像中與情感和方面有關(guān)的局部信息,進(jìn)而減少無關(guān)背景對(duì)視覺中情感特征的負(fù)面影響。與ESAFN相比,IGNN對(duì)多模態(tài)的細(xì)粒度語義單元進(jìn)行構(gòu)圖和建模,反映了多模態(tài)在局部特征上的對(duì)齊關(guān)系。此外,IGNN通過依存樹進(jìn)行構(gòu)圖,有效地利用了文本中復(fù)雜的語法依賴信息。在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型能夠有效地完成面向方面的多模態(tài)情感分析任務(wù)。

        本文工作的主要貢獻(xiàn)歸納如下:a)本文提出一種多模態(tài)交互的圖模型,將文本詞和視覺塊形成一個(gè)多模態(tài)交互圖,利用了文本的語法信息及圖像的空間位置信息;b)利用圖注意力神經(jīng)網(wǎng)絡(luò)的消息傳遞機(jī)制實(shí)現(xiàn)模態(tài)間的特征融合;c)在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,與一些強(qiáng)基線模型相比,本文模型在方面級(jí)情感分析任務(wù)中具有一定的競爭性。

        1 相關(guān)工作

        方面級(jí)多模態(tài)情感分析任務(wù)源于方面級(jí)情感分析和多模態(tài)情感分析兩方面研究的結(jié)合。

        1.1 方面級(jí)情感分析

        方面級(jí)情感分析是情感分類領(lǐng)域的一個(gè)重要分支。目前,主要分為傳統(tǒng)方法和深度學(xué)習(xí)方法兩大類。傳統(tǒng)方法主要包含基于特征的機(jī)器學(xué)習(xí)方法和基于情感字典的方法,如支持向量機(jī)(support vector machine,SVM)[10]等。但這些傳統(tǒng)方法在很大程度上取決于特征工程,工作量較大。

        為了應(yīng)對(duì)傳統(tǒng)方法存在的問題,基于深度學(xué)習(xí)的模型在該研究領(lǐng)域被大量設(shè)計(jì)。其中,大部分模型利用長短期記憶網(wǎng)絡(luò)(long shortterm memory network,LSTM)[11]或注意力機(jī)制建模,還有部分模型基于依存樹通過圖卷積網(wǎng)絡(luò)建模。例如,Tang等人[12]建立了兩個(gè)方面相關(guān)的LSTM模型,分別對(duì)其左上下文和右上下文進(jìn)行建模。雖然通過LSTM可以對(duì)文本中存在的序列關(guān)系進(jìn)行建模,但是沒有對(duì)重要詞和不重要詞進(jìn)行區(qū)分。因此,后來的研究工作將注意力機(jī)制運(yùn)用到該研究領(lǐng)域,用于對(duì)不同的詞分配不一樣的權(quán)重。例如,Chen等人[5]使用多層注意力機(jī)制,捕捉遠(yuǎn)距離情感依賴。雖然可以綜合復(fù)雜文本的特征,但是注意力機(jī)制的層數(shù)在不同的情況下應(yīng)該不同,所以需要一個(gè)自適應(yīng)機(jī)制。Yang等人[13]采用交互式注意力機(jī)制,交替關(guān)注方面和文本中的重要信息。然而,注意力機(jī)制無法學(xué)習(xí)文本中豐富的語法關(guān)系。因此,后來的研究工作嘗試基于依存樹進(jìn)行建模,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本中復(fù)雜的語法依賴信息。例如,Sun等人[6]提出基于依存樹通過圖卷積網(wǎng)絡(luò)建立模型,從而利用文本的句法信息和語法依賴。Zhang等人[14]擴(kuò)展了圖卷積網(wǎng)絡(luò)的思想,通過給邊分配不同的權(quán)值,并且使用卷積層和記憶融合來學(xué)習(xí)和利用多詞關(guān)系。這些基于依存樹的模型在一定程度上利用了文本中的語法依賴關(guān)系,但是沒有考慮依賴關(guān)系的差異,不同的依賴關(guān)系應(yīng)該具有不同的重要性。

        1.2 多模態(tài)情感分析

        隨著社交媒體的快速發(fā)展,情感分析不再局限于傳統(tǒng)的基于純文本的研究,而是利用不同來源的模態(tài)信息補(bǔ)充文本信息的情感表達(dá)。雖然多模態(tài)數(shù)據(jù)包含更豐富的信息,但是如何有效地融合來自不同信息源的多模態(tài)數(shù)據(jù)是當(dāng)前多模態(tài)情感分析任務(wù)的一個(gè)關(guān)鍵問題。

        現(xiàn)有的一些基于深度學(xué)習(xí)的模型已經(jīng)取得了不錯(cuò)的進(jìn)展。例如,Poria等人[15]提出了一種基于LSTM的模型,使話語能夠在同一視頻中從其周圍環(huán)境中捕捉上下文信息。但是不同模態(tài)之間可能沒有順序關(guān)系,在一段視頻樣本中,各模態(tài)之間是并列和互補(bǔ)關(guān)系,采用LSTM進(jìn)行多模態(tài)融合并不合理。Ghosal等人[16]提出了一種基于門控循環(huán)單元的多模態(tài)注意力模型,通過注意力機(jī)制學(xué)習(xí)模態(tài)之間的相似信息,融合文本、視頻和語音模態(tài)信息進(jìn)行情感分析。Truong等人[17]利用視覺信息指導(dǎo)文本,決定文檔中不同句子對(duì)文檔情感分析的重要程度,該方法將圖片作為文檔中各句子重要性的對(duì)齊手段。Yadav等人[18]通過在多個(gè)層次上引入注意力機(jī)制,利用圖像和文本之間的相關(guān)性來提高多模態(tài)學(xué)習(xí),從視覺和文本中產(chǎn)生有區(qū)別的特征,進(jìn)而豐富多模態(tài)表示。Yu等人[19]基于自監(jiān)督學(xué)習(xí)策略的標(biāo)簽生成模塊,獲取獨(dú)立的單模態(tài)監(jiān)督。然后,聯(lián)合訓(xùn)練多模態(tài)和單模態(tài)任務(wù),分別學(xué)習(xí)一致性和差異性。該方法在一定程度上改善了現(xiàn)有方法在捕捉差異性信息方面的限制,但是,額外的單模態(tài)標(biāo)注耗費(fèi)的時(shí)間和人力成本較高。宋云峰等人[20]提出了一種基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析模型。該模型利用卷積神經(jīng)網(wǎng)絡(luò)和雙向門控循環(huán)單元來實(shí)現(xiàn)單模態(tài)內(nèi)部特征的提取,通過跨模態(tài)注意力機(jī)制實(shí)現(xiàn)模態(tài)間的兩兩特征融合;最后,在不同層次使用自注意力機(jī)制實(shí)現(xiàn)模態(tài)貢獻(xiàn)度選擇。包廣斌等人[21]通過分析相鄰話語之間的依賴關(guān)系和文本、語音和視頻模態(tài)之間的交互作用,建立了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析模型。采用雙向門控循環(huán)單元捕獲各模態(tài)中話語之間的相互依賴關(guān)系,利用一種雙模態(tài)交互注意力機(jī)制來融合兩種模態(tài)的信息,并將其作為條件向量來區(qū)分各模態(tài)信息對(duì)于情感分類的重要程度。

        以上模型中,注意力機(jī)制考慮的是全局與局部之間的對(duì)齊,由于各模態(tài)都會(huì)存在一定的無用信息,這將導(dǎo)致全局信息中存在與局部特征無關(guān)的噪聲。因此,本文提出了一種基于局部特征關(guān)聯(lián)的模態(tài)交互圖神經(jīng)網(wǎng)絡(luò),用于更加準(zhǔn)確地捕獲模態(tài)間的相關(guān)性和融合多模態(tài)信息,獲取多模態(tài)間的深度交互。

        2 方法

        方面級(jí)多模態(tài)情感分析任務(wù)可以定義為:給定一段文本T={w1,w2,…,wn},與文本相關(guān)的圖片I,以及文本中提及的特定方面短語A={a1,a2,…,am}。其中,n為文本的長度,m為方面短語的長度,方面級(jí)多模態(tài)情感分析任務(wù)的目的是預(yù)測(cè)三元組(T,I,A)的情感極性。為了獲取文本信息與圖像信息之間的相關(guān)性,本文設(shè)計(jì)了一種多模態(tài)的深度交互圖神經(jīng)網(wǎng)絡(luò)模型。該模型借助于方面短語,將不同模態(tài)的細(xì)粒度語義單元連接,形成多模態(tài)交互圖。從而利用圖神經(jīng)網(wǎng)絡(luò)的消息傳遞機(jī)制,實(shí)現(xiàn)多模態(tài)信息在局部特征上的有效融合。模型的具體框架如圖2所示,該模型主要包括三個(gè)部分:a)單模態(tài)特征編碼層,分別用相應(yīng)的預(yù)訓(xùn)練模型獲得文本、方面短語和圖像的初始表示,利用雙向長短期記憶網(wǎng)絡(luò)(bidirectional long shortterm memory network,BiLSTM)對(duì)文本和方面短語進(jìn)行編碼,并對(duì)圖像的初始表示通過線性變換進(jìn)行降維。b)交互圖神經(jīng)網(wǎng)絡(luò)層,構(gòu)造多模態(tài)交互圖,并通過圖神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行消息傳遞,融合來自不同數(shù)據(jù)源的信息。多模態(tài)交互圖的節(jié)點(diǎn)為各模態(tài)數(shù)據(jù)的細(xì)粒度語義單元,如文本詞、視覺塊和方面短語。其中,文本詞之間的連邊為語法依賴關(guān)系,視覺塊之間的連邊為空間位置關(guān)系,方面短語與多模態(tài)語義單元進(jìn)行全連接。c)分類層,從上一層的輸出中選擇方面節(jié)點(diǎn)的表示,通過多層感知機(jī)(multilayer perceptron,MLP)映射到分類空間。

        2.1 單模態(tài)特征編碼層

        在這一層中,將文本、圖像和方面短語作為輸入送到相應(yīng)的預(yù)訓(xùn)練模型中初始化模態(tài)嵌入。然后,通過BiLSTM捕獲文本和方面短語的上下文依賴信息,利用線性變換對(duì)圖像特征進(jìn)行降維。

        2.1.1 文本表示

        對(duì)于文本輸入,可以選擇常用的預(yù)訓(xùn)練模型GloVe[22]、BERT[23]等將單詞映射到一個(gè)連續(xù)的向量空間。為了避免訓(xùn)練參數(shù)過多,該算法中選擇在預(yù)訓(xùn)練的GloVe中查找單詞的向量表示,將每個(gè)單詞表示為一個(gè)低維向量,文本嵌入矩陣表示為Ec={ec1,ec2,…,ecn}∈Euclid Math TwoRApde×n。然后,為了將更多的上下文信息整合到詞嵌入中,采用BiLSTM進(jìn)行上下文語義依賴學(xué)習(xí)。每個(gè)方向的LSTM有三個(gè)門控機(jī)制(即輸入門、輸出門和遺忘門)和記憶細(xì)胞,計(jì)算步驟如式(1)~(6)所示。

        其中:ft為遺忘門、it為輸入門、ot為輸出門;Wf、Wi、Wo、Wc和bf、bi、bo、bc為可學(xué)習(xí)的參數(shù);de為詞嵌入空間的維度。

        2.1.2 方面表示

        方面表示的學(xué)習(xí)與文本表示學(xué)習(xí)相似,采用BiLSTM將方面短語的詞嵌入映射到一個(gè)高階抽象的表示空間。隨后,通過平均池化進(jìn)一步獲得方面表示。

        ha=Avg(ha1,ha2,…,ham)(8)

        2.1.3 圖像表示

        對(duì)于圖像模態(tài),通過預(yù)訓(xùn)練模型初始化其特征表示。本文使用常用的殘差神經(jīng)網(wǎng)絡(luò)(residual neural network,ResNet)[24]模型之一進(jìn)行圖像特征提取。給定一個(gè)輸入圖像I,首先將其調(diào)整為固定像素大小,然后通過ResNet提取不同視覺塊的特征表示,獲得特征矩陣Ei={v1,v2,…,vl2}∈Euclid Math TwoRApdv×l2。由于視覺特征維度與文本特征編碼的維度不同,為了方便特征融合的實(shí)現(xiàn),利用線性變換對(duì)圖像的初始表示進(jìn)行降維。

        Hi=WvEi+bv(9)

        其中:Wv和bv為可學(xué)習(xí)的參數(shù);dv為初始視覺特征的維度;l2為劃分的視覺塊個(gè)數(shù)。

        2.2 交互圖神經(jīng)網(wǎng)絡(luò)層

        交互圖神經(jīng)網(wǎng)絡(luò)層主要分為兩部分:a)構(gòu)造多模態(tài)交互圖;b)基于多模態(tài)圖,通過圖神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行特征融合。具體框架如圖3所示。首先,進(jìn)行多模態(tài)交互圖的構(gòu)造。對(duì)于文本模態(tài),由于單詞之間存在語法依賴關(guān)系,且建模語法依賴有助于文本信息的學(xué)習(xí),所以通過依存樹來描述文本模態(tài)中的節(jié)點(diǎn)及邊。其中,節(jié)點(diǎn)為文本中的每一個(gè)詞,連邊表示詞與詞間的語法依賴關(guān)系。對(duì)于圖像模態(tài),將一張圖片劃分成許多視覺塊,視覺塊的劃分借鑒了Yu等人[9]在ESAFN中采用的方法。視覺塊即為模態(tài)交互圖中的節(jié)點(diǎn),然后依據(jù)視覺塊之間的空間位置關(guān)系定義視覺塊之間的連邊,即相鄰視覺塊之間有連邊。由于文本和圖像是對(duì)提及的方面短語的描述,所以大部分多模態(tài)都與方面詞有關(guān),可以通過全連接并采用GAT賦予不同邊不同的權(quán)重來有效地融合相關(guān)信息和去除無關(guān)信息。因此,對(duì)于方面短語構(gòu)造一個(gè)超級(jí)節(jié)點(diǎn)來表示,將方面節(jié)點(diǎn)與其他所有節(jié)點(diǎn)進(jìn)行全連接,構(gòu)成了一個(gè)多模態(tài)圖G。

        然后,在多模態(tài)圖的基礎(chǔ)上,該模型允許使用各種圖神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)消息傳遞。但是,由于不同詞和不同視覺塊的重要性程度不同,該模型選擇圖注意力網(wǎng)絡(luò)(graph attention network,GAT)[25]來進(jìn)行多模態(tài)的特征融合。首先,將文本、圖像和方面短語的特征編碼表示進(jìn)行拼接,獲得特征融合模塊的輸入H1=[Hc,Hi,ha]∈Euclid Math TwoRAp2dh×(n+l2+1)。并且,在融合過程中,將上一層GAT的輸出與輸入拼接之后作為下一層GAT輸入,具體操作如式(10)所示。此外,注意力權(quán)重的計(jì)算方式如式(11)所示,圖中各節(jié)點(diǎn)的表示通過式(12)進(jìn)行更新。

        其中:Watt、Ws和a為可學(xué)習(xí)的參數(shù);Ni為第i個(gè)節(jié)點(diǎn)鄰居節(jié)點(diǎn)的集合;s表示第幾層GAT;da表示GAT的輸出維度。

        2.3 分類層

        上一層中,在多模態(tài)圖上通過GAT進(jìn)行了特征融合,來自文本和圖像的信息通過各節(jié)點(diǎn)之間的連邊聚合到了方面節(jié)點(diǎn)的表示當(dāng)中。因此,將最后一層GAT輸出中的方面節(jié)點(diǎn)表示am用于情感分析。在分類層中,am通過一個(gè)MLP映射到分類空間,并使用softmax函數(shù)進(jìn)行分類。

        其中:Wa、ba、W和b為可學(xué)習(xí)參數(shù);σ為激活函數(shù)softmax。

        在模型訓(xùn)練過程中,標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)加上一個(gè)正則項(xiàng)作為訓(xùn)練目標(biāo)。

        2.4 時(shí)間復(fù)雜度

        由于本文方法采用與基線模型相同的數(shù)據(jù)預(yù)處理方式,所以模型的復(fù)雜度主要來自圖學(xué)習(xí)模塊。考慮到GAT注意力層的操作可以在所有的邊上并行,輸出特征的計(jì)算可以在所有頂點(diǎn)上并行,所以基于GAT的多模態(tài)融合過程時(shí)間復(fù)雜度可以表示為O(|V|FF′+|E|F′)。其中,F(xiàn)是輸入的特征數(shù),F(xiàn)′是輸出的特征數(shù),|V|和|E|是圖中頂點(diǎn)數(shù)和連邊數(shù)。而當(dāng)前多模態(tài)方面級(jí)情感分析最優(yōu)的ESAFN模型主要包括三部分注意力模塊和三部分特征融合模塊,其時(shí)間復(fù)雜度為O(d2nl+d2nr+(d2+ddv)nl+d2+d2+d2)。其中,d是文本的特征數(shù),dv是圖像的特征數(shù),nl是左上下文長度,nr是右上下文長度,l是視覺塊個(gè)數(shù)。因此,本文方法相比ESAFN具有更低的時(shí)間復(fù)雜度。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

        1)數(shù)據(jù)集 本實(shí)驗(yàn)在兩個(gè)多模態(tài)基準(zhǔn)數(shù)據(jù)集(Twitter15、Twitter17)上進(jìn)行,它們由兩個(gè)公開可用的多模態(tài)命名實(shí)體識(shí)別(NER)數(shù)據(jù)集構(gòu)建,分別包含了2014—2015年和2016—2017年在Twitter上發(fā)布的多模式用戶帖子,每個(gè)帖子包含一段文本及其相關(guān)圖像。在實(shí)驗(yàn)中,每個(gè)數(shù)據(jù)集被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三個(gè)部分,Twitter15包含3 259個(gè)訓(xùn)練樣本、1 148個(gè)驗(yàn)證樣本、1 059個(gè)測(cè)試樣本,在Twitter17中的對(duì)應(yīng)數(shù)字為3 856、1 240、1 331。表1總結(jié)了兩個(gè)數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息。

        2)實(shí)驗(yàn)設(shè)置 本文所有實(shí)驗(yàn)均通過深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn)。實(shí)驗(yàn)中的文本輸入最大序列長度Twitter15數(shù)據(jù)集設(shè)置為36、Twitter17數(shù)據(jù)集設(shè)置為31,并通過GloVe獲得文本詞嵌入向量,維度為300;然后將嵌入向量輸入到編碼層中,編碼層中BiLSTM網(wǎng)絡(luò)隱藏層維度設(shè)置值均為50,dropout值設(shè)置為0.1;實(shí)驗(yàn)中的圖像數(shù)據(jù)先切割成固定大?。?24×224),然后將圖像劃分成7×7個(gè)視覺塊(即在兩個(gè)數(shù)據(jù)集上的視覺塊參數(shù)均設(shè)置為7),再通過預(yù)訓(xùn)練模型ResNet152對(duì)各視覺塊進(jìn)行編碼,維度為2 048;最后將視覺塊編碼通過線性變換進(jìn)行降維,線性變換的輸出維度為100。接下來,通過spaCy自然語言文本處理庫中的依存解析器在文本數(shù)據(jù)內(nèi)部進(jìn)行構(gòu)圖,通過視覺塊之間的位置相鄰關(guān)系在圖像數(shù)據(jù)內(nèi)部進(jìn)行構(gòu)圖,然后將方面短語超級(jí)節(jié)點(diǎn)與文本詞和視覺塊進(jìn)行全連接。接下來,基于多模態(tài)交互圖通過GAT進(jìn)行模態(tài)交互和信息融合,GAT的輸出維度為50,兩個(gè)數(shù)據(jù)集上的GAT層數(shù)均設(shè)置為3,dropout值設(shè)置為0.1。最后,通過MLP進(jìn)行分類,MLP中間層維度為50、輸出維度為3(即情感類別數(shù))。模型訓(xùn)練過程中采用 Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化,學(xué)習(xí)率值為0.001,批處理大小為10。為了緩解過擬合問題,訓(xùn)練過程中還添加了L2正則機(jī)制,其參數(shù)值為0.000 1。模型的具體參數(shù)設(shè)置如表2所示。

        3.2 基線方法

        對(duì)比實(shí)驗(yàn)部分,將IGNN與典型的基于文本的方面級(jí)情感分析模型和最近的方面級(jí)多模態(tài)情感分析模型進(jìn)行比較。

        a)LSTM[11]:通過標(biāo)準(zhǔn)LSTM對(duì)文本進(jìn)行建模,并利用隱藏狀態(tài)求均值進(jìn)行情感分析。值得注意的是,此方法不針對(duì)特定的方面。

        b)MemNet[26]:一個(gè)深度內(nèi)存網(wǎng)絡(luò),其中在詞嵌入和位置嵌入的基礎(chǔ)上應(yīng)用多層注意機(jī)制。

        c)AELSTM[27]:通過注意力機(jī)制擴(kuò)展LSTM以捕獲與方面短語相關(guān)的重要文本信息。

        d)IAN[28]:一種交互式注意力模型,可以對(duì)交互信息進(jìn)行建模以學(xué)習(xí)文本和方面的表示。然后,將兩者的表示向量拼接在一起以進(jìn)行最終的方面級(jí)情感分析。

        e)RAM[5]:在文本BiLSTM的輸出上構(gòu)建多層注意力框架,并使用BiLSTM進(jìn)行方面表示學(xué)習(xí)。該框架中每一層的注意力輸出使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行非線性組合。

        f)MIMN[8]:實(shí)現(xiàn)了雙模態(tài)方面級(jí)情感預(yù)測(cè),通過兩個(gè)交互式記憶網(wǎng)絡(luò)獲取與方面相關(guān)的文本信息和視覺信息,并在最后一層對(duì)輸出進(jìn)行連接。

        g)ESAFN[9]:一種面向多模態(tài)的方法,將方面短語的左右上下文分別建模,并使用注意力機(jī)制生成方面級(jí)別的文本表示和方面級(jí)別的視覺表示。此外,添加了門控機(jī)制以消除視覺模態(tài)的噪聲。最后,多模態(tài)特征通過低秩雙線性方法進(jìn)行融合。

        3.3 對(duì)比實(shí)驗(yàn)

        實(shí)驗(yàn)部分使用情感分析中常用的準(zhǔn)確率和F1值作為指標(biāo)對(duì)所提模型的有效性進(jìn)行評(píng)價(jià),并與3.2節(jié)中所介紹的幾種基線方法進(jìn)行對(duì)比。為了實(shí)驗(yàn)的公平性,所有實(shí)驗(yàn)結(jié)果都是報(bào)告5次訓(xùn)練的平均值,表3報(bào)告了基線模型和IGNN在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的性能。

        從實(shí)驗(yàn)結(jié)果來看,一個(gè)重要的結(jié)論是,LSTM只建模文本之間的序列特征,這表明文本的整體情感傾向沒有嵌入方面信息,性能會(huì)受到明顯的限制。相比之下,特征表示中包含方面信息時(shí),這些方法(如MemNet、AELSTM、IAN和RAM)的性能都優(yōu)于LSTM。另一個(gè)重要的結(jié)論是,與單一模態(tài)相比,多模態(tài)相較于單一模態(tài)引入了更豐富的信息,增強(qiáng)了情感極性的表征。其中,ESAFN和IGNN模型都優(yōu)于基于文本模態(tài)的方法(即LSTM、MemNet、AELSTM、IAN和RAM),基于多模態(tài)的MIMN方法優(yōu)于大部分單模態(tài)模型。值得注意的是,與ESAFN相比,本文模型不需要區(qū)分有關(guān)方面的左上下文和右上下文,并且沒有用單一模態(tài)的整體表示去查詢另一模態(tài)重要信息的方式,降低了噪聲影響,獲取了多模態(tài)之間的深度交互信息。本文的IGNN模型在Twitter15和Twitter17數(shù)據(jù)集上優(yōu)于所有基線模型,結(jié)果表明該方法是一種有效的模態(tài)交互圖神經(jīng)網(wǎng)絡(luò)。

        通過模型在訓(xùn)練過程中花費(fèi)的總時(shí)間和訓(xùn)練參數(shù)的總數(shù)量進(jìn)一步評(píng)估模型的效率。為了結(jié)果的可信度,展示了每種方法訓(xùn)練5次的時(shí)間均值。如表4所示,與ESAFN相比,擬議的IGNN將時(shí)間成本降低了超過66%,將參數(shù)數(shù)量減少30.9%。換言之,與ESAFN相比,IGNN模型以高效率和低計(jì)算資源實(shí)現(xiàn)了不錯(cuò)的性能改進(jìn)。

        3.4 消融實(shí)驗(yàn)

        針對(duì)IGNN模型,消融實(shí)驗(yàn)分析了各個(gè)組件對(duì)模型性能的貢獻(xiàn),并分析了這些組件產(chǎn)生效果的具體原因。本文在兩個(gè)基準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)集上評(píng)估各個(gè)模塊的貢獻(xiàn),并在表4中記錄其結(jié)果。其中,“W/O MGNN”表示去除整個(gè)構(gòu)圖和圖學(xué)習(xí)部分,直接將文本、方面和圖像的整體表示進(jìn)行拼接;“W/O DT+VG”表示去除依存樹和視覺塊構(gòu)圖,直接將文本和圖像的整體表示作為節(jié)點(diǎn)與方面節(jié)點(diǎn)連接;“W/O DT”表示去除依存樹部分,將文本整體表示作為一個(gè)圖節(jié)點(diǎn)與方面節(jié)點(diǎn)進(jìn)行連接;“W/O VG”表示去除視覺塊構(gòu)圖部分,將圖像的整體表示作為一個(gè)圖節(jié)點(diǎn)與方面節(jié)點(diǎn)進(jìn)行連接。從表5可以看出,一方面,當(dāng)去除整個(gè)構(gòu)圖部分的時(shí)候,模型的效果大大下降,說明局部的融合方式提高了模態(tài)融合的效果。另一方面,當(dāng)單獨(dú)去掉依存樹或者視覺塊構(gòu)圖的情況下,模型效果都高于“W/O DT+VG”且低于完整的IGNN模型,這說明通過依存樹建模文本中的語法信息,采用視覺塊的空間位置構(gòu)圖的方式避免背景視覺部分的噪聲影響,以及對(duì)多模態(tài)數(shù)據(jù)進(jìn)行局部與局部之間的融合方式都對(duì)模型效果有一定的貢獻(xiàn)。此外,去掉依存樹和視覺塊構(gòu)圖的“W/O DT+VG”效果要比去除整個(gè)構(gòu)圖部分的效果好,可能是后者通過GAT的方式從文本和圖像模態(tài)聚合有用信息更能排除兩者中的噪聲。

        綜上所述,IGNN模型中的各部分組件對(duì)模態(tài)的效果都有一定的貢獻(xiàn)。

        3.5 GAT層數(shù)的影響

        多模態(tài)特征融合層包含L層的GAT,這是一個(gè)可調(diào)節(jié)的參數(shù)。為了研究GAT層數(shù)對(duì)IGNN性能的影響,本節(jié)在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上執(zhí)行了這個(gè)實(shí)驗(yàn),L的值在集合[1,10]中選取整數(shù),對(duì)應(yīng)的精度值如圖4所示。

        實(shí)驗(yàn)結(jié)果顯示,在兩個(gè)數(shù)據(jù)集中均為3層GAT的精度值最高。GAT層數(shù)小于3時(shí),模型性能比較低;GAT層數(shù)大于3時(shí),模型的性能呈下降趨勢(shì)。這是由于,當(dāng)GAT層數(shù)過小時(shí),模型的學(xué)習(xí)能力不足,就會(huì)造成欠擬合的情況;當(dāng)GAT層數(shù)過大時(shí),參數(shù)過多,模型很容易陷入過擬合,在圖神經(jīng)網(wǎng)絡(luò)當(dāng)中,層數(shù)過多也會(huì)出現(xiàn)常見的過平滑現(xiàn)象,導(dǎo)致性能下降。

        3.6 視覺塊參數(shù)的影響

        在數(shù)據(jù)集中,一張圖片可以劃分成不同數(shù)目的視覺塊。因此,該實(shí)驗(yàn)衡量不同l值是否會(huì)影響IGNN的有效性,l的取值集合為{1,2,3,4,5,6,7,8,9,10}。

        從圖5可以看出,當(dāng)視覺塊參數(shù)設(shè)置為7(即將圖像劃分成7×7個(gè)視覺塊)時(shí),在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上的性能最好。還可以觀察到,視覺塊參數(shù)設(shè)置成不同值時(shí),對(duì)模型性能有不小的影響。這是由于,當(dāng)參數(shù)值設(shè)置過小,每個(gè)視覺塊過大,包含重要信息的視覺塊可能就會(huì)附帶更多的無用信息,在學(xué)習(xí)過程中很難將這些噪聲選擇性地去除;當(dāng)視覺塊參數(shù)過大,重要信息被劃分到很多個(gè)視覺塊中,因此就需要通過更多層的信息聚合操作才能將這些視覺塊的信息凝聚到一起,這樣不論是視覺塊的增多,還是卷積層數(shù)的增多,都會(huì)造成參數(shù)劇增,不僅擴(kuò)大了對(duì)計(jì)算資源的需求,還有可能加劇過擬合的程度。綜上所述,找到一個(gè)合適的視覺塊參數(shù)值,對(duì)提高模型性能十分重要。

        3.7 案例研究

        為了進(jìn)一步分析IGNN相較于其他強(qiáng)基線方法的優(yōu)勢(shì),本文選擇了三個(gè)測(cè)試樣本進(jìn)行比較。表6顯示了強(qiáng)基線方法和IGNN模型對(duì)三個(gè)樣本預(yù)測(cè)的比較。

        從表6可以看出,對(duì)于樣本A,相關(guān)圖像中的三個(gè)紅隊(duì)選手都面帶微笑,而文本中沒有明顯的情感詞。MIMN和ESAFN將該樣本分類為中性情感 ,而本文方法給出了正確分類。其原因在于,MIMN是通過對(duì)整個(gè)圖像進(jìn)行特征學(xué)習(xí),忽略了與情感關(guān)聯(lián)的圖像局部特征;而ESAN雖然劃分了視覺塊語義單元,但沒有對(duì)文本和視覺塊的細(xì)粒度語義單元進(jìn)行特征對(duì)齊。相比而言,IGNN將圖像劃分成許多的視覺塊,有助于提取圖像中人物微笑所表達(dá)出的正面情緒,基于多模態(tài)交互圖進(jìn)行信息融合,實(shí)現(xiàn)了文本和視覺在細(xì)粒度語義單元層面的直接交互,實(shí)現(xiàn)了多模態(tài)的深度融合。在樣本B中,文本僅提到了兩個(gè)人物,沒有任何與情感相關(guān)的上下文,只有圖像中人物的微笑表情表達(dá)了積極的情感傾向。MIMN將該樣本分類為中性情感,ESAFN的IGNN能夠?qū)υ摌颖痉诸愓_。其原因在于,MIMN沒有對(duì)圖像進(jìn)行視覺塊劃分,模型中也沒有圖像局部特征提取的模塊;相比之下,ESAFN和IGNN將圖像劃分成不同的部分,提升了模型獲取局部特征的能力。這兩個(gè)樣本案例證實(shí)了本文方法的兩個(gè)優(yōu)勢(shì):a)可以有效地識(shí)別局部的語義信息;b)能夠在細(xì)粒度層面實(shí)現(xiàn)語義的對(duì)齊,這些優(yōu)勢(shì)在圖像背景復(fù)雜或文本中不存在明顯情感詞的情況下非常有用。

        此外,文本的語法關(guān)系通常較為復(fù)雜,僅通過注意力機(jī)制去查詢文本,會(huì)忽略情感詞與情感主體之間的語法關(guān)系。樣本C案例中,“Bob Marley”只是說這句話的人,文本當(dāng)中帶有消極情感的詞“hurt”并不是對(duì)應(yīng)“Bob Marley”。MIMN將該樣本分類為消極情感,ESAN將其分類為積極情感,而本文方法將樣本正確分類為中性。其原因在于,MIMN和ESAFN都沒有利用文本中復(fù)雜的語法依賴關(guān)系,導(dǎo)致將“Bob Marley”與上下文進(jìn)行錯(cuò)誤對(duì)應(yīng);而IGNN利用語法樹對(duì)文本建模,能有效捕獲詞與詞之間的語法信息。

        4 結(jié)束語

        針對(duì)方面級(jí)多模態(tài)情感分析中的特征融合問題,本文提出了一種模態(tài)交互圖神經(jīng)網(wǎng)絡(luò)?,F(xiàn)有基于注意力機(jī)制的研究大多采用全局與局部的注意力對(duì)齊方式,這樣可能是一種比較多余的做法。因此,本文借助方面短語將來自不同模態(tài)的細(xì)粒度語義單元進(jìn)行連接,并利用圖神經(jīng)網(wǎng)絡(luò)中的消息傳遞機(jī)制進(jìn)行特征融合,實(shí)現(xiàn)了多模態(tài)之間的深度交互。在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了IGNN的有效性。值得注意的是,方面節(jié)點(diǎn)與其他節(jié)點(diǎn)之間采用全連接的方式,探索更加有效的連接方式是未來研究的一個(gè)重要課題。另外,多模態(tài)交互圖本質(zhì)上是一種異質(zhì)結(jié)構(gòu),本文將其處理為同質(zhì)圖,忽略了模態(tài)間的區(qū)別。在異質(zhì)模態(tài)交互圖上的情感表征學(xué)習(xí)也是未來工作的一個(gè)方向。

        參考文獻(xiàn):

        [1]Napitu F, Bijaksana M A, Trisetyarso A, et al. Twitter opinion mining predicts broadband Internets customer churn rate[C]//Proc of IEEE International Conference on Cybernetics and Computational Intelligence. Piscataway,NJ:IEEE Press,2017:141-146.

        [2]Zvarevashe K, Olugbara O O. A framework for sentiment analysis with opinion mining of hotel reviews[C]//Proc of Conference on Information Communications Technology and Society. Piscataway,NJ:IEEE Press, 2018: 1-4.

        [3]Haselmayer M, Jenny M. Sentiment analysis of political communication: combining a dictionary approach with crowdcoding[J].Quality & Quantity,2017,51(6):2623-2646.

        [4]Gerber M S. Predicting crime using Twitter and kernel density estimation[J].Decision Support Systems,2014,61:115-125.

        [5]Chen Peng, Sun Zhongqian, Bing Lidong, et al. Recurrent attention network on memory for aspect sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2017: 452-461.

        [6]Sun Kai, Zhang Richong, Mensah S, et al. Aspectlevel sentiment analysis via convolution over dependency tree[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International joint Conference on Natural Language Processing. 2019: 5679-5688.

        [7]Wang Kai, Shen Weizhou, Yang Yunyi, et al. Relational graph attention network for aspectbased sentiment analysis[EB/OL]. (2020). https://arxiv.org/abs/2004.12362.

        [8]Xu Nan, Mao Wenji, Chen Guandan. Multiinteractive memory network for aspect based multimodal sentiment analysis[C]//Proc of AAAI Conference on Artificial Intelligence. 2019: 371-378.

        [9]Yu Jianfei, Jiang Jing, Xia Rui. Entitysensitive attention and fusion network for entitylevel multimodal sentiment classification[J].IEEE/ACM Trans on Audio, Speech, and Language Processing,2019,28:429-439.

        [10]Kiritchenko S, Zhu Xiaodan, Cherry C, et al. NRCCanada-2014: detecting aspects and sentiment in customer reviews[C]//Proc of the 8th International Workshop on Semantic Evaluation. 2014: 437-442.

        [11]Hochreiter S, Schmidhuber J. Long shortterm memory[J].Neural Computation,1997,9(8):1735-1780.

        [12]Tang Duyu, Qin Bing, Feng Xiaocheng, et al. Effective LSTMs for targetdependent sentiment classification[EB/OL]. (2015). https://arxiv.org/abs/1512.01100.

        [13]Yang Chao, Zhang Hefeng, Jiang Bin, et al. Aspectbased sentiment analysis with alternating coattention networks[J].Information Processing & Management,2019,56(3):463-478.

        [14]Zhang Mi, Qian Tieyun. Convolution over hierarchical syntactic and lexical graphs for aspect level sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2020:3540-3549.

        [15]Poria S, Cambria E, Hazarika D, et al. Contextdependent sentiment analysis in usergenerated videos[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.2017:873-883.

        [16]Ghosal D, Akhtar M S, Chauhan D, et al. Contextual intermodal attention for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2018: 3454-3466.

        [17]Truong Q T, Lauw H W. VistaNet: visual aspect attention network for multimodal sentiment analysis[C]//Proc of AAAI Conference on Artificial Intelligence. 2019: 305-312.

        [18]Yadav A, Vishwakarma D K. A deep multi-level attentive network for multimodal sentiment analysis[J].ACM Trans on Multimidia Computing Communications and Applications,2020,19(1):article No.15.

        [19]Yu Wenmeng, Xu Hua, Yuan Ziqi, et al. Learning modalityspecific representations with selfsupervised multitask learning for multimodal sentiment analysis[C]//Proc of AAAI Conference on Artificial Intelligence. 2021: 10790-10797.

        [20]宋云峰,任鴿,楊勇,等.基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析[J].計(jì)算機(jī)應(yīng)用研究,2022,39(3):716-720.(Song Yunfeng, Ren Ge, Yang Yong, et al. Multitask multimodal emotion analysis based on multilevel mixed fusion of attention[J].Application Research of Computers,2022,39(3):716-720.)

        [21]包廣斌,李港樂,王國雄.面向多模態(tài)情感分析的雙模態(tài)交互注意力[J].計(jì)算機(jī)科學(xué)與探索,2022,16(4):909-916.(Bao Guangbin, Li Gangle, Wang Guoxiong. Bimodal interactive attention for multimodal emotion analysis[J].Journal of Frontiers of Computer Science & Technology,2022,16(4):909-916.)

        [22]Pennington J, Socher R, Manning C D. GloVe: global vectors for word representation[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2014: 1532-1543.

        [23]Devlin J, Chang Mingwei, Lee K, et al. BERT: pretraining of deep bidirectional transformers for language understanding[EB/OL]. (2018). https://arxiv.org/abs/1810.04805.

        [24]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2016: 770-778.

        [25]Velickovic P, Cucurull G, Casanova A, et al. Graph attention networks[EB/OL]. (2017-10-30). https://arxiv.org/abs/1710.10903.

        [26]Tang Duyu, Qin Bing, Liu Ting. Aspect level sentiment classification with deep memory network[EB/OL]. (2016). https://arxiv.org/abs/ 1605.08900.

        [27]Wang Yequan, Huang Minlie, Zhao Li, et al. Attentionbased LSTM for aspectlevel sentiment classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2016: 606-615.

        [28]Ma Dehong, Li Sujian, Zhang Xiaodong, et al. Interactive attention networks for aspectlevel sentiment classification[EB/OL]. (2017). https://arxiv.org/abs/1709.00893.

        国产福利不卡视频在线| 97无码人妻Va一区二区三区| 精品亚洲女同一区二区| 国产性感主播一区二区| av网站在线观看大全| 久久精品国产自在天天线| 国产高清乱理伦片| 亚洲地区一区二区三区| 久久午夜一区二区三区| 欧美xxxxx高潮喷水麻豆| 中文字幕v亚洲日本| 波多野结衣一区| 成人影院免费观看在线播放视频 | 青草蜜桃视频在线观看| 国产亚洲日本精品二区| 人人爽久久久噜人人看| 精产国品一二三产区m553麻豆| 欧美乱人伦中文字幕在线不卡| 亚洲av手机在线一区| 一区二区和激情视频| 人人玩人人添人人澡| 久久久精品免费国产四虎| 久久久黄色大片免费看| 亚洲av无码乱码在线观看富二代| 国产精品无套内射迪丽热巴| 久久91精品国产91久| 可以直接在线看国产在线片网址| 蜜桃视频一区二区三区| 亚洲乱码一区二区三区在线观看| 国产人妻精品一区二区三区| 日韩欧美国产自由二区| 亚洲国产精品嫩草影院久久av | 狠狠色噜噜狠狠狠97影音先锋| 精品国产乱码一区二区三区| 亚洲国产精品高清一区| 无码骚夜夜精品| 免费一级国产大片| 国产午夜精品视频在线观看| 鲁丝片一区二区三区免费| 国产亚洲日韩欧美一区二区三区| 夫妻一起自拍内射小视频|