王靖豪,劉 箴,劉婷婷,王媛怡,柴艷杰
(1. 寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211;2. 寧波大學(xué) 科學(xué)技術(shù)學(xué)院信息工程學(xué)院,浙江 慈溪 315300)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,越來(lái)越多的人在社會(huì)媒體中發(fā)表觀點(diǎn),及時(shí)發(fā)現(xiàn)這些觀點(diǎn)中的情感傾向?qū)τ诶斫庥脩粜袨橹陵P(guān)重要。社會(huì)媒體情感分析被廣泛應(yīng)用于如心理健康檢測(cè)[1]、商業(yè)分析[2]、輿情監(jiān)控與分析[3]等領(lǐng)域。但是,現(xiàn)有的情感分析方法大多只關(guān)注文本[4]或圖像[5]等單模態(tài)數(shù)據(jù),難以適用于海量的多類型社會(huì)媒體數(shù)據(jù)(如視頻、音頻、圖像、文本等)。因此,結(jié)合不同模態(tài)數(shù)據(jù)的語(yǔ)義信息對(duì)社會(huì)媒體數(shù)據(jù)進(jìn)行情感分析是亟待深入研究的。
分析多模態(tài)數(shù)據(jù)情感的前提是將來(lái)自不同模態(tài)的關(guān)聯(lián)語(yǔ)義信息融合。研究表明[6-7],多模態(tài)數(shù)據(jù)中的文本情感詞、語(yǔ)音語(yǔ)調(diào)、圖像局部區(qū)域之間存在著相互關(guān)聯(lián)、相互補(bǔ)充的語(yǔ)義信息。如何提取模態(tài)間的關(guān)聯(lián)語(yǔ)義信息,是進(jìn)行多模態(tài)情感分析的重點(diǎn)。針對(duì)于此,研究者進(jìn)行了一些相關(guān)工作的探索。Zadeh等[8]為了捕捉各模態(tài)間的關(guān)聯(lián)語(yǔ)義信息,在進(jìn)行文本、圖像、語(yǔ)音特征的提取時(shí),利用注意力機(jī)制獲得每個(gè)時(shí)刻的模態(tài)關(guān)聯(lián)語(yǔ)義信息。在此研究的基礎(chǔ)上,他們[9]進(jìn)一步考慮了視頻中的各模態(tài)上下文和模態(tài)間的相關(guān)性,同時(shí)捕捉模態(tài)間和時(shí)序間的關(guān)聯(lián)語(yǔ)義信息。Mittal等[10]使用基于注意力的方法和格蘭杰因果關(guān)系對(duì)時(shí)間因果關(guān)系進(jìn)行顯式建模,并綜合各種因素,獲得了豐富的情感表征。然而,采取融合各模態(tài)整體信息的方法會(huì)引入大量噪聲,造成信息冗余。現(xiàn)實(shí)中,人們常以圖文并茂的方式在社交媒體中表達(dá)情感。大多以文本結(jié)合圖像的方式進(jìn)行,并選取能夠相互映射的文本和圖像來(lái)凸顯自身的情感態(tài)度?;诖?,Huang等[11]利用注意力機(jī)制尋找文本和圖像之間的情感對(duì)應(yīng)關(guān)系,并將生成具有關(guān)聯(lián)的文本和圖像特征向量進(jìn)行融合,輸入到分類層中,從而預(yù)測(cè)情感。Xu等[12]從兩個(gè)方向提取文本和圖像之間的關(guān)聯(lián)信息,在一定程度上彌補(bǔ)了模態(tài)間的語(yǔ)義鴻溝。Han等[13]提出了雙向雙模態(tài)融合網(wǎng)絡(luò),對(duì)兩種模態(tài)特征表示執(zhí)行相關(guān)性增量操作和差異增量操作,進(jìn)而提取模態(tài)間的關(guān)聯(lián)信息。上述方法在特征融合過(guò)程中均沒有考慮到多模態(tài)間的層次關(guān)聯(lián)信息和互補(bǔ)信息。多模態(tài)數(shù)據(jù)在不同層次上表達(dá)出不同的情感信息,如文本中的詞、短語(yǔ)、句子、文檔和圖像中的局部信息、全局信息分別對(duì)應(yīng)不同的情感信息。因此,忽略了不同模態(tài)層次間的關(guān)聯(lián)信息,情感分析將無(wú)法得到可靠和有效的結(jié)果。
本文針對(duì)社會(huì)媒體多模態(tài)情感分析中沒有考慮模態(tài)間多層次關(guān)聯(lián)信息、特征融合信息冗余等問(wèn)題,提出了基于多層次特征融合的注意力網(wǎng)絡(luò)。由于社會(huì)媒體中的音頻和視頻數(shù)據(jù)集難以收集,本文提出的模型主要針對(duì)社會(huì)媒體中的圖文數(shù)據(jù)處理,模型由多模態(tài)層次特征注意力網(wǎng)絡(luò)和多模態(tài)特征融合策略組成。多模態(tài)層次特征注意力網(wǎng)絡(luò)是由多層次文本特征注意力網(wǎng)絡(luò)和多層次圖像特征注意力網(wǎng)絡(luò)構(gòu)成。其中,多層次文本特征注意力網(wǎng)絡(luò)利用文本中的詞、短語(yǔ)、文檔來(lái)引導(dǎo)圖像區(qū)域的情感權(quán)重,多層次圖像特征引導(dǎo)的注意力網(wǎng)絡(luò)利用圖像中的全局信息和局部信息來(lái)引導(dǎo)文本中詞的情感權(quán)重,從兩個(gè)方向捕捉不同模態(tài)間的關(guān)聯(lián)信息,生成具有情感語(yǔ)義信息的“圖文”特征和“文圖”特征。最后,利用多模態(tài)融合策略對(duì)得到的多層次關(guān)聯(lián)特征進(jìn)行線性拼接,將其作為最終情感感知的特征,從而得到預(yù)測(cè)的情感標(biāo)簽。本文的主要貢獻(xiàn)如下:
(1) 本文把圖文多模態(tài)信息層次關(guān)聯(lián)理解為“圖文”特征與“文圖”特征之間的信息互補(bǔ)問(wèn)題,并提出了多層次特征融合注意力網(wǎng)絡(luò)情感分析模型。該模型能有效地捕捉模態(tài)間的多層次情感關(guān)聯(lián)信息,并能減少信息冗余。
(2) Yelp和MultiZOL數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的模型效果均優(yōu)于目前主流的方法。并且證明了提取模態(tài)間相互補(bǔ)充的層次特征情感信息能夠有效感知社會(huì)媒體多模態(tài)數(shù)據(jù)中的情感。
本文的組織結(jié)構(gòu)安排如下: 第1節(jié)介紹了目前的相關(guān)研究進(jìn)展,并分析其優(yōu)劣;第2節(jié)詳細(xì)描述了本文所提出的模型;第3節(jié)為實(shí)驗(yàn)研究與分析,以證明本文提出的模型信息對(duì)情感分析的有效性;第4節(jié)為本文研究的結(jié)論和對(duì)本研究領(lǐng)域的展望。
1.1.1 文本情感分析
現(xiàn)有的文本情感分析方法主要分為基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法?;谇楦性~典的方法通過(guò)句法特征、語(yǔ)義特征、語(yǔ)法規(guī)則提取出文本包含的情感詞,并以此進(jìn)行情感分析。例如,Stone等[14]通過(guò)構(gòu)建情感詞典,由情感詞來(lái)計(jì)算文本的整體情感極性?;跈C(jī)器學(xué)習(xí)的方法通過(guò)統(tǒng)計(jì)學(xué)將人工標(biāo)注的訓(xùn)練語(yǔ)料作為訓(xùn)練集,提取情感特征,并進(jìn)行情感分類。例如,Wiebe等[15]構(gòu)建了大型語(yǔ)料庫(kù),利用機(jī)器學(xué)習(xí)分類器建立基于情感的預(yù)測(cè)模型。深度學(xué)習(xí)的方法能夠主動(dòng)抽取文本特征,節(jié)省人工時(shí)間。Kim等[16]首次使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)進(jìn)行文本情感分類。Socher等[17]使用遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來(lái)進(jìn)行情感分析,克服了卷積神經(jīng)網(wǎng)絡(luò)無(wú)法提取序列順序信息的缺點(diǎn)。隨后,Wang等[18]利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long-short term memory,LSTM)抽取文本上下文序列間的隱藏信息。在此基礎(chǔ)上,Basiri等[19]利用兩個(gè)獨(dú)立的雙向LSTM和GRU層來(lái)提取時(shí)間流上過(guò)去和未來(lái)的上下文信息,極大提高了文本情感分析的準(zhǔn)確性。
1.1.2 圖像情感分析
近年來(lái),圖像的情感識(shí)別和分析也在快速發(fā)展。You等[20]首先提出了對(duì)圖像情感分析的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),并在手動(dòng)標(biāo)記的twitter圖像數(shù)據(jù)集上進(jìn)行了驗(yàn)證。Sun等[21]提出了一種基于深度框架的情感區(qū)域檢測(cè)算法,使用預(yù)先訓(xùn)練好的CNN模型計(jì)算檢測(cè)到情感區(qū)域的情感得分,該方法能夠有效地檢測(cè)出情感區(qū)域。You等[22]研究了局部圖像區(qū)域?qū)σ曈X情感分析的影響,認(rèn)為局部圖像區(qū)域與人類對(duì)整體的情感反應(yīng)密切相關(guān),于是利用注意力機(jī)制發(fā)現(xiàn)共同相關(guān)的局部區(qū)域,并在局部區(qū)域上建立情感分類。He等[23]提出了一種新的多注意力金字塔模型(MAP)用于視覺情感分析,該模型從全局圖像的多個(gè)局部區(qū)域中提取局部視覺特征,然后加入自注意力機(jī)制挖掘局部視覺特征之間的關(guān)聯(lián),最終實(shí)現(xiàn)情感表征。其后,Ou等[24]提出了一種結(jié)合局部表示和全局表示的多層次視覺情感分析方法,提取不同程度語(yǔ)義信息和多層次的情感表征,改善了不同區(qū)域信息提取不充分的缺點(diǎn)。
從特征融合的角度來(lái)看,多模態(tài)情感分析研究主要分為特征級(jí)融合、決策級(jí)融合和混合融合。
特征級(jí)融合以拼接、相加等方式融合不同模態(tài)特征的向量表示,形成一維的向量。例如,Rosas等[25]對(duì)視頻進(jìn)行特征提取,將語(yǔ)音特征、文本特征和圖像特征進(jìn)行拼接后生成融合特征,并將其送入SVM中進(jìn)行情感分類。Poria等[26]利用LSTM提取了時(shí)序上的視覺特征,并與文本和音頻特征進(jìn)行融合。Wu等[27]觀察到任意兩種模態(tài)之間的交互作用是不同的,并且它們對(duì)最終情感預(yù)測(cè)的貢獻(xiàn)并不相等,于是提出了基于多頭自注意力機(jī)制的融合網(wǎng)絡(luò),通過(guò)合理地分配聲學(xué)-視覺、聲學(xué)-文本等特征權(quán)重,獲得重要的情感特征。然而,特征級(jí)融合方法無(wú)法獲得模態(tài)間的層次關(guān)聯(lián)信息,且會(huì)引入大量噪聲,造成特征冗余。
決策級(jí)融合對(duì)每個(gè)模態(tài)的特征進(jìn)行獨(dú)立建模與分析,將分析的情感類型概率結(jié)果融合為最終預(yù)測(cè)的情感結(jié)果。例如,Yu等[28]提出了一種利用CNN對(duì)微博中圖像和文本的情感分析方法,該方法通過(guò)CNN和DNN分別對(duì)圖像數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行情感分析,最后用權(quán)重和平均策略進(jìn)行結(jié)果的融合。在此基礎(chǔ)上,Setiawan等[29]添加了一種從文本和圖像派生的概念模態(tài),利用集成學(xué)習(xí)將每個(gè)分類器對(duì)圖像、文本和概念的預(yù)測(cè)概率結(jié)合起來(lái),實(shí)現(xiàn)了一個(gè)元分類器,通過(guò)圖像-文本概念特征的融合來(lái)預(yù)測(cè)最終的情感。除此以外,Poria等[30]利用深度CNN對(duì)視頻中的三種模態(tài)進(jìn)行情感分析,并對(duì)每種模態(tài)的分析結(jié)果進(jìn)行最后的決策級(jí)融合。雖然決策級(jí)融合方法可以針對(duì)不同模態(tài)數(shù)據(jù)選擇最優(yōu)的分類器模型,但是分類器的增加使得整體模型非常耗時(shí)和繁瑣,且沒有考慮到模態(tài)間的交互信息。
混合融合通過(guò)對(duì)不同模態(tài)特征編碼,獲取相應(yīng)的特征表示,最后進(jìn)行融合并分類。例如,You等[31]提出了一種基于注意力機(jī)制與LSTM相結(jié)合的模型,用來(lái)學(xué)習(xí)圖像-文本聯(lián)合語(yǔ)義表示。Zadeh等[32]提出了張量融合網(wǎng)絡(luò)(TFN)模型,將各模態(tài)數(shù)據(jù)提取出的不同模態(tài)特征進(jìn)行外積運(yùn)算,得到融合特征并輸入到全連接層進(jìn)行情感分類。Truong等[33]提出使用注意力機(jī)制來(lái)指出文本中重要的部分,從詞、句子特征分析情感傾向。Wen等[34]提出了跨模態(tài)上下文門控卷積網(wǎng)絡(luò),引入了跨模態(tài)上下文門的概念,使其能有效地捕獲模態(tài)間的交互信息,同時(shí)減少不相關(guān)信息的影響。盡管基于混合融合的方法取得了較好的效果,但對(duì)于模態(tài)間的層次關(guān)聯(lián)信息并沒有進(jìn)行充分的考慮。
本文在構(gòu)造網(wǎng)絡(luò)模型時(shí),受到Glove、注意力機(jī)制、VGG和Faster-RCNN的啟發(fā)。其中,Glove是基于全局詞頻統(tǒng)計(jì)的詞特征提取工具,由Pennington等人[35]提出。Glove把每個(gè)單詞表達(dá)成一個(gè)由實(shí)數(shù)組成的向量,在這些向量中,包含了詞之間的某些語(yǔ)義特性,如類比性、相似性等。因此,在本文中,我們使用Glove來(lái)處理文本,獲得基礎(chǔ)的語(yǔ)義信息。注意力機(jī)制借鑒了人類視覺對(duì)事物選擇性注意的特點(diǎn),以獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域。Mnih等人[36]首次在深度網(wǎng)絡(luò)RNN中加入注意力機(jī)制來(lái)進(jìn)行圖像的分類,證明了加入注意力機(jī)制的網(wǎng)絡(luò)能夠更好地學(xué)習(xí)到關(guān)鍵特征。VGG模型是Simonyan等人[37]在ILSVRC2014上提出的,通過(guò)增加網(wǎng)絡(luò)結(jié)構(gòu)的深度能夠提升網(wǎng)絡(luò)的最終性能,能夠更好地提取圖像的全局特征。Ren等人[38]對(duì)幾種常見的視覺檢測(cè)模型進(jìn)行了改進(jìn),提出Faster-RCNN模型。該模型能夠檢測(cè)圖像上的重要區(qū)域,對(duì)圖像局部特征的提取做出了很大的貢獻(xiàn)。
基于上述模型,本文提出了一種多層次特征融合注意力網(wǎng)絡(luò)進(jìn)行情感分析。模型框架可分為四個(gè)主要模塊: 文本-圖像多層次注意力網(wǎng)絡(luò)模塊、圖像-文本多層次注意力網(wǎng)絡(luò)模塊、特征融合模塊、分類輸出模塊。模型結(jié)構(gòu)如圖1所示。
圖1 模型框架結(jié)構(gòu)圖
在本模塊中,使用構(gòu)造的文本圖像多層次注意力網(wǎng)絡(luò)獲取多層次文本與圖像特征之間的關(guān)聯(lián)信息,用于反映文本和圖像特征的相關(guān)性強(qiáng)弱。對(duì)于每個(gè)單詞wi,k,k、i代表了第k句話的第i個(gè)詞,使用預(yù)訓(xùn)練好的Glove詞嵌入模型,獲取模型的嵌入矩陣Wg,得到詞向量ci,k∈Rdc,然后在每一個(gè)時(shí)間步上使用最大池化來(lái)獲得詞級(jí)嵌入Ci,如式(1)、式(2)所示。
考慮到詞匯的語(yǔ)義并不能完全表達(dá)出文本情感信息,且句子的長(zhǎng)度并不統(tǒng)一,因此本文選擇提取文本的短語(yǔ)級(jí)特征,短語(yǔ)定義為由若干個(gè)相連的詞匯組成。在實(shí)驗(yàn)中,我們使用窗口為4的一維卷積網(wǎng)絡(luò)進(jìn)行詞嵌入得到短語(yǔ)級(jí)的向量。對(duì)于可能出現(xiàn)的不足4個(gè)單詞的短語(yǔ),我們?cè)偈褂?填充詞向量。最后在每個(gè)時(shí)間步長(zhǎng)上使用最大池化操作來(lái)獲得短語(yǔ)級(jí)嵌入pi,如式(3)、式(4)所示。
其中,pi,j∈Rdp是第j個(gè)詞的卷積輸出,*是卷積操作過(guò)程,We是卷積層對(duì)應(yīng)的權(quán)重參數(shù)矩陣。接著使用LSTM對(duì)整個(gè)文本中的所有詞嵌入編碼,得到文檔層級(jí)嵌入Di,如式(5)所示。
對(duì)于圖像數(shù)據(jù),本文采用經(jīng)ImageNet數(shù)據(jù)集預(yù)訓(xùn)練后的VGG-19模型處理,并取最后一層卷積層中14×14個(gè)區(qū)域特征為全局特征,如式(6)所示。
為了學(xué)到注意力權(quán)重,分別把文本各層次特征表示和圖像全局特征表示映射到同一值范圍。
在本文的研究中,對(duì)于一個(gè)文本,與之對(duì)應(yīng)的圖片數(shù)量是M,累加每個(gè)圖片對(duì)文本多層次聯(lián)合特征的權(quán)值,得到關(guān)于每組圖片對(duì)于對(duì)應(yīng)文本的注意力特征Ui,如式(15)所示。
以往研究中沒有考慮到關(guān)于圖像的多層次特征,僅是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)獲取圖像的全局特征。而圖像的多層次特征能夠提供更多隱藏的信息,能改善信息提取不足的問(wèn)題。在本模塊中,我們提出圖像文本多層次注意力網(wǎng)絡(luò)來(lái)獲取多層次圖像和文本之間的相關(guān)性,用于計(jì)算圖像特征和文本特征相關(guān)程度。
(16)
(17)
(18)
采用內(nèi)積法獲得圖像文本多層次聯(lián)合注意力特征向量Qi,m,為了約束聯(lián)合特征的大小,使用L2歸一化聯(lián)合注意特征。
在本文的研究中,對(duì)于一個(gè)文本,與之對(duì)應(yīng)的圖片數(shù)量是M,累加文本對(duì)每個(gè)圖片多層次注意聯(lián)合特征得到關(guān)于文本對(duì)應(yīng)每組圖片的注意力特征Qi,如式(20)所示。
通過(guò)上述的文本圖像多層次注意力網(wǎng)絡(luò)和圖像文本多層次注意力網(wǎng)絡(luò)的處理,分別獲得了圖像對(duì)多層次文本聯(lián)合注意力特征Ui和文本對(duì)多層次圖像聯(lián)合注意力特征Qi,對(duì)兩種特征進(jìn)行線性拼接得到Hi,如式(21)~式(23)所示。
其中,concat代表線性拼接操作,Wo是softmax函數(shù)中的參數(shù)矩陣,bo為偏置項(xiàng),ρ為得到分類后的概率,y表示真實(shí)標(biāo)簽值,在模型訓(xùn)練時(shí),采用最小化交叉熵?fù)p失函數(shù)來(lái)優(yōu)化模型。
Yelp開放數(shù)據(jù)集: Yelp開放數(shù)據(jù)集中包括對(duì)美國(guó)8個(gè)大都市的16萬(wàn)家餐廳、酒店等娛樂場(chǎng)所的863萬(wàn)個(gè)文本評(píng)價(jià)和20多萬(wàn)張相關(guān)圖片。本文選取了Yelp數(shù)據(jù)集中關(guān)于五個(gè)大城市中餐廳的部分文本評(píng)論和圖片,數(shù)據(jù)的標(biāo)簽以用戶評(píng)價(jià)內(nèi)容中的情感評(píng)分1到5來(lái)表示。數(shù)據(jù)集統(tǒng)計(jì)情況如表1所示,從表中可以看出,數(shù)據(jù)集中總體評(píng)論的文本數(shù)量有4萬(wàn)多條,對(duì)應(yīng)的圖片有24萬(wàn)多張,每一個(gè)文本評(píng)論對(duì)應(yīng)的圖片至少有三張。
表1 Yelp數(shù)據(jù)集統(tǒng)計(jì)表
MultiZOL數(shù)據(jù)集: MultiZOL數(shù)據(jù)集是Xu等[12]在ZOL.com網(wǎng)址上抓取的熱門手機(jī)評(píng)論,數(shù)據(jù)集中有12 587條評(píng)論,其中7 359條單模態(tài)評(píng)論,5288條多模態(tài)評(píng)論。在此數(shù)據(jù)集中,每個(gè)多模態(tài)評(píng)論包含一個(gè)文本內(nèi)容、一個(gè)圖像集和一個(gè)用戶情感評(píng)價(jià)分?jǐn)?shù)。根據(jù)用戶評(píng)價(jià)分?jǐn)?shù)將多模態(tài)評(píng)論數(shù)據(jù)分為消極、積極、中性三種情感等級(jí),數(shù)量分別為1 053、3 127和1 108個(gè)。
本文的目的是針對(duì)這些數(shù)據(jù)集中的文本和圖片評(píng)論進(jìn)行情感等級(jí)分類。其中,Yelp數(shù)據(jù)集收集了大量用戶對(duì)各種娛樂場(chǎng)所的評(píng)論(包括文本和圖片),用戶在評(píng)論時(shí)進(jìn)行情感態(tài)度評(píng)分(用戶有1到5五個(gè)評(píng)分選擇),這5個(gè)情感強(qiáng)度等級(jí)是根據(jù)數(shù)據(jù)集中用戶的情感態(tài)度評(píng)分進(jìn)行劃分的,對(duì)應(yīng)于情感標(biāo)簽的5個(gè)類別。MultiZOL數(shù)據(jù)集收集了大量用戶對(duì)手機(jī)的評(píng)論(包括文本和圖片),同樣的,用戶在評(píng)論后進(jìn)行情感態(tài)度評(píng)分,根據(jù)用戶評(píng)分分成消極、積極和中性三種情感等級(jí),對(duì)應(yīng)于情感標(biāo)簽的3個(gè)類別。對(duì)于整個(gè)數(shù)據(jù)集,數(shù)據(jù)劃分為將80%的數(shù)據(jù)作為訓(xùn)練集,5%的數(shù)據(jù)作為驗(yàn)證集,15%的數(shù)據(jù)作為測(cè)試集。
為了獲取模型的最優(yōu)參數(shù)集合,在進(jìn)行模型的優(yōu)化時(shí),需要調(diào)節(jié)的超參數(shù)以及獲得最優(yōu)模型時(shí)的超參數(shù)如表2所示。
表2 超參數(shù)設(shè)置
續(xù)表
在本文實(shí)驗(yàn)中,采用宏平均精確率(Marco-precision,P)、宏平均召回率(Marco-recall,R)、宏平均調(diào)和平均數(shù)(MarcoF1-score,F(xiàn)1)來(lái)評(píng)估情感分析模型的效果,計(jì)算如式(24)~式(26)所示。
其中,n為分類的類別數(shù),prei表示第i類的精確率,reci表示第i類的召回率,F(xiàn)1i表示第i類的調(diào)和平均數(shù)。
隨著互聯(lián)網(wǎng)和社會(huì)媒體的廣泛普及,針對(duì)多模態(tài)數(shù)據(jù)的情感分析也隨之發(fā)展,多模態(tài)情感分析領(lǐng)域因此產(chǎn)生了很多優(yōu)秀的模型,在本文的實(shí)驗(yàn)中,選取了近幾年來(lái)表現(xiàn)相對(duì)優(yōu)異的模型進(jìn)行對(duì)比分析。
?BIGRU-VGG: Tang等人[39]使用BiGRU來(lái)學(xué)習(xí)文本的特征表示,BiGRU對(duì)順序數(shù)據(jù)很有效果,用來(lái)提升文本特征表示,BiGRU-VGG同時(shí)使用VGG網(wǎng)絡(luò)模型來(lái)對(duì)圖像數(shù)據(jù)進(jìn)行特征提取,把得到的文本特征表示和圖像特征表示拼接起來(lái),最后輸送到分類層進(jìn)行情感分類。其中,BiGRU-AVGG是在特征融合之前經(jīng)過(guò)平均池化處理圖像特征,BiGRU-MVGG是在特征融合之前經(jīng)過(guò)最大池化處理圖像特征。
?HAN-VGG: Yang等人[40]利用多層次文本注意力來(lái)學(xué)習(xí)文本的特征表示,同時(shí)使用VGG網(wǎng)絡(luò)模型來(lái)對(duì)圖像特征進(jìn)行提取,把得到的多層次文本特征表示和圖像特征表示拼接起來(lái),最后把融合后的特征向量輸入到分類層。其中,HAN-AVGG是在特征融合之前經(jīng)過(guò)平均池化處理的圖像特征,HAN-MVGG是在特征融合之前經(jīng)過(guò)最大池化處理的圖像特征。
?TFN: Zadeh等人[32]提出張量融合網(wǎng)絡(luò)進(jìn)行情感分析,使用張量融合層來(lái)融合文本特征與圖像特征,通過(guò)情感推理子網(wǎng)進(jìn)行反饋,最后得到情感分類的結(jié)果。其中,TFN-AVGG是在特征融合之前經(jīng)過(guò)平均池化處理圖像特征,TFN-MVGG是在特征融合之前經(jīng)過(guò)最大池化處理圖像特征。
?VistaNet: Truong等人[33]提出視覺注意力網(wǎng)絡(luò),通過(guò)詞嵌入與軟注意力網(wǎng)絡(luò)來(lái)表示文本特征,同時(shí),在圖像特征提取時(shí)采用VGG模型,利用注意力機(jī)制來(lái)引導(dǎo)圖像增強(qiáng)文本情感的特征表示,并融合圖片對(duì)文本的注意力特征,最后進(jìn)行情感分類。
3.5.1 實(shí)驗(yàn)對(duì)比分析
在本文中,為了驗(yàn)證提出的基于多層次特征融合注意力網(wǎng)絡(luò)的優(yōu)越性以及從兩個(gè)方向提取注意力特征對(duì)圖文情感分析的效果的有效性,本文選擇了近年來(lái)多模態(tài)情感分析中的BiGRU-VGG、HAN-ATT-VGG、TFN、VistaNet進(jìn)行效果對(duì)比,對(duì)比結(jié)果如表3和表4所示。
表3 在YELP數(shù)據(jù)集上的對(duì)比結(jié)果 (單位: %)
表4 在MultiZOL數(shù)據(jù)集上的對(duì)比結(jié)果 (單位: %)
續(xù)表
表3和表4呈現(xiàn)的是本文提出的模型與近年來(lái)多模態(tài)情感分析模型分別在Yelp和MultiZOL數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比結(jié)果。對(duì)比利用高維特征融合的TFN網(wǎng)絡(luò)模型結(jié)果,本文提出的模型在三項(xiàng)評(píng)估指標(biāo)上均優(yōu)于TFN約20%。這在一定程度上表明,TFN雖然對(duì)每種特征進(jìn)行了充分的融合,但是也引入了大量的冗余信息和噪聲,使得TFN無(wú)法達(dá)到最好的效果,而利用注意力機(jī)制能夠很好地避免這種風(fēng)險(xiǎn)。本文通過(guò)相互為文本和圖像的不同區(qū)域分配不同的注意力權(quán)重,使得模型關(guān)注到文本和圖像之間的關(guān)聯(lián)情感信息,降低特征冗余和噪聲的影響,進(jìn)而使模型效果更優(yōu)。在同BiGRU-VGG的對(duì)比中,本文模型精確率分別提高了近13%和16%。BiGRU-VGG利用BIGRU提升了文本情感信息特征表示,但是情感分析的效果并沒有得到很大的提高,這在一定程度上說(shuō)明僅在單模態(tài)特征提取上的優(yōu)化工作無(wú)法彌補(bǔ)模態(tài)間的語(yǔ)義鴻溝。而本文模型捕捉到了模態(tài)間的相互關(guān)聯(lián)信息,沒有割裂模態(tài)之間聯(lián)系。在同HAN-VGG的對(duì)比中可以看出,HAN-VGG與BiGRU-VGG之間的效果差異并不巨大,這是因?yàn)镠AN-VGG是在BIGRU-VGG的基礎(chǔ)上,僅利用注意力機(jī)制在文本上提取多層次的文本特征,并沒有對(duì)如何獲取模態(tài)間的關(guān)聯(lián)語(yǔ)義信息進(jìn)行改善。本文模型不僅對(duì)文本進(jìn)行了多層次的提取特征,還利用注意力機(jī)制捕捉了文本多層次特征與圖像特征的關(guān)系。在與VistaNet的對(duì)比中可以看出,VistaNet相對(duì)于上述的幾個(gè)模型在效果上都有顯著的提高,這是因?yàn)閂istaNet在BiGRU-VGG和HAN-VGG的基礎(chǔ)上從詞、句子層面利用注意力機(jī)制提取與圖像相關(guān)的情感區(qū)域,以圖像注意力為導(dǎo)向,提取與之相關(guān)的重要文本特征,這在一定程度上減少了噪聲和信息冗余。本文提出的模型在與VistaNet相比中,各方面指標(biāo)都有所提升,其中精確率分別提升了約1%和2%。這是由于本文的模型針對(duì)圖文多模態(tài)數(shù)據(jù),同時(shí)考慮了文本多層次特征與圖像特征之間及圖像多層次特征與文本特征之間的關(guān)聯(lián)性,綜合了模態(tài)之間的關(guān)聯(lián)交互信息和模態(tài)間的互補(bǔ)信息,提取了更完整的情感關(guān)聯(lián)語(yǔ)義信息。
3.5.2 消融實(shí)驗(yàn)
為了驗(yàn)證本文模型的有效性,在相應(yīng)參數(shù)保持不變的情況下,考慮不同子模型的影響。我們將本文提出的模型與其“文圖”和“圖文”子模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表5、表6所示。
表5 在Yelp數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果 (單位: %)
表6 在MultiZOL數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果 (單位: %)
在表5、表6中,Text-Images代表文本圖像多層次注意力網(wǎng)絡(luò)模型,Images-Text代表圖像文本多層次注意力網(wǎng)絡(luò)模型。從對(duì)比結(jié)果中可以看出,本文模型的效果均要好于Text-Images和Images-Text。這是因?yàn)門ext-Images只獲取圖像特征與多層次文本特征之間的關(guān)聯(lián)信息,忽略了文本特征與多層次圖像特征之間的關(guān)聯(lián)信息,Images-Text只獲取多層次圖像特征與文本特征之間的關(guān)聯(lián)信息,忽略了多層次文本特征與圖像特征之間的關(guān)聯(lián)信息。本文模型從兩個(gè)方向進(jìn)行模態(tài)間情感特征的提取,并融合兩個(gè)子模型的多層次關(guān)聯(lián)信息,在一定程度上改善了情感關(guān)聯(lián)信息提取不充分的缺點(diǎn)。本文模型在多模態(tài)情感分析上的優(yōu)越表現(xiàn),證明了模態(tài)間的層次關(guān)聯(lián)信息和互補(bǔ)信息在多模態(tài)情感分析中起到重要作用。
針對(duì)當(dāng)前社會(huì)媒體多模態(tài)數(shù)據(jù)間層次關(guān)聯(lián)信息的分析不足,本文提出了一種基于多層次特征融合注意力網(wǎng)絡(luò)的情感分析模型。通過(guò)注意力網(wǎng)絡(luò)捕捉多層次圖文特征和多層次文圖特征之間的關(guān)聯(lián)信息,減少信息冗余。最后利用多模態(tài)融合策略對(duì)得到的多層次關(guān)聯(lián)特征進(jìn)行線性拼接,并將其作為最終情緒感知的特征,從而得到預(yù)測(cè)的情感標(biāo)簽。本文將提出的模型在真實(shí)的數(shù)據(jù)集上進(jìn)行了驗(yàn)證研究,并與近年來(lái)不同的基線模型進(jìn)行效果對(duì)比分析,實(shí)驗(yàn)結(jié)果表明,本文提出的模型具有一定的優(yōu)勢(shì)。
目前,社會(huì)媒體中帶有情感標(biāo)簽的音頻、視頻數(shù)據(jù)仍比較稀少,因此本文模型目前只應(yīng)用在社會(huì)媒體中包含圖像和文本的數(shù)據(jù)集上,缺少在其他模態(tài)數(shù)據(jù)上的驗(yàn)證。未來(lái)工作中,我們將嘗試設(shè)計(jì)一種無(wú)監(jiān)督的社會(huì)媒體情感分析方法,從而在社會(huì)媒體中更好地自動(dòng)感知情感。同時(shí),如何更有效地捕捉不同模態(tài)間的關(guān)聯(lián)和交互信息、減少信息冗余和噪聲都將是多模態(tài)情感分析領(lǐng)域未來(lái)研究的重點(diǎn)。