郭可心,張宇翔
(中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)
情感分析(Sentiment Analysis)作為社交媒體分析的前沿領(lǐng)域,被廣泛應(yīng)用于針對(duì)用戶的產(chǎn)品營(yíng)銷(xiāo)、政治預(yù)測(cè)、股票預(yù)測(cè)和心理健康分析。近年來(lái),隨著移動(dòng)攝影設(shè)備的廣泛應(yīng)用和網(wǎng)絡(luò)環(huán)境的不斷進(jìn)步,圖文并茂的用戶評(píng)論在各個(gè)社交媒體平臺(tái)和電子商務(wù)網(wǎng)站平臺(tái)已經(jīng)相當(dāng)常見(jiàn)。多模態(tài)(Multimodal)的信息格局給公眾輿情的產(chǎn)生和傳播帶來(lái)了不可忽視的沖擊,也為情感分析的發(fā)展帶來(lái)了巨大的挑戰(zhàn)。
圖文情感分析的難點(diǎn)在于不同模態(tài)信息本身的異質(zhì)性及模態(tài)間關(guān)系的復(fù)雜性。為了更精簡(jiǎn)、更準(zhǔn)確地提取和融合圖文情感特征,研究者開(kāi)始進(jìn)一步探索圖像特征與文本特征之間的關(guān)聯(lián)性。受視覺(jué)問(wèn)答(Visual Question Answering,VQA)、圖像描述(Image Caption)、跨模態(tài)檢索(Cross Modal Retrieval)等領(lǐng)域的影響,現(xiàn)有的圖文情感分析方法傾向于發(fā)掘文本和圖像之間的區(qū)域性對(duì)齊,通常使用空間注意力機(jī)制(Spatial Attention Mechanism)進(jìn)行圖文特征的融合[1]。
空間注意力機(jī)制最早提出于計(jì)算機(jī)視覺(jué)(Computer Vision,CV)領(lǐng)域的相關(guān)任務(wù),原理是模擬人類視覺(jué)系統(tǒng)(Human Visual System,HVS)的信號(hào)處理機(jī)制,更多地關(guān)注與任務(wù)目標(biāo)相關(guān)的視覺(jué)區(qū)域。目前空間注意力在各類圖文結(jié)合的預(yù)測(cè)任務(wù)中已經(jīng)被證實(shí)是有效的,現(xiàn)有的圖文特征融合方法通常在文本特征與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的特征圖之間進(jìn)行空間注意力加權(quán);然而不同于其他視覺(jué)特征,圖像的情感特征具有復(fù)雜性和主觀性的特點(diǎn)。心理學(xué)研究表明,不同的視覺(jué)特征會(huì)對(duì)人類的情感認(rèn)知產(chǎn)生不同的影響[2]。傳統(tǒng)的CNN方法通常是為中心位置對(duì)象分類而設(shè)計(jì),通過(guò)疊加層次化的視覺(jué)抽象圖層提取圖像特征[3],最高層卷積視野域較大,產(chǎn)生的特征圖側(cè)重于對(duì)圖像實(shí)體、圖像語(yǔ)義關(guān)系的抽象,不能針對(duì)性地提取中層圖像美學(xué)和低層視覺(jué)特征。
自然社交媒體中產(chǎn)生的情感評(píng)論具有隨意性、抽象性等特點(diǎn),現(xiàn)有的特征融合方法對(duì)這兩種模態(tài)之間的自然聯(lián)系知之甚少。根據(jù)Chen 等[4]的研究,圖文之間不僅能產(chǎn)生實(shí)體層面的對(duì)應(yīng)關(guān)系,還可以通過(guò)底層、中層的視覺(jué)特征體現(xiàn)情感的一致性。圖1 包含兩個(gè)表達(dá)積極情感的圖文推特評(píng)論。圖1(a)中詞“Bromeliads”與圖片中展示的實(shí)體統(tǒng)一,情感“vibrant”與該實(shí)體直接相關(guān);而在圖2(b)中,用戶引入了一個(gè)抽象的圖片,圖文之間不存在實(shí)體聯(lián)系,文本通過(guò)詞“energetic”表現(xiàn)積極的情緒,而圖像則是通過(guò)明亮的色彩和有規(guī)則的紋理表達(dá)積極的情感。
圖1 情感評(píng)論的分類Fig.1 Classification of reviews with sentiment
受以上觀點(diǎn)啟發(fā),本文提出了一種基于多層次空間注意力(Multi-Level Spatial Attention,MLSA)的圖文情感分析方法。以文本特征為基準(zhǔn),采用多層次結(jié)構(gòu),在圖像不同層次卷積的特征圖上使用空間注意力。高層卷積上的注意過(guò)程主要突出圖像中與文本相關(guān)的實(shí)體,而低層卷積上的注意過(guò)程則更多地關(guān)注能表達(dá)情感的顏色、紋理等底層特征。本文使用公開(kāi)的推特圖文情感評(píng)論數(shù)據(jù)集對(duì)MLSA 方法進(jìn)行訓(xùn)練和測(cè)試,并與多種情感分析方法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明MLSA方法在準(zhǔn)確率和F1 值上取得了優(yōu)于其他對(duì)比方法的情感檢測(cè)結(jié)果。
傳統(tǒng)的情感分析方法主要集中于文本,基于詞典的方法因其效率和簡(jiǎn)單而被廣泛使用[5-6]。隨著深度學(xué)習(xí)方法在自然語(yǔ)言處理的多項(xiàng)任務(wù)中展現(xiàn)出有競(jìng)爭(zhēng)力的性能,神經(jīng)網(wǎng)絡(luò)已經(jīng)應(yīng)用于許多情緒的提取和分析方法[7-8]中。
情感識(shí)別是視覺(jué)理解的一個(gè)關(guān)鍵部分,許多研究成果顯示,圖像情感與眾多低水平到高水平的因素有關(guān)[9]。早期的研究主要集中于分析圖像的顏色、形狀等低級(jí)特征(low-level features)對(duì)情緒進(jìn)行分類[10-11]。隨后Borth 等[12]構(gòu)建了一個(gè)1 200個(gè)形容詞-名詞對(duì)(Adjective Noun Pairs,ANP)組成的大型視覺(jué)情感本體庫(kù),并在此基礎(chǔ)上構(gòu)造了中層屬性(mid-level attributes)SentiBank作為圖像的情感檢測(cè)器。隨著遷移學(xué)習(xí)與CNN方法的建立,基于圖像高級(jí)特征(high-level feature)的情感分析方法逐漸成為主流。You 等[13]提出了一種逐步訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(Progressive CNN,PCNN),使用遷移學(xué)習(xí)的思想解決數(shù)據(jù)量不足的問(wèn)題。Rao 等[14]設(shè)計(jì)了MldrNet(Multi-level deep representations Network),整合情感、紋理和美學(xué)3個(gè)角度的圖像特征構(gòu)成圖像的情感語(yǔ)義,但由于過(guò)于注重美學(xué)特征,導(dǎo)致其在社交圖像數(shù)據(jù)集上的泛化效果不佳。
根據(jù)多模態(tài)特征的融合策略,多模態(tài)情感分析方法可分為早期融合(Early Fusion)、混合融合(Intermediate Fusion)和晚期融合(Late Fusion)。早期融合又稱特征級(jí)融合,在進(jìn)行情感分?jǐn)?shù)計(jì)算之前,將多個(gè)模態(tài)來(lái)源的數(shù)據(jù)整合成一個(gè)整體的特征向量[15-16]。許多早期的工作都使用早期融合進(jìn)行多模態(tài)特征學(xué)習(xí),但這些方法可能產(chǎn)生高維冗余的特征向量,且破壞了模態(tài)之間的獨(dú)立性和互補(bǔ)性。后期融合又稱為決策級(jí)融合,發(fā)生在每種模態(tài)建模之后,將多個(gè)模態(tài)情感分類器的決策結(jié)果進(jìn)行平均計(jì)算,特點(diǎn)是不同模態(tài)的分類器訓(xùn)練過(guò)程通常不相關(guān)[17-18]。后期融合提供了一個(gè)廉價(jià)而有效的模態(tài)融合方案,但忽略了模態(tài)之間的特征交互,難以有效地捕捉不同模式之間的關(guān)聯(lián)性。
現(xiàn)有的圖文情感分析方法大多采用混合融合的方法,通過(guò)共享神經(jīng)網(wǎng)絡(luò)表示層的特征向量實(shí)現(xiàn)模態(tài)間的特征交互,并設(shè)計(jì)特定的連接單元來(lái)實(shí)現(xiàn)多個(gè)模態(tài)特征的有效融合。You 等[19]利用注意力機(jī)制學(xué)習(xí)圖像區(qū)域和文本單詞之間的一一對(duì)應(yīng),并采取樹(shù)形結(jié)構(gòu)集成文本和圖像信息。Xu等[20]從圖文間的跨模態(tài)實(shí)體一致性入手,提出了一種圖像的區(qū)域特征與文本的多個(gè)語(yǔ)義層次相互作用的雙向多層次注意模型(Bi-Directional Multi-Level Attention model,BDMLA)。在此基礎(chǔ)上,Xu 等[21]首次提出了方面級(jí)的多模態(tài)情感分析任務(wù),而Yu等[22]則進(jìn)一步提出了社交媒體帖子的實(shí)體級(jí)(又稱目標(biāo)依賴)情緒分析。此外,一部分研究更注重利用社交媒體中的特定圖文情境進(jìn)行情感分析。針對(duì)電子評(píng)論中存在圖文話語(yǔ)關(guān)系不平等的情況,Truong 等[23]提出VistaNet,將圖像作為文本的附屬特征而非獨(dú)立信息,利用圖像作為注意力基準(zhǔn)強(qiáng)調(diào)文本中的重點(diǎn)句子。隨著表達(dá)反諷情緒的圖文評(píng)論數(shù)量不斷增多,圖文情感不一致的問(wèn)題愈加突出。Cai等[24]提出了一種層次融合方法,通過(guò)融合圖像、屬性和文本三種特征來(lái)解決具有挑戰(zhàn)性的多模態(tài)諷刺檢測(cè)任務(wù)。Zhang 等[25]則進(jìn)一步考慮了網(wǎng)絡(luò)廣告圖像中普遍存在的視覺(jué)修辭現(xiàn)象,使用自適應(yīng)編碼器理解圖像的視覺(jué)修辭,并采用多任務(wù)結(jié)構(gòu),加入主題分析來(lái)提高情感分析的效果。
上述研究通過(guò)對(duì)連接單元的設(shè)計(jì)和方法的理解,在某些特定場(chǎng)景中具有了聯(lián)系和理解多模態(tài)信息的能力,但仍缺乏對(duì)圖文情感共現(xiàn)現(xiàn)象及其原理的探究,提出的方法通常將CNN 視為從全局視角中學(xué)習(xí)圖像高層特征的“黑盒子”,并沒(méi)有充分挖掘文本特征與圖像美學(xué)相關(guān)的中層局部信息或低層視覺(jué)特征之間的情感共現(xiàn)。從實(shí)際問(wèn)題出發(fā),本文方法運(yùn)用文本引導(dǎo)的空間注意力機(jī)制,具體設(shè)計(jì)如何從圖像中獲取和使用與文本相關(guān)的高層語(yǔ)義特征和中、低級(jí)視覺(jué)特征。
本章將從模型結(jié)構(gòu)和模型訓(xùn)練兩方面對(duì)MLSA 方法進(jìn)行介紹。MLSA 模型采用端到端(end-to-end)的學(xué)習(xí)方式,根據(jù)功能的不同可以劃分為文本特征提取模塊、層次化圖像特征提取模塊、情感預(yù)測(cè)模塊3 個(gè)部分。區(qū)別于僅提取最高層次卷積輸出的作為圖像特征的方法,MLSA 構(gòu)建具有5層分支結(jié)構(gòu)的文本引導(dǎo)的空間注意力模塊,針對(duì)CNN 不同層次卷積的輸出進(jìn)行空間注意力加權(quán),加權(quán)后的特征矩陣作為下一層的卷積輸入,直到輸出最后一個(gè)卷積層的卷積結(jié)果。MLSA 的 總體架構(gòu)如圖2所示。
圖2 MLSA的基本結(jié)構(gòu)Fig.2 Basic structure of MLSA
2.1.1 文本特征提取
經(jīng)過(guò)預(yù)處理的推特文本作為特征提取網(wǎng)絡(luò)的輸入。給定的文本序列W=[w1,w2,…,wN],其中wn是位置n處單詞的一個(gè)one-hot 向量表示,下標(biāo)N表示文本序列的總長(zhǎng)度。首先使用嵌入矩陣Wglove將單詞嵌入到向量空間中:
其中:Wglove為預(yù)訓(xùn)練的詞嵌入矩陣[26],隨后在訓(xùn)練中進(jìn)行了調(diào)整;E為嵌入向量的維度。對(duì)于每一個(gè)單詞嵌入向量,模型使用了長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)進(jìn)行進(jìn)一步編碼。LSTM 接受單詞嵌入xn作為輸入,并輸出一個(gè)新的隱藏狀態(tài)向量hn:
由于文本情感語(yǔ)義受上下文內(nèi)容的影響,MLSA 模型引入雙向LSTM 機(jī)制(Bi-directional LSTM),連接前向LSTM 和后向LSTM 生成的隱狀態(tài)向量,得到每個(gè)單詞最終的向量表示
一個(gè)句子里的每個(gè)單詞是“不平等”的。有些單詞能為情感提供更多的有效信息。為了計(jì)算和分配每個(gè)詞在情緒分類中的權(quán)重,模型加入了軟注意機(jī)制(soft attention)[23]:
其中:un是非規(guī)范化注意分?jǐn)?shù),衡量單詞hn與文本情感之間的關(guān)系。權(quán)重矩陣Wh和偏置向量bh是需要學(xué)習(xí)的參數(shù)。αn用于規(guī)范化所有單詞hn上的注意力權(quán)重。文本整體的文本語(yǔ)義向量FT可以通過(guò)對(duì)單詞特征的加權(quán)平均來(lái)計(jì)算:
2.1.2 圖像特征提取
從圖像中理解情感的難度遠(yuǎn)超從圖像中識(shí)別物體,如何兼顧多個(gè)抽象層次進(jìn)行特征提取是構(gòu)筑完整的圖像情感特征的關(guān)鍵。事實(shí)上,CNN 模型本身支持多個(gè)抽象層次的情感特征提取,每個(gè)不同層對(duì)圖像的特征學(xué)習(xí)有著不同的偏好。Zeiler 等[27]在ImageNet 上的實(shí)驗(yàn)表示,CNN 每一層卷積的投影體現(xiàn)了網(wǎng)絡(luò)中特征的層次性,低層卷積由于視野域較小,更傾向于提取低級(jí)的特性,比如顏色、邊緣和紋理,而高層卷積則因?yàn)閾碛懈蟮囊曇坝蚨鴥A向于概括對(duì)象特征和語(yǔ)義內(nèi)容?;谶@一事實(shí),MLSA 方法將空間注意的思想從卷積的最高層擴(kuò)展到卷積的每一層上,在每個(gè)卷積層的特征圖上計(jì)算文本引導(dǎo)的視覺(jué)注意力權(quán)重。為了能結(jié)合相關(guān)公式,進(jìn)一步展示出圖像特征提取的整體流程,使用圖3 對(duì)文本引導(dǎo)的多層次空間注意機(jī)制的結(jié)構(gòu)細(xì)節(jié)進(jìn)行進(jìn)一步展示。
圖3 文本引導(dǎo)的多層次空間注意力機(jī)制Fig.3 Multi-level spatial attention guided by text
形式上,假設(shè)模型將生成圖像的第l層特征。在第l層,文本向量FT將決定空間注意權(quán)重pl和被注意權(quán)重所調(diào)制的圖像特征圖Yl[3]:
式中:Φ()為空間注意力函數(shù),詳見(jiàn)式(9)~(10);f()是將圖像特征與注意力權(quán)重進(jìn)行線性組合的?;瘮?shù),詳見(jiàn)式(11)。Xl記作是l-1卷積層的特征映射輸出的圖形特征矩陣:
現(xiàn)有實(shí)現(xiàn)視覺(jué)軟注意力的方法有很多,如多層感知器、雙線性、點(diǎn)積、縮放點(diǎn)積和求和后的線性投影。其中求和后的線性投影會(huì)使注意力更加分散,有利于模型盡可能多地利用相關(guān)的視覺(jué)特征[28]。給定文本向量FT和第l層的圖像特征矩陣Xl∈RC×M,其中M是該層圖像矩陣的區(qū)域數(shù),C是該層的通道數(shù)。首先通過(guò)單層神經(jīng)網(wǎng)絡(luò)將其輸入投射到相同的維度中,然后在文本向量FT的引導(dǎo)下,通過(guò)softmax 函數(shù)生成文本對(duì)應(yīng)于每個(gè)圖像區(qū)域的注意概率pl[1]:
其中:Wl∈Rk×C、WT∈Rk×d是將圖像視覺(jué)特征與文本向量映射到同一向量空間的變換矩陣;WP∈R1×k提供在通道方向的壓縮規(guī)則;bA∈Rk,bP∈R1是線性變換的偏置項(xiàng)。矩陣與向量之間的加法通過(guò)將矩陣的每一列與向量相加來(lái)實(shí)現(xiàn)。根據(jù)注意力分布,計(jì)算特征圖的像素區(qū)域和相應(yīng)區(qū)域權(quán)重的乘積,在圖像特征生成過(guò)程中編碼了與文本相關(guān)的視覺(jué)信息:
考慮到CNN 的卷積過(guò)程,卷積層通過(guò)視野域的擴(kuò)大而進(jìn)一步學(xué)習(xí)到更高層次的視覺(jué)特征,在此期間圖像特征矩陣在CNN 中不斷進(jìn)行傳遞,基于文本的注意力也能隨著圖像特征的進(jìn)一步訓(xùn)練而保留。為了得到包含多層次關(guān)聯(lián)的視覺(jué)特征,提取最后一個(gè)卷積層的輸出作為最終的圖像情感特征FI:
其中L為CNN卷積層的總層數(shù)。
2.1.3 情感分類
現(xiàn)有圖文評(píng)論的視覺(jué)特征FI和文本特征FT。首先使用融合層將它們聚合為最終的多模態(tài)表示,然后在頂部添加一個(gè)softmax分類器進(jìn)行情感分類。
將交叉熵?fù)p失作為softmax 的目標(biāo)函數(shù),以監(jiān)督的方式訓(xùn)練模型:
其中:D為圖文評(píng)論樣本總數(shù),指評(píng)論樣本d的真實(shí)標(biāo)簽。
在圖文評(píng)論中,文本作為主要內(nèi)容,通常承擔(dān)了情感的主要表達(dá)功能。從情感分析的角度,討論推特環(huán)境下文本的以下幾個(gè)特點(diǎn):1)一條推文消息的最大長(zhǎng)度是140 個(gè)字符。這意味著實(shí)際上可以將一條推文理解為一個(gè)獨(dú)立的句子,不包含復(fù)雜的語(yǔ)法結(jié)構(gòu)。2)推文中的語(yǔ)言往往更具口語(yǔ)化,而且含有很多短詞(長(zhǎng)度小于3 個(gè)字母的單詞)、俚語(yǔ)和拼寫(xiě)錯(cuò)誤。3)推文中包含很多特定句柄(如@、RT等)和鏈接。為了保證模型的訓(xùn)練,本文嘗試對(duì)文本進(jìn)行預(yù)處理操作,包括處理文本中的標(biāo)點(diǎn)符號(hào)、推特句柄、鏈接、特殊符號(hào)、短詞,以及對(duì)單詞進(jìn)行大小寫(xiě)轉(zhuǎn)換和詞干提取。
根據(jù)數(shù)據(jù)集的來(lái)源,選擇glove.twitter.27B.200d 作為文本嵌入;使用預(yù)訓(xùn)練的VGG-T4SA FT-A[29]對(duì)MLSA 模型的5個(gè)卷積模塊進(jìn)行初始化。網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.001,隨著迭代次數(shù)的增加,學(xué)習(xí)率每一輪降低為前一輪的1/10。批處理數(shù)量為16,沖量為0.9。利用RMSProp 更新規(guī)則對(duì)最優(yōu)參數(shù)進(jìn)行反向傳播訓(xùn)練。為了避免過(guò)擬合,模型的訓(xùn)練過(guò)程中還采用了dropout 正則化和早停法(early stopping)的技巧,截?cái)嘀芷谠O(shè)置為10。
本文采用公開(kāi)推特圖文聯(lián)合情感分析數(shù)據(jù)集MVSA[30]進(jìn)行MLSA方法的性能分析,具體信息如表1所示。數(shù)據(jù)集的每個(gè)樣本包括1 個(gè)從推特上收集的圖文對(duì)和1 個(gè)手工標(biāo)注的聯(lián)合標(biāo)簽,并根據(jù)注釋者人數(shù)的不同,分為MVSA-Single 和MVSA-Multi兩個(gè)子數(shù)據(jù)集。
表1 數(shù)據(jù)集統(tǒng)計(jì)Tab.1 Statistics of datasets
首先對(duì)該數(shù)據(jù)集進(jìn)行了預(yù)處理,將圖文標(biāo)簽同時(shí)包含積極標(biāo)簽和消極標(biāo)簽的樣本去除。當(dāng)一個(gè)標(biāo)簽是中性的,而另一個(gè)標(biāo)簽是積極或消極時(shí),選擇積極或消極標(biāo)簽作為該樣本的情緒標(biāo)簽。其次,對(duì)于MVSA-Multi的樣本,只有當(dāng)3個(gè)注釋者中的2個(gè)給出了相同的標(biāo)記時(shí),該樣本才被認(rèn)為是有效的。
為了驗(yàn)證本文MLSA方法的有效性,將該方法與3組對(duì)照方法進(jìn)行比較,其中包括具有代表性的單模態(tài)情感分析方法。由于本實(shí)驗(yàn)主要研究文本引導(dǎo)的多層次空間注意力機(jī)制,不涉及對(duì)于基礎(chǔ)網(wǎng)絡(luò)的優(yōu)化,故而先對(duì)比單模態(tài)的圖像情感分析方法和文本情感分析方法,對(duì)模型的基礎(chǔ)組件進(jìn)行評(píng)估和選擇。然后從準(zhǔn)確率和F1值兩個(gè)指標(biāo)對(duì)MLSA方法進(jìn)行性能分析。表2 總結(jié)了本文使用的對(duì)比方法,并提供了這些方法的簡(jiǎn)要描述。
表2 對(duì)比方法的簡(jiǎn)要描述Tab.2 Brief descriptions of comparison methods
MVSA 數(shù)據(jù)集被隨機(jī)分為訓(xùn)練集(80%)、驗(yàn)證集(10%)和測(cè)試集(10%),采用綜合評(píng)價(jià)指標(biāo)F1值和準(zhǔn)確率(Acc)對(duì)MLSA進(jìn)行定量分析。表3給出了各方法在MVSA數(shù)據(jù)集上的結(jié)果。
表3 第1 組數(shù)據(jù)顯示了單模態(tài)的圖像情感分析方法的性能。使用VGG19 進(jìn)行情感分類的效果明顯優(yōu)于SentiBank 方法,這展示了深度神經(jīng)網(wǎng)絡(luò)在圖像情感分類任務(wù)中的強(qiáng)大性能。由于物體識(shí)別任務(wù)與圖像情感識(shí)別任務(wù)在特征選取上具有較大差異,經(jīng)過(guò)全層次微調(diào)的VGG-T4SA FT-A 的準(zhǔn)確率和F1 值在MVSA_Single 數(shù)據(jù)集上提高了1.92 和1.7 個(gè)百分點(diǎn),在MVSA_Multi 數(shù)據(jù)集上提高了1.94 和1.28 個(gè)百分點(diǎn),這一結(jié)果表明多層次特征學(xué)習(xí)在圖像情感挖掘中的有效性。
表3 第2 組數(shù)據(jù)顯示了單模態(tài)的文本情感分析方法的性能。由于深度神經(jīng)網(wǎng)絡(luò)在提取文本情感特征方面同樣具有優(yōu)勢(shì),基于規(guī)則的SentiStrength 方法準(zhǔn)確率和F1 值均低于LSTM-Avg 和LSTM-Att。與平均計(jì)算每個(gè)單詞權(quán)重的LSTMAvg 方法相比,LSTM-Att 加入了能強(qiáng)調(diào)文本情感相關(guān)詞的軟注意力機(jī)制,在準(zhǔn)確率和F1值上均有小幅度的提升。
表3 第3 組數(shù)據(jù)顯示了圖文情感分析方法的性能。Sentibank 與SentiStrength 結(jié)合的方法效果仍遠(yuǎn)不如基于深度學(xué)習(xí)的方法。Late Fusion 方法和Early Fusion 都是通過(guò)整合VGG-T4SA FT-A和LSTM-Att得到的深度神經(jīng)網(wǎng)絡(luò),Late Fusion僅對(duì)情感分析的結(jié)果進(jìn)行平均,缺少特征融合過(guò)程,在準(zhǔn)確率和F1值上的平均性能低于其他的深度學(xué)習(xí)方法。Early Fusion在邏輯回歸前加入了串聯(lián)式的特征融合過(guò)程,在一定程度上提高了情感分析的效果,但通過(guò)觀察可以發(fā)現(xiàn),Early Fusion方法不僅在性能上低于SA(Spatial Attention)方法和MLSA方法,甚至低于第2組對(duì)照方法中的LSTM-Att方法,可以發(fā)現(xiàn),在推特圖文評(píng)論環(huán)境中,完全平等的圖文關(guān)系建??赡軙?huì)對(duì)情感分析的效果產(chǎn)生負(fù)面影響,這驗(yàn)證了文本引導(dǎo)的注意力機(jī)制的正確性。SA方法在Early Fusion的基礎(chǔ)上,于CNN的最高卷積層增加了文本引導(dǎo)的空間注意力機(jī)制,準(zhǔn)確率和F1值在兩個(gè)數(shù)據(jù)集上得到了大幅度提升。這一實(shí)驗(yàn)結(jié)果表明了空間注意力機(jī)制可以有效捕捉圖文特征之間的情感關(guān)聯(lián),但該方法平均水平上的性能全面劣于MLSA方法,原因是僅使用了圖像的高層特征,忽略了對(duì)圖像低層次和中層次特征的利用,因此難以從一些更抽象的樣例中理解圖文之間的情感共現(xiàn)。MLSA 方法的準(zhǔn)確率和F1值在兩個(gè)數(shù)據(jù)集中優(yōu)于所有其他對(duì)比方法,相較于次優(yōu)的SA方法,在MVSA_Single數(shù)據(jù)集上均提高了0.96個(gè)百分點(diǎn),在MVSA_Multi 數(shù)據(jù)集上分別提高了1.06 個(gè)百分點(diǎn)和0.62 個(gè)百分點(diǎn)。性能的提升證明了圖像層次化特征對(duì)多模態(tài)情感分析的指導(dǎo)意義,也展現(xiàn)了層次化空間注意機(jī)制在圖文情感分析中的能力。
表3 不同情感分析方法的性能對(duì)比 單位:%Tab.3 Performance comparison of different sentiment analysis methods unit:%
為了更直觀地觀察文本引導(dǎo)的多層次空間注意力機(jī)制在特征融合中起到的作用,本節(jié)將從“文本引導(dǎo)”和“多層次空間注意力”兩個(gè)角度對(duì)MLSA 方法進(jìn)行定性分析。圖4 和圖5 分別給出了VGG-T4SA FT-A、LSTM-Att 方法和Early Fusion、SA、MLSA方法根據(jù)預(yù)測(cè)分?jǐn)?shù)排名得到的置信度最高的3個(gè)圖文樣例,其中預(yù)測(cè)錯(cuò)誤的樣本用方框進(jìn)行標(biāo)記。所有高置信度圖文樣例均來(lái)自MVSA數(shù)據(jù)集,按照積極、中性、消極的情感分類依次進(jìn)行展示,并在類內(nèi)按預(yù)測(cè)分?jǐn)?shù)遞減順序從左到右排序。
圖4 使用VGG-T4SA FT-A和LSTM-Att方法得到置信度最高的樣例Fig.4 Examples with highest confidences by using VGG-T4SA FT-A and LSTM-Att
3.4.1 文本引導(dǎo)的圖文話語(yǔ)關(guān)系
不同的方法給出了不同的高置信度預(yù)測(cè)樣例。通過(guò)比較錯(cuò)誤樣例的個(gè)數(shù)可以發(fā)現(xiàn),對(duì)于推特平臺(tái)上的圖文評(píng)論數(shù)據(jù),僅使用文本特征的LSTM-Att 方法樣例比僅使用視覺(jué)特征的VGG-T4SA FT-A 方法有更強(qiáng)的情感鑒別能力。從圖4(a)~(c)中的錯(cuò)誤樣例可以看出,僅使用圖像特征的VGG-T4SA FT-A 方法幾乎不能僅通過(guò)預(yù)測(cè)圖像的情感傾向得出圖文評(píng)論的整體情感信息,這一結(jié)果說(shuō)明在推特的圖文評(píng)論環(huán)境中,圖像很難獨(dú)立于文本表達(dá)情感。
相較于VGG-T4SA FT-A 方法,LSTM-Att 方法的錯(cuò)誤率在高置信度樣例中有明顯降低,同時(shí)通過(guò)對(duì)圖4(e)中錯(cuò)誤樣例觀察可以發(fā)現(xiàn),對(duì)于一些語(yǔ)氣不突出乃至不包含情感信息的文本,圖像通常起到為其加強(qiáng)情感語(yǔ)氣、增添情感色彩的作用。
3.4.2 多層次空間注意力
由于Early Fusion、SA、MLSA 使用相同的基礎(chǔ)網(wǎng)絡(luò),僅在對(duì)空間注意力的使用上有所區(qū)別,故對(duì)三者的比較可以有效地展現(xiàn)出多層次空間注意力的情感特征捕捉能力。Early Fusion 較少考慮圖文之間的情感共現(xiàn),高評(píng)分樣例中出現(xiàn)的圖像和文本本身通常包含更強(qiáng)烈的情感傾向,故對(duì)中性樣例的識(shí)別效果較差。SA 方法僅對(duì)圖像的最高層卷積施加空間注意力,在效果上表現(xiàn)為更容易為含有突出實(shí)體對(duì)象的圖文樣例打出較高的評(píng)分;而MLSA 方法將空間注意力擴(kuò)展到CNN 的每一個(gè)卷積層,兼顧了多尺度卷積得到的多層次圖像情感特征。對(duì)比代表中性樣例的圖5(e)和圖5(h)可以看出,MLSA 方法同樣能有效利用圖文之間的實(shí)體關(guān)聯(lián)進(jìn)行情感分析;而圖5(g)和圖5(i)則表現(xiàn)出MLSA 在理解圖像情感時(shí)更積極地考慮了圖像的色彩、紋理以及構(gòu)圖。總的來(lái)說(shuō),定性分析的結(jié)果證明了文本引導(dǎo)的多層次空間注意力機(jī)制在圖文情感特征融合過(guò)程中的合理性和有效性。
圖5 使用Early Fusion、SA、MLSA方法得到置信度最高的樣例Fig.5 Examples of the highest confidences by using Early Fusion,SA and MLSA
在自然社交媒體中,圖像豐富的情感表達(dá)手段為文本情感帶來(lái)了另一個(gè)角度的解讀,而當(dāng)前大多方法忽略了圖像的層次化特征在圖文特征融合中的重要作用。針對(duì)這一挑戰(zhàn)性問(wèn)題,本文提出了利用文本引導(dǎo)的多層次空間注意力機(jī)制進(jìn)行特征融合的圖文情感分析方法MLSA,在特征融合過(guò)程中充分考慮圖像的高層實(shí)體特征和中低層視覺(jué)特征,進(jìn)一步加強(qiáng)了圖文之間的情感關(guān)聯(lián)。MLSA 方法在圖文推特情感數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果在準(zhǔn)確率和F1值上都取得了更好的效果,表明文本引導(dǎo)的多層次空間注意力機(jī)制有效增強(qiáng)了神經(jīng)網(wǎng)絡(luò)模型捕捉情感語(yǔ)義的能力。此外,圖像和文本的關(guān)系問(wèn)題是多模態(tài)話語(yǔ)分析中存在的“瓶頸”問(wèn)題。在實(shí)驗(yàn)探索中可以發(fā)現(xiàn),對(duì)圖文關(guān)系的理解也會(huì)對(duì)圖文情感分析的效果產(chǎn)生影響。在今后的研究中,進(jìn)行情感分析的同時(shí)融入圖文關(guān)系分析,將是一個(gè)重要的研究方向。