范義飛 張貫虹 薛之芹
關(guān)鍵詞:方面級情感分析;多模態(tài);雙向長短期記憶網(wǎng)絡(luò);交互注意力機(jī)制
0 引言
方面級情感分析是情感分析的基本任務(wù),旨在識別文本中特定方面的情感極性,其在商業(yè)、公共管理、社會保障等領(lǐng)域具有廣泛的實際應(yīng)用價值。先前方面級情感分析工作大多是面向文本的。隨著互聯(lián)網(wǎng)以及智能手機(jī)的不斷普及,人們逐漸進(jìn)入一個參與式的網(wǎng)絡(luò)時代,由于手機(jī)往往是手頭唯一的攝像機(jī),因此網(wǎng)絡(luò)上的文檔(如商品評論、推文等)在性質(zhì)上越來越具有多模態(tài),即除了文本內(nèi)容,還有圖片。在圖文融合方面級多模態(tài)情感分析任務(wù)中,圖片信息往往和文本信息一樣具有指示性,兩者又可以相互加強(qiáng)和補(bǔ)充,共同傳達(dá)用戶生成內(nèi)容的情感態(tài)度。在多模態(tài)數(shù)據(jù)中,文本和圖像信息常與方面情緒聯(lián)系密切。例如,對于拍照效果這一方面,用戶可以發(fā)表一些用來描述拍照效果的積極詞匯和高質(zhì)量圖片,來表達(dá)其對手機(jī)的拍照效果這一方面的滿意,或是一些負(fù)面詞匯和低質(zhì)量圖片樣本(例如低光照片中的紅色/紫色噪聲)來表達(dá)其對拍照效果的不滿。因此,與傳統(tǒng)的基于文本或圖像的單模態(tài)數(shù)據(jù)相比,多模態(tài)數(shù)據(jù)存在著各種的相關(guān)性,能夠更加全面地揭示用戶對某一方面的真實情感。
1 相關(guān)工作
目前,對于基于圖文的方面級情感分析任務(wù)研究較少,Xu等人[1]提出了MIMN模型,該模型首先采用注意力機(jī)制獲得基于方面詞的文本表示和圖片表示,然后通過多跳機(jī)制獲得兩個模態(tài)的交互表示。該工作首次將圖像模態(tài)數(shù)據(jù)引入傳統(tǒng)的基于文本的方面級情感分析任務(wù)中,填補(bǔ)了在方面層面和多模態(tài)情感分析任務(wù)交叉點上的研究空白。
2 模型概述
為了更好地捕捉方面詞和上下文句子及各模態(tài)間的交互作用,本文采用基于交互注意力機(jī)制與AOA(Attention-Over-Attention)[2]神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法來構(gòu)建方面級多模態(tài)情感分析模型。本文提出模型的整體結(jié)構(gòu)如圖1所示。給定一個樣本,假定多模態(tài)數(shù)據(jù)的輸入包括文本內(nèi)容T={W1,W2,...,WM}和一個圖像集合I={I1,I2,...,IK},模型的目標(biāo)是預(yù)測一個給定方面短語A={A1,A2,...,AN}的情感標(biāo)簽,其中L為文本上下文的長度,K為圖片的數(shù)量,N為方面短語的長度。
2.1 特征提取
2.1.1 方面詞特征提取
本文利用從百度百科語料庫上預(yù)訓(xùn)練的word2vec[3]生成詞向量,作為模型的輸入。本文采用雙向LSTM來獲取方面詞的上下文表示。
2.1.2 文本上下文特征提取
對于文本上下文特征提取,本文采用與方面詞特征提取相同的方式,使用雙向LSTM 來學(xué)習(xí)上下文信息。
2.1.3 圖片特征提取
由于多模態(tài)數(shù)據(jù)中的圖像通常是按順序排列的,為了對這種普遍的圖像序列信息進(jìn)行建模,本文也采用雙向LSTM模型。給定一個圖像集I={I1,I2,...,IK},首先將它們的大小統(tǒng)一調(diào)整為224×224,然后將它們輸入預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)ResNet50[4]中,并去除頂部的全連接層。
2.2 注意-過度注意網(wǎng)絡(luò)AOA
為了更好地捕捉方面和文本上下文之間的交互,筆者引入AOA神經(jīng)網(wǎng)絡(luò),其可以共同學(xué)習(xí)方面和文本的表示,并自動關(guān)注文本中的重要部分。具體來說,將方面上下文詞表示V和文本上下文表示C作為輸入傳入AOA神經(jīng)網(wǎng)絡(luò)中,輸出最終句子表示γ。
2.3 交互注意力機(jī)制
由于在融合了圖文的多模態(tài)數(shù)據(jù)中,圖片和文本往往具有一定的相關(guān)性,為了捕獲這種相關(guān)性,本文采用交互注意力機(jī)制[5]將文本和圖片進(jìn)行交互式地建模。利用文本的隱藏狀態(tài)和圖片的隱藏狀態(tài)的平均值來監(jiān)督注意向量的生成,并采用注意力機(jī)制捕獲文本和圖片中的重要信息。通過這種設(shè)計,文本和圖片可以交互式地生成它們的表示。
2.4 情感分類
最終將通過交互注意力機(jī)制得到的文本和圖片表示與先前通過AOA神經(jīng)網(wǎng)絡(luò)得到的最終句子表示γ 進(jìn)行拼接,并傳入Softmax 層預(yù)測該方面的情感得分。
3 實驗分析
3.1 數(shù)據(jù)集
本文選取從ZOL網(wǎng)站上爬取的手機(jī)領(lǐng)域基于方面的圖文評論數(shù)據(jù)集Multi-ZOL進(jìn)行實驗。在Multi-ZOL數(shù)據(jù)集中一共有5 288條多模態(tài)評論。每一條多模態(tài)評論中包含一個文本內(nèi)容,一個圖像集以及至少一個但不超過6個方面。這6個方面分別是性價比、性能配置、電池續(xù)航、外觀手感、拍照效果以及屏幕效果。整個數(shù)據(jù)集中有28 429個方面-評論樣本對,對于每個方面,數(shù)據(jù)集的情感標(biāo)注是一個從1到10的情感得分。訓(xùn)練集、驗證集和測試集按照8:1:1的比例劃分。
3.2 模型設(shè)置
本文利用word2vec中的skip-gram模型訓(xùn)練詞向量,詞向量的維度Dw設(shè)置為300,LSTM隱藏表示的維度Dh設(shè)置為100,圖片輸入的大小為224×224。本文利用預(yù)訓(xùn)練過的ResNet50模型去除頂部的全連接層,以提取2 048維的視覺特征向量。文本長度M設(shè)置為300,方面長度N設(shè)置為2,如果實際長度超過設(shè)定的長度,那么截斷;反之,則補(bǔ)零。一條多模態(tài)評論中的圖片的最大填充數(shù)K設(shè)置為5。
本文以模型在測試集上的準(zhǔn)確率和f1值為評價指標(biāo)。在模型訓(xùn)練過程中,使用Adam[6]優(yōu)化算法來最小化交叉熵?fù)p失函數(shù),學(xué)習(xí)率設(shè)置為0.001。訓(xùn)練的批處理大小為16,訓(xùn)練輪數(shù)設(shè)置為100。本文采用了早停機(jī)制,檢測參數(shù)為驗證集的F1值,當(dāng)F1值連續(xù)10個訓(xùn)練輪數(shù)不上升時,則停止訓(xùn)練。本文所有模型的訓(xùn)練都是在GPU(NVIDIAGeforceGTX 1080) 上進(jìn)行的。
3.3 基線模型
為了驗證本文提出的多模態(tài)方面級情感分類模型的分類性能。將該模型與幾種基線模型進(jìn)行比較。實驗中的對比模型如下:
1) MemNet[7]:MemNet 是一個用于方面級情感分類的深度記憶網(wǎng)絡(luò),它將方面嵌入作為查詢向量,在由輸入詞嵌入疊加的記憶上使用多重注意力機(jī)制來生成深度記憶。將最后一層注意力層的輸出傳入Softmax 層用于方面級情感預(yù)測。
2) Co-Memory[8]+Aspect:是共記憶網(wǎng)絡(luò)的一種變體。除了利用共記憶注意力機(jī)制去交互性地建模文本和視覺記憶的相互影響之外,它引入了方面嵌入的平均值作為文本和視覺記憶網(wǎng)絡(luò)的輸入。
3) MIMN:MIMN通過一種多交互式記憶網(wǎng)絡(luò)來捕獲多模態(tài)數(shù)據(jù)中的多重相關(guān)性來用于方面級情感分析,其中包括方面對文本和圖像的影響,以及文本和圖像兩種模態(tài)數(shù)據(jù)之間的交互。
3.4 實驗結(jié)果及分析
實驗結(jié)果如表1所示,MemNet使用深度記憶網(wǎng)絡(luò)有效地捕捉了上下文詞的重要性,并且提取到了更深層次的注意力特征。但由于其僅融入了一個模態(tài)的數(shù)據(jù),表現(xiàn)并沒有其他模型突出。附加了方面嵌入的共記憶網(wǎng)絡(luò)與MemNet模型類似,但是其引用了另一種模態(tài)數(shù)據(jù),即圖像,并充分考慮了文本和圖像之間的交互作用,因而取得了比MemNet模型更好的效果。對于MIMN模型,由于其使用的多交互注意力機(jī)制不僅學(xué)習(xí)了跨模態(tài)數(shù)據(jù)引起的交互影響,還學(xué)習(xí)了單模態(tài)數(shù)據(jù)引起的自我影響。因此,它的性能優(yōu)于上述所有基線方法。但是,MIMN模型并沒有充分考慮到方面詞和文本上下文之間的關(guān)聯(lián)性,而本文提出的模型將AOA神經(jīng)網(wǎng)絡(luò)與交互注意力機(jī)制相結(jié)合,在捕捉到方面詞和上下文之間的相關(guān)性的同時,也捕捉到了文本和圖片兩種模態(tài)數(shù)據(jù)之間的相關(guān)性。因此,本文提出的模型在所有的基線方法中獲得了最好的性能。
4 總結(jié)與展望
針對當(dāng)前對于方面級多模態(tài)情感分析的研究甚少,本文引入了一種基于交互注意力機(jī)制的圖文方面級情感分析方法,并嵌入了AOA神經(jīng)網(wǎng)絡(luò)來更好地捕捉方面和上下文句子之間的交互作用。最終將AOA神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的聯(lián)合特征和通過雙模態(tài)交互注意力機(jī)制得到的文本及圖像特征進(jìn)行拼接,經(jīng)過一層全連接層送至Softmax進(jìn)行情感分類。本文所提出的模型在真實數(shù)據(jù)集Multi-ZOL中進(jìn)行了實證研究,并與不同的基線模型進(jìn)行對比分析,實驗結(jié)果表明,本文提出的模型具有一定的優(yōu)勢。
同時,本文也存在一些不足。本文對于模型的改進(jìn)主要體現(xiàn)在對上下文和方面之間的融合策略上進(jìn)行改進(jìn),對于不同模態(tài)表征之間的交互并沒有進(jìn)行過多研究。如何更好地捕捉不同模態(tài)間的關(guān)聯(lián)和交互將是未來研究的重點。