孟祥瑞,楊文忠*,王 婷
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046;2.新疆大學(xué)軟件學(xué)院,烏魯木齊 830046)
(*通信作者電子郵箱ywz_xy@163.com)
社交媒體的飛速發(fā)展導(dǎo)致用戶信息逐漸增加,用戶所發(fā)表的內(nèi)容也逐漸呈現(xiàn)多元化的趨勢,數(shù)據(jù)已經(jīng)不再是單一的文本形式,而是轉(zhuǎn)化為圖片與短文本這種多模態(tài)形式,例如:Twitter中的圖文博客、貼吧中的圖文信息、淘寶評論中的圖文信息等。這些圖文結(jié)合的多模態(tài)數(shù)據(jù)為情感分析方面的研究提供了新角度,挖掘用戶所發(fā)圖文的情感成為新的研究重點(diǎn)。同時(shí),由于圖文情感分析研究時(shí)間較短、數(shù)據(jù)集較少等問題,也使得圖文情感分析存在一定的困難與挑戰(zhàn)。
在早期的情感研究中,主要研究的是較為單一的文本或者圖像,采用的方法主要是傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法[1],例如:K近鄰算法、支持向量機(jī)、最大熵分類器和貝葉斯分類器等。然而近年來,深度學(xué)習(xí)體現(xiàn)出較為優(yōu)異的學(xué)習(xí)表現(xiàn),越來越多的研究人員開始傾向使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)文本或者圖像的特征表示,用于情感分類[2-5];但是具有單一模態(tài)信息量不足,并且容易受到其他因素干擾的問題,例如:圖片含義或文字語義模糊等情況。鑒于社交平臺中圖片與文本存在一定的互補(bǔ)性,圖片與文本融合的研究逐漸成為當(dāng)前的研究熱點(diǎn)。蔡國永等[6]采用了基于卷積神經(jīng)網(wǎng)絡(luò)的情感分析方法,分別進(jìn)行文本、圖片、圖文融合的情感分析,比較圖文單獨(dú)模態(tài)與圖文多模態(tài)的實(shí)驗(yàn)效果,實(shí)驗(yàn)證明圖像特征與文本特征具有聯(lián)系,文本與圖像也具有一定的互補(bǔ)作用。
圖文融合的情感分析是多模態(tài)情感分析的子領(lǐng)域,針對多模態(tài)情感分析,最早研究可以追溯至2011 年。陽鋒等[7]提出了一種觀點(diǎn)挖掘原型系統(tǒng)(MicroblogItem Crawling and Analyzing,MICA),這是一個面向微博數(shù)據(jù)流的觀點(diǎn)挖掘原型系統(tǒng),利用微博數(shù)據(jù)爬取模塊對數(shù)據(jù)(文本、圖片、共享視頻等)進(jìn)行下載,構(gòu)建新的情感詞典,其中圖片特征提取主要采用尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)算法。Morency 等[8]首次提出三模態(tài)情感分析任務(wù),自動提取文本、視頻、語音的特征,集成特征后得出任務(wù)結(jié)果。
要對圖文融合的內(nèi)容進(jìn)行情感分析,首要的任務(wù)就是提取文本特征與圖像特征,然后依據(jù)圖文融合策略及方法,判斷情感類型,而情感類型一般會分為積極、中性和消極三類。目前,在情感計(jì)算領(lǐng)域中的圖文融合情感分析研究主要是集中于圖文信息融合與圖文相關(guān)性的融合[9]。常見的融合策略可以劃分為三種:特征層融合策略、決策層融合策略和一致性回歸融合策略。
情感主要包括圖片、文本、語音、視頻、面部表情等多種模態(tài),鑒于當(dāng)前主流社交平臺主要集中于文本與圖片的發(fā)布,所以本文重點(diǎn)介紹這兩者的特征提取方法與融合方法,并從以下四個方面進(jìn)行綜述:圖文分析數(shù)據(jù)庫、圖文情感特征提取技術(shù)、圖文特征融合方式以及總結(jié)與展望。
在國內(nèi)外基于圖文的多模態(tài)情感數(shù)據(jù)集一般是來源于網(wǎng)絡(luò)爬蟲或者人為制作,對于科研方面仍是半公開或者不公開,導(dǎo)致研究人員使用的數(shù)據(jù)庫一般為自己爬取建立的,創(chuàng)建過程耗費(fèi)時(shí)間。本章主要介紹當(dāng)前應(yīng)用的幾個基于圖文的情感分析數(shù)據(jù)庫。
文獻(xiàn)[10]中公開了帶有標(biāo)注的Flickr 圖像ID,標(biāo)注為積極、消極、中性三種詞性,F(xiàn)lickr 提供了應(yīng)用程序接口(Application Programming Interface,API),通過ID 可以獲得相應(yīng)的元數(shù)據(jù),例如:圖像的描述、上傳日期、標(biāo)簽等。同時(shí),文獻(xiàn)[10]中還提出了Instagram 數(shù)據(jù)集,使用SentiWordNET 中的每一個情感詞作為查詢關(guān)鍵字,可以抓取一組圖像,圖像總數(shù)為12 萬張,該數(shù)據(jù)集更多地包含了用戶的日常生活圖像,其中最常用的詞為:“l(fā)ove”“l(fā)ike”“l(fā)ife”“day”等。文獻(xiàn)[11]使用公開的ID 在Flickr 網(wǎng)站中可以爬取6 萬余張圖像及其對應(yīng)的描述、上傳日期、標(biāo)簽等。
VCGⅠ及VCGⅡ數(shù)據(jù)集[12]主要是利用不同的情感關(guān)鍵詞在中國視覺網(wǎng)站上建造的數(shù)據(jù)集。VCGⅠ數(shù)據(jù)集是利用視覺情感本體庫(Visual Sentiment Ontology,VSO)中的形容詞-名詞對(Adjective Noun Pairs,ANP)作為情感的關(guān)鍵詞爬取數(shù)據(jù),其中,ANP 的數(shù)量為3 244,爬取了38 363 條圖像-文本對。VCGⅡ數(shù)據(jù)集是從3 244 個ANP 中隨機(jī)選擇300 個ANP 作為情感關(guān)鍵詞爬取數(shù)據(jù),爬取了37 158條圖像-文本對。
文獻(xiàn)[13]主要收集當(dāng)前流行的社交多媒體平臺Yahoo 數(shù)據(jù),構(gòu)成多語言視覺情感本體(Multilingual Visual Sentiment Ontology,MVSO),類似于VSO 數(shù)據(jù)集,收集2014 年11 月至2015 年2 月的公共數(shù)據(jù)。主要選擇12 種語言,分別為:阿拉伯語、漢語、荷蘭語、英語、法語、德語、意大利語、波斯語、波蘭語、俄語、西班牙語和土耳其語。MVSO 主要由15 600 個概念構(gòu)成,這些概念同圖像中表達(dá)的情感息息相關(guān)。這些概念主要是以ANP 的形式進(jìn)行定義,利用MVSO 所提供的情感分?jǐn)?shù)大于1 的ANP 作為關(guān)鍵詞,社交網(wǎng)站中爬取了75 516 條圖像及其所對應(yīng)的標(biāo)題、描述與標(biāo)簽,其中英文數(shù)據(jù)集稱為MVSOEN數(shù)據(jù)集。
文獻(xiàn)[14]引入了多視圖情感分析數(shù)據(jù)集(Multi-View Sentiment Analysis,MVSA),采用了一個公共的流媒體Twitter API(Twitter4J),為了收集具有代表性的推文,研究人員使用了406 個情感詞匯對這些推文進(jìn)行了過濾。MVSA 數(shù)據(jù)集主要包括一組從Twitter中收集的帶有手動注釋的圖像-文本對,可以作為單視圖情感分析與多視圖情感分析的有效基準(zhǔn)。MVSA 數(shù)據(jù)集中有兩種獨(dú)立的Twitter 數(shù)據(jù):一種為MVSASingle,包含5 129 條Twitter 圖像-文本數(shù)據(jù)對,每條數(shù)據(jù)對都有對應(yīng)的情感標(biāo)注,標(biāo)注主要分為積極、消極、中立三類;另一種為MVSA-Multi,包含19 600 條圖像-文本數(shù)據(jù)對,每條數(shù)據(jù)有3 個互相獨(dú)立的情感標(biāo)注,來自三名不同的標(biāo)注者。在文獻(xiàn)[15]中,采用投票方式綜合MVSA-Multi 中每條Twitter 的三條標(biāo)注,每條得出一個總標(biāo)注。
文獻(xiàn)[16]使用來自Yelp.com 中關(guān)于食品和餐館的在線評論數(shù)據(jù)集,主要涵蓋美國的5 個主要城市,包括:波士頓(Boston,BO)、芝加哥(Chicago,CH)、洛杉磯(Los Angeles,LA)、紐約(New York,NY)和舊金山(San Francisco,SF)。統(tǒng)計(jì)數(shù)據(jù)如表1 所示,其中:洛杉磯評論數(shù)是最多的,有最多的文件和圖像;波士頓評論數(shù)是最少的。然而,就句子數(shù)量(#s)和單詞數(shù)量(#w)而言,這5 個城市的文檔長度非常相似。該數(shù)據(jù)集總共有超過4.4萬條評論,其中包括24.4萬張圖片,每條數(shù)據(jù)至少有3幅圖像。
Multi-ZOL 數(shù)據(jù)集[17]收集整理了IT 信息和商業(yè)門戶網(wǎng)站ZOL.com 上的關(guān)于手機(jī)的評論。原始數(shù)據(jù)有12 587 條評論(7 359 條單模態(tài)評論,5 288 條多模態(tài)評論),覆蓋114 個品牌和1 318 種手機(jī)。其中的5 288 多模態(tài)評論構(gòu)成了Multi-ZOL數(shù)據(jù)集。在這個數(shù)據(jù)集中,每條多模態(tài)數(shù)據(jù)包含1 個文本內(nèi)容、1個圖像集,以及至少1個但不超過6個評價(jià)方面。這6個方面分別是性價(jià)比、性能配置、電池壽命、外觀與感覺、拍攝效果、屏幕??偣驳玫?8 469 個方面,對于每個方面,都有一個從1 到10 的情感得分。Twitter-15 和Twitter-17 是包含文本和文本對應(yīng)圖片的多模態(tài)數(shù)據(jù)集,數(shù)據(jù)集標(biāo)注了目標(biāo)實(shí)體及對其圖文中表達(dá)的情感傾向。整個的數(shù)據(jù)規(guī)模是Twitter-15 有5 338條帶圖片推文,Twitter-17有5 972條帶圖片推文,情感標(biāo)注為三分類。
文獻(xiàn)[18]中使用標(biāo)記數(shù)據(jù)主要來自Prettenhofer 和Stein創(chuàng)建的Amazon review 數(shù)據(jù)集。該數(shù)據(jù)集具有代表性,包含四種語言:英語、日語、法語、德語。對于每種語言和領(lǐng)域,該數(shù)據(jù)集包含1 000 條正面評論與1 000 條負(fù)面評論。同時(shí),提取帶有表情符號的推文[19],用來學(xué)習(xí)基于表情符號的句子表示。對于每種語言,提取包含該語言中使用的前64 個表情符號的推文,為每個獨(dú)特的表情符號創(chuàng)建單獨(dú)的標(biāo)簽,使得表情符號預(yù)測成為一個單標(biāo)簽的分類任務(wù)。
文獻(xiàn)[20]中創(chuàng)建了Task-4 數(shù)據(jù)集,收集時(shí)間為2015 年10月至12 月的推文。主要使用公共流媒體Twitter API 來下載推特?cái)?shù)據(jù),然后手動篩選產(chǎn)生的數(shù)據(jù),以獲得一組200 個有意義的主題,每個主題至少包含100 條數(shù)據(jù)。數(shù)據(jù)處理過程主要是排除了一些難以理解、含糊不清的話題(比如巴塞羅那,它既是一個城市的名字,也是一個運(yùn)動隊(duì)的名字),或者過于籠統(tǒng)的話題(比如巴黎,它是一個大城市的名字);然后,丟棄那些僅僅提及某個主題但實(shí)際上與該主題無關(guān)的數(shù)據(jù)。Task-4 數(shù)據(jù)集主要包括四個部分:TRAIN(用于培訓(xùn)模型)、DEV(用于調(diào)優(yōu)模型)、DEVTEST(用于開發(fā)時(shí)間評估)和TEST(用于官方評估)。前三個數(shù)據(jù)集使用Amazon 的Mechanical Turk進(jìn)行注釋,而測試數(shù)據(jù)集則在CrowdFlower上進(jìn)行注釋。
傳統(tǒng)的提取情感特征的方法是應(yīng)用情感詞典,基于情感知識構(gòu)建情感詞典,對文本的情感極性進(jìn)行判斷,其中,大部分情感詞典是人為構(gòu)建的。Whissell[21]要求148名人員用5個附加單詞對相應(yīng)術(shù)語進(jìn)行描述,如:數(shù)學(xué)、電視等,然后同情感詞典中的情感詞進(jìn)行匹配。Whissell[22]對原本構(gòu)建的情感詞典進(jìn)行更新,加入第三等級維度(圖像),增加了情感詞典的適用范圍。李壽山等[23]利用英文情感詞典,借助翻譯系統(tǒng)構(gòu)建了中文情感詞典。王志濤[24]等提出了基于詞典及規(guī)則集的微博情感分析方法,使用40 余萬條的微博數(shù)據(jù)構(gòu)建情感詞典,對于基礎(chǔ)情感詞典資源進(jìn)行擴(kuò)展,將表情符號添加為語義信息,為情感分析提供幫助。Cai等[25]提出了一個三層的情感詞典,可以將情感詞同其對應(yīng)的實(shí)體聯(lián)系在一起,減少情感詞的多重含義,主要使用一個疊加混合模型支持向量機(jī)(Support Vector Machine,SVM)與梯度提升樹(Gradient Boosting Decision Tree,GBDT)相結(jié)合,克服二者自身的缺點(diǎn),通過實(shí)驗(yàn)發(fā)現(xiàn),混合模型的效果優(yōu)于單模型效果。栗雨晴等[26]使用微博及現(xiàn)有的知識庫構(gòu)建了雙語情感詞典,提高分類器的性能,主要提出了基于半監(jiān)督高斯混合模型以及K近鄰算法的情感分類;實(shí)驗(yàn)結(jié)果表明,提出的分類方法準(zhǔn)確率高于傳統(tǒng)的分類方法。Xu等[27]構(gòu)建了一個擴(kuò)展的情感詞典,該詞典主要包含基本情感詞、領(lǐng)域情感詞及多義情感詞,提高了情感分析的準(zhǔn)確性;使用樸素貝葉斯(Na?ve Bayesian,NB)分類器確定一詞多義的位置,得出對應(yīng)的情感值;利用擴(kuò)展的情感詞典與情感評分規(guī)則,實(shí)現(xiàn)文本的情感分類。
基于機(jī)器學(xué)習(xí)的文本情感分析[28]主要是人工提取文本特征,然后由計(jì)算機(jī)按照特定的算法進(jìn)行文本處理與情感分類。這種方法具有兩個方面的優(yōu)勢:第一,能夠減少研究人員的工作負(fù)擔(dān)、減少非理性的判斷;第二,能夠根據(jù)數(shù)據(jù)庫的變化對詞庫不斷進(jìn)行更新。楊爽等[29]提出了一種基于SVM 多特征融合的情感五級分類方法,從詞性特征、情感特征、句式特征、語義特征四個方面,提取動詞、名詞、情感詞、否定詞等14 個特征,實(shí)現(xiàn)非常正面、正面、中立、負(fù)面、非常負(fù)面五級的分類。Pang等[30]以電影評論為數(shù)據(jù),使用三種機(jī)器學(xué)習(xí)方法(NB、最大熵分類、SVM)對其進(jìn)行情感分類,采用一元模型進(jìn)行特征的構(gòu)建,進(jìn)行篇章級的情感分類判定,實(shí)驗(yàn)結(jié)果表示SVM 和NB具有較好的情感分類效果。Kamal等[31]提出了一個基于特征的意見挖掘與情感分析系統(tǒng),豐富了自然語言處理的特征集,并將這些特征進(jìn)行有效組合,生成了一個詞級的情感分析系統(tǒng),實(shí)現(xiàn)了對不同電子產(chǎn)品中用戶評價(jià)的情感極性的劃分。Rong 等[32]基于文本文檔的高維特性,采用自編碼器進(jìn)行降維與特征提取,提出了一種基于自編碼器的bagging 預(yù)測體系結(jié)構(gòu),在數(shù)據(jù)集實(shí)驗(yàn)中具有性能的提升。Dai等[33]通過增加權(quán)重突出情感特征,使用bagging來構(gòu)造不同特征空間上的分類器,將分類器組合成為一個聚合分類器,提高了情感分類的性能。
基于深度學(xué)習(xí)的文本情感分析主要是通過構(gòu)建網(wǎng)絡(luò)模擬人腦神經(jīng)系統(tǒng),對文本進(jìn)行特征提取、自動化學(xué)習(xí)與模型優(yōu)化,最后進(jìn)行情感分析,能提升文本情感分析的準(zhǔn)確性。神經(jīng)網(wǎng)絡(luò)的模型主要使用詞嵌入技術(shù),例如:使用Word2Vec 將人類語言轉(zhuǎn)化成機(jī)器語言[34]。Tang 等[35]提出學(xué)習(xí)情感特定詞嵌入模型解決詞表示只模擬句法環(huán)境而忽略文本感情的問題,開發(fā)了三種神經(jīng)網(wǎng)絡(luò),有效地將文本的情感極性納入到損失函數(shù)中。為了獲得大規(guī)模的訓(xùn)練語料庫,從大量正向情感和負(fù)向情感中收集遠(yuǎn)距離監(jiān)督的推文,從推文中學(xué)習(xí)情感特定詞嵌入模型。將情感特定詞嵌入(Sentiment-Specific Word Embedding,SSWE)應(yīng)用到Twitter 情感分析數(shù)據(jù)集中,實(shí)驗(yàn)結(jié)果表明,在性能最好的系統(tǒng)中,SSWE 功能與手工特征的功能具有可比性;將SSWE 同現(xiàn)有的特征集進(jìn)行連接,能夠進(jìn)一步提升性能。Kim[36]提出了一系列使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在預(yù)先訓(xùn)練的詞向量上訓(xùn)練句子級分類任務(wù)的方法,使用簡單CNN、靜態(tài)CNN、非靜態(tài)CNN 和多通道CNN 在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),其中使用靜態(tài)CNN、非靜態(tài)CNN 和多通道CNN 在部分?jǐn)?shù)據(jù)集上能夠取得很好的實(shí)驗(yàn)結(jié)果。Shin等[37]提出了幾種有效地將詞嵌入和注意力機(jī)制整合到CNN 中進(jìn)行情感分析的方法,這些方法可以提高傳統(tǒng)CNN 模型的準(zhǔn)確率、穩(wěn)定性和效率,是具有健壯性的集成學(xué)習(xí)方法。Li 等[38]為了實(shí)現(xiàn)文本情感的多分類,提出了一種基于長短時(shí)記憶(Long Short-Term Memory,LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)語言模型,該模型能有效地獲取完整的序列信息,能夠更好地分析長句的情感;實(shí)驗(yàn)結(jié)果表明,該方法相較傳統(tǒng)的RNN 具有更高的準(zhǔn)確率和召回率。羅帆等[39]提出一種結(jié)合RNN 和CNN 的層次化網(wǎng)絡(luò)(Hierarchical RNN-CNN,H-RNN-CNN)模型,將文本的句子作為中間層,改善了文本過長帶來的信息丟失問題。周泳東等[40]為解決在文本情感分析的任務(wù)中傳統(tǒng)CNN 沒有考慮句子結(jié)構(gòu)和過度依賴所輸入的詞向量的問題,提出了一種基于特征融合的分段CNN(Piecewise Features-CNN,PF-CNN)模型。同傳統(tǒng)的文本CNN 相比,PF-CNN 模型在情感分析任務(wù)上的準(zhǔn)確率、召回率和F1 值等指標(biāo)都有顯著提升。Graves等[41]提出雙向長短期記憶(Bi-Long Short-Term Memory,Bi-LSTM)網(wǎng)絡(luò)以及一個改進(jìn)的LSTM學(xué)習(xí)算法的全梯度版本,主要發(fā)現(xiàn)雙向網(wǎng)絡(luò)優(yōu)于單向網(wǎng)絡(luò),且LSTM 網(wǎng)絡(luò)比標(biāo)準(zhǔn)RNN 和有時(shí)間窗的多層感知機(jī)(Multi-Layer Perceptron,MLP)網(wǎng)絡(luò)更快、更準(zhǔn)確,實(shí)驗(yàn)表明Bi-LSTM 網(wǎng)絡(luò)是一種有效利用上下文信息的體系結(jié)構(gòu)。Hyun 等[42]提出了針對目標(biāo)層次情感分析(Target-Level Sentiment Analysis,TLSA)任務(wù)相關(guān)的一種依賴于目標(biāo)的容量神經(jīng)網(wǎng)絡(luò)(Target-dependent Convolutional Neural Network,TCNN)。TCNN 主要是利用目標(biāo)詞與鄰近詞之間的距離信息來了解每個詞對目標(biāo)詞的重要性,能在單目標(biāo)數(shù)據(jù)集和多目標(biāo)數(shù)據(jù)集上都獲得較好的性能。
在圖片情感分析中,一般是基于圖片整體的視覺特征,從底層視覺特征到高級語義的映射,大致可以分為三種:基于傳統(tǒng)分析方法、基于圖片中層語義的表達(dá)以及基于深度學(xué)習(xí)技術(shù)。
早期圖片情感分析主要關(guān)注圖片的底層客觀視覺特征,使用機(jī)器學(xué)習(xí)技術(shù)對圖片情感進(jìn)行分類,其中,底層特征主要包括:顏色特征、紋理特征以及形狀輪廓特征。Machajdik等[43]提出了一些方法提取和組合代表圖像情感內(nèi)容的底層特征,并將其用于圖像的情感分類,這些方法主要利用心理學(xué)和藝術(shù)理論中的理論和經(jīng)驗(yàn)概念來提取具有情感表達(dá)的藝術(shù)作品領(lǐng)域特有的圖像特征,將Tamura 紋理特征、基于小波變換的紋理特征以及灰度共生矩陣應(yīng)用到了情感分類中,實(shí)驗(yàn)結(jié)果表明在國際情感圖片系統(tǒng)(International Affective Picture System,IAPS)上,與現(xiàn)有的藝術(shù)作品相比,分類結(jié)果得到了改善。Jia 等[44]對顏色的基本屬性進(jìn)行衡量,例如:飽和度、色調(diào)、顏色、明亮度等,利用圖像的基礎(chǔ)特征,使用半監(jiān)督學(xué)習(xí)框架自動預(yù)測藝術(shù)作品的情感。Yanulevskaya 等[45]將顏色空間量化為343種不同的顏色,將每個顏色通道均勻地劃分為7個不同的級別,進(jìn)而將色彩模型描述映射到可視單詞,表達(dá)藝術(shù)化作品的情感;同時(shí),也使用SIFT 描述符捕獲圖像中的輪廓、紋理及邊緣,并使用K-means 聚類創(chuàng)建可視化詞匯表。李娉婷等[46]提出了一種基于顏色特征的家居設(shè)計(jì)圖情感分類方法,通過人們對于顏色的理解與感知,建立設(shè)計(jì)圖顏色特征同語義的關(guān)系模型,基于徑向基函數(shù)(Radial Basis Function,RBF)網(wǎng)絡(luò)分類器對家居設(shè)計(jì)圖進(jìn)行情感分類。王上飛等[47]抽取圖像的顏色與形狀作為圖像的感性特征,采用RBF 神經(jīng)網(wǎng)絡(luò),由特征空間映射到情感空間,在情感空間內(nèi)實(shí)現(xiàn)圖像的感性檢索。Yanulevskaya 等[48]利用傳統(tǒng)的場景描述符Wiccest、Gabor特征,使用具有RBF的SVM 的框架用于情感類別的監(jiān)督學(xué)習(xí)。Lu 等[49]研究了自然圖像的形狀特征對人類情感的影響,例如:線條的圓度、棱角、簡單性、復(fù)雜性等特征都被認(rèn)為是影響人類情感反應(yīng)的重要因素。該方法能夠?qū)σ曈X形狀與情感間的相關(guān)性進(jìn)行系統(tǒng)分析,強(qiáng)烈或簡單的圓或角可以預(yù)測圖像的情感極性。
由于圖片底層特征與高層情感語義之間具有較大的距離,所以很多研究人員開始逐漸嘗試構(gòu)建中層語義來表達(dá)圖片情感[50]。Borth 等[12]提出將形容詞-名詞對(Adjective Noun Pairs,ANP)作為情感中層語義。同時(shí),文獻(xiàn)[12]中也提出了一種新的視覺概念檢測器庫SentiBank,利用彩色直方圖、局部二值模式(Local Binary Pattern,LBP)描述符、場景特征描述符等特征來進(jìn)行視覺情感分類,可用于檢測圖像中存在的1 200 個ANP;實(shí)驗(yàn)表明,該方法在檢測的精度與準(zhǔn)確度方面均有較大的提升。Zhao 等[51]使用特征描述符、方向梯度直方圖并結(jié)合手工特征,將多個圖合并在一個正則化框架中,學(xué)習(xí)每個圖的最優(yōu)權(quán)值,使不同特征互補(bǔ),進(jìn)而更好地應(yīng)用在情感圖像檢索中。Chen 等[52]提出了基于對象的視覺建模,從圖片中提取情感相關(guān)信息;該方法使用ANP 的方式進(jìn)行圖像標(biāo)記,將抽象的情感表達(dá)具體化。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展與進(jìn)步,在圖片分類、圖片識別[53]以及圖片檢索[54]等方面均有了重大進(jìn)展。2006 年,Hinton 教授[55]提出了深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN),使用多個隱層神經(jīng)網(wǎng)絡(luò)訓(xùn)練原始數(shù)據(jù),將數(shù)據(jù)中不易理解的高維數(shù)據(jù)轉(zhuǎn)化為容易理解的低維數(shù)據(jù),對于數(shù)據(jù)特征能夠更好地理解,進(jìn)而應(yīng)用在數(shù)字識別分類任務(wù)中。Keyvanrad 等[56]在DBN的基礎(chǔ)上對受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)的采樣方法進(jìn)行改進(jìn),利用數(shù)據(jù)集創(chuàng)建了一個強(qiáng)大的生成模型,能獲取數(shù)據(jù)中的精英樣本,更準(zhǔn)確地計(jì)算訓(xùn)練數(shù)據(jù)的對數(shù)概率梯度,減小分類的錯誤率。Zhou 等[57]基于DBN 提出了判別深度信念網(wǎng)絡(luò)(Discriminative Deep Belief Network,DDBN),該方法通過貪婪逐層無監(jiān)督學(xué)習(xí),利用標(biāo)記數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù),初步確定了深層體系結(jié)構(gòu)的參數(shù)空間,然后通過基于梯度下降的監(jiān)督學(xué)習(xí),利用指數(shù)損失函數(shù)對整個深度網(wǎng)絡(luò)進(jìn)行微調(diào),以最大限度地提高標(biāo)記數(shù)據(jù)的可分離性。實(shí)驗(yàn)結(jié)果表明,尤其在困難的分類任務(wù)中,DDBN 的性能較好。Krizhevsky 等[58]使用CNN 處理圖像數(shù)據(jù),也取得了較好實(shí)驗(yàn)效果。CNN 通過反向傳播(Back Propagation,BP)算法,能夠自動從大量的強(qiáng)標(biāo)記數(shù)據(jù)中學(xué)習(xí)到同任務(wù)有關(guān)的特征,比手工標(biāo)記特征更具有魯棒性。Chen 等[59]提出了一種基于CNN 的視覺情感概念分類法,從網(wǎng)絡(luò)照片標(biāo)簽中發(fā)現(xiàn)ANP,再對圖像情感進(jìn)行有效統(tǒng)計(jì),并使用基于深度學(xué)習(xí)框架Caffe 訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)結(jié)果表示該方法在標(biāo)注精度和檢索性能上都有顯著提高。You 等[60]提出了一種逐步訓(xùn)練及域轉(zhuǎn)移的深度神經(jīng)網(wǎng)絡(luò),稱為脈沖耦合神經(jīng)網(wǎng)絡(luò)(Pulse Coupled Neural Network,PCNN),使用兩層卷積層與四個全連接層,實(shí)驗(yàn)結(jié)果也驗(yàn)證了PCNN 模型的有效性。Mittal 等[61]介紹了在圖像情感分析中的DNN、CNN、基于區(qū)域的CNN(Regional CNN,R-CNN)和Fast R-CNN,并研究了它們的適應(yīng)性與局限性。曹建芳等[62]以自然圖像為例,提出了一種基于Adaboost-BP的圖像情感分析方法,通過幾何模型(OpenCasCade,OCC)對圖片的情感進(jìn)行描述,使用Adaboost算法,結(jié)合BP 神經(jīng)網(wǎng)絡(luò)的弱分類器,構(gòu)成了一個強(qiáng)分類器,也取得了良好的實(shí)驗(yàn)效果。蔡國永等[63]提出一種圖像整體與局部區(qū)域嵌入的圖像情感分析方法,利用對象探測模型對包含對象的區(qū)域進(jìn)行定位,通過深度神經(jīng)網(wǎng)絡(luò)對定位區(qū)域的情感特征進(jìn)行表示,最后使用整體特征與局部特征對情感分類器進(jìn)行訓(xùn)練,并預(yù)測圖像的情感極性;實(shí)驗(yàn)結(jié)果表明,基于圖像整體與局部區(qū)域嵌入的情感分析方法優(yōu)于基于圖像整體或局部區(qū)域嵌入的情感分析方法。
在社交媒體中,文本與圖像共同出現(xiàn)的情況和數(shù)據(jù)逐漸增加,文本與圖像的組合成為情感分析又一重要數(shù)據(jù)源。但是,當(dāng)前關(guān)于社交媒體情感分析主要是基于圖片或者文本,尤其文本情感分析,研究人員較多,這就導(dǎo)致圖片與文本的融合分析必要性逐漸增強(qiáng)。在基于圖文的情感分析領(lǐng)域,圖片與文本需要進(jìn)行融合,融合方式主要分為特征層融合、決策層融合和一致性回歸融合三種,如圖1所示。
特征層融合主要是指對多源傳感器不同的信息(文本、表情、圖像等)進(jìn)行特征提取,得到i個特征,分別表示為特征v1,v2,…,vi,然后對多個傳感器的信息特征直接連接或者加權(quán)連接,對特征進(jìn)行結(jié)合。特征層融合屬于圖文特征融合的中間層,對信息進(jìn)行有效壓縮,為最后的情感特征分類做準(zhǔn)備。
在特征層融合中,首先,Wang 等[64]提出了一種新的跨媒體詞袋模型(Cross-media Bag-of-words Model,CBM),使用一個統(tǒng)一的詞包對將微博的文本與圖像進(jìn)行表示,使用邏輯回歸對微博情感進(jìn)行分析。實(shí)驗(yàn)結(jié)果顯示,基于圖文方法的準(zhǔn)確率相較于基于文本方法的準(zhǔn)確率提高了4 個百分點(diǎn)。Zhang等[65]使用Bi-gram方法采集文本特征,使用互信息、信息增益等方法進(jìn)行選擇特征,圖像特征選擇主要是基于圖像的顏色與紋理特征?;谖谋竞蛨D像特征的融合,提出了一種新的基于相似度的鄰域分類器,對文本-圖像的情感進(jìn)行二分類。同樣為二分類,Cai 等[66]提出了一種基于CNN 的多媒體情感分析方法,使用兩個獨(dú)立的CNN 分別學(xué)習(xí)文本特征與圖像特征,將學(xué)習(xí)到的特征作為Multi-CNN 架構(gòu)的輸入,挖掘文本與圖像之間的內(nèi)在聯(lián)系。Niu 等[67]將不同類型的數(shù)據(jù)轉(zhuǎn)換成特征向量,采用詞袋模型(Bag-of-Words,BOW)訓(xùn)練文本特征,采用SIFT 訓(xùn)練圖像特征,采用深度玻爾茲曼機(jī)(Deep Boltzmann Machine,DBM)訓(xùn)練融合特征,最后使用SVM 將文本、圖像、融合的特征進(jìn)行融合與學(xué)習(xí),進(jìn)而進(jìn)行情感分析。然后,基于BOW、連續(xù)詞袋模型(Continuous-Bag-Of-Words,CBOW),Baecchi 等[68]對CBOW 模型加以擴(kuò)展,提出了一種新的連續(xù)詞袋學(xué)習(xí)表示模型CBOW-LR(CBOW-Learning Representation),不僅可以學(xué)習(xí)向量表示,還可以學(xué)習(xí)情感極性分類器。與CBOW 模型相比,CBOW-LR模型具有更高的極性分類精度與準(zhǔn)確性,在處理句法和語義的相似性時(shí)有很好的表現(xiàn)。CBOW-LR 模型是具有魯棒視覺特征的非監(jiān)督學(xué)習(xí)(具有神經(jīng)網(wǎng)絡(luò)),視覺特征可從部分觀察中恢復(fù),這些觀察可能是由于遮擋或噪聲或大量修改圖像造成的。同時(shí),CBOWLR 模型已經(jīng)擴(kuò)展到使用去噪的自動編碼器來處理視覺信息。連續(xù)詞袋去噪自動編碼器學(xué)習(xí)表示模型(CBOW-Denoising Autoencoder-Learning Representation,CBOW-DA-LR)以無監(jiān)督和半監(jiān)督的方式工作,學(xué)習(xí)文本和圖像表示,以及包含圖像的Tweet 情緒極性分類器,具有很好的實(shí)驗(yàn)效果。Ortis 等[69]提取和使用一個客觀的文字描述圖像自動提取的視覺內(nèi)容,該方法基于視覺特征和文本特征的貢獻(xiàn),定義了多模態(tài)嵌入空間;然后,在得到的嵌入空間的表象上訓(xùn)練一個監(jiān)督SVM來推斷情緒極性,所提出的客觀文本的開發(fā)有助于超越主觀的情緒極性估計(jì)。
金志剛等[70]提出了一種基于CNN 的多維特征微博情感分析模型,使用詞向量計(jì)算文本的語義特征,集合表情符號所具有的情感特征,利用CNN 挖掘文本特征與情感特征的深層關(guān)聯(lián),訓(xùn)練相應(yīng)的情感分類器,提升了情感分類器的性能。該模型使用了BP算法進(jìn)行訓(xùn)練,采用隨機(jī)梯度下降算法計(jì)算梯度,使用批標(biāo)準(zhǔn)化(Batch Normalization,BN)算法進(jìn)行正則化處理與歸一化處理。劉星[15]提出了一種融合局部語義信息的多模態(tài)輿情分析模型,能解決忽略圖像局部的高維語義信息等問題。圖像特征方面首先使用CNN 進(jìn)行卷積,采用多示例學(xué)習(xí)(Multiple Instance Learning,MIL)方法以及目標(biāo)檢測方法(Single Shot MultiBox Detector,SSD)對圖像的全局特征與語義特征進(jìn)行提取,最后將特征輸入到Bi-LSTM 以及注意力模型中對圖像特征進(jìn)行提取,文本特征提取方面主要使用CNN與最大池化操作;模型融合過程主要是將圖像特征與文本特征進(jìn)行拼接,輸入到全連接層進(jìn)行決策,最后使用Softmax 得出情感結(jié)果。繆裕青等[71]提出了一種圖文融合的情感分析方法,該方法主要通過訓(xùn)練詞向量模型將文本表示為包含豐富語義信息的詞向量,并將其輸入到Bi-LSTM 中,訓(xùn)練文本情感分類模型(Word-embedding Bidirectional LSTM,WBLSTM),該方法對大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練CNN 模型的參數(shù)進(jìn)行遷移,使用全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Neural Network,F(xiàn)CNN)得到訓(xùn)練圖片情感分類;最后,根據(jù)late fusion 對兩個模型進(jìn)行融合,進(jìn)行圖文情感分析。
Xu等[72]提出一種新的共記憶網(wǎng)絡(luò)(Co-Memory Network),在情感分析中,模擬視覺信息與文本信息的相互影響,捕捉圖像內(nèi)容與文本詞語之間的相互作用,通過迭代的方式提供文本信息尋找圖像關(guān)鍵詞,通過圖像信息來定位文本詞語。其中,在圖片特征與文本特征提取的過程中,加入了注意力權(quán)重,得出文本表示向量與圖像表示向量,最后使用softmax 得出情感極性。Truong等[16]提出了利用視覺信息進(jìn)行情感分析的方法——視覺方面注意網(wǎng)絡(luò)(Visual aspect attention Network,VistaNet)。該方法具有三層架構(gòu),分別是從單詞到句子,再到特定圖像的文檔表示,最后進(jìn)行綜合文檔表示,得出情感分析的結(jié)果。Nemati[73]等提出了一種混合多通道數(shù)據(jù)融合方法,采用線性映射,研究結(jié)果顯示,使用邊際Fisher 分析(Marginal Fisher Analysis,MFA)進(jìn)行特征級視聽融合的效果優(yōu)于交叉模態(tài)因素分析(Cross-modal Factor Analysis,CFA)和典型相關(guān)分析(Canonical Correlation Analysis,CCA)。
Zhang 等[74]為了獲取圖像和字幕之間的語義聯(lián)系,提出了一種同時(shí)考慮圖像和文字的交叉模態(tài)圖像情感極性分類方法。該方法將文本內(nèi)容之間的相關(guān)性轉(zhuǎn)換為圖像:首先,將圖像及其對應(yīng)的標(biāo)題發(fā)送到一個映射模型中,將其轉(zhuǎn)換為空間中的向量,通過計(jì)算最大平均偏差(Maximum Mean Discrepancy,MMD)得到其標(biāo)簽;然后,使用基于類感知注意的門控循環(huán)單元(Gated Recurrent Unit,GRU)將分布的表示分配給標(biāo)簽;最后,使用LSTM 對情緒極性進(jìn)行分類。在Getty Images 數(shù)據(jù)集和Twitter 1 269 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)證明了此模型優(yōu)于基線解決方案。
綜上所述,特征層融合中,使用CNN 及注意力機(jī)制對于圖片的分析會較為精準(zhǔn),能夠?qū)D片與文本的信息進(jìn)行綜合考慮;但是,在圖片與文本所具有的特征差異問題上,實(shí)驗(yàn)效果不夠好。這種方法優(yōu)點(diǎn)是在初期就可以進(jìn)行融合,后期只需要進(jìn)行學(xué)習(xí)與分類即可;缺點(diǎn)則是圖文兩種模態(tài)來自不同的語義空間,在時(shí)間維度上和語義維度上具有差異,不能直接合并,難度較大。表2 列舉了特征層融合不同模型策略的實(shí)驗(yàn)結(jié)果。
表2 特征層融合方法的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results of feature layer fusion methods
決策層融合主要是提取文本與圖像的情感特征vi(i∈N)和vg(g∈N),將每個情感特征分別輸入到各自的情感分類器中進(jìn)行情感分類,得到文本情感分析結(jié)果si和圖片情感分析結(jié)果sg,最后選擇合適的融合規(guī)則進(jìn)行決策與融合。
2013 年,Borth 等[12]引入了APN 的概念,引入概念檢測庫,提供中級的可視化表示。這種基于感知庫的情感預(yù)測方法在檢測精度方面有顯著的提升。該研究也為研究者提供一個大型的公共資源,包括一個視覺情感本體以及一個大型檢測庫。2016 年,Yu 等[75]將訓(xùn)練好的詞向量在CNN 上進(jìn)行文本情感分析,使用DNN 和廣義的Dropout 進(jìn)行圖像情感分析,最后將預(yù)測的概率進(jìn)行加權(quán)平均取得情感二分類與三分類的結(jié)果。蔡國永等[6]提出了一種基于CNN的圖文融合媒體的情感分析方法,該方法融合了三個不同文本特征(詞語級、短語級、句子級)與圖像特征所構(gòu)建的CNN 模型,將不同的分類結(jié)果相加求和,采用多數(shù)投票規(guī)則得出輸出結(jié)果,并分析不同表征能力所帶來不同的效果,最后實(shí)驗(yàn)結(jié)果顯示,融合三種分類結(jié)果的集成分類器分類效果最好。
基于相關(guān)數(shù)據(jù)集,Saini 等[76]設(shè)計(jì)一個情感識別系統(tǒng),采用雙峰方法,將用戶的情緒分為高興、悲傷與中性,系統(tǒng)可以用來銷售用戶所喜歡的產(chǎn)品,推薦合適的服務(wù),甚至檢測心理健康問題。鄧佩等[77]針對傳統(tǒng)微博情感分析方法對圖片、特殊符號以及上下文信息的忽略而導(dǎo)致的問題,提出了一種基于轉(zhuǎn)移變量的圖文融合微博情感分析方法。首先,構(gòu)建基于轉(zhuǎn)移變量的無監(jiān)督情感分析模型(Unsupervised Sentiment Analysis Model based on Transition Variable,USAMTV),主要使用分層貝葉斯模型,由微博、情感、主題、詞組組成;然后,在該模型中融入了表情符號,引入了主題與上下文信息,能獲取文本的情感分布,考慮圖片情感濃度對于文本情感分布所產(chǎn)生的影響;最后,對微博整體情感進(jìn)行計(jì)算。
基于多模態(tài)注意模型,Huang 等[78]提出一種新的圖像-文本情感分析模型,稱為深度多模態(tài)注意融合模型(Deep Multimodal Attentive Fusion,DMAF)。DMAF 主要利用混合融合框架挖掘圖片內(nèi)容與文本內(nèi)容的區(qū)別與聯(lián)系,進(jìn)而進(jìn)行情感分析。該模型中具有兩種獨(dú)立的單模態(tài)注意模型對文本情感與圖片情感進(jìn)行分類;同時(shí)提出了一種基于中間融合的多模態(tài)注意模型,利用圖像與文本之間的特征進(jìn)行聯(lián)合并進(jìn)行情緒分類;最后將文本、圖像、文本-圖像融合三種注意力模型進(jìn)行結(jié)合,進(jìn)行情感預(yù)測。Xu等[17]提出一種多交互記憶網(wǎng)絡(luò)(Multi-Interactive Memory Network,MIMN)模型,該模型主要包括兩個交互式的模型網(wǎng)絡(luò),不僅學(xué)習(xí)了交叉模態(tài)數(shù)據(jù)所造成的交互影響,還學(xué)習(xí)了單模態(tài)數(shù)據(jù)所造成的自我影響。該模型利用遞歸神經(jīng)網(wǎng)絡(luò)建立多模態(tài)記憶,以掌握文本和圖像中的短語類特征;同時(shí),遞歸記憶網(wǎng)絡(luò)還可以增強(qiáng)全局記憶抽象的記憶屬性。Kumar等[79]提出了一種混合深度學(xué)習(xí)模型用于實(shí)時(shí)多模態(tài)數(shù)據(jù)的細(xì)粒度情緒預(yù)測,模型分別對文本與圖像數(shù)據(jù)進(jìn)行處理,然后使用決策級多模態(tài)融合的方法。Kumar 等[79]使用的CNN-SVM 模型中有四個模塊,分別是離散化模塊、文本分析模塊、圖像分析模塊和決策模塊,實(shí)驗(yàn)結(jié)果分為非常積極、積極、中性、消極、非常消極五種,模型準(zhǔn)確率也得到了提升。
綜上所述,決策層融合具有捕獲多重相關(guān)性的能力。在決策層融合策略中,雖然避免了圖文兩種模態(tài)特征由于本質(zhì)的不同而對結(jié)果帶來的干擾,但是對于特征之間的互補(bǔ)關(guān)系,無法進(jìn)行學(xué)習(xí)。相較于特征層融合,決策層融合更加簡單,針對情感結(jié)果進(jìn)行融合即可,具有最優(yōu)的局部決策結(jié)果。但是,可能需要學(xué)習(xí)所有模態(tài)的分類器,提高分析成本。表3 列舉了決策層融合不同模型策略的實(shí)驗(yàn)結(jié)果。
一致性回歸融合主要是對圖文兩種模態(tài)的進(jìn)行相關(guān)性分析,輸入特征分布的協(xié)方差結(jié)構(gòu),考慮不同模態(tài)之間的相關(guān)性及其特征分布的差異,以文本vi(i∈N)及圖像vg(g∈N)為基礎(chǔ)構(gòu)成文本-圖像對。提取圖文兩種模態(tài)的情感特征,將提取的特征輸入到構(gòu)建的回歸模型中,模型中一般會加入相關(guān)性算法,學(xué)習(xí)圖片與文本的相關(guān)性權(quán)重,最后進(jìn)行情感分析。
表3 決策層融合方法的實(shí)驗(yàn)結(jié)果Tab.3 Experimental results of decision layer fusion methods
首先,由Chen 等[80]提出使用超圖結(jié)構(gòu)來組合文本、視覺和表情信息來進(jìn)行情感預(yù)測。他構(gòu)造的超圖捕捉了不同模式下推文的相似性,其中每個頂點(diǎn)代表一個推文,超邊由每個模式上的“質(zhì)心”頂點(diǎn)及其k個最近鄰組成;然后學(xué)習(xí)推文之間的關(guān)聯(lián)得分,用于情感預(yù)測。這樣,在情感預(yù)測中既考慮了模內(nèi)依賴,也考慮了模間依賴。
基于一致性回歸模型與卷積模型,You 等[81]提出了一種跨模態(tài)一致性回歸(Cross-modality Consistent Regression,CCR)模型,利用大型社交多媒體內(nèi)容進(jìn)行情感分析的需要,對CNN 視覺情緒分析模型進(jìn)行微調(diào),提取圖像的視覺特征;然后,訓(xùn)練了一個分布式的段落向量模型來學(xué)習(xí)圖像的相關(guān)標(biāo)題和描述,從而學(xué)習(xí)文本的特征;最后,對提出的跨模態(tài)一致性回歸模型進(jìn)行視覺和文本特征訓(xùn)練,學(xué)習(xí)最終的情感分類器,進(jìn)行圖文情感分析。Zhang 等[82]采用語義嵌入、情感嵌入以及詞匯嵌入三種不同的注意力機(jī)制進(jìn)行文本編碼,并將注意向量、LSTM注意力機(jī)制與注意力池化三種不同的注意力方式同CNN 模型相結(jié)合。該方法研究了詞語及其上下文的聯(lián)系,消除歧義,豐富段落表示。為了提高三種不同注意力CNN 模型的性能,使用CCR 模型和轉(zhuǎn)移學(xué)習(xí)方法,使用于篇章級的情感分析中,相較于傳統(tǒng)的一致性回歸模型,提升了圖文情感分析的準(zhǔn)確性。Chen 等[83]提出了一種弱監(jiān)督的多模態(tài)深度學(xué)習(xí)(Weakly Supervised Multi-modal Deep Learning,WS-MDL)的魯棒可伸縮情感預(yù)測方案。這種情感預(yù)測方案對于CNN 的學(xué)習(xí)是迭代的,有選擇地從低成本的具有噪聲的情感標(biāo)簽特征中學(xué)習(xí)。該方案首先從預(yù)訓(xùn)練的CNN 和DCNN模型中計(jì)算情感概率分布和多模態(tài)語句的一致性;然后,訓(xùn)練一個概率圖形模型來區(qū)分噪聲標(biāo)簽的貢獻(xiàn)權(quán)值,這些貢獻(xiàn)權(quán)值被進(jìn)一步發(fā)送回來分別更新CNN和DCNN模型的參數(shù)。實(shí)驗(yàn)結(jié)果顯示,該方案在情感預(yù)測方面具有較好的效果。
基于多層深度融合,Ji 等[84]提出了一種新的雙層多模態(tài)超圖學(xué)習(xí)(Bi-layer Multimodal HyperGraph learning,Bi-MHG)算法對模態(tài)之間的依賴性問題進(jìn)行解決。在Bi-MHG 模型中,具有一個兩層的結(jié)構(gòu):第一層結(jié)構(gòu)為推文級超圖學(xué)習(xí),對推文特征的相關(guān)性與推文相關(guān)性進(jìn)行學(xué)習(xí),預(yù)測推文情緒;第二層結(jié)構(gòu)為特征級超圖學(xué)習(xí),利用多模態(tài)情感詞典學(xué)習(xí)多個模態(tài)之間的相關(guān)性。該模型突出一種用于Bi-MHG 參數(shù)學(xué)習(xí)的嵌套交替優(yōu)化方法,實(shí)驗(yàn)中證明該模型具有較好的性能。蔡國永等[11]為了解決圖文之間語義匹配的問題,提出了一種基于層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)模型,能夠利用圖像的中層語義特征,采用VCG 提取特征、CNN 提取圖像中的ANP,使用Bi-LSTM 提取文本特征;最后,兩個特征融合主要是基于典型相關(guān)分析(CCA)和線性判別分析(Linear Discriminant Analysis,LDA)展開的,使用Multi-DCCA 和Multi-DeepLDA 進(jìn)行相關(guān)性分析與判別性分析,將兩個分析結(jié)果進(jìn)行融合,得出情感分析結(jié)果。Xu 等[85]提出了一種新的層次深度融合模型來對文本、圖像以及社會鏈接之間的相關(guān)性進(jìn)行探索,該模型可以全面且互補(bǔ)地學(xué)習(xí)文本、圖像與社會鏈接之間的特征,進(jìn)而進(jìn)行有效的情感分析。該模型將文本特征與圖像特征輸入到一個分層的長短期記憶(Hierarchical LSTM,H-LSTM)神經(jīng)網(wǎng)絡(luò)中,將圖片與文本不同的語義片段進(jìn)行結(jié)合,學(xué)習(xí)文本與圖像之間的相關(guān)性。同時(shí),該模型利用鏈接信息,將社會圖像之間的聯(lián)系使用加權(quán)關(guān)系網(wǎng)絡(luò)進(jìn)行建模,將每個節(jié)點(diǎn)嵌入到一個分布向量中,利用多層感知器MLP 對圖像文本特征與節(jié)點(diǎn)進(jìn)行融合,捕獲情感預(yù)測過程中的模態(tài)關(guān)聯(lián)。該模型同CCR、T-LSTM等模型相比,準(zhǔn)確性得到了提升。
綜上所述,在一致性回歸融合模型中,雖然考慮文本與圖像情感特征所具有的一致性、圖文語義特征,也融合了特種層融合與決策層融合的優(yōu)點(diǎn),但是不能夠考慮到文本與情感特征之間存在的異性。表4 列舉了一致性回歸融合不同模型策略的實(shí)驗(yàn)結(jié)果。
表4 一致性融合方法的實(shí)驗(yàn)結(jié)果Tab.4 Experimental results of consistent fusion methods
隨著人工智能的發(fā)展與應(yīng)用,圖文情感分析逐漸受到越來越多研究人員的關(guān)注,近些年來也取得較大的進(jìn)展,本文通過對文本情感、圖片情感以及圖文情感研究現(xiàn)狀的認(rèn)識,總結(jié)出當(dāng)前圖文情感分析還存在以下幾個問題:1)由于部分?jǐn)?shù)據(jù)集是小數(shù)據(jù)集,雖然考慮了圖文信息的差異,但是由于數(shù)據(jù)集數(shù)量不足,對于一些隱藏信息無法進(jìn)行分析;2)不同用戶表述情感的方式不同,在研究過程中,忽略了用戶之間存在的差異;3)不同模態(tài)之間的交互信息較少,無法充分發(fā)揮模式間的互補(bǔ)關(guān)系;4)社交媒體的隨意性與主觀性,會導(dǎo)致圖文之間出現(xiàn)互斥問題??偨Y(jié)出其面臨的挑戰(zhàn)與發(fā)展趨勢如下:
1)當(dāng)前圖文融合方面的數(shù)據(jù)集數(shù)量較少,數(shù)據(jù)不完整,數(shù)據(jù)內(nèi)容涵蓋范圍單一,需要更大規(guī)模的數(shù)據(jù)集,提升實(shí)驗(yàn)的準(zhǔn)確性。
2)對圖文數(shù)據(jù)集進(jìn)行標(biāo)注也是當(dāng)前研究的重要工作之一,但是標(biāo)注會耗費(fèi)一定的時(shí)間且需要一定的技巧,這就限制了圖文情感數(shù)據(jù)集的建立。因此,使用半監(jiān)督或者無監(jiān)督學(xué)習(xí)來進(jìn)行情感預(yù)測是下一步研究要點(diǎn)。
3)圖文特征一般是通過不同的模型獲取的,圖文特征存在不一致性,如何將兩個模態(tài)信息互相補(bǔ)充、互為印證,進(jìn)而建立更完善的圖文融合情感分析模型,是當(dāng)前具有挑戰(zhàn)的一個問題。
4)當(dāng)前研究中,文本語言類型一般為單一的,可以考慮不同的文本語言類型,面向更加廣泛的媒體數(shù)據(jù)。
5)通過圖文融合的情感分析數(shù)據(jù)可見,三分類甚至多分類的情感分析模型實(shí)驗(yàn)效果一般,需要進(jìn)一步研究圖片與文本二者的相關(guān)性與異性,提升情感分析的準(zhǔn)確率。
6)在圖文融合的過程中,考慮得更多的是圖片與文字,對于信息發(fā)布的時(shí)間、地點(diǎn)、用戶關(guān)系并未進(jìn)行充分考慮,這些信息發(fā)布特性對于提升分析的進(jìn)度具有一定的作用,是圖文情感分析的研究方向。
本文對圖文融合的情感分析進(jìn)行了綜述,包括圖文數(shù)據(jù)集的介紹,文本、圖片情感分析的研究現(xiàn)狀和圖文融合情感分析的研究現(xiàn)狀。其中,圖文融合情感分析的研究現(xiàn)狀主要從三個模塊進(jìn)行展開,分別為特征層融合、決策層融合和一致性回歸融合,并將各種方法進(jìn)行數(shù)據(jù)對比與分析。當(dāng)前,多模態(tài)融合的情感分析逐漸成為情感分析研究者的主要研究方面,具有十分重要的意義。在研究的過程中,許多相關(guān)領(lǐng)域的研究都值得借鑒,如:文本挖掘、圖像處理、自然語言處理等方法與技術(shù)。由于部分技術(shù)與方法不夠成熟,通過對于相關(guān)文獻(xiàn)展開的研究與分析,提出了當(dāng)前圖文情感分析存在的問題。針對現(xiàn)有工作的不足,探討進(jìn)一步的研究方向:1)更大的數(shù)據(jù)集與高質(zhì)量的注釋能夠有助于提高實(shí)驗(yàn)性能;2)使用半監(jiān)督或者無監(jiān)督的學(xué)習(xí)來進(jìn)行情感分析,減少人工標(biāo)注的壓力;3)建立更完善的圖文融合模型,尤其是考慮圖文的相關(guān)性、異性、一致性;4)能夠分析更多不同文本語言類型的情感,可以面向更多的圖文數(shù)據(jù);5)在進(jìn)行圖文情感分析的同時(shí),考慮用戶發(fā)布內(nèi)容的時(shí)間、地點(diǎn)、用戶關(guān)系等信息狀態(tài)。