趙之文
(南京信息工程大學(xué) 長(zhǎng)望學(xué)院,江蘇 南京 210044)
情感分析又稱(chēng)為意向挖掘/情感傾向分析,是指檢測(cè)評(píng)估人類(lèi)對(duì)于事件、問(wèn)題的心理狀態(tài),其相關(guān)理論和算法設(shè)計(jì)與人工智能、計(jì)算機(jī)視覺(jué)等多個(gè)領(lǐng)域相關(guān),是自然語(yǔ)言處理領(lǐng)域中非常熱門(mén)的課題。隨著互聯(lián)網(wǎng)的迅速普及以及多媒體的蓬勃發(fā)展,人們?cè)絹?lái)越傾向于在網(wǎng)絡(luò)上發(fā)表自己的言論與見(jiàn)解,大數(shù)據(jù)的出現(xiàn)使得計(jì)算機(jī)能夠利用文本、圖像、音頻和視頻等媒介去識(shí)別人們所表達(dá)的情感。近年來(lái),深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的興起也使得計(jì)算機(jī)識(shí)別情感成為可能。
模態(tài)是指人接受信息的方式。不同于單模態(tài)的情感分析,多模態(tài)能夠融合不同模態(tài)的信息,例如圖文結(jié)合、視聽(tīng)結(jié)合,通常是綜合兩種及以上模態(tài)的信息來(lái)識(shí)別情感。目前的研究中,大多數(shù)研究者對(duì)于單模態(tài)的情感分析已經(jīng)取得了較為可觀的成果。例如在文本情感挖掘方面,文獻(xiàn)[4]將情緒詞進(jìn)行分類(lèi),通過(guò)構(gòu)建情感詞詞典的方式對(duì)微博詞條進(jìn)行分類(lèi)統(tǒng)計(jì),并采用C#開(kāi)發(fā)權(quán)重計(jì)算器進(jìn)行交叉驗(yàn)證,達(dá)到80.6%的準(zhǔn)確率。由于只是對(duì)單一模態(tài)的數(shù)據(jù)進(jìn)行訓(xùn)練,單模態(tài)情感分析在某些情況下的準(zhǔn)確性并不理想,最典型的例子就是“反諷”模式識(shí)別,同一語(yǔ)句或圖片在不同模態(tài)的結(jié)合下被識(shí)別出的情感表達(dá)有可能恰恰相反。因此,雖然多模態(tài)情感分析技術(shù)正處于起步階段,但其潛在的研究?jī)r(jià)值和影響力是不容忽視的,可以應(yīng)用于商品評(píng)價(jià)、輿情監(jiān)測(cè)、案件偵查、社交互動(dòng)等眾多領(lǐng)域。本文旨在闡述多模態(tài)情感分析技術(shù)應(yīng)用的廣泛性及其發(fā)展前景。
隨著計(jì)算機(jī)的日益普及和互聯(lián)網(wǎng)的快速發(fā)展,人們?cè)絹?lái)越傾向于通過(guò)網(wǎng)絡(luò)社交軟件及媒體來(lái)表達(dá)個(gè)人情感。情感分析的目的是對(duì)接收到的模態(tài)信息進(jìn)行情感分類(lèi),以識(shí)別發(fā)表意見(jiàn)者的主觀意向,確定發(fā)表者對(duì)某事件的態(tài)度,以及各交流對(duì)象意欲表達(dá)的情感。對(duì)數(shù)據(jù)集進(jìn)行處理時(shí),通常需要為數(shù)據(jù)添加情感標(biāo)簽,例如SEED 數(shù)據(jù)集將情感標(biāo)簽分為三級(jí):積極、中性、消極,MOSI 數(shù)據(jù)集將情感標(biāo)簽分為-3 至+3七個(gè)層級(jí)。由于情感分析方面的研究尚處于起步階段,國(guó)內(nèi)外主流的數(shù)據(jù)庫(kù)多是基于單模態(tài),且部分?jǐn)?shù)據(jù)因涉及隱私問(wèn)題而并未完全公開(kāi),因此許多研究需要借助各平臺(tái)的用戶數(shù)據(jù)進(jìn)行。
國(guó)內(nèi)外的研究者已經(jīng)在單模態(tài)情感分析領(lǐng)域進(jìn)行了大量實(shí)驗(yàn),在文本、圖像、音頻單一模態(tài)情感識(shí)別中取得了可觀的研究成果。主要是基于圖片面部表情、文本、語(yǔ)音三種方式進(jìn)行情感分析。單模態(tài)情感分析不需要考慮與其他情感信息的聯(lián)系,因此獲取數(shù)據(jù)相對(duì)容易且有針對(duì)性,但單一模態(tài)的識(shí)別準(zhǔn)確性可能會(huì)略有遜色,且自身信息的噪聲影響和被攻擊帶來(lái)的信息缺失也難以克服。在單模態(tài)情感分析方面,大多基于傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)實(shí)現(xiàn)。
面部表情作為人們表達(dá)情感最直接的方式之一,在計(jì)算機(jī)情感識(shí)別方面有著非常重要的研究意義。幾年來(lái),隨著人工智能的迅速發(fā)展,國(guó)內(nèi)外學(xué)者逐漸傾向于使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法進(jìn)行人臉面部表情識(shí)別分析情感。文獻(xiàn)[7]基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)提出一種改進(jìn)的方案ROIKNN,通過(guò)對(duì)表情圖片的切割擴(kuò)大數(shù)據(jù)集,解決了神經(jīng)網(wǎng)絡(luò)模型泛化能力較弱的問(wèn)題,有效提高了對(duì)面部表情識(shí)別的準(zhǔn)確性。文獻(xiàn)[8]通過(guò)微調(diào)卷積神經(jīng)網(wǎng)絡(luò),采用漸進(jìn)式訓(xùn)練策略有效地克服了訓(xùn)練樣本的噪聲干擾問(wèn)題,較傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)有顯著的提升。文獻(xiàn)[9]提出一種圖像情感預(yù)測(cè)框架,將特征臉面部表情作為中級(jí)屬性加入該框架,提高了情感識(shí)別的精確度。
文本作為人們表達(dá)觀點(diǎn)最普遍的媒介之一,其所蘊(yùn)含的情感信息量是巨大的。傳統(tǒng)機(jī)器學(xué)習(xí)的流程包括:建立訓(xùn)練集,利用情感標(biāo)簽對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記,然后提取訓(xùn)練數(shù)據(jù)中的特征(例如抽取語(yǔ)氣詞匯、特殊語(yǔ)法結(jié)構(gòu)等),再利用訓(xùn)練模型對(duì)特征進(jìn)行文本的情感傾向分析。常用的機(jī)器學(xué)習(xí)方法有支持向量機(jī)(SVM)、樸素貝葉斯(NB)、隨機(jī)森林(RF)、最大熵模型等。
文獻(xiàn)[10]檢驗(yàn)了將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于情感分類(lèi)工作的有效性,最終發(fā)現(xiàn)支持向量機(jī)模型的識(shí)別率相對(duì)來(lái)說(shuō)比較理想。文獻(xiàn)[11]通過(guò)情感詞典擴(kuò)充并從詞性、句式、語(yǔ)義等方面提取多種單詞的特征,運(yùn)用支持向量機(jī)(SVM)對(duì)微博情感進(jìn)行5 級(jí)分類(lèi),最終得到的分類(lèi)準(zhǔn)確率高達(dá)82.40%。文獻(xiàn)[12]采用支持向量機(jī)分類(lèi)器將情感分析分為情感挖掘和觀點(diǎn)挖掘兩類(lèi),以微博短文本作為數(shù)據(jù)集,識(shí)別效果較好。
語(yǔ)音情感分析基于語(yǔ)音信號(hào)的產(chǎn)生機(jī)制來(lái)實(shí)現(xiàn)分析任務(wù),一般的流程為:提取語(yǔ)音中能夠反映情感傾向的特征參數(shù),然后應(yīng)用合適的識(shí)別方法確定語(yǔ)音中所包含的情感。對(duì)于語(yǔ)音信號(hào)的識(shí)別,目前主流的研究方法有馬氏距離判別法、神經(jīng)網(wǎng)絡(luò)法、主成分分析法(PCA)、隱馬爾可夫模型(HMM)、混合高斯模型法(GMM)等。文獻(xiàn)[14]采用完整語(yǔ)句作為全局特征進(jìn)行情感識(shí)別,并總結(jié)了語(yǔ)音信號(hào)的不同情感特征分布規(guī)律。文獻(xiàn)[15]在4 種情緒語(yǔ)音信號(hào)的基礎(chǔ)上增加了特征維數(shù),提出一種改進(jìn)型馬氏距離判別式,將情感識(shí)別率提高到94%。
傳統(tǒng)的單模態(tài)情感分析僅采用文本語(yǔ)句、圖像照片、音頻這三者中的一項(xiàng)作為識(shí)別依據(jù),進(jìn)行情感分析。通常這種單模態(tài)所提取的特征,不足以做到精確的情感分析。例如對(duì)于同一段文本數(shù)據(jù),在說(shuō)話者語(yǔ)調(diào)不同的情況下,所表達(dá)的意思可能是完全相反的。而多模態(tài)情感分析則是利用不同模態(tài)提取的特征,通過(guò)模態(tài)融合的方式來(lái)實(shí)現(xiàn)情感分析,從而克服了單模態(tài)的一些局限性,很大程度上提高了情感識(shí)別的精確性和穩(wěn)定性。
近年來(lái),深度學(xué)習(xí)發(fā)展迅速,其在自然語(yǔ)言處理、圖像識(shí)別和信號(hào)處理等領(lǐng)域取得了顯著的成果。因此利用深度學(xué)習(xí)進(jìn)行多模態(tài)分析成為研究者們的不二之選。深度學(xué)習(xí)的優(yōu)點(diǎn)在于,其省略了篩選數(shù)據(jù)特征的步驟,減少了在特征工程上的計(jì)算開(kāi)銷(xiāo),我們只需向網(wǎng)絡(luò)中輸入一定的數(shù)據(jù),通過(guò)修正參數(shù)即可得到較為滿意的結(jié)果,擁有較為廣泛的適用性。其中卷積神經(jīng)網(wǎng)絡(luò)(CNN)在跨模態(tài)情感分析中取得了不錯(cuò)的成效,實(shí)現(xiàn)步驟如圖1所示。多模態(tài)情感分析中最為重要的是模態(tài)融合技術(shù),目前主流的模態(tài)融合技術(shù)有三種:特征級(jí)融合、決策級(jí)融合、混合融合。
圖1 利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行多模態(tài)情感分析
特征級(jí)融合又稱(chēng)為早期融合,是指通過(guò)提取不同的單模態(tài)特征,將它們簡(jiǎn)單地連接并融合成一個(gè)多模態(tài)特征向量作為通用特征分析單元進(jìn)行情感分析。特征級(jí)融合的過(guò)程如圖2所示。
圖2 特征級(jí)融合
這種方法的優(yōu)點(diǎn)在于充分利用不同模態(tài)特征之間的相關(guān)性,由于特征融合在早期已經(jīng)完成,后續(xù)只需要一個(gè)分類(lèi)器即可。然而,這種方法也存在一定的缺陷,因?yàn)椴煌B(tài)特征可能取自不同的媒體文件或語(yǔ)義空間,相互差異較大以至于很難找到恰當(dāng)?shù)娜诤戏椒ā?/p>
決策級(jí)融合又稱(chēng)為后期融合,其特點(diǎn)是首先獨(dú)立地抽取每個(gè)模態(tài)的情感進(jìn)行分類(lèi)及分析,再將各個(gè)模態(tài)特征的分析結(jié)果融合。決策級(jí)融合的過(guò)程如圖3所示。
圖3 決策級(jí)融合
這種方法具有較高的自由性,使用者可以根據(jù)需要自由選擇不同的模態(tài)特征進(jìn)行學(xué)習(xí),對(duì)每個(gè)模態(tài)的學(xué)習(xí)都是有針對(duì)性的,因此學(xué)習(xí)效果顯著,同時(shí)還可以自由地選取分類(lèi)器和提取器。此外,若某一模態(tài)缺失,可以利用其他模態(tài)的特征來(lái)填補(bǔ)空缺。但是,決策級(jí)融合并未考慮到各個(gè)特征之間的聯(lián)系,并且需要提取、學(xué)習(xí)多個(gè)模態(tài)的特征,這使得時(shí)間成本大大提高。
混合融合則是將特征級(jí)融合和決策級(jí)融合相結(jié)合,旨在形成優(yōu)勢(shì)互補(bǔ),揚(yáng)長(zhǎng)避短,結(jié)合二者的優(yōu)點(diǎn)提高分析的準(zhǔn)確性和效率,同時(shí)克服二者的缺陷,彌補(bǔ)短板與不足?;旌先诤系倪^(guò)程如圖4所示。
圖4 混合融合
雖然多模態(tài)情感分析技術(shù)尚處于發(fā)展階段,但其所展現(xiàn)出來(lái)的應(yīng)用價(jià)值是不容小覷的。目前,在社交平臺(tái)和多媒體軟件上的情感分析應(yīng)用最為廣泛,一方面是因?yàn)閲?guó)內(nèi)外的數(shù)據(jù)集尚未完善,而各社交軟件可以利用自己平臺(tái)上的用戶數(shù)據(jù)訓(xùn)練模型,具有一定的針對(duì)性;另一方面用戶經(jīng)常在社交軟件上發(fā)表觀點(diǎn)以及相互交流,這使得情感分析成為一種潛在的需求。此外,多模態(tài)情感分析并不僅僅局限于社交軟件的應(yīng)用,其在電商平臺(tái)產(chǎn)品評(píng)價(jià)、輿論檢測(cè)、人機(jī)交互等方面都有著很大的應(yīng)用潛力。
近年來(lái),社交軟件的用戶數(shù)量不斷攀升,每日生成大量的圖文數(shù)據(jù),使得研究者們能夠利用這些數(shù)據(jù)進(jìn)行情感分析,例如,文獻(xiàn)[16]結(jié)合圖文雙模態(tài)對(duì)Getty Image 的樣本進(jìn)行訓(xùn)練,提出一種多模態(tài)回歸模型,并對(duì)圖像推文進(jìn)行大量的實(shí)驗(yàn),得到了較好的結(jié)果。文獻(xiàn)[17]采用混合融合的方法,利用Facebook 和YouTube 上大量的文本、圖像、音頻數(shù)據(jù)進(jìn)行情感分析,最終在YouTube 的數(shù)據(jù)集上將識(shí)別精確度提高到80%。文獻(xiàn)[18]提出一種多通道卷積神經(jīng)網(wǎng)絡(luò)的微博情感分析模型,該模型能夠很好地挖掘隱藏的語(yǔ)義信息。隨著社交軟件功能的日益豐富,開(kāi)發(fā)者也期望能夠增加人機(jī)交互的功能,例如“微信”軟件更新的“狀態(tài)”功能,微博的關(guān)鍵詞等功能,因此利用多模態(tài)情感分析技術(shù)精確識(shí)別人們?cè)谏缃卉浖习l(fā)表的圖文所蘊(yùn)含的情感,成為眾多社交軟件的重要需求。
隨著多媒體的發(fā)展和短視頻的興起(例如抖音、快手、bilibili 彈幕網(wǎng)的出現(xiàn)),彈幕交互功能不斷完善,這使得人們的娛樂(lè)方式變得更加豐富,也越來(lái)越傾向于就各種多媒體作品發(fā)表評(píng)論,同樣,這些多媒體軟件也產(chǎn)生海量的用戶數(shù)據(jù),因此研究人員開(kāi)始對(duì)多媒體軟件的情感分析進(jìn)行研究。例如,文獻(xiàn)[19]采用音頻和視頻雙模態(tài)分析方法,設(shè)計(jì)了交叉投票機(jī)制以融合模態(tài)信息,其在短視頻的情感分析上較其他識(shí)別模式有所提升。文獻(xiàn)[20]引入MOSI 數(shù)據(jù)集,基于視頻中的面部手勢(shì)及語(yǔ)音信息進(jìn)行情感識(shí)別,提出一種多模態(tài)字典的表示方法。
網(wǎng)上購(gòu)物已經(jīng)成為人們生活中不可缺少的購(gòu)物方式,電商的興起也使得一些不良商家趁機(jī)售賣(mài)虛假偽劣產(chǎn)品,因此平臺(tái)向用戶提供了產(chǎn)品評(píng)價(jià)的功能,以使用戶能夠快速了解產(chǎn)品的優(yōu)劣。然而,雖然大多數(shù)平臺(tái)提供了評(píng)價(jià)功能,但是并不能很好地展現(xiàn)該產(chǎn)品的品質(zhì),例如好評(píng)中經(jīng)常存在著恰恰相反的差評(píng)語(yǔ)句,這是由于某些商家為了減少差評(píng)的數(shù)量,有意地對(duì)評(píng)論分類(lèi)進(jìn)行了控制,這樣就違背了產(chǎn)品評(píng)價(jià)功能設(shè)立的初衷,因此“反諷識(shí)別”成為評(píng)價(jià)功能中不可或缺的一部分。目前就電商產(chǎn)品評(píng)價(jià)開(kāi)展情感分析方面的研究相對(duì)較少,大多是基于單模態(tài)的情感分析技術(shù),例如文獻(xiàn)[21]提出了面向產(chǎn)品評(píng)價(jià)文本的細(xì)粒度情感標(biāo)注體系,以統(tǒng)計(jì)大用戶群體對(duì)產(chǎn)品評(píng)價(jià)的情感傾向。文獻(xiàn)[22]根據(jù)旅游在線評(píng)論數(shù)據(jù)進(jìn)行深度學(xué)習(xí)的模型訓(xùn)練,通過(guò)表情圖片、評(píng)價(jià)文字等多模態(tài)融合,驗(yàn)證了多模態(tài)情感分析技術(shù)的優(yōu)越性。
然而,可以預(yù)見(jiàn)的是,隨著產(chǎn)品評(píng)價(jià)功能的逐漸完善,商家將向用戶提供圖片、文字、視頻等多種評(píng)價(jià)方式,因此多模態(tài)情感分析具有較高的應(yīng)用性。
在各類(lèi)重大事件中,網(wǎng)民的輿論往往對(duì)事件的發(fā)展起著推波助瀾的作用,如何迅速檢測(cè)到輿論的議論中心點(diǎn)、如何發(fā)現(xiàn)持積極觀點(diǎn)和消極態(tài)度的人群、如何正確疏導(dǎo)輿論方向,都在事件的處理中有著舉足輕重的意義。多模態(tài)情感分析技術(shù)在輿情監(jiān)測(cè)方面同樣發(fā)揮著重要作用,例如,文獻(xiàn)[23]利用多模態(tài)融合注意力機(jī)制有效減少了模態(tài)中的噪聲,在輿情識(shí)別方面驗(yàn)證了多模態(tài)情感分析技術(shù)相較于單模態(tài)情感分析的優(yōu)越性。
目前,多模態(tài)情感分析技術(shù)已經(jīng)成為研究人員的重點(diǎn)研究課題,其潛在的實(shí)用價(jià)值也越來(lái)越被人們所認(rèn)可。本文介紹了多模態(tài)情感分析的研究現(xiàn)狀,闡述了三種多模態(tài)融合方法,并分析了其在社交軟件、多媒體軟件、電商平臺(tái)等多領(lǐng)域的技術(shù)應(yīng)用。
然而,多模態(tài)情感分析仍然面臨著許多挑戰(zhàn),存在一些亟須解決的問(wèn)題。由于國(guó)內(nèi)外尚未建立完善、權(quán)威的數(shù)據(jù)集,研究人員大多是采用網(wǎng)絡(luò)軟件中的用戶信息數(shù)據(jù),存在一定的主觀性,很大程度上影響了情感分析的結(jié)果。多模態(tài)情感分析并非簡(jiǎn)單地將不同模態(tài)的信息相疊加,我們針對(duì)不同的應(yīng)用場(chǎng)景需要改變選取特征的方式并調(diào)整融合方法,而如何充分有效地利用各個(gè)模態(tài)之間的聯(lián)系與交互,則需要做更深一步的探索。