黃宏展,蒙祖強(qiáng)
廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧530004
在日常生活里,人們所接觸的信息通常有以下幾種形式:視頻、聲音、圖片、文字等。在許多場(chǎng)合,從信息的感知到認(rèn)知的理解過(guò)程可能需要綜合多種形式的信息才能完成。多種形式信息所構(gòu)成的數(shù)據(jù),也叫做多模態(tài)數(shù)據(jù)。使用多模態(tài)數(shù)據(jù)可以從給定學(xué)習(xí)任務(wù)所考慮的每種模態(tài)中提取互補(bǔ)信息,與僅使用單個(gè)模態(tài)相比,可以產(chǎn)生更豐富的表示[1]。
情感分析領(lǐng)域里,目前較為常見(jiàn)的是針對(duì)文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理[2-3],挖掘文字背后蘊(yùn)藏的感情色彩。也有部分學(xué)者將圖像處理技術(shù)運(yùn)用于情感分析[4-5]。但是,目前綜合文本和圖像進(jìn)行多模態(tài)情感分析的研究相對(duì)比較少。在有的場(chǎng)合下,僅通過(guò)單一模態(tài)挖掘數(shù)據(jù)背后的情感特征往往容易產(chǎn)生歧義,需要借助其他模態(tài)信息的輔助才能夠更好地表達(dá)情緒傾向。例如,從圖1中(a)和(b)容易觀察出積極和消極的情感傾向,然而在(c)中只觀察圖片會(huì)誤以為描繪美麗的森林,結(jié)合文本中的“abandoned”“fallen”“shattered”等情感詞匯才可以得到原創(chuàng)者表達(dá)的消極傾向。圖片與文本數(shù)據(jù)的融合解釋,不但可以加強(qiáng)情感的傳達(dá),也能避免單模態(tài)下情感分析的片面性。
圖1 社交媒體上的圖文數(shù)據(jù)
在實(shí)際生活中,部分人工智能應(yīng)用場(chǎng)景需要涉及到多種模態(tài)輸入。學(xué)習(xí)更好的特征是多模態(tài)學(xué)習(xí)中的核心內(nèi)容之一,已有工作[6]表明通過(guò)深度學(xué)習(xí)提取到的特征往往能夠取得較好的效果。J?natas等[7]使用基于幀的時(shí)序卷積(convolution-through-time)深度模型學(xué)習(xí)預(yù)告片中圖像和音頻信息并融合網(wǎng)絡(luò)結(jié)果,以執(zhí)行多標(biāo)簽類型分類,準(zhǔn)確識(shí)別出多種電影類型。該方法基于視頻幀的圖像和音頻數(shù)據(jù)均具有時(shí)序結(jié)構(gòu),然而有些情況下需要考慮異構(gòu)的多模態(tài)數(shù)據(jù)。例如Oramas等[8]通過(guò)深度學(xué)習(xí)架構(gòu)提取音軌、文本評(píng)論以及封面圖片特征,進(jìn)行音樂(lè)流派分類,實(shí)驗(yàn)結(jié)果表明,組合不同模態(tài)特征分類性能優(yōu)于單模態(tài)特征。Bae等[9]在面對(duì)花卉數(shù)據(jù)分類任務(wù)時(shí),提出改進(jìn)的多模態(tài)卷積(m-CNN),利用多種CNN分別學(xué)習(xí)圖像信息和文本信息并集成表示有效識(shí)別花卉的類別,證明了語(yǔ)言描述信息可以作為圖像特征的有效補(bǔ)充。對(duì)學(xué)習(xí)到不同模態(tài)特征,如何進(jìn)一步利用它們之間的關(guān)聯(lián)信息,發(fā)揮其互補(bǔ)特性則需要合適的模態(tài)融合方式。
進(jìn)行不同模態(tài)特征的融合同時(shí)也是多模態(tài)任務(wù)的關(guān)鍵內(nèi)容。模態(tài)表征融合階段可以分為早期特征級(jí)別和后期決策級(jí)別融合兩個(gè)階段。深度學(xué)習(xí)中較為常見(jiàn)的是提取模型中層輸出作為特征進(jìn)行特征級(jí)融合,基本融合方法主要有拼接[10-11]、矩陣加法[12-13]、哈達(dá)瑪積[14]等方法。
迄今為止在多模態(tài)情感分析領(lǐng)域仍然存在諸多難點(diǎn)。首先不同模態(tài)數(shù)據(jù)對(duì)同一信息的表達(dá)形式不同,數(shù)據(jù)的結(jié)構(gòu)和屬性各異使得機(jī)器可能無(wú)法識(shí)別具有相關(guān)含義的表征。其次,不同模態(tài)數(shù)據(jù)之間的互補(bǔ)特質(zhì)難以充分利用。數(shù)據(jù)的底層特征往往具有不同的維度和分布,模態(tài)間的特征融合無(wú)法有效結(jié)合數(shù)據(jù)的關(guān)聯(lián)信息。此外,即使網(wǎng)絡(luò)上存在大量的多模態(tài)數(shù)據(jù),關(guān)于多模態(tài)情感分類的公開數(shù)據(jù)集依然較少。針對(duì)目前多模態(tài)情感分類任務(wù)的難點(diǎn),本文進(jìn)行圖像和文本模態(tài)的自注意力深層語(yǔ)義特征提取,并構(gòu)建了雙向注意力機(jī)制的多模態(tài)情感分類模型,引入不同模態(tài)特征相互交互,加強(qiáng)關(guān)鍵性特征判別,充分發(fā)揮模態(tài)間的互補(bǔ)信息。此外結(jié)合了特征融合和決策融合策略,進(jìn)一步提升情感分類任務(wù)的表現(xiàn)。實(shí)驗(yàn)結(jié)果基于兩個(gè)不同性質(zhì)的真實(shí)社交媒體數(shù)據(jù)集,在不同實(shí)驗(yàn)指標(biāo)下驗(yàn)證了所提方法的有效性和魯棒性。
隨著社交媒體呈現(xiàn)信息的多模態(tài)化,多模態(tài)情感分類吸引了研究人員的注意,許多研究工作開始嘗試在一種模態(tài)數(shù)據(jù)的基礎(chǔ)上引入其他模態(tài)數(shù)據(jù)進(jìn)行情感識(shí)別。情感分類任務(wù)通常包括數(shù)據(jù)預(yù)處理、特征提取、特征學(xué)習(xí)和分類四個(gè)模塊。多模態(tài)的分類任務(wù)是在特征學(xué)習(xí)模塊中進(jìn)行共享表征的學(xué)習(xí),主要有聯(lián)合表示和協(xié)同表示兩種方式[15]。其通用框架如圖2所示。聯(lián)合表示方式是將不同模態(tài)特征映射到同一向量空間。例如Zadeh等[16]提出一種端到端融合模型,通過(guò)張量積的形式將不同模態(tài)特征映射于同一向量空間表示,在單模態(tài)、雙模態(tài)以及三模態(tài)上的情感分類均得到了較好的效果,證明了該方法可以有效地捕獲模態(tài)內(nèi)和模態(tài)間相關(guān)關(guān)系。但是張量積的方式在面對(duì)較大維度特征時(shí)融合得到的特征維度將呈平方級(jí)甚至立方級(jí)增長(zhǎng)。協(xié)同表示是將不同模態(tài)特征映射到各自向量子空間,映射后的表征之間存在相互聯(lián)系。He等[17]提出視覺(jué)文本雙流模型學(xué)習(xí)各自的潛在語(yǔ)義表示,合并預(yù)測(cè)結(jié)果得到較好的分類精度。然而這種合并未能充分挖掘圖像文本中的重要元素的相關(guān)性。本文通過(guò)雙向注意力機(jī)制學(xué)習(xí)在本模態(tài)空間下關(guān)于另一模態(tài)的表征,在不增加特征維度的情況下發(fā)揮模態(tài)之間的互補(bǔ)特征以加強(qiáng)情感分類性能。
圖2 多模態(tài)分類任務(wù)的通用框架
決策級(jí)別融合方法通過(guò)組合多個(gè)分類器的結(jié)果,生成最終決策。Cao等[18]利用后期融合策略將單模態(tài)情感預(yù)測(cè)結(jié)果通過(guò)線性插值的方法組合,增強(qiáng)了情感分析結(jié)果。然而僅僅通過(guò)決策的融合會(huì)導(dǎo)致特征層面上關(guān)聯(lián)性的忽視[19]。本文結(jié)合特征融合和決策融合方法,進(jìn)一步提升了情感識(shí)別的準(zhǔn)確率。
注意力機(jī)制(Attention)參考了人類視覺(jué)注意力的特點(diǎn),對(duì)有效區(qū)域分配更多關(guān)注,獲取更多任務(wù)相關(guān)細(xì)節(jié),并抑制其他無(wú)關(guān)區(qū)域。在圖像視覺(jué)、文本處理等領(lǐng)域中,注意力對(duì)關(guān)鍵特征的作用主要體現(xiàn)在權(quán)重的分配上。
假設(shè)注意力層接受一個(gè)輸入Source,Source可以看成由鍵Key與值Value組成,給定一個(gè)任務(wù)相關(guān)的元素Query,通過(guò)計(jì)算Query與Key之間的相似性,歸一化得到Value關(guān)于Key的權(quán)重系數(shù),通過(guò)對(duì)Value加權(quán)求和得到最終注意力的數(shù)值。其計(jì)算公式如下:
自注意力機(jī)制是注意力機(jī)制的特殊情況,其中Key=Value=Query,即使得輸入的某一部分均與輸入自身每一部分進(jìn)行注意力計(jì)算,學(xué)習(xí)內(nèi)部關(guān)聯(lián),增強(qiáng)有效區(qū)域。
針對(duì)多模態(tài)情感分類提出的注意力混合模型,本章首先分別介紹文本和圖像模態(tài)的自注意力網(wǎng)絡(luò)模型,然后提出聚焦于通道級(jí)別圖像特征和單詞級(jí)別文本特征的雙向注意力模型。最后介紹分類器與計(jì)算最終情感結(jié)果的后期融合方法。多模態(tài)注意力混合模型總體結(jié)構(gòu)如圖3所示。
在自然語(yǔ)言處理任務(wù)中,對(duì)一段文字的處理也可以看成對(duì)一段文字序列的處理。一串文字的輸入在時(shí)間上具有前后關(guān)聯(lián)的特質(zhì),模型接受新詞的輸入后產(chǎn)生新的狀態(tài),循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)通過(guò)前后狀態(tài)的傳輸,能夠很好地處理序列數(shù)據(jù)的問(wèn)題。本文選擇RNN的變種LSTM網(wǎng)絡(luò)作為學(xué)習(xí)文本特征的模型。相較于普通RNN,LSTM具有長(zhǎng)時(shí)記憶功能,適合更長(zhǎng)的序列相關(guān)問(wèn)題。由于情感分類任務(wù)常常與特定情感詞匯具有更強(qiáng)的相關(guān)度,增強(qiáng)相關(guān)詞匯在分類任務(wù)的作用,有助于提升最終結(jié)果[20]。因此,文本將LSTM的每一步輸出聯(lián)結(jié)為文本的表示特征,通過(guò)自注意力機(jī)制,使模型更關(guān)注于關(guān)鍵步,也就是關(guān)注關(guān)鍵詞匯的輸出,以此學(xué)習(xí)到情感色彩更富的文本表征。
令DEC=[B1,B2,…,Bn],表示由n條文本記錄構(gòu)成的數(shù)據(jù)集。為了學(xué)習(xí)文本記錄的詞向量特征,本文使用Google發(fā)布的預(yù)訓(xùn)練BERT模型[21]對(duì)文本數(shù)據(jù)進(jìn)行詞嵌入,得到文本Bi的詞向量,表示為:,其中l(wèi)是固定的一段文本詞嵌入的向量數(shù)量。
為了進(jìn)一步學(xué)習(xí)文本的上下文特征,詞向量作為L(zhǎng)STM的輸入,并輸出每一步的結(jié)果。假定t時(shí)刻LSMT的輸入為,上一時(shí)刻輸出為ht-1,狀態(tài)為Ct-1。計(jì)算過(guò)程如下:
此時(shí)的輸出為:
其中,Wf、Wi、Wc、Wo是待訓(xùn)練的參數(shù)。最終得到的文本Bi上下文表示為。顯然,Si∈Rl×d,也是LSTM在t時(shí)刻的輸出。σ是sigmoid激活函數(shù),tanh是雙曲正切激活函數(shù)。在t時(shí)刻下LSTM模型內(nèi)部計(jì)算過(guò)程如圖4所示。
圖3 多模態(tài)雙向注意力融合模型總體結(jié)構(gòu)
LSTM模型可以輸出關(guān)于上下文表示的文本特征Si,但是并未體現(xiàn)每個(gè)輸入的詞對(duì)結(jié)果的不同的影響。為了使模型更聚焦于判別性特征,本文使用自注意力機(jī)制(Self-Attention),將文本表示Si設(shè)為注意力機(jī)制的Key,Value,Query,即特征中的每個(gè)狀態(tài)輸出通過(guò)線性變換與該特征的所有輸出在式(1)的基礎(chǔ)上進(jìn)行注意力計(jì)算,學(xué)習(xí)句子內(nèi)部依賴關(guān)系。其中相似性計(jì)算過(guò)程如下:
圖4 t時(shí)刻下LSTM模型計(jì)算流程
其中bs1是偏置。此處借鑒了Luong等[22]設(shè)計(jì)的注意力對(duì)齊函數(shù)向量點(diǎn)積?的思想,使得Si中每個(gè)向量也就是每個(gè)狀態(tài)的輸出均與Si中所有向量即所有狀態(tài)輸出進(jìn)行特征匹配。通過(guò)Dense層線性變換以及softmax函數(shù)的歸一化,得到Si本身在不同狀態(tài)下也就是的注意力權(quán)重αi,最終的加權(quán)求和即是自注意力下LSTM模型的輸出結(jié)果。計(jì)算公式如下:
其中,d是每個(gè)狀態(tài)輸出的長(zhǎng)度,輸出的結(jié)果∈Rl。
與文本模態(tài)數(shù)據(jù)具有時(shí)序性不同,圖像特征在空間上的分布更加離散。在類激活映射中,有效特征的分布相對(duì)位置并不一定具有規(guī)律性,甚至不一定在相同子空間中。在顏色、紋理、形狀等不同的特征子空間中皆可能存在有效的局部特征。關(guān)鍵性特征的選擇對(duì)情感分類的結(jié)果具有較大影響。利用卷積核和窗口滑動(dòng),卷積神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)權(quán)值參數(shù)共享,能夠有效捕捉圖像的局部特性,經(jīng)常被用于圖像處理任務(wù)[23]。VGG16是深度卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型,它的預(yù)訓(xùn)練模型已經(jīng)被廣泛應(yīng)用在圖像處理的表征學(xué)習(xí)過(guò)程中[10,24],并取得良好的效果。在本文中,利用VGG16模型的泛化能力結(jié)合遷移學(xué)習(xí)的微調(diào)方法,凍結(jié)模型的原有卷積層參數(shù)并外接一層卷積層,用于實(shí)現(xiàn)圖像特征提取。原有卷積層在Imagenet數(shù)據(jù)集上經(jīng)過(guò)充足的訓(xùn)練可以有效識(shí)別圖像主體,而外接卷積層的微調(diào)使其提取的特征更符合文本任務(wù)目標(biāo)。再利用自注意力機(jī)制,使模型更多聚焦于關(guān)鍵通道上的情感特征,提升模型對(duì)圖像情感類別的判斷能力。
數(shù)據(jù)集中的圖像數(shù)據(jù)可以記為IMG=[I1,I2,…,In],其中n表示圖像的數(shù)量。VGG16模型的結(jié)構(gòu)由5個(gè)卷積塊和3個(gè)全連接層組成共有16層[10]。本文提取圖像數(shù)據(jù)Ii在VGG16的第5個(gè)卷積模塊的結(jié)果,輸入外接卷積層,如圖5所示。在不同通道中學(xué)習(xí)情感的語(yǔ)義特征。通過(guò)增加卷積層在預(yù)訓(xùn)練VGG16模型的基礎(chǔ)上學(xué)習(xí)情感相關(guān)特征,Vi∈Rc×r,其中c是圖像特征的通道數(shù),r是子特征長(zhǎng)度。
圖5 調(diào)整后的VGG16模型
每個(gè)通道使用各自的卷積核學(xué)習(xí)特定視角下的子特征,本文使用自注意力機(jī)制,將Key=Value=Query均設(shè)置為圖像表示Vi,將每個(gè)通道的子特征與所有通道子特征在式(1)的基礎(chǔ)上進(jìn)行注意力計(jì)算,增大情感相關(guān)通道特征的辨別性,得到關(guān)于Vi通道間的注意力權(quán)重βi。與式(8)相同,利用點(diǎn)積方法計(jì)算當(dāng)前通道與其他通道的相似性。
最終對(duì)通道特征加權(quán)增加判別性子特征對(duì)結(jié)果的作用。計(jì)算公式如下:
其中,r是每個(gè)通道子特征長(zhǎng)度,輸出特征。
自注意力機(jī)制通過(guò)特征自身的注意力權(quán)重分配,可以使得模型聚焦于判別性特征,然而這種聚焦會(huì)使得模型更關(guān)注于特定事物而忽視了總體的情感表達(dá)。此外針對(duì)同一事物,其不同模態(tài)特征表示之間一般存在某種內(nèi)在關(guān)聯(lián)。顯然,有效利用這種關(guān)聯(lián)可以提高多模態(tài)數(shù)據(jù)分類的效果。在多模態(tài)情感分類方面,目前已有了一些工作[25-26],但這些工作幾乎未涉及到挖掘模態(tài)之間的互補(bǔ)性、相似性等關(guān)聯(lián)特征。通常來(lái)說(shuō),圖像能夠提供更豐富的視覺(jué)元素而缺乏對(duì)元素主觀聯(lián)系上的體現(xiàn),而文本能夠描述事物之間邏輯聯(lián)系,但是無(wú)法考慮事物的細(xì)節(jié)。
基于此,本文提出針對(duì)跨模態(tài)情感分類的雙向注意力網(wǎng)絡(luò),利用一種模態(tài)的高層語(yǔ)義特征,參與另一種模態(tài)下注意力特征的生成,此外由于高層語(yǔ)義特征被賦予了較多的情感特性,因此另一種模態(tài)的注意力權(quán)重將增強(qiáng)情感特征在分類中的作用。與上述相同,本文將LSTM模型學(xué)習(xí)到的特征作為文本特征,調(diào)整后的VGG16學(xué)習(xí)到的特征作為圖像特征。
在文本的圖像注意力特征計(jì)算過(guò)程中,由于圖像高層語(yǔ)義特征在實(shí)驗(yàn)中與文本特征首先進(jìn)行注意力計(jì)算,將其初始化為,Qi∈Rk,Qi是一組一維張量,k是Qi的長(zhǎng)度。此處,注意力機(jī)制中Query、Value均為Si,Key為Qi。由于圖像高層語(yǔ)義特征與文本特征Si維數(shù)不同,首先需要復(fù)制d次Qi,組成新的矩陣,然后跟文本表示Si在每個(gè)狀態(tài)輸出的級(jí)別上拼接,為文本信息擴(kuò)增圖像內(nèi)容。借助線性變換計(jì)算每個(gè)狀態(tài)LSTM輸出關(guān)于圖像高層語(yǔ)義的注意力權(quán)重,通過(guò)softmax函數(shù)進(jìn)行歸一化。計(jì)算過(guò)程如下:
其中:
其中,Dense層激活函數(shù)為tanh函數(shù),是偏置。{Si,dQi}表示Si與復(fù)制d次Qi拼接后的張量。
據(jù)產(chǎn)品負(fù)責(zé)人介紹,該平臺(tái)包含設(shè)備管理、項(xiàng)目管理、分析統(tǒng)計(jì)、健康管理、配件銷售、服務(wù)管理、還款管理等多個(gè)功能模塊,適用于各類工程機(jī)械設(shè)備。該平臺(tái)突破性地解決了多個(gè)工程機(jī)械行業(yè)管理痛點(diǎn)的同時(shí)幫助中聯(lián)重科解決了“最后一公里”管理難題,并憑借其技術(shù)創(chuàng)新和模式創(chuàng)新跑在了行業(yè)前列,成為我國(guó)裝備制造業(yè)有效集合大數(shù)據(jù)、物聯(lián)網(wǎng)等前沿技術(shù)進(jìn)行智能管理的第一梯隊(duì)成員。
此時(shí)文本關(guān)于圖像注意力特征的加權(quán)結(jié)果為:
其中:
其中,Dense層激活函數(shù)為tanh函數(shù),是偏置,{Vi,cUi}表示Vi與復(fù)制c次Ui拼接后的張量。此時(shí)圖像關(guān)于文本注意力特征的加權(quán)結(jié)果為:
其中,WQ、bQ分別是文本高層語(yǔ)義線性變換的參數(shù)與偏置,語(yǔ)義特征Qi∈Rk,這里σ是sigmoid函數(shù)作為線性變換激活函數(shù)。最終得到了文本增強(qiáng)的圖像特征Qi,和圖像增強(qiáng)的文本特征Ui。雙向注意力網(wǎng)絡(luò)與單向(單模態(tài))自注意力網(wǎng)絡(luò)對(duì)比如圖6所示。
圖6 雙向注意力模型與單向自注意力模型的結(jié)構(gòu)
本文為圖文雙向注意力特征{Qi,Ui},這里的{Qi,Ui}表示圖像與文本高層特征拼接后的共享表征,以及單模態(tài)圖像自注意力特征和文本自注意力特征搭建了相同的分類器結(jié)構(gòu),由兩個(gè)隱藏層與z個(gè)節(jié)點(diǎn)的輸出層構(gòu)成的多層感知器(MLP),z是類別數(shù)。輸入是對(duì)應(yīng)模態(tài)下得到的注意力特征Fi。分類過(guò)程如下:
兩個(gè)隱藏層均使用線性整流relu激活函數(shù),W1和W2分別是兩個(gè)隱藏層的參數(shù),輸出結(jié)果由softmax作為激活函數(shù)的輸出層得到模型的預(yù)測(cè)結(jié)果Yi。
不同模態(tài)以及跨模態(tài)決策過(guò)程是相對(duì)獨(dú)立的,因此本文通過(guò)后期融合,為三個(gè)決策結(jié)果賦予不同的決策分值,形成最終情感決策D。
其中,ω、μ是衡量決策重要程度的決策分值,分別是文本自注意力模型、圖像自注意力模型、圖文雙向注意力模型(BAM)的預(yù)測(cè)結(jié)果。假定算法達(dá)到指定迭代次數(shù)停止訓(xùn)練,多模態(tài)注意力混合模型計(jì)算過(guò)程如算法1所示。
算法1多模態(tài)注意力混合模型情感分類方法
輸入:訓(xùn)練集(B,I,Y),其中Y是情感傾向標(biāo)簽、文本自注意力模型預(yù)測(cè)結(jié)果YT、圖像自注意力模型預(yù)測(cè)結(jié)果YV。
輸出:圖文雙向注意力神經(jīng)網(wǎng)絡(luò)權(quán)重WM和偏置bM。以及圖文神經(jīng)網(wǎng)絡(luò)各自的決策分值ω、μ。
①隨機(jī)初始化所有網(wǎng)絡(luò)權(quán)重和偏置。
②定義圖像高層語(yǔ)義特征向量Q并進(jìn)行0初始化。
③以詞嵌入特征B作為文本部分輸入,經(jīng)過(guò)LSTM模塊學(xué)習(xí)文本特征S。
④以VGG16模型提取圖像數(shù)據(jù)I作為圖像部分輸入,經(jīng)過(guò)卷積層模塊學(xué)習(xí)圖像表示V。
⑤將文本特征S與圖像高層語(yǔ)義特征Q進(jìn)行注意力計(jì)算(如式(11)),得到加權(quán)后的特征。
⑥經(jīng)由全連接層進(jìn)一步更新文本高層語(yǔ)義特征U(如式(14))。
⑦將圖像特征V與文本高層語(yǔ)義特征U進(jìn)行注意力計(jì)算(如式(15)),得到加權(quán)后的特征。
⑧經(jīng)由全連接層,更新圖像高層語(yǔ)義特征向量Q(如式(18))。
⑨拼接融合Q、U,共享表征輸入分類器,得到分類輸出Y?M。
⑩根據(jù)輸出Y?M與標(biāo)簽Y計(jì)算分類結(jié)果交叉熵?fù)p失值。
?如果未達(dá)停止條件,則使用梯度更新算法學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)重WM和偏置bM,并轉(zhuǎn)③,否則轉(zhuǎn)?。
?根據(jù)文本與圖像分類模型預(yù)測(cè)結(jié)果YT、YV以及多模態(tài)模型預(yù)測(cè)結(jié)果Y?M,使用網(wǎng)格搜索尋找最優(yōu)的決策分值ω、μ(見(jiàn)如式(20))。
為了證明所提出方法的有效性,本文在單模態(tài)分析、多模態(tài)融合方法以及不平衡類別的數(shù)據(jù)集等方面,做了一系列實(shí)驗(yàn)。本章詳細(xì)說(shuō)明了實(shí)驗(yàn)的相關(guān)設(shè)置,介紹了針對(duì)多模態(tài)情感分類使用的數(shù)據(jù)集,并展示了所提出方法在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。此外通過(guò)可視化的方式進(jìn)一步分析模態(tài)之間的關(guān)聯(lián)性。
本文中的文本最大長(zhǎng)度設(shè)為200,經(jīng)過(guò)隱含層節(jié)點(diǎn)數(shù)為768的預(yù)訓(xùn)練BERT模型進(jìn)行詞嵌入后得到的文本特征為200×768。LSTM的隱含層節(jié)點(diǎn)數(shù)設(shè)置為512,并且保留每個(gè)狀態(tài)的輸出作為文本特征。圖像在輸入前全部縮放為224×224的尺寸,并保留三通道。黑白單通道圖片則將該通道復(fù)制三次再組合成三通道特征。外接卷積層使用2×2卷積核,個(gè)數(shù)為512,卷積步長(zhǎng)為1,并使用零填充補(bǔ)足長(zhǎng)度使與輸入相同。輸出的圖像特征為14×14×512雙向注意力計(jì)算中,由于具體實(shí)現(xiàn)中圖像語(yǔ)義特征晚于文本注意力計(jì)算,因此本文初始化了值為0的一個(gè)初始向量作為圖像高層信息輸入文本關(guān)于圖像的注意力計(jì)算。
分類器中前后兩個(gè)隱藏層的節(jié)點(diǎn)數(shù)分別是1 024和512。Flickr-M數(shù)據(jù)集下模型輸出層有兩個(gè)節(jié)點(diǎn),Memotion數(shù)據(jù)集下的實(shí)驗(yàn)設(shè)置輸出層有三個(gè)節(jié)點(diǎn)。本文針對(duì)二類分類問(wèn)題選擇二元交叉熵(binary crossentropy),三類分類問(wèn)題選擇分類交叉熵(categorical cross-entropy)作為損失函數(shù),并使用Adam優(yōu)化器進(jìn)行訓(xùn)練解目標(biāo)函數(shù),初始學(xué)習(xí)率為0.000 1。后期融合策略的三個(gè)決策分值參數(shù)ω、μ,是在0到1區(qū)間以0.1為步長(zhǎng)使用網(wǎng)格搜索技術(shù)進(jìn)行確定。本文中的模型均在NVIDIA RTX 2080TI顯卡上訓(xùn)練。
(1)Flickr-M數(shù)據(jù)集。Flickr是雅虎旗下的一個(gè)圖片托管與分享網(wǎng)站,在Flickr上可以通過(guò)檢索文本尋找相關(guān)的圖片。Borth等[27]介紹了一個(gè)包含了1 200個(gè)名詞對(duì)(ANPs)以及其對(duì)應(yīng)的情感值的視覺(jué)概念檢測(cè)庫(kù)。,本文通過(guò)Flickr提供的API接口在檢索所用的1 200個(gè)名詞對(duì),每個(gè)名詞對(duì)檢索60張圖片。同時(shí)獲取每張圖片對(duì)應(yīng)的介紹,并去除單詞數(shù)小于5或者大于100的文本和類似鏈接的無(wú)關(guān)文本,保留下與圖片相關(guān)的文本介紹信息。本文將情感值為正數(shù)的檢索詞檢索到的數(shù)據(jù)歸屬于積極類別,具有負(fù)數(shù)情感值的檢索詞檢索到的數(shù)據(jù)歸屬于消極類別,最終保留了10 000張積極情感和10 000張消極情感的圖片及其介紹。
(2)Memotion數(shù)據(jù)集。Memotion數(shù)據(jù)集[28]是SemEval-2020競(jìng)賽中的一個(gè)公開數(shù)據(jù)集。Memes樣本數(shù)據(jù)是近幾年流行的表情包文化,包含圖像與對(duì)應(yīng)文本。本數(shù)據(jù)集是主辦方從社交平臺(tái)中收集,包含6 992條圖像-文本數(shù)據(jù),并具有多方面的標(biāo)注標(biāo)簽:幽默檢測(cè)、嘲諷檢測(cè)等。本文使用“總體情感”標(biāo)簽進(jìn)行情感分類實(shí)驗(yàn)。由于部分標(biāo)記數(shù)量過(guò)少,所以本文將“積極”與“非常積極”標(biāo)簽統(tǒng)稱為積極,“消極”與“非常消極”統(tǒng)稱為消極,“中立”標(biāo)簽保持不變。最終得到了4 160條積極情感樣本,631條消極情感樣本以及2 201條中性情感樣本。
數(shù)據(jù)集Flickr-M有兩類情感類別,分別為消極類和積極類,這兩類的樣本數(shù)量相同,屬于平衡分類問(wèn)題;數(shù)據(jù)集Memotion有三類情感類別,這三類的樣本數(shù)分別為4 160、631和2 201,屬于不平衡分類問(wèn)題。也就是說(shuō),在實(shí)驗(yàn)中本文既使用了類別平衡的數(shù)據(jù)集,也使用了類別不平衡的數(shù)據(jù)集,以更好地驗(yàn)證所提出方法對(duì)不平衡分類問(wèn)題的魯棒性。表1展示了兩個(gè)數(shù)據(jù)集的分布情況。
表1 實(shí)驗(yàn)所用數(shù)據(jù)集的分布情況
本文中針對(duì)積極(P)與消極(N)情感二類分類實(shí)驗(yàn)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)為準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率Recall、F1值(F1-score)[13]。其計(jì)算公式如下:
其中,T和F分別表示預(yù)測(cè)值等于標(biāo)簽值和預(yù)測(cè)值不等于標(biāo)簽值的情況。例如TP表示預(yù)測(cè)值和標(biāo)簽值均為積極的情況數(shù)量,F(xiàn)P表示預(yù)測(cè)值為積極而標(biāo)簽值為消極的情況數(shù)量。
針對(duì)積極(P)、消極(N)還有中性(M)情感三類分類,由于Memotion樣本類別不平衡,本文使用權(quán)重平均(weight-averaging)的思想計(jì)算精確率(Precision)、召回率Recall和F1值(F1-score)三個(gè)指標(biāo)。準(zhǔn)確率(Accuracy)指標(biāo)計(jì)算方式與上述相似。具體計(jì)算公式如下:
其中,精確率(Precision)、召回率Recall和F1值(F1-score)的計(jì)算結(jié)合了One-vs-all策略,假設(shè)將積極類別(P)視為正類,即i=P,則消極(N)和中性(M)類別的結(jié)果均被視為負(fù)類。ωP為積極類別樣本占比。此時(shí)TPP表示為預(yù)測(cè)值和標(biāo)簽值均為積極情感的情況數(shù)量,F(xiàn)PP表示預(yù)測(cè)值為積極情況數(shù)量,而標(biāo)簽值為非積極情況的數(shù)量。F1P表示積極類別(P)視為正類時(shí)的F1值。
本文結(jié)合單模態(tài)與多模態(tài),注意力機(jī)制,不同特點(diǎn)的數(shù)據(jù)集和融合方法等多方面對(duì)所提出方法進(jìn)行比較,還實(shí)現(xiàn)了最新的算法進(jìn)行對(duì)比,以驗(yàn)證方法的有效性。這里將LSTM模型輸出特征視為文本特征,VGG16模型外接卷積層的輸出特征視為圖像特征,設(shè)置了以下對(duì)比實(shí)驗(yàn)組:
(1)T:將文本特征進(jìn)行情感分類。
(2)V:將圖像特征進(jìn)行情感分類。
(3)TV-Concat:將圖像特征與文本特征拼接進(jìn)行情感分類。
(4)T-SA:文本特征結(jié)合自注意力機(jī)制產(chǎn)生的判別性特征進(jìn)行情感分類。
(5)V-SA:圖像特征結(jié)合自注意力機(jī)制產(chǎn)生的判別性特征進(jìn)行情感分類。
(6)DMAF:對(duì)兩種單模態(tài)注意力加權(quán)特征拼接,結(jié)合后期融合進(jìn)行情感分類[23]。
(7)MBAH:該模型是本文提出的總模型。
表2和表3列出所提出模型與對(duì)比方法的實(shí)驗(yàn)結(jié)果。
表2 在數(shù)據(jù)集Flickr-M上的結(jié)果%
表3 在數(shù)據(jù)集Memotion上的結(jié)果%
從表2的結(jié)果,可以看出二類情感分類任務(wù)中,文本數(shù)據(jù)的分類效果相比圖像數(shù)據(jù)更好,這是由于在結(jié)構(gòu)上文本數(shù)據(jù)比圖像數(shù)據(jù)更容易挖掘情感特征。并且,多模態(tài)融合方法結(jié)合兩種模態(tài)關(guān)聯(lián)信息使得情感分類結(jié)果表現(xiàn)優(yōu)于單模態(tài)下的分類結(jié)果。注意力機(jī)制的引入也在一定程度上改善情感分類結(jié)果。通過(guò)表中標(biāo)記的最優(yōu)數(shù)據(jù)可以看出,本文所提出的MBAH模型總體上優(yōu)于其他方法,相較單模態(tài)文本T和圖像V模型的情感分類準(zhǔn)確率分別提升了4.4個(gè)百分點(diǎn)和18.5個(gè)百分點(diǎn)。與最近的方法DMAF相比,準(zhǔn)確率提升了1.2個(gè)百分點(diǎn)。這說(shuō)明了本文的MBAH模型可以更好地進(jìn)行情感分類任務(wù)。
從表3可以看出,多模態(tài)拼接融合方法對(duì)單模態(tài)下情感分類結(jié)果并沒(méi)有顯著提升,這是由于在更多類別下不同模態(tài)帶有的情感信息隨之更為復(fù)雜,對(duì)互補(bǔ)特征,關(guān)聯(lián)特征的學(xué)習(xí)難度更大。注意力機(jī)制的引入在該數(shù)據(jù)中未能改善單模態(tài)分類結(jié)果。這是由于類別不平衡,使得情感特征的學(xué)習(xí)不充分,而本文所提出的MBAH模型總體在多數(shù)指標(biāo)中均具有優(yōu)勢(shì),證明了MBAH方法的魯棒性。綜上,結(jié)合二類與三類分類的性能對(duì)比,MBAH對(duì)單模態(tài)情感分類模型提升較為明顯,并且超過(guò)了最近的DMAF方法,說(shuō)明了MBAH模型在情感分類任務(wù)中的有效性。
為了進(jìn)一步分析雙向注意力機(jī)制對(duì)圖文數(shù)據(jù)融合分類的影響,研究圖像和文本模態(tài)在分類過(guò)程的相關(guān)屬性,本文選取Flickr-M數(shù)據(jù)集中積極和消極情感圖文數(shù)據(jù)各兩條,分別對(duì)其在圖像模態(tài)模型、文本模態(tài)模型,以及圖文雙向注意力模型上的類激活權(quán)重分布進(jìn)行可視化對(duì)比。
其中對(duì)視覺(jué)圖像的可視化,根據(jù)grad-CAM方法[29],利用模型的最后一層卷積結(jié)果反向傳播求權(quán)重特征圖,并與原圖加權(quán),得到視覺(jué)類激活熱力圖。具體表示為該區(qū)域顏色越接近紅色,則該區(qū)域類激活權(quán)重越高。而對(duì)文本的可視化,本文通過(guò)單詞的掩膜(mask),得到缺失該單詞的一段文本,利用模型對(duì)該文本在當(dāng)前類的輸出值大小,判斷該詞的對(duì)分類結(jié)果的重要程度。具體表示為,重要程度越大,單詞背景紅色越深??梢暬Y(jié)果如圖7所示。
圖7 圖文雙向注意力模型與單模態(tài)模型類激活圖對(duì)比
可以觀察出,圖像注意力中對(duì)文本信息的引入使得圖像模型的關(guān)注能力相對(duì)較強(qiáng),也能更好地識(shí)別出文本所描述的事物。在文本注意力模塊對(duì)圖像信息的引入,使得模型摒棄了部分冗余無(wú)關(guān)信息,對(duì)圖像主體的語(yǔ)義識(shí)別更為精確。據(jù)此可以證明圖像與文本特征之間存在互補(bǔ)關(guān)系,可以有效地提升情感分類任務(wù)的表現(xiàn)。
本文提出了多模態(tài)雙向注意力融合模型(MBAH),利用雙向注意力機(jī)制學(xué)習(xí)圖像與文本表征的關(guān)聯(lián)信息,發(fā)揮多模態(tài)數(shù)據(jù)的互補(bǔ)特性,并混合早期融合和后期融合策略進(jìn)一步提升了情感分類任務(wù)的結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文所提出模型在類別平衡與類別不平衡數(shù)據(jù)集下均得到了更好的結(jié)果,證明了該模型的有效性與魯棒性。在未來(lái)的工作中,本團(tuán)隊(duì)將計(jì)劃更多地發(fā)掘社交網(wǎng)絡(luò)上的其他可用信息,例如結(jié)合地理位置、社交關(guān)系等信息開展社交媒體數(shù)據(jù)的情感分析研究。