亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于雙注意力多層特征融合的視覺(jué)情感分析

2021-09-15 07:36:30蔡國(guó)永儲(chǔ)陽(yáng)陽(yáng)

計(jì)算機(jī)工程 2021年9期

蔡國(guó)永，儲(chǔ)陽(yáng)陽(yáng)

（1.桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院，廣西桂林 541004；2.桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室，廣西桂林 541004）

0 概述

隨著移動(dòng)終端技術(shù)的發(fā)展和可拍照設(shè)備的普及，越來(lái)越多的社交用戶(hù)每天通過(guò)社交媒體創(chuàng)建和分享海量的視覺(jué)內(nèi)容，這些用戶(hù)生成的視覺(jué)內(nèi)容的情感分析被廣泛地應(yīng)用于推薦、廣告、輿情監(jiān)控等領(lǐng)域。由于圖像的低級(jí)視覺(jué)特征和高級(jí)情感語(yǔ)義之間存在難以逾越的“情感鴻溝”以及情感本身的復(fù)雜性和主觀性，使得針對(duì)視覺(jué)內(nèi)容的情感分析任務(wù)極具挑戰(zhàn)性［1］。已有研究結(jié)果表明，圖像情感與圖像的不同層次的視覺(jué)特征相關(guān)，例如顏色等低層特征可以直接地刺激觀看者從而產(chǎn)生情感，圖像中的物體對(duì)象等高層特征同樣可以傳遞情感。近年來(lái)，深度學(xué)習(xí)特別是卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）在視覺(jué)識(shí)別領(lǐng)域展現(xiàn)出優(yōu)異性能［2］，基于深度學(xué)習(xí)的視覺(jué)情感分析方法也已經(jīng)取得了較好的效果［3-4］，但在克服“情感鴻溝”方面仍有提升空間。

現(xiàn)有的基于深度學(xué)習(xí)的視覺(jué)情感分析模型往往只利用網(wǎng)絡(luò)的最后一層輸出的語(yǔ)義向量作為特征進(jìn)而訓(xùn)練分類(lèi)器進(jìn)行情感分類(lèi)，忽略了CNN 淺層所提取的有用信息。同時(shí)，由于情感的復(fù)雜性，圖像之間情感差異往往由細(xì)微的局部特征所體現(xiàn)，因此需要在大量的局部特征中提取更具判別性的特征，現(xiàn)有的深度網(wǎng)絡(luò)的特征提取能力仍需進(jìn)一步增強(qiáng)。

針對(duì)以上問(wèn)題，本文構(gòu)建基于雙注意力多層特征融合的網(wǎng)絡(luò)模型DA-MLCNN。該模型通過(guò)設(shè)計(jì)一個(gè)多層全卷積網(wǎng)絡(luò)提取多層次的圖像特征，并引入空間注意力機(jī)制和通道注意力機(jī)制對(duì)不同層次的特征進(jìn)行強(qiáng)化，最終融合多層注意力特征從而得到圖像更具判別性的視覺(jué)特征以提升情感分類(lèi)效果。

1 相關(guān)工作

視覺(jué)情感分析方法從特征提取的角度主要分為基于手工設(shè)計(jì)特征的方法和基于深度學(xué)習(xí)的方法。基于手工設(shè)計(jì)特征的視覺(jué)情感分析方法通過(guò)利用人工構(gòu)造圖像特征來(lái)進(jìn)行圖像的情感分類(lèi)。早期的視覺(jué)情感分析研究主要通過(guò)統(tǒng)計(jì)學(xué)方法提取圖像的顏色、紋理等低層特征［5］。文獻(xiàn)［6］提取了圖像的全局顏色直方圖（Global Color Histogram，GCH）、局部顏色直方圖（Local Color Histogram，LCH）等特征進(jìn)行情感分析，證明了淺層視覺(jué)特征和情感之間存在著很大的相關(guān)性。受藝術(shù)原則和美學(xué)心理的啟發(fā)，一些工作也圍繞構(gòu)圖、平衡等藝術(shù)特征構(gòu)建圖像的情感表示［7］。隨著研究的深入，語(yǔ)義內(nèi)容等高層特征也被應(yīng)用于視覺(jué)情感分析［8］。由于淺層信息難以彌合圖像像素和情感語(yǔ)義之間的鴻溝，因此部分研究人員提出了構(gòu)建情感預(yù)測(cè)的中間語(yǔ)義表示，如文獻(xiàn)［9］提出了基于102 個(gè)以預(yù)定義場(chǎng)景屬性作為中層表示的圖像情感分析算法Sentribute，文獻(xiàn)［10］設(shè)計(jì)了基于1 200 個(gè)形容詞-名詞對(duì)（ANP）的大規(guī)模視覺(jué)情感本體庫(kù)，并訓(xùn)練情感探測(cè)器SentiBank 來(lái)提取圖像的中層表示。

隨著社交媒體中圖像數(shù)據(jù)的劇增，基于手工設(shè)計(jì)并提取特征的方法在面對(duì)大規(guī)模數(shù)據(jù)時(shí)具有很大的局限性［11］。卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)地從大規(guī)模數(shù)據(jù)中學(xué)習(xí)深度特征，因此研究人員開(kāi)始將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于視覺(jué)情感分析任務(wù)。如文獻(xiàn)［12］對(duì)在ImageNet 上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)后用于圖像的情感分類(lèi)，表明CNN 模型優(yōu)于以往基于手工特征的方法。文獻(xiàn)［13］將CNN 模型與支持向量機(jī)（SVM）相結(jié)合，在大規(guī)模的網(wǎng)絡(luò)圖像數(shù)據(jù)集上預(yù)測(cè)圖像情感。文獻(xiàn)［14］通過(guò)自適應(yīng)增強(qiáng)算法組合多個(gè)BP 神經(jīng)網(wǎng)絡(luò)弱分類(lèi)器的輸出，構(gòu)建圖像情感強(qiáng)分類(lèi)器，提高了圖像情感語(yǔ)義分類(lèi)的效率。與改善圖像全局表示的方法不同，部分研究致力于利用圖像的區(qū)域信息或其他模態(tài)信息來(lái)改進(jìn)情感分類(lèi)準(zhǔn)確率。如文獻(xiàn)［15］利用CNN 框架自動(dòng)地發(fā)現(xiàn)圖像中的情感區(qū)域，進(jìn)而利用局部區(qū)域信息進(jìn)行圖像情感識(shí)別。文獻(xiàn)［16］提出一種基于層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)同時(shí)學(xué)習(xí)圖像視覺(jué)特征表示和文本語(yǔ)義表示，通過(guò)捕獲視覺(jué)特征和文本情感特征之間的內(nèi)部關(guān)聯(lián)，從而更準(zhǔn)確地實(shí)現(xiàn)圖文融合社交媒體的情感預(yù)測(cè)。文獻(xiàn)［17］提出一種多層次深度卷積神經(jīng)網(wǎng)絡(luò)框架，通過(guò)結(jié)合包括顯著主體、顏色和局部特征在內(nèi)的先驗(yàn)信息，從多個(gè)層次學(xué)習(xí)圖像的情感表達(dá)。

注意力機(jī)制是深度學(xué)習(xí)用于模擬人類(lèi)感知注意力的重要方法。為提高視覺(jué)任務(wù)的效果，視覺(jué)注意力在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛研究應(yīng)用。如文獻(xiàn)［18］引入了一種通道注意力機(jī)制，用于自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng)以進(jìn)行圖像分類(lèi)。文獻(xiàn)［19］在多層CNN 結(jié)構(gòu)上同時(shí)引入空間注意力和通道注意力用于圖像字幕生成。已有部分研究將視覺(jué)注意力應(yīng)用到圖像情感分析任務(wù)中。如文獻(xiàn)［20］首先以視覺(jué)屬性探測(cè)器探測(cè)出圖片的視覺(jué)屬性，然后通過(guò)注意力模型關(guān)注圖像中該視覺(jué)屬性的響應(yīng)區(qū)域進(jìn)行情感識(shí)別。文獻(xiàn)［21］將視覺(jué)注意力融入到卷積神經(jīng)網(wǎng)絡(luò)圖像情感分類(lèi)框架中，并利用圖像的顯著性映射指導(dǎo)空間注意力的生成以獲得魯棒的圖像特征進(jìn)行情感分類(lèi)。

與已有研究不同，本文不僅考慮到圖像情感在空間上的強(qiáng)弱差異以及不同通道特征之間的語(yǔ)義差異，通過(guò)空間注意力和通道注意力增強(qiáng)特征的表達(dá)，融合深度模型抽取的多層特征以充分利用不同層次特征的互補(bǔ)性，以期達(dá)到更好的情感分類(lèi)效果。

2 方法描述

本文提出的基于雙注意力多層特征融合的視覺(jué)情感分析模型DA-MLCNN 整體結(jié)構(gòu)如圖1 所示，主要包含多層CNN 特征提取、雙注意力機(jī)制、注意力特征融合的情感分類(lèi)3 個(gè)部分，分別表示如圖1 中（a）、（b）、（c）3 個(gè)部分。

圖1 DA-MLCNN 模型框架Fig.1 Framework of DA-MLCNN model

為獲得更具判別性的圖像特征，首先將圖像輸入到具有多分支結(jié)構(gòu)的MLCNN 模型，提取圖像的不同層次的特征，即CNN 淺層提取到的低層特征fl和深層提取到的高層特征fh；然后將低層特征輸入空間注意力模塊，將高層特征輸入通道注意力模塊，以關(guān)注圖像中更能凸顯情感的區(qū)域以及選擇關(guān)注更重要的通道特征；最后融合空間注意力模塊輸出的結(jié)果f?l和通道注意力模塊的輸出結(jié)果f?h，形成具有判別性的特征表示用于訓(xùn)練情感分類(lèi)器。

2.1 多層CNN 特征提取

近年來(lái)通過(guò)對(duì)CNN 可視化研究表明，CNN 不同層提取的圖像信息具有不同性質(zhì)。具體而言，淺層提取到的信息更傾向于反映圖像的空間信息等低層特征，而深層提取到的信息則更傾向于反映圖像的語(yǔ)義內(nèi)容等高層特征［22］?？紤]到圖像情感與圖像的不同層次的特征相關(guān)，本文將利用不同層特征的互補(bǔ)性來(lái)提升情感分析性能，為此，設(shè)計(jì)一種多層全卷積網(wǎng)絡(luò)結(jié)構(gòu)MLCNN 用來(lái)提取多層次的圖像特征。與大部分視覺(jué)任務(wù)工作類(lèi)似，本文采用近年來(lái)在計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用廣泛的卷積神經(jīng)網(wǎng)絡(luò)模型VGGNet-16［2］作為多層特征抽取網(wǎng)絡(luò)MLCNN的基礎(chǔ)。如圖2所示，在VGGNet-16基礎(chǔ)上，將網(wǎng)絡(luò)各層輸出的特征通過(guò)不同的采樣方法，使其轉(zhuǎn)化為相同尺寸，如將卷積層Conv1_2、Conv2_2的輸出通過(guò)下采樣，將Conv4_3、Conv5_3 的輸出通過(guò)上采樣的方法，均調(diào)整為與Conv3_3 相同尺寸，再將各層分別進(jìn)行一次3×3 卷積核的卷積操作后進(jìn)行融合。其中，卷積層Conv1_2、Conv2_2 的輸出經(jīng)過(guò)以上操作融合后的輸出得到包含較多空間信息的低層特征fl?RW×H×C，卷積層Conv3_3、Conv4_3、Conv5_3 的輸出經(jīng)過(guò)以上操作融合后的輸出得到包含較多語(yǔ)義信息的高層特征fh?RW×H×C，其中，W和H表示特征圖的寬和高，C表示特征的通道數(shù)。

圖2 多層CNN 特征提取結(jié)構(gòu)Fig.2 Structure of multi-level CNN features extraction

2.2 雙注意力機(jī)制

人類(lèi)的視覺(jué)注意力可以突出整體特征中更重要的部分，以加強(qiáng)人類(lèi)視覺(jué)識(shí)別的能力。注意力機(jī)制對(duì)視覺(jué)情感分析也至關(guān)重要，在視覺(jué)情感分析任務(wù)中，如果能發(fā)掘出圖像中信息量最大的區(qū)域以及更重要的通道特征，將可能提升情感分類(lèi)的效果。DA-MLCNN 方法中的雙注意力機(jī)制包括空間注意力和通道注意力2 個(gè)部分。高層特征主要包含圖像高層次的抽象語(yǔ)義，因此對(duì)高層特征使用通道注意力加強(qiáng)情感語(yǔ)義信息更豐富的特征，以此進(jìn)行特征的重新標(biāo)定。低層特征主要包含圖像的空間信息，因此對(duì)低層特征使用空間注意力，以更加關(guān)注圖像的情感區(qū)域。

2.2.1 空間注意力機(jī)制

僅利用全局圖像特征向量來(lái)進(jìn)行圖像情感分類(lèi)，結(jié)果可能不是最優(yōu)的。圖像中的局部區(qū)域?qū)τ趫D像整體的情感表達(dá)至關(guān)重要，例如圖像中包含鮮花和笑臉的區(qū)域。引入空間注意力機(jī)制，通過(guò)訓(xùn)練方式定位出圖像中凸顯情感的局部區(qū)域并對(duì)其賦予更高的權(quán)重，以加強(qiáng)圖像空間域上的特征表示?？臻g注意力模塊結(jié)構(gòu)如圖3 所示。

圖3 空間注意力機(jī)制Fig.3 Spatial attention mechanism

首先將低層特征fl經(jīng)過(guò)1 個(gè)卷積核尺寸為1×1的卷積層進(jìn)行降維，然后通過(guò)tanh 激活函數(shù)得到尺寸大小為W×H的特征映射M，再將M經(jīng)過(guò)卷積層和sigmoid 激活函數(shù)生成空間注意力權(quán)重sa，計(jì)算公式為：

其中，Conv1、Conv2表示卷積操作。最終加權(quán)后的特征輸出為：

其中：?表示元素相乘。

2.2.2 通道注意力機(jī)制

CNN 提取的特征是多通道的，每個(gè)通道的特征表示該圖片特征在相應(yīng)卷積核上的分量，不同通道的特征所提取到的信息是不同的［19］，因此不同通道的特征對(duì)于情感分類(lèi)的重要性是不同的?，F(xiàn)有基于深度學(xué)習(xí)的視覺(jué)情感分析方法平等地對(duì)待每個(gè)通道特征，這在很大程度上限制了情感分類(lèi)的性能。通道注意力機(jī)制關(guān)注重要的通道特征，過(guò)濾無(wú)關(guān)的通道特征，可以看做一個(gè)對(duì)特征進(jìn)行重新標(biāo)定的過(guò)程。本文引入了通道注意力機(jī)制，對(duì)情感有高響應(yīng)的通道特征分配更大的權(quán)重以加強(qiáng)特征表示。通道注意力模塊結(jié)構(gòu)如圖4 所示。

圖4 通道注意力機(jī)制Fig.4 Channel attention mechanism

對(duì)于高層特征fh，可以進(jìn)一步表示為fh=其中表示第i個(gè)通道的特征圖。首先對(duì)每個(gè)通道特征進(jìn)行全局平均池化（Global Average Pooling，GAP）操作以聚合每個(gè)特征通道的信息，從而將高層特征fh壓縮為C維特征向量v，其第i個(gè)元素的值為：

其中：fc1、fc2表示相應(yīng)的全連接層。最終加權(quán)后的特征輸出為：

2.3 注意力特征融合的情感分類(lèi)

為了獲取判別性的視覺(jué)情感特征表示，將經(jīng)過(guò)注意力機(jī)制強(qiáng)化后的高低層次特征通過(guò)特征融合層進(jìn)行融合，如圖5 所示。具體地，先對(duì)輸入的低層特征和高層特征分別進(jìn)行1×1 卷積操作，得到尺寸一致的特征映射l和h。再對(duì)l和h進(jìn)行拼接融合成判別性特征。令表示融合后得到f的判別性特征：f=l⊕h，其中，⊕表示特征張量的拼接操作。

圖5 多層特征融合過(guò)程Fig.5 Process of multi-level features fusion

對(duì)于融合注意力特征后得到的判別性特征f，進(jìn)一步經(jīng)過(guò)全連接層輸出一維的語(yǔ)義向量d。最終連接一個(gè)softmax 分類(lèi)層輸出所有情感類(lèi)別對(duì)應(yīng)的概率pi，其計(jì)算公式如下：

其中：m表示情感類(lèi)別。采用交叉熵?fù)p失作為整個(gè)模型的損失函數(shù)，定義如下：

其中：yi表示圖像的真實(shí)情感類(lèi)別標(biāo)簽，可以通過(guò)隨機(jī)梯度下降（SGD）算法最小化損失函數(shù)L，梯度可通過(guò)式（10）計(jì)算：

2.4 模型訓(xùn)練流程

本文提出的DA-MLCNN 模型的訓(xùn)練具體流程為：

1）通過(guò)在ImageNet 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的VGGNet-16 網(wǎng)絡(luò)的權(quán)重參數(shù)初始化DA-MLCNN 模型，以加快其收斂速度。

2）從所有訓(xùn)練樣本中采樣，獲取訓(xùn)練的batch。

3）對(duì)于每個(gè)batch的樣本，通過(guò)模型的多層CNN 特征提取網(wǎng)絡(luò)計(jì)算每張圖像的低層特征fl和高層特征fh。

4）計(jì)算經(jīng)過(guò)空間注意力機(jī)制對(duì)低層特征強(qiáng)化得到特征表示，計(jì)算經(jīng)過(guò)通道注意力機(jī)制對(duì)高層特征強(qiáng)化得到特征表示。

6）將特征映射f經(jīng)過(guò)全連接層，生成語(yǔ)義向量d。

7）通過(guò)softmax 分類(lèi)器預(yù)測(cè)圖像情感，并根據(jù)損失函數(shù)計(jì)算當(dāng)前損失。

8）反向傳播損失到每一層，并逐層更新該層對(duì)應(yīng)的參數(shù)。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集

對(duì)本文所提出的方法在3 個(gè)數(shù)據(jù)集TwitterⅠ［4］、TwitterⅡ［10］和EmotionROI［23］上進(jìn)行了評(píng)估，以證明其有效性。實(shí)驗(yàn)中3 個(gè)數(shù)據(jù)集均采用隨機(jī)劃分的形式劃分為訓(xùn)練集80%和測(cè)試集20%。

Twitter Ⅰ是從社交軟件Twitter 上收集的1 269 張情感圖片，其中標(biāo)簽為積極的769 張，標(biāo)簽為消極的500 張。Twitter Ⅱ包含了從Twitter 中收集的603 張情感圖片，其中積極的圖片470 張，消極的圖片133 張。EmotionROI 數(shù)據(jù)集是從社交網(wǎng)站Flickr 收集的1 980 張情感圖像，一共包含6 類(lèi)情感，即恐懼（fear）、悲傷（sadness）、憤怒（anger）、厭惡（disgust）、驚喜（surprise）、喜悅（joy）。

圖6 給出3 個(gè)不同數(shù)據(jù)集的圖片樣本及其對(duì)應(yīng)情感標(biāo)簽的示例。

圖6 不同數(shù)據(jù)集的示例Fig.6 Sample of different datasets

3.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)的基礎(chǔ)網(wǎng)絡(luò)為VGGNet-16，為了能夠遷移VGGNet-16 的權(quán)重參數(shù)，該部分的設(shè)置與VGGNet-16 模型保持一致，所有卷積層均采用大小為3×3 的卷積核，步長(zhǎng)均設(shè)置為1，池化層采用2×2 的最大池化，步長(zhǎng)均設(shè)置為2，并在ImageNet 進(jìn)行預(yù)訓(xùn)練。輸入圖片為224×224 的RGB 彩色圖像，為了防止過(guò)擬合，對(duì)每張圖像樣本進(jìn)行5 個(gè)位置的裁剪并對(duì)其進(jìn)行隨機(jī)水平翻轉(zhuǎn)，從而對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。對(duì)于每次輸入的batch-size，分別設(shè)置為4、8、16、32、64、128并進(jìn)行對(duì)比。采用隨機(jī)梯度下降算法對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化，學(xué)習(xí)率設(shè)為0.001。模型采用Dropout 策略和L2范式防止過(guò)擬合，權(quán)重衰減設(shè)為0.000 5，Dropout 值設(shè)為0.5。實(shí)驗(yàn)開(kāi)發(fā)環(huán)境為L(zhǎng)inux-Ubuntu14.04，Python 2.7，Tensorflow 1.3.0，開(kāi)發(fā)工具為PyCharm。模型的訓(xùn)練和測(cè)試均在Tesla P100-PCIE GPU 工作站上完成。

3.3 對(duì)比方法

為證明所提出方法的有效性，本文在相同的數(shù)據(jù)集上對(duì)比了基于手工設(shè)計(jì)特征的方法和基于深度學(xué)習(xí)的方法。

1）GCH。由文獻(xiàn)［6］提出，融合由64 位二進(jìn)制RGB 直方圖組成的全局顏色直方圖特征GCH 和局部顏色直方圖特征LCH 作為圖像特征訓(xùn)練SVM 分類(lèi)器進(jìn)行情感分類(lèi)。

2）SentiBank。由文獻(xiàn)［10］提出，該方法通過(guò)訓(xùn)練得到視覺(jué)概念檢測(cè)器，可以檢測(cè)視覺(jué)圖像中的1 200 個(gè)形容詞名詞對(duì)（ANP），并利用其檢測(cè)結(jié)果作為特征進(jìn)行情感分類(lèi)。

3）DeepSentiBank。由文獻(xiàn)［11］提出，作為SentiBank 的改良版，該方法利用卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集上訓(xùn)練的視覺(jué)情感概念分類(lèi)器進(jìn)行情感分類(lèi)。

4）PCNN。由文獻(xiàn)［4］提出，首先通過(guò)社交網(wǎng)站收集的大規(guī)模情感圖像訓(xùn)練CNN，并采用漸進(jìn)學(xué)習(xí)的策略對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)，然后通過(guò)少量人工標(biāo)注的情感圖像數(shù)據(jù)對(duì)模型進(jìn)行誘導(dǎo)域轉(zhuǎn)移，以提高其圖像情感分類(lèi)性能。

5）VGGNet-16。由文獻(xiàn)［2］提出，首先在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，然后利用情感圖像數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)。

6）COIS。由文獻(xiàn)［24］提出，該方法通過(guò)目標(biāo)檢測(cè)框架對(duì)設(shè)置的5 類(lèi)對(duì)象進(jìn)行檢測(cè)，并提取圖像的目標(biāo)區(qū)域特征，進(jìn)一步融合CNN 提取的圖像整體特征訓(xùn)練softmax 分類(lèi)器進(jìn)行情感分類(lèi)。

以上對(duì)比方法中的前2 種GCH 和SentiBank 均為基于手工設(shè)計(jì)特征的視覺(jué)情感分析方法，后4 種DeepSentiBank、PCNN、VGGNet-16 和COIS 為基于深度學(xué)習(xí)的視覺(jué)情感分析方法。

3.4 結(jié)果分析

對(duì)于網(wǎng)絡(luò)輸入的不同batch-size設(shè)置，在TwitterⅠ數(shù)據(jù)集下進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)對(duì)比了不同batch-size值下，訓(xùn)練進(jìn)行200 個(gè)epoches 所需的時(shí)間及其準(zhǔn)確率，結(jié)果如表1 所示，其中對(duì)時(shí)間進(jìn)行了歸一化處理。

表1 Twitter Ⅰ數(shù)據(jù)集下不同batch-size 值對(duì)結(jié)果的影響Table 1 Effect of different batch-size values on results under Twitter I dataset

從表1 可以看出，隨著batch-size 的增大，處理相同數(shù)據(jù)量的速度變快，迭代相同次數(shù)所需時(shí)間減少；當(dāng)batch-size 為32 時(shí)，達(dá)到分類(lèi)準(zhǔn)確率的最優(yōu)。

表2 給出了本文方法與5 種對(duì)比方法在2 個(gè)二分類(lèi)情感圖像數(shù)據(jù)集Twitter Ⅰ和Twitter Ⅱ上的分類(lèi)結(jié)果，分類(lèi)結(jié)果以準(zhǔn)確率進(jìn)行評(píng)估，準(zhǔn)確率定義為正確分類(lèi)的樣本數(shù)量占總樣本數(shù)數(shù)量的比例。

表2 不同方法在Twitter Ⅰ、Twitter Ⅱ數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率Table 2 Classification accuracy of different methods on Twitter I and Twitter II datasets %

由表2可知，本文提出的方法在Twitter Ⅰ和Twitter Ⅱ數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率分別達(dá)到了79.83%和78.25%，準(zhǔn)確率均高于基于手工設(shè)計(jì)特征的視覺(jué)情感分析方法GCH和Sentbank。本文提出的方法同樣對(duì)比了基于深度學(xué)習(xí)的視覺(jué)情感分類(lèi)模型DeepSentiBank、PCNN、VGGNet-16 和COIS。由表2 可知，基于深度學(xué)習(xí)的方法在圖像情感分類(lèi)性能上均優(yōu)于基于手工設(shè)計(jì)特征的方法。而本文提出的方法在3 個(gè)數(shù)據(jù)集上的分類(lèi)效果相較于對(duì)比方法均有提升，對(duì)比效果最好的COIS 模型在2個(gè)數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率分別提升了0.93和1.42個(gè)百分點(diǎn)。

圖7 給出了本文方法與5 種對(duì)比方法在多分類(lèi)情感圖像數(shù)據(jù)集EmotionROI 上的分類(lèi)結(jié)果，分類(lèi)結(jié)果以準(zhǔn)確率進(jìn)行評(píng)估。

圖7 不同方法在EmotionROI 數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率Fig.7 Classification accuracy of different methods on EmotionROI dataset

由圖7 可知，本文方法在多分類(lèi)情感圖像數(shù)據(jù)集EmotionROI上分類(lèi)準(zhǔn)確率達(dá)到了49.34%，高于基于手工設(shè)計(jì)特征的視覺(jué)情感分析方法GCH 和Sentbank。對(duì)比基于深度學(xué)習(xí)的視覺(jué)情感分類(lèi)模型，DA-MLCNN 比DeepSentiBank和VGGNet-16的分類(lèi)準(zhǔn)確率分別提升了6.81個(gè)百分點(diǎn)和3.88個(gè)百分點(diǎn)，比PCNN 和COIS模型的分類(lèi)準(zhǔn)確率提升了1.78和1.21個(gè)百分點(diǎn)。通過(guò)對(duì)比各類(lèi)視覺(jué)情感分類(lèi)方法在多分類(lèi)數(shù)據(jù)集上的分類(lèi)結(jié)果，可以說(shuō)明本文提出的DA-MLCNN 方法同樣能夠適應(yīng)視覺(jué)情感的多分類(lèi)任務(wù)。綜合在二分類(lèi)和多分類(lèi)情感圖像數(shù)據(jù)集上的分類(lèi)表現(xiàn)，說(shuō)明本文提出的方法能夠?qū)W習(xí)更具判別性的視覺(jué)特征，從而提升視覺(jué)情感分析效果。

圖8 給出了利用本文所提出的方法正確分類(lèi)的樣例以及錯(cuò)誤分類(lèi)的樣例。

圖8 實(shí)驗(yàn)結(jié)果樣例Fig.8 Examples of experimental results

在圖8 中，圖8（a）均被正確分類(lèi)，圖8（b）中2 張圖片分別被預(yù)測(cè)為joy 類(lèi)和anger 類(lèi)，而其真實(shí)標(biāo)簽分別為surprise 和fear，故為錯(cuò)誤分類(lèi)。

3.5 多層特征及注意力機(jī)制的有效性分析

為進(jìn)一步驗(yàn)證特征融合以及注意力機(jī)制在視覺(jué)情感分類(lèi)任務(wù)中的作用及有效性，本文進(jìn)行了消融實(shí)驗(yàn)，對(duì)比本文所提出方法DA-MLCNN 及其不同設(shè)置的分類(lèi)效果，具體說(shuō)明如下：

1）VGGNet-16。本文模型DA-MLCNN 所使用的基礎(chǔ)網(wǎng)絡(luò)。

2）MLCNN。不使用視覺(jué)注意力機(jī)制，僅通過(guò)多層CNN 特征提取網(wǎng)絡(luò)提取圖像的多層次特征，并融合多層特征進(jìn)行情感分類(lèi)。

3）SA-MLCNN。在MLCNN 基礎(chǔ)上，提取多層次特征，僅僅對(duì)低層特征使用空間注意力，并融合多層特征進(jìn)行情感分類(lèi)。

4）CA-MLCNN。在MLCNN 基礎(chǔ)上，提取多層次特征，僅僅對(duì)高層特征使用通道注意力，并融合多層特征進(jìn)行情感分類(lèi)。

表3 所示為DA-MLCNN 及其設(shè)置在不同數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率結(jié)果。由表3 可以看出，融合多層特征后的MLCNN 模型的分類(lèi)準(zhǔn)確率明顯高于VGGNet-16 的分類(lèi)準(zhǔn)確率，可以驗(yàn)證多層CNN 特征融合能夠充分利用不同層次特征的互補(bǔ)優(yōu)勢(shì)，提高情感分類(lèi)效果。由表3 可知，SA-MLCNN、CA-MLCNN、DA-MLCNN 相較于MLCNN，其分類(lèi)準(zhǔn)確率分別有不同程度的提升，其中DA-MLCNN 準(zhǔn)確率提升最高，說(shuō)明空間注意力和通道注意力在本文所提出的模型中能夠?qū)崿F(xiàn)更細(xì)化的特征抽取，從而加強(qiáng)特征表示，進(jìn)而提高視覺(jué)情感分類(lèi)效果。

表3 不同數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率Table 3 Classification accuracy of different datasets %

4 結(jié)束語(yǔ)

現(xiàn)有的基于深度學(xué)習(xí)的視覺(jué)情感分析方法不能充分利用多層次的特征且模型對(duì)特征的表達(dá)能力不足。為此，本文提出一種基于視覺(jué)注意力和多層特征融合的視覺(jué)情感分析方法用于視覺(jué)情感分析。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取圖像的多層次特征，考慮到高層特征和低層特征的特點(diǎn)，利用空間注意力加強(qiáng)低層特征挖掘特征的空間信息，運(yùn)用通道注意力加強(qiáng)高層特征關(guān)注語(yǔ)義內(nèi)容更豐富的特征。最后融合高層特征和低層特征，形成語(yǔ)義增強(qiáng)的判別性視覺(jué)特征用于訓(xùn)練情感分類(lèi)器。通過(guò)在3 個(gè)公開(kāi)的情感圖像數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)對(duì)本文提出的DA-MLCNN 模型進(jìn)行評(píng)估，結(jié)果表明，本文方法能夠提取更具判別性的特征表示，從而提升視覺(jué)情感分析性能?？紤]到情感是復(fù)雜多樣的，當(dāng)前視覺(jué)情感分析的分類(lèi)方法并不能反映情感的復(fù)雜性，下一步將設(shè)計(jì)更合理的網(wǎng)絡(luò)模型提取圖像特征以及研究視覺(jué)情感的細(xì)粒度分類(lèi)，同時(shí)，隨著社交媒體視頻內(nèi)容的增多，針對(duì)視頻的情感分析工作也是未來(lái)的一個(gè)重要研究方向。