蔡國(guó)永,儲(chǔ)陽(yáng)陽(yáng)
(1.桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
隨著移動(dòng)終端技術(shù)的發(fā)展和可拍照設(shè)備的普及,越來(lái)越多的社交用戶每天通過社交媒體創(chuàng)建和分享海量的視覺內(nèi)容,這些用戶生成的視覺內(nèi)容的情感分析被廣泛地應(yīng)用于推薦、廣告、輿情監(jiān)控等領(lǐng)域。由于圖像的低級(jí)視覺特征和高級(jí)情感語(yǔ)義之間存在難以逾越的“情感鴻溝”以及情感本身的復(fù)雜性和主觀性,使得針對(duì)視覺內(nèi)容的情感分析任務(wù)極具挑戰(zhàn)性[1]。已有研究結(jié)果表明,圖像情感與圖像的不同層次的視覺特征相關(guān),例如顏色等低層特征可以直接地刺激觀看者從而產(chǎn)生情感,圖像中的物體對(duì)象等高層特征同樣可以傳遞情感。近年來(lái),深度學(xué)習(xí)特別是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在視覺識(shí)別領(lǐng)域展現(xiàn)出優(yōu)異性能[2],基于深度學(xué)習(xí)的視覺情感分析方法也已經(jīng)取得了較好的效果[3-4],但在克服“情感鴻溝”方面仍有提升空間。
現(xiàn)有的基于深度學(xué)習(xí)的視覺情感分析模型往往只利用網(wǎng)絡(luò)的最后一層輸出的語(yǔ)義向量作為特征進(jìn)而訓(xùn)練分類器進(jìn)行情感分類,忽略了CNN 淺層所提取的有用信息。同時(shí),由于情感的復(fù)雜性,圖像之間情感差異往往由細(xì)微的局部特征所體現(xiàn),因此需要在大量的局部特征中提取更具判別性的特征,現(xiàn)有的深度網(wǎng)絡(luò)的特征提取能力仍需進(jìn)一步增強(qiáng)。
針對(duì)以上問題,本文構(gòu)建基于雙注意力多層特征融合的網(wǎng)絡(luò)模型DA-MLCNN。該模型通過設(shè)計(jì)一個(gè)多層全卷積網(wǎng)絡(luò)提取多層次的圖像特征,并引入空間注意力機(jī)制和通道注意力機(jī)制對(duì)不同層次的特征進(jìn)行強(qiáng)化,最終融合多層注意力特征從而得到圖像更具判別性的視覺特征以提升情感分類效果。
視覺情感分析方法從特征提取的角度主要分為基于手工設(shè)計(jì)特征的方法和基于深度學(xué)習(xí)的方法?;谑止ぴO(shè)計(jì)特征的視覺情感分析方法通過利用人工構(gòu)造圖像特征來(lái)進(jìn)行圖像的情感分類。早期的視覺情感分析研究主要通過統(tǒng)計(jì)學(xué)方法提取圖像的顏色、紋理等低層特征[5]。文獻(xiàn)[6]提取了圖像的全局顏色直方圖(Global Color Histogram,GCH)、局部顏色直方圖(Local Color Histogram,LCH)等特征進(jìn)行情感分析,證明了淺層視覺特征和情感之間存在著很大的相關(guān)性。受藝術(shù)原則和美學(xué)心理的啟發(fā),一些工作也圍繞構(gòu)圖、平衡等藝術(shù)特征構(gòu)建圖像的情感表示[7]。隨著研究的深入,語(yǔ)義內(nèi)容等高層特征也被應(yīng)用于視覺情感分析[8]。由于淺層信息難以彌合圖像像素和情感語(yǔ)義之間的鴻溝,因此部分研究人員提出了構(gòu)建情感預(yù)測(cè)的中間語(yǔ)義表示,如文獻(xiàn)[9]提出了基于102 個(gè)以預(yù)定義場(chǎng)景屬性作為中層表示的圖像情感分析算法Sentribute,文獻(xiàn)[10]設(shè)計(jì)了基于1 200 個(gè)形容詞-名詞對(duì)(ANP)的大規(guī)模視覺情感本體庫(kù),并訓(xùn)練情感探測(cè)器SentiBank 來(lái)提取圖像的中層表示。
隨著社交媒體中圖像數(shù)據(jù)的劇增,基于手工設(shè)計(jì)并提取特征的方法在面對(duì)大規(guī)模數(shù)據(jù)時(shí)具有很大的局限性[11]。卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)地從大規(guī)模數(shù)據(jù)中學(xué)習(xí)深度特征,因此研究人員開始將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于視覺情感分析任務(wù)。如文獻(xiàn)[12]對(duì)在ImageNet 上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)后用于圖像的情感分類,表明CNN 模型優(yōu)于以往基于手工特征的方法。文獻(xiàn)[13]將CNN 模型與支持向量機(jī)(SVM)相結(jié)合,在大規(guī)模的網(wǎng)絡(luò)圖像數(shù)據(jù)集上預(yù)測(cè)圖像情感。文獻(xiàn)[14]通過自適應(yīng)增強(qiáng)算法組合多個(gè)BP 神經(jīng)網(wǎng)絡(luò)弱分類器的輸出,構(gòu)建圖像情感強(qiáng)分類器,提高了圖像情感語(yǔ)義分類的效率。與改善圖像全局表示的方法不同,部分研究致力于利用圖像的區(qū)域信息或其他模態(tài)信息來(lái)改進(jìn)情感分類準(zhǔn)確率。如文獻(xiàn)[15]利用CNN 框架自動(dòng)地發(fā)現(xiàn)圖像中的情感區(qū)域,進(jìn)而利用局部區(qū)域信息進(jìn)行圖像情感識(shí)別。文獻(xiàn)[16]提出一種基于層次化深度關(guān)聯(lián)融合網(wǎng)絡(luò)同時(shí)學(xué)習(xí)圖像視覺特征表示和文本語(yǔ)義表示,通過捕獲視覺特征和文本情感特征之間的內(nèi)部關(guān)聯(lián),從而更準(zhǔn)確地實(shí)現(xiàn)圖文融合社交媒體的情感預(yù)測(cè)。文獻(xiàn)[17]提出一種多層次深度卷積神經(jīng)網(wǎng)絡(luò)框架,通過結(jié)合包括顯著主體、顏色和局部特征在內(nèi)的先驗(yàn)信息,從多個(gè)層次學(xué)習(xí)圖像的情感表達(dá)。
注意力機(jī)制是深度學(xué)習(xí)用于模擬人類感知注意力的重要方法。為提高視覺任務(wù)的效果,視覺注意力在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛研究應(yīng)用。如文獻(xiàn)[18]引入了一種通道注意力機(jī)制,用于自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng)以進(jìn)行圖像分類。文獻(xiàn)[19]在多層CNN 結(jié)構(gòu)上同時(shí)引入空間注意力和通道注意力用于圖像字幕生成。已有部分研究將視覺注意力應(yīng)用到圖像情感分析任務(wù)中。如文獻(xiàn)[20]首先以視覺屬性探測(cè)器探測(cè)出圖片的視覺屬性,然后通過注意力模型關(guān)注圖像中該視覺屬性的響應(yīng)區(qū)域進(jìn)行情感識(shí)別。文獻(xiàn)[21]將視覺注意力融入到卷積神經(jīng)網(wǎng)絡(luò)圖像情感分類框架中,并利用圖像的顯著性映射指導(dǎo)空間注意力的生成以獲得魯棒的圖像特征進(jìn)行情感分類。
與已有研究不同,本文不僅考慮到圖像情感在空間上的強(qiáng)弱差異以及不同通道特征之間的語(yǔ)義差異,通過空間注意力和通道注意力增強(qiáng)特征的表達(dá),融合深度模型抽取的多層特征以充分利用不同層次特征的互補(bǔ)性,以期達(dá)到更好的情感分類效果。
本文提出的基于雙注意力多層特征融合的視覺情感分析模型DA-MLCNN 整體結(jié)構(gòu)如圖1 所示,主要包含多層CNN 特征提取、雙注意力機(jī)制、注意力特征融合的情感分類3 個(gè)部分,分別表示如圖1 中(a)、(b)、(c)3 個(gè)部分。
圖1 DA-MLCNN 模型框架Fig.1 Framework of DA-MLCNN model
為獲得更具判別性的圖像特征,首先將圖像輸入到具有多分支結(jié)構(gòu)的MLCNN 模型,提取圖像的不同層次的特征,即CNN 淺層提取到的低層特征fl和深層提取到的高層特征fh;然后將低層特征輸入空間注意力模塊,將高層特征輸入通道注意力模塊,以關(guān)注圖像中更能凸顯情感的區(qū)域以及選擇關(guān)注更重要的通道特征;最后融合空間注意力模塊輸出的結(jié)果f?l和通道注意力模塊的輸出結(jié)果f?h,形成具 有判別性的特征表示用于訓(xùn)練情感分類器。
近年來(lái)通過對(duì)CNN 可視化研究表明,CNN 不同層提取的圖像信息具有不同性質(zhì)。具體而言,淺層提取到的信息更傾向于反映圖像的空間信息等低層特征,而深層提取到的信息則更傾向于反映圖像的語(yǔ)義內(nèi)容等高層特征[22]??紤]到圖像情感與圖像的不同層次的特征相關(guān),本文將利用不同層特征的互補(bǔ)性來(lái)提升情感分析性能,為此,設(shè)計(jì)一種多層全卷積網(wǎng)絡(luò)結(jié)構(gòu)MLCNN 用來(lái)提取多層次的圖像特征。與大部分視覺任務(wù)工作類似,本文采用近年來(lái)在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用廣泛的卷積神經(jīng)網(wǎng)絡(luò)模型VGGNet-16[2]作為多層特征抽取網(wǎng)絡(luò)MLCNN的基礎(chǔ)。如圖2所示,在VGGNet-16基礎(chǔ)上,將網(wǎng)絡(luò)各層輸出的特征通過不同的采樣方法,使其轉(zhuǎn)化為相同尺寸,如將卷積層Conv1_2、Conv2_2的輸出通過下采樣,將Conv4_3、Conv5_3 的輸出通過上采樣的方法,均調(diào)整為與Conv3_3 相同尺寸,再將各層分別進(jìn)行一次3×3 卷積核的卷積操作后進(jìn)行融合。其中,卷積層Conv1_2、Conv2_2 的輸出經(jīng)過以上操作融合后的輸出得到包含較多空間信息的低層特征fl?RW×H×C,卷積層Conv3_3、Conv4_3、Conv5_3 的輸出經(jīng)過以上操作融合后的輸出得到包含較多語(yǔ)義信息的高層特征fh?RW×H×C,其中,W和H表示特征圖的寬和高,C表示特征的通道數(shù)。
圖2 多層CNN 特征提取結(jié)構(gòu)Fig.2 Structure of multi-level CNN features extraction
人類的視覺注意力可以突出整體特征中更重要的部分,以加強(qiáng)人類視覺識(shí)別的能力。注意力機(jī)制對(duì)視覺情感分析也至關(guān)重要,在視覺情感分析任務(wù)中,如果能發(fā)掘出圖像中信息量最大的區(qū)域以及更重要的通道特征,將可能提升情感分類的效果。DA-MLCNN 方法中的雙注意力機(jī)制包括空間注意力和通道注意力2 個(gè)部分。高層特征主要包含圖像高層次的抽象語(yǔ)義,因此對(duì)高層特征使用通道注意力加強(qiáng)情感語(yǔ)義信息更豐富的特征,以此進(jìn)行特征的重新標(biāo)定。低層特征主要包含圖像的空間信息,因此對(duì)低層特征使用空間注意力,以更加關(guān)注圖像的情感區(qū)域。
2.2.1 空間注意力機(jī)制
僅利用全局圖像特征向量來(lái)進(jìn)行圖像情感分類,結(jié)果可能不是最優(yōu)的。圖像中的局部區(qū)域?qū)τ趫D像整體的情感表達(dá)至關(guān)重要,例如圖像中包含鮮花和笑臉的區(qū)域。引入空間注意力機(jī)制,通過訓(xùn)練方式定位出圖像中凸顯情感的局部區(qū)域并對(duì)其賦予更高的權(quán)重,以加強(qiáng)圖像空間域上的特征表示??臻g注意力模塊結(jié)構(gòu)如圖3 所示。
圖3 空間注意力機(jī)制Fig.3 Spatial attention mechanism
首先將低層特征fl經(jīng)過1 個(gè)卷積核尺寸為1×1的卷積層進(jìn)行降維,然后通過tanh 激活函數(shù)得到尺寸大小為W×H的特征映射M,再將M經(jīng)過卷積層和sigmoid 激活函數(shù)生成空間注意力權(quán)重sa,計(jì)算公式為:
其中,Conv1、Conv2表示卷積操作。最終加權(quán)后的特征輸出為:
其中:?表示元素相乘。
2.2.2 通道注意力機(jī)制
CNN 提取的特征是多通道的,每個(gè)通道的特征表示該圖片特征在相應(yīng)卷積核上的分量,不同通道的特征所提取到的信息是不同的[19],因此不同通道的特征對(duì)于情感分類的重要性是不同的?,F(xiàn)有基于深度學(xué)習(xí)的視覺情感分析方法平等地對(duì)待每個(gè)通道特征,這在很大程度上限制了情感分類的性能。通道注意力機(jī)制關(guān)注重要的通道特征,過濾無(wú)關(guān)的通道特征,可以看做一個(gè)對(duì)特征進(jìn)行重新標(biāo)定的過程。本文引入了通道注意力機(jī)制,對(duì)情感有高響應(yīng)的通道特征分配更大的權(quán)重以加強(qiáng)特征表示。通道注意力模塊結(jié)構(gòu)如圖4 所示。
圖4 通道注意力機(jī)制Fig.4 Channel attention mechanism
對(duì)于高層特征fh,可以進(jìn)一步表示為fh=其中表示第i個(gè)通道的特征圖。首先對(duì)每個(gè)通道特征進(jìn)行全局平均池化(Global Average Pooling,GAP)操作以聚合每個(gè)特征通道的信息,從而將高層特征fh壓縮為C維特征向量v,其第i個(gè)元素的值為:
其中:fc1、fc2表示相應(yīng)的全連接層。最終加權(quán)后的特征輸出為:
為了獲取判別性的視覺情感特征表示,將經(jīng)過注意力機(jī)制強(qiáng)化后的高低層次特征通過特征融合層進(jìn)行融合,如圖5 所示。具體地,先對(duì)輸入的低層特征和高層特征分別進(jìn)行1×1 卷積操作,得到尺寸一致的特征映射l和h。再對(duì)l和h進(jìn)行拼接融合成判別性特征。令表示融合后得到f的判別性特征:f=l⊕h,其中,⊕表示特征張量的拼接操作。
圖5 多層特征融合過程Fig.5 Process of multi-level features fusion
對(duì)于融合注意力特征后得到的判別性特征f,進(jìn)一步經(jīng)過全連接層輸出一維的語(yǔ)義向量d。最終連接一個(gè)softmax 分類層輸出所有情感類別對(duì)應(yīng)的概率pi,其計(jì)算公式如下:
其中:m表示情感類別。采用交叉熵?fù)p失作為整個(gè)模型的損失函數(shù),定義如下:
其中:yi表示圖像的真實(shí)情感類別標(biāo)簽,可以通過隨機(jī)梯度下降(SGD)算法最小化損失函數(shù)L,梯度可通過式(10)計(jì)算:
本文提出的DA-MLCNN 模型的訓(xùn)練具體流程為:
1)通過在ImageNet 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的VGGNet-16 網(wǎng)絡(luò)的權(quán)重參數(shù)初始化DA-MLCNN 模型,以加快其收斂速度。
2)從所有訓(xùn)練樣本中采樣,獲取訓(xùn)練的batch。
3)對(duì)于每個(gè)batch的樣本,通過模型的多層CNN 特征提取網(wǎng)絡(luò)計(jì)算每張圖像的低層特征fl和高層特征fh。
4)計(jì)算經(jīng)過空間注意力機(jī)制對(duì)低層特征強(qiáng)化得到特征表示,計(jì)算經(jīng)過通道注意力機(jī)制對(duì)高層特征強(qiáng)化得到特征表示。
6)將特征映射f經(jīng)過全連接層,生成語(yǔ)義向量d。
7)通過softmax 分類器預(yù)測(cè)圖像情感,并根據(jù)損失函數(shù)計(jì)算當(dāng)前損失。
8)反向傳播損失到每一層,并逐層更新該層對(duì)應(yīng)的參數(shù)。
對(duì)本文所提出的方法在3 個(gè)數(shù)據(jù)集TwitterⅠ[4]、TwitterⅡ[10]和EmotionROI[23]上進(jìn)行 了評(píng)估,以證明其有效性。實(shí)驗(yàn)中3 個(gè)數(shù)據(jù)集均采用隨機(jī)劃分的形式劃分為訓(xùn)練集80%和測(cè)試集20%。
Twitter Ⅰ是從社交軟件Twitter 上收集的1 269 張情感圖片,其中標(biāo)簽為積極的769 張,標(biāo)簽為消極的500 張。Twitter Ⅱ包含了從Twitter 中收集的603 張情感圖片,其中積極的圖片470 張,消極的圖片133 張。EmotionROI 數(shù)據(jù)集是從社交網(wǎng)站Flickr 收集的1 980 張情感圖像,一共包含6 類情感,即恐懼(fear)、悲傷(sadness)、憤怒(anger)、厭惡(disgust)、驚喜(surprise)、喜悅(joy)。
圖6 給出3 個(gè)不同數(shù)據(jù)集的圖片樣本及其對(duì)應(yīng)情感標(biāo)簽的示例。
圖6 不同數(shù)據(jù)集的示例Fig.6 Sample of different datasets
實(shí)驗(yàn)的基礎(chǔ)網(wǎng)絡(luò)為VGGNet-16,為了能夠遷移VGGNet-16 的權(quán)重參數(shù),該部分的設(shè)置與VGGNet-16 模型保持一致,所有卷積層均采用大小為3×3 的卷積核,步長(zhǎng)均設(shè)置為1,池化層采用2×2 的最大池化,步長(zhǎng)均設(shè)置為2,并在ImageNet 進(jìn)行預(yù)訓(xùn)練。輸入圖片為224×224 的RGB 彩色圖像,為了防止過擬合,對(duì)每張圖像樣本進(jìn)行5 個(gè)位置的裁剪并對(duì)其進(jìn)行隨機(jī)水平翻轉(zhuǎn),從而對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。對(duì)于每次輸入的batch-size,分別設(shè)置為4、8、16、32、64、128并進(jìn)行對(duì)比。采用隨機(jī)梯度下降算法對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)為0.001。模型采用Dropout 策略和L2范式防止過擬合,權(quán)重衰減設(shè)為0.000 5,Dropout 值設(shè)為0.5。實(shí)驗(yàn)開發(fā)環(huán)境為L(zhǎng)inux-Ubuntu14.04,Python 2.7,Tensorflow 1.3.0,開發(fā)工具為PyCharm。模型的訓(xùn)練和測(cè)試均在Tesla P100-PCIE GPU 工作站上完成。
為證明所提出方法的有效性,本文在相同的數(shù)據(jù)集上對(duì)比了基于手工設(shè)計(jì)特征的方法和基于深度學(xué)習(xí)的方法。
1)GCH。由文獻(xiàn)[6]提出,融合由64 位二進(jìn)制RGB 直方圖組成的全局顏色直方圖特征GCH 和局部顏色直方圖特征LCH 作為圖像特征訓(xùn)練SVM 分類器進(jìn)行情感分類。
2)SentiBank。由文獻(xiàn)[10]提出,該方法通過訓(xùn)練得到視覺概念檢測(cè)器,可以檢測(cè)視覺圖像中的1 200 個(gè)形容詞名詞對(duì)(ANP),并利用其檢測(cè)結(jié)果作為特征進(jìn)行情感分類。
3)DeepSentiBank。由文獻(xiàn)[11]提 出,作 為SentiBank 的改良版,該方法利用卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集上訓(xùn)練的視覺情感概念分類器進(jìn)行情感分類。
4)PCNN。由文獻(xiàn)[4]提出,首先通過社交網(wǎng)站收集的大規(guī)模情感圖像訓(xùn)練CNN,并采用漸進(jìn)學(xué)習(xí)的策略對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),然后通過少量人工標(biāo)注的情感圖像數(shù)據(jù)對(duì)模型進(jìn)行誘導(dǎo)域轉(zhuǎn)移,以提高其圖像情感分類性能。
5)VGGNet-16。由文獻(xiàn)[2]提出,首先在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后利用情感圖像數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)。
6)COIS。由文獻(xiàn)[24]提出,該方法通過目標(biāo)檢測(cè)框架對(duì)設(shè)置的5 類對(duì)象進(jìn)行檢測(cè),并提取圖像的目標(biāo)區(qū)域特征,進(jìn)一步融合CNN 提取的圖像整體特征訓(xùn)練softmax 分類器進(jìn)行情感分類。
以上對(duì)比方法中的前2 種GCH 和SentiBank 均為基于手工設(shè)計(jì)特征的視覺情感分析方法,后4 種DeepSentiBank、PCNN、VGGNet-16 和COIS 為基于深度學(xué)習(xí)的視覺情感分析方法。
對(duì)于網(wǎng)絡(luò)輸入的不同batch-size設(shè)置,在TwitterⅠ數(shù)據(jù)集下進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)對(duì)比了不同batch-size值下,訓(xùn)練進(jìn)行200 個(gè)epoches 所需的時(shí)間及其準(zhǔn)確率,結(jié)果如表1 所示,其中對(duì)時(shí)間進(jìn)行了歸一化處理。
表1 Twitter Ⅰ數(shù)據(jù)集下不同batch-size 值對(duì)結(jié)果的影響Table 1 Effect of different batch-size values on results under Twitter I dataset
從表1 可以看出,隨著batch-size 的增大,處理相同數(shù)據(jù)量的速度變快,迭代相同次數(shù)所需時(shí)間減少;當(dāng)batch-size 為32 時(shí),達(dá)到分類準(zhǔn)確率的最優(yōu)。
表2 給出了本文方法與5 種對(duì)比方法在2 個(gè)二分類情感圖像數(shù)據(jù)集Twitter Ⅰ和Twitter Ⅱ上的分類結(jié)果,分類結(jié)果以準(zhǔn)確率進(jìn)行評(píng)估,準(zhǔn)確率定義為正確分類的樣本數(shù)量占總樣本數(shù)數(shù)量的比例。
表2 不同方法在Twitter Ⅰ、Twitter Ⅱ數(shù)據(jù)集上的分類準(zhǔn)確率Table 2 Classification accuracy of different methods on Twitter I and Twitter II datasets %
由表2可知,本文提出的方法在Twitter Ⅰ和Twitter Ⅱ數(shù)據(jù)集上的分類準(zhǔn)確率分別達(dá)到了79.83%和78.25%,準(zhǔn)確率均高于基于手工設(shè)計(jì)特征的視覺情感分析方法GCH和Sentbank。本文提出的方法同樣對(duì)比了基于深度學(xué)習(xí)的視覺情感分類模型DeepSentiBank、PCNN、VGGNet-16 和COIS。由表2 可知,基于深度學(xué)習(xí)的方法在圖像情感分類性能上均優(yōu)于基于手工設(shè)計(jì)特征的方法。而本文提出的方法在3 個(gè)數(shù)據(jù)集上的分類效果相較于對(duì)比方法均有提升,對(duì)比效果最好的COIS 模型在2個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率分別提升了0.93和1.42個(gè)百分點(diǎn)。
圖7 給出了本文方法與5 種對(duì)比方法在多分類情感圖像數(shù)據(jù)集EmotionROI 上的分類結(jié)果,分類結(jié)果以準(zhǔn)確率進(jìn)行評(píng)估。
圖7 不同方法在EmotionROI 數(shù)據(jù)集上的分類準(zhǔn)確率Fig.7 Classification accuracy of different methods on EmotionROI dataset
由圖7 可知,本文方法在多分類情感圖像數(shù)據(jù)集EmotionROI上分類準(zhǔn)確率達(dá)到了49.34%,高于基于手工設(shè)計(jì)特征的視覺情感分析方法GCH 和Sentbank。對(duì)比基于深度學(xué)習(xí)的視覺情感分類模型,DA-MLCNN 比DeepSentiBank和VGGNet-16的分類準(zhǔn)確率分別提升了6.81個(gè)百分點(diǎn)和3.88個(gè)百分點(diǎn),比PCNN 和COIS模型的分類準(zhǔn)確率提升了1.78和1.21個(gè)百分點(diǎn)。通過對(duì)比各類視覺情感分類方法在多分類數(shù)據(jù)集上的分類結(jié)果,可以說(shuō)明本文提出的DA-MLCNN 方法同樣能夠適應(yīng)視覺情感的多分類任務(wù)。綜合在二分類和多分類情感圖像數(shù)據(jù)集上的分類表現(xiàn),說(shuō)明本文提出的方法能夠?qū)W習(xí)更具判別性的視覺特征,從而提升視覺情感分析效果。
圖8 給出了利用本文所提出的方法正確分類的樣例以及錯(cuò)誤分類的樣例。
圖8 實(shí)驗(yàn)結(jié)果樣例Fig.8 Examples of experimental results
在圖8 中,圖8(a)均被正確分類,圖8(b)中2 張圖片分別被預(yù)測(cè)為joy 類和anger 類,而其真實(shí)標(biāo)簽分別為surprise 和fear,故為錯(cuò)誤分類。
為進(jìn)一步驗(yàn)證特征融合以及注意力機(jī)制在視覺情感分類任務(wù)中的作用及有效性,本文進(jìn)行了消融實(shí)驗(yàn),對(duì)比本文所提出方法DA-MLCNN 及其不同設(shè)置的分類效果,具體說(shuō)明如下:
1)VGGNet-16。本文模型DA-MLCNN 所使用的基礎(chǔ)網(wǎng)絡(luò)。
2)MLCNN。不使用視覺注意力機(jī)制,僅通過多層CNN 特征提取網(wǎng)絡(luò)提取圖像的多層次特征,并融合多層特征進(jìn)行情感分類。
3)SA-MLCNN。在MLCNN 基礎(chǔ)上,提取多層次特征,僅僅對(duì)低層特征使用空間注意力,并融合多層特征進(jìn)行情感分類。
4)CA-MLCNN。在MLCNN 基礎(chǔ)上,提取多層次特征,僅僅對(duì)高層特征使用通道注意力,并融合多層特征進(jìn)行情感分類。
表3 所示為DA-MLCNN 及其設(shè)置在不同數(shù)據(jù)集上的分類準(zhǔn)確率結(jié)果。由表3 可以看出,融合多層特征后的MLCNN 模型的分類準(zhǔn)確率明顯高于VGGNet-16 的分類準(zhǔn)確率,可以驗(yàn)證多層CNN 特征融合能夠充分利用不同層次特征的互補(bǔ)優(yōu)勢(shì),提高情感分類效果。由表3 可知,SA-MLCNN、CA-MLCNN、DA-MLCNN 相較于MLCNN,其分類準(zhǔn)確率分別有不同程度的提升,其中DA-MLCNN 準(zhǔn)確率提升最高,說(shuō)明空間注意力和通道注意力在本文所提出的模型中能夠?qū)崿F(xiàn)更細(xì)化的特征抽取,從而加強(qiáng)特征表示,進(jìn)而提高視覺情感分類效果。
表3 不同數(shù)據(jù)集上的分類準(zhǔn)確率Table 3 Classification accuracy of different datasets %
現(xiàn)有的基于深度學(xué)習(xí)的視覺情感分析方法不能充分利用多層次的特征且模型對(duì)特征的表達(dá)能力不足。為此,本文提出一種基于視覺注意力和多層特征融合的視覺情感分析方法用于視覺情感分析。通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像的多層次特征,考慮到高層特征和低層特征的特點(diǎn),利用空間注意力加強(qiáng)低層特征挖掘特征的空間信息,運(yùn)用通道注意力加強(qiáng)高層特征關(guān)注語(yǔ)義內(nèi)容更豐富的特征。最后融合高層特征和低層特征,形成語(yǔ)義增強(qiáng)的判別性視覺特征用于訓(xùn)練情感分類器。通過在3 個(gè)公開的情感圖像數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)對(duì)本文提出的DA-MLCNN 模型進(jìn)行評(píng)估,結(jié)果表明,本文方法能夠提取更具判別性的特征表示,從而提升視覺情感分析性能。考慮到情感是復(fù)雜多樣的,當(dāng)前視覺情感分析的分類方法并不能反映情感的復(fù)雜性,下一步將設(shè)計(jì)更合理的網(wǎng)絡(luò)模型提取圖像特征以及研究視覺情感的細(xì)粒度分類,同時(shí),隨著社交媒體視頻內(nèi)容的增多,針對(duì)視頻的情感分析工作也是未來(lái)的一個(gè)重要研究方向。