亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖像整體與局部區(qū)域嵌入的視覺情感分析

        2019-10-23 12:23:56蔡國永賀歆灝儲(chǔ)陽陽
        計(jì)算機(jī)應(yīng)用 2019年8期
        關(guān)鍵詞:情感分析社交媒體深度學(xué)習(xí)

        蔡國永 賀歆灝 儲(chǔ)陽陽

        摘 要:目前多數(shù)圖像視覺情感分析方法主要從圖像整體構(gòu)建視覺情感特征表示,然而圖像中包含對象的局部區(qū)域往往更能突顯情感色彩。針對視覺圖像情感分析中忽略局部區(qū)域情感表示的問題,提出一種嵌入圖像整體特征與局部對象特征的視覺情感分析方法。該方法結(jié)合整體圖像和局部區(qū)域以挖掘圖像中的情感表示,首先利用對象探測模型定位圖像中包含對象的局部區(qū)域,然后通過深度神經(jīng)網(wǎng)絡(luò)抽取局部區(qū)域的情感特征,最后用圖像整體抽取的深層特征和局部區(qū)域特征來共同訓(xùn)練圖像情感分類器并預(yù)測圖像的情感極性。實(shí)驗(yàn)結(jié)果表明,所提方法在真實(shí)數(shù)據(jù)集TwitterⅠ和TwitterⅡ上的情感分類準(zhǔn)確率分別達(dá)到了75.81%和78.90%,高于僅從圖像整體特征和僅從局部區(qū)域特征分析情感的方法。

        關(guān)鍵詞:社交媒體;情感分析;圖像局部對象檢測;深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò)

        中圖分類號:?TP181

        文獻(xiàn)標(biāo)志碼:A

        Visual sentiment analysis by combining global and local regions of image

        CAI Guoyong, HE Xinhao*, CHU Yangyang

        Guangxi Key Laboratory of Trusted Software (Guilin University of Electronic Technology), Guilin Guangxi 541004, China

        Abstract:?Most existing visual sentiment analysis methods mainly construct visual sentiment feature representation based on the whole image. However, the local regions with objects in the image are able to highlight the sentiment better. Concerning the problem of ignorance of local regions sentiment representation in visual sentiment analysis, a visual sentiment analysis method by combining global and local regions of image was proposed. Image sentiment representation was mined by combining a whole image with local regions of the image. Firstly, an object detection model was used to locate the local regions with objects in the image. Secondly, the sentiment features of the local regions with objects were extracted by deep neural network. Finally, the deep features extracted from the whole image and the local region features were utilized to jointly train the image sentiment classifier and predict the sentiment polarity of the image. Experimental results show that the classification accuracy of the proposed method reaches 75.81% and 78.90% respectively on the real datasets TwitterⅠand TwitterⅡ, which is higher than the accuracy of sentiment analysis methods based on features extracted from the whole image or features extracted from the local regions of image.

        Key words:?social media; sentiment analysis; image local object detection; deep learning; neural network

        0 引言

        當(dāng)前,越來越多社交媒體用戶喜歡用視覺圖像來表達(dá)情感或觀點(diǎn),相較于文本,視覺圖像更易于直觀表達(dá)個(gè)人情感,由此,對圖像的視覺情感分析引起了人們的廣泛關(guān)注和研究[1-2]。視覺情感分析是一項(xiàng)研究人類對視覺刺激(如圖像和視頻)做出的情感反應(yīng)的任務(wù)[3],其關(guān)鍵挑戰(zhàn)問題是情感空間與視覺特征空間之間存在的巨大鴻溝問題。

        早期的視覺情感分類主要采用特征工程的方法來構(gòu)造圖像情感特征,如采用顏色、紋理和形狀等特征[4-6]。深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)因其能夠進(jìn)行魯棒且準(zhǔn)確的特征學(xué)習(xí),近年來在計(jì)算機(jī)視覺領(lǐng)域取得了巨大成功[7-9]。特別是卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)能夠自動(dòng)地從大規(guī)模圖像數(shù)據(jù)中學(xué)習(xí)穩(wěn)健的特征且展示了優(yōu)異的性能,在圖像分類以及目標(biāo)檢測等圖像相關(guān)任務(wù)上得到了廣泛應(yīng)用,因此基于CNN的方法也被提出用于預(yù)測圖像情感[10]。盡管基于深度神經(jīng)網(wǎng)絡(luò)相關(guān)的模型已經(jīng)取得了不錯(cuò)的效果,但是現(xiàn)有方法基本是從圖像整體提取特征來預(yù)測視覺情感,對圖像中局部情感突出的區(qū)域并沒有區(qū)別對待,因此情感分類效果還有提升空間。

        針對現(xiàn)有研究中通常只利用整張圖像學(xué)習(xí)情感表示而忽略了圖中情感突出的局部區(qū)域的問題,本文提出了一種新穎的嵌入包含對象的局部區(qū)域特征到圖像整體特征的視覺情感分析方法。該方法首先利用目標(biāo)檢測模型探測對象局部區(qū)域,然后利用深度神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)從局部區(qū)域抽取局部區(qū)域視覺特征并嵌入圖像整體情感特征來訓(xùn)練情感分類器。

        1 相關(guān)工作

        視覺情感分析方法的特征工程主要基于特征選擇或特征抽取方法。如呂鵬霄[11]基于尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)引入具有表征感情色彩的顏色特征,分別提取RGB三個(gè)顏色通道的SIFT特征,串聯(lián)在一起形成384維的顏色尺度不變特征變換(Color SIFT, C-SIFT)特征來預(yù)測圖像的情感。

        Yanulevskaya等[12]通過提取圖像的紋理特征,然后使用支持向量機(jī)將情感圖像進(jìn)行分類從而預(yù)測圖像情感。文獻(xiàn)[13]中構(gòu)建了一個(gè)由1200個(gè)形容詞名詞對(Adjective Noun Pair, ANP)組成的大型視覺情感本體庫,同時(shí)在該本體庫的基礎(chǔ)上分別提出了情感銀行(Sentiment bank, Sentibank)和視覺情感本題庫(Visual Sentiment Ontology, VSO)的情感探測器來提取輸入圖像的中層表示,并把這些中層表示視為圖像特征來學(xué)習(xí)情感分類器。

        文獻(xiàn)[2]中采用了與文獻(xiàn)[13]相似的策略,區(qū)別在于使用102個(gè)預(yù)定義場景屬性取代了ANP作為中層表示。

        近年來,隨著社交網(wǎng)絡(luò)上的視覺內(nèi)容不斷增加,傳統(tǒng)方法難以應(yīng)對大規(guī)模數(shù)據(jù)的伸縮性和泛化性問題[14],研究者開始采用深度模型自動(dòng)地從大規(guī)模圖像數(shù)據(jù)中學(xué)習(xí)情感表示,且效果良好。如文獻(xiàn)[14]中研究了視覺情感概念的分類,并在文獻(xiàn)[13]中給出的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練得到了SentiBank的升級版本DeepSentiBank。

        You等[15]定義了一個(gè)CNN架構(gòu)用于視覺情感分析,而且為解決在大規(guī)模且有噪聲的數(shù)據(jù)集上進(jìn)行訓(xùn)練的問題,他們采用逐步訓(xùn)練的策略對網(wǎng)絡(luò)架構(gòu)進(jìn)行微調(diào),即漸進(jìn)卷積神經(jīng)網(wǎng)絡(luò)(Progressive CNN, PCNN)。

        Campos等[16-17]利用遷移學(xué)習(xí)和來自于預(yù)訓(xùn)練的權(quán)重與偏置,通過用Flickr數(shù)據(jù)集微調(diào)分類網(wǎng)絡(luò),然后再用于圖像情感分類。

        盡管上述方法都取得了一定的效果,但是基本都是考慮從圖像整體抽取特征,很少有人關(guān)注到圖像局部區(qū)域情感信息表達(dá)的差異性。文獻(xiàn)[18]中利用深度學(xué)習(xí)框架自動(dòng)發(fā)現(xiàn)包含物體并攜帶大量情感的局部區(qū)域用于視覺情感分析,Li等[19]則提出了一種兼顧局部和局部 整體的上下文情境感知分類模型。不同于已有研究,本文的關(guān)注點(diǎn)是:1)獲得定位精確的攜帶情感對象的局部區(qū)域;2)在深度網(wǎng)絡(luò)結(jié)構(gòu)中,利用特征嵌入的方法同時(shí)考慮整體圖像與局部區(qū)域。即將圖像整體特征和局部區(qū)域特征嵌入到一個(gè)統(tǒng)一的優(yōu)化目標(biāo)中,使整合后的特征具有更好的判別性。

        2 方法描述

        為了從圖像中誘發(fā)情感的顯著對象局部區(qū)域和整體圖像中學(xué)習(xí)具有判別性的情感表示,本文方法的整體框架如圖1所示,包括以下四個(gè)部分:1)圖像整體特征提取;2)目標(biāo)檢測模型預(yù)訓(xùn)練;3)圖像中包含對象的局部區(qū)域特征提取;4)整體與局部區(qū)域特征整合及視覺情感分類。

        其中,利用Simonyan等[20]提出的VGGNet-16提取來自整張圖像的全局特征表示(如圖1(a))。

        目標(biāo)檢測模型Faster R-CNN[21]作為時(shí)下流行且性能出色的目標(biāo)檢測框架,利用全卷積網(wǎng)絡(luò)將對象定位和對象分類兩個(gè)任務(wù)整合到一個(gè)端到端的深層網(wǎng)絡(luò)架構(gòu)中,通過共享網(wǎng)絡(luò)模型參數(shù)以增強(qiáng)特征映射的魯棒性同時(shí)減少定位對象所花費(fèi)的時(shí)間,能極大地提高目標(biāo)檢測效果。 這里上下文的邏輯在哪

        為了提取局部區(qū)域特征,本文首先利用目標(biāo)檢測數(shù)據(jù)集預(yù)訓(xùn)練目標(biāo)檢測模型,獲得模型參數(shù)(如圖1(c));隨后利用情感圖像數(shù)據(jù)集再次訓(xùn)練目標(biāo)檢測模型,從而獲得更好的、能檢測出圖像中攜帶情感的物理對象區(qū)域,并學(xué)習(xí)包含對象的局部區(qū)域情感表示(如圖1(b));最后結(jié)合圖像整體特征與局部區(qū)域特征,并用于訓(xùn)練情感分類器(如圖1(d))。

        2.1 圖像局部區(qū)域特征提取

        局部區(qū)域特征通常包含圖像中對象的細(xì)粒度信息,本文關(guān)注檢測社交網(wǎng)絡(luò)圖像中出現(xiàn)頻率高且能突顯情感的多個(gè)對象,并對這些包含對象的局部區(qū)域提取深層特征。假定一張圖像中探測到的某一個(gè)局部區(qū)域表示為特征向量 L fi,則檢測到的所有局部區(qū)域可表示為特征向量集{ L f1, L f2,…, L fm},m為檢測到的局部區(qū)域個(gè)數(shù)。局部特征提取基于目標(biāo)檢測模型進(jìn)行,即首先將圖像輸入該模型后生成一個(gè)多通道的特征映射,利用一個(gè)滑動(dòng)窗口遍歷已生成的特征映射獲得一系列候選框;然后通過對比各個(gè)候選框與目標(biāo)檢測圖像真實(shí)標(biāo)簽的交疊率來判定候選框內(nèi)是否存在檢測對象,從而獲得本文所需的局部區(qū)域;最后再利用深層神經(jīng)網(wǎng)絡(luò)提取該局部區(qū)域情感特征。本文利用遷移學(xué)習(xí)的策略來克服目標(biāo)檢測數(shù)據(jù)集與圖像情感數(shù)據(jù)集之間的差異。首先利用Faster R-CNN模型在目標(biāo)檢測數(shù)據(jù)集PASCAL VOC 2007上進(jìn)行預(yù)訓(xùn)練,然后將已經(jīng)學(xué)習(xí)好的模型參數(shù)遷移到情感分析的目標(biāo)區(qū)域檢測中。下面首先介紹如何利用Faster R-CNN生成目標(biāo)區(qū)域候選框。

        2.1.1 候選框生成

        候選框生成網(wǎng)絡(luò)的輸入是任意大小的圖像,輸出是一組矩形候選框。假設(shè)輸入圖像尺寸為M×N,圖像經(jīng)過一系列卷積層變換之后得到卷積特征映射 F ∈ R w×h×n,其中:w和h為卷積特征映射的寬度和高度,n表示卷積特征映射的通道個(gè)數(shù)。設(shè)卷積特征映射 F 大小為(M/16)×(N/16),即輸入圖像與輸出特征映射的寬和高均縮放到1/16。為生成候選框,F(xiàn)aster R-CNN在卷積特征映射上利用了一個(gè)兩層的CNN,第一層包含c個(gè)大小為a×a的濾波器 g ∈ R a×c,濾波器 g 在輸入的卷積特征映射上進(jìn)行滑動(dòng),生成一個(gè)較低維的特征 F ′∈ R w′×h′×l,計(jì)算式如式(1):

        F ′=δ( g ?F +b)?? (1)

        其中:是卷積操作;b∈ R 是一個(gè)偏置項(xiàng), R 為實(shí)數(shù)集;δ(·)是一個(gè)非線性激活函數(shù)。對于 F ′上的每一個(gè)位置考慮k種可能的候選框尺寸以更好地檢測出不同大小的對象,假設(shè) F ′的寬度和高度分別為w′、h′,即 F ′的尺寸為w′×h′,則可得到w′h′k個(gè)候選框。隨后該特征 F ′被送入兩個(gè)并列的全連接層:一個(gè)用于分類,即判定候選框中是否存在對象;另一個(gè)用于回歸,即預(yù)測候選框的中心點(diǎn)坐標(biāo)以及尺寸,如圖1(c)中最右側(cè)的兩個(gè)分支所示。因此,對于k個(gè)候選框,分類層輸出2k個(gè)評估候選框是否存在對象的概率得分,即對應(yīng)二分類問題:候選框存在對象或不存在;回歸層輸出4k個(gè)候選框?qū)?yīng)坐標(biāo)值,即輸出為候選框中心點(diǎn)二維坐標(biāo)以及候選框的寬度和高度。分類層與回歸層損失函數(shù)的加權(quán)表達(dá)式如下:

        L({pi},{ti})=? 1 Ncls ∑ k i=1 Lcls(pi,p*i)+λ 1 Nreg ∑ k i=1 p*iLreg(ti,t*i)??(2)

        其中:pi表示第i個(gè)候選框的預(yù)測結(jié)果。p*i表示第i個(gè)候選框的真實(shí)標(biāo)簽:p*i=1則為正樣本,即候選框內(nèi)存在對象;反之p*i=0則為負(fù)樣本,即候選框?yàn)楸尘啊cls表示一個(gè)Minibatch產(chǎn)生的所有候選框數(shù)量,因?yàn)榕袛嗪蜻x框內(nèi)是否存在對象屬于二分類問題,所以Lcls采用常用于二分類問題的對數(shù)損失函數(shù)Log Loss,計(jì)算公式如式(3)。

        Lreg采用衡量預(yù)測值與真實(shí)標(biāo)簽偏差程度的常見的損失函數(shù)Smooth L1 Loss,計(jì)算公式如式(4),其中ti表示候選框的大小尺寸,t*i則是ti對應(yīng)的真實(shí)標(biāo)簽,Smooth L1 Loss計(jì)算公式如式(5)。λ為超參數(shù)。

        參數(shù)所處級別不一致,導(dǎo)致公式 解釋的位置怎么放都有點(diǎn)問題;4、5這兩個(gè)公式 在這里到底表達(dá)什么?

        l(θ)=p*ilnpi+(1-p*i)ln(1-pi)??(3)

        Lreg(ti,ti)=∑smoothL1(ti-ti)??(4)

        smoothL1(x)= 0.5x2,???? ?| x | <1 | x | -0.5, 其他? (5)

        2.1.2 候選框特征提取

        假設(shè)L={r1,r2,…,rn}為生成的包含對象的候選框集合,將矩形框集合L投影到卷積特征映射 F ∈ R w×h×n上再進(jìn)行局部區(qū)域特征提取,從而避免對矩形框進(jìn)行裁剪或縮放導(dǎo)致的圖像信息缺失,同時(shí)可以減少大量卷積運(yùn)算花費(fèi)的時(shí)間[22]。候選框集合中的任意一個(gè)元素ri={( x i,yi)}ni=1作為情感圖像中生成的候選框樣本,如圖2(a)中的矩形框ri所示。其中 x i通常表示為四維向量,分別表示候選框的中心點(diǎn)坐標(biāo)和寬高;yi∈{0,1}表示候選框內(nèi)對象對應(yīng)的情感標(biāo)簽。對于每一個(gè)候選框樣本,為獲取矩形框內(nèi)多個(gè)層次的語義信息,對候選框進(jìn)行m種不同粒度的劃分,如圖2(b)中所示。隨后對劃分的每一子塊bj進(jìn)行最大池化操作得到一系列具有區(qū)分性的特征映射{ f 1,? f 2,…,? f d},d表示劃分后的子塊個(gè)數(shù),計(jì)算式如式(6):

        f i=Gmax(bj)?? (6)

        其中:bj表示劃分后的某一子塊;? f i表示子塊bj對應(yīng)的特征映射;Gmax(·)表示最大池化操作。最后將所有子塊的特征映射相加從而得到固定維度的局部區(qū)域特征向量,具體表示如式(7):

        L fi=∑ d i=1? f i?? (7)

        本文考慮對候選框同時(shí)設(shè)置3種劃分尺寸,分別為{3×3,2×2,1×1},最大池化過程中的步長和窗口由輸入的矩形框決定。

        2.2 整體圖像特征提取

        整體圖像特征是與圖像的情感表示相關(guān)的重要因素,通常包含圖像整體外觀信息和圖中對象周圍的上下文信息。本文采用如圖3所示的VGGNet-16框架提取整體圖像特征。VGGNet-16由5個(gè)卷積塊和3個(gè)全連接層組成,作為牛津大學(xué)和DeepMind公司共同研發(fā)的深層神經(jīng)網(wǎng)絡(luò),它比普通的卷積神經(jīng)網(wǎng)絡(luò)擁有更深層的網(wǎng)絡(luò)結(jié)構(gòu)和統(tǒng)一的網(wǎng)絡(luò)配置,使得它在減少參數(shù)的同時(shí)能進(jìn)行更多的非線性變換,從而具備更加出色的特征提取能力。

        具體地,從VGGNet-16的最后一個(gè)全連接層fc7提取圖像整體特征,得到一個(gè)4096維的特征向量,記為 G f,如圖3所示。

        2.3 圖像整體與局部區(qū)域嵌入的情感分類

        深度圖像整體特征和包含對象的局部區(qū)域特征通過對應(yīng)的網(wǎng)絡(luò)架構(gòu)提取到的特征表示分別為 G f和{ L f1, L f2,…, L fm},選擇檢測到的前m個(gè)對象來表示重要的局部區(qū)域信息,因此每張圖像最終可被表示為一組情感信息更加豐富的特征向量 U ={ G f, L f1, L f2,…, L fm}。為了將圖像整體特征與局部區(qū)域特征相結(jié)合,本文采用特征拼接的方法對兩種特征進(jìn)行融合,具體表示如式(8):

        φ( U )= G f⊕ L f1⊕ L f2⊕…⊕ L fm

        (8)

        其中⊕表示整體特征和局部特征的拼接。

        對于視覺情感分類而言,情感標(biāo)簽在訓(xùn)練過程中的作用不容忽視。本文選擇一種較為簡單的處理方法,即對相應(yīng)圖像中檢測到的局部對象區(qū)域均賦予與原圖一致的情感極性。在獲得拼接好的聯(lián)合特征向量φ( U )之后,將其送到全連接層,并通過softmax分類到輸出類別中。為衡量模型損失,本文使用交叉熵定義損失函數(shù),softmax層解釋聯(lián)合特征向量φ( U )到輸出的類別中且分配一個(gè)相對應(yīng)的概率分?jǐn)?shù)qi,若輸出的情感類別的數(shù)量為s,則:

        qi=exp(φ( U )i) / ∑ s i=1 exp(φ( U )i)?(9)

        l=-∑ s i=1 hi ln(qi)?(10)

        其中:l是網(wǎng)絡(luò)的交叉熵?fù)p失;hi為圖像的真實(shí)情感標(biāo)簽。

        3 實(shí)驗(yàn)結(jié)果及分析

        本章主要評估本文所提出的方法,并對比其他通過整體圖像特征進(jìn)行情感分類的方法,以驗(yàn)證本文方法對于視覺情感分析的有效性。

        3.1 數(shù)據(jù)集

        在2個(gè)公共數(shù)據(jù)集TwitterⅠ、TwitterⅡ上對本文方法進(jìn)行評估。TwitterⅠ是從社交軟件Twitter中收集的881張包含兩類情感極性(積極和消極)的圖像及其對應(yīng)的基于群智策略的人工標(biāo)注的情感標(biāo)簽;TwitterⅡ由文獻(xiàn)[15]提供,包含1269張同樣來自于Twitter中的圖像,由5名亞馬遜勞務(wù)眾包平臺(Amazon Mechanical Turk, AMT)

        為對應(yīng)的圖像標(biāo)注兩類情感極性標(biāo)簽。這兩個(gè)數(shù)據(jù)集均采用隨機(jī)劃分的方式將80%的樣本作為訓(xùn)練集,剩下的20%作為測試集。

        3.2 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)開發(fā)環(huán)境為Linux-Ubuntu14.04, Python 2.7, Tensorflow 1.3.0,開發(fā)工具為PyCharm。TwitterⅠ和TwitterⅡ數(shù)據(jù)集均在Tesla P100-PCIE GPU工作站上完成。提取圖像整體特征采用的網(wǎng)絡(luò)架構(gòu)為CNN框架VGGNet-16,與Faster R-CNN模型生成卷積特征映射的網(wǎng)絡(luò)架構(gòu)一致,這是為后續(xù)進(jìn)行特征向量拼接做準(zhǔn)備。輸入圖像尺寸為224×224,選擇MomentumOptimizer優(yōu)化器對模型進(jìn)行優(yōu)化, Momentum表示動(dòng)能優(yōu)化,非變量,是代碼中的概念名稱 Momentum設(shè)為0.9,學(xué)習(xí)率設(shè)為0.001。模型采用Dropout策略,Dropout值設(shè)為0.5。選用交叉熵作為模型損失函數(shù),并利用L2范式防止過擬合,訓(xùn)練迭代次數(shù)共100個(gè)epochs。提取局部區(qū)域特征則利用Faster R-CNN模型,采用大規(guī)模檢測數(shù)據(jù)集PASCAL VOC 2007進(jìn)行預(yù)訓(xùn)練并初始化模型權(quán)重,接著利用ImageLab標(biāo)注工具對情感圖像數(shù)據(jù)集中的人、車等5類對象進(jìn)行目標(biāo)檢測標(biāo)簽標(biāo)注,此時(shí)數(shù)據(jù)集既包含情感標(biāo)簽也包含目標(biāo)檢測標(biāo)簽(包含對象的矩形框的中心點(diǎn)坐標(biāo)和寬高)。利用該數(shù)據(jù)集對已訓(xùn)練好的Faster R-CNN模型進(jìn)行微調(diào),從而獲得包含對象的局部區(qū)域。Faster R-CNN的初步特征提取網(wǎng)絡(luò)同樣選擇VGGNet-16,調(diào)整其候選框區(qū)域池化層,池化核采用3×3,2×2,1×1,以適應(yīng)本文數(shù)據(jù)集。

        3.3 對比方法

        為驗(yàn)證本文方法的有效性,將本文方法與特征工程方法和基于CNN框架提取圖像整體特征的方法進(jìn)行對比,包括

        SentiBank模型、DeepSentiBank模型以及ImageNet數(shù)據(jù)集微調(diào)的AlexNet和VGGNet-16模型。對比方法均在本文的兩個(gè)情感圖像數(shù)據(jù)集TwitterⅠ、TwitterⅡ上進(jìn)行測試評估,輸入圖像尺寸均為224×224。此外,本文考慮忽略整體圖像的情況,僅采用局部對象區(qū)域特征提取網(wǎng)絡(luò)進(jìn)行情感二分類實(shí)驗(yàn)。具體說明如下:

        SentiBank:通過組建形容詞名詞短語對(ANP)提取圖像中的視覺概念中層表示,該表示被視為圖像特征來學(xué)習(xí)情感預(yù)測分類器[12]。

        DeepSentiBank:利用深度卷積神經(jīng)網(wǎng)絡(luò)在大型數(shù)據(jù)集上訓(xùn)練的視覺情感概念分類器,即SentiBank的改良版[14]。

        ImageNet-AlexNet:利用遷移學(xué)習(xí)的思想,將AlexNet在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練并在情感數(shù)據(jù)集上進(jìn)行微調(diào),用于視覺情感分析[23]。

        ImageNet-VGGNet-16:與ImageNet-AlexNet模型思路相同,區(qū)別在于網(wǎng)絡(luò)換成了更深層的VGGNet-16[20]。

        Local regions-Net:忽略圖像整體特征提取,利用Faster R-CNN直接捕捉圖像中的局部對象區(qū)域,然后通過全連接網(wǎng)絡(luò)學(xué)習(xí)局部對象區(qū)域的情感表示,將該表示作為圖像情感特征訓(xùn)練情感分類器。

        3.4 結(jié)果分析

        表1是本文方法與對比方法在兩個(gè)真實(shí)數(shù)據(jù)集TwitterⅠ、TwitterⅡ上得到的分類準(zhǔn)確率。由表1可知:本文方法在數(shù)據(jù)集TwitterⅠ和TwitterⅡ上的分類準(zhǔn)確率分別達(dá)到了7581%和78.90%,而對比方法SentiBank模型在數(shù)據(jù)集TwitterⅠ和TwitterⅡ上的準(zhǔn)確率僅為66.63%和65.93%;同時(shí),本文方法在數(shù)據(jù)集TwitterⅠ、TwitterⅡ上的分類效果相比DeepSentibank模型分別提高了4.56個(gè)百分點(diǎn)和8.67個(gè)百分點(diǎn)。這表明本文方法在視覺情感分析中能夠?qū)W習(xí)更具區(qū)分性的表示。

        如圖4所示,本文方法對來自TwitterⅡ數(shù)據(jù)集中的驗(yàn)證樣例進(jìn)行情感極性預(yù)測,通過檢測圖中突顯情感的物理對象來加強(qiáng)視覺情感分類的效果。圖4(a)通過檢測微笑的人臉,提取該區(qū)域特征然后結(jié)合圖像整體特征和局部對象區(qū)域特征以加強(qiáng)情感表示,最后預(yù)測圖像情感極性為積極,與圖像原始標(biāo)簽一致,即正確樣例;圖4(b)檢測出圖中舉手示意的人,但忽略了圖中背景中燃燒的火焰,最后預(yù)測圖像情感為積極,即錯(cuò)誤樣例。

        此外,本文還對比了微調(diào)之后的深度神經(jīng)網(wǎng)絡(luò)AlexNet和VGGNet-16架構(gòu),在相同的參數(shù)設(shè)置下,微調(diào)后的VGGNet-16在數(shù)據(jù)集TwitterⅠ、TwitterⅡ上準(zhǔn)確率均提高了約10個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了結(jié)合局部對象區(qū)域表示的有效性。

        同樣還對比了僅考慮局部區(qū)域提取網(wǎng)絡(luò),仍采用相同的參數(shù)設(shè)置,它們在數(shù)據(jù)集TwitterⅠ、TwitterⅡ上的情感分類準(zhǔn)確率同樣低于本文方法,且同樣低于特征工程方法和基于CNN框架提取圖像整體特征的方法。

        本文方法還與基于CNN框架提取圖像整體特征的方法進(jìn)行了算法效率比較,如表1最后一列所示,該列表示本文方法與對比方法在TwitterⅠ數(shù)據(jù)集上進(jìn)行迭代訓(xùn)練時(shí)的收斂速度。可以看到,本文方法在進(jìn)行80次迭代后即達(dá)到收斂,且準(zhǔn)確率達(dá)到75.81%,而ImageNet-AlexNet模型和ImageNet-VGGNet-16模型分別需要進(jìn)行150次和100次的迭代訓(xùn)練才能達(dá)到收斂,且分類準(zhǔn)確率要低于本文方法。這表明本文方法能夠更快速地學(xué)習(xí)具有判別性的情感表示,同時(shí)能獲得更好的分類效果。

        最后,我們對利用情感圖像訓(xùn)練目標(biāo)檢測模型的遷移參數(shù)策略進(jìn)行了收斂實(shí)驗(yàn)分析,選擇目標(biāo)檢測數(shù)據(jù)集PASCAL VOC 2007迭代70000次訓(xùn)練后的Faster R-CNN模型參數(shù)作為模型初始化參數(shù),然后利用情感圖像再次訓(xùn)練Faster R-CNN,訓(xùn)練得到的平均準(zhǔn)確率為62.8%,而Faster R-CNN模型在PASCAL VOC 2007測試集上的平均準(zhǔn)確率為68.5%??紤]到目標(biāo)檢測圖像比情感圖像要多4倍左右,且目標(biāo)檢測真實(shí)標(biāo)簽更加精確,因此6個(gè)百分點(diǎn)左右的差距是可以接受的,同時(shí)也說明利用參數(shù)遷移策略是行之有效的。

        4 結(jié)語

        視覺情感分析正在獲得越來越多的關(guān)注,考慮到圖像的情感不僅僅來自于圖像整體,圖像中包含對象的局部區(qū)域同樣能誘發(fā)情感,本文提出了一個(gè)新穎的圖像整體與局部區(qū)域嵌入的方法以加強(qiáng)圖像情感表示并用于視覺情感分析。該方法首先利用Faster R-CNN模型檢測圖像中的對象,通過深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像局部區(qū)域的情感表示,并將其與圖像整體特征進(jìn)行融合,從而獲得更具有判別性的情感表示。在兩個(gè)真實(shí)數(shù)據(jù)集TwitterⅠ和TwitterⅡ上評估驗(yàn)證了本文方法的有效性,且實(shí)驗(yàn)結(jié)果表明本文提出的圖像整體與局部區(qū)域嵌入的視覺情感分析方法要優(yōu)于僅從圖像整體和僅從局部區(qū)域?qū)W習(xí)情感表示的方法。

        然而在本文研究中僅考慮利用圖像中包含對象的局部區(qū)域情感來加強(qiáng)視覺情感分析,并沒有考慮捕捉圖像中能誘發(fā)情感的其他區(qū)域。因此在未來的工作中將考慮通過弱監(jiān)督學(xué)習(xí)等方法更精確地發(fā)現(xiàn)視覺圖像中的情感區(qū)域,設(shè)計(jì)更合理的特征提取網(wǎng)絡(luò)以進(jìn)一步提高視覺情感分析的效果。

        參考文獻(xiàn) (References)

        [1]? JIN X, GALLAGHER A, CAO L, et al. The wisdom of social multimedia: using flickr for prediction and forecast [C]// Proceedings of the 18th ACM International Conference on Multimedia. New York:ACM, 2010: 1235-1244.

        [2]? YUAN J, MCDONOUGH S, YOU Q, et al. Sentribute: image sentiment analysis from a mid-level perspective [C]// Proceedings of the 2nd International Workshop on Issues of Sentiment Discovery and Opinion Mining. New York: ACM, 2013: Article No.10.

        [3]? YANG J, SHE D, LAI Y, et al. Weakly supervised coupled networks for visual sentiment analysis [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2018: 7584-7592.

        [4]? WANG X, JIA J, HU P, et al. Understanding the emotional impact of images [C]// Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM, 2012: 1369-1370.

        [5]? CHENG Y, CHEN S. Image classification using color, texture and regions [J]. Image & Vision Computing, 2003, 21(9): 759-776.

        [6]IQBAL Q, AGGARWAL J K. Retrieval by classification of images containing large manmade objects using perceptual grouping [J]. Pattern Recognition, 2002, 35(7): 1463-1479.

        [7] ?KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale ?video classification with convolutional neural networks [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1725-1732.

        [8]? CHEN M, ZHANG L, ALLEBACH J P. Learning deep features for image emotion classification [C]// Proceedings of the 2015 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2015:4491-4495.

        [9]? SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2015: 1-9.

        [10] YOU Q, LUOO J, JIN H, et al. Building a large scale dataset for image emotion recognition: the fine print and the benchmark [J]. arXiv E-print, 2018: arXiv:1605.02677.

        Proceedings of the 13th AAAI Conference on Artificial Intelligence. Barcelona: AAAI Press, 2016: 308-314.沒查到這個(gè)信息

        [11] 呂鵬霄.圖像情感分類研究[D].秦皇島:燕山大學(xué),2014:1-15. (LYU P X. Research on image emotion categorization [D]. Qinhuangdao: Yanshan University, 2014:1-15.)

        [12]? YANULEVSKAYA V, van GEMERT J C, ROTH K, et al. Emotional valence categorization using holistic image features [C]// Proceedings of the 2008 15th IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2008: 101-104.

        [13]? BORTH D, JI R, CHEN T, et al. Large-scale visual sentiment ontology and detectors using adjective noun pairs [C]// Proceedings of the 21st ACM International Conference on Multimedia. New York:ACM, 2013: 223-232.

        [14]? CHEN T, BORTH D, DARRELL T, et al. DeepSentiBank: visual sentiment concept classification with deep convolutional neural networks [J]. arXiv E-print, 2014: arXiv:1410.8586.

        [EB/OL]. [2018-10-18]. https://arxiv.org/pdf/1410.8586.pdf.

        [15]? YOU Q, LUO J, JIN H, et al. Robust image sentiment analysis using progressively trained and domain transferred deep networks [C]// Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2015: 381-388.

        [16]? ?CAMPOS V, SALVADOR A, GIRO-I-NIETO X, et al. Diving? deep into sentiment: understanding fine-tuned CNNs for visual sentiment prediction [C]// Proceedings of the 1st International Workshop on Affect and Sentiment in Multimedia. New York: ACM, 2015: 57-62.

        [17]? CAMPOS V, JOU B, GIRó-I-NIETO X. From pixels to sentiment: fine-tuning CNNs for visual sentiment prediction [J]. Image & Vision Computing, 2017, 65: 15-22.

        [18] SUN M, YANG J, WANG K, et al. Discovering affective regions in deep convolutional neural networks for visual sentiment prediction [C]// Proceedings of the 2016 IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE, 2016:1-6.

        [19] LI B, XIONG W, HU W, et al. Context-aware affective images classification based on bilayer sparse representation [C]// Proceedings of the 2012 ACM International Conference on Multimedia. New York: ACM, 2012: 721-724.

        [20] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv E-print, 2018: arXiv:1409.1556.?[EB/OL]. [2018-11-15]. https://arxiv.org/abs/1409.1556.

        [21]? REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C]// Proceedings of the 2015 International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 91-99.

        [22]? HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(9):1904-1916.

        [23]? KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2012: 1097-1105.

        猜你喜歡
        情感分析社交媒體深度學(xué)習(xí)
        基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評論情感屬性的動(dòng)態(tài)變化
        預(yù)測(2016年5期)2016-12-26 17:16:57
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        知識零售變現(xiàn)模式的問題與思考
        基于社交媒體的廣告學(xué)專業(yè)教學(xué)改革與實(shí)踐
        大學(xué)生社交媒體的使用特征、傳播趨向及其對高校傳播生態(tài)的挑戰(zhàn)
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        “雙微時(shí)代”的危機(jī)傳播趨勢和影響因素研究
        久久99国产伦精品免费| 黄页免费人成网址大全| 男女视频在线观看一区二区| 在线观看免费日韩精品| 色欲色欲天天天www亚洲伊| 欧美尺寸又黑又粗又长| 国产国拍亚洲精品mv在线观看| 亚洲乱码一区二区三区成人小说| 亚洲高清自偷揄拍自拍| 少妇下面好爽好紧好湿一区二区| 亚洲av香蕉一区区二区三区| 最新亚洲人成网站在线观看| 久久不见久久见免费视频7| 91久久国产情侣真实对白| 午夜一区二区在线视频| 男女搞事在线观看视频| 国产欧美日韩va另类在线播放| 岳好紧好湿夹太紧了好爽矜持 | 中文字幕34一区二区| 永久免费人禽av在线观看| 自拍偷自拍亚洲精品播放| 黑人巨大精品欧美在线观看| 日美韩精品一区二区三区| 女同一区二区三区在线观看| 国产午夜av秒播在线观看| 国产suv精品一区二人妻| 伊人久久大香线蕉免费视频| 人妻系列无码专区久久五月天| 视频一区中文字幕日韩| 无码国产成人午夜电影在线观看| 亚洲av无码av日韩av网站| 国产高清在线91福利| 亚洲女同av在线观看| 国产男女猛烈无遮挡免费网站| 免费的一级毛片| 麻美由真中文字幕人妻| 日本妇女高清一区二区三区| 国产成人精品免费视频大全软件| 中国xxx农村性视频| av草草久久久久久久久久久| 亚洲国产天堂久久综合网|