亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于域自適應的云南重彩畫無監(jiān)督情感識別

        2022-08-16 09:38:24彭國琴
        圖學學報 2022年4期
        關(guān)鍵詞:語義分類情感

        彭國琴,張 浩,徐 丹

        基于域自適應的云南重彩畫無監(jiān)督情感識別

        彭國琴1,張 浩2,徐 丹2

        (1. 云南大學信息技術(shù)中心,云南 昆明 650500;2. 云南大學信息學院,云南 昆明 650500)

        計算機視覺中,深度學習之所以取得如此巨大的突破,均得益于可獲得的大規(guī)模標記數(shù)據(jù)集,而在圖像情感分析中,由于情感語義的模糊性,導致圖像情感標注困難,公開可獲得圖像情感數(shù)據(jù)集較少,其規(guī)模也小,制約了基于深度學習的圖像情感分析性能。情感語義具有其特有的有序性和極性分組特征,而已有的圖像情感分析方法中很少關(guān)注到情感語義的這些本質(zhì)特征。基于域自適方法,考慮情感語義的本質(zhì)特征,提出一種基于推土機距離的情感語義對齊方式,將帶標記的情感數(shù)據(jù)集的訓練模型更好地遷移到無標記的情感數(shù)據(jù)集上,實現(xiàn)無監(jiān)督的圖像情感分析,解決情感數(shù)據(jù)集標注困難的問題。該方法應用于創(chuàng)建的云南重彩畫數(shù)據(jù)集,實驗結(jié)果表明,其能有效地對齊源域和目標域數(shù)據(jù),實現(xiàn)無監(jiān)督的情感數(shù)據(jù)集自動標注,有利于擴充圖像情感數(shù)據(jù)集規(guī)模。

        域自適應;云南重彩畫;推土機距離;無監(jiān)督;自動標注

        心理學研究表明視覺內(nèi)容會誘發(fā)觀察者的多種情感響應[1]。且隨著互聯(lián)網(wǎng)的發(fā)展,人們普遍通過上傳視覺內(nèi)容(圖像和視頻)到社交平臺的方式來表達情感。因此,對這些視覺內(nèi)容的智能情感分析更加迫切,視覺內(nèi)容情感分析在輿情監(jiān)控、教育科技和思想挖掘等多個領(lǐng)域都有廣泛地應用價值和意義。近年來隨著計算機視覺任務的突破性進展,理解圖像所傳達的情感,即圖像情感分析,也引起了研究者的廣泛關(guān)注。

        圖像情感分析是一項具有難度的挑戰(zhàn)性任務,主要是由于情感語義的模糊性,主要表現(xiàn)為2方面。一是情感類別語義的模糊性,情感類別的語義之間的邊界不清晰,如在EKMAN[2]的6類基本情感(高興、悲傷、驚喜、害怕、憤怒和厭惡)中高興和驚喜邊界是不清晰的,導致人們在進行情感標注時會模棱兩可。情感類別不同于一般的分類任務的類別,其特有的特性為有序性和極性分組,圖1展示了6類情感和8類情感的有序性和分組特性。根據(jù)情感的愉悅程度,從小到大對情感類別進行排序,即有序性。從左到右情感類別的愉悅度逐漸遞增,部分情感類別之間的愉悅程度很接近,如6類基本情感中的高興與驚喜;根據(jù)愉悅程度的正負性,情感類別自然地分為正向情感和負向情感,即分組特性,無論是6類情感模型還是8類情感模型,均具有有序性和分組特性。另一方面,不同文化背景、知識結(jié)構(gòu)的人,對同一張圖片會有完全不同的情感體驗。情感語義的模糊性導致情感標注更加耗費精力,故可公開獲得的情感數(shù)據(jù)集較少,規(guī)模也小,在基于深度學習的方法中,其成為了制約圖像情感分析效果的關(guān)鍵因素。因此,要提升圖像情感分析的性能,首要解決的是情感數(shù)據(jù)集規(guī)模小的問題。

        考慮情感類別的本質(zhì)特性,即有序性和極性分組,基于域自適方法,提出基于推土機距離(earth mover’s distance,EMD)的情感語義對齊方法,確保源域數(shù)據(jù)調(diào)整到目標域之后的情感語義保持不變。該方法從本質(zhì)上對齊圖像的情感語義,并應用于新創(chuàng)建的云南重彩畫數(shù)據(jù)集,提升了無監(jiān)督情感數(shù)據(jù)集的分類性能,實現(xiàn)了無監(jiān)督數(shù)據(jù)集的情感標注與識別。情感語義對齊框架圖如圖2所示。

        圖1 情感的有序性和極性

        圖2 域自適應情感語義分析對齊框架圖

        1 相關(guān)工作

        1.1 圖像情感分析

        心理學上廣泛采用的情感表示模型有:離散情感狀態(tài)和維度情感空間2種。離散情感狀態(tài)模型認為情感是一些離散的狀態(tài),典型的有EKMAN[2]和MIKELS等[3]的情感狀態(tài)模型,2種情感狀態(tài)模型分別包括6類和8類基本情感(圖1);而維度情感空間模型將情感映射到連續(xù)維度空間中的一點,廣泛采用的有PAD (pleasure-arousal- dominance)模型[4]和VA (valence-arousal)模型[5]。離散情感狀態(tài)模型中的情感類別更容易被人們所接受和理解,在圖像情感分析中被廣泛采用。

        圖像情感分析經(jīng)歷從傳統(tǒng)手工設計到深度學習的特征提取方法。早期主要通過手工設計來提取不同層的特征,如低層特征[6]、中層特征[7]和高層特征[8]。近年來,隨著卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)在圖像識別任務中取得成功,基于深度學習的方法已被應用于圖像情感分析。PENG等[9]基于歐式距離為圖像情感分析提出了回歸CNN模型;YANG等[10]和ZHAO等[11]通過標簽分布學習來揭示每類情感描述圖像傳達的情感程度;XIONG等[12]考慮情感類別分組和排序的結(jié)構(gòu)化信息,利用情感的分組和有序性,解決標簽模糊的問題。ZHAN等[13]認為隨著心理學理論的發(fā)展,情緒類別更加多樣化、細粒化,樣本收集更加困難,提出了使用中層語義表示,即形容詞-名詞對(adjective noun pair,ANP)特征,來構(gòu)建一個彌合低層視覺特征和高層語義的中間嵌入空間,研究情感識別中的零樣本學習問題,目的是識別新出現(xiàn)的、未知的情感。ZHANG等[14]通過CNN結(jié)合來自高層的內(nèi)容和低層的風格信息,如紋理和形狀等,分析圖像所傳達的情感。

        但和其他計算機視覺任務相比,圖像情感分析的性能不能令人滿意,主要是從情感數(shù)據(jù)集中公開可獲得的情感數(shù)據(jù)集較少,且規(guī)模均較小。表1統(tǒng)計了圖像情感分析中使用的14個情感數(shù)據(jù)集,其中只有4個數(shù)據(jù)集是開放的,且規(guī)模均較小。而基于CNN的深度學習方法,在大規(guī)模數(shù)據(jù)集上才能展現(xiàn)其卓越的性能。因此,擴充情感數(shù)據(jù)集成為圖像情感分析性能提升的關(guān)鍵,然而由于情感語義的模糊加劇了人工標注的困難程度,能否借助已有的圖像情感識別中取得的成果,通過自動標注來解決圖像情感標注的難題。但這方面的研究還未引起研究者的廣泛關(guān)注,本文基于域自適方法,將在已標記的源域數(shù)據(jù)上的訓練模型遷移到未標記的目標域,實現(xiàn)對未標記目標域數(shù)據(jù)集的情感識別,實現(xiàn)圖像的情感自動標注,進而擴充情感數(shù)據(jù)集。

        表1 情感數(shù)據(jù)集統(tǒng)計表

        注:*為開放數(shù)據(jù)集

        1.2 域自適應

        域自適應[15]是一種機器學習范式,研究如何將一個已標記源域的模型很好地遷移到其他稀疏標記或未標記的目標域上,域自適廣泛應用于多種計算機視覺任務中。

        域自適方法采用2個分支的體系結(jié)構(gòu)來表示源域和目標域的模型,并結(jié)合其他的損失來處理域變化問題,如差異損失、重構(gòu)損失和對抗性損失等?;诓町悡p失的方法,即度量源域和目標域在對應的激活層的差異,如CORAL基于最后一個全連接層和最后一個卷積層的最大均值差異[16]?;谥貥?gòu)的方法,即結(jié)合重構(gòu)損失來最小化輸入和重構(gòu)輸入之間的差異,如GHIFARY等[17]設計了一個在多個輸出層的多任務的自編碼器,每個輸出對應一個域。域自適方法廣泛采用基于生成對抗網(wǎng)絡模型(generative adversarial networks,GAN),GANIN和LEMPITSKY[18]最先將對抗學習應用于域自適應中,并提出了梯度逆轉(zhuǎn)(reversal of gradient,ReGrad)的優(yōu)化方法,使得學到的特征表示對源域圖像具有更好地辨別能力,同時對目標域圖像具有域不變性,實現(xiàn)源域和目標域之間的知識遷移學習;BOUSMALIS等[19]提出的模型利用GAN調(diào)整源域圖像,視覺上看起來其似乎來自目標域,為了懲罰源域和生成圖像在前景像素上的差異,提出了最小化源域圖像和生成圖像掩碼像素的平均均方誤差,并泛化到訓練階段未見過的對象上,模型將域自適應的過程從特定的任務框架中分離出來;HOFFMAN等[20]強調(diào)循環(huán)一致性損失,提出了像素級和特征級的域自適應。ZHU等[21]提出了循環(huán)一致對抗網(wǎng)絡(CycleGAN),在未配對訓練圖像時,通過一個反向的生成網(wǎng)絡使得生成的目標域圖像能恢復為源域的圖像,即經(jīng)過一個循環(huán)恢復輸入的圖像,使生成的圖像看起來像來自目標域,但仍是源域圖像的內(nèi)容。

        ZHAO等[22]利用CycleEmotionGAN,將域自適應方法應用于圖像情感分析中,通過在CycleGAN中增加情感語義一致性來確保源域數(shù)據(jù)調(diào)整到目標域且情感語義不變,并通過KL散度(Kullback-Leibler divergence)來度量調(diào)整前后情感語義的差異,目標是使得情感語義差異最小化。由于提出的情感語義一致性未考慮情感類別的本質(zhì)特性,如有序性和分組特性,且KL散度在度量具有有序性和分組特性的情感類別時,并不能從本質(zhì)上反應情感類別的語義距離。因此,本文提出通過EMD來度量情感源域和目標域圖像之間的情感語義距離。

        2 方 法

        域自適方法關(guān)鍵是源域圖像調(diào)整到目標域之后,確保對應到圖像情感分析中的情感語義不變。本研究考慮了情感類別的有序性和極性特征,提出了基于EMD的情感語義對齊損失,如圖2所示,懲罰調(diào)整前后圖像情感語義的變化,目標是最小化源域圖像和目標域圖像的情感語義,即源域圖像調(diào)整到目標域之后圖像的情感語義未發(fā)生變化。

        2.1 情感語義對齊方法分析

        圖像情感分析中,KL散度廣泛用于度量2個情感分布之間的差異,如CycleEmotionGAN通過最小化調(diào)整前后圖像預測分布的KL散度以度量情感語義一致性的差異,目的是使調(diào)整后的圖像看起來像來自目標域,但圖像的情感語義要保證一致,即

        其中,和分別為對應源圖像經(jīng)過分類器之后得到的情感類別的概率分布和調(diào)整到目標域之后的圖像經(jīng)過分類器之后的情感類別的概率分布;為總情感類別數(shù)。

        極性特征是情感類別的一個重要本質(zhì)特征,離散情感表示模型和連續(xù)的維度模型均表現(xiàn)了極性特征。在同一個分組中,情感類別根據(jù)愉悅度的強度,得到8類情感和6類情感的有序性和分組特性如圖1所示,從左到右表示了情感類別的有序性。在圖像情感分析中,將一類情感錯誤預測為相鄰的情感(如將joy預測為surprise)比預測為較遠的情感(如將joy預測為sadness)更讓人容易接受。但KL散度并不能很好地度量對這種差異的懲罰[12],下面舉例說明。

        對于一個3分類={1,2,3}的情感分類任務,其中1,2和3是有序的,真實的情感分布={0.6,0.2,0.2},假設有預測分布={0.2,0.5,0.3}和={0.2,0.3,0.5},根據(jù)式(1)可知(||?)==(||?)。但是,在圖像情感分析中,根據(jù)情感類別的有序性,將1預測為相鄰的2比預測為較遠的3是更易讓人接受的,那么預測為3的懲罰應大于2,但是KL散度度量的損失并不能反應這種懲罰的差異。本文方法考慮到情感類別的有序性和分組特性,提出通過EMD來度量2個情感分布之間的距離。最優(yōu)傳輸理論中,EMD能更好地度量2個分布之間的差異[23]。

        2.2 基于推土機距離的情感語義對齊

        考慮情感類別的有序性和分組特性,提出的情感語義對齊分別考慮了有序和分組對齊。

        同理,考慮到分組特性,情感分布pq之間的EMD為

        本文提出的域自適圖像情感分析,從情感類別的有序性和極性分組特性出發(fā),利用EMD來度量情感分布之間的差異,懲罰圖像從源域遷移到目標域之后情感分布的變化,能確保源域圖像遷移到目標域后的情感語義保持一致。

        2.3 模型優(yōu)化

        本文關(guān)注的是帶標記的源域數(shù)據(jù)遷移到無標記的目標域上,實現(xiàn)對目標域數(shù)據(jù)集的無監(jiān)督情感識別,即基于源域圖像X及其標注信息Y實現(xiàn)對目標域圖像X的情感標注。

        2.3.1 循環(huán)一致性損失

        圖2為本文模型,涉及2個生成對抗模型:源域到目標域的生成模型G,從目標域到源域的生成模型G,與之相對應的2個鑒別器DD,圖2中綠線表示前向流程,紅線表示反向流程。模型的整體思想是學習映射G:XX將源圖像X調(diào)整到目標域X,使得生成鑒別器D無法分辨目標域圖像的真假,并且保持圖像X的情感標注不變地傳遞給

        理論上,對抗訓練學到的映射模型GG能得到和目標域X和源域X同分布的輸出,但要有足夠大的容量,網(wǎng)絡可以將相同輸入圖像映射到目標域中的任意圖像,學到的任何映射均能生成和目標分布匹配的輸出分布。因此,單獨的對抗性損失不能確保學到的函數(shù)能映射輸入到預期一致的輸出,為了縮小映射函數(shù)空間,學習的映射應循環(huán)一致[21],且映射到目標域的圖像經(jīng)過逆映射后得到X-=G(G(X)),使得X-==X,反之亦然,即在反向上也通過循環(huán)一致性損失來確保調(diào)整之后的圖像能恢復到源圖像G(G(X))==X。循環(huán)一致性損失為

        其中,PP分別為源域圖像和目標域圖像服從的分布。2個生成對抗模型的損失分別為

        循環(huán)模型的損失為

        其中,為控制循環(huán)一致性損失在模型損失中的相對重要性。

        2.3.2 分類損失

        為了解決無標簽數(shù)據(jù)集的無監(jiān)督標記,實現(xiàn)對目標域數(shù)據(jù)的分類,利用源域數(shù)據(jù)的標記信息Y,基于提出的情感語義對齊,期望調(diào)整到目標域后的數(shù)據(jù)的情感分布與目標域的數(shù)據(jù)X一致,且保留了源域數(shù)據(jù)X的情感標注信息,因此通過在(,Y)上訓練分類模型,以實現(xiàn)對目標域數(shù)據(jù)X的無監(jiān)督分類,并通過分類模型的最小化交叉熵來優(yōu)化模型,分類模型的損失為

        2.3.3 總損失

        在CycleGAN上,調(diào)整源域數(shù)據(jù)與目標域數(shù)據(jù)的分布一致性,并增加情感語義對齊,確保調(diào)整前后情感語義的一致性。調(diào)整到目標域后,源域圖像的情感語義被傳遞,通過調(diào)整后的圖像和源域情感標注信息上訓練分類模型,從而實現(xiàn)對目標域數(shù)據(jù)集的情感識別,因此,整個模型的損失函數(shù)為

        其中,為控制參數(shù)。

        整個模型的優(yōu)化過程涉及了GG2個生成模型,及與其對應的2個鑒別模型DD,和一個分類模型。采用隨機梯度下降,通過交替優(yōu)化的方式實現(xiàn)對整個網(wǎng)絡模型的優(yōu)化。

        3 云南重彩畫情感數(shù)據(jù)集

        藝術(shù)作品是藝術(shù)家思想和情感的表達,對藝術(shù)作品的情感分析能有效探索創(chuàng)作者的心路歷程、重現(xiàn)客觀歷史文化內(nèi)涵,揭示創(chuàng)作者對時事的態(tài)度和情感。因此,在數(shù)字文化的保護中,尤其是對藝術(shù)作品,應當考慮其傳遞的情感。

        21世紀80年代初,丁紹光、蔣軼峰等創(chuàng)作了云南重彩畫,結(jié)合了中西方繪畫的風格,以藍色為基調(diào),線條鮮明、色彩斑斕,視覺上賞心悅目,如圖3所示。繪畫內(nèi)容主要反映云南自然風光和少數(shù)民族風土人情,具有濃郁的民族色彩,將東西方繪畫語言、古今技法融為一體,夸張與寫實相結(jié)合,具有較強的視覺沖擊和很強的美感體驗,是很受歡迎的裝飾畫。云南重彩畫是最具代表的云南繪畫流派,是云南民族藝術(shù)的璀璨之星,蘊含了豐富的民族文化元素,是民族意識和民族文化通過藝術(shù)繪畫表現(xiàn)的成功代表。

        早在2017年云南大學就開始了云南民族繪畫圖像的情感研究[24],按照年齡、性別、學歷以及藝術(shù)素養(yǎng)為標記人員的情感標注設置了不同的權(quán)重,具體地,藝術(shù)家的標注權(quán)重為2,普通人為1,標注類別分為積極情感和消極情感,最終將情感標注概率最大的情感類別作為圖像的情感類別。共收集了包括云南重彩畫、云南版畫、云南水粉畫和云南油畫在內(nèi)的1 556張圖片,標注為積極的情感有1 149張,消極的有417張。以此為基礎(chǔ),對云南重彩畫進行了情感標注,創(chuàng)建了云南重彩畫情感數(shù)據(jù)集,將本文方法用于該數(shù)據(jù)集,實現(xiàn)對其的無監(jiān)督標注,驗證該方法在無監(jiān)督情感標注上的有效性。

        圖3 云南重彩畫示例

        4 實驗與分析

        4.1 網(wǎng)絡結(jié)構(gòu)

        本文的網(wǎng)絡模型包括2個GAN和1個分類網(wǎng)絡。采用文獻[21]的生成網(wǎng)絡結(jié)構(gòu),其在未配對圖像的風格遷移、對象遷移和從繪畫中生成圖片等任務上表現(xiàn)出了卓越的性能,生成網(wǎng)絡由2個步長為2的卷積、9個殘差塊和2個分數(shù)步長(步長為1/2)的卷積組成,使用實例歸一化策略。鑒別器使用的是70×70的PatchGANs[25],目的是判斷該圖像塊的真?zhèn)涡?,這種塊級別的鑒別器結(jié)構(gòu)相較于全圖像的鑒別器參數(shù)更少,且能在全卷積的網(wǎng)絡中對任意大小的圖像均有效。初始化生成器和鑒別器的參數(shù)服從(0,1)的均勻分布。分類器網(wǎng)絡采用的是Resnet101網(wǎng)絡結(jié)構(gòu),微調(diào)最后一個全連接層的數(shù)量為情感分類的數(shù)量8,并初始化為大規(guī)模分類數(shù)據(jù)集(ImageNet)上的預訓練權(quán)重。

        4.2 實驗設置

        為了實現(xiàn)對云南重彩畫情感數(shù)據(jù)集的自動標注,實驗中采用公開的源域數(shù)據(jù)也是8分類的情感數(shù)據(jù)集,即Abstract數(shù)據(jù)集和ArtPhoto數(shù)據(jù)集。目標域使用的無標記的云南重彩畫情感數(shù)據(jù)集。Abstract和ArtPhoto數(shù)據(jù)集是文獻[6]為驗證藝術(shù)元素對誘發(fā)人類情感的影響而創(chuàng)建的數(shù)據(jù)集。其中Abstract數(shù)據(jù)集由抽象畫組成,其只包含顏色和紋理,沒有具體的含義,通過同行評審進行標注,最終獲得280張圖片,如圖4所示。ArtPhoto數(shù)據(jù)集由806張藝術(shù)照片組成,是專業(yè)的藝術(shù)家拍攝和標注的,主要通過改變色彩、燈光及組合參數(shù)來喚起關(guān)注的特定情感,如圖4所示。

        在云南民族繪畫情感數(shù)據(jù)集的基礎(chǔ)上,通過邀請具有專業(yè)藝術(shù)素養(yǎng)的畫家對其中的重彩畫,基于Mikels的8類情感類別進行標注,構(gòu)建了云南重彩畫情感數(shù)據(jù)集,共有476張畫作,每類情感的樣本分布如圖5所示。

        圖4 部分源域數(shù)據(jù)集中的圖像示例

        圖5 云南重彩畫情感數(shù)據(jù)集的樣本分布

        云南重彩畫情感數(shù)據(jù)集的樣本分布明顯不均衡。存在的問題主要有:①情感數(shù)據(jù)集的規(guī)模較小,是因云南重彩畫的規(guī)模不大;②云南重彩畫大多表達平靜、安寧和諧的畫面,所以“amusement”和“contentment”的樣本最多,而“anger”和“disgust”只有少數(shù)幾個樣本,導致樣本不均衡。

        Abstract數(shù)據(jù)集和云南重彩畫情感數(shù)據(jù)集均為繪畫作品的數(shù)據(jù)集,在繪畫技法上是相同的。因此,2個數(shù)據(jù)集的數(shù)據(jù)分布差異較小,更適合于目標域為云南重彩畫情感數(shù)據(jù)集的域自適方法中的分布擬合。

        實驗中設參數(shù)=10,=10。通過交替優(yōu)化的方式完成對所有網(wǎng)絡結(jié)構(gòu)的優(yōu)化,經(jīng)過多次循環(huán)之后,最后得到一個在(,Y)上的分類模型,且在X表現(xiàn)良好。優(yōu)化過程偽碼描述如下:

        輸入:源域圖像及其標注信息(X,Y),目標域圖像X。

        輸出:目標域圖像X的情感預測結(jié)果。

        步驟1. 初始化生成器GG及相應的鑒別器模型DD的參數(shù),其服從(0,1)均勻分布,分類器的參數(shù)為在ImageNet上的預訓練權(quán)重。設置最大迭代次數(shù)為MAX;

        步驟2. for step=1 to MAX執(zhí)行;

        步驟2.1. 從源域圖像集X中隨機抽取相同數(shù)量的樣本,再從目標域圖像集X中隨機抽樣相同數(shù)量的批量樣本,執(zhí)行一次前向過程;

        步驟2.2. 固定鑒別器DD、分類器的參數(shù),根據(jù)式(8)和式(4)的損失值及損失值反向傳播的梯度,采用隨機梯度下降的方式優(yōu)化生成器GG的參數(shù);

        步驟2.3. 固定生成器GG的參數(shù),根據(jù)式(6)和式(7)的對抗損失來更新鑒別器DD的參數(shù);

        步驟2.4. 根據(jù)當前生成器G,得到遷移到目標域的圖像?,(?,Y)輸入分類器,根據(jù)式(9)計算分類損失;

        步驟2.5. 固定生成器GG,以及鑒別器DD的參數(shù),反向傳播分類損失來更新分類的參數(shù)。

        在更新鑒別器時,使用的是生成的歷史數(shù)據(jù)而不是最新生成模型生成的數(shù)據(jù),為此,為每個生成模型設置了一個大小為50的生成緩存,每次隨機從源域和目標域中各抽取1張圖片,即設置批量大小為1。

        4.3 實驗結(jié)果

        4.3.1 域自適應結(jié)果

        表2展示了源域為Abstract數(shù)據(jù)集,在目標域云南重彩畫情感數(shù)據(jù)集上的分類準確率,從實驗結(jié)果可知,對比實驗2的分類準確率最高,這是由于其設置為有監(jiān)督的分類方法;與對比實驗1(無監(jiān)督)相比,分類準確率提升了7.61%;本文方法的分類準確率比最先進的CycleEmoitonGAN的準確率高1.90%,表明在域自適中,其考慮了情感類別的本質(zhì)特征,通過EMD來度量的情感語義對齊損失的方法,比KL散度更適合于度量這種具有有序性和分組特性的情感類別的分布之間的距離。

        表2 目標域上情感分類準確率對比(%)

        圖6展示了部分源域圖像,遷移到目標域之后的效果,從圖6(c)可以看出,調(diào)整到目標域之后的圖像,表現(xiàn)出了目標域圖像具有的藍色基調(diào)。但由于Abstract數(shù)據(jù)集的分類性能不高,導致遷移后在目標域上的分類性能也不高,其原因是Abstract數(shù)據(jù)集的規(guī)模較小且不均衡,部分類別樣本只有個位數(shù)。這也是開展本研究的初衷,解決情感標注困難,實現(xiàn)對情感數(shù)據(jù)集的自動標注,擴充情感數(shù)據(jù)集。

        圖6 源域圖像自適應到目標域圖像的結(jié)果示例((a)源域圖像;(b)目標域圖像;(c)源域圖像調(diào)整到目標域之后的結(jié)果)

        4.3.2 消融實驗

        基于域自適的圖像情感分析的關(guān)鍵是保證圖像從源域調(diào)整到目標域之后,確保情感語義不發(fā)生變化,通過情感語義對齊來保持情感語義的一致性。為了進一步說明增加情感語義對齊的必要性,設置了未考慮情感語義對齊的基準實驗,如圖7所示。基準實驗的設置與本文方法相同,只是在目標函數(shù)中未考慮情感語義對齊損失,從圖7的消融結(jié)果可知,考慮了情感語義差異的無監(jiān)督分類準確率均高于基準方法,說明在域自適的圖像情感分析中,有必要考慮源域和目標域圖像的情感語義一致性。另基于KL散度的CycleEmoitonGAN的分類準確率高于基準,說明KL散度在保障情感語義一致性上有一定的效果;而本文方法取得了最優(yōu)的效果,說明采用的EMD更能從本質(zhì)上對齊情感語義,從而使得在目標域上分類的準確率最高。

        4.4 情感標注

        本研究的目的是實現(xiàn)無監(jiān)督的圖像情感標注,圖8展示對云南重彩畫的無監(jiān)督標記結(jié)果,其中第1行是待標記圖像,第2行展示了訓練好的模型分類器對第1行輸入圖像的預測概率分布,預測概率最高的類別為圖像的標記情感類別,從標記結(jié)果可知預測結(jié)果和真實的情感標注類別是一致的,說明本文方法將帶標注的源域上訓練的分類模型很好地遷移到了未帶標注信息的目標域數(shù)據(jù)集上,并對目標域的圖像進行情感標注,分類模型能做出有效地識別和正確地判斷,表明其有效性。本文方法能對未標注的數(shù)據(jù)集進行情感標注,解決了圖像情感分析中情感標注困難的難點,有利于促進情感數(shù)據(jù)集規(guī)模的擴充,對基于CNN的深度學習方法提升圖像情感分析的性能提供了數(shù)據(jù)集基礎(chǔ),有利于性能的提升。

        圖7 消融實驗分類結(jié)果對比

        圖8 無監(jiān)督圖像情感分類結(jié)果示例((a)示例1;(b)示例2;(c)示例3;(d)示例4)

        5 結(jié) 論

        在基于深度學習的方法中,制約圖像情感分析性能的一個重要因素是情感數(shù)據(jù)集規(guī)模小,以致標注困難。為了解決問題,本文提出了基于域自適應的圖像情感分析方法,試圖將帶有標注信息的源域數(shù)據(jù)集上訓練的模型遷移到未標注的目標域數(shù)據(jù)集,實現(xiàn)對目標域數(shù)據(jù)集的無監(jiān)督標注。關(guān)鍵是要對齊源域數(shù)據(jù)和目標域數(shù)據(jù),將已有的方法通過KL散度來度量情感分布之間的差異,由于情感類別具有分組和有序特性,KL散度并不能很好地度量樣本情感分布之間的差異。為此,提出了通過EMD來度量情感分布之間的差異,從情感的本質(zhì)特征上對齊了源域和目標域數(shù)據(jù)。為了驗證本文方法的有效性,在云南民族繪畫情感數(shù)據(jù)集的基礎(chǔ)上創(chuàng)建了云南重彩畫情感數(shù)據(jù)集,并應用于該數(shù)據(jù)集,實現(xiàn)對其無監(jiān)督情感分類和標注,與最相關(guān)的域自適應情感分析方法相比較,該方法提升了無監(jiān)督情感分類的性能,表明基于EMD的情感語義對齊方式在圖像情感分析中更加有效。

        雖然該方法解決了無監(jiān)督的圖像情感識別問題,但整體分類準確率不高,是由于目前在源域數(shù)據(jù)集上的識別性能不高,制約了遷移到目標域之后的情感分類性能。究其原因是源域數(shù)據(jù)集規(guī)模較小、數(shù)據(jù)不均衡,這也是研究的初衷,希望通過無監(jiān)督的情感標注,進一步擴充情感數(shù)據(jù)集,更好地發(fā)揮基于大規(guī)模訓練集的深度學習在圖像情感分析中的性能。

        [1] DETENBER B H, SIMONS R F, BENNETT G G. Roll ‘em!: the effects of picture motion on emotional responses[J]. Journal of Broadcasting & Electronic Media, 1998, 42(1): 113-127.

        [2] EKMAN P. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3-4): 169-200.

        [3] MIKELS J A, FREDRICKSON B L, LARKIN G R, et al. Emotional category data on images from the international affective picture system[J]. Behavior Research Methods, 2005, 37(4): 626-630.

        [4] MEHRABIAN A. Framework for a comprehensive description and measurement of emotional states[J]. Genetic, Social, and General Psychology Monographs, 1995, 121(3): 339-361.

        [5] RUSSELL J A. A circumplex model of affect[J]. Journal of Personality and Social Psychology, 1980, 39(6): 1161-1178.

        [6] MACHAJDIK J, HANBURY A. Affective image classification using features inspired by psychology and art theory[C]//The 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 83-92.

        [7] ZHAO S C, GAO Y, JIANG X L, et al. Exploring principles-of-art features for image emotion recognition[C]// The 22nd ACM International Conference on Multimedia. New York: ACM Press, 2014: 47-56.

        [8] ALI A R, SHAHID U, ALI M, et al. High-level concepts for affective understanding of images[C]//2017 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2017: 679-687.

        [9] PENG K C, CHEN T, SADOVNIK A, et al. A mixed bag of emotions: Model, predict, and transfer emotion distributions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 860-868.

        [10] YANG J, SUN M, SUN X. Learning visual sentiment distributions via augmented conditional probability neural network[C]//The 31st AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2017: 224-230.

        [11] ZHAO S C, DING G G, GAO Y, et al. Discrete probability distribution prediction of image emotions with shared sparse learning[J]. IEEE Transactions on Affective Computing, 2020, 11(4): 574-587.

        [12] XIONG H T, LIU H F, ZHONG B N, et al. Structured and sparse annotations for image emotion distribution learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33: 363-370.

        [13] ZHAN C, SHE D Y, ZHAO S C, et al. Zero-shot emotion recognition via affective structural embedding[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 1151-1160.

        [14] ZHANG W, HE X Y, LU W Z. Exploring discriminative representations for image emotion recognition with CNNs[J]. IEEE Transactions on Multimedia, 2020, 22(2): 515-523.

        [15] LONG M S, WANG J M, DING G G, et al. Transfer joint matching for unsupervised domain adaptation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 1410-1417.

        [16] ZHUO J B, WANG S H, ZHANG W G, et al. Deep unsupervised convolutional domain adaptation[C]//The 25th ACM International Conference on Multimedia. New York: ACM Press, 2017: 261-269.

        [17] GHIFARY M, KLEIJN W B, ZHANG M J, et al. Domain generalization for object recognition with multi-task autoencoders[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2551-2559.

        [18] GANIN Y, LEMPITSKY V. Unsupervised domain adaptation by back propagation[C]//The 32th International Conference on Machine Learning. New York: ACM Press, 2015: 1180-1189.

        [19] BOUSMALIS K, SILBERMAN N, DOHAN D, et al. Unsupervised pixel-level domain adaptation with generative adversarial networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 95-104.

        [20] HOFFMAN J, TZENG E, PARK T, et al. Cycada: cycle-consistent adversarial domain adaptation[C]//The 35th International Conference on Machine Learning. New York: ACM Press, 2018: 1994-2003.

        [21] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]// 2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2242-2251.

        [22] ZHAO S C, LIN C, XU P F, et al. CycleEmotionGAN: emotional semantic consistency preserved CycleGAN for adapting image emotions[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33: 2620-2627.

        [23] LEVINA E, BICKEL P. The earth mover's distance is the Mallows distance: some insights from statistics[C]//The 8th IEEE International Conference on Computer Vision. New York: IEEE Press, 2001: 251-256.

        [24] 趙貝貝. 基于可視化語義的云南民族繪畫情感標注系統(tǒng)的設計與實現(xiàn)[D]. 昆明: 云南大學, 2017.

        ZHAO B B. The design and implementation of the Yunnan national drawing system based on visual semantics[D]. Kunming: Yunnan University, 2017 (in Chinese).

        [25] ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5967-5976.

        Unsupervised emotion recognition of Yunnan Heavy Color Paintings based on domain adaptation

        PENG Guo-qin1, ZHANG Hao2, XU Dan2

        (1. Information Technology Center, Yunnan University, Kunming Yunnan 650500, China; 2. School of Information Science and Engineering, Yunnan University, Kunming Yunnan 650500, China)

        Thanks to the large-scale labeled datasets available, deep learning has made a great breakthrough in computer vision. However, due to the ambiguity of emotion semantics, it is hard to annotate the emotional labels for images. Thus, only a few small-scale image emotion datasets are open and available, restricting the performance of image emotion analysis based on deep learning. The semantics of emotions have unique characteristics, such as order and polarity, but few studies have paid attention to these essential characteristics in image emotion analysis. Thus, in the paper, based on domain adaptation, considering the essential characteristics of emotion semantics, that is, the ordered and grouped polarity, we proposed to measure emotion semantic differences through earth mover’s distance (EMD). The goal is to better transfer the trained model with labeled emotion dataset to unlabeled emotion dataset and complete the unsupervised image emotion analysis. The Yunnan Heavy Color Paintings Emotion dataset was created in this paper, and was applied to our proposed method. The experimental results demonstrate that the proposed method can effectively align the emotional semantics between the source domain and the target domain, realizing the unsupervised automatic annotation of emotion dataset, thus expanding the size of the image emotion dataset.

        domain adaptation; Yunnan Heavy Color Paintings; earth mover’s distance; unsupervised; automatic annotation

        29 November,2021;

        National Natural Science Foundation of China (61761046); Applied Basic Research Key Project of Yunnan (YNWR-YLXZ-2018-022); Scientific Research Project of Yunnan Province Education Department (2021J0029)

        PENG Guo-qin (1986-), lecture, Ph.D. Her main research interests cover computer vision, image emotion analysis, image semantic analysis and Machine learning. E-mail:pengguoqin@ynu.edu.cn

        TP 391

        10.11996/JG.j.2095-302X.2022040641

        A

        2095-302X(2022)04-0641-10

        2021-11-29;

        2021-12-30

        30 December,2021

        國家自然科學基金項目(61761046);云南省“云嶺學者”專項(YNWR-YLXZ-2018-022);云南省教育廳研究項目(2021J0029)

        彭國琴(1986-),女,講師,博士。主要研究方向計算機視覺、圖像情感分析、圖像語義分析和機器學習。E-mail:pengguoqin@ynu.edu.cn

        徐 丹(1968-),女,教授,博士。主要研究方向為圖形學、計算機視覺、圖像分析與理解、數(shù)字文化保護及圖像情感計算等。E-mail:danxu@ynu.edu.cn

        XU Dan (1968-), professor, Ph.D. Her main research interests cover graphics, computer vision, image analysis and understanding, digital culture preservation, image emotion computing, etc. E-mail:danxu@ynu.edu.cn

        猜你喜歡
        語義分類情感
        分類算一算
        如何在情感中自我成長,保持獨立
        語言與語義
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        分類討論求坐標
        如何在情感中自我成長,保持獨立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “上”與“下”語義的不對稱性及其認知闡釋
        狠狠色噜噜狠狠狠777米奇小说| av在线免费观看蜜桃| 国产精品午夜夜伦鲁鲁| 亚洲av免费手机在线观看 | 在线免费午夜视频一区二区| 日韩成人无码v清免费| 久久精品国产亚洲AV古装片| 精品人妻一区二区三区av| 亚洲一区二区蜜桃视频| 色婷婷色丁香久久婷婷| 成人试看120秒体验区| 免费观看的av毛片的网站| 牛鞭伸入女人下身的真视频| a观看v视频网站入口免费| 人妻少妇人人丰满视频网站| 亚洲av乱码一区二区三区观影 | 亚洲色婷婷一区二区三区| 蜜桃视频一区二区三区在线观看| 国产亚洲婷婷香蕉久久精品| 无码一区久久久久久久绯色AV| 青青草视频在线观看视频免费| 亚洲国产色婷婷久久精品| 小说区激情另类春色| 影音先锋男人站| 就去吻亚洲精品欧美日韩在线| 2020亚洲国产| 国产毛片精品一区二区色| 亚洲av不卡一区男人天堂| 亚洲人成网网址在线看| 三男一女吃奶添下面| 国产成人精品曰本亚洲| 99精品又硬又爽又粗少妇毛片 | 麻豆国产精品久久人妻| 无码一区二区三区亚洲人妻| 日韩精品无码久久久久久 | 中文字幕人妻少妇美臀| 国产一区二区三区免费av| 无码人妻精品中文字幕| 无码日韩精品一区二区三区免费| 少妇三级欧美久久| 日韩人妻无码精品二专区|