樊養(yǎng)余 李祖賀 王鳳琴 馬江濤
?
基于跨領(lǐng)域卷積稀疏自動編碼器的抽象圖像情緒性分類
樊養(yǎng)余①李祖賀*①②王鳳琴②馬江濤②
①(西北工業(yè)大學(xué)電子信息學(xué)院 西安 710072);②(鄭州輕工業(yè)學(xué)院計算機(jī)與通信工程學(xué)院 鄭州 450002)
為了將無監(jiān)督特征學(xué)習(xí)應(yīng)用于小樣本量的圖像情緒語義分析,該文采用一種基于卷積稀疏自動編碼器進(jìn)行自學(xué)習(xí)的領(lǐng)域適應(yīng)方法對少量有標(biāo)記抽象圖像進(jìn)行情緒性分類。并且提出了一種采用平均梯度準(zhǔn)則對自動編碼器所學(xué)權(quán)重進(jìn)行排序的方法,用于對基于不同領(lǐng)域的特征學(xué)習(xí)結(jié)果進(jìn)行直觀比較。首先在源領(lǐng)域中的大量無標(biāo)記圖像上隨機(jī)采集圖像子塊并利用稀疏自動編碼器學(xué)習(xí)局部特征,然后將對應(yīng)不同特征的權(quán)重矩陣按照每個矩陣在3個色彩通道上的平均梯度中的最小值進(jìn)行排序。最后采用包含池化層的卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)領(lǐng)域有標(biāo)記圖像樣本的全局特征響應(yīng),并送入邏輯回歸模型進(jìn)行情緒性分類。實驗結(jié)果表明基于自學(xué)習(xí)的領(lǐng)域適應(yīng)可以為無監(jiān)督特征學(xué)習(xí)在有限樣本目標(biāo)領(lǐng)域上的應(yīng)用提供訓(xùn)練數(shù)據(jù),而且采用稀疏自動編碼器的跨領(lǐng)域特征學(xué)習(xí)能在有限數(shù)量抽象圖像情緒語義分析中獲得比底層視覺特征更優(yōu)秀的辨識效果。
圖像分類;圖像情緒;自學(xué)習(xí);卷積自動編碼器;領(lǐng)域適應(yīng)
隨著社會化媒體的迅速發(fā)展,圖像成為人們自我表達(dá)和互相溝通的重要途徑。和文本一樣,圖像內(nèi)容包含著與情緒和意見相關(guān)的信息[1]。分析圖像的情緒語義具有重要意義:從媒體受眾角度看它可以被用于藝術(shù)和廣告等作品的輔助設(shè)計;從發(fā)布者角度看它可以被用于網(wǎng)絡(luò)情緒信息挖掘和輿情監(jiān)測;另外它還可以被用于基于情緒語義的圖像檢索[2]。而圖像情緒性分類就屬于情緒語義分析范疇,它根據(jù)圖像對人的情緒影響來對其進(jìn)行區(qū)分[3]。
進(jìn)行該研究的基本方法是從圖像中提取色彩和紋理等底層視覺特征并將其與情緒語義進(jìn)行映射,但是底層視覺特征與高層語義間的“語義鴻溝”阻礙了可靠映射關(guān)系的建立。目前在計算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)技術(shù)[8]在圖像認(rèn)知層識別中取得突破性成果,所以有人將深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[9]這樣的有監(jiān)督深度學(xué)習(xí)模型應(yīng)用于具象圖像情緒分析。文獻(xiàn)[10]最先基于深度CNN進(jìn)行視覺情緒研究,文獻(xiàn)[11]利用多層CNN預(yù)測圖像情緒,并提出一種漸進(jìn)微調(diào)訓(xùn)練方案。但是有監(jiān)督訓(xùn)練需要大量有標(biāo)記樣本,它無法在數(shù)據(jù)量小的樣本集合上開展。以現(xiàn)有情緒語義分析領(lǐng)域的抽象圖像數(shù)據(jù)庫為例,其有標(biāo)記樣本數(shù)量僅有一兩百個[3,6,7],基于有監(jiān)督訓(xùn)練的深度學(xué)習(xí)模型并不適用。
而面向海量無標(biāo)記數(shù)據(jù)的無監(jiān)督特征學(xué)習(xí)正在成為新的研究熱點[8],像稀疏自動編碼器(Sparse AutoEncoder, SAE)這種通過對無標(biāo)記數(shù)據(jù)進(jìn)行自我復(fù)原訓(xùn)練來提取特征的技術(shù)已經(jīng)被推廣到很多標(biāo)記數(shù)據(jù)有限的應(yīng)用場合[12,13]。因此本文嘗試基于SAE進(jìn)行無監(jiān)督特征學(xué)習(xí)并將其應(yīng)用于小樣本量的抽象圖像情緒語義分析。具象圖像的情緒語義受認(rèn)知層語義驅(qū)動,而抽象圖像沒有確定認(rèn)知含義,它對人情緒的影響依靠視覺上的直接沖擊。所以用無監(jiān)督學(xué)習(xí)特征代替底層視覺特征與抽象圖像情緒語義進(jìn)行映射具有可行性。本文面臨的問題是小樣本量數(shù)據(jù)庫不能提供特征學(xué)習(xí)所需的大量數(shù)據(jù),但是近年來領(lǐng)域適應(yīng)和遷移學(xué)習(xí)概念的提出使不同領(lǐng)域間的知識共享和利用成為可能[14,15]。無監(jiān)督特征學(xué)習(xí)領(lǐng)域中有一種利用大量無標(biāo)記數(shù)據(jù)提高分類任務(wù)性能的方法叫自學(xué)習(xí)(self-taught learning)[15,16],它不要求無標(biāo)記數(shù)據(jù)的分布與目標(biāo)領(lǐng)域數(shù)據(jù)分布完全相同。而目前基于自動編碼器的領(lǐng)域適應(yīng)和遷移學(xué)習(xí)已經(jīng)在語音情緒分析和自然語言處理中得到應(yīng)用,因此本文以基于自動編碼器的自學(xué)習(xí)方式進(jìn)行跨領(lǐng)域?qū)W習(xí)。
本文的主要創(chuàng)新在于:(1)針對小樣本量抽象圖像數(shù)據(jù)集,提出一種結(jié)合單層SAE和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行跨領(lǐng)域特征學(xué)習(xí)以在情緒語義層對其進(jìn)行分類的方案,在進(jìn)行特征學(xué)習(xí)時借用與抽象圖像數(shù)據(jù)不相關(guān)的無標(biāo)記數(shù)據(jù)集STL-10[21];(2)提出一種基于平均梯度(Average Gradient, AG)[22]按邊緣性強(qiáng)弱對自學(xué)習(xí)特征權(quán)重進(jìn)行排列和顯示的方法,用于對在跨領(lǐng)域的大量數(shù)據(jù)上和在目標(biāo)領(lǐng)域小樣本量數(shù)據(jù)上進(jìn)行無監(jiān)督特征學(xué)習(xí)的效果進(jìn)行直觀對比。實驗結(jié)果表明采用“知識遷移”從與驗證數(shù)據(jù)無關(guān)的大量無標(biāo)記圖像中能學(xué)習(xí)到邊緣性更強(qiáng)的特征權(quán)重,基于SAE的跨領(lǐng)域?qū)W習(xí)能在小樣本量抽象圖像情緒性分類中獲得更好的效果。
如圖1所示,本文所采用的對抽象圖像進(jìn)行情緒性分類的系統(tǒng)框架包含3個部分:源領(lǐng)域特征學(xué)習(xí)、目標(biāo)領(lǐng)域全局特征提取和圖像分類。(1)源領(lǐng)域特征學(xué)習(xí):從源領(lǐng)域無標(biāo)記數(shù)據(jù)集中采集圖像子塊,采取白化處理加強(qiáng)圖像塊邊緣特征,并采用對隱藏層加入稀疏性約束的自動編碼器來學(xué)習(xí)局部特征。(2)目標(biāo)領(lǐng)域全局特征提?。夯诰矸e神經(jīng)網(wǎng)絡(luò)獲取目標(biāo)領(lǐng)域抽象圖像在整幅圖像上的全局特征響應(yīng),然后采取池化操作降低特征維數(shù)。(3)圖像分類:將全局特征以向量形式送入邏輯回歸(Logistic Regression, LR)模型,進(jìn)行基于交叉驗證的有監(jiān)督訓(xùn)練和測試,從而對基于無監(jiān)督特征學(xué)習(xí)的抽象圖像情緒性分類性能進(jìn)行評價。
圖1 基于卷積自動編碼器的抽象圖像情緒性分類系統(tǒng)框架
3.1基于稀疏自動編碼器的自學(xué)習(xí)
自動編碼器通過將目標(biāo)輸出設(shè)置得和輸入一樣來進(jìn)行數(shù)據(jù)自我復(fù)原訓(xùn)練,能夠從無標(biāo)記數(shù)據(jù)中學(xué)習(xí)到代表性特征[23]。當(dāng)基于自動編碼器在圖像數(shù)據(jù)上進(jìn)行無監(jiān)督學(xué)習(xí)時經(jīng)常加入白化預(yù)處理來強(qiáng)化圖像的邊緣信息,本文采用了一種典型的零相位成分分析(Zero-phase Component Analysis, ZCA)白化[12]。假設(shè)從源領(lǐng)域采集到的第個圖像塊尺寸為×,將包含3通道的彩色圖像塊數(shù)據(jù)按照R, G和B分量的順序排列,可以得到維的向量(i)。進(jìn)行白化處理后的輸入向量為white(i),這里white代表×大小的白化變換系數(shù)矩陣。而自動編碼器的維隱層響應(yīng)向量為[12,24]
其中,SAE是連接SAE隱層和白化后數(shù)據(jù)的輸入權(quán)重,1代表輸入偏置,是激活函數(shù)。而=SAEwhite是包含白化處理的整體權(quán)重,它代表隱層與原始數(shù)據(jù)間的關(guān)系。經(jīng)過白化處理后,輸入數(shù)值會超出[0,1]的范圍,所以進(jìn)行數(shù)據(jù)重建時不需要采用激活函數(shù)對自動編碼器的輸出進(jìn)行映射[12]:
(2)
自動編碼器神經(jīng)網(wǎng)絡(luò)通過反向傳播訓(xùn)練來尋找代價函數(shù)的最小值。為了防止過擬合和保持隱層響應(yīng)的稀疏性,需要對代價函數(shù)加入權(quán)重衰減項和稀疏性懲罰項,整體代價函數(shù)為[16,24]
對自動編碼器進(jìn)行訓(xùn)練后得到的輸入權(quán)重SAE就是尋找到的數(shù)據(jù)得以自我復(fù)原的關(guān)鍵參數(shù),它是對應(yīng)圖像子塊不同位置的權(quán)重系數(shù),根據(jù)該權(quán)重系數(shù)在某圖像塊上得到的隱層響應(yīng)就是該圖像塊的特征?;谧詣泳幋a器進(jìn)行跨領(lǐng)域特征學(xué)習(xí)時,假設(shè)從源領(lǐng)域所學(xué)習(xí)到的包含白化處理的整體權(quán)重為S,輸入偏置為1S,目標(biāo)領(lǐng)域的某圖像塊為T,則該圖像塊對應(yīng)的特征響應(yīng)為
3.2 自學(xué)習(xí)特征權(quán)重可視化和基于平均梯度的特征權(quán)重排序
對基于自動編碼器的無監(jiān)督特征學(xué)習(xí)效果進(jìn)行比較時,除了以分類性能為依據(jù),還可以通過權(quán)重可視化從視覺上進(jìn)行觀察。當(dāng)輸入向量維數(shù)為m=,隱層單元數(shù)為s時,是大小為s×m的矩陣。而的大小為m×m,所以連接隱層與原始數(shù)據(jù)的整體權(quán)重也是大小為s×m的矩陣。包含s個維的特征權(quán)重向量,對應(yīng)著維原始輸入與s個隱層響應(yīng)的映射關(guān)系:
其中,w代表第個隱層單元與某輸入圖像塊向量形式的第個元素之間的系數(shù),代表第個隱層單元的所有系數(shù)組成的向量,即第個特征對應(yīng)的權(quán)重向量。將每個維的特征權(quán)重向量拆分成R, G和B分量:R,G和B,還原為×大小矩陣并進(jìn)行歸一化處理后當(dāng)作彩色圖像顯示就可以對學(xué)習(xí)結(jié)果進(jìn)行直觀表示[16]。
SAE學(xué)習(xí)到的特征權(quán)重會呈現(xiàn)邊緣性,邊緣性的強(qiáng)弱能反映特征學(xué)習(xí)效果。但是在訓(xùn)練過程中權(quán)重系數(shù)是被隨機(jī)初始化的,在不同的實驗中學(xué)習(xí)到的權(quán)重本身沒有順序規(guī)律,從直觀上對不同特征組進(jìn)行評價比較困難。因此本文提出了一種在無監(jiān)督特征學(xué)習(xí)后按照一組權(quán)重的邊緣性強(qiáng)弱對其進(jìn)行統(tǒng)一排序的方法。
平均梯度本身是用來衡量圖像相對清晰度的一種參數(shù),它反映了圖像在多方向邊界附近的灰度變化速率。以×大小的灰度圖像為例,其平均梯度的定義為[22]
(7)
(9)
并從R, G和B這3個通道的平均梯度中選擇最小值作為對自學(xué)習(xí)權(quán)重進(jìn)行排序顯示的指標(biāo):
排序可以將特征權(quán)重按照邊緣性強(qiáng)弱進(jìn)行大致劃分,從而便于對不同特征組進(jìn)行直觀比較。
圖2給出了后續(xù)進(jìn)行全局特征提取和抽象圖像分類的網(wǎng)絡(luò)模型,首先基于CNN將局部特征在抽象圖像上進(jìn)行逐點卷積來獲得整幅圖像上的全局特征響應(yīng),然后進(jìn)行池化操作并將響應(yīng)結(jié)果組合成向量,送入LR模型進(jìn)行分類訓(xùn)練和測試。為了提高運(yùn)算效率,本文在卷積過程中采用一種先在3個色彩通道進(jìn)行并行2維卷積,然后再將結(jié)果求和的方式[16]。先將通過SAE學(xué)習(xí)到的每個局部特征權(quán)重按3個色彩通道進(jìn)行拆分,分別將其與×大小圖像的R, G和B分量進(jìn)行逐點卷積得到3個大小的卷積后特征,并對分通道卷積后的3個特征圖案求和得到全局特征。為了降低維數(shù)和避免過擬合,卷積神經(jīng)網(wǎng)絡(luò)采用池化操作來對前一層網(wǎng)絡(luò)所得特征進(jìn)行聚合采樣,本文在進(jìn)行白化處理的前提下選擇平均池化方式。
現(xiàn)有用于情緒語義研究的抽象圖像數(shù)據(jù)集主要有兩個:Abstract100[6,7]和Abstract280[3]。Abstract 100包含100張抽象圖像,它的情緒語義標(biāo)記結(jié)果是基于3維情緒模型:從喚醒度(冷靜到興奮)、愉悅度(不愉悅到愉悅)和優(yōu)勢度(被支配到支配)3個方面分析情緒,其每幅圖像都經(jīng)志愿者從愉悅度和喚醒度兩方面進(jìn)行主觀評分。而Abstract280包含280張抽象圖像,其標(biāo)記結(jié)果包含8種情緒:娛樂、敬畏、滿足和興奮4種正面情緒以及憤怒、反感、恐懼和傷心4種負(fù)面情緒。由于該數(shù)據(jù)庫樣本分布不均勻,本文在訓(xùn)練測試中基于正面和負(fù)面情緒概念進(jìn)行二元分類。
本文在STL-10數(shù)據(jù)庫上進(jìn)行無監(jiān)督局部特征學(xué)習(xí),然后在抽象圖像數(shù)據(jù)庫上進(jìn)行全局特征提取和分類。而且按同樣參數(shù)分別在小型數(shù)據(jù)庫Abstract100和Abstract280上進(jìn)行了非跨領(lǐng)域的圖像塊采樣和無監(jiān)督特征學(xué)習(xí),并在對應(yīng)數(shù)據(jù)庫上進(jìn)行分類實驗。本文還提取了一組底層視覺特征進(jìn)行情緒分類,選用特征包括[1]:從RGB色彩通道中提取的顏色直方圖, GIST(Generalized Search Trees)描述子,適用于紋理檢測的LBP(Local Binary Pattern)描述子和使用1000個單詞字典的BOW (Bag Of Words)量化描述子。除此之外,本文還利用MatConvNet[25]工具箱基于文獻(xiàn)[11]中用于對大量具體圖像進(jìn)行情緒分析的深度CNN模型開展分類實驗。在所有實驗中采用5次交叉驗證,將樣本按名稱順序分為5個子集。
圖2 基于卷積神經(jīng)網(wǎng)絡(luò)的全局特征提取和圖像分類模型示意圖
5.1無監(jiān)督特征學(xué)習(xí)
本文基于SAE進(jìn)行跨領(lǐng)域無監(jiān)督特征學(xué)習(xí)所用的STL-10數(shù)據(jù)庫包含了100000個內(nèi)容涵蓋多種交通工具和動物的無標(biāo)記圖像[21],如圖3所示,這些樣本和后續(xù)用于情緒分類的抽象圖像沒有關(guān)聯(lián)。本文以完全隨機(jī)方式分別從Abstract100, Abstract 280和 STL-10數(shù)據(jù)庫上采集了100, 1000, 10000和100000個8×8大小的圖像塊進(jìn)行特征學(xué)習(xí),并且在最終的分類實驗中對每種情況都進(jìn)行5次重復(fù)以測試隨機(jī)采樣時樣本數(shù)量對整體性能的影響。在白化預(yù)處理階段正則化常數(shù)設(shè)為0.1,采用的SAE包含400個隱層單元(對應(yīng)400個自學(xué)習(xí)特征),訓(xùn)練參數(shù)設(shè)置為,,。
圖4給出了在一次實驗中通過SAE從各個數(shù)據(jù)庫上所學(xué)習(xí)到的特征權(quán)重的可視化表示(限于篇幅未給出樣本數(shù)為100的結(jié)果),所有特征權(quán)重均按照mAG值進(jìn)行升序排列??梢钥闯?,當(dāng)訓(xùn)練樣本過少時(比如1000)從3個數(shù)據(jù)庫上所學(xué)特征權(quán)重均較為模糊。隨著訓(xùn)練樣本的增加,基于STL-10數(shù)據(jù)庫的特征學(xué)習(xí)效果有顯著提高,在訓(xùn)練樣本為100000時從STL-10數(shù)據(jù)庫上能學(xué)習(xí)到更多邊緣較為清晰的特征權(quán)重。而在Abstract100和Abstract280上的學(xué)習(xí)效果雖有提升卻并不顯著,這說明從小量樣本上采集大量數(shù)據(jù)進(jìn)行無監(jiān)督特征學(xué)習(xí)時效果較差。另外,在按照mAG值對權(quán)重進(jìn)行升序排列后(mAG值小的在上),特征權(quán)重中的下半部分邊緣性更為明顯。這從直觀上說明,mAG值能夠反映自學(xué)習(xí)權(quán)重的邊緣性能,按其進(jìn)行排序能夠達(dá)到按邊緣性強(qiáng)弱對特征權(quán)重進(jìn)行大致劃分的目的,進(jìn)行排序后可以更直觀地觀察和對比學(xué)習(xí)效果。
圖3 Abstract100, Abstract280和 STL-10數(shù)據(jù)庫上的樣例圖像
圖4基于稀疏自動編碼器在各數(shù)據(jù)庫上所學(xué)特征權(quán)重的可視化表示
5.2 Abstract100數(shù)據(jù)庫上的分類實驗
本文從該數(shù)據(jù)庫公布的評價結(jié)果中選取對每幅圖像都進(jìn)行評價的21名志愿者所給出分?jǐn)?shù),對其求平均并以0為閾值進(jìn)行二值化,以此作為二元標(biāo)記值。喚醒度標(biāo)記表示圖像是否令人興奮,愉悅度標(biāo)記表示圖像是否使人愉悅。為了測試特征學(xué)習(xí)過程中的隨機(jī)采樣對算法性能的影響,首先對采集不同數(shù)量樣本時非跨領(lǐng)學(xué)習(xí)和跨領(lǐng)域?qū)W習(xí)對應(yīng)分類結(jié)果進(jìn)行測試。非跨領(lǐng)域方法采用從Abstract100數(shù)據(jù)庫上學(xué)習(xí)到的特征,而跨領(lǐng)域方法采用從STL-10數(shù)據(jù)庫上學(xué)習(xí)到的特征。實驗時統(tǒng)一將樣本縮放為的大小,卷積網(wǎng)絡(luò)的池化區(qū)域尺寸設(shè)置為。圖5以愉悅度實驗為例,給出了在LR模型訓(xùn)練迭代次數(shù)為40時,重復(fù)5次采集各種數(shù)量樣本進(jìn)行特征學(xué)習(xí)所得交叉驗證平均分類準(zhǔn)確率(accuracy)結(jié)果。可以發(fā)現(xiàn):用于特征學(xué)習(xí)的訓(xùn)練樣本過少時,同樣參數(shù)下分類性能受隨機(jī)采樣影響呈現(xiàn)波動,而當(dāng)訓(xùn)練樣本數(shù)量為100000時,整體性能基本穩(wěn)定。所以接下來重點對基于底層視覺特征的方法以及采集100000樣本時非跨領(lǐng)學(xué)習(xí)和跨領(lǐng)域?qū)W習(xí)方法的分類結(jié)果進(jìn)行對比。實驗進(jìn)行了多個迭代次數(shù)條件下的測試,最后通過5次交叉驗證下的精確度(precision),召回率(recall)和準(zhǔn)確率(accuracy) 3個指標(biāo)的平均結(jié)果來全面評價分類性能。當(dāng)?shù)螖?shù)超過100之后各項性能沒有明顯提升,因此以10為間隔從10到100選取測試迭代次數(shù)。
圖6和圖7給出了在一次實驗中,基于各種方法進(jìn)行分類時平均性能隨迭代次數(shù)變化的曲線。從圖6可以看出,在喚醒度分類實驗中,跨領(lǐng)域?qū)W習(xí)方法除了在召回率指標(biāo)上遜色于底層視覺特征方法之外,它在其它兩項指標(biāo)上均取得了最好性能。而非跨領(lǐng)域?qū)W習(xí)僅在精確度指標(biāo)上明顯優(yōu)于采用底層視覺特征的方法。從圖7給出的愉悅度分類實驗結(jié)果可以看出,不管是否采用跨領(lǐng)域?qū)W習(xí),基于無監(jiān)督特征學(xué)習(xí)的方法在各項指標(biāo)上均表現(xiàn)出比采用底層視覺特征的方法更好的性能,而且跨領(lǐng)域?qū)W習(xí)可以進(jìn)一步顯著提高各項性能。這說明采用無監(jiān)督學(xué)習(xí)特征對圖像進(jìn)行情緒性分類是可行的,而且在樣本有限時進(jìn)行跨領(lǐng)域?qū)W習(xí)更加有效。相比于采用底層視覺特征的方法,基于卷積自動編碼器的方法在喚醒度指標(biāo)上的性能提升不如愉悅度明顯。喚醒度描述的是情緒激活程度,而愉悅度描述的是情緒正負(fù)屬性,這說明基于卷積自動編碼器模擬人眼對圖像進(jìn)行掃描感知的方法對圖像所激發(fā)的情緒屬性信息比強(qiáng)弱程度更為敏感。
除此之外,本文還基于文獻(xiàn)[11]建立的深度CNN模型進(jìn)行實驗。學(xué)習(xí)率設(shè)為0.01,最大迭代次數(shù)設(shè)為20,并取迭代次數(shù)遞增過程中進(jìn)行交叉驗證的最佳結(jié)果。由于文獻(xiàn)[6]僅對準(zhǔn)確率指標(biāo)進(jìn)行了測試,所以表1給出了采用各種方法在準(zhǔn)確率指標(biāo)上得到的最好結(jié)果進(jìn)行對比。其中的非跨領(lǐng)域和跨領(lǐng)域?qū)W習(xí)方法對應(yīng)結(jié)果是基于100000樣本進(jìn)行特征學(xué)習(xí)并將實驗重復(fù)5次所得的平均值??梢园l(fā)現(xiàn):(1)采用文獻(xiàn)[11]中的深度CNN模型對小樣本量數(shù)據(jù)進(jìn)行訓(xùn)練時效果并不理想,這說明基于有監(jiān)督訓(xùn)練的深度學(xué)習(xí)模型并不適用于小樣本量的應(yīng)用場合;(2)基于大量訓(xùn)練樣本的跨領(lǐng)域?qū)W習(xí)方法在總體上表現(xiàn)出了更優(yōu)異的性能:與文獻(xiàn)[6]相比喚醒度分類的平均準(zhǔn)確率提高了14.9%,而且愉悅度分類的平均準(zhǔn)確率也提高了4.1%。雖然本文采用傳統(tǒng)特征的方法和非跨領(lǐng)域?qū)W習(xí)方法相比文獻(xiàn)[6]也提高了喚醒度分類性能,卻使愉悅度分類性能有所下降。
圖5 重復(fù)采集樣本進(jìn)行特征學(xué)習(xí)在Abstract100上得到的愉悅度分類準(zhǔn)確率
圖6 采用各種方法在Abstract100上進(jìn)行喚醒度分類時各種指標(biāo)平均性能隨迭代次數(shù)變化曲線
圖7 采用各種方法在Abstract100上進(jìn)行愉悅度分類時各種指標(biāo)平均性能隨迭代次數(shù)變化曲線
表1采用各種方法在Abstract100上進(jìn)行情緒分類所得到的最高準(zhǔn)確率
方法文獻(xiàn)[6]文獻(xiàn)[11]模型底層視特征非跨領(lǐng)域?qū)W習(xí)跨領(lǐng)域?qū)W習(xí) 喚醒度0.670.720.760.760.77 愉悅度0.730.600.670.700.76
5.3 Abstract280數(shù)據(jù)庫上的分類實驗
在Abstract280數(shù)據(jù)庫上的實驗中,本文沿用文獻(xiàn)[3]的做法只保留了228個意見明確的樣本。由于該數(shù)據(jù)庫的樣本數(shù)量有限且分布很不均勻(憤怒情緒對應(yīng)樣本只有3個),所以開展多分類訓(xùn)練并不具說服力。因此本文沒有像文獻(xiàn)[3]一樣進(jìn)行一對多分類,而是按正面情緒和負(fù)面情緒將所有樣本分成兩類,基于5次交叉驗證進(jìn)行二分類實驗,其它實驗參數(shù)和測試指標(biāo)和5.2節(jié)相同。
圖8 采用各種方法在Abstract280上進(jìn)行情緒分類時各種指標(biāo)平均性能隨迭代次數(shù)變化曲線
實驗首先對基于底層視覺特征的方法以及采集100000樣本時的非跨領(lǐng)學(xué)習(xí)和跨領(lǐng)域?qū)W習(xí)方法進(jìn)行性能對比。當(dāng)?shù)螖?shù)超過200之后各項性能沒有提升,因此以10為間隔從10到200選取迭代次數(shù)。圖8給出了一次實驗中基于各種方法進(jìn)行分類時各種指標(biāo)的平均性能隨迭代次數(shù)變化的曲線。跨領(lǐng)域?qū)W習(xí)方法除了在召回率指標(biāo)上略遜色于基于底層視覺特征的方法外,它在其它兩項指標(biāo)上均明顯優(yōu)于其它方法,而非跨領(lǐng)域?qū)W習(xí)僅在精確度指標(biāo)上獲得比采用底層視覺特征的方法更好的性能。這進(jìn)一步說明基于無監(jiān)督學(xué)習(xí)特征對圖像進(jìn)行情緒性分類的可行性,而且跨領(lǐng)域?qū)W習(xí)能夠解決小樣本量數(shù)據(jù)庫的樣本有限問題。
本文也基于文獻(xiàn)[11]的深度CNN模型在Abstract280數(shù)據(jù)庫上進(jìn)行了實驗,表2給出了采用各種方法在各項指標(biāo)上得到的最優(yōu)結(jié)果。其中的非跨領(lǐng)域和跨領(lǐng)域?qū)W習(xí)方法對應(yīng)結(jié)果也是基于100000樣本進(jìn)行特征學(xué)習(xí)并將實驗重復(fù)5次所得的平均值。可見:(1)采用文獻(xiàn)[11]中的深度CNN模型對Abstract280數(shù)據(jù)庫進(jìn)行分類的整體效果比采用底層視覺特征的方法差,召回率最大達(dá)到1是因為在某些訓(xùn)練迭代次數(shù)條件下5次交叉驗證中的所有測試樣本均被預(yù)測為正面樣本;(2)除了召回率指標(biāo)外,基于100000訓(xùn)練樣本的跨領(lǐng)域特征學(xué)習(xí)方法在總體上表現(xiàn)出了最優(yōu)性能。圖9給出了在一次實驗中采用跨領(lǐng)域?qū)W習(xí)方法時情緒預(yù)測值最高和最低的5幅圖像。預(yù)測錯誤的圖像用黑框標(biāo)出,而且在每幅圖像下方給出了其原有基于8種情緒模型的標(biāo)記信息。可以看出,最能令人產(chǎn)生正面情緒的5幅圖像對應(yīng)的原情緒標(biāo)記主要是滿足、敬畏和娛樂,而最能令人產(chǎn)生負(fù)面情緒的5幅圖像對應(yīng)的原情緒標(biāo)記主要是恐懼和傷心。這進(jìn)一步說明自學(xué)習(xí)特征可以和底層視覺特征一樣被用于圖像情緒語義辨識。
表2采用各種方法在Abstract280上進(jìn)行情緒分類時各項指標(biāo)上的最優(yōu)結(jié)果
指標(biāo)文獻(xiàn)[11]模型底層視覺特征非跨領(lǐng)域?qū)W習(xí)跨領(lǐng)域?qū)W習(xí) 精確度0.630.720.780.80 召回率1.000.810.730.81 準(zhǔn)確率0.610.690.710.76
本文基于稀疏自動編碼器以“知識遷移”方式從大量無標(biāo)記圖像中獲取自學(xué)習(xí)特征,并結(jié)合卷積神經(jīng)網(wǎng)絡(luò)將其應(yīng)用于高階情緒語義層的抽象圖像分類。為了從直觀上對不同領(lǐng)域上的無監(jiān)督特征學(xué)習(xí)進(jìn)行比較,提出一種基于平均梯度對自學(xué)習(xí)特征權(quán)重進(jìn)行排列顯示的方法。實驗結(jié)果表明基于稀疏自動編碼器的無監(jiān)督學(xué)習(xí)特征不僅能被用于認(rèn)知層面的圖像識別還能夠被用于情緒語義層面的圖像辨識。而且當(dāng)目標(biāo)樣本數(shù)量較少時,以跨領(lǐng)域的方式從與測試集合完全無關(guān)的樣本中學(xué)習(xí)到的特征能取得比傳統(tǒng)底層視覺特征更好的效果。這些結(jié)論也能給深度學(xué)習(xí)特別是無監(jiān)督特征學(xué)習(xí)技術(shù)在其它有限樣本集合中的應(yīng)用帶來啟發(fā)。
[1] BORTH D, JI R, CHEN T,. Large-scale visual sentiment ontology and detectors using adjective noun pairs[C]. 21st ACM International Conference on Multimedia, Barcelona, Spain, 2013: 223-232. doi: 10.1145/2502081.2502282.
[2] 李祖賀, 樊養(yǎng)余. 基于視覺的情感分析研究綜述[J]. 計算機(jī)應(yīng)用研究, 2015, 32(12): 3521-3526.doi: 10.3969/j.issn.1001- 3695.2015.12.001.
LI Zuhe and FAN Yangyu.Survey on visual sentiment analysis[J]., 2015, 32(12): 3521-3526.doi: 10.3969/j.issn.1001-3695.2015.12.001.
[3] MACHAJDIK J and HANBURY A. Affective image classification using features inspired by psychology and art theory[C]. 18th ACM International Conference on Multimedia, Firenze, Italy, 2010: 83-92. doi:10.1145/ 1873951.1873965.
[4] ZHANG H, G?NEN M, YANG Z,. Understanding emotional impact of images using Bayesian multiple kernel learning[J]., 2015, 165: 3-13.doi: 10.1016/ j.neucom.2014.10.093.
[5] ZHAO S, GAO Y, JIANG X,. Exploring principles-of-art features for image emotion recognition[C]. 22nd ACM International Conference on Multimedia, Orlando, FL, USA, 2014: 47-56.doi: 10.1145/2647868.2654930.
[6] ZHANG H, YANG Z, G?NEN M,. Affective abstract image classification and retrieval using multiple kernel learning[C]. 20th International Conference on Neural Information Processing, Daegu, South Korea, 2013: 166-175.doi: 10.1007/978-3-642-42051-1_22.
[7] ZHANG H, AUGILIUS E, HONKELA T,. Analyzing emotional semantics of abstract art using low-level image features[C]. 10th International Symposium on Intelligent Data Analysis, Porto, Portugal, 2011: 413-423.doi: 10.1007/ 978-3-642-24800-9_38.
[8] LECUN Y, BENGIO Y, and HINTON G. Deep learning[J]., 2015, 521(7553): 436-444.doi: 10.1038/nature14539.
[9] 李寰宇, 畢篤彥, 查宇飛, 等. 一種易于初始化的類卷積神經(jīng)網(wǎng)絡(luò)視覺跟蹤算法[J]. 電子與信息學(xué)報, 2016, 38(1): 1-7.doi: 10.11999/JEIT150600.
LI Huanyu, BI Duyan, ZHA Yufei,. An easily initialized visual tracking algorithm based on similar structure for convolutional neural network[J].&, 2016, 38(1): 1-7.doi: 10.11999/ JEIT150600.
[10] CHEN T, BORTH D, DARRELL T,. Deepsentibank: Visual sentiment concept classification with deep convolutional neural networks[OL]. http://arxiv.org/abs/ 1410.8586v1, 2014.
[11] YOU Q, LUO J, JIN H,. Robust image sentiment analysis using progressively trained and domain transferred deep networks[C]. 29th AAAI Conference on Artificial Intelligence (AAAI), Austin, TX, USA, 2015: 381-388.
[12] 李祖賀, 樊養(yǎng)余, 王鳳琴. YUV空間中基于稀疏自動編碼器的無監(jiān)督特征學(xué)習(xí)[J]. 電子與信息學(xué)報, 2016, 38(1): 29-37.doi: 10.11999/JEIT150557.
LI Zuhe, FAN Yangyu, and WANG Fengqin. Unsupervised feature learning with sparse autoencoders in YUV space[J].&, 2016, 38(1): 29-37.doi: 10.11999/JEIT150557.
[13] ZHANG F, DU B, and ZHANG L. Saliency-guided unsupervised feature learning for scene classification[J]., 2015, 53(4): 2175-2184.doi: 10.1109/TGRS.2014.2357078.
[14] 楊興明, 吳克偉, 孫永宣, 等. 可遷移測度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法[J]. 電子與信息學(xué)報, 2015, 37(12): 2913-2920.doi: 10.11999/JEIT150323.
YANG Xingming, WU Kewei, SUN Yongxuan,. Modified covariate-shift multi-source ensemble method in transferability metric[J].&, 2015, 37(12): 2913-2920.doi: 10.11999/JEIT150323.
[15] 莊福振, 羅平, 何清, 等. 遷移學(xué)習(xí)研究進(jìn)展[J]. 軟件學(xué)報, 2015, 26(1): 26-39.doi: 10.13328/j.cnki.jos.004631.
ZHUANG Fuzhen, LUO Ping, HE Qing,. Survey on transfer learning research[J]., 2015, 26(1): 26-39.doi: 10.13328/j.cnki.jos.004631.
[16] NG A Y, NGIAM J, FOO C Y,. Unsupervised feature learning and deep learning[OL]. http://deeplearning.stanford. edu/wiki/index.php, 2015.
[17] DENG J, ZHANG Z, EYBEN F,. Autoencoder-based unsupervised domain adaptation for speech emotion recognition[J]., 2014, 21(9): 1068-1072.doi: 10.1109/LSP.2014.2324759.
[18] YANG X, ZHANG T, and XU C. Cross-domain feature learning in multimedia [J]., 2015, 17(1): 64-78.doi: 10.1109/TMM.2014.2375793.
[19] ZHOU J T, PAN S J, TSANG I W,. Hybrid heterogeneous transfer learning through deep learning[C].28th AAAI Conference on Artificial Intelligence (AAAI), Quebec City, QC, Canada, 2014: 2213-2219.
[20] KOUNO K, SHINNOU H, SASAKI M,. Unsupervised domain adaptation for word sense disambiguation using stacked denoising autoencoder[C].29th Pacific Asia Conference on Language, Information and Computation (PACLIC 29),Shanghai, China, 2015: 224-231.
[21] COATES A, LEE H, and NG A Y. An analysis of single-layer networks in unsupervised feature learning[C]. 14th International Conference on Artificial Intelligence and Statistics, Ft. Lauderdale, FL, USA, 2011: 215-223.
[22] WANG R, DU L, YU Z,. Infrared and visible images fusion using compressed sensing based on average gradient[C]. 2013 IEEE International Conference on Multimedia and Expo Workshops (ICMEW), San Jose, CA , USA, 2013: 1-4.doi: 10.1109/ICMEW.2013.6618257.
[23] L?NGKVIST M and LOUTFI A. Learning feature representations with a cost-relevant sparse autoencoder[J]., 2015, 25(1): 1-11.doi: 10.1142/S0129065714500348.
[24] LI Z, FAN Y, and LIU W. The effect of whitening transformation on pooling operations in convolutional autoencoders[J]., 2015, 2015(1): 1-11.doi: 10.1186/s13634-015- 0222-1.
[25] VEDALDI A and LENC K. MatConvNet: convolutional neural networks for matlab[C]. 23rd ACM International Conference on Multimedia, Brisbane, Australia, 2015: 689-692. doi: 10.1145/2733373.2807412.
樊養(yǎng)余: 男,1960年生,教授、博士生導(dǎo)師,研究方向為圖像處理及其應(yīng)用、虛擬現(xiàn)實及可視化技術(shù).
李祖賀: 男,1983年生,講師、博士生,研究方向為計算機(jī)視覺、機(jī)器學(xué)習(xí).
王鳳琴: 女,1980年生,副教授,博士,研究方向為圖像處理、視頻編碼.
馬江濤: 男,1981年生,講師,博士生,研究方向為大數(shù)據(jù)處理與分析.
Affective Abstract Image Classification Based on Convolutional Sparse Autoencoders across Different Domains
FAN Yangyu①LI Zuhe①②WANG Fengqin②MA Jiangtao②
①(,,’710072,);②(,,450002,)
To apply unsupervised feature learning to emotional semantic analysis for images in small sample size situations, convolutional sparse autoencoder based self-taught learning for domain adaption is adopted for affective classification of a small amount of labeled abstract images. To visually compare the results of feature learning on different domains, an average gradient criterion based method is further proposed for the sorting of weights learned by sparse autoencoders. Image patches are first randomly collected from a large number of unlabeled images in the source domain and local features are learned using a sparse autoencoder. Then the weight matrices corresponding to different features are sorted according to the minimal average gradient of each matrix in three color channels. Global feature activations of labeled images in the target domain are finally obtained by a convolutional neural network including a pooling layer and sent into a logistic regression model for affective classification. Experimental results show that self-taught learning based domain adaption can provide training data for the application of unsupervised feature learning in target domains with limited samples. Sparse autoencoder based feature learning across different domains can produce better identification effect than low-level visual features in emotional semantic analysis of a limited number of abstract images.
Image classification; Image affect; Self-taught learning; Convolutional autoencoder; Domain adaption
TP391.4
A
1009-5896(2017)01-0167-09
10.11999/JEIT160241
2016-03-17;改回日期:2016-07-22;
2016-10-09
李祖賀 zuheli@126.com
陜西省科技統(tǒng)籌創(chuàng)新工程重點實驗室項目(2013 SZS15-K02)
The Science and Technology Innovation Engineering Program for Shaanxi Key Laboratories (2013SZS15- K02)