汪珊娜, 張華熊, 康 鋒
(浙江理工大學 信息學院, 浙江 杭州 310018)
情感是服裝設計的精神本質(zhì),織物圖案是服裝設計的重要內(nèi)容,蘊含著豐富的情感信息。領帶作為服飾品,不僅滿足著裝者服飾搭配需要,還傳達著裝者的身份、審美以及價值觀等信息。隨著數(shù)字化設計的發(fā)展,服裝設計中的圖案素材與日俱增,但設計人員很難充分利用已有的豐富的織物圖像,這就需要對織物圖像進行情感語義分析。
早期研究者通過提取圖像的相關手工特征,利用機器學習方法來訓練分類器,以實現(xiàn)圖像情感分類。Datta等[1]提取低層的顏色、紋理、形狀等圖像特征,利用支持向量機進行圖像美學情感分類,但由于量化粗糙,分類準確率不高;Marchesotti等[2]將圖像灰度化后提取SIFT特征和局部顏色描述子進行美學情感分類,但忽略了全局信息和色彩信息;Lo等[3]從圖像顏色、布局、邊緣等特征的美學角度對圖像美感分類進行研究,結果表明圖像美學特征可用于圖像情感分析。這些手工特征在圖像情感分類中取得了一定的效果,然而,由于圖像的構圖規(guī)則和美學規(guī)律千變?nèi)f化,且圖像情感存在主觀性和復雜性,傳統(tǒng)的手工特征和局部特征難以全面表征和準確地量化圖像的情感信息。近年來,深度學習方法的出現(xiàn)使得機器學習和特征學習研究有了突破性進展,采用深度學習模型的基于圖像內(nèi)容的檢索方法大幅提高了圖像搜索準確率[4]。卷積神經(jīng)網(wǎng)絡(convolutional neural networks, 簡稱CNN)是深度學習算法中的一種學習模型,具有逐層迭代、逐層抽象的特點,以及挖掘數(shù)據(jù)局部特征、提取全局特征能力,在圖像分類的各領域都取得了很好的成果:LeNet-5模型[5]成功應用于手寫字符識別,識別率達到99%以上;AlexNet網(wǎng)絡模型[6]在海量圖像分類領域取得了突破性的成果,在2012年大型圖像數(shù)據(jù)庫ImageNet的圖像分類競賽中,準確度超過第2名11%奪得冠軍,從而使得CNN成為了學界關注的焦點;之后VGG(visual geometry group)、GoogLeNet、ResNet等模型刷新了AlexNet在ImageNet上創(chuàng)造的記錄[7]。學者們開始嘗試將深度學習用于圖像情感分類問題:Lu等[8]同時考慮了圖像的局部視角和全局視角,將CNN用于AVA數(shù)據(jù)庫250 000幅圖像的美感質(zhì)量評價;冀中等[9]探索CNN模型在圖像紋理分類中的應用,結果表明CNN模型在大多數(shù)紋理數(shù)據(jù)集上均能取得很好的分類結果。上述方法都只采用了大數(shù)據(jù)庫中的樣本圖像像素值作為CNN輸入,沒有融合現(xiàn)有較為成熟的手工特征,在小樣本情況下表現(xiàn)較差。
本文以領帶花型為研究對象,設計了基于并行CNN的情感分類算法,將其應用于織物圖像情感分類。首先確定了領帶花型圖案的情感描述詞,通過統(tǒng)計方式確定了情感標簽,由此建立了情感圖像庫;然后根據(jù)領帶花型的特點,提取圖像顏色、紋理等低層手工美學特征;其次,構建了基本CNN網(wǎng)絡模型,通過實驗確定CNN網(wǎng)絡結構和參數(shù),并將手工特征以及樣本圖像像素值并行輸入CNN網(wǎng)絡進行訓練,建立織物圖像與情感表達之間的映射;最后,通過訓練后的分類器對檢測樣本進行情感分類。
本文提出的算法流程如圖1所示。主要步驟有情感圖像庫建立、特征提取、網(wǎng)絡模型建立、情感分類4個過程。
圖1 算法流程Fig.1 Algorithm flow
1)情感圖像庫建立。由專業(yè)設計人員對已有的領帶花型圖像進行情感標注,建立情感圖像庫。
2)特征提取。首先對織物掃描圖像進行紋理抑制平滑處理[10],濾除掃描過程中產(chǎn)生的紋理及過渡色;其次,對預處理后的圖像進行特征提取,提取顏色、紋理等低層圖像特征,作為CNN輸入。
3)網(wǎng)絡模型建立。在Alexnet模型基礎上建立CNN網(wǎng)絡模型,通過實驗、特征可視化調(diào)整參數(shù),確定CNN結構。將預處理后訓練樣本的圖像像素值與提取的低層特征并行輸入CNN模型:其前向傳播通過卷積層和下采樣層得到圖像特征;其反向傳播調(diào)整參數(shù),使用隨機梯度下降法進行迭代,使得誤差值達到收斂狀態(tài),完成權值的更新。
特征圖公式定義為
f(x)=max(0,x)
在每層卷積層ReLU后用局部響應歸一化(local response normalization, LRN)處理,提升網(wǎng)絡的泛化能力,該處理過程用公式可表示為
本文使用Softmax回歸函數(shù)和Log-loss誤差函數(shù)對輸出結果求誤差,第L層的損失函數(shù)可由下式計算:
式中:pi為樣本;qi為樣本標簽值;M為樣本總數(shù);fL為激活函數(shù);wi、wd為權值;λ為正則化項系數(shù)。
4)情感分類。將檢測樣本的圖像像素值和手工特征輸入Softmax分類器,得到情感分類結果。分類精度計算公式為
式中:nTP為被模型預測為正的正樣本數(shù)量;nTN為被模型預測為負的負樣本數(shù)量;nFP為被模型預測為正的負樣本數(shù)量;nFN為被模型預測為負的正樣本數(shù)量。
情感模型有維度情感模型[11]、離散情感模型[12]。維度情感模型用坐標表示情感空間,不符合人的直觀感受,較難將維度空間中的某個坐標轉(zhuǎn)變?yōu)樘囟ㄇ楦校诳椢飯D像中的使用范圍受到限制。Kobayashi等[13]建立了一系列的情感詞匯,如“考究的”“古典的”“成熟的”“浪漫的”“奢華的”等,賈京生[14]使用“正式的—休閑的”“儒雅的—粗獷的”“古典的—現(xiàn)代的”“簡潔的—復雜的”“艷麗的—淡雅的”5組常用情感詞對來描述男西裝圖像的情感語義,這些離散情感形容詞符合人們?nèi)粘5闹庇X和常識,適合描述織物圖像情感。
領帶作為服飾品,有不同的搭配需要。條紋、方格、菱形格等,通常用來表現(xiàn)公司白領自信優(yōu)雅、成熟大方的氣質(zhì);鮮艷的顏色配以其他圖案給人輕松隨意的感覺,通常用于日常著裝搭配休閑的襯衫西裝;亮色的經(jīng)緯交錯發(fā)光領帶給人高調(diào)和閃亮的感覺,通常用來參加晚宴;夸張的色彩、怪誕的圖案則用來表現(xiàn)新潮,給人前衛(wèi)的感覺。圖案作為領帶構成的重要組成部分,有豐富的表現(xiàn)內(nèi)容,既可傳統(tǒng)復古也可時尚摩登,因此,不同的色彩、紋理、圖案結合會營造出領帶或精致或粗獷,或古典或現(xiàn)代等不同的藝術風格。結合文獻[2-3]、[12-14]綜合選出可描述領帶花型情感的7組描述詞,再由浙江理工大學服裝學院從事服飾品設計的專家挑選出最能表現(xiàn)領帶情感的5組,分別為:“正式的—休閑的”“艷麗的—淡雅的”“復雜的—簡潔的”“古典的—現(xiàn)代的”“活躍的—沉悶的”。
給人美感的領帶花型一般具有對稱的結構、合理的空間分布、簡潔明快的紋理、和諧的色彩分布以及較為豐富的顏色層次[15]。從圖像情感的角度,物體不同的色彩、紋理、形狀等會讓人產(chǎn)生喜好、興奮、厭惡等心理活動,設計與提取圖像中較易引起用戶情感變化的特征圖像是情感特征提取的核心內(nèi)容,即建立圖像特征到織物情感的映射關系。這本質(zhì)上就是構建一個合理的計算模型,計算用戶的情感空間與圖像特征之間的關系。研究者們對表征圖像情感的特征做了大量研究,本文從經(jīng)驗出發(fā),借鑒織物圖案設計的藝術形式的美感規(guī)則,使用以下特征:按色彩、深淺、明暗來描述模型的HSV顏色特征;濾波器頻率、方向與人類的視覺系統(tǒng)類似的紋理特征Gabor。
色彩是表達情感的一門藝術,服飾品給人的第一感覺就是色彩,不同的色彩配置極大地影響著人們的視覺感受和情緒狀態(tài),是審美感受的特殊語言。例如紅色給人熱情的感覺,藍色給人純潔的感覺,紫色給人高貴神秘的感覺。色彩能引起人的心理聯(lián)想,從而讀懂色彩所表達的情感。HSV顏色空間是針對用戶觀感的一種顏色模型,側重于色彩表示,更適合用來表征情感特征。色相的暖色調(diào)表現(xiàn)溫暖、活躍,冷色調(diào)表現(xiàn)涼爽、冷漠;高飽和度的圖像令人興奮、愉快,有時代感,低飽和度的圖像顯示樸素。由RGB色彩模式到HSV的轉(zhuǎn)換公式如下:
V=max(R,G,B)
H=H+360,當H<0時
式中:H為圖像的色相;S為飽和度;V為亮度。
紋理是織物的重要特征,包含了豐富的圖像構成信息,在情感分析中占據(jù)重要地位。紋理與色調(diào)組合可表達情緒,如平滑且冷色調(diào)給人涼爽的感受,粗糙且暖色調(diào)給人溫暖的感覺。Gabor濾波器的頻率和方向與人類的視覺系統(tǒng)類似,適于圖像紋理特征描述。本文采用Gabor特征來表征紋理特征,用公式可表示為
式中:F為每個像素點濾波后的輸出特征;p、q為圖像像素點的位置;m、l分別定義為小波變換的方向和尺度;分母為標準化因子。
在織物圖像的情感分類中,本文參考Alexnet網(wǎng)絡模型[6]建立了網(wǎng)絡結構,采用并行CNN結構進行圖像情感分類。本文提出的并行CNN結構由3路結構相同的CNN構成,如圖2所示。輸入數(shù)據(jù)分別為RGB像素值、經(jīng)HSV變換后的S通道、平滑濾波處理后經(jīng)小波變換提取的紋理特征;每個單路CNN由4個卷積層、1個全連接層構成;最后經(jīng)Softmax分類器輸出織物圖像的情感類別。圖2中數(shù)據(jù)表示圖像像素或神經(jīng)元個數(shù)。
圖2 并行CNN結構Fig.2 Structure of parallel CNN
本文根據(jù)CNN應用中網(wǎng)絡層數(shù)與數(shù)據(jù)庫數(shù)量級之間的關系,設計了適應織物圖像的CNN模型,通過實驗不斷調(diào)整網(wǎng)絡層數(shù)與參數(shù),以得到較好的模型。每一路CNN的具體參數(shù)設置如下。
輸入層:將原始圖像按比例裁減成256像素×256像素×3像素,再進行HSV轉(zhuǎn)換取通道S,平滑濾波后提取Gabor紋理特征。由于樣本數(shù)量較少,因此,本文對圖像庫中的圖像進行數(shù)據(jù)增強[16],通過裁剪每幅圖像左上角、左下角、右上角、右下角、中間部分并鏡像得到10幅224像素×224像素×3像素的圖像。
卷積層1:使圖像經(jīng)過48個11像素×11像素的卷積核,步長為4,得到55像素×55像素的特征圖;使用ReLU激勵函數(shù),用3像素×3像素的核進行步長為2的最大池化;最后進行LRN處理。
卷積層2:使用128個5像素×5像素的過濾器對48個27像素×27像素的特征圖進一步提取特征,過濾器是對48個特征圖中的某幾個特征圖中相應的區(qū)域乘以相應的權重,然后加上偏置之后所得到區(qū)域進行卷積,寬度高度均填充2像素,最后進行步長為2的最大池化,得到128個13像素×13像素的特征圖。
卷積層3:寬度高度均填充1像素,有 192個大小為3像素×3像素的核被連接到第2個卷積層的輸出,步長為1,得到192個13像素×13像素的新特征圖,再利用ReLU激勵函數(shù)。
卷積層4:寬度高度均填充1像素,結構同卷積層3,再用3像素×3像素的核進行步長為2的最大池化,得到128個6像素×6像素的新特征圖。
全連接層:1 024個神經(jīng)元。
根據(jù)第2節(jié)中確定的領帶花型的情感描述詞,將圖像庫分為5個類別:類別1為“正式的—休閑的”,可描述領帶用途;類別2為“艷麗的—淡雅的”可描述領帶色彩;類別3為“復雜的—簡潔的”可描述領帶構造;類別4為“古典的—現(xiàn)代的”可描述領帶風格;類別5為“活躍的—沉悶的”可描述領帶性格表現(xiàn)。
然后請專家對本文選出的4 234張不同風格、顏色的領帶花型圖像進行情感評價。參考PhotoQualityDataset[17]中美感評價方法,評價者在 5對情感描述詞中分別做出選擇:前一個標簽、后一個標簽、不確定,由此獲得4 234幅圖像的標簽。當 8位及以上評價者的評價標簽相同時,確定該標簽為圖像的最后標簽,去除不確定標簽圖像后,得到圖像樣本庫,由此分別建立了5組織物類別,示例樣本如圖3所示。
圖3 織物情感圖像庫示例樣本Fig.3 Library of fabric emotion images. (a) Formal; (b) Casual; (c) Gorgeous; (d) Elegant; (e) Complex; (f) Concise; (g) Classic; (h) Modern; (i) Active;(j)Boring
在進行實驗時,針對每對感情詞在樣本庫中隨機選取3 000幅圖像,其中2 000幅作為訓練樣本, 1 000幅作為檢測樣本。將織物圖像像素值RGB、HSV通道S、紋理Gabor特征并行輸入CNN網(wǎng)絡,網(wǎng)絡結構和網(wǎng)絡參數(shù)見第4節(jié)。實驗環(huán)境為1塊NVIDIA-GTX1080 GPU,使用Caffe框架[18]部署的CNN模型。訓練時采用BP算法調(diào)整參數(shù),由于樣本量較小,學習率設置為0.005,批處理Batch size為64,迭代次數(shù)2萬次。實驗結果如表1所示。
表1 并行CNN分類準確率
由表1可知,用并行CNN對5類情感詞進行分類時,在類別2中分類準確率最高,為94.8%,在類別3中最低,為89.7%,可基本滿足對織物圖像的情感分類需求。
選用織物圖像庫中類別2的樣本,使用不同卷積層次的網(wǎng)絡、濾波器數(shù)目、不同特征組合分別進行對比實驗,具體參數(shù)與結果如表2~4所示。
表2 不同卷積層次的情感分類準確率Tab.2 Accuracy of image emotion classification using CNN with different number of layers %
注:“√”表示結構中含有該層。
表3 不同濾波器參數(shù)的情感分類準確率Tab.3 Accuracy of image emotion classification using CNN with different parameters %
表4 不同特征組合輸入的情感分類準確率Tab.4 Accuracy of image emotion classification using CNN with different input of features %
表2、3結果顯示,本文使用的4層卷積網(wǎng)絡結構獲得的分類準確率最高。相同的網(wǎng)絡層數(shù),濾波器個數(shù)越多,可學習到的特征圖層數(shù)量越多,分類表現(xiàn)越好,但濾波器個數(shù)的增多會造成網(wǎng)絡訓練參數(shù)的大量增長,在小樣本數(shù)據(jù)庫中易造成過擬合等不利現(xiàn)象。從表4可知,在單路輸入特征時,輸入像素值RGB的分類準確率最高,HSV通道次之,Gabor紋理特征較差,由此可見,色調(diào)是影響織物情感的較為重要的因素。RGB與通道H、通道V并行的網(wǎng)絡正確率不增反降,本文使用像素值RGB+S通道+紋理Gabor特征得到的分類準確率最高。
將文獻[1-3]、[ 19]中提到的特征提取方法與本文方法進行了對比,采用本文的圖像庫進行驗證,對比結果見表5??梢钥闯?,本文方法比傳統(tǒng)基于手工特征的分類方法情感分類準確率高。這主要是因為圖像情感是人的主觀感覺,并不能單純通過某幾種手工特征完全映射人的情感表達;而CNN可自動提取特征,通過大量樣本的訓練可挖掘數(shù)據(jù)的局部特征、全局特征和上下文信息,在推理規(guī)則不明確的情況下從大量樣本中提取與人真實的情感相匹配的情感特征,泛化能力強。
表5 本文與傳統(tǒng)方法的情感分類準確率Tab.5 Accuracy of image emotion classification using proposed method and traditional methods %
將本文提出的并行CNN模型與LeNet-5模型(2層卷積,1層全連接)、AlexNet模型(5層卷積,3層全連接)、VGG模型(13層卷積,3層全連接)這 3種經(jīng)典的CNN網(wǎng)絡模型在領帶花型圖像庫中進行訓練并檢測,結果見表6??梢钥吹?,本文提出的方法分類準確率最高,表現(xiàn)較LeNet-5模型、Vgg-16模型、Alexnet模型更好。這主要是因為LeNet-5模型最初的設計是應用于數(shù)字識別,識別目標簡單且背景單一,但在處理目標較為復雜的圖像時,分類能力受到了限制;Vgg-16模型網(wǎng)絡過深,使用大量卷積操作,對于領帶花型的小樣本數(shù)據(jù)訓練較為困難,較難得到泛化效果好的模型;本文在Alexnet模型的基礎上提出的CNN模型,融合了手工美學特征,在一定程度上克服了小樣本情況下CNN模型識別率較低的不足。
表6 與流行網(wǎng)絡模型的情感分類準確率Tab.6 Emotional classification accuracy of E-net and other popular models %
本文提出了融合手工美學特征的基于并行CNN的織物情感分類方法,實現(xiàn)了領帶花型的情感分類。該方法在一定程度上克服了傳統(tǒng)美學評價方法提取的手工特征難以全面表征織物情感的不足,以及在小樣本情況下CNN模型識別率較低的缺點。從實驗結果來看,提出的CNN模型較傳統(tǒng)手工特征方法與流行CNN模型有更好的情感分類效果。
在連接并行的CNN時,采用最簡單的連接方式且在各路網(wǎng)絡中使用了相同參數(shù)。由于不同的情感特征對應的圖像特征不同,相同的CNN結構和參數(shù)不利于提高分類準確率。在后續(xù)的研究工作中,將擴大樣本圖像庫,通過CNN各層的特征可視化探索不同特征對應的最優(yōu)網(wǎng)絡結構,賦予不同的權重,這有助于訓練出更好的CNN情感模型。