王欣,穆紹碩,陳華鋒
(1.北京中盾安全技術(shù)開發(fā)公司,北京100044;2.浙江傳媒學院媒體工程學院,浙江杭州310018)
移動互聯(lián)網(wǎng)時代,圖像與視頻數(shù)據(jù)量呈爆發(fā)式增長,迫切需要能自動檢索并推送高美學質(zhì)量的圖像或視頻,因此,對圖像進行美學質(zhì)量客觀評價和篩選已成為人機交互的重點,迫切需要研究一種高效的圖像美學客觀評價方法,目前圖像美學分類已成為研究熱點。傳統(tǒng)方法通常用信噪比和結(jié)構(gòu)相似度評價圖像畫質(zhì),因此,只能評估噪聲、變形、清晰度等,無法評估具有情感色彩的視覺美學質(zhì)量。隨后,研究者通過手工提取的美學特征實現(xiàn)美感分類,如顏色直方圖和邊緣分布等[1-3],但其屬于手工設計,無實質(zhì)性突破,與人類視覺真實美感評估相差甚遠。同時,圖像美感較易受主觀影響,僅靠幾種特例顯然無法做全面、可靠的評估,需另尋他法,神經(jīng)網(wǎng)絡成為有效解決此問題的方案。卷積神經(jīng)網(wǎng)絡(CNN)是各種神經(jīng)網(wǎng)絡中最強大的學習結(jié)構(gòu)之一,已成為計算機視覺領域的研究熱點[4-18]。AVA數(shù)據(jù)集[4]包含250 000個具有美學評級的圖像和14 000個帶有樣式標簽的子集,使得用深度學習方法自動學習美學特征成為可能。KARAYEV等[5]通過CNN網(wǎng)絡提取特征,對圖像風格進行了有效分類。王偉凝等[6]提出的并行深度卷積神經(jīng)網(wǎng)絡圖像美學分類方法,可有效提取美學特征,實現(xiàn)美學二級標簽分類。李素梅等[7]基于卷積神經(jīng)網(wǎng)絡模型,提出一種評價立體圖像舒適度的方法。文獻[13]利用全局和局部2個視角設計的CNN模型,可用于美學評估分類。DONG等[14-15]用分類器對手工和神經(jīng)網(wǎng)絡提取的特征進行分類,效果很好;LI等[16]提出了一種基于圖像內(nèi)容的嵌入微調(diào)卷積神經(jīng)網(wǎng)絡方法評價圖像美學質(zhì)量,解決了數(shù)據(jù)規(guī)模小的問題。LU等[18]提出了一種基于深度學習的圖像美學快速評價系統(tǒng),采用新的深度神經(jīng)網(wǎng)絡方法實現(xiàn)了特征的自動學習。
雖然上述方法取得了一定成果,但仍存在不足:(1)通常采用二分類標簽(“好”或“壞”)等單一指標評估圖像美學質(zhì)量,無法區(qū)分同類標簽圖像的美感優(yōu)劣,如文獻[10-12,19-20];(2)CNN 要求輸入的圖像尺寸固定,文獻[12,18,21-22]等對外部訓練圖像預處理較簡單,只是簡單地將其插值到固定尺寸,影響圖像的美學特征分布。為解決以上問題,本文提出一種基于全局和局部特征的多輸入源圖像美學量化評價方法。在網(wǎng)絡輸入端,采用幾種不同表示方法獲取圖像的全局視圖和局部視圖,并將其聯(lián)合作為輸入;在網(wǎng)絡輸出端,以EMD為新的損失函數(shù),將1~10分的概率密度質(zhì)量函數(shù)作為神經(jīng)網(wǎng)絡模型的輸出,并以均值作為量化值。實驗證明,本文方法具有可行性和有效性,圖像美學的客觀評分值與實際評分值十分接近,分類準確率也較一般方法高。
基于CNN的圖像美學量化方法步驟:(1)預處理外部圖像,構(gòu)建訓練數(shù)據(jù)集;(2)構(gòu)建高效的CNN網(wǎng)絡模型;(3)利用訓練數(shù)據(jù)集訓練并優(yōu)化網(wǎng)絡參數(shù);(4)利用訓練好的模型對圖像或視頻進行美學量化評分。
針對現(xiàn)有算法對圖像美學質(zhì)量評價單一和預處理簡單等問題,提出了一種改進的多尺度特征提取網(wǎng)絡模型,網(wǎng)絡結(jié)構(gòu)如圖1所示。首先,在輸入端提取外部訓練圖像的全局視圖和局部視圖,并將兩視圖聯(lián)合作為輸入;其次,構(gòu)建多尺度特征提取網(wǎng)絡模型,通過組合1×1,3×3和5×5三種尺度的卷積核,使圖像特征提取更充分。最后,在softmax層以EMD為損失函數(shù),用1~10分的概率密度質(zhì)量函數(shù)作為神經(jīng)網(wǎng)絡模型的輸出,評價圖像,并以均值作為精確評價值。
圖1 算法的網(wǎng)絡結(jié)構(gòu)Fig.1 Network structure of the algorithm
將CNN應用于美學質(zhì)量分類并非易事。因為CNN要求輸入固定尺寸的圖像,而每幅圖像的尺寸是不同的,圖像的長寬比、分辨率和細節(jié)等均會影響圖像的美學等級,因此很難直接訓練CNN網(wǎng)絡;大多研究只是簡單地將圖像插值至CNN網(wǎng)絡所需尺寸,如圖2中g(shù)1所示,易造成圖像美學特征發(fā)生變化,影響后續(xù)評估。如何對輸入圖像的全局視圖和局部視圖進行自動美學特征學習成為一大難題。為解決此問題,筆者提出將圖像的全局視圖和局部視圖進行深度融合,并將融合圖作為輸入(s×s×15),如圖 2所示,實驗中,將CNN所需的固定尺寸s設置為224。本文數(shù)據(jù)集選自專業(yè)的圖像美學數(shù)據(jù)集AVA庫,每幅圖像均由200個不同職業(yè)、不同年齡的人進行評分,評分值為1~10(最高美學評分為10分),每幅圖像都用相應的美學評分直方圖作為本文神經(jīng)網(wǎng)絡模型的標簽,見圖2(標簽)。
圖2 圖像預處理過程Fig.2 Image preprocessing process
對于全局視圖,為充分保持原始圖像的美學特征并輸入CNN固定尺寸圖像,提出3種變換組合以形成全局視圖。直接縮放(g1):將原始圖像直接插值至固定尺寸(s×s×3);短邊規(guī)格(g2):以原始圖像的短邊規(guī)格為固定長度s的倍數(shù)調(diào)整圖像尺寸,并裁剪中心區(qū)域尺寸為s×s×3的圖像;長邊規(guī)格(g3):以原始圖像的長邊規(guī)格為固定長度s的倍數(shù)調(diào)整圖像尺寸,并用零填充邊界元素,以生成s×s×3尺寸的圖像。
對于局部視圖,獲取全局視圖需調(diào)整原始圖像的尺寸,會導致部分高分辨率局部美學信息的丟失,因此,本文的局部視圖由原始圖像中隨機裁剪的2組固定尺寸(s×s×3)圖像塊l1,l2組成。
對圖像或視頻進行美學評估需要通過網(wǎng)絡模型充分提取光影、亮度、構(gòu)圖、顏色等“美”學特征,因此,設計能充分提取美學特征的網(wǎng)絡結(jié)構(gòu)至關重要。網(wǎng)絡由4層多尺度特征提取單元(如圖3所示)組成。其中,網(wǎng)絡單元由特征提取層、融合層和映射層組成,Conv表示卷積操作,ReLU表示非線性激活函數(shù)。針對美學特征,提出由1×1,3×3和5×5三種尺度的卷積核(步長皆為1)并列組成特征提取層,其具有不同的感受野,能提取不同尺度的特征,同時,5×5大卷積核能提取相關性不強的特征。融合層采用級聯(lián)的方式將這些包含多尺度信息的特征圖合并,重組為新的特征圖;為降低維度和提高網(wǎng)絡的泛化能力,增加了1×1卷積的特征映射層。
圖3 多尺度特征提取單元Fig.3 Multi-scale feature extraction unit
AVA數(shù)據(jù)集是圖像美學分類訓練集的重要來源,包括幾十萬幅社交圖片,經(jīng)不同行業(yè)、不同年齡的200多人對每幅圖片進行主觀美學評分,構(gòu)建1~10分的概率密度函數(shù)P,并建立“0”差和“1”美2類標簽。P為主觀統(tǒng)計評分,具有廣泛性和真實性,
其中,s1=1,s2=2,…,s10=10,表示分數(shù)級,psi表示相應分數(shù)級的概率,傳統(tǒng)的神經(jīng)網(wǎng)絡softmax分類輸出層通常用交叉熵函數(shù)執(zhí)行等級分類任務,而圖像美學評分的輸出(1~10分)是有序的,交叉熵函數(shù)無法體現(xiàn)此類間關系,HOU等[16]提出可通過EMD函數(shù)實現(xiàn)基于類間有序的數(shù)據(jù)集訓練,為此,選取圖像的統(tǒng)計概率密度函數(shù)P為標簽,在損失層選用EMD函數(shù),訓練后輸出與P一致的概率密度質(zhì)量函數(shù),并將概率密度質(zhì)量函數(shù)的均值μ和方差σ作為圖像或視頻的美學評價量化值,EMD函數(shù)為
EMD定義為實際的概率密度函數(shù)P與估計的概率密度質(zhì)量函數(shù)P^的最小代價,累計分布函數(shù)質(zhì)量評級排序為s1<s2<···<sN,其中,N=10。
為驗證本文方法的性能,選用圖像美學評價領域通用的AVA數(shù)據(jù)集進行測試實驗。根據(jù)實驗需要,選取AVA數(shù)據(jù)集中1~10分各分數(shù)段圖像共2 000幅,用其中的10%作為測試集,在網(wǎng)絡參數(shù)初始化階段,采用ImageNet分類數(shù)據(jù)庫初始化CNN架構(gòu)網(wǎng)絡參數(shù),全連接層采用隨機初始化,動量設置為0.9,網(wǎng)絡訓練學習率設置為0.001,迭代后期再逐漸減小學習率。
基于AVA數(shù)據(jù)集,所有對比實驗均用相同的訓練集和測試集。圖4為本文方法對AVA數(shù)據(jù)集中測試集的部分處理結(jié)果,其中,每幅子圖下方括號內(nèi)的值為本文方法的結(jié)果,即概率密度質(zhì)量函數(shù)的均值;括號外的值為AVA數(shù)據(jù)集中的評分。直方圖是對應圖像的概率密度質(zhì)量函數(shù),橫坐標為分數(shù),縱坐標為對應的概率密度,求均值便得到本文方法對圖像美學的量化評分。由圖4可知,本文方法得到的圖像美學量化評分與AVA數(shù)據(jù)集評分十分接近,因此,本文方法是可行和有效的。
圖4 圖像美學量化評分結(jié)果Fig.4 Image aesthetics quantitative scoring results
本文方法給出了圖像美學的量化評分,而LU等[15]、KONG 等[18]和 MAI等[14]經(jīng)典的圖像美學評價方法均無法給出量化評分。為方便與這些方法進行圖像美學分類準確度比較,進行了圖像美學分類實驗,并將圖像評分的測試結(jié)果分為2級,高于5分的為高美學圖像,低于5分的為低美學圖像。本文方法與3種常用的圖像美學評價方法的對比結(jié)果如表1所示,由表1可知,本文方法的分類準確率高于其他3種方法。從評分誤差均值看,本文方法在預測真實評分過程中的誤差并不小,有待在以后的工作中做進一步研究和改進。
表1 不同方法的AVA測試集實驗對比Table 1 Experimental comparison of different methods on AVA dataset
提出了一種基于多尺度特征提取網(wǎng)絡的圖像美學客觀量化評分方法,用于解決圖像美學質(zhì)量評價單一和訓練集預處理簡單等問題。所用網(wǎng)絡模型由多個多尺度特征提取單元級聯(lián)組成,構(gòu)造了訓練圖像的全局視圖和局部視圖,并將兩視圖聯(lián)合作為輸入,最后以EMD為損失函數(shù),輸出分布為1~10分的概率密度質(zhì)量函數(shù),并以均值作為圖像美學的客觀量化值。實驗表明,本文方法能較好地對圖像美學做量化評價,但所得結(jié)果與真實評分值存在一定差異,算法精度有待進一步提高。