汪 一,周 玉,康 凱
(1.江蘇師范大學科文學院,江蘇 徐州 221132;2.中國礦業(yè)大學信息與控制工程學院;3.徐州市第一人民醫(yī)院)
圖像美學評估是指通過構建數(shù)學模型來描述人眼對于圖像美學的感知特性,從而使計算機具備和人類相似的圖像美感判斷能力的技術。其研究成果在圖像搜索、相片分類、圖像智能剪裁和圖像質量優(yōu)化等領域具有非凡的應用價值,因此該研究是國內外前沿的研究方向。
初期的圖像美學評估方法主要通過設計手工特征來描述攝影師拍攝過程中采用的常規(guī)技巧。這類方法邏輯清晰、容易理解,但是手工特征表達能力的有限性制約了此類方法的準確性,具體為:①攝影技巧抽象且繁雜,難以通過手工特征進行準確描述;②手工特征彼此間相關性強,會造成語義的高耦合?;诖耍芯咳藛T開始采用一些描述自然圖像特性的通用特征來進行美學評估。與手工特征相比,這類特征的美學評估能力更好,但是它們不是專門為圖像美學任務設計,因此評估的準確性仍有非常大的提升空間。
數(shù)十年來,隨著卷積神經網絡(Convolutional Neural Network,CNN)的興起,各領域開始采用CNN 進行相關研究[1,2]。在圖像美學評估領域,起初僅采用CNN進行簡單特征提取,然后采用機器學習的方法從特征中學習分類模型。該類方法未充分利用CNN 強大的信息挖掘能力,因此逐漸被基于端到端訓練的美學評估模型取代。然而,盡管現(xiàn)有的端到端評估模型相比以往模型取得了較大進展,但它們仍不能較好描述人類視覺系統(tǒng)對圖像美學的判斷過程,從而不能全面描述圖像美學特征,無法精確構建美學評估模型。
本文針對現(xiàn)有算法存在的不足,提出了采用弱監(jiān)督學習的思想提取圖像美感注意力進行美學評估的算法。該算法包括深度特征提取、美感注意力提取和美學分數(shù)預測三個模塊。其中,深度特征提取模塊采用主流的深度CNN(Deep CNN,DCNN)網絡實現(xiàn),以提取與圖像美感相關的高層次特征。在此基礎上,進一步設計美感注意力提取模塊和美學分數(shù)預測模塊。其中美感注意力模塊采用弱監(jiān)督學習的方法,通過訓練圖像美感分類模型來實現(xiàn),以模擬人眼在感知圖像美學時的特性。該方法還能克服目前美學評估數(shù)據(jù)集中缺少美感注意力標簽的問題。美學分數(shù)預測模塊是在將美感注意力特征與深度特征進行交叉融合的基礎上構建。最后,將整個模型在公開的圖像美學評估數(shù)據(jù)集上進行訓練,得到最終的美學評估模型。
本文算法的流程圖如圖1所示。
圖1 本文算法框架圖
鑒于DCNN 強大的信息挖掘和表達能力,本文采用主流的DCNN 網絡來提取深度特征。具體地,以常用的ResNet50 為例,保存原網絡結構中的5 個卷積模塊并去除其中的全連接層,最后一個卷積模塊的輸出即為提取的深度特征圖d。假設每批次輸入的圖像數(shù)為N,對于每一幅待評估圖像In(n∈[ 1,N]),將其輸入該模型,均能夠獲得相應的深度特征圖dn。
獲得美感注意力提取模塊最直接的方法是搭建網絡模型,在含有美感注意力標注的數(shù)據(jù)集上進行訓練。然而目前的圖像美學評估數(shù)據(jù)集未提供該標注,因此該方法并不可行。為此,本文采用弱監(jiān)督學習的思想實現(xiàn)無需美感注意力標注仍能學習出美感注意力提取模型的目標。首先,使用數(shù)據(jù)集中已有的美學分類標簽進行監(jiān)督,實現(xiàn)美學分類預測模型的訓練。之后,借助訓練好的模型捕捉與美學相關的注意力特征。構建美學分類任務模型的方法為:在深度特征提取模塊的最后一層卷積層獲取的深度特征圖dn上,進行全局平均池化(Global Average Pooling,GAP)操作實現(xiàn)特征降維。然后,采用全連接層(Fully Connected,FC)進行美感二分類。在AVA[3]數(shù)據(jù)集上進行分類模型的訓練。本文采用交叉熵損失進行監(jiān)督學習:
其中,aj和bj分別為第j張訓練圖像的美學標簽值和本文分類預測網絡輸出的美學分數(shù)。
訓練好美感分類模型后,借助類激活圖的方法從該模型中GAP 操作的輸出獲取美感注意力圖。對于第n張輸入圖像In,其美感注意力特征圖記為An。該注意力特征圖能夠反映圖像中不同區(qū)域內容對圖像美感影響的高低。
為了模擬人類視覺系統(tǒng)對美學感知的特性,采用交叉融合的方法將輸入圖像In對應的深度特征圖dn和美感注意力特征圖An進行融合。該融合模塊的結構如圖2所示。
圖2 交叉融合方法圖
首先,對dn與An實行交互操作,即利用dn(An)dn生成An(dn)的權重系數(shù)。生成權重的過程通過Sigmoid激活函數(shù)實現(xiàn):
將求得權重先與特征相乘,然后與原特征求和,以實現(xiàn)特征的充分融合:
其中,σ為激活操作,An和dn表示美感注意力特征和深度美學特征。之后,對與進行拼接和1×1卷積,實現(xiàn)特征的交叉融合。該融合方法可以提取更有效的圖像美學特征。
最后,采用GAP 和FC 進行分數(shù)預測。該模塊訓練時的損失函數(shù)為:
美感注意力提取模塊采用EfficientNet作為主干網,初始化參數(shù)為在ImageNet 數(shù)據(jù)集上的預訓練參數(shù),優(yōu)化器選擇Adam;批處理數(shù)為32;學習率為1×10-3,每十輪次下降0.1倍,小于1×10-5時停止訓練,權重衰減參數(shù)和動量為5×10-4和0.9。美學分數(shù)預測模塊采用ResNet/EfficientNet 作為主干網,批處理數(shù)為40/64;優(yōu)化器為Adam;學習率為1×10-4,每十輪次下降0.1倍,小于1×10-7時停止訓練;權重衰減參數(shù)和動量為1×10-5和0.9。
本文采用AADB[3]和AVA[4]兩個主流的美學評估數(shù)據(jù)集進行性能測試。其中,AADB 數(shù)據(jù)集共有10,000張圖。每張圖像有一個整體美學分數(shù)標簽和11種屬性分數(shù)標簽。AVA 數(shù)據(jù)集共有255,530 張圖,每張圖像有一個美學分數(shù)標簽。
表1 展示了本文算法和現(xiàn)有美學評估算法[5-7]在AADB 數(shù)據(jù)集上的實驗結果,“—”表示結果未在原文給出。如表1 所示,在現(xiàn)有方法中,方法[6]獲得了最大的PLCC 和SRCC 值及最小的RMSE 值,而本文方法采用ResNet-101 作為主干網時,性能均優(yōu)于方法[6]。表2通過與現(xiàn)有算法[8-12]在AVA數(shù)據(jù)集上的對比試驗,同樣展示了本文算法具有最優(yōu)性能。綜上,本文算法具有最優(yōu)越的圖像美學評估性能。
表1 各方法在AADB數(shù)據(jù)集上的實驗結果
表2 各方法在AVA數(shù)據(jù)集上的性能
為進一步驗證美感注意力特征對算法性能的貢獻,表3 展示了采用ResNet101 和EfficientNet 作為主干網時,本文算法在融合美感注意力特征前后的性能值。結果表明,無論選用哪種主干網,融合注意力特征后都比融合前的性能好很多。這說明本文提出的美感注意力提取模塊的有效性。
表3 各主干網在添加美學注意力前后的性能對比
圖3 展示了本文美感注意力提取方法的效果。第一行是原圖像,第二行是提取的美感注意力圖。從圖3可以看出,本文方法獲取的美感注意力圖與人眼判斷圖像美感時的感知特性具有較高一致性。例如,當觀察第一幅圖時,人主要會關注女性的上半身,本文方法輸出的結果與其一致,其他圖像均可得到相同結論。
圖3 美感注意力可視化圖
本文提出了一種融合美感注意力的圖像美學評估算法,該算法可更好模擬人類視覺系統(tǒng)對圖像美學的判斷過程。該算法首先采用弱監(jiān)督學習的方法獲取美感注意力特征,然后將其與深度特征交叉融合。實驗結果表明,該算法能夠更準確的做出圖像美學評估,在圖像檢索和排序、智能剪裁和質量優(yōu)化等方向具有廣闊的應用前景。下一步工作中,將通過建立含有美感注意力標簽的數(shù)據(jù)庫來訓練更加準確的美感注意力提取模型,以進行更準確的美學評估。