劉勇
(四川大學計算機學院,成都510065)
愛美之心,人皆有之,古往今來,不管歷史怎么變化,社會怎么發(fā)展,人們從未停止對人臉美麗的探索,早在先秦時期,詩經(jīng)中就有很多反映出當時人們對美的追求,如《碩人》一篇是贊美衛(wèi)莊公夫人莊姜的詩,開篇即道:“碩人其頎”,其對容貌美的形容也為后人熟知,“手如柔荑,膚如凝脂,領如蝤蠐,齒如瓠犀,螓首蛾眉,巧笑倩兮,美目盼兮”。
隨著數(shù)字圖像技術、人工智能的發(fā)展,很多領域在人工智能的推動下蓬勃發(fā)展,人工智能技術無論是在過去、現(xiàn)在還是將來,都作為科學研究的熱點問題之一。人類對自己本身的秘密充滿好奇,隨著生物技術的飛速發(fā)展,人類不斷破譯人體的生命密碼。而以生物科學為基礎的人工智能技術也得到了長足的發(fā)展。人們希望通過某種技術或者某些途徑能夠創(chuàng)造出模擬人思維和行為的“替代品”,幫助人們從事某些領域的工作。由于機器可以通過樣本學習的方式學習到隱藏的標準規(guī)則,人臉肯定有一些特征是關于美麗的,也就是“人臉美麗密碼”。那么是用機器學習技術來人工嘗試從機器的視角輔助人們尋找人臉美的共性,為人臉美麗評估提供一個較為客觀的標準也成為可能。
Gunes H 等人[1]結合醫(yī)學研究成果“黃金比例”和“三庭”,在215 張圖像上提取了相關的幾何特征,使用C4.5 決策樹訓練預測器,將圖像分為5 個美麗等級,取得了較好的效果。毛慧蕓等人[2]使用了特征三角中心采樣Gabor 特征和特征點采樣Gabor 特征作為紋理特征提取方法,使用支持向量機進行預測,取得了不錯的成績。近年來,深度學習進入高速發(fā)展時期,在計算機視覺、語音識別、自然語言處理領域都取得了突破性進展,眾多研究都說明了深度學習、CNN(卷積神經(jīng)網(wǎng)絡)在圖像處理領域的巨大優(yōu)勢和潛能,深度學習技術為人臉美麗預測問題提供了新的解決方法。CNN 在人臉美麗預測中研究不是很多。2015 年Xie D 等人開源了一個名為SCUT-FBP 的人臉美麗數(shù)據(jù)集[3],包含了500張亞洲女性高分辨率的面部圖像,他們使用了傳統(tǒng)機器學習方法和深度學習方法做了對比,使用幾何特征和紋理特征相結合的模型皮爾遜相關系數(shù)為0.6482。而使用CNN 模型的皮爾遜相關系數(shù)為0.8187。顯然,深度學習在人臉美麗預測上有更大的優(yōu)勢。Xu J 等人[4]在認知心理的啟示下提出了用WLS濾波器和人臉圖層分解技術提取WLS-detail 和WLSlighting 特征,構造了PI-CNN 的深層卷積網(wǎng)絡結合原始RGB 通道級聯(lián)微調,最終在SCUT-FBP 數(shù)據(jù)集上達到了0.83 的皮爾遜相關系數(shù)。而近期Liu S 等人[5]使用幾種ImageNet 上預訓練的CNN 模型:VGG18、ResNet-50、ResNet-101 等進行實驗,其中ResNet-50最高取得了0.87 的相關系數(shù)。
SCUT-FBT 是由華南理工大學人機智能交互實驗室的Duorui Xie 等人于2015 年發(fā)布的人類美麗數(shù)據(jù)庫[3]。SCUT-FBT 包含共500 張亞洲女性人臉圖像,未排除其他外部因素影響,本數(shù)據(jù)集圖片都是沒有遮擋得正面面部肖像,背景比較簡單。數(shù)據(jù)集包含每張圖像的平均得分,每張人臉圖像經(jīng)過約75 位志愿者打分并統(tǒng)計平均值,圖1 是整個數(shù)據(jù)集的人臉美麗分數(shù)的大致分布??梢钥闯鋈四樏利惖姆謹?shù)大致服從正態(tài)分布,即極端美麗級別的人臉比較少,大部分人臉得分處于正常美麗級別。值得說明的是該數(shù)據(jù)集增加了美麗級別為4-5 分的樣本數(shù)量。
圖1 SCUT-FBT數(shù)據(jù)庫簡介
在進行實驗之前,首先需要對輸入圖像做一系列預處理操作。由于數(shù)據(jù)集上人臉圖像尺寸大小和姿勢都不一致,為了方便之后的模型學習,提高模型的泛化能力。通過對圖像進行旋轉、縮放等操作,將人臉圖像歸一化成為尺寸一致、人臉在圖像中所占比例大致一致的圖像[6]。對人臉圖像進行歸一化操作之前,首先需要進行圖像中人臉的檢測和人臉關鍵特征點定位,本文使用ASM 算法[7]進行人臉68 個特征點的定位。
先求得兩眼的連線中點和嘴角連線中點的直線,計算其與Y 軸的夾角,將人臉進行旋轉歸一化。然后將兩眼的連線中點和嘴角連線中點的距離固定為90,兩眼的連線中點與圖像頂端距離固定為67,嘴角連線中點與圖像底端距離固定為67,得到歸一化后的尺寸為224×224 大小的圖像。
圖2 圖像預處理過程
目前基本上所有基于深度學習的人臉美麗預測回歸模型回歸預測層都使用了同一種方法,即在全連接層之后直接連接一個神經(jīng)元,如圖3 所示,該網(wǎng)絡前面可連接卷積神經(jīng)網(wǎng)絡作為特征提取器,然后將特征輸入通過全連接層,將特征進行重組成更高層次的特征,最后連接在最后一個節(jié)點上。這樣的直觀感受就是每個節(jié)點的特征值都會對最終得分產生或正面或負面的影響,具體影響取決于該節(jié)點與預測分數(shù)節(jié)點連接的權值,如果權值為正,則說明該特征會給人臉美麗“加分”,同理權值為負,則說明該特征會給人臉美麗“減分”,其絕對值越大說明影響程度更大。這種網(wǎng)絡可解釋性較好,據(jù)分析可知它更傾向于找到每個人的美麗加分或減分點。本文將傳統(tǒng)的回歸預測層稱為傳統(tǒng)回歸層,圖3 為傳統(tǒng)回歸層示意圖。
圖3 傳統(tǒng)回歸層示意圖
這種連接方式也有一些缺陷,如由于缺乏約束它的分數(shù)預測值理論上可以超出1-5 這個范圍內,這種回歸連接方式收斂過程中Loss 值抖動比較大。本文提出一種新的回歸預測層的思路,該思路受分類網(wǎng)絡啟發(fā),讓網(wǎng)絡學習人臉屬于各美麗級別的概率,再通過求數(shù)學期望的方式得出最后得分,這也正是SCUT-FBP數(shù)據(jù)集標簽的生成方式,顯然通過學習人臉美麗級別的分布更符和問題的本質。本文將新提出的回歸預測層稱為概率分布回歸層,圖4 為概率分布回歸層示意圖。
圖4 概率分布回歸層示意圖
概率分布回歸層在傳統(tǒng)回歸層的最后一個全連接層之間加入了5 個隱藏節(jié)點,并使用了Softmax 函數(shù)進行了歸一化處理,這五個節(jié)點值可以表示輸入圖像在五種美麗級別上的概率分布,本文用P=[p1,p2,p3,p4,p5]表示,然后通過一個特殊全連接層連接到美麗預測分數(shù)節(jié)點,該特殊全連接層本文定義為映射層。映射層參數(shù)w=[1 ,2 ,3,4,5],b=0。在網(wǎng)絡訓練和測試過程中,需要將映射層的參數(shù)凍結,不進行參數(shù)的更新。概率分布回歸層的損失函數(shù)為求解期望美麗分值和真實美麗分值之間的均方誤差,其中美麗分數(shù)期望可以表示為P?w。下面本文通過對比實驗來比較概率分布回歸層和原始回歸層的性能表現(xiàn)。
為了比較兩種回歸層的預測性能,本文使用了圖5所示的相同的卷積神經(jīng)網(wǎng)絡結構,本文將使用傳統(tǒng)回歸層的網(wǎng)絡稱為LCNN-reg,將使用概率分布回歸層的網(wǎng)絡稱為LCNN-cr,并將兩種網(wǎng)絡結構在SCUT-FBP數(shù)據(jù)集上進行對比實驗。
本文對比實驗的實驗步驟主要分為以下幾部分:
(1)將SCUT-FBP 數(shù)據(jù)集圖片進行數(shù)據(jù)預處理,得到標準的圖片。
(2)載入深度學習網(wǎng)絡模型及數(shù)據(jù)樣本,將數(shù)據(jù)集進行5 折劃分,配置對應超參數(shù),開始訓練。
(3)在每一折訓練中,在訓練集上進行訓練,過程每輪迭代完之后對驗證集圖片進行預測得到模型預測序列,與真實標簽序列計算皮爾遜相關系數(shù)并記錄歷史相關系數(shù)的最大值。當達到預設的迭代次數(shù)或滿足EarlyStop 的條件時結束訓練,直到五次訓練完成。
本文對LCNN-reg 和LCNN-cr 配置相同的網(wǎng)絡超參數(shù),分別進行上述實驗過程。學習率為0.0001,優(yōu)化算法使用Adam 算法,本實驗使用了EarlyStop 策略,當驗證集Loss 在60 次迭代中沒有下降則停止訓練過程。實驗同時使用了學習率衰減策略,當驗證集Loss在20 次迭代中沒有下降則將當前學習率乘以0.5。
圖5 卷積神經(jīng)網(wǎng)絡結構示意圖
單折數(shù)據(jù)上兩種網(wǎng)絡的訓練情況如圖6 所示,左邊為LCNN-reg 網(wǎng)絡的Loss 曲線,右邊為LCNN-cr 網(wǎng)絡的Loss 曲線。
圖6 兩種網(wǎng)絡的Loss曲線圖
可以看出,在同樣的網(wǎng)絡超參數(shù)配置下,LCNN-cr大概在90 次迭代后收斂,而LCNN-reg 則需要大概130 次迭代收斂。相比于LCNN-reg 的Loss 下降曲線,很明顯可以看出LCNN-cr 的Loss 下降曲線非常平穩(wěn),這說明LCNN-cr 更容易收斂至最優(yōu)點附近,網(wǎng)絡結構比LCNN-reg 更穩(wěn)定。兩種網(wǎng)絡的五折交叉驗證平均系數(shù)如表1 所示。
表1 實驗結果
可以看出,LCNN-reg 的五折交叉驗證平均系數(shù)為0.8374,而LCNN-cr 的五折交叉驗證平均系數(shù)為0.8492。提升效果非常明顯。
根據(jù)實驗結果,本文總結出概率分布回歸層相比傳統(tǒng)回歸層的幾個優(yōu)勢:
(1)同樣的網(wǎng)絡參數(shù)配置下,相比于傳統(tǒng)回歸層,概率分布回歸層有更快的收斂速度和更高的精度。
(2)從概率分布回歸層的結構可以看出,最后輸出的預測分數(shù)的范圍限制在1-5 之間,相比沒有輸出約束的傳統(tǒng)回歸層,它的分數(shù)表示更加科學合理。
(3)概率分布回歸層綜合了分類和回歸的優(yōu)點,一次訓練得到兩種網(wǎng)絡的效果,不僅可以輸出人臉的最后得分,還可以輸出隱藏層的各個美麗級別的概率,可解釋性較強。
本文提出了一種針對深度學習人臉美麗回歸預測的新的概率分布回歸層結構,綜合實驗證明,本文提出的概率分布回歸層在深度學習人臉美麗回歸預測任務中相比傳統(tǒng)回歸預測層有幾個顯著的優(yōu)點,在深度學習回歸網(wǎng)絡中使用概率分布回歸層替換掉傳統(tǒng)回歸層可以提高模型性能和模型的可解釋性。