孫曉 潘汀 任福繼,2
?
基于ROI-KNN卷積神經網(wǎng)絡的面部表情識別
孫曉1潘汀1任福繼1,2
深度神經網(wǎng)絡已經被證明在圖像、語音、文本領域具有挖掘數(shù)據(jù)深層潛在的分布式表達特征的能力.通過在多個面部情感數(shù)據(jù)集上訓練深度卷積神經網(wǎng)絡和深度稀疏校正神經網(wǎng)絡兩種深度學習模型,對深度神經網(wǎng)絡在面部情感分類領域的應用作了對比評估.進而,引入了面部結構先驗知識,結合感興趣區(qū)域(Region of interest,ROI)和K最近鄰算法(K-nearest neighbors,KNN),提出一種快速、簡易的針對面部表情分類的深度學習訓練改進方案—ROI-KNN,該訓練方案降低了由于面部表情訓練數(shù)據(jù)過少而導致深度神經網(wǎng)絡模型泛化能力不佳的問題,提高了深度學習在面部表情分類中的魯棒性,同時,顯著地降低了測試錯誤率.
卷積神經網(wǎng)絡,面部情感識別,模型泛化,先驗知識
引用格式孫曉,潘汀,任福繼.基于ROI-KNN卷積神經網(wǎng)絡的面部表情識別.自動化學報,2016,42(6):883-891
面部情感識別是情感計算中情感識別的重要研究內容之一.面部五官的不同移動、變化程度及其組合,結合人腦中預存的先驗知識,構成生物情感認知系統(tǒng)中最敏捷、有效的識別部分,面部表情在情感交互中承載了大部分的信息.
對計算機而言,面部表情識別是一項艱巨的任務.計算機想要完成面部表情識別任務,需要大量的訓練數(shù)據(jù)(標注的面部表情數(shù)據(jù))來降低模型系統(tǒng)的不確定性.然而,目前尚未形成面部情感的自然大數(shù)據(jù)集(標注的自然條件下的面部表情數(shù)據(jù)集),這就意味著,現(xiàn)有的面部表情識別模型系統(tǒng)中存在著大量不確定性.盡管在一個數(shù)據(jù)集的測試集上表現(xiàn)良好,但當實際應用時,模型對隨機的新數(shù)據(jù)泛化能力就會變得很差,魯棒性很低.
面部情感識別系統(tǒng)通常包括三部分:面部數(shù)據(jù)采集(標注)、特征提取、情感識別等.面部數(shù)據(jù)采集包含人臉檢測、人臉關鍵點標記等兩大手段.在獲得數(shù)據(jù)之后,進而對數(shù)據(jù)進行特征提取.可以使用主成分分析(Principal component analysis,PCA)等簡易的線性變換方法,也可以使用常見的人工特征方法,如尺度不變特征變換(Scale-invariant feature transform,SIFT)、Haar、局部二值模式(Local bi-nary pattern,LBP)等.最后,將提取到的特征數(shù)據(jù)輸入到判別分類器當中,得到識別結果.
隨著深度神經網(wǎng)絡的提出,圖像識別領域的“先提取特征,后模式識別”這一框架被打破. Krizhevsky等[1]在ILSVRC-2012圖像識別競賽中,利用深度卷積神經網(wǎng)絡的自適應特征提取能力,使得模型的測試成績遠遠超過了SIFT等具有旋轉縮放不變性的人工特征.最近,在面部情感識別任務上,Lopes等[2]嘗試引入了卷積神經網(wǎng)絡模型,將特征提取和判別分類兩個步驟統(tǒng)一結合,在Extended CohnKanade(CK+)[3]靜態(tài)情感數(shù)據(jù)集上取得了很好的測試結果.然而,目前大多數(shù)針對面部表情的深度學習模型是在標準數(shù)據(jù)集上訓練并獲得較好的結果,在實際應用中卻出現(xiàn)精度急劇下降,無法重現(xiàn)實驗室模型的準確率,這部分原因在于基于CK+等標準數(shù)據(jù)集上訓練的模型有兩個比較明顯的缺陷:
1)其數(shù)據(jù)都是攝像機通過正規(guī)的角度采集,這與實際系統(tǒng)獲得的Wild數(shù)據(jù)有很大的差別,會導致模型的泛化能力很差.如圖1所示.在實驗部分,通過設計相應實驗驗證了這點.
圖1 CK+與Wild數(shù)據(jù)集樣例Fig.1 Samples from CK+and Wild
2)CK+數(shù)據(jù)集有593幅面部表情圖像,包括憤怒、厭惡、恐懼、高興、悲傷、驚訝六種基本情緒,這意味著平均每種表情有不到100個訓練樣本.
即便引入非表情峰值的圖像進行擴展,或采用Lopes等[2]的對單張圖片旋轉采樣生成30張的擴展訓練樣本方法,最后得到的大部分圖像攜帶的信息都有重復(接近于樣本簡單復制),與同數(shù)量的不同樣本在信息量上還是有不少差距.而目前小型圖像數(shù)據(jù)集的原始數(shù)據(jù)量基準都是60k(不包括采樣生成),如MNIST、Cifar10等數(shù)據(jù)集.相對這些數(shù)據(jù)集,在CK+上的訓練更容易達到過擬合.
鑒于以上兩點問題分析,目前基于CK+數(shù)據(jù)集訓練并得到的高準確率(95%)測試結果并不意味著當前模型系統(tǒng)已經勝任真實的面部情感識別任務,或超越人類的識別結果.本文第1節(jié)將介紹深度神經網(wǎng)絡在模型結構上的一些新變化.第2節(jié)將介紹兩種基本的深度神經網(wǎng)絡結構以及針對小數(shù)據(jù)集的先驗改良方法.第3節(jié)介紹混合CK+與從互聯(lián)網(wǎng)上收集Wild面部表情數(shù)據(jù)形成的新數(shù)據(jù)集,包含實驗測試結果與分析.第4節(jié)是結論、歸納.本文中使用的基于Theano深度學習框架的相關代碼和訓練參數(shù)可從Github1獲取.
1.1神經網(wǎng)絡
神經網(wǎng)絡的出發(fā)點是 “參數(shù)”擬合 “函數(shù)”,Bishop[4]從貝葉斯概率體系角度證明了擬合學習算法的判別根據(jù):
式(1)表明了預測數(shù)據(jù)t,在訓練數(shù)據(jù)t′、x,以及訓練數(shù)據(jù)高斯方差β、參數(shù)高斯方差α的概率分布同樣是一個高斯分布.式(2)表明了該高斯分布的均值為一個等價核函數(shù)(即Smooth矩陣)與訓練目標的乘積.該核函數(shù)衡量著預測輸入x與訓練輸入xn的距離.距離越近,數(shù)值越大,預測目標t就越接近訓練目標tn,反之亦然.
Bengio[5]指出,參數(shù)模型如支持向量機(Support vector machine,SVM)、淺層神經網(wǎng)絡,非參數(shù)模型如K最近鄰算法(K-nearest neighbors,KNN),最基本的特性都是基于訓練樣本與預測樣本輸入的空間距離而做出預測結果的,稱之為平滑先驗(Smoothness-prior).這個先驗在目標函數(shù)隨輸入空間變化敏感時,只能采集到局部特征(Local representation),會得到很差的泛化結果,而圖像數(shù)據(jù)的輸入空間恰好如此.因而,不可以直接在圖像任務中使用這些分類器,而需要先提取特征.從流形學習的觀點看,SIFT、Haar、LBP等人工特征或是PCA這類的簡單線性變換特征將輸入空間的流形面從高維降至低維,如圖2,由于流形面是局部光滑的,從而使得具有平滑判別能力的分類器在流形面區(qū)域變換后,仍然可以很好地分類.
1.2深度卷積神經網(wǎng)絡
LeCun等[6]在1990年提出的深度卷積神經網(wǎng)絡,如圖3.以Fukushima[7]的感知機結構為基礎,借助Rumelhart等[8]的反向傳播訓練算法,首先在文字圖像識別領域取得巨大成功[9].
卷積神經網(wǎng)絡與一般的全連接式神經網(wǎng)絡相比較,除了在模型中注入Smooth這樣的先驗知識之外,還注入一些針對圖像數(shù)據(jù)特點的先驗知識.
圖2 輸入空間的流形面Fig.2 Manifold side of input space
圖3 卷積神經網(wǎng)絡的局部塊狀連接與基本結構Fig.3 Local connection and structure of convolutional neural network(CNN)
1.2.1局部性
圖像中包含的隱含信息在輸入空間內具有局部平滑性,因此卷積神經網(wǎng)絡針對像素塊建立塊狀神經元的局部連接(Locally-connection).傳統(tǒng)基于像素點的連接稱為全連接(Fully-connection)或稠密連接(Dense-connection).塊狀神經元顯著減少了每層神經元參數(shù)個數(shù),這使得誤差從輸出層開始,以較小的廣度發(fā)散[5],同時可以增加神經網(wǎng)絡深度,來保持結構中深度和廣度之間的平衡.Szegedy等[10]利用此特性構建出22層的GoogLeNet,贏得了ILSVRC-2014圖像識別競賽冠軍.
1.2.2權值共享/局部感受野
當二維神經元塊維度小于二維數(shù)據(jù)塊(特征圖)時,意味著神經元塊參數(shù)會在數(shù)據(jù)塊的不同區(qū)域重復加權計算,這構成權值共享,數(shù)學形式即二維離散卷積.權值共享的做法借鑒了視覺神經感受野的概念,F(xiàn)ukushima[7]認為局部感受野使得模型獲得圖像中的平移不變性,增強泛化能力.
1.2.3降采樣
降采樣Pooling層是一個非參數(shù)層,作用是將一定鄰域內的像素塊壓縮成一個像素點,使圖像縮放.它通常緊接著卷積層,根據(jù)縮放算法的不同,分為銳化(Max pooling)、平滑(Avg pooling).對輸入圖像數(shù)據(jù)塊的逐層縮放,讓各層獲得不同比例的局部感受野,使得模型獲得圖像中的縮放不變性,增強泛化能力.
1.3深度稀疏校正神經網(wǎng)絡
Glorot等[11]提出深度稀疏校正神經網(wǎng)絡(Deep sparse rectifier neural networks)從結構上仍然屬于全連接神經網(wǎng)絡,唯一變化是將Sigmoid型(logistic/tanh)激活函數(shù)全部替換成了ReLU.
1.3.1深度結構的有效性
Barron[12]證明了擁有一個隱層、N 個神經元的全連接神經網(wǎng)絡可以將任何函數(shù)擬合至1/N精度.這意味著,如果需要增加擬合精度,只要廣度,而無需考慮深度.而Bengio[5]認為如果一個函數(shù)可以由多個函數(shù)組合得到,在數(shù)據(jù)有限的情況下,使用過淺的深度會影響擬合的效果,引起訓練周期過長、泛化能力很差等問題.Hubel等[13]在實驗中發(fā)現(xiàn)貓的視覺皮層由多層抽象神經結構完成,V1層提取圖像邊緣特征,V2層開始逐層組合出部分形狀,直至最后組合抽象出完整的視覺目標.這從生理學角度證明了圖像識別函數(shù)可以由多個函數(shù)組合而成,增加神經網(wǎng)絡的深度要比廣度有效得多.
1.3.2ReLU激活函數(shù)
Dayan等[14]通過擬合數(shù)據(jù),發(fā)現(xiàn)生物神經元輸入電信號與激活頻率之間的函數(shù)圖像具有相對的不對稱性與對稱性,如圖4所示,不對稱區(qū)域出現(xiàn)了一段很突兀的“0”,這與主流的Sigmoid函數(shù)有很大區(qū)別,而與ReLU函數(shù)比較相似.Attwell等[15]通過實驗觀察到,腦神經元在一定時刻,平均只有1%~4%被激活,這段“0”起到了很強的校正作用,讓大部分神經元處于完全不激活狀態(tài),這是生物神經網(wǎng)絡具有數(shù)以千億計的神經元,而不會像模型神經網(wǎng)絡一樣引發(fā)“維數(shù)災難”的原因.ReLU激活函數(shù)定義為:
Softplus函數(shù)是它的平滑版本:
Softplus與ReLU都是非飽和函數(shù),它們輸出的上下界不被限制在[—1,1]之內,這大大緩解了深度結構帶來的梯度發(fā)散(Gradient vanish)問題,促進梯度在反向傳播中路徑中的流動,在訓練龐大神經網(wǎng)絡時,有數(shù)倍的提速效果[1].另外,校正“0”為模型注入了大量稀疏性,與L1 Regularization效果相同.目前已知,稀疏性有助于推動線性不可分轉化為線性可分,縮小做逐層貪心預訓練與不做之間在泛化效果上的差異[11].
圖4 不同激活函數(shù)的函數(shù)圖像(圖片源自Glorot[11])Fig.4 Graphs for different activation functions from Glorot[11]
1.4Dropout
Hinton等[16]提出的Dropout層在大量實驗中已經被證實可以有效改善任意神經網(wǎng)絡的過擬合問題.Dropout分為兩個階段:
1)訓練階段:此時經過該層的所有輸入點x,都會以一定概率p被置為0,即該神經元被剔除.定義式:
這是一個隨機過程,意味著每次正向傳播,網(wǎng)絡的有效結構都會產生變化.
2)測試階段:此時應該激活所有神經元,變成完整結構.激活全部神經元等效于多個隨機神經網(wǎng)絡的疊加求和,需要對輸入x做一個平均處理,不然會出現(xiàn)數(shù)值問題.定義式:
Dropout能有效改善過擬合可以從兩個角度理解.首先,Dropout引入了隨機化的稀疏性,讓龐大的神經網(wǎng)絡模型在同一時刻只工作一部分,這與Attwell等[15]在生物神經方面的工作不謀而合.其次,由于每次網(wǎng)絡的結構都在變化,參數(shù)會不停受到懲罰,被迫向一個穩(wěn)定的方向調整,而不是簡單地做擬合.這與Darwin[17]提出的“自然競爭選擇”概念切合,拉近了模型神經網(wǎng)絡與生物神經網(wǎng)絡的距離.
1.5初始化
1.5.1權值初始化傳統(tǒng)的神經網(wǎng)絡權值初始化為:
Xavier等[18]提出了更適合Sigmoid函數(shù)的方案:
其中,F(xiàn)in為輸入維度,F(xiàn)out為輸出維度.Bishop[4]指出,在N→ ∞ 時,均勻分布會演變?yōu)楦咚狗植?,更一般地,任意連續(xù)的隨機變量都可以假定符合高斯分布.而貝葉斯擬合模型引入的關于W 的共軛先驗分布也是假定P(W)服從高斯分布.這意味著,使用均勻分布來初始化W 不是一個很好的方案.Krizhevsky等[1]、Hinton等[16]在ILSVRC-2012圖像識別競賽的冠軍模型中,對W 的初始化使用了零均值、常數(shù)方差的高斯分布而不是傳統(tǒng)的均勻分布,從實驗角度證明了高斯分布初始化的合理性.
1.5.2偏置初始化
Krizhevsky等[1]、Hinton等[16]將神經網(wǎng)絡隱層(非輸出層)的偏置初始化為1而不是0,讓訓練在初期階段得到很大加速.目前尚無數(shù)學解釋,只是經驗規(guī)則.
2.1深度卷積神經網(wǎng)絡
如圖5,針對輸入大小為32×32的灰度圖(彩色維度為1),構建了3個卷積與Max pooling層、1個全連接層、1個Softmax層.根據(jù)各層神經元個數(shù)的不同,又分為CNN-64、CNN-96、CNN-128.
CNN-64:[32,32,64,64]
CNN-96:[48,48,96,200]
CNN-128:[64,64,128,300]
圖5 深度卷積神經網(wǎng)絡的結構(?表示不確定超參數(shù),有多種優(yōu)選方案.)Fig.5 Structure of DNN(?represents uncertain parameters with many candidate solutions.)
為了減輕過擬合問題,全連接層后連接著一個p=0.5的Dropout層,而不是使用L2 Regularization.
除Softmax層之外,其余各層激活函數(shù)均為ReLU,卷積層輸出激活后,再輸入到Max pooling 層.權值W 的初始化采用Krizhevsky等[1]的零均值、常數(shù)標準差(Standard deviation,STD)方案.各層STD分別為:
[0.0001,0.001,0.001,0.01,0.1]
偏置的初始化采用Krizhevsky等[1]的方案.
2.2深度稀疏校正神經網(wǎng)絡
如圖6,針對輸入大小為32×32的灰度圖(彩色維度為1),構建了3個全連接層、1個Softmax 層.
圖6 深度稀疏校正網(wǎng)絡的結構Fig.6 Structure of deep sparse rectifier net
根據(jù)各層神經元個數(shù)的不同,又分為DNN-1000,DNN-2000.
DNN-1000:[1000,1000,1000]
DNN-2000:[2000,2000,2000]
為了減輕過擬合問題,三個全連接層后各連接著三個p=0.2的Dropout層.除Softmax層之外,其余各層激活函數(shù)均為ReLU.權值W的初始化各層STD分別為:[0.1,0.1,0.1,0.1].
在測試中發(fā)現(xiàn),隱層偏置全部設為1對于深度稀疏校正神經網(wǎng)絡效果并不好,所以設為0.
2.3數(shù)據(jù)預處理、訓練參數(shù)控制
本文的數(shù)據(jù)處理中只做了均值標準化,取訓練數(shù)據(jù)32×32的各個維度計算1024個均值并序列化保存.訓練、測試時,減去均值.特別地,DNN在均值標準化后,對數(shù)值縮小128.0倍.
訓練過程中使用交叉驗證與早終止 (Early stopping).兩個模型學習率lr為常數(shù)0.01,動量momentum為常數(shù)0.9.交叉驗證中發(fā)現(xiàn)驗證集錯誤率不再下降或上升時,即判定為學習率lr過大,停止并降低一個數(shù)量級,再次訓練,重復直至學習率在0.0001階段結束,經歷3個數(shù)量級的訓練.
2.4ROI-KNN
Xavier等[18-19]在利用深度卷積神經網(wǎng)絡訓練人臉特征時,采取對單張圖片不同尺度區(qū)域切割的方法,來擴大數(shù)據(jù)集.本文借鑒了此方法,并針對面部表情識別做了改進,根據(jù)人臉的面部結構,設置了9個不同的感興趣區(qū)域(Region of interest,ROI),如圖7,主動引導神經網(wǎng)絡關注與表情相關的面部區(qū)域.
圖7 9個ROI區(qū)域(切割、翻轉、遮蓋、中心聚焦)Fig.7 Nine ROI regions(cut,flip,cover,center focus)
設置ROI區(qū)域使用的都是圖像處理中的基本手段,包含切割、翻轉、遮蓋、中心聚焦.為了確保不同面部的ROI區(qū)域不會有太大偏差,需預先進行人臉檢測提取人臉,使面部填充圖像的大部分區(qū)域,讓面部中軸線近似與圖像中軸線重合.
切割方案重點關注眼、鼻、嘴在不同表情中的區(qū)別,為了盡量讓處理手段簡單,并沒有預先檢測面部關鍵點來切割.翻轉方案考慮了拍攝方式的不同.遮蓋方案是對切割方案的聯(lián)合.中心聚焦方案去除了一定噪聲(如頭發(fā)).
ROI方法讓訓練數(shù)據(jù)擴大至9倍,這種擴大是否有效,取決于這些迥異ROI區(qū)域之間是否存在著某些聯(lián)系,有助于增強預測目標的信度.這里的增強更強調ROI區(qū)域對測試原始圖像的增強、不同ROI區(qū)域之間的增強(如左眼對上半臉),而不僅僅是相同ROI區(qū)域間的增強(如左眼對左眼).Bengio[5]指出了這兩者的區(qū)別:前者的成功源于模型挖掘出了分布式表達特征(Distributed representation),分布式表達特征讓模型對未觀測的數(shù)據(jù)有著很好的泛化和歸納.而后者的成功則受Smooth-prior作用下的局部表達特征(Local representation)影響較大,與訓練數(shù)據(jù)、測試數(shù)據(jù)在輸入空間的距離有很大關系.在下一節(jié)的實驗會證明ROI區(qū)域確實對判別原始圖像有一定增強.
ROI數(shù)據(jù)倍增的效果是針對訓練階段的,而在測試階段最直接的方法是對測試圖像直接判別.但因為這會浪費模型中記憶的關于ROI區(qū)域的分布式表達特征.盡管這些特征在直接做判別時具有推動作用,但未起到更大作用.
眾多機器學習模型中,KNN具有出色且簡單的歸并能力,它通過建立貪心投票機制,讓多個判別目標聯(lián)合,縮小最終的判別范圍,強化最終的判別信度.鑒于此,提出ROI-KNN方法,在測試時,對9 個ROI區(qū)域的判別結果投票,取票數(shù)最多的判別結果作為最終結果,在線歸并原始結果.
ROI-KNN的最大缺陷是對原始模型訓練的Distributed representation有很高的要求,因為這些ROI的輸入信息較完整圖片要小很多,直觀上來看,就是放大關注細節(jié).訓練ROI與測試ROI之間細微的差別,被放大之后,模型中的Local representation會對判別產生很大干擾.在實驗中最直接的體現(xiàn)就是ROI區(qū)域的測試錯誤率要大于原始圖像錯誤率,若基于這種情況下投票,那么最后的投票結果反而比不投票要差.下一節(jié)將設計相應的實驗驗證.
2.5旋轉生成采樣
Lopes等[2]擴大數(shù)據(jù)集的方法是將原始圖像輕微旋轉一定角度,生成大量變化的訓練樣本.這種做法看起來似乎是沒有問題的,因為深度卷積神經網(wǎng)絡本身具有挖掘圖像縮放不變性、平移不變性的能力,唯獨缺少旋轉不變性.
在這里必須考慮一個問題:強行注入旋轉變換的樣本能否讓模型獲得旋轉不變性?本文對此的答案是否定的.卷積神經網(wǎng)絡得到的平移、縮放不變性是模型不斷提煉、泛化的成果,而直接注入的旋轉樣本可能只會讓模型出現(xiàn)過擬合,因為模型本身并沒有提煉旋轉不變性的能力,而本文提出的ROI方法是基于平移、縮放不變性的,沒有這種潛在問題.如果測試數(shù)據(jù)與訓練數(shù)據(jù)較為接近,那么過擬合問題就不會暴露,反之亦然.本文認為Lopes等[2]注入旋轉樣本后的模型有過擬合的可能,因為他們的測試數(shù)據(jù)與訓練數(shù)據(jù)很接近,注入旋轉樣本得到的改善很有可能是過擬合得到的.在下一節(jié)的實驗中會使用旋轉樣本,對Wild數(shù)據(jù)進行測試來驗證.
本節(jié)使用第2.1節(jié)和第2.2節(jié)中構建的兩個深度神經網(wǎng)絡模型做對比評估,評估環(huán)節(jié)的目標包括:ROI輔助評估、旋轉生成樣本評估和ROI-KNN輔助評估.最后將評估深度學習模型與非深度學習模型.
3.1數(shù)據(jù)集
為了解決CK+數(shù)據(jù)集過于正規(guī)的問題.從互聯(lián)網(wǎng)各大搜索引擎中收集了4類,每類500張Wild數(shù)據(jù),分別是高興、悲傷、驚訝、憤怒.此外,由于CK+數(shù)據(jù)集的原始類別標簽不含有“中性”表情,從合肥工業(yè)大學教務管理系統(tǒng)中抽取了1200張學生面部照片,這些照片除了表情呈中性之外,與CK+一樣,都是很正規(guī)的攝像機取景,方便在測試集中與Wild數(shù)據(jù)作對比評估.訓練集由CK+的高興、悲傷、驚訝、憤怒各700張混合互聯(lián)網(wǎng)下載的圖片各200張以及“中性”的900張構成.共計5類,每類900張圖片.測試集由互聯(lián)網(wǎng)下載的圖片各300張混合“中性”的300張構成.共計5類,每類300張圖片.
3.2ROI輔助評估
ROI輔助評估是本文關注的重點,它反映著模型內部Distributed representation的訓練情況.使用的是第3.1節(jié)給出的5類共4500張面部訓練數(shù)據(jù)、5類共1500張測試數(shù)據(jù).訓練4500張數(shù)據(jù)經過ROI處理后,為4500×9=40500張,測試數(shù)據(jù)不做變化.實驗結果如表1,基準為無ROI強化,“?”表示ROI強化.從整體實驗結果來看,ROI的引入對兩套模型的各個規(guī)模都有4%~5%的精度提升,符合預期.深度卷積神經網(wǎng)絡隨著規(guī)模的提升,效果也在提升,達到最好的整體錯誤率25.8%.逐一對各個表情分析,可以發(fā)現(xiàn)一些問題.首先,就是中性測試集相對于其他測試集,測試成績非常高.這是在第3.1節(jié)數(shù)據(jù)有意如此設置:測試集里,只有中性集沒有使用Wild數(shù)據(jù),而選擇了與訓練集較為相似的正規(guī)數(shù)據(jù),這個成績符合預期,同時證明了Lopes等[2]基于CK+的高準確率測試結果并不一定意味著模型擁有良好的泛化能力.其次,悲傷測試集表現(xiàn)最差,這與Lopes等[2]的結果一致,說明面部悲傷情感比較難被準確識別,而高興、驚訝、憤怒的測試結果則比較接近.
表1 ROI輔助評估的測試集錯誤率(%)Table 1 Test set error rate of ROI auxiliary(%)
3.3旋轉生成樣本評估
在第2.5節(jié)推測旋轉采樣生成的樣本可能會導致神經網(wǎng)絡模型產生過擬合,為了驗證該假設的可能性,設計了兩份新的訓練數(shù)據(jù):
1)數(shù)據(jù)集I.針對CK+與高考錄取照片兩類正規(guī)數(shù)據(jù),以圖像中心為原點,進行旋轉采樣.旋轉方法同文獻[2],令旋轉角α服從零均值高斯分布:α~N(0,3o)對源訓練集5類,每類700張執(zhí)行高斯隨機數(shù)11次,加上第3.1節(jié)4500張訓練圖像,共有5×700×11+4500=43000張,構成新訓練集,測試集不變化.
2)數(shù)據(jù)集II.將數(shù)據(jù)集I中的43000張采樣數(shù)據(jù),與第3.2節(jié)中的40500張數(shù)據(jù)混合,共計83500張訓練數(shù)據(jù),構成新訓練集,測試集不變化.以第3.2節(jié)中的無ROI測試結果作為對比基準,實驗結果如表2,“*”表示使用數(shù)據(jù)集I,“+”表示使用數(shù)據(jù)集II+ROI,“∧”表示使用數(shù)據(jù)集II結合ROI-KNN.
表2 旋轉生成樣本評估的測試集錯誤率(%)Table 2 Test set error rate of rotating generated sample(%)
從整體實驗結果來看,旋轉生成樣本的引入暴露了不少問題.首先,對于數(shù)據(jù)集I,CNN-128、DNN-1000用43000張原始與生成的混合大數(shù)據(jù),得出了比4500的小數(shù)據(jù)還差的結果,說明38500張旋轉生成樣本不僅沒有促進歸納和泛化,反而對Wild數(shù)據(jù)的直接判別產生了干擾,這與Lopes等[2]的結果截然相反,本文認為是基于CK+的測試集掩蓋了過擬合問題.其次,對于數(shù)據(jù)集II,ROI的引入幾乎抵消了旋轉樣本的影響,但是此時ROI-KNN的效果不佳,在DNN-1000中尤為明顯. 第3.4節(jié)中的實驗結果表明,ROI-KNN對模型中的Distributed representation有很高的要求,ROIKNN的效果不佳,從另一個角度表明了引入旋轉生成樣本可能對Distributed representation產生了影響.基于以上兩個數(shù)據(jù)集的測試,可以判斷在面部情感分析任務上,引入旋轉生成樣本來擴大數(shù)據(jù)集并不是一個可取的方案.它并不能讓具有縮放、平移不變性的深度卷積神經網(wǎng)絡獲得旋轉不變性,反而因為旋轉輸入空間的引入,對縮放、平移不變性的效果產生干擾,構成由于模型挖掘數(shù)據(jù)能力不足,導致的不可避免型過擬合,這種過擬合不是由于參數(shù)空間過大引起的,沒有方法通過擴大數(shù)據(jù)集避免.當測試數(shù)據(jù)與訓練數(shù)據(jù)有較大偏差和變化時,便會顯現(xiàn)出來,若模型訓練按照這種方式訓練,則是無法在實際中應用的.
3.4ROI-KNN輔助評估
ROI-KNN輔助評估將考察KNN的貪心投票機制對結果的影響,按照第2.4節(jié)中的推測,它對模型內部的Distributed representation有很高的要求.實驗結果如表3,基準為ROI強化,“*”表示ROI-KNN強化.
表3 ROI-KNN輔助評估的測試集錯誤率(%)Table 3 Test set error rate with ROI-KNN(%)
從整體實驗結果來看,KNN的投票機制讓深度卷積神經網(wǎng)絡各個規(guī)模又得到了4%~5%的精度提升,但在深度稀疏校正神經網(wǎng)絡中,不僅沒有提升,反而讓整體結果略微變差.逐一對各個表情分析,在深度卷積神經網(wǎng)絡中,除了悲傷集外,其他測試集均有一定提升.在深度稀疏校正神經網(wǎng)絡中,中性、高興集有一定提升,悲傷集變差幅度最大,其他測試集幾乎無變化.
此實驗結果表明了KNN投票機制對模型的泛化能力(或Distributed representation)有很高的要求,直接體現(xiàn)在泛化最差的悲傷集上,各個模型表現(xiàn)均不好.另一方面,卷積神經網(wǎng)絡整體又比深度稀疏校正神經網(wǎng)絡好得多,可能是得益于內部針對圖像處理的先驗知識.
3.5與非深度學習模型的對比
為了比較所提出的ROI-KNN方法與SVM等非深度學習方法的性能,設計了另一組實驗,在公開JAFFE數(shù)據(jù)集上,與SVM、PCA等非深度學習方法進行了比較,其中本文的模型選取了CNN-128結合ROI-KNN.從表4中可以看出,相對SVM等淺層機器學習模型,本文提出的深度學習模型在傳統(tǒng)的數(shù)據(jù)集上有非常優(yōu)異的表現(xiàn).
表4 在JAFFE上的模型對比Table 4 Comparisons on JAFFE
深度神經網(wǎng)絡在面部情感分析任務上具有很大的探索空間.首先,在面部情感數(shù)據(jù)尚未形成大數(shù)據(jù)集的當下,如何利用少量的原始數(shù)據(jù)有效地擴大數(shù)據(jù)集是一個難題.本文工作證明了在Wild數(shù)據(jù)測試環(huán)境下,基于ROI的數(shù)據(jù)集擴大策略要比旋轉生成擴大策略有效得多;其次,現(xiàn)有的神經網(wǎng)絡結構在面部表情識別任務上相對人臉識別等其他任務還有很大的上升空間,如:在面部表情識別中,深度卷積神經網(wǎng)絡如何獲得旋轉不變性.如果模型結構沒有泛化數(shù)據(jù)中某些特性的能力,同樣會造成過擬合,但不等同于因為參數(shù)空間過大而造成的過擬合.后者可以直接通過在參數(shù)上施加懲罰擬合敏感性的Regularization解決,如L2 Regularization或Dropout.而前者則需要一些先驗知識來引導參數(shù)朝泛化方向搜索,如卷積神經網(wǎng)絡的局部連接、平移縮放不變性,或是深度學習的中心思想“參數(shù)逐層貪心預訓練初始化”,甚至是循環(huán)遞歸神經網(wǎng)絡(Recurrent neural network,RNN)中的時序信息. Distributed representation可能是連接生物神經網(wǎng)絡與模型神經網(wǎng)絡之間的橋梁,因為人類的大腦可能沒有使用像SIFT這樣的特征,而更可能是一種感知整體與整體、部分與部分、整體與部分之間的聯(lián)系、歸納、泛化的特征.使用深度神經網(wǎng)絡,雖然可以不使用SIFT、Haar、LBP等人工特征,使用更接近自然特征,但在處理其內部不可見、不可控、易受影響的Distributed representation上,則需要引入更多的先驗知識與處理技巧.本文提出的ROI-KNN方法,以簡易的方式,間接地利用并觀測了模型Distributed representation的情況,對于深度卷積神經網(wǎng)絡這樣的模型,有很好的提升效果.此外,深度稀疏校正神經網(wǎng)絡并非無用武之地,其計算速度和不俗的精度表現(xiàn),仍是硬件條件有限情況的首選.
致謝
本文的實驗部分代碼實現(xiàn)是基于Theano[25]開發(fā)的,在此對其所有的開發(fā)和維護者表示感謝.
References
1 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Advances in Neural Information Processing Systems 25.Lake Tahoe,Nevada,USA:Curran Associates,Inc.,2012.1097-1105
2 Lopes A T,de Aguiar E,Oliveira-Santos T.A facial expression recognition system using convolutional networks.In:Proceedings of the 28th SIBGRAPI Conference on Graphics,Patterns and Images.Salvador:IEEE,2015.273-280
3 Lucey P,Cohn J F,Kanade T,Saragih J,Ambadar Z,Matthews I.The extended Cohn-Kanade dataset(CK+):a complete dataset for action unit and emotion-specified expression.In:Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).San Francisco,CA:IEEE,2010. 94-101
4 Bishop C M.Pattern Recognition and Machine Learning. New York:Springer,2007.
5 Bengio Y.Learning deep architectures for AI.Foundations and Trends in Machine Learning.Hanover,MA,USA:Now Publishers Inc.,2009.1-127
6 LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recognition with a back-propagation network.In:Proceedings of Advances in Neural Information Processing Systems 2.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404
7 Fukushima K.Neocognitron:a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position.Biological Cybernetics,1980,36(4):193-202
8 Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors.Nature,1986,323(6088):533-536
9 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-2324
10 Szegedy C,Liu W,Jia Y Q,Sermanet P,Reed S,Anguelov D,Erhan D,Vanhoucke V,Rabinovich A.Going deeper with convolutions.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA:IEEE,2015.1-9
11 Glorot X,Bordes A,Bengio Y.Deep sparse rectifier neural networks.In:Proceedings of the 14th International Conference on Artificial Intelligence and Statistics(AISTATS). Fort Lauderdale,F(xiàn)L,USA,2011,15:315-323
12 Barron A R.Universal approximation bounds for superpositions of a sigmoidal function.IEEE Transactions on Information Theory,1993,39(3):930-945
13 Hubel D H,Wiesel T N,LeVay S.Visual-field representation in layer IV C of monkey striate cortex.In:Proceedings of the 4th Annual Meeting,Society for Neuroscience.St.Louis,US,1974.264
14 Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press,2001.
15 Attwell D,Laughlin S B.An energy budget for signaling in the grey matter of the brain.Journal of Cerebral Blood Flow and Metabolism,2001,21(10):1133-1145
16 Hinton G E,Srivastava N,Krizhevsky A,Sutskever I,Salakhutdinov R R.Improving neural networks by preventing co-adaptation of feature detectors.arXiv:1207.0580,2012.
17 Darwin C.On the Origin of Species.London:John Murray,Albemarle Street,1859.
18 Xavier G,Yoshua B.Understanding the difficulty of training deep feedforward neural networks.In:Proceedings of the 13th International Conference on Artificial Intelligence and Statistics(AISTATS 2010).Chia Laguna Resort,Sardinia,Italy,2010,9:249-256
19 Sun Y,Wang X,Tang X.Deep learning face representation from predicting 10000 classes.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,OH:IEEE,2014.1891-1898
20 Kumbhar M,Jadhav A,Patil M.Facial expression recognition based on image feature.International Journal of Computer and Communication Engineering,2012,1(2):117-119
21 Lekshmi V P,Sasikumar M.Analysis of facial expression using Gabor and SVM.International Journal of Recent Trends in Engineering,2009,1(2):47-50
22 Zhao L H,Zhuang G B,Xu X H.Facial expression recognition based on PCA and NMF.In:Proceedings of the 7th World Congress on Intelligent Control and Automation. Chongqing,China:IEEE,2008.6826-6829
23 Zhi R C,Ruan Q Q.Facial expression recognition based on two-dimensional discriminant locality preserving projections.Neurocomputing,2008,71(7-9):1730-1734
24 Lee C C,Huang S S,Shih C Y.Facial affect recognition using regularized discriminant analysis-based algorithms. EURASIP Journal on Advances in Signal Processing,2010,article ID 596842(doi:10.1155/2010/596842)
25 Bastien F,Lamblin P,Pascanu R,Bergstra J,Goodfellow I J,Bergeron A,Bouchard N,Warde-Farley D,Bengio Y. Theano:new features and speed improvements.In:Conference on Neural Information Processing Systems(NIPS)Workshop on Deep Learning and Unsuper Vised Feature Learning.Lake Tahoe,US,2012.
孫 曉合肥工業(yè)大學計算機與信息學院情感計算研究所副教授.主要研究方向為自然語言處理與情感計算,機器學習與人機交互.本文通信作者.
E-mail:sunx@hfut.edu.cn
(SUN XiaoAssociate professor at the Institute of Affective Computing,Hefei University of Technology.His research interest covers natural language processing,affective computing,machine learning and human-machine interaction.Corresponding author of this paper.)
潘 汀合肥工業(yè)大學計算機與信息學院本科生.主要研究方向為深度學習,貝葉斯學習理論及其在計算機視覺與自然語言處理方面的應用.
E-mail:neopenx@mail.hfut.edu.cn
(PAN TingBachelor student at the School of Computer Science and Information,Hefei University of Technology. His research interest covers the theory of deep learning and Bayesian learning,and corresponding applications in computer vision and natural language processing.)
任福繼合肥工業(yè)大學計算機與信息學院情感計算研究所教授,德島大學教授.主要研究方向為人工智能,情感計算,自然語言處理,機器學習與人機交互.
E-mail:ren@is.tokushima-u.ac.jp
(REN Fu-JiProfessor at the Institute of Affective Computing,Hefei University of Technology and Tokushima University.His research interest coves artificial intelligent,affective computing,natural language processing,machine learning,and human-machine interaction.)
Facial Expression Recognition Using ROI-KNN Deep Convolutional Neural Networks
SUN Xiao1PAN Ting1REN Fu-Ji1,2
Deep neural networks have been proved to be able to mine distributed representation of data including image,speech and text.By building two models of deep convolutional neural networks and deep sparse rectifier neural networks on facial expression dataset,we make contrastive evaluations in facial expression recognition system with deep neural networks.Additionally,combining region of interest(ROI)and K-nearest neighbors(KNN),we propose a fast and simple improved method called“ROI-KNN”for facial expression classification,which relieves the poor generalization of deep neural networks due to lacking of data and decreases the testing error rate apparently and generally.The proposed method also improves the robustness of deep learning in facial expression classification.
Convolution neural networks,facial expression recognition,model generalization,prior knowledge
10.16383/j.aas.2016.c150638
Sun Xiao,Pan Ting,Ren Fu-Ji.Facial expression recognition using ROI-KNN deep convolutional neural networks.Acta Automatica Sinica,2016,42(6):883-891
2015-10-12錄用日期2016-04-01
Manuscript received October 12,2015;accepted April 1,2016
國家自然科學基金重點項目 (61432004),安徽省自然科學基金 (1508085QF119),模式識別國家重點實驗室開放課題(NLPR201407345),中國博士后科學基金(2015M580532),合肥工業(yè)大學2015年國家省級大學生創(chuàng)新訓練計劃項目(2015cxcys109)資助
Supported by Key Program of National Natural Foundation Science of China(61432004),the Natural Science Foundation of Anhui Province(1508085QF119),Open Project Program of the National Laboratory of Pattern Recognition(NLPR201407345),China Postdoctoral Science Foundation(2015M580532),and National Training Program of Innovation and Entrepreneurship for HFUT Undergraduates(2015cxcys109)
本文責任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.合肥工業(yè)大學計算機與信息學院 合肥230009中國2.德島大學智能信息工學部德島7708500日本
1.School of Computer and Information,Hefei University of Technology,Hefei 230009,China2.Department of Information Science and Intelligent Systems,F(xiàn)aculty of Engineering,Tokushima University,Tokushima 7708500,Japan