羅珍珍 陳靚影 劉樂元 張坤
笑臉是人類最常見的面部表情之一,反映了人的心理狀態(tài),傳遞著豐富的情感和意向信息.笑臉檢測在用戶體驗感知[1]、學(xué)生心理狀態(tài)分析[2]、照片增強(qiáng)處理[3]、相機(jī)微笑快門[4]等領(lǐng)域有廣泛的應(yīng)用.近年來,國內(nèi)外的學(xué)者在笑臉檢測方面開展了大量的研究工作[5?6].隨著研究的深入和實際應(yīng)用要求的提高,笑臉檢測的研究熱點逐步從約束環(huán)境轉(zhuǎn)移到非約束環(huán)境[7].非約束環(huán)境(Unconstrained environment)是指主體意識想法和行為不受規(guī)定約束的環(huán)境.在非約束環(huán)境下,人的頭部姿態(tài)、環(huán)境光照、背景以及圖像分辨率等環(huán)境因素不受約束.由于這些不利環(huán)境因素的影響,約束環(huán)境下的笑臉檢測算法通常不能在非約束環(huán)境下保持良好的正確率.非約束環(huán)境下的笑臉檢測在計算機(jī)視覺領(lǐng)域仍然是一項富有挑戰(zhàn)性的工作[5?6].
依據(jù)特征采樣方式的不同,可將現(xiàn)有笑臉檢測算法粗略分為基于面部運(yùn)動單元(Action units,AUs)的方法[7?13]和基于內(nèi)容 (non-AUs)的方法[4,14?22].基于面部運(yùn)動單元的方法從面部動作編碼系統(tǒng)(Facial action coding system,FACS)[8]定義的44個面部運(yùn)動單元中選取相關(guān)的AUs,并以這些AUs為橋梁建立低層人臉特征與表情的關(guān)系模型進(jìn)行笑臉檢測.文獻(xiàn)[7]和文獻(xiàn)[9]分別利用動態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian network,DBN)和隱馬爾科夫模型(Hidden Markov model,HMM)建立AUs之間以及AUs與表情的概率模型,從圖像中同步推理頭部運(yùn)動和表情變化.這兩種方法取得了良好的笑臉檢測效果,但模型較為復(fù)雜,導(dǎo)致計算量龐大.為建立更為高效和簡潔的笑臉檢測系統(tǒng),文獻(xiàn)[10]將人臉分為眉眼區(qū)域和嘴巴區(qū)域兩部分,采用Gabor小波提取區(qū)域特征,并結(jié)合K近鄰(KNearest neighbor,KNN)與貝葉斯網(wǎng)絡(luò)(Bayesian network,BN)建立面部運(yùn)動單元與表情間的概率關(guān)系模型.為避免精確檢測AUs的困難,文獻(xiàn)[12]從特定AUs周圍提取圖像子塊,對每個子塊提取Haar特征后采用錯誤率最小策略從中選出AUs組合特征,在Boosting框架下利用組合特征構(gòu)造表情分類器.Walecki等[13]提出一種基于潛式條件隨機(jī)森林(Latent conditional random forests)的視頻動態(tài)序列編碼方法實現(xiàn)人臉運(yùn)動單元AUs檢測和表情識別.雖然AUs具備明確的面部表情劃分和定義,便于利用心理學(xué)的研究成果選用最有效的AUs來識別不同的表情,但基于面部運(yùn)動單元的方法對笑臉檢測的準(zhǔn)確率很大程度上取決于AUs的定位和運(yùn)動特征的計算精度.此外,對訓(xùn)練數(shù)據(jù)做AUs標(biāo)注較為困難是基于面部運(yùn)動單元方法的另一弱點.
基于內(nèi)容的方法通常不再分析面部運(yùn)動單元,而是在對人臉進(jìn)行對齊(Face registration)后,直接從人臉提取特征并通過機(jī)器學(xué)習(xí)方法建立圖像到笑臉表情的映射.Shimada等[14]在提取局部強(qiáng)度直方圖(Local intensity histogram,LIH)和中心對稱局部二值模式(Center-symmetric local binary pattern,CS-LBP)兩種特征后,采用層級式支持向量機(jī)(Support vector machine,SVM)進(jìn)行笑臉分類.該方法對高分辨率正臉圖像具備良好的檢測效果和效率,但沒有考慮頭部姿態(tài)變化的情況.Whitehill等[4]從互聯(lián)網(wǎng)上收集了頭部水平偏向角為?20°~+20°的GENKI-4K 數(shù)據(jù)集,并在該數(shù)據(jù)集上系統(tǒng)地測試了Gabor、Haar、邊緣方向直方圖 (Edge orientation histograms,EOH)、LBP等特征搭配SVM、GentleBoost等分類器對笑臉檢測的效果.實驗結(jié)果表明,頭部姿態(tài)變化對笑臉檢測的效果有較大的影響.Shan等[15]使用像素對的灰度差值作為特征,利用AdaBoost算法選擇像素對并組合強(qiáng)分類器進(jìn)行笑臉檢測.當(dāng)使用100對像素對時,該方法在GENKI-4K數(shù)據(jù)集上可以達(dá)到88%的正確率.文獻(xiàn)[16]采用極端學(xué)習(xí)機(jī)(Extreme learning machine,ELM)[17],使用灰度值、HOG、LBP、LPQ(Local phase quantization)特征時,在GENKI-4K數(shù)據(jù)集上分別取得了79.3%、88.2%、85.2% 和85.2% 的正確率.最近,Gao等[18]通過混合HOG31、梯度自相似性(Selfsimilarity of gradients,SSG)[19]和灰度特征,及組合AdaBoost和線性ELM 兩種分類器的方式,將GENKI-4K數(shù)據(jù)集上的笑臉檢測正確率提高到了96.1%.就作者查閱的文獻(xiàn)來看,目前還只有少量研究者開展任意頭部姿態(tài)下的笑臉檢測工作.例如,文獻(xiàn)[20]使用隨機(jī)森林在視頻序列圖像上進(jìn)行任意頭部姿態(tài)下的表情識別工作,但該工作訓(xùn)練時使用的是非自然狀態(tài)下采集的3D表情序列訓(xùn)練數(shù)據(jù)集(BU-3DFE)[23],難以滿足大量實際應(yīng)用的需求.Dapogny等[22]提出一種基于PCRF(Pairwise conditional random forests)的動態(tài)序列人臉表情識別方法.但該方法只針對視頻序列圖像,不適合單幀圖像的表情識別.
在任意頭部姿態(tài)下進(jìn)行笑臉檢測主要面臨兩方面的困難:1)當(dāng)前缺少任意頭部姿態(tài)下的自然笑臉數(shù)據(jù)集;2)當(dāng)頭部姿態(tài)變化范圍較大時人臉對齊較為困難,巨大的類內(nèi)差異會導(dǎo)致難以設(shè)計高正確率和高效率的分類器[4].為更好地在任意頭部姿態(tài)、低分辨率圖像上實現(xiàn)自然笑臉的檢測,本文對LFW數(shù)據(jù)集[24]做了頭部姿態(tài)和笑臉的標(biāo)注,采集了自然課堂場景下的CCNU-Classroom數(shù)據(jù)集,并給出一種基于條件隨機(jī)森林的自然笑臉檢測方法.本文的主要貢獻(xiàn):1)以頭部姿態(tài)作為隱含條件,提出了基于條件隨機(jī)森林的笑臉檢測方法,降低了非約束環(huán)境下頭部姿態(tài)對笑臉檢測帶來的不利影響.2)在使用隨機(jī)森林建構(gòu)笑臉分類器時,給出了一種基于K-Means聚類的決策邊界確定方法,提高了笑臉分類器的準(zhǔn)確率.3)由分別從嘴巴區(qū)域和眉眼區(qū)域訓(xùn)練的條件隨機(jī)森林組成層級式檢測器,提高了笑臉檢測的準(zhǔn)確率.
隨機(jī)森林[25]是一種采用決策/回歸樹作為基預(yù)測器的集成學(xué)習(xí)方法.由于能從訓(xùn)練數(shù)據(jù)中快速學(xué)習(xí)得到高精度、魯棒的分類器,隨機(jī)森林已經(jīng)成為計算機(jī)視覺領(lǐng)域的一個重要工具,在頭部姿態(tài)估計[26?27]和表情識別[20]等應(yīng)用方向取得了良好的效果.隨機(jī)森林直接從訓(xùn)練數(shù)據(jù)估計目標(biāo)狀態(tài)θ的概率分布p(θ|P),其中P為樣本.
與隨機(jī)森林不同,條件隨機(jī)森林[27?28]從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)目標(biāo)狀態(tài)θ關(guān)于隱含條件ω的條件概率分布p(θ|ω,P).目標(biāo)狀態(tài)θ的概率p(θ|P)可由p(θ|ω,P) 積分得到.
若將隱含條件ω的狀態(tài)空間劃分為若干不相交子集,則式(1)可以寫為
其中,是隱含條件變量ω狀態(tài)的一個劃分.由式(2)可知,為從訓(xùn)練樣本估計目標(biāo)狀態(tài)θ,可在訓(xùn)練時將訓(xùn)練數(shù)據(jù)集S按條件狀態(tài)劃分為不相交的若干數(shù)據(jù)子集然后分別從各數(shù)據(jù)子集抽取樣本訓(xùn)練一組隨機(jī)森林用于估計條件概率而隱含條件的狀態(tài)概率p(ω|P)可以從整個數(shù)據(jù)集S訓(xùn)練得到的隨機(jī)森林來估計.
若隱含條件ω選取合理,按其狀態(tài)劃分訓(xùn)練數(shù)據(jù)后,數(shù)據(jù)子集S?n的樣本類內(nèi)差異將比整個數(shù)據(jù)集S的樣本類內(nèi)差異低.數(shù)據(jù)類內(nèi)差異的降低使得分類器能更有效和更高效地描述訓(xùn)練數(shù)據(jù).因此,條件概率p(θ|?n,P)比p(θ|P)能更容易、更準(zhǔn)確地從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得到[27?28].文獻(xiàn)[27]在面部特征點檢測和文獻(xiàn)[28]在人體姿態(tài)估計的結(jié)果表明,在數(shù)據(jù)類內(nèi)差異較大的情況下,條件隨機(jī)森林可大幅提高隨機(jī)森林的魯棒性和分類/回歸精度.
在非約束環(huán)境下,頭部姿態(tài)的多樣性使得人臉在特征空間的類內(nèi)差異過大,導(dǎo)致建構(gòu)具備高準(zhǔn)確率的笑臉分類器較為困難.為此,本文以頭部姿態(tài)作為隱含條件來劃分?jǐn)?shù)據(jù)空間,提出一種基于條件隨機(jī)森林的笑臉檢測方法,如圖1所示.
在訓(xùn)練階段,使用整個訓(xùn)練數(shù)據(jù)集訓(xùn)練生成用于估計頭部姿態(tài)的隨機(jī)森林,記為TH.然后將訓(xùn)練數(shù)據(jù)集S按頭部姿態(tài)劃分為N個子集,并使用各數(shù)據(jù)子集分別訓(xùn)練生成一組用于笑臉分類的條件隨機(jī)森林本文在實現(xiàn)時,按頭部的水平偏向角度將訓(xùn)練數(shù)據(jù)劃分為3個子集,即?1={?30°≤ω≤+30°},?2={ω|?60°≤ω<?30°}∪{ω|+30°<ω≤+60°}及 ?3={ω|?90°≤ω<?60°}∪{ω|+60°<ω≤+90°}.其中,?2和?3利用了人臉的水平對稱性,將朝向為左的人臉圖像作水平鏡像后與朝向為右的人臉圖像合并,以擴(kuò)充訓(xùn)練樣本.為進(jìn)一步提高笑臉檢測的正確率,分別從嘴巴區(qū)域和眉眼區(qū)域采樣圖像子塊以同樣的方式獨立訓(xùn)練兩組條件隨機(jī)森林,記為和
圖1 基于條件隨機(jī)森林的笑臉檢測示意圖Fig.1 Smile detection based on conditional random forests
在檢測階段,首先利用頭部姿態(tài)隨機(jī)森林TH估計出頭部姿態(tài);然后根據(jù)頭部姿態(tài)估計結(jié)果分別從條件隨機(jī)森林中隨機(jī)選取相應(yīng)數(shù)量的決策樹動態(tài)建構(gòu)隨機(jī)森林和最后將檢測圖像輸入得到笑臉檢測結(jié)果.
條件隨機(jī)森林和中的每棵決策樹采用相同的方法獨立訓(xùn)練得到.為構(gòu)建每棵決策樹從相應(yīng)的數(shù)據(jù)子集S?n中隨機(jī)選取圖像構(gòu)成訓(xùn)練數(shù)據(jù)集,然后從每張訓(xùn)練圖像的特定區(qū)域(眉眼區(qū)域或嘴巴區(qū)域)隨機(jī)提取一系列圖像子塊{Pi=(θi,Ii)},其中θi∈{?1,+1}為類別標(biāo)簽 (笑/非笑),為一系列從圖像子塊上提取的特征集合.本文在實現(xiàn)時采用了原始灰度值,Gabor和局部二值模式(LBP)等三種特征構(gòu)成特征集合.
決策樹的生成是一個通過二值測試不斷將樹節(jié)點分裂成兩個子節(jié)點的迭代過程.本文定義二值測試函數(shù)ψ(P;R1,R2,f,τ)為
其中,R1和R2分別表示從圖像子塊P里隨機(jī)選取的兩個矩形區(qū)域,|R1|和|R2|表示矩形區(qū)域內(nèi)像素的數(shù)量,If(f∈{1,2,···,F})表示隨機(jī)選取的特征通道,τ為閾值.
不確定性測度引導(dǎo)各節(jié)點從二值測試候選庫中選擇最優(yōu)的二值測試,以保證能不斷將當(dāng)前節(jié)點分裂為不確定性降低的兩個子節(jié)點.在本文中,不確定性測度定義為當(dāng)前節(jié)點上圖像子塊的信息熵.
其中,P={Pj}為當(dāng)前節(jié)點上所有的圖像子塊的集合,|·|表示集的勢,p(θi|?n,Pj)為當(dāng)前節(jié)點上頭部姿態(tài)為ω∈?n的圖像子塊屬于θi表情(笑/非笑)的概率.
條件隨機(jī)森林中的每棵樹獨立訓(xùn)練生成,步驟如下:
步驟1.生成候選二值測試集Ψ={?k}.對于每個?k,其參數(shù)R1,R2,f,τ均隨機(jī)生成.
步驟2.使用候選二值測試集中的每一個?k,將當(dāng)前節(jié)點上的圖像子塊集P分裂為兩個子集PL(?k)和PR(?k),并計算分裂后的信息增益(IG).
步驟3.選擇使得信息增益最大的二值測試??=argmax(IG(?k))將當(dāng)前節(jié)點分裂為兩個子節(jié)點.
步驟4.當(dāng)隨機(jī)樹生長到最大深度或當(dāng)前節(jié)點的信息增益(IG)小于閾值時,停止隨機(jī)樹的生長并生成葉子節(jié)點,到達(dá)葉子節(jié)點l的圖像子塊集記為l(P),同時將p(θ|?n,l(P))存儲于該葉子節(jié)點上.否則返回步驟2,繼續(xù)迭代分裂.
Du等[29?30]采用新的類 Haar特征和 AdaBoost進(jìn)行人臉姿態(tài)的分類.Liu等[26]采用Gabor,sobel和灰度強(qiáng)度等特征,結(jié)合隨機(jī)森林進(jìn)行人臉姿態(tài)估計.本文采用與文獻(xiàn)[26?27]類似的隨機(jī)森林來估計頭部姿態(tài)的水平偏向角ω.在訓(xùn)練生成頭部姿態(tài)隨機(jī)森林(TH)模型時,采用如下不確定性測度:
頭部姿態(tài)以高斯模型的方式存儲于隨機(jī)森林TH的每個葉子節(jié)點l上.
其中,表示葉子節(jié)點l上圖像子塊代表的頭部姿態(tài)均值和方差.
在頭部姿態(tài)ω∈?n的條件下,圖像子塊P屬于表情θ(笑/非笑)的概率p(θ|?n,P)由隨機(jī)森林中的所有樹投票得到.
其中,T為樹的數(shù)量,lt表示第t棵樹上圖像子塊P達(dá)到的葉子節(jié)點.
在頭部姿態(tài)未知的情況下,圖像子塊P屬于表情θ(笑/非笑)的概率p(θ|P)為
由式(11)和式(12)可知,在笑臉分類時,首先根據(jù)頭部姿態(tài)估計的結(jié)果從條件隨機(jī)森林和中分別隨機(jī)選取kn棵決策樹動態(tài)構(gòu)建隨機(jī)森林然后由中各決策樹投票得出測試圖像子塊P的表情θ(笑/非笑)概率p(θ|P).
從圖像Ii中密集采樣M個圖像子塊輸入隨機(jī)森林估計得到各個圖像子塊Pm屬于笑臉表情的概率p(θ=+1|Pm).最終判決圖像Ii屬于笑臉表情的分類器為
其中,τp為分類器的決策邊界(即分類閾值).
分類器(13)的決策邊界τp從訓(xùn)練樣本得到.常用的方法是使訓(xùn)練時的分類錯誤率最小,例如使用決策樁(Stump)[31]算法,求出分類器的決策邊界τp.但由于只考慮了分類錯誤率,沒有考慮數(shù)據(jù)在決策空間的分布,使得訓(xùn)練誤差最小并不能保證測試時的效果達(dá)到最佳,而且還可能帶來過擬合的問題.文獻(xiàn)[26,28]采用的高斯投票法雖然考慮了數(shù)據(jù)在決策空間的分布,但要求數(shù)據(jù)在決策空間服從高斯分布.因此,本文提出一種基于K-Means聚類的決策邊界法.
將訓(xùn)練數(shù)據(jù)子集S?n中的所有圖像Ii(Ii∈S?n)通過條件隨機(jī)森林或估計其屬于笑臉的概率{p1,p2,p3,···},并將{p1,p2,p3,···}作為輸入數(shù)據(jù)進(jìn)行K-Means聚類以求取分類器(13)的決策邊界.算法步驟為:
步驟1.初始化聚類中心:c0=min{p1,p2,p3,···},c1=max{p1,p2,p3,···}.
步驟2.計算各個數(shù)據(jù)pi到聚類中心c0和c1的距離,并將各個數(shù)據(jù)歸類到距離較近的聚類中心所在的類.歸類后的兩類數(shù)據(jù)集合分別記為
步驟3.計算各類均值作為新的聚類中心.
步驟4.重復(fù)步驟2和步驟3,直到聚類中心不再變化.
步驟5.輸出聚類結(jié)果C0和C1.
由條件隨機(jī)森林的訓(xùn)練樣本得到的決策邊界由兩類中離各自聚類中心最遠(yuǎn)的點共同決定,即
檢測時,分類器(13)的決策邊界為
本文分別從嘴巴和眉眼區(qū)域采集圖像子塊訓(xùn)練兩組條件隨機(jī)森林構(gòu)建層級式結(jié)構(gòu)進(jìn)行笑臉檢測,流程如圖2所示.
1)測試圖像通過文獻(xiàn)[32]的方法檢測人臉,根據(jù)人臉幾何位置關(guān)系提取嘴巴和眼睛區(qū)域.
2)從人臉區(qū)域密集采樣圖像子塊輸入頭部估計隨機(jī)森林TH估計頭部姿態(tài).
3)根據(jù)頭部姿態(tài)估計的結(jié)果,按第2.3節(jié)方法,從條件隨機(jī)森林中選取相應(yīng)數(shù)量的決策樹動態(tài)建構(gòu)隨機(jī)森林判決測試圖像是否笑臉表情.若結(jié)果為笑臉,即判定該測試圖像為笑臉表情.
4)若判決為非笑臉,則再次從建構(gòu)隨機(jī)森林作進(jìn)一步的判決.
采用這種層級式的檢測結(jié)構(gòu),一方面可以提高笑臉檢測的準(zhǔn)確率,另一方面由于圖像子塊從小部分人臉區(qū)域采集,提高了算法的運(yùn)算效率.此外,采用層級式的檢測結(jié)構(gòu),在大部分情況下僅使用一個分類器就能對笑臉做出判斷,能夠進(jìn)一步減少計算量.
圖2 層級式笑臉檢測流程圖Fig.2 The flowchart of the proposed smile detection method
為了評估本文方法的有效性,分別在GENKI-4K數(shù)據(jù)集[4]、LFW 數(shù)據(jù)集[24]和自備教室數(shù)據(jù)集(CCNU-Classroom)上進(jìn)行了實驗.GENKI-4K和LFW數(shù)據(jù)集均為從互聯(lián)網(wǎng)收集的自然狀態(tài)下拍攝的人臉圖像,包含不同種族、個體、性別、光照條件、分辨率和表情等因素.GENKI-4K數(shù)據(jù)集由4000張圖像組成,其頭部水平偏向角范圍為?20°~+20°.LFW 數(shù)據(jù)集包含13233張人臉圖像,其頭部水平偏向角范圍為 ?90°~+90°.CCNUClassroom數(shù)據(jù)集包含345張在自然課堂場景下采集的圖像,每張圖像包含8~12個學(xué)生.CCNUClassroom數(shù)據(jù)集同樣包含不同頭部姿態(tài)、光照變化和低分辨率等因素.實驗前,分別讓5名專家對LFW和CCNU-Classroom數(shù)據(jù)集中的每個人臉做了頭部姿態(tài)和笑(+1)/非笑(?1)的人工標(biāo)注,然后取占優(yōu)的人工標(biāo)注作為客觀標(biāo)注(Ground truth).
在訓(xùn)練頭部姿態(tài)估計隨機(jī)森林TH時,設(shè)置樹的數(shù)量為60,樹的最大深度為15,二值測試候選庫的大小為2000.隨機(jī)森林TH的訓(xùn)練數(shù)據(jù)集為從LFW數(shù)據(jù)集中隨機(jī)選取的2000張圖像.選取訓(xùn)練圖像后,摳取人臉區(qū)域并歸一化為125像素×125像素,然后從每個人臉區(qū)域上隨機(jī)采樣200個大小為30像素×30像素的圖像子塊用于訓(xùn)練.
在訓(xùn)練笑臉分類條件隨機(jī)森林和時,設(shè)置樹的最大深度為15,二值測試候選庫的大小為1500.從LFW 數(shù)據(jù)集中隨機(jī)選取5518張正臉(水平偏向角為?30°~+30°)圖像用于訓(xùn)練和1883張微側(cè)臉 (水平偏向角為 ?60°~?30° 及 +30°~+60°)用于訓(xùn)練4507張側(cè)臉圖像(水平偏向角為 ?90°~?60° 及 +60°~+90°) 用于訓(xùn)練為進(jìn)行對比實驗,除和外,從整個人臉區(qū)域采樣圖像子塊訓(xùn)練了一組條件隨機(jī)森林,記為訓(xùn)練時,人臉區(qū)域歸一化為125像素×125像素;嘴巴區(qū)域歸一化為120像素×60像素,圖像子塊的大小為30像素×15像素,且從每張圖像上采樣的圖像子塊個數(shù)為150;眉眼區(qū)域歸一化為120像素×40像素,圖像子塊的大小為30像素×10像素,且從每張圖像上采樣的圖像子塊個數(shù)為100.實驗發(fā)現(xiàn),在所有訓(xùn)練參數(shù)中,樹的數(shù)量對笑臉分類準(zhǔn)確率的影響最大.圖3為在各訓(xùn)練數(shù)據(jù)子集上樹的數(shù)量與笑臉分類準(zhǔn)確率關(guān)系曲線.隨著樹的數(shù)量的增加,笑臉分類的準(zhǔn)確率也隨之上升,最終趨于平穩(wěn).因此,在后續(xù)實驗中笑臉分類隨機(jī)森林樹的數(shù)量統(tǒng)一取為40.
測試集包括GENKI-4K數(shù)據(jù)集的4000張圖像、LFW 數(shù)據(jù)集中未參與訓(xùn)練的2000張圖像和CCNU-Classroom 數(shù)據(jù)集的345張圖像(約3500個人臉).本文方法在三個數(shù)據(jù)集上的部分實驗結(jié)果如圖4所示.實驗結(jié)果表明:
1)本文方法能有效處理非約束環(huán)境下包含頭部姿態(tài)多樣性、低分辨率和光照變化等多種挑戰(zhàn)因素的自然笑臉檢測問題.
2)本文方法具備良好的魯棒性.在一個數(shù)據(jù)集上訓(xùn)練的算法應(yīng)用于其他獨立采集的數(shù)據(jù)集仍能保持良好的性能.
進(jìn)行了兩組對比實驗:1)在GENKI-4K數(shù)據(jù)集上進(jìn)行,對比在頭部姿態(tài)變化范圍較小情況下的笑臉檢測效果;2)在LFW和CCNU-Classroom數(shù)據(jù)集上進(jìn)行,對比在頭部姿態(tài)變化范圍較大情況下的笑臉檢測效果.
將本文方法與Shan[15]和An等[16]在GENKI-4K數(shù)據(jù)集上進(jìn)行對比實驗.文獻(xiàn)[15]采用像素對灰度差值作為特征,使用AdaBoost分類器.文獻(xiàn)[16]分別采用了LBP和HOG特征,使用線性判別式分析 (Linear discriminant analysis,LDA)、SVM 和ELM三種分類器.對比結(jié)果如表1所示,本文方法優(yōu)于文獻(xiàn)[15?16].在頭部姿態(tài)變化范圍較小的情況下,本文方法在使用灰度、Gabor和LBP三種特征時取得了91.14%的準(zhǔn)確率,在僅使用灰度或LBP特征時的準(zhǔn)確率分別為88.36%和86.99%.
圖3 決策樹的數(shù)量與笑臉分類準(zhǔn)確率的關(guān)系Fig.3 The accuracies for different numbers of trees in CRF
表1 本文方法與文獻(xiàn)[15?16]在GENKI-4K數(shù)據(jù)集上的比較Table 1 The proposed approach compared with[15?16]on GENKI-4K dataset
為了驗證各種笑臉檢測方法在頭部姿態(tài)變化較大情況下的性能,將本文方法、基于支持向量機(jī)(SVM)和基于隨機(jī)森林(Random forest,RF)、基于AdaBoost的笑臉檢測方法分別在LFW 和CCNU-Classroom兩個數(shù)據(jù)集上進(jìn)行對比實驗.實驗過程中,本文方法嚴(yán)格按照圖2流程進(jìn)行.SVM采用libSVM[33],RF采用文獻(xiàn)[27]的代碼實現(xiàn),AdaBoost采用文獻(xiàn)[15]的方法實現(xiàn).實驗時,將人臉區(qū)域歸一化為125像素×125像素,并將從人臉上摳取的眉眼區(qū)域或嘴巴區(qū)域分別歸一化為120像素×40像素和120像素×60像素.為了比較的公平性,四種方法均采用原始灰度值、Gabor和LBP三種特征,其中CRF和RF及AdaBoost在每次分裂或每次訓(xùn)練弱分類器時隨機(jī)從三種特征選擇一種特征.在訓(xùn)練SVM時將從原圖像上取得的灰度值、Gabor和LBP特征連接成一個長向量(29萬維),然后采用主成分分析法(Principal component analysis,PCA)將其壓縮為5000維(保留99.9%的能量).四種方法均從嘴巴和眉眼區(qū)域采集圖像塊,并訓(xùn)練兩個分類器組成層級式結(jié)構(gòu)進(jìn)行笑臉檢測.在LFW和CCNU-Classroom數(shù)據(jù)集上頭部姿態(tài)估計統(tǒng)計結(jié)果見表2,四種笑臉檢測算法的實驗結(jié)果見表3(見本頁下方).
圖4 本文方法的笑臉檢測結(jié)果Fig.4 The exemplar results of the proposed smile detection method
表2 頭部姿態(tài)估計在LFW和CCNU-Classroom數(shù)據(jù)集上的準(zhǔn)確率(%)Table 2 Accuracies of head pose estimation on LFW and CCNU-Classroom datasets(%)
由于本文方法將整個數(shù)據(jù)集按頭部姿態(tài)劃分為3個數(shù)據(jù)子集,降低了各個數(shù)據(jù)子集內(nèi)樣本的內(nèi)類差異,使得分類器能更有效和更高效地描述訓(xùn)練數(shù)據(jù).本文方法在LFW和CCNU-Classroom數(shù)據(jù)集上分別取得了90.73%和85.17%的準(zhǔn)確率,優(yōu)于基于SVM、AdaBoost和RF的方法.此外,本文的笑臉檢測方法的準(zhǔn)確率略微高于頭部姿態(tài)估計后的準(zhǔn)確率,說明雖然頭部姿態(tài)估計的錯誤會在一定程度上影響笑臉的檢測,但由于進(jìn)行頭部姿態(tài)劃分后在各姿態(tài)條件下笑臉檢測性能的極大提升,以及各姿態(tài)條件下的笑臉檢測器對姿態(tài)估計錯誤的笑臉有一定的魯棒性,因此整體上提高了笑臉檢測的性能.
為比較不同圖像子塊采樣方式的差異,在LFW數(shù)據(jù)集上采用四種子采樣方式進(jìn)行實驗.
1)從整個人臉區(qū)域隨機(jī)采樣圖像子塊,然后僅使用條件隨機(jī)森林動態(tài)構(gòu)建隨機(jī)森林進(jìn)行笑臉檢測;
2)僅從嘴巴區(qū)域隨機(jī)采樣圖像子塊,然后使用條件隨機(jī)森林動態(tài)構(gòu)建隨機(jī)森林進(jìn)行笑臉檢測;
3)僅從眉眼區(qū)域隨機(jī)采樣圖像子塊,然后使用條件隨機(jī)森林動態(tài)構(gòu)建隨機(jī)森林進(jìn)行笑臉檢測;
表3 不同笑臉檢測算法在LFW和CCNU-Classroom數(shù)據(jù)集上的準(zhǔn)確率(%)Table 3 Comparisons of accuracies of different smile detection algorithms on LFW and CCNU-Classroom datasets(%)
4)從嘴巴和眉眼區(qū)域隨機(jī)采樣圖像子塊,然后按圖2流程使用條件隨機(jī)森林和動態(tài)構(gòu)建隨機(jī)森林組成層級式結(jié)構(gòu)進(jìn)行笑臉檢測.
為避免其他因素的影響,實驗過程中頭部姿態(tài)直接采用客觀標(biāo)注,決策邊界統(tǒng)一采用本文提出的K-Means聚類法確定.采用四種圖像子塊采樣方式對應(yīng)的笑臉檢測準(zhǔn)確率見表4,從嘴巴和眉眼區(qū)域隨機(jī)采樣圖像子塊組成層級式分類器取得的效果最好.
表4 不同圖像子塊采樣方式在LFW數(shù)據(jù)集上的笑臉檢測準(zhǔn)確率(%)Table 4 Accuracies of smile detection with different image sub-regions on LFW dataset(%)
為比較不同嘴巴和眼睛區(qū)域的定位方法對笑臉檢測的影響,分別使用人臉幾何位置關(guān)系粗略確定嘴巴、眉眼區(qū)域和文獻(xiàn)[27]提出的人臉特征點定位方法來精確確定嘴巴區(qū)域和眉眼區(qū)域,在LFW 數(shù)據(jù)集上進(jìn)行實驗.為避免其他因素的干擾,實驗時頭部姿態(tài)直接采用客觀標(biāo)注.采用兩種嘴巴和眉眼區(qū)域的定位方法對應(yīng)的笑臉檢測準(zhǔn)確率見表5.精確定位嘴巴區(qū)域和眉眼區(qū)域可以進(jìn)一步提升本文方法的笑臉檢測準(zhǔn)確率.但精確定位方法會帶來更多的計算量.與使用粗略定位相比,使用精確定位在LFW數(shù)據(jù)集上進(jìn)行笑臉檢測每幅圖像的平均耗時增加19ms.
表5 不同嘴巴和眉眼區(qū)域定位方法的笑臉檢測準(zhǔn)確率(%)Table 5 Accuracies of smile detection using different approaches to locate eyes and mouth regions(%)
表6 使用不同決策邊界方法對應(yīng)的笑臉檢測準(zhǔn)確率(%)Table 6 Accuracies of smile detection using different decision boundary methods(%)
為比較不同決策邊界方法的優(yōu)劣,分別使用本文提出的K-Means聚類、高斯投票[26?27]和決策樁[31]三種分類決策邊界確定方法,在LFW數(shù)據(jù)集和CCNU-Classroom數(shù)據(jù)集上進(jìn)行實驗.為避免其他因素的干擾,實驗時頭部姿態(tài)直接采用客觀標(biāo)注,圖像子塊從嘴巴區(qū)域和眉眼區(qū)域采集,并按圖2流程進(jìn)行笑臉檢測.采用三種決策邊界確定方法對應(yīng)的笑臉檢測準(zhǔn)確率見表6.本文提出的K-Means聚類法取得了最好的效果,高斯投票法次之,決策樁的效果最差.
本文提出一種基于條件隨機(jī)森林的自然笑臉檢測方法.以頭部姿態(tài)作為隱含條件劃分?jǐn)?shù)據(jù)空間,構(gòu)建了基于條件隨機(jī)森林的笑臉檢測模型,降低了數(shù)據(jù)的內(nèi)類差異,因此有效抑制了非約束環(huán)境下頭部姿態(tài)多樣性對笑臉檢測帶來的不利影響.提出了一種基于K-Means的分類邊界決策方法.相比隨機(jī)森林算法常用的平均值法或多高斯法等投票方法,基于K-Means的分類邊界法考慮了數(shù)據(jù)在決策空間的分布,因此具備更高的笑臉分類準(zhǔn)確率.同時,分別從嘴巴區(qū)域和眉眼區(qū)域采集圖像子塊訓(xùn)練兩組條件隨機(jī)森林構(gòu)成層級式結(jié)構(gòu)進(jìn)行笑臉檢測,提高了準(zhǔn)確率.實驗結(jié)果表明,本文方法對非約束環(huán)境下的自然笑臉檢測具備較好的準(zhǔn)確性和魯棒性.在未來的工作中,將嘗試結(jié)合基于AUs的方法來自動選取對笑臉檢測最有效的區(qū)域,以進(jìn)一步提高笑臉檢測的準(zhǔn)確率.
References
1 Sénéchal T,Turcot J,el Kaliouby R.Smile or smirk?Automatic detection of spontaneous asymmetric smiles to understand viewer experience.In:Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition(FG).Shanghai,China:IEEE,2013.1?8
2 Chen J Y,Luo N,Liu Y Y,Liu L Y,Zhang K,Kolodziej J.A hybrid intelligence-aided approach to affect-sensitive e-learning.Computing,2016,98(1?2):215?233
3 Shah R,Kwatra V.All smiles:automatic photo enhancement by facial expression analysis.In: Proceedings of the 9th European Conference on Visual Media Production(CVMP).London,UK:ACM,2012.1?10
4 Whitehill J,Littlewort G,Fasel I,Bartlett M,Movellan J.Toward practical smile detection.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(11):2106?2111
5 Sariyanidi E,Gunes H,Cavallaro A.Automatic analysis of facial affect:a survey of registration,representation,and recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(6):1113?1133
6 Sun Xiao,Pan Ting,Ren Fu-Ji.Facial expression recognition using ROI-KNN deep convolutional neural networks.Acta Automatica Sinica,2016,42(6):883?891(孫曉,潘汀,任福繼.基于ROI-KNN卷積神經(jīng)網(wǎng)絡(luò)的面部表情識別.自動化學(xué)報,2016,42(6):883?891)
7 Tong Y,Chen J X,Ji Q.A uni fied probabilistic framework for spontaneous facial action modeling and understanding.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(2):258?273
8 Vick S J,Waller B M,Parr L A,Pasqualini M C S,Bard K.A cross-species comparison of facial morphology and movement in humans and chimpanzees using the facial action coding system(FACS).Journal of Nonverbal Behavior,2007,31(1):1?20
9 Valstar M,Pantic M.Fully automatic recognition of the temporal phases of facial actions.IEEE Transactions on Systems,Man,and Cybernetics,Part B(Cybernetics),2012,42(1):28?43
10 Xie Lun,Lu Ya-Nan,Jiang Bo,Sun Tie,Wang Zhi-Liang.Expression automatic recognition based on facial action units and expression relationship model.Transactions of Beijing Institute of Technology,2016,36(2):163?169(解侖,盧亞楠,姜波,孫鐵,王志良.基于人臉運(yùn)動單元及表情關(guān)系模型的自動表情識別.北京理工大學(xué)學(xué)報,2016,36(2):163?169)
11 Wang Lei,Zou Bei-Ji,Peng Xiao-Ning.Tunneled latent variables method for facial action unit tracking.Acta Automatica Sinica,2009,35(2):198?201(王磊,鄒北驥,彭小寧.針對表情動作單元跟蹤的隧道隱變量法.自動化學(xué)報,2009,35(2):198?201)
12 Yang P,Liu Q S,Metaxas D N.Exploring facial expressions with compositional features.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).San Francisco,CA,USA:IEEE,2010.2638?2644
13 Walecki R,Rudovic O,Pavlovic V,Pantic M.Variablestate latent conditional random fields for facial expression recognition and action unit detection.In:Proceedings of the 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition(FG).Ljubljana,Slovenia:IEEE,2015.1?8
14 Shimada K,Matsukawa T,NoguchiY,Kurita T.Appearance-based smile intensity estimation by cascaded support vector machines.In:Proceedings of the 2010 Revised Selected Papers,Part I Asian Conference on Computer Vision(ACCV).Queenstown,New Zealand:Springer,2010.277?286
15 Shan C F.Smile detection by boosting pixel differences.IEEE Transactions on Image Processing,2012,21(1):431?436
16 An L,Yang S F,Bhanu B.Efficient smile detection by extreme learning machine.Neurocomputing,2015,149:354?363
17 Huang G B,Zhou H M,Ding X J,Zhang R.Extreme learning machine for regression and multiclass classi fication.IEEE Transactions on Systems,Man,and Cybernetics,Part B(Cybernetics),2012,42(2):513?529
18 Gao Y,Liu H,Wu P P,Wang C.A new descriptor of gradients self-similarity for smile detection in unconstrained scenarios.Neurocomputing,2016,174:1077?1086
19 Liu H,Gao Y,Wu P.Smile detection in unconstrained scenarios using self-similarity of gradients features.In:Proceedings of the 2014 IEEE International Conference on Image Processing(ICIP).Paris,France:IEEE,2014.1455?1459
20 El Meguid M K A,Levine M D.Fully automated recognition of spontaneous facial expressions in videos using random forest classi fiers.IEEE Transactions on Affective Computing,2014,5(2):141?154
21 Liu Shuai-Shi,Tian Yan-Tao,Wan Chuan.Facial expression recognition method based on gabor multi-orientation features fusion and block histogram.Acta Automatica Sinica,2011,37(12):1455?1463(劉帥師,田彥濤,萬川.基于Gabor多方向特征融合與分塊直方圖的人臉表情識別方法.自動化學(xué)報,2011,37(12):1455?1463)
22 Dapogny A,Bailly K,Dubuisson S.Pairwise conditional random forests for facial expression recognition.In:Proceedings of the 2015 IEEE International Conference on Computer Vision(ICCV).Santiago,USA:IEEE,2015,3783?3791
23 Yin L J,Wei X Z,Sun Y,Wang J,Rosato M J.A 3D facial expression database for facial behavior research.In:Proceedings of the 7th IEEE International Conference on Automatic Face and Gesture Recognition.Southampton,Britain:IEEE,2006.211?216
24 Huang G B,Mattar M,Berg T,Learned-Miller E.Labeled faces in the wild:a database for studying face recognition in unconstrained environments.Technical Report,University of Massachusetts,USA,2007.
25 Breiman L.Random forests.Machine Learning,2001,45(1):5?32
26 Liu Y Y,Chen J Y,Su Z M,Luo Z Z,Luo N,Liu L Y,Zhang K.Robust head pose estimation using Dirichlet-tree distribution enhanced random forests.Neurocomputing,2015,173:42?53
27 Sun M,Kohli P,Shotton J.Conditional regression forests for human pose estimation.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Providence,RI,USA:IEEE,2012.3394?3401
28 Dantone M,Gall J,Fanelli G,Van Gool L.Real-time facial feature detection using conditional regression forests.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Providence,RI,USA,2012.2578?2585
29 Du S Y,Zheng N N,You Q B,Wu Y,Yuan M J,Wu J J.Rotated Haar-Like features for face detection with in-plane rotation.In:Proceedings of the 12th International Conference,Virtual Systems and Multimedia(VSMM).Xi0an,China:Springer,2006.128?137
30 Du S Y,Liu J,Liu Y H,Zhang X T,Xue J R.Precise glasses detection algorithm for face with in-plane rotation.Multimedia Systems,2017,23(3):293?302
31 Wayne I,Langley P.Induction of one-level decision trees.In:Proceedings of the 9th International Workshop on Machine Learning.San Francisco,CA,USA:Morgan Kaufmann,1992.233?240
32 Viola P,Jones M J.Robust real-time face detection.International Journal of Computer Vision,2004,57(2):137?154
33 Chang C C,Lin C J.Trainingv-support vector classi fiers:theory and algorithms.Neural Computation,2001,13(9):2119?2147