王韋祥 周 欣,2 何小海* 卿粼波 王正勇
1(四川大學(xué)電子信息學(xué)院 四川 成都 610065)2(中國(guó)信息安全測(cè)評(píng)中心 北京 100085)
人臉表情識(shí)別是計(jì)算機(jī)視覺領(lǐng)域一大熱點(diǎn)[1]。人臉表情作為人類情緒的直接表達(dá),是非語(yǔ)言交際的一種形式[2]。人臉表情識(shí)別技術(shù)目前主要的應(yīng)用領(lǐng)域包括人機(jī)交互(HCI)、安保、機(jī)器人制造、醫(yī)療、通信、汽車等。在人機(jī)交互、在線遠(yuǎn)程教育、互動(dòng)游戲、智能交通等新興應(yīng)用中,自動(dòng)面部表情識(shí)別系統(tǒng)是必要的[3]。
人臉表情識(shí)別的重點(diǎn)在于人臉表情特征的提取。對(duì)于人臉表情的提取,目前已出現(xiàn)兩類特征提取方法。一種是基于傳統(tǒng)人工設(shè)計(jì)的表情特征提取方法,如局部二值模式(Local Binary Pattern,LBP)[4]、定向梯度直方圖(Histogram of Oriented Gradients,HOG)[5]、尺度不變特征變換(Scale Invariant Feature Transform,SIFT)[6]等,這些方法不僅設(shè)計(jì)困難,并且難以提取圖像的高階統(tǒng)計(jì)特征。另一種是基于深度學(xué)習(xí)的表情特征提取方法,目前深度神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用在圖像、語(yǔ)音、自然語(yǔ)言處理等各個(gè)領(lǐng)域。為了適應(yīng)不同的應(yīng)用場(chǎng)景,越來越多的深度神經(jīng)網(wǎng)絡(luò)模型被提出,例如AlexNet[7]、VGG[8]、GoogleNet[9]和ResNet[10],這些網(wǎng)絡(luò)模型被廣泛應(yīng)用于各個(gè)領(lǐng)域,在人臉表情特征提取及分類上,也取得了不錯(cuò)的效果。
但隨著深度神經(jīng)網(wǎng)絡(luò)模型的不斷發(fā)展,其缺點(diǎn)也逐漸顯現(xiàn)。網(wǎng)絡(luò)模型的復(fù)雜化、模型參數(shù)的大量化等缺點(diǎn),使得這些模型只能在一些特定的場(chǎng)合應(yīng)用,移動(dòng)端和嵌入式設(shè)備難以滿足其需要的硬件要求。復(fù)雜網(wǎng)絡(luò)模型對(duì)于硬件的高要求限制了其應(yīng)用場(chǎng)景?;诖耍琀oward等[11]在2017年4月提出了一個(gè)可以應(yīng)用于移動(dòng)端和嵌入式設(shè)備的MobileNet輕量化網(wǎng)絡(luò)模型。文中提出的深度可分離卷積層,在保證精度損失不大的情況下,大大減少了網(wǎng)絡(luò)的計(jì)算量,從而為計(jì)算設(shè)備“減負(fù)”。但是這個(gè)版本的MobileNet模型在深度卷積層后引入非線性激活函數(shù)ReLU,而深度卷積沒有改變通道數(shù)的能力,其提取的特征是單通道的,且ReLU激活函數(shù)在通道數(shù)較少的卷積層輸出進(jìn)行操作時(shí),可能導(dǎo)致信息丟失。為了解決MobileNet第一版的問題,2018年1月Sandler等[12]提出第二版的MobileNet,即MobileNetV2。MobileNetV2使用了倒轉(zhuǎn)的殘差結(jié)構(gòu),即在采用當(dāng)時(shí)流行的殘差結(jié)構(gòu)的同時(shí),在進(jìn)入深度卷積前先將輸入送入1×1的點(diǎn)卷積,把特征圖的通道數(shù)“壓”下來,再經(jīng)過深度卷積,最后經(jīng)過一個(gè)1×1的點(diǎn)卷積層,將特征圖通道數(shù)再“擴(kuò)張”回去。即先“壓縮”,最后“擴(kuò)張”回去。前兩步的輸出都采用ReLU激活函數(shù)處理,最后一步采用線性輸出,可在一定程度上減少信息的丟失。然而此模型應(yīng)用于實(shí)際人臉表情識(shí)別中識(shí)別效果依然不佳,且參數(shù)量和運(yùn)算量很大,在安卓手機(jī)上測(cè)試時(shí),實(shí)時(shí)性表現(xiàn)也不佳。除此之外,MobileNet網(wǎng)絡(luò)模型的最小輸入尺寸為96×96,而人臉表情識(shí)別允許更小的輸入尺寸,因此MobileNet難以滿足實(shí)際人臉表情識(shí)別的需要。
針對(duì)MobileNet的上述缺點(diǎn),本文設(shè)計(jì)了一個(gè)基于輸入尺寸為48×48×1的單通道灰度圖片的改進(jìn)MobileNet模型——M-MobileNet,不僅大大減小了網(wǎng)絡(luò)模型的參數(shù)量和運(yùn)算量,使其更切合人臉表情識(shí)別的特點(diǎn),還提升了其在人臉表情識(shí)別的實(shí)時(shí)性,除此之外,在CK+及KDEF人臉表情數(shù)據(jù)集上也取得了較高的識(shí)別率。由于MobileNetV2中采用“點(diǎn)卷積-深度卷積-點(diǎn)卷積”結(jié)構(gòu),其運(yùn)算量和參數(shù)量較直接采用“深度卷積-點(diǎn)卷積”方式更多,MobileNetV2使用的殘差網(wǎng)絡(luò)結(jié)構(gòu)也較直接使用順序級(jí)聯(lián)方式更復(fù)雜,且在實(shí)驗(yàn)部分其在人臉表情識(shí)別率較其他優(yōu)秀模型更低。因此為了更好地保留深度卷積后輸出的特征,不同于MobileNetV2中“先壓縮再擴(kuò)張”的思想,M-MobileNet在深度卷積層輸出后,去掉用于提取非線性特征的激活層,采用線性輸出,同時(shí)為了提高模型的非線性表達(dá),依然在點(diǎn)卷積后采用ReLU激活函數(shù),在各卷積層之間依然采用順序級(jí)聯(lián)方式,不使用殘差連接方式,即采用本文提出的改進(jìn)的深度可分離卷積層。另一方面,由于MobileNetV1和MobileNetV2使用Softmax分類器來進(jìn)行分類,而由于人臉表情特征的特點(diǎn),表情的類間區(qū)分本身就不高,所以Softmax在表情識(shí)別領(lǐng)域并不是很合適[13]。而SVM分類器作為一種具有較強(qiáng)泛化能力的通用學(xué)習(xí)算法,且對(duì)大數(shù)據(jù)高維特征的分類支持較好[14],其中L2-SVM[15]具有較好的可微可導(dǎo)性,故本文網(wǎng)絡(luò)使用L2-SVM代替MobileNet中Softmax分類器,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。實(shí)驗(yàn)驗(yàn)證了M-MobileNet網(wǎng)絡(luò)相比MobileNet網(wǎng)絡(luò)可以有效提高人臉表情識(shí)別的準(zhǔn)確率;同時(shí)為了驗(yàn)證使用SVM分類器的有效性,還增加了與“M-MobileNet+Softmax”網(wǎng)絡(luò)模型的對(duì)比實(shí)驗(yàn)。
傳統(tǒng)標(biāo)準(zhǔn)卷積既過濾輸入又將過濾后的輸出進(jìn)行組合,最終形成一組新的輸出[11],如圖1(a)所示。假設(shè)輸入特征圖大小為M×M,通道數(shù)為C,標(biāo)準(zhǔn)卷積的卷積核大小為N×N,個(gè)數(shù)為K,并且假設(shè)輸出與輸入尺寸一致,則經(jīng)過標(biāo)準(zhǔn)卷積后輸出尺寸為M×M,輸出通道數(shù)為K。傳統(tǒng)標(biāo)準(zhǔn)卷積過程,實(shí)際上包含了兩步:特征過濾和將過濾后的結(jié)果組合,圖1(b)顯示了輸入特征圖與第i(1≤i≤K)個(gè)卷積核進(jìn)行標(biāo)準(zhǔn)卷積的過程。在這個(gè)過程中,首先輸入特征圖中的每個(gè)通道與對(duì)應(yīng)的卷積核的每個(gè)通道進(jìn)行卷積,卷積的結(jié)果是形成了C個(gè)M×M的單通道特征圖,然后將這C個(gè)結(jié)果合并,最終形成一個(gè)M×M×1的單特征圖。由于有K個(gè)卷積核,因此輸入特征圖與所有K個(gè)卷積核進(jìn)行標(biāo)準(zhǔn)卷積后,共有K個(gè)M×M×1結(jié)果,最終結(jié)果為M×M×K的輸出特征圖,如圖1(a)所示。標(biāo)準(zhǔn)卷積的計(jì)算量為:
M×M×N×N×C×K
(1)
(a) 標(biāo)準(zhǔn)卷積
(b) 輸入與第i(1≤i≤K)個(gè)卷積核標(biāo)準(zhǔn)卷積過程示意圖
(c) 深度卷積
(d) 點(diǎn)卷積圖1 標(biāo)準(zhǔn)卷積、深度卷積、點(diǎn)卷積過程示意圖
深度可分離卷積則是將標(biāo)準(zhǔn)卷積分解為一個(gè)深度卷積和一個(gè)點(diǎn)卷積[11],深度卷積過程實(shí)際上是將輸入的每個(gè)通道各自與其對(duì)應(yīng)的卷積核進(jìn)行卷積,最后將得到的各個(gè)通道對(duì)應(yīng)的卷積結(jié)果作為最終的深度卷積結(jié)果。實(shí)際上,深度卷積的過程完成了輸入特征圖的過濾,深度卷積過程如圖1(c)所示,其計(jì)算量為:
M×M×N×N×C
(2)
這里的點(diǎn)卷積則是將深度卷積的結(jié)果作為輸入,卷積核大小為1×1,通道數(shù)與輸入一致。點(diǎn)卷積過程類似標(biāo)準(zhǔn)卷積,實(shí)際上是對(duì)每個(gè)像素點(diǎn)在不同的通道上進(jìn)行線性組合(信息整合),且保留了圖片的原有平面結(jié)構(gòu)、調(diào)控深度。相比于深度卷積,點(diǎn)卷積具有改變通道數(shù)的能力,可以完成升維或降維的功能。點(diǎn)卷積過程如圖1(d)所示,其計(jì)算量為:
M×M×1×1×C×K=M×M×C×K
(3)
因此深度可分離卷積總的計(jì)算量為:
M×M×N×N×C+M×M×C×K
(4)
深度可分離卷積與傳統(tǒng)標(biāo)準(zhǔn)卷積計(jì)算量相比:
(5)
從式(5)可以看出,深度可分離卷積可有效減少計(jì)算量,若網(wǎng)絡(luò)使用卷積核大小為3×3,則深度可分離卷積可減少8至9倍計(jì)算量。相比傳統(tǒng)標(biāo)準(zhǔn)卷積,這種分解在有效提取特征的同時(shí),精度損失也較小[11]。
在MobileNet網(wǎng)絡(luò)中,為了更好地表現(xiàn)網(wǎng)絡(luò)的非線性建模能力,同時(shí)為了防止梯度消失,減少了參數(shù)之間的依存關(guān)系,緩解過擬合發(fā)生,深度可分離卷積在深度卷積和點(diǎn)卷積后都使用了ReLU激活函數(shù)。同時(shí),為了防止梯度爆炸,加快模型的收斂速度,提高模型精度,在ReLU激活函數(shù)前加入BN層,如圖2(a)所示。
(a) MobileNet中深度可分離卷積層 (b) 改進(jìn)的深度可分離卷積層圖2 MobileNet及本文深度可分離卷積模型
ReLU定義如下:
(6)
式中:x表示輸出,f(x)表示輸出。
然而ReLU也有缺陷,它可能會(huì)使神經(jīng)網(wǎng)絡(luò)的一部分處于”死亡”的狀態(tài)。假設(shè)網(wǎng)絡(luò)在前向傳導(dǎo)過程中如果有一個(gè)很大的梯度使得神經(jīng)網(wǎng)絡(luò)的權(quán)重更新很大,導(dǎo)致這個(gè)神經(jīng)元對(duì)于所有的輸入都給出了一個(gè)負(fù)值,然而這個(gè)負(fù)值經(jīng)過ReLU后輸出變?yōu)?,這個(gè)時(shí)候流過這個(gè)神經(jīng)元的梯度就永遠(yuǎn)會(huì)變成0形式,也就是說這個(gè)神經(jīng)元不可逆轉(zhuǎn)地“死去”了。神經(jīng)元保持非激活狀態(tài),且在后向傳導(dǎo)中“殺死”梯度。這樣權(quán)重?zé)o法得到更新,網(wǎng)絡(luò)無法學(xué)習(xí),自然就丟失了信息。而在深度卷積的過程中,由于深度卷積沒有改變通道數(shù)的能力,其提取的特征是單通道的。而ReLU激活函數(shù)在通道數(shù)較少的卷積層輸出進(jìn)行操作時(shí),如果出現(xiàn)這種情況就可能導(dǎo)致信息的丟失,所以深度卷積后進(jìn)行非線性是有害的,甚至可能影響網(wǎng)絡(luò)的建模能力。為此,文獻(xiàn)[12]使用了線性的反轉(zhuǎn)殘差網(wǎng)絡(luò),然而此網(wǎng)絡(luò)應(yīng)用于實(shí)際人臉表情識(shí)別中效果依然不佳,參數(shù)量和運(yùn)算量依然很大,在安卓手機(jī)上測(cè)試時(shí),實(shí)時(shí)性表現(xiàn)也不佳。除此之外,文獻(xiàn)[12]中的網(wǎng)絡(luò)模型允許的輸入尺寸與實(shí)際人臉表情圖像的輸入尺寸也不一致,因此MobileNet難以滿足實(shí)際人臉表情識(shí)別的需要。為了避免這些現(xiàn)象的發(fā)生,本文提出了一種改進(jìn)的深度可分離卷積層,即在深度卷積后去掉中ReLU激活函數(shù)而采用線性輸出,其余與MobileNet中深度可分離卷積層一致,如圖2(b)所示。線性輸出表達(dá)如下:
f(x)=Wx+b
(7)
式中:W表示權(quán)重,b表示偏置,x表示輸入,f(x)表示輸出。
改進(jìn)后的深度可分離卷積層的計(jì)算量與改進(jìn)前相同,即保留了MobileNet網(wǎng)絡(luò)中深度可分離卷積可減少卷積計(jì)算量的優(yōu)勢(shì)。同時(shí),改進(jìn)后的深度可分離卷積層在深度卷積層后采用了線性輸出,使得各通道的信息完全保留下來,從而為后續(xù)人臉表情識(shí)別提供可靠的人臉表情特征。為了驗(yàn)證使用改進(jìn)后的深度可分離卷積層的有效性,本文在實(shí)驗(yàn)部分對(duì)使用未改進(jìn)的深度可分離卷積層的模型進(jìn)行了對(duì)比。
本文受到MobileNet網(wǎng)絡(luò)模型啟發(fā),結(jié)合人臉表情識(shí)別的特點(diǎn),在盡可能在減小網(wǎng)絡(luò)的計(jì)算量并且保持較高的識(shí)別率的原則下,設(shè)計(jì)了一個(gè)基于改進(jìn)深度可分離卷積層輸入尺寸為48×48×1的改進(jìn)MobileNet網(wǎng)絡(luò)模型M-MobileNet,其網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 M-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)
續(xù)表1
(8)
pi的計(jì)算公式為:
(9)
根據(jù)式(8)、式(9)求得所有7個(gè)可能概率,取最大概率對(duì)應(yīng)的類別即為最終預(yù)測(cè)類別。由于人臉不同表情的類間區(qū)分度本身就不高,使用Softmax分類器很可能會(huì)產(chǎn)生誤判,因此在人臉表情識(shí)別方面不宜采用Softmax分類器。針對(duì)此問題,M-MobileNet采用L2-SVM作為分類器。在L2-SVM中,對(duì)于給定訓(xùn)練數(shù)據(jù)(xn,yn),n=1,2,…,N,xn∈RD,tn∈{-1,1},帶有約束性的支持向量機(jī):
(10)
s.t.wTxntn≥1-ξn?n
ξn≥0 ?n
目標(biāo)函數(shù):
(11)
預(yù)測(cè)類別為:
(12)
式中:w表示最優(yōu)超平面法向量,C表示用來調(diào)節(jié)錯(cuò)分樣本的錯(cuò)誤比重,ξn表示松弛因子。
由于L2-SVM挖掘不同類別數(shù)據(jù)點(diǎn)的最大邊緣,具有較好的可微可導(dǎo)性,正則化項(xiàng)對(duì)錯(cuò)分?jǐn)?shù)據(jù)懲罰力度更大[16],且具有較強(qiáng)的泛化能力以及其對(duì)大數(shù)據(jù)高維特征的分類支持較好[14],對(duì)于人臉表情特征區(qū)分較好,所以本文使用SVM分類器替代MobileNet網(wǎng)絡(luò)模型中的Softmax分類器對(duì)目標(biāo)進(jìn)行分類。
改進(jìn)后的網(wǎng)絡(luò)模型參數(shù)及與MobileNetV1、MobileNetV2的參數(shù)對(duì)比如表2所示。
表2 本文模型與MobileNetV1、MobileNetV2參數(shù)量對(duì)比
可以看出,M-MobileNet網(wǎng)絡(luò)模型參數(shù)較MobileNetV1減少90%左右,較MobileNetV2減少88%左右,大大縮減了MobileNet網(wǎng)絡(luò)模型參數(shù)。
本文在PC端上的實(shí)驗(yàn)以Keras深度學(xué)習(xí)框架為基礎(chǔ),以TensorFlow框架作為其后端,編程語(yǔ)言使用Python 3.5,在Windows 7 64位操作系統(tǒng)上進(jìn)行實(shí)驗(yàn)。硬件平臺(tái)為:Intel Core i5-7500 3.4 GHz CPU,8 GB內(nèi)存。數(shù)據(jù)集使用CK+數(shù)據(jù)集(extended Cohn Kanade dataset)[17]和KDEF數(shù)據(jù)集(The Karolinska Directed Emotional Faces dataset)[18]。實(shí)驗(yàn)中采用Adam優(yōu)化器優(yōu)化損失,epoch為100,batch_size為32。
本文的移動(dòng)端的實(shí)時(shí)性實(shí)驗(yàn)在小米8手機(jī)上進(jìn)行,CPU為驍龍710,內(nèi)存6 GB,操作系統(tǒng)為Andriod 9.0。編程語(yǔ)言為Java。
本文在CK+數(shù)據(jù)集上分別進(jìn)行6分類和7分類實(shí)驗(yàn),在KDEF數(shù)據(jù)集上進(jìn)行7分類實(shí)驗(yàn)。
CK+數(shù)據(jù)集包括123名年齡在18~30歲之間的593個(gè)表情序列。其中,帶標(biāo)簽的表情序列有327個(gè),為了避免引起誤會(huì),余下不確定的表情序列不帶標(biāo)簽。標(biāo)簽總共有7類,包括:“快樂”,“悲傷”, “憤怒”,“驚訝”,“恐懼”,“厭惡”和“蔑視”。每個(gè)帶標(biāo)簽的表情序列僅有一個(gè)標(biāo)簽。每個(gè)表情序列都是以中性表情開始,以對(duì)應(yīng)峰值表情結(jié)束。在7分類實(shí)驗(yàn)中,為了比較本文模型和目前國(guó)際上在CK+數(shù)據(jù)集上識(shí)別率處于領(lǐng)先地位的模型的準(zhǔn)確率,在本實(shí)驗(yàn)中,采用國(guó)際上比較通用的數(shù)據(jù)集選取和結(jié)果驗(yàn)證方式,即選用所有帶標(biāo)簽的表情序列中的最后三幀,總共得到了981幅圖像的實(shí)驗(yàn)數(shù)據(jù)集,其表情選取數(shù)量分布如表3所示。然后將數(shù)據(jù)集進(jìn)行交叉驗(yàn)證,國(guó)際上常見的交叉驗(yàn)證策略包括8折交叉驗(yàn)證、10折交叉驗(yàn)證等,本文采用10折交叉驗(yàn)證策略。同理,在6分類實(shí)驗(yàn)中,除了數(shù)據(jù)集選取不同外(6分類實(shí)驗(yàn)中舍棄了蔑視表情),其他步驟與7分類實(shí)驗(yàn)一致。
表3 CK+數(shù)據(jù)集7分類實(shí)驗(yàn)樣本選取數(shù)量分布
KDEF數(shù)據(jù)集包括了20~30歲年齡段的70位業(yè)余演員(35位女性和35位男性)的7類表情圖像,共有4 900幅,拍攝角度包括正負(fù)90度、正負(fù)45度以及正面角度。本文選用正面角度圖像進(jìn)行實(shí)驗(yàn),其數(shù)量分布如表4所示。同樣采用10折交叉驗(yàn)證策略。
表4 KDEF數(shù)據(jù)集實(shí)驗(yàn)樣本選取數(shù)量分布
原始數(shù)據(jù)集的原始圖像中包含了大量與人臉表情特征無關(guān)的冗余信息,且圖像較大,因此不適合直接用于網(wǎng)絡(luò)訓(xùn)練。因此在訓(xùn)練之前,對(duì)輸入圖片進(jìn)行預(yù)處理是必要的。圖3顯示了圖像預(yù)處理前和處理后的人臉表情圖像示例。
圖3 預(yù)處理前后的人臉表情圖像示例
預(yù)處理過程如圖4所示,首先根據(jù)輸入圖片類型判斷是否轉(zhuǎn)換成單通道灰度圖,若圖片已經(jīng)是單通道灰度圖,則直接轉(zhuǎn)到一下步,反之則進(jìn)行轉(zhuǎn)換。然后對(duì)上一步的輸出圖像進(jìn)行人臉檢測(cè),確定人臉區(qū)域。最后根據(jù)人臉區(qū)域?qū)D像進(jìn)行裁剪,將其裁剪至大小為48×48的單通道灰度圖。
圖4 圖像預(yù)處理流程圖
3.4.1CK+數(shù)據(jù)集7分類
本文按照表1所設(shè)計(jì)的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,將預(yù)處理后的圖片輸入網(wǎng)絡(luò),采用10折交叉驗(yàn)證策略對(duì)網(wǎng)絡(luò)性能進(jìn)行評(píng)估。表5顯示了本文模型與其他國(guó)際上在CK+數(shù)據(jù)集(7分類)準(zhǔn)確率上取得領(lǐng)先水平的算法模型的對(duì)比結(jié)果,同時(shí)也對(duì)比了M-MobileNet+Softmax、MobileNet+Softmax、MobileNet+SVM、MobileNetV2四種網(wǎng)絡(luò)模型的準(zhǔn)確率。
表5 不同算法模型在CK+數(shù)據(jù)集(7類)上的準(zhǔn)確率對(duì)比
可以看出,使用本文網(wǎng)絡(luò)M-MobileNet提取特征后,無論是使用Softmax分類器還是SVM分類器,其準(zhǔn)確率都高于其他模型,說明M-MobileNet網(wǎng)絡(luò)具有良好的特征提取能力。而相比于傳統(tǒng)未改進(jìn)的MobileNet網(wǎng)絡(luò)模型,M-MobileNet+Softmax網(wǎng)絡(luò)模型高于未改進(jìn)前0.93%,且本文最終模型M-MobileNet高于未改進(jìn)前0.41%,說明改進(jìn)的深度可分離卷積層相比未改進(jìn)的深度可分離卷積層可以有效提高網(wǎng)絡(luò)的識(shí)別率。從M-MobileNet、MobileNet+Softmax、MobileNetV2的準(zhǔn)確率來看,M-MobileNet高于MobileNetV2網(wǎng)絡(luò)1.13%,高于MobileNet+Softmax網(wǎng)絡(luò)1.03%,說明M-MobileNet提高了MobileNet在人臉表情上的識(shí)別率。從M-MobileNet+Softmax網(wǎng)絡(luò)及M-MobileNet網(wǎng)絡(luò)的準(zhǔn)確率來看,使用SVM分類器高于使用Softmax分類器0.1%,說明使用SVM分類器可以提高模型識(shí)別的準(zhǔn)確率。
3.4.2CK+數(shù)據(jù)集6分類
本文比較了目前國(guó)際上對(duì)CK+數(shù)據(jù)集作6分類準(zhǔn)確率較為領(lǐng)先的模型,同樣采用10折交叉驗(yàn)證策略對(duì)網(wǎng)絡(luò)性能進(jìn)行評(píng)估。表6顯示了本文模型與其他國(guó)際上在CK+數(shù)據(jù)集6分類準(zhǔn)確率上取得領(lǐng)先水平的算法模型的對(duì)比結(jié)果,同時(shí)也對(duì)比了M-MobileNet+Softmax、MobileNet+Softmax、MobileNet+SVM、MobileNetV2四種網(wǎng)絡(luò)模型的準(zhǔn)確率。
表6 不同算法模型在CK+數(shù)據(jù)集(6類)上的準(zhǔn)確率對(duì)比
可以看出,無論是使用Softmax分類器還是使用SVM分類器,使用基于改進(jìn)的深度可分離卷積的M-MobileNet網(wǎng)絡(luò)的模型的準(zhǔn)確率都高于使用未改進(jìn)的深度可分離卷積的模型,再次證明模型中使用改進(jìn)的深度可分離卷積層相比使用未改進(jìn)的深度可分離卷積層的網(wǎng)絡(luò)模型可以有效提高模型的識(shí)別率。從M-MobileNet、MobileNet+Softmax、MobileNetV2的準(zhǔn)確率來看,M-MobileNet高于MobileNetV2網(wǎng)絡(luò)2.68%,高于MobileNet+Softmax網(wǎng)絡(luò)0.87%,進(jìn)一步證明M-MobileNet提高了MobileNet在人臉表情上的識(shí)別率。而雖然在7分類實(shí)驗(yàn)中使用SVM分類器相比使用Softmax分類器模型識(shí)別的準(zhǔn)確率僅提高0.1%,但是在6分類實(shí)驗(yàn)中M-MobileNet網(wǎng)絡(luò)與M-MobileNet+Softmax網(wǎng)絡(luò)相比,其準(zhǔn)確率提高了0.66%,明顯提高了模型識(shí)別的準(zhǔn)確率,說明使用SVM分類器能提高網(wǎng)絡(luò)模型對(duì)人臉表情的識(shí)別準(zhǔn)確率。而本文最終網(wǎng)絡(luò)模型M-MobileNet對(duì)表情分類的準(zhǔn)確率高于表中其他模型。
3.4.3KDEF數(shù)據(jù)集
本文模型在KDEF數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果及與其他算法模型對(duì)比如表7所示。
表7 不同算法模型在KDEF數(shù)據(jù)集上的準(zhǔn)確率對(duì)比
可以看出,本文模型M-MobileNet準(zhǔn)確率最高,高于表中所有其他模型,說明本文模型具有較好的識(shí)別性能。M-MobileNet網(wǎng)絡(luò)模型準(zhǔn)確率高于M-MobileNet+Softmax 0.73%,MobileNet+SVM高于MobileNet+Softmax 0.27%,說明使用SVM分類器相比Softmax分類器可以有效提高準(zhǔn)確率;M-MobileNet網(wǎng)絡(luò)模型的準(zhǔn)確率高于MobileNet+SVM 1.03%,M-MobileNet+Softmax網(wǎng)絡(luò)模型的準(zhǔn)確率高于MobileNet+Softmax 0.58%,說明使用改進(jìn)后的深度可分離卷積模型可以提高深度可分離卷積層的網(wǎng)絡(luò)模型的準(zhǔn)確率,進(jìn)一步證明使用改進(jìn)后的深度可分離卷積可以盡可能防止信息丟失。而M-MobileNet準(zhǔn)確率高于MobileNetV2模型1.53%。
3.4.4移動(dòng)端實(shí)時(shí)性
為了驗(yàn)證本文模型在移動(dòng)端的實(shí)時(shí)性能,本文還在移動(dòng)端上對(duì)比了M-MobileNet與MobileNetV1、MobileNetV2模型在小米8手機(jī)上的實(shí)時(shí)性表現(xiàn),在CK+數(shù)據(jù)集上選取7種表情各一幅典型表情的圖像進(jìn)行預(yù)測(cè),表8顯示了各個(gè)模型預(yù)測(cè)1 000次后的結(jié)果。
表8 本文模型與MobileNetV1、MobileNetV2移動(dòng)端表現(xiàn)對(duì)比
從表8可以看出,M-MobileNet網(wǎng)絡(luò)無論是使用Softmax分類器還是SVM分類器,其實(shí)時(shí)性都比MobileNetV1、MobileNetV2好很多,說明本文模型相比MobileNetV1、MobileNetV2模型具有更好的實(shí)時(shí)性,結(jié)合表2可知,本文模型不僅減少了網(wǎng)絡(luò)參數(shù),同時(shí)還提高了實(shí)時(shí)性性能。同時(shí)從預(yù)測(cè)時(shí)間可以看出,M-MobileNet+Softmax及M-MobileNet二者預(yù)測(cè)時(shí)間都小于40 ms,可以看出二者都具有較好的實(shí)時(shí)性,考慮到二者預(yù)測(cè)時(shí)間相差不大,而在準(zhǔn)確性實(shí)驗(yàn)中SVM分類器具有更好的準(zhǔn)確率,因此本文最終采用SVM分類器。
本文提出了一種改進(jìn)的MobileNet模型M-MobileNet用于人臉表情特征提取及分類。在M-MobileNet網(wǎng)絡(luò)模型中,通過使用改進(jìn)的深度可分離卷積層保證了網(wǎng)絡(luò)的輕量級(jí)特性,解決了深度卷積的輸出使用非線性激活函數(shù)而可能導(dǎo)致信息丟失的問題,提高了網(wǎng)絡(luò)的特征提取能力。同時(shí)為了有效對(duì)表情進(jìn)行分類,使用SVM分類器對(duì)人臉表情進(jìn)行分類,提高了網(wǎng)絡(luò)對(duì)于人臉表情的識(shí)別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文模型不僅提高了模型的準(zhǔn)確率,還實(shí)現(xiàn)與現(xiàn)有其他人臉表情識(shí)別模型更好的識(shí)別性能。在安卓手機(jī)上的實(shí)驗(yàn)證明,本文模型具有相較于改進(jìn)前具有更好的實(shí)時(shí)性。與其他當(dāng)前優(yōu)秀算法模型的比較,也看出本文網(wǎng)絡(luò)模型能夠獲得更好的識(shí)別率,說明其具有良好的應(yīng)用價(jià)值。