蘭凌強,李欣,劉淇緣,盧樹華
(中國人民公安大學(xué) 警務(wù)信息工程與網(wǎng)絡(luò)安全學(xué)院,北京 102600)
人類表達情感的方式多種多樣,但是最為直觀的即是人臉的面部表情。在人與人的日常交流中,人們可以通過他人的表情,判斷其心理狀態(tài),加深相互間的理解,故人臉表情識別一直受到學(xué)者的較多關(guān)注。此外,自動人臉表情識別在智能控制、安全防范、輔助醫(yī)療、自動駕駛和商業(yè)推廣等人機交互領(lǐng)域得到了廣泛的應(yīng)用,成為計算機視覺領(lǐng)域較為活躍的研究課題。近年來,隨著計算能力的不斷提升以及神經(jīng)網(wǎng)絡(luò)的興起,深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于人臉表情識別研究,取得了顯著的進展,特別是各種卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,大大提高了識別的準(zhǔn)確率[1-3]。文獻[1-3]都引入了卷積神經(jīng)網(wǎng)絡(luò)用于提取更加有效的特征,相對于傳統(tǒng)方法[4]如LBP(Local Binary Pattern)[5]提取底層特征送入SVM(Support Vector Machine)進行分類來說,準(zhǔn)確率有大幅度的提升。然而深度學(xué)習(xí)模型的訓(xùn)練需要大量的數(shù)據(jù)樣本和較高的算力,使得自動人臉表情識別的準(zhǔn)確率和實時性仍需進一步提高,因此研究加速模型訓(xùn)練和提高模型性能的方法成為學(xué)者關(guān)注的熱點之一。
目前,大多神經(jīng)網(wǎng)絡(luò)架構(gòu)在訓(xùn)練和測試時使用了批量正則化(Batch Normalization,BN)[6]、實例正則化(Instance Normalization,IN)[7]和組正則化(Group Normalization,GN)[8]或過濾器響應(yīng)正則化(Filter Response Normalization,F(xiàn)RN)[9]等方法,實踐表明這些方法可以加速模型訓(xùn)練,防止過擬合和提高模型性能。但是不同的方法仍面臨一定的局限性,例如,BN方法對于batch size數(shù)值較為敏感,在其數(shù)值較大時,訓(xùn)練和測試結(jié)果較為理想,但是在復(fù)雜背景下或輸入圖片像素較大時,由于GPU(Graphics Processing Unit)顯存有限,只能降低batch size,而其數(shù)值較小時,模型性能并不理想,為克服此類問題,IN和GN等方法相繼提出,最近,Singh和Krishnan[9]提出FRN方法,克服BN方法的batch size依賴,但是該方法的方差對輸出通道大小較為敏感。
因此,本文提出了FRN+BN、IN+GN、BN+GN等聯(lián)合正則化策略,彌補單一優(yōu)化帶來的不足,盡可能使網(wǎng)絡(luò)保留有效的特征信息,改善數(shù)據(jù)分布,提高模型性能。以ResNet18作為基本框架,在標(biāo)準(zhǔn)公開數(shù)據(jù)庫(FER2013[10]數(shù)據(jù)集和CK+[11]數(shù)據(jù)集)上運行實驗,取得了較高的準(zhǔn)確率,實驗結(jié)果表明所提方法能夠提高經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)性能,具有較好的魯棒性。
傳統(tǒng)的基于圖片的表情識別通常是使用手工設(shè)計并提取底層特征,例如LBP、HOG(Histogram of Oriented Gradient)[12]、SIFT (Scale-Invariant Feature Transform)[13]等,在早期,這些方法在一些數(shù)據(jù)集上都取得了較好的結(jié)果[11,14-15]。隨著ILSVRC2013(Large Scale Visual Recognition Challenge 2013)的落幕,深度神經(jīng)網(wǎng)絡(luò)得以迅速的發(fā)展,并逐步應(yīng)用到人臉表情識別中。深度神經(jīng)網(wǎng)絡(luò)特別是深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是提升機器視覺任務(wù)方面(例如人臉識別[16]、屬性識別[17-18]和表情識別[19-20]等)重要方法。卷積神經(jīng)網(wǎng)絡(luò)可進行人臉表情深層特征提取和分類,對于各種干擾更加具有魯棒性,因此更適合分類,使識別準(zhǔn)確率得到顯著提高。以下從人臉表情識別的神經(jīng)網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)正則化兩方面簡要介紹。
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)受到學(xué)者較多關(guān)注。Yu和Salzmann[21]提出了新的網(wǎng)絡(luò),在經(jīng)過卷積后的特征圖中提取協(xié)方差矩陣,計算矩陣參數(shù)的二階變換,對矩陣進行參數(shù)向量化,由此二階統(tǒng)計特征也開始運用到識別上。Gao等[22]運用全局二階統(tǒng)計特征提出了Gsop(Global second-order pooling)網(wǎng)絡(luò),可以捕獲沿通道尺寸或位置維度的全局二階統(tǒng)計量,充分利用圖像中的上下文信息并且內(nèi)存和計算復(fù)雜度都減小。Huang和Luc[23]提出了新穎的黎曼網(wǎng)絡(luò)架構(gòu),為黎曼流形上的對稱正定矩陣(Symmetric Positive Definite,SPD)深度非線性學(xué)習(xí)開辟了新的方向,且把Riemannian結(jié)構(gòu)并入深度網(wǎng)絡(luò)體系結(jié)構(gòu)以壓縮數(shù)據(jù)空間和權(quán)重空間。隨著SPD網(wǎng)絡(luò)的提出,Acharya等[24]把SPD網(wǎng)絡(luò)與VGG網(wǎng)絡(luò)相結(jié)合,把得到的卷積特征圖先展開計算其協(xié)方差矩陣,再把協(xié)方差矩陣送入SPD網(wǎng)絡(luò)中進行運算。Hamester等[25]提出了一種多通道卷積神經(jīng)網(wǎng)絡(luò),通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和自動編碼器的信息來識別面部表情。Mollahosseini等[26]等提出具有Inception層的網(wǎng)絡(luò)架構(gòu),把Inception運用在人臉表情識別上面,結(jié)合面部動作進行表情分析。Chen和Hu[27]提出類間關(guān)系學(xué)習(xí)網(wǎng)絡(luò),同時輸入兩張不同表情的圖片經(jīng)過幾個Inception層得到特征圖進行融合學(xué)習(xí)不同表情之間的關(guān)系,再用注意力機制送入分類器。Liu等[28]提出了一種具有可變動作部分約束的3D卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以檢測到特定的面部部分動作并且獲取到易區(qū)分的表征特征。Nguyen等[29]提出了一個基于殘差網(wǎng)絡(luò)為基礎(chǔ)的多特征水平的融合方法,利用底層特征和高層特征的融合來輔助提高其準(zhǔn)確率。
深度學(xué)習(xí)模型的加速和優(yōu)化發(fā)展迅速,2015年,Ioffe和Szegedy[6]提出批量正則化,對經(jīng)過卷積層之后的數(shù)據(jù)進行標(biāo)準(zhǔn)化,加速網(wǎng)絡(luò)的處理速度,但是批量正則化對于批處理的大小敏感,導(dǎo)致批處理越小其效果越差。2017年,Ulyanov等[7]提出實例正則化,對單個圖片進行處理保留圖像中顏色、風(fēng)格,虛擬的或現(xiàn)實的不敏感的特征,其效果在圖像風(fēng)格遷移,高分辨重組等方面具有良好表現(xiàn)。Wu和He[8]在2018年為克服批量正則化的局限提出了組正則化,提高了在批處理較小時的效果,但是在批處理大時并沒有批量正則化的效果好。2019年,谷歌團隊[9]提出了過濾器響應(yīng)正則化,對于組正則化來說又是進一步的提升,其保留了組正則化的優(yōu)點,同時保留了批量正則化在批處理大時的效果。
正則化的基本原理是改善神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型的數(shù)據(jù)分布情況,若沒有做正則化處理,那么每一批次訓(xùn)練數(shù)據(jù)的分布都不一樣,由于每層輸入數(shù)據(jù)分布都在不斷的變化,這會導(dǎo)致網(wǎng)絡(luò)難以收斂。而正則化主要是對輸入的數(shù)據(jù)進行標(biāo)準(zhǔn)化以提高代碼的處理速度[30],防止過擬合,進而增強其泛化能力。在深度神經(jīng)網(wǎng)絡(luò)中常用的幾種正則化方法有:批量正則化、實例正則化、組正則化和過濾器響應(yīng)正則化。然而每一種正則化都應(yīng)用在不同的領(lǐng)域上,批量正則化主要用于圖像分類和識別問題上;實例正則化主要用于風(fēng)格遷移、圖像超分辨率上;而組正則化是彌補了批量正則化在批處理過小時表現(xiàn)效果較差而提出,在一些極端條件下可以等價于實例正則化;過濾器響應(yīng)正則化不僅僅彌補批量正則化對于批處理過小時表現(xiàn)差同時還保持了批量正則化對于批處理大時的效果。
批量正則化是最早提出,也是效果最好的一種正則化的方式,其主要是通過式(1)計算其均值,再利用式(2)對每個通道進行正則化[6]。
式中:xnhwc為特征張量元素值,x=[N,C,H,W]為特征張量,N為批處理的大小,C為通道數(shù),H和W分別為特征圖的高和寬;μBN為計算后特征圖的均值;ω為常數(shù);^xBN為特征經(jīng)過正則化操作后的值。
批量正則化主要是針對每一個神經(jīng)元,使數(shù)據(jù)在進入激活函數(shù)之前,沿著通道計算批處理的均值、方差,強制使得數(shù)據(jù)保持在均值為0,方差為1的正態(tài)分布,減少訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時內(nèi)部協(xié)變量的偏移,避免梯度消失,提高學(xué)習(xí)速度并且加快收斂速度,這使得批量正則化成為了一些主流的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的一部分,例如ResNeXt[31]、Inception[32]、Dense Net[33]等,批 正 則 化 也 有 一 定 的 缺點,因為均值和方差是根據(jù)訓(xùn)練集預(yù)先計算得出,運行通常使用平均值,因此在測試階段沒有進行正則化,當(dāng)目標(biāo)數(shù)據(jù)分布發(fā)生變化,訓(xùn)練計算出的結(jié)果也可能會產(chǎn)生變化,這些問題會導(dǎo)致在訓(xùn)練和測試時產(chǎn)生矛盾。此外,批處理的大小對于合理估計訓(xùn)練數(shù)據(jù)的均值和方差有較大大的影響。
與批量正則化不同的是,批量正則化注重每一次批處理的大小進行正則化,保證數(shù)據(jù)分布一致,因為判別模型中結(jié)果決于數(shù)據(jù)整體的分布情況。然而實例正則化是對每個批次中的單個圖片進行正則化,所以實例正則化的信息都來自于自身的圖片,相當(dāng)于對全局信息做了一次整合和調(diào)整,但是對于各個通道之間沒有信息的交流,其主要是通過式(3)計算其均值,接著利用式(4)對單個特征圖進行正則化[7]。
式中:μIN為計算后特征圖的均值;^xIN為特征經(jīng)過正則化操作后的值。
實例正則化主要用于風(fēng)格遷移和類似的任務(wù)上,因為它可以從內(nèi)容中過濾出特定實例的對比信息。但是把實例正則化主要用于圖像分類的問題上,相比批量正則化的結(jié)果來說稍差[34]。
組正則化是為了解決批量正則化中批處理的大小過于小而提出的,組正則化是將通道分成組,并在每組內(nèi)計算正則化的均值和方差。組正則化的計算與批量大小無關(guān),所以其準(zhǔn)確率在各種批量大小下都很穩(wěn)定,組正則化首先是通過式(5)計算分組的均值,接著通過式(6)對分組進行正則化操作,G為對通道數(shù)C的分組大小[8]。
式中:G為通道分組數(shù)量;μGN為計算后特征圖的均值;為特征經(jīng)過正則化操作后的值;g為通道分組后的組標(biāo)。
過濾器響應(yīng)正則化和實例正則化是在同一個維度進行操作,對每一個樣本的每一個通道:
式中:γ和β為可學(xué)習(xí)的參數(shù),通過網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)得到;v2為特征圖的二次范數(shù)的平均值;為正則化后特征取值;yi為特征經(jīng)過正則化操作后網(wǎng)絡(luò)輸出的值。
目前,絕大多數(shù)的深度網(wǎng)絡(luò)使用的都是單一的正則化策略,該策略只能夠保留其自身的優(yōu)勢,同時也會帶來一定不足。聯(lián)合正則化策略,使用了兩種正則化相結(jié)合的優(yōu)化方法,保存了兩種正則化策略的優(yōu)點,還互補了兩者的不足。就4種正則化策略來說,批量正則化和組正則化保留了各個樣本之間的區(qū)別,但是也使得卷積神經(jīng)網(wǎng)絡(luò)容易受到外觀變換的影響。實例正則化消除了個體的對比,但是同時消減了有用的信息,過濾器響應(yīng)正則化彌補了批量正則化的缺點,同時還保持了批量正則化的優(yōu)點,但是不適用于非卷積運算,并且過濾器響應(yīng)正則化的方差對輸出通道大小敏感。上述方法都有著各自的局限性,綜上考慮,提出聯(lián)合正則化策略引入到網(wǎng)絡(luò)結(jié)構(gòu)中以保留各自的優(yōu)勢,并形成互補性。借鑒文獻[35]思路,對ResNet18殘差網(wǎng)絡(luò)的基本模塊進行改善,在通過第一個卷積產(chǎn)生64個通道后,將64個通道分成兩個32通道,把這兩個32通道分別送到不同正則化函數(shù)如FRN+BN、IN+GN 以 及BN+GN 再 分 別 通 過式(10)~式(12)進行正則化處理,接著把正則化過后的兩個32通道拼接在一起,送到下一個卷積。
為評估所提出的聯(lián)合正則化方法的效果和泛化性,本文在2 個典型的國際公開數(shù)據(jù)集(FER2013和CK+)上進行了實驗。以下將簡要介紹一下這2個數(shù)據(jù)集。
3.1.1 FER2013數(shù)據(jù)集
該數(shù)據(jù)集是由ICML(International Conference on Machine Learning)2013[10]挑戰(zhàn)產(chǎn)生,是表情識別數(shù)據(jù)集中比較大的數(shù)據(jù)集,這些圖片都是從谷歌圖片中獲取并且每張圖片是在非限制條件下拍攝,所以這些圖片可能帶有噪聲或者是質(zhì)量相對較差。所有的圖片都經(jīng)過預(yù)處理過并且裁剪為48×48。包含了28 709張訓(xùn)練圖片,3589張驗證圖片和3589張測試圖片都帶有7種表情標(biāo)簽,即生氣、厭惡、害怕、高興、傷心、驚訝和中性。這7種表情分類是基于心理學(xué)家Ekman與Friesen[36]對表情做出了定義,將表情分為6種(生氣、厭惡、害怕、高興、傷心和驚訝)適用于不同種族和文化差異的基礎(chǔ)上,后期又添加了中性表情與其中一共構(gòu)成7 種表情。圖1(a)展示了FER2013各個表情分類的示例,圖1(b)給出了FER2013各個表情數(shù)量的分布情況。3.1.2 CK+數(shù)據(jù)集
圖1 FER2013數(shù)據(jù)集表情分類示例及表情數(shù)量分布Fig.1 Samp les of FER2013 dataset for facial expression and distribution of number of each facial expression
擴展CK+數(shù)據(jù)集用于評估人臉識別系統(tǒng)最廣泛的實驗室控制數(shù)據(jù)集。CK+包含了從123個對象中提取的593視頻序列。這些序列持續(xù)時間從10幀到60幀不等,展示了從中性臉表情到高峰表情的轉(zhuǎn)變。在這些視頻中來自118個對象的327個序列帶有7個基礎(chǔ)表情標(biāo)簽(生氣、蔑視、厭惡、害怕、高興、傷心和驚訝)都是基于面部運動編碼系統(tǒng)。與FER2013不同,CK+中用了蔑視代替中性表情并且CK+沒有提供專門的訓(xùn)練集、驗證集、測試集,所以算法的評估并沒有統(tǒng)一?;陟o態(tài)的圖片方法,大多數(shù)人使用的是提取最后1~3幀具有高峰表情的幀和每個序列的第1幀(中性面),然后把這些數(shù)據(jù)分為n組,進行n倍的交叉驗證實驗,一般n取5、8、10。圖2(a)展示了CK+表情分類的示例,圖2(b)給出了CK+各個表情數(shù)量的分布情況。
圖2 CK+數(shù)據(jù)集表情分類示例及表情數(shù)量分布Fig.2 Samples of CK+dataset for facial expression and distribution of number of each facial expression
基于ResNet18網(wǎng)絡(luò)架構(gòu)基礎(chǔ),提出3種聯(lián)合正則化模型對網(wǎng)絡(luò)進行優(yōu)化,并用于表情識別中,把過濾器響應(yīng)正則化與批量正則化、實例正則化與組正則化、組正則化和批量正則化分別組合。ResNet18包含了4個殘差塊,如圖3中(a)表示使用了單一正則化策略(BN、FRN、GN和IN)作為基礎(chǔ)模塊。筆者把殘差網(wǎng)絡(luò)第1層卷積7×7用3×3卷積替代,因為FER2013和CK+都是灰度圖像,于是把這2個數(shù)據(jù)集的圖片復(fù)制成3份使得殘差網(wǎng)絡(luò)的輸入為3通道,在最后一個卷積層和全連接層之間加入了丟棄層為了防止過擬合,并且在網(wǎng)絡(luò)的最后只加了一個帶有分類器的全連接層,減少了計算量。僅將所提的3種組合優(yōu)化方式添加到殘差網(wǎng)絡(luò)中的前3個殘差塊中,最后一個殘差塊保留不動。對于每一個殘差塊,在第一個卷積層后面的批量正則化改成3種組合模式進行優(yōu)化,如圖3中(b)、(c)、(d)所示。
之所以不在殘差網(wǎng)絡(luò)的恒等路徑上加入優(yōu)化函數(shù),是基于文獻[37]中提出的對于殘差網(wǎng)絡(luò)來說不需要對恒等路徑做過多的處理,否則會導(dǎo)致殘差網(wǎng)絡(luò)的效率降低。也不在第2個卷積層后加入組合的優(yōu)化策略是為了避免匹配的問題,這樣的設(shè)計是對模型容量大小來考慮,另一方面可以使用不同優(yōu)化函數(shù)的優(yōu)點相互結(jié)合,具有互補性。如圖3中(b)所示,把過濾器響應(yīng)正則化與批量正則化相結(jié)合,彌補了批量正則化的缺點,同時還繼承了過濾器響應(yīng)正則化優(yōu)點。如圖3中(c)所示,把實例正則化和組正則化相結(jié)合,這樣可以利用實例正則化學(xué)習(xí)到對形狀變換,比如顏色,風(fēng)格,虛擬的或現(xiàn)實的不敏感的特征,利用組正則化對于批處理大小的不敏感性來彌補批量正則化的不足,保留其紋理信息。如圖3中(d)所示,把組正則化與批量正則化相結(jié)合,用組正則化來彌補批量正則化對批處理大小敏感問題,利用批量正則化來進行各通道信息交流。
圖3 網(wǎng)絡(luò)架構(gòu)Fig.3 Network architecture
實驗是在Ubuntu16.04系統(tǒng)下利用Pytorch 0.4.1運行并且使用了Nvidia RTX 2070 GPU進行訓(xùn)練,權(quán)重更新使用了隨機梯度下降將其設(shè)置動量為0.9,權(quán)重衰減為0.000 5。初始的學(xué)習(xí)率設(shè)置為0.01,迭代次數(shù)設(shè)置為350并且在80次迭代后開始衰減。在訓(xùn)練過程中,首先對面部表情分類器進行了微調(diào),為了防止過擬合提高其準(zhǔn)確率,其次對數(shù)據(jù)集都采取了數(shù)據(jù)增強的策略,對每一張數(shù)據(jù)集的圖片隨機創(chuàng)建了10張大小為44×44的裁剪圖片。此外,還收集了每個面部表情的10張?zhí)幚磉^的圖像,通過裁剪圖片的右上角、左上角以及中心等區(qū)域來測試,最后通過對這10張?zhí)幚磉^后的圖片取平均誤差減少分類錯誤,做出判斷。
在實驗中,運用了所提出的3種聯(lián)合正則化方案的基本框架是采用了文獻[37]中的Res-Net18網(wǎng)絡(luò),其中的ResNet18使用單一的批量正則化進行優(yōu)化。對所提出的每一種正則化方案進行了命名,將FRN+BN聯(lián)合正則化稱為Model1;IN+GN聯(lián)合正則化稱為Model2;BN+GN聯(lián)合正則化稱為Model3。
表1展示了所提出的聯(lián)合正則化方法及基礎(chǔ)框架在數(shù)據(jù)集FER2013上私有測試集的性能比較,從表1可以看出,本文所提出的3種聯(lián)合正則化策略相較于文獻[38]中的殘差網(wǎng)絡(luò)框架的準(zhǔn)確率都有一定的提高,其中Model1取得了最優(yōu)的效果。
表1 基礎(chǔ)框架以及添加聯(lián)合正則化策略后的實驗結(jié)果Table 1 Experim ental results of basic fram ework and adding join t norm alization strategies
為了比較不同數(shù)量的聯(lián)合正則化對于Res-Net18的效果,在數(shù)據(jù)集FER2013上進行了測試,結(jié)果如表2所示。其中,殘差網(wǎng)絡(luò)具有4個殘差塊,0表示不加入聯(lián)合正則化,1-2、1-3以及1-4分別表示在前2個殘差塊、前3個殘差塊以及全部殘差塊都加入了聯(lián)合正則化。從實驗結(jié)果得出,Model1、Model2和Model3加入聯(lián)合正則化在淺層時能夠提高網(wǎng)絡(luò)性能,其中在前3個殘差塊中使用Model1取得了最優(yōu)的效果,可能源于在底層中使用聯(lián)合正則化能夠最大可能保留了有效特征,輔助提高了準(zhǔn)確率。但是加入在最后一個殘差塊時3種聯(lián)合正則化模型的性能都開始下降,表明在高層中使用BN保留其抽象信息可能更為重要。
表2 殘差網(wǎng)絡(luò)添加聯(lián)合正則化數(shù)量的效果比較Table 2 Com parison of im pact of adding num ber of join t norm alization based on residual network
此外,筆者對單一優(yōu)化以及聯(lián)合正則化進行了對比,通過對不同數(shù)量的聯(lián)合正則化的效果實驗,采用前3個殘差塊加入聯(lián)合正則化(ResNet18(1-3)),為了進行對比實驗,將聯(lián)合正則化部分替換成單一優(yōu)化,具體實驗結(jié)果如表3所示。從表3可以看出,僅單一使用FRN優(yōu)化的準(zhǔn)確率為72.276%,但是Model1(FRN+BN)聯(lián)合正則化達到了73.558%,與單一使用FRN相比效果有較為明顯提升。僅使用IN優(yōu)化與Model2相比,Model2(IN+GN)的效果提升了0.362%,Model2與Model3中都使用了GN與其他正則化函數(shù)的結(jié)合,其結(jié)果與僅使用GN的效果相比也有一定的提高??梢姡?lián)合正則化策略能夠融合2種正則化方法的優(yōu)點,提高網(wǎng)絡(luò)性能。
表3 單一正則化與聯(lián)合正則化(在前3個殘差塊中使用)的比較Tab le 3 Com parison between individual norm alization and joint norm alization(used in the first three residual blocks)
為進一步研究所提正則化策略的性能,將本文Model1、Model2以及Model3與目前已有比較新的幾種方法(SHCNN[39]、文獻[40]、IcRL[27]和文獻[41])在FER2013數(shù)據(jù)集上進行了比較,結(jié)果如表4所示。SHCNN[39]提出了一個3個卷積層(5×5,3×3,5×5)的淺層網(wǎng)絡(luò),為了防止過擬合以及梯度爆炸的問題。在文獻[40]中,對于基礎(chǔ)的Softmax函數(shù)進行了研究并進行了改善,通過控制余弦值和輸入特征圖的大小來分析和提高Softmax函數(shù),從而獲得更加具有區(qū)分力的特征,以助于提高表情識別的準(zhǔn)確率。文獻[27]提出了一個新的網(wǎng)絡(luò)架構(gòu)(IcRL),同時從兩個不同表情的圖像中提取特征,然后將兩個提取的特征以隨機比率進行整合,從而獲得混合特征。還提出了一個關(guān)注模塊,為混合特征的每個像素分配權(quán)重。最后,將加權(quán)后的混合特征輸入到后續(xù)的分類模塊中。整個網(wǎng)絡(luò)訓(xùn)練的目的是輸出每個表達式的正確比例,從而學(xué)習(xí)不同類別的表情之間的相互關(guān)系,并擴大類間距離與類內(nèi)距離之比。文獻[41]是在類感知余量和對人臉表情識別三元組損失具有異常值抑制的基礎(chǔ)上提出了一個新的Triplet損失函數(shù),對于每一對表情例如高興和害怕都分配了自適應(yīng)的余量參數(shù),并且根據(jù)特征距離分布拋棄異常的 Triplet。這些方法都在FER2013數(shù)據(jù)集上都取得了良好的效果。相比較而言,本文所提Model1取得了最高的準(zhǔn)確率,至少提高了約1%。圖4展示了Model1在FER2013上私有測試集和公有測試集的混淆矩陣。
表4 本文方法與目前較新的方法在FER2013數(shù)據(jù)集上準(zhǔn)確率比較Table 4 Com parison of accuracy rate between proposed method and state-of-the-artmethods on FER2013 dataset
圖4 FER2013私有和公有測試集混淆矩陣Fig.4 Confusion matrix for FER2013 private and public test sets
為了研究所提正則化策略在其他數(shù)據(jù)集上的性能,選取CK+數(shù)據(jù)集進行了實驗,并與一些方法的結(jié)果進行了比較,具體內(nèi)容如表5所示。對于CK+數(shù)據(jù)集使用了十倍交叉驗證法進行驗證。從表5中可以得出,對于CK+數(shù)據(jù)集來說,所提出的聯(lián)合正則化模型相對于文獻[38]的基本框架來說準(zhǔn)確率有較為明顯的提高,最多提高了5.6%。此外本文展示了Model1在CK+數(shù)據(jù)集上的混淆矩陣,如圖5所示。但是其中7種表情中,蔑視使用的訓(xùn)練樣本只有54張圖片,數(shù)量較少導(dǎo)致其識別準(zhǔn)確率較低,只有78%,從而影響了平均準(zhǔn)確率。從結(jié)果可以看出所提出的正則化策略性能較好,優(yōu)于部分所比較的方法,表明了聯(lián)合正則化具有一定的優(yōu)越性。
表5 本文方法與目前較新的方法在CK+數(shù)據(jù)集上準(zhǔn)確率比較Tab le 5 Com parison of accuracy rate between p roposed m ethod and state-of-the-art m ethods on CK+dataset
圖5 CK+數(shù)據(jù)集混淆矩陣Fig.5 Confusion matrix for CK+dataset
從4.1節(jié)、4.2節(jié)結(jié)果可以看出,相對于無正則化和單一正則化方法,所提出的聯(lián)合正則化策略在非限制條件下和限制條件下兩種數(shù)據(jù)集上表現(xiàn)較好,表明將聯(lián)合正則化引入卷積神經(jīng)網(wǎng)絡(luò)中,可使網(wǎng)絡(luò)既能利用單一正則化的優(yōu)點,又能保留與表情相關(guān)的有效特征,從而提高網(wǎng)絡(luò)的性能。由于沒有增加通道數(shù)量,故聯(lián)合正則化策略并沒有增加計算量。
Model1采用FRN+BN策略,F(xiàn)RN彌補了BN批處理大小的問題,同時消除尺度帶來的問題,而BN保留紋理相關(guān)的特征,兩者結(jié)合盡可能地保留了與表情相關(guān)的有效特征,提高了識別準(zhǔn)確率。Model2采用IN+GN策略,在底層使用IN保留例如顏色、風(fēng)格等不敏感的特征,同時結(jié)合GN保留紋理信息消除對批處理大小的依賴,改善單一正則化的弱點。Model3采用BN+GN策略,表明對于單一使用BN不如使用BN和GN聯(lián)合正則化的效果,在同時使用GN和BN的過程中,部分的特征圖使用了GN消減了僅使用BN時對于批處理大小的過度依賴,提高了其準(zhǔn)確率。
此外,使用聯(lián)合正則化在底層保留部分除紋理以外的特征能夠輔助提高分類準(zhǔn)確率,但在高層,相關(guān)內(nèi)容信息可能更為重要,因此,在底層使用不同的正則化策略利用各自的優(yōu)點存儲不同的特征能夠更好地提高模型性能。
1)本文提出了3種聯(lián)合正則化策略,將過濾器響應(yīng)正則化與批量正則化、實例正則化和組正則化、組正則化和批量正則化兩兩結(jié)合,彌補單一正則化所帶來的不足,盡可能保留有效的特征信息,提高網(wǎng)絡(luò)分類的準(zhǔn)確性。
2)Model1在國際公開數(shù)據(jù)集FER2013取得73.558%的準(zhǔn)確率,CK+上取得了94.9%的準(zhǔn)確率,表現(xiàn)效果比Model2和Model3更好并且優(yōu)于諸多當(dāng)前人臉表情識別方法。
3)聯(lián)合正則化策略,可以嘗試嵌入到絕大多數(shù)的網(wǎng)絡(luò)框架中,加速模型訓(xùn)練,輔助提高其效果以及泛化能力。