亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于生成對(duì)抗網(wǎng)絡(luò)和網(wǎng)絡(luò)集成的面部表情識(shí)別方法EE-GAN

        2022-04-12 09:24:24楊鼎康黃帥王順利翟鵬李一丹張立華
        計(jì)算機(jī)應(yīng)用 2022年3期
        關(guān)鍵詞:特征模型

        楊鼎康,黃帥,王順利,翟鵬,李一丹,張立華,4,5*

        (1.復(fù)旦大學(xué)工程與應(yīng)用技術(shù)研究院,上海 200433;2.上海智能機(jī)器人工程技術(shù)研究中心,上海 200433;3.智能機(jī)器人教育部工程研究中心,上海 200433;4.季華實(shí)驗(yàn)室,廣東佛山 528200;5.吉林省人工智能與無(wú)人系統(tǒng)工程研究中心,長(zhǎng)春 130000)

        0 引言

        面部表情是人們?cè)谌粘I钪凶钭匀弧⒆钇毡榈膫鬟_(dá)情感狀態(tài)和意圖的信號(hào)[1]。Mehrabian 等[2]的研究發(fā)現(xiàn),面部表情傳遞的有效信息占比達(dá)55%,而通過(guò)單詞傳遞的有效信息占比卻僅僅只有7%,這表明面部表情是人們情感交流的重要特征,因此,面部表情識(shí)別(Facial Expression Recognition,F(xiàn)ER)有助于獲取更多有效信息[3],在人機(jī)交互[4]、智慧醫(yī)療[5]和安全駕駛[6]等領(lǐng)域有廣闊的應(yīng)用前景。

        面部表情識(shí)別(FER)的傳統(tǒng)方法是通過(guò)人工標(biāo)注特征或淺層學(xué)習(xí)表征來(lái)完成表情識(shí)別任務(wù),例如局部二進(jìn)制模式(Local Binary Patterns,LBP)[7]、多平面LBP[8]、非負(fù)矩陣分解[9]和稀疏學(xué)習(xí)[10];但傳統(tǒng)方法容易受到外界干擾的影響,其模型的泛化能力和魯棒性有待提升。自2013 年以來(lái),受FER2013[11]和野外情緒識(shí)別[12-14]等比賽的舉辦、運(yùn)算能力的大幅提高等因素的影響,以及機(jī)器學(xué)習(xí)和深度學(xué)習(xí)迅速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用到面部表情識(shí)別任務(wù)中,這些方法[15-17]擁有較好的識(shí)別精度和魯棒性,極大超越了傳統(tǒng)方法取得的結(jié)果。

        盡管FER 的現(xiàn)有研究已經(jīng)取得了一些成果[18-20],但是大多數(shù)研究者僅聚焦于探索單一的網(wǎng)絡(luò)模型結(jié)構(gòu),沒(méi)有考慮不同深度網(wǎng)絡(luò)學(xué)習(xí)到的特征表達(dá)之間的互補(bǔ)性[21],只能學(xué)習(xí)到特定層級(jí)的表情特征,限制了模型的泛化能力;同時(shí)由于大部分應(yīng)用于FER 任務(wù)的公開數(shù)據(jù)集[22-24]中存在著表情標(biāo)簽源域數(shù)據(jù)分布不均衡的問(wèn)題,例如某類別標(biāo)簽數(shù)據(jù)較少,導(dǎo)致模型難以學(xué)習(xí)到對(duì)應(yīng)表情的特征,從而限制了FER 研究的發(fā)展和性能的提升。

        為解決上述問(wèn)題,本文提出了一種包含網(wǎng)絡(luò)集成模型Ens-Net(Ensemble Networks)的端到端深度學(xué)習(xí)框架(End to End-Generative Adversarial Network,EE-GAN),用以緩解數(shù)據(jù)集樣本中的數(shù)據(jù)分布不平衡問(wèn)題。所述的Ens-Net 充分應(yīng)用了VGG13、VGG16 以及ResNet18 等網(wǎng)絡(luò)獲取的不同深度的表情特征,并將其在特征級(jí)別進(jìn)行融合。本文所提框架方法在FER2013、CK+、JAFFE 數(shù)據(jù)集上分別達(dá)到了82.1%,84.8%和91.5%的精度,驗(yàn)證了提出方法的有效性。

        具體來(lái)說(shuō),本文的貢獻(xiàn)包括2 個(gè)方面:

        1)提出了一種集成網(wǎng)絡(luò)模型Ens-Net,通過(guò)集成異構(gòu)網(wǎng)絡(luò)的方式,獲取包含不同級(jí)別語(yǔ)義的融合特征,提高了分類特征向量的表征能力,以幫助模型更好地進(jìn)行決策。

        2)基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)對(duì)抗學(xué)習(xí)的思想,提出了端到端的學(xué)習(xí)框架EE-GAN,有效緩解了面部表情數(shù)據(jù)集標(biāo)簽分布不均衡的問(wèn)題,對(duì)現(xiàn)有的面部表情數(shù)據(jù)集實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng)和擴(kuò)充。

        通過(guò)與單一的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型和現(xiàn)有基于視圖學(xué)習(xí)的生成式表情識(shí)別方法比較,本文進(jìn)行了大量的對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了該模型框架的有效性和優(yōu)越性。

        1 相關(guān)工作

        針對(duì)基于深度學(xué)習(xí)方法的靜態(tài)FER 任務(wù),一般的步驟是圖像預(yù)處理后,通過(guò)深度神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征,再利用學(xué)習(xí)到的特征完成后續(xù)的表情分類。卷積神經(jīng)網(wǎng)絡(luò)能夠準(zhǔn)確地學(xué)習(xí)圖像的特征信息[15-17],Krizhevsky 等[15]提出AlexNet,此方法可以加深網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習(xí)圖像中更深層次和更高維度的特征信息,同時(shí)也引入Dropout 機(jī)制防止模型過(guò)擬合;Simonyan 等[16]使用卷積核的堆疊方式,使得具有相同感知野的情況下,網(wǎng)絡(luò)結(jié)構(gòu)更深;He 等[17]則通過(guò)殘差學(xué)習(xí)解決深度神經(jīng)網(wǎng)絡(luò)的退化問(wèn)題。先前的研究表明,多個(gè)網(wǎng)絡(luò)特征融合方法的性能要優(yōu)于單一網(wǎng)絡(luò)的性能。Ciregan 等[25]受大腦皮層中神經(jīng)元的微列啟發(fā),將多個(gè)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)列結(jié)合組成多列DNN,證明了增加網(wǎng)絡(luò)寬度可以降低圖像的分類誤差;Bargal 等[26]將從不同網(wǎng)絡(luò)學(xué)習(xí)到特征進(jìn)行級(jí)聯(lián)以獲得單個(gè)特征向量來(lái)描述輸入圖像;Hamester 等[27]將有監(jiān)督方式訓(xùn)練的CNN 和無(wú)監(jiān)督方式訓(xùn)練的卷積自動(dòng)編碼器進(jìn)行網(wǎng)絡(luò)集成,以增強(qiáng)網(wǎng)絡(luò)的多樣性。與現(xiàn)有方法不同,本文的網(wǎng)絡(luò)集成策略將不同深度的語(yǔ)義特征進(jìn)行融合,以獲取不同尺度下潛在的重要表情特征,使得模型能夠?qū)W習(xí)到更多樣、全面的特征信息。

        最近,基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的方法運(yùn)用到了FER 任務(wù)[27-28]中。隨著更多GAN 的變體不斷提出,基于對(duì)抗式學(xué)習(xí)的方法能進(jìn)行更好的解耦學(xué)習(xí)和表征學(xué)習(xí),實(shí)現(xiàn)針對(duì)不同場(chǎng)景下的FER。Yang等[28]利用從條件生成對(duì)抗網(wǎng)絡(luò)(conditional Generative Adversarial Network,cGAN)模型中提取的非中性表情的殘基成分加入分類網(wǎng)絡(luò)中,以促進(jìn)學(xué)習(xí)更精細(xì)化的表情特征。Chen 等[29]提出了一種隱私保護(hù)表示學(xué)習(xí)變體GAN,該算法結(jié)合了變分自動(dòng)編碼器(Variational AutoEncoder,VAE)和GAN 來(lái)學(xué)習(xí)一種身份不變的表示形式,并且可以生成用于保留表情的面部圖像。Yang 等[30]提出了由兩個(gè)部分組成的身份自適應(yīng)生成模型:上半部分使用cGAN 生成具有不同表情的同一主題的圖像,下半部分在不涉及其他個(gè)體的情況下針對(duì)子空間進(jìn)行FER,因此可以很好地緩解身份變化。

        盡管這些方法都提高了FER 的性能,但是卻沒(méi)有考慮選取的數(shù)據(jù)集內(nèi)部表情標(biāo)簽數(shù)量分布不均衡的問(wèn)題。不同數(shù)據(jù)集的數(shù)據(jù)所在源域存在差異,在不受控環(huán)境下得到的數(shù)據(jù)集中,服從長(zhǎng)尾分布的數(shù)據(jù)源域中的表情標(biāo)簽極度不平衡的問(wèn)題極為突出[31],例如由于現(xiàn)實(shí)情境的限制,Contempt 和Fear 類別的樣本數(shù)量要遠(yuǎn)遠(yuǎn)小于Surprise 和Happy 類別的樣本數(shù)量,難以支撐深度神經(jīng)網(wǎng)絡(luò)捕捉少樣本的表情特征。

        本文提出的基于生成對(duì)抗網(wǎng)絡(luò)與網(wǎng)絡(luò)集成的表情識(shí)別方法,通過(guò)多個(gè)異質(zhì)卷積神經(jīng)網(wǎng)絡(luò)提取包含不同深度、不同語(yǔ)義的特征向量,保留細(xì)微且表達(dá)能力強(qiáng)的表情特征,隨后對(duì)不同尺度特征進(jìn)行融合。此外,結(jié)合生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)據(jù)集標(biāo)簽平衡化和端到端的訓(xùn)練模式,使得模型能夠適應(yīng)不同場(chǎng)景下的表情識(shí)別,緩解不同面部表情數(shù)據(jù)集中標(biāo)簽數(shù)據(jù)分布不均衡的問(wèn)題。

        2 模型方法

        2.1 網(wǎng)絡(luò)集成模塊Ens-Net

        本文首先提出了一種網(wǎng)絡(luò)集成模型Ens-Net,如圖1 所示,該模型結(jié)構(gòu)由修改后的VGG13、VGG16 以及ResNet18 組成。具體而言,輸入的面部表情圖片通過(guò)3 個(gè)不同卷積核大小、神經(jīng)元數(shù)量以及網(wǎng)絡(luò)層數(shù)的網(wǎng)絡(luò)提取面部表情成分特征。Ens-Net 中使用來(lái)自VGG13 的完全連接層第5 層,完全連接層的第7 層和來(lái)自ResNet18 的全局池化層進(jìn)行特征提取后得到特征向量h1、h2、h3,隨后分別使用符號(hào)平方根(Sign Square Root,SSR)和L2 范數(shù)對(duì)每個(gè)特征實(shí)現(xiàn)歸一化后,利用經(jīng)典的特征級(jí)融合[32]方式將這些特征串聯(lián)起來(lái),組成具有不同語(yǔ)義級(jí)別的全新特征向量hconcat,該方法表示為式(1):

        圖1 Ens-Net網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of Ens-Net

        隨后hconcat通過(guò)具有softmax 的損耗層實(shí)現(xiàn)表情的分類任務(wù)。由于網(wǎng)絡(luò)結(jié)構(gòu)的互補(bǔ)性,通過(guò)Ens-Net 所得到的特征包含不同層次深度提取到的深層和淺層表情分量特征,即利用不同網(wǎng)絡(luò)學(xué)習(xí)到的特征增強(qiáng)了面部特征的整體表征能力,尤其是在面部表情識(shí)別這樣關(guān)注細(xì)節(jié)特征的任務(wù)中顯得極為重要。

        2.2 端到端框架EE-GAN

        集成網(wǎng)絡(luò)模型Ens-Net 旨在解決表情分類問(wèn)題,稱做分類器C。在Ens-Net 的基礎(chǔ)上,本文提出一種端到端的訓(xùn)練框架EE-GAN,如圖2 所示。EE-GAN 旨在結(jié)合GAN 的對(duì)抗學(xué)習(xí)思想[33],通過(guò)博弈訓(xùn)練生成更多特定標(biāo)簽的面部表情圖片以解決數(shù)據(jù)源域標(biāo)簽分布不均衡的問(wèn)題。在穩(wěn)定生成逼真樣本的前提下,將GAN 網(wǎng)絡(luò)部分生成的逼真面部表情圖像和真實(shí)圖像同時(shí)送到分類器C進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)完整的端到端的面部表情識(shí)別網(wǎng)絡(luò)。

        圖2 EE-GAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of EE-GAN

        EE-GAN 由生成器G、判別器D和分類器C組成。生成器G和判別器D采用深度卷積生成對(duì)抗網(wǎng)絡(luò)(Deep Convolutional GAN,DCGAN)[34]基本結(jié)構(gòu),G通過(guò)微步卷積將輸入的100 維噪聲向量Z擴(kuò)張到與真實(shí)樣本相同的尺寸,合成假圖像G(Z)。判別器D的輸入是真實(shí)圖像x和G合成的假圖像G(Z),其目的是將真實(shí)圖像和虛假圖像區(qū)分開。生成器D和判別器G通過(guò)極大極小游戲而形成競(jìng)爭(zhēng)關(guān)系,具體來(lái)說(shuō),當(dāng)合成樣本的分布P(G)和訓(xùn)練樣本的分布P(D)相同時(shí),該極大極小博弈獲得全局最優(yōu)解,此時(shí)生成器可以生成逼真的合成圖片以欺騙過(guò)判別器,從而達(dá)到了獲得新的面部表情圖像的目的。

        2.3 學(xué)習(xí)策略

        對(duì)于Ens-Net 而言,給定一張帶有表情標(biāo)簽ye的面部圖像x,通過(guò)融合不同深度神經(jīng)網(wǎng)絡(luò)提取的表情特征向量得到hconcat,將其饋送到分類器實(shí)現(xiàn)表情分類。其中分類器使用softmax 交叉熵?fù)p失定義如下:

        針對(duì)EE-GAN 的輸入,考慮到選取的數(shù)據(jù)集的域分布差異較小,將FER2013(Facial Expression Recognition 2013)[11]和CK+(Cohn-Kanade)[35]訓(xùn)練集中的不同表情標(biāo)簽進(jìn)行整合作為可靠的訓(xùn)練樣本。在實(shí)際訓(xùn)練過(guò)程中,早期階段的生成器G很差,生成的樣本很容易被判別器D識(shí)別,這使得D回傳給G的梯度極小,無(wú)法達(dá)到訓(xùn)練目的,出現(xiàn)優(yōu)化飽和現(xiàn)象。將D的Sigmod 輸出層的前一層記為o,則D(x) 可表示為D(x)=Sigmoid(o(x)),此時(shí)有:

        為此,訓(xùn)練G的梯度記為:

        這意味著當(dāng)D可以輕松辨別出假樣本時(shí),正確辨別的概率幾乎為1,此時(shí)G獲得的梯度基本為0。為了保證訓(xùn)練的穩(wěn)定性,本文將G的優(yōu)化值函數(shù)定義為如下:

        D的目的是盡可能將輸入的真實(shí)圖像x判別為真,將輸入的合成圖像G(Z)判別為假。訓(xùn)練的過(guò)程中G和D交替訓(xùn)練,保證每5 個(gè)batch 訓(xùn)練一次G,每1 個(gè)batch 訓(xùn)練一次D。此時(shí)D的優(yōu)化值函數(shù)定義為:

        3 實(shí)驗(yàn)設(shè)定

        3.1 數(shù)據(jù)集

        FER2013 是一個(gè)由谷歌圖像搜索API 自動(dòng)收集的大型無(wú)約束數(shù)據(jù)庫(kù)。在拒絕錯(cuò)誤標(biāo)記的幀并調(diào)整裁剪區(qū)域后,所有圖像都已標(biāo)注并調(diào)整為48 像素×48 像素。FER2013 包含35 887 幅表情圖像,同時(shí)以8∶1∶1 的比例劃分訓(xùn)練集、測(cè)試集和驗(yàn)證集,其中包含7 種表情標(biāo)簽,即Angry、Disgust、Fear、Happy、Sadness、Surprise 和Neutral。

        CK+用于評(píng)估FER 系統(tǒng)的最廣泛使用的實(shí)驗(yàn)室控制數(shù)據(jù)庫(kù)。CK+包含來(lái)自123 名受試者的593 個(gè)視頻序列。這些序列的持續(xù)時(shí)間為10~60 幀不等,數(shù)據(jù)包含從中性面部表情到峰值表情的轉(zhuǎn)變。在這些視頻中,來(lái)自118 名受試者的327 個(gè)序列被標(biāo)記為面部動(dòng)作編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)的七種基本表情標(biāo)簽,分別是Angry、Contempt、Disgust、Fear、Happy、Sadness 和Surprise。本文的數(shù)據(jù)選擇方法是提取最后1~2 個(gè)具有峰形成的幀和每個(gè)序列的第一幀(中性面),隨后以6∶2∶2 的比例劃分訓(xùn)練集、測(cè)試集和驗(yàn)證集。

        JAFFE(Japanese Female Facial Expressions)[36]日本女性面部表情數(shù)據(jù)庫(kù)是一個(gè)實(shí)驗(yàn)室控制的圖像數(shù)據(jù)庫(kù),包含來(lái)自10 名日本女性的213 個(gè)姿勢(shì)表情樣本。每個(gè)人有3~4 幅圖像,每幅圖像都有6 種基本的面部表情,包括Angry、Disgust、Fear、Happy、Sadness 和Surprise。

        通過(guò)篩選數(shù)據(jù)集中清晰高質(zhì)量的表情圖像作為數(shù)據(jù)樣本,本文在后續(xù)的實(shí)驗(yàn)中都遵循FER2013 和CK+數(shù)據(jù)集的劃分方式進(jìn)行模型訓(xùn)練和訓(xùn)練過(guò)程中的超參數(shù)優(yōu)化調(diào)整。考慮到原始的JAFFE 數(shù)據(jù)集體量小且未劃分,本文將FER2013、CK+的測(cè)試集和JAFFE 數(shù)據(jù)集作為測(cè)試數(shù)據(jù)。JAFFE 數(shù)據(jù)集只參與測(cè)試階段有利于測(cè)評(píng)模型的泛化性能。在將圖片輸入網(wǎng)絡(luò)之前,使用先進(jìn)的68個(gè)界標(biāo)的臉部檢測(cè)算法[37]實(shí)現(xiàn)面部的對(duì)齊和裁剪,將圖片尺寸規(guī)范到48×48,以減輕與表情無(wú)關(guān)變量的影響,規(guī)范由面部傳達(dá)的視覺語(yǔ)義信息。

        3.2 實(shí)施細(xì)節(jié)

        為了測(cè)試Ens-Net 的性能,本文首先利用集成網(wǎng)絡(luò)的構(gòu)成組件VGG13、VGG16 以及RestNet18 單獨(dú)進(jìn)行訓(xùn)練測(cè)試在FER 任務(wù)上的性能;同時(shí)也選取了AlexNet 和ResNet34 等經(jīng)典CNN 模型進(jìn)行對(duì)比測(cè)試。為保證網(wǎng)絡(luò)的維度參數(shù)和輸入的圖片保持一致,對(duì)于AlexNet 的平均池化進(jìn)行修改,設(shè)置卷積核為1、步長(zhǎng)為1;為了避免ResNet 的下采樣倍數(shù)過(guò)高導(dǎo)致網(wǎng)絡(luò)輸出的尺寸過(guò)小,對(duì)于ResNet,將最后的平均池化修改為維度為1 的自適應(yīng)池化,此外同樣對(duì)ResNet 作者后期對(duì)于基本殘差模塊的改進(jìn)進(jìn)行了實(shí)現(xiàn)[38]。在基本的殘差塊中將提取特征-歸一化-激活的步驟進(jìn)行微調(diào),對(duì)于跳躍連接的部分,首先進(jìn)行歸一化-激活操作,即激活函數(shù)放在了仿射變換前,這樣做可以保證梯度的順暢,以防止不平衡的網(wǎng)絡(luò)參數(shù)初始化導(dǎo)致出現(xiàn)難以訓(xùn)練的情況,優(yōu)化后的模型在本文中使用ResNet*表示。隨后根據(jù)所提方法構(gòu)建Ens-Net,在圖像輸入網(wǎng)絡(luò)之前進(jìn)行50%的水平翻轉(zhuǎn),完成基本的數(shù)據(jù)增強(qiáng),之后設(shè)置均值為0.5、方差為0.5 進(jìn)行歸一化操作。訓(xùn)練過(guò)程中使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器進(jìn)行優(yōu)化,設(shè)置學(xué)習(xí)率為0.001,權(quán)重衰變參數(shù)為0.95,每種網(wǎng)絡(luò)進(jìn)行300 輪訓(xùn)練。

        相較于傳統(tǒng)的GAN,本文的網(wǎng)絡(luò)采用卷積-去卷積的方式代替池化層,同時(shí)在G和D中都添加了批量歸一化以及去掉了全連接層,使用全局池化層替代。G的輸出層使用Tanh激活函數(shù),其他層使用線性整流函數(shù)(Rectified Linear Unit,ReLU);D的所有層都使用LeakyReLU 激活函數(shù)。訓(xùn)練過(guò)程中都采用Adam 優(yōu)化器,betas 設(shè)置為0.999,學(xué)習(xí)率為1E-4。通過(guò)上述策略首先對(duì)GAN 部分進(jìn)行4 000 輪的訓(xùn)練,當(dāng)G可以穩(wěn)定生成足夠逼真的表情圖像后,將GAN 生成的圖像和真實(shí)的數(shù)據(jù)集圖像同時(shí)饋送到分類器C中進(jìn)行表情識(shí)別,實(shí)現(xiàn)和Ens-Net 部分結(jié)合的端到端的訓(xùn)練模式。此策略的優(yōu)點(diǎn)是分類損失可以通過(guò)參數(shù)優(yōu)化不斷懲罰生成損失,以迫使生成器獲取更好的生成表示,在提升圖像合成的質(zhì)量的同時(shí)提高表情識(shí)別的準(zhǔn)確率。

        4 實(shí)驗(yàn)結(jié)果

        4.1 圖像生成和數(shù)據(jù)平衡

        考慮到GAN 容易出現(xiàn)模型坍塌[39]問(wèn)題,為了防止生成樣本喪失多樣性,本文中輸入的噪聲采用均勻分布采樣獲取。通過(guò)將整合后的數(shù)據(jù)集送到網(wǎng)絡(luò)進(jìn)行訓(xùn)練,經(jīng)過(guò)3 550輪左右訓(xùn)練后G的生成數(shù)據(jù)分布基本已經(jīng)逼近真實(shí)世界下的復(fù)雜混合高斯分布[40],G和D損失趨于穩(wěn)定。如圖3 所示,訓(xùn)練后的模型可以逼真地生成8 種面部表情圖像;同時(shí),當(dāng)通過(guò)插值微調(diào)的方式控制輸入的噪聲向量Z,在不同表情圖像之間,可以實(shí)現(xiàn)對(duì)除表情外周圍面部信息的建模,例如膚色、發(fā)型以及臉型等。在同一表情圖像中,可以實(shí)現(xiàn)不同的表達(dá)模式,例如Happy 類別中,不同面部肌肉形變度下抿嘴和張嘴的圖像都可以傳達(dá)高興、愉悅的情感。

        圖3 生成器生成的逼真表情圖像Fig.3 Realistic expression images generated by generator

        無(wú)論是FER2013 還是CK+數(shù)據(jù)集,都存在表情標(biāo)簽分布不均勻的問(wèn)題。例如通過(guò)篩選后FER2013 中的Angry 多達(dá)3 995 張圖像,然而Fear、Sadness 等標(biāo)簽有400~500 張圖像,Disgust 標(biāo)簽僅僅有56 張圖像。同樣的情況也存在于CK+數(shù)據(jù)集中,這極大地降低了部分表情的識(shí)別準(zhǔn)確率。為了解決此問(wèn)題,本文將EE-GAN 生成的逼真圖像與源域的數(shù)據(jù)集圖像進(jìn)行整合,通過(guò)添加和調(diào)整不同表情標(biāo)簽數(shù)量以降低標(biāo)簽不均衡的影響。

        考慮到低樣本標(biāo)簽圖像生成難度大,在盡可能保證標(biāo)簽域平衡的前提下,本文使大部分表情標(biāo)簽的數(shù)量處于600~800。如表1 所示,第2~4 行展示篩選后源數(shù)據(jù)集包含的不同表情的樣本數(shù)目;第5 行是經(jīng)過(guò)調(diào)整后混合GAN 生成圖像的最終數(shù)目。具體來(lái)說(shuō),對(duì)較少的表情標(biāo)簽圖像進(jìn)行補(bǔ)充,例如將原本的總體262 幅Disgust 圖像補(bǔ)充到653 幅;對(duì)較多的表情標(biāo)簽進(jìn)行稀釋,例如將4 130 幅Angry 圖像減少到800幅,從而達(dá)到平衡不同表情標(biāo)簽樣本的目的,減緩數(shù)據(jù)集長(zhǎng)尾分布帶來(lái)的模型性能約束。

        表1 FER2013、CK+、JAFFE數(shù)據(jù)集以及通過(guò)GAN整合后的不同表情圖像的數(shù)量Tab.1 Numbers of different expressions’s images on FER2013,CK+,JAFFE and integrated datasets

        4.2 對(duì)比實(shí)驗(yàn)

        觀察表2 可知,本文將提出的EE-GAN 與現(xiàn)有相似的基于視圖學(xué)習(xí)的表情識(shí)別方法,如局部保留投影方法(Locality Preserving Projection,LPP)[41]、判別式高斯過(guò)程潛在變量方法(Discriminative Gaussian Process Latent Variable Model,DGPLVM)[42]、高斯過(guò)程潛在隨機(jī)場(chǎng)方法(Gaussian Process Latent Random Field,GPLRF)[43]、向量式線性判別分析方法(GensiM Linear Discriminant Analysis,GMLDA)[44]進(jìn)行對(duì)比,EE-GAN 的性能得到了最佳的結(jié)果,在3 個(gè)測(cè)試數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到了82.1%、84.8%和91.5%。同時(shí),與傳統(tǒng)的單一網(wǎng)絡(luò)結(jié)構(gòu)的CNN模型AlexNet、VGG、ResNet以及ResNet*相比,EE-GAN 在3 個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別至少提高了9、10、16 個(gè)百分點(diǎn)。EE-GAN 出色的表現(xiàn)一方面得益于不同尺度表情特征融合策略下Ens-Net 模塊強(qiáng)大的特征表征能力;另一方面受益于GAN 生成部分的數(shù)據(jù)增強(qiáng)和數(shù)據(jù)集標(biāo)簽平衡處理,緩解了表情標(biāo)簽不均衡對(duì)于FER 整體精度的影響。同時(shí),通過(guò)端到端的訓(xùn)練模式,迫使生成損失和分類損失的不斷促進(jìn)優(yōu)化,使得網(wǎng)絡(luò)獲取到更加精確的表情特征。

        表2 不同網(wǎng)絡(luò)模型在FER2013、CK+、JAFFE數(shù)據(jù)集的準(zhǔn)確率Tab.2 Accuracies of different network models on FER2013,CK+,and JAFFE datasets

        圖4 展示了不同數(shù)據(jù)集上基于EE-GAN 的表情分類混淆矩陣,通過(guò)觀察歸一化之后的每種表情的預(yù)測(cè)結(jié)果發(fā)現(xiàn),Angry 和Sadness 的準(zhǔn)確率普遍要稍微低于其他表情,其中可能的原因是這兩種表情的面部動(dòng)作單元相對(duì)較少,影響了識(shí)別精度;同時(shí)Happy 和Fear 的識(shí)別結(jié)果經(jīng)常容易混淆,很大的可能在于這兩種表情擁有相似的肌肉形變度,這與Zhang等[45]和Yang 等[28]的研究結(jié)果相吻合。

        圖4 混淆矩陣可視化Fig.4 Confusion matrix visualization

        4.3 消融實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證Ens-Net 模型和EE-GAN 框架的有效性,本文在數(shù)據(jù)集進(jìn)行相同劃分和數(shù)據(jù)預(yù)處理前提下,通過(guò)更換不同尺度網(wǎng)絡(luò)集成部分得到的特征向量和改變不同的組合方式進(jìn)行消融實(shí)驗(yàn)。具體地,將Ens-Net分為三種組合方式,分別使用VGG13 和VGG16、VGG13 和ResNet18、VGG16 和ResNet18 進(jìn)行網(wǎng)絡(luò)集成測(cè)試,隨后在三種不同組合的基礎(chǔ)上都加入GAN 部分,設(shè)置三種不同的EE-GAN 網(wǎng)絡(luò)進(jìn)行測(cè)試,觀察到測(cè)試集的準(zhǔn)確率如表3 所示。

        表3 FER2013、CK+以及JAFFE數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.3 Ablation experiment results on FER2013,CK+,and JAFFE datasets

        消融實(shí)驗(yàn)結(jié)果顯示,Ens-Net 網(wǎng)絡(luò)集成方法的性能優(yōu)于任意兩組不同深度網(wǎng)絡(luò)模型集成的性能,同時(shí)兩組網(wǎng)絡(luò)集成模型準(zhǔn)確率的逐漸提高也證明了越深的網(wǎng)絡(luò)結(jié)構(gòu)將輸出表示能力越強(qiáng)的特征。因此將不同尺度的特征進(jìn)行融合,可以獲取到表征能力更強(qiáng)的特征,這也為模型帶來(lái)更強(qiáng)的分類能力。EE-GAN 框架使得準(zhǔn)確率在Ens-Net 基礎(chǔ)上均提升3%~5%,將生成對(duì)抗網(wǎng)絡(luò)模型與網(wǎng)絡(luò)集成思想相結(jié)合,既可以結(jié)合多個(gè)異質(zhì)網(wǎng)絡(luò)提取的不同深度的表情特征,又實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng)以解決表情標(biāo)簽數(shù)據(jù)分布不均的問(wèn)題,從而有效提高了模型的表情識(shí)別能力。

        5 結(jié)語(yǔ)

        本文提出了一種包含網(wǎng)絡(luò)集成模型Ens-Net 的端到端深度學(xué)習(xí)框架EE-GAN。該模型通過(guò)結(jié)合不同深度的表情特征實(shí)現(xiàn)特征級(jí)融合,以學(xué)習(xí)到更加精確有效的情感表征。受益于端到端的訓(xùn)練模式,EE-GAN 在實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)的同時(shí)生成具有特定表情標(biāo)簽的面部圖像,極大緩解了數(shù)據(jù)集表情標(biāo)簽分布不均衡的影響,提高了表情識(shí)別的準(zhǔn)確性。通過(guò)在3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的EE-GAN 在表情分類性能和準(zhǔn)確度方面優(yōu)于傳統(tǒng)CNN 模型和現(xiàn)有改進(jìn)模型,證明了模型的有效性。未來(lái),研究工作將在模型的解耦表示中考慮面部遮擋、光照和姿勢(shì)等其他因素的影響,進(jìn)一步提高表情識(shí)別的準(zhǔn)確性。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        av网站在线观看二区| 无码人妻品一区二区三区精99| 国产午夜久久久婷婷| 国产av普通话对白国语| 在线免费看91免费版.| 啦啦啦中文在线观看日本| 在线播放国产一区二区三区| 无码中文字幕专区一二三| 成人国产高清av一区二区三区 | 越南女子杂交内射bbwbbw| 精品免费一区二区三区在| 亚洲六月丁香色婷婷综合久久| 肥老熟妇伦子伦456视频| 免费看久久妇女高潮a| 亚洲精品日本| 成人av一区二区三区四区| 亚洲精品成人网站在线播放| 天天躁人人躁人人躁狂躁| 亚洲性色ai无码| 国产一区二区三区av免费| 少妇高潮惨叫久久久久久电影| 久久国产精彩视频| 一区二区三区日本在线| 青春草在线视频观看| 免费a级毛片出奶水| 国产精品麻豆A啊在线观看| 日本一区二区在线播放视频| 国产午夜福利精品一区二区三区| 84pao强力打造免费视频34| 91国产自拍视频在线| 日本女优在线一区二区三区 | 亚洲九九九| 国产精品一区二区久久久av| 热久久国产欧美一区二区精品| 亞洲綜合無碼av一區二區| 久久亚洲精精品中文字幕早川悠里 | 三级全黄的视频在线观看| 日本妇女高清一区二区三区| 亚洲无线码一区二区三区| 麻豆成人在线视频| 久久国产女同一区二区|