亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Mixer Layer的人臉表情識(shí)別①

        2022-08-04 09:58:30簡騰飛曹少中楊樹林
        關(guān)鍵詞:模型

        簡騰飛,王 佳,曹少中,楊樹林,張 寒

        (北京印刷學(xué)院 信息工程學(xué)院,北京 102600)

        人臉表情是反映人類情感最普遍最重要的方式之一,面部表情傳達(dá)著人與人之間的社會(huì)和情感信息,面部基本表情可分為6 種(快樂,悲傷,驚訝,恐懼,憤怒和厭惡). 隨著人工智能和深度學(xué)習(xí)的興起,基于深度學(xué)習(xí)的人臉表情識(shí)別得到了廣泛的發(fā)展和應(yīng)用,基于傳統(tǒng)特征提取方法的人臉表情識(shí)別,需要大量專業(yè)知識(shí)來設(shè)計(jì)提取器,同時(shí)傳統(tǒng)方法的泛化能力和魯棒性相對于深度學(xué)習(xí)的方法略有不足. 神經(jīng)網(wǎng)絡(luò)可以獲得表情圖像中更抽象,更復(fù)雜的特征,使識(shí)別更加準(zhǔn)確.隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別,取得了巨大的進(jìn)步.

        Shi 等[1]基于ResNet 提出一種多分支交叉卷積神經(jīng)網(wǎng)絡(luò)(MBCC-CNN)提高了每個(gè)感受野的特征提取能力,在CK+數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到了98.48%.Li[2]利用ResNet-101 使用文獻(xiàn)[3]中的數(shù)據(jù)集識(shí)別準(zhǔn)確率達(dá)到了96.29%±0.78%. 魏赟等[4]提出了一種引入注意力機(jī)制的輕量級(jí)CNN 通道和卷積自編碼器預(yù)訓(xùn)練通道的雙通道模型,在減少模型參數(shù)量的同時(shí)也保證了識(shí)別準(zhǔn)確率. 江大鵬等[5]提出局部二值模式(LBP)圖像的卷積網(wǎng)絡(luò)對6 種面部表情識(shí)別,通過Viola-Jones 框架提取出面部表情感興趣區(qū)域,獲得感興趣區(qū)域的LBP 圖像,再輸入到卷積網(wǎng)絡(luò)進(jìn)行識(shí)別. 申毫等[6]基于殘差網(wǎng)絡(luò)提出一種輕量卷積網(wǎng)絡(luò)的多特征融合的人臉表情識(shí)別方法,使用改進(jìn)的倒置殘差網(wǎng)絡(luò)為基本單元,搭建輕量級(jí)卷積網(wǎng)絡(luò),用11 層的卷積篩選網(wǎng)絡(luò)中的淺層特征,該模型的參數(shù)量僅有0.2×106,但在RAD-DB 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到了85.46%. 伊力哈木·亞爾買買提等[7]提出了一種融合局部特征與深度置信網(wǎng)絡(luò)(DBN)的人臉面部表情識(shí)別算法,融合表情局部敏感質(zhì)量分布圖(LSH)非均勻光照不變特征和人臉面部表情的邊緣局部細(xì)節(jié)紋理特征,把融合后特征用于訓(xùn)練深度置信網(wǎng)絡(luò)(DBN)模型,在JAFFE 數(shù)據(jù)集上達(dá)到了97.56% 的識(shí)別率. 崔子越等[8]通過改進(jìn)VGGNet 結(jié)合Focal loss 的方法來處理面部表情數(shù)據(jù)集樣本不均衡,防止網(wǎng)絡(luò)過擬合,在數(shù)據(jù)集 CK+,JAFFE,Fer2013 上相比于傳統(tǒng)的損失函數(shù),模型的準(zhǔn)確率提升了1%–2%,模型的分類能力更加均衡. 在保證識(shí)別準(zhǔn)確率的情況下,張宏麗等[9]通過優(yōu)化剪枝GoogLeNet識(shí)別人臉表情,以達(dá)到簡化網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量,提高運(yùn)行效率,網(wǎng)絡(luò)運(yùn)行時(shí)間低于200 ms. Dhankhar[10]組合了ResNet-50 和VGG16 用于人臉表情識(shí)別,在數(shù)據(jù)集KDEF 上取得了較好的效果.

        可以看出,對于人臉表情識(shí)別的研究方法,目前大多數(shù)是基于卷積神經(jīng)網(wǎng)絡(luò),同時(shí)對數(shù)據(jù)進(jìn)行了一定預(yù)處理. 本文通過搭建無卷積結(jié)構(gòu)的淺層神經(jīng)網(wǎng)絡(luò)對人臉表情進(jìn)行識(shí)別,該模型結(jié)構(gòu)簡單,計(jì)算復(fù)雜度低.

        1 人臉表識(shí)別方法

        1.1 MLP-Mixer 網(wǎng)絡(luò)結(jié)構(gòu)

        2021年Google 提出來一種無卷積和注意力機(jī)制的網(wǎng)絡(luò)MLP-Mixer[11],網(wǎng)絡(luò)結(jié)構(gòu)如圖1[11]所示.

        圖1 MLP Mixer 網(wǎng)絡(luò)結(jié)構(gòu)

        圖1 展示了MLP-Mixer 的網(wǎng)絡(luò)結(jié)構(gòu),MLP-Mixer網(wǎng)絡(luò)的輸入是一串不重復(fù)的圖片塊序列S,把每一個(gè)圖片塊映射成指定的維度C,Mixer Layer 的輸入維度為X∈RS×C. 假設(shè)輸入的圖片的分辨率為(H,W),每個(gè)圖片塊的分辨率為(P,P),則S=(H×W)/P2. Mixer Layer接受一系列的線性投影的圖像塊,且輸入輸出形狀保持為X∈RS×C. Mixer Layer 由兩種MLP (多層感知機(jī))組成: token-mixing (MLP1)和channel-mixing (MLP2).

        每個(gè)MLP 包含兩個(gè)全連接層. channel-mixing 將不同的通道之間聯(lián)系起來,token-mixing 尋找圖片上不同空間位置的關(guān)系. MLP-Mixer 的整體結(jié)構(gòu)包括Perpatch Fully-connected,Mixer Layer 和Global Average Pooling. Per-patch Fully-connected 將分割的圖片塊映射為指定維度. 網(wǎng)絡(luò)包含GELU[12]非線性激活函數(shù),跨越連接和 Layer Normal 等結(jié)構(gòu). Mixer Layer 可表示為式(1).

        其中,σ表示GELU 激活函數(shù),W為感知機(jī)權(quán)重,?為Layer Normal. 分別用DC和DS表示感知機(jī)channelm ixing 和token-mixing 中全連接層的節(jié)點(diǎn)個(gè)數(shù).

        1.2 遷移學(xué)習(xí)

        遷移學(xué)習(xí)是從源域傳輸信息提高目標(biāo)域的學(xué)習(xí)訓(xùn)練效率,遷移學(xué)習(xí)的源域和目標(biāo)域擔(dān)任的任務(wù)要相同,在深度學(xué)習(xí)中,遷移學(xué)習(xí)多用于解決數(shù)據(jù)量少,訓(xùn)練樣本不充分這一問題,在圖像識(shí)別領(lǐng)域被廣泛運(yùn)用.

        用Mixer Layer 代替CNN ,使用ExpW 數(shù)據(jù)集預(yù)訓(xùn)練主干網(wǎng)絡(luò),將新的表情樣本輸入到網(wǎng)絡(luò)中進(jìn)行微調(diào). 實(shí)驗(yàn)證明,通過該方法訓(xùn)練完成的模型具有較好的表情識(shí)別效果,具體步驟如圖2 所示.

        圖2 人臉表情識(shí)別方法結(jié)構(gòu)圖

        2 實(shí)驗(yàn)過程

        實(shí)驗(yàn)運(yùn)行環(huán)境: Windows 10 (64 位)操作系統(tǒng),Intel(R)Xeon(R)Gold 6132 CPU,GPU 為NVIDIA GeForce RTX 2080 Ti 顯存大小為 11 GB,Python 版本為3.7.0.

        2.1 人臉表情數(shù)據(jù)集

        為了說明該方法的有效性,采用日本女性面部表情數(shù)據(jù)集(JAFFE),CK+ (Extended Cohn-Kanada)數(shù)據(jù)集和Fer2013 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn). 實(shí)驗(yàn)采用的樣本數(shù)量分布如表1 所示.

        表1 CK+、JAFFE、Fer2013 數(shù)據(jù)集實(shí)驗(yàn)樣本選取數(shù)量分布表

        其中 JAFFE 數(shù)據(jù)集包含10 位日本女性,每個(gè)人做出7 種表情,一共包含213 張大小為256×256 的人臉正面圖像,共分為angry,disgust,fear,happy,sad,surprise,neutral (憤怒,厭惡,恐懼,高興,悲傷,驚訝,自然)7 種標(biāo)簽. 該數(shù)據(jù)集的樣本分布均勻,標(biāo)簽準(zhǔn)確,如圖3 所示.

        圖3 JAFFE 數(shù)據(jù)集樣例圖

        CK+ 數(shù)據(jù)集包含123 個(gè)對象的327 個(gè)被標(biāo)記的表情圖片序列,包含angry,disgust,fear,happy,sadness,surprise,contempt (憤怒,厭惡,恐懼,高興,悲傷,驚訝,蔑視)7 種標(biāo)簽. 每一個(gè)圖片序列的最后一幀被提供了表情標(biāo)簽,所以共有327 個(gè)圖像被標(biāo)記. 該數(shù)據(jù)集樣本分布較為不均勻,如圖4 所示.

        圖4 CK+ 數(shù)據(jù)集樣例圖

        Fer2013 數(shù)據(jù)集總共有35886 張人臉表情組成,分為angry,disgust,fear,happy,neutral,sad,surprise (憤怒,厭惡,恐懼,高興,自然,悲傷,驚訝)7 種表情,其中包含訓(xùn)練集28708 張,共有驗(yàn)證集和私有驗(yàn)證集各3589張,每張圖片的固定大小為48×48 的灰度圖,該樣本數(shù)據(jù)分布不均衡且樣本中包含了錯(cuò)誤樣本,較為混亂,分類難度大,如圖5,圖6 所示.

        圖5 Fer2013 數(shù)據(jù)集樣例圖

        圖6 Fer2013 數(shù)據(jù)集錯(cuò)誤樣本樣例圖

        2.2 數(shù)據(jù)增強(qiáng)

        由表1 可知CK+和JAFFE 數(shù)據(jù)集樣本數(shù)量較少,為了防止網(wǎng)絡(luò)過擬合,增加樣本的復(fù)雜度,在實(shí)驗(yàn)中使用了數(shù)據(jù)增強(qiáng)的方法,如圖7 所示.

        圖7 數(shù)據(jù)增強(qiáng)圖

        通過數(shù)據(jù)增強(qiáng)后JAFFE 數(shù)據(jù)集一共有907 張圖片,CK+數(shù)據(jù)集一共有4905 張圖片,隨機(jī)抽取數(shù)據(jù)集中80%作為訓(xùn)練集,其余部分為驗(yàn)證集. 針對Fer2013數(shù)據(jù)集的特點(diǎn),本文實(shí)驗(yàn)剔除了數(shù)據(jù)集中不包含人臉樣本,并將所有樣本混合,隨機(jī)抽取和原測試集樣本同等數(shù)量的圖片作為測試集,其余部分為訓(xùn)練集.

        2.3 預(yù)訓(xùn)練

        為了防止網(wǎng)絡(luò)過擬合,在Fully-connected 后加入了Dropout. 如圖8 所示.

        圖8 MLP 網(wǎng)絡(luò)結(jié)構(gòu)

        Expression in-the-Wild 數(shù)據(jù)庫 (ExpW)包含使用Google 圖片搜索下載的91793 張面孔. 每個(gè)人臉圖像都被手動(dòng)注釋為7 個(gè)基本表情類別之一. 在注釋過程中去除了非人臉圖像. 如圖9 所示.

        圖9 ExpW 數(shù)據(jù)集樣例圖

        為保證預(yù)訓(xùn)練模型特征提取的正確性,先從圖片中提取出人臉,再對人臉進(jìn)行矯正,去除樣本中的錯(cuò)誤樣本,剩余87305 張圖片,隨機(jī)抽取80%作為訓(xùn)練集,將20%的圖片作為驗(yàn)證集,驗(yàn)證模型的有效性. 在預(yù)訓(xùn)練過程中,會(huì)將圖像縮放為48×48 大小的灰度圖,使用自適應(yīng)矩估計(jì)(Adam)的策略,設(shè)置學(xué)習(xí)率為0.001,Batch size 為64,Dropout 為0.2,使用交叉熵?fù)p失函數(shù)和cosine learning rate decay[13]學(xué)習(xí)率衰減策略,訓(xùn)練至損失不再下降. Mixer Layer 網(wǎng)絡(luò)參數(shù)如表2 所示.

        表2 Mixer 網(wǎng)絡(luò)參數(shù)表

        為了驗(yàn)證遷移學(xué)習(xí)的必要性,使用4 層Mixer 網(wǎng)絡(luò),對遷移前后準(zhǔn)確率進(jìn)行對比,如表3 所示.

        表3 數(shù)據(jù)集遷移學(xué)習(xí)前后準(zhǔn)確率對比 (%)

        由表3 可以看出在訓(xùn)練小樣本數(shù)據(jù)集時(shí)遷移學(xué)習(xí)的重要性. 通過遷移學(xué)習(xí)的方法將該模型在JAFFE 數(shù)據(jù)集上的準(zhǔn)確率提升了大約5%,在CK+數(shù)據(jù)集上的準(zhǔn)確率大約提升了1%. 通過遷移學(xué)習(xí),能提高模型的識(shí)別準(zhǔn)確率. 由于Fer2013 數(shù)據(jù)集樣本豐富,因此該數(shù)據(jù)集不采取遷移學(xué)習(xí)策略.

        3 實(shí)驗(yàn)設(shè)置與結(jié)果

        使用無卷積的Mixer 網(wǎng)絡(luò)結(jié)構(gòu),通過實(shí)驗(yàn)證明,該網(wǎng)絡(luò)同樣具有提取人臉表情特征提取的能力,在人臉表情識(shí)別達(dá)到了很好的識(shí)別效果. 同時(shí),在樣本充足的數(shù)據(jù)集上訓(xùn)練過的Mixer Layer 神經(jīng)網(wǎng)絡(luò)模型,再對其結(jié)果進(jìn)行調(diào)整和訓(xùn)練,能夠很好地遷移到其他小樣本的數(shù)據(jù)集上.

        3.1 訓(xùn)練過程

        嘗試了不同層數(shù)的Mixer Layer 網(wǎng)絡(luò)對3 個(gè)數(shù)據(jù)集識(shí)別率的影響. 微調(diào)和訓(xùn)練網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)與表2 保持一致,其余參數(shù)如表4 所示. 模型準(zhǔn)確率如表5 所示.

        表4 微調(diào)和訓(xùn)練參數(shù)表

        表5 不同網(wǎng)絡(luò)層數(shù)準(zhǔn)確率

        將增強(qiáng)后的目標(biāo)數(shù)據(jù)集微調(diào)預(yù)訓(xùn)練好的網(wǎng)絡(luò),綜合考慮訓(xùn)練代價(jià)和識(shí)別準(zhǔn)確率,對數(shù)據(jù)集CK+,JAFFE 采用含4 層Mixer Layer 網(wǎng)絡(luò). Fer2013 數(shù)據(jù)集采用含8 層Mixer Layer 網(wǎng)絡(luò). 訓(xùn)練精度和訓(xùn)練損失精度如圖10 所示.

        圖10 訓(xùn)練準(zhǔn)確率和損失曲線

        從圖中的準(zhǔn)確率可以看出,模型收斂快,訓(xùn)練過程沒有發(fā)生過擬合,且在CK+和JAFFE 數(shù)據(jù)集上表現(xiàn)能力良好,無卷積的Mixer Layer 網(wǎng)絡(luò)具有良好的學(xué)習(xí)能力和泛化能力. 將該方法與國內(nèi)外優(yōu)秀的人臉表情識(shí)別算法進(jìn)行對比,在CK+ 數(shù)據(jù)集上準(zhǔn)確率有1%–4%的提升,在JAFFE 數(shù)據(jù)集上有1%–2%的提升. Fer2013數(shù)據(jù)集人為識(shí)別準(zhǔn)確率為(65±5)%,8 層 Mixer Layer模型的識(shí)別準(zhǔn)確率達(dá)到了這一范圍,且準(zhǔn)確率有1%–2%的提升. 驗(yàn)證了Mixer Layer 結(jié)構(gòu)在人臉表情識(shí)別上的有效性,對比結(jié)果如表6–表8 所示.

        表6 不同方法在CK+數(shù)據(jù)集上識(shí)別準(zhǔn)確率

        表8 不同方法在Fer2013 數(shù)據(jù)集上識(shí)別準(zhǔn)確率

        為了進(jìn)一步驗(yàn)證該算法,根據(jù)CK+和JAFFE 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果繪制混淆矩陣,其中橫坐標(biāo)代表真實(shí)類別,對角線代表該類樣本預(yù)測正確的樣本數(shù),其余為該類樣本預(yù)測錯(cuò)誤類別數(shù),該方法對于數(shù)據(jù)集CK+和JAFFE 法分類結(jié)果均勻,各類表情樣本更傾向于所屬的類別,具有良好的分類表現(xiàn)能力. 如圖11 所示.

        圖11 數(shù)據(jù)集混淆矩陣

        4 結(jié)論與展望

        本文基于Mixer Layer 提出了一種結(jié)構(gòu)簡單的人臉表情識(shí)別方法. 針對數(shù)據(jù)集樣本不足問題,通過遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)的方法提升了模型的識(shí)別準(zhǔn)確率和泛化能力. 本文分別在CK+,JAFFE 和Fer2013 數(shù)據(jù)集上做了對比實(shí)驗(yàn),最終實(shí)驗(yàn)結(jié)果表明,無卷積的Mixer Layer 網(wǎng)絡(luò)對人臉表情也有很好的識(shí)別性.

        雖然基于Mixer Layer 的網(wǎng)絡(luò)在人臉表情識(shí)別取得了很好的識(shí)別效果,但樣本差異大,有錯(cuò)誤標(biāo)注的數(shù)據(jù)集對網(wǎng)絡(luò)識(shí)別準(zhǔn)確率影響依然較大. 后續(xù)工作會(huì)在本文的基礎(chǔ)上,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),提升模型在復(fù)雜環(huán)境下的識(shí)別準(zhǔn)確率.

        表7 不同方法在JAFFE 數(shù)據(jù)集上識(shí)別準(zhǔn)確率

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        男女啦啦啦视频在线观看| 丰满人妻熟妇乱又伦精品视| av鲁丝一区鲁丝二区| 一二三四中文字幕日韩乱码| 日本人妻系列中文字幕| 69精品人人人人| 日韩精品无码久久久久久| 久久久久久国产福利网站| 亚洲国产精品av麻豆网站| 国产精品av在线| 久久精品人成免费| 日本成熟妇人高潮aⅴ| 国产精品毛片极品久久| 天堂中文官网在线| 熟妇人妻AV中文字幕老熟妇| 国产目拍亚洲精品区一区| 欧美高清国产在线播放| 一区二区av日韩免费| 在教室轮流澡到高潮h免费视| 久久久久久久综合综合狠狠| 国产成人精品午夜福利| 国产精品日韩中文字幕| 日本一区二区视频高清| 亚洲av日韩av在线观看| 草草地址线路①屁屁影院成人| 亚洲欧洲巨乳清纯| 99久久精品国产片| 国产av剧情久久精品久久| 国产精品免费av片在线观看| 亚洲av无码国产精品麻豆天美 | 国产91精品丝袜美腿在线| 99国产精品久久一区二区三区| 午夜视频在线在免费| 亚洲国产精品久久久久久网站| 国产在线视频一区二区三区| 亚洲成av人在线观看网址| 中文字幕亚洲乱码熟女一区二区| 网红极品女神精品视频在线| 久久精品亚洲熟女av蜜謦| 骚小妹影院| 一区二区三区免费视频网站|