亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的人臉表情識(shí)別遷移學(xué)習(xí)方法

        2021-03-23 09:38:54李思禹
        關(guān)鍵詞:特征實(shí)驗(yàn)

        亢 潔,李思禹

        (陜西科技大學(xué) 電氣與控制工程學(xué)院,陜西 西安 710021)

        0 引 言

        人臉表情[1,2]識(shí)別最核心的部分是特征提取。經(jīng)典的方法都是以人工特征為基準(zhǔn)進(jìn)行提取的,如LBP[3]、HOG[4]等。但是特征選取的好壞直接決定了表情識(shí)別準(zhǔn)確率的高低,這對(duì)于表情識(shí)別是極其不穩(wěn)定的。卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)不需要手動(dòng)提取特征,然而提高卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別性能最直觀的方法是堆疊更多的層,因此網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)也在研究中隨著性能的提升而不斷增大。卷積神經(jīng)網(wǎng)絡(luò)的另一個(gè)缺點(diǎn)是依賴于大量的數(shù)據(jù)驅(qū)動(dòng),尤其是在人臉表情識(shí)別中,很難獲取大量識(shí)別場景下的標(biāo)注表情數(shù)據(jù)集。此時(shí)將現(xiàn)有的小型已標(biāo)記的數(shù)據(jù)集應(yīng)用于具有大型基礎(chǔ)結(jié)構(gòu)的網(wǎng)絡(luò)中,容易產(chǎn)生過擬合,網(wǎng)絡(luò)識(shí)別性能下降。

        針對(duì)以上問題,本文提出了一種基于注意力機(jī)制的人臉表情識(shí)別遷移學(xué)習(xí)方法。該方法具有以下兩個(gè)特點(diǎn):設(shè)計(jì)了一個(gè)基于特征分組和空間增強(qiáng)注意力機(jī)制(spatial group-wise enhance module,SGE)[5]的輕量型卷積神經(jīng)網(wǎng)絡(luò)來有效提取人臉表情特征;利用遷移學(xué)習(xí)在目標(biāo)函數(shù)中構(gòu)造了一個(gè)基于log-Euclidean距離的損失項(xiàng)來減小源域與目標(biāo)域之間的分布距離。

        1 本文方法

        1.1 基于注意力機(jī)制的人臉表情識(shí)別遷移學(xué)習(xí)方法

        遷移學(xué)習(xí)的主要思想是對(duì)源域的標(biāo)注數(shù)據(jù)或知識(shí)結(jié)構(gòu)進(jìn)行遷移,以完成或提高目標(biāo)領(lǐng)域的學(xué)習(xí)效果。領(lǐng)域自適應(yīng)是遷移學(xué)習(xí)重要的一個(gè)分支,其目的是在不同領(lǐng)域內(nèi)存在差異的情況下傳遞知識(shí)。它可以應(yīng)用在當(dāng)目標(biāo)域的數(shù)據(jù)未標(biāo)記,而源域數(shù)據(jù)已標(biāo)記的情況,最終目標(biāo)是最小化源域和目標(biāo)域之間的相關(guān)性差異,并成功將在源域上訓(xùn)練的模型轉(zhuǎn)移到目標(biāo)域。

        本文提出了一種基于注意力機(jī)制的人臉表情識(shí)別遷移學(xué)習(xí)方法。該方法由兩個(gè)相同的卷積神經(jīng)網(wǎng)絡(luò)組成,其中一個(gè)卷積神經(jīng)網(wǎng)絡(luò)的輸入是已標(biāo)記的源域人臉表情數(shù)據(jù),另一個(gè)網(wǎng)絡(luò)的輸入是未標(biāo)記的目標(biāo)域人臉表情數(shù)據(jù)。源域卷積神經(jīng)網(wǎng)絡(luò)和目標(biāo)域卷積神經(jīng)網(wǎng)絡(luò)之間共享相同的權(quán)重參數(shù)。由于卷積神經(jīng)網(wǎng)絡(luò)的全連接層將分布式特征映射到樣本標(biāo)記空間,因此利用全連接層作為域適應(yīng)適配層來實(shí)現(xiàn)域適應(yīng)。通過域適配層得到表征源域和目標(biāo)域數(shù)據(jù)的分布特征后,構(gòu)造了一個(gè)基于log-Euclidean距離[6]的損失函數(shù),以此來計(jì)算提取到的源域和目標(biāo)域特征之間的分布距離,并將其視為兩個(gè)域之間的相關(guān)性差異。接著在卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)更新的過程中,結(jié)合了分類損失和log-Euclidean損失一起進(jìn)行聯(lián)合訓(xùn)練,最大程度減小了源域和目標(biāo)域之間的相關(guān)性差異,在訓(xùn)練結(jié)束時(shí)兩種損失達(dá)到平衡狀態(tài),最終可以使目標(biāo)域得到有效的表情分類。本文方法在訓(xùn)練過程中,有標(biāo)簽的源域數(shù)據(jù)用來計(jì)算多分類損失,而對(duì)于新構(gòu)造的基于log-Euclidean距離的損失項(xiàng),所提網(wǎng)絡(luò)結(jié)構(gòu)中所有輸入均參與。該方法中還設(shè)計(jì)了新的網(wǎng)絡(luò)結(jié)構(gòu),引入了殘差恒等塊和注意力模塊SGE,豐富了特征連接,增強(qiáng)了人臉表情的特征學(xué)習(xí)。本文網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。

        圖1 基于注意力機(jī)制的人臉表情識(shí)別遷移學(xué)習(xí)方法結(jié)構(gòu)

        本文提出的基礎(chǔ)網(wǎng)絡(luò)主要由9個(gè)卷積層、6個(gè)最大池化層和兩個(gè)全連接層組成。該網(wǎng)絡(luò)中9個(gè)卷積層的卷積核大小均為5*5,步長均為1,通道數(shù)依次為64、64、64、128、128、128、64、64、64,并且每個(gè)卷積層后都分別加有批量歸一化(batch normalization,BN)[7],激活函數(shù)ELU(exponential linear unit)[8]和注意力機(jī)制SGE模塊。該網(wǎng)絡(luò)在卷積連接中存在3個(gè)殘差恒等塊,網(wǎng)絡(luò)中的殘差恒等塊結(jié)構(gòu)如圖2所示,其中包含了兩個(gè)卷積層和兩個(gè)SGE模塊,它可以將輸入直接與后面SGE模塊的處理結(jié)果之和輸出給下面的網(wǎng)絡(luò)層。池化層在第1、3、4、6、7、9個(gè)SGE模塊之后,所有池化窗口大小為3,步長為2。全連接層在以上所有網(wǎng)絡(luò)層之后,分別是一個(gè)64維的域適應(yīng)適配層和一個(gè)用來輸出7類表情預(yù)測的Softmax分類器。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖2 殘差恒等塊結(jié)構(gòu)

        圖3 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        1.2 基于注意力機(jī)制的人臉表情特征提取

        人臉表情識(shí)別的重點(diǎn)在于特征提取。本文網(wǎng)絡(luò)引入注意力機(jī)制SGE模塊幫助網(wǎng)絡(luò)更加精確地提取人臉表情特征。SGE模塊采用了特征分組的思想,沿通道將卷積特征分組為多個(gè)子特征。由于缺乏對(duì)人臉表情特定區(qū)域或細(xì)節(jié)的監(jiān)督,同時(shí)表情圖像中可能會(huì)存在噪聲,表情特征的空間分布會(huì)出現(xiàn)不穩(wěn)定的情況,從而會(huì)削弱局部表情特征的表達(dá)能力。為了使每一組特征在空間上具有魯棒性和良好分布性,SGE在每一個(gè)特征組內(nèi)建立了一個(gè)空間增強(qiáng)機(jī)制,使用注意遮罩在所有位置上縮放特征向量,注意遮罩的生成源為全局統(tǒng)計(jì)特征和局部特征之間的相似性。這種設(shè)計(jì)能有效抑制噪聲,并能突出語義特征重點(diǎn)區(qū)域。其目的在于提高各組不同語義子特征的學(xué)習(xí),并自我增強(qiáng)組內(nèi)空間分布。SGE模塊的結(jié)構(gòu)如圖4所示。

        該注意力機(jī)制SGE模塊首先將一個(gè)C通道,H×W的卷積特征沿通道數(shù)劃分為G組。SGE并行處理所有的子特征組,同時(shí)在每個(gè)子特征組內(nèi)進(jìn)行單獨(dú)的注意操作。其中一個(gè)特征組在空間內(nèi)的每個(gè)位置上都存在一個(gè)特征向量,在這里將此原始特征向量表示為xi,xi∈RC/G,1

        (1)

        接下來,利用組內(nèi)的全局特征和原始特征的點(diǎn)積結(jié)果,來獲得每個(gè)特征對(duì)應(yīng)的注意系數(shù),將此注意系數(shù)記為ci,則有

        ci=g·xi

        (2)

        (3)

        (4)

        (5)

        (6)

        圖4 SGE模塊結(jié)構(gòu)

        (7)

        1.3 基于遷移學(xué)習(xí)的人臉表情識(shí)別

        人臉表情識(shí)別最終要解決的問題的本質(zhì)是利用卷積神經(jīng)網(wǎng)絡(luò)提取一組圖像的特征向量并將其類別劃分為K類。網(wǎng)絡(luò)在預(yù)測過程中用分類器來為給定的這組圖像提供一個(gè)屬于K類中每個(gè)類的概率。在本文所提的實(shí)際問題中,即將一組人臉表情數(shù)據(jù)分為7類(6類基本表情和正常表情)。在遷移學(xué)習(xí)中,定義了源域表情數(shù)據(jù)為XS,源域表情標(biāo)簽為y,無標(biāo)簽的目標(biāo)域表情數(shù)據(jù)為XT。 將源域XS和標(biāo)簽y輸入源域卷積通道,將目標(biāo)域XT輸入目標(biāo)域卷積通道,在提取源域和目標(biāo)域的人臉表情特征之后,利用log-Euclidean距離來計(jì)算兩個(gè)域之間的表情特征相關(guān)性差異,然后使其和多分類損失一起作為優(yōu)化目標(biāo)來實(shí)現(xiàn)源域和目標(biāo)域之間的相關(guān)對(duì)齊。

        首先,用CS和CT來分別表示源域和目標(biāo)域的特征協(xié)方差矩陣,則有

        (8)

        (9)

        其中,nS和nT分別表示源域和目標(biāo)域數(shù)據(jù)的個(gè)數(shù),1表示一個(gè)列向量,所有元素都為1。一般情況下,兩個(gè)域之間的相關(guān)性差異利用協(xié)方差定義,假設(shè)此處將相關(guān)性差異用基于Euclidean距離的方法表示,則有

        (10)

        (11)

        式中:U和V分別表示CS和CT的對(duì)角化矩陣,σi和μi(i=1,…,d) 為相應(yīng)的特征值。此時(shí)考慮到,若只最小化分類損失,可能會(huì)導(dǎo)致對(duì)源域過度擬合,從而降低目標(biāo)域上的性能,另外,若單靠最小化log-Euclidean距離可能會(huì)導(dǎo)致表情特征一定程度上的退化。最終,使用多分類損失函數(shù)與此距離一起來定義為遷移學(xué)習(xí)的總損失,則有

        l=lclass+λllog(CS,CT)

        (12)

        式中:l表示遷移學(xué)習(xí)的總損失,將會(huì)作為最終的優(yōu)化目標(biāo)來更新網(wǎng)絡(luò)參數(shù),lclass表示源域的多分類損失,llog(CS,CT) 表示源域和目標(biāo)域之間的分布距離,λ表示權(quán)衡分布距離在網(wǎng)絡(luò)中作用的權(quán)值。多分類損失函數(shù)的定義為

        (13)

        式中:yp表示網(wǎng)絡(luò)預(yù)測的表情類別,y表示真實(shí)的表情類別,i表示已定義的表情類別數(shù)目。在訓(xùn)練結(jié)束時(shí),多分類損失和基于log-Euclidean距離的損失項(xiàng)會(huì)達(dá)到一定平衡,最終能夠在源域數(shù)據(jù)上保持良好分類精度的同時(shí),也在目標(biāo)域數(shù)據(jù)上獲得更好的人臉表情分類性能。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)集及預(yù)處理

        本文實(shí)驗(yàn)用到了3個(gè)人臉表情數(shù)據(jù)庫,分別為RAF-DB[10]、JAFFE[11]、CK+[12]。

        RAF-DB[10]數(shù)據(jù)庫的人臉圖像均來自互聯(lián)網(wǎng),共有29 672張。該數(shù)據(jù)庫提供了7類基本表情的子集和11類復(fù)合表情的子集。本文實(shí)驗(yàn)借助其7類基本表情(生氣、厭惡、害怕、高興、悲傷、驚訝、正常)的子集進(jìn)行訓(xùn)練,共包含15 339張圖片。本文在實(shí)驗(yàn)之前,對(duì)該數(shù)據(jù)集進(jìn)行了相關(guān)預(yù)處理。主要原因在于該數(shù)據(jù)集的各類表情數(shù)量相差很大,差距最大的兩類表情為害怕(355張)和高興(5957張)。因此,本文將該數(shù)據(jù)集進(jìn)行均衡化處理,主要表現(xiàn)在對(duì)數(shù)量多的表情進(jìn)行過采樣處理(包括對(duì)圖像的水平翻轉(zhuǎn)和隨機(jī)旋轉(zhuǎn)操作),對(duì)數(shù)量少的表情進(jìn)行欠采樣處理。處理后的數(shù)據(jù)集包含14 640張圖片,各類表情數(shù)量相對(duì)平衡。

        JAFFE[11]數(shù)據(jù)庫是一個(gè)來自實(shí)驗(yàn)室的圖像數(shù)據(jù)庫,包含來自10個(gè)日本女性的213個(gè)表情圖像,其中每個(gè)人均有7類基本表情,每種圖像表情有3張或4張。由于該數(shù)據(jù)集中的圖像包含無關(guān)表情區(qū)域,因此本文在實(shí)驗(yàn)之前對(duì)其做了裁剪,只保留了人臉表情區(qū)域,實(shí)驗(yàn)中使用的數(shù)據(jù)全部為裁剪后的人臉表情圖像。

        CK+[12]同樣是實(shí)驗(yàn)室數(shù)據(jù)庫,包含123名受試者的593個(gè)視頻序列,其中有標(biāo)記的只有309段表情序列,標(biāo)記規(guī)則為6種基本面部表情。本文實(shí)驗(yàn)從此309段表情序列中提取最后1幀到3幀和每個(gè)序列的第一幀,以此作為正常表情,然后將其與上述提到的已標(biāo)記的6種表情組合起來,作為本文實(shí)驗(yàn)的7類表情數(shù)據(jù)集,共包含1236張圖片。

        2.2 實(shí)現(xiàn)細(xì)節(jié)及實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)主要分為兩組,一組是從RAF-DB數(shù)據(jù)集到JAFFE數(shù)據(jù)集的人臉表情遷移實(shí)驗(yàn),另一組是從RAF-DB數(shù)據(jù)集到CK+數(shù)據(jù)集的人臉表情遷移實(shí)驗(yàn)。即源域數(shù)據(jù)為有標(biāo)簽的RAF-DB人臉表情數(shù)據(jù)集,目標(biāo)域數(shù)據(jù)為無標(biāo)簽的JAFFE人臉表情數(shù)據(jù)集和無標(biāo)簽的CK+人臉表情數(shù)據(jù)集。

        本文所有實(shí)驗(yàn)均將3個(gè)數(shù)據(jù)集中的人臉表情圖片縮放到56×56像素大小之后再輸入至網(wǎng)絡(luò)中,訓(xùn)練數(shù)據(jù)批量大小為128,并采用學(xué)習(xí)率為0.009,動(dòng)量為0.9,權(quán)值衰減系數(shù)為0.0001的動(dòng)量梯度下降法進(jìn)行訓(xùn)練,輸出為不同類別表情的概率。

        本文實(shí)驗(yàn)是基于Tensorflow的深度學(xué)習(xí)框架構(gòu)建的,編程語言及版本為Python3.6.5,使用的CPU為內(nèi)存16 G Intel(R) Core(TM)i7-8700,GPU為11 GB的NVIDIA GeForce GTX 1080 Ti。

        本文實(shí)驗(yàn)的評(píng)價(jià)準(zhǔn)則之一為人臉表情識(shí)別正確率,其定義為

        (14)

        式中:Ni表示為第i類識(shí)別正確的表情數(shù)量,nT表示為目標(biāo)域數(shù)據(jù)的表情數(shù)量。

        2.3 實(shí)驗(yàn)對(duì)比與分析

        2.3.1 通道分組數(shù)對(duì)比實(shí)驗(yàn)

        本文實(shí)驗(yàn)將基于特征分組的注意力機(jī)制模塊SGE嵌入到卷積神經(jīng)網(wǎng)絡(luò)中,并研究其通道分組數(shù)G對(duì)網(wǎng)絡(luò)性能的影響。SGE模塊中的通道分組數(shù)G取值不同,則相關(guān)語義子特征的數(shù)目不同。因此,一定存在一個(gè)合適的分組數(shù)G,可以相對(duì)平衡表示每個(gè)語義,從而優(yōu)化網(wǎng)絡(luò)性能。本文在未使用遷移學(xué)習(xí)的條件下,對(duì)G=2,4,8,16,32,64這6種情況進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5和圖6所示。

        圖5 JAFFE表情識(shí)別正確率

        圖6 CK+表情識(shí)別正確率

        結(jié)果顯示,在G=2時(shí),網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集上的人臉表情識(shí)別正確率最差,數(shù)據(jù)集JAFFE上的正確率為45.23%,數(shù)據(jù)集CK+上的正確率為58.81%。當(dāng)G的逐漸增大時(shí),網(wǎng)絡(luò)的表情識(shí)別正確率逐漸升高。在G=32時(shí),網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集上均達(dá)到正確率的最高值,數(shù)據(jù)集JAFFE上的人臉表情識(shí)別正確率為49.09%,數(shù)據(jù)集CK+上的人臉表情識(shí)別正確率為60.34%。當(dāng)G增大到64時(shí),網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集上的識(shí)別正確率開始下降,分別為48.50%和60.09%??梢钥闯?,隨著G的增加,網(wǎng)絡(luò)的性能呈現(xiàn)出先升后降的趨勢。因?yàn)橥ǖ罃?shù)是固定的,分組過多會(huì)減少組內(nèi)語義子特征的維數(shù),導(dǎo)致每個(gè)語義響應(yīng)的特征表示較弱,反之,分組過少會(huì)限制語義特征表達(dá)的多樣性。顯然,當(dāng)G=32時(shí)在本文網(wǎng)絡(luò)框架中能得到最好的特征平衡,因此,本文將選擇G=32來進(jìn)行后續(xù)所有的實(shí)驗(yàn)。

        2.3.2 懲罰系數(shù)對(duì)比實(shí)驗(yàn)

        懲罰系數(shù)λ是一個(gè)權(quán)值,在源域上用分類精度來權(quán)衡域適應(yīng)的效果。因此,一定有一個(gè)相對(duì)合適的λ值來權(quán)衡遷移的程度。本文實(shí)驗(yàn)選取λ=0.2,0.4,0.8,1.0,1.2,1.4來進(jìn)行對(duì)比人臉表情識(shí)別的分類效果,實(shí)驗(yàn)結(jié)果如圖7和圖8所示。

        圖7 JAFFE表情識(shí)別正確率

        圖8 CK+表情識(shí)別正確率

        結(jié)果顯示,隨著λ的增加,網(wǎng)絡(luò)的人臉表情識(shí)別性能先增大后減小。在λ=0.2時(shí),數(shù)據(jù)集JAFFE上的人臉表情識(shí)別正確率為49.61%,比未使用遷移學(xué)習(xí)時(shí)高0.52%,數(shù)據(jù)集CK+上的人臉表情識(shí)別正確率為60.97%,比未使用遷移學(xué)習(xí)時(shí)高0.63%,說明加入遷移之后對(duì)網(wǎng)絡(luò)的識(shí)別性能有一定幫助。當(dāng)λ逐漸增大時(shí),網(wǎng)絡(luò)的表情識(shí)別正確率逐漸升高。顯然,當(dāng)λ=1.0時(shí),表情識(shí)別正確率最高,在數(shù)據(jù)集JAFFE上達(dá)到54.12%,在數(shù)據(jù)集CK+上達(dá)到65.03%,在兩個(gè)數(shù)據(jù)集上分別比未遷移時(shí)高出5.03%和4.69%。當(dāng)λ增大到1.2時(shí),網(wǎng)絡(luò)的表情識(shí)別率在兩個(gè)數(shù)據(jù)集上的表情識(shí)別率開始下降,分別為53.49%和64.39%,當(dāng)λ繼續(xù)增大時(shí),正確率更低。說明懲罰系數(shù)并不是越大越好,如果讓?duì)死^續(xù)增大,網(wǎng)絡(luò)的識(shí)別正確率可能會(huì)出現(xiàn)低于未使用遷移時(shí)的正確率。因此選擇合適的懲罰系數(shù)能更好地權(quán)衡域適應(yīng)的效果,對(duì)網(wǎng)絡(luò)的識(shí)別性能相當(dāng)重要。

        2.3.3 不同方法對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證所提方法的有效性,本文通過人臉表情識(shí)別正確率,卷積神經(jīng)網(wǎng)絡(luò)參數(shù)量和卷積神經(jīng)網(wǎng)絡(luò)計(jì)算復(fù)雜度(floating point operations,F(xiàn)LOPs)這3個(gè)指標(biāo)將本文提出的卷積神經(jīng)網(wǎng)絡(luò)(Our CNN)、使用遷移學(xué)習(xí)方法后的卷積神經(jīng)網(wǎng)絡(luò)(Our CNN & log-Euclidean)與常用的人臉表情識(shí)別網(wǎng)絡(luò)AlexNet[13]、VGG16[14]和遷移學(xué)習(xí)方法Deep CORAL[15]進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果見表1。

        表1 不同網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)

        表1數(shù)據(jù)結(jié)果顯示,在不使用遷移學(xué)習(xí)的情況下,本文方法在數(shù)據(jù)集JAFFE上的人臉表情識(shí)別正確率為49.09%,在數(shù)據(jù)集CK+上的人臉表情正確率為60.34%,比AlexNet網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集中的正確率分別高出3.13%和3.45%,比VGG16網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集中的正確率分別高出1.74%和2.27%,說明了本文網(wǎng)絡(luò)在識(shí)別任務(wù)上有一定的成效。在加上遷移學(xué)習(xí)方法后,兩個(gè)數(shù)據(jù)集的表情識(shí)別正確率分別可以達(dá)到54.12%和65.03%,這個(gè)結(jié)果比未加上遷移方法的識(shí)別正確率分別高出了5.03%和4.69%,比AlexNet網(wǎng)絡(luò)分別高出8.16%和8.14%,比VGG16網(wǎng)絡(luò)分別高出6.77%和6.96%,驗(yàn)證了本文所提的遷移學(xué)習(xí)方法能有效地減小源域和目標(biāo)域之間的分布距離。此外,本文遷移方法的識(shí)別正確率在兩個(gè)數(shù)據(jù)集上的識(shí)別正確率比遷移方法Deep CORAL分別高出4.35%和4.17%,足以驗(yàn)證了本文方法在優(yōu)化源域和目標(biāo)域之間的相關(guān)對(duì)齊問題上的優(yōu)越性,更適用于人臉表情識(shí)別任務(wù)。

        另外由表1還可以可以看到,本文網(wǎng)絡(luò)的參數(shù)量大約為1.7 M,AlexNet網(wǎng)絡(luò)和VGG16網(wǎng)絡(luò)的參數(shù)量大約為62 M 和138 M,本文網(wǎng)絡(luò)的參數(shù)量在一眾對(duì)比方法中最少,大約為AlexNet網(wǎng)絡(luò)參數(shù)量的1/37,VGG16網(wǎng)絡(luò)參數(shù)量的1/83。另外本文所提網(wǎng)絡(luò)的計(jì)算復(fù)雜度為0.261 G,而AlexNet網(wǎng)絡(luò)和VGG16網(wǎng)絡(luò)的計(jì)算復(fù)雜度為0.727 G和16 G,大約為本文網(wǎng)絡(luò)的3倍和61倍,表明本文所提網(wǎng)絡(luò)運(yùn)行效率較高,因此本文網(wǎng)絡(luò)實(shí)現(xiàn)了輕量化的同時(shí)還取得了較高的表情識(shí)別正確率。綜合兩個(gè)數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果,驗(yàn)證了本文所提方法在人臉表情識(shí)別任務(wù)上的有效性,并且有一定的應(yīng)用價(jià)值。

        圖9和圖10給出了相同實(shí)驗(yàn)環(huán)境下數(shù)據(jù)集JAFFE和CK+上實(shí)驗(yàn)結(jié)果的混淆矩陣,可以更加明了地觀察到本文所提方法的人臉表情識(shí)別效果。結(jié)果顯示,在JAFFE和CK+兩個(gè)數(shù)據(jù)集中,本文方法對(duì)驚訝表情的識(shí)別正確率最高,分別為90%和93%;其次是高興表情,正確率分別為77%和72%。通過觀察表情圖片發(fā)現(xiàn),表情驚訝和高興的表現(xiàn)特征較其它表情更為明顯,表情驚訝大多都會(huì)表現(xiàn)出眼睛大睜、眉毛抬起、雙唇分開等,表情高興大多都會(huì)表現(xiàn)出下眼瞼上揚(yáng)、嘴巴變長、臉頰上升等。因此驚訝和高興表情的識(shí)別正確率較高。從圖中還可以看出,本文方法在兩個(gè)數(shù)據(jù)集上對(duì)生氣表情的識(shí)別正確率最低,分別為13%和4%。另外可以很明顯地發(fā)現(xiàn),本文方法很容易將生氣表情識(shí)別為厭惡表情,這種情況在兩個(gè)數(shù)據(jù)集中分別高達(dá)50%和61%,并且在厭惡表情的識(shí)別中,仍舊有不可忽視的一部分誤識(shí)別為生氣表情。通過觀察發(fā)現(xiàn),兩個(gè)數(shù)據(jù)集中生氣和厭惡表情的樣例特征較為相似,都出現(xiàn)了相似程度的皺眉、皺鼻和嘴巴鼓起,給識(shí)別工作帶來了一定的難度,因此混淆矩陣給出的結(jié)果相對(duì)合理。

        圖9 JAFFE混淆矩陣

        圖10 CK+混淆矩陣

        3 結(jié)束語

        本文提出了一種基于注意力機(jī)制的人臉表情識(shí)別遷移學(xué)習(xí)方法。該方法主體為兩個(gè)相同且參數(shù)共享的卷積神經(jīng)網(wǎng)絡(luò),其使用已標(biāo)記的源域數(shù)據(jù)輔助訓(xùn)練未標(biāo)記的目標(biāo)域數(shù)據(jù),且利用SGE模塊將特征分組并使每個(gè)單獨(dú)的特征組自主增強(qiáng)其學(xué)習(xí)表達(dá),提高了網(wǎng)絡(luò)的特征提取能力。最后在目標(biāo)函數(shù)中構(gòu)造了一個(gè)基于log-Euclidean距離的損失項(xiàng),并將其與多分類損失一起作為優(yōu)化目標(biāo)來實(shí)現(xiàn)源域和目標(biāo)域之間的相關(guān)對(duì)齊,提高了表情分類能力。實(shí)驗(yàn)結(jié)果表明,本文方法能夠在自主增強(qiáng)人臉表情特征學(xué)習(xí)的同時(shí),還能成功將源域知識(shí)遷移到目標(biāo)域上,最終使目標(biāo)域表情數(shù)據(jù)正確分類。

        猜你喜歡
        特征實(shí)驗(yàn)
        抓住特征巧觀察
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        做個(gè)怪怪長實(shí)驗(yàn)
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        无码精品a∨在线观看| 影音先锋色小姐| 乱码av麻豆丝袜熟女系列| 亚洲国产天堂一区二区三区| 亚洲一区二区三区成人网站| 国产精品久久国产精麻豆99网站| 奇米影视777撸吧| 人妻精品无码一区二区三区| 亚洲成年网站在线777| 九九在线精品视频xxx| 亚洲视频一区二区三区免费| 国产视频一区2区三区| 手机在线观看免费av网站| 又大又粗欧美黑人aaaaa片| 玩弄放荡人妻少妇系列视频| 亚洲不卡av不卡一区二区| 国产综合久久久久影院| 国产一区二区精品av| 亚洲av无码国产精品久久| 国产精品久久久国产盗摄| 久久久久久久久888| 国产精品美女久久久久久大全| 99久久无色码中文字幕鲁信| 亚洲专区路线一路线二网| av在线观看一区二区三区| 男人的天堂无码动漫av| 国产精品成人99一区无码| 成年女人A级毛片免| av免费在线观看在线观看| 亚洲日本人妻少妇中文字幕| 日日摸日日碰人妻无码| 亚洲aⅴ在线无码播放毛片一线天| 国产在线白丝DVD精品| 色婷婷狠狠97成为人免费 | 国产大屁股白浆一区二区三区 | 国产香蕉尹人在线观看视频| 国产精品日韩欧美一区二区区| 校花高潮一区日韩| 美女被黑人巨大入侵的的视频| 国模冰莲极品自慰人体| 久久久久久久人妻无码中文字幕爆|