亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結合改進卷積神經(jīng)網(wǎng)絡與通道加權的輕量級表情識別

        2022-12-21 03:23:46梁華剛薄穎雷毅雄喻子鑫劉麗華
        中國圖象圖形學報 2022年12期
        關鍵詞:特征模型

        梁華剛,薄穎,雷毅雄,喻子鑫,劉麗華

        長安大學電子與控制工程學院,西安 710064

        0 引 言

        表情是情感的重要載體,是人機交互過程中一種重要的信息傳遞方式。表情作為一種典型的非言語交際形式,在情感分析中起著重要作用(Ben等,2021)。研究表明,情感表達中55%的信息是通過面部表情傳遞的(Pantic和Rothkrantz, 2000)。隨著人工智能的興起與廣泛應用,表情識別在人機交互、安全駕駛、醫(yī)療和通信等領域具有廣闊的應用前景。表情識別研究得到了廣泛關注,成為學術界和工業(yè)界的熱門研究方向。

        由于年齡、性別和種族等個體差異以及外界光照、姿態(tài)等環(huán)境因素的影響,表情識別一直是一項復雜的工作。傳統(tǒng)的表情識別方法大多采取手工設計特征或淺層學習,如提取圖像紋理特征的Gabor小波特征方法(Xu等,2015)、提取表情幾何特征的ASM(active shape model)方法(Sun等,2016)和提取表情邊緣特征的HOG(histogram of oriented gradient)方法(任福繼 等,2018)等,再用分類器進行表情分類。卷積神經(jīng)網(wǎng)絡能夠提取到人臉表情的高維特征,增強了傳統(tǒng)的手動提取特征方法的魯棒性。由于卷積神經(jīng)網(wǎng)絡需要大量數(shù)據(jù)進行訓練,當訓練數(shù)據(jù)較少時,可以采用dropout機制隨機丟棄神經(jīng)元(Yu和Zhang,2015)或數(shù)據(jù)擴充增加訓練數(shù)據(jù)(Yang等,2018)等減少模型過擬合的風險。隨著深度卷積神經(jīng)網(wǎng)絡的應用與發(fā)展,深度卷積神經(jīng)網(wǎng)絡可以提取到更深更具有判別能力的圖像特征,解決了卷積神經(jīng)網(wǎng)絡不能有效提取關鍵特征的問題,可以達到更高的準確率。深度置信網(wǎng)絡(deep belief net,DBN)是一種典型的深度學習方法(Hinton等,2006),能夠更好地學習復雜的數(shù)據(jù)結構和特征分布;增強型深度信念網(wǎng)絡(boosted deep belief network, BDBN)通過在循環(huán)框架中不斷執(zhí)行特征表示、特征選擇和分類器構造(Liu等,2014),增強了表情識別的判別能力;將改進深度自編碼器(deep autoencoder,DAE)應用到表情識別中(Huang和Ying,2015),通過網(wǎng)絡訓練和測試特征的最小誤差對圖像進行分類,有效地提高了表情識別的準確率;生成對抗網(wǎng)絡(generative adversarial networks,GAN)具有合成圖像能力,能夠修復局部遮擋圖像,進而生成高質(zhì)量目標樣本(姚乃明 等,2018),解決了遮擋圖像表情識別的識別率低、魯棒性差的問題;在神經(jīng)網(wǎng)絡結構中引入殘差學習模塊(杜進 等,2018),解決了隨著網(wǎng)絡深度的增加神經(jīng)網(wǎng)絡出現(xiàn)性能退化和梯度爆炸等問題;為進一步提升網(wǎng)絡的實時性,將輕量級網(wǎng)絡用于人臉表情的識別(呂誨 等,2020),此網(wǎng)絡僅有66 000個參數(shù);輕量級表情識別模型(lightweight expression recognition, LER) (Zhao等,2020)用于處理人機交互應用中的延遲問題;輕量級注意力表情識別網(wǎng)絡(lightweight attention DCNN, LA-Net)引入了網(wǎng)絡瘦身策略,便于部署在資源受限的設備上(Ma等,2021)。這些國內(nèi)外研究方法雖然在網(wǎng)絡精度、抗干擾性等方面取得了一定進步,但是由于表情識別的復雜性,仍存在一些問題,如:表情識別網(wǎng)絡結構越復雜,計算代價越大,速度難以達到實時性要求;降低網(wǎng)絡參數(shù)后,識別精度會隨之降低等。

        表情識別的關鍵技術在于表情特征的提取方法,有效的表情特征提取工作將大大提高表情識別的性能。因此,本文著眼于特征提取方法,提出了一種輕量級的表情識別網(wǎng)絡模型。主要貢獻有:

        1) 數(shù)據(jù)預處理部分主要使用圖像尺寸歸一化和增加噪聲隨機擾動等數(shù)據(jù)增強操作,去除與表情無關的干擾信息,提高模型的泛化性;2) 網(wǎng)絡模型采用深度可分離卷積和全局平均池化層有效地減少網(wǎng)絡參數(shù),并且合理嵌入SE(squeeze-and-excitation)模塊(Hu等,2020),在不同通道設置不同壓縮率更高效地提取人臉表情特征,提升網(wǎng)絡的識別能力;3) 本文表情識別任務包括實驗室受控環(huán)境和真實的環(huán)境多個場景,并通過大量實驗論證了本文方法的有效性和可靠性。

        1 基于卷積神經(jīng)網(wǎng)絡的表情識別

        卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)(Lecun等,1998)是表情識別常用算法之一,結構如圖1所示,主要由卷積層、池化層和全連接層組成。輸入圖像先通過卷積層卷積并產(chǎn)生特定類型的激活特征映射;再通過池化層減小特征映射的空間大小和網(wǎng)絡計算量,提升網(wǎng)絡的非線性特征提取能力;最后將提取的特征映射到全連接層,轉換為1維特征映射便于進一步的特征表示和分類。

        圖1 卷積神經(jīng)網(wǎng)絡結構Fig.1 The structure of the convolutional neural network

        卷積神經(jīng)網(wǎng)絡雖然具有較高的精度和較強的魯棒性等優(yōu)點,但是隨著網(wǎng)絡層數(shù)的加深,深度卷積神經(jīng)網(wǎng)絡結構的復雜度也越高,實時性難以保證,這使得傳統(tǒng)的卷積神經(jīng)網(wǎng)絡不再適用。

        2 表情識別網(wǎng)絡模型

        表情識別網(wǎng)絡主要包括人臉圖像采集、圖像預處理、特征提取和表情分類識別4個步驟,表情識別框架如圖2所示。特征提取是網(wǎng)絡結構的關鍵步驟,因此,本文設計了增強深度可分離卷積通道特征模塊,以此為基礎,搭建并訓練輕量級表情網(wǎng)絡模型,從而實現(xiàn)各類表情的準確分類。

        2.1 增強深度可分離卷積通道特征模塊(basic block)

        本文設計的增強深度可分離卷積通道特征模塊(basic block)由深度可分離卷積(depthwise separa-ble convolution, DSC)和SE模塊組合而成,模塊結構如圖3所示。首先,通過一組1×1的卷積從輸入特征圖中提取特征,然后,將輸出特征圖根據(jù)通道維度平均分成6個組,每個組使用卷積核為3×3、通道數(shù)為C/6的小卷積擴大感受野范圍,再將這6個組的通道維度拼接起來送入壓縮激發(fā)模塊,每一個通道都壓縮為一個數(shù)值,最后,按照通道內(nèi)的表情特征信息的重要程度分配權重系數(shù),從而實現(xiàn)增強重要特征通道。另外,每個卷積層后都有一個批歸一化層和一個放縮指數(shù)線性單元(scaled exponential linear units,SeLU)激活函數(shù)層。其中,批歸一化層用于對數(shù)據(jù)進行歸一化,緩解深度神經(jīng)網(wǎng)絡中梯度消失的問題,避免輸入數(shù)據(jù)偏移造成的影響;激活層增加了神經(jīng)網(wǎng)絡各層之間的非線性關系,能夠更好地提取關鍵特征和擬合訓練數(shù)據(jù)。

        深度可分離卷積由深度卷積和通道卷積組成,不僅可以拓展網(wǎng)絡寬度,而且在一定程度上減少了參數(shù)量,整體卷積過程如圖4所示。假設輸入的特征尺寸為DF×DF×M,DF為每個特征圖的邊長,M為輸入通道數(shù),N為輸出通道數(shù)。先用M個卷積核為DK×DK的深度卷積各自提取特征圖的每個通道特征,輸出每個通道內(nèi)的圖像特征信息;再用N個卷積核為1×1的通道卷積將每個通道的特征信息融合為一個特征圖。在參數(shù)量方面,深度可分離卷積與標準卷積的優(yōu)化比例為

        圖3 增強深度可分離卷積通道特征模塊結構Fig.3 The structure of basic block

        圖4 深度可分離卷積過程示意圖Fig.4 The structure of the depthwise separable convolution

        (1)

        在生成相同尺寸特征的情況下,采用了深度可分離卷積代替部分標準卷積,使得網(wǎng)絡模型的參數(shù)大大減少,可以保證網(wǎng)絡模型的實時性要求。

        圖5 SE模塊結構示意圖Fig.5 The structure of the SE module

        此外還在網(wǎng)絡不同層引入不同壓縮率,根據(jù)通道數(shù)的不同選擇不同的壓縮率,使得重要的特征更加明顯,從而提高了網(wǎng)絡模型的精度。

        2.2 表情識別網(wǎng)絡模型

        2.2.1 網(wǎng)絡結構

        本文表情識別網(wǎng)絡模型的主干網(wǎng)絡部分包括6個階段。階段1)采用兩個3×3標準卷積學習空間信息及通道間的相關性,進而提取低維特征,然后對輸出進行非線性激活。同時在每個卷積層后增加SE模塊,用于增強網(wǎng)絡層間的特征關系。階段2)—階段5)的結構類似,分別包括3個basic block和一個最大池化層。basic block中所有的深度可分離卷積的卷積核大小為3×3,步長為1,初始通道數(shù)為64,通道數(shù)依次遞增,最高可達1 024個通道。深度可分離卷積層后依次使用批量歸一化、SeLU和SE模塊,其中每個階段中SE模塊的壓縮率保持一致。并且分別在3、6、9、12個basic block后采用窗口大小為3、步長為2的最大池化層進行下采樣,減少特征圖的尺寸。階段6)為輸出層結構:首先,使用一個卷積核為3×3的標準卷積將1 024個特征圖映射為7個特征圖;然后,使用一個全局平均池化(global average pooling,GAP)對特征圖的空間信息進行求和(Lin等,2013),分別累加每個特征圖所有像素值并求平均得到7個數(shù)值,增強輸入的空間變化的魯棒性;最后,輸入到softmax分類器中,得到對應表情類別的7個概率值,最大概率值即為表情分類的預測結果。網(wǎng)絡模型的整體結構如圖6所示。

        圖6 表情識別網(wǎng)絡模型結構示意圖Fig.6 The structure of FER network model

        2.2.2 激活函數(shù)

        網(wǎng)絡采用SeLU激活函數(shù)處理人臉表情網(wǎng)絡輸入與輸出之間的非線性關系。SeLU自帶樣本歸一化特性,不受外界因素干擾,可以解決非正區(qū)間輸出為0的問題,當輸入給定負數(shù)的情況下,依然可以保持神經(jīng)單元的運作性。SeLU函數(shù)如式(2)所示,更有利于訓練多層的深度神經(jīng)網(wǎng)絡,訓練過程中梯度也不會爆炸或消失。

        (2)

        式中,x為輸入值,參數(shù)α和λ被證明得到了具體的數(shù)值:

        λ= 1.050 700 987 355 480 493 419 334 985 294 6,

        α= 1.673 263 242 354 377 284 817 042 991 671 7。

        2.2.3 損失函數(shù)

        本文網(wǎng)絡模型選用交叉熵損失函數(shù)衡量真實概率和預測概率之間的差別,損失函數(shù)不斷優(yōu)化網(wǎng)絡權重比例,從而進行評定網(wǎng)絡模型的好壞。交叉熵損失越小,模型預測的準確率越高。交叉熵損失函數(shù)為

        (3)

        式中,xi為樣本數(shù)據(jù),P(xi)為輸入xi真實值的概率,Q(xi)為模型輸出預測值的概率。

        3 實 驗

        3.1 數(shù)據(jù)集

        通過5個廣泛使用的數(shù)據(jù)集驗證本文方法的有效性,包括FER2013(Facial Expression Recognition 2013)數(shù)據(jù)集(Goodfellow等,2013)、CK+(the extended Cohn-Kanade)數(shù)據(jù)集(Lucey等,2010)、JAFFE(Japanses female facial expression)數(shù)據(jù)庫(Lyons等,1998)和RAF-DB(real-world affective faces database)(Li和Deng等,2019)、AffectNet (Mollahosseini等,2019)這兩個in-the-wild表情數(shù)據(jù)集。其中,既有在實驗室受控環(huán)境下采集較為標準的數(shù)據(jù)集(CK+和JAFFE),也有在真實世界環(huán)境下采集的較為自然的數(shù)據(jù)集(RAF-DB和AffectNet)。每個數(shù)據(jù)集細分為7種不同的表情標簽:憤怒、厭惡、恐懼、高興、悲傷、驚訝和自然。這些同類表情的面部姿態(tài)、年齡、表情強度和膚色有明顯差異,在光照、頭部姿態(tài)以及面部遮擋等方面多樣性,使用不同環(huán)境下采集的表情數(shù)據(jù)集更能說明算法模型的泛化性能。圖7展示了這5個數(shù)據(jù)集的各類表情的部分圖像樣本。

        圖7 部分數(shù)據(jù)集樣本Fig.7 Part of datasets samples((a)angry; (b)disgust; (c)fear; (d)happy;(e)sad; (f)surprise; (g)natural)

        1) FER2013數(shù)據(jù)集。數(shù)據(jù)庫人臉完整表情數(shù)據(jù)量大,不僅包括真實人臉圖像,還包括卡通類人臉表情圖像,數(shù)據(jù)集樣本豐富。此數(shù)據(jù)集共有35 887幅關于表情的圖像數(shù)據(jù),其中包括28 708幅訓練集圖像,公共驗證集與私有驗證集均3 589幅。

        2) CK+數(shù)據(jù)集。在實驗室條件下,按照要求進行采集年齡18-30歲的亞洲、非洲人的面部動作得到此數(shù)據(jù)集序列,是表情識別中最具代表性的數(shù)據(jù)庫。這些表情圖像由123個測試人員的593個圖像序列組成,展示了從平靜狀態(tài)到峰值表情轉變的過程,其中包括327個被標記的圖像序列。

        3) JAFFE數(shù)據(jù)集。這些圖像包括了不同強度的不同情緒,有著很高的識別率,也是使用率很高的數(shù)據(jù)庫。數(shù)據(jù)庫包括了10名日本女性根據(jù)指示在實驗環(huán)境下做出各種表情,每個人做出7種表情,共計213幅圖像。

        4) RAF-DB數(shù)據(jù)集。由從互聯(lián)網(wǎng)上下載的來自數(shù)千人的29 672幅圖像構成的大規(guī)模面部表情數(shù)據(jù)庫,非在實驗室控制條件下獲得,所以表情更自然,接近人類真實表情。數(shù)據(jù)庫包括7 類基本表情、12類復合表情和30余類混合表情,本文實驗研究僅使用基本表情圖像及標簽。在光照、頭部姿態(tài)等方面具有多樣性,注釋豐富。

        5) AffectNet數(shù)據(jù)集。從互聯(lián)網(wǎng)收集面部表情圖像,是目前自然條件下最大的面部表情識別圖像數(shù)據(jù)集。本文使用該數(shù)據(jù)庫中約28萬幅圖像,含有7種基本表情標簽的標注。標注類型包括表情類型和幅度等多樣化,更能反映真實場景的表情。

        3.2 數(shù)據(jù)集處理

        為提高訓練出來的模型的泛化性能,避免數(shù)據(jù)不充足導致的過擬合反應,對數(shù)據(jù)集進行預處理,示例如圖8所示(以CK+部分數(shù)據(jù)為例)。實驗訓練之前需要對所有數(shù)據(jù)集的圖像尺寸歸一化和一些數(shù)據(jù)增強操作。圖像尺寸歸一化即對訓練集所有圖像裁剪為48×48像素的灰度圖像,并分別在數(shù)據(jù)圖的左上角、左下角、右上角和右下角進行裁剪,去除不平衡光照;然后,進行隨機翻轉和增加隨機擾動、添加噪聲等數(shù)據(jù)增強操作。

        圖8 圖像增強示例圖Fig.8 Image enhancement example image

        數(shù)據(jù)增強后同一幅表情圖像會生成許多幅不一樣的圖像數(shù)據(jù),進一步擴充表情識別的數(shù)據(jù)集,有效降低了訓練網(wǎng)絡模型過程中出現(xiàn)的過擬合風險,提高了算法的魯棒性和模型的泛化性。具體的一些數(shù)據(jù)增強參數(shù)如表1所示。

        3.3 網(wǎng)絡訓練及參數(shù)設置

        實驗搭建了TensorFlow和Keras框架的深度學習網(wǎng)絡,操作系統(tǒng)為Windows 10,使用Python3.8.10編程語言進行訓練和測試。硬件平臺為英特爾 Core TM i7-10700CPU,內(nèi)存為64 GB,GPU為顯存11 GB的NVIDIA GeForce RTX 3070 Ti。網(wǎng)絡模型訓練時每次訓練數(shù)據(jù)總輪數(shù)為500次,批次大小為32,學習率初始化為0.1,隨著訓練的進行,根據(jù)損失函數(shù)的變化逐漸降低學習率,直到學習率變?yōu)?.000 1時停止降低。訓練得到各個數(shù)據(jù)集的識別精確度迭代結果如圖9所示,以及訓練網(wǎng)絡模型500次的損失收斂過程如圖10所示。

        可以看到,隨著訓練次數(shù)的增加,準確率逐漸提高,損失逐漸下降。間接反映出損失越小,準確率就會越高。網(wǎng)絡訓練過程中迭代的趨勢整體趨于穩(wěn)定,證明了本文網(wǎng)絡模型具有一定的穩(wěn)定性。

        表1 數(shù)據(jù)增強參數(shù)表Table 1 Data enhancement parameter table

        圖9 表情識別率迭代結果Fig.9 FER rate iteration results

        圖10 損失過程曲線圖Fig.10 Loss process curve

        3.4 壓縮率對比實驗

        本文在卷積層后引入SE模塊擴大感受野,進行通道加權增強重要的表情特征,提高表情識別率。對于本文搭建的網(wǎng)絡模型加入SE模塊和未加入SE模塊分別進行實驗,并對比識別精確度,實驗結果如圖11所示。

        圖11 SE模塊對比Fig.11 Comparison result of SE module

        可以看到網(wǎng)絡模型加入SE模塊后,F(xiàn)ER2013、CK+、JAFFE這3個數(shù)據(jù)集的識別精確度提高了3% -7%,而RAF-DB、AffectNet這兩個in-the-wild數(shù)據(jù)集由于存在被遮擋的人臉、錯誤的標簽等,其識別精確度平均提高2%,說明SE模塊重新調(diào)整表情特征的權重能夠提升網(wǎng)絡模型的準確率。為了更好地獲取各個通道特征的重要性關系,設置了壓縮率對比實驗。將網(wǎng)絡模型所有層分別取2、4、8、16、32壓縮率(r)和組合壓縮率的識別精確度進行對比,得到表情識別率對比結果,如圖12所示。

        圖12 表情識別準確率對比Fig.12 Comparison result of FER accuracy

        對比不同壓縮率取值,表情識別準確率不同,驗證了壓縮率的取值和網(wǎng)絡通道數(shù)之間存在一定的聯(lián)系。與各種壓縮率取值以及不加入SE模塊相比,組合壓縮率的表情識別率是最高的。因此,本文的SE模塊采用組合形式嵌入網(wǎng)絡模型中。

        為了找出最佳壓縮率組合方法,本文通過實驗在不同通道選擇最合適的壓縮率r對網(wǎng)絡模型進行測試??紤]不同網(wǎng)絡通道的特征分布,在卷積初始層不選擇太大的壓縮率。網(wǎng)絡結構中總共加入了14個SE模塊,前2層初始層的標準卷積層的壓縮率保持一致,在layer 1—layer 4中采用同一layer保持一致壓縮率的原則進行組合設計。本文選取了10種壓縮率的取值組合方式進行測試實驗,如表2所示。

        表2 壓縮率取值Table 2 Compression rate value

        對表2中10種壓縮率取值組合方式在各個數(shù)據(jù)集上分別進行驗證,實驗結果得到的識別精確度如圖13所示。

        圖13 不同壓縮率組合方式識別準確率Fig.13 FER accuracy of different compression ratio combinations

        實驗對比結果表明,選取第9種壓縮率的取值組合方式(c9)可以使得表情識別準確率最高,所以最終本文網(wǎng)絡模型選擇了第9種組合即采用2、4、8、16、16的壓縮率組合將SE模塊嵌入在網(wǎng)絡中,更高效提取表情特征。

        3.5 結果和分析

        實驗分別對比了目前7種識別率較高網(wǎng)絡結構的參數(shù)量,有:

        1) AlexNet網(wǎng)絡(Krizhevsky等,2017)是在圖像分類競賽ImageNet Large Scale Visual Recognition Competition (ILSVRC2012)中第1名的網(wǎng)絡,掀起了深度卷積神經(jīng)網(wǎng)絡在各個領域的研究熱潮。

        2) InceptionV4 (Szegedy等,2016)使用了統(tǒng)一的inception模塊并結合了殘差思想,使網(wǎng)絡層數(shù)更深。

        3) Xception網(wǎng)絡(Chollet,2017)是在網(wǎng)絡Inceptionv3的基礎上引入了可分離卷積(depthwise separable convolution),在基本不增加網(wǎng)絡復雜度的前提下提高了模型效果。

        4) Parallel CNN網(wǎng)絡(徐琳琳 等,2019)采用兩個并行的卷積池化結構,分成3個不同的并行路徑來提取3種不同的圖像特征。

        5) Attention Net方法(Fernandez等,2019)將注意力集中在人臉上,用高斯空間表示來進行表情識別。

        6) FaceNet2ExpNet網(wǎng)絡(Ding等,2017)對表情識別網(wǎng)絡的訓練進行調(diào)整:首先提出一種新的分布函數(shù)來模擬表達網(wǎng)絡的神經(jīng)元,接著設計了兩個階段的訓練算法。

        7) GAN網(wǎng)絡(孫曉和丁小龍,2020)是一種通過訓練使判別器和生成器達到平衡狀態(tài)的無監(jiān)督算法,將一種表情采用生成器進行下采樣生成其他不同表情。不同方法的網(wǎng)絡結構參數(shù)量如表3所示。

        表3 不同方法的網(wǎng)絡結構參數(shù)量Table 3 The amount of network structure parameters of different methods

        實驗結果顯示,本文方法相較于識別性能較好的Xception神經(jīng)網(wǎng)絡參數(shù)減少了63%,可保證實時性需求。本文提出的神經(jīng)網(wǎng)絡結構減少了參數(shù)數(shù)量和計算量,使得模型體積大大減小,屬于輕量級的模型,且對模型精確度不產(chǎn)生影響。與目前優(yōu)秀的特征提取網(wǎng)絡如MobileNetV3輕量級網(wǎng)絡(Howard等,2019)相比,在精確度相差不大的前提下,本文模塊參數(shù)量大大減少,在提升實時識別速度上有明顯優(yōu)勢。通過服務端設備對網(wǎng)絡模型的實時性進行了測試,經(jīng)測試發(fā)現(xiàn):平均識別速度可以達到128 幀/s,滿足實時性的要求。本文通過服務端設備對基于增強深度可分離卷積通道特征模塊的網(wǎng)絡模型的實時性進行了測試,如圖14所示為7種表情實時測試圖。

        圖14 實時表情識別效果圖Fig.14 The effect of real-time expression recognition((a)angry; (b)disgust; (c)fear; (d)happy; (e)sad;(f)surprise;(g)natural)

        在相同數(shù)據(jù)集和檢測環(huán)境下,對比7種現(xiàn)有最新的網(wǎng)絡模型的識別準確率,用于驗證網(wǎng)絡模型的有效性。實驗結果如表4所示。

        表4 不同方法的識別結果Table 4 Recognition results of different methods /%

        本文模型的識別率在CK+、FER2013、JAFFE、RAF-DB和AffectNet共5個表情識別數(shù)據(jù)集上分別可以達到99.32%、79.73%、98.48%、86.54%、60.89%,相比于7種卷積神經(jīng)網(wǎng)絡對比模型,識別精確度分別提高了0.51%、5.72%、0.28%、2.04%和0.68%。本文方法不僅能很好地識別室內(nèi)數(shù)據(jù)集且對室外表情數(shù)據(jù)集仍然有效,均取得了較高的識別精確度。由此說明本文在簡化網(wǎng)絡的復雜程度和減少計算量的同時仍能夠準確識別人臉表情,驗證了本文方法的有效性。由于FER2013和AffectNet這兩個數(shù)據(jù)集的干擾因素較多,如FER2013存在一些非正常表情圖片,生氣與悲傷、厭惡等表情易混淆等,AffectNet數(shù)據(jù)集存在頭部姿態(tài)、面部遮擋等,導致網(wǎng)絡模型在這兩個數(shù)據(jù)集的識別率比CK+、JAFFE、RAF-DB數(shù)據(jù)集的識別率低,進一步說明了表情識別的復雜性。

        4 結 論

        針對表情識別網(wǎng)絡模型復雜、泛化性差等問題,本文提出了一種增強深度可分離卷積通道特征的改進卷積神經(jīng)網(wǎng)絡的輕量級表情識別方法。主要工作如下:

        1) 對多個場景的表情數(shù)據(jù)集進行數(shù)據(jù)增強操作,丟棄干擾性較大的背景信息。

        2) 網(wǎng)絡模型采用標準卷積提取低維特征,用深度可分離卷積組合神經(jīng)網(wǎng)絡結構,并將全局平均池化直接輸入到softmax分類器,簡化了網(wǎng)絡的復雜度,從而有效降低了網(wǎng)絡的參數(shù)和計算量。

        3) 引入SE模塊進行通道加權,通過實驗選取最優(yōu)壓縮率設置方案,使得網(wǎng)絡模型提升特征表達能力,剔除無關的冗余特征,提高了網(wǎng)絡的魯棒性。

        最后在FER2013、CK+、JAFFE和RAF-DB、AffectNet多個場景的數(shù)據(jù)集上進行對比實驗,均得到了較高的表情識別率,從而驗證了本文方法的有效性。但是本文也存在一定不足,為了進一步提高算法的可靠性,需進一步考慮影響人臉表情識別精確度的問題,如遮擋、人臉姿勢變換等,解決這些問題是后續(xù)工作的重點。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學特征認識
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        精品无码国产自产在线观看水浒传 | 日本中文字幕婷婷在线| 久久只精品99品免费久23| 中文字幕人妻丝袜美腿乱| 日韩av高清无码| 亚洲aⅴ久久久噜噜噜噜| 在线视频免费自拍亚洲| 99噜噜噜在线播放| 天天弄天天模| 久久婷婷色综合一区二区| 国产91在线|亚洲| 久久夜色精品亚洲天堂| av网站免费观看入口| 久久午夜福利无码1000合集| 真实单亲乱l仑对白视频| 精品国产亚欧无码久久久| 麻豆成年人视频在线观看| 秋霞在线视频| 国产亚洲真人做受在线观看| 国产亚洲精品bt天堂| 无码伊人久久大杳蕉中文无码| 色佬易精品视频免费在线观看| 国产亚洲精品综合一区| 成av免费大片黄在线观看| 91精品福利一区二区| 扒开非洲女人大荫蒂视频 | 蜜臀av国内精品久久久人妻| 国产一区二区精品亚洲| 日韩吃奶摸下aa片免费观看| 亚洲日本va中文字幕久久| 人妻丰满熟妇av一区二区| 国产一区三区二区视频在线观看 | 亚洲成av人片女在线观看| 亚洲国产日韩欧美一区二区三区| 日韩中文字幕欧美亚洲第一区| 中文字幕日本一区二区在线观看| 久久久精品人妻一区二区三区妖精| 亚洲国色天香卡2卡3卡4| 亚洲VA中文字幕欧美VA丝袜| 手机在线播放成人av| 国产丝袜美女一区二区三区|