亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度可分卷積神經網絡的實時人臉表情和性別分類

        2020-06-01 10:55:12劉尚旺劉承偉張愛麗
        計算機應用 2020年4期
        關鍵詞:深度模型

        劉尚旺,劉承偉,張愛麗

        (河南師范大學計算機與信息工程學院,河南新鄉(xiāng)453007)

        (?通信作者電子郵箱shwl2012@Hotmail.com)

        0 引言

        隨著感知技術的發(fā)展,人體特征檢測和識別成為研究熱點。而人的面部特征是交流的關鍵因素,能夠表現(xiàn)豐富的情感信息和性別特點,利用圖像處理技術和深度學習對人臉表情和性別識別在智慧教育、公共安全監(jiān)控、遠程醫(yī)療中有著重要的作用。而目前的實際運用中,大多數(shù)模型難以處理背景復雜、有遮擋的多角度人臉圖像,如Jeon 等[1]使用方向梯度直方圖(Histogram of Oriented Gradients,HOG)特征來檢測人臉以減少光照不均勻對表情識別的影響,利用SVM在FER-2013數(shù)據(jù)集上實現(xiàn)了70.7%的表情識別率;但該方法抗干擾能力弱,適應性差。張延良等[2]提出通過面部關鍵點坐標將與微表情相關的七個局部區(qū)域串聯(lián)構成特征向量來進行微表情識別,但存在局部區(qū)域微表情識別率低的缺點。羅珍珍等[3]等利用條件隨機森林和支持向量機(Support Vector Machine,SVM)算法來檢測人臉微笑情緒特征。戴逸翔等[4]利用智能穿戴設備來獲取腦電、脈搏和血壓三類生物信息,利用稀疏自編碼方法對多模態(tài)情緒進行分析與識別,因為需要給每一位測試者佩戴設備,這無疑存在著成本過高不能大規(guī)模使用的局限性。

        目前,有效解決自然場景下的圖像分類和物體檢測等圖像相關任務的方法主要有傳統(tǒng)機器學習和卷積神經網絡(Convolutional Neural Networks,CNN)的方法。傳統(tǒng)機器學習的方法一般采用手工設計特征,并利用分類器算法進行表情判定。典型的表情特征提取方法有主元分析(Principal Component Analysis,PCA)法[5]、局部二值模式(Local Binary Pattern,LBP)[6]、Gabor 小波變換[7]、尺度不變的特征變換(Scale Invariant Feature Transform,SIFT)[8]等,常用的分類方法主要有隱馬爾可夫模型(Hidden Markov Model,HMM)[9]、K 最近鄰(K-Nearest Neighbor,KNN)算法[10]等。

        相比傳統(tǒng)機器學習,深度神經網絡能夠自主學習特征,減少了人為設計特征造成的不完備性。Tang[11]提出將CNN 與SVM 相結合,并且放棄了全連接CNN 所使用的交叉熵損失最小化方法,而使用標準的鉸鏈損失來最小化基于邊界的損失,在其測試集上實現(xiàn)了71.2%的識別率。MobileNet-V2[12]中采用了多尺度核卷積單元主要以深度可分離卷積為基礎,分支中采用了的線性瓶頸層結構,對表情進行了分類獲得了70.8%的識別率。Li 等[13]提出了一種新的保持深度局域的CNN 方法,旨在通過保持局部緊密度的同時最大化類間差距來增強表情類別間的辨別力。Kample 等[14]通過構建級聯(lián)CNN 來提高表情識別的精度。徐琳琳等[15]針對網絡訓練時間過長等問題,提出一種基于并行卷積神經網絡的表情識別方法,獲得了65.6%的準確率。CNN 常被用作黑盒子,它將學習到的特征隱藏,使得在分類的準確性和不必要的參數(shù)數(shù)量之間難以抉擇。為此Szegedy 等[16]提出利用導向梯度反向傳播的實時可視化,來驗證CNN學習的特征。

        對FER-2013數(shù)據(jù)集上的“憤怒”“厭惡”“恐懼”“快樂”“悲傷”“驚訝”和“中性”等表情進行識別[16],是非常困難的(見圖1),需要表情分析和性別識別模型具有較強的魯棒性和較高的計算效率。

        圖1 FER-2013情感數(shù)據(jù)集的樣本Fig. 1 Samples in FER-2013 emotion dataset

        圖2 IMDB數(shù)據(jù)集的樣本Fig. 2 Samples in IMDB dataset

        1 本文方法

        完整的實時表情和性別識別模型包括三個流程:人臉的檢測與定位、特征提取和分類。針對實際應用對于人臉檢測的準確度高和響應速度快的需求,使用MTCNN(Multi-Task CNN)網絡對輸入圖像進行人臉檢測,利用KCF(Kernelized Correlation Fiter)跟蹤器進行人臉的定位跟蹤,將人臉圖像歸一化輸入深度可分卷積神經網絡進行分類。最后,將表情識別和性別識別兩個網絡并聯(lián)融合。圖3 是實時人臉表情和性別識別模型的總體框架。

        圖3 人臉表情和性別識別框架Fig. 3 Facial expression and gender recognition framework

        1.1 多尺度人臉檢測與跟蹤

        MTCNN 算法使用圖像金字塔,可適應不同尺度的人臉圖像,網絡結構如圖4 所示。該算法由快速生成候選窗口的P-Net(Proposal Netwaork)、進行高精度候選窗口過濾選擇的R-Net(Refine Network)和生成最終邊界框與人臉檢測點的O-Net(Output Network)三層網絡級聯(lián)組成。通過人臉關鍵點來對齊不同角度的人臉,網絡由粗到細,使用降低卷積核數(shù)量和大小、增加網絡深度和候選框加分類的方式,進行快速高效的人臉檢測。

        加入KCF 跟蹤算法不僅能夠解決實際運用中人臉圖像角度多、有遮擋的檢測問題,還能提高人臉檢測速度。該算法使用目標周圍區(qū)域的循環(huán)矩陣采集正負樣本,利用脊回歸訓練目標檢測器,并通過循環(huán)矩陣在傅里葉空間可對角化的性質將矩陣的運算轉化為向量的Hadamad積,即元素的點乘,降低了運算量。先使用MTCNN算法對人臉進行檢測,將檢測的人臉坐標信息傳遞給跟蹤算法KCF 中,以此作為人臉檢測基礎樣本框,并采用檢測1幀、跟蹤5幀的跟蹤策略,最后更新檢測人臉的幀,進行MTCNN模型更新,防止跟蹤丟失。

        1.2 卷積神經網絡

        卷積神經網絡本質是一個多層感知機[17],包含眾多神經元,由輸入層、隱含層和輸出層組成,輸入層是將每個像素代表一個特征節(jié)點輸入進來,隱含層的卷積層和池化層是對圖像進行特征提取的核心,在圖像的卷積操作中,每個神經元內部把前一層輸入的圖像矩陣與多個大小不同的卷積核進行卷積求和,后跟一個加性偏置。將加性偏置和乘性偏置作為激活函數(shù)的參數(shù)求解,經過線性整流函數(shù)(Rectified Linear Unit,ReLU)激活函數(shù)后輸出新值,從而構成新的特征圖像。卷積層每個神經元的輸出為:

        為了跟本文設計深度可分卷積神經網絡作對比,構建和使用Bergstra等[18]提出的一個標準的全連接卷積神經網絡,網絡由9 個卷積層、線性整流函數(shù)ReLU、批量標準化和最大池化層組成。該模型包含大約600 000 個參數(shù)。在FER-2013 數(shù)據(jù)集中驗證了此模型,實現(xiàn)了66%的表情識別準確度。

        圖4 MTCNN網絡結構Fig. 4 Network structure of MTCNN

        1.3 深度可分卷積神經網絡

        由圖5 可知,該卷積神經網絡主要由6 個卷積層和3 個最大池化層構成,每一個卷積層進行卷積操作后進行一個same填充,當卷積核移動步長為1 時,圖像尺寸不變,同時為了固定網絡層中輸入的均值和方差并避免梯度消失問題,將每層神經網絡任意神經元的輸入值的分布拉回到均值為0、方差為1 的比較標準的正態(tài)分布,使用批規(guī)范化方法,在每一層加上一個批規(guī)范化(Batch Normalization,BN)操作,并用ReLU函數(shù)激活,后面連接3 個全連接層和1 個輸出層的Softmax 函數(shù),在全連接層之后使用一個Dropout 的方法,在訓練中隨機丟棄神經元防止過度訓練。本文設計的卷積神經網絡結構如圖5所示,其中c為卷積核的大小,n為卷積核的數(shù)量,s為卷積步長,p 為池化窗口的大小,same 表示使用same 的填充方式,ReLU為激活函數(shù),Sep-Conv為深度可分卷積。

        該網絡結構由以下部分組成:

        1)經過預處理之后得到的64 × 64 像素的學生頭部圖片作為輸入層。

        2)c1 層使用64 個大小為11× 11 的卷積核對圖像進行卷積操作,即每個神經元具有一個11× 11 的感受野,步長為4,使用same的填充方式,激勵函數(shù)為ReLU。

        3)s1 層采用了128 個3× 3 大小的池化窗口對圖像進行降維,池化方式為最大池化,步長為2。

        4)c2層采用了192個大小為5× 5的卷積核,步長為1。

        5)s2 層采用了192 個大小為3× 3 的池化窗口,池化方式為最大池化,步長為2。

        6)c3層使用256個3× 3的卷積核,步長為1。

        7)c4使用了256個大小為3× 3的卷積核,步長為1。

        8)c5使用256個大小為3× 3的卷積核,步長為1。

        9)c6使用深度可分離卷積塊。

        10)s3 采用大小為3× 3 的池化窗口進行池化,池化方式為最大池化,步長為2。

        11)使用4 096 個神經元對256 個6 × 6 的特征圖進行全連接,再進行一個dropout 隨機從4 096 個節(jié)點中丟掉一些節(jié)點信息,得到新的4 096個神經元。

        該網絡包含4 個剩余深度可分離卷積,其中每個卷積后面是批量歸一化操作和ReLU 激活函數(shù)。最后一層應用Softmax 函數(shù)產生預測。圖5 顯示了完整的最終網絡架構,將其稱為迷你Xception。該架構在性別分類任務中獲得95%的準確度。此外,在FER-2013數(shù)據(jù)集中情感分類任務中獲得了73.8%的準確度。最終模型的權重可以存儲在855 KB 的文件中。通過降低模型的計算成本使其具有實時性,并且能夠連接兩個模型并在同一圖像中使用。

        圖5 深度可分卷積神經網絡的結構Fig. 5 Deepwise separable convolution neural network structure

        1.4 深度可分離卷積單元

        本文模型受到Xception[19]架構的啟發(fā),結合了殘差模塊[20]和深度可分離卷積[21]的使用。殘差模塊修改兩個后續(xù)圖層之間所需的映射,以便學習的特征成為原始特征圖和所需特征的差值。通過“捷徑鏈接”的方式,直接將輸入的x 傳輸?shù)街虚g,將該中間結果作為初始結果H(x),為了使網絡的參數(shù)更容易學習,將網絡的學習目標從完整殘差塊的輸出F(x)改成新的目標值H(x)和x 的差值。因此,后層網絡訓練的目標是將輸出結果逼近于0,使隨著網絡加深,預測準確率不下降,修改的期望函數(shù)H(x)見式(2):

        深度可分離卷積由兩個不同的層組成:深度方向卷積和點方向卷積。將傳統(tǒng)的卷積分為兩步:第一步,在每個M輸入通道上應用一個D × D 濾波器,然后應用N 個1× 1× M 卷積濾波器將M 個輸入通道組合成N 個輸出通道;第二步,應用1×1×N 卷積將特征圖中的每個值結合起來。Xception 結構增加了每一層網絡的寬度和深度,同時也大大減少了網絡的參數(shù)。深度可分卷積將標準卷積的計算量減少至1 N + 1 D2。

        當輸入一個2維的數(shù)據(jù),對于一個卷積核大小為3×3的卷積過程,正常卷積的參數(shù)量為2 × 3× 3× 3= 54,深度可分卷積的參數(shù)量為2 × 3× 3+ 2 × 1× 1× 3= 24,可以看到,參數(shù)量為正常卷積的一半。加入該架構后模型大約有60 000 參數(shù),是原始CNN的1/80。

        正常卷積層和深度可分離卷積之間的差異如圖6所示。

        圖6 不同卷積之間的差異Fig. 6 Difference between different convolutions

        2 網絡的訓練

        2.1 數(shù)據(jù)預處理

        本文在訓練數(shù)據(jù)集之前,先對數(shù)據(jù)集進行預處理。即,將圖像數(shù)據(jù)歸一化到64 × 64像素的圖像;接著把歸一化后的圖像通過平移、翻轉、灰度等方法進行數(shù)據(jù)擴充,在訓練過程中以避免過擬合并提升泛化能力。另外,亦使用Dropout方法來避免過擬合。

        2.2 引導反向傳播可視化

        卷積神經網絡模型會因為訓練數(shù)據(jù)的偏向性出現(xiàn)偏差,在數(shù)據(jù)集FER-2013中,主要針對表情分類訓練的模型偏向于西方人的面部特征。此外,佩戴眼鏡也可能干擾所學習的特征,從而影響表情分類。那么當模型出現(xiàn)偏差時,使用實時引導的可視化技術(如引導反向傳播)就變得很重要。以觀察圖像中的哪些像素激活更高級別特征圖的元素。對于只將ReLU作為中間層的激活函數(shù)的卷積神經網絡,引導反向傳播是輸入圖像中的元素(x,y)對卷積神經網絡中位于L 層的特征圖fL中元素(i,j)的求導過程。當輸入圖像到某一層時,設置這層中想要可視化的神經元梯度為1,其他神經元的梯度設置為0,然后經過對池化層、ReLU 層、卷積層的反向傳播操作,得到輸入空間的一張圖像。因為ReLU函數(shù)的導數(shù)為:

        所以引導反向傳播后重構的圖像R 濾除了所有負梯度的值。因此,選擇剩余的梯度,使得它們僅增加特征圖的所選元素的值。層L中的ReLU激活的CNN重建圖像由式(4)給出:

        在FER-2013 數(shù)據(jù)集中分別提取本文的網絡和全連接卷積神經網絡最終卷積層中的高維特征進行顯示,結果如圖7所示。通過對比兩者高維可視化的特征顯示,本文提出的具有Xception 結構的網絡學習到的人臉特征具有更加清晰的輪廓和更少的顆粒感。

        圖7 兩種卷積神經網絡在FER-2013數(shù)據(jù)集上的可視化效果比較Fig. 7 Visualization comparison between two convolutional neural networks on FER-2013 dataset

        3 實驗與結果分析

        3.1 數(shù)據(jù)集

        人臉表情分類實驗在FER-2013 數(shù)據(jù)庫、CK+數(shù)據(jù)集上進行訓練和測試,性別分類實驗在IMDB 數(shù)據(jù)庫上進行訓練和測試。

        FER-2013 數(shù)據(jù)集包含35 887 張像素為48×48 的灰度圖,它已被挑戰(zhàn)賽舉辦方分為了三部分:訓練集28 709張、公共測試集3 589 張和私有測試集3 589 張。其中包含有7 種表情:憤怒、厭惡、恐懼、開心、難過、驚訝和中性。CK+面部表情數(shù)據(jù)集由123個個體和593個圖像序列組成,每個圖像序列的最后一個圖像序列都有動作單元標簽,327 個圖像序列都有表情標簽,被標記為7 種表情標簽:憤怒、蔑視、厭惡、恐懼、喜悅、悲傷和驚訝。IMDB 性別數(shù)據(jù)集包含460 723 個RGB 圖像,其中每個圖像被標注屬于“女性”或“男性”類。

        3.2 參數(shù)的訓練

        本文利用上述數(shù)據(jù)集在深度可分卷積神經網絡上進行訓練,神經元一開始是隨機而獨特的,因此它們計算不同的更新,并將自己整合到網絡的不同部分。將參數(shù)按高斯分布或者均勻分布初始化成一個絕對值較小的數(shù)[20]。絕對值過小,容易產生梯度消失問題;絕對值過大,則容易產生梯度爆炸問題。在使用正態(tài)分布初始化參數(shù)時,參數(shù)量n 越大,方差越大,越可能產生訓練速度慢或梯度消失問題。所以可以通過權重矩陣算法來降低初始化參數(shù)方差,進而提高訓練速度,預防梯度消失[21]。

        其中:randn樣本為單位標準高斯分布,均值為0。通過式(5),將每個神經元的權向量初始化為多維高斯分布中采樣的隨機向量,使得神經元在輸入空間中指向隨機方向。在訓練過程中隨機初始化權重和偏置,批量大小設置為120,初始學習率設置為0.01,本文使用了適應性矩估計(Adaptive moment estimation,Adam)算法來最小化損失函數(shù),實現(xiàn)學習率的自適應調整,從而保證準確率的同時加快收斂。通過對卷積神經網絡權重和偏置的調整,并且使用了訓練自動停止策略,當模型的在驗證集和訓練集上的預測能力提升,而在訓練集的誤差值先減小再增大,這時出現(xiàn)過擬合現(xiàn)象,訓練停止。圖8分別給出了FER-2013 和CK+數(shù)據(jù)集訓練過程中識別率的變化情況。由圖8 可以看出迭代至105次后,訓練的準確率達到很高的位置且基本保持穩(wěn)定,說明最后的模型已經得到充分收斂,訓練停止保存模型。

        圖8 兩種數(shù)據(jù)集上識別率變化Fig. 8 Change of recognition rate on two datasets

        3.3 表情分類實驗

        人臉表情和性別識別框架中,首先加載已訓練好的表情和性別分類模型以及相關配置文件,而針對待檢測人臉圖像,抓一幀圖,找到表情和性別坐標信息,將其像素大小調整為64 × 64。然后,人臉圖像經網絡模型向前計算,與訓練好的模型中的權重進行比較,得到預測的每一個情感和性別分類標簽的得分值,最大值即預測結果。面部表情和性別分析視覺結果如圖9所示。

        圖9 面部表情識別結果示例Fig. 9 Facial expression recognition result example

        實驗結果為3 次測驗的平均值。為了比較方便,在該測試集中種表情的識別準確度結果按照混淆矩陣圖表示,如表1所示。

        表1 FER-2013數(shù)據(jù)集上的情感識別混淆矩陣Tab. 1 Confusion matrix of expression recognition on FER-2013 dataset

        從表1 可知,本文方法對快樂表情識別率為87%,主要是因為網絡在特征提取時,快樂表情的面部特征較其他表情更加明顯,在Softmax 函數(shù)分類的過程中產生概率也越大。驚訝和中性表情識別率分別為77%和76%;而對憤怒和恐懼的表情識別率較低分別為65%和67%,容易出現(xiàn)錯誤的識別,如圖10 所示。其原因是在面部特征提取和學習的過程中,兩種表情的面部動作幅度都比較大,可能產生相似的面部特征,在Softmax函數(shù)分類時產生大小接近的概率值。

        圖10 易錯誤識別的表情對比Fig. 10 Comparison between easily misidentified expressions

        在CK+數(shù)據(jù)集上的實驗采用了遷移學習的方法,將模型在FER-2013上訓練得到的權重參數(shù)作為預訓練結果,然后在CK+上進行微調,并采用三折交叉驗證對模型性能進行評估。本文方法在CK+數(shù)據(jù)集上取得了96%的平均識別率,情感識別結果見表2。

        表2 CK+數(shù)據(jù)集上的情感識別混淆矩陣Tab. 2 Confusion matrix of emotion recognition on CK+dataset

        各方法在FER-2013 數(shù)據(jù)集上的識別率結果如表3 所示。

        表3 各方法在FER-2013數(shù)據(jù)集上的識別率對比Tab. 3 Comparison of recognition rate among different methods on FER-2013 dataset

        3.4 時間復雜度實驗

        實驗環(huán)境為:64 位Windows 10 操作系統(tǒng),CPU 為Inter i5 7300HQ,主頻2.5 GHz,顯卡型號為NVIDIA GTX 1050ti,顯存為4 GB,使用基于Tensorflow 的深度學習平臺。針對整體模型的實時性進行了測試。實驗結果表明,通過引用深度可分卷積的輕量化網絡結構,組合OpenCV 人臉檢測模塊,表情分類模塊和性別分類模型處理單幀人臉圖像的時間為(0.22±0.05)ms,整體處理速度達到80 frame/s;與文獻[11]所提架構的處理速度0.33 ms/frame 相比,相當于1.5倍的加速,能夠確保實時識別效果。

        4 結語

        針對卷積神經網絡訓練過程復雜、耗時過長、實時性差等問題,本文提出了一種基于深度可分卷積神經網絡的實時表情識別和性別識別方法。利用MTCNN 加上KCF 的方法進行人臉的檢測、跟蹤。通過引入深度可分離卷積輕量化網絡結構,減少模型參數(shù)數(shù)量,將參數(shù)數(shù)量同全連接CNN 相比,僅占其1/80;使用反卷積方法可視化呈現(xiàn)了CNN 模型中學習到的高級特征。最后,模型在FER-2013數(shù)據(jù)集上對人臉表情的識別達到了73.8%的高識別率,在CK+數(shù)據(jù)集上微調獲得96%的準確率,在IMDB 數(shù)據(jù)集上取得96%的識別率。處理單幀人臉圖像的時間為(0.22±0.05)ms,整體處理速度達到80 frame/s。實驗結果表明,本文模型可以堆疊用于多類分類,同時保持實時預測;可在單個集成模塊中執(zhí)行面部檢測,進行性別分類和情感分類。后續(xù)工作將增加情感識別類型,擴充表情數(shù)據(jù)庫,在真實場景下的數(shù)據(jù)集上進行訓練,進一步提高識別準確率。

        猜你喜歡
        深度模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        深度觀察
        深度觀察
        深度觀察
        深度觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        扒开女性毛茸茸的视频| 欧美久久久久中文字幕| 日本欧美小视频| 国产在线美女| 人妻少妇一区二区三区| 天堂岛国精品在线观看一区二区 | 亚洲综合一区二区三区蜜臀av| 中文字幕一区二区在线| 日韩激情视频一区在线观看| 91精品啪在线观九色| 日韩精品国产一区在线| 24小时免费在线观看av| 精品无码久久久久久久久| av免费不卡国产观看| 无人视频在线观看免费播放影院 | 日韩在线手机专区av| 国产一区二区在线观看av| 国产一区二区在线免费视频观看| 免费视频无打码一区二区三区 | 人与动牲交av免费| 亚洲精品无码专区在线| 国产女人18毛片水真多| 久久精品国产99久久丝袜| 亚洲人妻有码中文字幕| 国产高清在线精品一区二区三区| 日韩精品视频免费网站| 国产a在亚洲线播放| 人妻熟女一区二区三区app下载| 少妇高潮尖叫黑人激情在线| 亚洲AV永久无码制服河南实里| 国产成人乱色伦区小说| 无码成人AV在线一区二区| 亚洲av乱码国产精品观看麻豆| 一个人看的视频在线观看| 国产av一区二区精品凹凸| 亚洲欧美成人一区二区在线电影| 在线视频一区二区日韩国产| 免费在线观看草逼视频| 人妻少妇猛烈井进入中文字幕| 亚欧免费无码aⅴ在线观看| 九月婷婷人人澡人人添人人爽|