亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的帶遮蔽人臉識(shí)別

2019-06-22 05:35:06徐迅，陶俊*，吳瑰

江漢大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年3期

徐迅，陶俊*，吳瑰

（江漢大學(xué) a.數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院；b.工程訓(xùn)練中心，湖北武漢 430056）

0 引言

作為模式識(shí)別和圖像處理領(lǐng)域成功的應(yīng)用之一，人臉識(shí)別在過去20年里一直都是研究熱點(diǎn)。人臉識(shí)別的普遍性、可采集性與被采集者的可接受性較高，具有方便友好、易于接受、不易偽造等一系列優(yōu)點(diǎn)。隨著技術(shù)的發(fā)展，人們對(duì)公共安全更加關(guān)注，對(duì)人臉識(shí)別這一技術(shù)也有了新的要求。在實(shí)際生產(chǎn)生活中采集到的人臉圖像不一定是完整清晰的，對(duì)光照差異、面部表情變化、有無遮擋物等干擾因素的魯棒性是判定一個(gè)人臉識(shí)別系統(tǒng)好壞的標(biāo)準(zhǔn)之一。

傳統(tǒng)的人臉識(shí)別方法［1-3］有基于線性回歸分類（linear regression classification，LRC）的方法。LRC 能很好地識(shí)別無遮擋的人臉，識(shí)別率良好，但是在加入遮擋等干擾因素下，效果不佳?；谙∈璞硎痉诸悾╯parse representation-based classifier，SRC）的人臉識(shí)別方法原理在于人臉的稀疏表示是基于光照模型。SRC 有一個(gè)很強(qiáng)的假設(shè)條件：所有的人臉圖像必須是事先嚴(yán)格對(duì)齊的；否則，稀疏性很難滿足。換言之，對(duì)于表情變化、姿態(tài)角度變化的人臉都不滿足稀疏性這個(gè)假設(shè)。所以，經(jīng)典的SRC 很難用于真實(shí)的應(yīng)用場(chǎng)景。

近年來，神經(jīng)網(wǎng)絡(luò)應(yīng)用于人臉識(shí)別成為研究熱點(diǎn)。其采用的方法有基于受約束的局部神經(jīng)域［4］（constrained local neural field，CLNF）和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法［1］。CLNF 方法實(shí)際上是對(duì)受約束的局部模型（constrained local models，CLM）的創(chuàng)新，主要研究對(duì)人臉特征點(diǎn)的定位算法。相對(duì)于傳統(tǒng)的CLM 等算法，擬合速度更快、準(zhǔn)確率更高，能夠使人臉識(shí)別技術(shù)更加精確，具有更大的優(yōu)勢(shì)。但是，當(dāng)人臉在光照、噪聲、背景等環(huán)境因素較為惡劣的情況下，CLNF 算法雖然能在特征點(diǎn)定位方面保持一定的精確性，但對(duì)特征點(diǎn)的搜索和特征點(diǎn)擬合的過程耗時(shí)較長。深度卷積神經(jīng)網(wǎng)絡(luò)框架VGG-NET 是Oxford 大學(xué)計(jì)算機(jī)視覺組和DeepMind 公司的研究人員在2014年聯(lián)合開發(fā)的一種深度神經(jīng)網(wǎng)絡(luò)，其識(shí)別率相較于過去的網(wǎng)絡(luò)結(jié)構(gòu)有一定的提升。還有如GoogleNet 和ResNet 等深度神經(jīng)網(wǎng)絡(luò)框架性能優(yōu)異，相較于傳統(tǒng)的方法均有相當(dāng)明顯的優(yōu)勢(shì)，其在如手寫數(shù)字、車牌識(shí)別等方面已經(jīng)有很好的應(yīng)用。

本文采用深度卷積神經(jīng)網(wǎng)絡(luò)Inception-ResNet-v1［5］框架進(jìn)行人臉識(shí)別。Inception-ResNet-v1 框架是結(jié)合了GoogleNet 和ResNet 發(fā)明的，克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)參數(shù)太多，容易過擬合；而網(wǎng)絡(luò)龐大，計(jì)算復(fù)雜度大，難以應(yīng)用；網(wǎng)絡(luò)越深，梯度越往后穿越容易消失（梯度彌散），難以優(yōu)化模型等缺點(diǎn)。其性能相較于過去的卷積神經(jīng)網(wǎng)絡(luò)模型有較大的提升。對(duì)遮擋、表情變化、姿態(tài)角度變化等干擾因素具有魯棒性?？蓪?shí)現(xiàn)復(fù)雜條件下的人臉識(shí)別。

1 模型結(jié)構(gòu)

圖1 為系統(tǒng)的模型結(jié)構(gòu)［6-7］，本文模型采用的是卷積神經(jīng)網(wǎng)絡(luò)模型的基本結(jié)構(gòu)。每個(gè)模塊功能如下：

1）Batchs：輸入的人臉圖像樣本，這里的樣本是已經(jīng)過人臉檢測(cè)找到人臉并裁剪到固定尺寸的圖片樣本。

2）DEEP ARCHITECTURE：深度學(xué)習(xí)框架，實(shí)驗(yàn)采用的是Inception-ResNet-v1 網(wǎng)絡(luò)結(jié)構(gòu)。

3）L2：特征歸一化，防止模型過擬合。

4）EMBEEDING：嵌入層。

5）Triplet Loss：三元組損失函數(shù)。

圖1 系統(tǒng)結(jié)構(gòu)Fig.1 System structure

模型的作用是將人臉圖像X嵌入到d維度的歐幾里得空間。與一般的深度學(xué)習(xí)架構(gòu)不一樣的是，傳統(tǒng)的深度學(xué)習(xí)框架一般都是Double Loss 或者Single Loss，而本文采用3 張圖片輸入的損失函數(shù)Triplet Loss 直接學(xué)習(xí)特征間的可分性：相同身份之間的特征距離要盡可能小，而不同身份之間的特征距離要盡可能大。

1.1 Inception-ResNet-v1的網(wǎng)絡(luò)結(jié)構(gòu)

模型采用的結(jié)構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)（CNNs）的一種。CNNs 本質(zhì)是一個(gè)前向反饋神經(jīng)網(wǎng)絡(luò)，與多層感知器的最大區(qū)別是網(wǎng)絡(luò)前幾層由卷積層和池化層交替級(jí)聯(lián)組成，通過神經(jīng)元平面上神經(jīng)元的權(quán)重共享，不同的卷積核提取不同的特征，有效減少了卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的參數(shù)數(shù)量，降低了運(yùn)算復(fù)雜度。

模型采用Inception-ResNet-v1 網(wǎng)絡(luò)結(jié)構(gòu)［8-15］，該結(jié)構(gòu)結(jié)合了ResNet 與GoogleNet。圖2 為網(wǎng)絡(luò)結(jié)構(gòu)主體，之后連接一個(gè)Stem 結(jié)構(gòu)。Stem 用于對(duì)進(jìn)入Inception 模塊前的數(shù)據(jù)進(jìn)行預(yù)處理。Stem 后用了3種共20 個(gè)Inception-ResNet 模塊，模塊中添加了residual connection 模塊，residual connection 模塊的作用是加速網(wǎng)絡(luò)收斂，使網(wǎng)絡(luò)的訓(xùn)練速度加快。模型中3 種Inception 模塊間的Reduction 模塊起到池化層的作用，使用了并行的結(jié)構(gòu)來防止bottleneck 問題。

圖2 Inception-ResNet-v1 網(wǎng)絡(luò)結(jié)構(gòu)主體Fig.2 Structure of Inception-ResNet-v1

1.2 損失函數(shù)

模型采用的損失函數(shù)為Triplet Loss［3］，是根據(jù)3張圖片組成的三元組（Triplet）計(jì)算而來的損失（Loss）。其中，三元組是由Anchor（a）、Negative（n）、Positive（p）組成。設(shè)單個(gè)個(gè)體的圖像為，該個(gè)體的其他圖像為，其他個(gè)體的圖像為。由于在圖像中同一類人臉圖像的距離要小于不同類人臉圖像的距離，因此有優(yōu)化函數(shù)不等式為：

根據(jù)不等式（1），可以得出模型損失函數(shù)：

損失函數(shù)的意義在于：求最小化（類內(nèi)距離-類間距離+邊際）。其中表示類內(nèi)距離表示類間距離，α是一個(gè)常量。優(yōu)化過程就是使用梯度下降法使得損失函數(shù)不斷下降，即類內(nèi)距離不斷下降，類間距離不斷提升。

1.3 歐式距離算法

模型在分類識(shí)別模塊采用的是歐式距離算法，歐式距離算法的核心是：設(shè)圖像矩陣有n個(gè)元素（n個(gè)像素點(diǎn)），用n個(gè)元素值（X1，X2，…，Xn）組成該圖像的特征組。特征組形成了n維空間，特征組中的特征碼即每一個(gè)像素點(diǎn)構(gòu)成了每一維的數(shù)值。在n維空間下，兩個(gè)圖像矩陣各形成了一個(gè)點(diǎn)，然后利用（3）式計(jì)算圖像間的距離，

模型通過歐式距離法計(jì)算兩圖片間的距離，其距離的范圍在［0，4］之間，因此相同的圖片間的距離為0。而同類圖片之間的距離要小于不同類圖片間的距離，因此可以通過判斷圖像間距離的遠(yuǎn)近來對(duì)圖像進(jìn)行分類。

2 程序設(shè)計(jì)

本文程序在TensorFlow 框架下采用Python 語言實(shí)現(xiàn)。程序分成兩大部分，分別為訓(xùn)練部分和分類部分。圖3 為訓(xùn)練部分的程序流程圖。首先載入圖片訓(xùn)練集數(shù)據(jù)，然后檢測(cè)圖片中的人臉，剪輯圖片，剪輯的大小為160*160。啟動(dòng)網(wǎng)絡(luò)模塊，輸出結(jié)果通過L2 正則范數(shù)進(jìn)行歸一化，之后通過損失函數(shù)計(jì)算損失，校正參數(shù)，最后輸出訓(xùn)練集模型。

圖4 為分類程序流程圖。首先載入圖片，之后載入訓(xùn)練模型。對(duì)載入的圖片進(jìn)行預(yù)處理。計(jì)算兩圖片間的歐式距離dist。根據(jù)訓(xùn)練集圖片間的距離得出區(qū)分圖片間的最佳距離閥值。根據(jù)得出的閥值對(duì)測(cè)試集圖片進(jìn)行分類，計(jì)算模型的識(shí)別率。

圖3 訓(xùn)練程序流程圖Fig.3 Flow chart of training program

圖4 分類程序流程圖Fig.4 Flow chart of classification program

3 實(shí)驗(yàn)數(shù)據(jù)與測(cè)試

3.1 實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)參數(shù)

為驗(yàn)證本文模型的性能，實(shí)驗(yàn)通過攝像頭采集圖片結(jié)合LFW 數(shù)據(jù)集制作訓(xùn)練集。隨機(jī)選取10 000張圖片作為訓(xùn)練集，模型訓(xùn)練的學(xué)習(xí)率為0.1，共學(xué)習(xí)500 輪，每輪的大小為1 000。以圖5 為基準(zhǔn)圖制作帶遮擋干擾因素的人臉識(shí)別測(cè)試集。如圖6 所示，從左往右第一排分別為嘴部遮擋、眼部遮擋和眼部嘴部同時(shí)遮擋的人臉關(guān)鍵特征信息實(shí)驗(yàn)圖共3 組，每組包括不同人、性別和年齡段分別有100張。第二排為遮擋率在10%左右，20%左右和30%～45%之間的人臉圖片，遮擋部位隨機(jī)分布，每組各100 張。

圖5 基準(zhǔn)人臉圖Fig.5 Benchmark of experimental human face

圖6 人物圖像遮擋干擾添加示意圖Fig.6 Diagrammatic sketch of figure image with occlusion interference

3.2 在特定條件下添加遮擋因素的實(shí)驗(yàn)

為驗(yàn)證模型在臉部關(guān)鍵信息如眼部和嘴部被遮擋的情況下模型的識(shí)別率，實(shí)驗(yàn)通過在測(cè)試集圖片的臉部關(guān)鍵部位如眼部和嘴部添加遮擋測(cè)試模型的識(shí)別率。如表1 所示，進(jìn)行3 組實(shí)驗(yàn)，每組測(cè)試集圖片各100 張。模型在眼部被完全遮擋的情況下其識(shí)別率為98.8%；在嘴部被遮擋的情況下其識(shí)別率為98.6%；當(dāng)眼部和嘴部同時(shí)遮擋時(shí)，識(shí)別率為96.9%。

表1 不同遮擋部位的識(shí)別率Tab.1 Recognition rates with different occlusion parts of face

為驗(yàn)證模型在不同遮擋率下的識(shí)別率，實(shí)驗(yàn)通過在測(cè)試集上添加遮擋率不同的干擾因素。如表2所示，模型在沒有遮擋的情況下識(shí)別率為99.2%，在遮擋10%～20%的情況下，識(shí)別率為98.6%。在遮擋30%～45%的情況下模型的識(shí)別率為96.9%。

表2 不同遮擋率下模型的識(shí)別率Tab.2 Recognition rates of models under different occlusion rates

3.3 數(shù)據(jù)驗(yàn)證與實(shí)驗(yàn)分析

實(shí)驗(yàn)通過攝像頭采集圖片結(jié)合LFW 數(shù)據(jù)集制作擴(kuò)充測(cè)試集測(cè)試其準(zhǔn)確率。樣本數(shù)為4 234，樣本包括不同人種和性別。實(shí)驗(yàn)的遮擋率為20%～30%，遮擋均為眼部和嘴部等人臉關(guān)鍵信息，測(cè)得模型的識(shí)別率為98.2%。因此可以得出，在遮擋率在20%～30%的干擾因素下，模型對(duì)不同人種、不同年齡層次、不同性別仍可以有很好的識(shí)別率。

實(shí)驗(yàn)選取的相同人物圖片存在時(shí)間年齡差異，不同人存在性別、人種、年齡等的差異，并且均添加了針對(duì)人臉關(guān)鍵特征信息遮擋的干擾因素，從實(shí)驗(yàn)可以看出，雖然在添加了遮擋的干擾因素下，模型的識(shí)別率有所下降，但是其在20%～30%左右的遮擋率下識(shí)別率為98.2%。

3.4 與其他模型的性能對(duì)比

如表3 所示，實(shí)驗(yàn)的測(cè)試集共4 234 張圖片，測(cè)試SRC 和LRC 算法和本文算法在添加20% ～30%左右的遮擋干擾因素下的識(shí)別率，測(cè)得本文算法識(shí)別率可以達(dá)到98.2%，具有一定的實(shí)際應(yīng)用價(jià)值。而SRC 和LRC 算法的識(shí)別率卻并不如意。由此可以得出結(jié)論，相比于其他算法，在遮擋因素對(duì)模型進(jìn)行干擾的情況下，沒有使模型失去穩(wěn)定性，仍可以很好地區(qū)分出不同人的人臉，并且識(shí)別率較高。綜上所述，相比于傳統(tǒng)算法而言，本文算法在帶遮擋的人臉識(shí)別問題上更具有實(shí)用性。

表3 在遮擋率為20% ～30%時(shí)不同算法的識(shí)別率Tab.3 Recognition rates of different algorithms when the occlusion rate is 20%-30%

4 結(jié)語

本文的模型基于卷積神經(jīng)網(wǎng)絡(luò)并且損失函數(shù)采用Triplet Loss，直接學(xué)習(xí)特征間的可分性：相同身份之間的特征距離要盡可能的小，而不同身份之間的特征距離要盡可能的大。模型通過大量圖片進(jìn)行訓(xùn)練與測(cè)試，20% ～30%左右的遮擋干擾因素下人臉識(shí)別率為98.2%。驗(yàn)證了模型在遮擋等的干擾因素下，仍能準(zhǔn)確地對(duì)人臉進(jìn)行識(shí)別。相比于現(xiàn)在的其他傳統(tǒng)的人臉識(shí)別模型，模型對(duì)遮擋等干擾因素具有魯棒性，人臉識(shí)別率較高，具有實(shí)際應(yīng)用價(jià)值，實(shí)現(xiàn)了在遮擋的干擾因素下的人臉識(shí)別。