亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的人臉性別識(shí)別

2015-04-12 00:00:00汪濟(jì)民陸建峰

現(xiàn)代電子技術(shù) 2015年7期

摘要：人臉性別識(shí)別是人臉識(shí)別的重要組成部分，但是人臉識(shí)別容易受到光照、旋轉(zhuǎn)、平移、遮擋等因素的影響。將卷積神經(jīng)網(wǎng)絡(luò)引入到人臉性別識(shí)別中，該網(wǎng)絡(luò)的結(jié)構(gòu)具有稀疏連接和權(quán)值共享的優(yōu)點(diǎn)，卷積層和采樣層交替進(jìn)行，簡(jiǎn)化了模型的復(fù)雜度。實(shí)驗(yàn)表明，該方法的網(wǎng)絡(luò)結(jié)構(gòu)有效地克服了旋轉(zhuǎn)、遮擋等因素的影響，具有較好的魯棒性。

關(guān)鍵詞：人臉性別識(shí)別；卷積神經(jīng)網(wǎng)絡(luò)；稀疏連接；權(quán)值共享

中圖分類號(hào)： TN911.73?34 文獻(xiàn)標(biāo)識(shí)碼： A 文章編號(hào)： 1004?373X（2015）07?0081?04

0 引言

隨著計(jì)算機(jī)等高新技術(shù)的快速發(fā)展，計(jì)算機(jī)已越來(lái)越走向數(shù)字化、網(wǎng)絡(luò)化和智能化。生物特征識(shí)別技術(shù)也以此為基礎(chǔ)迅速發(fā)展，人臉包含性別、身份、種族、年齡等大量信息，具有自然性、方便性和非接觸性等優(yōu)點(diǎn)，是人類最明顯，最重要的生物特征。如何利用計(jì)算機(jī)自動(dòng)識(shí)別人臉，近年來(lái)已發(fā)展成為模式識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域非常重要的研究課題之一。

人臉性別識(shí)別是基于人臉身份識(shí)別開(kāi)展起來(lái)的，在安防領(lǐng)域和視頻監(jiān)控中有著重要的應(yīng)用。目前高級(jí)的人臉識(shí)別系統(tǒng)可以首先判斷出性別，縮小搜索范圍，然后識(shí)別出被識(shí)別者是誰(shuí)，這使得人臉識(shí)別的檢索效率和準(zhǔn)確率都會(huì)有所提高，從而使人臉身份識(shí)別和性別識(shí)別互相促進(jìn)，整個(gè)人臉識(shí)別更加全面，更加豐富。人臉性別識(shí)別也作為人機(jī)交互的特殊一部分，通過(guò)計(jì)算機(jī)識(shí)別用戶性別，可以極大地改善呆板、不方便的人機(jī)交互環(huán)境，為用戶提供更為人性化的服務(wù)。在一些大型商場(chǎng)安裝人臉性別識(shí)別系統(tǒng)，用于商品的視頻檢索、商場(chǎng)的客流監(jiān)控，可以給用戶提供相應(yīng)的服務(wù)，可以更好地促進(jìn)商品銷(xiāo)售。

正因?yàn)槿四樞詣e識(shí)別在身份認(rèn)證、視頻監(jiān)控、人機(jī)交互以及機(jī)器人視覺(jué)中存在潛在的應(yīng)用而備受關(guān)注。

1 相關(guān)工作

人臉性別識(shí)別的研究始于20世紀(jì)90年代，由國(guó)外一些大學(xué)或者研究機(jī)構(gòu)最先開(kāi)始研究。人臉性別識(shí)別的工作流程如圖1所示，研究的關(guān)鍵問(wèn)題在于特征提取和分類器的選擇。B.A.Golomb等人首先利用全連接的兩層神經(jīng)元網(wǎng)絡(luò)作為分類器，通過(guò)對(duì)分類器訓(xùn)練，識(shí)別出人臉圖像。之后，有人提出了將BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)、特征臉和分類器相結(jié)合[1]等方法應(yīng)用于人臉性別識(shí)別中。但是這些神經(jīng)網(wǎng)絡(luò)方法都存在著網(wǎng)絡(luò)結(jié)構(gòu)模型復(fù)雜、訓(xùn)練時(shí)間長(zhǎng)、魯棒性差等缺點(diǎn)。

卷積神經(jīng)網(wǎng)絡(luò)是將人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)相結(jié)合而產(chǎn)生的新型人工神經(jīng)網(wǎng)絡(luò)方法，是為了識(shí)別二維形狀而設(shè)計(jì)的多層感知器，具有局部感知區(qū)域、層次結(jié)構(gòu)化、特征抽取和分類過(guò)程結(jié)合的全局訓(xùn)練的特點(diǎn)。Fukushima提出的基于神經(jīng)元之間的局部連接型和層次結(jié)構(gòu)組織的Neocogition模型是卷積神經(jīng)網(wǎng)絡(luò)的第一個(gè)實(shí)現(xiàn)網(wǎng)絡(luò)。LeCun等人設(shè)計(jì)并采用基于誤差梯度的算法訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò)[2]，在一些模式識(shí)別領(lǐng)域取得非常好的性能，并且給出了卷積神經(jīng)網(wǎng)絡(luò)公式的推導(dǎo)和證明[3]。卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成功地應(yīng)用到了文檔分析[4]、人臉檢測(cè)[5]、語(yǔ)音檢測(cè)[6]、車(chē)牌識(shí)別[7]、手寫(xiě)數(shù)字識(shí)別[8]、視頻中的人體動(dòng)作識(shí)別[9]、人臉特征點(diǎn)的檢測(cè)[10]等各個(gè)方面。

圖1 人臉性別識(shí)別流程圖

卷積神經(jīng)網(wǎng)絡(luò)具有如下優(yōu)點(diǎn)：

（1）輸入圖像和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能很好地吻合，可以避免對(duì)圖像復(fù)雜的前期預(yù)處理，直接輸入原始圖像。

（2）特征提取和模式分類同時(shí)進(jìn)行，并且一個(gè)計(jì)算層由多個(gè)特征映射組成，可以通過(guò)學(xué)習(xí)訓(xùn)練優(yōu)化得到。

（3）神經(jīng)元之間的連接是非全連接，且同一層中某些神經(jīng)元之間的連接權(quán)值是共享的，這種非全連接和權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)降低了網(wǎng)絡(luò)模型的復(fù)雜度，減少了權(quán)值的數(shù)量。

2 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)包括前向傳播和反向傳播，卷積層和采樣層交替進(jìn)行。卷積層后有一個(gè)下采樣層來(lái)減少計(jì)算時(shí)間和建立空間與結(jié)構(gòu)上的不變性。

前向傳播就是從輸入?yún)?shù)到輸出結(jié)果計(jì)算一次。上一層的輸出就是當(dāng)前層的輸入，然后通過(guò)激活函數(shù)，計(jì)算出當(dāng)前層的輸出，逐層傳遞下去，所以當(dāng)前層的輸出可以表示為：

[xl=f（Wlxl-1+bl）] （1）

式中：[l]代表層數(shù)；[W]表示權(quán)值；[b]是一個(gè)偏置；[f]是激活函數(shù)，常見(jiàn)的激活函數(shù)為sigmoid或者雙曲正切函數(shù)（tanh）。

反向傳播就是從前向傳播計(jì)算出的結(jié)果和給定樣本的標(biāo)簽做誤差運(yùn)算，考慮平方差損失函數(shù)，對(duì)于包含[c]個(gè)類別，[N]個(gè)訓(xùn)練樣本的多分類問(wèn)題，誤差函數(shù)表示為：

[EN=12n=1Nk=1c（tnk-ynk）2] （2）

式中：[tnk]表示第[n]個(gè)樣本對(duì)應(yīng)的標(biāo)簽的第[k]維；[ynk]表示第[n]個(gè)樣本對(duì)應(yīng)的網(wǎng)絡(luò)輸出的第[k]個(gè)輸出。

反向傳播會(huì)更新卷積層，上一層的特征映射和一個(gè)可以訓(xùn)練的核進(jìn)行卷積運(yùn)算，卷積運(yùn)算的結(jié)果經(jīng)過(guò)激活函數(shù)后的輸出形成了這一層的特征映射。每一個(gè)輸出映射可能與上一層的幾個(gè)特征映射的卷積有關(guān)系。卷積層的一般形式為：

[xlj=fi∈Mjxl-1i*klij+blj] （3）

式中：[l]代表層數(shù)；[k]是卷積核；[Mj]表示輸入特征的一個(gè)選擇；[b]是一個(gè)偏置。

下采樣操作并沒(méi)有改變特征映射的數(shù)目，只是將特征映射的大小變小。如果采樣算子大小為[n×n，]那么經(jīng)過(guò)一次下采樣，特征映射的大小變?yōu)樵瓉?lái)特征的[1n。]下采樣的一般形式為：

[xlj=f（βljdown（xl-1j）+blj）] （4）

式中down（·）表示一個(gè)下采樣函數(shù)。

3 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)模型如圖2所示，不包括輸入層，由七層組成，每一層都包括可以訓(xùn)練的參數(shù)（權(quán)值）。輸入層是32×32的人臉像素矩陣，計(jì)算流程在卷積層和下采樣層之間交替進(jìn)行。卷積層和下采樣層的連接方式為隨機(jī)條件下的非全連接，目的在于打破其相關(guān)性。每個(gè)卷積層所采用卷積核的大小都是5×5，采樣層的采樣窗口的大小為2×2。采樣函數(shù)為max?pool最大池化進(jìn)行采樣，因?yàn)樽畲蟪鼗线m人臉特征的下采樣。激活函數(shù)采用糾正線性單元（Rectified Linear Units，ReLU）[10]，而不是常用的sigmoid或者tanh，因?yàn)镽eLU更能產(chǎn)生稀疏性。ReLU是線性修正，公式為[f（x）=max（0，x），]是purelin的折線版，它的作用是如果計(jì)算出的值小于0，就讓它等于0，否則保持原來(lái)的值不變，這是一種簡(jiǎn)單的強(qiáng)制某些數(shù)據(jù)為0的方法，然而實(shí)踐證明[11]：訓(xùn)練后的網(wǎng)絡(luò)完全具備適度的稀疏性，和傳統(tǒng)的預(yù)訓(xùn)練出的結(jié)果相似，說(shuō)明了ReLU具備引導(dǎo)適度稀疏的能力。

圖2 LeNet?5網(wǎng)絡(luò)結(jié)構(gòu)示意圖

第一層是卷積層（[C1]），卷積核的大小為5×5，即每個(gè)神經(jīng)元指定一個(gè)5×5局部接受域，所以卷積操作以后得到的映射大小就變成了28×28。包括8個(gè)特征映射，即有8個(gè)不同的[C1]層，每個(gè)[C1]層內(nèi)的權(quán)值是相同的。

第二層是采樣層（[S2]），[S2]是對(duì)[C1]用2×2的窗口進(jìn)行最大池下采樣操作得到的，所以得到的特征映射大小為14×14，下采樣并沒(méi)有改變特征映射的數(shù)目，所以特征映射的個(gè)數(shù)還是8個(gè)。每個(gè)神經(jīng)元還包括一個(gè)可訓(xùn)練的系數(shù)、一個(gè)可訓(xùn)練的偏置和一個(gè)激活函數(shù)ReLU。

第三層還是卷積層（[C3]），卷積核大小是5×5，同理可得[C3]特征映射的大小為10×10，只是特征的個(gè)數(shù)變成了32個(gè)。

第四層是采樣層（[S4]），還是用2×2的窗口進(jìn)行最大池下采樣，所以得到32個(gè)5×5的特征映射。

第五層是卷積層（[C5]），還是5×5的卷積核進(jìn)行卷積，得到128個(gè)1×1的特征映射。

第六層包括84個(gè)神經(jīng)元，和[C5]進(jìn)行全連接。

第七層是輸出層，因?yàn)樾詣e識(shí)別是個(gè)二元判斷問(wèn)題，所以只包括2個(gè)神經(jīng)元，是由徑向基函數(shù)單元組成。RBF的輸出[yi]的計(jì)算公式如下：

[yi=j（xj-wij）2] （5）

4 實(shí)驗(yàn)結(jié)果

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自于AR人臉數(shù)據(jù)庫(kù)，包括50個(gè)男性和50個(gè)女性，每個(gè)人選取5張不同的照片，包括不同的光照、表情、膚色、種族等，總共500張人臉圖片。利用交叉驗(yàn)證的方法，400張圖片做訓(xùn)練，100張圖片做測(cè)試，實(shí)驗(yàn)5次?；叶戎翟谳斎胫熬€性歸一化到[0，1]。卷積層和采樣層交替運(yùn)算，訓(xùn)練和測(cè)試同時(shí)進(jìn)行，迭代20次，迭代結(jié)果如圖3所示。實(shí)驗(yàn)分為三種情況：正常圖片、遮擋圖片（遮擋部分用黑色填充，從最下端開(kāi)始遮擋的高度依次為5 px，10 px，15 px，20 px）、旋轉(zhuǎn)圖片（順時(shí)針旋轉(zhuǎn)5°，10°，15°，20°，25°，30°）。表1為正常圖片的實(shí)驗(yàn)結(jié)果，表2為遮擋圖片的實(shí)驗(yàn)結(jié)果，表3為旋轉(zhuǎn)圖片的實(shí)驗(yàn)結(jié)果。

圖3 訓(xùn)練迭代結(jié)果圖

表1 正常圖片的實(shí)驗(yàn)結(jié)果 %

[＼第一組＼第二組＼第三組＼第四組＼第五組＼平均值＼兩層BP神經(jīng)網(wǎng)絡(luò)＼89＼92＼93＼90＼91＼91.8＼卷積神經(jīng)網(wǎng)絡(luò)＼93＼96＼95＼94＼95＼94.6＼]

表2 遮擋圖片的實(shí)驗(yàn)結(jié)果（平均值） %

[＼5 px＼10 px＼15 px＼20 px＼兩層BP神經(jīng)網(wǎng)絡(luò)＼87.8＼83.6＼74.4＼64.8＼卷積神經(jīng)網(wǎng)絡(luò)＼93.8＼90.2＼86.8＼80.2＼]

表3 旋轉(zhuǎn)圖片的實(shí)驗(yàn)結(jié)果（平均值） %

[＼5°＼10°＼15° ＼20° ＼25°＼30°＼兩層BP神經(jīng)網(wǎng)絡(luò)＼86.2＼83.4＼75.8＼70.8＼66.2＼60.8＼卷積神經(jīng)網(wǎng)絡(luò)＼92.8＼88.6＼86.2＼82.6＼80.4＼78.6＼]

4.2 實(shí)驗(yàn)結(jié)果分析

通過(guò)實(shí)驗(yàn)結(jié)果可以看出，在正常圖片下，兩層BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)都達(dá)到了較高的準(zhǔn)確率，BP神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率也接近于92%，兩種算法的準(zhǔn)確率相差很小。

當(dāng)遮擋面積很小時(shí)（遮擋最下面5 px），BP神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率也依然很高（87.8%），但是當(dāng)遮擋面積較大時(shí)（遮擋超過(guò)15 px），兩層BP神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率出現(xiàn)較大幅度的下降，因?yàn)楫?dāng)遮擋15 px時(shí)，此時(shí)嘴巴已經(jīng)被遮擋了，當(dāng)遮擋20 px，鼻子也已經(jīng)被遮擋了，BP神經(jīng)網(wǎng)絡(luò)能夠提取到的有效特征變得很少了，準(zhǔn)確率沒(méi)有超過(guò)65%。而卷積神經(jīng)網(wǎng)絡(luò)當(dāng)遮擋出現(xiàn)時(shí)，雖然準(zhǔn)確率也會(huì)下降，但是下降的幅度比較小，即使當(dāng)遮擋20 px，依然可以達(dá)到80%以上的準(zhǔn)確率，這是因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)更能夠有效地提取不明顯的特征，相比于兩層BP神經(jīng)網(wǎng)絡(luò)具有更好的抗干擾性和魯棒性。

旋轉(zhuǎn)的情況和遮擋類似，在旋轉(zhuǎn)角度很?。ㄐ∮?°）的情況下，BP神經(jīng)網(wǎng)絡(luò)還有比較高的準(zhǔn)確率。當(dāng)旋轉(zhuǎn)角度超過(guò)15°時(shí)，準(zhǔn)確率會(huì)有比較明顯的下降，當(dāng)旋轉(zhuǎn)達(dá)到30°時(shí)，準(zhǔn)確率下降到60%，而卷積神經(jīng)網(wǎng)絡(luò)具有較高的準(zhǔn)確率，接近80%的準(zhǔn)確率。這是因?yàn)樵谔崛√卣鲿r(shí)，每一個(gè)神經(jīng)元只從上一層的局部接受域得到突觸輸入，一旦一個(gè)特征被提取出來(lái)，只要它相對(duì)于其他特征的位置被近似地保留下來(lái)，它的精確位置就變得沒(méi)有那么重要了。

實(shí)驗(yàn)結(jié)果表明，無(wú)論是在遮擋還是旋轉(zhuǎn)的情況下，卷積神經(jīng)網(wǎng)絡(luò)相比于兩層BP神經(jīng)網(wǎng)絡(luò)具有更好的魯棒性。

5 結(jié) 語(yǔ)

卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的一種方法，憑借其在二維圖像上的卓越性能，被越來(lái)越廣泛地應(yīng)用于各個(gè)領(lǐng)域中。本文將其引入到人臉性別識(shí)別領(lǐng)域并取得了一定的分類準(zhǔn)確率。

今后的研究工作將綜合考慮每一層特征映射的關(guān)系，進(jìn)一步優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，同時(shí)思考將卷積神經(jīng)網(wǎng)絡(luò)引入其他相關(guān)領(lǐng)域，如視頻人臉檢測(cè)當(dāng)中。

參考文獻(xiàn)

[1] 劉遵雄，馬汝成.基于特征臉和LS?SVM分類器的人臉性別分類[J].華東交通大學(xué)學(xué)報(bào)，2007，24（5）：85?88.

[2] LECUN Y， BOTTOU L， BENGIO Y， et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE， 1998， 86（11）： 2278?2324.

[3] BOUVRIE J. Notes on convolutional neural networks [J/OL]. [ 2012?04?03]. http：//www.docin.com.

[4] SIMARD P Y， STEINKRAUS D， PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// 2013 12th International Conference on Document Analysis and Recognition. [S.l.]： IEEE Computer Society， 2003， 2： 958?961.

[5] TIVIVE F H C， BOUZERDOUM A. A new class of convolutional neural networks （SICoNNets） and their application of face detection [C]// 2003 Proceedings of the International Joint Conference on Neural Networks. [S.l.]： IEEE， 2003， 3： 2157?2162.

[6] SUKITTANON S， SURENDRAN A C， PLATT J C， et al. Convolutional networks for speech detection [C]// 8th International Conference on Spoken Language Processing. Jeju Island， Korea： INTERSPEECH， 2004：11?14.

[7] CHEN Y N， HAN C C， WANG C T， et al. The application of a convolution neural network on face and license plate detection [C]// 2006. ICPR 2006. 18th International Conference on Pattern Recognition. [S.l.]： IEEE， 2006， 3： 552?555.

[8] LAUER F， SUEN C Y， BLOCH G. A trainable feature extractor for handwritten digit recognition [J]. Pattern Recognition， 2007， 40（6）： 1816?1824.

[9] JI S， XU W， YANG M， et al. 3D convolutional neural networks for human action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2013， 35（1）： 221?231.

[10] SUN Y， WANG X， TANG X. Deep convolutional network cascade for facial point detection [C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. [S.l.]： IEEE， 2013： 3476?3483.

[11] MAAS A L， HANNUN A Y， NG A Y. Rectifier nonlinearities improve neural network acoustic models [C]// ICML Workshop on Deep Learning for Audio， Speech， and Language Processing. [S.l.]： [s.n.]， 2013： 111?120.

[12] 顧佳玲，彭宏京.增長(zhǎng)式卷積神經(jīng)網(wǎng)絡(luò)及其在人臉檢測(cè)中的應(yīng)用[J].系統(tǒng)仿真學(xué)報(bào)，2009（9）：2441?2445.

現(xiàn)代電子技術(shù)2015年7期

現(xiàn)代電子技術(shù)的其它文章: 基于AT89S2051單片機(jī)串行通信接口的I/O擴(kuò)展技術(shù)研究; 復(fù)合投切的智能低壓無(wú)功補(bǔ)償電容器設(shè)計(jì); 基于MAX038的簡(jiǎn)易小電容測(cè)試儀設(shè)計(jì); 小世界網(wǎng)絡(luò)中隨機(jī)游走談判者之間的命名演化博弈; 汽車(chē)前照燈昏暗自動(dòng)發(fā)光及自動(dòng)延時(shí)控制裝置研究; 基于VMM的ALU驗(yàn)證