基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別技術(shù)綜述

2018-02-27 03:10:38景晨凱劉凱倫

計(jì)算機(jī)應(yīng)用與軟件 2018年1期

景晨凱宋濤莊雷劉剛王樂(lè) 劉凱倫

1(鄭州大學(xué)信息工程學(xué)院河南鄭州 450001) 2(河南省招生辦公室河南鄭州 450046)

0 引言

人臉識(shí)別屬于計(jì)算機(jī)視覺(jué)的范疇，特指計(jì)算機(jī)利用分析比較人臉視覺(jué)特征信息自動(dòng)進(jìn)行身份鑒別的“智能”技術(shù)。相比于指紋、虹膜等傳統(tǒng)生物識(shí)別手段，人臉識(shí)別具有無(wú)接觸、符合人類識(shí)別習(xí)慣、交互性強(qiáng)、不易盜取等優(yōu)勢(shì)，因此在保障公共安全，信息安全，金融安全，公司和個(gè)人財(cái)產(chǎn)安全上等有強(qiáng)烈的需求。尤其是近些年來(lái)隨著深度卷積神經(jīng)網(wǎng)絡(luò)DCNN的引入，人臉識(shí)別的準(zhǔn)確率得以跨越式提升，各類相關(guān)應(yīng)用如人臉識(shí)別考勤、考生身份驗(yàn)證、刷臉支付、人臉歸類查詢等已開始逐步投入使用，效果顯著。

對(duì)于一張靜態(tài)2D人臉圖片，影響識(shí)別的因素主要可分為基礎(chǔ)因素、外在因素和內(nèi)在因素。基礎(chǔ)因素是指人臉本身具有的全局相似性，即人的五官、輪廓大致相同；外在因素是指成像質(zhì)量，主要包括人與攝像設(shè)備的位置關(guān)系(距離、角度、尺度)，攝影器材的性能，光照的強(qiáng)弱，外物(眼鏡、圍巾)遮擋等；內(nèi)在因素是指?jìng)€(gè)人的內(nèi)部屬性，如性別、年齡變化、精神健康狀態(tài)、面部毛發(fā)、化妝整容、意外損傷等。但人類似乎天生具有面部識(shí)別能力，可以很輕松地剔除掉這些因素的影響[1]，并且可以通過(guò)人的其他部位、神情、習(xí)慣等輔助手段快速確定一個(gè)人。而對(duì)于計(jì)算機(jī)，這些輔助手段由于其特征不穩(wěn)定性反而容易被不法分子利用。目前大多數(shù)情況下計(jì)算機(jī)讀取的是一張靜態(tài)二維圖片，這些圖片本質(zhì)上又是由繁多的多維數(shù)字矩陣組成，如一張256×256的RGB彩色圖片就有196 608個(gè)數(shù)字。可想而知，其識(shí)別任務(wù)難度巨大。幸運(yùn)的是計(jì)算機(jī)可以使用人類設(shè)計(jì)的算法從圖像中提取特征或者學(xué)習(xí)到特征。計(jì)算機(jī)自動(dòng)人臉識(shí)別AFR(automatic face recognition)的主要任務(wù)就是如何為減少個(gè)人內(nèi)部的變化，同時(shí)擴(kuò)大人外部差異制定低維有效的特征表示。

1 回顧傳統(tǒng)的人臉識(shí)別算法

人臉識(shí)別的發(fā)展史主要上還是人臉特征表示方法的變遷史，從最初的幾何特征，到經(jīng)驗(yàn)驅(qū)動(dòng)的“人造特征”，最后到數(shù)據(jù)驅(qū)動(dòng)的“表示學(xué)習(xí)”，人臉識(shí)別已歷經(jīng)了近60年的發(fā)展歷程。

英國(guó)心理學(xué)家Galton于1888年和1920年便在《Nature》上發(fā)表了兩篇關(guān)于人臉識(shí)別的論文,他將不同人臉的側(cè)面特征用一組數(shù)字代表，但并未涉及AFR問(wèn)題。1965年,Bledsoe等在Panoramic Research Inc上發(fā)表了第一篇AFR的報(bào)告[2]，他們用臉部器官間的間距(如兩眼之間)、比率等參數(shù)作為特征，構(gòu)建了一個(gè)半自動(dòng)人臉識(shí)別系統(tǒng)，開始了真正意義上的人臉識(shí)別研究。1965年至1990年的人臉識(shí)別研究主要基于幾何結(jié)構(gòu)特征的方法以及基于模板匹配的方法。基于幾何結(jié)構(gòu)特征的方法一般通過(guò)提取人眼、口、鼻等重要特征點(diǎn)的位置，以及眼睛等重要器官的直觀幾何形狀作為分類特征，計(jì)算量小。但當(dāng)受光照變化、外物遮擋、面部表情變化等內(nèi)外在因素影響時(shí)，所需特征點(diǎn)將無(wú)法精確定位，進(jìn)而造成特征急劇變化。而基于模板匹配的方法則通過(guò)計(jì)算模板和圖像灰度的自相關(guān)性來(lái)實(shí)現(xiàn)識(shí)別功能，但忽略了局部特征，造成部分信息丟失。這一階段可以稱為人臉識(shí)別的初級(jí)階段，該階段的研究只適用于人臉圖像的粗略識(shí)別，無(wú)法在實(shí)際中應(yīng)用。1992年Brunelli等通過(guò)實(shí)驗(yàn)得出基于模板匹配的方法優(yōu)于基于幾何結(jié)構(gòu)特征的方法[3]的結(jié)論。

1991年到1997年是人臉識(shí)別研究的第二階段，盡管時(shí)間短暫，卻是非常重要的時(shí)期。大量的人力物力投入其中，如美國(guó)國(guó)防部發(fā)起的FERET(Face Recognition Technology Test)資助了多項(xiàng)人臉識(shí)別研究，并創(chuàng)建了著名的FERET人臉圖像數(shù)據(jù)庫(kù)，該項(xiàng)目極大地促進(jìn)了人臉識(shí)別算法的改進(jìn)及實(shí)用化，許多經(jīng)典的人臉識(shí)別算法也都在這個(gè)階段產(chǎn)生。具有里程碑意義的研究是麻省理工學(xué)院的Turk等提出特征臉Eigenface[4]，該方法是后來(lái)其他大多數(shù)算法的基準(zhǔn)。還有基于子空間分析的人臉識(shí)別算法Fisherface[5]，它首先通過(guò)主成分分析方法PCA(Principal Component Analysis)[4]將人臉降維，之后采用線性判別分析LDA(Linear Discriminant Analysis)[5]期望獲得類間差異大且類內(nèi)差異小的線性子空間，但正因如此，它無(wú)法對(duì)復(fù)雜的非線性模型進(jìn)行建模?；趶椥詧D匹配的方法[6]是一種將幾何特征與對(duì)灰度分布信息的小波紋理分析相結(jié)合的識(shí)別算法，它利用人臉的基準(zhǔn)特征點(diǎn)構(gòu)造拓?fù)鋱D,使其符合人臉的幾何特征，然后獲取人臉關(guān)鍵點(diǎn)的特征值進(jìn)行匹配。該算法能夠在局部結(jié)構(gòu)的基礎(chǔ)上保留全局結(jié)構(gòu)，而且能自動(dòng)定位面部特征點(diǎn)，因此對(duì)角度變化具有一定的魯棒性。其缺點(diǎn)是時(shí)間復(fù)雜度高，實(shí)現(xiàn)復(fù)雜。基于模型的方法如主動(dòng)表觀模型AAMs(Active Appearance Models)[7]是人臉建模方面的一個(gè)重要貢獻(xiàn)。AAMs將人臉圖像的形狀和紋理分別用統(tǒng)計(jì)的方法進(jìn)行描述，然后通過(guò)PCA將二者融合來(lái)對(duì)人臉進(jìn)行統(tǒng)計(jì)建模，該算法常用在人臉對(duì)齊上。另外比較經(jīng)典的還有SVD分解[8]、人臉等密度線分析匹配[9]、隱馬爾可夫模型(Hidden Markov Model)[10]以及神經(jīng)網(wǎng)絡(luò)等方法?？偟膩?lái)說(shuō)，這一階段的人臉識(shí)別研究發(fā)展迅速，所提出的算法直接采用人臉圖像中所有像素的顏色或灰度值作為初始特征，然后通過(guò)在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)得到更具區(qū)分力的人臉表示。從技術(shù)方案上看，2D人臉圖像線性子空間判別分析、統(tǒng)計(jì)模式識(shí)別方法是這一階段的主流技術(shù)。這一階段的人臉識(shí)別系統(tǒng)在較理想圖像采集條件、用戶配合、中小規(guī)模數(shù)據(jù)庫(kù)上的情況下較為適用。

第三階段(1998年—2013年)重點(diǎn)研究真實(shí)條件下，以及基于其他的數(shù)據(jù)源(如視頻、近紅外和素描)的人臉識(shí)別問(wèn)題，并深入分析和研究不同影響下的人臉識(shí)別，如光照不變?nèi)四樧R(shí)別、姿態(tài)不變?nèi)四樧R(shí)別和表情不變?nèi)四樧R(shí)別等。為了克服直接使用像素灰度值對(duì)光照敏感等問(wèn)題的限制，這一時(shí)期涌現(xiàn)出了很多對(duì)局部鄰域像素亮度或顏色值進(jìn)行手工特征提取的方法，比如對(duì)人臉較為有效Gabor Face、LBP Face[11]以及基于無(wú)監(jiān)督學(xué)習(xí)的特征learning Descriptors[12]等。分類識(shí)別上主要采用以線性判別分析為代表的線性建模方法[13-14]，以核方法為代表的非線性建模方法[15-16]和基于3D人臉重建的人臉識(shí)別方法[17-18]。LBP特征是這一時(shí)期的典型特征描述子，其將圖像分成若干區(qū)域，在每個(gè)區(qū)域用中心值對(duì)鄰域作閾值化，將結(jié)果表示成二進(jìn)制數(shù)，然后基于區(qū)域的頻率直方圖做統(tǒng)計(jì)。LBP特征對(duì)單調(diào)灰度變化保持不變，并對(duì)圖像中的噪聲和姿態(tài)具有一定的魯棒性。在子空間分析改進(jìn)上，如針對(duì) Eigenface 算法的缺點(diǎn)，中科院計(jì)算所提出的特定人臉子空間(FSS)算法[13],FSS為每個(gè)對(duì)象建立一個(gè)私有的人臉子空間，更好地描述了不同個(gè)體人臉之間的差異性。香港中文大學(xué)的王曉剛等提出的統(tǒng)一子空間分析[14]方法將PCA、LDA和貝葉斯子空間[19]三種子空間方法進(jìn)行比較，并將三者有機(jī)結(jié)合提高了識(shí)別性能?；?D人臉重建的人臉識(shí)別一般基于形變模型(morphable model)[18]，其主要思想是首先將2D人臉圖像映射到3D模型表面,之后將這個(gè)3D模型轉(zhuǎn)到正臉提取特征。雖然對(duì)姿態(tài)變化具有魯棒性，但需要定位大量基準(zhǔn)點(diǎn)，并且3D數(shù)據(jù)難以收集。值得一提的是2007年以后，LFW[20]數(shù)據(jù)庫(kù)成為真實(shí)條件下最權(quán)威的人臉識(shí)別測(cè)試基準(zhǔn)。它的樣本來(lái)自互聯(lián)網(wǎng)的5 749人的13 233張名人人臉照片，采用十折平均精度作為性能評(píng)價(jià)指標(biāo)。2012年Huang等首次采用深度學(xué)習(xí)的無(wú)監(jiān)督的特征學(xué)習(xí)方法[21]在LFW取得了87%的識(shí)別率，與當(dāng)時(shí)最好的傳統(tǒng)人臉識(shí)別算法相比還有一定差距?？傊?，這一階段提取的面部特征是人為設(shè)計(jì)或基于無(wú)監(jiān)督學(xué)習(xí)的局部描述子。此后以DCNN為代表的深度學(xué)習(xí)算法的有監(jiān)督學(xué)習(xí)在AFR的應(yīng)用徹底顛覆了這種經(jīng)驗(yàn)驅(qū)動(dòng)的“人造特征”范式，開啟了數(shù)據(jù)驅(qū)動(dòng)的“表示學(xué)習(xí)”的革命。

2 深度學(xué)習(xí)革命下的人臉識(shí)別研究

2006年，Hinton等在《Science》上首次提出了深度學(xué)習(xí)的概念[22]。深度學(xué)習(xí)本質(zhì)上也是一種特征學(xué)習(xí)方法，傳統(tǒng)方法需要有相關(guān)專業(yè)背景的專家設(shè)計(jì)特征表示方式，而深度學(xué)習(xí)各層的特征是使用一種通用的學(xué)習(xí)過(guò)程從數(shù)據(jù)中學(xué)到的。其也可以看作是使用像素灰度值特征，它把原始數(shù)據(jù)通過(guò)一些簡(jiǎn)單的非線性的模型轉(zhuǎn)變成為更高層次的、更加抽象的表達(dá)，經(jīng)過(guò)足夠多轉(zhuǎn)換的組合來(lái)學(xué)習(xí)非常復(fù)雜的函數(shù)。2012年，Hinton又帶領(lǐng)學(xué)生在目前最大的圖像數(shù)據(jù)庫(kù)ImageNet[23]上，將Top5的分類錯(cuò)誤率26%降低至15%，在學(xué)術(shù)界一鳴驚人，并引起了工業(yè)界的強(qiáng)烈關(guān)注，特別是以谷歌、百度、微軟、臉譜等為首的擁有大量數(shù)據(jù)和高性能計(jì)算的科技巨頭企業(yè)。深度學(xué)習(xí)儼然已成為當(dāng)今人工智能界具有統(tǒng)治地位的算法，而深度學(xué)習(xí)前身就是NN。由此，本節(jié)先從人工智能和NN的起源開始逐步深入分析這一算法。

2.1 深度學(xué)習(xí)的前世今生

1956年，John McCarthy與Marvin Minsky，Herbert Simon等在達(dá)特茅斯學(xué)院正式創(chuàng)立了人工智能的概念，并形成以Herbert Simon為代表的理性學(xué)派和以Marvin Minsky為代表的感性學(xué)派。NN正是感性學(xué)派的代表。1957年康奈爾大學(xué)心理學(xué)教授Rosenblatt利用神經(jīng)網(wǎng)絡(luò)原理首次成功制作了能夠讀入并識(shí)別簡(jiǎn)單的字母和圖像電子感知機(jī)。1959年，霍普金斯大學(xué)的Hubel和Wiesel通過(guò)觀察貓腦部視覺(jué)中樞對(duì)視網(wǎng)膜進(jìn)入圖像的處理方式發(fā)現(xiàn)，提出了簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞的概念。這一工作對(duì)后來(lái)從事NN研究的計(jì)算機(jī)專家提供了重要的建模思路，比如神經(jīng)元是分工分層對(duì)信息進(jìn)行處理，不同神經(jīng)元關(guān)注的對(duì)象特征不同。CNN中的卷積和池化層靈感也直接來(lái)源于視覺(jué)神經(jīng)科學(xué)中的簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞。對(duì)于人臉圖像來(lái)說(shuō)，前幾層的神經(jīng)元抽象出臉部的部分特征如邊角或線條，然后經(jīng)過(guò)逐層激發(fā)逐漸形成不同的形狀，如眼睛和鼻子，最后在中樞的最高層激發(fā)對(duì)整個(gè)對(duì)象產(chǎn)生認(rèn)知的“祖母神經(jīng)元”，也就是整張人臉的特征。

但好景不長(zhǎng)，1969年Minsky在《感知機(jī)》的書中證明兩層神經(jīng)網(wǎng)絡(luò)不能解決XOR(異或)這一個(gè)基本邏輯問(wèn)題直接導(dǎo)致了NN研究經(jīng)歷了第一次長(zhǎng)達(dá)十幾年的寒冬。這一時(shí)期理性學(xué)派的專家系統(tǒng)得以盛行，感性流派雖沒(méi)有專家系統(tǒng)那樣成功，但也取得了一些進(jìn)步。如1974年，哈佛Werbos的博士論文證明在輸入層和輸出層之間添加一個(gè)隱層，可以解決XOR問(wèn)題，但并未引起重視，另外層數(shù)的增加為各個(gè)層的神經(jīng)節(jié)點(diǎn)連接的權(quán)重選取帶來(lái)新的困難。1986年Rumelhart等在《nature》提出的反向傳播BP(back propagation)算法[24]一定程度上解決了權(quán)重選取問(wèn)題。多層感知機(jī)和BP算法為NN研究點(diǎn)燃了新的希望，在此基礎(chǔ)上分支聯(lián)結(jié)主義開始流行，其核心領(lǐng)導(dǎo)者是兩位心理學(xué)家Rumelhart和McLelland和未來(lái)的“深度學(xué)習(xí)之父” Hinton。但是很快由于多層網(wǎng)絡(luò)訓(xùn)練困難：如梯度不穩(wěn)定，訓(xùn)練數(shù)據(jù)和計(jì)算能力不足等問(wèn)題，NN在20世紀(jì)末再次進(jìn)入寒冬。值得關(guān)注的是，在此期間專家系統(tǒng)及NN維度的深化推動(dòng)了超級(jí)計(jì)算技術(shù)的發(fā)展。這一領(lǐng)域衍生出的計(jì)算機(jī)集群技術(shù)成為20世紀(jì)90年代信息領(lǐng)域的互聯(lián)網(wǎng)公司的計(jì)算平臺(tái)，業(yè)務(wù)量和數(shù)據(jù)量的增加使這些網(wǎng)絡(luò)平臺(tái)不斷擴(kuò)張，存儲(chǔ)和計(jì)算能力相應(yīng)越來(lái)越強(qiáng)大，由此也產(chǎn)生了大量的數(shù)據(jù)，為NN的第三次復(fù)蘇埋下伏筆。

2006年，NN脫胎換骨成為深度學(xué)習(xí)，Hinton等所提出的深度信念網(wǎng)絡(luò)DBN(deep belief networks)[22]指出具有大量隱層的網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力，而網(wǎng)絡(luò)的訓(xùn)練可以采用非監(jiān)督的逐層初始化與反向傳播實(shí)現(xiàn)。2012年機(jī)器學(xué)習(xí)界的泰斗Andrew Ng 等發(fā)起的Google Brain項(xiàng)目在包含 16 000個(gè)CPU的分布式并行計(jì)算平臺(tái)上構(gòu)建一種被稱為“深度神經(jīng)網(wǎng)絡(luò)”的類腦學(xué)習(xí)模型[25]，并成功地“認(rèn)識(shí)”了貓。而近些年GPU強(qiáng)大的并行計(jì)算能力更是加快了訓(xùn)練速度，深度學(xué)習(xí)勢(shì)如破竹。深度學(xué)習(xí)能取得如今的成就，離不開三個(gè)長(zhǎng)期專注NN領(lǐng)域的計(jì)算機(jī)科學(xué)家，分別是以上提到的深度學(xué)習(xí)開創(chuàng)者Geoffrey Hinton、CNN的重要研究與發(fā)揚(yáng)者Yann LeCun以及加拿大蒙特利爾大學(xué)教授Yoshua Bengio。而DCNN是深度學(xué)習(xí)算法的一種，目前主要在計(jì)算機(jī)視覺(jué)領(lǐng)域取得突破進(jìn)展。

2.2 DCNN算法及其在人臉識(shí)別中的應(yīng)用

1979年日本京都大學(xué)的Fukushima基于感受野概念提出了神經(jīng)認(rèn)知機(jī)來(lái)進(jìn)行手寫字母的圖像識(shí)別，這可以看作是CNN的第一個(gè)實(shí)現(xiàn)網(wǎng)絡(luò)，也是感受野概念在神經(jīng)網(wǎng)絡(luò)領(lǐng)域的首次應(yīng)用。1989年LeCun選擇將BP算法用于訓(xùn)練多層卷積神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別手寫數(shù)字[26]，這是CNN概念提出的最早文獻(xiàn)。但是建立起現(xiàn)代卷積網(wǎng)絡(luò)學(xué)科的開創(chuàng)性論文是1998年LeCun提出的LeNet-5[27]，并且LeCun認(rèn)為CNN不應(yīng)看作是生物學(xué)上的神經(jīng)系統(tǒng)原型，因此他更傾向于稱其為卷積網(wǎng)絡(luò)，并把網(wǎng)絡(luò)中的節(jié)點(diǎn)稱為單元。盡管如此，卷積網(wǎng)絡(luò)由于使用了與許多神經(jīng)網(wǎng)絡(luò)相同的思想。因此，本文遵循慣例，把它看作是神經(jīng)網(wǎng)絡(luò)的一種類型。

2014年，臉譜的團(tuán)隊(duì)[30]和香港中文大學(xué)的團(tuán)隊(duì)[31]在LFW上分別報(bào)告了97.35%和97.45%的平均分類精度，人臉識(shí)別的主要技術(shù)路線由人工設(shè)計(jì)特征與分類識(shí)別轉(zhuǎn)變?yōu)榛贒CNN的端到端的自主學(xué)習(xí)特征。2015年Google的FaceNet[34]在LFW數(shù)據(jù)集上平均分類精度達(dá)到99.63%，基本上宣告了在LFW上8年性能競(jìng)賽的結(jié)束。DCNN同樣使用BP算法進(jìn)行有監(jiān)督的學(xué)習(xí)，因此在卷積核中的權(quán)值都能得到訓(xùn)練。BP算法是訓(xùn)練深度網(wǎng)絡(luò)的核心算法，其利用鏈?zhǔn)角髮?dǎo)法則求解目標(biāo)函數(shù)關(guān)于多層神經(jīng)網(wǎng)絡(luò)權(quán)值梯度。巧妙之處在于目標(biāo)函數(shù)對(duì)于某層輸入的梯度可以通過(guò)向后傳播對(duì)該層輸出的導(dǎo)數(shù)求得，它首先從最高層的輸出一直到最底層的輸入計(jì)算目標(biāo)函數(shù)對(duì)每層輸入的導(dǎo)數(shù)(殘差)然后一次性地求解每一層殘差對(duì)權(quán)值w和偏置b的梯度。

總結(jié)BP算法的一般形式如下：

(1) 輸入x，為輸入層設(shè)置對(duì)應(yīng)的激活值h1；

(2) 前向傳播：對(duì)每層l=1,2,…,l,計(jì)算相應(yīng)的zl=wlzl-1+b,hl=f(zl);

(3) 計(jì)算輸出層誤差：計(jì)算向量δl=▽hL⊙f(zl)；

(4) 反向誤差傳播：對(duì)每層l=l-1,l-2,l-3,…,2,計(jì)算δl=((wl+1)Tδl+1)⊙f(zl)；

DCNN被設(shè)計(jì)用來(lái)處理圖像等多維數(shù)據(jù)，其用了4個(gè)關(guān)鍵思想來(lái)利用自然信號(hào)的屬性：局部連接、權(quán)值共享、池化以及多網(wǎng)絡(luò)層，與人工設(shè)計(jì)的特征(LBP等)不同，其能夠端到端地自主學(xué)習(xí)到具有高層次、抽象的特征表達(dá)向量。一般情況下卷積層后面都緊隨有一個(gè)非線性激活層，如圖1、圖2所示。圖1最左側(cè)是l-1層的輸出，同樣也是l層的輸入，是一個(gè)單通道的5×5的特征映射圖，l層有一個(gè)3×3的卷積核w和一個(gè)偏置b，卷積核從l層特征映射圖的左上方以步長(zhǎng)為1滑動(dòng)，依次與對(duì)應(yīng)局部位置求加權(quán)和，并與偏置b相加后得到線性輸出z，繼續(xù)傳入非線性激活函數(shù)f(x)。圖2中例子為ReLU[28-29]，最終得到l層的3×3的非線性輸出。一個(gè)特征圖的各個(gè)局部共享一個(gè)卷積核，使用不同的卷積核形成新的不同的特征映射圖。使用這種局部連接、權(quán)值共享的結(jié)構(gòu)基于兩方面的原因：一方面是對(duì)于人臉等圖像，一個(gè)像素與周圍的像素經(jīng)常是高度相關(guān)的，能夠形成有區(qū)分性的局部特征；另一方面是自然圖像有其固有特性，一部分的統(tǒng)計(jì)特性與其它部分是相關(guān)的，在一個(gè)位置出現(xiàn)的特征也可能出現(xiàn)在別的位置。

圖1 卷積層運(yùn)算實(shí)例

圖2 激活函數(shù)層運(yùn)算實(shí)例

卷積層用來(lái)探測(cè)特征圖的局部連接，池化層則在語(yǔ)義上把相似的特征進(jìn)行融合，池化也具有平移不變性，大量經(jīng)驗(yàn)驗(yàn)證，加入池化層能夠提升識(shí)別率。常見的池化方式有：平均池化(取局部平均值)，最小池化(取局部最小值)，最大池化(取局部最大值)等。如圖3所示是最大池化操作，池化單元計(jì)算特征圖中的一個(gè)局部塊(圖3中的尺寸大小是2×2)的最大值，池化單元通過(guò)移動(dòng)一行或者一列(圖3步長(zhǎng)為1)最終提取出一個(gè)2×2的特征圖(圖3右側(cè))。卷積層和池化層除了以上所述的優(yōu)點(diǎn)外，還有一個(gè)直接原因就是它們大大降低了可訓(xùn)練參數(shù)的同時(shí)也降低了特征圖的維度。對(duì)于圖1，如果是全連接層，則需要學(xué)習(xí)5×5+1=26個(gè)參數(shù)，而對(duì)于一個(gè)卷積核來(lái)說(shuō)，則只需要學(xué)習(xí)3×3+1=10個(gè)參數(shù)，并最終使一個(gè)5×5的特征圖轉(zhuǎn)化成一個(gè)2×2的特征圖。對(duì)于輸入的多維人臉，隨著深度的增加，卷積與池化的層層疊加，神經(jīng)元的數(shù)目也相應(yīng)的減少，并最終形成一個(gè)特定的、緊湊的、低維度、全局性的人臉特征表達(dá)向量(一般是倒數(shù)第二層的隱藏層)用于人臉識(shí)別(通過(guò)knn分類器等)，人臉驗(yàn)證(計(jì)算距離)等任務(wù)。

圖3 池化層運(yùn)算實(shí)例

如表1中列舉了近些年幾種比較成功的基于DCNN的人臉識(shí)別模型及在LFW上的測(cè)試情況，DCNN作為一種特征提取器，在人臉識(shí)別中的主要目的還是通過(guò)DCNN自動(dòng)學(xué)習(xí)到更具區(qū)分力的人臉特征表達(dá)進(jìn)而具有更強(qiáng)的泛化能力。這主要通過(guò)兩方面來(lái)提升：1) 通過(guò)表達(dá)能力更強(qiáng)的網(wǎng)絡(luò)結(jié)構(gòu)；2) 通過(guò)更有效的損失估計(jì)。在網(wǎng)絡(luò)結(jié)構(gòu)上，DeepFace[30]，DeepID[31]和VGGFace均使用了直線型網(wǎng)絡(luò)結(jié)構(gòu)， Deepface后面三層采用了參數(shù)不共享的卷積核，但導(dǎo)致了參數(shù)的膨脹；DeepId系列[31-33]則將卷積層的輸出與上一層的池化層的輸出進(jìn)行融合來(lái)增強(qiáng)特征表達(dá)；FaceNet則采用了inception[35]局部多分支型網(wǎng)絡(luò)結(jié)構(gòu)同時(shí)融合了多尺度的特征，并采用1×1的卷積核減少訓(xùn)練參數(shù)數(shù)量。從表1中也可以看出DCNN的網(wǎng)絡(luò)結(jié)構(gòu)正在變大變深：VGGFace16層、FaceNet22層。2015年的ResNet[36]已經(jīng)達(dá)到152層；更深的網(wǎng)絡(luò)意味著更加強(qiáng)大的特征抽象能力，但同時(shí)也意味著訓(xùn)練難度的加大，訓(xùn)練參數(shù)的增多和計(jì)算效率的下降，文獻(xiàn)[37]通過(guò)對(duì)卷積核的有效分解等操作在不明顯增加參數(shù)和降低計(jì)算效率的情況下提升了網(wǎng)絡(luò)的特征表達(dá)能力。

表1 幾種經(jīng)典的DCNN模型在LFW數(shù)據(jù)集上的測(cè)試結(jié)果

在損失估計(jì)上，有效的損失計(jì)算不但能加快網(wǎng)絡(luò)的訓(xùn)練，而且有利于學(xué)習(xí)到更強(qiáng)有力的人臉特征表達(dá)，在早期DeepFace及DeepId中直接采用了softmax分類器(人臉?lè)诸愋盘?hào))作為損失計(jì)算。這種情況下一般需要人臉的類別數(shù)達(dá)到一定數(shù)量(萬(wàn)人)，并且每一個(gè)人的樣本數(shù)也應(yīng)足夠的多(數(shù)十甚至上百)的情況下較為適用。分類的數(shù)目越多，對(duì)應(yīng)的樣本數(shù)越多，學(xué)習(xí)到人臉特征的區(qū)分性和泛化性就越好。但是當(dāng)人臉類別數(shù)少且類內(nèi)樣本不足的情況下，采用度量學(xué)習(xí)的判別式學(xué)習(xí)方法是必要的。在DeepId2則同時(shí)采用人臉確認(rèn)損失和人臉?lè)诸悡p失作為監(jiān)督信號(hào)進(jìn)行聯(lián)合深度學(xué)習(xí)，使用聯(lián)合信號(hào)使類內(nèi)變化達(dá)到最小，并使不同類別的人臉圖像間距保持恒定[38]，其驗(yàn)證信號(hào)僅考慮了一對(duì)樣本的誤差；在FaceNet中則直接放棄了softmax分類損失，采用Triplet Loss作為損失函數(shù)，通過(guò)構(gòu)建三元組，將最近負(fù)樣本距離的大于最遠(yuǎn)正樣本的距離作為目標(biāo)函數(shù)，使最終的特征表示不需要額外訓(xùn)練模型進(jìn)行分類，人臉驗(yàn)證只需直接計(jì)算倒數(shù)第二層隱層輸出的128維向量的距離即可，簡(jiǎn)單有效。從最初的單一的多分類器到度量學(xué)習(xí)到引入，再到僅需要度量學(xué)習(xí)便可學(xué)習(xí)優(yōu)異的特征，這種轉(zhuǎn)變也直接反映出了度量學(xué)習(xí)對(duì)于人臉特征學(xué)習(xí)所起到的關(guān)鍵作用。但是值得注意的是，在度量學(xué)習(xí)中樣本對(duì)的選擇是一個(gè)不可回避的重要問(wèn)題，不恰當(dāng)?shù)倪x擇策略將很有可能引起過(guò)擬合問(wèn)題。

另外還有其他的提升人臉特征表達(dá)能力的方法。如在deepid系列中也通過(guò)將人臉?lè)指疃鄠€(gè)區(qū)域、尺度，對(duì)人臉做鏡像和反轉(zhuǎn)等作為輸入形成互補(bǔ)和數(shù)據(jù)增強(qiáng)。deepface則在三維人臉圖像對(duì)齊后再輸入到網(wǎng)絡(luò)便于提取更有效的特征。還有不得不重視的是DCNN作為一種非常適合大數(shù)據(jù)的算法，更多的數(shù)據(jù)依然能夠帶來(lái)更魯棒，更具抽象能力的特征。從表1也看出了這一趨勢(shì)： DeepID系列從20萬(wàn)到45萬(wàn)，DeepFace 的700萬(wàn)， VGGFace有2 600萬(wàn)，F(xiàn)aceNet則達(dá)到2個(gè)億。

為了解釋分析DCNN內(nèi)部神經(jīng)元的特性，在deepid2+[33]中研究發(fā)現(xiàn)通過(guò)DCNN學(xué)習(xí)得到的高層次的人臉特征是中度稀疏的、對(duì)人臉身份和人臉屬性有很強(qiáng)的選擇性(特定的神經(jīng)元對(duì)特定的屬性會(huì)有持續(xù)的響應(yīng)和抑制)、對(duì)局部遮擋具有良好的魯棒性，不過(guò)本文對(duì)此目前仍抱有懷疑態(tài)度，有待今后更深入的研究成果去證明。

2.3 應(yīng)用DCNN算法的障礙

雖然DCNN目前已經(jīng)在人臉識(shí)別以及其他的計(jì)算機(jī)視覺(jué)任務(wù)中得以成功應(yīng)用并有成為一種通用的AI算法之勢(shì)，但應(yīng)用DCNN算法本身依然是一個(gè)不小的挑戰(zhàn)，也可以說(shuō)是一個(gè)主要問(wèn)題，本文主要?jiǎng)澐譃橐韵滤狞c(diǎn)：

1) 有監(jiān)督的學(xué)習(xí)，需要大量的標(biāo)記樣本從目前的發(fā)展?fàn)顩r來(lái)看，有監(jiān)督的學(xué)習(xí)已經(jīng)遠(yuǎn)遠(yuǎn)蓋過(guò)了無(wú)監(jiān)督學(xué)習(xí)的風(fēng)頭。而訓(xùn)練深度網(wǎng)絡(luò)需要大量的數(shù)據(jù)，盡管網(wǎng)絡(luò)上有大量的數(shù)據(jù)，但都雜亂無(wú)章，需要人工標(biāo)注，并且近些年的標(biāo)注成本也是水漲船高。

2) 理論研究不足深度學(xué)習(xí)包括DCNN是一個(gè)端到端的學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)，反向傳播算法，卷積神經(jīng)網(wǎng)絡(luò)等基本的方法原理早已存在，近些年的發(fā)展也主要得益于大數(shù)據(jù)，高性能計(jì)算以及各種網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法的改進(jìn)，而實(shí)際上卻并無(wú)深層次的本質(zhì)理解，大量的研究思路簡(jiǎn)單粗糙。因此在設(shè)計(jì)DCNN結(jié)構(gòu)以及在訓(xùn)練當(dāng)中經(jīng)常碰到的過(guò)擬合問(wèn)題、梯度不穩(wěn)定的問(wèn)題，除了遵循一些基本原則，更多需要通過(guò)經(jīng)驗(yàn)和直覺(jué)來(lái)進(jìn)行，這種試驗(yàn)性的研究思路增加了運(yùn)用難度。如表2所示。

表2 訓(xùn)練DCNN模型的建議

3) 局部最優(yōu)解由于深度學(xué)習(xí)算法需要學(xué)習(xí)的目標(biāo)函數(shù)是非凸的，存在著大量的局部最小值。而訓(xùn)練中用的梯度下降算法，理論情況下會(huì)很容易停留在一個(gè)局部最小值上面。并且如果初始值的不同，即使是同樣的訓(xùn)練集也會(huì)朝著不同的方向優(yōu)化，這就給最終的結(jié)果帶來(lái)了很大的不確定性。不過(guò)大量實(shí)踐證明，對(duì)于非小網(wǎng)絡(luò)，這個(gè)問(wèn)題并不會(huì)引起太大的麻煩。

4) 訓(xùn)練時(shí)間長(zhǎng)且計(jì)算資源代價(jià)不菲深度學(xué)習(xí)由于參數(shù)較多，相比其他機(jī)器學(xué)習(xí)算法訓(xùn)練周期要長(zhǎng)很多，近些年來(lái)其能夠流行的一大因素離不開GPU的發(fā)展。GPU成倍加快了訓(xùn)練速度，但是這些GPU售價(jià)昂貴，建立大規(guī)模的GPU集群并非一般院校能夠負(fù)擔(dān)。使用浮點(diǎn)計(jì)算的深度網(wǎng)絡(luò)要求大存儲(chǔ)空間和大計(jì)算量，使其在手機(jī)、移動(dòng)機(jī)器人等設(shè)備上的應(yīng)用大大受阻。

3 人臉識(shí)別的未來(lái)之路

3.1 更具挑戰(zhàn)的人臉數(shù)據(jù)集

LFW作為前些年來(lái)最流行的人臉測(cè)試數(shù)據(jù)集，識(shí)別率頻頻被刷新，如香港中文大學(xué)的DeepID2+，Google的FaceNet在2015年均取得了99%以上的識(shí)別率,這基本宣告了LFW競(jìng)爭(zhēng)之戰(zhàn)的結(jié)束。在LFW上的刷分已然沒(méi)有太大意義，但現(xiàn)有臉部識(shí)別系統(tǒng)仍難以準(zhǔn)確識(shí)別超過(guò)百萬(wàn)的數(shù)據(jù)量。因此，未來(lái)急需更多更具挑戰(zhàn)的公開人臉數(shù)據(jù)集。這些數(shù)據(jù)集首先應(yīng)當(dāng)滿足大規(guī)模，標(biāo)簽準(zhǔn)確等基本條件，可以是針對(duì)特定任務(wù)(如特定的年齡層或特定的場(chǎng)景等)的數(shù)據(jù)集，也可以是綜合(如包括各個(gè)年齡層或者各類復(fù)雜場(chǎng)景等)的數(shù)據(jù)集。2015年華盛頓大學(xué)為了研究當(dāng)數(shù)據(jù)集規(guī)模提升數(shù)個(gè)量級(jí)時(shí)，現(xiàn)有的臉部識(shí)別系統(tǒng)能否繼續(xù)維持可靠的識(shí)別率，發(fā)起了一個(gè)名為“MegaFace Challenge”的公開競(jìng)賽，MegaFace數(shù)據(jù)集有690 572個(gè)體1 027 060張公開人臉圖像[41]，難度頗大,對(duì)大規(guī)模數(shù)據(jù)的人臉識(shí)別起到了促進(jìn)作用。

3.2 特定問(wèn)題的深入研究

影響人臉識(shí)別的諸如光照、姿態(tài)、年齡、遮擋等問(wèn)題并沒(méi)有得到根本解決。對(duì)特定問(wèn)題的研究有助于整體人臉識(shí)別研究的進(jìn)步。在CVPR2016上，就有許多關(guān)于人臉識(shí)別特定問(wèn)題的研究工作，例如南加州大學(xué)的Masi關(guān)注了人臉識(shí)別中的大姿態(tài)變化問(wèn)題。與當(dāng)前大部分利用大量數(shù)據(jù)訓(xùn)練單一模型或者矯正人臉到正臉來(lái)學(xué)習(xí)姿態(tài)不變性的方法不同，該作者通過(guò)使用五個(gè)指定角度模型和渲染人臉圖片的方法處理姿態(tài)變化[42]。中科院計(jì)算所Kan等通過(guò)嘗試移除人臉數(shù)據(jù)之間的跨模態(tài)差異性，并尋找跨模態(tài)之間的非線性的差異性和模態(tài)不變性表達(dá)解決人臉識(shí)別中的跨視圖或跨姿態(tài)問(wèn)題[43]。還有意大利特倫托大學(xué)做了人臉老齡化預(yù)測(cè)的有關(guān)工作[44],這對(duì)跨越年齡的人臉識(shí)別具有很大的參考意義。

3.3 新型有效的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法

生物神經(jīng)系統(tǒng)的連接極為復(fù)雜，既有自下而上的前饋和同層遞歸，又有自上而下的反饋和來(lái)自其他神經(jīng)子系統(tǒng)的外部連接，目前的深度模型尚未對(duì)這些建模。去年MSRA的ResNet達(dá)到了驚人的152 層，解決了極深網(wǎng)絡(luò)在增加層數(shù)的同時(shí)也能保持準(zhǔn)確率的問(wèn)題，也證明了極深網(wǎng)絡(luò)在其他任務(wù)中也有很好的泛化性能。而芝加哥大學(xué)的Gustav提出了一個(gè)不依賴于殘差的極深架構(gòu)FractalNet[45]，作者稱該分形結(jié)構(gòu)可以自動(dòng)容納過(guò)去已有的強(qiáng)大結(jié)構(gòu)。但是需要明白，這些網(wǎng)絡(luò)結(jié)構(gòu)本身也是人為設(shè)計(jì)，哪個(gè)網(wǎng)絡(luò)結(jié)構(gòu)最佳，卷積層的數(shù)量多少才合適，我們不得而知。近期的網(wǎng)絡(luò)剪枝，網(wǎng)絡(luò)簡(jiǎn)化等工作對(duì)此進(jìn)行了探討[46-47]，并認(rèn)為稀疏性對(duì)于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人臉識(shí)別效果有提升，但該研究還處于起步階段。

另外，DCNN早在20世紀(jì)80年代就已經(jīng)基本成型，當(dāng)時(shí)未能普及的原因之一，就是缺少高效地優(yōu)化多層網(wǎng)絡(luò)的方法，如對(duì)多層神經(jīng)網(wǎng)絡(luò)進(jìn)行初始化的有效方法。盡管有Mini-Batch SGD、ResNet中的shortcut、 ReLU激活函數(shù)、Batch Normalization等促進(jìn)表達(dá)能力和加快收斂的方法。但對(duì)此仍然缺乏一個(gè)完善的理論作指導(dǎo)。對(duì)于人臉識(shí)別，深度度量學(xué)習(xí)(deep metric learning)是一個(gè)最常用的方法，更好的目標(biāo)函數(shù)能夠?qū)W到更具有區(qū)分力的特征。如上文提到的DeepFace和DeepID的contrastive loss度量，F(xiàn)acenet的triplet loss度量等都有用到deep metric learning的方法。最近的如在CVPR2016斯坦福大學(xué)提出利用訓(xùn)練批處理中所有相同標(biāo)簽的人臉對(duì)和不同標(biāo)簽的人臉對(duì)的信息進(jìn)行語(yǔ)義特征映射，來(lái)減少同類間距離同時(shí)增加異類間距離[48]。

3.4 其他的學(xué)習(xí)算法

在使用DCNN訓(xùn)練出的模型時(shí)可以發(fā)現(xiàn)，在某個(gè)數(shù)據(jù)集上表現(xiàn)好的模型在另外一個(gè)數(shù)據(jù)集結(jié)果可能并不如意，比如使用東方人訓(xùn)練出的模型去識(shí)別西方人的人臉，或者反之。這種訓(xùn)練數(shù)據(jù)和應(yīng)用數(shù)據(jù)之間的偏差便可通過(guò)遷移學(xué)習(xí)進(jìn)行消除，簡(jiǎn)而言之，如果這兩個(gè)領(lǐng)域之間有某種聯(lián)系、某種相似性，就只需小部分?jǐn)?shù)據(jù)在新的領(lǐng)域中重新學(xué)習(xí)即可。中科院Kan等提出的對(duì)于人臉識(shí)別的領(lǐng)域自適應(yīng)學(xué)習(xí)[49]做了相關(guān)的工作。

強(qiáng)化學(xué)習(xí)相對(duì)深度學(xué)習(xí)更古老，但由于計(jì)算瓶頸使它長(zhǎng)時(shí)間處于靜默狀態(tài)，不能處理大數(shù)據(jù)。但2015年Google的DeepMind把深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合，隱藏了很多強(qiáng)化學(xué)習(xí)的狀態(tài)個(gè)數(shù)，這種隱藏使得強(qiáng)化學(xué)習(xí)能夠應(yīng)付大數(shù)據(jù)，強(qiáng)化學(xué)習(xí)比DCNN在圖像上面的應(yīng)用更加復(fù)雜，更加契合人的行為。

大量有標(biāo)簽數(shù)據(jù)是DCNN的局限性之一，無(wú)監(jiān)督學(xué)習(xí)在人類和動(dòng)物的學(xué)習(xí)中卻占據(jù)主導(dǎo)地位，但目前幾乎所有由人工智能創(chuàng)造的經(jīng)濟(jì)價(jià)值都來(lái)自監(jiān)督學(xué)習(xí)。CNN雖然與神經(jīng)認(rèn)知架構(gòu)有點(diǎn)相似，但是在神經(jīng)認(rèn)知中并不需要類似BP算法這種端到端的監(jiān)督學(xué)習(xí)算法。并且獲取大量無(wú)監(jiān)督數(shù)據(jù)的成本相比有標(biāo)簽數(shù)據(jù)微乎其微。各方面講，無(wú)監(jiān)督學(xué)習(xí)都是未來(lái)的趨勢(shì)，代表了人工智能的一種關(guān)鍵技能。但直接從大量的無(wú)監(jiān)督數(shù)據(jù)中學(xué)習(xí)確實(shí)非常困難，也許少量有監(jiān)督數(shù)據(jù)與大量無(wú)監(jiān)督數(shù)據(jù)結(jié)合的半監(jiān)督學(xué)習(xí)是現(xiàn)階段需要重點(diǎn)研究的方向。

另外還有如增量學(xué)習(xí)、終生學(xué)習(xí)、對(duì)抗學(xué)習(xí)、注意力模型等都是未來(lái)可能應(yīng)用在人臉識(shí)別甚至影響整個(gè)人工智能領(lǐng)域。

4 結(jié) 語(yǔ)

AFR經(jīng)過(guò)幾十年的研究發(fā)展，已經(jīng)逐漸成為一個(gè)成熟的研究領(lǐng)域。DCNN的到來(lái)，為這個(gè)領(lǐng)域注入了新的活力，并取得了顯著的效果，甚至說(shuō)在某些數(shù)據(jù)集上已經(jīng)超越人類，但是否真的超越，還言之過(guò)早。對(duì)于實(shí)際應(yīng)用中的光照、抖動(dòng)、模糊、遮擋、分辨率、姿態(tài)等的外在因素或性別、年齡變化、精神健康狀態(tài)、面部毛發(fā)、化妝整容、意外損傷等內(nèi)在因素依然沒(méi)有得到完全解決。對(duì)于深度學(xué)習(xí)算法的內(nèi)在原理，甚至還無(wú)從知曉，本質(zhì)上仍然是弱人工智能。兩者的結(jié)合是歷史的必然，但未來(lái)的發(fā)展還需要計(jì)算機(jī)視覺(jué)研究者們的共同努力。

[1] 山世光.人臉識(shí)別中若干關(guān)鍵問(wèn)題的研究[D].中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),2004.

[2] Bledsoe W W.Man-machine facial recognition[J].Rep.PRi,1966,22.

[3] Brunelli R,Poggio T.Face recognition:Features versus templates[J].IEEE transactions on pattern analysis and machine intelligence,1993,15(10):1042-1052.

[4] Turk M,Pentland A.Eigenfaces for recognition[J].Journal of cognitive neuroscience,1991,3(1):71-86.

[5] Belhumeur P N,Hespanha J P,Kriegman D J.Eigenfaces vs.fisherfaces:Recognition using class specific linear projection[J].IEEE Transactions on pattern analysis and machine intelligence,1997,19(7):711-720.

[6] Lades M,Vorbruggen J C,Buhmann J,et al.Distortion invariant object recognition in the dynamic link architecture[J].IEEE Transactions on computers,1993,42(3):300-311.

[7] Qin H,Yan J,Li X,et al.Joint training of cascaded CNN for face detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:3456-3465.

[8] Hong Z Q.Algebraic feature extraction of image for recognition[J].Pattern recognition,1991,24(3):211-219.

[9] Nakamura O,Mathur S,Minami T.Identification of human faces based on isodensity maps[J].Pattern Recognition,1991,24(3):263-272.

[10] Samaria F,Young S.HMM-based architecture for face identification[J].Image and vision computing,1994,12(8):537-543.

[11] Chen D,Cao X,Wen F,et al.Blessing of dimensionality:High-dimensional feature and its efficient compression for face verification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2013:3025-3032.

[12] Winder S A J,Brown M.Learning local image descriptors[C]//Computer Vision and Pattern Recognition,2007.CVPR’07.IEEE Conference on.IEEE,2007:1-8.

[13] Shan S,Gao W,Zhao D.Face identification from a single example image based on face-specific subspace (FSS)[C]//Acoustics,Speech,and Signal Processing (ICASSP),2002 IEEE International Conference on.IEEE,2002,2:II-2125-II-2128.

[14] Wang X,Tang X.A unified framework for subspace face recognition[J].IEEE Transactions on pattern analysis and machine intelligence,2004,26(9):1222-1228.

[15] Yang M H.Kernel Eigenfaces vs.Kernel Fisherfaces:Face Recognition Using Kernel Methods[C]//IEEE International Conference on Automatic Face and Gesture Recognition,2002.Proceedings.IEEE,2002:215-220.

[16] Zhou S K,Chellappa R.Multiple-exemplar discriminant analysis for face recognition[C]//Pattern Recognition,2004.ICPR 2004.Proceedings of the 17th International Conference on.IEEE,2004,4:191-194.

[17] Blanz V,Vetter T.A morphable model for the synthesis of 3D faces[C]//Proceedings of the 26th annual conference on Computer graphics and interactive techniques.ACM Press/Addison-Wesley Publishing Co.,1999:187-194.

[18] Blanz V,Vetter T.Face recognition based on fitting a 3D morphable model[J].IEEE Transactions on pattern analysis and machine intelligence,2003,25(9):1063-1074.

[19] Moghaddam B,Jebara T,Pentland A.Bayesian face recognition[J].Pattern Recognition,2000,33(11):1771-1782.

[20] Huang G B,Ramesh M,Berg T,et al.Labeled faces in the wild:A database for studying face recognition in unconstrained environments[R].Technical Report 07-49,University of Massachusetts,Amherst,2007.

[21] Huang G B,Lee H,Learned-Miller E.Learning hierarchical representations for face verification with convolutional deep belief networks[C]//Computer Vision and Pattern Recognition (CVPR),2012 IEEE Conference on.IEEE,2012:2518-2525.

[22] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.

[23] Deng Jia,Dong Wei,Socher R,et al.Imagenet:A large-scale hierarchical image database[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:248-255.

[24] Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Cognitive modeling,1988,5(3):1.

[25] Markoff J.How many computers to identify a cat? 16 000[N].New York Times,2012-06-25.

[26] LeCun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition[J].Neural computation,1989,1(4):541-551.

[27] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[28] Nair V,Hinton G E.Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th international conference on machine learning (ICML-10).2010:807-814.

[29] Glorot X,Bordes A,Bengio Y.Deep Sparse Rectifier Neural Networks[C]//International Conference on Artificial Intelligence and Statistics,2012.

[30] Taigman Y,Yang M,Ranzato M A,et al.Deepface:Closing the gap to human-level performance in face verification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:1701-1708.

[31] Sun Yi,Wang Xiaogang,Tang Xiaoou.Deep learning face representation from predicting 10 000 classes[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2014:1891-1898.

[32] Sun Yi,Chen Yuheng,Wang Xiaogang,et al.Deep learning face representation by joint identification-verification[C]//Advances in Neural Information Proc Systems,2014:1988-1996.

[33] Sun Yi,Wang Xiaogang,Tang Xiaoou.Deeply learned face representations are sparse,selective,and robust[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2015:2892-2900.

[34] Schroff F,Kalenichenko D,Philbin J.Facenet:A unified embedding for face recognition and clustering[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2015:815-823.

[35] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.

[36] He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:770-778.

[37] Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:2818-2826.

[38] 王曉剛,孫袆,湯曉鷗.從統(tǒng)一子空間分析到聯(lián)合深度學(xué)習(xí)：人臉識(shí)別的十年歷程[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2015,11(4):8-15.

[39] Glorot X,Bengio Y.Understanding the difficulty of training deep feedforward neural networks[J].Journal of Machine Learning Research,2010,9:249-256.

[40] Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift[C]// Proceedings of the 32nd International Conference on Machine Learning,Lille,France,2015.

[41] Kemelmachershlizerman I,Seitz S M,Miller D,et al.The MegaFace Benchmark:1 Million Faces for Recognition at Scale[C]//Computer Vision and Pattern Recognition.IEEE,2016:4873-4882.

[42] Masi I,Rawls S,Medioni G,et al.Pose-Aware Face Recognition in the Wild[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2016:4838-4846.

[43] Kan M,Shan S,Chen X.Multi-view Deep Network for Cross-View Classification[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2016:4847-4855.

[44] Wang W,Cui Z,Yan Y,et al.Recurrent Face Aging[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2016:2378-2386.

[45] Larsson G,Maire M,Shakhnarovich G.FractalNet:Ultra-Deep Neural Networks without Residuals[J].arXiv preprint arXiv:1605.07648,2016.

[46] Sun Y,Wang X,Tang X.Sparsifying Neural Network Connections for Face Recognition[J].Computer Science,2015:4856-4864.

[47] Han S,Pool J,Tran J,et al.Learning both weights and connections for efficient neural network[C]//Advances in Neural Information Proc Systems,2015:1135-1143.

[48] Song H O,Xiang Y,Jegelka S,et al.Deep metric learning via lifted structured feature embedding[J].arXiv preprint arXiv:1511.06452,2015.

[49] Kan Meina,Wu Junting,Shan Shiguang,et al.Domain Adaptation for Face Recognition:Targetize Source Domain Bridged by Common Subspace[J].International Journal of Computer Vision,2014,109(1-2):94-109.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放