亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的大規(guī)模人臉圖像檢索

2018-01-22 06:01:05盧宗光劉青山孫玉寶

太原理工大學(xué)學(xué)報(bào) 2018年1期

盧宗光，劉青山，孫玉寶

(南京信息工程大學(xué) a.信息與控制學(xué)院，b.江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室，南京 210044)

人臉檢索的目標(biāo)是將數(shù)據(jù)庫中人臉圖像和輸入人臉圖像按照相似性進(jìn)行搜索，并依據(jù)相似程度由高到低進(jìn)行排序輸出。人臉圖像檢索方法主要包括人臉特征表示及針對所提特征的高效索引兩個(gè)步驟。當(dāng)前大多數(shù)人臉檢索方法通過計(jì)算人臉幾何屬性(如兩眼之間的距離，兩眼與鼻尖之間的角度，兩嘴角與鼻尖構(gòu)成三角形的面積等)或面部顯著特征點(diǎn)(如眼睛、鼻子、嘴巴等)處的局部特征之間的相似性[1-2]。BACH et al[3]先對人臉圖片進(jìn)行標(biāo)注，然后從標(biāo)注點(diǎn)提取人工設(shè)計(jì)特征進(jìn)行人臉相似性匹配，即實(shí)現(xiàn)了一種半自動化的人臉檢索系統(tǒng)。EICKELER et al[4]率先采用2DPHMM方法進(jìn)行人臉檢索，并取得了不錯(cuò)的結(jié)果。GUDIVADA et al[5]受人臉匹配啟發(fā)，首次將人臉匹配過程中使用的特征應(yīng)用于人臉檢索系統(tǒng)。WANG et al[6]提出了一種使用LBP[7](local binary pattern)的多任務(wù)學(xué)習(xí)架構(gòu)來解決人臉驗(yàn)證和人臉檢索問題。近年來，通過使用深度學(xué)習(xí)來學(xué)習(xí)人臉特征表示取得了一系列重大突破[8-13]。文獻(xiàn)[14]首次提出將兩張圖片的匹配程度映射到一個(gè)度量距離，并用距離的大小表示匹配程度的高低。

文獻(xiàn)[16-17]創(chuàng)新性地改變了卷積神經(jīng)網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)時(shí)的驗(yàn)證信號(softmax loss)，使得深度學(xué)習(xí)特征包含了更豐富的身份信息。文獻(xiàn)[18]更進(jìn)一步，在之前網(wǎng)絡(luò)的每一個(gè)卷積層之后添加一層全連接層并計(jì)算損失函數(shù)，但此時(shí)網(wǎng)絡(luò)層數(shù)較淺，訓(xùn)練樣本量較少，需要進(jìn)行復(fù)雜的樣本擴(kuò)充操作。文獻(xiàn)[9-10,19]展現(xiàn)了三元組損失(triplet loss)函數(shù)在人臉特征深度學(xué)習(xí)上的優(yōu)勢，通過深度嵌入(deep embedding)，使錨點(diǎn)(anchor)和正樣本(positive)之間的距離最小，錨點(diǎn)和負(fù)樣本(negative)之間的距離最大直到兩者達(dá)到預(yù)設(shè)的閾值，由于訓(xùn)練樣本為三元組，這對樣本的選取提出了很高的要求，選取過程操作復(fù)雜。

本文采用Inception-ResNet-v1網(wǎng)絡(luò)并借鑒了WEN et al[20]的Center loss對網(wǎng)絡(luò)損失函數(shù)進(jìn)行修改，且損失函數(shù)計(jì)算較簡單，不需要對訓(xùn)練樣本選擇做過多操作。首先，使用約四百萬訓(xùn)練樣本對網(wǎng)絡(luò)進(jìn)行訓(xùn)練，得到了優(yōu)秀的人臉特征表示模型。然后，對百萬級人臉圖像檢索庫進(jìn)行特征提取。最后，對所獲特征采用由粗到細(xì)的分層匹配進(jìn)行相似性檢索得到檢索結(jié)果。

1 人臉檢測特征提取及人臉圖像檢索

人臉檢測是一切人臉分析技術(shù)的基礎(chǔ)，準(zhǔn)確、魯棒的人臉檢測器是人臉檢索的前提。本文采用MTCNN檢測器。

該檢測器人臉檢測主要分為以下3個(gè)步驟：

1) Proposal網(wǎng)絡(luò)(P-Net)對輸入圖像產(chǎn)生大量候選人臉框。

2) Refinement網(wǎng)絡(luò)(R-Net)對上一步產(chǎn)生的候選框進(jìn)行細(xì)化，舍棄多余和不正確的人臉候選框。

3) 輸出網(wǎng)絡(luò)(O-Net)產(chǎn)生最終的人臉框和5個(gè)人臉關(guān)鍵點(diǎn)。

1.1 特征提取網(wǎng)絡(luò)設(shè)計(jì)

由于卷積神經(jīng)網(wǎng)絡(luò)在多項(xiàng)應(yīng)用中有著優(yōu)異的表現(xiàn)，其在計(jì)算機(jī)視覺領(lǐng)域里扮演著越來越重要的角色。本文采用的33層Inception-ResNet-V1網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，其中包含了一個(gè)輸入原始圖片，輸出35×35×256(35×35為特征圖大小，256為卷積核數(shù)量，下同)的stem結(jié)構(gòu)；5個(gè)輸入輸出為35×35×256的Inception-resnet-A(細(xì)節(jié)見圖2)結(jié)構(gòu)；一個(gè)輸入為35×35×256輸出為17×17×896的Reduction-A結(jié)構(gòu)；10個(gè)輸入輸出為17×17×896的Inception-resnet-B(細(xì)節(jié)見圖3)；一個(gè)輸入為17×17×896輸出為8×8×1792的Reduction-B結(jié)構(gòu)；5個(gè)輸入輸出為8×8×1792的Inception-resnet-C(細(xì)節(jié)見圖4)；全連接層以及最終的損失函數(shù)層。該網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合了當(dāng)前最優(yōu)秀的兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)Inception[21]和深度殘差網(wǎng)[22]的優(yōu)點(diǎn)，在大數(shù)據(jù)量訓(xùn)練集條件下有著十分優(yōu)異的表現(xiàn)，本文訓(xùn)練集包含了3 942 599張來自82 360位個(gè)體的人臉圖片，故選用了此網(wǎng)絡(luò)。

圖1 Inception-ResNet-V1網(wǎng)絡(luò)結(jié)構(gòu)總覽Fig.1 The overall schema of Inception-ResNet-V1 network

圖2為圖1網(wǎng)絡(luò)結(jié)構(gòu)總覽中連接輸入層和Inception-resnet-A層之間的stem網(wǎng)絡(luò)結(jié)構(gòu)，它包含7層網(wǎng)絡(luò)。輸入層為299×299的RGB三通道圖片，分別經(jīng)過3次卷積、1次最大池化和3次卷積之后得到35×35×256的特征圖。圖中Conv為卷積層，MaxPool為最大池化層。括號內(nèi)第一個(gè)數(shù)字為卷積核數(shù)量;stride 2表示卷積或池化是步長為2沒有特殊表明的則步長為1;帶有字母‘V’的表示該層采用valid padding,此時(shí)該層輸出嚴(yán)格根據(jù)輸入特征圖大小、卷積核大小和步長來確定；沒有字母‘V’的層采用same padding，此時(shí)會自動根據(jù)輸入特征圖尺寸對特征圖進(jìn)行填充使得輸出特征圖和輸入特征圖具有相同尺寸。

圖2 stem網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The schema of stem network

圖1中的Inception-resnet-A,Inception-resnet-B,Inception-resnet-C結(jié)構(gòu)是該網(wǎng)絡(luò)結(jié)構(gòu)的主要卷積層，該結(jié)構(gòu)結(jié)合了GoogLeNet和殘差網(wǎng)絡(luò)的優(yōu)點(diǎn)，既降低了深層神經(jīng)網(wǎng)絡(luò)的參數(shù)量又解決了深度神經(jīng)網(wǎng)絡(luò)梯度容易消失的問題。

該網(wǎng)絡(luò)起初是針對分類任務(wù)設(shè)計(jì)，其損失函數(shù)為Softmax loss, 如公式(1)：

(1)

式中：xi∈Rd表示類別為第yi類的第i個(gè)深度特征，d為特征維度；Wj為最后全連接層權(quán)值矩陣W∈Rd×n的第j列，b∈Rd為偏置項(xiàng)；n為樣本類別數(shù)量，m為當(dāng)前訓(xùn)練批次內(nèi)樣本數(shù)量。該損失函數(shù)在多目標(biāo)分類問題中有著優(yōu)異的表現(xiàn)。人臉特征表示對網(wǎng)絡(luò)泛化能力提出了更高的要求，故借鑒WEN et al[13]的Center loss，對網(wǎng)絡(luò)損失函數(shù)進(jìn)行修改。Center loss函數(shù)如公式(2)：

(2)

式中：cyi∈Rd表示類別為第yi類的深度特征的特征中心，該中心損失函數(shù)能夠有效降低人臉圖像的類內(nèi)差，cyi會隨著訓(xùn)練的迭代進(jìn)行更新。

因此，最終的損失函數(shù)為：

(3)

λ用于平衡兩種損失函數(shù)。

Softmax loss可以增大不同類別之間的類間差(inter-class)，同時(shí)，Center loss降低了同類樣本之間的類內(nèi)差(intra-class).通過綜合，最終得到維度為128的人臉表示特征向量。

1.2 由粗到細(xì)的人臉快速檢索

盡管已經(jīng)獲取到維度低、魯棒性強(qiáng)的人臉表示特征，但是在百萬級人臉數(shù)據(jù)庫中通過線性檢索仍耗時(shí)大約5 s，這在某些快速檢索場景下顯然是不能容忍的。為了加速檢索，我們對提取的人臉特征數(shù)據(jù)進(jìn)行聚類分析，將數(shù)據(jù)進(jìn)行拆分。在我們的實(shí)驗(yàn)中，每類約10萬條數(shù)據(jù)時(shí)，可以犧牲最少的檢索準(zhǔn)確率達(dá)到提升一個(gè)數(shù)量級的檢索速度。

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理

實(shí)驗(yàn)采用以下數(shù)據(jù)集：CASIA-WebFace(后稱CASIA)[23]，MS-Celeb-1M(后稱MSCeleb)[24]，LFW[27]以及FaceRetrieval-A，F(xiàn)aceRetrieval-B，F(xiàn)aceRetrieval-C.這6個(gè)數(shù)據(jù)集詳細(xì)信息見表1.

表1 實(shí)驗(yàn)數(shù)據(jù)庫信息Table 1 Details of the datasets

CASIA是由中科院整理發(fā)布的大規(guī)模人臉數(shù)據(jù)集，MSCeleb是微軟公司發(fā)布的百萬級人臉數(shù)據(jù)庫，這兩個(gè)數(shù)據(jù)庫也是目前公開人臉數(shù)據(jù)庫里擁有圖片數(shù)量最多的，因此，本文采用這兩個(gè)數(shù)據(jù)集作為網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)。LFW是目前較主流的人臉驗(yàn)證測試評估數(shù)據(jù)集，該人臉驗(yàn)證數(shù)據(jù)集分為多種驗(yàn)證模式，本文對人臉特征性能評估皆是在非限制條件下外部標(biāo)記訓(xùn)練集模式下進(jìn)行。FaceRetrieval-A，F(xiàn)aceRetrieval-B，F(xiàn)aceRetrieval-C 3個(gè)百萬級人臉數(shù)據(jù)庫用作人臉檢索測試庫。圖4展示了這6個(gè)人臉數(shù)據(jù)庫中的部分圖片，其中CASIA和MSCeleb中的人臉圖片均根據(jù)人臉位置進(jìn)行了裁剪，并且CASIA中圖片尺寸均被縮放為，而MSCeleb沒有被統(tǒng)一縮放。

2.2 模型訓(xùn)練及分析

2.2.1 數(shù)據(jù)預(yù)處理

由于CASIA和MSCeleb數(shù)據(jù)庫中均存在一些錯(cuò)誤樣本，為了提升訓(xùn)練數(shù)據(jù)的純度，我們采用了文獻(xiàn)[28]中的人臉特征提取模型，對這兩個(gè)數(shù)據(jù)庫進(jìn)行過濾，具體步驟如下：

1) 使用MTCNN進(jìn)行人臉檢測并根據(jù)人臉位置和網(wǎng)絡(luò)輸入要求對圖片進(jìn)行剪切縮放，刪去未檢到人臉圖片。

2) 使用文獻(xiàn)[25]中的網(wǎng)絡(luò)提取人臉特征。

3) 使用步驟2)中的人臉特征進(jìn)行人臉識別。首先隨機(jī)從每一類人臉圖片中選擇一張作為探針；然后，對該類剩余人臉圖片一一執(zhí)行人臉驗(yàn)證操作，刪除驗(yàn)證結(jié)果不相同的圖片；最后，刪去總數(shù)少于5張圖片的人臉類別。

圖4 本文使用數(shù)據(jù)庫的部分示例圖片F(xiàn)ig.4 Some examples of the used datasets

經(jīng)過此過濾操作之后兩個(gè)數(shù)據(jù)庫信息如表2所示。

2.2.2 模型訓(xùn)練及分析

實(shí)驗(yàn)分別針對損失函數(shù)設(shè)計(jì)及λ選擇、數(shù)據(jù)集大小、人臉特征維度設(shè)計(jì)了4組對比試驗(yàn)。均在LFW數(shù)據(jù)庫上進(jìn)行外部訓(xùn)練數(shù)據(jù)模式的人臉驗(yàn)證評估。所有模型訓(xùn)練使用相同硬件環(huán)境，主要配置為兩塊英特爾Xeon E5-2640 CPU, 兩塊英偉達(dá)Pascal GPU和128 GB內(nèi)存。

表3 網(wǎng)絡(luò)訓(xùn)練固定參數(shù)Table 3 The fixed parameters of the training procedure

為了驗(yàn)證Center loss對網(wǎng)絡(luò)提取人臉特征性能有提升作用，設(shè)計(jì)了一組對比試驗(yàn)：分別使用Softmax loss 以及Softmax loss加Center loss深度網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)并在LFW測試庫上進(jìn)行人臉驗(yàn)證評估。訓(xùn)練數(shù)據(jù)庫均為MSCeleb，輸出人臉特征維度設(shè)置為128維，分別取0和0.000 1，結(jié)果見表4.實(shí)驗(yàn)結(jié)果表明，添加了Center loss的損失函數(shù)對特征性能提升有促進(jìn)作用。

λ取值對模型效果影響的實(shí)驗(yàn)中，分別使用CASIA和MSCeleb數(shù)據(jù)庫作為網(wǎng)絡(luò)訓(xùn)練樣本，輸出人臉特征維度設(shè)為128維，分別取0.1，0.01，0.001，0.000 1.其它固定訓(xùn)練參數(shù)見表3.分別對得到的模型在LFW測試庫上進(jìn)行人臉驗(yàn)證評估，結(jié)果如表4，通過加入Center loss一定程度上提高了驗(yàn)證準(zhǔn)確率。

表4同時(shí)反映了數(shù)據(jù)集大小對模型效果影響，訓(xùn)練數(shù)據(jù)規(guī)模的提升大幅度提升了模型性能，這充分證明了大數(shù)據(jù)是驅(qū)動深度學(xué)習(xí)的一個(gè)重要條件。

表4 不同規(guī)模訓(xùn)練數(shù)據(jù)集下不同值的驗(yàn)證準(zhǔn)確率Table 4 The verification accuracy of different λ under different scale training datasets %

MSCeleb數(shù)據(jù)庫是網(wǎng)絡(luò)訓(xùn)練時(shí)的訓(xùn)練集，在人臉特征維度對模型效果影響的實(shí)驗(yàn)中，分別設(shè)置輸出人臉特征維度為96，128，256維。其它訓(xùn)練參數(shù)見表3，此時(shí)λ=0.000 1.同樣的，分別用這3種維度的特征在LFW數(shù)據(jù)庫上進(jìn)行了人臉驗(yàn)證評估，結(jié)果如表5.我們發(fā)現(xiàn)特征維度為128維時(shí)既有很高的識別準(zhǔn)確率，又降低了后續(xù)人臉檢索時(shí)的檢索復(fù)雜度。因此，我們設(shè)置網(wǎng)絡(luò)輸出特征維度為128維。

表5 不同特征維度的驗(yàn)證準(zhǔn)確率Table 5 The verification accuracy of different feature dimensions

通過對以上三組對比實(shí)驗(yàn)結(jié)果，最終選擇訓(xùn)練樣本為MSCeleb數(shù)據(jù)庫，λ=0.000 1且輸出特征為128維的模型作為人臉特征表示模型。

與當(dāng)前最優(yōu)秀的人臉驗(yàn)證方法做了對比，結(jié)果如表6.

在下一步的人臉檢索中，基于CASIA數(shù)據(jù)庫訓(xùn)練λ=0.000 1且輸出特征為128維的模型將作為人臉檢索實(shí)驗(yàn)的基準(zhǔn)。

2.3 人臉檢索評估及分析

2.3.1 實(shí)驗(yàn)設(shè)定及評估標(biāo)準(zhǔn)

人臉檢索實(shí)驗(yàn)的數(shù)據(jù)庫分別為FaceRetrieval-A、FaceRetrieval-B、FaceRetrieval-C.

表6 與當(dāng)前優(yōu)秀方法的準(zhǔn)確率對比Table 6 Verification performance of different methods on LFW datasets %

對每一類抽取該類最后一張人臉圖片作為檢索目標(biāo)。因此，三個(gè)數(shù)據(jù)庫檢索目標(biāo)數(shù)量分別為29 368，29 374，25 215.另外，表1中這三個(gè)數(shù)據(jù)庫的圖片總數(shù)已經(jīng)是剔除檢索目標(biāo)后的圖片數(shù)量。在下面的檢索實(shí)驗(yàn)中，分別評估Top1，Top5，Top10檢索準(zhǔn)確率(PTopk)。具體計(jì)算方式為：

(4)

式中：n表示檢索目標(biāo)數(shù)量，C(Xi,Yi)表示第i個(gè)檢索目標(biāo)的真實(shí)類別Xi與檢索結(jié)果類別Yi的比較結(jié)果。若Xi=Yi，則C(Xi,Yi)=1；若Xi≠Yi，則C(Xi,Yi)=0.在Top1模式下Yi為相似性最高的結(jié)果，而Top5和Top10分別為相似性位列前5和前10的檢索結(jié)果且這些結(jié)果里只要有一個(gè)與真實(shí)類別Xi相同則C(Xi,Yi)=1.

2.3.2 實(shí)驗(yàn)結(jié)果及分析

對于3個(gè)人臉檢索測試集，分別采用了兩種檢索方法：線性檢索和分層檢索。線性檢索首先計(jì)算目標(biāo)檢索圖片特征和檢索測試集中所有圖片特征之間的歐氏距離；接著對得到的距離由低到高進(jìn)行排序；最后，根據(jù)排序結(jié)果獲取Top1，Top5，Top10檢索結(jié)果。

分層檢索是先對3個(gè)人臉測試集特征進(jìn)行聚類分析，將每個(gè)測試集特征拆分為10個(gè)子集，并記錄下每個(gè)子集的特征中心。分層檢索的具體步驟如下：

1) 計(jì)算目標(biāo)檢索圖片特征與10個(gè)子集特征中心的歐式距離并選擇最近的一個(gè)子集；

2) 計(jì)算目標(biāo)檢索圖片特征與第一步得到的最近子集中所有圖片特征的歐式距離并進(jìn)行排序；

3) 根據(jù)排序結(jié)果獲取Top1，Top5，Top10檢索結(jié)果。

表7，8，9分別是FaceRetrieval-A、FaceRetrieval-B、FaceRetrieval-C三個(gè)人臉檢索測試集上的人臉檢索結(jié)果，這里基于CASIA數(shù)據(jù)庫訓(xùn)練的模型作為對比實(shí)驗(yàn)基準(zhǔn)。

在FaceRetrieval-A數(shù)據(jù)庫上，取得了較高的檢索準(zhǔn)確率。其中在線性檢索方法下：基于MSCeleb訓(xùn)練集模型的Top1，Top5，Top10檢索準(zhǔn)確率較使用CASIA訓(xùn)練集的檢索基準(zhǔn)分別提高1.71%，0.76%和0.48%，達(dá)到92.78%，95.69%和96.79%.此時(shí)，單次檢索時(shí)間約為5.2 s.為了提高檢索速度，在分層檢索方法下，基于MSCeleb訓(xùn)練集模型的Top1，Top5，Top10檢索準(zhǔn)確率相比檢索準(zhǔn)確率分別提升了2.54%，1.42%和1.11%，達(dá)到90.19%，93.21%和94.38%.此時(shí)，單次檢索時(shí)間約為0.6 s，較線性檢索速度提升了8.7倍。

表7 FaceRetrieval-A數(shù)據(jù)庫上的人臉檢索結(jié)果Table 7 Result of face retrieval on FaceRetrieval-A datasets

在FaceRetrieval-B數(shù)據(jù)庫上，檢索實(shí)驗(yàn)同樣有著優(yōu)秀的表現(xiàn)。其中在線性檢索方法下，基于MSCeleb訓(xùn)練集模型的Top1，Top5，Top10檢索準(zhǔn)確率較使用CASIA訓(xùn)練集的檢索基準(zhǔn)分別提高1.19%，0.59%和 0.45%，達(dá)到92.54%，95.61%和96.74%.此時(shí)，單次檢索時(shí)間約為5.4 s.在分層檢索方法下，基于MSCeleb訓(xùn)練集模型的Top1，Top5，Top10檢索準(zhǔn)確率相比檢索準(zhǔn)確率分別提升了2.02%，1.29%和1.03%，達(dá)到89.93%，93.19%和93.40%.此時(shí)，單次檢索時(shí)間約為0.6 s，較線性檢索速度提升了9倍。

與前兩個(gè)檢索測試集相比，F(xiàn)aceRetrieval-C數(shù)據(jù)庫數(shù)據(jù)量略小。檢索實(shí)驗(yàn)依然有著不俗的表現(xiàn)。其中在線性檢索方法下，基于MSCeleb訓(xùn)練集模型的Top1，Top5，Top10檢索準(zhǔn)確率較使用CASIA訓(xùn)練集的檢索基準(zhǔn)分別提高1.49%，0.55%和0.31%，達(dá)到93.19%，95.81%和96.89%.此時(shí)，單次檢索時(shí)間約為4.3 s.為了提高檢索速度，在分層檢索方法下，基于MSCeleb訓(xùn)練集模型的Top1，Top5，Top10檢索準(zhǔn)確率相比檢索準(zhǔn)分別提升了2.21%，1.23%和0.73%，達(dá)到90.37%，93.19%和94.27%.此時(shí)，單次檢索時(shí)間約為0.46 s，較線性檢索速度提升了9.3倍。

表8 FaceRetrieval-B數(shù)據(jù)庫上的人臉檢索結(jié)果Table 8 Result of face retrieval on FaceRetrieval-B datasets

表9 FaceRetrieval-C數(shù)據(jù)庫上的人臉檢索結(jié)果Table 9 Result of face retrieval on FaceRetrieval-C datasets

通過以上3個(gè)測試集的測試，清晰地體現(xiàn)出大數(shù)據(jù)對深度學(xué)習(xí)模型效果的提升。采用MSCeleb數(shù)據(jù)訓(xùn)練的模型在每個(gè)測試條件下，結(jié)果都優(yōu)于使用CASIA數(shù)據(jù)訓(xùn)練的模型，并且在分層檢索模式下使用CASIA數(shù)據(jù)訓(xùn)練的模型準(zhǔn)確率下降幅度更大。為了提升檢索速度，我們犧牲了大約2.5%的檢索精度換取了提升約9倍的檢索速度，使得百萬級數(shù)據(jù)庫單次檢索時(shí)間在0.5 s左右。在某些需要快速檢索的特定場景下，分層檢索有相當(dāng)?shù)膬?yōu)勢。

以上所有檢索實(shí)驗(yàn)均在一臺配置英特爾酷睿i7-4790 CPU和16 GB內(nèi)存的臺式機(jī)上操作。

3 結(jié)論

筆者設(shè)計(jì)了針對三個(gè)百萬級人臉數(shù)據(jù)庫的檢索實(shí)驗(yàn)，并就檢索精度和檢索速度分別采用了不同的檢索策略，即在高檢索精度場景中犧牲一定的檢索時(shí)間從而達(dá)到更精確的檢索成功率，在快速檢索場景中損失大約2.5%的檢索成功率進(jìn)而提升了約9倍的檢索速度。所有實(shí)驗(yàn)均取得優(yōu)秀的實(shí)驗(yàn)結(jié)果。另外，針對人臉特征表示模型的的訓(xùn)練，提出了不同的訓(xùn)練方法，就損失函數(shù)設(shè)計(jì)、數(shù)據(jù)集選取和特征維度設(shè)置做了詳實(shí)的實(shí)驗(yàn)分析，并選擇了最優(yōu)解決方案。

[1] CHAN C H,TAHIR M A,KITTLER J,et al.Multiscale local phase quantization for robust component-based face recognition using fusion of multiple descriptors[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(5):1146-1177.

[2] WU Z,KE Q,SUN J,et al.Scalable face image retrieval with identity-basedquantization and multireference reranking[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2011,33(10):1991-2001.

[3] BACH J R,PAUL S,JAIN R.A visual informationmanagement system for the interactive retrieval offaces[J].IEEE Transactions on Knowledge and Data Engineering,1993,5(4):619-628.

[4] EICKELER S.Face database retrieval using pseudo 2dhidden markov models[C]∥IEEE.International Conference on Automatic Face and Gesture Recognition.2002： 0065.

[5] GUDIVADA V N,RAGHAVAN V V.Modeling andretrieving images by content[J].Journal of InformationProcessing and Management,1997,33(4):427-452.

[6] WANG X,ZHANG C,ZHANG Z.Boosted multi-task learning for face veri_cation with applications to web image and video search[C]∥IEEE.Conference on Computer Vision and Pattern Recognition.2009:142-149.

[7] OJALA T,PIETIKINEN M.Multiresolution gray-scale and rotation invariant texture classication withlocal binary patterns[J].IEEETransactions on PatternAnalysis and Machine Intelligence,2002,24(7):971-987.

[8] PARKHI O M,VEDALDI A,ZISSERMAN A.Deep facerecognition[C]∥British Machine Vision Conference.2015.

[9] SCHROFF F,KALENICHENKO D,PHILBIN J.FaceNet:A unified embedding for face recognition and clustering[C]∥IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2015:815-823.

[10] SUN Y,WANG X,TANG X.Hybrid deep learning for face verification[J].IEEE Transactions on PatternAnalysis & Machine Intelligence,2013,38(10):1997-2009.

[11] SUN Y,WANG X,TANG X.Deep learningface representation by joint identification-verification[J].2014,27:1988-1996.

[12] TAIGMAN Y,YANG M,RANZATO M,et al.Deepface:Closing the gap to human-level performancein face veri_cation[C]∥Conference on Computer Visionand Pattern Recognition.2014:1701-1708.

[13] WEN Y,LI Z,QIAO Y.Latent factor guidedconvolutional neural networks for age-invariant facerecognition[C]∥IEEE Conference on Computer Visionand Pattern Recognition.2016:4893-4901.

[14] CHOPRA S,HADSELL R,LECUN Y.Learning asimilarity metric discriminatively,with application toface veri_cation[J].Computer Vision and Pattern Recognition,2005(1):539-546.

[15] PAPAGEORGIOU C P,OREN M,POGGIO T.A general framework for object detection[C]∥Computer vision sixth international conference.1998:555-562.

[16] SUN Y,WANG X,TANG X.Deep learning facerepresentation from predicting 10,000 classes[C]∥IEEE.Conference on Computer Vision and Pattern Recognition.USA:Columbus,2014:1891-1898.

[17] TAIGMAN Y,YANG M,RANZATO M,et al.Deepface:Closing the gap to human-level performancein face verification[C]∥Conference on Computer Visionand Pattern Recognition.2014:1701-1708.

[18] SUN Y,WANG X,TANG X.Deeply learnedface representations are sparse,selective,and robust[J].Computer Science,2014:2892-2900.

[19] LIU J,DENG Y,BAI T,et al.Targeting ultimate accuracy:face recognition via deepembedding[J/OL].[2015-07-23].http://arxiv.org/abs/1506.07310.

[20] WEN Y,ZHANG K,LI Z,et al.A discriminative feature learning approach for deep face recognition[C]∥European Conference on Computer Vision.Berlin:Springer International Publishing,2016:499-515.

[21] ZHANG K,ZHANG Z,LI Z,et al.Joint face detection and alignment using multi-task cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23:1499-1503.

[22] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.

[23] YI D,LEI Z,LIAO S,et al.Learning face representation from scratch[J].Computer Science,2014.

[24] GUO Y,ZHANG L,HU Y,et al.Ms-celeb-1m:a dataset and benchmark for large-scale face recognition[C]∥European Conference on Computer Vision.Berlin:Springer International Publishing,2016: 87-102.

[25] LU Z,YANG J,LIU Q.Face image retrieval based on shape and texture feature fusion[C]∥Computational Visual Media Conference.2017.

[26] CHEN D,CAO X,WANG L,et al.Bayesian face revisited:A joint formulation[J].Computer Vision-ECCV 2012,2012:566-579.

[27] BERG T,BELHUMEUR P N.Poof:Part-based one-vs.-one features for fine-grained categorization,face verification,and attribute estimation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2013:955-962.

[28] BERG T,BELHUMEUR P N.Tom-vs-pete Classifiers and Identity-preserving Alignment for Face Verification[C]∥BMVC.2012,2:7.

[29] CAO X,WIPF D,WEN F,et al.A practical transfer learning algorithm for face verification[C]∥Proceedings of the IEEE International Conference on Computer Vision.2013:3208-3215.