亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于分類(lèi)與回歸混合模型的人臉年齡估計(jì)方法

2017-09-22 12:20:10趙一丁田森平

計(jì)算機(jī)應(yīng)用 2017年7期

關(guān)鍵詞：分類(lèi)方法模型

趙一丁，田森平

(華南理工大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院，廣州 510641) (*通信作者電子郵箱18810661246@163.com)

基于分類(lèi)與回歸混合模型的人臉年齡估計(jì)方法

趙一丁*，田森平

(華南理工大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院，廣州 510641) (*通信作者電子郵箱18810661246@163.com)

針對(duì)現(xiàn)有人臉年齡數(shù)據(jù)庫(kù)樣本數(shù)量少、各年齡段分布不均勻的問(wèn)題，提出了一種基于分類(lèi)與回歸混合模型的人臉年齡估計(jì)方法。該方法主要包含兩個(gè)方面：特征學(xué)習(xí)和估計(jì)模式。在特征學(xué)習(xí)方面，利用已有的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)，先在粗糙年齡標(biāo)注數(shù)據(jù)集上預(yù)訓(xùn)練，再在現(xiàn)有的精確年齡標(biāo)注數(shù)據(jù)庫(kù)上微調(diào)，分別得到一個(gè)年齡段判別模型和兩個(gè)年齡估計(jì)模型；在估計(jì)模式方面，該方法采用由粗到細(xì)的策略：首先，將人臉?lè)秩肭嗌倌?、中年、老年和兩個(gè)重疊區(qū)域這五個(gè)年齡段；然后，對(duì)于青少年和老年采用分類(lèi)模型估計(jì)，對(duì)于中年采用回歸模型估計(jì)，對(duì)于重疊區(qū)域采用兩個(gè)模型估計(jì)的均值。所提方法在測(cè)試集上的平均絕對(duì)誤差(MAE)為2.56。實(shí)驗(yàn)結(jié)果表明該方法受不同膚色和性別的影響較小，有較低的誤差。

人臉年齡估計(jì)；深度學(xué)習(xí)；卷積神經(jīng)網(wǎng)絡(luò)；分類(lèi)；回歸；混合模型

0 引言

人臉承載了許多重要的個(gè)人信息，包括身份、性別、年齡、情緒和健康狀況等。年齡估計(jì)作為新興的生物特征識(shí)別技術(shù)，有著廣泛的潛在應(yīng)用：限制未成年人購(gòu)買(mǎi)煙酒、槍械、危險(xiǎn)化學(xué)品和特殊藥品等；智能人機(jī)交互系統(tǒng)可以根據(jù)交流對(duì)象的年齡段改變用詞；網(wǎng)絡(luò)應(yīng)用中可以根據(jù)用戶年齡段提供個(gè)性化營(yíng)銷(xiāo)；執(zhí)法人員根據(jù)監(jiān)控視頻中的嫌疑人年齡段縮小搜索范圍[1]?；谌四槇D像的年齡估計(jì)技術(shù)仍然是極具挑戰(zhàn)性的問(wèn)題，這主要包含以下三點(diǎn)原因：1)不同個(gè)體的年齡變化模式差異較大。從內(nèi)因來(lái)看，不同人種、不同性別的年齡變化過(guò)程有較大區(qū)別；從外因來(lái)看，不同生活方式、不同生活環(huán)境也對(duì)衰老過(guò)程有一定影響。2)缺乏足夠的有年齡標(biāo)注的數(shù)據(jù)集，年齡變化是不可逆的過(guò)程，人臉圖像數(shù)據(jù)采集困難。3)現(xiàn)有的人臉圖像包含了很多其他干擾信息，如：人臉表情、姿態(tài)和臉部遮蔽等[2-3]。這些原因都會(huì)影響年齡估計(jì)方法的精度。

傳統(tǒng)的年齡估計(jì)方法通常分為兩個(gè)部分：特征提取和估計(jì)方法。余棉水等[2]采用局部定向模式(Local Direction Pattern, LDP)和Gabor小波變換分別提取人臉的全局和局部特征，經(jīng)過(guò)特征融合后再使用主成分分析法(Principal Component Analysis, PCA)進(jìn)行降維，最后利用支持向量回歸(Support Vector Regression, SVR)模型進(jìn)行年齡估計(jì)；但是該方法只提取了臉部皺紋這一局部特征，皺紋不能充分反映年齡的變化。林時(shí)苗等[3]引入了方向梯度直方圖(Histogram of Oriented Gradients, HOG)特征，將其與局部二元模式(Local Binary Pattern, LBP)特征進(jìn)行融合，并提出了軟雙層估計(jì)模型，第一層區(qū)分“未成年人”和“成年人”兩類(lèi)，第二層在兩類(lèi)的邊界設(shè)置重疊區(qū)域，對(duì)第一層的錯(cuò)誤進(jìn)行補(bǔ)救；但是該方法在特征提取階段對(duì)人臉的每個(gè)局部區(qū)域都賦予了相同的權(quán)重，然而人臉各個(gè)部分隨年齡的變化程度是不同的。

上述傳統(tǒng)方法采用人工設(shè)計(jì)的特征描述子來(lái)提取人臉特征，然后將年齡估計(jì)問(wèn)題當(dāng)作分類(lèi)或者回歸問(wèn)題來(lái)處理。然而，設(shè)計(jì)人工特征需要特定領(lǐng)域的先驗(yàn)知識(shí)，而且這些特征也難以充分反映人臉年齡的變化過(guò)程[4]。近年來(lái)以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)為代表的深度學(xué)習(xí)技術(shù)被廣泛應(yīng)用于物體識(shí)別和人臉識(shí)別等領(lǐng)域，并在很多基準(zhǔn)數(shù)據(jù)集上均取得了前所未有的成果[4-5]，因此，為了獲得更能表達(dá)年齡信息的特征，本文所使用的分類(lèi)和回歸模型都基于CNN。CNN的主要優(yōu)點(diǎn)是可以將圖像直接輸入模型而不進(jìn)行預(yù)處理，它可以自動(dòng)學(xué)習(xí)圖像特征并且具有很強(qiáng)的魯棒性[5-9]。

近年來(lái)已經(jīng)有將CNN應(yīng)用于人臉年齡估計(jì)問(wèn)題的成果。Wang等[6]將人臉圖像調(diào)整為60×60的大小后輸入一個(gè)6層的CNN，然后提取最后一層全連接層作為特征，再訓(xùn)練SVR模型來(lái)估計(jì)年齡；然而該方法沒(méi)有實(shí)現(xiàn)真正意義上的端到端學(xué)習(xí)，仍然將特征提取和年齡估計(jì)兩階段分開(kāi)。Levi等[7]構(gòu)建了一個(gè)5層的CNN來(lái)同時(shí)解決年齡估計(jì)和性別分類(lèi)任務(wù)，將年齡估計(jì)當(dāng)作分類(lèi)問(wèn)題來(lái)處理，該方法實(shí)現(xiàn)了端到端學(xué)習(xí)，也取得了較高精度；但是只能將人臉圖像分入不同年齡段，不能估計(jì)出準(zhǔn)確年齡。Yi等[8]截取出每張人臉圖像的鼻子、臉頰、額頭和嘴巴等多個(gè)不同部位以及整張人臉，針對(duì)這些部位分別訓(xùn)練出多個(gè)不同尺度的CNN，最終的年齡值為幾個(gè)網(wǎng)絡(luò)輸出的均值。該方法充分利用了整張人臉的局部特征和全局特征；但是需要有人臉關(guān)鍵點(diǎn)標(biāo)注的數(shù)據(jù)集，并且訓(xùn)練多個(gè)網(wǎng)絡(luò)過(guò)于繁瑣。Zhu等[9]使用了已訓(xùn)練好的VGG(Visual Geometry Group)網(wǎng)絡(luò)，先將樣本分入不同的年齡段，提取VGG網(wǎng)絡(luò)最后三層全連接層作為特征，在每個(gè)年齡段內(nèi)分別訓(xùn)練SVR模型和隨機(jī)森林(Random Forest, RF)回歸模型，SVR和RF的輸出均值為最終的年齡。該方法準(zhǔn)確度較高；但是每個(gè)年齡段都需要單獨(dú)訓(xùn)練SVR和RF模型，導(dǎo)致模型數(shù)量太多流程繁瑣。上述這些方法只采用了單一的分類(lèi)或者回歸的年齡估計(jì)模式，然而年齡變化是動(dòng)態(tài)的過(guò)程，這表現(xiàn)在：人臉隨著年齡的增長(zhǎng)，在未成年階段變化差異較大，而在成年階段變化較小，至老年之后變化趨緩乃至停滯，并且在不同階段的邊界附近又是一個(gè)緩慢的過(guò)程，存在年齡段邊界模糊的問(wèn)題，因此，將二者有機(jī)融合可以有效提高年齡估計(jì)的精度[1,3]。所以，本文提出了一種由粗到細(xì)的策略：先將人臉?lè)秩氩煌挲g段，再分別使用分類(lèi)和回歸模型來(lái)估計(jì)年齡。

另外，傳統(tǒng)的基于分類(lèi)模式的年齡估計(jì)把年齡值分成了若干個(gè)類(lèi)別，沒(méi)有考慮到不同年齡之間的相互關(guān)系，因此損失了很多重要的信息[1]。對(duì)于CNN分類(lèi)模型的改進(jìn)辦法有：Liu等[10]提出了使用符合高斯分布的編碼方式來(lái)表示年齡標(biāo)簽，取代了傳統(tǒng)的獨(dú)熱編碼方式，該方法利用了相鄰年齡的相關(guān)信息，但是這種年齡編碼方式較復(fù)雜不利于計(jì)算，因此，本文提出基于概率排名的分類(lèi)輸出計(jì)算方法，即選取概率最高的前10個(gè)年齡標(biāo)簽，和相應(yīng)的概率值相乘得到分類(lèi)結(jié)果，該方法計(jì)算更簡(jiǎn)單。

本文的主要工作如下：

1)提出一種基于分類(lèi)和回歸混合模型的人臉年齡估計(jì)方法，并對(duì)其中的分類(lèi)模型提出基于概率排名的輸出結(jié)果計(jì)算方法。

2)使用粗糙年齡標(biāo)注的數(shù)據(jù)集對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練，然后在精確年齡標(biāo)注數(shù)據(jù)集上微調(diào)。

1 年齡估計(jì)方法

1.1 總體流程

人臉隨年齡的變化主要分為3個(gè)階段：青少年、中年和老年，并且在不同階段之間存在重疊區(qū)域，這些重疊區(qū)兼有相鄰階段的特點(diǎn)。青少年人臉變化快，更適合分類(lèi)估計(jì)；中年人臉變化慢，更適合回歸估計(jì)；由于老年人臉的數(shù)據(jù)量稀少，分類(lèi)模型比回歸模型的誤差更低[1,3,11]。

本文采用由粗到細(xì)的策略來(lái)估計(jì)年齡：首先，將人臉?lè)秩肭嗌倌闧0,20)、重疊區(qū)一[20,30)、中年[30,50)、重疊區(qū)二[50,60)、老年[60,80]這5個(gè)年齡段，為此需要單獨(dú)訓(xùn)練一個(gè)年齡段分類(lèi)模型。然后，為了進(jìn)一步估計(jì)準(zhǔn)確的年齡，對(duì)于青少年或老年段的樣本使用分類(lèi)模型估計(jì)，對(duì)于中年段的樣本使用回歸模型估計(jì)，對(duì)于兩個(gè)重疊區(qū)的樣本使用兩個(gè)模型估計(jì)的均值。這3個(gè)模型都基于CNN，由于CNN的接受域是固定的，圖像需要調(diào)整至統(tǒng)一大小后再輸入網(wǎng)絡(luò)。整個(gè)年齡估計(jì)流程如圖1所示。

圖1 年齡估計(jì)流程

1.2 分類(lèi)模型

如果將不同的年齡當(dāng)作離散的類(lèi)別，就可以把年齡估計(jì)當(dāng)作分類(lèi)問(wèn)題來(lái)處理。CNN輸出層采用的是Softmax分類(lèi)器，由于要預(yù)測(cè)的年齡為0至80歲，所以Softmax分類(lèi)器有81個(gè)輸出，分別對(duì)應(yīng)一張樣本屬于各個(gè)年齡的預(yù)測(cè)得分，假設(shè)有一個(gè)訓(xùn)練集{(x(1),y(1)),(x(2),y(2)),…,(x(N),y(N))}，其中：x(i)表示全連接層的輸出特征向量；y(i)是這個(gè)樣本的真實(shí)年齡，值為{0,1,…,80}中的一個(gè)；N是一批訓(xùn)練樣本的數(shù)量。前向傳播之后，對(duì)于單個(gè)訓(xùn)練樣本，Softmax分類(lèi)器的輸出可以表示為：

(1)

其中：wi是全連接層中的神經(jīng)元與Softmax分類(lèi)器第i個(gè)輸出神經(jīng)元相連接的權(quán)重參數(shù)；hw(x(i))是一個(gè)概率向量，向量中的各項(xiàng)之和為1，每一項(xiàng)代表該樣本屬于對(duì)應(yīng)類(lèi)別的概率值，取概率最大的那個(gè)類(lèi)別作為Softmax的分類(lèi)結(jié)果。用Softmax分類(lèi)器時(shí)，損失函數(shù)一般采用交叉熵，即：

J(W,b)=

(2)

其中：1{y(i)=j}表示當(dāng)?shù)趇個(gè)訓(xùn)練數(shù)據(jù)的類(lèi)別屬于第j類(lèi)時(shí)輸出為1。

然而，這種分類(lèi)方法沒(méi)有充分利用相鄰年齡之間的相關(guān)性，例如：對(duì)于標(biāo)簽是24歲的樣本，估計(jì)值是26和估計(jì)值是28這兩種情況下的損失函數(shù)值一樣，但實(shí)際上估計(jì)值是26這種情況更接近于真實(shí)年齡24。這導(dǎo)致依靠最大概率的分類(lèi)網(wǎng)絡(luò)在預(yù)測(cè)年齡的時(shí)候準(zhǔn)確率較低，因此，本文提出一種依靠概率排名來(lái)計(jì)算分類(lèi)結(jié)果的方法，在實(shí)驗(yàn)中，概率前5的類(lèi)別中包含正確年齡的準(zhǔn)確率是60%左右，而概率前10的類(lèi)別包含正確年齡的準(zhǔn)確率是90%左右，于是取概率前10的類(lèi)別來(lái)計(jì)算分類(lèi)年齡，即：

(3)

其中：yi是概率前10的年齡標(biāo)簽；pi是對(duì)應(yīng)的概率值。圖2展示了按照概率排名的分類(lèi)方法。

圖2 分類(lèi)模型

1.3 回歸模型

CNN原本是用于分類(lèi)問(wèn)題，為了處理回歸問(wèn)題，文獻(xiàn)[7,9]將訓(xùn)練好的CNN用于提取特征，再訓(xùn)練SVR或者RF模型，但是這樣做沒(méi)有實(shí)現(xiàn)端到端學(xué)習(xí)。如果使用原始年齡標(biāo)簽來(lái)訓(xùn)練網(wǎng)絡(luò)，網(wǎng)絡(luò)會(huì)因?yàn)槌叨炔黄胶舛鴮?dǎo)致梯度爆炸問(wèn)題[10]，因此，原始的CNN最后一層只有一維輸出，為了能使網(wǎng)絡(luò)能正常訓(xùn)練，在一維輸出后再加上一個(gè)Sigmoid層用于歸一化輸出值。同時(shí)，所有訓(xùn)練樣本的年齡標(biāo)簽也必須事先歸一化以對(duì)應(yīng)輸出值，由于回歸模型估計(jì)20至60歲年齡段，所以歸一化時(shí)下限取20而上限取60?；貧w模型對(duì)網(wǎng)絡(luò)輸出的改動(dòng)如圖3所示。

圖3 回歸模型

訓(xùn)練回歸網(wǎng)絡(luò)需要使用歐氏損失函數(shù)(EuclideanLoss)，即：

(4)

1.4 預(yù)訓(xùn)練

在年齡估計(jì)領(lǐng)域，缺少有年齡標(biāo)注的人臉數(shù)據(jù)集，并且現(xiàn)有的數(shù)據(jù)集在各個(gè)年齡段分布不均勻，主要是缺乏青少年和老年人的樣本。然而CNN容易因?yàn)橛?xùn)練數(shù)據(jù)集過(guò)小而過(guò)擬合，導(dǎo)致模型性能變差，因此，本文綜合運(yùn)用遷移人臉識(shí)別模型、使用粗糙數(shù)據(jù)集預(yù)訓(xùn)練的方法。

人臉識(shí)別不同于人臉年齡估計(jì)，但是兩者有很大的相關(guān)性，遷移現(xiàn)有模型可以充分利用其對(duì)人臉特征的提取能力。本文采用VGG-Face[5]模型，它的結(jié)構(gòu)如圖4所示。

本文從互聯(lián)網(wǎng)上收集了額外的數(shù)據(jù)集來(lái)彌補(bǔ)有年齡標(biāo)注的人臉圖像稀少的問(wèn)題，主要包括IMDB-Wiki數(shù)據(jù)庫(kù)[12]和CACD2000數(shù)據(jù)庫(kù)[13]。這些數(shù)據(jù)庫(kù)大多通過(guò)搜索引擎、社交網(wǎng)站和新聞媒體等手段獲取人臉圖像，然而這些數(shù)據(jù)庫(kù)包含了眾多的錯(cuò)誤年齡標(biāo)注、人物身份不匹配和藝術(shù)畫(huà)作等干擾樣本，本文篩選出了一個(gè)包含40萬(wàn)左右樣本的粗糙數(shù)據(jù)集。該數(shù)據(jù)集的年齡分布范圍為0至100歲，包含了不同種族、不同性別的樣本。

圖4 VGG- 16網(wǎng)絡(luò)結(jié)構(gòu)

在訓(xùn)練網(wǎng)絡(luò)時(shí)，先使用VGG-Face模型的權(quán)重來(lái)初始化網(wǎng)絡(luò)，然后在粗糙數(shù)據(jù)集上預(yù)訓(xùn)練，實(shí)驗(yàn)部分的模型均基于預(yù)訓(xùn)練模型微調(diào)得來(lái)。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)集

當(dāng)前人臉年齡估計(jì)領(lǐng)域的基準(zhǔn)數(shù)據(jù)集有Morph數(shù)據(jù)庫(kù)[14]和FG-NET數(shù)據(jù)庫(kù)[15]。Morph數(shù)據(jù)庫(kù)包含了55 134張彩色的人臉圖像，這些圖像大部分是黑人和白人，也含有少部分黃種人，年齡范圍是16到77歲。FG-NET數(shù)據(jù)庫(kù)包含了1 002張彩色或者黑白的人臉圖像，這些圖像來(lái)自82個(gè)人，年齡范圍是0到69歲。

Morph數(shù)據(jù)庫(kù)主要集中在20到30歲的年齡段，缺少60歲以上樣本，甚至沒(méi)有在16歲以下的樣本。而FG-NET數(shù)據(jù)庫(kù)主要集中在青少年，中老年圖像較少。單獨(dú)使用某個(gè)數(shù)據(jù)集都無(wú)法得到完整年齡段的年齡估計(jì)模型，因此融合兩個(gè)數(shù)據(jù)集以補(bǔ)全各個(gè)年齡段。然而，融合后的數(shù)據(jù)集也存在問(wèn)題：黑人和白人的比例約為4∶1；男性和女性的比例約為5∶1；各個(gè)年齡段分布不均勻，樣本主要集中在[20,50)這一區(qū)間，而[0,20)和[50,80]這兩區(qū)間相對(duì)較少。整個(gè)年齡分布狀況如表1。

表1 融合數(shù)據(jù)集年齡分布

2.2 數(shù)據(jù)擴(kuò)增

由于融合數(shù)據(jù)集的樣本數(shù)量較少，仍然難以滿足VGG網(wǎng)絡(luò)訓(xùn)練的需要，所以為了人工增加訓(xùn)練樣本，本文參考了文獻(xiàn)[4-12]的數(shù)據(jù)擴(kuò)增方法，采用如下圖像預(yù)處理手段：

1)裁剪和鏡像。每張圖像先調(diào)整大小至256×256，再?gòu)乃膫€(gè)角和正中間裁剪出5張224×224的樣本，裁剪后的圖片取正反水平鏡像，這樣一張圖像就得到了10張樣本。

2)亮度變化。將每張樣本的亮度變?yōu)?.8至1.0之間的一個(gè)隨機(jī)值(1.0為原圖的亮度，0.0為全黑暗)。

3)旋轉(zhuǎn)。將每張樣本順時(shí)針旋轉(zhuǎn)0°至10°之間的一個(gè)隨機(jī)值。

在測(cè)試階段，對(duì)于每張測(cè)試樣本，經(jīng)過(guò)1)～3)中圖像預(yù)處理后得到10張樣本再輸入模型，最終的年齡估計(jì)值是這10個(gè)預(yù)測(cè)值的平均值。

2.3 訓(xùn)練參數(shù)設(shè)置

實(shí)驗(yàn)中的CNN模型都使用Caffe[16]框架實(shí)現(xiàn)。硬件平臺(tái)為GTX1060顯卡，6 GB顯存。

在預(yù)訓(xùn)練階段，設(shè)置初始學(xué)習(xí)率為0.01，動(dòng)量值0.95，權(quán)重衰減系數(shù)0.000 5。為了加速收斂，將后3層全連接層的學(xué)習(xí)率設(shè)為全局的5倍。

在微調(diào)階段，設(shè)置初始學(xué)習(xí)率為0.001，每迭代6 000次將學(xué)習(xí)率降為原來(lái)的1/10。

2.4 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

年齡估計(jì)領(lǐng)域主要使用的評(píng)價(jià)指標(biāo)是平均絕對(duì)誤差(Mean Absolute Error, MAE)，即：

(5)

2.5 實(shí)驗(yàn)1

參考Yi等[8]的實(shí)驗(yàn)數(shù)據(jù)集劃分方式，本文分別隨機(jī)選取了黑人男性、黑人女性、白人男性和白人女性這4個(gè)子類(lèi)各2 000張圖像，每個(gè)子類(lèi)按照3∶1的比例劃分訓(xùn)練集和測(cè)試集，然后將4個(gè)小訓(xùn)練集合并為大訓(xùn)練集共6 000張樣本。最后用大訓(xùn)練集來(lái)訓(xùn)練混合年齡估計(jì)模型，再分別在4個(gè)小測(cè)試集上進(jìn)行測(cè)試。

從表2所列的實(shí)驗(yàn)結(jié)果可以看出，混合年齡估計(jì)模型在4種測(cè)試集上均得到了相近的結(jié)果，MAE相差不超過(guò)0.5，在整個(gè)測(cè)試集上的平均MAE為2.65。這表明，本文提出的混合年齡估計(jì)模型受黑白不同人種、不同性別的影響較小。

表2 不同測(cè)試集上的MAE結(jié)果比較

2.6 實(shí)驗(yàn)2

參考Liu等[17]的實(shí)驗(yàn)數(shù)據(jù)集劃分方式，從融合數(shù)據(jù)集中隨機(jī)抽取10%的樣本作為測(cè)試集，剩余樣本作為訓(xùn)練集。分別采用如下三種年齡估計(jì)模式進(jìn)行實(shí)驗(yàn)：在全年齡范圍內(nèi)單獨(dú)使用回歸；在全年齡范圍內(nèi)單獨(dú)使用分類(lèi)；本文提出的先判別年齡段，再分別使用回歸和分類(lèi)的方法。以上3種方法的MAE結(jié)果依次為3.10，2.93和2.56，這表明本文提出的區(qū)分年齡段的混合模型，相比單一的回歸或分類(lèi)方法，有著更低的誤差。

表3對(duì)比了近年來(lái)比較有代表性的參考文獻(xiàn)和本文方法的實(shí)驗(yàn)結(jié)果。相比文獻(xiàn)[3]基于人工設(shè)計(jì)的特征，本文基于深度學(xué)習(xí)的方法更有通用性，也更有效；相比文獻(xiàn)[8]利用卷積神經(jīng)網(wǎng)絡(luò)提取人臉不同部位特征的方法，本文方法不需要事先檢測(cè)人臉關(guān)鍵點(diǎn)，減少了預(yù)處理步驟；相比文獻(xiàn)[17,19]同樣采用VGG網(wǎng)絡(luò)學(xué)習(xí)特征的方法，本文方法得益于粗糙數(shù)據(jù)集的預(yù)訓(xùn)練，誤差有明顯降低。

表3 不同方法的MAE結(jié)果比較

3 結(jié)語(yǔ)

本文提出了一種基于分類(lèi)與回歸混合模型的人臉年齡估計(jì)方法。在特征學(xué)習(xí)方面，該方法基于已有的深度卷積神經(jīng)網(wǎng)絡(luò)，先在粗糙年齡標(biāo)注數(shù)據(jù)集上預(yù)訓(xùn)練，再在現(xiàn)有的精確年齡標(biāo)注數(shù)據(jù)庫(kù)上微調(diào)，分別得到用于年齡段判別、年齡分類(lèi)和回歸的3個(gè)模型；在估計(jì)方法方面，先將人臉?lè)秩?個(gè)不同的年齡段，再分別使用分類(lèi)和回歸模型來(lái)估計(jì)年齡。實(shí)驗(yàn)結(jié)果表明該方法的估計(jì)誤差較低，且受不同人種、性別的影響較小。由于當(dāng)前人臉年齡數(shù)據(jù)庫(kù)只包含單一背景的頭像，下一步的工作是研究非限制性背景、多種姿態(tài)條件下的人臉年齡估計(jì)問(wèn)題。

References)

[1] 王先梅,梁玲燕,王志良,等.人臉圖像的年齡估計(jì)技術(shù)研究[J].中國(guó)圖象圖形學(xué)報(bào),2012,17(6):603-618.(WANG X M, LIANG L Y, WANG Z L, et al. Age estimation by facial image: a survey [J]. Journal of Image and Graphics, 2012, 17(6): 603-619.)

[2] 余棉水,朱岸青,解曉萌.基于局部定向模式的人臉年齡估計(jì)[J].科學(xué)技術(shù)與工程,2014,14(3):76-80.(YU M S, ZHU A Q, XIE X M. Age estimation of facial images based on local direction pattern [J]. Science Technology and Engineering, 2014, 14(3): 76-80.)

[3] 林時(shí)苗,毛曉蛟,楊育彬.基于人臉圖像的年齡估計(jì)[J].計(jì)算機(jī)科學(xué),2015,42(6):32-36. (LIN S M, MAO X J, YANG Y B. Age estimation based on facial image [J]. Computer Science, 2015, 42(6): 32-36.)

[4] 黃斌,盧金金,王建華,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法[J].計(jì)算機(jī)應(yīng)用,2016,36(12):3333-3340. (HUANG B, LU J J, WANG J H, et al. Object recognition algorithm based on deep convolutional neural networks [J]. Journal of Computer Applications, 2016, 36(12): 3333-3340.)

[5] PARKHI O M, VEDALDI A, ZISSERMAN A. Deep face recognition [C]// Proceedings of the 2015 British Machine Vision Conference. London: BMVA Press, 2015: 41.1-41.12.

[6] WANG X, GUO R, KAMBHAMETTU C. Deeply-learned feature for age estimation [C]// Proceedings of the 2015 IEEE Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE, 2015: 534-541.

[7] LEVI G, HASSNER T. Age and gender classification using convolutional neural networks [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2015: 34-42.

[8] YI D, LEI Z, LI S Z. Age estimation by multi-scale convolutional network [C]// Proceedings of the 2014 Asian Conference on Computer Vision. Berlin: Springer, 2014: 144-158.

[9] ZHU Y, LI Y, MU G, et al. A study on apparent age estimation [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE, 2015: 25-31.

[10] LIU X, LI S, KAN M, et al. AgeNet: deeply learned regressor and classifier for robust apparent age estimation [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE, 2015: 16-24.

[11] ANTIPOV G, BACCOUCHE M, BERRANI S A, et al. Apparent age estimation from face images combining general and children specialized deep learning models [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2016: 801-809.

[12] ROTHE R, TIMOFTE R, VAN GOOL L. DEX: Deep EXpectation of apparent age from a single image [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE, 2015: 10-15.

[13] CHEN B C, CHEN C S, HSU W H. Cross-age reference coding for age-invariant face recognition and retrieval [C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin: Springer, 2014: 768-783.

[14] RICANEK K, TESAFAYE T. Morph: a longitudinal image database of normal adult age-progression [C]// Proceedings of the 2006 International Conference on Automatic Face and Gesture Recognition. Piscataway, NJ: IEEE, 2006: 341-345.

[15] LANITIS A, TAYLOR C J, COOTES T F. Modeling the process of aging in face images [C]// Proceedings of the 1999 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 1999: 131-136.

[16] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [C]// Proceedings of the 2014 ACM International Conference on Multimedia. New York: ACM, 2014: 675-678.

[17] LIU H, LU J, FENG J, et al. Group-aware deep feature learning for facial age estimation [J]. Pattern Recognition, 2016, 2(4): 101-112.

[18] YANG H F, LIN B Y, CHANG K Y, et al. Automatic age estimation from face images via deep ranking [J]. Networks, 2013, 35(8): 1872-1886.

[19] ROTHE R, TIMOFTE R, GOOL L V. Some like it hot-visual guidance for preference prediction [J]. Computer Science, 2015, 6(1): 5553-5561.

This work is partially supported by the National Nature Science Foundation of China (61374104, 61573154).

ZHAOYiding, born in 1993, M. S. candidate. His research interests include deep learning, machine learning.

TIANSenping, born in 1961, Ph. D., professor. His research interests include pattern recognition, control theory.

Facialageestimationmethodbasedonhybridmodelofclassificationandregression

ZHAO Yiding*, TIAN Senping

(SchoolofAutomationScienceandEngineering,SouthChinaUniversityofTechnology,GuangzhouGuangdong510641,China)

Focusing on small size and uneven distribution of current facial age database, an approach based on a hybrid model combined with classifier and regressor was proposed for facial age estimation. This approach mainly consisted of two aspects: feature learning and estimation method. In the aspect of feature learning, based on an existing Convolutional Neural Network (CNN), an age group classifier and two age estimators were pretrained on the coarse dataset and then fine tuned on the accurate database. In the aspect of estimation method, a coarse-to-fine strategy was adopted. First, a facial images were classified into teenaged, middled-aged, elderly and two overlap groups. Next, the teenaged and elderly groups were estimated by the classifier model, the middled-aged group was estimated by the regressor model, and the two overlap groups were estimated by both models. The proposed approach can achieve a Mean Absolute Error (MAE) of 2.56 on the test set. The experimental results show that the proposed approach can reach a low error under different races and genders.

facial age estimation; deep learning; Convolutional Neural Network (CNN); classification; regression; hybrid model

TP391.413; TP18

2016- 12- 27;

:2017- 02- 13。

國(guó)家自然科學(xué)基金資助項(xiàng)目(61374104, 61573154)。

趙一丁(1993—)，男，廣西柳州人，碩士研究生，主要研究方向：深度學(xué)習(xí)、機(jī)器學(xué)習(xí)；田森平(1961—)，男，湖北鄂州人，教授，博士，主要研究方向：模式識(shí)別、控制理論。

1001- 9081(2017)07- 1999- 04

10.11772/j.issn.1001- 9081.2017.07.1999