趙一丁,田森平
(華南理工大學(xué) 自動化科學(xué)與工程學(xué)院,廣州 510641) (*通信作者電子郵箱18810661246@163.com)
基于分類與回歸混合模型的人臉年齡估計方法
趙一丁*,田森平
(華南理工大學(xué) 自動化科學(xué)與工程學(xué)院,廣州 510641) (*通信作者電子郵箱18810661246@163.com)
針對現(xiàn)有人臉年齡數(shù)據(jù)庫樣本數(shù)量少、各年齡段分布不均勻的問題,提出了一種基于分類與回歸混合模型的人臉年齡估計方法。該方法主要包含兩個方面:特征學(xué)習和估計模式。在特征學(xué)習方面,利用已有的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),先在粗糙年齡標注數(shù)據(jù)集上預(yù)訓(xùn)練,再在現(xiàn)有的精確年齡標注數(shù)據(jù)庫上微調(diào),分別得到一個年齡段判別模型和兩個年齡估計模型;在估計模式方面,該方法采用由粗到細的策略:首先,將人臉分入青少年、中年、老年和兩個重疊區(qū)域這五個年齡段;然后,對于青少年和老年采用分類模型估計,對于中年采用回歸模型估計,對于重疊區(qū)域采用兩個模型估計的均值。所提方法在測試集上的平均絕對誤差(MAE)為2.56。實驗結(jié)果表明該方法受不同膚色和性別的影響較小,有較低的誤差。
人臉年齡估計;深度學(xué)習;卷積神經(jīng)網(wǎng)絡(luò);分類;回歸;混合模型
人臉承載了許多重要的個人信息,包括身份、性別、年齡、情緒和健康狀況等。年齡估計作為新興的生物特征識別技術(shù),有著廣泛的潛在應(yīng)用:限制未成年人購買煙酒、槍械、危險化學(xué)品和特殊藥品等;智能人機交互系統(tǒng)可以根據(jù)交流對象的年齡段改變用詞;網(wǎng)絡(luò)應(yīng)用中可以根據(jù)用戶年齡段提供個性化營銷;執(zhí)法人員根據(jù)監(jiān)控視頻中的嫌疑人年齡段縮小搜索范圍[1]?;谌四槇D像的年齡估計技術(shù)仍然是極具挑戰(zhàn)性的問題,這主要包含以下三點原因:1)不同個體的年齡變化模式差異較大。從內(nèi)因來看,不同人種、不同性別的年齡變化過程有較大區(qū)別;從外因來看,不同生活方式、不同生活環(huán)境也對衰老過程有一定影響。2)缺乏足夠的有年齡標注的數(shù)據(jù)集,年齡變化是不可逆的過程,人臉圖像數(shù)據(jù)采集困難。3)現(xiàn)有的人臉圖像包含了很多其他干擾信息,如:人臉表情、姿態(tài)和臉部遮蔽等[2-3]。這些原因都會影響年齡估計方法的精度。
傳統(tǒng)的年齡估計方法通常分為兩個部分:特征提取和估計方法。余棉水等[2]采用局部定向模式(Local Direction Pattern, LDP)和Gabor小波變換分別提取人臉的全局和局部特征,經(jīng)過特征融合后再使用主成分分析法(Principal Component Analysis, PCA)進行降維,最后利用支持向量回歸(Support Vector Regression, SVR)模型進行年齡估計;但是該方法只提取了臉部皺紋這一局部特征,皺紋不能充分反映年齡的變化。林時苗等[3]引入了方向梯度直方圖(Histogram of Oriented Gradients, HOG)特征,將其與局部二元模式(Local Binary Pattern, LBP)特征進行融合,并提出了軟雙層估計模型,第一層區(qū)分“未成年人”和“成年人”兩類,第二層在兩類的邊界設(shè)置重疊區(qū)域,對第一層的錯誤進行補救;但是該方法在特征提取階段對人臉的每個局部區(qū)域都賦予了相同的權(quán)重,然而人臉各個部分隨年齡的變化程度是不同的。
上述傳統(tǒng)方法采用人工設(shè)計的特征描述子來提取人臉特征,然后將年齡估計問題當作分類或者回歸問題來處理。然而,設(shè)計人工特征需要特定領(lǐng)域的先驗知識,而且這些特征也難以充分反映人臉年齡的變化過程[4]。近年來以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)為代表的深度學(xué)習技術(shù)被廣泛應(yīng)用于物體識別和人臉識別等領(lǐng)域,并在很多基準數(shù)據(jù)集上均取得了前所未有的成果[4-5],因此,為了獲得更能表達年齡信息的特征,本文所使用的分類和回歸模型都基于CNN。CNN的主要優(yōu)點是可以將圖像直接輸入模型而不進行預(yù)處理,它可以自動學(xué)習圖像特征并且具有很強的魯棒性[5-9]。
近年來已經(jīng)有將CNN應(yīng)用于人臉年齡估計問題的成果。Wang等[6]將人臉圖像調(diào)整為60×60的大小后輸入一個6層的CNN,然后提取最后一層全連接層作為特征,再訓(xùn)練SVR模型來估計年齡;然而該方法沒有實現(xiàn)真正意義上的端到端學(xué)習,仍然將特征提取和年齡估計兩階段分開。Levi等[7]構(gòu)建了一個5層的CNN來同時解決年齡估計和性別分類任務(wù),將年齡估計當作分類問題來處理,該方法實現(xiàn)了端到端學(xué)習,也取得了較高精度;但是只能將人臉圖像分入不同年齡段,不能估計出準確年齡。Yi等[8]截取出每張人臉圖像的鼻子、臉頰、額頭和嘴巴等多個不同部位以及整張人臉,針對這些部位分別訓(xùn)練出多個不同尺度的CNN,最終的年齡值為幾個網(wǎng)絡(luò)輸出的均值。該方法充分利用了整張人臉的局部特征和全局特征;但是需要有人臉關(guān)鍵點標注的數(shù)據(jù)集,并且訓(xùn)練多個網(wǎng)絡(luò)過于繁瑣。Zhu等[9]使用了已訓(xùn)練好的VGG(Visual Geometry Group)網(wǎng)絡(luò),先將樣本分入不同的年齡段,提取VGG網(wǎng)絡(luò)最后三層全連接層作為特征,在每個年齡段內(nèi)分別訓(xùn)練SVR模型和隨機森林(Random Forest, RF)回歸模型,SVR和RF的輸出均值為最終的年齡。該方法準確度較高;但是每個年齡段都需要單獨訓(xùn)練SVR和RF模型,導(dǎo)致模型數(shù)量太多流程繁瑣。上述這些方法只采用了單一的分類或者回歸的年齡估計模式,然而年齡變化是動態(tài)的過程,這表現(xiàn)在:人臉隨著年齡的增長,在未成年階段變化差異較大,而在成年階段變化較小,至老年之后變化趨緩乃至停滯,并且在不同階段的邊界附近又是一個緩慢的過程,存在年齡段邊界模糊的問題,因此,將二者有機融合可以有效提高年齡估計的精度[1,3]。所以,本文提出了一種由粗到細的策略:先將人臉分入不同年齡段,再分別使用分類和回歸模型來估計年齡。
另外,傳統(tǒng)的基于分類模式的年齡估計把年齡值分成了若干個類別,沒有考慮到不同年齡之間的相互關(guān)系,因此損失了很多重要的信息[1]。對于CNN分類模型的改進辦法有:Liu等[10]提出了使用符合高斯分布的編碼方式來表示年齡標簽,取代了傳統(tǒng)的獨熱編碼方式,該方法利用了相鄰年齡的相關(guān)信息,但是這種年齡編碼方式較復(fù)雜不利于計算,因此,本文提出基于概率排名的分類輸出計算方法,即選取概率最高的前10個年齡標簽,和相應(yīng)的概率值相乘得到分類結(jié)果,該方法計算更簡單。
本文的主要工作如下:
1)提出一種基于分類和回歸混合模型的人臉年齡估計方法,并對其中的分類模型提出基于概率排名的輸出結(jié)果計算方法。
2)使用粗糙年齡標注的數(shù)據(jù)集對深度卷積神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練,然后在精確年齡標注數(shù)據(jù)集上微調(diào)。
1.1 總體流程
人臉隨年齡的變化主要分為3個階段:青少年、中年和老年,并且在不同階段之間存在重疊區(qū)域,這些重疊區(qū)兼有相鄰階段的特點。青少年人臉變化快,更適合分類估計;中年人臉變化慢,更適合回歸估計;由于老年人臉的數(shù)據(jù)量稀少,分類模型比回歸模型的誤差更低[1,3,11]。
本文采用由粗到細的策略來估計年齡:首先,將人臉分入青少年[0,20)、重疊區(qū)一[20,30)、中年[30,50)、重疊區(qū)二[50,60)、老年[60,80]這5個年齡段,為此需要單獨訓(xùn)練一個年齡段分類模型。然后,為了進一步估計準確的年齡,對于青少年或老年段的樣本使用分類模型估計,對于中年段的樣本使用回歸模型估計,對于兩個重疊區(qū)的樣本使用兩個模型估計的均值。這3個模型都基于CNN,由于CNN的接受域是固定的,圖像需要調(diào)整至統(tǒng)一大小后再輸入網(wǎng)絡(luò)。整個年齡估計流程如圖1所示。
圖1 年齡估計流程
1.2 分類模型
如果將不同的年齡當作離散的類別,就可以把年齡估計當作分類問題來處理。CNN輸出層采用的是Softmax分類器,由于要預(yù)測的年齡為0至80歲,所以Softmax分類器有81個輸出,分別對應(yīng)一張樣本屬于各個年齡的預(yù)測得分,假設(shè)有一個訓(xùn)練集{(x(1),y(1)),(x(2),y(2)),…,(x(N),y(N))},其中:x(i)表示全連接層的輸出特征向量;y(i)是這個樣本的真實年齡,值為{0,1,…,80}中的一個;N是一批訓(xùn)練樣本的數(shù)量。前向傳播之后,對于單個訓(xùn)練樣本,Softmax分類器的輸出可以表示為:
(1)
其中:wi是全連接層中的神經(jīng)元與Softmax分類器第i個輸出神經(jīng)元相連接的權(quán)重參數(shù);hw(x(i))是一個概率向量,向量中的各項之和為1,每一項代表該樣本屬于對應(yīng)類別的概率值,取概率最大的那個類別作為Softmax的分類結(jié)果。用Softmax分類器時,損失函數(shù)一般采用交叉熵,即:
J(W,b)=
(2)
其中:1{y(i)=j}表示當?shù)趇個訓(xùn)練數(shù)據(jù)的類別屬于第j類時輸出為1。
然而,這種分類方法沒有充分利用相鄰年齡之間的相關(guān)性,例如:對于標簽是24歲的樣本,估計值是26和估計值是28這兩種情況下的損失函數(shù)值一樣,但實際上估計值是26這種情況更接近于真實年齡24。這導(dǎo)致依靠最大概率的分類網(wǎng)絡(luò)在預(yù)測年齡的時候準確率較低,因此,本文提出一種依靠概率排名來計算分類結(jié)果的方法,在實驗中,概率前5的類別中包含正確年齡的準確率是60%左右,而概率前10的類別包含正確年齡的準確率是90%左右,于是取概率前10的類別來計算分類年齡,即:
(3)
其中:yi是概率前10的年齡標簽;pi是對應(yīng)的概率值。圖2展示了按照概率排名的分類方法。
圖2 分類模型
1.3 回歸模型
CNN原本是用于分類問題,為了處理回歸問題,文獻[7,9]將訓(xùn)練好的CNN用于提取特征,再訓(xùn)練SVR或者RF模型,但是這樣做沒有實現(xiàn)端到端學(xué)習。如果使用原始年齡標簽來訓(xùn)練網(wǎng)絡(luò),網(wǎng)絡(luò)會因為尺度不平衡而導(dǎo)致梯度爆炸問題[10],因此,原始的CNN最后一層只有一維輸出,為了能使網(wǎng)絡(luò)能正常訓(xùn)練,在一維輸出后再加上一個Sigmoid層用于歸一化輸出值。同時,所有訓(xùn)練樣本的年齡標簽也必須事先歸一化以對應(yīng)輸出值,由于回歸模型估計20至60歲年齡段,所以歸一化時下限取20而上限取60?;貧w模型對網(wǎng)絡(luò)輸出的改動如圖3所示。
圖3 回歸模型
訓(xùn)練回歸網(wǎng)絡(luò)需要使用歐氏損失函數(shù)(EuclideanLoss),即:
(4)
1.4 預(yù)訓(xùn)練
在年齡估計領(lǐng)域,缺少有年齡標注的人臉數(shù)據(jù)集,并且現(xiàn)有的數(shù)據(jù)集在各個年齡段分布不均勻,主要是缺乏青少年和老年人的樣本。然而CNN容易因為訓(xùn)練數(shù)據(jù)集過小而過擬合,導(dǎo)致模型性能變差,因此,本文綜合運用遷移人臉識別模型、使用粗糙數(shù)據(jù)集預(yù)訓(xùn)練的方法。
人臉識別不同于人臉年齡估計,但是兩者有很大的相關(guān)性,遷移現(xiàn)有模型可以充分利用其對人臉特征的提取能力。本文采用VGG-Face[5]模型,它的結(jié)構(gòu)如圖4所示。
本文從互聯(lián)網(wǎng)上收集了額外的數(shù)據(jù)集來彌補有年齡標注的人臉圖像稀少的問題,主要包括IMDB-Wiki數(shù)據(jù)庫[12]和CACD2000數(shù)據(jù)庫[13]。這些數(shù)據(jù)庫大多通過搜索引擎、社交網(wǎng)站和新聞媒體等手段獲取人臉圖像,然而這些數(shù)據(jù)庫包含了眾多的錯誤年齡標注、人物身份不匹配和藝術(shù)畫作等干擾樣本,本文篩選出了一個包含40萬左右樣本的粗糙數(shù)據(jù)集。該數(shù)據(jù)集的年齡分布范圍為0至100歲,包含了不同種族、不同性別的樣本。
圖4 VGG- 16網(wǎng)絡(luò)結(jié)構(gòu)
在訓(xùn)練網(wǎng)絡(luò)時,先使用VGG-Face模型的權(quán)重來初始化網(wǎng)絡(luò),然后在粗糙數(shù)據(jù)集上預(yù)訓(xùn)練,實驗部分的模型均基于預(yù)訓(xùn)練模型微調(diào)得來。
2.1 實驗數(shù)據(jù)集
當前人臉年齡估計領(lǐng)域的基準數(shù)據(jù)集有Morph數(shù)據(jù)庫[14]和FG-NET數(shù)據(jù)庫[15]。Morph數(shù)據(jù)庫包含了55 134張彩色的人臉圖像,這些圖像大部分是黑人和白人,也含有少部分黃種人,年齡范圍是16到77歲。FG-NET數(shù)據(jù)庫包含了1 002張彩色或者黑白的人臉圖像,這些圖像來自82個人,年齡范圍是0到69歲。
Morph數(shù)據(jù)庫主要集中在20到30歲的年齡段,缺少60歲以上樣本,甚至沒有在16歲以下的樣本。而FG-NET數(shù)據(jù)庫主要集中在青少年,中老年圖像較少。單獨使用某個數(shù)據(jù)集都無法得到完整年齡段的年齡估計模型,因此融合兩個數(shù)據(jù)集以補全各個年齡段。然而,融合后的數(shù)據(jù)集也存在問題:黑人和白人的比例約為4∶1;男性和女性的比例約為5∶1;各個年齡段分布不均勻,樣本主要集中在[20,50)這一區(qū)間,而[0,20)和[50,80]這兩區(qū)間相對較少。整個年齡分布狀況如表1。
表1 融合數(shù)據(jù)集年齡分布
2.2 數(shù)據(jù)擴增
由于融合數(shù)據(jù)集的樣本數(shù)量較少,仍然難以滿足VGG網(wǎng)絡(luò)訓(xùn)練的需要,所以為了人工增加訓(xùn)練樣本,本文參考了文獻[4-12]的數(shù)據(jù)擴增方法,采用如下圖像預(yù)處理手段:
1)裁剪和鏡像。每張圖像先調(diào)整大小至256×256,再從四個角和正中間裁剪出5張224×224的樣本,裁剪后的圖片取正反水平鏡像,這樣一張圖像就得到了10張樣本。
2)亮度變化。將每張樣本的亮度變?yōu)?.8至1.0之間的一個隨機值(1.0為原圖的亮度,0.0為全黑暗)。
3)旋轉(zhuǎn)。將每張樣本順時針旋轉(zhuǎn)0°至10°之間的一個隨機值。
在測試階段,對于每張測試樣本,經(jīng)過1)~3)中圖像預(yù)處理后得到10張樣本再輸入模型,最終的年齡估計值是這10個預(yù)測值的平均值。
2.3 訓(xùn)練參數(shù)設(shè)置
實驗中的CNN模型都使用Caffe[16]框架實現(xiàn)。硬件平臺為GTX1060顯卡,6 GB顯存。
在預(yù)訓(xùn)練階段,設(shè)置初始學(xué)習率為0.01,動量值0.95,權(quán)重衰減系數(shù)0.000 5。為了加速收斂,將后3層全連接層的學(xué)習率設(shè)為全局的5倍。
在微調(diào)階段,設(shè)置初始學(xué)習率為0.001,每迭代6 000次將學(xué)習率降為原來的1/10。
2.4 實驗評價指標
年齡估計領(lǐng)域主要使用的評價指標是平均絕對誤差(Mean Absolute Error, MAE),即:
(5)
2.5 實驗1
參考Yi等[8]的實驗數(shù)據(jù)集劃分方式,本文分別隨機選取了黑人男性、黑人女性、白人男性和白人女性這4個子類各2 000張圖像,每個子類按照3∶1的比例劃分訓(xùn)練集和測試集,然后將4個小訓(xùn)練集合并為大訓(xùn)練集共6 000張樣本。最后用大訓(xùn)練集來訓(xùn)練混合年齡估計模型,再分別在4個小測試集上進行測試。
從表2所列的實驗結(jié)果可以看出,混合年齡估計模型在4種測試集上均得到了相近的結(jié)果,MAE相差不超過0.5,在整個測試集上的平均MAE為2.65。這表明,本文提出的混合年齡估計模型受黑白不同人種、不同性別的影響較小。
表2 不同測試集上的MAE結(jié)果比較
2.6 實驗2
參考Liu等[17]的實驗數(shù)據(jù)集劃分方式,從融合數(shù)據(jù)集中隨機抽取10%的樣本作為測試集,剩余樣本作為訓(xùn)練集。分別采用如下三種年齡估計模式進行實驗:在全年齡范圍內(nèi)單獨使用回歸;在全年齡范圍內(nèi)單獨使用分類;本文提出的先判別年齡段,再分別使用回歸和分類的方法。以上3種方法的MAE結(jié)果依次為3.10,2.93和2.56,這表明本文提出的區(qū)分年齡段的混合模型,相比單一的回歸或分類方法,有著更低的誤差。
表3對比了近年來比較有代表性的參考文獻和本文方法的實驗結(jié)果。相比文獻[3]基于人工設(shè)計的特征,本文基于深度學(xué)習的方法更有通用性,也更有效;相比文獻[8]利用卷積神經(jīng)網(wǎng)絡(luò)提取人臉不同部位特征的方法,本文方法不需要事先檢測人臉關(guān)鍵點,減少了預(yù)處理步驟;相比文獻[17,19]同樣采用VGG網(wǎng)絡(luò)學(xué)習特征的方法,本文方法得益于粗糙數(shù)據(jù)集的預(yù)訓(xùn)練,誤差有明顯降低。
表3 不同方法的MAE結(jié)果比較
本文提出了一種基于分類與回歸混合模型的人臉年齡估計方法。在特征學(xué)習方面,該方法基于已有的深度卷積神經(jīng)網(wǎng)絡(luò),先在粗糙年齡標注數(shù)據(jù)集上預(yù)訓(xùn)練,再在現(xiàn)有的精確年齡標注數(shù)據(jù)庫上微調(diào),分別得到用于年齡段判別、年齡分類和回歸的3個模型;在估計方法方面,先將人臉分入5個不同的年齡段,再分別使用分類和回歸模型來估計年齡。實驗結(jié)果表明該方法的估計誤差較低,且受不同人種、性別的影響較小。由于當前人臉年齡數(shù)據(jù)庫只包含單一背景的頭像,下一步的工作是研究非限制性背景、多種姿態(tài)條件下的人臉年齡估計問題。
References)
[1] 王先梅,梁玲燕,王志良,等.人臉圖像的年齡估計技術(shù)研究[J].中國圖象圖形學(xué)報,2012,17(6):603-618.(WANG X M, LIANG L Y, WANG Z L, et al. Age estimation by facial image: a survey [J]. Journal of Image and Graphics, 2012, 17(6): 603-619.)
[2] 余棉水,朱岸青,解曉萌.基于局部定向模式的人臉年齡估計[J].科學(xué)技術(shù)與工程,2014,14(3):76-80.(YU M S, ZHU A Q, XIE X M. Age estimation of facial images based on local direction pattern [J]. Science Technology and Engineering, 2014, 14(3): 76-80.)
[3] 林時苗,毛曉蛟,楊育彬.基于人臉圖像的年齡估計[J].計算機科學(xué),2015,42(6):32-36. (LIN S M, MAO X J, YANG Y B. Age estimation based on facial image [J]. Computer Science, 2015, 42(6): 32-36.)
[4] 黃斌,盧金金,王建華,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法[J].計算機應(yīng)用,2016,36(12):3333-3340. (HUANG B, LU J J, WANG J H, et al. Object recognition algorithm based on deep convolutional neural networks [J]. Journal of Computer Applications, 2016, 36(12): 3333-3340.)
[5] PARKHI O M, VEDALDI A, ZISSERMAN A. Deep face recognition [C]// Proceedings of the 2015 British Machine Vision Conference. London: BMVA Press, 2015: 41.1-41.12.
[6] WANG X, GUO R, KAMBHAMETTU C. Deeply-learned feature for age estimation [C]// Proceedings of the 2015 IEEE Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE, 2015: 534-541.
[7] LEVI G, HASSNER T. Age and gender classification using convolutional neural networks [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2015: 34-42.
[8] YI D, LEI Z, LI S Z. Age estimation by multi-scale convolutional network [C]// Proceedings of the 2014 Asian Conference on Computer Vision. Berlin: Springer, 2014: 144-158.
[9] ZHU Y, LI Y, MU G, et al. A study on apparent age estimation [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE, 2015: 25-31.
[10] LIU X, LI S, KAN M, et al. AgeNet: deeply learned regressor and classifier for robust apparent age estimation [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE, 2015: 16-24.
[11] ANTIPOV G, BACCOUCHE M, BERRANI S A, et al. Apparent age estimation from face images combining general and children specialized deep learning models [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2016: 801-809.
[12] ROTHE R, TIMOFTE R, VAN GOOL L. DEX: Deep EXpectation of apparent age from a single image [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE, 2015: 10-15.
[13] CHEN B C, CHEN C S, HSU W H. Cross-age reference coding for age-invariant face recognition and retrieval [C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin: Springer, 2014: 768-783.
[14] RICANEK K, TESAFAYE T. Morph: a longitudinal image database of normal adult age-progression [C]// Proceedings of the 2006 International Conference on Automatic Face and Gesture Recognition. Piscataway, NJ: IEEE, 2006: 341-345.
[15] LANITIS A, TAYLOR C J, COOTES T F. Modeling the process of aging in face images [C]// Proceedings of the 1999 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 1999: 131-136.
[16] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [C]// Proceedings of the 2014 ACM International Conference on Multimedia. New York: ACM, 2014: 675-678.
[17] LIU H, LU J, FENG J, et al. Group-aware deep feature learning for facial age estimation [J]. Pattern Recognition, 2016, 2(4): 101-112.
[18] YANG H F, LIN B Y, CHANG K Y, et al. Automatic age estimation from face images via deep ranking [J]. Networks, 2013, 35(8): 1872-1886.
[19] ROTHE R, TIMOFTE R, GOOL L V. Some like it hot-visual guidance for preference prediction [J]. Computer Science, 2015, 6(1): 5553-5561.
This work is partially supported by the National Nature Science Foundation of China (61374104, 61573154).
ZHAOYiding, born in 1993, M. S. candidate. His research interests include deep learning, machine learning.
TIANSenping, born in 1961, Ph. D., professor. His research interests include pattern recognition, control theory.
Facialageestimationmethodbasedonhybridmodelofclassificationandregression
ZHAO Yiding*, TIAN Senping
(SchoolofAutomationScienceandEngineering,SouthChinaUniversityofTechnology,GuangzhouGuangdong510641,China)
Focusing on small size and uneven distribution of current facial age database, an approach based on a hybrid model combined with classifier and regressor was proposed for facial age estimation. This approach mainly consisted of two aspects: feature learning and estimation method. In the aspect of feature learning, based on an existing Convolutional Neural Network (CNN), an age group classifier and two age estimators were pretrained on the coarse dataset and then fine tuned on the accurate database. In the aspect of estimation method, a coarse-to-fine strategy was adopted. First, a facial images were classified into teenaged, middled-aged, elderly and two overlap groups. Next, the teenaged and elderly groups were estimated by the classifier model, the middled-aged group was estimated by the regressor model, and the two overlap groups were estimated by both models. The proposed approach can achieve a Mean Absolute Error (MAE) of 2.56 on the test set. The experimental results show that the proposed approach can reach a low error under different races and genders.
facial age estimation; deep learning; Convolutional Neural Network (CNN); classification; regression; hybrid model
TP391.413; TP18
:A
2016- 12- 27;
:2017- 02- 13。
國家自然科學(xué)基金資助項目(61374104, 61573154)。
趙一丁(1993—),男,廣西柳州人,碩士研究生,主要研究方向:深度學(xué)習、機器學(xué)習; 田森平(1961—),男,湖北鄂州人,教授,博士,主要研究方向:模式識別、控制理論。
1001- 9081(2017)07- 1999- 04
10.11772/j.issn.1001- 9081.2017.07.1999