朱喜梅,李 蕊
基于低分辨率輸入圖像的年齡識(shí)別方法
朱喜梅1,李 蕊2,3
(1. 中原科技學(xué)院文學(xué)與傳媒學(xué)院,河南 鄭州 450046; 2. 南陽理工學(xué)院計(jì)算機(jī)與軟件學(xué)院,河南 南陽 473000; 3. 青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810008)
針對(duì)通常獲取到的人臉圖像,由于分辨率較低會(huì)丟失人臉原本的皺紋等特征信息,從而降低年齡識(shí)別的性能的問題,提出一種基于低分辨率輸入圖像的年齡識(shí)別方法:首先使用條件生成對(duì)抗網(wǎng)絡(luò)(CGAN)對(duì)輸入的低分辨人臉圖像進(jìn)行重構(gòu),再采用深度學(xué)習(xí)方法進(jìn)行年齡識(shí)別。并進(jìn)行了關(guān)于圖像重構(gòu)的對(duì)比實(shí)驗(yàn),然后在不同的人臉圖像數(shù)據(jù)集上進(jìn)行了關(guān)于年齡識(shí)別的結(jié)果對(duì)比。通過與其他深度學(xué)習(xí)方法關(guān)于信噪比、峰值信噪比與平均絕對(duì)誤差的實(shí)驗(yàn)對(duì)比,表明了該方法在圖像重構(gòu)與年齡識(shí)別2方面的有效性。此外,對(duì)該方法的時(shí)間復(fù)雜度進(jìn)行了分析。
低分辨率;年齡識(shí)別;深度學(xué)習(xí);時(shí)間復(fù)雜度
人臉圖像傳達(dá)了重要的生物學(xué)信息,其中包括身份、年齡、性別和表情等各種特征?;谌四槇D像的年齡識(shí)別方法可應(yīng)用于多個(gè)領(lǐng)域,包括商品的需求分析和推薦、公安干警的現(xiàn)勘刑偵等。人臉隨著時(shí)間的推移而老化,且每個(gè)人都會(huì)經(jīng)歷不同的衰老過程,雖然衰老過程各異,但仍可用一般且共通的特征對(duì)其進(jìn)行解釋[1]。由于人臉的衰老是一個(gè)緩慢而復(fù)雜的過程,隨著時(shí)間的推移,會(huì)受到每個(gè)人內(nèi)在和外在因素的影響。另外,由于不同年齡的人衰老的平穩(wěn)性差異較大,使得各年齡段的人臉特征空間又具有差異性。因此,基于人臉圖像的年齡識(shí)別不如身份或性別等其他類型的識(shí)別準(zhǔn)確。一般的年齡識(shí)別算法包括2個(gè)步驟:特征提取和年齡函數(shù)的學(xué)習(xí),特征提取將人臉在衰老過程中的外觀變化轉(zhuǎn)化為用于年齡識(shí)別的特征[2],可分為局部特征和全局特征[3]。前者通常來源于額頭、眼圈、臉頰等明顯顯示年齡相關(guān)特征的部位,而后者通常來源于整張人臉。年齡函數(shù)學(xué)習(xí)的目的是通過提取到的特征來進(jìn)行年齡識(shí)別,通??山榉诸惸P突蚧貧w模型。在分類模型中,假設(shè)類標(biāo)簽是相互獨(dú)立的。然而,由于年齡標(biāo)簽是一個(gè)有序集,具有很強(qiáng)的順序關(guān)系,所以分類模型在近年來很少使用。回歸模型將年齡標(biāo)簽視為實(shí)數(shù)值[4]。然而,每個(gè)人臉都會(huì)因個(gè)體差異而經(jīng)歷不同的衰老過程[5],因此會(huì)產(chǎn)生非平穩(wěn)的隨機(jī)過程。由于在回歸模型中通常會(huì)涉及到學(xué)習(xí)非平穩(wěn)核函數(shù),因而很容易發(fā)生過擬合現(xiàn)象[6]。
近年來,能夠?qū)⑻卣魈崛『湍挲g識(shí)別包含在一體的端到端結(jié)構(gòu)的深度學(xué)習(xí)方法被引入到年齡識(shí)別當(dāng)中。文獻(xiàn)[7]提出了一種標(biāo)簽擴(kuò)展方案,從弱監(jiān)督分類標(biāo)簽中增加正確標(biāo)簽的數(shù)量,以用于年齡估計(jì)。文獻(xiàn)[8]利用基于標(biāo)簽敏感的深度度量學(xué)習(xí)方法,將人臉樣本投影到一個(gè)潛在的公共空間,通過深度殘差網(wǎng)絡(luò)尋找一系列的非線性變換。文獻(xiàn)[9]結(jié)合不同類型的特征提取方法,通過特征和分值的二級(jí)融合實(shí)現(xiàn)對(duì)人臉年齡的精確識(shí)別。文獻(xiàn)[10]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)中的多層特征與一系列年齡相關(guān)的手工特征結(jié)合,從而進(jìn)行年齡識(shí)別。文獻(xiàn)[11]提出了一種新的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即有向無環(huán)CNN,利用CNN不同層的多階段特征進(jìn)行年齡識(shí)別。
如上文獻(xiàn)進(jìn)行的人臉圖像為輸入的年齡識(shí)別方法。然而,當(dāng)使用低質(zhì)量模組的相機(jī)采集圖像,或在距離較遠(yuǎn)的地方獲得人臉圖像時(shí),圖像的分辨率會(huì)降低。此時(shí)人臉的皺紋和紋理會(huì)丟失,從而無法獲得年齡識(shí)別的關(guān)鍵特征[12]。解決低分辨率輸入問題最常用的方法是圖像重構(gòu),將低分辨率圖像重構(gòu)為高分辨率圖像。過去的圖像重構(gòu)方法通常采用雙三次插值、最近鄰插值、基于實(shí)例的方法或基于稀疏編碼的方法。近年來,基于CNN的圖像重構(gòu)技術(shù)被用于場(chǎng)景圖像的清晰化成像[13-14]。文獻(xiàn)[13]利用超分辨率CNN,擴(kuò)充了基于稀疏編碼的方法。該架構(gòu)由特征提取層(由低分辨率圖像生成特征圖),非線性映射層(將特征圖由低分辨率映射為高分辨率)和分辨率重構(gòu)層(從高分辨率特征地圖重建高分辨率圖像)。文獻(xiàn)[14]通過引入生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[15]解決街景圖像的分辨率問題。其使用殘差網(wǎng)絡(luò)[16]中的快捷連接,在分類和構(gòu)造生成器(generator)方面均取得了良好的效果。并將經(jīng)過預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)[17]的卷積核轉(zhuǎn)換成連續(xù)的3×3卷積核以此構(gòu)造鑒別器(discriminator)。此外,利用生成器和鑒別器的交叉熵作為損失函數(shù),提出了一種基于整流線性單元(rectified linear unit,ReLU)的損失函數(shù),以此代替會(huì)引起高頻細(xì)節(jié)損失的像素級(jí)均方誤差損失函數(shù)(mean square error,MSE)。但是由于GAN的模態(tài)崩潰問題(mode collapsing problem)[15],其損失函數(shù)很難收斂,即使實(shí)現(xiàn)了收斂,訓(xùn)練的效果也無法保證。
上述現(xiàn)有的圖像重構(gòu)方法主要集中于提高一般場(chǎng)景圖像的分辨率,很少涉及到低分辨率圖像的年齡識(shí)別,即使有,也只考慮了圖像中出現(xiàn)的光學(xué)模糊或運(yùn)動(dòng)模糊問題[18-20],并未考慮到低分辨率下的年齡識(shí)別問題。為了更好地解決該問題,本文首先利用條件生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial network,CGAN)將低分辨率人臉圖像重建為高分辨率人臉圖像,然后將其作為CNN的輸入得到人臉的年齡值。與以往的方法相比,本文方法在以下幾個(gè)方面具有創(chuàng)新性:
(1) 使用低分辨率人臉圖像進(jìn)行年齡識(shí)別;
(2) 針對(duì)低分辨率輸入,提出了一種不需要單獨(dú)預(yù)處理的采用CGAN的圖像重構(gòu)方法;
(3) 將采用CGAN的圖像重構(gòu)與采用CNN進(jìn)行年齡識(shí)別的過程分開進(jìn)行,在降低了訓(xùn)練復(fù)雜度的同時(shí)也提高了學(xué)習(xí)速度;
(4) 本文使用的CGAN和CNN以及人臉圖像數(shù)據(jù)集皆為開源可獲取的,因此便于后來的研究者對(duì)其進(jìn)行發(fā)展與擴(kuò)充。
本文方法總體架構(gòu)如圖1所示,首先檢測(cè)人臉和眼睛的位置;其次利用檢測(cè)到的人臉和眼睛來補(bǔ)償在收集圖像時(shí)可能出現(xiàn)的仿射變換并對(duì)人臉的感興趣區(qū)域(region of interesting,ROI)重新定義(見1.2節(jié));然后使用CGAN[21]對(duì)預(yù)處理得到的低分辨率人臉圖像進(jìn)行重構(gòu);最后利用CNN模型對(duì)重構(gòu)后的人臉圖像進(jìn)行年齡識(shí)別。
圖1 本文方法流程圖
通常,數(shù)據(jù)集中的原始人臉圖像不會(huì)是完全對(duì)齊,其所在區(qū)域還可能包括不具有年齡信息的部分。該不足可能會(huì)影響年齡識(shí)別的性能,因此有必要?jiǎng)h除該冗余背景區(qū)域,以便進(jìn)行后續(xù)處理。本文進(jìn)行的預(yù)處理如圖2所示。
圖2 本文方法的預(yù)處理圖示((a)原始人臉圖像;(b)人臉檢測(cè)結(jié)果;(c)人臉對(duì)齊與ROI重新定義)
首先,使用Adaboost方法在輸入圖像中檢測(cè)出人臉[22]。再進(jìn)一步在該范圍內(nèi)檢測(cè)出雙眼可能的位置。在預(yù)處理步驟中,原本考慮使用文獻(xiàn)[23]中基于空間注意力模塊(spatial attention module)的方法。但該方法有3個(gè)缺點(diǎn):①為了獲得人臉和雙眼的ROI,需要對(duì)空間注意力模塊生成的類激活圖進(jìn)行精確的閾值分割,增加了計(jì)算復(fù)雜度。②經(jīng)過類激活圖得到的ROI較為粗略,而預(yù)處理步驟需要得到比較精確的ROI。③空間注意力模塊需要額外的訓(xùn)練。基于上述考慮,本文選取了較為傳統(tǒng)的Adaboost方法檢測(cè)臉部和雙眼的ROI。
圖2顯示了檢測(cè)到的人臉和眼睛的位置。根據(jù)此信息,利用雙線性插值對(duì)人臉圖像的放射變換進(jìn)行校正,旋轉(zhuǎn)校正使用的角度為
其中,R和R分別為右眼的橫坐標(biāo)與縱坐標(biāo);L和L分別為左眼的橫坐標(biāo)與縱坐標(biāo)。
最后為了去除背景區(qū)域,使用雙眼的位置并利用文獻(xiàn)[18-20]的方法重新確定人臉圖像的ROI,最終得到的圖像如圖2所示。
為了進(jìn)行基于低分辨率輸入圖像的魯棒人臉年齡識(shí)別,本文使用CGAN進(jìn)行超分辨率重構(gòu),在生成器與鑒別器之間進(jìn)行對(duì)抗學(xué)習(xí)[21]。即利用生成器的編碼器提取低分辨率人臉圖像的特征,而解碼器將提取的特征與對(duì)應(yīng)的高分辨率圖像塊進(jìn)行匹配,從而提高分辨率?,F(xiàn)有的GAN接收隨機(jī)噪聲向量和圖像IN作為輸入,并創(chuàng)建OUT作為偽圖像,得到一個(gè)經(jīng)過訓(xùn)練映射到OUT的模型[24]。此時(shí),鑒別器進(jìn)行學(xué)習(xí)以區(qū)分OUT和TAEGET,其中前者為虛假的圖像而后者為真實(shí)的圖像。生成器學(xué)習(xí)如何欺騙鑒別器將OUT看作真實(shí)圖像。相應(yīng)地,損失函數(shù)[24]為
其中,為生成器;為鑒別器。由于本文是通過對(duì)抗學(xué)習(xí)而進(jìn)行的圖像重構(gòu),因此以低分辨率人臉圖像(LOW)和高分辨率原始人臉圖像(HIGH)分別作為輸入,從而使網(wǎng)絡(luò)能夠?qū)W習(xí)從RECONSTRUCTION到HIGH的映射。CGAN的此過程如圖3所示。
圖3 CGAN的處理過程
Fig.3 The internal running program of CGAN
本文中,生成器學(xué)習(xí)將對(duì)應(yīng)于低分辨率人臉圖像IN(LOW)的高分辨率重構(gòu)人臉圖像OUT(RECONSTRUCTION)如何映射至高分辨率原始人臉圖像TAEGET(HIGH)。鑒別器不是簡單地區(qū)分人臉圖像,而是將OUT和TAEGET與IN聯(lián)系起來。根據(jù)IN得到的映射被加強(qiáng)。因此,損失函數(shù)為
文獻(xiàn)[25]將現(xiàn)有的損失函數(shù)添加到GAN的生成器中。本文中的鑒別器作用同樣如此,但是文獻(xiàn)[25]中的生成器通過計(jì)算OUT和TAEGET之間的L2距離來生成清晰的圖像。然而,L2距離比L1距離更容易產(chǎn)生模糊的圖像。為此,文獻(xiàn)[21]將由式(4)中的L1添加到GAN的損失函數(shù)中,得到
因此,使用的最終損失函數(shù)為
1.3.1 生成器
基于深度學(xué)習(xí)的圖像重構(gòu)是一個(gè)從低分辨率圖像中提取特征并獲得相應(yīng)的高分辨率圖像的映射過程。此外,圖像重構(gòu)應(yīng)盡可能保留原有的外部細(xì)節(jié)和形狀。以前多使用編解碼器網(wǎng)絡(luò)(encoder- decoder network)來創(chuàng)建和轉(zhuǎn)換圖像[25-29],本文則通過為編解碼器網(wǎng)絡(luò)添加跳躍連接(skip connection)從而構(gòu)建一種U-net結(jié)構(gòu)[30]。并將第個(gè)編碼器層的特征與第個(gè)解碼器層的特征進(jìn)行串聯(lián),以盡可能保留外部細(xì)節(jié)和形狀。因?yàn)樵趫D像重構(gòu)中采用了原始的CGAN[21],所以在生成器中也使用了U型網(wǎng)絡(luò),其中跳躍連接是網(wǎng)絡(luò)的重要組成部分,如圖4所示。
圖4中的生成器是由8個(gè)編碼器和8個(gè)解碼器單元組成的編解碼器結(jié)構(gòu)。每個(gè)編碼器單元包括卷積(convolution),批量歸一化(batch normalization)和Leaky ReLU (其中第一個(gè)卷積層中不包括批量歸一化)。每個(gè)解碼器單元包括反卷積,并利用Dropout進(jìn)行批量歸一化來獲得隨機(jī)噪聲向量。與編碼器不同,解碼器使用ReLU而不是Leaky ReLU。最后,從解碼器獲得的特征輸入至tanh函數(shù)中。
1.3.2 鑒別器
訓(xùn)練鑒別器以區(qū)分真圖和偽圖。圖像IN輸入后,通過卷積提取特征,并生成圖像OUT或輸入圖像IN和目標(biāo)圖像TAEGET。為了區(qū)分真?zhèn)螆D像,從最后一層提取的大小為30×30×1特征圖未針對(duì)L1和L2損失函數(shù)進(jìn)行核對(duì),而是對(duì)每個(gè)網(wǎng)格(grid)分別進(jìn)行判斷,以此檢查每個(gè)圖像的細(xì)節(jié)和形狀(本文感受野為70×70),此外也可以最小化由L1和L2損失引起的圖像模糊問題。本文利用馬爾可夫隨機(jī)場(chǎng)將真實(shí)圖像與偽圖像進(jìn)行區(qū)分,即patchGAN。patchGAN的patch在整張圖像中移動(dòng)并判斷該局部區(qū)域是真是偽。因?yàn)槊總€(gè)patch都是獨(dú)立的,因此鑒別器有效地將圖像建模為馬爾可夫隨機(jī)場(chǎng)[21]。鑒別器的輸出是一個(gè)概率矩陣,其中每個(gè)元素都提供了使用馬爾可夫隨機(jī)場(chǎng)或patchGAN采樣的一對(duì)對(duì)應(yīng)patches是真的概率。鑒別器的架構(gòu)如圖5所示。
圖4 生成器的架構(gòu)
生成器使用創(chuàng)建的圖像OUT來學(xué)習(xí)欺騙鑒別器。隨著訓(xùn)練時(shí)間的增加,生成器學(xué)習(xí)的不是創(chuàng)建與真實(shí)圖像相似的圖像,而只是簡單地欺騙鑒別器。因此,鑒別器也會(huì)被錯(cuò)誤地訓(xùn)練。本文使得鑒別器學(xué)習(xí)目標(biāo)圖像,從而保持真實(shí)圖像的特征。此外,OUT和TAEGET并不是簡單的輸入,而是與IN串聯(lián)(concatenation),以此可以訓(xùn)練鑒別器更好地表達(dá)IN的細(xì)節(jié)和形狀。
本文使用重構(gòu)后的人臉圖像訓(xùn)練CNN以進(jìn)行年齡估計(jì)。基于殘差網(wǎng)絡(luò)[16],DEX[31],帶有隨機(jī)森林的INCEPTION-V2[32]以及AGE-NET[33]4個(gè)深度網(wǎng)絡(luò)進(jìn)行年齡判別。
圖5 鑒別器的架構(gòu)
1.4.1 殘差網(wǎng)絡(luò)
ResNet是一個(gè)已經(jīng)被證實(shí)在分類任務(wù)中表現(xiàn)優(yōu)異的CNN[16]。其由3×3和1×1大小的連續(xù)濾波器組成的瓶頸結(jié)構(gòu)(bottleneck block)和一個(gè)可以將前一層的特征圖與殘差塊后的特征圖連接起來的跳躍連接(skip connection)結(jié)構(gòu)組成,由此降低特征圖的維數(shù)和復(fù)雜性。此外,由于采用了批量歸一化,因此小批量數(shù)據(jù)的特征圖可以根據(jù)其均值與標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化處理,學(xué)習(xí)速率也得到了提高。ResNet的深度主要取決于殘差塊的數(shù)量。本文使用了ResNet-50和ResNet-152網(wǎng)絡(luò)。在網(wǎng)絡(luò)最后一個(gè)全連接層后,應(yīng)用softmax函數(shù)進(jìn)行分類,從而得到所有類別的概率。
1.4.2 DEX
DEX[31]是一個(gè)在Chalearn年齡識(shí)別競賽中排名第一的網(wǎng)絡(luò)。DEX的體系結(jié)構(gòu)與VGG-16[17]相同,其是通過ImageNet,IMDB[34]和WIKI[35]數(shù)據(jù)集預(yù)訓(xùn)練的模型構(gòu)建的。對(duì)于年齡識(shí)別而言,其未使用CNN中標(biāo)準(zhǔn)softmax函數(shù)來得到類別概率,而是在softmax函數(shù)之后輸出每個(gè)類標(biāo)簽和概率的乘積和作為年齡,即
其中,c和o分別為第個(gè)類的標(biāo)簽和概率值;為輸入圖像識(shí)別到的年齡值。所有的卷積層和全連接層均采用RELU作為激活函數(shù)。此外,在第1次和第2次最大池化后,還進(jìn)行了局部響應(yīng)歸一化(local response normalization)。在全連接層中使用dropout減小過擬合。使用均值為0,標(biāo)準(zhǔn)差為0.01的高斯分布對(duì)權(quán)重進(jìn)行隨機(jī)值初始化。
1.4.3 帶有隨機(jī)森林的INCEPTION-V2
文獻(xiàn)[32]使用了Inception-v2[36]來估計(jì)年齡。該方法在Chalearn年齡識(shí)別競賽中表現(xiàn)良好(排名第四)。Inception-v2與先前的Inception-v1有相同的架構(gòu),即使用不同大小的濾波器構(gòu)建了一個(gè)寬層次(wide)而不是深層次(deep)的網(wǎng)絡(luò)。Inception-v2是通過將批處理歸一化添加到Inception-v1的Inception塊中創(chuàng)建的。在文獻(xiàn)[32]中,首先對(duì)Inception-v2進(jìn)行了訓(xùn)練,然后提取來自隨機(jī)森林的特征對(duì)Inception-2進(jìn)行訓(xùn)練,最后進(jìn)行人臉圖像的年齡識(shí)別。
1.4.4 AGE-NET
文獻(xiàn)[33]采用VGG[17]和AGE-NET進(jìn)行年齡識(shí)別。該方法在Chaleran年齡識(shí)別競賽中同樣取得了良好的成績(排名第五)。其學(xué)習(xí)過程包括2個(gè)步驟:①首先將由ImageNet數(shù)據(jù)集預(yù)訓(xùn)練后的VGG通過MORPH數(shù)據(jù)集進(jìn)行微調(diào)。然后,將不同的開源數(shù)據(jù)集混合并分為2組,分別采用KL散度損失和softmax損失函數(shù)進(jìn)行參數(shù)的學(xué)習(xí)。該方法創(chuàng)建了4個(gè)微調(diào)模型,并在每個(gè)模型的最后一層使用基于距離的投票式集成方法來創(chuàng)建一個(gè)串聯(lián)的特征映射。②使用不同的開源數(shù)據(jù)集和KL散度損失函數(shù)對(duì)AGE-NET進(jìn)行訓(xùn)練。VGG和AGE-NET具有相同的輸出維度。如果2個(gè)網(wǎng)絡(luò)之間的年齡識(shí)別差異<11歲時(shí),則其平均值被確定為預(yù)測(cè)年齡;當(dāng)差值≥11歲時(shí),采用第一個(gè)網(wǎng)絡(luò)(VGG)的結(jié)果作為預(yù)測(cè)年齡。
本文使用PAL[37]和MORPH數(shù)據(jù)集[38]進(jìn)行實(shí)驗(yàn)。
PAL數(shù)據(jù)集是一個(gè)包含18~93歲的人臉圖像數(shù)據(jù)集,其中白種人和非裔美國人分別占76%和16%,剩下的8%有亞洲、南亞和西班牙裔背景,本文從中截取了580張較為中性的人臉圖像進(jìn)行實(shí)驗(yàn)(圖6)。這580張圖像按1.2節(jié)所述進(jìn)行預(yù)處理,并重新定義人臉ROI。對(duì)圖像進(jìn)行了8個(gè)方向(由左至右,由上至下)的預(yù)處理,其中平移操作分3步進(jìn)行,如圖7所示。通過對(duì)高分辨率的人臉圖像進(jìn)行水平方向的鏡像,總共獲得了580(8×3+1)× 2=29000張數(shù)據(jù)增強(qiáng)的圖像。由于本方法需要生成高分辨率和低分辨率的人臉圖像,因此通過雙線性插值將256×256大小的高分辨率圖像轉(zhuǎn)換為8×8大小的低分辨率圖像,從而降低了增強(qiáng)后數(shù)據(jù)的分辨率,結(jié)果共獲得高分辨率和低分辨率人臉圖像共計(jì)29 000對(duì)。
圖6 PAL示例圖像
圖7 圖像平移
MORPH數(shù)據(jù)集包含了13 617個(gè)人的55 134張人臉圖像,年齡從16~77歲。從該數(shù)據(jù)集中,隨機(jī)選擇了1 000張不同個(gè)人、不同年齡和不同性別的圖像進(jìn)行實(shí)驗(yàn),如圖8所示。數(shù)據(jù)擴(kuò)充的方式與圖7中相同。在PAL數(shù)據(jù)集應(yīng)用了四折交叉驗(yàn)證,而對(duì)MORPH數(shù)據(jù)集應(yīng)用了二折交叉驗(yàn)證。表1給出了實(shí)驗(yàn)中使用的PAL和MORPH數(shù)據(jù)集在每個(gè)交叉驗(yàn)證中的原始圖像和數(shù)據(jù)擴(kuò)充后圖像的數(shù)量。擴(kuò)充后的圖像僅用于訓(xùn)練CGAN和年齡識(shí)別的CNN。未進(jìn)行擴(kuò)充的原始圖像用于測(cè)試環(huán)節(jié)。
圖8 MORPH示例圖像
表1 數(shù)據(jù)集協(xié)議下的數(shù)量情況
在實(shí)驗(yàn)中,使用了一臺(tái)配備了3.50 GHz CPU (Intel ?CoreTMi7-3770K)和24 GB RAM的臺(tái)式計(jì)算機(jī)。在網(wǎng)絡(luò)的訓(xùn)練和測(cè)試過程中使用了Ubuntu Caffe。顯卡是Nvidia GeForce GTX 1070,其有1 920個(gè)CUDA內(nèi)核和8 GB RAM。使用了OpenCV庫,提取人臉ROI。
低分辨率人臉圖像和高分辨率人臉圖像分別作為IN和TAEGET來訓(xùn)練CGAN,如圖9所示。
圖9 用于訓(xùn)練的高分辨-低分辨圖像對(duì)
經(jīng)過數(shù)據(jù)增強(qiáng)后的圖像被調(diào)整到286×286大小,然后被隨機(jī)裁剪成256×256,再進(jìn)行訓(xùn)練。Adam優(yōu)化器[39]被用于網(wǎng)絡(luò)參數(shù)的更新。學(xué)習(xí)率為0.000 2,1和2分別設(shè)置為0.500和0.999。學(xué)習(xí)過程包括40個(gè)epochs。圖10 (鑒別器)和11 (生成器)顯示了在使用PAL數(shù)據(jù)集時(shí),根據(jù)epoch變化時(shí)CGAN的訓(xùn)練損失。由圖中可以看出,經(jīng)過一段時(shí)間,損失值趨于收斂。
圖10 鑒別器的損失值變化情況
本文首先使用CGAN重構(gòu)人臉圖像,然后訓(xùn)練CNN進(jìn)行年齡識(shí)別。各種CNN網(wǎng)絡(luò)都通過擴(kuò)充后的數(shù)據(jù)進(jìn)行了微調(diào),且這些網(wǎng)絡(luò)均訓(xùn)練了100個(gè)epochs。其中DEX在利用CGAN重構(gòu)的圖像進(jìn)行訓(xùn)練和測(cè)試的CNN中達(dá)到了最好的年齡識(shí)別性能。圖12顯示了經(jīng)過PAL數(shù)據(jù)集訓(xùn)練的DEX年齡識(shí)別的損失和準(zhǔn)確率,可以看出DEX通過重構(gòu)后的圖像得到了充分的訓(xùn)練。
圖11 生成器的損失值變化情況
圖12 DEX的損失與準(zhǔn)確率變化情況
本文首先對(duì)提出的圖像重構(gòu)方法進(jìn)行了實(shí)驗(yàn)(表2),并比較了本文方法CGAN,VDSR[40],DCSCN[41],SRGAN[42]4種方法在峰值信噪比(peaksignaltonoiseratio,PSNR)和信噪比(signaltonoiseratio,SNR)方面的重構(gòu)結(jié)果。
表2 不同方法的圖像重構(gòu)結(jié)果
由表2可知,本文方法的PSNR和SNR均高于VDSR和SRGAN,但低于DCSCN。然而,當(dāng)基于DEX比較年齡識(shí)別精度時(shí),本文方法比其他3種方法皆顯示出更高的精確性(表3)。
表3 重構(gòu)后的年齡識(shí)別MAE結(jié)果對(duì)比
表3中DCSCN方法重建的圖像數(shù)值高于本文方法,如圖13所示,DCSCN方法重建的圖像比本文方法模糊。
圖13 不同方法的圖像重構(gòu)效果對(duì)比((a)原始低分辨率圖像;(b)VDSR方法;(c)DCSCN方法;(d) SRGAN方法;(e)本文方法;(f)原始高分辨率圖像)
由于DCSCN方法生成的圖像較為模糊,說明其噪聲較少(圖13(c)),其PSNR和SNR結(jié)果皆優(yōu)于本文方法。然而,生成的模糊圖像中,其人臉特征不明顯,這使得年齡識(shí)別的精度低于本文方法。
此外,圖13中PAL數(shù)據(jù)集的一些圖像重構(gòu)結(jié)果表明,與VDSR和DCSCN方法相比,本文方法能產(chǎn)生更接近原始的高分辨率圖像。
年齡識(shí)別中的準(zhǔn)確性評(píng)價(jià)指標(biāo)為平均絕對(duì)誤差(mean absolute error,MAE),即
其中,為輸入圖像的數(shù)量;f為識(shí)別到的年齡;y為真實(shí)年齡。表4和5分別比較了PAL和MORPH數(shù)據(jù)集中使用原始圖像、低分辨率圖像和重構(gòu)圖像的不同年齡識(shí)別方法的性能。其中每種方法原本由特定的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后通過本文使用的PAL和MORPH數(shù)據(jù)集進(jìn)行微調(diào)。注意到基于MORPH數(shù)據(jù)集訓(xùn)練ResNet時(shí),未采用Adaboost方法進(jìn)行人臉和雙眼檢測(cè),而是使用Dlib人臉特征跟蹤器[43]進(jìn)行人臉檢測(cè),最終采用與DEX相同的方式得到年齡識(shí)別值。
表4 在PAL中基于不同CNN的年齡識(shí)別MAE結(jié)果對(duì)比
表4和5中,使用低分辨率圖像時(shí)所有年齡識(shí)別方法的精度都低于使用原始高分辨率數(shù)據(jù)時(shí)的精度。當(dāng)采用本文的圖像重構(gòu)方法再進(jìn)行年齡識(shí)別時(shí),精度高于低分辨率圖像(低于高分辨率原始圖像)。此外,將本文圖像重構(gòu)方法和DEX結(jié)合時(shí),獲得了最好的年齡識(shí)別精度。
表5 在MORPH中基于不同CNN的年齡識(shí)別MAE結(jié)果對(duì)比
圖14顯示了正確的年齡識(shí)別情況。表中的低分辨率結(jié)果是通過DEX中的方法得出的(下面的表格為其對(duì)應(yīng)MAE值)??梢钥闯觯诿糠N情況下,本文方法皆比低分辨率圖像識(shí)別到的年齡更接近實(shí)際年齡。圖14中,本文方法即使在低分辨率的老年人人臉圖像上也能正確地恢復(fù)紋理和皺紋,與低分辨率圖像相比,本文方法得到的人臉圖像的年齡值更接近真實(shí)年齡。
圖14 正確的年齡識(shí)別結(jié)果((a)真實(shí)圖像;(b)低分辨率圖像;(c)重構(gòu)圖像)
圖15顯示了錯(cuò)誤的年齡識(shí)別情況??梢钥吹剑谟行┣闆r下重構(gòu)后的人臉圖像中錯(cuò)誤生成的斑痕或皺紋會(huì)導(dǎo)致年齡識(shí)別的較大誤差。
圖15 錯(cuò)誤的年齡識(shí)別結(jié)果((a)真實(shí)圖像;(b)低分辨率圖像;(c)重構(gòu)圖像)
此外,還進(jìn)行了這樣的實(shí)驗(yàn):首先對(duì)通過重構(gòu)后的圖像在水平和垂直方向上進(jìn)行2倍的下采樣,然后使用高斯濾波器進(jìn)行隨機(jī)模糊,最后使用雙三次插值在水平和垂直方向上進(jìn)行兩倍的上采樣,得到的年齡識(shí)別結(jié)果見表6。
表6 在MORPH中對(duì)數(shù)據(jù)進(jìn)行擾動(dòng)后基于不同CNN的年齡識(shí)別MAE結(jié)果對(duì)比
由表6可以看到,此實(shí)驗(yàn)得到的年齡識(shí)別精度與表5中的結(jié)果相當(dāng),表明本文方法對(duì)這種退化并不敏感。
其實(shí)在上述中隱含著消融實(shí)驗(yàn),即比較了使用與不使用CGAN的年齡識(shí)別方法的準(zhǔn)確性。表5和6中,明顯先進(jìn)行圖像重構(gòu)的年齡識(shí)別準(zhǔn)確性更好。
本節(jié)中對(duì)所提出方法的處理時(shí)間進(jìn)行了評(píng)估,其中關(guān)于實(shí)驗(yàn)中使用的臺(tái)式計(jì)算機(jī)配置在2.1節(jié)中已經(jīng)進(jìn)行了描述,結(jié)果表明本文在圖像重構(gòu)時(shí)所花費(fèi)的時(shí)間為11.2 ms,進(jìn)行年齡估計(jì)時(shí)花費(fèi)的時(shí)間為24.8 ms,因此每幀的平均處理時(shí)間約為36 ms,即本文方法的處理速度約為27.8幀/秒。
基于人臉圖像的年齡識(shí)別在諸如商品推薦,現(xiàn)場(chǎng)刑偵等許多領(lǐng)域皆有應(yīng)用。然而,若使用低分辨率的相機(jī)捕獲圖像或距受試者的距離較遠(yuǎn),則人臉圖像的分辨率會(huì)降低。在這種情況下,人臉中的皺紋或其他紋理等信息將會(huì)缺失,導(dǎo)致年齡方面重要的特征無法獲得,嚴(yán)重影響年齡識(shí)別的精度?,F(xiàn)有的年齡識(shí)別方法很少涉及低分辨率圖像而通常只使用在受限環(huán)境下捕獲的高分辨率的人臉圖像。為了克服這一局限性,本文提出了一種基于CGAN的人臉圖像重構(gòu)下的年齡識(shí)別方法。首先利用CGAN將低分辨率的人臉圖像重構(gòu)為高分辨率圖像,然后將得到的圖像作為輸入進(jìn)行年齡識(shí)別。在2個(gè)開源數(shù)據(jù)集PAL和MORPH上的結(jié)果表明,本文方法在圖像重構(gòu)和年齡識(shí)別方面皆具有優(yōu)越性,其中圖像重構(gòu)結(jié)合年齡識(shí)別方法取得的準(zhǔn)確率高于僅使用低分辨率圖像進(jìn)行的年齡識(shí)別。未來的研究方向?qū)⑹菆D像重構(gòu)與視頻下的年齡識(shí)別方法相結(jié)合。此外,還需要確定所提出的方法對(duì)低照度環(huán)境下獲取的人臉圖像是否仍然有效。
[1] ALBERT A M, RICANEK K, PATTERSON E. A review of the literature on the aging adult skull and face: implications for forensic science research and applications[J]. Forensic Science International, 2007, 172(1): 1-9.
[2] KANNALA J, RAHTU E. BSIF: binarized statistical image features[C]//The 21st International Conference on Pattern Recognition (ICPR 2012). New Yow: IEEE Press, 2012: 1363-1366.
[3] SUO J, CHEN X, SHAN S, et al. A concatenational graph evolution aging model[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2083-2096.
[4] NIU Z X, ZHOU M, WANG L, et al. Ordinal regression with multiple output CNN for age estimation[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 4920-4928.
[5] RAMANATHAN N, CHELLAPPA R, BISWAS R. Computational methods for modeling facial aging: a survey[J]. Journal of Visual Languages & Computing, 2009, 20(3): 131-144.
[6] HUERTA I, FERNáNDEZ C, PRATI A. Facial age estimation through the fusion of texture and local appearance descriptors[C]//European Conference on Computer Vision - ECCV 2014 Workshops.Heidelberg: Springer, 2015: 667-681.
[7] YOO B, KWAK Y, KIM Y, et al. Deep facial age estimation using conditional multitask learning with weak label expansion[J]. IEEE Signal Processing Letters, 2018, 25(6): 808-812.
[8] LIU H, LU J W, FENG J J, et al. Label-sensitive deep metric learning for facial age estimation[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(2): 292-305.
[9] TAHERI S, TOYGAR ?. Integrating feature extractors for the estimation of human facial age[J]. Applied Artificial Intelligence, 2019, 33(5): 379-398.
[10] TAHERI S, TOYGAR ?. Multi-stage age estimation using two level fusions of handcrafted and learned features on facial images[J]. IET Biometrics, 2019, 8(2): 124-133.
[11] TAHERI S, TOYGAR ?. On the use of DAG-CNN architecture for age estimation with multi-stage features fusion[J]. Neurocomputing, 2019, 329: 300-310.
[12] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision – ECCV 2014. Heidelberg: Springer, 2014: 818-833.
[13] DONG C, LOY C C, HE K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.
[14] LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 105-114.
[15] MIRZA M, OSINDERO S. Conditional generative adversarial nets[EB/OL]. [2021-01-09]. https://arxiv.org/abs/1411.1784.
[16] LI X L, DING L K, WANG L, et al. FPGA accelerates deep residual learning for image recognition[C]//2017 IEEE 2nd Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). New York: IEEE Press, 2017: 837-840.[LinkOut]
[17] ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Object detectors emerge in Deep Scene CNNs[EB/OL]. [2021-01-27]. http:// dspace.mit.edu/handle/1721.1/96942.
[18] NGUYEN D T, CHO S R, PHAM T D, et al. Human age estimation method robust to camera sensor and/or face movement[J]. Sensors: Basel, 2015, 15(9): 21898-21930.
[19] NGUYEN D, CHO S, PARK K. Age estimation-based soft biometrics considering optical blurring based on symmetrical sub-blocks for MLBP[J]. Symmetry, 2015, 7(4): 1882-1913.
[20] KANG J, KIM C, LEE Y, et al. Age estimation robust to optical and motion blurring by deep residual CNN[J]. Symmetry, 2018, 10(4): 108.
[21] DONG H, NEEKHARA P, WU C, et al. Unsupervised image-to-image translation with generative adversarial networks[EB/OL]. [2021-01-10]. https://arxiv.org/abs/1701.02676.
[22] VIOLA P, JONES M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154.
[23] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//European Conference on Computer Vision – ECCV 2018. Heidelberg: Springer, 2018: 3-19.
[24] GOODFELLOW I J,POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//The 27th International Conference on Neural Infornation Processing Systems. New York: ACM Press, 2014:1-9.
[25] PATHAK D, KR?HENBüHL P, DONAHUE J, et al. Context encoders: feature learning by inpainting[J]. 2016 IEEE Conference on Computer Vision and Pattern Recognition: CVPR, 2016: 2536-2544.
[26] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[27] SHAHIDI F. Breast cancer histopathology image super-resolution using wide-attention GAN with improved Wasserstein gradient penalty and perceptual loss[J]. IEEE Access, 2021, 9: 32795-32809.
[28] DUTTA J K, BANERJEE B. Learning features and their transformations from natural videos[C]//2014 IEEE Symposium on Computational Intelligence in Dynamic and Uncertain Environments (CIDUE). New York: IEEE Press, 2014: 55-61.
[29] YOO D, KIM N, PARK S, et al. Pixel-level domain transfer[M]//European Conference on Computer Vision – ECCV 2016. Heidelberg: Springer, 2016: 517-532.
[30] CHO C, LEE Y H, PARK J, et al. A self-spatial adaptive weighting based U-net for image segmentation[J]. Electronics, 2021, 10(3): 348.
[31] ROTHE R, TIMOFTE R, VAN GOOL L. DEX: deep EXpectation of apparent age from a single image[C]//2015 IEEE International Conference on Computer Vision Workshop (ICCVW). New York: IEEE Press, 2015: 252-257.
[32] ZHU Y, LI Y, MU G W, et al. A study on apparent age estimation[C]//2015 IEEE International Conference on Computer Vision Workshop (ICCVW). New York: IEEE Press, 2015: 267-273.
[33] HUO Z W, YANG X, XING C, et al. Deep age distribution learning for apparent age estimation[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE Press, 2016: 722-729.[LinkOut]
[34] IMDb.com, Inc. IMDb database[EB/OL]. [2021-01-21]. https://www.imdb.com/interfaces.
[35] Wili.com. WIKI database[EB/OL]. [2021-02-03]. https://www.wikidata.org/wiki/Wikidata:Database_download.
[36] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1-9.
[37] MINEAR M, PARK D C. A lifespan database of adult facial stimuli[J]. Behavior Research Methods, Instruments, & Computers, 2004, 36(4): 630-633.
[38] TouchNet Company. MORPH database[EB/OL]. [2021-02-11]. https://ebill.uncw.edu/C20231_ustores/web/store_main.jsp?STOREID=4.
[39] KINGMA D, BA J. Adam: amethod for stochastic optimization[EB/OL]. [2021-01-28].https://arxiv.org/abs/1412. 6980v8.
[40] HU S Y, WANG G D, WANG Y J, et al. Accurate image super-resolution using dense connections and dimension reduction network[J]. Multimedia Tools and Applications, 2020, 79(1):1427-1443.
[41] YAMANAKA J, KUWASHIMA S, KURITA T. Fast and accurate image super resolution by deep CNN with skip connection and network in network[C]//The 24th International Conference on Neural Information Processing. Heidelberg: Springer, 2017: 217-225.
[42] LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 105-114.
[43] KAZEMI V, SULLIVAN J. One millisecond face alignment with an ensemble of regression trees[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 1867-1874.
Age recognition method based on low resolution input image
ZHU Xi-mei1, LI Rui2,3
(1. School of Literature and Media, Zhongyuan Institute of Science and Technology, Zhengzhou Henan 450046 China; 2. School of Computer and Software, Nanyang Institute of Technology, Nanyang Henan 473000 China; 3. School of Computer Science, Qinghai Normal University, Xining Qinghai 810008, China)
If the accessed facial image is of low resolution, facial wrinkles and other characteristics of the information would often be lost, undermining the performance of age identification. In view of the existing age identification method lacking this research field and in order to solve this problem, this paper proposed an age identification method for low-resolution images by reconstructing the input low-resolution face images using conditional generative adversarial net (CGAN), and then identifying the age using the deep learning method. Firstly, a comparative experiment on image reconstruction was carried out, and then the results of age recognition were compared on different face image data sets. The experimental comparison with other deep learning methods on signal noise ratio, peak signal noise ratio, and mean absolute error shows the effectiveness of the proposed method in image reconstruction and age recognition. In addition, the time complexity of the proposed method was also analyzed.
low resolution; age recognition; deep learning; time complexity
TP 391
10.11996/JG.j.2095-302X.2021060931
A
2095-302X(2021)06-0931-10
2021-02-26;
2021-04-08
河南省教育廳人文社會(huì)科學(xué)研究項(xiàng)目(2019-ZDJH-189)
朱喜梅(1985-),女,河南鹿邑人,講師,碩士。主要研究方向?yàn)樾畔⒒逃c教學(xué)。E-mail:zhuxm904@126.com
26 February,2021;
8 April,2021
Humanities and Social Science Research Project of Education Department of Henan Province (2019-ZDJH-189)
ZHU Xi-mei (1985-), female, lecturer, master, Her main research interests cover information education and teaching. E-mail:zhuxm904@126.com