明 悅,王紹穎,范春曉,周江婉
(北京郵電大學(xué) 電子工程學(xué)院,北京 100876)
跨模態(tài)人臉識(shí)別的目的是識(shí)別數(shù)據(jù)分布或外觀差異較大的不同模態(tài)人臉圖像[1]。近紅外光與可見光人臉、側(cè)臉與正臉、素描畫像與照片等都是人臉的不同模態(tài)。在安防、刑偵、娛樂等場(chǎng)景中,跨模態(tài)人臉識(shí)別發(fā)揮著重要作用[2]。例如,在安防場(chǎng)景中,不可避免要識(shí)別近紅外光下拍攝的人臉圖像。大多數(shù)人臉識(shí)別算法,在面對(duì)跨模態(tài)人臉識(shí)別時(shí)準(zhǔn)確率會(huì)大幅下降。因此,研究者開始深入研究不同模態(tài)人臉之間的差異,并提出多種跨模態(tài)人臉識(shí)別算法[3-8],降低不同模態(tài)人臉之間差異。
在跨模態(tài)人臉識(shí)別算法中,生成模型被廣泛用于跨模態(tài)人臉合成和學(xué)習(xí)模態(tài)不變的特征表示[9]。生成對(duì)抗網(wǎng)絡(luò)[10](Generative Adversarial Network, GAN)和變分自動(dòng)編碼器[11](Variational Auto-Encoders, VAE) 是兩種常用于人臉合成的基本模型。GAN中包含生成器和判別器,二者交替訓(xùn)練和對(duì)抗,最終生成器生成能夠欺騙過判別器的圖像。然而其交替訓(xùn)練過程會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。為克服這一缺陷,一些算法[12-13]采用VAE進(jìn)行人臉合成。與GAN相比,VAE具有更加穩(wěn)定的訓(xùn)練過程,通過最小化重構(gòu)損失函數(shù)可構(gòu)建輸入數(shù)據(jù)的潛在高斯分布空間,并合成逼真的人臉,從而獲得具有魯棒性和判別能力的緊湊分布,適用于跨模態(tài)人臉識(shí)別任務(wù)。因此,本文將使用VAE作為基本模型,學(xué)習(xí)判別性的潛在高斯分布空間。
VAE模型能夠很容易地構(gòu)建出重建圖像空間和潛在高斯分布空間。因此,相比于直接跨模態(tài)合成人臉或?qū)R潛在向量等在單一空間學(xué)習(xí)跨模態(tài)信息的算法[4-5],本文基于VAE模型提出一種基于對(duì)齊特征表示的跨模態(tài)人臉識(shí)別算法(Cross-Domain Representation Alignment, CDRA),提取不同模態(tài)人臉圖像中能標(biāo)識(shí)身份的特征信息和跨模態(tài)關(guān)聯(lián)信息。該方法采用潛在高斯分布空間直接進(jìn)行特征對(duì)齊,并在圖像空間間接建立不同模態(tài)人臉間的聯(lián)系方式,實(shí)現(xiàn)不同模態(tài)人臉特征在多空間維度的對(duì)齊,在圖像空間和潛在子空間同時(shí)學(xué)習(xí)更加具有判別性的身份信息和更加豐富的多層次跨模態(tài)信息。如圖1所示,是CDRA算法的框圖。圖中模態(tài)A和B為同一個(gè)人的可見光圖像和近紅外光圖像。編碼器通過模態(tài)內(nèi)重建損失函數(shù)(LDSR)學(xué)習(xí)高斯?jié)撛诜植迹徊婺B(tài)重建對(duì)齊損失函數(shù)(LCMA)和高斯分布對(duì)齊損失函數(shù)(LGDA)協(xié)同作用對(duì)齊潛在特征表示,將不同模態(tài)的潛在特征投影到共同的潛在子空間。該方法主要分為兩部分:
圖1 基于對(duì)齊特征表示的跨模態(tài)人臉識(shí)別算法(CDRA)的流程框圖Fig.1 Framework of Cross-Domain Representation Alignment (CDRA)algorithm
(1)模態(tài)內(nèi)信息提取。為減少特征學(xué)習(xí)和特征重建過程中的信息損失,CDRA算法首先利用模態(tài)內(nèi)重建(Domain-Specific-Reconstruction,DSR)損失函數(shù)來提取同一模態(tài)人臉數(shù)據(jù)的內(nèi)在身份信息,主要包括同一模態(tài)人臉數(shù)據(jù)中的身份判別信息和紋理、結(jié)構(gòu)等細(xì)節(jié)信息。
(2)模態(tài)間信息提取。在學(xué)習(xí)到身份信息的基礎(chǔ)上,為減少不同模態(tài)人臉特征的差異,本文提出使用交叉模態(tài)重建對(duì)齊(Cross-Modal-Alignment, CMA)損失函數(shù)將潛在特征空間中某一模態(tài)的特征重構(gòu)至另一模態(tài)的圖像空間,學(xué)習(xí)不同模態(tài)特征間相關(guān)聯(lián)的潛在信息,并利用高斯分布對(duì)齊(Gaussian-Distribution-Alignment, GDA)損失函數(shù)對(duì)齊高斯?jié)撛诜植?,進(jìn)一步減少不同模態(tài)人臉之間的差異。因此,CDRA算法基于CMA和GDA損失函數(shù),將不同模態(tài)的潛在特征表示對(duì)齊到同一潛在子空間。
本文提出的CDRA算法主要的貢獻(xiàn)如下:
(1)本文提出一種端到端的跨模態(tài)特征匹配算法。該算法基于VAE模型構(gòu)建不同模態(tài)人臉的重建圖像空間和壓縮的高斯分布空間來對(duì)齊跨模態(tài)潛在特征表示,并且能夠很容易地?cái)U(kuò)展為同時(shí)對(duì)齊兩個(gè)以上的模態(tài)。
(2)本文提出使用DSR損失函數(shù),學(xué)習(xí)模態(tài)內(nèi)人臉具有判別能力的身份信息,能夠有效減少特征對(duì)齊過程中的信息損失。
(3)本文通過CMA和GDA損失函數(shù)在人臉圖像空間和潛在高斯分布空間協(xié)同學(xué)習(xí)公共的潛在特征表示空間,從而在不同空間提取到不同模態(tài)人臉間更加豐富的關(guān)聯(lián)信息。
(4)來自于公共潛在特征表示空間的特征作為輸出特征,直接用于跨模態(tài)人臉識(shí)別。本文在跨模態(tài)人臉數(shù)據(jù)集Multi-Pie和CASIA NIR-VIS 2.0上進(jìn)行人臉識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,CDRA算法獲得了比現(xiàn)有方法更高的識(shí)別準(zhǔn)確率,并具有良好的泛化能力。
跨模態(tài)人臉識(shí)別算法主要分為三類:潛在子空間方法、人臉合成方法和模態(tài)不變的特征方法。本節(jié)將從這三類方法分別綜述近年來跨模態(tài)人臉識(shí)別領(lǐng)域的相關(guān)工作。
潛在子空間方法的目標(biāo)是將不同模態(tài)的數(shù)據(jù)投影到一個(gè)公共的潛在子空間中。Wang等[14]將CCA (Canonical Correlation Analysis)引入到自動(dòng)編碼器中,學(xué)習(xí)針對(duì)不同模態(tài)特征的非線性子空間。MvDA (Multi-view Discriminant Analysis)[15]方法通過聯(lián)合學(xué)習(xí)人臉多個(gè)視點(diǎn)的線性變換,尋找多個(gè)視點(diǎn)具有判別性的公共子空間。Wu等[3]通過在跨模態(tài)變量上施加松弛約束來為不同模態(tài)的人臉特征學(xué)習(xí)公共的解構(gòu)潛在空間。潛在子空間方法可以很容易地減少不同模態(tài)人臉之間的模態(tài)差異,但是在投影的過程中會(huì)存在一定程度的信息丟失。
人臉合成方法利用生成模型將人臉從一個(gè)模態(tài)合成到另外一個(gè)模態(tài),以減少不同模態(tài)人臉數(shù)據(jù)的差異。馬爾科夫網(wǎng)絡(luò)方法[16]基于人臉的局部塊合成,實(shí)現(xiàn)跨模態(tài)的人臉生成。Zhang等[8]利用Siamese網(wǎng)絡(luò)解構(gòu)不同模態(tài)的人臉數(shù)據(jù),通過編碼-解構(gòu)-解碼的形式,減少不同模態(tài)人臉之間的差異。基于GAN的方法[7,17-18]通常通過感知圖像全局或局部細(xì)節(jié),實(shí)現(xiàn)不同模態(tài)間人臉的相互合成。一般人臉合成的方法對(duì)于不同的人臉生成任務(wù)需要不同的學(xué)習(xí)機(jī)制,因此人臉合成方法存在泛化能力較弱的缺點(diǎn)。
模態(tài)不變的特征方法旨在從同一個(gè)體不同模態(tài)的人臉中學(xué)習(xí)模態(tài)不變的特征。CDL (Coupled Deep Learning)[5]提出一種跨模態(tài)的排序機(jī)制,能夠最大化類間的差異和類內(nèi)不同模態(tài)之間的差異。He等[4]將Wasserstein距離引入到共享網(wǎng)絡(luò)層中,度量不同模態(tài)人臉特征分布之間的差異。DFN (Deformable Face Net)[19]為可形變卷積層學(xué)習(xí)姿態(tài)感知的位移場(chǎng),從而提取到姿態(tài)不變的人臉圖像。但是當(dāng)不同模態(tài)的人臉數(shù)據(jù)存在較大差異時(shí),直接提取模態(tài)不變的人臉特征比較困難[20]。
不同于上述方法,本文提出的CDRA算法基于VAE模型學(xué)習(xí)潛在特征表示空間,并通過對(duì)齊潛在特征表示來實(shí)現(xiàn)跨模態(tài)人臉識(shí)別。首先,為減少信息丟失,CDRA算法利用DSR損失函數(shù)盡可能地學(xué)習(xí)具有判別能力的人臉特征表示。在此基礎(chǔ)上,CMA和GDA損失函數(shù)分別在圖像空間和潛在高斯分布空間對(duì)不同模態(tài)的人臉特征表示進(jìn)行對(duì)齊。相比于單一空間對(duì)齊的方法,在圖像空間和分布空間同時(shí)進(jìn)行對(duì)齊的CDRA算法,能夠獲得不同模態(tài)人臉間多個(gè)空間維度不同層次的關(guān)聯(lián)關(guān)系,有利于提取到更具判別能力的跨模態(tài)關(guān)聯(lián)信息。并且,CDRA算法本質(zhì)是對(duì)不同模態(tài)人臉數(shù)據(jù)的特征表示進(jìn)行對(duì)齊。因此,適用于不同的跨模態(tài)人臉識(shí)別任務(wù),而不需要改變學(xué)習(xí)機(jī)制。
基于對(duì)齊特征表示的跨模態(tài)人臉識(shí)別(CDRA)算法是將兩個(gè)模型學(xué)習(xí)得到的特征表示進(jìn)行對(duì)齊,構(gòu)建不同模態(tài)人臉特征之間相關(guān)聯(lián)的公共潛在特征空間。為減少信息損失和實(shí)現(xiàn)更有效的特征對(duì)齊,CDRA算法首先通過模態(tài)內(nèi)重建(DSR)損失函數(shù),學(xué)習(xí)單一模態(tài)人臉具有判別能力的信息?;诮徊嬷亟ê头植紝?duì)齊原則,為實(shí)現(xiàn)特征在圖像空間的精準(zhǔn)映射和在特征空間不同模態(tài)特征的精準(zhǔn)匹配,通過交叉模態(tài)重建對(duì)齊(CMA)損失函數(shù)和高斯分布對(duì)齊(GDA)損失函數(shù)實(shí)現(xiàn)特征對(duì)齊表示。不同于之前在單一圖像或分布空間對(duì)不同模態(tài)的特征表示進(jìn)行對(duì)齊。CDRA算法利用CMA損失函數(shù)和GDA損失函數(shù)在圖像空間和分布空間協(xié)同建立不同模態(tài)人臉間的聯(lián)系,從而促進(jìn)不同模態(tài)的潛在特征表示在多空間維度實(shí)現(xiàn)更加精確的對(duì)齊。接下來,本節(jié)將描述CDRA算法的損失函數(shù)及其數(shù)學(xué)表達(dá)式。
Lre=-Ez~Q(z|x)logP(z|x),
(1)
其中:z是獨(dú)立的高斯隨機(jī)變量,即z∈N(0,1)。VAE通過梯度下降算法最小化Q(z|x)的分布與高斯分布P(z)的差異,即最小化二者的KL散度,對(duì)潛在向量z的分布進(jìn)行控制:
LKL=D[Q(z|x)‖P(z)].
(2)
因此,VAE是損失函數(shù)Lre和LKL共同組成:
LVAE=Lre+LKL.
(3)
CDRA算法的目標(biāo)是學(xué)習(xí)n種模態(tài)的數(shù)據(jù)在公共潛在空間的特征表示。因此,CDRA算法模型中包含n個(gè)VAE模型。為了減少信息損失和提取具有判別能力的信息,每一個(gè)VAE中的編碼器將一種模態(tài)的數(shù)據(jù)編碼到潛在高斯分布空間,解碼器從潛在特征表示中重建出原始輸入數(shù)據(jù)。CDRA算法的模態(tài)內(nèi)損失是n個(gè)VAE損失的總和,稱為模態(tài)內(nèi)重建(DSR)損失函數(shù):
LDSR=
βD[Q(z(i)|x(i))||P(z(i))],
(4)
其中:β系數(shù)決定KL散度項(xiàng)的權(quán)重。通過最小化DSR損失,CDRA算法中每個(gè)VAE模型的潛在特征表示空間能夠?qū)W習(xí)到具有判別能力的模態(tài)內(nèi)特征表示。
交叉模態(tài)重建對(duì)齊是通過解碼來自同一個(gè)體另一模態(tài)的潛在特征表示來實(shí)現(xiàn)的。也就是說,模態(tài)A的潛在特征表示輸入到模態(tài)B的解碼器中來重構(gòu)模態(tài)B的人臉圖像,而模態(tài)B的潛在特征表示輸入模態(tài)A的解碼器中來重構(gòu)模態(tài)A的人臉圖像。因此,每一個(gè)模態(tài)的解碼器除了用于訓(xùn)練對(duì)應(yīng)模態(tài)的潛在特征表示,也將用于訓(xùn)練另一模態(tài)的潛在特征表示。CMA損失函數(shù)定義如下:
(5)
其中:E(i)表示第i個(gè)模態(tài)的樣本通過編碼器得到特征表示,D(j)表示特征通過解碼器得到的第j個(gè)模態(tài)的重建樣本。通過CMA損失函數(shù)對(duì)模型進(jìn)行優(yōu)化,能夠在圖像空間中學(xué)習(xí)到不同模態(tài)之間的關(guān)聯(lián)信息,并映射到潛在特征空間,從而實(shí)現(xiàn)將不同模態(tài)人臉圖像的潛在特征表示映射到同一潛在子空間。
高斯分布對(duì)齊通過最小化同一個(gè)體不同模態(tài)的潛在高斯分布Wasserstein距離[4]實(shí)現(xiàn)。兩個(gè)不同模態(tài)人臉數(shù)據(jù)高斯分布之間的2-Wasserstein距離,可構(gòu)成封閉解:
(6)
其中,對(duì)角協(xié)方差矩陣由編碼器預(yù)測(cè),具有可交換性。因此公式(6)可以簡(jiǎn)化為:
(7)
其中,F(xiàn)表示Frobenius范數(shù)。因此,在CDRA算法中,GDA損失函數(shù)寫作:
(8)
通過GDA損失函數(shù)能夠進(jìn)一步對(duì)齊不同模態(tài)的特征表示,提高CDRA算法模型的跨模態(tài)表達(dá)能力。
CDRA算法的總體目標(biāo)損失函數(shù)包括DSR損失函數(shù)、CMA損失函數(shù)和GDA損失函數(shù)。DSR損失函數(shù)能夠減少信息損失,學(xué)習(xí)模態(tài)內(nèi)具有判別能力的身份信息。CMA損失函數(shù)和GDA損失函數(shù)能夠有效地關(guān)聯(lián)不同模態(tài)人臉的圖像空間和潛在分布空間,學(xué)習(xí)跨模態(tài)信息。為同時(shí)學(xué)習(xí)具有判別能力的身份信息和跨模態(tài)信息,CDRA算法將三種損失函數(shù)有機(jī)結(jié)合,學(xué)習(xí)不同模態(tài)人臉的公共潛在空間和特征表示。
L=LDSR+γLCMA+δLGDA,
(9)
其中γ和δ系數(shù)表示CMA損失函數(shù)和GDA損失函數(shù)的權(quán)重。γ和δ系數(shù)在訓(xùn)練的不同階段將被設(shè)置不同的權(quán)重值,有利于逐步實(shí)現(xiàn)特征表示對(duì)齊。在特征對(duì)齊表示的基礎(chǔ)上,不僅可以直接從潛在特征表示空間提取到模態(tài)不變的特征,而且可以由解碼器解碼潛在特征得到相應(yīng)模態(tài)的生成人臉。具體細(xì)節(jié)將在下節(jié)中介紹。
基于對(duì)齊特征表示的跨模態(tài)人臉識(shí)別(CDRA)算法采用基于卷積神經(jīng)網(wǎng)絡(luò)的VAE模型[21]學(xué)習(xí)含有高層語義信息的特征。如圖2是基于卷積神經(jīng)網(wǎng)絡(luò)的VAE模型的結(jié)構(gòu)框圖:
圖2 基于卷積神經(jīng)網(wǎng)絡(luò)的VAE模型的結(jié)構(gòu)框圖Fig.2 Framework of VAE model based on convolutional neural network
(1)編碼器由4個(gè)卷積層組成,卷積核為4×4,通過將步長(zhǎng)設(shè)置為2實(shí)現(xiàn)下采樣。在每個(gè)卷積層后都添加批量歸一化(Batch Normalization,BN)來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),并使用帶泄露修正線性單元(Leaky ReLU)函數(shù)作為激活函數(shù)。
(2)在編碼器中加入兩個(gè)全連接的輸出層,分別用于計(jì)算均值和方差,均值和方差將用于計(jì)算潛在特征表示和KL散度。
(3)解碼器的卷積核設(shè)置為3×3,步長(zhǎng)設(shè)置為1,通過最近鄰法實(shí)現(xiàn)上采樣。
在基于卷積神經(jīng)網(wǎng)絡(luò)的VAE中,編碼器和解碼器的結(jié)構(gòu)大致對(duì)稱:編碼器實(shí)現(xiàn)學(xué)習(xí)到能夠表示輸入樣本的潛在特征表示;解碼器由潛在特征表示逐步上采樣,實(shí)現(xiàn)從低分辨率重構(gòu)樣本中重建出高分辨率的重構(gòu)樣本。
在模型的訓(xùn)練階段,CDRA算法模型首先通過DSR損失函數(shù)訓(xùn)練VAE學(xué)習(xí)模態(tài)內(nèi)具有判別能力的信息。在變分自動(dòng)編碼器學(xué)會(huì)對(duì)特定模態(tài)進(jìn)行編碼之后,通過CMA損失函數(shù)和GDA損失函數(shù)約束模型將不同模態(tài)的特征映射到公共的潛在空間,實(shí)現(xiàn)精確的特征對(duì)齊。
CDRA算法模型采用warm up策略預(yù)熱損失函數(shù)的權(quán)重并使用貝葉斯優(yōu)化(Bayesian Optimization)確定權(quán)重值,初始值設(shè)置均為0,然后以不同的步長(zhǎng)增長(zhǎng),如圖3所示:δ從第6個(gè)epoch開始到第44個(gè)epoch為止,以0.27為步長(zhǎng)遞增;γ從第21個(gè)epoch開始到第150個(gè)epoch為止,以0.022為步長(zhǎng)遞增;對(duì)于KL散度損失的β系數(shù),從第0個(gè)epoch開始到第180個(gè)epoch為止,以0.001 3為步長(zhǎng)遞增。為進(jìn)一步增強(qiáng)潛在特征表示的判別能力,學(xué)習(xí)得到的潛在特征表示還將輸入到softmax層。softmax損失函數(shù)從第50個(gè)epoch開始起作用。
圖3 CDRA算法損失函數(shù)中基于warm up更新的參數(shù)權(quán)重值Fig.3 Weight parameters updated by warm up strategy in CDRA method′s loss functions
在測(cè)試階段,CDRA算法模型通過可視化人臉生成的效果和人臉識(shí)別的準(zhǔn)確率對(duì)學(xué)習(xí)得到的對(duì)齊潛在特征表示的效果進(jìn)行驗(yàn)證:
(1)在人臉生成的實(shí)驗(yàn)中,A模態(tài)的人臉輸入模態(tài)A的編碼器得到模態(tài)A到人臉特征表示,將該特征輸入到模態(tài)A的解碼器中,則能夠重建出模態(tài)A的人臉,而輸入到模態(tài)B的解碼器,將重建出模態(tài)B的人臉。
(2)在人臉識(shí)別的實(shí)驗(yàn)中,模態(tài)A的人臉圖像和模態(tài)B的人臉圖像分別輸入到模態(tài)A的編碼器和模態(tài)B的編碼器中,模態(tài)A的編碼器和模態(tài)B的編碼器將兩種模態(tài)映射到公共的潛在特征表示空間,二者對(duì)齊的潛在特征表示將作為最終輸出的人臉特征,直接用于人臉識(shí)別中。
本文提出CDRA算法在經(jīng)典的姿態(tài)人臉數(shù)據(jù)集Multi-Pie[22]近紅外光和可見光人臉數(shù)據(jù)庫CASIA NIR-VIS 2.0[23]上進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析和總結(jié)。在Multi-Pie[22]和CASIA NIR-VIS 2.0[23]數(shù)據(jù)集中均包含兩種人臉模態(tài),因此,n=2。
Multi-Pie:Multi-Pie[22]數(shù)據(jù)集用于姿態(tài)人臉對(duì)正臉的識(shí)別。數(shù)據(jù)集中前200人的圖像(共計(jì)161 460張)作為訓(xùn)練集,剩余137人的圖像作為測(cè)試集,包括probe集 (共72 000張)和gallery集(共137張)。其中正臉作為一種模態(tài),包含姿態(tài)變化的人臉作為另一種模態(tài)。
CASIA NIR-VIS 2.0:CASIA NIR-VIS 2.0[23]數(shù)據(jù)集是目前最大和最具挑戰(zhàn)性的可見光(VIS)和近紅外光(NIR)異構(gòu)人臉識(shí)別數(shù)據(jù)庫。它包括725人,每個(gè)人有1~22張可見光和5~50張近紅外光圖像,分為10個(gè)子集。訓(xùn)練集含有來自360人的大約2 500張可見光和6 100張近紅外圖像。在測(cè)試集中,gallery集中包含358人的可見光圖像,每個(gè)人只有一張圖像,probe集包含著358人的6 000多張近紅外圖像。
潛在特征表示維度是CDRA算法模型中,唯一需要進(jìn)行手動(dòng)選擇的參數(shù)。因此,本節(jié)通過實(shí)驗(yàn)分析模型中潛在特征表示的維度對(duì)模型性能的影響,從而確定模型中公共潛在空間的最佳特征維度。
實(shí)驗(yàn)結(jié)果如圖4所示,隨著特征維度的增加,人臉識(shí)別的準(zhǔn)確率總體呈現(xiàn)先上升后下降的趨勢(shì)。在維度為128時(shí),人臉識(shí)別準(zhǔn)確率在兩個(gè)數(shù)據(jù)庫上均到達(dá)頂峰。原因主要有以下兩點(diǎn):(1)潛在特征表示的維度越大,模型的復(fù)雜程度和靈活度也越高,就能夠?qū)W習(xí)到性能更好的特征表示;(2)潛在特征表示是對(duì)輸入人臉數(shù)據(jù)的壓縮表示,能夠?qū)W習(xí)到人臉數(shù)據(jù)中最重要的特征表示。但是,如果維度太大,潛在特征空間會(huì)學(xué)習(xí)到人臉數(shù)據(jù)中不太重要的信息,反而會(huì)降低模型的特征表示能力。
圖4 潛在特征表示維度對(duì)人臉識(shí)別準(zhǔn)確率的影響Fig.4 Face recognition accuracy rates with different latent feature dimensions
潛在特征表示維度的選取需要兼顧模型的復(fù)雜度和性能,因此,根據(jù)實(shí)驗(yàn)結(jié)果和分析,在后續(xù)實(shí)驗(yàn)中,選取的特征維度為128。
為了確定DSR,CMA和GDA損失函數(shù)的影響,在不改變網(wǎng)絡(luò)結(jié)構(gòu)的前提下,本實(shí)驗(yàn)將采用不同損失函數(shù)的組合對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和測(cè)試。不同損失函數(shù)的組合包括LDSR,LDSR+γLCMA,LDSR+δLGDA和LDSR+γLCMA+δLGDA。
如圖5所示,由于基于LDSR訓(xùn)練的模型僅在模態(tài)內(nèi)學(xué)習(xí)表示單一模態(tài)的信息,而不能獲取不同模態(tài)之間的相關(guān)性,因而學(xué)習(xí)得到的模型的跨模態(tài)人臉識(shí)別準(zhǔn)確率最低?;贚DSR+γLCMA和LDSR+δLGDA訓(xùn)練的模型通過在圖像空間或潛在分布空間對(duì)齊潛在特征表示,提高了跨模態(tài)人臉識(shí)別準(zhǔn)確率。而基于LDSR+γLCMA+δLGDA訓(xùn)練的模型相比于基于LDSR+γLCMA和LDSR+δLGDA訓(xùn)練的模型在Multi-Pie和CASIA NIR-VIS 2.0數(shù)據(jù)集上準(zhǔn)確率均有較大幅度提升。這證明在圖像空間和潛在分布空間同時(shí)對(duì)齊分布,能夠建立圖像空間和潛在分布空間的內(nèi)在聯(lián)系,有利于潛在特征表示學(xué)習(xí)到更具有判別能力的跨模態(tài)信息。
圖5 損失函數(shù)對(duì)人臉識(shí)別準(zhǔn)確率的影響Fig.5 Face recognition accuracy rates with different loss functions
CDRA算法在姿態(tài)人臉數(shù)據(jù)集Multi-Pie上不同角度變化的人臉對(duì)正臉的識(shí)別。在該數(shù)據(jù)集上,本文使用人臉識(shí)別的準(zhǔn)確率(識(shí)別正確的樣本/樣本總數(shù))作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表1所示。
表1 Multi-Pie數(shù)據(jù)庫上的人臉識(shí)別準(zhǔn)確率
實(shí)驗(yàn)結(jié)果表明,隨著人臉變化角度的增加,人臉紋理信息丟失的越來越多,因而所有方法的人臉識(shí)別準(zhǔn)確性都隨著角度的增加而下降。FIP+LDA[24]和MVP+LDA[25]算法在提取到對(duì)姿態(tài)魯棒的特征后,利用LDA進(jìn)一步提高特征的判別能力。而CPF[26],DR-GAN[17]和CAPG-GAN[27]算法通過對(duì)姿態(tài)進(jìn)行編碼,指導(dǎo)網(wǎng)絡(luò)合成正臉。不同于上述方法,CDRA算法通過DSR損失函數(shù)學(xué)習(xí)具有判別能力的信息,然后通過CMA和GDA損失函數(shù)在圖像空間和潛在分布空間學(xué)習(xí)跨模態(tài)信息,從而減少含有角度變化的人臉與正臉之間的潛在特征表示差異。因此,CDRA算法不僅能夠在潛在特征分布空間學(xué)習(xí)到對(duì)姿態(tài)魯棒的人臉特征,而且能夠從公共的潛在特征空間中解碼重建出正臉圖像。如圖6所示,是CDRA算法人臉合成的效果圖。其中,a,c,e行是含有姿態(tài)變化的原始人臉,b,d,f行是合成的正臉。經(jīng)觀察可知,CDRA算法對(duì)人臉的一些外觀細(xì)節(jié)實(shí)現(xiàn)了較為真實(shí)的合成,這表明不同模態(tài)的潛在特征表示不僅實(shí)現(xiàn)了精準(zhǔn)對(duì)齊,而且包含具有判別能力的身份信息和結(jié)構(gòu)信息。
圖6 CDRA算法的人臉合成效果Fig.6 Visualization of face synthesis of CDRA method
CDRA算法在可見光(VIS)和近紅外光(NIR)人臉圖像數(shù)據(jù)集CASIA NIR-VIS 2.0上進(jìn)行VIS-NIR人臉識(shí)別實(shí)驗(yàn),并與現(xiàn)有的最好的算法進(jìn)行比較。在該數(shù)據(jù)集上,本文使用人臉識(shí)別的準(zhǔn)確率和當(dāng)假正類率(FAR)=0.1%時(shí)的真正類率(TAR)值作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果表明,CDRA算法能夠?qū)⒖梢姽馀c近紅外光人臉圖像映射到公共的潛在特征表示空間,有效地減少可見光與近紅外光人臉圖像之間的差異,提高了VIS-NIR人臉識(shí)別的準(zhǔn)確率。
表2 CASIA NIR-VIS 2.0數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果
基于傳統(tǒng)手工設(shè)計(jì)特征的方法KDSR[28]難以克服不同模態(tài)人臉間數(shù)據(jù)分布的差異,學(xué)習(xí)到具有模態(tài)不變性的特征?;谏疃葘W(xué)習(xí)的方法Gabor+RBM[29],IDNet[30],CDL[5],ADFL[31],DVR[3]和Peng等.[33]得益于深度特征具有更強(qiáng)的表達(dá)能力[32],在VIS-NIR人臉識(shí)別中表現(xiàn)出較為出色的性能。本文提出的CDRA算法不僅在圖像空間對(duì)可見光和近紅外光人臉進(jìn)行對(duì)齊,而且在潛在高斯分布空間對(duì)可見光和近紅外光人臉的潛在特征分布進(jìn)行對(duì)齊,從而在不同的空間學(xué)習(xí)到不同模態(tài)之間更強(qiáng)的關(guān)聯(lián)信息。
CDRA方法在CUHK-CUFS[34]數(shù)據(jù)集上進(jìn)行人臉生成的實(shí)驗(yàn)。該數(shù)據(jù)集包含素描人臉和照片人臉,CDRA模型中的編碼器將素描人臉和照片人臉映射到同一潛在特征空間,而解碼器將潛在特征解碼為照片人臉和素描人臉。因此,CDRA模型可同時(shí)實(shí)現(xiàn)由人臉照片和人臉?biāo)孛璁嬒竦幕ハ噢D(zhuǎn)換,即由照片生成素描人臉和由素描人臉生成照片。
本文將CDRA方法與非GAN類方法和GAN類方法的生成人臉進(jìn)行可視化對(duì)比,實(shí)現(xiàn)結(jié)果如圖7和圖8所示。非GAN類方法(MWF[35],SSD[36],RSLCR[37],F(xiàn)CN[38])生成的圖像通常呈現(xiàn)較為模糊的效果,而GAN類方法(GAN[39],CycleGAN[40],DualGAN[41],CSGAN[42],EGGAN[43])生成的圖像包含較為豐富的紋理和細(xì)節(jié)信息。但是非GAN類方法生成的圖像與原始圖像的相似性更高,而GAN類方法生成的圖像在相似性保持方面表現(xiàn)不足。本文提出的CDRA方法更傾向于保持與原始圖像的相似性,對(duì)于眼睛、鼻子等部分的細(xì)節(jié)信息生成效果較好,但是頭發(fā)和衣服部分的生成圖像較為粗糙。這是因?yàn)樽兎肿詣?dòng)編碼器的潛在特征空間是學(xué)習(xí)人臉的壓縮表示,會(huì)提取到人臉中結(jié)構(gòu)和五官等重要的信息,忽略不太重要的頭發(fā)、配飾等信息。
圖7 CUHK-CUFS數(shù)據(jù)集中由照片生成素描人臉的效果圖Fig.7 Visualization of the sketch face synthesis from photos in CUHK-CUFS dataset
圖8 CUHK-CUFS數(shù)據(jù)集中由素描生成照片人臉的效果圖Fig.8 Visualization of the photo face synthesis from sketches in CUHK-CUFS dataset
本文使用SSIM作為生成圖像的質(zhì)量評(píng)測(cè)標(biāo)準(zhǔn)。SSIM用于測(cè)量原始人臉與生成人臉之間的結(jié)構(gòu)相似性。
表3和表4是CDRA與現(xiàn)有方法在CUHK-CUFS和CUHK-CUFSF數(shù)據(jù)集上的SSIM值。本文不僅測(cè)試了由人臉照片生成的人臉?biāo)孛鑸D像的SSIM值,而且測(cè)試了由人臉?biāo)孛鑸D像生成的人臉照片的SSIM值。SSIM的取值范圍是0~1,SSIM值越大表示兩張圖片越相似。實(shí)驗(yàn)結(jié)果表明,由人臉照片生成的人臉?biāo)孛鑸D像的SSIM值要整體低于由人臉?biāo)孛鑸D像生成的人臉照片的SSIM值。這是因?yàn)樵诶L制人臉的素描圖像時(shí),繪制者的手法不同,但是模型是所有繪制手法的統(tǒng)一表示。因此,由人臉照片生成素描圖像比由素描圖像生成人臉照片更加困難。
表4 由素描人臉生成照片人臉的SSIM值
表3 由照片人臉生成素描人臉的SSIM值
非GAN類方法在SSIM上的表示要優(yōu)于GAN類方法,原因是GAN類方法傾向于合成具有清晰紋理的圖像,卻容易忽略保持人臉的結(jié)構(gòu)相似性。本文提出CDRA方法在非GAN類方法和GAN類方法中均獲得較高的SSIM值。CDRA在圖像空間的對(duì)齊使得圖像獲得紋理信息,在特征空間的對(duì)齊保證同一個(gè)體的人臉保持相似性信息,從而使得生成的人臉圖像獲得了較好的結(jié)構(gòu)相似性。
本文提出了一種基于對(duì)齊特征表示的跨模態(tài)人臉識(shí)別算法(CDRA)。該算法基于VAE模型,利用DSR損失函數(shù),促使CDRA算法模型從每一種人臉模態(tài)中學(xué)習(xí)到具有判別能力的身份信息。在此基礎(chǔ)上,CMA和GDA的損失函數(shù)協(xié)同作用,在圖像空間和潛在分布空間對(duì)不同人臉模態(tài)的潛在特征表示進(jìn)行了有效的對(duì)齊,從而在不同的空間維度進(jìn)一步增強(qiáng)了不同模態(tài)間的關(guān)聯(lián)性。CDRA算法在不同的跨模態(tài)人臉識(shí)別任務(wù)中均表現(xiàn)出色,在Multi-Pie數(shù)據(jù)集上的人臉識(shí)別的準(zhǔn)確率的平均值為97.2%,在CASIA NIR-VIS 2.0數(shù)據(jù)集上的人臉識(shí)別準(zhǔn)確率為99.4%±0.2%,同時(shí)在CUHK-CUFS數(shù)據(jù)集的人臉跨模態(tài)生成實(shí)驗(yàn)中表現(xiàn)出較好的人臉結(jié)構(gòu)相似性和局部細(xì)節(jié)描述能力。綜上所述,CDRA算法具有良好的判別能力和泛化能力。