劉英芳,王 松,2,馬亞彤
(1.蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070;2.甘肅省人工智能與圖形圖像處理工程研究中心,蘭州 730070)
隨著人臉識(shí)別技術(shù)在人機(jī)交互[1]、視頻監(jiān)控[2-3]、圖像檢索[4-5]等場(chǎng)景的廣泛應(yīng)用,人臉屬性分類(Face Attribute Classification,F(xiàn)AC)成為了計(jì)算機(jī)視覺方向研究的熱點(diǎn)問題之一,屬性分類的準(zhǔn)確性和實(shí)時(shí)性備受關(guān)注。然而,姿態(tài)、光照等因素的不確定性給人臉屬性分類帶來較大困難。傳統(tǒng)人臉屬性識(shí)別方法通過人工標(biāo)注特征,容易受到環(huán)境影響且識(shí)別過程耗時(shí)長(zhǎng),識(shí)別準(zhǔn)確性又依賴于特征標(biāo)注的有效性,識(shí)別效果不理想。在這種情況下,現(xiàn)有方法多數(shù)利用深度學(xué)習(xí)技術(shù)的端到端識(shí)別特點(diǎn),開展基于深度學(xué)習(xí)的人臉屬性識(shí)別。
基于深度學(xué)習(xí)[6-8]的人臉屬性識(shí)別方法避免了人工提取特征的不完備性,相較于傳統(tǒng)方法表現(xiàn)更加出色,在當(dāng)今研究中占據(jù)主導(dǎo)地位。RUDD 等[9]使用多任務(wù)方法同時(shí)學(xué)習(xí)多個(gè)屬性標(biāo)簽,提出混合目標(biāo)優(yōu)化網(wǎng)絡(luò)(MOON)以處理數(shù)據(jù)集中多標(biāo)簽不平衡問題,使用最小均方損失得到多個(gè)預(yù)測(cè)分?jǐn)?shù),減少回歸誤差。MAO 等[10]設(shè)計(jì)深度多任務(wù)多標(biāo)簽網(wǎng)絡(luò)(DMM-CNN),通過多任務(wù)學(xué)習(xí)方法提升屬性識(shí)別性能,從主觀和客觀角度將屬性劃分為兩組,設(shè)計(jì)兩種網(wǎng)絡(luò)分別提取特征。ZHENG 等[11]提出雙向階梯注意力網(wǎng)絡(luò)(BLAN)得到層次表示,設(shè)計(jì)殘差雙重注意力模塊連接局部和全局屬性的層次特征。姚樹婧等[12]提出FD-SDGCN 網(wǎng)絡(luò)結(jié)構(gòu),通過特征解耦模塊,獲得不同屬性的對(duì)應(yīng)特征,然后聯(lián)合不同屬性間關(guān)系的動(dòng)態(tài)圖和靜態(tài)圖以更好地識(shí)別人臉屬性。HAND 等[13]認(rèn)為屬性之間存在聯(lián)系,通過構(gòu)建多任務(wù)網(wǎng)絡(luò)(MCNN-AUX),達(dá)到屬性之間的信息共享。HUANG 等[14]通過一種貪婪神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(GNAS)方法自動(dòng)生成有效的網(wǎng)絡(luò),克服了人工設(shè)計(jì)網(wǎng)絡(luò)在應(yīng)用中的不靈活問題。ZHUANG 等[15]提出一種新的級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)方法(MCFA),用于同時(shí)預(yù)測(cè)多個(gè)人臉屬性,利用3 個(gè)級(jí)聯(lián)的子網(wǎng)絡(luò),對(duì)多個(gè)任務(wù)進(jìn)行由粗到精的聯(lián)合訓(xùn)練,實(shí)現(xiàn)端到端優(yōu)化。SAVCHENKO[16]研究基于輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)框架,提出基于MobileNet、EfficientNet 和RexNet 架構(gòu)的模型,用 于無裁剪情況下的面部屬性分類和人臉識(shí)別。LIU等[17]提出一種自適應(yīng)多層感知注意力網(wǎng)絡(luò)(AMPNet),利用不同的細(xì)粒度特征提取面部全局、局部和顯著特征,學(xué)習(xí)面部關(guān)鍵信息且對(duì)遮擋和姿態(tài)具有魯棒性,提高了潛在面部多樣性信息學(xué)習(xí)的有效性。
綜上所述,現(xiàn)有的基于深度學(xué)習(xí)的人臉屬性識(shí)別方法基本采用多任務(wù)學(xué)習(xí)框架,通過屬性分組反映不同屬性間的關(guān)系,但屬性分組策略多數(shù)根據(jù)屬性位置信息,人為地劃分為不同的屬性組而未深入考慮屬性相關(guān)程度的強(qiáng)弱。此外,在提取特征的過程中,多數(shù)網(wǎng)絡(luò)模型忽略了層間語義信息的作用,導(dǎo)致特征提取不充分,識(shí)別準(zhǔn)確度不高。針對(duì)以上問題,本文提出結(jié)合多尺度特征融合和任務(wù)分組的人臉屬性識(shí)別模型(Slim-FAC),實(shí)現(xiàn)對(duì)人臉屬性的有效識(shí)別,主要工作包括:1)在Slim-CNN 網(wǎng)絡(luò)的基礎(chǔ)上,通過兩個(gè)特征融合模塊融合不同層之間的語義信息;2)通過中心核對(duì)齊和譜聚類(Centered Kernel Alignment-Spectral Clustering,CKA-SC)分組策略進(jìn)行屬性分組,將相關(guān)性強(qiáng)的屬性劃分在同一個(gè)分支,有利于在識(shí)別每種屬性時(shí)能夠利用相關(guān)屬性的特征信息;3)引入ECA 注意力機(jī)制,提高特征利用率,加強(qiáng)對(duì)目標(biāo)區(qū)域的關(guān)注;4)考慮任務(wù)權(quán)重對(duì)于模型性能的影響,通過不確定性加權(quán)(Uncertainty Weighting,UW)方法來平衡不同任務(wù)之間的損失值,自動(dòng)調(diào)整任務(wù)的相對(duì)權(quán)重,達(dá)到優(yōu)化模型的目的。
Slim-CNN[18]是一個(gè)輕量級(jí)網(wǎng)絡(luò)模型,通過輕量化模塊(Slim Module)構(gòu)造深度神經(jīng)網(wǎng)絡(luò),在降低模型參數(shù)量的同時(shí)保證模型性能良好。Slim-CNN 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版),使用輕量化模塊作為深度神經(jīng)網(wǎng)絡(luò)構(gòu)建塊,4 個(gè)輕量化模塊堆疊在一起,構(gòu)成網(wǎng)絡(luò)特征提取部分。
圖1 Slim-CNN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Slim-CNN network structure
Slim Module 和可分離的壓縮擴(kuò)展(Separable Squeeze-Expand,SSE)模塊(SSE Block)結(jié)構(gòu)如圖2所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。Slim Module 由2 個(gè)可分離的SSE Block 以及1 個(gè)深度可分離卷積構(gòu)成,第1 個(gè)SSE Block 上存在跳躍連接,第2 個(gè)SSE Block 的輸入為第1 個(gè)SSE Block 的輸入和輸出之和。SSE Block 由2 個(gè)1×1 逐點(diǎn)卷積和1 個(gè)3×3 深度可分離卷積組成多層排列結(jié)構(gòu)。第1 層為擠壓層,特征維度低于特征表示的前一層。第2 層為擴(kuò)展層,由1×1 逐點(diǎn)卷積和3×3 深度可分離卷積形成串聯(lián)結(jié)構(gòu),增加輸出通道的數(shù)量。
經(jīng)典的神經(jīng)網(wǎng)絡(luò)對(duì)于設(shè)備性能要求高且計(jì)算量大,輕量化網(wǎng)絡(luò)提高了計(jì)算效率,降低了對(duì)設(shè)備的要求?,F(xiàn)有的一系列輕量化的神經(jīng)網(wǎng)絡(luò)在特征提取過程中通過卷積操作獲得圖像的單尺度特征,會(huì)出現(xiàn)圖像特征提取能力弱的問題。多數(shù)人臉屬性識(shí)別模型在需要識(shí)別多個(gè)人臉屬性的情況下未充分考慮屬性之間相關(guān)性的強(qiáng)弱。本文在Slim-CNN 的基礎(chǔ)上,建立一種結(jié)合特征融合和任務(wù)分組的人臉屬性識(shí)別模型,整體框架如圖3 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。該模型主要分為兩個(gè)部分:
圖3 結(jié)合特征融合和任務(wù)分組的人臉屬性識(shí)別模型整體框架Fig.3 Overall framework of face attribute recognition model combining feature fusion and task grouping
1)參數(shù)共享部分。在Slim-CNN 的基礎(chǔ)上,通過兩個(gè)特征融合模塊,克服原有網(wǎng)絡(luò)特征提取不充分,識(shí)別準(zhǔn)確度不高的問題。通過參數(shù)共享的形式達(dá)到信息共享的目的,提升屬性識(shí)別準(zhǔn)確率的同時(shí)減少了模型參數(shù)量。
2)分支部分。通過CKA-SC 分組策略將40 個(gè)屬性劃分為6 組,克服了依據(jù)位置信息劃分屬性組對(duì)屬性相關(guān)性考慮不充分的問題。在分支部分,通過ECA 注意力機(jī)制增強(qiáng)有用信息的利用。使用二元交叉熵?fù)p失函數(shù),每個(gè)分支部分得到一個(gè)損失值,通過不確定性加權(quán)方法自動(dòng)調(diào)整每組任務(wù)損失之間的相對(duì)權(quán)重,以提高模型性能。
在使用卷積神經(jīng)網(wǎng)絡(luò)提取特征過程中,淺層提取的特征分辨率高且包含更多細(xì)節(jié)信息,但是包含的噪聲多且語義性不強(qiáng);深層提取的特征噪聲更少,但缺乏細(xì)節(jié)信息,分辨率低。將不同層的特征融合可以更好地表示特征。相關(guān)研究[19]表明,神經(jīng)網(wǎng)絡(luò)的中層特征在人臉屬性識(shí)別中表現(xiàn)出極為重要的作用,受此啟發(fā),通過兩個(gè)特征融合結(jié)構(gòu)實(shí)現(xiàn)不同尺度特征的有效利用,以此提高人臉屬性識(shí)別的性能。
1)融合模塊1
當(dāng)人臉圖像目標(biāo)特征不明顯時(shí),出現(xiàn)特征提取困難的問題,影響人臉屬性識(shí)別的準(zhǔn)確率,而且隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深,語義信息逐漸豐富,提取的特征圖逐漸變小,分辨率逐漸降低,融合模塊1 通過融合特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[20]連接淺層特征和深層特征,構(gòu)建不同尺寸的特征金字塔結(jié)構(gòu),更充分地利用特征信息。
特征金字塔融合結(jié)構(gòu)如圖4 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版),左側(cè)為Slim-CNN,通過自下而上的方式提取語義信息。C1、C2、C3、C4、C5分別對(duì)應(yīng)Slim-CNN 特征提取過程中5 個(gè)階段的特征輸出,選擇C3、C4、C5這3 個(gè)階段的信息進(jìn)行特征融合。在提取人臉圖像的高層語義特征后,通過自上而下的方式,將經(jīng)過上采樣后的深層語義特征和淺層的細(xì)節(jié)信息相融合。將C5通過1×1 卷積減少通道數(shù)得到特征圖M5,通過上采樣操作后與淺層特征元素相加得到融合特征。M4特征信息包括M5的特征信息和對(duì)應(yīng)的橫向連接信息。M3特征信息包括M4的特征信息和對(duì)應(yīng)的橫向連接信息。特征融合過程表示如下:
圖4 特征金字塔融合結(jié)構(gòu)Fig.4 Feature pyramid fusion structure
其中:f1×1(?)為1×1 的卷積;fup(?)為上采樣操作;⊕為對(duì)應(yīng)元素相加的融合操作。
最后通過3×3 卷積操作消除上采樣的混疊效應(yīng)[21],得到最終P3、P4、P5層的特征。
通過金字塔結(jié)構(gòu)聯(lián)合不同尺度的特征,將淺層和深層信息進(jìn)行融合,獲得更準(zhǔn)確的特征圖。
2)融合模塊2
隨著網(wǎng)絡(luò)深度的增加,在特征提取過程中,網(wǎng)絡(luò)中間層提取特征的信息逐漸減少,使得每個(gè)任務(wù)的特征表示能力降低。通過融合模塊2 將Slim-CNN中stage 4 和stage 5 的特征再次融合。在融合模塊中,將stage 4 的特征通過池化操作來匹配stage 5 特征圖的長(zhǎng)和寬。使用通道連接操作進(jìn)行通道疊加。在串聯(lián)后,采用1×1 卷積進(jìn)行降維,減少融合特征圖的通道數(shù),最后得到stage 4 和stage 5 兩個(gè)階段的特征融合表示。
在原始的Slim-CNN 網(wǎng)絡(luò)的基礎(chǔ)上,通過兩個(gè)特征融合模塊,融合了不同感受野下的人臉屬性的特征信息,聯(lián)合淺層得到的高分辨率低級(jí)特征和深層得到的低分辨率高級(jí)語義特征,有效改善原始人臉圖像中存在的人臉特征信息丟失問題,提升了對(duì)人臉特征信息的利用率,克服了現(xiàn)有人臉屬性識(shí)別模型中存在的特征提取不充分問題。
在識(shí)別人臉屬性時(shí),識(shí)別效果受環(huán)境復(fù)雜度以及光照等因素的影響。為了提高復(fù)雜背景下的人臉屬性的識(shí)別準(zhǔn)確性,通過注意力機(jī)制減少無用信息,將識(shí)別的重點(diǎn)區(qū)域放在人臉部分,有助于從人臉圖像的復(fù)雜背景中獲取目標(biāo)區(qū)域。
ECA[22]是一種輕量化的通道注意力模塊,在增加少量計(jì)算量的情況下,提高模型的分類準(zhǔn)確率,通過一維卷積實(shí)現(xiàn)不降維的局部跨信道交互策略,增強(qiáng)有效特征權(quán)重。ECA 結(jié)構(gòu)如圖5 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。
圖5 ECA 結(jié)構(gòu)Fig.5 ECA structure
輸入大小為F?RC×H×W的特征圖,首先通過全局平均池化操作得到1×1×C的全局描述特征,然后通過卷積核大小為k的一維卷積操作獲得局部的跨通道交互信息,其次通過Sigmoid 函數(shù)得到通道權(quán)重占比,反映通道的重要性,最后輸入的特征圖與權(quán)重進(jìn)行相乘,獲得通道注意力特征。
ECA 根據(jù)輸入特征通道數(shù)C自適應(yīng)地選擇卷積核尺度k,如式(2)所示,無需手動(dòng)調(diào)優(yōu),提高了學(xué)習(xí)性能和效率。
其中:|*|odd為最近鄰奇數(shù);γ=2;b=1。
在ECA 中考慮相鄰?fù)ǖ佬畔⒌慕换ィ瑱?quán)重表示如下:
其中:σ為Sigmoid 激活函數(shù);yi為第i個(gè)通道;wi為通道yi的權(quán)重;Ωki為yi的k個(gè)相鄰?fù)ǖ兰?。使用卷積核大小為k的一維卷積實(shí)現(xiàn)通道注意力模塊,權(quán)重的計(jì)算公式表示如下:
其中:C1Dk為卷積核大小為k的一維卷積操作;y表示通道。
人臉的屬性之間有不同程度的相關(guān)性,相關(guān)屬性之間的特征相互輔助,以提高屬性的識(shí)別準(zhǔn)確度。多數(shù)現(xiàn)有研究基于位置對(duì)屬性進(jìn)行手動(dòng)分組,屬性的相關(guān)性考慮不充分,本文進(jìn)一步考慮屬性之間的相關(guān)性。屬性之間相關(guān)性的強(qiáng)弱由CKA[23]計(jì)算得到并以矩陣形式表示。CKA 是一種核度量方法[24],基于核對(duì)齊的概念計(jì)算兩個(gè)核矩陣(核函數(shù))之間的相關(guān)性。
設(shè)需要比較的兩層網(wǎng)絡(luò)中的神經(jīng)元的個(gè)數(shù)分別為p、p,樣本個(gè)數(shù)為n,得到的表征矩陣,基于點(diǎn)積的相關(guān)性表示如下:
根據(jù)HSIC[25]的表達(dá)式,將X、Y中的列通過核函數(shù)對(duì)應(yīng) 到K、L上,使 得Ki,j=k(xi,xj)、Li,j=l(yi,yj),得到HSIC 的經(jīng)驗(yàn)估計(jì)值:
以單屬性模型不同層的CKA 平均值作為兩個(gè)任務(wù)的相關(guān)程度表示,得到矩陣A以表示單任務(wù)之間的相關(guān)性:
其中:m、n分別為第m個(gè)屬性(任務(wù))、第n個(gè)屬性(任務(wù));Tm,i、Tn,i分別表示m、n兩個(gè)單屬性模型中的第i層;s表示模型層數(shù),以單屬性模型中對(duì)應(yīng)層相關(guān)性的平均值作為兩個(gè)屬性的相關(guān)性系數(shù)。使用CKA 計(jì)算不同模型層與層之間相關(guān)性的優(yōu)點(diǎn)在于通過對(duì)核矩陣的中心化處理有效解決了因原點(diǎn)遠(yuǎn)離映射樣本而導(dǎo)致的核信息表達(dá)能力降低問題。
由于以客觀衡量單屬性之間的相關(guān)性為基礎(chǔ),需要得到屬性分組,因此本文提出CKA-SC 分組策略。CKA 用來衡量神經(jīng)網(wǎng)絡(luò)中層與層之間表示的相關(guān)性,以CKA 計(jì)算結(jié)果作為相關(guān)性指數(shù),再利用譜聚類[26]得到屬性分組結(jié)果。譜聚類以圖論為基礎(chǔ),通過圖的最優(yōu)劃分解決分組問題。利用CKA 度量CelebA 數(shù)據(jù)集中40 種屬性之間的相關(guān)性,將每個(gè)需要識(shí)別的屬性抽象為圖的頂點(diǎn),由CKA 計(jì)算得到的屬性之間的相關(guān)程度的平均值作為不同頂點(diǎn)(屬性)之間連接邊的權(quán)重(相關(guān)性)。將圖通過譜聚類算法劃分得到若干子圖。在劃分之后的子圖內(nèi)部相關(guān)性要盡可能大,子圖之間的相關(guān)性要盡可能小。根據(jù)劃分結(jié)果,將同一子圖內(nèi)的屬性識(shí)別任務(wù)放在模型的同一個(gè)分支中,共享相同的特征提取模塊,提高模型性能。
通過分組策略將CelebA 數(shù)據(jù)集的40 種屬性劃分成6 組,組內(nèi)屬性信息互補(bǔ),反映了屬性識(shí)別受屬性關(guān)系的影響,分組結(jié)果如表1 所示。
表1 屬性分組結(jié)果Table 1 Results of the attribute grouping
人臉屬性識(shí)別是一個(gè)多標(biāo)簽分類問題。使用二分類交叉熵?fù)p失(Binary Cross Entropy Loss,BCELoss)作為每個(gè)任務(wù)中的損失函數(shù)。將每個(gè)組視為一個(gè)獨(dú)立的任務(wù),第i個(gè)任務(wù)Ltask,i定義如下:
其 中:yn,i、xn,i分別表示第i個(gè)任務(wù)的第n個(gè)屬性的標(biāo)簽和預(yù)測(cè)結(jié)果。
使用不確定性加權(quán)[27]平衡6 組任務(wù)之間的損失函數(shù)的權(quán)重,不確定性加權(quán)使用同方差不確定性平衡任務(wù)損失,最終的損失函數(shù)表示如下:
其中:σi是噪聲參數(shù),可通過反向傳播進(jìn)行更新為每個(gè)任務(wù)損失函數(shù)的權(quán)重;logaσi是正則項(xiàng),控制噪聲參數(shù)不會(huì)增加太多。
實(shí)驗(yàn)環(huán)境為:Windows 10 操作系 統(tǒng),Intel?CoreTMi7-10875H CPU@2.3 GHz,顯卡NVIDIA Geforce RTX 2060,采用PyCharm 2020.1 x64 作為開發(fā)環(huán)境。
為了驗(yàn)證Slim-FAC 的有效性,在CelebA 數(shù)據(jù)集[28]上進(jìn)行實(shí)驗(yàn)評(píng)估和分析。CelebA 數(shù)據(jù)集包括202 599 張人臉圖像,用40 種人臉屬性進(jìn)行標(biāo)注。數(shù)據(jù)分為訓(xùn)練集(162 770 張圖像)、驗(yàn)證集(19 867 張圖像)和測(cè)試集(19 962 張圖像)。
實(shí)驗(yàn)以開源的深度學(xué)習(xí)框架PyTorch 為基礎(chǔ)實(shí)現(xiàn),學(xué)習(xí)率設(shè)置為0.001,批處理大小為128,訓(xùn)練總輪次為50。現(xiàn)有模型多數(shù)以人臉屬性識(shí)別準(zhǔn)確率作為評(píng)價(jià)指標(biāo),本文也采用相同的指標(biāo)評(píng)價(jià)Slim-FAC,并取10 次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果。
為了分析人臉屬性劃分組數(shù)對(duì)模型性能的影響,將屬性分別劃分為5、6、7、8 組進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2 所示。由表2 可以看出,將屬性劃分為6 組時(shí)模型識(shí)別效果最好,最終將40 種屬性劃分成6 組。
表2 不同屬性組數(shù)的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different number of attribute groups
將文獻(xiàn)[13]分組策略應(yīng)用于Slim-FAC,結(jié)果如表3 所示,分析可得在模型相同的情況下,CKA-SC分組策略優(yōu)于文獻(xiàn)[13]分組策略,證實(shí)了CKA-SC分組策略的有效性。
表3 不同分組策略的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different grouping strategies %
為了直觀反映Slim-FAC 中的特征融合、CKA-SC分組策略、ECA 注意力機(jī)制與不確定性加權(quán)等對(duì)模型性能的影響,通過消融實(shí)驗(yàn)進(jìn)行證明,在原Slim-CNN 上依次添加不同模塊進(jìn)行訓(xùn)練和測(cè)試,以人臉屬性識(shí)別準(zhǔn)確率作為評(píng)價(jià)指標(biāo),驗(yàn)證Slim-FAC的有效性,并給出了不同模型在CelebA 數(shù)據(jù)集上所需的訓(xùn)練時(shí)間,如表4 所示,其中√表示具有該模塊。
表4 不同模型的訓(xùn)練時(shí)間對(duì)比Table 4 Comparison of training time for different models 單位:h
消融實(shí)驗(yàn)結(jié)果如圖6 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版),由圖6 可以得出:
圖6 CelebA 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果對(duì)比Fig.6 Comparison of the results of ablation experiments on the CelebA dataset
1)在CelebA 數(shù)據(jù)集 上,Slim-FAC 及其變 體(Variant 1、Variant 2、Variant 3、Variant 4)對(duì)于人臉屬性的識(shí)別效果總體優(yōu)于Baseline,其中Slim-FAC 的準(zhǔn)確率最高,說明了特征融合、ECA 注意力機(jī)制、CKA-SC 分組策略以及不確定性加權(quán)等都可使模型性能提升,Slim-FAC 更能有效學(xué)習(xí)人臉屬性間的關(guān)系表示,提高相關(guān)屬性的識(shí)別準(zhǔn)確率。
2)分析Variant 1 及Variant 2 的實(shí)驗(yàn)結(jié)果可得,通過兩個(gè)特征融合模塊將不同尺度的特征聯(lián)合用于人臉屬性識(shí)別,模型性能有所提升,驗(yàn)證了不同尺度特征對(duì)于人臉屬性識(shí)別的有效性;分析Variant 3 的實(shí)驗(yàn)結(jié)果可得,通過任務(wù)分組將相關(guān)性強(qiáng)的任務(wù)劃分到同一個(gè)組,通過相關(guān)信息的共享進(jìn)一步提高了屬性識(shí)別的準(zhǔn)確率;分析Variant 4 的實(shí)驗(yàn)結(jié)果可得,通過ECA 注意力機(jī)制減少了無用信息,從人臉圖像的復(fù)雜背景能更準(zhǔn)確地獲取目標(biāo)區(qū)域;分析Slim-FAC的實(shí)驗(yàn)結(jié)果可得,通過不確定性加權(quán)動(dòng)態(tài)調(diào)整任務(wù)權(quán)重,能獲得更高的平均分類準(zhǔn)確率,說明了使用不確定性加權(quán)方案的有效性。
為了評(píng)估Slim-FAC 的性能,分別比較不同模型的人臉屬性識(shí)別準(zhǔn)確率以及模型參數(shù)量,對(duì)比結(jié)果如表5 所示,最優(yōu)指標(biāo)值用加粗字體表示。由表5 可以得 出:Slim-FAC 以輕量 化Slim-CNN 為 基礎(chǔ)網(wǎng)絡(luò),對(duì)整體框架進(jìn)行改進(jìn),在盡可能獲得較高的人臉屬性識(shí)別準(zhǔn)確率的前提下,使模型參數(shù)量減少。
表5 不同模型在CelebA 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of different methods on the CelebA dataset %
1)人臉屬性識(shí)別準(zhǔn)確率。Slim-FAC 的平均準(zhǔn)確率達(dá)到91.72%,分類誤差為8.28%,相較于MOON[9]、MCNN-AUX[13]、GNAS[14]以 及DMM-CNN[10]平均識(shí)別準(zhǔn)確率提高了0.78、0.43、0.09、0.02 個(gè)百分點(diǎn),分類誤差分別降低了8.61、4.94、1.08、0.24 個(gè)百分點(diǎn)。Slim-FAC 在CelebA 數(shù)據(jù)集 的Bald、Big Lips、Black Hair 等多種屬性上取得了最高的識(shí)別準(zhǔn)確率。
2)模型參數(shù)量。Slim-FAC 參數(shù)量 為1.32×106,分別為MOON、GNAS 以及DMM-CNN 參數(shù)量的1.10%、17.08%以及0.37%,參數(shù)量遠(yuǎn)小于上述3 個(gè)模型,可以部署在存儲(chǔ)資源受限的硬件設(shè)備上。
可見,Slim-FAC 在參數(shù)量顯著降低的情況下保證了對(duì)人臉不同屬性的較高識(shí)別準(zhǔn)確率,證明了Slim-FAC 的有效性。
通過跨數(shù)據(jù)集的方法驗(yàn)證Slim-FAC 的泛化性,將在CelebA 數(shù)據(jù)上訓(xùn)練好的Slim-FAC 在LFWA 數(shù)據(jù)集[28]上進(jìn)行實(shí)驗(yàn),并與MCFA[15]、DMM-CNN[10]和LNets+ANet[28]模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表6 所示。由表6 可以看出,在未做任何微調(diào)的情況下通過跨數(shù)據(jù)集的方法,Slim-FAC 在LFWA 數(shù)據(jù)集上的平均識(shí)別準(zhǔn)確率達(dá)到84.04%,相較其他模型,性能表現(xiàn)更好,驗(yàn)證了Slim-FAC 具備一定的泛化能力。
表6 LFWA 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 6 Experimental results on the LFWA dataset %
為了提高人臉屬性識(shí)別性能,針對(duì)現(xiàn)有人臉屬性識(shí)別模型中存在特征提取不足且未充分考慮不同屬性之間相關(guān)性的問題,在Slim-CNN 的基礎(chǔ)上,建立一種基于多尺度特征融合和任務(wù)分組的Slim-FAC 模型。通過兩個(gè)特征模塊融合了不同尺度的特征信息,有效改善了特征提取過程中存在的特征信息丟失問題,提高了人臉屬性識(shí)別準(zhǔn)確率。利用CKA-SC 分組策略,更加充分地度量了不同屬性相關(guān)性的強(qiáng)弱。同時(shí),引入ECA 注意力機(jī)制減少無用信息,使得人臉屬性識(shí)別效果更好。采用不確定性加權(quán)方法動(dòng)態(tài)調(diào)整每組任務(wù)損失之間的相對(duì)權(quán)重,提升了模型性能。在CelebA 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,Slim-FAC具有較高的人臉屬性識(shí)別準(zhǔn)確率,平均識(shí)別準(zhǔn)確率達(dá)到91.72%,且模型參數(shù)量?jī)H為1.32×106,滿足實(shí)際應(yīng)用需求。但由于當(dāng)前數(shù)據(jù)集中標(biāo)簽存在噪聲,因此下一步將對(duì)噪聲標(biāo)簽進(jìn)行預(yù)處理,構(gòu)建噪聲模型以及通過推理步驟對(duì)噪聲標(biāo)簽進(jìn)行校正,在訓(xùn)練過程中減少噪聲標(biāo)簽對(duì)模型訓(xùn)練過程的影響,進(jìn)一步提高人臉屬性的識(shí)別準(zhǔn)確率。