甘俊英 吳必誠 鄒琪 鄭澤鑫 麥超云 翟懿奎 何國輝
(五邑大學(xué)智能制造學(xué)部,廣東江門 529020)
多任務(wù)學(xué)習(xí)是利用多個相關(guān)任務(wù)的有效信息,來提高多個任務(wù)預(yù)測表現(xiàn)的方法。在深度學(xué)習(xí)領(lǐng)域,多任務(wù)學(xué)習(xí)更多趨向于設(shè)計一種能從多任務(wù)監(jiān)督信息中學(xué)習(xí)共享特征的深度多任務(wù)結(jié)構(gòu);不僅能減少參數(shù)量、推理時間,而且能提高多個任務(wù)的預(yù)測表現(xiàn)。文獻(xiàn)[1]探討了一種以編碼為中心的深度多任務(wù)結(jié)構(gòu),依賴共享編碼器去學(xué)習(xí)共享特征,并將其輸出到任務(wù)具體的頭部結(jié)構(gòu),從而得到每一個任務(wù)的預(yù)測結(jié)果。文獻(xiàn)[2]將輕量級卷積神經(jīng)網(wǎng)絡(luò)作為共享編碼器,以人臉美麗評分預(yù)測和人臉特征定位為任務(wù)來聯(lián)合學(xué)習(xí)人臉表征,基于SCUT-FBP數(shù)據(jù)庫的實(shí)驗(yàn)獲得了較好的效果;但該文獻(xiàn)僅通過簡單共享整個編碼器,未詳細(xì)探討共享編碼器內(nèi)部特征共享的具體單元和具體方式。文獻(xiàn)[3]提出一種結(jié)合局部二值模式和卷積神經(jīng)網(wǎng)絡(luò)的人臉美麗預(yù)測算法,實(shí)驗(yàn)結(jié)果表明在卷積神經(jīng)網(wǎng)絡(luò)中加入紋理圖像能有效提升人臉美麗預(yù)測精度。文獻(xiàn)[4]提出十字繡單元,建立了編碼器中不同任務(wù)特征與特征之間的約束關(guān)系,并可通過改變十字繡單元的位置和權(quán)重來決定不同任務(wù)之間哪些特征被共享以及共享的程度。文獻(xiàn)[5]對十字繡網(wǎng)絡(luò)進(jìn)行改進(jìn),將其部分層網(wǎng)絡(luò)更換為自注意力模塊與長短時記憶模塊,從而實(shí)現(xiàn)層與層之間、模塊與模塊之間的參數(shù)共享?;诖笠?guī)模亞洲人臉美麗數(shù)據(jù)庫(Large Scale Facial Beauty Database,LSFBD)[6]的人臉美麗預(yù)測取得63.95%的準(zhǔn)確率。文獻(xiàn)[7]提出了基于多頭注意力機(jī)制的多模態(tài)維度情感識別方法,分別構(gòu)建音頻模型、視頻模型和多模態(tài)融合模型對信息流進(jìn)行深層特征學(xué)習(xí),最后放入雙向長短時網(wǎng)絡(luò)中得到最終情感預(yù)測值。所提方法相比于不同基線方法在激活度和愉悅度上均取得了最佳的性能。文獻(xiàn)[8]提出一種神經(jīng)辨別性降維(Neural Discriminative Dimensionality Reduction,NDDR)模塊約束特征表達(dá),進(jìn)而提取出共享特征。文獻(xiàn)[9]提出多任務(wù)注意力網(wǎng)絡(luò)(Multi-Task Attention Network,MTAN),利用注意力機(jī)制以一種自監(jiān)督、端對端的方式,自動決定不同任務(wù)之間的共享特征和辨別性特征;這種網(wǎng)絡(luò)結(jié)構(gòu)更具靈活性,可以學(xué)習(xí)更具表現(xiàn)力的特征組合,進(jìn)行跨任務(wù)的泛化,并可為每個任務(wù)定制辨別性特征。
為了使監(jiān)督信息不足、且具有一種標(biāo)簽類型的數(shù)據(jù)庫能夠進(jìn)行多任務(wù)訓(xùn)練,本文擴(kuò)展了MTAN,提出一種雙輸入雙任務(wù)注意力網(wǎng)絡(luò)(Dual-Input Dual-Task Attention Network,DIDTAN)。若簡單擴(kuò)展MTAN 且處理兩種不同分布的數(shù)據(jù)時,則會出現(xiàn)無法兼容的情況,即分布偏移問題[10]。因此,本文在MTAN 的基礎(chǔ)上將任務(wù)共享的批量歸一化層(Batch Normalization,BN)[11]擴(kuò)展為不同任務(wù)特定的BN層,并引入深度相關(guān)對齊(Deep CORrelation ALignment,Deep CORAL)[12]損失函數(shù)約束全連接層的特征表達(dá),從而解決分布偏移問題。為進(jìn)一步提取更為通用的淺層共享特征,本文提出DIDTAN,使用NDDR 模塊約束淺層特征的表達(dá);為避免噪聲標(biāo)簽的影響,引入噪聲標(biāo)簽糾正機(jī)制[13],進(jìn)一步提高該網(wǎng)絡(luò)的泛化能力。
本文的主要貢獻(xiàn)如下:
(1)提出DIDTAN,能使兩種單標(biāo)簽類型數(shù)據(jù)以雙輸入的方式,進(jìn)行雙任務(wù)訓(xùn)練,提高了人臉美麗預(yù)測準(zhǔn)確率。
(2)將DIDTAN 融入噪聲標(biāo)簽糾正機(jī)制,進(jìn)一步提高了網(wǎng)絡(luò)泛化性,避免了噪聲標(biāo)簽的影響。
(3)基于LSFBD 數(shù)據(jù)庫、SCUT-FBP5500 數(shù)據(jù)庫[14]、CelebA 數(shù)據(jù)庫[15]的實(shí)驗(yàn)結(jié)果表明,DIDTAN能提高人臉美麗預(yù)測的準(zhǔn)確率;融入噪聲標(biāo)簽糾正機(jī)制,能進(jìn)一步提高人臉美麗預(yù)測的準(zhǔn)確率。同時,對不同超參數(shù)的結(jié)果進(jìn)行了對比和分析。
本文提出將DIDTAN 融入噪聲標(biāo)簽糾正機(jī)制,應(yīng)用于人臉美麗預(yù)測。其中,DIDTAN 使兩個單標(biāo)簽類型人臉美麗數(shù)據(jù)庫能以雙輸入的方式,進(jìn)行雙任務(wù)訓(xùn)練,充分利用兩個單標(biāo)簽類型人臉美麗數(shù)據(jù)庫的監(jiān)督信息并提高網(wǎng)絡(luò)的泛化性。而DIDTAN融入噪聲標(biāo)簽糾正機(jī)制,進(jìn)一步提高了網(wǎng)絡(luò)泛化性并避免了噪聲標(biāo)簽的影響。整體框圖如圖1 所示,其中,數(shù)據(jù)庫1、2是不同的人臉美麗數(shù)據(jù)庫,包括數(shù)據(jù)和標(biāo)簽兩部分,將數(shù)據(jù)1、2 同時輸入DIDTAN,經(jīng)多次訓(xùn)練后,將預(yù)測值1、2 與標(biāo)簽1、2 輸入到噪聲標(biāo)簽糾正機(jī)制中糾正數(shù)據(jù)庫中的噪聲標(biāo)簽。最后,利用噪聲標(biāo)簽糾正后的數(shù)據(jù)庫繼續(xù)訓(xùn)練DIDTAN 后,獲得最優(yōu)的DIDTAN模型及其參數(shù)。
圖1 整體模型框圖Fig.1 Block diagram of the overall model
圖2 為DIDTAN 結(jié)構(gòu)圖,是以Resnet-18[16]為基礎(chǔ)的MTAN網(wǎng)絡(luò)擴(kuò)展而成的。其中,BN將小批次特征白化,并使用仿射參數(shù)還原白化前的特征。在訓(xùn)練階段,BN 通過指數(shù)移動平均法估計輸入特征的均值和方差;在測試階段,BN 使用估計的均值和方差白化特征,并使用學(xué)習(xí)的仿射變換參數(shù)來還原特征。但是,白化和還原操作都對數(shù)據(jù)集敏感。由于雙輸入存在分布偏移,直接為不同的數(shù)據(jù)集共享BN 參數(shù)是不合適的[17]。因此,本文將Resnet-18 中出現(xiàn)的每個共享的BN 層擴(kuò)展成兩個任務(wù)特異性的BN 層,使得不同任務(wù)特征單獨(dú)經(jīng)過不同的BN 層,這樣就能使每個BN 層估計出任務(wù)特異性的均值和方差。圖2中BN1與BN2分別代表兩個任務(wù)特異性的BN 層。NDDR1、NDDR 2模塊約束淺層特征的表達(dá),進(jìn)一步提取到更為通用的淺層共享特征。注意力層結(jié)構(gòu)除了學(xué)習(xí)到通用的共享特征外,還能獲得多樣化的任務(wù)特異性表達(dá)。Deep CORAL 損失函數(shù)能約束全連接層1、2 特征的二階統(tǒng)計值,從而解決分布偏移問題。Drpout正則化[18]被用于防止DIDTAN提取到泛化性不強(qiáng)的特異性特征出現(xiàn)的過擬合。
圖2 DIDTAN結(jié)構(gòu)圖Fig.2 Diagram of the DIDTAN structure
2.1.1 NDDR模塊
深度神經(jīng)網(wǎng)絡(luò)傾向于學(xué)習(xí)層次分明的特征表示[19],即淺層趨向于提取更通用的低維圖像特征,例如邊緣、邊角等,而深層則傾向于提取高層次的特征,這些特征更具有任務(wù)特異性?;谝陨咸攸c(diǎn),本文在淺層即注意力層1、2 上一層分別加入NDDR1、NDDR2 模塊約束淺層特征的表達(dá),從而學(xué)習(xí)更為通用的低維特征,進(jìn)而防止DIDTAN過擬合。圖3 為NDDR 模塊結(jié)構(gòu)圖,將兩個具有相同空間分辨率的特征輸入以通道串聯(lián)的方式連接,然后將串聯(lián)后的通道特征通過尺寸大小為1 × 1 的卷積層得到輸出O1、O2、接著經(jīng)過Relu 激活函數(shù)后輸出O′1、O′2。為了方便調(diào)整兩個任務(wù)特征共享的程度,本文引用文獻(xiàn)[8]中提出的NDDR 模塊初始化方式,即O1=[I1,I2][W1,W2]Τ。其中,I1∈RM×H×W×C,I2∈RM×H×W×C,[I1,I2]表示輸入I1,I2通道串聯(lián)在一起,即[I1,I2]∈RM×H×W×2C。W1∈RC×C,W2∈RC×C是 圖3中卷積層1、卷積層2的權(quán)重值,[W1,則
圖3 NDDR模塊結(jié)構(gòu)圖Fig.3 Diagram of the NDDR module structure
其中,α、β是超參數(shù),分別代表I1、I2的特征共享系數(shù)。
2.1.2 注意力層結(jié)構(gòu)
深層網(wǎng)絡(luò)用于學(xué)習(xí)更高維度的特征,不同任務(wù)之間的相關(guān)性變得很低,故不再適合使用NDDR 模塊約束深層特征。若只使用NDDR 模塊約束不同任務(wù)的共享低維特征的表達(dá),往往會忽略不同任務(wù)的特異性特征學(xué)習(xí)。DIDTAN 除了學(xué)習(xí)到通用的共享特征外,還能獲得多樣化的任務(wù)特異性表達(dá)。因此,本文使用MTAN 網(wǎng)絡(luò)結(jié)構(gòu)中的注意力掩碼。每個注意力掩碼能自動地決定任務(wù)共享特征的重要性,并允許以一種自監(jiān)督、端對端的方式學(xué)習(xí)任務(wù)共享和任務(wù)特異性特征。
圖4為注意力層結(jié)構(gòu),其中,Basicblock_bn模塊1、Basicblock_bn 模塊2 是共享特征提取模塊,即兩個輸入都經(jīng)過它提取通用特征。虛線框中的模塊為注意力模塊,能提取當(dāng)前任務(wù)更關(guān)注的特征,然后以注意力掩碼的方式輸出并與Basicblock_bn 模塊2的輸出相乘,從而獲得特異性特征。不同特異性特征通過Basicblock 模塊,提取泛化性較好的特異性特征。通道串聯(lián)和最大池化層的組合是為了保持不同注意力層之間的連接和相關(guān)性,能學(xué)習(xí)到更為層次化的高維特征。圖5為Basicblock模塊結(jié)構(gòu),是經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)Resnet-18[16]中實(shí)現(xiàn)的基本塊結(jié)構(gòu)。圖6 為Basicblock_bn 模塊結(jié)構(gòu),在Basicblock 模塊基礎(chǔ)上擴(kuò)展了BN 的數(shù)量,即所有卷積層是被共享使用的,而BN模塊則與不同的輸入相對應(yīng)。
圖4 注意力層結(jié)構(gòu)Fig.4 Structure of the attentional layer
圖5 Basicblock模塊結(jié)構(gòu)Fig.5 Structure of the Basicblock module
圖6 Basicblock_bn模塊結(jié)構(gòu)Fig.6 Structure of the Basicblock_bn module
2.1.3 損失函數(shù)
當(dāng)不同任務(wù)梯度沖突時,深度神經(jīng)網(wǎng)絡(luò)的參數(shù)更新是次優(yōu)的;當(dāng)一個任務(wù)的梯度幅度比其他任務(wù)高得多時,深度神經(jīng)網(wǎng)絡(luò)的參數(shù)會完全傾向于某個任務(wù),嚴(yán)重影響其他任務(wù)的泛化性[1]。本文采用MTAN 網(wǎng)絡(luò)中的動態(tài)權(quán)重平均策略,平衡不同任務(wù)對深度神經(jīng)網(wǎng)絡(luò)參數(shù)的影響。為了使圖2中全連接層學(xué)習(xí)到的特異性特征限制在一定的范圍內(nèi),避免過擬合和出現(xiàn)分布偏移問題,本文使用Deep CORAL 損失函數(shù)對齊圖2 中不同任務(wù)全連接層的二階統(tǒng)計值,并使用超參數(shù)η∈[0,1]調(diào)節(jié)其約束能力。輸入數(shù)據(jù)表示為X1、X2,任務(wù)標(biāo)簽表示為Y1,Y2,則損失函數(shù)Ltotal定義為
噪聲標(biāo)簽是指標(biāo)注錯誤的標(biāo)簽,通常會降低深度神經(jīng)網(wǎng)絡(luò)的泛化性。為充分利用所有可用數(shù)據(jù)并避免噪聲標(biāo)簽的負(fù)面影響,本文采用文獻(xiàn)[13]中的噪聲標(biāo)簽糾正方法糾正噪聲標(biāo)簽。若某樣本經(jīng)DIDTAN 預(yù)測的最大輸出概率高于標(biāo)簽對應(yīng)輸出概率一定閾值,則認(rèn)為該樣本標(biāo)簽應(yīng)該被糾正,即
其中,Pm為全連接層預(yù)測輸出的最大概率,Pt為標(biāo)簽對應(yīng)的預(yù)測輸出概率,δ為閾值間隔;ym為最大輸出概率對應(yīng)的標(biāo)簽,y為原標(biāo)簽;yˉ為標(biāo)簽糾正后的偽標(biāo)簽;所有的預(yù)測概率皆為經(jīng)Softmax分類器輸出的概率。
本文在GeForce RTX2080ti GPU、Intel i7-9800X CPU 和62.5G 內(nèi)存的計算機(jī)上進(jìn)行實(shí)驗(yàn),使用Py-Torch 框架;采用Albumentations 工具進(jìn)行一系列數(shù)據(jù)處理和增強(qiáng)操作。首先,將數(shù)據(jù)按照9∶1 劃分為訓(xùn)練驗(yàn)證合集、測試集,然后將得到的訓(xùn)練驗(yàn)證合集按照5∶1劃分為訓(xùn)練集、驗(yàn)證集。同時,對訓(xùn)練集圖像進(jìn)行隨機(jī)亮度、對比度、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、隨機(jī)仿射變換(移動、縮放)。然后,以ImageNet 數(shù)據(jù)庫上預(yù)訓(xùn)練的ResNet-18 網(wǎng)絡(luò)作為基礎(chǔ)模型,擴(kuò)展成多任務(wù)多輸入注意力網(wǎng)絡(luò)。最后,使用余弦學(xué)習(xí)率[20],初始化學(xué)習(xí)率為1 × 10-2,批次大小設(shè)置為64。
3.1.1 LSFBD數(shù)據(jù)庫
LSFBD 數(shù)據(jù)庫由本項(xiàng)目組建立,共20000 張帶標(biāo)簽的人臉圖像(10000張男性人臉圖像和10000張女性人臉圖像)和80000張未標(biāo)簽人臉圖像,分辨率為144 × 144;分為五個類別,即“0”、“1”、“2”、“3”和“4”,分別對應(yīng)于“極不吸引人”、“不吸引人”、“平均”、“吸引人”和“最吸引人”。本文僅使用10000張女性人臉圖像來驗(yàn)證方法的有效性。其中,“0”類別有948 張圖像,“1”類別有1148 張圖像,“2”類別有3846 張圖像,“3”類別有2718 張圖像,“4”類別有1340張圖像。
3.1.2 SCUT-FBP5500數(shù)據(jù)庫
SCUT-FBP5500 數(shù)據(jù)庫由華南理工大學(xué)建立,具有不同屬性(男性或女性、亞洲人或白種人、年齡)和不同標(biāo)簽(人臉特征點(diǎn)、范圍1~5的美麗分?jǐn)?shù)、美麗分?jǐn)?shù)分布),從而可實(shí)現(xiàn)不同人臉美麗預(yù)測范式的計算模型。共有5500張正面人臉圖像,分辨率為350 × 350;因?yàn)镾CUT-FBP5500 數(shù)據(jù)庫是由60 個志愿者對所有圖像評分為5 種人臉美麗等級,故本文將對同一張圖片評分相同等級的志愿者人數(shù)最多的評分等級作為最終評分等級。共分為五個類別,即“0”、“1”、“2”、“3”和“4”。其中,“0”類別有76張圖像,“1”類別有821 張圖像,“2”類別有3278 張圖像,“3”類別有1226 張圖像,“4”類別有99 張圖像。
3.1.3 CelebA數(shù)據(jù)庫
名人人臉屬性數(shù)據(jù)庫(CelebA)是由香港中文大學(xué)開放提供,廣泛用于人臉相關(guān)的計算機(jī)視覺任務(wù),可用于人臉屬性分類、人臉檢測以及人臉關(guān)鍵點(diǎn)標(biāo)記等,包含10177 個名人身份的202599 張人臉圖像,每張圖像都進(jìn)行了特征標(biāo)記,包含人臉位置標(biāo)注框、5 個人臉特征點(diǎn)坐標(biāo)以及40 個屬性標(biāo)記。因?yàn)镃elebA 包括二分類人臉美麗等級標(biāo)簽和性別標(biāo)簽,本文利用CelebA 中的女性人臉美麗等級圖像,共有118165 張圖像,分辨率為178 × 218,分為兩個類別,即“0”、“1”。其中,“0”類別有37911張圖像,“1”類別有80254張圖像。
本文方法是在MTAN 網(wǎng)絡(luò)的基礎(chǔ)上擴(kuò)展的,而MTAN 網(wǎng)絡(luò)是以Resnet-18 網(wǎng)絡(luò)為基礎(chǔ)擴(kuò)展的。故本文將Resnet-18網(wǎng)絡(luò)和MTAN 網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò),在LSFBD、SCUT-FBP5500、CelebA 數(shù)據(jù)庫上進(jìn)行對比實(shí)驗(yàn)。其中,基于Resnet-18網(wǎng)絡(luò)進(jìn)行單輸入單任務(wù)實(shí)驗(yàn),基于MTAN 網(wǎng)絡(luò)、本文方法進(jìn)行LSFBD+SCUT-FBP5500、LSFBD+CelebA 雙輸入 雙任務(wù) 實(shí)驗(yàn)。在Resnet-18 上進(jìn)行的單輸入單任務(wù)實(shí)驗(yàn)指將單個數(shù)據(jù)庫的圖像作為輸入,并進(jìn)行該數(shù)據(jù)庫的人臉美麗預(yù)測分類任務(wù)。而在LSFBD+SCUTFBP5500 上進(jìn)行的雙輸入雙任務(wù)實(shí)驗(yàn)指同時將LSFBD 和SCUT-FBP5500 的數(shù)據(jù)作為輸入,并同時進(jìn)行基于LSFBD、SCUT-FBP5500 上的人臉美麗預(yù)測分類任務(wù);同理,在LSFBD+CelebA 上進(jìn)行的雙輸入雙任務(wù)實(shí)驗(yàn)指同時將LSFBD 和CelebA 的數(shù)據(jù)作為輸入,并同時進(jìn)行基于LSFBD、CelebA 上的人臉美麗預(yù)測分類任務(wù)。本文將預(yù)測準(zhǔn)確率(Classification Accuracy,CA)作為性能評價指標(biāo)。由于不同數(shù)據(jù)庫的標(biāo)簽類別限制,本文在LSFBD、SCUTFBP5500 數(shù)據(jù)庫上進(jìn)行人臉美麗預(yù)測五分類實(shí)驗(yàn),而在CelebA 數(shù)據(jù)庫上利用人臉屬性標(biāo)簽中的女性人臉美麗預(yù)測標(biāo)簽進(jìn)行二分類實(shí)驗(yàn)。
表1 為單輸入單任務(wù)實(shí)驗(yàn)結(jié)果,表2 為雙輸入雙任務(wù)實(shí)驗(yàn)結(jié)果。表2 中基于LSFBD+SCUTFBP5500 上實(shí)驗(yàn),在LSFBD 上MTAN 的預(yù)測準(zhǔn)確率為60.8%,與表1 中在LSFBD 上Resnet-18 的預(yù)測準(zhǔn)確率58.1% 相比提高2.7%;然而,在SCUTFBP5500 上MTAN 的預(yù)測準(zhǔn)確率為59.7%,與表1中在SCUT-FBP5500 上Resnet-18 的預(yù)測準(zhǔn)確率74.3%相比卻降低14.6%。表2 中基于LSFBD+CelebA 上實(shí)驗(yàn),在LSFBD 上MTAN 的預(yù)測準(zhǔn)確率為57.2%,與表1 中在LSFBD 上Resnet-18 的預(yù)測準(zhǔn)確率58.1%相比降低0.9%;然而,在CelebA 上MTAN的預(yù)測準(zhǔn)確率為77.0%,與表1 中在CelebA 上Resnet-18的預(yù)測準(zhǔn)確率62.7%相比卻提高14.3%。由上可知,在MTAN 上進(jìn)行不同數(shù)據(jù)庫的雙輸入雙任務(wù)實(shí)驗(yàn),出現(xiàn)深度神經(jīng)網(wǎng)絡(luò)的參數(shù)完全傾向于某個任務(wù),影響其他任務(wù)泛化性的情況。這是因?yàn)椴煌瑪?shù)據(jù)庫存在固有的分布偏移,在MTAN 上直接共享不同任務(wù)的BN 參數(shù)時無法找到兼容的共享特征。
表1 單輸入單任務(wù)實(shí)驗(yàn)結(jié)果(CA(%))Tab.1 Results of single-input single-task experiments(CA(%))
表2 雙輸入雙任務(wù)實(shí)驗(yàn)結(jié)果(CA(%))Tab.2 Results of dual-input and dual-task experiments(CA(%))
表2 中基于LSFBD+SCUT-FBP5500 上實(shí)驗(yàn),在LSFBD 上本文方法的準(zhǔn)確率為65.4%,與表1 中Resnet-18 的預(yù)測準(zhǔn)確率58.1%相比提高7.3%;在SCUT-FBP5500 上本文方法的準(zhǔn)確率為74.8%,與表1 中Resnet-18 的預(yù)測準(zhǔn)確率74.3%相比提高0.5%。表2中基于LSFBD+CelebA上實(shí)驗(yàn),在LSFBD上本文方法的預(yù)測準(zhǔn)確率為63.1%,與表1 中Resnet-18 的預(yù)測準(zhǔn)確率58.1%相比提高5.0%;在CelebA 上本文方法的預(yù)測準(zhǔn)確率為79.5%,與表1中Resnet-18的預(yù)測準(zhǔn)確率62.7%相比提高16.8%。由上可知,在DIDTAN 上進(jìn)行不同數(shù)據(jù)庫的雙輸入實(shí)驗(yàn),本文方法實(shí)驗(yàn)結(jié)果均優(yōu)于Resnet-18上的實(shí)驗(yàn)結(jié)果。
由表2 實(shí)驗(yàn)結(jié)果可知,基于LSFBD+SCUTFBP5500 上實(shí)驗(yàn),在LSFBD 上本文方法的準(zhǔn)確率為65.4%,與MTAN 上的準(zhǔn)確率60.8% 相比提高4.6%;在SCUT-FBP5500 上本文方法的準(zhǔn)確率為74.8%,與MTAN 上的準(zhǔn)確率59.7% 相比提高15.1%。基于LSFBD+CelebA 上實(shí)驗(yàn),在LSFBD 上本文方法的準(zhǔn)確率為63.1%,與MTAN 的準(zhǔn)確率57.2%相比提高5.9%;在CelebA 上本文方法的預(yù)測準(zhǔn)確率為79.5%,與MTAN 的準(zhǔn)確率77.0%相比提高2.5%。由上可知,在DIDTAN 上進(jìn)行不同數(shù)據(jù)庫的雙輸入實(shí)驗(yàn),本文方法實(shí)驗(yàn)結(jié)果均優(yōu)于MTAN 上的實(shí)驗(yàn)結(jié)果。因此,本文方法可以有效實(shí)現(xiàn)雙輸入雙任務(wù)人臉美麗預(yù)測,并提高人臉預(yù)測準(zhǔn)確率。
為比較融入噪聲標(biāo)簽糾正機(jī)制前后的效果,本文基于LSFBD+SCUT-FBP5500、LSFBD+CelebA 上實(shí)驗(yàn)。其中,×表示沒有使用噪聲標(biāo)簽糾正機(jī)制、√表示使用噪聲標(biāo)簽糾正機(jī)制。由表3 可知,基于LSFBD+SCUT-FBP5500 實(shí)驗(yàn),融入噪聲標(biāo)簽糾正機(jī)制前、后在LSFBD 上預(yù)測準(zhǔn)確率分別為62.7%、65.4%,提高了2.7%;融入噪聲標(biāo)簽糾正機(jī)制前、后在SCUT-FBP5500 上預(yù)測準(zhǔn)確率分別為74.4%、74.8%,提高了0.4%?;贚SFBD+CelebA 實(shí)驗(yàn),融入噪聲標(biāo)簽糾正機(jī)制前、后在LSFBD 上預(yù)測準(zhǔn)確率分別為62.0%、63.1%,提高了1.1%;融入噪聲標(biāo)簽糾正機(jī)制前、后在CelebA 上預(yù)測準(zhǔn)確率分別為78.9%,79.5%,提高了0.6%。
表3 融入噪聲標(biāo)簽糾正機(jī)制的結(jié)果對比實(shí)驗(yàn)(CA(%))Tab.3 Results comparison experiment incorporating noise label correction mechanism(CA(%))
δ是預(yù)測輸出的最大概率Pm和標(biāo)簽對應(yīng)的預(yù)測輸出概率Pt的閾值間隔。本文基于LSFBD+SCUTFBP5500 上實(shí)驗(yàn)來對比不同閾值δ的實(shí)驗(yàn)結(jié)果,如表4 所示,當(dāng)δ取值越遠(yuǎn)離0.5 時,在LSFBD、SCUTFBP5500 上的預(yù)測準(zhǔn)確率越低。δ的取值影響著標(biāo)簽糾正的效果,即δ 小于0.5 時,正確標(biāo)簽亦被誤糾正;δ大于0.5時,沒有完全糾正所有錯誤標(biāo)簽。
表4 雙輸入不同閾值δ的對比實(shí)驗(yàn)結(jié)果(CA(%))Tab.4 Results of comparison experiments with different thresholds for dual inputs(CA(%))
超參數(shù)T是計算損失函數(shù)時控制不同系數(shù)差異程度的超參數(shù)。如表5所示,當(dāng)T=2時,在LSFBD 上的人臉美麗預(yù)測準(zhǔn)確率最高;當(dāng)T為表中其他值時,在LSFBD 數(shù)據(jù)庫上的人臉美麗預(yù)測準(zhǔn)確率相差較小。
表5 雙輸入不同的差異程度控制超參數(shù)T的對比實(shí)驗(yàn)結(jié)果(CA(%))Tab.5 Results of comparison experiments with dual inputs of different degree of variation control hyperparameters(CA(%))
本章將在LSFBD 數(shù)據(jù)庫上進(jìn)行的其他方法與本文方法進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表6 所示。其中,CRBM、K-means、Multiscale K-means 方法對應(yīng)的準(zhǔn)確率是在LSFBD 上深度學(xué)習(xí)興起之前的傳統(tǒng)方法應(yīng)用于人臉美麗預(yù)測的分類準(zhǔn)確率。NIN、GoogleNet、VGG16 對應(yīng)的準(zhǔn)確率是在LSFBD 上通用的深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人臉美麗預(yù)測的分類準(zhǔn)確率。文獻(xiàn)[3,5]是近幾年在LSFBD 上進(jìn)行人臉美麗預(yù)測的分類準(zhǔn)確率??芍?,本文所提方法的實(shí)驗(yàn)結(jié)果高于常規(guī)方法的結(jié)果。
表6 基于LSFBD不同方法實(shí)驗(yàn)結(jié)果比較(CA(%))Tab.6 Comparison of experimental results based on different methods of LSFBD(CA(%))
人臉美麗預(yù)測存在監(jiān)督信息不足、易受噪聲標(biāo)簽影響泛化性等問題。MTAN利用單個數(shù)據(jù)庫的多種標(biāo)簽類型數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,但忽略了多個僅有一種標(biāo)簽類型的數(shù)據(jù)庫進(jìn)行多任務(wù)訓(xùn)練時效果不佳的情況;同時,未考慮噪聲標(biāo)簽對MTAN 的影響。為此,本文結(jié)合MTAN,提出DIDTAN,并融入噪聲標(biāo)簽糾正機(jī)制。其中,DIDTAN 能同時利用兩個單標(biāo)簽類型人臉美麗數(shù)據(jù)庫的監(jiān)督信息,從而解決監(jiān)督信息不足;而該網(wǎng)絡(luò)融入噪聲標(biāo)簽糾正機(jī)制,解決了噪聲標(biāo)簽的影響,進(jìn)而提高了人臉美麗預(yù)測準(zhǔn)確率。基于LSFBD、SCUFBP-5500 數(shù)據(jù)庫的雙輸入雙任務(wù)人臉美麗預(yù)測取得65.4%的預(yù)測準(zhǔn)確率,高于常規(guī)方法最高準(zhǔn)確率。所提方法能實(shí)現(xiàn)雙輸入雙任務(wù)訓(xùn)練并解決噪聲標(biāo)簽影響,提高了人臉美麗預(yù)測準(zhǔn)確率,可廣泛應(yīng)用于其他存在噪聲標(biāo)簽的雙輸入雙任務(wù)場景。后續(xù)將從雙輸入雙任務(wù)進(jìn)一步拓展到多輸入多任務(wù),不斷優(yōu)化該方法。