周書(shū)田,顏 信,謝鎮(zhèn)汕
(電子科技大學(xué)格拉斯哥學(xué)院 成都 611731)
深度學(xué)習(xí)在人臉識(shí)別領(lǐng)域取得了巨大的成就,已經(jīng)廣泛應(yīng)用在金融認(rèn)證、門(mén)禁控制等領(lǐng)域,創(chuàng)造了巨大的經(jīng)濟(jì)與社會(huì)價(jià)值。在目前最大的公開(kāi)人臉評(píng)測(cè)數(shù)據(jù)集MegaFace[1]上,頂尖的方法已經(jīng)實(shí)現(xiàn)了97.91%的1:NTop-1 查準(zhǔn)率[2],并且已經(jīng)超過(guò)人眼識(shí)別的水平。典型的人臉識(shí)別流程包含人臉檢測(cè)[3]、人臉剪裁[4]、人臉特征提取[5]、人臉特征比對(duì)與查找[6]4 個(gè)流程。人臉識(shí)別模型優(yōu)化的本質(zhì)為:在一個(gè)特征空間中,屬于同一個(gè)人的圖像特征盡可能聚攏,不屬于同一個(gè)人的圖像特征盡可能發(fā)散,模型對(duì)于特征建模能力的強(qiáng)弱直接影響人臉識(shí)別模型的識(shí)別準(zhǔn)確率。目前,人臉識(shí)別系統(tǒng)的巨大進(jìn)步主要來(lái)自于網(wǎng)絡(luò)架構(gòu)[7]的不斷革新,以及損失函數(shù)的設(shè)計(jì)。設(shè)計(jì)優(yōu)良的損失函數(shù),可以最大化實(shí)現(xiàn)類(lèi)內(nèi)特征的聚合與類(lèi)間特征的離散。最近,大量的損失函數(shù),如Triplet Loss[8],使負(fù)樣本對(duì)的距離大于正樣本對(duì)的距離,大大提升了網(wǎng)絡(luò)對(duì)于特異性特征向量的建模能力。
人臉識(shí)別模型依托于大規(guī)模的訓(xùn)練,訓(xùn)練圖片數(shù)量高達(dá)數(shù)百萬(wàn)張,訓(xùn)練過(guò)程經(jīng)常持續(xù)數(shù)周。但現(xiàn)有人臉識(shí)別訓(xùn)練模型常常會(huì)帶來(lái)收斂過(guò)程中的震蕩,使訓(xùn)練成本加大。本文對(duì)現(xiàn)有的人臉識(shí)別損失函數(shù)ArcFace[2]進(jìn)行改進(jìn),將其logit 曲線變換成為一條直線,使收斂過(guò)程更加穩(wěn)定,本文的方法命名為L(zhǎng)ineFace。
人臉識(shí)別問(wèn)題是一個(gè)典型的分類(lèi)問(wèn)題。解決傳統(tǒng)分類(lèi)問(wèn)題的方法為使用交叉熵-softmax 損失函數(shù)進(jìn)行分類(lèi)損失監(jiān)督,然后將損失進(jìn)行反向傳遞,來(lái)更新識(shí)別網(wǎng)絡(luò)參數(shù)。對(duì)于一張人臉照片,首先通過(guò)骨干網(wǎng)絡(luò)提取其特征向量,將其表示為xi∈Rd,并且屬于類(lèi)別yi,對(duì)于類(lèi)i的分類(lèi)概率為:
圖1 不同損失函數(shù)logit 曲線的對(duì)比
為了實(shí)現(xiàn)穩(wěn)定的訓(xùn)練過(guò)程與極具特異性的特征表達(dá),將logit 曲線變更為一條直線,在不同的收斂過(guò)程與階段,其梯度始終為定值,避免了梯度的跳變,這帶來(lái)了穩(wěn)定的收斂。該損失函數(shù)命名為L(zhǎng)ineFace,其表達(dá)式為:
LineFace 在區(qū)間內(nèi)單調(diào)遞減,并且梯度恒定,擁有更好的可解釋性。而對(duì)于ArcFace[2]和CosFace[10],其在區(qū)間內(nèi),并不單調(diào)遞減,并且梯度變化劇烈,使得訓(xùn)練不穩(wěn)定。大量的實(shí)驗(yàn)表明,本文的損失函數(shù)可以大幅提高收斂過(guò)程的穩(wěn)定性質(zhì),并帶來(lái)識(shí)別性能的提高。LineFace 在訓(xùn)練過(guò)程中改變監(jiān)督函數(shù),不會(huì)在推理階段引入新的計(jì)算消耗,因此在提升訓(xùn)練穩(wěn)定的同時(shí),保持了與之前工作相同的計(jì)算復(fù)雜性。
近年來(lái),大規(guī)模數(shù)據(jù)集的出現(xiàn)極大地推進(jìn)了人臉識(shí)別模型性能的提升,本文采用了學(xué)術(shù)界廣泛使用的MS-Celeb-1M[12]數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,也是迄今為止開(kāi)源的最大規(guī)模的人臉訓(xùn)練數(shù)據(jù)集。原始MS-Celeb-1M[12]數(shù)據(jù)的數(shù)據(jù)集被證明具有大量的數(shù)據(jù)噪聲,因此與之前的工作相似,對(duì)MSCeleb-1M[12]數(shù)據(jù)進(jìn)行了清理,清理后的數(shù)據(jù)集包含來(lái)自9 萬(wàn)人的510 萬(wàn)張照片。對(duì)于測(cè)試過(guò)程,本文選取了常見(jiàn)的LFW[13]、MegaFace[1]、YTF[14]以及IJB-A[15]數(shù)據(jù)集進(jìn)行了測(cè)試。
人臉識(shí)別的第一步為人臉檢測(cè)與裁剪,本文使用MTCNN[4]檢測(cè)人臉與關(guān)鍵點(diǎn),人臉圖像將會(huì)被仿射變換到112*112,然后將像素值歸一化到[0,1],并且在最后添加了隨機(jī)翻轉(zhuǎn)以進(jìn)行數(shù)據(jù)增廣。
對(duì)于骨干模型,為了與之前的工作進(jìn)行公平比較,采用了ResNet-101 的網(wǎng)絡(luò)結(jié)構(gòu),ResNet-101是經(jīng)典的深度學(xué)習(xí)骨干模型,其良好的泛化性已經(jīng)在眾多的任務(wù)中得到了驗(yàn)證。將特征嵌入層的維度設(shè)置為512,與之前的工作保持一致。
本文在8 塊NVIDIA 1080TI GPUs 進(jìn)行了實(shí)驗(yàn),總訓(xùn)練步數(shù)為11 萬(wàn)步,使用了步進(jìn)學(xué)習(xí)率與權(quán)重衰減,初始學(xué)習(xí)率被設(shè)置為0.1,并且每4 萬(wàn)輪衰減0.1 直到模型收斂,模型動(dòng)量被設(shè)置為0.9。
作為人臉識(shí)別領(lǐng)域的黃金標(biāo)準(zhǔn),LFW[13]測(cè)試集被廣泛使用。根據(jù)報(bào)告,人眼在該測(cè)試集上的性能為97.25%,它包含來(lái)自于5 749 人的13 233 張圖片,所有的照片都在非受限場(chǎng)景下采集,包括極具變化的姿勢(shì)與分辨率。
官方的測(cè)試流程包含了6 000 圖像對(duì),其中3 000 張為正樣本對(duì),3 000 張為負(fù)樣本對(duì)。本文嚴(yán)格參照了官方的10 折交叉驗(yàn)證的測(cè)試流程。
表1 不同損失函數(shù)在LFW 上的性能比較
如表1 所示,本文的方法在LFW 數(shù)據(jù)集上取得了有競(jìng)爭(zhēng)力的結(jié)果,為99.63%。LFW 的性能已經(jīng)在近年趨于飽和,并且因?yàn)殄e(cuò)標(biāo)注的存在,LFW數(shù)據(jù)集的理論上限為99.85%。因此,本文在更嚴(yán)苛的數(shù)據(jù)集YTF 與MegaFace 上進(jìn)行了測(cè)試。
YTF[14]數(shù)據(jù)集包含來(lái)自1 595 人的3 424 個(gè)視頻,平均每個(gè)人2.15 個(gè)視頻,是現(xiàn)在廣泛采用的視頻人臉識(shí)別數(shù)據(jù)集。視頻的長(zhǎng)度從48~6 070 幀不等,平均為181.3 幀。視頻人臉識(shí)別旨在測(cè)試模型在抖動(dòng)模糊等極端場(chǎng)景下的建模能力。并且,在實(shí)際的驗(yàn)證場(chǎng)景中,更多的應(yīng)用場(chǎng)景為視頻數(shù)據(jù)。對(duì)于視頻中的每個(gè)幀,都將其提取特征,并且使用平均池化來(lái)匯聚各個(gè)幀的信息。
表2 是在YTF 上識(shí)別的結(jié)果,可以看到,本文的損失函數(shù)實(shí)現(xiàn)了性能的提高,超過(guò)了目前最好的模型ArcFace[2],并且大幅度領(lǐng)先了對(duì)幀之間匯聚進(jìn)行精心設(shè)計(jì)的方法NAN[16],實(shí)驗(yàn)結(jié)果證明了本文損失函數(shù)的有效性。
表2 不同損失函數(shù)在YTF 上的性能比較
MegaFace[1]被認(rèn)為是目前最具有挑戰(zhàn)性的人臉測(cè)試集,它由兩個(gè)現(xiàn)存的數(shù)據(jù)集Facescrub 和FGNet作為查詢(xún)集,并且從互聯(lián)網(wǎng)上收集了百萬(wàn)級(jí)別的干擾集。這是第一個(gè)在百萬(wàn)級(jí)別進(jìn)行極限人臉識(shí)別測(cè)試的數(shù)據(jù)集。
表3 是模型在MegaFace 上識(shí)別的性能,從表中可以看到,本文在MegaFace 上也取得了具有競(jìng)爭(zhēng)力的結(jié)果,達(dá)到了98.03%。因?yàn)镸egaFace 人臉測(cè)試集被證明包含大量的測(cè)試噪聲,因此本文采用了與之前工作ArcFace[2]相同的數(shù)據(jù)清理策略。
表3 不同損失函數(shù)在MegaFace 上的性能比較
通過(guò)對(duì)損失函數(shù)logit 曲線的改變,將損失函數(shù)變成了余弦空間中的一條直線,從而提供了穩(wěn)定的梯度,本文對(duì)訓(xùn)練過(guò)程進(jìn)行了測(cè)試,如表4 所示,本文的模型收斂更快,在模型訓(xùn)練早期的性能大幅領(lǐng)先目前的方法。表4 中,在訓(xùn)練的迭代次數(shù)為30 000 時(shí),本文方法領(lǐng)先主流方法6%~13%,證明了本文方法易于收斂。
表4 不同方法與不同訓(xùn)練迭代數(shù)量在LFW數(shù)據(jù)集上的性能
本文對(duì)目前現(xiàn)有的人臉損失函數(shù)進(jìn)行了回顧,并且注意到模型收斂中梯度變化劇烈的問(wèn)題。通過(guò)對(duì)logit 曲線進(jìn)行改變,將其變?yōu)橐粭l直線,從而提供了在網(wǎng)絡(luò)訓(xùn)練的各個(gè)階段都穩(wěn)定的梯度。大量的實(shí)驗(yàn)證明,本文的方法增強(qiáng)了模型的收斂性,并且在各個(gè)數(shù)據(jù)集上都實(shí)現(xiàn)了穩(wěn)定的性能。