Hierarchical knowledge distillation decoupling network for low-resolution face recognition algorithm
Zhong Rui?, Song Yafeng, Zhou Xiaokang (SchoolofMathematicsamp;Computer Science,GannanNormal University,Ganzhou Jiangxi341ooo,China)
Abstract:Alargenumberoffacial detail features arelostinlow-resolutionface images,which makes therecognitionrateof manyclassical facerecognition models with goodperformancedecrease sharplyToaddressthisproblem,thispaperproposed ahierarchicalknowledgedistilationdecoupling(HKDD)network.Firstly,theconvolutionallayersoftheteachernetworkand thestudentnetworkperformed hierarchicalfeaturedistilltiontoenhancethestudentnetwork’sfeaturedescriptionabilityfor low-resolutionsamples.Thisdistilltionensuredthatthelow-resolutionfacefeatures extractedbytheintermediatelayersof the studentnetworkcloselyapproximatedthehigh-resolutionfacefeatures extractedbytheintermediatelayersof theteachernetwork,effectivelytransferingthepowerfulfeaturedescriptionabilityoftheteahernetwork’sintermediatelayerstothestudent network.Subsequently,the softmax layers of theteachernetwork andthe student network performed decoupling distlation, spliting thedistillaionlossattesofmaxlayerintotargetcassdistillationlossndon-targetclassdistillationlosedecoupling distilationcould playaguidingroleinthetrainingof student networksbyleveragingthesuppessdnon-targetdistillationloss,sothatthesudentnetworkcouldlearntheclasificationabilityofuniversalfacialfeaturesundertheguidanceof theteachernetwork,therebyensuringthatthestudentnetworkhasstrongclasificationabilityinunrestrictedscenes.Finally, byconducting validation experiments on several low-resolution face datasets,such as TinyFace and QMUL-SurvFace,the HKDD model demonstrates superior performance intermsof recognitionrateandreal-time performancecompared tootherrepresentativelow-resolutionfacerecognition models.Theexperimentalresultsconfirmtheefectivenessof HKDD in handling low-resolution face recognition tasks.
Keywords:low-resolutionfacerecognition;hierarchicalknowledgedistilationdecouplingnetwork;hierarchicalfeaturedis tillation;decoupling distillation;unrestricted scenes
0 引言
目前人臉識(shí)別技術(shù)已廣泛應(yīng)用于門(mén)禁、考勤、支付以及安防監(jiān)控等場(chǎng)景。然而在以上應(yīng)用場(chǎng)景中很容易因?yàn)榫嚯x遠(yuǎn)而采集到低分辨率人臉圖像,這類(lèi)人臉圖像中丟失了大量面部細(xì)節(jié)特征,同時(shí)各種干擾因素(如:姿態(tài)偏轉(zhuǎn)、表情變化、光照變化和遮擋等)的疊加,使得所采集的人臉圖像與訓(xùn)練集中的高分辨率人臉圖像間存在很大的分布差異。在這樣復(fù)雜的應(yīng)用場(chǎng)景中,即使是采用目前先進(jìn)的人臉識(shí)別算法也很難取得令人滿(mǎn)意的識(shí)別精度,因此在復(fù)雜的非限制性場(chǎng)景中對(duì)低分辨率人臉進(jìn)行準(zhǔn)確識(shí)別是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。目前主要的解決方案可以分為統(tǒng)一特征空間映射法[1]、超分辨率重建法[2.3]和知識(shí)蒸餾法[4.5]三類(lèi),其中超分辨率重建法是將超分辨率重建與人臉識(shí)別兩個(gè)過(guò)程進(jìn)行集成,能夠在一定程度上提升低分辨率人臉識(shí)別算法的識(shí)別率。但是圖像的超分辨率重建僅僅是在視覺(jué)感官層面對(duì)像素進(jìn)行了復(fù)原,而面部識(shí)別更重要的是在特征層面上對(duì)特征進(jìn)行復(fù)原,該類(lèi)型算法很難顯著提升算法的識(shí)別率,且還需要耗費(fèi)大量的計(jì)算資源,將導(dǎo)致算法的實(shí)時(shí)性不足[。統(tǒng)一特征投影法是將不同分辨率的人臉特征投影至同一個(gè)特征空間進(jìn)行面部識(shí)別,采用該方式忽略了領(lǐng)域內(nèi)部的結(jié)構(gòu)差異性,也就是說(shuō),這種全局特征投影變換方法只關(guān)注于整體的特征差異,沒(méi)有關(guān)注局部的特征差異,該類(lèi)型方法只能夠在一定程度上提高低分辨率人臉的識(shí)別率。
隨著深度網(wǎng)絡(luò)模型的不斷發(fā)展,知識(shí)蒸餾法是將深度網(wǎng)絡(luò)模型的優(yōu)秀特征描述能力與知識(shí)蒸餾算法相結(jié)合,這樣一方面利用了深度網(wǎng)絡(luò)模型具有很強(qiáng)特征描述能力的優(yōu)勢(shì),使模型能夠有效提取出人臉面部中具有較好判別特性的特征。另一方面該類(lèi)型方法能充分利用現(xiàn)有大量的數(shù)據(jù)集和高精度識(shí)別模型學(xué)習(xí)到有用的特征知識(shí)和表達(dá)能力,同時(shí)也能顯著減少模型訓(xùn)練的工作量,使之具有較好的實(shí)時(shí)性。
受到深度知識(shí)蒸餾模型的啟發(fā),本文提出了一種基于分層蒸餾解耦(hierarchical knowledge distillationdecoupling,HKDD)網(wǎng)絡(luò)的低分辨率人臉識(shí)別算法。本文主要工作如下:
a)為了提高學(xué)生網(wǎng)絡(luò)在低分辨率樣本中的特征描述能力,本文在教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)的卷積層之間進(jìn)行分層特征蒸餾,使學(xué)生網(wǎng)絡(luò)各中間層所提取的低分辨率人臉特征能夠盡可能接近教師網(wǎng)絡(luò)中間層所提取的高分辨率人臉特征,從而將教師網(wǎng)絡(luò)各中間層強(qiáng)大的特征描述能力蒸餾到學(xué)生網(wǎng)絡(luò),從而使學(xué)生網(wǎng)絡(luò)能夠從低分辨率人臉圖像中提取出具有較好判別特性的面部特征。
b)為了能有效提升學(xué)生網(wǎng)絡(luò)對(duì)疊加有多種干擾因素(光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等)的人臉樣本的分類(lèi)能力,在教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)的softmax層之間進(jìn)行解耦蒸餾,把softmax層的蒸餾損失解耦為目標(biāo)類(lèi)蒸(targetclassdistil-lation,TCD)損失和非目標(biāo)類(lèi)蒸餾(non-targetclassdistillation,NCD)損失,使學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)指導(dǎo)下學(xué)習(xí)到通用性面部特征的分類(lèi)能力,從而確保學(xué)生網(wǎng)絡(luò)能夠在各種干擾因素疊加的應(yīng)用場(chǎng)景中具有較好的分類(lèi)能力。
c)在多個(gè)低分辨率人臉數(shù)據(jù)集中進(jìn)行了大量對(duì)比實(shí)驗(yàn),所提算法在含有光照變化、表情改變、姿態(tài)偏轉(zhuǎn)、遮擋等干擾因素存在的低分辨率應(yīng)用場(chǎng)景中,具有領(lǐng)先的識(shí)別率和實(shí)時(shí)性。
1相關(guān)工作
基于知識(shí)蒸餾的低分辨率人臉識(shí)別方法能夠在提升算法識(shí)別率的同時(shí),有效降低模型的復(fù)雜度,并且能夠取得較高的人臉識(shí)別率,具有很好的研究?jī)r(jià)值和實(shí)用價(jià)值。本文對(duì)現(xiàn)有基于知識(shí)蒸餾的低分辨率人臉識(shí)別方法進(jìn)行了詳細(xì)分析,具體如下:
知識(shí)蒸餾是一種由教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)構(gòu)成的網(wǎng)絡(luò)框架,使用具有高識(shí)別率的教師網(wǎng)絡(luò)對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行指導(dǎo)訓(xùn)練,讓學(xué)生網(wǎng)絡(luò)具備更強(qiáng)的跨域識(shí)別能力以及更好的實(shí)時(shí)性能。該類(lèi)型方法是由Hinton等人[首次提出,其對(duì)知識(shí)蒸餾進(jìn)行了系統(tǒng)的闡述,采用軟標(biāo)簽和溫度系數(shù)來(lái)實(shí)現(xiàn)教師網(wǎng)絡(luò)對(duì)學(xué)生網(wǎng)絡(luò)的指導(dǎo)。文獻(xiàn)[8]首次將知識(shí)蒸餾應(yīng)用于低分辨率人臉識(shí)別領(lǐng)域,該方法顯著提升了低分辨率人臉圖像的識(shí)別率。此后低分辨率人臉識(shí)別領(lǐng)域出現(xiàn)了許多基于知識(shí)蒸餾模型的識(shí)別方法。文獻(xiàn)[9]中基于遞歸知識(shí)蒸餾和角蒸餾的VarGFaceNet模型和文獻(xiàn)[10]中基于橋蒸餾的低分辨率人臉識(shí)別模型,是在網(wǎng)絡(luò)輸出層進(jìn)行軟標(biāo)簽蒸餾來(lái)實(shí)現(xiàn)對(duì)學(xué)生網(wǎng)絡(luò)的指導(dǎo),然而僅從教師網(wǎng)絡(luò)的輸出層進(jìn)行知識(shí)蒸餾,無(wú)法將教師網(wǎng)絡(luò)的特征描述能力遷移給學(xué)生網(wǎng)絡(luò),所帶來(lái)的算法識(shí)別率提升非常有限。因此,研究者開(kāi)始考慮從網(wǎng)絡(luò)中間層進(jìn)行特征蒸餾,以進(jìn)一步提高低分辨率人臉圖像的識(shí)別率。中間層特征蒸餾是指將教師網(wǎng)絡(luò)中間層的特征描述能力傳遞給學(xué)生網(wǎng)絡(luò),使學(xué)生網(wǎng)絡(luò)具備與教師網(wǎng)絡(luò)類(lèi)似的特征描述能力[\"]。首次使用中間層特征蒸餾是文獻(xiàn)[12]的FitNets模型,其核心思想是讓學(xué)生網(wǎng)絡(luò)的中間層特征盡可能接近教師網(wǎng)絡(luò)的中間層特征。文獻(xiàn)[13\~15]的模型都是在網(wǎng)絡(luò)中間層特征蒸餾的基礎(chǔ)上將教師網(wǎng)絡(luò)強(qiáng)大的特征描述能力遷移到學(xué)生網(wǎng)絡(luò),從而提高學(xué)生網(wǎng)絡(luò)模型在低分辨率人臉圖像上的識(shí)別率。以上文獻(xiàn)僅僅從單方面使用輸出層蒸餾[16]或中間層特征蒸餾來(lái)提升學(xué)生網(wǎng)絡(luò)對(duì)跨域樣本的識(shí)別能力,然而在實(shí)際應(yīng)用場(chǎng)景中所采集到的低分辨率人臉圖像中還存在多種干擾因素疊加,如:光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等,將導(dǎo)致以上模型的識(shí)別率不容易取得令人滿(mǎn)意的識(shí)別精度。
針對(duì)以上問(wèn)題,本文將從分層特征蒸餾和softmax層的解耦蒸餾兩方面來(lái)實(shí)現(xiàn)教師網(wǎng)絡(luò)對(duì)學(xué)生網(wǎng)絡(luò)的共同指導(dǎo),將具有高識(shí)別率的經(jīng)典人臉識(shí)別模型的特征描述能力與分類(lèi)能力蒸餾至學(xué)生網(wǎng)絡(luò),從而使學(xué)生網(wǎng)絡(luò)在低分辨率數(shù)據(jù)集中具有更高的識(shí)別率。
2分層蒸餾解耦網(wǎng)絡(luò)
本文所提的分層蒸餾解耦(hierarchicalknowledgedistil-lationdecoupling,HKDD)網(wǎng)絡(luò)的總體模型結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)模型分為教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)兩個(gè)網(wǎng)絡(luò)分支,其中學(xué)生網(wǎng)絡(luò)是用于識(shí)別低分辨率人臉樣本的目標(biāo)網(wǎng)絡(luò),在模型訓(xùn)練時(shí),將隸屬于同一類(lèi)別的高分辨率和低分辨率的人臉圖像分別同步輸入至教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)。
為了提升學(xué)生網(wǎng)絡(luò)對(duì)于低分辨率樣本的特征描述能力,在學(xué)生網(wǎng)絡(luò)與教師網(wǎng)絡(luò)的各卷積層之間構(gòu)建多個(gè)用于特征擬合的分層蒸餾損失函數(shù),使學(xué)生網(wǎng)絡(luò)各中間層所提取的低分辨率人臉特征盡可能接近教師網(wǎng)絡(luò)相應(yīng)層次所提取的高分辨率人臉特征。隨后將教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的softmax層之間的蒸餾損失函數(shù)進(jìn)行等價(jià)變換,解耦為目標(biāo)類(lèi)蒸餾損失和非目標(biāo)類(lèi)蒸餾損失,并根據(jù)教師網(wǎng)絡(luò)的分類(lèi)損失設(shè)置相應(yīng)的權(quán)重,使學(xué)生網(wǎng)絡(luò)的整體特征描述能力和分類(lèi)性能得到進(jìn)一步提升。
2.1 分層特征蒸餾
由于教師網(wǎng)絡(luò)是具有復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的深層網(wǎng)絡(luò),這使得教師網(wǎng)絡(luò)具備很強(qiáng)的特征描述能力,能夠從樣本中準(zhǔn)確提取出具有較好判別特性的面部特征。為了能夠?qū)⒔處熅W(wǎng)絡(luò)的強(qiáng)大特征描述能力遷移至學(xué)生網(wǎng)絡(luò),使學(xué)生網(wǎng)絡(luò)能夠在具備精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí),還具備與教師網(wǎng)絡(luò)類(lèi)似的特征描述能力,本文受到文獻(xiàn)[10,15]的啟發(fā)。首先,在教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)之間構(gòu)造分層特征蒸餾子網(wǎng),在該子網(wǎng)中引入具有相同神經(jīng)元數(shù)量的全連接網(wǎng)絡(luò),利用該網(wǎng)絡(luò)可實(shí)現(xiàn)對(duì)學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)所提取的特征進(jìn)行壓縮編碼,使教師網(wǎng)絡(luò)中間層所提取的特征維數(shù)與學(xué)生網(wǎng)絡(luò)所提取的特征維數(shù)保持一致,為后續(xù)的特征差異度量做好準(zhǔn)備。隨后,為了讓學(xué)生網(wǎng)絡(luò)所提取的特征能夠與教師網(wǎng)絡(luò)所提取的特征盡可能相似,本文在分層特征蒸餾子網(wǎng)中構(gòu)造了差異度量函數(shù),利用教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)之間的特征差異作為監(jiān)督信號(hào)來(lái)進(jìn)一步優(yōu)化學(xué)生網(wǎng)絡(luò),使學(xué)生網(wǎng)絡(luò)中間層所提取的特征與教師網(wǎng)絡(luò)中間層所提取特征保持較高的相似性,從而使學(xué)生網(wǎng)絡(luò)的特征描述能力得到顯著增強(qiáng)。最后,由于教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)都是具有多層網(wǎng)絡(luò)結(jié)構(gòu)的深度網(wǎng)絡(luò),處于不同層次的卷積層能夠提取出具有不同抽象程度的面部特征,這些特征對(duì)于目標(biāo)人臉的準(zhǔn)確識(shí)別起到了重要的作用。因此為了實(shí)現(xiàn)教師網(wǎng)絡(luò)對(duì)學(xué)生網(wǎng)絡(luò)的全面指導(dǎo),本文在教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)之間構(gòu)造了多個(gè)分層特征蒸餾子網(wǎng),通過(guò)這樣的方式,讓學(xué)生網(wǎng)絡(luò)的多個(gè)中間層所提取的特征盡可能與教師網(wǎng)絡(luò)中間層所提取的特征保持相似,最終達(dá)到顯著提升學(xué)生網(wǎng)絡(luò)特征表達(dá) 能力的目標(biāo)。
具體的實(shí)現(xiàn)步驟如下:
a)使用具有高識(shí)別率的經(jīng)典人臉識(shí)別網(wǎng)絡(luò)作為教師網(wǎng)絡(luò),記為 fT(x;φ) ,其中 x 為輸入的高分辨率樣本, φ 為教師網(wǎng)絡(luò)的模型參數(shù);使用具有精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)的深度網(wǎng)絡(luò)作為學(xué)生網(wǎng)絡(luò),記為 fs(z;θ) ,其中 z 為輸入的低分辨率樣本,θ為學(xué)生網(wǎng)絡(luò)模型的參數(shù)。模型在訓(xùn)練時(shí),將高分辨率人臉圖像輸入到教師網(wǎng)絡(luò),同時(shí)使用下采樣和仿射變換等方法對(duì)該高分辨率人臉圖像進(jìn)行下采樣和擴(kuò)容處理,將處理后的低分辨率人臉圖像同步輸人至學(xué)生網(wǎng)絡(luò)。
b)為確保學(xué)生網(wǎng)絡(luò)中間層所提取的低分辨率人臉特征盡可能與教師網(wǎng)絡(luò)中間層所提取的高分辨率人臉特征相似,本文在各分層特征蒸餾子網(wǎng)中引入由全連接網(wǎng)絡(luò)構(gòu)成的分層分類(lèi)子網(wǎng),并在該子網(wǎng)之間構(gòu)建分層蒸餾損失函數(shù) Ri 來(lái)實(shí)現(xiàn)分層特征蒸餾,從而達(dá)到提升學(xué)生網(wǎng)絡(luò)特征描述能力的目標(biāo)。分層i的分層特征蒸餾子網(wǎng)的結(jié)構(gòu)如圖2所示。
Ri 的具體定義如下所示。
其中: z′∈p(IG) 和 z∈IG 為隸屬于同一類(lèi)別的低分辨率人臉圖像與高分辨率人臉圖像, IG 為高分辨率人臉數(shù)據(jù)集, p(IG) 為對(duì)IG 進(jìn)行下采樣和仿射變換后的低分辨率人臉數(shù)據(jù)集; msi(???) 為學(xué)生網(wǎng)絡(luò)第 i 個(gè)分層分類(lèi)子網(wǎng); mTi(?) 為教師網(wǎng)絡(luò)第 i 個(gè)分層分類(lèi)子網(wǎng); φi 和 ηi 為學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的第 i 分層分類(lèi)子網(wǎng)的模型參數(shù)。
2.2 解耦知識(shí)蒸餾
由于softmax層處于網(wǎng)絡(luò)的最末端,相比較于中間特征提取層具有更為高層的語(yǔ)義信息,所以在該層進(jìn)行知識(shí)蒸餾應(yīng)能使學(xué)生網(wǎng)絡(luò)具有更高的性能上限,然而在許多實(shí)際實(shí)驗(yàn)中發(fā)現(xiàn),傳統(tǒng)知識(shí)蒸餾方法對(duì)學(xué)生網(wǎng)絡(luò)在低分辨率場(chǎng)景中分類(lèi)性能的提升效果并不顯著[16]。為了解決該問(wèn)題,把教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)softmax層的logits輸出分成兩部分(如圖3所示,見(jiàn)電子版),其中黃色部分為目標(biāo)類(lèi)別的分類(lèi)概率 pt ,綠色部分為非目標(biāo)類(lèi)別的分類(lèi)概率 ,利用等價(jià)變換將傳統(tǒng)的知識(shí)蒸餾損失解耦為目標(biāo)類(lèi)蒸餾損失和非目標(biāo)類(lèi)蒸餾損失。具體解耦過(guò)程如下:
其中:KD為經(jīng)典的知識(shí)蒸餾損失函數(shù); c 為類(lèi)別數(shù)量; piT 為教師網(wǎng)絡(luò)中類(lèi)別 i 的概率值,具體的定義為
其中: zi 為類(lèi)別 i 的 logit 值; pis 的具體定義方法與 piT 一致。 ptT 為教師網(wǎng)絡(luò)中目標(biāo)類(lèi)別的概率值,具體定義為
式(2)中 pts 的具體定義方法與式(4)中的 ptT 一致。
教師網(wǎng)絡(luò)中所有非目標(biāo)類(lèi)概率和的定義為
與此同時(shí),本文將教師網(wǎng)絡(luò)中單個(gè)非目標(biāo)類(lèi)的分類(lèi)概率定義為
由式(3)(5)和(6)可以得出:
根據(jù)式(3)和(6的定義,并結(jié)合式(7),可將式(2)改寫(xiě)為
由于 和
與類(lèi)別 i 是不相關(guān)的,可以得到:
最后根據(jù)式(8)和(9),可以得到:
其中 為目標(biāo)類(lèi)蒸餾損失(TCD),其所體現(xiàn)的是目標(biāo)類(lèi)與非目標(biāo)類(lèi)的二分類(lèi)分布,作用是使學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)的指導(dǎo)下,提高具有較大分類(lèi)難度(包含光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等干擾因素)的目標(biāo)人臉樣本的分類(lèi)準(zhǔn)確率,記為:
為非目標(biāo)類(lèi)蒸餾損失(NCD),體現(xiàn)的是非目標(biāo)類(lèi)內(nèi)部競(jìng)爭(zhēng)的多分類(lèi)分布,其作用是讓學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)指導(dǎo)下學(xué)習(xí)到高置信度樣本中通用性面部特征的分類(lèi)能力,記為
??蓪⑹剑?)的解耦蒸餾損失函數(shù)改寫(xiě)為
該式中的NCD權(quán)重與 ptT 相互耦合,當(dāng)目標(biāo)樣本易于分類(lèi)時(shí),將導(dǎo)致NCD權(quán)重降低,使得NCD在知識(shí)蒸餾中被弱化,為了提高NCD的權(quán)重,本文給TCD與NCD賦予獨(dú)立權(quán)重,使被抑制的NCD發(fā)揮出其在遷移通用性面部特征分類(lèi)能力方面的作用。因此將式(11)進(jìn)一步優(yōu)化為
其中: α 和 β 為權(quán)重系數(shù),該權(quán)重系數(shù)與數(shù)據(jù)集中樣本的分類(lèi)難度緊密相關(guān),后續(xù)將通過(guò)實(shí)驗(yàn)來(lái)設(shè)置以上兩個(gè)參數(shù)值。
2.3 教師網(wǎng)絡(luò)的訓(xùn)練
教師網(wǎng)絡(luò)是一個(gè)具有復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的深度網(wǎng)絡(luò),使用高分辨率人臉數(shù)據(jù)集 IG 對(duì)其進(jìn)行訓(xùn)練,由此可以得出該網(wǎng)絡(luò)的分類(lèi)損失函數(shù)為
C1(φ,IG)=L(fT(z;φ),y)
其中: 為輸人樣本的真實(shí)標(biāo)簽值; L(?) 為交叉熵。
隨后對(duì)教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)各中間層網(wǎng)絡(luò)間的分層特征蒸餾子網(wǎng)進(jìn)行優(yōu)化訓(xùn)練,從而得到教師網(wǎng)絡(luò)的各分層特征蒸餾子網(wǎng)的損失函數(shù),具體如式(14)所示。
其中: σ 為教師網(wǎng)絡(luò)中所有分層特征蒸餾子網(wǎng)中待優(yōu)化的參
數(shù): ?L(???) 為交叉熵; n 為分層特征蒸餾子網(wǎng)的數(shù)量。
最后將教師網(wǎng)絡(luò)的分類(lèi)損失函數(shù)與分層特征蒸餾子網(wǎng)損失函數(shù)進(jìn)行融合,得到整個(gè)教師網(wǎng)絡(luò)的損失函數(shù),具體如下:
LT=C1(φ,IG)+HT(σ,IG)
2.4 學(xué)生網(wǎng)絡(luò)的訓(xùn)練
學(xué)生網(wǎng)絡(luò)是一個(gè)具有精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)的深度網(wǎng)絡(luò),通過(guò)教師網(wǎng)絡(luò)對(duì)學(xué)生網(wǎng)絡(luò)的指導(dǎo)訓(xùn)練,使學(xué)生網(wǎng)絡(luò)具備在復(fù)雜應(yīng)用場(chǎng)景(含有光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等干擾因素)下對(duì)低分辨率樣本進(jìn)行準(zhǔn)確識(shí)別的能力,該網(wǎng)絡(luò)的損失函數(shù)由以下三部分構(gòu)成:a)分類(lèi)損失函數(shù)。使用該函數(shù)并結(jié)合使用低分辨率人臉樣本對(duì)學(xué)生網(wǎng)絡(luò)的主干網(wǎng)絡(luò)和分層特征蒸餾子網(wǎng)進(jìn)行優(yōu)化,使學(xué)生網(wǎng)絡(luò)的主體參數(shù)得到總體優(yōu)化。b)分層蒸餾損失函數(shù)。利用該損失函數(shù)使學(xué)生網(wǎng)絡(luò)所提取的低分辨率特征盡可能接近教師網(wǎng)絡(luò)所提取的高分辨率特征,以進(jìn)一步提升學(xué)生網(wǎng)絡(luò)對(duì)低分辨率樣本的特征描述能力。c)解耦蒸餾損失函數(shù)。根據(jù)數(shù)據(jù)集的分類(lèi)置信度設(shè)置相應(yīng)的解耦權(quán)重,使用該損失函數(shù)來(lái)提高學(xué)生網(wǎng)絡(luò)在識(shí)別具有較大分類(lèi)難度(包含光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等干擾因素)人臉樣本的分類(lèi)準(zhǔn)確率。具體訓(xùn)練過(guò)程主要分為以下兩個(gè)階段:
階段1:網(wǎng)絡(luò)預(yù)訓(xùn)練初步優(yōu)化階段
將低分辨率數(shù)據(jù)集 IL 輸人至學(xué)生網(wǎng)絡(luò)對(duì)其進(jìn)行訓(xùn)練,由此可以得出學(xué)生網(wǎng)絡(luò)的分類(lèi)損失函數(shù)為
C2(θ,IL)=L(fS(h;θ),y)
其中: ?L(???) 為交叉熵; h 為低分辨率樣本。
由于學(xué)生網(wǎng)絡(luò)各中間層網(wǎng)絡(luò)間連接了分層特征蒸餾子網(wǎng),本文使用交叉熵對(duì)該子網(wǎng)進(jìn)行訓(xùn)練優(yōu)化,具體如下:
其中: σ:μ 為學(xué)生網(wǎng)絡(luò)中所有分層特征蒸餾子網(wǎng)中待優(yōu)化的參數(shù): 為交叉熵; n 為分層特征蒸餾子網(wǎng)的數(shù)量。
階段2:分層蒸餾解耦網(wǎng)絡(luò)的性能優(yōu)化提升階段
對(duì)高分辨數(shù)據(jù)集 I? 進(jìn)行下采樣擴(kuò)容操作,得到擴(kuò)容后的低分辨率數(shù)據(jù)集 p(IG) ,將 IG 和 p(IG) 數(shù)據(jù)集中具有相同標(biāo)簽的人臉樣本分別同步輸入至教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)(如圖1所示)。
首先,利用教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)之間的分層特征蒸餾子網(wǎng)進(jìn)行分層特征蒸餾,根據(jù)式(1)(14)和(17)可得出學(xué)生網(wǎng)絡(luò)的分層蒸餾損失函數(shù),具體如下:
其中: n 為分層特征蒸餾子網(wǎng)的數(shù)量。
隨后在教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的softmax層進(jìn)行解耦蒸餾,以提升學(xué)生網(wǎng)絡(luò)在識(shí)別具有較大分類(lèi)難度人臉樣本的分類(lèi)準(zhǔn)確率。
最后將分類(lèi)損失函數(shù)、分層蒸餾損失函數(shù)以及解耦蒸餾損失函數(shù)進(jìn)行融合,得到學(xué)生網(wǎng)絡(luò)的總體損失函數(shù),具體如下:
LS=C2(θ,p(IG))+LR+LDKD
3 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證所提算法的有效性,本文在多個(gè)數(shù)據(jù)集中對(duì)所提算法的識(shí)別率與實(shí)時(shí)性進(jìn)行測(cè)試,并與目前具有代表性的低分辨率人臉識(shí)別算法進(jìn)行綜合對(duì)比實(shí)驗(yàn)分析。本文所使用的硬件平臺(tái)配置為:IntelXeonGold51182.30GHz CPU,兩塊QuadroP5000顯卡,32GB內(nèi)存;開(kāi)發(fā)工具為:PyCharm、PyTorch以及Anaconda。為了能夠更好地讓教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)收斂,實(shí)驗(yàn)中使用CASIA-WebFace[17]數(shù)據(jù)集對(duì)教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。該數(shù)據(jù)集中共有10575個(gè)類(lèi),合計(jì)有494414張人臉圖片,使用該數(shù)據(jù)集對(duì)模型進(jìn)行預(yù)訓(xùn)練能夠更好地讓模型適應(yīng)人臉數(shù)據(jù)集中的人臉圖像。
3.1算法消融實(shí)驗(yàn)
為了測(cè)試算法中各個(gè)功能模塊在識(shí)別低分辨率人臉樣本時(shí)的作用,本文使用LFW數(shù)據(jù)集[18來(lái)構(gòu)建低分辨率人臉數(shù)據(jù)集。LFW數(shù)據(jù)集中共有5749個(gè)人臉類(lèi)別,合計(jì)有13233張人臉圖像,數(shù)據(jù)集中的圖像采集于非限制性應(yīng)用場(chǎng)景,存在光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等干擾因素,圖像尺寸為250×250 像素。在構(gòu)建低分辨率人臉數(shù)據(jù)集時(shí),從LFW數(shù)據(jù)集中選取具有10張以上人臉樣本的158個(gè)類(lèi),使用MTCNN算法[9對(duì)LFW數(shù)據(jù)集圖像中人臉區(qū)域進(jìn)行截取,并將所截取的人臉圖像進(jìn)行下采樣,圖像尺寸歸一化為 30×30、25×25,20× 20,18×18,16×16 以及 14×14 像素六種分辨率。使用以上六種不同分辨率的人臉圖像來(lái)構(gòu)造六種不同分辨率的低分辨率人臉數(shù)據(jù)集。本實(shí)驗(yàn)使用以上所構(gòu)造的低分辨數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,圖4給出了低分辨率數(shù)據(jù)集的構(gòu)建方法。本實(shí)驗(yàn)使用ResNet34和 ResNet18 作為教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的主干網(wǎng)絡(luò)。圖4第1行圖片為L(zhǎng)FW數(shù)據(jù)集中的高分辨率人臉圖像,第2\~7行圖片為下采樣后所構(gòu)造的六個(gè)低分辨率人臉數(shù)據(jù)集。
3.1.1分層特征蒸餾對(duì)識(shí)別率的影響分析
本實(shí)驗(yàn)使用上文所構(gòu)造的六種不同分辨率的低分辨率LFW數(shù)據(jù)集進(jìn)行測(cè)試,將網(wǎng)絡(luò)中間層的分層特征蒸餾(hierar-chicalfeaturedistillation,HFD)與網(wǎng)絡(luò)末端的經(jīng)典知識(shí)蒸(knowledgedistillation,KD)進(jìn)行對(duì)比。在本實(shí)驗(yàn)中將HFD模型的中間層分層數(shù)量設(shè)置為5,分析這兩種知識(shí)蒸餾方式對(duì)于學(xué)生網(wǎng)絡(luò)在識(shí)別低分辨率人臉圖像方面所起的作用,具體實(shí)驗(yàn)結(jié)果如圖5所示。
由圖5可知,隨著圖像分辨率的不斷降低,HFD和KD方法的識(shí)別率都呈現(xiàn)逐步降低的趨勢(shì),其中HFD方法的識(shí)別率總體高于KD方法。實(shí)驗(yàn)結(jié)果說(shuō)明對(duì)網(wǎng)絡(luò)中間層特征進(jìn)行分層蒸餾能夠有效地將教師網(wǎng)絡(luò)各中間層強(qiáng)大的特征描述能力遷移到學(xué)生網(wǎng)絡(luò),從而達(dá)到提高低分辨率人臉識(shí)別率的目標(biāo)。
為了進(jìn)一步驗(yàn)證HFD網(wǎng)絡(luò)中不同層級(jí)分層特征蒸餾子網(wǎng)對(duì)低分辨率人臉識(shí)別率的影響,本文使用ResNet34和Res-Net18作為教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的主干,并將分層特征蒸餾子網(wǎng)的數(shù)量均勻設(shè)置為3、5、7、9、11個(gè)。實(shí)驗(yàn)中使用 20×20 像素的低分辨率LFW數(shù)據(jù)集對(duì)模型的識(shí)別率進(jìn)行測(cè)試,具體的實(shí)驗(yàn)結(jié)果如表1所示。
由表1可知,當(dāng)分層特征蒸餾子網(wǎng)數(shù)量為5層的HFD網(wǎng)絡(luò)的識(shí)別率要高于其他數(shù)量的HFD,說(shuō)明網(wǎng)絡(luò)中分層特征蒸餾子網(wǎng)的數(shù)量不是越多越好,其主要原因是:網(wǎng)絡(luò)的不同層次所提取的特征抽象程度不同,處于網(wǎng)絡(luò)較淺層次的特征中所包含的語(yǔ)義信息較少,處于網(wǎng)絡(luò)較深層次的特征中包含了更多的語(yǔ)義信息。若在分層特征蒸餾時(shí)引入過(guò)多的分層特征蒸餾子網(wǎng),將使模型在進(jìn)行分層特征蒸餾時(shí),過(guò)多的淺層特征蒸餾將引入大量邊緣輪廓的淺層特征,這將降低學(xué)生網(wǎng)絡(luò)中間層特征所包含的語(yǔ)義信息,導(dǎo)致中間層特征在蒸餾過(guò)程中出現(xiàn)無(wú)法對(duì)齊的問(wèn)題,從而導(dǎo)致模型得不到很好的優(yōu)化,最終出現(xiàn)模型識(shí)別率下降的問(wèn)題。
為了進(jìn)一步探討HFD網(wǎng)絡(luò)中不同分層特征蒸餾子網(wǎng)數(shù)量與模型規(guī)模對(duì)學(xué)生網(wǎng)絡(luò)識(shí)別率的影響,本文將學(xué)生網(wǎng)絡(luò)固定為ResNet18,使用不同深度的ResNet作為教師網(wǎng)絡(luò)的主干。本實(shí)驗(yàn)使用了ResNet34、ResNet50、ResNet56、ResNet101以及ResNet152作為教師網(wǎng)絡(luò)進(jìn)行HFD算法識(shí)別率的對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如圖6所示。
在圖6中,ResNet18表示的是沒(méi)有使用HFD方法對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行訓(xùn)練。圖中ResNet34(5層)表示的是教師網(wǎng)絡(luò)為ResNet34,其中引入了5個(gè)分層特征蒸餾子網(wǎng)對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其他類(lèi)似。可以發(fā)現(xiàn),使用HFD方法對(duì)學(xué)生網(wǎng)絡(luò)訓(xùn)練后所取得的識(shí)別率都比ResNet18的識(shí)別率更高,進(jìn)一步證明了HFD方法的有效性。當(dāng)教師網(wǎng)絡(luò)為ResNet152時(shí),學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)之間的規(guī)模存在較大懸殊,即使是增加了分層特征蒸餾子網(wǎng)的數(shù)量,學(xué)生網(wǎng)絡(luò)的識(shí)別率還是出現(xiàn)了一定幅度的降低,其主要原因是教師網(wǎng)絡(luò)規(guī)模越大,處于不同層次的面部特征的抽象程度差異也越大,導(dǎo)致教師網(wǎng)絡(luò)中間層特征與學(xué)生網(wǎng)絡(luò)中間層特征出現(xiàn)很大差異,使得在蒸餾過(guò)程中出現(xiàn)了特征強(qiáng)行擬合對(duì)齊的問(wèn)題,導(dǎo)致學(xué)生網(wǎng)絡(luò)得不到很好的優(yōu)化,學(xué)生網(wǎng)絡(luò)分類(lèi)準(zhǔn)確率出現(xiàn)一定程度的降低。當(dāng)教師網(wǎng)絡(luò)為ResNet34時(shí),教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)沒(méi)有規(guī)模鴻溝,中間層特征的抽象差異程度不大,學(xué)生網(wǎng)絡(luò)通過(guò)分層蒸餾損失函數(shù)能夠很好地模仿教師網(wǎng)絡(luò)中間層所提取的特征,從而顯著增強(qiáng)了學(xué)生網(wǎng)絡(luò)各中間層的特征描述能力。
3.1.2解耦蒸餾對(duì)識(shí)別率的影響分析
由于所構(gòu)造的低分辨率LFW數(shù)據(jù)集中的人臉圖像存在光照變化、表情改變、姿態(tài)偏轉(zhuǎn)以及遮擋等干擾因素,為了能進(jìn)一步提升所提算法的識(shí)別率,本實(shí)驗(yàn)在教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)之間引入解耦蒸餾模塊(decouplingdistillation,DD),并通過(guò)對(duì)比實(shí)驗(yàn)分析解耦蒸餾模塊在增強(qiáng)算法魯棒性和提升算法識(shí)別率方面的作用。為了測(cè)試解耦蒸餾損失函數(shù)中的權(quán)重參數(shù)對(duì)識(shí)別率的影響,本文使用 20×20 像素的低分辨率LFW數(shù)據(jù)集進(jìn)行超參數(shù)的設(shè)置實(shí)驗(yàn),實(shí)驗(yàn)采用控制變量法對(duì)這兩部分蒸餾損失的權(quán)重參數(shù)進(jìn)行測(cè)試。首先將TCD的權(quán)重參數(shù) α 固定為1,然后依次調(diào)整NCD的權(quán)重參數(shù) β ,學(xué)生網(wǎng)絡(luò)識(shí)別率的具體實(shí)驗(yàn)結(jié)果如表2所示。
由表2可知,當(dāng)TCD權(quán)重參數(shù) α 固定為1時(shí),低分辨率人臉圖像的識(shí)別率最高的NCD權(quán)重參數(shù) β 為8。這是由于NCD權(quán)重參數(shù)偏大更容易發(fā)揮出被抑制的非目標(biāo)類(lèi)蒸餾損失在分類(lèi)層蒸餾中的作用,但如果NCD權(quán)重參數(shù)過(guò)大就會(huì)出現(xiàn)目標(biāo)類(lèi)損失被抑制的情況,使模型無(wú)法對(duì)低分辨率樣本進(jìn)行準(zhǔn)確識(shí)別。
當(dāng)NCD權(quán)重參數(shù) β 固定為8,逐步調(diào)整TCD的權(quán)重參數(shù)α 。學(xué)生網(wǎng)絡(luò)識(shí)別率的具體實(shí)驗(yàn)結(jié)果如表3所示。
表3中的NCD權(quán)重參數(shù) β 固定為8時(shí),低分辨率人臉圖像的識(shí)別率最高的TCD權(quán)重參數(shù) α 為1。這是由于TCD權(quán)重偏小能更好地發(fā)揮出被抑制的非目標(biāo)類(lèi)部分,但如果過(guò)小就會(huì)出現(xiàn)目標(biāo)類(lèi)部分被抑制的情況。根據(jù)上述實(shí)驗(yàn)結(jié)果可知,輸出層解耦蒸餾的融合權(quán)重參數(shù) α 和 β 分別為1和8時(shí),HKDD網(wǎng)絡(luò)對(duì)低分辨率人臉圖像的識(shí)別率最高,在后續(xù)實(shí)驗(yàn)中以該參數(shù)來(lái)設(shè)置解耦蒸餾模塊。
為了全面測(cè)試解耦蒸餾模塊在本文HKDD網(wǎng)絡(luò)中所起的作用,使用前面所構(gòu)造的6個(gè)不同分辨率的低分辨率LFW數(shù)據(jù)集進(jìn)行測(cè)試,教師網(wǎng)絡(luò)使用的是ResNet34網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)使用的是ResNet18網(wǎng)絡(luò),實(shí)驗(yàn)中對(duì)比測(cè)試如下算法的識(shí)別率。ResNet為僅使用ResNet18網(wǎng)絡(luò)對(duì)低分辨率人臉進(jìn)行識(shí)別;ResNet+KD 為對(duì)學(xué)生網(wǎng)絡(luò)使用了網(wǎng)絡(luò)末端的經(jīng)典知識(shí)蒸餾;ResNet+HFD 為對(duì)學(xué)生網(wǎng)絡(luò)使用了分層特征蒸餾;HKDD為本文所提的分層蒸餾解耦網(wǎng)絡(luò)。具體實(shí)驗(yàn)結(jié)果如圖7所示。
從圖7可以看出,在六種低分辨率LFW數(shù)據(jù)集的實(shí)驗(yàn)中,未使用知識(shí)蒸餾的ResNet網(wǎng)絡(luò)的識(shí)別率最低, ResNet+KD 網(wǎng)絡(luò)僅僅是在網(wǎng)絡(luò)末端對(duì)softmax層進(jìn)行知識(shí)蒸餾,對(duì)網(wǎng)絡(luò)分類(lèi)能力的提升非常有限;引入了分層特征蒸餾的 ResNet+HFD 網(wǎng)絡(luò),則是在網(wǎng)絡(luò)中間層使用分層蒸餾損失函數(shù)來(lái)迫使學(xué)生網(wǎng)絡(luò)所提取的特征盡可能與教師網(wǎng)絡(luò)的特征保持相似,有效提升了學(xué)生網(wǎng)絡(luò)的特征表達(dá)能力,但是該網(wǎng)絡(luò)對(duì)于含有多種干擾因素疊加的低分辨率樣本的分類(lèi)能力仍有不足。本文HKDD網(wǎng)絡(luò)的識(shí)別率最高,其主要原因是:該網(wǎng)絡(luò)將中間層的分層特征蒸餾和輸出層解耦蒸餾相結(jié)合形成了一個(gè)完整的端到端的網(wǎng)絡(luò)結(jié)構(gòu),使教師網(wǎng)絡(luò)實(shí)現(xiàn)了從中間特征提取層一直到網(wǎng)絡(luò)輸出層的全面蒸餾,特別是對(duì)學(xué)生網(wǎng)絡(luò)末端的解耦蒸餾。該蒸餾方法能充分發(fā)揮出原始蒸餾損失中被抑制的非目標(biāo)類(lèi)蒸餾損失對(duì)學(xué)生網(wǎng)絡(luò)的指導(dǎo)作用,從而使學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)指導(dǎo)下學(xué)習(xí)到通用性面部特征的分類(lèi)能力,確保了學(xué)生網(wǎng)絡(luò)能夠在非限制性應(yīng)用場(chǎng)景中具有較強(qiáng)的魯棒性和較高的分類(lèi)精度。
3.2低分辨率人臉識(shí)別的綜合對(duì)比實(shí)驗(yàn)
為了測(cè)試本文HKDD算法在低分辨率人臉圖像中的識(shí)別性能,首先本實(shí)驗(yàn)使用3.1節(jié)中所構(gòu)建的低分辨率LFW數(shù)據(jù)集對(duì)算法訓(xùn)練與推理效率進(jìn)行對(duì)比測(cè)試,并在多個(gè)不同像素的低分辨率LFW數(shù)據(jù)集中對(duì)算法的識(shí)別精度進(jìn)行對(duì)比測(cè)試。隨后,本實(shí)驗(yàn)還選取了TinyFace數(shù)據(jù)集[20以及QMUL-SurvFace數(shù)據(jù)集[21]來(lái)進(jìn)一步測(cè)試算法的泛化能力。實(shí)驗(yàn)中,將本文算法與近年來(lái)具有較好性能的低分辨率人臉識(shí)別算法進(jìn)行綜合對(duì)比實(shí)驗(yàn),所對(duì)比的算法有: IKD[8] 、 BD[10] 、 FSKD[13] ) SCA[22] 、IRS[23] ,F(xiàn)T[24] 、MagFace[25] DSN[26] (204號(hào) ,0L[27] 和 FFH[28] 。
3.2.1基于低分辨率LFW數(shù)據(jù)集的識(shí)別效率與精度對(duì)比實(shí)驗(yàn)
本實(shí)驗(yàn)選取了 25×25、20×20 以及 14×14 像素三個(gè)低分辨率LFW數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集,使用 ResNet34 和ResNet18作為教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的主干網(wǎng)絡(luò)。首先使用 20×20 像素的LFW低分辨率數(shù)據(jù)集對(duì)算法的訓(xùn)練時(shí)長(zhǎng)以及單張樣本的平均識(shí)別時(shí)長(zhǎng)進(jìn)行對(duì)比實(shí)驗(yàn)。具體實(shí)驗(yàn)結(jié)果如表4所示。
由表4可知,本文HKDD網(wǎng)絡(luò)的訓(xùn)練與單張樣本平均識(shí)別時(shí)長(zhǎng)都低于所對(duì)比的其他網(wǎng)絡(luò)。主要原因是在模型訓(xùn)練過(guò)程中,實(shí)驗(yàn)中所對(duì)比的方法需要使用大量的樣本對(duì)模型進(jìn)行多輪的迭代優(yōu)化,耗費(fèi)了大量的時(shí)間。而本文網(wǎng)絡(luò)則是采用分層蒸餾方式,將教師網(wǎng)絡(luò)中各層次強(qiáng)大的特征描述能力遷移到學(xué)生網(wǎng)絡(luò),從而實(shí)現(xiàn)了對(duì)學(xué)生網(wǎng)絡(luò)的分層指導(dǎo)訓(xùn)練,使學(xué)生網(wǎng)絡(luò)無(wú)須使用大量樣本對(duì)模型進(jìn)行訓(xùn)練,就能夠達(dá)到對(duì)學(xué)生網(wǎng)絡(luò)優(yōu)化的目標(biāo),極大地降低了本文網(wǎng)絡(luò)的訓(xùn)練時(shí)長(zhǎng)。同時(shí)HKDD網(wǎng)絡(luò)中解耦蒸餾部分是通過(guò)恒等變換得出,并未給模型帶來(lái)新的算法開(kāi)銷(xiāo),也確保了所提HKDD網(wǎng)絡(luò)在訓(xùn)練過(guò)程中的高效性。在樣本識(shí)別過(guò)程中,由于HKDD框架中學(xué)生網(wǎng)絡(luò)使用的是具有精簡(jiǎn)結(jié)構(gòu)的深度網(wǎng)絡(luò),所以HKDD在單張樣本平均識(shí)別時(shí)長(zhǎng)實(shí)驗(yàn)中具有較高的識(shí)別效率。
為了測(cè)試上述低分辨率人臉識(shí)別模型在不同分辨率下的識(shí)別率,本實(shí)驗(yàn)使用 25×25、20×20 以及 14×14 像素的低分辨率LFW數(shù)據(jù)集對(duì)算法的平均識(shí)別率進(jìn)行了對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表5所示。
從表5可以看出,在不同分辨率的實(shí)驗(yàn)中,本文算法的識(shí)別率都要高于所對(duì)比的其他網(wǎng)絡(luò),且當(dāng)分辨率下降時(shí),本文算法的識(shí)別率下降幅度都低于其他網(wǎng)絡(luò)模型。這是因?yàn)楸緦?shí)驗(yàn)中所對(duì)比的網(wǎng)絡(luò)模型主要是通過(guò)對(duì)大量樣本學(xué)習(xí)來(lái)提升網(wǎng)絡(luò)對(duì)低分辨率圖像的分類(lèi)能力,并沒(méi)有充分考慮如何利用教師網(wǎng)絡(luò)來(lái)進(jìn)行指導(dǎo)訓(xùn)練,采用這樣的方式將使得模型的收斂速度變慢,模型參數(shù)很難得到有效優(yōu)化。而本文HKDD網(wǎng)絡(luò)是將中間層進(jìn)行分層,然后通過(guò)逐層級(jí)蒸餾將教師網(wǎng)絡(luò)中不同抽象程度的特征描述能力遷移到學(xué)生網(wǎng)絡(luò)對(duì)應(yīng)的層級(jí)中,使學(xué)生網(wǎng)絡(luò)各層級(jí)所提取的低分辨率人臉特征能夠更加接近教師網(wǎng)絡(luò)各層級(jí)所提取的特征。其次,HKDD網(wǎng)絡(luò)將教師網(wǎng)絡(luò)分類(lèi)層的蒸餾損失解耦為目標(biāo)類(lèi)蒸餾損失和非目標(biāo)類(lèi)蒸餾損失,并為非目標(biāo)類(lèi)蒸餾損失設(shè)置了更高的權(quán)重,從而發(fā)揮了非目標(biāo)類(lèi)蒸餾損失對(duì)學(xué)生網(wǎng)絡(luò)的指導(dǎo)作用,使學(xué)生網(wǎng)絡(luò)能夠更充分地利用有限的訓(xùn)練樣本學(xué)習(xí)到教師網(wǎng)絡(luò)強(qiáng)大的分類(lèi)能力,從而使學(xué)生網(wǎng)絡(luò)能夠在不同分辨率的實(shí)驗(yàn)中都能取得較高的人臉識(shí)別率。
3.2.2基于TinyFace數(shù)據(jù)集的識(shí)別效率與精度對(duì)比實(shí)驗(yàn)
為了進(jìn)一步測(cè)試HKDD網(wǎng)絡(luò)在多種低分辨率人臉數(shù)據(jù)集上的泛化能力,本實(shí)驗(yàn)采用TinyFace數(shù)據(jù)集進(jìn)行算法識(shí)別率的對(duì)比實(shí)驗(yàn),該數(shù)據(jù)集中共有169403張低分辨率人臉樣本,其分辨率為 20×16 像素,數(shù)據(jù)集中共有5139個(gè)類(lèi),數(shù)據(jù)集中的樣本存在姿態(tài)偏轉(zhuǎn)、光照變化、表情改變以及遮擋等干擾因素。圖8給出了該數(shù)據(jù)集中的部分樣本。
實(shí)驗(yàn)中,將本文算法與目前性能較好的算法進(jìn)行對(duì)比實(shí)驗(yàn),具體的算法有:IKD、BD、FSKD、DSN、OL和FFH,對(duì)比實(shí)驗(yàn)結(jié)果如表6所示。
由表6可知,本實(shí)驗(yàn)中所有算法的人臉識(shí)別率都偏低,其主要原因是該數(shù)據(jù)集中的樣本不僅分辨率低,同時(shí)樣本中還存在多種干擾因素的共同疊加(如:光照變化、姿態(tài)偏轉(zhuǎn)、表情改變以及遮擋等),使得現(xiàn)有低分辨率算法難以從樣本中提取出具有較好判別特性的面部特征。在本實(shí)驗(yàn)中,本文HKDD網(wǎng)絡(luò)取得了最高的人臉識(shí)別率,以上實(shí)驗(yàn)結(jié)果進(jìn)一步證明了HKDD網(wǎng)絡(luò)通過(guò)各中間層的分層特征蒸餾,能夠顯著增強(qiáng)學(xué)生網(wǎng)絡(luò)各中間層的特征描述能力。同時(shí),在分類(lèi)層對(duì)蒸餾損失進(jìn)行解耦,也有效增強(qiáng)了非目標(biāo)類(lèi)蒸餾損失函數(shù)對(duì)學(xué)生網(wǎng)絡(luò)的指導(dǎo)作用,使學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)指導(dǎo)下學(xué)習(xí)到通用性面部特征的分類(lèi)能力,確保了學(xué)生網(wǎng)絡(luò)能夠在非限制性應(yīng)用場(chǎng)景中具有較強(qiáng)的魯棒性和較高的分類(lèi)精度。
為了測(cè)試本文算法在TinyFace數(shù)據(jù)集中的訓(xùn)練效率與識(shí)別效率,本實(shí)驗(yàn)使用表6的主流算法進(jìn)行對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表7所示。
由表7可知,本文HKDD網(wǎng)絡(luò)在TinyFace數(shù)據(jù)集中依然具有較高的訓(xùn)練與識(shí)別效率,其訓(xùn)練時(shí)長(zhǎng)與單張樣本的平均識(shí)別時(shí)長(zhǎng)都低于所對(duì)比的其他網(wǎng)絡(luò)。進(jìn)一步證明了分層蒸餾網(wǎng)絡(luò)能夠有效地將教師網(wǎng)絡(luò)中各層次強(qiáng)大的特征表達(dá)能力遷移到學(xué)生網(wǎng)絡(luò),使學(xué)生網(wǎng)絡(luò)無(wú)須使用大量樣本對(duì)模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)了對(duì)學(xué)生網(wǎng)絡(luò)高效優(yōu)化的目標(biāo),極大地降低了學(xué)生網(wǎng)絡(luò)訓(xùn)練的復(fù)雜度。在進(jìn)行樣本識(shí)別時(shí),由于學(xué)生網(wǎng)絡(luò)具有精簡(jiǎn)的網(wǎng)絡(luò)結(jié)構(gòu),所以在使用學(xué)生網(wǎng)絡(luò)對(duì)低分辨率樣本進(jìn)行識(shí)別時(shí),具有較高的識(shí)別效率。
3.2.3基于QMUL-SurvFace數(shù)據(jù)集的識(shí)別率對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文所提的低分辨率人臉識(shí)別算法在安防監(jiān)控場(chǎng)景下的實(shí)用性以及算法的泛化能力,使用QMUL-SurvFace數(shù)據(jù)集對(duì)算法識(shí)別率進(jìn)行對(duì)比實(shí)驗(yàn)。該數(shù)據(jù)集中含有15573個(gè)人,總共有463507張人臉圖像,這些圖像來(lái)源于監(jiān)控?cái)z像頭,所采集的人臉圖像分辨率低,且圖像中還包含多種復(fù)雜干擾因素(光照變化、姿態(tài)變化、表情以及遮擋等),這使得該數(shù)據(jù)集成為極具挑戰(zhàn)性的低分辨率人臉數(shù)據(jù)集。圖9給出了該數(shù)據(jù)集中部分樣本。
本實(shí)驗(yàn)中,將本文算法與目前性能較好的算法進(jìn)行對(duì)比實(shí)驗(yàn),具體的算法有IKD、BD、FSKD、DSN、OL和FFH,為了能更全面對(duì)算法的識(shí)別性能進(jìn)行測(cè)試,本文采用 TAR(%)(a) FAR和mean accuracy( % 作為算法識(shí)別精度的評(píng)價(jià)指標(biāo),其中TAR表示的是正確接受率(trueacceptrate);FAR表示的是錯(cuò)誤接受率(1acceptrate)。在進(jìn)行人臉驗(yàn)證時(shí),TAR就是真正同一人的兩張圖片被算法識(shí)別為同一人的比率;FAR就是非同一人的兩張圖片被算法識(shí)別為同一人的比率。在進(jìn)行實(shí)際人臉驗(yàn)證時(shí),若降低人臉驗(yàn)證的相似度閾值,則會(huì)使TAR與FAR的值都同時(shí)上升,為了使算法的識(shí)別精度更有意義,需要在固定FAR值的情況下來(lái)綜合評(píng)估算法的TAR值,TAR @ FAR=0.1 表示 FAR=0.1 時(shí),TAR的值。mean accuracy( (%) 為人臉識(shí)別的平均準(zhǔn)確率。本實(shí)驗(yàn)的具體實(shí)驗(yàn)結(jié)果如表8所示。
由表8的結(jié)果可知,本文算法HKDD的正確接受率以及平均準(zhǔn)確率均高于現(xiàn)有主流的低分辨率人臉識(shí)別算法,實(shí)驗(yàn)結(jié)果進(jìn)一步證明了本文算法一方面通過(guò)分層特征蒸餾提升了學(xué)生網(wǎng)絡(luò)的特征描述能力,使學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)的指導(dǎo)下,學(xué)習(xí)到了教師網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力;另一方面通過(guò)解耦蒸餾的方式,將網(wǎng)絡(luò)最末端的softmax層解耦為目標(biāo)類(lèi)蒸餾損失和非目標(biāo)類(lèi)蒸餾損失,通過(guò)為非目標(biāo)類(lèi)蒸餾損失設(shè)置更高的權(quán)重,從而實(shí)現(xiàn)了提升學(xué)生網(wǎng)絡(luò)分類(lèi)性能的目標(biāo)。本實(shí)驗(yàn)進(jìn)一步證明了本文算法具有較強(qiáng)魯棒性,能夠在包含復(fù)雜干擾因素的視頻監(jiān)控場(chǎng)景取得較高的準(zhǔn)確率。
3.3算法效率分析
為了進(jìn)一步分析本文算法的運(yùn)行效率,從系統(tǒng)內(nèi)存占用的角度對(duì)模型的運(yùn)行效率進(jìn)行詳細(xì)分析。本實(shí)驗(yàn)所使用的硬件平臺(tái)配置為:IntelXeonGold51182.30GHzCPU,兩塊QuadroP5000顯卡,32GB內(nèi)存。本實(shí)驗(yàn)使用自主構(gòu)造的低分辨率LFW數(shù)據(jù)集進(jìn)行測(cè)試,實(shí)驗(yàn)中教師網(wǎng)絡(luò)使用的是ResNet152,學(xué)生網(wǎng)絡(luò)使用的是 ResNet34 。圖10中的T-250表示輸入到教師網(wǎng)絡(luò)的樣本尺寸為 250×250 像素,S-64、S-32、S-16以及S-12表示輸入到學(xué)生網(wǎng)絡(luò)的測(cè)試樣本尺寸分別為: 64×64,32×32 、16×16 以及 12×12 像素。
由圖10可知,隨著樣本分辨率的降低,模型在內(nèi)存中所占用的空間也隨之降低,相比較于教師網(wǎng)絡(luò)T-250,S-64、S-32、S-16以及S-12網(wǎng)絡(luò)的內(nèi)存占用規(guī)模分別降低了95. 36% /97.64% 98.81% 以及 99.01% ,當(dāng)?shù)头直媛蕵颖镜姆直媛蕿?2×12 像素時(shí),學(xué)生網(wǎng)絡(luò)模型在進(jìn)行樣本推理識(shí)別時(shí)的內(nèi)存占用僅為 4.31MB 。學(xué)生網(wǎng)絡(luò)模型的識(shí)別率與單張樣本平均識(shí)別時(shí)長(zhǎng)的實(shí)驗(yàn)結(jié)果如表9所示。
由表9可知,當(dāng)輸入的低分辨率測(cè)試樣本尺寸為 12×12 像素時(shí),學(xué)生網(wǎng)絡(luò)的單張樣本平均時(shí)長(zhǎng)相較于教師網(wǎng)絡(luò)降低了97.92% ,而學(xué)生網(wǎng)絡(luò)的識(shí)別率相比較于教師網(wǎng)絡(luò)僅僅降低11% ,具備了較高的識(shí)別率。實(shí)驗(yàn)結(jié)果充分說(shuō)明,教師網(wǎng)絡(luò)通過(guò)分層特征蒸餾子網(wǎng)和解耦蒸餾子網(wǎng),能夠有效將教師網(wǎng)絡(luò)的強(qiáng)大特征描述能力和分類(lèi)能力遷移到學(xué)生網(wǎng)絡(luò),采用這種方式對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行指導(dǎo)訓(xùn)練,沒(méi)有增加學(xué)生網(wǎng)絡(luò)的模型規(guī)模,而學(xué)生網(wǎng)絡(luò)的參數(shù)量以及內(nèi)存空間占用量得到顯著降低,使學(xué)生網(wǎng)絡(luò)具備了較強(qiáng)的實(shí)時(shí)性和較高的識(shí)別率。
4結(jié)束語(yǔ)
為了有效解決非限制性場(chǎng)景中低分辨率人臉識(shí)別率低的問(wèn)題,本文提出了基于分層蒸餾解耦網(wǎng)絡(luò)的低分辨率人臉識(shí)別算法。該網(wǎng)絡(luò)通過(guò)中間層的分層特征蒸餾和輸出層的解耦蒸餾相結(jié)合的雙重蒸餾方式來(lái)指導(dǎo)學(xué)生網(wǎng)絡(luò)訓(xùn)練,以更好地將教師網(wǎng)絡(luò)中強(qiáng)大的人臉特征描述能力和分類(lèi)能力遷移到學(xué)生網(wǎng)絡(luò)中,從而提高學(xué)生網(wǎng)絡(luò)對(duì)低分辨率人臉樣本的識(shí)別率與訓(xùn)練效率。通過(guò)大量的實(shí)驗(yàn)結(jié)果表明,HKDD網(wǎng)絡(luò)在低分辨率人臉圖像中的識(shí)別率要優(yōu)于現(xiàn)有的主流低分辨率識(shí)別模型。在算法的實(shí)現(xiàn)過(guò)程中,本文算法在對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行分層特征蒸餾時(shí),無(wú)須設(shè)置超參數(shù),可以快速地實(shí)現(xiàn)將教師網(wǎng)絡(luò)的特征描述能力遷移至學(xué)生網(wǎng)絡(luò)。然而在網(wǎng)絡(luò)末端進(jìn)行解耦蒸餾時(shí),目標(biāo)類(lèi)蒸餾損失與非目標(biāo)類(lèi)蒸餾損失的權(quán)重設(shè)置仍然需要通過(guò)大量實(shí)驗(yàn)來(lái)尋找最優(yōu)值,無(wú)法根據(jù)樣本的分類(lèi)困難度來(lái)自動(dòng)設(shè)置相應(yīng)的權(quán)重,這是本文后續(xù)研究所要重點(diǎn)解決的問(wèn)題。
參考文獻(xiàn):
[1]盧峰,周琳,蔡小輝.面向安防監(jiān)控場(chǎng)景的低分辨率人臉識(shí)別算 法研究[J].計(jì)算機(jī)應(yīng)用研究,2021,38(4):1230-1234.(Lu Feng,Zhou Lin,Cai Xiaohui.Research on low-resolution face recognitionalgorithm for security surveillance scene[J].ApplicationResearchofComputers,2021,38(4):1230-1234.)
[2]侯諭融,狄嵐,梁久禎.融合高斯金字塔特征的低分辨率人臉識(shí) 別[J].小型微型計(jì)算機(jī)系統(tǒng),2021,42(10):2107-2115. (Hou Yurong,Di Lan,Liang Jiuzhen. Fusion of Gaussian image pyramid feature for low-resolution face recognition [J].Journal of ChineseComputerSystems,2021,42(10):2107-2115.)
[3]李晶,李健,陳海豐,等.基于關(guān)鍵區(qū)域遮擋與重建的人臉表情 識(shí)別[J].計(jì)算機(jī)工程,2024,50(5):241-249.(LiJing,Li Jian,Chen Haifeng,etal.Facial expressionrecognitionbased on key region masking and reconstruction[J]. Computer Engineering, 2024,50(5):241-249.)
[4]ZhangKangkai,GeShiming,ShiRuixin,etal.Low-resolutionobject recognition with cross-resolution relational contrastive distillation [J]. IEEE Trans on Circuits and System for Video Technology, 2024,34(4):2374-2384.
[5]張凱兵,鄭冬冬,景軍鋒.低分辨率人臉識(shí)別綜述[J].計(jì)算機(jī) 工程與應(yīng)用,2019,55(22):14-24.(Zhang Kaibin,Zheng Dongdong,Jing Junfeng. Survey of low-resolution face recognition[J]. Computer Engineering and Applications,2019,55(22):14-24.)
[6]張慶輝,張媛,張夢(mèng)雅.有遮擋人臉識(shí)別進(jìn)展綜述[J].計(jì)算機(jī) 應(yīng)用研究,2023,40(8):2250-2257,2273.(ZhangQinghui, Zhang Yuan, Zhang Mengya. Review of progress of face recognition with occlusion[J].Application Research of Computers,2023, 40(8):2250-2257,2273.)
[7]HintonG,Vinyals O,Dean J.Distilling the knowledge in a neural network [EB/OL](2015-03-09).https://arxiv.org/abs/1503. 02531.
[8]WangMengjiao,LiuRujie,HajimeN,etal.Improved knowledge distillationfor training fastlowresolution facerecognitionmodel[C]// Proc of International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2019.
[9]Yan Mengjia,Zhao Mengao,Xu Zining,et al.VargFaceNet:an efficient variablegroup convolutional neural network for lightweight face recognition [C]//Proc of International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2019.
[10]Ge Shiming,Zhao Shengwei,Li Chenyu,et al.Efficient low-resolution face recognitionvia bridge distillation[J].IEEE Trans on lmage Processing,2020,29:6898-6908.
[11]LiJunnan,SelvarajuRR,GotmareAD,etal.Align before fuse:vision and language representation learning with momentum distillation [C]//Proc of the 35th International Conference on Neural Information Processing Systems. 2021: 9694-9705.
[12]Romero A,Ballas N,Kahou SE,et al.FitNets:hints for thin deep nets[C]//Proc of International Conference on Learning Representations.Cham:Springer,2015.
[13]Shin S,Yu Y,Lee K.Enhancing low-resolution face recognition with feature similarity knowledge distillation[EB/OL].(2023-03-08) [2024-06-09].https://arxiv.org/abs/2303.04681.
[14]Ge Shiming,Zhao Shengwei,Li Chengyu,et al.Low-resolution face recognition in the wild via selectiveknowledge distilation[J].IEEE Trans on Image Processing,2019,28(4): 2051-2062.
[15]Yang Chuanguang,An Zhulin, Cai Linhang,et al. Hierarchical selfsupervised augmented knowledge distillation[C]//Proc of International Joint ConferencesonArtificial Intellgence.Cham:Springer, 2021:1217-1223.
[16]Zhao Borui,Cui Quan,SongRenjie,et al.Decoupled knowledge distillation[C]//Proc of Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:11953-11962.
[17]Yi Dong,Lei Zhen,Liao Shengcai,et al.Learning face representation from scratch[EB/OL].(2014-11-29)[2024-06-20].https://arxiv.org/pdf/1411.7923.
[18]HuangGB,Mattar M,BergT,et al.Labeled faces inthe wild:a database for studying face recognition in unconstrained environments,inria-00321923[R].Amherst:University of Massachusets,2007.
[19]Zhang Kaipeng,Zhang Zanpeng,Li Zhifeng,et al. Joint face detection and alignment using multitask cascaded convolutional networks [J].IEEE Signal Processing Letters,2016,23(10):1499- 1503.
[20] Cheng Zhiyi,Zhu Xiatian,Gong Shaogang.Low-resolution face recognition[C]//Proc of the14th Asian Conference on Computer Vision.Piscataway,NJ:IEEE Press,2018:605-621.
[21]Cheng Zhiyi, Zhu Xiatian,Gong Shaogang. Surveillance face recognition challenge[EB/OL].(2018-04-25)[2024-06-20].https:// arxiv.org/pdf/1804.09691.
[22]DengJiankang,Guo Jia,Liu Tongliang,etal.Sub-center ArcFace: boosting face recognition by large-scale noisy Web faces[C]//Proc of European Conference on Computer Vision. Cham:Springer,2020: 741-757.
[23]Knoche M,Hormann S,Rigoll G. Image resolution susceptibility of face recognition models[EB/OL].(2021)[2024-03-10]. https:// arxiv.org/abs/2107.03769.
[24]Zhong Yaoyao,Deng Weihong.Face transformer for recognition[EB/ OL].(2021-07-08)[2024-03-10].https://arxiv.or/abs/2103.14803.
[25]Meng Qiang, Zhao Shichao, Huang Zhida,et al. MagFace: a universal representation for face recognition and quality assessment [C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE Press,2021:14225-14234.
[26]Lai SC,Lam K M.Deep siamese network for low-resolution face recognition[C]//Proc of Asia-Pacific Signal and InformationProcessing Association Annual Summit and Conference. Piscataway,NJ: IEEE Press, 2021:1444- 1449.
[27]KnocheM,Elkadeem M,Hormann S,et al.Octuplet loss:make face recognition robust to image resolution[C]//Proc of International Conference on Automatic Face and Gesture Recognition. Piscataway, NJ:IEEE Press,2023:1-8.
[28]Li Sisi,Liu Zhonghua,Wu Di,et al.Low-resolution face recognition based on feature-mapping face hallucination [J].Computers and Electrical Engineering,2022,101:1-15.