亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度殘差網(wǎng)絡(luò)的輕量級人臉識別方法

        2022-07-29 07:33:12賀懷清閆建青惠康華
        計算機應(yīng)用 2022年7期
        關(guān)鍵詞:集上人臉識別殘差

        賀懷清,閆建青,惠康華

        基于深度殘差網(wǎng)絡(luò)的輕量級人臉識別方法

        賀懷清,閆建青*,惠康華

        (中國民航大學 計算機科學與技術(shù)學院,天津 300300)( ? 通信作者電子郵箱2354478715@qq.com)

        針對深度殘差網(wǎng)絡(luò)在小型移動設(shè)備的人臉識別應(yīng)用中存在的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、時間開銷大等問題,提出一種基于深度殘差網(wǎng)絡(luò)的輕量級模型。首先對深度殘差網(wǎng)絡(luò)的結(jié)構(gòu)進行精簡優(yōu)化,并結(jié)合知識轉(zhuǎn)移方法,從深度殘差網(wǎng)絡(luò)(教師網(wǎng)絡(luò))中重構(gòu)出輕量級殘差網(wǎng)絡(luò)(學生網(wǎng)絡(luò)),從而在保證精度的同時,降低網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜度;然后在學生網(wǎng)絡(luò)中通過分解標準卷積減少模型的參數(shù),從而降低特征提取網(wǎng)絡(luò)的時間復(fù)雜度。實驗結(jié)果表明,在LFW、VGG-Face、AgeDB和CFP-FP等4個不同數(shù)據(jù)集上,所提模型在識別精度接近主流人臉識別方法的同時,單張推理時間達到16 ms,速度提升了10%~20%??梢?,所提模型能夠在推理速度得到有效提升的同時識別精度基本不下降。

        深度殘差網(wǎng)絡(luò);人臉識別;輕量級;知識蒸餾;深度可分離卷積

        0 引言

        人臉識別作為一種身份判別的技術(shù),具有非接觸、友好等特點,被廣泛應(yīng)用于軍事、金融、公共安全和日常生活等領(lǐng)域。李東博等[1]針對主成分分析(Principal Component Analysis, PCA)算法提取的主成分向量含有較多非零元的問題,提出一種重加權(quán)稀疏主成分分析算法,采用重加權(quán)方法對PCA進行優(yōu)化。徐竟?jié)傻龋?]為提高人臉識別效率,提出了一種融合算法,吸收了PCA、線性判別分析法(Linear Discriminant Analysis, LDA)、支持向量機(Support Vector Machine, SVM)這3個算法的優(yōu)點。丁蓮靜等[3]針對非限制場景下人臉識別因多種因素影響導致識別率不高的問題,提出一種加權(quán)信息熵和自適應(yīng)閾值環(huán)形局部二值模式算子相結(jié)合的方法。這些傳統(tǒng)的人臉識別算法采用降維思想或人工設(shè)計的特征和上述三類算法之間的組合提取淺層特征,在單因素變化的人臉識別任務(wù)中取得了很好的效果。隨著深度學習的迅猛發(fā)展和大型人臉數(shù)據(jù)集的公開,出現(xiàn)很多基于卷積神經(jīng)網(wǎng)絡(luò)和Loss度量學習的人臉識別算法。Schroff等[4]提出FaceNet在大型私人數(shù)據(jù)集上使用GoogLeNet和triplet損失進行訓練,在LFW(Labeled Faces in the Wild)數(shù)據(jù)集上識別性能達到了99.63%。Parkhi等[5]提出VGG-Face (Visual Geometry Group Face),使用從互聯(lián)網(wǎng)收集整理分辨率高的數(shù)據(jù)集和triplet損失在VGGNet(Visual Geometry Group Network)上進行訓練,在LFW上識別性能達到98.65%。Hu等[6]基于對特征通道之間的依賴性提出SENet(Squeeze-and-Excitation Network),通過學習的方式自動獲取每個特征通道的重要程度,然后根據(jù)重要程度提升有用的特征抑制用處不大的特征。Liu等[7]提出Sphereface,使用64層的ResNet(Residual neural Network)[8]和提出的角度空間損失函數(shù)(Angular Softmax, A-Softmax)學習帶角度間隔的人臉判別性特征,在LFW上識別精度達到99.42%。Wang等[9]為提高特征的判別力提出CosFace,通過歸一化特征和權(quán)重將Softmax損失轉(zhuǎn)化為余弦損失,進一步加上余弦間隔后構(gòu)造出大間隔余弦損失函數(shù)(Large Margin Cosine Loss, LMCL),在LFW上識別率達到99.73%。Deng等[10]為獲得更具判別力的特征提出了ArcFace,加性角度間隔損失函數(shù)(Additive Angular Margin Loss, AAML)解決了Sphereface難以優(yōu)化的問題,在LFW上識別性能達到了99.83%。從Sphereface到AAML都是基于Loss度量學習的人臉識別代表性算法,其共同思想是在正確分類的前提下,最小化類內(nèi)距離的同時實現(xiàn)類間距離最大化,以此提高特征的判別性。

        上述深度學習中ResNet算法在人臉識別領(lǐng)域識別精度非常高,但網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜和數(shù)據(jù)集龐大的特點使得它們只適合在有充足硬件資源的條件下進行訓練使用。與此同時出現(xiàn)了一批可以移植到移動和嵌入式設(shè)備當中的輕量級網(wǎng)絡(luò),如SENet、MobileNet[11]、ShuffleNet[12],雖然這些輕量級網(wǎng)絡(luò)的設(shè)計在實時性和精度上都滿足了實際使用,但因為它們輕量的設(shè)計導致提取的特征信息不足,不能實現(xiàn)與復(fù)雜網(wǎng)絡(luò)相同的性能。為了實現(xiàn)網(wǎng)絡(luò)的輕量化,不僅有上述的輕量級網(wǎng)絡(luò)出現(xiàn),也有從知識轉(zhuǎn)移角度讓網(wǎng)絡(luò)變簡單的技術(shù)出現(xiàn)。Wang等[13]為知識轉(zhuǎn)移設(shè)計出一種教師加權(quán)策略,該策略具有從隱藏層丟失特征表示的能力,從而避免了教師的不正確監(jiān)督。Yan等[14]設(shè)計出一種遞歸知識蒸餾方法,通過使用上一個學生網(wǎng)絡(luò)來初始化下一個學生網(wǎng)絡(luò)。知識蒸餾從較大的深度神經(jīng)網(wǎng)絡(luò)中將知識蒸餾出來融入進一個小神經(jīng)網(wǎng)絡(luò)。Ge等[15]提出一種選擇性的知識蒸餾方法,其中用于高分辨率人臉識別的教師網(wǎng)絡(luò)有選擇地將其信息豐富的面部特征轉(zhuǎn)移到學生網(wǎng)絡(luò)中,通過稀疏圖優(yōu)化實現(xiàn)低分辨率人臉識別。從知識轉(zhuǎn)移角度出發(fā)而設(shè)計的網(wǎng)絡(luò)有兩個好處:一是可以利用已經(jīng)訓練好的教師模型進行知識轉(zhuǎn)移;二是可以訓練出在實際使用中更實時有效的學生網(wǎng)絡(luò)代替教師網(wǎng)絡(luò)完成工作。

        為滿足小型設(shè)備的使用,本文提出一種遷移知識的輕量級網(wǎng)絡(luò)的方法DSLR(Depthwise Separable Light ResNet)。不同于之前的輕量級網(wǎng)絡(luò),通過學習恒等映射和殘差映射的策略,采用離線的知識蒸餾(Knowledge?Distillation, KD)[16]的思想訓練網(wǎng)絡(luò)復(fù)雜、推理性能好的大型教師網(wǎng)絡(luò),然后利用教師網(wǎng)絡(luò)提取人臉圖像深層特征,轉(zhuǎn)移潛在知識,使用加性角度間隔損失和KL散度(Kullback-Leibler Divergence, KLD)損失監(jiān)督訓練輕量級學生網(wǎng)絡(luò),該網(wǎng)絡(luò)在精度基本不變的同時,網(wǎng)絡(luò)結(jié)構(gòu)也大大簡化。在此基礎(chǔ)上,利用MobileNet中提出的深度可分離卷積(Depthwise Separable Convolution,DSC)改變卷積操作的計算過程降低模型參數(shù)量,搭建一個輕量級人臉識別網(wǎng)絡(luò)。

        1 DSLR模型

        人臉識別的目的在于通過提取的人臉面部特征進行身份的驗證或判別。針對復(fù)雜算法在移動設(shè)備使用中資源消耗大的問題,DSLR是在借鑒遷移學習的KD思想和損失度量學習的監(jiān)督下從復(fù)雜的ResNet中學習到的輕量化的人臉識別模型。DSLR模型主要包括三部分:第一,采用知識蒸餾技術(shù)、損失度量學習方法和保留深度殘差網(wǎng)絡(luò)設(shè)計的技巧,保證精度基本不變的基礎(chǔ)上從訓練好的教師網(wǎng)絡(luò)中將隱藏的深層特征知識遷移到學生網(wǎng)絡(luò)DSLR,從而監(jiān)督DSLR的分類器訓練;第二,在此基礎(chǔ)上為提高網(wǎng)絡(luò)的實時性,使用深度可分離卷積分解卷積操作的方法,減少卷積操作計算量;第三,使用注意力模塊,解決因參數(shù)減少可能會造成精度下降的情況。以下將從算法流程、輕量級學生網(wǎng)絡(luò)和知識蒸餾三個方面展開介紹DSLR模型。

        1.1 輕量級人臉識別算法描述

        人臉識別算法中識別效果好的網(wǎng)絡(luò),結(jié)構(gòu)一般較復(fù)雜,硬件資源需求越強,訓練時間越長。主流的Sphereface、CosFace和ArcFace之中使用的卷積神經(jīng)網(wǎng)絡(luò)ResNet,網(wǎng)絡(luò)的層數(shù)從50、101到152不等,在硬件資源充分的人臉識別任務(wù)上都取得較好的效果。一方面ResNet由于解決了梯度消失、梯度爆炸和網(wǎng)絡(luò)性能退化等問題被廣泛應(yīng)用于各個領(lǐng)域,另一方面恒等映射和殘差映射的策略進一步地提升了網(wǎng)絡(luò)提取圖像特征的能力。但復(fù)雜的ResNet也有明顯的不足,網(wǎng)絡(luò)越深越復(fù)雜,參數(shù)規(guī)模龐大導致需要支撐它完成訓練的硬件資源要求也很高。本文擬在ArcFace中改進的ResNet基礎(chǔ)上構(gòu)建輕量級人臉殘差網(wǎng)絡(luò),保留恒等映射和殘差映射策略的同時簡化網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜度,解決資源缺乏下人臉識別的可部署問題。DSLR模型采用基于集成學習的輕量級算法,具體算法步驟如下,其中算法步驟1、2、5與ArcFace中的人臉識別算法相同,接下來將重點介紹步驟3的學生網(wǎng)絡(luò)和步驟4的知識轉(zhuǎn)移。

        步驟1 圖像預(yù)處理:人臉檢測、人臉對齊、裁剪;

        步驟2 教師網(wǎng)絡(luò)預(yù)訓練:訓練集在ResNet50上使用加性角度間隔損失監(jiān)督進行模型訓練;

        步驟3 學生網(wǎng)絡(luò)訓練:訓練集(與步驟2的相同)在DSLR網(wǎng)絡(luò)上使用加性角度間隔損失監(jiān)督進行模型訓練;

        步驟4 知識轉(zhuǎn)移:教師和學生網(wǎng)絡(luò)最后一層的輸出通過高溫的軟化后,通過蒸餾損失進行知識遷移;

        步驟5 DSLR:在AAML和蒸餾損失的共同監(jiān)督下,學習出理想的DSLR網(wǎng)絡(luò)。

        1.2 DSLR學生網(wǎng)絡(luò)

        DSLR模型選擇ResNet的50層網(wǎng)絡(luò)作為知識蒸餾中的教師網(wǎng)絡(luò),抽取圖像中人臉面部的深層特征信息,完成特征的穩(wěn)健表示,這樣能彌補傳統(tǒng)算法中人工設(shè)計特征的缺陷,保證模型的精度和泛化能力。教師網(wǎng)絡(luò)對每個人臉通過24個殘差塊和全連接層輸出對其預(yù)測的512維特征,然后保存殘差網(wǎng)絡(luò)從人臉中抽取的深層次隱藏特征作為監(jiān)督機制,最后通過監(jiān)督機制轉(zhuǎn)移潛在的知識從而指導學生網(wǎng)絡(luò)的集成學習,增加有效特征信息的捕捉,構(gòu)造出符合實時性和精度要求的輕量級模型。

        輕量級人臉識別殘差網(wǎng)絡(luò)模型如圖1所示,在DSLR網(wǎng)絡(luò)結(jié)構(gòu)當中,教師網(wǎng)絡(luò)對有光照、遮擋、姿態(tài)、表情和年齡等因素變化的非限制場景下人臉識別魯棒性非常好,都得益于網(wǎng)絡(luò)基本塊的合理設(shè)計,在學生模型中通過研究這個基本塊的設(shè)計策略來構(gòu)建輕量化網(wǎng)絡(luò)結(jié)構(gòu)。學生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的層數(shù)分別為10和50,學生模型的深度約為教師模型的1/5,極大縮小網(wǎng)絡(luò)的規(guī)模,有助于速度的提升。為進一步提升輕量型人臉識別網(wǎng)絡(luò)的推理速度,DSLR學生網(wǎng)絡(luò)使用深度可分離卷積替代標準卷積,極大減少卷積核的運算量來提升特征提取的速度。與此同時,為防止運算量下降的同時會影響精度,故而使用即插即用的注意力模塊進行重要特征的篩選保留。接下來從一張人臉圖像經(jīng)過DSLR學生網(wǎng)絡(luò)的處理流程進行分析。

        1) 人臉圖像的預(yù)處理。對人臉圖像進行旋轉(zhuǎn),增強數(shù)據(jù)的變化,防止過擬合。

        2) 人臉圖像的通道升維。為獲取豐富的特征信息,選擇3×112×112的三通道彩色圖像輸入DSLR,通過64個不同的卷積核提取從全局到細節(jié)的特征信息,輸出64張112×112的特征圖。

        3) 人臉圖像的特征提取模塊。首先為了能設(shè)計出精度接近主流復(fù)雜算法的輕量級網(wǎng)絡(luò),選擇保留ResNet的恒等映射和殘差映射策略;其次為了保證模型的實時性,使用四個殘差模塊來實現(xiàn)提取特征,降低網(wǎng)絡(luò)的深度的同時有效減少了參數(shù);再次為進一步提升速度,分解標準卷積為逐通道卷積和逐點卷積,有效降低提取特征的計算量;最后為了解決減少卷積計算可能存在重要特征信息丟失的問題,選擇通道注意力模塊用來增強重要特征的通道,抑制次要特征的通道。DSLR學生網(wǎng)絡(luò)的各層詳細結(jié)構(gòu)如表1所示。

        圖1 輕量級人臉殘差網(wǎng)絡(luò)模型

        表1 輕量級人臉識別殘差網(wǎng)絡(luò)各層結(jié)構(gòu)

        1.2.1學生網(wǎng)絡(luò)的兩種損失

        人臉識別方向之前的研究主要集中在卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計和損失函數(shù)等方面。為了能讓神經(jīng)網(wǎng)絡(luò)訓練出的參數(shù)更具有泛化性,出現(xiàn)了很多基于損失函數(shù)的改進。目前的損失函數(shù)主要有Softmax、A-Softmax、LMCL和AAML等,Softmax只能保證分類的正確性,并不能保證得到一個泛化性強的樣本度量空間。A-Softmax、LMCL和AAML在Softmax的基礎(chǔ)上發(fā)展而來,但L-Softmax和A-Softmax比較難收斂和優(yōu)化,LMCL和AAML則克服了這些缺點,在沒有Softmax的監(jiān)督下也容易實現(xiàn)收斂。相對LMCL而言,AAML是目前人臉識別中使用最多最廣泛的。如圖1所示,師生網(wǎng)絡(luò)均采用AAML作為度量學習的損失。師生之間則采用KL散度損失作為衡量師生之間概率分布的差異,差異越小損失越小。

        如圖1所示,師生網(wǎng)絡(luò)均采用AAML作為度量學習的損失。師生之間則采用KL散度損失作為衡量師生之間概率分布的差異,差異越小損失越小。DSLR模型的學生損失如式(1)所示:

        其中:權(quán)重和樣本特征都進行了歸一化,為縮放因子,為加性角間隔,為特征和權(quán)重之間的角度。

        師生之間的蒸餾損失D如式(2)所示:

        其中:是等式右邊兩個變量的別名,并無實際含義,D是蒸餾(Distillation)的縮寫。s和t分別是學生和教師之間最后一層的輸出,是溫度用來軟化s和t。教師模型通過匹配高溫下軟化的s和t能傳遞非常有用的知識用來訓練學生模型。

        DSLR模型的總損失total如式(3)所示:

        1.2.2引入深度可分離卷積和擠壓激勵模塊

        ResNet中的特征提取模塊由多個基礎(chǔ)塊構(gòu)建而成,這些基礎(chǔ)塊都是由標準卷積組成,要想提取豐富的深層次特征就不可避免要增加網(wǎng)絡(luò)深度和寬度,導致網(wǎng)絡(luò)的參數(shù)規(guī)模激增。這種現(xiàn)象出現(xiàn)的原因在于卷積方式,標準卷積同時考慮通道和區(qū)域,而深度可分離卷積是先考慮區(qū)域然后再考慮通道,實現(xiàn)了通道和區(qū)域的分離,減少了所需的參數(shù)。深度可分離卷積可以在減少參數(shù)的同時保證性能下降不會太多。因此采用深度可分離卷積來替代標準卷積。在特征提取網(wǎng)絡(luò)中使用DSC可以有效減少卷積參數(shù),在學生網(wǎng)絡(luò)中使用可以使其變得更輕量。

        標準卷積和深度可分離卷積相比,就像是一個乘法操作拆分為兩個數(shù)的加法,在一定程度上降低了卷積操作時參與運算的卷積核參數(shù)數(shù)量;但參數(shù)的下降可能存在將重要特征丟失的情況。SE(Squeeze-and-Excitation)注意力模塊通過建立通道之間的相互依賴關(guān)系,自適應(yīng)地學習調(diào)整通道的特征響應(yīng),把重要特征增強,次要特征減弱,故而采用通道注意力SE模塊,這樣有利于卷積方式改變后重要特征的保留和選擇。

        1.3 知識蒸餾

        為了能將復(fù)雜的深度模型部署在資源受限的移動和嵌入式設(shè)備中,模型壓縮和加速的技術(shù)逐漸發(fā)展起來。模型壓縮和加速的技巧主要有網(wǎng)絡(luò)剪枝[17]、量化[18]和知識蒸餾等。網(wǎng)絡(luò)剪枝方法對硬件和編程都不是很友好,而且迭代測試閾值耗時長且計算量大;量化方法則實現(xiàn)難度比較大、準確性不穩(wěn)定和通用性較差;相較之下,知識蒸餾采用遷移學習的思想,可以很好地訓練小規(guī)模網(wǎng)絡(luò)且通用性比較好。一個知識蒸餾系統(tǒng)由知識、蒸餾算法和教師學生的網(wǎng)絡(luò)結(jié)構(gòu)三個關(guān)鍵部分組成。如圖1所示,教師模型選擇的是ResNet50,學生模型是本文設(shè)計的10層輕量級網(wǎng)絡(luò),知識是教師模型最后一層的輸出經(jīng)由AAML處理獲得的,屬于基于響應(yīng)的知識。本文選擇的蒸餾算法屬離線蒸餾,因此整個訓練過程分為兩個階段:第一,在蒸餾開始前大規(guī)模教師模型首先在訓練集上進行充分訓練獲得理想結(jié)果;第二,教師模型被用于以向量或者中間特征的形式提取知識,進而用于監(jiān)督指導蒸餾過程中小規(guī)模學生模型的訓練。在KD中,師生的網(wǎng)絡(luò)結(jié)構(gòu)是形成知識轉(zhuǎn)移的載體,即從教師到學生的知識獲取和蒸餾的質(zhì)量取決于如何設(shè)計教師學生網(wǎng)絡(luò)結(jié)構(gòu)。一般而言,學生網(wǎng)絡(luò)的設(shè)計是在以教師網(wǎng)絡(luò)為模板的基礎(chǔ)上進行簡化網(wǎng)絡(luò)、量化結(jié)構(gòu)、相同結(jié)構(gòu)選取等選擇。基于ResNet50結(jié)構(gòu)在人臉識別方向取得的成績,選擇以ResNet50為模板,學生網(wǎng)絡(luò)學習教師網(wǎng)絡(luò)好的設(shè)計思想簡化網(wǎng)絡(luò)結(jié)構(gòu)。學生網(wǎng)絡(luò)由教師網(wǎng)絡(luò)而衍生,通過合適的蒸餾算法可以有效使用教師網(wǎng)絡(luò)傳遞的隱藏知識進行學習,使自身網(wǎng)絡(luò)變得更輕量準確。

        2 實驗與結(jié)果分析

        本章師生模型均使用CASIA-WebFace(Institute of Automation,Chinese Academy of Sciences WebFace)[19]作為訓練集,DSLR模型使用LFW(Labeled Faces in the Wild)數(shù)據(jù)集[20]、VGG-Face數(shù)據(jù)集、AgeDB(Age Database)數(shù)據(jù)集[21]和CFP-FP(Celebrities in Frontal Profile with Frontal-Profile)數(shù)據(jù)集[22]進行實驗來驗證其合理性。首先是在訓練集CASIA-WebFace上預(yù)訓練教師網(wǎng)絡(luò);其次利用知識蒸餾方法和教師網(wǎng)絡(luò)監(jiān)督學生網(wǎng)絡(luò)的集成學習,訓練出符合實際需求的輕量級人臉識別殘差網(wǎng)絡(luò);再次使用深度可分離卷積替代標準卷積,驗證卷積方式的改變能簡化模型參數(shù)并提高識別速度;最后對近期主流的人臉識別算法與DSLR的實驗結(jié)果進行對比分析。

        2.1 實驗環(huán)境

        本實驗環(huán)境為Ubuntu18.04.5操作系統(tǒng),Intel Xeon Silver 4214處理器,內(nèi)存為32 GB,顯卡為Quadro RTX 5000,在 JetBrains PyCharm Communit Edition 2020.2.1上使用python 3.8.3和Pytorch1.6.0深度學習框架進行算法模型訓練和測試。

        2.2 實驗數(shù)據(jù)集介紹

        實驗使用公開數(shù)據(jù)集CASIA-WebFace(去除出現(xiàn)在測試集中的人臉圖像)作為訓練集,數(shù)據(jù)集中的人臉圖像具有多姿態(tài)、光照條件不同、化妝和多角度等特點,一共10 575個類別,494 414幅人臉圖像。實驗使用的測試數(shù)據(jù)集分別為LFW、VGG-Face、AgeDB和CFP-FP這4個數(shù)據(jù)集。LFW數(shù)據(jù)集是在非限制條件下進行采集的,包含不同背景、角度、面部表情,一共5 749個類別,13 233幅世界知名人士的圖像;VGG-Face是一個大規(guī)模的人臉識別數(shù)據(jù)集,在姿勢、年齡、照明、種族和職業(yè)方面有很大差異,包含9 131幅人臉圖像;AgeDB數(shù)據(jù)集中最主要的是年齡變化差異,包含440人共12 240幅人臉圖像,實驗使用AgeDB-30,包含300個正樣本對和300個負樣本對;CFP-FP是姿態(tài)變化比較大的數(shù)據(jù)集,包含500個類別,每個類別分別有10個正臉和4個側(cè)臉。訓練集和測試集使用相同的預(yù)處理方式。數(shù)據(jù)集圖像中的人臉都是經(jīng)過MTCNN(Multi-Task cascaded Convolutional Neural Network)[23]檢測并定位出5個關(guān)鍵點:眼睛(2個眼球中心點)、嘴巴(2個嘴角點)和鼻子(1個鼻尖點),之后對檢測到的人臉進行相似度轉(zhuǎn)換對齊后統(tǒng)一裁剪為112×112的大小,并對三通道的RGB彩色圖像像素進行歸一化處理:像素減去127.5,然后除以128。

        2.3 模型訓練

        從CASIA-WebFace中選出處理后的453 580幅圖像作為訓練集。整個模型的訓練分成兩步:第一步預(yù)訓練教師網(wǎng)絡(luò),在訓練集上ResNet50進行周期為50的訓練,為提高分類能力使用AAML損失進行監(jiān)督訓練;第二步訓練學生網(wǎng)絡(luò),DSLR學生網(wǎng)絡(luò)一次學習和教師網(wǎng)絡(luò)操作相同,訓練周期為18;集成學習時利用保存的教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)最后一層的輸出作為監(jiān)督機制,將其通過高溫軟化后送入蒸餾損失KLD中進行知識的遷移,蒸餾損失和學生網(wǎng)絡(luò)的損失共同組成總損失。加性角度間隔損失的縮放因子設(shè)置為32,間隔設(shè)置為0.5。訓練過程中使用了步進學習率和權(quán)重衰減,模型的初始學習率設(shè)置為0.1,權(quán)重衰減系數(shù)設(shè)置為0.000 5,epoch設(shè)置為18,批量大小為128,并且在第4、6、11輪衰減0.1,模型動量設(shè)置為0.9,迭代至63 700次時結(jié)束訓練。訓練過程中對圖像進行了隨機旋轉(zhuǎn)進行數(shù)據(jù)增強。

        2.4 對比實驗結(jié)果和分析

        為了保證結(jié)果的公正性,訓練集和測試集的預(yù)處理方式一致,參與對比的算法均使用處理后的CASIA-WebFace數(shù)據(jù)集作為訓練集,使用相同處理的LFW和VGG-Face數(shù)據(jù)集作為測試集,測試方法均采用十折交叉驗證法。

        2.4.1師生網(wǎng)絡(luò)實驗結(jié)果對比分析

        師生網(wǎng)絡(luò)在LFW和VGG-Face兩個數(shù)據(jù)集上的實驗結(jié)果如表2所示,ResNet系列101層的網(wǎng)絡(luò)比50層網(wǎng)絡(luò)精度略高,但識別速度和空間開銷都比較大。目前ResNet系列的復(fù)雜網(wǎng)絡(luò)在人臉識別中取得較好的效果,針對本文選擇ResNet50而不選擇ResNet101作為教師網(wǎng)絡(luò),從訓練時所需的硬件資源開銷和測試時識別的時間開銷兩方面進行分析。神經(jīng)網(wǎng)絡(luò)的空間開銷來源于每層網(wǎng)絡(luò)輸出的特征圖大小累加和所有帶參數(shù)層的權(quán)重數(shù)量總和兩部分,時間開銷來源于每一層參與運算的參數(shù)量和輸入特征圖的大小。ResNet50與ResNet101相比,兩者結(jié)構(gòu)相似,但ResNet50的深度約為ResNet101的1/2左右。深度的減少雖然不會改變特征圖的輸入輸出尺寸,但是網(wǎng)絡(luò)層數(shù)的減少意味著相關(guān)參數(shù)和特征圖的數(shù)量也會減少,所以ResNet50的精度接近ResNet101的同時,訓練所需的空間開銷減少和識別速度更快,更適合在中等資源下作為教師網(wǎng)絡(luò)進行預(yù)訓練。

        表2 在不同數(shù)據(jù)集上師生網(wǎng)絡(luò)的實驗結(jié)果

        教師模型ResNet50和DSLR學生模型相比,DSLR模型在LFW和VGG-Face數(shù)據(jù)集上比ResNet50的識別精度分別低0.64個百分點和0.12個百分點,但單張識別的速度提升了30.43%。精度接近但速度有明顯提升的原因如下:首先,DSLR模型的特征由4個激勵殘差塊來提取完成,ResNet50則由24個殘差塊來完成特征的提?。黄浯?,為了讓DSLR能繼承教師網(wǎng)絡(luò)的精度,選擇學習教師網(wǎng)絡(luò)中恒等映射和殘差映射的策略來模仿教師網(wǎng)絡(luò)提取特征的過程;進一步利用知識蒸餾技術(shù)從教師網(wǎng)絡(luò)將隱藏的深層特征信息進行知識的轉(zhuǎn)移,使得學生網(wǎng)絡(luò)在參數(shù)規(guī)模比較小的情況下識別精度接近教師網(wǎng)絡(luò)。但學生網(wǎng)絡(luò)沒有辦法超越或者完全達到教師網(wǎng)絡(luò)的性能,因為ResNet50教師網(wǎng)絡(luò)深度約為學生網(wǎng)絡(luò)的5倍,深度越深,提取的特征越抽象,特征表示也更充分,在識別效果上能夠更加穩(wěn)健可靠。最后,DSLR的結(jié)構(gòu)相比ResNet50更輕量,空間開銷更小,參數(shù)更少,所以識別速度有較大提升,相比教師網(wǎng)絡(luò),更適合在需要實時進行身份認證的移動和嵌入式設(shè)備中使用。

        2.4.2多方法實驗結(jié)果對比分析

        目前主流的人臉識別算法有ArcFace中使用的ResNet系列、MobiFace[24]、HRNet(High-Resolution Network)[25]和GhostNet[26]等,與之相比,DSLR模型的識別準確率接近大部分主流算法的識別準確率,同時識別速度接近最快的輕量級網(wǎng)絡(luò)MobiFace。

        MobiFace算法和DSLR算法在4個不同數(shù)據(jù)集上的實驗結(jié)果對比如表3所示。DSLR模型在4個不同數(shù)據(jù)集上的識別速度比MobiFace略慢一些,但DSLR模型的識別精度比MobiFace高。DSLR模型在4個測試集上的識別精度都高于MobiFace,原因在于DSLR模型是采用知識蒸餾的技術(shù)轉(zhuǎn)移教師網(wǎng)絡(luò)中深層特征信息中的隱含知識訓練出來的輕量級神經(jīng)網(wǎng)絡(luò);而MobiFace盡管識別速度更快,但其特征提取網(wǎng)絡(luò)簡單,模型參數(shù)量少難以獲取到穩(wěn)健的人臉深層次特征表示,所以DSLR模型的效果才能比MobiFace好。以LFW和VGG-Face兩個數(shù)據(jù)集為例,DSLR模型和MobiFace模型在這兩個測試集上的測試精度變化趨勢如圖2所示,其中兩個模型在不同測試集上的前幾次測試結(jié)果也證明了MobiFace的網(wǎng)絡(luò)較為簡單,提取特征信息相對DSLR模型要少很多。在面對像LFW測試集中每類樣本只有幾張的情況下,提取信息更豐富的DSLR比MobiFace更具有泛化性,而且從圖2中可以看出DSLR模型訓練至穩(wěn)定所需的時間比MobiFace少很多。DSLR模型在訓練集上訓練的損失變化如圖3所示,其中DSLR在訓練集上訓練損失變化趨勢證明了DSLR模型在KD和AAML損失的指導下是在不斷進行學習優(yōu)化的,訓練出的分類器也是可靠的。

        表3 不同數(shù)據(jù)集上的多方法實驗結(jié)果對比

        圖2 DSLR和MobiFace在不同測試集上的結(jié)果

        圖3 DSLR在CASIA-WebFace上的訓練損失

        DSLR和HRNet在4個不同數(shù)據(jù)集上的識別結(jié)果和時間開銷如表3所示。DSLR在LFW和VGG-Face測試集上的識別精度與HRNet基本相當,但識別速度比HRNet快20%。兩個算法識別精度相當?shù)脑蛟谟?,DSLR算法在特征提取上使用恒等映射策略,可以使得提取的特征信息不會丟失;而且還使用知識轉(zhuǎn)移的技術(shù)從識別效果好的教師網(wǎng)絡(luò)中學習潛在的特征表示。HRNet是一種用于人臉姿態(tài)識別的高分辨率網(wǎng)絡(luò),主要通過多次并行卷積執(zhí)行多尺度特征融合增強高分辨率表示來確保網(wǎng)絡(luò)隨時可以保持高分辨率特征。但在AgeDB和CFP-FP測試集上,DSLR的識別精度比HRNet略差,因為這兩個數(shù)據(jù)集的主要變化一個是年齡,一個是姿態(tài),HRNet隨時保持高分辨特征的特點使得對這兩種變化具有很好的學習能力。HRNet速度比較慢的原因在于兩個方面:一是網(wǎng)絡(luò)的并行卷積會反復(fù)進行多尺度特征融合來保持高分辨率的特征,這個操作會增加很多時間上的開銷;二是網(wǎng)絡(luò)的深度比DSLR的要更深一點,前向推理的時間也會增加。

        DSLR和GhostNet在4個不同數(shù)據(jù)集上的識別結(jié)果和速度如表3所示。DSLR在LFW和VGG-Face測試集上的識別精度與GhostNet基本持平且識別速度也比GhostNet快11.11%左右。DSLR在這兩個測試集上的精度和GhostNet基本持平,因為DSLR算法在特征提取上采用恒等映射減少信息丟失,同時使用知識蒸餾的方法從復(fù)雜的教師網(wǎng)絡(luò)中學習隱藏的特征表示,使得其識別效果可以與GhostNet相當。GhostNet是一種使用Ghost模塊構(gòu)建的高效輕量級神經(jīng)網(wǎng)絡(luò),它的核心就是先用標準卷積生成通道數(shù)較少的特征圖,然后在此基礎(chǔ)上使用線性變換生成更多的影子特征圖,即用更少的參數(shù)生成更多的特征圖。但在AgeDB和CFP-FP測試集上,DSLR效果都比GhostNet好,因為這兩個數(shù)據(jù)集的變化相對單一,GhostNet由于參數(shù)太少無法充分針對單一變化進行有效的學習。GhostNet速度稍慢最主要的原因在于輕量的GhostNet在深度上比DSLR更深。

        2.4.3模塊替換的實驗結(jié)果分析

        為了驗證深度可分離卷積替換標準卷積的有效性,分別在LFW和VGG-Face數(shù)據(jù)集上進行實驗。如表4所示,在DSLR的模塊IR(Inception ResNet)中存在多個標準卷積層,分別做了三組實驗來驗證卷積替換:1)全部由標準卷積組成的IR模塊,IR;2)將IR模塊中的標準卷積全部替換為深度可分離卷積,IR+DSC;3)在2)的基礎(chǔ)上加上通道注意力SE模塊,IR+DSC+SE。1)和2)實驗結(jié)果中,DSC替換標準卷積后速度有一定提升,但精度有所下降。速度能夠提升的原因是當卷積核為3×3時,深度可分離卷積的計算開銷約為標準卷積的1/9,參數(shù)的減少有利于節(jié)省計算上的時間開銷。加入DSC后精度發(fā)生下降,是因為DSC的加入降低計算的開銷同時不可避免會丟失一些重要特征的信息。2)和3)中加入SE注意力后速度沒有變慢而且解決了DSC替換后造成的精度下降。原因在于加入通道注意力模塊來解決精度下降問題,通道注意力通過對重要特征通道施加一個重要系數(shù),使其在參與計算時處于優(yōu)先狀態(tài),避免了重要特征信息的丟失。

        表4 深度可分離卷積加入DSLR后在不同數(shù)據(jù)集上的實驗結(jié)果對比

        3 結(jié)語

        本文在深度殘差網(wǎng)絡(luò)的基礎(chǔ)上提出一種輕量級人臉識別方法DSLR,解決了ResNet復(fù)雜網(wǎng)絡(luò)在移動式設(shè)備中存在內(nèi)存消耗大和無法滿足實時性的問題。通過實驗表明,本文提出的DSLR相比MobiFace等輕量級網(wǎng)絡(luò)在速度接近的同時精度更高,適合在移動式設(shè)備中部署使用。相較于主流方法的識別精度,本文仍有繼續(xù)提升的空間,這也是后續(xù)工作的方向。

        [1] 李東博,黃鋁文. 重加權(quán)稀疏主成分分析算法及其在人臉識別中的應(yīng)用[J]. 計算機應(yīng)用, 2020, 40(3):717-722.(LI D B, HUANG L W. Reweighted sparse principal component analysis algorithm and its application in face recognition[J]. Journal of Computer Applications, 2020, 40(3): 717-722.)

        [2] 徐竟?jié)?,吳作宏,徐巖,等. 融合PCA、LDA和SVM算法的人臉識別[J]. 計算機工程與應(yīng)用, 2019, 55(18):34-37.(XU J Z, WU Z H, XU Y, et al. Face recognition based on PCA, LDA and SVM algorithms[J]. Computer Engineering and Applications, 2019, 55(18): 34-37.)

        [3] 丁蓮靜,劉光帥,李旭瑞,等. 加權(quán)信息熵與增強局部二值模式結(jié)合的人臉識別[J]. 計算機應(yīng)用, 2019, 39(8):2210-2216.(DING L J, LIU G S, LI X R, et al. Face recognition combining weighted information entropy with enhanced local binary pattern[J]. Journal of Computer Applications, 2019, 39(8): 2210-2216.)

        [4] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 815-823.

        [5] PARKHI O M, VEDALDI A, ZISSERMAN A. Deep face recognition[C]// Proceedings of the 2015 British Machine Vision Conference. Durham: BMVA Press, 2015: No.41.

        [6] HU J, SHEN L, SUN G, Squeeze-and-excitation networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.

        [7] LIU W Y, WEN Y D, YU Z D, et al. SphereFace: deep hypersphere embedding for face recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6738-6746.

        [8] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

        [9] WANG H, WANG Y T, ZHOU Z, et al. CosFace: large margin cosine loss for deep face recognition[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 5265-5274.

        [10] DENG J K, GUO J, XUE N N, et al. ArcFace: additive angular margin loss for deep face recognition[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 4685-4694.

        [11] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17) [2021-03-12].https://arxiv.org/pdf/1704.04861.pdf.

        [12] ZHANG X Y, ZHOU X Y, LIN M X, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6848-6856.

        [13] WANG M J, LIU R J, ABE N, et al. Discover the effective strategy for face recognition model compression by improved knowledge distillation[C]// Proceedings of the 25th IEEE International Conference on Image Processing. Piscataway: IEEE, 2018: 2416-2420.

        [14] YAN M J, ZHAO M G, XU Z N, et al. VarGFaceNet: an efficient variable group convolutional neural network for lightweight face recognition[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision Workshop. Piscataway: IEEE, 2019: 2647-2654.

        [15] GE S M, ZHAO S W, LI C Y, et al. Low-resolution face recognition in the wild via selective knowledge distillation[J]. IEEE Transactions on Image Processing, 2019, 28(4): 2051-2062.

        [16] HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[EB/OL]. (2015-03-09) [2021-03-12].https://arxiv.org/pdf/1503.02531.pdf.

        [17] HAN S, POOL J, TRAN J, et al. Learning both weights and connections for efficient neural networks[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 1135-1143.

        [18] WU J X, LENG C, WANG Y H, et al. Quantized convolutional neural networks for mobile devices[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016:4820-4828.

        [19] YI D, LEI Z, LIAO S C, et al. Learning face representation from scratch[EB/OL]. (2014-11-28) [2021-03-12].https://arxiv.org/pdf/1411.7923.pdf.

        [20] HUANG G B, RAMESH M, BERG T, et al. Labeled faces in the wild: a database for studying face recognition in unconstrained environments[EB/OL]. [2021-03-12].http://vis-www.cs.umass.edu/papers/lfw.pdf.

        [21] MOSCHOGLOU S, PAPAIOANNOU A, SAGONAS C, et al. AgeDB: the first manually collected, in-the-wild age database[C]// Proceeding of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2017: 1997-2005.

        [22] SENGUPTA S, CHEN J C, CASTILLO C, et al. Frontal to profile face verification in the wild[C]// Proceeding of the 2016 IEEE Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2016: 1-9.

        [23] ZHOU E J, CAO Z M, SUN J. GridFace: face rectification via learning local homography transformations[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11220. Cham: Springer, 2018: 3-20.

        [24] DUONG C N, QUACH K G, JALATA I, et al. MobiFace: a lightweight deep learning face recognition on mobile devices[C]// Proceedings of the IEEE 10th International Conference on Biometrics Theory, Applications and Systems. Piscataway: IEEE, 2019: 1-6.

        [25] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 5686-5696.

        [26] HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 1577-1586.

        HE Huaiqing, born in 1969, Ph. D., professor. Her research interests include graphics, image and visual analysis.

        YAN Jianqing, born in 1998, M. S. candidate. His research interests include image processing.

        HUI Kanghua, born in 1982, Ph. D., associate professor. His research interests include image processing.

        Lightweight face recognition method based on deep residual network

        HE Huaiqing, YAN Jianqing*, HUI Kanghua

        (,,300300,)

        As deep residual network has problems such as complex network structure and high time cost in face recognition applications of small mobile devices, a lightweight model based on deep residual network was proposed. Firstly, by simplifying and optimizing the structure of the deep residual network and combining the knowledge transfer method, a lightweight residual network (student network) was reconstructed from the deep residual network (teacher network), which reduced the network structural complexity while ensuring accuracy. Then, in the student network, the parameters of the model were reduced by decomposing standard convolution, thereby reducing the time complexity of the feature extraction network. Experimental results show that on four different datasets such as LFW (Labeled Faces in the Wild), VGG-Face (Visual Geometry Group Face), AgeDB (Age Database) and CFP-FP (Celebrities in Frontal Profile with Frontal-Profile), with the recognition accuracy close to the mainstream face recognition methods, the proposed model has the time of reasoning reaches 16 ms every image, and the speed is increased by 10% to 20%. Therefore, the proposed model can have the speed of reasoning effectively improved with the recognition accuracy basically not reduced.

        deep residual network; face recognition; lightweight; Knowledge Distillation (KD); Depthwise Separable Convolution (DSC)

        This work is partially supported by National Key Research and Development Program of China (2020YFB1600101), Scientific Research Program of Tianjin Municipal Education Commission (2020KJ024).

        1001-9081(2022)07-2030-07

        10.11772/j.issn.1001-9081.2021050880

        2021?05?27;

        2021?09?03;

        2021?09?15。

        國家重點研發(fā)計劃項目(2020YFB1600101);天津市教委科研計劃項目(2020KJ024)。

        TP391.41

        A

        賀懷清(1969—),女,吉林白山人,教授,博士,CCF會員,主要研究方向:圖形、圖像、可視化分析; 閆建青(1998—),男,山西忻州人,碩士研究生,主要研究方向:圖像處理; 惠康華(1982—),男,江蘇連云港人,副教授,博士,主要研究方向:圖像處理。

        猜你喜歡
        集上人臉識別殘差
        基于雙向GRU與殘差擬合的車輛跟馳建模
        人臉識別 等
        作文中學版(2022年1期)2022-04-14 08:00:34
        基于殘差學習的自適應(yīng)無人機目標跟蹤算法
        Cookie-Cutter集上的Gibbs測度
        揭開人臉識別的神秘面紗
        學生天地(2020年31期)2020-06-01 02:32:06
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        自動化學報(2019年6期)2019-07-23 01:18:32
        復(fù)扇形指標集上的分布混沌
        基于類獨立核稀疏表示的魯棒人臉識別
        計算機工程(2015年8期)2015-07-03 12:19:07
        平穩(wěn)自相關(guān)過程的殘差累積和控制圖
        河南科技(2015年8期)2015-03-11 16:23:52
        中文精品久久久久人妻不卡| 青青草原亚洲在线视频| 久久久精品少妇—二区| 日本护士xxxxhd少妇| 中文成人无字幕乱码精品区| 婷婷九月丁香| 亚洲免费av第一区第二区| 在线观看一级黄片天堂| 国产裸拍裸体视频在线观看| 国产成人77亚洲精品www| 国产麻豆成人精品av| 美女国产毛片a区内射| 一本色综合久久| 中文AV怡红院| 久久黄色精品内射胖女人| 欧美国产激情二区三区| 久久久久亚洲av无码专区体验| 国产96在线 | 免费| 亚洲婷婷久久播66性av| 少妇性bbb搡bbb爽爽爽| 亚洲欧美日韩高清专区一区| 大香蕉久久精品一区二区字幕| 一道本久久综合久久鬼色| 色先锋av资源中文字幕| 2022国内精品免费福利视频| 亚洲性感毛片在线视频| 疯狂做受xxxx高潮视频免费| 黑人巨大videos极度另类| 国产精品国产三级国产一地| 人妻少妇被猛烈进入中文字幕| 日本丰满熟妇hd| 日韩亚洲国产av自拍| 亚洲一区二区三区重口另类| 鲁一鲁一鲁一鲁一曰综合网| 欧美在线专区| 国产精品国产三级国a| 国产精品186在线观看在线播放| 免费黄色电影在线观看| 91亚洲精品久久久蜜桃| av高清在线不卡直播| 国产精品免费久久久久软件|