亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合PVT多級特征的口罩人臉識別研究

        2024-03-28 13:31:44冉瑞生高天宇房斌

        冉瑞生 高天宇 房斌

        摘要:呼吸系統(tǒng)疾病的流行使口罩扮演著重要角色,這給人臉識別算法帶來了新的挑戰(zhàn)。受到多尺度特征融合模型的啟發(fā),提出一種基于金字塔視覺Transformer (Pyramid Vision Transformer, PVT)的提取口罩人臉特征的模型。該模型引入自注意力機(jī)制來提取豐富的人臉信息,通過融合PVT多個(gè)層級的特征向量,來實(shí)現(xiàn)對口罩人臉的多尺度關(guān)注,相較于傳統(tǒng)特征融合模型,具有更高的識別精度和更少的參數(shù)量。此外,模型采用Sub-center ArcFace損失函數(shù)來提升魯棒性。模型在大規(guī)模模擬口罩人臉數(shù)據(jù)集上進(jìn)行訓(xùn)練,并分別在普通人臉、模擬口罩人臉和真實(shí)口罩人臉數(shù)據(jù)集上進(jìn)行了測試和評估。實(shí)驗(yàn)結(jié)果表明,所提出的方法與其他主流方法相比,具有較高的識別精度,是一種有效的口罩人臉識別方法。

        關(guān)鍵詞:口罩人臉識別;Transformer;自注意力機(jī)制;特征融合

        中圖分類號:TP391.41文獻(xiàn)標(biāo)志碼:A文獻(xiàn)標(biāo)識碼

        Research on masked face recognition by fusing multi-level features of PVT

        RAN? Ruisheng1,GAO? Tianyu1,F(xiàn)ANG? Bin2

        (1 College of Computer and Information Science, Chongqing Normal University,Chongqing 401331, China;

        2 College of Computer Science, Chongqing University,Chongqing 400044, China)

        Abstract:? The prevalence of respiratory diseases has made masks play an important role, which has brought new challenges to face recognition algorithms. Inspired by the multi-scale feature fusion model, a Pyramid Vision Transformer (PVT) based face mask feature extraction model is proposed. The model introduces self-attention mechanism to extract rich face information, and realizes multi-scale attention to mask faces by fusing multi-level feature vectors of PVT. Compared with traditional feature fusion model, the model has higher recognition accuracy and fewer parameters. In addition, the model adopts Sub-center ArcFace loss function to improve robustness. The model was trained on a large scale simulated mask face dataset, and tested and evaluated on ordinary face, simulated mask face and real mask face dataset respectively. The experimental results show that the proposed method has higher recognition accuracy than other mainstream methods, and is an effective mask face recognition method.

        Key words: masked face recognition;Transformer;self-attention;feature fusion

        近年來,隨著人工智能技術(shù)的不斷發(fā)展,人臉識別技術(shù)已經(jīng)被廣泛應(yīng)用于各個(gè)領(lǐng)域。然而,在當(dāng)前全球呼吸系統(tǒng)疾病流行的背景下,佩戴口罩已成為一種必要的防護(hù)措施[1]。口罩對人臉的遮擋給人臉識別技術(shù)帶來了新的挑戰(zhàn),成為降低準(zhǔn)確率的主要原因之一。因此探索一種提取人臉魯棒性特征的方法具有重要意義。當(dāng)前,已經(jīng)有部分口罩人臉識別算法被提出,例如,Mandal等[2]利用Resnet-50模型,對未佩戴口罩人臉數(shù)據(jù)進(jìn)行訓(xùn)練后再遷移到口罩人臉數(shù)據(jù),旨在通過對未佩戴口罩的人臉數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)對口罩人臉的識別。姜紹忠等[3]提出一種CNN與Transformer相結(jié)合的混合模型,在人工合成的口罩人臉數(shù)據(jù)集上進(jìn)行訓(xùn)練,所訓(xùn)練的模型能同時(shí)處理戴口罩和不戴口罩的人臉識別任務(wù),但該方法缺乏對真實(shí)口罩人臉的驗(yàn)證。Li等[4]提出一種基于裁剪和注意力機(jī)制的口罩人臉識別方法,該方法通過對人臉圖像進(jìn)行裁剪,以此來移除受損區(qū)域或降低遮罩區(qū)域的權(quán)重,并結(jié)合注意力機(jī)制來關(guān)注眼睛周圍區(qū)域。這種方法能夠更加有效地捕捉人臉的局部特征信息,從而提高模型的識別準(zhǔn)確率。然而,該方法會降低無口罩人臉識別的準(zhǔn)確率。Qian等[5]提出了一種方法,將ArcFace損失函數(shù)和pairwise loss結(jié)合起來,以增強(qiáng)遮擋人臉識別任務(wù)的性能。該方法旨在提高同一類別內(nèi)樣本的相似度,同時(shí)增加不同類別之間的差異性,從而提高遮擋人臉識別的準(zhǔn)確性。

        這些方法雖然能實(shí)現(xiàn)口罩人臉識別,但還是存在一些問題。首先,現(xiàn)有的大部分方式通過單一尺度特征進(jìn)行預(yù)測,這樣可能會忽略一些其他尺度的特征,例如,對于人臉而言,同時(shí)考慮眼睛大小和整個(gè)人臉輪廓的多尺度特征對于全面捕捉人臉特征至關(guān)重要。其次,當(dāng)前的主流特征融合方法主要集中在特征圖的整合上,這可能會增加計(jì)算負(fù)擔(dān)。

        針對以上問題,本文提出一種融合PVT各尺度特征的口罩人臉表征方法,該方法可同時(shí)用于佩戴口罩和不佩戴口罩的人臉識別場景。主干網(wǎng)絡(luò)使用基于MSA (Multi-head Self-Attention)改進(jìn)的PVT (Pyramid Vision Transformer)提取人臉的多尺度特征。在每個(gè)尺度階段都使用1個(gè)cls (class token)向量來存儲該尺度的人臉特征,并通過融合各尺度的cls以使得提取的特征更加豐富。最后,使用Sub-center ArcFace損失函數(shù)來進(jìn)一步提高模型的魯棒性。該方法使用多個(gè)數(shù)據(jù)集進(jìn)行驗(yàn)證,涵蓋了多種人臉場景。實(shí)驗(yàn)結(jié)果表明,本文方法能有效提高口罩人臉識別的準(zhǔn)確率,同時(shí)特征融合的計(jì)算量也相對較低。

        1 資料與方法

        本文提出了融合PVT多級特征的口罩人臉識別模型,命名為PVTFace。

        設(shè)輸入圖像為三通道(RGB)彩色圖像,圖像尺寸為112×112。PVTFace模型首先將圖像分割為196個(gè)不重疊的圖像塊,每個(gè)圖像塊會被轉(zhuǎn)換為向量形式,得到Patch Embedding,然后拼接cls向量并添加位置信息,cls用以存儲圖像特征,方便后續(xù)階段的計(jì)算。隨后將Patch Embedding輸入到多個(gè)堆疊的Transformer Encoder中進(jìn)行計(jì)算得到相應(yīng)的特征圖,Transformer Encoder中的注意力機(jī)制使用MSA[6]。特征圖再輸入到下一個(gè)Stage進(jìn)行采樣。完成各Stage采樣后,再將各Stage的cls進(jìn)行融合。最終,將融合后的圖像特征送入Sub-center ArcFace損失函數(shù)進(jìn)行計(jì)算。

        PVTFace網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,接下來將對所改進(jìn)的模塊進(jìn)行詳細(xì)闡述。

        1.1 注意力機(jī)制

        Spatial-Reduction Attention (SRA)[7]是PVT中提出的一種注意力機(jī)制,相較于MSA,SRA通過對鍵矩陣K和值矩陣V進(jìn)行空間上的下采樣,以達(dá)到降低計(jì)算復(fù)雜度的目的,SRA與MSA的結(jié)構(gòu)對比如圖2所示。

        然而,在口罩人臉識別的場景下,使用SRA對人臉圖像進(jìn)行下采樣可能會導(dǎo)致忽略一些重要的特征。因?yàn)榭谡终谏w了部分面部特征,如嘴巴、鼻子,所以降低空間分辨率可能會造成信息的丟失。在這種情況下,使用SRA可能會降低對于口罩人臉的識別準(zhǔn)確性。

        Self-Attention可以在輸入序列中建立長依賴關(guān)系,且能對輸入序列中的所有位置進(jìn)行關(guān)注,從而能夠捕捉全局的語義信息。在人臉識別任務(wù)中,由于人臉圖像中的各個(gè)部分之間存在較強(qiáng)的相關(guān)性。

        Self-Attention可以有效地將這些關(guān)系建模,提高人臉識別的準(zhǔn)確率。并且Self-Attention對于輸入序列的變化(例如旋轉(zhuǎn)、縮放、遮擋等)具有很強(qiáng)的適應(yīng)性,因此可以提高模型的魯棒性。其公式表述為:

        Attention(Q,K,V)=softmaxQKTdkV。(1)

        其中, Q, K, V分別為查詢、鍵、值,它們由神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到。

        傳統(tǒng)的Transformer使用基于Self-Attention機(jī)制的MSA。MSA是Self-Attention的擴(kuò)展形式,它通過使用多個(gè)注意力頭來提供多個(gè)視角的關(guān)注能力。每個(gè)注意力頭可以專注于不同的特征子空間或關(guān)系,從而捕捉到輸入序列的不同方面和語義信息。通過融合多個(gè)頭的結(jié)果,MSA能夠提供更全面和豐富的表示,進(jìn)而增強(qiáng)模型對輸入序列的建模能力。因此,本文使用MSA作為注意力模塊,以便更好地捕捉序列的多樣性特征和語義信息。

        1.2 特征融合

        以往的基于深度學(xué)習(xí)的人臉識別模型都過于注重深層次特征,即只使用網(wǎng)絡(luò)的最后一層特征作為身份特征,這樣可能會忽略淺層次的人臉特征[8]。在此基礎(chǔ)上,本文提出一種基于PVT的人臉識別架構(gòu),通過融合各層次的特征來提取人臉的魯棒性特征。

        在每個(gè)Stage中,輸入數(shù)據(jù)首先計(jì)算得到Patch Embedding,隨后通過concat方式拼接1個(gè)cls向量用于存儲該Stage的特征信息,再輸入到多個(gè)堆疊的Transformer Encoder中進(jìn)行計(jì)算,4個(gè)階段的cls維度分別為1×64,1×128,1×320,1×512。再將各Stage中的cls維度全部映射為1×512,這樣做的目的是為了保證各個(gè)Stage的特征信息可以得到充分的利用,并且各個(gè)特征具有相同的維度,便于后續(xù)的特征融合和計(jì)算,過程如圖1所示。將各Stage的cls進(jìn)行concat拼接得到維度為4×512的cls token,具體的特征融合過程可以表示為:

        cls1:dim1×64→dim1×512,

        cls2:dim1×128→dim1×512,

        cls3:dim1×256→dim1×512,

        cls4:dim1×512。

        cls token=cls1+cls2+cls3+cls4,

        cls token:dim4×512→dim1×512。(2)

        式中,dim表示cls的維度,→表示維度映射變化。隨后將拼接得到的cls token的維度由4×512映射為1×512,這樣就使得PVTFace計(jì)算出的圖像表征與原始PVT計(jì)算出的圖像表征具有相同特征維度,卻又包含了更加豐富的表征信息。

        1.3 Sub-center ArcFace損失函數(shù)

        目前主流的深度人臉識別方法,如CosFace[9]、ArcFace[10]在無約束的人臉識別中取得了顯著的成功。然而這些方法通常只為每個(gè)類別設(shè)置一個(gè)中心,這種設(shè)計(jì)在受到噪聲和變化的影響時(shí)可能會導(dǎo)致較差的魯棒性。Sub-center ArcFace[11]為每個(gè)類別引入了K個(gè)子中心,訓(xùn)練樣本只需要接近K個(gè)正向子中心中的任何一個(gè)。這樣的設(shè)計(jì)可以更好地處理真實(shí)世界中的噪聲和變化,提高模型的穩(wěn)健性。

        Sub-center ArcFace具體實(shí)現(xiàn)方式是,為每個(gè)身份設(shè)置1個(gè)K,并根據(jù)嵌入特征xi∈R512×1和所有子中心W∈RN×K×512進(jìn)行歸一化處理,通過矩陣相乘計(jì)算得到子類的相似得分S∈RN×K,然后對子類相似度得分進(jìn)行最大池化以得到類的相似度評分S′∈RN×1。Sub-center ArcFace損失函數(shù)可以表述為:

        ArcFacesubcenter=-logescos(θi,yi+m)escos(θi,yi+m)+∑Nj=1,j≠yiescosθi,j。(3)

        其中,θi,j=arccosmaxkWTjkxi,k∈{1,…,K}。

        2 結(jié)果與分析

        本文實(shí)驗(yàn)在Linux環(huán)境下進(jìn)行,使用的GPU為單個(gè)NVIDIA A100 PCIe,批量大小為128,總epoch為20,優(yōu)化器為AdamW,初始學(xué)習(xí)率為3×10-4。本節(jié)將介紹本文所使用的數(shù)據(jù)集及相關(guān)處理,并通過分析實(shí)驗(yàn)結(jié)果來驗(yàn)證本文所提方法的有效性。

        2.1 數(shù)據(jù)集

        MS-Celeb-1M[12]是微軟公司于2016年發(fā)布的一個(gè)大規(guī)模人臉數(shù)據(jù)集,其中包含400萬張照片和79 057個(gè)人物的標(biāo)簽信息。本文首先對MS-Celeb-1M數(shù)據(jù)集進(jìn)行清洗,再使用開源工具M(jìn)askTheFace[13]來對該數(shù)據(jù)集中的人臉生成虛擬口罩,得到MS-Celeb-1M_masked,并以此作為訓(xùn)練集。

        本文使用了多個(gè)測試集,分別為LFW[14],LFW_masked,SLLFW[15],SLLFW_masked,CPLFW[16]和RMFD (Real-World Masked Face Dataset )[17]。其中LFW是由美國馬薩諸塞州立大學(xué)阿默斯特分校計(jì)算機(jī)視覺實(shí)驗(yàn)室整理完成的數(shù)據(jù)庫,包含13 233張照片和5 749個(gè)人物的標(biāo)簽信息;LFW_masked是使用MaskTheFace對LFW人臉進(jìn)行掩碼處理后生成的口罩測試集。SLLFW數(shù)據(jù)集是基于LFW實(shí)現(xiàn),它構(gòu)建了一組相似但非同一人的人臉對,該數(shù)據(jù)集旨在考察算法對于相似人臉的區(qū)分能力,提供更接近真實(shí)場景中的人臉驗(yàn)證情況。SLLFW_masked是MaskTheFace對SLLFW人臉進(jìn)行掩碼處理得到的口罩?jǐn)?shù)據(jù)集。CPLFW數(shù)據(jù)集是在LFW基礎(chǔ)上進(jìn)行擴(kuò)充,包含了多個(gè)姿態(tài)的人臉圖像,如正臉、側(cè)臉等,目的是提供更具挑戰(zhàn)性的人臉驗(yàn)證場景。RMFD是武漢大學(xué)國家多媒體軟件技術(shù)研究中心開放的真實(shí)口罩人臉數(shù)據(jù)集,涵蓋了525人的5 000張口罩人臉圖像。部分?jǐn)?shù)據(jù)集圖像如圖3所示,這些數(shù)據(jù)集包括正常人臉、模擬口罩人臉和真實(shí)口罩人臉數(shù)據(jù),同時(shí)考慮了人臉姿態(tài)等多種場景,可更全面地評估模型的識別性能。

        2.2 實(shí)驗(yàn)與分析

        2.2.1 實(shí)驗(yàn)與分析

        本文通過與Resnet-50[18],Resnet-50f,GhostNet[19],MobileFaceNet[20],ViT[21]以及PVT等模型進(jìn)行對比,其中,ViT和PVT是基于Transformer實(shí)現(xiàn)的模型。Resnet-50f是基于Resnet-50實(shí)現(xiàn)特征融合模型,用于與基于PVT特征融合的PVTFace進(jìn)行比較。以上與PVTFace對比的方法全部使用CosFace作為損失函數(shù)。評估結(jié)果如表1所示,PVTFace在各測試集上的識別準(zhǔn)確率均明顯高于其他模型。這表明PVTFace在僅能提取少量特征的情況下進(jìn)行訓(xùn)練就能兼顧戴口罩、不戴口罩、多姿態(tài)以及相似人臉區(qū)分等復(fù)雜情況。

        值得注意的是,ViT雖然在處理自然圖像等領(lǐng)域表現(xiàn)優(yōu)異,但其只關(guān)注深層次特征,在處理面部遮擋等復(fù)雜場景下存在局限性,因?yàn)槠淙狈臻g信息的連續(xù)性和不變性,難以充分捕捉面部的細(xì)節(jié)特征。而金字塔模型(PVTFace和Resnet-50f)可以使用不同的感受野來捕捉不同尺度的信息,包括全局尺度和局部尺度。在全局尺度上,模型可以識別人臉的大體特征,如整體輪廓和人臉區(qū)域的大小和形狀。在局部尺度上,模型可以更加精細(xì)地識別人臉的細(xì)節(jié)特征,如眼睛、額頭等部位。

        為了更進(jìn)一步評估模型的整體性能水平,本文以LFW數(shù)據(jù)集測試結(jié)果為基礎(chǔ)繪制了上述各方法的ROC曲線進(jìn)行對比分析。如圖4所示,縱軸代表真陽性率(TPR),橫軸代表假陽性率(FPR)。以ROC曲線下方的面積(AUC)來評價(jià)方法的優(yōu)劣,由此可見,PVTFace的識別效果遠(yuǎn)高于其他方法。

        圖5為本次實(shí)驗(yàn)7種模型在測試集LFW的準(zhǔn)確率折線圖,其中,基于特征融合實(shí)現(xiàn)的方法(如PVTFace, Resnet-50f)的識別準(zhǔn)確率明顯高于其他方法。PVTFace迭代四輪以后就能達(dá)到最佳效果。

        表2展示了PVT使用不同特征融合方式識別準(zhǔn)確率,各模型除了特征融合方式以外其他條件均一致。其中,cls_add表示使用add相加的方式將各Stage的cls向量相加;AFF表示使用基于注意力實(shí)現(xiàn)特征融合的AFF (Attentional Feature Fusion)[22],將不同尺度的特征圖進(jìn)行融合;FPT表示使用FPT? ?(Feature Pyramid Transformer)[23]所提出的特征增強(qiáng)方式對各尺度的特征圖進(jìn)行融合與增強(qiáng);cls_concat是本文所使用的特征融合方式,將各Stage的cls向量通過concat方式拼接。實(shí)驗(yàn)結(jié)果表明,cls_add方式在LFW_masked數(shù)據(jù)集的識別率略高于本文方法,但在其他數(shù)據(jù)集上的驗(yàn)證并不如本文方法。AFF方式在RMFD數(shù)據(jù)集的驗(yàn)證中取得了最佳結(jié)果,但由于其使用特征圖融合的方式,參數(shù)量是本文方法的2倍多,提升效果卻并不高。FPT方式也會產(chǎn)生較多模型參數(shù),且效果不佳。

        針對Sub-center ArcFace損失函數(shù)中子中心數(shù)量(K)對提取口罩人臉特征的影響,本文分別對K取值1、3、5在口罩人臉數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如表3所示。觀察發(fā)現(xiàn),當(dāng)K取值3時(shí),在3個(gè)數(shù)據(jù)集中均取得了最優(yōu)效果。這表明針對口罩人臉數(shù)據(jù)集,適當(dāng)放寬數(shù)據(jù)的類內(nèi)約束可以提高模型的魯棒性。

        2.2.2 Grad-CAM可視化

        為了更加直觀的分析實(shí)驗(yàn)結(jié)果,本文使用Grad-CAM[24]生成類熱力圖,以此來可視化Resnet-50,ViT,PVT,Resnet-50f和PVTFace的注意力分布。如圖6,圖中顏色越深代表此處模型權(quán)重越高,即模型更加關(guān)注該區(qū)域。PVTFace各層關(guān)注點(diǎn)為面部輪廓、額頭以及眼睛區(qū)域,將各層特征進(jìn)行融合以后基本可以得到除口罩以外的所有面部區(qū)域。Resnet-50f各層關(guān)注重點(diǎn)集中在額頭區(qū)域,而忽略了眼睛部位和面部輪廓的信息。其他模型都只關(guān)注了局部面部信息,這也是這些方法準(zhǔn)確率低的重要原因。

        2.2.3 模型參數(shù)量與計(jì)算量分析

        表4展示了Resnet-50,ViT,PVT,Resnet-50f和PVTFace的參數(shù)量(Params)和計(jì)算量(MACs)。其中,Resnet-50f具有較多的參數(shù)量,這是因?yàn)樵谶M(jìn)行特征融合時(shí)它融合了整個(gè)特征圖,而PVTFace僅融合了cls向量,從而大大減少了模型的參數(shù)量。

        另外,ViT是基于自注意力機(jī)制的柱狀結(jié)構(gòu),因此導(dǎo)致其計(jì)算量較大。相比之下,PVTFace相對于PVT僅增加了少量的模型參數(shù)和計(jì)算量,卻取得了顯著的識別效果,這表明所增加的參數(shù)量和計(jì)算量是值得的。此外,PVTFace的參數(shù)量和計(jì)算量都小于Resnet-50模型,突顯了所提出模型的優(yōu)越性。

        2.3 消融實(shí)驗(yàn)

        本節(jié)通過在各測試集上進(jìn)行消融實(shí)驗(yàn)來驗(yàn)證該方法的有效性,實(shí)驗(yàn)結(jié)果如表5所示。表5的第一列為模型名稱,其中“+”表示在上一個(gè)模型基礎(chǔ)上進(jìn)行的改進(jìn)?!?MSA”表示將基準(zhǔn)模型(PVT)的注意力機(jī)制由SRA改為基于自注意力機(jī)制的MSA;“+Sub-center”表示在上一個(gè)模型的基礎(chǔ)上,將損失函數(shù)替換為Sub-center ArcFace;“+Feature Fusion”表示在上一個(gè)模型的基礎(chǔ)上,將各層特征進(jìn)行融合。通過這些消融實(shí)驗(yàn),證實(shí)了每個(gè)改進(jìn)對模型性能的影響,并展示了提出方法的有效性。

        根據(jù)實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)在使用MSA和Sub-center ArcFace損失函數(shù)后,模型的識別準(zhǔn)確率有了顯著提升。而在進(jìn)行特征融合后,模型的識別率進(jìn)一步提高。這表明所引入的MSA、Sub-center ArcFace損失函數(shù)以及特征融合操作對提升模型性能起到了積極的作用。

        3 結(jié)論

        針對口罩人臉識別問題,本文提出融合PVT多級特征的模型。將PVT的SRA替換為基于自注意力機(jī)制的MSA以提取更豐富的人臉特征,并通過特征融合使模型集中關(guān)注未被口罩遮擋的人臉區(qū)域。為了減少模型的參數(shù)量和運(yùn)算量,本文提出了一種融合各Stage的cls向量的特征融合方法。最后,本文采用Sub-center ArcFace作為損失

        [7] WANG W H, XIE E Z, LI X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]∥2021 IEEE/CVF International Conference on Computer Vision(ICCV), 2021: 568-578.

        [8] ZHANG J W, YAN X D, CHENG Z L, et al. A face recognition algorithm based on feature fusion[J]. Concurrency and Computation: Practice and Experience, 2022, 34(14): e5748.

        [9] WANG H, WANG Y T, ZHOU Z, et al. Cosface: Large margin cosine loss for deep face recognition[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 5265-5274.

        [10] DENG J K, GUO J, YANG J, et al. Arcface: Additive angular margin loss for deep face recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 4690-4699.

        [11] DENG J K, GUO J, LIU T L, et al. Sub-center arcface: Boosting face recognition by large-scale noisy web faces[C]∥European Conference on Computer Vision,2020: 741-757.

        [12] GUO Y D, ZHANG L, HU Y X, et al. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition[C]∥European Conference on Computer Vision, 2016: 87-102.

        [13] ANWAR A, RAYCHOWDHURY A. Masked face recognition for secure authentication[J].arXiv: 2008.11104, 2020.

        [14] HUANG G B, MATTAR M, BERG T L, et al. Labeled faces in the wild: A database forstudying face recognition in unconstrained environments[C]∥Workshop on Faces in ′Real-Life′ Images: Detection, Alignment, and Recognition, 2008.

        [15] DENG W H, HU J N, ZHANG N H, et al. Fine-grained face verification: FGLFW database, baselines, and human-DCMN partnership[J]. Pattern Recognition, 2017, 66: 63-73.

        [16] ZHENG T, DENG W. Cross-pose lfw: A database for studying cross-pose face recognition in unconstrained environments[R]. Beijing University of Posts and Telecommunications, Tech. Rep, 2018, 5(7).

        [17] WANG Z Y, WANG G C, HUANG B J,? et al. Masked face recognition dataset and application[J].arXiv: 2003.09093, 2020.

        [18] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016: 770-778.

        [19] HAN K, WANG Y H, TIAN Q, et al. Ghostnet: More features from cheap operations[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2020: 1577-1586.

        [20] CHEN S, LIU Y, GAO X, et al. MobileFaceNets: Efficient CNNs for accurate real-time face verification on mobile devices[C]∥Chinese Conference on Biometric Recognition, 2018: 428-438.

        [21] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv: 2010.11929, 2020.

        [22] DAI Y M, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]∥2021 IEEE Winter Conference on Applications of Computer Vision(WACV), 2021: 3560-3569.

        [23] ZHANG D, ZHANG H, TANG J, et al. Feature pyramid transformer[C]∥European Conference on Computer Vision, 2020: 323-339.

        [24] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization[C]∥Proceedings of the IEEE Conference on Computer Vision, 2017: 618-626.

        (責(zé)任編輯:編輯郭蕓婕)

        狂野欧美性猛xxxx乱大交| 久久精品国产自产对白一区| 91精品啪在线观看国产18| 妺妺窝人体色www聚色窝韩国| 日韩中文字幕一区二区高清| 久久久久久免费播放一级毛片| 中国人妻沙发上喷白将av| 久久色悠悠亚洲综合网| 久久偷拍国内亚洲青青草| 伊人五月亚洲综合在线| 日本视频一区二区三区在线观看| 自拍偷自拍亚洲精品第按摩| 精品国产yw在线观看| 精品亚洲一区二区区别在线观看| 国产精品视频亚洲二区| 国产在线精品一区二区三区直播| 特黄特色的大片观看免费视频| 8ⅹ8x擦拨擦拨成人免费视频| 亚洲中文字幕无码中字| 在线无码国产精品亚洲а∨| 在线亚洲精品国产成人二区| h视频在线观看视频在线| 久久精品亚洲熟女av麻豆| 少女韩国电视剧在线观看完整 | 最新日本女优中文字幕视频| 日日麻批免费40分钟无码| 国产偷久久久精品专区| 四虎国产精品永久在线无码| 中文不卡视频| 中文字幕亚洲高清精品一区在线| 亚洲国产精品久久又爽av| 欧美人与善在线com| 丰满少妇a级毛片野外| 色窝窝免费播放视频在线| 亚洲另类欧美综合久久图片区| 无码成年性午夜免费网站蜜蜂| 亚洲不卡免费观看av一区二区| 欧美xxxxx高潮喷水麻豆| 3d动漫精品一区二区三区| 成人爽a毛片一区二区免费| 国产极品视觉盛宴在线观看|