亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)合軟閾值去噪和視頻數(shù)據(jù)融合的低質(zhì)量3維人臉識別

        2023-05-20 07:36:30桑高麗肖述笛趙啟軍
        中國圖象圖形學(xué)報 2023年5期
        關(guān)鍵詞:低質(zhì)量人臉識別人臉

        桑高麗,肖述笛,趙啟軍*

        1.嘉興學(xué)院信息科學(xué)與工程學(xué)院,嘉興 314001;2.四川大學(xué)計算機學(xué)院,成都 610065

        0 引 言

        近年來,受益于便攜式3 維傳感技術(shù)的發(fā)展,基于低質(zhì)量3 維人臉的識別研究受到越來越多的關(guān)注。區(qū)別于傳統(tǒng)高質(zhì)量3 維人臉數(shù)據(jù)(徐成華 等,2004),基于便攜式3 維傳感器采集的3 維人臉數(shù)據(jù)存在嚴(yán)重的質(zhì)量差、噪聲大和精度低等問題。圖1展示了傳統(tǒng)高質(zhì)量和低質(zhì)量3 維人臉數(shù)據(jù)對比圖??梢钥闯?,低質(zhì)量3 維人臉數(shù)據(jù)表面存在大量毛刺,數(shù)據(jù)采集精度較低,給基于低質(zhì)量3 維人臉識別的研究帶來很大困難。目前基于低質(zhì)量3 維人臉的識別精度很難令人滿意(He 等,2016;Mu 等,2019;Liu等,2019;龔勛和周煬,2021),基于低質(zhì)量3 維人臉識別方法的研究非常有限且面臨諸多挑戰(zhàn)。

        圖1 低質(zhì)量和高質(zhì)量3維人臉數(shù)據(jù)對比圖Fig.1 Low-quality and high-quality 3D face data comparison diagram ((a)high-quality 3D faces;(b)low-quality 3D faces)

        現(xiàn)有基于低質(zhì)量3 維人臉識別方法主要圍繞低質(zhì)量3 維數(shù)據(jù)質(zhì)量提升、有效特征提取等方面開展研究,存在以下困難:1)在低質(zhì)量3 維人臉數(shù)據(jù)提升方面,現(xiàn)有方法大都基于單張深度數(shù)據(jù)優(yōu)化或基于單張深度數(shù)據(jù)的重建進(jìn)行低質(zhì)量3 維人臉識別研究?;趩螐埳疃葦?shù)據(jù)所能獲取形狀信息有限,如何利用現(xiàn)有多幀視頻數(shù)據(jù)之間的互補信息進(jìn)行低質(zhì)量3 維數(shù)據(jù)質(zhì)量提升亟待解決。2)在有效特征提取方面,低質(zhì)量3 維人臉受噪聲影響較大,導(dǎo)致其形狀信息存在較大誤差,增加了有效特征提取難度。

        針對上述存在問題,本文主要貢獻(xiàn)如下:1)針對低質(zhì)量3 維人臉中存在的噪聲影響,本文提出了一個即插即用的軟閾值去噪模塊。不同于傳統(tǒng)的閾值去噪方法嚴(yán)重依賴于大量經(jīng)驗,本文結(jié)合深度學(xué)習(xí)方法,利用神經(jīng)網(wǎng)絡(luò)模型自動學(xué)習(xí)軟閾值,在網(wǎng)絡(luò)提取特征的過程中對特征進(jìn)行去噪處理。2)為了實現(xiàn)低質(zhì)量3 維人臉多幀視頻數(shù)據(jù)的融合,提出基于門控循環(huán)單元的低質(zhì)量3 維人臉視頻數(shù)據(jù)融合模塊,自動提取低質(zhì)量3 維人臉視頻幀數(shù)據(jù)間的依賴關(guān)系,實現(xiàn)視頻幀數(shù)據(jù)間互補信息的有效融合。3)在有效特征提取方面,結(jié)合softmax 和Arcface(additive angular margin loss for deep face recognition)提出了聯(lián)合漸變損失函數(shù),使網(wǎng)絡(luò)提取更具有判別性特征,進(jìn)一步提高了低質(zhì)量3維人臉識別準(zhǔn)確率。

        1 相關(guān)工作

        對低質(zhì)量3 維人臉的研究始于2010 年以后,隨著便攜式3維采集設(shè)備Kinect v1的出現(xiàn),3維人臉數(shù)據(jù)的獲取變得更方便,也更能滿足實際應(yīng)用的需求。由于這些3 維人臉數(shù)據(jù)質(zhì)量較差,早期關(guān)于低質(zhì)量3 維人臉識別的研究主要是基于傳統(tǒng)人臉識別方法,通常將這些低質(zhì)量3 維數(shù)據(jù)與2 維RGB 圖像結(jié)合來進(jìn)行人臉識別,以減輕RGB 圖像在識別中遇到的姿態(tài)、遮擋和光照等因素影響。例如,Li 等人(2013)提出一套首先利用深度數(shù)據(jù)同時將RGB 圖像和深度圖像歸一化到正面姿態(tài)的預(yù)處理方法,然后通過稀疏表示分別對紋理和深度圖進(jìn)行相似度計算,再對相似度簡單融合進(jìn)行識別。在數(shù)據(jù)規(guī)模為52 人的CurtinFace 低質(zhì)量3 維人臉數(shù)據(jù)庫(Li 等,2013)中的不同姿態(tài)、表情、光照和遮擋等圖像上都取得了較好效果。Hsu 等人(2014)為了應(yīng)對姿態(tài)變化,同時針對低質(zhì)量3 維人臉數(shù)據(jù)噪聲大的問題,提出3D 表面重建技術(shù),利用特征點對人臉對齊,然后提取圖像的局部二值模式(local binary patterns,LBP)特征,并使用稀疏表示分類進(jìn)行識別。

        隨著Kinect v2 和RealSense 等更多便攜式3 維采集設(shè)備的相繼出現(xiàn)和大型低質(zhì)量3 維人臉數(shù)據(jù)集Lock3DFace(low-cost kinect 3D faces)(Zhang 等,2016)和Extended-Multi-Dim (Hu 等,2019)的發(fā)布,一方面,使用這些設(shè)備獲取的低質(zhì)量3 維人臉數(shù)據(jù)質(zhì)量相比之前有了一定程度的改善;另一方面,由于低質(zhì)量3 維人臉數(shù)據(jù)庫規(guī)模的擴大,逐漸出現(xiàn)了一些基于深度學(xué)習(xí)的方法來解決低質(zhì)量3 維人臉識別問題。Cui 等人(2018)提出了第1 個基于深度學(xué)習(xí)的低質(zhì)量3 維人臉模型,證明了利用深度學(xué)習(xí)方法對低質(zhì)量3 維人臉識別的可能性。在低質(zhì)量3 維人臉數(shù)據(jù)提升方面,為了減輕噪聲、遮擋、姿態(tài)和表情等因素的影響,Hu等人(2019)提出了基于深度圖像歸一化為正面姿態(tài)和中性表情的低質(zhì)量3 維人臉識別算法。Mu 等人(2019)提出了一個輕量化的深度學(xué)習(xí)模型和數(shù)據(jù)預(yù)處理方法。數(shù)據(jù)處理流程包括點云恢復(fù)、表面細(xì)化和數(shù)據(jù)增強等,輕量化的深度學(xué)習(xí)模型則由5 層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)塊組成,并在其中使用4個跳躍連接來結(jié)合不同語義層面的信息,以生成更具有鑒別性的特征。為了減弱低質(zhì)量3 維人臉識別中噪聲的影響,Zhang等人(2021)認(rèn)為采集低質(zhì)量3維人臉數(shù)據(jù)噪聲服從一種分布,從而導(dǎo)致相應(yīng)特征存在擾動,因此受擾動的特征也服從一種潛在分布(即給定3維人臉的后驗分布),并提出基于低質(zhì)量3維人臉識別的分布表示方法,在Lock3DFace數(shù)據(jù)集上取得了很好的識別結(jié)果,但該算法網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且參數(shù)量較大,時間復(fù)雜度較高,訓(xùn)練難度大。

        在特征提取方面,區(qū)別于早期的傳統(tǒng)方法,Hu等人(2019)提出以高質(zhì)量3 維人臉數(shù)據(jù)為引導(dǎo),提出3 種使用高質(zhì)量3 維人臉引導(dǎo)低質(zhì)量3 維人臉識別模型訓(xùn)練的策略,減輕了低質(zhì)量3 維人臉特征提取難度。然而該算法需要同時使用高質(zhì)量和低質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)獲取難度較大,且目前缺少其他包含高低質(zhì)量3 維人臉的數(shù)據(jù)集。龔勛和周煬(2021)針對低質(zhì)量3 維人臉難以提取有效特征的問題,提出了基于dropout 的空間注意力機制和類間正則化損失,有效提高了低質(zhì)量3維人臉識別準(zhǔn)確率。

        2 網(wǎng)絡(luò)模型介紹

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        圖2 為本文提出的低質(zhì)量3 維人臉識別模型的整體結(jié)構(gòu)。首先,將視頻幀數(shù)據(jù)X=(x1,x2,…,xn) ∈Rn×128×128經(jīng) 過 預(yù) 處 理(Yang 等,2015)得到3D 人臉的法線貼圖輸入到軟閾值(soft thresholding,STD)-Led3D網(wǎng)絡(luò),在STD-Led3D網(wǎng)絡(luò)的特征提取過程中,插入軟閾值去噪模塊(soft threshold denoising module,STDM)對數(shù)據(jù)噪聲進(jìn)行過濾,得到視頻幀的特征表示Y=(y1,y2,…,yn) ∈Rn×960,然后將這些特征輸入門控循環(huán)單元融合模塊對特征向量進(jìn)行融合,得到視頻級特征表示rv∈Rn×960。圖2 中,MSFF(multi-scale-feature fusion)為多尺度特征融合模塊,SAV(spatial attention ectorization)為空間注意矢量化模塊。

        圖2 聯(lián)合軟閾值去噪和視頻數(shù)據(jù)融合的低質(zhì)量3維人臉識別模型示意圖Fig.2 Diagram of soft threshold denoising and video data fusion-relevant low-quality 3D face recognition

        2.2 軟閾值去噪模塊

        傳統(tǒng)閾值化方法通常利用人工設(shè)計的濾波器將有用信息轉(zhuǎn)化為積極或消極的特征,并將噪聲信息轉(zhuǎn)化為接近零的特征。然而,設(shè)計這樣的過濾器需要大量的經(jīng)驗。而深度學(xué)習(xí)中的梯度下降算法可以自動對濾波器的閾值進(jìn)行學(xué)習(xí),避免了閾值設(shè)定的開銷。本文設(shè)計了一個即插即用軟閾值去噪模塊(STDM)以減輕噪聲對網(wǎng)絡(luò)提取特征的影響,提高模型對噪聲的魯棒性,其結(jié)構(gòu)如圖2所示。

        軟閾值去噪模塊的輸入為c×h×w大小的特征圖X,其中c為通道數(shù),h和w分別為特征圖的高度和寬度。輸入特征圖X首先通過由3 × 3 卷積層、批歸一化層、ReLU 激活層和3 × 3 卷積層組成的連通結(jié)構(gòu)進(jìn)行特征變換,得到特征圖Y。然后對變換后的特征圖Y取絕對值和全局池化來獲取軟閾值模塊的初始閾值S。為了使S不會過大,將S通過一層全連接層和sigmoid 層,得到范圍為0~1 的縮放向量M。將M作用于向量S得到每個通道最終閾值S^,最后利用該閾值對特征圖Y中的噪聲進(jìn)行過濾得到軟閾值去噪模塊輸出O。

        考慮到軟閾值去噪模塊主要作用是在網(wǎng)絡(luò)提取特征的過程中進(jìn)行特征去噪,而隨著網(wǎng)絡(luò)層靠后,噪聲特征和有用特征將會混合到一起。因此,為了保證更好的去噪效果,本文將軟閾值去噪模塊插入到Led3D(Mu 等,2019)網(wǎng)絡(luò)中的第1 個結(jié)構(gòu)塊后。Led3D 網(wǎng)絡(luò)是第1 個專門設(shè)計用來提高低質(zhì)量3 維人識別準(zhǔn)確性和效率的卷積神經(jīng)網(wǎng)絡(luò)。

        2.3 聯(lián)合漸變損失函數(shù)

        損失函數(shù)是特征提取的關(guān)鍵部分,特征提取過程也是使損失函數(shù)最小化的過程。損失函數(shù)越小,說明網(wǎng)絡(luò)對當(dāng)前訓(xùn)練數(shù)據(jù)的擬合能力越好,特征判別性越高。由于低質(zhì)量3 維人臉識別是細(xì)粒度識別問題,人臉之間相似性很強,如何設(shè)計損失函數(shù)來優(yōu)化網(wǎng)絡(luò),使同類特征靠近、不同類特征盡量遠(yuǎn)離變得尤為重要。過去一段時間,低質(zhì)量3 維人臉識別領(lǐng)域的研究大多使用softmax 損失來優(yōu)化模型。但softmax 僅保證類別是可分的,并不要求同類特征緊湊、異類特征分離,使得最后識別準(zhǔn)確率較低。而Arcface(Deng 等,2019)損失函數(shù)可以使類內(nèi)特征更加緊湊,同時類間特征產(chǎn)生明顯的距離。

        為了利用兩個損失函數(shù)的優(yōu)點,進(jìn)一步提高網(wǎng)絡(luò)的特征提取能力,使網(wǎng)絡(luò)提取的特征同類更近、不同類更遠(yuǎn),本文將softmax損失函數(shù)與Arcface損失函數(shù)相結(jié)合,提出了一種聯(lián)合漸變損失函數(shù),計算為

        式中,λ為權(quán)重參數(shù),i表示迭代次數(shù),Ls和La分別為softmax 和Arcface 損失函數(shù)。λ的值會隨著訓(xùn)練次數(shù)不同而改變。具體來說,在訓(xùn)練的最初始階段,λ為1,損失函數(shù)完全由softmax 決定。隨著迭代次數(shù)增加,當(dāng)?shù)螖?shù)達(dá)到T(根據(jù)網(wǎng)絡(luò)的實際收斂情況,本文選用T為1 500)時,λ變?yōu)?,損失函數(shù)完全由Arcface決定。

        直觀上,本文提出的聯(lián)合漸變損失函數(shù)會首先利用softmax 優(yōu)化網(wǎng)絡(luò),使網(wǎng)絡(luò)迅速收斂。在訓(xùn)練過程中,逐漸增加Arcface 的權(quán)重,慢慢提升模型訓(xùn)練難度,逐漸使同類特征距離更近、不同類間特征距離更遠(yuǎn),從而使模型收斂到一個更好的特征空間。

        2.4 門控循環(huán)單元數(shù)據(jù)融合模塊

        門控循環(huán)單元(gated recurrent unit,GRU)(Dey和Salem,2017)能夠很好地對序列數(shù)據(jù)之間的相關(guān)信息進(jìn)行建模,并已廣泛用于各類時序任務(wù)中。本文使用門控循環(huán)單元來建模低質(zhì)量3 維人臉視頻數(shù)據(jù)之間的相關(guān)性,提出基于門控循環(huán)單元數(shù)據(jù)融合模塊對每幀低質(zhì)量3 維人臉視頻數(shù)據(jù)進(jìn)行融合,通過對每幀視頻的所有特征表示來預(yù)測每個特征表示中每個維度的向量權(quán)值,然后加權(quán)和得到整個視頻序列融合后的低質(zhì)量3維人臉特征表示。

        GRU 的具體結(jié)構(gòu)如圖2所示。設(shè)當(dāng)前節(jié)點輸入為xt,上一節(jié)點傳送的包含先前節(jié)點相關(guān)信息的隱藏狀態(tài)為ht-1,利用兩者,GRU 會得到當(dāng)前時間步的隱狀態(tài)輸出ht,并將其傳遞到下一時間步,其過程可表示為

        式中,σ表示sigmoid函數(shù),τ表示tanh函數(shù),⊕表示向量拼接,⊙表示向量元素相乘,Wz,Uz,Wr,Ur,Wh,Uh分別表示可學(xué)習(xí)的權(quán)重矩陣。

        GRU首先利用當(dāng)前時間步輸入xt和上一時間步輸出的隱藏狀態(tài)ht-1來獲取更新門控信息zt和重置門控信息rt。值得注意的是,在獲取zt和rt前會將對應(yīng)數(shù)據(jù)通過sigmoid 函數(shù),該函數(shù)會將數(shù)據(jù)范圍變換為[0,1],轉(zhuǎn)換之后的值越接近于1,代表記憶下來的信息越多,而越接近于0 代表遺忘的信息越多。求得門控信息之后,GRU 首先會使用rt對輸入的隱狀態(tài)信息ht-1進(jìn)行重置,并與xt進(jìn)行拼接,再利用tanh 激活函數(shù)功能將數(shù)據(jù)范圍縮放為[-1,1],由此得到中間狀態(tài)信息h~t。最后GRU 使用更新門zt來完成對記憶的遺忘和選擇,(1 -zt) ⊙ht-1表示對上一時間步隱藏狀態(tài)中不重要的信息進(jìn)行遺忘,zt⊙h~t表示選擇性記憶當(dāng)前時間步h~t中的信息,通過兩者可以得到當(dāng)前時間步的輸出ht。

        本文提出的門控循環(huán)單元數(shù)據(jù)融合模塊由一個雙向門控循環(huán)單元、一個全連接層和一個softmax 歸一化層構(gòu)成,如圖2 所示。STD-Led3D 網(wǎng)絡(luò)輸出的視頻幀特征表示Y會首先輸入雙向門控循環(huán)單元完成視頻幀之間的依賴關(guān)系建模,即雙向門控循環(huán)單元會對視頻幀特征表示分別進(jìn)行正方向和反方向的處理,得到每幀數(shù)據(jù)與其前后視頻幀之間的關(guān)系表示Hb∈Rn×960和Ha∈Rn×960,這兩個特征向量隨后被拼接為H∈Rn×960,H被送入全連接層預(yù)測視頻幀特征的初始權(quán)值Q∈Rn×960。在特征融合前,利用softmax 操作對所有特征表示在同一維度進(jìn)行歸一化。具體來說,給定初始權(quán)重集合Q={q1,q2,…,qn},第t個視頻幀特征向量的第j個成分歸一化計算過程為

        式中,qij表示第i個視頻的第j個分量。在獲得每幀數(shù)據(jù)每個維度的權(quán)重之后,即可將其與STD-Led3D輸出特征加權(quán)求和,獲得最終視頻級特征表示,計算為

        式中,n表示視頻幀數(shù)量,⊙表示向量元素相乘。

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)庫及評價協(xié)議

        3.1.1 數(shù)據(jù)庫情況

        為了評估本文方法的有效性,在Lock3DFace(Zhang 等,2016)和Extended-Multi-Dim(Hu 等,2019)兩個低質(zhì)量3維人臉數(shù)據(jù)集上進(jìn)行驗證。

        Lock3DFace數(shù)據(jù)集采集自Kinect v2,包含509人的5 711個視頻樣本,并伴隨有表情、姿態(tài)、遮擋和時間流逝等方面的變化。數(shù)據(jù)集包括兩個獨立的部分,兩部分采集時間間隔最長達(dá)7 個月。所有的509 人參加了第1 階段的數(shù)據(jù)采集,169 人參加了第2 階段的數(shù)據(jù)采集。Lock3DFace 數(shù)據(jù)集樣例如圖3所示。

        Extended-Multi-Dim 是第1 個包含高、低質(zhì)量的3 維人臉數(shù)據(jù)集,其中低質(zhì)量深度圖和彩色圖像使用RealSense 設(shè)備采集,高質(zhì)量3 維人臉使用SCU(Sichuan University)高精3 維掃描儀采集。該數(shù)據(jù)集共包含902 個不同樣本,是最大的多模態(tài)人臉數(shù)據(jù)集。每個采集樣本伴隨3 種表情、水平方向[+90°,-90°]和俯仰角方向[+15°,-15°]連續(xù)姿態(tài)變化的數(shù)據(jù)。Extended-Multi-Dim 數(shù)據(jù)集樣例如圖4所示。

        圖4 Extended-Multi-Dim數(shù)據(jù)集樣例Fig.4 The samples of Extended-Multi-Dim dataset

        3.1.2 評估協(xié)議

        1)Lock3DFace 閉集評估協(xié)議。本文采用與Mu等人(2019)相同的實驗設(shè)置進(jìn)行訓(xùn)練和測試。具體地說,將每個身份的第1 個自然表情視頻數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余視頻劃分為表情、遮擋、姿態(tài)和時間4 個測試子集。其中,時間子集只使用自然和表情數(shù)據(jù)。由于Lock3DFace 數(shù)據(jù)集中每個視頻內(nèi)數(shù)據(jù)相似性過大,因此所有視頻都以相等的間隔選出6幀作為代表。最后生成6 617個訓(xùn)練樣本,1 283個表情子集測試樣本,1 004 個遮擋子集測試樣本,1 010 個姿態(tài)子集測試樣本,676 個時間子集測試樣本。與Mu 等人(2019)方法一致,在Lock3DFace 數(shù)據(jù)集上訓(xùn)練的模型都使用高質(zhì)量3 維人臉數(shù)據(jù)集FRGC v2 和Bosphorus(Savran 等,2008)合并之后的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練學(xué)習(xí)率為0.005,其他與正式訓(xùn)練保持一致。

        2)Lock3DFac 開集協(xié)議。隨機從509 個身份中選取300 個身份的所有視頻數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余209 個身份的視頻數(shù)據(jù)作為測試集。并對訓(xùn)練視頻數(shù)據(jù)中每個人的第1 個自然表情視頻數(shù)據(jù)進(jìn)行數(shù)據(jù)增強,其余使用原始數(shù)據(jù),共生成3 272 個訓(xùn)練樣本。測試集中每個人的第1 個自然無表情視頻作為圖庫樣本,剩余視頻作為測試樣本,共包含自然、表情、遮擋、姿態(tài)和時間5 個測試子集,分別包括205,520,407,417,256 個樣本。與Lock3DFace 閉集協(xié)議一致,所有視頻都以相等的間隔選出6幀作為代表。

        3)Extended-Multi-Dim 開集評估協(xié)議。采用與Hu等人(2019)相同的實驗設(shè)置進(jìn)行訓(xùn)練和測試,訓(xùn)練集包括430 人,約5 082 組訓(xùn)練樣本。測試時,以每個身份的第1 個自然無表情視頻中的第1 個樣本作為圖庫數(shù)據(jù),其余視頻中所有樣本作為測試數(shù)據(jù),共包含自然(中性表情)、表情(張嘴、皺鼻、閉眼等)、姿態(tài)1(水平旋轉(zhuǎn)頭部)和姿態(tài)2(順時針旋轉(zhuǎn)頭部)4 個子集,分別包括2 184,1 356,857,870 個樣本。與Lock3DFace 協(xié)議一致,所有視頻都以相等的間隔選出6幀作為代表。

        3.2 消融實驗

        本文所有消融實驗均采用Lock3DFace 閉集評估協(xié)議,并以Led3D網(wǎng)絡(luò)為基準(zhǔn)網(wǎng)絡(luò)模型。

        為了驗證本文提出的軟閾值去噪模塊、漸變損失函數(shù)模塊和門控循環(huán)單元模塊的有效性,分別在基準(zhǔn)模型上應(yīng)用相應(yīng)的模塊以及同時疊加所有模塊進(jìn)行消融實驗。

        首先,為了驗證軟閾值去噪模塊的有效性,在基準(zhǔn)模型的不同位置添加軟閾值去噪模塊(STDM),結(jié)果如表1 所示。模型1 表示在基準(zhǔn)模型中的第1 個卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模塊前加入STDM;模型2 表示在第1 個CNN 模塊后添加STDM;模型3 表示在第2 個CNN 模塊后添加STDM;模型4 表示在第3 個CNN 模塊后添加STDM。所有模型都使用softmax損失函數(shù)進(jìn)行訓(xùn)練。

        從表1 可以看出,與基準(zhǔn)模型相比,隨著在基準(zhǔn)模型中加入STDM 的位置逐漸靠后,Rank-1 識別準(zhǔn)確率先上升后下降。其中,模型2 的Rank-1 識別準(zhǔn)確率最高,相比基準(zhǔn)模型高了2.49%,而模型4 的準(zhǔn)確率最低,相比基準(zhǔn)模型低了約2.27%。由于網(wǎng)絡(luò)利用不同層進(jìn)行特征變換,隨著層次深入,有效特征和噪聲特征會逐漸混合到一起難以分離,因此插入位置越深,效果越差。根據(jù)表1 的結(jié)果,本文使用模型在第1個CNN模塊后添加軟閾值去噪模塊。

        表1 不同位置添加軟閾值去噪模塊的Rank-1識別率Table 1 Rank-1 recognition rate of adding soft threshold denoising module in different locations/%

        為了直觀展示軟閾值去噪模塊在特征提取過程中的有效性,選取1 幅高質(zhì)量3 維人臉數(shù)據(jù),向其添加不同強度的高斯噪聲,然后將經(jīng)過軟閾值去噪模塊前后的特征可視化,觀察模塊的去噪效果。如圖5所示,第1列為加入高斯噪聲,第2~7列為經(jīng)過軟閾值去噪模塊前的特征,第8~13 列為經(jīng)過軟閾值去噪模塊后的特征。不難看出,隨著噪聲強度的增加,輸出特征圖中噪聲響應(yīng)越多,人臉判別性區(qū)域特征越來越不明顯。而經(jīng)過軟閾值去噪模塊后的特征包含噪聲響應(yīng)較少,有效特征也更加明顯。盡管在此添加的是高斯噪聲,不難得出,本文提出的軟閾值去噪模塊不僅在直觀上確實減弱了特征中的噪聲,在性能上也提高了低質(zhì)量3 維人臉識別準(zhǔn)確率(表1)。

        圖5 軟閾值去噪模塊前后特征可視化Fig.5 Feature visualization begore and after the soft threshold denoising module

        其次,為了驗證聯(lián)合漸變損失函數(shù)的有效性,分別使用softmax、Arcface 和聯(lián)合漸變損失3 種損失函數(shù)對基準(zhǔn)模型進(jìn)行訓(xùn)練。其中,Arcface 和聯(lián)合漸變損失函數(shù)中的超參s和m使用了4 組不同的設(shè)置。如表2所示,在不同超參設(shè)置下,使用softmax損失函數(shù)的模型結(jié)果遠(yuǎn)不如使用Arcface 和聯(lián)合漸變損失的模型結(jié)果,Rank-1 準(zhǔn)確率最多相差12.06%。另外,隨著角邊距懲罰項m逐漸增大,使用Arcface 損失函數(shù)訓(xùn)練的模型平均準(zhǔn)確率先是增大后又減小,這是由于隨著角邊距懲罰項的增大,同類特征距離更緊湊,不同類特征距離變大,特征判別性高,識別效果好。而當(dāng)角邊距懲罰項超過一定值之后,其準(zhǔn)確率下降。這是由于角邊距懲罰項過大導(dǎo)致模型學(xué)習(xí)難度增加,而無法學(xué)習(xí)到一個很好的特征空間,因此識別結(jié)果大幅下降。與此相反的是,使用聯(lián)合漸變損失函數(shù)的模型不僅在同樣角邊距懲罰項設(shè)置下比使用Arcface 損失函數(shù)的模型取得的Rank-1 識別準(zhǔn)確率都高,同時,兩者準(zhǔn)確率差距隨著角邊距懲罰項的增大先是逐漸減小后又逐漸增大,在m= 0.7時達(dá)到了約10.20%的差距。以上結(jié)果說明,本文提出的聯(lián)合漸變損失函數(shù)在不同參數(shù)設(shè)置下都有助于基準(zhǔn)模型收斂到一個更好的特征空間,提升了模型識別準(zhǔn)確率。

        表2 不同損失函數(shù)的Rank-1識別率Table 2 Rank-1 recognition rate of different loss functions/%

        為了進(jìn)一步直觀展示聯(lián)合漸變損失函數(shù)的有效性,分析各參數(shù)對方法性能的影響,將聯(lián)合漸變損失函數(shù)(以s= 32,m= 0.7 為例)的訓(xùn)練損失曲線圖可視化。作為對比,softmax和Arcface損失函數(shù)也一并可視化,如圖6所示??梢钥闯?,softmax 損失函數(shù)的損失值起始值比較低,且很快收斂至0 附近;Arcface損失函數(shù)的起始值很高,收斂至15 附近就趨于平緩;而聯(lián)合漸變損失函數(shù)的起始值與softmax 一致,訓(xùn)練中經(jīng)歷了先降低后增加再降低的過程,這是由于聯(lián)合漸變損失函數(shù)中Arcface 所占權(quán)重逐漸增大的緣故。結(jié)合表2 的結(jié)果,說明聯(lián)合漸變損失函數(shù)能在加快模型訓(xùn)練收斂速度的同時,使模型學(xué)習(xí)到一個更好的特征空間,從而提高低質(zhì)量3 維人臉識別準(zhǔn)確率。

        圖6 損失函數(shù)對比Fig.6 Comparison of different loss functions

        再次,為了驗證本文提出的門控循環(huán)單元數(shù)據(jù)融合模塊的有效性,設(shè)計了以下3 種基準(zhǔn)數(shù)據(jù)融合模型。1)投票法(Vote)。該方法在獲取每個視頻幀的身份之后,采用投票的方式確定整個視頻的身份;2)最大池化法(Maxpool)。該方法對所有視頻幀使用最大池化獲取同一維中的最大響應(yīng)值構(gòu)成視頻特征表示;3)單向門控循環(huán)單元(單向GRU)。該方法使用一層單向GRU 網(wǎng)絡(luò)對輸入視頻幀特征進(jìn)行融合,由于最后一個節(jié)點的輸出包含前面所有幀的相關(guān)信息,因此直接將其作為整個視頻的特征表示。本文提出的視頻數(shù)據(jù)融合模型則是在軟閾值去噪和聯(lián)合漸變損失函數(shù)的基礎(chǔ)上,添加雙向門控循環(huán)單元模塊,結(jié)果如表3所示。

        表3 不同融合模型的Rank-1識別結(jié)果Table 3 Rank-1 recognition rate of different fusion models/%

        從表3 可以看出,投票法Vote 和最大池化法MaxPool沒有對視頻幀之間的互補特征進(jìn)行學(xué)習(xí),所以Rank-1識別率較差。此外,由于前置CNN 網(wǎng)絡(luò)已經(jīng)提供了可識別特征,而單向GRU 融合模型中最后一個節(jié)點輸出的特征進(jìn)行加權(quán)的表示可能會與原始CNN 輸出特征有較大不同,在數(shù)據(jù)量有限的情況下,進(jìn)行新的特征學(xué)習(xí)可能會導(dǎo)致過擬合,所以單向GRU識別性能比視頻數(shù)據(jù)融合方法差。本文提出的視頻數(shù)據(jù)融合模型在大部分測試子集中都實現(xiàn)了最高的識別準(zhǔn)確率,在最后平均識別率上都高于其他方法,表明了本文提出的視頻數(shù)據(jù)融合方法的有效性。

        最后,為了驗證本文提出軟閾值去噪模塊、聯(lián)合漸變損失函數(shù)和門控循環(huán)單元模塊疊加之后的有效性,在表1取得最優(yōu)軟閾值去噪模塊位置的模型2上分別疊加聯(lián)合漸變損失函數(shù)和門控循環(huán)單元模塊,結(jié)果如表4 所示。從表4 可以看出,相比基準(zhǔn)模型,本文提出的任一模塊都對最終的識別準(zhǔn)確率有益,且疊加之后的模型取得了最佳識別性能。

        表4 疊加模塊在Lock3DFace閉集協(xié)議上的對比結(jié)果Table 4 Comparison results of superposition of modules on Lock3DFace close-set protocol/%

        3.3 與現(xiàn)有方法比較

        3.3.1 Lock3DFac閉集協(xié)議實驗結(jié)果

        為驗證本文方法的性能,與現(xiàn)有的低質(zhì)量3 維人臉識別方法VGG16(Visual Geometry Group network)(Simonyan 和Zisserman,2014)、ResNet34(residual network)(He 等,2016)、Inception-V2(Ioffe和Szegedy,2015)、MobilNet-V2(Sandler 等,2018)、Led3D(lightweight and efficient deep approach for 3D faces)(Mu 等,2019)、SAD(龔勛和周煬,2021)、NAN(neural aggregation network)(Yang 等,2017)和MAA(meta attention-based aggregation)(Liu 等,2019)方法進(jìn)行對比。

        表5展示了上述方法在Lock3DFace閉集上的實驗結(jié)果。可以看出,本文方法實現(xiàn)了最好的性能,相比其他最好的結(jié)果,準(zhǔn)確率提升了3.13%。相比其他方法,本文方法的識別結(jié)果總體上有所提升,這是由于本文方法提出的軟閾值去噪模塊在特征提取過程中對噪聲進(jìn)行過濾,減輕了噪聲的影響;而本文提出的聯(lián)合漸變損失函數(shù)有效利用了softmax 和Arcface 損失函數(shù)各自的優(yōu)點,有效降低了模型的訓(xùn)練難度,使網(wǎng)絡(luò)收斂到一個判別性更好的特征空間;另外,本文提出的視頻數(shù)據(jù)融合模塊可以融合視頻幀之間的互補特征,其對視頻幀之間序列進(jìn)行建模,因此效果最好。

        表5 不同算法在Lock3DFace閉集協(xié)議上的對比結(jié)果Table 5 Comparison results of different algorithms on Lock3DFace close-set protocol/%

        3.3.2 Lock3DFace開集協(xié)議實驗結(jié)果

        表6展示了不同方法在Lock3DFace開集上的實驗結(jié)果??梢钥闯?,本文方法在平均識別率上依然高于其他所有對比模型,再次說明了本文提出方法的有效性。同時,可以發(fā)現(xiàn)本文方法在姿態(tài)子集中的結(jié)果遠(yuǎn)高于其他對比模型,說明本文方法由于學(xué)習(xí)了視頻幀之間的互補特征,從而提高了識別準(zhǔn)確率。另外,與表5 相比,表6 中相同測試子集的識別結(jié)果更好,這是因為在開集上本文使用了多種類型的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,使模型泛化能力得到了增強。

        表6 不同算法在Lock3DFace開集協(xié)議上的對比結(jié)果Table 6 Comparison results of different algorithms on Lock3DFace open-set protocol/%

        3.3.3 Extended-Multi-Dim開集協(xié)議實驗結(jié)果

        表7 展示了不同方法在Extended-Multi-Dim 開集上的實驗結(jié)果??梢钥闯?,本文方法實現(xiàn)了最好的性能,相比其他最好的MAA方法平均有1.03%的準(zhǔn)確率提升。在姿態(tài)1和姿態(tài)2測試子集中,本文方法的識別結(jié)果比MAA 方法分別高出了0.58%和2.87%。Extended-Multi-Dim 中的視頻數(shù)據(jù)相比Lock3DFace 數(shù)據(jù)集中的視頻數(shù)據(jù),人臉在姿態(tài)子集中有較大的姿態(tài)變化,因此未考慮視頻幀相關(guān)性的其他方法在兩個姿態(tài)測試子集中的效果較差。而本文方法使用門控循環(huán)單元獲取不同幀之間的互補信息,通過互補信息預(yù)測特征表示每個維度的權(quán)重,然后對特征表示加權(quán)求和獲取最后的視頻級特征表示,有效提高了低質(zhì)量3 維人臉識別準(zhǔn)確率。同時,也說明了本文方法在應(yīng)對較大姿態(tài)變化時具有良好性能。

        表7 不同算法在Extended-Multi-Dim開集協(xié)議上的對比結(jié)果Table 7 Comparison results of different algorithms on Extended-Multi-Dim open-set protocol/%

        4 結(jié) 論

        本文圍繞低質(zhì)量3 維人臉數(shù)據(jù)噪聲大、依賴單幅有限深度數(shù)據(jù)提取有效特征困難的問題,提出了一種聯(lián)合軟閾值去噪和視頻數(shù)據(jù)融合的低質(zhì)量3 維人臉識別方法。本文提出的軟閾值去噪模塊,將去噪過程直接融入深度學(xué)習(xí)網(wǎng)絡(luò)模型,避免了傳統(tǒng)閾值設(shè)置嚴(yán)重依賴人工經(jīng)驗的缺陷;在有效特征提取方面,本文結(jié)合softmax和Arcface提出的聯(lián)合漸變損失函數(shù)使網(wǎng)絡(luò)提取更具有判別性特征;另外,本文提出的視頻數(shù)據(jù)融合模塊,利用門控循環(huán)單元對低質(zhì)量3 維人臉視頻幀特征數(shù)據(jù)間的依賴關(guān)系建模,實現(xiàn)視頻幀數(shù)據(jù)間互補信息的有效融合,進(jìn)一步提高了低質(zhì)量3 維人臉識別準(zhǔn)確率。大量的對比實驗證明了本文網(wǎng)絡(luò)模型的有效性。

        猜你喜歡
        低質(zhì)量人臉識別人臉
        雷人畫語
        美文(2023年5期)2023-03-26 03:15:00
        人臉識別 等
        有特點的人臉
        揭開人臉識別的神秘面紗
        三國漫——人臉解鎖
        動漫星空(2018年9期)2018-10-26 01:17:14
        低質(zhì)量的婚姻不如高質(zhì)量的單身,是真的嗎?(一)
        婦女生活(2017年5期)2017-05-16 21:04:56
        破解學(xué)前教育低質(zhì)量現(xiàn)象
        基于類獨立核稀疏表示的魯棒人臉識別
        計算機工程(2015年8期)2015-07-03 12:19:07
        閾值隨機共振及其在低質(zhì)量濃度氣體檢測中的應(yīng)用
        馬面部與人臉相似度驚人
        亚洲成av人片在线观看无码| 美女扒开腿露内裤免费看| 久久久久久人妻无码| 51国偷自产一区二区三区| 亚洲欧美日韩专区一| 激情人妻中出中文字幕一区| 亚洲一区第二区三区四区| 久久精品国产精品青草| 国产农村妇女高潮大叫| 精品无码人妻久久久一区二区三区| 精品婷婷国产综合久久| 国产乱人偷精品人妻a片| a级黑人大硬长爽猛出猛进| 国产精品久久无码免费看| 国产精品女同av在线观看| 精品国际久久久久999波多野| 丰满女人又爽又紧又丰满| 亚洲国产福利成人一区二区 | 男女午夜视频一区二区三区 | 亚洲欧美牲交| 中文字幕无码无码专区| 精品国产自拍在线视频| 一区二区三区蜜桃av| 亚洲精品无码永久在线观看你懂的 | 亚洲综合精品一区二区三区| 久久红精品一区二区三区| 免费a级作爱片免费观看美国| 人妻少妇精品无码专区二| 少妇高潮太爽了免费网站| 国产人成视频在线视频| 国产精品久久久| 无码专区亚洲avl| 成人在线观看av毛片| 成人欧美一区二区三区| 亚洲AV秘 无码一区二区三区臀| 国产91大片在线观看| 极品粉嫩嫩模大尺度无码视频 | 免费国人成人自拍视频| 国产偷国产偷亚洲综合av| 亚洲国产成人无码av在线影院| 久久久久亚洲av成人网址|