顏增顯,孔 超,歐衛(wèi)華*
(1.廣西現(xiàn)代職業(yè)技術(shù)學(xué)院,廣西 河池 547000;2.貴州師范大學(xué),貴州 貴陽(yáng) 550025)
隨著網(wǎng)絡(luò)和圖像編輯技術(shù)的進(jìn)步,人們很容易通過(guò)社交網(wǎng)絡(luò)等平臺(tái)獲取別人的人臉圖像,并將其用于人臉識(shí)別系統(tǒng)的攻擊[1],如照片、回放視頻或3D面具攻擊等。準(zhǔn)確識(shí)別所捕獲的人臉圖像是真實(shí)人臉而不是虛假人臉是人臉識(shí)別系統(tǒng)廣泛應(yīng)用的重要前提。人臉?lè)雌垓_就是研究判別捕獲的人臉圖像是真實(shí)人臉還是虛假人臉的一種技術(shù),是人臉識(shí)別系統(tǒng)的重要安全保障[2]。
傳統(tǒng)的人臉?lè)雌垓_算法主要使用人工設(shè)計(jì)的特征,如LBP[3]、HoG[4]、SURF和DoG[5],來(lái)刻畫真實(shí)人臉和虛假人臉的不同特征分布,然后使用分類器(如支持向量機(jī)分類器)對(duì)真實(shí)人臉和虛假人臉進(jìn)行分類。如Boulkenafet等人[6]從HSV或YCbCr顏色空間中提取局部二值模式特征描述真實(shí)人臉和虛假人臉之間的細(xì)微差別,然后利用支持向量機(jī)進(jìn)行分類?;贚ambertian模型,Tan等人[7]提出了一種基于高斯差分(DoG)濾波器的方法來(lái)提取真實(shí)人臉或照片的不同表面特征的基本信息,并利用稀疏邏輯回歸模型進(jìn)行分類。Patel等人[8]將多尺度LBP和基于圖像質(zhì)量的顏色矩特征[9]結(jié)合起來(lái)作為單一特征向量輸入到支持向量機(jī)進(jìn)行分類。傳統(tǒng)的人臉?lè)雌垓_方法可以在受限環(huán)境(如特定光照、靜態(tài)等條件)中取得良好的效果,但在無(wú)約束條件下性能會(huì)大幅度下降[10]。
由于卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計(jì)算機(jī)視覺(jué)中的成功應(yīng)用,人們開(kāi)始研究基于卷積神經(jīng)網(wǎng)絡(luò)的人臉?lè)雌垓_方法。研究人員把人臉?lè)雌垓_視為一個(gè)二分類問(wèn)題,將卷積神經(jīng)網(wǎng)絡(luò)當(dāng)作特征提取器,提取判別性特征實(shí)現(xiàn)真實(shí)人臉和虛假人臉的分類。例如,Yang等人[11]利用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)高分辨力的特征來(lái)對(duì)真實(shí)人臉和虛假人臉進(jìn)行分類。Atoum等人[12]通過(guò)從人臉圖像中提取局部特征和整體的深度圖,提出了一種基于雙輸入CNN的人臉?lè)雌垓_方法。Liu等人[13]提出了一種CNN-RNN模型,利用像素級(jí)監(jiān)督來(lái)估計(jì)人臉深度,用序列監(jiān)督來(lái)估計(jì)心率(rPPG)信號(hào),最后將估計(jì)的深度圖和rPPG信號(hào)進(jìn)行融合以區(qū)分真實(shí)人臉和虛假人臉。上述方法證明了卷積神經(jīng)網(wǎng)絡(luò)可以非常有效地用于人臉?lè)雌垓_。
因不同模態(tài)圖像提供不同信息,如紅外、深度圖像和RGB圖像,如何有效融合不同模態(tài)信息實(shí)現(xiàn)人臉?lè)雌垓_成為近年來(lái)的研究熱點(diǎn)。例如Aleksandr等人[14]提出了一種多模態(tài)反欺騙網(wǎng)絡(luò),分別對(duì)每一模態(tài)進(jìn)行處理,并在不同網(wǎng)絡(luò)層上聚合特征,旨在增強(qiáng)神經(jīng)網(wǎng)絡(luò)的RGB、紅外和深度分支之間的信息融合。Yu等人[15]將單模態(tài)網(wǎng)絡(luò)中心差分卷積網(wǎng)絡(luò)擴(kuò)展到多模態(tài)情形,用于提取模態(tài)之間豐富的判別特征。Tao等人[16]提出了一種多輸入CNN結(jié)構(gòu)FaceBagNet,并在訓(xùn)練過(guò)程中隨機(jī)去除一個(gè)模態(tài)特征,以防止過(guò)度擬合和更好地學(xué)習(xí)融合特征。然而,已有多模態(tài)人臉?lè)雌垓_方法缺乏不同模式態(tài)間的信息交互,很難有效地利用模態(tài)間的互補(bǔ)信息。
針對(duì)上述問(wèn)題,該文提出了一種基于多模態(tài)融合的人臉?lè)雌垓_方法。先通過(guò)多模態(tài)共享分支網(wǎng)絡(luò)實(shí)現(xiàn)特征提取過(guò)程中不同模態(tài)間的信息交互,然后利用多模態(tài)通道注意力網(wǎng)絡(luò)融合不同模態(tài)的特征。與已有工作相比較,該方法具有以下創(chuàng)新:
(1)提出了一種多模態(tài)共享分支網(wǎng)絡(luò),實(shí)現(xiàn)了不同模態(tài)間的信息交互。
(2)提出了一種多模態(tài)通道注意力網(wǎng)絡(luò),實(shí)現(xiàn)了不同模態(tài)特征的有效融合。
(3)在基準(zhǔn)數(shù)據(jù)集CASIA-SURF上獲得了最好結(jié)果。
該文提出了一種基于多模態(tài)融合的人臉?lè)雌垓_模型。如圖1所示,模型主要由兩部分組成:
(1)對(duì)RGB、深度、紅外人臉圖像塊進(jìn)行多模態(tài)特征提??;
圖1 基于多模態(tài)融合的人臉?lè)雌垓_模型的網(wǎng)絡(luò)結(jié)構(gòu)
(2)對(duì)不同模態(tài)特征進(jìn)行融合。
1.2.1 網(wǎng)絡(luò)框架
從不同模態(tài)輸入圖像隨機(jī)提取圖像塊作為模型輸入,選擇ResNet-34網(wǎng)絡(luò)[17]作為主干,其中包括六個(gè)由卷積層和殘差層組成的卷積塊(即res1,res2,res3,res4,res5,res6),一個(gè)全局平局池化層和兩個(gè)完全連接層。
1.2.2 多模態(tài)輸入數(shù)據(jù)
不同于已有方法,對(duì)不同模態(tài)數(shù)據(jù),該文隨機(jī)選擇人臉圖像中的圖像塊作為輸入,進(jìn)行模型訓(xùn)練,其原因如下:
(1)防止過(guò)擬合。例如,CASIA-SURF數(shù)據(jù)集包含1 000名測(cè)試者,每個(gè)人有7個(gè)視頻片段。盡管從每個(gè)視頻中提取數(shù)百?gòu)垐D像,但由于跨幀的高度相似性,模型容易出現(xiàn)過(guò)擬合現(xiàn)象。
(2)提高特征判別性。真假人臉的判別信息分布與整個(gè)面部不同區(qū)域,使用圖像塊則可以有效學(xué)習(xí)判別信息[16]。
(3)減少模型參數(shù),提高訓(xùn)練速度。相對(duì)于使用全臉圖像,使用圖像塊作為輸入可以減少模型的參數(shù),極大縮短模型的訓(xùn)練時(shí)間。
1.2.3 多模態(tài)共享分支網(wǎng)絡(luò)
不同模態(tài)間信息具有互補(bǔ)性,如RGB圖像具有豐富的細(xì)節(jié),深度圖像距離信息,紅外圖像則包含熱輻射能量分布信息。為了充分利用不同模態(tài)間的互補(bǔ)信息,如圖1所示,分別在res1,res2,res3,res4后設(shè)計(jì)多模態(tài)共享分支網(wǎng)絡(luò)實(shí)現(xiàn)不同模態(tài)間的信息交互。多模態(tài)共享分支網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,包括兩部分:
圖2 多模態(tài)共享分支網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)
(1)先將不同模態(tài)的特征進(jìn)行拼接,并利用通道注意力網(wǎng)絡(luò)(SEN)計(jì)算拼接特征中不同通道的權(quán)重,然后對(duì)輸入特征重新加權(quán)。與直接采用不同模態(tài)的拼接特征相比,通道注意力網(wǎng)絡(luò)可以進(jìn)行模態(tài)間的對(duì)比來(lái)選擇信息量更大的模態(tài)特征和相應(yīng)的通道特征,同時(shí)抑制來(lái)自信息量較小的模態(tài)特征。
(2)將不同模態(tài)的拼接特征拆分,并與前一層多模態(tài)共享分支網(wǎng)絡(luò)提取的特征對(duì)應(yīng)元素相加,輸入到相應(yīng)的網(wǎng)絡(luò)塊中提取特征,最后將提取的特征添加到主網(wǎng)絡(luò)的各個(gè)模態(tài),從而實(shí)現(xiàn)不同模態(tài)間的信息交互。
1.2.4 通道注意力網(wǎng)絡(luò)
該文選擇通道注意力網(wǎng)絡(luò)[18]來(lái)構(gòu)成多模態(tài)共享分支網(wǎng)絡(luò)。首先輸入一個(gè)通道數(shù)為c,寬高為w、h的特征,然后通過(guò)下面三個(gè)操作來(lái)重標(biāo)定輸入的特征:
(1)壓縮(Squeeze)操作。通過(guò)全局(最大或平均)池化操作分別將不同的通道特征壓縮為單一的數(shù)值,該數(shù)值在一定程度上包含了特征的全局感受野。其中輸出和輸入特征的通道數(shù)相同為c。
(2)激勵(lì)(Excitation)操作。將壓縮操作的輸出結(jié)果輸入到兩個(gè)全連接操作(FC)中以描述不同通道間的相關(guān)性,最后輸出通道數(shù)為c的權(quán)重。
(3)重新加權(quán)(Reweight)操作。由于激勵(lì)操作所得到的權(quán)重可以在一定程度上代表每個(gè)通道特征對(duì)于所給任務(wù)的重要程度,為每個(gè)通道特征乘以其所對(duì)應(yīng)的權(quán)重值,可以實(shí)現(xiàn)輸入特征在通道維度上的重新標(biāo)定。
該文基于通道注意力融合網(wǎng)絡(luò)實(shí)現(xiàn)不同模態(tài)特征的融合。
1.3.1 單模態(tài)通道注意力融合網(wǎng)絡(luò)
與直接將不同通道特征拼接起來(lái)不同,通道注意力融合模塊根據(jù)通道特征進(jìn)行重新加權(quán),以選擇信息量更大的通道特征,同時(shí)抑制無(wú)用的通道特征。
通道注意力融合模塊可以增加對(duì)區(qū)分真實(shí)人臉和虛假人臉更有效的通道特征的權(quán)重,使卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到更多虛假人臉特有的鑒別性信息。通道注意力融合模塊對(duì)單一模態(tài)的特征進(jìn)行了有效通道特征的選擇。但RGB、深度和紅外三種模態(tài)的圖像對(duì)于人臉?lè)雌垓_具有互補(bǔ)性,為了對(duì)不同模態(tài)的特征間進(jìn)行對(duì)比進(jìn)而選擇更有效的模態(tài)特征,同時(shí)抑制判別性差的模態(tài)的無(wú)用通道特征,該文設(shè)計(jì)了一種多模態(tài)通道注意力融合網(wǎng)絡(luò),以實(shí)現(xiàn)不同模態(tài)間信息融合。
1.3.2 多模態(tài)通道注意力融合網(wǎng)絡(luò)
具體如圖3所示,先采用通道注意力網(wǎng)絡(luò)在不同模態(tài)的拼接特征中進(jìn)行重新加權(quán),以選擇更有效的模態(tài)特征,然后將拼接特征重新拆分成三種不同模態(tài)的特征,接著采用通道注意力網(wǎng)絡(luò)在每個(gè)模態(tài)內(nèi)選擇信息量更大的通道特征,最后將三種模態(tài)的特征再次拼接起來(lái)生成多模態(tài)特征。
圖3 多模態(tài)通道注意力融合網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)
采用的CASIA-SURF數(shù)據(jù)集[19]是目前最大的人臉?lè)雌垓_數(shù)據(jù)集。該數(shù)據(jù)集由三種不同模態(tài)的數(shù)據(jù)組成:RGB、深度和紅外圖像,共分為訓(xùn)練、驗(yàn)證和測(cè)試三個(gè)子集,分別有6,300(每個(gè)模態(tài)2,100個(gè)視頻)、2,100(每個(gè)模態(tài)700個(gè)視頻)、12,600(每個(gè)模態(tài)4,200個(gè)視頻)個(gè)視頻。由于數(shù)據(jù)量大,研究人員在每10幀中選取1幀,在預(yù)處理后分別形成約148K、48K、295K的采樣集,分別用于訓(xùn)練、驗(yàn)證和測(cè)試。
2.2.1 評(píng)價(jià)度量
為了保證評(píng)估的公平性與客觀性,采用了人臉?lè)雌垓_中常用的5個(gè)指標(biāo):攻擊呈現(xiàn)分類錯(cuò)誤率(APCER)、真實(shí)呈現(xiàn)分類錯(cuò)誤率(BPCER)、平均分類錯(cuò)誤率(ACER)、假正率(FPR)和真正率(TPR)。各自計(jì)算公式如下:
APCER:把虛假人臉預(yù)測(cè)為真實(shí)人臉的比例,其計(jì)算式為:
BPCER:把真實(shí)人臉預(yù)測(cè)為虛假人臉的比例,其計(jì)算式為:
ACER:APCER和BPCER的均值,其計(jì)算式為:
TPR:將真實(shí)人臉預(yù)測(cè)對(duì)的比例,其計(jì)算式為:
FPR:將虛假人臉預(yù)測(cè)為真實(shí)人臉的比例,其計(jì)算式為:
True Positive(TP)為將真實(shí)人臉預(yù)測(cè)正確的數(shù)量;True Negative(TN)為將虛假人臉預(yù)測(cè)正確的數(shù)量;False Positive(FP)為將虛假人臉預(yù)測(cè)為真實(shí)人臉的數(shù)量;False Negative(FN)為將真實(shí)人臉預(yù)測(cè)為虛假人臉的數(shù)量。
2.2.2 對(duì)比方法
為了評(píng)估所提出方法的有效性,選擇了以下多模態(tài)人臉?lè)雌垓_方法進(jìn)行比較:
·單尺度多模態(tài)融合(NHF)[19]。該方法采用ResNet-18作為主干分別處理三種模態(tài)的數(shù)據(jù),然后將特征連接起來(lái),最后由全局平均池化操作(GAP)和兩個(gè)完全連接層構(gòu)成。
·基于通道注意力融合模塊的單尺度多模態(tài)融合(Single-scale fusion)[19]。在單尺度多模態(tài)融合方法的基礎(chǔ)上,對(duì)每個(gè)分支最后一層的特征通過(guò)通道注意力網(wǎng)絡(luò)進(jìn)行重標(biāo)定。
·基于ResNet-18的多尺度多模態(tài)融合(Multi-scale fusion)[20]。在單尺度多模態(tài)融合的基礎(chǔ)上,通過(guò)在不同網(wǎng)絡(luò)層采用全局平均池化操作拓展到多尺度情形。
·基于ResNet-34的多尺度多模態(tài)融合(Stronger backbone)[20]。在多尺度多模態(tài)融合的基礎(chǔ)上,將主干網(wǎng)由ResNet-18替換為結(jié)構(gòu)更復(fù)雜的ResNet-34。
·基于圖像塊的特征學(xué)習(xí)方法(FaceBagNet)[16]。它是一種多輸入CNN網(wǎng)絡(luò),采用圖像塊作為輸入,并通過(guò)模態(tài)特征隨機(jī)擦除(MFE)操作來(lái)防止過(guò)度擬合。
·基于局部和深度圖像的人臉?lè)雌垓_方法(Patch and Depth)[12]。采用圖像塊和深度圖作為輸入,通過(guò)CNN來(lái)提取兩者特征并結(jié)合。
·靜態(tài)和動(dòng)態(tài)圖像融合的多模態(tài)的人臉?lè)雌垓_(PSMM-Net)[21]。將SD-Net網(wǎng)絡(luò)拓展到多模態(tài)版本,并提出了一種部分共享的融合方法來(lái)學(xué)習(xí)不同模態(tài)間的互補(bǔ)信息。
該文將原始的全臉圖像大小調(diào)整112×112,并使用隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)、裁剪和顏色失真進(jìn)行數(shù)據(jù)增強(qiáng)。同時(shí)從原始圖像中隨機(jī)選取不同大小圖像塊,即16×16、32×32、48×48、64×64和全部圖像。如表2所示,經(jīng)過(guò)多次實(shí)驗(yàn)證明,當(dāng)圖像塊尺寸為48×48時(shí),實(shí)驗(yàn)效果最好,因此最終選擇48×48的圖像塊進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)采用隨機(jī)梯度下降(SGD)算法對(duì)模型進(jìn)行25個(gè)周期的訓(xùn)練,初始學(xué)習(xí)率為0.1,經(jīng)過(guò)15個(gè)和20個(gè)周期后,學(xué)習(xí)率下降10倍,批處理大小為64。
損失函數(shù):損失函數(shù)采用的是softmax loss,其表達(dá)式為:
其中,Wj為網(wǎng)絡(luò)最后一個(gè)全連接層的權(quán)重W的第j列;b為偏置項(xiàng);C為類的數(shù)目;xi為第i個(gè)樣本的特征;yi為xi對(duì)應(yīng)的類標(biāo)簽。
2.4.1 不同多模態(tài)融合方法比較
不同多模態(tài)融合方法的比較結(jié)果如表1所示。
表1 不同多模態(tài)融合方法比較
可以看出,文中方法相對(duì)于現(xiàn)有的多模態(tài)人臉?lè)雌垓_方法性能更佳。相對(duì)于方法[16],文中方法在平均分類錯(cuò)誤率(ACER)上降低了0.8%,在假正率(FPR)為10-4的情況下真正率(TPR)提升了10%。相對(duì)于方法[20],文中方法在平均分類錯(cuò)誤率(ACER)上仍然降低了0.4%,在假正率(FPR)為10-4的情況下真正率(TPR)也提升了0.4%。與網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜方法[21]相比,文中方法在平均分類錯(cuò)誤率(ACER)上也取得了相同結(jié)果,在攻擊呈現(xiàn)分類錯(cuò)誤率(APCER)上降低了0.2%,且提出的多模態(tài)融合模型網(wǎng)絡(luò)結(jié)構(gòu)更簡(jiǎn)單。
2.4.2 消融實(shí)驗(yàn)
為了研究多模態(tài)共享分支模塊(Multi-modal Shared branch Network)和多模態(tài)通道注意力融合模塊(Multi-modal Squeeze and Excitation Fusion)的有效性,采用48×48大小的圖像塊進(jìn)行了一系列的消融實(shí)驗(yàn)。其中“MMSN& MSEF”表示同時(shí)去掉多模態(tài)共享分支模塊和多模態(tài)通道注意力融合塊,“MSEF”表示去掉多模態(tài)通道注意力融合塊,“MMSN”表示去掉多模態(tài)共享分支模塊。
如表2所示,僅采用多模態(tài)共享分支模塊相對(duì)于兩模塊均去掉的原始模型在平均分類錯(cuò)誤率(ACER)上降低了0.4%,在假正率(FPR)為10-4的情況下真正率(TPR)提升了17%。僅采用多模態(tài)通道注意力融合模塊相對(duì)于原始模型在平均分類錯(cuò)誤率(ACER)上降低了0.5%,在假正率(FPR)為10-4的情況下真正率(TPR)提升了18%。兩個(gè)模塊結(jié)合實(shí)現(xiàn)了最好結(jié)果,在平均分類錯(cuò)誤率(ACER)上降低了0.9%,在假正率(FPR)為10-4的情況下真正率(TPR)提升了21%。實(shí)驗(yàn)結(jié)果充分證明了多模態(tài)通道注意力融合模塊和多模態(tài)共享分支模塊的有效性。
表2 消融實(shí)驗(yàn)結(jié)果
2.4.3 不同融合方法實(shí)驗(yàn)結(jié)果比較
為了研究提出的多模態(tài)通道注意力融合方法對(duì)模型的影響,將模型中的融合方法進(jìn)行替換,進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果如表3所示,提出的多模態(tài)通道注意力融合方法取得了最好的實(shí)驗(yàn)結(jié)果,相對(duì)于通道注意力融合方法,在平均分類錯(cuò)誤率(ACER)上降低了0.4%,在假正率(FPR)為10-4的情況下真正率(TPR)提升了3.1%。
表3 不同融合方法實(shí)驗(yàn)結(jié)果
2.4.4 不同特征提取方法實(shí)驗(yàn)結(jié)果比較
為了研究提出的多模態(tài)共享分支模塊對(duì)模型的影響,將模型中的特征提取網(wǎng)絡(luò)進(jìn)行替換,進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果如表4所示,采用文中提出的多模態(tài)共享分支模塊得到了最好結(jié)果,相對(duì)于多尺度特征提取方法,在平均分類錯(cuò)誤率(ACER)上降低了0.3%,在假正率(FPR)為10-4的情況下真正率(TPR)提升了2.4%。同時(shí),多模態(tài)共享分支模塊中的通道注意力網(wǎng)絡(luò)(SEN)也起到了至關(guān)重要的作用,相比于去除了通道注意力網(wǎng)絡(luò)的多模態(tài)共享分支模塊,在平均分類錯(cuò)誤率(ACER)上降低了0.1%,在假正率(FPR)為10-4的情況下真正率(TPR)提升了13%。
表4 不同特征提取方法實(shí)驗(yàn)結(jié)果
續(xù)表4
2.4.5 不同圖像塊大小實(shí)驗(yàn)結(jié)果比較
為了研究不同圖像塊大小對(duì)模型的影響,采用了不同大小的圖像塊進(jìn)行實(shí)驗(yàn),即16×16、32×32、48×48、64×64和全部圖像。如表5所示,當(dāng)圖像塊大小為48×48時(shí)實(shí)驗(yàn)效果最佳,相對(duì)于采用整體圖像而言在平均分類錯(cuò)誤率(ACER)上降低了2.4%,在假正率(FPR)為10-4的情況下真正率(TPR)提升了37%。
表5 不同圖像塊大小實(shí)驗(yàn)結(jié)果
2.4.6 不同模態(tài)組合實(shí)驗(yàn)結(jié)果比較
不同模態(tài)組合實(shí)驗(yàn)結(jié)果如表6所示。可以看到,僅有RGB和紅外(IR)模態(tài)組合時(shí)平均分類錯(cuò)誤率(ACER)為1.8%,在假正率(FPR)為10-4的情況下真正率(TPR)為66.1%。而Depth深度和RGB模態(tài)組合時(shí)在平均分類錯(cuò)誤率(ACER)上達(dá)到了1.4%,在假正率(FPR)為10-4的情況下真正率(TPR)達(dá)到了68.1%。但深度和紅外模態(tài)組合結(jié)果最好,平均分類錯(cuò)誤率(ACER)為1.8%。融合三種模態(tài)時(shí)實(shí)現(xiàn)了最佳結(jié)果,平均分類錯(cuò)誤率(ACER)降低到了0.4%,在假正率(FPR)為10-4的情況下的真正率(TPR)提升到了95.6%。這有效說(shuō)明了多模態(tài)融合的必要性。
表6 不同模態(tài)組合實(shí)驗(yàn)結(jié)果
該文提出了一種多模態(tài)融合的人臉?lè)雌垓_模型。先通過(guò)多模態(tài)共享分支網(wǎng)絡(luò)實(shí)現(xiàn)不同模態(tài)間信息的交互,然后利用多模態(tài)通道注意力融合網(wǎng)絡(luò)融合不同模態(tài)的特征。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,該方法實(shí)現(xiàn)了更好的性能,尤其是平均分類錯(cuò)誤率(ACER)指標(biāo)達(dá)到了0.4%。另外,提出的多模態(tài)共享分支網(wǎng)絡(luò)和多模態(tài)通道注意力融合網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,可以應(yīng)用到其他基于卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)人臉?lè)雌垓_模型,具有較好的通用性。