司春暉,張麗紅
(山西大學(xué) 物理電子工程學(xué)院,山西 太原 030006)
人臉識(shí)別具有圖像獲取途徑簡(jiǎn)單、成本較低、身份鑒定的過(guò)程中完全不需要接觸目標(biāo)等優(yōu)點(diǎn),應(yīng)用范圍越來(lái)越廣.但實(shí)際人臉識(shí)別系統(tǒng)的圖像采集過(guò)程中往往存在光照、姿態(tài)、遮擋等不確定性因素,其中,遮擋因素占比重很大,而傳統(tǒng)的人臉識(shí)別方法對(duì)其識(shí)別效果不佳,如何有效地處理遮擋問(wèn)題并提高識(shí)別效率仍是人臉識(shí)別系統(tǒng)中的難點(diǎn)之一.
為了解決人臉遮擋的問(wèn)題,Wu等人[1]提出一種基于自適應(yīng)無(wú)監(jiān)督學(xué)習(xí)模型和注意力學(xué)習(xí)模型的遮擋人臉識(shí)別算法,對(duì)深度人臉特征進(jìn)行自適應(yīng)學(xué)習(xí),在遮擋面部的無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域取得了優(yōu)良的識(shí)別率和準(zhǔn)確率;為充分考慮遮擋的空間局部連續(xù)性,Wei等人[2]提出一種基于有監(jiān)督遮擋字典的遮擋結(jié)構(gòu)稀疏性人臉識(shí)別方法;Zhu等人[3]提出一種自適應(yīng)的穩(wěn)定人臉特征檢測(cè),用于遮擋人臉識(shí)別,利用幾何注意知識(shí)蒸餾的方法進(jìn)行低秩學(xué)習(xí),在野外具備良好的魯棒性.但是這些方法均需要建立字典,并且需要龐大的數(shù)據(jù)支撐,而且在識(shí)別時(shí)并不能完全排除遮擋物的影響,由此會(huì)使識(shí)別率降低.
目前,國(guó)內(nèi)外在解決人臉遮擋問(wèn)題方面,大都基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)方法[4],通過(guò)不斷卷積提取高層次信息,在識(shí)別過(guò)程中盡可能忽略掉遮擋的影響[4].但是隨著遮擋場(chǎng)景越來(lái)越復(fù)雜,卷積層數(shù)越來(lái)越多,對(duì)研究人員以及設(shè)備的要求越來(lái)越高,單靠卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)不能滿(mǎn)足遮擋人臉的高識(shí)別率要求.
本文受到文獻(xiàn)[5]中非局部神經(jīng)網(wǎng)絡(luò)以及文獻(xiàn)[6]中圖網(wǎng)絡(luò)用于計(jì)算機(jī)視覺(jué)的啟發(fā),提出一種應(yīng)用圖推理和局部分割方法對(duì)人臉遮擋位置進(jìn)行檢測(cè)的網(wǎng)絡(luò),并在相關(guān)數(shù)據(jù)集上得到了優(yōu)良的實(shí)驗(yàn)結(jié)果.
基于圖推理的人臉遮擋檢測(cè)網(wǎng)絡(luò)的整體架構(gòu)如圖1所示,整個(gè)框架分為特征提取網(wǎng)絡(luò)和圖注意推理模塊兩個(gè)部分.特征提取網(wǎng)絡(luò)利用殘差網(wǎng)絡(luò)ResNet101模型進(jìn)行初步特征提取,得到低層特征,取第1,第2,第4卷積層的輸出作為邊緣特征,利用空間金字塔池化進(jìn)行高層特征的映射,最終得到人臉低層特征、含有遮擋信息的高層特征和邊緣特征;圖注意推理模塊運(yùn)用非局部操作對(duì)高層特征和邊緣特征進(jìn)行投影計(jì)算,通過(guò)圖卷積推理各節(jié)點(diǎn)之間的關(guān)系,最終確定遮擋特征,并將其映射回原來(lái)的特征與低層特征進(jìn)行相加,得到含有遮擋部分的人臉特征向量,利用解卷積輸出,最終得到的含有遮擋部分掩膜的人臉圖片并檢測(cè)出遮擋部分.
圖 1 基于圖推理的人臉遮擋檢測(cè)網(wǎng)絡(luò)模型結(jié)構(gòu)
檢測(cè)人臉遮擋,首先需要獲得人臉的低層特征和高層特征,利用殘差網(wǎng)絡(luò)和空間金字塔池化來(lái)進(jìn)行高低層以及邊緣特征的提取.殘差網(wǎng)絡(luò)能夠較好地防止過(guò)擬合等問(wèn)題,并且可以在訓(xùn)練過(guò)程中提取邊緣特征;空間金字塔池化可以提取出高層特征信息.所以本文將兩種方法結(jié)合應(yīng)用于特征提取網(wǎng)絡(luò).
殘差網(wǎng)絡(luò)(Residual Network,Resnet)是何凱明等人在2015年提出的卷積神經(jīng)網(wǎng)絡(luò)[7],解決了3個(gè)主要問(wèn)題:①計(jì)算資源的消耗問(wèn)題②神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)擬合問(wèn)題③梯度消失以及梯度爆炸問(wèn)題.
殘差塊的具體結(jié)構(gòu)如圖 2 所示.在殘差網(wǎng)絡(luò)中,殘差塊應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)的每一層,增加網(wǎng)絡(luò)深度的同時(shí)使網(wǎng)絡(luò)收斂速度加快,殘差塊可以表示為
xl+1=xl+F(xl,Wl),
(1)
式中:xl是輸入;xl+1是輸出;F是殘差部分函數(shù);Wl是卷積的權(quán)重.
殘差表示為預(yù)測(cè)值與實(shí)際值之間的差值,在殘差網(wǎng)絡(luò)中,主要體現(xiàn)在殘差塊中輸入和輸出的恒等映射,輸入x經(jīng)過(guò)卷積運(yùn)算和激活函數(shù)得到殘差,通過(guò)訓(xùn)練得到的殘差不僅能夠增加網(wǎng)絡(luò)深度還可以使網(wǎng)絡(luò)不產(chǎn)生梯度爆炸,增加了整個(gè)網(wǎng)絡(luò)的穩(wěn)定性.
圖 2 殘差塊的結(jié)構(gòu)
本文利用殘差網(wǎng)絡(luò)Resnet101提取人臉的低層特征信息和邊緣特征信息,網(wǎng)絡(luò)的第1,第2,第4卷積層主要提取圖像梯度變化率高的特征信息,所以,用于提取邊緣信息特征,對(duì)提取出來(lái)的部分特征進(jìn)行邊緣算子的運(yùn)算,結(jié)果作為輸入圖像的邊緣特征.
在一般的CNN結(jié)構(gòu)中,卷積層后面通常連接著全連接層.而全連接層的特征數(shù)是固定的,所以,在網(wǎng)絡(luò)輸入的時(shí)候,要求輸入圖像為固定尺寸.但在實(shí)際中,圖像尺寸不能總是滿(mǎn)足網(wǎng)絡(luò)的輸入要求.一般采用裁剪和拉伸的方法進(jìn)行預(yù)處理,但是會(huì)丟失部分原始圖像信息,使最后結(jié)果受到影響.
空間金字塔池化(Spatial Pyramid Pooling,SPP)較好地解決了上述問(wèn)題[8]:首先,無(wú)論輸入圖像尺寸多大,SPP都可以產(chǎn)生固定大小的輸出,這樣提高圖像尺度不變性的同時(shí)有效地降低了過(guò)擬合;再者,SPP支持不同尺寸的圖片以及窗口,本文所用的SPP 3個(gè)窗口分別為1*1,2*2和 4*4,尺寸最小的窗口提取的信息量最小,反之則信息量最大.實(shí)驗(yàn)表明訓(xùn)練圖像尺寸的多樣性比單一尺寸的訓(xùn)練圖像更容易使網(wǎng)絡(luò)收斂,SPP在提取高層信息特征的同時(shí),大大提高了網(wǎng)絡(luò)的訓(xùn)練速度以及圖像檢測(cè)的準(zhǔn)確性.空間金字塔池化網(wǎng)絡(luò)結(jié)構(gòu)如圖 3 所示.
圖 3 空間金字塔池化網(wǎng)絡(luò)
圖注意推理模塊(Graph Attention Reasoning Module, GARM)應(yīng)用非局部操作的方法將圖片的高層特征映射到圖節(jié)點(diǎn)上,通過(guò)圖卷積的方法推理圖節(jié)點(diǎn)位置特征之間的關(guān)系,最后利用圖重投影將節(jié)點(diǎn)位置特征映射回高層特征,以確定遮擋的具體位置.GARM的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖 4 所示.
圖 4 GARM網(wǎng)絡(luò)結(jié)構(gòu)
圖投影是將輸入的特征X映射到圖特征空間G(V)中,V為節(jié)點(diǎn).具體來(lái)說(shuō),圖投影部分將具有相似特征的像素分配給同一節(jié)點(diǎn),其中就包含遮擋部分的高層像素特征,利用非局部操作將像素投影到節(jié)點(diǎn),非局部操作具體可以表示為
(2)
式中:y是輸出信號(hào),尺寸和x相同;f用于計(jì)算輸入信號(hào)x中所有位置的成對(duì)關(guān)系,f值越小,代表j對(duì)i位置影響越小;g(xj)用于計(jì)算輸入信號(hào)在j處的特征值;C(x)是歸一化參數(shù).
在g是線(xiàn)性的情況下,f近似為高斯函數(shù).
f(xi,xj)=eθ(xi)Τφ(xj),
(3)
式中:θ(xi)=Wθxi;φ(xj)=Wφxj;Wθ,Wφ均為權(quán)重向量.
若給定i,即變成計(jì)算所有j位置的softmax函數(shù)
(4)
類(lèi)似地,如圖 4 中圖投影部分,提出一種融入邊緣注意力機(jī)制的圖投影方法,先對(duì)高層特征進(jìn)行平均池化(卷積核尺寸為6*6)并計(jì)算其與邊緣的關(guān)系,將高層特征X通過(guò)非局部操作映射到以邊緣特征Y為先驗(yàn)的節(jié)點(diǎn)特征,將其作為最終投影矩陣H
H=softmax(P(φ(X)·Y)·φ(X)T),
(5)
式中:P為平均池化操作;φ為1*1卷積操作.
(6)
式中:d為輸入特征數(shù);V為節(jié)點(diǎn)數(shù)量,zk∈Z,ωk∈W,σk∈∑.
計(jì)算鄰接矩陣和總的節(jié)點(diǎn)特征分別作為節(jié)點(diǎn)特征的位置關(guān)系權(quán)重和總的特征關(guān)系
Δ=ZTZ,HG=Hθ(x),
(7)
式中:Δ為鄰接矩陣;HG為總的節(jié)點(diǎn)特征,θ為 1*1卷積操作.
將圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)與圖推理相結(jié)合,如圖 4 的圖推理部分,通過(guò)圖卷積建立節(jié)點(diǎn)之間聯(lián)通性關(guān)系,對(duì)遮擋位置與其他位置的關(guān)系進(jìn)行推理,采用RELU激活函數(shù)進(jìn)行推理表示
(8)
將投影矩陣轉(zhuǎn)置與推理模塊的輸出相乘,將推理到的遮擋部分特征映射回原特征
(9)
式中:τ是1*1卷積運(yùn)算;A是帶有表征遮擋部分的人臉特征向量.
實(shí)驗(yàn)采用Helen數(shù)據(jù)集和LaPa數(shù)據(jù)集.Helen 數(shù)據(jù)集是用于人臉?lè)指畹臄?shù)據(jù)集[9],用于訓(xùn)練圖推理網(wǎng)絡(luò),其中包括2 330幅人臉圖像,11類(lèi)人臉特征標(biāo)簽:背景、皮膚、左/右眉、左/右眼、上/下唇、內(nèi)口和頭發(fā),其中訓(xùn)練和測(cè)試樣本的數(shù)量分別為 2 000和330.LaPa數(shù)據(jù)集是一個(gè)新發(fā)布的具有挑戰(zhàn)性的人臉?lè)指顢?shù)據(jù)集[10],主要用其進(jìn)行測(cè)試,LaPa數(shù)據(jù)集和Helen數(shù)據(jù)集一樣,包含11個(gè)人臉標(biāo)簽,涵蓋了面部姿態(tài)和遮擋的變化.由18 176張訓(xùn)練圖像、2 000張驗(yàn)證圖像和2 000張測(cè)試圖像組成.
訓(xùn)練網(wǎng)絡(luò)采用端到端的訓(xùn)練方法,由于網(wǎng)絡(luò)包含3類(lèi)網(wǎng)絡(luò),在進(jìn)行回歸分類(lèi)時(shí),預(yù)測(cè)值和真值總有偏差.所以我們的損失函數(shù)包含3個(gè)部分:①殘差網(wǎng)絡(luò)的回歸交叉熵?fù)p失L0;②邊緣注意損失Le;③圖卷積產(chǎn)生的節(jié)點(diǎn)回歸損失LG,表達(dá)式為
L=L0+Le+LG,
(10)
(11)
(12)
(13)
式(11)中,HW是輸入圖片的尺寸;i是像素的索引;j是類(lèi)別的索引;N是類(lèi)別的數(shù)目;xij是i像素j類(lèi)別對(duì)應(yīng)的神經(jīng)元真值;aij是預(yù)測(cè)的值.式(12)中,vij是i像素j類(lèi)別對(duì)應(yīng)的邊緣真值;yij是預(yù)測(cè)的邊緣值.式(13)中,[]是艾弗森括號(hào),如果方括號(hào)內(nèi)的條件滿(mǎn)足則為1,不滿(mǎn)足則為0;ei是邊緣標(biāo)簽;zij是真實(shí)的標(biāo)簽;pij是預(yù)測(cè)的標(biāo)簽.
最終實(shí)驗(yàn)結(jié)果用像素精度(Pixel Accuracy,PA)、平均像素準(zhǔn)確率(Mean Pixel Accuracy,MPA)以及平均交并比(Mean Intersection over Union,MIoU) 3個(gè)指標(biāo)衡量.
像素精度是被分類(lèi)正確的像素占總像素的比例,表達(dá)式為
(14)
平均像素準(zhǔn)確率是計(jì)算每個(gè)類(lèi)內(nèi)被正確分類(lèi)像素?cái)?shù)比例后,求所有類(lèi)的平均,表達(dá)式為
(15)
平均交并比是計(jì)算真實(shí)值和預(yù)測(cè)值兩個(gè)集合的交集和并集之比,表達(dá)式為
(16)
式中:Pij表示真實(shí)值為i,被預(yù)測(cè)為j的像素?cái)?shù)量;k+1是類(lèi)別個(gè)數(shù)(包含空類(lèi));Pii是真實(shí)的像素?cái)?shù)量.
對(duì)特征提取-圖卷積推理網(wǎng)絡(luò)(ResNet101+GARM)進(jìn)行了訓(xùn)練和測(cè)試,實(shí)驗(yàn)測(cè)試時(shí)輸入圖片均為尺寸為473*473的有遮擋人臉圖片,批量處理的尺寸為4,迭代次數(shù)為80次,初始學(xué)習(xí)率為0.01,權(quán)重衰減為0.000 5.本文設(shè)計(jì)的基于圖卷積推理網(wǎng)絡(luò)的人臉遮擋位置檢測(cè)網(wǎng)絡(luò)運(yùn)行的部分結(jié)果如圖5所示;與其它先進(jìn)模型的綜合結(jié)果對(duì)比如表 1 所示.
圖 5 遮擋檢測(cè)網(wǎng)絡(luò)運(yùn)行結(jié)果展示圖
由圖5的實(shí)驗(yàn)結(jié)果可以看出,對(duì)于輸入只含有遮擋類(lèi)型噪聲的圖片,本文網(wǎng)絡(luò)可以精確對(duì)遮擋區(qū)域分配像素并繪制掩膜,遮擋像素已知圖片的人臉檢測(cè)效率會(huì)大幅度提高.
和國(guó)內(nèi)外其他先進(jìn)模型相比,本文所設(shè)計(jì)的Resnet101+GARM準(zhǔn)確率與IoU評(píng)分顯著提升,像素精度達(dá)到97.11%,與CNN+RNN模型相比提高6.11%,與CNN+RoI Tanh-warping模型相比提高0.31%,其他人臉位置遮擋檢測(cè)效果也優(yōu)于其他模型.
表 1 本文方法與其他模型的評(píng)價(jià)指標(biāo)比較
本文設(shè)計(jì)的網(wǎng)絡(luò)對(duì)人臉各部位遮擋檢測(cè)的訓(xùn)練準(zhǔn)確率如圖 6 所示.
圖 6 本文模型在各種人臉遮擋類(lèi)型上的MPA
圖 6 結(jié)果表明,對(duì)于復(fù)雜的遮擋情況,模型的準(zhǔn)確率會(huì)下降10%左右,對(duì)于極端的遮擋,分割檢測(cè)精度最低為71.82%,圖推理網(wǎng)絡(luò)結(jié)構(gòu)和殘差網(wǎng)絡(luò)部分還有很大的優(yōu)化空間.
PA,MPA,MIoU在訓(xùn)練迭代過(guò)程中的變化如圖 7 所示.由圖 7 可以看到,在訓(xùn)練迭代大約60次之后,分割檢測(cè)精度逐漸趨于穩(wěn)定.訓(xùn)練好的網(wǎng)絡(luò)準(zhǔn)確率基本穩(wěn)定在97%左右,模型具有良好的學(xué)習(xí)性能.
圖 7 各評(píng)價(jià)指標(biāo)在訓(xùn)練過(guò)程中的變化
網(wǎng)絡(luò)訓(xùn)練時(shí)的損失函數(shù)曲線(xiàn)如圖 8 所示.損失函數(shù)隨迭代次數(shù)的增加而下降為3.5,此時(shí)學(xué)習(xí)率為4.78e-5,網(wǎng)絡(luò)收斂.
圖 8 網(wǎng)絡(luò)訓(xùn)練時(shí)的損失函數(shù)曲線(xiàn)
本文設(shè)計(jì)了一種基于圖卷積推理網(wǎng)絡(luò)的人臉遮擋位置檢測(cè)網(wǎng)絡(luò),首先經(jīng)過(guò)特征提取網(wǎng)絡(luò)進(jìn)行高低層特征以及邊緣特征的提取,然后通過(guò)圖推理網(wǎng)絡(luò)分析可能遮擋的區(qū)域,并為可能遮擋區(qū)域分配像素并進(jìn)行檢測(cè),最終確定人臉遮擋位置.實(shí)驗(yàn)結(jié)果表明,基于圖卷積推理網(wǎng)絡(luò)的人臉遮擋位置檢測(cè)網(wǎng)絡(luò)的分割精度和檢測(cè)精度均優(yōu)于其他遮擋檢測(cè)網(wǎng)絡(luò).