何 勇 孫哲南 王財(cái)勇 王云龍 朱宇豪
1(湖南工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 湖南 株洲 412007) 2(中國科學(xué)院自動(dòng)化研究所 北京 100190)
隨著現(xiàn)代社會(huì)的高速發(fā)展,安全、可靠的身份驗(yàn)證變得更加重要,以人臉、虹膜、指紋等為代表的現(xiàn)代生物特征識(shí)別技術(shù)正逐步取代傳統(tǒng)的身份識(shí)別技術(shù),并廣泛應(yīng)用在安防、金融支付、刑偵、考勤門禁等領(lǐng)域。眼睛是人臉、虹膜、眼周識(shí)別等最重要的特征,因此準(zhǔn)確可靠的眼睛定位對(duì)于提升身份識(shí)別的性能有重要意義。此外,眼睛也是表現(xiàn)人的情感和狀態(tài)的重要窗口,因此眼睛狀態(tài)估計(jì)在人機(jī)交互、睡眠研究和疲勞駕駛等領(lǐng)域都有廣泛應(yīng)用。
眼睛關(guān)鍵點(diǎn)可以準(zhǔn)確地反映眼睛在人臉圖像中的位置,而眼睛狀態(tài)估計(jì)是為了估計(jì)眼睛的左右和開閉狀態(tài)。眼睛作為一種特殊的生物特征,很容易受到光照條件、鏡片遮擋、頭部姿態(tài)改變的影響,導(dǎo)致眼睛的形態(tài)發(fā)生較大的變化,這就為定位眼睛位置、評(píng)估眼睛狀態(tài)造成了很大困擾,大多數(shù)眼睛定位和狀態(tài)估計(jì)方法都嘗試著增加網(wǎng)絡(luò)深度或者采用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)來應(yīng)對(duì)這些挑戰(zhàn)。
針對(duì)生物識(shí)別場景下廣泛存在的半人臉圖像,本文提出直接利用單階段的堆疊沙漏網(wǎng)絡(luò)[1]定位眼睛關(guān)鍵點(diǎn),從而確定眼睛的位置,并利用獲取的關(guān)鍵點(diǎn)估計(jì)眼睛的左右和開閉狀態(tài)。此外基于關(guān)鍵點(diǎn)信息也可以用于眼周圖像的對(duì)齊,進(jìn)一步地提高眼周識(shí)別的精度。針對(duì)現(xiàn)有的眼睛數(shù)據(jù)集存在姿態(tài)變化性較差、狀態(tài)單一等缺點(diǎn),收集并整理了一個(gè)新的有挑戰(zhàn)性的數(shù)據(jù)集OCE-1000,并手動(dòng)地為每只眼睛標(biāo)記了四個(gè)關(guān)鍵點(diǎn)(左眼角、上眼皮最高點(diǎn)、右眼角、下眼皮最低點(diǎn))和左右開閉狀態(tài),滿足眼睛關(guān)鍵點(diǎn)定位和狀態(tài)估計(jì)的需要。最終的實(shí)驗(yàn)結(jié)果表明提出的方法在復(fù)雜背景和嚴(yán)重遮擋的條件下可以達(dá)到很高的關(guān)鍵點(diǎn)定位和狀態(tài)估計(jì)精度。
本文主要貢獻(xiàn)為:1) 建立了一個(gè)較大的可見光和近紅外眼睛數(shù)據(jù)集OCE-1000,補(bǔ)充了生物特征識(shí)別領(lǐng)域眼睛數(shù)據(jù)的空缺,并且該數(shù)據(jù)集可以公開獲??;2) 提出了高效的單階段網(wǎng)絡(luò)框架可以在復(fù)雜場景下預(yù)測眼睛的關(guān)鍵點(diǎn),定位出眼睛的位置,并基于這些關(guān)鍵點(diǎn)實(shí)現(xiàn)了準(zhǔn)確的眼睛狀態(tài)估計(jì);3) 提出了基于關(guān)鍵點(diǎn)的眼周圖像裁剪和對(duì)齊,提升了眼周識(shí)別的可用性和準(zhǔn)確性。
眼睛檢測是一個(gè)熱門的研究話題,很多優(yōu)秀的方法陸續(xù)被提出。經(jīng)典的Viola-Jones[2]檢測器可以通過提取眼睛周圍的haar特征并使用級(jí)聯(lián)分類器來檢測眼睛的位置。Young等[3]通過霍夫變換確定虹膜和瞳孔的位置來定位眼睛區(qū)域。Feng等[4]使用Variance Projection Function(VPF)[5]來定位眼睛的關(guān)鍵點(diǎn),從而指導(dǎo)檢測眼睛的位置和形狀。El Kaddouhi等[6]采用Viola-Jones檢測器來檢測人臉的位置,然后基于人臉的位置和先驗(yàn)的知識(shí)來生成眼睛的檢測框。總體來說,這些早期的眼睛檢測方法大多依賴手工特征或者先驗(yàn)策略,因此容易受到外界噪聲因素的干擾。此外,眼睛狀態(tài)需要在檢測的基礎(chǔ)上進(jìn)行估計(jì)。
隨著深度學(xué)習(xí)的發(fā)展,各種先進(jìn)的目標(biāo)檢測方法被提出,例如SSD[7]、YOLO[8]、Faster RCNN[9]。這些方法會(huì)在輸入圖像上生成大量的錨點(diǎn)框,并為每一個(gè)檢測框打一個(gè)分?jǐn)?shù),然后選擇其中得分較高的檢測框作為預(yù)測框,這些方法為了更準(zhǔn)確地定位目標(biāo)的位置,往往需要生成大量候選檢測框,這在一定程度上會(huì)限制目標(biāo)檢測的速度和準(zhǔn)確性。
此外現(xiàn)實(shí)場景捕獲的人臉或者眼部圖像含有很嚴(yán)重的噪聲,挑戰(zhàn)著許多現(xiàn)有的方法,表現(xiàn)在:1) 局部極端光照(如:強(qiáng)光和陰影)和遮擋會(huì)給眼睛區(qū)域帶來較大變化和干擾,導(dǎo)致某些區(qū)域像素值偏離正常值,甚至遺失;2) 變化的臉部姿態(tài)會(huì)干擾很多依賴先驗(yàn)知識(shí)的眼睛定位和狀態(tài)估計(jì)方法;3) 現(xiàn)有數(shù)據(jù)集常常存在類別不均勻的問題,例如閉眼的圖像是少數(shù)的,影響了很多方法的訓(xùn)練。圖1展示了在不同的姿態(tài)和遮擋、光照下的眼睛圖像。
圖1 不同的姿態(tài)和遮擋、光照下的眼睛圖像
為應(yīng)對(duì)這些挑戰(zhàn),Huang等[10]使用級(jí)聯(lián)的兩階段框架先預(yù)測人臉的68個(gè)關(guān)鍵點(diǎn)從而獲取眼睛的位置,然后采用一個(gè)多任務(wù)的網(wǎng)絡(luò)去估計(jì)眼睛區(qū)域的7個(gè)關(guān)鍵點(diǎn)和眼睛的開閉狀態(tài),這種方法造成重復(fù)的低層次特征提取,速度較慢。Gou等[11]提出了級(jí)聯(lián)回歸的方法,可以檢測眼睛的位置并估計(jì)瞳孔被眼皮遮擋的概率,這個(gè)方法在光源復(fù)雜、鏡框遮擋和目標(biāo)模糊等情況下會(huì)導(dǎo)致定位和狀態(tài)估計(jì)結(jié)果不準(zhǔn)確。
拋卻冗余的基于錨點(diǎn)框的檢測方法以及級(jí)聯(lián)的思路,直接預(yù)測人臉圖像中的眼睛關(guān)鍵點(diǎn),從而預(yù)測眼睛位置和狀態(tài)估計(jì)的方法明顯在抗干擾的性能上更為優(yōu)越。這是因?yàn)闄z測框考慮的是目標(biāo)中更具判別性的區(qū)域,而關(guān)鍵點(diǎn)選擇的往往是最具有判別性的點(diǎn),這些點(diǎn)與點(diǎn)之間往往存在著各種聯(lián)系,這就保證了在某些區(qū)域或者某些關(guān)鍵點(diǎn)被遮擋或者不存在的情況下,依然可以有效地預(yù)測出目標(biāo)的其他關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)不但反映了目標(biāo)的位置,同時(shí)也可以反映目標(biāo)當(dāng)前的狀態(tài)?;诖?,選擇使用性能卓越的堆疊沙漏網(wǎng)絡(luò),提取不同尺寸下的眼睛特征,保證了眼睛關(guān)鍵點(diǎn)定位的準(zhǔn)確性,同時(shí)基于眼睛關(guān)鍵點(diǎn)的空間位置關(guān)聯(lián)性和人的先驗(yàn)知識(shí),使眼睛狀態(tài)估計(jì)更為魯棒。
提出一種基于眼睛關(guān)鍵點(diǎn)來定位并估計(jì)眼睛狀態(tài)的方法。主要分為以下幾個(gè)步驟:1) 利用堆疊沙漏網(wǎng)絡(luò)強(qiáng)大的特征提取能力融合不同尺度下的特征,并輸出一系列熱點(diǎn)圖,每一個(gè)熱點(diǎn)圖表征了關(guān)鍵點(diǎn)存在的概率。2) 基于這些關(guān)鍵點(diǎn)的空間位置關(guān)系生成一系列候選檢測框,利用IOU選擇眼睛最佳檢測框。3) 利用人的先驗(yàn)知識(shí),在這些關(guān)鍵點(diǎn)基礎(chǔ)上建立眼睛狀態(tài)估計(jì)策略,輸出狀態(tài)估計(jì)結(jié)果。圖2是基于眼睛關(guān)鍵點(diǎn)定位眼睛位置和狀態(tài)估計(jì)的框架示意圖,圖3是網(wǎng)絡(luò)輸出的眼睛關(guān)鍵點(diǎn)的熱點(diǎn)圖及其對(duì)應(yīng)眼睛的位置。
圖2 整體網(wǎng)絡(luò)框架結(jié)構(gòu)圖
圖3 網(wǎng)絡(luò)熱點(diǎn)圖及對(duì)應(yīng)眼睛位置
Newell等[1]提出的沙漏網(wǎng)絡(luò)最初被用來估計(jì)人體姿態(tài)關(guān)節(jié)點(diǎn),它可以很好地挖掘人體各部分關(guān)節(jié)點(diǎn)之間的位置關(guān)聯(lián)性,通過堆疊多個(gè)沙漏網(wǎng)絡(luò),制定合理的訓(xùn)練策略,即使在嚴(yán)重遮擋和復(fù)雜背景的條件下,也可以實(shí)現(xiàn)很好的關(guān)鍵點(diǎn)定位結(jié)果。當(dāng)前一些目標(biāo)檢測任務(wù)通過堆疊沙漏網(wǎng)絡(luò)輸出特定的目標(biāo)關(guān)鍵點(diǎn)實(shí)現(xiàn)目標(biāo)檢測。殘差模塊是沙漏網(wǎng)絡(luò)的基本結(jié)構(gòu)單元,如圖4所示。
圖4 沙漏網(wǎng)絡(luò)的基本模塊單元—?dú)埐钅K
沙漏網(wǎng)絡(luò)以殘差模塊為基本單元。殘差模塊[12]在保留原有尺寸特征的基礎(chǔ)上,同時(shí)提取了較高層次的特征,并且不改變數(shù)據(jù)尺寸,只改變數(shù)據(jù)深度。沙漏網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)結(jié)構(gòu)類似。單階的沙漏網(wǎng)絡(luò)擁有上下兩個(gè)半路,上半路在原始輸入尺度上經(jīng)過若干個(gè)殘差模塊,逐步提取更深層次特征,下半路經(jīng)歷了先max pooling降采樣,然后經(jīng)過殘差模塊提取深度特征,再升采樣(采用最近鄰插值)的過程。多階子模塊提取深度的特征,同時(shí)保持特征尺度不變。多階沙漏每次先分出上半路保留原始信息,然后開始降采樣;每次升采樣之后,和上一個(gè)尺度保留的上半路信息相加;在兩次降采樣之間,一般使用三個(gè)殘差模塊來提取特征;兩次相加之間,還需要使用一個(gè)殘差模塊再次提取特征。三階沙漏網(wǎng)絡(luò)示意圖如圖5所示。
圖5 三階沙漏網(wǎng)絡(luò)模型
進(jìn)一步地,堆疊多個(gè)沙漏網(wǎng)絡(luò),前一個(gè)沙漏網(wǎng)絡(luò)的輸出作為下一個(gè)沙漏網(wǎng)絡(luò)的輸入,采用由粗到精的方法逐步細(xì)化關(guān)鍵點(diǎn)的定位精度。在本文中,采用MSE損失來訓(xùn)練眼睛關(guān)鍵點(diǎn)定位:
(1)
2.3.1眼睛定位方法
經(jīng)過觀察分析,結(jié)合眼睛關(guān)鍵點(diǎn)之間的位置關(guān)系,可以生成指定大小的眼睛檢測框來表示眼睛位置,示意圖如圖6所示,具體步驟如下(以右眼為例):
步驟1利用眼睛右眼角關(guān)鍵點(diǎn)(xrr,yrr)、左眼角關(guān)鍵點(diǎn)(xrl,yrl)得到眼睛中心點(diǎn)坐標(biāo):
步驟2計(jì)算眼睛右眼角到中心點(diǎn)(xrc,yrc)的歐氏距離Lrrc和眼睛左眼角到中心點(diǎn)(xrc,yrc)的歐氏距離Lrlc:
(2)
(3)
步驟3經(jīng)過線性變換得到檢測框的左上角的點(diǎn)(xblt,yblt)和右下角的點(diǎn)(xbrb,ybrb):
(4)
(5)
圖6 眼睛定位示意圖
調(diào)節(jié)參數(shù)α、β(α≥0.5,β≥0.5),可以直接生成不同大小的眼睛檢測窗口,本文選擇與標(biāo)記框(經(jīng)驗(yàn)上手動(dòng)標(biāo)記)有最大IOU的檢測框,在訓(xùn)練集上進(jìn)行實(shí)驗(yàn)比較,發(fā)現(xiàn)在NIR-1000數(shù)據(jù)集下,α=β=0.7的時(shí)候,可以保障與標(biāo)記框有最大IOU,同樣在VIS-1000數(shù)據(jù)集上,α=β=0.85的時(shí)候獲得最佳檢測框。
2.3.2眼睛狀態(tài)估計(jì)
眼睛關(guān)鍵點(diǎn)標(biāo)注示意圖如圖7所示。
(a) 眼睛睜開 (b) 眼睛閉合圖7 眼睛關(guān)鍵點(diǎn)標(biāo)注示意圖
從眼睛在開閉狀態(tài)下建立的先驗(yàn)知識(shí)中獲得啟發(fā),提出基于眼睛關(guān)鍵點(diǎn)的眼睛狀態(tài)估計(jì)方法。鑒于已經(jīng)得到了上眼皮最高點(diǎn)(xrt,yrt)和下眼皮最低點(diǎn)(xrb,yrb),右眼角關(guān)鍵點(diǎn)(xrr,yrr)和左眼角關(guān)鍵點(diǎn)(xrl,yrl),利用上下眼角之間的高度差hrtb=|yrt-yrb|作為衡量眼睛開閉狀態(tài)的指標(biāo),考慮到不同場景下,這個(gè)高度差沒有一個(gè)統(tǒng)一的衡量指標(biāo)來認(rèn)定眼睛的狀態(tài),所以利用左右眼角之間的水平差值wrrl=|xrr-xrl|來歸一化這個(gè)指標(biāo),映射為t=hrtb/wrrl,因此t可以作為反映當(dāng)前眼睛狀態(tài)的指標(biāo)。經(jīng)過實(shí)驗(yàn)驗(yàn)證,得到眼睛開閉狀態(tài)實(shí)驗(yàn)結(jié)果分布圖如圖8所示。
圖8 開閉眼狀態(tài)統(tǒng)計(jì)直方分布圖
由圖8發(fā)現(xiàn):當(dāng)t<0.3的時(shí)候,眼睛大概率可判定為閉眼狀態(tài),當(dāng)t>0.3的時(shí)候,大概率可判定眼睛為睜眼狀態(tài)。t值可能會(huì)隨著人種不同、民族不同而略有改變,但在已經(jīng)獲得眼睛關(guān)鍵點(diǎn)的基礎(chǔ)上,t值的選取可以根據(jù)不同任務(wù)需求來選定。
(6)
(7)
目前針對(duì)眼睛的數(shù)據(jù)特別稀少,現(xiàn)有的文章中提到的數(shù)據(jù)集多是從網(wǎng)上爬取,或者挑選部分人臉數(shù)據(jù)集來做關(guān)于眼睛定位的任務(wù),這些數(shù)據(jù)集往往會(huì)存在檢測目標(biāo)狀態(tài)單一、圖像質(zhì)量較差、標(biāo)注不完善等問題。為此,在可見光和近紅外光源條件下建立了一個(gè)較為完善的眼睛數(shù)據(jù)集OCE-1000。OCE-1000數(shù)據(jù)集包含2 000幅圖像,包含遮擋、面部表情和頭部姿態(tài)等多種變化,其中有1 000幅可見光下采集的圖像組成VIS-1000數(shù)據(jù)集,分辨率為4 160×2 336。除此之外,還包含了1 000幅分辨率為1 080×1 920的近紅外圖像組成了NIR-1000數(shù)據(jù)集,圖9中是OCE-1000部分?jǐn)?shù)據(jù)集圖像。這個(gè)數(shù)據(jù)集用來做眼睛定位和狀態(tài)估計(jì)任務(wù)是有挑戰(zhàn)性的,但也可以真實(shí)反映網(wǎng)絡(luò)模型的魯棒性。在這個(gè)數(shù)據(jù)集上,同時(shí)標(biāo)注包含了眼角和眼皮四個(gè)關(guān)鍵點(diǎn)的坐標(biāo),還包括眼睛區(qū)域的標(biāo)定框和眼睛的狀態(tài)。
圖9 隨機(jī)選取部分OCE-1000數(shù)據(jù)集圖像
堆疊沙漏網(wǎng)絡(luò)可以準(zhǔn)確預(yù)測眼睛關(guān)鍵點(diǎn)。圖像輸入沙漏網(wǎng)絡(luò)之前,首先經(jīng)過一個(gè)核大小7×7、Stride為2的卷積層和一個(gè)2×2的max pooling層。接下來輸入到3個(gè)形似編碼解碼網(wǎng)絡(luò)結(jié)構(gòu)的沙漏網(wǎng)絡(luò),受殘差網(wǎng)絡(luò)的啟發(fā),沙漏網(wǎng)絡(luò)采用殘差模塊結(jié)構(gòu)設(shè)計(jì)來使整個(gè)網(wǎng)絡(luò)更深并且更容易優(yōu)化,設(shè)置整個(gè)沙漏網(wǎng)絡(luò)的通道層為256,并且在最后256個(gè)優(yōu)化的特征層使用8個(gè)核大小為1×1的卷積層使輸出為8個(gè)眼睛關(guān)鍵點(diǎn)的熱點(diǎn)圖。訓(xùn)練期間,在輸入圖像的分辨率為512×256,最終的輸出分辨率為128×64。整個(gè)網(wǎng)絡(luò)采用標(biāo)準(zhǔn)的Adam算法優(yōu)化整個(gè)網(wǎng)絡(luò),初始學(xué)習(xí)率設(shè)置為2e-5并且選擇batch size為8,我們?cè)O(shè)置了最大訓(xùn)練迭代次數(shù)為750,學(xué)習(xí)率隨著驗(yàn)證集的損失而調(diào)整,如果在若干個(gè)迭代次數(shù)中驗(yàn)證集的損失不再下降,則學(xué)習(xí)率降低為原來的0.5倍,直到網(wǎng)絡(luò)收斂。保存所有訓(xùn)練迭代中Loss最低的5次。訓(xùn)練過程中,將訓(xùn)練集分成兩部分,分別用于訓(xùn)練和驗(yàn)證,比例為3 ∶1。
3.3.1眼睛關(guān)鍵點(diǎn)定位的結(jié)果
在不同的眼睛數(shù)據(jù)集上,眼睛圖像的尺寸大小不一,需要一個(gè)合理的眼睛關(guān)鍵點(diǎn)評(píng)價(jià)標(biāo)準(zhǔn),利用2.4節(jié)所示評(píng)判規(guī)則可以很好地解決這個(gè)挑戰(zhàn)。在VIS-1000數(shù)據(jù)集和NIR-1000數(shù)據(jù)集中,都選擇預(yù)測的眼睛關(guān)鍵點(diǎn)偏差率大于0.2視為預(yù)測失敗,實(shí)驗(yàn)結(jié)果如表1所示。
表1 OCE-1000數(shù)據(jù)集關(guān)鍵點(diǎn)定位結(jié)果
從表1可以看出,在NIR-1000數(shù)據(jù)集中關(guān)鍵點(diǎn)偏差率比VIS-1000數(shù)據(jù)集中的偏差率小,這是因?yàn)閳D像中背景信息所造成的影響,NIR-1000數(shù)據(jù)集中的圖像內(nèi)容較為單一,目標(biāo)很明顯,而在VIS-1000數(shù)據(jù)集中圖像背景復(fù)雜,目標(biāo)狀態(tài)、尺寸大小差異性較大,很容易受到背景信息的干擾。盡管存在數(shù)據(jù)上的差異,但是提出的方法在兩個(gè)數(shù)據(jù)集上都達(dá)到了98%以上的關(guān)鍵點(diǎn)定位準(zhǔn)確率。表2是在公共數(shù)據(jù)集Gi4e和BioID上預(yù)測的關(guān)鍵點(diǎn)的定位結(jié)果,表明模型的泛化性良好。
表2 在Gi4e和BioID數(shù)據(jù)集關(guān)鍵點(diǎn)定位結(jié)果
3.3.2眼睛關(guān)鍵點(diǎn)檢測的結(jié)果
為了更好地展示眼睛定位的效果,我們選擇使用關(guān)鍵點(diǎn)來生成眼睛檢測框,這些點(diǎn)不僅包含著眼睛的位置信息,同時(shí)也包含著眼睛的類別信息(左眼和右眼),所以基于這些點(diǎn)可以很好地生成眼睛檢測框。我們統(tǒng)計(jì)了訓(xùn)練集中標(biāo)記的眼睛檢測框,根據(jù)2.3.1節(jié)所示的生成規(guī)則發(fā)現(xiàn),在NIR-1000訓(xùn)練數(shù)據(jù)集中令α=β=0.7,可以實(shí)現(xiàn)與標(biāo)記的眼睛檢測框有最大重疊,即生成眼睛檢測框的左上角和右下角的坐標(biāo)可表示為:
(8)
在VIS-1000訓(xùn)練數(shù)據(jù)集中令α=β=0.85,可以保證與標(biāo)記的眼睛檢測框有最大的重疊,即生成眼睛檢測框的左上角和右下角的坐標(biāo)可表示為:
(9)
在上述生成規(guī)則下,在測試集上可以保持生成的預(yù)測眼睛檢測框與標(biāo)記的眼睛檢測框達(dá)到IOU=0.8,準(zhǔn)確率達(dá)到了97%以上,對(duì)比傳統(tǒng)的目標(biāo)檢測方法,結(jié)果如表3所示。
表3 在OCE-1000數(shù)據(jù)集眼睛檢測結(jié)果
3.3.3眼睛狀態(tài)估計(jì)的結(jié)果
采用2.3.2節(jié)所示方法,融合人們對(duì)于眼睛開閉狀態(tài)先驗(yàn)知識(shí)的理解,利用預(yù)測的上眼皮關(guān)鍵點(diǎn)和下眼皮關(guān)鍵點(diǎn)的距離在眼睛開閉狀態(tài)下的變化表示眼睛開閉狀態(tài)。設(shè)定判別眼睛開閉狀態(tài)的閾值為0.3,發(fā)現(xiàn):當(dāng)t<0.3的時(shí)候,眼睛可判定為閉眼狀態(tài),當(dāng)t>0.3的時(shí)候,可判定眼睛為睜眼狀態(tài)。表4是在公共數(shù)據(jù)集Gi4e和BioID上與其他眼睛狀態(tài)估計(jì)方法的比較,發(fā)現(xiàn)本文提出的算法均可以達(dá)到最優(yōu)的實(shí)驗(yàn)結(jié)果。表5是在標(biāo)注的數(shù)據(jù)集OCE-1000上與其他眼睛狀態(tài)估計(jì)方法的比較,發(fā)現(xiàn)本文提出的算法同樣可以達(dá)到最優(yōu)的實(shí)驗(yàn)結(jié)果。
表4 在公共數(shù)據(jù)集Gi4e和BioID上的對(duì)比實(shí)驗(yàn)結(jié)果(%)
表5 在標(biāo)注數(shù)據(jù)集與其他眼睛狀態(tài)估計(jì)方法的比較(%)
表面上看,眼睛狀態(tài)估計(jì)依賴于眼睛關(guān)鍵點(diǎn)預(yù)測的準(zhǔn)確性,其實(shí)在加入眼睛各個(gè)關(guān)鍵點(diǎn)之間的位置關(guān)聯(lián)性后,可以保證即使在關(guān)鍵點(diǎn)預(yù)測一般的情況下,也可以實(shí)現(xiàn)較好的眼睛狀態(tài)估計(jì)。
深度學(xué)習(xí)的發(fā)展很大程度上是數(shù)據(jù)量的爆發(fā)式增長,很多數(shù)據(jù)集數(shù)據(jù)量達(dá)到十幾萬,甚至數(shù)百萬,但在虹膜識(shí)別、鞏膜識(shí)別還有眼周識(shí)別領(lǐng)域,目前比較缺乏較大規(guī)模的數(shù)據(jù)集。目前存在的較大的人臉圖像有數(shù)百萬,可以考慮從這些人臉圖像中獲取眼周、虹膜和鞏膜圖像,而不需要特意取采集,這是本文算法的一個(gè)優(yōu)勢。
在一幅包含眼睛的人臉圖像上,通過直接預(yù)測眼睛的關(guān)鍵點(diǎn),輸出眼睛的狀態(tài),根據(jù)在2.3.1節(jié)中所提出的方法,當(dāng)α和β相同時(shí),提取的眼睛區(qū)域是一個(gè)正方形,當(dāng)α和β不同時(shí),提取的眼睛區(qū)域是一個(gè)長方形,調(diào)節(jié)α和β可以提取出最佳的眼睛圖像,這里取α=β,使提取的眼睛區(qū)域?yàn)檎叫?。?duì)于提取虹膜、鞏膜圖像,往往取0.7附近比較好,而對(duì)于眼周識(shí)別來說,需要更多的眼睛區(qū)域的特征,就需要取1.5。表6和表7是在OCE-1000數(shù)據(jù)集上采用不同超參數(shù)裁剪眼睛區(qū)域與手動(dòng)標(biāo)注的groundtruth交并比的結(jié)果,可以看出在合適的α和β參數(shù)下能得到最佳的眼睛區(qū)域。
表6 在NIR-1000數(shù)據(jù)集上不同的超參數(shù)的比較
表7 在VIS-1000數(shù)據(jù)集上不同超參數(shù)的比較
在人臉識(shí)別和虹膜識(shí)別受約束的環(huán)境下,眼周識(shí)別是一種有效的生物識(shí)別方法。眼周識(shí)別指的是利用眼睛區(qū)域的紋理、皮膚、眉毛等特征來識(shí)別,但眼睛的位置和狀態(tài)容易受到頭部姿態(tài)變化的影響,這對(duì)利用眼周來進(jìn)行識(shí)別是很不利的。基于提出的眼睛關(guān)鍵點(diǎn)定位方法得到準(zhǔn)確的眼睛關(guān)鍵點(diǎn)信息,根據(jù)在2.3.1節(jié)方法,選取合適大小的α、β兩個(gè)超參數(shù),可以裁剪合適大小的眼睛區(qū)域進(jìn)行眼周識(shí)別;通過關(guān)鍵點(diǎn)信息對(duì)不同狀態(tài)下的眼睛做仿射變換,實(shí)現(xiàn)人眼的對(duì)齊,避免由于眼睛形狀各異導(dǎo)致識(shí)別不到或者識(shí)別錯(cuò)誤,大大提高眼周識(shí)別的準(zhǔn)確率。眼睛關(guān)鍵點(diǎn)也是很好的語義信息,可以提升眼周識(shí)別的魯棒性,增強(qiáng)識(shí)別效果。
根據(jù)在OCE-1000數(shù)據(jù)集上得到的眼睛關(guān)鍵點(diǎn)信息,調(diào)節(jié)α和β兩個(gè)超參數(shù),得到如下大小的眼周數(shù)據(jù)集,同時(shí)利用眼睛的左右關(guān)鍵點(diǎn)進(jìn)行仿射變換,將眼睛對(duì)齊到圖像中的固定位置,選取圖像像素平均值補(bǔ)全對(duì)齊后缺失的像素值,對(duì)齊結(jié)果如圖10所示。
圖10 眼睛對(duì)齊前后對(duì)比結(jié)果
利用眼睛關(guān)鍵點(diǎn)進(jìn)行眼周對(duì)齊操作之后,將眼睛區(qū)域變換到圖像中的固定區(qū)域,對(duì)于實(shí)現(xiàn)特征提取,特征匹配和識(shí)別有重要意義。
相比于之前的眼睛定位和狀態(tài)估計(jì)需要先執(zhí)行眼睛檢測,再設(shè)置一個(gè)合理的分類器來估計(jì)眼睛狀態(tài),現(xiàn)在更多地考慮兩個(gè)任務(wù)之間存在的關(guān)聯(lián)性,通過單階段網(wǎng)絡(luò)大大削弱網(wǎng)絡(luò)的復(fù)雜度,同時(shí)依賴于眼睛的先驗(yàn)知識(shí),基于數(shù)據(jù)驅(qū)動(dòng)的方式,極大地提升網(wǎng)絡(luò)預(yù)測的準(zhǔn)確性。區(qū)別于傳統(tǒng)的基于目標(biāo)檢測框的方法,首先采用性能優(yōu)越的堆疊沙漏網(wǎng)絡(luò)預(yù)測出眼睛邊緣的四個(gè)極值點(diǎn)(左眼角、上眼皮最高點(diǎn)、右眼角、下眼皮最低點(diǎn))。然后將這些關(guān)鍵點(diǎn)作為線索,融合關(guān)鍵點(diǎn)之間的空間位置關(guān)系,依賴于人在眼睛開閉狀態(tài)下的先驗(yàn)知識(shí),設(shè)定合適的閾值,可以實(shí)現(xiàn)高效地估計(jì)眼睛當(dāng)前的狀態(tài)。該方法首次在單階段網(wǎng)絡(luò)框架下同時(shí)實(shí)現(xiàn)眼睛定位和狀態(tài)估計(jì),通過在新建立的眼睛數(shù)據(jù)集OCE-1000進(jìn)行驗(yàn)證分析,證明了該方法的可行性和有效性,為實(shí)現(xiàn)眼睛檢測和狀態(tài)估計(jì)提出了新的思路和方法。
眼睛的關(guān)鍵點(diǎn)提供了精準(zhǔn)的目標(biāo)定位信息,可以合理地把眼睛區(qū)域提取出來,這就為創(chuàng)建一個(gè)大型眼周數(shù)據(jù)集提供了可能。利用預(yù)測的眼睛關(guān)鍵點(diǎn)進(jìn)行眼部預(yù)處理,實(shí)現(xiàn)眼周對(duì)齊,可以提升眼周識(shí)別的準(zhǔn)確性。