陳旭旗,沈文忠
上海電力大學(xué) 電子與信息工程學(xué)院,上海201306
當(dāng)下生物特征識(shí)別已經(jīng)發(fā)展成為一門成熟的技術(shù),廣泛用于許多政府機(jī)構(gòu)和民事應(yīng)用中,如電子護(hù)照、身份證、邊境管制、移動(dòng)支付、門禁系統(tǒng)等等。常見(jiàn)的用于生物特征識(shí)別的生理特征主要有視網(wǎng)膜、掌紋、指紋、靜脈、人臉、耳廓、虹膜等,常用的行為特征主要包括步態(tài)、筆跡、聲紋等。相比指紋和人臉,虹膜具有較為明顯的優(yōu)勢(shì)。虹膜具有穩(wěn)定性,在胚胎階段發(fā)育之后終生穩(wěn)定不變;虹膜具有受保護(hù)性,其結(jié)構(gòu)天然受到外部角膜保護(hù),同外界隔離因而不易受傷害;虹膜識(shí)別具有非接觸性,虹膜采集設(shè)備無(wú)需同人體進(jìn)行肢體接觸;虹膜具有較高的防偽造性,通過(guò)外科手術(shù)對(duì)人眼中的精細(xì)化結(jié)構(gòu)進(jìn)行修改難度極大、危險(xiǎn)性極高,偽造代價(jià)極為昂貴。
呈現(xiàn)攻擊是指惡意的用戶向生物識(shí)別系統(tǒng)的傳感器非法地呈現(xiàn)偽造的生物測(cè)定學(xué)特征來(lái)實(shí)施各類攻擊,企圖繞過(guò)該身份認(rèn)證安全系統(tǒng)。該攻擊的形式主要包括三類:一是在認(rèn)證階段冒充他人身份;二是在識(shí)別階段隱藏自己真實(shí)身份;三是在注冊(cè)階段偽造虛假身份[1]?;铙w檢測(cè)(liveness detection)又稱為呈現(xiàn)攻擊檢測(cè)(presentation attack detection,PAD),其任務(wù)旨在檢測(cè)這種攻擊的存在性,以此保證系統(tǒng)在復(fù)雜、苛刻的條件下仍能進(jìn)行正確身份識(shí)別,確保生物識(shí)別系統(tǒng)的安全性和可靠性[2]。隨著虹膜識(shí)別的流行和廣泛部署,虹膜活體檢測(cè)變得越來(lái)越重要,并受到廣泛關(guān)注。
虹膜活體檢測(cè)的方法主要分為兩類:一類是基于硬件的方式,通過(guò)采用額外硬件設(shè)備采集人眼的物理特征(人眼組織的密度、顏色或者光學(xué)特性等)和生理特征(瞳孔放大、虹膜震顫、普爾欽反射等)來(lái)檢測(cè);另一類是基于軟件的方式,主要是通過(guò)分析圖像和視頻中的靜態(tài)或動(dòng)態(tài)特征來(lái)進(jìn)行檢測(cè)[1]。
2000年,Daugman[3]率先提出PAD的一種方法,該方法可以檢測(cè)打印在紙張上或者打印在隱形眼鏡上的虹膜,主要通過(guò)分析傅里葉頻譜中的異常值、檢測(cè)角膜的普爾欽反射以及通過(guò)探測(cè)眼睛自發(fā)的虹膜震顫和受光照刺激的瞳孔收縮來(lái)實(shí)現(xiàn)活體檢測(cè)。McGrath等[4]提出了一種基于BSIF(binary statistical image features)和分類器集成學(xué)習(xí)的虹膜美瞳檢測(cè)方法。Czajka等[5]利用光度立體特征估計(jì)法,通過(guò)提取虹膜區(qū)域的三維結(jié)構(gòu)來(lái)實(shí)現(xiàn)虹膜活體檢測(cè)。Trokielewicz等[6]基于深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)尸檢虹膜的活體檢測(cè),同時(shí)利用導(dǎo)向反向傳播技術(shù)和梯度加權(quán)類激活熱力圖來(lái)進(jìn)行可視化,檢測(cè)模型是否能夠提取虹膜圖像中的有效區(qū)域來(lái)進(jìn)行分類判斷和決策。Soleymani等[7]提出使用小波分解來(lái)防御偽造虹膜圖片的攻擊。Kuehlkamp等[8]利用多個(gè)預(yù)訓(xùn)練的BSIF濾波器來(lái)有效訓(xùn)練輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò),采用分類器的多視圖集成學(xué)習(xí)來(lái)進(jìn)行虹膜活體檢測(cè)。Czajka[9]使用支持向量機(jī),利用光照變化條件下的瞳孔動(dòng)態(tài)特性來(lái)進(jìn)行虹膜活體檢測(cè)。宋平等[10]利用人眼區(qū)域的三維結(jié)構(gòu),提出了一種基于計(jì)算光場(chǎng)成像技術(shù)的虹膜活體檢測(cè)方法。賈皓麗等[11]對(duì)歸一化后的虹膜圖像進(jìn)行濾波,計(jì)算其特征區(qū)域的圖像熵值,提出了一種基于Gabor濾波的虹膜活體檢測(cè)方法。李志明[12]采用深度學(xué)習(xí)算法,在歸一化后的虹膜圖像上自動(dòng)提取隱藏特征,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的虹膜活體檢測(cè)算法。劉明康等[13]基于含有增強(qiáng)型灰度空間生成器的三元組網(wǎng)絡(luò),利用空間分析與變換的方式解決真假虹膜樣本的分類問(wèn)題。文獻(xiàn)[1-2,14-15]指出,美瞳檢測(cè)是虹膜活體檢測(cè)領(lǐng)域里最具難度和挑戰(zhàn)性的研究課題,因此本文重點(diǎn)以美瞳檢測(cè)作為活體檢測(cè)來(lái)研究。
隨著卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)和圖像處理領(lǐng)域取得的成功,一系列語(yǔ)義分割算法以及目標(biāo)檢測(cè)算法也陸續(xù)引入到虹膜識(shí)別領(lǐng)域。周銳燁等[16]提出了一種基于Unet的神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)異質(zhì)虹膜圖像的精確語(yǔ)義分割。在虹膜識(shí)別過(guò)程中,為了實(shí)現(xiàn)人眼的精確定位,基于方向梯度直方圖和支持向量機(jī),晁靜靜等[17]實(shí)現(xiàn)了雙眼虹膜圖像的人眼定位算法,為改進(jìn)該定位算法,陳金鑫等[18]基于YOLO算法提出了一種人眼快速定位與分類算法,同時(shí)實(shí)現(xiàn)模型的輕量化。滕童等[19]基于級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)出一個(gè)多任務(wù)虹膜快速定位模型,并有效實(shí)現(xiàn)虹膜關(guān)鍵點(diǎn)的檢測(cè)。
本文將端到端單階段目標(biāo)檢測(cè)算法SSD(single shot multibox detector)[20]應(yīng)用于人眼圖片的虹膜定位,并提出美瞳檢測(cè)算法IrisBeautyDet。實(shí)驗(yàn)表明,該算法在中科院CASIA-Iris數(shù)據(jù)集和圣母大學(xué)NDCLD數(shù)據(jù)集上具有優(yōu)異的性能。對(duì)于頭發(fā)遮擋、眼鏡遮擋、光斑干擾等嚴(yán)苛條件下,仍具有較好的魯棒性。為了驗(yàn)證算法的有效性,利用神經(jīng)網(wǎng)絡(luò)可視化方法獲得特征可視化圖。特征可視化圖中細(xì)粒度的豐富梯度信息有力地證明了本算法對(duì)虹膜特征和美瞳特征的優(yōu)異提取能力,并能夠充分學(xué)習(xí)到虹膜區(qū)域與美瞳區(qū)域的語(yǔ)義信息。
本文的工作包含以下內(nèi)容:
(2)使用MobileNet[21],將原有SSD網(wǎng)絡(luò)輕量化。引入注意力機(jī)制,分別采用通道注意力模塊[22]、空間注意力模塊[22]、CBAM模塊(convolutional block attention module)[22]以及SE模塊(squeeze-and-excitation)[23]進(jìn)行美瞳檢測(cè),探索引入模型的最佳注意力機(jī)制,進(jìn)一步提高模型的準(zhǔn)確度和泛化能力,彌補(bǔ)模型參數(shù)量減少后模型表達(dá)能力不足的缺陷。
(3)利用神經(jīng)網(wǎng)絡(luò)的可視化技術(shù),確定網(wǎng)絡(luò)對(duì)輸入圖片的敏感區(qū)域,驗(yàn)證網(wǎng)絡(luò)的有效性和可信度。利用guided backpropagation[24]技術(shù)提取輸入圖片中梯度顯著的區(qū)域,揭示了網(wǎng)絡(luò)能精準(zhǔn)檢測(cè)美瞳的可解釋性。
作為一種單階段虹膜定位和美瞳檢測(cè)網(wǎng)絡(luò),Iris-BeautyDet算法借鑒了SSD的思想,采用先驗(yàn)框進(jìn)行區(qū)域生成,并利用多層的特征信息,進(jìn)一步提升了虹膜定位和美瞳檢測(cè)的精度。IrisBeautyDet網(wǎng)絡(luò)采用MobileNet作為主干網(wǎng)絡(luò)(backbone),取代原SSD中的VGG16。IrisBeautyDet網(wǎng)絡(luò)共生成6個(gè)具有不同感受野和不同尺度的特征圖,并且將特征圖輸入注意力模塊,以提高網(wǎng)絡(luò)的有用信息提取能力。深層的特征圖具有更大的感受野,能夠提取大尺寸目標(biāo)的語(yǔ)義信息,用于檢測(cè)大尺寸的虹膜和美瞳,而淺層特征圖感受野更小,用于檢測(cè)小尺寸的虹膜和美瞳。與此同時(shí),針對(duì)不同尺度的特征圖需要生成不同尺寸和長(zhǎng)寬比的先驗(yàn)框。
由于正常的虹膜形狀近似呈圓形,因而相應(yīng)的邊界框呈正方形,寬高比為1。然而在真實(shí)場(chǎng)景下,根據(jù)用戶眼睛睜開(kāi)閉合程度的不同,虹膜區(qū)域相應(yīng)的邊界框呈現(xiàn)矮寬型而非高窄型。從數(shù)據(jù)集中隨機(jī)抽取2 000個(gè)樣本的邊界框,統(tǒng)計(jì)其寬高比的分布規(guī)律,發(fā)現(xiàn)其寬高比主要分布在1至2.5之間(如圖1),因此先驗(yàn)框所使用的寬高比設(shè)置為0.5、1.0、1.5、2.0、2.5、3.0。而先驗(yàn)框尺寸的選擇則依據(jù)SSD算法[20]的處理方式,根據(jù)相應(yīng)感受野大小不同,第k層特征層的尺寸Sk的選擇如公式(1),其中Smin=0.2,Smax=0.9。
圖1 邊界框的寬高比統(tǒng)計(jì)Fig.1 Aspect ratio statistics of bounding boxes
下一步,將已提取的特征圖分別送入檢測(cè)模塊。檢測(cè)模塊分為兩個(gè)分支,分別用于計(jì)算虹膜或美瞳的定位信息和置信度信息以得到預(yù)測(cè)框的完整信息。在IrisBeautyDet算法的訓(xùn)練階段計(jì)算損失函數(shù)時(shí),首先需要通過(guò)交并比(intersection of union,IoU)篩選出正樣本,并為正樣本匹配真值框。
先驗(yàn)框經(jīng)過(guò)與真值框匹配之后,得到能匹配的正樣本與未能匹配的負(fù)樣本,由于得到匹配的正樣本數(shù)量較少,正樣本將會(huì)被數(shù)量龐大的負(fù)樣本淹沒(méi),網(wǎng)絡(luò)訓(xùn)練的誤差反向傳播中,正樣本的作用將會(huì)變得微乎其微。因此,在訓(xùn)練過(guò)程中只使用部分置信度排名靠前的負(fù)樣本,將負(fù)樣本數(shù)量限制為正樣本數(shù)量的3倍。根據(jù)文獻(xiàn)[20],使用該難負(fù)樣本挖掘可以使優(yōu)化速度更快,訓(xùn)練更加穩(wěn)定。
之后為正樣本計(jì)算定位損失,為篩選出的正負(fù)樣本計(jì)算置信度損失。本文所采用損失函數(shù)依照SSD算法[20],損失函數(shù)由兩部分加權(quán)求和構(gòu)成,分別是定位損失Lloc和置信度損失Lconf,如公式(2),其中N是正樣本的數(shù)量,本文取α=1。定位損失Lloc用于對(duì)正樣本計(jì)算位置預(yù)測(cè)誤差(公式(3)),包括該樣本的中心點(diǎn)坐標(biāo)(lcx i和lcy i)和邊框的寬高(lw i和lh i)。其中l(wèi)和g分別對(duì)應(yīng)預(yù)測(cè)框和真值框。為了更好地用于訓(xùn)練,計(jì)算誤差之前需要對(duì)真值框數(shù)據(jù)進(jìn)行編碼獲得g?,如公式(4),然后使用smoothL1計(jì)算偏移量的回歸。在定位損失Lloc部分(公式(5)),對(duì)于正樣本計(jì)算相應(yīng)檢測(cè)類別的softmax損失,對(duì)負(fù)樣本計(jì)算背景類別的softmax損失。
采用SPSS 19.0統(tǒng)計(jì)學(xué)軟件對(duì)數(shù)據(jù)進(jìn)行處理,計(jì)數(shù)資料以百分?jǐn)?shù)(%)表示,采用x2檢驗(yàn),以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
IrisBeautyDet網(wǎng)絡(luò)在推理階段,將檢測(cè)階段得出的預(yù)測(cè)框信息輸入到非極大值抑制算法(non-maximum suppression,NMS)中,最終得出模型的虹膜定位預(yù)測(cè)結(jié)果與美瞳檢測(cè)置信度信息。IrisBeautyDet網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。
圖2 IrisBeautyDet算法的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of IrisBeautyDet algorithm
為了避免原始SSD網(wǎng)絡(luò)繁雜的計(jì)算量,減小模型復(fù)雜度并提高計(jì)算速度以應(yīng)用于實(shí)時(shí)場(chǎng)景,對(duì)原始網(wǎng)絡(luò)做輕量化。將主干網(wǎng)絡(luò)VGG16替換為更輕量的MobileNet[21],可以使原網(wǎng)絡(luò)的參數(shù)量(params)、浮點(diǎn)計(jì)算量(FLOPs)大幅降低,因此顯著提高網(wǎng)絡(luò)計(jì)算速度。VGG16網(wǎng)絡(luò)與MobileNet網(wǎng)絡(luò)的參數(shù)對(duì)比如表1所示。
表1 VGG16和MobileNet的對(duì)比Table 1 Comparison of VGG16 and MobileNet
引入MobileNet網(wǎng)絡(luò)之后,雖然顯著減少計(jì)算量并輕量化模型大小,但付出的代價(jià)是模型表達(dá)能力的降低,其表現(xiàn)為模型的準(zhǔn)確率下降。為了有效緩解模型的復(fù)雜度和表達(dá)能力之間的矛盾,本文引入注意力機(jī)制(attention mechanism)。注意力機(jī)制是受人類視覺(jué)機(jī)制的啟發(fā)而提出,它可以看作是一種資源分配優(yōu)化方案,旨在面對(duì)大量低效信息中集中有限數(shù)量的計(jì)算資源來(lái)處理更有價(jià)值更有效的少量信息,因此其也常用于解決信息超載的問(wèn)題。
SE模塊[23]采用全局平均池化來(lái)計(jì)算各通道的權(quán)重,首先通過(guò)Squeeze模塊進(jìn)行全局平均池化得到一個(gè)具有全局感受野的通道分布嵌入,然后經(jīng)過(guò)Excitation模塊。通過(guò)調(diào)整特征圖中各通道的權(quán)重,從而重新線性組合原特征,以提高網(wǎng)絡(luò)的表達(dá)能力。
CBAM模塊[22]由通道注意力模塊(CAM)和空間注意力模塊(SAM)構(gòu)成。通道注意力模塊用于提取通道上的語(yǔ)義信息,它使得網(wǎng)絡(luò)關(guān)注圖片中特征本身的語(yǔ)義信息。與通道注意力模塊不同,空間注意力模塊用于提取輸入特征在空間上的語(yǔ)義信息,使得網(wǎng)絡(luò)更關(guān)注輸入特征中語(yǔ)義信息所在位置。因此通道注意力模塊和空間注意力模塊相互取長(zhǎng)補(bǔ)短,優(yōu)勢(shì)互補(bǔ)。
通道注意力模塊[22]同時(shí)使用了全局最大池化和全局平均池化,之后將池化結(jié)果送入一個(gè)由多層感知機(jī)構(gòu)成的權(quán)值共享網(wǎng)絡(luò),最后使用Sigmoid函數(shù)作為激活層。通道注意力模塊能夠從特征圖的整體出發(fā),不受空間局部性信息的影響,合理引導(dǎo)網(wǎng)絡(luò)去關(guān)注或者抑制在通道維度上的全局性信息。根據(jù)特征可視化實(shí)驗(yàn),guidedbackpropagation結(jié)果說(shuō)明通道注意力模塊通過(guò)編碼通道維度上的注意力,略微提高網(wǎng)絡(luò)對(duì)虹膜和美瞳紋理的感知能力。
空間注意力模塊[22]對(duì)特征圖在通道維度上執(zhí)行平均池化操作和最大池化操作,然后將池化操作結(jié)果在通道維度上進(jìn)行特征融合,經(jīng)過(guò)卷積層后,輸入到Sigmoid激活函數(shù)。因此,空間注意力可以輔助網(wǎng)絡(luò)聚焦到圖像中語(yǔ)義信息最豐富的區(qū)域,同時(shí)也構(gòu)成對(duì)通道注意力的互補(bǔ)。對(duì)特征可視化實(shí)驗(yàn)進(jìn)行對(duì)比分析,guidedbackpropagation可視化結(jié)果證明,空間注意力模塊能夠顯著提高網(wǎng)絡(luò)對(duì)虹膜和美瞳紋理的感知能力,同時(shí)也擴(kuò)大了對(duì)輸入圖片紋理區(qū)域的感知范圍。
本實(shí)驗(yàn)中使用的數(shù)據(jù)集由8 388張虹膜圖片構(gòu)成,其中包含5 000張活體虹膜圖片和3 388張美瞳虹膜的呈現(xiàn)攻擊圖片,在這些對(duì)抗樣本中,美瞳眼鏡的紋理遮擋或疊加在虹膜紋理的全部或部分區(qū)域。其中活體虹膜圖片來(lái)自中科院CASIA-Iris數(shù)據(jù)集,數(shù)據(jù)采集對(duì)象包括各個(gè)年齡階段的成年男性和女性,此外數(shù)據(jù)集中還包含采集對(duì)象佩戴眼鏡而受眼鏡鏡框或者頭發(fā)干擾的圖像,因此本數(shù)據(jù)集具有一定的代表性和多樣性。其中美瞳虹膜圖片中除來(lái)自CASIA-Iris數(shù)據(jù)集外還包括圣母大學(xué)NDCLD數(shù)據(jù)集的1 400份美瞳虹膜數(shù)據(jù),數(shù)據(jù)采集對(duì)象的人種覆蓋歐美和亞洲。數(shù)據(jù)采集所使用的裝置包括OV7725在內(nèi)的多種類型傳感器,美瞳的品牌包括博士倫、海昌和卡洛尼。因此該數(shù)據(jù)集具備一定的豐富性和多樣性,各類別圖片如圖3所示。
圖3 實(shí)驗(yàn)所用虹膜及美瞳數(shù)據(jù)示例Fig.3 Example of iris and cosmetic contact lens data used in experiment
實(shí)驗(yàn)中數(shù)據(jù)集按照8∶2的比例被劃分成訓(xùn)練集和測(cè)試集。訓(xùn)練階段采用的數(shù)據(jù)增強(qiáng)方法包括對(duì)圖像的隨機(jī)水平翻轉(zhuǎn)、圖像的色調(diào)、飽和度和明度的隨機(jī)調(diào)整以及圖像的隨機(jī)縮放和平移,以此來(lái)擴(kuò)展數(shù)據(jù)集,提高模型的泛化能力和魯棒性,降低過(guò)擬合發(fā)生的概率。數(shù)據(jù)集的標(biāo)注采用Python第三方庫(kù)LabelImg,數(shù)據(jù)的標(biāo)簽包括虹膜的位置信息和分類信息并以XML文件的形式保存。其中,位置信息包括標(biāo)注框的左右邊界和上下邊界的坐標(biāo),類別信息包括LiveEye和FakeEye兩類,分別對(duì)應(yīng)活體虹膜和美瞳虹膜。
實(shí)驗(yàn)所使用的平臺(tái)及運(yùn)行環(huán)境配置如表2所示。在模型測(cè)試階段,對(duì)于虹膜定位任務(wù),利用精確率(precision)和召回率(recall)作為模型評(píng)價(jià)衡量指標(biāo)。對(duì)于活體檢測(cè)和呈現(xiàn)攻擊,通常采用正確分類率(correct classification rate,CCR)、攻擊呈現(xiàn)錯(cuò)誤分類率(attack presentation classification error rate,APCER)和真實(shí)呈現(xiàn)錯(cuò)誤分類率(bona fide presentation classification error rate,BPCER)作為評(píng)價(jià)指標(biāo),公式如下:
表2 實(shí)驗(yàn)平臺(tái)及運(yùn)行環(huán)境配置Table 2 Experimental platform and running environment con-figuration
其中,TA和TB分別表示正確分類的攻擊呈現(xiàn)數(shù)量和正確分類的真實(shí)呈現(xiàn)數(shù)量,AP和BP分別表示攻擊呈現(xiàn)的數(shù)量和真實(shí)呈現(xiàn)的數(shù)量,F(xiàn)B表示攻擊呈現(xiàn)中被錯(cuò)誤歸類為真實(shí)呈現(xiàn)的數(shù)量,F(xiàn)A表示真實(shí)呈現(xiàn)中被錯(cuò)誤歸類為攻擊呈現(xiàn)的數(shù)量。
實(shí)驗(yàn)表明,置信度閾值(設(shè)為τ)的不同取值將會(huì)對(duì)模型推理準(zhǔn)確度產(chǎn)生影響,提高置信度閾值,精確率將會(huì)提升,相反召回率將會(huì)相應(yīng)下降。為了兼顧精確率和召回率,實(shí)驗(yàn)采用F1分?jǐn)?shù)作為評(píng)價(jià)最佳置信度閾值的依據(jù)。統(tǒng)計(jì)各個(gè)模型在不同置信度閾值下的活體類和美瞳類的F1分?jǐn)?shù),并求兩者的算術(shù)平均值,統(tǒng)計(jì)結(jié)果如表3。綜合分析各指標(biāo),選擇0.9作為置信度閾值較為合適。
表3 不同置信度閾值下各模型的F1分?jǐn)?shù)結(jié)果對(duì)比Table 3 Comparison of F1 score results of each model under different confidence thresholds
以0.9作為置信度閾值,在測(cè)試集上對(duì)多個(gè)不同模型分別進(jìn)行測(cè)試評(píng)估,統(tǒng)計(jì)分析模型的定位指標(biāo)和美瞳檢測(cè)指標(biāo),統(tǒng)計(jì)結(jié)果如表4和表5所示。在定位階段,原始SSD網(wǎng)絡(luò)具有較高的準(zhǔn)確率和召回率,對(duì)于活體類和美瞳類的準(zhǔn)確率和召回率均達(dá)到97%以上,體現(xiàn)了SSD算法的強(qiáng)大性能。針對(duì)原始SSD網(wǎng)絡(luò)計(jì)算量和參數(shù)量龐大的缺點(diǎn),引入MobileNet網(wǎng)絡(luò)進(jìn)行輕量化。實(shí)驗(yàn)表明,輕量化后能顯著降低計(jì)算量和網(wǎng)絡(luò)參數(shù)量,但付出的代價(jià)是精度的大幅損失。為了在一定程度上提高模型準(zhǔn)確率和召回率,引入兩種注意力機(jī)制,SE模塊和CBAM模塊。實(shí)驗(yàn)表明,引入這兩種注意力機(jī)制對(duì)精確率和召回率都有明顯的提升。消融實(shí)驗(yàn)的結(jié)果表明,引入的CBAM模塊中,空間注意力子模塊(SAM)相比通道注意力子模塊(CAM)具有更好的提升效果。這意味著模型中間層的特征數(shù)據(jù)在空間上的區(qū)分性比通道上的更顯著。最終,引入CBAM模塊的網(wǎng)絡(luò)將CCR從95.71%提升到了98.75%,APCER從5.77%減小到1.06%,BPCER從3.34%減小到1.37%。此外,模型大小從91.1 MB下降到26.1 MB,同時(shí)將處理速度FPS(frames per second)從29.68 frame/s,提升到41.88 frame/s,滿足實(shí)時(shí)應(yīng)用的處理速度。
表4 在τ=0.90條件下各模型的定位結(jié)果對(duì)比Table 4 Comparison of localization results of models with τ=0.90
表5 在τ=0.90條件下各模型的美瞳檢測(cè)結(jié)果對(duì)比Table 5 Comparison of cosmetic contact lens detection results of models with τ=0.90
對(duì)比圖4中不同算法的損失函數(shù)曲線,網(wǎng)絡(luò)輕量化處理后,計(jì)算開(kāi)銷和參數(shù)量的減少可以大大加快網(wǎng)絡(luò)訓(xùn)練階段的收斂速度。同時(shí),注意力機(jī)制的引入會(huì)放緩網(wǎng)絡(luò)損失函數(shù)的收斂速度,避免損失函數(shù)的急劇波動(dòng),利于網(wǎng)絡(luò)充分學(xué)習(xí)到更多特征,使得訓(xùn)練更加穩(wěn)定有效。
圖4 各網(wǎng)絡(luò)模型訓(xùn)練損失曲線Fig.4 Training loss curve of each model
選取本文提出的所有網(wǎng)絡(luò)中性能最佳者,即SSD+MobileNet+CBAM,并將其命名為IrisBeautyDet,其檢測(cè)效果如圖5所示(紅色框和藍(lán)色框分別表示檢測(cè)結(jié)果為美瞳類和活體類)。實(shí)驗(yàn)表明,對(duì)于睫毛遮擋、眼鏡遮擋、鏡片光斑干擾、頭發(fā)遮擋等極端條件,IrisBeautyDet具備一定的抗干擾能力。使用該網(wǎng)絡(luò)模型在測(cè)試集上進(jìn)行測(cè)試實(shí)驗(yàn),通過(guò)選取不同置信度閾值,繪制PR(precision-recall)曲線,如圖6,結(jié)果顯示該網(wǎng)絡(luò)模型活體類與美瞳類的平均精確率(average precision,AP)分別達(dá)到99.86%和99.96%。
圖6 SSD+MobileNet+CBAM的PR曲線Fig.6 PR curve of SSD+MobileNet+CBAM
在計(jì)算機(jī)視覺(jué)的很多領(lǐng)域中,卷積神經(jīng)網(wǎng)絡(luò)雖然都取得了卓越的成功,但是其內(nèi)部機(jī)理和工作機(jī)制以及決策邏輯迄今尚且不能為人類所理解。為解決卷積神經(jīng)網(wǎng)絡(luò)模型中的不可見(jiàn)問(wèn)題,研究人員陸續(xù)提出一系列神經(jīng)網(wǎng)絡(luò)可視化技術(shù),試圖解釋模型學(xué)習(xí)到的內(nèi)容和規(guī)則。本實(shí)驗(yàn)主要采用了guided backpropagation[24]算法進(jìn)行可視化分析??梢暬Y(jié)果如圖7所示,第一、二列是活體類虹膜圖片,第三、四列是虹膜受美瞳的不同類型紋理混淆干擾的圖片,在第五列圖片中,虹膜的部分區(qū)域被不透明美瞳完全遮擋;第一行是原圖,第二行是guided-backpropagation可視化結(jié)果。
圖7 IrisBeautyDet模型的可視化結(jié)果Fig.7 Visualization results of IrisBeautyDet model
可視化實(shí)驗(yàn)結(jié)果顯示,IrisBeautyDet網(wǎng)絡(luò)模型能夠準(zhǔn)確地提取出虹膜紋理中的有效信息,例如虹膜紋理中的褶皺和隱窩,因此能高效準(zhǔn)確地完成美瞳檢測(cè)。相比原圖,guided-backpropagation生成的圖像更加突出地展現(xiàn)出虹膜和美瞳的不同紋理特征模式。其中,虹膜的紋理更加具有隨機(jī)性,紋理的變化更加自然,而美瞳的紋理更加具有規(guī)律性。這表明本網(wǎng)絡(luò)模型對(duì)虹膜的細(xì)粒度特征具有高度敏感性,印證了模型的有效性。此外,不同的注意力機(jī)制對(duì)網(wǎng)絡(luò)的表達(dá)能力具有不同程度的影響。圖8為用guided-backpropagation可視化結(jié)果來(lái)分析四個(gè)不同注意力模塊的影響效果。圖8中的可視化結(jié)果表明,SE模塊和SAM模塊較為顯著地提升了網(wǎng)絡(luò)模型對(duì)在空間維度上分布的微觀特征的提取能力,進(jìn)而提升了模型感知美瞳紋理的能力。當(dāng)網(wǎng)絡(luò)模型同時(shí)使用空間和通道注意力,即采用CBAM模塊時(shí),具有更強(qiáng)的細(xì)粒度紋理提取能力,圖8(b)和圖8(f)的對(duì)比結(jié)果,清晰直觀地展現(xiàn)了CBAM的優(yōu)勢(shì)。同時(shí),該可視化結(jié)果也印證了表4和表5中所反映出的各模型的性能差異。綜上,通道注意力模塊對(duì)本網(wǎng)絡(luò)模型性能影響相對(duì)微弱,但是將通道注意力和空間注意力模塊結(jié)合或者使用SE模塊,都能夠較為顯著地提高模型對(duì)細(xì)粒度小尺度特征的提取能力,進(jìn)一步驗(yàn)證模型的可靠性并揭示其可解釋性。
圖8 不同注意力模塊的guided-backpropagation可視化效果Fig.8 Visualization of guided-backpropagation with different attention modules
本文提出了一種基于SSD的網(wǎng)絡(luò)模型IrisBeautyDet,能夠?qū)崿F(xiàn)單階段端到端的快速虹膜定位與美瞳檢測(cè)。引入MobileNet網(wǎng)絡(luò)對(duì)模型進(jìn)行輕量化,將模型大小從91.1 MB下降到26.1 MB,同時(shí)將檢測(cè)速度從29.68 frame/s提高到41.88 frame/s。通過(guò)添加注意力機(jī)制,克服了由于參數(shù)量減少造成的特征提取能力不足的問(wèn)題,保持原有的高精確率和高召回率。實(shí)驗(yàn)表明,本模型在眼鏡遮擋和鏡片光斑等嚴(yán)苛條件下,仍擁有一定的魯棒性,對(duì)復(fù)雜條件具備較強(qiáng)的抗干擾性。IrisBeautyDet檢測(cè)活體類和美瞳類的平均精確率分別達(dá)到99.86%和99.96%,在置信度閾值選取為0.9的條件下,活體類的精確率和美瞳類的召回率(實(shí)際應(yīng)用中活體檢測(cè)更需關(guān)注精確率,美瞳檢測(cè)更需關(guān)注召回率)分別達(dá)到了99.21%和99.09%。Guided-backpropagation可視化實(shí)驗(yàn)也進(jìn)一步表明,本模型具備有效提取虹膜信息并準(zhǔn)確完成定位與美瞳檢測(cè)的能力,充分驗(yàn)證了本模型的有效性和實(shí)用性;此外也表明,注意力機(jī)制可以通過(guò)提高模型對(duì)美瞳和虹膜紋理的特征提取能力來(lái)提高模型準(zhǔn)確率,其中SE模塊和CBAM模塊的改進(jìn)效果較為顯著。綜上,本文提出的虹膜定位和美瞳檢測(cè)網(wǎng)絡(luò)IrisBeautyDet為虹膜識(shí)別系統(tǒng)的安全性提供了支撐,具有一定的應(yīng)用前景。