田會(huì)娟,翟佳豪,柳建新,劉嘉偉,鄧琳琳
(1 天津工業(yè)大學(xué)電氣與電子工程學(xué)院天津市光電檢測(cè)技術(shù)與系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,天津300387)
(2 大功率半導(dǎo)體照明應(yīng)用系統(tǒng)教育部工程研究中心,天津300387)
(3 天津成科傳動(dòng)機(jī)電技術(shù)股份有限公司,300384)
虹膜紋理以其獨(dú)特穩(wěn)定、非接觸和防偽的特點(diǎn)在國(guó)防和安全領(lǐng)域發(fā)揮著重要作用[1-3]。一個(gè)完整的虹膜識(shí)別系統(tǒng)通常包括:1)通過(guò)成像設(shè)備獲得虹膜圖像;2)通過(guò)虹膜分割算法定位虹膜區(qū)域;3)通過(guò)特征提取算法提取虹膜特征;4)將提取的虹膜特征用于虹膜識(shí)別。其中虹膜分割在虹膜識(shí)別系統(tǒng)中具有重要意義,算法的準(zhǔn)確性和魯棒性直接影響后續(xù)的虹膜提取、驗(yàn)證和識(shí)別[4]。理想條件下的虹膜圖像清晰、無(wú)遮擋,當(dāng)前多數(shù)的虹膜分割算法可以準(zhǔn)確地分割虹膜區(qū)域。然而,在虹膜圖像像素低、光照不均勻、睫毛或眼瞼遮擋、鏡面反射等非理想條件下,設(shè)計(jì)魯棒性強(qiáng)的虹膜分割算法來(lái)精確分割虹膜區(qū)域仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[5]在圖像分類、分割、識(shí)別等方面的廣泛應(yīng)用,研究人員開始嘗試將深度學(xué)習(xí)用于圖像分割。2015年,LONG J 等[6]在CNN 的基礎(chǔ)上提出全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)來(lái)進(jìn)行語(yǔ)義級(jí)別的圖像分割,隨后各種語(yǔ)義分割網(wǎng)絡(luò)紛紛出現(xiàn)。當(dāng)前經(jīng)常使用且性能較好的語(yǔ)義分割網(wǎng)絡(luò)有U-Net[7],SegNet[8],PSPNet[9]以及Deeplabv3[10]等,其中U-Net 網(wǎng)絡(luò)被廣泛用于醫(yī)學(xué)圖像分割領(lǐng)域。JALILIAN E 等[11]最早將深度學(xué)習(xí)方法應(yīng)用在虹膜分割領(lǐng)域,他們提出了三種基于FCNs 的虹膜分割網(wǎng)絡(luò)結(jié)構(gòu),并將其命名為全卷積編解碼網(wǎng)絡(luò)(FCEDNs),實(shí)驗(yàn)結(jié)果表明FCEDNs 優(yōu)于傳統(tǒng)算法。ZHOU W 等[12]對(duì)U-Net 原網(wǎng)絡(luò)進(jìn)行改進(jìn),提出了適用于異質(zhì)虹膜分割的神經(jīng)網(wǎng)絡(luò)模型PI-Unet,在CASIA-v4 和UBIRIS.v2 虹膜數(shù)據(jù)庫(kù)上的Miou 分別達(dá)到97.50%和95.95%。ZHANG W 等[13]將U-Net 與空洞卷積結(jié)合,提出FD-Unet 用于虹膜分割,在CASIAIris-intervel 和UBIRIS.v2 上的F1socre 分別達(dá)到了97.36% 和94.81%。YANG Y 等[14]提出了一種結(jié)合FCN 和擴(kuò)張卷積分割虹膜的網(wǎng)絡(luò)模型,并在CASIA-iris-interval-v4.0、UBIRIS.v2 和IITD Delhi 數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試,準(zhǔn)確率分別為98.6%、98.4%和95.7%。ARSALAN M 等[15]在SegNet-basic 的基礎(chǔ)上提出的IrisDenseNet,用5 個(gè)密集塊代替原編碼器的VGG16,以更好的信息梯度流檢測(cè)出準(zhǔn)確的虹膜邊界。
基于深度學(xué)習(xí)的虹膜分割算法在分割成像質(zhì)量高、虹膜特征清晰、虹膜區(qū)域位于圖像中間位置的高質(zhì)量虹膜圖像時(shí)均具有各自的優(yōu)勢(shì),但在非限制的條件下算法的性能會(huì)受到一定影響,尤其是在分割普通攝像頭下采集到的圖像像素低、模糊、尺度不一、睫毛遮擋、反射光斑等低質(zhì)量虹膜圖像時(shí)精度不高。針對(duì)上述問(wèn)題,本文提出了一種基于SRN-UNet的低質(zhì)量虹膜分割算法。該算法對(duì)U-Net 的編碼器模塊進(jìn)行了改進(jìn),編碼器模塊根據(jù)ResNet50[16]進(jìn)行設(shè)計(jì),引入ResNext[17]模塊替代ResNet 模塊,并在該模塊后級(jí)聯(lián)SENet模塊[18],通過(guò)壓縮、激勵(lì)以及權(quán)重的重新分配,從特征通道相關(guān)性的角度出發(fā)構(gòu)建網(wǎng)絡(luò)模型,選擇性地強(qiáng)調(diào)重要特征并抑制非重要特征,從特征通道之間的全局信息關(guān)系方面進(jìn)一步提升虹膜分割的準(zhǔn)確率。
基于SRN-UNet 虹膜分割算法模型如圖1所示。本文所提SRN-UNet 網(wǎng)絡(luò)基于U-Net 進(jìn)行改進(jìn),主要由預(yù)處理、編碼器、解碼器和跳層拼接四部分構(gòu)成[19]。預(yù)處理可將輸入圖像的通道數(shù)加深為64。編碼器包括Res-block 模塊和下采樣層,每個(gè)Res-block 模塊分別由3、4、6、3 個(gè)SE-ResNext 模塊串聯(lián)構(gòu)成。SE-ResNext 模塊由ResNext 模塊級(jí)聯(lián)SENet 模塊組成,其中ResNext 模塊可在不增加網(wǎng)絡(luò)參數(shù)的情況下提升網(wǎng)絡(luò)性能;SENet 模塊通過(guò)壓縮、激勵(lì)以及權(quán)重的重新分配,從特征通道相關(guān)性的角度出發(fā)構(gòu)建網(wǎng)絡(luò)模型,對(duì)于低質(zhì)量虹膜圖像,該模塊可在一定程度上激勵(lì)有用的特征,抑制無(wú)用的特征,提升虹膜分割精度。在每一個(gè)Res-block 模塊后都添加一個(gè)大小為2×2,步長(zhǎng)為2 的最大池化層進(jìn)行下采樣,目的是增大深層特征感受野,確保特征描述具有一定的全局性。解碼器由卷積塊和上采樣層構(gòu)成,和U-Net 不同的是,本文去掉了解碼部分的一個(gè)3×3 卷積層,減少了計(jì)算量和參數(shù)量,簡(jiǎn)化了模型。上采樣層是一個(gè)大小為2×2,步長(zhǎng)為2 的反卷積層,上采樣操作后會(huì)造成一部分虹膜信息損失,所以將上采樣之后的特征圖與對(duì)應(yīng)的具有相同分辨率的編碼器特征圖進(jìn)行跳層拼接。最后通過(guò)1×1 的全連接層以及Softmax 激活函數(shù)對(duì)虹膜與背景圖像進(jìn)行分類,輸出虹膜分割結(jié)果。
圖1 SRN-UNet 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Overall network structure of SRN-UNet
為了更準(zhǔn)確地完成虹膜圖像分割任務(wù),本文提出了ResNext 級(jí)聯(lián)SENet 的SE-ResNext 網(wǎng)絡(luò)結(jié)構(gòu)作為SRN-UNet 網(wǎng)絡(luò)編碼階段的基本模塊,圖2 為SE-ResNext 模塊的網(wǎng)絡(luò)結(jié)構(gòu)。首先通過(guò)模塊中的分組卷積操作提取x的特征并進(jìn)行合并,得到通道為32 的特征圖。其次通過(guò)采用全局平均池化函數(shù)來(lái)完成壓縮操作,以獲得1×1×C的實(shí)數(shù)列。然后對(duì)1×1×C的實(shí)數(shù)列進(jìn)行兩級(jí)全連接(Full Connection,F(xiàn)C),對(duì)通道重新加權(quán)校準(zhǔn),捕獲通道之間的相互依賴性從而獲得比例因子。最后把通過(guò)激活函數(shù)Sigmoid 的輸出作為一個(gè)縮放尺度乘到原輸入的各個(gè)通道上,完成對(duì)特征的重新標(biāo)定。
圖2 SE-ResNext 模塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of SE-ResNext module
ResNext[17]結(jié)構(gòu)最早應(yīng)用于圖像分類領(lǐng)域,是在ResNet 基礎(chǔ)上進(jìn)行的優(yōu)化。與ResNet 相比,ResNext提出了分組卷積的策略,將殘差學(xué)習(xí)由單路徑卷積擴(kuò)展成多路徑分組卷積,多路徑分組卷積遵循分割、轉(zhuǎn)換、合并范式,輸入數(shù)據(jù)會(huì)被分別送入數(shù)量為分支基數(shù)(Cardinality)的多路徑中,各路徑獨(dú)立進(jìn)行卷積計(jì)算,并將結(jié)果以通道為基準(zhǔn)進(jìn)行連接,其特點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、參數(shù)少、準(zhǔn)確率高、便于移植。圖3 列出了ResNet 和ResNext 的基本單元,其中Path 表示分組數(shù)。
圖3 ResNet 和ResNext 的基本單元Fig.3 The basic unit of ResNet and ResNext
ResNext 網(wǎng)絡(luò)的具體計(jì)算公式如式(1)所示。其中x表示輸入特征,Ti(x)可以為任意函數(shù),在此處表示三個(gè)卷積層的堆疊,C為網(wǎng)絡(luò)輸入寬度。
在使用ResNext 網(wǎng)絡(luò)進(jìn)行特征提取時(shí),一些通道上的無(wú)效信息可能會(huì)被保留,影響虹膜分割準(zhǔn)確率的提升。針對(duì)此問(wèn)題,本文引入SENet[18],對(duì)于低質(zhì)量虹膜圖像,可以使模型聚焦于具有更多有效特征信息的通道,提升虹膜分割的精度。SENet網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 SENet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of SENet
圖4 中,左側(cè)為H’×W’×C’的特征圖,經(jīng)過(guò)一系列卷積操作Ftr之后,得到H×W×C大小的特征圖。為得到輸入特征圖各通道的權(quán)重,SENet將進(jìn)行壓縮(Squeeze)和激勵(lì)(Excitation)兩步操作。首先進(jìn)行全局平均池化(Golbal Average Pooling,GAP),對(duì)每個(gè)特征通道在空間維度H×W上進(jìn)行壓縮(Squeeze),其計(jì)算公式為
式中,Z代表壓縮操作生成的權(quán)重。
然后執(zhí)行激勵(lì)操作(Excitation),對(duì)1×1×C的輸入通過(guò)兩個(gè)全連接層結(jié)合ReLU 函數(shù)建立各通道之間的相關(guān)性。為減少參數(shù)量、提高泛化能力,第一個(gè)全連接層將參數(shù)降維r倍,本文中r取16,再經(jīng)過(guò)一個(gè)全連接層得到原來(lái)的維度C。激勵(lì)操作的計(jì)算過(guò)程可表示為
式中,δ表示ReLU 函數(shù),σ表示Sigmoid 函數(shù),Sc表示生成的通道注意力權(quán)重。
最后,將權(quán)重Sc加入到原始的特征通道中,其計(jì)算公式為
式中,?代表逐元素相乘,代表經(jīng)過(guò)SENet 處理輸出的特征圖。
本文選用的數(shù)據(jù)集由兩部分組成。第一部分為近紅外虹膜圖像,來(lái)源于中國(guó)科學(xué)院自動(dòng)化所虹膜數(shù)據(jù)庫(kù)(CASIA iris image database,CASIA-Iris)[20]。分別從CASIA-Iris 的子數(shù)據(jù)庫(kù)CASIA-IrisV2,CASIAIrisV3 以及CASIA-IrisV4 中各選取900 張虹膜圖像,每張虹膜圖像的尺寸為640 pixel×480 pixel。第二部分為低質(zhì)量虹膜圖像,通過(guò)筆記本電腦前置攝像頭采集并裁剪出5 名成員在復(fù)雜光照環(huán)境下不同姿態(tài)各100 張低質(zhì)量虹膜圖像。共計(jì)選用虹膜圖像3 200 張,數(shù)據(jù)集中部分樣本如圖5所示。
圖5 數(shù)據(jù)集樣本展示Fig.5 Data set sample display
將數(shù)據(jù)集按照9∶1 的比例劃分為訓(xùn)練集和測(cè)試集,采用labelme 軟件對(duì)樣本標(biāo)簽進(jìn)行標(biāo)定,部分?jǐn)?shù)據(jù)集及標(biāo)注如圖6所示。
圖6 部分?jǐn)?shù)據(jù)集及對(duì)應(yīng)標(biāo)注Fig.6 Part of the data set and corresponding annotations
為了增強(qiáng)模型的泛化能力,減少過(guò)擬合現(xiàn)象,以不發(fā)生圖像形變?yōu)榍疤釋?duì)虹膜圖像進(jìn)行亮度增強(qiáng)、噪聲擾動(dòng)、隨機(jī)縮放,將訓(xùn)練集擴(kuò)充為原來(lái)的4 倍。最后將輸入網(wǎng)絡(luò)訓(xùn)練前的虹膜圖像統(tǒng)一裁剪成320 pixel×320 pixel 的固定大小。
在圖像分割任務(wù)中,常采用的損失函數(shù)為交叉熵?fù)p失函數(shù)(Cross Entropy Loss)。為了解決圖像正負(fù)類別不均衡的問(wèn)題,本文結(jié)合兩種損失函數(shù)Dice Loss[21]和Focal Loss[22]訓(xùn)練SRN-UNet 網(wǎng)絡(luò),其損失函數(shù)為
式中,c表示某個(gè)特定的類別,TPp(c)、FNp(c)、FPp(c)分別為類別的真陽(yáng)性率、假陰性率、假陽(yáng)性率,pn(c)是像素n為c類的預(yù)測(cè)概率;gn(c)是像素n為c類的真實(shí)情況;C為總類別數(shù);N為總像素?cái)?shù)量;α和β分別為假陰性和假陽(yáng)性的懲罰權(quán)重,均設(shè)置為0.5;λ為Dice Loss 和Focal Loss 之間的權(quán)重,設(shè)置為0.5。
本文實(shí)驗(yàn)環(huán)境基于深度學(xué)習(xí)框架Keras 結(jié)合Python 編程語(yǔ)言進(jìn)行搭建。計(jì)算機(jī)配置如下:處理器為Intel Corei7-6 800 K;GPU 為NVIDIA GeForce GTX 1080Ti,11 GB 內(nèi)存;系統(tǒng)內(nèi)存32 GB。采用Adam 算法優(yōu)化損失函數(shù),初始學(xué)習(xí)率設(shè)為0.001,批量大小為16,訓(xùn)練迭代次數(shù)為100。訓(xùn)練時(shí),若10 次迭代后loss仍不下降,則停止訓(xùn)練,防止模型過(guò)擬合。
為了評(píng)估本文所提算法的分割效果,從主觀評(píng)價(jià)和客觀評(píng)價(jià)兩方面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比與分析。主觀評(píng)價(jià)主要從視覺(jué)效果上比較圖像的整體分割及微弱邊緣的分割情況??陀^評(píng)價(jià)采用圖像分割中常用的平均交并比(Miou)、F1 分?jǐn)?shù)(F1 score)、精確率(Precision)作為評(píng)價(jià)指標(biāo),計(jì)算公式分別為
2.4.1 不同損失函數(shù)對(duì)比分析
本文研究了損失函數(shù)對(duì)虹膜分割網(wǎng)絡(luò)性能的影響。針對(duì)圖像分割中常用的交叉熵?fù)p失函數(shù)與本文選用的Dice Loss+ Focal Loss 混合損失函數(shù)進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示??梢钥闯觯疚倪x用的混合損失函數(shù)分割效果優(yōu)于交叉熵?fù)p失函數(shù)。其原因在于虹膜在圖像上面積占比較小,采用交叉熵?fù)p失函數(shù)訓(xùn)練網(wǎng)絡(luò),易受背景區(qū)域影響,難以學(xué)習(xí)虹膜特征,使訓(xùn)練效果降低?;旌蠐p失函數(shù)可在網(wǎng)絡(luò)反向傳播過(guò)程中對(duì)難以學(xué)習(xí)的樣本進(jìn)行穩(wěn)定且有針對(duì)的優(yōu)化,通過(guò)Focal Loss 降低了易分類樣本的權(quán)重,使模型更好地關(guān)注難分類樣本,保留復(fù)雜的邊界細(xì)節(jié);通過(guò)Dice Loss 解決像素類別不平衡問(wèn)題,在一定程度上緩解Focal Loss 帶來(lái)的噪聲,提升模型的分割精度。
表1 不同損失函數(shù)分割性能對(duì)比Table 1 Comparison of segmentation performance of different loss functions
2.4.2 網(wǎng)絡(luò)運(yùn)行時(shí)間對(duì)比
本文統(tǒng)計(jì)了本文算法和U-Net 算法在Batch 尺寸分別為10、20、50 時(shí)的網(wǎng)絡(luò)運(yùn)行時(shí)間,實(shí)驗(yàn)結(jié)果如表2所示??梢钥闯?,本文算法的運(yùn)行時(shí)間低于U-Net 算法,當(dāng)Batch 達(dá)到50 次時(shí),本文算法運(yùn)行時(shí)間比U-Net縮短了30.95%,有效提高了網(wǎng)絡(luò)的運(yùn)行速度。
表2 網(wǎng)絡(luò)運(yùn)行所需時(shí)間(s)Table 2 Time required for network operation(s)
2.4.3 不同算法性能比較
不同算法的分割結(jié)果如圖7 和圖8所示,圖7 為不同算法在測(cè)試集中的近紅外虹膜圖像上的分割結(jié)果,圖8 為不同算法在測(cè)試集中的低質(zhì)量虹膜圖像上的分割結(jié)果。其中第1 列為虹膜圖像,第2 列為虹膜圖像標(biāo)簽,第3 列至第7 列分別為U-Net 算法、SegNet 算法、PSPNet 算法、Deeplabv3 算法以及本文所提算法的分割結(jié)果。
圖7 不同算法在近紅外虹膜圖像的預(yù)測(cè)結(jié)果Fig.7 The prediction results of different algorithms for near-infrared iris images
圖8 不同算法在低質(zhì)量虹膜圖像上的預(yù)測(cè)結(jié)果Fig.8 The prediction results of different algorithms for low-quality iris images
實(shí)驗(yàn)結(jié)果顯示,由于近紅外虹膜圖像成像質(zhì)量高、虹膜輪廓明顯,各種算法均取得較好的分割結(jié)果,對(duì)于數(shù)據(jù)集中的低質(zhì)量虹膜圖像,U-Net、SegNet、PSPNet 分割效果較差,Deeplabv3 算法出現(xiàn)了不同程度的過(guò)分割現(xiàn)象,且邊界分割較粗糙,相比之下,本文算法的虹膜分割內(nèi)外邊界更加平滑、分割結(jié)果更接近于真實(shí)標(biāo)簽。
盡管主觀評(píng)價(jià)簡(jiǎn)單直接,但其容易受主觀因素影響,因此仍需對(duì)分割結(jié)果進(jìn)行定量評(píng)價(jià),表3 展示了不同虹膜分割算法的定量評(píng)價(jià)結(jié)果,可以看出SRN-UNet 在三項(xiàng)評(píng)價(jià)指標(biāo)上的表現(xiàn)均優(yōu)于其它算法,其在測(cè)試集的平均交并比達(dá)到了95.19%,F(xiàn)1 分?jǐn)?shù)達(dá)到了97.48%,精確率達(dá)到了97.82%,與U-Net 原始網(wǎng)絡(luò)相比分別提高了4.20%、2.27%、5.38%。綜上所述,本文提出的SRN-UNet 網(wǎng)絡(luò)在虹膜分割性能方面有很大的提升,且更加適用于低質(zhì)量虹膜圖像的分割。
表3 不同虹膜分割算法結(jié)果對(duì)比Table 3 Comparison of different iris segmentation algorithms
2.4.4 各模塊對(duì)整體模型的影響
為了驗(yàn)證各個(gè)模塊對(duì)整體模型的影響,對(duì)U-Net網(wǎng)絡(luò)、增加ResNext模塊的U-Net網(wǎng)絡(luò)、增加SENet模塊的U-Net 網(wǎng)絡(luò)以及SRN-UNet 網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。U-Net 作為原始網(wǎng)絡(luò),其平均交并比為91.02%,F(xiàn)1 分?jǐn)?shù)為95.20%,精確率為92.51%;分別增加ResNext模塊和SENet模塊的U-Net網(wǎng)絡(luò)的3 項(xiàng)評(píng)價(jià)指標(biāo)均有不同程度提高;當(dāng)聚合各個(gè)模塊后,其平均交并比為95.19%,F(xiàn)1 分?jǐn)?shù)為97.48%,精確率為97.82%,相比于U-Net原始網(wǎng)絡(luò),各項(xiàng)指標(biāo)分別提升了4.17%、2.28%、5.31%。
表4 各個(gè)模塊對(duì)整體模型的影響Table 4 Influence of each module on whole model
虹膜分割是虹膜識(shí)別系統(tǒng)中一個(gè)關(guān)鍵部分,虹膜分割是否準(zhǔn)確將直接影響整個(gè)虹膜識(shí)別系統(tǒng)的性能。為了提高低質(zhì)量虹膜圖像的分割精度,本文提出了一種基于SRN-UNet的虹膜分割算法。該算法采用ResNext 級(jí)聯(lián)SENet 的SE-ResNext 作為編碼器的基礎(chǔ)模塊,對(duì)低質(zhì)量虹膜圖像具有更強(qiáng)的特征提取能力。同時(shí)對(duì)解碼器進(jìn)行了修改,降低了模型的參數(shù)量,更加適合模型訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,所提算法的3 項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于其它4 類對(duì)比算法,其中平均交并比達(dá)到了95.19%,F(xiàn)1 分?jǐn)?shù)達(dá)到了97.48%,精確率達(dá)到了97.82%,相比于U-Net 算法分別提升了4.20%、2.27%、5.38%。所提算法對(duì)低質(zhì)量虹膜圖像具有更高的分割精度,與傳統(tǒng)的U-Net 網(wǎng)絡(luò)相比整體性能較優(yōu),分割結(jié)果可觀,且運(yùn)行速度高于U-Net。