周衛(wèi)斌,王 陽,吉書林
(天津科技大學(xué)電子信息與自動(dòng)化學(xué)院,天津 300222)
近年來,信息技術(shù)飛速發(fā)展、智能設(shè)備不斷普及,指紋識(shí)別[1]、人臉識(shí)別[2]、虹膜識(shí)別[3]、語音識(shí)別[4]等身份識(shí)別技術(shù)早已應(yīng)用于日常生活中的各個(gè)方面.然而,單模態(tài)生物特征識(shí)別技術(shù)在實(shí)際應(yīng)用中不僅受外部環(huán)境的影響,還受自身局限性的影響,極大地限制了其應(yīng)用場景,降低了身份識(shí)別的準(zhǔn)確率.例如,指紋破損或者沾水會(huì)降低指紋識(shí)別的準(zhǔn)確率;佩戴口罩會(huì)降低人臉識(shí)別的準(zhǔn)確率;佩戴眼鏡會(huì)降低虹膜識(shí)別的準(zhǔn)確率.因此,雙模態(tài)融合識(shí)別對于彌補(bǔ)單一生物特征識(shí)別的缺陷、提高身份識(shí)別的準(zhǔn)確率、增強(qiáng)信息的安全性具有重要意義.相比于三模態(tài)、四模態(tài)等多模態(tài)的生物識(shí)別方法[5],指靜脈和人臉的雙模態(tài)識(shí)別不僅減少了計(jì)算量、降低了算法復(fù)雜度,還使體內(nèi)生物特征(指靜脈)與體外生物特征(人臉)的優(yōu)勢得以互補(bǔ),打破了單一生物特征識(shí)別的應(yīng)用局限,提高了身份信息的安全性和身份識(shí)別的準(zhǔn)確率.
雙模態(tài)生物特征識(shí)別技術(shù)是融合兩種單一生物特征作為新的特征進(jìn)行識(shí)別的方法[6].指靜脈和人臉屬于兩種不同的生物特征,根據(jù)融合發(fā)生的位置不同,可分為數(shù)據(jù)層融合、特征層融合、匹配層融合和決策層融合,如圖1所示.
圖1 雙模態(tài)生物特征融合框圖 Fig. 1 Block diagram of bimodal biological feature fusion
數(shù)據(jù)層融合屬于最低層次的融合[7];匹配層融合又稱分?jǐn)?shù)層融合,不同樣本經(jīng)匹配層得到與模板庫的匹配分?jǐn)?shù),經(jīng)過歸一化處理后進(jìn)行匹配分?jǐn)?shù)融合[8];決策層融合類似投票表決機(jī)制,對不同樣本的決策結(jié)果(接受/拒絕)進(jìn)行融合[9];特征層融合發(fā)生在特征提取模塊,不同樣本經(jīng)過特征提取獲得各自的特征向量,然后將特征向量通過特征串聯(lián)、級(jí)聯(lián)等方式拼接成一個(gè)新的特征向量,將新的特征向量作為生物識(shí)別系統(tǒng)的輸入進(jìn)行匹配和決策[10].特征層具有豐富的有效特征信息,是眾多學(xué)者研究的熱點(diǎn).例如,Yang等[11]利用統(tǒng)一的Gabor濾波器框架提取指紋和指靜脈特征,提出一種新的監(jiān)督局部保持典型相關(guān)分析方法(SLPCCAM),用于生成特征層融合的指紋指靜脈特征向量(FPVFVs);只使用一個(gè)數(shù)據(jù)庫對該方法的性能進(jìn)行評(píng)估,在實(shí)際應(yīng)用中具有很大的局限性. Veluchamy等[12]提出將指關(guān)節(jié)和手指靜脈進(jìn)行特征層融合,并采用支持向量機(jī)(SVM)分類器進(jìn)行多模態(tài)生物識(shí)別,但是該方法在特征融合后產(chǎn)出的新特征向量的維數(shù)過高.Pan等[13]提出一種基于核Fisher判別分析(KFDA)方法,并結(jié)合平均規(guī)則、加權(quán)求和規(guī)則和乘法規(guī)則實(shí)現(xiàn)人臉和人耳的特征層融合,但是該方法同樣也出現(xiàn)了“維度災(zāi)難”現(xiàn)象.
近年來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)的發(fā)展在生物識(shí)別系統(tǒng)中產(chǎn)生了非常大的影響,并取得了優(yōu)異的成 果[14].傳統(tǒng)算法提取圖像特征需要大量手工標(biāo)注,而卷積神經(jīng)網(wǎng)絡(luò)對圖像逐像素卷積的方式,能夠快速、高效地提取到圖像多尺度特征.
在眾多的生物特征中,人臉圖像是最自然、最明顯的個(gè)人識(shí)別特征;指靜脈是體內(nèi)生物特征,不易被損壞、偽造和復(fù)制,并且每個(gè)人、每個(gè)手指之間指靜脈特征都具有差異,具有極高的安全特性[15].鑒于卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和圖像特征提取任務(wù)中的出色表現(xiàn),本文融合指靜脈和人臉特征,提出一種高效的雙模態(tài)生物識(shí)別方法.首先獲取指靜脈圖像和人臉圖像的感興趣區(qū)域(ROI),并針對指靜脈圖像數(shù)據(jù)規(guī)模較小的問題,采用數(shù)據(jù)增強(qiáng)方法用于擴(kuò)充數(shù)據(jù).然后將指靜脈和人臉ROI圖像輸入到雙通道卷積神經(jīng)網(wǎng)絡(luò)中提取圖像特征.在全連接層之前,根據(jù)各特征的置信度分配權(quán)重,并進(jìn)行特征融合,形成新的特征用于身份識(shí)別.該方法的實(shí)現(xiàn)過程如圖2所示.
圖2 雙通道卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖 Fig. 2 Structure diagram of two-channel convolutional neural network
在圖像分類識(shí)別領(lǐng)域,特征提取網(wǎng)絡(luò)的好壞直接決定著識(shí)別結(jié)果的準(zhǔn)確率.AlexNet網(wǎng)絡(luò)是一種簡單的卷積神經(jīng)網(wǎng)絡(luò),共有8層,其中前5層用于特征提取[16].相對較淺的網(wǎng)絡(luò)層數(shù)決定了AlexNet網(wǎng)絡(luò)的準(zhǔn)確率較低.VGG網(wǎng)絡(luò)通過堆疊多個(gè)尺寸為3×3的卷積核來代替大尺度卷積核,并且與大尺度卷積核擁有相同的感受野.VGG-19網(wǎng)絡(luò)有19層,前16層用于特征提取[17].相比于前兩種傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),MobileNet網(wǎng)絡(luò)內(nèi)存需求小、運(yùn)算量小,可以部署到移動(dòng)設(shè)備以及嵌入式設(shè)備上.MobileNetV2網(wǎng)絡(luò)引入深度可分離卷積,由逐通道卷積和逐點(diǎn)卷積組成,減少了模型參數(shù)和運(yùn)算成本[18].此外,MobileNetV2網(wǎng)絡(luò)使用反向殘差結(jié)構(gòu),在增加網(wǎng)絡(luò)層數(shù)的同時(shí),也使特征表達(dá)能力得到增強(qiáng).
本文提出的雙模態(tài)特征融合方法在特征層采用雙通道卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)特征融合,其實(shí)現(xiàn)過程如圖3所示.
圖3 雙模態(tài)特征融合框架 Fig. 3 Framework of bimodal feature fusion
整體框架分3個(gè)模塊:特征提取模塊、特征融合模塊和分類識(shí)別模塊.在特征提取模塊之前,對指靜脈圖像和人臉圖像進(jìn)行預(yù)處理,預(yù)處理過程包括對指靜脈圖像感興趣區(qū)域進(jìn)行截取、數(shù)據(jù)增強(qiáng)和數(shù)據(jù)擴(kuò)容.每個(gè)生物特征都被輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中,經(jīng)過多層卷積層和池化層,提取圖像的特征信息,得到指靜脈特征(Fv_feature)和人臉特征(Face_feature). 特征融合模塊是該框架的核心模塊.將經(jīng)過特征提取模塊后的指靜脈特征和人臉特征進(jìn)行卷積操作降維,再經(jīng)過Softmax層,分別得到自注意力權(quán)重,并與特征提取所得到的特征相乘;將兩特征融合到一起,得到指靜脈與人臉的融合特征(Fv+Face_feature);經(jīng)過特征提取后得到更深層的融合特征(Fusion_feature).為防止在特征融合時(shí)出現(xiàn)部分特征信息丟失的情況,將特征提取后的指靜脈特征、人臉特征、融合特征三者再次融合到一起.兩次融合保證了特征信息最大化.最后經(jīng)過全連接層進(jìn)行分類識(shí)別.
本文分別選擇AlexNet網(wǎng)絡(luò)、VGG-19網(wǎng)絡(luò)和MobileNetV2網(wǎng)絡(luò)的特征層,用于提取指靜脈和人臉圖像特征,作為特征融合模塊的輸入.為避免在融合模塊出現(xiàn)過擬合現(xiàn)象和減少融合后的運(yùn)算量,本文采用自適應(yīng)均值池化的方法和Dropout技術(shù).
實(shí)驗(yàn)軟件環(huán)境:Python3.8、CUDA11.0、cuDNN 8.0、Pytorch1.7.1、Ubuntu18.04;硬件平臺(tái):NVIDIA GeForce RTX 2080 Ti GPU.
為了驗(yàn)證本文所提出的雙模態(tài)特征融合方法的有效性,同時(shí)表明它與單模態(tài)生物特征識(shí)別的優(yōu)勢,實(shí)驗(yàn)過程選用指靜脈公開數(shù)據(jù)集SDUMLA-FV[19]和Finger Vein USM(FV-USM)[20]、人臉公開數(shù)據(jù)集CASIA-WebFace[21],對本文提出的雙模態(tài)特征融合方法的有效性進(jìn)行測試,并與單模態(tài)生物特征識(shí)別方法進(jìn)行對比.
SDUMLA-FV數(shù)據(jù)集是由山東大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)室創(chuàng)建,包含106人的左、右手的食指、中指和無名指中每根手指的6張指靜脈圖像,共636類手指圖像,總計(jì)3816張.FV-USM數(shù)據(jù)集是馬來西亞理工大學(xué)創(chuàng)建,包含123人的左、右手的食指和中指中每根手指的6張圖像,共492類手指圖像,總計(jì)2952張.FV-USM數(shù)據(jù)集提供了已經(jīng)截取好的ROI圖像,為后續(xù)指靜脈圖像的預(yù)處理提供了方便.CASIA-WebFace數(shù)據(jù)集是應(yīng)用于人臉識(shí)別領(lǐng)域最廣泛的公開數(shù)據(jù)集之一,該數(shù)據(jù)集收集了網(wǎng)絡(luò)上的人臉圖像,共10575類,494414張圖像.在實(shí)驗(yàn)中,根據(jù)指靜脈圖像的類別數(shù),隨機(jī)從人臉數(shù)據(jù)集中選擇相同的類別數(shù).
由于SDUMLA-FV數(shù)據(jù)集沒有提供指靜脈的ROI圖像,所以需要對該數(shù)據(jù)集中圖像進(jìn)行ROI的截取,以去除過多的背景無用信息.采用Prewitt邊緣檢測算子對指靜脈原圖垂直方向上的上下邊緣進(jìn)行邊緣檢測,對于存在偽邊緣的現(xiàn)象,通過設(shè)置連通域閾值去除偽邊緣.使用最小二乘法線性回歸擬合手指的中軸線,根據(jù)擬合直線與水平線的夾角將圖像旋轉(zhuǎn)矯正;擬合手指上下邊緣的內(nèi)切線;根據(jù)圖像水平方向上的亮度變化趨勢,選擇指關(guān)節(jié)處(即亮度峰值處);最后截取手指靜脈ROI圖像.
為了獲得清晰的指靜脈紋路,還需要對截取的ROI圖像進(jìn)行對比度受限自適應(yīng)直方圖均衡化(contrast limited adaptive histogram equalization,CLAHE),并在CLAHE圖像增強(qiáng)之后添加Gabor濾波器,用于去除圖像增強(qiáng)后的噪聲.SDUMLA-FV數(shù)據(jù)集圖像的預(yù)處理過程如圖4所示,ROI原圖經(jīng)過CLAHE圖像增強(qiáng)、Gabor濾波去噪后,相比于原圖可以得到清晰的靜脈紋路.SDUMLA-FV和FV-USM數(shù)據(jù)集只提供了每根手指6張靜脈圖像,為防止卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,對每一類指靜脈進(jìn)行數(shù)據(jù)擴(kuò)增,其中包括對圖像隨機(jī)平移、旋轉(zhuǎn)、裁剪、亮度調(diào)節(jié)、對比度調(diào)節(jié),將原本每類6張圖像擴(kuò)充至每類36張圖像.FV-USM數(shù)據(jù)集提供了ROI圖像,因此只需要對該數(shù)據(jù)集進(jìn)行圖像增強(qiáng)和 擴(kuò)充.
圖4 SDUMLA-FV數(shù)據(jù)集圖像的預(yù)處理 Fig. 4 Image preprocessing of SDUMLA-FV datasets
實(shí)驗(yàn)中將每一類別中的數(shù)據(jù)(36張)按照7∶3的比例劃分訓(xùn)練集和測試集.為了提高網(wǎng)絡(luò)的泛化能力,在融合模塊中,每張指靜脈圖像與每張人臉圖像一一對應(yīng).單模態(tài)實(shí)驗(yàn)和雙模態(tài)特征融合實(shí)驗(yàn)數(shù)據(jù)分布結(jié)構(gòu)見表1.
表1 實(shí)驗(yàn)數(shù)據(jù)分布 Tab. 1 Experimental data distribution
實(shí)驗(yàn)中,所有的模型輸入尺寸均為224像素×224像素,激活函數(shù)為ReLU,優(yōu)化器選用Adam,學(xué)習(xí)率設(shè)置為0.0001.分別對不同數(shù)據(jù)集、不同特征提取網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn),識(shí)別準(zhǔn)確率的實(shí)驗(yàn)結(jié)果見表2.
表2 不同數(shù)據(jù)集、不同特征提取網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率 Tab. 2 Recognition accuracy of different datasets and different feature extraction networks
由表2可知:在單模態(tài)識(shí)別實(shí)驗(yàn)中,只有VGG-19模型對SDUMLA-FV數(shù)據(jù)集的識(shí)別準(zhǔn)確率較高,為94.36%,其他單模態(tài)識(shí)別實(shí)驗(yàn)的識(shí)別準(zhǔn)確率均處于較低水平.在雙模態(tài)特征融合實(shí)驗(yàn)中,VGG-19融合模型對SDUMLA-FV+CASIA-WebFace數(shù)據(jù)集的識(shí)別準(zhǔn)確率為99.95%,對FV-USM+CASIAWebFace數(shù)據(jù)集的識(shí)別準(zhǔn)確率為99.94%.其他雙模態(tài)特征融合實(shí)驗(yàn)的識(shí)別準(zhǔn)確率均高于98.80%,相比單模態(tài)下的識(shí)別準(zhǔn)確率均得到了很大提升.對比Alay等[22]使用VGG-16基礎(chǔ)網(wǎng)絡(luò)進(jìn)行的虹膜、人臉和指靜脈三模態(tài)特征融合方法,本文所提出的方法在只使用兩種生物特征融合的情況下,識(shí)別準(zhǔn)確率相比于三種生物特征融合均有所提升.為了進(jìn)一步驗(yàn)證所提出的雙模態(tài)特征融合方法的有效性,將融合模態(tài)與MobileNetV2輕量級(jí)網(wǎng)絡(luò)結(jié)合并考察其識(shí)別準(zhǔn)確率.由表2可知:輕量級(jí)網(wǎng)絡(luò)模型(MobileNetV2)相比于AlexNet、VGG-19網(wǎng)絡(luò)模型,參數(shù)量大幅減少,并且單模態(tài)識(shí)別準(zhǔn)確率也大幅降低,但雙模態(tài)特征融合識(shí)別實(shí)驗(yàn)可以達(dá)到與AlexNet、VGG-19網(wǎng)絡(luò)相當(dāng)?shù)淖R(shí)別準(zhǔn)確率.
每個(gè)模型識(shí)別一張圖像(融合模型為識(shí)別指靜脈和人臉兩張圖像)的時(shí)間性能對比見表3.從表3中可以看出,融合模型的耗時(shí)與單模態(tài)識(shí)別的耗時(shí)差異不明顯.
表3 時(shí)間性能 Tab. 3 Time performance
本研究提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的指靜脈和人臉特征融合識(shí)別方法,解決了實(shí)際應(yīng)用場景中單一生物特征識(shí)別準(zhǔn)確率低、安全性差的問題.對比實(shí)驗(yàn)結(jié)果表明本文提出的方法可以有效提高生物特征識(shí)別的準(zhǔn)確率.此外,本文所提出的AlexNet融合模型和VGG-19融合模型,參數(shù)量均少于AlexNet、VGG-19網(wǎng)絡(luò),但是輕量級(jí)網(wǎng)絡(luò)MobileNetV2上參數(shù)量并沒有減少.對于這一問題,下一步還需要繼續(xù)對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化.同時(shí),本研究還需要進(jìn)一步在實(shí)際復(fù)雜場景的數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn).