亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合Transformer和CNN的手掌靜脈識別網絡

        2023-12-27 14:53:00沈文忠賈丁丁
        計算機工程與應用 2023年24期
        關鍵詞:特征實驗

        吳 凱,沈文忠,賈丁丁,梁 娟

        上海電力大學 電子與信息工程學院,上海 201200

        隨著社會的發(fā)展,生物特征識別[1-2]變得越來越重要,尤其在當前新冠疫情的沖擊下人臉識別過安檢、火車站等公共場合需要摘口罩進行身份識別,這就變得非常不方便,而掌靜脈隱藏在人體皮膚表皮內結構復雜難以復制,因此具有較強的穩(wěn)定性、隱蔽性、防偽性、方便性等優(yōu)點,因此掌靜脈識別[3]取代人臉識別成為趨勢。

        掌靜脈識別流程包括手掌靜脈圖像的采集、圖像預處理、特征提取、識別驗證四個階段。近年來,一些研究者對于掌靜脈特征提取與識別做了很多的研究,大概可以分為三類:一是基于結構特征的方法,如通過尺度不變特征變換(SIFT)[4]提取掌靜脈點特征進行識別;二是基于子空間的方法,如應用于雙方向的二維線性判別(LDA)[5]、主成分分析法(PCA)[6]將圖像投影或變換到一個低維空間進行表示和匹配;三是基于紋理特征的方法,如采用局部二值化(LBP)[7]提取特征、Gaussian Random[8]、Gabor 濾波器[9]等方法提取掌脈紋理信息然后編碼進行匹配識別。上述傳統(tǒng)的方法需要人工設計特征、特征提取和識別準確率也不高,如在低質量圖像上識別效果不佳,容易受噪聲、光照等因素的影響使用一些降維的方法也可能會漏掉重要的信息[10-13],因此傳統(tǒng)方法提取效率和精度非常低。

        近年來隨著深度學習發(fā)展,卷積神經網絡在靜脈提取方面發(fā)揮作用。Li 等[14]將空間特征和紋理特征相融合用在掌紋識別上,但是計算復雜度大。Wang 等[15]把多加權共現描述符編碼用于靜脈的提取和驗證,在精度和等錯誤率EER上有顯著的提高,但是網絡存在訓練困難且不穩(wěn)定的問題。Ahmad 等[16]研究基于手掌靜脈的人體識別輕量級隱私保護模板生成,降低了分類誤差有較好的表現,但是圖像需要預處理耗時較長。Thapar等[17]提出使用三重損失和自適應挖掘訓練手掌靜脈認證暹羅網絡,在訓練耗時和識別準確率上有一定提升,但是識別結果容易受到圖像質量的影響。

        針對上述問題,為了進一步提升識別精度,本文設計了結合Transformer Encoder和CNN并運用擴大決策邊界的損失函數AAM-Loss(additive angular margin loss)的掌靜脈特征編碼識別網絡PVCodeNet。為了說明該網絡突出的識別性能,本文在圖像預處理、編碼特征向量維度、損失函數參數設置、消融實驗等方面對提出的PVCodeNet進行細致地研究和討論。

        1 圖像預處理

        為了使實驗的掌靜脈圖像滿足特征提取的需求,需要對數據集中的掌靜脈圖像進行預處理,提取出感興趣區(qū)域ROI(region of interest)。掌靜脈圖像預處理主要包括關鍵點定位、ROI 提取、圖像增強等步驟。本文對掌靜脈圖像數據集預處理流程如下所示。

        1.1 手掌關鍵點定位

        經過對整個手掌圖像進行分析后發(fā)現,由于手掌圖像亮度高,背景圖像亮度低,兩者之間的像素值差異明顯,為了提高定位的準確性,把手掌和背景的連接區(qū)域作為關鍵點的候選區(qū)域,最終選擇以手掌的每個手指間隙作為關鍵點參考。如圖1(a)所示,選取食指與中指間隙A、中指與無名指間隙B以及無名指與小指間隙C作為手掌關鍵點。由于關鍵點周圍像素占原圖比例很小很難做到一次定位精準,因此借鑒人臉關鍵點定位網絡MTCNN 采用多級檢測定位的思想對手掌關鍵點進行定位,這樣定位精度更加準確。

        圖1 關鍵點定位和ROI提取Fig.1 Key point location and ROI extraction

        1.2 ROI提取

        ROI提取即感興趣區(qū)域的提取。ROI提取中,先以A 點為旋轉中心對關鍵點定位后的圖像利用仿射變換進行豎直旋轉使線段AC 與水平方向垂直,設AC 線段的長度為m,L設置為20 個像素,再沿線段AC 中垂線方向選取距離AC 線段(L+m/2)長度的點為正方形中心提取邊長為m的正方形,這樣可以保證提取的是紋理豐富的手心區(qū)域,如圖1(b)所示的紅色正方形區(qū)域作為提取的掌靜脈ROI區(qū)域。

        1.3 圖像增強

        如圖2(a)所示,在得到的ROI 圖像中,由于靜脈與周圍組織的區(qū)分度不明顯,無法直接提取掌靜脈信息,因此需要對圖像進行增強處理,本文使用CLAHE(對比度受限自適應直方圖均衡化)通過增強像的對比度以突出靜脈結構的信息,使得靜脈紋路清晰可見。增強效果如圖2(b)所示。使用CLAHE對比度增強后,圖像噪聲也得到了增強,噪聲對后續(xù)的掌靜脈特征提取及匹配會產生影響,本文運用中值濾波圖像去噪方法來降低圖像噪聲的干擾。從圖2(c)可以看出經過中值濾波處理后,掌靜脈圖像椒鹽噪聲幾乎被去除干凈,圖2(c)為中值濾波后輸入神經網絡的圖像。

        圖2 ROI圖像增強Fig.2 ROI image enhancement

        2 手掌靜脈識別算法

        最近幾年來基于深度學習的生物特征識別研究工作大多基于神經網絡的設計,而在損失函數的選取和設計方面沒有太多的研究??紤]到基于深度學習的手掌靜脈識別任務的特殊性——并不止是經典的分類任務而是以計算特征向量距離或相似度的策略來進行身份鑒別的任務,所以本文設計了Transformer Encoder 和CNN 結合的掌靜脈特征編碼識別網絡PVCodeNet,還對AAM-Loss 進行了研究,并成功應用于PVCodeNet。圖3是本文搭建的掌靜脈識別流程圖。

        圖3 掌靜脈識別流程圖Fig.3 Flow chart of palm vein recognition

        2.1 PVCodeNet網絡模型

        PVCodeNet借鑒了ResNet18[18]的思想,但是針對掌靜脈識別任務的特殊性重新進行了設計,網絡結構由1個Transformer Encoder模塊和4個改進的BasicBlock組成,PVCodeNet在以下方面做了創(chuàng)新改進:

        (1)首次把Transformer Encoder 模塊應用于掌靜脈識別任務中,在網絡初始階段充分利用Transformer Enconder 編碼模塊強大的全局特征提取和矩陣并行運算能力快速捕獲充分和全面的全局特征信息。

        (2)使用改進的殘差塊ImprovedBlock,如圖4 右側所示,殘差塊中使用新的深度超參數化卷積Do-Conv代替?zhèn)鹘y(tǒng)的卷積Conv 使提取的特征更加具有區(qū)分性,質量更高。在每個殘差塊末端加入注意力機制模塊NAM,抑制了不顯著特征信息的權值,有效提取了在通道和空間域上重要的細節(jié)特征信息。

        圖4 原始和改進殘差塊Fig.4 Original and improved residual block

        (3)使用擴大決策邊界的損失函數Additive Angular Margin Loss 取代傳統(tǒng)的分類損失函數Softmax 通過增加角度懲罰進行更嚴格分類,最大程度地分離特征對之間的類間距離,聚合類內距離。

        如果在主干網絡初始階段進行特征提取時丟失掉過多的特征信息,就會非常影響識別精度。原始ResNet18為了防止在網絡開始特征提取時丟失過多的信息進而影響分類準確率,在網絡開始使用7×7的大卷積核捕獲更多的特征信息。Transformer Encoder擁有全局的感受野和矩陣并行運算的能力,本文把Transformer Encoder應用于主干網絡初始階段進行特征提取可以快速獲取全局的掌靜脈特征信息,提取的特征信息更加充分和全面。

        進行掌靜脈識別時一般用紋理特征進行識別,有些不同個體特征具有高度相似性度,需要更加細微的特征細節(jié)進行區(qū)分,本文在傳統(tǒng)的卷積層基礎上增加一個額外的深度卷積構成深度超參數化卷積Do-Conv,使網絡呈現一種過參數化狀態(tài),增加了網絡可學習的參數,因此提取出的靜脈特征區(qū)分度更大,特征質量更高。為了使網絡更大程度的關注在空間和通道上有用的特征信息,殘差塊末端加入新的規(guī)范化的注意力機制模塊NAM,通過加入正則化懲罰項來抑制不顯著通道和空間特征信息的權值,使網絡獲得更多注意力關注通道和空間域上重要的細節(jié)特征信息。

        在進行掌靜脈分類時,為了使不同特征樣本清晰可分,考慮到不同圖像之間類內和類間的約束,尤其對于一些紋理特征比較相似的難以區(qū)分的困難樣本圖像,如果使用傳統(tǒng)分類損失函數Softmax Loss 由于分類決策邊界不明顯就會導致非常容易分類錯誤,為了更清晰容易地區(qū)分困難樣本,針對Softmax Loss決策邊界模糊問題,本文使用擴大決策邊界的損失函數AAM-Loss進行訓練更好的聚合同類樣本、縮小類內距離,分離異類樣本、擴大異類距離。

        PVCodeNet 詳細網絡結構見表1,其對應網絡結構如圖5所示。訓練階段,做一般的分類任務,測試階段,去掉最后的分類層,加載保存好的權重,輸入掌靜脈圖像,從自定義的嵌入層輸出保存512維的手掌靜脈圖像的特征向量,即對手掌靜脈圖像完成了一次特征編碼。

        表1 PVCodeNet網絡結構細節(jié)Table 1 Details of PVCodeNet network structure

        圖5 PVCodeNet網絡結構圖Fig.5 PVCodeNet network Structure diagram

        2.2 Transformer Encoder模塊

        Transformer 最初是在NLP 領域提出的,近兩年來被借鑒到CV領域并且流行起來,本文同樣把它借鑒應用于掌靜脈圖像識別任務中。如圖6所示,Transformer Encoder 由兩個殘差塊組成,第一個殘差塊使用Layer Norm、多頭注意力機制Multi-Head Attention和Dropout,第二個殘差塊使用Layer Norm、多層感知器MLP 和Dropout。Transformer Encoder 利用殘差思想有效避免了反向傳播過程中出現梯度消失或者梯度爆炸的現象,使梯度反向傳播時更加順利。Layer Norm 的作用和Batch Norm 的作用相同,主要是對特征圖進行歸一化加速網絡的收斂。MLP Block主要是進行特征提取,它是一個傳統(tǒng)的神經網絡,是為了解決單層感知機無法解決的非線性問題,使用它訓練出來的模型非線性擬合的能力會更好。Dropout作用是以一定概率隨機丟失一些神經元節(jié)點,有效地緩解了過擬合現象的發(fā)生,在一定程度上達到正則化的效果。

        圖6 Transformer Encoder模塊Fig.6 Transformer Encoder module

        Transformer Encoder 強大的全局特征提取能力主要取決于多頭注意力機制(multi-head attention),如圖7所示,首先利用卷積運算將整張掌靜脈圖像分成一個個小patch圖像塊ai,然后ai分別與隨機初始化的變換矩陣wq、wk、wv進行相乘運算得到對應的單頭qi、ki、vi,然后再根據使用的head的數目n進一步把單頭qi、ki、vi均分成n份得到的多個頭,每個頭的qi都和自身以及其他任意頭的ki、vi做運算,運算公式如公式(1)所示:

        圖7 Multi-Head Attention模塊Fig.7 Multi-Head Attention module

        式中,qi代表query,ki代表key,vi代表從ai提取的特征信息,dk代表向量ki的長度。

        這樣多個頭任意兩個之間均有特征信息的交互,使每個頭都與其他任意一個頭的像素信息都建立了特征聯(lián)系,因此它具有全局的感受視野,可以提取到全局特征信息。運算時它運用的是矩陣并行計算能力,速度也比較快。把它應用在PVCodeNet 初始階段可以快速地捕獲更加充分和全面的全局特征信息,提升了提取全局特征的能力。

        2.3 深度超參數化卷積Do-Conv

        本文在傳統(tǒng)卷積Conv基礎上增加一個額外的深度卷積構成深度超參數化卷積Do-Conv,如圖8 所示,M表示卷積核的空間維數,D表示特征的維數,Do-Conv是由深度卷積核J和傳統(tǒng)卷積核K卷積形成的新卷積核K′,再與特征圖P進行卷積得到最終輸出特征O,O=(JT?K)?P,K′是一種增強的卷積核,因為K′與傳統(tǒng)卷積核的尺寸完全相同,所以計算量與傳統(tǒng)卷積核是相同的。不同的是,Do-Conv 比傳統(tǒng)卷積層Conv 在訓練時多了一次深度卷積,這樣就會使網絡呈現出一種過參數化狀態(tài),保證了足夠的參數量,用更多的參數訓練不但可以提升訓練速度,而且可以使網絡收斂到更好的參數組合使提取靜脈特征更加具有區(qū)分性,尤其是對于紋理高度相似難以區(qū)分的困難樣本提取出來的特征向量區(qū)分度更大。它對手掌靜脈圖像每個通道都進行學習,提取出的靜脈紋理特征質量更好,更有區(qū)分性。綜上所述,Do-Conv 使網絡呈現出一種過參數化,增加了網絡可學習的參數,加速了網絡的訓練,而且使網絡在保持原有計算量的基礎上,提升了分類識別精度的網絡性能。

        圖8 深度超參數化卷積Fig.8 Depth hyper parametric convolution

        2.4 注意力機制NAM

        手掌靜脈特征具有很大的相似性,需要更加細微的特征來區(qū)分不同的類別,注意力機制可以加強網絡對細小特征提取的能力,本質就是通過一系列的權重參數來對圖像的重要信息進行加強使網絡關注重要有用的特征信息。網絡越深,注意力機制捕捉重要的特征信息級別也就越高。如圖9 所示,注意力機制NAM 中使用批量歸一化BN 中的比例因子γi和λi來衡量每個通道和空間的方差并表示它們重要性,比例因子越大表示空間或者通道的特征越重要。該模塊在反向傳播時在損失函數中加入了正則化懲罰項來抑制不顯著性特征的權值,使網絡獲得更多注意力去關注權值較大的重要通道和空間特征。BN計算如公式(2)所示:

        圖9 注意力機制NAMFig.9 Attention mechanism NAM

        其中,μΒ、σΒ分別表示小批量Batch的均值和方差,γ和β是可以訓練的參數。

        通道注意力模塊如圖9(a)所示,比例因子γi的權重Wi反映出各個通道變化的大小并表示了通道的重要程度??梢赃@樣理解,通道比例因子γi所占的權重Wi越大,該通道的方差就越大,表示通道變換得越厲害,那么該通道中包含的信息會越豐富,顯著性重要程度就越大而那些變化不大的通道,信息單一,重要性小。通道注意力機制公式如公式(3)所示:

        其中,Wi表示每個通道的權值,F1 表示通道注意力機制輸入特征圖,Mc表示輸出特征圖。

        在空間注意力中,將BN 公式(2)應用在空間維度,稱為像素歸一化Pixel Normalization。如圖9(b)所示,比例因子γi的權重Wi反映出空間變化的程度并表示了空間的重要性。比例因子γi的權重Wi越大,該空間像素的方差就越大,表示空間變換的越厲害,包含的空間信息越豐富,空間顯著性重要程度越大。權重越小表示空間變化越小,所含空間特征信息也就越單一,空間的顯著性重要程度就越小??臻g注意力機制的計算公式可表示為:

        其中,Wi表示空間像素的權值,F2 表示空間注意力機制輸入特征圖,Ms表示輸出特征圖。

        CBAM、SENET 等傳統(tǒng)注意力機制模塊雖然捕捉了在空間和通道上的特征,然而缺乏對權重影響因素的考慮,所以不能進一步抑制不顯著特征的權值。為了抑制不顯著通道和空間的特征,本文使用的注意力機制模塊NAM在損失函數中添加了正則化懲罰項,如公式(5)所示:

        其中,x和y表示輸入和輸出,W表示網絡權重,l(?)表示損失函數,g(?)是L1范數懲罰函數,p表示g(γ)和g(λ)的懲罰因子。

        通過加入正則化懲罰項來減弱權值較小的不重要的通道和空間特征信息的程度,這樣在一定程度上就抑制了不顯著特征的權值,使網絡在反向傳播時集中更多的注意力去關注權值比較大的重要的空間和通道特征信息,提高了反向傳播的效率,提取在通道和空間上重要有用的細節(jié)特征信息的同時也提高了網絡識別的精度。

        2.5 損失函數AAM-Loss

        Softmax 層的輸入為最后一個全連接層的輸出WTX+b,Softmax Loss可表達為:

        為便于分析,將偏置值b置零,將WTX的內積換算成余弦形式,式(6)又可表示為:

        其中,xi∈Rd表示第i個樣本經過最后一個全連接層的輸入特征,表示權重向量的第j列,也可以視為第j類樣本的類中心權重向量,C表示樣本類別數,N表示每批訓練的樣本數。

        對于掌靜脈識別任務,使用余弦相似度衡量掌靜脈圖像特征向量之間的相似程度從而區(qū)分出正負樣本對,主要目的是使正樣本足夠聚集,負樣本最大程度分離。Softmax Loss決策邊界由于權重W的影響雖然使樣本特征大致可分,但是并沒有考慮到類內和類間距離的約束,因此它的決策邊界是模糊的,決策邊界如圖10(a)所示,所以用在掌靜脈識別任務中分類效果并不好。為了提高識別分類效果,本文使用了擴大決策邊界的損失函數AAM-Loss,在Softmax Loss 的基礎上,首先對權重向量W和特征向量X的L2的范數歸一化,使分類器的決策邊界僅取決于特征和權重向量之間的角度,然后乘以一個縮放因子s。最后引入角度固定間隔m,通過特征與相應類中心權重向量之間的夾角約束來增強類內的緊湊型和類間的分離度,使得分類的決策邊界更加明顯,決策邊界如圖10(b)所示。AAM-Loss表達式如下:

        圖10 Softmax和AAM-Loss決策邊界Fig.10 Softmax and AAM-Loss decision boundary

        其中,s為縮放因子,m為角度間隔。

        AAM-Loss 通過增加角度距離進行更嚴格的分類,對特征向量x進行歸一化,這樣訓練時僅注重從數據中得到的角度信息,無需考慮特征向量的值。不同清晰度圖片其特征范數也不相同,高清晰度圖片提取出的特征范數大,低清晰度圖片提取出的特征范數小,AAM-Loss對特征向量x進行歸一化以后,相當于增加了低清晰度圖片的權重,使得低清晰度圖片獲得網絡更多的注意力,進行反向傳播時,低清晰度的圖片會產生更大的梯度,因而有利于網絡對紋理特征高度相似難以區(qū)分的困難樣本的學習。它的決策邊界比Softmax 更合理,始終存在m大小的決策邊界,這樣也使得訓練時更容易收斂,同時也使得類內特征更聚攏,類間間距更大。

        3 實驗過程和結果分析

        為了突出說明PVCodeNet 在掌靜脈識別任務優(yōu)越的性能,本文在特征向量維度、損失函數參數設置以及PVCodeNet 在多個數據集進行驗證等幾個方面進行了詳細的實驗。首先介紹實驗所使用的數據集、實驗設置、評價指標等概念。

        3.1 數據集和評價指標

        PolyU該數據集[19]是香港理工大學公開掌靜脈數據集,分兩個時期采集了250 人的手掌,每個時期每個人左右手分別采集6張,左右手視為不同的類,因此共500類6 000張圖像。

        SEPAD-PV。該數據集是自己用紅外相機采集的108人的手掌靜脈圖像,每個人左右手在旋轉不同角度下在兩個時期分別采集10張,左右手視為不同的類,共216類4 320張圖像。

        Tongji。該數據集[20]是同濟大學分兩個時期采集的300人的左右手掌紋數據集,每個時期左右手各采集10張,共600類12 000張掌紋圖像。

        SDUMLA。該數據集[21]為山東大學指靜脈數據集,包括106位測試者的手指靜脈,左右手食指、中指、無名指各12張圖片,共636類7 632張圖像。

        評價指標。在評價時,采用等錯誤率EER(equal error rate)作為主要評價指標,EER 是通過動態(tài)調整閾值后得到的誤拒率FRR(false reject rate)和誤識率FAR(false accept rate)相等時的值。FAR 隨閾值增大而減小,FRR 隨閾值增大而增大,在某個閾值下FAR 與FRR相等時的值就是EER,EER 越低,表示算法的識別精度越高。此外本文還采用分離度DI來統(tǒng)計類內和類間的距離分離度,分離度越大,類內分布越緊湊,類間分布越分散,分類效果就越好。分離度DI的公式如式(10)所示:

        其中,μ1和μ2表示類內和類間相似度分布的均值,和表示類內和類間相似度分布的均值。

        3.2 實驗設置

        實驗基于Windows10操作系統(tǒng),GPU型號為Nvidia GeForce RTX 2080 Ti,深度學習框架為Pytorch。

        優(yōu)化器設置為SGD隨機梯度下降算法,使用Nesterov動量,動量參數默認設置為0.9。學習率調整策略采用余弦退火算法調整,每10輪作為一次調節(jié)周期,共訓練120個Epoch。

        本文首先使用基準網路在PolyU 數據集上探究了不同的超參數起始學習率LR 和批次Batchsize 組合對精度的影響,以此來確定最優(yōu)的超參數LR 和Batchsize組合。從表2 實驗結果橫向來看,隨著Batchsize 的增大,EER 指標先變好后變壞,這是因為當Batchsize 比較小而類別數比較多的時候,相鄰的Batch 之間的差異比較大,會造成相鄰兩次迭代的梯度震蕩比較嚴重,不利于網絡模型的收斂。當Batchsize 比較大時,相鄰Batch中的特征差異過小,兩個相鄰的Batch 的梯度就沒有那么大區(qū)別了,整個訓練就按照一個方向一直走,容易陷入到局部最優(yōu)解。從表2 中可以看出當Batchsize 為32時候精度最高,因此Batchsize設置為32。從表2實驗結果縱向來看,當LR 為0.1 時精度沒有0.01 高,這是因為由于學習率過大在尋找最優(yōu)解過程中步幅太大直接跳過了最低最優(yōu)解的地方從而跳到對稱軸的另一邊,在最優(yōu)解附近循環(huán)徘徊造成網絡不收斂。當LR 為0.001 時精度同樣沒有0.01時高,這是因為在訓練后期由于學習率過小導致無法跳出局部最優(yōu)解的坑就已經收斂,因此起始LR 設置為0.01。圖像預處理時,數據增強方式先采用限制性對比度直方圖均衡化進行對比度增強,再使用中值濾波去除噪聲。數據集劃分采用閉集識別,每類隨機抽取70%做訓練集,剩下的30%做測試集。

        表2 不同LR和Batchsize參數組合的結果Table 2 Results of different LR and Batchsize combination

        3.3 特征向量維度對比實驗

        測試算法性能時,不能直接使用損失函數最后的分類層進行分類,而是需要提取分類層的前一層作為特征向量層,根據得到的特征向量再使用余弦相似度進行特征向量匹配,所以特征向量的維度也影響著最終的匹配精度,因此本文在進行消融實驗之前,首先使用基準網路ResNet18 在PloyU 和自建庫SEPAD-PV 數據集上進行測試,探究掌靜脈識別任務中靜脈圖像編碼成的不同特征向量維度對識別精度的影響。

        兩個數據集的ROI 示例圖像如圖11 所示。其中特征向量維度分別設置為128維、256維、512維,測試的等錯誤率EER如表3所示??梢钥闯觯斕卣飨蛄烤S度為128 維和256 維時,在兩個數據集上測試得到的結果遠遠不如512 維的精度高,512 維的EER 分別為1.45%和1.88%,此時等錯誤率EER 最低,識別精度最高。經過分析,原因是手掌靜脈圖像中蘊含的紋理豐富,128維和256維無法完整地表達出表征豐富的掌靜脈特征信息,512維提取的特征更加緊湊,因此之后的實驗都是圍繞512維進行展開。

        表3 特征維度對比實驗Table 3 Comparsion of feature dimension experiments

        圖11 ROI示例圖像Fig.11 ROI sample images

        3.4 AAM-Loss對比實驗

        為了證明AAM-Loss 在PVCodeNet 的有效性并找到該損失函數s和m的組合,在不同的實驗參數組合下,使用基準網路測試了在PolyU和SEPAD-PV數據集上的EER和TAR水平,實驗結果如表4所示。

        表4 不同參數組合的EER和TAR水平Table 4 EER and TAR of different parameter combination

        由2.5節(jié)式(9)可以看出,AAM-Loss有s和m兩個參數,為了加速訓練并且穩(wěn)定該損失函數的優(yōu)化,參考文獻[22]參數的設置,s被固定設置為30;并且文獻[22]的在大規(guī)模人臉數據集上對m的不同設置進行了細致的實驗討論并得出結論,m最優(yōu)取值范圍為[0.35,0.45]。但是為了更好地應用掌靜脈識別任務,本文擴大了m的取值范圍在兩個數據集上對m的不同取值進行了詳細的實驗評估,m取值范圍設置為[0.25,0.75],間隔為0.1。

        從表4 可以看出在PolyU 和EPAD-PV 數據集的實驗結果指標并沒有像文獻[22]實驗結果那樣,隨著m取值的增大實驗結果的評價指標總體上先變好后變差,而是出現了飽和現象,EER 和TAR 水平在m增加的后期基本不會再變化了,m取值為0.45時,等錯誤率EER分別為0.26%和0.38%,此時性能表現最佳。經過分析,出現這種現象的原因:無論是掌靜脈圖像類別數目的多樣性還是每個類別樣本圖像的豐富度,掌靜脈數據集均遜于大規(guī)模的人臉數據集。在本實驗中,即使設置再大的margin裕度,在相對較少的類別和圖像總數下,AAM-Loss仍然可以優(yōu)化得非常好。在實驗過程中發(fā)現,當m大于等于0.55時,訓練過程中震蕩幅度比較大并且耗時較長才能收斂,為了保持訓練穩(wěn)定性并且加速收斂,在此后的消融實驗中,AAM-Loss的參數設置s和m分別設置為30和0.45。

        3.5 消融和對比實驗

        3.5.1 消融實驗

        為了進一步驗證本文所提算法的有效性和可行性,在PolyU和SEPAD-PV數據集上進行消融實驗測試,在兩個數據集上用于訓練和測試的樣本數量以及測試集產生的類內、類間匹配信息如表5所示。實驗結果如表6和表7所示。針對掌靜脈識別任務,使用常規(guī)的ResNet18網絡作為主干的基準網絡baseline,baseline的損失函數采用分類比較常用的Softmax 函數作為基準的損失函數。在此基礎上進行消融實驗,逐次添加算法網絡中的某些部分來驗證這些部分是否起到有助于提升實驗性能的作用。

        表5 訓練及測試樣本分布情況Table 5 Distribution of training and testing samples

        表6 PolyU數據集消融實驗結果Table 6 PolyU dataset ablation experiment results

        表7 SEPAD-PV數據集消融實驗結果Table 7 SEPAD-PV dataset ablation experiment results

        相比于組別1,組別2使用深度超參數化卷積Do-Conv后,在PolyU 和SEPAD 兩個數據集上等錯誤率EER 分別提升了0.49 和0.66 個百分點,分離度DI 分別提升了0.86和1.08,這是因為Do-Conv比傳統(tǒng)卷積層Conv在訓練時多了一次深度卷積,使網絡呈現出一種過參數化狀態(tài),用更多的參數進行加速訓練可以收斂到更好的參數組合使提取的掌靜脈特征區(qū)分程度更大??梢赃@樣理解,使用Do-Conv 提取的同類樣本特征更相似,異類樣本特征更具區(qū)分性,提高了提取靜脈紋理特征質量的能力。實驗結果也證明了使用Do-Conv 后得到了更高的識別精度。

        組別3 采用了分類邊界清晰的AAM-Loss,相比于組別2 采用的Softmax,從表6 和表7 可以看到,無論是EER 還是分離度DI,在兩個數據集上指標均有非常大的提升。這是因為AAM-Loss比Softmax決策邊界更明顯,AAM-Loss以加性角間距的方式懲罰特征與相應類中心權重之間的角度,主導的優(yōu)化過程因放大了特征與相應類中心權重向量之間的間隔,而使得類內特征更加聚攏,也使得類間間距更大,可見AAM-Loss 成為靜脈識別任務中損失函數較好的選擇。

        相對于組別3,組別4在網絡初始階段加入了Transformer Encoder模塊,在PolyU 和SEPAD 兩個數據集上EER 指標上漲了10 多倍,提升幅度非常大。這是因為Transformer Encoder 擁有非常強大的全局特征提取和矩陣并行運算的能力,使用它進行特征編碼快速獲取了非常充分和全面的掌靜脈全局特征信息,在網絡起始階段進行特征提取時捕捉了更為豐富的特征信息,大大提高了識別精度。實驗結果也證明,使用Transformer Encoder后指標有了大幅度的提升。

        組別5 在組別4 的基礎上加入了注意力機制模塊NAM,在兩個數據集上EER 進一步提升達到了0,實現了最高識別率的突破。這是因為加入NAM 后,網絡自適應的關注到了有助于提升識別率的重要掌靜脈紋理特征區(qū)域,在損失函數中加入了正則化懲罰項通過抑制不顯著特征的權值來抑制不重要的特征信息的表達,從而使得網絡集中更多的注意力自適應地關注到掌靜脈在通道和空間上重要的細節(jié)特征信息,這種方式更加靈活。

        為了清晰地展示表6 和表7 中組別1 到組別5 的實驗指標,本文通過ROC 曲線,如圖12 所示,直觀地展示了基準算法1到本文算法5在PolyU和SEPAD-PV數據集在不同錯誤接受率FAR 水平下,正確接受率TAR 隨FAR變化時的表現性能的曲線圖。當FAR一定時,TAR越大,算法的準確度就越高,性能就越好。從圖12總體來看,每加一個消融實驗模塊,ROC曲線都有性能的提升。從圖12(a)和(b)可以看出,本文算法5在兩個數據集上的ROC 均是一條平的直線,此時EER 均達到了0,識別精度最高。從圖12 還可以得出,無論FAR 取值范圍為多少,本文算法5 的TAR 都要明顯高于基準算法1的TAR,這意味本文算法具有更高的識別準確率,更適用于掌靜脈識別任務。

        圖12 PolyU和SEPAD-PV數據集ROC曲線圖Fig.12 PolyU and SEPAD-PV database ROC diagram

        為了更加直觀地展示本文算法的優(yōu)越性能,對PolyU和SEPAD-PV兩個數據集分別針對基準算法與本文算法統(tǒng)計了類內和類間余弦距離并繪制出了余弦相似度分布圖。圖13(a)和(b)中綠色部分為基準算法余弦相似度分布,藍色部分為本文算法余弦相似度分布。手掌靜脈圖像的特征向量相似度使用余弦距離進行評估,靜脈圖像特征向量之間的夾角越小,余弦值就越大,對應的余弦相似度就越高。圖13(a)和(b)的左半部分為類間相似度分布統(tǒng)計圖,右半部分為類內相似度分布統(tǒng)計圖。從圖13 中可以明顯看出,相比于基準算法1,本文算法的類內相似度分布更加集中,基準算法的類內相似度分布主要在0.4~1 之間,本文算法類內余弦相似度分布在0.8~1 之間,更加接近于理想情況下同類樣本余弦相似度為1的分布,降低了在匹配階段類內與類間模板出現交集,導致類內樣本被誤識為類間樣本的風險。另外,從表5和表6也可以看出,基準網絡在PolyU和SEPAD-PV數據集上分離度DI分別為4.72和3.96,本文算法在PolyU 和SEPAD-PV 數據集上分離度DI 分別為9.99和9.97,本文算法的分離度遠遠高于基準算法的分離度,再次驗證了本文算法對于類內、類間樣本具有更好的區(qū)分度,能更好地控制類內樣本與類間樣本的分類邊界。

        圖13 余弦相似度分布圖Fig.13 Cosine similarity distribution chart

        3.5.2 對比實驗

        為了進一步突出本文提出的PVCodeNet 在掌靜脈識別任務中的創(chuàng)新型和有效性,還使用近兩年來在CV領域大火的Transformer 系列網絡模型和注意力機制NAM 進行了對比實驗,在PolyU 和SEPAD-PV 數據集上的實驗結果如表8和表9所示。

        表8 PolyU數據集對比實驗結果Table 8 PolyU dataset comparison experiment results

        表9 SEPAD-PV數據集對比實驗結果Table 9 SEPAD-PV dataset comparison experiment results

        組別1 使用Vit(Vision Transformer)進行了基準的測試實驗,在兩個數據集上的EER指標分別為1.81%和1.96%,組別4 在組別1 基礎上在Vit[23]的每個編碼塊末端加入了NAM模塊,EER提高了0.28和0.32個百分點,分離度DI 提高了0.60 和0.62 這是因為加入NAM 后捕捉了靜脈紋理的細節(jié)特征,組別2 在組別1 基礎上使用了帶有滑動窗口的Swin-Transformer[24],EER 和分離度有了大幅度 提升,這是因為Swin-Transformer使用了滑動窗口后特征信息之間的交流更加充分。組別3在組別2基礎上使用了最新的借鑒ResNet和Swin-Transformer思想的的ConvNext[25],從EER 和分離度上來看,識別效果均有一定程度的提升。組別5和組別6在組別2和組別3 的基礎上加入了NAM 模塊后,等錯誤率EER 和分離度DI有了大幅度提高,再次證明了NAM模塊在捕捉掌靜脈紋理細節(jié)特征任務的適用性。

        與表6和表7對比后發(fā)現,表8和表9使用Transformer系列網絡模型在PolyU 和SEPAD-PV 數據集進行實驗后總體得到的效果并不是非常好,評價指標結果與表6和表7相差很多。經過分析發(fā)現,出現這種現象的原因:純Transformer系列的網絡模型只有在大規(guī)模數量的數據集上才能表現出優(yōu)越的性能,無論是掌靜脈圖像類別數目的多樣性還是每個類別樣本圖像的豐富度,掌靜脈數據集均遜于大規(guī)模的ImageNet數據集。另外,掌靜脈圖像中紋理信息占原圖比例比較小,如果使用Transfomer系列的網絡模型,會過度地把背景噪聲特征信息和紋理特征信息融合,這樣提取的特征比較冗余,噪聲特征信息會對匹配識別產生較大的干擾,可見Transformer 模型表現性能的好壞也是需要結合特定的場景數據集下才能決定的。并且還發(fā)現Transformer系列的網絡模型用在小規(guī)模數量的數據集上尤其是在訓練后期,模型是很難收斂擬合到一個比較理想的效果,優(yōu)化得并不好。而本文提出的CNN和Transformer結合的PVCodeNet只需在小規(guī)模的PolyU 和SEPAD-PV 數據集上就可以優(yōu)化得非常好,從表8和表9的組別7也可以看出,本文算法的EER 達到了0,實現了最高識別率的突破,無論是EER還是分離度DI都遠遠高于其他組別Transformer系列的網絡模型,再次證明了PVCodeNet在掌靜脈識別任務中的創(chuàng)新型和有效性。

        3.6 在其他數據集上的實驗結果

        為了驗證本文設計的網絡PVCodeNet的泛化性能,還在具有相似紋理特征的掌紋數據集Tongji、指靜脈數據集SDUMLA 上進行了實驗測試,兩者數據集ROI 圖片示例如圖14所示。在兩個數據集上用于訓練和測試的樣本數量以及測試集產生的類內、類間匹配信息如表10所示。

        表10 訓練及測試樣本分布情況Table 10 Distribution of training and testing samples

        圖14 ROI示例圖像Fig.14 ROI sample images

        從圖15 ROC 曲線圖可以看出,在數據集Tongji 和SDUMLA 上ROC 曲線下面積AUC 指標達到了1,等錯誤率EER 達到了0,實現了最高識別準確率的突破,表現性能十分優(yōu)越,同樣說明了本文算法得到的類內樣本分布十分緊湊,類間樣本分開非常明顯,類內、類間樣本具有非常好的區(qū)分度,能更好地控制類內樣本與類間樣本的分類邊界。同時證明了本文設計的網絡PVCodeNet對于指掌靜脈、掌紋這樣紋理信息具有很好特征提取能力和泛化性能,說明了本文設計的PVCodeNet 的有效性。

        圖15 Tongji和SDUMLA數據集ROC曲線圖Fig.15 Tongji and SDUMLA database ROC diagram

        3.7 與其他算法的對比

        本文的算法性能與其他的算法的性能進行對比,對比結果如表11所示。本文使用PVCodeNet進行特征提取后取得的EER優(yōu)于其他算法,證明了本文PVCodeNet在掌靜脈識別任務方面的有效性。Zhou 等[26]采用領域匹配變換提取特征再利用漢明距離進行匹配在PolyU數據集上等錯誤率EER 達到了0.21%,Zhang 等[27]基于紋理編碼和Gabor 過濾器進行特征提取使用漢明距離進行匹配EER 為0.012%,Kuzu 等[28]微改特別深的網絡Densnet161 然后利用遷移學習的方法加載預訓練權重在PolyU 數據集上進行測試EER 達到了0.006%,Horng等[29]基于ResNet 和mobilenet 搭建的MPSNet 在PolyU數據集上EER 指標達到了0.011%,Shao 等[30]使用孿生神經網絡在PolyU 數據集上EER 達到了0.1%,Edwin等[31]使用生成基于樣式的手掌靜脈合成圖像以創(chuàng)建大規(guī)模數據集進行測試EER 達到了0.25%,David 等[32]使用評估基于手掌靜脈圖像的標準和榆樹測試EER達到了0.12%,Jia等[33]使用3D網絡在PolyU數據集上進行測試EER 達到了0.08%,Babalola 等[34]基于紋理和CNN 進行融合進行測試EER 達到了0.14%,Sun 等[35]提出了基于NPE和KELM在PolyU數據集上EER達到了0.09%,而本文提出的PVCodeNet 在PolyU 和SEPAD-PV 數據集上進行實驗測試等錯誤率EER均達到了0,實現了最高識別準確率的突破。本文算法整體識別效果好的原因可以歸結為以下幾點:一是因為本文算法在ROI提取時使用多級檢測網絡MTCNN進行關鍵點定位,關鍵點定位準確就保證了ROI區(qū)域提取的準確性,二是使用圖像增強方法對ROI 區(qū)域進行紋理增強使掌靜脈紋理更加清晰。三是本文還針對掌靜脈識別任務特別地設計了CNN和Transformer結合并運用了可以擴大決策邊界的損失函數AAM-Loss 的特殊網絡結構—PVCodeNet。綜上所述,本文算法更適用于掌靜脈識別任務。

        表11 與其他算法的實驗結果對比Table 11 Comparison with other experimental results

        4 結束語

        為了實現對靜脈紋理特征準確的表達,針對掌靜脈識別任務特點,本文提出了一種新的掌靜脈識別網絡PVCodeNet,該網絡結合了Transformer Encoder、改進的BasicBlock和可以擴大決策邊界和增加角度的AAM-Loss。本文進行多組對比實驗,評估了損失函數AAM-Loss參數、特征向量維度等因素對PVCodeNet的性能影響。結果發(fā)現,PVCodeNet在多個數據集上均取得了卓越的識別效果。本文得出結論:

        (1)在PVCodeNet網絡初始階段加入了Transformer Encoder編碼模塊快速捕獲了非常充分和全面的全局特征信息,識別精度指標EER大幅度提升。

        (2)改進的BasicBlock 使用深度超參數化卷積Do-Conv取代傳統(tǒng)卷積Conv進行特征提取,提取的掌靜脈特征區(qū)分度更大,特征質量更高,殘差塊末端加入注意力機制NAM模塊提取了掌靜脈在通道和空間域上的細節(jié)特征,關注了有用的掌靜脈紋理特征的信息。

        (3)由于掌靜脈紋理包含的特征信息豐富,使用128維和256維的編碼沒有將特征信息充分展示出來,而將掌靜脈信息編碼成512 維的特征向量極大地提高了識別的效果,更加適用于掌靜脈識別。

        (4)AAM-Loss 由于可以增加擴大決策邊界聚合同類樣本,比Softmax Loss更加適用基于特征向量相似度匹配的掌靜脈識別任務。

        目前掌靜脈識別任務的算法優(yōu)化還處在探索階段,在未來的研究工作中將集中更多的注意力在特征提取、決策邊界分類和困難樣本優(yōu)化策略的研究,還將對算法在嵌入式設備上移植部署進行深入的研究。

        猜你喜歡
        特征實驗
        抓住特征巧觀察
        記一次有趣的實驗
        微型實驗里看“燃燒”
        新型冠狀病毒及其流行病學特征認識
        如何表達“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        NO與NO2相互轉化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        久久久国产精品麻豆| 国产毛片视频一区二区| 在线观看免费无码专区| 国产精品久久毛片av大全日韩| 在线观看网址你懂的| 成人在线视频自拍偷拍| 澳门蜜桃av成人av| 欧美亚洲熟妇一区二区三区| 亚洲AV成人无码久久精品老人 | 国产羞羞视频在线观看| 久久久诱惑一区二区三区| 被灌醉的日本人妻中文字幕| 蜜臀av无码人妻精品| 女人被做到高潮免费视频| 亚洲国产剧情一区在线观看| 亚洲成人一区二区三区不卡| 国产精久久一区二区三区| 亚洲av有码在线天堂| 亚洲欧美日韩一区在线观看| 在线国人免费视频播放| 国产女人的高潮国语对白| 国产美女免费国产| av在线手机中文字幕| 国产一区二区三区毛片| 东北老女人高潮疯狂过瘾对白| 亚洲大片免费| 亚洲一区二区三区免费的视频| 国产精品天干天干综合网| 久久久久久久性潮| 青青草视频在线视频播放| 蜜桃传媒网站在线观看| 三叶草欧洲码在线| 亚洲亚洲网站三级片在线| 亚洲av成人无网码天堂| 欧美嫩交一区二区三区| 成熟丰满熟妇高潮xxxxx| 麻豆AV无码久久精品蜜桃久久| 国产剧情av麻豆香蕉精品| 激性欧美激情在线| 国产成人免费一区二区三区| 亚洲综合久久中文字幕专区一区|