于哲舟, 劉 巖, 劉元寧
(1. 吉林大學 計算機科學與技術學院, 吉林 長春 130012; 2. 吉林大學 軟件學院, 吉林 長春 130012;3. 吉林大學 符號計算與知識工程教育部重點實驗室, 吉林 長春 130012)
當今最受歡迎的生物特征識別方式是虹膜識別[1-3],在整個虹膜識別系統(tǒng)流程中,虹膜定位環(huán)節(jié)處于核心位置,虹膜定位的準確率對系統(tǒng)后期的識別產(chǎn)生重大影響.傳統(tǒng)的虹膜定位方法容易受到噪聲、睫毛遮擋等影響,導致定位不準確,所提取到的信息很難在后期的特征識別中使用.YOLOV3模型在目標檢測方面效果較好,采用這種基礎模型對虹膜兩個內(nèi)外邊界進行定位,提高了定位準確性.由于原始特征提取網(wǎng)絡DarkNet-53層數(shù)較少,不能提取到高質(zhì)量的虹膜特征.雖然能夠大大提高檢測速度,但準確率很低;隨卷積神經(jīng)網(wǎng)絡中卷積層數(shù)的不斷加深,提取到的特征也會更為豐富,隨網(wǎng)絡層數(shù)不斷加深,導致網(wǎng)絡模型出現(xiàn)退化.退化主要是由于梯度消失導致網(wǎng)絡性能退化,同時由于虹膜圖像在采集時虹膜的大小也不盡相同.卷積神經(jīng)網(wǎng)絡經(jīng)過多次卷積之后,特征圖的尺寸會變得很小,所以檢測小目標更加困難,無法更好利用虹膜圖片學習到虹膜語義特征,因此本文針對這些問題對虹膜定位模型作出改進[4-8].
xl=Hl([x0,x1,…,xl-1]) .
(1)
式中:xl表示第l層的輸出;[x0,x1,…,xl-1]表示網(wǎng)絡的0,1,…,l-1層所輸出的特征圖級聯(lián)在一起.Densenet網(wǎng)絡結(jié)構(gòu)如圖1所示.
圖1 Densenet網(wǎng)絡結(jié)構(gòu)
Non-local注意力機制的作用主要是用來對虹膜圖像重點區(qū)域進行加強,增強虹膜圖片學習到的語義特征,Non-local操作相當于構(gòu)造了一個和特征圖譜尺寸一樣大的卷積核,從而可以維持更多信息. Non-local操作能夠直接從任意兩點間獲取到長距離的依賴信息,同時它也是一個易于集成的網(wǎng)絡模塊,虹膜特征信息提取是一種比較優(yōu)良的注意力機制實現(xiàn).Non-local的通用式為
(2)
式中:yi表示輸出;c(x)為歸一化因子;f(xi,xj)為計算i和j間的相似性;g(xj)為計算特征圖在j位置上的表示.Non-local注意力機制結(jié)構(gòu)[9-11]如圖2所示.
圖2 Non-local注意力機制結(jié)構(gòu)
為進一步增強小目標虹膜學習到的語義特征,在改進的YOLOV3虹膜定位算法中,使用復制殘余模塊的方式獲得輔助結(jié)構(gòu),擴展整個特征提取網(wǎng)絡,進而優(yōu)化骨干網(wǎng)絡.輔助網(wǎng)絡的規(guī)模要比骨干網(wǎng)絡小,與原始的YOLOV3剩余模塊相比,增加了輔助網(wǎng)絡的剩余模塊.在輔助網(wǎng)絡中使用較大的接收場,輔助網(wǎng)絡會將收集到的特征位置信息傳輸?shù)焦歉删W(wǎng)絡上,骨干網(wǎng)絡能夠更加準確地學習目標特征信息.在網(wǎng)絡中添加輔助網(wǎng)絡使整個網(wǎng)絡結(jié)構(gòu)與高級或低級語義特征密切聯(lián)系,能夠有效提高網(wǎng)絡性能.輔助網(wǎng)絡結(jié)構(gòu)圖如圖3所示[12-13].
圖3 輔助網(wǎng)絡結(jié)構(gòu)圖
實驗數(shù)據(jù)使用的是吉林大學自主采集的JLUIRIS-v6和JLUIRIS-v7兩代虹膜圖像,在虹膜庫中選擇2 238張經(jīng)過質(zhì)量評價挑選后的虹膜圖像作為本次實驗的訓練集和測試集.在進行虹膜定位前要對虹膜圖像進行預處理及標注處理.本文所用的工具是labelImg,標注過的每張圖片都生成關于虹膜的內(nèi)外圓目標框的標簽及其坐標值的xml文件.經(jīng)過標注的虹膜圖像如圖4所示.
圖4 虹膜圖像預處理
本文改進實驗的batchsize為8,一共訓練80個epoch,圖片輸入大小為640×480.Densenet的權重在Imagenet上預訓練完成.采用Adam優(yōu)化器,由于主干網(wǎng)絡已經(jīng)在Imagenet上預訓練,因此,Densenet的學習率設置為0.000 1,網(wǎng)絡中其他模塊的學習率設置成0.001,學習率每30個epoch下降為原來的1/10.在進行了40個epoch后,采用多尺度的訓練方式,隨機將圖片的尺度放大或者縮小來增強模型的尺度不變性.本文采用了隨機亮度、隨機對比度、圖片翻轉(zhuǎn)及圖片模糊等數(shù)據(jù)增強的方式.激活層使用leakey relu激活函數(shù).所有的實驗都是在一個單獨的1 080 ti上完成,訓練時間為6 h.對于每一個錨點,根據(jù)實際數(shù)據(jù)設置了9個錨點框,大小為 [(10,13),(16,30),(33,23),(30,61),(62,45),(59,119),(116,90),(156,198),(373,326)],對于與真實框的IOU大于0.7的錨點框,將其設置成正樣本,IOU小于0.3的錨點框設置成負樣本,IOU在0.3~0.7之間的樣本不作計算.在Non-local模塊中,放縮系數(shù)r設置為2.測試時,NMS非極大值抑制的閾值設置為0.4,物體的置信度閾值設置為0.75[14-15].
改進的模型結(jié)構(gòu)圖如圖5所示.
圖5 改進模型的結(jié)構(gòu)圖
改進模型的參數(shù)如表1所示.
可視化結(jié)果如圖6所示.使用Densenet特征提取網(wǎng)絡的矩形可視化結(jié)果如圖6a所示,使用Darknet特征提取模型的可視化結(jié)果如圖6b所示.
圖6 可視化結(jié)果
表1 改進模型的參數(shù)
由于目標檢測模型中的標定框和得到的預測框都是基于直角坐標系下的矩形框體,根據(jù)虹膜內(nèi)圓、外圓的幾何特征,虹膜定位要求輸出的是橢圓形的定位框.根據(jù)得到的矩形框體輸出橢圓形的標注框,最終本文系統(tǒng)得到的虹膜內(nèi)外圓定位結(jié)果的可視化圖像如圖7所示.可知本文模型的內(nèi)外圓定位效果.
圖7 模型最終可視化圖像
與未改進的算法相比,本文模型訓練效果有了顯著提升,同時loss曲線下降的趨勢更加平緩,本文改進網(wǎng)絡結(jié)構(gòu)訓練集的損失函數(shù)圖像如圖8所示.由各層loss曲線可知,本文模型能很快逼近曲線中損失函數(shù)的最小值,收斂速度快,所以能更好更快地擬合虹膜數(shù)據(jù)集.
YOLOV3虹膜圖像只需要定位出2種類別的物體,即虹膜的內(nèi)圓和外圓邊界.在傳統(tǒng)Daugman模型中,虹膜定位精確率為95.6%,Wilde模型定位精確率為95.3%,基于Darknet的YOLOV3模型定位精確率為92.4%,本文中通過優(yōu)化的模型精確率為97.1%.PR曲線如圖9所示,各模型評價指標對比如表2所示.
圖8 損失函數(shù)圖
圖9 PR曲線圖
表2 各模型評價指標對比
1) Darknet本身所特有的優(yōu)勢是速率較快,但它的特征提取能力差,容易出現(xiàn)退化現(xiàn)象.經(jīng)過改進的YOLOV3網(wǎng)絡將特征提取模塊換成優(yōu)良的特征提取模型Densenet-121,并添加了復制網(wǎng)絡及Non-local注意力機制增強學習到的語義特征,著重感興趣區(qū)域,即使是小目標虹膜也能夠?qū)W習到大量的特征信息,測試結(jié)果的精確率達到97.1%.
2) 本文模型在虹膜定位上超越了傳統(tǒng)虹膜定位算法精確率方面的各項評價指標.