陳金鑫,沈文忠
上海電力大學(xué) 電子與信息工程學(xué)院,上海201306
虹膜相較于指紋、面部等生理特征,具備著先天的與外在隔離的優(yōu)勢(shì),有著極高的穩(wěn)定性。與常見的指紋、面部相比有著更好的唯一性,防欺騙性與防偽性很好,有著廣泛的應(yīng)用前景[1-2]。但是虹膜認(rèn)證設(shè)備采集的圖片一般包含上半個(gè)面部,以及一些背景干擾等,如何精確高效地從整幅圖片中定位出人眼的位置,是虹膜識(shí)別設(shè)備處理獲取虹膜圖像的首要步驟。
傳統(tǒng)的人眼定位算法大致可以分為基于人眼的固有特征、基于外觀的統(tǒng)計(jì)模型以及基于結(jié)構(gòu)信息進(jìn)行人眼定位等。滕童等[3]提出了基于級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)的多任務(wù)虹膜快速定位方法。該算法引入級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)提取虹膜圖像特征,將虹膜定位分解成從粗定位到精確定位的步驟,該算法并非是端到端的邊框回歸,檢測(cè)速度較慢,而且僅是對(duì)于虹膜局部圖像的檢測(cè)且缺少眼睛類別,圖像檢索范圍較小,干擾因素不多。晁靜靜等[4]提出了基于方向梯度直方圖(HOG)和支持向量機(jī)(SVM)的人眼定位算法。該方法依賴于人眼的灰度梯度變化,在人臉面部圖像較大時(shí),由于鼻孔部位的灰度梯度值同樣變化較大,因而出現(xiàn)了誤檢的情形。同樣在應(yīng)對(duì)光照變化較大,圖像質(zhì)量較低以及戴眼鏡等情形下,準(zhǔn)確定位人眼的性能急劇下降。主動(dòng)外觀(ASM)是一種經(jīng)典的用于描述空間結(jié)構(gòu)的模型,Ishikawa等[5]提出了基于主動(dòng)外觀模型的人眼定位算法。但該模型是描述整個(gè)面部結(jié)構(gòu),當(dāng)面部區(qū)域信息過(guò)少,或者頭部轉(zhuǎn)動(dòng)角度過(guò)大,將難以定位出眼睛的位置。
隨著卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別與檢測(cè)領(lǐng)域取得的重大進(jìn)展,針對(duì)傳統(tǒng)人眼定位算法的缺陷引入YOLOV3-tiny[6]目標(biāo)檢測(cè)算法,結(jié)合輕量化網(wǎng)絡(luò)MobileNetV3[7]提出了EL-YOLO網(wǎng)絡(luò)。在中科院自動(dòng)化研究所公開的CASIA-IrisV4、MIR2016以及本實(shí)驗(yàn)室獲取的虹膜圖像數(shù)據(jù)集上取得了不錯(cuò)的效果。對(duì)于光照變化,以及頭發(fā)遮擋,圖像質(zhì)量較差的情形都有著優(yōu)秀的定位效果。
本文的工作有如下內(nèi)容:
(1)標(biāo)注了已有的開源虹膜數(shù)據(jù)集和本實(shí)驗(yàn)室采集獲取的虹膜數(shù)據(jù)集,對(duì)標(biāo)記的左右眼進(jìn)行區(qū)分,在做目標(biāo)檢測(cè)的同時(shí)進(jìn)行左右眼分類,且對(duì)眼睛的具體位置做出合理的定義,使得訓(xùn)練loss收斂合理。
(2)修改YOLO算法的損失函數(shù),結(jié)合廣義交并比[8](GIoU)對(duì)傳統(tǒng)的均方誤差(MSE)邊框定位損失函數(shù)進(jìn)行修改,以及對(duì)定位置信損失的修改,以此加快訓(xùn)練損失收斂。
(3)將YOLOV3-tiny與MobileNetV3相整合,提出EL-YOLO網(wǎng)絡(luò),降低了YOLOV3-tiny的參數(shù)量與計(jì)算量,將已有的YOLOV3模型降低到0.5 MB左右,使得模型能夠移植到嵌入式邊緣設(shè)備上運(yùn)行。
YOLOV3-tiny是一種單階段目標(biāo)檢測(cè)網(wǎng)絡(luò),與RCNN、Fast R-CNN、Faster R-CNN、MTCNN[9-12]等兩階段目標(biāo)檢測(cè)網(wǎng)絡(luò)相比,存在著目標(biāo)檢測(cè)速度快的優(yōu)點(diǎn)。
正因?yàn)槠涫菃坞A段目標(biāo)檢測(cè)網(wǎng)絡(luò),其目標(biāo)定位在神經(jīng)網(wǎng)絡(luò)的末端的特征圖就可以表示。網(wǎng)絡(luò)經(jīng)過(guò)一系列卷積層的特征提取,在最終輸出時(shí)分成兩個(gè)分支,特征圖面積越小,單位面積上的語(yǔ)義信息越豐富。網(wǎng)絡(luò)輸出結(jié)構(gòu)如圖1所示。
圖1 YOLOV3-tiny網(wǎng)絡(luò)輸出結(jié)構(gòu)Fig.1 Output structure of YOLOV3-tiny network
在圖1中分支1是預(yù)測(cè)較小的檢測(cè)目標(biāo),分支2是預(yù)測(cè)較大的檢測(cè)目標(biāo),因?yàn)橄虏蓸硬僮?,分?輸出特征圖的邊長(zhǎng)是分支2的2倍。在任意分支中,每一格點(diǎn)由4個(gè)邊框信息,1個(gè)置信度信息以及N類類別信息組成,由于預(yù)設(shè)k個(gè)接近定位目標(biāo)尺寸的錨點(diǎn)可以加快網(wǎng)絡(luò)定位速度,因此單個(gè)尺度的目標(biāo)表示信息有k組。
在最終訓(xùn)練后得到的特征圖上,每一個(gè)格點(diǎn)都會(huì)反映此區(qū)域是否有檢測(cè)目標(biāo)。訓(xùn)練時(shí),對(duì)于目標(biāo)所在區(qū)域的格點(diǎn)而言,邊框、置信度、類別信息都是可以訓(xùn)練的;對(duì)于無(wú)關(guān)的背景格點(diǎn),僅訓(xùn)練置信度一個(gè)信息即可,因?yàn)閱蝹€(gè)目標(biāo)中點(diǎn)的唯一性,所以其他位置的邊框會(huì)框進(jìn)無(wú)關(guān)信息,降低了目標(biāo)的置信度,僅通過(guò)置信度就可以排除背景格點(diǎn)。但是實(shí)際測(cè)試時(shí)僅用置信度來(lái)篩選目標(biāo)會(huì)導(dǎo)致接近目標(biāo)中心的格點(diǎn)無(wú)法被濾除,因?yàn)槠淇拷繕?biāo)中心,置信度有可能超過(guò)置信閾值,所以在測(cè)試時(shí)引入了非極大值抑制(NMS)算法,選取最大置信概率的定位目標(biāo)。
MobileNet[13]作為高性能的輕量級(jí)網(wǎng)絡(luò),其參數(shù)量極大減少,主要依賴的就是深度可分離卷積。普通的卷積操作是將一個(gè)多通道的圖像經(jīng)過(guò)一個(gè)多通道的卷積核變成單層特征圖像,輸出的多通道體現(xiàn)在卷積核的不同。深度可分離卷積分為兩步:深度卷積(Depthwise Convolution)與點(diǎn)卷積(Pointwise Convolution)。深度卷積即對(duì)輸入每個(gè)通道進(jìn)行平面卷積,獲得與輸入圖像通道數(shù)相同的特征圖像。點(diǎn)卷積是進(jìn)行1×1的立體卷積操作,選取N組1×1的立體卷積就會(huì)獲得N通道的輸出特征圖。其卷積步驟如圖2所示。
圖2 深度可分離卷積Fig.2 Depthwise convolution
假設(shè)在神經(jīng)網(wǎng)絡(luò)中,輸入通道為M,輸出通道數(shù)為N,使用的卷積核尺寸為S。那么普通卷積的訓(xùn)練參數(shù)量為(M×S×S+1)×N,深度可分離卷積的訓(xùn)練參數(shù)量為M×S×S+(M+1)×N,相較于普通卷積減少參數(shù)量為M×S×S×(N-1)-M×N。
YOLO網(wǎng)絡(luò)的每一層錨點(diǎn)框的數(shù)目是人為設(shè)定的,其中每個(gè)錨點(diǎn)的大小是按照具體訓(xùn)練的數(shù)據(jù)集進(jìn)行K-means[14]聚類獲得,其算法流程如圖3所示。
圖3 錨點(diǎn)框聚類流程圖Fig.3 Anchor box clustering flowchart
錨點(diǎn)框當(dāng)作超參數(shù)用于網(wǎng)絡(luò)訓(xùn)練,可以加快網(wǎng)絡(luò)對(duì)于定位目標(biāo)的查找。定位目標(biāo)的邊框?qū)嶋H信息需要對(duì)特征網(wǎng)絡(luò)預(yù)測(cè)的信息進(jìn)行解碼,邊界框如圖4所示,其中虛線框是預(yù)設(shè)錨點(diǎn)框,以( )cx,cy為矩形框中心坐標(biāo),Pw和Ph分別為預(yù)設(shè)錨點(diǎn)框的寬與高,實(shí)線框是實(shí)際目標(biāo)的邊框,( )tx,ty是實(shí)際邊框相對(duì)于錨點(diǎn)框的偏移,在YOLO網(wǎng)絡(luò)實(shí)際輸出中偏移量范圍為( -∞,+∞),而最終的輸出層每一格范圍為[0,1),所以要經(jīng)過(guò)sigmoid函數(shù)歸一化,優(yōu)點(diǎn)是可以加快網(wǎng)絡(luò)訓(xùn)練的收斂,同理以e為底數(shù)的邊框邊長(zhǎng)也是如此。
圖4 邊界框示意圖Fig.4 Diagram of boundary box
定位目標(biāo)的實(shí)際邊框信息表達(dá)為:
式中,σ是sigmoid函數(shù),(tw,th)是實(shí)際目標(biāo)邊框相對(duì)于預(yù)設(shè)錨點(diǎn)的寬高縮放比例。
由于YOLOV3-tiny網(wǎng)絡(luò)模型的主干網(wǎng)絡(luò)使用大量的卷積層,所以YOLOV3-tiny的模型大小達(dá)到33.8 MB。原YOLOV3-tiny網(wǎng)絡(luò)用于80類別物體的識(shí)別定位;而且原模型輸入圖像為彩色圖像,背景復(fù)雜多變需要較大的網(wǎng)絡(luò)模型去提取特征,針對(duì)虹膜圖像單一類別的目標(biāo)而言,且輸入圖像為灰度圖像,具有一定的可行性,可以設(shè)計(jì)輕量快速的模型完成定位及分類任務(wù)。
在主干網(wǎng)絡(luò)中使用MobileNetV3 block構(gòu)成特征提取網(wǎng)絡(luò)。單個(gè)MobileNetV3網(wǎng)絡(luò)塊由點(diǎn)卷積通道膨脹、深度卷積、點(diǎn)卷積通道壓縮、SENet塊、逆殘差結(jié)構(gòu)這些主要部分構(gòu)成。單個(gè)MobileNetV3塊如圖5所示。
圖5 MobileNetV3塊Fig.5 MobileNetV3 block
其中,PW與DW分別代表深度卷積與點(diǎn)卷積,NL代表非線性激活函數(shù),本文中主要用到三種激活函數(shù)h-swish、h-sigmoid以及ReLU。h-swish激活函數(shù)相對(duì)于swish[15]函數(shù)計(jì)算更快,其表達(dá)式為:
EL-YOLO網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖6所示,其中實(shí)線框內(nèi)為主干特征提取網(wǎng)絡(luò),具體內(nèi)容見表1。網(wǎng)絡(luò)末端兩個(gè)分支輸出的通道數(shù)都為7,其中前1~4通道表征人眼邊框信息,第5通道表征定位人眼的置信度和第6、7通道表征定位的左右眼分類。網(wǎng)絡(luò)末端采用普通卷積操作,其中在中尺度目標(biāo)定位24×18分支處,上采樣操作之后并非如YOLO一樣采用通道連接的策略,而是選擇直接相加,可以減少網(wǎng)絡(luò)參數(shù)并且提高運(yùn)算速率。
圖6 EL-YOLO網(wǎng)絡(luò)整體結(jié)構(gòu)圖Fig.6 Overall structure diagram of EL-YOLO network
人眼定位的特征提取網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 特征提取網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of feature extraction
表1中每一層都引入MobileNetV3 block的結(jié)構(gòu),且卷積核尺寸都是3×3大小。表1中的膨脹與輸出指的是網(wǎng)絡(luò)卷積層通道數(shù),網(wǎng)絡(luò)的下采樣不采用池化操作,通過(guò)卷積運(yùn)算的步長(zhǎng)調(diào)整來(lái)實(shí)現(xiàn)。
整體的網(wǎng)絡(luò)訓(xùn)練損失由邊框交并比(IoU)損失、置信度損失以及類別損失構(gòu)成。在此IoU損失引入廣義交并比(GIoU),這個(gè)相較于傳統(tǒng)的IoU可以反映出預(yù)測(cè)框和標(biāo)簽框在沒(méi)有交集時(shí)的遠(yuǎn)近,即在IoU為0時(shí),GIoU不為0,訓(xùn)練梯度不為0,依然可以進(jìn)行反向傳播,訓(xùn)練網(wǎng)絡(luò)。GIoU的表達(dá)式為:
此處C是包含A與B的最小框,C( )A?B表示C排除掉A與B的交集。LossGIoU的計(jì)算公式為:
式中,λscale是表示預(yù)測(cè)目標(biāo)大小的權(quán)重,越小的檢測(cè)目標(biāo)系數(shù)權(quán)重越大。a×b表示預(yù)測(cè)特征圖的尺寸,c表示每個(gè)尺寸的錨點(diǎn)數(shù),代表特征圖此處有檢測(cè)目標(biāo)。GIoU的詳細(xì)計(jì)算方法如公式(6)所示,本處是計(jì)算預(yù)測(cè)值邊框信息(xi,yi,wi,hi)與實(shí)際邊框信息之間的廣義交并比,相較于YOLO算法采用的均方誤差(MSE)更能反映預(yù)測(cè)檢測(cè)框的檢測(cè)效果的好壞。
左右眼類別損失與邊框損失相似,僅僅考慮在有目標(biāo)時(shí)候的損失情況,LossCls的計(jì)算公式為:
式中,ci代表目標(biāo)類別預(yù)測(cè)值,ci代表目標(biāo)類別標(biāo)簽值。
置信損失不僅需要考慮有目標(biāo)時(shí)的置信損失,也需要考慮無(wú)檢測(cè)目標(biāo)的置信損失,因?yàn)檫@是確定目標(biāo)位置的首要信息。LossConf的計(jì)算公式為:
式中,λallobj是預(yù)測(cè)的所有格點(diǎn)的系數(shù),即該格點(diǎn)處是否有目標(biāo)都要乘以該系數(shù)。λallobj系數(shù)后的因子為交叉熵?fù)p失。λallobj的計(jì)算公式如下:
λallobj是衡量預(yù)測(cè)整體結(jié)構(gòu)與標(biāo)簽之間的距離情況,本文中 ?=1,γ=2,即用L2距離。上述公式(7)、(8)、(9)中:代表特征圖此處有檢測(cè)目標(biāo),反之代表沒(méi)有,Ci代表置信度預(yù)測(cè)值,代表置信度標(biāo)簽值。
本實(shí)驗(yàn)的數(shù)據(jù)集由中科院自動(dòng)化研究所公開的CASIA-IrisV4、MIR2016和本實(shí)驗(yàn)室采集的虹膜數(shù)據(jù)集構(gòu)成,選取CASIA-IrisV4-Distance與MIR2016庫(kù)中分別為2 567與4 499張含有雙眼的虹膜圖像,抽取CASIAIrisV4庫(kù)中和本實(shí)驗(yàn)室采集的單眼圖像SEPAD_V1共計(jì)2110張,訓(xùn)練與測(cè)試集數(shù)目具體劃分見表2。
表2 數(shù)據(jù)集構(gòu)成Table 2 Dataset composition
無(wú)論是公開數(shù)據(jù)集還是實(shí)驗(yàn)室自采集數(shù)據(jù)集SEPAD_V1、SEPAD_V2都沒(méi)有眼睛區(qū)域的精確標(biāo)注和分類標(biāo)注,本文眼睛標(biāo)注的邊框有如下要求,邊框的左右邊界要包含內(nèi)外眼角,邊框的上下邊界至少要包含眼瞼邊界,使用Imglab標(biāo)注工具對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,如圖7所示。
圖7 標(biāo)注軟件:ImglabFig.7 Labeling software:Imglab
圖8選自CASIA-IrisV4數(shù)據(jù)庫(kù),圖片編號(hào)為S4000D00,展示該圖像局部細(xì)節(jié),可以發(fā)現(xiàn)數(shù)據(jù)集標(biāo)注的信息包含眼睛位置與關(guān)鍵點(diǎn)位置。在實(shí)際網(wǎng)絡(luò)訓(xùn)練中,由于人為標(biāo)注邊框的大小不統(tǒng)一,所以使用標(biāo)注的眼睛局部關(guān)鍵點(diǎn)所占據(jù)的范圍當(dāng)作實(shí)際邊框。
圖8 眼睛標(biāo)注細(xì)節(jié)信息Fig.8 Eye label details
實(shí)驗(yàn)使用的工作站及運(yùn)行環(huán)境配置如表3所示。
表3 工作站及運(yùn)行環(huán)境配置Table 3 Workstation and operating environment configuration
EL-YOLO網(wǎng)絡(luò)的訓(xùn)練策略設(shè)置如表4所示。
表4 訓(xùn)練策略設(shè)置Table 4 Training strategy settings
利用K-means聚類算法對(duì)虹膜圖像數(shù)據(jù)集中眼睛的邊框大小進(jìn)行聚類,分別歸一化到12×9和24×18的圖像大小,聚類結(jié)果分別為(6.906 25×2.781 25)與(3.437 5×1.312 5)。將聚類結(jié)果寫入配置文件以便ELYOLO網(wǎng)絡(luò)帶入訓(xùn)練。
眼睛定位的精確率(Precision)與召回率(Recall)公式如下:
式中,TP(True Positive)表示預(yù)測(cè)與標(biāo)簽一致,通常預(yù)測(cè)與標(biāo)簽的IoU達(dá)到0.5即可認(rèn)為是TP[9]。FP(False Positive)表示把負(fù)例預(yù)測(cè)為正例,F(xiàn)N(False Negative)表示正例預(yù)測(cè)為負(fù)例。
3.3.1 數(shù)據(jù)集測(cè)試及網(wǎng)絡(luò)收斂表現(xiàn)
經(jīng)過(guò)在CASIA-IrisV4、MIR2016和本實(shí)驗(yàn)室采集的虹膜數(shù)據(jù)集上訓(xùn)練后,不同數(shù)據(jù)集測(cè)試集部分的定位表現(xiàn)以及分類準(zhǔn)確性[18]如表5所示。
表5 不同數(shù)據(jù)集測(cè)試表現(xiàn)Table 5 Test performance on different datasets
在默認(rèn)的IoU閾值為0.5時(shí)[9],平均定位準(zhǔn)確率達(dá)到99.96%,在標(biāo)簽與預(yù)測(cè)邊框同等尺寸下,交集已經(jīng)占據(jù)了標(biāo)簽框面積的66.67%,重疊已經(jīng)較多。更進(jìn)一步衡量在不同IoU閾值下EL-YOLO網(wǎng)絡(luò)模型的表現(xiàn),其定位準(zhǔn)確率如表6所示。
表6 不同IoU下平均定位準(zhǔn)確率Table 6 Average positioning accuracy under different IoU
測(cè)試集中一些圖片的眼睛定位及分類置信率結(jié)果如圖9所示。
圖9(a)與(b)是同一對(duì)象的雙眼虹膜圖像,圖9(a)是對(duì)象的左眼處于半睜開狀態(tài),圖9(b)是其帶眼鏡進(jìn)行干擾拍攝的圖像,可以發(fā)現(xiàn)EL-YOLO網(wǎng)絡(luò)可以克服眨眼和眼鏡帶來(lái)的干擾。圖9(c)與(d)是同一對(duì)象在不同光照條件下拍攝的雙眼虹膜圖像,在其具體定位效果以及置信率來(lái)看,EL-YOLO網(wǎng)絡(luò)可以有效克服光照帶來(lái)的影響。圖9(e)與圖9(f)是同一用戶的左右眼單眼圖像,可以發(fā)現(xiàn)分類置信率依然很高,可知EL-YOLO網(wǎng)絡(luò)具有很強(qiáng)的定位和分類能力,而不是依賴雙眼圖像的眼睛相對(duì)空間位置關(guān)系給出的簡(jiǎn)易判定,這也是在訓(xùn)練網(wǎng)絡(luò)時(shí)引入單眼數(shù)據(jù)集的原因。圖9(g)是上述測(cè)試中唯一的一例錯(cuò)把右眼當(dāng)成左眼的情況,從圖中可以發(fā)現(xiàn)有較大反射光斑以及眼鏡鏡框干擾,但是其分類置信率較低,說(shuō)明網(wǎng)絡(luò)對(duì)這幅圖像的判別不是過(guò)于肯定。
圖9 EL-YOLO網(wǎng)絡(luò)測(cè)試效果(左右眼類別:置信度)Fig.9 EL-YOLO network test results(left and right eye classification:confidence)
EL-YOLO網(wǎng)絡(luò)在目標(biāo)回歸訓(xùn)練時(shí)引入了廣義交并比(GIoU),通過(guò)一個(gè)訓(xùn)練批次后的測(cè)試損失,比較了網(wǎng)絡(luò)引入GIoU和常規(guī)交并比(IoU)在前10個(gè)批次的網(wǎng)絡(luò)收斂情況。二者的網(wǎng)絡(luò)收斂情況如圖10所示,可以發(fā)現(xiàn)本網(wǎng)絡(luò)收斂都很快,但是在第2到5批次訓(xùn)練時(shí),引入GIoU損失函數(shù)的網(wǎng)絡(luò)收斂更為迅速,且最終的網(wǎng)絡(luò)整體損失略低。
圖10 不同交并比的網(wǎng)絡(luò)收斂情況Fig.10 Convergence of networks with different intersection-over-union
3.3.2 負(fù)樣本抗干擾測(cè)試
在實(shí)際使用中,虹膜認(rèn)證設(shè)備在沒(méi)有用戶使用或者畫面中未出現(xiàn)虹膜圖像時(shí)并不需要進(jìn)行采集無(wú)關(guān)圖像進(jìn)行后續(xù)的匹配認(rèn)證。實(shí)驗(yàn)采集了704幅不含眼睛的負(fù)樣本,這些負(fù)樣本實(shí)際使用中可能出現(xiàn)的干擾物體,有些圖像接近眼睛的大致形狀來(lái)予以干擾,以此來(lái)檢測(cè)網(wǎng)絡(luò)的健壯性。部分負(fù)樣本如圖11所示。
圖11 負(fù)樣本示例Fig.11 Negative sample
將負(fù)樣本圖像放入EL-YOLO網(wǎng)絡(luò)進(jìn)行測(cè)試,測(cè)試的結(jié)果與正樣本出現(xiàn)頻次進(jìn)行統(tǒng)計(jì),結(jié)果如圖12所示。圖12中的橫軸代表置信率分布區(qū)間,縱軸代表在該區(qū)間出現(xiàn)的頻次。從圖12可以發(fā)現(xiàn),當(dāng)EL-YOLO的置信度設(shè)置在0.9以上可以排除絕大部分干擾,體現(xiàn)了EL-YOLO網(wǎng)絡(luò)的實(shí)用性與穩(wěn)健性。
圖12 正負(fù)樣本出現(xiàn)頻次統(tǒng)計(jì)Fig.12 Statistics of frequency of positive and negative samples
3.3.3 算法對(duì)比
EL-YOLO網(wǎng)絡(luò)模型的浮點(diǎn)運(yùn)算次數(shù)(FLOPs)為1.17億,參數(shù)量119 945個(gè),即模型469 000大小。在前述的工作站配置下處理2 560×960分辨率的圖片,檢測(cè)速率可達(dá)34幀/s,可以滿足實(shí)時(shí)應(yīng)用的需求。相較于YOLOV3-tiny[6]的55.6億的浮點(diǎn)運(yùn)算次數(shù),EL-YOLO是低算力消耗的模型,擁有在嵌入式邊緣設(shè)備運(yùn)行的能力。
EL-YOLO網(wǎng)絡(luò)以及其他眼睛定位算法的準(zhǔn)確率如表7所示,可以發(fā)現(xiàn)本文算法在能夠區(qū)分左右眼的同時(shí)定位準(zhǔn)確率依然很高。其中級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)[3]的算法與基于HOG和SVM[4]的算法都沒(méi)有對(duì)左右眼進(jìn)行分類。雖然基于HOG和SVM的算法準(zhǔn)確率較高,但它并不是端到端的方法,準(zhǔn)確率是通過(guò)多種策略組合處理獲得的結(jié)果,計(jì)算量大,復(fù)雜度高。如果在不考慮分類正確的情況下本文算法的定位準(zhǔn)確率將會(huì)更高。YOLOV3-tiny[6]由于網(wǎng)絡(luò)參數(shù)較多,應(yīng)對(duì)復(fù)雜場(chǎng)景的處理能力更強(qiáng),但是在邊緣設(shè)備上使用代價(jià)過(guò)大。
表7 不同方法的定位準(zhǔn)確率Table 7 Positioning accuracy of different methods
針對(duì)在虹膜圖像中的人眼位置確定以及左右眼區(qū)分問(wèn)題,本文提出了EL-YOLO模型來(lái)解決上述問(wèn)題。將輕量級(jí)網(wǎng)絡(luò)引入模型,將模型減小到0.5 MB,使得模型擁有在邊緣設(shè)備上運(yùn)行的能力,同時(shí)修改網(wǎng)絡(luò)的損失函數(shù),使模型快速收斂。實(shí)驗(yàn)結(jié)果表明,對(duì)于正負(fù)樣本,網(wǎng)絡(luò)都可以擁有很好的區(qū)分能力以及定位效果,最終的定位準(zhǔn)確率可達(dá)99.96%。本模型為后續(xù)的虹膜定位以及識(shí)別等奠定了基礎(chǔ),具有一定的實(shí)用價(jià)值。