亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ADEU-Net分割網(wǎng)絡(luò)的瞳孔精確分割方法

        2023-01-29 13:21:06張賀童裴融浩丁上上付威威
        關(guān)鍵詞:人眼瞳孔注意力

        張賀童,姚 康,裴融浩,丁上上,付威威

        1.中國(guó)科學(xué)技術(shù)大學(xué) 生物醫(yī)學(xué)工程學(xué)院(蘇州),生命科學(xué)與醫(yī)學(xué)部,江蘇 蘇州215000

        2.中國(guó)科學(xué)院 蘇州生物醫(yī)學(xué)工程技術(shù)研究所,江蘇 蘇州215000

        在計(jì)算機(jī)視覺(jué)研究領(lǐng)域,通過(guò)提取人眼特征開(kāi)展人眼相關(guān)技術(shù)研究一直是該領(lǐng)域的主要研究方向之一。瞳孔的檢測(cè)分割作為人眼檢測(cè)中一個(gè)重要的中間環(huán)節(jié),在眨眼檢測(cè)、疲勞檢測(cè)、人機(jī)交互等領(lǐng)域有著重要的應(yīng)用前景。余龍華等[1]提出一種自動(dòng)定位瞳孔的方法。該方法利用人眼在人臉的位置分布設(shè)置人眼的搜索區(qū)域,通過(guò)AdaBoost(the adaptive boosting algorithm)算法搜索先前設(shè)置好的區(qū)域,可以得到人眼所在粗略位置,利用圖像二值化和Canny算法提取圖像輪廓,通過(guò)對(duì)提取的輪廓進(jìn)行橢圓擬合得到人的眼球中心坐標(biāo),即瞳孔的位置。這種方法依賴(lài)于圖像的質(zhì)量和人眼的姿態(tài),在光照不均衡情況下,圖像質(zhì)量較差,且對(duì)于瞳孔形變和瞳孔不完全露出等情況,無(wú)法實(shí)現(xiàn)精確分割。郝明剛等[2]提出一種利用單目攝像頭快速定位人眼的方法,通過(guò)改進(jìn)的AdaBoost方法構(gòu)造級(jí)聯(lián)強(qiáng)分類(lèi)器定位人臉,根據(jù)人眼眨眼前后眼部區(qū)域灰度變化顯著的特點(diǎn)檢測(cè)人眼區(qū)域,采用邊緣提取、局部Hough變換檢測(cè)圓心的方法定位瞳孔中心。該算法對(duì)于非圓形瞳孔或瞳孔被遮擋等情況無(wú)法實(shí)現(xiàn)瞳孔定位,且Hough變換得出的瞳孔區(qū)域精確度較低。Morimoto等[3]提出了使用兩個(gè)與攝像機(jī)幀速率同步的近紅外時(shí)間光源。這兩個(gè)光源分別產(chǎn)生明亮和暗瞳孔圖像,用于瞳孔分割;該方法對(duì)攝像頭采集圖像的環(huán)境依賴(lài)較大且設(shè)備要求較高,采用圖像差值的方式,對(duì)人眼運(yùn)動(dòng)過(guò)程中的檢測(cè)識(shí)別率較低,不具有較高的魯棒性。黃何等[4]直接用網(wǎng)絡(luò)攝像頭采集影像,結(jié)合了Haar人眼檢測(cè)和基于梯度的瞳孔中心檢測(cè)算法完成瞳孔定位,且在原梯度檢測(cè)算法上提出了改進(jìn)方法,從K條徑向輻射方向?qū)ふ液缒み吘壱约捌潢P(guān)鍵梯度,并進(jìn)一步調(diào)整K條徑向直線(xiàn)的分布范圍。這種方法難以確定K值,對(duì)不同的圖像需要設(shè)定不同K值才能達(dá)到準(zhǔn)確檢測(cè)的效果,導(dǎo)致泛化能力較差,并且這種方法對(duì)于瞳孔不完全露出的情況檢測(cè)成功率不高。

        Zhu等[5]提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)結(jié)合瞳孔不同特征的瞳孔分割算法,考慮瞳孔的三個(gè)特征進(jìn)行瞳孔分割。實(shí)驗(yàn)結(jié)果表明,該算法的性能優(yōu)于目前的傳統(tǒng)圖像處理方法,但該算法是圖像處理的結(jié)果進(jìn)行運(yùn)算得出最優(yōu)中心,無(wú)法做到端到端的深度學(xué)習(xí),分割結(jié)果受前期圖像處理的質(zhì)量和瞳孔特征選擇的影響較大。Bastos等[6]提出了一種新的瞳孔分割方法,該方法基于拉推法和BSOM神經(jīng)網(wǎng)絡(luò),對(duì)瞳孔分割效果進(jìn)行了改進(jìn);但是該方法對(duì)于瞳孔遮擋等情況下,分割失敗率較高,且兩種策略結(jié)合后導(dǎo)致運(yùn)算速度慢,無(wú)法滿(mǎn)足實(shí)時(shí)性要求。Ronneberger等[7]提出了一種神經(jīng)網(wǎng)絡(luò)和訓(xùn)練策略,它通過(guò)訓(xùn)練圖像樣本達(dá)到語(yǔ)義分割的效果。他們證明,這種網(wǎng)絡(luò)可以從極少數(shù)的圖像中實(shí)現(xiàn)端到端的訓(xùn)練,并成為在電子顯微鏡中對(duì)神經(jīng)元結(jié)構(gòu)的分割的最佳方法。Sevastopolsky等[8]提出了一種基于深度學(xué)習(xí)的視盤(pán)自動(dòng)分割的通用方法,通過(guò)對(duì)U-Net的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),加深了網(wǎng)絡(luò)的深度,從而提取出更高的抽象特征。由于瞳孔和上下眼瞼之間的距離十分相近,因此單純地加深U-Net網(wǎng)絡(luò)可能會(huì)導(dǎo)致邊界分割不清,并不適合瞳孔的語(yǔ)義分割。

        研究表明,當(dāng)下研究熱點(diǎn)正在逐步從傳統(tǒng)圖像處理算法向深度學(xué)習(xí)轉(zhuǎn)移,但仍未出現(xiàn)成熟的端到端學(xué)習(xí)的瞳孔語(yǔ)義分割算法,盡管現(xiàn)有的瞳孔分割方法取得了卓有成效的研究成果,但是對(duì)瞳孔分割高精度、高魯棒性以及高泛化能力的需求仍迫切需要解決。

        充分考慮人眼結(jié)構(gòu)的復(fù)雜度、瞳孔運(yùn)動(dòng)速度、瞳孔遮擋等因素,本文提出一種高效的深度語(yǔ)義分割網(wǎng)絡(luò),即基于注意力的深度膨脹卷積U型網(wǎng)絡(luò)(attentionbased deep expansion convolutional U-shaped network,ADEU-Net),其采用了FCN[9]與U-Net以及基于U-Net的改進(jìn)網(wǎng)絡(luò)[10-21]的設(shè)計(jì)思想,即降采樣抽取不同層次的特征再結(jié)合上采樣至原圖大小進(jìn)行預(yù)測(cè),主要是在瞳孔語(yǔ)義特征提取的基礎(chǔ)上完成瞳孔的精細(xì)化重建,從而進(jìn)行自動(dòng)語(yǔ)義分割,避免了在以往算法中存在的一些盲目搜索。該網(wǎng)絡(luò)首次提出膨脹卷積和普通卷積雙線(xiàn)并行,在不加深網(wǎng)絡(luò)層數(shù)的前提下,提取到更加豐富高級(jí)的特征;引入注意力機(jī)制,并且基于注意力機(jī)制進(jìn)行通道篩選,用以保證瞳孔特征被充分激活。實(shí)驗(yàn)結(jié)果表明,該方法是有效且可行的。

        1 人眼圖像中瞳孔的特征分析

        瞳孔分割一般采用紅外光照明。紅外光照明時(shí),由于瞳孔和虹膜對(duì)紅外光的吸收率不同,能夠突出瞳孔部分,如圖1(a)所示。由于紅外光源散射導(dǎo)致人眼光照分布不均衡,在瞳孔附近產(chǎn)生了陰影區(qū)域,且加深了睫毛的色深,導(dǎo)致睫毛和瞳孔難以分割。瞳孔位于上下眼瞼之間,在不同姿態(tài)下,受到睫毛與眼瞼的干擾也不同,如圖1(b)所示,瞳孔大部分被上眼瞼遮住,為瞳孔的分割帶來(lái)了困難,傳統(tǒng)的基于Hough圓的瞳孔分割方法也因此而受到制約。

        圖1 不同姿態(tài)下瞳孔狀態(tài)Fig.1 Pupil state in different postures

        2 基于ADEU-Net的人眼圖像語(yǔ)義分割技術(shù)

        2.1 ADEU-Net原理

        通過(guò)對(duì)已有瞳孔分割方法與語(yǔ)義分割進(jìn)行研究分析,本文提出一種基于ADEU-Net深度語(yǔ)義分割網(wǎng)絡(luò)的瞳孔精確分割方法,方法具體流程如圖2所示。

        圖2 瞳孔語(yǔ)義分割流程圖Fig.2 Flow chart of pupil semantic segmentation

        ADEU-Net網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,整個(gè)神經(jīng)網(wǎng)絡(luò)主要由兩部分組成:收縮路徑和擴(kuò)展路徑。收縮路徑主要是用來(lái)捕捉圖片中的上下文信息,而與之相對(duì)稱(chēng)的擴(kuò)展路徑則是為了對(duì)圖片中所需要分割出來(lái)的部分進(jìn)行精準(zhǔn)定位。ADEU-Net基于U-Net進(jìn)行改進(jìn),并且利用數(shù)據(jù)增強(qiáng)技術(shù)對(duì)少樣本進(jìn)行擴(kuò)增,從而增大訓(xùn)練集進(jìn)行訓(xùn)練。首先,對(duì)獲得的人眼圖像進(jìn)行縮放至320×256的分辨率。將圖像輸入進(jìn)ADEU-Net網(wǎng)絡(luò),經(jīng)過(guò)DC-Block(dialted and common convolution kernel block)結(jié)構(gòu)進(jìn)行多層膨脹卷積與普通卷積并行的操作,不同DCBlock分別提取圖像不同層次的抽象特征,層次越高的DC-Block提取出來(lái)的特征則越抽象,能夠從全局角度反映圖像的語(yǔ)義。之后,對(duì)不同層次的DC-Block通過(guò)反卷積進(jìn)行上采樣并堆疊融合,從而使每一層融合之后的結(jié)果,既包含高度抽象的圖像特征又包含局部精細(xì)化的圖像特征,經(jīng)過(guò)Attention-Block的加權(quán)處理后,瞳孔的語(yǔ)義特征被放大,非瞳孔的語(yǔ)義特征被縮小甚至遮蔽,最終將融合后的圖像特征經(jīng)過(guò)Sigmoid激活層,與原圖像的瞳孔分割圖進(jìn)行代價(jià)計(jì)算,通過(guò)binary_crossentropy計(jì)算網(wǎng)絡(luò)前饋傳播的損失,并通過(guò)反向傳播計(jì)算梯度來(lái)調(diào)整參數(shù)取值。當(dāng)網(wǎng)絡(luò)訓(xùn)練迭代至60輪時(shí),已經(jīng)能較高精度地分割出瞳孔區(qū)域,并減少了睫毛、眼瞼、虹膜及皮膚痣的干擾,因?yàn)檫@些干擾項(xiàng)本身并不具有瞳孔的語(yǔ)義特征,因此能被過(guò)濾掉。

        圖3 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Network structure diagram

        U-Net的網(wǎng)絡(luò)結(jié)構(gòu)在收縮路徑中進(jìn)行4次3層普通卷積后再最大池化的操作,縮放原始輸入尺寸16倍,在擴(kuò)張路徑中進(jìn)行4次Upsampling上采樣并與之前的同尺度的卷積層堆疊融合,直到達(dá)到與原圖相同尺度,之后通過(guò)Sigmoid激活函數(shù)進(jìn)行輸出并反向傳播調(diào)整網(wǎng)絡(luò)參數(shù)。

        本文通過(guò)對(duì)不同人眼瞳孔數(shù)據(jù)進(jìn)行采集與標(biāo)注,經(jīng)過(guò)ADEU-Net網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練,充分學(xué)習(xí)瞳孔的語(yǔ)義特征,并瞳孔分割,提高了人眼各種狀態(tài)下瞳孔分割的準(zhǔn)確性,減少了瞳孔分割的步驟,該算法具有較高的精確度、泛化能力與魯棒性,且運(yùn)算速度可以達(dá)到83 frame/s,具有較高的實(shí)用價(jià)值。

        2.2 DC-Block結(jié)構(gòu)

        本文的ADEU-Net網(wǎng)絡(luò)起始于收縮路徑,在收縮路徑中提出DC-Block結(jié)構(gòu),即普通卷積層與膨脹卷積層并行且層層融合的形式。如圖4所示,Input層分別進(jìn)行普通卷積和膨脹卷積,然后將兩層普通卷積后的特征層進(jìn)行融合,再進(jìn)行最大池化。將獲得的池化層與兩層膨脹卷積后的池化層進(jìn)行融合。

        圖4 DC-Block結(jié)構(gòu)圖Fig.4 DC-Block structure diagram

        在深度語(yǔ)義提取過(guò)程中,卷積核的感受野十分重要,本文通過(guò)DC-Block結(jié)構(gòu)利用膨脹卷積充分?jǐn)U大每一個(gè)像素點(diǎn)的感受野,提高其全局分類(lèi)能力。如圖5所示,經(jīng)過(guò)兩層膨脹卷積,第一層卷積核大小為3×3,膨脹率為2,第二層卷積核大小為3×3,膨脹率為8,第三層的時(shí)候,感受野已經(jīng)擴(kuò)張成27×27,這對(duì)于大物體的分割能力提升較高,并且能抗干擾能力強(qiáng).由于考慮了每一個(gè)像素其周?chē)蠓秶南袼攸c(diǎn)特征,因此對(duì)睫毛、噪聲、深色雜質(zhì)等干擾項(xiàng)具有較好的抵抗能力,減少了錯(cuò)誤分類(lèi)的概率。

        圖5 膨脹卷積示意圖Fig.5 Dilated convolution diagram

        由于單純使用膨脹卷積對(duì)[22]會(huì)導(dǎo)致圖像網(wǎng)格化,如圖6所示,因此采用膨脹網(wǎng)絡(luò)對(duì)一些大物體分割有較好效果,而對(duì)小物體來(lái)說(shuō)則有弊無(wú)利,而瞳孔對(duì)于人眼來(lái)說(shuō),是一個(gè)小物體,占比人眼約5%~10%的空間。并且因?yàn)榕蛎浘矸e的網(wǎng)格化效應(yīng)丟失較多局部信息,會(huì)導(dǎo)致圖像邊緣分割粗糙,局部語(yǔ)義抽取能力較低,對(duì)瞳孔的分割可能會(huì)出現(xiàn)不全面的空洞現(xiàn)象或者邊界溢出以及睫毛、眼瞼的錯(cuò)誤分類(lèi)等現(xiàn)象。實(shí)驗(yàn)中,發(fā)現(xiàn)完全使用膨脹卷積的網(wǎng)絡(luò)將導(dǎo)致瞳孔的分割精度低,內(nèi)部呈現(xiàn)較多空洞現(xiàn)象,如圖7所示。

        圖6 膨脹卷積的網(wǎng)格效應(yīng)圖Fig.6 Grid effect diagram of dilated convolution

        圖7 U-Net的膨脹卷積分割效果圖Fig.7 Dilated convolution segmentation effect diagram of U-Net

        當(dāng)全網(wǎng)絡(luò)只使用普通非膨脹卷積(如U-Net網(wǎng)絡(luò)只使用了普通卷積)對(duì)圖像進(jìn)行分割時(shí),由于要抽取更多全局信息,擴(kuò)大卷積的感受野,不得不對(duì)圖像進(jìn)行多層最大池化操作(MaxPooling),使大量局部信息丟失,導(dǎo)致邊界變得模糊,眼瞼、睫毛和瞳孔無(wú)法完全區(qū)分開(kāi),并且存在瞳孔分割不完全的現(xiàn)象,如圖8所示。受到輸入圖像尺寸的限制,網(wǎng)絡(luò)不可能無(wú)限加深,最大池化層的疊加次數(shù)受到限制,致使卷積感受野有限,因此對(duì)濃密的睫毛區(qū)域存在錯(cuò)誤分類(lèi)較多的情況,因?yàn)閺木植繀^(qū)域來(lái)看睫毛與瞳孔的特征相似,如本身的顏色接近黑色與瞳孔相似,且睫毛也處于眼瞼和眼白之間,導(dǎo)致語(yǔ)義分割困難,因此提高卷積的全局信息捕捉能力并且保持局部精細(xì)化能力是做好瞳孔精準(zhǔn)分割的基礎(chǔ)。

        圖8 U-Net的普通卷積分割效果圖Fig.8 Common convolution segmentation effect of U-Net

        本結(jié)構(gòu)同時(shí)并行了普通卷積與膨脹卷積,用于增強(qiáng)每一個(gè)像素點(diǎn)的局部特征與全局特征,提高分類(lèi)能力。隨后對(duì)膨脹卷積計(jì)算出的特征圖與普通卷積計(jì)算出的特征圖進(jìn)行融合,采用堆疊融合的方式,隨后進(jìn)行最大池化,保留最重要的特征,并為接下來(lái)的特征提取操作增大感受野。這時(shí),在下一層的DC-Block結(jié)構(gòu)中,普通卷積和膨脹卷積既能捕捉每一個(gè)像素點(diǎn)的全局特征又能捕捉其局部特征,在更大的感受野上進(jìn)行計(jì)算,得出的特征圖具有更好的語(yǔ)義特征。本網(wǎng)絡(luò)在收縮路徑中,連接了2層DC-Block,其每一層計(jì)算出的特征圖均具備全局特征和局部特征,為接下來(lái)的擴(kuò)張路徑提供了更好的基礎(chǔ)。并且使用膨脹卷積,能夠在提高感受野的同時(shí)不增加過(guò)多的參數(shù)量,為瞳孔的實(shí)時(shí)語(yǔ)義分割提供了基礎(chǔ)。

        為了進(jìn)一步優(yōu)化分割結(jié)果,在收縮路徑前向傳播的同時(shí),對(duì)擴(kuò)展路徑中獲得的不同層次的多個(gè)特征圖分別使用注意力生成模塊(attention generation block)生成對(duì)應(yīng)層級(jí)的權(quán)重圖,獲得精細(xì)化的語(yǔ)義結(jié)果。

        2.3 注意力生成結(jié)構(gòu)

        圖9為注意力生成結(jié)構(gòu)的示意圖,其步驟為:

        圖9 注意力生成結(jié)構(gòu)圖Fig.9 Attention generation block structure diagram

        (1)對(duì)不同尺度和深度的特征層輸入,采用3×3卷積層進(jìn)行2次降維,至與Input相同的通道數(shù),用于進(jìn)行激活;(2)利用Sigmoid激活層對(duì)特征圖中的值進(jìn)行0~1的轉(zhuǎn)換,越接近1的越應(yīng)該被重視;(3)與Input的結(jié)果進(jìn)行相乘,從而可以對(duì)Input中的每一個(gè)特征圖進(jìn)行注意力加權(quán)。

        由于瞳孔所占圖像整體的面積較小,在進(jìn)行訓(xùn)練時(shí),為了能夠?qū)ν仔畔⑦M(jìn)行進(jìn)行強(qiáng)調(diào),本文在此加入了注意力生成結(jié)構(gòu)。

        經(jīng)過(guò)網(wǎng)絡(luò)收縮路徑的前向傳播,得到多層不同抽象程度的人眼特征圖。圖10對(duì)注意力機(jī)制進(jìn)行了可視化,展示了神經(jīng)網(wǎng)絡(luò)所關(guān)注的區(qū)域。由圖10可以看到,第一層注意力結(jié)構(gòu)在邊緣處出現(xiàn)了大量的亮黃色像素,表明其主要關(guān)注邊緣信息過(guò)濾了上下眼瞼帶來(lái)的干擾,第二層注意力結(jié)構(gòu)在瞳孔區(qū)域出現(xiàn)了大量的亮(黃)色像素,代表著注意力結(jié)構(gòu)當(dāng)前主要關(guān)注的區(qū)域在瞳孔上。本文提出的網(wǎng)絡(luò)通過(guò)注意力結(jié)構(gòu)來(lái)強(qiáng)調(diào)或選擇眼部的重要信息即瞳孔區(qū)域,并且抑制一些無(wú)關(guān)的干擾區(qū)域。

        圖10 注意力加權(quán)效果圖Fig.10 Attention weighting effect diagram

        圖10形象地說(shuō)明了注意力機(jī)制的作用原理,也闡明了一下所說(shuō)的兩點(diǎn)意義。

        引入注意力機(jī)制的意義:

        (1)選擇聚焦位置,產(chǎn)生更具分辨性的特征表示。

        網(wǎng)絡(luò)由雙層的注意力模塊組成,能產(chǎn)生注意力感知的(attention-aware)的特征,并且不同模塊的特征隨著網(wǎng)絡(luò)的加深會(huì)產(chǎn)生適應(yīng)性改變。

        (2)雙層的注意力模塊將帶來(lái)持續(xù)的性能提升。

        不同類(lèi)型的區(qū)域?qū)⒈淮罅坎蹲降?,并在每一層注意力結(jié)構(gòu)中不斷調(diào)整其關(guān)注區(qū)域從而向目標(biāo)靠近。

        對(duì)擴(kuò)展路徑的每一次反卷積之后,都進(jìn)行注意力機(jī)制,這個(gè)過(guò)程可以表示為:

        式中,Input表示attention結(jié)構(gòu)的輸入,其值與concatenate相同,concatenate分為兩塊,代表著Input是由反卷積上采樣的特征圖和收縮路徑中尺度相同的特征圖堆疊融合的結(jié)果。式中對(duì)Input進(jìn)行了兩次3×3的卷積生成特征圖,σ(x)表示對(duì)x做Sigmoid非線(xiàn)性變換,將其區(qū)間映射到[0,1],之后再與Input相乘,從而達(dá)到加權(quán)的效果。

        2.4 自動(dòng)通道篩選器CAS

        在一個(gè)CNN的卷積層的堆棧內(nèi),所有的通道都是由之前的層生成的,并會(huì)在下一層中得到平等的對(duì)待。本文認(rèn)為這樣的平等對(duì)待機(jī)制可能不是最優(yōu)的。在ADEU初始開(kāi)發(fā)過(guò)程中,發(fā)現(xiàn)盡管網(wǎng)絡(luò)已經(jīng)收斂程度較高了,但是在實(shí)際推理過(guò)程中,瞳孔的邊緣依然不夠細(xì)化。于是在ADEU-Net最高一層卷積層中,對(duì)該卷積層所包含160個(gè)通道施行了注意力(attention)機(jī)制并將其可視化。如圖11所示就是對(duì)160個(gè)通道進(jìn)行注意力加權(quán)的結(jié)果,結(jié)果顯示其中只有接近55個(gè)通道是與瞳孔特征相關(guān)的,即瞳孔的被激活程度很高,除此之外的102個(gè)通道分別激活了不同的特征,如全圖激活、睫毛特征激活以及眼瞼特征激活等,由此可以看出該卷積層的瞳孔特征激活率僅為34.375%.顯然這是個(gè)比較低的數(shù)字,更重要的是在后續(xù)的傳播過(guò)程中,這些通道仍會(huì)受到平等對(duì)待,從而對(duì)最終的結(jié)果產(chǎn)生負(fù)面干擾。

        圖11 原始基于注意力的頂層卷積通道示意圖Fig.11 Original attention-based top convolution channel diagram

        由此,本文提出了一種基于attention的自動(dòng)通道篩選器(based attention channel auto-selector,BACAS)。根據(jù)2.3節(jié)中闡述的對(duì)卷積特征圖做attention機(jī)制的重要意義,繼續(xù)將attention機(jī)制融合在BACAS中。通過(guò)采用attention機(jī)制計(jì)算出每一個(gè)通道中目標(biāo)特征的被激活程度,再通過(guò)通道自動(dòng)篩選器(CAS)選擇出合適的通道來(lái)繼續(xù)向前傳播。此方法可以在網(wǎng)絡(luò)反向傳播中,自動(dòng)調(diào)整參數(shù),學(xué)習(xí)出最優(yōu)的特征選擇策略以及通道選擇策略,其結(jié)構(gòu)如圖12所示。

        圖12 自動(dòng)通道篩選器示意圖Fig.12 Diagram of automatic channel filter channel

        在CAS中,采用如下的步驟:

        步驟1假設(shè)輸入進(jìn)來(lái)的卷積層ConvIn,其形狀是[W,H,Channels]。對(duì)ConvIn進(jìn)行池化,以減小參數(shù)量,采用4×4的卷積核進(jìn)行平均池化,增加全局的語(yǔ)義捕捉能力。此時(shí)輸出的形狀為[W/4,H/4,Channels]。

        令ConvPooled上每一個(gè)通道上的特征圖為Map,通道數(shù)為Channels個(gè),當(dāng)前正在處理的通道為Mapc,r是特征圖Map中每個(gè)相鄰不相交的4×4的區(qū)域。則池化操作,可以表示為:

        步驟2對(duì)平均池化后的卷積層ConvPooled,采用全局卷積的方法,卷積核為W/4×H/4,生成Channels個(gè)特征值F。此時(shí)輸出F的形狀為[1,Channels]。

        對(duì)于第c個(gè)特征值其生成公式如下,令卷積核為Kernel,卷積之后對(duì)每一個(gè)特征值加上一個(gè)bc偏置。則卷積操作可以表示為:

        步驟3對(duì)特征值張量進(jìn)行TanH激活,將其區(qū)間映射到[-1,1],用以計(jì)算每個(gè)通道的懲罰因子。此時(shí)輸出的形狀為[1,Channels]。

        將Fc帶入:則可得出TanH激活后的結(jié)果Tanh(F)。

        步驟4將輸入進(jìn)來(lái)的ConvOut與Tanh(F)進(jìn)行相乘,得到ConvTanh,將懲罰因子做用到每一個(gè)通道特征圖上。此時(shí)輸出的形狀為[W,H,Channels]。

        步驟5對(duì)懲罰后的卷積層進(jìn)性Relu激活,其目的是將被懲罰通道特征圖值置于0,以避免其在后續(xù)的傳播過(guò)程中,帶來(lái)誤差干擾。

        將ConvTanh帶入:

        則可得出Relu激活后的結(jié)果ConvOut。

        對(duì)圖11的各卷積層特征圖進(jìn)行BACAS后,訓(xùn)練迭代10次,其可視化效果如圖13所示。未被遮蔽的通道數(shù)一共有69個(gè),其中有38個(gè)通道瞳孔的激活程度高,瞳孔特征激活率為55.072%。隨著訓(xùn)練迭代次數(shù)的增多,瞳孔的激活率也在適應(yīng)性地調(diào)整,減少了無(wú)效通道的干擾,為后續(xù)的卷積操作提供了高質(zhì)量的輸入。

        圖13 BACAS篩選效果圖Fig.13 BACAS screening effect diagram

        2.5 精度評(píng)價(jià)指標(biāo)

        選用圖像語(yǔ)義分割領(lǐng)域公認(rèn)的兩種語(yǔ)義分割評(píng)價(jià)指標(biāo)評(píng)估模型分割結(jié)果。評(píng)測(cè)指標(biāo)分別為像素精度(pixel accuracy,PA)、均交并比(mean intersection over union,MIoU),各指標(biāo)的定義如下[23]:

        式中,pij表示本屬于類(lèi)i但被預(yù)測(cè)為類(lèi)j的像素?cái)?shù)量,k+1表示類(lèi)別數(shù),本文k取1。PA表示標(biāo)記正確的像素占總像素的比例,能夠反映分割灰度級(jí)的準(zhǔn)確性,而MIoU指標(biāo)表示真實(shí)值與預(yù)測(cè)值像素間的交集和并集之比,能充分反映分割區(qū)域完整性和分割位置準(zhǔn)確性,這兩種指標(biāo)常用于衡量圖像語(yǔ)義分割的效果,本文將PA及MIoU值作為模型最終的評(píng)價(jià)指標(biāo)分別用于評(píng)價(jià)模型對(duì)人眼圖像中每個(gè)像素點(diǎn)的預(yù)測(cè)情況以及瞳孔提取的完整程度。

        2.6 數(shù)據(jù)增強(qiáng)策略

        利用數(shù)據(jù)增強(qiáng)方式能夠提高訓(xùn)練樣本的多樣性,防止訓(xùn)練過(guò)程中樣本不足帶來(lái)的過(guò)擬合,同時(shí)增強(qiáng)模型的魯棒性。依據(jù)圖像目標(biāo)色彩、形狀、紋理等特征,本文采用7種方式進(jìn)行,分別為:隨機(jī)旋轉(zhuǎn)變換-20°至+20°、隨機(jī)噪聲干擾、隨機(jī)光照抖動(dòng)、隨機(jī)非等比例縮放0.8至1.2倍、隨機(jī)翻轉(zhuǎn)變換、隨機(jī)高斯模糊以及隨機(jī)水平垂直平移,具體效果如圖14所示。

        圖14 效果圖Fig.14 Effect diagram

        2.7 訓(xùn)練方法設(shè)置

        將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集及測(cè)試集3個(gè)部分,其中經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后的訓(xùn)練集大小為1 200,驗(yàn)證集大小200,測(cè)試集大小為200。為避免內(nèi)存溢出,采取批訓(xùn)練方式對(duì)ADEU-Net模型進(jìn)行訓(xùn)練,每輪迭代完成后在驗(yàn)證集上計(jì)算accuracy模型評(píng)價(jià)指標(biāo)值。采用binary_crossentropy作為代價(jià)函數(shù)。

        為解決反向傳播過(guò)程中梯度消失和爆炸問(wèn)題,引入dropout[24]隨機(jī)丟棄神經(jīng)元。網(wǎng)絡(luò)的訓(xùn)練引入了EarlyStopping[25]機(jī)制,當(dāng)訓(xùn)練集在連續(xù)迭代8輪,代價(jià)loss值不再減小時(shí),停止訓(xùn)練。

        2.8 訓(xùn)練超參數(shù)

        (1)學(xué)習(xí)率(learning-rate):初始時(shí)為lr=0.000 1;

        (2)批量大小(batch size):32;

        (3)訓(xùn)練迭代期(iteration):300;

        (4)優(yōu)化方法:Adam;beta_1=0.9,beta_2=0.999。

        3 結(jié)果與分析

        3.1 網(wǎng)絡(luò)訓(xùn)練過(guò)程及預(yù)測(cè)結(jié)果可視化評(píng)價(jià)

        相同參數(shù)設(shè)置情況下,ADEU-Net與U-Net模型訓(xùn)練過(guò)程對(duì)比如圖15所示,圖16展示了兩種模型在訓(xùn)練集上每輪迭代完成后的accuracy指標(biāo)值,兩種模型均訓(xùn)練58輪后接近完全收斂。由此可以看出,ADEU-Net在第4輪時(shí)開(kāi)始收斂,而U-Net直到第11輪才開(kāi)始收斂;ADEU-Net收斂后的訓(xùn)練集和測(cè)試集loss分別為0.003 0和0.003 2,遠(yuǎn)小于U-Net的0.013 0和0.013 6,并且ADEUNet在驗(yàn)證集accuracy指標(biāo)上,相對(duì)于U-Net提高了1.4個(gè)百分點(diǎn),達(dá)到99.87%,而U-Net accuracy為97.43%。顯然,ADEU-Net具有更快的收斂速度,更高的精確度。

        圖15 U-Net訓(xùn)練圖Fig.15 U-Net training diagram

        圖16 ADEU-Net訓(xùn)練過(guò)程圖Fig.16 ADEU-Net training process diagram

        U-Net收斂后,在測(cè)試集上的結(jié)果如圖17所示。由圖17可以看到其對(duì)瞳孔的分割不完全,邊緣缺失存在較多的缺失或溢出情況,局部精細(xì)化能力較差;并且U-Net分割后,存在較多的錯(cuò)誤分割,將睫毛錯(cuò)誤分類(lèi)為瞳孔。

        ADEU-Net收斂后,在測(cè)試集上的結(jié)果如圖18所示。由圖18可以看到其對(duì)瞳孔的分割較為完全,并且對(duì)于瞳孔少量露出、瞳孔形變以及瞳孔被遮擋的情況,ADEU-Net的分割結(jié)果依然具有較高的精確度。由此可以看出,使用深層網(wǎng)絡(luò)進(jìn)行特征提取,結(jié)合注意力機(jī)制和DC-Block的結(jié)構(gòu)都對(duì)網(wǎng)絡(luò)性能的提升起到了實(shí)質(zhì)性的作用。通過(guò)對(duì)比圖17和圖18的分割效果,可以看出:本文所提出的ADEU-Net可以有效提升U-Net進(jìn)行瞳孔分割任務(wù)時(shí)局部精細(xì)度不夠的問(wèn)題。

        圖17 U-Net網(wǎng)絡(luò)瞳孔分割效果展示Fig.17 U-Net network pupil segmentation effect display

        圖18 ADEU-Net網(wǎng)絡(luò)瞳孔分割效果展示Fig.18 ADEU-Net network pupil segmentation effect display

        傳統(tǒng)圖像處理方法,利用眼部灰度直方圖的特性進(jìn)行直方圖波谷提取[26]作為灰度分割閾值,進(jìn)行圖像分割后進(jìn)過(guò)多次重復(fù)定位尋找最優(yōu)的瞳孔區(qū)域。很多學(xué)者對(duì)于瞳孔定位的研究主要采用傳統(tǒng)圖像處理的方法,例如,黃麗麗等[27]提出一種基于改進(jìn)型最大類(lèi)間方差法的瞳孔定位方法,對(duì)圖像進(jìn)行基于光線(xiàn)補(bǔ)償和中值濾波的預(yù)處理操作,進(jìn)而根據(jù)直方圖統(tǒng)計(jì)出圖像中未出現(xiàn)的像素灰度值,計(jì)算余下像素的最大類(lèi)間方差,求取二值化圖像的最佳閾值,采用橢圓擬合方法確定瞳孔中心及半徑。顧可可等[28]提出一種基于直方圖二值化和改進(jìn)的輪廓跟蹤的瞳孔分割方法。首先對(duì)采集的瞳孔圖像計(jì)算直方圖,根據(jù)直方圖特征取出合適的閾值進(jìn)行二值化,再對(duì)二值化后的圖像進(jìn)行輪廓跟蹤,得到精確的輪廓邊界,進(jìn)而得到直徑、中心等信息。毛順兵等[29]提出一種將Hough圓變換和輪廓匹配相結(jié)合的瞳孔分割算法(Hough-contour)。對(duì)每幀圖像,首先進(jìn)行灰度化并濾波去噪;然后提取邊緣并利用修改后的Hough梯度法檢測(cè)出初始圓作為瞳孔參數(shù);最后在濾波后的灰度圖上的瞳孔附近用位置和半徑在一定范圍可變的圓形輪廓去匹配瞳孔,從而計(jì)算出瞳孔中心坐標(biāo)和直徑。這類(lèi)傳統(tǒng)圖像處理的研究難以克服睫毛和皮膚痣干擾以及不均勻光照干擾,在暗光情況下,難以計(jì)算出合適的灰度分割閾值從而導(dǎo)致瞳孔丟失或分割不準(zhǔn)確的情況,并且此類(lèi)算法對(duì)于瞳孔不完全漏出或者形變較大的情況,分割成功率較低。以文獻(xiàn)[28]中的方法為代表進(jìn)行了實(shí)驗(yàn),效果如圖19所示。由圖19可以看出其魯棒性與精確度較低。

        圖19 傳統(tǒng)圖像處理算法瞳孔分割效果展示Fig.19 Display of pupil segmentation effect of traditional image processing algorithm

        3.2 評(píng)測(cè)指標(biāo)定量評(píng)價(jià)

        為了進(jìn)一步驗(yàn)證本文的觀點(diǎn),在大規(guī)模的驗(yàn)證集上進(jìn)行定量評(píng)價(jià),結(jié)果如表1所示,最優(yōu)結(jié)果用加粗?jǐn)?shù)字標(biāo)出。實(shí)驗(yàn)結(jié)果顯示,在數(shù)據(jù)集上,ADEU-Net的像素精度PA相對(duì)U-Net、以文獻(xiàn)[14]為代表的傳統(tǒng)圖像處理算法、SegNet、只添加DC_Block的U-Net分別提高了5、35、4、2個(gè)百分點(diǎn);ADEU-Net的均交并比MIoU達(dá)到94%,在測(cè)試集上驗(yàn)證的成功說(shuō)明ADEU-Net方法的泛化能力很強(qiáng),能夠準(zhǔn)確分割出不同情況下的瞳孔圖像。

        表1 多種瞳孔追蹤算法定量評(píng)價(jià)Table 1 Quantitative evaluation of various pupil tracking algorithms

        此外,本文提出的算法在Win10+python3.6+tensorflow1.9.0的軟件環(huán)境下實(shí)現(xiàn),使用1塊Nvidia GTX1080Ti顯卡進(jìn)行訓(xùn)練,訓(xùn)練耗時(shí)約1 h。使用1塊Nvidia GTX1080Ti進(jìn)行測(cè)試,處理1張圖片平均耗時(shí)為0.012 s,可達(dá)到83 frame/s的分割速度,滿(mǎn)足瞳孔實(shí)時(shí)追蹤定位的要求。

        3.3 網(wǎng)絡(luò)泛化性探究

        在互聯(lián)網(wǎng)上尋找了一些非紅外的人眼圖像,包含部分人臉,這些圖像均與訓(xùn)練集中的數(shù)據(jù)差異十分大。將圖像輸入進(jìn)ADEU-Net網(wǎng)絡(luò)后,進(jìn)行語(yǔ)義分割結(jié)果如圖20所示。從實(shí)驗(yàn)結(jié)果中可以看出,該方法的泛化能力較高,即使是不同源,高差異性的網(wǎng)絡(luò)圖像依然能夠做到較準(zhǔn)確的語(yǔ)義分割。

        圖20 網(wǎng)絡(luò)圖像ADEU-Net瞳孔分割效果展示Fig.20 Display of pupil segmentation effect of ADEU-Net on Internet images

        本文提出的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)大多數(shù)不同光照條件、不同人眼姿態(tài)以及不同遮擋所形成的瞳孔區(qū)域都可以實(shí)現(xiàn)精確分割,但在某些場(chǎng)景過(guò)大的圖像中或復(fù)雜環(huán)境下表現(xiàn)不佳,如包含過(guò)多頭發(fā)以及服裝時(shí),如圖21所示。究其原因,是輸入的圖像數(shù)據(jù)和本文的訓(xùn)練樣本差距十分巨大,導(dǎo)致網(wǎng)絡(luò)參數(shù)不適用于這一類(lèi)圖像,這些問(wèn)題可以通過(guò)擴(kuò)充訓(xùn)練樣本來(lái)解決。通過(guò)對(duì)這些分割錯(cuò)誤的圖像進(jìn)行分析,可以發(fā)現(xiàn),錯(cuò)誤分類(lèi)的像素主要存在于黑色頭發(fā)上與臉部皮膚的交界處、黑色衣服和身體皮膚的交接處,其實(shí)這與瞳孔和眼瞼和睫毛的交界處非常相似,并且黑色頭發(fā)與黑色衣服均屬于團(tuán)塊狀區(qū)域容易被當(dāng)作瞳孔的語(yǔ)義分割出來(lái),因此圖21上方的女孩黑色頭發(fā)和黑色衣服均被分割出來(lái),而下方的女孩由于穿著白色服裝則只分割出了瞳孔和頭發(fā)。

        圖21 復(fù)雜場(chǎng)景圖像ADEU-Net瞳孔分割效果展示Fig.21 Display of pupil segmentation effect of ADEU-Net in complex scene images

        4 結(jié)語(yǔ)

        針對(duì)當(dāng)前瞳孔分割方法運(yùn)算量大、魯棒性不高的問(wèn)題,本文提出了一種基于ADEU-Net深度語(yǔ)義分割網(wǎng)絡(luò)的瞳孔精確分割方法。該網(wǎng)絡(luò)使用DC-Block結(jié)構(gòu)作為特征提取前端,并結(jié)合U-Net的設(shè)計(jì)思想通過(guò)Deconv反卷積完成特征層的上采樣過(guò)程,融入膨脹卷積和注意力機(jī)制進(jìn)一步提升網(wǎng)絡(luò)效果。實(shí)驗(yàn)結(jié)果表明,ADEU-Net在保持83 frame/s的高分割速度的基礎(chǔ)上,PA相對(duì)于UNet、傳統(tǒng)圖像處理算法分別提高了5、35個(gè)百分點(diǎn);ADEU-Net的均交并比MIoU達(dá)到94%,可以滿(mǎn)足瞳孔實(shí)時(shí)分割的要求。此外,本文在使用模型訓(xùn)練時(shí),注意到不管是使用普通卷積或者是DC-Block(即雙線(xiàn)卷積并行),對(duì)于系統(tǒng)CPU占用相差不大。經(jīng)過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量的計(jì)算,發(fā)現(xiàn)普通卷積的參數(shù)數(shù)量為623 297,而本文提出的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)數(shù)量為624 065??梢?jiàn),本文提出的改進(jìn)并沒(méi)有使網(wǎng)絡(luò)變得繁重。

        下一步將著重研究如何更高效率地結(jié)合圖像中的語(yǔ)義信息,減少像素的錯(cuò)誤分類(lèi),以及如何提升在復(fù)雜場(chǎng)景下以及角膜大塊亮斑情況下語(yǔ)義分割精確度。

        猜你喜歡
        人眼瞳孔注意力
        “天眼”的“瞳孔保健師”
        軍事文摘(2023年20期)2023-10-31 08:42:40
        讓注意力“飛”回來(lái)
        人眼X光
        人眼為什么能看到虛像
        瞳孔里的太陽(yáng)
        青年歌聲(2018年2期)2018-10-20 02:02:50
        瞳孔
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        閃瞎人眼的,還有唇
        優(yōu)雅(2016年12期)2017-02-28 21:32:58
        A Beautiful Way Of Looking At Things
        看人,星光璀璨繚人眼
        電影故事(2016年5期)2016-06-15 20:27:30
        亚洲成av人的天堂在线观看| 亚洲男人的天堂色偷偷| 亚洲av无码一区二区乱子伦| 亚洲欧美日韩精品久久亚洲区色播 | 东京热人妻一区二区三区| 欧美末成年videos在线观看| 中日无码精品一区二区三区| 国产区高清在线一区二区三区| 久久久精品国产三级精品| 国产一区二区三区小说| 亚洲av综合av国产av| 国产小屁孩cao大人免费视频| 久久久噜噜噜噜久久熟女m| 蜜桃av精品一区二区三区| 蜜桃视频一区二区三区在线观看| 91视频爱爱| 中文字幕乱码亚洲无线| 麻豆精品一区二区三区| 免费人成激情视频在线观看冫| 免费的成年私人影院网站| 亚洲每天色在线观看视频| 久久精品亚洲成在人线av乱码| 亚洲av综合永久无码精品天堂| 欧美人妻日韩精品| 日美韩精品一区二区三区| 美女露出自己的性感大胸一尤内衣| 久久久久久久久蜜桃| 国产免费网站看v片元遮挡| 国产高清在线精品一区不卡| 亚洲av综合色区无码专区桃色| 国产精品免费大片| 亚洲成AV人片在一线观看| 日本师生三片在线观看| 青青青爽在线视频观看| 亚洲综合无码| 91成人自拍视频网站| 一区二区三区四区中文字幕av| a级毛片100部免费观看| 亚洲中文字幕在线一区二区三区| 日韩亚洲精选一区二区三区| 成人网站在线进入爽爽爽|