袁 立,夏 桐,張曉爽
北京科技大學(xué)自動化學(xué)院,北京 100083
人耳作為一種重要的生物特征,對人耳的形態(tài)分析和歸類對與人耳相關(guān)的醫(yī)療等工作有著重要的價值.但是由于人耳形態(tài)結(jié)構(gòu)復(fù)雜,外耳形態(tài)結(jié)構(gòu)分型的研究至今難有一個統(tǒng)一標準的分類方法.楊月如與吳紅斌[1]從醫(yī)學(xué)角度提出外耳形態(tài)分型,依據(jù)外耳輪的形態(tài)特征以及耳輪結(jié)節(jié)的形態(tài),將外耳分為六種形態(tài).齊娜等[2]從聲學(xué)角度分析,主要依據(jù)耳甲艇和耳甲腔的連通狀態(tài)把耳廓分為四大類.耳垂在整個外耳形態(tài)中具有非常重要的作用,耳垂形狀的不同可以引起視覺上明顯的差別感,Azaria等[3]則根據(jù)耳垂與面頰交叉點角度對耳垂進行歸類.上述研究者分別通過人耳的其中一塊關(guān)鍵區(qū)域進行分類,這些區(qū)域都是人耳結(jié)構(gòu)的重要組成部分,通過提取出耳輪、對耳輪和耳甲等關(guān)鍵區(qū)域的輪廓作為人耳的關(guān)鍵曲線,就能夠?qū)崿F(xiàn)對這些關(guān)鍵區(qū)域的精細劃分,并且描述出它們的形狀特征.提取出高精度的人耳的關(guān)鍵曲線進而能夠有效的幫助完成對人耳的形態(tài)分析和聚類工作,同時也有助于實現(xiàn)人耳外輪廓提取和重要區(qū)域的分割.但是,人耳圖像在顏色分布上較為一致,部分人耳在重要區(qū)域之間的過渡不明顯,采集圖像時還可能存在光照差異,這些因素都會導(dǎo)致傳統(tǒng)邊緣提取的方法在提取人耳關(guān)鍵曲線上適應(yīng)性較差.
在圖像分割領(lǐng)域中,語義分割[4-8]任務(wù)旨在實現(xiàn)對圖像中的每個像素都劃分出對應(yīng)的類別,王志明等[9]提出一種分階段高效火車號識別算法,而實例分割[10-12]不但要進行像素級別的分類,還需在具體的類別基礎(chǔ)上區(qū)分該像素屬于該類別中的具體實例.Bolya等[13]在2019年提出了實時實例分割網(wǎng)絡(luò)YOLACT,類比Mask R-CNN[14]之于Faster R-CNN[15],YOLACT是在目標檢測分支上添加一個語義分割分支來達到實例分割的目的,但沒有使用區(qū)域建議網(wǎng)絡(luò)[16-17].由于語義分割會對像素屬性相似的像素點劃為同一類別,而人耳區(qū)域像素值很相似,部分人耳在重要區(qū)域之間的過渡不明顯,故語義分割方法不適用于人耳上關(guān)鍵生理曲線區(qū)域的分割.
因此,本文提出一種改進YOLACT算法來進行人耳關(guān)鍵區(qū)域分割,并提取耳輪、對耳輪和耳甲的關(guān)鍵曲線.為了提高定位和分割精度,將主干網(wǎng)絡(luò)由ResNet101[18]更換為ResNeSt101[19],并在預(yù)測階段摒棄原有的裁剪模板的處理,設(shè)計了新的篩選模板的結(jié)構(gòu),保證了分割區(qū)域邊緣的完整性,提高了曲線檢測提取精度.
提出的改進YOLACT模型用來提取人耳的耳輪、對耳輪和耳甲區(qū)域的關(guān)鍵生理曲線,系統(tǒng)框圖如圖1所示.首先使用主干網(wǎng)絡(luò)ResNeSt-101結(jié)合特征金字塔網(wǎng)絡(luò)(Feature pyramid networks,F(xiàn)PN)[20]獲取不同尺寸下的特征圖,接下來特征金字塔提取的特征圖傳輸進兩個并行分支.第一個分支接收特征金字塔生成的所有尺寸的特征圖作為輸入,用來完成目標檢測任務(wù)預(yù)測目標位置、類別,同時也完成對模板疊加系數(shù)的預(yù)測;第二個分支接收特征金字塔獲取的感受野為91的特征圖(對應(yīng)圖1中的P3)作為輸入,用來生成一系列原型模板,實現(xiàn)對背景和前景的分離,對應(yīng)第一個分支里的模板系數(shù).通過YOLACT提出的快速非極大值抑制去掉多余的目標后,對原型模板和模板系數(shù)進行線性組合,得到每個實例對應(yīng)的分割模板.上述組合得到的實例模板的過程可描述為:
圖1 改進YOLACT模型提取人耳關(guān)鍵生理曲線系統(tǒng)框圖Fig.1 System block diagram of the improved YOLACT model for extracting the key physiological curves of the human ear
式中,P是分支一產(chǎn)生的一系列模板,維度為x×y×m,分別代表模板的高、寬和數(shù)量;C是分支二產(chǎn)生的模板系數(shù),維度為n×m,n為經(jīng)過快速的非極大值和分數(shù)閾值后的實例數(shù)量.為了簡化網(wǎng)絡(luò)結(jié)構(gòu)和加快檢測過程,使用線性組合的方式得到實例模板.最終得到模板的尺寸為x×y×n,也就是預(yù)測出的n個實例模板.在閾值化之后,使用本文提出的模板篩選策略排除實例模板中的誤檢.對得到的最終實例模板提取其外輪廓即可得到人耳的關(guān)鍵生理曲線,進而可以實現(xiàn)關(guān)鍵區(qū)域分割.以下針對系統(tǒng)中的關(guān)鍵模塊ResNeSt主干網(wǎng)絡(luò)、原型模板生成模塊、目標檢測模塊、篩選模板策略等進行詳細論述.
原始YOLACT中的主干網(wǎng)絡(luò)是ResNet,ResNet是為了完成圖像分類任務(wù),缺少針對目標檢測、語義分割和實例分割等計算機視覺任務(wù)的相應(yīng)結(jié)構(gòu)設(shè)計,為此ResNeSt在ResNet的基礎(chǔ)上設(shè)計了拆分注意力模塊,而利用ResNeSt作為主干網(wǎng)絡(luò)的模型能夠在圖像分類、目標檢測、語義分割以及實例分割等任務(wù)上達到更高的精度[19].
ResNeSt模塊在外層設(shè)計上保留了ResNet的跳躍映射連接,延續(xù)ResNeXt[21]分組卷積的思想,使用了基數(shù)的概念,按照基數(shù)的設(shè)置,將ResNeSt模塊輸入按通道拆分成k份輸送到k個相同的網(wǎng)絡(luò)結(jié)構(gòu),每個網(wǎng)絡(luò)結(jié)構(gòu)被稱作一個是Cardinal,如圖2(a).分組卷積的顯著優(yōu)勢就是使用少量的參數(shù)量和運算量生成更多的特征圖,更多的特征圖就可以編碼更多的特征信息.所以ResNeSt模塊外層設(shè)計使得ResNeSt相比于其他ResNet變體[22-24],能夠在不明顯增加參數(shù)量級的情況下提升了模型的準確率.
圖2 拆分注意力模塊結(jié)構(gòu)[19].(a) 整體結(jié)構(gòu); (b) cardinal內(nèi)部結(jié)構(gòu)Fig.2 Split attention module structure[19]: (a) entire frame; (b) cardinal internal structure
每個Cardinal的內(nèi)部結(jié)構(gòu)如圖2(b)所示,結(jié)構(gòu)設(shè)計主要借鑒了SENet[22]中的基于通道注意力機制的思想和SKNet[23]中的基于特征圖注意力機制思想,能夠?qū)W習出不同特征圖之間重要程度以及特征圖不同通道之間的重要程度,利于獲取更加有效的信息.ResNeSt模塊每個Cardinal的大致結(jié)構(gòu)類似于SKNet注意力機制模塊,不同之處在于每個分支使用相同尺寸的卷積核,便于外層分組卷積的模塊化.
故本文利用ResNeSt對原始YOLCAT網(wǎng)絡(luò)中的主干網(wǎng)絡(luò)進行改進,使用ResNeSt101代替ResNet-101嵌入到Y(jié)OLACT網(wǎng)絡(luò),并與YOLACT的特征金字塔結(jié)構(gòu)進行對接,提取出ResNeSt101每個階段的最后一個ResNeSt模塊的輸出,選中感受野分別為91、811、971的三層特征圖(分別對應(yīng)圖1中的C3、C4、C5)輸送到特征金字塔結(jié)構(gòu)參與后續(xù)運算.
原型模板生成模塊分支是YOLACT生成語義分割模板的分支,用來實現(xiàn)像素級別的分類任務(wù),原型模板生成模塊分支的作用并不是直接生成最終的像素分類模板,而是生成一系列原型模板,在后續(xù)階段用于組合生成整幅圖最終的分割模板.原型模板生成模塊的網(wǎng)絡(luò)結(jié)構(gòu)基于FCN[25]設(shè)計,以550像素×550像素的輸入圖像為例的原型模板生成模塊網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,接收主干網(wǎng)絡(luò)獲取的感受野為91的特征圖作為輸入,首先不改變特征圖尺寸和通道數(shù)連續(xù)使用了3個卷積核大小為3×3步長為1的卷積層,然后利用雙線性插值的方式進行了上采樣,使得特征圖尺寸達到原圖尺寸的1/4,提高了后續(xù)生成原型模板的分辨率,也就提高了分割模板整體的質(zhì)量以及對于小目標的分割精度,保持當前尺寸緊接著通過兩個卷積層獲得一個m通道的輸出,輸出中的每一個通道就是一個原型模板.
圖3 原型模板生成模塊Fig.3 Prototype mask generation module
目標檢測分支以主干網(wǎng)絡(luò)生成的所有尺寸的特征圖作為輸入,每個尺寸的特征圖都通過相同的網(wǎng)絡(luò)結(jié)構(gòu)進行處理,圖4以感受野為91的特征圖為例展示了目標檢測分支的網(wǎng)絡(luò)結(jié)構(gòu).首先通過一個公共的步長為1的3×3卷積層,公共卷積層的存在使得網(wǎng)絡(luò)結(jié)構(gòu)利用更高效,運算速度更快,接下來分成3個分支,分別通過一個卷積層預(yù)測目標的位置、類別和分割模板.網(wǎng)絡(luò)在每個位置上設(shè)置[0.5,1,2] 3種比例的錨框來檢測位置,并且針對特征金字塔生成的5種不同尺寸的特征圖設(shè)置5種不同的尺寸的錨框.最終目標檢測分支針對特征金字塔生成的特征圖上每個位置的錨框都預(yù)測4個表示位置的參數(shù),d個代表目標類別的參數(shù)以及與原型模板個數(shù)相對應(yīng)的m個組合系數(shù).在模板加權(quán)組合系數(shù)的分支上,補充了一個tanh激活函數(shù),tanh的值域覆蓋了正負值,保證在輸出的加權(quán)系數(shù)中存在正負值.
圖4 目標檢測模塊Fig.4 Object detection module
YOLACT為了改善小目標的分割效果,在預(yù)測時使用目標預(yù)測框?qū)訖?quán)組合產(chǎn)生的模板進行裁剪,在訓(xùn)練時對真實的邊界框進行裁剪,僅保留目標預(yù)測框內(nèi)的分割結(jié)果,且并未對輸出的結(jié)果進行去噪.這樣一來,當目標預(yù)測框準確的時候,沒有什么影響,但是當目標預(yù)測框不準確的時候,噪聲將會被帶入實例模板,造成一些“泄露”(意即目標預(yù)測框內(nèi)含有其他實例的一部分,但這部分被識別為當前實例的情況).當兩個目標離得很遠的時候也會發(fā)生“泄露”的情況,因為裁剪的過程會將當前實例模板的學(xué)習內(nèi)容限定在預(yù)測邊界框內(nèi),裁剪相當于告訴網(wǎng)絡(luò)遠處的目標已經(jīng)被排除在外了,不用網(wǎng)絡(luò)去學(xué)習.但是假如目標預(yù)測框很大,那么該預(yù)測模板將包括那些離得很遠的實例的一部分模板,這部分模板對于網(wǎng)絡(luò)來講就是噪聲,網(wǎng)絡(luò)并不知道應(yīng)該將這部分模板與當前實例預(yù)測模板分開,就造成了“泄露”.在目標預(yù)測框比實際邊界框偏小的情況下,使用目標預(yù)測框?qū)铣赡0宀眉艟蜁茐脑泻铣赡0暹吘壍耐暾?,部分分割區(qū)域被切割掉之后分割出的模板會出現(xiàn)直線邊緣,使模板的質(zhì)量下降,在圖5(a)原圖上使用“裁剪模板”策略的效果如圖5(c)所示.
圖5 模板處理.(a) 原圖; (b) 邊框和模板預(yù)測結(jié)果; (c) 裁剪模板結(jié)果;(d) 各區(qū)域外接矩形; (e) 篩選模板結(jié)果Fig.5 Mask processing: (a) original image; (b) prediction of boxes and masks; (c) segmentation result with the cropping mask strategy; (d)bounding boxes of different regions; (e) segmentation result with the screening mask strategy
針對這一問題,本文在使用YOLACT進行推理時,去掉了原網(wǎng)絡(luò)中的“裁剪模板”結(jié)構(gòu),但是去掉裁剪模板結(jié)構(gòu)后,在推理分割模板中會出現(xiàn)多余的誤檢區(qū)域,如圖5(b)所示.YOLACT預(yù)測的檢測框和模板是一一對應(yīng)的,并且在檢測框檢測準確的情況下,模板中對應(yīng)該實例的分割區(qū)域應(yīng)該在檢測框內(nèi),基于這一特點,為去掉誤檢區(qū)域,本文提出了“篩選模板”策略,表達式為:
式中,av表示預(yù)測模板中第v個獨立分割區(qū)域,abv表示第v個獨立分割區(qū)域形成的外接矩形框.篩選模板策略中首先對于預(yù)測模板中的每個獨立區(qū)域u都生成外接矩形如圖5(d)所示,然后依次計算預(yù)測模板對應(yīng)的預(yù)測邊界框pb與每個獨立區(qū)域外接矩形abu之間的交并比值,利用算出的最大的交并比對應(yīng)的獨立區(qū)域生成一個新的模板代替原來的模板如圖5(e)所示,這樣得到的模板邊緣完整精確,并且沒有誤檢區(qū)域.
在網(wǎng)絡(luò)訓(xùn)練時使用了4種損失函數(shù)訓(xùn)練模型,分別是類別置信度損失Lc、目標預(yù)測框損失Lb、模板損失Lm以及語義分割損失Ls.總損失公式如下:
式中,α代表各自損失在疊加時的權(quán)重.在YOLACT網(wǎng)絡(luò)中,權(quán)重的預(yù)設(shè)值為αc=1,αb=1.5,αm=6.125,αs=1.其中類別置信度損失和目標框損失采用和SSD[26]算法中一樣的計算方式.
類別置信度的損失計算公式為:
類別置信度損失是多類別置信度的softmax損失,其中,q表示多類別置信度,Pos表示正例,Neg表示反例,i表示預(yù)測框的編號,j表示真實目標框的編號,s表示類別序號,其中背景的序號為0,是一個指示參數(shù),取值只有0或者1,取值為1時表示預(yù)測框和類別號為s的真實目標框匹配.
目標預(yù)測框損失的計算公式為:
預(yù)測框損失采用的是 SmoothL1損失,其中,i表示預(yù)測框的序號,j表示目標框的序號,l表示邊界框的預(yù)測值,g表示目標邊界框的真值,xc、yc、f和o分別表示默認邊界框的中心點橫縱坐標、寬度和高度,的含義和類別置信度相同,所以預(yù)測框損失僅針對正樣本進行計算.其中 SmoothL1函數(shù)的計算公式為:
SmoothL1損失在預(yù)測值和目標值偏差較大的時候使用了絕對值進行計算,梯度值為1,可以防止梯度爆炸,對離群值和異常值不敏感,更加魯棒.在偏差較小時,損失使用了平方進行計算,保證模型收斂的精度.
模板損失是通過計算加權(quán)組合后的模板與真實模板之間的二分類交叉熵,計算公式為:
式中,a表 示網(wǎng)絡(luò)的預(yù)測模板中類別的真值,p表示預(yù)測模板中預(yù)測正確的概率.
語義分割損失項是為了彌補快速非極大值抑制算法帶來的精度下降,在訓(xùn)練時添加額外損失可以在不影響速度的情況下提高特征的豐富性.具體做法是在特征金字塔的感受野為91的特征圖后增加一個d通道1×1的卷積層,在輸出的d通道的特征圖上再計算二分類交叉熵損失.在計算完損失后,采用帶動量的SGD優(yōu)化算法,彌補梯度下降的缺陷,加快訓(xùn)練速度.
對于YOLACT的模型性能,本文使用平均準確率(mean Average precision,mAP)來進行評估.AP是基于PR(Precision-recall)曲線計算得來的,PR曲線是以準確率為縱軸,召回率為橫軸畫出的曲線,AP值就是PR曲線下的面積.在實際應(yīng)用中,并不直接對該PR曲線進行計算,而是對PR曲線進行平滑處理.即對PR曲線上的每個采樣點的準確率值取該點右側(cè)最大的準確率的值.本文采用了COCO[27]數(shù)據(jù)集的評估方式,為了提高精度,在PR曲線上采樣了100個點進行計算.而且IOU的閾值從固定的0.5調(diào)整為在0.5 ~ 0.95的區(qū)間上每隔0.05計算一次AP的值,取所有結(jié)果的平均值作為最終的結(jié)果.通常來說AP是在單個類別下的,mAP是AP值在所有類別下的均值.
采用Pytorch 1.2.0開源深度學(xué)習框架進行實驗,操作系統(tǒng)為Windows 10,Python版本為3.7.4,實驗采用的GPU型號為GeForce RTX 2080Ti S.
本文實驗中使用的圖像集來自于USTB-Hell oear圖像庫[28].該庫采集于戶外條件,采集了1570個體的視頻,包括姿態(tài)、光照、遮擋等變化情況,每個被采集者可獲得平均約400幅的左右耳圖像,共約61萬幅二維圖像.
由于同一個體的左右耳結(jié)構(gòu)基本相同,本文實驗中隨機選取1050個體,每人選取一幅左耳圖像,不同個體間存在光照和姿態(tài)變化.為提取人耳關(guān)鍵曲線,每幅圖像共標注耳輪、對耳輪和耳甲三類,擬提取的關(guān)鍵人耳關(guān)鍵曲線和標注示例如圖6(a)~6(c)所示.
圖6 圖像集示例.(a) 原圖; (b) 關(guān)鍵曲線; (c) 標注示例Fig.6 Image dataset: (a) original image; (b) key curves; (c) annotation examples
以下從模型精度和實時性兩個方面將本文所述對YOLACT的兩點改進與原始YOLACT模型進行比較,以此說明ResNeSt主干網(wǎng)絡(luò)和“篩選模板”策略這兩點改進的有效性.
2.3.1 模型精度的比較
實驗中將所選1050幅左耳圖像分成5份,每份210幅,采用5折交叉驗證進行網(wǎng)絡(luò)訓(xùn)練.改進YOLACT模型的訓(xùn)練超參數(shù)如表1所示,其中“max_size”表示輸入網(wǎng)絡(luò)的圖像尺寸,默認輸入圖像尺寸為550像素×550像素,“l(fā)r_steps”表示訓(xùn)練過程中下學(xué)習率進行衰減的迭代輪數(shù),“max_iter”表示訓(xùn)練的最大迭代輪數(shù),“batch_size”表示同一批次處理的圖像數(shù)量.
表1 訓(xùn)練超參數(shù)Table 1 Training hyperparameters
本文所述改進YOLACT模型訓(xùn)練中的損失曲線如圖7所示,橫坐標使用訓(xùn)練次數(shù)Epoch,縱坐標分別是位置損失(Loss_box)、分類損失(Loss_cls)和模板損失(Loss_mask),從圖中可以看出3種損失都呈現(xiàn)收斂的趨勢.
圖7 損失曲線.(a) 位置損失; (b) 分類損失; (c) 模板損失Fig.7 Loss curves: (a) box loss; (b) class loss; (c) mask loss
在驗證集上分別使用主干網(wǎng)絡(luò)ResNet101+裁剪模板策略(YOLACT-ResNet101-crop)、主干網(wǎng)絡(luò)ResNet101+篩選模板策略(YOLACT-ResNet 101-select)、主干網(wǎng)絡(luò)ResNest101+裁剪模板策略(YOLACT-ResNest101-crop)、主干網(wǎng)絡(luò) ResNest101+篩選模板策略(YOLACT-ResNest101-select)4種方法得到的平均交并比(mIOU)和Dice系數(shù)(Dice coefficient)如表 2所示.改進 YOLACT模型在驗證集上的模型精度如表3所示,其中“Box”代表目標檢測的精度,“Mask”代表語義分割的精度.實驗中設(shè)置不同IOU閾值為0.50、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90、0.95,將不同閾值對應(yīng)的mAP值進行平均得到模型的mAP_all,如表3第2列所示,表3第3列至第5列分別為IOU閾值為0.50、0.70、0.90的mAP值.綜合表2、表3可以看出本文所述改進YOLACT模型的精度有所提高.
表2 不同YOLACT模型的分割精度Table 2 Segmentation accuracy of different YOLACT models
表3 YOLACT-ResNeSt101模型精度Table 3 Accuracy of the YOLACT-ResNeSt101 model %
使用YOLACT-ResNeSt101在410張未參與訓(xùn)練的圖像上進行測試,分別使用原始YOLACT的裁剪模板和本文提出的篩選模板策略進行測試實驗,在測試結(jié)果中分割的曲線基本貼合真實曲線的比例如表4所示,Accuracy表示410張圖像中分割準確的張數(shù).通過對比,可以看出:(1)將YOLACT主干網(wǎng)絡(luò)由ResNet101更換為ResNeSt101后網(wǎng)絡(luò)性能更佳;(2)篩選模板策略能夠比原始的裁剪模板策略獲得更高的準確率.
表4 模型改進前后提取關(guān)鍵曲線的準確率對比Table 4 Comparison of curve extraction accuracy before and after model improvement
本文在測試結(jié)果中使用不同顏色將不同實例模板中連通域的邊緣標識在原圖中,以此來判斷連通域外輪廓是否貼合真實的曲線,選取具有代表性的測試結(jié)果圖展示在圖8中.
圖8 不同人耳的分割結(jié)果.(a)裁剪模板的結(jié)果; (b)篩選模板的結(jié)果Fig.8 Segmentation results for different human ear: (a) cropping mask results; (b) screening mask results
從圖8(a)中可以看出裁剪模板結(jié)果中出現(xiàn)多處直線邊緣,這是由于預(yù)測的邊界框偏小,將正確的分割區(qū)域裁剪去除了,從表2可以看出分割的模板的準確率相比于邊界框的準確率更高,所以使用邊界框裁剪反而會破壞準確率更高的模板的完整性.從圖8(b)中可以看出,本文使用的篩選模板策略能夠保證模板的完整性,準確率更高.
2.3.2 算法實時性比較
為判斷本文所述兩點改進是否影響YOLACT本身的實時性,本文使用410張未參與訓(xùn)練的圖像進行測試,結(jié)果如表5所示,第三列表示410幅圖像總共處理時長.通過對比,可以看出:將YOLACT主干網(wǎng)絡(luò)由ResNet101更換為ResNeSt101后YOLACT本身的實時性稍有降低;將原始的裁剪模板策略更換為篩選模板策略對YOLACT本身的實時特性幾乎沒有影響.本文所述方法對于實時性要求不高或者僅處理圖像的應(yīng)用場合是沒有影響的.
表5 模型改進前后實時性對比Table 5 Real-time performance before and after model improvement
為了證明改進YOLACT模型在提取人耳關(guān)鍵曲線時與其他分割算法相比的優(yōu)越性,選取上述圖像集對DeepLabV3+ 模型進行五折交叉訓(xùn)練.兩種模型的模型分割精度比較見表6.結(jié)果表明,改進的YOLACT模型比DeepLabV3+ 模型具有更高的分割精度.
表6 不同網(wǎng)絡(luò)模型分割精度比較Table 6 Accuracy comparison of different segmentation models
圖9展示了本文所述改進YOLACT模型、DeepLabV3+ 模型和使用傳統(tǒng)輪廓估計的檢測效果.可以看出,用改進的YOLACT分割出的模板邊緣更接近于人耳的關(guān)鍵曲線,而用DeepLabV3+ 模型分割出的模板邊緣與實際曲線有一定的偏離,使用傳統(tǒng)輪廓估計檢測的邊緣很粗糙,無法將耳輪、對耳輪和耳甲3類分割出來.
圖9 不同人耳三種方法的分割效果.(a) 原圖; (b) 改進的YOLACT;(c) DeepLabV3+; (d) 傳統(tǒng)輪廓估計Fig.9 Segmentation effect of three methods for different ears:(a) original image; (b) improved YOLACT; (c) DeepLabV3+; (d)traditional contour estimation
文獻[29]應(yīng)用兩階段卷積神經(jīng)網(wǎng)絡(luò)提取了6個人耳關(guān)鍵點,如圖10所示.這種關(guān)鍵點檢測的方法目前檢測精度有待提高,且檢測點數(shù)比較少,對于提取關(guān)鍵曲線的需求還需要進一步應(yīng)用曲線擬合.由于不同個體之間人耳關(guān)鍵曲線的差異性,擬合結(jié)果不一定和真實曲線完全貼合,所以在提取關(guān)鍵曲線方面本文方法更具有優(yōu)勢.
圖10 兩階段卷積神經(jīng)網(wǎng)絡(luò)提取6個人耳關(guān)鍵點Fig.10 Two-stage convolutional neural network for extracting six key points of the human ear
本文提出了一種基于ResNeSt和篩選模板策略的改進YOLACT算法來進行的人耳關(guān)鍵曲線提取方法.其中,將主干網(wǎng)絡(luò)由ResNet替換為ResNeSt能夠提升網(wǎng)絡(luò)的整體性能,由篩選模板策略代替裁剪模塊保證在邊界框預(yù)測不準確的情況下分割區(qū)域的完整性.通過在所選人耳數(shù)據(jù)集上的實驗表明,該方法能夠得到較高精度的分割模板,并且模板的邊緣更加貼近實際的關(guān)鍵人耳曲線.