亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非對(duì)稱關(guān)鍵點(diǎn)注意力結(jié)構(gòu)的交互式圖像分割方法

        2022-06-20 09:43:20孫劉杰樊景星
        包裝工程 2022年11期
        關(guān)鍵詞:關(guān)鍵點(diǎn)特征提取信息

        孫劉杰,樊景星

        非對(duì)稱關(guān)鍵點(diǎn)注意力結(jié)構(gòu)的交互式圖像分割方法

        孫劉杰,樊景星

        (上海理工大學(xué),上海 200125)

        人機(jī)交互信息在交互式圖像分割過(guò)程中具有重要意義,為了提高交互信息的使用效率,文中提出一種優(yōu)化方法。提出一種非對(duì)稱注意力結(jié)構(gòu),將交互信息通過(guò)該結(jié)構(gòu)融合到交互式圖像分割算法(IOG)的特征提取網(wǎng)絡(luò)中。該算法能夠進(jìn)一步強(qiáng)化關(guān)鍵點(diǎn)信息對(duì)圖像分割所起到的引導(dǎo)作用。非對(duì)稱注意力結(jié)構(gòu)能夠在不增加交互成本的條件下,在PASCAL數(shù)據(jù)集上達(dá)到92.2%的準(zhǔn)確率,比目前最好的IOG分割算法提高了0.2%。僅在小樣本PASCAL數(shù)據(jù)集上訓(xùn)練時(shí),文中算法具有更明顯的優(yōu)勢(shì),比現(xiàn)有最好的IOG算法的準(zhǔn)確率提高了1.3%。通過(guò)中文的非對(duì)稱注意力結(jié)構(gòu),能夠在不增加交互成本的同時(shí)提升網(wǎng)絡(luò)的分割精度。

        圖像分割;神經(jīng)網(wǎng)絡(luò);關(guān)鍵點(diǎn)信息;人機(jī)交互

        在涉及圖像處理和計(jì)算機(jī)視覺(jué)的項(xiàng)目中,圖像分割往往是必不可少的一項(xiàng)技術(shù)。近年來(lái),圖像分割項(xiàng)目的熱度始終維持在一個(gè)較高的水平。圖像分割作為計(jì)算機(jī)視覺(jué)領(lǐng)域中眾多基礎(chǔ)性任務(wù)之一,體現(xiàn)出了較高的實(shí)用價(jià)值。

        深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)一經(jīng)提出就被認(rèn)為高度契合圖像處理的需求。從最初廣為人知的Alexnet[1]到后來(lái)的Mask–RCNN[2],這些深度學(xué)習(xí)的方法能夠通過(guò)卷積來(lái)提取圖像特征,并且通過(guò)參數(shù)訓(xùn)練來(lái)對(duì)這些特征進(jìn)行判斷,從而精確預(yù)測(cè)出圖像的類別或是實(shí)現(xiàn)圖像的像素級(jí)別的實(shí)例分割操作。

        實(shí)現(xiàn)圖像語(yǔ)義分割的深度學(xué)習(xí)算法往往依賴著大量?jī)?yōu)質(zhì)的像素級(jí)數(shù)據(jù)集。創(chuàng)建一個(gè)像素級(jí)的大型訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練這些模型的過(guò)程,通常在消耗大量人力物力的同時(shí),有著極長(zhǎng)的構(gòu)建周期,因此,建立一個(gè)交互式的神經(jīng)網(wǎng)絡(luò)模型來(lái)輔助進(jìn)行像素級(jí)數(shù)據(jù)集的創(chuàng)建是必不可少的。交互式的圖像分割模型,具體說(shuō)來(lái)就是通過(guò)獲取一些用戶提供的輸入,如人工標(biāo)注的邊框或者點(diǎn)擊,使神經(jīng)網(wǎng)絡(luò)能夠快速提取感興趣的目標(biāo)對(duì)象,是一種能有效減少人工注釋數(shù)據(jù)集難度和像素級(jí)數(shù)據(jù)集構(gòu)建周期的方法。

        近期,在交互式圖像分割領(lǐng)域中出現(xiàn)了眾多優(yōu)秀的算法。通過(guò)對(duì)文獻(xiàn)的閱讀分類和比較,發(fā)現(xiàn)優(yōu)秀的交互式分割網(wǎng)絡(luò),都基于交互過(guò)程中人工標(biāo)注的關(guān)鍵點(diǎn)信息進(jìn)行圖像的分割。關(guān)鍵點(diǎn)信息之所以優(yōu)秀,是因?yàn)樗哂幸韵聨讉€(gè)特征:易于選取、容錯(cuò)率高、交互成本低、包含的圖像信息豐富。

        基于關(guān)鍵點(diǎn)信息的交互式算法,根據(jù)交互方式可以分為2種類別。

        1)人工標(biāo)注邊緣關(guān)鍵點(diǎn)的分割算法。典型算法有Graph cut[3]算法和DEXTR[4]算法,都基于人工標(biāo)注的圖像邊緣信息來(lái)將圖像的邊緣進(jìn)行處理和分割。其中DEXTR算法于2017年提出,使用了神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)人工標(biāo)注的分割目標(biāo)上下左右的4個(gè)極值點(diǎn)信息。盡管此算法效果優(yōu)秀,可以在4次點(diǎn)擊后達(dá)到90%以上的交并比(IoU)[5],但是在對(duì)細(xì)長(zhǎng)物體和重疊物體處理的過(guò)程中往往誤差較大,同時(shí)極值點(diǎn)標(biāo)注的難度會(huì)帶來(lái)人工成本的增加。

        2)人工標(biāo)注中心關(guān)鍵點(diǎn)的分割算法。典型算法有FCANET[6]算法和IOG[7]算法,都基于人工標(biāo)注的圖像中心點(diǎn)信息來(lái)分割圖像。其中IOG算法于2020年提出,是近期分割效果最優(yōu)秀和人工成本最低的算法,能在3次人工點(diǎn)擊后取得92的IoU評(píng)分。此算法的優(yōu)勢(shì)源于同時(shí)選取了分割目標(biāo)的包圍框和中心點(diǎn),但是也存在一些問(wèn)題,如在處理關(guān)鍵點(diǎn)信息的過(guò)程中將關(guān)鍵點(diǎn)信息和圖像信息進(jìn)行了融合處理,這就導(dǎo)致關(guān)鍵點(diǎn)信息在一定程度上的丟失。

        綜上,IOG算法的優(yōu)勢(shì)在于,人機(jī)交互成本更低,有著較高的容錯(cuò)率,同時(shí)在精度方面取得了較好的成績(jī),因此,文中選擇IOG網(wǎng)絡(luò)結(jié)構(gòu)作為文中的基礎(chǔ)框架,使用非對(duì)稱注意力機(jī)制對(duì)其進(jìn)行優(yōu)化,通過(guò)將關(guān)鍵點(diǎn)信息的單獨(dú)處理和再融合,取得一定的改進(jìn)效果。

        1 交互式圖像分割網(wǎng)絡(luò)

        1.1 網(wǎng)絡(luò)整體結(jié)構(gòu)

        文中算法的網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖1。如圖1所示,文中算法引入了一個(gè)非對(duì)稱的注意力機(jī)制結(jié)構(gòu),只在特征提取部分加入了關(guān)鍵點(diǎn)信息的注意力機(jī)制,而在上采樣的部分則沒(méi)有加入。文中算法之所以強(qiáng)調(diào)非對(duì)稱注意力結(jié)構(gòu)的優(yōu)越性,是因?yàn)樵诖蟛糠謭D像處理算法中,都使用了對(duì)稱的注意力結(jié)構(gòu)。多數(shù)的圖像分割或是圖像重建算法都由特征提取網(wǎng)絡(luò)和上采樣網(wǎng)絡(luò)組成。在上采樣網(wǎng)絡(luò)中主要進(jìn)行圖像的生成工作,因此加入一些注意力結(jié)構(gòu)在某些情況下也能提升網(wǎng)絡(luò)精度。

        在文中算法中,關(guān)鍵點(diǎn)信息主要的效果是提升特征提取網(wǎng)絡(luò)的效果,本身包含的圖像細(xì)節(jié)信息較少。如果在上采樣部分也加入注意力結(jié)構(gòu),將關(guān)鍵點(diǎn)信息進(jìn)行上采樣后再次輸入,會(huì)導(dǎo)致上采樣層中過(guò)度關(guān)注分割目標(biāo)中心,從而丟失大量圖像細(xì)節(jié)信息,最終引起分割精度下降。文中在實(shí)驗(yàn)部分將對(duì)稱結(jié)構(gòu)與非對(duì)稱結(jié)構(gòu)進(jìn)行了對(duì)比,非對(duì)稱結(jié)構(gòu)比對(duì)稱結(jié)構(gòu)的效果要更優(yōu)秀。

        圖1 文中算法網(wǎng)絡(luò)體系結(jié)構(gòu)

        文中提出的非對(duì)稱關(guān)鍵點(diǎn)注意力機(jī)制分割網(wǎng)絡(luò)的主干框架與IOG算法相同,都使用了一個(gè)基于DeepLabv 3+[8]提出的ResNet–101[9]網(wǎng)絡(luò)結(jié)構(gòu)。在研究的過(guò)程中發(fā)現(xiàn),當(dāng)只使用一個(gè)單獨(dú)的特征提取網(wǎng)絡(luò)然后進(jìn)行簡(jiǎn)單的上采樣操作獲取結(jié)果時(shí),會(huì)產(chǎn)生比較嚴(yán)重的邊緣分割誤差。如果直接將網(wǎng)絡(luò)深度增加,只能夠優(yōu)化小部分邊緣和內(nèi)部的信息分割效果,這就意味著必須做出一些網(wǎng)絡(luò)體系結(jié)構(gòu)的改進(jìn),才能夠避免網(wǎng)絡(luò)忽略目標(biāo)分割對(duì)象的邊緣信息。

        如圖1所示,文中算法根據(jù)IOG算法的結(jié)構(gòu)采用了類U–Net[10]的網(wǎng)絡(luò)結(jié)構(gòu)去解決上述邊緣分割效果較差的問(wèn)題。通過(guò)特征提取層和上采樣網(wǎng)絡(luò)層的跳躍連接,將低級(jí)細(xì)節(jié)信息和高級(jí)全局特征從不同尺度輸入上采樣的過(guò)程中,以此來(lái)達(dá)到優(yōu)化邊緣分割的效果。

        具體的分割網(wǎng)絡(luò)共由4個(gè)部分組成,相比IOG算法增加了一個(gè)關(guān)鍵點(diǎn)特征提取網(wǎng)絡(luò)部分。暫且將整個(gè)網(wǎng)絡(luò)的不同部分分別命名為a、b、c和d。第1個(gè)部分a,采用了ResNet–101作為特征提取部分的主干,以原圖像信息和關(guān)鍵點(diǎn)信息構(gòu)成的五通道圖像作為輸入。其中圖像信息使用的是RGB三通道圖像表示方法,而關(guān)鍵點(diǎn)信息則分為兩通道,一個(gè)通道存放2次外部點(diǎn)擊信息,另一通道存放1次內(nèi)部點(diǎn)擊信息。在b部分包含了一個(gè)與a部分相似的注意力結(jié)構(gòu),這個(gè)結(jié)構(gòu)的輸入則是關(guān)鍵點(diǎn)信息互相結(jié)合的一個(gè)二通道圖像,此子網(wǎng)絡(luò)的每層輸出都會(huì)和a部分中的相應(yīng)層輸出進(jìn)行相加操作,這樣做的目的是讓關(guān)鍵點(diǎn)信息在卷積的過(guò)程中始終起到引導(dǎo)網(wǎng)絡(luò)進(jìn)行特征提取的效果。c部分是一個(gè)實(shí)現(xiàn)上采樣的網(wǎng)絡(luò)結(jié)構(gòu),從整體上看a部分和c部分可以發(fā)現(xiàn),文中算法通過(guò)橫向連接,逐步將來(lái)自較深層的圖像分割信息與來(lái)自淺層的淺層信息融合,這能進(jìn)一步提高特征提取部分在分割過(guò)程中所獲取信息的利用率。同時(shí)d部分FineNet則獲得從c中每一不同尺度所給出的粗略預(yù)測(cè)信息,通過(guò)結(jié)合這些不同尺度的信息,能夠起到恢復(fù)缺失的邊緣細(xì)節(jié)的效果。d部分中,每一小塊都采用了bottleneck結(jié)構(gòu)。通過(guò)這種多尺度的融合結(jié)構(gòu),上采樣和級(jí)聯(lián)操作才能夠?qū)⑻卣魈崛∵^(guò)程中的不同級(jí)別的信息融合在一起。

        1.2 非對(duì)稱注意力結(jié)構(gòu)

        文中算法的非對(duì)稱注意力結(jié)構(gòu)以Resnet101為基礎(chǔ),見(jiàn)圖2。

        圖2中,含有標(biāo)識(shí)的塊表示卷積層的疊加,具體疊加方式見(jiàn)圖3。

        在文中的非對(duì)稱注意力結(jié)構(gòu)中,主要使用了與Resnet101相似的結(jié)構(gòu)。如圖2所示,注意力結(jié)構(gòu)以兩通道的點(diǎn)擊信息作為輸入,整體結(jié)構(gòu)與主特征提取網(wǎng)絡(luò)一致。特征提取網(wǎng)絡(luò)開始時(shí)使用了大小為7×7的卷積核進(jìn)行卷積預(yù)處理,然后通過(guò)了一個(gè)池化層。在整個(gè)結(jié)構(gòu)中總共運(yùn)用了4個(gè)池化層,能夠在保留數(shù)據(jù)特征的同時(shí)進(jìn)行數(shù)據(jù)的輕量化,減少特征圖的深度,從而去除冗余的數(shù)據(jù)部分。在卷積塊疊加的過(guò)程中,注意力結(jié)構(gòu)發(fā)揮了作用,在每次主特征提取網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取的同時(shí),注意力網(wǎng)絡(luò)對(duì)關(guān)鍵點(diǎn)信息進(jìn)行特征提取,并將提取結(jié)果與圖像提取結(jié)果進(jìn)行融合,以達(dá)到加強(qiáng)關(guān)鍵點(diǎn)信息引導(dǎo)作用的目的。特征提取部分的提取操作(計(jì)算機(jī)語(yǔ)言)可以表示為式(1)—(4)。

        圖2 文中算法非對(duì)稱注意力結(jié)構(gòu)

        圖3 文中算法注意力塊結(jié)構(gòu)

        圖3中展示了注意力層的一些細(xì)節(jié)。在這個(gè)結(jié)構(gòu)中主要采用了1×1和3×3大小的卷積核,其中1×1大小的卷積核主要用來(lái)控制特征圖像的尺寸和深度,3×3的卷積核則能夠?qū)植啃畔⑦M(jìn)行特征提取操作。每個(gè)注意力塊中都涉及到次的卷積循環(huán)操作,這是為了在不同的塊中進(jìn)行多次卷積操作的疊加,能夠進(jìn)一步加深網(wǎng)絡(luò)深度,從而獲得更優(yōu)秀的特征提取效果。

        1.3 非對(duì)稱注意力結(jié)構(gòu)的優(yōu)越性

        IOG的網(wǎng)絡(luò)結(jié)構(gòu)在卷積的過(guò)程中,關(guān)鍵點(diǎn)的信息會(huì)和圖像信息完全混合,而圖像信息本身有著較高的復(fù)雜程度,這就導(dǎo)致在高層全局特征中關(guān)鍵點(diǎn)信息從一定程度上被丟失,不能起到更好的引導(dǎo)作用。

        例如,當(dāng)IOG在處理一個(gè)交互式圖像分割項(xiàng)目時(shí),首先會(huì)將關(guān)鍵點(diǎn)信息與圖像信息進(jìn)行結(jié)合,生成一個(gè)五通道深度的圖像,其中前3個(gè)通道分別為R、G、B這3個(gè)顏色通道,后2個(gè)通道則包含關(guān)鍵點(diǎn)信息,一個(gè)通道表示外部關(guān)鍵點(diǎn),另一個(gè)通道為內(nèi)部關(guān)鍵點(diǎn)。在第1層卷積的過(guò)程中,圖像的五通道信息被綜合考慮,經(jīng)過(guò)一個(gè)大小為7×7×5的卷積核進(jìn)行卷積,生成一個(gè)深度為64的特征圖。由于關(guān)鍵點(diǎn)信息的特殊性,后2個(gè)通道中的大部分信息都表示為0的形式,只有關(guān)鍵點(diǎn)部分表示為255,而圖像部分的三通道信息大部分都在0~255,這就意味著相比圖像信息而言,關(guān)鍵點(diǎn)信息的復(fù)雜程度較低。隨著卷積計(jì)算多次步驟的疊加,關(guān)鍵點(diǎn)信息與圖像信息會(huì)完全融合,盡管關(guān)鍵點(diǎn)信息被考慮進(jìn)了分割的信息池內(nèi),但是在計(jì)算的過(guò)程中關(guān)鍵點(diǎn)的信息會(huì)因與圖像信息混合而變形,丟失了部分原本包含的信息,這就導(dǎo)致關(guān)鍵點(diǎn)信息不能夠在分割過(guò)程中起到充分的引導(dǎo)作用。

        受到首個(gè)關(guān)鍵點(diǎn)注意力機(jī)制分割算法[6]的啟發(fā),文中延續(xù)了關(guān)鍵點(diǎn)注意力機(jī)制的思想,基于IOG網(wǎng)絡(luò)提出了新的特征提取策略。通過(guò)采用一個(gè)非對(duì)稱注意力結(jié)構(gòu)將關(guān)鍵點(diǎn)信息獨(dú)立輸入不同的網(wǎng)絡(luò)層中,使得關(guān)鍵點(diǎn)信息在特征提取的過(guò)程中始終起到一個(gè)引導(dǎo)的作用。同時(shí)關(guān)鍵點(diǎn)信息也通過(guò)跳躍連接作用于上采樣網(wǎng)絡(luò)的不同層中。這樣的優(yōu)勢(shì)在于關(guān)鍵點(diǎn)信息可以始終作用于整個(gè)網(wǎng)絡(luò)部分,將人機(jī)交互過(guò)程中所獲取的信息收益放大。

        正如1.1節(jié)所提到的,IOG算法在分割過(guò)程中會(huì)面臨關(guān)鍵點(diǎn)信息部分丟失的問(wèn)題,而文中提出的非對(duì)稱注意力結(jié)構(gòu)可以將關(guān)鍵點(diǎn)信息在卷積的過(guò)程中獨(dú)立分離出來(lái)進(jìn)行卷積操作,這樣做的好處是分離出的關(guān)鍵點(diǎn)信息部分不會(huì)被圖像信息所污染,能夠?qū)⒃镜男畔⒈A舻矫總€(gè)特征層部分,通過(guò)不同尺度上的疊加來(lái)進(jìn)行對(duì)分割的引導(dǎo)。

        2 人機(jī)交互實(shí)現(xiàn)細(xì)節(jié)

        2.1 算法交互過(guò)程

        文中算法的人機(jī)交互點(diǎn)擊過(guò)程與IOG算法類似,主要包括3次人工點(diǎn)擊:首先在任何對(duì)稱的角位置(左上角和右下角或右上角和左下角)進(jìn)行2次外部點(diǎn)擊,形成一個(gè)幾乎緊密的包圍感興趣的目標(biāo)的邊界框,然后在內(nèi)部點(diǎn)擊,定位大致位于目標(biāo)中心。

        如圖4所示,文中算法的人機(jī)交互包括步驟 如下。

        1)第1次外部點(diǎn)擊。用戶單擊確定左上角的邊框點(diǎn)。

        2)第2次外部點(diǎn)擊。當(dāng)用戶移動(dòng)光標(biāo)至邊框右下角時(shí),使用引導(dǎo)線提示用戶包圍框的位置,并在圖像中上生成一個(gè)邊界框。

        3)內(nèi)部點(diǎn)擊選擇物體。在目標(biāo)對(duì)象的中心位置附近放置內(nèi)部單擊。

        4)顯示分割結(jié)果。內(nèi)部點(diǎn)擊(紅色)與4個(gè)外部點(diǎn)擊(2個(gè)點(diǎn)擊的點(diǎn)和2個(gè)自動(dòng)推斷的點(diǎn))(藍(lán)色)構(gòu)成內(nèi)外引導(dǎo),以此分別確定編碼的前景和背景區(qū)域。

        調(diào)查表明,在數(shù)據(jù)集ImageNet[11]上繪制一個(gè)緊湊型的包圍框平均耗時(shí)為25.5 s[12]。這是由于人工標(biāo)注的邊界和物體實(shí)質(zhì)邊界的像素點(diǎn)總有差別,因此難以確定。使用一些簡(jiǎn)單的提示來(lái)表示邊界框的位置,例如使用水平和垂直向?qū)Ь€使框在單擊時(shí)可見(jiàn),給人繪制邊界框的負(fù)擔(dān)可以大大減輕,見(jiàn)圖4a—b。據(jù)IOG算法中的相關(guān)調(diào)查顯示,在引導(dǎo)線的幫助下繪制一個(gè)邊框通常需要只6.7 s[7]。

        2.2 訓(xùn)練過(guò)程模擬關(guān)鍵點(diǎn)的選取

        為了在訓(xùn)練過(guò)程中模擬人工選取的關(guān)鍵點(diǎn)信息,文中采用了一種根據(jù)數(shù)據(jù)集中目標(biāo)分割的真值結(jié)果來(lái)進(jìn)行模擬關(guān)鍵點(diǎn)選取的方法。

        雖然電氣設(shè)備在設(shè)計(jì)時(shí)已經(jīng)考慮了防振問(wèn)題,但是由于周邊或自身工作時(shí)的振動(dòng),容易引起電氣設(shè)備的緊固螺絲松動(dòng),接插件等的松動(dòng),插件板的松動(dòng)等,進(jìn)而會(huì)引起電氣接觸不良、斷線、脫落、開焊、錯(cuò)位、使動(dòng)作失常和控制失靈。因此,對(duì)于振動(dòng)大,或者振動(dòng)對(duì)設(shè)備運(yùn)行造成威脅的場(chǎng)合必須采取防震、隔振的措施。

        首先,包圍物體的包圍框是由外部關(guān)鍵點(diǎn)決定的。外部關(guān)鍵點(diǎn)的選取較為簡(jiǎn)單,只需要對(duì)真值圖像的目標(biāo)部分取一個(gè)簡(jiǎn)要的包圍框即可。

        內(nèi)部關(guān)鍵點(diǎn)由一個(gè)位于分割目標(biāo)中心位置周圍的單擊操作來(lái)確定,這個(gè)內(nèi)部點(diǎn)選取的目的是為了區(qū)分分割目標(biāo),避免在同一個(gè)包圍框的區(qū)域中可能有多個(gè)對(duì)象帶來(lái)的干擾。為了模擬人工點(diǎn)擊的效果,采取了選擇在離對(duì)象邊界最遠(yuǎn)的位置取內(nèi)部關(guān)鍵點(diǎn)的方法。

        3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)使用的相關(guān)環(huán)境為:python3.8、pytorch1.4.1、cuda11.1、windows10、Nvidia GeForce GTX3080Ti GPU。使用了PASCAL[13]數(shù)據(jù)集。值得注意的是,在此網(wǎng)絡(luò)節(jié)點(diǎn)的測(cè)試過(guò)程中,輸出的掩碼是灰度圖像的格式,因此要先進(jìn)行二值化操作再與數(shù)據(jù)集中給出的真實(shí)值進(jìn)行比對(duì)。

        3.1 IoU評(píng)價(jià)對(duì)比

        文中使用IoU[5]指標(biāo)對(duì)圖像分割算法進(jìn)行評(píng)估,該值表示算法獲取的分割結(jié)果與圖像中相應(yīng)目標(biāo)區(qū)域的交并比。在表1中,展示了現(xiàn)有交互式分割算法的分割效果,最后3種方法只使用了3次點(diǎn)擊交互,學(xué)習(xí)率均設(shè)定為1×10?8,batch size均設(shè)定為4,使用了相同的SGD損失函數(shù),保證了參數(shù)的一致性。通過(guò)數(shù)值的比較可以明顯看出,文中的算法在交互成本和分割精度方面都處于最優(yōu)秀的行列,同時(shí)分割精度較目前最優(yōu)秀的方法稍有提升。從提升精度角度來(lái)看,文中算法較IOG算法只提升了0.2%,這是因?yàn)樵诮换コ杀臼艿较拗频那闆r下,為保證網(wǎng)絡(luò)的運(yùn)行速度,并未對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)和深度進(jìn)行大量修改,進(jìn)一步提升精度較為困難。文中的方法在小批次訓(xùn)練效果和擬合速度方面都取得了更優(yōu)秀的成績(jī),見(jiàn)表2。

        表2中展示了4種算法不加載預(yù)訓(xùn)練模型僅在PASCAL數(shù)據(jù)集上訓(xùn)練100個(gè)epoch后的結(jié)果??梢?jiàn)文中的非對(duì)稱注意力結(jié)構(gòu)除了準(zhǔn)確率更高的優(yōu)勢(shì)之外,還可以在更小的訓(xùn)練集上快速擬合。其中,DEXTR算法、IOG算法都選取了第100個(gè)epoch為最優(yōu)節(jié)點(diǎn),對(duì)稱注意力機(jī)制分割方法選取了第96個(gè)epoch為最優(yōu)節(jié)點(diǎn),而文中算法在第93個(gè)epoch就達(dá)到了最佳的擬合效果。

        表1 基于PASCAL數(shù)據(jù)集的現(xiàn)有算法分割結(jié)果準(zhǔn)確率對(duì)比

        Tab.1 Accuracy of released networks on PASCAL

        注:“—”表示該項(xiàng)目未給出相關(guān)的評(píng)級(jí)策略;帶“*”的數(shù)值表示該網(wǎng)絡(luò)僅用PASCAL數(shù)據(jù)集進(jìn)行訓(xùn)練。

        表2 基于PASCAL數(shù)據(jù)集的小批次訓(xùn)練結(jié)果對(duì)比

        Tab.2 Accuracy of released networks on PASCAL with small training dataset

        在不加載任何預(yù)訓(xùn)練模型的情況下,IOG算法訓(xùn)練100個(gè)epoch后取最優(yōu)節(jié)點(diǎn),在PASCAL上取得的準(zhǔn)確率為86.6%,而文中算法可以達(dá)到87.9%的準(zhǔn)確率,DEXTR僅能達(dá)到82.1%的準(zhǔn)確率,對(duì)稱注意力機(jī)制算法則略低于非對(duì)稱版本,只能達(dá)到87.4%。從準(zhǔn)確率的角度分析,DEXTR算法的準(zhǔn)確率最低,分割精度較差,IOG算法準(zhǔn)確率高于DEXTR算法,但未達(dá)到加入注意力機(jī)制后的算法水平。加入注意力機(jī)制后,在小批次訓(xùn)練的條件下,2種注意力機(jī)制都取得了較好的效果,這是因?yàn)樽⒁饬C(jī)制使得網(wǎng)絡(luò)對(duì)交互信息的利用率得到了提升,而非對(duì)稱注意力機(jī)制相較對(duì)稱注意力機(jī)制領(lǐng)先了0.5%,這是因?yàn)殛P(guān)鍵點(diǎn)信息在上采樣的部分起到的效果一般,因此非對(duì)稱注意力機(jī)制的效果更好。在表1中,加入對(duì)稱注意力機(jī)制會(huì)導(dǎo)致算法效果比IOG更差,這是因?yàn)樵诩虞d預(yù)訓(xùn)練模型后,訓(xùn)練后網(wǎng)絡(luò)的整體精度提升,而上采樣中的關(guān)鍵點(diǎn)信息會(huì)對(duì)特征提取部分獲得的信息產(chǎn)生較大的影響,反而會(huì)以噪聲的形式對(duì)圖像重建產(chǎn)生干擾,因此,文中算法在小批次數(shù)據(jù)集上的訓(xùn)練效果要比另外3種算法更優(yōu)秀。

        3.2 實(shí)驗(yàn)結(jié)果可視化分析

        了更加直觀地體現(xiàn)文中算法在圖像信息復(fù)雜的情況下所具備的優(yōu)勢(shì),DEXTR算法(圖5b、g、l)、IOG算法(圖5c、h、m)、對(duì)稱注意力機(jī)制算法(圖5d、i、n)和文中算法(圖5c、j、o)的部分分割結(jié)果可視化對(duì)比見(jiàn)圖5,均為加載預(yù)訓(xùn)練模型訓(xùn)練后的分割結(jié)果。圖6a、f、k展示了圖5a、f、k這3幅圖像的真值結(jié)果,其余圖為圖5中分割結(jié)果與真值結(jié)果的差值圖像,淺色部分為算法結(jié)果將背景信息誤判為分割目標(biāo)的部分,深色部分為分割目標(biāo)的缺失部分。這個(gè)過(guò)程中閾值取為0.5級(jí),即以128為閾值,是因?yàn)榇碎撝档燃?jí)最為常見(jiàn),有較高的實(shí)用性,因此將分割結(jié)果像素值小于128的部分進(jìn)行丟棄,進(jìn)行了分割結(jié)果的二值化操作。

        圖5 部分實(shí)驗(yàn)結(jié)果對(duì)比

        圖6 部分實(shí)驗(yàn)結(jié)果差值圖對(duì)比

        注:IoU和mIoU的值分別為分割結(jié)果的0.5級(jí)閾值準(zhǔn)確率和平均準(zhǔn)確率。

        為了進(jìn)一步說(shuō)明4中方法的差別,將圖6中對(duì)應(yīng)的每行圖像加以放大說(shuō)明,見(jiàn)圖7—9。

        圖5a在4種算法下的分割誤差見(jiàn)圖7。DEXTR方法將人物的頭部和部分身體誤判為了馬匹的身軀部分,由叉號(hào)標(biāo)出;IOG方法稍有改善,將人物左側(cè)身體成功篩除,但仍將人物頭部和右側(cè)身體誤判為馬匹,由叉號(hào)標(biāo)出;對(duì)稱注意力機(jī)制方法的分割誤差在馬匹左側(cè)和人物頭部的分割效果都得到了改善,由虛線包圍的區(qū)域和對(duì)號(hào)標(biāo)出,但是人物的身體部分被大量誤判為馬匹的身軀,由叉號(hào)標(biāo)出;文中非對(duì)稱注意力機(jī)制算法能做到精確分割人物頭部和身體部分,以及馬匹左側(cè)的部分都被精確分割,虛線和對(duì)號(hào)標(biāo)出了文中方法所改善的區(qū)域。

        當(dāng)原圖中包含顏色相似接觸緊密的多個(gè)目標(biāo)時(shí)(圖5a中的馬匹和人物),DEXTR方法、IOG方法容易產(chǎn)生不同目標(biāo)間分割混亂的情況。采用對(duì)稱注意力機(jī)制的算法能夠減少不同顏色間的誤判,但容易在顏色相近的部分生成更多的雜邊和分割誤差。文中的方法則能夠更為清晰地得到分割結(jié)果,能夠區(qū)分顏色相近且距離緊密的不同目標(biāo)。

        圖5f在4種算法下的分割誤差見(jiàn)圖8。DEXTR方法、IOG方法分割誤差部分,人物的腿部被自行車所遮擋,產(chǎn)生了較嚴(yán)重的目標(biāo)丟失,由叉號(hào)標(biāo)出;對(duì)稱注意力機(jī)制部分,人物的腿部被大量丟失,同時(shí)將自行車部分誤判為人物的腿部,由叉號(hào)標(biāo)出;文中非對(duì)稱注意力部分,人物的腿部得到了有效分割,同時(shí)不存在將自行車誤判為人物腿部的情況,由虛線包圍的區(qū)域和對(duì)號(hào)標(biāo)出。

        當(dāng)原圖中的分割目標(biāo)被障礙物遮擋時(shí)(圖5f中的人物),DEXTR方法、IOG方法會(huì)由于目標(biāo)被遮擋而丟失一些信息。采用對(duì)稱注意力機(jī)制則容易丟棄更多目標(biāo)被遮擋的部分,同時(shí)存在遮擋物被誤判為目標(biāo)物的情況。文中的方法則能夠獲得較為精確的分割結(jié)果,能夠在排除遮擋物的情況下對(duì)目標(biāo)做出正確分割。

        圖5k在4種算法下的分割誤差見(jiàn)圖9。DEXTR方法部分,將背景中的陰影部分誤判為了人體,由叉號(hào)標(biāo)出;IOG方法部分,則將人物手臂下的背景部分誤判為人物手臂,由叉號(hào)標(biāo)出;對(duì)稱注意力機(jī)制部分,人物手臂下的誤判得到了改善,由虛線包圍的區(qū)域和對(duì)號(hào)標(biāo)出,但在人物頭部的分割精度下降,將背景部分誤判為人物頭發(fā),由叉號(hào)標(biāo)出;文中非對(duì)稱注意力機(jī)制部分,既改善了人物手臂下的誤判區(qū)域,在人物頭部生成的多余雜邊也較少,由2處虛線包圍的區(qū)域和對(duì)號(hào)標(biāo)出。

        當(dāng)圖像整體偏暗,目標(biāo)顏色相近信息復(fù)雜時(shí)(圖5k中的人物),DEXTR方法、IOG方法都會(huì)產(chǎn)生較多雜邊。對(duì)稱注意力機(jī)制能夠減少一些外圍的雜邊,但在主體分割的精確度上反而會(huì)有部分下降。文中的分割算法在此情況下最清晰精確,能夠做到減少雜邊和誤判所帶來(lái)的分割誤差。

        通過(guò)綜合分析這3種情況,說(shuō)明了文中的方法在多目標(biāo)色彩相似且距離復(fù)雜、目標(biāo)之間存在明顯遮擋關(guān)系、前景和背景色調(diào)相似等情況下都擁有更好的分割精度。

        圖7 圖5a實(shí)驗(yàn)結(jié)果差值

        圖8 圖5f實(shí)驗(yàn)結(jié)果差值

        圖9 圖5k實(shí)驗(yàn)結(jié)果差值

        3.3 泛化性能測(cè)試

        如表3所示,在泛化性測(cè)試中,選用了COCO2017數(shù)據(jù)集中的部分圖片。首先對(duì)人像圖片進(jìn)行泛化性能測(cè)試,由于人像信息的復(fù)雜性,IOG算法和文中算法均表現(xiàn)一般。在PASCAL數(shù)據(jù)集進(jìn)行訓(xùn)練的條件下,IOG算法的準(zhǔn)確率為49.0%,文中算法準(zhǔn)確率為50.4%。對(duì)車輛圖片進(jìn)行測(cè)試,IOG算法準(zhǔn)確率為59.4%,文中算法準(zhǔn)確率為60.8%。對(duì)家具圖片測(cè)試,IOG準(zhǔn)確率為52.9%,文中算法準(zhǔn)確率為53.8%。在測(cè)試中,對(duì)人物圖像和家具圖像效果較一般的原因是,這2類圖像一般構(gòu)成信息較為復(fù)雜,多存在物體重疊的部分,且顏色較為鮮艷,因此分割效果要略低于車輛圖片。在泛化性能上文中方法的準(zhǔn)確率較IOG算法平均高出1.2%,提升效果較為明顯。

        表3 基于COCO數(shù)據(jù)集的算法泛化能力對(duì)比

        Tab.3 Accuracy of interactive image segmentation network on COCO

        泛化性能測(cè)試中部分實(shí)驗(yàn)結(jié)果見(jiàn)圖10,圖10a、d為實(shí)驗(yàn)圖像,圖10b、e為IOG算法的分割結(jié)果,圖10c、f為文中算法分割結(jié)果。從圖10中可以看出文中算法的分割結(jié)果邊緣更加清晰,像素填充更加穩(wěn)定均勻。

        綜上,文中方法的泛化性能比IOG算法更加優(yōu)秀。

        圖10 COCO數(shù)據(jù)集部分實(shí)驗(yàn)結(jié)果對(duì)比

        4 結(jié)語(yǔ)

        文中提出了一種簡(jiǎn)單有效的非對(duì)稱注意力結(jié)構(gòu),將交互式分割過(guò)程中的關(guān)鍵點(diǎn)信息單獨(dú)卷積后,在特征提取部分與圖像信息再融合,在避免關(guān)鍵點(diǎn)信息損失的同時(shí)加強(qiáng)了其對(duì)分割的引導(dǎo)效果,從而獲取了精度上的提升。同時(shí),文中將多種方法進(jìn)行了對(duì)比,在小批次訓(xùn)練以及泛化性能等角度,文中算法均具優(yōu)勢(shì)。

        盡管文中方法的交互模式十分簡(jiǎn)單,但實(shí)驗(yàn)表明,關(guān)鍵點(diǎn)模型在數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果和交互的便利性上具有優(yōu)勢(shì),從而證明了它作為一個(gè)注釋工具的可能。后期的工作可以嘗試在其輸入信息中加入更多圖像信息,如邊緣信息和梯度信息。從信息量的角度來(lái)細(xì)化輸入或者從加深網(wǎng)絡(luò)深度的角度來(lái)進(jìn)一步優(yōu)化,能作為該算法以后的改進(jìn)方向。

        [1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 25: 1097-1105.

        [2] HE K, GKIOXARI G, DOLLáR P, et al. Mask R-Cnn[C]// Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.

        [3] VICENTE S, KOLMOGOROV V, ROTHER C. Graph Cut Based Image Segmentation with Connectivity Priors[C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2008: 1-8.

        [4] MANINIS K K, CAELLES S, PONT-TUSET J, et al. Deep Extreme Cut: From Extreme Points To Object Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 616-625.

        [5] YU J, JIANG Y, WANG Z, et al. Unitbox: An Advanced Object Detection Network[C]// Proceedings of the 24th ACM international conference on Multimedia. 2016: 51-520.

        [6] LIN Z, ZHANG Z, CHEN L Z, et al. Interactive Image Segmentation with First Click Attention[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 13339-13348.

        [7] ZHANG S, LIEW J H, WEI Y, et al.Interactive Object Segmentation With Inside-Outside Guidance[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 12234-12244.

        [8] CHEN L C, ZHU Yu-kun, PAPANDREOU G, et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation[C]//Computer Vision-ECCV 2018, 2018: 801-818.

        [9] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

        [10] LI Xiao-meng, CHEN Hao, QI Xiao-juan, et al. H-DenseUNet: Hybrid Densely Connected UNet for Liver and Tumor Segmentation from CT Volumes[J]. IEEE Transactions on Medical Imaging, 2018, 37(12): 2663-2674.

        [11] DENG J, DONG W, SOCHER R, et al. Imagenet: A large-Scale Hierarchical Image Database[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009: 248-255.

        [12] SU Hao, DENG Jia, LI Fei-fei. Crowdsourcing Annotations for Visual Object Detection[C]// Workshops at the Twenty-Sixth AAAI Conference on Artificial Intelligence, 2012.

        [13] EVERINGHAM M, GOOL L, WILLIAMS C K I, et al. The Pascal Visual Object Classes (VOC) Challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

        [14] GRADY L. Multilabel Random Walker Image Segmentation Using Prior Models[C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), IEEE, 2005, 1: 763-770.

        [15] BAI Xue, SAPIRO G. Geodesic Matting: A Framework for Fast Interactive Image andVideo Segmentation and Matting[J]. International Journal of Computer Vision, 2009, 82(2): 113-132.

        [16] XIE E, SUN P, SONG X, et al. Polarmask: Single Shot Instance Segmentation with Polar Representation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 12193-12202.

        [17] LIEW J H, WEI Y, XIONG W, et al. Regional Interactive Image Segmentation Networks[C]// 2017 IEEE International Conference on Computer Vision (ICCV), IEEE Computer Society, 2017: 2746-2754.

        [18] HU Yang, SOLTOGGIO A, LOCK R, et al. A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation[J]. Neural Networks, 2019, 109: 31-42.

        Interactive Image Segmentation with Asymmetric Key Points Attention

        SUN Liu-jie, FAN Jing-xing

        (University of Shanghai for Science and Technology, Shanghai 200125, China)

        In the process of interactive image segmentation, human-computer interaction plays an important role. For higher efficiency of human-computer interaction, this paper describes a structure of asymmetric key points attention, which can integrate human-computer interaction into the feature extraction network of interactive object segmentation with inside-outside guidance (IOG), based on guidance reinforcement of IOG for image segmentation of key points. This structure enhanced the accuracy to 92.2% without increasing the cost of interaction on PASCAL, 0.2% higher IOG (current best segmentation algorithm). While only training on PASCAL, the accuracy of this structure was obviously 1.3% higher than IOG. Under the assistance of the structure of asymmetric key points attention, the accuracy of segmentation can be improved without increasing the cost of interaction.

        image segmentation; neural network; key points; human-computer interaction

        TP183

        A

        1001-3563(2022)11-0292-10

        10.19554/j.cnki.1001-3563.2022.11.037

        2021–06–18

        孫劉杰(1965—),男,博士,上海理工大學(xué)教授,主要研究方向?yàn)楣庑畔⑻幚砑夹g(shù)、印刷機(jī)測(cè)量與控制技術(shù)、數(shù)字印刷防偽技術(shù)。

        責(zé)任編輯:曾鈺嬋

        猜你喜歡
        關(guān)鍵點(diǎn)特征提取信息
        聚焦金屬關(guān)鍵點(diǎn)
        肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        展會(huì)信息
        醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
        鎖定兩個(gè)關(guān)鍵點(diǎn)——我這樣教《送考》
        Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
        軸承(2010年2期)2010-07-28 02:26:12
        国产精品你懂的在线播放| 亚洲首页一区任你躁xxxxx| 中文字幕不卡在线播放| 欧美伊人亚洲伊人色综| 亚洲一区二区三区精品久久| 亚洲天堂二区三区三州| 日韩视频在线观看| 激情综合丁香五月| 成年女人永久免费看片| 无码熟妇人妻av在线c0930| 亚洲精品国产亚洲av| 免费看又色又爽又黄的国产软件| 99国产精品无码| 国产日韩欧美在线| 国产精品久久久亚洲第一牛牛 | 青青草骚视频在线观看| 久久超碰97人人做人人爱 | 国产七十六+老熟妇| 最新四色米奇影视777在线看| 无码高潮少妇毛多水多水免费| 日韩午夜免费视频精品一区| 精品人妻av一区二区三区| 久久精品国产精品国产精品污| 久久精品国产亚洲AV成人公司| 青青草视全福视频在线| 国产一区二区三区十八区| 国产精品视频亚洲二区| 久久夜色精品国产噜噜亚洲av| 亚洲AV肉丝网站一区二区无码 | 邻居人妻的肉欲满足中文字幕| 亚洲人成网站色www| 性一乱一搞一交一伦一性| mm在线精品视频| 国产无套粉嫩白浆内精| 天堂资源中文网| 精产国品一二三产区m553麻豆| 久草视频这里有精品| 无码伊人久久大杳蕉中文无码| 少妇人妻无奈的跪趴翘起 | 啦啦啦中文在线观看日本| 亚洲专区欧美|