亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于融合多尺度標(biāo)記信息的深度交互式圖像分割

        2021-08-17 00:51:38丁宗元孫權(quán)森王洪元
        關(guān)鍵詞:特征用戶信息

        丁宗元 孫權(quán)森 王 濤 王洪元

        1(南京理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 南京 210094) 2(常州大學(xué)計(jì)算機(jī)與人工智能學(xué)院 江蘇常州 213164)

        圖像分割是通過計(jì)算機(jī)視覺算法將圖像劃分為若干內(nèi)部連通卻彼此特征互異的區(qū)域,優(yōu)秀的分割結(jié)果可以顯著提升計(jì)算機(jī)視覺的其他任務(wù)表現(xiàn),例如目標(biāo)檢測,圖像識(shí)別等.傳統(tǒng)圖像分割算法對(duì)圖像中的目標(biāo)缺乏偏好性.而為了獲取用戶感興趣目標(biāo),交互式圖像分割算法被提出.通過引入少量的用戶標(biāo)記(邊界框、畫線、單擊等),將這些標(biāo)記作為先驗(yàn),從而指導(dǎo)網(wǎng)絡(luò)分割出用戶感興趣目標(biāo),此外,先驗(yàn)?zāi)軌驅(qū)W(wǎng)絡(luò)分割的結(jié)果起到很好的修正作用.交互式圖像分割在圖像編輯、醫(yī)療圖像分析等領(lǐng)域都有著廣泛的應(yīng)用[1-3].

        傳統(tǒng)的交互式圖像分割算法主要利用顏色、紋理等手工特征設(shè)計(jì)算法.在此基礎(chǔ)上,一些基于圖論的交互式圖像分割算法被提出,例如GraphCut[4],GrabCut[5],Random walks[6]等.這些算法在一些簡單的圖像上獲得了較好的分割結(jié)果.然而這些簡單的手工特征對(duì)一些復(fù)雜圖像缺乏魯棒性,導(dǎo)致算法性能急劇下降.而近些年隨著深度學(xué)習(xí)的成功應(yīng)用,深度特征逐漸取代傳統(tǒng)手工特征,大大提升了交互式圖像分割的性能.

        在基于深度學(xué)習(xí)的交互式圖像分割領(lǐng)域,涌現(xiàn)了大量性能優(yōu)異的網(wǎng)絡(luò)模型.深度交互式目標(biāo)選擇(deep interactive object selection)[7]首次將深度學(xué)習(xí)應(yīng)用在交互式圖像分割領(lǐng)域,基于全卷積神經(jīng)網(wǎng)絡(luò)模型(fully convolutional neural network, FCN)[8],用戶通過單擊的方式提供前景與背景的先驗(yàn),然后計(jì)算圖像中的所有像素到用戶單擊點(diǎn)的歐氏距離(為了便于存儲(chǔ),在大于255處截?cái)?獲得交互映射,將交互映射與原始圖像相拼接作為網(wǎng)絡(luò)的原始輸入,從而獲得用戶感興趣的目標(biāo).這種模型結(jié)構(gòu)簡單,但依然能夠獲取比傳統(tǒng)手工特征更好的分割效果.基于這種融合用戶交互信息的思想也被其他深度交互式圖像分割算法應(yīng)用[9-11].這種結(jié)合用戶交互信息作為網(wǎng)絡(luò)初始輸入來指導(dǎo)網(wǎng)絡(luò)分割的思想被稱作先融合策略.然而,先融合策略會(huì)使得用戶交互信息隨著網(wǎng)絡(luò)的加深而逐漸衰減,從而在編碼器部分很難獲得交互信息的持續(xù)監(jiān)督.因此,一些基于后融合策略的算法被提出[12-13],具體而言,對(duì)交互信息單獨(dú)卷積,從而與編碼器的高級(jí)特征進(jìn)行融合,這樣的做法使得交互信息更多地體現(xiàn)在選擇的作用上,因此對(duì)主網(wǎng)絡(luò)的分割精度要求較高.此外,通過計(jì)算歐氏距離來構(gòu)建交互映射的方式具有一些固有問題:首先,由于原始輸入圖像需要進(jìn)行歸一化處理,而用戶交互映射上的所有值分布在0~255,因此會(huì)使得網(wǎng)絡(luò)對(duì)于用戶交互過于敏感,從而增加用戶交互的次數(shù);其次,由于對(duì)于像素到每個(gè)交互點(diǎn)的歐氏距離在255處截?cái)啵沟妹總€(gè)交互點(diǎn)的影響范圍固定且比較大,從而對(duì)于目標(biāo)細(xì)小區(qū)域很難獲得令人滿意的效果.究其本質(zhì),對(duì)于不同的單擊交互點(diǎn)的作用并不相同,對(duì)于大區(qū)域的交互,其作用更多體現(xiàn)在選擇,而細(xì)小區(qū)域的交互更多體現(xiàn)了微調(diào)的作用.在文獻(xiàn)[9]中,作者第1次利用高斯分布來表達(dá)用戶的交互信息,使得交互映射的值分布在0~1之間,實(shí)驗(yàn)表明這種方法能夠顯著提升深度交互式圖像分割算法的性能.而Forte等人[14]對(duì)于每個(gè)交互點(diǎn)計(jì)算了3種不同尺度的高斯映射,其消融實(shí)驗(yàn)可以看出該方法能夠顯著提升算法的分割精度.但這種方法是直接將3種尺度交互信息作為網(wǎng)絡(luò)的輸入,并未將其不同作用分開,因此有進(jìn)一步提升的空間.文獻(xiàn)[15]將用戶交互的不同作用分開,著重強(qiáng)調(diào)了用戶的初始交互,利用雙路網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)初始單擊映射單獨(dú)進(jìn)行特征提取,從而使得網(wǎng)絡(luò)基于初始交互的結(jié)果具有更好的位置指導(dǎo)能力以及容錯(cuò)能力.

        為了解決以上的問題,本文提出了基于多尺度標(biāo)記信息融合的深度交互式圖像分割算法.首先,對(duì)用戶單擊點(diǎn)計(jì)算2組不同尺度的高斯映射圖,即先計(jì)算每個(gè)點(diǎn)到用戶單擊點(diǎn)的歐氏距離,然后基于歐氏距離計(jì)算高斯分布,通過設(shè)置不同的高斯半徑獲得不同尺度的交互映射圖.其次,基于最新的語義分割框架DeepLabV3+[16],設(shè)計(jì)出融合不同尺度交互映射的雙路網(wǎng)絡(luò)結(jié)構(gòu)用于提取目標(biāo)的多尺度特征.原始DeepLabV3+[16]的編碼器會(huì)過早將特征圖縮小多倍,從而影響提取目標(biāo)的細(xì)節(jié)特征.因此,基礎(chǔ)分割網(wǎng)絡(luò)的編碼器在ResNet50[17]的基礎(chǔ)上,移除了最大池化層,避免小目標(biāo)被大幅度下采樣而過早丟失較多的細(xì)節(jié)信息.同時(shí)為了保持目標(biāo)的非局部特征提取,恢復(fù)使用最大池化層對(duì)特征圖下采樣并形成新的特征提取分支,即非局部特征注意力模塊.最后,利用一致性增強(qiáng)損失以及概率單擊損失函數(shù)來監(jiān)督非局部特征注意力模塊以及網(wǎng)絡(luò)最終的輸出.此外,由于導(dǎo)向?yàn)V波(guided filter)[18]對(duì)目標(biāo)具有優(yōu)異的邊緣保持性能,因此本文利用導(dǎo)向?yàn)V波進(jìn)一步提升網(wǎng)絡(luò)的分割精度.

        本文的主要貢獻(xiàn)包括3個(gè)部分:

        1) 充分利用多尺度交互信息,將其用于監(jiān)督不同目標(biāo)不同尺度特征的分割表現(xiàn).

        2) 針對(duì)目標(biāo)的不同尺度特征,通過修改網(wǎng)絡(luò)編碼器的下采樣位置,使得目標(biāo)細(xì)節(jié)特征不被過度下采樣,而目標(biāo)全局特征的分割性能依然能夠保持.

        3) 利用一致性增強(qiáng)損失函數(shù)與概率單擊損失函數(shù)相結(jié)合,顯著提升網(wǎng)絡(luò)的分割效果.

        1 相關(guān)工作

        圖像分割是計(jì)算機(jī)視覺中的一個(gè)關(guān)鍵過程,它包括將圖像輸入分割成片段以簡化圖像分析.片段表示目標(biāo)或者目標(biāo)的一部分,由像素集或者超像素組成.而交互式圖像分割通過引入用戶交互,使得這些分割出的片段更符合用戶需求.

        傳統(tǒng)的圖像分割算法利用手工設(shè)計(jì)特征與嚴(yán)格的算法,因此需要更多的人工干預(yù)和專業(yè)知識(shí),主要包括閾值分割[19]、Meanshift分割[20]以及邊緣檢測法[21]等.這些方法對(duì)于一些復(fù)雜的圖像性能表現(xiàn)欠佳.近些年深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域日益成熟,大大促進(jìn)了圖像分割算法的表現(xiàn).Shelhamer等人[8]第1次將深度學(xué)習(xí)應(yīng)用于圖像分割,提出了全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network, FCN),通過將VGG(Visual Geometry Group)[22]網(wǎng)絡(luò)的全連接層更換為卷積層,然后通過上采樣獲得最終分割結(jié)果.在此思想基礎(chǔ)上,大量優(yōu)秀的深度圖像分割模型被提出.例如在醫(yī)療圖像分割領(lǐng)域大放異彩的U-net模型[23]及其衍生模型[24],基于編碼器-解碼器架構(gòu)的SegNet模型[25]以及集大成之作的DeepLab系列模型[16,26-28].其中DeepLab系列模型利用空洞卷積(atrous convolution)[27]而不是規(guī)則的卷積,每個(gè)卷積不同擴(kuò)張率使殘差模塊能夠捕獲多尺度的上下文信息而且不增加模型參數(shù).并且使用ASPP(atrous spatial pyramid pooling)模塊[16]聚合這些不同尺度的上下文信息.這些思想被后續(xù)深度圖像分割算法大量應(yīng)用,并且取得了優(yōu)異的效果.同時(shí)也極大地鼓舞了深度交互式圖像分割算法的發(fā)展.

        傳統(tǒng)交互式圖像分割算法同樣采用手工設(shè)計(jì)特征,使得算法對(duì)圖像質(zhì)量尤為敏感,即算法在復(fù)雜圖像的表現(xiàn)極差,極大地增加了用戶的負(fù)擔(dān).因此,受深度圖像分割算法的啟發(fā),近些年涌現(xiàn)出大量深度交互式圖像分割算法.2016年,Xu等人[7]結(jié)合FCN網(wǎng)絡(luò),利用歐氏距離映射來表達(dá)用戶交互信息,并且作者提出的幾種模擬用戶交互策略被其他深度交互式圖像分割算法普遍采用.2017年,Liew等人[10]提出了區(qū)域交互式圖像分割算法,結(jié)合全局上下文信息優(yōu)化局部區(qū)域分割的結(jié)果.2018年,Maninis等人[29]通過極限單擊點(diǎn)(即目標(biāo)的邊界框上的4個(gè)頂點(diǎn))作為網(wǎng)絡(luò)的輸入,輔以少部分額外單擊修正分割誤差.文獻(xiàn)[12]給出了網(wǎng)絡(luò)的多種可能性分割,然后利用選擇網(wǎng)絡(luò)結(jié)合用戶交互得到最終用戶感興趣目標(biāo).Mahadevan等人[9]提出了迭代訓(xùn)練的方式,即訓(xùn)練過程中每次用戶單擊點(diǎn)都基于上一次分割的最大錯(cuò)誤區(qū)域,此外,還利用高斯分布代替歐氏距離表達(dá)的交互映射,并通過消融實(shí)驗(yàn)證明了其有效性.2019年,Jang等人[11]提出了反向修正機(jī)制(backpro-pagating refinement scheme, BRS)在測試階段通過對(duì)交互映射微小的調(diào)節(jié)來強(qiáng)制網(wǎng)絡(luò)在用戶標(biāo)記位置分割正確.Majumder等人[30]利用基于超像素的映射指導(dǎo)網(wǎng)絡(luò)分割,而不是距離映射或者高斯映射.2020年,Sofiiuk等人[31]提出了一種基于特征的反向修正機(jī)制(feature backpropagating refinement scheme, f-BRS),該機(jī)制可在網(wǎng)絡(luò)的中間特征上運(yùn)行,并且只需要對(duì)部分網(wǎng)絡(luò)進(jìn)行正向和反向傳遞,使得運(yùn)算速度大大提升.用戶交互信息為網(wǎng)絡(luò)提供了自注意力先驗(yàn),因此結(jié)合一些注意力模型[32],一些新的方法相繼被提出.Lin等人[15]提出了首次單擊注意力,著重強(qiáng)調(diào)用戶的初始單擊,并對(duì)初始單擊分割的結(jié)果單獨(dú)卷積用以監(jiān)督其余幾次交互的結(jié)果,并利用加權(quán)損失函數(shù)平衡第1次與其他幾次交互的分割結(jié)果.

        深度交互式圖像分割算法的主要出發(fā)點(diǎn)有:高效地利用用戶標(biāo)記信息、修改網(wǎng)絡(luò)的結(jié)構(gòu)、不同的訓(xùn)練機(jī)制以及損失函數(shù)的利用.本文提出的融合多尺度標(biāo)記信息的算法通過編碼多尺度的高斯映射,從而指導(dǎo)網(wǎng)絡(luò)提取目標(biāo)的不同尺度特征.另外通過修改網(wǎng)絡(luò)的部分結(jié)構(gòu),緩解目標(biāo)由于過早大幅下采樣而損失較多細(xì)節(jié)信息.本文還結(jié)合一致性增強(qiáng)損失函數(shù)與新提出的概率單擊損失函數(shù),有效提升了網(wǎng)絡(luò)的分割性能.

        2 用戶交互信息變換

        在深度交互式圖像分割算法中,用戶的交互信息尤為重要,優(yōu)秀的交互方式既能夠?yàn)榫W(wǎng)絡(luò)提供豐富的先驗(yàn)信息,又能減輕用戶交互的負(fù)擔(dān).常用的交互方式有單擊、涂鴉線以及邊界框等方式.其中涂鴉線不利于模擬用戶習(xí)慣用于網(wǎng)絡(luò)訓(xùn)練,邊界框的方式需要用戶標(biāo)記緊貼目標(biāo),從而增加用戶交互負(fù)擔(dān).而單擊的方式既有利于模擬用戶習(xí)慣用于網(wǎng)絡(luò)訓(xùn)練,對(duì)用戶標(biāo)記要求最低,而且通過簡單的變換就可以提供較為豐富的先驗(yàn)信息,因此單擊被廣泛用于深度交互式圖像分割算法中.本節(jié)主要介紹對(duì)單擊交互常用的信息變換方式,豐富用戶提供的先驗(yàn)信息從而指導(dǎo)網(wǎng)絡(luò)分割.

        Fig. 1 The overall architecture of proposed method圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)圖

        2.1 基于歐氏距離映射的交互信息轉(zhuǎn)換

        (1)

        (2)

        為了便于存儲(chǔ),歐氏距離映射圖的值在255處截?cái)?根據(jù)用戶交互習(xí)慣,第1次單擊點(diǎn)很少在背景上,因此第1次交互的背景歐氏距離映射的所有像素值均為255.

        這種基于歐氏距離映射的方法被很多深度交互式圖像分割算法所采用,具有一定的有效性.但由于深度學(xué)習(xí)需要對(duì)輸入圖像進(jìn)行預(yù)處理,其中正則化預(yù)處理使得圖像的特征分布與歐氏距離映射的特征分布差距較大,從而不利于網(wǎng)絡(luò)訓(xùn)練,而且對(duì)于用戶交互過于敏感.

        2.2 基于高斯映射的交互信息轉(zhuǎn)換

        (3)

        其中σ為高斯半徑,其可以控制每個(gè)交互點(diǎn)的影響范圍.通過式(3)可以看出,高斯映射上位置距離單擊點(diǎn)越近的像素值越接近1,反之越接近0.高斯映射提供了一種更好的統(tǒng)計(jì)先驗(yàn)信息,而且高斯分布使得交互點(diǎn)的影響范圍成非線性分布,即距離交互點(diǎn)越近影響越明顯.文獻(xiàn)[9]通過消融實(shí)驗(yàn)證明了高斯映射能顯著地提升算法性能.

        為了使用戶交互具有多尺度性,本文利用2種不同尺度的高斯半徑{σc,σf},使得對(duì)于每個(gè)交互點(diǎn)具有2種不同大小的影響范圍,從而用以引導(dǎo)網(wǎng)絡(luò)關(guān)注目標(biāo)不同尺度的特征.

        3 網(wǎng)絡(luò)結(jié)構(gòu)

        本文網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,基礎(chǔ)分割網(wǎng)絡(luò)在DeepLabV3+[16]的基礎(chǔ)上做一些改動(dòng)從而分割目標(biāo)細(xì)節(jié)特征信息,在此基礎(chǔ)上,附加一個(gè)模塊稱之為非局部特征注意力模塊,使得目標(biāo)整體特征信息得以保持.

        3.1 基礎(chǔ)分割網(wǎng)絡(luò)

        如圖1所示,本文采用類似于DeepLabV3+[16]網(wǎng)絡(luò)結(jié)構(gòu)作為基礎(chǔ)分割網(wǎng)絡(luò).它包含編碼器、空洞空間金字塔池化模塊(atrous spatial pyramidal pooling, ASPP)以及解碼器.

        本文采用ResNet50[17]作為編碼器模塊.如圖1所示,編碼器的每一層特征記作{F0,F1,F2,F3,F4}.為了避免目標(biāo)因過度下采樣而丟失較多細(xì)節(jié)信息,本文在F0之后移除了最大池化層.原始?xì)埐罹W(wǎng)絡(luò)中F1得到的特征圖是原始圖像的四分之一,而本文中為原始圖像的二分之一,根據(jù)卷積算子的特性,較小的特征圖使得目標(biāo)的細(xì)節(jié)特征貢獻(xiàn)較弱.同時(shí),在最后一層使用空洞卷積獲得更為豐富的多尺度特征.經(jīng)過修改后的ResNet50網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)如圖2所示,其中F0由卷積核大小為7×7,輸出通道為64,步長(stride)為2,填充(padding)為3的卷積操作組成,而F1至F4由瓶頸模塊構(gòu)成.瓶頸模塊的詳細(xì)結(jié)構(gòu)如圖3所示,其中方角矩形框?qū)?yīng)卷積操作,圓角矩形對(duì)應(yīng)特征圖的尺寸.瓶頸模塊分為3種,第1種對(duì)特征圖通道擴(kuò)充4倍但不下采樣,第2種對(duì)特征圖通道僅擴(kuò)充2倍但不下采樣,第3種對(duì)特征圖通道擴(kuò)充2倍且下采樣.圖3中的重復(fù)次數(shù)指的是該瓶頸模塊重復(fù)執(zhí)行的次數(shù).基礎(chǔ)分割網(wǎng)絡(luò)的輸入為RGB圖像與高斯映射的拼接,這里的高斯映射為了指導(dǎo)網(wǎng)絡(luò)關(guān)注更細(xì)節(jié)的特征,本文將基礎(chǔ)分割網(wǎng)絡(luò)所融合的高斯映射的半徑設(shè)置為10.

        Fig. 2 Illustration of the modified ResNet50圖2 改進(jìn)的ResNet50示意圖

        Fig. 3 Illustration of the bottleneck blocks圖3 瓶頸模塊示意圖

        如圖4所示,ASPP模塊的輸入是(F4⊕G4),其中,⊕表示特征拼接操作,G4為非局部注意力模塊的輸出.特征經(jīng)過拼接后被輸入到4個(gè)膨脹率分別為1,6,12,18的空洞卷積層以及1個(gè)自適應(yīng)全局池化層.接著聚合這5個(gè)特征圖將其輸入到解碼器中的卷積模塊.

        Fig. 4 Illustration of ASPP module圖4 ASPP模塊示意圖

        如圖1中的解碼器模塊所示,與常規(guī)的DeepLabV3+[16]解碼器不同的是,本文融合的低級(jí)特征為原始圖像分辨率的一半而不是四分之一,這樣可以使網(wǎng)絡(luò)在解碼器階段捕獲更豐富的細(xì)節(jié)特征.另外,在原始的解碼器基礎(chǔ)上,本文添加了一個(gè)導(dǎo)向?yàn)V波模塊(guided filter)[18]來微調(diào)分割的結(jié)果.導(dǎo)向?yàn)V波比雙邊濾波在邊界處理方面更優(yōu)秀,并且它還有O(N)線性時(shí)間的速度優(yōu)勢,如圖5所示.對(duì)于一個(gè)輸入圖像p,通過引導(dǎo)圖像I,經(jīng)過濾波后得到輸出圖像q,其中n表示輸入圖像中的噪聲,而qi=aIi+b表示對(duì)引導(dǎo)圖像的線性加權(quán),其中i表示圖像任意位置的坐標(biāo).為了獲取加權(quán)系數(shù)a與偏置項(xiàng)b,使p與q的差別盡量小,同時(shí)為了保持局部線性模型,導(dǎo)向?yàn)V波構(gòu)建帶有正則項(xiàng)的嶺回歸:

        (4)

        其中i表示圖像任意位置的坐標(biāo).

        Fig. 5 Illustration of the guided filter圖5 導(dǎo)向?yàn)V波示意圖

        通過求解式(4)得到a與b在局部的值,從而得到濾波器的最終輸出.本文利用對(duì)原始圖像與高斯映射的預(yù)處理特征作為導(dǎo)向圖對(duì)分割結(jié)果進(jìn)行濾波,從而提升網(wǎng)絡(luò)對(duì)目標(biāo)邊緣分割效果.

        3.2 非局部特征注意力模塊

        基礎(chǔ)分割網(wǎng)絡(luò)的編碼器模塊通過移除最大池化層使得網(wǎng)絡(luò)能夠獲取更為豐富的細(xì)節(jié)特征,但同時(shí)為了保持目標(biāo)的非局部特征,本文在基礎(chǔ)分割網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)了一個(gè)與基礎(chǔ)分割網(wǎng)絡(luò)平行的非局部特征注意力模塊.如圖6所示,該模塊的主要部分也是由瓶頸模塊組成,輸入為基礎(chǔ)分割網(wǎng)絡(luò)初始卷積后的特征F0與大尺度高斯映射,本文在F0之后通過添加最大池化層進(jìn)一步縮小特征圖,在大尺度高斯映射的指導(dǎo)下使網(wǎng)絡(luò)獲取用戶感興趣目標(biāo)的非局部特征.需要注意的是,瓶頸模塊G4輸入特征的通道為66,但經(jīng)過第1次卷積之后通道為64,而G4后的輸出特征通道數(shù)與基礎(chǔ)分割網(wǎng)絡(luò)編碼器輸出特征F4相同,均為2048.非局部注意力模塊的輸出在ASPP模塊前被融合進(jìn)基礎(chǔ)分割網(wǎng)絡(luò).另外,為了監(jiān)督該模塊的特征,本文通過雙線性插值的方式將特征恢復(fù)至原始圖像大小,利用概率單擊損失函數(shù)來監(jiān)督G4,這里的概率由大尺度高斯映射提供.具體細(xì)節(jié)在第4節(jié)詳細(xì)描述.

        顯然,普通的ResNet結(jié)構(gòu)[17]如圖1中的F0→G1→G2→G3→G4信息流,經(jīng)過改動(dòng)的基礎(chǔ)分割網(wǎng)絡(luò)在擅長處理目標(biāo)細(xì)節(jié)特征的同時(shí),也能保持目標(biāo)的整體信息,即非局部特征.如圖1中的輸出結(jié)果所示,非局部特征注意力模塊很好地保持了羊的整體分割,但對(duì)于難以分割的羊腿部分,通過小尺度高斯映射指導(dǎo)基礎(chǔ)分割網(wǎng)絡(luò)提取細(xì)節(jié)特征,以及在解碼器部分融合編碼器高分辨率的特征圖,最終得到更為細(xì)膩的分割結(jié)果.

        Fig. 6 Illustration of the non-local feature attention module圖6 非局部特征注意力模塊示意圖

        4 損失函數(shù)

        交互式圖像分割本質(zhì)上是一種逐像素的二值分類問題,對(duì)于二值分類常用的損失函數(shù)為二值交叉熵?fù)p失(binary cross entropy loss, BCE),該損失函數(shù)有利于關(guān)注全局分割效果.首先,對(duì)于網(wǎng)絡(luò)的輸出fo,可計(jì)算出最終的預(yù)測為

        p=sigmoid(Conv(fo)),

        (5)

        其中,p∈N×2×H×W表示N個(gè)預(yù)測特征圖,N表示批大小(batchsize),H,W分別表示預(yù)測圖的長和寬.pt,t∈{0,1}表示特征圖屬于前景或背景的概率矩陣.sigmoid(Conv(·))表示網(wǎng)絡(luò)最后一層對(duì)特征圖采用卷積操作與sigmoid激活函數(shù)處理.傳統(tǒng)的二值交叉熵?fù)p失函數(shù)為

        (6)

        其中,log(·)表示逐元素計(jì)算自然對(duì)數(shù).g∈{0,1}N×2×H×W代表分割真實(shí)標(biāo)簽.從式(6)中可以看出,二值交叉熵?fù)p失函數(shù)將前景與背景同等看待,而在小目標(biāo)分割的問題上,前景的重要性更容易被背景抵消,從而難以獲得用戶感興趣目標(biāo)的精確輪廓.

        從用戶的角度,待分割目標(biāo)即屬于顯著性目標(biāo),因此,本文借鑒顯著性檢測中常用的一致性增強(qiáng)損失(consistency-enhanced loss, CEL)[33-34],從而突出用戶感興趣目標(biāo)的重要性:

        (7)

        其中TP,FP和FN分別表示真正例、假正例和假反例的個(gè)數(shù).這里的p與g主要是前景的特征與真實(shí)值.通過式(7)可以看出該損失函數(shù)更關(guān)注前景的分割效果,因此目標(biāo)的尺度不會(huì)給損失函數(shù)造成太大的波動(dòng).另外,當(dāng)預(yù)測前景與真實(shí)前景重合程度越低則懲罰越大.

        除此之外,本文針對(duì)交互式分割問題,為了充分利用用戶交互信息,使其也能在優(yōu)化網(wǎng)絡(luò)訓(xùn)練的過程中起到一定的作用,提出了概率單擊損失函數(shù)(probability click loss, PCL):

        (8)

        值得注意的是,式(8)中的高斯映射針對(duì)本文網(wǎng)絡(luò)的2處輸出使用不同的高斯半徑.基礎(chǔ)分割網(wǎng)絡(luò)的輸出使用較小的高斯半徑σf迫使網(wǎng)絡(luò)關(guān)注圍繞交互點(diǎn)更為集中的分割區(qū)域.而對(duì)于非局部注意力模塊的輸出,采用較大的高斯半徑σc,使得非局部注意力模塊能夠保持目標(biāo)的非局部信息.

        通過組合這3部分的損失函數(shù),本文算法的基礎(chǔ)分割網(wǎng)絡(luò)與非局部注意力模塊的損失函數(shù)分別為

        Lbase=LBCE+λeLCEL+λpLPCL(σf),

        (9)

        Lnon-local=LBCE+βeLCEL+βpLPCL(σc),

        (10)

        其中,λe,βe與λp,βp分別為平衡因子用于平衡一致性增強(qiáng)損失與概率單擊損失之間的比重.LPCL(·)表示使用半徑為σf或者σc得到的高斯映射計(jì)算出的概率單擊損失.

        因此,本文算法的最終損失函數(shù)為

        Lfinal=Lbase+αLnon-local,

        (11)

        其中α表示平衡因子用于平衡這2部分的損失函數(shù)重要性.本文損失函數(shù)經(jīng)過平均化處理之后均分布在[0,1]之間,因此平衡因子均設(shè)為1,并且高斯半徑σf=10,σc=100.

        5 實(shí)驗(yàn)結(jié)果與分析

        5.1 實(shí)驗(yàn)設(shè)置

        本文利用Semantic Boundaries Dataset(SBD)[35]數(shù)據(jù)集中的訓(xùn)練集來訓(xùn)練模型,該數(shù)據(jù)集是PASCAL VOC2012[36]數(shù)據(jù)集的增強(qiáng)版本,其提供了比PASCAL VOC2012更多的真實(shí)分割圖.SBD數(shù)據(jù)集一共有8 498張訓(xùn)練集共10 582個(gè)實(shí)例和2 857張測試集共4 119個(gè)實(shí)例.本文采用與文獻(xiàn)[7]相同的交互點(diǎn)模擬策略在SBD數(shù)據(jù)集上逐實(shí)例生成用于訓(xùn)練的前景與背景交互點(diǎn).并且采用隨機(jī)翻轉(zhuǎn),隨機(jī)裁剪為320×320,隨機(jī)高斯模糊等方法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充.模型利用在ImageNet[37]上預(yù)訓(xùn)練的ResNet50[17]來初始化基礎(chǔ)分割網(wǎng)絡(luò)的編碼器與非局部注意力模塊的參數(shù),并用學(xué)習(xí)率為10-3(其中編碼器與非局部注意力模塊的學(xué)習(xí)率為10-4)且權(quán)值衰減為10-5的Adam優(yōu)化器來優(yōu)化網(wǎng)絡(luò).最后采用多項(xiàng)式學(xué)習(xí)率衰減法訓(xùn)練30個(gè)周期.所有實(shí)驗(yàn)在Intel i5-8400 2.80 GHz CPU和單張NVIDIA RTX2080Ti GPU用Pytorch框架實(shí)施.

        而對(duì)于測試階段,本文利用每次在最大錯(cuò)誤分割中心的方式生成交互點(diǎn)來驗(yàn)證模型的有效性.每次點(diǎn)擊320×320的圖像需要約0.01 s,滿足實(shí)時(shí)性要求.

        5.2 比較數(shù)據(jù)集

        本文在一些常用的圖像分割數(shù)據(jù)集上驗(yàn)證算法的有效性.除了SBD數(shù)據(jù)集的測試集外,本文還在經(jīng)典的GrabCut數(shù)據(jù)集[5]、Berkeley數(shù)據(jù)集[38]以及MSCOCO數(shù)據(jù)集[39]上測試算法.

        1) GrabCut數(shù)據(jù)集.該數(shù)據(jù)集是交互式圖像分割常用的經(jīng)典數(shù)據(jù)集,一共50張圖像,每張圖像只有一個(gè)目標(biāo),該數(shù)據(jù)集前景與背景有明顯的差別.

        2) Berkeley數(shù)據(jù)集.該數(shù)據(jù)集有96張圖像共100個(gè)目標(biāo).該數(shù)據(jù)集一些圖像的前景與背景相似,因此分割難度相對(duì)較大.

        3) MSCOCO數(shù)據(jù)集.該數(shù)據(jù)集為用于計(jì)算機(jī)視覺各種任務(wù)的大規(guī)模數(shù)據(jù)集,一共有80個(gè)類別的目標(biāo).本文對(duì)其中用于分割的部分將其分為MSCOCO(seen)和MSCOCO(unseen),并按照文獻(xiàn)[7]中的策略為每個(gè)類別各抽取10張圖像用于評(píng)估算法.

        5.3 評(píng)價(jià)指標(biāo)

        本文對(duì)分割效果的評(píng)價(jià)指標(biāo)采用圖像分割中常用的平均交并比(mean intersection over union, mIoU)來評(píng)價(jià)分割質(zhì)量的優(yōu)劣.基于此,本文繪制了mIoU與單擊次數(shù)的曲線用于比較每種方法在固定交互次數(shù)下的表現(xiàn).同時(shí),本文還利用基于單擊交互分割中常用的平均交互點(diǎn)數(shù)(mean number of clicks, mNoC)指標(biāo)來衡量算法的性能.它反映了數(shù)據(jù)集中的每張圖像達(dá)到固定mIoU所需要的平均交互次數(shù).對(duì)于不同數(shù)據(jù)集所設(shè)定的固定mIoU不同,并且每個(gè)樣本的最大交互次數(shù)為20.

        5.4 性能比較

        本文所比較的算法分2類,一類為傳統(tǒng)的基于手工特征的算法:Graphcut(GC)[4],Growcut(GRC)[40],geodesic star convexity(GSC)[41],geodesic matting(GM)[42],random walks(RW)[6].這類算法主要是基于圖論的方法,利用交互信息構(gòu)建一元?jiǎng)菽芘c二元?jiǎng)菽軓亩鴮?shí)現(xiàn)圖像分割.另一類算法是基于深度學(xué)習(xí)的交互式分割算法:deep object selection(DOS)[7],regional image segmentation(RIS)[10],latent diversity based segmentation(LD)[12],fully convolutional two-stream fusion network(FCTSFN)[13],back-propagating refinement scheme(BRS)[11].

        如圖7所示,本文給出了mIoU-單擊次數(shù)曲線,即不同算法在不同單擊次數(shù)下的mIoU值.可以看出,本文算法在最初幾個(gè)交互點(diǎn)即可獲得比其他算法優(yōu)秀的性能,尤其在MSCOCO(seen部分)數(shù)據(jù)集上性能提升尤為明顯.這是由于本文利用不同尺度的交互信息,以及非局部特征注意力模塊的使用,使得本文算法既在目標(biāo)的細(xì)節(jié)特征上取得優(yōu)異分割結(jié)果,又保持了非局部層次的表現(xiàn).由于GrabCut數(shù)據(jù)集的圖像前景背景對(duì)比明顯,較為容易分割,因此與其他算法優(yōu)勢并不明顯,但也獲得了一定的性能提升.

        表1顯示了不同方法在5個(gè)數(shù)據(jù)集上的mNoC值,在數(shù)據(jù)集GrabCut與Berkeley上,計(jì)算mIoU值為90%時(shí)所需要的平均單擊次數(shù),另外2個(gè)數(shù)據(jù)集所要達(dá)到的閾值為85%.從表1中可以看出,基于深度學(xué)習(xí)的算法性能均遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的算法,這體現(xiàn)了深度特征更強(qiáng)大的語義感知能力.本文算法除了在Berkeley數(shù)據(jù)集上高于BRS算法不足0.1個(gè)單擊次數(shù),在其他數(shù)據(jù)集上均取得了最好的表現(xiàn),尤其在MSCOCO數(shù)據(jù)集(seen)上表現(xiàn)最為優(yōu)異,比其他算法減少了2.37次單擊.這是由于本文所采用的融合多尺度交互信息的思想,豐富了單擊點(diǎn)的語義信息,大大減輕了用戶的交互負(fù)擔(dān).值得注意的是,本文算法與BRS算法的性能較為接近,這是因?yàn)锽RS算法根據(jù)分割結(jié)果不斷調(diào)整用戶的交互映射,本質(zhì)上是修正交互信息的尺度,可以看出,充分利用交互映射的不同尺度可以顯著提升用戶的交互效率.

        Fig. 7 mIoU varying with the number of clicks on 5 datasets圖7 5個(gè)數(shù)據(jù)集平均交并比隨單擊次數(shù)的變化

        表1 本文算法與其他算法在5個(gè)數(shù)據(jù)集上的平均交互點(diǎn)數(shù)(mNoC)對(duì)比

        Fig. 8 The qualitative experimental results of the proposed algorithm on 5 datasets圖8 本文算法在5個(gè)數(shù)據(jù)集上的定性實(shí)驗(yàn)結(jié)果

        圖8給出了本文算法在5個(gè)數(shù)據(jù)集上的部分定性結(jié)果,其中紅點(diǎn)表示前景點(diǎn)擊,藍(lán)點(diǎn)表示背景點(diǎn)擊.這些圖像既有大目標(biāo)圖像也有小目標(biāo)圖像,同時(shí)也有很多細(xì)節(jié)信息.例如袋鼠和狼細(xì)長的腿部,企鵝短小的尾部,以及目標(biāo)較小的瓢蟲與只露機(jī)頭的飛機(jī),本文算法在這些細(xì)長局部的目標(biāo)上僅需少量的交互即可獲得不錯(cuò)的分割效果,同時(shí),本文算法對(duì)于目標(biāo)的非局部信息分割依然能夠獲得很好的保證.此外,從圖8(c)中沙發(fā)的分割可以看出,本文算法對(duì)于非閉合的目標(biāo)也能取得不錯(cuò)的效果,體現(xiàn)了本文算法更強(qiáng)的魯棒性.

        5.5 消融實(shí)驗(yàn)

        為了驗(yàn)證本文算法各個(gè)模塊的有效性,本文在SBD與MSCOCO(seen)上進(jìn)行了幾組消融實(shí)驗(yàn).以完整模型為基準(zhǔn),不斷移除本文中所提出的各個(gè)模塊,所得到的mNoC如表2所示.其中Full表示完整模型;NLF表示非局部特征注意力模塊;MP表示基礎(chǔ)分割網(wǎng)絡(luò)中所采用的最大池化層,這里需要通過恢復(fù)使用最大池化層來驗(yàn)證該設(shè)置的有效性;GF表示導(dǎo)向?yàn)V波;CEL表示一致性增強(qiáng)損失函數(shù);PCL表示概率單擊損失函數(shù).

        Table 2 mNoC of the Ablation Experiments of Proposed Algorithm

        消融實(shí)驗(yàn)分為2組,一組是通過設(shè)置相同的高斯半徑,以驗(yàn)證多尺度高斯映射的重要性,另一組在移除非局部特征注意力模塊后,根據(jù)第1組實(shí)驗(yàn)的表現(xiàn),使用高斯半徑為10的交互映射作為輸入的消融實(shí)驗(yàn).

        首先,針對(duì)多尺度交互信息的利用,通過設(shè)置4組相同的高斯半徑可以看出,網(wǎng)絡(luò)的2部分融合使用相同半徑的高斯映射都會(huì)使得模型的性能有所下降,同時(shí)可以發(fā)現(xiàn),設(shè)置小的高斯半徑更有效,但當(dāng)高斯半徑過小時(shí),模型性能會(huì)有微弱的下降,這是由于過小的高斯半徑隨著網(wǎng)絡(luò)的加深,交互信息會(huì)越來越弱,從而削弱用戶交互的作用,這也是本文選擇高斯半徑為10作為網(wǎng)絡(luò)的最初輸入的原因.

        其次,當(dāng)移除非局部特征注意力模塊時(shí),模型性能有所下降,這是因?yàn)榛A(chǔ)分割網(wǎng)絡(luò)對(duì)小尺度特征圖的卷積層減少,因此對(duì)于全局特征的抽象不如單獨(dú)的非局部特征注意力模塊.而在恢復(fù)基礎(chǔ)分割網(wǎng)絡(luò)的最大池化層時(shí),性能卻比僅移除非局部特征注意力模塊有所提升,這是由于目標(biāo)的特征圖被進(jìn)一步下采樣,因此獲得的全局特征更為豐富,在有限的交互次數(shù)下,保證了大目標(biāo)的分割精度.導(dǎo)向?yàn)V波同樣是為了提升細(xì)節(jié)的分割精度,所以移除導(dǎo)向?yàn)V波也降低了模型的部分性能.最后,通過移除一致性增強(qiáng)損失與概率單擊損失,進(jìn)一步降低了模型的表現(xiàn).

        通過將所有這些模塊移除的結(jié)果可以看出,即使使用最基礎(chǔ)的網(wǎng)絡(luò)與二值交叉熵?fù)p失,mNoC也依然低于深度交互目標(biāo)選擇算法(DOS),可以看出基礎(chǔ)網(wǎng)絡(luò)的選擇的重要性以及高斯映射相比歐氏距離映射更有效.

        6 總 結(jié)

        本文提出了融合多尺度標(biāo)記信息的深度交互式圖像分割算法.利用單擊點(diǎn)計(jì)算2組具有不同尺度的高斯映射以指導(dǎo)網(wǎng)絡(luò)分割,并通過對(duì)網(wǎng)絡(luò)進(jìn)行一些簡單的改動(dòng)即可分割出目標(biāo)的細(xì)節(jié),同時(shí)為了保持分割的完整性,在基礎(chǔ)分割網(wǎng)絡(luò)的基礎(chǔ)上附加了非局部特征注意力模塊.實(shí)驗(yàn)證明了該方法能夠有效提升細(xì)節(jié)處的分割效果,同時(shí)也減輕了用戶的交互負(fù)擔(dān).

        作者貢獻(xiàn)聲明:丁宗元負(fù)責(zé)撰寫初稿、理論推導(dǎo)、實(shí)施實(shí)驗(yàn)以及修改工作;孫權(quán)森負(fù)責(zé)提供理論指導(dǎo)以及論文檢閱;王濤負(fù)責(zé)理論指導(dǎo)與實(shí)驗(yàn)指導(dǎo),王濤與孫權(quán)森并列通信作者;王洪元協(xié)助指導(dǎo)實(shí)驗(yàn)與修改論文.

        猜你喜歡
        特征用戶信息
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        极品少妇人妻一区二区三区| 欧美人与动人物牲交免费观看| 动漫在线无码一区| 日韩精品中文字幕人妻中出| 一区二区三区蜜桃av| 亚洲国产一区二区三区在线观看| 国产欧美日韩一区二区三区在线| 巨爆乳中文字幕爆乳区| 手机在线免费看av网站| av免费在线播放视频| 疯狂添女人下部视频免费| 少妇邻居内射在线| 538亚洲欧美国产日韩在线精品| 偷偷夜夜精品一区二区三区蜜桃| 欧美成人精品第一区| 熟女熟妇伦av网站| 日韩欧美国产自由二区| 国产视频在线播放亚洲| 久久精品中文少妇内射| 国产精品亚洲一区二区在线观看| 97色噜噜| 久久精品国产亚洲av一| 日本h片中文字幕在线| 三年在线观看免费大全下载| 蜜桃一区二区三区| 毛片免费全部无码播放| 果冻蜜桃传媒在线观看| 白白色发布免费手机在线视频观看| 人妻中文字幕无码系列| 亚洲国产成人精品无码区在线观看 | 日韩中文字幕熟女人妻| 国产免费无遮挡吸奶头视频| 在线观看av永久免费| 亚洲视频在线播放免费视频| 免费视频无打码一区二区三区| 中文字幕+乱码+中文字幕一区| 白浆出来无码视频在线| 中文字幕文字幕视频在线| 四虎成人精品国产永久免费无码| 久久久噜噜噜久久中文字幕色伊伊| 日本经典中文字幕人妻|