亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力感知的RGB-D顯著性檢測(cè)

        2023-02-21 13:17:24劉云翔
        關(guān)鍵詞:模態(tài)顯著性特征

        李 琦,戴 蒙,張 晴,劉云翔

        (上海應(yīng)用技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院,上海 201418)

        0 引 言

        當(dāng)進(jìn)行一個(gè)復(fù)雜場(chǎng)景(前景與背景極度相似、圖像中有多個(gè)對(duì)象)的顯著性檢測(cè)時(shí),僅僅靠基于紅綠藍(lán)三通道的彩色圖(RGB)進(jìn)行輸入的模型并不能得到一個(gè)很好的效果,這時(shí)往往需要使用可以反映空間結(jié)構(gòu)的深度圖(Depth)對(duì)輸入進(jìn)行補(bǔ)充。為了有效地對(duì)RGB圖和Depth圖進(jìn)行跨模態(tài)的融合,Chen等[1]提出了一種多尺度殘差粗預(yù)測(cè)的RGB-D顯著性檢測(cè)算法。Feng等[2]在每個(gè)階段提取RGB特征,然后將其與深度特征相結(jié)合。Ji等[3]提出一種協(xié)作學(xué)習(xí)框架用來(lái)計(jì)算顯著性檢測(cè)。

        上述方法雖然在顯著性檢測(cè)中有了很好的效果,但仍然存在一些不足。首先,他們未考慮RGB圖與Depth圖模態(tài)之間的差異性,只是通過(guò)簡(jiǎn)單的相加或通道串聯(lián)。雖然深度圖可以對(duì)顯著區(qū)域進(jìn)行更好的定位,但質(zhì)量較差的深度圖反而會(huì)給檢測(cè)的結(jié)果帶來(lái)負(fù)面的影響。另一方面,即使有少數(shù)研究會(huì)考慮圖像中這些干擾因子的存在并提出了抗干擾模塊,但他們往往又會(huì)忽略經(jīng)過(guò)抗干擾模塊后的特征總會(huì)丟失一些原始信息。

        針對(duì)上述問(wèn)題,本文基于注意力機(jī)制設(shè)計(jì)了一個(gè)新的用于融合特征的跨模態(tài)融合模塊。由于隨著卷積神經(jīng)網(wǎng)絡(luò)深度的增加,高低層關(guān)注的信息側(cè)重點(diǎn)會(huì)有不同,本文將跨模態(tài)融合模塊嵌入進(jìn)了整個(gè)編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu)中,與其它8個(gè)最近發(fā)表的先進(jìn)模型相比,在多個(gè)評(píng)價(jià)指標(biāo)上,本文的模型在5個(gè)被廣泛使用的公開(kāi)數(shù)據(jù)集上取得了較好的檢測(cè)效果。

        1 相關(guān)工作

        在過(guò)去的幾十年時(shí)間里,研究人員針對(duì)顯著性檢測(cè)開(kāi)創(chuàng)了很多方法。但在早期,研究人員的注意更多是放在利用傳統(tǒng)方法來(lái)計(jì)算局部區(qū)域的顯著性。比如,Zhu等[4]提出一種基于親和圖學(xué)習(xí)和加權(quán)流排序的自底向上的檢測(cè)方法,通過(guò)圖像數(shù)據(jù)自表示無(wú)監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)親和圖。Zhu等[5]則提出使用哈里斯角點(diǎn)來(lái)定位前景實(shí)體,通過(guò)先驗(yàn)圖獲得原始顯著結(jié)果,再將其優(yōu)化得到顯著圖。Niu等[6]提出了基于超像素連同先驗(yàn)的顯著性目標(biāo)分割法。但是,這些方法對(duì)于高級(jí)的語(yǔ)義信息總是無(wú)法精準(zhǔn)捕獲,而基于神經(jīng)網(wǎng)絡(luò)的顯著性檢測(cè)算法則很好彌補(bǔ)了這一點(diǎn)。Yi等[7]基于神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了自頂向下的網(wǎng)絡(luò)結(jié)構(gòu)用以捕捉多尺度的語(yǔ)義信息。Wu等[8]提出使用前景邊界信息以及其輪廓信息來(lái)進(jìn)行顯著性檢測(cè)。但這些方法都是單純基于RGB圖進(jìn)行單一輸入的檢測(cè)方法,沒(méi)有使用具有其它額外信息的深度圖進(jìn)行顯著性檢測(cè)。

        深度特征包含了大量的上下文與語(yǔ)義信息,能反映出物體的空間布局,合理運(yùn)用深度圖進(jìn)行顯著性檢測(cè)將會(huì)給檢測(cè)效果帶來(lái)極大的改善。因此,研究人員開(kāi)始嘗試將RGB與Depth一同輸入進(jìn)檢測(cè)模型進(jìn)行顯著性檢測(cè)。Han等[9]設(shè)計(jì)了一個(gè)端到端模型,使用完全連接層來(lái)得到最終結(jié)果。最近,Zhao等[10]設(shè)計(jì)了一個(gè)單流網(wǎng)絡(luò)實(shí)現(xiàn)RGB圖和Depth圖的早中期融合,針對(duì)深度圖設(shè)計(jì)了深度增強(qiáng)雙注意力模塊進(jìn)行有效濾波。Zhao等[11]基于RGB與Depth串聯(lián)進(jìn)行側(cè)輸出獲取顯著性結(jié)果。

        與上述方法不同,本文主要研究基于編碼-解碼的雙流結(jié)構(gòu)如何有效地進(jìn)行跨模態(tài)的融合。本文通過(guò)分層網(wǎng)絡(luò)來(lái)級(jí)聯(lián)解碼,自頂向下地對(duì)每個(gè)側(cè)輸出進(jìn)行監(jiān)督。同時(shí)通過(guò)不同模塊間的整合來(lái)實(shí)現(xiàn)高效的跨模態(tài)融合操作。

        2 本文方法

        本文提出的模型結(jié)構(gòu)是如圖1所示的編碼-解碼結(jié)構(gòu)雙流結(jié)構(gòu)。編碼器部分由兩個(gè)VGG-16特征提取網(wǎng)絡(luò)組成,用于跨模態(tài)的特征提取。我們采用分層融合架構(gòu)來(lái)融合多尺度特征并進(jìn)行側(cè)輸出預(yù)估計(jì)。在這一部分,將給出本文所用融合方法的具體操作。

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        如圖1所示,RGB圖和Depth圖分別單獨(dú)輸入進(jìn)兩個(gè)一樣的主干分支網(wǎng)絡(luò)。為了提高模型的計(jì)算效率,本文使用層數(shù)較淺的VGG-16作為主干分支網(wǎng)絡(luò)來(lái)提取相關(guān)特征。因?yàn)閂GG-16主干分支網(wǎng)絡(luò)是5個(gè)塊,本文取每個(gè)塊的最后一層卷積層所提取到的特征進(jìn)行跨模態(tài)的特征融合操作。RGB流用來(lái)提取圖片的主要特征信息,比如顏色、位置或其它低級(jí)特征和其它高級(jí)的語(yǔ)義信息以及上下文特征等。Depth流主要捕獲空間信息以使得顯著性的檢測(cè)更加準(zhǔn)確與完整。為了將二者更好地融合,本文在融合階段設(shè)計(jì)了跨模態(tài)融合模塊,其中包含的特征增強(qiáng)模塊通過(guò)兩個(gè)并行的注意力機(jī)制來(lái)增強(qiáng)特征。同時(shí)在跨模態(tài)融合過(guò)程通過(guò)特征融合模塊來(lái)實(shí)現(xiàn)信息間的互補(bǔ)。主干分支的每個(gè)結(jié)果都會(huì)進(jìn)行解碼側(cè)輸出,同時(shí),為了更好地聯(lián)系多層次特征、捕捉全文信息,解碼后的結(jié)果還會(huì)自頂向下式地傳遞進(jìn)相鄰塊的解碼器中。

        2.2 特征增強(qiáng)模塊

        由于不同模態(tài)的屬性差異以及深度圖的質(zhì)量總是參差不齊,單純地對(duì)RGB與Depth進(jìn)行等權(quán)值相加或串聯(lián)不能夠有效地挖掘出兩者的互補(bǔ)信息并加以充分地運(yùn)用。為了提高RGB與Depth的兼容合并性,以及實(shí)現(xiàn)對(duì)不必要信息的過(guò)濾,本文在跨模態(tài)融合模塊里設(shè)計(jì)了一個(gè)特征增強(qiáng)模塊。其主要通過(guò)兩個(gè)并行的注意力機(jī)制即空間上的注意力以及通道上的注意力來(lái)增強(qiáng)特征并挖掘重要信息。

        每個(gè)深度流的分層結(jié)果所出來(lái)的深度特征都首先會(huì)進(jìn)入特征增強(qiáng)模塊進(jìn)行處理。其具體操作如圖2所示,當(dāng)深度特征輸入該模塊時(shí),則對(duì)特征進(jìn)行空間注意力和通道注意力操作,兩個(gè)操作并行進(jìn)行。

        圖2 特征增強(qiáng)模塊的結(jié)構(gòu)

        (1)

        (2)

        考慮到兩個(gè)注意力操作針對(duì)得側(cè)重點(diǎn)各有不同,在空間上,一個(gè)側(cè)重全局信息,一個(gè)側(cè)重局部信息。所以,將并行得到的兩個(gè)結(jié)果進(jìn)行像素級(jí)相加操作來(lái)得到最終增強(qiáng)后的深度特征

        (3)

        (4)

        2.3 特征融合模塊

        通過(guò)增強(qiáng)后的深度特征能更好地反映出空間布局等附加信息,為了更好地利用增強(qiáng)后的深度信息以及為了保證原始深度信息的不丟失和不同模態(tài)之間的調(diào)制。本文在跨模態(tài)融合模塊里設(shè)計(jì)了一個(gè)特征融合模塊,如圖3所示。

        圖3 特征融合模塊結(jié)構(gòu)(FFM)

        首先,使用增強(qiáng)后的深度特征去引導(dǎo)RGB信息,其計(jì)算如下

        (5)

        (6)

        (7)

        (8)

        (9)

        2.4 殘差連接

        為了保存原始的彩色信息,同時(shí)為了保證信息的完整與準(zhǔn)確性,我們使用通過(guò)融合處理所獲取到的特征作為殘差信息來(lái)校正預(yù)測(cè)到的顯著圖

        (10)

        (11)

        Pred5表示第五層的預(yù)測(cè)結(jié)果,De(*)表示解碼操作,其主要是通過(guò)卷積與反卷積恢復(fù)圖像的分辨率。為了更好聯(lián)系上下文信息,本文將每層得解碼信息進(jìn)行級(jí)聯(lián)操作

        (12)

        Contacat(*,*) 表示通道串聯(lián)操作,其中i=1,2,3,4。

        2.5 損失函數(shù)

        在訓(xùn)練階段,我們對(duì)每個(gè)側(cè)輸出都進(jìn)行了監(jiān)督,整個(gè)模型的損失函數(shù)也由每個(gè)側(cè)輸出的損失函數(shù)構(gòu)成

        (13)

        Lt表示每個(gè)側(cè)輸出的損失函數(shù),t表示層數(shù)。Lt由兩個(gè)常用函數(shù)構(gòu)成,一個(gè)是二值交叉熵?fù)p失函數(shù)(binary cross-entropy,BCE),另一個(gè)則是交并比損失函數(shù)(intersection-over-union,IOU)

        (14)

        Lbce=ylogx+(1-y)log(1-x)

        (15)

        (16)

        A表預(yù)測(cè)區(qū)域,B表真實(shí)區(qū)域。

        3 實(shí)驗(yàn)結(jié)果

        3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        數(shù)據(jù)集:為了驗(yàn)證整個(gè)模型的可靠性,本文參考文獻(xiàn)[12~15],使用的5個(gè)數(shù)據(jù)集分別是NLPR、SIP、DUT-RGBD、STERE、DES。NLPR由十一種室內(nèi)外場(chǎng)景的圖像組成,其總共包含950張圖像。SIP是最近才公開(kāi)發(fā)布的一款數(shù)據(jù)集,它的設(shè)計(jì)主要是為了對(duì)圖像中的人物做顯著性檢測(cè),并且生成它的設(shè)備是一款高性能智能手機(jī),整個(gè)數(shù)據(jù)集包含929幅圖片。DUT-RGBD的圖像大多具有很復(fù)雜的背景,其總共包含1200張圖像。STERE包含了1000個(gè)具有顯著對(duì)象遮罩的圖像,是一個(gè)立體顯著性分析的基準(zhǔn)數(shù)據(jù)集。DES則是由135幅室內(nèi)圖像組成。

        評(píng)價(jià)指標(biāo):本文使用了5個(gè)評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型的整體性能。分別是,S-measure、F-measure、平均F-measure(avgF)、最大F-measure(mF)和絕對(duì)平均誤差(MAE)。

        S-measure主要評(píng)估顯著圖與二值真值圖之間結(jié)構(gòu)的相似性,其公式如下

        S=αSo+(1-α)Sr

        (17)

        So表示對(duì)象感知,Sr表示區(qū)域感知,α是一個(gè)平衡參數(shù),一般設(shè)為0.5。

        F-measure主要計(jì)算二值化顯著圖的精度P和召回率R之間的加權(quán)平均值,其計(jì)算如下

        (18)

        β2是一個(gè)超參數(shù),用來(lái)賦予準(zhǔn)確率與召回率不同權(quán)重。使用文獻(xiàn)[13,14]的設(shè)置,為了側(cè)重精度的重要性,將β2設(shè)置為0.3。mF則是F-measure的最大值,avgF則是其均值。絕對(duì)平均誤差評(píng)估在顯著圖與真值圖之間所有像素的平均絕對(duì)誤差,它的計(jì)算方法如下

        (19)

        T表示像素總數(shù),si表示顯著圖像素,gi表示真值圖像素。

        3.2 實(shí)施細(xì)節(jié)

        本文使用Pytorch實(shí)現(xiàn)所有的方法,并且使用NVIDIA 2080 Ti圖像處理器進(jìn)行處理。使用與文獻(xiàn)[13]一樣的數(shù)據(jù)進(jìn)行訓(xùn)練。每個(gè)圖像輸入的大小是352*352,批量大小為4。

        3.3 與先進(jìn)模型比較

        本文將模型與現(xiàn)階段同樣基于RGB-D進(jìn)行顯著性檢測(cè)的先進(jìn)模型進(jìn)行了比較,包括UC-NET[14]、CPFP[15]、CMW[16]、DANET[11]、S2MA[17]、D3NET[12]、ICNET[18]、DCMF[19],本文使用可用的源代碼或直接使用作者提供的顯著結(jié)果圖進(jìn)行了以上模型的重新評(píng)估。其中,除CPFP是2019年所發(fā)表的模型,其它模型均是2020年公開(kāi)發(fā)表的模型。

        定量比較:基于上述5個(gè)指標(biāo)的實(shí)驗(yàn)的詳細(xì)比較結(jié)果列于表1中??梢钥闯?,在SIP數(shù)據(jù)集上,本文使用的方法在5個(gè)指標(biāo)上都明顯優(yōu)于其它方法,這說(shuō)明對(duì)人物的檢測(cè)上本文模型效果很優(yōu)異。在mF指標(biāo)上,本文方法在NLPR、DUT-RGBD與STERE上都取得了最好的效果。在NLPR數(shù)據(jù)集上,本文方法的5個(gè)指標(biāo)效果都維持在前兩名,其中F指標(biāo)只比第一名低了0.0009。而在DUT-RGBD與STERE上,本文模型的5個(gè)指標(biāo)都維持在前三名。在數(shù)據(jù)集DES上,指標(biāo)F、avgF與MAE都處在了第三名,其中指標(biāo)avgF比第二名低了0.0054,指標(biāo)F比第二名低了0.0042,指標(biāo)MAE比第二名高了0.041。本文還提供了所有比較方法在5個(gè)數(shù)據(jù)上的PR曲線,如圖4所示。由PR曲線也可以看出本文方法的曲線幾乎領(lǐng)先大多數(shù)方法或是與最佳方法持平,尤其是在包含大量人物圖片的SIP和由立體圖片組成的STERE和NLPR數(shù)據(jù)集上,這說(shuō)明了更好利用深度信息的重要性??偟膩?lái)說(shuō),通過(guò)表1和圖4可以看出本文方法在精度方面具有顯著優(yōu)勢(shì)。

        圖4 在5個(gè)數(shù)據(jù)集上的PR曲線比較

        表1 在5種數(shù)據(jù)集上的性能比較

        視覺(jué)比較:除了通過(guò)定量比較,本文還進(jìn)行了更直觀的視覺(jué)比較,在圖5中展現(xiàn)了一些視覺(jué)比較結(jié)果。本文分別摘取了不同場(chǎng)景下的圖像大物體、小物體、前背景相似等圖像以驗(yàn)證方法的可靠性。如圖5中第二行的椅子,其顏色與背景門(mén)非常相似。但本文模型依舊可以將椅子與背景門(mén)區(qū)分開(kāi),而其它模型則不能清晰地給出椅子的輪廓。如圖5最后一行所示,較其它模型來(lái)說(shuō),本文模型對(duì)小物體的檢測(cè)也很好,本文模型可以清晰地給出小物體的顯著區(qū)域??偟膩?lái)說(shuō),通過(guò)特征增強(qiáng)與特征融合,本文模型可以預(yù)測(cè)出“人”、“椅子”、“雕塑”等形狀復(fù)雜的物體,同時(shí)能夠比較準(zhǔn)確且完整得對(duì)相似像素點(diǎn)進(jìn)行分類。

        圖5 與經(jīng)典模型的視覺(jué)對(duì)比效果

        3.4 消融實(shí)驗(yàn)

        為了驗(yàn)證本文中所設(shè)計(jì)的跨模態(tài)融合中注意力機(jī)制的有效性,本文進(jìn)行了消融實(shí)驗(yàn)。因?yàn)樵谔卣髟鰪?qiáng)與特征融合的過(guò)程中都使用到了注意力機(jī)制,因此實(shí)驗(yàn)比較了在跨模態(tài)融合過(guò)程中不使用特征增強(qiáng)模塊的模型和不使用特征融合模塊的模型以及只使用殘差連接(residual connection,RC)后的檢測(cè)效果。遵循相同的實(shí)驗(yàn)設(shè)置,本文在部分?jǐn)?shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見(jiàn)表2和圖6。由表2可知,當(dāng)在跨模態(tài)融合時(shí)同時(shí)使用特征增強(qiáng)與特征融合模塊,其性能相較于只使用其中一部分的方法是最好的,這也驗(yàn)證了注意力機(jī)制的有效性。同時(shí),通過(guò)視覺(jué)對(duì)比,可以驗(yàn)證3種方法的組合可以獲得清晰準(zhǔn)確的輪廓。

        圖6 消融實(shí)驗(yàn)視覺(jué)對(duì)比

        表2 在兩種數(shù)據(jù)集上的消融實(shí)驗(yàn),√代表模型使用了該方法

        4 結(jié)束語(yǔ)

        本文研究了RGB-D顯著性檢測(cè)中的跨模態(tài)融合問(wèn)題,設(shè)計(jì)了一個(gè)基于注意力機(jī)制的跨模態(tài)融合模塊用以實(shí)現(xiàn)RGB信息與Depth信息的高效利用與互補(bǔ)。整個(gè)跨模態(tài)融合由3部分構(gòu)成,分別是特征增強(qiáng)、特征融合與殘差連接,它們的有效性通過(guò)消融實(shí)驗(yàn)得到了驗(yàn)證。本文將跨模態(tài)融合模塊嵌入到以VGG-16為主干的編碼-解碼網(wǎng)絡(luò)中,與現(xiàn)有的8個(gè)先進(jìn)的模型相比,在5個(gè)公開(kāi)的數(shù)據(jù)集下使用5種評(píng)價(jià)指標(biāo)進(jìn)行的實(shí)驗(yàn)結(jié)果表明,該模型的檢測(cè)效果具有優(yōu)越性。

        猜你喜歡
        模態(tài)顯著性特征
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        基于顯著性權(quán)重融合的圖像拼接算法
        電子制作(2019年24期)2019-02-23 13:22:26
        基于視覺(jué)顯著性的視頻差錯(cuò)掩蓋算法
        抓住特征巧觀察
        一種基于顯著性邊緣的運(yùn)動(dòng)模糊圖像復(fù)原方法
        論商標(biāo)固有顯著性的認(rèn)定
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        91一区二区三区在线观看视频| 亚洲av无码成人网站www| 欧美日韩亚洲国产无线码| 一区二区激情偷拍老牛视频av| 东北女人啪啪对白| 精品亚洲成在人线av无码| 无码精品一区二区免费AV| 一本色道久久综合亚州精品| 日产一区二区三区免费看| 欧美日韩精品一区二区三区高清视频 | 精品综合久久久久久99| 美女和男人一起插插插| 亚洲国产精品色一区二区| 在线观看国产视频你懂得| 中文 在线 日韩 亚洲 欧美| 91精品福利观看| 国产丝袜美腿诱惑在线观看| 91精品国产色综合久久| 性欧美videofree高清精品| 亚洲AV无码一区二区三区天堂网| 日本免费a一区二区三区| 小池里奈第一部av在线观看| 欧美丰满熟妇性xxxx| 中国凸偷窥xxxx自由视频| 日韩在线视精品在亚洲| 日韩在线视频专区九区| 亚洲午夜成人精品无码色欲 | 色青青女同性恋视频日本熟女| 亚洲最大中文字幕熟女| 成年女人a级毛片免费观看| 国内精品久久久久久久影视麻豆| 91久久精品一二三区蜜桃| 中文字幕av长濑麻美| 东京热人妻一区二区三区| 亚洲AV肉丝网站一区二区无码 | 国产盗摄XXXX视频XXXX| 久久亚洲精品国产av| 久久久精品国产sm调教网站| 久久av高潮av喷水av无码 | 乱人伦人妻中文字幕无码| 精品中文字幕制服中文|