亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多尺度模態(tài)感知在文本指代實(shí)例分割中的研究與應(yīng)用

        2023-01-13 06:55:38胡永利劉秀平譚紅臣尹寶才
        圖學(xué)學(xué)報(bào) 2022年6期
        關(guān)鍵詞:語(yǔ)義模態(tài)文本

        劉 靜,胡永利,劉秀平,譚紅臣,尹寶才

        多尺度模態(tài)感知在文本指代實(shí)例分割中的研究與應(yīng)用

        劉 靜1,胡永利1,劉秀平2,譚紅臣1,尹寶才1

        (1. 北京工業(yè)大學(xué)人工智能與自動(dòng)化學(xué)院,北京 100124;2. 大連理工大學(xué)數(shù)學(xué)科學(xué)學(xué)院,遼寧 大連 116024)

        文本指代實(shí)例分割(RIS)任務(wù)是解析文本描述所指代的實(shí)例,并在對(duì)應(yīng)圖像中分割出該實(shí)例,是計(jì)算機(jī)視覺(jué)與媒體領(lǐng)域中熱門(mén)的研究課題。當(dāng)前,大多數(shù)RIS方法基于單尺度文本/圖像模態(tài)信息的融合,以感知指代實(shí)例的位置和語(yǔ)義信息。然而,單一尺度模態(tài)信息很難同時(shí)涵蓋定位不同大小實(shí)例所需的語(yǔ)義和結(jié)構(gòu)上下文信息,阻礙了模型對(duì)任意大小指代實(shí)例的感知,進(jìn)而影響模型對(duì)不同大小指代實(shí)例的分割。對(duì)此,設(shè)計(jì)多尺度視覺(jué)-語(yǔ)言交互感知模塊和多尺度掩膜預(yù)測(cè)模塊:前者增強(qiáng)模型對(duì)不同尺度實(shí)例語(yǔ)義與文本語(yǔ)義之間的融合與感知;后者通過(guò)充分捕捉不同尺度實(shí)例的所需語(yǔ)義和結(jié)構(gòu)信息提升指代實(shí)例分割的表現(xiàn)。由此,提出了多尺度模態(tài)感知的文本指代實(shí)例分割模型(MMPN-RIS)。實(shí)驗(yàn)結(jié)果表明,MMPN-RIS模型在RefCOCO, RefCOCO+和RefCOCOg 3個(gè)公開(kāi)數(shù)據(jù)集的oIoU指標(biāo)上均達(dá)到了前沿性能;針對(duì)文本指代不同尺度實(shí)例的分割,MMPN-RIS模型有著較好的表現(xiàn)。

        視覺(jué)與語(yǔ)言;文本指代實(shí)例分割;異模態(tài)融合與感知;特征金字塔

        文本指代實(shí)例分割(referring image segmentation,RIS)任務(wù)是一項(xiàng)熱門(mén)的視覺(jué)媒體任務(wù),廣泛應(yīng)用于人機(jī)交互[1]、視覺(jué)導(dǎo)航、交互式圖像編輯[2]等智能領(lǐng)域。該任務(wù)目標(biāo)是解析文本描述所指代的目標(biāo)實(shí)例,并在對(duì)應(yīng)圖像中分割出該實(shí)例區(qū)域。不同于圖像實(shí)例分割任務(wù),RIS不僅需要處理抽象的文本語(yǔ)義,還需要搭建文本與圖像之間語(yǔ)義橋梁,增強(qiáng)模型對(duì)模態(tài)語(yǔ)義的感知以定位和分割指代實(shí)例等。因此,RIS是一項(xiàng)極具挑戰(zhàn)性的跨模態(tài)識(shí)別任務(wù)。近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,一系列杰出方法被提出,大致分為:兩階段RIS方法[3-4]和單階段RIS方法[5-13]。

        兩階段RIS方法,首先利用目標(biāo)檢測(cè)或分割算法[14-18]捕獲圖像中所有實(shí)例,隨后利用文本/圖像間的語(yǔ)義對(duì)齊與感知策略定位或分割出指代實(shí)例。基于此思想,文獻(xiàn)[3]提出了一個(gè)多階段、多任務(wù)框架,利用Faster-RCNN[14]定位各目標(biāo)區(qū)域,并選擇與文本表達(dá)最接近的區(qū)域送入實(shí)例分割分支,以實(shí)現(xiàn)指代實(shí)例的定位和分割?;诓东@的候選目標(biāo)實(shí)例,文獻(xiàn)[4]構(gòu)建文本語(yǔ)義解析樹(shù),通過(guò)反向廣度優(yōu)先搜索算法對(duì)樹(shù)節(jié)點(diǎn)模態(tài)語(yǔ)義的更新,以提高模型對(duì)指代實(shí)例的推理和定位能力。該方法雖然可以獲得較高的分割準(zhǔn)確率,但分割結(jié)果受第一階段的目標(biāo)檢測(cè)算法可識(shí)別類別的限制;此外,第一階段不佳的檢測(cè)結(jié)果直接影響后續(xù)分割效果。

        為了改善兩階段RIS模型的不足,越來(lái)越多的學(xué)者試圖移除目標(biāo)檢測(cè)階段,直接驅(qū)動(dòng)模型感知文本/圖像模態(tài)以分割指代實(shí)例,即單階段RIS方法。

        當(dāng)前,大部分單階段RIS方法利用圖像編碼器和文本編碼器分別提取圖像和文本特征,然后設(shè)計(jì)不同的文本/圖像模態(tài)融合與感知機(jī)制,進(jìn)而分割指代實(shí)例。其中,在模態(tài)融合機(jī)制的設(shè)計(jì)中:文獻(xiàn)[5]提出將2種模態(tài)特征與空間坐標(biāo)特征圖直接拼接,之后直接利用卷積層與反卷積層預(yù)測(cè)掩膜;文獻(xiàn)[6]提出了循環(huán)多模態(tài)交互網(wǎng)絡(luò),在對(duì)文本中每個(gè)單詞編碼時(shí)引入視覺(jué)信息,進(jìn)行多模態(tài)信息融合;文獻(xiàn)[7]提出了跨模態(tài)自注意力網(wǎng)絡(luò),通過(guò)自注意力方法融合2種模態(tài)的特征,使網(wǎng)絡(luò)模型自適應(yīng)地聚焦于圖像中的重要區(qū)域和語(yǔ)言描述中的關(guān)鍵詞;文獻(xiàn)[9]提出了雙向跨模態(tài)關(guān)系推理網(wǎng)絡(luò),通過(guò)構(gòu)建語(yǔ)言與視覺(jué)雙向引導(dǎo)的注意力模塊學(xué)習(xí)模態(tài)間的空間依賴關(guān)系。

        盡管當(dāng)前大部分方法在RIS任務(wù)中可以取得較好的分割結(jié)果,但依然不能很好地適應(yīng)任意大小指代實(shí)例的分割。這是因?yàn)?,?dāng)前大多數(shù)RIS方法基于單尺度文本/圖像模態(tài)信息的融合來(lái)分割指代實(shí)例,其很難同時(shí)涵蓋定位不同大小實(shí)例所需的語(yǔ)義和結(jié)構(gòu)上下文信息;那么,能夠融合或感知文本與圖像的語(yǔ)義很難完全從單一尺度的模態(tài)特征中找到。使得:①模型對(duì)文本、圖像模態(tài)的語(yǔ)義感知能力不足,文本特征和圖像特征的對(duì)齊出現(xiàn)偏差;②模型對(duì)圖像整體的理解能力不足,跨模態(tài)感知時(shí)不能有效利用前景特征。語(yǔ)義信息的缺失與錯(cuò)誤對(duì)齊使多模態(tài)特征融合效果不佳,造成對(duì)指代物體錯(cuò)誤地定位以及劣質(zhì)地分割。而解決單尺特征不足的關(guān)鍵是引入多尺度特征,以擴(kuò)大模態(tài)義融合與感知的特征選擇范圍。那么,對(duì)于不足①,本文第一個(gè)策略是探究不同尺度的文本-圖像模態(tài)的融合與感知,提升模型對(duì)不同大小目標(biāo)實(shí)例的感知能力,以及增強(qiáng)異模態(tài)語(yǔ)義的有效對(duì)齊;對(duì)于不足②,本文的第二策略則是基于策略一得到的多尺度模態(tài)融合信息,捕捉不同大小的指代實(shí)例在分割過(guò)程中所需的語(yǔ)義和結(jié)構(gòu)信息,以提高分割的表現(xiàn)。

        綜上,本文提出了新的RIS模型,即多尺度模態(tài)感知的RIS模型(multi-scale modality perception network for RIS,MMPN-RIS)。在該模型中,本文提出多尺度視覺(jué)-語(yǔ)言交互感知模塊(multi-scale vision-linguistic interaction perception module,MVLIPM),在不同尺度模態(tài)信息引導(dǎo)下增強(qiáng)模型對(duì)文本與圖像語(yǔ)義的融合與感知。此外,本文還引入多尺度掩膜預(yù)測(cè)模塊(multi-scale mask prediction module,MMPM),促使不同層次多模態(tài)信息的充分融合,進(jìn)而提高模型對(duì)不同大小指代實(shí)例的分割表現(xiàn)。本文在RefCOCO[19],RefCOCO+[19]和RefCOCOg[20-21]3個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練與測(cè)試。實(shí)驗(yàn)結(jié)果表明:在3個(gè)數(shù)據(jù)集上,本文提出的MMPN-RIS均獲得了較高的指代圖像分割性能。如:在RefCOCO數(shù)據(jù)集上,MMPN-RIS在oIoU指標(biāo)上達(dá)到68.21%,相比基線模型提升7.04%。

        1 MMPN-RIS模型的介紹

        作為文本指代分割任務(wù),其核心就是模型需要理解兩模態(tài)的語(yǔ)義,以感知文本指代的實(shí)例。在模態(tài)語(yǔ)義的感知和理解過(guò)程中,不同大小的實(shí)例所需語(yǔ)義是不同的,如:小目標(biāo)更需要淺層外表特征和上下文結(jié)構(gòu)特征;較大目標(biāo)則更需要高層語(yǔ)義特征。此外,實(shí)例分割階段也需要捕獲不同類型的語(yǔ)義特征以更加精準(zhǔn)地定位不同大小尺寸的目標(biāo)實(shí)例。正如引言所述,本文提出了MMPN-RIS來(lái)探索不同尺度模態(tài)融合與實(shí)例分割策略,以緩解上述問(wèn)題。

        MMPN-RIS網(wǎng)絡(luò)框架如圖1所示,主要包括:視覺(jué)和語(yǔ)言特征提取模塊(feature extraction module,F(xiàn)EM),MVLIPM和MMPM。

        圖1 MMPN-RIS的網(wǎng)絡(luò)框圖

        模型整體信息流:首先,利用視覺(jué)編碼模型和文本編碼模型分別提取圖像特征和文本特征;接著,利用多尺度視覺(jué)-語(yǔ)言交互感知模塊實(shí)現(xiàn)對(duì)文本與圖像語(yǔ)義進(jìn)行多尺度融合;最后,通過(guò)多尺度掩膜預(yù)測(cè)模塊,將不同尺度的細(xì)節(jié)、結(jié)構(gòu)和高層語(yǔ)義信息相結(jié)合,分割指代實(shí)例。

        1.1 視覺(jué)和語(yǔ)言特征提取模塊

        1.2 多尺度視覺(jué)-語(yǔ)言交互感知模塊

        圖2 多尺度視覺(jué)-語(yǔ)言交互感知模塊

        Fig. 2 Multi-scale vision-linguistic interaction perception module

        此外,為了獲得高質(zhì)量的文本與圖像模態(tài)融合信息,本文基于多頭注意力機(jī)制[26]構(gòu)建視覺(jué)-語(yǔ)言交互感知機(jī)制(visual-language interaction perception mechanism,VLIPM)。具體步驟如下:

        (1) 多尺度圖像與圖像模態(tài)融合模式。為提升模型對(duì)圖像整體的理解能力,本文借助圖像上下文信息。通過(guò)計(jì)算不同尺度圖像各區(qū)域間的相似度來(lái)求取圖像各區(qū)域之間的相關(guān)性,找出圖像中需要被關(guān)注的區(qū)域F。以多頭注意力機(jī)制的一頭為例,即

        綜上,本模塊為提升模型對(duì)文本和圖像模態(tài)語(yǔ)義感知能力,對(duì)不同尺度的視覺(jué)信息進(jìn)行圖像與圖像、文本與圖像的多尺度模態(tài)融合。這一設(shè)計(jì)有效利用了多尺度特征豐富的語(yǔ)義信息以及圖像上下文信息。實(shí)現(xiàn)了對(duì)不同尺度目標(biāo)物體的感知,以及對(duì)異模態(tài)間語(yǔ)義的融合。

        1.3 多尺度掩膜預(yù)測(cè)模塊

        (1) 自下而上的信息融合。不同尺度視覺(jué)特征對(duì)文本的感知能力以及感知結(jié)果存在差異。為提升模型對(duì)淺層特征的利用,本模塊對(duì)多尺度視覺(jué)-語(yǔ)言交互感知模塊的結(jié)果進(jìn)行自下而上的信息融合,獲得更新的多模態(tài)融合特征,即

        圖3 多尺度掩膜預(yù)測(cè)模塊

        (2) 自上而下的信息融合。為保證最終用于掩膜預(yù)測(cè)的不同層次多模態(tài)特征F(=1,2,3)均具有豐富的語(yǔ)義信息,本文還通過(guò)自上而下的融合方式將來(lái)自高層的語(yǔ)義信息整合到底層的特征中,即

        (3) 多尺度指代實(shí)例掩膜融合。不同尺度多模態(tài)融合特征包含的信息并不完全一致,為保證最終預(yù)測(cè)掩膜的準(zhǔn)確性,在不需要其他復(fù)雜的后處理操作的情況下,本文設(shè)計(jì)了多尺度掩膜預(yù)測(cè)方案:1經(jīng)4個(gè)堆疊的3×3卷積層和一個(gè)1×1的卷積層獲得;2經(jīng)3個(gè)堆疊的3×3卷積層和一個(gè)1×1的卷積層獲得;3經(jīng)2個(gè)堆疊的3×3卷積層和一個(gè)1×1的卷積層獲得;三者尺寸一致。最后將多尺度指代實(shí)例掩膜:1,2和3進(jìn)行拼接融合,并使用1×1卷積層將通道數(shù)降為1,作為最終分割結(jié)果mask。

        綜上,本模塊為獲得有助于準(zhǔn)確分割的多模態(tài)融合表示,通過(guò)自下而上和自上而下的雙向融合策略,逐步實(shí)現(xiàn)文本、圖像異模態(tài)對(duì)指代實(shí)例信息表征的增強(qiáng)。本設(shè)計(jì)充分融合了多尺度信息,幫助模型獲得適用于分割的高質(zhì)量多模態(tài)特征,提高了對(duì)指代實(shí)例的分割表現(xiàn)。

        本文使用真值掩膜mask與預(yù)測(cè)掩膜mask的二元交叉熵作為損失函數(shù)指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練,即

        其中,g為真值掩膜mask下采樣響應(yīng)圖的元素;為預(yù)測(cè)掩膜中的元素。

        2 實(shí)驗(yàn)結(jié)果分析

        本文實(shí)驗(yàn)從定量和定性的角度評(píng)價(jià)MMPN-RIS模型性能。定量評(píng)價(jià):計(jì)算模型在RefCOCO,RefCOCO+和RefCOCOg等數(shù)據(jù)集上的oIoU等評(píng)價(jià)指標(biāo)的數(shù)值結(jié)果;利用數(shù)值結(jié)果對(duì)模型進(jìn)行客觀的評(píng)價(jià)與分析。定性評(píng)價(jià):可視化模型在RefCOCO測(cè)試集上的分割圖像,主觀評(píng)價(jià)MMPN-RIS與消融實(shí)驗(yàn)中對(duì)比方法分割圖像的視覺(jué)效果。

        遵循大部分前沿工作[3,22],本文以Darknet-53作為CNN主干網(wǎng)絡(luò),并在MS COCO[27]上進(jìn)行預(yù)訓(xùn)練,此時(shí)的MS COCO數(shù)據(jù)集已去除與3個(gè)數(shù)據(jù)集重合的圖像。輸入圖像的大小調(diào)整為416×416。對(duì)于RefCOCO和RefCOCO+,輸入語(yǔ)言表達(dá)式的最大長(zhǎng)度設(shè)置為15;對(duì)于RefCOCOg,最大長(zhǎng)度設(shè)置為20。3個(gè)尺度的多頭注意力機(jī)制均設(shè)置為4頭,維度分別設(shè)置為1 024,512和256。本文使用Adam作為優(yōu)化器來(lái)訓(xùn)練MMPN-RIS模型。初始學(xué)習(xí)速率為0.0005,在20個(gè)epoch時(shí)下降為0.0001。batch size和training epoch分別設(shè)置為8和35。

        2.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

        本文在RefCOCO,RefCOCO+和RefCOCOg等3個(gè)標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上對(duì)MMPN-RIS模型性能進(jìn)行了評(píng)估。其圖像均來(lái)自MS COCO數(shù)據(jù)集,并使用自然語(yǔ)言表達(dá)式進(jìn)行標(biāo)注。RefCOCO,RefCOCO+和RefCOCOg分別包含19 994,19 992和26 711張圖像,標(biāo)注對(duì)象分別為50 000,49 856和54 822個(gè),標(biāo)注表達(dá)式分別為142 209,141 564和104 560個(gè)。

        RefCOCO和RefCOCO+中的表達(dá)式經(jīng)交互式雙人游戲獲得,內(nèi)容十分簡(jiǎn)潔(平均包含3.5個(gè)單詞)。相比之下,RefCOCOg中的表達(dá)式更復(fù)雜(平均包含8.4個(gè)單詞),更具有描述性,更具挑戰(zhàn)性。另一方面,RefCOCOg的每張圖像上平均有1.6個(gè)相同類別對(duì)象。相比之下,RefCOCO和RefCOCO+的每張圖像上有平均3.9個(gè)相同類別的對(duì)象,因此后者可以更好地評(píng)估算法編碼實(shí)例級(jí)細(xì)節(jié)的能力。同時(shí),不同于RefCOCO,RefCOCO+在其表達(dá)式中禁用了位置詞,這也使其成為一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集。最后,RefCOCOg數(shù)據(jù)集有2個(gè)分區(qū),即UMD[21]分區(qū)和谷歌[20]分區(qū)。本文在這2個(gè)分區(qū)上均進(jìn)行了實(shí)驗(yàn)。

        本文采用2個(gè)通用的度量指標(biāo)來(lái)評(píng)估有效性:全局交并比(overall intersection over unio,oIoU)和精度百分比(簡(jiǎn)稱Prec@X)。oIoU是對(duì)所有測(cè)試樣本的預(yù)測(cè)掩膜與真實(shí)掩膜的總交集區(qū)域與總并集區(qū)域求比值,可以同時(shí)考慮每個(gè)類別的誤檢值和漏檢值。Prec@X指標(biāo)則是度量測(cè)試過(guò)程中預(yù)測(cè)掩膜與真實(shí)掩膜之間的IoU高于閾值的樣本數(shù)目占全部測(cè)試樣本數(shù)目的百分比。本文在實(shí)驗(yàn)中選擇5種不同的閾值,其精度百分比分別表示為Prec@0.5,Prec@0.6,Prec@0.7,Prec@0.8和Prec@0.9。

        2.2 消融實(shí)驗(yàn)

        為了驗(yàn)證本文策略的有效性,將在RefCOCO數(shù)據(jù)集的val上進(jìn)行消融實(shí)驗(yàn)的結(jié)果展示與分析。

        遵循目前大部分深度網(wǎng)絡(luò)模型消融實(shí)驗(yàn)的設(shè)計(jì)方案,本文首先設(shè)計(jì)基線模型,即:設(shè)計(jì)將句子級(jí)語(yǔ)言特征F與視覺(jué)特征F1進(jìn)行單級(jí)融合獲得多模態(tài)特征,隨后在多模態(tài)特征上采樣獲得不同尺度的多模態(tài)特征,最后將不同尺度的多模態(tài)特征用于掩膜預(yù)測(cè)。并在此基礎(chǔ)上討論特征融合時(shí)采用多級(jí)融合以及模型中引入的視覺(jué)-語(yǔ)言感知模塊和多尺度掩膜預(yù)測(cè)模塊的有效性。

        表1顯示,6號(hào)本文模型及2~5號(hào)退化模型的性能皆優(yōu)于1號(hào)基線模型。其中,經(jīng)5,6號(hào)比較可知多級(jí)融合性能優(yōu)于單級(jí)融合性能;3,4號(hào)比較可驗(yàn)證VLIPM模塊的有效性,進(jìn)而通過(guò)4,5號(hào)比較可證明對(duì)不同層次分別進(jìn)行視覺(jué)-語(yǔ)言感知的可行性;通過(guò)對(duì)比1,2,3結(jié)果可知對(duì)不同層次特征通過(guò)雙向融合進(jìn)行信息增強(qiáng)可以進(jìn)一步提高性能,且2個(gè)方向均具有增益。

        除此之外,本文通過(guò)可視化方式將MMPN-RIS的預(yù)測(cè)掩膜與1號(hào)基線模型、4號(hào)模型進(jìn)行定性比較。如圖4所示,MMPN-RIS所生成的掩膜在定位準(zhǔn)確性和分割完整度上均好于后者。進(jìn)一步證明了提出的MVLIPM的有效性。同時(shí)在對(duì)干擾實(shí)體較多或目標(biāo)實(shí)體尺寸較小的分割任務(wù)中,本文提出的MMPN-RIS依舊可以準(zhǔn)確定位目標(biāo)物體并對(duì)物體的細(xì)節(jié)及輪廓進(jìn)行更有效的感知,從而獲得更精準(zhǔn)的分割結(jié)果。

        表1 消融實(shí)驗(yàn)

        注:加粗?jǐn)?shù)據(jù)為最優(yōu)值

        圖4 消融結(jié)果可視化((a)輸入圖像;(b)基線模型;(c) 4號(hào)模型;(d)本文模型;(e)真值掩膜)

        2.3 與前沿方法的比較與分析

        為了評(píng)價(jià)模型的有效性與分割結(jié)果的準(zhǔn)確性,表2展示了本文提出的MMPN-RIS和一系列前沿方法在RefCOCO,RefCOCO+和RefCOCOg3個(gè)數(shù)據(jù)集的驗(yàn)證與測(cè)試集上的oIoU指標(biāo)評(píng)分。本文提出的MMPN-RIS的oIoU指標(biāo)在3個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果均高于大部分前沿算法。在實(shí)例數(shù)較多的RefCOCO和RefCOCO+數(shù)據(jù)集上分別獲得了2.56%~3.28%和1.19%~3.40%的增益,證明了本文模型MMPN-RIS對(duì)復(fù)雜場(chǎng)景具有較好理解能力;對(duì)于表達(dá)式長(zhǎng)度較長(zhǎng)的RefCOCOg數(shù)據(jù)集上,更是獲得了2.00%~7.77%的增益,證明了MMPN-RIS對(duì)長(zhǎng)文本-圖像任務(wù)具有較好異模態(tài)對(duì)齊能力。分析原因包括:①對(duì)于實(shí)例較多的復(fù)雜場(chǎng)景,MVLIPM中的多頭注意力機(jī)制可以從全局理解圖像信息促進(jìn)視覺(jué)語(yǔ)言的語(yǔ)義匹配;②進(jìn)行多尺度視覺(jué)-語(yǔ)言感知有助于異模態(tài)間的融合與感知,可增強(qiáng)異模態(tài)語(yǔ)義的有效對(duì)齊。

        本文還通過(guò)可視化方式將MMPN-RIS的預(yù)測(cè)掩膜與對(duì)比方法VLT進(jìn)行定性比較。如圖5所示,在處理顏色、前景/背景、位置以及尺寸等指代文本時(shí),MMPN-RIS所生成的掩膜在面對(duì)定位準(zhǔn)確性和分割完整度上均好于VLT。這體現(xiàn)了本文MMPN-RIS方法性能的優(yōu)越性。

        表2 MMPN-RIS在3個(gè)標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上與對(duì)比方法進(jìn)行比較(U:UMD分區(qū). G:谷歌分區(qū))

        注:加粗?jǐn)?shù)據(jù)為最優(yōu)值

        圖5 實(shí)驗(yàn)結(jié)果可視化((a)輸入圖像;(b)真值掩膜;(c)對(duì)比方法(VLT);(d)本文模型)

        3 模型局限性與討論

        本文提出的MMPN-RIS仍然存在著指代圖像分割失敗的案例。圖6展示了可視化一些具有代表性的失敗案例。失敗原因包括:①真值掩膜標(biāo)注錯(cuò)誤;②文本描述指代不明;③本文模型在處理邏輯性強(qiáng)的任務(wù)時(shí)存在局限性。這是因?yàn)榛诙嗄B(tài)融合的RIS模型雖然具有較強(qiáng)的模態(tài)感知能力,但處理異模態(tài)協(xié)同推理問(wèn)題時(shí)存在不足。

        未來(lái)的工作:①考慮對(duì)模態(tài)間實(shí)體關(guān)系的利用,提升模型的推理能力;②在進(jìn)行特征提取階段考慮模態(tài)間數(shù)據(jù)的相互作用。

        圖6 失敗案例((a)輸入圖像;(b)真值掩膜;(c)本文模型)

        4 結(jié) 論

        本文提出了一種新的指代圖像分割模型——多尺度模態(tài)感知的RIS模型(MMPN-RIS)。在MMPN-RIS中,本文引入多尺度視覺(jué)-語(yǔ)言交互感知模塊,在有效利用不同層次視覺(jué)信息的同時(shí)提高模型對(duì)語(yǔ)言相關(guān)的圖像區(qū)域的感知能力。此外,本文還引入雙向融合多模態(tài)信息的多尺度掩膜預(yù)測(cè)模塊,促使不同層次多模態(tài)信息的充分融合,進(jìn)而驅(qū)動(dòng)模型預(yù)測(cè)高質(zhì)量分割掩膜。實(shí)驗(yàn)結(jié)果顯示,本文提出的MMPN-RIS在3個(gè)基準(zhǔn)數(shù)據(jù)集上,均獲得了較高的指代圖像分割性能。

        [1] WANG X, HUANG Q Y, CELIKYILMAZ A, et al. Reinforced cross-modal matching and self-supervised imitation learning for vision-language navigation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 6622-6631.

        [2] CHEN J B, SHEN Y L, GAO J F, et al. Language-based image editing with recurrent attentive models[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8721-8729.

        [3] YU L C, LIN Z, SHEN X H, et al. MAttNet: modular attention network for referring expression comprehension[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1307-1315.

        [4] LIU D Q, ZHANG H W, ZHA Z J, et al. Learning to assemble neural module tree networks for visual grounding[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 4672-4681.

        [5] HU R H, ROHRBACH M, DARRELL T. Segmentation from natural language expressions[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 108-124.

        [6] LIU C X, LIN Z, SHEN X H, et al. Recurrent multimodal interaction for referring image segmentation[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 1280-1289.

        [7] YE L W, ROCHAN M, LIU Z, et al. Cross-modal self-attention network for referring image segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 10494-10503.

        [8] YE L W, ROCHAN M, LIU Z, et al. Referring segmentation in images and videos with cross-modal self-attention network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(7): 3719-3732.

        [9] HU Z W, FENG G, SUN J Y, et al. Bi-directional relationship inferring network for referring image segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 4423-4432.

        [10] MARGFFOY-TUAY E, PéREZ J C, BOTERO E, et al. Dynamic multimodal instance segmentation guided by natural language queries[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 656-672.

        [11] YE L W, LIU Z, WANG Y. Dual convolutional LSTM network for referring image segmentation[J]. IEEE Transactions on Multimedia, 2020, 22(12): 3224-3235.

        [12] HUI T R, LIU S, HUANG S F, et al. Linguistic structure guided context modeling for referring image segmentation[M]// Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020: 59-75.

        [13] HUANG S F, HUI T R, LIU S, et al. Referring image segmentation via cross-modal progressive comprehension[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 10485-10494.

        [14] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

        [15] 曹春鍵, 臧強(qiáng), 王澤嘉, 等. 改進(jìn)的YOLOv3目標(biāo)檢測(cè)算法[J]. 中國(guó)科技論文, 2021, 16(11): 1195-1201.

        CAO C J, ZANG Q, WANG Z J, et al. Improved YOLOv3 object detection algorithm[J]. China Sciencepaper, 2021, 16(11): 1195-1201 (in Chinese).

        [16] 周薇娜, 孫麗華, 徐志京. 復(fù)雜環(huán)境下多尺度行人實(shí)時(shí)檢測(cè)方法[J]. 電子與信息學(xué)報(bào), 2021, 43(7): 2063-2070.

        ZHOU W N, SUN L H, XU Z J. A real-time detection method for multi-scale pedestrians in complex environment[J]. Journal of Electronics & Information Technology, 2021, 43(7): 2063-2070 (in Chinese).

        [17] 郭智超, 叢林虎, 劉愛(ài)東, 等. 基于SK-YOLOV3的遙感圖像目標(biāo)檢測(cè)方法[J]. 兵器裝備工程學(xué)報(bào), 2021, 42(7): 165-171.

        GUO Z C, CONG L H, LIU A D, et al. Remote sensing image target detection method based on SK-YOLOV3[J]. Journal of Ordnance Equipment Engineering, 2021, 42(7): 165-171 (in Chinese).

        [18] 李康康, 于振中, 范曉東, 等. 改進(jìn)多層尺度特征融合的目標(biāo)檢測(cè)算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2022, 43(1): 157-164.

        LI K K, YU Z Z, FAN X D, et al. Improved multi-scale feature fusion target detection algorithm[J]. Computer Engineering and Design, 2022, 43(1): 157-164 (in Chinese).

        [19] YU L C, POIRSON P, YANG S, et al. Modeling context in referring expressions[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 69-85.

        [20] MAO J H, HUANG J, TOSHEV A, et al. Generation and comprehension of unambiguous object descriptions[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 11-20.

        [21] NAGARAJA V K, MORARIU V I, DAVIS L S. Modeling context between objects for referring expression understanding[M]// Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 792-807.

        [22] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2022-06-10]. https://arxiv.org/abs/1804. 02767.

        [23] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2014: 1532-1543.

        [24] CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. [2022-04-29]. https://arxiv.org/abs/1412.3555.

        [25] YANG Z C, YANG D Y, DYER C, et al. Hierarchical attention networks for document classification[C]//2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2016: 1480-1489.

        [26] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You need[C]//The 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 6000-6010.

        [27] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[M]//Computer Vision - ECCV 2014. Cham: Springer International Publishing, 2014: 740-755.

        [28] LI R Y, LI K C, KUO Y C, et al. Referring image segmentation via recurrent refinement networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 5745-5753.

        [29] LUO G, ZHOU Y Y, SUN X S, et al. Multi-task collaborative network for joint referring expression comprehension and segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 10031-10040.

        [30] LUO G, ZHOU Y Y, JI R R, et al. Cascade grouped attention network for referring expression segmentation[C]//The 28th ACM International Conference on Multimedia. New York: ACM Press, 2020: 1274-1282.

        [31] JING Y, KONG T, WANG W, et al. Locate then segment: a strong pipeline for referring image segmentation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 9853-9862.

        [32] DING H H, LIU C, WANG S C, et al. Vision-language transformer and query generation for referring segmentation[C]// 2021 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2021: 16301-16310.

        Multi-scale modality perception network for referring image segmentation

        LIU Jing1, HU Yong-li1, LIU Xiu-ping2, TAN Hong-chen1, YIN Bao-cai1

        (1. School of Artificial Intelligence and Automation, Beijing University of Technology, Beijing 100124, China; 2. School of Mathematical Sciences, Dalian University of Technology, Dalian Liaoning 116024, China)

        Referring image segmentation (RIS) is the task of parsing the instance referred to by the text description and segmenting the instance in the corresponding image. It is a popular research topic in computer vision and media. Currently, most RIS methods are based on the fusion of single-scale text/image modality information to perceive the location and semantic information of referential instances. However, it is difficult for single-scale modal information to simultaneously cover both the semantics and structural context information required to locate instances of different sizes. This defect hinders the model from perceiving referent instances of any size, which affects the model’s segmentation of referent instances of different sizes. This paper designed a Multi-scale Visual-Language Interaction Perception Module and a Multi-scale Mask Prediction Module to solve this problem. The former could enhance the model’s ability to perceive instances at different scales and promote effective alignment of semantics between different modalities. The latter could improve the performance of referring instance segmentation by fully capturing the required semantic and structural information of instances at different scales. Therefore, this paper proposed a multi-scale modality perception network for referring image segmentation (MMPN-RIS). The experimental results show that the MMPN-RIS model has achieved cutting-edge performance on the oIoU indicators of the three public datasets RefCOCO, RefCOCO+, and RefCOCOg. For the RIS of different scales, the MMPN-RIS model could also yield good performance.

        visual and language; referring image segmentation; multi-modality fusion and perception; feature pyramid network

        TP 391

        10.11996/JG.j.2095-302X.2022061150

        A

        2095-302X(2022)06-1150-09

        2022-08-02;

        :2022-09-30

        第7批全國(guó)博士后創(chuàng)新人才支持計(jì)劃(BX20220025);第70批全國(guó)博士后面上資助(2021M700303)

        劉 靜(1994-),女,博士研究生。主要研究方向?yàn)槟繕?biāo)檢測(cè)、目標(biāo)分割、指代分割、多模態(tài)學(xué)習(xí)等。E-mail:jingliu@emails.bjut.edu.cn

        譚紅臣(1992-),男,講師,博士。主要研究方向?yàn)樾腥酥刈R(shí)別、圖像生成、及目標(biāo)檢測(cè)等。E-mail:tanhongchenphd@bjut.edu.cn

        2 August,2022;

        The 7th National Postdoctoral Innovative Talent Support Program (BX20220025); The 70th Batch of National Post-Doctoral Research Grants (2021M700303)

        LIU Jing (1994-), PhD candidate. Her main research interests cover object detection, object segmentation, referring image segmentation and multimodal learning, etc. E-mail:jingliu@emails.bjut.edu.cn

        TAN Hong-chen (1992-), lecturer, Ph.D. His main research interests cover person re-identification, image generation and object detection, etc. E-mail:tanhongchenphd@bjut.edu.cn

        30 September,2022

        猜你喜歡
        語(yǔ)義模態(tài)文本
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        認(rèn)知范疇模糊與語(yǔ)義模糊
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        如何快速走進(jìn)文本
        一边摸一边抽搐一进一出视频| 亚洲综合色丁香婷婷六月图片| 99视频全部免费精品全部四虎| 美女精品国产一区二区三区| 青青草手机成人自拍视频| 女同性恋一区二区三区av| 日本不卡高字幕在线2019| 久久精品www人人爽人人| 黑人巨大无码中文字幕无码| 亚洲av有码在线天堂| 国产91第一页| 亚洲一区二区综合精品| 欧美老肥妇做爰bbww| 制服丝袜人妻中文字幕在线| 欧美深夜福利网站在线观看| 成年人男女啪啪网站视频| 亚洲av区,一区二区三区色婷婷| 亚洲日韩精品无码专区网址| 国产精品免费久久久久影院仙踪林| 国内精品国产三级国产av另类| 国产精品自拍网站在线| 精品无码久久久久久久久| 国产成人亚洲精品青草天美| 欧美色五月| 无码三级国产三级在线电影| 国产91会所女技师在线观看| 国产做国产爱免费视频| 精品久久综合亚洲伊人| 亚洲精品熟女乱色一区| 91久久国产香蕉熟女线看| 国模吧无码一区二区三区| 激情内射亚洲一区二区三区爱妻 | 毛片免费在线观看网址| 日韩有码中文字幕av| 人妻少妇中文字幕在线观看| 少妇人妻综合久久中文字幕| 国产一区二区三区在线观看免费 | 牛牛在线视频| 天美传媒精品1区2区3区| 无码免费午夜福利片在线| 亚洲情精品中文字幕99在线|