亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模態(tài)預(yù)融合的三維指稱表達理解

        2023-02-21 04:00:21袁琨鵬米金鵬陳智謙
        計算機應(yīng)用研究 2023年12期

        袁琨鵬 米金鵬 陳智謙

        摘 要:三維指稱表達理解(3D VG)旨在通過理解指稱表達來準確定位三維場景中的目標對象。現(xiàn)有3D VG研究通過引入文本和視覺分類任務(wù)優(yōu)化文本和視覺編碼器,這種方法可能由于文本和視覺特征的語義不對齊,從而導(dǎo)致模型難以在場景中定位文本描述的視覺對象。此外,3D VG數(shù)據(jù)集有限的數(shù)據(jù)量和復(fù)雜的模型結(jié)構(gòu)往往導(dǎo)致模型過擬合。針對上述問題提出MP3DVG模型,通過學(xué)習(xí)統(tǒng)一的多模態(tài)特征表示完成單模態(tài)分類和3D VG任務(wù),并降低模型的過擬合?;诳缒B(tài)特征交互提出TGV和VGT模塊,在單模態(tài)任務(wù)之前預(yù)融合文本和視覺特征,減小不同模態(tài)特征因語義不對齊帶來的不利影響?;诰€性分類器可評價樣本特征多樣性的特性,提出周期性初始化的輔助分類器,并通過動態(tài)損失調(diào)節(jié)項自適應(yīng)地調(diào)節(jié)樣本損失,弱化模型的過擬合。大量實驗結(jié)果表明所提方法的優(yōu)越性,相比于MVT模型,MP3DVG在Nr3D和Sr3D數(shù)據(jù)集上性能分別提升1.1%和1.8%,模型的過擬合現(xiàn)象得到顯著改善。

        關(guān)鍵詞:三維指稱表達理解; 多模態(tài)融合; 過擬合; 注意力

        中圖分類號:TP391.4?? 文獻標志碼:A?? 文章編號:1001-3695(2023)12-022-3666-06

        doi:10.19734/j.issn.1001-3695.2023.04.0150

        MP3DVG:modal prefusion for 3D visual grounding

        Abstract:3D VG aims to locate target objects in 3D scenes by understanding the semantics of referring expressions. Researchers propose text and object classification tasks to optimize textual and visual encoders, which may incur semantic mismatches between visual and textual features, making it impossible to localize targets in 3D scenes. In addition, the limited amount of data in 3D VG datasets and complex model structures often lead to overfitting. To address above issues, this paper proposed MP3DVG to realize classification and 3D VG tasks by uniting representations. Based on crossmodal interaction, it designed prefusion module to prefuse visual and textual embeddings before classification tasks by TGV and VGT respectively, alleviating the adverse effects caused by semantic misalignment of different modal features. Aiming at the overfitting of models, it devised periodically initialized auxiliary classifier to adjust sample losses by dynamic lossadjusters, evaluating differences among sample features online. The experimental results demonstrate the superiority of the proposed method. MP3DVG outperforms MVT on Nr3D and Sr3D datasets by 1.1% and 1.8% respectively, the overfitting of model is improved as well.

        Key words:3D visual grounding; multimodal fusion; overfitting; attention

        0 引言

        隨著機器人和深度學(xué)習(xí)的快速發(fā)展,人工智能與機器人結(jié)合的趨勢日益顯著,單模態(tài)視覺和文本任務(wù)已無法滿足實際應(yīng)用需求,因此多模態(tài)任務(wù)應(yīng)運而生。多模態(tài)研究的主要模態(tài)為視覺和文本模態(tài),其中視覺—文本任務(wù)有圖像描述生成[1,2]、視覺語義問答[3~6]等。最近,指稱表達理解[7,8]通過理解自然語言描述增強對視覺內(nèi)容的理解,在定位語言描述的視覺元素方面表現(xiàn)強勁。

        現(xiàn)有指稱表達理解通常基于2D圖像或視頻[9~11],技術(shù)日趨成熟。但是針對細粒度3D對象的建模還略顯不足,無法滿足在三維場景中識別目標對象并與其互動的應(yīng)用需求。因此提出三維指稱表達理解(3D VG)任務(wù),通過理解指向性明確的指稱表達來定位三維場景中的目標對象,其難點在于多模態(tài)語義交互。3D VG可應(yīng)用于自動駕駛[12,13]、視覺語義導(dǎo)航[14,15]、協(xié)助型機器人[16,17]等領(lǐng)域,實現(xiàn)自然語言控制的機器智能操作,為機器人應(yīng)用等相關(guān)領(lǐng)域提供多模態(tài)語義交互支持。

        現(xiàn)有3D VG依賴于大規(guī)模文本編碼模型、預(yù)訓(xùn)練視覺主干網(wǎng)絡(luò)或目標檢測器,以及場景多視角信息或二維語義信息等額外信息。為了提升模型性能,文獻[18~22]通過引入單模態(tài)文本和視覺分類任務(wù)優(yōu)化文本和視覺編碼器,從而學(xué)習(xí)更好的單模態(tài)特征表示。基于單模態(tài)文本和視覺任務(wù)學(xué)習(xí)到的文本和視覺特征之間通常存在語義不對齊的問題,即實體對象的文本類別標簽特征不一定與該實體的視覺特征相關(guān)聯(lián)。上述方法容易因為不同模態(tài)特征之間的語義不對齊而導(dǎo)致模型無法準確在細粒度3D VG中定位目標對象的問題。受MVT[20]啟發(fā),通過融合文本類別標簽和點云視覺特征從而完成目標分類任務(wù),以及UNINEXT[23]為了提升不同模態(tài)特征間的語義匹配度而提出模態(tài)初期融合模塊,本文提出預(yù)融合模塊學(xué)習(xí)跨模態(tài)融合后的文本和視覺特征,學(xué)習(xí)統(tǒng)一的3D VG特征表示,減小因模態(tài)特征語義不對齊所帶來的不利影響;然后基于單模態(tài)分類任務(wù)優(yōu)化編碼器,學(xué)習(xí)適合3D VG的多模態(tài)表示。此外,由于模型日益復(fù)雜且訓(xùn)練數(shù)據(jù)始終無法滿足訓(xùn)練要求,模型普遍過擬合。本文基于線性分類器能夠在模型訓(xùn)練階段評估樣本特征多樣性的特性,提出獨立于主干模型的輔助分類器,針對每個訓(xùn)練樣本自適應(yīng)地調(diào)節(jié)樣本損失,從而讓模型更多地關(guān)注困難樣本,提升模型泛化性。

        本文的主要工作包括:a) 受多模態(tài)融合機制啟發(fā)[19~22],通過兩個單模態(tài)分類任務(wù)優(yōu)化預(yù)融合編碼,挖掘視覺和文本的關(guān)聯(lián)信息,學(xué)習(xí)適合3D VG的統(tǒng)一多模態(tài)表示,消除不同模態(tài)特征間因語義不對齊所帶來的不利影響;b) 受文獻[24]的啟發(fā),在不新增大規(guī)模訓(xùn)練集的情況下,使用線性分類器在模型訓(xùn)練階段評估樣本特征的多樣性,通過調(diào)節(jié)樣本損失來降低模型的過擬合現(xiàn)象。

        1 相關(guān)工作

        1.1 3D VG研究方法

        3D VG旨在通過理解指稱表達而準確定位點云場景中的目標對象,具體可分為文本和視覺處理分支。文本編碼器從早期的GRU、LSTM、BiLSTM等過渡到文本大模型BERT。三維視覺編碼器有PointNet++、VoteNet和PointGroup等。

        現(xiàn)有3D VG方法分為單階段法(detectanddescribe)[25]和兩階段法(detectthendescribe)[18~20]。單階段法的性能受限于理解及建模復(fù)雜的自然語言描述,因此研究者普遍采用兩階段法。其中,第一階段是三維目標檢測,可通過目標檢測器[18]或真值邊界框[19]獲取場景對象;第二階段是視覺—語言多模態(tài)匹配過程,通過融合三維視覺和文本特征,從而預(yù)測與文本描述最匹配的目標對象。文獻[18,19]提出3D VG任務(wù)以及對應(yīng)的數(shù)據(jù)集ScanRefer和Nr3D、Sr3D。文獻[18]使用PointNet++檢測場景對象,使用一維卷積融合多模態(tài)特征,設(shè)計文本分類任務(wù)優(yōu)化文本編碼器;文獻[19]將復(fù)雜的3D VG建模為簡單的目標分類問題,使用真值邊界框獲取場景對象并提出動態(tài)圖卷積網(wǎng)絡(luò)DGCN作為多模態(tài)融合模塊,此外還引入文本和目標分類損失,實現(xiàn)細粒度的3D VG。

        基于上述兩個模型框架,其他3D VG模型相繼誕生。其中,MVT[20]構(gòu)建多視角特征融合模塊,通過旋轉(zhuǎn)三維場景來學(xué)習(xí)視角魯棒型的特征表示。InstanceRefer[21]基于文本分類的結(jié)果篩選場景對象,減少冗余對象并提升模態(tài)匹配的準確性。由于三維點云噪聲大且采樣稀疏,SAT[22]將2D圖像語義信息作為新的模態(tài)信息,從而彌補3D點云語義信息不足的缺點,通過跨模態(tài)知識遷移提升模型性能。FFL3DOG[26]構(gòu)建文本和視覺圖網(wǎng)絡(luò),引導(dǎo)多模態(tài)特征匹配。3DVGTransformer[27]提出坐標引導(dǎo)的上下文聚合模塊,建模對象間的復(fù)雜關(guān)系。TransRefer3D[28]設(shè)計實體和關(guān)系感知模塊,感知3D細粒度對象等。

        1.2 多模態(tài)融合機制

        現(xiàn)有單模態(tài)視覺和文本任務(wù)已無法滿足現(xiàn)實人機交互的應(yīng)用需求,因此對多模態(tài)任務(wù)的研究顯得極為迫切,其中多模態(tài)融合處理尤為重要。

        常見的模態(tài)融合方法有卷積融合[18]、圖卷積網(wǎng)絡(luò)融合[19]和均值融合等。隨著注意力機制在機器翻譯和圖像描述生成等任務(wù)中的應(yīng)用,基于注意力的融合方法相繼誕生。文獻[29]提出Transformer,其在序列轉(zhuǎn)換任務(wù)上的性能超出先前所有模型。文獻[30]提出腦電信號和其他生理信號融合的方法,構(gòu)建多模態(tài)融合的情感識別模型。文獻[31]基于圖神經(jīng)網(wǎng)絡(luò)和注意力機制,提出雙模態(tài)情感識別模型,證明多模態(tài)融合的優(yōu)越性。文獻[23]在視頻目標分割任務(wù)中,基于注意力設(shè)計雙向多頭注意力融合模塊,其實驗結(jié)果表明,融合模塊可以通過突出重要信息來提升模型從視頻中分割出的對象的質(zhì)量。文獻[32]將文本和視覺特征初次融合之后,將其輸入到骨干網(wǎng)絡(luò)提取多尺度特征,并在提取過程中多次融合文本特征,實現(xiàn)多模態(tài)特征的深度融合。

        1.3 線性分類器

        隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)DNN具備極強的特征學(xué)習(xí)能力,比如視覺模型學(xué)習(xí)到的優(yōu)質(zhì)特征可通過簡單的線性分類器正確分類。此外,在數(shù)據(jù)量有限的數(shù)據(jù)集中,復(fù)雜樣本將難以處理[33,34],因此通常導(dǎo)致模型過擬合。

        模型過擬合可通過擴充數(shù)據(jù)集來解決,通過收集真實數(shù)據(jù)或者生成新數(shù)據(jù)讓模型記憶更多樣本,提升模型泛化性[35,36];另一種方法是使用正則項,將其作用于模型損失函數(shù)[37]或模型訓(xùn)練策略[38]。合適的正則項可使模型正確關(guān)注到目標對象,進而學(xué)習(xí)更好的特征表示。文獻[24]通過在線評估模型泛化性和樣本差異性,最終提升模型在多個視覺任務(wù)上的性能,并降低模型的過擬合。此外,文獻[39]研究多任務(wù)學(xué)習(xí)模型的泛化性,提出一種經(jīng)驗化計算任務(wù)組相關(guān)性矩陣的方法,幫助檢驗或提升多任務(wù)學(xué)習(xí)模型性能。

        2 MP3DVG模型

        本文MP3DVG的框架如圖1所示,主要由編碼器模塊、預(yù)融合模塊、深度多模態(tài)主融合模塊和分類器模塊四部分組成。其中,文本編碼器使用預(yù)訓(xùn)練模型BERT并微調(diào)。視覺編碼器采用PointNet++主干網(wǎng)絡(luò)。編碼器的輸出作為預(yù)融合模塊的輸入,通過模態(tài)預(yù)融合學(xué)習(xí)統(tǒng)一的多模態(tài)表示后完成單模態(tài)分類任務(wù)。預(yù)融合模塊包含視覺引導(dǎo)的文本融合模塊VGT和文本引導(dǎo)的視覺融合模塊TGV。模型的主融合模塊通過堆疊多個Transformer的解碼器模塊構(gòu)成。輔助分類器在模型訓(xùn)練階段評估樣本特征的差異性,并通過動態(tài)損失調(diào)節(jié)項自適應(yīng)地調(diào)節(jié)樣本損失,限制主分類器的過擬合。獨立于主干網(wǎng)絡(luò)的輔助分類器的輸入與主分類器的輸入相同,為了避免輔助分類器受主分類器干擾,從而減弱其對特征多樣性的評價能力,本文獨立訓(xùn)練輔助分類器,禁止其梯度反向傳播回主干網(wǎng)絡(luò),如圖1虛線箭頭所示。

        2.1 預(yù)融合模塊編碼

        3D VG旨在準確識別3D場景中與指稱表達最匹配的對象。同其他多模態(tài)任務(wù)一樣,多模態(tài)交互尤為重要。早期的文本分類通過編碼指稱表達預(yù)測目標對象的標簽。目標分類通過編碼視覺對象預(yù)測場景對象的標簽。現(xiàn)有3D VG研究通過引入單模態(tài)任務(wù)優(yōu)化模態(tài)編碼器,卻忽略了不同模態(tài)特征間的語義不對齊對3D VG的不利影響,從而導(dǎo)致模型在定位文本描述的目標對象時極其困難。

        文獻[20]計算視覺和文本標簽特征的相似度,在感知文本特征的情況下完成視覺分類,在多模態(tài)任務(wù)中通過模態(tài)交互完成單模態(tài)任務(wù)。UNINEXT[23]為提升不同模態(tài)間的語義匹配度,提出模態(tài)初期融合模塊。本文提出3D VG的模態(tài)預(yù)融合模塊實現(xiàn)不同模態(tài)的預(yù)融合。預(yù)融合模塊分為文本引導(dǎo)的視覺融合模塊VGT和視覺引導(dǎo)的文本融合模塊TGV。為進一步研究不同預(yù)融合模塊對3D VG的作用,本文提出基于模態(tài)均值特征和跨模態(tài)注意力的預(yù)融合模塊,如圖2、3所示?;谀B(tài)均值的預(yù)融合模塊通過對模態(tài)特征求均值,然后與另一模態(tài)特征相加,完成特征預(yù)融合?;谧⒁饬Φ念A(yù)融合模塊通過計算模態(tài)特征間的相似度,然后對模態(tài)特征重編碼。

        2.1.1 文本引導(dǎo)的視覺融合模塊TGV

        視覺分類旨在預(yù)測3D場景中實體對象的類別標簽,該標簽是名詞實體。目標分類的結(jié)果應(yīng)當(dāng)與指稱表達無關(guān),即場景對象的類別標簽不應(yīng)隨指稱表達的改變而改變。但是指稱表達中的名詞實體一定出現(xiàn)在當(dāng)前3D場景中,這由3D VG數(shù)據(jù)集所決定。為了關(guān)聯(lián)視覺和文本模態(tài),本文提出文本引導(dǎo)的視覺融合模塊TGV來感知多模態(tài)實體,通過融合文本和視覺特征得到特征增強的多模態(tài)視覺特征,進而完成目標分類任務(wù)。

        基于模態(tài)均值的預(yù)融合模塊的結(jié)構(gòu)如圖2所示。首先對文本token特征求均值;然后通過expansion將文本均值特征擴張到與視覺特征同等維度;最后與視覺特征相加,得到融合后的視覺特征。數(shù)學(xué)表達式如下:

        其中:ft、fv分別表示文本特征和視覺特征;N表示文本的token數(shù),每個token被編碼為768維的特征;gt表示文本的均值特征;PTGV表示預(yù)融合TGV模塊;Et表示擴充文本的均值特征操作,使其與視覺特征的維度相同;f′v表示融合后的視覺特征。

        基于注意力的預(yù)融合模塊的結(jié)構(gòu)如圖3所示。視覺特征作為查詢query,文本特征作為鍵值對keyvalue。首先計算視覺和文本特征的相似度,相似度經(jīng)softmax函數(shù)歸一化后與文本特征相乘。注意力重編碼后的特征與初始視覺特征相加,得到融合后的特征增強的視覺特征。數(shù)學(xué)表達式為

        其中:d表示模態(tài)特征的編碼維度。

        2.1.2 視覺引導(dǎo)的文本融合模塊VGT

        Nr3D和Sr3D數(shù)據(jù)集基于ScanNet場景構(gòu)建,其中復(fù)雜場景通常包含多個屬于相同細粒度類別的對象。文本分類的輸出是當(dāng)前場景中某對象的類別標簽,因為指稱表達是對當(dāng)前場景對象的描述,但是場景中的對象對于文本分類任務(wù)的有效貢獻不盡相同。類似于TGV模塊的設(shè)計思想,本文提出視覺引導(dǎo)的文本融合模塊VGT,融合文本特征和視覺特征,突出模態(tài)的對象實體信息,得到多模態(tài)融合后的文本特征。VGT模塊的操作類似于TGV模塊。

        在基于模態(tài)均值的預(yù)融合模塊中,如圖2所示,首先對視覺特征求均值,然后將其擴張到與文本特征同等維度,最后與初始文本特征相加。數(shù)學(xué)表達式為

        其中:M表示場景中對象的數(shù)目,每個三維點云對象被編碼為768維的特征;gv表示視覺均值特征;Ev 表示視覺均值特征的擴充操作,使其與文本特征的維度相同;PVGT表示預(yù)融合模塊VGT;f′t表示預(yù)融合增強后的文本特征。

        在基于跨模態(tài)注意力的預(yù)融合模塊中,如圖3所示,文本特征作為查詢query,視覺特征作為鍵值對keyvalue,計算文本特征和視覺特征的相似度,經(jīng)注意力重編碼后的特征與初始文本特征相加,得到特征增強后的文本特征。

        f′t=PVGT(ft,fv)=Attn(ft,fv,fv)+ft(7)

        通過模態(tài)預(yù)融合得到增強后的文本和視覺特征,兩者在主融合模塊R中深度融合,最終輸出3D VG多模態(tài)表示f。由于進入主融合模塊的文本和視覺特征是多模態(tài)融合后的特征,所以減小了由不同模態(tài)特征的語義不對齊所帶來的影響。

        f=R(f′t,f′v)(8)

        2.2 輔助分類器模塊

        數(shù)據(jù)量有限的3D VG數(shù)據(jù)集和復(fù)雜的模型結(jié)構(gòu)通常導(dǎo)致模型過擬合。文獻[24]通過線性分類器在模型訓(xùn)練階段評估樣本特征的多樣性,并提出動態(tài)損失項自適應(yīng)地調(diào)節(jié)樣本損失,在多個視覺任務(wù)上提升模型泛化性。3D VG涉及3D目標識別過程,因此在不新增數(shù)據(jù)集的情況下,本文設(shè)計3D VG的輔助分類器Aux_cls,如圖4所示,通過自適應(yīng)地調(diào)節(jié)模型損失來降低模型的過擬合現(xiàn)象。其中,X是模型輸入,經(jīng)模型主干網(wǎng)絡(luò)處理后的特征分別進入主分類器和輔助分類器,最終輸出概率分布P和Q,并計算交叉熵損失和自適應(yīng)損失項,從而調(diào)節(jié)主分類器的損失。三維場景中的對象數(shù)目為52,每個對象的特征編碼維度為768。

        2.2.1 輔助分類器

        樣本x經(jīng)模型F處理后得到特征表示f,分類器將f映射為概率分布p,根據(jù)p和真值標簽y計算交叉熵損失并反向傳播。數(shù)學(xué)表達式為

        其中:Clsmain表示模型主分類器;T是總類別數(shù);當(dāng)j是真值標簽時,yj取值為1,否則取值為0。

        輔助分類器只在訓(xùn)練階段使用,其輸入和主分類器的輸入相同。為了確保輔助分類器正確評估特征的多樣性,本文使用獨立的輸入對其進行訓(xùn)練,其梯度不反向傳播回主網(wǎng)絡(luò),如圖4虛線箭頭所示。輔助分類器通過池化和線性映射操作計算目標分類的概率分布q,如式(12)所示。

        q=Clsaux(f)(12)

        為了避免輔助分類器過擬合,本文對輔助分類器周期性初始化。通過分析發(fā)現(xiàn):若初始化間隔過大,則輔助分類器可能過擬合,過擬合的分類器對特征的評估能力將會減弱;若初始化間隔過小,可能造成輔助分類器欠擬合,欠擬合的分類器將導(dǎo)致模型無法準確編碼樣本特征。上述兩種狀態(tài)都不利于提升模型泛化性,最終本文采用的初始化間隔為2。

        2.2.2 動態(tài)損失調(diào)節(jié)項

        損失調(diào)節(jié)項是正則項,通過調(diào)節(jié)模型損失來優(yōu)化模型的擬合狀態(tài)。根據(jù)主分類器和輔助分類器的概率分布計算動態(tài)損失調(diào)節(jié)項,從而讓模型更多地關(guān)注困難樣本,使樣本特征更多樣。

        相較于輔助分類器,模型的主分類器更容易過擬合。本文采用兩個分類器的概率分布之差表示分類器預(yù)測能力的差距,如式(13)所示。誤差小則表明兩個分類器的性能接近。如果簡單的分類器能夠有效地將特征分類,則表示模型學(xué)習(xí)到的特征容易區(qū)分,模型的泛化性強。但是性能接近的分類器有可能出現(xiàn)同時預(yù)測錯誤的情況,因此本文設(shè)計歸一項R,如式(14)所示,最終的動態(tài)損失調(diào)節(jié)項如式(15)所示。

        主分類器和輔助分類器的總損失如式(16)所示。

        Lcls=(1+α)Lmain(p,y)+Laux(q,y)(16)

        本文模型的總損失如式(17)所示。

        L=γLtext+βLobj+Lcls(17)

        其中:Ltext 和Lobj 分別表示文本和目標分類損失;γ、β分別表示文本和目標分類損失的權(quán)重系數(shù),兩者取值皆為0.5。

        3 實驗

        3.1 實驗數(shù)據(jù)集

        本文在Nr3D和Sr3D/Sr3D+數(shù)據(jù)集上進行實驗。其中,Nr3D數(shù)據(jù)集通過人工標注ScanNet場景,得到41 500個指稱表達。Sr3D數(shù)據(jù)集根據(jù)細粒度對象類別和場景空間關(guān)系描述對象,基于模版生成ScanNet場景的文本描述,得到83 500個指稱表達。

        3.2 模型擬合狀態(tài)評價指標

        深度學(xué)習(xí)通常根據(jù)模型的學(xué)習(xí)曲線衡量模型的擬合狀態(tài),檢驗?zāi)P蛯颖镜奶幚砟芰?。本文通過損失曲線判斷模型的擬合狀態(tài),從而驗證本文方法對過擬合模型的優(yōu)化效果。其中,模型訓(xùn)練可能出現(xiàn)如下狀態(tài):a)理想狀態(tài),當(dāng)訓(xùn)練誤差和驗證誤差都很小時,即為模型的理想狀態(tài);b)欠擬合,當(dāng)訓(xùn)練誤差和驗證誤差都很大時,說明模型沒有得到充分訓(xùn)練,出現(xiàn)欠擬合;c)過擬合,當(dāng)訓(xùn)練誤差很小而驗證誤差很大時,模型一般對訓(xùn)練數(shù)據(jù)過擬合。

        3.3 實驗結(jié)果

        3.3.1 模型性能

        本文在Nr3D和Sr3D/Sr3D+數(shù)據(jù)集上與主流3D VG模型進行比較,結(jié)果如表1所示。在Nr3D數(shù)據(jù)集上,MP3DVG的性能超過現(xiàn)有3D VG模型的性能。同MVT相比,MP3DVG性能提升了1.1%。即使同使用2D語義信息輔助訓(xùn)練的SAT模型相比,MP3DVG性能也提升了7%。其中,MP3DVG在easy和hard指標上的性能提升表明模型通過預(yù)融合視覺和文本特征,有助于學(xué)習(xí)更好的3D VG表示。此外,MP3DVG在view_dep.和view_indep.指標上的性能提升,表明其在MVT的基礎(chǔ)上有所改進,預(yù)融合后的多模態(tài)表示有利于學(xué)習(xí)視角魯棒的特征表示。遵循3D VG的實驗設(shè)計,本文將Nr3D和Sr3D/Sr3D+數(shù)據(jù)集聯(lián)合訓(xùn)練,通過擴充訓(xùn)練數(shù)據(jù)集,進一步提升模型性能。實驗結(jié)果如表1所示,MP3DVG在Nr3D w/Sr3D和Nr3D w/Sr3D+上的精度分別為57.9%和58.8%。

        MP3DVG在Sr3D數(shù)據(jù)集上的實驗結(jié)果如表2所示。MP3DVG在Sr3D數(shù)據(jù)集上的性能超出現(xiàn)有3D VG模型。雖然不使用任何2D語義信息進行輔助訓(xùn)練,但MP3DVG的性能相比于SAT提升了約8.4%。同MVT模型相比,MP3DVG性能提升了約2%。

        基于跨模態(tài)注意力預(yù)融合和基于模態(tài)均值預(yù)融合的模型結(jié)果如表3中本文方法(attn)和本文方法(avg)所示。兩者在Nr3D數(shù)據(jù)集上的驗證精度都達到57.1%,但是在Nr3D w/Sr3D和Nr3D w/Sr3D+上,本文方法(avg)的驗證精度高于本文方法(attn)。這表明相較于基于注意力的預(yù)融合模塊,基于均值的預(yù)融合方法的性能更好,因此選擇本文方法(avg)進行實驗。

        圖5是MP3DVG的可視化結(jié)果。其中綠色框表示模型的正確預(yù)測結(jié)果,紅色框表示模型的錯誤預(yù)測結(jié)果,藍色框表示與目標對象同類別的干擾項(見電子版)。由圖5(a)~(c)可知,MV3DVG能有效學(xué)習(xí)3D場景和指稱表達的關(guān)聯(lián)信息,根據(jù)空間方位關(guān)系和物體外觀屬性從干擾項中準確定位目標對象;圖5(d)展示了模型的預(yù)測失敗案例,當(dāng)場景中存在多個與目標對象同類別的干擾項時,對象間復(fù)雜多樣的空間關(guān)系容易導(dǎo)致模型預(yù)測失敗。

        3.3.2 模型擬合狀態(tài)

        本文基于MVT討論模型的擬合狀態(tài),并驗證輔助分類器對過擬合模型的優(yōu)化作用。MVT的學(xué)習(xí)曲線如圖6所示,橫軸表示模型迭代次數(shù),縱軸表示模型的損失。訓(xùn)練誤差隨著模型訓(xùn)練而下降,驗證誤差在短暫下降后開始上升, 最終遠超模型在初始狀態(tài)下的誤差。很小的訓(xùn)練誤差和很大的驗證誤差表明MVT能夠擬合訓(xùn)練集,但無法有效擬合驗證集,導(dǎo)致模型過擬合。本文希望3D VG模型能夠泛化到新樣本,所以需將模型的驗證損失控制在較低范圍。

        MP3DVG的損失包含輔助分類器的損失。為避免輔助分類器受主分類器干擾而影響其對模型特征多樣性的評價能力,本文對其進行周期性地參數(shù)初始化,但這也將導(dǎo)致輔助分類器的性能不如主分類器的性能。為了評估模型擬合狀態(tài),本文模型同MVT模型的損失函數(shù)保持一致,僅考慮主分類器、目標和文本分類的損失。結(jié)果如圖7所示,訓(xùn)練誤差隨模型訓(xùn)練而不斷下降,趨近于0,表明主分類器能夠擬合訓(xùn)練數(shù)據(jù)。驗證誤差雖有波動,但整體低于初始狀態(tài)下的誤差。相較于MVT,MP3DVG的驗證誤差更低,模型對驗證集的擬合能力得到提升。

        上述實驗結(jié)果表明,在不新增額外訓(xùn)練數(shù)據(jù)的情況下,MP3DVG能夠顯著弱化模型的過擬合現(xiàn)象,從而提升模型處理復(fù)雜樣本的能力,增強模型的泛化性。

        3.3.3 消融實驗

        為了檢驗預(yù)融合模塊和輔助分類器在提升模型性能方面的作用,本文在Nr3D數(shù)據(jù)集上基于均值預(yù)融合進行實驗,結(jié)果如表4所示?;€模型a不使用預(yù)融合模塊和輔助分類器,樣本完成單模態(tài)任務(wù)后,在主融合模塊進行深度融合,最終預(yù)測目標對象。在模型a上添加預(yù)融合模塊Pre_fusion得到模型b。模態(tài)預(yù)融合大幅提升模型性能,這表明預(yù)融合后的統(tǒng)一的3D VG表示有利于語義消歧,模型能在場景中準確定位目標對象。在模型a上添加輔助分類器Aux_cls得到模型c。由圖7可知,輔助分類器能夠降低模型的驗證誤差,提升模型的泛化性。從模型c可知,加入輔助分類器后模型性能略微下降,這是因為周期性初始化的輔助分類器的性能弱于模型主分類器的性能,其誤差可視為較大的常量值,較大的輔助分類器誤差導(dǎo)致模型整體誤差變大,模型在數(shù)據(jù)量有限的數(shù)據(jù)集上學(xué)習(xí)不充分。在模型a上同時添加預(yù)融合模塊和輔助分類器得到模型d,即本文模型MP3DVG。通過模態(tài)預(yù)融合學(xué)習(xí)多模態(tài)特征表示,一定程度上起到數(shù)據(jù)增強的作用,提升模型對樣本的處理能力,最終取得最優(yōu)的驗證精度57.1%。

        4 結(jié)束語

        本文MP3DVG模型通過預(yù)融合模塊學(xué)習(xí)統(tǒng)一的多模態(tài)表示,完成單模態(tài)分類任務(wù)。預(yù)融合特征進入模型主融合模塊進行深度語義交互,建模對象間的復(fù)雜關(guān)系。主融合模塊輸出的多模態(tài)特征進入模型主分類器和輔助分類器,根據(jù)概率分布計算動態(tài)損失調(diào)節(jié)項,弱化模型的過擬合現(xiàn)象。實驗表明,預(yù)融合模塊編碼可有效提升模型對指稱表達的理解度。未來研究中可考慮基于無監(jiān)督或弱監(jiān)督的方式,模型根據(jù)視覺理解動態(tài)地生成指稱表達數(shù)據(jù)集,增進對視覺和文本的語義理解。

        參考文獻:

        [1]Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:3156-3164.

        [2]楊有,陳立志,方小龍,等.融合自適應(yīng)常識門的圖像描述生成模型[J].計算機應(yīng)用,2022,42(12):3900-3905.(Yang You, Chen Lizhi, Fang Xiaolong, et al. Image caption generation model with adaptive commonsense gate[J].Journal of Computer Applications,2022,42(12):3900-3905.)

        [3]Antol S, Agrawal A, Lu Jiasen, et al. VQA:visual question answering[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015,:2425-2433.

        [4]王茂,彭亞雄,陸安江.面向視覺問答的跨模態(tài)交叉融合注意網(wǎng)絡(luò)[J].計算機應(yīng)用,2022,42(3):854-859.(Wang Mao, Peng Yaxiong, Lu Anjiang. Crossmodal chiastopicfusion attention network for visual question answering[J].Journal of Computer Applications,2022,42(3):854-859.)

        [5]吝博強,田文洪.基于層次注意力機制的高效視覺問答模型[J].計算機應(yīng)用研究,2021,38(2):636-640.(Lin Boqiang, Tian Wenhong. Efficient image question answering model based on layered attention mechanism[J].Application Research of Computers,2021,38(2):636-640.)

        [6]劉天義,吳祖煊,陳靜靜,等.面向視覺語言理解與生成的多模態(tài)預(yù)訓(xùn)練方法[J].軟件學(xué)報,2023,34(5):2024-2034.(Liu Tianyi, Wu Zuxuan, Chen Jingjing, et al. Multimodal pretraining method for visionlanguage understanding and generation[J].Journal of Software,2023,34(5):2024-2034.)

        [7]Kazemzadeh S, Ordonez V, Matten M, et al. ReferitGame: referring to objects in photographs of natural scenes[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2014:787-798.

        [8]Yu Licheng, Poirson P, Yang Shan, et al. Modeling context in referring expressions[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:69-85.

        [9]鄭曦.基于多層次信息聚合的指稱表達理解方法研究[D].北京:北京交通大學(xué),2022.(Zheng Xi. Research on referring expression comprehension based on multilevel information aggregation[D].Beijing:Beijing Jiaotong University,2022.)

        [10]崔恩杰.基于表達—圖像匹配檢測的指稱表達理解(REC)方法研究[D].天津:天津工業(yè)大學(xué),2020.(Cui Enjie. A research of referring expression comprehension(REC) method based on expressionimage matching detection[D].TianJin:Tiangong University,2020.)

        [11]王麗安,繆佩翰,蘇偉,等.圖像—文本多模態(tài)指代表達理解研究綜述[J].中國圖象圖形學(xué)報,2023,28(5):1308-1325.(Wang Lian, Miu Peihan, Su Wei, et al. Multimodal referring expression comprehension based on image and text:a review[J].Journal of Image and Graphics,2023,28(5):1308-1325.)

        [12]Qi Feng, Ablavsky V, Sclaroff S. CityFlowNL:tracking and retrieval of vehicles at city scale by natural language descriptions[EB/OL].(2021-04-05).https://arxiv.org/abs/2101.04741.

        [13]Mittal V. AttnGrounder: talking to cars with attention[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:62-73.

        [14]Wang Xin, Huang Qiuyuan, Celikyilmaz A, et al. Reinforced crossmodal matching and selfsupervised imitation learning for visionlanguage navigation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:6629-6638.

        [15]Zhu Fengda, Zhu Yi, Chang Xiaojun, et al. Visionlanguage navigation with selfsupervised auxiliary reasoning tasks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10012-10022.

        [16]Savva M, Kadian A, Maksymets O, et al. Habitat:a platform for embodied AI research[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:9339-9347.

        [17]Xia Fei, Zamir A R, He zhiyang, et al. Gibson Env: realworld perception for embodied agents[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:9068-9079.

        [18]Chen D Z, Chang A X, Niener M. ScanRefer:3D object localization in RGBD scans using natural language[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:202-221.

        [19]Achlioptas P, Abdelreheem A, Xia Fei, et al. Referit3D:neural listeners for finegrained 3D object identification in realworld scenes[C]//Proc of the 16th European Conference on Computer Vision.Cham:Springer,2020:422-440.

        [20]Huang Shijia, Chen Yilun, Jia Jiaya, et al. Multiview transformer for 3D visual grounding[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:15524-15533.

        [21]Yuan Zhihao, Yan Xu, Liao Yinghong, et al. InstanceRefer: cooperative holistic understanding for visual grounding on point clouds through instance multilevel contextual referring[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2021:1771-1780.

        [22]Yang Zhengyuan, Zhang Songyang, Wang Liwei, et al. SAT: 2D semantics assisted training for 3D visual grounding[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:1836-1846.

        [23]Yan Bin, Jiang Yi, Wu Jiannan, et al. Universal instance perception as object discovery and retrieval[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:15325-15336.

        [24]Liang Yuanzhi, Zhu Linchao, Wang Xiaohan, et al. A simple episodic linear probe improves visual recognition in the wild[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:9559-9569.

        [25]Luo Junyu, Fu Jiahui, Kong Xianghao, et al. 3DSPS:singlestage 3D visual grounding via referred point progressive selection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:16454-16463.

        [26]Feng Mingtao, Li Zhen, Li Qi, et al. Freeform description guided 3D visual graph network for object grounding in point cloud[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:3722-3731.

        [27]Zhao Lichen, Cai Daigang, Sheng Lu, et al. 3DVGtransformer:relation modeling for visual grounding on point clouds[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:2928-2937.

        [28]He Dailan, Zhao Yusheng, Luo Junyu, et al. Transrefer3D:entityandrelation aware transformer for finegrained 3D visual grounding[C]//Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:2344-2352.

        [29]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.2017:6000-6010.

        [30]鞠思航.基于腦電和生理信號的多模態(tài)情感分類方法研究[D].安徽:合肥工業(yè)大學(xué),2019.(Ju Sihang. Multimodal emotion classification method based on EEG and physiological signals[D].AnHui:Hefei University of Technology,2019.)

        [31]李路寶,陳田,任福繼,等.基于圖神經(jīng)網(wǎng)絡(luò)和注意力的雙模態(tài)情感識別方法[J].計算機應(yīng)用,2023,43(3):700-705.(Li Lubao, Chen Tian, Ren Fuji, et al. Bimodal emotion recognition method based on graph neural network and attention[J].Journal of Computer Applications,2023,43(3):700-705.)

        [32]李玉騰,史操,許燦輝,等.基于視覺和文本的多模態(tài)文檔圖像目標檢測[J].計算機應(yīng)用研究,2023,40(5):1559-1564.(Li Yuteng, Shi Cao, Xu Canhui, et al. Visual and textual based multimodal document object detection[J].Application Research of Computers,2023,40(5):1559-1564.)

        [33]Anderson C, Gwilliam M, Teuscher A, et al. Facing the hard problems in FGVC[EB/OL].(2020-06-24).https://arxiv.org/abs/2006.13190.

        [34]Liu Ziwei, Miao Zhongqi, Zhan Xiaohang, et al. Largescale longtailed recognition in an open world[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2537-2546.

        [35]Shorten C, Khoshgoftaar T M. A survey on image data augmentation for deep learning[J].Journal of Big Data, SpringerOpen,2019,6(1):1-48.

        [36]Tanner M A, Wong W H. The calculation of posterior distributions by data augmentation[J].Journal of the American statistical Association,1987,82(398):528-540.

        [37]Chang Dongliang, Ding Yifeng, Xie Jiyang, et al. The devil is in the channels:mutualchannel loss for finegrained image classification[J].IEEE Trans on Image Processing,2020,29:4683-4695.

        [38]He Kaiming, Fan Haoqi, Wu Yuxin, et al. Momentum contrast for unsupervised visual representation learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:9729-9738.

        [39]劉炳辰.多任務(wù)學(xué)習(xí)模型的泛化性研究[D].大連:大連理工大學(xué),2021.(Liu Bingchen. Research on generalization of multitask learning models[D].Dalian:Dalian University of Technology,2021.)

        国产三区在线成人av| 隔壁人妻欲求不满中文字幕| 亚洲视频免费一区二区| 日本乱偷人妻中文字幕| 亚洲精品无码久久毛片| 99久久国语露脸国产精品| 成熟的女人毛茸茸色视频| 天天爽夜夜爽人人爽| 日本亚洲国产一区二区三区| 日韩精品欧美激情国产一区| 丝袜美腿制服诱惑一区二区 | 99精品人妻无码专区在线视频区| 中文字幕一区二区三区久久网站| 精品理论一区二区三区| 美女视频一区二区三区在线| 中文字幕久久久人妻无码| 欧美精品久久久久久久久| 黑人一区二区三区高清视频| 男女男精品视频网站免费看| av午夜久久蜜桃传媒软件| 全免费a级毛片免费看| 中文字幕中文字幕三区| 国产对白国语对白| 国产激情з∠视频一区二区| 素人系列免费在线观看| 九一免费一区二区三区偷拍视频| 国产性生大片免费观看性| 色窝窝无码一区二区三区2022| 国产亚洲精品免费专线视频| 国产激情无码视频在线播放性色| 亚洲精品自产拍在线观看| 在线观看中文字幕一区二区三区 | 美女超薄透明丝袜美腿| 白嫩少妇高潮喷水av| 和黑人邻居中文字幕在线| 亚洲无码一二专区| 91麻豆精品久久久影院| 久久人妻av一区二区软件 | 日韩日韩日韩日韩日韩| 伊人色综合视频一区二区三区| 人妻一区二区三区免费看|