亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于提示的自然語言視覺搜索研究

        2025-08-09 00:00:00曾光彭德中宋小民鄭慧明劉征蒲睿韜肖欽引
        關(guān)鍵詞:圖文檢索語義

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A DOI:10.19907/j.0490-6756.240368

        The research on prompt-based natural language visual search

        ZENGGuang1,PENGDe-Zhong2,SONG Xiao-Min3,ZHENGHui-Ming3, LIUZheng,PURui-Tao2,XIAO Qin-Yin4 (1.Chengdu Aircraft Design amp; Research Institute,Chengdu 61oo91,China; 2.College of Computer Science, Sichuan University,Chengdu 61O065,China; 3.Sichuan National Innovation New Vision UHD Video Technology Company Limited,Chengdu 61Oo95,China; 4.Sichuan Institute of Computer Sciences,Chengdu 6lOO41,China)

        Abstract:Asa technology for facilitating natural language visual search,Visual Semantic Embedding (VSE)aims to learn the shared representation of cross-modal samples in a common subspace,and measure the similarity between samples based on their distance in this common subspace to support cross-modal retrieval.Existing methods usually focus on improving representations in common subspaces and accurately measuring similarity to improve cross-modal retrieval performance.However,due to the unequal information density of textand image modalities,i.e.,images usually have richer semantic information than text,it is difficult to further improve performance by directly using original samples for training.To addressthis problem, this paper proposes a prompt-based VSE method,called PrpVSE ,which integrates top-down conceptual semantics from images to enrich textual semantic information and improve the accuracy of cross-modal similar ity measurements to mine rich visual semantic associations.Specifically, PrpVSE uses a Faster-RCNN based on a top-down attention network to extract salient regions and assign concept categories to images, which enables deeper exploration of potential visual information in the image.During training,PrpVSE integrates these categories conceptual prompt information into the text to enrich its semantic information,which canhelp themodel learn visual semantic associations more efectively.Toverify the effctiveness of the method,the authors conduct extensive experiments on two public datasets,i.e.,F(xiàn)lickr3OK and MSCOCO. The results show that the prompt mechanism proposed in the method can effectively improve performance,surpassing eight state-of-the-art baseline methods in recent years.For example,on the Flickr30K test set,the retrieval metrics Recall@1,5,and 1O reached 78. 2% , 95.4% ,and 97.3% respectively.

        Keywords: Cross-modal learning; Cross-modal retrieval; Visual semantic embedding

        1引言

        隨著互聯(lián)網(wǎng)的快速發(fā)展和信息量的爆炸性增長,圖文數(shù)據(jù)12成為人們獲取信息和表達(dá)觀點(diǎn)的重要方式之一.然而,在海量的圖像和文本信息中準(zhǔn)確而高效地檢索所需內(nèi)容一直是一個(gè)具有挑戰(zhàn)性的問題.深度學(xué)習(xí)技術(shù)的崛起為圖文檢索帶來了革命性的變革,通過學(xué)習(xí)數(shù)據(jù)中的復(fù)雜模式和語義信息,使得系統(tǒng)能夠更智能地理解和推斷圖像與文本之間的關(guān)聯(lián)關(guān)系.一種經(jīng)典的解決方法是視覺語義嵌人(VSE)技術(shù)[3-5],其通過將圖像和文本映射到一個(gè)維度統(tǒng)一的公共子空間中,通過拉近公共子空間中正跨模態(tài)樣本對(duì)的距離推遠(yuǎn)負(fù)樣本對(duì)間的距離來實(shí)現(xiàn)跨模態(tài)樣本的表征,表征間的距離或者相似度被用于圖文檢索.然而,由于多模態(tài)數(shù)據(jù)存在的異質(zhì)性,利用視覺語義嵌人技術(shù)來學(xué)習(xí)跨模態(tài)視覺語義關(guān)聯(lián)是具有挑戰(zhàn)性的.

        現(xiàn)有的提升視覺語義嵌入技術(shù)性能的方法通常分為兩類:一類為基于表示的方法;另一類則是基于損失函數(shù)的方法.前者通常利用特定技術(shù)來增強(qiáng)特征的表征能力,例如基于圖網(wǎng)絡(luò)的VSRN[4],基于實(shí)例語義關(guān)系增強(qiáng)的HREM[5],以及基于特征聚合技術(shù)的方法VSE[6等.其中VSRN通過利用區(qū)域關(guān)系推理和全局語義推理來增強(qiáng)視覺表示,以實(shí)現(xiàn)更好的相似性測量.VSE則通過一個(gè)可學(xué)習(xí)廣義的池化函數(shù)來自適應(yīng)地聚合局部特征,從而獲得更為合理的全局表示.與此不同,基于損失函數(shù)的方法通常聚焦于現(xiàn)有損失函數(shù)的不足,即三元排名損失,TRL(TripletRankingLoss)容易出現(xiàn)優(yōu)化不足的現(xiàn)象.例如VSE-

        2AD[7] 提出的自適應(yīng)目標(biāo)損失通過對(duì)齊和均勻度以自適應(yīng)地控制負(fù)樣本個(gè)數(shù)達(dá)到提升優(yōu)化效率.雖然視覺語義嵌入技術(shù)作為用于圖文檢索常用方案,但由于缺乏圖像和文本間細(xì)粒度建模,性能很容易受限制.為此,一些研究者[6-9嘗試將圖像的局部顯著性區(qū)域與文本的單詞建立細(xì)粒度關(guān)聯(lián),從而推理相似性.例如基于注意力的方法SCAN[8]、IMRAM[9]、以及 SAF[10] 等和基于圖神經(jīng)網(wǎng)絡(luò)的SGR[10]、GSMN[1]等.SCAN通過利用堆疊注意力機(jī)制來構(gòu)建文本和圖像的局部跨模態(tài)關(guān)聯(lián).SAF借助注意力機(jī)制過濾不重要的局部關(guān)聯(lián)進(jìn)而關(guān)注更重要的語義信息來提高跨模態(tài)檢索性能.然而,細(xì)粒度的方法通常要求對(duì)盡可能涉及的跨模態(tài)對(duì)進(jìn)行相似度推理,其成本遠(yuǎn)大于基于視覺語義嵌人技術(shù)的方法,因此其不適用于真實(shí)大規(guī)模場景下的快速圖文檢索.

        如上所述,在當(dāng)前的研究中,視覺語義嵌入方法在圖文檢索任務(wù)上取得了顯著的性能提升,主要集中在改進(jìn)表示或者優(yōu)化目標(biāo)方面.然而,這些方法往往基于一個(gè)隱式假設(shè),即文本和圖像模態(tài)之間的信息密度是相對(duì)平衡的,也就是它們包含的語義信息量應(yīng)該相差不大.然而,在實(shí)際應(yīng)用中,圖像作為一種感知模態(tài)能夠傳達(dá)更加豐富的信息,這為表示學(xué)習(xí)引入了更大的不確定性.相比之下,文本通常是對(duì)某一事件或目標(biāo)的單一描述,其信息量往往相對(duì)有限.這引發(fā)了一個(gè)關(guān)鍵問題:如何通過補(bǔ)充文本信息量的方式來提升信息密度,從而實(shí)現(xiàn)更為合理的跨模態(tài)學(xué)習(xí),提高圖文檢索的性能.

        為了回答和驗(yàn)證上述問題,本文通過結(jié)合現(xiàn)有主流視覺語義嵌入方法和提示學(xué)習(xí)概念,利用構(gòu)建提示來增強(qiáng)文本信息量.提示學(xué)習(xí)最初用于大語言模型,其旨在設(shè)計(jì)和編寫提示文本以引導(dǎo)深度模型生成符合特定要求的語言輸出.提示學(xué)習(xí)是一種精心設(shè)計(jì)的策略,通過選擇合適的詞匯、語法結(jié)構(gòu)、上下文信息和主題內(nèi)容以及運(yùn)用多種技巧和策略來有效引導(dǎo)和影響大語言模型的生成過程和輸出結(jié)果.在自然語言處理、文本自動(dòng)生成、智能對(duì)話系統(tǒng)以及信息檢索等多個(gè)領(lǐng)域,提示學(xué)習(xí)都展現(xiàn)出了不可或缺的重要價(jià)值,為推動(dòng)這些領(lǐng)域的技術(shù)進(jìn)步和應(yīng)用創(chuàng)新提供了強(qiáng)大的支持.為此,一個(gè)自然的想法就是通過設(shè)計(jì)模型或者策略來提取圖像中潛在的概念信息,并結(jié)合概念提示將其與原始訓(xùn)練文本結(jié)合,用以豐富信息量,進(jìn)而在訓(xùn)練過程中促進(jìn)跨模態(tài)學(xué)習(xí).因此,本文提出了一種基于提示改進(jìn)的視覺語義嵌入方法,即PrpVSE.為了提取圖像中潛在的概念信息,PrpVSE首先通過利用基于自上而下注意力網(wǎng)絡(luò)的Faster-RCNN檢測器[12-14]來提取顯著性區(qū)域并將其分配的類別標(biāo)簽作為圖像潛在的概念信息:然后,PrpVSE利用一個(gè)動(dòng)態(tài)選取的策略來選取所提取的概念信息并利用提示結(jié)合原始文本形成一條增強(qiáng)的文本信息.這樣做的好處在于不需要對(duì)于原始視覺語義方法進(jìn)行過多的調(diào)整.為了將其與標(biāo)準(zhǔn)視覺語義嵌人方法的訓(xùn)練過程有機(jī)結(jié)合,PrpVSE將基于提示增強(qiáng)的文本同樣輸人文本編碼器并與相應(yīng)圖像進(jìn)行跨模態(tài)學(xué)習(xí),進(jìn)而保證訓(xùn)練過程中文本的信息密度,進(jìn)而提升圖文檢索的性能.本文的貢獻(xiàn)和創(chuàng)新如下:

        (1)我們提出一種端到端的新方法,即PrpVSE,其通過利用Faster-RCNN檢測器提取的概念信息來提升文本的語義信息密度,從而保證更為穩(wěn)健的跨模態(tài)學(xué)習(xí).

        (2)不同于現(xiàn)有提示學(xué)習(xí)主要運(yùn)用于大型預(yù)訓(xùn)練模型,本文通過借助生成概念信息提示來提升輕量級(jí)視覺語義嵌入方法的性能,大大增強(qiáng)了其應(yīng)用性.

        (3)我們?cè)趦蓚€(gè)通用的公開圖文數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn).通過對(duì)比8個(gè)先進(jìn)的基線模型驗(yàn)證了 PrpVSE 的有效性和優(yōu)勢.

        本文后續(xù)章節(jié)具體安排如下:第2節(jié)主要闡述了本文的方法和模型;第3節(jié)報(bào)告了主要的對(duì)比試驗(yàn)以及消融分析來驗(yàn)證所提方法;第4節(jié)對(duì)本文工作進(jìn)行總結(jié),探討本文方法的局限性以及未來可能的研究方向.

        2 本文方法

        本節(jié)主要介紹本文所提出的方法 PrpVSE ,第2.1節(jié)介紹PrpVSE所用的網(wǎng)絡(luò)結(jié)構(gòu)(圖1);第2.2節(jié)介紹如何利用Faster-RCNN[10]來提取概念類別并用于構(gòu)建提示;第2.3節(jié)詳細(xì)闡述 PrpVSE 的訓(xùn)練過程.

        圖1PrpVSE的框架示意圖Fig.1The framework schematic diagram of PrpVSE

        2.1 視覺語義嵌入模型

        為了便于描述,我們首先定義一些符號(hào).符號(hào)含義如表1所示.

        具體來說,在視覺語義嵌入模型中,模型的編碼器首先將輸入文本和圖像映射到維度為 d 的統(tǒng)一的公共子空間 Rd .我們分別將模態(tài)編碼器定義為 f(?,ΘI) 和 g(?,ΘT) ,其中 θI 為圖像編碼器的網(wǎng)絡(luò)參數(shù), OT 為文本編碼器的網(wǎng)絡(luò)參數(shù).為了方便,第 i 對(duì)圖文對(duì) (Ii,Ti) ,本文公共子空間中的特征表示為 f(Ii)∈Rd 和 g(Ti)∈Rd .在本文中, PrpVSE 沿用 VSE∞ 中使用的編碼器.對(duì)于圖像編碼器f(?,ΘI) ,采用MLP和殘差連接來轉(zhuǎn)換圖像 Ii 的局部特征并利用廣義池化算子(GeneralizedPoolingOperator,GPO)來進(jìn)行特征自適應(yīng)聚合特征.對(duì)于文本編碼器 g(?,ΘT) ,采用Bi-GRU網(wǎng)絡(luò)作為主干模型將文本單詞編碼成特征.同樣地,文本模態(tài)也采用GPO來進(jìn)行特征聚合.但與此不同的是,為了更好地表征句子語義, PrpVSE 采用預(yù)訓(xùn)練Glove向量[3.15]來初始化文本編碼器的嵌人層.本文采用余弦相似度來衡量圖文間的相似度.對(duì)于任意圖文對(duì) (Ii,Tj) ,相似度被表示為式(1)所示.

        表1符號(hào)解釋 Tab.1 The explanation of notations

        2.2概念語義提示構(gòu)建

        如前所述,圖像模態(tài)和文本模態(tài)的信息密度是不平衡的,通常來說,圖像包含的語義信息更多.為了豐富文本的語義信息.我們采用概念檢測器來提取圖像的顯著性區(qū)域并利用所分配類別形成提示.具體來說,給定任意圖像1,我們使用預(yù)訓(xùn)練的基于自上而下注意力網(wǎng)絡(luò)的Faster-RCNN檢測器來提取顯著性區(qū)域,其中每個(gè)區(qū)域都分配一個(gè)語義單詞和置信度,表示為式(2)所示.

        R=FastterRCNN(I)={(wm,cm)}m=1M (2)其中, M 是檢測的區(qū)域個(gè)數(shù),本文中我們統(tǒng)一設(shè)置為 36;wm 為檢測的語義類別,例如'bridge', 'trees 'vest ,'shoe','jeans'; cm 為相應(yīng)的置信度分?jǐn)?shù),其值越高代表其分配的概念語義類別越可信,給定一個(gè)原始文本 T=(t1,t2,…,tL),L 為文本序列長度,tj 為文本的第 j 個(gè)單詞,我們擬采用式(3)如下形式提示.

        P (3)其中,Prompt表示一些提示模板.在本文中,Prompt被定義為“The photo includes objectsof\".Faster-RCNN檢測示例如圖2所示.在實(shí)際訓(xùn)練過程中,式(3)被視為一個(gè)提示增強(qiáng)的文本,我們將其表示為 T .然而,上述做法會(huì)帶來一個(gè)不可忽視的問題,即概念語義類別很容易出錯(cuò)導(dǎo)致提示信息不準(zhǔn)確,從而引入噪聲問題,為此,我們引入一個(gè)動(dòng)態(tài)選擇機(jī)制用以解決此類問題.具體來說,我們建議采用一個(gè)閾值來過濾不可靠的概念語義.同時(shí),我們期望隨著訓(xùn)練的進(jìn)行,概念語義越來越準(zhǔn)確.為此,當(dāng)且僅當(dāng)所分配的概念語義類別的置信度 w 滿足如下條件才參與式(3)的構(gòu)建,即wgt;min(ζ+0.02×EPoch,1) 其中 5 為初始值,根據(jù)經(jīng)驗(yàn)將 ζ 設(shè)置為0.5,即表示實(shí)驗(yàn)開始時(shí)置信度大于0.5的語義類別才保留,EPoch表示當(dāng)前訓(xùn)練迭代輪數(shù).

        圖2 FasterRCNN檢測示例圖[12]Fig.2The detection example diagram of Faster RCNN[12]

        2.3 訓(xùn)練損失

        PrpVSE的訓(xùn)練目標(biāo)包括兩部分.一部分為原始文本與原始圖像的跨模態(tài)損失,其形式采用廣泛使用的三元排名損失TRL.具體來說,對(duì)于輸入的圖文對(duì) (I,T) ,損失函數(shù)定義為式(4形式.

        其中, δ 為邊際參數(shù); 為訓(xùn)練批次中圖像 I 的最難負(fù)樣本; 為訓(xùn)練批次中文本 T 的最難負(fù)樣本.另一部分為使用提示增強(qiáng)的文本與原始圖像計(jì)算的損失,其定義為式(5)形式.

        其中 TI 為按照式(3)構(gòu)建的提示增強(qiáng)文本.最終,PrpVSE的總訓(xùn)練損失 L 為式(6)形式.

        L(I,T)=Lori(I,T)+Laug(I,T)

        3實(shí)驗(yàn)

        本節(jié)主要介紹本文所進(jìn)行的實(shí)驗(yàn)用以驗(yàn)證所提出方法的優(yōu)勢和有效性.具體來說,3.1節(jié)介紹了所用數(shù)據(jù)集和實(shí)現(xiàn)細(xì)節(jié).3.2節(jié)中報(bào)告了對(duì)比實(shí)驗(yàn)結(jié)果.3.3節(jié)實(shí)施了詳盡的消融實(shí)驗(yàn)以驗(yàn)證所有模塊都對(duì)性能有所增益,表明了PrpVSE設(shè)計(jì)的合理性.

        3.1數(shù)據(jù)集和實(shí)現(xiàn)細(xì)節(jié)

        為了驗(yàn)證 PrpVSE ,本文在兩個(gè)廣泛使用的圖文數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),即Flickr3OK和MS-COCO[17].Flickr30K是一個(gè)從互聯(lián)網(wǎng)網(wǎng)站收集并精心處理的圖像文本數(shù)據(jù)集.它包含31000張圖像,并且每張圖像包括5個(gè)相對(duì)應(yīng)的文本.本文實(shí)驗(yàn)遵循SCAN中的設(shè)置,即分別將1000張圖像用于驗(yàn)證和測試,其余圖像用于訓(xùn)練.MS-COCO是微軟公司維護(hù)的大型數(shù)據(jù)集,由123287張圖像組成.同樣地,它與Flickr3OK類似,即一張圖像對(duì)應(yīng)于5個(gè)具體的文本描述.我們同樣遵循SCAN8中的設(shè)置和劃分.113287張圖像用于訓(xùn)練,5000張用于驗(yàn)證,5000張用于測試.為了公平,所有圖像均利用FasterRCNN提取36個(gè)顯著性區(qū)域并且每個(gè)區(qū)域被編碼為2048維的向量.如VSE ∞[6] 中的設(shè)置一樣,公共子空間維度為1024,我們使用AdamW來優(yōu)化我們的網(wǎng)絡(luò)模型并且初始學(xué)習(xí)率為0.0005.總訓(xùn)練輪數(shù)為25,隨著訓(xùn)練的進(jìn)行,經(jīng)過15輪后,學(xué)習(xí)率縮小10倍.閾值被設(shè)置為0.5.我們的評(píng)價(jià)指標(biāo)召回率@1,5,10(簡寫為 R(ω1,R(ω5,R(ω10) 以及它們的求和值用于評(píng)價(jià)檢索的性能.

        ab.2The bidirectional retrieval results on Flickr3OK 1OOO test and MS-COCO 5K tes表3在MS-COCO5K測試上的雙向檢索結(jié)果
        表2在Flickr30K10O0測試和MS-COCO5K測試上的雙向檢索結(jié)果Tab.3The bidirectional retrieval results on MS-COCO 5K tes1

        3.2對(duì)比試驗(yàn)結(jié)果

        為了驗(yàn)證本文方法的有效性,我們將PrpVSE與近年來8個(gè)先進(jìn)方法進(jìn)行比較,分別為:SCAN[8]、CAMP[18]、CVSE[15]、 SAF[10] 、SGR[10]、

        VSE ∞[6] 、MV-VSE[19]以及GLFN[20].表2和表3給出了Flickr30K100O測試結(jié)果、MS-COCO5-fold1000測試結(jié)果和MS-COCO5K測試結(jié)果.從結(jié)果來看,本文方法在各個(gè)測試集上表現(xiàn)出了明顯的優(yōu)勢.具體來說,在Flickr3OK1OO0測試中,在總體性能上本文方法超過最好的基線方法MV-VSE0.7個(gè)點(diǎn).在MS-COCO5-fold1000測試上,本文方法具有最好的總體性能523.3并超過最好基線1.4個(gè)點(diǎn).同時(shí),在MS-COCO5K測試上,本文方法超過了所有的基線模型,在文本檢索方面, R@1 取得了57.8點(diǎn)的最好性能,在圖像檢索方面, R@1 取得了41.2點(diǎn)的性能,總體性能(Sum)超過最好基線方法4.6個(gè)點(diǎn),這足以證明所提方法的優(yōu)勢.

        表4在Flickr3OK數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.4TheablationresultsonFlickr3OK

        3.3 消融實(shí)驗(yàn)分析

        為了驗(yàn)證 PrpVSE 中應(yīng)用的每個(gè)模塊的有效性,表4報(bào)告了Flickr3OK數(shù)據(jù)集上消融實(shí)驗(yàn)的詳細(xì)結(jié)果.從結(jié)果來看,完整版獲得了最好的性能,這表明所有的模塊都對(duì)性能有所貢獻(xiàn).具體來說,我們可以看到Glove的向量初始化的嵌入層能夠有效改善性能.這表明嵌入層的初始化對(duì)于跨模態(tài)表征很重要.這也是視覺語義嵌人技術(shù)所期望的目標(biāo),即通過改善表征來提升性能.同時(shí),我們還可以看到,通過利用提升增強(qiáng)的文本進(jìn)行輔助訓(xùn)練,性能得到了進(jìn)一步提高.這表明本文所提出的提示機(jī)制是有效的,證明了PrpVSE的設(shè)計(jì)的合理性.

        4結(jié)論

        本文提出了一種用于圖文檢索(實(shí)現(xiàn)自然語言視覺搜索)的端到端的視覺語義嵌人新方法,PrpVSE.該方法借助提示增強(qiáng)文本的信息密度,從而改善跨模態(tài)學(xué)習(xí).不同于現(xiàn)有提示學(xué)習(xí)主要運(yùn)用于大型預(yù)訓(xùn)練模型,該方法利用檢測器來提取顯著性區(qū)域的概念語義來提示輕量級(jí)視覺語義嵌入方法,這大大增強(qiáng)了其應(yīng)用性.我們?cè)趦蓚€(gè)公開的數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)來驗(yàn)證本文方法的有效性.但不可否認(rèn)的是,本文方法仍存在一定的局限性.首先,我們并未對(duì)更為豐富的提示形式進(jìn)行實(shí)驗(yàn)來驗(yàn)證其影響.同時(shí),概念檢測器主要提取了顯著性圖像區(qū)域的對(duì)象類別,但并未對(duì)具體對(duì)象屬性,例如顏色、材質(zhì)等進(jìn)行提取,這限制了概念語義的深度,我們未來將對(duì)更多提示形式進(jìn)行測試,并利用更先進(jìn)的檢測器來提取圖像深度的概念語義,以改善跨模態(tài)學(xué)習(xí),提升圖文檢索性能.

        參考文獻(xiàn):

        [1] YoungP,Lai A,HodoshM,etal.Fromimage descriptions to visual denotations:New similarity metricsfor semantic inference over event descriptions[J]. Transactions of the Association for ComputationalLinguistics,2014,2:67.

        [2] LinTY,MaireM,BelongieS,etal.Microsoft coco:Common objects in context[C]//Proceedings ofthe 13th European Conference on Computer Vision-ECCV.Zurich:Springer International Publishing,2014:740.

        [3] FaghriF,F(xiàn)leetDJ,KirosJR,etal.VSE++: Improving visual-semantic embeddings with hard negatives[EB/OL]. [2024-09-25].https://arxiv. org/abs/1707.05612.

        [4] LiK,ZhangY,LiK,etal.Visual semanticreasoningforimage-textmatching[EB/OL].[2024-09-25]. https://ieeexplore.ieee.org/document/9010696.

        [5] FuZ,Mao Z,SongY,etal.Learning semantic relationshipamong instances for image-text matching[EB/OL].[2024-09-25].https://ieeexplore. ieee.org/document/10203561.

        [6] ChenJ,HuH,WuH,etal.Learningthebest poolingstrategy for visual semantic embedding[EB/ OL].[2024-09-25]. https://ieeexplore.ieee.org/ document/9577755.

        [7] ZhangZ,Shu C,Xiao Y,et al.Improvingvisualsemantic embedding with adaptive pooling and optimizationobjective[EB/OL].[2024-09-25].https:// aclanthology.org/2023.eacl-main.87.

        [8] LeeKH,ChenX,Hua G,et al.Stacked cross attention for image-text matching[EB/OL]. [2024-09- 25].https://doi. org/10.1007/978-3-030-01225- 0_13.

        [9] ChenH,DingG,LiuX,etal.Imram:Iterative matching with recurrent attention memory for crossmodal image-text retrieval[EB/OL]. [2024-09-25]. https://ieeexplore.ieee.org/document/9156353.

        [10]Diao H, ZhangY,MaL,et al. Similarity reasoning and filtration for image-text matching [EB/OL]. [2024-09-25]. https://doi. org/10.1609/aaai. v35i2. 16209.

        [11]Liu C,Mao Z,Zhang T,et al.Graph structured network for image-text matching[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Visionland Pattern Recognition (CVPR). Seattle: IEEE/CVF,2020:01093.

        [12]Ren S,HeK,GirshickR,etal.Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2017,39:1137.

        [13]Wang J,Wang M Q,Zhang X Y,et al. Chinese named entity recognition based onmulti-head attention character Word integration[J]. Journal of Jiangsu University(Natural Science Edition),2O24,45:77. [王進(jìn),王猛旗,張昕躍,等.基于多頭注意力機(jī)制 字詞聯(lián)合的中文命名實(shí)體識(shí)別[J].江蘇大學(xué)學(xué)報(bào) (自然科學(xué)版),2024,45:77.]

        [14]Wang H Y,Hou K. Safety detection system of rail transportation equipment for transmission lines based on image recognition[J]. Journal of Jiangsu University(Natural ScienceEdition),2024,45:323.王海 燕,侯康.基于圖像識(shí)別的輸電線路軌道運(yùn)輸裝備 安全檢測系統(tǒng)[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版), 2024,45:323.

        [15]Wang H,Zhang Y,Ji Z,et al.Consensus-aware visual-semantic embedding for image-text matching[C]//Proceedings of the 16th European Conference on Computer Vision-ECCV. Glasgow : Springer International Publishing,2O2O:18.

        [16]YoungP,LaiA,Hodosh M,et al.From imagede scriptions to visual denotations:New similarity metricsfor semantic inference over event descriptions [J]. Transactions of the Association for ComputationalLinguistics,2Ol4,2:67.

        [17]Lin TY,Maire M,Belongie S,et al.Microsoft coco:Common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision-ECCV. Zurich,Switzerland:Springer International Publishing,2O14:740.

        [18]Wang Z,Liu X,LiH,et al.Camp:Cross-modal adaptivemessgepassingfortext-imageretrieval [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seattle: IEEE/CVF,2019:5764.

        [19]Li Z,Guo C,F(xiàn)eng Z,et al. Multi-view visual semantic embedding[J]. International Joint Conference onArtificialIntelligence,2O22,2:7.

        [20]Zhao G,Zhang C,Shang H,et al. Generative label fusednetworkforimage-textmatching[J]. Knowledge-Based Systems,2023,263:110280.

        (責(zé)任編輯:伍少梅)

        猜你喜歡
        圖文檢索語義
        基于知識(shí)圖譜和讀者特征的圖書館智能檢索與推送研究
        跨學(xué)科視閥下的生物學(xué)單元教學(xué)內(nèi)容重構(gòu)
        視覺傳達(dá)設(shè)計(jì):增添體育運(yùn)動(dòng)會(huì)藝術(shù)氛圍
        認(rèn)知科學(xué)視角下的高效學(xué)習(xí)法
        新班主任(2025年7期)2025-08-11 00:00:00
        第一回:烏龍?jiān)豪雉[烏龍重點(diǎn)內(nèi)容檢索法
        語言與語義
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        語義分析與漢俄副名組合
        日本高清在线一区二区| 夜夜嗨av一区二区三区| 国产国产人精品视频69| 亚洲免费不卡av网站| 日韩av一区二区不卡在线| 亚洲夜夜性无码| 国产女女精品视频久热视频| 亚洲一区二区三区在线观看播放| 亚洲精品女同在线观看| 久久精品熟女亚洲av麻| 老司机亚洲精品影院| 欧美在线不卡视频| 一本久久a久久精品综合| 亚洲毛片一区二区在线| 国产成人一区二区三区| 国内精品一区视频在线播放| 另类人妖在线观看一区二区| 精品人妻中文av一区二区三区| 亚洲日产一线二线三线精华液| 亚洲成a人片在线| 男女干逼视频免费网站| 亚洲色图视频在线免费看| 4hu四虎永久在线观看| 亚洲午夜无码久久yy6080| 久草视频在线播放免费| 欧美日本精品一区二区三区| www国产无套内射com| 天天插天天干天天操| 国产精品伦理久久一区| 午夜免费啪视频| 日本中文字幕在线播放第1页| 亚洲色图视频在线观看,| 亚洲精品国产第一综合色吧| 无码av免费精品一区二区三区 | 亚洲成AV人片在一线观看| 视频女同久久久一区二区| 激烈的性高湖波多野结衣| 欧美一级在线全免费| 中文字幕丰满人妻被公强| 国内精品久久久久影院优| 欧美精品偷自拍另类在线观看|