亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CLIP的視頻時刻檢索預訓練模型

        2024-12-30 00:00:00繆翌張衛(wèi)鋒徐領
        計算機應用研究 2024年12期
        關鍵詞:多模態(tài)圖像

        摘 要:視頻時刻檢索作為下游任務,依賴預訓練模型提取特征的能力。近年的研究表明,以CLIP為代表的圖像-語言預訓練模型在大規(guī)模數(shù)據(jù)集下能學習到有效且通用的語義知識,從而在圖像分類等任務上表現(xiàn)出強大的遷移能力和零樣本能力。然而其遷移到視頻時刻檢索任務仍效果不佳。為解決上述難題,提出了視頻時刻檢索網絡VMRNet,該網絡以CLIP預訓練模型為骨干,并設計了用于增強CLIP模型時序建模能力和跨模態(tài)交互能力的視頻時序增強模塊VTEMo。該模塊采用旁路層級結構,引入查詢文本引導的視覺提示,引導視覺編碼器學習當前查詢任務關注的視覺信息和時序信息。在QVHighlights、Charades-STA等常用數(shù)據(jù)集上進行了驗證實驗,VMRNet的R1@0.5指標在兩個數(shù)據(jù)集上分別提高0.83和1.27,模型總體性能優(yōu)于其他代表性的模型。實驗結果充分表明,提出的VTEMo可在查詢文本引導下有效學習視頻視覺特征和時序特征,VMRNet結合VTEMo可在視頻時刻檢索任務上獲得更為優(yōu)秀的表現(xiàn)。

        關鍵詞:多模態(tài);視頻時刻檢索;圖像-語言預訓練模型;參數(shù)微調

        中圖分類號:TP391"" 文獻標志碼:A

        文章編號:1001-3695(2024)12-046-3866-07

        doi: 10.19734/j.issn.1001-3695.2024.01.0065

        Pre-training model for video moment retrieval based on CLIP

        Miao Yi1, Zhang Weifeng1,2, Xu Ling1

        (1.School of Computer Science amp; Technology (School of Artificial Intelligence)," Zhejiang Sci-Tech University," Hangzhou 310000, China; 2. School of Information Science amp; Engineering, Jiaxing University, Jiaxing Zhejiang 314000, China)

        Abstract:Video moment retrieval as a downstream task relies on the ability of pre trained models to extract features. Recent studies have shown that image-language pre-training models represented by CLIP (comparative language-image pre-training) have learned effective and universal semantic knowledge on large-scale datasets, thus demonstrating strong transfer and zero-shot capabilities in tasks such as image classification. However, its transfer to video retrieval tasks still yields poor results. This paper proposed a video moment retrieval network (VMRNet) to solve the above problem’s. It was based on CLIP pre-trained models with a video temporal enhancement module (VTEMo) to enhance the CLIP model’s temporal modeling ability and cross-modal interaction ability. VTEMo adopted a bypass hierarchical structure and introduced visual prompts guided by query text to guide the visual encoder to learn the current query task concerned visual and temporal information. Conducting validation experiments on commonly used datasets such as QVHighlights and Charades STA, VMRNet’s R1@0.5 metric increased by 0.83 and 1.27 on the two datasets respectively, demonstrating its overall performance superiority over other representative models. The experimental results fully demonstrate that the proposed VTEMo can effectively learn video visual and temporal features under the guidance of query text and VMRNet combined with VTEMo can achieve better performance in video temporal retrieval tasks.

        Key words:multimodal; video moment retrieval; image-language pre-training model; efficient parameter fine-tuning

        0 引言

        視頻時刻檢索任務為視頻領域下的多模態(tài)任務,對其任務的研究不僅有巨大的學術價值,同樣具有巨大的應用價值,如視頻推薦、人機交互、監(jiān)控安防[1]。視頻時刻檢索旨在根據(jù)用戶給定的查詢信息,在大規(guī)模的視頻集合中準確地定位和檢索出與查詢相關的視頻片段,其實現(xiàn)過程可分為特征提取和特征融合兩個階段。其中特征提取通過預訓練模型提取多模態(tài)特征,特征融合階段實現(xiàn)跨模態(tài)特征交互和融合。目前主流的多模態(tài)方法[2~4]注重特征融合階段,通過對不同模態(tài)的特征建模增強跨模態(tài)交互能力與特征融合能力。然而,這種兩階段訓練方式僅在下游進行建模,相對端到端訓練方式較弱,且依賴預訓練模型提取特征的能力。特征提取階段,主流的預訓練模型側重圖像-語言特征提取,針對視頻-語言建模能力較弱。相對圖像-語言特征提取,視頻-語言特征提取核心挑戰(zhàn)在于賦予模型對視頻幀之間時序關系建模的能力,從而提取與查詢文本匹配的關鍵視覺信息和時序信息。

        圖像-語言預訓練模型是目前跨模態(tài)智能領域的研究熱點和主流方案,得到了廣泛關注。其中,以CLIP[5]為代表的模型基于大規(guī)模的圖像和文本數(shù)據(jù)集進行預訓練,可以有效學習到視覺和語言之間復雜的交互關系,且可廣泛適用于其他多模態(tài)任務。視頻的信息表達方式與視覺相似,同樣需要一種類似的預訓練模型解決下游視頻任務。然而,受限于海量的視頻-語言對數(shù)據(jù)收集困難、視頻處理所需計算資源巨大等原因,訓練一個類似CLIP的視頻-語言預訓練模型非常困難。因此,近年來多項工作[6~8]嘗試將CLIP中的圖像視覺知識遷移到視頻領域,并構建一個新的基礎模型以適應CLIP的視頻輸出特征。然而,圖像-語言預訓練模型關注圖像內部的語義信息,生成高層次的空間特征無法直接作為視頻特征的輸入。而直接運用預訓練模型的方式受限于預訓練模型原本的特征輸出,難以挖掘視頻的時序特征。

        CLIP不同層之間的特征差異可用于獲取視頻層級之間的特征表示,在進行下游任務適應時,一種早期的方法[9,10]是通過全量訓練CLIP模型來實現(xiàn),如圖1(a)所示。然而,這種方法存在兩個主要問題:a)全量訓練CLIP模型的代價非常巨大,需要大量的計算資源和時間;b)對CLIP模型內部層進行修改可能會破壞模型所具有的先驗知識。因此,在選擇適應下游任務的方法時,需要考慮這些問題以及可能的解決方案。已經有研究將 CLIP成功遷移到視頻領域并取得了顯著成果,但這些研究僅僅基于單模態(tài)結構進行了調整,如圖1(b)所示。基于分支的結構[11],在CLIP視覺層之外引入一個多層分支網絡,在不影響CLIP本身前向傳播的情況下,利用高層和低層知識增強視頻幀的特征。然而這種單模態(tài)方式學習的特征有限,無法在其他模態(tài)引導下有效學習當前任務所需的視頻特征。

        視頻時刻檢索任務除視頻模態(tài)外,還存在文本模態(tài)作為查詢方式,將CLIP文本層知識與分支網絡結合是更為優(yōu)先且合理的選擇。ALBEF(align before fuse)[12]證明文本只需較小的網絡結構就能挖掘到有效的特征,而視覺與多模態(tài)的交互需要更復雜的網絡挖掘和融合特征。基于此,本文遷移預訓練模型于視頻時刻檢索任務并增強多模態(tài)交互能力,提出視頻時序增強模塊(video temporal enhancement module,VTEMo),如圖1(c)所示。VTEMo采用旁路層級結構,通過提取CLIP不同層的視頻特征,實現(xiàn)對不同層級的視頻時序特征的獲取,而無須增加網絡的深度,有效地提升模塊提取時序語義特征的能力。VTEMo與ALBEF的交互方式不同,其側重于提取視頻分支并將文本作為提示進行引導,以提高模塊在視頻特征提取方面的能力。同時,VTEMo凍結已有的預訓練模型參數(shù),能夠保留CLIP層原有的空間語義特征,只需關注視頻的時序建模能力,保留模塊性能的同時,其本身結構也相對簡潔。最后, VTEMo模態(tài)間的交互方式通用于其他模態(tài),使其可以遷移到其他多模態(tài)任務中。

        本文主要有以下三點貢獻:a)審視圖像-語言預訓練模型與視頻時刻檢索任務的內在聯(lián)系,發(fā)現(xiàn)核心挑戰(zhàn)在于引入多模態(tài)特征賦予模型對視頻幀之間的時序關系建模與多模態(tài)特征匹配的能力;b)提出VTEMo,以有限的計算量為代價,有效提高模型的性能,其通用的架構使得預訓練模型可以遷移到其他多模態(tài)任務中;c)與基線方法相比,所提方法在視頻時刻檢索任務上取得了具有競爭力的結果。

        1 相關工作

        1.1 多模態(tài)預訓練

        主流的多模態(tài)方法[13~16]都可歸類為雙塔模型,通過兩個獨立的神經網絡處理不同的輸入模態(tài),并通過融合這兩個模態(tài)的表示來完成任務。過去工作以傳統(tǒng)的神經網絡架構[17,18]提取視覺特征,這使得模塊復雜且效果不好。ViT(vision Transformer)[19]將Transformer[20]遷移到視覺領域,簡化模型架構的同時增強了視覺特征提取能力。最近工作旨在用大規(guī)模圖像-語言數(shù)據(jù)集參與訓練的方式提取特征。CLIP[5]是一項卓越的研究成果,展示了令人驚嘆的零樣本識別和泛化能力,相應地推動了預訓練模型遷移圖像領域任務的發(fā)展。Lseg(language-driven semantic segmentation)[21]、ViLD(vision and language knowledge distillation)[22]和CLIPasso[23]等模型在圖像分割、檢測和生成等領域都取得了顯著的進展。然而,上述模型都屬于圖像-語言模型,視頻-語言模型的研究進展相對較為緩慢。對于視頻和文本之間的關聯(lián)性建模,仍然存在挑戰(zhàn)和待解決的問題。

        早期遷移CLIP到視頻領域的方法[10,24]是將視頻的每一幀分割成相同大小的小塊,以時間或空間維度串聯(lián)各幀的所有小塊,以實現(xiàn)視頻與圖像輸入維度的一致,但重新預訓練的方式沒有有效利用圖像-語言預訓練模型的知識,且視頻數(shù)據(jù)量遠遠超過圖像數(shù)據(jù),這極大地增加了預訓練模型的計算負荷,無法適用于其他任務。CLIP4CLIP[8]以序列化的方式進行大規(guī)模視頻-語言數(shù)據(jù)集的后預訓練,并采用均值池化機制壓縮視頻特征,這種方式沒有學習到視頻幀之間的低層次特征表征,且依賴于圖像-語言預訓練模型原本的知識。參數(shù)高效微調(parameter-efficient fine-tuning,PEFT)的方法開始被引入到多模態(tài)預訓練模型,時空輔助網絡(spatial-temporal auxiliary network,STAN)[11]將其作為調諧適配器(adapter tuning),用于在不干擾主干網絡的情況下提取時空特征。然而,該模型只關注視頻特征,將文本作為多模態(tài)特征可以更有效地挖掘視頻的時空特征。本文策略保持了主干網絡的空間特征,使Adapter專注時序特征的提取,同時引入文本作為調諧提示(prompt tu-ning),通過多模態(tài)特征提升模型時序特征提取的能力。

        1.2 視頻時刻檢索

        視頻時刻檢索任務是多模態(tài)領域下的分支課題,為了提高系統(tǒng)的檢索性能,主流方法是先提取多模態(tài)預訓練特征,然后在下游任務中對這些特征進行建模,以增強多模態(tài)交互的能力。從現(xiàn)有研究中觀察到主要有傳統(tǒng)預訓練和大模型預訓練兩種預訓練方式實現(xiàn)視頻時刻檢索任務。早期采用傳統(tǒng)預訓練[25~28]的方式,以CNN[17]或RNN[18]為基礎架構的網絡提取特征,訓練效果不好。目前流行的方法采用以C3D(convolutional 3D)[29]、I3D(inflated 3D)[30]、SlowFast[31]、Transformer[20]等為基礎架構的模型預訓練特征[2~4,32~34],基于已有預訓練知識設計模型進行多模態(tài)特征融合。由于沒有成熟的視頻-語言預訓練模型,圖像-語言預訓練模型成為通用的替代方式。這種方式存在以下兩個問題:a)視頻模態(tài)的建模相比圖像應該更加復雜,圖像-語言預訓練模型難以提取視頻時序特征;b)采用兩階段訓練方式僅在下游模型進行調整,其效果相對于端到端的訓練方式而言較弱?;趫D像-語言多模態(tài)建模的工作[14,16,35]證明圖像模態(tài)需要更復雜的網絡才能獲取與文本對齊的特征,便于后續(xù)的模態(tài)融合。本文將該理念引入視頻領域,提出方法注重視頻模態(tài)的建模,在模態(tài)交互前融入其他模態(tài)的特征,增強了視頻模態(tài)提取特征的能力。同時,與前述方法不同,本文關注點在于預訓練過程,并將傳統(tǒng)的兩階段訓練方式轉變?yōu)槎说蕉擞柧毞绞健?/p>

        2 方法

        本文提出的VMRNet主要包括視頻-語言特征提取部分與視頻時刻檢索兩個部分,總體框架如圖2(a)所示。其中,視頻-語言特征提取部分包括CLIP[5]基礎架構和所提VTEMo。VTRMo為一種基于Transformer[20]的層級架構,作為CLIP視覺編碼器的旁路,賦予模塊時序建模的能力,通過文本提示引導模塊提取關鍵視頻特征。視頻時刻檢索部分以編碼器-解碼器為基礎架構,時空特征融合模塊融合分離的時空特征,并在視頻-語言特征編碼器對文本進行編碼,編碼后的特征在視頻文本特征編碼器對融合的時空特征進行解碼,得到與文本匹配的視頻幀信息。

        2.1 概述

        視頻時刻檢索任務根據(jù)用戶輸入的由Nq個詞構成的查詢文本Q,從給定的視頻V(該視頻包含Nv個不重疊的視頻片段,每個視頻片段時長為等長的t秒)中自動定位與查詢文本語義匹配的視頻片段。目前主流的方法[2~4,32~34]將該任務分成特征提取與特征融合兩個階段,其中特征提取對視頻和文本等不同模態(tài)的特征通過編碼器編碼,特征融合對跨模態(tài)的特征進行交互,獲得融合模態(tài)的特征,將其作為后續(xù)預測的輸入定位視頻片段的開始和結束時刻。該任務的核心和難點在于算法模型需要抽取和融合視頻中每一幀的語義信息和視頻幀序列之間的時序信息,并與查詢文本進行跨模態(tài)對齊。目前主流工作廣泛使用預訓練的CLIP圖像編碼器提取視頻特征,在視頻特征抽取階段往往缺乏查詢文本的引導,缺乏跨模態(tài)交互能力,無法準確捕獲當前任務所需的視頻特征。

        為了緩解上述問題,本文提出了一種新的視頻時刻檢索模型VMRNet。如圖2(a)所示,該模型主要包括以下兩個階段:

        a)特征提取階段。本文引入CLIP視覺和文本編碼器,其中文本編碼器輸出特征可直接作為文本模態(tài)特征,視覺編碼器輸出作為視頻空間特征,與VTEMo輸出的視頻時序特征拼接,得到視頻模態(tài)特征。

        b)特征融合與解碼預測階段。本文參考Transformer編碼器-解碼器架構,將跨模態(tài)特征作為不同的查詢鍵值對。其中時空特征融合模塊為編碼器,通過自注意力計算融合分離的時空特征,得到完整的視頻模態(tài)特征。后續(xù)的編碼器-解碼器架構通過視頻特征對文本特征編碼,使得文本特征獲取視頻特征的相關表示,將獲取的關聯(lián)性特征對原視頻特征解碼,得到最終預測特征向量,具體公式如下:

        P=softmax(Z′WQ(AWK)T/D)(AWV)+Z′(1)

        其中:Z′為融合的視頻時空特征向量;A為文本特征向量;D為兩者相同的特征維度;WQ、WK、WV分別為查詢、鍵和值的權重參數(shù);P為最終的預測特征向量。

        2.2 視頻-語言特征提取

        2.2.1 CLIP

        CLIP使用兩個編碼器構建,一個用于圖像,另一個用于文本。圖像編碼器由12層ViT[19]堆疊組成,用于將圖像轉換為圖像特征向量。文本編碼器由12層標準的Transformer堆疊組成,用于將詞嵌入特征轉換為文本特征向量。訓練過程中采用對比損失學習的方式,計算圖像特征向量與文本特征向量的余弦相似度。最大化圖像與匹配文本的余弦相似度,同時最小化圖像與其他不匹配文本的余弦相似度。本文僅提取CLIP編碼器部分,將視覺編碼器與文本編碼器獲得特征作為VTEMo輸入,得到視頻編碼特征。

        2.3 視頻時刻檢索

        2.3.1 時空特征融合模塊

        時序特征{vn}Nvn=1與空間特征{in}Nvn=1拼接后得到融合特征{zn}Nvn=1。拼接后的融合特征時空權重分布分散,只關注局部的時空相關性,而沒有關注到全局的時空信息,需要融合時空信息以得到更自然的時空特征表示。時空特征融合模塊采用線性映射壓縮時空特征信息,通過單層Transformer編碼器進行特征提取,使每個視頻幀融合時空特征的同時獲取到全局的幀間信息,得到更合理的時空特征融合表示{z′n}Nvn=1,具體公式如下:

        z′=FFN(MSA(z))+z(16)

        2.3.2 視頻-語言特征編碼器

        視頻時刻檢索任務需要交互視頻-語言特征,與視頻定長的特征維度不同,文本由于其序列長度不定,難以直接與視頻交互計算。視頻-語言特征編碼器通過更改自注意力的輸入,增加序列掩碼將不同序列長度的文本映射到同一維度的特征空間中。通過單層Transformer編碼器,將文本作為鍵和值以對查詢視頻進行編碼,使其關聯(lián)文本和視頻特征,得到各視頻幀與文本的關聯(lián)關系{an}Nvn=1,為后續(xù)的解碼器提供特征,具體公式如下:

        a=FFN(MSA(z′,q))+z′(17)

        2.3.3 視頻-語言特征解碼器

        視頻-語言特征解碼器遵循編碼器-解碼器的結構,通過視頻與文本關聯(lián)特征對原視頻時空特征進行解碼。解碼器采用多層Transformer編碼器堆疊的方式,各層解碼器輸出序列與編碼器輸入序列相同,使其得到與編碼器對齊的視頻特征。通過堆疊的方式,增強解碼器的解碼能力,得到視頻幀信息的解碼特征{pn}Nvn=1,單層解碼器公式如下:

        p=FFN(MSA(a,z′))+a(18)

        2.3.4 預測頭與損失函數(shù)

        由于所需視頻時刻存在起止點、長度等不同維度的特征,可將其拆分成不同屬性的特征聯(lián)合表示。解碼特征經過不同的線性映射得到3份不同維度的特征序列,分別為窗口中心{cn}Nvn=1、中心偏移{on}Nvn=1和窗口大小{wn}Nvn=1。窗口中心為各幀作為窗口中心的置信度,訓練過程中,采用局部高斯損失[36],給定每個窗口一個可接受的誤差區(qū)間,使得模型在預測上具有一定的彈性,同時加速誤差區(qū)間范圍外的窗口中心的收斂速度。給定的高斯損失如下:

        Euclid Math OneLApw=-1Nv∑n(1-c^n)αln c^n+(1-cn)γc^nln(1-c^n)(19)

        在時刻n下,cn為0或1的標簽,表示該時刻是否為真實中心,c^n為預測中心置信度,α、γ分別為預測中心和真實值的不同權重指數(shù)。對于已存在的誤差,結合下采樣帶來的間隔誤差,提出中心偏移以微調窗口中心的位置,中心偏移、窗口大小與窗口中心對應,分別表示對應時刻窗口中心的偏移量與窗口大小。兩者均使用L1損失優(yōu)化:

        在時刻n下,on、o^n為該時刻的真實偏移和預測偏移,wn、w^n為該時刻的真實窗口大小與預測窗口大小。由預測參數(shù)得到預測視頻時刻真實范圍為[c~+o~-w~/2,c~+o~+w~/2]。c~、o~、w~分別為最大中心置信度所在時刻與對應的中心偏移和窗口大小。

        3 實驗結果與分析

        3.1 前置工作

        3.1.1 數(shù)據(jù)集

        本文在QVHighlights[32]和Charades-STA[37]兩個熱門的數(shù)據(jù)集上進行實驗視頻時刻檢索任務的實驗。本文遵循原始的QVHighlights和Charades-STA數(shù)據(jù)分割方式進行實驗。

        QVHighlights是最近提出的一個數(shù)據(jù)集,其范圍涵蓋了廣泛的主題,包括日?;顒雍吐眯械纳罘绞揭曨l,以及社會和政治活動的新聞視頻。該數(shù)據(jù)集由10 148個裁剪后的視頻組成,每個視頻的長度為128~150 s,并被分割成多個不重疊的2 s時刻片段。每個視頻都標注了至少一個描述與其相關的時刻的文本。每個文本描述對應著若干個不相交的時刻片段。整個數(shù)據(jù)集共包含10 310個查詢和18 367個被標記的時刻片段。

        Charades-STA是一個旨在研究日常人類活動的非結構化視頻活動識別和常識推理的數(shù)據(jù)集。該數(shù)據(jù)集包含9 848個室內活動的視頻樣本,針對267個不同的用戶進行展示。每個樣本都以句子的形式呈現(xiàn)給用戶,句子中包括了來自固定詞匯表的對象和動作。用戶根據(jù)句子所描述的內容,通過演繹相關視頻內容來完成任務。該數(shù)據(jù)集包含了66 500個時間注釋,涵蓋了157個動作類別,以及41 104個標簽,涵蓋了46個物體類別。此外,數(shù)據(jù)集還提供了27 847個視頻的文本描述。

        3.1.2 評價指標

        本文沿用現(xiàn)有工作使用的評價指標。對于QVHighlights數(shù)據(jù)集,使用交并比(IoU)閾值為0.5和0.7的第一個結果的召回率(recall@1),IoU閾值為0.5和0.75的平均精度(mean average precision, mAP)和以[0.50.050.95],序列作為IoU閾值所得mAP的平均值(mAP@0.50.95),用于評估實驗結果。對于Charades-STA數(shù)據(jù)集,以IoU閾值0.5和0.7為界,使用第一個結果和前五個結果的召回率(recall@5)。相關計算公式如下:

        其中:TP、FP、FN分別為預測正確的正類數(shù)、預測錯誤的正類數(shù)、預測錯誤的負類數(shù);P、R分別為精確率和召回率;i為mAP閾值索引;N為IoU閾值到1之間的采樣數(shù);Δi為平均采樣間隔。

        3.1.3 實驗參數(shù)

        CLIP[5]使用ViT-B/32模型,該模型和預訓練參數(shù)來自于Hugging Face官網。在文本方面,設置了截斷長度為32。VTEMo內部MSA層隱藏維度為512,融合模塊和編碼器-解碼器MSA層隱藏維度為256,其中解碼器設置3層。在訓練過程中,采用了學習率為1E-3、權重衰減為1E-4的Adam優(yōu)化器。對于QVHighlights數(shù)據(jù)集,采用2 s一幀的下采樣,設置32的batch size的和150迭代次數(shù)。對于Charades-STA數(shù)據(jù)集,采用0.2 s一幀的下采樣,設置8的batch size和100的迭代次數(shù)。

        3.2 實驗結果

        將本文VMRNet與基線方法結合,首先在QVHighlights上評估模型,并與現(xiàn)有工作對比,結果如表1所示,最優(yōu)的識別結果以粗體標記,其中w/PT表示引入ASR字幕后預訓練結果。CAL、XML使用傳統(tǒng)預訓練模型提取特征,Moment-DERT、UMT、UniVTG、QD-DETR使用CLIP提取特征。VMRNet大多數(shù)條件下優(yōu)于現(xiàn)有基線模型,在使用ASR字幕預訓練的結果下,VMRNet在IoU閾值為0.5和0.7的條件下達到了63.23%和46.19%的召回率,IoU閾值為0.75的mAP達到了38.93%。IoU閾值為0.5的mAP表現(xiàn)不佳,可能由于損失函數(shù)更加強調提高預測時間與真實時間的重疊程度,而略微忽略時間重疊的覆蓋率。圖3給出了本文方法與UMT在QVHighlights上的對比結果。相比直接使用CLIP提取特征的模型,VMRNet有較好的時序建模能力,可以過濾視頻幀時序性噪聲,實現(xiàn)更精準的預測。Charades-STA上與現(xiàn)有工作的對比評估結果如表2所示,最優(yōu)的識別結果以粗體標記,其中w/PT表示引入ASR字幕后的預訓練結果。VTEMo在大多數(shù)情況下優(yōu)于基線模型,對于在IoU閾值為0.5的條件下,VMRNet的第一項結果達到50.11%的召回率,第五項結果達到89.46%的召回率,優(yōu)于之前的基線模型?,F(xiàn)有方法直接使用預訓練模型提取特征,無法得到視頻的時序特征,僅使用空間特征難以對齊文本。相比之下,VMRNet通過文本引導模型,可以提取視頻中關鍵的時序特征,同時得到與文本對齊的特征向量。

        3.3 消融實驗

        為驗證不同組件的有效性,以ASR字幕預訓練為前提進行消融實驗,測試各組件的有效程度。

        3.3.1 VTEMo初始化層數(shù)消融實驗

        VTEMo為CLIP骨干網絡旁的分支網絡,它將CLIP視覺層不同層的視覺表示作為輸入。為驗證不同層級的視覺特征對時序建模能力的影響,增加文本提示,對VTEMo層數(shù)進行了不同的初始化設置,并測試其效果,實驗結果如表3所示。其中a為最原始的模型,不使用VTEMo模塊,b、c、d分別為VTEMo初始化1層、2層、3層的模型。與直觀的結果不同,模型在1層的時候性能達到峰值,隨著VTEMo初始化層數(shù)增加,模型性能緩慢下降。CLIP高層次的視覺語義特征足夠優(yōu)秀,可以直接遷移到其他下游任務進行訓練,而低層次的視覺特征可能并沒有學到足夠的視覺知識,將低層次的特征作為VTEMo的輸入可能會干擾模型提取時序特征的能力,但對該任務而言,增加VTEMo模塊的性能要優(yōu)于原模型。

        3.3.2 文本提示組件消融實驗

        為驗證文本提示的有效性,將VTEMo內部層數(shù)設置為1層,進行了增加文本提示與取消文本提示兩組實驗,實驗結果如表4所示。其中e為不使用文本提示的模塊,f為使用文本提示的模塊。實驗結果可知,將文本引入VTEMo并將其作為提示,能有效對齊視頻時序特征與文本特征,增強模塊根據(jù)文本查詢相關視頻幀的能力,從而獲取與文本關聯(lián)性更高的視頻幀信息。文本提示的方式能有效增強模塊提取視頻時序特征表示,相比單模態(tài),多模態(tài)的學習可以使模塊捕獲更多有用的信息。

        4 結束語

        本文研究了CLIP預訓練模型遷移到視頻時刻的檢索任務。首先,發(fā)現(xiàn)目前的單模態(tài)方法不能有效提取視頻的時序性特征,提出了視頻時序增強模塊(VTEMo),將文本提示的理念引入到預訓練模型中,并以此為基礎構建視頻時刻檢索網絡(VMRNet),設計的網絡有效融合了多模態(tài)的特征,并提升模型獲取時序特征的能力。其次,將預訓練模型遷移到了視頻時刻檢索任務,將兩階段的訓練方式轉變?yōu)槎说蕉说挠柧毞绞?,融合了時空特征的視頻片段,使得模型在視頻時刻檢索任務上有顯著的提升。最后,提出的網絡足夠靈活,可以遷移到其他的多模態(tài)任務中。本文實驗成果如圖3所示,VMRNet可通過原視頻與視頻片段相關問句,檢索到與真實結果相近的視頻片段,可促進智能推薦、監(jiān)控安防等相關產業(yè)發(fā)展。本文就目前方法所得的實驗結果,觀察到模型對較長的視頻時刻(gt;30 s)預測能力較強,而對較短的視頻時刻(lt;10 s)預測能力較弱,得到該模型對短視頻時刻能力的預測依舊具有一定局限性,后續(xù)將研究如何更改長短視頻時刻的注意力權重,均值化長短視頻時刻特征,以此提升模型預測短視頻時刻的能力。

        參考文獻:

        [1]Zhang Hao, Sun Aixin, Jing Wei, et al.Temporal sentence grounding in videos: a survey and future directions[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 45(8): 10443-10465.

        [2]Chen Tongbao, Wang Wenmin, Jiang Zhe, et al.Cross-modality knowledge calibration network for video corpus moment retrieval[J]. IEEE Trans on Multimedia, 2023, 26(9): 3799-3813.

        [3]Panta L, Shrestha P, Sapkota B,et al.Cross-modal contrastive lear-ning with asymmetric co-attention network for video moment retrieval[C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2024: 607-614.

        [4]Shen Xingyu, Zhang Xiang, Yang Xun, et al.Semantics-enriched cross-modal alignment for complex-query video moment retrieval[C]// Proc of the 31st ACM International Conference on Multimedia. New York: ACM Press, 2023: 4109-4118.

        [5]Radford A, Kim J W, Hallacy C,et al.Learning transferable visual models from natural language supervision[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 8748-8763.

        [6]Fang Han, Xiong Pengfei, XuLuhui, et al.CLIP2Video: mastering video-text retrieval via image clip[EB/OL]. (2021-06-21). https://arxiv.org/abs/2106.11097.

        [7]Gao Zijian, Liu Jingyu, Chen Sheng, et al.CLIP2TV: an empirical study on transformer-based methods for video-text retrieval[EB/OL]. (2022-07-21). https://arxiv.org/abs/2111.05610.

        [8]Luo Huaishao, Ji Lei, Zhong Ming, et al.CLIP4Clip: an empirical study of clip for end to end video clip retrieval[J]. Neurocompu-ting, 2022, 508: 293-304.

        [9]Lei Jie, Li Linjie, Zhou Luowei, et al.Less is more: CLIPBERT for video-and-language learning via sparse sampling[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2021: 7327-7337.

        [10]Xu Hu, Ghosh G, Huang P Y,et al.VideoCLIP: contrastive pre-training for zero-shot video-text understanding[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 6787-6800.

        [11]Liu Ruyang, Huang Jingjia, Li Ge, et al.Revisiting temporal mode-ling for clip-based image-to-video knowledge transferring [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 6555-6564.

        [12]Li Junnan, Selvaraju R R, Gotmare A, et al.Align before fuse: vision and language representation learning with momentum distillation[C]// Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 9694-9705.

        [13]Gabeur V, Sun C, Alahari K, et al.Multi-modal Transformer for video retrieval[C]// Proc of Computer Vision Conference. Cham: Springer, 2020: 214-229.

        [14]Lu Jiasen, Batra D, Parikh D, et al.ViLBERT: pretraining task-agnostic visio linguistic representations for vision-and-language tasks[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 13-23.

        [15]Tan Hao, Bansal M. LXMERT: learning cross-modality encoder representations from transformers [EB/OL]. (2019-12-03). https://arxiv.org/abs/1908.07490.

        [16]Su Weijie, Zhu Xizhou, Cao Yue, et al.VL-BERT: pre-training of generic visual-linguistic representations [EB/OL]. (2020-02-18). https://arxiv.org/abs/1908.08530.

        [17]Kim Y. Convolutional neural networks for sentence classification [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1746-1751.

        [18]Elman J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211.

        [19]Dosovitskiy A, Beyer L, Kolesnikov A, et al.An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.

        [20]Vaswani A,Shazeer N, Parmar N, et al.Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

        [21]Li Boyi, Weinberger K Q, Belongie S, et al. Language-driven semantic segmentation[EB/OL]. (2022-04-03). https://arxiv.org/abs/2201.03546.

        [22]Gu Xiuye, Lin T Y, Kuo Weicheng, et al.Open-vocabulary object detection via vision and language knowledge distillation[EB/OL]. (2022-05-12). https://arxiv.org/abs/2104.13921.

        [23]Vinker Y, Pajouheshgar E, Bo J Y, et al.CLIPasso: semantically-aware object sketching[J]. ACM Trans on Graphics, 2022, 41(4): 1-11.

        [24]Arnab A, Dehghani M,Heigold G, et al.ViViT: a video vision transformer[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 6816-6826.

        [25]Escorcia V, Soldan M, Sivic J,et al.Temporal localization of moments in video collections with natural language[EB/OL]. (2019-07-30). https://arxiv.org/abs/1907.12763.

        [26]Lei Jie, Yu Licheng, Berg T L, et al.TVR: a large-scale dataset for video-subtitle moment retrieval[C]// Proc of Computer Vision Conference. Cham: Springer, 2020: 447-463.

        [27]Hendricks L A, Wang O, Shechtman E, et al.Localizing moments in video with natural language[C]// Proc of IEEE International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 5804-5813.

        [28]Liu Wu, Mei Tao, Zhang Yongdong, et al.Multi-task deep visual-semantic embedding for video thumbnail selection[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 3707-3715.

        [29]Tran D,Bourdev L, Fergus R, et al.Learning spatiotemporal features with 3D convolutional networks[C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 4489-4497.

        [30]Carreira J, Zisserman A. Quovadis, action recognition? A new model and the kinetics dataset[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 4724-4733.

        [31]Feichtenhofer C, Fan Haoqi, Malik J, et al.SlowFast networks for video recognition[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 6201-6210.

        [32]Lei Jie, Berg T L, Bansal M.QVHighlights: detecting moments and highlights in videos via natural language queries[C]// Proc of the 35th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 11846-11858.

        [33]Liu Ye, Li Siyuan, Wu Yang, et al.UMT: unified multi-modal transformers for joint video moment retrieval and highlight detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 3032-3041.

        [34]Lin K Q, Zhang Pengchuan, Chen J, et al.UniVTG: towards unified video-language temporal grounding[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 2782-2792.

        [35]Kim W, Son B, Kim I. ViLT: vision-and-language transformer without convolution or region supervision[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 5583-5594.

        [36]Wang Jian, Li Fan, Bi Haixia. Gaussian focal loss: learning distribution polarized angle prediction for rotated object detection in aerial images[J]. IEEE Trans on Geoscience and Remote Sensing, 2022, 60: 1-13.

        [37]Sigurdsson G A, Varol G, Wang Xiaolong, et al.Hollywood in homes: crowdsourcing data collection for activity understanding[C]// Proc of Computer Vision Conference. Cham: Springer, 2016: 510-526.

        [38]Moon W, Hyun S, Park S, et al. Query-dependent video representation for moment retrieval and highlight detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2023: 23023-23033.

        [39]Zhang Da, Dai Xiyang, Wang Xin, et al.MAN: moment alignment network for natural language moment retrieval via iterative graph adjustment[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 1247-1257.

        [40]Zhang Songyang, Peng Houwen, Fu Jianlong, et al.Learning 2D temporal adjacent networks for moment localization with natural language[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 12870-12877.

        [41]Gao Junyu, Xu Changsheng. Fast video moment retrieval[C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 1503-1512.

        [42]Ma Yue, Yang Tianyu, Shan Yin, et al.SimVTP: simple video text pre-training with masked autoencoders[EB/OL]. (2022-12-07). https://arxiv. org/abs/2212.03490.

        猜你喜歡
        多模態(tài)圖像
        改進的LapSRN遙感圖像超分辨重建
        基于FPGA的實時圖像去霧系統(tǒng)
        如何由圖像確定y=Asin(ωx+φ)+B的解析式
        淺析p-V圖像中的兩個疑難問題
        有趣的圖像詩
        多模態(tài)話語中的詹姆斯·卡梅隆電影
        電影文學(2016年19期)2016-12-07 19:57:57
        英語閱讀教學中多模態(tài)識讀能力的培養(yǎng)
        網絡環(huán)境下大學英語多模態(tài)交互式閱讀教學模式研究
        戲劇之家(2016年22期)2016-11-30 18:20:43
        多模態(tài)理論視角下大學英語課堂的構建
        科教導刊(2016年26期)2016-11-15 19:54:13
        新媒體環(huán)境下多模態(tài)商務英語課堂教師角色定位
        国产精品亚洲av无人区一区蜜桃 | 精品久久人人妻人人做精品| 亚洲AV无码久久久一区二不卡 | 欧美精品国产综合久久| 1区2区3区高清视频| 亚洲V无码一区二区三区四区观看| 人妻露脸国语对白字幕| 丝袜美腿亚洲综合久久| 国产亚洲精品综合一区| 无码午夜成人1000部免费视频| jjzz日本护士| 日本超骚少妇熟妇视频| 久久成人国产精品一区二区| 东京热加勒比无码少妇| 人妻中出精品久久久一区二| 日韩在线视频专区九区| 亚洲午夜久久久久久久久电影网| 国产在线精品一区二区三区不卡 | 色综合久久无码中文字幕app| 色se在线中文字幕视频| 日韩在线不卡一区三区av| 精品国产第一国产综合精品| 国产又色又爽无遮挡免费动态图| 人妻中文字幕一区二区二区| 国产激情自拍在线视频| 精品国产拍国产天天人| 乱伦一区二| 视频一区中文字幕日韩| 亚洲自偷自拍另类第1页| 久久99精品久久久久久hb无码| 国产成人午夜福利在线小电影| 精品国产精品久久一区免费| 精品无码一区二区三区爱欲| 人妻少妇av无码一区二区| 亚洲性爱区免费视频一区| 日韩一区二区av极品| 亚洲av无码久久精品蜜桃| 国产精品27页| 亚洲一区二区女优视频| 人妻少妇-嫩草影院| 亚洲精品国产精品国自产观看|