亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視覺特征引導融合的視頻描述方法

        2022-10-17 11:02:46苗教偉劉純平
        計算機工程與應用 2022年20期
        關鍵詞:解碼器語義特征

        苗教偉,季 怡,劉純平

        蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006

        由于互聯網的快速發(fā)展和個人智能移動設備數量的激增,尤其是各個短視頻平臺的快速成長,視頻已經成為人們學習娛樂、獲取信息的主流媒介,視頻分析理解也隨之成為熱點研究內容。

        視頻描述生成因其在人機交互、視頻監(jiān)控、視頻檢索等方面存在巨大潛在應用價值而成為近年來的熱點研究方向之一,其為給定視頻內容生成對應自然語言描述的任務本質決定了其需要結合計算機視覺和自然語言處理兩個方向的技術,并為二者的連接起到了紐帶作用。

        早期的工作主要使用基于模板匹配的方法[1-2],先從視頻中識別出物體和它們之間的關系,然后填充到預先定義好的句子模板中。雖然取得了很大進步,但這種方法太過依賴模板,導致生成的描述句子結構單一,不夠靈活。隨著深度學習的興起,基于編解碼框架的方法因其更好的模型效果和能產生更靈活句子結構的優(yōu)點成為該領域的主流。這類方法使用2D/3D卷積神經網絡從視頻中提取特征,然后使用循環(huán)神經網絡將得到的特征解碼出描述語句。文獻[3]將視頻幀的卷積特征進行均值池化后的結果作為編碼特征送入解碼器,而后續(xù)的S2VT模型[4]則認為這種做法忽略了視頻幀之間的時序關系,所以在編碼端也使用了LSTM。文獻[5-6]在解碼過程中引入注意力機制,以關注在每個單詞生成時的不同元素的貢獻。文獻[7-9]則致力于通過對解碼器施加約束來提高生成的描述和視頻內容的關聯程度。語義信息被認為是視頻中存在的屬性元素,可以提供很強的先驗知識,文獻[10-11]通過將語義信息整合到解碼器網絡中,提升描述的準確性。

        盡管如此,這些方法忽略了在解碼過程中視覺信息和文本信息的交互,導致在生成一些視覺詞匯時出現錯誤。因為文本標注是視頻的對應描述,其從文本語義的角度描述了視頻的主要視覺內容,而從視頻本身抽取的視覺特征則從抽象的視覺層面高度濃縮了視頻的視覺語義,二者之間存在關聯關系,它們之間的交互融合可以為解碼器提供更多參考信息,從而引導解碼器產生最相關的詞匯。針對這種情況,本文提出一種視覺引導交互融合的方法,利用文本特征和視覺特征之間的交互關系提高描述質量。此外,針對解碼器網絡的參數量較多,而訓練數據相對較少,從而導致解碼器存在過擬合情況,使用循環(huán)dropout的方法來加以緩解,從而保證提出視頻描述方法有更好的性能。綜上,本文所提方法的關鍵在于視覺、文本特征的交互融合機制和循環(huán)dropout方法的引入。

        1 相關工作

        1.1 視頻描述

        基于編解碼框架下的視頻描述模型的關鍵點有兩個,一是如何在編碼過程中從視頻本身和對應的人工標注獲得更多有價值的指導信息,二是在解碼過程中盡可能充分有效地利用到這些信息。

        由于視頻本身包含多種模態(tài)的信息,如靜態(tài)的物體、場景信息,動態(tài)的運動信息、聲音信息等,所以很多模型[12-13]致力于從視頻本身挖掘出更多的可用信息,而視頻對應的標注包含了視頻內容的描述信息,僅在模型訓練時作為輸入使用,忽略了其潛在的指導價值。近年來,越來越多的模型開始借助視頻標注挖掘出更多指導信息。SCN模型[10]借助視覺特征和人工標注,訓練語義檢測網絡,得到了另一種極具價值的語義信息。由于不同視頻中存在語義相似的場景,對應的描述中存在相同的詞或短語,MARN[14]設計了一種記憶結構來探索詞和視覺上下文的關系。POS[15]借助標注中的詞性信息和基于視頻特征預測到的語法結構來引導模型產生準確的描述。SAAT[16]提出一種利用語法預測動作的模塊,該模塊通過主語物體類別和視頻動態(tài)特征來預測動作,指導描述生成。

        1.2 dropout方法

        dropout作為一種緩解網絡過擬合的方法,被廣泛應用在各類神經網絡中。顧名思義,該方法在具體執(zhí)行時對于每批次的輸入進行以概率p的隨機丟棄,即把元素置為0,減少隱藏節(jié)點間的相互作用,使得模型可以不再依賴某些局部的特征,泛化性得以增強。循環(huán)神經網絡不同于全連接神經網絡和卷積神經網絡,其目的是保存長期記憶,標準的dropout因為產生噪聲會導致網絡不能長期保存記憶,于是一些專門用于循環(huán)神經網絡的dropout方法被提出并被廣泛應用。

        不同于標準dropout每次都會生成新的掩碼,RNNdrop[17]為每個輸入序列生成一個dropout掩碼并保持其不變,可以保證未被丟棄的元素在整個序列中持續(xù)存在,從而保持網絡可以長期記憶。循環(huán)dropout[18]和標準dropout一樣對每個序列會生成不同掩碼,但只應用在用于更新隱藏狀態(tài)的元素部分,而不是狀態(tài)本身。Zoneout[19]在每個時間步,以概率p隨機的使隱藏單元保持其上一時刻的值,以1-p的概率按照常規(guī)方式進行更新。

        2 視頻描述模型

        2.1 模型整體結構

        基于編解碼器框架,本文提出的模型如圖1所示。提出的方法和文獻[10]一樣,借助語義信息來輔助產生更準確的描述。編碼器部分由靜態(tài)特征提取器、動態(tài)特征提取器和語義檢測網絡組成。靜態(tài)特征和動態(tài)特征的堆疊結果作為該視頻的整體特征,語義檢測網絡得到每個視頻語義屬性的概率大小。解碼器則利用編碼器得到的整體特征和語義進行解碼,得到每個視頻的對應描述。提出方法的關鍵在于視覺特征引導融合以及循環(huán)dropout的引入。

        圖1 模型整體框架Fig.1 Overall framework of model

        視頻描述模型第t時間步的輸出可以表示為mt=f(s,v,xt,ht-1,ct-1;θ),其中s、v、xt分別表示語義特征、視頻特征、t時間步的輸入,ht-1、ct-1、θ則表示t-1時間步傳下來的隱藏單元、記憶單元和模型參數。

        2.2 視覺特征和語義特征提取

        編碼器由2D卷積網絡、3D卷積網絡和語義檢測網絡組成,其中2D卷積網絡用于從視頻中提取靜態(tài)特征ri∈RDr,3D卷積網絡用于從視頻提取動態(tài)特征ei∈RDv。將二者堆疊后的結果vi作為該視頻的整體特征,vi∈

        對于語義檢測,和文獻[10]一樣,人工的從數據集的訓練集和驗證集中選擇出現頻次較高的K個有實際意義的詞作為語義詞,包含名詞、動詞、形容詞等,不包含“a”“the”等停用詞。將語義檢測任務視為多標簽分類任務,輸入是視頻的整體特征vi,輸出是K維的語義向量si,每個維度上的值代表對應位置上的語義詞是該視頻屬性的概率值,每個值在[0,1]之間。為了訓練語義檢測網絡,需要先給每個視頻打上真實的語義標簽,作為語義訓練網絡的真實結果,引導網絡生成和其接近的語義信息。具體如下:給每個視頻生成一個K維的零向量,遍歷該視頻的所有標注,如果某個語義詞出現在標注中,那么該語義詞的對應位置元素置為1,否則還是0,最終結果作為該視頻的真實語義標簽,即公式(1)中的s?i。si是第i個視頻的語義特征,si=σ(f(vi))∈(0,1)K,其中f(·)是多層前饋神經網絡,σ(·)是常見的sigmoid激活函數,它們和公式描述的損失函數共同組成了語義檢測網絡。

        2.3 視覺特征引導融合

        解碼時會有視頻特征v,語義特征s,前一個時間步t-1時刻傳下來的隱狀態(tài)ht-1,以及當前時間步t時刻的輸入xt等數據,因為希望語義信息能夠參與到解碼過程中來,首先將語義信息s和隱狀態(tài)ht-1進行融合,如公式(2)所示:

        由于之前的模型在解碼時使用視頻特征只是在第一個時間步傳入或者在后續(xù)時間步與輸入進行簡單的相加,導致視覺特征和文本特征的交互不足,致使在生成的描述中出現錯誤詞匯的情況。針對該問題,設計了一種視覺特征引導融合的方法,使得每個時間步的解碼過程都有視覺信息參與,并且和該時間步的輸入,也就是文本特征深度交互產生更有指導價值的特征,為解碼器產生詞匯提供更多的參考信息,從而生成更準確的描述。

        第一個時間步的輸入是轉換后的視頻特征,維度和詞向量相同,即x1=Wv,而后續(xù)時間步的輸入xt(t>1)則是該視頻對應標注的詞向量。視頻特征本身作為視頻的視覺表示,包含了視頻的視覺高層語義,而對應標注的文本特征則從另一個角度展現了視頻的內容語義。它們之間的交互會增強原有特征的表達能力,這是交互方案的設計出發(fā)點,本著簡單有效的設計原則,設計的交互機制如公式(3)所示:

        即在第一個時間步,由于輸入的是視頻特征,只需要將其和語義信息s進行融合,得到語義相關的輸入x?z,t,但之后時間步的輸入是詞向量信息,缺少視覺信息的引導,該方案可以將視頻特征融合到每個時間步中,并與文本特征進行交互。其中,x1表示視覺特征,xt表示描述詞的詞向量,二者具有相同的維度,在交互機制中采用對應位置元素乘積融合的方式使它們之間產生深層交互,一是因為方法簡單,二是因為乘法融合可以使得突出特征更加突出,更好地發(fā)揮主流價值作用。假設特征元素數值在[0,1]范圍上,二者在某個對應位置j元素分別為x1j=0.8,xtj=0.8,在另一個位置k元素分別為x1k=0.2,xtk=0.2,可見j位置上的特征相比k位置有更高的響應值,融合后的結果也應該符合該規(guī)則。從上面的例子可知,j和k位置上的特征乘積融合后的結果分別是0.64和0.04,加和融合后的結果是1.6和0.4,前者有16倍差距,后者僅有4倍差距??梢娤啾燃雍腿诤希朔e融合可以使得原本高響應值位置上的特征相比低響應值位置上的特征更加突出,從而使得高響應值位置上的特征更好發(fā)揮作用,并且抑制原本低響應值位置上的特征的影響。上式中的z的范圍,也就是c、i、f、o分別代表記憶單元、輸入門、遺忘門、輸出門。解碼器采用SCN模型[10],其是在LSTM的基礎上整合進了語義信息,其在計算時間步t時的輸入門it、遺忘門ft和輸出門ot的方式和LSTM相似,如公式(4)至公式(7)所示:

        2.4 循環(huán)dropout的過擬合緩解

        由于解碼器網絡參數較多,而訓練數據相對較少,所以存在過擬合情況,對此引入了循環(huán)dropout[18]的方法來緩解這一情況,如圖2所示,其中s表示語義信息。

        圖2 引入了循環(huán)dropout的SCN Fig.2 SCN with recurrent dropout

        循環(huán)dropout是一種針對RNN及其變形的dropout方法,在執(zhí)行過程中,dropout只應用于更新記憶狀態(tài)的部分,也就是當前時間步的輸入c?t,如公式(8)所示。該方法不損害記憶單元,因為沒有對記憶單元本身做dropout,而是對其某一步的組成部分做dropout,控制其對當前記憶單元更新的貢獻程度,使一些元素不再對記憶單元有貢獻,但不會刪除原來已有的記憶單元的元素。mt是dropout掩碼,滿足伯努利分布,p是丟棄率,表示輸入元素中有多大概率被丟棄,是一個超參數。

        2.5 損失函數

        損失函數遵循基模型[20]中的設置,如公式(10)所示:

        其中,bs是批次大小,Li-1是描述長度,β≥0是超參數用于平衡句子長度和準確性,當其等于0時,對應的Loss就變成了該領域最常規(guī)的損失函數。訓練過程就是尋找θ的最優(yōu)解,如公式(11)所示:

        3 實驗結果與分析

        3.1 數據集及參數設置

        3.1.1 數據集

        Msvd(Microsoft video description corpus)[2]包 含1 970個視頻,其中1 200個視頻用于訓練,100個視頻用于驗證,剩余的670個用于測試。對訓練集和驗證集的標注分詞并去掉低頻詞后得到12 952個詞匯,其余的詞用表示,并且增加符號表示句子結尾。

        Msrvtt(MSR-Video to Text)[21]是一個相對大的數據集,共有10 000個視頻,每個視頻有20條人工標注。6 513個視頻用于訓練,497個用于驗證,剩余的2 970個用于測試。進行同樣的分詞和過濾操作,得到13 794個單詞,其余的用于表示,同樣也增加符號表示句子結尾。

        3.1.2 參數設置

        對兩個數據集采用相同的實驗參數配置,具體為:隱狀態(tài)維度均為512,模型采用Adam優(yōu)化方法,初始學習率均為0.000 4,采用學習率指數衰減的方式,每10周期執(zhí)行一次衰減,衰減率為0.316,訓練批次大小均為64,生成描述的最大長度設置為20。numpy和pytorch的隨機種子固定為34。

        3.2 方法實現

        3.2.1 視覺特征提取

        對于靜態(tài)特征,先對每個視頻每秒鐘切割出8幀,并從中均勻得到32幀,送入卷積神經網絡中,這里使用ResNeSt網絡[22],選取其均值池化層輸出的2 048維結果作為每一幀的特征表示,對32幀的卷積特征進行全局均值池化操作,得到1×2 048維的靜態(tài)特征。

        對于動態(tài)特征,采用V4D模型[23],該模型結合3D網絡在短時序運動信息抽取和TSN中的稀疏采樣技術在長時建模的優(yōu)勢,可以對視頻進行整體建模,得到視頻級的特征表示。具體為從每個視頻中切割出10個片段,每個片段有8幀,對每個片段進行片段級的3D建模,并對各個片段之間采用殘差連接達到整體建模的目的。對最終的結果也采用全局均值池化的操作,得到1×2 048維的動態(tài)特征。

        3.2.2 語義特征和詞向量提取

        對于語義特征,先從訓練集中選擇出現頻次較高的300個詞,按照1.2節(jié)中的語義檢測部分獲取每個視頻的真實語義標簽,將靜態(tài)特征和動態(tài)特征堆疊后的結果作為該視頻的整體特征,送入2.2節(jié)描述語義檢測網絡中,語義檢測網絡采用三層前饋神經網絡,每個批次大小為64。

        對篩選出的詞匯使用glove工具獲取其對應的詞向量,每個詞向量維度為300。

        3.2.3模型訓練

        由于傳統(tǒng)的“teacher forcing”訓練方法存在“曝光偏差”的問題,即在訓練階段輸入真實詞的詞向量,而在測試階段則是輸入上一個時間步產生的詞的詞向量,這種輸入差異可能會造成錯誤累計。針對這種情況,采用了“scheduled sampling”[24]來緩解這種情況。

        在訓練階段的解碼過程中以prob的概率選擇上一個時間步的輸出詞作為當前輸入,因為一開始生成詞匯時,需要真實詞匯的指引,隨著時間步的增多,模型已經學到了的上下文知識,此時就可以將上一個時間步的輸出作為當前的輸入,所以prob是隨著訓練周期的增加而增大。每周期的具體如公式(12)所示:

        其中,prob是采樣率,開始時為0,epoch表示周期,從0開始,ratio為采樣率增加比率,具體設置為0.008。該操作表示每個周期的采樣率在上個周期的基礎上增加周期數和比率數乘積值。每個時間步prob會和均勻分布的隨機值做比較,如果大于隨機值,則采用上一個時間步的輸出作為輸入,否則還是采用正常順序的輸入。

        3.3 消融實驗結果分析

        基模型來自文獻[20],評價指標來自機器翻譯和圖像描述領域,分別是BLEU-4[25]、ROUGE[26]、METEOR[27]、CIDEr[28],在表中分別簡寫為B4、R、M、C,它們使用不同方法評價模型產生的描述和人工標注之間的相似性,每個指標的分數越高表示二者之間越相似。在表1、表2的消融實驗中,證明了提出的循環(huán)dropout和視覺特征引導融合方法的有效性,其中“Baseline”對應基模型文章中的實驗結果,但在復現時和其有一定的差距,復現的結果對應表1、表2中“Baseline*”。本文模型使用了新的特征,并基于新特征訓練語義檢測網絡得到了新語義,其實驗結果對應表1、表2中的“MyBaseline”,本文提出的方法均是在該實驗的基礎上的。首先驗證循環(huán)dropout的有效性,如表1、2中的“MyBaseline+R(d)”所示,“R”代表循環(huán)dropout,括號里的d代表丟棄率,即輸入元素有多大概率被丟棄。丟棄率本身是一個超參數,當其值越接近0時表示數據被丟棄的概率越低,無法發(fā)揮作用的數據越少,此時不能發(fā)揮緩解過擬合的效果或者效果不明顯。當丟棄率值越接近1時表示被丟棄的概率越高,無法發(fā)揮作用的數據越多,此時dropout已經不能發(fā)揮出緩解過擬合的功能,還會導致模型性能嚴重下降。所以在實驗中需要進行丟棄率參數嘗試,尋找接近最優(yōu)解的丟棄率參數。由實驗結果可知,當d=0.4時,循環(huán)dropout在msvd數據集上最有效,當d=0.5時,該方法在msrvtt數據集上相對最有效?!癕yBaseline+F(X)”對比了三種視覺特征引導融合方法,“F”代表融合操作,X對應的“S”“C”“M”分別表示加法引導融合、堆疊引導融合以及乘法引導融合。如2.3節(jié)所述,乘法融合可以使得原本高響應值的特征在融合后更好發(fā)揮作用,并且抑制低響應值特征的影響。這可以看做是一種特殊的“注意力機制”,因為其作用和“注意力機制”類似,都是使得原本高權重的特征在融合后仍然具有高權重,在后續(xù)流程中發(fā)揮主流價值。加法融合采用特征值相加的方式,這樣的做法會使得原來不明顯的特征也變得相對明顯,增加了噪聲。堆疊融合介于二者之間,因為既沒有突出顯著特征,也沒有增加噪聲。從表中的實驗結果也可以看出,兩個數據集采用乘法引導融合時效果最好,堆疊融合效果很不明顯,加法融合反而會降低性能。在乘法融合的基礎上增加循環(huán)dropout操作,由于丟棄率是超參數,所以采用不同的丟棄率比較實驗結果。從表1、2中可知,當采用乘法引導融合策略后,對于msvd數據集,丟棄率為0.45時效果最好,在4個評價指標上綜合增長了17.2個百分點,對于msrvtt數據集,丟棄率為0.3時效果最好,在4個評價指標上綜合增長了2.1個百分點。

        表1 在msvd數據集上的消融實驗Table 1 Ablation expriment on msvd dataset 單位:%

        表2 方法在msrvtt數據集上的消融實驗Table 2 Ablation experiment on msrvtt dataset 單位:%

        3.4 對比實驗結果分析

        如表3和表4所示,在msvd和msrvtt數據集上和其他模型對比了實驗結果。這些模型選取自近年來的相關文章,比較全面展示了視頻描述領域的研究突破和最新成果。由于其中很多模型沒有開源,所以數據來自文章本身。ECO[29]是高效的行為識別模型,其對視頻進行整體建模,建模結果作為視頻動態(tài)特征。在Baseline模型中使用ECO作為動態(tài)特征提取器,Sibnet[30]使用兩個分支捕獲視頻的內容特征和語義特征,HACA[13]利用視頻中的音頻信息來輔助描述生成,STG-KD[31]利用時空圖來捕捉視頻中的交互信息,利用知識蒸餾處理噪聲特征。ORG-TRL[32]設計了一種新的訓練方法,將外部語言模型的知識集成到當前的描述模型中,緩解人工標注中存在的長尾分布問題。對于表中本文所提出方法的結果,表3對應的msvd結果取自融合后使用丟棄概率為0.45的循環(huán)dropout,表4對應的msrvtt的結果取自融合后使用丟棄概率為0.3的循環(huán)dropout,從表中可以看出,相比其他近年來的視頻描述模型,本文提出的方法在4個指標上均超過了它們,并且達到了目前最好的結果,證明了本文所提出的方法的先進性。

        表3 和其他模型在msvd數據集上的表現對比Table 3 Comparison with other models on msvd dataset 單位:%

        表4 和其他模型在msrvtt數據集上的表現對比Table 4 Comparison with other models on msrvtt dataset 單位:%

        圖3和圖4分別展示了加入視覺特征引導融合與循環(huán)dropout方法的模型和MyBaseline模型在msvd和msrvtt兩個數據集的效果對比,每個視頻選擇三個真實標注(ground truth,GT),從圖中可見設計的方法提升了描述準確率,真實地體現出方法的有效性。

        圖3 在msvd數據集上可視化對比Fig.3 Visual comparison on msvd dataset

        圖4 在msrvtt數據集上可視化對比Fig.4 Visual comparison on msrvtt dataset

        4 結束語

        視頻描述是視覺與語言交叉模態(tài)的研究,本文針對現有模型解碼階段視覺特征和文本特征交互不足而導致描述不準確的問題,提出了一種視覺特征引導融合的方法。通過在每個時間步,視覺特征和文本特征的深層交互,產生更有指導價值的融合特征,不僅為解碼過程提供文本信息,還提供了視覺信息加以輔助,使得模型在解碼過程中可以獲得更多的參考信息,進而提升描述準確性。同時,針對解碼器存在的過擬合情況,使用循環(huán)dropout的方法加以緩解,進一步提升模型性能。在兩個常用數據集上的消融和對比實驗證明了方法的有效性和先進性。

        猜你喜歡
        解碼器語義特征
        科學解碼器(一)
        科學解碼器(二)
        科學解碼器(三)
        語言與語義
        如何表達“特征”
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認知闡釋
        現代語文(2016年21期)2016-05-25 13:13:44
        認知范疇模糊與語義模糊
        国产av在线观看一区二区三区| 国产丝袜在线精品丝袜不卡| 国产精品无码不卡在线播放| 久久精品国产亚洲av豆腐| 人人妻人人澡人人爽人人精品浪潮| 国产成人无码免费视频在线| 特黄aa级毛片免费视频播放| 风韵丰满妇啪啪区老老熟女杏吧 | 日韩乱码精品中文字幕不卡| 精品亚洲天堂一区二区三区| 粉嫩被粗大进进出出视频| 欧美日韩国产色综合一二三四| 黄色三级视频中文字幕| 亚洲女同恋av中文一区二区| 丰满少妇被粗大的猛烈进出视频 | 国产一区二区精品久久岳| 亚洲一区二区三区成人网站| 久久精品成人免费观看97| 国产伦理一区二区久久精品 | 国产午夜亚洲精品理论片不卡| 中文天堂一区二区三区| 青青草 视频在线观看| a级大胆欧美人体大胆666| 亚洲午夜精品久久久久久抢| 亚洲五月天中文字幕第一页| 亚洲av日韩精品久久久久久a| 国产又色又爽无遮挡免费| 2021久久精品国产99国产 | 不打码在线观看一区二区三区视频| 国产在线观看午夜视频| 国产精品视频免费播放| 欧美成人久久久免费播放| 中文字幕人妻乱码在线| 又黄又爽又色视频| 欧美性大战久久久久久久| AV无码人妻一区二区三区牛牛| 日本视频一区二区三区在线观看 | 日韩av在线播放人妻| 国产在视频线精品视频| 亚欧免费视频一区二区三区| 少妇下面好紧好多水真爽|