亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模態(tài)特征融合的視頻記憶度預(yù)測

        2022-07-21 09:46:46常詩穎
        計算機工程與應(yīng)用 2022年14期
        關(guān)鍵詞:語義模態(tài)深度

        常詩穎,胡 燕

        武漢理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,武漢 430070

        隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,實時流媒體和用戶生成的視頻遍布互聯(lián)網(wǎng),研究發(fā)現(xiàn)人們對觀看的這些短視頻的記憶程度并不一樣,一些視頻可以記住很長時間,而另一些視頻轉(zhuǎn)瞬即忘[1]。研究表明記憶度是圖像的固有屬性[2],讓人印象深刻的視頻內(nèi)容有著廣闊的應(yīng)用前景。商家投放高記憶度的視頻廣告可以幫助公司推銷他們的產(chǎn)品,使用電影中令人難忘的精彩片段制作宣傳片,可以達(dá)到更好的宣傳效果。理解影響視頻記憶度的因素并有效利用,對攝影師、廣告商、視頻網(wǎng)站、電影和多媒體制作人都有深遠(yuǎn)影響。

        圖像的記憶度預(yù)測問題廣受關(guān)注,Isola等人[2-3]提出了一項圖像記憶度的工作,這是圖像乃至視頻在記憶度方面的開創(chuàng)之作。首先構(gòu)建了一個記憶游戲?qū)嶒灒糜跍y量圖像記憶度的真實值(ground truth)。實驗中受試者被要求觀看照片并檢測重復(fù)照片的演示,圖像記憶度被定義為測試者對重復(fù)圖片的正確檢測率,作者建立了一個從低級視覺特征預(yù)測圖像記憶度的計算模型,使其從視覺特征映射到記憶分?jǐn)?shù)。

        有關(guān)視頻記憶度(video memorability,VM)的研究是近幾年才開始的。受文獻(xiàn)[3]的啟發(fā),Han等人[4]建立了一個類似的方法來測量VM,并提出了一種將視聽和功能磁共振成像(fMRI)衍生特征相結(jié)合的方法,在記憶視頻時傳遞部分大腦活動。但該方法跨度較長、實驗方法昂貴且費時較多,不適合推廣。2017年Shekhar等人[5]研究了影響視頻記憶度的幾種特征,如C3D時空特征[6]、從視頻標(biāo)題中提取的語義特征、顯著性特征和顏色特征。但該研究進行人工實驗時使用回答問題而不是經(jīng)典的視覺識別任務(wù)來測量視頻記憶度,視頻收集的可記憶度標(biāo)注可能不僅反映了視頻記憶度的差異,而且反映了問題之間復(fù)雜性的差異。2018年Cohendet等人[7]介紹了一種新的方法來度量記憶在一個重要的保留期(即記憶后的幾周到幾年)后的表現(xiàn)。但注釋者沒有通過觀看視頻的學(xué)習(xí)任務(wù),而是要求填寫一份調(diào)查問卷,用來收集參與者之前對好萊塢電影的記憶。然而一些參與者有可能在任務(wù)之前看到過其中的一些內(nèi)容(比如好萊塢比較出名的電影片段),導(dǎo)致一些標(biāo)注偏向于著名的視頻內(nèi)容,問卷的答案完全基于主觀判斷,使得對記憶表現(xiàn)的測量并不完全客觀。2019年Cohendet等人[8]為了解決視頻記憶度預(yù)測數(shù)據(jù)集缺乏的問題,引入了一個由10 000個具有記憶分?jǐn)?shù)標(biāo)注的視頻組成的大規(guī)模公開數(shù)據(jù)集(VideoMem),并提出了一個基于深層神經(jīng)網(wǎng)絡(luò)的視覺語義特征的預(yù)測模型,在短期記憶度預(yù)測達(dá)到了0.494(長期記憶度預(yù)測:0.256)的Spearman相關(guān)性。該研究實驗體現(xiàn)了視頻標(biāo)題中提取的語義特征取得的預(yù)測效果,沒有探索對記憶度有影響的特征融合方案,導(dǎo)致實驗效果不高。

        很多研究者從不同的角度來探討這個領(lǐng)域,一些工作分析了記憶度和視覺概念之間的相關(guān)性,如顯著性[5]、顏色[4-5]、審美[2,9]、情緒[7]特征等。也有一些工作關(guān)注了視頻的音頻[4,7]、C3D時空特征[5,7-8]、語義特征如視頻標(biāo)題[8-10]、摘要[5]等。從3D卷積神經(jīng)網(wǎng)絡(luò)(3D ConvNets)模型[6]中提取的C3D時空特征在記憶度預(yù)測任務(wù)中比一般的視覺特征更有效,它更關(guān)注于視頻空間內(nèi)容的理解。視頻的語義特征在單模態(tài)下預(yù)測效果突出[8-10]??赡苁且曨l對應(yīng)的描述性標(biāo)題具有一定的概括性,能夠從全局的角度總結(jié)視頻的內(nèi)容。文獻(xiàn)[11]的實驗給出了與視頻記憶度成正相關(guān)和負(fù)相關(guān)的單詞列表,目前還沒有對該單詞列表展開的研究。文獻(xiàn)[11-13]使用預(yù)訓(xùn)練的深層卷積神經(jīng)網(wǎng)絡(luò)提取的視覺特征優(yōu)于其他所有特征的預(yù)測效果,可以更好理解視頻中令人難忘的內(nèi)容。文獻(xiàn)[14]探索了深度特征對圖像記憶度的影響,實驗證明該特征對圖像記憶度的預(yù)測有明顯作用。目前為止還沒有相關(guān)研究針對視頻的深度特征進行視頻記憶度的預(yù)測。受其啟發(fā),本文將探索深度特征對視頻記憶度的影響,修改影響視頻記憶度的單詞的語義特征權(quán)重,并與C3D時空特征進行多模態(tài)融合。主要貢獻(xiàn)如下:

        (1)利用文獻(xiàn)[15]提出的深度估計模型提取視頻的深度特征圖,使用預(yù)訓(xùn)練的深層卷積神經(jīng)網(wǎng)絡(luò)提取深度特征,探索其對視頻記憶度的影響。

        (2)采用TF-IDF算法提取視頻標(biāo)題的語義特征,對文獻(xiàn)[11]列出的對記憶度有影響的單詞賦予不同的特征權(quán)重。

        (3)將視頻的深度特征、語義特征、C3D時空特征進行后期融合,提出了一個融合多模態(tài)的視頻記憶度預(yù)測模型,在大型公開的數(shù)據(jù)集(VideoMem)上進行實驗,證明了模型的有效性。

        1 視頻記憶度融合模型

        圖1 模型總體結(jié)構(gòu)Fig.1 Overall structure of model

        視頻記憶度融合模型的總體結(jié)構(gòu)如圖1所示,將模型整體分為三部分:預(yù)處理、特征提取、回歸預(yù)測與多模態(tài)融合。首先將媒體文件進行分幀,提取深度特征、標(biāo)題所含的語義特征以及視頻內(nèi)容的C3D時空特征,將視頻提取到的圖片與深度圖一起輸入預(yù)訓(xùn)練的ResNet152網(wǎng)絡(luò)[16]中提取深度特征以提高預(yù)測效果。受文獻(xiàn)[11]啟發(fā),在提取語義特征時添加相關(guān)單詞的權(quán)重來增強模型預(yù)測能力。融合階段使用晚融合方法通過網(wǎng)格搜索獲取最佳特征權(quán)重。

        1.1 視頻記憶度的深度特征

        圖像深度估計在計算機視覺領(lǐng)域起著重要作用。如視覺顯著性[17]、圖像去噪[18]和圖像質(zhì)量評估[19]等。場景中各點相對于攝像機的距離可以用深度圖(depth map)來表示,即深度圖中的每一個像素值表示場景中某一點與攝像機之間的距離。深度圖中像素值越低,表示像素離攝像機越近,像素值越高,表示像素離攝像機越遠(yuǎn)[20]。文獻(xiàn)[14]探索了圖像深度與圖像記憶度之間的關(guān)系,發(fā)現(xiàn)圖像中心包含較近物體的圖像比在圖像中心包含較遠(yuǎn)物體的圖像更令人難忘。該實驗表明,深度特征對圖像記憶度的預(yù)測效果達(dá)到了0.63的圖2視頻圖像與其深度圖Spearman相關(guān)性,接近人類真實測量值(0.68),證明了該特征對圖像記憶度預(yù)測有顯著作用。用于預(yù)測圖像記憶度的數(shù)據(jù)集[21]沒有圖像深度真實值,他們使用文獻(xiàn)[15]中提出的深度估計模型來獲得深度特征圖。本文使用的VideoMem數(shù)據(jù)集中也不包含深度特征的真實值,因此也使用該深度估計模型[15]來獲取該數(shù)據(jù)集的深度信息。圖2顯示了原始視頻中切分的某一幀圖像和提取的對應(yīng)深度圖。

        VideoMem數(shù)據(jù)集中的每個視頻都有其對應(yīng)的短期和長期記憶度真實值標(biāo)簽,為了了解深度圖和視頻記憶度之間的關(guān)系,本文將數(shù)據(jù)集中每個視頻的記憶度真實值按照短期記憶度由高到低進行排序,選取了幾個具有代表性的視頻圖像,給出了一組具有高記憶度和低記憶度視頻圖像與其深度圖的對比,如圖3所示。其中(a)顯示了高記憶度視頻圖像與對應(yīng)的深度估計圖,(b)顯示了低記憶度視頻圖像與對應(yīng)的深度估計圖??梢钥闯?,深度圖中心位置靠近相機的物體更容易讓人印象深刻,而中心位置遠(yuǎn)離相機的物體的視頻讓人易于忘記。

        為了探索深度特征對視頻記憶度的影響,本文使用了預(yù)先訓(xùn)練的ResNset152網(wǎng)絡(luò)[16]來提取深度特征,ResNset152是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)中的一種殘差網(wǎng)絡(luò)(residual network,ResNet),152代表了網(wǎng)絡(luò)的深度。使用殘差網(wǎng)絡(luò)可以有效地解決網(wǎng)絡(luò)加深后性能退化的問題。將視頻原始圖像與深度特征圖一起輸入ResNset152網(wǎng)絡(luò)來提取深度特征和視覺特征,然后進行回歸預(yù)測可以達(dá)到更高的實驗效果。實驗將在后續(xù)章節(jié)詳細(xì)介紹。

        圖3 高記憶度和低記憶度的視頻圖像與深度圖Fig.3 High and low memorability video images and depth maps

        1.2 視頻記憶度的語義特征

        視頻的語義信息在記憶度預(yù)測方面有重要的作用,VideoMem[22]數(shù)據(jù)集中提供了每個視頻的標(biāo)題,該標(biāo)題信息是對視頻的一個概括性描述。研究發(fā)現(xiàn)與自然景觀有關(guān)的單詞與視頻記憶度呈負(fù)相關(guān),與人和人物動作相關(guān)的單詞與視頻記憶度呈正相關(guān)[11]。根據(jù)VideoMem數(shù)據(jù)集中的記憶度分?jǐn)?shù)真實值標(biāo)簽的排序,圖4列出了3個數(shù)據(jù)集的記憶度實驗中短期記憶度預(yù)測最令人難忘和最不令人難忘的視頻和對應(yīng)的記憶度真實值得分,可以看出記憶度得分最高的3個視頻中都出現(xiàn)了人物和人物相關(guān)動作,而記憶度得分最低的3個視頻中都是自然景觀。受其啟發(fā)在視頻的標(biāo)題中對記憶度預(yù)測有影響的詞語進行了深入研究。

        圖4 高記憶度得分和低記憶度得分的視頻對比Fig.4 Comparison between high memorability score and low memorability score videos

        自然語言處理領(lǐng)域中TF-IDF算法(term frequencyinverse document frequency)表示詞頻-逆向文檔頻率,TF是詞頻(term frequency),IDF是逆文檔頻率(inverse document frequency)。該算法用以評估字詞對于一個文件集或一個語料庫中其中一份文檔的重要程度,其定義如下:

        表示詞匯ti的TF-IDF權(quán)重值。其中tfi,j表示詞匯ti在文檔dj中的頻率,定義如下:

        ni,j表示詞匯ti在文檔dj中出現(xiàn)的次數(shù),表示文檔dj中所有詞匯中出現(xiàn)的次數(shù)。

        i dfi表示逆文檔頻率,定義如下:

        |D|是語料庫中的文件的總數(shù),|{j:ti∈dj}+1|表示包含詞匯ti的文件數(shù)目。

        TF-IDF算法的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率較高,而在其他文章中很少出現(xiàn),則認(rèn)為該詞或者短語具有很好的類別區(qū)分能力[23]。TF-IDF算法對比較少出現(xiàn)的單詞給予重視,經(jīng)常出現(xiàn)在標(biāo)題中的詞的權(quán)重減少。較少出現(xiàn)在標(biāo)題中的單詞被賦予更高的權(quán)重。這樣可以確保記憶度分?jǐn)?shù)取決于一個單詞而不是整個句子。這樣在測試集中出現(xiàn)了罕見的單詞時,該模型可以認(rèn)識到它們的重要性并能更好地預(yù)測得分。該算法適合當(dāng)前視頻語義信息的特征提取。本文對特定單詞添加不同權(quán)重并使用支持向量回歸算法(support vector regression,SVR)構(gòu)建模型,取得了優(yōu)于其他基于語義信息預(yù)測視頻記憶度的結(jié)果,實驗將在后續(xù)章節(jié)詳細(xì)介紹。

        1.3 視頻記憶度的C3D時空特征

        VideoMem數(shù)據(jù)集提供方[22]為了方便研究者進行視頻記憶度預(yù)測方向的研究,提供了一些預(yù)先計算的特征,如梯度方向直方圖(histogram of oriented gradients,HoG)、局部二值模式(local binary pattern,LBP)特征、美學(xué)視覺特征(aesthetic visual features,AVF)、顏色特征、C3D時空特征,研究者可以直接使用這些提取好的特征進行不同模型的預(yù)測或其他方法的探索。C3D時空特征是從3D卷積神經(jīng)網(wǎng)絡(luò)模型[6]中提取的,這是一種用于通用視頻分析的三維卷積網(wǎng)絡(luò)。C3D時空特征作為視頻的一種動態(tài)特征,可以對視頻中的時空信息進行編碼,用于視頻內(nèi)容的分析。VideoMem數(shù)據(jù)集提供了卷積神經(jīng)網(wǎng)絡(luò)C3D模型最后一層的輸出,可以將其用于視頻記憶度的預(yù)測。文獻(xiàn)[7-8,11-12]使用了C3D提取的特征和其他模態(tài)的特征單獨構(gòu)建預(yù)測模型。C3D特征對視頻記憶度預(yù)測比數(shù)據(jù)集提供的其他預(yù)先計算的特征有更好的預(yù)測效果。受其啟發(fā)本文構(gòu)建不同的回歸預(yù)測模型,嘗試使用VideoMem數(shù)據(jù)集提供的預(yù)先計算的C3D時空特征進行視頻記憶度的預(yù)測,探索視頻令人難忘的時空因素。

        1.4 融合方法

        在融合方法上嘗試了早融合和晚融合兩種融合方法。其中早期融合是指對每種模態(tài)提取的特征在分類或回歸操作前進行融合。在實驗結(jié)果中晚融合模型的預(yù)測效果優(yōu)于早融合,原因可能是由于不同的特征有不同的特征空間和含義,直接合并產(chǎn)生了“語義鴻溝”,導(dǎo)致了預(yù)測性能下降。如何消除多模態(tài)的“語義鴻溝”,考慮多模態(tài)間的關(guān)系,仍然是一個需要解決的技術(shù)問題。因此選擇晚融合作為特征融合策略。

        晚融合又稱后期融合,第一步先提取不同模態(tài)的特征描述,然后將每個模態(tài)的特征用來訓(xùn)練各自獨立的回歸模型,來自不同模型的預(yù)測分?jǐn)?shù)被組合起來產(chǎn)生最終的分?jǐn)?shù)。晚期融合方案將學(xué)習(xí)到的單模態(tài)分?jǐn)?shù)合并成多模態(tài)表示。晚融合模型結(jié)構(gòu)如圖5所示。晚融合著重考慮基于單個特征模型的預(yù)測效果。融合階段有許多方法來合并分?jǐn)?shù)。本文使用加權(quán)平均方法,假設(shè)深度特征的回歸模型預(yù)測得分為η1,語義特征的回歸模型預(yù)測得分為η2,C3D時空特征的回歸模型預(yù)測得分為η3,那么晚融合模型的最終得分為:

        其中,ω1、ω2、ω3分別是三種模型的權(quán)重,通過網(wǎng)格搜索算法獲得三者的值。

        圖5 晚融合模型示意圖Fig.5 Schematic diagram of late fusion model

        1.5 總體流程

        融合視頻深度特征、語義特征和C3D時空特征的計算模型總體流程如下:

        步驟1視頻預(yù)處理

        將訓(xùn)練數(shù)據(jù)集中的每個視頻進行分幀,一個視頻被平均分為4幀圖像。

        步驟2提取深度圖

        將提取的4張圖像輸入深度估計模型[15],每個視頻提取到4幀深度圖。

        步驟3提取深度特征

        將上述步驟1和步驟2提取的4張原始圖像和4張深度圖一起輸入預(yù)訓(xùn)練的ResNet152網(wǎng)絡(luò),提取深度特征。

        步驟4深度特征預(yù)測模型

        構(gòu)建基于深度特征的回歸模型,通過網(wǎng)格搜索方法選擇最佳參數(shù)。

        步驟5視頻標(biāo)題預(yù)處理

        對訓(xùn)練數(shù)據(jù)集中的每個視頻對應(yīng)的標(biāo)題進行預(yù)處理,去除特殊字符,所有英文字母都變成小寫,去除停用詞,留下有意義的單詞,然后進行詞干處理。

        步驟6添加權(quán)重

        給處理后的文本數(shù)據(jù)中對視頻記憶度有影響的單詞添加不同權(quán)重,計算詞頻和詞頻逆文檔頻率。

        步驟7語義特征預(yù)測模型

        構(gòu)建基于語義特征的回歸模型,通過網(wǎng)格搜索方法選擇最佳參數(shù)。

        步驟8提取C3D時空特征

        提取預(yù)先計算的C3D時空特征,得到101維度的特征向量。

        步驟9C3D時空特征預(yù)測模型

        構(gòu)建基于C3D時空特征的回歸模型,通過網(wǎng)格搜索方法選擇最佳參數(shù)。

        步驟10多模態(tài)后期融合

        將每個單模態(tài)特征進行后期融合,通過加權(quán)平均方法開展實驗,使用網(wǎng)格搜索選擇最優(yōu)融合權(quán)重。

        步驟11評價指標(biāo)計算

        將融合模型預(yù)測的視頻記憶度得分與真實值做Spearman相關(guān)系數(shù)的計算,得出最終結(jié)果。

        2 實驗

        2.1 實驗環(huán)境

        本文實驗硬件環(huán)境與配置為:Ubuntu 18.04操作系統(tǒng),借助GeForceGTX 2080 GPU進行加速處理,使用Keras深度學(xué)習(xí)框架。

        2.2 數(shù)據(jù)集與預(yù)處理

        最近視頻記憶度預(yù)測得到研究者的廣泛關(guān)注,數(shù)據(jù)集也在不斷發(fā)展更新,在近幾年的研究中也有相關(guān)作者構(gòu)建的帶標(biāo)注的數(shù)據(jù)集,但由于數(shù)據(jù)集太小、構(gòu)建的數(shù)據(jù)集選取有一定的主觀性等原因,沒有采用之前的數(shù)據(jù)集進行實驗,而是采用MediaEval 2019 Media Memorability Prediction Task中提供的大型公開數(shù)據(jù)集VideoMem。這是目前最大的帶視頻記憶度真實值標(biāo)簽的數(shù)據(jù)集,該數(shù)據(jù)集由10 000個7 s的無聲視頻組成。這些視頻是從專業(yè)人士制作視頻時使用的原始視頻中提取出來的,內(nèi)容和場景豐富,包含不同的場景類型。數(shù)據(jù)集包含兩種標(biāo)簽,即長期記憶標(biāo)簽和短期記憶標(biāo)簽,分別對應(yīng)于兩個子任務(wù):短期記憶度任務(wù)和長期記憶度任務(wù),短期記憶度任務(wù)反映了觀看視頻幾分鐘后記住的可能性;長期記憶度任務(wù)反映了觀看后1到3天記住的可能性[24]。該數(shù)據(jù)集分為兩部分:8 000個開發(fā)集和2 000個測試集。其中8 000個開發(fā)集給出了對應(yīng)的記憶度真值的標(biāo)簽,而2 000個測試集并沒有提供測量的真實的記憶度值,數(shù)據(jù)集提供方考慮今后可能有更多其他用途。因此本文將8 000個視頻的開發(fā)數(shù)據(jù)集隨機劃分成7 000個訓(xùn)練集和1 000個測試集。

        預(yù)處理過程首先將視頻進行分幀,VideoMem數(shù)據(jù)集中的每個視頻均為7 s,為了防止背景干擾去除頭尾2幀數(shù)據(jù),每個視頻固定采樣4張圖片,然后利用這4張原始圖片輸入深度估計模型[15]來提取深度圖,將采樣后的圖像大小統(tǒng)一調(diào)整為224×224,并將提取到的深度圖與原始圖片一起輸入預(yù)訓(xùn)練的ResNet152網(wǎng)絡(luò)。文本信息是從視頻標(biāo)題中提取的,經(jīng)過刪除停用詞、合并同義詞等預(yù)處理后,選取具備代表性的關(guān)鍵詞(如名詞、動詞、數(shù)量詞、副詞和形容詞)作為語義特征。根據(jù)TF-IDF算法計算詞頻逆文檔頻率。受文獻(xiàn)[11]研究的啟發(fā),對出現(xiàn)該文獻(xiàn)中列出的單詞的每個視頻添加計算出的權(quán)重,并與基于TF-IDF算法提取到的語義特征進行連接操作最終得到5 089維的特征向量。表1列出了為這些單詞設(shè)置的權(quán)重值。C3D時空特征是描述視頻時空內(nèi)容的特征,在VideoMem數(shù)據(jù)集中提供了預(yù)先計算的特征,可以直接用來構(gòu)建預(yù)測模型。他們提供了卷積神經(jīng)網(wǎng)絡(luò)C3D模型最后一層的輸出,最終得到101維的特征向量。

        表1 影響視頻記憶度的單詞及其權(quán)重Table 1 Words and their weights that affect video memorability

        2.3 評價指標(biāo)

        本文采用廣泛使用的官方指標(biāo)來評價模型的預(yù)測效果:Spearman相關(guān)系數(shù)(Spearman’s rank correlation coefficient)。Spearman相關(guān)系數(shù)是預(yù)測視頻記憶度的常用指標(biāo)[22],對于樣本容量為n的樣本,n個原始數(shù)據(jù)被轉(zhuǎn)換成等級數(shù)據(jù),Spearman相關(guān)系數(shù)ρ為:

        它利用單調(diào)方程評價兩個統(tǒng)計變量的相關(guān)性。如果數(shù)據(jù)中沒有重復(fù)值,并且當(dāng)兩個變量完全單調(diào)相關(guān)時,Spearman相關(guān)系數(shù)則為+1或-1。使用Spearman等級相關(guān)系數(shù)作為預(yù)測視頻記憶度的評價指標(biāo),在不同的方法之間進行比較,通過考慮基本真實值和系統(tǒng)預(yù)測值之間的單調(diào)關(guān)系,可以對不同系統(tǒng)的輸出進行規(guī)范化,并允許測試集中不同視頻樣本的等級對系統(tǒng)進行評估。

        2.4 實驗設(shè)置

        視頻預(yù)處理后使用預(yù)訓(xùn)練的ResNet152網(wǎng)絡(luò)作為特征提取器來提取深度特征,ResNet152網(wǎng)絡(luò)是在ImageNet上進行預(yù)訓(xùn)練的,選擇平均池化操作,采用最后一個卷積層的輸出,每張圖片都是2 048維的特征表示,8張圖片連接后組成16 384維的特征向量。將4張原始圖片和4張深度圖一起輸入網(wǎng)絡(luò)的目的是利用深層的卷積神經(jīng)網(wǎng)絡(luò)提取圖片中蘊含的視覺信息,可以有效提高視頻記憶度的預(yù)測效果。視頻語義特征的提取中針對與視頻記憶度呈正相關(guān)和負(fù)相關(guān)的單詞的權(quán)重參考了文獻(xiàn)[11]中提供的研究實驗。

        視頻記憶度預(yù)測作為一項回歸任務(wù),多數(shù)研究利用回歸算法預(yù)測視頻記憶度分?jǐn)?shù)。由于高維度的特征可能存在多重共線性問題,因此在融合階段使用了SVR算法、隨機森林(random forest,RF)算法等基線回歸模型。通過實驗結(jié)果驗證,基于深度特征的預(yù)測模型使用了SVR算法,利用網(wǎng)格搜索算法,選擇懲罰系數(shù)C為0.1,核函數(shù)為RBF,不敏感間隔epsilon為0.05;基于語義特征的修改權(quán)重的預(yù)測模型也使用了SVR算法,利用網(wǎng)格搜索算法,選擇懲罰系數(shù)C為0.5,核函數(shù)為RBF,不敏感間隔epsilon為0.05;基于C3D時空特征的預(yù)測模型使用了RF算法,采用網(wǎng)格搜索選擇森林中樹的個數(shù)n_estimators為290。晚融合實驗中使用加權(quán)平均的方法進行融合處理,使用網(wǎng)格搜索實驗驗證,深度特征、語義特征、C3D時空特征權(quán)重分別在取0.6,0.35,0.05的值時,取得最佳預(yù)測效果。

        2.5 實驗結(jié)果與分析

        實驗環(huán)節(jié)分為6個部分。表2展示了4張深度圖(depth maps)、4張視頻原始圖片(original images)、深度圖加原始圖片(depth maps&original images)分別輸入預(yù)訓(xùn)練的ResNet152網(wǎng)絡(luò)中提取的特征進行視頻記憶度預(yù)測的消融實驗,可以看出深度特征預(yù)測效果在短期記憶度預(yù)測中達(dá)到了0.320的Spearman相關(guān)性(長期記憶度預(yù)測結(jié)果:0.140),說明了深度特征對于視頻的記憶度預(yù)測有積極作用。而視頻原始圖片提取的視覺特征的預(yù)測效果要比深度特征更好,達(dá)到了0.522的Spearman相關(guān)性,說明記憶度預(yù)測任務(wù)更關(guān)注于視覺信息,深層的ResNet網(wǎng)絡(luò)可以有效地學(xué)習(xí)到圖像中令人難忘的視覺信息。將原始圖片和深度圖一起進行特征提取可以提高實驗預(yù)測效果。

        表2 不同圖像輸入ResNet152網(wǎng)絡(luò)的消融實驗Table 2 Ablation experiment of different images input into the ResNet152 network

        表3列出了不同的研究中使用預(yù)訓(xùn)練的深層卷積神經(jīng)網(wǎng)絡(luò)提取的特征的預(yù)測結(jié)果。Gupta等人[11]從視頻中提取了第1幀、第56幀、第112幀圖片作為預(yù)訓(xùn)練的ResNet50網(wǎng)絡(luò)的輸入,每張圖片從網(wǎng)絡(luò)倒數(shù)第二層提取到2 048維的特征向量,Azcona等人[12]將視頻固定每秒分割一張圖片,得到8張圖像作為預(yù)訓(xùn)練的ResNet152網(wǎng)絡(luò)的輸入,每張圖片從最后一個卷積層提取到2 048維的特征向量,Leyva等人[13]提取視頻中間一幀圖片作為預(yù)訓(xùn)練的ResNet152網(wǎng)絡(luò)的輸入,從最后一個全連接層提取到1 000維的特征向量。本文的預(yù)測模型將數(shù)據(jù)集中的視頻固定每41幀提取一張圖片,每個視頻得到4張圖片,并與提取到的4張深度圖一起(original images&depth maps)作為預(yù)訓(xùn)練的ResNet152網(wǎng)絡(luò)的輸入,從最后一個卷積層提取特征,最終得到16 384維的特征向量??梢钥闯霰疚牡纳疃忍卣魈崛》椒梢赃M一步提高預(yù)測效果,表明深度特征可以幫助捕獲視頻中令人難忘的內(nèi)容。

        表3 ResNet網(wǎng)絡(luò)提取的特征的對比實驗Table 3 Comparative experiment of features extracted by ResNet network

        表4是基于TF-IDF算法添加權(quán)重的語義特征模型與其他基于語義特征模型的對比,Sun等人[9]采用了詞嵌入的方法提取語義特征和RNN的預(yù)測模型進行記憶度分?jǐn)?shù)預(yù)測,Gupta等人[11]使用了CountVectorizer提取語義特征的模型,王帥等人[24]使用ConceptNet[25]模型進行語義特征處理,文獻(xiàn)[26]使用了Word2Vec進行語義特征提取。本文基于TF-IDF算法添加權(quán)重后的特征提取方法在短期記憶度預(yù)測任務(wù)有更高的Spearman相關(guān)性。在長期記憶度預(yù)測中提升效果不明顯。有可能的原因是視頻中長期記憶度與自然景觀和與人相關(guān)的內(nèi)容的相關(guān)性不大。

        表4 基于語義特征的模型對比實驗Table 4 Model comparative experiment based on semantic features

        表5是在預(yù)測視頻記憶度分?jǐn)?shù)時三種特征選擇兩種不同的回歸模型的對比實驗。由表可知無論在長期記憶度預(yù)測任務(wù)還是短期記憶度預(yù)測任務(wù)中,深度特征和語義特征使用SVR回歸模型的預(yù)測效果都比RF回歸模型好,而C3D時空特征使用RF回歸模型較SVR回歸模型有更好的預(yù)測結(jié)果。因此在單模態(tài)視頻記憶度預(yù)測中分別使用其最佳的回歸模型進行實驗。

        表5 不同的回歸模型的對比實驗Table 5 Comparative experiment of different regression models

        表6是本文提出的不同的特征在單模態(tài)、雙模態(tài)和多模態(tài)下預(yù)測視頻記憶度分?jǐn)?shù)的消融實驗。單模態(tài)下預(yù)測效果最好的是深度特征,深層的ResNet網(wǎng)絡(luò)提取的深度特征包含了更多的細(xì)節(jié)信息,可以學(xué)習(xí)到圖像中令人難忘的視覺內(nèi)容。其次是語義特征,語義特征作為全局性描述視頻內(nèi)容的特征也發(fā)揮了很好的預(yù)測作用,相比之下C3D時空特征的預(yù)測效果不是很好,可能是由于數(shù)據(jù)集中的很多視頻都屬于某一個特定場景,視頻中的動態(tài)因素較少,導(dǎo)致捕獲的3D時空信息不足以達(dá)到更好的預(yù)測結(jié)果。同時可以看到無論哪兩種特征進行雙模態(tài)特征融合,視頻記憶度預(yù)測效果都沒有3種特征融合后的預(yù)測指標(biāo)好,證明了本文提出方法的有效性。

        表6 不同特征預(yù)測視頻記憶度分?jǐn)?shù)的消融實驗Table 6 Ablation experiment of predicting video memorability scores with different features

        表7是本文提出的多模態(tài)視頻記憶度預(yù)測模型與以往論文的研究模型的對比實驗,所有模型的短期記憶度預(yù)測指標(biāo)都高于長期記憶度,說明了短期記憶比長期記憶更具可預(yù)測性。在短期記憶度預(yù)測結(jié)果中,本文提出的融合多模態(tài)的視頻記憶度預(yù)測模型與之前的方法有明顯的提高,但是長期記憶度預(yù)測似乎沒有很好的性能提高??赡艿脑蚴情L期記憶度預(yù)測更依賴于個人的記憶能力。晚融合中三種模態(tài)的權(quán)重比例可知,深度特征在融合中所占權(quán)重最大,說明了深度特征在該記憶度預(yù)測任務(wù)中更有效。

        表7 不同的視頻記憶度預(yù)測方法的對比實驗Table 7 Comparative experiment of different video memorability prediction methods

        圖6給出了幾個長期記憶度分?jǐn)?shù)較低的視頻中,使用本文提出的融合模型預(yù)測出的長期記憶度分?jǐn)?shù)和其真實值的對比,可以看出在長期記憶度預(yù)測真值較低的視頻中既有與自然景觀相關(guān)的視頻,也有與人相關(guān)的視頻,這似乎與短期記憶度表現(xiàn)出的規(guī)律不完全符合,長期記憶度預(yù)測似乎更偏向于記住一些更新奇、人物情緒更激烈、動作更多的視頻,同時也體現(xiàn)了每個人的記憶差異。

        圖6 長期記憶度預(yù)測值與真實值對比Fig.6 Long-term memorability prediction value compared with its ground truth

        3 結(jié)束語

        本文提出了一個多模態(tài)特征融合的視頻記憶度預(yù)測模型,使用預(yù)訓(xùn)練的ResNet152網(wǎng)絡(luò)提取深度特征,使用TF-IDF算法進行語義特征提取,并對視頻記憶度有影響的單詞賦予不同的權(quán)重,然后與視頻的C3D時空特征進行多模態(tài)融合,晚融合加權(quán)平均的方法在實驗中取得了最佳預(yù)測效果,證明了模型的有效性。模型的預(yù)測效果在視頻記憶度預(yù)測任務(wù)中有了一定的提高。

        未來的工作將重點關(guān)注視頻中傳達(dá)的運動信息和人物情緒特征,深入探索影響長期記憶度預(yù)測的因素,使用深層神經(jīng)網(wǎng)絡(luò)的方法探索對視頻記憶度的影響,發(fā)掘更多影響視頻記憶度的特征,嘗試不同的特征融合方案,設(shè)計更加穩(wěn)定的模型來預(yù)測視頻的記憶度。

        猜你喜歡
        語義模態(tài)深度
        深度理解一元一次方程
        語言與語義
        深度觀察
        深度觀察
        深度觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        認(rèn)知范疇模糊與語義模糊
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        亚洲国产精彩中文乱码av| 久久午夜伦鲁鲁片免费| 少妇人妻av一区二区三区| 国产成人无码精品久久久免费| 一边吃奶一边摸做爽视频| √天堂中文官网在线| 成年无码aⅴ片在线观看| 亚洲中文字幕av天堂 | 麻豆视频黄片在线免费观看 | 福利一区二区三区视频午夜观看| 精品亚洲欧美高清不卡高清| 亚洲美女av二区在线观看| 熟妇人妻精品一区二区视频| 亚洲av日韩av卡二| 亚洲欧美一区二区三区在线| 亚洲自拍另类欧美综合| 人妻精品久久久一区二区| 人妻夜夜爽天天爽三区丁香花| 亚洲综合精品伊人久久| 亚洲性啪啪无码AV天堂| 东京热日本道免费高清| 无码日韩精品一区二区免费暖暖| 丰满少妇被猛男猛烈进入久久| 亚洲欧美变态另类综合| 精品福利一区二区三区| 中文字幕日韩三级片| 国产精品一区二区久久精品| 亚洲综合五月天欧美| 亚洲av色香蕉一区二区三区av| 国产a在亚洲线播放| 亚洲av永久无码精品秋霞电影影院 | 色欲色香天天天综合网www| 无遮挡边摸边吃奶边做视频免费 | 久久国产香蕉一区精品天美| 一区二区三区四区免费国产视频| 第一次处破女18分钟高清| 性一乱一搞一交一伦一性| 国产精品欧美视频另类专区| 狠色人妻丝袜中文字幕| 天天色影网| 国产一区二区三区精品久久呦|