亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合圖像與聲音信息的視頻標(biāo)注

2020-12-28 02:10:22袁華張逸帆陳安皓

電腦知識(shí)與技術(shù) 2020年33期

袁華張逸帆陳安皓

摘要：隨著互聯(lián)網(wǎng)的興盛和信息技術(shù)的飛速發(fā)展，大眾媒體開始從以文字和圖像為主的形式逐漸向以視頻為主的形態(tài)演變，大量視頻數(shù)據(jù)不斷涌出。因此，能夠高效、及時(shí)地進(jìn)行視頻分類和管理的視頻標(biāo)注成為時(shí)下一大熱門。視頻標(biāo)注本質(zhì)是序列到序列的轉(zhuǎn)換[1]，特點(diǎn)在于視頻的內(nèi)容信息并不能用割裂的一幀幀的圖像數(shù)據(jù)來表征，而需要強(qiáng)調(diào)視頻前后的連續(xù)性和關(guān)聯(lián)性。此外，對(duì)于普通觀眾而言，視頻中附加的聲音信息同樣是接收和理解視頻內(nèi)容的關(guān)鍵要素。然而，現(xiàn)有的用于視頻標(biāo)注的神經(jīng)網(wǎng)絡(luò)大多沒有利用聲音信息來進(jìn)行標(biāo)注輸出。對(duì)此，該文提出一種基于S2VT模型的、融合聲音和圖像信息的神經(jīng)網(wǎng)絡(luò)，運(yùn)用循環(huán)神經(jīng)網(wǎng)絡(luò)算法以及編碼解碼結(jié)構(gòu)，對(duì)輸入的視頻進(jìn)行時(shí)序性學(xué)習(xí)，并最終輸出一段有意義、便于理解的文字。在數(shù)據(jù)預(yù)處理方面，該文選擇從圖像信息中提取3D特征[2]，使用業(yè)內(nèi)流行的MFCC算法將輸入的聲音部分轉(zhuǎn)化為聲音特征，最后將保存這兩個(gè)特征的矩陣有序拼接輸入神經(jīng)網(wǎng)絡(luò)中。該文針對(duì)最終模型輸出效果進(jìn)行了對(duì)比實(shí)驗(yàn)，發(fā)現(xiàn)在訓(xùn)練條件一致的情況下，添加了聲音特征的模型在處理含有聲音信息的視頻時(shí)，能夠取得比不添加聲音特征時(shí)更好、更自然的語句輸出。

關(guān)鍵詞：視頻標(biāo)注;MFCC算法;聲音特征;3D特征

中圖分類號(hào)：TP37 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2020）33-0195-03

開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

1 引言

視頻標(biāo)注是指機(jī)器自動(dòng)地用自然語言概括視頻內(nèi)容，是信息檢索和模式識(shí)別的熱點(diǎn)問題。在信息化的今天，人手工識(shí)別大批量視頻的效率非常低下，視頻標(biāo)注提供了一條有效的途徑，可以幫助人們快速了解視頻的內(nèi)容，也可以用于視頻分類，用途十分廣泛。

由于深度學(xué)習(xí)很早就涉足機(jī)器翻譯，而機(jī)器翻譯原理上與視頻標(biāo)注有共通之處，因此研究人員一開始就基于機(jī)器翻譯領(lǐng)域已經(jīng)成熟的編碼器一解碼器方案進(jìn)行設(shè)計(jì)。其中，編碼器一般使用卷積神經(jīng)網(wǎng)絡(luò)，而解碼器則選用循環(huán)神經(jīng)網(wǎng)絡(luò)，整個(gè)模型從輸入的圖像特征進(jìn)行學(xué)習(xí)，以輸出視頻描述。

Venugopalan S在2015年提出了S2VT（Sequence to se-quence-Video to text）的序列到序列視頻標(biāo)注模型[3]，并獲得了視頻標(biāo)注的第一名，在2015年到2019年的視頻標(biāo)注比賽中前三名基本是采用了該模型的變種。該模型就采用了目前最為主流的編碼一解碼框架，用CNN和LSTM組成編碼器，采用LSTM作為解碼器，可以用來處理變長的輸入輸出。在此基礎(chǔ)上加入了注意力機(jī)制[4]，在第一層的LSTM中加入了權(quán)重可以提升關(guān)鍵信息的注意力，在基于3D CNN-LSTM結(jié)構(gòu)的視頻標(biāo)注模型中[5]，使用3D CNN網(wǎng)絡(luò)學(xué)習(xí)視頻的時(shí)序特征。

本文在融合圖像的基礎(chǔ)上，加入了視頻的聲音特征，旨在進(jìn)一步提高標(biāo)注的準(zhǔn)確率。其中聲音特征采用的是主流的MFCC方法提取，作為輸入的一部分。另一方面，我們研究了不同特征的兩種結(jié)合方式對(duì)結(jié)果的影響。

2 加入聲音特征的原因

聲音是視頻的一部分。圖像信息并不能完全等同于整個(gè)視頻的信息，而加入聲音特征可以更加完整地保存視頻的信息，這也與人們收看視頻時(shí)一般也會(huì)收聽其聲音的方式一致。一方面，有些視頻只看圖像無法確定視頻的具體主題，更多的內(nèi)容由聲音提供。另一方面，當(dāng)圖像所提供的信息無法覆蓋細(xì)節(jié)時(shí)，聲音可以提供視頻的細(xì)節(jié)信息，能讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更多視頻的特征。綜上，加入聲音特征可以提高視頻標(biāo)注的準(zhǔn)確率、可以更好地理解視頻的內(nèi)容。

當(dāng)然，有些視頻的聲音與圖像關(guān)聯(lián)性較弱，要確定一個(gè)折中的文字描述比較困難。如果模型學(xué)習(xí)的視頻中大部分都是這樣的聲音與圖像弱相關(guān)的視頻的話，會(huì)使得預(yù)測的效果不夠理想。這是選擇數(shù)據(jù)集時(shí)需要注意的地方。

3 MFCC方法[6]

為了實(shí)現(xiàn)對(duì)視頻中聲音信息的利用，我們需要將模擬信號(hào)形式的聲音信息轉(zhuǎn)化為能夠被神經(jīng)網(wǎng)絡(luò)讀取的矩陣。這其中涉及多個(gè)環(huán)節(jié)，包括模數(shù)轉(zhuǎn)換、預(yù)加重和提取MFCC向量等。

模數(shù)轉(zhuǎn)換操作是后續(xù)對(duì)聲音信息進(jìn)行進(jìn)一步處理的基礎(chǔ)和前提，包括采樣和量化兩部分。采樣時(shí)按照一定的采樣頻率讀取聲音信息，以記錄采樣點(diǎn)幅值。量化時(shí)則將上述各采樣點(diǎn)的幅值化歸為特定幅值，以便于以數(shù)字形式存儲(chǔ)信號(hào)。

獲取了數(shù)字形式的聲音信息后，就可以對(duì)其進(jìn)行特征提取操作。但是由于低頻部分的能量往往高于高頻部分，而兩者包含的信息量卻并非如此，甚至對(duì)于視頻中的聲音信息來說，高頻部分往往還包含更多有效信息，諸如語音、音樂等。因此在將聲音轉(zhuǎn)為向量前需要加強(qiáng)高頻信息能量，以提高信息學(xué)習(xí)效率。同時(shí)，由于頻率信息是主要關(guān)注對(duì)象，故我們選用離傅立葉變換來獲取頻譜。

特征提取方面，我們選用了當(dāng)前的主流方法：MFCC （MelFrequency Cepstral Coefficients，梅爾頻率倒譜系數(shù)）。該方法主要參考了人耳對(duì)不同頻率的敏感度不同的特點(diǎn)，在低頻部分mel系數(shù)與頻率呈線性關(guān)系，在高頻時(shí)則呈對(duì)數(shù)關(guān)系。通過這一步轉(zhuǎn)換，就能夠?qū)FT得到的頻譜轉(zhuǎn)換為mel頻譜，取對(duì)數(shù)后作逆變換即可得到MFCC系數(shù)。不過，在獲取到MFCC系數(shù)后，我們還需對(duì)其進(jìn)行差分操作，以使得最終輸出的向量能夠反映時(shí)域連續(xù)性。

相對(duì)于其他常見的聲音特征提取方法，MFCC由于擁有對(duì)不同頻率的裁剪，可以獲得更好的性能和更精簡的數(shù)據(jù)量。同時(shí)，參考了人耳頻率響應(yīng)的MFCC也能夠幫助數(shù)據(jù)更好地反映實(shí)際包含的信息。

4 特征結(jié)合

在提取了視頻的2D特征、3D特征和聲音特征后，要將3個(gè)特征結(jié)合在一起作為網(wǎng)絡(luò)模型的輸入[7]，但結(jié)合方式并不唯一。實(shí)踐中我們嘗試了將特征橫向拼接和縱向拼接兩種結(jié)合方式（見圖1），發(fā)現(xiàn)拼接方式對(duì)視頻標(biāo)注的準(zhǔn)確率有顯著的影響。

5 S2VT模型

S2VT模型是由兩個(gè)LSTM網(wǎng)絡(luò)疊加而成，其過程見圖2。

第一個(gè)LSTM將通過卷積神經(jīng)網(wǎng)絡(luò)提取到的幀特征向量作為輸入進(jìn)行逐個(gè)編碼。一旦讀取完所有的幀，第二個(gè)LSTM會(huì)逐個(gè)單詞地生成一個(gè)句子。幀和單詞表示的編碼和解碼工作將由其他網(wǎng)絡(luò)預(yù)處理完成。

其中代表了由編碼部分生成的中間語義向量，同時(shí)我們加入了Attention機(jī)制，即讓神經(jīng)網(wǎng)絡(luò)更加專注于某些特征。也就是說，編碼向量是經(jīng)過加權(quán)得到的，這樣也就能夠突出重點(diǎn)表達(dá)的內(nèi)容。另一方面解碼部分把作為輸入，最后得到最后的語義向量，再通過詞典得到最終的完整的句子即可。

6 實(shí)驗(yàn)研究

6.1 實(shí)驗(yàn)方案

本實(shí)驗(yàn)希望對(duì)以下兩個(gè)方面進(jìn)行探尋：

（1）如何拼接除圖像信息之外的其他信息，可以使得視頻標(biāo)注的準(zhǔn)確率最高;

（2）將有聲音的視頻中包含的聲音信息加入模型進(jìn)行訓(xùn)練后，視頻標(biāo)注的準(zhǔn)確率是否能夠提高。

以下是我們設(shè)計(jì)的三次實(shí)驗(yàn)，以及據(jù)此做出的兩組對(duì)比：

實(shí)驗(yàn)方案1：

使用圖像信息、加入注意力機(jī)制、加入視頻的3D特征，除圖像信息之外的其他因素的特征與圖像信息橫向結(jié)合。

實(shí)驗(yàn)方案2：

使用圖像信息、加入注意力機(jī)制、加入視頻的3D特征，除圖像信息之外的其他因素的特征與圖像信息豎向結(jié)合。

實(shí)驗(yàn)方案3：

既使用圖像信息也使用聲音信息、加入注意力機(jī)制、加入視頻的3D特征，除圖像信息之外的其他因素的特征與圖像信息橫向結(jié)合。此外，如果一個(gè)視頻的聲音很小甚至沒有聲音，此視頻的聲音信息不加入模型訓(xùn)練。

6.2 實(shí)驗(yàn)數(shù)據(jù)記錄

我們用不同的評(píng)測方法（BLEU、METEOR> ROUGE_L、CI-DEr）去評(píng)價(jià)不同的實(shí)驗(yàn)方案[8]，得到準(zhǔn)確率見表1～表3。

6.3實(shí)驗(yàn)數(shù)據(jù)處理

根據(jù)表1～表3中的數(shù)據(jù)，做出圖像，見圖3和圖4。

6.3.1對(duì)比：橫向拼接與豎向拼接

6.3.2對(duì)比：不加入聲音和加入聲音

6.4 實(shí)驗(yàn)結(jié)論

根據(jù)對(duì)比1，我們可以得知，橫向拼接相較于豎向拼接可以獲得更好的輸出效果和準(zhǔn)確率。這與我們根據(jù)數(shù)據(jù)結(jié)構(gòu)模型分析所得出的推論相符;

根據(jù)對(duì)比2，我們注意到盡管加入聲音后的整體數(shù)據(jù)大體與加入前持平，但是對(duì)于輸出語句流暢性和連貫性要求較高的BLEU-4的準(zhǔn)確率卻得到了提升，這表明加入聲音訓(xùn)練的嘗試初有成效。此外，在對(duì)單一視頻進(jìn)行測試時(shí)，我們發(fā)現(xiàn)加入聲音所得的模型對(duì)于有聲音的視頻的輸出有了大幅的改善。

7 總結(jié)

本文中提出了一種融合視頻圖像和聲音信息的標(biāo)注方法，采用了S2VTAtt模型，最大的創(chuàng)新在于加入了聲音特征以及考慮了不同特征拼接方式帶來的影響。其中，加入聲音特征并沒有大幅度提高標(biāo)識(shí)的準(zhǔn)確度：在1-gram匹配規(guī)則下準(zhǔn)確率有所下降，在4-gram匹配規(guī)則準(zhǔn)確率有所上升。一方面這是由于聲音特征相對(duì)于圖像特征非常小;另一方面聲音只是背景音樂，很多場景中只能體現(xiàn)一定的氛圍，無法凸顯出部分細(xì)節(jié)的信息。

實(shí)驗(yàn)反映了聲音特征的特點(diǎn)：一方面S2VTAtt模型無法從整體上理解蘆音的內(nèi)容，將重心放在了無關(guān)的細(xì)節(jié)上，所以生成句子含有不相關(guān)的詞匯導(dǎo)致1-gram匹配準(zhǔn)確率下降，另一方面當(dāng)模型抓住了聲音所反映的細(xì)節(jié)信息可以提高整個(gè)句子的理解，所以4-gram匹配準(zhǔn)確率反而會(huì)上升。

文中采用MFCC方法提取音頻特征，體現(xiàn)了聲音的頻率和能量在時(shí)間軸上的分布，由于MSR-VTT數(shù)據(jù)集的種類太多，所以很難有效地抓住局部的主要細(xì)節(jié)，導(dǎo)致混入了很多不相關(guān)的成分。

參考文獻(xiàn)：

[1] Venugopalan S，Rohrbach M，Don-ahue J，et al.Sequenceto Sequence -Video to Text[J].2015.

[2] Hara K，Kataoka H，Satoh Y.Learn-ing Spatio-TemporalFeatures with 3DResidual Net works for Action Recogni-tion[J].2017.

[3] Venugopalan S， Rohrbach M，Donahue J， et aI.Sequence to se-quence - video to text[C]//2015 lEEE Intemational Confer-ence on Computer Vision （ICCV）.December 7-13，2015，Santia-go，Chile.lEEE，2015：45 34-4542.

[4] Laokulrat N，Plian S，Nishida N，etal. Generating video de-scription using sequence-to-sequence model withtemporal at-tention[C]//Proceedings ofCOLING 2016， the 26th Internation-al Con- ference on Computational Lin-guistics： Technical Pa-pers。2016： 44-52.

[5] Yao Li， Toi'abi A，Cho K，et al.De-scribing videos by exploit-ing tempo-ral structure[C]//Pro-ceedings of thelEEE interna-tional conference on com-puter vision， 2015： 4507-4515.

[6] Gupta， Shikha and .Jaafar， Jafreeza-1 and F at imah， et c.FE ATU RE EX-TRACTlON USING MFCC[Jl.Signal& ImageProcessing： An InternationaIJournal，2013，4（4）： 101-108.

[7]張曉宇，張?jiān)迫A.基于融合特征的視頻關(guān)鍵幀提取方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2019，28（11）：176-181.

[8]宗成慶.統(tǒng)計(jì)自然語言處理[M].2版.北京：清華大學(xué)出版社，2013.

【通聯(lián)編輯：代影】

作者簡介：袁華（1999-），男，江蘇昆山人，東南大學(xué)吳健雄學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)，本科生;張逸帆（1999-），男，江蘇昆山人，東南大學(xué)信息科學(xué)與工程學(xué)院信息工程專業(yè)，本科生;陳安皓（1998-），男，江蘇鹽城人，東南大學(xué)吳健雄學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)，本科生。