亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合圖像與聲音信息的視頻標(biāo)注

        2020-12-28 02:10:22袁華張逸帆陳安皓
        電腦知識(shí)與技術(shù) 2020年33期
        關(guān)鍵詞:特征實(shí)驗(yàn)信息

        袁華 張逸帆 陳安皓

        摘要:隨著互聯(lián)網(wǎng)的興盛和信息技術(shù)的飛速發(fā)展,大眾媒體開始從以文字和圖像為主的形式逐漸向以視頻為主的形態(tài)演變,大量視頻數(shù)據(jù)不斷涌出。因此,能夠高效、及時(shí)地進(jìn)行視頻分類和管理的視頻標(biāo)注成為時(shí)下一大熱門。視頻標(biāo)注本質(zhì)是序列到序列的轉(zhuǎn)換[1],特點(diǎn)在于視頻的內(nèi)容信息并不能用割裂的一幀幀的圖像數(shù)據(jù)來表征,而需要強(qiáng)調(diào)視頻前后的連續(xù)性和關(guān)聯(lián)性。此外,對(duì)于普通觀眾而言,視頻中附加的聲音信息同樣是接收和理解視頻內(nèi)容的關(guān)鍵要素。然而,現(xiàn)有的用于視頻標(biāo)注的神經(jīng)網(wǎng)絡(luò)大多沒有利用聲音信息來進(jìn)行標(biāo)注輸出。對(duì)此,該文提出一種基于S2VT模型的、融合聲音和圖像信息的神經(jīng)網(wǎng)絡(luò),運(yùn)用循環(huán)神經(jīng)網(wǎng)絡(luò)算法以及編碼解碼結(jié)構(gòu),對(duì)輸入的視頻進(jìn)行時(shí)序性學(xué)習(xí),并最終輸出一段有意義、便于理解的文字。在數(shù)據(jù)預(yù)處理方面,該文選擇從圖像信息中提取3D特征[2],使用業(yè)內(nèi)流行的MFCC算法將輸入的聲音部分轉(zhuǎn)化為聲音特征,最后將保存這兩個(gè)特征的矩陣有序拼接輸入神經(jīng)網(wǎng)絡(luò)中。該文針對(duì)最終模型輸出效果進(jìn)行了對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)在訓(xùn)練條件一致的情況下,添加了聲音特征的模型在處理含有聲音信息的視頻時(shí),能夠取得比不添加聲音特征時(shí)更好、更自然的語句輸出。

        關(guān)鍵詞:視頻標(biāo)注;MFCC算法;聲音特征;3D特征

        中圖分類號(hào):TP37 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)33-0195-03

        開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        1 引言

        視頻標(biāo)注是指機(jī)器自動(dòng)地用自然語言概括視頻內(nèi)容,是信息檢索和模式識(shí)別的熱點(diǎn)問題。在信息化的今天,人手工識(shí)別大批量視頻的效率非常低下,視頻標(biāo)注提供了一條有效的途徑,可以幫助人們快速了解視頻的內(nèi)容,也可以用于視頻分類,用途十分廣泛。

        由于深度學(xué)習(xí)很早就涉足機(jī)器翻譯,而機(jī)器翻譯原理上與視頻標(biāo)注有共通之處,因此研究人員一開始就基于機(jī)器翻譯領(lǐng)域已經(jīng)成熟的編碼器一解碼器方案進(jìn)行設(shè)計(jì)。其中,編碼器一般使用卷積神經(jīng)網(wǎng)絡(luò),而解碼器則選用循環(huán)神經(jīng)網(wǎng)絡(luò),整個(gè)模型從輸入的圖像特征進(jìn)行學(xué)習(xí),以輸出視頻描述。

        Venugopalan S在2015年提出了S2VT(Sequence to se-quence-Video to text)的序列到序列視頻標(biāo)注模型[3],并獲得了視頻標(biāo)注的第一名,在2015年到2019年的視頻標(biāo)注比賽中前三名基本是采用了該模型的變種。該模型就采用了目前最為主流的編碼一解碼框架,用CNN和LSTM組成編碼器,采用LSTM作為解碼器,可以用來處理變長的輸入輸出。在此基礎(chǔ)上加入了注意力機(jī)制[4],在第一層的LSTM中加入了權(quán)重可以提升關(guān)鍵信息的注意力,在基于3D CNN-LSTM結(jié)構(gòu)的視頻標(biāo)注模型中[5],使用3D CNN網(wǎng)絡(luò)學(xué)習(xí)視頻的時(shí)序特征。

        本文在融合圖像的基礎(chǔ)上,加入了視頻的聲音特征,旨在進(jìn)一步提高標(biāo)注的準(zhǔn)確率。其中聲音特征采用的是主流的MFCC方法提取,作為輸入的一部分。另一方面,我們研究了不同特征的兩種結(jié)合方式對(duì)結(jié)果的影響。

        2 加入聲音特征的原因

        聲音是視頻的一部分。圖像信息并不能完全等同于整個(gè)視頻的信息,而加入聲音特征可以更加完整地保存視頻的信息,這也與人們收看視頻時(shí)一般也會(huì)收聽其聲音的方式一致。一方面,有些視頻只看圖像無法確定視頻的具體主題,更多的內(nèi)容由聲音提供。另一方面,當(dāng)圖像所提供的信息無法覆蓋細(xì)節(jié)時(shí),聲音可以提供視頻的細(xì)節(jié)信息,能讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更多視頻的特征。綜上,加入聲音特征可以提高視頻標(biāo)注的準(zhǔn)確率、可以更好地理解視頻的內(nèi)容。

        當(dāng)然,有些視頻的聲音與圖像關(guān)聯(lián)性較弱,要確定一個(gè)折中的文字描述比較困難。如果模型學(xué)習(xí)的視頻中大部分都是這樣的聲音與圖像弱相關(guān)的視頻的話,會(huì)使得預(yù)測的效果不夠理想。這是選擇數(shù)據(jù)集時(shí)需要注意的地方。

        3 MFCC方法[6]

        為了實(shí)現(xiàn)對(duì)視頻中聲音信息的利用,我們需要將模擬信號(hào)形式的聲音信息轉(zhuǎn)化為能夠被神經(jīng)網(wǎng)絡(luò)讀取的矩陣。這其中涉及多個(gè)環(huán)節(jié),包括模數(shù)轉(zhuǎn)換、預(yù)加重和提取MFCC向量等。

        模數(shù)轉(zhuǎn)換操作是后續(xù)對(duì)聲音信息進(jìn)行進(jìn)一步處理的基礎(chǔ)和前提,包括采樣和量化兩部分。采樣時(shí)按照一定的采樣頻率讀取聲音信息,以記錄采樣點(diǎn)幅值。量化時(shí)則將上述各采樣點(diǎn)的幅值化歸為特定幅值,以便于以數(shù)字形式存儲(chǔ)信號(hào)。

        獲取了數(shù)字形式的聲音信息后,就可以對(duì)其進(jìn)行特征提取操作。但是由于低頻部分的能量往往高于高頻部分,而兩者包含的信息量卻并非如此,甚至對(duì)于視頻中的聲音信息來說,高頻部分往往還包含更多有效信息,諸如語音、音樂等。因此在將聲音轉(zhuǎn)為向量前需要加強(qiáng)高頻信息能量,以提高信息學(xué)習(xí)效率。同時(shí),由于頻率信息是主要關(guān)注對(duì)象,故我們選用離傅立葉變換來獲取頻譜。

        特征提取方面,我們選用了當(dāng)前的主流方法:MFCC (MelFrequency Cepstral Coefficients,梅爾頻率倒譜系數(shù))。該方法主要參考了人耳對(duì)不同頻率的敏感度不同的特點(diǎn),在低頻部分mel系數(shù)與頻率呈線性關(guān)系,在高頻時(shí)則呈對(duì)數(shù)關(guān)系。通過這一步轉(zhuǎn)換,就能夠?qū)FT得到的頻譜轉(zhuǎn)換為mel頻譜,取對(duì)數(shù)后作逆變換即可得到MFCC系數(shù)。不過,在獲取到MFCC系數(shù)后,我們還需對(duì)其進(jìn)行差分操作,以使得最終輸出的向量能夠反映時(shí)域連續(xù)性。

        相對(duì)于其他常見的聲音特征提取方法,MFCC由于擁有對(duì)不同頻率的裁剪,可以獲得更好的性能和更精簡的數(shù)據(jù)量。同時(shí),參考了人耳頻率響應(yīng)的MFCC也能夠幫助數(shù)據(jù)更好地反映實(shí)際包含的信息。

        4 特征結(jié)合

        在提取了視頻的2D特征、3D特征和聲音特征后,要將3個(gè)特征結(jié)合在一起作為網(wǎng)絡(luò)模型的輸入[7],但結(jié)合方式并不唯一。實(shí)踐中我們嘗試了將特征橫向拼接和縱向拼接兩種結(jié)合方式(見圖1),發(fā)現(xiàn)拼接方式對(duì)視頻標(biāo)注的準(zhǔn)確率有顯著的影響。

        5 S2VT模型

        S2VT模型是由兩個(gè)LSTM網(wǎng)絡(luò)疊加而成,其過程見圖2。

        第一個(gè)LSTM將通過卷積神經(jīng)網(wǎng)絡(luò)提取到的幀特征向量作為輸入進(jìn)行逐個(gè)編碼。一旦讀取完所有的幀,第二個(gè)LSTM會(huì)逐個(gè)單詞地生成一個(gè)句子。幀和單詞表示的編碼和解碼工作將由其他網(wǎng)絡(luò)預(yù)處理完成。

        其中代表了由編碼部分生成的中間語義向量,同時(shí)我們加入了Attention機(jī)制,即讓神經(jīng)網(wǎng)絡(luò)更加專注于某些特征。也就是說,編碼向量是經(jīng)過加權(quán)得到的,這樣也就能夠突出重點(diǎn)表達(dá)的內(nèi)容。另一方面解碼部分把作為輸入,最后得到最后的語義向量,再通過詞典得到最終的完整的句子即可。

        6 實(shí)驗(yàn)研究

        6.1 實(shí)驗(yàn)方案

        本實(shí)驗(yàn)希望對(duì)以下兩個(gè)方面進(jìn)行探尋:

        (1)如何拼接除圖像信息之外的其他信息,可以使得視頻標(biāo)注的準(zhǔn)確率最高;

        (2)將有聲音的視頻中包含的聲音信息加入模型進(jìn)行訓(xùn)練后,視頻標(biāo)注的準(zhǔn)確率是否能夠提高。

        以下是我們設(shè)計(jì)的三次實(shí)驗(yàn),以及據(jù)此做出的兩組對(duì)比:

        實(shí)驗(yàn)方案1:

        使用圖像信息、加入注意力機(jī)制、加入視頻的3D特征,除圖像信息之外的其他因素的特征與圖像信息橫向結(jié)合。

        實(shí)驗(yàn)方案2:

        使用圖像信息、加入注意力機(jī)制、加入視頻的3D特征,除圖像信息之外的其他因素的特征與圖像信息豎向結(jié)合。

        實(shí)驗(yàn)方案3:

        既使用圖像信息也使用聲音信息、加入注意力機(jī)制、加入視頻的3D特征,除圖像信息之外的其他因素的特征與圖像信息橫向結(jié)合。此外,如果一個(gè)視頻的聲音很小甚至沒有聲音,此視頻的聲音信息不加入模型訓(xùn)練。

        6.2 實(shí)驗(yàn)數(shù)據(jù)記錄

        我們用不同的評(píng)測方法(BLEU、METEOR> ROUGE_L、CI-DEr)去評(píng)價(jià)不同的實(shí)驗(yàn)方案[8],得到準(zhǔn)確率見表1~表3。

        6.3實(shí)驗(yàn)數(shù)據(jù)處理

        根據(jù)表1~表3中的數(shù)據(jù),做出圖像,見圖3和圖4。

        6.3.1對(duì)比:橫向拼接與豎向拼接

        6.3.2對(duì)比:不加入聲音和加入聲音

        6.4 實(shí)驗(yàn)結(jié)論

        根據(jù)對(duì)比1,我們可以得知,橫向拼接相較于豎向拼接可以獲得更好的輸出效果和準(zhǔn)確率。這與我們根據(jù)數(shù)據(jù)結(jié)構(gòu)模型分析所得出的推論相符;

        根據(jù)對(duì)比2,我們注意到盡管加入聲音后的整體數(shù)據(jù)大體與加入前持平,但是對(duì)于輸出語句流暢性和連貫性要求較高的BLEU-4的準(zhǔn)確率卻得到了提升,這表明加入聲音訓(xùn)練的嘗試初有成效。此外,在對(duì)單一視頻進(jìn)行測試時(shí),我們發(fā)現(xiàn)加入聲音所得的模型對(duì)于有聲音的視頻的輸出有了大幅的改善。

        7 總結(jié)

        本文中提出了一種融合視頻圖像和聲音信息的標(biāo)注方法,采用了S2VTAtt模型,最大的創(chuàng)新在于加入了聲音特征以及考慮了不同特征拼接方式帶來的影響。其中,加入聲音特征并沒有大幅度提高標(biāo)識(shí)的準(zhǔn)確度:在1-gram匹配規(guī)則下準(zhǔn)確率有所下降,在4-gram匹配規(guī)則準(zhǔn)確率有所上升。一方面這是由于聲音特征相對(duì)于圖像特征非常小;另一方面聲音只是背景音樂,很多場景中只能體現(xiàn)一定的氛圍,無法凸顯出部分細(xì)節(jié)的信息。

        實(shí)驗(yàn)反映了聲音特征的特點(diǎn):一方面S2VTAtt模型無法從整體上理解蘆音的內(nèi)容,將重心放在了無關(guān)的細(xì)節(jié)上,所以生成句子含有不相關(guān)的詞匯導(dǎo)致1-gram匹配準(zhǔn)確率下降,另一方面當(dāng)模型抓住了聲音所反映的細(xì)節(jié)信息可以提高整個(gè)句子的理解,所以4-gram匹配準(zhǔn)確率反而會(huì)上升。

        文中采用MFCC方法提取音頻特征,體現(xiàn)了聲音的頻率和能量在時(shí)間軸上的分布,由于MSR-VTT數(shù)據(jù)集的種類太多,所以很難有效地抓住局部的主要細(xì)節(jié),導(dǎo)致混入了很多不相關(guān)的成分。

        參考文獻(xiàn):

        [1] Venugopalan S,Rohrbach M,Don-ahue J,et al.Sequenceto Sequence -Video to Text[J].2015.

        [2] Hara K,Kataoka H,Satoh Y.Learn-ing Spatio-TemporalFeatures with 3DResidual Net works for Action Recogni-tion[J].2017.

        [3] Venugopalan S, Rohrbach M,Donahue J, et aI.Sequence to se-quence - video to text[C]//2015 lEEE Intemational Confer-ence on Computer Vision (ICCV).December 7-13,2015,Santia-go,Chile.lEEE,2015:45 34-4542.

        [4] Laokulrat N,Plian S,Nishida N,etal. Generating video de-scription using sequence-to-sequence model withtemporal at-tention[C]//Proceedings ofCOLING 2016, the 26th Internation-al Con- ference on Computational Lin-guistics: Technical Pa-pers。2016: 44-52.

        [5] Yao Li, Toi'abi A,Cho K,et al.De-scribing videos by exploit-ing tempo-ral structure[C]//Pro-ceedings of thelEEE interna-tional conference on com-puter vision, 2015: 4507-4515.

        [6] Gupta, Shikha and .Jaafar, Jafreeza-1 and F at imah, et c.FE ATU RE EX-TRACTlON USING MFCC[Jl.Signal& ImageProcessing: An InternationaIJournal,2013,4(4): 101-108.

        [7]張曉宇,張?jiān)迫A.基于融合特征的視頻關(guān)鍵幀提取方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(11):176-181.

        [8]宗成慶.統(tǒng)計(jì)自然語言處理[M].2版.北京:清華大學(xué)出版社,2013.

        【通聯(lián)編輯:代影】

        作者簡介:袁華(1999-),男,江蘇昆山人,東南大學(xué)吳健雄學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),本科生;張逸帆(1999-),男,江蘇昆山人,東南大學(xué)信息科學(xué)與工程學(xué)院信息工程專業(yè),本科生;陳安皓(1998-),男,江蘇鹽城人,東南大學(xué)吳健雄學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),本科生。

        猜你喜歡
        特征實(shí)驗(yàn)信息
        記一次有趣的實(shí)驗(yàn)
        如何表達(dá)“特征”
        做個(gè)怪怪長實(shí)驗(yàn)
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产av一级二级三级| 日本一区二区三区免费播放| 欧美黑人性暴力猛交喷水| 久久99精品久久久久久野外| 免费a级毛片无码a∨免费| 99久久婷婷国产精品综合网站| 国产一级黄色录像大片| 免费在线观看av不卡网站| 亚洲成a∨人片在线观看无码| 成人毛片一区二区| 亚洲中文字幕无线无码毛片| 亚洲视频一区二区久久久| 丰满少妇av一区二区三区| 国产av一卡二卡日韩av| 国产午夜手机精彩视频| 久久综合精品国产一区二区三区无码| 国农村精品国产自线拍| 亚洲欧美久久婷婷爱综合一区天堂| 熟女乱乱熟女乱乱亚洲| 日本不卡视频一区二区三区| 日韩精品一区二区在线天天狠天| 亚洲精品无人区| 色欲av一区二区久久精品| 久久99久久99精品观看| 亚洲国产天堂av成人在线播放 | 中文字幕av中文字无码亚| 亚洲av无码专区亚洲av伊甸园| 99久久久无码国产精品试看| 国产亚洲婷婷香蕉久久精品| 白白视频在线免费观看| 中文字幕影片免费人妻少妇| 亚洲色精品三区二区一区| 亚洲va中文字幕| 亚洲人成无码网www| 手机色在线| 日本激情久久精品人妻热| 老女老肥熟女一区二区| 亚洲精品97久久中文字幕无码| 亚洲国产成人精品激情| 国产精品毛片极品久久| 少妇伦子伦情品无吗|