亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的視頻預(yù)測(cè)研究綜述

        2018-03-12 01:44:59莫凌飛蔣紅亮李煊鵬
        智能系統(tǒng)學(xué)報(bào) 2018年1期
        關(guān)鍵詞:編碼器架構(gòu)卷積

        莫凌飛,蔣紅亮,李煊鵬

        (東南大學(xué) 儀器科學(xué)與工程學(xué)院,江蘇 南京 210096)

        “我們?nèi)狈Φ囊粋€(gè)關(guān)鍵要素是預(yù)測(cè)(或無監(jiān)督)學(xué)習(xí):機(jī)器具有模擬環(huán)境,預(yù)測(cè)未來的可能性,以及通過觀察和參與理解世界如何運(yùn)作的能力?!盵1]

        近年來,深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界得到了廣泛的發(fā)展和應(yīng)用,其在計(jì)算機(jī)視覺[2-6]、語音識(shí)別[7]、自然語言處理[8-9]以及游戲策略[10-11]等眾多領(lǐng)域取得豐碩成果,在某些領(lǐng)域甚至取得了超越人類的表現(xiàn)。但當(dāng)前的深度學(xué)習(xí)算法模型大部分都是以有監(jiān)督的方式訓(xùn)練,模型嚴(yán)重依賴于大量的標(biāo)注數(shù)據(jù)和長(zhǎng)時(shí)間的訓(xùn)練。以知名的ImageNet數(shù)據(jù)集[12]為例,其包含1 500萬張人工標(biāo)注的圖片,超過2.2萬個(gè)類別,創(chuàng)建和標(biāo)注一個(gè)如此大規(guī)模的數(shù)據(jù)集需要耗費(fèi)許多人數(shù)月的時(shí)間才能完成。另外,依賴大量的標(biāo)記數(shù)據(jù)來獲取概念和知識(shí)與人類的學(xué)習(xí)機(jī)制不符,人類依賴很少的樣本就可以獲取一個(gè)新的概念。當(dāng)兒童第一次觀察到“貓”并被告知這種動(dòng)物是“貓”以后,兒童并不需要長(zhǎng)期被重復(fù)告知這是“貓”,但監(jiān)督學(xué)習(xí)的方式需要大量的樣本以及多次重復(fù)訓(xùn)練,才能掌握“貓”的概念。以類似人類的方式,通過有限樣本或者無監(jiān)督的方式獲取知識(shí)和表征,成為當(dāng)前人工智能領(lǐng)域的熱點(diǎn)研究問題。

        另外,人類與其他動(dòng)物的一個(gè)重要區(qū)別是人類有很強(qiáng)的預(yù)測(cè)能力。盡管一些動(dòng)物也有一些預(yù)測(cè)能力,例如在圍捕獵物、躲避天敵和預(yù)測(cè)天氣變化上等;但人類顯然有更強(qiáng)的推理和預(yù)測(cè)能力,例如,人類駕駛汽車時(shí)可以推理其他汽車的運(yùn)行軌跡,提前決策。當(dāng)前計(jì)算機(jī)視覺領(lǐng)域的研究,也逐漸開始借鑒人類這種“預(yù)測(cè)編碼”能力。

        在這種背景下,視頻預(yù)測(cè)因其可以用海量的無標(biāo)注自然視頻數(shù)據(jù)來訓(xùn)練,而且具有廣泛的應(yīng)用場(chǎng)景,成為了當(dāng)前深度學(xué)習(xí)研究領(lǐng)域的一個(gè)熱點(diǎn)研究方向,并且已經(jīng)取得了一定的研究成果。

        給出一個(gè)視頻序列,預(yù)測(cè)未來視頻,這需要構(gòu)建一個(gè)可以精準(zhǔn)建模視頻內(nèi)容和動(dòng)態(tài)變化的內(nèi)部表征模型,這也是視頻預(yù)測(cè)被視為無監(jiān)督表征學(xué)習(xí)的一個(gè)很有前景的研究方向的原因。視頻預(yù)測(cè)模型學(xué)習(xí)到的表征可以遷移到監(jiān)督學(xué)習(xí)任務(wù)中。例如,文獻(xiàn)[13]通過實(shí)驗(yàn)證明,通過無監(jiān)督視頻預(yù)測(cè)模型學(xué)習(xí)到的表征可以在動(dòng)作識(shí)別數(shù)據(jù)集上提升分類結(jié)果,因此建模視頻動(dòng)態(tài)是一種有效的無監(jiān)督表征學(xué)習(xí)方法。另外,在視頻中推斷未來的場(chǎng)景可以使機(jī)器人、自動(dòng)駕駛汽車和無人機(jī)提前決策,因此有廣泛的應(yīng)用價(jià)值。

        1 深度學(xué)習(xí)概述

        機(jī)器學(xué)習(xí)算法是一種可以自動(dòng)從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,并利用此規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法,機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、搜索、推薦系統(tǒng)以及策略游戲等眾多領(lǐng)域得到了廣泛的應(yīng)用,取得了突出的成果。然而,自然界的原始數(shù)據(jù),例如圖像、視頻和傳感器測(cè)量數(shù)據(jù)等一般具有高維度、高復(fù)雜性和高冗余性的特點(diǎn),人工提取特征需要依賴專家知識(shí),費(fèi)時(shí)費(fèi)力且提取到的特征通常不太好。而傳統(tǒng)機(jī)器學(xué)習(xí)算法往往依賴人工提取特征,導(dǎo)致實(shí)際的機(jī)器學(xué)習(xí)問題退化為數(shù)據(jù)預(yù)處理和特征工程[2],成為機(jī)器學(xué)習(xí)應(yīng)用和發(fā)展的一大障礙。

        深度學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)的一個(gè)分支。最早的人工神經(jīng)網(wǎng)絡(luò)研究可以追溯到Mcculloch和Pitts[14]在1943年提出的閾值邏輯單元,他們從原理上證明了人工神經(jīng)網(wǎng)絡(luò)可以計(jì)算任何算術(shù)和邏輯函數(shù)。隨后Hebb學(xué)習(xí)規(guī)則[15]、感知機(jī)[16]、反向傳播算法[17]等概念先后被提出,并得到了一定的應(yīng)用,例如手寫數(shù)字識(shí)別[18]和語音識(shí)別[7]。然而,由于當(dāng)時(shí)人們對(duì)神經(jīng)網(wǎng)絡(luò)認(rèn)識(shí)有限,計(jì)算機(jī)的計(jì)算能力也有限,神經(jīng)網(wǎng)絡(luò)并未得到過多關(guān)注。2006年,Hinton等提出以無監(jiān)督限制玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)進(jìn)行逐層預(yù)訓(xùn)練的方法來高效地訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)[19],深度學(xué)習(xí)的概念開始進(jìn)入公眾視野。2012年Krizhevsky等使用深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[18]構(gòu)建的 AlexNet模型[3]以絕對(duì)優(yōu)勢(shì)贏得了ImageNet大規(guī)模圖像識(shí)別競(jìng)賽(ILSVRC2012)的冠軍,AlexNet的成功成為了計(jì)算機(jī)視覺發(fā)展史上的轉(zhuǎn)折點(diǎn),自此深度學(xué)習(xí)得到了飛速發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[20]、自編碼網(wǎng)絡(luò) (auto encoder)[21]和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GANs)[22]及其各種變種得到了廣泛的發(fā)展和應(yīng)用。

        表征學(xué)習(xí)(或特征學(xué)習(xí), representation learning)[23]旨在利用機(jī)器自動(dòng)從原始高維數(shù)據(jù)中獲得可以被機(jī)器學(xué)習(xí)算法高效利用的特征[21]。深度學(xué)習(xí)可看作一種通過簡(jiǎn)單、非線性映射方式獲取多層特征的表征學(xué)習(xí)方法,它把原始輸入數(shù)據(jù)通過逐層映射,轉(zhuǎn)變?yōu)楦唠A的、更為抽象的特征。以分類問題為例,高層的表征放大了那些更有區(qū)分度的特征,而抑制了那些無關(guān)變量。深度學(xué)習(xí)被證明非常擅長(zhǎng)發(fā)現(xiàn)高維度數(shù)據(jù)中的復(fù)雜特征,因此在科學(xué)界和工業(yè)界得到廣泛應(yīng)用,并打破了圖像識(shí)別、語音識(shí)別和機(jī)器翻譯的記錄。

        2 深度學(xué)習(xí)主要模型

        近些年來,有越來越多的深度學(xué)習(xí)模型被提出,其中最基礎(chǔ)、最重要的模型主要有卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、自編碼器以及生成對(duì)抗網(wǎng)絡(luò),這幾種模型構(gòu)成了視頻預(yù)測(cè)模型的基礎(chǔ),下面我們簡(jiǎn)要介紹這4種主流模型。

        2.1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)是前饋神經(jīng)網(wǎng)絡(luò)的一種,這種神經(jīng)元連接模式受動(dòng)物視覺皮層檢測(cè)光學(xué)信號(hào)原理的啟發(fā)[24]。1980年Fukushima等[25]提出了CNN的前身——NeoCognitron,20世紀(jì)90年代,Lecun等[18]發(fā)表論文,確立了CNN的現(xiàn)代結(jié)構(gòu),這是一種多層的人工神經(jīng)網(wǎng)絡(luò),取名為L(zhǎng)eNet-5。自2012年起,研究人員又不斷提出更深、性能更強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)模型:AlexNet[3]、VGGNet[5]和 ResNet[6]等。卷積神經(jīng)網(wǎng)絡(luò)一般是由多個(gè)卷積層和全連接層組成,卷積操作、局部連接性和權(quán)值共享是卷積神經(jīng)網(wǎng)絡(luò)最顯著的特點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)通常用來處理2-D結(jié)構(gòu)的數(shù)據(jù),其在圖像領(lǐng)域和語音識(shí)別上都得到了廣泛的應(yīng)用。

        2010年,Zeiler等[26]首次提出了反卷積(卷積轉(zhuǎn)置或小數(shù)步進(jìn)卷積,Deconvolution)的概念,用于卷積神經(jīng)網(wǎng)絡(luò)的特征可視化以及圖像無監(jiān)督特征學(xué)習(xí)。反卷積網(wǎng)絡(luò)被越來越多的模型所采用,例如圖像語義分割[27]、生成模型[28]等。另外,為處理序列圖像,Ji等[29]使用3-D卷積去提取數(shù)據(jù)的空間和時(shí)間特征,從而可以使卷積神經(jīng)網(wǎng)絡(luò)能很好地處理序列信息,3-D卷積在人體動(dòng)作識(shí)別等領(lǐng)域取得了顯著的結(jié)果。

        2.2 遞歸神經(jīng)網(wǎng)絡(luò)

        遞歸神經(jīng)網(wǎng)絡(luò)[20]是一種處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),它把狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞,能夠處理任意長(zhǎng)度的序列,遞歸神經(jīng)網(wǎng)絡(luò)比前饋神經(jīng)網(wǎng)絡(luò)更加符合生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。

        因?yàn)镽NN容易受到梯度消失或者梯度爆炸的影響,Schmidhuber等[30]在1997年提出了長(zhǎng)短期記憶(long short term memory, LSTM)神經(jīng)網(wǎng)絡(luò),該模型增加了“遺忘門”和“更新門”。實(shí)驗(yàn)表明,LSTM模型能有效避免梯度消失或者梯度爆炸的問題,很好地解決了長(zhǎng)期依賴問題。隨后學(xué)者提出了很多LSTM模型的變體。Gers等[31]于2001年提出了窺視孔LSTM(peephole LSTM),該模型增加了一個(gè)窺視孔連接,意味著可以讓門限層監(jiān)視神經(jīng)元狀態(tài)。Cho等[32]于2014年提出了門遞歸單元(gated recurrent unit, GRU),它組合遺忘門和輸入門為一個(gè)“更新門”,合并了神經(jīng)元狀態(tài)和隱層狀態(tài),這個(gè)模型比標(biāo)準(zhǔn)的LSTM模型更簡(jiǎn)單。Shi等[33]在2015年提出了卷積LSTM(convolutional LSTM),把卷積層和遞歸層做了很好的結(jié)合,卷積LSTM與常規(guī)LSTM的區(qū)別是把部分矩陣乘積操作換成了卷積操作。因?yàn)榫矸eLSTM可以很好地處理圖像的空間信息和時(shí)間動(dòng)態(tài)信息,它在圖像生成模型和視頻處理等領(lǐng)域得到了廣泛應(yīng)用。

        2.3 自編碼器

        自編碼器是一種以無監(jiān)督的方式來學(xué)習(xí)數(shù)據(jù)表征的神經(jīng)網(wǎng)絡(luò),通常用來做數(shù)據(jù)降維[21]。自編碼器通常分為編碼器和解碼器兩部分,編碼器將數(shù)據(jù)編碼為潛在變量,解碼器將潛在變量重建為原數(shù)據(jù)。

        自編碼器有很多變體,例如降噪自編碼器[34]、稀疏自編碼器[35]、變分自編碼器(VAE)[36-37]。因?yàn)樽跃幋a器可以高效地進(jìn)行數(shù)據(jù)降維,相當(dāng)一部分視頻預(yù)測(cè)模型采用了自編碼器架構(gòu)。

        2.4 生成對(duì)抗網(wǎng)絡(luò)

        Goodfellow等[22]在2014年提出了生成對(duì)抗網(wǎng)絡(luò)的概念,其為生成模型提供了一種全新的高效訓(xùn)練模式,近兩年來生成對(duì)抗網(wǎng)絡(luò)成為了機(jī)器學(xué)習(xí)領(lǐng)域最熱門的研究方向之一。LeCun認(rèn)為“生成對(duì)抗網(wǎng)絡(luò)是過去十年來機(jī)器學(xué)習(xí)領(lǐng)域最有趣的想法”,很多GAN的衍生模型,如條件GAN(condition GAN)[38]、InfoGAN[39]、DCGAN[28]相繼被提出。

        生成對(duì)抗網(wǎng)絡(luò)由一個(gè)生成器(generator, G)和一個(gè)判別器(discriminator,D)組成。生成器輸入一個(gè)潛在編碼,其輸出需無限逼近真實(shí)樣本;判別器的輸入為真實(shí)樣本和生成器的輸出,并識(shí)別出真實(shí)樣本和生成樣本。兩個(gè)網(wǎng)絡(luò)以零和博弈的方式交替訓(xùn)練,訓(xùn)練鑒別器時(shí)最小化鑒別誤差,訓(xùn)練生成器時(shí)最大化鑒別誤差,最終目的是使鑒別器無法鑒別出生成樣本和真實(shí)樣本,生成器的輸出與真實(shí)樣本分布一致。生成對(duì)抗網(wǎng)絡(luò)的架構(gòu)如圖1所示。

        圖 1 生成對(duì)抗網(wǎng)絡(luò)架構(gòu)Fig. 1 Architecture of generative adversarial nets

        生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)可以用式(1)描述:

        生成對(duì)抗網(wǎng)絡(luò)在生成逼真的自然樣本[28]、圖像超分辨率[40]、三維建模[41]、圖像風(fēng)格遷移[42]和視頻預(yù)測(cè)領(lǐng)域[43]得到了廣泛應(yīng)用。

        3 運(yùn)動(dòng)預(yù)測(cè)研究

        給出一張靜態(tài)圖片或者一段場(chǎng)景視頻,人類不僅可以迅速地獲取圖像中的即時(shí)內(nèi)容,還可以推斷出圖像中的場(chǎng)景動(dòng)態(tài)。然而,對(duì)于計(jì)算機(jī)來說,推演出圖像中的場(chǎng)景動(dòng)態(tài)是一個(gè)比較困難的任務(wù),因?yàn)樗蕾囉?jì)算機(jī)利用自然界大量難以參數(shù)化的知識(shí)來建模[44]。

        在視頻預(yù)測(cè)研究興起之前,學(xué)術(shù)界比較關(guān)注的是運(yùn)動(dòng)預(yù)測(cè)。運(yùn)動(dòng)預(yù)測(cè)一般是指從靜態(tài)圖像或視頻前幾幀中推斷出人體動(dòng)作、物體移動(dòng)軌跡等動(dòng)態(tài)信息;而視頻預(yù)測(cè)是從靜態(tài)圖片或視頻前幾幀中直接預(yù)測(cè)未來圖像。本節(jié)我們對(duì)動(dòng)作、運(yùn)動(dòng)和物體移動(dòng)軌跡預(yù)測(cè)算法進(jìn)行簡(jiǎn)要回顧。

        3.1 動(dòng)作和運(yùn)動(dòng)預(yù)測(cè)

        從靜態(tài)圖像或有限幀視頻中預(yù)測(cè)人類動(dòng)作和行為是一個(gè)比較基礎(chǔ)也比較重要的任務(wù)。在動(dòng)作預(yù)測(cè)方面,研究人員主要使用統(tǒng)計(jì)學(xué)習(xí)方法和傳統(tǒng)的機(jī)器學(xué)習(xí)方法來建模。Lan等[45]和Hoai等[46]使用最大化邊界框架來推測(cè)動(dòng)作場(chǎng)景;Ryoo[47]把動(dòng)作預(yù)測(cè)問題概率化,使用時(shí)空特征積分直方圖來建模特征分布如何隨時(shí)間變化;Vu等[48]提出了一種使用動(dòng)作和場(chǎng)景之間的關(guān)聯(lián)信息,從靜態(tài)場(chǎng)景中預(yù)測(cè)人類動(dòng)作的方法;Pei等[49]提出了一種基于隨機(jī)場(chǎng)景感知語法的事件解析、推斷事件目標(biāo)和預(yù)測(cè)可信動(dòng)作的算法,與Vu的方法類似,該方法使用事件的層次組成和子事件間的時(shí)態(tài)關(guān)系來鑒別不同事件以及預(yù)測(cè)動(dòng)作;Fouhey等[50]和Koppula等[51]通過使用條件隨機(jī)場(chǎng)來建模人的可能動(dòng)作從而來做未來場(chǎng)景的預(yù)測(cè)。

        Huang等[52]提出了一種基于雙實(shí)體交互的方式來理解一個(gè)實(shí)體的動(dòng)作如何影響另外一個(gè)實(shí)體的動(dòng)作。本文把雙實(shí)體交互模型看作一種最優(yōu)控制問題,該模型使用一種基于核以及增強(qiáng)學(xué)習(xí)的近似軟最大值函數(shù)去處理高維度的自然人體運(yùn)動(dòng),另外還使用了連續(xù)代價(jià)函數(shù)的均值轉(zhuǎn)移方法來平滑動(dòng)作序列。

        Pickup 等[53]、Lampert等[54]和 Pintea 等[55]分別用統(tǒng)計(jì)流方法、向量值回歸和隨機(jī)森林回歸算法回歸物體移動(dòng)方向;Pintea等還論證了運(yùn)動(dòng)預(yù)測(cè)在動(dòng)作識(shí)別、運(yùn)動(dòng)顯著性檢測(cè)等方面有很大的應(yīng)用價(jià)值。也有學(xué)者使用深度學(xué)習(xí)進(jìn)行動(dòng)作預(yù)測(cè)。Vondrick等[44]提出一種用深度回歸網(wǎng)絡(luò)的方法來學(xué)習(xí)視頻表征,結(jié)合動(dòng)作識(shí)別模型,能夠很好地根據(jù)靜態(tài)圖像來推測(cè)未來動(dòng)作。

        3.2 物體移動(dòng)軌跡預(yù)測(cè)

        除人體動(dòng)作和運(yùn)動(dòng)預(yù)測(cè)外,物體軌跡預(yù)測(cè)也具有廣泛的應(yīng)用價(jià)值。Kitani等[56]提出了一種基于馬爾可夫決策過程和反轉(zhuǎn)最優(yōu)控制的動(dòng)作理解和軌跡預(yù)測(cè)方法,并在運(yùn)動(dòng)分析(包括運(yùn)動(dòng)平滑、路徑和目的地預(yù)測(cè))以及場(chǎng)景遷移學(xué)習(xí)上做了定量和定性的評(píng)估。Kitani等[56]和Gong等[57]都提出用行人軌跡預(yù)測(cè)來輔助多目標(biāo)追蹤,并取得了高效的結(jié)果。

        Kooij等[58]提出了一種動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)來做行人路徑預(yù)測(cè);Walker等[59]使用條件變分自編碼器來預(yù)測(cè)靜態(tài)圖像中每個(gè)像素的運(yùn)動(dòng)軌跡;Walker等[60]使用光流算法來標(biāo)記視頻,進(jìn)而訓(xùn)練一個(gè)光流預(yù)測(cè)模型,該模型可以預(yù)測(cè)每個(gè)像素的運(yùn)動(dòng);Walker等[61]還嘗試了通過獎(jiǎng)賞函數(shù)選擇最優(yōu)目標(biāo)的方式建模汽車運(yùn)動(dòng)的軌跡。

        Yuen等[62]提出一種基于大數(shù)據(jù)的方法,通過檢索大數(shù)據(jù)中與被檢索圖片或視頻相似場(chǎng)景的方式來預(yù)測(cè)物體可能的位置,該方法類似于k近鄰算法,不需要訓(xùn)練模型,在數(shù)據(jù)量足夠大的情況下可以取得比較好的效果;Mottaghi等[63]使用兩個(gè)CNN和一個(gè)RNN來建模物體移動(dòng)動(dòng)態(tài),從而預(yù)測(cè)可能移動(dòng)的物體。

        運(yùn)動(dòng)預(yù)測(cè)模型一般從建模移動(dòng)物體的運(yùn)動(dòng)軌跡出發(fā),能較好地預(yù)測(cè)前景物體的瞬時(shí)運(yùn)動(dòng)軌跡,其處理的數(shù)據(jù)維度低于視頻預(yù)測(cè),但不能預(yù)測(cè)圖像的結(jié)構(gòu)信息,且其學(xué)習(xí)到的特征無法遷移到有監(jiān)督學(xué)習(xí)領(lǐng)域,因而其應(yīng)用范圍和價(jià)值有限。

        4 視頻預(yù)測(cè)模型架構(gòu)

        “不是我創(chuàng)造的,我就不能理解。”著名物理學(xué)家Feynman這句話背后的內(nèi)涵是:通過構(gòu)建驗(yàn)證過的概念來理解事物。在人工智能領(lǐng)域,可以理解為:如果一個(gè)機(jī)器能夠生成高度真實(shí)的數(shù)據(jù),那么它就發(fā)展出了對(duì)自然數(shù)據(jù)的理解能力。

        視頻預(yù)測(cè)是指給出一段連續(xù)視頻幀X1,X2,···,Xn,構(gòu)造一個(gè)模型可以精準(zhǔn)地生成隨后的幀Xn+1,Xn+2,···,Xn+t(t是需要預(yù)測(cè)的幀的數(shù)量)?;蛘撸o出一段序列 X1,X2,···,XN,其中是缺失的,模型可以推斷缺失的幀(插值)。視頻預(yù)測(cè)不需要額外的標(biāo)注信息,因此屬于無監(jiān)督學(xué)習(xí)的范疇。

        一般常用于評(píng)估視頻質(zhì)量的指標(biāo)有均方誤差(mean square error, MSE)、峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity index,SSIM)。用Y來表示真實(shí)幀,表示預(yù)測(cè)幀,MSE、PSNR和SSIM的定義如式(2)~(4):

        視頻預(yù)測(cè)為一個(gè)較新的研究領(lǐng)域,目前尚未有專用于視頻預(yù)測(cè)的數(shù)據(jù)集,學(xué)者一般使用視頻動(dòng)作數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試。表1給出了部分常用數(shù)據(jù)集和使用該數(shù)據(jù)集的部分文獻(xiàn)。

        視頻預(yù)測(cè)模型一般基于自編碼器架構(gòu)、遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)和生成對(duì)抗網(wǎng)絡(luò)架構(gòu),表2為部分基于以上3類架構(gòu)的視頻預(yù)測(cè)文獻(xiàn)概覽。下面我們按照這3類進(jìn)行介紹。

        表 1 視頻預(yù)測(cè)算法常用數(shù)據(jù)集Table 1 Common datasets used by video prediction algorithms

        4.1 自編碼器架構(gòu)

        自編碼器因其可以進(jìn)行高效的壓縮編碼,因而很多視頻預(yù)測(cè)模型采用自編碼器來進(jìn)行視頻的降維和生成。基于自編碼器的視頻預(yù)測(cè)常用架構(gòu)如圖2所示。

        表 2 視頻預(yù)測(cè)算法概覽Table 2 Overview of video prediction algorithms

        圖 2 基于自編碼器的視頻預(yù)測(cè)模型架構(gòu)Fig. 2 Architecture of video prediction based on auto encoder

        Yan等[81]提出了一種深度動(dòng)態(tài)編碼器模型(deep DynEncoder),該模型輸入原始像素圖像,經(jīng)編碼器編碼成隱狀態(tài)變量,然后使用動(dòng)態(tài)預(yù)測(cè)器(DynPredictor)將時(shí)序動(dòng)態(tài)編碼。使用合適的堆疊策略、逐層預(yù)訓(xùn)練和聯(lián)合微調(diào),可以構(gòu)建多層深度動(dòng)態(tài)編碼器。實(shí)驗(yàn)表明,文獻(xiàn)[81]提到的方法可以描繪復(fù)雜的視頻動(dòng)態(tài),合成高質(zhì)量的紋理序列視頻。作者還構(gòu)造了基于深度動(dòng)態(tài)編碼器模型的分類和聚類方法,在交通場(chǎng)景分類和運(yùn)動(dòng)分割上取得了接近甚至優(yōu)于之前最好的模型的效果。

        Vukoti等[65]提出基于時(shí)間差的卷積自編碼器模型。編碼器有兩個(gè)分支,一個(gè)接收輸入圖像,另外一個(gè)接收期望預(yù)測(cè)的時(shí)間差,解碼器根據(jù)編碼器輸出的潛在變量生成可信的圖像。以沒有時(shí)間差輸入的常規(guī)卷積自編碼器模型為基準(zhǔn),作者提出的方法在KTH數(shù)據(jù)集上生成的圖像有更高的語義性,均方誤差也更低。然而,該模型存在諸多不足,例如生成的人體動(dòng)作具有歧義,不能很好地建模快速移動(dòng)的物體,不能充分地處理前景和背景信息等。

        Liu等[73]提出一種深度體元流模型,該模型是一種全卷積自編碼器架構(gòu),由3個(gè)卷積層、3個(gè)反卷積層和一個(gè)瓶頸層組成。為更好地保留空間信息,在每個(gè)卷積層和反卷積層之間有跳躍連接。在UCF-101和THUMOS-15數(shù)據(jù)集上的內(nèi)插和外推視頻實(shí)驗(yàn)上的結(jié)果表明,該模型比文獻(xiàn)[70]中提到的多尺度對(duì)抗訓(xùn)練架構(gòu)和光流法的結(jié)果要更優(yōu)。

        Xue等[87]提出一種基于變分自編碼器和交叉卷積網(wǎng)絡(luò)的模型,該模型可以從一張圖片生成可能的未來幀。該模型通過條件變分自編碼器來建模未來幀的復(fù)雜條件分布。另外,該模型利用了圖像差分(歐拉運(yùn)動(dòng))原理,因?yàn)閳D像差分是稀疏的,并且比原始圖像更容易建模。Xue等還在合成數(shù)據(jù)集與自然圖像上驗(yàn)證了模型的有效性,另外,作者還通過實(shí)驗(yàn)證明了該模型在無監(jiān)督、零樣本類比學(xué)習(xí)上取得了很好的結(jié)果。

        4.2 遞歸神經(jīng)網(wǎng)絡(luò)(RNN)架構(gòu)

        遞歸神經(jīng)網(wǎng)絡(luò)可以很好地進(jìn)行序列數(shù)據(jù)建模,視頻預(yù)測(cè)本身也是一種序列學(xué)習(xí)問題,很多研究人員采用遞歸神經(jīng)網(wǎng)絡(luò)來解決視頻預(yù)測(cè)問題?;诰幗獯a的遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖3(a)所示。

        圖 3 視頻預(yù)測(cè)模型的抽象結(jié)構(gòu)Fig. 3 Abstract architecture of video prediction model

        Ranzato等[82]從自然語言處理領(lǐng)域借鑒了經(jīng)典的n-grams算法,將之與CNN和RNN結(jié)合起來,給出了一個(gè)視頻預(yù)測(cè)和視頻插值的基準(zhǔn)。Ranzato還在RNN架構(gòu)基礎(chǔ)上提出了遞歸卷積神經(jīng)網(wǎng)絡(luò)(recurrent convolution neural network, RCNN)架構(gòu),RCNN是在RNN輸入和輸出端連接卷積層,使其能夠更好地處理圖像結(jié)構(gòu)信息。

        Srivastava等[13]提出了一種使用LSTM架構(gòu)的無監(jiān)督視頻表征學(xué)習(xí)模型。該模型將圖像經(jīng)過編碼器編碼后送入LSTM網(wǎng)絡(luò),解碼器可以重建原視頻,或者預(yù)測(cè)未來視頻。然而,一個(gè)高容量的自編碼器網(wǎng)絡(luò)傾向于記憶輸入數(shù)據(jù),預(yù)測(cè)模型傾向于僅僅存儲(chǔ)最近幾幀,因此本文提出了一個(gè)復(fù)合模型,復(fù)合模型可以同時(shí)重構(gòu)原圖像、預(yù)測(cè)未來圖像,強(qiáng)迫模型來更好地學(xué)習(xí)視頻表征。Srivastava最后把無監(jiān)督學(xué)習(xí)過程學(xué)習(xí)到的表征應(yīng)用到有監(jiān)督學(xué)習(xí)——?jiǎng)幼鞣诸愔?,?shí)驗(yàn)結(jié)果表明,在訓(xùn)練樣本很少的情況下,無監(jiān)督視頻預(yù)測(cè)學(xué)習(xí)到的特征顯著提升了分類結(jié)果。

        Lotter等[76]從神經(jīng)科學(xué)的“預(yù)測(cè)編碼”概念獲得啟發(fā),提出了一種視頻預(yù)測(cè)架構(gòu)——PredNet,該架構(gòu)的每一層只做局部預(yù)測(cè),向后面的層傳遞殘差。PredNet在KITTI數(shù)據(jù)集上的結(jié)果表明其可以統(tǒng)一建模背景和移動(dòng)物體(車輛、行人)的運(yùn)動(dòng)。

        Oh等[83]受DeepMind使用雅利達(dá)(Atari)游戲進(jìn)行增強(qiáng)學(xué)習(xí)研究的啟發(fā),提出未來圖像不僅與過去的圖像有關(guān),還與當(dāng)前的操作行為有關(guān)。Oh因此提出一種由編碼器、操作變換和基于CNN和RNN的解碼器組成的模型。實(shí)驗(yàn)結(jié)果表明,基于操作信息的條件模型可以生成視覺上較真實(shí)的、可用于游戲控制的大約100幀預(yù)測(cè)視頻。Finn等[84]隨后也提出了基于動(dòng)作的視頻預(yù)測(cè)模型,該模型可以根據(jù)不同的動(dòng)作預(yù)測(cè)不同的視頻,該模型主要由卷積LSTM構(gòu)成,通過跳躍連接(skip connection)保存圖形背景信息,最后通過掩膜(mask)把背景和轉(zhuǎn)變圖像拼接起來。作者提出3個(gè)不同的架構(gòu):動(dòng)態(tài)神經(jīng)平流、卷積動(dòng)態(tài)神經(jīng)平流和空間變換預(yù)測(cè)器。這3個(gè)模型在視頻預(yù)測(cè)上都取得了不錯(cuò)的結(jié)果。

        以上提到的方法都是直接預(yù)測(cè)高階的視頻,由于誤差累積和放大,預(yù)測(cè)多幀視頻是一個(gè)非常困難的任務(wù)。Villegas等[68]用高階結(jié)構(gòu)信息輔助進(jìn)行視頻預(yù)測(cè)。他們提出的算法先從輸入圖像中提取人體骨架結(jié)構(gòu),然后預(yù)測(cè)骨架結(jié)構(gòu)的變化,與參考圖片聯(lián)結(jié)在一起生成動(dòng)作視頻。實(shí)驗(yàn)表明,這種以高階結(jié)構(gòu)信息為條件的視頻生成策略有效減小了誤差傳播和累積,在Human3.6M等數(shù)據(jù)集上取得了較好的效果,且可以預(yù)測(cè)多達(dá)128幀的視頻。但是該方法僅能預(yù)測(cè)一種可能的運(yùn)動(dòng),而且背景信息保持不變,不能建模背景的變化,因此有一定的局限性。

        有些研究人員試圖將背景和運(yùn)動(dòng)分開建模。Villegas等[72]提出一種基于自編碼器、CNN和卷積LSTM架構(gòu)的模型,該模型有兩個(gè)編碼器輸入,其中一個(gè)編碼器接收?qǐng)D像序列差分作為運(yùn)動(dòng)輸入,使用LSTM建模運(yùn)動(dòng)動(dòng)態(tài),另一個(gè)編碼器接收最后一幀靜態(tài)圖像,然后將LSTM的輸出與靜態(tài)圖像的編碼輸出組合起來,經(jīng)由解碼器解碼為預(yù)測(cè)圖像。作者還提出多尺度殘差版本,將編碼器各個(gè)池化層的輸出通過快捷連接接入到解碼器,以更好地保存圖像的結(jié)構(gòu)信息。

        4.3 生成對(duì)抗訓(xùn)練架構(gòu)

        生成對(duì)抗網(wǎng)絡(luò)為機(jī)器學(xué)習(xí)領(lǐng)域引入了一種新的訓(xùn)練模式,其優(yōu)越的性能引起了眾多學(xué)者的關(guān)注,也有很多學(xué)者采用對(duì)抗訓(xùn)練的方式來進(jìn)行視頻預(yù)測(cè)。一種常用的基于編解碼與生成對(duì)抗網(wǎng)絡(luò)的視頻預(yù)測(cè)架構(gòu)如圖3(b)所示。

        Lotter等[80]提出了基于編碼器、LSTM和解碼器的預(yù)測(cè)生成模型,通過對(duì)抗訓(xùn)練的方式,在“彈球”數(shù)據(jù)集和計(jì)算機(jī)生成的旋轉(zhuǎn)人臉數(shù)據(jù)集上取得了很好的結(jié)果,作者還論證了無監(jiān)督預(yù)測(cè)學(xué)習(xí)是一種有力的表征學(xué)習(xí)方法。

        在度量生成樣本和真實(shí)樣本的距離上,學(xué)者通常使用l1或者l2距離,然而,實(shí)驗(yàn)表明,僅使用l1或者l2距離作為損失函數(shù)會(huì)導(dǎo)致生成圖像較為模糊,當(dāng)向前預(yù)測(cè)更多幀的時(shí)候,該問題更為嚴(yán)重。Mathieu等[70]為解決預(yù)測(cè)圖像模糊的問題,提出3個(gè)互補(bǔ)的解決策略:多尺度架構(gòu)、對(duì)抗訓(xùn)練方法和圖像梯度差分損失函數(shù)。

        受限于卷積核的大小問題,卷積操作僅能處理短范圍的依賴;另外,使用池化還會(huì)導(dǎo)致分辨率降低,文獻(xiàn)[70]使用多尺度網(wǎng)絡(luò),通過在多個(gè)不同尺度的圖像進(jìn)行上采樣和線性組合操作來更好的保持高分辨率。

        為解決使用l1或者l2損失函數(shù)導(dǎo)致的圖像模糊問題,文獻(xiàn)[70]使用對(duì)抗訓(xùn)練方法。使用對(duì)抗訓(xùn)練方法,模型生成的圖像更銳利。然而僅優(yōu)化對(duì)抗損失函數(shù)會(huì)產(chǎn)生訓(xùn)練不穩(wěn)定問題,生成器生成的圖像通??梢陨伞懊曰蟆辫b別器的樣本,然而卻與真實(shí)樣本Y并不相似。為解決這個(gè)問題,作者使生成器采用對(duì)抗損失和lp組合損失函數(shù)。通過加入損失函數(shù)迫使預(yù)測(cè)圖像的分布與真實(shí)圖像的分布保持一致。

        Mathieu等[70]還提出一種圖像梯度差分損失,通過引入近鄰圖像強(qiáng)度差異來懲罰預(yù)測(cè)樣本和真實(shí)樣本之間的梯度不一致性。最終生成器損失函數(shù)為對(duì)抗損失、l2損失和圖像梯度差分損失的加權(quán)和。Mathieu的實(shí)驗(yàn)結(jié)果表明,使用對(duì)抗損失函數(shù)和梯度差分損失函數(shù),性能要超過僅使用l2損失函數(shù),并且在圖像銳利度上要遠(yuǎn)好于l2損失函數(shù)。Hintz[71]受文獻(xiàn)[70]的啟發(fā),將生成器替換為儲(chǔ)蓄池計(jì)算,鑒別器結(jié)構(gòu)以及訓(xùn)練方法與文獻(xiàn)[70]保持相同。作者在UCF-101數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,雖然其在PSNR和SSIM評(píng)測(cè)上結(jié)果略低于文獻(xiàn)[70],但其收斂時(shí)間明顯快于前者,也取得了相當(dāng)好的結(jié)果。

        圖像語義分割具有廣泛的應(yīng)用價(jià)值。Luc等[85]在文獻(xiàn)[70]的基礎(chǔ)上,使用多尺度架構(gòu)和對(duì)抗訓(xùn)練方法來預(yù)測(cè)語義分割圖像。實(shí)驗(yàn)結(jié)果表明,預(yù)測(cè)語義分割圖像的精度要好于直接預(yù)測(cè)RGB圖像,且預(yù)測(cè)分割圖像的平均IoU達(dá)到了真實(shí)圖像分割結(jié)果的2/3。

        Vondrick等[43]提出使用時(shí)空卷積生成對(duì)抗網(wǎng)絡(luò)的視頻預(yù)測(cè)模型VGNN,該模型利用時(shí)空卷積網(wǎng)絡(luò)將前景和背景解耦。本文使用生成對(duì)抗網(wǎng)絡(luò)從潛在編碼向量生成高維視頻,分別提出了由時(shí)空卷積和反卷積組成的單流架構(gòu),以及可以建模靜態(tài)的背景和動(dòng)態(tài)的前景的雙流架構(gòu)。該模型在超過200萬條視頻上訓(xùn)練后可以自己“創(chuàng)作”視頻內(nèi)容。作者以自編碼器架構(gòu)作為基準(zhǔn),經(jīng)“亞馬遜土耳其機(jī)器人”測(cè)試。結(jié)果表明,雙流對(duì)抗網(wǎng)絡(luò)性能優(yōu)于對(duì)應(yīng)的單流對(duì)抗網(wǎng)絡(luò),遠(yuǎn)優(yōu)于自編碼器網(wǎng)絡(luò),甚至有20%的人認(rèn)為模型生成的視頻比自然視頻更“真實(shí)”。在預(yù)測(cè)未來幀問題上,Vondrick等在生成器前加入一個(gè)編碼器,將靜態(tài)圖片編碼為潛在編碼向量,作為雙流生成對(duì)抗網(wǎng)絡(luò)的輸入,生成模型可以生成32幀的視頻(一般視頻是25幀/秒,因此模型可以生成約1.5 s的視頻)。結(jié)果表明,生成器生成的視頻雖然不是嚴(yán)格意義上的正確視頻,但在語義上是可接受的。

        Vondrick等最終把通過無監(jiān)督方式學(xué)習(xí)到的鑒別模型參數(shù)用在監(jiān)督學(xué)習(xí)任務(wù)上(例如動(dòng)作分類),將鑒別器最后一層替換為Softmax分類器。實(shí)驗(yàn)結(jié)果表明,使用無監(jiān)督學(xué)習(xí)到的參數(shù)初始化分類器,在同樣樣本量大小情況下,其分類性能高于隨機(jī)初始化的網(wǎng)絡(luò),對(duì)比效果圖見圖4。Jin等[79]使用基于生成對(duì)抗網(wǎng)絡(luò)的時(shí)空特征學(xué)習(xí)方法,結(jié)合預(yù)測(cè)轉(zhuǎn)向解析模型,可以增強(qiáng)現(xiàn)有的場(chǎng)景解析模型。其實(shí)驗(yàn)結(jié)果表明,其在Cityscapes視頻分割數(shù)據(jù)集上取得了較好的結(jié)果。

        Denton等[88]也提出將視頻背景內(nèi)容和運(yùn)動(dòng)前景分開編碼的視頻表征分解模型,與文獻(xiàn)[80]不同的是,文獻(xiàn)[88]是以生成對(duì)抗網(wǎng)絡(luò)的方式訓(xùn)練背景內(nèi)容編碼器、運(yùn)動(dòng)姿勢(shì)編碼器以及解碼器。在KTH數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,文獻(xiàn)[88]的視頻預(yù)測(cè)在準(zhǔn)確性和圖像銳利性方面要好于文獻(xiàn)[80]。作者還提出,背景內(nèi)容編碼器可以構(gòu)建圖像分類模型,運(yùn)動(dòng)前景編碼器可以構(gòu)建視頻動(dòng)作分類模型。

        圖 4 在UCF101數(shù)據(jù)集上,VGAN鑒別器參數(shù)初始化分類器、隨機(jī)值初始化分類器以及隨機(jī)猜測(cè)類別的性能對(duì)比Fig. 4 Performance comparison of classifier initialized by VGAN discriminator’s parameters, classifier initialized by random value and random classification on UCF101

        與文獻(xiàn)[68]類似,Yan等[67]基于條件GAN架構(gòu),用人體骨骼作為輔助信息,可以生成多幀栩栩如生的運(yùn)動(dòng)視頻。

        Chen等[86]提出一種雙向預(yù)測(cè)網(wǎng)絡(luò)來進(jìn)行視頻插值,該模型采用編碼器—解碼器架構(gòu),通過兩個(gè)編碼器分別編碼起始幀和結(jié)尾幀,從而產(chǎn)生一個(gè)潛在表征,解碼器以潛在表征作為輸入來生成多幀插值視頻。該模型采用多尺度架構(gòu),其損失函數(shù)為l2重建損失、特征空間損失(以AlexNet最后一個(gè)卷積層提取到的特征作為基準(zhǔn))與對(duì)抗損失的加權(quán)和。該模型在合成2D數(shù)據(jù)集和UCF101數(shù)據(jù)集上的結(jié)果表明,其比基于光流場(chǎng)的模型的效果要更好。

        5 結(jié)束語

        當(dāng)前深度有監(jiān)督學(xué)習(xí)在計(jì)算機(jī)視覺、自然語言處理和機(jī)器翻譯等領(lǐng)域取得了遠(yuǎn)超傳統(tǒng)方法的性能,但這些成就多屬于深度學(xué)習(xí)在感知層面的工作,這屬于人工智能的第一步;下一步就是讓機(jī)器能夠理解自然界變化的規(guī)律,對(duì)自然界動(dòng)態(tài)進(jìn)行建模,使其能夠?qū)ΜF(xiàn)實(shí)世界中將要發(fā)生的事情進(jìn)行預(yù)測(cè),要達(dá)到這一步,需要借助于無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)因其可以在自然界海量的無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,且應(yīng)用范圍廣泛,因而被譽(yù)為“深度學(xué)習(xí)的圣杯”。

        視頻預(yù)測(cè)作為無監(jiān)督學(xué)習(xí)的一個(gè)最新的也是最有前景的研究方向之一,其意義不僅在于能夠很好地建模視頻場(chǎng)景來推測(cè)未來視頻,從而幫助機(jī)器能夠更好地決策,還在于其以無監(jiān)督方式學(xué)習(xí)到的內(nèi)部視覺表征可以加速或提升弱監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)的性能,因此得到了越來越多學(xué)者的關(guān)注,也取得了非常多的進(jìn)展。但是,現(xiàn)有的方法仍舊存在許多不足:

        1)當(dāng)前提出的各種模型,結(jié)構(gòu)比較單一,多數(shù)是基于自編碼器、遞歸神經(jīng)網(wǎng)絡(luò)(包括LSTM)和生成對(duì)抗網(wǎng)絡(luò),雖然這些架構(gòu)取得了不錯(cuò)的效果,但是仍無法高效建模自然界復(fù)雜的動(dòng)態(tài)結(jié)構(gòu),導(dǎo)致當(dāng)前的模型僅能預(yù)測(cè)有限的幾幀或者幾十幀圖像,且在預(yù)測(cè)的后期畫面會(huì)變模糊或者失去語義信息。

        2)目前學(xué)術(shù)界使用的視頻預(yù)測(cè)損失函數(shù)比較單一,常使用的損失函數(shù)是均方誤差損失、對(duì)抗損失函數(shù)和圖像梯度差分損失函數(shù)。因?yàn)閳D像具有高維復(fù)雜結(jié)構(gòu)信息,當(dāng)前常用損失函數(shù)沒有充分考慮結(jié)構(gòu)信息,導(dǎo)致模型預(yù)測(cè)的圖像缺乏語義信息。另外,使用峰值信噪比、結(jié)構(gòu)相似性作為圖像評(píng)價(jià)標(biāo)準(zhǔn),與人眼的視覺感知并不完全一致,人眼的視覺對(duì)于誤差的敏感度并不是絕對(duì)的,其感知結(jié)果會(huì)受到許多因素的影響而產(chǎn)生變化,因此在圖形評(píng)價(jià)指標(biāo)上仍有待研究。

        3)理論上,預(yù)測(cè)視頻動(dòng)態(tài)在機(jī)器人決策、無人駕駛和視頻監(jiān)控系統(tǒng)等領(lǐng)域具有廣泛的應(yīng)用價(jià)值,但當(dāng)前視頻預(yù)測(cè)的研究多數(shù)在學(xué)術(shù)界,且研究處于早期階段,具體在工業(yè)界的應(yīng)用還未起步。

        視頻預(yù)測(cè)學(xué)習(xí)是理解和建模自然界場(chǎng)景動(dòng)態(tài)的有力手段,也是無監(jiān)督學(xué)習(xí)的一個(gè)新的、重要的突破點(diǎn),盡管該領(lǐng)域的研究面臨著不少挑戰(zhàn)和未解決的問題,但當(dāng)前認(rèn)知科學(xué)和深度學(xué)習(xí)領(lǐng)域發(fā)展非常迅速,尤其是在增強(qiáng)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)方向,且當(dāng)前的計(jì)算機(jī)計(jì)算能力越來越強(qiáng),這些有利因素定會(huì)加速視頻預(yù)測(cè)研究的進(jìn)展。

        [1]LECUN Y. Predictive Learning[R]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016

        [2]LECUN Y, BENGIO Y, HINTON G. Deep learning[J].Nature, 2015, 521(7553): 436–444.

        [3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 26th Annual Conference on Neural Information Processing Systems 2012. South Lake Tahoe, NV, USA, 2012: 1097–1105.

        [4]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago, Chile, 2015: 1026–1034.

        [5]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[Z]. arXiv preprint arXiv: 1409.1556, 2014.

        [6]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770–778.

        [7]HINTON G, DENG Li, YU Dong, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. IEEE signal processing magazine, 2012, 29(6): 82–97.

        [8]SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014:3104–3112.

        [9]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3: 1137–1155.

        [10]MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[Z]. arXiv preprint arXiv: 1312.5602, 2013.

        [11]SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489.

        [12]DENG Jia, DONG Wei, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA, 2009: 248–255.

        [13]SRIVASTAVA N, MANSIMOV E, SALAKHUDINOV R.Unsupervised learning of video representations using LSTMs[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015: 843–852.

        [14]MCCULLOCH W S, PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. The bulletin of mathematical biophysics, 1943, 5(4): 115–133.

        [15]HEBB D O. The organization of behavior: A neuropsychological theory[M]. New York: Chapman & Hall, 1949.

        [16]MINSKY M L, PAPERT S A. Perceptrons: an introduction to computational geometry[M]. 2nd ed. Cambridge,UK: MIT Press, 1988.

        [17]RUMELHART D E, HINTON G E, WILLIAMS R J.Learning representations by back-propagating errors[J].Nature, 1986, 323(6088): 533–536.

        [18]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324.

        [19]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation,2006, 18(7): 1527–1554.

        [20]JORDAN M I. Serial order: A parallel distributed processing approach[J]. Advances in psychology, 1997, 121:471–495.

        [21]BENGIO Y. Learning deep architectures for AI[J]. Foundations and trends in machine learning, 2009, 2(1): 1–127.

        [22]GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014:2672–2680.

        [23]BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence,2013, 35(8): 1798–1828.

        [24]HUBEL D H, WIESEL T N. Receptive fields and functional architecture of monkey striate cortex[J]. The journal of physiology, 1968, 195(1): 215–243.

        [25]FUKUSHIMA K, MIYAKE S. Neocognitron: a self-organizing neural network model for a mechanism of visual pattern recognition[M]//AMARI S I, ARBIB M A. Competition and Cooperation in Neural Nets. Berlin Heidelberg:Springer, 1982: 267–285.

        [26]ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco, CA, USA, 2010: 2528–2535.

        [27]NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago, Chile, 2015: 1520–1528.

        [28]RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[Z]. arXiv preprint arXiv: 1511.06434,2015.

        [29]JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition[J].IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221–231.

        [30]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780.

        [31]GERS F A, SCHMIDHUBER J. Recurrent nets that time and count[C]//Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. Como,Italy, 2000, 3: 189–194.

        [32]CHO K, VAN MERRIENBOER B, GULCEHRE C, et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[Z]. arXiv preprint arXiv: 1406.1078, 2014.

        [33]SHI Xingjian, CHEN Zhourong, WANG Hao, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2015:802–810.

        [34]VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. Journal of machine learning research, 2010, 11: 3371–3408.

        [35]NG A. Sparse autoencoder[R]. CS294A Lecture Notes,2011: 72.

        [36]KINGMA D P, WELLING M. Auto-encoding variational bayes[Z]. arXiv preprint arXiv: 1312.6114, 2013.

        [37]REZENDE D J, MOHAMED S, WIERSTRA D. Stochastic backpropagation and approximate inference in deep generative models[Z]. arXiv preprint arXiv: 1401.4082, 2014.

        [38]MIRZA M, OSINDERO S. Conditional generative adversarial nets[Z]. arXiv preprint arXiv: 1411.1784, 2014.

        [39]CHEN Xi, DUAN Yan, HOUTHOOFT R, et al. InfoGAN:interpretable representation learning by information maximizing generative adversarial nets[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 2172–2180.

        [40]LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[Z]. arXiv preprint arXiv: 1609.04802, 2016.

        [41]WU Jiajun, ZHANG Chengkai, XUE Tianfan, et al. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 82–90.

        [42]ISOLA P, ZHU Junyan, ZHOU Tinghui, et al. Image-toimage translation with conditional adversarial networks[Z].arXiv preprint arXiv: 1611.07004, 2016.

        [43]VONDRICK C, PIRSIAVASH H, TORRALBA A. Generating videos with scene dynamics[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 613–621.

        [44]VONDRICK C, PIRSIAVASH H, TORRALBA A. Anticipating visual representations from unlabeled video[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA,2016: 98–106.

        [45]LAN Tian, CHEN T C, SAVARESE S. A hierarchical representation for future action prediction[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 689–704.

        [46]HOAI M, DE LA TORRE F. Max-margin early event detectors[J]. International journal of computer vision, 2014,107(2): 191–202.

        [47]RYOO M S. Human activity prediction: Early recognition of ongoing activities from streaming videos[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 1036–1043.

        [48]VU T H, OLSSON C, LAPTEV I, et al. Predicting actions from static scenes[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich, Switzerland,2014: 421–436.

        [49]PEI Mingtao, JIA Yunde, ZHU Songchun. Parsing video events with goal inference and intent prediction[C]//Proceedings of the 2011 IEEE International Conference on Computer vision. Barcelona, Spain, 2011: 487–494.

        [50]FOUHEY D F, ZITNICK C L. Predicting object dynamics in scenes[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH,USA, 2014: 2027–2034.

        [51]KOPPULA H S, SAXENA A. Anticipating human activities using object affordances for reactive robotic response[J].IEEE transactions on pattern analysis and machine intelligence, 2016, 38(1): 14–29.

        [52]HUANG Dean, KITANI K M. Action-reaction: Forecasting the dynamics of human interaction[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 489–504.

        [53]PICKUP L C, PAN Zheng, WEI Donglai, et al. Seeing the arrow of time[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 2043–2050.

        [54]LAMPERT C H. Predicting the future behavior of a timevarying probability distribution[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 942–950.

        [55]PINTEA S L, VAN GEMERT J C, SMEULDERS A W M.Déja vu: Motion prediction in static images[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 172–187.

        [56]KITANI K M, ZIEBART B D, BAGNELL J A, et al.Activity forecasting[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy, 2012:201–214.

        [57]GONG Haifeng, SIM J, LIKHACHEV M, et al. Multi-hypothesis motion planning for visual object tracking[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 619–626.

        [58]KOOIJ J F P, SCHNEIDER N, FLOHR F, et al. Contextbased pedestrian path prediction[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich,Switzerland, 2014: 618–633.

        [59]WALKER J, DOERSCH C, GUPTA A, et al. An uncertain future: Forecasting from static images using variational autoencoders[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands,2016: 835–851.

        [60]WALKER J, GUPTA A, HEBERT M. Dense optical flow prediction from a static image[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 2443–2451.

        [61]WALKER J, GUPTA A, HEBERT M. Patch to the future:Unsupervised visual prediction[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 3302–3309.

        [62]YUEN J, TORRALBA A. A data-driven approach for event prediction[C]//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Crete, Greece,2010: 707–720.

        [63]MOTTAGHI R, RASTEGARI M, GUPTA A, et al. “What happens if...” learning to predict the effect of forces in images[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands, 2016:269–285.

        [64]SCHUKDT C, LAPTEV I, CAPUTO B. Recognizing human actions: a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge, UK, 2004, 3: 32–36.

        [65]VUKOTI V, PINTEA S L, RAYMOND C, et al. One-step time-dependent future video frame prediction with a convolutional encoder-decoder neural network[C]//Proceedings of the 19th International Conference on Image Analysis and Processing. Catania, Italy, 2017: 140–151.

        [66]IONESCU C, PAPAVA D, OLARU V, et al. Human3.6M:Large scale datasets and predictive methods for 3D human sensing in natural environments[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(7):1325–1339.

        [67]YAN Yichao, XU Jingwei, NI Bingbing, et al. Skeletonaided articulated motion generation[Z]. arXiv preprint arX-iv: 1707.01058, 2017.

        [68]VILLEGAS R, YANG Jimei, ZOU Yuliang, et al. Learning to generate long-term future via hierarchical prediction[Z].arXiv preprint arXiv: 1704.05831, 2017.

        [69]SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[Z].arXiv preprint axXiv:1202.0402, 2012

        [70]MATHIEU M, COUPRIE C, LECUN Y. Deep multi-scale video prediction beyond mean square error[Z]. arXiv preprint arXiv: 1511.05440, 2015.

        [71]HINTZ J J. Generative adversarial reservoirs for natural video prediction[D]. Austin, USA: The University of Texas.

        [72]VILLEGAS R, YANG Jimei, HONG S, et al. Decomposing motion and content for natural video sequence prediction[C]//Proceedings of the 2017 International Conference on Learning Representations. Toulon, France, 2017.

        [73]LIU Ziwei, et al. Video frame synthesis using deep voxel flow[C]//Proceeding of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,Hawaii, USA, 2017:4463–4471

        [74]GORBAN A, IDREES H, JIANG Yugang, et al. THUMOS challenge: Action recognition with a large number of classes[EB/OL]. (2015–05). http://www.thumos.info.

        [75]GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. The international journal of robotics research, 2013, 32(11): 1231–1237.

        [76]LOTTER W, KREIMAN G, COX D. Deep predictive coding networks for video prediction and unsupervised learning[Z]. arXiv preprint arXiv: 1605.08104, 2016.

        [77]Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition[C]//Proceeding of the 2011 IEEE International Conference on Computer Vision, ICCV. Barcelona, Spain, 2011:2556–2563.

        [78]CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA,2016: 3213–3223.

        [79]JIN Xiaojie, LI Xin, XIAO Huaxin, et al. Video scene parsing with predictive feature learning[Z]. arXiv preprint arX-iv: 1612.00119, 2016.

        [80]LOTTER W, KREIMAN G, COX D. Unsupervised learning of visual structure using predictive generative networks[Z]. arXiv preprint arXiv: 1511.06380, 2015.

        [81]YAN Xing, CHANG Hong, SHAN Shiguang, et al. Modeling video dynamics with deep dynencoder[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 215–230.

        [82]RANZATO M, SZLAM A, BRUNA J, et al. Video (language) modeling: a baseline for generative models of natural videos[Z]. arXiv preprint arXiv: 1412.6604, 2014.

        [83]OH J, GUO Xiaoxiao, LEE H, et al. Action-conditional video prediction using deep networks in atari games[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Quebec,Canada, 2015: 2863–2871.

        [84]FINN C, GOODFELLOW I, LEVINE S. Unsupervised learning for physical interaction through video prediction[C]//Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 64–72.

        [85]LUC P, NEVEROVA N, COUPRIE C, et al. Predicting deeper into the future of semantic segmentation[Z]. arXiv preprint arXiv: 1703.07684, 2017.

        [86]CHEN Xiongtao, WANG Wenmin, WANG Jinzhou, et al.Long-term video interpolation with bidirectional predictive network[Z]. arXiv preprint arXiv: 1706.03947, 2017.

        [87]XUE Tianfan, WU Jiajun, BOUMAN K, et al. Visual dynamics: Probabilistic future frame synthesis via cross convolutional networks[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems.Barcelona, Spain, 2016: 91–99.

        [88]DENTON E, BIRODKAR V. Unsupervised learning of disentangled representations from video[Z]. arXiv preprint arXiv: 1705.10915, 2017.

        猜你喜歡
        編碼器架構(gòu)卷積
        基于FPGA的RNN硬件加速架構(gòu)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
        汽車工程(2021年12期)2021-03-08 02:34:30
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于FPGA的同步機(jī)軸角編碼器
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實(shí)現(xiàn)
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        一種基于FPGA+ARM架構(gòu)的μPMU實(shí)現(xiàn)
        亚洲精品久久麻豆蜜桃| 无限看片在线版免费视频大全| 人伦片无码中文字幕| 亚洲高清自偷揄拍自拍| 亚洲天堂精品一区入口| 国产成+人+综合+亚洲欧美丁香花| 日本天堂免费观看| 国产精品亚洲二区在线观看| 欧美 亚洲 国产 日韩 综AⅤ| 91亚洲夫妻视频网站| 国语对白在线观看免费| 色欲综合一区二区三区| 欧美午夜精品久久久久久浪潮| 亚洲日韩成人无码不卡网站| 国产av无毛无遮挡网站| 成年美女黄网站色大免费视频| 欧洲女人性开放免费网站| 无码av在线a∨天堂毛片| 国产伦一区二区三区久久| 完整版免费av片| 亚洲国产无套无码av电影| 天堂69亚洲精品中文字幕| 亚洲国产精品午夜一区| 人妻少妇被猛烈进入中文字幕| 午夜福利理论片高清在线观看| 在线视频这里只有精品| 日日噜噜夜夜狠狠2021| 日韩五码一区二区三区地址| 国产两女互慰高潮视频在线观看 | 亚洲aⅴ在线无码播放毛片一线天| 九九视频在线观看视频6| 樱花AV在线无码| 亚洲精品综合一区二区| 免费观看a级毛片| 国产女女做受ⅹxx高潮| 国产 无码 日韩| av免费不卡一区二区| 日本在线看片免费人成视频1000| 亚洲成aⅴ人在线观看| av中文码一区二区三区| 日本刺激视频一区二区|