亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于時(shí)空顯著性檢測(cè)的3D視頻生成方法

2020-08-29 06:17:18李新福田學(xué)東

科學(xué)技術(shù)與工程 2020年21期

蔡凱，李新福，田學(xué)東

(河北大學(xué)網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院，保定 071000)

近年來(lái)，得益于計(jì)算機(jī)和影視科技的蓬勃發(fā)展，3D技術(shù)已經(jīng)應(yīng)用到人類(lèi)日常生活中，如醫(yī)療[1]、電影[2]和無(wú)人駕駛[3]等領(lǐng)域。

目前，有兩種主流的3D內(nèi)容生成方法：一是研究人員使用電腦成像工具和同步相機(jī)生成3D圖像或視頻，但這種方法不僅費(fèi)時(shí)，而且價(jià)格昂貴；二是通過(guò)使用深度圖(depth map)生成3D內(nèi)容，這種方法可以分為人工法、半自動(dòng)法和全自動(dòng)法。人工法是通過(guò)人工手動(dòng)為圖像/視頻分配深度值，使用這種方法所生成的3D內(nèi)容質(zhì)量最高，但是所耗費(fèi)的精力和財(cái)力都遠(yuǎn)超其他方法[4]。半自動(dòng)法是通過(guò)人工干預(yù)計(jì)算機(jī)進(jìn)行2D-3D轉(zhuǎn)換，這種方法比人工法更具效率，但是同樣需要額外的人工和時(shí)間開(kāi)銷(xiāo)[5]。全自動(dòng)法需要少量或完全不需要人工干預(yù)就能生成3D內(nèi)容，全程由計(jì)算機(jī)負(fù)責(zé)，這樣不僅提高了速度，而且可以節(jié)省很多資源[6]。

為了更好地將2D-3D轉(zhuǎn)換技術(shù)應(yīng)用到日常生活當(dāng)中，研究人員在基于深度圖的全自動(dòng)轉(zhuǎn)換方法上投入了大量的精力，但是，最重要的深度圖獲取問(wèn)題依然沒(méi)有解決，因?yàn)樵谀承﹫?chǎng)景中獲取深度線索非常困難，甚至是不可能的。例如，在復(fù)雜場(chǎng)景中，由于圖像中夾雜著大量的合成部分和文本信息，這些信息相較于自然場(chǎng)景更難以獲得深度，因此為極其復(fù)雜的圖像分配深度值是十分困難的。

近年來(lái)，隨著深度學(xué)習(xí)的興起，研究人員使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)生成深度圖[7-9]。周武杰等[7]為了利用不同尺度的深度信息，使用殘差網(wǎng)絡(luò)進(jìn)行深度圖估計(jì)；Im等[8]使用融合了幾何變換的殘差光流計(jì)算深度圖，以解決在低亮度條件下深度圖像獲取不準(zhǔn)確的問(wèn)題；Zhou等[9]提出一種使用三維幾何約束的無(wú)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)，擺脫了對(duì)真實(shí)深度值和相對(duì)運(yùn)動(dòng)變化的依賴(lài)；文獻(xiàn)[10]并沒(méi)有使用深度圖生成3D內(nèi)容，而是在輸入一張圖像并將其作為左眼圖像后，通過(guò)CNN直接學(xué)習(xí)和預(yù)測(cè)另一幅圖作為右眼圖像。雖然在引入深度學(xué)習(xí)方法后預(yù)測(cè)精度相較于此前有所提高，但是沒(méi)有充分利用光流場(chǎng)等信息的方法依然無(wú)法生成高質(zhì)量的深度圖，而在模型中融合了光流信息的方法對(duì)硬件要求較高，并且十分耗時(shí)。

為了避開(kāi)在生成3D內(nèi)容時(shí)深度圖獲取困難的問(wèn)題，使用顯著性檢測(cè)進(jìn)行2D-3D轉(zhuǎn)換。顯著性檢測(cè)的任務(wù)是在一副圖像中檢測(cè)出最引人注意的目標(biāo)/區(qū)域，這種機(jī)制可以為基于視覺(jué)信息的處理任務(wù)提供很大幫助。因此，可以利用顯著性檢測(cè)的性質(zhì)與特點(diǎn)，將顯著圖作為另一種深度圖進(jìn)行2D-3D轉(zhuǎn)換，使顯著性高的物體更靠近觀察者，令人不感興趣的物體遠(yuǎn)離觀察者。雖然已有研究者[11]嘗試過(guò)將視覺(jué)注意力模型應(yīng)用到2D-3D轉(zhuǎn)換當(dāng)中，但是研究人員只說(shuō)明了這種方法的可行性，并沒(méi)有更進(jìn)一步完善研究方法。為此，使用深度學(xué)習(xí)方法進(jìn)行顯著性檢測(cè)來(lái)提高性能，并在模型中融入時(shí)間信息，使本文方法更適用于動(dòng)態(tài)3D內(nèi)容生成。在預(yù)測(cè)顯著圖的過(guò)程中，模型為每一幀使用多尺度空洞卷積進(jìn)行空間特征提取，并且在對(duì)時(shí)間序列分析時(shí)使用了改進(jìn)的雙向ConvLSTM(refine bidirectional convolutional long short-term memory，RB-ConvLSTM)，該模塊并沒(méi)有包含費(fèi)時(shí)的光流檢測(cè)等模塊，因此在運(yùn)行效率上也可以得到保證。

1 基本原理

使用顯著性檢測(cè)進(jìn)行2D-3D轉(zhuǎn)換的基本流程如圖1所示。主要側(cè)重點(diǎn)在于生成有利于進(jìn)行3D視頻生成的顯著圖，因此視差計(jì)算和3D圖像繪制的具體實(shí)現(xiàn)可以參考文獻(xiàn)[11-13]。

圖1 2D-3D轉(zhuǎn)換流程

1.1 顯著性檢測(cè)

1.1.1 結(jié)構(gòu)總覽

使用一種空洞卷積和卷積長(zhǎng)短期記憶單元相結(jié)合的方法進(jìn)行顯著性目標(biāo)檢測(cè)(圖2)。整體模型主要分為兩部分；第一部分通過(guò)空洞卷積在多尺度下進(jìn)行空間特征提取，其作用是在不易丟失細(xì)節(jié)的情況下融合全局和局部特征；第二部分為改進(jìn)的雙向ConvLSTM模塊，ConvLSTM作為基本LSTM的增強(qiáng)變體，可以在視頻幀中同時(shí)提取時(shí)空信息，在ConvLSTM的基礎(chǔ)上融入了正序和倒序兩個(gè)方向的信息以進(jìn)一步提高模型的特征抽象能力。

圖2 網(wǎng)絡(luò)框架總覽

1.1.2 空間特征提取

在典型的卷積神經(jīng)網(wǎng)絡(luò)中，模型是由一組帶有非線性激活函數(shù)的卷積層和池化層構(gòu)成。雖然池化層可以有效地增大感受野，但是對(duì)像素級(jí)預(yù)測(cè)任務(wù)來(lái)說(shuō)，使用池化層進(jìn)行下采樣會(huì)造成細(xì)節(jié)信息丟失，甚至?xí)?dǎo)致目標(biāo)較小的物體無(wú)法重建。最近，研究人員通過(guò)使用空洞卷積[14-15]作為替代品進(jìn)行特征提取，這種方法在任何尺度下計(jì)算特征時(shí)都不易造成細(xì)節(jié)丟失，原因是使用空洞卷積進(jìn)行計(jì)算時(shí)不需要池化層便能增大感受野，讓每個(gè)卷積輸出都包含較大范圍的信息。

多尺度特征提取方法是CNN中常用的提高模型精度的手段。由文獻(xiàn)[16-17]可知，多尺度自然信息對(duì)顯著性檢測(cè)至關(guān)重要。因此，決定使用一種金字塔空洞卷積結(jié)構(gòu)對(duì)視頻幀進(jìn)行空間特征提取。這種結(jié)構(gòu)通過(guò)使用不同空洞率的空洞卷積核提取不同尺度的空間特征，然后將這些特征圖連接起來(lái)并輸出最終的空間特征圖。

Fl=Cl?T

(1)

式(1)中：?表示空洞卷積操作。

由式(1)可以看出，在T保持不變的情況下，輸出特征圖只與空洞卷積核的尺寸和空洞率有關(guān)。雖然每一幅輸出特征圖的大小都是相同的，但是由于空洞率的不同，感受野的大小也各不相同，甚至有時(shí)感受野的大小會(huì)超過(guò)輸入圖像，這就像在不同的距離觀察圖像一樣，距離過(guò)遠(yuǎn)或過(guò)近都不會(huì)看到物體的全部信息，只有從合適的距離和背景下才能得到有效的顯著性物體/區(qū)域。

P=[F1,F2,…,Fl]

(2)

式(2)中：[,]代表連接操作；P為進(jìn)行連接操作后得到的特征圖。

文獻(xiàn)[18]研究發(fā)現(xiàn)深度網(wǎng)絡(luò)中存在一種退化問(wèn)題，并通過(guò)深度殘差框架來(lái)解決了這一問(wèn)題。深度殘差框架也同樣適用于本文模型，因此也將源輸入特征圖T加入到了連接操作當(dāng)中，即

P=[T,F1,F2,…,Fl]

(3)

1.1.3 時(shí)空特征提取

ConvLSTM對(duì)比傳統(tǒng)的LSTM[20]，在計(jì)算過(guò)程中添加了卷積操作，使得網(wǎng)絡(luò)模型在提取空間特征的同時(shí)又保存了時(shí)間信息，因此ConvLSTM在許多需要利用時(shí)空信息的任務(wù)中扮演著重要的角色[21-22]。ConvLSTM主要由四部分組成：記憶細(xì)胞ct、輸入門(mén)it、輸出門(mén)ot和遺忘門(mén)ft。ct是一種狀態(tài)累加器，由其他三部分it、ot和ft控制。當(dāng)輸入門(mén)處于打開(kāi)狀態(tài)時(shí)，輸入的新數(shù)據(jù)就會(huì)累加入ct。同理，當(dāng)遺忘門(mén)被激活時(shí)，過(guò)去的細(xì)胞狀態(tài)ct-1就會(huì)被丟棄。最終的隱層狀態(tài)Ht-1是否會(huì)被當(dāng)前細(xì)胞狀態(tài)影響取決于輸出門(mén)ot。由上所述，ConvLSTM可以表示為

(4)

式(4)中：⊙表示卷積操作；*表示矩陣哈達(dá)馬乘積；σ(·)表示sigmoid激活函數(shù)。

(5)

式(5)中：Hf和Hb表示前向和后向ConvLSTM的隱層狀態(tài)；Yt表示在融合了雙向的時(shí)空信息之后所輸出的最終顯著圖；tanh(·)表示tanh激活函數(shù)。

為了提取出更為有效的時(shí)空信息，RB-ConvLSTM采用空洞卷積代替?zhèn)鹘y(tǒng)的卷積操作進(jìn)行多尺度特征提取，這樣時(shí)空特征提取模塊的名稱(chēng)就可以叫做改進(jìn)的雙向ConvLSTM(RB-ConvLSTM)。采用兩組RB-ConvLSTM模塊用于在不同尺度下進(jìn)行特征提取。在RB-ConvLSTM中，使用?替換在式(4)中所使用的⊙運(yùn)算符以表示空洞卷積操作，并且在不同的RB-ConvLSTM模塊中使用不同的空洞率，以便模型在不同大小的感受野下提取最適合任務(wù)的特征。時(shí)空特征提取模塊結(jié)構(gòu)圖如圖3所示。

P表示由空間特征提取模塊輸出的特征圖；Y表示經(jīng)過(guò)雙向ConvLSTM單元后連接而成的輸出圖

1.2 使用顯著圖進(jìn)行2D-3D轉(zhuǎn)換

在使用顯著圖進(jìn)行2D-3D轉(zhuǎn)換時(shí)，視差計(jì)算和基于顯著圖的圖像繪制與基于深度圖的方法的計(jì)算步驟基本相同，這是因?yàn)殡m然顯著性檢測(cè)和深度圖預(yù)測(cè)是兩個(gè)不同的領(lǐng)域，但是由這兩種方法所生成的預(yù)測(cè)圖(顯著圖和深度圖)在圖像屬性上是相同的，即亮度為0～255的灰度圖像，并且在文獻(xiàn)[11]中已經(jīng)證明了顯著圖用于2D-3D轉(zhuǎn)換的可行性。需要說(shuō)明的是，基于深度圖的2D-3D轉(zhuǎn)換方法是根據(jù)物體/區(qū)域距離攝像鏡頭的遠(yuǎn)近生成3D內(nèi)容，而基于顯著圖的方法則是根據(jù)人眼對(duì)目標(biāo)/區(qū)域感興趣與否進(jìn)行2D-3D轉(zhuǎn)換。

在進(jìn)行視差計(jì)算時(shí)，本文方法與傳統(tǒng)方法差別不大。令圖中像素點(diǎn)在(x,y)處的視差值為R(x,y)，則：

(6)

2 實(shí)驗(yàn)

2.1 網(wǎng)絡(luò)實(shí)現(xiàn)及訓(xùn)練細(xì)節(jié)

2.1.1 實(shí)現(xiàn)細(xì)節(jié)

在實(shí)驗(yàn)中，模型使用文獻(xiàn)[23]中的前5個(gè)卷積層作為基礎(chǔ)網(wǎng)絡(luò)，并在訓(xùn)練過(guò)程中對(duì)其進(jìn)行微調(diào)以適應(yīng)本次任務(wù)。每輸入一張尺寸為473×473的視頻幀S，基礎(chǔ)網(wǎng)絡(luò)就會(huì)輸出一張?zhí)卣鲌DT?R60×60×2 048，隨后將T輸送至下一模塊進(jìn)行空間特征提取。

RB-ConvLSTM的任務(wù)是從P中提取時(shí)空信息。兩組并聯(lián)的RB-ConvLSTM在兩個(gè)尺度下對(duì)P進(jìn)行特征提取，兩組的空洞率分別為1和2。值得注意的是，空洞率為1的卷積核沒(méi)有“洞”，可將其視為普通的卷積核。每一幀經(jīng)過(guò)兩組并聯(lián)的RB-ConvLSTM的計(jì)算后連接得到尺寸為60×60×64的特征圖，之后由一個(gè)1×1×1的卷積操作和sigmod函數(shù)激活后得到最終的顯著圖，最后通過(guò)上采樣將顯著圖恢復(fù)至與原視頻幀相同的尺寸。

2.1.2 訓(xùn)練細(xì)節(jié)

在本次實(shí)驗(yàn)中，網(wǎng)絡(luò)訓(xùn)練被分為三步。首先，使用一個(gè)靜態(tài)圖像顯著性檢測(cè)數(shù)據(jù)集MSRA10K[24]和一個(gè)視頻顯著性數(shù)據(jù)集DAVIS[25]訓(xùn)練空間特征部分，通過(guò)隨機(jī)梯度下降(stochastic gradient descent，SGD)算法優(yōu)化網(wǎng)絡(luò)，學(xué)習(xí)率設(shè)為1×10-8。隨后將時(shí)空特征部分的學(xué)習(xí)率設(shè)置為1×10-6，再次利用上述兩個(gè)數(shù)據(jù)集訓(xùn)練整個(gè)模型。最后，固定空間特征部分的參數(shù)值使其保持不變，然后利用DAVIS對(duì)時(shí)空特征部分進(jìn)行微調(diào)，學(xué)習(xí)率為1×10-6。實(shí)驗(yàn)所用的編程語(yǔ)言為Python，深度學(xué)習(xí)框架為Caffe toolbox。訓(xùn)練中動(dòng)量和權(quán)重衰減率分別為0.9和5×10-4，視頻幀批量大小為5。

2.2 數(shù)據(jù)集及評(píng)價(jià)方法

2.2.1 數(shù)據(jù)集

對(duì)比實(shí)驗(yàn)采用的數(shù)據(jù)集為DAVIS和FBMS[26]，DAVIS中包含了50個(gè)高質(zhì)量、具有挑戰(zhàn)性的視頻序列，這些視頻序列總共由3 455個(gè)視頻幀組成，并且每一個(gè)視頻幀都有一張與之相對(duì)應(yīng)的真值圖G。使用其中的30個(gè)視頻、共計(jì)2 079個(gè)視頻幀作為訓(xùn)練集，其余的20個(gè)視頻作為測(cè)試集。FBMS數(shù)據(jù)集由59個(gè)正常拍攝的視頻組成，使用其中29組視頻序列訓(xùn)練模型，將另外30組用于測(cè)試。

2.2.2 評(píng)價(jià)方法

在評(píng)價(jià)顯著性檢測(cè)模型的表現(xiàn)時(shí)，有三種應(yīng)用廣泛的度量標(biāo)準(zhǔn)，即精度-召回率曲線、F度量(F-measure)和平均絕對(duì)誤差(mean absolute error，MAE)。在精度-召回率曲線中，精度表示預(yù)測(cè)正確的顯著性像素所占的百分比，召回率表示真值圖中顯著性像素被正確預(yù)測(cè)的比例。F度量被用于衡量模型的總體表現(xiàn)，模型的F度量值越高，性能越好。

(7)

式(7)中：ωβ為以β為權(quán)重參數(shù)的F度量值；Aprecision和Arecall分別表示精度和召回率。根據(jù)文獻(xiàn)[27]將β值設(shè)置為0.3，原因是人們認(rèn)為精度比召回率更重要。MAE表示預(yù)測(cè)圖與真值圖絕對(duì)誤差，系統(tǒng)的MAE值越低，表現(xiàn)越優(yōu)。

(8)

2.3 實(shí)驗(yàn)結(jié)果比較與分析

使用DSS[28]和FCNS[29]作為實(shí)驗(yàn)對(duì)比對(duì)象。DSS是一種靜態(tài)圖像顯著性檢測(cè)網(wǎng)絡(luò)模型，該模型中使用嵌套邊緣檢測(cè)器(holistically-nested edge detector，HED)提取物體/區(qū)域邊緣，并在HED中加入了短連接以便提取多尺度特征。FCNS采取了一種聯(lián)立兩個(gè)全卷積網(wǎng)絡(luò)(fully convolutional neural network，F(xiàn)CN)的策略進(jìn)行視頻顯著性檢測(cè)，其中一個(gè)FCN用于空間特征提取，相應(yīng)的，時(shí)間特征提取的任務(wù)便由另外一個(gè)FCN承擔(dān)。在表1、圖4中給出了對(duì)比實(shí)驗(yàn)的數(shù)據(jù)結(jié)果。

表1 不同算法在兩種數(shù)據(jù)集上的量化分析

從表1可以看出，無(wú)論在DAVIS還是FBMS中，本文方法在F度量和MAE上都領(lǐng)先于其他兩種模型。通過(guò)觀察圖4可以發(fā)現(xiàn)，本文方法的曲線在大部分情況下都位于另外兩條曲線的上方，由此也可以說(shuō)明本文方法有更好的預(yù)測(cè)能力。值得一提的是，DSS作為靜態(tài)圖顯著性模型，在FBMS數(shù)據(jù)集上的定量評(píng)價(jià)要優(yōu)于FCNS。

圖4 不同算法在DAVIS和FBMS上的精度-召回率曲線

圖5列出了在測(cè)試集中本文方法、FCNS、DSS這3種方法的部分視覺(jué)效果對(duì)比圖。從圖5可以發(fā)現(xiàn)，由本文方法生成的顯著圖擁有更好的視覺(jué)效果，這種效果在進(jìn)行2D-3D轉(zhuǎn)換時(shí)是至關(guān)重要的，并且從效果圖中也可以看出本文方法在處理低對(duì)比度和多細(xì)節(jié)場(chǎng)景時(shí)具有很好的表現(xiàn)力。

圖5 不同算法生成的顯著圖的視覺(jué)效果對(duì)比

圖6展示了由本文方法在DAVIS數(shù)據(jù)集上生成的3D視覺(jué)效果圖。從圖6可以看出，在顯著性較高的區(qū)域/物體上有良好的3D視覺(jué)效果，說(shuō)明本文方法在生成3D視頻時(shí)具有可行性。

圖6 紅-藍(lán)3D內(nèi)容

3 結(jié)論

(1)本算法在生成3D視頻時(shí)，使用顯著圖代替深度圖進(jìn)行視差計(jì)算和3D圖像繪制，從而避開(kāi)了在傳統(tǒng)轉(zhuǎn)換方法中深度圖生成難的問(wèn)題。

(2)在顯著性檢測(cè)模型中運(yùn)用了深度學(xué)習(xí)的方法，這種方法可以從圖像中自動(dòng)提取特征，此能力是傳統(tǒng)顯著性檢測(cè)方法所不具備的。在模型的空間特征提取模塊中應(yīng)用了多尺度空洞卷積，這對(duì)增強(qiáng)網(wǎng)絡(luò)模型的細(xì)節(jié)保存能力起到了重要的作用。在模型中還融合了時(shí)間信息提取模塊，這樣做可以使生成的3D視頻擁有更流暢的視覺(jué)效果。實(shí)驗(yàn)表明本文算法在低對(duì)比度和多細(xì)節(jié)場(chǎng)景中表現(xiàn)良好，并且在兩個(gè)數(shù)據(jù)集的定量分析中優(yōu)于另外兩個(gè)知名算法，所產(chǎn)生的3D內(nèi)容也具有令人舒適的視覺(jué)效果，論證了將視頻顯著性檢測(cè)應(yīng)用于3D視頻生成的可行性。

(3)由于模型比較復(fù)雜，在低配置設(shè)備上進(jìn)行訓(xùn)練和測(cè)試相對(duì)困難，因此在以后的工作中將致力于在精簡(jiǎn)模型的同時(shí)保證性能，以提高應(yīng)用的廣泛性。