基于音視頻的自動化低成本VR視頻生成方法研究

2019-10-09 00:00:00李鵬付則宇邱柯妮張梁

軟件 2019年7期

李鵬　付則宇　邱柯妮　張梁

摘? 要：虛擬現(xiàn)實（VR）技術(shù)的發(fā)展和相應(yīng)硬件設(shè)備的普及，使得VR視頻內(nèi)容具有非常大的發(fā)展?jié)摿?。但VR視頻的制作存在兩個方面的挑戰(zhàn)：一是新內(nèi)容的VR視頻生成成本很高;二是過去的影音資料難以重新錄制成VR視頻。本文提出一種新穎、低成本的利用已有影音資料生成VR視頻的方法，該方法結(jié)合自然語言處理技術(shù)（NLP）、3D建模、虛擬現(xiàn)實等技術(shù)，可以快速、低成本生成VR視頻。實驗表明，本文方法可以大幅度節(jié)省制作成本，過去的音視頻也可以生成沉浸感強(qiáng)的VR視頻。

關(guān)鍵詞： VR視頻;NLP;自動化;低成本;沉浸感

中圖分類號： TP391.9; N39? ? 文獻(xiàn)標(biāo)識碼： A? ? DOI：10.3969/j.issn.1003-6970.2019.07.004

本文著錄格式：李鵬，付則宇，邱柯妮，等. 基于音視頻的自動化低成本VR視頻生成方法研究[J]. 軟件，2019，40（7）：2230

【Abstract】： With the development of virtual reality （VR） technology and the popularity of corresponding hardware devices， VR videos present a very bright developing prospect among the emerging technologies. However， there are two major challenges in the production of VR videos. First， the cost of producing new VR video is very high. Second， it is difficult to transform past audio or video data to VR formats using the normal VR generation approaches. Addressing these problems， this paper proposes an automatic and low-cost method to generate VR videos using the existing low-cost audio and video materials. The proposed method integrates the technologies of Natural Language Processing （NLP）， 3D modeling， virtual reality to produce high quality VR videos in a fast， low cost and automatic way. Experimental results show that cost can be greatly saved by the proposed method. Furthermore， it is a novel way to provide VR videos for the old precious audios or videos.

【Key words】： VR video; NLP; Automatic video generation; Low-cost; Immersive experience

0? 引言

2016年1月國際CES（International Consumer Electronics Show）展會上，虛擬現(xiàn)實（Virtual Reality， VR）相關(guān)展品搶盡風(fēng)頭。隨后國內(nèi)外VR廠商陸續(xù)推出一大批消費(fèi)級虛擬現(xiàn)實設(shè)備。硬件設(shè)備的爆發(fā)以及用戶對VR體驗的渴望，推動VR產(chǎn)業(yè)進(jìn)入高速發(fā)展時期。如今虛擬現(xiàn)實（VR）技術(shù)在我們的生活[1]、科技[2]、醫(yī)療[3]、教育[4]中有廣泛的應(yīng)用。豐富的內(nèi)容是VR生態(tài)鏈中重要的一環(huán)[5]，然而VR內(nèi)容的創(chuàng)作是一件非常耗費(fèi)時間、精力和財力的工作。再者，過去的音視頻資料限于當(dāng)時的軟硬件水平和錄制手法，導(dǎo)致這些資料的畫面質(zhì)感和錄音質(zhì)量普遍不高。對于這些珍貴的影音材料，一方面修復(fù)會面臨諸多挑戰(zhàn)，另一方面也無法重新錄制成VR版本的視頻。

為此，本文提出一種新穎、低成本的利用已有影音材料生成VR視頻的方法。該方法結(jié)合NLP（自然語言處理技術(shù)）、3D建模、虛擬現(xiàn)實等技術(shù)，可以快速、低成本自動生成高質(zhì)量VR視頻。

本文貢獻(xiàn)體現(xiàn)在以下三個方面：

（1）一套標(biāo)準(zhǔn)完整的自動化轉(zhuǎn)化步驟，無需計算機(jī)專業(yè)相關(guān)背景知識都可以用我們的設(shè)計架構(gòu)很簡便地制作VR視頻內(nèi)容。

（2）和用攝像機(jī)拍攝VR全景視頻、動態(tài)捕捉設(shè)備錄制VR視頻相比，本文方法可以節(jié)約技術(shù)成本、時間成本、金錢成本，短期內(nèi)可以大量產(chǎn)生成熟作品。

（3）對一些由于年代久遠(yuǎn)，視頻質(zhì)量差或者只有音頻的情況，我們的方法也可以很容易的轉(zhuǎn)制成VR視頻。

1? ?背景

1.1? VR視頻

虛擬現(xiàn)實（VR）視頻，又稱全景視頻或360°視頻[6]，是要借助于虛擬現(xiàn)實硬件設(shè)備進(jìn)行播放的視頻作品，其目的是為觀看視頻的用戶帶來可交互的、沉浸式的臨場感體驗。

VR視頻是虛擬現(xiàn)實技術(shù)（Virtual Reality Technology，又稱靈境或臨境技術(shù)）的一個重要應(yīng)用方向[7]，虛擬現(xiàn)實技術(shù)來源于計算機(jī)仿真技術(shù)。計算機(jī)仿真是通過構(gòu)建虛擬環(huán)境來模擬真實世界的運(yùn)動規(guī)律。通過計算機(jī)仿真技術(shù)構(gòu)造的虛擬環(huán)境，既可以是一個符合現(xiàn)實世界規(guī)律的虛擬環(huán)境，也可以是一個完全假想的環(huán)境。虛擬現(xiàn)實從不同的角度定義有很多不同的描述方式，但是所有描述方式中最重要的一個共性是，虛擬現(xiàn)實可以通過虛擬環(huán)境給用戶營造一種不受時空控制的可交互的、沉浸式的臨場感體驗，這個共性也是VR視頻的最大特點(diǎn)。

1.2? VR視頻的生成方式

VR視頻制作流程涉及多種近現(xiàn)代尖端影像技術(shù)，如計算機(jī)仿真技術(shù)、圖形拼接技術(shù)、動態(tài)環(huán)境建模技術(shù)、實時三維圖形生成和顯示技術(shù)、適人化、智能化人機(jī)交互技術(shù)等。VR視頻內(nèi)容的生產(chǎn)可以分為兩種方式，一種是借助全景攝像機(jī)拍攝并生成全景視頻;另一種是采用CG（computer graphic，計算機(jī)圖形）技術(shù)3D建模生成視頻[8]。接下來簡要的介紹下每種VR視頻生成方式的特點(diǎn)。

1.2.1? 用全景攝像機(jī)拍攝全景視頻

攝像機(jī)拍攝VR視頻，需要用全景攝像機(jī)即多鏡頭攝像機(jī)拍攝各個方向的圖像內(nèi)容并進(jìn)行圖像拼接[9]。中介紹了一種用于全景視頻采集的多鏡頭系統(tǒng)。全景視頻的生成可以分為攝像機(jī)標(biāo)定、圖像融合與同步、視頻流生成三個階段。用攝像機(jī)拍攝的VR全景視頻分為五種，分別是全景3D交互視頻、局部全景3D視頻、全景3D視頻、非全景3D視頻、VR全景視頻。這五種VR視頻拍攝難度依次降低，最終體驗效果也有很大差異，其中全景3D交互視頻的沉浸性效果最好。在全景3D交互視頻中用戶可以參與到視頻的故事情節(jié)中去，通過與故事場景中的物體進(jìn)行互動，作品根據(jù)用戶的選擇做出回應(yīng)，從而影響故事情節(jié)的發(fā)展。全景3D交互視頻真正實現(xiàn)了用戶對虛擬現(xiàn)實環(huán)境的“真實”體驗，但是VR視頻中的交互問題一直是制作者的痛點(diǎn)[10]。用不用交互，哪里使用交互，如何用交互都是這類VR內(nèi)容制作者不得不面臨的問題，而且全景3D交互視頻制作周期長、成本高，短時期內(nèi)難以產(chǎn)生大量成熟的作品。

1.2.2? 計算機(jī)圖形技術(shù)3D建模生成VR視頻

采用CG（計算機(jī)圖形技術(shù)）3D建模生成的VR視頻類似于3D動畫的VR版本，在綜合運(yùn)用各種貼圖、光效和渲染后，其視覺效果可以和全景相機(jī)拍攝的視頻相媲美。與使用全景攝像機(jī)拍攝VR視頻相比，CG技術(shù)生成VR視頻方便節(jié)奏控制和工作調(diào)度，同時不用購買昂貴的拍攝裝備，不需要專業(yè)的影視拍攝人員，但是同樣面臨創(chuàng)作難的問題。一是虛擬場景的搭建設(shè)計，內(nèi)容劇本的設(shè)計，講演思路的設(shè)計等，都需要付出一些有創(chuàng)造性的智力勞動才能完成。二是虛擬場景中角色模型的肢體動畫多是通過動態(tài)捕捉設(shè)備實時錄制。全套動態(tài)捕捉設(shè)備不僅價格昂貴，而且操作繁雜，需要相關(guān)技術(shù)人員和軟硬件設(shè)備的協(xié)同工作。而這就在無形中抬高了制作生成VR視頻的門檻。

1.2.3? 生成VR視頻面臨的挑戰(zhàn)

綜上所述，基于現(xiàn)有的通用VR視頻生成方法想要低成本高質(zhì)量的生產(chǎn)VR視頻面臨著一些挑戰(zhàn)。首先，不管采用以上兩種方法中的哪一種，繁雜的制作流程會大大降低視頻內(nèi)容的生產(chǎn)效率[11]。中以全景微課視頻的設(shè)計與制作為例，完整的制作流程要包含教學(xué)設(shè)計、腳本構(gòu)思、實景拍攝、后期制作等幾個步驟。其次，不管是采用全景攝像機(jī)拍攝全景視頻，還是使用動態(tài)捕捉裝備錄制肢體動畫，都需要購買昂貴的硬件設(shè)備。這就增加了生產(chǎn)VR內(nèi)容的制作成本，而且對制作人員的技術(shù)要求很高。最重要是，以上兩種方法針對過去的一些珍貴音視頻材料都無法重新拍攝或錄制。

2? 研究目的

近年來，隨著計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的高速發(fā)展，網(wǎng)上積累了大量、優(yōu)秀、高質(zhì)量內(nèi)容的視頻資源。這些視頻無論從內(nèi)容、講授形式、講授思路等都是很好的資源，借助這些已有的資源進(jìn)行VR內(nèi)容的轉(zhuǎn)制，可以有效的降低VR視頻制作的創(chuàng)作門檻。同時，虛擬現(xiàn)實技術(shù)、人工智能相關(guān)技術(shù)的快速發(fā)展，相應(yīng)軟硬件設(shè)備的迅速普及也為傳統(tǒng)視頻向VR視頻轉(zhuǎn)化提供了技術(shù)支持和設(shè)備支撐。另一方面，運(yùn)用現(xiàn)有的VR視頻的生產(chǎn)方法又面臨著上文所介紹的諸多挑戰(zhàn)。因此在考慮技術(shù)成本、時間成本、金錢成本的情況下，運(yùn)用新的技術(shù)和研究方法同時依托已有的視頻資源進(jìn)行創(chuàng)造性的三維視頻轉(zhuǎn)制變得很有必要。這將會有效降低VR視頻的創(chuàng)作難度，縮短VR視頻的制作周期，同時保證視頻內(nèi)容質(zhì)量的優(yōu)質(zhì)性。而這方面的研究工作還很少有人涉及。

因此，本文提出了一種新穎、低成本的創(chuàng)作VR視頻的方法，利用人工智能相關(guān)研究和虛擬現(xiàn)實相關(guān)技術(shù)并結(jié)合網(wǎng)絡(luò)上已有的一些優(yōu)秀的、高質(zhì)量的影音材料進(jìn)行VR視頻轉(zhuǎn)制。該設(shè)計方法尤其針對課堂、演講等場合具有很高的應(yīng)用價值。[12]中針對課程錄像制作引入虛擬現(xiàn)實技術(shù)，通過構(gòu)建虛擬場景，提供逼真的學(xué)習(xí)環(huán)境，但是該研究沒有探討虛擬形象取代真實講師形象的可能性。我們提出的VR視頻轉(zhuǎn)制方法通過沉浸的虛擬環(huán)境、生動的虛擬形象，以另一種更加生動活潑的方式真實的再現(xiàn)課堂或演講場景。因此本研究提出的設(shè)計架構(gòu)不僅具有很強(qiáng)的學(xué)術(shù)價值更具有很廣泛的實際應(yīng)用需求。

3? ?研究方案

3.1? 工作流程概述

本文提出的多媒體視頻或音頻轉(zhuǎn)為VR視頻的方法概括起來可以分為三個步驟。

① 用語音識別工具提取視頻或音頻的文本信息。

② 對語音轉(zhuǎn)化的文本進(jìn)行自然語言處理獲取每一句文本的情感標(biāo)簽。

③ 文本，音頻，演講者角色模型，肢體情感動畫在三維虛擬現(xiàn)實場景中匹配生成VR視頻。

圖1為總體流程圖，圖中的①，②，③，代表上述三個步驟中用到的主要工具和關(guān)鍵技術(shù)。

3.2? 語音識別獲取音頻字幕文件

用本文的方法進(jìn)行VR視頻轉(zhuǎn)制，第一步是把多媒體音頻或視頻用語音識別工具進(jìn)行文本化處理，獲取影音材料的字幕文件。在選擇語音識別軟件方面我們要以保證語音識別一定準(zhǔn)確度的情況下同時方便獲取語音的字幕文件為出發(fā)點(diǎn)。

目前市面上有很多成熟的商用語音識別軟件，例如科大訊飛、微軟speech sdk等。經(jīng)過對市面上多款語音識別軟件進(jìn)行實測和效果對比后，本研究采用YeeCaption這款免費(fèi)智能視頻翻譯軟件。該軟件的智能性體現(xiàn)在能夠自動對語音軸進(jìn)行切分，對字幕內(nèi)容和語音信息進(jìn)行識別，最后字幕文件也可以很方便的一鍵導(dǎo)出。同時這款軟件界面設(shè)計簡單明了，功能設(shè)定明確區(qū)分，初學(xué)者也能輕松入手。最重要的是，此軟件音頻轉(zhuǎn)文本的準(zhǔn)確度高、導(dǎo)出的字幕文件包含每一句文本的時間戳信息，完全符合本研究的需要。

本文以俞敏洪老師經(jīng)典的一分鐘演講《水的精神》為例，演示獲得視頻或音頻字幕文件的過程。

（1）語音切軸獲取影音材料的時間信息

把視頻或者音頻文件導(dǎo)入YeeCaption中，對導(dǎo)入音頻進(jìn)行語音切軸操作，把演講者每一句話切分開來，獲取每一句話的時間信息。如圖2所示，右側(cè)上方框框住的是每一句語音切軸，界面下方左側(cè)框框住的是每一句語音切軸所對應(yīng)的時間間隔信息。

（2）進(jìn)行語音識別字幕，獲取語音的字幕信息

圖3是語音識別后的結(jié)果，從圖中方框框住的部分我們可以看出，每一句語音切軸出現(xiàn)了字幕文本信息。語音轉(zhuǎn)化成了對應(yīng)時間間隔內(nèi)相應(yīng)文字。

（3）導(dǎo)出字幕文件

YeeCaption可以很方便的導(dǎo)出字幕文件。圖4是導(dǎo)出選項中所支持的字幕文件導(dǎo)出形式。

3.3? 自然語言處理獲取文本情感標(biāo)簽

3.3.1? 本文所用獲取文本情感標(biāo)簽方法

以自然語言文本形式描述的信息占總信息資源的80%，對文本信息進(jìn)行分析處理屬于自然語言處理技術(shù)的研究范疇。現(xiàn)階段自然語言處理的研究方法主要分為兩類：一類是最近比較火熱的基于數(shù)學(xué)統(tǒng)計的機(jī)器學(xué)習(xí)方法，另一類是基于傳統(tǒng)語法規(guī)則的自然語言處理方法。具體采用哪種方法還是要看實際的工作需要。

本文提出一種自動化的、低成本的VR視頻轉(zhuǎn)制方法，出發(fā)點(diǎn)之一就是要盡量減少人工操作，節(jié)省時間成本、人力成本。因此本研究采用基于詞典的情感分析方法，針對句子級語料進(jìn)行情感分析，提取每一條字幕文本的情感標(biāo)簽。本文針對句子級語料而不是針對篇章級語料進(jìn)行處理的原因是，語音識別導(dǎo)出的字幕文件是以每一個時間戳對應(yīng)一行字幕文本的形式呈現(xiàn)的。所以我們的情感分析是以句子級為單位進(jìn)行處理的。相比于篇章級的語料處理我們的方法可以進(jìn)一步的降低情感分析的難度。

3.3.2? 基于情感詞典獲取文本情感標(biāo)簽

在大多數(shù)情況下，人們習(xí)慣直接用情感詞來表達(dá)自己的態(tài)度和觀點(diǎn)。例如用“excellent”來表達(dá)一種積極的觀點(diǎn)，而用“poor”來表達(dá)一種是消極的觀點(diǎn)。這種情感表達(dá)式稱為直接情感表達(dá)（direct sentiment expression）。因此我們可以根據(jù)一句話中的情感詞來大致判斷該句話的情感類型。每一個領(lǐng)域都有各自領(lǐng)域不同的情感詞，而不可能生成一個完備的適用于所有領(lǐng)域的情感詞典。但是全人類情緒大的分類是一致的，例如人類的情感不外乎喜、怒、哀、樂等。本研究采用[13]中大連理工大學(xué)的中文情感詞匯本體庫作為情感詞典進(jìn)行情感分析。

Ekman是國際上具有廣泛影響力的情感分類庫，總共包含6大類的情感。大連理工大學(xué)的情感詞典本體庫在Ekman的基礎(chǔ)上加入了情感類別“好”，構(gòu)建成了包含七大情感類別（樂、好、怒、哀、懼、惡、驚）21小類別的本體情感庫。本體庫中的每個情感詞都被分為正向、負(fù)向、中性三個情感極性，并具有從0到10等不同大小的情感程度值。大連理工大學(xué)的情感詞典本題庫從情感類別、情感強(qiáng)度及極性等方面對每一個中文詞匯或者短語進(jìn)行描述完全符合本研究的需求。另外我們還準(zhǔn)備了一個否定詞表（negation words）詞典，以便對句子中含有否定詞的情感詞進(jìn)行極性反向處理。

詞典匹配的過程如下：

首先對句子進(jìn)行分詞、去停用詞處理，獲得只包含主干和核心詞的精簡句子。

然后將精簡句子中的每一個詞去和情感詞典中的每一個詞進(jìn)行比對，如果詞典中出現(xiàn)了該詞就記錄下該詞的情感類型、情感極性、情感強(qiáng)度等屬性。依次進(jìn)行下去直到句子中的每一個詞都進(jìn)行了比對。

接下來再將精簡后句子中的每一個詞去和否定詞表詞典中的詞進(jìn)行對比，查看句子中是否包含否定詞，以便對句子的情感極性進(jìn)行反向處理。

3.3.3? 處理字幕文件中的時間軸標(biāo)簽

打開音頻轉(zhuǎn)化后的字幕文件，我們可以看出每一句文本上面包含一個文本序號、一個時間軸標(biāo)簽，如圖5中方框框住的部分所示，我們把這三項看成一個字幕元素。上一小節(jié)中介紹的是對字幕元素中的文本進(jìn)行自然語言處理提取文本的情感標(biāo)簽。這一節(jié)對字幕元素中的時間軸標(biāo)簽進(jìn)行處理，獲得每一句文本出現(xiàn)的時間差值，最后將 srt格式字幕文件轉(zhuǎn)化為Unity 中可以處理的字幕文件。

時間軸標(biāo)簽中包含兩個時間節(jié)點(diǎn)，每一個時間節(jié)點(diǎn)中又包含時、分、秒、毫秒四個時間元素。我們把每一個時間節(jié)點(diǎn)都換算成毫秒，計算兩個時間節(jié)點(diǎn)的差值，然后再用差值除以1000換算成秒為單位。這樣就獲得了一段文本在視頻中出現(xiàn)的時間差值。如圖6中方框框住的是第17句文本在視頻或音頻中持續(xù)的時間間隔。

每一句文本的情感標(biāo)簽，文本內(nèi)容，出現(xiàn)在視頻中的時間差值，組成一個新的字幕元素，如圖6所示每一行就是一個新的字幕元素。對原始音頻轉(zhuǎn)化后的字幕文件中的每一個字幕元素都做以上處理，srt格式字幕文件就轉(zhuǎn)化為了新的Unity 中可以處理的字幕文件。圖6是新的字幕文件的一部分截圖，每一行都是一個新的字幕元素，字幕元素中的元素項用$符分隔開。每一行的元素項從左到右依次是文本序號、情感標(biāo)簽、情感強(qiáng)度、文本內(nèi)容、在視頻或音頻中持續(xù)的時間間隔。

3.4? 情感動畫的匹配

3.4.1? 角色動畫和場景模型構(gòu)建

在匹配文本、語音和動畫之前，需要對虛擬場景、演講者角色模型、肢體情感動畫進(jìn)行構(gòu)建。本研究角色動畫采用3DS MAX這款軟件進(jìn)行建模，場景模型在Unity中構(gòu)建。

3DS MAX是目前世界上應(yīng)用最廣泛的三維建模、動畫、渲染軟件[14]。使用3DS MAX建模大體上可以分為三個步驟：①對于簡單幾何體，使用3DS MAX內(nèi)置圖形庫可以很方便的建模;對于復(fù)雜的圖形多采用Nurbs面片建?；蛘逷oly多邊形建模;②對建好的模型賦予材質(zhì)，所謂材質(zhì)就是模型的外表在3DS MAX中多采用貼圖的方式給模型賦材質(zhì)，貼圖可以采用Photoshop軟件進(jìn)行加工制作;③精細(xì)調(diào)節(jié)，最后要對模型進(jìn)行精修，包含調(diào)整攝像機(jī)的位置，調(diào)整模型可視角度和反光度，等這一系列操作都完成之后最后把模型渲染輸出成TGA序列圖像格式。

構(gòu)建完成模型和場景之后，接下來的就可以在Unity中對模型、音頻、字幕、動畫進(jìn)行匹配生成VR視頻。關(guān)于拼接視頻，文獻(xiàn)[15]中方案是對全景圖片的拼接，實現(xiàn)網(wǎng)絡(luò)視頻的三維全景展示和本文方法有本質(zhì)的區(qū)別。本文是對視頻元素進(jìn)行處理而非對視頻中的幀圖片進(jìn)行處理。

為了生動有趣的還原音頻中演說場景，我們用《瘋狂動物城》中Judy（朱迪）的虛擬形象來代替俞敏洪老師在虛擬場景中進(jìn)行演講。關(guān)于虛擬人物文獻(xiàn)[16]中提到在沉浸式虛擬現(xiàn)實中，與虛擬人物的交互是最令人信服的一種體驗。因為參與者和角色共享一個三維空間，參與者能夠準(zhǔn)確地感知角色的肢體語言?？ㄍㄌ摂M人物構(gòu)建完成之后還需構(gòu)建一個卡通風(fēng)格的 3D虛擬場景[17]，虛擬化交互將成為一種比較有發(fā)展?jié)摿Φ慕换バ问絒18]。中探討將環(huán)境擴(kuò)展到動畫和虛擬現(xiàn)實的下一代數(shù)字流派。圖7是在3DS MAX中對Judy模型進(jìn)行建模的示例圖。

給Judy角色模型綁定骨骼，制作演講狀態(tài)中的肢體動畫，根據(jù)實際需要我們定制出演講中表達(dá)情緒的肢體動畫，僅作為演示我們給出圖8中四種演講狀態(tài)中的肢體動畫效果。

給角色模型綁定骨骼和動畫，生成獨(dú)立的動畫文件之后就可導(dǎo)入Unity場景中進(jìn)行文本，音頻，演講者角色模型，肢體情感動畫的匹配。我們在Unity中導(dǎo)入一個林中小屋場景，導(dǎo)入Judy模型后的效果如圖9所示。

情感標(biāo)簽和角色動畫匹配后，角色在Unity場景中的演講狀態(tài)我們也給出部分截圖，效果如圖10所示。

3.4.2? 字幕、音頻、角色、情感動畫匹配算法

把字幕文件、音頻文件、角色模型文件、情感動畫文件導(dǎo)入到Unity3D游戲引擎中，設(shè)計算法進(jìn)行匹配，在虛擬場景中還原傳統(tǒng)視頻中的演說場景。

類似于傳統(tǒng)的流媒體視頻，本研究最后生成的VR視頻是一個包含人物、肢體動作、字幕、音頻的完整視頻，而且字幕、語言、肢體動作互相匹配。因為字幕是從語音轉(zhuǎn)化來的所以語音和字幕是一致的，所以匹配算法的關(guān)鍵有兩點(diǎn)，一是要讓字幕和出現(xiàn)該字幕的時間相一致;二是字幕內(nèi)容和相應(yīng)肢體動畫相一致。

時間和字幕同步的處理方法如下：

本研究使用的方法是借助Unity中的協(xié)程機(jī)制，播放音頻的同時讓Unity的主程序首先調(diào)用text字幕文件出現(xiàn)一行字幕文本，然后調(diào)用協(xié)程讓主程序等待一段時間再去調(diào)用text字幕文件中第二行要顯示的字幕文本。這個協(xié)程等待的時間就是text字幕文件中字幕文本相應(yīng)行中最后一項的時間差值。與此同時，在主程序等待的這段時間內(nèi)，調(diào)用情感標(biāo)簽和肢體動畫文件匹配的算法，使字幕文本的內(nèi)容和肢體動作相一致。通過以上方法就做到了語音、字幕、肢體動作相匹配。

字幕內(nèi)容和相應(yīng)肢體動畫一致的方法如下：

每條動畫制作的時候都有自己的播放時間即動畫自身時間長度ClipLength。每一段字幕出現(xiàn)也有一個時間差值WordTime。即在WordTime時間內(nèi)，相應(yīng)的動畫要播放完，這樣才能保證字幕內(nèi)容和肢體動畫相一致。因為字幕出現(xiàn)的時長WordTime是定值，所以只有通過控制動畫的播放速度來使字幕內(nèi)容和肢體動畫相一致。

動畫速度的處理方式有以下三種情況：

1. WordTime=ClipLength? ? Speed=1。

2. WordTime>ClipLength Speed=ClipLength/ WordTime，減慢動畫播放速度。

3. WordTime

通過以上三種不同情況的處理，就做到了肢體動作動畫和字幕內(nèi)容相匹配。

4? ?實驗

4.1? 實驗環(huán)境設(shè)置

本文所提出的VR視頻制作方法，從前期各種轉(zhuǎn)制材料的準(zhǔn)備到后期結(jié)果的呈現(xiàn)，是要依托一些軟硬件設(shè)施的。即使沒有計算機(jī)相關(guān)專業(yè)知識的人群，依照本文所提出的方法流程，運(yùn)用VR視頻制作各個階段的軟硬件設(shè)施，完全可以復(fù)現(xiàn)實驗結(jié)果。下面給出各個階段所用到的軟硬件設(shè)施。

（1）軟件

提取視頻的音頻操作，本研究使用的是格式工廠這款軟件，這款軟件界面簡潔、操作方便，可以很容易的提取到所需格式的音頻文件。

音頻的語音識別文本化處理操作，本研究使用的是YeeCaption這款智能視頻翻譯軟件。這款軟件將繁瑣的視頻字幕翻譯制作最大程度的便捷化，成功實現(xiàn)從切分時間軸、字幕（語音）識別，到字幕翻譯校對及成品導(dǎo)出的一站式操作。

Srt格式字幕文件的自然語言處理操作，本研究使用的Python3.6.3版本程序語言構(gòu)建流程函數(shù)，自然語言處理庫用的是NLTK庫，句子分詞用的是jieba分詞，情感詞典用的是大連理工大學(xué)信息檢索研究室整理和標(biāo)注中文情感詞匯本體庫。

音頻、字幕、動畫的匹配過程是在3D游戲引擎Unity3D中完成的，我們使用的Unity3D軟件的版本是Unity 2017.2.0f3 （64-bit）。

PC操作系統(tǒng)是Win10系統(tǒng)，機(jī)身運(yùn)行內(nèi)存8GB，存儲內(nèi)存500G，處理器是Intel i7處理器。

（2）硬件

制作VR及3D視頻過程中所需硬件設(shè)備為個人PC， VR及3D視頻完成之后結(jié)果呈現(xiàn)的方式之一是用VR頭顯。本研究結(jié)果呈現(xiàn)運(yùn)用HTC Vive虛擬現(xiàn)實平臺。該平臺配有高清晰頭盔顯示器（HMD）、兩個運(yùn)動控制器和兩個紅外跟蹤站。本項目在Unity3D中開發(fā)，所有腳本都是用C#語言中完成的。與虛擬環(huán)境的交互主要是通過Vive控制器完成的，控制器有幾個按鍵可用于交互。此外，制作完成的VR視頻也可以直接在PC上顯示3D視頻，呈現(xiàn)方式并不局限于VR環(huán)境。

（3）參與者

為了對我們所提出的VR視頻轉(zhuǎn)制方法和最后的視頻呈現(xiàn)效果進(jìn)行評價，我們通過發(fā)送電子郵件給首都師范大學(xué)不同專業(yè)背景的學(xué)生來招募實驗志愿者。我們一共選擇了20位志愿者，為了消除性別、年齡差異，我們招募了10名男同學(xué)，10名女同學(xué)，他們的年齡都介于22歲至23之間，所有人的平均年齡為22.28歲。所有志愿者中其中10人宣稱之前體驗過虛擬現(xiàn)實技術(shù)，大多情況下這些體驗僅限于體驗過虛擬現(xiàn)實頭盔，或者基于智能手機(jī)的VR盒子。

在本實驗中我們把志愿者分成兩組，為了消除性別差異和對VR熟悉程度的差異，我們保證兩組人員總數(shù)相同，男女比例相同，對VR了解情況相一致。

4.2? 實驗流程

1. 對傳統(tǒng)制作VR視頻的方法進(jìn)行調(diào)研，查詢整理材料，給出傳統(tǒng)方法所花費(fèi)的時間、財力、和人力成本數(shù)據(jù)并和我們所提方法的成本進(jìn)行對比。

2. 讓實驗受試者在VR演示裝備中去觀看轉(zhuǎn)制的視頻，觀看之后填寫調(diào)查問卷，對視頻沉浸性進(jìn)行評價。

4.3? 實驗結(jié)果

4.3.1? VR全景視頻成本

（1）拍攝設(shè)備的價格花費(fèi)大

國內(nèi)外比較著名的全景相機(jī)品牌有：GoPro Omni、NextVR、Facebook surrond 360、LG 360cam、Samsung Gear 360、DetuTWIN 360、Ricoh THETA S、Nokia OZO、Insta 360，暴風(fēng)魔眼等，部分品牌擁有多種不同型號相機(jī)，我們只選其中一種進(jìn)行價格統(tǒng)計，由于受市場供求關(guān)系影響和商家戰(zhàn)略部署影響，同種品牌同型號的全景相機(jī)在不同時間、不同地區(qū)，價格會有差異。統(tǒng)計結(jié)果如表1所示。

（2）時間成本大，人員動用多且復(fù)雜

因VR全景視頻對于拍攝者及現(xiàn)場拍攝環(huán)境等要求比普通跟拍視頻要高，所以前期準(zhǔn)備工作復(fù)雜，需要的策劃人員溝通人員會更多，對有較多經(jīng)驗的全景攝影師需求也更大，同時相比較普通跟拍視頻而言，VR全景視頻的拍攝時間成本也會更大。

（3）后期難度高

普通視頻的后期制作主要在剪輯和布置特效兩項之中，而VR全景視頻首先要做的是將不同方位的素材進(jìn)行拼合，還要進(jìn)行畫面的校準(zhǔn)等步驟，使成片塑造的環(huán)境更顯真實。所以從VR全景視頻后期制作方面來說，也是需要相當(dāng)?shù)臅r間耗費(fèi)與制作功底。

4.3.2? 動捕裝備錄制CG視頻成本

（1）金錢成本大

通過對各種捕捉設(shè)備的市場行情分析，目前最低成本的小型硬件實時捕捉設(shè)備都要萬元以上RMB，而且僅僅是身體運(yùn)動捕捉功能部分，而表情、手部，眼睛捕捉等都需要單獨(dú)購買相應(yīng)的設(shè)備，全套購買齊全估計也要數(shù)十萬RMB，而像Vicon跟MotionAnalysis這樣著名的捕捉公司的最低配置都要100萬以上。部分品牌動捕裝備的價格統(tǒng)計如表2所示。

（2）人員動用多且操作流程復(fù)雜

捕捉設(shè)備包含身體運(yùn)動捕捉設(shè)備，表情、手部，眼睛捕捉等相應(yīng)設(shè)備，同時還需要多角度的控制器定位系統(tǒng)，而這些都需要專業(yè)人員提前進(jìn)行調(diào)試、布置。如圖12中所示，角色演員要穿戴布滿傳感器的設(shè)備，在可定位的區(qū)域內(nèi)活動，專業(yè)的技術(shù)人員要實時的操控相應(yīng)的軟件進(jìn)行動作的捕捉。整個過程是非常繁雜的，如果設(shè)備某個部分發(fā)生了故障，設(shè)備調(diào)試也要花費(fèi)很長時間。

4.3.3? 本文所提VR及3D視頻生成方法成本

我們所提方法不需要全景相機(jī)，不需要動捕裝備，因此可以很大程度降低金錢成本，同時也降低了時間成本和人力成本。只需要針對已有的音視頻進(jìn)行再次創(chuàng)作就可以生成高質(zhì)量的VR內(nèi)容。在這個過程中幾乎不花費(fèi)金錢成本，只需要幾款軟件就可以進(jìn)行VR視頻的轉(zhuǎn)制。人力成本方面最多兩個人就足夠了，一個人負(fù)責(zé)建模，一個人負(fù)責(zé)Unity中視頻的拼接。綜合以上VR內(nèi)容生產(chǎn)成本的調(diào)研和分析我們可以得出表3中的結(jié)論。

相較于全景相機(jī)錄制全景視頻的方法、全身動捕裝備錄制VR視頻的方法，我們所提出的利用已有音視頻資料生成VR視頻的方法，可以快速、低成本自動生成高質(zhì)量VR視頻。

4.3.4? 對轉(zhuǎn)制VR視頻的效果進(jìn)行評價

實驗受試者分A，B兩組。志愿者們首先觀看原視頻，然后體驗轉(zhuǎn)制的VR視頻，體驗之后針對“我認(rèn)為轉(zhuǎn)制后的VR視頻和原始視頻相比更有吸引力、沉浸性更強(qiáng)?！眴栴}對VR視頻的效果進(jìn)行評價[19]。中針對VR環(huán)境下解剖學(xué)領(lǐng)域的空間結(jié)構(gòu)學(xué)習(xí)能力的提升的對比實驗[20]，中關(guān)于虛擬現(xiàn)實環(huán)境下條形按鈕和圓形按鈕的對比實驗，評價方法都是采用上面所述的調(diào)查問卷評價方法。評測效果分5個等級從高到底分別是非常同意、同意、中立、不同意、非常不同意。評測結(jié)果如下。

由圖13，14中數(shù)據(jù)可以看出A，B兩組橫軸每一項的數(shù)據(jù)差異不是很大，A組中40%的同學(xué)非常同意VR視頻的呈現(xiàn)效果要好于原視頻，同意占比為30%。在B組中也有相似的結(jié)果，同意以上占比為70%。綜合A，B兩組數(shù)據(jù)我們可以看出70%的同學(xué)對我們所提實驗方法轉(zhuǎn)制的VR視頻呈現(xiàn)效果表示滿意，5%的同學(xué)保持中立，不同意以下占比為25%。

5? 結(jié)語

隨著虛擬現(xiàn)實技術(shù)和價格更加親民化的硬件設(shè)備普及，VR視頻內(nèi)容的需求在逐漸增加。但現(xiàn)有的VR視頻的生成方法面臨著制作成本高，創(chuàng)作難的問題，而且對于過去珍貴的音、視頻資料很難按照VR的傳統(tǒng)生成模式來重新錄制。由此，本文提出一種新穎、低成本的利用已有音視頻資料生成VR視頻的方法。實驗表明，相比于傳統(tǒng)的VR視頻的制作方式，我們提出的方法可以大幅度節(jié)省時間成本、人力成本、金錢成本。

在將來的工作中，我們將會繼續(xù)該方面的研究來提高自然語言處理的準(zhǔn)確度、優(yōu)化匹配算法、建立一個包含更精細(xì)情感分類的肢體動畫庫，加入面部表情的情感匹配，使我們的VR視頻制作流程更加簡潔，生成的VR視頻內(nèi)容更加的真實、細(xì)膩。我們還將會研究專門針對演講、授課的情感分析，由此增強(qiáng)VR視頻的現(xiàn)場感染力。

參考文獻(xiàn)

[1] 楊琪，黃建明. 家居漫游系統(tǒng)的設(shè)計與實現(xiàn)[J]. 軟件， 2015， 36（1）： 26-31.

[2] 徐雯皓，李忠，蘇鑫昊. 基于 3D 引擎的汶川震前水文變化三維模擬演示系統(tǒng)設(shè)計[J]. 軟件， 2018， 39（4）： 176-179.

[3] 唐實，任淑霞，王佳欣，等. 基于虛擬VR技術(shù)的心臟醫(yī)療輔助系統(tǒng)的設(shè)計與應(yīng)用[J]. 軟件， 2018， 39（6）： 23-25.

[4] 高偉，王昱霖，吳倩蓮，等. 基于VR技術(shù)的教育游戲在英語教學(xué)中的應(yīng)用與發(fā)展前景[J]. 軟件， 2018， 39（5）： 60-65.

[5] 王躍華. 淺析虛擬現(xiàn)實視頻的發(fā)展和應(yīng)用[J]. 現(xiàn)代電影技術(shù)， 2016（07）： 21-23.

[6] 郭宗明，班怡璇，謝瀾. 虛擬現(xiàn)實視頻傳輸架構(gòu)和關(guān)鍵技術(shù)[J]. 中興通訊技術(shù)， 2017， 23（06）： 19-23.

[7] 趙樂明子，劉榮. 虛擬現(xiàn)實視頻市場的問題及對策研究[J]. 現(xiàn)代商業(yè)， 2018（02）： 39-40.

[8] 董振江，張東卓，黃成，等. 虛擬現(xiàn)實視頻處理與傳輸技術(shù)[J]. 電信科學(xué)， 2017， 33（08）： 45-52.

[9] Santos， Camilo Telles Pereira and Santos， Celso Alberto Saibel， “5Cam： A Multicamera System for Panoramic Capture of Videos， ” in Proceedings of the 12th Brazilian Symposium on Multimedia and the Web （WebMedia '06）， 2006， pp. 99--107.

[10] 吳遠(yuǎn)志，門濤，羅誼恒，等. 全景微課視頻的設(shè)計與制作[J]. 電腦迷， 2017（03）： 137-138.

[11] 薛元昕，李鷹. 基于虛擬現(xiàn)實技術(shù)的課程錄像制作研究與實現(xiàn)[J]. 煙臺職業(yè)學(xué)院學(xué)報， 2011， 17（01）： 48-51.

[12] 張敏. 虛擬現(xiàn)實VR（影視）內(nèi)容的發(fā)展現(xiàn)狀和瓶頸[J]. 中國廣播電視學(xué)刊， 2017（09）： 64-66.

[13] 徐琳宏，林鴻飛，潘宇，等. 情感詞匯本體的構(gòu)造[J]. 情報學(xué)報， 2008，（2）： 180-185.

[14] 徐飛. 利用3DS MAX打造美麗世界——淺談3DS MAX的學(xué)習(xí)與應(yīng)用[J]. 科技咨詢導(dǎo)報， 2007（10）： 20.

[15] 秦曉軍，黃秋儒. 面向網(wǎng)絡(luò)視頻的三維全景展示技術(shù)[J]. 電視技術(shù)， 2014， 38（19）： 120-122+154.

[16] Gillies， Marco， “Creating Virtual Characters， ” in Proceedings of the 5th International Conference on Movement and Computing， 2018， pp. 22： 1--22： 8.

[17] 曹瑜，郭立萍，杜紅燕，等. 卡通風(fēng)格3D 游戲場景設(shè)計制作技術(shù)[J]. 軟件， 2015， 36（3）： 22-25.

[18] Hailey， David E. ， ”A Next Generation of Digital Genres： Expanding Eocumentation into Animation and Virtual Reality， ” in Proceedings of the 22Nd Annual International Conference on Design of Communication： The Engineering of Quality Documentation（SIGDOC '04）， 2004， pp. 19--26.

[19] Seo， Jinsil Hwaryoung and Smith， Brian Michael and Cook， Margaret E. and Malone， Erica R. and Pine， Michelle and Leal， Steven and Bai， Zhikun and Suh， Jinkyo， “Anatomy Builder VR： Embodied VR Anatomy Learning Program to Promote Constructionist Learning， ”in Proceedings of the 2017 CHI Conference Extended Abstracts on Human Factors in Computing Systems（CHI EA '17）， 2017， pp. 2070-2075.

[20] Santos， A. and Zarraonandia， T. and D＼'{＼i}az， P. and Aedo， I， “A Comparative Study of Menus in Virtual Reality Environments， ”in Proceedings of the 2017 ACM International Conference on Interactive Surfaces and Spaces（ISS '17）， 2017， pp. 294-299.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于音視頻的自動化低成本VR視頻生成方法研究