劉柏亨 原松梅
摘 要:隨著VR技術(shù)的進(jìn)一步普及,其應(yīng)用場(chǎng)景也從娛樂擴(kuò)展到醫(yī)療、文化等各個(gè)領(lǐng)域,數(shù)字博物館便是在VR技術(shù)支持下應(yīng)運(yùn)而生的,具有文化傳播價(jià)值。為了體現(xiàn)VR數(shù)字博物館的交互性和代入感,語音交互設(shè)計(jì)一直是數(shù)字博物館設(shè)計(jì)中急需解決的重要問題。本文從語音交互設(shè)計(jì)入手,對(duì)數(shù)字博物館中如何實(shí)現(xiàn)語音交互設(shè)計(jì)以及用戶體驗(yàn)進(jìn)行探討,以期為開發(fā)高水平的VR數(shù)字博物館提供有益借鑒。
關(guān)鍵詞: 數(shù)字博物館;交互設(shè)計(jì);語音識(shí)別;VR
文章編號(hào): 2095-2163(2019)03-0232-05 中圖分類號(hào): TP18 文獻(xiàn)標(biāo)志碼: A
0 引 言
時(shí)下,隨著數(shù)字化技術(shù)的迅速發(fā)展,即使得基于移動(dòng)終端的數(shù)字博物館應(yīng)運(yùn)而生,真正突破了一時(shí)一地的時(shí)空局限,滿足了人們足不出戶、在手機(jī)終端瀏覽各地博物館相關(guān)藏品信息的客觀需求。但美中不足的是,數(shù)字博物館僅僅是以文字、圖片或視頻的形式來呈現(xiàn)展館內(nèi)容,導(dǎo)致其體驗(yàn)感和沉浸感完全不及游覽實(shí)體博物館。
得益于虛擬現(xiàn)實(shí)(Virtual, Reality, VR)技術(shù)的迅猛發(fā)展,基于VR技術(shù)的數(shù)字博物館不但突破了實(shí)體博物館的時(shí)空局限,而且能以多感官、多層次和立體化的方式呈現(xiàn)展館內(nèi)容,彌補(bǔ)了其它終端臨場(chǎng)感和代入感不強(qiáng)的缺陷 ;此外,VR的交互性對(duì)用戶具有更強(qiáng)的吸引力。
考慮到目前的場(chǎng)地和成本限制,現(xiàn)有的消費(fèi)級(jí)VR交互方式仍是以手柄為主,在交互體驗(yàn)的自然性上表現(xiàn)較差,而作為自然交互方式的代表,語音交互一直都是VR交互研究的重要問題,且在VR數(shù)字博物館中也具有較高的實(shí)用價(jià)值。據(jù)此,本文將針對(duì)語音交互設(shè)計(jì)在VR數(shù)字博物館中的應(yīng)用和用戶體驗(yàn)進(jìn)行探討。對(duì)此可做研究論述如下。
1 VR及其交互設(shè)計(jì)概述
1.1 VR技術(shù)
VR技術(shù)是一種計(jì)算機(jī)仿真技術(shù),通過對(duì)三維世界的模擬創(chuàng)造出一種嶄新的交互系統(tǒng)。其特點(diǎn)是能讓用戶以主角的身份進(jìn)入到一種由計(jì)算機(jī)圖形技術(shù)構(gòu)成的、具有感知的虛擬空間環(huán)境中,用戶通過借助 VR 設(shè)備與虛擬環(huán)境中的對(duì)象進(jìn)行交互,以接近現(xiàn)實(shí)親歷場(chǎng)景的效果,對(duì)三維虛擬空間環(huán)境進(jìn)行更真實(shí)的體驗(yàn)。
1.2 VR中的交互設(shè)計(jì)
與在圖形用戶界面占據(jù)主流地位的視窗-圖標(biāo)-菜單-指針(Window-Icon-Menu-Pointer,WIMP)界面范式不同,VR所遵循的是基于VR的交互(Reality-based Interaction,RBI),這一框架在2006年由ACM CHI會(huì)議的發(fā)起者Jacob等人[1]提出,主要包括物理學(xué)原理、人體感知與技能、環(huán)境感知與技能、社會(huì)感知與技能四個(gè)層次。
從Post-WIMP到RBI范式的過程中,再?zèng)]有出現(xiàn)類似WIMP一樣穩(wěn)居業(yè)界榜首的范式[2],這是因?yàn)閂R交互設(shè)備所使用的不再是單一、固定的離散型信息輸入,而是呈現(xiàn)出多通道的特性,人們通過聽覺、觸覺甚至是味覺的感知,能夠獲得數(shù)倍于以往終端的信息量和豐富體驗(yàn)。
合適的輸入設(shè)備對(duì)于VR的交互也同樣重要,目前的離散輸入設(shè)備、連續(xù)輸入設(shè)備大多包含鍵盤、三維鼠標(biāo)、力反饋手套、深度相機(jī)等種類,例如Kinect和Leap Motion等,而腦電波輸入設(shè)備、語音和生理信號(hào)感知設(shè)備還不成熟,距離走出實(shí)驗(yàn)室尚需時(shí)日。
在消費(fèi)級(jí)VR交互設(shè)備上,諸如按鍵手柄、深度相機(jī)等較為常見,其它交互設(shè)備由于連接復(fù)雜、不便攜帶等諸多限制仍然難以進(jìn)入消費(fèi)級(jí)市場(chǎng),因此除了對(duì)視覺上的交互設(shè)計(jì)之外,對(duì)語音輸入方面的交互設(shè)計(jì)研究也同樣是現(xiàn)階段的研究重點(diǎn)。
2 探究VR數(shù)字博物館交互設(shè)計(jì)的必要性
2.1 數(shù)字博物館建設(shè)的必要性
維基百科中給出的數(shù)字博物館的定義為:“數(shù)字博物館是以博物館為主題,結(jié)合多媒體技術(shù)應(yīng)用的展示平臺(tái)”[3]。隨著人們生活水平的不斷提高,文化消費(fèi)成為了時(shí)下重要的消費(fèi)內(nèi)容之一,而參觀游覽博物館就是文化消費(fèi)的一種。同時(shí),人們的生活方式發(fā)生了極大的變化,即使足不出戶也可便捷享受高品質(zhì)的現(xiàn)代服務(wù)及帶來的優(yōu)良體驗(yàn),而更多喜愛藝術(shù)、文化和歷史的人則有了在家中觀看博物館、美術(shù)館等世界各地展館藏品的需求,如此就使得數(shù)字博物館的建設(shè)獲得了發(fā)展契機(jī)。目前,科技的飛速進(jìn)步證明:VR技術(shù)作為數(shù)字博物館設(shè)計(jì)中核心關(guān)鍵的技術(shù),真正提供了突破時(shí)間和空間的限制、在虛擬世界中實(shí)現(xiàn)交互體驗(yàn)的可能。
2.2 VR數(shù)字博物館交互設(shè)計(jì)的必要性
近年來,各地博物館在虛擬數(shù)字展館建設(shè)上均有可觀進(jìn)展,雖然大部分博物館囿于資金、人力資源等實(shí)際條件仍處在傳統(tǒng)網(wǎng)站階段,但已有博物館開始著手或陸續(xù)加大了基于VR技術(shù)和相關(guān)平臺(tái)的數(shù)字博物館的研發(fā)投入力度,而且正處于快速發(fā)展的黃金階段。
2017年10月底,完全虛擬存在于VR的博物館——克萊默博物館(Kremer Museum)誕生了,并于2018年3月進(jìn)入HTC VIVE的官方應(yīng)用商城VIVEPORT,人民幣售價(jià)37元。作為一個(gè)極具創(chuàng)新意義的博物館,克萊默博物館將VR技術(shù)與世界級(jí)大師的繪畫作品相結(jié)合,其中展示了荷蘭黃金時(shí)代的許多泰斗級(jí)大師倫勃朗、克伊普、艾爾波特·蓋依普和弗蘭斯·哈爾斯的作品等,這也是世界上第一個(gè)完全在VR世界建立的博物館,是VR技術(shù)在數(shù)字博物館設(shè)計(jì)中的成功標(biāo)志性應(yīng)用。
與實(shí)際的博物館場(chǎng)館和傳統(tǒng)網(wǎng)站階段的虛擬博物館不同,VR技術(shù)應(yīng)用的本身就意味著其交互的復(fù)雜性、多重性和更多的可能性。由于VR研究仍處于技術(shù)的更新演變期,其在虛擬博物館上的應(yīng)用也不僅僅只立足于展品和實(shí)體場(chǎng)館場(chǎng)地的還原,VR平臺(tái)載體的創(chuàng)新、尤其是交互上的創(chuàng)新將為應(yīng)用的內(nèi)容本身帶來更多的選擇和設(shè)計(jì)空間。
2.3 VR數(shù)字博物館場(chǎng)景下語音交互研究的必要性
由于六自由度平臺(tái)和觸感手套等交互裝備和相應(yīng)交互方式受場(chǎng)地和購買成本等的限制,因此難以大規(guī)模進(jìn)入消費(fèi)級(jí)市場(chǎng),而語音交互所需的設(shè)備門檻對(duì)于標(biāo)準(zhǔn)的VR設(shè)備而言并不高,目前的VR頭顯基本都配備了麥克風(fēng)設(shè)備,不具備麥克風(fēng)語音輸入設(shè)備的PC頭顯也可以通過PC上的語音輸入接口進(jìn)行輸入。
2016年過后,隨著VR技術(shù)相關(guān)研究水平的不斷提升,眾多實(shí)體博物館都在積極推進(jìn)與VR場(chǎng)館相關(guān)應(yīng)用的開展與落地,這些應(yīng)用所面向的用戶很少能使用類似觸感手套等高成本的交互方式,語音交互就成為了除手柄交互外的最佳選擇。
3 語音交互在VR數(shù)字博物館中的應(yīng)用研究
語音交互屬于自然語言理解領(lǐng)域,是人工智能領(lǐng)域的分支之一。一個(gè)成熟的智能語音交互系統(tǒng)應(yīng)包含語音識(shí)別模塊、自然語言理解模塊、自然語言生成模塊、語音合成模塊和對(duì)話管理模塊。將以前沿研究成果Deep-FSMN模型為基礎(chǔ),開放式語音合成平臺(tái)為輔,重點(diǎn)闡述在VR數(shù)字博物館應(yīng)用場(chǎng)景下的語音交互設(shè)計(jì)過程,研究過程詳見如下。
3.1 Deep-FSMN模型在語音識(shí)別的應(yīng)用
阿里達(dá)摩院于2018年6月公開了一種改進(jìn)的前饋型序列記憶網(wǎng)絡(luò)(Feed-forward Sequential Memory Network,F(xiàn)SMN)架構(gòu),即Deep-FSMN(DFSMN),將其應(yīng)用在大詞匯量的連續(xù)語音識(shí)別場(chǎng)景中,相比于BLSTM模型在各方面均具有一定優(yōu)勢(shì)。研究可知,這是一種基于FSMN模型的聲學(xué)模型。
該模型是在cFSMN結(jié)構(gòu)的基礎(chǔ)上,通過在相鄰的存儲(chǔ)塊之間引入跳過連接層。這些跳過連接層則可以實(shí)現(xiàn)信息流向不同的層。其結(jié)構(gòu)如圖1所示。
由圖1可見,在cFSMN層中,一個(gè)標(biāo)準(zhǔn)的隱層會(huì)被低秩權(quán)重矩陣分解為2個(gè)層,而一個(gè)cFSMN可解析為4個(gè)cFSMN層和2個(gè)DNN層,總共12個(gè)層,當(dāng)需要通過增加存儲(chǔ)塊來進(jìn)行高階訓(xùn)練時(shí),這種結(jié)構(gòu)會(huì)導(dǎo)致梯度消失問題,故而特別引入了跳過連接層,這種設(shè)計(jì)旨在使低層梯度能通過存儲(chǔ)塊輸出流到更高層的存儲(chǔ)塊。同時(shí),在反向傳播的過程中也能將高層的梯度分配到低層,而這將有助于提升識(shí)別效率。
這一模型現(xiàn)已開源至github,支持通過搭建在線語音識(shí)別系統(tǒng)或從阿里云接入等方式來定制更高效的訓(xùn)練和語音識(shí)別功能,在VR交互中較多孤立詞識(shí)別場(chǎng)景下可能會(huì)有更好的表現(xiàn)。
3.2 語音合成和VR空間聲技術(shù)
虛擬環(huán)境應(yīng)對(duì)用戶的輸入產(chǎn)生反饋,包括功能上的交互和語音應(yīng)答等。在VR數(shù)字博物館中,經(jīng)常會(huì)遇到場(chǎng)館解說詞不便公開或難以采樣處理的情況,現(xiàn)有的音頻資料難以直接或經(jīng)過處理后投付使用,因此采用語音合成(Text-to-speech,TTS)技術(shù)對(duì)文字資料進(jìn)行轉(zhuǎn)語音處理即是一種較為合理的解決方案。
與直接參考博物館現(xiàn)有解說詞和語音資料相比較,采用TTS技術(shù)有利有弊。即使借助目前的人工智能技術(shù),在將TTS合成的語音與博物館專業(yè)解說員的解說詞進(jìn)行對(duì)照后會(huì)發(fā)現(xiàn),其在感情處理、語音語調(diào)(抑揚(yáng)頓挫)上仍有很大差距。另外,專業(yè)的解說詞經(jīng)過了專門的寫作潤色和加工,是適合連續(xù)朗讀的;而TTS的文字來源多樣、且不一,會(huì)令用戶產(chǎn)生不自然的感覺,進(jìn)而帶來與VR世界脫節(jié)的用戶體驗(yàn)。
VR環(huán)境與傳統(tǒng)交互平臺(tái)的一個(gè)鮮明區(qū)別就在于其交互對(duì)象的虛擬性,每一個(gè)交互都是發(fā)生在虛擬的三維空間中的,虛擬實(shí)體發(fā)出的聲音需要模擬聲音的空間位置和傳播情況,因此,在選用雙聲道揚(yáng)聲器作為輸出設(shè)備的前提下,應(yīng)在開發(fā)環(huán)境中使用空間音頻。
VR空間聲技術(shù)是在三維音頻技術(shù)的基礎(chǔ)上衍生而來,其中一個(gè)關(guān)鍵技術(shù)就是VR三維音頻渲染技術(shù)將采集、解碼得到的聲道、對(duì)象和聲場(chǎng)信號(hào)在VR設(shè)備上重放,達(dá)到真實(shí)感和空間感兼具的聽覺體驗(yàn)。Ambisonics音頻文件經(jīng)過解碼之后再次還原成一個(gè)空間聲場(chǎng),此聲音相當(dāng)于是從球形空間中各個(gè)方位的虛擬揚(yáng)聲器(Virtual Speakers)上發(fā)出來的[5]。在本類系統(tǒng)的應(yīng)用場(chǎng)景中,揚(yáng)聲器多為雙聲道立體聲揚(yáng)聲器,大體上可分為PC端桌面揚(yáng)聲器和立體聲耳機(jī)兩種,VR空間聲技術(shù)的虛擬揚(yáng)聲器則恰好作為發(fā)聲的虛擬實(shí)體的映射存在于VR博物館的場(chǎng)景中。
3.3 基于VR的數(shù)字博物館中語音交互設(shè)計(jì)研究
本研究擬以解放戰(zhàn)爭(zhēng)三大戰(zhàn)役之一的遼沈戰(zhàn)役紀(jì)念館為目標(biāo)場(chǎng)館,通過搭建基于VR平臺(tái)的數(shù)字博物館實(shí)驗(yàn),并將使用語音指令控制和語音交互來完成整個(gè)體驗(yàn)和游覽過程。
基于前述研究成果,本實(shí)驗(yàn)將運(yùn)行在HTC VIVE上,同時(shí)采用Unity 2018進(jìn)行基礎(chǔ)性的虛擬資產(chǎn)搭建[6],以及基本漫游功能的配置,通過與HTC VIVE自帶手柄相結(jié)合的交互方式,實(shí)現(xiàn)在游覽過程中的語音交互。
文中的VR博物館的語音輸入交互基本流程如圖2所示。由圖2可知,當(dāng)用戶需要操作控制器進(jìn)行漫游時(shí),即按下映射了腳本的手柄控制器,使語音識(shí)別系統(tǒng)進(jìn)入語音激活檢測(cè)(Voice Active Detection,VAD)狀態(tài),保持激活檢測(cè)狀態(tài),輸入語音信號(hào),經(jīng)過錄音腳本傳輸至識(shí)別模塊,識(shí)別后再將結(jié)果作為文本輸出。交互邏輯則需要以快速迭代模式進(jìn)行開發(fā),首先梳理基本語音指令控制邏輯,繼而將針對(duì)目標(biāo)VR博物館中的內(nèi)容進(jìn)行擴(kuò)充。
考慮到針對(duì)VR應(yīng)用場(chǎng)景的語音交互,尤其是語音指令控制功能的交互,將默認(rèn)使用中文語料進(jìn)行訓(xùn)練,本系統(tǒng)將滿足遼沈戰(zhàn)役紀(jì)念館的游覽和交互使用,語料中除基本的交互常用詞和高頻詞之外,還有該館的場(chǎng)館名、主要和具有代表性的藏品名及相關(guān)背景的重點(diǎn)名稱等,這些信息在大部分公共的漢語普通話語料庫中有所收錄,文中對(duì)其闡釋分析如下。
目標(biāo)場(chǎng)館、也就是遼沈戰(zhàn)役紀(jì)念館占地18.8萬平方米,以遼沈戰(zhàn)役軍事主題為切入點(diǎn),其中《攻克錦州》是中國第一座全景畫館,被譽(yù)為中國博物館和世界美術(shù)史的藝術(shù)精品和經(jīng)典之作[7]。這些重點(diǎn)城市和戰(zhàn)役等內(nèi)容,馬云飛等重點(diǎn)人物、連同戰(zhàn)史館、支前館等館名及藏品名,如果作為單個(gè)孤立字、詞加以識(shí)別,雖然在字本身的識(shí)別上可以取得最優(yōu)結(jié)果,但對(duì)于該類專有詞匯識(shí)別效率并不高。因此通過借鑒游戲中語音指令控制的研發(fā)經(jīng)驗(yàn),可授權(quán)開發(fā)者或管理員能夠自行定制專門的語料,便于在同類博物館之間的快速應(yīng)用與移植。
從圖2可以看出,本系統(tǒng)使用了與VR頭盔設(shè)備相結(jié)合的方式進(jìn)行語音交互,以HTC VIVE平臺(tái)的交互設(shè)備為核心,期望實(shí)現(xiàn)手柄與語音指令同步交替控制的理想體驗(yàn)。
與VR技術(shù)相結(jié)合的語音交互所涉及的不僅是交互場(chǎng)景的改變,更是由實(shí)體的交互轉(zhuǎn)向與虛擬實(shí)體的交互,是一個(gè)新的開始,對(duì)其交互體驗(yàn)的評(píng)價(jià)和研究也不能憑借單一結(jié)果或數(shù)據(jù)的衡定與考察,而應(yīng)采用以量化評(píng)價(jià)標(biāo)準(zhǔn)為主、用戶體驗(yàn)為輔的多樣化研究方式來進(jìn)行科學(xué)系統(tǒng)的綜合評(píng)估。
4 交互體驗(yàn)和評(píng)價(jià)研究
4.1 語音識(shí)別的評(píng)價(jià)
對(duì)于這一類的在線語音識(shí)別,通過輸出識(shí)別結(jié)果的字符串進(jìn)行評(píng)價(jià),將其作為單獨(dú)的語音識(shí)別系統(tǒng)做出評(píng)價(jià) 同時(shí),以純識(shí)別系統(tǒng)的識(shí)別率作為主要參考標(biāo)準(zhǔn),而在一般情況下,這一識(shí)別率的技術(shù)指標(biāo)就是詞錯(cuò)誤率(Word Error Rate,WER)。
為了使識(shí)別出來的詞序列和標(biāo)準(zhǔn)的詞序列之間保持一致,需要進(jìn)行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個(gè)數(shù),除以標(biāo)準(zhǔn)的詞序列中詞的總個(gè)數(shù)的百分比,即為WER,其數(shù)學(xué)公式可表示為:
其中,S為Substitution,即替換詞個(gè)數(shù);D為Deletion,即刪除詞個(gè)數(shù);I為Insertion,即插入詞個(gè)數(shù);N為總單詞數(shù)。
但在實(shí)際使用中,語音識(shí)別的效率也至關(guān)重要。已有研究表明:在線環(huán)境或是VR場(chǎng)景中,語音的錄制和傳輸都會(huì)產(chǎn)生延遲,而交互中的語音指令控制對(duì)交互反饋的時(shí)間要求較高,當(dāng)采用了Deep-FSMN聲學(xué)模型后,不僅在一定程度上提高了識(shí)別效率,而且也減少了建模過程的聲音信號(hào)損失。因此,在進(jìn)行評(píng)價(jià)時(shí)也需要反饋時(shí)間。
4.2 語音合成的評(píng)價(jià)
語音合成技術(shù)將文本轉(zhuǎn)化為聲音,廣泛應(yīng)用于多種場(chǎng)合中。其實(shí)現(xiàn)需用到語言學(xué)、語音學(xué)的諸多知識(shí),不同的TTS系統(tǒng)在準(zhǔn)確性、自然度、清晰度、還原度等方面也有著不一樣的表現(xiàn),因此,本系統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn)主要由3個(gè)部分組成,可對(duì)其分述如下。
(1)發(fā)音準(zhǔn)確性。線上語料中頻繁出現(xiàn)的多音字、數(shù)字、符號(hào)、夾雜英文等會(huì)給TTS帶來挑戰(zhàn),具體如圖3所示。這類情況的發(fā)音錯(cuò)誤會(huì)導(dǎo)致較差用戶體驗(yàn)。發(fā)音準(zhǔn)確是確保用戶體驗(yàn)的基本要求,現(xiàn)有的TTS系統(tǒng)已可以保證在交互場(chǎng)景下基本的發(fā)音準(zhǔn)確性。
(2)韻律準(zhǔn)確性。前端文本處理過程中會(huì)對(duì)文本進(jìn)行分詞處理和時(shí)長預(yù)估,為準(zhǔn)確評(píng)估TTS停頓和發(fā)音時(shí)長的合理性,可以準(zhǔn)備不同領(lǐng)域、不同句式、不同情感的文本,通過眾測(cè)主觀判斷合成語音是否可接受,計(jì)算TTS韻律準(zhǔn)確性。
(3)平均主觀意見分(Mean Opinion Score,MOS)。業(yè)界對(duì)語音的整體評(píng)測(cè)一般使用MOS作為標(biāo)準(zhǔn)。在邀請(qǐng)聽音人試聽合成語音后,聽音人根據(jù)分值描述,從擬人性、連貫性、韻律感等方面為語音選擇合適的評(píng)判分?jǐn)?shù)。
遼沈戰(zhàn)役紀(jì)念館承載著豐富的歷史內(nèi)涵,其解說詞多具有較為充沛的情感,但由于目前技術(shù)原因,時(shí)下的TTS語音合成的擬人性和情感仍然屬于大樣本訓(xùn)練的結(jié)果,而非真正的人性化的情感,因此在擬人性的評(píng)測(cè)上應(yīng)適當(dāng)放寬要求。
4.3 VR交互體驗(yàn)評(píng)估
這一部分采用問卷調(diào)研的方式,問卷設(shè)計(jì)基本思想遵循的是VR研究經(jīng)典問卷(Presence Questionnaire,PQ)。
VR研究經(jīng)典問卷是由美國陸軍研究所的Witmer等人于1992年提出,并于1998年再次更新、且通過了可靠性驗(yàn)證,由此將提升臨場(chǎng)感的因素分為控制因素、感官因素、分神因素和真實(shí)度因素四類[8]。在VR交互上主要是從控制因素方面進(jìn)行問卷設(shè)計(jì)。
通常而言,控制因素包括控制程度、控制的直接性、可預(yù)期性和控制模式。對(duì)于虛擬環(huán)境而言,用戶對(duì)任務(wù)環(huán)境的控制越符合自然習(xí)慣,控制程度越強(qiáng),給虛擬環(huán)境帶來的變化越明顯、也越容易預(yù)測(cè),用戶的臨場(chǎng)感隨即也就越強(qiáng)。遵循這一原則,本研究嘗試在目標(biāo)場(chǎng)館的應(yīng)用場(chǎng)景下進(jìn)行用戶體驗(yàn)評(píng)價(jià)問卷的設(shè)計(jì)。
VR語音交互問卷問題分類見表1。表1中給出了5個(gè)基本的問題分類,采用李克特量表對(duì)用戶進(jìn)行調(diào)研。其中,每個(gè)分類可拆分成多個(gè)細(xì)節(jié)問題,主要監(jiān)測(cè)了該系統(tǒng)的功能性體驗(yàn),例如Q1和Q5從一定程度上考察了語音識(shí)別的效率和表現(xiàn)情況,Q2考察了三維音頻的體驗(yàn),Q3則考察TTS功能,這些問題細(xì)化后即成為一份完整的問卷,從場(chǎng)館內(nèi)容的針對(duì)性、交互的可用性等方面進(jìn)行全方位的研究,以期從每個(gè)問題中尋求對(duì)應(yīng)的改進(jìn)方案。
5 結(jié)束語
基于VR的數(shù)字博物館已成為當(dāng)下VR應(yīng)用領(lǐng)域的研究熱點(diǎn)。本文即以Deep-FSMN模型為基礎(chǔ),通過應(yīng)用場(chǎng)景的針對(duì)性訓(xùn)練、TTS與實(shí)體館語音素材的混合應(yīng)用及量化標(biāo)準(zhǔn)和主觀評(píng)測(cè)的結(jié)合,在VR博物館場(chǎng)景下語音識(shí)別效率的提升上有一定進(jìn)展,并實(shí)現(xiàn)了VR數(shù)字博物館的語音交互體驗(yàn)的優(yōu)化,為后續(xù)研究和開發(fā)更為成熟的VR數(shù)字博物館提供了有益的支持。誠然,VR技術(shù)及應(yīng)用領(lǐng)域還有廣闊的探索研發(fā)空間。值得期待的是,其在數(shù)字博物館的開發(fā)設(shè)計(jì)及其文化傳播中必將發(fā)揮更大的作用。
參考文獻(xiàn)
[1]JACOB R J K, GIROUARD A, HIRSHFIELD L M, et al. Reality-based interaction: A framework for Post-WIMP interfaces[C]//Proceeding of the Twenty-sixth Annual SIGCHI Conference on Human Factors in Computing Systems (CHI '08).Florence, Italy:ACM,2008: 201-210.
[2]張鳳軍,? 戴國忠, 彭曉蘭. 虛擬現(xiàn)實(shí)的人機(jī)交互綜述[J]. 中國科學(xué): 信息科學(xué), 2016, 46(12):1711-1736.
[3]維基百科. 數(shù)字博物館[EB/OL]. https://zh.wikipedia.org/wiki/虛擬博物館.
[4]ZHANG Shiliang, LEI Ming, YAN Zhijie, et al. Deep-FSMN for large vocabulary continuous speech recognition[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB, Canada: IEEE,2018:5869-5873.
[5]胡瑞敏, 王曉晨, 張茂勝, 等. 三維音頻技術(shù)綜述[J].? 數(shù)據(jù)采集與處理, 2014, 29(5):661-676.
[6]叢曉丹,吳岡,管練武. 基于Unity3D的數(shù)字紀(jì)念館虛擬漫游設(shè)計(jì)[J]. 自動(dòng)化技術(shù)與應(yīng)用, 2017, 36(11):85-88,92.
[7]遼沈戰(zhàn)役紀(jì)念館. 遼沈戰(zhàn)役紀(jì)念館官方簡(jiǎn)介 [EB/OL]. [2017]. http://www.jzlszy.com/index.php?m=page&a=index&id=132.
[8]WITMER B G, SINGER M J. Measuring presence in virtual environments: A presence questionnaire[J]. Presence:Teleoperators and Virtual Environments , 1998, 7(3): 225-240.