黃國榮 劉煒
DOI:10.19850/j.cnki.2096-4706.2024.02.020
收稿日期:2023-05-31
基金項(xiàng)目:廣東省教育科學(xué)規(guī)劃課題(2021GXJK617)
摘? 要:以廣州番禺職業(yè)技術(shù)學(xué)院為例,研究AI虛擬導(dǎo)游在高職虛擬仿真實(shí)訓(xùn)基地的應(yīng)用。文章首先介紹AI虛擬導(dǎo)游技術(shù),其次分析AI虛擬導(dǎo)游的模型開發(fā)過程,分別從虛擬導(dǎo)游建模與骨骼綁定、ASR語音識(shí)別與TTS語音合成、Audio2Face基于面臉部表情訓(xùn)練和識(shí)別,以及虛擬導(dǎo)游UE引擎實(shí)時(shí)驅(qū)動(dòng)四個(gè)方面進(jìn)行闡述,最后對(duì)AI虛擬導(dǎo)游在高職虛擬仿真實(shí)訓(xùn)中的應(yīng)用進(jìn)行探討和分析。
關(guān)鍵詞:人工智能;虛擬導(dǎo)游;虛擬仿真實(shí)訓(xùn)
中圖分類號(hào):TP18;G434? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2024)02-0092-05
Research on the Application of AI Virtual Tour Guide in Vocational Virtual Simulation Training Base
—A Case of Guangzhou Panyu Polytechnic
HUANG Guorong, LIU Wei
(Guangzhou Panyu Polytechnic, Guangzhou? 511483, China)
Abstract: Taking Guangzhou Panyu Polytechnic as an example, this paper investigates the application of AI virtual tour guides in vocational virtual simulation training bases. It first introduces AI virtual tour guide technology, and then analyzes the model development process of AI virtual tour guide. It elaborates on four aspects: virtual tour guide modeling and bone binding, ASR speech recognition and TTS speech synthesis, Audio2Face facial expression-based training and recognition, and real-time driving of virtual tour guide UE engine. Finally, the application of AI virtual tour guide in vocational virtual simulation training is discussed and analyzed.
Keywords: Artificial Intelligence; virtual tour guide; virtual simulation training
0? 引? 言
根據(jù)《教育信息化“十四五”發(fā)展規(guī)劃》的指導(dǎo),虛擬仿真基地在學(xué)生實(shí)踐能力和職業(yè)素養(yǎng)培養(yǎng)方面扮演著重要的角色。它為學(xué)生提供了真實(shí)的實(shí)踐場(chǎng)景和模擬環(huán)境,促進(jìn)他們實(shí)際操作能力的提升和職業(yè)技能的培養(yǎng)。AI虛擬導(dǎo)游結(jié)合人工智能技術(shù),具備導(dǎo)覽、講解和互動(dòng)等功能[1-3]。廣州番禺職業(yè)技術(shù)學(xué)院的虛擬仿真基地作為示范性項(xiàng)目,在高職教育領(lǐng)域有廣泛的知名度和影響力。然而,隨著參觀人數(shù)的增加,基地面臨著接待任務(wù)繁重和人力不足的問題。本研究旨在深入探索AI虛擬導(dǎo)游在高職虛擬仿真基地中的潛力,并提出創(chuàng)新的接待解決方案,以提高效率和質(zhì)量。通過研究問題和方法的設(shè)計(jì),我們致力于深入研究AI虛擬導(dǎo)游的融合應(yīng)用。研究的目標(biāo)是為高職虛擬仿真基地提供創(chuàng)新的接待解決方案,并為推動(dòng)AI虛擬導(dǎo)游在教育領(lǐng)域的發(fā)展提供實(shí)證研究和有益的參考。
1? AI虛擬導(dǎo)游技術(shù)簡(jiǎn)介
AI虛擬導(dǎo)游綜合應(yīng)用人工智能、虛擬現(xiàn)實(shí)和人機(jī)交互等技術(shù)進(jìn)行設(shè)計(jì)開發(fā),包括三個(gè)核心組件:前端用戶界面、后端算法模塊和輸出模塊。AI虛擬導(dǎo)游技術(shù)架構(gòu)如圖1所示。
首先是前端用戶界面,它提供了用戶與虛擬導(dǎo)游進(jìn)行交互的界面。前端用戶界面主要采用語音識(shí)別技術(shù),用戶可以通過語音輸入與虛擬導(dǎo)游進(jìn)行對(duì)話和互動(dòng)。其次是后端算法模塊,它涵蓋了自然語言處理、語音識(shí)別等關(guān)鍵技術(shù),能夠?qū)崿F(xiàn)對(duì)用戶語義的理解、語音識(shí)別等功能。使用ASR語音識(shí)別將語音轉(zhuǎn)換為文本數(shù)據(jù),然后調(diào)用人工智能知識(shí)庫返回問題的答案。最后,文本再被轉(zhuǎn)換成語音(TTS),經(jīng)過深度訓(xùn)練的虛擬導(dǎo)游由UE4引擎接收到語音數(shù)據(jù)實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng)。目前人工智能智庫識(shí)使用了科大訊飛的SDK,這個(gè)知識(shí)庫包含了豐富的知識(shí),虛擬導(dǎo)游可以通過調(diào)用知識(shí)庫中的數(shù)據(jù)來提供準(zhǔn)確和有用的導(dǎo)覽服務(wù)。通過數(shù)據(jù)庫管理,我們還可以不斷增加知識(shí)庫的內(nèi)容,使虛擬導(dǎo)游能夠提前學(xué)習(xí)和了解廣州番禺職業(yè)技術(shù)學(xué)院虛擬仿真基地的知識(shí),提供更加專業(yè)和全面的導(dǎo)覽。
2? AI虛擬導(dǎo)游模型開發(fā)
圖2展示了虛擬導(dǎo)游制作的核心技術(shù)與流程。下面將分四個(gè)部分詳細(xì)說明虛擬導(dǎo)游模型開發(fā)的相關(guān)技術(shù)。
2.1? 虛擬導(dǎo)游建模與骨骼綁定
為了制作逼真的虛擬導(dǎo)游,我們采用了3D建模和渲染技術(shù)[4,5],通過專業(yè)的建模軟件(Maya或Blender)進(jìn)行人物建模和細(xì)節(jié)塑造,包括身體結(jié)構(gòu)、面部特征和服裝等。隨后,用Maya軟件進(jìn)行骨骼綁定,骨骼綁定是將虛擬人物的3D模型與骨骼系統(tǒng)相連接的過程。骨骼系統(tǒng)是由一系列關(guān)節(jié)組成的層次結(jié)構(gòu),模擬了真實(shí)人體的骨骼結(jié)構(gòu)。在骨骼綁定過程中,模型的頂點(diǎn)被分配到相應(yīng)的骨骼上,形成與骨骼之間的關(guān)聯(lián)關(guān)系,效果如圖3所示。這樣,當(dāng)骨骼運(yùn)動(dòng)時(shí),模型的頂點(diǎn)也會(huì)相應(yīng)地進(jìn)行變換和變形,從而實(shí)現(xiàn)虛擬人物的動(dòng)畫效果。
2.2? ASR語音識(shí)別與TTS語音合成
ASR(Automatic Speech Recognition)語音識(shí)別和TTS(Text-to-Speech)語音合成技術(shù)在虛擬導(dǎo)游系統(tǒng)開發(fā)中的語音處理領(lǐng)域扮演著重要角色。它們是實(shí)現(xiàn)語音交互和語音應(yīng)用的關(guān)鍵技術(shù)組成部分。ASR語音識(shí)別技術(shù)將人類的語音輸入轉(zhuǎn)換為文本形式,使計(jì)算機(jī)能夠理解和處理語音信息。該技術(shù)利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和注意力機(jī)制,對(duì)語音信號(hào)進(jìn)行分析和建模。它通過將語音信號(hào)與訓(xùn)練數(shù)據(jù)中的語音模型進(jìn)行匹配,識(shí)別出語音中所包含的語音單位,例如音素、單詞或短語。TTS語音合成技術(shù)則是將文本轉(zhuǎn)化為自然流暢的語音輸出。它通過模擬人類的語音產(chǎn)生過程,將文字信息轉(zhuǎn)換為可聽的語音。TTS技術(shù)也利用了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,如循環(huán)神經(jīng)網(wǎng)絡(luò)和變分自編碼器(Variational Autoencoder),對(duì)文本進(jìn)行語音合成模型的訓(xùn)練。合成的語音可以具有多種音色和表達(dá)風(fēng)格,使得聽者可以以自然的方式理解和接受信息。我們的ASR和TTS是調(diào)用科大訊飛的,下面是基于Python調(diào)用科大訊飛的語音識(shí)別(ASR)以及調(diào)用科大訊飛知識(shí)庫返回答案,再進(jìn)行語音合成(TTS)的技術(shù)流程,如圖4所示。
具體步驟如下:
1)在科大訊飛開放平臺(tái)注冊(cè)一個(gè)賬號(hào),在控制臺(tái)中創(chuàng)建一個(gè)應(yīng)用,將會(huì)獲得一個(gè)唯一的AppID和相應(yīng)的SecretKey。在Python代碼中導(dǎo)入科大訊飛的相關(guān)模塊,配置API相關(guān)信息,包括APPID、密鑰和API地址。
2)語音識(shí)別(ASR):generate_signa函數(shù)用于生成請(qǐng)求的簽名,然后定義recognize_speech函數(shù),該函數(shù)發(fā)送POST請(qǐng)求給語音識(shí)別API,并解析響應(yīng)結(jié)果為JSON格式。最后調(diào)用recognize_speech函數(shù)進(jìn)行語音識(shí)別,并根據(jù)識(shí)別結(jié)果打印相應(yīng)的信息。
3)調(diào)用知識(shí)庫API:構(gòu)建請(qǐng)求參數(shù),包括用戶的問題和API密鑰。發(fā)送這些參數(shù)到知識(shí)庫API。通常,API的響應(yīng)是一個(gè)JSON格式的數(shù)據(jù),其中包含與用戶問題相關(guān)的答案。根據(jù)API的響應(yīng)結(jié)果,可以解析返回的數(shù)據(jù),并根據(jù)需要進(jìn)行相應(yīng)的處理。圖5是針對(duì)番職院虛擬仿真實(shí)訓(xùn)基地創(chuàng)建的虛擬導(dǎo)游知識(shí)庫管理平臺(tái),我們可以通過這個(gè)平臺(tái)添加虛擬導(dǎo)游的問題與答案,管理知識(shí)庫。
4)語音合成(TTS):準(zhǔn)備待合成的文本,構(gòu)建請(qǐng)求參數(shù),發(fā)送POST請(qǐng)求給語音合成API,并解析響應(yīng)結(jié)果,獲取合成后的音頻數(shù)據(jù)。
2.3? Audio2Face基于面臉部表情訓(xùn)練和識(shí)別
此外,虛擬導(dǎo)游還具備臉部表情識(shí)別和情感分析的能力。通過構(gòu)建大規(guī)模的面部表情數(shù)據(jù)集并采用深度學(xué)習(xí)算法(如卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)),我們訓(xùn)練了人臉識(shí)別和情感分類模型。這些模型能夠識(shí)別用戶的表情狀態(tài),并相應(yīng)地做出回應(yīng)和互動(dòng),提升用戶體驗(yàn)和情感交互效果。
神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練通常涉及三個(gè)關(guān)鍵階段:數(shù)據(jù)采集制作、數(shù)據(jù)預(yù)處理和數(shù)據(jù)模型訓(xùn)練,Audio2Face語音生成視頻過程模型如圖6所示。
在數(shù)據(jù)采集制作的第一階段,我們收集兩類數(shù)據(jù):聲音數(shù)據(jù)和相應(yīng)的動(dòng)畫數(shù)據(jù)。聲音數(shù)據(jù)主要涵蓋錄制的中文字母表的發(fā)音以及一些特殊的爆破音,同時(shí)也包括盡可能多樣的發(fā)音文本。動(dòng)畫數(shù)據(jù)則是根據(jù)錄制的聲音數(shù)據(jù),在Maya軟件中根據(jù)模型的面部特征創(chuàng)建對(duì)應(yīng)的發(fā)音動(dòng)畫。如圖7所示,我們利用FACEGOOD的P1頭盔通過AVATARY來進(jìn)行數(shù)據(jù)采集。第二階段是數(shù)據(jù)預(yù)處理階段,主要通過LPC(線性預(yù)測(cè)編碼)對(duì)聲音數(shù)據(jù)進(jìn)行處理,將其分割成與動(dòng)畫對(duì)應(yīng)的幀數(shù)據(jù),并導(dǎo)出Maya動(dòng)畫幀數(shù)據(jù)。第三階段是數(shù)據(jù)模型訓(xùn)練階段,其中將經(jīng)過預(yù)處理的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入,進(jìn)行訓(xùn)練直至損失函數(shù)收斂。通過這三個(gè)關(guān)鍵階段的處理,我們能夠?yàn)樯窠?jīng)網(wǎng)絡(luò)模型提供高質(zhì)量的訓(xùn)練數(shù)據(jù),使其能夠?qū)W習(xí)和模擬聲音與動(dòng)畫之間的對(duì)應(yīng)關(guān)系。這個(gè)過程是基于數(shù)據(jù)的驅(qū)動(dòng),通過充分利用聲音和動(dòng)畫數(shù)據(jù)之間的關(guān)聯(lián),實(shí)現(xiàn)了聲音到動(dòng)畫的準(zhǔn)確映射。
2.4? 虛擬導(dǎo)游UE引擎與實(shí)時(shí)驅(qū)動(dòng)
如圖8所示,將虛擬導(dǎo)游模型放入U(xiǎn)E引擎,利用UE引擎調(diào)整效果,包括模型貼圖、骨骼網(wǎng)格和防碰撞體,以及增加光影效果和真實(shí)感,使虛擬導(dǎo)游在虛擬仿真環(huán)境中呈現(xiàn)出逼真的外觀。先在UE引擎中安裝LiveLink插件,用于接收訓(xùn)練視頻數(shù)據(jù)。然后運(yùn)行項(xiàng)目,讓UE應(yīng)用連接AI服務(wù)器,接收AI模型產(chǎn)生的驅(qū)動(dòng)數(shù)據(jù),繼而驅(qū)動(dòng)虛擬導(dǎo)游。
通過以上的設(shè)計(jì)和開發(fā)過程,AI虛擬導(dǎo)游系統(tǒng)實(shí)現(xiàn)了高度逼真的虛擬數(shù)字人的制作和表現(xiàn),并融合了語音合成、自然語言處理、語音識(shí)別和臉部表情識(shí)別等關(guān)鍵技術(shù)。該系統(tǒng)為用戶提供沉浸式的導(dǎo)覽服務(wù)和互動(dòng)體驗(yàn),推動(dòng)了虛擬導(dǎo)游與人工智能技術(shù)在教育領(lǐng)域的進(jìn)一步發(fā)展。
3? AI虛擬導(dǎo)游在高職虛擬仿真實(shí)訓(xùn)的應(yīng)用
虛擬導(dǎo)游作為人工智能驅(qū)動(dòng)的技術(shù),擔(dān)任導(dǎo)覽應(yīng)用、實(shí)訓(xùn)課程的引導(dǎo)與輔助以及評(píng)估與優(yōu)化的重要角色[6-11],具體介紹如下。
3.1? 在高職虛擬仿真基地的導(dǎo)覽應(yīng)用
如圖9所示,虛擬導(dǎo)游在高職虛擬仿真基地的導(dǎo)覽應(yīng)用中,扮演著向參觀者提供詳細(xì)解說的角色。通過虛擬導(dǎo)游,參觀者可以了解虛擬仿真實(shí)訓(xùn)基地的建設(shè)情況,并獲得對(duì)各種VR設(shè)備的詳細(xì)介紹。虛擬導(dǎo)游通過語音合成技術(shù),以自然流暢的語音與訪客進(jìn)行對(duì)話和交流。向參觀者介紹不同的實(shí)訓(xùn)教室以及學(xué)校各專業(yè)的VR課程資源。通過虛擬導(dǎo)游的引導(dǎo),參觀者可以深入了解虛擬仿真基地的設(shè)施和資源,增強(qiáng)他們的參觀體驗(yàn)。
3.2? 在實(shí)訓(xùn)課程中的引導(dǎo)與輔助
虛擬導(dǎo)游在高職虛擬仿真基地的實(shí)訓(xùn)課程中發(fā)揮著重要的引導(dǎo)和輔助作用。他們通過與學(xué)生的互動(dòng),提供實(shí)訓(xùn)課程的引導(dǎo)和指導(dǎo)。虛擬導(dǎo)游可以解釋實(shí)訓(xùn)操作的步驟和注意事項(xiàng),并回答學(xué)生提出的問題。通過與虛擬導(dǎo)游的交流,學(xué)生可以更好地理解和掌握實(shí)訓(xùn)內(nèi)容,提高實(shí)踐能力和技能水平。虛擬導(dǎo)游還能根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度和需求,提供個(gè)性化的實(shí)訓(xùn)輔助,監(jiān)測(cè)學(xué)生的操作并及時(shí)糾正錯(cuò)誤,提供指導(dǎo)和建議,幫助學(xué)生順利完成實(shí)訓(xùn)任務(wù)。
3.3? 在高職虛擬仿真基地的評(píng)估與優(yōu)化
為了不斷提升虛擬導(dǎo)游的性能和用戶體驗(yàn),對(duì)其進(jìn)行評(píng)估與優(yōu)化是必要的。評(píng)估工作可以通過參觀者的反饋和評(píng)價(jià),以及虛擬導(dǎo)游的性能指標(biāo)來進(jìn)行。參觀者的反饋可以通過問卷調(diào)查、用戶訪談等方式收集,以了解他們對(duì)虛擬導(dǎo)游的滿意度和體驗(yàn)感受。同時(shí),虛擬導(dǎo)游的性能指標(biāo)可以通過技術(shù)指標(biāo)和系統(tǒng)性能的評(píng)估來衡量,如語音識(shí)別準(zhǔn)確率、對(duì)話交互的流暢性等?;谠u(píng)估結(jié)果,可以對(duì)虛擬導(dǎo)游進(jìn)行優(yōu)化。優(yōu)化工作可以包括改進(jìn)語音識(shí)別和自然語言處理技術(shù),提升虛擬導(dǎo)游的對(duì)話能力和交互體驗(yàn)。此外,還可以增加虛擬導(dǎo)游的知識(shí)庫和學(xué)習(xí)能力,使其能夠更全面地解答參觀者的問題。通過評(píng)估與優(yōu)化,可以不斷改進(jìn)虛擬導(dǎo)游的性能和功能,提供更好的用戶體驗(yàn)和參觀效果。
4? 結(jié)? 論
本文探討了AI虛擬導(dǎo)游的開發(fā)技術(shù),以及在高職虛擬仿真基地中的應(yīng)用實(shí)踐。AI虛擬導(dǎo)游在導(dǎo)覽應(yīng)用方面能夠提供個(gè)性化的導(dǎo)覽服務(wù),通過語音合成和自然語言處理實(shí)現(xiàn)與參觀者的流暢交流,提升交互體驗(yàn)。在實(shí)訓(xùn)課程中,虛擬導(dǎo)游能夠引導(dǎo)和輔助學(xué)生,提供實(shí)訓(xùn)指導(dǎo)和問題解答,幫助提高實(shí)踐能力和技能水平。虛擬導(dǎo)游在評(píng)估與優(yōu)化方面發(fā)揮重要作用,通過參觀者的反饋和情感分析改進(jìn)自身性能,提供個(gè)性化和情感化的互動(dòng)體驗(yàn)。雖然AI虛擬導(dǎo)游在應(yīng)用實(shí)踐中展現(xiàn)了優(yōu)勢(shì)和潛力,但仍存在以下局限性:語音識(shí)別和自然語言處理技術(shù)的準(zhǔn)確性和穩(wěn)定性需要進(jìn)一步提高,虛擬導(dǎo)游系統(tǒng)的開發(fā)和維護(hù)成本較高,需要尋求更有效的開發(fā)和運(yùn)營模式。
隨著持續(xù)的研究和創(chuàng)新,AI虛擬導(dǎo)游將朝著以下方向迭代發(fā)展:外貌的精致度將進(jìn)一步提高,形象更加逼真,動(dòng)作更加自然。AI虛擬導(dǎo)游將推動(dòng)高職教育的發(fā)展,為人們帶來更精彩和有價(jià)值的體驗(yàn)。它將不僅僅是一項(xiàng)技術(shù)的突破,更是人工智能與教育、文化、娛樂等領(lǐng)域融合的杰出典范,為我們構(gòu)建一個(gè)更加智能、互動(dòng)和豐富多彩的未來。
參考文獻(xiàn):
[1] 騰訊研究院,騰訊云智能,創(chuàng)業(yè)黑馬.好看的皮囊到有趣的靈魂——數(shù)字人產(chǎn)業(yè)發(fā)展趨勢(shì)報(bào)告 [R/OL].[2023-04-30].https://www.tisi.org/24879.
[2] 清華大學(xué)新聞與傳播學(xué)院,元宇宙文化實(shí)驗(yàn)室.虛擬數(shù)字人研究報(bào)告2.0版 [J/OL].[2023-04-30].http://www.100ec.cn/index.php/detail--6619418.html.
[3] 陳芳.AI虛擬數(shù)字人技術(shù)在融合媒體生產(chǎn)中的運(yùn)用 [J].數(shù)字通信世界,2021(1):21-23.
[4] REN Y,HU C X,QIN T,et al. FastSpeech 2: Fast and High-Quality End-to-End Text-to-Speech [J/OL].arXiv:2006.04558 [eess.AS].(2022-08-08).[2023-04-26].https://arxiv.org/abs/2006.04558v1.
[5] KARRAS T,AILA T,LAINE S,et al. Audio-driven facial animation by joint end-to-end learning of pose and emotion [J/OL].ACM Transactions on Graphics,36(4):1-12[2023-04-26].https://doi.org/10.1145/3072959.3073658.
[6] 郭全中.虛擬數(shù)字人發(fā)展的現(xiàn)狀、關(guān)鍵與未來 [J].新聞與寫作,2022(7):56-64.
[7] 朱永瓊,宋章通,方浩.“文旅元宇宙”中虛擬數(shù)字人的應(yīng)用 [J].傳媒,2023(3):55-57.
[8] 徐琦.主流視聽媒體虛擬數(shù)字人應(yīng)用創(chuàng)新與優(yōu)化策略 [J].中國電視,2023(1):102-107.
[9] 覃祖軍,楊靜.元宇宙中國教育范式研究視角下虛擬數(shù)字人輔助的雙師課堂教學(xué)范式實(shí)踐探索 [J].中國現(xiàn)代教育裝備,2023(2):1-5.
[10] 李曉明,張賓,魏曉鵬,等.基于多模態(tài)智能交互的虛擬數(shù)字人 [J].電力大數(shù)據(jù),2022,25(12):36-43.
[11] 夏欽.虛擬數(shù)字人:好看的皮囊和有趣的靈魂缺一不可 [J].工會(huì)博覽,2022(29):38.
作者簡(jiǎn)介:黃國榮(1975.10—),男,漢族,廣東廣州人,工程師,本科,主要研究方向:信息技術(shù)、虛擬仿真;劉煒(1981.08—),男,漢族,甘肅平?jīng)鋈?,副研究員,本科,主要研究方向:信息技術(shù)、虛擬仿真。