亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

口型模擬技術(shù)及其在網(wǎng)絡(luò)課程中的應(yīng)用探索

2010-01-01 00:00:00張家華張劍平

現(xiàn)代教育技術(shù) 2010年3期

【摘要】口型模擬是一種人工智能技術(shù)，目前已在多個(gè)領(lǐng)域得到應(yīng)用。文章在介紹口型模擬技術(shù)的基礎(chǔ)上，比較了兩款典型軟件的特點(diǎn)，并探討了該技術(shù)在網(wǎng)絡(luò)課程制作中的應(yīng)用。通過(guò)實(shí)驗(yàn)證明，在網(wǎng)絡(luò)課程中采用口型模擬技術(shù)生成動(dòng)畫(huà)來(lái)講解理論性知識(shí)，與真實(shí)教師視頻講解的教學(xué)效果基本接近，二者在測(cè)驗(yàn)成績(jī)和認(rèn)知負(fù)荷方面未呈現(xiàn)顯著差異。

【關(guān)鍵詞】口型模擬;網(wǎng)絡(luò)課程;TTS;語(yǔ)音合成;人工智能

【中圖分類(lèi)號(hào)】G40-057【文獻(xiàn)標(biāo)識(shí)碼】A【論文編號(hào)】1009—8097(2010)03—0035—04

隨著高校精品課程建設(shè)的推進(jìn)，網(wǎng)絡(luò)課程的應(yīng)用日益廣泛。與真實(shí)的課堂教學(xué)相比，網(wǎng)絡(luò)學(xué)習(xí)通常缺乏直面教師的臨場(chǎng)感。為此，人們?cè)诰W(wǎng)絡(luò)課程中加入教師講課的視頻，但這在一定程度上也導(dǎo)致了課程的開(kāi)發(fā)成本大幅提高。本文認(rèn)為，可以嘗試借助口型模擬技術(shù)來(lái)解決這些問(wèn)題。通過(guò)在網(wǎng)絡(luò)課程中提供虛擬的教師代理，對(duì)教學(xué)內(nèi)容進(jìn)行擬人化的講解，并為學(xué)習(xí)者提供必要的引導(dǎo)，從而降低制作成本，增強(qiáng)學(xué)習(xí)的臨場(chǎng)感和交互性，提高網(wǎng)絡(luò)學(xué)習(xí)的效果。

一口型模擬技術(shù)概述

1 口型模擬技術(shù)的分類(lèi)

口型模擬又稱(chēng)為口形自動(dòng)匹配，它是人工智能技術(shù)的一種。目前實(shí)現(xiàn)口型模擬的方法主要分為三種:基于文本驅(qū)動(dòng)、基于自然語(yǔ)音驅(qū)動(dòng)和音視頻混合建模方法[1][2][3]。

(1) 基于文本驅(qū)動(dòng)的方法:該方法主要通過(guò)TTS(Text to Speech，文-語(yǔ)轉(zhuǎn)換)引擎來(lái)驅(qū)動(dòng)人臉的口部運(yùn)動(dòng)。TTS引擎將輸入的文本信息轉(zhuǎn)化為對(duì)應(yīng)的音素序列、音素時(shí)長(zhǎng)以及對(duì)應(yīng)的語(yǔ)音波形，然后在模型庫(kù)中選擇對(duì)應(yīng)的模型單元，通過(guò)平滑處理和相應(yīng)的同步算法最終呈現(xiàn)出和輸入文本內(nèi)容相對(duì)應(yīng)的語(yǔ)音和人臉口部動(dòng)作。利用TTS合成語(yǔ)音的真實(shí)程度目前還不太理想，不適于實(shí)時(shí)的自然語(yǔ)音處理環(huán)境。

(2) 音視頻混合建模的方法:該方法通過(guò)混合從視頻圖像中提取的運(yùn)動(dòng)參數(shù)和音頻中提取的聲學(xué)參數(shù)來(lái)建立統(tǒng)計(jì)模型，然后將輸入的語(yǔ)音參數(shù)與模型庫(kù)通過(guò)轉(zhuǎn)換算法進(jìn)行匹配，最后呈現(xiàn)出與語(yǔ)音內(nèi)容相對(duì)應(yīng)的可視人臉口部動(dòng)作。這類(lèi)方法涉及的算法比較復(fù)雜，所建立的模型的可擴(kuò)展性有限。

(3) 基于自然語(yǔ)音驅(qū)動(dòng)的方法:該方法將自然語(yǔ)音建模和可視口形建模分離，使其在各自建模階段參數(shù)之間保持相對(duì)獨(dú)立，只需通過(guò)識(shí)別出的語(yǔ)音模型標(biāo)識(shí)序列來(lái)選擇對(duì)應(yīng)的口形參數(shù)即可完成匹配過(guò)程。該方法可根據(jù)不同的要求建立不同的口部模型，具有較強(qiáng)的可擴(kuò)展性，但其匹配的準(zhǔn)確度依賴(lài)于對(duì)語(yǔ)音模型的正確識(shí)別率。

2 口型模擬技術(shù)的應(yīng)用領(lǐng)域

目前口型模擬技術(shù)已在許多領(lǐng)域得到應(yīng)用[4][5][6]，主要包括:(1)動(dòng)漫電影人物語(yǔ)音與口形的自動(dòng)匹配;(2)電信、銀行、航班、證券部門(mén)的聲訊服務(wù);(3)智能人機(jī)界面，如交易網(wǎng)站的產(chǎn)品介紹、人機(jī)交互網(wǎng)站的智能代理;(4)虛擬現(xiàn)實(shí)、游戲中的虛擬人化身;(5)外語(yǔ)輔助教學(xué)，如輔助校正發(fā)聲、聽(tīng)力練習(xí)、雙語(yǔ)教學(xué)等;(6)聾啞人輔助發(fā)聲訓(xùn)練。

二典型的口型模擬軟件及其特點(diǎn)

有關(guān)口型模擬技術(shù)的軟件雖然不少，但大多為科研實(shí)驗(yàn)或商業(yè)應(yīng)用而開(kāi)發(fā)，適合于個(gè)人用戶(hù)使用的產(chǎn)品并不多。目前在互聯(lián)網(wǎng)上可供用戶(hù)免費(fèi)試用的典型口型模擬軟件主要有兩款:Talking Photo和SitePal [7] [8]。

1 Talking Photo

Talking Photo又稱(chēng)“會(huì)說(shuō)話的照片”，它是由美國(guó)一家致力于移動(dòng)計(jì)算、視頻以及互聯(lián)網(wǎng)服務(wù)的高科技公司PQ Computing發(fā)布的一款軟件，比較適合于制作博客或MSN的個(gè)性頭像，會(huì)說(shuō)話的電子相冊(cè)、賀卡等[9]。該軟件的功能特點(diǎn)包括:(1)簡(jiǎn)單易用。只需一張照片和一段音頻，便可合成復(fù)雜逼真的人物的動(dòng)態(tài)表情。(2)使用Flash9/AS3實(shí)現(xiàn)復(fù)雜的人臉模型算法，可實(shí)時(shí)計(jì)算人臉表情。(3)智能語(yǔ)音識(shí)別，根據(jù)聲音自動(dòng)對(duì)上人物口型，并支持任意一種語(yǔ)言。(4)人物的表情、動(dòng)作、口形既可由程序自動(dòng)生成，又可由用戶(hù)手動(dòng)添加和控制。

2 SitePal

SitePal又稱(chēng)“會(huì)說(shuō)話的頭像”，是由美國(guó)的一家廣告媒體公司Oddcast發(fā)布的一款軟件，它支持用戶(hù)在線創(chuàng)建自定義的、會(huì)講話的虛擬替身(Avatar)，并可將其作為娛樂(lè)性插件嵌入個(gè)人主頁(yè)、博客、Flash程序、電子郵件、PowerPoint甚至eBay的交易網(wǎng)站中。該軟件目前已廣泛用于各類(lèi)商業(yè)網(wǎng)站的廣告宣傳、天氣預(yù)報(bào)、股票和新聞播報(bào)等[10]，其功能特點(diǎn)包括:(1)全部制作過(guò)程在線完成，無(wú)需編程或下載安裝插件。(2)提供了豐富、專(zhuān)業(yè)的模特庫(kù)，用戶(hù)可對(duì)替身的年齡、膚色、發(fā)型、服裝等進(jìn)行微調(diào)。(3)支持多種添加語(yǔ)音的方法。(4)提供了一些智能化功能，支持常見(jiàn)問(wèn)題回答、顧客信息搜集和智能人機(jī)交互等服務(wù)。

3二者的比較

以上兩款軟件的具體性能特點(diǎn)對(duì)比如表1所示:

三使用口型模擬軟件制作虛擬教師替身

將口型模擬技術(shù)應(yīng)用于網(wǎng)絡(luò)課程的制作，可在一定程度上降低因視頻攝制和加工而帶來(lái)的成本。本文以Talking Photo軟件為例，選擇《現(xiàn)代教育技術(shù)》網(wǎng)絡(luò)課程的部分內(nèi)容，嘗試制作一段虛擬的教師講解動(dòng)畫(huà)，其基本制作過(guò)程如下:

(1) 制作替身。在模型庫(kù)選擇一個(gè)替身，或者導(dǎo)入教師自己的照片。根據(jù)提示，設(shè)置圖片中人物面部的主要參考點(diǎn)，如雙眼、鼻子、嘴巴、面龐和下頜。

(2) 導(dǎo)入聲音。將預(yù)先制作好的教師講解錄音導(dǎo)入到軟件中，此時(shí)軟件會(huì)自動(dòng)對(duì)導(dǎo)入的聲音進(jìn)行分析，并生成自動(dòng)匹配的口型和面部表情。

(3) 預(yù)覽和修改。預(yù)覽制作效果，對(duì)系統(tǒng)自動(dòng)生成的動(dòng)畫(huà)效果進(jìn)行觀察，包括面部表情、頭部運(yùn)動(dòng)以及發(fā)音的口型。如果有不滿意的地方，則可以自行對(duì)細(xì)節(jié)進(jìn)行調(diào)整。

(4) 發(fā)布作品。軟件提供兩種發(fā)布形式:直接發(fā)布到Internet上特定的服務(wù)器上，或以指定的格式保存到本機(jī)中。前者要求調(diào)用作品時(shí)必須與Internet的服務(wù)器保持聯(lián)通，而后者只需下載專(zhuān)門(mén)的Flash播放器至本機(jī)，即可調(diào)用和播放作品。

模擬動(dòng)畫(huà)制作完畢后，還需將其嵌入網(wǎng)絡(luò)課程的頁(yè)面中。一般只需將特定的HTML代碼插入到網(wǎng)頁(yè)中即可。代碼示例如下:

在以上代碼中，TalkingPhotoDemo.swf是用于播放模擬動(dòng)畫(huà)的播放器文件名，action參數(shù)指定了模擬動(dòng)畫(huà)的源文件名，sound參數(shù)則指定了與動(dòng)畫(huà)對(duì)應(yīng)的聲音文件名。

四口型模擬軟件的教學(xué)效果驗(yàn)證

為了驗(yàn)證口型模擬軟件的教學(xué)效果，我們將以上制作的虛擬教師講解動(dòng)畫(huà)(以下簡(jiǎn)稱(chēng)模擬動(dòng)畫(huà))作為實(shí)驗(yàn)材料之一，針對(duì)真實(shí)教師的講解視頻，以網(wǎng)絡(luò)課程中普遍流行的“三分屏”布局設(shè)計(jì)教學(xué)內(nèi)容，并展開(kāi)教學(xué)效果對(duì)比實(shí)驗(yàn)。

1 實(shí)驗(yàn)過(guò)程

實(shí)驗(yàn)選取了來(lái)自不同專(zhuān)業(yè)的47名大二學(xué)生作為被試，并隨機(jī)分為兩組。所有學(xué)生實(shí)驗(yàn)前均沒(méi)有接觸過(guò)與教學(xué)內(nèi)容相關(guān)的材料，其中實(shí)驗(yàn)組24名被試的學(xué)習(xí)材料中教師形象區(qū)為模擬動(dòng)畫(huà)，對(duì)照組23名被試材料中對(duì)應(yīng)的則是真實(shí)教師講解視頻。實(shí)驗(yàn)利用眼動(dòng)儀記錄被試在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中的眼動(dòng)情況，并以紙筆測(cè)試的方式檢驗(yàn)學(xué)習(xí)效果和認(rèn)知負(fù)荷。

2 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)主要結(jié)果如表2、表3和圖2所示。對(duì)實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)分析結(jié)果表明，兩組被試對(duì)教師形象區(qū)(A1)和PPT內(nèi)容區(qū)(A3)的注視次數(shù)和時(shí)長(zhǎng)呈現(xiàn)出顯著差異，即實(shí)驗(yàn)組更多關(guān)注PPT的內(nèi)容，而較少關(guān)注教師的形象;實(shí)驗(yàn)組在認(rèn)知負(fù)荷和測(cè)驗(yàn)成績(jī)方面比對(duì)照組略低，但未呈現(xiàn)出顯著差異。這表明被試在學(xué)習(xí)模擬動(dòng)畫(huà)的教學(xué)材料時(shí)，雖然在注意力分配方面與真實(shí)教學(xué)視頻存在一定差異，但是對(duì)最終的學(xué)習(xí)結(jié)果而言，二者是基本接近的。

3 主要結(jié)論

(1) 教學(xué)形象的逼真程度決定其受關(guān)注的程度。由于目前智能化模擬的逼真度仍然不夠理想，因此教師的真實(shí)授課視頻要比口型模擬動(dòng)畫(huà)更容易引起學(xué)習(xí)者關(guān)注，相應(yīng)的注視次數(shù)和注視時(shí)間也更多。

(2) 利用口型模擬技術(shù)輔助教學(xué)在一定程度上是可行的。雖然本實(shí)驗(yàn)涉及的教學(xué)內(nèi)容和被試均存在局限，但實(shí)驗(yàn)結(jié)果至少證明:在某些理論性知識(shí)的教學(xué)中，采用虛擬教師替身來(lái)輔助學(xué)習(xí)，同樣可以接近或達(dá)到真人視頻教學(xué)的效果。

五結(jié)束語(yǔ)

口型模擬技術(shù)應(yīng)用于網(wǎng)絡(luò)教學(xué)，在一定程度上可以彌補(bǔ)因教師不在教學(xué)現(xiàn)場(chǎng)而缺少的臨場(chǎng)感和投入度，也可以降低網(wǎng)絡(luò)課程制作的成本。雖然目前該技術(shù)的形象逼真程度還有待提高，但隨著人工智能技術(shù)的發(fā)展，這一問(wèn)題最終將得以解決。我們有理由相信，口型模擬技術(shù)在網(wǎng)絡(luò)學(xué)習(xí)領(lǐng)域所發(fā)揮的作用將越來(lái)越大。

參考文獻(xiàn)

[1] J Ostermann， MC Beutnagel， A Fischer， et al. Integration of talking heads and text-to-speech synthesizers for visual TTS[A].Proceedings of the International Conference on Speech and Language Processing[C].Sydney，1998.

[2] S Fu， R Gutierrez-Osuna， A Esposito， et al. Audio/visual mapping with cross-modal hidden Markov models[J].IEEE Transactions on Multimedia，2005，7(2):243-252.

[3] 歐陽(yáng)建軍.基于自然語(yǔ)音驅(qū)動(dòng)的口形自動(dòng)匹配技術(shù)研究[D].深圳:深圳大學(xué)，2008.

[4] 童強(qiáng)，洪家平，孫玉霞.一種基于TTS的語(yǔ)音朗讀技術(shù)及其教育應(yīng)用[J].中國(guó)電化教育，2007，(3):108-110.

[5] 新浪網(wǎng).口型模擬技術(shù)獲突破，已故影星夢(mèng)露“復(fù)活”唱歌[DB/OL].< http://tech.sina.com.cn/ o/2002-07-05/124403.shtml，2002-07-05.>

[6] 人民網(wǎng).香港城大發(fā)聲臉部動(dòng)畫(huà)系統(tǒng)榮獲杰出大獎(jiǎng)[DB/OL].

[7] Avatars - Create an Animated Talking Character for Your Website[OL].

[8] Talking Photo[OL].

[9] Create a talking character using any photo or picture[OL].

[10] Oddcast——有趣的廣告媒體公司[DB/OL].

Exploration on Mouth Shape Simulation and Its Application in Web Course

ZHANG Jia-hua1 ZHANG Jian-ping2

(1. School of Teachers Education， Zhejiang Normal University， Jinhua， Zhejiang， 321004， China; 2. Institute of Educational Technology， Zhejiang University， Hangzhou， Zhejiang， 310028， China)

Abstract: Mouth shape simulation (MSS) is a kind of artificial intelligence technology， and it has been applied in many areas at present. This paper introduces the technology and compares two typical pieces of software of MSS. And it explores the application of MSS in the development of web course. From a contrast experiment， the result shows that there are no significant differences on test scores and cognitive load between two experimental groups. That is， the learning effect of the experimental group which used MSS is similar to the one which used real instruction video in some instructions on theoretical contents.

Keywords: Mouth Shape Simulation; Web Course; Text to Speech; Speech Synthesis; Artificial Intelligence

編輯:小禾

現(xiàn)代教育技術(shù)2010年3期

現(xiàn)代教育技術(shù)的其它文章: 多元化學(xué)習(xí)理論融合的生態(tài)觀詮釋; 社會(huì)網(wǎng)絡(luò)分析及其應(yīng)用案例; 就業(yè)導(dǎo)向的教育技術(shù)學(xué)專(zhuān)業(yè)小學(xué)期實(shí)踐課程探究; 電子學(xué)檔:正在顯現(xiàn)的教學(xué)新技術(shù); 教師體驗(yàn)式培訓(xùn)中游戲的教學(xué)設(shè)計(jì)及案例研究; SNS-WIKI整合構(gòu)建網(wǎng)絡(luò)學(xué)習(xí)共同體應(yīng)用探究