亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音驅(qū)動人臉動畫研究綜述

2015-09-18 02:33:41王慧慧新疆大學(xué)信息科學(xué)與工程學(xué)院烏魯木齊830046新疆多語種信息技術(shù)實(shí)驗(yàn)室烏魯木齊830046

現(xiàn)代計(jì)算機(jī) 2015年14期

王慧慧，趙　暉（1.新疆大學(xué)信息科學(xué)與工程學(xué)院，烏魯木齊830046；2.新疆多語種信息技術(shù)實(shí)驗(yàn)室，烏魯木齊830046）

語音驅(qū)動人臉動畫研究綜述

王慧慧1,2，趙暉1,2
（1.新疆大學(xué)信息科學(xué)與工程學(xué)院，烏魯木齊830046；2.新疆多語種信息技術(shù)實(shí)驗(yàn)室，烏魯木齊830046）

對語音信息的理解除了聽覺信息，視覺信息也非常重要。在給出語音的同時，如果能給出相應(yīng)的人臉動畫，會提高人們對語音信息的正確理解，這正是語音驅(qū)動的人臉動畫要達(dá)到的效果。語音驅(qū)動的人臉動畫系統(tǒng)使計(jì)算機(jī)模擬人類語音的雙模態(tài)，為人機(jī)交互提供可能性。簡述語音驅(qū)動人臉動畫的發(fā)展和語音驅(qū)動的人臉動畫核心技術(shù)。

語音驅(qū)動的人臉動畫；音視頻映射；人臉模型

國家自然科學(xué)基金（No.61261037）

0　引言

語音驅(qū)動的人臉動畫合成就是當(dāng)給出語音信息時，如果能相應(yīng)地給出視頻信息，可以大大提高對信息的理解。這里所說的語音信息是指說話所產(chǎn)生的聲波，而視覺信息就是說話者的可視發(fā)音器官，如嘴唇、下巴、舌頭、面部肌肉等。語音信息和視覺信息都是由發(fā)音器官的作用產(chǎn)生的，發(fā)音器官包括聲帶、舌頭、嘴唇、下腭、鼻腔等。由于某些發(fā)音器官是外部可以看得見的，所以語音信息和視覺信息之間有著必然的內(nèi)在聯(lián)系。由于并不是所有的發(fā)音器官是可見的，所以語音信息和視覺信息之間不是存在簡單的一對一的關(guān)系。

近年來，語音驅(qū)動人臉動畫成為研究熱點(diǎn)，研究者在語音驅(qū)動的人臉動畫方面取得了一定的成果，主要集中在語音驅(qū)動人臉動畫中，對音視頻映射模型的探索和人臉模型的探索中。隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展，對準(zhǔn)確性的要求越來越高，音視頻映射模型和人臉模型繼續(xù)成為研究的熱點(diǎn)。

目前，音視頻模型主要集中在矢量量化的方法（VQ）、神經(jīng)網(wǎng)絡(luò)（Neural Network，NN）、高斯混合模型（Gaussian Mixture Model，GMM）、隱馬爾可夫模型（Hidden Markov Model,HMM）和動態(tài)貝葉斯模型（Dynamic Bayesian Network,DBN）的探索，而人臉模型主要集中在基于圖像的模型、基于2D模型和基于3D模型的探索。本文將對現(xiàn)流行的音視頻映射模型和人臉模型的優(yōu)缺點(diǎn)進(jìn)行分析概括總結(jié)。

1　語音驅(qū)動人臉動畫

語音驅(qū)動的人臉動畫是根據(jù)語音信息得到相應(yīng)的人臉動畫通，能幫助用戶理解語音內(nèi)容，提高人機(jī)交互的便捷性和友好程度。語音驅(qū)動的人臉動畫技術(shù)的核心技術(shù)包括：音視頻映射、人臉動畫合成，人臉動畫合成的關(guān)鍵是人臉模型的建立。語音驅(qū)動的人臉動畫的基本框架圖如圖1所示。音視頻映射就是找到音頻和視頻之間的關(guān)系，音視頻轉(zhuǎn)換就是根據(jù)語音信息得到相應(yīng)的視頻信息，人臉動畫合成就是根據(jù)音頻信息得到的相應(yīng)的視頻信息合成會說話的人臉。

1.1音視頻映射

獲得音視頻映射的前提是先對音頻特征和視頻特征進(jìn)行提取，然后通過模型訓(xùn)練學(xué)習(xí)，找到音視頻之間的關(guān)系。由于語音信息和視覺信息不是存在簡單的一對一的關(guān)系[1]，所以有許多不同的方法用來研究語音信息和視覺信息的映射。

圖1　語音驅(qū)動人臉動畫合成的基本框架

傳統(tǒng)的矢量量化的方法、神經(jīng)網(wǎng)絡(luò)的方法很直接并且很容易實(shí)現(xiàn)的方法，但是結(jié)果往往不準(zhǔn)確或者不連續(xù)，這是由于語音序列存在復(fù)雜的協(xié)同發(fā)音現(xiàn)象。另外，由于人們的發(fā)音習(xí)慣不同，相同的音節(jié)在不同的語音樣本中可能具有不同的長度和頻譜特征，即使同一個人對同一句話所錄制的多個語音樣本，其特征也會有較大差異。這導(dǎo)致了矢量量化的方法和神經(jīng)網(wǎng)絡(luò)的方法難以合成出令人滿意的視頻序列。但是加以改進(jìn)，也能達(dá)到我們所需的效果，如賈熹濱[2]以矢量量化的思想為基礎(chǔ)，建立語音特征空間到視覺語音特征空間的粗耦合映射關(guān)系。為加強(qiáng)語音和視覺語音的關(guān)聯(lián)性，系統(tǒng)分別根據(jù)語音特征與視覺語音特征的相似性兩次對樣本數(shù)據(jù)進(jìn)行自動聚類，構(gòu)造同時反映語音之間與視覺語音之間相似性的雙層映射碼本，取得了較滿意的效果。

高斯混合模型是模擬音視頻向量的連接概率分布向量作為混合高斯模型的值。給出語音特征，每個高斯混合組件對視覺特征產(chǎn)生線性評估，評估的混合組件通過增加權(quán)重來產(chǎn)生最終的視覺特征的評估。這種方法能產(chǎn)生比VQ平滑性更好的動畫，但是這種方法很容易陷入過度平滑。由于高斯混合模型能更好地模擬協(xié)同發(fā)音，所以很多研究者還是在高斯混合模型的基礎(chǔ)上做一些改進(jìn)來實(shí)現(xiàn)主要達(dá)到的目的。Deena[3～4]采用高斯混合模型實(shí)現(xiàn)可視化語音轉(zhuǎn)換,通過對面部動作和語音建模并使用共享的高斯混合模型之間的映射關(guān)系來合成臉部表情動畫。高斯混合模型被Chang Wei Luo[5～6]使用于音頻到視覺的轉(zhuǎn)換，為了克服沒有考慮以前視覺特征對目前視覺特征的影響和GMM的訓(xùn)練和轉(zhuǎn)換不一致的問題。我們提出了整合以前視覺特征入轉(zhuǎn)換，并提出了一個最小的轉(zhuǎn)換誤差為基礎(chǔ)的方法來改進(jìn)GMM參數(shù)。改進(jìn)后的方法可以準(zhǔn)確地轉(zhuǎn)換音頻功能融入視覺特征。蔡蓮紅[7～8]等人使用高斯混合模型進(jìn)行情感語音到視頻的轉(zhuǎn)換，開發(fā)了一種會說話的虛擬人系統(tǒng)，該虛擬說話人能很好地理解情感。

隱馬爾可夫模型模型在解決動態(tài)時序問題上具有獨(dú)特優(yōu)勢，表現(xiàn)為狀態(tài)轉(zhuǎn)移靈活、上下文信息表述清晰，因而HMM模型近年來被廣泛應(yīng)用于高精度的實(shí)時語音動畫、音視頻映射中并成為研究的熱點(diǎn)。Tao[9]使用由音頻構(gòu)成的HMM模型和視頻構(gòu)成的HMM模型通過EM算法訓(xùn)練，音頻最好的隱含狀態(tài)通過Viterbi得到，耦合參數(shù)就能確定，也就實(shí)現(xiàn)了音頻到視頻的映射。從Lucas Terissi[10]使用A-V HMM模型訓(xùn)練音視頻數(shù)據(jù)達(dá)到音視頻流的映射。馬娥娥[11]使用IOHMM預(yù)測視頻序列，不再是音素到視位的映射。Xie lei[12]提出來雙層的HMM（CHMM）通過條件概率有兩條與HMM鏈相連，這允許鏈的異步任務(wù)。進(jìn)一步訓(xùn)練多流HMM模型（MSHMMs）使用音頻和視頻功能，其中建立聲視聽語言清晰度之間的對應(yīng)關(guān)系[13]。趙暉[14]提出了基于HMM模型語音狀態(tài)、基于HMM模型音頻和視頻混合參數(shù)、基于雙層HMM模型的方法。HMM模型是一個雙重的隨機(jī)過程，描述了時間軸上語音和視頻的狀態(tài)變化情況，利用HMM得到的合成結(jié)果連續(xù)，跳變的情況少。但是它需要大量的原始數(shù)據(jù)實(shí)現(xiàn)訓(xùn)練，并且計(jì)算量大。雖然隱馬爾可夫模型（HMM）在音視頻進(jìn)行映射中已經(jīng)相當(dāng)成熟，但是在這個模型中，音頻信息只是語音信息，沒有考慮發(fā)音的異步特征、發(fā)音器官對發(fā)音的影響、錄入數(shù)據(jù)庫個體的差異。

電力企業(yè)安全風(fēng)險(xiǎn)管控體系的構(gòu)筑…………………………………………………………………………高萍，于克棟（1.86）

動態(tài)貝葉斯模型（DBN）是一個處理時序數(shù)據(jù)的隨機(jī)概率模型，并且在國外的研究也處于剛剛起步，國內(nèi)的研究也比較少，但是語音驅(qū)動人臉動畫領(lǐng)域也有一定的研究。突出者是清蔣冬梅教授的實(shí)驗(yàn)室，吳鵬[15]構(gòu)建一種基于發(fā)音特征的音視頻雙流動態(tài)貝葉斯網(wǎng)絡(luò)（DBN）語音識別模型（AF_AV_DBN），定義節(jié)點(diǎn)的條件概率關(guān)系，使發(fā)音特征狀態(tài)的變化可以異步。張賀[16]提出了一種基于主動外觀模型（AAM）特征和異步發(fā)音特征DBN模型（AF_AVDBN）的逼真可視語音合成方法。在AF_AVDBN模型訓(xùn)練中，以42維感知線性預(yù)測（PLP）特征為音頻特征，視頻特征為嘴部圖像的80維AAM特征。實(shí)驗(yàn)結(jié)果表明，考慮音視頻的異步性，會增加合成嘴部動畫與語音之間的一致性。蔣冬梅[17]將此方法擴(kuò)展到語音驅(qū)動的人臉動畫中來，合成清晰逼真的人臉動畫。與HMM相比，動態(tài)貝葉斯模型（DBN）具有更強(qiáng)的計(jì)算能力，并且考慮到發(fā)音特征的影響，能更準(zhǔn)確地找到音頻和視頻的映射關(guān)系。然而對動態(tài)貝葉斯模型（DBN）的研究還處于一個探索階段，需要更進(jìn)一步的研究。

1.2人臉動畫的合成

基于語音驅(qū)動的人臉動畫系統(tǒng)中人臉模型的建立是關(guān)鍵，在現(xiàn)在的研究中人臉模型可以分為以圖像為基礎(chǔ)的人臉模型、2D人臉模型和3D人臉模型。基于3D模型的方法無論是從在光照條件下，還是在不同的角度觀察，都比基于圖像模型的方法更靈活，但是實(shí)時性較差，然而基于圖像模型的方法卻彌補(bǔ)了這個不足。

（1）圖像為基礎(chǔ)的人臉模型

基于圖像的人臉動畫方法生成的動畫紋理直接來源于采集的人臉圖像，具有很高的紋理真實(shí)感，也不像基于3D模型的人臉那樣要進(jìn)行人臉的重構(gòu)。1988年，Pighin[18]第一次使用一些圖片適合給定面部三維模板網(wǎng)結(jié)構(gòu)，然后通過混合不同的姿勢得到人臉動畫，并且在第二年他使用這項(xiàng)技術(shù)解決從圖像中得到真實(shí)的人臉模型和動畫問題，從此，以圖像為基礎(chǔ)的人臉動畫成為研究的熱點(diǎn)。這種方法在語音驅(qū)動人臉動畫中主要使用單元選擇技術(shù)[19]進(jìn)行人臉動畫的合成。雖然基于圖像的人臉動畫方法能夠獲得高逼真度的人臉動畫,但是需要很大的數(shù)據(jù)庫，采集大量的圖像信息，這給工作造成一定的難度。并且在合成時很難實(shí)現(xiàn)個性化的人臉圖像。

（2）2D人臉模型

2D人臉模型可以從錄取的數(shù)據(jù)庫創(chuàng)建，這樣就可以大大減少對數(shù)據(jù)庫量的要求，所使用的最常見的二維模型是主動外觀模型（AAM）。這種模型是線性的形狀和外觀，AAM表示使用網(wǎng)格頂點(diǎn)的位置代表形狀，使用RGB代表紋理。主動外觀模型（AAM）是一種統(tǒng)計(jì)模型，廣泛應(yīng)用于人臉圖像的分析、特征點(diǎn)跟蹤和合成等領(lǐng)域。AAM通過對樣本集進(jìn)行主成分量分析得到樣本的均值與變化模式；然后再用這些提取出來的變化模式線性組合出新樣本。這種做法消除了訓(xùn)練樣本間的冗余,生成的模型更加緊湊,表示人臉時也更加有效。Mattheyses[20～21]解釋了主動外觀模型（AAM）以形狀和紋理表示圖像信息，并把主動外觀模型（AAM）應(yīng)用到視覺語音合成系統(tǒng)中，實(shí)現(xiàn)了流暢自然的視覺輸出語音。Benjamin Havell[22]使用主動外觀模型（AAM）代表圖像信息，結(jié)合HMM合成語音驅(qū)動的人臉動畫。研究者蔣冬梅，謝磊，Salil Deena從音視頻數(shù)據(jù)庫訓(xùn)練AAM模型，代表圖像信息。但是訓(xùn)練AAM往往需要大量的訓(xùn)練數(shù)據(jù),要針對所有的表情動作采集相關(guān)訓(xùn)練數(shù)據(jù)，因此它們多用于合成單幅人臉圖像。

基于三維模型的人臉動畫方法，以三維人臉模型作為動畫基礎(chǔ)來實(shí)現(xiàn)人臉動畫。通過三維人臉模型對臉部的外觀和動作模式進(jìn)行建模,利用不同的函數(shù)或者參數(shù)的變化控制合成不同的人臉動作和表情。三維人臉模型的設(shè)計(jì)選取決定了人臉動畫的效果、實(shí)現(xiàn)的難易程度以及動畫效率?；谌S模型的人臉動畫一般分為建模和合成兩個階段。

在建模階段,根據(jù)已知的人臉結(jié)構(gòu)、形狀等先驗(yàn)知識建立三維模型所需要的各種條件、參數(shù)、數(shù)據(jù)等要求,對輸入的圖像或是圖像序列進(jìn)行圖像分析和處理,以獲得相應(yīng)的模型參數(shù)。合成階段是在一定的動畫規(guī)則的基礎(chǔ)上,根據(jù)所需要的動畫要求給出控制三維模型動畫所需要的函數(shù)表達(dá)或形狀紋理參數(shù),以驅(qū)動模型獲得動畫圖像。因此基于三維模型的人臉動畫方法要解決兩個方面的問題:三維人臉建模和動畫驅(qū)動。

（1）三維人臉建模方法建立

建立人臉的三維模型需要獲取稠密的人臉三維信息，包括人臉的幾何信息和紋理信息。Parke提出了最早的3D人臉幾何模型[23]，這些三維信息可以利用復(fù)雜精細(xì)的設(shè)備，只經(jīng)過一般的配準(zhǔn)和立體視覺求解獲取，也可以通過普通的圖像獲取設(shè)備采集圖像或圖像序列。有些研究者[22]借助于高精度的3D掃描儀來構(gòu)造精確的3D人臉模型。將這一技術(shù)與3D紋理映射技術(shù)配合,就可得到一個真實(shí)感很強(qiáng)的3D人臉模型。但3D掃描儀很昂貴,并在有些場合難以應(yīng)用。因此,人們?nèi)匀恢铝τ趯ふ移渌鼮榉奖愕臉?gòu)造3D人臉模型的方法。有些研究[24]者依據(jù)商業(yè)用途的運(yùn)動捕捉系統(tǒng)使用8臺數(shù)碼相機(jī)追蹤人臉特征點(diǎn)，Shunya Osawa[25]使用兩臺計(jì)算機(jī)，建立人臉模型。李冰鋒[26]使用FaceGen工具生成原始3D頭的模型。

（2）三維人臉模型驅(qū)動方法

三維人臉模型驅(qū)動方法包括基于插值的、基于變形的以及基于參數(shù)的人臉動畫方法。

基于插值的人臉動畫方法是一個直觀常用的人臉動畫方法，通常情況下，插值函數(shù)在歸一化時間區(qū)內(nèi)在指定極端位置的兩個關(guān)鍵幀之間平滑地運(yùn)動。Lucas Terissi[10]使用插值的方法合成語音驅(qū)動的人臉動畫。雖然插值的方法的動畫生成的速度快，容易生成原始臉部動畫，但是生成的表情受到了關(guān)鍵幀的限制,不可能生成關(guān)鍵幀插值范圍之外的人臉動作。因此，這種方法適用于根據(jù)關(guān)鍵幀產(chǎn)生表情很少的人臉動畫。Ning Liu[27]使用變形的方法合成語音驅(qū)動的人臉動畫，雖然變形方法能夠很好地模擬人臉形狀的變化。但是忽略了紋理，這樣就不能合成逼真的人臉動畫。

基于參數(shù)的人臉動畫，能很好地描述人臉的幾何形狀和紋理構(gòu)成，通過不同的參數(shù)的變化和組合可以產(chǎn)生不同的人臉表情動作，最常用的就是MPEG-4標(biāo)準(zhǔn)的FAP參數(shù)。一些研究者[28]使用這些參數(shù)合成語音驅(qū)動的人臉動畫系統(tǒng)。這種標(biāo)準(zhǔn)規(guī)定了兩個高級參數(shù)：視位和表情，及66個低級參數(shù)，這樣就大大減少了研究者的工作量，提高了工作效率。

2　結(jié)語

在人與計(jì)算機(jī)的交流過程中，不再是以文本與計(jì)算機(jī)交流，而是以語音與計(jì)算機(jī)交流，將大大提高計(jì)算機(jī)工作的效率。本文就語音驅(qū)動人臉動畫合成的兩大技術(shù)給予了概括和總結(jié)。

近年來關(guān)于語音驅(qū)動的人臉動畫的研究雖然已經(jīng)取得了一些成就，但是這并沒有實(shí)現(xiàn)研究者的愿望，如：只能在安靜的環(huán)境中與計(jì)算機(jī)交流，并且現(xiàn)在的研究還只是單一對一種語言的研究，一旦系統(tǒng)做好，不能識別第二種語言。在可見的未來，語音驅(qū)動的人臉動畫這一技術(shù)將改變?nèi)藗兣c計(jì)算機(jī)的交流方式，多種語言，并且能在吵雜的環(huán)境中很好地與計(jì)算機(jī)交流這將成為語音驅(qū)動人臉動畫的一個趨勢。

[1]Wesley Mattheyses,Lukas Latacz,Werner Verhelst.Comprehensive Many-to-Many Phoneme-to-Viseme Mapping and Its Application for Concatenative Visual Speech Synthesis[J].Speech Communication,2013,55（7-8）:857～876

[2]賈熹濱，尹寶才，孫艷豐.基于雙層碼本的語音驅(qū)動視覺語音合成系統(tǒng)[J].計(jì)算機(jī)科學(xué)，2014，41（1）：100～104

[3]Salil Deena,Shaobo Hou,Aphrodite Galata.Visual Speech Synthesis Using a Variable-Order Switching Shared Gaussian Process Dynamical Model[J].Multimedia,IEEE Transactions on,2013,15（8）,1755～1768

[4]Salil Deena,Shaobo Hou,Aphrodite Galata.Visual Speech Synthesis by Modelling Coarticulation Dynamics Using a Non-Parametric Switching State-Space Model[C].ICMI-MLMI'10:International Conference on Multimodal Interfaces and the Workshop on Machine Learning for Multimodal Interaction,2010

[5]Changwei Luo,Jun Yu,Xian Li,ZengfuWang.Real Time Speech-Driven Facial Animation Using Gaussian Mixture Models[C].2014 IEEE International Conference on Multimedia and Expo Workshops（ICMEW）2014:1～6

[6]Changwei Luo,Jun Yu,Zengfu Wang.Synthesizing Real-Time Speech-Driven Facial Animation[C].2014 IEEE International Conference on Acoustics,Speech and Signal Processing（ICASSP）,2014:4568～4572

[7]Jia Jia,Shen Zhang,Fanbo Meng,Yongxin Wang,Lianhong Cai.Emotional Audio-Visual Speech Synthesis Based on PAD,IEEE Transactions on AUDIO,Speech,and Language Processing,VOL.19,No.3,MARCH 2011

[8]Shen Zhang,Jia Jia,Yingjin Xu,Lianhong Cai.Emotional Talking Agent:System and Evaluation.2010 Sixth International Conference on Natural Computation（ICNC 2010）

[9]Jianhua Tao,Member,IEEE,Li Xin，Panrong Yin.Realistic Visual Speech Synthesis Based on Hybrid Concatenation Method.IEEE Transactions on AUDIO,Speech,and Language Processing,VOL.17,No.3,MARCH 2009

[10]Lucas Terissi;Mauricio Cerda;Juan C.Gomez.Animation of Generic 3D Head Model Driven by Speech[C].2011 IEEE International Conference on Multimedia and Expo（ICME）,2011:1～6

[11]馬娥娥，劉穎，王成儒.基于IOHMM的語音驅(qū)動的唇動合成系統(tǒng)[J].計(jì)算機(jī)工程，2009，35（18）：283～285

[12]Lei Xie,Zhi-Qiang Liu.Speech Animation Using Coupled Hidden Markov Models[C].Pattern Recognition,2006.ICPR 2006.18th International Conference on,2006:1128～1131

[13]Lei xie,Naicai Sun,Bo Fan.A Statistical Parametric Approach to Video-Realistic Text-Driven Talking Avatar[J].Multimedia Tools and Applications,2014,73（1）：377～396

[14]趙暉.真實(shí)感漢語可視語音合成關(guān)鍵技術(shù)研究.國防科學(xué)技術(shù)大學(xué)，2009

[15]吳鵬，蔣冬梅，王風(fēng)娜，Hichem SAHLI，Werner VERHELST.基于發(fā)音特征的音視頻融合識別模型[J].計(jì)算機(jī)工程，2011，37（22）: 268～272

[16]張賀，蔣冬梅，吳鵬，謝磊，付中華，Hichem Sahli.基于AAM和異步發(fā)音特征DBN模型的逼真可視語音合成[C].第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議，西安:2011

[17]Dongmei Jiang，Yong Zhao，Hichem Sahli.Speech Driven Photo Realistic Facial Animation Based on an Articulatory DBN and AAM Features[J].Multimedia Tools and Applications,2014,73（1）:397～415

[18]F.Pighin,J.Hecker,D.Lischinski,R.Szeliski,D.Salesin.Synthesizing Realistic Facial Expressions from Photographs[C].SIGGRAPH !98 Conference Proceedings,1998:75～84

[19]Ying He,Yong Zhao,Dongmei Jiang.Speech Driven Photo-Realistic Face Animation with Mouth and Jaw Dynamics[C].2013 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference（APSIPA），2013:1～4

[20]Mattheyses W,Latacz L,Verhelst.Active Appearance Models for Photorealistic Visual Speech Synthesis[C].Proc.Interspeech 2010,2010:1113～1116

[21]Mattheyses W,Latacz L,Verhelst V.Optimized Photorealistic Audiovisual Speech Synthesis Using Active Appearance Modeling[C]. In:Proc.Internet.Conf.on Auditory-Visual Speech Processing,2010:148～153

[22]Benjamin Havell.A Hybrid Phoneme Based Clustering Approach for Audio Driven Facial Animation[C].2012 IEEE International Conference on Acoustics,Speech and Signal Processing（ICASSP）,2012:2261～2264

[23]F.I.Parke,Computer Generated Animation of Faces[C].Proc.of ACM National Conference，1972:451～457

[24]Kaihui Mu,Jianhua Tao,Jianfeng Che,Mianghao Yang.Real-Time Speech-Driven Lip Synchronization[C]（IUCS）,4th International Universal Communication Symposium,2010:378～382

[25]Shunya Osawa,Guifang Duan,Masataka Seo,Takanori Igarashi,and Yen-Wei Chen.3D Facial Images Reconstruction from Single Facial Image[C].Information Science and Service Science and Data Mining（ISSDM）,2012 6th International Conference on New Trends in,2012:487～490

[26]李冰鋒，謝磊.實(shí)時語音驅(qū)動的虛擬說話人[C].第十一屆全國人機(jī)語音通訊學(xué)術(shù)會議，西安：2011

[27]Ning Liu,Ning Fang,Seiichiro Kamata.3D Reconstruction from a Single Image for a Chinese Talking Face[C].TENCON 2010,2010: 1613～1616

[28]尹寶才，王愷，王立春.基于MPEG-4的融合多元素的三維人臉動畫合成方法[J].北京工業(yè)大學(xué)學(xué)報(bào)，2011，37（2）:266～271

Speech-Driven Facial Animation；Audio and Video Mapping；Face Model

Survey of Speech-Driven Facial Animation

WANG Hui-hui1,2，ZHAO Hui1,2
（1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046；2.Xinjiang Laboratory of Multi-Language Information Technology，Urumqi 830046）

In addition to voice information for the understanding of auditory information,visual information is also very important.In the speech given at the same time,if given the appropriate facial animation,will raise awareness of the correct understanding of the voice message, which is a speech-driven facial animation to achieve the effect.Speech-driven facial animation system allows a computer simulation of human speech bimodal,offers the possibility for human-computer interaction.Summarizes the development of speech-driven facial animation and speech-driven facial animation core technologies.

王慧慧（1988-），女，河南沈丘人，碩士研究生，研究方向?yàn)槿斯ぶ悄?、模式識別

趙暉（1972-），女，云南昆明人，博士，教授，研究方向?yàn)槿斯ぶ悄堋D像處理

2015-04-07

2015-05-10

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音驅(qū)動人臉動畫研究綜述

0 引言

1 語音驅(qū)動人臉動畫

2 結(jié)語

0　引言

1　語音驅(qū)動人臉動畫

2　結(jié)語