車娜 趙劍 史麗娟 王柳 范秦寅
摘 要:文章提出一種基于Kinect和Faceshift技術的聽障兒童言語康復訓練方法。通過Kinect和Faceshift技術實時采集說話人面部信息,在利用視頻驅動方式與面部三維模型相融合生成面部三維模型動畫,實現(xiàn)能夠實時顯示說話人面部動畫的面部表情、唇部動作,舌頭運動狀態(tài)的面部三維動畫效果。本方法將面部三維模型動畫和語音反饋結合起來從而真正意義上達到音視聽結合的言語康復訓練方法。試驗結果表明,使用本言語康復訓練系統(tǒng)對提高聽障兒童言語康復訓練的效率,縮短康復訓練時間有顯著效果。
關鍵詞:Kinect;Faceshift;言語康復訓練;面部三維模型;語音識別反饋
據中國殘疾人聯(lián)合會抽樣調查統(tǒng)計數(shù)字表明,中國擁有聽力及言語殘疾人口數(shù)目約為2 057萬,7歲以下聾兒近百萬,每年新產生聾兒3萬余名[1]。在聾兒7歲以前,尤其是在3歲左右時,如果能及時地進行康復治療,極有可能幫助他們走出無聲世界融入社會。因此,如何通過科學技術幫助聾兒縮短言語康復訓練時間,提高效率尤為重要。
隨著時代的進步和科學技術的發(fā)展,聾兒語言康復訓練設備及方法已被廣泛應用到聾兒語言功能康復訓練中。如IBM Speech Viewer系統(tǒng)[2],是一種高性能的實時語音治療設備,但它要求使用者的語音學和傳統(tǒng)臨床療法理解程度有很高的要求。在國內,影響力較大的是天津市聾兒語言康復中心開發(fā)的《聰聰學話》多媒體聾兒語訓系統(tǒng)[3],但該系統(tǒng)無法直接顯示說話人面部表情狀態(tài)。針對現(xiàn)有的系統(tǒng)缺陷,本文提出基于Kinect和Faceshift的語言康復訓練方法,根據Kincet和Faceshift技術實時捕捉說話時人的面部表情、唇部動作、舌頭的狀態(tài)等,在將捕捉到的動態(tài)人臉與三維人物頭像模型相融合,從而解決動態(tài)三維頭像的驅動問題。
1 基于Kinect和Faceshft的語言康復訓練方法
該方法利用特殊人機交互技術、傳感器技術建立聽障兒童語言康復訓練系統(tǒng),通過音頻數(shù)據和視頻數(shù)據采集裝置獲取聽障兒童發(fā)聲訓練中的音頻視頻數(shù)據信息,在顯示器上根據獲取的信息反饋出音頻圖像對比結果以及語音識別反饋信息,從而指導受訓者正確發(fā)聲。
1.1 系統(tǒng)總體方案
其具體流程為:利用Kinect和Faceshft技術將音、視頻數(shù)據采集器采集到的面部運動特征和發(fā)音信息,與三維人物頭像模型相互融合,形成實時說話人三維人物頭像模型,并將融合后的三維人物頭像模型存入數(shù)據存儲和處理設備。數(shù)據存儲和處理設備對數(shù)據同步處理后,將數(shù)據與標準信息比對做語音識別反饋。最后由視頻顯示裝置將面部三維人物頭像、語音識別反饋結果、音頻圖像對比反饋結果同步顯示。系統(tǒng)總體方案如圖1所示。
1.2 面部三維頭像模型
在使用Kinect和Faceshft技術實時捕捉人臉數(shù)據后,還需要建立人面部三維頭像模型,本系統(tǒng)采用的是Autodesk公司開發(fā)的3DS Max軟件創(chuàng)建頭像基本模型,再利用zbrush進行仿真建模,對面部三維頭像模型進行相似性調整和細節(jié)刻畫,并調整顏色貼圖以及調整高光。
1.3 Kinect和Faceshft技術與面部三維頭像模型的動畫合成
本文采用Kinect和Faceshft技術提取言語康復訓練中聽障兒童的音視頻信息,捕捉說話人的面部動作、表情和語音信息,然后套入建好的人物面部三維頭像模型,從而生成動畫序列[4]。其框圖如圖2所示。
2 系統(tǒng)評價及分析
為驗證基于Kinect和Faceshft的語言康復訓練方法的實用性,我們對該方法進行了試驗。試驗過程為:選取20名3~7歲康復訓練學生,實驗組10人為5名男生,5名女生,使用本方法進行康復訓練,對照組10人為5名男生,5名女生使用傳統(tǒng)的訓練模式進行康復訓練。對實驗組和對照組分別進行言語康復訓練的單字、詞語、語句發(fā)音,在相同的言語康復訓練內容下,對比實驗組、對照組的康復訓練時間。試驗嚴格控制其他無關變量,保證實驗組和對照組的發(fā)音準確性[5]。
圖3為言語康復訓練對比實驗結果,從對比曲線上,我們能夠看出使用基于Kinect和Faceshft的語言康復訓練方法進行康復訓練的時間基本上都能夠小于傳統(tǒng)康復訓練所需時間,能夠提高聽障兒童言語康復訓練效率[6]。
3 結語
本文提出一種基于Kinect和Faceshft的語言康復訓練方法。根據Kincet和Faceshift技術的特點實時捕捉說話時人的面部表情、唇部動作,舌頭運動狀態(tài),并將視頻驅動面部三維頭像動畫,生成發(fā)音的面部三維動畫。在對20名聽障兒童的系統(tǒng)測試結果表明,本語言康復訓練方法能夠幫助聽障兒童更好地完成言語康復訓練,縮短訓練時間。
[參考文獻]
[1]黃昭鳴.我國言語—語言障礙康復現(xiàn)狀及發(fā)展策略[J].中國聽力語言康復科學雜志,2016(2):84-87.
[2]DESTOMBES F.The development and application of the IBM speech viewer[J].Journal of Medical Sciences,1994(2):187-196.
[3]王慧芳,朱思俞,張立安,等.《聰聰學話》—多媒體聾兒語訓系統(tǒng)[C].大連:全國計算機輔助教育學會學術會議,2001.
[4]張金成.基于Kinect的健身游戲的設計與實現(xiàn)[D].武漢:華中師范大學,2017.
[5]陳思.基于視頻驅動的面部表情實時模擬研究與實現(xiàn)[D].成都:電子科技大學,2017.
[6]普波.基于視頻的三維人臉動畫驅動的設計與實現(xiàn)[D].成都:電子科技大學,2010.