陳志翔,信琴琴,朱月秀,林姿瓊,王琳
·康復(fù)工程·
虛擬人舌運(yùn)動(dòng)可視化在發(fā)聲中的研究①
陳志翔1,2,信琴琴2,朱月秀1,2,林姿瓊1,2,王琳3
發(fā)音障礙是聽力殘疾者和言語殘疾者的顯著特征之一。舌部作為發(fā)音的主要器官,在發(fā)音訓(xùn)練中起重要作用。如果將發(fā)音可視化引入發(fā)音障礙康復(fù)訓(xùn)練中,可以讓聾人和言語殘疾者直觀地看到發(fā)音過程中舌位及舌形的變化,則康復(fù)訓(xùn)練時(shí)將起到事半功倍的效果。在研究舌部解剖結(jié)構(gòu)及其運(yùn)動(dòng)特征的基礎(chǔ)上,通過建立三維舌體肌肉模型,結(jié)合發(fā)音中舌的X光圖片和電子顎位圖儀等相關(guān)數(shù)據(jù),實(shí)現(xiàn)舌體模型仿真發(fā)音中常見的運(yùn)動(dòng)及形狀,進(jìn)而利用這種可視化技術(shù),幫助聽力殘疾者和言語殘疾者達(dá)到矯正和康復(fù)的目的。
發(fā)音可視化;康復(fù)訓(xùn)練;發(fā)音障礙;虛擬舌部建模;運(yùn)動(dòng)仿真
[本文著錄格式]陳志翔,信琴琴,朱月秀,等.虛擬人舌運(yùn)動(dòng)可視化在發(fā)聲中的研究[J].中國康復(fù)理論與實(shí)踐,2013,19(10): 993-997.
據(jù)2012年3月5日中國殘疾人聯(lián)合會(huì)發(fā)布的“殘聯(lián)(2012) 25號(hào)文件”,目前全國殘疾人總數(shù)為8502萬人,其中聽力殘疾人數(shù)占?xì)埣踩丝倲?shù)的24.16%,言語殘疾的人數(shù)占?xì)埣踩丝倲?shù)的1.53%[1]。
聽力殘疾者因?yàn)槁牪灰娀蚵犃p失,與他人交流的時(shí)候多有不便。特別是由于聽力原因?qū)е碌难哉Z障礙,將使得言語殘疾者不能進(jìn)行正常的言語交往活動(dòng)。目前已有的康復(fù)技術(shù)主要集中在補(bǔ)聽和助聽方面[2-3],試圖提高他們的聽力理解能力,間接地為語言功能的恢復(fù)提供幫助。然而由于生理上的缺陷,使得他們對(duì)于那些發(fā)音時(shí)外觀比較接近的音無法準(zhǔn)確掌握。為了解決這一難題,國內(nèi)外許多學(xué)者致力于發(fā)音方式和發(fā)音位置的研究。例如,2005年~2012年期間,Wayland和Li做了視覺信息與語言感知之間關(guān)系的研究,發(fā)現(xiàn)/l/和/n/有相似的發(fā)音位置,但視覺上存在明顯差異,最終通過這一視覺信息幫助人們提高了對(duì)于英語輔音的正確感知率[4-6]。2012年夏靜宇等發(fā)現(xiàn),對(duì)聽力正常兒童的發(fā)音方式和發(fā)音位置的研究,對(duì)于有聽力障礙問題的兒童的訓(xùn)練有重要意義[7]。張磊等也發(fā)現(xiàn),發(fā)音的可視性差是造成學(xué)齡前聾兒發(fā)音難的一個(gè)主要原因[8]。故在發(fā)音障礙康復(fù)訓(xùn)練中,準(zhǔn)確把握發(fā)音方式及發(fā)音位置,引入發(fā)音可視化技術(shù),可以極大地幫助聽力殘疾者及言語殘疾者。
構(gòu)成語言器官的一個(gè)重要部分是舌,舌部每一段都參與發(fā)音,諸如舌尖音、舌面音及舌根音等,它的動(dòng)作很靈敏,可以前伸后縮,也可以上升下降。聽力殘疾者由于聽力缺陷,言語發(fā)展受到障礙,使舌部得不到很好的鍛煉,舌肌僵硬,有的字音發(fā)不出來,或者發(fā)得殘缺不全。而言語殘疾者也存在這方面的缺陷。因此,對(duì)聽力殘疾者和言語殘疾者的舌部進(jìn)行鍛煉十分重要。但聽力殘疾者的聽力缺陷及發(fā)音時(shí)口腔中舌體的難見性,給康復(fù)訓(xùn)練師帶來了極大的難題。
聽力殘疾者和言語殘疾者雖在聽力上存在缺陷,可是其在視覺上并不存在障礙。若果能夠使他們清晰直觀地觀察到發(fā)音中口腔內(nèi)舌的運(yùn)動(dòng)及位置的變化,即將發(fā)音可視化,無疑對(duì)聽力殘疾者和言語殘疾者的發(fā)音康復(fù)訓(xùn)練帶來極大幫助。然而,由于舌部肌肉的復(fù)雜性難于采集實(shí)驗(yàn)數(shù)據(jù),目前對(duì)于舌部模型的建模及可視化技術(shù)研究較少,已有的少數(shù)模型運(yùn)動(dòng)也較為機(jī)械。Stone等建立了第一個(gè)3D舌體模型[9],該模型將舌體沿冠狀面和徑向方向各分成5段,但只能實(shí)現(xiàn)舌體簡單的形變。Pelachaud等[10]在基于Wyvill等[11]提出的點(diǎn)狀模型的基礎(chǔ)上,用9個(gè)三角形表示舌部,并分析發(fā)音中舌體的初步運(yùn)動(dòng)情況,由于其幾何結(jié)構(gòu)簡單,無法真實(shí)再現(xiàn)舌部靈活的運(yùn)動(dòng)特征。
本文通過對(duì)舌部解剖結(jié)構(gòu)[12]以及發(fā)音中舌體位置和舌形變化的研究[13],將發(fā)音中的幾種主要的舌形進(jìn)行分類,通過建立相應(yīng)的肌肉模型,控制舌部肌肉進(jìn)行相應(yīng)變化,并結(jié)合三維建模技術(shù)及真實(shí)紋理映射,進(jìn)而實(shí)現(xiàn)發(fā)音的可視化。實(shí)驗(yàn)表明,該方法能較好仿真及控制舌部發(fā)音過程中的多種運(yùn)動(dòng),實(shí)現(xiàn)發(fā)音的可視化,在實(shí)際康復(fù)訓(xùn)練中能夠起到重要的輔助作用。
1.1舌部的解剖結(jié)構(gòu)
舌肌為橫紋肌,可分為舌固有肌和舌外肌兩類。舌固有肌指組成舌體本身的肌肉,起止均在舌內(nèi),其肌纖維走向分縱行、橫向和垂直三種,收縮時(shí),分別可使舌縮短、變窄或變薄。舌外肌起自舌外,止于舌內(nèi),根據(jù)其解剖結(jié)構(gòu)對(duì)應(yīng)的生理運(yùn)動(dòng)功能,頦舌肌、莖突舌肌和舌骨舌肌較為重要。頦舌肌是一對(duì)強(qiáng)有力的肌肉,起自下頜體后面的頦棘,肌纖維呈扇形向后上方分散,止于舌中線兩側(cè)。兩側(cè)頦舌肌同時(shí)收縮時(shí),拉舌向前下方,即實(shí)現(xiàn)伸舌運(yùn)動(dòng),單側(cè)收縮時(shí),使舌伸向?qū)?cè),左右交替收縮時(shí)可以實(shí)現(xiàn)舌體左右運(yùn)動(dòng)。莖突舌肌起自莖突,斜向前下,止于舌旁和舌底,其功能為引舌向后上方。舌骨舌肌為薄四邊形,起于舌骨大角,直向上分布于舌體底部,由舌下神經(jīng)支配,作用是牽舌向下,使舌部中線下陷,形成谷形。見表1。
表1 舌體肌肉功能表
1.2舌部發(fā)音的功能模型
舌部是造成共鳴腔形狀變化的主要發(fā)音器官,以元音為例,依據(jù)舌部起作用的具體部位不同,可以將其分為舌面元音、舌尖元音與卷舌元音三類。例如,舌面元音主要由舌面調(diào)節(jié)共鳴腔形狀而發(fā)出的元音,主要有三種方式:①把舌面抬得高一點(diǎn)或低一點(diǎn);②把舌面伸得前一點(diǎn)或后一點(diǎn);③嘴唇呈圓形或者展平??蓪⑦@三種方法歸納為舌位的高低、舌位的前后和唇型的圓展。這3個(gè)要素的結(jié)合決定著每個(gè)舌面元音的音質(zhì),即每個(gè)舌面元音都是由這3個(gè)參數(shù)的變化所控制的,每給定一組3個(gè)參數(shù),就能得到一個(gè)舌面元音。語音學(xué)家繪制了元音舌位圖(見圖1)來對(duì)舌面元音的3個(gè)參數(shù)進(jìn)行分析,從而對(duì)舌面元音進(jìn)行分類和描述[13]。
圖1 元音舌位圖
隨著實(shí)驗(yàn)語音學(xué)的快速發(fā)展,電子顎位圖儀、超聲影像技術(shù)、X光攝像等先進(jìn)的設(shè)備和技術(shù)被引入到發(fā)音研究,為進(jìn)一步了解口腔內(nèi)各組織在元音及輔音發(fā)音過程中的動(dòng)作提供了依據(jù)。電子顎位圖儀即在舌和上顎上安裝上一定數(shù)量(一般是96個(gè))的電極,通過標(biāo)準(zhǔn)發(fā)音者發(fā)某些音標(biāo),記錄舌和顎的接觸情況,可以分析舌位及口腔開合的情況。圖2為舌體在X光下拍攝的圖片及電子顎位圖[14]。
根據(jù)電子顎位圖儀的記錄,可以按發(fā)音時(shí)舌的形狀將音標(biāo)分為3類:前升高、后升高和谷形[14]。
考慮到發(fā)音過程中舌體的運(yùn)動(dòng)存在連貫性,期間的連貫動(dòng)作多涉及左右及前后的銜接,在通過對(duì)舌部解剖結(jié)構(gòu)及生理運(yùn)動(dòng)特征研究的基礎(chǔ)上,本文將舌部參與發(fā)音的主要肌肉分成4類:①控制舌體前升高的舌縱??;②控制舌體后升高的莖突舌肌;③控制舌體谷形運(yùn)動(dòng)的舌骨舌肌、舌橫肌及舌垂直??;④控制舌體左右運(yùn)動(dòng)及前下運(yùn)動(dòng)的頦舌肌。
圖2 舌X射線圖及電子腭位圖
1.2.1舌前升高建模 舌部在發(fā)某些音時(shí),其電子顎位圖如圖3所示,與上顎主要接觸點(diǎn)集中在舌尖部分,這即為前升高。在舌部上縱肌的控制下,舌體向上卷曲,形成前升高。根據(jù)本文的前期工作[15-16],可以通過控制上縱肌的收縮量,實(shí)現(xiàn)不同程度的前升高,具體如圖4所示。舌體發(fā)某些音時(shí),舌體前升高,通過控制方法,可以達(dá)到不同程度的前升高,滿足發(fā)音過程中的要求。
圖3 前升高圖
圖4 舌前升高模型
1.2.2舌后升高建模 舌體在發(fā)一些音時(shí),舌體后部有升高趨勢(shì),其電子顎位圖如圖5所示。通過對(duì)舌部解剖結(jié)構(gòu)的研究,知道其主要是通過莖突舌肌控制的。由前期工作可知,控制莖突舌肌的收縮量,可以實(shí)現(xiàn)不同程度的后升高[17],圖6展示了不同收縮量下舌體側(cè)中線所呈現(xiàn)的多種后升高狀態(tài)。在發(fā)音可視化過程中,若某些音有后升高趨勢(shì),則通過控制模型中相關(guān)參數(shù),可達(dá)到對(duì)應(yīng)發(fā)音的舌位要求。
圖5 后升高圖
圖6 舌后升高示意圖
1.2.3舌谷形建模 舌體谷形形成的機(jī)理主要為舌中線下陷,舌部形成類似山谷的形狀,其電子顎位圖如圖7所示。該形狀主要是由舌骨舌肌、舌橫肌及舌垂直肌控制形成。其控制模型由本文前期工作[18]可得,圖8a給出了相同形狀因子下不同收縮量的舌體谷形效果,圖8b考慮到不同人種在形成谷形時(shí)的區(qū)別,利用各自的形狀因子來實(shí)現(xiàn)不同形狀的谷形。在發(fā)音可視化過程中,可通過控制模型中的參數(shù),以達(dá)到使舌體形成預(yù)期谷形的目的。
圖7 谷形圖
1.2.4舌左右運(yùn)動(dòng)建模 舌體的另一種主要運(yùn)動(dòng)為左右運(yùn)動(dòng)。此運(yùn)動(dòng)主要通過頦舌肌控制。頦舌肌為一對(duì)扇形肌,單側(cè)收縮,可引舌伸向?qū)?cè),實(shí)現(xiàn)舌體的左右運(yùn)動(dòng)。由于其結(jié)構(gòu)對(duì)稱,根據(jù)本文的前期工作[18],圖9給出了單側(cè)頦舌肌的幾何模型,在確定三個(gè)角度符合生理結(jié)構(gòu)的前提下,通過控制相關(guān)肌肉收縮量,可實(shí)現(xiàn)舌體左右運(yùn)動(dòng)。
2.1舌部的基本運(yùn)動(dòng)
進(jìn)一步,通過實(shí)驗(yàn)獲取真實(shí)舌部紋理圖案,在三維網(wǎng)格標(biāo)定及紋理映射下,可以實(shí)現(xiàn)舌部前后升高、左右運(yùn)動(dòng)以及谷形運(yùn)動(dòng)等常見運(yùn)動(dòng)仿真。為方便顯示,從實(shí)驗(yàn)仿真出的發(fā)音運(yùn)動(dòng)視頻中等時(shí)截取了四幅序列圖。由于建立的是三維模型,故可以從任意角度觀察舌體運(yùn)動(dòng)形態(tài),圖10a~c分別從左上方觀察舌體從自然狀態(tài)運(yùn)動(dòng)到前升高、后升高及谷形的過程,圖10d為從正前上方觀察舌左右運(yùn)動(dòng)的實(shí)驗(yàn)結(jié)果??梢钥闯?,其效果較為逼真,運(yùn)動(dòng)較自然。
2.2舌部的發(fā)音運(yùn)動(dòng)
將上述方法運(yùn)用于舌體發(fā)音控制。根據(jù)控制模型,控制對(duì)應(yīng)的肌肉收縮量,可得到其發(fā)音過程(圖11),圖中可以清晰觀察到谷形運(yùn)動(dòng)的整個(gè)過程,較好地實(shí)現(xiàn)了舌體的可視化。特別地,在圖11中舌體前、后升高及前下降圖中我們加入了口腔部分,這樣可以清晰的看到舌體前升高及后升高在口腔中的變化,為發(fā)音訓(xùn)練的可視化研究奠定基礎(chǔ)。
舌部是人發(fā)音中涉及到的最重要的一個(gè)部分,實(shí)現(xiàn)虛擬舌體靈活便捷地控制,對(duì)于發(fā)音教學(xué)、可視化仿真、發(fā)音障礙康復(fù)訓(xùn)練等有著及其重要的意義。本文提出了一種基于肌肉控制的舌部模型。根據(jù)舌生理解剖結(jié)構(gòu)和舌體發(fā)音原理,將舌體肌肉按發(fā)音功能分為四類,分別建??刂?。實(shí)驗(yàn)結(jié)果表明,針對(duì)日常發(fā)音過程中幾種主要的舌部運(yùn)動(dòng),該方法能夠較好地仿真相應(yīng)的運(yùn)動(dòng),且所需數(shù)據(jù)量小,驅(qū)動(dòng)方便。舌體發(fā)音過程仿真圖中舌形及舌位均可以清楚地展示,這表明發(fā)音的可視化是完全可以做到的。如果我們將發(fā)音的可視化運(yùn)用于發(fā)音障礙康復(fù)訓(xùn)練、虛擬發(fā)音教學(xué)、聾啞人發(fā)音矯正中,將會(huì)給聽力殘疾者和言語殘疾者的康復(fù)訓(xùn)練帶來極大的幫助。
圖8 谷形模型示意圖
圖9 頦舌肌幾何模型
圖10 舌體前、后升高、谷形及左右運(yùn)動(dòng)仿真圖
圖11 口腔中舌體的前升高,前下降,后升高發(fā)音過程可視化序列
[1]中國殘疾人聯(lián)合會(huì).關(guān)于使用2010年末全國殘疾人總數(shù)及各類、不同殘疾等級(jí)人數(shù)的通知?dú)埪?lián)〔2012〕25號(hào)[EB/OL].http: //www.cdpf.org.cn/wxzx/content/2012-03/12/content_30383 765.htm.[2012-03-05]
[2]李郁明,梁勇,譚少珍.語前聾兒童康復(fù)訓(xùn)練后聽覺能力的動(dòng)態(tài)評(píng)估[J].聽力學(xué)及言語疾病雜志,2013,21(2):174-177.
[3]李靖,陳雪清,吳燕君,等.耳聾程度對(duì)選配助聽器嬰幼兒言語產(chǎn)出能力的影響[J/OL].聽力學(xué)及言語疾病雜志,2013,21 (4):391-394.
[4]Wayland R,Li B.Training native Chinese and native English listeners to perceive Thai tones[R].London,UK:ISCA Workshop on Plasticity in Speech Perception,Senate House,2005: 62-65.
[5]Wayland R,Li B.Effects of two training procedures in crosslanguage perception of tones[J].J Phonetics,2008,36(2):250-267.
[6]李彬.視覺信息與輔音感知[J].語言科學(xué),2012,11(4):403-411.
[7]夏靜宇,管燕平,薛永強(qiáng).4.4-5.5歲聾兒與正常兒童語音清晰度的比較[J].中國康復(fù)理論與實(shí)踐,2012,18(8):707-709.
[8]張磊,朱群怡,黃邵鳴,等.學(xué)齡前聾兒聲母發(fā)音難度研究[J].聽力學(xué)及言語疾病雜志,2012,20(2):102-104.
[9]Stone M.Toward a model of three-dimensional tongue movement[J].J Phonetics,1991,19:309-320.
[10]Pelachaud C,Overveld,Seah C.Modeling and Animating the Human Tongue During Speech Production[C].Proceedings of ComputerAnimation,1994:40-49.
[11]Wyvill G,McPheeters C,Wyvill B.Data structure for soft objects[J].The Visual Computer,1986,2(4):227-234.
[12]曾智成.新編人體解剖學(xué)圖譜[M].西安:世界圖書出版社, 2006:55-58.
[13]周殿福,吳宗濟(jì).普通話發(fā)音圖譜[M].北京:商務(wù)印書館, 1963:6-18.
[14]Stone M,Lundberg A.Three-dimensional tongue surface shapes of English consonants and vowels[J].J Acoust Soc Am,1996,99(6):3728-3737.
[15]陳志翔,程義民,曾丹,等.人舌及嘴部的3D控制模型[J].中國科學(xué)院研究生院學(xué)報(bào),2008,25(3):372-378.
[16]陳志翔,程義民,曾丹,等.人舌運(yùn)動(dòng)與嘴部表情的多線譜仿真[J].系統(tǒng)仿真學(xué)報(bào),2009,21(23):7518-7521.
[17]Chen ZX,Zhang XJ,Wu ZR.A new tongue model based on muscle-control[C].IEEE International Conference on Granular Computing,2011:132-137.
[18]陳志翔.虛擬人舌運(yùn)動(dòng)與嘴部表情的研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2010:59-70.
Visualization Study of Virtual Human Tongue in Speech Production
CHEN Zhi-xiang,XIN Qin-qin,ZHU Yue-xiu,et al.Department of Computer Science and Engineeing,Minnan Normal University,Zhangzhou 363000,Fujian,China
Pronunciation obstacle is one of the characteristics of hearing and speech disabled persons.As the main organ of pronunciation,tongue plays an important role in pronunciation training.If the pronunciation visualization is applied to rehabilitation training,this can make the hearing and speech disabled persons intuitively watch the change of the tongue in the process of pronunciation,which may promote the rehabilitation training.On the basis of tongue anatomical structure and movement characteristics,the common movements of tongue in pronunciation are realized after the establishment of three-dimensional tongue muscle model and the relevant data of the tongue X-ray images and electropalatography.Using this kind of visualization technology,we can help correction and rehabilitation for the hearing and speech disabled persons.
pronunciation visualization;rehabilitation training;pronunciation obstacle;virtual tongue modeling;motion simulation
R493
A
1006-9771(2013)10-0993-05
2013-03-30
2013-04-12)
1.國家自然科學(xué)基金(No.61170128);2.福建省自然科學(xué)基金(No.2012J05128);3.福建省教育廳資助科技項(xiàng)目(No.JA11169;No. JA12222)。
1.閩南師范大學(xué)計(jì)算機(jī)科學(xué)與工程系,福建漳州市363000;2.福建省粒計(jì)算及其應(yīng)用重點(diǎn)實(shí)驗(yàn)室,福建漳州市363000;3.閩南師范大學(xué)校醫(yī)院,福建漳州市363000。作者簡介:陳志翔(1982-),男,福建福州市人,博士,講師,CCF會(huì)員,主要研究方向:計(jì)算機(jī)視覺、虛擬現(xiàn)實(shí)技術(shù)、可視化方法等。
10.3969/j.issn.1006-9771.2013.10.027