亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖像的語音生理研究進展

        2018-06-14 09:31:58
        關(guān)鍵詞:唇形聲道普通話

        寇 贇

        (西北民族大學(xué) 中國民族語言文字信息技術(shù)重點實驗室,甘肅 蘭州 730030)

        0 引言

        隨著計算機科學(xué)的不斷發(fā)展,語音生理研究逐漸成為語音學(xué)研究的一個重要方面.因此,語音生理研究及其應(yīng)用在眾多學(xué)科中得到了迅速的發(fā)展.語音生理研究的方法通常從聲音信號、圖像信號、生理信號三個方面展開討論,而圖像信號因為計算機控制的數(shù)字成像可以達到9000幀/每秒,甚至更高,比如,可以達到反應(yīng)聲帶一個開合周期過程所需要的圖像幀數(shù),而且圖像信號比較直觀,特別是對發(fā)音生理器官的運動能夠用圖像處理的方法模擬,從而可以應(yīng)用到教學(xué)等各個方面[1].

        語音的產(chǎn)生是肺、聲帶、聲道以及唇四個生理器官協(xié)同作用而產(chǎn)生的生理運動[2].肺的發(fā)聲功能主要是產(chǎn)生壓縮氣體,通過氣管傳送到聲音生成系統(tǒng);聲帶是伸展在喉前、后端的褶肉,通過產(chǎn)生激勵來促使音產(chǎn)生;聲道是聲門至嘴唇的所有發(fā)聲器官,也是一根具有非均勻截面的聲管;嘴唇的生理運動便產(chǎn)生聲波[3].語音的形成流程可以概括為:空氣通過肺部呼出通過聲帶產(chǎn)生激勵進入聲道,由嘴輻射出聲波,便產(chǎn)生了語音.本文從發(fā)音動力器官、嗓音聲源、聲道、唇形四個方面來闡述目前國內(nèi)基于圖像信號的語音生理研究的進展.

        1 發(fā)聲動力器官——肺

        發(fā)聲的動力是借用人類的呼吸系統(tǒng)。呼吸原本的功能是維持人類的生命,而不是產(chǎn)生語言.肺像是兩個封閉的袋子,左右對稱,由肺泡組成.從生理的角度,呼吸系統(tǒng)分為呼吸道、肺、胸腔、腹部肌肉群.

        目前,用于呼吸動力研究的設(shè)備主要是氣流氣壓計和呼吸帶.氣流氣壓計可以測發(fā)音時的氣流速度、氣流量、氣壓值和聲門下壓力等.呼吸綁帶是采集胸圍或腹圍的變化來研究語音的韻律特性,可以研究不同的語言和不同文體的呼吸韻律模式.在圖像方面,孔江平教授利用MRI拍攝了肺的橫切面和剖面的實時發(fā)音運動圖像,如圖1(左)所示,該圖為肺部呼吸運動截取的某一幀.該幀利用小波變換對發(fā)聲動力器官肺部影像做分解重構(gòu)處理分析預(yù)處理,對處理后的圖像進行canny算子邊緣檢測,分析結(jié)果如圖1(右)所示,產(chǎn)生的動態(tài)影像可以清晰觀察到肺部器官的運動狀態(tài)[4-5].對發(fā)音動力器官圖像的分析研究,可以實現(xiàn)呼吸氣動態(tài)和發(fā)聲動力來源的可視化效果.另外,合適的圖像處理技術(shù)對發(fā)音動力器官圖像進行處理,使人們可以有效地分辨出人體器官的大小和細節(jié),為后續(xù)深入研究學(xué)習(xí)提供良好的圖像素材。

        圖1 MRI拍攝某一幀(左)圖1 canny算子檢測結(jié)果圖(右)

        2 嗓音聲源

        現(xiàn)代語音學(xué)將語音的產(chǎn)生分為調(diào)音和發(fā)聲兩個部分,隱藏在喉頭中的聲帶是振動器官的核心,上通咽喉下接氣管.聲帶是兩片復(fù)雜分層結(jié)構(gòu)的振動器官,兩片聲帶之間的通路叫做聲門.通過對嗓音聲源的研究,可以了解發(fā)音時的聲帶振動情況,從而能夠更好地認識語音發(fā)聲的生理機制、語音發(fā)聲的微觀運動、各種發(fā)聲類型的特性和語音聲學(xué)信號的關(guān)系.

        最新的高速數(shù)字成像系統(tǒng)HSP (High-speed photography)可以達到每秒百萬幀的速度,采集圖像速度比聲帶振動速度快的多,該設(shè)備成像結(jié)果如圖2所示,可以觀察到聲帶的起止,非周期性振動,非常短的嗓音振動片斷和痙攣.孔江平教授在《Laryngeal Dynamics and Physiological Model》中對常見的發(fā)聲類型和漢語普通話四聲的聲帶振動方式進行了研究,并建立了高速數(shù)字成像的分析系統(tǒng)[6].該系統(tǒng)先對聲門錄像進行圖像處理,如圖3所示,為了處理的方便,給一幀圖像加了一個小窗口用來確定聲門的面積,經(jīng)過調(diào)節(jié)對比度和抽取聲門面積等方法最終得到動態(tài)的聲門面積.這是最簡單的過程,因為實際的高速數(shù)字視頻會出現(xiàn)光線灰暗、抖動和漂移等現(xiàn)象,都需要進一步處理才能得到較好的動態(tài)聲門.通過提取出視頻信號中聲門的面積,根據(jù)面積提取有用的語音參數(shù),如,基頻、共振峰、開商、速度商、振幅等,然后建立嗓音生理模型,可以合成出不同發(fā)聲類型的聲源.

        圖2高速數(shù)字成像圖圖3聲門錄像圖像處理結(jié)果圖

        3 聲道

        聲道是語音生理中最重要的發(fā)音器官。聲道是從聲帶開始到嘴唇、語音產(chǎn)生傳播的管道,由聲門、喉管、會厭軟骨、咽腔、軟腭器官等器官組成,具體結(jié)構(gòu)如圖4所示.

        聲道藏在人體內(nèi)部,給觀測帶來了很大的困難.目前有X光、核磁共振技術(shù)(MRI)、超聲三種主要的聲道測量方法被廣泛應(yīng)用.世界上著名的X光數(shù)據(jù)庫有英語、法語、瑞典語和日語數(shù)據(jù)庫.國內(nèi)國際惟一的漢語普通話的X光錄像由中國社會科學(xué)院語言研究所和三〇一醫(yī)院放射科聯(lián)合錄制(一九八五年七月),后由北京語言學(xué)院出版社出版,錄像帶名稱為《普通話發(fā)音器官動作特性(The articulatory movements of standard Chinese)》[7].由于 X 光錄像對軟組織成像不好,聲道邊緣比較模糊,所以對模糊邊緣的提取也是圖形圖像處理領(lǐng)域的經(jīng)典問題.通過圖像處理技術(shù)或者手動標記的方法提取每個語音樣本的聲道邊緣曲線,如圖5所示,繪制成連續(xù)的線條圖,做成可連續(xù)播放的視頻文件,可以計算出聲道面積并合成語音,可應(yīng)用于漢語普通話語音教學(xué)等方面.

        圖4人體的聲道系統(tǒng)結(jié)構(gòu)圖(引自Fitch1994)圖5 X光標記圖

        核磁共振成像技術(shù)(MRI)能夠清晰地看到聲道器官的輪廓,并且對人不會產(chǎn)生傷害和不適,因此越來越頻繁的應(yīng)用于語音生成領(lǐng)域.汪高武在《漢語普通話聲道調(diào)音模型研究》一文中主要采取圖像預(yù)處理,手工標注與程序結(jié)合的方法減少勞動量,并將聲道分成幾個部位分別處理,該文中將聲道劃分為上下唇、硬腭、軟腭、下頜、舌、咽腔前后壁、喉腔前后壁9個部分,各用一條曲線來標記,如圖6所示,每條曲線由若干個關(guān)鍵點經(jīng)過三次樣條函數(shù)插值生成,這樣可以通過移動關(guān)鍵點來修改整個曲線的形狀,使之與聲道邊緣盡量一致[8].宋嬋在《人體發(fā)音過程中的三維聲道幾何建?!芬晃闹袕膸缀蔚慕嵌热?gòu)建三維幾何聲道模型,使得模型更加適用于對實時性要求較高的應(yīng)用,文章對中文核磁共振數(shù)據(jù)庫中一個受試者的十個元音數(shù)據(jù)進行研究,通過圖像預(yù)處理,并對MRI錄像進行數(shù)據(jù)標記,標記如圖7所示,進行三維網(wǎng)格量化,并使用主成分分析法和多元線性回歸法對三維數(shù)據(jù)進行建模分析,得到發(fā)音器官的主要控制參數(shù)[9].劉杰在《三維幾何發(fā)音模型的構(gòu)建與控制》一文中采集了CBCT(錐形束 CT)的數(shù)據(jù)來補充骨質(zhì)結(jié)構(gòu)的信息,進行上下顎的填補,通過MRI采集得到的發(fā)音器官的數(shù)據(jù)庫,對構(gòu)建出的聲道模型進而分析不同發(fā)音帶來的聲道發(fā)音器官形狀的變化規(guī)律[10].

        圖6 MRI錄像聲道邊緣的提取 圖7 MRI錄像標記的發(fā)音生理器官

        另外,王宇光在《基于核磁共振成像的漢語普通話元音/i,(s)i,(sh)i/的研究》一文中利用核磁共振技術(shù)分析從聲道的形態(tài)學(xué)和聲學(xué)的角度全面分析三個元音聲道形態(tài)的差異和形態(tài)差異引起的共振峰差異,及聲道分支對于不同元音的聲學(xué)影響,利用圖像處理領(lǐng)域中的區(qū)域增長法提取出三個元音的三維聲道數(shù)據(jù),并對填充好牙齒的聲道進行閾值分割提取出聲道的形狀和聲道對應(yīng)的面積函數(shù),如圖8所示,首先手動在聲門處選擇兩點,如圖8(a)一條聲道線被選中了,圖8(b)是利用區(qū)域增長法結(jié)果圖,圖8(c)計算出每一層像素點的中點,用一條樣條曲線來逼近這些所有被計算出來的中點,則聲道中位線被確定下來了,圖8(d)在這條中位線上,每隔相同間隔 2 mm,在聲道中位線上做一條中心線[11].

        圖8 聲道面積函數(shù)提取

        超聲技術(shù)一般使用顯示組織特征的方法,測量器官的徑線,以判定其大小.言語過程中的各個發(fā)音器官的變化,都可以被該技術(shù)實時的監(jiān)測,并以圖像的形式展現(xiàn),這為認知人類發(fā)聲時聲腔、胸腔等器官的運動機制提供了便利.陳彧在《基于超聲波檢測的漢語普通話基礎(chǔ)元音發(fā)音的舌體運動研究》中利用超聲波檢測技術(shù)所得到的不同發(fā)音下的舌體形態(tài)數(shù)據(jù),如圖9所示,該圖為舌頭超聲成像圖,同時結(jié)合發(fā)音過程的頭動、唇形變化數(shù)據(jù),對四名發(fā)音人漢語普通話七個基本元音/a/、/i/、/u/、//、/y/、//、//發(fā)音 S2 至 S4 階段的舌體形態(tài)及運動方式從原始圖像觀察、數(shù)據(jù)分析、發(fā)音音系學(xué)考察和發(fā)音生理空間分布等角度進行分析[12].

        圖9 舌頭超聲成像圖

        4 唇形研究

        語音產(chǎn)生的聲學(xué)理論指出,唇型作為聲道與外界空氣耦合的界面,對語音的產(chǎn)生有著重要的作用,它是惟一視覺上完全可見的發(fā)音器官.目前微軟、中國科學(xué)院自動化所等研究機構(gòu)研發(fā)的Talkinghead、教學(xué)軟件、動畫片等讓唇形研究不僅從二維逐漸發(fā)展到了三維,而且唇形輪廓提取、唇形建模以及唇讀等研究領(lǐng)域在語音生理研究中也具有重要的意義.

        圖10 avi唇部顯示圖(左)與唇輪廓圖(右)圖11基于運動捕捉的三維唇形模型

        唇形輪廓的準確提取是唇形合成的基礎(chǔ),潘曉聲從多個領(lǐng)域?qū)Υ叫巫兓c語音之間的關(guān)系作了初步的探索,在《漢語普通話唇形協(xié)同發(fā)音及可視語音感知研究》一文中利用漢語普通話的二維唇形錄像和三維唇形運動捕獲數(shù)據(jù),分別從言語產(chǎn)生、言語感知和言語工程這三個方面研究唇形變化與語音之間的關(guān)系,而且實現(xiàn)了基于Matlab的唇形參數(shù)提取平臺,如圖10所示,圖10(左)為唇部顯示,圖10(右)為唇輪廓圖.該平臺實現(xiàn)的主要功能包括:文件讀取,關(guān)鍵點標記,文件播放及顯示,參數(shù)提取及數(shù)據(jù)存儲,考慮到邊緣檢測的局限性,該平臺采用手動標記的方法標記關(guān)鍵點,得到了較理想的唇形曲線[13].

        嘴部動畫是人臉動畫中極其重要、不可或缺的一環(huán),只有嘴部動畫與語音及其他神態(tài)表情要素坐標一致,才能使人臉動畫展現(xiàn)出逼真、自然的動畫效果.因此,對唇部的建模是最為關(guān)鍵的一個環(huán)節(jié).潘曉聲利用三維運動捕捉技術(shù)和唇形模型建模技術(shù)進行的漢語普通話元音三維唇形動態(tài)模型的研究,如圖11所示,利用運動捕捉技術(shù)進行唇形上漢語元音運動數(shù)據(jù)的采集,并對這些數(shù)據(jù)進行處理;利用處理后的實時數(shù)據(jù)進行漢語元音的唇形靜態(tài)模型的建立;最后用創(chuàng)建好的靜態(tài)模型導(dǎo)出唇形動態(tài)模型.由于實際舌頭和嘴唇的顏色較為接近,絕大多數(shù)算法無法精確提取出內(nèi)唇線.因此,如何正確提取唇形的內(nèi)輪廓是未來該領(lǐng)域要研究的重點.

        王安紅在《普通話語音視位系統(tǒng)初探》一文中建立一個初步的普通話視位系統(tǒng),文中基于一個小規(guī)模的普通話語音唇型參數(shù)數(shù)據(jù)庫.通過一系列統(tǒng)計分析,歸納出一套漢語普通話視位系統(tǒng)[14].劉培楨在《基于發(fā)音特征DBN模型的嘴部動畫合成》—文中提出了結(jié)合發(fā)音特征的多流動態(tài)貝葉斯網(wǎng)絡(luò)語音模型(AF_AVDBN),使得發(fā)音特征(如嘴唇、舌體和聲門/軟腭)之間可以異步,并推導(dǎo)了基于極大似然估計原理的嘴部最優(yōu)參數(shù)學(xué)習(xí)算法[15].該方法的遠遠由于傳統(tǒng)的方法,能夠更好地應(yīng)用于人機交互等領(lǐng)域.楊宏在《漢語發(fā)音的唇形可視化處理方法研究》以唇形為基礎(chǔ),用文本作為驅(qū)動源,研究了漢語發(fā)咅的唇形可視化處理方法,該文章利用預(yù)先錄制視頻中的視位樣本結(jié)合光流法實現(xiàn)了二維人臉唇形動畫的建模;其次在基于Waters肌肉模型的基礎(chǔ)上,提出了一種新的由參數(shù)控制的三維唇區(qū)肌肉模型,實現(xiàn)了三維人臉唇形動畫的建模,針對特定人的唇形動畫建模上取得了較好的結(jié)果[16].梁曉昀在《語音驅(qū)動三維唇形動畫算法研究》分析了漢語普通話和英語的發(fā)音規(guī)律,使用高斯混合模型算法和基于有向無環(huán)圖的支持向量機多分類算法(DAG-SVM)代替神經(jīng)網(wǎng)絡(luò)進行音素分類,并對DAG-SVM進行了改進;最后,利用DirectX中的三維網(wǎng)格漸變動畫技術(shù)實現(xiàn)了通用性強且具有真實感的三維人臉唇形動畫,與分類算法相結(jié)合,編寫了圖形界面[17].

        唇讀技術(shù)擁有重大的研究價值和極為廣泛的應(yīng)用前景.近年來越來越多的唇部定位和唇動識別算法被提出,然而這些算法的研究主要局限在正面理想光照條件下,而實際的唇讀識別系統(tǒng)都將工作在光照變化的應(yīng)用環(huán)境中.因此,張宏軍在《可變光照下的唇讀識別技術(shù)研究》一文建立了光照可變的唇讀數(shù)據(jù)庫,提出了一種“三段式”唇部定位算法,來增強唇動特征提取算法的魯棒性[18].

        5 結(jié)語

        本文系統(tǒng)的闡述了目前國內(nèi)基于圖像的語音生理研究進展.語音生理研究在生物機器人、智能型語言、可視化交互教學(xué)系統(tǒng)等各個領(lǐng)域具有重要的研究價值.因此,在以下方面需要進一步加強:①在設(shè)備方面,比如提高核磁共振成像(MRI)設(shè)備的速度等.②在圖像處理方面,嘗試新算法,引入深度學(xué)習(xí)新技術(shù),建立新的模型.③開拓視眼,發(fā)掘新的有意義的視角,以此來幫助人們對言語產(chǎn)生的深入研究,促進現(xiàn)代語音學(xué)的發(fā)展和進步,進而推動我國語音學(xué)理論和應(yīng)用研究的發(fā)展.

        [1] 孔江平,論語言發(fā)聲[M].中央民族大學(xué)出版社,2001.

        [2] 王士元,彭剛.語言語音與技術(shù)[M].上海:上海教育出版社,2006.

        [3] 李永宏,胡阿旭,呂士良.言語產(chǎn)生的生理研究方法[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),2012,(3).

        [4] 孔江平,汪高武,李永宏等.漢語普通話發(fā)音教程[M].香港:香港大學(xué)教育學(xué)院出版社,2014.

        [5] 譚晶晶,李永宏,孔江平.漢語普通話不同文體朗讀時的呼吸重置特征[J],清華大學(xué)學(xué)報,2008,(4).

        [6] KongJiangping.Laryngeal Dynamics and Physiological Model[J],Peking University Press.2007.

        [7] Li Yonghong,KongJiangping,WangGaowu,DingLijuan.Based on X-ray Mandarin Speech Physiological-Learning System.2011 International Conference on Computer,Electrical,and Systems Sciences,and Engineering.2011.4,412-415.

        [8] 汪高武.漢語普通話聲道調(diào)音模型研究[D].北京大學(xué),2010.

        [9] 宋嬋.人體發(fā)音過程中的三維聲道幾何建模[D].天津大學(xué),2013.

        [10] 劉杰.三維幾何發(fā)音模型的構(gòu)建與控制[D].天津大學(xué),2015.

        [11] 王宇光.基于核磁共振成像的漢語普通話元音/i,(s)i,(sh)i/的研究[D].天津大學(xué),2012.

        [12] 陳彧.基于超聲波檢測的漢語普通話基礎(chǔ)元音發(fā)音的舌體運動研究[D].南開大學(xué),2011.

        [13] 潘曉聲.漢語普通話唇形協(xié)同發(fā)音及可視語音感知研究[D].北京大學(xué),2011.

        [14] 王安紅.普通話語音視位系統(tǒng)初探[D].北京語言大學(xué),2000.

        [15] 劉培楨,蔣冬梅,RAVYSE Ilse,等.基于發(fā)音特征DBN模型的嘴部動畫合成[J].科學(xué)技術(shù)與工程,2010,10(14):3335-3339.

        [16] 楊宏.漢語發(fā)音的唇形可視化處理方法研究[D].湖南師范大學(xué),2013.

        [17] 梁曉昀.語音驅(qū)動三維唇形動畫算法研究[D].北京理工大學(xué),2016.

        [18] 張宏軍.可變光照下的唇讀識別技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2016.

        猜你喜歡
        唇形聲道普通話
        核電廠CRF循環(huán)水泵IHC唇形軸封運行可靠性分析及優(yōu)化研究
        9.7.8聲道、造價250余萬 James極品影院賞析
        為發(fā)燒需求打造的11聲道后級 Orisun(傲力聲)OA-S11
        漢韓復(fù)合元音對比研究
        下一代(2020年6期)2020-01-13 05:13:16
        實現(xiàn)從7.2到11.2聲道的飛躍 Onkyo(安橋)TX-RZ830
        噴油器唇形密封圈結(jié)構(gòu)強度分析
        我教爸爸說普通話
        如果古人也說普通話
        17
        考慮覆蓋率下時差式超聲流量計的平面聲道模型*
        免费无码成人av在线播放不卡| 91精品国产高清久久久久| 欧美精品v欧洲高清| 国产午夜福利av在线麻豆| 少妇激情高潮视频网站| 亚洲av日韩精品久久久久久a| 3d动漫精品一区二区三区| 国产成人v爽在线免播放观看| 亚洲精品2区在线观看| 亚洲乱码中文字幕第一页| 国产精品日日做人人爱| 日韩少妇内射免费播放| 日韩视频第二页| av亚洲在线一区二区| 国产尤物自拍视频在线观看| 亚洲中文字幕舔尻av网站| 牛牛在线视频| 欧美真人性做爰一二区| 亚洲最大av免费观看| 亚洲av男人的天堂在线| 亚洲伦理第一页中文字幕| 一本大道无码人妻精品专区| 狠狠色婷婷久久一区二区| 少妇的诱惑免费在线观看| 久久精品国产黄片一区| 亚洲综合网站久久久| 夜夜揉揉日日人人| 精品人妻av一区二区三区不卡| 二区免费在线视频观看| 国产夫妇肉麻对白| 亚洲精华国产精华液的福利| 一本一本久久久久a久久综合激情| 久久综合九色综合久久久| 日产精品99久久久久久| 美女视频黄的全免费的| 国产AV秘 无码一区二区三区 | 日本japanese丰满多毛| 996久久国产精品线观看| 国产亚洲精品综合99久久| 国产亚洲成人精品久久| 久久国产精品精品国产色婷婷|