亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于圖像的語音生理研究進展

2018-06-14 09:31:58寇贇

西北民族大學(xué)學(xué)報(自然科學(xué)版) 2018年1期

寇贇

(西北民族大學(xué) 中國民族語言文字信息技術(shù)重點實驗室，甘肅蘭州 730030)

0 引言

隨著計算機科學(xué)的不斷發(fā)展，語音生理研究逐漸成為語音學(xué)研究的一個重要方面.因此，語音生理研究及其應(yīng)用在眾多學(xué)科中得到了迅速的發(fā)展.語音生理研究的方法通常從聲音信號、圖像信號、生理信號三個方面展開討論，而圖像信號因為計算機控制的數(shù)字成像可以達到9000幀/每秒，甚至更高，比如，可以達到反應(yīng)聲帶一個開合周期過程所需要的圖像幀數(shù)，而且圖像信號比較直觀，特別是對發(fā)音生理器官的運動能夠用圖像處理的方法模擬，從而可以應(yīng)用到教學(xué)等各個方面[1].

語音的產(chǎn)生是肺、聲帶、聲道以及唇四個生理器官協(xié)同作用而產(chǎn)生的生理運動[2].肺的發(fā)聲功能主要是產(chǎn)生壓縮氣體，通過氣管傳送到聲音生成系統(tǒng)；聲帶是伸展在喉前、后端的褶肉，通過產(chǎn)生激勵來促使音產(chǎn)生；聲道是聲門至嘴唇的所有發(fā)聲器官，也是一根具有非均勻截面的聲管；嘴唇的生理運動便產(chǎn)生聲波[3].語音的形成流程可以概括為：空氣通過肺部呼出通過聲帶產(chǎn)生激勵進入聲道，由嘴輻射出聲波，便產(chǎn)生了語音.本文從發(fā)音動力器官、嗓音聲源、聲道、唇形四個方面來闡述目前國內(nèi)基于圖像信號的語音生理研究的進展.

1 發(fā)聲動力器官——肺

發(fā)聲的動力是借用人類的呼吸系統(tǒng)。呼吸原本的功能是維持人類的生命，而不是產(chǎn)生語言.肺像是兩個封閉的袋子，左右對稱，由肺泡組成.從生理的角度，呼吸系統(tǒng)分為呼吸道、肺、胸腔、腹部肌肉群.

目前，用于呼吸動力研究的設(shè)備主要是氣流氣壓計和呼吸帶.氣流氣壓計可以測發(fā)音時的氣流速度、氣流量、氣壓值和聲門下壓力等.呼吸綁帶是采集胸圍或腹圍的變化來研究語音的韻律特性，可以研究不同的語言和不同文體的呼吸韻律模式.在圖像方面，孔江平教授利用MRI拍攝了肺的橫切面和剖面的實時發(fā)音運動圖像，如圖1(左)所示，該圖為肺部呼吸運動截取的某一幀.該幀利用小波變換對發(fā)聲動力器官肺部影像做分解重構(gòu)處理分析預(yù)處理，對處理后的圖像進行canny算子邊緣檢測，分析結(jié)果如圖1(右)所示，產(chǎn)生的動態(tài)影像可以清晰觀察到肺部器官的運動狀態(tài)[4-5].對發(fā)音動力器官圖像的分析研究，可以實現(xiàn)呼吸氣動態(tài)和發(fā)聲動力來源的可視化效果.另外，合適的圖像處理技術(shù)對發(fā)音動力器官圖像進行處理，使人們可以有效地分辨出人體器官的大小和細節(jié)，為后續(xù)深入研究學(xué)習(xí)提供良好的圖像素材。

圖1 MRI拍攝某一幀(左)圖1 canny算子檢測結(jié)果圖(右)

2 嗓音聲源

現(xiàn)代語音學(xué)將語音的產(chǎn)生分為調(diào)音和發(fā)聲兩個部分，隱藏在喉頭中的聲帶是振動器官的核心，上通咽喉下接氣管.聲帶是兩片復(fù)雜分層結(jié)構(gòu)的振動器官，兩片聲帶之間的通路叫做聲門.通過對嗓音聲源的研究，可以了解發(fā)音時的聲帶振動情況，從而能夠更好地認識語音發(fā)聲的生理機制、語音發(fā)聲的微觀運動、各種發(fā)聲類型的特性和語音聲學(xué)信號的關(guān)系.

最新的高速數(shù)字成像系統(tǒng)HSP (High-speed photography)可以達到每秒百萬幀的速度，采集圖像速度比聲帶振動速度快的多，該設(shè)備成像結(jié)果如圖2所示，可以觀察到聲帶的起止，非周期性振動，非常短的嗓音振動片斷和痙攣.孔江平教授在《Laryngeal Dynamics and Physiological Model》中對常見的發(fā)聲類型和漢語普通話四聲的聲帶振動方式進行了研究，并建立了高速數(shù)字成像的分析系統(tǒng)[6].該系統(tǒng)先對聲門錄像進行圖像處理，如圖3所示，為了處理的方便，給一幀圖像加了一個小窗口用來確定聲門的面積，經(jīng)過調(diào)節(jié)對比度和抽取聲門面積等方法最終得到動態(tài)的聲門面積.這是最簡單的過程，因為實際的高速數(shù)字視頻會出現(xiàn)光線灰暗、抖動和漂移等現(xiàn)象，都需要進一步處理才能得到較好的動態(tài)聲門.通過提取出視頻信號中聲門的面積，根據(jù)面積提取有用的語音參數(shù)，如，基頻、共振峰、開商、速度商、振幅等，然后建立嗓音生理模型，可以合成出不同發(fā)聲類型的聲源.

圖2高速數(shù)字成像圖圖3聲門錄像圖像處理結(jié)果圖

3 聲道

聲道是語音生理中最重要的發(fā)音器官。聲道是從聲帶開始到嘴唇、語音產(chǎn)生傳播的管道，由聲門、喉管、會厭軟骨、咽腔、軟腭器官等器官組成，具體結(jié)構(gòu)如圖4所示.

聲道藏在人體內(nèi)部，給觀測帶來了很大的困難.目前有X光、核磁共振技術(shù)(MRI)、超聲三種主要的聲道測量方法被廣泛應(yīng)用.世界上著名的X光數(shù)據(jù)庫有英語、法語、瑞典語和日語數(shù)據(jù)庫.國內(nèi)國際惟一的漢語普通話的X光錄像由中國社會科學(xué)院語言研究所和三〇一醫(yī)院放射科聯(lián)合錄制(一九八五年七月)，后由北京語言學(xué)院出版社出版，錄像帶名稱為《普通話發(fā)音器官動作特性(The articulatory movements of standard Chinese)》[7].由于 X 光錄像對軟組織成像不好，聲道邊緣比較模糊，所以對模糊邊緣的提取也是圖形圖像處理領(lǐng)域的經(jīng)典問題.通過圖像處理技術(shù)或者手動標記的方法提取每個語音樣本的聲道邊緣曲線，如圖5所示，繪制成連續(xù)的線條圖，做成可連續(xù)播放的視頻文件，可以計算出聲道面積并合成語音，可應(yīng)用于漢語普通話語音教學(xué)等方面.

圖4人體的聲道系統(tǒng)結(jié)構(gòu)圖(引自Fitch1994)圖5 X光標記圖

核磁共振成像技術(shù)(MRI)能夠清晰地看到聲道器官的輪廓，并且對人不會產(chǎn)生傷害和不適，因此越來越頻繁的應(yīng)用于語音生成領(lǐng)域.汪高武在《漢語普通話聲道調(diào)音模型研究》一文中主要采取圖像預(yù)處理，手工標注與程序結(jié)合的方法減少勞動量，并將聲道分成幾個部位分別處理，該文中將聲道劃分為上下唇、硬腭、軟腭、下頜、舌、咽腔前后壁、喉腔前后壁9個部分，各用一條曲線來標記，如圖6所示，每條曲線由若干個關(guān)鍵點經(jīng)過三次樣條函數(shù)插值生成，這樣可以通過移動關(guān)鍵點來修改整個曲線的形狀，使之與聲道邊緣盡量一致[8].宋嬋在《人體發(fā)音過程中的三維聲道幾何建?！芬晃闹袕膸缀蔚慕嵌热?gòu)建三維幾何聲道模型，使得模型更加適用于對實時性要求較高的應(yīng)用，文章對中文核磁共振數(shù)據(jù)庫中一個受試者的十個元音數(shù)據(jù)進行研究，通過圖像預(yù)處理，并對MRI錄像進行數(shù)據(jù)標記，標記如圖7所示，進行三維網(wǎng)格量化，并使用主成分分析法和多元線性回歸法對三維數(shù)據(jù)進行建模分析，得到發(fā)音器官的主要控制參數(shù)[9].劉杰在《三維幾何發(fā)音模型的構(gòu)建與控制》一文中采集了CBCT(錐形束 CT)的數(shù)據(jù)來補充骨質(zhì)結(jié)構(gòu)的信息，進行上下顎的填補，通過MRI采集得到的發(fā)音器官的數(shù)據(jù)庫，對構(gòu)建出的聲道模型進而分析不同發(fā)音帶來的聲道發(fā)音器官形狀的變化規(guī)律[10].

圖6 MRI錄像聲道邊緣的提取圖7 MRI錄像標記的發(fā)音生理器官

另外，王宇光在《基于核磁共振成像的漢語普通話元音/i，(s)i，(sh)i/的研究》一文中利用核磁共振技術(shù)分析從聲道的形態(tài)學(xué)和聲學(xué)的角度全面分析三個元音聲道形態(tài)的差異和形態(tài)差異引起的共振峰差異，及聲道分支對于不同元音的聲學(xué)影響，利用圖像處理領(lǐng)域中的區(qū)域增長法提取出三個元音的三維聲道數(shù)據(jù)，并對填充好牙齒的聲道進行閾值分割提取出聲道的形狀和聲道對應(yīng)的面積函數(shù)，如圖8所示，首先手動在聲門處選擇兩點，如圖8(a)一條聲道線被選中了，圖8(b)是利用區(qū)域增長法結(jié)果圖，圖8(c)計算出每一層像素點的中點，用一條樣條曲線來逼近這些所有被計算出來的中點，則聲道中位線被確定下來了，圖8(d)在這條中位線上，每隔相同間隔 2 mm，在聲道中位線上做一條中心線[11].

圖8 聲道面積函數(shù)提取

超聲技術(shù)一般使用顯示組織特征的方法，測量器官的徑線，以判定其大小.言語過程中的各個發(fā)音器官的變化，都可以被該技術(shù)實時的監(jiān)測，并以圖像的形式展現(xiàn)，這為認知人類發(fā)聲時聲腔、胸腔等器官的運動機制提供了便利.陳彧在《基于超聲波檢測的漢語普通話基礎(chǔ)元音發(fā)音的舌體運動研究》中利用超聲波檢測技術(shù)所得到的不同發(fā)音下的舌體形態(tài)數(shù)據(jù)，如圖9所示，該圖為舌頭超聲成像圖，同時結(jié)合發(fā)音過程的頭動、唇形變化數(shù)據(jù)，對四名發(fā)音人漢語普通話七個基本元音/a/、/i/、/u/、//、/y/、//、//發(fā)音 S2 至 S4 階段的舌體形態(tài)及運動方式從原始圖像觀察、數(shù)據(jù)分析、發(fā)音音系學(xué)考察和發(fā)音生理空間分布等角度進行分析[12].

圖9 舌頭超聲成像圖

4 唇形研究

語音產(chǎn)生的聲學(xué)理論指出，唇型作為聲道與外界空氣耦合的界面，對語音的產(chǎn)生有著重要的作用，它是惟一視覺上完全可見的發(fā)音器官.目前微軟、中國科學(xué)院自動化所等研究機構(gòu)研發(fā)的Talkinghead、教學(xué)軟件、動畫片等讓唇形研究不僅從二維逐漸發(fā)展到了三維，而且唇形輪廓提取、唇形建模以及唇讀等研究領(lǐng)域在語音生理研究中也具有重要的意義.

圖10 avi唇部顯示圖(左)與唇輪廓圖(右)圖11基于運動捕捉的三維唇形模型

唇形輪廓的準確提取是唇形合成的基礎(chǔ)，潘曉聲從多個領(lǐng)域?qū)Υ叫巫兓c語音之間的關(guān)系作了初步的探索，在《漢語普通話唇形協(xié)同發(fā)音及可視語音感知研究》一文中利用漢語普通話的二維唇形錄像和三維唇形運動捕獲數(shù)據(jù)，分別從言語產(chǎn)生、言語感知和言語工程這三個方面研究唇形變化與語音之間的關(guān)系，而且實現(xiàn)了基于Matlab的唇形參數(shù)提取平臺，如圖10所示，圖10(左)為唇部顯示，圖10(右)為唇輪廓圖.該平臺實現(xiàn)的主要功能包括：文件讀取，關(guān)鍵點標記，文件播放及顯示，參數(shù)提取及數(shù)據(jù)存儲，考慮到邊緣檢測的局限性，該平臺采用手動標記的方法標記關(guān)鍵點，得到了較理想的唇形曲線[13].

嘴部動畫是人臉動畫中極其重要、不可或缺的一環(huán)，只有嘴部動畫與語音及其他神態(tài)表情要素坐標一致，才能使人臉動畫展現(xiàn)出逼真、自然的動畫效果.因此，對唇部的建模是最為關(guān)鍵的一個環(huán)節(jié).潘曉聲利用三維運動捕捉技術(shù)和唇形模型建模技術(shù)進行的漢語普通話元音三維唇形動態(tài)模型的研究，如圖11所示，利用運動捕捉技術(shù)進行唇形上漢語元音運動數(shù)據(jù)的采集，并對這些數(shù)據(jù)進行處理；利用處理后的實時數(shù)據(jù)進行漢語元音的唇形靜態(tài)模型的建立；最后用創(chuàng)建好的靜態(tài)模型導(dǎo)出唇形動態(tài)模型.由于實際舌頭和嘴唇的顏色較為接近，絕大多數(shù)算法無法精確提取出內(nèi)唇線.因此，如何正確提取唇形的內(nèi)輪廓是未來該領(lǐng)域要研究的重點.

王安紅在《普通話語音視位系統(tǒng)初探》一文中建立一個初步的普通話視位系統(tǒng)，文中基于一個小規(guī)模的普通話語音唇型參數(shù)數(shù)據(jù)庫.通過一系列統(tǒng)計分析，歸納出一套漢語普通話視位系統(tǒng)[14].劉培楨在《基于發(fā)音特征DBN模型的嘴部動畫合成》—文中提出了結(jié)合發(fā)音特征的多流動態(tài)貝葉斯網(wǎng)絡(luò)語音模型(AF_AVDBN)，使得發(fā)音特征(如嘴唇、舌體和聲門/軟腭)之間可以異步，并推導(dǎo)了基于極大似然估計原理的嘴部最優(yōu)參數(shù)學(xué)習(xí)算法[15].該方法的遠遠由于傳統(tǒng)的方法，能夠更好地應(yīng)用于人機交互等領(lǐng)域.楊宏在《漢語發(fā)音的唇形可視化處理方法研究》以唇形為基礎(chǔ)，用文本作為驅(qū)動源，研究了漢語發(fā)咅的唇形可視化處理方法，該文章利用預(yù)先錄制視頻中的視位樣本結(jié)合光流法實現(xiàn)了二維人臉唇形動畫的建模；其次在基于Waters肌肉模型的基礎(chǔ)上，提出了一種新的由參數(shù)控制的三維唇區(qū)肌肉模型，實現(xiàn)了三維人臉唇形動畫的建模，針對特定人的唇形動畫建模上取得了較好的結(jié)果[16].梁曉昀在《語音驅(qū)動三維唇形動畫算法研究》分析了漢語普通話和英語的發(fā)音規(guī)律，使用高斯混合模型算法和基于有向無環(huán)圖的支持向量機多分類算法(DAG-SVM)代替神經(jīng)網(wǎng)絡(luò)進行音素分類，并對DAG-SVM進行了改進；最后，利用DirectX中的三維網(wǎng)格漸變動畫技術(shù)實現(xiàn)了通用性強且具有真實感的三維人臉唇形動畫，與分類算法相結(jié)合，編寫了圖形界面[17].

唇讀技術(shù)擁有重大的研究價值和極為廣泛的應(yīng)用前景.近年來越來越多的唇部定位和唇動識別算法被提出，然而這些算法的研究主要局限在正面理想光照條件下，而實際的唇讀識別系統(tǒng)都將工作在光照變化的應(yīng)用環(huán)境中.因此，張宏軍在《可變光照下的唇讀識別技術(shù)研究》一文建立了光照可變的唇讀數(shù)據(jù)庫，提出了一種“三段式”唇部定位算法，來增強唇動特征提取算法的魯棒性[18].

5 結(jié)語

本文系統(tǒng)的闡述了目前國內(nèi)基于圖像的語音生理研究進展.語音生理研究在生物機器人、智能型語言、可視化交互教學(xué)系統(tǒng)等各個領(lǐng)域具有重要的研究價值.因此，在以下方面需要進一步加強：①在設(shè)備方面，比如提高核磁共振成像(MRI)設(shè)備的速度等.②在圖像處理方面，嘗試新算法，引入深度學(xué)習(xí)新技術(shù)，建立新的模型.③開拓視眼，發(fā)掘新的有意義的視角，以此來幫助人們對言語產(chǎn)生的深入研究，促進現(xiàn)代語音學(xué)的發(fā)展和進步，進而推動我國語音學(xué)理論和應(yīng)用研究的發(fā)展.

[1] 孔江平，論語言發(fā)聲[M].中央民族大學(xué)出版社，2001.

[2] 王士元，彭剛.語言語音與技術(shù)[M].上海：上海教育出版社，2006.

[3] 李永宏，胡阿旭，呂士良.言語產(chǎn)生的生理研究方法[J].西北民族大學(xué)學(xué)報(自然科學(xué)版)，2012，(3).

[4] 孔江平，汪高武，李永宏等.漢語普通話發(fā)音教程[M].香港：香港大學(xué)教育學(xué)院出版社，2014.

[5] 譚晶晶，李永宏，孔江平.漢語普通話不同文體朗讀時的呼吸重置特征[J]，清華大學(xué)學(xué)報，2008，(4).

[6] KongJiangping.Laryngeal Dynamics and Physiological Model[J]，Peking University Press.2007.

[7] Li Yonghong，KongJiangping，WangGaowu，DingLijuan.Based on X-ray Mandarin Speech Physiological-Learning System.2011 International Conference on Computer，Electrical，and Systems Sciences，and Engineering.2011.4，412-415.

[8] 汪高武.漢語普通話聲道調(diào)音模型研究[D].北京大學(xué)，2010.

[9] 宋嬋.人體發(fā)音過程中的三維聲道幾何建模[D].天津大學(xué)，2013.

[10] 劉杰.三維幾何發(fā)音模型的構(gòu)建與控制[D].天津大學(xué)，2015.

[11] 王宇光.基于核磁共振成像的漢語普通話元音/i，(s)i，(sh)i/的研究[D].天津大學(xué)，2012.

[12] 陳彧.基于超聲波檢測的漢語普通話基礎(chǔ)元音發(fā)音的舌體運動研究[D].南開大學(xué)，2011.

[13] 潘曉聲.漢語普通話唇形協(xié)同發(fā)音及可視語音感知研究[D].北京大學(xué)，2011.

[14] 王安紅.普通話語音視位系統(tǒng)初探[D].北京語言大學(xué)，2000.

[15] 劉培楨，蔣冬梅，RAVYSE Ilse，等.基于發(fā)音特征DBN模型的嘴部動畫合成[J].科學(xué)技術(shù)與工程，2010，10(14)：3335-3339.

[16] 楊宏.漢語發(fā)音的唇形可視化處理方法研究[D].湖南師范大學(xué)，2013.

[17] 梁曉昀.語音驅(qū)動三維唇形動畫算法研究[D].北京理工大學(xué)，2016.

[18] 張宏軍.可變光照下的唇讀識別技術(shù)研究[D].哈爾濱工業(yè)大學(xué)，2016.