亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于超聲成像的語言研究綜述

        2019-11-26 06:03:58張金溪李永宏
        關(guān)鍵詞:軟腭舌體元音

        張金溪,李永宏,寇 贇

        (1.蘭州財經(jīng)大學 商務傳媒學院,甘肅 蘭州 730020;2.西北民族大學 中國民族語言文字信息技術(shù)教育部重點實驗室,甘肅 蘭州 730030)

        一、引言

        語言研究中可以借助相關(guān)實驗設備[1],在語言認知方面,可以采用肌電腦電儀、眼動儀等設備,結(jié)合語言學、認知科學和計算科學多學科、多方位地探討語言產(chǎn)生和語言習得過程中的腦機制;在語音生理方面,可以采用氣流氣壓計、喉頭儀、呼吸帶傳感器、鼻流計、動態(tài)腭位儀、超聲記錄分析儀、三維運動捕捉等設備獲取發(fā)音時的語音、嗓音、呼吸、肌電、氣流、腭位、鼻流、舌位、唇形多種生理信號,進行語音生理多模態(tài)的研究;在語音聲學和口傳文化方面,可以采用錄音設備、非線性編輯器、專業(yè)攝像機和提詞器等設備,進行語音資源庫數(shù)字化建設、語音和口傳文化的聲學分析。

        長期以來,由于受到實驗方法和實驗設備的局限,很多語言中的語言現(xiàn)象沒有被客觀、科學、合理的描述出來,采用超聲成像技術(shù)能夠一定程度上解決長期存在的描述性問題,因此一些學者較為注重使用超聲成像技術(shù)來進行語言研究。在國外,早在20世紀60年代末,超聲波就被用于語音研究。隨后的幾十年中,超聲成像技術(shù)被實際應用到語言學中的語言教學、二語習得、田野調(diào)查、音系學、方言和語言接觸、協(xié)同發(fā)音、語言治療、語言病理學、發(fā)音生理、母語對學習樂器影響以及言語工程等眾多領(lǐng)域。

        目前為止,國內(nèi)尚未發(fā)現(xiàn)有學者把超聲成像技術(shù)應用到少數(shù)民族語言研究中。而且十多年來,只有極少數(shù)研究人員把超聲成像技術(shù)應用在漢語的生理語音學和言語工程領(lǐng)域,且發(fā)表的相關(guān)文章也不多。隨著人工智能、機器學習的發(fā)展,新的圖像處理技術(shù)、新的實驗方法以及實驗設備的出現(xiàn)將會推動實驗語言學的發(fā)展進步,全面改善與提升超聲成像技術(shù)在語言研究方面的應用,通過超聲成像技術(shù)來分析語言現(xiàn)象的研究將會越來越多。因此,超聲成像技術(shù)將越來越多的被應用在語言研究中,可以用來研究的領(lǐng)域也會越來越廣泛,研究的問題也會更加深入。先進的實驗設備和實驗方法對解釋語言現(xiàn)象發(fā)揮著重要作用,尤其是在語音生理方面的研究,對我們理解人類言語產(chǎn)生機制的原理有著重要的理論和實踐意義。

        二、超聲成像設備

        早在20世紀60年代末,超聲就被用于語音研究[2]、語言訓練[3]。超聲能夠捕捉動態(tài)的舌形,使其能夠研究舌根、矢狀溝、元音和輔音之間的相互作用等難以理解的語言現(xiàn)象。隨著技術(shù)的發(fā)展,超聲從開始的一維變成二維(B模式,圖1是實驗室和臨床上廣泛使用的超聲設備),發(fā)展到現(xiàn)在的三維(時間分辨率對于測量大多數(shù)自然語言來說還太低)。診斷超聲的高頻(3-16MHz)聲波很容易穿透皮膚、脂肪和肌肉(見圖2),但它們會被骨骼吸收并反射出空氣的邊界。為了盡可能全面的看到舌頭,超聲探測器需要緊貼頸部以下的下巴,所以聲波從下面穿透舌頭(見圖3)。探頭聲波穿過下頜骨和舌骨,通過舌頭肌肉表面的空氣進行反射。根據(jù)探頭的方向,可以獲得正中矢狀或冠狀圖像,圖4顯示了使用超聲波獲得的典型正中矢狀舌形圖像[4],其中舌根(Tongue root)、舌骨陰影(Hyoid shadow)在左邊,舌尖(Tongue tip)、下頜骨陰影(Jaw shadow)在右邊。

        圖1 中國民族語言文字信息技術(shù)教育部重點實驗室的超聲設備

        圖2舌體剖面圖 圖3超聲波從下面穿透舌頭 圖4/z/的正中矢狀舌曲線的圖像

        超聲成像技術(shù)和目標跟蹤技術(shù)可以對語言發(fā)音時的舌體運動進行動態(tài)成像記錄,而這些技術(shù)設備一般都在實驗室的環(huán)境中使用。便攜式超聲被證明是一種非常有用的實地語言研究工具。圖5便攜式超聲[5]和圖6基于個人電腦的超聲[6]、數(shù)字視頻記錄設備、圖像處理分析軟件的可用性及其較低的價格為語言語音的田野調(diào)查研究成為可能。Gick B,Bird S[7]討論了在野外相關(guān)應用中使用超聲波進行語言成像的技術(shù),研究確定了在現(xiàn)場環(huán)境中控制頭部/傳感器運動的重要因素,研究了在不同的語音背景下頭部運動的范圍以及舌頭組織壓迫對舌頭圖像數(shù)據(jù)的影響。結(jié)果表明,采用一種簡單的方法包括頭枕或曲面以及固定的傳感器,可以在現(xiàn)場收集可靠的語言超聲數(shù)據(jù)。

        圖5便攜式超聲設備 圖6微型超聲系統(tǒng)

        語言中的大量研究可以借助超聲舌成像(Ultrasound Tongue Imaging)實時反饋技術(shù)觀察到發(fā)音時的舌體運動情況,讓發(fā)音人比較容易的調(diào)整舌位,糾正發(fā)音,也可以根據(jù)舌位信息解釋語言中某些音的發(fā)音現(xiàn)象。同時,可以將超聲舌成像保存成圖像視頻文件,根據(jù)后期的計算機圖像處理技術(shù)很容易獲取舌位的高低、前后極值點數(shù)據(jù),舌位最高點與硬腭距離,舌根松緊程度,舌面彎曲度等信息,通過這些數(shù)據(jù)可以進一步研究發(fā)音生理模型,但是其中最為關(guān)鍵的是如何獲取高質(zhì)量的舌形輪廓。獲取舌形輪廓之前先把超聲舌像視頻處理成一張張的圖片,然后從每一張圖片中獲取舌形輪廓,有兩種方法,一種方法是手工標記,在舌線的位置用鼠標點擊打點,每張圖片上標記150~200點;另一種方法是自動舌形輪廓跟蹤(Tongue tracking)算法,除了收費的軟件AAA(Articulate Assistant Advanced)[8]之外,還有4個免費的軟件,分別是美國馬里蘭大學的EdgeTrak[9],美國北卡州立大學的Palatoglossotron[10],加拿大西蒙弗雷澤大學的TongueTrack[11]以及加拿大多倫多大學的Ultra-CATS[12]。這幾個軟件各有優(yōu)缺點,要根據(jù)具體的實驗環(huán)境進行選擇使用,也可以根據(jù)這些軟件的優(yōu)缺點,使用語言科學研究的Matlab[13]搭建適合自己研究方向的超聲舌像處理平臺。

        三、超聲成像在發(fā)音生理研究中的應用

        生理語音學(Physiological Phonetics)是研究有關(guān)語音產(chǎn)生和感知的一門學科。語音的產(chǎn)生依靠的是發(fā)音器官,我們經(jīng)常提及的發(fā)音生理研究就是借助實驗設備對發(fā)音器官展開研究。人的發(fā)音器官大致可分為3個部分:喉下、喉部、喉上。其中:喉下有用來呼吸并且也作為發(fā)音能源的各器官,包括氣管、肺、胸廓、橫膈膜和腹??;喉部是聲源器官,包括喉頭、聲帶;喉上是用共鳴作用或阻礙作用來調(diào)節(jié)聲音的各器官,包括口腔中各部位及鼻腔。而口腔中又包含了3個部分:口壁(包括雙唇、上下齒、齒齦、硬腭、軟腭、小舌)、舌(分為舌尖、舌葉、舌面和舌根)以及咽喉。由于超聲成像的特殊性,目前學者們借助超聲成像技術(shù)主要在咽喉、腭及舌等部位開展發(fā)音生理研究。

        (一)基本音位

        Hamlet S L等人[14]通過超聲波穿過咽喉來研究喉顫音(Laryngeal trills),認為喉顫音是一種連續(xù)發(fā)生的脈動聲音,通常在基頻和強度上有很大的變化,每秒鐘發(fā)生7次左右,頻率和強度的變化并不總是同步,發(fā)聲脈動也不是完全有規(guī)律,而超聲數(shù)據(jù)中的周期性模式與聲道強度變化相對應。Moisik S R等人[15-16]提出了一種利用喉超聲(laryngeal ultrasound,LUS)影像資料的光學流分析來量化喉部高度變化的方法,采用該方法能夠精確地量化喉部高度的變化,以此來評價喉頭高度對元音共振峰頻率的影響,同時,他們在規(guī)范的普通話聲調(diào)上進行了同步檢測,從而驗證了該方法的有效性,指出喉超聲最適合喉部高度的量化,也可以提供喉部狀態(tài)的部分信息。在此基礎上證明了雖然喉下降一般會產(chǎn)生預期的降喉效果,但喉抬高對F2和F3有降低作用,而F2和F3則更具有已被標記為咽化的特征。

        Wodzinski等人[17-18]通過超聲波對軟腭前音(Velar fronting)和軟腭元音(Velar-vowel)進行了初步研究。在對軟腭前音的研究中指出軟腭輔音的關(guān)閉位置在所有的中、后元音中都是一致的;對于前元音,軟腭音靠前的程度似乎與元音的正面有關(guān);雙元音關(guān)閉位置的測量方法遵循單詞目標的后元音模式;對于非單詞,關(guān)閉位置受前雙元音的發(fā)音質(zhì)量和下一個雙元音的發(fā)音質(zhì)量的影響。在對軟腭元音的研究中指出在軟腭前端,因為元音語境,所以軟腭輔音的關(guān)閉位置沿著上顎向前移動。

        Bouavichith等人[19]用馬拉雅拉姆語(也稱德拉威語,被描述為有7個鼻音位:唇音、牙齒音、齒槽音、卷舌音、硬顎音、軟腭音及鼻音)中的軟硬腭鼻音來研究對比硬顎和軟腭發(fā)鼻音的不同,使用超聲成像來確定這兩個部位的鼻音發(fā)音是否是動態(tài)穩(wěn)定的,集中討論硬腭鼻音和軟腭鼻音在舌與腭接觸的位置和時間上不同,以及其他腭音的輔音位置和時間上的不同。

        Gick[20]使用便攜式超聲設備進行語言語音實地調(diào)查,研究的問題主要集中在舌根上,第一個問題是關(guān)于Kinande(剛果的班圖語)的舌根和諧,第二個問題是關(guān)于Nuu-chah-nulth(溫哥華島西海岸的一種瓦卡山語)中的咽部化和元音降低。Alwabari[21]探討了硬腭和軟腭的背側(cè)抬高是否會阻礙舌根收縮以及這個阻礙力度的大小和時間跨度問題。結(jié)果表明發(fā)音約束的程度導致了對發(fā)音的梯度阻力,發(fā)音約束對發(fā)音阻力的時間跨度有明確影響。

        在元音和諧律方面,Stewart[22]提出了一種舌根前伸(ATR,Advanced Tongue-root,分為-ATR和+ATR)特征來區(qū)分許多非洲語言中的成對元音,如/i/和//、/u/和//、/o/和//。為了進一步研究元音和諧問題,Eichholz等人[23]用超聲記錄贊德語元音的舌形輪廓,統(tǒng)計后發(fā)現(xiàn)舌體輪廓線在舌背區(qū)域是有規(guī)律的偏離,而在舌根區(qū)域偶爾存在偏離,結(jié)果表明贊德語中負責元音和諧的語言特征主要是與舌頭高度差異有關(guān)而不是與舌根前伸有關(guān)(見圖7)。

        圖7 成對元音的舌體輪廓線之間存在顯著性差異(p<0.05)(粗線表示)

        (二)方言

        Lu Z等人[6]98通過超聲舌像來研究中國陜西西安方言的舌體運動模型。文中對西安方言的靜態(tài)視位(Viseme)進行了分類,通過超聲成像記錄舌頭在VCV和CVC的話語中發(fā)音活動的時間和位置屬性,開發(fā)了相關(guān)程序能夠在超聲舌像中自動進行舌頭運動輪廓跟蹤,對提取的視覺信息進行了分類并定義了全部視位,用于創(chuàng)建陜西西安方言舌體的動態(tài)視位系統(tǒng)。

        (三)二語習得

        傳統(tǒng)的語言教學一般都是通過聲學的方法,學習者往往通過耳朵聽和觀察發(fā)音口形來習得語音發(fā)音,但是對于一些難發(fā)的音就束手無策。如果學習者能夠直接看到發(fā)音時舌體運動變化情況,那么他們會對發(fā)音過程有更深入的了解,能夠盡量準確地調(diào)整自己的發(fā)音舌位。

        Gick[24]對超聲成像在二語習得中的應用作了描述,對相關(guān)概念進行了簡要介紹,并給出了具體的應用案例。Tsui[25]對日本成年人學習第二語言英語的/l/和//進行了超聲訓練研究,研究結(jié)果表明,所有參與者都提高了英語/l/和//在各種詞匯位置和語境中發(fā)音的準確性,將超聲應用于語言訓練對學習英語發(fā)音的日本成年人是有益的。Suzuki[26]使用超聲、視頻和MRI開發(fā)了可視化語音發(fā)音應用程序(見圖8),該程序?qū)⒁纛l、正面和側(cè)面視頻、MRI和超聲波視頻連接在一起,用戶可以觀看到發(fā)音視頻,也可以錄制自己的音頻/視頻,并與模型同步播放,以便進行比較。

        圖8 可視化語音發(fā)音學習APP

        (四)協(xié)同發(fā)音

        超聲波可以用來解決音位理論中尚未解決的問題。一些研究已經(jīng)表明,通過超聲成像手段可以揭示出音位元素的差異是如何變化的。Davidson L[27]選擇了5名說英語的人,他們用元音插入(例如[zegomu])來修復這些非單詞(例如[zgomu]),利用超聲成像技術(shù),將這些非單詞序列與發(fā)音相似的合法序列單詞進行比較,以評估在/z/和后面輔音之間非重讀央元音的性質(zhì)。結(jié)果表明,對于一些發(fā)音者來說,在[zC]序列(例如[zdiri]與[zderu]、[zgama]與[zgomu]、[zbura]與[zbertu])中產(chǎn)生的非重讀央元音與非重讀央元音的音位轉(zhuǎn)換是不一致的,相反,發(fā)音者似乎沒有充分地重疊輔音。協(xié)同發(fā)音是語言的一個共同特征,雖然不可能對語言的協(xié)同發(fā)音效應作出普遍的概括,但Krebs[28]通過研究部分元音與輔音的協(xié)同發(fā)音問題,證實了[k]的兩個同音詞在一個類型不同的語言中存在協(xié)同發(fā)音效應,證實[k]對協(xié)同發(fā)音的抵抗力較低,舌根參與了舌背前元音的協(xié)同發(fā)音。

        (五)兒童

        Zharkova[29]針對兒童語言協(xié)同發(fā)音發(fā)展方面利用超聲成像進行了有關(guān)研究,該研究描述了6組3至10歲的蘇格蘭英語兒童的語言協(xié)同發(fā)音模式,利用超聲舌成像數(shù)據(jù),對4個不同約束程度的聲母進行舌預測協(xié)同發(fā)音分析,在所有年齡組中,包括兩個最小的兒童群體,可以觀察到由這兩個元音語境(以[pi]和[pa]為例)制約的輔音舌形的某些差異,對于圖9所示的/p/,兩個元音上下文中最集中的部分舌的相對位置(沿舌曲線)的差異是可見的,在/i/的上下文中,更多地向舌的前面聚集,而在/a/的上下文中,則更多地聚集到舌的后面,其中各年齡組內(nèi)的輔音在舌形上的差異較小。結(jié)果表明,隨著年齡的增加,個體語音協(xié)同發(fā)音程度的發(fā)展變化受到舌頭發(fā)音限制。

        圖9 各年齡組的[pi](點狀線)和[pa](實線)發(fā)音時的舌形

        McAllister Byun T等人[30]采用聲學測量和超聲測量(舌背偏移指數(shù),Dorsum Excursion Index)方法分析軟腭前音中的隱性差異(Covert contrast),結(jié)果顯示,不同的軟腭音和齒槽音之間存在顯著差異,一個能發(fā)軟腭前音的兒童在聲學和超聲波測量中表現(xiàn)出了隱性差異,另一個則沒有顯示出差異的跡象。借助超聲成像技術(shù)來分析語言現(xiàn)象,對于具有兒化或卷舌的語言來說,目前還不清楚這種咽收縮姿勢是否也是一種發(fā)音功能,Boyce等人[31]研究比較了不同語系的兒化或卷舌現(xiàn)象,描述了咽部收縮的存在與否,結(jié)果表明在所有的語言中都能觀察到咽部的收縮,這被認為是兒童難以獲得的。

        (六)舌體運動

        葉為昌[32]利用超聲觀察成人發(fā)音時的舌頭運動,對健康成人男性和女性在發(fā)元音時的舌體運動時長和舌體上下運動距離進行了測量。陳彧[33]利用超聲波檢測方法對漢語普通話基礎元音發(fā)音的舌體運動進行了研究,結(jié)果表明:各元音發(fā)音的舌體都會出現(xiàn)相應的形態(tài)變化,舌體形態(tài)在穩(wěn)定程度上不一樣,在舌體形態(tài)峰值出現(xiàn)的時刻上也不一致,同時,驗證了超聲在發(fā)音生理研究中的可行性,驗證了發(fā)音音系學和元音格局理論能夠?qū)υ舭l(fā)音舌位特征進行描寫。

        四、超聲成像在病理語音研究中的應用

        臨床表現(xiàn)為構(gòu)音障礙、失語癥以及言語失用等病理現(xiàn)象,從構(gòu)音障礙與言語失用的定義上我們可以發(fā)現(xiàn)這兩類患者的聽理解尚未受損,其聽理解功能是正常的,而失語癥患者中不論其為哪一種失語類型,其聽理解能力多少都會有異常。研究表明視覺反饋技術(shù)可以成為語言康復的有效工具。采用視聽結(jié)合的實時反饋治療技術(shù),能夠改變語言的濫用和誤用,誘導正確發(fā)聲技能的形成。語言障礙治療中采用超聲成像技術(shù),為語言康復治療工作人員進行科學系統(tǒng)的治療和訓練提供了有益的幫助,使有語言障礙的人能方便、清楚地表達,提高他們的交流溝通能力。Bernhardt B、Gick B等人[34]論述了超聲在語言治療中的作用,對患有嚴重聽力障礙、持續(xù)語言障礙、帶有英語口音的青少年和成人進行語音治療研究,并從動態(tài)二維超聲中得到反饋。

        發(fā)音視覺反饋技術(shù)的進步為治療語言障礙提供了新的機會。Bernhardt等人[35]對4名患有聽力損失和語言障礙的青少年進行了為期14周的語言治療研究,方案中設計了一對齒擦音/s/和/?/,一對流音/l/和//,以及松緊元音和高元音。在該研究中他們使用了電腭造影技術(shù)和超聲成像技術(shù)兩種動態(tài)的視覺反饋系統(tǒng)技術(shù),其中,電腭造影提供了關(guān)于舌頭硬腭接觸點的信息,超聲成像顯示了舌頭的形狀和從舌尖到舌根的兩個維度的運動。結(jié)果表明,治療效果顯著改善,與治療前相比,測試者在輔音上表現(xiàn)出了很大的進步。

        圖10 超聲播放器圖 圖11 發(fā)音過程中舌頭運動的中矢狀舌形圖像和結(jié)果分析

        使用超聲成像技術(shù)可以提高語音發(fā)音的準確性。Michelle Cavin[36]利用超聲生物反饋技術(shù)來對北美英語/r/發(fā)音進行矯正,這種非侵入性的生物反饋技術(shù)可以讓一個人看到他們舌頭形狀的運動特征,這樣他們就可以根據(jù)正確的發(fā)音模型來修改自己的發(fā)音。Preston J L、Brick N等人[37]對6名9歲至15歲語音失用癥(apraxia of speech)的兒童進行了18個療程的實驗,利用實時超聲波圖像的視覺反饋,孩子們被要求調(diào)整舌頭的動作,在治療前、治療中和治療后收集探測器數(shù)據(jù),以評估治療和未處理的聲音序列的詞匯水平準確性,所有參與者在至少2個處理過的聲音序列中達到了性能標準(連續(xù)兩次的準確率為80%),結(jié)果表明,為了提高語音失用癥相關(guān)的持續(xù)語音錯誤的兒童語音的準確性,使用超聲生物反饋的治療方案是一個可行的選擇。為了提高患者的發(fā)音意識,Hueber T[38]開發(fā)了超聲播放器(見圖10),一種為語音治療和發(fā)音訓練應用而設計的超聲可視化以及舌、唇視頻序列的軟件。

        Adam Buchwald[39]等人對一個失語癥患者做了關(guān)于音位增音方面的研究,患者說話時會把類似于非重讀央元音插入到輔音中(例如clone和c[]lone)。實驗中采用輔音(C1C2)組(例如clue)與插入一個元音的單詞(C1VC2)組(例如collude)做對比分析,全部發(fā)音采用超聲成像來記錄,它提供了發(fā)音過程中舌頭運動的中矢狀舌形圖像,如圖11-a所示。結(jié)果如圖11-b顯示,C1C2組(glue、clue,實線表示)與C1VC2組(galoot-collude,虛線表示)沒有明顯的區(qū)別,對于插入到輔音之間的元音的感知僅僅反映了兩個輔音相關(guān)聯(lián)的動態(tài)發(fā)音姿勢錯誤。

        五、超聲成像在語音工程研究中的應用

        隨著人工智能技術(shù)的發(fā)展,新的圖像處理技術(shù)、新的實驗方法以及新的實驗設備的出現(xiàn)將會推動實驗語言的發(fā)展進步,超聲成像將繼續(xù)在語言研究中被使用,可以用來研究的領(lǐng)域更廣范,研究的問題更深入。超聲成像技術(shù)能夠進一步提升語音識別和語音合成的質(zhì)量。

        傳統(tǒng)的語音識別采用的是聲學特征。我們也可以通過提取超聲圖像和光學圖像中的視覺特征用于語音識別(見圖12),這樣的合成器只能通過發(fā)音生理數(shù)據(jù)來驅(qū)動,稱為“無聲語音接口”(SSI,Silent Speech Interface)[40],由于聲音的發(fā)聲是不必要的,無聲語音接口有許多潛在的應用。例如,為了幫助接受過喉切除術(shù)的病人,無聲語音接口可以被用來代替電喉。此外,在嘈雜背景環(huán)境中,無聲語音接口可以提高通信質(zhì)量。

        圖12 基于超聲的無聲語音接口原理圖

        Hueber T[41-42]從超聲舌頭圖像和嘴唇光學圖像中獲取信息進行了連續(xù)語音識別,對語音語料庫的處理采用自動語音校正程序和強大的視覺特征提取技術(shù)進行語音標記,并基于HMM(Hidden Markov Model)的隨機模型分別在視覺語料庫和聲學語料庫中進行估算,將視覺語音識別系統(tǒng)的性能與傳統(tǒng)的基于聽覺的識別系統(tǒng)進行了比較,證明了通過超聲圖像和嘴唇的光學圖像來識別語音的可行性,這對于我們?nèi)ダ斫鉄o聲語言與發(fā)聲語言的區(qū)別聯(lián)系有著重要意義。

        Wang J[43]提出了一種將動態(tài)信息集成到基于超聲波的無聲語音接口中的新方法,該方法中分別對靜態(tài)和動態(tài)視覺特征信息的可靠性進行了加權(quán),采用了多流隱馬爾可夫模型(MSHMM,Multi-stream Hidden Markov Model)技術(shù)。最終在普通話多模態(tài)數(shù)據(jù)庫中對基于多流的集成方法進行了評估,并與傳統(tǒng)的連接融合方法進行了比較,結(jié)果表明語音解碼的準確性得到提高。路文煥等人[44]在基于超聲的無聲語音接口實現(xiàn)中,提出了3種混合特征提取方法:使用主成分分析從小波系數(shù)中提取特征(WaveletPCA)、分塊離散余弦變換主成分分析(block DCT G PCA)和分塊WalshHadamard變換主成分分析(block WHT G PCA),實驗結(jié)果表明:混合特征提取方法更能夠提取舌部超聲圖像中重要的特征,該方法優(yōu)于通常使用的主成分分析或離散余弦變換,其中block DCT G PCA方法最優(yōu)。借助深度學習技術(shù)、新方法以及新算法的應用,相關(guān)研究人員對語音識別中的基于超聲成像的無聲語音接口方面的研究更加深入。Yan Ji等人[45]引入深度學習技術(shù),使得基于超聲的無聲語音接口的準確率大幅提升。Grósz T等人[46-47]采用深度神經(jīng)網(wǎng)絡(DNN),從超聲波圖像中進行發(fā)音和聲學轉(zhuǎn)換,重點是基于超聲波的發(fā)音—聲學映射中執(zhí)行基頻估計,結(jié)果證明了發(fā)音與基頻的預測是有希望的。同時,他們還將舌體的二維超聲作為深度神經(jīng)網(wǎng)絡的輸入信息,給出了基于超聲舌體運動的語音轉(zhuǎn)換的初步結(jié)果。上述研究將會對無聲語音接口的應用起著重要作用。

        此外,在語音合成方面,Jaumard-Hakoun[48]提出了一種基于超聲舌成像和唇形的歌唱聲音合成方法,提取超聲舌像和唇形圖像序列中的特征,利用多層結(jié)構(gòu)對這些特征中最相關(guān)的特征進行非線性預測,最終合成的質(zhì)量效果令人滿意。

        六、總結(jié)

        (一)超聲的優(yōu)勢

        超聲被用于語音中提供舌頭位置和配置的實時視覺反饋,與EMMA(電磁中矢狀發(fā)音測量儀,也稱“艾瑪儀”)提供視覺反饋相比,超聲是一種更廣泛、更少侵入性的技術(shù),而且它提供了整個舌頭形狀信息的優(yōu)勢。超聲具有足夠的靈活性,能夠快速地從矢狀面轉(zhuǎn)變?yōu)楣跔钜晥D,可以動態(tài)或靜態(tài)地觀察舌頭的矢狀或冠狀斜視圖,提供關(guān)于構(gòu)形和運動的不同視角。超聲成像可以疊加到視頻中,能夠同時觀察到口形和舌位運動。另外,超聲波不需要個性化的硬件(比如EPG的人工腭),它可以立即使用,而不增加每個用戶的費用,尤其是便攜式超聲設備允許用戶在田野進行數(shù)據(jù)收集。

        (二)超聲的劣勢

        首先,與核磁共振成像(MRI)或造影技術(shù)相比,超聲成像技術(shù)具有劣勢,因為在超聲成像中不可能記錄舌根的整個形狀(由于舌骨的陰影),加上探測器范圍的局限性,舌尖信息也很難獲取到。其次,二維超聲不能同時監(jiān)測矢狀位和冠狀位,三維動態(tài)超聲(目前是一種靜態(tài)顯示)或同時使用EPG(電子腭位儀)和超聲可以提供更多的多維視圖,這可能更容易實現(xiàn)。再次,超聲不提供舌腭接觸信息,但是EPG和超聲的組合使用可能比靜態(tài)參考線或透明性更具有啟發(fā)性。最后,超聲不提供聲學信息,顯示舌頭結(jié)構(gòu)和聲音顯示的分隔屏幕可以提供關(guān)于音調(diào)、強度、聲音、發(fā)音方式和發(fā)音的附加信息。

        (三)超聲的有效性

        使用超聲成像作為科學研究的工具,它的測量方法和研究結(jié)果是否具有有效性,還需要進一步研究證明。Ménard L等人[49]用超聲成像測量舌頭的形狀和位置,通過開發(fā)的VLAM發(fā)音模型來評估超聲測量方法的有效性。提出的數(shù)據(jù)分析方法將舌形輪廓重新塑造成三角形,然后提取出舌頭最高點、曲率度和曲率位置的角度、x和y坐標。結(jié)果表明,與絕對舌位(舌頭高度和前后位置)相關(guān)的參數(shù)對探頭的水平和垂直位移更敏感,而與舌曲率有關(guān)的參數(shù)對這種位移的敏感度較低。Wodzinski等人[17]2395評估了超聲成像對測量軟腭輔音關(guān)閉位置的有效性。McAllister等人[30]249指出由于目前的研究并沒有提供令人信服的證據(jù),證明超聲波在聲學測量方法上的優(yōu)勢,研究人員和臨床醫(yī)生可能會質(zhì)疑,是否有可能為將超聲波技術(shù)納入研究或治療兒童語言所需的時間和資源進行辯護。然而,這項研究僅限于對從超聲波和聲學數(shù)據(jù)中提取的定量測量方法進行比較。

        (四)未來的研究方向

        首先,發(fā)音生理部位舌體的舌尖和舌邊信息補全機制。在元音和輔音的產(chǎn)生過程中,對舌頭的整體結(jié)構(gòu)進行研究是最有用的,但由于舌頭的前部經(jīng)常被下巴所遮蔽,所以舌尖和舌邊的信息會丟失,如何補全丟失的信息或許可以成為未來關(guān)注的重點。其次,添加多模態(tài)的發(fā)音生理數(shù)據(jù)增加語音合成的自然性??梢詫⒒诔暤纳囿w形態(tài)數(shù)據(jù)應用在文字—語音轉(zhuǎn)換系統(tǒng)(TTS,Text-To-Speech synthesis)[50]中,即視聽語音合成系統(tǒng)(Audiovisual TTS)[51]。在文字—語音轉(zhuǎn)換系統(tǒng)中添加舌體運動(Tongue movement)和唇形動作(Lip motion)等發(fā)音特性將會提高TTS的自然性,最終研發(fā)出一個會講話的人頭(Talking head)。最后,在語音識別中的無聲語音接口研究方面,采用卷積神經(jīng)網(wǎng)絡技術(shù)、自動編碼技術(shù),研究并添加舌、唇、上下文相關(guān)模型、統(tǒng)計語言模型和新的集成模式的新視覺特征,改善識別效果,推動無聲語音接口的實際應用。

        語言學方面的研究需要在廣度與深度上繼續(xù)展開,一些傳統(tǒng)的研究方法和研究手段也需要不斷更新。超聲成像技術(shù)的發(fā)展推動了語言的深度研究,以前,對于某些語言現(xiàn)象只能依靠理論推測,而今,我們可以借助超聲成像技術(shù)用科學合理的實驗數(shù)據(jù)進行解釋分析。雖然超聲成像技術(shù)有著一定的不足,但是國外有大量的學者們已將超聲成像技術(shù)應用在語言研究中,并且取得了重要研究成果。相信隨著超聲成像、圖像處理、三維建模、機器學習等技術(shù)的深入發(fā)展,對于我國的語言實踐研究有著重要意義。

        猜你喜歡
        軟腭舌體元音
        犬軟腭過長矯正術(shù)初探
        元音字母和元音字母組合的拼讀規(guī)則
        元音字母和元音字母組合的拼讀規(guī)則
        阻塞性睡眠呼吸暫停低通氣綜合征患者軟腭形態(tài)的動態(tài)磁共振研究
        望舌可預測中風
        長壽(2018年6期)2018-07-12 07:54:12
        胎兒軟腭超聲三切面在產(chǎn)前超聲篩查單純軟腭裂中的價值
        腭裂整復術(shù)中肌肉功能性重建的研究進展
        新疆地區(qū)不同民族老年舌體鱗狀細胞癌患者臨床特征及生存分析
        Playing with “ar”
        安氏Ⅲ類骨性Ⅲ類與安氏Ⅰ類錯畸形舌體形態(tài)位置及舌骨位置的比較研究
        免费人成在线观看网站| 一本久久伊人热热精品中文| 无码一区二区三区在| 亚洲国产精一区二区三区性色| 中文字幕日韩精品中文字幕| 亚洲熟女少妇精品综合| 亚洲加勒比久久88色综合| 国产真人无遮挡作爱免费视频| 超碰日韩AV在线| 国产亚洲精品日韩香蕉网 | 精品国产免费久久久久久| 国产精品一区二区三区不卡| 国产视频免费一区二区| 看女人毛茸茸下面视频| 国产a√无码专区亚洲av| 国产成人av 综合 亚洲| 日韩不卡av高清中文字幕| 免费黄网站永久地址进入| 少妇免费av一区二区三区久久| 女人被弄到高潮的免费视频| 3344永久在线观看视频| 91热久久免费精品99| 亚洲人成伊人成综合网中文| av免费在线免费观看| 免费观看的av毛片的网站| 欧美a级在线现免费观看| 日韩精品一区二区三区免费观影 | 中文字幕av人妻少妇一区二区| 国产精品亚洲综合色区| 国产亚洲欧美成人久久片| 男女视频网站免费精品播放| 精品无码一区二区三区的天堂| 使劲快高潮了国语对白在线| 一本久到久久亚洲综合| 男女性搞视频网站免费| 国产日韩厂亚洲字幕中文| 国产欧美亚洲精品第一页| 亚洲日韩精品欧美一区二区| 爆乳日韩尤物无码一区| 国产白色视频在线观看| 亚洲国产成人精品无码区在线秒播 |