亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏語(yǔ)機(jī)讀音標(biāo)SAMPA_ST的設(shè)計(jì)

        2012-06-29 06:15:02于洪志李永宏鄭文思
        中文信息學(xué)報(bào) 2012年4期

        于洪志,高 璐,李永宏,鄭文思

        (西北民族大學(xué) 中國(guó)民族語(yǔ)言文字信息技術(shù)教育部—國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730030)

        1 引言

        語(yǔ)料庫(kù)建設(shè)在語(yǔ)音分析、合成以及識(shí)別等語(yǔ)音工程中,起著舉足輕重的作用。高質(zhì)量的語(yǔ)料庫(kù),除需要根據(jù)不同研究目標(biāo)優(yōu)化語(yǔ)料選取算法外,還要進(jìn)行語(yǔ)音的標(biāo)注,其中計(jì)算機(jī)可讀音標(biāo)符號(hào)系統(tǒng)的標(biāo)注與設(shè)計(jì)占據(jù)較為重要的地位,是文音轉(zhuǎn)換的基礎(chǔ)[1-2]。SAMPA(Speech Assessment Methods Phonetic Alphabet)是J.Wells在歐共體支持的研究項(xiàng)目(Speech Assessment Methods)于20世紀(jì)90年代設(shè)計(jì)完成的。在多種語(yǔ)言研究基礎(chǔ)上,設(shè)計(jì)出機(jī)器可以直接輸入輸出的音標(biāo)系統(tǒng),目的在于克服國(guó)際音標(biāo)符號(hào)復(fù)雜、計(jì)算機(jī)鍵盤(pán)輸入困難。

        國(guó)內(nèi),漢語(yǔ)普通話(huà)機(jī)讀音標(biāo)的自動(dòng)標(biāo)注系統(tǒng)比較完善,多家單位語(yǔ)料庫(kù)建設(shè)中音段標(biāo)注采用了SAMPA_C的標(biāo)注方案[2-3]。《漢語(yǔ)普通話(huà)機(jī)讀音標(biāo)SAMPA-SC》[4]闡述了漢語(yǔ)普通話(huà)機(jī)讀音標(biāo)方案,列出了聲韻母以及聲調(diào)的SAMPA_SC。中國(guó)少數(shù)民族語(yǔ)言的機(jī)讀音標(biāo)系統(tǒng)尚不完善,《三個(gè)少數(shù)民族語(yǔ)音聲學(xué)參數(shù)數(shù)據(jù)庫(kù)(光盤(pán)版)介紹》[5]介紹了蒙語(yǔ)、哈薩克語(yǔ)、藏語(yǔ)的國(guó)際音標(biāo)與SAMPA碼系統(tǒng)轉(zhuǎn)換的原則。本文的SAMPA_ST(Standard Tibetan)標(biāo)注系統(tǒng)是建立在SAMPA基礎(chǔ)上的一套可機(jī)讀的藏語(yǔ)音段標(biāo)注系統(tǒng),參考了中國(guó)社會(huì)科學(xué)院民族學(xué)與人類(lèi)學(xué)研究所的相關(guān)研究成果,歸納藏語(yǔ)三大方言(拉薩、夏河、德格)的音系,針對(duì)聲母、韻母以及聲調(diào)的特點(diǎn),設(shè)計(jì)了藏語(yǔ)三大方言的SAMPA_ST規(guī)則,闡述了SAMPA_ST的自動(dòng)標(biāo)注系統(tǒng)。

        2 藏語(yǔ)音節(jié)結(jié)構(gòu)

        藏語(yǔ)屬于漢藏語(yǔ)系藏緬語(yǔ)族藏語(yǔ)支,國(guó)內(nèi)主要分衛(wèi)藏方言、安多方言和康方言三大方言。藏文是在梵文天成體的基礎(chǔ)上發(fā)展而成的一種拼音文字,共有30個(gè)輔音字母,5個(gè)元音符號(hào),其中[a]為零位。傳統(tǒng)藏文文法根據(jù)字母在音節(jié)中的結(jié)構(gòu)位置,將字母分為“基字”、“上加字”、“下加字”、“前加字”、“后加字”和“再后加字”,基字為整個(gè)藏字的核心。其音節(jié)結(jié)構(gòu)如圖1所示。

        圖1 藏語(yǔ)音節(jié)結(jié)構(gòu)圖

        3 藏語(yǔ)三大方言音系歸納

        音系歸納是進(jìn)行SAMPA_ST設(shè)計(jì)的前期重要工作,本文首先歸納總結(jié)藏語(yǔ)三大方言音系。

        音系歸納包括聲母、韻母以及聲調(diào),藏語(yǔ)方言音系的聲母分為單輔音聲母和復(fù)輔音聲母,韻母包括單元音韻母、復(fù)合元音韻母以及輔音韻尾的韻母。

        3.1 衛(wèi)藏方言—拉薩話(huà)

        衛(wèi)藏方言主要分布在西藏自治區(qū),該地區(qū)歷來(lái)是藏族文化、政治、經(jīng)濟(jì)的中心地區(qū),衛(wèi)藏方言是藏語(yǔ)三大方言中使用人口最多、通行范圍最廣的方言。在長(zhǎng)期的分化和演變過(guò)程中,衛(wèi)藏方言在語(yǔ)音上形成了自己的特點(diǎn)。本文以拉薩話(huà)為衛(wèi)藏方言的代表,進(jìn)行音系整理。

        3.1.1 聲母

        由于拉薩地區(qū)經(jīng)濟(jì)較為發(fā)達(dá)、交通便利,與外界交流頻繁,因此拉薩話(huà)中聲母系統(tǒng)比古代藏語(yǔ)簡(jiǎn)化很多,現(xiàn)代拉薩話(huà)的聲母系統(tǒng)已經(jīng)基本沒(méi)有復(fù)輔音,有除[l][r]以外的濁輔音清化的現(xiàn)象。聲母系統(tǒng)主要是指單輔音聲母[6-7],如表1所示:

        表1 拉薩話(huà)單輔音表

        拉薩話(huà)中單輔音主要包括塞音9個(gè),塞擦音6個(gè),擦音6個(gè),鼻音、邊音、喉塞音以及半元音共28個(gè)輔音音位[6]。

        對(duì)于復(fù)輔音來(lái)說(shuō),衛(wèi)藏方言大部分復(fù)輔音是前置鼻音,但在拉薩話(huà)中已經(jīng)極少出現(xiàn)。

        3.1.2 韻母

        藏語(yǔ)拉薩話(huà)的韻母中包括[a][i][u][e][o][?][y][] 8個(gè)基本元音,[iu][au]2個(gè)復(fù)合元音以及輔音韻尾,如表2所示:

        表2 拉薩話(huà)輔音韻尾韻母表

        3.1.3 聲調(diào)

        聲調(diào)是藏語(yǔ)拉薩話(huà)語(yǔ)音系統(tǒng)中重要的構(gòu)成因素,它具有區(qū)別詞義和表示形態(tài)的功能。

        由于對(duì)聲調(diào)的發(fā)展和聲調(diào)與韻母之間的關(guān)系上的認(rèn)識(shí)不同,對(duì)于藏語(yǔ)拉薩話(huà)聲調(diào)的分類(lèi)眾說(shuō)紛紜?!恫卣Z(yǔ)簡(jiǎn)志》指出,拉薩話(huà)聲調(diào)分為54,55,12,14四類(lèi),胡坦先生指出拉薩話(huà)聲調(diào)分為六類(lèi)[8],用五度標(biāo)調(diào)法嚴(yán)式記音記為55,114,52,13,51和132。以寬式記音可標(biāo)作: 55,14,53(52和51)和12(12和132)。

        拉薩話(huà)的聲調(diào)和韻母的長(zhǎng)短、聲母的清濁也有對(duì)應(yīng)的關(guān)系[9],具體如表3所示:

        表3 藏語(yǔ)拉薩話(huà)聲調(diào)表

        由表3得出藏語(yǔ)拉薩話(huà)單音節(jié)聲韻母組合調(diào)號(hào)共有四種類(lèi)型,如表4所示:

        表4 拉薩話(huà)聲調(diào)

        3.2 安多方言—夏河話(huà)

        安多方言是三大方言中分布最廣并且內(nèi)部差別最小的方言,主要分布在甘肅省甘南、天祝,青海省的海南、海北以及果洛、黃南等地。

        復(fù)輔音是安多方言的特色之一,它不僅包括二合輔音,部分地區(qū)還存在三合輔音,例如,四川省甘孜的道孚縣藏語(yǔ)共有10個(gè)三合輔音。本文以甘肅省夏河話(huà)為例對(duì)安多方言進(jìn)行說(shuō)明。

        3.2.1 聲母

        夏河話(huà)中共有36個(gè)單輔音和18個(gè)復(fù)輔音,都可以作為聲母[6-7]。

        phthkhhh

        表5 復(fù)輔音結(jié)合表nc型

        表6 復(fù)輔音結(jié)合表hc型

        3.2.2 韻母

        安多夏河話(huà)文字上77個(gè)韻母合并為35個(gè)音節(jié),由6個(gè)單元音韻母和29個(gè)二合韻母構(gòu)成,其中單元音的6個(gè)為[a][i][u][e][o][]。二合韻母包括元音[e][a][o][]與韻尾[p][m][t][n][k][][r]相結(jié)合構(gòu)成的25個(gè)輔音韻尾的韻母和[ai][ao][eo] 3個(gè)復(fù)合元音韻母,而[i][u]兩個(gè)元音不能與任何韻尾結(jié)合。

        3.2.3 聲調(diào)

        傳統(tǒng)說(shuō)法認(rèn)為安多方言沒(méi)有區(qū)別意義的聲調(diào)系統(tǒng),但安多方言習(xí)慣調(diào)的內(nèi)部規(guī)律(一般認(rèn)為是清高濁低),還需要做深入的研究。

        3.3 康方言—德格話(huà)

        關(guān)于康方言的研究并不是很成熟,原因在于康方言的分布地區(qū)大都處于交通不便的山區(qū),山川阻隔,與外界交流較少。德格位于四川省甘孜州的北部,是康方言的代表。

        3.3.1 聲母

        德格話(huà)音系中單輔音聲母要比拉薩話(huà)多,共43個(gè)輔音音位,包括塞音10個(gè),塞擦音9個(gè),擦音12個(gè),鼻音8個(gè)以及邊音和半元音。與拉薩話(huà)相比,德格話(huà)清濁對(duì)立,因此塞音、塞擦音以及擦音都有相對(duì)應(yīng)的濁音存在,鼻音則存在清化鼻音。

        復(fù)輔音也是康方言的一大特色,德格話(huà)中復(fù)輔音主要是nc型,四個(gè)鼻音與[b][d][g][][][]組合成6個(gè)復(fù)輔音,若包括清化鼻音與其的組合共12個(gè),另外還包括一個(gè)hc型的次濁復(fù)輔音[hj]。

        3.3.2 韻母

        德格話(huà)共25個(gè)韻母,包括8個(gè)單元音韻母、5個(gè)鼻化韻母和11個(gè)塞音韻尾的韻母,無(wú)復(fù)合元音[7]。如表7所示:

        表7 韻母表

        3.3.3 聲調(diào)

        康方言聲調(diào)的產(chǎn)生同聲母和韻尾簡(jiǎn)化有關(guān),但分化時(shí)間要晚于衛(wèi)藏方言。

        對(duì)于康方言中德格話(huà)的聲調(diào)可以歸納出四個(gè)聲調(diào),兩個(gè)高調(diào)和兩個(gè)低調(diào),高平調(diào)55,高降調(diào)53,低升調(diào)13和低升降調(diào)231。事實(shí)上,研究表明康方言的聲調(diào)并不穩(wěn)定。

        SAMPA_ST的規(guī)則設(shè)計(jì)及系統(tǒng)的實(shí)現(xiàn)

        SAMPA的制定原則是: 1)對(duì)照國(guó)際音標(biāo);2)盡量貼近該語(yǔ)言標(biāo)音系統(tǒng)或轉(zhuǎn)寫(xiě)系統(tǒng); 3)講究系統(tǒng)性[5]。本文依照上述原則對(duì)藏語(yǔ)三大方言聲母、韻母以及聲調(diào)的SAMPA進(jìn)行設(shè)計(jì),并闡述SAMPA_ST的自動(dòng)標(biāo)注系統(tǒng)。

        4.1 規(guī)則設(shè)計(jì)

        本文在設(shè)計(jì)SAMPA_ST規(guī)則時(shí)將以拉薩話(huà)為綱,對(duì)于夏河話(huà)和德格話(huà)中與拉薩話(huà)不同的部分做詳細(xì)設(shè)計(jì),其余部分不再贅述。

        4.1.1 聲母

        依據(jù)上文分析,拉薩話(huà)中28個(gè)單輔音聲母,夏河話(huà)中共有36個(gè)單輔音和18個(gè)復(fù)輔音,德格話(huà)共有43個(gè)單輔音音位和13個(gè)塞音韻尾的韻母。

        將拉薩話(huà)聲母、夏河話(huà)和德格話(huà)的部分單輔音聲母的SAMPA_ST設(shè)計(jì)規(guī)則列于表8,9和表10。

        表8 拉薩話(huà)聲母

        SAMPA碼的原則要求轉(zhuǎn)換時(shí)盡量采用鍵盤(pán)上符號(hào)代替,并盡可能與國(guó)際音標(biāo)貼近。清塞音[p][t][c][k]、濁音[b][d][g]和三個(gè)半元音[r][j][w]采用與其相同字母表示。

        表9 夏河話(huà)單輔音聲母(部分)

        表10 德格話(huà)單輔音聲母(部分)

        對(duì)于三對(duì)塞擦音[ts]和[tsh]、[]和[h]、[]和[h],由于其外形相似,采用“ts”、“ts′”、“ts/”表示,送氣音也采用上述相同的送氣符號(hào)。與這三對(duì)塞擦音相對(duì)的擦音[s][?][]則采用了“s”、“s′”、“s/”表示, 鼻音[]、[]分別采用“n/”、“n′”來(lái)表示,聲母中的喉塞音[]的SAMPA采用鍵盤(pán)的“?”。一般來(lái)說(shuō)喉塞音出現(xiàn)在韻尾位置,做聲母時(shí)可認(rèn)為是零聲母。擦音[][?]采用符號(hào)“l(fā).”,“c.”來(lái)表示,這兩個(gè)輔音做聲母時(shí)只出現(xiàn)在高調(diào)的音節(jié)。對(duì)于出現(xiàn)在夏河話(huà)和德格話(huà)中的濁音[γ][z]和[],采用符號(hào)“r/”,“z”,“z/”表示。[]和[][]外形相似,采用符號(hào)“dz”,“dz′”,“dz/”表示。

        藏語(yǔ)三大方言中有復(fù)輔音的現(xiàn)象,尤其是安多方言和康方言。復(fù)輔音聲母的SAMPA_ST采用單輔音聲母中對(duì)應(yīng)符號(hào)相組合產(chǎn)生。表11給出部分夏河話(huà)復(fù)輔音聲母的SAMPA_ST。

        4.1.2 韻母

        對(duì)三大方言韻母SAMPA_ST的設(shè)計(jì)包括單元音韻母、復(fù)合元音韻母以及輔音韻尾的韻母三部分。表12給出藏語(yǔ)拉薩話(huà)單元音韻母和復(fù)合元音韻母的SAMPA_ST。

        表11 夏河話(huà)復(fù)輔音聲母(部分)

        表12 拉薩話(huà)單元音韻母及復(fù)合元音韻母

        輔音韻尾韻母SAMPA_ST的設(shè)計(jì)規(guī)則采用單輔音和基本元音的SAMPA組合實(shí)現(xiàn),表13,14,15給出部分輔音韻尾的SAMPA_ST。

        表13 拉薩話(huà)輔音韻尾的韻母

        表14 夏河話(huà)輔音韻尾的韻母

        續(xù)表

        表15 德格話(huà)輔音韻尾的韻母

        另外,在SAMPA轉(zhuǎn)換時(shí)出現(xiàn)部分附加符號(hào),送氣與不送氣是一對(duì)區(qū)別特征,在聲母上占據(jù)著重要的地位。除拉薩話(huà)外的兩個(gè)方言都有清濁對(duì)立,那么清化符號(hào)也是尤為重要的。此外,拉薩話(huà)中長(zhǎng)短元音有區(qū)分意義的作用,因此,還存在長(zhǎng)元音和鼻化元音。SAMPA_ST的設(shè)計(jì)還包括一些附加符號(hào)的設(shè)計(jì),如表16所示。

        表16 附加符號(hào)表

        4.1.3 聲調(diào)

        聲調(diào)SAMPA_ST設(shè)計(jì)采用調(diào)值直接表示。對(duì)于三大方言來(lái)說(shuō),拉薩話(huà)有規(guī)整的聲調(diào)系統(tǒng),康方言以及安多方言雖然聲調(diào)系統(tǒng)并不完善,但同樣可以以五度法將語(yǔ)音基頻歸一化處理,進(jìn)行SAMPA的聲調(diào)表示。

        4.2 自動(dòng)標(biāo)注系統(tǒng)的實(shí)現(xiàn)

        SAMPA_ST自動(dòng)標(biāo)注系統(tǒng)的核心思想是通過(guò)對(duì)單音節(jié)從文字上進(jìn)行聲韻母的分離,并分別對(duì)聲韻母進(jìn)行SAMPA_ST的轉(zhuǎn)換,最后將其組合,并加之聲調(diào)。程序?qū)崿F(xiàn)過(guò)程中需要字丁分解表、聲母的SAMPA以及韻母和聲調(diào)的SAMPA支持庫(kù)的支持。其流程圖如圖2所示。

        圖2 藏語(yǔ)SAMAPA_ST自動(dòng)標(biāo)注系統(tǒng)流程圖

        5 小結(jié)

        本文選取拉薩、夏河、德格作為三大方言區(qū)的代表,對(duì)其音系進(jìn)行了整理歸納。同時(shí),嚴(yán)格按照國(guó)際SAMPA規(guī)范設(shè)計(jì)了一套適合于藏語(yǔ)的機(jī)讀音標(biāo)規(guī)范,分別列出了三大方言區(qū)的聲母、韻母以及聲調(diào)的SAMPA,此外,對(duì)SAMPA_ST的自動(dòng)標(biāo)注系統(tǒng)進(jìn)行了設(shè)計(jì)。SAMPA_ST的設(shè)計(jì)對(duì)于今后語(yǔ)音的自動(dòng)標(biāo)注系統(tǒng)的實(shí)現(xiàn)打下了良好的基礎(chǔ),為實(shí)現(xiàn)真正的文音轉(zhuǎn)換功能,語(yǔ)音的韻律特征分析和包括識(shí)別、合成等工程領(lǐng)域的研究提供了依據(jù)。

        [1] 陳肖霞.連續(xù)話(huà)語(yǔ)語(yǔ)料庫(kù)的語(yǔ)音切分和標(biāo)記[J].語(yǔ)言文字應(yīng)用.2000,(2): 78-82.

        [2] 李?lèi)?ài)軍,陳肖霞,等.CASS:一個(gè)具有語(yǔ)音學(xué)標(biāo)注的漢語(yǔ)口語(yǔ)語(yǔ)音庫(kù)[J]. 當(dāng)代語(yǔ)言學(xué).2002,4(2): 81-89.

        [3] 朱維彬,張家祿.漢語(yǔ)語(yǔ)音資料的語(yǔ)音學(xué)標(biāo)記及人工切分[J].聲學(xué)學(xué)報(bào).1999,24(3):225-235.

        [4] 張家祿.漢語(yǔ)普通話(huà)機(jī)讀音標(biāo)SAMPA_SC[J].聲學(xué)學(xué)報(bào),2009,34(1):81-86.

        [5] 陳嘉猷,鮑懷翹,鄭玉玲.三個(gè)少數(shù)民族語(yǔ)音聲學(xué)參數(shù)數(shù)據(jù)庫(kù)(光盤(pán)版)介紹[J].新世紀(jì)的現(xiàn)代語(yǔ)言學(xué)—第五屆全國(guó)現(xiàn)代語(yǔ)音學(xué)術(shù)會(huì)議,2001: 93-97.

        [6] 格桑居冕,格桑央京. 藏語(yǔ)方言概論[M]. 北京: 民族出版社,2002.

        [7] 金鵬. 藏語(yǔ)簡(jiǎn)志[M]. 北京: 人民出版社,1983.

        [8] 胡坦. 藏語(yǔ)(拉薩話(huà))的聲調(diào)研究[J]. 民族語(yǔ)文,1980(1): 22-36.

        [9] 譚克讓,孔江平.藏語(yǔ)拉薩話(huà)元音、韻母的長(zhǎng)短及其與聲調(diào)的關(guān)系[J]. 民族語(yǔ)文,1991,2:12-21.

        精品亚洲一区二区99| 国产美女在线精品免费观看| 国产看黄网站又黄又爽又色| 国产精品色内内在线播放| 久久精品蜜桃美女av| 极品尤物一区二区三区| 成av人片一区二区三区久久| 国产精品久久中文字幕第一页| 国语对白做受xxxxx在线中国| 天堂69亚洲精品中文字幕| 亚洲av狠狠爱一区二区三区| 熟妇人妻无乱码中文字幕真矢织江| 中文字幕久无码免费久久| 青草蜜桃视频在线观看| 一区二区三区在线观看人妖| 国产精品无码一区二区三区电影| 亚洲综合色成在线播放| 白白青青视频在线免费观看| 亚洲精品一区二区高清| 亚洲av无码专区亚洲av伊甸园 | 国产又爽又大又黄a片| 99久久久无码国产精品免费砚床| 精品人妻免费看一区二区三区| 国产亚洲中文字幕一区| 中国精品18videosex性中国| 婷婷成人基地| 久久久久亚洲AV无码专区一区| 中文字幕精品亚洲字幕| 国产精品自在拍在线拍| 久久久久99精品成人片试看 | 国产成人精品亚洲日本在线观看| 亚洲精品无码不卡av| 欧美丝袜秘书在线一区| 白白色发布的在线视频| 亚洲中文字幕国产综合| 成人无码区免费AⅤ片WWW| 新视觉亚洲三区二区一区理伦| 日韩精品成人无码专区免费| 少妇太爽了在线观看免费视频| 亚洲一区二区三区乱码在线| 精品人妻伦一二三区久久|