梁青青,周小燕,趙春艷
(蘭州文理學(xué)院 傳媒工程學(xué)院,甘肅 蘭州 730000)
我國(guó)是多民族國(guó)家,除漢族外,藏族是人口眾多的少數(shù)民族之一,在我國(guó)約有七百萬人口(2016),主要分布在西藏自治區(qū)、青海省、四川省西部、云南迪慶和甘肅甘南等地區(qū).生活在這些少數(shù)民族地區(qū)的人們,藏語是他們的主要語言[1].國(guó)家為了民族統(tǒng)一和共同發(fā)展,目前正在積極推廣普通話.《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》中第九章民族教育的第二十七條指出:大力推進(jìn)雙語教學(xué),全面開設(shè)漢語言文學(xué)課程,全面推廣國(guó)家通用語言文字[2].因此,面向藏族學(xué)生的雙語教學(xué)對(duì)于提高他們的普通話水平尤為重要.然而,藏族人的普通話發(fā)音容易受到其母語發(fā)音習(xí)慣的影響,總會(huì)帶有一些固定類型的錯(cuò)誤發(fā)音,這就需要有專業(yè)教師對(duì)其普通話發(fā)音進(jìn)行針對(duì)性的糾正.這種方式費(fèi)時(shí)費(fèi)力,效率也不高.隨著語音信號(hào)處理技術(shù)的不斷成熟以及智能語音技術(shù)的快速發(fā)展,計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)(Computer Aided Language Learning,CALL)[3]用于藏族學(xué)生的普通話發(fā)音評(píng)估越來越受到人們的青睞.構(gòu)建一個(gè)適用于藏族學(xué)生普通話發(fā)音評(píng)估的語料庫是其應(yīng)用的基礎(chǔ).關(guān)于藏語信息技術(shù)方面的研究起步較晚,資源也相對(duì)缺乏.根據(jù)知網(wǎng)查詢發(fā)現(xiàn),已有的成果有:西北民族大學(xué)藏文信息處理研究所設(shè)計(jì)的安多藏語語音合成語料庫;中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所、西藏語委、新疆大學(xué)和西南民族大學(xué)共同完成的“藏、維、彝民語語音參數(shù)數(shù)據(jù)庫”;西藏大學(xué)藏文信息技術(shù)研究中心的“面向藏語聲紋識(shí)別的語料庫”[4].這些數(shù)據(jù)庫主要用于語音合成和語音識(shí)別,大部分還處于語料收集和研究階段,而且現(xiàn)有的語料庫也未涉及普通話聲韻調(diào)發(fā)音特征和藏語聲韻調(diào)發(fā)音特征的差異.因此,本文以甘肅地區(qū)藏族學(xué)生在雙語教學(xué)中學(xué)習(xí)普通話發(fā)音為研究?jī)?nèi)容,先從語言學(xué)角度對(duì)比分析藏語和標(biāo)準(zhǔn)普通話的發(fā)音特征,歸納總結(jié)出藏語語者普通話的發(fā)音特征,在此基礎(chǔ)上進(jìn)行文本設(shè)計(jì)和語音錄制,構(gòu)建合適的語料庫.進(jìn)一步對(duì)錄制的音頻文件進(jìn)行分層標(biāo)注:短語層用漢字標(biāo)注;音節(jié)層用漢語拼音標(biāo)注;利用計(jì)算機(jī)可讀音標(biāo)(Speech Assessment Methods Phonetic Alphabet,SAMPA)來標(biāo)注音素層;用調(diào)值來標(biāo)注聲調(diào)信息,最后,將所有標(biāo)注信息寫入.TextGrid文件中.
在設(shè)計(jì)文本語料庫的過程中,需要科學(xué)地設(shè)計(jì)語料內(nèi)容,用盡量少的語料覆蓋語言的所有發(fā)音現(xiàn)象.藏族人在說普通話時(shí)容易受到母語的影響,說出的普通話具有明顯藏腔藏調(diào).由于藏語和漢語在結(jié)構(gòu)上具有相似性,所以采用漢語中拼音的構(gòu)成,即聲母、韻母以及聲調(diào)的概念來比較分析藏語語者的普通話語音特征.本文結(jié)合藏族小學(xué)的課本,從聲母、韻母以及聲調(diào)上對(duì)比藏族學(xué)生的普通話與標(biāo)準(zhǔn)普通話的差異,歸納出藏族學(xué)生易混淆的聲韻調(diào),進(jìn)行文本語料的設(shè)計(jì).
漢語是音節(jié)型語言.漢語拼音有23個(gè)聲母,24個(gè)韻母,每個(gè)漢字的拼音都有聲母(零聲母)、韻母和聲調(diào).聲母起輔音作用.韻母由單元音或者元音與輔音構(gòu)成,可以分為單韻母、復(fù)韻母和鼻韻母.聲調(diào)分為陰平、陽平、上聲和去聲.
藏語和漢語屬于同一個(gè)語系,并且藏語也是音節(jié)型語言.目前藏語方言主要分為3類:衛(wèi)藏方言(拉薩話)、康方言(德格話、昌多話)和安多方言,本文以衛(wèi)藏方言中的拉薩藏語為研究對(duì)象.藏語和漢語不同,藏語是由字母組合形成的文字,每個(gè)字母都有自己的發(fā)音,字母的組合實(shí)際上就是音與音之間的拼合,所以稱之為拼音文字[5].
1.2.1 聲母發(fā)音特征的區(qū)別
根據(jù)拉薩藏語聲母系統(tǒng)來進(jìn)行分析,藏語和普通話共享20個(gè)聲母,如表1所列.除此之外,藏語和普通話還有其特有的聲母,如表2所列.通過對(duì)比發(fā)現(xiàn)藏語相對(duì)普通話多出4個(gè)聲母,但藏語聲母系統(tǒng)缺少清擦音f[f]和h[x],藏族人通過借用其他音來發(fā)這兩個(gè)音[6].例如,有時(shí)會(huì)將f[f]音發(fā)成[ph],有時(shí)會(huì)用藏語聲母中的[h]來匹配普通話中的h[x],或者用濁擦音[]來發(fā)h[x].趙金燦[7]在調(diào)查中發(fā)現(xiàn),藏語中的送氣聲母在雙音節(jié)詞中的后位會(huì)變成不送氣,這個(gè)習(xí)慣導(dǎo)致他們學(xué)習(xí)普通話時(shí)聲母被替換.因此,藏族人在學(xué)習(xí)“c”“z”“s”“ch”“zh”“sh”時(shí)會(huì)遇到較大困難,在普通話聲母中還容易混淆p[ph]-b[p]、t[th]-d[t]、k[kh]-g[k]、c[h]-z[]、ch[h]-zh[].
表1 藏語和普通話共享的聲母
表2 藏語和普通話各自特有的聲母
1.2.2 韻母發(fā)音特征的區(qū)別
藏語和普通話共享11個(gè)韻母,具體情況如表3所列,藏語34個(gè)特有韻母如表4所列.從表中可以發(fā)現(xiàn),藏語和普通話的韻母差異比聲母系統(tǒng)大.藏語中特有的鼻化元音是普通話中沒有的,但是藏語中缺少了普通話中的復(fù)元音.另外,豐富的輔音韻尾是藏語韻母區(qū)別于普通話的另一個(gè)主要特征.
表3 藏語和普通話共享的韻母
表4 藏語特有的韻母
根據(jù)趙金燦等人的調(diào)查顯示,藏族人在學(xué)習(xí)普通話時(shí),容易發(fā)生偏誤的韻母有:①把o[o]發(fā)音成 u[u];②普通話中的e[],在藏族人中容易發(fā)成[?],藏族人容易出現(xiàn)舌位的錯(cuò)誤;③藏語中沒有兒化音,因此,藏族人在在帶兒化音的詞中兒化音常常發(fā)音為零聲母;④藏語中因缺乏普通化的ou[ou],常常與[u]混淆;⑤藏族人在學(xué)習(xí)an[an]、ang[??]時(shí)容易將兩者混淆;⑥藏族人在學(xué)習(xí)en[n]、in[in]時(shí)也極易出錯(cuò).
1.2.3 聲調(diào)發(fā)音特征的區(qū)別
藏語和普通話一樣都是聲調(diào)語言,不同的聲調(diào)可以表達(dá)不同的語義,也可以表達(dá)不同的語法功能.對(duì)于聲調(diào)的研究通常會(huì)用“五度值記調(diào)法”來表示不同的調(diào)音[8],藏語和普通話的調(diào)型調(diào)值如表5所列.
表5 藏語和普通話的調(diào)型調(diào)值
通過對(duì)比發(fā)現(xiàn),普通話的陰平調(diào)值高于藏語的高平調(diào),二者的調(diào)值略有差異;普通話的去聲和藏語的高降調(diào)在調(diào)型和調(diào)值上都一樣.這兩種語言的差別在升調(diào)和曲降調(diào),普通話的陽平是中升調(diào),而藏語是低升調(diào),藏語調(diào)值整體比普通話要低.普通話的上聲調(diào)值是214,屬于中降升調(diào),而與其對(duì)應(yīng)的藏語調(diào)值是132,屬于是低升降調(diào).從調(diào)值可以發(fā)現(xiàn),普通話的上聲是先降后升,而藏語的是先升后降,二者差異較大.因此,藏族人學(xué)習(xí)普通話聲調(diào)的難點(diǎn)主要在于陽平和上聲.
本文主要從藏語和普通話在聲母、韻母和聲調(diào)上的主要差別出發(fā)來設(shè)計(jì)文本語料庫.由于雙語教學(xué)語料庫既能對(duì)小學(xué)生普通話發(fā)音進(jìn)行糾正,也能用來研究藏語的語音分析、韻律建模、語音轉(zhuǎn)換和語音合成等,因此,該語料庫應(yīng)滿足以下條件:
(1)應(yīng)盡可能覆蓋漢語普通話中所有由聲母、韻母和聲調(diào)組合而成的音節(jié);
(2)藏語音節(jié)中的濁輔音和輔音韻尾在日常發(fā)音中經(jīng)常被簡(jiǎn)化,進(jìn)而會(huì)給藏族學(xué)生學(xué)習(xí)普通話發(fā)音造成一定影響.因此,在構(gòu)建文本語料庫中需要重點(diǎn)考慮對(duì)這種情況的覆蓋;
(3)需要考慮聲調(diào)發(fā)生變化的情況,例如:由兩個(gè)三聲的字組成詞時(shí),第1個(gè)字通常會(huì)變?yōu)槎?一些詞語及句子中存在聲調(diào)變成輕聲的情況.
基于以上條件,結(jié)合小學(xué)階段的科學(xué)課教材,通過對(duì)比普通話和藏語在聲韻母、聲調(diào)、語調(diào)、節(jié)律、語速等方面的異同,設(shè)計(jì)面向藏族學(xué)生學(xué)習(xí)普通話的雙語教學(xué)文本語料[9],語料庫要包含單字、詞組和連續(xù)語句.單字要包含藏語和普通話里面所有的聲韻母組合以及不同聲調(diào)組合;詞組需要包含所有不同聲調(diào)組合的詞語;連續(xù)語句要包含陳述句、祈使句、疑問句等不同句型.最后,我們構(gòu)建單字500字、雙字詞1 000詞、三字詞400詞和語句800句4種藏語的文本語料.以下為設(shè)計(jì)的4種藏語的文本語料實(shí)例.
選擇甘南州以普通話為主要教學(xué)語言的合作第一小學(xué)的藏族學(xué)生錄制藏語,錄制藏語的學(xué)生既會(huì)說藏語,也會(huì)說普通話,錄制普通話的漢族學(xué)生只會(huì)說普通話.最后,從一到六年級(jí),每個(gè)年級(jí)挑選10名學(xué)生,5名藏族學(xué)生和5名漢族學(xué)生,共60名學(xué)生,其中男生28名,女生32名,錄制全部文本語料.
所有的語音語料都是在專門的錄音環(huán)境中通過專業(yè)的錄音設(shè)備錄制的.錄音設(shè)備采用高保真話筒和外置聲卡,保證音頻采集質(zhì)量,利用筆記本電腦安裝的CoolEdit軟件進(jìn)行音頻錄制.錄音過程中CoolEdit軟件可以實(shí)時(shí)顯示語音波形,根據(jù)波形幅值大小的變化來保證錄音人最佳音量和語速,這樣可以最大限度避免反復(fù)錄制,保證錄音質(zhì)量.最后錄制好的語音語料以單聲道、16位采樣精度、44.1 kHz采樣頻率保存為WAV格式的文件.從錄制的具體內(nèi)容來看,首先錄制了單字,單字簡(jiǎn)單,錄制時(shí)不易出錯(cuò);然后錄制了雙字和三字,詞語在朗讀的時(shí)候會(huì)有變調(diào)的情況,需要錄音人仔細(xì)斟酌;最后錄制了語句,語句較長(zhǎng),需要把控好語速和語調(diào).
錄音的音頻總時(shí)長(zhǎng)大約為8 h,為了使用方便,后期通過專門的音頻軟件CoolEdit對(duì)所有的音頻文件進(jìn)行編輯切分,并保存為對(duì)應(yīng)的文件.對(duì)于單字、二字詞和三字詞,根據(jù)字?jǐn)?shù)分類,分別保存為對(duì)應(yīng)文件;一個(gè)語句保存為一個(gè)文件,并按照類別進(jìn)行編號(hào).
普通話和藏語都是音節(jié)作為最小發(fā)音單位,閱讀、分析也都以音節(jié)為單位,因此要將雙字詞、三字詞和句子切分成單個(gè)音節(jié),標(biāo)注出每個(gè)音節(jié)的起止位置,得到每個(gè)音節(jié)的時(shí)長(zhǎng).普通話和藏語每個(gè)音節(jié)的基本發(fā)音都由聲母、韻母和聲調(diào)決定,根據(jù)這些語音特征,本文采用國(guó)際上通用語音標(biāo)注軟件Praat,對(duì)語料庫進(jìn)行標(biāo)注[10].其標(biāo)注分為5個(gè)層級(jí):第1層為line,表示漢字標(biāo)注;第2層是pinyin,是語音針對(duì)漢語拼音的標(biāo)注;第3層為Phone層,利用國(guó)際上通用的機(jī)讀音標(biāo)方案SAMPA來標(biāo)注音素;第4層為mistake層,標(biāo)注可能的發(fā)音偏誤信息;第5層為tone層,標(biāo)注聲調(diào)信息.
漢語具體標(biāo)注的實(shí)例如圖3所示,具體標(biāo)注說明如表6所列.
圖3 漢語標(biāo)注實(shí)例
表6 標(biāo)注符號(hào)說明示例
對(duì)標(biāo)注過的語料編寫腳本程序,將標(biāo)注好的內(nèi)容按照和語音文件一一對(duì)應(yīng)的關(guān)系寫入.TexGrid文件,里面包含了標(biāo)注的所有層級(jí)信息.最后通過Praat軟件自動(dòng)提取基頻值和共振峰,以供后續(xù)分析使用.
本文主要介紹了如何構(gòu)建一個(gè)面向藏族學(xué)生在雙語教學(xué)中學(xué)習(xí)普通話發(fā)音評(píng)估研究的語料庫.從語言學(xué)角度對(duì)比分析藏語和標(biāo)準(zhǔn)普通話的發(fā)音特征,歸納總結(jié)出藏語語者普通話的發(fā)音特征.基于此設(shè)計(jì)文本語料,錄制語音語料.用Praat軟件對(duì)錄制好的語音語料進(jìn)行5層標(biāo)注,并將其獨(dú)立保存為.TextGrid格式文件,獲得該語音信息的相關(guān)特征.所構(gòu)建的語料庫既可以用來研究藏語計(jì)算機(jī)輔助發(fā)音系統(tǒng)設(shè)計(jì),也可以用來進(jìn)行藏語的實(shí)驗(yàn)語音學(xué)研究.今后將會(huì)從覆蓋性、全面性、質(zhì)量和可重復(fù)使用性等指標(biāo),對(duì)該語料庫進(jìn)行評(píng)估.