韋 韌
(中國(guó)社會(huì)科學(xué)院 民族學(xué)與人類(lèi)學(xué)研究所,北京 100081)
在語(yǔ)音數(shù)據(jù)庫(kù)建設(shè)方面,我國(guó)近30年的成果顯著。如中國(guó)科技大學(xué)、中國(guó)科學(xué)院聲學(xué)研究所、中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所聯(lián)合建立了《漢語(yǔ)語(yǔ)音識(shí)別資料庫(kù)》,中國(guó)社會(huì)科學(xué)院語(yǔ)言所還建立了《現(xiàn)代漢語(yǔ)自然口語(yǔ)語(yǔ)料庫(kù)》《自然對(duì)話語(yǔ)料庫(kù)》《現(xiàn)代漢語(yǔ)方言自然口語(yǔ)語(yǔ)料庫(kù)》;中國(guó)科學(xué)院自動(dòng)化所建立《旅游咨詢口語(yǔ)對(duì)話語(yǔ)料庫(kù)》和《旅館預(yù)定口語(yǔ)對(duì)話語(yǔ)料庫(kù)》;北京語(yǔ)言大學(xué)建立《漢語(yǔ)中介語(yǔ)語(yǔ)音語(yǔ)料庫(kù)》;香港大學(xué)和香港理工大學(xué)聯(lián)合建立《香港廣州話語(yǔ)音資料庫(kù)》以及臺(tái)灣建立的《高山語(yǔ)語(yǔ)音語(yǔ)料庫(kù)》等[1]。這一系列語(yǔ)料庫(kù)的建立為語(yǔ)言學(xué)的進(jìn)一步研究提供了大批量語(yǔ)料,也積累了技術(shù)經(jīng)驗(yàn),為研究成果提供了客觀依據(jù)。
與漢語(yǔ)方言相比,藏語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)建設(shè)方面的成果相對(duì)來(lái)說(shuō)就少得多。藏語(yǔ)拉薩話語(yǔ)音聲學(xué)參數(shù)數(shù)據(jù)庫(kù)收集了733個(gè)藏語(yǔ)拉薩話單音節(jié),并分析歸納出4個(gè)數(shù)據(jù)群,分別是聲母(輔音)數(shù)據(jù)群、核心元音數(shù)據(jù)群、鼻音數(shù)據(jù)群和聲調(diào)數(shù)據(jù)群。數(shù)據(jù)庫(kù)還設(shè)置了三個(gè)功能,包括排序檢索功能、統(tǒng)計(jì)分析功能和繪圖功能[2]。安多藏語(yǔ)語(yǔ)音合成語(yǔ)料庫(kù)包含1萬(wàn)個(gè)詞匯,這些詞匯是從各類(lèi)電子詞典和電子文本中選擇獲取[3]。藏語(yǔ)單音節(jié)聲學(xué)參數(shù)數(shù)據(jù)庫(kù)收集了囊括藏語(yǔ)三個(gè)方言的約10萬(wàn)詞條,共整理歸納出約6 000個(gè)音節(jié),并對(duì)音節(jié)進(jìn)行窮盡性錄音、標(biāo)注國(guó)際音標(biāo)、歸納音節(jié)類(lèi)型。與此同時(shí),在整理、歸納與分析音節(jié)結(jié)構(gòu)的基礎(chǔ)上,設(shè)計(jì)和建立了包含39項(xiàng)聲學(xué)參數(shù)的藏語(yǔ)單音節(jié)聲學(xué)參數(shù)數(shù)據(jù)庫(kù)[4]。
在藏語(yǔ)語(yǔ)音識(shí)別和語(yǔ)音合作研究方面,訊飛科技有限公司與西藏大學(xué)等單位合作,搭建了藏語(yǔ)語(yǔ)音識(shí)別和合成的技術(shù)框架,在書(shū)面藏文的文讀語(yǔ)音識(shí)別和合成方面做了大量的工作。
但是藏語(yǔ)語(yǔ)音識(shí)別的基礎(chǔ)工作還比較薄弱,尤其是在藏語(yǔ)方言土語(yǔ)語(yǔ)音資源建設(shè)方面,還遠(yuǎn)遠(yuǎn)不能滿足當(dāng)前語(yǔ)音識(shí)別的要求。
中國(guó)境內(nèi)的藏族使用藏語(yǔ)作為他們的民族語(yǔ)言,藏語(yǔ)的使用范圍較廣,遍布整個(gè)藏區(qū),較集中的使用地區(qū)有西藏自治區(qū)、青海省、四川省甘孜藏族自治州及阿壩藏族羌族自治州、甘肅省甘南藏族自治州、云南省迪慶藏族自治州。根據(jù)譜系分類(lèi),藏語(yǔ)歸屬于漢藏語(yǔ)系藏緬語(yǔ)族藏語(yǔ)支。藏語(yǔ)有三個(gè)方言,分別是衛(wèi)藏方言、安多方言和康方言。衛(wèi)藏方言的標(biāo)準(zhǔn)音是拉薩話,使用范圍在西藏自治區(qū)拉薩市以南。安多方言的使用范圍在青海省藏區(qū)、四川省阿壩藏族羌族自治州和甘肅省甘南藏族自治州??捣窖缘氖褂梅秶谖鞑刈灾螀^(qū)拉薩市以北、云南省迪慶藏族自治州、四川省甘孜藏族自治州和青海省玉樹(shù)藏族自治州。
藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)存儲(chǔ)了藏語(yǔ)方言的字、詞及句的文本、音頻及元數(shù)據(jù)等其他屬性信息。藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)依靠自然語(yǔ)音數(shù)據(jù),采集自然語(yǔ)音,并對(duì)語(yǔ)音進(jìn)行標(biāo)注,為語(yǔ)言學(xué)的本體研究和語(yǔ)言學(xué)信息化技術(shù)服務(wù)。藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)建設(shè)可以分為兩大部分:一是藏語(yǔ)方言數(shù)據(jù)的建設(shè),包括語(yǔ)料編制、語(yǔ)料采集、語(yǔ)料標(biāo)注。二是數(shù)據(jù)庫(kù)的建設(shè),包括數(shù)據(jù)庫(kù)的結(jié)構(gòu)框架設(shè)計(jì)、數(shù)據(jù)管理。具體分為以下四個(gè)階段:①數(shù)據(jù)庫(kù)設(shè)計(jì);②語(yǔ)料采集;③語(yǔ)料標(biāo)注;④數(shù)據(jù)庫(kù)使用和維護(hù)。
語(yǔ)圖是在計(jì)算機(jī)上繪制輸出的語(yǔ)音頻譜圖,語(yǔ)圖能直觀表達(dá)出語(yǔ)音的各項(xiàng)聲學(xué)特征。語(yǔ)料庫(kù)是采集到的自然語(yǔ)言材料數(shù)據(jù)庫(kù),原始語(yǔ)料需要經(jīng)過(guò)分析和處理后才能成為計(jì)算機(jī)能識(shí)別、并且能分析利用的資源。這個(gè)分析處理的過(guò)程即是標(biāo)注。
文本語(yǔ)料的選擇編制和語(yǔ)料標(biāo)注的可靠性是藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)構(gòu)建中的重難點(diǎn)。語(yǔ)料的收集途徑要求真實(shí)、客觀,收集的方法要求科學(xué)。文本語(yǔ)料在設(shè)計(jì)時(shí),要充分考慮到所挑選的文本具有代表性,以保證語(yǔ)料庫(kù)數(shù)據(jù)可以全面囊括自然語(yǔ)言特征。按照這個(gè)選取標(biāo)準(zhǔn)和選取方法構(gòu)建出來(lái)的語(yǔ)料庫(kù)既全面又沒(méi)有冗余。語(yǔ)料標(biāo)注采用荷蘭語(yǔ)言學(xué)家開(kāi)發(fā)的Praat軟件,進(jìn)行切音標(biāo)注,繪制語(yǔ)圖。如果只用一人進(jìn)行手工標(biāo)注,無(wú)法確保切分標(biāo)注結(jié)果的準(zhǔn)確性,如果雇傭多人進(jìn)行手工標(biāo)注,短時(shí)間內(nèi)又無(wú)法找到大批量的專(zhuān)業(yè)標(biāo)注人才。如果雇傭的標(biāo)注人員專(zhuān)業(yè)知識(shí)不扎實(shí),切分標(biāo)注結(jié)果的準(zhǔn)確性得不到保證。解決上述兩種情況的對(duì)策辦法,一是在工作開(kāi)始前開(kāi)展集中培訓(xùn),提高手工標(biāo)注切分人員的專(zhuān)業(yè)知識(shí),以減少因人的主觀傾向性產(chǎn)生的誤差;二是增加手工標(biāo)注切分人員數(shù)量,同一語(yǔ)料分配給多個(gè)人同時(shí)處理后,再統(tǒng)一匯總,以保證標(biāo)注切分結(jié)果的準(zhǔn)確率。
藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)的建立可以系統(tǒng)地記錄保存藏語(yǔ)方言語(yǔ)音,對(duì)語(yǔ)料進(jìn)行科學(xué)的切音標(biāo)注,繪制出語(yǔ)圖。內(nèi)容上主要包括語(yǔ)料錄音整理、語(yǔ)音自動(dòng)標(biāo)注、語(yǔ)圖標(biāo)注數(shù)據(jù)庫(kù)的建庫(kù)三個(gè)方面,在研究方法上選擇定性研究和定量研究相結(jié)合,語(yǔ)料的選取原則、切分、標(biāo)注與分析屬于定性研究,語(yǔ)料的收集、數(shù)據(jù)庫(kù)建設(shè)屬于定量研究。首先,在藏語(yǔ)三個(gè)方言分布區(qū)域內(nèi)依據(jù)制定好的語(yǔ)料選取原則,選擇多個(gè)語(yǔ)料數(shù)據(jù)采集點(diǎn),內(nèi)容分為字、詞、句、篇章。所采用語(yǔ)料從目前已建好語(yǔ)料庫(kù)中選取,再到各采集點(diǎn)選擇合適的發(fā)音人,采取發(fā)音人一對(duì)一地調(diào)查錄音。想要?jiǎng)?chuàng)建一個(gè)全面標(biāo)準(zhǔn)的藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù),語(yǔ)料的客觀性和代表性是最根本的要求。因此,調(diào)研人員需要有較強(qiáng)的調(diào)研能力,必須具有豐富的田野經(jīng)驗(yàn),熟悉語(yǔ)料采集的整個(gè)流程,能夠熟練操作錄音設(shè)備和電腦軟件,具有善于溝通交流的能力。調(diào)研人員還要有很強(qiáng)的專(zhuān)業(yè)知識(shí),能夠快速核對(duì)語(yǔ)料,發(fā)現(xiàn)問(wèn)題及時(shí)就地解決,以節(jié)約人力和時(shí)間成本。語(yǔ)料的切分、標(biāo)注通過(guò)Praat軟件完成。具體的操作步驟:①將文本語(yǔ)料轉(zhuǎn)寫(xiě)成國(guó)際音標(biāo)。②使用軟件自帶的自動(dòng)標(biāo)注功能對(duì)語(yǔ)料進(jìn)行初次標(biāo)注。③專(zhuān)業(yè)標(biāo)注人員核查,對(duì)已經(jīng)自動(dòng)標(biāo)注過(guò)的語(yǔ)料進(jìn)行二次標(biāo)注,對(duì)標(biāo)注錯(cuò)誤或不合理的地方進(jìn)行手動(dòng)調(diào)整。④將所有文本語(yǔ)料、錄音材料和語(yǔ)圖標(biāo)注數(shù)據(jù)集合成數(shù)據(jù)庫(kù)系統(tǒng),以方便后續(xù)研究的調(diào)用。
為建設(shè)數(shù)據(jù)庫(kù)所開(kāi)展的語(yǔ)料采集工作有利于保護(hù)藏語(yǔ)方言,并且在語(yǔ)音數(shù)據(jù)庫(kù)建設(shè)中提出的一些方法和理論對(duì)創(chuàng)建其他少數(shù)民族語(yǔ)言語(yǔ)音數(shù)據(jù)庫(kù)是一個(gè)有利的參考。藏語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù)的創(chuàng)建過(guò)程中,需要運(yùn)用語(yǔ)言學(xué)、應(yīng)用語(yǔ)言學(xué)和計(jì)算機(jī)語(yǔ)言學(xué)學(xué)科知識(shí),是社會(huì)科學(xué)和自然科學(xué)的交叉結(jié)合。該數(shù)據(jù)的建成不僅限于為藏語(yǔ)的語(yǔ)言學(xué)研究提供包含語(yǔ)音、詞匯、語(yǔ)法三方面的基礎(chǔ)材料,還為藏族文化、歷史地理和風(fēng)俗習(xí)慣提供了文字證據(jù)。同時(shí),發(fā)揮了一個(gè)示范作用,推動(dòng)社會(huì)科學(xué)和自然科學(xué)的交叉運(yùn)用研究。藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)是一種重要而必需的資源儲(chǔ)備,是自然語(yǔ)言處理工作的前提準(zhǔn)備和必要環(huán)節(jié),只有創(chuàng)建了一個(gè)全面準(zhǔn)確的熟語(yǔ)料數(shù)據(jù)庫(kù),才能有效地開(kāi)展藏語(yǔ)的語(yǔ)音識(shí)別與合成、藏文文本自動(dòng)翻譯和人機(jī)交互技術(shù)等工作,對(duì)國(guó)家安全具有直接的應(yīng)用價(jià)值。