摘 要:語言是人類互動的基本手段也是人機交互的重要方式,是通信的必要手段。語音是語言存在的形式。語音和語言的研究日益受到重視,語音研究的目的是揭示言語交際的機理,獲取自然語音中的各種知識和信息,并為人類的信息交流服務(wù)。因此,語音處理成為目前發(fā)展最為迅速的一個研究領(lǐng)域,并形成了一門新興的交叉學(xué),而語音數(shù)據(jù)庫中語料的設(shè)計是建立數(shù)據(jù)庫首要的和關(guān)鍵的一個環(huán)節(jié),本文從語料的單詞、詞語、數(shù)字、句子、短文等幾個方面做了研究。
關(guān)鍵詞:漢語;方言;語音;數(shù)據(jù)庫;語料;設(shè)計
中圖分類號:TN912.3;TP311.13
漢語是世界上使用人數(shù)最多的語種之一,漢字一字一個音節(jié),400多個無調(diào)音節(jié)和四聲構(gòu)成了豐富多彩的漢語詞匯和語句。漢語不但有很多獨特的個性特點,而且,即使講普通話,不同地區(qū)的人也都帶著濃厚的方言口音。為此,從語音識別的需要出發(fā),很有必要建立一個包括不同地區(qū)(口音)、不同性別、不同年齡的發(fā)音人,具有自己特色而實用的漢語方言語音數(shù)據(jù)庫,這對于語音識別、語音分析甚至語言理解方面的研究工作都將有很大幫助。
漢語方言在各個地方是應(yīng)用比較廣泛的語言,它在發(fā)音、韻律、詞匯及其詞的形態(tài)變化、組織句子結(jié)構(gòu)、文章的構(gòu)成等許多方面都具有各自獨特的特性。漢語方言語音數(shù)據(jù)庫建設(shè)是漢語方言研究的不可缺少的部分。隨著對漢語方言研究的深入,比如機器翻譯、語音合成、語音識別、文字識別、智能檢索等的研究,漢語方言各個特性的量化描述需求越來越大。正是漢語方言語音數(shù)據(jù)庫,為漢語方言研究提供了確鑿的數(shù)據(jù)。
1 語料設(shè)計的原則
語料設(shè)計是指選取語音數(shù)據(jù)的內(nèi)容或選取錄音文本。語音庫語料的構(gòu)成和取樣是按照明確的語言學(xué)原則并采取隨機抽取方法收集語料的。語料庫作為自然語言運用的樣本,就必須具有代表性。目前的計算機語料庫可以通過控制抽樣過程和語料比例關(guān)系來增強語料的代表性。決定語料代表性的主要因素不外乎樣本抽樣的過程和語料量的大小。語料庫抽樣一般采取隨機抽樣方法。一種做法是在抽樣前首先確定抽樣的范圍;再就是確定語料的分層結(jié)構(gòu),進行分層抽樣。從各種語料的抽樣比例上又可分為“均衡抽樣”和“塔式抽樣”。前者對各種語料按平均比例抽取,而后者對不同的語料進行不等比例抽取。語料庫作為自然語言運用的樣本,通過觀察而得到的自然語言運用數(shù)據(jù)仍然是主要的可靠研究依據(jù)。
2 語料的設(shè)計
2.1 單詞的設(shè)計
漢語語言的基本單位是字,對應(yīng)于語音學(xué)中的音節(jié),漢語有調(diào)音節(jié)大約1270個左右,不考慮聲調(diào)差異的無調(diào)音節(jié)為400個左右,直接采用音節(jié)作為語音學(xué)單元顯然是不經(jīng)濟的,而清華大學(xué)的語音數(shù)據(jù)庫選了漢語的全部單音節(jié)字。在吳語文語轉(zhuǎn)換中語音合成與韻律控制的研究中也只選了很少的單字。因此,筆者在方言語料文本設(shè)計時只選擇了很少的一部分,該部分特別能反映本地方的方言特色及與普通話的區(qū)別。
2.2 詞語的設(shè)計
為了盡可能地反映各地漢語方言詞匯的面貌,筆者選的詞匯只限于方言中當?shù)爻菂^(qū)中年人口語常用的基本詞語,沒有選書面的詞語和新詞,結(jié)合已有的成果不僅選了兩音節(jié)的詞匯,而且選了三音節(jié)和四音節(jié)的詞匯。所選詞匯都來自中國社會科學(xué)院語言研究所所長沈家煊主持的中國社會科學(xué)院重大課題《現(xiàn)代漢語自然口語語料庫》和北京大學(xué)中國語言文學(xué)系語言學(xué)教研室編的《漢語方言詞匯(第二版)》中的詞匯。此外,筆者還根據(jù)方言的特點選了一些代詞(如人稱代詞、指示代詞、疑問代詞等)、形容詞、動詞和短語。
2.3 數(shù)字的設(shè)計
目前,一些語音數(shù)據(jù)庫都研究了數(shù)字的語音,但是他們都局限于0~9單個數(shù)字的語音學(xué)層面上的研究,而只有云南民族漢語語音數(shù)據(jù)庫考慮到了數(shù)字串的設(shè)計,但是他們只是為了識別連續(xù)數(shù)字,與筆者所要識別的方言有著不同的地方。因此,筆者所設(shè)計的文本,既繼承了傳統(tǒng)的0~9單個數(shù)字的文本設(shè)計,又考慮了連續(xù)數(shù)字串發(fā)音中語音學(xué)的問題,如音聯(lián)引起的單個數(shù)字的音變問題和連續(xù)數(shù)字在不同方言中的發(fā)音情況。
2.4 句子的設(shè)計
話語中包含著音韻結(jié)構(gòu)和停頓等語言學(xué)現(xiàn)象。連續(xù)語音中存在著不同的韻律結(jié)構(gòu),這些結(jié)構(gòu)和句法結(jié)構(gòu)有一定的關(guān)系,但又不是一一對應(yīng)的。韻律結(jié)構(gòu)對于提高語音合成系統(tǒng)的自然度、進行語音識別系統(tǒng)的后處理是十分重要的。為了使語料庫包括不同的韻律結(jié)構(gòu),筆者設(shè)計的語料文本包括了漢語的幾個不同句型。
2.5 短文的設(shè)計
目前,國際上關(guān)于連續(xù)語音語料庫的言語類型可分為三類:第一類是朗讀言語,第二類是流暢言語,第三類是自由言語。這三類的語言學(xué)問題都包括音段和韻律兩方面。連續(xù)語流中極為復(fù)雜的語音現(xiàn)象——音變,為言語工程帶來了許多困難,筆者認為在目前階段首先考慮音段中的語境音變是比較合適的而短文語料屬于一種流暢言語。
中國科學(xué)院聲學(xué)研究所在1994年研究的漢語普通話語音數(shù)據(jù)庫選了13篇短文,全部是現(xiàn)代語言大師的作品:含政治、經(jīng)濟、哲學(xué)、散文、詩歌等內(nèi)容。筆者要研究的漢語方言與普通話不同,因為以上這些內(nèi)容涉及很多專業(yè)性的專有名詞而且絕大部分都是書面語,很可能還有音譯外來詞,這些內(nèi)容如果要用漢語方言表達出來有一定的難度而且不一定是純方言。因此,筆者結(jié)合已經(jīng)研究的一些語音數(shù)據(jù)庫,選擇了來自863合成庫的“北風(fēng)和太陽”、“烏鴉和瓶子”兩篇小短文。
3 結(jié)束語
漢語方言語音數(shù)據(jù)庫的設(shè)計是一個全新的領(lǐng)域,關(guān)系到語音識別、語言辨識。尤其是中國方言極其復(fù)雜,大方言區(qū)下劃分次方言區(qū),次方言區(qū)還可以劃分,方言劃分的標準沒有統(tǒng)一。語音數(shù)據(jù)庫建設(shè)總的發(fā)展趨勢有以下幾個特點:規(guī)模大:方言言語材料內(nèi)容數(shù)量大,發(fā)音人多。言語材料也從簡單的數(shù)字,到基本覆蓋音節(jié)和語音現(xiàn)象,乃至多方言多地域多語言的大型語音數(shù)據(jù)庫。言語材料設(shè)計和發(fā)音人的選取,早以成為語音數(shù)據(jù)庫建設(shè)龐大而復(fù)雜的重要組成部分。用途廣:既考慮應(yīng)用與言語處理系統(tǒng),如訓(xùn)練和評價識別系統(tǒng)等,也可用于如言語產(chǎn)生、言語知覺建模等聲學(xué)語音學(xué)的基本研究。最初的語料庫多是為簡單的語言識別,如數(shù)字識別、說話人口令識別等設(shè)計的,而今,隨著計算機言語技術(shù)的不斷發(fā)展,語音數(shù)據(jù)庫也進入了計算機語音技術(shù)的各個領(lǐng)域,為更復(fù)雜高質(zhì)量的言語技術(shù)提供著有力的支持。層次高:從元音、輔音、孤立音節(jié)開始,逐漸擴大到詞、句乃至文章段落,向自然語言發(fā)展。語音數(shù)據(jù)庫的層次也是隨著計算機言語技術(shù)的層次不斷提高的。由最初的孤立詞識別與合成,到現(xiàn)在的基于自然語言連續(xù)語音技術(shù)不斷發(fā)展與成熟。標準化:用統(tǒng)一的選材原則和方法建立資料庫,使用各種言語的數(shù)據(jù)庫之間的數(shù)據(jù)可以交流,不同語言之間可以比較。
參考文獻:
[1]趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003.
[2]丁玉美,高西全.數(shù)字信號處理[M].西安:西安電子科技大學(xué)出版社,2001.
[3]葵蓮紅,黃德智,葵銳.現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003.
[4]易克初,田斌,付強.語音信號處理[M].北京:國防工業(yè)出版社,2000.
[5]董紹克.漢語方言詞匯差異比較研究[M].北京:民族出版社,2002.
[6]Thomas W.parsons.VOICE AND SPEECH PROCESSING.McGraw-Hill Book Company,1986.
作者簡介:沈偉(1980-),男,江蘇泰州人,講師,研究方向:計算機技術(shù)。
作者單位:泰州職業(yè)技術(shù)學(xué)院,江蘇泰州 225300