楊 健,李海光,張曉玲
(1.大理大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,云南大理 671003;2.大理大學(xué)學(xué)生工作處,云南大理 671003)
白族是中國(guó)主要少數(shù)民族之一,主要居住在云南省大理白族自治州,其民族語(yǔ)言白語(yǔ)分大理(南部),劍川(中部),碧江(北部)3種方言。語(yǔ)言基本詞匯一致度很高,但發(fā)音存在地區(qū)差異,使得差異大的地區(qū)之間初次通話比較困難。由于種種原因,白族語(yǔ)言一直沒(méi)能形成全民族通用的文字表達(dá),而大多數(shù)白族文學(xué)藝術(shù)作品、民族風(fēng)俗和文化習(xí)俗都是靠語(yǔ)音傳播,口耳相傳延續(xù)。在當(dāng)今全球化的經(jīng)濟(jì)文化沖擊下,隨著漢語(yǔ)普通話的進(jìn)一步普及,越來(lái)越多的白族青少年不愿意學(xué)習(xí)和傳承本民族語(yǔ)言,白語(yǔ)和其他少數(shù)民族的語(yǔ)言一樣面臨著消亡的危境。此外,大理白族自治州各地方區(qū)縣的白語(yǔ)發(fā)音各有特點(diǎn),甚至不同縣域的白語(yǔ)不能相互理解,這對(duì)白族語(yǔ)言的保護(hù)和民俗文化傳承延續(xù)造成極大困難,同時(shí)也對(duì)大理民族地區(qū)教育、經(jīng)濟(jì)和旅游產(chǎn)業(yè)發(fā)展形成一定的阻礙。
讓計(jì)算機(jī)能夠識(shí)別少數(shù)民族語(yǔ)音,進(jìn)而建立少數(shù)民族語(yǔ)音資源和語(yǔ)料庫(kù),是保護(hù)和傳承民族文化的非常重要的手段。已有研究面向白語(yǔ)語(yǔ)音識(shí)別問(wèn)題〔1〕,然而沒(méi)有白語(yǔ)專門(mén)的大規(guī)模語(yǔ)音語(yǔ)料庫(kù)存在。白語(yǔ)沒(méi)有自己的文字,因此進(jìn)行語(yǔ)言學(xué)研究時(shí),只能借助語(yǔ)音及其翻譯結(jié)果。對(duì)白語(yǔ)建立文本語(yǔ)料庫(kù)只能借助其他語(yǔ)言翻譯或是拼音∕國(guó)際音標(biāo)標(biāo)注方式,對(duì)民族語(yǔ)言資源的保護(hù)效果有限,且難以將實(shí)際的大規(guī)模語(yǔ)言發(fā)音資料應(yīng)用于白語(yǔ)研究。針對(duì)上述問(wèn)題,本文思考建立大規(guī)模白語(yǔ)語(yǔ)音語(yǔ)料庫(kù),同時(shí)基于語(yǔ)言學(xué)研究需求建設(shè)相應(yīng)分析接口。內(nèi)容主要包括:首先介紹目前白語(yǔ)語(yǔ)言學(xué)及語(yǔ)料庫(kù)建設(shè)研究現(xiàn)狀,然后提出白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)的系統(tǒng)結(jié)構(gòu),并針對(duì)白語(yǔ)語(yǔ)音語(yǔ)料采集和存儲(chǔ)提出相應(yīng)的解決措施,針對(duì)白語(yǔ)語(yǔ)言學(xué)研究問(wèn)題提出建設(shè)語(yǔ)言學(xué)分析接口方法。最后,對(duì)本文工作進(jìn)行總結(jié)并提出展望。
1.1 語(yǔ)料庫(kù)研究在語(yǔ)料庫(kù)和語(yǔ)言資源庫(kù)建設(shè)的理論研究上,國(guó)內(nèi)外學(xué)者已有較多的成果,例如劉巖對(duì)中國(guó)少數(shù)民族瀕危語(yǔ)言語(yǔ)音語(yǔ)料庫(kù)的建設(shè)進(jìn)行了分析,認(rèn)為這類語(yǔ)料庫(kù)的特點(diǎn)和作用、工作步驟及建庫(kù)過(guò)程中遇到的難點(diǎn)與漢語(yǔ)或非瀕危語(yǔ)言語(yǔ)音數(shù)據(jù)庫(kù)有所不同,并分析了建庫(kù)的困難〔2〕。柳歡從建庫(kù)的背景與狀況、原則與方法、問(wèn)題與對(duì)策等方面提出了如何在少數(shù)民族地區(qū)建立雙語(yǔ)語(yǔ)料庫(kù)的意見(jiàn)和建議〔3〕。在語(yǔ)料庫(kù)建設(shè)的應(yīng)用研究方面,新疆大學(xué)、內(nèi)蒙古大學(xué)、西藏大學(xué)和西南民族大學(xué)的研究者分別從事了維吾爾語(yǔ)、蒙語(yǔ)、藏語(yǔ)和彝語(yǔ)的語(yǔ)料庫(kù)建設(shè)研究,并取得一定成果。
在語(yǔ)料庫(kù)建設(shè)的標(biāo)準(zhǔn)化研究上,國(guó)際民間協(xié)作組織——開(kāi)放語(yǔ)檔聯(lián)盟(Open Language Archives Community,OLAC)針對(duì)語(yǔ)言資源數(shù)字網(wǎng)絡(luò)化立檔制定了一整套技術(shù)標(biāo)準(zhǔn)和建議性文件。這些文件對(duì)于制定我國(guó)瀕危語(yǔ)言有聲語(yǔ)言資源建設(shè)的語(yǔ)料類型標(biāo)準(zhǔn)、語(yǔ)言編碼標(biāo)準(zhǔn)、數(shù)據(jù)格式標(biāo)準(zhǔn)和內(nèi)容描述規(guī)范,有重要的參考借鑒價(jià)值。
1.2 白語(yǔ)語(yǔ)言研究和語(yǔ)料庫(kù)建設(shè)在白語(yǔ)的語(yǔ)言結(jié)構(gòu)∕功能相關(guān)研究上,國(guó)內(nèi)學(xué)者從單個(gè)語(yǔ)素到構(gòu)詞法再到特定功能詞的使用方面都有較多的研究成果,例如對(duì)劍川白語(yǔ)語(yǔ)素no的研究〔4〕,對(duì)鶴慶白語(yǔ)構(gòu)詞法的研究〔5〕,以及對(duì)白語(yǔ)中的否定詞和否定表達(dá)式及否定標(biāo)記的特征與來(lái)源進(jìn)行研究〔6〕。在白語(yǔ)語(yǔ)音發(fā)音及語(yǔ)法規(guī)律分析上,也存在有較多研究成果,例如利用HTK工具構(gòu)建HMM模型來(lái)實(shí)現(xiàn)白語(yǔ)語(yǔ)音識(shí)別〔1〕,對(duì)白語(yǔ)中具有擬聲現(xiàn)象詞匯的文化信息進(jìn)行解析〔7〕,對(duì)白語(yǔ)南部方言中來(lái)母關(guān)系詞聲母的讀音進(jìn)行分析,從歷史層次角度探索其來(lái)源〔8〕。
語(yǔ)料庫(kù)建設(shè)方面,徐琳、趙衍蓀等編著的《白語(yǔ)簡(jiǎn)志》提出了白語(yǔ)的分類系統(tǒng),并從多個(gè)角度對(duì)白語(yǔ)進(jìn)行了介紹,對(duì)白語(yǔ)語(yǔ)料庫(kù)建設(shè)方面有積極的指導(dǎo)作用;王鋒主持了中國(guó)社科院重點(diǎn)項(xiàng)目“白語(yǔ)方言詞匯語(yǔ)料庫(kù)”;還有大理州白族文化研究所編撰,徐琳主編的《大理叢書(shū)·白語(yǔ)篇》等著作,都對(duì)白語(yǔ)研究和語(yǔ)料庫(kù)建設(shè)起到積極的推動(dòng)指導(dǎo)作用〔9〕。
然而,不像藏語(yǔ)蒙語(yǔ)等有長(zhǎng)期使用文字的語(yǔ)言,其語(yǔ)料庫(kù)建設(shè)開(kāi)展較為容易,需要借助于計(jì)算機(jī)信息處理技術(shù)的白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)建設(shè)仍然處于起步狀態(tài),目前還沒(méi)有較為大型的面向完整句子的語(yǔ)音語(yǔ)料庫(kù)存在。在大數(shù)據(jù)等信息技術(shù)分析和應(yīng)用上,以白語(yǔ)語(yǔ)音為研究對(duì)象,并利用模式識(shí)別、統(tǒng)計(jì)學(xué)和數(shù)據(jù)分析方法對(duì)白語(yǔ)開(kāi)展研究的案例還較少。
為了建立具有代表性的語(yǔ)音語(yǔ)料庫(kù),本文建立的孤立詞語(yǔ)音語(yǔ)料庫(kù)主要參考《大理叢書(shū)·白語(yǔ)篇·卷三》〔9〕中所列方言詞匯表進(jìn)行錄制采集,該方言詞匯表以1957年白語(yǔ)調(diào)查詞匯材料為基礎(chǔ),又根據(jù)經(jīng)濟(jì)文化發(fā)展的實(shí)際情況進(jìn)行了增刪修改,共收錄詞匯2 897個(gè)。同時(shí),本文建立的語(yǔ)音語(yǔ)料標(biāo)注參考該書(shū)所列白語(yǔ)的聲韻母及聲調(diào)標(biāo)注方法。
語(yǔ)音語(yǔ)料庫(kù)與文本語(yǔ)料庫(kù)最大的不同是面向的語(yǔ)料不是文本,而是語(yǔ)音數(shù)據(jù),因此語(yǔ)料采集、存儲(chǔ)和預(yù)處理都有所不同,具體體現(xiàn)在:
(1)采集方式不同。文本語(yǔ)料庫(kù)的文本來(lái)源較多,采集起來(lái)也較為容易。而語(yǔ)音語(yǔ)料庫(kù)為了獲得語(yǔ)音數(shù)據(jù),就需要在日常的語(yǔ)言使用中進(jìn)行錄音。常用方法可以采用電話錄音或是從包含語(yǔ)音的影視作品中截取。為了使得語(yǔ)音語(yǔ)料數(shù)據(jù)更加準(zhǔn)確,還可以使用專門(mén)的錄音設(shè)備進(jìn)行錄制。由于白語(yǔ)在不同地域上發(fā)音有所不同,為了獲取這些差異性,就要求語(yǔ)音數(shù)據(jù)較為準(zhǔn)確,外部噪音較少,所以,本文采用的是以專業(yè)錄音筆在安靜環(huán)境下開(kāi)展錄音的方式。
(2)存儲(chǔ)方式不同。不像文本語(yǔ)料只需要進(jìn)行文字的存儲(chǔ),語(yǔ)音語(yǔ)料庫(kù)中的主體是語(yǔ)音文件,這些文件需要良好的存儲(chǔ)組織結(jié)構(gòu)和檢索方法。在具體實(shí)施時(shí),不但要存儲(chǔ)原始語(yǔ)音文件路徑,還需要存儲(chǔ)經(jīng)過(guò)預(yù)處理(例如降噪)后的文件路徑。此外,為了有效開(kāi)展語(yǔ)言學(xué)研究,還需要存儲(chǔ)對(duì)應(yīng)語(yǔ)音的語(yǔ)料標(biāo)注結(jié)果。對(duì)于白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)來(lái)說(shuō),不但要存儲(chǔ)原始語(yǔ)音和降噪后的語(yǔ)音,還要存儲(chǔ)語(yǔ)音對(duì)應(yīng)的含義(漢語(yǔ)釋義)和對(duì)應(yīng)的語(yǔ)言表示符號(hào)(拼音或國(guó)際音標(biāo)標(biāo)注符號(hào)及音調(diào)等)。
(3)預(yù)處理方式不同。文本語(yǔ)料采集后以文字形式存在,而語(yǔ)音語(yǔ)料則以語(yǔ)音數(shù)據(jù)的形式存在,因此在語(yǔ)料加工和預(yù)處理上也有所不同。在獲得初始語(yǔ)音語(yǔ)料數(shù)據(jù)后,需要對(duì)這些數(shù)據(jù)進(jìn)行相應(yīng)的分段標(biāo)記,不但包括詞語(yǔ)單位、詞性、句法、語(yǔ)義等內(nèi)容,還需要針對(duì)語(yǔ)音數(shù)據(jù)的特殊性進(jìn)行額外標(biāo)記,例如在錄音文件的前后靜音處、連續(xù)語(yǔ)音的詞間隔處的靜音標(biāo)記,以避免這些靜音階段對(duì)后期語(yǔ)音識(shí)別和自動(dòng)標(biāo)注模型的生成造成影響。此外,還需要原始語(yǔ)音的降噪處理,減少外部噪音對(duì)語(yǔ)音分析的影響。對(duì)于白語(yǔ)來(lái)說(shuō),由于沒(méi)有對(duì)應(yīng)文字,需要將語(yǔ)音用某種語(yǔ)言符號(hào)進(jìn)行表示,盡量減少歧義和二義性,從而不影響后面的語(yǔ)音分析和語(yǔ)言學(xué)研究。
3.1 語(yǔ)料庫(kù)系統(tǒng)總體結(jié)構(gòu)一個(gè)面向語(yǔ)言學(xué)研究和應(yīng)用的完整的白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)應(yīng)當(dāng)包含語(yǔ)音資源庫(kù)建設(shè)、語(yǔ)料庫(kù)語(yǔ)音數(shù)據(jù)的預(yù)處理、語(yǔ)料庫(kù)建設(shè)等幾個(gè)層次。語(yǔ)音資源搜集除了使用對(duì)話錄音的方式,還可以考慮建立移動(dòng)應(yīng)用或通過(guò)網(wǎng)絡(luò)采集的方式,白族語(yǔ)音檔案也是數(shù)據(jù)來(lái)源之一。采集后的音頻數(shù)據(jù)需要進(jìn)行預(yù)處理,包括背景去除降噪,目標(biāo)語(yǔ)音的提取和純化,內(nèi)容含義識(shí)別,語(yǔ)音構(gòu)成四要素的提取和定量化表示。經(jīng)過(guò)處理后的語(yǔ)音數(shù)據(jù)已經(jīng)有了具體內(nèi)容的表示,成為在統(tǒng)一的低噪音背景下的語(yǔ)音資料。這些大量的語(yǔ)音資料存儲(chǔ)在以云計(jì)算為基礎(chǔ)的存儲(chǔ)設(shè)備上,形成語(yǔ)音資源庫(kù)。在語(yǔ)音資源庫(kù)基礎(chǔ)上,充分利用語(yǔ)音識(shí)別、語(yǔ)義標(biāo)注,建立白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)及模型庫(kù),用以存放大量的白語(yǔ)語(yǔ)料資源和用于語(yǔ)音識(shí)別的模型表示。在建成的語(yǔ)料庫(kù)的基礎(chǔ)上,基于語(yǔ)料庫(kù)表示和建設(shè)技術(shù),結(jié)合關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)結(jié)構(gòu),可以構(gòu)建語(yǔ)料庫(kù)應(yīng)用系統(tǒng),提供語(yǔ)言學(xué)研究和其他應(yīng)用研究的語(yǔ)音語(yǔ)料的匯集、查詢、處理和提取功能。整個(gè)語(yǔ)音語(yǔ)料庫(kù)系統(tǒng)設(shè)計(jì)的總體框架見(jiàn)圖1。
圖1 總體框架圖
3.2 語(yǔ)料庫(kù)系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)一個(gè)完整的語(yǔ)料庫(kù)系統(tǒng)不應(yīng)當(dāng)只包含有語(yǔ)料的存儲(chǔ)和查詢功能,還應(yīng)當(dāng)為語(yǔ)言學(xué)研究和語(yǔ)言應(yīng)用系統(tǒng)的開(kāi)發(fā)提供輔助的工具,因此,本文提出的白族語(yǔ)音語(yǔ)料庫(kù)系統(tǒng)在數(shù)據(jù)存儲(chǔ)上包含了如下幾個(gè)方面。
(1)原始語(yǔ)音資源庫(kù),保存了原始的錄音數(shù)據(jù)及其相關(guān)信息,主要包括:錄音文件,語(yǔ)音釋義,錄音來(lái)源(錄音者的地域信息、年齡、性別、工作單位),錄音環(huán)境,錄音時(shí)間等。
(2)降噪語(yǔ)音資源庫(kù),是將原始錄音文件經(jīng)過(guò)數(shù)字化降噪處理后得到的語(yǔ)音資源,主要應(yīng)當(dāng)記錄的信息有:降噪后的語(yǔ)音數(shù)據(jù),語(yǔ)音釋義,語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的標(biāo)注(聲∕韻母及聲調(diào)標(biāo)注、詞標(biāo)注)。
(3)語(yǔ)音模型庫(kù),保存有從語(yǔ)音降噪預(yù)處理到連續(xù)語(yǔ)音識(shí)別和語(yǔ)音合成的一系列經(jīng)過(guò)機(jī)器學(xué)習(xí)得到的模型資源。這些模型資源分別根據(jù)不同的應(yīng)用接口采用文本或二進(jìn)制的格式進(jìn)行保存,主要包含有下列模型:語(yǔ)音降噪模型,孤立詞識(shí)別模型,連續(xù)語(yǔ)音識(shí)別模型,聲母∕韻母字典,孤立詞字典,自動(dòng)標(biāo)注模型,隱馬爾科夫識(shí)別網(wǎng)絡(luò)模型(Hidden Markov Model,HMM),基于深度學(xué)習(xí)算法的語(yǔ)音特征學(xué)習(xí)模型。
上述的資源庫(kù)部分結(jié)構(gòu)性較強(qiáng)的信息可以采用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行保存,例如原始語(yǔ)音資源的基本信息。然而,部分資源無(wú)法使用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行保存,只能采用關(guān)鍵詞對(duì)應(yīng)文件的方式以文件形式進(jìn)行保存,例如下面的HTK語(yǔ)音識(shí)別庫(kù)中的對(duì)于一個(gè)具有6個(gè)狀態(tài)的提取了39維梅爾頻率倒頻譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征的HMM模型的定義:
~o <VecSize> 39 <MFCC_0_D_A>
~h"proto"
<BeginHMM>
<NumStates> 5
<State> 2
<Mean> 39
0.0 0.0 0.0...
<Variance> 39
1.0 1.0 1.0...
<State> 3
<Mean> 39
0.0 0.0 0.0...
<Variance> 39
1.0 1.0 1.0...
<State> 4
<Mean> 39
0.0 0.0 0.0...
<Variance> 39
1.0 1.0 1.0...
<TransP> 5
0.0 1.0 0.0 0.0 0.0
0.0 0.6 0.4 0.0 0.0
0.0 0.0 0.6 0.4 0.0
0.0 0.0 0.0 0.7 0.3
0.0 0.0 0.0 0.0 0.0
<EndHMM>
類似于語(yǔ)音文件,這些模型文件也需要在數(shù)據(jù)庫(kù)中建立查詢和使用的鏈接路徑。
語(yǔ)料庫(kù)標(biāo)注是對(duì)語(yǔ)言進(jìn)行多維、多層面分析的基礎(chǔ),語(yǔ)料庫(kù)的有效利用很大程度上有賴于語(yǔ)料庫(kù)標(biāo)注的層次和質(zhì)量,語(yǔ)料庫(kù)分析則有賴于計(jì)算機(jī)環(huán)境的支持〔10〕。為了充分發(fā)揮白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究中的作用,必須要設(shè)計(jì)好供其他計(jì)算機(jī)應(yīng)用程序調(diào)用的語(yǔ)料庫(kù)的外部應(yīng)用接口。
4.1 語(yǔ)料庫(kù)的通用接口白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)最基本的功能就是能夠提供語(yǔ)音語(yǔ)料的查詢接口。由于白語(yǔ)沒(méi)有自己的文字,因此只能以其他語(yǔ)言文字(如漢語(yǔ))作為查詢的關(guān)鍵字入口。由于在數(shù)據(jù)庫(kù)中存儲(chǔ)了語(yǔ)音語(yǔ)料的釋義,可以利用這些釋義作為關(guān)鍵字查詢比較的字段。此外,由于是面向口語(yǔ)語(yǔ)音的,在查詢結(jié)果顯示上也與文字語(yǔ)料庫(kù)不同,需要采用音頻播放控件來(lái)播放相應(yīng)的語(yǔ)音。
此外,語(yǔ)料庫(kù)用于傳統(tǒng)語(yǔ)言學(xué)分析的另一個(gè)功能就是對(duì)語(yǔ)料的使用頻度進(jìn)行估計(jì)。在語(yǔ)料庫(kù)建設(shè)初期,可以參考其他語(yǔ)言的已有的詞的使用頻度并結(jié)合語(yǔ)料釋義與之進(jìn)行匹配而形成白語(yǔ)語(yǔ)音預(yù)料的使用頻度。如果實(shí)施了增量式的語(yǔ)料更新措施,還需要構(gòu)建相應(yīng)的算法,以便于對(duì)相應(yīng)的詞頻進(jìn)行實(shí)時(shí)的或是定期的批量更新,從而使得詞頻統(tǒng)計(jì)數(shù)據(jù)能夠逐漸貼近實(shí)際使用情況。
4.2 面向語(yǔ)音識(shí)別和語(yǔ)音合成應(yīng)用接口建立白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)的另一個(gè)重要目的是進(jìn)行白語(yǔ)語(yǔ)音識(shí)別和語(yǔ)音合成應(yīng)用的研究。語(yǔ)音識(shí)別的傳統(tǒng)方法是將語(yǔ)音的原始頻域和時(shí)域信號(hào)進(jìn)行采樣、分幀,并以幀為單位提取語(yǔ)音信號(hào)的特征描述,根據(jù)特征描述建立音素、孤立詞或是連續(xù)語(yǔ)音的識(shí)別模型,而這種識(shí)別模型通常以HMM模型來(lái)表示。自2011年,深度學(xué)習(xí)在語(yǔ)音識(shí)別問(wèn)題上獲得巨大成功以來(lái),新型的語(yǔ)音識(shí)別框架引起研究者的注意。本文研究以此為基礎(chǔ),提出面向語(yǔ)音識(shí)別和語(yǔ)音合成應(yīng)用的接口,建立的框架見(jiàn)圖2。
圖2 語(yǔ)音識(shí)別和語(yǔ)音合成應(yīng)用接口
4.3 增量式的語(yǔ)料庫(kù)更新語(yǔ)料庫(kù)在只有初始語(yǔ)料的情況下,受到語(yǔ)料規(guī)模的限制,并不能完全反應(yīng)出語(yǔ)言使用的真實(shí)情況,如果語(yǔ)料庫(kù)能夠根據(jù)時(shí)間的推進(jìn)不斷進(jìn)行語(yǔ)料的補(bǔ)充,則反映出來(lái)的語(yǔ)言特征將越來(lái)越貼近語(yǔ)言本身。本文設(shè)計(jì)了如下的增量式語(yǔ)料庫(kù)更新框架(見(jiàn)圖3)和相應(yīng)算法,分別針對(duì)孤立詞和連續(xù)語(yǔ)音。當(dāng)有新的語(yǔ)料進(jìn)入系統(tǒng)后,對(duì)整個(gè)系統(tǒng)進(jìn)行更新。
圖3 增量式語(yǔ)料庫(kù)更新
語(yǔ)料(詞)的使用頻度是進(jìn)行語(yǔ)言學(xué)研究時(shí)需要的一個(gè)重要參數(shù),本文設(shè)計(jì)的框架中,初始頻度將根據(jù)其他大型文本語(yǔ)料庫(kù)進(jìn)行初始化,當(dāng)有新的詞(如果是連續(xù)語(yǔ)音,則需要分詞)進(jìn)入系統(tǒng)后,對(duì)詞的使用頻度進(jìn)行更新,然后使用更新的頻度對(duì)語(yǔ)音識(shí)別模型進(jìn)一步優(yōu)化。假設(shè)增加的語(yǔ)料中,引用了某詞一次,則更新后的該詞使用頻度按下式進(jìn)行更新:
其中,F(xiàn)new和Fold分別表示該詞的更新后的使用頻度和更新前的使用頻度,而Nold表示該詞在原有語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)。在更新完詞的使用頻度后,該詞在語(yǔ)料庫(kù)中的總次數(shù)Nnew也需要更新:Nnew=Nold+1。這是針對(duì)更新語(yǔ)料中包含了一次詞條使用的情況,若進(jìn)行批量的詞條更新,則相應(yīng)的公式也很容易能夠得出。
作為中國(guó)較大少數(shù)民族白族使用的民族語(yǔ)言,白語(yǔ)沒(méi)有對(duì)應(yīng)的文字,且受到日益增強(qiáng)的外部經(jīng)濟(jì)文化的影響,處于日益消亡的境地。充分利用計(jì)算機(jī)技術(shù),建立白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)是保護(hù)民族文字和促進(jìn)民族文化進(jìn)一步發(fā)展的重要舉措。本文對(duì)白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)建設(shè)中涉及的語(yǔ)料采集存儲(chǔ)和預(yù)處理問(wèn)題進(jìn)行了闡述和解決,并提出白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)的系統(tǒng)結(jié)構(gòu)。同時(shí),面向語(yǔ)言應(yīng)用的兩大方面:語(yǔ)音識(shí)別和語(yǔ)音合成,提出在語(yǔ)音語(yǔ)料庫(kù)基礎(chǔ)上相應(yīng)應(yīng)用程序接口的建設(shè)問(wèn)題,同時(shí)給出了增量式語(yǔ)料庫(kù)更新方法和語(yǔ)料頻度更新公式。下一步的工作將在系統(tǒng)結(jié)構(gòu)分析的基礎(chǔ)上,充分利用數(shù)據(jù)庫(kù)技術(shù)、深度學(xué)習(xí)技術(shù)和多種語(yǔ)音識(shí)別工具,建立大規(guī)模白語(yǔ)語(yǔ)音語(yǔ)料庫(kù)并建設(shè)語(yǔ)音應(yīng)用接口系統(tǒng)。
〔1〕張令通.基于HTK的白族語(yǔ)音識(shí)別方法〔J〕.大理學(xué)院學(xué)報(bào),2013,12(10):27-32.
〔2〕劉巖.關(guān)于中國(guó)少數(shù)民族瀕危語(yǔ)言語(yǔ)音語(yǔ)料庫(kù)的設(shè)計(jì)〔J〕.中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2006,33(4):133-136.
〔3〕柳歡.試論少數(shù)民族地區(qū)“雙語(yǔ)語(yǔ)料庫(kù)”的建立〔J〕.中國(guó)校外教育旬刊,2013(28):3.
〔4〕吳福祥.白語(yǔ)no33的多功能模式及演化路徑〔J〕.民族語(yǔ)文,2015(1):3-22.
〔5〕段泗英.白語(yǔ)的句法手段構(gòu)詞法淺析:以鶴慶白語(yǔ)為例〔J〕. 安徽文學(xué)月刊,2014(5):128-129.
〔6〕張軍.白語(yǔ)方言否定標(biāo)記的特征與來(lái)源〔J〕.大理學(xué)院學(xué)報(bào),2012,11(7):39-44.
〔7〕王麗梅.白語(yǔ)的擬聲現(xiàn)象初探〔J〕.教師教育論壇,2012(2):43-45.
〔8〕王鋒.白語(yǔ)南部方言中來(lái)母的讀音〔J〕.民族語(yǔ)文,2013(3):56-62.
〔9〕大理白族自治洲白族文化研究所.大理叢書(shū)·白語(yǔ)篇〔M〕.昆明:云南民族出版社,2008.
〔10〕黃昌寧,李涓子.語(yǔ)料庫(kù)語(yǔ)言學(xué)〔M〕.商務(wù)印書(shū)館,2007:14-15.