亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        白語語音語料庫建設(shè)研究

        2018-01-22 09:33:20李海光張曉玲
        大理大學(xué)學(xué)報 2017年12期
        關(guān)鍵詞:語言研究

        楊 健,李海光,張曉玲

        (1.大理大學(xué)數(shù)學(xué)與計算機(jī)學(xué)院,云南大理 671003;2.大理大學(xué)學(xué)生工作處,云南大理 671003)

        白族是中國主要少數(shù)民族之一,主要居住在云南省大理白族自治州,其民族語言白語分大理(南部),劍川(中部),碧江(北部)3種方言。語言基本詞匯一致度很高,但發(fā)音存在地區(qū)差異,使得差異大的地區(qū)之間初次通話比較困難。由于種種原因,白族語言一直沒能形成全民族通用的文字表達(dá),而大多數(shù)白族文學(xué)藝術(shù)作品、民族風(fēng)俗和文化習(xí)俗都是靠語音傳播,口耳相傳延續(xù)。在當(dāng)今全球化的經(jīng)濟(jì)文化沖擊下,隨著漢語普通話的進(jìn)一步普及,越來越多的白族青少年不愿意學(xué)習(xí)和傳承本民族語言,白語和其他少數(shù)民族的語言一樣面臨著消亡的危境。此外,大理白族自治州各地方區(qū)縣的白語發(fā)音各有特點,甚至不同縣域的白語不能相互理解,這對白族語言的保護(hù)和民俗文化傳承延續(xù)造成極大困難,同時也對大理民族地區(qū)教育、經(jīng)濟(jì)和旅游產(chǎn)業(yè)發(fā)展形成一定的阻礙。

        讓計算機(jī)能夠識別少數(shù)民族語音,進(jìn)而建立少數(shù)民族語音資源和語料庫,是保護(hù)和傳承民族文化的非常重要的手段。已有研究面向白語語音識別問題〔1〕,然而沒有白語專門的大規(guī)模語音語料庫存在。白語沒有自己的文字,因此進(jìn)行語言學(xué)研究時,只能借助語音及其翻譯結(jié)果。對白語建立文本語料庫只能借助其他語言翻譯或是拼音∕國際音標(biāo)標(biāo)注方式,對民族語言資源的保護(hù)效果有限,且難以將實際的大規(guī)模語言發(fā)音資料應(yīng)用于白語研究。針對上述問題,本文思考建立大規(guī)模白語語音語料庫,同時基于語言學(xué)研究需求建設(shè)相應(yīng)分析接口。內(nèi)容主要包括:首先介紹目前白語語言學(xué)及語料庫建設(shè)研究現(xiàn)狀,然后提出白語語音語料庫的系統(tǒng)結(jié)構(gòu),并針對白語語音語料采集和存儲提出相應(yīng)的解決措施,針對白語語言學(xué)研究問題提出建設(shè)語言學(xué)分析接口方法。最后,對本文工作進(jìn)行總結(jié)并提出展望。

        1 白語語言研究及語料庫建設(shè)研究現(xiàn)狀

        1.1 語料庫研究在語料庫和語言資源庫建設(shè)的理論研究上,國內(nèi)外學(xué)者已有較多的成果,例如劉巖對中國少數(shù)民族瀕危語言語音語料庫的建設(shè)進(jìn)行了分析,認(rèn)為這類語料庫的特點和作用、工作步驟及建庫過程中遇到的難點與漢語或非瀕危語言語音數(shù)據(jù)庫有所不同,并分析了建庫的困難〔2〕。柳歡從建庫的背景與狀況、原則與方法、問題與對策等方面提出了如何在少數(shù)民族地區(qū)建立雙語語料庫的意見和建議〔3〕。在語料庫建設(shè)的應(yīng)用研究方面,新疆大學(xué)、內(nèi)蒙古大學(xué)、西藏大學(xué)和西南民族大學(xué)的研究者分別從事了維吾爾語、蒙語、藏語和彝語的語料庫建設(shè)研究,并取得一定成果。

        在語料庫建設(shè)的標(biāo)準(zhǔn)化研究上,國際民間協(xié)作組織——開放語檔聯(lián)盟(Open Language Archives Community,OLAC)針對語言資源數(shù)字網(wǎng)絡(luò)化立檔制定了一整套技術(shù)標(biāo)準(zhǔn)和建議性文件。這些文件對于制定我國瀕危語言有聲語言資源建設(shè)的語料類型標(biāo)準(zhǔn)、語言編碼標(biāo)準(zhǔn)、數(shù)據(jù)格式標(biāo)準(zhǔn)和內(nèi)容描述規(guī)范,有重要的參考借鑒價值。

        1.2 白語語言研究和語料庫建設(shè)在白語的語言結(jié)構(gòu)∕功能相關(guān)研究上,國內(nèi)學(xué)者從單個語素到構(gòu)詞法再到特定功能詞的使用方面都有較多的研究成果,例如對劍川白語語素no的研究〔4〕,對鶴慶白語構(gòu)詞法的研究〔5〕,以及對白語中的否定詞和否定表達(dá)式及否定標(biāo)記的特征與來源進(jìn)行研究〔6〕。在白語語音發(fā)音及語法規(guī)律分析上,也存在有較多研究成果,例如利用HTK工具構(gòu)建HMM模型來實現(xiàn)白語語音識別〔1〕,對白語中具有擬聲現(xiàn)象詞匯的文化信息進(jìn)行解析〔7〕,對白語南部方言中來母關(guān)系詞聲母的讀音進(jìn)行分析,從歷史層次角度探索其來源〔8〕。

        語料庫建設(shè)方面,徐琳、趙衍蓀等編著的《白語簡志》提出了白語的分類系統(tǒng),并從多個角度對白語進(jìn)行了介紹,對白語語料庫建設(shè)方面有積極的指導(dǎo)作用;王鋒主持了中國社科院重點項目“白語方言詞匯語料庫”;還有大理州白族文化研究所編撰,徐琳主編的《大理叢書·白語篇》等著作,都對白語研究和語料庫建設(shè)起到積極的推動指導(dǎo)作用〔9〕。

        然而,不像藏語蒙語等有長期使用文字的語言,其語料庫建設(shè)開展較為容易,需要借助于計算機(jī)信息處理技術(shù)的白語語音語料庫建設(shè)仍然處于起步狀態(tài),目前還沒有較為大型的面向完整句子的語音語料庫存在。在大數(shù)據(jù)等信息技術(shù)分析和應(yīng)用上,以白語語音為研究對象,并利用模式識別、統(tǒng)計學(xué)和數(shù)據(jù)分析方法對白語開展研究的案例還較少。

        2 語料采集、存儲與預(yù)處理

        為了建立具有代表性的語音語料庫,本文建立的孤立詞語音語料庫主要參考《大理叢書·白語篇·卷三》〔9〕中所列方言詞匯表進(jìn)行錄制采集,該方言詞匯表以1957年白語調(diào)查詞匯材料為基礎(chǔ),又根據(jù)經(jīng)濟(jì)文化發(fā)展的實際情況進(jìn)行了增刪修改,共收錄詞匯2 897個。同時,本文建立的語音語料標(biāo)注參考該書所列白語的聲韻母及聲調(diào)標(biāo)注方法。

        語音語料庫與文本語料庫最大的不同是面向的語料不是文本,而是語音數(shù)據(jù),因此語料采集、存儲和預(yù)處理都有所不同,具體體現(xiàn)在:

        (1)采集方式不同。文本語料庫的文本來源較多,采集起來也較為容易。而語音語料庫為了獲得語音數(shù)據(jù),就需要在日常的語言使用中進(jìn)行錄音。常用方法可以采用電話錄音或是從包含語音的影視作品中截取。為了使得語音語料數(shù)據(jù)更加準(zhǔn)確,還可以使用專門的錄音設(shè)備進(jìn)行錄制。由于白語在不同地域上發(fā)音有所不同,為了獲取這些差異性,就要求語音數(shù)據(jù)較為準(zhǔn)確,外部噪音較少,所以,本文采用的是以專業(yè)錄音筆在安靜環(huán)境下開展錄音的方式。

        (2)存儲方式不同。不像文本語料只需要進(jìn)行文字的存儲,語音語料庫中的主體是語音文件,這些文件需要良好的存儲組織結(jié)構(gòu)和檢索方法。在具體實施時,不但要存儲原始語音文件路徑,還需要存儲經(jīng)過預(yù)處理(例如降噪)后的文件路徑。此外,為了有效開展語言學(xué)研究,還需要存儲對應(yīng)語音的語料標(biāo)注結(jié)果。對于白語語音語料庫來說,不但要存儲原始語音和降噪后的語音,還要存儲語音對應(yīng)的含義(漢語釋義)和對應(yīng)的語言表示符號(拼音或國際音標(biāo)標(biāo)注符號及音調(diào)等)。

        (3)預(yù)處理方式不同。文本語料采集后以文字形式存在,而語音語料則以語音數(shù)據(jù)的形式存在,因此在語料加工和預(yù)處理上也有所不同。在獲得初始語音語料數(shù)據(jù)后,需要對這些數(shù)據(jù)進(jìn)行相應(yīng)的分段標(biāo)記,不但包括詞語單位、詞性、句法、語義等內(nèi)容,還需要針對語音數(shù)據(jù)的特殊性進(jìn)行額外標(biāo)記,例如在錄音文件的前后靜音處、連續(xù)語音的詞間隔處的靜音標(biāo)記,以避免這些靜音階段對后期語音識別和自動標(biāo)注模型的生成造成影響。此外,還需要原始語音的降噪處理,減少外部噪音對語音分析的影響。對于白語來說,由于沒有對應(yīng)文字,需要將語音用某種語言符號進(jìn)行表示,盡量減少歧義和二義性,從而不影響后面的語音分析和語言學(xué)研究。

        3 白語語音語料庫系統(tǒng)結(jié)構(gòu)

        3.1 語料庫系統(tǒng)總體結(jié)構(gòu)一個面向語言學(xué)研究和應(yīng)用的完整的白語語音語料庫應(yīng)當(dāng)包含語音資源庫建設(shè)、語料庫語音數(shù)據(jù)的預(yù)處理、語料庫建設(shè)等幾個層次。語音資源搜集除了使用對話錄音的方式,還可以考慮建立移動應(yīng)用或通過網(wǎng)絡(luò)采集的方式,白族語音檔案也是數(shù)據(jù)來源之一。采集后的音頻數(shù)據(jù)需要進(jìn)行預(yù)處理,包括背景去除降噪,目標(biāo)語音的提取和純化,內(nèi)容含義識別,語音構(gòu)成四要素的提取和定量化表示。經(jīng)過處理后的語音數(shù)據(jù)已經(jīng)有了具體內(nèi)容的表示,成為在統(tǒng)一的低噪音背景下的語音資料。這些大量的語音資料存儲在以云計算為基礎(chǔ)的存儲設(shè)備上,形成語音資源庫。在語音資源庫基礎(chǔ)上,充分利用語音識別、語義標(biāo)注,建立白語語音語料庫及模型庫,用以存放大量的白語語料資源和用于語音識別的模型表示。在建成的語料庫的基礎(chǔ)上,基于語料庫表示和建設(shè)技術(shù),結(jié)合關(guān)系數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu),可以構(gòu)建語料庫應(yīng)用系統(tǒng),提供語言學(xué)研究和其他應(yīng)用研究的語音語料的匯集、查詢、處理和提取功能。整個語音語料庫系統(tǒng)設(shè)計的總體框架見圖1。

        圖1 總體框架圖

        3.2 語料庫系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)一個完整的語料庫系統(tǒng)不應(yīng)當(dāng)只包含有語料的存儲和查詢功能,還應(yīng)當(dāng)為語言學(xué)研究和語言應(yīng)用系統(tǒng)的開發(fā)提供輔助的工具,因此,本文提出的白族語音語料庫系統(tǒng)在數(shù)據(jù)存儲上包含了如下幾個方面。

        (1)原始語音資源庫,保存了原始的錄音數(shù)據(jù)及其相關(guān)信息,主要包括:錄音文件,語音釋義,錄音來源(錄音者的地域信息、年齡、性別、工作單位),錄音環(huán)境,錄音時間等。

        (2)降噪語音資源庫,是將原始錄音文件經(jīng)過數(shù)字化降噪處理后得到的語音資源,主要應(yīng)當(dāng)記錄的信息有:降噪后的語音數(shù)據(jù),語音釋義,語音數(shù)據(jù)對應(yīng)的標(biāo)注(聲∕韻母及聲調(diào)標(biāo)注、詞標(biāo)注)。

        (3)語音模型庫,保存有從語音降噪預(yù)處理到連續(xù)語音識別和語音合成的一系列經(jīng)過機(jī)器學(xué)習(xí)得到的模型資源。這些模型資源分別根據(jù)不同的應(yīng)用接口采用文本或二進(jìn)制的格式進(jìn)行保存,主要包含有下列模型:語音降噪模型,孤立詞識別模型,連續(xù)語音識別模型,聲母∕韻母字典,孤立詞字典,自動標(biāo)注模型,隱馬爾科夫識別網(wǎng)絡(luò)模型(Hidden Markov Model,HMM),基于深度學(xué)習(xí)算法的語音特征學(xué)習(xí)模型。

        上述的資源庫部分結(jié)構(gòu)性較強(qiáng)的信息可以采用關(guān)系數(shù)據(jù)庫系統(tǒng)進(jìn)行保存,例如原始語音資源的基本信息。然而,部分資源無法使用關(guān)系數(shù)據(jù)庫系統(tǒng)進(jìn)行保存,只能采用關(guān)鍵詞對應(yīng)文件的方式以文件形式進(jìn)行保存,例如下面的HTK語音識別庫中的對于一個具有6個狀態(tài)的提取了39維梅爾頻率倒頻譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征的HMM模型的定義:

        ~o <VecSize> 39 <MFCC_0_D_A>

        ~h"proto"

        <BeginHMM>

        <NumStates> 5

        <State> 2

        <Mean> 39

        0.0 0.0 0.0...

        <Variance> 39

        1.0 1.0 1.0...

        <State> 3

        <Mean> 39

        0.0 0.0 0.0...

        <Variance> 39

        1.0 1.0 1.0...

        <State> 4

        <Mean> 39

        0.0 0.0 0.0...

        <Variance> 39

        1.0 1.0 1.0...

        <TransP> 5

        0.0 1.0 0.0 0.0 0.0

        0.0 0.6 0.4 0.0 0.0

        0.0 0.0 0.6 0.4 0.0

        0.0 0.0 0.0 0.7 0.3

        0.0 0.0 0.0 0.0 0.0

        <EndHMM>

        類似于語音文件,這些模型文件也需要在數(shù)據(jù)庫中建立查詢和使用的鏈接路徑。

        4 語料庫應(yīng)用及語言學(xué)分析接口設(shè)計

        語料庫標(biāo)注是對語言進(jìn)行多維、多層面分析的基礎(chǔ),語料庫的有效利用很大程度上有賴于語料庫標(biāo)注的層次和質(zhì)量,語料庫分析則有賴于計算機(jī)環(huán)境的支持〔10〕。為了充分發(fā)揮白語語音語料庫在語言學(xué)研究中的作用,必須要設(shè)計好供其他計算機(jī)應(yīng)用程序調(diào)用的語料庫的外部應(yīng)用接口。

        4.1 語料庫的通用接口白語語音語料庫最基本的功能就是能夠提供語音語料的查詢接口。由于白語沒有自己的文字,因此只能以其他語言文字(如漢語)作為查詢的關(guān)鍵字入口。由于在數(shù)據(jù)庫中存儲了語音語料的釋義,可以利用這些釋義作為關(guān)鍵字查詢比較的字段。此外,由于是面向口語語音的,在查詢結(jié)果顯示上也與文字語料庫不同,需要采用音頻播放控件來播放相應(yīng)的語音。

        此外,語料庫用于傳統(tǒng)語言學(xué)分析的另一個功能就是對語料的使用頻度進(jìn)行估計。在語料庫建設(shè)初期,可以參考其他語言的已有的詞的使用頻度并結(jié)合語料釋義與之進(jìn)行匹配而形成白語語音預(yù)料的使用頻度。如果實施了增量式的語料更新措施,還需要構(gòu)建相應(yīng)的算法,以便于對相應(yīng)的詞頻進(jìn)行實時的或是定期的批量更新,從而使得詞頻統(tǒng)計數(shù)據(jù)能夠逐漸貼近實際使用情況。

        4.2 面向語音識別和語音合成應(yīng)用接口建立白語語音語料庫的另一個重要目的是進(jìn)行白語語音識別和語音合成應(yīng)用的研究。語音識別的傳統(tǒng)方法是將語音的原始頻域和時域信號進(jìn)行采樣、分幀,并以幀為單位提取語音信號的特征描述,根據(jù)特征描述建立音素、孤立詞或是連續(xù)語音的識別模型,而這種識別模型通常以HMM模型來表示。自2011年,深度學(xué)習(xí)在語音識別問題上獲得巨大成功以來,新型的語音識別框架引起研究者的注意。本文研究以此為基礎(chǔ),提出面向語音識別和語音合成應(yīng)用的接口,建立的框架見圖2。

        圖2 語音識別和語音合成應(yīng)用接口

        4.3 增量式的語料庫更新語料庫在只有初始語料的情況下,受到語料規(guī)模的限制,并不能完全反應(yīng)出語言使用的真實情況,如果語料庫能夠根據(jù)時間的推進(jìn)不斷進(jìn)行語料的補(bǔ)充,則反映出來的語言特征將越來越貼近語言本身。本文設(shè)計了如下的增量式語料庫更新框架(見圖3)和相應(yīng)算法,分別針對孤立詞和連續(xù)語音。當(dāng)有新的語料進(jìn)入系統(tǒng)后,對整個系統(tǒng)進(jìn)行更新。

        圖3 增量式語料庫更新

        語料(詞)的使用頻度是進(jìn)行語言學(xué)研究時需要的一個重要參數(shù),本文設(shè)計的框架中,初始頻度將根據(jù)其他大型文本語料庫進(jìn)行初始化,當(dāng)有新的詞(如果是連續(xù)語音,則需要分詞)進(jìn)入系統(tǒng)后,對詞的使用頻度進(jìn)行更新,然后使用更新的頻度對語音識別模型進(jìn)一步優(yōu)化。假設(shè)增加的語料中,引用了某詞一次,則更新后的該詞使用頻度按下式進(jìn)行更新:

        其中,F(xiàn)new和Fold分別表示該詞的更新后的使用頻度和更新前的使用頻度,而Nold表示該詞在原有語料庫中出現(xiàn)的次數(shù)。在更新完詞的使用頻度后,該詞在語料庫中的總次數(shù)Nnew也需要更新:Nnew=Nold+1。這是針對更新語料中包含了一次詞條使用的情況,若進(jìn)行批量的詞條更新,則相應(yīng)的公式也很容易能夠得出。

        5 結(jié)束語

        作為中國較大少數(shù)民族白族使用的民族語言,白語沒有對應(yīng)的文字,且受到日益增強(qiáng)的外部經(jīng)濟(jì)文化的影響,處于日益消亡的境地。充分利用計算機(jī)技術(shù),建立白語語音語料庫是保護(hù)民族文字和促進(jìn)民族文化進(jìn)一步發(fā)展的重要舉措。本文對白語語音語料庫建設(shè)中涉及的語料采集存儲和預(yù)處理問題進(jìn)行了闡述和解決,并提出白語語音語料庫的系統(tǒng)結(jié)構(gòu)。同時,面向語言應(yīng)用的兩大方面:語音識別和語音合成,提出在語音語料庫基礎(chǔ)上相應(yīng)應(yīng)用程序接口的建設(shè)問題,同時給出了增量式語料庫更新方法和語料頻度更新公式。下一步的工作將在系統(tǒng)結(jié)構(gòu)分析的基礎(chǔ)上,充分利用數(shù)據(jù)庫技術(shù)、深度學(xué)習(xí)技術(shù)和多種語音識別工具,建立大規(guī)模白語語音語料庫并建設(shè)語音應(yīng)用接口系統(tǒng)。

        〔1〕張令通.基于HTK的白族語音識別方法〔J〕.大理學(xué)院學(xué)報,2013,12(10):27-32.

        〔2〕劉巖.關(guān)于中國少數(shù)民族瀕危語言語音語料庫的設(shè)計〔J〕.中央民族大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2006,33(4):133-136.

        〔3〕柳歡.試論少數(shù)民族地區(qū)“雙語語料庫”的建立〔J〕.中國校外教育旬刊,2013(28):3.

        〔4〕吳福祥.白語no33的多功能模式及演化路徑〔J〕.民族語文,2015(1):3-22.

        〔5〕段泗英.白語的句法手段構(gòu)詞法淺析:以鶴慶白語為例〔J〕. 安徽文學(xué)月刊,2014(5):128-129.

        〔6〕張軍.白語方言否定標(biāo)記的特征與來源〔J〕.大理學(xué)院學(xué)報,2012,11(7):39-44.

        〔7〕王麗梅.白語的擬聲現(xiàn)象初探〔J〕.教師教育論壇,2012(2):43-45.

        〔8〕王鋒.白語南部方言中來母的讀音〔J〕.民族語文,2013(3):56-62.

        〔9〕大理白族自治洲白族文化研究所.大理叢書·白語篇〔M〕.昆明:云南民族出版社,2008.

        〔10〕黃昌寧,李涓子.語料庫語言學(xué)〔M〕.商務(wù)印書館,2007:14-15.

        猜你喜歡
        語言研究
        FMS與YBT相關(guān)性的實證研究
        2020年國內(nèi)翻譯研究述評
        遼代千人邑研究述論
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        讓語言描寫搖曳多姿
        新版C-NCAP側(cè)面碰撞假人損傷研究
        多向度交往對語言磨蝕的補(bǔ)正之道
        累積動態(tài)分析下的同聲傳譯語言壓縮
        久久九九国产精品怡红院| 精品国产麻豆一区二区三区| 风流少妇一区二区三区91| 亚洲中文久久精品字幕| 日本高清视频www| 日本亚洲欧美在线观看| av天堂手机在线免费| 水蜜桃男女视频在线观看网站| 97精品国产一区二区三区| 丰满女人又爽又紧又丰满| 亚洲激情人体艺术视频| 成年女人午夜特黄特色毛片免| 美腿丝袜在线一区二区| 欧美成人精品午夜免费影视| 在线国产小视频| 久久亚洲精品一区二区| av中国av一区二区三区av| 免费国产成人肉肉视频大全| 国产一区二区不卡老阿姨| 国产精品久久久久亚洲| av在线不卡一区二区| 国产免费a∨片在线软件| 色综合久久久久久久久五月| 亚洲精品中文字幕乱码二区 | 免费看黄色电影| 国精品无码一区二区三区在线看| 女同重口味一区二区在线| 一边捏奶头一边高潮视频| 国产人在线成免费视频| 高潮喷水无遮挡毛片视频| 久久久亚洲免费视频网| 国产成人无码精品久久二区三区| 欧美一级三级在线观看| 女同久久精品国产99国产精| 99久久精品费精品国产一区二| 人妻丝袜无码国产一区| 国产欧美日韩图片一区二区| 亚洲婷婷久久播66性av| 99精品久久精品一区二区| 亚洲av无码一区二区二三区下载| 精品国产一区二区三区久久狼|