亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析贛南地區(qū)客家方言語音語料庫及檢索平臺(tái)的構(gòu)建*

        2016-02-04 15:17:09鄧海龍
        山西青年 2016年19期
        關(guān)鍵詞:詞匯數(shù)據(jù)庫建設(shè)

        蘆 丹 鄧海龍

        贛南師范大學(xué)外國語學(xué)院,江西 贛州 341000

        ?

        淺析贛南地區(qū)客家方言語音語料庫及檢索平臺(tái)的構(gòu)建*

        蘆丹鄧海龍

        贛南師范大學(xué)外國語學(xué)院,江西贛州341000

        語料庫在本質(zhì)上是一種數(shù)據(jù)庫,其存在的目的就是對語言材料進(jìn)行有效的存放。伴隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,贛南地區(qū)的客家方言語音語料庫以及檢索平臺(tái)也在不斷的構(gòu)建當(dāng)中。但是數(shù)據(jù)庫與語料庫并不是完全的等同,兩者之間既有交叉部分同時(shí)也存在各自的不同點(diǎn)。本文對方言數(shù)據(jù)庫概述進(jìn)行分析,較為詳細(xì)地闡述了方言數(shù)據(jù)庫研制的系統(tǒng)工程,并提出建設(shè)策略。

        贛南客家方言;語音語料庫;檢索平臺(tái);構(gòu)建

        語料庫與數(shù)據(jù)庫是從不同層面來進(jìn)行闡述的。方言庫又不同于一般的數(shù)據(jù)庫,方言庫有其自身的特殊性,主要表現(xiàn)在以下幾個(gè)方面:首先,方言具有自己完整的語音、詞匯以及語法系統(tǒng),想要更好地彰顯方言的特色,數(shù)據(jù)庫中的存儲(chǔ)方言的語料應(yīng)該要盡量豐富。但是,需要我們注意的是不管數(shù)據(jù)庫有多大,但是在某種語言的整體性上其數(shù)量是有限的。這也就說明,對方言數(shù)據(jù)庫進(jìn)行收集與建立時(shí)要盡可能多的體現(xiàn)地方特色,另外,與一般的普通話不同,方言語料追求的是自己的個(gè)性化。因而要對采集的語料信息進(jìn)行各方面的分析,比如元數(shù)據(jù)以及語音信息甚至是音標(biāo)等方面的分析。也就是說,將采集的語料輸入數(shù)據(jù)庫之前要對其進(jìn)行有效分析與整理。進(jìn)而方便用戶更好的對其進(jìn)行研究與使用。也就是說,方言數(shù)據(jù)庫既有數(shù)據(jù)庫的共性,但同時(shí)又具有方言語料為主的特性。本文主要闡述方言數(shù)據(jù)庫的的建設(shè),主要從方言語料的采集、標(biāo)注以及數(shù)據(jù)庫的應(yīng)用構(gòu)想等幾個(gè)方面對方言數(shù)據(jù)進(jìn)行全面透徹的探究。

        一、方言數(shù)據(jù)庫概述

        相關(guān)的資料顯示,我國在方言的研究方面早有建樹。方言研究的歷史比較悠久,最早可以追溯到兩千多年以前。但是在五四運(yùn)動(dòng)之后,我國學(xué)術(shù)界對方言的研究開始進(jìn)入全新的時(shí)期。因?yàn)榈谝粋€(gè)方言機(jī)讀語料庫的出現(xiàn),我國對方言學(xué)的研究不管是從深度還是從廣度方面考慮都進(jìn)入到一個(gè)前所未有的發(fā)展階段。近些年來,我國在方言數(shù)據(jù)庫的研制以及理論方面都取得了一定的成效,集中體現(xiàn)在方言語音、語法、詞匯以及俗語等方面。下面主要從這些方面進(jìn)行闡述:

        (一)建立在方言語音基礎(chǔ)之上的數(shù)據(jù)庫的研究

        方言數(shù)據(jù)庫主要是對方言的語音進(jìn)行有效的收集,方言數(shù)據(jù)庫對于收集的方言語音并不是方方面面都進(jìn)行研究,有些數(shù)據(jù)庫只是研究某一部分的內(nèi)容。有的方言語音庫只是對方言的語音與語境進(jìn)行一定程度上的研究,甚至有些方言語音庫在對方言進(jìn)行研究時(shí)還給出了方言語境總量的計(jì)算方法。

        (二)建立在方言詞匯基礎(chǔ)之上的方言數(shù)據(jù)庫的研究

        詞匯數(shù)據(jù)庫其實(shí)就是詞庫,詞匯數(shù)據(jù)庫有單語詞匯與多語詞匯之分。就目前我國方言詞匯庫的研究現(xiàn)狀而言,主要還是集中在對單語詞庫的研究上。這些數(shù)據(jù)庫有的是以廣泛收集方言詞匯語料為主;有的以詞匯的不同音節(jié)建庫,詞匯數(shù)據(jù)庫建立與完善可以方便用戶在使用方言時(shí)對其進(jìn)行查詢,另外,也在某種程度上為更好地了解方言詞匯提供了必要的分析手段。

        (三)建立在方言語法以及俗語基礎(chǔ)之上的數(shù)據(jù)庫的研究

        目前對于方言語法以及俗語的研究并不多,但是伴隨著方言數(shù)據(jù)庫技術(shù)的不斷提升,建立在方言語法以及俗語基礎(chǔ)之上的數(shù)據(jù)庫將會(huì)逐漸的出現(xiàn)。

        二、方言數(shù)據(jù)庫的研制分析

        眾所周知,我國是個(gè)多民族國家,各地的方言都存在一定的個(gè)性特征,對于方言數(shù)據(jù)庫的研究必定會(huì)是一個(gè)相對復(fù)雜、系統(tǒng)的工程。方言數(shù)據(jù)庫的系統(tǒng)工程建設(shè)涉及到兩個(gè)層面:首先就是建設(shè)數(shù)據(jù)庫本身,針對這一層面,主要有數(shù)據(jù)庫的設(shè)計(jì)以及對方言語料的采集等;另一方面就是開發(fā)數(shù)據(jù)庫的應(yīng)用平臺(tái),這一層面主要是對數(shù)據(jù)庫中的方言進(jìn)行加工管理以及對檢索系統(tǒng)的設(shè)計(jì)。關(guān)于數(shù)據(jù)庫的加工管理集中體現(xiàn)在對方言語料的標(biāo)注。下面從方言數(shù)據(jù)庫的建設(shè)相關(guān)經(jīng)驗(yàn)方面,對贛南地區(qū)客家方言數(shù)據(jù)庫系統(tǒng)工程的五個(gè)研制階段進(jìn)行詳細(xì)的闡述,這五個(gè)階段分別是數(shù)據(jù)庫的規(guī)劃階段;數(shù)據(jù)庫的設(shè)計(jì)階段;方言語料采集以及數(shù)據(jù)庫的實(shí)現(xiàn)階段;數(shù)據(jù)庫的標(biāo)注階段;數(shù)據(jù)庫的使用以及維護(hù)階段。

        (一)方言數(shù)據(jù)庫的規(guī)劃階段分析

        在對數(shù)據(jù)庫進(jìn)行建設(shè)之前,相關(guān)的工作人員要做好規(guī)劃工作。科學(xué)合理的規(guī)劃對于整個(gè)數(shù)據(jù)庫的系統(tǒng)質(zhì)量有著決定性的影響。建庫者在對數(shù)據(jù)庫進(jìn)行規(guī)劃時(shí),要堅(jiān)持真實(shí)性與平衡性的原則?!罢鎸?shí)性”是數(shù)據(jù)庫內(nèi)容的最根本的額特點(diǎn),建庫者在進(jìn)行建庫的時(shí)候首先就要保證方言語料的真實(shí)可靠性。其中“真實(shí)性”涉及兩個(gè)方面的內(nèi)容,一是收集的語料是在實(shí)際應(yīng)用中的,并非是建庫者自己編造出來的。二是,收集的語料要符合數(shù)據(jù)庫的要求。在對數(shù)據(jù)庫進(jìn)行規(guī)劃時(shí)還要注意另外一個(gè)問題就是,盡量做到不同語料的均衡分布。比如要對口語以及書面語的分布比例進(jìn)行嚴(yán)格的控制。除此之外,相關(guān)的工作人員在對數(shù)據(jù)庫進(jìn)行建立時(shí)要考慮其建設(shè)的目的性以及建設(shè)的規(guī)模大小。除此之外,對方言的開發(fā)成本以及開發(fā)的進(jìn)度等因素都要進(jìn)行科學(xué)合理的規(guī)劃。盡量避免在規(guī)劃的過程中出現(xiàn)盲目、無序的現(xiàn)象。以贛南地區(qū)客家方言數(shù)據(jù)庫為例,選取的方言采集點(diǎn)就具有典型的代表性,采集人員在采集的過程中也很注意,其采集的方言基本上是代表地方特色的,是一種能夠在很大程度上反映地方方言的特色語料。

        (二)方言數(shù)據(jù)庫的設(shè)計(jì)階段分析

        針對方言數(shù)據(jù)庫的設(shè)計(jì)階段而言,主要有三個(gè)層面,即方言數(shù)據(jù)庫的平衡性原則、采樣原則以及建庫的邏輯思維等。

        1、方言數(shù)據(jù)庫的平衡性原則主要是指科學(xué)合理的控制方言數(shù)據(jù)庫中的各種語料的構(gòu)成比例以及數(shù)據(jù)庫的分類標(biāo)準(zhǔn)。關(guān)于方言數(shù)據(jù)庫的分類問題,向來都是建庫者比教關(guān)注的問題。不同的建庫者其建庫的思想是不同的。有的建庫者認(rèn)為方言數(shù)據(jù)庫的體裁比較重要,有的則認(rèn)為主題更重要,但是現(xiàn)今已經(jīng)建成的數(shù)據(jù)庫并不是按照某一種特性進(jìn)行分類,數(shù)據(jù)庫的建設(shè)更加趨向于多特征性。

        2、方言數(shù)據(jù)庫的語料收集原則主要包括對語料采集方法的設(shè)計(jì)以及語料的比例設(shè)計(jì)等。

        3、數(shù)據(jù)庫的結(jié)構(gòu)包含邏輯結(jié)構(gòu)以及物理結(jié)構(gòu)兩種。在對數(shù)據(jù)庫的邏輯機(jī)構(gòu)進(jìn)行設(shè)計(jì)時(shí),要明白數(shù)據(jù)庫的組成以及對元數(shù)據(jù)項(xiàng)進(jìn)行定義。對于元數(shù)據(jù)的定義,因?yàn)閿?shù)據(jù)庫的用途不同,彼此之間也存在一定的差異。

        (三)語料采集以及數(shù)據(jù)庫的實(shí)現(xiàn)階段分析

        一個(gè)方言數(shù)據(jù)庫不可能沒有語料,語料是數(shù)據(jù)庫的靈魂。語料的質(zhì)量對數(shù)據(jù)庫的使用價(jià)值有著最為直接的影響,建設(shè)方言數(shù)據(jù)庫的根本目的就是通過先進(jìn)的網(wǎng)絡(luò)技術(shù)對方言語料進(jìn)行還原性的保存,主要是為后人更好的研究與學(xué)習(xí)創(chuàng)造一定的條件。所以,在采集方言語料時(shí)要遵循真實(shí)性以及客觀性的原則。

        數(shù)據(jù)庫的實(shí)現(xiàn)階段涉及的內(nèi)容比較多,主要有數(shù)據(jù)庫存儲(chǔ)結(jié)構(gòu)的設(shè)計(jì)、方言語料的錄入、數(shù)據(jù)庫信息門戶的建設(shè)等。只有將數(shù)據(jù)庫存儲(chǔ)結(jié)構(gòu)的設(shè)計(jì)、方言語料的錄入、數(shù)據(jù)庫信息門戶的建設(shè)這三個(gè)方面進(jìn)行科學(xué)的設(shè)計(jì)以及合理的建設(shè),才能更好的方便用戶對方言數(shù)據(jù)庫的應(yīng)用與檢索。

        (四)方言數(shù)據(jù)庫的標(biāo)注階段分析

        在數(shù)據(jù)庫的建設(shè)過程中,對語料進(jìn)行標(biāo)注意義重大。語料標(biāo)注的質(zhì)量直接影響信息的豐富性以及準(zhǔn)確性。贛南地區(qū)客家方言數(shù)據(jù)庫的標(biāo)注主要是對文本語料的選擇與編著,對聲學(xué)參數(shù)的提取以及對口語資源的切音等。

        (五)方言數(shù)據(jù)庫的使用以及維護(hù)階段分析

        一旦語料被錄入數(shù)據(jù)庫并且對其進(jìn)行標(biāo)注之后,用戶就可以通過各種方式對方言語料進(jìn)行有效的檢索與利用。另外,建庫工作人員要及時(shí)的對信息進(jìn)行接受,并且實(shí)時(shí)的對方言語料進(jìn)行收集更新。進(jìn)而使數(shù)據(jù)庫更加科學(xué)以及具備時(shí)效性。數(shù)據(jù)庫的使用以及維護(hù)階段主要包括對數(shù)據(jù)庫檢索系統(tǒng)進(jìn)行設(shè)計(jì),對數(shù)據(jù)庫的相關(guān)維護(hù)等。數(shù)據(jù)庫具有豐富的語料,各種用戶都可以使用,為了給使用對象提供更多的方便,建庫者需要對數(shù)據(jù)庫的檢索系統(tǒng)進(jìn)行便捷的設(shè)計(jì)。檢索系統(tǒng)的使用率直接關(guān)系著數(shù)據(jù)庫的使用價(jià)值。便捷的數(shù)據(jù)庫檢索系統(tǒng)可以為使用者提供海量的方言語料。方言數(shù)據(jù)庫一旦建成之后,就應(yīng)該在實(shí)踐中進(jìn)行有效的應(yīng)用。另外,建庫的相關(guān)人員要對數(shù)據(jù)庫的信息進(jìn)行及時(shí)的更新與維護(hù),其主要目的是保證方言語料的真實(shí)性以及新鮮性。

        三、結(jié)語

        方言數(shù)據(jù)庫的建設(shè)是個(gè)復(fù)雜以及系統(tǒng)的過程,在建庫的過程中涉及的內(nèi)容也比較多,涉及到人力資源以及技術(shù)方面、語言學(xué)等多個(gè)領(lǐng)域。近些年,通過研建庫者的不懈努力,贛南地區(qū)客家方言的數(shù)據(jù)庫建設(shè)取得了一定的成就,但是在建庫的過程中還有很多需要改進(jìn)的地方,還有很大的發(fā)展空間擺在建庫者的面前,是需要建庫者進(jìn)行不懈的努力的。本文主要從方言數(shù)據(jù)庫的概述著手,對方言數(shù)據(jù)庫的研制系統(tǒng)工程進(jìn)行了科學(xué)的分析。

        [1]王紅梅.漢語方言單純動(dòng)詞重疊式比較研究[J].北方論叢,2014(02).

        [2]黃文杰.試析粵東北傳統(tǒng)客家山歌的語言特征[J].重慶科技學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2014(08).

        [3]張炫.客贛方言語體標(biāo)記比較研究[J].大舞臺(tái),2015(08).

        H08;H174

        A

        1006-0049-(2016)19-0028-02

        *本文是課題《贛南地區(qū)客家方言語音語料庫及檢索平臺(tái)建設(shè)》(項(xiàng)目編號:YY1413)研究成果。

        猜你喜歡
        詞匯數(shù)據(jù)庫建設(shè)
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        自貿(mào)區(qū)建設(shè)再出發(fā)
        中國外匯(2019年18期)2019-11-25 01:41:56
        本刊可直接用縮寫的常用詞匯
        基于IUV的4G承載網(wǎng)的模擬建設(shè)
        電子制作(2018年14期)2018-08-21 01:38:28
        《人大建設(shè)》伴我成長
        保障房建設(shè)更快了
        民生周刊(2017年19期)2017-10-25 10:29:03
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        国产国语一级免费黄片| 国产精品福利视频一区| 亚洲美女影院| 在线播放中文字幕一区二区三区 | 伊人久久大香线蕉免费视频| 亚洲日本精品一区久久精品| 丝袜美腿国产一区二区| 成人特黄a级毛片免费视频| 国内精品久久久久久久影视麻豆| 无码视频一区二区三区在线播放| 国产视频一区2区三区| 国产激情一区二区三区| 精品国产乱码久久久软件下载| 国产一起色一起爱| 青青草视频在线观看绿色| 日本少妇春药特殊按摩3| 午夜精品一区二区三区在线观看| 性无码国产一区在线观看| 一二三四在线观看视频韩国| 国产亚洲一区二区在线观看| 日本大片免费观看完整视频| 亚洲人妻中文字幕在线视频| 日韩人妻系列在线观看| 中文字幕肉感巨大的乳专区| 国产一级毛片AV不卡尤物| 亚洲色偷拍区另类无码专区| 色综合天天网| 久久精品av一区二区免费| 一区二区三区人妻少妇| 久久精品娱乐亚洲领先| 日本一区二区三区激情视频| 国产精品综合女同人妖| 蜜臀av无码人妻精品| 91av手机在线观看| 久久本道久久综合一人| 久久久久亚洲精品男人的天堂| 成人无码一区二区三区网站| 国产成人久久精品流白浆| 久久伊人精品中文字幕有尤物| 亚洲av无码精品蜜桃| 国产精品1区2区|