亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)構(gòu)建

        2021-12-30 05:43:13
        關(guān)鍵詞:藏語(yǔ)語(yǔ)料語(yǔ)言學(xué)

        韋 韌

        (中國(guó)社會(huì)科學(xué)院 民族學(xué)與人類(lèi)學(xué)研究所,北京 100081)

        在語(yǔ)音數(shù)據(jù)庫(kù)建設(shè)方面,我國(guó)近30年的成果顯著。如中國(guó)科技大學(xué)、中國(guó)科學(xué)院聲學(xué)研究所、中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所聯(lián)合建立了《漢語(yǔ)語(yǔ)音識(shí)別資料庫(kù)》,中國(guó)社會(huì)科學(xué)院語(yǔ)言所還建立了《現(xiàn)代漢語(yǔ)自然口語(yǔ)語(yǔ)料庫(kù)》《自然對(duì)話語(yǔ)料庫(kù)》《現(xiàn)代漢語(yǔ)方言自然口語(yǔ)語(yǔ)料庫(kù)》;中國(guó)科學(xué)院自動(dòng)化所建立《旅游咨詢口語(yǔ)對(duì)話語(yǔ)料庫(kù)》和《旅館預(yù)定口語(yǔ)對(duì)話語(yǔ)料庫(kù)》;北京語(yǔ)言大學(xué)建立《漢語(yǔ)中介語(yǔ)語(yǔ)音語(yǔ)料庫(kù)》;香港大學(xué)和香港理工大學(xué)聯(lián)合建立《香港廣州話語(yǔ)音資料庫(kù)》以及臺(tái)灣建立的《高山語(yǔ)語(yǔ)音語(yǔ)料庫(kù)》等[1]。這一系列語(yǔ)料庫(kù)的建立為語(yǔ)言學(xué)的進(jìn)一步研究提供了大批量語(yǔ)料,也積累了技術(shù)經(jīng)驗(yàn),為研究成果提供了客觀依據(jù)。

        與漢語(yǔ)方言相比,藏語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)建設(shè)方面的成果相對(duì)來(lái)說(shuō)就少得多。藏語(yǔ)拉薩話語(yǔ)音聲學(xué)參數(shù)數(shù)據(jù)庫(kù)收集了733個(gè)藏語(yǔ)拉薩話單音節(jié),并分析歸納出4個(gè)數(shù)據(jù)群,分別是聲母(輔音)數(shù)據(jù)群、核心元音數(shù)據(jù)群、鼻音數(shù)據(jù)群和聲調(diào)數(shù)據(jù)群。數(shù)據(jù)庫(kù)還設(shè)置了三個(gè)功能,包括排序檢索功能、統(tǒng)計(jì)分析功能和繪圖功能[2]。安多藏語(yǔ)語(yǔ)音合成語(yǔ)料庫(kù)包含1萬(wàn)個(gè)詞匯,這些詞匯是從各類(lèi)電子詞典和電子文本中選擇獲取[3]。藏語(yǔ)單音節(jié)聲學(xué)參數(shù)數(shù)據(jù)庫(kù)收集了囊括藏語(yǔ)三個(gè)方言的約10萬(wàn)詞條,共整理歸納出約6 000個(gè)音節(jié),并對(duì)音節(jié)進(jìn)行窮盡性錄音、標(biāo)注國(guó)際音標(biāo)、歸納音節(jié)類(lèi)型。與此同時(shí),在整理、歸納與分析音節(jié)結(jié)構(gòu)的基礎(chǔ)上,設(shè)計(jì)和建立了包含39項(xiàng)聲學(xué)參數(shù)的藏語(yǔ)單音節(jié)聲學(xué)參數(shù)數(shù)據(jù)庫(kù)[4]。

        在藏語(yǔ)語(yǔ)音識(shí)別和語(yǔ)音合作研究方面,訊飛科技有限公司與西藏大學(xué)等單位合作,搭建了藏語(yǔ)語(yǔ)音識(shí)別和合成的技術(shù)框架,在書(shū)面藏文的文讀語(yǔ)音識(shí)別和合成方面做了大量的工作。

        但是藏語(yǔ)語(yǔ)音識(shí)別的基礎(chǔ)工作還比較薄弱,尤其是在藏語(yǔ)方言土語(yǔ)語(yǔ)音資源建設(shè)方面,還遠(yuǎn)遠(yuǎn)不能滿足當(dāng)前語(yǔ)音識(shí)別的要求。

        1 藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)

        1.1 藏語(yǔ)方言

        中國(guó)境內(nèi)的藏族使用藏語(yǔ)作為他們的民族語(yǔ)言,藏語(yǔ)的使用范圍較廣,遍布整個(gè)藏區(qū),較集中的使用地區(qū)有西藏自治區(qū)、青海省、四川省甘孜藏族自治州及阿壩藏族羌族自治州、甘肅省甘南藏族自治州、云南省迪慶藏族自治州。根據(jù)譜系分類(lèi),藏語(yǔ)歸屬于漢藏語(yǔ)系藏緬語(yǔ)族藏語(yǔ)支。藏語(yǔ)有三個(gè)方言,分別是衛(wèi)藏方言、安多方言和康方言。衛(wèi)藏方言的標(biāo)準(zhǔn)音是拉薩話,使用范圍在西藏自治區(qū)拉薩市以南。安多方言的使用范圍在青海省藏區(qū)、四川省阿壩藏族羌族自治州和甘肅省甘南藏族自治州??捣窖缘氖褂梅秶谖鞑刈灾螀^(qū)拉薩市以北、云南省迪慶藏族自治州、四川省甘孜藏族自治州和青海省玉樹(shù)藏族自治州。

        1.2 數(shù)據(jù)庫(kù)結(jié)構(gòu)框架

        藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)存儲(chǔ)了藏語(yǔ)方言的字、詞及句的文本、音頻及元數(shù)據(jù)等其他屬性信息。藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)依靠自然語(yǔ)音數(shù)據(jù),采集自然語(yǔ)音,并對(duì)語(yǔ)音進(jìn)行標(biāo)注,為語(yǔ)言學(xué)的本體研究和語(yǔ)言學(xué)信息化技術(shù)服務(wù)。藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)建設(shè)可以分為兩大部分:一是藏語(yǔ)方言數(shù)據(jù)的建設(shè),包括語(yǔ)料編制、語(yǔ)料采集、語(yǔ)料標(biāo)注。二是數(shù)據(jù)庫(kù)的建設(shè),包括數(shù)據(jù)庫(kù)的結(jié)構(gòu)框架設(shè)計(jì)、數(shù)據(jù)管理。具體分為以下四個(gè)階段:①數(shù)據(jù)庫(kù)設(shè)計(jì);②語(yǔ)料采集;③語(yǔ)料標(biāo)注;④數(shù)據(jù)庫(kù)使用和維護(hù)。

        2 藏語(yǔ)方言語(yǔ)料的采集及標(biāo)注

        語(yǔ)圖是在計(jì)算機(jī)上繪制輸出的語(yǔ)音頻譜圖,語(yǔ)圖能直觀表達(dá)出語(yǔ)音的各項(xiàng)聲學(xué)特征。語(yǔ)料庫(kù)是采集到的自然語(yǔ)言材料數(shù)據(jù)庫(kù),原始語(yǔ)料需要經(jīng)過(guò)分析和處理后才能成為計(jì)算機(jī)能識(shí)別、并且能分析利用的資源。這個(gè)分析處理的過(guò)程即是標(biāo)注。

        文本語(yǔ)料的選擇編制和語(yǔ)料標(biāo)注的可靠性是藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)構(gòu)建中的重難點(diǎn)。語(yǔ)料的收集途徑要求真實(shí)、客觀,收集的方法要求科學(xué)。文本語(yǔ)料在設(shè)計(jì)時(shí),要充分考慮到所挑選的文本具有代表性,以保證語(yǔ)料庫(kù)數(shù)據(jù)可以全面囊括自然語(yǔ)言特征。按照這個(gè)選取標(biāo)準(zhǔn)和選取方法構(gòu)建出來(lái)的語(yǔ)料庫(kù)既全面又沒(méi)有冗余。語(yǔ)料標(biāo)注采用荷蘭語(yǔ)言學(xué)家開(kāi)發(fā)的Praat軟件,進(jìn)行切音標(biāo)注,繪制語(yǔ)圖。如果只用一人進(jìn)行手工標(biāo)注,無(wú)法確保切分標(biāo)注結(jié)果的準(zhǔn)確性,如果雇傭多人進(jìn)行手工標(biāo)注,短時(shí)間內(nèi)又無(wú)法找到大批量的專(zhuān)業(yè)標(biāo)注人才。如果雇傭的標(biāo)注人員專(zhuān)業(yè)知識(shí)不扎實(shí),切分標(biāo)注結(jié)果的準(zhǔn)確性得不到保證。解決上述兩種情況的對(duì)策辦法,一是在工作開(kāi)始前開(kāi)展集中培訓(xùn),提高手工標(biāo)注切分人員的專(zhuān)業(yè)知識(shí),以減少因人的主觀傾向性產(chǎn)生的誤差;二是增加手工標(biāo)注切分人員數(shù)量,同一語(yǔ)料分配給多個(gè)人同時(shí)處理后,再統(tǒng)一匯總,以保證標(biāo)注切分結(jié)果的準(zhǔn)確率。

        藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)的建立可以系統(tǒng)地記錄保存藏語(yǔ)方言語(yǔ)音,對(duì)語(yǔ)料進(jìn)行科學(xué)的切音標(biāo)注,繪制出語(yǔ)圖。內(nèi)容上主要包括語(yǔ)料錄音整理、語(yǔ)音自動(dòng)標(biāo)注、語(yǔ)圖標(biāo)注數(shù)據(jù)庫(kù)的建庫(kù)三個(gè)方面,在研究方法上選擇定性研究和定量研究相結(jié)合,語(yǔ)料的選取原則、切分、標(biāo)注與分析屬于定性研究,語(yǔ)料的收集、數(shù)據(jù)庫(kù)建設(shè)屬于定量研究。首先,在藏語(yǔ)三個(gè)方言分布區(qū)域內(nèi)依據(jù)制定好的語(yǔ)料選取原則,選擇多個(gè)語(yǔ)料數(shù)據(jù)采集點(diǎn),內(nèi)容分為字、詞、句、篇章。所采用語(yǔ)料從目前已建好語(yǔ)料庫(kù)中選取,再到各采集點(diǎn)選擇合適的發(fā)音人,采取發(fā)音人一對(duì)一地調(diào)查錄音。想要?jiǎng)?chuàng)建一個(gè)全面標(biāo)準(zhǔn)的藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù),語(yǔ)料的客觀性和代表性是最根本的要求。因此,調(diào)研人員需要有較強(qiáng)的調(diào)研能力,必須具有豐富的田野經(jīng)驗(yàn),熟悉語(yǔ)料采集的整個(gè)流程,能夠熟練操作錄音設(shè)備和電腦軟件,具有善于溝通交流的能力。調(diào)研人員還要有很強(qiáng)的專(zhuān)業(yè)知識(shí),能夠快速核對(duì)語(yǔ)料,發(fā)現(xiàn)問(wèn)題及時(shí)就地解決,以節(jié)約人力和時(shí)間成本。語(yǔ)料的切分、標(biāo)注通過(guò)Praat軟件完成。具體的操作步驟:①將文本語(yǔ)料轉(zhuǎn)寫(xiě)成國(guó)際音標(biāo)。②使用軟件自帶的自動(dòng)標(biāo)注功能對(duì)語(yǔ)料進(jìn)行初次標(biāo)注。③專(zhuān)業(yè)標(biāo)注人員核查,對(duì)已經(jīng)自動(dòng)標(biāo)注過(guò)的語(yǔ)料進(jìn)行二次標(biāo)注,對(duì)標(biāo)注錯(cuò)誤或不合理的地方進(jìn)行手動(dòng)調(diào)整。④將所有文本語(yǔ)料、錄音材料和語(yǔ)圖標(biāo)注數(shù)據(jù)集合成數(shù)據(jù)庫(kù)系統(tǒng),以方便后續(xù)研究的調(diào)用。

        3 數(shù)據(jù)庫(kù)構(gòu)建意義

        為建設(shè)數(shù)據(jù)庫(kù)所開(kāi)展的語(yǔ)料采集工作有利于保護(hù)藏語(yǔ)方言,并且在語(yǔ)音數(shù)據(jù)庫(kù)建設(shè)中提出的一些方法和理論對(duì)創(chuàng)建其他少數(shù)民族語(yǔ)言語(yǔ)音數(shù)據(jù)庫(kù)是一個(gè)有利的參考。藏語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù)的創(chuàng)建過(guò)程中,需要運(yùn)用語(yǔ)言學(xué)、應(yīng)用語(yǔ)言學(xué)和計(jì)算機(jī)語(yǔ)言學(xué)學(xué)科知識(shí),是社會(huì)科學(xué)和自然科學(xué)的交叉結(jié)合。該數(shù)據(jù)的建成不僅限于為藏語(yǔ)的語(yǔ)言學(xué)研究提供包含語(yǔ)音、詞匯、語(yǔ)法三方面的基礎(chǔ)材料,還為藏族文化、歷史地理和風(fēng)俗習(xí)慣提供了文字證據(jù)。同時(shí),發(fā)揮了一個(gè)示范作用,推動(dòng)社會(huì)科學(xué)和自然科學(xué)的交叉運(yùn)用研究。藏語(yǔ)方言語(yǔ)圖標(biāo)注庫(kù)是一種重要而必需的資源儲(chǔ)備,是自然語(yǔ)言處理工作的前提準(zhǔn)備和必要環(huán)節(jié),只有創(chuàng)建了一個(gè)全面準(zhǔn)確的熟語(yǔ)料數(shù)據(jù)庫(kù),才能有效地開(kāi)展藏語(yǔ)的語(yǔ)音識(shí)別與合成、藏文文本自動(dòng)翻譯和人機(jī)交互技術(shù)等工作,對(duì)國(guó)家安全具有直接的應(yīng)用價(jià)值。

        猜你喜歡
        藏語(yǔ)語(yǔ)料語(yǔ)言學(xué)
        淺談藏語(yǔ)中的禮儀語(yǔ)
        客聯(lián)(2022年2期)2022-04-29 22:05:07
        漢藏語(yǔ)及其音樂(lè)
        藏語(yǔ)拉達(dá)克話的幾個(gè)語(yǔ)音特征
        西藏研究(2017年3期)2017-09-05 09:44:58
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
        藏語(yǔ)地理分布格局的形成原因
        西藏研究(2016年5期)2016-06-15 12:56:42
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
        語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
        久久久人妻一区精品久久久| 久久精品国内一区二区三区| 亚洲欧美欧美一区二区三区| 看全色黄大色大片免费久久久| 国产丝袜爆操在线观看| 曰本女人与公拘交酡| 六月丁香婷婷色狠狠久久| 被暴雨淋湿爆乳少妇正在播放 | 日韩亚洲一区二区三区在线| 女人18片毛片60分钟| 黑人大荫道bbwbbb高潮潮喷| 本道无码一区二区久久激情| 美女被躁到高潮嗷嗷免费观看 | 亚瑟国产精品久久| 无码专区中文字幕DVD| 国产精品专区一区二区av免费看| 中国老熟女露脸老女人| 午夜精品久久久久久99热| 99久久久久国产| 亚洲处破女av一区二区| 日日碰日日摸日日澡视频播放| 麻豆久久久9性大片| 91情侣视频| 日韩精品人妻视频一区二区三区 | 欧美日韩精品久久久免费观看| 国产乱子伦精品无码码专区| 日本福利视频免费久久久| 变态另类人妖一区二区三区| 一区二区三区在线 | 欧| 亚洲情a成黄在线观看动漫尤物| 蜜桃码一区二区三区在线观看| 亚洲午夜av久久久精品影院色戒| 日本高清aⅴ毛片免费| 波多吉野一区二区三区av| 蜜桃免费一区二区三区| 亚洲一卡2卡3卡4卡5卡精品| 亚洲日韩欧美一区二区三区| 亚洲中文字幕精品久久久| 欧美亚洲日本国产综合在线美利坚| 中文无码成人免费视频在线观看 | 少妇被粗大的猛烈进出免费视频|