亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向信息處理的少數(shù)民族語料庫構(gòu)建分析

        2019-12-13 07:18:08費(fèi)德蓮袁凌云權(quán)朝臣
        無線互聯(lián)科技 2019年19期
        關(guān)鍵詞:蒙語維語藏語

        費(fèi)德蓮 袁凌云 權(quán)朝臣

        摘 ? 要:語料庫是一切自然語言處理的基礎(chǔ),尤其是在機(jī)器翻譯、語音識別等應(yīng)用的大趨勢下,構(gòu)建高質(zhì)量、大規(guī)模、標(biāo)準(zhǔn)化的語料庫尤為重要。民族語料庫構(gòu)建工作自20世紀(jì)八九十年代起,到目前已取得眾多成果。文章主要對我國民族語料庫的建設(shè)現(xiàn)狀及相關(guān)研究進(jìn)行介紹與評價,重點(diǎn)分析蒙語、維語、藏語語料庫研究工作,并在此基礎(chǔ)上,針對民族語料庫構(gòu)建存在的問題提幾點(diǎn)建議,以期為其他少數(shù)民族構(gòu)建民族語料庫提供借鑒與參考。

        關(guān)鍵詞:少數(shù)民族語;語料庫構(gòu)建;蒙語;維語;藏語

        語料庫從1.0,2.0到大數(shù)據(jù)推動下的3.0時代,給語言研究及語言應(yīng)用研究帶來了革命性變化,針對語料庫的構(gòu)建與研究,俞士汶、何中清、龐偉、譚祥燕等對國內(nèi)外語料庫發(fā)展現(xiàn)狀都進(jìn)行了綜述,但文章多以漢、英、日語為研究對象,很少關(guān)注民族語料庫。雖然民族語信息化起步晚,但根據(jù)近10年(2009—2018)《中文信息學(xué)報》、全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會等期刊、會議的發(fā)文情況看,民族語料庫構(gòu)建與研究工作正在飛速發(fā)展,尤其是蒙、維、藏等幾個少數(shù)民族語,無論是在語料庫構(gòu)建,還是基于庫的語言研究或語音識別、機(jī)器翻譯等方面的應(yīng)用研究都取得了重大突破。

        1 ? ?民族語料庫整體發(fā)展現(xiàn)狀

        為從整體上把握民族語料庫構(gòu)建現(xiàn)狀,本部分對中國知網(wǎng)(China National Knowledge Infrastructure,CNKI)收錄有關(guān)民族語料庫構(gòu)建的論文進(jìn)行篩選,得到與之直接相關(guān)的論文167篇,并從年載文、研究主體、關(guān)鍵詞3個方面分析民族語料庫構(gòu)建現(xiàn)狀、熱點(diǎn)與發(fā)展趨勢。

        1.1 ?年載文

        根據(jù)年載文量(見圖1)可知,1992—2008年論文較少,民族語料庫處于緩慢發(fā)展中,未引起太多研究者的關(guān)注;2009年至今,載文量穩(wěn)步增加,且論文被引頻次逐年遞增,說明近10年民族語料庫構(gòu)建與研究一直處于活躍狀態(tài),今后也將存在極大研究空間。

        1.2 ?研究主體

        如圖2所示,內(nèi)蒙古大學(xué)與新疆大學(xué)研究成果遠(yuǎn)高于其他機(jī)構(gòu),有關(guān)蒙、維語語料庫的研究較多,開展語料庫研究的主要是西北部少數(shù)民族,其他如云南的少數(shù)民族研究較少。通過對文獻(xiàn)進(jìn)一步分析發(fā)現(xiàn),把語料庫建設(shè)本身作為研究對象的并不多,持續(xù)性研究更少,相關(guān)學(xué)者更傾向于語料庫應(yīng)用研究,使得眾多因研究需要構(gòu)建的小規(guī)模語料庫未得到融合、共享等有效利用。

        1.3 ?關(guān)鍵詞

        通過書目共現(xiàn)系統(tǒng)對文獻(xiàn)關(guān)鍵詞進(jìn)行分析,設(shè)閾值為6,結(jié)果如表1所示。數(shù)據(jù)庫頻次較高,說明部分民族語料庫研究還處于數(shù)據(jù)庫階段;民族語料庫研究以蒙、維、藏為主;語音合成、語音識別與管理平臺頻次較高,是目前的研究熱點(diǎn);此外頻次低于6的關(guān)鍵詞占比較大,說明民族語料庫整體研究內(nèi)容較為分散。

        2 ? ?民族語料庫具體構(gòu)建現(xiàn)狀

        蒙、維、藏語信息化起步較早且有各高校的持續(xù)研究,相較于其他少數(shù)民族有明顯的研究優(yōu)勢與更前沿的研究成果。因此本部分重點(diǎn)介紹蒙、維、藏語語料庫構(gòu)建現(xiàn)狀,對其他民族語料庫僅做簡單介紹。

        2.1 ?語料庫建設(shè)

        相較于維語、藏語,蒙語語料庫更多、更完善且有更多專業(yè)語料庫,已建成回鶻體、托忒文、八思巴文、西里爾蒙文古籍、蒙古秘史等文獻(xiàn)語料庫以及《17世紀(jì)滿蒙關(guān)系書信》語料庫,蒙語諺語、熟語、電話語音、口語語料庫以及漢蒙、蒙漢、漢蒙俄英日等多語種平行語料庫。其中,現(xiàn)代蒙古語文數(shù)據(jù)庫較為典范,語料涵蓋蒙語教材、文學(xué)、政治、新聞、社會科學(xué)、自然科學(xué)以及口語等內(nèi)容,目前正在建設(shè)包含言語、文獻(xiàn)的2億詞級蒙古語語料庫。

        維語已建成800萬,1 000萬詞級的維語語料庫以及123萬詞級的詞法標(biāo)注語料庫和3 000句的句法標(biāo)注語料庫,30萬句的維漢平行語料庫、漢維醫(yī)療平行語料庫、烏茲別克語—維語平行語料庫、漢文—維吾爾文平行語料庫等語料庫,并在網(wǎng)絡(luò)與在線文本語料庫方面進(jìn)行了探索,部分研究者也開始研究維語電話語音及方言口音等語料庫。

        藏語語料庫研究自1999年開始,先后構(gòu)建了500萬音節(jié)字的初級平衡語料庫、1.5億字符的大型藏文平衡語料庫、1.3億字的大型藏文語料庫以及藏語拉薩話口語語音語料庫、藏語13個方言點(diǎn)的方音數(shù)據(jù)庫、藏語諺語、電話語音語料庫。此外還構(gòu)建了藏族歷代文獻(xiàn)資料庫、藏文農(nóng)牧科、醫(yī)藥等文獻(xiàn)數(shù)據(jù)庫,但多數(shù)屬于數(shù)據(jù)庫、資料庫,未上升到語料庫研究階段。

        3個少數(shù)民族在手寫語料庫、動態(tài)腭位語料庫、情感語料庫及多模態(tài)語料庫方面也進(jìn)行了一些嘗試。除蒙、維、藏語外,戴紅亮、王曉丹、何芳芳、楊健、王成平、張羽等分別對傣、朝鮮、羌、白、彝、壯語語料庫進(jìn)行構(gòu)想與建設(shè);針對瀕危民族語言語料庫,范俊軍、劉巖等也進(jìn)行了系列設(shè)計與研究。

        2.2 ?語料庫加工處理

        標(biāo)注規(guī)范方面,蒙語曾提出建立詞語分類與標(biāo)記集,但因無后續(xù)投入,未形成較規(guī)范、完整的研究成果;2009年,新疆大學(xué)確定了《維吾爾語詞語分類體系及其標(biāo)記集》[1-2],同年,玉素甫等[3]制定了《信息處理用現(xiàn)代維吾爾語4類詞干詞類標(biāo)記規(guī)范與手冊》;2019年正式實(shí)施《信息處理用藏語詞類標(biāo)記集》《信息處理用藏文分詞規(guī)范》兩項國家標(biāo)準(zhǔn)[4-5]。近年,曲珍、陳晨、郭淑妮、趙建東等提出面向語音合成的音段、韻律標(biāo)注規(guī)范,為蒙、藏語規(guī)范標(biāo)注起到一定作用。

        分詞標(biāo)注方面,設(shè)計了班智達(dá)、SegT,TIP-LAS等藏文分詞系統(tǒng),研究了融合語言特征的最大熵藏文詞性標(biāo)注模型及基于詞向量模型的詞性標(biāo)注方法,提升了詞性標(biāo)注準(zhǔn)確性;蒙語基于AYIMAG開發(fā)了新一代蒙語詞語自動切分與標(biāo)注系統(tǒng)。除基于規(guī)則的方法,少數(shù)民族也開始探索基于神經(jīng)網(wǎng)絡(luò)解決民族語分詞標(biāo)注問題,2018年李博涵等[6]對比幾種神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)編碼器—標(biāo)注器長短期記憶模型得到的分詞結(jié)果最好,準(zhǔn)確率達(dá)92.96%。

        管理平臺方面,蒙語在相關(guān)課題背景下已建成語言資源管理平臺、宣傳與發(fā)布平臺及加工與研究平臺[7];維語構(gòu)建了支持多語種的語料庫建設(shè)與管理平臺[8]以及維語中介語語料庫管理系統(tǒng)[9],實(shí)現(xiàn)了語料的在線錄入、審核、標(biāo)注與檢索等工作。

        2.3 ?語料庫應(yīng)用

        一方面基于民族語料庫蘇婭、畢麗克孜、盧亞軍等分析掌握了蒙、維、藏語的發(fā)展現(xiàn)狀;胡傳成、久美然不旦通過研究民族語句式、詞匯,提升維、藏語教學(xué)科學(xué)性。另一方面基于語料庫研發(fā)了漢蒙英日、漢維哈柯文等電子詞典,推出蒙語語音合成軟件、漢蒙翻譯系統(tǒng)與維語語音識別、語音合成、維漢翻譯軟件,同時西藏大學(xué)、科大訊飛先后發(fā)布藏語智能語音云平臺、維漢語音翻譯終端設(shè)備,進(jìn)一步加快了民族語信息化進(jìn)程。

        3 ? ?民族語料庫建設(shè)和應(yīng)用中存在的問題及相應(yīng)對策

        針對民族語料庫建設(shè)和應(yīng)用中存在的問題,提出以下幾點(diǎn)思考與建議。

        3.1 ?語料庫發(fā)展不平衡

        通過前文分析可知,蒙、藏、維語語料庫較完善,羌、壯、彝語等語料庫規(guī)模較小,文本來源較局限,多數(shù)民族還未構(gòu)建民族語料庫,無法滿足語言信息處理的需要。為促進(jìn)民族語料庫均衡發(fā)展,除國家對民族語言項目的支持與資金投入,民族地區(qū),尤其西南地區(qū)院校應(yīng)鼓勵相關(guān)專業(yè)學(xué)生構(gòu)建本地區(qū)民族語料庫,特別是瀕危民族語言,為語音研究、教學(xué)及應(yīng)用等提供有效數(shù)據(jù)。

        3.2 ?語料庫構(gòu)建不規(guī)范

        民族語料庫多由個體自主采集構(gòu)建,庫內(nèi)量少,樣本不均衡、發(fā)音人較少且缺乏統(tǒng)一的加工標(biāo)準(zhǔn),不同的編碼方式、標(biāo)注規(guī)則以及層級使眾多語料庫難以融合共享?;诖?,首先,應(yīng)統(tǒng)一各民族語字符編碼集,制定技術(shù)標(biāo)準(zhǔn)和建議性文件;其次,借鑒SAMPA-C,C-ToBI設(shè)計本民族語標(biāo)注規(guī)則與標(biāo)注集;再次,采用主動學(xué)習(xí)策略,為標(biāo)注對象提供低頻義項或含更多語言信息的語料,實(shí)現(xiàn)樣本均衡;最后,組織構(gòu)建民族語料庫管理平臺,整合以往小型語料庫資源。

        3.3 ?語料庫自動化程度低

        民族語多采用田野采集的方式采集語音,但不同地區(qū)、村落發(fā)音存在差異,采集效率低;通過專家或?qū)B殬?biāo)注員使用Praat等工具進(jìn)行人工標(biāo)注,費(fèi)時、費(fèi)力且容易出錯?;诖?,可定制民族語語音采集軟件遠(yuǎn)程采集,同時建立語言學(xué)模型,以現(xiàn)有語料為訓(xùn)練語料,嘗試自動標(biāo)注,人工復(fù)核,以迭代的方式提高標(biāo)注效率與準(zhǔn)確性,促進(jìn)民族語料庫構(gòu)建工作的自動化。

        3.4 ?語料資源缺乏共享機(jī)制

        從目前情況看,多數(shù)民族語料庫沒有上網(wǎng),未向公眾開放,如2009年建成的彝語語音參數(shù)數(shù)據(jù)庫,且無相應(yīng)平臺提供檢索與下載服務(wù)。通過良好的資源共享機(jī)制,搭建民族語料庫共享平臺,使資源得到推廣與共享,既方便相關(guān)研究者檢索、瀏覽與使用,提高語料的使用效率,又促進(jìn)民族語之間相互借鑒,推動民族語信息化研究。

        4 ? ?結(jié)語

        民族語由于自身特殊性,存在文本與讀音不規(guī)范、地區(qū)差異性等問題,同時缺乏專業(yè)技術(shù)人員,民族語料庫構(gòu)建面臨諸多問題。針對少數(shù)民族語料庫構(gòu)建,應(yīng)確定各民族語相關(guān)標(biāo)準(zhǔn)文件,設(shè)計、開發(fā)語料加工系列軟件工具,借鑒漢、蒙、藏、維等語語料庫構(gòu)建經(jīng)驗,促進(jìn)構(gòu)建工作的規(guī)范化與自動化,同時鼓勵熱愛民族語的母語或非母語研究者投身其中,為保護(hù)民族語言文化、促進(jìn)民族語信息化作出努力。

        [參考文獻(xiàn)]

        [1]阿里甫·庫爾班,吾買爾江·庫爾班,吐爾根·伊布拉音.信息處理維吾爾語詞語分類體系及標(biāo)記研究(Ⅰ)[J].新疆大學(xué)學(xué)報(自然科學(xué)版),2009(4):476-481.

        [2]阿里甫·庫爾班,吾買爾江·庫爾班,吐爾根·伊布拉音.面向信息處理的維吾爾語詞語分類體系及標(biāo)記研究(Ⅱ)[J].新疆大學(xué)學(xué)報(自然科學(xué)版),2010(1):106-112,116.

        [3]玉素甫·艾白都拉,張海軍,艾孜爾古麗.信息處理用現(xiàn)代維吾爾語詞干詞類標(biāo)記集研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2011(6):45-48,63.

        [4]國家標(biāo)準(zhǔn)行業(yè)標(biāo)準(zhǔn)信息服務(wù)網(wǎng).(GB/T 36337—2018)信息處理用藏語詞類標(biāo)記集[EB/OL].(2018-06-07)[2019-10-10].http://www.zbgb.org/2/StandardDetail4181429.htm.

        [5]國家標(biāo)準(zhǔn)行業(yè)標(biāo)準(zhǔn)信息服務(wù)網(wǎng).(GB/T 36452—2018)信息處理用藏文分詞規(guī)范[EB/OL].(2018-06-07)[2019-10-10].http://www.zbgb.org/2/StandardDetail4181573.htm.

        [6]李博涵,劉匯丹,龍從軍,等.基于深度學(xué)習(xí)的藏文分詞方法[J].計算機(jī)工程與設(shè)計,2018(1):194-198.

        [7]趙小兵.構(gòu)建《蒙古語及三少數(shù)民族語言語料庫資源管理平臺》[C].西雙版納:全國民族語言文字信息學(xué)術(shù)研討會,2007.

        [8]徐健.維吾爾語語音語料庫管理平臺的研究與實(shí)現(xiàn)[D].烏魯木齊:新疆大學(xué),2018.

        [9]買吾浪江·艾依提.維吾爾中介語語料庫管理系統(tǒng)建設(shè)及自動標(biāo)注技術(shù)研究[D].烏魯木齊:新疆農(nóng)業(yè)大學(xué),2016.

        Abstract:The corpus is the basis of natural language processing, especially in the trend of applications such as machine translation and speech recognition. It is important to build high quality, massive, standardized corpus. Since the 1980s and 1990s, the construction of the national corpus has achieved many achievements. This paper analysis the research status of the national corpus, focusing on the Mongolian, Uyghur and Tibetan corpus. And then, this paper puts forward some suggestions for the problems existing in the construction of national corpus, so as to provide reference for other ethnic minorities to build national corpus.

        Key words:minority nationality language; corpus construction; Mongolian; Uyghur; Tibetan

        猜你喜歡
        蒙語維語藏語
        對比語言學(xué)視野下的維吾爾語與朝鮮語音義相近詞比較初探
        淺談藏語中的禮儀語
        客聯(lián)(2022年2期)2022-04-29 22:05:07
        淺析維語口語技能的影響因素和提升路徑
        漢藏語及其音樂
        《御制滿株蒙古漢字三合切音清文鑒》與《蒙語老乞大》中的蒙古語第一音節(jié)母音比較研究
        試析如何在小學(xué)蒙語課堂中鍛煉學(xué)生口語交際
        藏語拉達(dá)克話的幾個語音特征
        西藏研究(2017年3期)2017-09-05 09:44:58
        淺析介詞“打”與蒙語“從格”對比分析
        探析蒙語與漢語構(gòu)詞演變中反映的民族特色
        藏語地理分布格局的形成原因
        西藏研究(2016年5期)2016-06-15 12:56:42
        男女av一区二区三区| 久久国产乱子伦精品免费强| 国产欧美日韩专区毛茸茸| 女同av免费在线播放| 亚洲av激情一区二区| 亚洲av无码国产精品久久| 国产无遮挡又黄又爽免费网站| 国产精品va在线播放我和闺蜜| 国产精品久久久亚洲第一牛牛| 日日噜噜夜夜久久密挑| 亚洲一区二区三区偷拍女| 免费无码不卡视频在线观看| a级毛片免费观看网站| 国产成人8x视频网站入口| 亚洲中文字幕不卡一区二区三区| 一区二区三区视频亚洲| 国产成人av一区二区三区在线观看| 中国老熟妇自拍hd发布| av色综合网站| 高清亚洲成av人片乱码色午夜| 亚洲综合中文字幕日韩| 国产精品天干天干综合网 | 免费人成视频在线| 久久亚洲AV无码精品色午夜| 久久精品国产亚洲av蜜桃av| 日韩女同在线免费观看| 亚洲av成人片无码网站| 中文亚洲成a人片在线观看| 在线天堂中文一区二区三区| 手机在线观看成年人视频| 在线观看国产成人av天堂野外| 日韩精品久久久久久久电影蜜臀 | 91精品久久久中文字幕| 成人免费a级毛片| 国产精品对白交换视频| 黑人一区二区三区在线| 国产天堂av在线播放资源| 色一情一乱一伦一视频免费看| 免费xxx在线观看| 日本熟妇中文字幕三级| 国产一区二区三区的区|