亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文自動(dòng)分詞系統(tǒng)中虛詞識(shí)別算法研究

        2017-09-23 02:57:24拉巴頓珠趙棟材
        關(guān)鍵詞:中文信息藏文虛詞

        拉巴頓珠 歐 珠 趙棟材

        1(西藏大學(xué)藏文信息技術(shù)研究中心 西藏 拉薩 850000)2(西藏民族大學(xué) 陜西 咸陽(yáng) 712082)

        藏文自動(dòng)分詞系統(tǒng)中虛詞識(shí)別算法研究

        拉巴頓珠1歐 珠2趙棟材1

        1(西藏大學(xué)藏文信息技術(shù)研究中心 西藏 拉薩 850000)2(西藏民族大學(xué) 陜西 咸陽(yáng) 712082)

        在分析現(xiàn)有藏文自動(dòng)分詞方法的基礎(chǔ)上,針對(duì)藏文分詞系統(tǒng)中虛詞識(shí)別的難點(diǎn)進(jìn)行深入研究。根據(jù)傳統(tǒng)藏文文法,描述了藏文虛詞在文本中不同的表現(xiàn)形式,用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,建立了較為全面的虛詞知識(shí)庫(kù)和規(guī)則庫(kù),并給出切分用虛詞分塊算法,該方法在不同領(lǐng)域的3 200個(gè)較典型的藏文句子進(jìn)行了測(cè)試,結(jié)果表明,該方法的虛詞識(shí)別率高達(dá)98%以上。

        藏文自動(dòng)分詞 藏文信息處理 虛詞識(shí)別 藏文虛詞

        0 引 言

        藏文自動(dòng)分詞研究是藏文自然語(yǔ)言處理的前提,是藏文信息處理的一項(xiàng)不可缺少的基礎(chǔ)性工作,具有廣泛的應(yīng)用前景。藏文自動(dòng)分詞為詞性標(biāo)注、藏文語(yǔ)料庫(kù)的建設(shè)、藏文文本校對(duì)、藏文字詞頻統(tǒng)計(jì)、搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)、機(jī)器翻譯系統(tǒng)的開發(fā)、藏文拼寫檢查以及語(yǔ)句理解等方面的研究奠定良好的研究基礎(chǔ)。

        1 藏文虛詞的解析

        1.1 虛詞的概述

        在語(yǔ)言學(xué)中,詞分為實(shí)詞和虛詞兩大類,實(shí)詞指的是具有實(shí)際意義的詞,是藏文自動(dòng)分詞中獨(dú)立運(yùn)用而能夠表達(dá)一定意義的最小分詞單位。虛詞是與實(shí)詞相對(duì)而言的,在文本或者句子中不能表達(dá)任何意義,也不能獨(dú)立承擔(dān)句子的主要成分。虛詞本身沒(méi)有實(shí)在意義,也沒(méi)有詞性變化,但一個(gè)文本或句子中沒(méi)有虛詞就不能形成完整的語(yǔ)句,也不能表達(dá)出完整的含義。在自然語(yǔ)言處理中,藏語(yǔ)虛詞對(duì)詞法和句法結(jié)構(gòu)起著至關(guān)重要的橋梁紐帶作用,虛詞的用途廣,在句子結(jié)構(gòu)中用法和意義十分復(fù)雜,出現(xiàn)的頻率相當(dāng)高。在實(shí)現(xiàn)藏文自動(dòng)分詞系統(tǒng)中的主要難點(diǎn)之一,因此,信息處理用藏文虛詞識(shí)別研究很重要。

        1.2 計(jì)算機(jī)識(shí)別藏文虛詞的難點(diǎn)

        2 虛詞識(shí)別算法

        計(jì)算機(jī)識(shí)別藏文虛詞根據(jù)虛詞本身的特點(diǎn)和難點(diǎn)分析出發(fā),按照一定的先后順序進(jìn)行判斷,首先通過(guò)虛詞兼類詞典、單字詞典、規(guī)則的不自由虛詞詞典庫(kù)等進(jìn)行劃分,再識(shí)別緊縮詞并還原,最后結(jié)合中嵌否定詞、指人后綴來(lái)判斷藏文虛詞,如圖1所示。

        圖1 文本中藏文虛詞的識(shí)別過(guò)程

        2.1 藏文虛詞的識(shí)別過(guò)程

        計(jì)算機(jī)識(shí)別虛詞的首要工作就是建立一個(gè)相對(duì)全面的詞典庫(kù),為了提高詞典庫(kù)的質(zhì)量,需要采用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,并進(jìn)行大量的人工訓(xùn)練和測(cè)試。另一方面,經(jīng)實(shí)驗(yàn)和研究發(fā)現(xiàn),藏文虛詞在文本中表現(xiàn)形式相對(duì)復(fù)雜,單一形式的詞典不能滿足需求,因此要按照虛詞在文本中的不同表現(xiàn)形式,建立幾種不同的虛詞詞典(詞典命名為xcself)。

        (3) 不自由虛詞詞典(xcself3):收錄需要根據(jù)不自由虛詞的接續(xù)規(guī)則識(shí)別的藏文虛詞,該詞典格式為:<虛詞—前導(dǎo)字符—后接字符>。

        2.2 緊縮詞識(shí)別及還原

        根據(jù)緊縮詞的變體性及特殊性,分兩種情況進(jìn)行識(shí)別,分別是一般緊縮詞的識(shí)別和特殊緊縮詞的識(shí)別。

        2.3 自由虛詞的識(shí)別方法

        在藏文傳統(tǒng)文法中自由虛詞沒(méi)有變體性,而且不受前一個(gè)音節(jié)后置字的限制,可以自由使用,但自由虛詞也并不是不受任何限制而隨意使用,在文本中使用自由虛詞時(shí)也具有一定的接續(xù)特點(diǎn)。文中根據(jù)自由虛詞本身的接續(xù)特點(diǎn)和出現(xiàn)歧義的問(wèn)題,提出了較簡(jiǎn)單的自由虛詞識(shí)別方法。

        3 測(cè)試結(jié)果與分析

        3.1 測(cè)試結(jié)果

        本文采用的測(cè)試語(yǔ)料包含了法律、新聞?lì)?、教育類、醫(yī)學(xué)類、詩(shī)歌類、文學(xué)類等各個(gè)領(lǐng)域。從中選擇了較典型的3 200句進(jìn)行測(cè)試,同時(shí)還考慮了文獻(xiàn)的年代、地域等問(wèn)題。對(duì)測(cè)試語(yǔ)料進(jìn)行分詞,統(tǒng)計(jì)語(yǔ)料中虛詞出現(xiàn)的次數(shù)并計(jì)算準(zhǔn)確率(準(zhǔn)確率=正確識(shí)別的總次數(shù)/測(cè)試語(yǔ)料中出現(xiàn)的總次數(shù)×100%),同時(shí)對(duì)虛詞的兼類性、組合性、結(jié)合性、識(shí)別緊縮詞及還原。實(shí)驗(yàn)結(jié)果表明,文中提出的方法使虛詞的識(shí)別率達(dá)到98.013 8%。

        3.2 結(jié)果分析

        4 結(jié) 語(yǔ)

        藏文虛詞在文本中出現(xiàn)的頻率極高,其應(yīng)用廣泛,表現(xiàn)形式復(fù)雜多變。本文基于不同的語(yǔ)境中虛詞的識(shí)別率和分詞的準(zhǔn)確度,根據(jù)傳統(tǒng)的藏文文法,采用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,對(duì)較典型的3 200個(gè)語(yǔ)料句子進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果表明,所提出的方法使得虛詞的識(shí)別率有一定的提高。

        [1] 格桑居冕.實(shí)用藏文文法[M].成都:四川民族出版社,1987.

        [2] 卓瑪吉.藏文虛詞自動(dòng)識(shí)別研究[D].青海:青海民族大學(xué),2014.

        [3] 高定國(guó),扎西加,趙棟材.計(jì)算機(jī)識(shí)別藏語(yǔ)虛詞的方法研究[J].中文信息學(xué)報(bào),2014(1):114-117.

        [4] 關(guān)白.信息處理用藏文分詞單位研究[J].中文信息學(xué)報(bào),2010(3):124-128.

        [5] 趙棟材.基于虛詞切分的藏文分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(2):61-65.

        [6] 才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別[J].中文信息學(xué)報(bào),2009(1):35-37.

        [7] 索南才讓.面向自然語(yǔ)言處理的藏語(yǔ)虛詞la格研究[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2013(2):48-52.

        [8] 李亞超.基于條件隨機(jī)場(chǎng)的藏語(yǔ)自動(dòng)分詞方法研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2013(4):52-58.

        [9] 完么扎西.藏語(yǔ)自動(dòng)分詞中的幾個(gè)關(guān)鍵問(wèn)題的研究[J].中文信息學(xué)報(bào),2014(4):132-139.

        [10] 才讓三智,多拉.信息處理中藏語(yǔ)虛詞“na”和“l(fā)a”的標(biāo)注研究[J].電腦知識(shí)與技術(shù),2011,7(4):2441-2445.

        RESEARCHONFUNCTIONWORDRECOGNITIONALGORITHMINTIBETANAUTO-SEGMENTATIONSYSTEM

        Lhakpa Dondrub1Ngodrup2Zhao Dongcai11

        (ResearchCenterofTibetanInformationTechnology,TibetUniversity,Lhasa850000,Tibet,China)2(XizangMinzuUniversity,Xianyang712082,Shaanxi,China)

        By analyzing a literature review of present Tibetan Auto-Segmentation solutions, we study on the difficult points of Tibetan function words recognition. According to the traditional Tibetan grammar, we described the forms of Tibetan function words in different texts. A holistic function word dictionary and rules set had been created by a rules-statistics-combined method, and the function words segmentation algorithm had been implemented. We tested the algorithm on a sample corpus which contains 3 200 typical Tibetan sentences from different fields. The results show that the correct recognition rate of our system reaches up to 98%.

        Tibetan auto-segmentation Tibetan information-processing Function words recognition Tibetan function words

        TP391

        A

        10.3969/j.issn.1000-386x.2017.09.058

        2016-11-08。2015年度西藏大學(xué)研究生高水平人才培養(yǎng)項(xiàng)目;2016年教育部人文社會(huì)科學(xué)研究項(xiàng)目(16XZJCZH 001);2016年西藏自治區(qū)自然科學(xué)基金項(xiàng)目(2016ZR-15-5)。拉巴頓珠,碩士生,主研領(lǐng)域:藏文信息處理。歐珠,教授。趙棟材,副教授。

        猜你喜歡
        中文信息藏文虛詞
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        基于混合策略的藏文虛詞識(shí)別方法
        中國(guó)中文信息學(xué)會(huì)2019年活動(dòng)計(jì)劃2019年活動(dòng)計(jì)劃表
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        中國(guó)中文信息學(xué)會(huì)2018年學(xué)術(shù)活動(dòng)計(jì)劃
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        Note from the Editor-in-Chief
        現(xiàn)代語(yǔ)境下的藏文報(bào)刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        虛詞功能的羨余及其修辭作用
        書 訊
        欧美日韩精品乱国产538| 亚洲午夜狼人综合影院| 久久久久人妻一区二区三区| 中文字幕av无码一区二区三区 | 久久黄色国产精品一区视频| 亚洲中文字幕无码av| 国产一在线精品一区在线观看| 久久99老妇伦国产熟女高清| 视频女同久久久一区二区| 欧洲多毛裸体xxxxx| 性一交一乱一伦a片| 北岛玲日韩精品一区二区三区| 国产激情视频高清在线免费观看| 亚洲黄色天堂网站在线观看禁18| 男女裸交无遮挡啪啪激情试看| 欧美午夜精品久久久久久浪潮 | 亚洲电影中文字幕| 青青草在线公开免费视频| 十八禁视频在线观看免费无码无遮挡骂过 | 亚洲中文字幕日本日韩| 亚洲中文久久精品字幕| 国产如狼似虎富婆找强壮黑人| 四虎在线播放免费永久视频| 91成人自拍视频网站| 国产极品美女高潮无套| 午夜成人鲁丝片午夜精品| 免费无遮挡无码视频在线观看| 日本一级二级三级在线| 久久亚洲av成人无码国产最大| 内射囯产旡码丰满少妇| 狼色精品人妻在线视频| 亚洲乱亚洲乱妇| 日日噜噜夜夜狠狠久久无码区| 色窝综合网| 国产女同舌吻1区2区| 又大又粗又爽18禁免费看| 中字无码av电影在线观看网站 | 97人伦色伦成人免费视频| 伊人久久成人成综合网222| 久久中文字幕av第二页| 色偷偷激情日本亚洲一区二区|