亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文數(shù)詞自動檢錯研究

        2020-01-16 06:51:38冷本杰高定國
        電子技術(shù)與軟件工程 2019年21期
        關(guān)鍵詞:規(guī)則變形文本

        文/冷本杰 高定國

        1 引言

        文本校對是自然語言處理領(lǐng)域重要的研究課題,在計算機自動生成語料、機器翻譯、文本檢索、版面分析、手寫體識別等研究領(lǐng)域和后期的文本編輯中有著廣闊的應(yīng)用前景。藏文數(shù)詞檢錯是藏文詞校對的一部分,也是錯誤出現(xiàn)頻率較高,且相對于藏文音節(jié)檢錯而言,檢錯需要觀察前后出現(xiàn)的字節(jié),根據(jù)音位環(huán)境的變形情況而檢錯的局部校對,所以藏文數(shù)詞檢錯實現(xiàn)難度較大。

        藏文文本校對研究開始于20世紀(jì)90年代,目前文本校對方面的研究內(nèi)容有通過采用字典匹配法和根據(jù)藏文字母的構(gòu)建規(guī)則,應(yīng)用規(guī)則完成音節(jié)字拼寫檢錯;根據(jù)傳統(tǒng)文法中的藏文虛詞添接規(guī)則,生成一定規(guī)模的規(guī)則庫來檢查藏文虛詞(自由虛詞)的接續(xù)關(guān)系;再用以上藏文音節(jié)字和接續(xù)關(guān)系的檢查外,進行分詞,完成梵文轉(zhuǎn)寫藏文拼寫檢查、詞語錯誤檢查以及綜合校對的框架設(shè)計及實現(xiàn)等研究。藏文詞校對方面的研究成果大多屬于理論性研究,具體實現(xiàn)中所使用方法的是詞典匹配法,這就需要龐大的詞典作為校對系統(tǒng)的基礎(chǔ)。詞典中通常收錄的數(shù)詞有基礎(chǔ)的(一)到(十)、(百)、(千)、(萬)、(十萬)、(百萬)、(千萬)、(億)等數(shù)詞、特殊的變形詞以及有特殊含義或和其它詞性搭配的數(shù)詞。藏文數(shù)詞的組詞功能強大,變化多,導(dǎo)致詞典無法收錄文本中可能產(chǎn)生的所有數(shù)詞。

        2 藏文數(shù)詞檢錯的理論依據(jù)

        2.1 藏文數(shù)詞的詞法規(guī)范研究

        2.1.1 文本表示藏文數(shù)詞

        數(shù)詞顧名思義,就是表示數(shù)目的詞語,屬于語法概念。不同語言中對數(shù)字有特殊簡易的表示符號。比如常用的世界通用阿拉伯?dāng)?shù)字,羅馬數(shù)字等。藏文中也有特定的數(shù)字符號,如表1所示。如果在常用文本中都使用這些數(shù)字符號,數(shù)詞的詞法規(guī)范問題就很簡單,但是正規(guī)文檔和大多數(shù)傳統(tǒng)文本書籍中絕大多數(shù)都是以文本表示數(shù)詞。比如:

        2.1.2 藏文數(shù)位表示

        藏文數(shù)詞通常主要分為計數(shù)詞和序列詞。序列詞是表示次序的詞,在具體語言中通常會前面出現(xiàn)(第)、(數(shù))等詞,或后面會出現(xiàn)、等詞綴[9]。傳統(tǒng)的藏族天文歷算中計數(shù)詞可以列到六十位(),其中基礎(chǔ)的藏文計數(shù)詞有(一)、(二)、(三)、(四)、(五)、(六)、(七)、(八)、(九)、(十)、(百)、(千)、(萬)、(十萬)、(百萬)、(千萬)、(億)等,其余的很少使用,所以不在贅述。

        表1:數(shù)字符號

        表2:數(shù)詞變形規(guī)則表

        2.1.3 藏文數(shù)詞和數(shù)位詞發(fā)生形變

        藏文基本的計數(shù)詞合成形成其余數(shù)詞時,不能像漢語那樣直接搭配,而會根據(jù)具體的音位環(huán)境變形。比如:(十五)、(二十)、(二 十 一)、(三 十 三)、(七十六)。藏文數(shù)詞變形規(guī)則如表2所示。

        藏文數(shù)詞的變形有如下規(guī)律:

        (1)藏文數(shù)詞中表達個位數(shù)時,不論計數(shù)還是序數(shù)都會使用數(shù)詞原形。比如:(一束花)、(吉祥八寶)、(第二名);

        (3)個位和十位數(shù)合成出現(xiàn)時,個位數(shù)的數(shù)詞會出現(xiàn)變形現(xiàn)象,會用(二)、(三)、(四)、(五)、(六)、(七)、(八)、(九)來代替數(shù)詞原形。比如:(二十一)、(三十三)、(四十五)、(五十六)、(六十七)、(八十九)、(九十一);

        (5)藏文日期中通常表達二十至二十九號時,中間不會加變形體(二);而表示人的年齡、金錢余額等物質(zhì)數(shù)量時中間的(二)用來代替。比如:(今天是二十三號)(二十五歲男兒)。

        2.2 藏文數(shù)詞的特性分析

        藏文數(shù)詞出現(xiàn)在文本除了單純的數(shù)字表示之外大多數(shù)是在修飾名詞。修飾名詞時通常名詞出現(xiàn)在數(shù)詞前面,所修飾的名詞有所有復(fù)數(shù)可數(shù)名詞和方位詞或處所名詞,修飾方式有直接修飾和間接修飾名詞。直接修飾可數(shù)名詞例如:(五個人)、(六公里)、(17m2)、(一 千 斤)、(兩百畝)、(三天)、(兩個任務(wù));直接修飾方位詞或處所名詞例如:兩方)、(四方)、(兩面)、(兩岸);間接修飾名詞時通常名詞和數(shù)詞中間出現(xiàn)一些量詞(種)、(次)、(部)和其他特殊詞(數(shù))、(倍)、(各種)、(總共)、(一共)。

        另外也有數(shù)詞和動詞組合在一起,形成一種語義獨立的詞匯來修飾名詞,這時數(shù)詞通常不會實指具體的數(shù)目,而是泛指多或少,統(tǒng)一或部分、連續(xù)或擴散等和數(shù)量有關(guān)的含義。比 如:(統(tǒng) 一)、(集 中) 、(專心致志)、(集中力量)、(連續(xù)不斷)、(九煞畢集)。數(shù)詞和動詞組合一起時也可以中間添加虛詞來連接一起。比如:(連接)、(集中)。

        2.3 藏文數(shù)詞的常見詞法錯誤分析

        通過遍歷大小為176MB的藏文新聞?wù)Z料,抽取數(shù)詞的前后共五個字節(jié),分析詞法錯誤情況,發(fā)現(xiàn)藏文數(shù)詞的詞法應(yīng)用錯誤主要是原形與變體混用導(dǎo)致錯誤。數(shù)詞中(一)、(二)、(三)和變形詞(一)、(二)、(三)的具體用法混淆,例如:(兩千年)寫成(兩千年)。數(shù)詞和變形詞在數(shù)詞合成中需要查看前一個音節(jié),而具體的應(yīng)用中常出現(xiàn)用法混淆現(xiàn)象。例如:(六十),(四十)。

        3 藏文數(shù)詞自動檢錯算法設(shè)計

        3.1 藏文數(shù)詞自動檢錯算法設(shè)計

        藏文中基礎(chǔ)的數(shù)詞很少,但出現(xiàn)頻率較高,這些基礎(chǔ)數(shù)詞會通過內(nèi)部合成或和其它詞性搭配形成更多的詞。文本中出現(xiàn)的藏文數(shù)詞搭配錯誤種類少、有規(guī)則可循,所以按照一定規(guī)則可以完成常見錯誤的檢錯。

        按照藏文數(shù)詞的規(guī)范、特征、設(shè)計的藏文數(shù)詞檢錯算法如下:

        (1)讀取待檢錯的藏文文本內(nèi)容,以藏文音節(jié)點作為分隔符,將文本切分成音節(jié)字序列,然后每個字符存儲在字符串?dāng)?shù)組String[] str中,字符串str數(shù)組如T=Z1+Z2+……Zn-1+Zn來表示,其中Zn是一個藏文音節(jié)字。

        (3)如果Zn與藏文基礎(chǔ)數(shù)詞匹配成功,則執(zhí)行(4),否則繼續(xù)匹配。

        (4)判斷基礎(chǔ)數(shù)詞前后出現(xiàn)以下字符串?dāng)?shù)組時按變形規(guī)律檢錯。

        圖1:藏文數(shù)詞檢錯流程

        圖2:藏文數(shù)詞檢錯測試結(jié)果

        按以上設(shè)計的算法和流程圖實現(xiàn)藏文檢錯過程如下:

        3.2 藏文數(shù)詞自動檢錯算法測試

        本次測試,為了體現(xiàn)檢錯算法的實際效果,測試文本主要選用詞法錯誤統(tǒng)計處理后的語料,內(nèi)容是基礎(chǔ)數(shù)詞以及前后共五個音節(jié)字符,每五個字節(jié)有單垂符隔開。將測試文本進行自動檢錯,檢錯完成的結(jié)果保存到一個新文本中,結(jié)果如圖2所示。

        雖然以上算法可以完成簡單的常見藏文數(shù)詞詞法上的錯誤檢錯,但也有以下兩點缺陷:

        (1)藏文基礎(chǔ)數(shù)詞的音節(jié)拼寫錯誤以及和音節(jié)錯誤合成的詞法錯誤無法檢錯,如(一)、(三千)等。

        (2)藏文數(shù)詞中有兼類詞,這些兼類詞有時恰好和數(shù)詞連續(xù)出現(xiàn),雖然數(shù)量極少,但也有出現(xiàn)如(兩層寶座)、(空屋三頂)的可能,這時檢錯算法會檢錯失誤,出現(xiàn)錯誤糾正的現(xiàn)象。

        4 結(jié)束語

        藏文文本中數(shù)詞有嚴(yán)格的詞法合成規(guī)范,卻詞法錯誤出現(xiàn)頻繁。本文詳細(xì)分析了藏文數(shù)詞的變形情況、語法特征、搭配規(guī)律等知識,通過統(tǒng)計分析常見的詞法錯誤,提出了基于規(guī)則的數(shù)詞合成檢錯算法,利用該方法檢錯成功率達到100%。

        猜你喜歡
        規(guī)則變形文本
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        談詩的變形
        中華詩詞(2020年1期)2020-09-21 09:24:52
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        “我”的變形計
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        例談拼圖與整式變形
        TPP反腐敗規(guī)則對我國的啟示
        會變形的餅
        欧美mv日韩mv国产网站| 热99精品| 免费一级国产大片| 亚洲女同人妻在线播放| 国产一区二区三区在线观看完整版 | 热re99久久精品国产99热| 亚洲成a∨人片在线观看无码 | 在线观看网址你懂的| 久国产精品久久精品国产四虎| 无码一区久久久久久久绯色AV| 中文字幕一区二区三区喷水| 日本高清乱码中文字幕| 亚洲va中文字幕| 久久久亚洲色| 日中文字幕在线| 亚洲国产综合性感三级自拍| 最新日本久久中文字幕| 国产一区二区三区日韩在线观看| 亚洲中文字幕在线一区| 少妇伦子伦精品无吗| 精品国产拍国产天天人| 又污又爽又黄的网站| 国产精品99久久精品爆乳| 欧美亚洲国产精品久久久久| 区一区二区三区四视频在线观看| 蜜臀性色av免费| 好男人日本社区www| 亚洲国产精品中文字幕日韩| 好看的中文字幕中文在线| 国产爆乳无码一区二区麻豆| 中国猛少妇色xxxxx| 久久精品国产久精国产69| 国产精品国产三级国产专区不| 亚洲精品无码永久中文字幕| 男受被做哭激烈娇喘gv视频| 亚洲中文字幕乱码免费| 在线观看免费不卡网站| 人妻久久久一区二区三区蜜臀| 94久久国产乱子伦精品免费| 久久中文字幕久久久久| 黄色中文字幕视频网站|