亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文數(shù)詞自動檢錯研究

        2020-01-16 06:51:38冷本杰高定國
        電子技術(shù)與軟件工程 2019年21期
        關(guān)鍵詞:詞法數(shù)詞藏文

        文/冷本杰 高定國

        1 引言

        文本校對是自然語言處理領(lǐng)域重要的研究課題,在計算機(jī)自動生成語料、機(jī)器翻譯、文本檢索、版面分析、手寫體識別等研究領(lǐng)域和后期的文本編輯中有著廣闊的應(yīng)用前景。藏文數(shù)詞檢錯是藏文詞校對的一部分,也是錯誤出現(xiàn)頻率較高,且相對于藏文音節(jié)檢錯而言,檢錯需要觀察前后出現(xiàn)的字節(jié),根據(jù)音位環(huán)境的變形情況而檢錯的局部校對,所以藏文數(shù)詞檢錯實現(xiàn)難度較大。

        藏文文本校對研究開始于20世紀(jì)90年代,目前文本校對方面的研究內(nèi)容有通過采用字典匹配法和根據(jù)藏文字母的構(gòu)建規(guī)則,應(yīng)用規(guī)則完成音節(jié)字拼寫檢錯;根據(jù)傳統(tǒng)文法中的藏文虛詞添接規(guī)則,生成一定規(guī)模的規(guī)則庫來檢查藏文虛詞(自由虛詞)的接續(xù)關(guān)系;再用以上藏文音節(jié)字和接續(xù)關(guān)系的檢查外,進(jìn)行分詞,完成梵文轉(zhuǎn)寫藏文拼寫檢查、詞語錯誤檢查以及綜合校對的框架設(shè)計及實現(xiàn)等研究。藏文詞校對方面的研究成果大多屬于理論性研究,具體實現(xiàn)中所使用方法的是詞典匹配法,這就需要龐大的詞典作為校對系統(tǒng)的基礎(chǔ)。詞典中通常收錄的數(shù)詞有基礎(chǔ)的(一)到(十)、(百)、(千)、(萬)、(十萬)、(百萬)、(千萬)、(億)等數(shù)詞、特殊的變形詞以及有特殊含義或和其它詞性搭配的數(shù)詞。藏文數(shù)詞的組詞功能強(qiáng)大,變化多,導(dǎo)致詞典無法收錄文本中可能產(chǎn)生的所有數(shù)詞。

        2 藏文數(shù)詞檢錯的理論依據(jù)

        2.1 藏文數(shù)詞的詞法規(guī)范研究

        2.1.1 文本表示藏文數(shù)詞

        數(shù)詞顧名思義,就是表示數(shù)目的詞語,屬于語法概念。不同語言中對數(shù)字有特殊簡易的表示符號。比如常用的世界通用阿拉伯?dāng)?shù)字,羅馬數(shù)字等。藏文中也有特定的數(shù)字符號,如表1所示。如果在常用文本中都使用這些數(shù)字符號,數(shù)詞的詞法規(guī)范問題就很簡單,但是正規(guī)文檔和大多數(shù)傳統(tǒng)文本書籍中絕大多數(shù)都是以文本表示數(shù)詞。比如:

        2.1.2 藏文數(shù)位表示

        藏文數(shù)詞通常主要分為計數(shù)詞和序列詞。序列詞是表示次序的詞,在具體語言中通常會前面出現(xiàn)(第)、(數(shù))等詞,或后面會出現(xiàn)、等詞綴[9]。傳統(tǒng)的藏族天文歷算中計數(shù)詞可以列到六十位(),其中基礎(chǔ)的藏文計數(shù)詞有(一)、(二)、(三)、(四)、(五)、(六)、(七)、(八)、(九)、(十)、(百)、(千)、(萬)、(十萬)、(百萬)、(千萬)、(億)等,其余的很少使用,所以不在贅述。

        表1:數(shù)字符號

        表2:數(shù)詞變形規(guī)則表

        2.1.3 藏文數(shù)詞和數(shù)位詞發(fā)生形變

        藏文基本的計數(shù)詞合成形成其余數(shù)詞時,不能像漢語那樣直接搭配,而會根據(jù)具體的音位環(huán)境變形。比如:(十五)、(二十)、(二 十 一)、(三 十 三)、(七十六)。藏文數(shù)詞變形規(guī)則如表2所示。

        藏文數(shù)詞的變形有如下規(guī)律:

        (1)藏文數(shù)詞中表達(dá)個位數(shù)時,不論計數(shù)還是序數(shù)都會使用數(shù)詞原形。比如:(一束花)、(吉祥八寶)、(第二名);

        (3)個位和十位數(shù)合成出現(xiàn)時,個位數(shù)的數(shù)詞會出現(xiàn)變形現(xiàn)象,會用(二)、(三)、(四)、(五)、(六)、(七)、(八)、(九)來代替數(shù)詞原形。比如:(二十一)、(三十三)、(四十五)、(五十六)、(六十七)、(八十九)、(九十一);

        (5)藏文日期中通常表達(dá)二十至二十九號時,中間不會加變形體(二);而表示人的年齡、金錢余額等物質(zhì)數(shù)量時中間的(二)用來代替。比如:(今天是二十三號)(二十五歲男兒)。

        2.2 藏文數(shù)詞的特性分析

        藏文數(shù)詞出現(xiàn)在文本除了單純的數(shù)字表示之外大多數(shù)是在修飾名詞。修飾名詞時通常名詞出現(xiàn)在數(shù)詞前面,所修飾的名詞有所有復(fù)數(shù)可數(shù)名詞和方位詞或處所名詞,修飾方式有直接修飾和間接修飾名詞。直接修飾可數(shù)名詞例如:(五個人)、(六公里)、(17m2)、(一 千 斤)、(兩百畝)、(三天)、(兩個任務(wù));直接修飾方位詞或處所名詞例如:兩方)、(四方)、(兩面)、(兩岸);間接修飾名詞時通常名詞和數(shù)詞中間出現(xiàn)一些量詞(種)、(次)、(部)和其他特殊詞(數(shù))、(倍)、(各種)、(總共)、(一共)。

        另外也有數(shù)詞和動詞組合在一起,形成一種語義獨(dú)立的詞匯來修飾名詞,這時數(shù)詞通常不會實指具體的數(shù)目,而是泛指多或少,統(tǒng)一或部分、連續(xù)或擴(kuò)散等和數(shù)量有關(guān)的含義。比 如:(統(tǒng) 一)、(集 中) 、(專心致志)、(集中力量)、(連續(xù)不斷)、(九煞畢集)。數(shù)詞和動詞組合一起時也可以中間添加虛詞來連接一起。比如:(連接)、(集中)。

        2.3 藏文數(shù)詞的常見詞法錯誤分析

        通過遍歷大小為176MB的藏文新聞?wù)Z料,抽取數(shù)詞的前后共五個字節(jié),分析詞法錯誤情況,發(fā)現(xiàn)藏文數(shù)詞的詞法應(yīng)用錯誤主要是原形與變體混用導(dǎo)致錯誤。數(shù)詞中(一)、(二)、(三)和變形詞(一)、(二)、(三)的具體用法混淆,例如:(兩千年)寫成(兩千年)。數(shù)詞和變形詞在數(shù)詞合成中需要查看前一個音節(jié),而具體的應(yīng)用中常出現(xiàn)用法混淆現(xiàn)象。例如:(六十),(四十)。

        3 藏文數(shù)詞自動檢錯算法設(shè)計

        3.1 藏文數(shù)詞自動檢錯算法設(shè)計

        藏文中基礎(chǔ)的數(shù)詞很少,但出現(xiàn)頻率較高,這些基礎(chǔ)數(shù)詞會通過內(nèi)部合成或和其它詞性搭配形成更多的詞。文本中出現(xiàn)的藏文數(shù)詞搭配錯誤種類少、有規(guī)則可循,所以按照一定規(guī)則可以完成常見錯誤的檢錯。

        按照藏文數(shù)詞的規(guī)范、特征、設(shè)計的藏文數(shù)詞檢錯算法如下:

        (1)讀取待檢錯的藏文文本內(nèi)容,以藏文音節(jié)點(diǎn)作為分隔符,將文本切分成音節(jié)字序列,然后每個字符存儲在字符串?dāng)?shù)組String[] str中,字符串str數(shù)組如T=Z1+Z2+……Zn-1+Zn來表示,其中Zn是一個藏文音節(jié)字。

        (3)如果Zn與藏文基礎(chǔ)數(shù)詞匹配成功,則執(zhí)行(4),否則繼續(xù)匹配。

        (4)判斷基礎(chǔ)數(shù)詞前后出現(xiàn)以下字符串?dāng)?shù)組時按變形規(guī)律檢錯。

        圖1:藏文數(shù)詞檢錯流程

        圖2:藏文數(shù)詞檢錯測試結(jié)果

        按以上設(shè)計的算法和流程圖實現(xiàn)藏文檢錯過程如下:

        3.2 藏文數(shù)詞自動檢錯算法測試

        本次測試,為了體現(xiàn)檢錯算法的實際效果,測試文本主要選用詞法錯誤統(tǒng)計處理后的語料,內(nèi)容是基礎(chǔ)數(shù)詞以及前后共五個音節(jié)字符,每五個字節(jié)有單垂符隔開。將測試文本進(jìn)行自動檢錯,檢錯完成的結(jié)果保存到一個新文本中,結(jié)果如圖2所示。

        雖然以上算法可以完成簡單的常見藏文數(shù)詞詞法上的錯誤檢錯,但也有以下兩點(diǎn)缺陷:

        (1)藏文基礎(chǔ)數(shù)詞的音節(jié)拼寫錯誤以及和音節(jié)錯誤合成的詞法錯誤無法檢錯,如(一)、(三千)等。

        (2)藏文數(shù)詞中有兼類詞,這些兼類詞有時恰好和數(shù)詞連續(xù)出現(xiàn),雖然數(shù)量極少,但也有出現(xiàn)如(兩層寶座)、(空屋三頂)的可能,這時檢錯算法會檢錯失誤,出現(xiàn)錯誤糾正的現(xiàn)象。

        4 結(jié)束語

        藏文文本中數(shù)詞有嚴(yán)格的詞法合成規(guī)范,卻詞法錯誤出現(xiàn)頻繁。本文詳細(xì)分析了藏文數(shù)詞的變形情況、語法特征、搭配規(guī)律等知識,通過統(tǒng)計分析常見的詞法錯誤,提出了基于規(guī)則的數(shù)詞合成檢錯算法,利用該方法檢錯成功率達(dá)到100%。

        猜你喜歡
        詞法數(shù)詞藏文
        詞法 名詞、代詞和冠詞
        西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        數(shù)詞
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        應(yīng)用于詞法分析器的算法分析優(yōu)化
        談對外漢語“詞法詞”教學(xué)
        藏文音節(jié)字的頻次統(tǒng)計
        現(xiàn)代語境下的藏文報刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        對聯(lián)中數(shù)詞的藝術(shù)運(yùn)用(下)
        對聯(lián)(2011年24期)2011-09-19 06:40:14
        2010年高考英語“相似”考題例析
        av在线免费观看蜜桃| 亚洲а∨天堂久久精品2021| 曰本人做爰又黄又粗视频| 亚洲级αv无码毛片久久精品| 午夜大片又黄又爽大片app| 欧美午夜精品久久久久免费视| 国产精品精品| 国产精品福利小视频| 国产精品亚洲综合色区韩国| av免费在线观看在线观看| 一区二区三区国产精品乱码| 欧美黑人性暴力猛交喷水| 熟妇人妻无乱码中文字幕| 传媒在线无码| 久久精品亚洲乱码伦伦中文| 蜜桃18禁成人午夜免费网站| 精品久久久久久久久午夜福利| 无码精品国产va在线观看| 18禁男女爽爽爽午夜网站免费| 美女极度色诱视频国产免费| av在线男人的免费天堂| 人妻少妇偷人精品视频| 日本护士口爆吞精视频| 在线无码中文字幕一区| 好吊色欧美一区二区三区四区| 日本免费人成视频播放| 国产成人精品无码一区二区老年人| 精品亚亚洲成av人片在线观看| 中文字幕东京热一区二区人妻少妇| 波多野结衣av一区二区全免费观看 | 美女视频黄是免费| 亚洲精品综合一区二区| 午夜不卡亚洲视频| 国产一级黄色片在线播放| 人妻少妇不满足中文字幕| 美女mm131爽爽爽| 樱桃视频影视在线观看免费| 男人j进女人p免费视频| 亚洲av高清一区二区| 少妇性俱乐部纵欲狂欢电影| 波多野结衣有码|