亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)于解決蒙古文形對碼錯錯誤的研究綜述

        2020-11-26 03:43:50楊利潤斯琴巴圖錫林寶力爾
        現(xiàn)代計算機 2020年4期
        關(guān)鍵詞:單詞規(guī)則方法

        楊利潤,斯琴巴圖,錫林寶力爾

        (1.內(nèi)蒙古建筑職業(yè)技術(shù)學(xué)院,呼和浩特 010070;2.內(nèi)蒙古婦女干部學(xué)校,呼和浩特 010051;3.內(nèi)蒙古廣播電視臺,呼和浩特 010058)

        0 引言

        “形對碼錯”錯誤是蒙古文電子文本中普遍存在的文本錯誤[1],具體指單詞的字形雖然正確,但內(nèi)部編碼錯誤的一類文本錯誤。由于文字檢索、搜索引擎、文字轉(zhuǎn)語音等多種應(yīng)用都是通過內(nèi)部編碼識別單詞,而并非通過字形識別單詞,所以不及時處理文本中“形對碼錯”錯誤,會導(dǎo)致這些電子文本在應(yīng)用價值方面大打折扣。本文歸納總結(jié)了前人解決“形對碼錯”錯誤的主要方法,以期對后來研究者提供參考。

        1“形對碼錯”的概念及產(chǎn)生原因

        “形對碼錯”錯誤是指單詞的字形雖然正確,但其內(nèi)部編碼錯誤的一類錯誤。這類錯誤主要由兩種原因引起。第一種是因為蒙古文中存在形同音異的字母(具體為字母的變形顯現(xiàn)字符的形狀相同),使用者在通過鍵盤錄入時由于并不清楚(或不在乎)字符編碼問題,認(rèn)為字形正確即可,從而將字形正確而發(fā)音錯誤的字母鍵入單詞中,引起“形對碼錯”錯誤。這種起因在沒有接受過蒙古文輸入法培訓(xùn)的使用者中普遍存在。經(jīng)過抽樣調(diào)查,首次使用蒙古文輸入法的使用者在沒有查看使用說明的情況下,都會認(rèn)為鍵盤上的“O”和“U”(目前流行的輸入法中均代表第六和第七元音)分別代表蒙古文中的第四和第五元音字母。而且,在輸入蒙古文時,通過“O”和“U”也能得到第四、五元音字母的詞中和詞尾的形狀。例如,單詞“”的正確的鍵盤輸入序列應(yīng)為“yabv”,但通過錯誤的鍵盤輸入序列“yabu”和“yabo”等都能獲得正確的字形“”。此外,使用者在使用沒有整詞或聯(lián)想功能的輸入法時,由于對輸入法的控制符并不熟悉,在輸入分寫字母時濫用控制符,也會引起“形對碼錯”。下面將由以上原因引起“形對碼錯”的錯誤稱為“讀音非詞”錯誤。

        第二種引起“形對碼錯”的原因是由于應(yīng)用OCR識別紙質(zhì)文檔或?qū)⑿未a、音形碼等(非國際標(biāo)準(zhǔn)編碼)轉(zhuǎn)換為純音碼的Unicode國際標(biāo)準(zhǔn)編碼時,將同形詞(多音字)的讀音選錯,從而導(dǎo)致單詞的編碼出錯。此外,本文將“”(鍵盤輸入序列 ende)識別為“”(鍵盤輸入序列為ada)一類單詞也歸為第二類。下面將由第二種原因引起“形對碼錯”的錯誤稱為“同形詞替代”錯誤。并將由第一種原因引起“形對碼錯”的單詞,碰巧該單詞又為多音字,鍵入的讀音雖然在詞典內(nèi),但并不是想要的正確讀音的錯誤歸為本類錯誤。

        2“讀音非詞”錯誤的處理方法

        2009年,斯·勞格勞在其文章中為了與常見非詞(字形非詞)區(qū)別,給出了“讀音非詞”的概念,并歸為非詞錯誤[2]。本文前面在其基礎(chǔ)之上對“讀音非詞”概念做了進(jìn)一步說明。針對“讀音非詞”錯誤的處理,先后有趙軍、斯·勞格勞、郝莉、蘇傳捷、廉冰、蔡祝元等進(jìn)行了具體的研究。

        2007年,趙軍在碩士論文中提出了一種基于音節(jié)的統(tǒng)計語言模型的蒙古文校對方法[3],主要處理多余字母、遺漏字母和錯錄字母等類型的文本錯誤,并在介紹錯錄字母的小節(jié)中專門提到“讀音非詞”(文中描述為形碼相同,內(nèi)碼不同)錯誤可以使用其給出的2-gram模型的Viterbi算法解決。但文中只是簡單說明,一筆帶過,并未通過實驗證實,也沒有給出準(zhǔn)確率等指標(biāo)。

        于2009年,斯·勞格勞在“如何組織詞典數(shù)據(jù)和規(guī)則是提高‘詞典+規(guī)則’校對方法效率的關(guān)鍵所在”的思路下,提出了一種通過不確定有限自動機組織蒙古文詞典數(shù)據(jù)和規(guī)則的方法,從而使校對速度比傳統(tǒng)方法快了將近一倍,且讀音查錯算法的平均查準(zhǔn)率為82.86%,讀音糾錯算法的平均準(zhǔn)確率為92.09%[2]。該方法根據(jù)不確定有限自動機理論模型構(gòu)造了“基于字形的蒙古文詞法分析器”和“基于讀音的蒙古文詞法分析器”等兩種詞法分析器,詞法分析器中包含了“詞干詞典”和“構(gòu)形附加成分詞典”等兩種詞典。由于該方法屬于“詞典+規(guī)則”的方法,所以詞典和規(guī)則庫的規(guī)模對于“讀音非詞”錯誤的處理至關(guān)重要。

        2010年,郝莉等提出了采用貝葉斯算法校正蒙古文中讀音混淆造成的拼寫錯誤(包括讀音非詞錯誤)的方法,其拼寫糾錯率可達(dá)89%以上,較好地處理了“讀音非詞”錯誤[4]。該方法校正失敗的主要原因在于算法推薦的最佳更正詞并非是應(yīng)該被選擇的正確詞。而出現(xiàn)這種問題是因為該方法最佳更正詞的概率通過先驗概率和條件概率計算得出,而先驗概率通過對訓(xùn)練語料的學(xué)習(xí)獲得,條件概率是通過統(tǒng)計手工收集的語料獲得。因此,訓(xùn)練語料的規(guī)模和用于計算條件概率的語料對于上述方法非常重要。

        蘇傳捷等在2013年的文章中,提出一種基于統(tǒng)計翻譯框架的蒙古文自動拼寫校對方法,將拼寫校對看作是從錯誤詞到正確詞的翻譯[5]。文中通過改進(jìn)基于短語的統(tǒng)計機器翻譯模型得到了一種拼寫校對模型,并通過3萬詞的平行訓(xùn)練語料訓(xùn)練了該模型。使用該文方法可以校對“字形非詞”和“讀音非詞”,校對后正確詞的比例最高可達(dá)97.55%。此處需要注意的是該文給出的評價指標(biāo)并非是“平均準(zhǔn)確率”,而是最高可達(dá)的正確詞的比例。由于統(tǒng)計機器翻譯需要龐大的語料庫的支持,所以使用該方法實現(xiàn)精準(zhǔn)校對的關(guān)鍵也在語料庫的規(guī)模上。此外,處理龐大的語料資源還需要強大的計算能力的支持。

        2014年,廉冰在其碩士論文中提出了一種基于有限自動機的校對方法,通過該方法可以解決“讀音非詞”錯誤,其平均準(zhǔn)確率為91.5%[6]。該方法構(gòu)造了一個包括五種自動機的詞法分析器,并建立了一個同形字符規(guī)則庫,并根據(jù)規(guī)則庫,在詞法分析器上搜索需要校對的單詞,當(dāng)單詞不正確時選取同形詞糾錯。該方法仍屬于“詞典+規(guī)則”的方法。

        2019年蔡祝元在碩士論文中提出了將蒙古文正字法詞典中的單詞切分為音節(jié),在音節(jié)統(tǒng)計特征的分析基礎(chǔ)上,建立音節(jié)級4-gram模型,并結(jié)合構(gòu)詞規(guī)則和音節(jié)級4-gram模型查找非詞錯誤(包括讀音非詞),再通過字典(蒙古文音節(jié)混淆集字典)校對非詞錯誤的方案[7]。該方案融合了N-gram法和“詞典+規(guī)則”的方法,其查錯召回率75.38%,查錯準(zhǔn)確率為54.18%,文中未給出糾錯準(zhǔn)確率具體值。

        3“同形詞替代”錯誤的處理方法

        “同形詞替代”錯誤應(yīng)歸為真詞錯誤類。目前,在很多學(xué)者研究同形詞的文章中可以找到“同形詞替代”錯誤的處理方法。當(dāng)然,也可以在解決真詞錯誤的文章中找到解決方法。

        2005年,張建梅在其碩士論文中,以100萬詞級《現(xiàn)代蒙古語文數(shù)據(jù)庫》(以下簡稱100TUM)為標(biāo)準(zhǔn)分析了同形異音詞的情況后,歸納出了同形異音詞的讀音識別條件[8]。具體為1有些同形異音詞在100TUM中,只出現(xiàn)了一種讀音,并未出現(xiàn)其他讀音時,按照真實語料的實際情況,將該詞看作只有一種讀音的單詞處理;2有些同形異音詞,以一種讀音為主,其他讀音出現(xiàn)次數(shù)極少的,為極少出現(xiàn)的讀音設(shè)置識別條件,不符合識別條件的全部歸為主讀音;3對于出現(xiàn)多種讀音,且各種讀音的出現(xiàn)次數(shù)差距不大時,給每種讀音建立搭配詞庫,并使用搭配詞識別具體用哪種讀音;4根據(jù)同形詞和標(biāo)點符號的位置識別讀音。之后,從500萬詞級《現(xiàn)代蒙古語文數(shù)據(jù)庫》(當(dāng)時大部分為生語料)中,選擇了出現(xiàn)頻率較高的140個同形異音詞,按照上面歸納出的讀音識別條件在122個文件上做了測試。測試的召回率為82.80%,準(zhǔn)確率為99.01%。

        2010年,淑琴等在其文章中為同形詞建立了存放共現(xiàn)詞(即與同形詞在句子中經(jīng)常配對出現(xiàn)的單詞)的“共現(xiàn)庫”[9]。之后在識別同形詞的讀音時,通過句子中出現(xiàn)了哪個共現(xiàn)詞來區(qū)分采用哪種讀音。當(dāng)遇到歧義不能區(qū)分讀音時,為同形詞直接設(shè)置100TUM中出現(xiàn)次數(shù)最多的讀音。該方法的準(zhǔn)確率為81.7%,召回率為99.8%。該文中的同形詞概念不僅包括同形異音詞,還包括形音均相同,意義不同的單詞。所以該文提供的準(zhǔn)確率和召回率與張建梅文章中的準(zhǔn)確率和召回率不能相互比較。

        2016年,哈斯等提出了使用詞匯語義網(wǎng)絡(luò)識別同形詞詞義的方法[10]。具體為通過計算同形詞與所在句子中的名詞在語義網(wǎng)中的距離判斷該同形詞的詞義。使用該方法識別同形詞詞義時,最高準(zhǔn)確率達(dá)到了88.80%,最低準(zhǔn)確率為23.30%,平均準(zhǔn)確率為55.1%。通過這種方法,也可以處理“同形詞替代”錯誤。

        2017年,迎春在其碩士論文中給出了一種校對真詞錯誤的方法,其中查錯功能在詞語同現(xiàn)矩陣的基礎(chǔ)上,利用詞的二元接續(xù)關(guān)系實現(xiàn),糾錯功能通過易混淆詞詞典及生成糾錯建議的算法實現(xiàn)[11]。該文方法的召回率為82%,正確率為3.4%,糾錯建議生成率為91%。

        2019年蔡祝元在其碩士論文中,除了提出校對非詞錯誤的一種方案以外,還提出了在真詞混淆集的基礎(chǔ)上結(jié)合3-gram語言模型和上下文語境實現(xiàn)蒙古文真詞錯誤(包括同形詞替代錯誤)的查錯與糾錯方案,該方案的查錯召回率為77.78%,查錯準(zhǔn)確率為60.87%,糾錯率為 78.57%[7]。

        4 結(jié)語

        “形對碼錯”錯誤的出現(xiàn)主要由兩種原因引起,由第一種原因引起的稱為“讀音非詞”錯誤,由第二種原因引起的稱為“同形詞替代”錯誤?!白x音非詞”主要由于使用者在鍵盤輸入時,混淆了字母而引起。“同形詞替代”主要由于應(yīng)用OCR識別紙質(zhì)文檔或?qū)⒎菄H標(biāo)準(zhǔn)編碼轉(zhuǎn)換為國際標(biāo)準(zhǔn)編碼時產(chǎn)生。目前,處理“讀音非詞”的研究方法主要有:基于詞典+規(guī)則的方法(包括基于有限狀態(tài)自動機方法)、基于貝葉斯算法的方法、基于統(tǒng)計翻譯框架的方法和N-gram融合“詞典+規(guī)則”的方法等。處理“同形詞替代”的研究方法主要有:基于統(tǒng)計規(guī)則的方法(包括共現(xiàn)庫的方法)、基于語義網(wǎng)絡(luò)的方法、基于詞的二元接續(xù)關(guān)系算法的方法和N-gram融合上下文語境的方法等。由于以上文章中選取的測試數(shù)據(jù)不同,測試人員不同,提供的評價指標(biāo)不同,甚至研究范疇不同,所以不能僅僅根據(jù)其召回率和準(zhǔn)確率等判斷方法的優(yōu)劣。

        上述各種方法都直接或間接依賴高質(zhì)量、大規(guī)模的語料庫資源,所以盡快建立高質(zhì)量、大規(guī)模,向所有研究蒙古文信息處理的人員開放的共享語料庫對“形對碼錯”錯誤的解決,對蒙古文文本自動校對水平的提高,乃至對蒙古文信息處理整體水平的提高都尤為重要。

        猜你喜歡
        單詞規(guī)則方法
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        單詞連一連
        看圖填單詞
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        看完這些單詞的翻譯,整個人都不好了
        TPP反腐敗規(guī)則對我國的啟示
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        日韩在线一区二区三区免费视频 | 美女高潮流白浆视频在线观看| 日韩精品一区二区av在线| 免费看黄视频亚洲网站| 久久无码人妻一区二区三区午夜| 亚洲av无码国产剧情| 在线国产视频精品视频| 高潮av一区二区三区| 四虎影在永久在线观看| 国产乱妇乱子在线播视频播放网站| 久久精品伊人无码二区| 午夜国产在线精彩自拍视频| 成人影院在线视频免费观看| 一区二区三区在线 | 欧| 精品无码AⅤ片| 久久久一本精品久久久一本| 亚洲av福利天堂一区二区三 | 青青草在线这里只有精品| 精品无码国产一区二区三区av| 精品国产福利一区二区在线| 亚洲青青草视频在线播放| 亚洲美女自拍偷拍视频| 国产女人高潮叫床免费视频| 一本色道久久综合亚洲精品小说| 中文字幕一区二区人妻在线不卡| 人妻少妇中文字幕在线| 亚洲国产精品日韩av专区| 亚洲天堂av免费在线看| av网站不卡的av在线| 国产一区二区精品网站看黄| 亚洲av成人一区二区| 无人区一码二码三码四码区| 久久精品国产丝袜| 国产av一区麻豆精品久久| 男女肉粗暴进来动态图| 国产成人精品成人a在线观看| 亚洲AV色欲色欲WWW| 亚洲一二三四区免费视频| 色橹橹欧美在线观看视频高清| 亚洲AV无码久久精品国产老人| 亚洲精品美女中文字幕久久|