三毛措,才智杰,才讓卓瑪,道吉扎西,華旦扎西
(1.青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810016;2.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;4.西南民族大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 四川 成都 610041;5.青海省海南州第五民族高級(jí)中學(xué),青海 同德 813200;6.藏語(yǔ)智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)
隨著藏文文本信息量的急劇增長(zhǎng),藏文文本拼寫(xiě)檢查需求越來(lái)越高,成為藏文信息處理領(lǐng)域重要的研究課題之一.本文通過(guò)分析藏文文本,總結(jié)歸納其拼寫(xiě)錯(cuò)誤的規(guī)律和共性,為深入研究拼寫(xiě)檢查方法奠定基礎(chǔ).拼寫(xiě)錯(cuò)誤類(lèi)型分析的越細(xì)越透徹,其拼寫(xiě)檢查策略設(shè)計(jì)越有效,因此藏文文本拼寫(xiě)錯(cuò)誤類(lèi)型分析是藏文文本拼寫(xiě)檢查首要解決的問(wèn)題.近年來(lái)專(zhuān)家學(xué)者圍繞藏文文本拼寫(xiě)檢查展開(kāi)了研究,特別在藏文字錯(cuò)誤類(lèi)型分析和拼寫(xiě)檢查方面做了深入的研究.藏文詞拼寫(xiě)檢查也是藏文文本拼寫(xiě)檢查的主要部分,到目前還沒(méi)有全面、系統(tǒng)分析藏文詞拼寫(xiě)錯(cuò)誤類(lèi)型的相關(guān)文獻(xiàn),進(jìn)而影響了藏文文本拼寫(xiě)檢查技術(shù)的發(fā)展.本文通過(guò)分析藏文書(shū)面語(yǔ)料中存在的各種拼寫(xiě)錯(cuò)誤,總結(jié)歸納了藏文文本拼寫(xiě)錯(cuò)誤類(lèi)型,為藏文文本拼寫(xiě)檢查工作提供了方法支撐.
1967年,英國(guó)語(yǔ)言學(xué)家Corder[1-3]首次提出了錯(cuò)誤分析的概念,對(duì)收集的文本語(yǔ)料系統(tǒng)地分析了存在的錯(cuò)誤,并研究了其性質(zhì)和類(lèi)型,開(kāi)創(chuàng)了文本錯(cuò)誤類(lèi)型分析的紀(jì)元.由于文本錯(cuò)誤類(lèi)型的多變性以及句法和語(yǔ)法的差異性,文本自動(dòng)拼寫(xiě)檢查并沒(méi)有取得好的效果,自動(dòng)拼寫(xiě)檢查是一項(xiàng)具有挑戰(zhàn)性的課題.為了提升拼寫(xiě)檢查性能,計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(ACL)組建了一個(gè)自然語(yǔ)言學(xué)習(xí)特別興趣小組(CoNLL),為參與團(tuán)隊(duì)提供了一個(gè)論壇,專(zhuān)門(mén)用來(lái)探討拼寫(xiě)檢查評(píng)測(cè)集方法.CoNLL-2014[4]的目標(biāo)仍然是自動(dòng)檢測(cè)在非英語(yǔ)母語(yǔ)者撰寫(xiě)的簡(jiǎn)短英語(yǔ)文本中存在的所有語(yǔ)法錯(cuò)誤類(lèi)型,并返回更正的文本.在英文拼寫(xiě)檢查共享任務(wù)的啟發(fā)下,國(guó)內(nèi)也相繼問(wèn)世了很多有關(guān)錯(cuò)誤分析的研究,該領(lǐng)域也受到了專(zhuān)家學(xué)者們的廣泛關(guān)注.國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLPCC)增設(shè)了中文語(yǔ)法錯(cuò)誤修正任務(wù),其目標(biāo)是檢測(cè)并修正由非中文母語(yǔ)者書(shū)寫(xiě)的中文句子中的語(yǔ)法錯(cuò)誤[5],在NLPCC2018測(cè)試會(huì)上阿里巴巴團(tuán)隊(duì)、北京大學(xué)團(tuán)隊(duì)等6支隊(duì)伍達(dá)到了較好的效果.2018年譚詠梅等[6]對(duì)ESL學(xué)習(xí)者常犯的名詞單復(fù)數(shù)錯(cuò)誤、動(dòng)詞形式錯(cuò)誤、主謂不一致錯(cuò)誤、冠詞錯(cuò)誤及介詞錯(cuò)誤五種類(lèi)型進(jìn)行分析,并提出了一種基于LSTM和N-gram的語(yǔ)法錯(cuò)誤糾正方法.2020年,梁茂成等[7]對(duì)英語(yǔ)學(xué)習(xí)者的拼寫(xiě)錯(cuò)誤進(jìn)行了分類(lèi)和分析,并對(duì)部分類(lèi)型設(shè)計(jì)了自動(dòng)拼寫(xiě)檢查系統(tǒng).
從21世紀(jì)初,我國(guó)學(xué)者們開(kāi)始了藏文拼寫(xiě)錯(cuò)誤分析,成果相對(duì)集中在字拼寫(xiě)檢查類(lèi)型分析方面.2009年,多杰卓瑪[8]闡述了藏文文本中字拼寫(xiě)錯(cuò)誤類(lèi)型的多樣性,并利用n元模型解決了藏文音節(jié)字查錯(cuò)問(wèn)題.2011年,關(guān)白[9]列出了藏文字中的錯(cuò)誤類(lèi)型,并設(shè)計(jì)了與其相應(yīng)的藏文音節(jié)字的校對(duì)方法.2013年,珠杰等[10]根據(jù)定義的五種藏文文本錯(cuò)誤類(lèi)型探討了藏文音節(jié)拼寫(xiě)檢查、梵文轉(zhuǎn)寫(xiě)藏文錯(cuò)誤檢查、連續(xù)關(guān)系檢查及藏文詞語(yǔ)錯(cuò)誤檢查,設(shè)計(jì)了相應(yīng)的藏文文本校對(duì)系統(tǒng).2017年,劉匯丹等[11]按照預(yù)定的規(guī)則對(duì)藏文網(wǎng)頁(yè)上含九千多萬(wàn)音節(jié)的語(yǔ)料統(tǒng)計(jì)了不同字拼寫(xiě)錯(cuò)誤類(lèi)型比例,并分析了導(dǎo)致拼寫(xiě)錯(cuò)誤的原因.藏文文本中存在的拼寫(xiě)錯(cuò)誤形式多樣,影響了藏文文本拼寫(xiě)檢查技術(shù)發(fā)展.
為了全面系統(tǒng)總結(jié)歸納藏文文本拼寫(xiě)錯(cuò)誤的規(guī)律和共性,本文通過(guò)分析藏文文本的特征,總結(jié)歸納了藏文文本拼寫(xiě)錯(cuò)誤類(lèi)型,包括非真字(字級(jí))和真字(詞級(jí)、語(yǔ)法級(jí)和語(yǔ)義級(jí))拼寫(xiě)錯(cuò)誤類(lèi)型.
近年來(lái)隨著藏文信息處理技術(shù)的發(fā)展,語(yǔ)料規(guī)模不斷擴(kuò)大,文本中的錯(cuò)誤也在不斷增多,從而對(duì)藏文文本自動(dòng)拼寫(xiě)檢查技術(shù)的需求越來(lái)越大.文本中的錯(cuò)誤類(lèi)型種類(lèi)繁多,針對(duì)文本中的不同錯(cuò)誤類(lèi)型設(shè)計(jì)其檢查方法,是拼寫(xiě)檢查最可行、最基本的解決策略之一.
藏文由字母組成音節(jié),音節(jié)組成詞,詞組成短語(yǔ),短語(yǔ)構(gòu)成句子,因而存在字、詞、語(yǔ)法和語(yǔ)義層面的拼寫(xiě)錯(cuò)誤.本文通過(guò)分析藏文文法,對(duì)藏文文本中存在的錯(cuò)誤類(lèi)型進(jìn)行了全方位的分析,歸納出了藏文文本中存在的錯(cuò)誤類(lèi)型.藏文文本拼寫(xiě)錯(cuò)誤類(lèi)型見(jiàn)表1.
表1 藏文文本拼寫(xiě)錯(cuò)誤類(lèi)型及示例
由于標(biāo)點(diǎn)符號(hào)錯(cuò)誤所占的比例較小,本文不將對(duì)此進(jìn)行重點(diǎn)說(shuō)明.非真字錯(cuò)誤和真字錯(cuò)誤是目前藏文拼寫(xiě)錯(cuò)誤分析領(lǐng)域最主要的兩個(gè)部分,本文主要總結(jié)歸納了真字和非真字拼寫(xiě)錯(cuò)誤類(lèi)型,并對(duì)其做了詳細(xì)說(shuō)明.
藏文字是一種具有橫向和縱向拼寫(xiě)性的拼音文字,是由前加字、上加字、基字、下加字、元音、后加字、再后加字等構(gòu)件組成,構(gòu)件的結(jié)構(gòu)位都很明確.非真字拼寫(xiě)錯(cuò)誤也稱(chēng)為字級(jí)的拼寫(xiě)錯(cuò)誤,是指該藏文字不符合藏文文法的構(gòu)字規(guī)則,它只考慮該字本身,與上下文信息無(wú)關(guān).藏文中存在非真字錯(cuò)誤的概率較大,在整個(gè)藏文拼寫(xiě)錯(cuò)誤中也占有較大的比例.藏文的前加字、上加字、下加字、后加字和再后加字不但有明確的規(guī)定,而且前加字、上加字、下加字與基字之間有嚴(yán)格的搭配要求,再后加字的添加受后加字的制約,在書(shū)寫(xiě)藏文字時(shí)容易出現(xiàn)搭配錯(cuò)誤,從而造成非真字拼寫(xiě)錯(cuò)誤.根據(jù)搭配錯(cuò)誤,非真字拼寫(xiě)錯(cuò)誤可以分為前加字添加錯(cuò)誤、上加字添加錯(cuò)誤、下加字添加錯(cuò)誤、后加字添加錯(cuò)誤、再后加字添加錯(cuò)誤、構(gòu)件冗余錯(cuò)誤及音節(jié)縮略錯(cuò)誤.
2.2.1 構(gòu)詞錯(cuò)誤
2.2.2 語(yǔ)法錯(cuò)誤
2.2.3 語(yǔ)義錯(cuò)誤
藏文的文法系統(tǒng)很豐富,由于對(duì)藏文文法或者對(duì)詞語(yǔ)的含義理解不清造成邏輯性的錯(cuò)誤稱(chēng)為語(yǔ)義錯(cuò)誤,可以分為語(yǔ)義搭配錯(cuò)誤、縮略錯(cuò)誤、謂語(yǔ)冗余錯(cuò)誤和直譯錯(cuò)誤四種子類(lèi).
2.2.4 連帶錯(cuò)誤
使用任何一種語(yǔ)言的過(guò)程中都會(huì)出現(xiàn)拼寫(xiě)錯(cuò)誤的現(xiàn)象,由于藏文字母組成音節(jié),音節(jié)組成詞,詞組成短語(yǔ),短語(yǔ)構(gòu)成句子,因而存在字、詞、語(yǔ)法和語(yǔ)義層面的拼寫(xiě)錯(cuò)誤.我們通過(guò)分析藏文文法,對(duì)藏文文本中存在的錯(cuò)誤類(lèi)型進(jìn)行了全方位的分析,總結(jié)歸納了藏文文本中存在的錯(cuò)誤類(lèi)型.本文將藏文文本拼寫(xiě)錯(cuò)誤類(lèi)型分為非真字錯(cuò)誤、真字錯(cuò)誤和標(biāo)點(diǎn)符號(hào)錯(cuò)誤三種一級(jí)錯(cuò)誤類(lèi)型.非真字錯(cuò)誤進(jìn)一步分為前加字添加錯(cuò)誤、上加字添加錯(cuò)誤、下加字添加錯(cuò)誤、后加字添加錯(cuò)誤、再后加字添加錯(cuò)誤、構(gòu)件冗余錯(cuò)誤及音節(jié)縮略錯(cuò)誤等二級(jí)錯(cuò)誤類(lèi)型.真字拼寫(xiě)錯(cuò)誤類(lèi)型分為構(gòu)詞錯(cuò)誤、語(yǔ)法錯(cuò)誤、語(yǔ)義錯(cuò)誤及連帶錯(cuò)誤等二級(jí)錯(cuò)誤類(lèi)型,標(biāo)點(diǎn)符號(hào)錯(cuò)誤類(lèi)型分為標(biāo)點(diǎn)符號(hào)缺失和冗余兩種二級(jí)錯(cuò)誤類(lèi)型,本研究成果對(duì)下游任務(wù)藏文拼寫(xiě)檢查技術(shù)奠定了基礎(chǔ).在此基礎(chǔ)上,我們將針對(duì)不同的錯(cuò)誤類(lèi)型研究其拼寫(xiě)檢查方法,以提升藏文文本自動(dòng)拼寫(xiě)檢查性能.