蘇炳均
一、引言
隨著計(jì)算機(jī)的逐步普及和廣泛應(yīng)用,電子文本逐漸成為人們傳遞信息、記載重要文件和數(shù)據(jù)的主要手段之一。而使用計(jì)算機(jī)進(jìn)行文字錄入編輯,不可避免地會(huì)出現(xiàn)一些文字錯(cuò)誤,例如丟字、多字、別字、英文單詞的拼寫(xiě)錯(cuò)誤等等。在出版業(yè),校對(duì)(proofread)工作是出版前審核把關(guān)的重要環(huán)節(jié)。而且目前大多采用人工校對(duì)的方法,校對(duì)工作單調(diào),勞動(dòng)強(qiáng)度大,效率低,人工校對(duì)越來(lái)越成為印刷出版自動(dòng)化的瓶頸。
中文自動(dòng)校對(duì)包含自動(dòng)查錯(cuò)和自動(dòng)糾錯(cuò)兩個(gè)環(huán)節(jié)。前者是指利用統(tǒng)計(jì)或規(guī)則的方法發(fā)現(xiàn)輸入文本中的錯(cuò)誤;后者是指為自動(dòng)查錯(cuò)時(shí)偵測(cè)出的錯(cuò)誤字符串提供修改建議,輔助用戶改正錯(cuò)誤。本文主要研究了基于統(tǒng)計(jì)的字詞級(jí)的查錯(cuò)方法,并提出了改進(jìn)的方向。
二、中文文本錯(cuò)誤分析
中文文本的錄入錯(cuò)誤主要有如下幾種:
詞錯(cuò):即中文詞的輸入錯(cuò)誤,將詞中的某字錯(cuò)錄為另一字。中文詞分為一字詞、二字詞、…七字詞。經(jīng)大量的實(shí)際文本錯(cuò)誤分析發(fā)現(xiàn),這類(lèi)錯(cuò)誤主要表現(xiàn)為一字詞錯(cuò)、二字詞錯(cuò)和多字詞錯(cuò)。對(duì)于單字詞錯(cuò),主要使用規(guī)則的方法解決;對(duì)于多字詞錯(cuò),主要使用詞的模糊匹配技術(shù)來(lái)校正。
多字錯(cuò):即輸入了多余的漢字。這種錯(cuò)誤有時(shí)表現(xiàn)為該多字與其前或后的字字形相同或字音相同。例如:“我們的社會(huì)會(huì)是一個(gè)法律的社會(huì)”,輸入了多余的字“會(huì)”。這種錯(cuò)誤可先用語(yǔ)法分析查出,然后再針對(duì)錯(cuò)誤類(lèi)型進(jìn)行校錯(cuò)。
少字錯(cuò):即輸入中漏掉了一個(gè)或幾個(gè)字。這種錯(cuò)誤主要表現(xiàn)為缺少了單字詞或一字詞。例如:將“法律上完全平等”錯(cuò)錄為“法律完全平等”。這種錯(cuò)誤可用語(yǔ)法分析的方法查出。
數(shù)字錯(cuò):錄入文稿中常見(jiàn)數(shù)字錯(cuò)表現(xiàn)為阿拉伯?dāng)?shù)字錯(cuò)。這種錯(cuò)誤可歸納為二類(lèi):①對(duì)應(yīng)位置數(shù)字錯(cuò),如“256”錯(cuò)錄為“257”;②漏數(shù)字,如“43214”錯(cuò)錄為“4214”。這類(lèi)錯(cuò)誤是自動(dòng)校錯(cuò)系統(tǒng)無(wú)法解決的錯(cuò)誤之一,只能通過(guò)與原文對(duì)照解決。
英文字母錯(cuò)誤:錄入文本中常常夾雜著英文。由此發(fā)生的錯(cuò)誤有如下三類(lèi):①少字母,如“student”錯(cuò)錄為“studnt”;②多字母,如“happy”錯(cuò)錄為“haappy”;③字母錯(cuò),如“of”錄入為“od”T這類(lèi)錯(cuò)誤可通過(guò)詞匹配和音節(jié)片斷的矯正技術(shù)來(lái)解決。
很難解決的錯(cuò)誤:這種錯(cuò)誤表現(xiàn)為錯(cuò)誤語(yǔ)句合乎語(yǔ)法,并且,如果是多字詞錯(cuò),則結(jié)果也成詞。例如:“擴(kuò)大利用外資人才外貿(mào)易”,“人才”應(yīng)為“和對(duì)”;“年利潤(rùn)為一百多元人民幣”,“元”應(yīng)為萬(wàn)”。
三、中文自動(dòng)校對(duì)的研究狀況
目前的中文自動(dòng)校對(duì)方法多是字、詞級(jí)別上的統(tǒng)計(jì)方法,它們使用的語(yǔ)言模型比較簡(jiǎn)單,利用的語(yǔ)言學(xué)知識(shí)也不豐富。一方面,中文自動(dòng)校對(duì)方法的性能指標(biāo)有待提高。另一方面,迄今為止還沒(méi)有找到一種理論來(lái)解決自動(dòng)校對(duì)中的偵錯(cuò)和糾錯(cuò)兩個(gè)基本過(guò)程。
自然語(yǔ)言處理的兩類(lèi)方法:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。規(guī)則方法最常見(jiàn)的是以一定的形式文法系統(tǒng)來(lái)表述自然語(yǔ)言中大小成分間的組合規(guī)則;統(tǒng)計(jì)方法則以各種統(tǒng)計(jì)數(shù)據(jù)來(lái)顯示語(yǔ)言成分間的組合可能性。在實(shí)際操作上前者的知識(shí)來(lái)自專(zhuān)家的內(nèi)省,后者則是由計(jì)算機(jī)從真實(shí)語(yǔ)料中統(tǒng)計(jì)得來(lái)。
四、自動(dòng)查錯(cuò)的研究狀況
總的來(lái)說(shuō),目前文本校對(duì)的理論和技術(shù)都不太成熟,但比較一致的看法是,自動(dòng)查錯(cuò)和糾錯(cuò)應(yīng)該在詞法、語(yǔ)法和語(yǔ)義3個(gè)層次上進(jìn)行。本文主要研究的是在詞法一級(jí)進(jìn)行的自動(dòng)差錯(cuò)。
(一)分詞
在進(jìn)行文本內(nèi)容分析之前,首先要對(duì)文本進(jìn)行預(yù)處理。也就是對(duì)文本進(jìn)行詞的切分,從文本中抽取詞匯,即將字串變成詞串。這種預(yù)處理叫做分詞,其目的在于提高確定性。分詞是文本自動(dòng)校對(duì)的第一步,占有很重要的地位,是后續(xù)語(yǔ)法、語(yǔ)義分析研究的基礎(chǔ)。分詞的正確率的高低直接影響到校對(duì)系統(tǒng)校對(duì)質(zhì)量的高低。
最大概率法分詞是一種比較典型基于統(tǒng)計(jì)的分詞方法。其基本思想是:(1)一個(gè)待切分的漢字串可能包含多種分詞結(jié)果;(2)將其中概率最大的那個(gè)作為該漢字串的分詞結(jié)果。例如:“有意見(jiàn)分歧”這個(gè)漢字串,有兩種可能的分詞結(jié)果。Wl:有/意見(jiàn)/分歧和W2:有意,見(jiàn)/分歧。按照最大概率法的思想,就是要比較P(W1)和P(W2),概論更大的詞串作為分詞的結(jié)果。
計(jì)算詞串w(W1,W2,…,Wn)的概率P(w),最簡(jiǎn)單的做法是把詞串w中的各個(gè)詞看作互不相干的獨(dú)立事件,以每個(gè)候選詞的概率來(lái)求得整個(gè)詞串的概率。這種模型又稱為一元模型(1 gram)。公式如下:
P(W)=P(W1,W2,…,Wn)=P(W1)*P(W2)*…*P(Wn)(公式1)
而任何一個(gè)詞Wi的概率由它在已有語(yǔ)料庫(kù)中出現(xiàn)的頻率來(lái)近似估計(jì),即:
P(Wi):Wi在語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)n/語(yǔ)料庫(kù)中的總詞數(shù)N(公式2)
根據(jù)公式(1)和公式(2),就可以計(jì)算出每個(gè)詞串的概率,進(jìn)而把概率值最大的那個(gè)作為分詞結(jié)果。
上述一元模型(1 gram)是把各個(gè)詞簡(jiǎn)單的看作毫不相關(guān)。如果考慮相鄰兩個(gè)詞的同現(xiàn)概率,就是二元模型(2一gram),相應(yīng)地,如果考慮連續(xù)三個(gè)詞的-同現(xiàn)概率,就是三元模型(3 gram),依次直到n元模型(n-gram)。
(二)N元查錯(cuò)模型
早期的基于統(tǒng)計(jì)的查錯(cuò)對(duì)方法主要使用N元查錯(cuò)模型。英文中通常使用的N元模型主要有詞和詞性的二元、三元模型,中文里主要有漢字的二元、三元模型。
以詞的三元模型為例,設(shè)句子(詞串)s=W1 W2...Wn,其中Wi是詞。當(dāng)試圖判斷Wi是否有錯(cuò)時(shí),就是要看不等式P(WilWi-2Wi-1) 其中freq表示詞串在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù),實(shí)際使用中通常要通過(guò)平滑(折扣或插值)或聚類(lèi)(詞群,詞間字模型)等方法解決數(shù)據(jù)稀疏的問(wèn)題。一個(gè)簡(jiǎn)單的插值公式如下: P(WiI Wi-2Wi-I)=axPr(Wil Wi-2Wi-1)+bxPr((Wil Wi-1))+cXPr(Wi)