亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于語(yǔ)料庫(kù)的中文自動(dòng)查錯(cuò)綜述

2009-08-31 07:45:16蘇炳均

中國(guó)經(jīng)貿(mào)導(dǎo)刊 2009年13期

蘇炳均

一、引言

隨著計(jì)算機(jī)的逐步普及和廣泛應(yīng)用，電子文本逐漸成為人們傳遞信息、記載重要文件和數(shù)據(jù)的主要手段之一。而使用計(jì)算機(jī)進(jìn)行文字錄入編輯，不可避免地會(huì)出現(xiàn)一些文字錯(cuò)誤，例如丟字、多字、別字、英文單詞的拼寫(xiě)錯(cuò)誤等等。在出版業(yè)，校對(duì)(proofread)工作是出版前審核把關(guān)的重要環(huán)節(jié)。而且目前大多采用人工校對(duì)的方法，校對(duì)工作單調(diào)，勞動(dòng)強(qiáng)度大，效率低，人工校對(duì)越來(lái)越成為印刷出版自動(dòng)化的瓶頸。

中文自動(dòng)校對(duì)包含自動(dòng)查錯(cuò)和自動(dòng)糾錯(cuò)兩個(gè)環(huán)節(jié)。前者是指利用統(tǒng)計(jì)或規(guī)則的方法發(fā)現(xiàn)輸入文本中的錯(cuò)誤；后者是指為自動(dòng)查錯(cuò)時(shí)偵測(cè)出的錯(cuò)誤字符串提供修改建議，輔助用戶改正錯(cuò)誤。本文主要研究了基于統(tǒng)計(jì)的字詞級(jí)的查錯(cuò)方法，并提出了改進(jìn)的方向。

二、中文文本錯(cuò)誤分析

中文文本的錄入錯(cuò)誤主要有如下幾種：

詞錯(cuò)：即中文詞的輸入錯(cuò)誤，將詞中的某字錯(cuò)錄為另一字。中文詞分為一字詞、二字詞、…七字詞。經(jīng)大量的實(shí)際文本錯(cuò)誤分析發(fā)現(xiàn)，這類(lèi)錯(cuò)誤主要表現(xiàn)為一字詞錯(cuò)、二字詞錯(cuò)和多字詞錯(cuò)。對(duì)于單字詞錯(cuò)，主要使用規(guī)則的方法解決；對(duì)于多字詞錯(cuò)，主要使用詞的模糊匹配技術(shù)來(lái)校正。

多字錯(cuò)：即輸入了多余的漢字。這種錯(cuò)誤有時(shí)表現(xiàn)為該多字與其前或后的字字形相同或字音相同。例如：“我們的社會(huì)會(huì)是一個(gè)法律的社會(huì)”，輸入了多余的字“會(huì)”。這種錯(cuò)誤可先用語(yǔ)法分析查出，然后再針對(duì)錯(cuò)誤類(lèi)型進(jìn)行校錯(cuò)。

少字錯(cuò)：即輸入中漏掉了一個(gè)或幾個(gè)字。這種錯(cuò)誤主要表現(xiàn)為缺少了單字詞或一字詞。例如：將“法律上完全平等”錯(cuò)錄為“法律完全平等”。這種錯(cuò)誤可用語(yǔ)法分析的方法查出。

數(shù)字錯(cuò)：錄入文稿中常見(jiàn)數(shù)字錯(cuò)表現(xiàn)為阿拉伯?dāng)?shù)字錯(cuò)。這種錯(cuò)誤可歸納為二類(lèi)：①對(duì)應(yīng)位置數(shù)字錯(cuò)，如“256”錯(cuò)錄為“257”；②漏數(shù)字，如“43214”錯(cuò)錄為“4214”。這類(lèi)錯(cuò)誤是自動(dòng)校錯(cuò)系統(tǒng)無(wú)法解決的錯(cuò)誤之一，只能通過(guò)與原文對(duì)照解決。

英文字母錯(cuò)誤：錄入文本中常常夾雜著英文。由此發(fā)生的錯(cuò)誤有如下三類(lèi)：①少字母，如“student”錯(cuò)錄為“studnt”；②多字母，如“happy”錯(cuò)錄為“haappy”；③字母錯(cuò)，如“of”錄入為“od”T這類(lèi)錯(cuò)誤可通過(guò)詞匹配和音節(jié)片斷的矯正技術(shù)來(lái)解決。

很難解決的錯(cuò)誤：這種錯(cuò)誤表現(xiàn)為錯(cuò)誤語(yǔ)句合乎語(yǔ)法，并且，如果是多字詞錯(cuò)，則結(jié)果也成詞。例如：“擴(kuò)大利用外資人才外貿(mào)易”，“人才”應(yīng)為“和對(duì)”；“年利潤(rùn)為一百多元人民幣”，“元”應(yīng)為萬(wàn)”。

三、中文自動(dòng)校對(duì)的研究狀況

目前的中文自動(dòng)校對(duì)方法多是字、詞級(jí)別上的統(tǒng)計(jì)方法，它們使用的語(yǔ)言模型比較簡(jiǎn)單，利用的語(yǔ)言學(xué)知識(shí)也不豐富。一方面，中文自動(dòng)校對(duì)方法的性能指標(biāo)有待提高。另一方面，迄今為止還沒(méi)有找到一種理論來(lái)解決自動(dòng)校對(duì)中的偵錯(cuò)和糾錯(cuò)兩個(gè)基本過(guò)程。

自然語(yǔ)言處理的兩類(lèi)方法：基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。規(guī)則方法最常見(jiàn)的是以一定的形式文法系統(tǒng)來(lái)表述自然語(yǔ)言中大小成分間的組合規(guī)則；統(tǒng)計(jì)方法則以各種統(tǒng)計(jì)數(shù)據(jù)來(lái)顯示語(yǔ)言成分間的組合可能性。在實(shí)際操作上前者的知識(shí)來(lái)自專(zhuān)家的內(nèi)省，后者則是由計(jì)算機(jī)從真實(shí)語(yǔ)料中統(tǒng)計(jì)得來(lái)。

四、自動(dòng)查錯(cuò)的研究狀況

總的來(lái)說(shuō)，目前文本校對(duì)的理論和技術(shù)都不太成熟，但比較一致的看法是，自動(dòng)查錯(cuò)和糾錯(cuò)應(yīng)該在詞法、語(yǔ)法和語(yǔ)義3個(gè)層次上進(jìn)行。本文主要研究的是在詞法一級(jí)進(jìn)行的自動(dòng)差錯(cuò)。

(一)分詞

在進(jìn)行文本內(nèi)容分析之前，首先要對(duì)文本進(jìn)行預(yù)處理。也就是對(duì)文本進(jìn)行詞的切分，從文本中抽取詞匯，即將字串變成詞串。這種預(yù)處理叫做分詞，其目的在于提高確定性。分詞是文本自動(dòng)校對(duì)的第一步，占有很重要的地位，是后續(xù)語(yǔ)法、語(yǔ)義分析研究的基礎(chǔ)。分詞的正確率的高低直接影響到校對(duì)系統(tǒng)校對(duì)質(zhì)量的高低。

最大概率法分詞是一種比較典型基于統(tǒng)計(jì)的分詞方法。其基本思想是：(1)一個(gè)待切分的漢字串可能包含多種分詞結(jié)果；(2)將其中概率最大的那個(gè)作為該漢字串的分詞結(jié)果。例如：“有意見(jiàn)分歧”這個(gè)漢字串，有兩種可能的分詞結(jié)果。Wl：有／意見(jiàn)／分歧和W2：有意，見(jiàn)／分歧。按照最大概率法的思想，就是要比較P(W1)和P(W2)，概論更大的詞串作為分詞的結(jié)果。

計(jì)算詞串w(W1,W2,…，Wn)的概率P(w)，最簡(jiǎn)單的做法是把詞串w中的各個(gè)詞看作互不相干的獨(dú)立事件，以每個(gè)候選詞的概率來(lái)求得整個(gè)詞串的概率。這種模型又稱為一元模型(1 gram)。公式如下：

P(W)=P(W1,W2,…，Wn)=P(W1)*P(W2)*…*P(Wn)(公式1)

而任何一個(gè)詞Wi的概率由它在已有語(yǔ)料庫(kù)中出現(xiàn)的頻率來(lái)近似估計(jì)，即：

P(Wi)：Wi在語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)n／語(yǔ)料庫(kù)中的總詞數(shù)N(公式2)

根據(jù)公式(1)和公式(2)，就可以計(jì)算出每個(gè)詞串的概率，進(jìn)而把概率值最大的那個(gè)作為分詞結(jié)果。

上述一元模型(1 gram)是把各個(gè)詞簡(jiǎn)單的看作毫不相關(guān)。如果考慮相鄰兩個(gè)詞的同現(xiàn)概率，就是二元模型(2一gram)，相應(yīng)地，如果考慮連續(xù)三個(gè)詞的-同現(xiàn)概率，就是三元模型(3 gram)，依次直到n元模型(n-gram)。

(二)N元查錯(cuò)模型

早期的基于統(tǒng)計(jì)的查錯(cuò)對(duì)方法主要使用N元查錯(cuò)模型。英文中通常使用的N元模型主要有詞和詞性的二元、三元模型，中文里主要有漢字的二元、三元模型。

以詞的三元模型為例，設(shè)句子(詞串)s=W1 W2...Wn，其中Wi是詞。當(dāng)試圖判斷Wi是否有錯(cuò)時(shí)，就是要看不等式P(WilWi-2Wi-1)

其中freq表示詞串在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)，實(shí)際使用中通常要通過(guò)平滑(折扣或插值)或聚類(lèi)(詞群，詞間字模型)等方法解決數(shù)據(jù)稀疏的問(wèn)題。一個(gè)簡(jiǎn)單的插值公式如下：

P(WiI Wi-2Wi-I)=axPr(Wil Wi-2Wi-1)+bxPr((Wil Wi-1))+cXPr(Wi)

其中，0

(三)存在的問(wèn)題和改進(jìn)方向

分詞處理存在的主要問(wèn)題：

1、歧義問(wèn)題

通過(guò)句式搭配把詞安排好以后，有一些漢字串可以有兩種及兩種以上的解釋?zhuān)@稱為歧義現(xiàn)象。而且，在多種解釋中，用最大概率法得到的概率最大的詞串有可能是錯(cuò)誤的解釋。2、未登錄詞處理對(duì)計(jì)算機(jī)分詞而言，未登錄詞指的是詞典中沒(méi)有收錄的詞。盡管這部分詞的比例小，但如果不加處理就會(huì)導(dǎo)致為數(shù)可觀的分詞錯(cuò)誤，使后續(xù)的語(yǔ)法、語(yǔ)義分析受影響，查錯(cuò)和改錯(cuò)不準(zhǔn)確。

3、平滑技術(shù)研究

研究自然語(yǔ)言模型的各種平滑技術(shù)、融入詞義相似和聚類(lèi)知識(shí)，利用訓(xùn)練語(yǔ)料庫(kù)進(jìn)行試驗(yàn)，研究出比較高效的插值公式，使得查錯(cuò)的召回率和準(zhǔn)確率都能有所提高。

五、結(jié)束語(yǔ)

本文介紹了基于統(tǒng)計(jì)的詞級(jí)的查錯(cuò)技術(shù)，分析了存在的問(wèn)題，并提出了改進(jìn)方向。如何通過(guò)對(duì)語(yǔ)法、語(yǔ)義的深入分析以改進(jìn)差錯(cuò)技術(shù)的研究還有待于深入進(jìn)行。