亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)料庫(kù)的中文自動(dòng)查錯(cuò)綜述

        2009-08-31 07:45:16蘇炳均
        關(guān)鍵詞:詞串分詞語(yǔ)料庫(kù)

        蘇炳均

        一、引言

        隨著計(jì)算機(jī)的逐步普及和廣泛應(yīng)用,電子文本逐漸成為人們傳遞信息、記載重要文件和數(shù)據(jù)的主要手段之一。而使用計(jì)算機(jī)進(jìn)行文字錄入編輯,不可避免地會(huì)出現(xiàn)一些文字錯(cuò)誤,例如丟字、多字、別字、英文單詞的拼寫(xiě)錯(cuò)誤等等。在出版業(yè),校對(duì)(proofread)工作是出版前審核把關(guān)的重要環(huán)節(jié)。而且目前大多采用人工校對(duì)的方法,校對(duì)工作單調(diào),勞動(dòng)強(qiáng)度大,效率低,人工校對(duì)越來(lái)越成為印刷出版自動(dòng)化的瓶頸。

        中文自動(dòng)校對(duì)包含自動(dòng)查錯(cuò)和自動(dòng)糾錯(cuò)兩個(gè)環(huán)節(jié)。前者是指利用統(tǒng)計(jì)或規(guī)則的方法發(fā)現(xiàn)輸入文本中的錯(cuò)誤;后者是指為自動(dòng)查錯(cuò)時(shí)偵測(cè)出的錯(cuò)誤字符串提供修改建議,輔助用戶改正錯(cuò)誤。本文主要研究了基于統(tǒng)計(jì)的字詞級(jí)的查錯(cuò)方法,并提出了改進(jìn)的方向。

        二、中文文本錯(cuò)誤分析

        中文文本的錄入錯(cuò)誤主要有如下幾種:

        詞錯(cuò):即中文詞的輸入錯(cuò)誤,將詞中的某字錯(cuò)錄為另一字。中文詞分為一字詞、二字詞、…七字詞。經(jīng)大量的實(shí)際文本錯(cuò)誤分析發(fā)現(xiàn),這類(lèi)錯(cuò)誤主要表現(xiàn)為一字詞錯(cuò)、二字詞錯(cuò)和多字詞錯(cuò)。對(duì)于單字詞錯(cuò),主要使用規(guī)則的方法解決;對(duì)于多字詞錯(cuò),主要使用詞的模糊匹配技術(shù)來(lái)校正。

        多字錯(cuò):即輸入了多余的漢字。這種錯(cuò)誤有時(shí)表現(xiàn)為該多字與其前或后的字字形相同或字音相同。例如:“我們的社會(huì)會(huì)是一個(gè)法律的社會(huì)”,輸入了多余的字“會(huì)”。這種錯(cuò)誤可先用語(yǔ)法分析查出,然后再針對(duì)錯(cuò)誤類(lèi)型進(jìn)行校錯(cuò)。

        少字錯(cuò):即輸入中漏掉了一個(gè)或幾個(gè)字。這種錯(cuò)誤主要表現(xiàn)為缺少了單字詞或一字詞。例如:將“法律上完全平等”錯(cuò)錄為“法律完全平等”。這種錯(cuò)誤可用語(yǔ)法分析的方法查出。

        數(shù)字錯(cuò):錄入文稿中常見(jiàn)數(shù)字錯(cuò)表現(xiàn)為阿拉伯?dāng)?shù)字錯(cuò)。這種錯(cuò)誤可歸納為二類(lèi):①對(duì)應(yīng)位置數(shù)字錯(cuò),如“256”錯(cuò)錄為“257”;②漏數(shù)字,如“43214”錯(cuò)錄為“4214”。這類(lèi)錯(cuò)誤是自動(dòng)校錯(cuò)系統(tǒng)無(wú)法解決的錯(cuò)誤之一,只能通過(guò)與原文對(duì)照解決。

        英文字母錯(cuò)誤:錄入文本中常常夾雜著英文。由此發(fā)生的錯(cuò)誤有如下三類(lèi):①少字母,如“student”錯(cuò)錄為“studnt”;②多字母,如“happy”錯(cuò)錄為“haappy”;③字母錯(cuò),如“of”錄入為“od”T這類(lèi)錯(cuò)誤可通過(guò)詞匹配和音節(jié)片斷的矯正技術(shù)來(lái)解決。

        很難解決的錯(cuò)誤:這種錯(cuò)誤表現(xiàn)為錯(cuò)誤語(yǔ)句合乎語(yǔ)法,并且,如果是多字詞錯(cuò),則結(jié)果也成詞。例如:“擴(kuò)大利用外資人才外貿(mào)易”,“人才”應(yīng)為“和對(duì)”;“年利潤(rùn)為一百多元人民幣”,“元”應(yīng)為萬(wàn)”。

        三、中文自動(dòng)校對(duì)的研究狀況

        目前的中文自動(dòng)校對(duì)方法多是字、詞級(jí)別上的統(tǒng)計(jì)方法,它們使用的語(yǔ)言模型比較簡(jiǎn)單,利用的語(yǔ)言學(xué)知識(shí)也不豐富。一方面,中文自動(dòng)校對(duì)方法的性能指標(biāo)有待提高。另一方面,迄今為止還沒(méi)有找到一種理論來(lái)解決自動(dòng)校對(duì)中的偵錯(cuò)和糾錯(cuò)兩個(gè)基本過(guò)程。

        自然語(yǔ)言處理的兩類(lèi)方法:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。規(guī)則方法最常見(jiàn)的是以一定的形式文法系統(tǒng)來(lái)表述自然語(yǔ)言中大小成分間的組合規(guī)則;統(tǒng)計(jì)方法則以各種統(tǒng)計(jì)數(shù)據(jù)來(lái)顯示語(yǔ)言成分間的組合可能性。在實(shí)際操作上前者的知識(shí)來(lái)自專(zhuān)家的內(nèi)省,后者則是由計(jì)算機(jī)從真實(shí)語(yǔ)料中統(tǒng)計(jì)得來(lái)。

        四、自動(dòng)查錯(cuò)的研究狀況

        總的來(lái)說(shuō),目前文本校對(duì)的理論和技術(shù)都不太成熟,但比較一致的看法是,自動(dòng)查錯(cuò)和糾錯(cuò)應(yīng)該在詞法、語(yǔ)法和語(yǔ)義3個(gè)層次上進(jìn)行。本文主要研究的是在詞法一級(jí)進(jìn)行的自動(dòng)差錯(cuò)。

        (一)分詞

        在進(jìn)行文本內(nèi)容分析之前,首先要對(duì)文本進(jìn)行預(yù)處理。也就是對(duì)文本進(jìn)行詞的切分,從文本中抽取詞匯,即將字串變成詞串。這種預(yù)處理叫做分詞,其目的在于提高確定性。分詞是文本自動(dòng)校對(duì)的第一步,占有很重要的地位,是后續(xù)語(yǔ)法、語(yǔ)義分析研究的基礎(chǔ)。分詞的正確率的高低直接影響到校對(duì)系統(tǒng)校對(duì)質(zhì)量的高低。

        最大概率法分詞是一種比較典型基于統(tǒng)計(jì)的分詞方法。其基本思想是:(1)一個(gè)待切分的漢字串可能包含多種分詞結(jié)果;(2)將其中概率最大的那個(gè)作為該漢字串的分詞結(jié)果。例如:“有意見(jiàn)分歧”這個(gè)漢字串,有兩種可能的分詞結(jié)果。Wl:有/意見(jiàn)/分歧和W2:有意,見(jiàn)/分歧。按照最大概率法的思想,就是要比較P(W1)和P(W2),概論更大的詞串作為分詞的結(jié)果。

        計(jì)算詞串w(W1,W2,…,Wn)的概率P(w),最簡(jiǎn)單的做法是把詞串w中的各個(gè)詞看作互不相干的獨(dú)立事件,以每個(gè)候選詞的概率來(lái)求得整個(gè)詞串的概率。這種模型又稱為一元模型(1 gram)。公式如下:

        P(W)=P(W1,W2,…,Wn)=P(W1)*P(W2)*…*P(Wn)(公式1)

        而任何一個(gè)詞Wi的概率由它在已有語(yǔ)料庫(kù)中出現(xiàn)的頻率來(lái)近似估計(jì),即:

        P(Wi):Wi在語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)n/語(yǔ)料庫(kù)中的總詞數(shù)N(公式2)

        根據(jù)公式(1)和公式(2),就可以計(jì)算出每個(gè)詞串的概率,進(jìn)而把概率值最大的那個(gè)作為分詞結(jié)果。

        上述一元模型(1 gram)是把各個(gè)詞簡(jiǎn)單的看作毫不相關(guān)。如果考慮相鄰兩個(gè)詞的同現(xiàn)概率,就是二元模型(2一gram),相應(yīng)地,如果考慮連續(xù)三個(gè)詞的-同現(xiàn)概率,就是三元模型(3 gram),依次直到n元模型(n-gram)。

        (二)N元查錯(cuò)模型

        早期的基于統(tǒng)計(jì)的查錯(cuò)對(duì)方法主要使用N元查錯(cuò)模型。英文中通常使用的N元模型主要有詞和詞性的二元、三元模型,中文里主要有漢字的二元、三元模型。

        以詞的三元模型為例,設(shè)句子(詞串)s=W1 W2...Wn,其中Wi是詞。當(dāng)試圖判斷Wi是否有錯(cuò)時(shí),就是要看不等式P(WilWi-2Wi-1)

        其中freq表示詞串在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù),實(shí)際使用中通常要通過(guò)平滑(折扣或插值)或聚類(lèi)(詞群,詞間字模型)等方法解決數(shù)據(jù)稀疏的問(wèn)題。一個(gè)簡(jiǎn)單的插值公式如下:

        P(WiI Wi-2Wi-I)=axPr(Wil Wi-2Wi-1)+bxPr((Wil Wi-1))+cXPr(Wi)

        其中,0

        (三)存在的問(wèn)題和改進(jìn)方向

        分詞處理存在的主要問(wèn)題:

        1、歧義問(wèn)題

        通過(guò)句式搭配把詞安排好以后,有一些漢字串可以有兩種及兩種以上的解釋?zhuān)@稱為歧義現(xiàn)象。而且,在多種解釋中,用最大概率法得到的概率最大的詞串有可能是錯(cuò)誤的解釋。2、未登錄詞處理對(duì)計(jì)算機(jī)分詞而言,未登錄詞指的是詞典中沒(méi)有收錄的詞。盡管這部分詞的比例小,但如果不加處理就會(huì)導(dǎo)致為數(shù)可觀的分詞錯(cuò)誤,使后續(xù)的語(yǔ)法、語(yǔ)義分析受影響,查錯(cuò)和改錯(cuò)不準(zhǔn)確。

        3、平滑技術(shù)研究

        研究自然語(yǔ)言模型的各種平滑技術(shù)、融入詞義相似和聚類(lèi)知識(shí),利用訓(xùn)練語(yǔ)料庫(kù)進(jìn)行試驗(yàn),研究出比較高效的插值公式,使得查錯(cuò)的召回率和準(zhǔn)確率都能有所提高。

        五、結(jié)束語(yǔ)

        本文介紹了基于統(tǒng)計(jì)的詞級(jí)的查錯(cuò)技術(shù),分析了存在的問(wèn)題,并提出了改進(jìn)方向。如何通過(guò)對(duì)語(yǔ)法、語(yǔ)義的深入分析以改進(jìn)差錯(cuò)技術(shù)的研究還有待于深入進(jìn)行。

        猜你喜歡
        詞串分詞語(yǔ)料庫(kù)
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        靈動(dòng)的詞串,寫(xiě)話的紐帶
        結(jié)巴分詞在詞云中的應(yīng)用
        報(bào)紙新聞標(biāo)題中的“熱詞群”和“熱詞串”
        新聞傳播(2018年15期)2018-09-18 03:19:58
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        值得重視的分詞的特殊用法
        美語(yǔ)口語(yǔ)詞串You Know What探析
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
        国产精品入口蜜桃人妻| 中文av字幕一区二区三区| 美腿丝袜在线观看视频| 国产精品无码一区二区三级| 国产精品视频免费播放 | 国产一区二区三区在线观看第八页| 一区二区三区最新中文字幕| 秋霞在线视频| 天下第二社区在线视频| 国产在线不卡一区二区三区| 亚洲日韩精品久久久久久| 日本人妻少妇精品视频专区| 国产精品亚洲av一区二区三区| 国产三级精品三级在线专区| 婷婷丁香五月激情综合| 99久久伊人精品综合观看| 色欲aⅴ亚洲情无码av蜜桃| 久久久久国产精品片区无码| 日本久久精品国产精品| 亚洲综合久久精品少妇av| 麻豆亚洲av熟女国产一区二| 色偷偷噜噜噜亚洲男人| 丰满爆乳无码一区二区三区| 国产福利酱国产一区二区| 国产精品国产三级国产专区51区 | 69搡老女人老妇女老熟妇| 国产精品一区二区蜜臀av| 亚洲美女毛多水多免费视频| 欧美大屁股xxxx高潮喷水| 2021久久精品国产99国产精品| 精精国产xxxx视频在线| 在线视频青青草猎艳自拍69| 亚洲不卡av二区三区四区| 欧美成人www在线观看| 免费99精品国产自在在线| 日本一区二区三区高清千人斩| 日本道免费精品一区二区| 国内偷拍精品一区二区| 国产午夜福利精品一区二区三区| 中文无码成人免费视频在线观看| 性色av手机在线观看|