亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策列表的中文同音詞自動識別與校對

        2015-01-29 02:57:20石敏高尚
        電子設(shè)計工程 2015年9期
        關(guān)鍵詞:特征文本實驗

        石敏,高尚

        (江蘇科技大學(xué) 計算機科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江212003)

        中文文本校對[1-3]是自然語言理解領(lǐng)域的一個重要并具有挑戰(zhàn)性的課題。尤其是隨著現(xiàn)代信息處理技術(shù)的發(fā)展,計算機漸漸替代了傳統(tǒng)文本工作,文本錯誤有隨之越來越多。人工校對已無法滿足需求時,文本自動校對的研究應(yīng)運而生,具有深遠意義。20世紀(jì)60年代,國外就開展了英文文本的自動校對研究[4],并取得可觀的成果。從20世紀(jì)90年代開始,國內(nèi)才開展了對中文文本的自動校對研究[5-7],中文輸入不像英文直接輸入到計算機,而是采用某種輸入法,但凡能輸入到計算機中的漢字都是存在于漢字庫中的,所以中文錯誤只有“真詞錯誤”。在這些錯誤中,同音詞錯誤占很大比例,尤其是在拼音輸入法下,人們很容易不小心將某個詞寫成它的同音詞。

        本文的工作就是校對文本時出現(xiàn)了同音詞,即這個詞是同音詞混淆集中的詞,判斷這個同音詞是否出錯,如果出錯正確的詞應(yīng)該是什么。如“我接收了他的建議”,要判斷出其中的“接收”是錯誤的,并且能找出對應(yīng)正確的“接受”。由于本文只是對同音詞查錯糾錯,并且只是同音詞混淆集中的詞,所以糾錯候選象是一組同音詞,通過統(tǒng)計詞的2元特征和上下文語境結(jié)合一定的計算公式來計算這個句子對哪個詞的支持度高,這就是決策列表。

        1 決策列表的構(gòu)建

        決策列表[8]的構(gòu)建分為以下幾個步驟,文章中結(jié)合2元模型[9]特征和上下文語境特征,因此需要的資源有同音詞混淆集,2元模型,上下文語境。

        Step1同音詞混淆集

        文章中我們整理出最容易出錯的1 000對同音詞組,文中只研究2、3字同音詞,單字詞和多字詞不考慮,列出一部分如表1所示。

        表1 同音詞混淆集Tab.1 Homophone confusion set

        Step2訓(xùn)練2元模型和上下文語境

        我們需要大量的語料來訓(xùn)練詞的2元模型和上下文語境特征,訓(xùn)練好的資源作為接下來所有判斷的依據(jù)。

        2元模型:即中心詞詞wi的前一個詞和后一個詞同現(xiàn)的頻次,即,并且統(tǒng)計出他們出現(xiàn)的次數(shù)。 例如:句子1——“今日習(xí)主席接受了奧巴馬總統(tǒng)的邀請,并于下個月訪問美國”,統(tǒng)計“接受”的2元模型:

        其中,F(xiàn)rq1,F(xiàn)rq2 為頻次。

        本文摘錄4G大小的人民日報作為訓(xùn)練語料,最后統(tǒng)計出的2元模型如表2所示。

        表2 訓(xùn)練2元模型Tab.2 2-gram model of words

        上下文語境:即中心詞前后最近的k個詞,k為窗口大小,同2元模型一樣,統(tǒng)計2元組以及出現(xiàn)次數(shù),例如:句子2——“今日習(xí)主席接受了奧巴馬總統(tǒng)的邀請,并于下個月訪問美國”,統(tǒng)計“接受”窗口為3的上下文語境:

        其中,F(xiàn)rq3,F(xiàn)rq4,F(xiàn)rq5,F(xiàn)rq6 為頻次。

        經(jīng)過大量語料訓(xùn)練最后統(tǒng)計出的上下文語境模型如表3所示。

        Step3提取待校對文本中同音詞的2元特征和上下文特征ei

        表3 上下文語境Tab.3 Context of words

        這部分的工作是針對待校對文本的,文章中用到的所有測試文本都是經(jīng)過分詞的。校對文本時,首先找到同音詞,然后提取同音詞的2元特征和上下文,根據(jù)訓(xùn)練好的2元模型和上下文語境,找到這些特征2元組的出現(xiàn)頻次。需要注意的是,像“的”“了”等詞對區(qū)分一對同音詞幾乎沒有什么作用,這樣的詞稱停用詞,統(tǒng)計時我們不考慮停用詞。文章中用到的停用詞資源是哈工大的停用詞表,包括了最常見的504個停用字詞。

        例如:句子3——我今天接收了她的邀請明天去參加她的生日party。

        其中“接收”是同音詞,提取“接收”的2元特征和上下文特征 ei:

        2元特征:今天,“了”是停用詞,因此不考慮。

        窗口為4的上下文特征:我,她,接受

        Step4計算提取的特征對同音詞的支持度sup

        sup是特征ei對詞wi支持度:

        其中

        說明:frq(wi,ei)是從 Step2中訓(xùn)練好的模型查找出的 2元組出現(xiàn)頻次。 由于數(shù)據(jù)存在稀疏性,frq(wi,ei)可能為0,所以這里設(shè)置了α=0.15。經(jīng)過上述計算,最后得出整個句子對同音詞的支持度為 sup(w)=∑sup(w,ei)。

        經(jīng)過 Step3,Step4得到表 4,表 5:

        表4 特征2元組頻次Tab.4 Frequency of 2-gram feature

        表5 決策列表Tab.5 Decision list

        決策列表就是各特征以及整個句子對同音詞的支持度,從表5的最后一列中可以看出,sup(接受)>sup>(接收)>sup(接手)所以句子3中的“接收”是錯誤的,應(yīng)該改為“接受”。校對后句子為“我 今天 <接收|接受>了 她 的 邀請 明天 去參加 她 的 生日 party?!边@樣就完成了句子3的查錯和糾錯。

        2 實驗結(jié)果及分析和改進

        2.1 實驗結(jié)果

        首先選取了最常見的易出錯的20組同音詞構(gòu)成實驗的同音詞混淆集,從百度上摘錄包含這些同音詞的2 000條正確句子,手工將一部分正確的詞改錯成它的同音詞,這樣構(gòu)成了測試集。通過實驗,文本總共錯誤800處,程序召回659處,其中正確召回599處,正確糾正570處,召回率達74.88%,準(zhǔn)確率90.9%,糾錯率95.16%。

        2.2 實驗結(jié)果分析

        本實驗系統(tǒng)中,試驗結(jié)果的好壞與一些因素有關(guān),如:

        1)分詞的準(zhǔn)確度

        由于本實驗是通過大規(guī)模語料統(tǒng)計模型都是在分詞的基礎(chǔ)上進行的,因此分詞的準(zhǔn)確度對實驗結(jié)果有影響,但是到目前的分詞方法都不能達到100%的準(zhǔn)確度。另外,由于中文本身的復(fù)雜性,語料涉及的領(lǐng)域廣泛,分詞過程中難免會碰到詞典的未登陸詞,對分詞及最終結(jié)果都有影響。

        2)數(shù)據(jù)稀疏性

        本實驗中的決策列表構(gòu)建依據(jù)是大規(guī)模語料訓(xùn)練出來2元模型和上下文語境,所用的大規(guī)模語料有限,數(shù)據(jù)稀疏在所難免。這樣導(dǎo)致很多2元組的出現(xiàn)頻次為0,會影響到實驗結(jié)果。

        2.3 實驗改進

        實驗中通過觀察中間結(jié)果,發(fā)現(xiàn)那些未召回的錯誤80%以上都是由于數(shù)據(jù)稀疏導(dǎo)致的,例如:句子4——半晌,她 轉(zhuǎn)身 進去 抱 杯子 了。 實驗發(fā)現(xiàn),2元組<進去 杯子><進去 被子><抱 杯子><抱 被子>的出現(xiàn)頻次均為0,因此系統(tǒng)無法將這類錯誤召回。

        改進思路是通過同義詞聚類。舉個例子,假設(shè)模型中<接受 采訪>頻次為0,那么就找“采訪”的同義詞“訪問”等,也就是計算時我們可以用<接受 訪問>的頻次代替,如果有多個同義詞,則頻次相加作為原2元組<接受 采訪>的頻次。實驗室需要用到同義詞聚類表,這里用的是哈工大信息檢索研究室同義詞詞林?jǐn)U展版,例如其中一條數(shù)據(jù)“Bp07B01=杯 杯子 盅 盅子 盞”,Bp07B01是這條數(shù)據(jù)的編碼,后面是一組同義詞,當(dāng)程序發(fā)現(xiàn)2元組<抱 杯子>的頻次為0時,我們可以做這樣的替代 Frq(抱 杯子)=Frq(抱 杯)+Frq(抱 盅)+Frq(抱盅子)+Frq(抱 盞),對于“被子”做同樣的處理,最終實驗結(jié)果表明能正確召回這個錯誤。

        經(jīng)過上述的改進,程序召回680處,其中正確召回628處,正確糾正599處,召回率=78.5%,比原實驗結(jié)果有所改善。

        3 結(jié)束語

        本文對漢語文本校對中的同音詞錯誤進行自動查錯和糾錯,首先通過大批語料統(tǒng)計同音詞的2元模型和上下文語境,然后在校對文本時提取同音詞的2元和上下文特征,構(gòu)建決策列表,通過比較特征支持度,最后判斷是否出錯并找到最合適的進行替換。由于數(shù)據(jù)稀疏,還加入同義詞聚類[10]說進行改進,最后取得比較好的實驗結(jié)果。今后考慮加入詞性和遠距離搭配,進一步改進實驗,提高系統(tǒng)性能。

        [1]李晶皎,張莉,姚天順.漢語語音理解中自動糾錯系統(tǒng)的研究[J].軟件學(xué)報,1999,10(4):377-381.LI Jing-jiao,ZHANG Li,YAO Tian-shun.Research on automatic checking and confirming correction for chinese speech understanding[J].Journal of Software,1999,10(4):377-381.

        [2]吳巖,李秀坤,劉挺,等.中文自動校對系統(tǒng)的研究與實現(xiàn)[J].哈爾濱工業(yè)大學(xué)學(xué)報,2001(2):60-64.WU Yan,LI Xiu-kun,LIU Ting,et al.Research and implementation of chinese text automatic system[J].Journal of Harbin Institute of Technology,2001(2):60-64.

        [3]張磊,周明,黃昌寧,等.中文文本自動校對[J].語言文字應(yīng)用,2001,2(1) :19-25.ZHaNG Lei,ZHOU Ming,HUANG Chang-ning,et al.Automatic detection and correction of typed errors in chinese text[J].Applied Linguistics,2001,2(1):19-25.

        [4]Kukich K.Techniques for automatically correcting words in text[J].ACM Computing Surveys,1992,24(4):377-439.

        [5]劉挺,施洪濱.中文計算機輔助校對系統(tǒng)原理[J].中文信息,1997(2):21-22.LIU Ting,SHI Hong-bin.Principle of chinese computer aided detection and correction system[J].Chinese Information,1997(2):21-22.

        [6]邱超捷,宋柔.大規(guī)模語料庫中詞語接續(xù)對的統(tǒng)計與分析[A].第四屆計算語言學(xué)會議論文集(語言工程)[C]//北京:清華大學(xué)出版社,1997.

        [7]郭志立.中文校對系統(tǒng)中的修改建議提供算法;第四屆計算語言學(xué)會議論文集(語言工程)[C]//北京:清華大學(xué)出版社,1997.325-330.

        [8]Hiroyuki Shinnou.Detection of Japanese Homophone Errors by a Decision List Including a Written Word as a Default Evidence[C]//Proceedings of EACL’99,180-187.

        [9]張仰森,丁冰青.基于二元接續(xù)關(guān)系檢查的字詞級自動查錯方法[J].中文信息學(xué)報,2001,15(3):36-43.ZHANG Yang-sen,DIng Bing-qing.Automatic errors detecting of chinese texts based oil the bi-neighborship[J].Chinese Information Technology,2001,15(3):36-43.

        [10]羅智勇,宋柔.相似詞及其在計算機輔助校對系統(tǒng)中的應(yīng)用[C]//全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集.南京;2005.

        猜你喜歡
        特征文本實驗
        記一次有趣的實驗
        如何表達“特征”
        在808DA上文本顯示的改善
        做個怪怪長實驗
        不忠誠的四個特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        一级内射免费观看视频| 韩国三级大全久久网站| 欧美午夜刺激影院| 国产精品嫩草影院AV| 人人爽亚洲aⅴ人人爽av人人片 | 一区二区三区黄色一级片| 文字幕精品一区二区三区老狼| 久久精品国产亚洲av高清热| 欧美伊人久久大香线蕉在观 | 国产精品亚洲欧美大片在线看| 国产精品无码精品久久久| 亚洲综合一区二区三区蜜臀av| 国产亚洲精品视频一区二区三区| 五月色丁香婷婷网蜜臀av| 又粗又硬又黄又爽的免费视频 | 精品亚洲国产探花在线播放| 国产女人体一区二区三区| 最近中文字幕精品在线| 男人和女人做爽爽视频| 国产麻豆剧传媒精品国产av| 丁香五月缴情综合网| 国产无遮挡又黄又爽无VIP| 国产丝袜爆操在线观看| 特黄做受又硬又粗又大视频小说| 97se在线| 久久久国产精品五月天伊人| 日韩精品成人区中文字幕| 久久丫精品国产亚洲av不卡| 91久久福利国产成人精品| 亚洲精彩av大片在线观看| 免费女人高潮流视频在线观看| 亚洲国产无线乱码在线观看| 亚洲视频一区二区久久久| 在线播放av不卡国产日韩| 中国国语毛片免费观看视频| 麻豆密入视频在线观看| av高潮一区二区三区| 国产伦人人人人人人性| 国产在线手机视频| 一区二区三区婷婷中文字幕| 福利利视频在线观看免费|