亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合MacBERT和Kenlm的中文糾錯方法

        2022-03-02 06:16:00王夢賢何春輝
        現(xiàn)代計算機 2022年23期
        關(guān)鍵詞:文本語言方法

        王夢賢,何春輝

        (1.湖南城市學(xué)院管理學(xué)院,益陽 413000;2.國防科技大學(xué)信息系統(tǒng)工程重點實驗室,長沙 410073)

        0 引言

        隨著信息技術(shù)的快速發(fā)展,文本自動糾錯技術(shù)無處不在,涉及聊天信息、社交動態(tài)、學(xué)術(shù)出版物、政策文件、通知公告以及文檔編寫等日常應(yīng)用場景。經(jīng)過分析發(fā)現(xiàn),在這些場景中較常見的錯誤有字詞拼寫錯誤(例如諧音字)、少字多字、字詞異位、標(biāo)點符號使用不當(dāng)、數(shù)字錯誤等幾大類。在海量的文本中,若完全依靠人力來完成上述錯誤類型的自動糾正顯然不太現(xiàn)實。因此,提出高效的文本自動糾錯方法來輔助人工完成海量文本的自動糾錯已經(jīng)成為了一個極具挑戰(zhàn)的難題。

        國外雖然有學(xué)者針對文本糾錯任務(wù)提出了一些先進(jìn)的理論和方法[1],但是大部分都只適用于印歐語系的語種,對中文的適應(yīng)性較差?,F(xiàn)階段大多數(shù)中文文本糾錯方法仍然需要借助規(guī)則或者糾錯策略,只有少數(shù)方法是借助語言模型來自動探測錯誤并糾正錯誤,但整體的糾錯率不高。近年來,隨著知識表示技術(shù)的發(fā)展,也有部分學(xué)者提出結(jié)合大規(guī)模預(yù)訓(xùn)練語言模型[2]來解決中文文本的自動糾錯難題。這類方法在文本糾錯任務(wù)上取得了一些成效,在精確率方面有較大提升,但召回率偏低。此外,發(fā)現(xiàn)基于Kenlm和混淆詞表的中文糾錯方法具有較高召回率,但精確率非常低。綜上所述,如何同時提升糾錯算法的精確率和召回率就顯得非常重要。

        根據(jù)上述分析可知,為了有效提升中文自動糾錯方法的綜合性能,本文首次嘗試通過融合預(yù)訓(xùn)練語言模型MacBERT和詞表+Kenlm統(tǒng)計語言模型后提出了一種具有層次化結(jié)構(gòu)的中文糾錯方法。

        1 相關(guān)研究

        早期的中文糾錯方法主要是圍繞文本自動校對[3]應(yīng)用場景來展開,這類方法需要依賴人工制定的規(guī)則庫來完成查錯和糾錯。隨著統(tǒng)計學(xué)習(xí)的興起,陳翔等[4]提出了一種規(guī)則和統(tǒng)計方法相結(jié)合的自動糾錯技術(shù),用來解決數(shù)字化系統(tǒng)的自動糾錯難題并取得了一定的效果。石敏等[5]針對中文同音字錯誤類型提出了一種基于決策列表的中文糾錯方法,借助構(gòu)建的混淆集在同音字糾錯任務(wù)上達(dá)到了較好的效果。此外,楊蘇穩(wěn)等[6]提出了一種結(jié)合模糊匹配和最小編輯距離來解決搜索引擎中查詢語句的智能糾錯方法,有效提升了用戶的搜索體驗。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,有學(xué)者提出結(jié)合知識庫或知識表示技術(shù)來解決中文糾錯難題,也取得了一系列的研究成果。王瓊等[7]針對鐵路車務(wù)系統(tǒng)語音識別后的文本易出現(xiàn)散串和同音字錯誤的情況,提出了一種基于領(lǐng)域知識庫的查錯算法,有效地提升了文本錯誤檢測率。張佳寧等[8]利用word2vec詞嵌入技術(shù)結(jié)合深度語言模型以及混淆集技術(shù)對語音識別后的文本進(jìn)行自動糾錯,也取得良好的效果。葉俊民等[9]提出了一種層次化修正框架,用于解決中文糾錯任務(wù),它在不同層次上分別結(jié)合預(yù)訓(xùn)練語言模型[10]和語義表示技術(shù)來探測并修正錯誤。王辰成等[11]和孫邱杰等[12]分別基于Transformer增強框架和BRAT噪聲器對中文語法糾錯進(jìn)行了探索,有效地提升了中文語法的糾錯性能。

        受上述啟發(fā),在糾錯領(lǐng)域中文語料上實現(xiàn)遷移學(xué)習(xí)后得到MacBERT[13]語言模型,并結(jié)合人工構(gòu)造的詞表+Kenlm[14]語言模型提出了一種中文糾錯方法。

        2 融合MacBERT和Kenlm的中文糾錯方法

        為解決現(xiàn)有基于BERT語言模型的文本糾錯方法糾錯性能偏低的問題,本文提出了融合MacBERT和詞表+Kenlm的中文糾錯方法。模型的整體流程及示例說明如圖1所示。由圖1可知,它是一個包含多級結(jié)構(gòu)的一體化模型。根據(jù)輸入的原始序列,首先會調(diào)用輕量級的MacBERT一級糾錯模型完成錯誤探測和修正建議。然后結(jié)合一個判別模塊,當(dāng)發(fā)現(xiàn)MacBERT模型的糾錯結(jié)果為空時,說明MacBERT模型沒有從原始輸入序列中探測到錯誤信息。

        圖1 融合MacBERT和Kenlm的中文糾錯方法整體流程及示例說明圖

        有兩種可能會導(dǎo)致這個結(jié)果:第一,原始輸入序列中確實沒有錯誤信息;第二,原始輸入序列中存在錯誤,但是由于MacBERT模型的糾錯性能有限,無法探測真實存在的錯誤。第一種屬于正常情況,不會影響模型糾錯性能。但第二種情況會直接對模型的糾錯性能產(chǎn)生影響。為了避免這種情況的發(fā)生,提出新增一個基于詞表+Kenlm統(tǒng)計語言模型相結(jié)合的二級糾錯模型來完成二次糾錯,它可以在一定程度上彌補MacBERT模型自身的不足。MacBERT一級糾錯模型和詞表+Kenlm二級糾錯模型的相關(guān)概述請見2.1和2.2小節(jié)。

        2.1 MacBERT糾錯模型

        MacBERT[13]模型是在Google開源的Chinese BERT-base模型的基礎(chǔ)上結(jié)合公開的大規(guī)模中文糾錯語料進(jìn)行微調(diào)后得到的一個輕量級模型。根據(jù)中文糾錯任務(wù)的要求,額外追加了一個全連接層作為錯誤檢測層,整個糾錯模型是通過利用錯誤檢測層和錯誤糾正層的Loss加權(quán)得到最終Loss值。相關(guān)計算公式如下:

        其中,Lossdet是錯誤檢測的損失函數(shù),Losscor是錯誤糾正的損失函數(shù),Loss是綜合損失函數(shù),ω是一個權(quán)重系數(shù)。除此之外,MacBERT采用了全詞掩蔽和N-Gram掩蔽策略來選擇候選序列進(jìn)行掩蔽,從1-Gram到4-Gram字符序列的掩蔽比例分別調(diào)整為40%、30%、20%、10%。考慮到原始BERT模型使用[MASK]進(jìn)行掩蔽,但它在微調(diào)階段并不會出現(xiàn)這個標(biāo)識,這會造成預(yù)訓(xùn)練任務(wù)與下游微調(diào)任務(wù)不一致。因此,MacBERT采用近義詞替換來完成全詞的掩蔽操作,當(dāng)遇到某個詞語不存在近義詞的時候,通過隨機詞語替換策略完成掩蔽操作。MacBERT使用句子順序預(yù)測(SOP)任務(wù)替換BERT原始的下一句預(yù)測(NSP)任務(wù),并通過切換兩個連續(xù)句子的原始順序來創(chuàng)建負(fù)樣本。MacBERT模型的示例流程如圖2所示。

        圖2 微調(diào)后的MacBERT模型示例流程圖

        2.2 詞表+Kenlm糾錯模型

        詞表+Kenlm糾錯模型共分為兩步:第一步是錯誤檢測;第二步是錯誤糾正。錯誤檢測部分先通過中文分詞器進(jìn)行分詞,若句子中含有錯別字,分詞后提取出不在常用詞典中的疑似錯詞,并聯(lián)合人工整理的混淆詞典構(gòu)建一個候選錯詞集合。在錯誤糾正部分,首先會依次遍歷候選錯詞集合,同時使用音似字典和形似字典依次替換候選錯誤集合中的候選錯詞,然后通過Kenlm統(tǒng)計語言模型依次計算替換后的句子似然概率,并把似然概率超過原句且達(dá)到最大時所對應(yīng)的替換詞語作為糾正詞返回,從而完成整個錯誤檢測和錯誤糾正的流程。該方法最大優(yōu)點是可以通過擴展混淆詞典、音似字典、形似字典、常用詞典來快速提升模型的糾錯性能。

        3 實驗驗證

        3.1 數(shù)據(jù)集和評測指標(biāo)

        為了驗證方法的有效性,選取中文糾錯領(lǐng)域標(biāo)準(zhǔn)的公開數(shù)據(jù)集SIGHAN Bake-off 2015[15]作為實驗評測數(shù)據(jù)集,它總共包含了1100個通過領(lǐng)域?qū)<覙?biāo)注過的錯誤-正確中文句子對以及相應(yīng)的錯誤位置和錯誤字詞信息。實驗部分采用中文糾錯領(lǐng)域經(jīng)典的查準(zhǔn)率P、查全率R以及F1值三個評測指標(biāo)來完成模型的性能評測。需要注意的是,相關(guān)指標(biāo)皆采用強匹配準(zhǔn)則來計算,即模型糾正結(jié)果與專家給出的正確句子必須完全一致,判定為糾正成功,否則就判定為糾正失敗。三個指標(biāo)可根據(jù)表1所示的混淆矩陣來計算。

        表1 混淆矩陣的結(jié)構(gòu)

        3.2 實驗結(jié)果

        為了全方位驗證方法的性能,實驗在同一個評測數(shù)據(jù)集上選取了五個不同的先進(jìn)基線模型加入到對比實驗組,相關(guān)實驗結(jié)果如表2所示。

        表2 不同模型在評測數(shù)據(jù)集上的糾錯實驗結(jié)果單位:%

        根據(jù)表2的糾錯實驗結(jié)果可知,從單模型的角度來看,基于BERT模型完成遷移學(xué)習(xí)后得到的MacBERT模型相對其它基線模型來說不僅速度快,而且性能更高。查準(zhǔn)率、查全率以及F1值分別達(dá)到了77.9%、66.4%和71.7%,這充分揭示了遷移學(xué)習(xí)技術(shù)所帶來的優(yōu)勢。此外,本文所提方法在融合MacBERT+詞表+Kenlm語言模型后整體性能大大提升。尤其是查全率和F1值相對于單獨的MacBERT模型而言提升了3.6個百分點,準(zhǔn)確率和召回率也有提升,這主要得益于同時發(fā)揮了MacBert和詞表+Kenlm語言模型的優(yōu)勢。從實驗結(jié)果來看MacBERT模型大概只能糾正85%左右的錯誤句子,而剩余15%的錯誤句子是通過詞表+Kenlm語言模型來完成糾正。上述結(jié)果可以充分說明本方法具有更優(yōu)的綜合糾錯性能。

        4 結(jié)語

        針對中文智能糾錯領(lǐng)域現(xiàn)有方法存在整體糾錯性能偏低的問題,提出了一種融合MacBERT和詞表+Kenlm的一體化中文糾錯方法。實驗結(jié)果表明,所提方法可以提升模型的整體糾錯性能,尤其是結(jié)合可擴展的詞表+Kenlm后能有效提升糾錯模型的召回率和F1值,這為解決中文糾錯難題提供了新的理論和方向。

        猜你喜歡
        文本語言方法
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語言描寫搖曳多姿
        累積動態(tài)分析下的同聲傳譯語言壓縮
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        我有我語言
        免费的黄网站精品久久| 久久精品国产色蜜蜜麻豆国语版| 好吊妞视频这里有精品| 国产成人综合久久亚洲精品 | 国产亚洲女在线线精品| av手机天堂在线观看| 老女老肥熟女一区二区| 中文成人无码精品久久久不卡| 亚洲欧洲日产国产AV无码| 一区二区三区观看在线视频| 午夜影视免费| 67194熟妇在线永久免费观看 | 美女主播网红视频福利一区二区| 无码欧美毛片一区二区三| 青青操国产在线| 亚洲综合天堂一二三区| 免费人成黄页网站在线一区二区| 欧美a级在线现免费观看| 国产成人一区二区三区在线观看| 精品午夜久久网成年网| 性感人妻av在线播放| 色综合久久中文综合网亚洲| 日本老熟妇50岁丰满| 91短视频在线观看免费| 极品少妇一区二区三区四区视频 | 老妇高潮潮喷到猛进猛出| 国内老熟妇对白xxxxhd| avtt一区| 日韩人妻久久中文字幕| 天堂新版在线资源| 国产精品毛片无码久久| 五十路在线中文字幕在线中文字幕 | 久久精品国产亚洲av忘忧草18 | 一二三四在线观看韩国视频| 国产成人综合日韩精品无码| 女同久久精品国产99国产精品| 国产小车还是日产的好| 日产国产亚洲精品系列| 久久天天躁狠狠躁夜夜不卡| 国产毛片视频网站| 国产精品丝袜美腿诱惑|