亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RoBERTa-wwm-ext與混淆集的中文文本校對模型

        2023-09-07 07:17:16徐久珺黃國棟馬傳香
        湖北大學學報(自然科學版) 2023年5期
        關鍵詞:掩碼字符詞語

        徐久珺,黃國棟,馬傳香,2

        (1.湖北大學計算機與信息工程學院,湖北 武漢 430062;2.湖北省高校人文社科重點研究基地(績效評價信息管理研究中心),湖北 武漢 430062)

        0 引言

        中文文本自動校對技術是自然語言處理領域的主要任務之一,隨著互聯(lián)網(wǎng)技術的高速發(fā)展和普及,各種文本信息的存儲、傳輸以及檢索發(fā)生了翻天覆地的變化,海量的文本校對任務與有限的人力和物力之間的矛盾日益加深[1],研究高效準確的文本校對方法已經(jīng)十分迫切.

        國外文本校對研究起步較早,從20世紀60年代到如今發(fā)展出了以下幾類方法:基于機器學習[2]的方法、基于語義[3]的方法和基于概率統(tǒng)計[4]的方法.其中基于機器學習的方法主要有決策列表法[5]和貝葉斯分類法[6],這兩種方法需要依靠預先定義的混淆集,該集合是由容易發(fā)生拼寫錯誤的單詞組成,通過學習獲得混淆集中每個詞語上下文特征,然后再判定在特定上下文位置中混淆集中哪個詞語更為適合.這類方法最大的弊端就是只依賴于混淆集,對于混淆集中未出現(xiàn)的單詞無法進行替換校對.基于語義的方法主要有語義分析方法[7]以及WordNet方法[8],這兩種方法的特點是都不需混淆集,只基于正確的詞語與其周圍詞語滿足一定的聯(lián)系,而錯誤的詞語不滿足該聯(lián)系.WordNet方法在該基礎上引入詞與詞之間語義距離的聯(lián)系,如果詞與上下文詞語語義距離過遠,則該詞語是錯誤的,但是這類方法的準確率只有15%~25%.基于概率統(tǒng)計的方法主要是N-gram統(tǒng)計語言模型法[9-11],該方法是基于使用大規(guī)模的語料來統(tǒng)計詞的N-gram序列,通過N-gram概率找到真詞錯誤.這類方法的優(yōu)點是不需要依靠預先定義的混淆集,但是缺點在于需要大規(guī)模的語料來訓練N-gram模型,而且無法獲得長距離的詞語之間的語義聯(lián)系.而中文文本校對沒有像英文文本校對那樣嚴格劃分“非詞錯誤”與“真詞錯誤”,中文文本校對在進行糾錯分析時,必須依賴于中文語言理解的相關技術,通過對上下文分析進行校對,上述一些英文校對方法對于中文文本不太適用.

        目前,中文文本校對方面主要分為3種方法,分別是基于上下文語言特征的校對方法[12]、基于規(guī)則的校對方法[13],以及基于統(tǒng)計的校對方法[14].微軟中國研發(fā)出一種基于多特征的中文文本校對方法[15],該方法利用上下文特征對詞語對應混淆集中的詞語進行選擇,該方法的困難點在于將中文文本轉(zhuǎn)化為多元特征序列和選擇有效的混淆集.北京師范大學易蓉湘采用了一種校正文法規(guī)則[13]對中文文本進行校對,該方法利用校正文法規(guī)則把相應字詞標記為錯誤,但是基于有限的規(guī)則,很難預測大量的不同類型的錯誤文本.張照煌提出一種統(tǒng)計語言模型評分的方法[16],該方法通過預先整理好近似字替換集合,然后替換待校對句子中的每個漢字,產(chǎn)生候選字符串,然后使用統(tǒng)計語言模型對候選字符串進行評分,通過對比評分最高的字符串與代校對文本的句子,可以發(fā)現(xiàn)錯誤之處并提出修改建議,但是這類方法無法對多字、漏字、易位等錯誤進行校對.

        以上中文文本自動校對方法都是建立在自然語言理解技術之上的,如基于上下文語言特征、規(guī)則、概率統(tǒng)計的中文文本校對方法,這些方法的錯誤召回率與準確率都比較低,給出糾錯建議的有效率也比較低,與用戶的使用需求還存在著較大差距.

        針對中文文本中字粒度級別錯誤,本研究提出了一種基于RoBERTa-wwm-ext[17]與混淆集的中文文本校對模型.該模型通過使用transformer 結構中的encoder部分讀取待校對文本序列,利用全詞掩碼策略對文本序列進行掩碼,然后通過softmax函數(shù)計算輸出文本中每個字的權重,通過比較該字的權重與詞匯表中權重最高值發(fā)現(xiàn)文本序列中的錯別字,最后在糾錯過程中引入混淆集來利用錯誤字詞本身的信息,給出修改意見,完成糾錯任務.

        1 相關工作

        1.1 全詞掩碼全詞掩碼[18](whole word masking, wwm),是谷歌在2019年5月發(fā)布的基于BERT的一個改進版本,主要更改了原預訓練階段的訓練樣本的生成方式.最初基于WordPiece[19]的分詞方式是把一個完整詞語切分成若干個子字詞,在生成訓練樣本時,對這些子字詞進行隨機掩碼.在全詞掩碼模型中,如果一個完整字詞的部分子字詞被掩碼,則同屬該字詞的其他部分也會被掩碼.掩碼樣例如表1所示.

        表1 掩碼樣例

        全詞掩碼(wwm)策略使得預訓練模型在訓練掩碼語言模型的過程中使用整個詞語作為訓練目標,而非使用部分子字詞,從而解決了原生BERT模型掩碼部分子詞的缺點,進一步提升了BERT模型的中文文本的表示效果.

        1.2 混淆集混淆集(confusion set)一般是由容易混淆的音似、形似和義似的漢字組成的集合,以鍵值對的形式保存,被查的字符為鍵,對應的相似字符為值.近年來,隨著中文文本校對工作的發(fā)展需要,基于中文漢字的混淆集在中文文本校對模型中發(fā)揮著越來越重要的作用.

        本模型使用的混淆集采取的是基于OCR和ASR方法[20]生成的混淆集.該混淆集的建立過程如下:首先將原始字符集中不常用字符過濾掉,再將需要生成混淆集的字符,轉(zhuǎn)換成100*100像素的圖片,然后使用模糊算法將圖片中的部分區(qū)域隨機模糊.最后識別被處理過的字符圖片,一旦識別結果與原字符不同,就會被加入到混淆集.針對同音字、近音字混淆集,該方法先將文本轉(zhuǎn)換成音頻,再將音頻轉(zhuǎn)換成文本,將轉(zhuǎn)換的文本與原文本進行比對,對生成的文本與原文本有長度、發(fā)音差別較大等情況的句子進行丟棄,然后將滿足條件的字符加入混淆集.最后將形近字混淆集與同音字、近音字混淆集合并形成最后的混淆集.混淆集的存儲樣例如表2所示.

        1.3 RoBERTa-wwm-ext模型RoBERTa-wwm-ext是一種改進的預訓練掩碼語言模型,該模型的結構是根據(jù)BERT[21]模型演變而來.BERT 模型使用多層雙向transformer編碼器作為模型的主要框架,使用MLM(mask language model)和NSP(nextsentence prediction)作為預訓練目標.transformer是一種注意力機制,負責學習文本中單詞之間的上下文聯(lián)系,其結構包括兩個獨立的機制,一個是encoder負責接受文本作為輸入,另一個是decoder負責對任務結果進行預測.MLM模型通過對輸入語句中隨機 15%的token進行選取,然后在訓練中將所選取的token以80%的概率替換為[MASK],10%的概率替換為隨機的詞語,10%的概率保持原有詞語不變,從而可以提高MLM模型對中文文本特征的泛化能力.NSP一般用于判斷句子 B是否為句子A的下文,從而對句子之間的上下文關系進行建模.RoBERTa-wwm-ext模型結構如圖1所示.

        表2 混淆集存儲樣例

        圖1 RoBERTa-wwm-ext模型結構

        RoBERTa-wwm-ext集成了RoBERTa與BERT-wwm的優(yōu)點,對兩者進行了自然的結合,該模型主要包含以下特點:1)預訓練階段把訓練策略轉(zhuǎn)變?yōu)槿~掩碼(wwm)策略,而沒有使用動態(tài)掩碼(dynamic masking)策略;2)取消Next Sentence Prediction(NSP)loss,提升了模型的建模效率;3)訓練數(shù)據(jù)集的規(guī)模更大,增加更多的訓練批次,直接使用max_len=512的訓練模式.

        2 基于RoBERTa-wwm-ext與混淆集的文本校對模型

        針對現(xiàn)階段中文文本中字粒度級別的錯誤對象,本研究提出一種基于RoBERTa-wwm-ext與混淆集的中文文本校對模型,既能發(fā)揮RoBERTa-wwm-ext提取待檢錯文本局部特征的優(yōu)勢與學習待檢錯文本上下文信息的特點,又能利用混淆集提供候選字符給出糾錯建議.

        基于RoBERTa-wwm-ext與混淆集的中文文本校對模型的校對過程分為兩步:

        圖2 文本檢錯

        1)文本檢錯.首先,對于中文文本的檢錯部分,將輸入的文本進行分詞,然后,將分詞后得到的散串依次進行遮擋,最后,輸入到RoBERTa-wwm-ext掩碼語言模型中,得到該位置字符的權重分布.如果待檢查字的權重與掩碼語言模型詞表中權重最大值的差值要小于閾值L,則認為該位置的字是正確的,否則就是錯誤的.以錯誤語句“萬市如意”為例,當檢查到“市”這個字符時,文本檢錯示意圖如圖2所示.

        2)文本糾錯.對于中文文本校對中的糾錯部分,由于RoBERTa-wwm-ext模型只能根據(jù)被遮蓋字符的上下文對其進行預測,沒有考慮到錯字本身的信息.因此本研究在RoBERTa-wwm-ext結構的基礎上,引入混淆集,提高模型的校對效果.具體方法是使用掩碼語言模型計算“[MASK]”處對應字典的權重分布,并查找出混淆集中權重符合條件的字符.如果在混淆集中找到合適的字符,則將該字符作為糾正建議.否則,將權重分布中的最高值對應的字符作為修改建議.以錯誤語句“萬市如意”為例,糾錯流程如圖3所示.

        圖3 文本糾錯

        完整的中文文本校對流程如下所示.

        算法:基于RoBERTa-wwm-ext+confusion set的中文文本校對模型

        輸入:中文文本S=W1W2…Wn

        輸出:校對后的中文文本

        1. Begin:

        2.將輸入的中文文本進行分詞,基于wwm策略進行掩碼,生成待校對語句;

        3.使用掩碼語言模型RoBERTa-wwm-ext計算被遮蓋字符Wi處的權重Uwi以及該位置字符在字典中對應的權重Udist;

        4.Uword=Utop-Uwi//Utop是Udist中權重最大值

        5.if(Uword>L)//L是一個閾值

        Wi是錯誤的;

        else

        Wi是正確的,繼續(xù)檢查下一個字符;

        6.根據(jù)混淆集找到Wi對應的候選字符集dist[Wj]以及對應的權重分布Uwj;

        7.計算出Uwj中權重最大值Umax以及對應的候選字符Mmax;

        8.Ucor=Utop-Umax;

        9. if(Ucor

        10.將混淆集中的候選字符Mmax作為替換;

        11.else

        12.將字典中出現(xiàn)的最大權重值對應字符Mwi作為糾錯結果;

        13.end

        3 實驗分析

        3.1 實驗環(huán)境、數(shù)據(jù)集及評價指標本研究的實驗環(huán)境如下:實驗運行操作環(huán)境為windows11操作系統(tǒng),GPU為GeForce RTX 3060,內(nèi)存為DDR4 8GB,深度學習框架為pytorch1.4.實驗在公共數(shù)據(jù)集SIGHAN2014[22]與SIGHAN2015[23]上進行.使用SIGHAN2014與SIGHAN2015的測試集作為實驗的測試語料.SIGHAN2014測試集中有1 062個段落,SIGHAN2015測試集中有1 100個段落.

        本實驗為了對中文文本校對模型的校對效果進行評價,采取召回率(Recall)、準確率(Precision)和F1值作為平估指標對實驗結果進行評估.各指標定義如下所示:

        (1)

        (2)

        (3)

        其中,TP(true positive) 在本實驗中指被模型標記為錯誤或被糾正正確的數(shù)量;FN(false negative)指實際存在的錯誤被模型標記為沒有錯誤的數(shù)量;FP(false positive)指實際不是錯誤被模型標記為錯誤的數(shù)量.Precision表示正確標記的錯誤量與檢測出的錯誤總數(shù)之比;Recall表示正確標記的錯誤數(shù)量與實際錯誤總數(shù)之比;F1值用來綜合考慮準確度和召回率,作為評價該模型好壞的指標.

        3.2 實驗設計與結果分析為驗證本文中提出的基于RoBERTa-wwm-ext與混淆集的中文文本校對模型有效性,在數(shù)據(jù)集SIGHAN2014與SIGHAN2015上,基于N-gram、Bert-wwm、Ernie、RoBERTa-wwm-ext+Confusion Set等4個文本校對模型進行實驗.實驗結果如表3所示.

        表3 文本校對實驗結果

        實驗結果表明,在SIGHAN2014數(shù)據(jù)集中,基于N-gram的中文文本校對模型的準確度與召回率極為不平衡,可能是因為受限于N-gram模型自身的語言建模能力,導致對文本的泛化能力較弱.基于Bert-wwm與Ernie的中文文本校對模型的準確度與召回率相近,均在0.6以上,而基于RoBERTa-wwm-ext與混淆集的文本校對模型的召回率與準確度都達到了0.65以上,相較其余3個文本校對模型表現(xiàn)較好.同一個中文文本校對模型在不同的數(shù)據(jù)集下,有不同的表現(xiàn),在SIGHAN2015數(shù)據(jù)集中,基于Bert-wwm與Ernie的中文文本校對模型的F1值相接近,而基于RoBERTa-wwm-ext與混淆集的中文文本校對模型對比其他三者表現(xiàn)更好,F1值在SIGHAN2014與SIGHAN2015數(shù)據(jù)集上均達到了0.69以上.

        由于目前公開的中文文本字詞錯誤檢測的語料較少,本實驗主要依賴于SIGHAN2014、SIGHAN2015中文拼寫檢查任務中的訓練集,訓練語料規(guī)模不大.但是,中文文本校對模型對訓練語料的規(guī)模要求較高,從而限制了基于RoBERTa-wwm-ext與混淆集的中文文本校對模型在測試語料中準確率、召回率的進一步提升.

        4 結束語

        本研究針對中文文本字詞校對的特點,提出一種基于RoBERTa-wwm-ext與混淆集的中文文本校對模型,該模型通過RoBERTa-wwm-ext模型深入學習文本的局部特征,然后基于transformer層獲取文本上下文信息,最后基于混淆集提供的候選字符信息給出修改建議完成文本校對.在SIGHAN2014、SIGHAN2015中文拼寫檢查任務數(shù)據(jù)集上設計中文文本校對實驗,對比模型性能.實驗結果表明本文提出的中文文本校對模型的文本校對效果相較其他傳統(tǒng)文本校對模型,在準確率、召回率和F1值上有較大的提升,能有效解決字粒度級別的中文文本校對問題.下一步工作將結合以詞為單位的掩碼語言模型來做詞粒度的文本校對,并在其他領域的大型語料中進行繼續(xù)預訓練來提高文本校對效果.

        猜你喜歡
        掩碼字符詞語
        容易混淆的詞語
        尋找更強的字符映射管理器
        找詞語
        字符代表幾
        一種USB接口字符液晶控制器設計
        電子制作(2019年19期)2019-11-23 08:41:50
        低面積復雜度AES低熵掩碼方案的研究
        通信學報(2019年5期)2019-06-11 03:05:56
        消失的殖民村莊和神秘字符
        基于布爾異或掩碼轉(zhuǎn)算術加法掩碼的安全設計*
        通信技術(2018年3期)2018-03-21 00:56:37
        詞語欣賞
        基于掩碼的區(qū)域增長相位解纏方法
        亚洲一区综合精品狠狠爱| 国产成人精品麻豆| 一区二区三区国产精品| 国产精品一区二区三区在线观看| 99re6在线视频精品免费| 开心五月激情综合婷婷色| 91精品国产丝袜在线拍| 精品日本一区二区视频| 美女偷拍一区二区三区| 国产亚洲av成人噜噜噜他| 亚洲av片在线观看| 久久精品国产亚洲av瑜伽| 日本精品人妻在线观看| 亚洲男人综合久久综合天堂| 国产伦人人人人人人性| 在线中文字幕有码中文| 宅男久久精品国产亚洲av麻豆| 极品一区二区在线视频| 无码人妻精品一区二区| 欧美在线观看一区二区| 中文字幕精品乱码一区| 精品高朝久久久久9999| 久久精品女人天堂av| 99精品电影一区二区免费看| 中文字幕色视频在线播放| 日本黑人亚洲一区二区| 亚洲国产成人片在线观看无码| 啪啪无码人妻丰满熟妇| 女同欲望一区二区三区| 中文字幕av中文字无码亚| 国产精品亚洲综合色区韩国| 国产精品久久久久亚洲| 风流熟女一区二区三区| 亚洲av综合a色av中文| 国产真实露脸4p视频| 蜜桃激情视频一区二区| 女人18毛片a级毛片| 丰满爆乳无码一区二区三区| 国内自拍第一区二区三区| 亚洲精品中文字幕一二三区| 丰满岳妇乱一区二区三区|