亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT-Encoder和數(shù)據(jù)增強的語法糾錯模型

        2023-09-07 07:17:08黃國棟徐久珺馬傳香
        湖北大學學報(自然科學版) 2023年5期
        關鍵詞:同音字詞頻語料

        黃國棟,徐久珺,馬傳香,2

        (1.湖北大學計算機與信息工程學院, 湖北 武漢 430062; 2.湖北省高校人文社科重點研究基地(績效評價信息管理研究中心),湖北 武漢 430062)

        0 引言

        語法糾錯要求對于一個可能含有語法錯誤的句子,自動檢測并糾正句子中出現(xiàn)的錯誤.下面是一個語法糾錯的示例:

        輸入:零晨1點才到.

        輸出:凌晨1點才到.

        將含有錯誤的句子看作源句子,將改正的句子作為目標句子,語法糾錯任務可以被看作機器翻譯任務.機器翻譯通常采用Encoder-Decoder結構,機器翻譯發(fā)展早期廣泛采用RNN作為Encoder-Decoder的網(wǎng)絡結構,RNN使用序列信息,能夠把握字詞間的長距離依賴關系,但是不能并行化處理.CNN可以捕捉局部上下文信息,并且可以并行計算,但長距離特征捕獲能力較弱.并且兩者都認為句子中每個字詞具有同等重要性,無法進行有選擇性的關注.基于self-attention機制的Transformer模型[1]可以使得源序列和目標序列中的每一個詞和序列中其他詞計算相似度并提取必要的關聯(lián)特征,而且可以并行計算,在機器翻譯任務中取得了最佳性能.所以本研究選擇Transformer模型作為語法糾錯模型.

        但基于機器翻譯的中文語法糾錯模型所需的平行語料過少,導致模型無法充分訓練,首先引用Zhao和Wang提出的動態(tài)掩蔽方法[2],不需要增加訓練集就可以獲得更多的平行語料.其次,隨著基于Transformer雙向編碼器表征(BERT)[3]的發(fā)展,許多自然語言處理任務的性能都得以改善,Kaneko等[4]證明了BERT有利于提高英語語法糾錯任務的性能,按照Wang和Kurosawa等的方法[5],利用BERT來初始化Transformer的encoder使得模型的性能獲得進一步提升.

        1 相關工作

        常見的文本糾錯方法有:基于規(guī)則的糾錯方法、基于統(tǒng)計的糾錯方法和基于神經(jīng)網(wǎng)絡的糾錯方法.早期,針對文本糾錯問題,通常采用基于規(guī)則的方法[6-7],這種方法只能修改特定的錯誤類型,這對于語法多變的中文語法糾錯取得的效果尤其不好.基于統(tǒng)計的糾錯方法通常含有N-gram[8]和統(tǒng)計機器翻譯方法.N-gram通常結合混淆集使用,可以很好地解決拼寫錯誤.Brockett等[9]首次提出將語法糾錯任務看作統(tǒng)計機器翻譯任務.Junczys-Dowmunt等[10]開發(fā)的結合了大規(guī)模平行語料Lang-8的統(tǒng)計機器翻譯架構Moses[11].Felice等[12]將基于規(guī)則、統(tǒng)計機器翻譯和語言模型結合的方法可以糾正多種類型的錯誤.

        如今,深度學習技術已經(jīng)被廣泛應用到語法糾錯任務中.有道團隊[13]采用組合模型,將語法糾錯分為三步:首先,使用SIGHAN 2013 CSC Datasets中提供字音、字形相似表召回候選,基于N-gram模型解決表面錯誤(如拼寫錯誤);其次,將語法糾錯視為機器翻譯任務,用Seq2Seq模型解決語法錯誤,最后將上述模型組合得到最優(yōu)糾錯候選并通過N-gram選擇困惑度最低的作為糾錯結果.阿里團隊[14]融合了基于規(guī)則的模型、基于統(tǒng)計的模型(使用了LM+噪聲信道模型+beam search挑選候選解)以及基于神經(jīng)機器翻譯模型(encoder-decoder各兩層LSTM),若模型輸出結果不同,則針對沖突應用5種解決方案,選出最優(yōu)的結果最為糾錯結果.北京語言大學團隊[15]將分詞后的輸入都利用Subword算法[16]拆分子詞單元,并考慮到語法糾錯大多數(shù)與臨近詞有關,而CNN能夠更好的捕捉臨近詞的關系,使用了基于CNN的Seq2Seq單一模型.王辰成等[17]提出一種動態(tài)殘差結構,動態(tài)結合不同神經(jīng)模塊的輸出來增強模型捕獲語義信息的能力,并結合單語料腐化的方法獲得更多平行語料.孫邱杰等[18]利用BART噪聲器[19]來破壞源句子來提高模型的泛化能力.Zheng等[20]將語法糾錯視作序列標注問題,利用長短時記憶網(wǎng)絡結合條件隨機場進行語法錯誤診斷.

        使用基于深度學習技術的方法受限平行語料庫的大小,目前廣泛使用的數(shù)據(jù)量最大的Lang-8數(shù)據(jù)集也僅包含120萬條數(shù)據(jù),無法滿足參數(shù)比較多的中文語法糾錯模型,有效的數(shù)據(jù)增強方法可能大幅度提高模型的性能.另外,經(jīng)過大規(guī)模語料預訓練過的BERT模型,提取其參數(shù)來初始化模型可能比隨機初始化獲得的效果更好.

        2 本研究方法介紹

        2.1 用BERT的參數(shù)初始化Transformer的EncoderTransformer模型是一種基于多頭注意力機制的序列生成模型.模型將輸入序列用詞嵌入編碼并與位置編碼相加作為輸入,編碼器將輸入編碼為含有整個輸入語義信息的高維隱含語義向量,解碼器從中解碼隱含語義向量,并通過softmax函數(shù)得到輸出.其中,編碼器由多個相同層組成,每層包含兩個子層:Multi-head Attention和Feed Forward,解碼器也是多個相同層組成,每層包含三個子層: Multi-head Attention、Feed Forward以及Masked Multi-head Attention.

        (1)

        其中,p是在[0,1]區(qū)間均勻分布產(chǎn)生的隨機數(shù),f是替換函數(shù).

        圖1 訓練中生成噪聲句對

        不同的替換函數(shù)對模型性能的影響不同,按照Zhao等[2]的做法,介紹5種不同的替換策略:

        1)填充替換:源句中每個字符都有一定的概率δ被替換成填充符號“pad”,通過減少錯誤的重復,從而減少模型對特定字符的依賴,提高模型的性能.

        2)隨機替換:源句中每個字符都有一定的概率δ被隨機替換成詞匯表V中的字符.被選中的字符以1/|V|的概率從詞匯表中均勻采樣,其中|V|是V的大小.采用隨機替換方法讓產(chǎn)生的源句更接近真實源句.

        3)詞頻替換:通常,語法錯誤傾向于將高頻詞誤認為低頻詞.因此,頻率較高的詞應該更頻繁地出現(xiàn)在源句中作為替換.具體做法是統(tǒng)計目標句中每個字符出現(xiàn)的頻次,將字符作為鍵,頻次作為值,保存在字典中,構建詞頻字典,并根據(jù)詞頻進行替換.例如:“凌”出現(xiàn)3次,“晨”出現(xiàn)2次,則詞頻字典為:{‘凌’:3,‘晨’:2},則被選中字符被替換成“凌”的概率是0.6,被替換成“晨”的概率是0.4.

        4)同音替換:漢字中存在大量同音字,它們同音但不同形、不同義.使用pypinyin2獲取字符對應的拼音,然后根據(jù)拼音對目標句中的字符分類.將拼音作為鍵,同音字作為值,構建同音字典,再統(tǒng)計同音字中每個字出現(xiàn)的次數(shù)構建同(c)中的詞頻字典,把詞頻字典作為值更新同音字典,得到每種拼音類型單詞的頻次.訓練時,按一定概率δ選擇要替換的單詞,并獲取這個單詞的拼音,根據(jù)拼音的頻次進行同音替換.例如:拼音為“l(fā)ing”的“凌”出現(xiàn)了3次,“零”出現(xiàn)了2次,構建的同音字典為{‘ling’:{‘凌’:3,‘零’:2}},則被選中的拼音為“l(fā)ing”的字被替換成“凌”的概率為0.6,被替換成“零”的概率為0.4.

        5)混合替換:每一輪訓練過程中,按同樣的概率選擇以上4種方案或者空方案,得到更加多樣的噪聲對.本研究選擇此方案作為數(shù)據(jù)增強方法.

        完整的語法糾錯模型流程如圖2所示.

        圖2 中文語法糾錯流程圖

        3 實驗

        為驗證本研究提出的方法的有效性,在NLPCC2018共享任務2提供的Lang-8數(shù)據(jù)集上進行實驗.實驗環(huán)境如表1所示.

        表1 實驗環(huán)境

        3.1 數(shù)據(jù)集及預處理Lang-8數(shù)據(jù)集中的平行語料是從lang-8.com網(wǎng)站收集的[21].lang-8.com是一個語言學習平臺,平臺中的文章由以漢語作為第二語言的學生撰寫并由中文母語人士校對.數(shù)據(jù)集中一個不正確的句子可能包含多個更正版本,本研究將源語句和每個更正的語句一一結合來構建平行語料,得到了120萬個句子對作為訓練集.由于官方?jīng)]有提供驗證集,按照前人的工作[22],從訓練集中隨機獲取5 000條句子對作為驗證集.測試集是從北大漢語學習者語料庫中提取的2 000個句子,該語料庫是由外國大學生撰寫的論文組成.另外,需要使用NLPCC2018提供的PKUNLP工具包對模型的輸出作分詞處理以供評估使用.所有數(shù)據(jù)統(tǒng)計如表2所示.

        表2 數(shù)據(jù)集統(tǒng)計

        3.2 參數(shù)設置Transformer模型超參數(shù)設置如下:編碼器和解碼器都由6個相同層組成,多頭自注意力層有8個注意力頭,前饋網(wǎng)絡維度為2 048,源端和目標端的詞向量維度都是512.在編碼器和解碼器上應用dropout操作,概率為0.1.模型采用Adam優(yōu)化器,初始學習率為2,β設置為(0.9,0.98).使用Noam的學習率衰減方案,warmup_steps設置為4 000,添加ε為10-9的標簽平滑.Batch_Size設置為128.選擇驗證集困惑度最低的模型作為最佳模型.數(shù)據(jù)增強策略中δ設置為0.3.

        3.3 評價指標本研究使用MaxMatch scorer[23]作為評估模型.模型計算源句和模型更正后的句子之間所有可能的短語級編輯序列,并找到與標準編輯序列重疊程度最高的編輯序列,利用這個編輯序列{e1,…,en}和標準編輯序列{g1,…,gn} 計算準確率P、召回率R和F0.5值.公式計算如下:

        (2)

        (3)

        (4)

        其中ei和gi的交集定義為:ei∩gi={e∈ei|?g∈gi,match(g,e)}.

        中文語法糾錯任務選擇F0.5作為評價指標是因為該任務更加看重編輯的準確性而不是更多的編輯數(shù)量,所以把準確率權重設定為召回率的兩倍[17].

        3.4 實驗結果及分析表3展示了在Lang-8數(shù)據(jù)集上做的四組實驗結果以及在NLPCC2018共享任務2中表現(xiàn)最好的三個團隊的結果.第一組實驗僅用Transformer模型,F0.5得分為21.18,這與NLPCC2018中表現(xiàn)優(yōu)異的系統(tǒng)存在很大差距.第二組實驗利用BERT初始化Transformer的Encoder部分,可以看到,F0.5相比于第一組實驗提升了1.08.第三組實驗使用動態(tài)掩蔽的數(shù)據(jù)增強方法,F0.5獲得了很大的提升,達到了30.08,超過了NLPCC2018共享任務2中獲得第一的有道系統(tǒng).將兩者結合以后,F0.5達到最高的31.12,超過了BLCU的集成模型.這些實驗結果表明了本研究方法在語法糾錯任務上的有效性.

        表3 Lang-8數(shù)據(jù)集實驗結果

        另外,表4展示了利用本研究不同的替換函數(shù)對語法糾錯模型性能的影響.從表4中的準確率、召回率和F0.5可以看出每一種替換方法對模型的性能都有提升.通過在每一輪訓練中引入替換函數(shù),減少了特定的字詞及語法錯誤的依賴,有利于避免同樣的訓練語料重復可能帶來的過擬合問題.其中,混合替換的準確率和F0.5最高,分別為36.87和31.12;詞頻替換的召回率最高,為19.80,但準確率最低,為27.17,說明采用高頻詞作為替換有利于模型找出錯誤,卻會降低模型的準確率;中文文本中,同音字(近音字)出錯占字詞錯誤情況的77%[24],同音替換更符合真實的字詞錯誤.模型的表現(xiàn)相比其他替換方式卻不佳,可能是由于同音字的數(shù)量有限,導致產(chǎn)生不同的訓練語料較少;結合表3和表4可以發(fā)現(xiàn),本研究方法的召回率高于其他模型,準確率卻比ALiGM、BLCU和BLCU(ensemble)要差,可能是因為動態(tài)替換過程產(chǎn)生過多的選詞錯誤從而使模型將非選詞錯誤改錯而導致的.

        表4 不同替換方法對模型性能的影響

        4 結束語

        本研究將中文語法糾錯任務視作機器翻譯任務,構建了以Transformer為基線模型的中文語法糾錯模型,利用預訓練模型學習到的參數(shù)來初始化Encoder部分的參數(shù),并結合動態(tài)掩蔽的數(shù)據(jù)增強方法,解決訓練所需的平行語料不足的問題,大幅提升了基線語法糾錯模型的性能.利用BERT初始化雖然能提高模型的性能,但是破壞了BERT的預訓練表征,沒有充分發(fā)揮BERT的性能.如何在中文語法糾錯領域更好地利用BERT是我們下一步需要探索的.

        猜你喜歡
        同音字詞頻語料
        同音字與多音字練習
        面向語音合成的藏語同音字研究*
        西藏科技(2022年3期)2022-04-22 09:17:20
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        同音字 我會分
        基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實語料在翻譯教學中的應用
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        《苗防備覽》中的湘西語料
        國內外語用學實證研究比較:語料類型與收集方法
        激情久久黄色免费网站| 久久青草伊人精品| 在线毛片一区二区不卡视频| 久久综合老鸭窝色综合久久| 日本一区二区视频免费在线看| 免费网站看v片在线18禁无码| 国产成+人+综合+亚洲 欧美| 狠狠亚洲婷婷综合久久久| 日本不卡视频一区二区三区| 欧美成人精品a∨在线观看| 国产无套护士在线观看| 日日噜噜夜夜狠狠2021| 综合激情五月三开心五月| 夜夜爽日日澡人人添| 一本大道东京热无码| 国产亚洲精品国看不卡| 99久久婷婷国产精品网| 97日日碰曰曰摸日日澡| 日韩欧美亚洲综合久久影院d3| 日本啪啪一区二区三区| 亚洲一区精品在线中文字幕| 无码人妻久久一区二区三区app| 国产精品三级在线观看| 久久精品国产亚洲av成人无人区| 日出白浆视频在线播放| 手机看片福利一区二区三区| 国产人成亚洲第一网站在线播放 | 亚洲av永久久无久之码精| 人妻少妇精品视频一区二区三 | 日本女同av在线播放| 色综合久久中文娱乐网| 亚洲中文久久精品无码ww16| 男人的天堂av一二三区| 国产麻豆精品传媒av在线| 护士人妻hd中文字幕| 无码国产精品一区二区免费网曝| 久久精品久久精品中文字幕| 欧美成人午夜免费影院手机在线看| 精品国产一区二区三区久久狼| 精品高清国产乱子伦| 黄片小视频免费观看完整版|