亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer局部信息及語法增強(qiáng)架構(gòu)的中文拼寫糾錯(cuò)方法

        2021-02-02 02:50:58段建勇袁陽王昊
        關(guān)鍵詞:語法結(jié)構(gòu)字符語句

        段建勇 袁陽 王昊

        基于Transformer局部信息及語法增強(qiáng)架構(gòu)的中文拼寫糾錯(cuò)方法

        段建勇 袁陽 王昊?

        北方工業(yè)大學(xué)信息學(xué)院, 北京 100043; ?通信作者, E-mail: wanghaomails@gmail.com

        針對中文拼寫糾錯(cuò), 提出兩種新的改進(jìn)方法。其一, 在 Transformer 注意力機(jī)制的基礎(chǔ)上, 添加高斯分布的偏置矩陣, 用于提高模型對局部文本的關(guān)注程度, 加強(qiáng)對錯(cuò)誤文本中錯(cuò)誤字詞和周邊文字的信息提取。其二, 使用 ON_LSTM 模型, 對錯(cuò)誤文本表現(xiàn)出的特殊語法結(jié)構(gòu)特征進(jìn)行語法信息提取。實(shí)驗(yàn)結(jié)果表明, 所提出的兩種方法均能有效提高準(zhǔn)確率和召回率, 并且, 將兩種方法融合后的模型取得最高 F1 值。

        拼寫糾錯(cuò); Transformer模型; 局部信息; 語法增強(qiáng)

        在文字編寫、內(nèi)容審核以及文本識別等多個(gè)場景中, 經(jīng)常出現(xiàn)兩種文本錯(cuò)誤。比如, 由 OCR 的錯(cuò)誤識別或“五筆”輸入法的錯(cuò)誤輸入導(dǎo)致的同形字錯(cuò)誤; 或者, 在拼音輸入法下, 由錯(cuò)誤拼寫導(dǎo)致的同音字錯(cuò)誤。拼寫糾錯(cuò)任務(wù)用于檢測并糾正文本中出現(xiàn)的錯(cuò)誤, 可以在很大程度上解決上述兩類文本錯(cuò)誤問題。然而, 目前關(guān)于中文糾錯(cuò)的研究較少, 缺少有效的通用方法。

        拼寫糾錯(cuò)是自然語言處理(natural language processing, NLP)領(lǐng)域的一個(gè)重要任務(wù)。在 20 世紀(jì)60 年代, 已經(jīng)有學(xué)者對英文糾錯(cuò)展開研究, 其中比較著名的是 1960 年 IBM 在 IBM/360 和 IBM/370 上, 用 UNIX 實(shí)現(xiàn)的一個(gè) TYPO 英文拼寫檢查器[1]。此后, 文本糾錯(cuò)任務(wù)研究取得長足的進(jìn)展, 涌現(xiàn)很多優(yōu)秀的算法模型。

        糾錯(cuò)任務(wù)需要有監(jiān)督的語料進(jìn)行模型訓(xùn)練, 這種局限性往往導(dǎo)致在訓(xùn)練過程中沒有充足的文本糾錯(cuò)語料可用。N-gram 模型很好地解決了這一弊端, 可利用大量無監(jiān)督的語料來訓(xùn)練統(tǒng)計(jì)語言模型[2]。N-gram 是最簡單、最常用的模型, 但該模型在使用困惑集對文本內(nèi)部的字符進(jìn)行替換時(shí), 沒有考慮上下文的語義信息, 經(jīng)常造成雖然臨近詞正確, 但放在整個(gè)句子中卻不符合邏輯的情況, 導(dǎo)致結(jié)果得分不高。

        隨著機(jī)器學(xué)習(xí)的逐漸興起, 越來越多的學(xué)者把深度學(xué)習(xí)的方法運(yùn)用到糾錯(cuò)任務(wù)中。一般將糾錯(cuò)任務(wù)當(dāng)作文本生成任務(wù), 此場景下應(yīng)用最廣泛的結(jié)構(gòu)就是序列到序列結(jié)構(gòu)(Seq2Seq)。比較常用的是基于 LSTM 的 Seq2Seq 模型[3]和 Transformer 模型[4], 這兩種模型巧妙地將錯(cuò)誤句子作為輸入語句, 將正確的語句作為輸出語句進(jìn)行訓(xùn)練, 得到錯(cuò)誤文本與正確文本之間的對應(yīng)關(guān)系, 從而實(shí)現(xiàn)文本糾錯(cuò)。深度學(xué)習(xí)的優(yōu)點(diǎn)在于, 模型可以學(xué)習(xí)到文本的深層信息, 加強(qiáng)對文本語義的理解, 也加深對文本結(jié)構(gòu)的學(xué)習(xí), 對獲取推薦修改選項(xiàng)有更好的幫助。

        可以將拼寫糾錯(cuò)任務(wù)視為由錯(cuò)誤句子產(chǎn)生正確句子的生成任務(wù)。在目前常用的生成模型中, RNN模型[3]在多數(shù)的生成任務(wù)中表現(xiàn)出色, 在文本生成和機(jī)器翻譯等領(lǐng)域獲得廣泛的應(yīng)用。但是, 經(jīng)典的RNN 模型在處理長距離文本時(shí), 容易出現(xiàn)梯度消失和梯度爆炸的問題, 所以本文采用 Transformer 模型[4], 對中文文本中的同音和同形字錯(cuò)誤進(jìn)行糾錯(cuò)處理。

        在文本糾錯(cuò)過程中, 應(yīng)注意以下兩個(gè)方面。1)與英文不同, 中文文本字符之間沒有空格, 且部分字符需要與另外的字符結(jié)合才具有一定的意義, 所以在處理中文文本時(shí), 一般需要先對中文進(jìn)行分詞, 將文本拆分成字或詞, 從而形成一個(gè)獨(dú)立的單位。2)中文中沒有“字錯(cuò)誤”這種說法, 也就是說, 錯(cuò)誤只會在詞或句子級別產(chǎn)生。因此, 錯(cuò)誤字符以及錯(cuò)誤字符周邊的信息是需要重點(diǎn)關(guān)注的內(nèi)容, Yang等[5]提出一種關(guān)注局部信息的方法, 將局部性建模設(shè)計(jì)為一種可學(xué)習(xí)的高斯偏差。本文采用上述方法, 在局部范圍內(nèi)加強(qiáng)對錯(cuò)誤文本特征的提取以及對錯(cuò)誤規(guī)律的發(fā)現(xiàn)能力。

        拼寫糾錯(cuò)模型以生成模型為最常見[3–4,6], 訓(xùn)練數(shù)據(jù)為原語句與目標(biāo)語句構(gòu)成的語對, 原語句編碼后, 解碼生成目標(biāo)語句。在糾錯(cuò)任務(wù)中, 原語句與目標(biāo)語句之間可能只有一個(gè)或幾個(gè)字符有所不同, 在整個(gè)語句中的字符數(shù)量占比很小, 模型訓(xùn)練往往達(dá)不到很好的效果。Wang 等[7]通過構(gòu)造大量的訓(xùn)練數(shù)據(jù), 使該問題得到緩解。另外, 由于錯(cuò)誤字符占比小, 使得原語句與目標(biāo)語句之間的文本編輯距離很小, 但仍有可能導(dǎo)致原語句與目標(biāo)語句相比, 在語法結(jié)構(gòu)上發(fā)生較大的變化。針對此問題, 本文在原始模型的基礎(chǔ)上, 采用 Shen 等[8]提出的 ON_ LSTM 方法, 對 LSTM 結(jié)構(gòu)進(jìn)行修改, 使其能夠考慮到語句的語法結(jié)構(gòu)對糾錯(cuò)效果的影響, 同時(shí)將ON_LSTM 模型作為 Transformer 模型的輸入層, 幫助模型學(xué)習(xí)語句的語法結(jié)構(gòu)。

        1 模型結(jié)構(gòu)

        1.1 高斯分布約束的自注意力機(jī)制

        Transformer的核心是使用自注意力機(jī)制, 該機(jī)制因高效的并行性及長距離信息依賴性, 在機(jī)器翻譯、文本生成和對話系統(tǒng)等領(lǐng)域有重要的作用, 獲得廣泛的關(guān)注。該模型擺脫了傳統(tǒng)RNN 模型長距離信息利用不充分、梯度消失和梯度爆炸的問題, 已應(yīng)用于各種 NLP 任務(wù)中。

        給定句子={1,2, …,I}, 經(jīng)過詞向量層及位置編碼層后, 由 3 個(gè)權(quán)重矩陣分別生成 query∈ R(I×d), key∈R(I×d)和 value∈R(I×d)。每一層的注意力結(jié)果可以通過下式計(jì)算:

        Content=ATT(,), (1)

        其中, ATT(.)是點(diǎn)乘計(jì)算公式:

        ATT(,)=softmax (scores), (2)

        實(shí)際上, 糾錯(cuò)任務(wù)的特殊性在于錯(cuò)誤文本與正確文本之間的差別很小, 而模型關(guān)注的范圍過于寬泛, 所以模型的重點(diǎn)關(guān)注范圍是錯(cuò)誤文本周邊一定范圍內(nèi)的字符, 提取錯(cuò)誤字符特征, 加強(qiáng)模型對糾錯(cuò)任務(wù)的適應(yīng)能力。

        本文采用Yang等[5]局部模型的思想, 在自注意力得分的基礎(chǔ)上, 添加一個(gè)類似高斯分布的二次函數(shù)偏置項(xiàng), 用于減少對非錯(cuò)誤部分的關(guān)注。如圖1所示, 在原始分布的基礎(chǔ)上添加以錯(cuò)誤字符“柏”為中心的高斯分布, 使模型能夠加強(qiáng)對該字符以及周邊字符的注意力, 并且該高斯分布的參數(shù)是可訓(xùn)練的。共有兩種分布模式: 高斯分布和強(qiáng)化的高斯分布。這兩種分布模式都重點(diǎn)關(guān)注錯(cuò)誤部分的信息, 區(qū)別在于強(qiáng)化的高斯分布減少了對錯(cuò)誤點(diǎn)的預(yù)測, 增加對周邊信息的關(guān)注, 以便提高模型的召回率。

        1.2 局部關(guān)注模型(local focus, LF)

        計(jì)算注意力得分后, 將偏置加入得分中, 用于掩蓋自注意力的部分得分:

        圖1 兩種不同的高斯分布

        ATT(,)=softmax (scores+), (4)

        其中, scores 由式(3)計(jì)算得到,是添加的偏置項(xiàng), 計(jì)算方法如下:

        參數(shù)將標(biāo)量pz投影到 0 到句子長度之間,P依賴pz分別進(jìn)行計(jì)算。值得注意的是, Anastaso-poulos 等[9]提出 Transformer 在不同的文本層中編碼信息是有所區(qū)別的, 在較低的層, 模型對主要文本的語法結(jié)構(gòu)編碼, 而在高層, 模型對語義信息編碼。為了加強(qiáng)模型對文本底層的結(jié)構(gòu)信息編碼, 僅在編碼端和解碼端的第一層使用該方法, 在其他層中, 編碼方式與常規(guī)的自注意力保持一致??紤]到如果在所有的編碼層中全部進(jìn)行計(jì)算, 運(yùn)行時(shí)間會變長, 故模型只在編碼端和解碼端的最底層添加偏置, 以期在效率上達(dá)到平衡。

        1.2.1 中心位置預(yù)測

        通過一層前線傳播神經(jīng)網(wǎng)絡(luò), 將 query 矩陣轉(zhuǎn)化為位置隱藏狀態(tài)矩陣, 然后通過線性投影p∈R, 將隱藏狀態(tài)矩陣映射到標(biāo)量p:

        p=pTtanh (p), (7)

        其中,p∈R×是可訓(xùn)練的模型參數(shù)。

        1.2.2 查詢窗口

        查詢窗口z的計(jì)算方法如下:

        z=dTtanh (p), (8)

        其中,d∈d是可訓(xùn)練的線性投影參數(shù)矩陣, 式(7)和(8)共享同一參數(shù)p, 這樣可以簡化運(yùn)算, 同時(shí)用不同的d和p來計(jì)算窗口范圍及中心點(diǎn)位置。

        1.3 強(qiáng)化局部關(guān)注模型(advanced local focus, ALF)

        在計(jì)算注意力得分時(shí), 通常需要對周邊信息更多的關(guān)注, 并減少對本身信息的關(guān)注。所以, 本文對 LF 模型進(jìn)行改進(jìn), 在式(5)的基礎(chǔ)上添加偏置以及取絕對值的操作, 并設(shè)置為 0.1,為 0.1。計(jì)算方法如下:

        與原始模型相比, 該模型減少了對本身及遠(yuǎn)距離內(nèi)容的關(guān)注, 并加強(qiáng)周邊范圍內(nèi)容的計(jì)算, 讓模型學(xué)習(xí)更多錯(cuò)誤的規(guī)律, 提升糾錯(cuò)效果。

        1.4 語法強(qiáng)化

        錯(cuò)誤文字會在很大程度上導(dǎo)致語法結(jié)構(gòu)被破壞。如圖 2 所示, 在例句“孩子喜歡拍皮球”中, 如果輸入時(shí)將“拍”錯(cuò)誤輸入成“柏”, 可以明顯地看出錯(cuò)誤句子的語法結(jié)構(gòu)發(fā)生較大的變化。為了提取被破壞的語法結(jié)構(gòu)信息, 本文采用 Chollampatt 等[6]中層級結(jié)構(gòu)的 LSTM, 并稱之為 ON_LSTM。

        1.5 模型結(jié)構(gòu)

        模型的總體結(jié)構(gòu)如圖 3 所示, 在 Transformer 結(jié)構(gòu)外添加 ON_LSTM 層, 將其輸出結(jié)果與輸入信息相加后送入 Transformer 模型。在左側(cè), 我們額外添加一層編碼層。在內(nèi)部的自注意力部分, 添加高斯偏置, 增加對錯(cuò)誤部分信息的獲取。最后, 將添加的編碼層及右側(cè)常規(guī)的 6 個(gè) Transformer 編碼層的輸出信息進(jìn)行融合, 送入解碼端進(jìn)行解碼。不同于傳統(tǒng)的 LSTM 結(jié)構(gòu), ON_LSTM 結(jié)構(gòu)在編碼過程中通過控制高層信息和低層信息的更新頻率來學(xué)習(xí)句子的語法結(jié)構(gòu)。本文將 ON_LSTM 產(chǎn)生的結(jié)構(gòu)信息與原文的文本信息相加, 最后將得到的信息送入 Tr-ansformer 的編碼層, 進(jìn)行聯(lián)合編碼。這種結(jié)構(gòu)類似Transformer 中編碼部分的殘差模塊, 意在加強(qiáng)數(shù)據(jù)的流通性, 減少在深層模型中梯度消失的問題。

        圖2 因錯(cuò)誤字引發(fā)的語法結(jié)構(gòu)變化實(shí)例

        圖3 模型的總體結(jié)構(gòu)

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)

        訓(xùn)練數(shù)據(jù)分為兩部分: 一部分是 Wang 等[7]提供的約 27 萬條糾錯(cuò)數(shù)據(jù)集, 其中包括同音字和同形字錯(cuò)誤; 另一部分來自文獻(xiàn)[10]。測試集同樣來自公開評測任務(wù)中提供的評測數(shù)據(jù)集, 具體信息如表 1 所示。由于數(shù)據(jù)全部是繁體中文, 為了適應(yīng)簡體中文任務(wù), 我們使用開源工具 OpenCC(https://git hub.com/BYVoid/OpenCC)將繁體中文轉(zhuǎn)化為簡體中文。

        表1 實(shí)驗(yàn)數(shù)據(jù)

        2.2 評價(jià)標(biāo)準(zhǔn)及模型參數(shù)

        本文采用準(zhǔn)確率、召回率和 F1 值作為模型的評價(jià)指標(biāo), 這些指標(biāo)通常用于 CSC(Chinese spell correction)任務(wù)中的評價(jià)。表 2 列出模型的主要參數(shù)以及對應(yīng)的數(shù)值。

        2.3 基線模型

        在糾錯(cuò)任務(wù)中, Vaswani 等[4]提出的 Transfor-mer 效果超越傳統(tǒng)的統(tǒng)計(jì)模型和 RNN 模型(如混淆集約束下的指針生成網(wǎng)絡(luò)模型(Confusionset)[11]和基于 N-gram 的糾錯(cuò)模型(LMC)[12]), 結(jié)果如表 3 所示。在應(yīng)用于糾錯(cuò)任務(wù)的 Transformer 模型中, 本文將 Wang 等[13]的方法作為基線模型。該模型采用transformer 結(jié)構(gòu), 并采用語法增強(qiáng)架構(gòu)來提升模型效果, 我們稱之為 DR 模型。DR 模型在 Transfor-mer 的基礎(chǔ)上添加動態(tài)殘差結(jié)構(gòu), 不僅幫助模型獲取更加豐富的語義信息, 還可以有效地減少深層模型因模型過深導(dǎo)致的梯度消失問題。

        表2 模型參數(shù)

        表3 不同改進(jìn)對模型性能的影響(%)

        2.4 實(shí)驗(yàn)分析

        本文共進(jìn)行 3 組實(shí)驗(yàn): 第一組對比不同模型的效果, 第二組驗(yàn)證局部關(guān)注模型以及強(qiáng)化局部關(guān)注模型的有效性, 第三組證明 ON_LSTM 的語法結(jié)構(gòu)信息可以明顯地提升模型的準(zhǔn)確率和召回率等 指標(biāo)。

        對 Transformer 模型的改進(jìn)如表 3 所示, 共有 3個(gè)獨(dú)立模型以及一個(gè)融合模型, DR 模型為基線模型。LF 模型和 ALF 模型在 Transformer 的自注意力結(jié)構(gòu)中添加高斯偏置, 其 F1 值比基線模型分別提高 0.37%和 0.72%。ALF 模型的準(zhǔn)確率比基線模型有明顯的提高, 并且 F1 值比 LF 模型提高 0.35%。

        在 Transformer 模型中單獨(dú)添加 ON_LSTM 結(jié)構(gòu)使模型的 F1 值提升 0.91%, 證明了該結(jié)構(gòu)的有效性。為了將 Transformer 模型和 ON_LSTM 結(jié)構(gòu)的優(yōu)勢有效地融合在一起, 采用如圖 3 所示的模型結(jié)構(gòu)。值得注意的是, 融合實(shí)驗(yàn)的前兩組(LF+ON_ LSTM 和 ALF+ON_LSTM)僅在編碼的自注意力部分添加 LF/ALF 結(jié)構(gòu), 而后兩組(LF(DS)+ON_ LSTM和 ALF(DS)+ON_LSTM)在編碼和解碼部分都采用LF/ALF 結(jié)構(gòu)。從表 3 可以看出, 編碼與解碼同時(shí)采用 ALF 結(jié)構(gòu)可以使模型達(dá)到最優(yōu)的效果。

        如表 3 所示, 與 LF 模型相比, ALF 模型準(zhǔn)確率的提升幅度比較大, 召回率略微下降, 但 F1 值提升 0.35%。原因是 ALF 模型減少了對錯(cuò)誤字符本身的關(guān)注, 在錯(cuò)誤字符與正確字符之間對應(yīng)關(guān)系的計(jì)算方面被弱化, 但加強(qiáng)了對周邊范圍內(nèi)字符信息的關(guān)注, 會促使模型加強(qiáng)對錯(cuò)誤字符的檢測能力。模型訓(xùn)練結(jié)果如圖 4 所示, ALF 模型在準(zhǔn)確率提升幅度較大, 召回率與 LF 持平, F1 相對穩(wěn)定, 但高于LF 模型。為更好地對比 LF 模型與 ALF 模型的糾錯(cuò)效果, 此部分實(shí)驗(yàn)沒有添加如圖 3 所示的額外結(jié)構(gòu), 僅在 Transformer 編碼與解碼的第一層添加 LF 和ALF。

        Transformer 模型中共有三部分使用注意力模塊, 本文分別在 Transformer 編碼端的自注意力部分、解碼端的前向注意力和自注意力部分添加 LF結(jié)構(gòu), 并進(jìn)行多組實(shí)驗(yàn)。從表 4 可以看出, 在編碼和解碼部分的自注意力模塊添加 LF 結(jié)構(gòu)會使模型的 F1 值達(dá)到最高。

        圖4 ALF 和 LF 模型的準(zhǔn)確率、召回率和 F1 值

        為探究式(9)中參數(shù)對 ALF 模型的影響, 分別設(shè)置=1, 2, 4, 0.1, 結(jié)果見表 5。以ES_DS_LF 作為參考, ALF 其他參數(shù)與 LF 保持一致, 則當(dāng)=0.1 時(shí), 模型的準(zhǔn)確率最高, F1 值同樣達(dá)到最高。

        從表 3 可以看出, 添加 X+ON_LSTM 結(jié)構(gòu)模型的準(zhǔn)確率有明顯的提升, 驗(yàn)證了之前的猜想: 糾錯(cuò)任務(wù)中, 語法結(jié)構(gòu)是敏感的, 充分利用語法信息可以幫助模型提升準(zhǔn)確率和召回率等指標(biāo)。

        為了驗(yàn)證 LSTM 結(jié)構(gòu)和 ON_LSTM 結(jié)構(gòu)對整體模型的影響, 進(jìn)行第三組實(shí)驗(yàn), 結(jié)果如表 6 所示。若直接將兩種結(jié)構(gòu)的輸出結(jié)果傳入 Transformer 模型, 糾錯(cuò)的準(zhǔn)確率和召回率都有所下降, 但將兩種結(jié)構(gòu)的輸出結(jié)果與輸入信息相加后再傳入Transfor-mer 模型, 糾錯(cuò)效果有很大的提升, 準(zhǔn)確率的提升尤為明顯。這是因?yàn)? 無論是 LSTM 層還是 ON_ LSTM 層輸出的信息直接傳入 Transformer, 都會導(dǎo)致極大的信息丟失, X+LSTM(X)/ON_LSTM(X)結(jié)構(gòu)在輸入 Transformer 模型之前, 在輸入數(shù)據(jù)中獲取了文本的其他特征, 與原文的信息融合之后, 對模型起到助推作用。因此, 該結(jié)構(gòu)是對 Transformer 的一種信息補(bǔ)充, 無論是 LSTM 的時(shí)序關(guān)系結(jié)構(gòu), 還是 ON_LSTM 的語法結(jié)構(gòu), 都能有效地提高 Trans-former 模型的糾錯(cuò)效果, 而語法結(jié)構(gòu)信息對 Trans-former 模型的糾錯(cuò)效果幫助最大。

        表4 LF模型添加位置對于模型的影響(%)

        說明: ES, DS 和 DSR 分別代表編碼層自注意力、解碼層自注意力和解碼層中對編碼層的注意力。

        表5 參數(shù)a對模型的影響(%)

        表6 LSTM和ON_LSTM結(jié)構(gòu)的對比(%)

        在將不同模型進(jìn)行融合的過程中, 我們發(fā)現(xiàn), 如果將 ON_LSTM 的結(jié)果直接輸入帶有高斯偏置的編碼層中, 最終得到的結(jié)果性能會下降。因此, 語法結(jié)構(gòu)信息會對 LF/ALF 產(chǎn)生影響。為了解決這個(gè)問題, 本文將輸入的信息分為兩個(gè)部分, 一部分通過 ON_LSTM 層直接進(jìn)入 Transformer 的編碼層, 另外一部分輸入信息則送入帶有高斯偏置的編碼層中, 并將兩部分結(jié)構(gòu)的輸出結(jié)果相加后送入編碼層。實(shí)驗(yàn)證明, 這種方式可以優(yōu)化模型結(jié)構(gòu), 加速收斂, 提升模型糾錯(cuò)率。

        Transformer 對由字錯(cuò)誤或詞錯(cuò)誤導(dǎo)致的句子的語法錯(cuò)誤相對不敏感且糾錯(cuò)不準(zhǔn)確, 而本文模型對此類型錯(cuò)誤糾的正表現(xiàn)較好, 并且錯(cuò)誤糾正的范圍更大(圖 5)。

        3 結(jié)論

        本文從兩個(gè)方面對 Transformer 模型進(jìn)行改進(jìn)。首先采用局部關(guān)注的思想, 在自注意力部分添加高斯分布偏置項(xiàng), 用于提高模型對局部信息的關(guān)注, 然后針對拼寫糾錯(cuò)任務(wù)的語法結(jié)構(gòu)特點(diǎn), 采用 ON_LSTM 結(jié)構(gòu), 加強(qiáng)模型對語法結(jié)構(gòu)信息的獲取。實(shí)驗(yàn)數(shù)據(jù)表明, 兩種方法都會幫助模型提高糾錯(cuò)效果, 且二者的融合結(jié)構(gòu)使模型提升更多。

        圖5 Transformer以及本文模型在不同錯(cuò)誤語句上的表現(xiàn)

        中文拼寫糾錯(cuò)是一個(gè)依賴知識的任務(wù), 知識是文本信息構(gòu)成的知識庫。在對錯(cuò)誤字符進(jìn)行處理時(shí), 需要大量的先驗(yàn)知識, 所以將來的工作就是構(gòu)建文本知識庫, 用于輔助模型對錯(cuò)誤文本進(jìn)行檢測和修改。

        [1] Kukich K. Techniques for automatically correcting words in text. ACM Computing Surveys, 1992, 24(4): 377–439

        [2] Huang Q , Huang P , Zhang X , et al. Chinese spelling check system based on tri-gram model // Proceedings of The Third CIPS-SIGHAN Joint Conference on Chinese Language Processing. Wuhan, 2014: 173–178

        [3] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks // Advances in Neural Information Processing Systems. Montreal, 2014: 3104–3112

        [4] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need // Neural Information Processing Sys-tems. Red Hook, 2017: 5998–6008

        [5] Yang B, Tu Z, Wong D F, et al. Modeling localness for self-attention networks // Empirical Methods in Natural Language Processing. Brussels, 2018: 4449–4458

        [6] Chollampatt S, Ng H T. A multilayer convolutional encoder-decoder neural network for grammatical error correction [EB/OL]. (2018–01–26)[2020–05–01]. https: //arxiv.org/abs/1801.08831

        [7] Wang D, Song Y, Li J, et al. A hybrid approach to automatic corpus generation for Chinese spelling check // Empirical Methods in natural language pro-cessing. Brussels, 2018: 2517–2527

        [8] Shen Y, Tan S, Sordoni A, et al. Ordered neurons: integrating tree structures into recurrent neural net-works [EB/OL]. (2019–05–08)[2020–05–01]. https:// arxiv.org/abs/1810.09536

        [9] Anastasopoulos A, Chiang D. Tied multitask learning for neural speech translation [EB/OL]. (2018–04–26) [2020–05–01]. https://arxiv.org/abs/1802.06655

        [10] Tseng Y H , Lee L H , Chang L P , et al. Introduction to SIGHAN 2015 bake-off for Chinese spelling check // Proceedings of the 8th SIGHAN Workshop on Chinese Language Processing (SIGHAN’15). Beijing, 2015: 32–37

        [11] Wang D, Tay Y, Zhong L, et al. Confusionset-guided pointer networks for Chinese spelling check // Mee-ting of the Association for Computational Linguistics. Florence, 2019: 5780–5785

        [12] Xie W, Huang P, Zhang X, et al. Chinese spelling check system based on N-gram model // Proceedings of the Eighth SIGHAN Workshop on Chinese Language. Beijing, 2015: 128–136

        [13] Wang Chencheng, Yang Liner, Wang Yingying, et al. 基于 Transformer 增強(qiáng)架構(gòu)的中文語法糾錯(cuò)方法. 中文信息學(xué)報(bào), 2020, 34(6): 106–114

        Chinese Spelling Correction Method Based on Transformer Local Information and Syntax Enhancement Architecture

        DUAN Jianyong, YUAN Yang, WANG Hao?

        School of Information Science and Technology, North China University of Technology, Beijing 100043; ?Corresponding author, E-mail: wanghaomails@gmail.com

        Two new methods for improving Chinese spelling correction are proposed. The first one is to add Gaussian Bias matrices to the Transformer’s attention mechanism, which is used to improve the model’s attention to local text and to extract information from the wrong words and the surrounding text in the error text. Secondly, the ON_LSTM model is used to extract grammatical information on the special grammatical structure features exhibited by the error text. The experimental results show that both methods are effective in improving accuracy and recall, and the model after fusing the two methods achieves the highest F1 value.

        spelling correction; Transformer model; local information; grammatical enhancement

        10.13209/j.0479-8023.2020.081

        2020–05–29;

        2020–08–13

        國家自然科學(xué)基金(61972003, 61672040)資助

        猜你喜歡
        語法結(jié)構(gòu)字符語句
        尋找更強(qiáng)的字符映射管理器
        重點(diǎn):語句銜接
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        精彩語句
        長沙方言中的特色詞尾
        青春歲月(2016年22期)2016-12-23 23:19:50
        淺析古代漢語的名詞動用
        青春歲月(2016年21期)2016-12-20 11:20:50
        培養(yǎng)閱讀技巧,提高閱讀能力
        考試周刊(2016年34期)2016-05-28 14:39:52
        大學(xué)英語B級等級考試詞匯用法和語法結(jié)構(gòu)解題技巧
        一本色道久久88亚洲精品综合 | 亚洲是图一区二区视频| 精品国精品自拍自在线| 日本精品视频二区三区| 在线成人一区二区| 老熟妇仑乱一区二区视頻| 日韩人妻系列在线视频| av男人的天堂亚洲综合网| 国色天香精品一卡2卡3卡4| 男人天堂网在线视频| av毛片一区二区少妇颜射| 激情文学婷婷六月开心久久| 天堂新版在线资源| 欧美成人久久久免费播放| 日韩色久悠悠婷婷综合| 青青草狠吊色在线视频| 亚洲精品一区久久久久久| 狼友AV在线| 中文字幕日韩精品中文字幕| 久久精品中文字幕无码绿巨人 | 日本久久一级二级三级| 亚洲一区二区三区中国| 亚洲第一无码xxxxxx| 国产午夜无码精品免费看动漫| 中文字幕手机在线精品| 欧美 日韩 人妻 高清 中文| 亚洲人成网7777777国产| 精品国产你懂的在线观看| 久久一区二区三区少妇人妻| 白丝兔女郎m开腿sm调教室| 免费一区二区三区在线视频| 毛片色片av色在线观看| 亚洲大尺度无码无码专区| 国内老熟妇对白xxxxhd| 精品免费久久久久国产一区| 99精品久久精品一区| 白丝兔女郎m开腿sm调教室| 国产成人九九精品二区三区| 日本国产精品高清在线| 欧美乱大交xxxxx潮喷| 亚洲欧美国产日韩制服bt|