亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中文語法糾錯(cuò)方法的研究綜述

2021-12-02 01:22:24趙國紅

現(xiàn)代計(jì)算機(jī) 2021年28期

關(guān)鍵詞：語言模型

趙國紅

（青海師范大學(xué)計(jì)算機(jī)學(xué)院，西寧 810000）

0 引言

近年來，全球掀起了漢語學(xué)習(xí)的熱潮，然而，由于不同國家的語言環(huán)境和語言結(jié)構(gòu)的差異，漢語學(xué)習(xí)者更容易出現(xiàn)語法錯(cuò)誤。相較于英文，中文的語法更加復(fù)雜和靈活。因?yàn)橹形牟淮嬖谠~語的單復(fù)數(shù)和時(shí)態(tài)等明確的語法規(guī)則，其語法錯(cuò)誤經(jīng)常涉及隱晦的語義解析而不能基于字詞形態(tài)來判斷［5］。所以，漢語學(xué)習(xí)者在漢語學(xué)習(xí)的過程中最常見的錯(cuò)誤是語法錯(cuò)誤。

國外英語語法糾錯(cuò)的研究起步比較早，在20世紀(jì)80年代的時(shí)候與GEC（grammatical error correction）相關(guān)的研究就已經(jīng)出現(xiàn)。如今，針對(duì)英語語法糾錯(cuò)的方法特別多。相較于英語語法糾錯(cuò)，國內(nèi)對(duì)中文語法糾錯(cuò)的研究起步比較晚，中文語法現(xiàn)象復(fù)雜多變，這也決定了中文語法糾錯(cuò)的復(fù)雜度要高于英文糾錯(cuò)的復(fù)雜度?？傊?，關(guān)于如何使用人工智能來糾正中文語法錯(cuò)誤面臨著機(jī)遇和挑戰(zhàn)。由于平行語料的缺乏，早期的CGEC（chinese grammatical error correction）大多采用基于規(guī)則和統(tǒng)計(jì)的方法,如：Wu［16］提出使用相對(duì)位置語言模型（relative position language model）和解析模板語言模型（parse template language model）的方法檢測(cè)美國學(xué)習(xí)者所寫的文章中的語法錯(cuò)誤。Yu和Chen［19］提出從HSK動(dòng)態(tài)作文語料庫中檢測(cè)漢語句子語序錯(cuò)誤的分類器的方法。Lee等人（2013）［9］使用一系列手工語言規(guī)則來檢測(cè)中文學(xué)習(xí)者寫作中的語法錯(cuò)誤。Lee等人（2014）［2］進(jìn)一步提出了一個(gè)結(jié)合手工語言規(guī)則和N-gram模型的系統(tǒng)來檢測(cè)句子中的漢語語法錯(cuò)誤。Fu等人［4］采用簡單到復(fù)雜的分階段糾錯(cuò)方法，使用語言模型糾正簡單的錯(cuò)誤，字、詞級(jí)的Transformer模型糾正復(fù)雜的錯(cuò)誤。以上提到的方法采用手工提取特征的方法，可能會(huì)造成提取的特征不完整或者重要信息丟失，并且漢語語法的靈活性使得傳統(tǒng)規(guī)則的模型取得的效果不是很理想。近年來，隨著大規(guī)模平行語料的開發(fā)，深度學(xué)習(xí)技術(shù)被廣泛應(yīng)用到漢語GEC任務(wù)。相比傳統(tǒng)方法，神經(jīng)網(wǎng)絡(luò)方法具有很強(qiáng)的自動(dòng)學(xué)習(xí)特征能力和完全數(shù)據(jù)驅(qū)動(dòng)的能力。為了讓更多的語言信息集成到神經(jīng)網(wǎng)絡(luò)，Zheng團(tuán)隊(duì)［22］使用詞性（POS）標(biāo)簽方法與阿里巴巴團(tuán)隊(duì)［18］使用雙向LSTM-CRF的方法進(jìn)一步集成詞性標(biāo)注的分?jǐn)?shù)（POS分?jǐn)?shù)），逐點(diǎn)互信息（PMI）和依賴詞搭配等深層學(xué)習(xí)網(wǎng)絡(luò)，使得兩個(gè)團(tuán)隊(duì)分別在2016年和2017年CGED任務(wù)中取得了較好的成績。Zhou等人［23］使用多個(gè)模型糾錯(cuò)，分別是基于規(guī)則、統(tǒng)計(jì)和神經(jīng)網(wǎng)絡(luò)，通過模型組合的方式得到最終的糾錯(cuò)結(jié)果。Ren等人［11］使用基于卷積神經(jīng)網(wǎng)絡(luò)的seq2seq模型糾錯(cuò)，還采用了subword［12］算法來縮小詞表和緩解未登錄詞的問題。王辰成等人［25］提出了基于Transformer增強(qiáng)架構(gòu)的中文語法糾錯(cuò)模型，該模型使用動(dòng)態(tài)殘差結(jié)構(gòu)結(jié)合不同神經(jīng)模塊的輸出來增強(qiáng)模型捕獲語義信息的能力。張生盛等人［21］首次提出了個(gè)性化的語法糾錯(cuò)。使用基于Transformer增強(qiáng)的漢語語法糾錯(cuò)模型對(duì)錯(cuò)誤進(jìn)行糾正。

本文首先介紹二語學(xué)習(xí)者語料庫規(guī)模與CGEC研究的關(guān)系，接著分析基于統(tǒng)計(jì)與規(guī)則的研究方法，以及CGEC系統(tǒng)的評(píng)測(cè)標(biāo)準(zhǔn)，最后闡述學(xué)習(xí)者語法錯(cuò)誤研究的發(fā)展趨勢(shì)，并提出下一步提高系統(tǒng)準(zhǔn)確率的建議。

1 CGEC數(shù)據(jù)描述

中文語法糾錯(cuò)任務(wù)主要是針對(duì)外國人在學(xué)習(xí)中文時(shí)出現(xiàn)的語法錯(cuò)誤，本文主要介紹的數(shù)據(jù)為兩種。一種為華語能力測(cè)試（test of chinese as a foreign language，TOCFL），中文繁體語料庫。另一種是漢語水平考試（hanyu shuiping kaoshi，hsk），中文簡體語料庫。兩個(gè)數(shù)據(jù)集都是用來檢測(cè)母語非漢語者（包括外國人、華僑和中國少數(shù)民族考生）的漢語水平而設(shè)立的一項(xiàng)國際漢語能力標(biāo)準(zhǔn)考試。其中中文的語法錯(cuò)誤類型主要包括：①冗余錯(cuò)誤（redundant words）；②選詞錯(cuò)誤（word selection errors）；③漏詞錯(cuò)誤（missing words）；④語序不當(dāng)錯(cuò)誤（word ordering errors）四種類型錯(cuò)誤。具體的錯(cuò)誤樣本數(shù)據(jù)如表1所示。

表1 HSK語法錯(cuò)誤類型

漢語學(xué)習(xí)者數(shù)據(jù)對(duì)漢語語法研究至關(guān)重要。研究者可借助人工標(biāo)注的語料歸納語法錯(cuò)誤類型；還可將其作為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)，構(gòu)建中文語法錯(cuò)誤檢測(cè)和糾錯(cuò)神經(jīng)網(wǎng)絡(luò)模型，并且提高評(píng)測(cè)系統(tǒng)的性能。

2 CGEC研究的常用方法

隨著二語學(xué)習(xí)者和語料庫的數(shù)量和規(guī)模的不斷擴(kuò)充，GEC研究領(lǐng)域出現(xiàn)了一些新的研究方法，具體可分為3類：①N-Gram語言模型；②自動(dòng)分類模型；③神經(jīng)機(jī)器翻譯模型。在實(shí)際應(yīng)用中，統(tǒng)計(jì)方法常與傳統(tǒng)的基于規(guī)則的方法相結(jié)合，以充分發(fā)揮兩者的優(yōu)點(diǎn)，開發(fā)規(guī)則與統(tǒng)計(jì)的GEC系統(tǒng)。

2.1 N-Gram語言模型

N-Gram是一種基于統(tǒng)計(jì)語言模型（language model，LM）的算法。語言模型其實(shí)是一個(gè)基于概率的判別模型，它的輸入是一句話，輸出是這句話的概率，即這些單詞的聯(lián)合概率（joint probability）。N-gram的概率計(jì)算，假設(shè)一個(gè)句子由N個(gè)詞組成表示為：S=（w1,w2,…,w n）

那么：

從以上的概率計(jì)算可以看出，N-gram語言模型存在參數(shù)空間過大和數(shù)據(jù)稀疏的問題，為解決這個(gè)問題引入馬爾科夫假設(shè)，即一個(gè)詞的出現(xiàn)僅與它之前的若干次有關(guān)。N-Gram語言模型是語法糾正領(lǐng)域中最常用的方法，能夠測(cè)量單詞序列出現(xiàn)的概率。在語言模型中語法正確的句子出現(xiàn)的概率過高，判斷為語法正確的句子，而語法不正確句子出現(xiàn)的概率過低，則判斷為語法不正確。

近年來，隨著中文語法研究的深入，許多機(jī)構(gòu)和組織公開發(fā)布了中文語法錯(cuò)誤的數(shù)據(jù)集，基于改進(jìn)N-Gram語言模型開發(fā)CGEC系統(tǒng)也逐漸增多，很大程度上也提升了N-Gram語言模型糾正語法錯(cuò)誤。

2.2 自動(dòng)分類模型

分類是給一個(gè)樣本（一個(gè)數(shù)據(jù)實(shí)例）分配標(biāo)簽（類的）過程。在GEC研究中，如何根據(jù)輸入句子中是否含有語法錯(cuò)誤、錯(cuò)誤類型分析和錯(cuò)誤定位等維度進(jìn)行綜合評(píng)價(jià)。其樣例如表1所示，判斷正確性標(biāo)準(zhǔn)可以分為以下3個(gè)層次：①檢測(cè)級(jí)別。自動(dòng)分類模型把文本語法檢測(cè)任務(wù)視為二分類的問題，判斷輸入的句子中是否包含語法錯(cuò)誤，如果包含語法錯(cuò)誤，那么就輸出不正確，否則輸出正確；②識(shí)別級(jí)別。自動(dòng)分類模型把文本語法識(shí)別任務(wù)視為多分類的問題，根據(jù)黃金標(biāo)準(zhǔn)，識(shí)別所有的錯(cuò)誤類型；③位置級(jí)別。此外，識(shí)別出所有錯(cuò)誤類型之后，需要判斷出語法錯(cuò)誤發(fā)生的范圍。

2.3 神經(jīng)機(jī)器翻譯模型

YouDao［4］在NLPCC 2018年加入語法糾錯(cuò)任務(wù)，將CGEC任務(wù)視為翻譯問題，讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)錯(cuò)誤句子（source sentence）與正確句子（target sentence）之間的關(guān)系，并將錯(cuò)誤的句子翻譯翻譯為正確的句子。一般來說，大多數(shù)神經(jīng)機(jī)器翻譯模型是基于編碼器-解碼器，其中編碼器將輸入序列編碼成一個(gè)隱藏狀態(tài)序列，譯碼器根據(jù)隱藏狀態(tài)生成輸出序列。相比傳統(tǒng)方法，神經(jīng)機(jī)器翻譯模型的明顯優(yōu)勢(shì)是可以自動(dòng)提取語言學(xué)特征和糾正具有長期依賴性的錯(cuò)誤的能力。神經(jīng)機(jī)器翻譯模型Recurrent Neural Network（RNN）的變體如：Long Short Term Memory（LSTM）、Gated-Recurrent Unit（GRU）［1,12］和Convolutional Neural Network（CNN）［6-7］。此外，Transformer模型被用于CGEC生成流暢文本的能力關(guān)注，Transformer是一種強(qiáng)大的神經(jīng)機(jī)器翻譯模型。近年來，許多漢語語法糾錯(cuò)在Transformer模型基礎(chǔ)上進(jìn)行了廣泛地研究，如Wang等人［15］、Devlin［3］和Liu［10］分別取得了不錯(cuò)效果。

3 CGEC系統(tǒng)評(píng)測(cè)

通過研究前人的工作［8,14,20］，從中得到句子級(jí)別上使用準(zhǔn)確率（Accuracy）、精準(zhǔn)率（Pr eci sion）、召回率（Recall）和F1-measure作為自動(dòng)度量來評(píng)估系統(tǒng)糾正的性能。漢語語法糾錯(cuò)系統(tǒng)使用人工注釋語法錯(cuò)誤的二語學(xué)習(xí)者的語料庫作為評(píng)測(cè)標(biāo)準(zhǔn)，通過系統(tǒng)的改正錯(cuò)誤與人工標(biāo)準(zhǔn)答案對(duì)比異同來衡量系統(tǒng)的效果。由于語法錯(cuò)誤的標(biāo)注和修改需要耗費(fèi)大量的人力、物力和財(cái)力，為了提高語料標(biāo)注效率，漢語語法糾錯(cuò)研究的測(cè)試語料中的語法錯(cuò)誤一般是單人標(biāo)注，但近期研究發(fā)現(xiàn)，由于母語者對(duì)漢語學(xué)習(xí)者語法錯(cuò)誤的標(biāo)注和修改存在異同，為了能夠更準(zhǔn)確地測(cè)試漢語語法糾錯(cuò)系統(tǒng)的性能，應(yīng)該盡可能地使用多人標(biāo)注測(cè)試語料。

4 結(jié)語

由于GEC需要糾正多種語法錯(cuò)誤，目前GEC的準(zhǔn)確率和召回率仍然較低。漢語GEC系統(tǒng)的性能仍有提升空間。為進(jìn)一步提高自動(dòng)語法錯(cuò)誤檢測(cè)系統(tǒng)的性能，需要解決以下幾個(gè)問題。

（1）加強(qiáng)統(tǒng)計(jì)模型以大規(guī)模真實(shí)語料為知識(shí)來源，避免了人工編寫規(guī)則的繁瑣。

謝海華等［17］使用大量無標(biāo)簽的正確中文語料，通過詞性規(guī)則、句法規(guī)則以及語言模型概率統(tǒng)計(jì)等方法來生成接近真實(shí)語法錯(cuò)誤用例的樣本，以擴(kuò)充訓(xùn)練語料。由于中文語法的復(fù)雜性，在下一步的計(jì)劃中將進(jìn)一步提高數(shù)據(jù)構(gòu)造的合理性，使構(gòu)造的錯(cuò)誤樣本更符合人們實(shí)際所犯的語法錯(cuò)誤。

（2）重視母語遷移造成二語學(xué)習(xí)者語法錯(cuò)誤。語言遷移理論認(rèn)為二語學(xué)習(xí)者的書面語法錯(cuò)誤類型受其母語影響?；趯W(xué)習(xí)者語料庫的研究也發(fā)現(xiàn)，不同母語背景學(xué)習(xí)者的錯(cuò)誤類型和分布概率存在差異。如周小兵等人［24］在對(duì)漢語作為第二語言的學(xué)習(xí)者的教學(xué)研究中發(fā)現(xiàn)，母語遷移是造成二語學(xué)習(xí)者語法錯(cuò)誤的一項(xiàng)重要原因。如部分漢語學(xué)習(xí)者可能會(huì)寫“我見面我的老師”這樣的錯(cuò)句。此外，Swan and Smith［13］在對(duì)二語學(xué)習(xí)者的教學(xué)研究發(fā)現(xiàn)不同母語寫作者會(huì)犯不同類型的錯(cuò)誤。他們將其中的某些錯(cuò)誤歸因于語言之間的“轉(zhuǎn)移”或“干擾”，即母語的“負(fù)遷移”。張生盛等人［21］針對(duì)漢語作為第二語言的學(xué)習(xí)者提出了個(gè)性化語法糾錯(cuò)，發(fā)現(xiàn)將語法糾錯(cuò)模型適應(yīng)到學(xué)習(xí)者的不同特征時(shí)表現(xiàn)會(huì)更好。

（3）改善語言學(xué)特征的多任務(wù)學(xué)習(xí)。謝海華提到［17］因?yàn)檎Z言學(xué)特征和語法的使用是十分相關(guān)的，所以使用語言學(xué)特征對(duì)語言模型進(jìn)行優(yōu)化能夠使它學(xué)習(xí)到顯式的語言學(xué)特征以及隱藏的語義信息，對(duì)語法錯(cuò)誤檢測(cè)的效果起到明顯的改善作用。