李燦潤(rùn),吳桂興,吳 敏
1(中國(guó)科學(xué)技術(shù)大學(xué) 現(xiàn)代教育技術(shù)中心,合肥 230026)2(中國(guó)科學(xué)技術(shù)大學(xué) 蘇州研究院,蘇州 235123)
基于層次語(yǔ)言模型的英語(yǔ)動(dòng)名詞搭配糾錯(cuò)策略①
李燦潤(rùn)1,吳桂興2,吳 敏1
1(中國(guó)科學(xué)技術(shù)大學(xué) 現(xiàn)代教育技術(shù)中心,合肥 230026)2(中國(guó)科學(xué)技術(shù)大學(xué) 蘇州研究院,蘇州 235123)
搭配的正確使用是區(qū)分地道英語(yǔ)使用者和普通學(xué)習(xí)者的一個(gè)重要特征.通過(guò)分析中國(guó)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)(CLEC),可以發(fā)現(xiàn)動(dòng)名詞搭配錯(cuò)誤是英語(yǔ)學(xué)習(xí)者易犯的錯(cuò)誤.本文提出一種可用于糾正英語(yǔ)學(xué)習(xí)者動(dòng)名詞搭配錯(cuò)誤的層次語(yǔ)言模型.該語(yǔ)言模型考慮到了句子內(nèi)部詞語(yǔ)之間的依賴關(guān)系,將句子處理為不同的層次的子句,同一個(gè)句子內(nèi)部的單詞高度相關(guān),不同子句內(nèi)的單詞相關(guān)性弱.該語(yǔ)言模型對(duì)于句子成分的變化得到的結(jié)果更加穩(wěn)定,而且搭配信息得到濃縮,得到的語(yǔ)言模型更加精確.本文將模型用于生成分類器特征和結(jié)果排序.這種層次語(yǔ)言模型應(yīng)用到英語(yǔ)動(dòng)名詞搭配的檢錯(cuò)糾錯(cuò)中,對(duì)比傳統(tǒng)語(yǔ)言模型,會(huì)有更好的效果.
動(dòng)名詞搭配錯(cuò)誤;層次語(yǔ)言模型;自動(dòng)糾錯(cuò)策略
據(jù)“中國(guó)學(xué)習(xí)者語(yǔ)料庫(kù)”的統(tǒng)計(jì),“在所有的言語(yǔ)失誤中,搭配錯(cuò)誤在言語(yǔ)失誤頻率表中位居第六”[1],可見(jiàn)搭配是英語(yǔ)學(xué)習(xí)的一個(gè)難點(diǎn),其中,動(dòng)名詞搭配錯(cuò)誤是搭配錯(cuò)誤中頻率最高的一類,所以動(dòng)名詞搭配的檢錯(cuò)糾錯(cuò)在英語(yǔ)語(yǔ)法檢錯(cuò)糾錯(cuò)中有重要意義.本文將入一種層次語(yǔ)言模型,可用于動(dòng)名詞搭配計(jì)算機(jī)自動(dòng)糾正中構(gòu)造分類器特征和最終結(jié)果排序.這種語(yǔ)言模型能克服傳統(tǒng)n-gram將句子當(dāng)成線性模型所帶來(lái)的缺點(diǎn).本文將為常見(jiàn)動(dòng)名詞搭配構(gòu)建一個(gè)搭配庫(kù),并為搭配庫(kù)中的動(dòng)名詞搭配訓(xùn)練對(duì)應(yīng)的分類器,并將層次語(yǔ)言模型應(yīng)用于分類結(jié)果的排序上得到最終的結(jié)果.
本文組織結(jié)構(gòu)如下,第一節(jié)介紹語(yǔ)言模型用于英語(yǔ)語(yǔ)法錯(cuò)誤糾正的相關(guān)研究,第二節(jié)介紹層次語(yǔ)言模型的構(gòu)造過(guò)程,第三節(jié)介紹實(shí)驗(yàn)的各個(gè)模塊以及糾錯(cuò)系統(tǒng)流程,第四節(jié)給出在測(cè)試語(yǔ)料上的實(shí)驗(yàn)結(jié)果并進(jìn)行相關(guān)分析,最后進(jìn)行總結(jié)和展望.
在最近的研究中,使用計(jì)算機(jī)輔助幫助英文寫作得到了廣泛關(guān)注,如 CoNLL 2013 和 CoNLL 2014 的 shared task.其中有一部分提交的論文采用了傳統(tǒng)的語(yǔ)言模型或者對(duì)傳統(tǒng)的語(yǔ)言模型進(jìn)行了改進(jìn)并取得了一定的效果.Longkai Zhang 等[2]采用了傳統(tǒng)的 n-gram 語(yǔ)言模型進(jìn)行糾錯(cuò)和檢錯(cuò),但是傳統(tǒng)n-gram語(yǔ)言模型比較簡(jiǎn)單,所以對(duì)處理結(jié)果增加了最大熵分類器對(duì)冠詞和介詞錯(cuò)誤分別進(jìn)行二次處理.Grigori Sidorova 和 Francisco Velasquez等[3]采用了一種基于規(guī)則的方法,并考慮到了句法的樹狀關(guān)系,入了句法n-gram語(yǔ)言模型,但是模型只考慮縱向依賴關(guān)系而忽略了橫向的關(guān)系,所以會(huì)丟失一些語(yǔ)義信息導(dǎo)致模型不夠精確.Yashimoto等[4]使用了一種樹狀語(yǔ)言模型用于主謂一致錯(cuò)誤的糾正,但是由于這種樹狀模型的結(jié)點(diǎn)需要增加除了句中單詞外的附加語(yǔ)法信息,所以會(huì)起數(shù)據(jù)稀疏的問(wèn)題,影響模型實(shí)際使用效果.
在英語(yǔ)搭配糾錯(cuò)檢錯(cuò)方面,杜一民等[5]嘗試了用傳統(tǒng)的n-gram對(duì)分類器的結(jié)果進(jìn)行排序產(chǎn)生最終的糾錯(cuò)結(jié)果.但是由于搭配關(guān)系的詞匯之間的位置關(guān)系比較多變,所以傳統(tǒng)的n-gram模型存在一定的局限性.本文考慮將句法的樹狀層次關(guān)系保留到語(yǔ)言模型中,并同時(shí)保留不同層次縱向依賴關(guān)系也就是句法結(jié)構(gòu)信息,以及同一句法層次的橫向的關(guān)系也就是語(yǔ)義信息,從而建立一種層次語(yǔ)言模型.采用分類器對(duì)備選結(jié)果進(jìn)行篩選縮小備選集合,最后利用該語(yǔ)言模型進(jìn)行排序,挑選出最合適的結(jié)果.
傳統(tǒng)的n-gram語(yǔ)言模型將句子考慮為一個(gè)順序的串,其中n為取詞窗口的大小.以比較常用的tri-gram[6]為例,此時(shí)的n等于3,模型的定義如下:
用于英語(yǔ)語(yǔ)法糾錯(cuò)時(shí),傳統(tǒng)的n-gram語(yǔ)言模型將句子處理為線性模型.n的大小決定了相關(guān)的單詞間的最大單詞跨度.所以當(dāng)n確定時(shí),對(duì)于句中單詞間隔大于n的單詞間的依賴關(guān)系將丟失;而當(dāng)n過(guò)大時(shí)將使得可用信息密度下降,這將降低語(yǔ)言模型的準(zhǔn)確性.
例句:I will give you an example of why I have come to that conclusion.
以句中的give example為目標(biāo)搭配提取出的3元組如下:
give you an
you an example
an example of
可以看到?jīng)]有辦法取得一個(gè)能包含give example這兩個(gè)目標(biāo)詞語(yǔ)的三元組,也就是說(shuō)語(yǔ)言模型沒(méi)辦法將這對(duì)搭配的信息保存下來(lái).
但是如果將取詞窗口擴(kuò)大到4,則可以取得以下包含兩個(gè)目標(biāo)詞匯的4元組:
give you an example
但是這個(gè)四元組同時(shí)包含了更多詞匯,故入了更多噪聲,從而會(huì)使語(yǔ)言模型的準(zhǔn)確性下降.假設(shè)give example這對(duì)搭配在語(yǔ)料中出現(xiàn)幾十次,然而這個(gè)特定的四元組可能只出現(xiàn)一兩次.所以雖然長(zhǎng)度增長(zhǎng)能保證取詞窗口能包含對(duì)應(yīng)搭配,但是也會(huì)起數(shù)據(jù)稀疏的問(wèn)題.
為了能讓英語(yǔ)搭配詞組的信息能夠更有效的被描述出來(lái),我們考慮入句法樹描述句子中詞語(yǔ)的依存關(guān)系,再融合傳統(tǒng)n-gram模型的優(yōu)點(diǎn)對(duì)句法樹進(jìn)行描述.也就是通過(guò)層次語(yǔ)言模型獲得n元組,而不是以文本中詞語(yǔ)出現(xiàn)的先后順序直接得到n元組.
我們認(rèn)為句子的主干中的核心詞語(yǔ)之間有直接的關(guān)系,它們應(yīng)該放在一起,形成一個(gè)濃縮的子句;而各個(gè)核心詞匯的修飾成分也應(yīng)該以這個(gè)核心詞匯為中心放在一起,形成一個(gè)濃縮的子句;如果還有冗余的成分則放在下一個(gè)層次,遞推形成層次結(jié)構(gòu).根據(jù)語(yǔ)法關(guān)系放在一起的詞匯組成新的子句,子句內(nèi)部的詞語(yǔ)相互約束;下層的子句是上層的補(bǔ)充和修飾部分.
以“give you an example”和“give you the example”這兩個(gè)短語(yǔ)為例,建立句法樹如圖1.
圖1 依存關(guān)系圖
從圖1可以看到這兩個(gè)短語(yǔ)中各個(gè)詞語(yǔ)的依存關(guān)系,如果只保存根結(jié)點(diǎn)詞語(yǔ)和根結(jié)點(diǎn)的子結(jié)點(diǎn)詞語(yǔ),并且按照原來(lái)的位置關(guān)系重新抽取出新的短語(yǔ),則這兩個(gè)原先不同短語(yǔ)都可以得到一個(gè)新的短語(yǔ)“give you example”,也就是說(shuō),主要成分被保留下來(lái),次要成份被忽略了.
句子表面意義上的相鄰,并不是真正語(yǔ)法意義上的相鄰關(guān)系,正是這種表面意義上的相鄰導(dǎo)致了傳統(tǒng)n-gram的低效.我們?nèi)绻靡来骊P(guān)系就能有效獲取這種語(yǔ)法上的相鄰關(guān)系,并把這種更深層次的相鄰保存在新的子句中,就能有效去除冗余.
接下來(lái)我們來(lái)看一個(gè)完整的例子,由句子“I will give you an example of why I have come to that conclusion.”可以建立圖2所示的樹 .
圖2 句法樹例子圖
然而不同于Grigori[7]縱向由根到每個(gè)葉子結(jié)點(diǎn)的路徑生成n元組的方法,我們首先由這棵樹橫向構(gòu)建子序列,然后再生成n元組.
從句子的根結(jié)點(diǎn)出發(fā),根結(jié)點(diǎn)和所有的根結(jié)點(diǎn)的直接子結(jié)點(diǎn)按照原來(lái)的順序構(gòu)成一個(gè)子句,第一層子句也是整個(gè)句子的主干,也就是“I will give you example”,這個(gè)子句去除了所有的子結(jié)點(diǎn)修飾成分,句子內(nèi)容被濃縮,語(yǔ)義信息也可以保留下來(lái);遍歷所有的根結(jié)點(diǎn)的直接子結(jié)點(diǎn),如果子結(jié)點(diǎn)還有孩子就遞歸地按照相同的方法建立子句,這些低層次的子句是上層子句的修飾部分.注意到介詞不是實(shí)詞,所以處理的時(shí)候?qū)⒔樵~和后邊的依賴詞當(dāng)成一個(gè)整體放入介詞所在的子句,否則會(huì)產(chǎn)生大量?jī)蓚€(gè)詞語(yǔ)的子句.最終可以得到4個(gè)層次,總共4個(gè)子句.
第一層子句:
S1:I will give you example.
第二層子句:
S2:an example of come.
第三層子句:
S4:why I have come to conclusion.
第四層子句:
S5:that conclusion.
考慮到傳統(tǒng)n-gram易于訓(xùn)練,以及有比較成熟的平滑處理方法,本文參考傳統(tǒng)n-gram的對(duì)子句進(jìn)行n元組提取就可以得到最終的層次語(yǔ)言模型n元組.
定義層次語(yǔ)言模型中句子的概率為:
其中S為原句子,下標(biāo)i表示對(duì)應(yīng)S分解出來(lái)的第i個(gè)子句,p函數(shù)的定義采用和傳統(tǒng)語(yǔ)言模型相同的方法;其中,Weight是第i個(gè)子句的權(quán)重,權(quán)重跟句子所在層次相關(guān).
采用不同的權(quán)重是考慮到不同的子句對(duì)整個(gè)句子的影響有所不同,比如整個(gè)句子的主干對(duì)整個(gè)句子的正確程度的貢獻(xiàn)應(yīng)該比主干的修飾成分貢獻(xiàn)還要高,一般來(lái)說(shuō),層次越高權(quán)重越大.由于本文只處理動(dòng)名詞搭配,經(jīng)過(guò)處理之后搭配中的動(dòng)詞名詞都在同一個(gè)子句中,為了簡(jiǎn)化處理,本文使用的權(quán)重函數(shù)設(shè)為常數(shù)1.
表1 傳統(tǒng)語(yǔ)言模型及層次語(yǔ)言模型二元組例子
從給出的 give you example 這個(gè)例子可以知道,層次語(yǔ)言模型相比傳統(tǒng)的n-gram在元組的表示上更加穩(wěn)定.比如example前插入一個(gè)形容詞得到新的句子,由于變化被隔離開,層次語(yǔ)言模型只會(huì)增一個(gè)新的元組.而使用傳統(tǒng)的n-gram處理時(shí),插入位置附近的元組會(huì)發(fā)生改變.
可以發(fā)現(xiàn),當(dāng)n為2的時(shí)候,傳統(tǒng)的n-gram和我們的層次語(yǔ)言模型得到的二元組相等,而當(dāng)n大于2的時(shí)候我們的層次語(yǔ)言模型得到的n元組會(huì)少于或等于傳統(tǒng)n-gram.因?yàn)閭鹘y(tǒng)的n-gram只考慮對(duì)原句子相鄰的詞語(yǔ)進(jìn)行組合,而層次語(yǔ)言模型只對(duì)原句子中關(guān)系比較 “緊密”的詞語(yǔ)進(jìn)行組合.比如上述的例句,當(dāng)n為3時(shí),傳統(tǒng)n-gram得到的元組是12,而層次語(yǔ)言模型得到的元組數(shù)是9;當(dāng)n為4時(shí),傳統(tǒng)n-gram得到的元組是11,而層次語(yǔ)言模型得到的元組數(shù)是6.比較少的元組能夠使模型得到簡(jiǎn)化,易于使用,并且在使用中能節(jié)省更多的資源.同時(shí),模型也可應(yīng)用于抽取分類器所使用的特征.
首先,構(gòu)建一個(gè)動(dòng)名詞搭配庫(kù);然后根據(jù)待改句子的動(dòng)名詞搭配從動(dòng)名詞搭配庫(kù)中粗選出語(yǔ)義較為相似的一部分搭配構(gòu)成相似搭配集;接著利用語(yǔ)言模型抽取待改句子上下文信息作為分類器特征,用分類器對(duì)相似搭配集進(jìn)行一輪比較細(xì)致的挑選得到候選結(jié)果集.最后,用語(yǔ)言模型對(duì)候選結(jié)果集的重排序得到最終的結(jié)果.本文在糾錯(cuò)框架上參考了文獻(xiàn)[5]的流程,并對(duì)分類篩選和語(yǔ)言模型排序部分進(jìn)行了改進(jìn).
提取搭配和建立依賴樹的過(guò)程,本文使用了Stanford Parser.文獻(xiàn)[8]對(duì) Stanford Parser的可靠性進(jìn)行了測(cè)試,實(shí)驗(yàn)中挑選了1000條句子,隨機(jī)對(duì)句子中的動(dòng)詞或者名詞修改成錯(cuò)誤的形式,并用Stanford Parser對(duì)修改后的句子進(jìn)行處理,并請(qǐng)專業(yè)人員進(jìn)行分析,結(jié)果顯示99%的依賴樹是可靠的.同時(shí),考慮到動(dòng)詞的時(shí)態(tài)和名詞單復(fù)數(shù)變化,本文使用了Stanford-CoreNlp提供的方法還原詞干.
構(gòu)建搭配庫(kù),首先從CLEC中挑選出錯(cuò)誤標(biāo)簽為cc3,也就是有動(dòng)名詞搭配錯(cuò)誤的句子,得到77個(gè)錯(cuò)誤搭配,并由專業(yè)人員進(jìn)行改正,得到對(duì)應(yīng)的77個(gè)改正搭配.同時(shí),針對(duì)每組改正搭配從牛津搭配詞典中選擇3到5個(gè)相似的搭配構(gòu)成改正搭配的混淆集.這些改正搭配和相似搭配構(gòu)成一個(gè)小型搭配庫(kù),一共230個(gè)搭配.針對(duì)搭配庫(kù)中的每一個(gè)搭配,再?gòu)木W(wǎng)絡(luò)語(yǔ)料庫(kù)中挑選50句包含該搭配的句子,作為每個(gè)搭配的訓(xùn)練集.
對(duì)改正搭配收集若干條句子,其中的一半句子不做修改作為正測(cè)試?yán)?另一半句子注入該錯(cuò)誤搭配作為測(cè)試的負(fù)測(cè)試?yán)?構(gòu)成測(cè)試數(shù)據(jù)集.
本文使用BNC語(yǔ)料庫(kù)來(lái)訓(xùn)練用于排序的層次語(yǔ)言模型和用于對(duì)比傳統(tǒng)語(yǔ)言模型.
通過(guò)對(duì)中國(guó)學(xué)習(xí)者語(yǔ)料庫(kù)中的動(dòng)名詞搭配錯(cuò)誤的分析可知[9],動(dòng)名詞搭配使用錯(cuò)誤主要是由于動(dòng)詞或者名詞詞意使用錯(cuò)誤或者直譯錯(cuò)誤,所以改正的搭配與原搭配具有比較相近的語(yǔ)義.
計(jì)算詞之間的語(yǔ)義相似度時(shí)使用了Jiang-Conrath[10]估計(jì)方法.對(duì)兩組動(dòng)名詞搭配之間的相似度分為兩個(gè)動(dòng)詞之間的相似度加兩個(gè)名詞之間的相似度的和.
糾錯(cuò)時(shí),首先利用Stanford Parser從待改句子中把動(dòng)名詞搭配抽取出來(lái),并與搭配庫(kù)中的每個(gè)搭配對(duì)比計(jì)算出語(yǔ)義相似度,得到語(yǔ)義相似度最高的前15個(gè)搭配構(gòu)成相似搭配集合.
相似搭配集合的挑選過(guò)程并未考慮搭配出現(xiàn)的上下文信息,所以需要利用分類器再對(duì)這個(gè)相似搭配集進(jìn)行比較細(xì)致的篩選得到一個(gè)候選結(jié)果集,最后再由語(yǔ)言模型進(jìn)行最終排序.本文分類器使用了與感知機(jī)算法具有相同算法結(jié)構(gòu)的被動(dòng)主動(dòng)算法(PA-I)[11],PA算法結(jié)合了感知機(jī)算法和SVM的優(yōu)點(diǎn),學(xué)習(xí)速度快,效果好.
本文分類器所使用的特征,由層次語(yǔ)言模型中目標(biāo)搭配詞上下文的一元組和二元組所組成.同時(shí),目標(biāo)搭配周圍的標(biāo)點(diǎn)符號(hào)不會(huì)被計(jì)入n元組中.下面是一個(gè)例子:
例句:I will give you an example of why I have come to that conclusion.
以句中的give example為目標(biāo)搭配提取出的n元組特征如表2所示.
其中,Uni代表一元組,Bi代表二元組;V 代表目標(biāo)搭配的動(dòng)詞,N代表目標(biāo)搭配的名詞,L代表目標(biāo)詞左邊第一個(gè)詞,LL 代表目標(biāo)詞左邊第二詞,同理,R 和RR代表目標(biāo)詞右邊第一個(gè)詞和目標(biāo)詞右邊第二個(gè)詞;I代表目標(biāo)詞在二元組的中間;Ch表示中心詞與其子結(jié)點(diǎn)形成的子句,比如ChUniVL表示以動(dòng)詞為中心詞的子句左側(cè)一詞.
表2 提取出的 n 元組特征例子
本文使用BNC語(yǔ)料庫(kù)來(lái)訓(xùn)練用于排序的語(yǔ)言模型.根據(jù)上節(jié)層次語(yǔ)言模型的分析,利用Stanford Parser解析語(yǔ)料,建立層次語(yǔ)言模型.本文排序采用的層次語(yǔ)言模型和用于比較對(duì)照的傳統(tǒng)語(yǔ)言模型都采用3元語(yǔ)言模型.3元語(yǔ)言模型的具體實(shí)現(xiàn)參照伯克利大學(xué)的n-gram語(yǔ)言模型[12],在模型訓(xùn)練中使用了Kneser-Ney平滑方法[13].
本文通過(guò)收集包含改正搭配的句子,再對(duì)每個(gè)搭配對(duì)應(yīng)的收集到的一半的句子修改成錯(cuò)誤的形式構(gòu)成測(cè)試集.具體的,本文從網(wǎng)絡(luò)語(yǔ)料中為每個(gè)改正搭配收集了20條句子,其中10條句子不做修改作為正測(cè)試?yán)?另外10條句子將正確搭配改為錯(cuò)誤搭配作為測(cè)試的負(fù)測(cè)試?yán)?一共1540條句子,作為測(cè)試數(shù)據(jù).
進(jìn)行實(shí)驗(yàn)時(shí),本文對(duì)分類器特征分別選擇了傳統(tǒng)語(yǔ)言模型提取的搭配上下文信息和用層次語(yǔ)言模型提取的搭配上下文信息進(jìn)行測(cè)試.同時(shí)對(duì)排序部分分別采用傳統(tǒng)語(yǔ)言模型和層次語(yǔ)言模型進(jìn)行了測(cè)試.
對(duì)最終語(yǔ)言模型的排序結(jié)果進(jìn)行評(píng)判使用的是平均倒數(shù)排名MRR[14],MRR是一種對(duì)排序結(jié)果進(jìn)行評(píng)價(jià)的方法,用于評(píng)估正確結(jié)果是否被包含到結(jié)果列表中,以及正確結(jié)果在排序中有多靠前.即:最終排序后,正確搭配如果排第一名則得到1分,拍第二名得0.5分,排第n則得1/n分,如果正確結(jié)果沒(méi)存在排序集中則得分為0.本文的MRR的最終結(jié)果為所有測(cè)試句的MRR的平均值.
由表3可以看到,與分類器特征和排序都采用傳統(tǒng)語(yǔ)言模型相比,當(dāng)分類器特征改為層次語(yǔ)言模型抽取的特征的時(shí)候MRR會(huì)有略微的提高,而當(dāng)排序使用層次語(yǔ)言模型時(shí)會(huì)有更大的提升.這主要是因?yàn)榕判虿糠值淖兓瘜?duì)MMR結(jié)果的影響比較直接.當(dāng)分類器特征由層次語(yǔ)言模型得到,并且排序使用的語(yǔ)言模型也為層次語(yǔ)言模型的時(shí)候效果最好,這也印證了層次語(yǔ)言模型相比傳統(tǒng)語(yǔ)言模的優(yōu)勢(shì).
表3 不同分類器特征和排序語(yǔ)言模型MRR結(jié)果
實(shí)驗(yàn)中本文建立了一個(gè)小型動(dòng)名詞搭配庫(kù)用于搭配糾錯(cuò),并將層次語(yǔ)言模型應(yīng)用于分類器特征選擇和最終結(jié)果排序,結(jié)果顯示,采用層次語(yǔ)言模型對(duì)比采用傳統(tǒng)語(yǔ)言模型能取得更好的效果.在未來(lái)的工作中,可以嘗試對(duì)語(yǔ)言模型以及提取分類器的特征部分做更深入的研究,并且可以嘗試將層次語(yǔ)言模型應(yīng)用于其他的搭配檢錯(cuò)糾錯(cuò)中.
如上所述,傳統(tǒng)語(yǔ)言模型直接按照英文文本的表層含義處理文本,忽略了文本的深層含義.而層次語(yǔ)言模型考慮了英文句子中各個(gè)詞之間的依賴關(guān)系,同時(shí)參考了傳統(tǒng)的語(yǔ)言模型的優(yōu)點(diǎn),對(duì)子句進(jìn)行建模.這種層次語(yǔ)言模型的優(yōu)點(diǎn)是當(dāng)句子的變化時(shí),產(chǎn)生的結(jié)果更加穩(wěn)定.其次,在n大于2的時(shí)候產(chǎn)生的n元組會(huì)少于傳統(tǒng)的n-gram,因而得到的語(yǔ)言模型更加簡(jiǎn)化.另外,由于搭配信息得到濃縮,模型訓(xùn)練中除去更多的噪聲,訓(xùn)練得到的語(yǔ)言模型將會(huì)更加精確.
1 楊惠中,桂詩(shī)春,楊達(dá)復(fù).基于 CLEC語(yǔ)料庫(kù)的中國(guó)學(xué)習(xí)者英語(yǔ)分析.上海:上海外語(yǔ)教育出版社,2005.
2 Zhang LK,Wang HF.A unified framework for grammar error correction.Proc.of the 18th Conference on Computational Natural Language Learning:Shared Task.Baltimore,Maryland,USA.2014.96–102.
3 Sidorov G,Gupta A,Tozer M,et al.Rule-based system for automatic grammar correction using syntactic N-grams for English language learning (L2).Proc.of the 17th Conference on Computational Natural Language Learning:Shared Task.Sofia,Bulgaria.2013.96–101.
4 Yoshimoto I,Kose T,Mitsuzawa K,et al.NAIST at 2013 CoNLL grammatical error correction shared task.Proc.of the 17th Conference on Computational Natural Language Learning:Shared Task.Sofia,Bulgaria.2013.26–33.
5 杜一民,吳桂興,吳敏.一種解決英語(yǔ)動(dòng)名詞搭配錯(cuò)誤的模型.計(jì)算機(jī)科學(xué),2016,43(7):230–233,250.[doi:10.11896/j.issn.1002-137X.2016.07.041]
6 Collins M.Language modeling:Course notes for NLP.Columbia:Columbia University,2008.
7 Sidorov G,Velasquez F,Stamatatos E,et al.Syntactic dependency-based n-grams as classification features.Proc.of the 11th Mexican International Conference on Advances in Computational Intelligence.San Luis Potosí,Mexico.2013.1–11.
8 Wang LK,Wang HF.Go climb a dependency tree and correct the grammatical errors.Proc.of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP).Doha,Qatar.2014.266–277.
9 曹莉.基于語(yǔ)料庫(kù)的中國(guó)大學(xué)生英語(yǔ)四、六級(jí)考試作文中動(dòng)名搭配錯(cuò)誤分析[碩士學(xué)位論文].武漢:華中科技大學(xué),2007.
10 Jiang JJ,Conrath DW.Semantic similarity based on corpus statistics and lexical taxonomy.Proc.of International Conference Research on Computational Linguistics (ROCLING X).Taiwan,China.1997.
11 Crammer K,Dekel O,Keshet J,et al.Online passiveaggressive algorithms.The Journal of Machine Learning Research,2006,7(3):551–585.
12 Pauls A,Klein D.Faster and smaller N-gram language models.Proc.of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies.Portland,Oregon,USA.2011.258–267.
13 Kneser R,Ney H.Improved backing-off for m-gram language modeling.Proc.of International Conference on Acoustics,Speech,and Signal Processing.Detroit,MI,USA.1995.181–184.
14 Craswell N.Mean reciprocal rank.Liu L,?zsu MT.Encyclopedia of Database Systems.Berlin,Heidelberg,Germany.Springer,2009.1703.
English Verb-Noun Collocation Error Correction Strategy Based on Hierarchical Language Model
LI Can-Run1,WU Gui-Xing2,WU Min1
1(Center of Modern Educational Technology,University of Science and Technology of China,Hefei 230026,China)2(Suzhou Institute of University of Science and Technology of China,Suzhou 235123,China)
The correct use of collocation has been widely acknowledged as an essential characteristic to distinguish native English speakers from English learners.Through the analysis of CLEC,we can find that English learners often make mistakes on verb-noun collocations.In this paper,we propose a hierarchical language model that can be used to correct verb-noun collocation errors made by English learners.The language model takes the dependencies between words within a sentence into account.It parses sentences into different levels of clauses.The words within the same clause are highly correlated,and the relevance of words in different clauses is weak.The language model is more stable.Moreover,it is more accurate because collocation information is condensed.It can be used to re-rank candidates and generate classifier features.We apply this hierarchical language model to the correction of English verb-noun collocation errors.Compared with the traditional language model,the new model has better performance.
verb-noun collocation error;hierarchical language model;automatic correction strategy
李燦潤(rùn),吳桂興,吳敏.基于層次語(yǔ)言模型的英語(yǔ)動(dòng)名詞搭配糾錯(cuò)策略.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(9):145–150.http://www.c-sa.org.cn/1003-3254/5951.html
①基金項(xiàng)后:江蘇省自然科學(xué)基金面上研究項(xiàng)后(BK20141209);蘇州市應(yīng)用基礎(chǔ)研究項(xiàng)后(SYG201543)
2016-12-27;采用時(shí)間:2017-01-18