蘭雅迪 王鐫澤 王海波
摘要:本文論述了機(jī)器學(xué)習(xí)在英語作文批改中的應(yīng)用,即在原有中國學(xué)習(xí)者語料庫和NUCLE-release2.2語料庫的基礎(chǔ)上建立優(yōu)秀英語作文數(shù)據(jù)庫,首先將作文進(jìn)行初步分類,根據(jù)語句詞匯量的豐富度,深度等進(jìn)行評判,算出語句各詞出現(xiàn)的概率以及出現(xiàn)語法錯誤的概率,將相對概率小的結(jié)果標(biāo)注實(shí)現(xiàn)自主批閱英語作文的功能。
關(guān)鍵詞:機(jī)器學(xué)習(xí);數(shù)據(jù)庫;自主批閱
一、研究背景
互聯(lián)網(wǎng)的出現(xiàn)幫助各行各業(yè)快速發(fā)展,在信息化的影響下各方面實(shí)現(xiàn)智能化成為時代發(fā)展的必然趨勢,教育工作走在了智能化的前沿,英語成為最受大家關(guān)注的學(xué)科之一,受到了教育部門、教師、學(xué)生、家長的普遍重視。英語寫作是英語教學(xué)中一個棘手的問題,由于我國師生比例相差較大,在英語批改方面存在以下問題,首先教師在工作中不能夠保證對每位同學(xué)的作文進(jìn)行批改,提出意見;
針對這一現(xiàn)狀我們依靠對現(xiàn)有的語料庫進(jìn)行預(yù)處理實(shí)現(xiàn)計算機(jī)自主進(jìn)行英語作文批閱。在減少老師教學(xué)壓力的基礎(chǔ)上,學(xué)生也可通過計算機(jī)自行評判英語作文的模型,了解自己錯誤,也在最大程度上幫助學(xué)者改正作文。
二、研究內(nèi)容
機(jī)器學(xué)習(xí)涉獵概率論、統(tǒng)計學(xué)、算法復(fù)雜度等多領(lǐng)域?qū)W科,以求自主的獲得新的知識并運(yùn)用學(xué)習(xí)到的規(guī)律預(yù)測位置的事物。隨著機(jī)器學(xué)習(xí)的出現(xiàn)以及語料庫語言學(xué)的發(fā)展與更新,提高了人們自行處理自然語言的能力。國內(nèi)的批閱系統(tǒng)依靠的主要是對語料庫進(jìn)行預(yù)處理。目前,主要的兩個語料庫分別是:中國學(xué)習(xí)者語料庫以及NUCLE-release2.2語料庫,這兩種語料庫均包含人工標(biāo)注。其中中國學(xué)習(xí)者語料庫對中國英語教育更具有針對性,提供大范圍學(xué)習(xí)英語的群體中進(jìn)行語料庫訓(xùn)練,訓(xùn)練英語范圍包括中學(xué)英語、大學(xué)英語和四六級英語。
在進(jìn)行英語作文評定時,首先搜集大量的英語優(yōu)秀作文形成優(yōu)秀作文數(shù)據(jù)庫,根據(jù)數(shù)據(jù)庫中的作文進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。評判一篇作文時,根據(jù)作文是切題或跑題為判斷依據(jù),英語題目確定,切題作文的特點(diǎn)是詞匯使用率大致相同,因此首先將作文進(jìn)行聚類分析,區(qū)分出跑題作文與切題作文,這一部分主要考慮詞匯。
第二部分進(jìn)行語法檢測,在后臺語料庫中進(jìn)行匹配與改進(jìn),輸出修改意見供筆者參考。
第三部分要進(jìn)行語義檢測,運(yùn)用后臺數(shù)據(jù)庫對英語作文進(jìn)行擬翻譯,根據(jù)語義的通順程度給出建議。筆者得到的結(jié)果是綜合考慮到詞匯的豐富程度、語法的正確度以及語義的通順的等多個條件進(jìn)行修改的意見。糾錯系統(tǒng)的設(shè)計與分析流程圖如下圖所示:
三、數(shù)據(jù)分析:
我們針對批改系統(tǒng)進(jìn)行了準(zhǔn)確性測試,分別請10位英文教師對200份英語四六級作文試卷進(jìn)行批閱,統(tǒng)計出作文成績的均值與機(jī)器所算成績作出比較,結(jié)果呈現(xiàn)如下:
以100份四級作文為例(15分滿分),分別由教師評分與機(jī)體評分進(jìn)行均值比較,結(jié)果如下所示:
教師評分 機(jī)體評分
9.61分 9.59分
以100份六級作文為例(15分滿分),分別由教師評分與機(jī)體評分進(jìn)行均值比較,結(jié)果如下:
教師評分 機(jī)體評分
7.02分 7.02分
由以上數(shù)據(jù)分析可以看出,教師評分與機(jī)體評分的相似程度吻合度極高,可見批改系統(tǒng)還是很理想的,可以進(jìn)行后期批閱工作。
四、結(jié)語:
通過以上數(shù)據(jù)分析結(jié)果,可以看出機(jī)器自主的進(jìn)行英語作文的批閱可信度較高,可以進(jìn)行推廣。極大程度的提高教師的教學(xué)效率,提高同學(xué)們可以清楚的認(rèn)識自己的錯誤,提高自主學(xué)習(xí)效率。
參考文獻(xiàn):
[1]李艷玲,田夏春.iWrite 2.0 在線英語作文評分信度研究,2018:76-78.
[2]桂師春,楊慧中.中國學(xué)習(xí)者語料庫[M].上海:上海外語教育出版社,2002:710-713。
[3]李悅,[D]英語作文輔助評閱系統(tǒng)中語法檢查的設(shè)計與實(shí)現(xiàn).中國科技大學(xué),2015:10-22.
[4]張梅,英語論文自動評分系統(tǒng)探索[J]重慶大學(xué)學(xué)報.社會科學(xué)版,2005(3):95-97。
[5]HeiftT,Schulze M. Errors and intelligence in computer- assisted language learning: Parsers and pedagogues.Routledge,2007.
該論文支撐遼寧科技學(xué)院2018年省級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項(xiàng)目:《基于機(jī)器學(xué)習(xí)的英語四六級助考平臺》