雷曉東
【摘 要】本文通過收集相關(guān)英語作文自動(dòng)評價(jià)系統(tǒng)技術(shù)方面的專著以及檢索、比較中文期刊網(wǎng)數(shù)據(jù)庫中關(guān)于此方面的文獻(xiàn),從理論研究、實(shí)證研究、本土化的EFL寫作評估系統(tǒng)探索三個(gè)角度,回顧了國內(nèi)研究者在這一領(lǐng)域的研究歷程和主要成果。其次,從技術(shù)應(yīng)用的角度,介紹了國內(nèi)英語寫作研究與實(shí)踐領(lǐng)域中現(xiàn)存的若干主流的作文自動(dòng)評價(jià)系統(tǒng)和網(wǎng)站,闡述了其各自背后的基本技術(shù)原理、自身特點(diǎn)、基本應(yīng)用等。最后,基于上述的理論和應(yīng)用研究,對于這一新技術(shù)的未來開發(fā)與研究,提出多個(gè)學(xué)科深度交叉融合、多種實(shí)體積極互動(dòng)的研究方法建議,同時(shí),針對其在英語寫作測試與教學(xué)實(shí)踐中的推廣應(yīng)用,提出人機(jī)評閱動(dòng)態(tài)化理性結(jié)合的建議。
【關(guān)鍵詞】作文自動(dòng)評價(jià)系統(tǒng)技術(shù);英語寫作;國內(nèi)研究與應(yīng)用
The Domestic Research and Application of Automated English Essay Evaluation System in China
LEI Xiao-dong
(School of foreign Languages, Huaihai Institute of Technolege, Lianyungang Jiangsu 222005, China)
【Abstract】Based on the collection of literatures on Automated Essay Evaluation System(AEES), this paper reviews the history and achievements of the domestic researchers in this field in terms of theoretical research, empirical study and exploration on China-based EFL essay evaluation system. Hence, from the perspective of application, it introduces 5 major domestically existing automated essay evaluation systems/websites by focusing on their technical principles, characteristics and applications. Finally, it proposes the in-depth interdisciplinary intergration and multi-entity colleberation approach for future researches on AEES , and dynamic human-computer combination approach for applications of AEES to English writing teaching and testing.
【Key words】Automated Essay Evaluation System; English Writing; Domestic Research and Application
1 研究背景
國際上最早的寫作自動(dòng)評價(jià)系統(tǒng)(Automated Essay Evaluation System, AEES; Automated Writing Assessment System, AWAS; Automated Essay Scoring System, AESS) 產(chǎn)生于美國,此后,有關(guān)自動(dòng)評價(jià)系統(tǒng)的研究也主要在美國進(jìn)行。綜觀國外寫作自動(dòng)評價(jià)系統(tǒng)的發(fā)展歷程,大致可分為三個(gè)階段。第一階段發(fā)生于上世紀(jì)60年代,1966年,美國杜克大學(xué)(University of Duke)的Ellis Page 等人開發(fā)了PEG( Project Essay Grade),它是世界上第一套作文自動(dòng)評分軟件。第二階段在上世紀(jì)90年代,出現(xiàn)了基于自然語言處理技術(shù)的E-rater(Electronic Essay Rater)、基于人工智能技術(shù)(AI) 的Intellimetri和基于潛伏語義技術(shù)的IEA(Intelligent Essay Assessor)三種自動(dòng)評價(jià)系統(tǒng)。第三階段始于本世紀(jì)初,由以上評分引擎衍生的自動(dòng)評價(jià)系統(tǒng)如Criterion、My Access!、Holt Online Essay Scoring、Writing Roadmap等則逐漸趨向于自動(dòng)打分、個(gè)性化評語反饋、基于互聯(lián)網(wǎng)、提供寫作輔助功能等多種性能兼而有之。[1]
在國內(nèi),業(yè)已頒布的《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》明確指出[2],信息技術(shù)對教育發(fā)展具有革命性的影響,必須給于高度重視。到2020年,全國范圍內(nèi)應(yīng)該力爭基本建成覆蓋城鄉(xiāng)各級各類學(xué)校的教育信息化體系,以促進(jìn)教育內(nèi)容、教學(xué)手段和方法現(xiàn)代化。就受眾群體龐大的英語教學(xué)領(lǐng)域而言,國內(nèi)關(guān)于英語作文自動(dòng)評價(jià)系統(tǒng)的研究起步晚,缺乏系統(tǒng)性的綜述研究。
2 國內(nèi)研究回顧
2.1 理論研究
國內(nèi)關(guān)于英語寫作自動(dòng)評價(jià)系統(tǒng)方面的理論研究始于本世紀(jì)初,偏重于推介國外的相關(guān)理論、相關(guān)的寫作自動(dòng)評價(jià)軟件,或者探討某一項(xiàng)技術(shù)、某一學(xué)科的理論觀點(diǎn)對于寫作自動(dòng)評價(jià)系統(tǒng)信度、效度的影響,理論研究總體來說缺乏原創(chuàng)性和深度。部分研究的內(nèi)容帶有不徹底性,極少數(shù)的缺乏科學(xué)性,研究內(nèi)容之間具有較強(qiáng)的重復(fù)性。
桂詩春[3] 詳細(xì)介紹了潛伏語義分析(Latent Semantic Analysis, LSA)理論,通過舉例說明使用了奇異值分解的線性代數(shù)的方法,減少維數(shù)有助于揭示語義的潛伏關(guān)系,討論了應(yīng)用LSA來進(jìn)行寫作質(zhì)量評估,和根據(jù)LSA來開發(fā)訓(xùn)練學(xué)生寫作的軟件。該研究對于LSA的理據(jù)等分析較為透徹,但關(guān)于LSA理論的應(yīng)用的討論,仍然僅僅局限于對國外相關(guān)研究的介紹,但是它屬于國內(nèi)最早探索英語作文自動(dòng)評價(jià)系統(tǒng)的研究。
張梅[4] 介紹了美國自動(dòng)評分系統(tǒng)E-rater的工作原理,然后探討了其優(yōu)點(diǎn)和缺陷,以及在大學(xué)英語四、六級考試作文網(wǎng)上閱卷中的可行性。在其后續(xù)研究中,張梅,印勇[5] 對英語作文計(jì)算機(jī)評分的相關(guān)概念進(jìn)行了概述,對4種主流技術(shù)原理進(jìn)行了綜述,并介紹了國外5個(gè)典型的英語作文計(jì)算機(jī)評分系統(tǒng)和國內(nèi)梁茂成教授主持研制的評分系統(tǒng)。最后,指出了有待進(jìn)一步研究的關(guān)鍵問題。但是,研究結(jié)果中的部分參考文獻(xiàn)有誤,因而研究的科學(xué)性在一定程度上受到削弱。
梁茂成,文秋芳[6] 從語言測試的角度, 對國外具有代表性的三種作文自動(dòng)評分系PEG、IEA和E-rater進(jìn)行了比較研究,分析了其對我國自主開發(fā)作文自動(dòng)評分系統(tǒng)所帶來的啟示。
葛詩利,陳瀟瀟[7] 與陳瀟瀟,葛詩利[8] 介紹了國外主要的幾種作文自動(dòng)評價(jià)軟件及其工作原理等。其中,后者特別提到國內(nèi)對自動(dòng)作文評分的需求和研究,以及EFL自動(dòng)作文評分研究在國外和國內(nèi)的發(fā)展與不足之處。這些研究與梁茂成的同類研究,相比較其它的研究來說,內(nèi)容方面表現(xiàn)出更為詳細(xì)、全面、科學(xué)的特點(diǎn)。
韓寧[9] 介紹了當(dāng)時(shí)美國最流行的7個(gè)作文自動(dòng)評價(jià)系統(tǒng)的原理,并對它們進(jìn)行了評述。
唐錦蘭,吳一安[10] 回顧和分析了迄今為止國內(nèi)外對英語寫作自動(dòng)評價(jià)系統(tǒng)的相關(guān)應(yīng)用研究成果,發(fā)現(xiàn)教育技術(shù)的引進(jìn)不僅是技術(shù)層面的問題,它還意味著一場涉及到使用者理念、認(rèn)識(shí)、方法和行為等方面的系統(tǒng)變革。此研究系批評性文獻(xiàn)綜述,旨在梳理迄今為止國內(nèi)外對寫作自動(dòng)評價(jià)系統(tǒng)的應(yīng)用研究脈絡(luò)和主要成果,提煉其中的啟示,進(jìn)而提出后續(xù)研究方向。
劉建達(dá)[11] 從現(xiàn)代網(wǎng)絡(luò)和計(jì)算機(jī)技術(shù)對語言測試與評估的影響的視角,指出隨著現(xiàn)代信息技術(shù)的發(fā)展,自動(dòng)作文評價(jià)系統(tǒng)在語言測試中的應(yīng)用將不斷得到普及,其次簡要討論了國外幾種寫作自動(dòng)評價(jià)系統(tǒng)的信度問題,對計(jì)算機(jī)自動(dòng)評價(jià)系統(tǒng)應(yīng)用于語言測試提出了建議。
2.2 實(shí)證研究
萬鵬杰[12] 在國內(nèi)率先使用某電子評估軟件(名稱不詳)對英語專業(yè)學(xué)生寫作進(jìn)行評估,并對評估的效果進(jìn)行研究,實(shí)驗(yàn)表明,人工評估與電子軟件評估具有較高相關(guān)性,但電子軟件評測語法錯(cuò)誤時(shí)不如人工測評全面,而在文章結(jié)構(gòu)的評估方面,兩者各有優(yōu)勢,因此應(yīng)該更多地考慮如何使其更有效地輔助人工評估。
一些研究者對國外的寫作自動(dòng)評價(jià)軟件進(jìn)行了實(shí)驗(yàn)研究,研究內(nèi)容之間也同樣具有較強(qiáng)的重復(fù)性。蔣學(xué)清等[13] 對寫作自動(dòng)評價(jià)系統(tǒng)Writing Roadmap 2.0( WRM2.0) 在大學(xué)英語寫作中的教學(xué)應(yīng)用研究發(fā)現(xiàn), 通過一學(xué)期的教學(xué), 實(shí)驗(yàn)組和對照組的英語寫作水平都有了明顯的進(jìn)步,而且實(shí)驗(yàn)組的進(jìn)步幅度更大。這說明形成性評價(jià)方式和具有自動(dòng)反饋功能的在線寫作工具在發(fā)展EFL學(xué)習(xí)者的寫作能力方面可以發(fā)揮積極的作用。作者針對在線形成性評價(jià)工具在大學(xué)英語寫作教學(xué)中的應(yīng)用與研究提出建議。該研究成為WRM2.0 系統(tǒng)應(yīng)用于中國大學(xué)生英語寫作學(xué)習(xí)的首批實(shí)驗(yàn)之一。另外,王淑雯[14] 結(jié)合教學(xué)實(shí)踐,介紹了在寫作教學(xué)中如何使用WRM2.0為師生提供多元化反饋,最后闡述了該系統(tǒng)的優(yōu)勢和劣勢。楊玲[15] 對WRM2.0 在高水平學(xué)生英語寫作學(xué)習(xí)中的作用進(jìn)行了實(shí)驗(yàn)研究,分析了其利弊。周穎[16]通過WRM2.0 的應(yīng)用實(shí)驗(yàn),總結(jié)了自動(dòng)評分系統(tǒng)應(yīng)用過程的問題、原因和對策,分析較為透徹。
作為國內(nèi)作文自動(dòng)評價(jià)系統(tǒng)研究方面的著名學(xué)者,吳一安,唐錦蘭[17] 考察英語實(shí)驗(yàn)寫作教學(xué)中融入自動(dòng)評價(jià)系統(tǒng)Writing Roadmap (WRM) 對于高校英語教師和寫作教學(xué)的影響。結(jié)果表明,寫作教學(xué)從關(guān)注語言錯(cuò)誤轉(zhuǎn)化為關(guān)注內(nèi)容的挖掘和表達(dá),從關(guān)注寫作結(jié)果轉(zhuǎn)化為關(guān)注寫作過程。教師的教學(xué)理念、行為、角色有所變化。唐錦蘭[18] 基于一項(xiàng)為期兩年有關(guān)現(xiàn)代信息技術(shù)的形成性評價(jià)工具WRM的應(yīng)用研究,論證影響信息技術(shù)應(yīng)用于教學(xué)的關(guān)鍵除了最重要的要素教師因素之外,還包括機(jī)構(gòu)管理層的認(rèn)識(shí)和態(tài)度、信息技術(shù)本身、教師、技術(shù)融入教學(xué)的模式和學(xué)生四個(gè)因素。唐錦蘭,吳一安[19] 將WRM應(yīng)用于教學(xué)實(shí)驗(yàn),發(fā)現(xiàn)學(xué)生寫作能力、自主學(xué)習(xí)能力以及寫作教學(xué)過程都發(fā)生了積極性的變化。唐錦蘭[20] 基于前人的研究成果,以WRM為例,提出一個(gè)基于寫作自動(dòng)評價(jià)系統(tǒng)的集自主寫作、多維反饋以及修改于一體的系統(tǒng)的先導(dǎo)模式,并應(yīng)用于為期一學(xué)年的高中生英語寫作教學(xué)實(shí)驗(yàn)中,探討其在實(shí)際教學(xué)中的有效性。結(jié)果顯示,學(xué)生寫作能力的發(fā)展以及寫作教學(xué)過程的積極變化從一定程度上表明該先導(dǎo)模式的有效性。在教學(xué)實(shí)驗(yàn)過程中,先導(dǎo)模式也得到了優(yōu)化改進(jìn)。本研究的貢獻(xiàn)在于,提出并驗(yàn)證了現(xiàn)代信息技術(shù)應(yīng)用于寫作的有效模式,特別是它開創(chuàng)性的以高中生為實(shí)驗(yàn)對象,為未來相關(guān)的教學(xué)實(shí)踐和科研提供了重要參照。
唐進(jìn)[21] 分析了自動(dòng)作文評分系統(tǒng)BETSY的工作原理,并且實(shí)證檢驗(yàn)該系統(tǒng)在英語作文自動(dòng)評分中的效果。
另一部分研究者則對國內(nèi)研發(fā)的作文自動(dòng)評價(jià)軟件進(jìn)行了實(shí)驗(yàn),結(jié)果較為樂觀。白云[22] 通過冰果英語智能作文評閱系統(tǒng)的教學(xué)實(shí)踐,對自動(dòng)作文評分系統(tǒng)的使用提出了建議,展望了其未來。魯艷輝等[23] 運(yùn)用調(diào)查和定量研究方法對冰果英語智能作文評閱系統(tǒng)在大學(xué)英語寫作教學(xué)中的運(yùn)用進(jìn)行反思性分析。研究表明,該系統(tǒng)在一定程度上提高了學(xué)習(xí)者的寫作策略能力,男生的寫作策略水平提高優(yōu)于女生,低水平組學(xué)習(xí)者的寫作策略和寫作能力提高優(yōu)于高水平組。
王鶯鶯[24] 用實(shí)驗(yàn)檢驗(yàn)了《新視野大學(xué)英語》作文自動(dòng)評分系統(tǒng)的評分效度。結(jié)果顯示,系統(tǒng)作為一種適用于小規(guī)模語言測試和自我測試的通用評分模型,具有較高的測試效度,同時(shí)對于進(jìn)一步提高其效度提出了建議。
石曉玲[25] 以句酷批改網(wǎng)應(yīng)用為例,通過教學(xué)實(shí)驗(yàn),研究了在線寫作自動(dòng)評價(jià)系統(tǒng)在英語寫作教學(xué)中的適切性與局限性,對于正確使用作文自動(dòng)評價(jià)系統(tǒng)提出了建議。何旭良[26] 從中國學(xué)習(xí)者語料庫(CLEC)中隨機(jī)抽出30 篇英語作文作為樣本進(jìn)行研究,考察批改網(wǎng)的信度和效度。實(shí)驗(yàn)數(shù)據(jù)分析表明,批改網(wǎng)軟件有自身的優(yōu)點(diǎn),但由于技術(shù)的局限性,其信度和效度都不夠完美,需要結(jié)合其它評價(jià)方式。
2.3 對本土化EFL寫作評估系統(tǒng)的探索
曾用強(qiáng)[27] 針對廣東外語外貿(mào)大學(xué)開設(shè)的“網(wǎng)上英語寫作過程化教學(xué)”實(shí)驗(yàn)課,開發(fā)了一套過程化作文評估系統(tǒng)( PWESys 1. 00),該系統(tǒng)包括量表設(shè)置、作文提交、作文標(biāo)注、作文分析和評估檔案等五大功能。它根據(jù)設(shè)定的評估參數(shù)以及教師的標(biāo)注信息,對學(xué)生的作文作出統(tǒng)計(jì)分析,最后利用文字或圖表的形式顯示總評估、每個(gè)學(xué)生的評估結(jié)果以及寫作的發(fā)展過程等。本研究成果PWESys 1. 00雖然僅僅是一個(gè)半自動(dòng)化的評價(jià)工具,但作為國內(nèi)本土化EFL寫作評估系統(tǒng)探索方面的先鋒之作,其對于英語作文自動(dòng)評價(jià)系統(tǒng)在國內(nèi)的研究與推廣應(yīng)用具有重要的促進(jìn)作用。
作為國內(nèi)作文自動(dòng)評價(jià)系統(tǒng)技術(shù)(AESS)研究領(lǐng)域非?;钴S的學(xué)者,葛詩利,陳瀟瀟[28] 分析了AESS在二語作文和外語作文評價(jià)方面的表現(xiàn),只是初步提出了開發(fā)適合中國英語學(xué)習(xí)者的自動(dòng)評價(jià)系統(tǒng)的構(gòu)想。在后續(xù)的研究中,李艷,葛詩利[29] 以中國學(xué)生的作文作為語料,對于國際上通用的作文自動(dòng)評分分級詞表的效度進(jìn)行了研究,結(jié)果表明,這一通用詞表應(yīng)用于中國學(xué)生的作文,評價(jià)效果不佳,進(jìn)而提出對該詞表的改進(jìn)方法與評測方式,并且有效性得到了初步驗(yàn)證。
葛詩利[30] 設(shè)計(jì)了一款面向大學(xué)非英語專業(yè)教學(xué)、非特定題目、一次訓(xùn)練多次使用的通用、帶反饋的作文自動(dòng)評價(jià)系統(tǒng),探索計(jì)算機(jī)對于中介語作文自動(dòng)查錯(cuò)反饋的可行性和具體方法。利用詞匯特征(作文長度、詞匯多樣性、分級詞匯分布)、短語特征、一級詞語的二元接續(xù)特征等技術(shù)進(jìn)行作文語言方面的查錯(cuò)反饋,運(yùn)用文本聚類方法檢查作文內(nèi)容是否跑題。研究發(fā)現(xiàn),該評分模型對于日常大學(xué)英語寫作教學(xué)具有一定的參考價(jià)值,但是中介語作文評價(jià)不能完全依靠計(jì)算機(jī)來完成。此后,葛詩利,陳瀟瀟[31] 和葛詩利[32][33] 分別針對研制本土化EFL寫作評估系統(tǒng)所涉及的文本聚類技術(shù)、詞匯接續(xù)錯(cuò)誤自動(dòng)識(shí)別技術(shù)、關(guān)于評價(jià)作文語言運(yùn)用的三種自動(dòng)評分方法等相關(guān)技術(shù)方面的問題進(jìn)行了探討。另外, 葛詩利,陳瀟瀟[34] 還討論了本土化EFL自動(dòng)評分研究中涉及的評分標(biāo)準(zhǔn)、針對性、通用性和人機(jī)界面的劃分等四大問題及對策。這些研究,在前人研究的基礎(chǔ)上更加全面、深入,逐漸具有數(shù)據(jù)確鑿、論證充分的特點(diǎn)。但同時(shí)也具有部分重復(fù)性。
李金輝[35] 根據(jù)潛伏語義分析理論(Latent Semantic Analysis) 研制出中國學(xué)生英語作文自動(dòng)評分系統(tǒng)LEES(LSA-based EFL Essay Scorer),對中國大學(xué)生四、六級英語作文樣本進(jìn)行評分,結(jié)果顯示,機(jī)器評分與人工評分結(jié)果成微弱的正相關(guān),因此,LSA還不能正式用于對中國學(xué)生英語四、六級作文進(jìn)行自動(dòng)評分。該研究對將來研發(fā)理想的中國學(xué)生英語作文自動(dòng)評分系統(tǒng)提供了啟示。
李霞,劉建達(dá)[36] 提出了一種能夠有效識(shí)別中國英語學(xué)習(xí)者寫作文本特點(diǎn)并能自動(dòng)識(shí)別特征維數(shù)的特征選擇方法,并在此基礎(chǔ)上提出了一種適用于不平衡分布數(shù)據(jù)的集成分類評分算法。它相比傳統(tǒng)面向分布均勻數(shù)據(jù)的分類方法具有較高的準(zhǔn)確率,能夠有效地應(yīng)用于中國英語學(xué)習(xí)者的作文自動(dòng)評分中。
蔣艷,馬武林[37] 通過軟件本身介紹、工作原理、應(yīng)用實(shí)例、效度分析、存在問題等幾方面介紹了句酷批改網(wǎng),為國內(nèi)迄今為止較為全面、詳細(xì)、深刻的批改網(wǎng)研究。有利于促進(jìn)國內(nèi)自動(dòng)作文評價(jià)技術(shù)的不斷改進(jìn)完善,有助于其在國內(nèi)教育領(lǐng)域的推廣和普及。
劉衛(wèi)忠,余力[38] 設(shè)計(jì)了一種基于鏈語法(Link Grammar)的能為我國EFL學(xué)生提供實(shí)時(shí)訓(xùn)練的英語作文自動(dòng)評分系統(tǒng)。系統(tǒng)首先根據(jù)Link Grammar 對句子分析后的成本向量(cost vector)計(jì)算文章的語法權(quán)值,其次則利用文章核心詞、非核心詞熵值和有效句比例來對作文主題分檔,最后則是結(jié)合語法權(quán)值和主題分檔結(jié)果計(jì)算作文分?jǐn)?shù)。采用整體評分的方法對中國學(xué)生英語作文自動(dòng)評分系統(tǒng)進(jìn)行了探索和研究。此研究的研究人員全部來自計(jì)算機(jī)技術(shù)專業(yè)領(lǐng)域,缺乏語言教師或語言研究專家的協(xié)同參與,因此,在選擇最能體現(xiàn)作文質(zhì)量的文本特征變量方面難以保證相對的有效性,研究結(jié)果的科學(xué)性有待于進(jìn)一步求證。
3 國內(nèi)主要英語作文自動(dòng)評價(jià)工具軟件
3.1 句酷批改網(wǎng)
由北京詞網(wǎng)科技有限公司研發(fā),于2011年4月開始展開大規(guī)模使用。它是一個(gè)基于語料庫和云計(jì)算技術(shù)的英語作文在線自動(dòng)批改服務(wù)網(wǎng)站。批改網(wǎng)的核心算法是計(jì)算學(xué)生作文和標(biāo)準(zhǔn)語料庫之間的距離,再通過一個(gè)映射將距離轉(zhuǎn)化成作文分?jǐn)?shù)和評語。核心技術(shù)點(diǎn)是將每一篇輸入的作文分析成可測量的192個(gè)維度,分析過程充分利用了先進(jìn)的自然語言技術(shù)和機(jī)器學(xué)習(xí)的方法,每篇作文先被自動(dòng)切分成句子,然后對每個(gè)句子進(jìn)行深度的語義分析,從中抽取詞、搭配、詞組等結(jié)構(gòu)化單元。[39] 主要功能包括:分?jǐn)?shù)即刻顯現(xiàn)、圖文報(bào)表式作文分析結(jié)果、錯(cuò)誤自動(dòng)批改、點(diǎn)評細(xì)致入微、階段性進(jìn)度報(bào)告、抄襲檢測等[40]。
批改網(wǎng)是完全自主研發(fā)的國產(chǎn)軟件,從核心引擎到批改應(yīng)用都是完全自主知識(shí)產(chǎn)權(quán)的[41]。它體現(xiàn)寫作教學(xué)的多樣性,鼓勵(lì)學(xué)生的自主性學(xué)習(xí)、探索性學(xué)習(xí)、團(tuán)隊(duì)式學(xué)習(xí)、研究型學(xué)習(xí)等教與學(xué)新模式。
3.2 冰果英語智能作文評閱系統(tǒng)
杭州增慧網(wǎng)絡(luò)科技有限公司聯(lián)合浙江大學(xué)、外語教學(xué)與研究出版社,以及中外人工智能專家隊(duì)伍,依據(jù)語言教學(xué)理論、計(jì)算機(jī)網(wǎng)絡(luò)教育技術(shù)、大規(guī)模數(shù)據(jù)挖掘技術(shù),研發(fā)出這一個(gè)性化智能化的作文評閱軟件。它可以即時(shí)給出作文評分,并從詞匯、語法、文風(fēng)、內(nèi)容等方面給出反饋。但是,該系統(tǒng)目前無法做到用戶同一篇作文多次反復(fù)修改,多次提交給系統(tǒng),并得到系統(tǒng)的即時(shí)評閱和反饋。
3.3 TRP教學(xué)資源平臺(tái)
經(jīng)過對一線教師的調(diào)研及需求分析,高等教育出版社與清華大學(xué)楊永林教授的科研團(tuán)隊(duì)合作研究,2010年10月正式對外發(fā)布了《體驗(yàn)英語寫作教學(xué)資源平臺(tái)》。
2012年3月,該平臺(tái)的升級版產(chǎn)品《TRP教學(xué)資源平臺(tái)》面世。它根據(jù)寫作教學(xué)需求,將數(shù)字化、網(wǎng)絡(luò)化與區(qū)域化教學(xué)平臺(tái)進(jìn)行了有機(jī)的整合,并涵蓋了資源建設(shè)、平臺(tái)構(gòu)建、寫作學(xué)習(xí)、句型練習(xí)、語法測驗(yàn)、作文評分、寫作研究、評語生成、作為考試等功能。為高校英語教學(xué)的進(jìn)一步改革提供了“專本碩博,四級貫通”的可操作平臺(tái)。特別一提的是,學(xué)術(shù)寫作是該寫作軟件系統(tǒng)的特色版塊,從這一點(diǎn)來講,TRP教學(xué)資源平臺(tái)似乎對于研究型高校的學(xué)習(xí)者來說具有更加特殊的意義。
3.4 “易改”
由杭州硅易科技有限公司(Greedy Intelligence)利用先進(jìn)的人工智能(AI)、自然語言處理(NLP)技術(shù),自主研發(fā)的一款基于云計(jì)算的免費(fèi)英語寫作輔助軟件。用戶可以免費(fèi)注冊使用該網(wǎng)站。其主要功能包括:(1)一鍵檢查:檢查英語文本拼寫、語法糾錯(cuò)和文章風(fēng)格等;(2)錯(cuò)誤解釋:對錯(cuò)誤類型和錯(cuò)誤原因給予詳盡的解釋和說明;(3)寫作潤色:可在不更改原意的情況下為用戶潤色詞語。不同于傳統(tǒng)的糾錯(cuò)算法,易改創(chuàng)新性地采用了基于NLP與機(jī)器學(xué)習(xí)的糾錯(cuò)方法,通過讓機(jī)器學(xué)習(xí)模型大量閱讀(一萬億詞級別)“正確的”英語,訓(xùn)練出一個(gè)精確性非常高的模型。每遇到一個(gè)輸入的句子,易改的后端模型會(huì)首先分析每個(gè)句子結(jié)構(gòu)并根據(jù)在機(jī)器學(xué)習(xí)訓(xùn)練集中“正確的英語”及句子中的上下文來判斷寫作是否有誤。1Checker(易改)獨(dú)創(chuàng)性地基于人工智能開發(fā)了糾錯(cuò)和智能潤色引擎,可以智能地發(fā)現(xiàn)英語文本中的錯(cuò)誤,提出潤色建議,提高了寫作準(zhǔn)確率的成文質(zhì)量。另外,其客戶端集成了詞典、翻譯、搜索、分析解釋和寫作模板等輔助功能,方便用戶寫作時(shí)使用。
3.5 大規(guī)??荚囉⒄Z作文自動(dòng)評分系統(tǒng)(EFL Essay Evaluator 1.0;EEE1.0 )
北京外國語大學(xué)梁茂成教授的研究團(tuán)隊(duì),在前期的研究成果——中國學(xué)生英語作文自動(dòng)評分模型的基礎(chǔ)上[42][43],對其中的變量進(jìn)行了更大規(guī)模的驗(yàn)證,進(jìn)一步確定其中對作文質(zhì)量具有穩(wěn)定預(yù)測能力的文本特征,同時(shí)結(jié)合第二語言習(xí)得理論、語料庫語言學(xué)理論、測試學(xué)、統(tǒng)計(jì)學(xué),利用自然語言處理技術(shù),挖掘出更多更穩(wěn)定的文本特征變量,最終使原有評分模型得到了優(yōu)化。于2012年研制出了大規(guī)??荚囉⒄Z作文自動(dòng)評分系統(tǒng)。經(jīng)過多輪多次隨機(jī)抽樣組建不同的訓(xùn)練集,驗(yàn)證了該系統(tǒng)的評分信度已經(jīng)達(dá)到了可操作可推廣水平。[44]
該評分軟件存在局限性。鑒于我國大規(guī)模英語考試考生數(shù)量十分龐大,而該軟件研制過程中僅使用了1000多篇學(xué)生作文作為實(shí)驗(yàn)樣本,[45]總體樣本量距離大規(guī)模考試中的作文總體樣本量差距較大,其評分信度未免受到一定影響;對于極具創(chuàng)新性的學(xué)生作文的質(zhì)量優(yōu)劣缺乏判斷能力;僅僅適用于對議論文和說明文體的作文進(jìn)行評價(jià)。
4 小結(jié)
與國外作文自動(dòng)評價(jià)系統(tǒng)的研究已經(jīng)有60多年的歷史相比,國內(nèi)在這一領(lǐng)域的研究相對滯后,且以漢語作文的自動(dòng)評分系統(tǒng)研究為主流。國內(nèi)關(guān)于英語作文自動(dòng)評價(jià)系統(tǒng)的研究起步更晚,數(shù)量更少。理論研究多為介紹西方的成果和技術(shù),相關(guān)的實(shí)證研究數(shù)量有限,只是最近幾年才有所增加,對于開發(fā)適合中國國情的EFL寫作評估系統(tǒng)的研究也較為匱乏,實(shí)際可以用于實(shí)踐的英語作文自動(dòng)評估軟件較少。這一領(lǐng)域的研究面臨著巨大的機(jī)遇和挑戰(zhàn)。
開發(fā)作文自動(dòng)評價(jià)系統(tǒng)(AEES)是一項(xiàng)全新而復(fù)雜的技術(shù),涉及諸多領(lǐng)域的知識(shí),應(yīng)該遵循跨學(xué)科的理念,特別強(qiáng)調(diào)文理滲透、多學(xué)科交叉協(xié)作的研究方法,企業(yè)、高校、技術(shù)提供商三者深度聯(lián)袂,以英語寫作教學(xué)現(xiàn)實(shí)為基礎(chǔ),以問題為導(dǎo)向,同時(shí),理論研究、技術(shù)開發(fā)、教學(xué)應(yīng)用及反饋三方面緊密聯(lián)合,積極互動(dòng),共克難關(guān)。鑒于現(xiàn)代科技的日新月異,應(yīng)該密切關(guān)注并結(jié)合最新的自然語言處理技術(shù)、人工智能技術(shù)、統(tǒng)計(jì)學(xué)、信息檢索技術(shù)、語料庫技術(shù)及相關(guān)的第二語言習(xí)得、語言學(xué)(語義學(xué)、計(jì)算語言學(xué)、語料庫語言學(xué)等)等研究成果,不斷努力,糾正并深入挖掘最能體現(xiàn)英語作文水平的文本特征變量,優(yōu)化現(xiàn)有的作文自動(dòng)評估軟件,開發(fā)新的更為先進(jìn)的評估軟件。
由于自然語言本身的極端復(fù)雜性,加上現(xiàn)有技術(shù)的局限性,現(xiàn)階段的英語作文自動(dòng)評價(jià)系統(tǒng)軟件尚存在諸多缺陷,英語寫作教學(xué)或測試中單獨(dú)依賴機(jī)器的做法不可取。實(shí)際寫作訓(xùn)練中,教師適時(shí)合理的人工評閱和指導(dǎo)、學(xué)生自我評價(jià)、同儕互評等不可或缺?,F(xiàn)代科技的日益迅猛發(fā)展,使得根據(jù)不同歷史時(shí)期技術(shù)的發(fā)展水平,合理確定機(jī)器和人的分工,動(dòng)態(tài)推進(jìn),取長補(bǔ)短,最大限度地發(fā)揮二者的優(yōu)勢顯得十分必要。這樣才有助于保證作文評價(jià)過程的信度。
特別致謝:該論文在寫作過程中,高等教育出版社、句酷批改網(wǎng)等相關(guān)部門技術(shù)人員協(xié)助提供相關(guān)數(shù)據(jù)。謹(jǐn)表謝忱。
【參考文獻(xiàn)】
[1][10]唐錦蘭,吳一安.在線英語寫作自動(dòng)評價(jià)系統(tǒng)應(yīng)用研究述評[J].外語教學(xué)與研究,2011(2):273-282.
[2]國家中長期教育發(fā)展規(guī)劃(2010-2020).[DB/OL].http://www.china.com.cn/policy/txt/2010-03/01/content_19492625_3.htm,2015-01-15.
[3]桂詩春.潛伏語義分析的理論及其應(yīng)用[J].現(xiàn)代外語,2003(1):76-84.
[4]張梅.英語論文自動(dòng)評分系統(tǒng)探索[J].重慶大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2005(3):95-97.
[5]張梅,印勇.英語作文計(jì)算機(jī)評分技術(shù)綜述[J].外語電化教學(xué),2010(6):44-47.
[6]梁茂成,文秋芳.國外作文自動(dòng)評分系統(tǒng)評述及啟示[J].外語電化教學(xué),2007(5):18-24.
[7]葛詩利,陳瀟瀟.國外自動(dòng)作文評分技術(shù)研究[J].外語電化教學(xué),2007(5):25-29.
[8]陳瀟瀟,葛詩利.自動(dòng)作文評分研究綜述[J].解放軍外國語學(xué)院學(xué)報(bào),2008(05):78-83.
[9]韓寧.幾個(gè)英語作文自動(dòng)評分系統(tǒng)的原理與評述[J].中國考試(研究版),2009(3):37-44.
[11]劉建達(dá).現(xiàn)代技術(shù)與語言測試——應(yīng)用、影響及發(fā)展方向[J].外語電化教學(xué),2013(4):46-51.
[12]萬鵬杰.電子軟件評估系統(tǒng)測試大學(xué)英語寫作的研究報(bào)告[J].外語電化教學(xué),2005(3):11-13.
[13]蔣學(xué)清,等.探析自動(dòng)作文評價(jià)系統(tǒng)對大學(xué)生英語寫作能力發(fā)展的影響[J].山東外語教學(xué),2011(6):36-43.
[14]王淑雯.如何利用Writing Roadmap 2.0進(jìn)行在線英語寫作反饋[J].現(xiàn)代教育技,2011(3):76-81.
[15]楊玲.作文自動(dòng)評價(jià)系統(tǒng)在高水平學(xué)生英語寫作學(xué)習(xí)中的應(yīng)用[J].現(xiàn)代教育技術(shù),2013(5):76-81.
[16]周穎.在線形成性評價(jià)工具在英語寫作中的應(yīng)用——困難及對策探究[J].現(xiàn)代教育技術(shù),2011(9):88-93.
[17]吳一安,唐錦蘭.融入自動(dòng)評價(jià)系統(tǒng)的英語寫作實(shí)驗(yàn)教學(xué)對高校英語教師的影響研究[J].外語電化教學(xué),2012(4):3-10.
[18]唐錦蘭.信息技術(shù)應(yīng)用于教學(xué)的關(guān)鍵要素探究——項(xiàng)教學(xué)實(shí)驗(yàn)的啟示[J].中國遠(yuǎn)程教育,2012(7):75-80.
[19]唐錦蘭,吳一安.寫作自動(dòng)評價(jià)系統(tǒng)在大學(xué)英語教學(xué)中的應(yīng)用研究[J].外語與外語教學(xué),2012(4):53-59.
[20]唐錦蘭.探究寫作自動(dòng)評價(jià)系統(tǒng)在英語教學(xué)中的應(yīng)用模式[J].外語教學(xué)理論與實(shí)踐,2014(1):49-57.
[21]唐進(jìn).BETSY在自動(dòng)作文評分中的原理與應(yīng)用[J].當(dāng)代外語研究,2011(1):44-47.
[22]白云.自動(dòng)作文評分在大學(xué)英語教學(xué)中的應(yīng)用與前景[J].中國成人教育,2011(18):185-187.
[23]魯艷輝,等.智能寫作評分系統(tǒng)在大學(xué)英語寫作中的實(shí)證研究[J].現(xiàn)代教育技術(shù),2010(6):56-58.
[24]王鶯鶯.《新視野大學(xué)英語》作文自動(dòng)評分系統(tǒng)的效度研究[J].當(dāng)代教育理論與實(shí)踐,2012(12):139-142.
[25]石曉玲.在線寫作自動(dòng)評改系統(tǒng)在大學(xué)英語寫作教學(xué)中的應(yīng)用研究——以句酷批改網(wǎng)為例[J].現(xiàn)代教育技術(shù),2012(10):67-71.
[26]何旭良.句酷批改網(wǎng)英語作文評分的信度和效度研究[J].現(xiàn)代教育技術(shù),2013(5):64-67.
[27]曾用強(qiáng).過程化的寫作評估模式[J].福建外語,2002(3):26-31.
[28]葛詩利,陳瀟瀟.中國EFL學(xué)習(xí)者自動(dòng)作文評分探索[J].外語界,2007(5):42-50.
[29]李艷,葛詩利.大學(xué)英語作文自動(dòng)評分中分級詞表的效度研究[J].外語與外語教學(xué),2008(10):47-52.
[30]葛詩利.面向大學(xué)英語教學(xué)的通用計(jì)算機(jī)作文評分和反饋方法研究[D].北京語言大學(xué),2008.
[31]葛詩利,陳瀟瀟.文本聚類在大學(xué)英語作文自動(dòng)評分中應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2009(6):145-148.
[32]葛詩利.大學(xué)英語作文自動(dòng)評分方法比較研究[J].廣東外語外貿(mào)大學(xué)學(xué)報(bào),2010(3):87-90.
[33]葛詩利.自動(dòng)作文評分中詞匯接續(xù)錯(cuò)誤自動(dòng)識(shí)別研究[J].外語電化教學(xué),2010(4):15-20.
[34]葛詩利,陳瀟瀟.大學(xué)英語作文自動(dòng)評分研究中的問題及對策[J].山東外語教學(xué),2009(3):21-26.
[35]李金輝.使用潛伏語義分析理論研究計(jì)算機(jī)改中國學(xué)生英語作文[D].廣東外語外貿(mào)大學(xué),2009.
[36]李霞,劉建達(dá).適用于中國外語學(xué)習(xí)者的英文作文全自動(dòng)集成評分算法[J].中文信息學(xué)報(bào),2013(5):100-106.
[37]蔣艷,馬武林.中國英語寫作教學(xué)智能導(dǎo)師系統(tǒng):成就與挑戰(zhàn)——以句酷批改網(wǎng)為例[J].電化教育研究,2013(7):76-81.
[38]劉衛(wèi)忠,余力.基于鏈語法的英語作文自動(dòng)評分研究[J].電腦知識(shí)與技術(shù),2014(2):283-287.
[39][41]CSDN. 專訪批改網(wǎng)創(chuàng)始人張躍:設(shè)計(jì)產(chǎn)品一定要遵循兩個(gè)“凡是”[DB/OL].http://www.csdn.net/article/2011-07-31/302431,2014-09-10.
[40]百度百科.句酷批改網(wǎng)[DB/OL]. http://baike.baidu.com/view/5162723.htm. 2013-10-25,2014-09-10.
[42]梁茂成.中國學(xué)生英語作文自動(dòng)評分模型的構(gòu)建[D].南京大學(xué),2005.
[43]梁茂成.中國學(xué)生英語作文自動(dòng)評分模型的構(gòu)建[M].北京:外語教學(xué)與研究出版社,2011.
[44][45]梁茂成.大規(guī)模考試英語作文自動(dòng)評分系統(tǒng)的研制[M].北京:外語教學(xué)與研究出版社,2012.
[責(zé)任編輯:湯靜]