周志蓮
(桂林電子科技大學 外國語學院,廣西 桂林541004)
美國的埃利斯·巴滕·佩吉(Ellis Batten Page)在60 年代提出了使用計算機批改作文的想法,1997 年后PEG,IEA,E -Rater,Intellimetric,BETSY 等多個英語作文自動評分(Automated English Scoring,簡稱AES)系統(tǒng)相繼在美國的大規(guī)??荚囍械玫綉?yīng)用。我國已經(jīng)自主研發(fā)了一些AES 系統(tǒng),如梁茂成的計算機輔助評分系統(tǒng)、句酷批改網(wǎng)、冰果、東方批改網(wǎng),但是就信度、效度和應(yīng)用范圍來說,遠遠不如美國的AES 系統(tǒng),而且無一系統(tǒng)能在我國大規(guī)??荚囍械玫綉?yīng)用,與之相關(guān)的學術(shù)介紹和研究也是鮮見。目前國內(nèi)外關(guān)于AES的研究主要體現(xiàn)在三個方面:英語作文自動評分系統(tǒng)的總體介紹、基于各種自動評分系統(tǒng)的效度和信度研究和自動評分系統(tǒng)的技術(shù)介紹。本文將從AES 產(chǎn)生的教育背景和研究團隊來介紹國外作文自動評分的發(fā)展歷程,以期對我國AES 系統(tǒng)的研發(fā)與應(yīng)用提供具有參考價值的研究資料。
作文自動評分是利用計算機技術(shù)在短時間內(nèi)對大規(guī)模的學生作文進行自動批改,提供分數(shù)、甚至評語和改錯建議等功能的機器批改行為。作文自動評分技術(shù)從探索到應(yīng)用已經(jīng)經(jīng)歷了四十個春秋。它的起源離不開測試和計算機輔助教學(Computer Aided Instruction,以下簡稱CIA)的發(fā)展。
(1)作文評估浪潮。教學理論往往影響測試題型。傳統(tǒng)的外語教學方法主要是語法翻譯法,因此傳統(tǒng)的測試方法十分重視考察學生的語法、詞匯、閱讀、翻譯和寫作,但是當時的命題人因缺乏理論知識,常常忽略測試的可信性、客觀性和科學性。對于現(xiàn)代的寫作測試,Yancey 提出三次作文評估浪潮,第一次是1950 -1970 年的客觀題測試,第二次是1970 -1986 年的作文全面評估(holistical writing assessment),第三次是1986 至今的porftolio 評估。三個浪潮是重疊的,第二個浪潮時期,寫作的客觀題測試題仍然存在,第三個浪潮時期,作文全面評估和客觀題測試題依然用于寫作評估的方式。
以選擇題形式進行的寫作測試在當時頗受歡迎,成為Yancey 描述的第一次寫作評估浪潮的基石。例如,托??荚囋谙喈斠欢伍L時間內(nèi)只有客觀性試題,直到1986 年7 月開始加試作文。1970-1986 年的作文全面評分(holistical writing assessment)主要指為保證測試的效度,模仿教室的寫作教學進行主觀題測試。同時為了提高測試的信度,設(shè)計了寫作提示、評分導(dǎo)向以及計算評分的措施。第三次寫作評估浪潮是1986 年至今的porftolio 評估,即指通過布置不同的多次作文進行評估,例如在教室環(huán)境下完成多次不同體裁的作文、比一次評估更有效。只要能解決測試成本、提高評估效度,這種常規(guī)評估是最合適的。porftolio評估目前已成為形成性評估或者一種學習方式。我國大學英語教學中,一般都采用porftolio 評估,一個學期布置四到五次寫作作業(yè)來評估學生的平時學習成績。
(2)AES 思想的形成。美國率先開展對自動評分系統(tǒng)的研發(fā)主要是源于中學生的作文量太多,無法及時批改,其次,聘人批改作文的成本高??傮w而言,美國寫作測試逐漸增多,不僅為教師增加了評分負擔,而且人工評分耗時、耗錢,評分者還存在固有的主觀性。因此,這個國家不得不通過技術(shù)解決這一難題,開發(fā)作文自動評分系統(tǒng)。
如果說現(xiàn)代英語作文評估有四次評估浪潮,那么第四次就是作文自動評分。AES 的核心技術(shù)是計算語言學,它的實現(xiàn)離不開計算機技術(shù)的發(fā)展。埃利斯·佩吉和迪特爾·保盧斯1968 年出版的《計算機的作文分析》是研究作文自動評分的最早文章。但是以當時的技術(shù),計算機作文評分的成本高、信度較低,遭到許多人的質(zhì)疑,因此他們的AES 系統(tǒng)研發(fā)進度在后來的二十年里相當緩慢。
20 世紀90 年代以后,CAI 發(fā)展到新的階段,主要表現(xiàn)在建構(gòu)主義(constructivism)學習理論的應(yīng)用和多媒體、計算機網(wǎng)絡(luò)的廣泛應(yīng)用。在這一時期,虛擬現(xiàn)實在教育中得到應(yīng)用,它允許學生與虛擬環(huán)境中的各種信息進行交互,學生在學習中的主動性、創(chuàng)造力得到較好的發(fā)揮,因此許多國家如美國、加拿大、澳大利亞等國都在學校中進行虛擬現(xiàn)實應(yīng)用的實驗,并取得引人注目的效果。90年代后,各國在發(fā)展計算語言學技術(shù)的同時,發(fā)展作文自動評分技術(shù),其目的不完全在于解決學校批改作文的負擔,有時是技術(shù)發(fā)展和競爭的結(jié)果。
佩吉(1924 - 2005)被普遍認為是自動作文評分之父。1962 年佩吉到康涅狄格州大學擔任教育心理學教授和教育研究局主任時,受到計算語言學,人工智能技術(shù)的啟發(fā),于是結(jié)合他的高中英語教學經(jīng)驗,從1964 年下半年開始研發(fā)PEG(Project Essay Grade )軟件,主要使用代理量度標準(proxy measures)和最佳模擬人工評分的回歸系數(shù)進行作文自動評分。1966 年應(yīng)美國大學委員會的請求在康涅狄格大學與同事們創(chuàng)建初始版本,1973 年獲得成功。1979 年到2002 年,佩吉到杜克大學任教,更新了PEG,直到1993 年,成立Tru-Judge 公司,挖掘此軟件潛在的商業(yè)應(yīng)用價值。該系統(tǒng)修改后的版本發(fā)布于20 世紀90 年代,通過使用自然語言處理工具增強了評分模型,如側(cè)重語法檢查器和語音終端標注(part of speech tagging)的句法分析。1997 年用于GRE 測試評估。
自動作文評分是探索計算機評估和學生寫作,尤其是作文得分的一個多學科領(lǐng)域。自1966年佩吉提出計算機作文評分的可能性和出版相關(guān)的著作和介紹PEG 的程序,他發(fā)表了大量關(guān)于教育心理和教育評估的文章。佩吉在60 年代中期開發(fā)PEG 軟件的開創(chuàng)性工作為緊隨其后的20 世紀90 年代電腦作文評分技術(shù)的實際應(yīng)用奠定了基礎(chǔ)。
IEA(Intelligent Essay Assessor)系統(tǒng)由商業(yè)公司皮爾遜的知識技術(shù)集團(Pearson Knowledge Technologies)開發(fā),使用托馬斯·蘭道爾開發(fā)的“知識分析技術(shù)”評分引擎,于1997 年首次投入GMAT 的評分使用。2004 年皮爾遜購買知識分析科技公司(Knowledge Analysis Technologies)后,成立皮爾遜知識技術(shù)集團。這家公司于2008 年收購了Ordinate Corporation,2011 年收購INTEGRE。知識分析科技公司由三位大學教授托馬斯·蘭道爾,彼得·福爾茲和達雷爾·拉罕姆1998年成立。當他們意識到需要改進測試評分,于是創(chuàng)造了唯一的自動文本分析技術(shù),用于評估書面段落。統(tǒng)籌公司Ordinate Corporation 由兩名斯坦福大學的教授賈里德·伯恩斯坦和布倫特·湯森于1996 年成立。他們認為有必要使用語音處理技術(shù)、計算語言學和心理縮放來開發(fā)口語測試系統(tǒng)并申請此專利。INTEGRE 由唐納德·迪蘭與山姆·杜利于1991 年創(chuàng)建。唐納德是MathQuery的原創(chuàng)者,MathQuery 是構(gòu)建- 響應(yīng)數(shù)學的一個以標準為基礎(chǔ)的自動化評分技術(shù)。山姆·杜利是W3C 數(shù)學組中的“特邀專家”。MathQuery 可以實現(xiàn)局部的信用評分,提供詳細的分析和報告,并為學生提供糾正反饋。
皮爾遜知識技術(shù)集團綜合了三家公司的實力,成為教育評估領(lǐng)域的佼佼者,具備了聽說讀寫四種技能的測試評估系統(tǒng)。除了IEA,還擁有幫助提高和評估讀寫技能的WriteToLearn 系統(tǒng)、提高和評估閱讀總結(jié)技能的Summary Street 系統(tǒng)、口語測試系統(tǒng)Versant 和漢語口語測試系統(tǒng)Spoken Chinese Tests。IEA 是基于潛在語義分析(LSA)技術(shù)基礎(chǔ)上開發(fā),利用線性代數(shù)模型分析作文的深層意義。該系統(tǒng)非常適合科技、社會研究、歷史、醫(yī)藥或商業(yè)說明文的分析與評分,雖然主要在于評價文章內(nèi)容方面的質(zhì)量,但也包含了對語法、文體以及操作細節(jié)方面的評分與反饋。
Intellimetric 是華帝學習公司(Vantage Learning')的AES 引擎,一個投資超過千萬美元的商用系統(tǒng),于1996 年開發(fā)和1998 年用于商業(yè)用途?;谌斯ぶ悄軇?chuàng)建的Intellimetric,被世界各地領(lǐng)先的評估機構(gòu)利用于高風險及進展性評估。Intellimetric 采用AI 和NLP 技術(shù)評估作文中的語義、句法、篇章三個層次的300 多項特征。Intellimetric 需要采用專家級評卷員已經(jīng)評好分數(shù)的作文集進行訓練,構(gòu)建模型,然后用小點的測試集檢測模型的效度和概括度。兩項得到確認后,便用于作文自動評分。
自1990 年以來,華帝學習公司為學生成績和學校改進提供了問責制的解決方案(accountability solutions)后,就以滿足教育行業(yè)的需求為目標,不斷提供成熟的技術(shù)和開發(fā)專業(yè)的資源來培養(yǎng)學生、家長和教師之間的有意義互動。憑借如人工智能,自然語言理解和基于Web 的學習對象、在線評估、教學計劃和可定制的數(shù)據(jù)管理系統(tǒng)領(lǐng)域等技術(shù),華帝學習公司被公認為教育行業(yè)的領(lǐng)導(dǎo)者。
教育考試服務(wù)中心(ETS)提供的電子評價者是一個自動作文評分程序E -Rater,于1999 年2月第一次用于商業(yè)。ETS 的CriterionSM 在線寫作評估服務(wù)使用電子評價者引擎E -Rater 提供分數(shù)和有針對性的反饋。E-rater 采用NLP 工具包分析所有的句子,包括詞性標注器、句法分析器、篇章分析器、詞匯相似度量器。E -rater 采用語料庫方法建模,使用統(tǒng)計和自然語言處理技術(shù)來提取待評分文章的語言學特征,然后對照人工閱卷的標準作文集進行評分。E - rater 從1999年開始,已評閱超過750,000GMAT 作文,也被用于托??荚囎魑牡脑u分。
吉爾·伯斯坦(Jill Burstein)是團隊的領(lǐng)隊,具有深厚的語言學學術(shù)背景,專業(yè)研究涉及計算語言學、自然語言處理、語料庫語言學、文本分析、教育技術(shù)、教師培訓等多個方面。她的產(chǎn)品和發(fā)明包括:E -rater 自動作文評分系統(tǒng)和ETS 的基于Web 的自動作文評價體系Criterion。
BETSY(Bayesian Essay Test Scoring Ystem)由美國教育部投資、馬里蘭大學的勞倫斯·拉德納(Lawrence M. Rudner)基于訓練語料對文本進行分類而開發(fā)的程序,可以免費在線使用。文本分類采用的是樸素貝葉斯模型,系統(tǒng)也因此得名。
勞倫斯·拉德納于1971 年獲雪城大學(Syracuse University)的數(shù)學以及初級教育學士專業(yè)的理學學士,1973 年獲西康涅狄格州立大學得教育理學碩士學位,1977 年獲美國天主教大學的教育心理學博士學位,1991 年獲馬里蘭大學的工商管理金融與創(chuàng)業(yè)專業(yè)的碩士。勞倫斯·拉德納擔任研究生入學管理委員會研究和發(fā)展會(GMAC)的副會長,工作包括測試驗證,適應(yīng)性測試,專業(yè)水準,QTI 規(guī)范,測試安全,數(shù)據(jù)取證,以及GMAT考試的監(jiān)督合同。
從以上五個系統(tǒng)和研究團隊的介紹,我們可以發(fā)現(xiàn)美國的AES 系統(tǒng)具有強大的團隊、長久的高額投資,學術(shù)研究型的領(lǐng)軍人物,并且獲得廣泛的應(yīng)用,如表一。
美國的作文自動評分仍然在如火如荼地發(fā)展。2012 年,休利特基金會資助一個叫做學生自動評估獎(Automated Student Assessment Prize ,簡稱ASAP)的Kaggle 在線競賽,目的在于表明AES是可靠的或者比人工評分更可靠。201 名挑戰(zhàn)者參加比賽,被要求使用AES 系統(tǒng)預(yù)測評委打出的作文分數(shù)。在這場比賽中,9 個供應(yīng)商的AES 系統(tǒng)對ASAP 數(shù)據(jù)進行獨立的演示,結(jié)果表明自動作文評分能像人工評分一樣可靠。美國教育部資助兩個跨州聯(lián)盟PARCC (artnership for Assessment of Readiness for College and Careers)和SBAC (Smarter Balanced Assessment Consortium)開發(fā)下一代的評估,這兩個評估體系正在努力鉆研,爭取在2014 -2015 年學年實現(xiàn)基于計算機的測試。美國的作文自動評分正在有條不紊地進行,扎扎實實地邁向更高水平。
表1
美國的PEG,IEA,E - Rater,Intellimetric,BETSY 系統(tǒng)擁有強大的團隊,堅強的后盾和跨學科知識,并且不段更新系統(tǒng),追求技術(shù)的成熟和應(yīng)用的價值。然而,這些國外系統(tǒng)在評估中國學生的英語作文時,其評分結(jié)果與教師的人工評分結(jié)果存在著明顯差異,并且它們也無法很好地檢查與糾正中國學生英語作文中的常見英語單詞錯誤與常見英語語法錯誤。如果我國對英語作文測試的信度和效度要求越來越高的話,作文自動評分將會成為我國大規(guī)模作文測試的主流方式。國外各種智能評分系統(tǒng)的技術(shù)涉及專利問題,雖然還未完全公開,但是豐富的理論研究對我國的研究團隊不無裨益。只要我國繼續(xù)在技術(shù)、人力和資金等方面加大對AES 研發(fā)的投入,同時教育部門提供相應(yīng)的支持,我國的AES 將會擁有更加美好的前景。
[1] Herrington,Anne,and Charles Moran. “What Happens When Machines Read Our Students’Writing?”College English 63.4 (March 2004):480 -499.
[2]Semire Dikli. (2006). An Overview of Automated Scoring of Essays. The Journal of Technology,Learning and Assessment. Volume 5,Number 1.
[3]Semire Dikli,(2006)Automated Essay Scoring.Turkish Online Journal of Distance Education-TOJDE,ISSN 1302 -6488 Volume:7 Number:1 Article:5.
[4]Shermis,M. D.,Burstein,J.,Higgins,D.,&Zechner,K. (in press). (2010). Automated essay scoring:Writing assessment and instruction. In E. Baker,B. McGaw& N. S. Petersen (Eds.),International encyclopedia of education (3 ed.). Oxford,UK:Elsevier.
[5]Shermis,M. D. & Burstein,J. (2003). Automated Essay Scoring:A Cross Disciplinary Perspective. Mahwah,NJ:Lawrence Erlbaum Associates.
[6]Yancey,Kathleen Blake. “Looking Back as We Look Forward:Historicizing Writing Assessment.”CCC 50:3(Feb 1999):483 -503.
[7]陳瀟瀟,葛詩利. 自動作文評分研究綜述[J]. 解放軍外國語學院學報,2008,(9).
[8]葛詩利.面向大學英語教學的通用計算機作文評分和反饋方法研究[D].北京語言大學,2008.
[9]梁茂成,文秋芳.國外作文自動評分系統(tǒng)評述及啟示[J].外語電化教學,2007,(10).
[10]梁茂成.中國學生英語作文自動評分模型的構(gòu)建[M].北京:語教學與研究出版社,2011.
[11]梁茂成.大規(guī)??荚囉⒄Z作文自動評分系統(tǒng)的研制[M].北京:高等教育出版社,2012.
[12]何旭良.句酷批改網(wǎng)英語作文評分的信度和效度研究[J].現(xiàn)代教育技術(shù),2003,(5).
[13]張梅,印勇.英語作文計算機評分技術(shù)綜述[J].外語電化教學,2010,(11).
[14]張仲德,李雅萍.基于文本基礎(chǔ)上冰果智能英語作文的分析與研究[J].長春大學學報,2013,(8).