唐冬寧 張威
[摘 要] 本文回顧和分析了國內(nèi)外寫作在線反饋系統(tǒng)的發(fā)展。在計算機輔助語言學(xué)習(xí)、O2O教學(xué)改革的背景下,寫作教學(xué)領(lǐng)域中寫作輸出的在線反饋系統(tǒng)得到廣泛的應(yīng)用。未來的研究可以從三個方面進行:寫作在線反饋系統(tǒng)的評價和修正兩個維度的開發(fā),寫作在線反饋系統(tǒng)的信度和效度的優(yōu)化,以及寫作在線反饋系統(tǒng)與其他反饋方式的互補模式。
[關(guān)鍵詞] 寫作教學(xué);在線反饋;信度;效度
[中圖分類號]G642 [文獻標(biāo)志碼] A [文章編號] 1008-2549(2017) 04-0013-03
一 研究背景
寫作是一個復(fù)雜的認知過程,學(xué)生始終是這一學(xué)習(xí)過程的主體,提高其英語寫作方面的自我認知水平并進行有效修改的一個關(guān)鍵保障就是“一種源自回應(yīng)的自我認知修正”(Freedman,1985),即對其所寫英語作文的反饋。反饋原本是控制論中的一個基礎(chǔ)概念,是指在控制系統(tǒng)中將輸出端的信息返回到輸入端,并對該信息的再次輸出產(chǎn)生影響的過程。從語言學(xué)注意假設(shè)理論的角度來解釋,反饋是“促使注意的一個推動力,反饋能修正不正確的假設(shè),將學(xué)習(xí)者引導(dǎo)到目的語的軌跡上”(SwainandLapkin,1995),他指出反饋能“促使學(xué)習(xí)者注意到中介語和目的語間的差異,并讓學(xué)習(xí)者重新構(gòu)建對目的語所形成的假設(shè),對語言結(jié)構(gòu)進行重組”。
從20世紀70年代起,計算機輔助教學(xué)(Computer-assistedInstruction,簡稱CAI)開始出現(xiàn)在教育領(lǐng)域,其中計算機輔助語言學(xué)習(xí)在外語教學(xué)中的作用越來越受到人們的關(guān)注。國家教育部在2003年啟動的“高等學(xué)校教學(xué)質(zhì)量和教學(xué)改革工程”中明確提出要利用現(xiàn)代化信息技術(shù),進行大學(xué)英語教學(xué)的改革工作。2012年,教育部在《教育部關(guān)于全面提高高等教育質(zhì)量的若干意見》中特別提到信息技術(shù)應(yīng)當(dāng)在學(xué)校的教學(xué)層面上得到更為廣泛的應(yīng)用。這一改變已經(jīng)延伸到了寫作教學(xué)領(lǐng)域,尤其是在寫作輸出的反饋中。
二 國內(nèi)外寫作在線反饋系統(tǒng)(AutomatedEssayScoring,AES)
近幾十年來,隨著計算機硬件和軟件性能的提高,自然語言處理技術(shù)獲得長足的發(fā)展,國外一批作文自動評分系統(tǒng)相繼問世。其中最具代表性的三種作文自動評分系統(tǒng)是:PEG(ProjectEssayGrade)、IEA(IntelligentEssayAssessor)和E-rater。PEG偏重語言形式,IEA偏重語言內(nèi)容,而E-rater則既重形式又重內(nèi)容。
1966年,PEG由美國杜克大學(xué)的EllisPage等人開發(fā)(Daigon,1966;Page,1966)。他們在其網(wǎng)站上公開申明:“PEG不能理解作文的內(nèi)容”。PEG利用當(dāng)時并不發(fā)達的自然語言處理技術(shù),基于文本特征項(textfeatures)與人工評分之間進行相關(guān)性分析。PEG依靠分析文章的淺層語言學(xué)特征對作文進行評分,如:長度、介詞、關(guān)系代詞及其他詞性的詞匯數(shù)量、詞長的變化等,沒有涉及內(nèi)容、組織、體裁等方面。
到了20世紀90年代,自然語言處理與信息提取技術(shù)取得了長足的進步。依托這些技術(shù),數(shù)種有代表性的AES系統(tǒng)得以開發(fā)。IEA(IntelligentEssayAssessor)是一種基于潛在語義分析(LatentSemanticAnalysis)的作文自動評分系統(tǒng),由美國科羅拉多大學(xué)的ThomasLandauer等學(xué)者開發(fā)。與PEG顯著不同的是,IEA的設(shè)計者們在其網(wǎng)站上申明:“IEA是唯一能夠測量語義和作文內(nèi)容的程序”。據(jù)IEA的設(shè)計者們報告,潛在語義分析主要分析文本的內(nèi)容和學(xué)生作文中所傳達的知識,而不是作文的風(fēng)格或語言(Foltzetal,1998)。根據(jù)Landauer和Dumais(1997)的描述,文本中隱藏著一個潛在的語義結(jié)構(gòu)(SemanticStructure),這一潛在的語義結(jié)構(gòu)正是所有詞匯(潛伏語義分析稱之為“詞匯項”,即terms)的語義之和。將潛在語義分析用于學(xué)生作文自動評分時,待評分的作文與預(yù)先選定的范文(訓(xùn)練集)進行比較之后,可以得到每一篇待評分作文與范文在內(nèi)容上的相似度得分(SimilarityScore)。
E-rater是由美國教育考試處(Educational Testing Service,ETS)于20世紀90年代開發(fā),其目的是評估GMAT考試中的作文質(zhì)量。E-rater的開發(fā)者們聲稱,他們的作文評分系統(tǒng)利用了多種技術(shù),其中包括統(tǒng)計技術(shù)、矢量空間模型技術(shù)和自然語言處理技術(shù)(Valentietal.2003)。憑借這些技術(shù),E-rater不光能夠像PEG那樣評判作文的語言質(zhì)量,還能夠像IEA那樣評判作文的內(nèi)容質(zhì)量,此外,E-rater還對作文的篇章結(jié)構(gòu)進行分析。E-rater圍繞這三個主要方面對作文的質(zhì)量進行分析和評判,Burstein等人把這三個方面稱作模塊,第一個模塊為話語(Discourse)結(jié)構(gòu)(即篇章結(jié)構(gòu))分析模塊,主要靠在文本中搜索“insummary”、“inconclusion”等提示詞(CueWords)的方法得以實現(xiàn)(Bursteinetal,1998b);第二個模塊為句法多樣性(SyntacticVariety)分析模塊,根據(jù)作文中句子結(jié)構(gòu)的多樣性來評判作文的質(zhì)量,顯然,該模塊的目的是分析作文的語言質(zhì)量;第三個模塊為內(nèi)容(Content)分析模塊,在這一模塊中,E-rater通過矢量空間模型,觀察作文中是否包含了足夠的與作文題目高度相關(guān)的主題詞。
國內(nèi)利用計算機進行英語作文評分和反饋的研究包括三種類型,一種是以計算機和網(wǎng)絡(luò)為平臺的人工作文評分,另一種是計算機輔助作文評估和反饋,最后一種是自動作文評分。第一種以王躍武教授為代表,他的研究致力于建立一種依托計算機及網(wǎng)絡(luò)的高信度的大學(xué)英語四、六級考試作文網(wǎng)上閱卷管理系統(tǒng)。該系統(tǒng)能夠向閱卷人隨機分發(fā)試卷,對閱卷行為進行實時監(jiān)控,并對閱卷員的閱卷質(zhì)量進行控制。其后續(xù)研究表明,利用該系統(tǒng)所給的作文評分信度高于傳統(tǒng)閱卷方式評出的作文分數(shù)。在這種研究中,計算機只是作文評分的一個工具或者平臺,作文評分是由教師完成。
國內(nèi)較早的作文自動評分系統(tǒng)是梁茂成(2005)研制的適合國內(nèi)英語學(xué)習(xí)者的作文自動評分系統(tǒng),該系統(tǒng)從語言、內(nèi)容和結(jié)構(gòu)三個層面評估作文并給出分數(shù)。而目前實現(xiàn)商業(yè)化,在較多院校投入教學(xué)改革應(yīng)用的在線寫作自動評改系統(tǒng),則是以句酷批改網(wǎng)為代表。句酷批改網(wǎng)借助語料庫和數(shù)據(jù)庫的強大功能,能夠在短時間內(nèi)對學(xué)生提交的作文做逐詞逐句的批改,并給出基于語料庫的改進建議,因此學(xué)生能夠從詞句的層面上顯著受益。
2005年,梁茂成教授主持開發(fā)“大規(guī)模考試英語作文自動評分系統(tǒng)”,該項研究成果可實現(xiàn)對中國學(xué)生英語作文的大規(guī)模機器評分,具有極大的實用價值。該系統(tǒng)的工作原理是提取淺層文本特征,對內(nèi)容的潛在語義進行分析,再運用線性回歸,進而得出評分,實驗結(jié)果與人工評分相比較達到了較高的相關(guān)度。
“句酷批改網(wǎng)”是基于云計算與語料庫技術(shù)的英語作文自動批改系統(tǒng),是一個以SAAS(Software-as-a-Service,軟件即服務(wù))的方式提供作文在線自動評閱服務(wù)的云平臺,其核心算法是在一定規(guī)模的訓(xùn)練集和測試集的基礎(chǔ)上,通過計算學(xué)生作文與對比語料庫之間的差距,例如拼寫錯誤、語法錯誤、中式英語等,計算作文在詞匯、語句、篇章和內(nèi)容等四方面的得分,再通過映射(打分公式)將該差異轉(zhuǎn)化成作文分數(shù)及評語,學(xué)生可以根據(jù)反饋進行自助作文修改,在不斷修改的過程中提高自己的寫作能力。
三 寫作在線反饋系統(tǒng)的研究方向
首先,寫作在線反饋包含兩個維度,評價(Evaluation)和修正(Correction)。評價是指讀者對于作者文章的整體性、概括性的評論或評分;修正則是讀者向作者提供的詳細的解釋、說明、指導(dǎo),意在幫助作者找出不足之處,并且改正不足之處(張雪梅,戴煒棟,2001)。
AES系統(tǒng)有兩個應(yīng)用目標(biāo):一方面是用于大規(guī)模考試的自動評分;另一方面用于寫作教學(xué),作為一個提供反饋的工具。前面討論到的幾個系統(tǒng),基本都是以第一個目標(biāo)為主,也有在此基礎(chǔ)上兼顧第二個目標(biāo)的,比如E-Rater。Page把作文評分分為內(nèi)容評分與文體評分,前者指文章講了什么,后者指句法、寫作機制、用詞以及文章如何表達等其他方面。有的系統(tǒng)偏重于分析文體(如PEG),有的系統(tǒng)偏重于分析內(nèi)容(如IEA),有的二者兼收并蓄(如E-Rater)。
對于中國的EFL作文,只分析內(nèi)容顯然不切合實際,最終目的還是為了促進英語學(xué)習(xí)。所以我國AES研究應(yīng)著重于第二個目標(biāo),即為學(xué)生提供一個基于網(wǎng)絡(luò)的寫作環(huán)境,能夠為學(xué)生的作文給出即時的評分與反饋,指導(dǎo)學(xué)生寫作。在這個應(yīng)用上,準(zhǔn)確而詳盡的反饋至關(guān)重要,而要提供反饋,只有淺層的文本特征提取與分析是不夠的,必須結(jié)合中國學(xué)生英語作文的實際情況,采用各種NLP(NaturalLanguageProcessing)工具,對文章作出細致的深層次分析。當(dāng)前的詞匯、語法的分析技術(shù)已經(jīng)比較成熟,只要加以適當(dāng)?shù)母倪M,便可用于中國EFL作文評分,并給出這兩方面的詳細反饋,可參考IEA的方法,給出內(nèi)容方面的提示;在篇章結(jié)構(gòu)方面,可參考E-Rater的方法。更重要的是,根據(jù)英語寫作教學(xué)理論,在反饋中要給出正面的表揚、鼓勵性提示(王初明2004)。
再者,寫作在線反饋系統(tǒng)存在信度和效度問題。作文自動評分的目的是利用多學(xué)科技術(shù)有效地模擬人工評分,以達到快速評定作文質(zhì)量的目的。因此,在對計算機評分模型進行訓(xùn)練時,訓(xùn)練集作文人工評分的信度至關(guān)重要。只有有效地模擬具有較高信度的人工評分,計算機評分才有意義。評價對學(xué)生作文的評分是否合理,所需考察的另一個方面是評分的效度,如上文所述,對作文進行評分一般至少需要從作文的語言質(zhì)量、內(nèi)容質(zhì)量和篇章結(jié)構(gòu)質(zhì)量三個主要方面對作文的整體質(zhì)量加以衡量。
PEG雖然對作文的語言質(zhì)量有著較強的分析能力,但忽略了作文的內(nèi)容質(zhì)量和篇章結(jié)構(gòu)質(zhì)量,因而其評分結(jié)果存在較大的效度問題。與此相類似,IEA突出了評分過程中作文內(nèi)容的重要性,但忽略了作文的語言質(zhì)量和篇章結(jié)構(gòu)質(zhì)量,顯然也存在較大的效度問題。與這兩種系統(tǒng)相比,E-rater以其模塊結(jié)構(gòu)兼顧了作文質(zhì)量的三個主要方面。國內(nèi)的寫作在線反饋起步較晚,多以淺層特征的統(tǒng)計分析為主,也有樣本數(shù)量、范圍的局限性,其評分模型與實用系統(tǒng)尚有一定的距離。
此外,在實際的寫作教學(xué)中,為滿足學(xué)生個性化的學(xué)習(xí)要求,在線反饋系統(tǒng)也需與其他反饋方式進行有效互補。寫作教學(xué)中,根據(jù)反饋的來源,可將反饋分為教師反饋、同伴反饋和計算機網(wǎng)絡(luò)反饋。研究表明,教師反饋能明顯增強學(xué)生的寫作篇章布局意識;同伴反饋過程中學(xué)生通過協(xié)商和討論,以一種雙向、主動的反饋方式提高寫作水平和思維能力,同時,學(xué)生的自主學(xué)習(xí)能力和合作精神也相應(yīng)增強;計算機網(wǎng)絡(luò)在線反饋則是借助現(xiàn)代化教育技術(shù),在網(wǎng)絡(luò)環(huán)境中的師生互動以及在寫作反饋過程中加入自動評改系統(tǒng),可以明顯激發(fā)學(xué)生的自主寫作興趣、豐富寫作內(nèi)容和提高語言質(zhì)量,可提高教師的工作效率,協(xié)助教師為學(xué)習(xí)者提供具有針對性的修改建議,同時也可以更好的保證評分的一致性,作文評分本質(zhì)上存在主觀性,人工評分的一致性會因此受到一定的影響,而寫作在線反饋受這方面的影響較小。
綜上所述,在線上線下混合式教學(xué)改革的背景下,在線反饋系統(tǒng)在寫作教學(xué)中越來越重要,未來的研究可以從以上三個方面進行,寫作在線反饋系統(tǒng)的兩個維度(評分和修正)的開發(fā);寫作在線反饋系統(tǒng)的信度和效度的優(yōu)化;寫作在線反饋系統(tǒng)與其他反饋方式的互補模式。
參考文獻
[1]Freedman,S.W.(Ed.)The Acquisition of Written
Language:Response and Revision[M].Norwood,NJ:
Ablex,1985.
[2]Page,E.Project essay grade:PEG[A].In M .Shermis&J.
Burstein(eds.).AutomatedEssayScoring:ACross-disciplinary
Perspective[C].Mahwah,N.J.:Lawrence Erlhaum.2003:
43-54.
[3]Swain,M.Three functionso fo utput in second language
learning.In G.Cook & B.Seidlhofer(Eds.),Principles and
practice in applied linguistics:Studies in honor of H.G.
Widdowson[C].Oxford:Oxford University Press,1995:
125-144.
[4]Attali,Y.Exploring the feedback and revision features of
criterion[R].Paper presented at the Annual Meeting of the
National Council on Measurement in Education,San
Diego,CA.,America,April 2004.
[5]Chen,E. & E.Cheng.2008.Beyond the design of automated
writing evaluation:Pedagogical practices and perceived
learning effectiveness in EFL writing classes[J].Language
Leaning & Technology 2008(12):94-112.
[6]Elliot,S. & C.Mikulas.2004.The impact of MY Acess use
on student wrting performance:A technology overview and
fours tudies[R].Paper presented at the Annual Meeting of
American Educational Research Association,San Diego,
CA.,America,2004(4).
[7]蔡基剛.中國大學(xué)生英語寫作在線同伴反饋和教師
反饋對比研究[J].外語界,2011(2):65-72.
[8]陳曉湘,李會娜.教師書面性修正反饋對學(xué)生寫作的
影響[J].外語教學(xué)與研究,2009(5).
[9]梁茂成.中國學(xué)生英語作文自動評分模型的構(gòu)建[M].
北京:外語教學(xué)與研究出版社,2010.
[10]梁茂成.大規(guī)??荚囉⒄Z作文自動評分系統(tǒng)的研制
[M].北京:高等教育出版社,2011.
[11]周一書.大學(xué)英語寫作反饋方式的對比研究[J].外語
界,2013(3):87-95.
[12]葛詩利,陳蕭蕭.中國EFL學(xué)習(xí)者自動作文評分探索
[J].外語界,2007(5):43-50.
[13]梁茂成、文秋芳.國外作文自動評分系統(tǒng)評述及啟示
[J].外語電化教學(xué),2007(5):18-24.
[14]李金輝.使用潛伏語義分析理論研究計算機改中國
學(xué)生英語作文[D].廣東外語外貿(mào)大學(xué),2009.