余小梅
摘 要:自動評分系統(tǒng)在我國高校語言評價測試領(lǐng)域逐漸被推廣使用。本文通過在線訪談、論壇和問卷調(diào)查3種方式對我國高校廣泛使用的冰果智能評閱系統(tǒng)進行了全面考察。梳理來自作文智能評閱系統(tǒng)設(shè)計者、系統(tǒng)使用者雙方的觀點,整理寫作直接參與者的直觀體驗,重點分析智能評閱存在的不足,提出人工欣賞型評閱與智能預(yù)選型評分結(jié)合的人機協(xié)同寫作批改模式,高分示范,低分重新手寫,以激發(fā)學(xué)生英語寫作的興趣,最終提高學(xué)生英語寫作水平。
關(guān)鍵詞:大學(xué)英語寫作;智能評閱;人機協(xié)同評價模式
英語寫作能力一直是衡量大學(xué)生外語能力的一個重要尺度,其重要性從歷年各級各類考試分值占比可見一斑。誠然,寫作水平的發(fā)展與相鄰學(xué)科的學(xué)習(xí)密切相關(guān),但與之有著直接垂直關(guān)聯(lián)的兩方面分別是教和寫、評和改。由于計算機統(tǒng)計技術(shù)、自然語言處理技術(shù)和信息檢索技術(shù)甚至人工智能技術(shù)等的進步以及電腦設(shè)備硬件的普及,越來越多的高校采用智能評閱系統(tǒng)。毫無疑問,這減輕了教師在人工批改的過程中體能的消耗、情緒喜好等因素的干擾以及對相應(yīng)的評分公正與否的心理擔(dān)憂。但這是否意味著英語教師就此解放,借助機器評閱可以實現(xiàn)一勞永逸?語言學(xué)習(xí)者寫作能力是否在這樣一個-技術(shù)控制的客觀的評閱反饋下得到了提升?下文將以我國高校使用最為廣泛的寫作評分系統(tǒng)——冰果智能評分系統(tǒng)就此問題展開探討。
一、研究過程和反饋
為了呈現(xiàn)一個有關(guān)智能評閱系統(tǒng)的客觀圖景,在該主題的調(diào)查過程中,筆者結(jié)合了多種方法,收集了多方觀點。
(一)在線訪談
筆者帶著“智能作文評閱系統(tǒng)如何能評閱千差百異的作文”這一疑問對該評閱系統(tǒng)的技術(shù)人員進行了一個簡短的訪談,反饋的信息如下:
該技術(shù)人員稱,英語智能作文評閱系統(tǒng)基于核心機器學(xué)習(xí)技術(shù)和對我國英語教學(xué)現(xiàn)狀的深入理解,并利用現(xiàn)代互聯(lián)網(wǎng)技術(shù),自主研發(fā)一套對批量英語作文進行機器評閱的網(wǎng)絡(luò)平臺產(chǎn)品,旨在突破性地實現(xiàn)對大批量英語作文進行精準快速的機器評閱,解決當前國內(nèi)英語教學(xué)界大學(xué)中學(xué)英語寫作教學(xué)的實際問題,并且應(yīng)用在大型英語水平考試的評閱體系中,大大節(jié)省人工投入,使工作效率提高了50%以上。
這一段反饋主要是講述該系統(tǒng)研發(fā)的目的,即節(jié)省人工勞動量,提高批閱的效率,這一優(yōu)勢毋庸置疑。
針對系統(tǒng)批改原理,該技術(shù)人員指出,打分機制及案例基于語言學(xué)專家開發(fā)的大型詞法、句法和語義規(guī)則庫,對學(xué)生作文進行語言方面的多維度評估。這種多維度批改具體內(nèi)容涵蓋以下幾個方面:①內(nèi)容及主題思想;②篇章結(jié)構(gòu)——連貫性;③句子結(jié)構(gòu)準確度——語法;④語言流利程度——文風(fēng);⑤詞語運用——拼寫和詞語運用。系統(tǒng)批改原理的依據(jù)是后臺開發(fā)的語料庫,而不是一篇一篇作文集合而成的作文語料庫。
對于“既然你們的語料庫是基于詞法、句法和語義規(guī)則,那么怎么能評判主題和風(fēng)格呢?”這一問題,該技術(shù)員沒有給出回答。顯然,技術(shù)員在如何評判“風(fēng)格”“主題”問題上的沉默代表著智能評閱系統(tǒng)的難度。
(二)教師論壇意見
教師A:“這是我一個學(xué)生100分的作文,n多明顯的錯誤;我還不止一個學(xué)生得100;同樣的題目,學(xué)生找了篇和主題無關(guān)的范文的得分?!?/p>
教師B:“據(jù)我的考察,機器的低分判定很多情況下都比較符合事實,而機器的高分判定結(jié)果很多情況下與作文的真實價值好像有所出入。系統(tǒng)有主題偏離分析?!?/p>
教師C:“機器肯定是問題多多,更何況面對的是作文這種不可量化的東西。”
以上表述顯然具有代表性,一部分教師并不愿意或者不信賴智能評分系統(tǒng),事實上的確出現(xiàn)讓教師不信任的理據(jù),尤其在高分評定上。
將作文與評語相對照,系統(tǒng)打分明顯是基于語言語法最基礎(chǔ)的方面,而對于風(fēng)格、文采等方面的處理印證了上述教師的觀察。
(三)問卷調(diào)查
筆者在任教的大學(xué)一年級平行班級推行使用國內(nèi)高校普遍采用的冰果作文智能評分系統(tǒng),在一個學(xué)年內(nèi),布置了一定數(shù)量的寫作任務(wù),在學(xué)生提交之后,同期做了一個問卷調(diào)查,所有問卷都收回,真實有效,收回反饋卷兩個班各38份。問卷設(shè)計的問題和統(tǒng)計結(jié)果反饋分別如表1和表2所示。
從表1、表2中可以看出,學(xué)生使用者顯然對智能評閱系統(tǒng)也存在不滿,評價系統(tǒng)仍有很大的提升空間。各方觀點在一定程度上反映出智能評分系統(tǒng)的信度,如評判得準確與否、滿分和高分的評定、智能評閱對學(xué)生寫作習(xí)慣和水平的影響以及學(xué)生是否改正錯誤。不難看出學(xué)生方有3個突出趨向:(1)針對一個寫作任務(wù),學(xué)生需要一篇甚至若干篇范文作為修改參考;(2)需要評閱者對全文的宏觀構(gòu)思、主旨和微觀語言詞句表達都能作出準確的、針對性強的而非過于籠統(tǒng)的點評,糾錯的同時指出作文的優(yōu)點;(3)雖然智能評分系統(tǒng)能減輕教師的評閱負擔(dān),但82%和84%的學(xué)生選擇人工評閱。
二、對策
“計算機自動作文評分屬于典型的智能計算。”(葛詩利,陳瀟瀟,2009)當前使用的各種智能評分系統(tǒng)如PEG、IEA、E-rater等都很大程度地依托淺層文本特征統(tǒng)計,即詞匯的統(tǒng)計?!白詣幼魑脑u分中對內(nèi)容的評分只能是對人工文章內(nèi)容評分的一種近似的模仿。”(同上)對作文語言使用的評價通常包括詞匯、句型、語法和操作細節(jié)幾個方面。文秋芳(2007:67)指出,“詞匯指作文所用單詞的詞頻高低、單詞的搭配以及恰當性;句型指作文所用句型的復(fù)雜度和多樣性;語法指作文所用語言是否符合語法規(guī)則;操作細節(jié)指拼寫、大小寫、標點等使用情況?!庇需b于此,筆者針對以上調(diào)查和梳理出的問題,建議采取以下評閱模式。
(1)針對每一次寫作任務(wù),提供一篇甚至若干篇同一課題的論文作為評閱參照,確保學(xué)生有范文可自行學(xué)習(xí),從而延伸課堂教學(xué),使評閱更為合理。因此,很有必要建設(shè)智能評閱系統(tǒng)主題作文語料庫。
(2)技術(shù)層面,系統(tǒng)在設(shè)置評閱變量時,效仿TOEFL考試中應(yīng)用的E-rater,從語言形式和闡述內(nèi)容兩方面對作文進行針對性強的評價。鑒于智能評閱系統(tǒng)在低分作文評定方面有較高的信度以及無論從局部還是全局“手寫作文的錯誤的改正率大于在線作文的錯誤的改正率”的現(xiàn)狀,可以讓機器對作文先作一個預(yù)批閱,篩查出低分作文。對于這些低分作文,教師要求學(xué)生重新手寫,以促反思改進。對于高分作文,在機器評閱的基礎(chǔ)上讓教師進行人工審閱,在課堂進行公開示范點評,并對其優(yōu)點、主旨、篇章結(jié)構(gòu)、內(nèi)容邏輯性和連貫性等方面突出分析。80%以上的學(xué)生選擇人工評閱,這揭示出互動和情感因素在學(xué)習(xí)過程中發(fā)揮的重要作用。這需要教師人工的積極干預(yù)、對優(yōu)點的褒獎和對不足的中肯貼切的建議。因此,自動評分要以人工評分為準,尤其是高分作文。
三、結(jié)語
面對多次數(shù)大規(guī)模的寫作評閱,回歸全面人工在很大程度上是倒退,那么只有一方面不斷完善智能評分系統(tǒng)提高其評閱的信度即可靠性,另一方面加強教師對寫作評閱的積極干預(yù),將注重語言特征的機器和注重高層次寫作技巧的人工結(jié)合起來,采取人機協(xié)同評閱模式,評分之外更注重學(xué)習(xí)者自主學(xué)習(xí)和反思,才能真正激發(fā)學(xué)生的英語寫作興趣并提升學(xué)生的寫作水平。
參考文獻:
[1]陳亦挺.在線英語寫作有效性研究——基于冰果英語智能作文評閱系統(tǒng)[D].杭州:浙江大學(xué),2012.
[2]陳蕓.基于自動作文評分系統(tǒng)的英語寫作調(diào)查分析[J].語文學(xué)刊,2011(11):72.
[3]郭春珍.冰果英語作文智能評閱的應(yīng)用與利弊[J].湖北函授大學(xué)學(xué)報,2017(7):148-149.
[4]梁茂成.大規(guī)??荚囉⒄Z作文自動評分系統(tǒng)的研制[M].北京:高等教育出版社,2012.