王鶯鶯
(湖南科技大學(xué)外國(guó)語(yǔ)學(xué)院,湖南湘潭411201)
AES(Automated Essay Scoring)研究自上世紀(jì)60年代以來(lái),在國(guó)外取得了較大的進(jìn)展,很多理論模型得以應(yīng)用。從最初的作文自動(dòng)評(píng)分系統(tǒng)PEG(Project Essay Grader)到1997年研發(fā)的 IEA(Intelligent Essay Assessor),到1999年開(kāi)始用于GMAT考試作文評(píng)分和2005年開(kāi)始用于托福考試作文評(píng)分的E-Rater(Electronic Essay Rater),再到能夠評(píng)閱多種語(yǔ)言文本的IntelliMetric和BETSY,作文自動(dòng)評(píng)分系統(tǒng)始終在不斷地更新和進(jìn)步,力求更符合語(yǔ)言測(cè)試的要求。
從以上幾種國(guó)外主流的作文自動(dòng)評(píng)分系統(tǒng)來(lái)看,它們采用的樣本都是美國(guó)學(xué)生的英語(yǔ)作文,能較準(zhǔn)確地測(cè)試美國(guó)學(xué)生的英語(yǔ)寫(xiě)作水平,但對(duì)于非本族語(yǔ)學(xué)生,尤其是低水平英語(yǔ)學(xué)習(xí)者,“自動(dòng)作文評(píng)分與人工評(píng)分會(huì)出現(xiàn)統(tǒng)計(jì)上的顯著性差異”。因?yàn)橐杂⒄Z(yǔ)為母語(yǔ)的作文中,絕大多數(shù)句子都不存在嚴(yán)重的語(yǔ)法錯(cuò)誤,而低水平英語(yǔ)學(xué)習(xí)者的作文中,有可能充斥著各種句法錯(cuò)誤。此外,以上幾種國(guó)外主流的作文自動(dòng)評(píng)分系統(tǒng)都適用于大規(guī)模語(yǔ)言測(cè)試,針對(duì)任何一次測(cè)試,各系統(tǒng)都必須預(yù)先接受“訓(xùn)練集”的反復(fù)訓(xùn)練,此“訓(xùn)練集”通常“需要200甚至300篇以上已評(píng)分的作文作為訓(xùn)練語(yǔ)料”。由于“訓(xùn)練集”對(duì)樣本作文的需求大,因此這些作文自動(dòng)評(píng)分系統(tǒng)不適用于小規(guī)模語(yǔ)言測(cè)試,尤其不適用于自我測(cè)試。而使用效度較高的作文自動(dòng)評(píng)分系統(tǒng)進(jìn)行自我測(cè)試,根據(jù)系統(tǒng)提供的實(shí)時(shí)評(píng)分和反饋修改作文,是有效提高學(xué)習(xí)者英語(yǔ)寫(xiě)作水平的重要途徑之一。同時(shí),它能為大學(xué)英語(yǔ)低年級(jí)學(xué)習(xí)者提供基于網(wǎng)絡(luò)的寫(xiě)作環(huán)境,在提高學(xué)習(xí)者英語(yǔ)寫(xiě)作水平的同時(shí)提高他們對(duì)大學(xué)英語(yǔ)4、6級(jí)網(wǎng)考的適應(yīng)度,并能在一定程度上緩解因大學(xué)英語(yǔ)教師的嚴(yán)重短缺而引起的寫(xiě)作教學(xué)嚴(yán)重不足的現(xiàn)狀。這就為AES系統(tǒng)在不斷更新、完善大規(guī)模語(yǔ)言測(cè)試功能的同時(shí)提出了另一個(gè)應(yīng)用目標(biāo),即提供即時(shí)的寫(xiě)作反饋以指導(dǎo)寫(xiě)作。
在這一研究領(lǐng)域,國(guó)內(nèi)的外語(yǔ)教學(xué)與研究出版社做出了有益的嘗試。2002年,它開(kāi)發(fā)了《新視野大學(xué)英語(yǔ)》配套網(wǎng)絡(luò)課程,為英語(yǔ)學(xué)習(xí)者提供了資源豐富的在線學(xué)習(xí)平臺(tái)?!癢rite on”作文自動(dòng)評(píng)分系統(tǒng)是新視野在線學(xué)習(xí)平臺(tái)內(nèi)的作文測(cè)評(píng)工具,它采用大學(xué)英語(yǔ)4、6級(jí)寫(xiě)作評(píng)分標(biāo)準(zhǔn),將分值范圍設(shè)定為1-15分,能夠?qū)θ魏晤}目的英語(yǔ)作文進(jìn)行自動(dòng)評(píng)分、計(jì)算單詞總數(shù)并給出評(píng)語(yǔ)。2008年,美國(guó)著名的教育測(cè)評(píng)與研究機(jī)構(gòu)CTB/McGraw-Hill開(kāi)發(fā)了Writing Roadmap這一在線英語(yǔ)寫(xiě)作自動(dòng)評(píng)分系統(tǒng)。它能從6個(gè)維度(思想內(nèi)容、組織架構(gòu)、文體、詞匯選擇、語(yǔ)言流暢程度和語(yǔ)言基本功)對(duì)作文進(jìn)行分析、評(píng)分并給出評(píng)語(yǔ)。該系統(tǒng)的主要特色是它作為一種形成性評(píng)價(jià)工具,能夠自動(dòng)生成地區(qū)、學(xué)校和班級(jí)報(bào)告,便于教師和教學(xué)管理者及時(shí)了解寫(xiě)作教學(xué)效果,也便于他們利用此分析報(bào)告進(jìn)行教學(xué)科研分析。2009年,浙江大學(xué)外語(yǔ)學(xué)院與杭州增慧網(wǎng)絡(luò)科技有限公司聯(lián)合開(kāi)發(fā)了“冰果英語(yǔ)智能作文評(píng)閱系統(tǒng)”。該系統(tǒng)利用最新的服務(wù)器處理芯片的大規(guī)模數(shù)據(jù)尋址及計(jì)算能力,結(jié)合文本語(yǔ)境處理、詞法分析、句法分析、語(yǔ)義分析以及篇章分析等分析模塊,能夠?qū)τ⒄Z(yǔ)作文做出即時(shí)評(píng)分,還能從詞匯、語(yǔ)法、文風(fēng)、內(nèi)容等方面給出反饋意見(jiàn)。該系統(tǒng)的主要特色為教師可以在機(jī)器評(píng)閱的基礎(chǔ)上加以人工批改或進(jìn)行班級(jí)點(diǎn)評(píng)。從上述幾種適用于小規(guī)模語(yǔ)言測(cè)試和自我測(cè)試的作文自動(dòng)評(píng)分系統(tǒng)來(lái)看,它們有著各自不同的特點(diǎn),因而擁有各自的適用人群?!缎乱曇按髮W(xué)英語(yǔ)》作文自動(dòng)評(píng)分系統(tǒng)是專門(mén)為大學(xué)生開(kāi)發(fā)的,它適合高等院校的大學(xué)英語(yǔ)學(xué)習(xí)者使用。Writing Roadmap和“冰果英語(yǔ)智能作文評(píng)閱系統(tǒng)”的適用人群較廣,包括中小學(xué)生、大學(xué)生和其他英語(yǔ)學(xué)習(xí)者。此外,上述作文自動(dòng)評(píng)分系統(tǒng)在使用的準(zhǔn)入方面存在差異?!缎乱曇按髮W(xué)英語(yǔ)》作文自動(dòng)評(píng)分系統(tǒng)屬于《新視野大學(xué)英語(yǔ)》教材的配套網(wǎng)絡(luò)課程,教材的使用者通過(guò)電子郵件獲取賬號(hào)和密碼后即可免費(fèi)使用該系統(tǒng)。Writing Roadmap可以免費(fèi)在線試用,長(zhǎng)期使用則需付費(fèi)購(gòu)買(mǎi)。“冰果英語(yǔ)智能作文評(píng)閱系統(tǒng)”需要校方或使用者購(gòu)買(mǎi)使用,且必須在局域網(wǎng)中運(yùn)行。比較而言,《新視野大學(xué)英語(yǔ)》作文自動(dòng)評(píng)分系統(tǒng)作為一種簡(jiǎn)單、便捷、經(jīng)濟(jì)的學(xué)習(xí)評(píng)估工具,更適合高等院校的大學(xué)英語(yǔ)學(xué)習(xí)者使用。
效度是語(yǔ)言測(cè)試關(guān)注的首要問(wèn)題?!缎乱曇按髮W(xué)英語(yǔ)》作文自動(dòng)評(píng)分系統(tǒng)作為小規(guī)模語(yǔ)言測(cè)試和自我測(cè)試的適用模型,能否較準(zhǔn)確地反映學(xué)習(xí)者的英語(yǔ)寫(xiě)作水平,關(guān)系到其能否取代傳統(tǒng)的人工評(píng)閱,以實(shí)現(xiàn)計(jì)算機(jī)的工作效率最大化;同時(shí)也關(guān)系到它能否利用即時(shí)評(píng)分和反饋指導(dǎo)寫(xiě)作,成為學(xué)習(xí)者有效提高英語(yǔ)寫(xiě)作水平的學(xué)習(xí)輔助工具。影響作文自動(dòng)評(píng)分系統(tǒng)效度的因素很多,如其工作原理和各分析模塊的主要參數(shù)等等,限于篇幅,本文不作詳述。檢驗(yàn)作文自動(dòng)評(píng)分系統(tǒng)效度的維度也有很多,如系統(tǒng)的自動(dòng)評(píng)分是否與人工評(píng)分較為近似,它們之間的相關(guān)性是否顯著,系統(tǒng)的效標(biāo)關(guān)聯(lián)效度如何,等等。本文主要從以下幾個(gè)維度檢驗(yàn)《新視野大學(xué)英語(yǔ)》作文自動(dòng)評(píng)分系統(tǒng)(以下簡(jiǎn)稱系統(tǒng))的效度:
(1)系統(tǒng)自動(dòng)評(píng)分與人工評(píng)分的相關(guān)性是否顯著?
(2)系統(tǒng)自動(dòng)評(píng)分中各分?jǐn)?shù)檔的精確率和誤判率各是多少?
(3)系統(tǒng)所給評(píng)語(yǔ)的效標(biāo)關(guān)聯(lián)效度如何?
(4)系統(tǒng)所給評(píng)語(yǔ)中各版塊是否對(duì)作文總體評(píng)分具有預(yù)測(cè)力?
問(wèn)題(1)(2)側(cè)重檢驗(yàn)系統(tǒng)所給分值的效度。問(wèn)題(3)(4)側(cè)重檢驗(yàn)系統(tǒng)所給評(píng)語(yǔ)的效度。
從本校的大學(xué)英語(yǔ)第4冊(cè)期末考試試卷庫(kù)中隨機(jī)抽取作文語(yǔ)料200份(其中文科試卷70份,理科、工科試卷各65份),編號(hào)并記錄原始評(píng)分(分值范圍為1-15分)。挑選有多年大學(xué)英語(yǔ)寫(xiě)作教學(xué)經(jīng)驗(yàn)的教師4人,按照大學(xué)英語(yǔ)4級(jí)考試作文評(píng)分標(biāo)準(zhǔn)對(duì)上述200份作文進(jìn)行重新評(píng)閱(分值范圍為1-15分)。為消除原始評(píng)分對(duì)評(píng)閱人的心理暗示,我們隱去了200份作文語(yǔ)料的原始評(píng)分。重新評(píng)閱后的分值與原始評(píng)分相同的,作為該作文的最后得分。重新評(píng)閱后的分值與原始評(píng)分不同的,由其他3位教師復(fù)評(píng),取4次評(píng)分的平均值(此平均值為小數(shù)點(diǎn)后一位四舍五入得到的整數(shù))作為該作文的最后得分。按編號(hào)記錄人工閱卷的最終評(píng)分。
由于部分單詞拼寫(xiě)錯(cuò)誤將嚴(yán)重影響系統(tǒng)對(duì)文章的理解,從而影響作文的總體評(píng)分,因此我們將作文語(yǔ)料輸入自動(dòng)評(píng)分系統(tǒng)后,利用系統(tǒng)配備的拼寫(xiě)檢查工具對(duì)這些錯(cuò)誤進(jìn)行了人工改正,之后才提交給系統(tǒng)進(jìn)行自動(dòng)評(píng)分。按編號(hào)記錄系統(tǒng)給出的評(píng)分和評(píng)語(yǔ)。
表1顯示了系統(tǒng)自動(dòng)評(píng)分和人工評(píng)分的分?jǐn)?shù)分布情況。由此表可知,人工評(píng)分較系統(tǒng)自動(dòng)評(píng)分更集中在分?jǐn)?shù)的中段(7、8、9分);系統(tǒng)自動(dòng)評(píng)分的離散程度較人工評(píng)分的離散程度高;系統(tǒng)自動(dòng)評(píng)分與人工評(píng)分的低段分一致,高段分明顯多于人工評(píng)分。使用Pearson工具對(duì)系統(tǒng)自動(dòng)評(píng)分與人工評(píng)分進(jìn)行內(nèi)部相關(guān)性檢驗(yàn),得到系統(tǒng)自動(dòng)評(píng)分與人工評(píng)分之間的相關(guān)系數(shù)為0.62,表明系統(tǒng)自動(dòng)評(píng)分與人工評(píng)分之間的相關(guān)性較顯著,2種評(píng)分系統(tǒng)中的分?jǐn)?shù)分布情況對(duì)二者的相關(guān)性具有一定的解釋力。
表1 系統(tǒng)自動(dòng)評(píng)分和人工評(píng)分的分?jǐn)?shù)分布
將作文總分15分分為5個(gè)等距的等級(jí)(即2分、5分、8分、11分、14分)。按分?jǐn)?shù)檔統(tǒng)計(jì)系統(tǒng)自動(dòng)評(píng)分的精確率和誤判率。其計(jì)算公式如下:
各分?jǐn)?shù)檔的精確率=本為X檔作文且被評(píng)為X檔作文的數(shù)量÷所有被評(píng)為X檔作文的數(shù)量×100%
各分?jǐn)?shù)檔的誤判率=本為X檔作文卻未被評(píng)為X檔作文的數(shù)量÷所有被評(píng)為X檔作文的數(shù)量×100%
各分?jǐn)?shù)檔的評(píng)分精確率越高,說(shuō)明作文被評(píng)為該分?jǐn)?shù)檔的可信度越高,系統(tǒng)自動(dòng)評(píng)分的效度也越高。各分?jǐn)?shù)檔的誤判率越低,說(shuō)明系統(tǒng)自動(dòng)評(píng)分的誤差越小,評(píng)分的效度越高。表2列出了系統(tǒng)自動(dòng)評(píng)分中各分?jǐn)?shù)檔的精確率和誤判率。
表2 系統(tǒng)自動(dòng)評(píng)分中各分?jǐn)?shù)檔的精確率和誤判率
由表2可知,2分檔的準(zhǔn)確率最高,5分檔、8分檔、11分檔的準(zhǔn)確率較高,14分檔的準(zhǔn)確率最低。作者對(duì)2分檔和14分檔的作文語(yǔ)料分別進(jìn)行了核查,發(fā)現(xiàn)系統(tǒng)自動(dòng)評(píng)分為2分檔的人工評(píng)分也均為2分檔,而系統(tǒng)評(píng)分為14分檔的有可能與人工評(píng)分相差一個(gè)乃至多個(gè)分?jǐn)?shù)檔。14分檔誤判的文章一般篇幅較長(zhǎng),而語(yǔ)句并非與文章主題緊密相關(guān),系統(tǒng)因?yàn)槲恼缕年P(guān)系容易受到“欺騙”,這也印證了其他研究者已指出的自動(dòng)評(píng)分系統(tǒng)的不足之處,如有學(xué)生“先寫(xiě)幾個(gè)段落,然后簡(jiǎn)單地重復(fù)”以“騙取高分”。
采用已經(jīng)比較成熟的大學(xué)英語(yǔ)4級(jí)考試作文評(píng)分標(biāo)準(zhǔn)為效標(biāo),對(duì)系統(tǒng)所給的作文評(píng)語(yǔ)與4級(jí)考試作文評(píng)分標(biāo)準(zhǔn)進(jìn)行相關(guān)性分析,得到它們的皮爾森相關(guān)系數(shù),根據(jù)相關(guān)是否顯著判斷效度高低。大學(xué)英語(yǔ)4級(jí)考試作文評(píng)分標(biāo)準(zhǔn)將總分15分劃分為5個(gè)等級(jí),每一個(gè)等級(jí)從內(nèi)容、語(yǔ)言和篇章結(jié)構(gòu)3個(gè)方面都有具體的要求和描述。對(duì)這些具體的要求和描述(即評(píng)分細(xì)則)用表3的形式分別列出,并統(tǒng)計(jì)了系統(tǒng)所給評(píng)語(yǔ)與大學(xué)英語(yǔ)4級(jí)考試作文評(píng)分細(xì)則的相關(guān)系數(shù)。
表3 系統(tǒng)所給評(píng)語(yǔ)的效標(biāo)關(guān)聯(lián)效度
由表3可知,系統(tǒng)所給評(píng)語(yǔ)在內(nèi)容方面與大學(xué)英語(yǔ)4級(jí)考試作文評(píng)分細(xì)則相關(guān)較顯著,在語(yǔ)言方面與大學(xué)英語(yǔ)4級(jí)考試作文評(píng)分細(xì)則相關(guān)較弱,在篇章結(jié)構(gòu)方面與大學(xué)英語(yǔ)4級(jí)考試作文評(píng)分細(xì)則相關(guān)最不顯著。因此從系統(tǒng)所給評(píng)語(yǔ)的效標(biāo)關(guān)聯(lián)效度來(lái)看,系統(tǒng)在自動(dòng)評(píng)分過(guò)程中,較為關(guān)注文章的內(nèi)容和語(yǔ)言,篇章結(jié)構(gòu)不作為主要的評(píng)分依據(jù)。
將200份作文語(yǔ)料的評(píng)語(yǔ)分3個(gè)板塊(即內(nèi)容、語(yǔ)言、篇章結(jié)構(gòu))與作文總體評(píng)分進(jìn)行了比對(duì)分析,結(jié)果顯示:系統(tǒng)評(píng)分為高段分(13-15分)的28篇作文語(yǔ)料中,有24篇作文評(píng)語(yǔ)含有“文章切題 (to the point)”,有19篇作文評(píng)語(yǔ)含有“文字連貫 (coherent)”,有12篇作文評(píng)語(yǔ)含有“用詞準(zhǔn)確(accurate wording)”,有7篇作文評(píng)語(yǔ)含有“結(jié)構(gòu)合理(well-organized)”。系統(tǒng)評(píng)分為低段分(1-3分)的作文語(yǔ)料共有24篇,它們的評(píng)語(yǔ)基本一致,大多為“不符合四級(jí)寫(xiě)作要求 (not meet CET requirements on writing)”或“字?jǐn)?shù)不足 (less than 100 words)”。從統(tǒng)計(jì)結(jié)果來(lái)看,系統(tǒng)評(píng)分為高段分的作文較低段分的作文評(píng)語(yǔ)更具體、更清晰地體現(xiàn)了各版塊對(duì)作文總體評(píng)分的權(quán)重。“文章切題”和“文字連貫”均為衡量文章內(nèi)容的標(biāo)準(zhǔn),它們?cè)诟叨畏肿魑脑u(píng)語(yǔ)中出現(xiàn)的頻率分別為85.7%和67.9%,因此,內(nèi)容板塊對(duì)作文總體評(píng)分的影響力最大。“用詞準(zhǔn)確”作為衡量文章語(yǔ)言的標(biāo)準(zhǔn)之一,在高段分作文評(píng)語(yǔ)中出現(xiàn)的頻率為42.9%,因此,語(yǔ)言板塊對(duì)作文總體評(píng)分的影響力較大?!敖Y(jié)構(gòu)合理”作為衡量文章篇章結(jié)構(gòu)的標(biāo)準(zhǔn)之一,在高段分作文評(píng)語(yǔ)中出現(xiàn)的頻率為25%,因此,篇章結(jié)構(gòu)板塊對(duì)作文總體評(píng)分的影響力較小。
首先,作文語(yǔ)料的選取有一定的局限性。由于200份作文語(yǔ)料均取自同一所大學(xué)的大學(xué)英語(yǔ)期末考試試卷庫(kù),因此實(shí)驗(yàn)結(jié)果能較準(zhǔn)確地反映《新視野大學(xué)英語(yǔ)》作文自動(dòng)評(píng)分系統(tǒng)對(duì)某一地區(qū)或?qū)W校英語(yǔ)學(xué)習(xí)者英語(yǔ)作文的評(píng)分效度,但可能不具有廣泛的代表性。
其次,作文語(yǔ)料的人工評(píng)分可能存在信度和效度問(wèn)題。在本實(shí)驗(yàn)中,200份作文語(yǔ)料由4名有多年大學(xué)英語(yǔ)寫(xiě)作教學(xué)經(jīng)驗(yàn)的教師評(píng)閱,最終的人工評(píng)分多為4名評(píng)閱人所給分值的平均值。此方法雖然較僅由一人評(píng)閱的方法更為科學(xué)、客觀,但也不排除評(píng)閱人因受到“參與某種研究而非真實(shí)閱卷”的心理暗示而影響評(píng)閱結(jié)果的可能,因此,人工評(píng)分部分仍然可能存在信度和效度問(wèn)題。
最后,實(shí)驗(yàn)選取的效標(biāo)本身具有一定的爭(zhēng)議。在驗(yàn)證系統(tǒng)所給評(píng)語(yǔ)的效標(biāo)關(guān)聯(lián)效度時(shí),本實(shí)驗(yàn)采用的效標(biāo)是大學(xué)英語(yǔ)4級(jí)考試作文評(píng)分標(biāo)準(zhǔn)。此評(píng)分標(biāo)準(zhǔn)自身亦處于不斷完善之中,在某些方面仍存在一定的問(wèn)題,如有學(xué)者指出大學(xué)英語(yǔ)4級(jí)作文評(píng)分標(biāo)準(zhǔn)“不夠詳細(xì)具體,對(duì)寫(xiě)作內(nèi)容和結(jié)構(gòu)的要求過(guò)于籠統(tǒng)”等等。
盡管在上述方面存在一定的局限性和不足,本實(shí)驗(yàn)對(duì)《新視野大學(xué)英語(yǔ)》作文自動(dòng)評(píng)分系統(tǒng)進(jìn)行了有效的驗(yàn)證,并得到了以下較有意義的結(jié)論:系統(tǒng)自動(dòng)評(píng)分與人工評(píng)分之間的相關(guān)性較顯著,2種評(píng)分系統(tǒng)中的分?jǐn)?shù)分布情況對(duì)二者的相關(guān)性具有一定的解釋力;系統(tǒng)評(píng)分中高分檔的評(píng)分準(zhǔn)確率較低,其他檔的評(píng)分準(zhǔn)確率較高;系統(tǒng)在自動(dòng)評(píng)分過(guò)程中,較為關(guān)注文章的內(nèi)容和語(yǔ)言,篇章結(jié)構(gòu)不作為主要的評(píng)分依據(jù);內(nèi)容板塊對(duì)作文總體評(píng)分的影響力最大,語(yǔ)言板塊對(duì)作文總體評(píng)分的影響力較大,篇章結(jié)構(gòu)板塊對(duì)作文總體評(píng)分的影響力較小。
系統(tǒng)自動(dòng)評(píng)分與適量的人工評(píng)分相結(jié)合。實(shí)驗(yàn)數(shù)據(jù)表明:系統(tǒng)評(píng)分中2分檔的評(píng)分準(zhǔn)確率最高,5分檔、8分檔、11分檔的評(píng)分準(zhǔn)確率較高,14分檔的評(píng)分準(zhǔn)確率最低。也就是說(shuō),系統(tǒng)評(píng)為低分的作文一定是低分作文,系統(tǒng)評(píng)為高分的作文則不一定是高分作文。因此,高分檔作文的評(píng)閱需要一定的人工參與。這一點(diǎn)系統(tǒng)應(yīng)在使用指南中明確提示使用者。這樣,使用者提交作文,得到反饋,經(jīng)過(guò)自我判斷之后,就可以根據(jù)系統(tǒng)的提示將“疑似高分”的作文提交給教師或系統(tǒng)管理員復(fù)核。系統(tǒng)自動(dòng)評(píng)分一旦有了適量的人工參與,就像流水線上又多了一位質(zhì)檢員,給評(píng)分的效度增加一份保障。
系統(tǒng)整體評(píng)分與細(xì)化的語(yǔ)言特征項(xiàng)評(píng)分相結(jié)合。系統(tǒng)評(píng)分應(yīng)該是一個(gè)對(duì)作文文本多次掃描分析的過(guò)程,既包含對(duì)作文語(yǔ)言質(zhì)量、內(nèi)容質(zhì)量和篇章結(jié)構(gòu)質(zhì)量的整體把握,也包含對(duì)細(xì)化的各文本特征項(xiàng)的統(tǒng)計(jì)處理,因此所取的分值應(yīng)為二者的均值。在整體把握文本語(yǔ)言質(zhì)量、內(nèi)容質(zhì)量和篇章結(jié)構(gòu)質(zhì)量方面,系統(tǒng)可以采用“文本聚類方法”,以識(shí)別跑題作文,實(shí)現(xiàn)對(duì)文本內(nèi)容的基本測(cè)量。另外,“將信息檢索技術(shù)應(yīng)用于作文內(nèi)容的自動(dòng)分析是一種可行的方法”。系統(tǒng)還需要配備一個(gè)功能強(qiáng)大的句法、詞法和語(yǔ)義規(guī)則庫(kù),以實(shí)現(xiàn)對(duì)文本語(yǔ)言質(zhì)量和篇章結(jié)構(gòu)質(zhì)量的總體評(píng)估。在細(xì)化文本特征項(xiàng)方面,必須借鑒自然語(yǔ)言處理技術(shù),挖掘?qū)ξ谋镜恼Z(yǔ)言質(zhì)量和篇章結(jié)構(gòu)質(zhì)量具有解釋力的變量,并將這些文本特征項(xiàng)的統(tǒng)計(jì)學(xué)特征列入系統(tǒng)的主要工作參數(shù)。以文本的語(yǔ)言質(zhì)量評(píng)估為例,系統(tǒng)的主要工作參數(shù)中應(yīng)包含詞匯、句型、語(yǔ)法、拼寫(xiě)和標(biāo)點(diǎn)等一級(jí)指標(biāo)的數(shù)據(jù)。將一級(jí)指標(biāo)進(jìn)一步細(xì)化,如詞匯可細(xì)化為詞頻高低、詞的搭配及恰當(dāng)性、文章總詞數(shù)、詞的平均音節(jié)數(shù)、唯一詞數(shù)等二級(jí)指標(biāo)。這樣,系統(tǒng)將作文文本的“總體印象得分”和“分項(xiàng)得分”綜合起來(lái),得到一個(gè)較為準(zhǔn)確、客觀的分值。
實(shí)驗(yàn)證明,《新視野大學(xué)英語(yǔ)》作文自動(dòng)評(píng)分系統(tǒng)作為一種適用于小規(guī)模語(yǔ)言測(cè)試和自我測(cè)試的通用評(píng)分模型,具有較高的測(cè)試效度。對(duì)照人工評(píng)分,對(duì)系統(tǒng)的評(píng)分模型進(jìn)行反復(fù)訓(xùn)練,能有效提高系統(tǒng)的評(píng)分效度。統(tǒng)計(jì)技術(shù)、自然語(yǔ)言處理技術(shù)和信息檢索技術(shù)的進(jìn)一步發(fā)展,將提高自動(dòng)評(píng)分系統(tǒng)的評(píng)分效度,同時(shí)推進(jìn)寫(xiě)作評(píng)分的自動(dòng)化進(jìn)程。
[1]Dikli S.Automated Essay Scoring[J].Turkish Online Journal of Distance Education,2006,7(1).
[2]Hearst M.The debate on automated essay grading[J].IEEE Intelligent Systems,2000,15(5).
[3]Kukich K.Beyond Automated Essay Scoring[J].IEEE Intelligent Systems,2000(5).
[4]Weigle S C.Assessing Writing[M].Cambridge:CUP,2002.
[5]葛詩(shī)利,陳瀟瀟.國(guó)外自動(dòng)作文評(píng)分技術(shù)研究[J].外語(yǔ)電化教學(xué),2007(5).
[6]葛詩(shī)利,陳瀟瀟.中國(guó)EFL學(xué)習(xí)者自動(dòng)作文評(píng)分探索[J].外語(yǔ)界,2007(5).
[7]謝賢春.英語(yǔ)作文自動(dòng)評(píng)分及其效度、信度與可操作性探討[J].江西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2010(2).
[8]蔣春麗,張青妹.基于語(yǔ)料庫(kù)軟件的大學(xué)英語(yǔ)寫(xiě)作評(píng)估量表的設(shè)計(jì)[J].語(yǔ)文學(xué)刊,2010(1).
[9]謝賢春.英語(yǔ)作文自動(dòng)評(píng)分及其效度、信度與可操作性探討[J].江西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2010(2).
[10]葛詩(shī)利,陳瀟瀟.文本聚類在大學(xué)英語(yǔ)作文自動(dòng)評(píng)分中應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(6).
[11]梁茂成,文秋芳.國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J].外語(yǔ)電化教學(xué),2007(5).