常偉
【摘要】句酷批改網(wǎng)對提高學(xué)生的寫作能力有著不可低估的作用。然而,句酷批改網(wǎng)在對英語作文評判中依然存在著相當(dāng)嚴(yán)重的信度和效度不足問題。文章試圖從詞意、結(jié)構(gòu)、邏輯性方面對句酷批改網(wǎng)評分失真因素進(jìn)行探析。
【關(guān)鍵詞】英語作文;信度;效度;句酷批改網(wǎng)
一、引言
句酷批改網(wǎng)是北京詞網(wǎng)科技有限公司開發(fā)的一款基于語料庫和云計(jì)算技術(shù)的英語作文自動(dòng)在線批改服務(wù)系統(tǒng)。該系統(tǒng)將學(xué)生作文與語料庫文本從192個(gè)子維度進(jìn)行對比測量,將其差距通過一定的權(quán)重進(jìn)行計(jì)算,在生成詞匯、句子、篇章和內(nèi)容四個(gè)維度的得分的同時(shí)給予最后總分、評語和點(diǎn)評。同時(shí),對拼寫錯(cuò)誤、語法錯(cuò)誤、中式英語、高分句型和易混詞匯等信息提供反饋,提示學(xué)生進(jìn)行作文修改,從而達(dá)到提高學(xué)生寫作水平的目的。該系統(tǒng)與傳統(tǒng)作文批改方式相比優(yōu)勢明顯,能有效提高教師的工作效率,提升學(xué)生的英語寫作能力。
然而,在實(shí)際的寫作實(shí)踐過程中,筆者發(fā)現(xiàn)句酷批改網(wǎng)在信度和效度方面都存在一定的問題,有些問題甚至較為嚴(yán)重?;诖耍疚膶脑~意、結(jié)構(gòu)、邏輯性方面研究影響句酷批改網(wǎng)信度和效度失真的因素,以及以上三個(gè)方面在多大程度上會(huì)影響信度和效度的偏移。
二、研究現(xiàn)狀
隨著句酷批改網(wǎng)在全國各高校英語教學(xué)中的實(shí)踐應(yīng)用的興起,國內(nèi)眾多研究者對句酷批改網(wǎng)在寫作實(shí)際運(yùn)用中的作用、效果、運(yùn)用策略等方面做了實(shí)證調(diào)查研究,并得出了相應(yīng)結(jié)論。例如:這種方式為學(xué)生在詞匯和語法上提供了很多幫助,但是在思想內(nèi)容、篇章結(jié)構(gòu)和邏輯性方面還需要教師的輔導(dǎo)(馬衛(wèi)華,甄強(qiáng),2017);句酷批改網(wǎng)比較機(jī)械化,不夠智能化,不能判斷作文題目與文章內(nèi)容的相關(guān)性,不能判斷寫作者寫的作文是否跑題,作文題目根本不影響作文的得分(羅保山,2016);批改網(wǎng)評分尚不能反映學(xué)生英語作文的真實(shí)水平。在詞匯和語法層面給予學(xué)生的反饋較多,但在寫作內(nèi)容、篇章結(jié)構(gòu)、語體修辭、內(nèi)容邏輯性及連貫性方面尚不能給學(xué)生足夠的反饋(何旭良,2013);對常見拼寫錯(cuò)誤和搭配問題能做出正確的批改,但就批改效度而言,還需要在語篇結(jié)構(gòu)、修辭手法、語言的得體性等方面進(jìn)行改進(jìn),提高句酷批改的靈活度(何小翠,2015)。眾多研究都明確指出了一個(gè)不可回避的尷尬現(xiàn)狀,即句酷批改系統(tǒng)在信度和效度方面存在失真現(xiàn)象。本研究將從詞意、結(jié)構(gòu)、邏輯性三個(gè)方面展開研究,力圖探究這三個(gè)方面在評分上如何影響最終結(jié)果。
三、關(guān)于信度與效度
(一)信度
信度(Reliability)即可靠性,指的是采取同樣的方法對同一對象重復(fù)進(jìn)行測量時(shí),其所得結(jié)果相一致的程度。信度分析的常用具體方法有重測信度(test-retest reliability)、復(fù)本信度(parallel-forms reliability)、分半信度(split-half reliability)。對于句酷批改網(wǎng)打分評判的信度而言,其主要目的在于確定文本在什么程度上會(huì)導(dǎo)致其評分信度的失真。也就是說,當(dāng)寫作者提交一篇作品之后,句酷批改網(wǎng)給出的評分是否能有效測量作者的實(shí)際語言水平。
(二)效度
效度(Validity)即有效性,是指測量工具或手段能夠準(zhǔn)確測出所需測量的事物的程度。效度是指所測量的結(jié)果反映所想要考察內(nèi)容的程度,測量結(jié)果與要考察的內(nèi)容越吻合,效度越高;反之,則效度越低。效度分為三種類型:內(nèi)容效度(content-related validity)、準(zhǔn)則效度(criterion-related validity)和結(jié)構(gòu)效度(construct-related validity)。就句酷批改網(wǎng)效度而言,主要看是否檢測了應(yīng)該檢測的內(nèi)容或者說所檢測的內(nèi)容是否反映了檢測的要求,即測試的代表性和覆蓋面的程度。
四、研究方法
鑒于該研究只針對大學(xué)英語四級寫作文本的檢測信度和效度研究,因此本研究材料均取自大學(xué)英語四級標(biāo)準(zhǔn)寫作文本。筆者選取2013-2017年四級真題寫作標(biāo)準(zhǔn)范文10篇,通過對文本的分析和檢測來回答句酷批改網(wǎng)對文本如何在詞意、結(jié)構(gòu)、邏輯性方面的失真導(dǎo)致檢測的信度和效度失真。
(一)用詞對評分信度和效度的影響
對于英語寫作能力評判的要素之一就是文本用詞的準(zhǔn)確性和復(fù)雜性。對于寫作水平評判,必然需要考察的是這個(gè)層次應(yīng)該具備的用詞難度。因此,用詞的準(zhǔn)確性是影響文本質(zhì)量的重要因素。筆者先將10篇四級寫作標(biāo)準(zhǔn)范文用句酷批改網(wǎng)進(jìn)行評分,得出對照組分?jǐn)?shù);然后將每一篇范文中涉及話題的名詞一律用X符號代替,再進(jìn)行評分,得出實(shí)驗(yàn)組分?jǐn)?shù)。其結(jié)果如表1。
從表1可以看出,雖然實(shí)驗(yàn)組成績都有所下降,但句酷網(wǎng)給出的關(guān)于詞匯部分的評分卻沒有降低,而是對篇章結(jié)構(gòu)的評分降低了,這一點(diǎn)反映了句酷批改網(wǎng)存在信度失真。實(shí)驗(yàn)組的作文雖然句型結(jié)構(gòu)未變,但實(shí)際表達(dá)意義消失,雖然評分有所下降,但整體分?jǐn)?shù)依然偏高,與實(shí)際應(yīng)該的得分相差較大,這說明句酷批改網(wǎng)在對作文的評分中對文章核心詞的關(guān)聯(lián)度極低。同時(shí),對照組平均成績?yōu)?5分,在對名詞替換后,實(shí)驗(yàn)組平均成績?yōu)?7.05分,平均成績下降了7.95分。從效度角度來看,句酷批改網(wǎng)評測效度較為理想。
筆者隨后將10篇標(biāo)準(zhǔn)范文中的動(dòng)詞進(jìn)行語法錯(cuò)誤性替換,再進(jìn)行評分,得出10個(gè)實(shí)驗(yàn)分。其結(jié)果如表2。
從表2可以看出,實(shí)驗(yàn)組文章錯(cuò)誤數(shù)量劇增。雖然實(shí)驗(yàn)組文本的分值出現(xiàn)了下降(實(shí)驗(yàn)組平均成績?yōu)?8.5分,比對照組的平均成績下降了6.5分,說明評測具有一定效度),然而從整體上來看,分?jǐn)?shù)依然還是偏高,與實(shí)際應(yīng)該的得分相差較大,說明信度問題依然嚴(yán)峻。句酷批改網(wǎng)在詞匯和句子方面的分值都有所下降,這說明雖然句酷批改網(wǎng)在對作文的評分中對動(dòng)詞檢測敏感度較高,但與分值關(guān)聯(lián)度較低,這是導(dǎo)致評分信度和效度失真的重要因素之一。
(二)文章段落結(jié)構(gòu)對評分信度和效度的影響
對于英語寫作水平評判的另一個(gè)要素就是文本篇章結(jié)構(gòu)是否合理。對于四級層次的寫作,合理、必要的分段是評價(jià)寫作水平的重要因素。endprint
筆者將10篇標(biāo)準(zhǔn)范文原有段落結(jié)構(gòu)順序徹底打亂,再進(jìn)行評分,得出10個(gè)實(shí)驗(yàn)分。其結(jié)果如表3。
由表3可以看出,句酷批改網(wǎng)對打亂了段落結(jié)構(gòu)順序的文章評分與標(biāo)準(zhǔn)范文原文的評分一致。對于英語四級寫作來說,段落結(jié)構(gòu)就是作者論證話題的思路結(jié)構(gòu),對段落結(jié)構(gòu)的改變在一定程度降低了思路邏輯的合理性。然而,從句酷批改網(wǎng)的評分來看,段落結(jié)構(gòu)的變換沒能帶來相應(yīng)的評分變換,這說明句酷批改網(wǎng)對段落結(jié)構(gòu)邏輯布局沒有納入評分范圍。這對評分信度和效度有著極大的影響。
(三)句子結(jié)構(gòu)對評分信度和效度的影響
對于四級層次的寫作而言,在要求做到語言表達(dá)準(zhǔn)確,段落邏輯結(jié)構(gòu)合理之外,句子結(jié)構(gòu)的難易程度也是衡量一篇文章是否優(yōu)秀的重要標(biāo)準(zhǔn)。長、短句的混合存在是優(yōu)秀文章的必要條件之一。
筆者將10篇范文中的長句進(jìn)行縮句替換,保持信息量不變,然后再進(jìn)行評分。其結(jié)果如表4。
從表4可以看出,在不改變表達(dá)意義的前提下,對句子進(jìn)行縮句替換后,評分都出現(xiàn)下降,且符合實(shí)際應(yīng)得分?jǐn)?shù),這說明句酷批改網(wǎng)在對句子結(jié)構(gòu)給分判斷上信度和效度較高。以最后一篇范例來看,在進(jìn)行縮句處理后,文本句型變單一,句子復(fù)雜度降低,整體文章質(zhì)量下降,評分由87分下降為82.5分,實(shí)驗(yàn)組平均成績?yōu)?6.65分,比對照組平均成績下降了8.35分。且評分下降主要體現(xiàn)在句子層面的得分下降,這說明句酷批改網(wǎng)在對句型結(jié)構(gòu)的判斷上具有一定的信度和效度。
五、結(jié)論
通過以上實(shí)驗(yàn)性的檢測分析,我們可以看出,句酷批改網(wǎng)在對文章檢測過程中對句型復(fù)雜度的賦值大于對用詞準(zhǔn)確度的賦值,對文章的段落邏輯結(jié)構(gòu)的檢測信度和效度為零。其中在用詞方面,對名詞的檢測度賦值大于對動(dòng)詞的檢測賦值,動(dòng)詞使用錯(cuò)誤檢測準(zhǔn)確率高,但賦值度較低。
在學(xué)生使用句酷批改網(wǎng)進(jìn)行寫作訓(xùn)練應(yīng)時(shí),首先,無論是想根據(jù)分?jǐn)?shù)來判斷文章存在問題,還是想盡量提升句酷批改網(wǎng)評分,在具體操作上,都應(yīng)將重點(diǎn)放在句子層面,增加句子長度,多用從句、并列句、復(fù)雜句等。句子結(jié)構(gòu)層面的提升既是提升文章質(zhì)量,也是提升句酷網(wǎng)評分的首要選擇。其次,應(yīng)該增強(qiáng)用詞方面的準(zhǔn)確性和正確性,雖然這在句酷批改網(wǎng)評分提示中較為容易發(fā)現(xiàn)錯(cuò)誤,賦值也較低,但對文章質(zhì)量影響較大。再次,句酷批改網(wǎng)只是人工智能在寫作方面的初步應(yīng)用,要實(shí)現(xiàn)人類大腦具有的邏輯性思維還有漫長的路要走。
【參考文獻(xiàn)】
[1]馬衛(wèi)華,甄強(qiáng).大學(xué)生對在線英語寫作自動(dòng)批改系統(tǒng)的評價(jià)——以句酷批改網(wǎng)為例[J].山東廣播電視大學(xué)學(xué)報(bào),2016(01):31-33.
[2]羅保山.基于句酷批改網(wǎng)的英語作文題目對作文總體評分的影響[J].軟件導(dǎo)刊(教育技術(shù)),2016,15(05):91-93.
[3]何旭良.句酷批改網(wǎng)英語作文評分的信度和效度研究[J].現(xiàn)代教育技術(shù),2013,23(05):64-67.endprint