亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

句酷批改網(wǎng)寫作智能批閱系統(tǒng)信度和效度問題研究

2018-02-26 19:17:23常偉

教育界·上旬 2017年12期

常偉

【摘要】句酷批改網(wǎng)對提高學(xué)生的寫作能力有著不可低估的作用。然而，句酷批改網(wǎng)在對英語作文評判中依然存在著相當(dāng)嚴(yán)重的信度和效度不足問題。文章試圖從詞意、結(jié)構(gòu)、邏輯性方面對句酷批改網(wǎng)評分失真因素進(jìn)行探析。

【關(guān)鍵詞】英語作文；信度；效度；句酷批改網(wǎng)

一、引言

句酷批改網(wǎng)是北京詞網(wǎng)科技有限公司開發(fā)的一款基于語料庫和云計(jì)算技術(shù)的英語作文自動(dòng)在線批改服務(wù)系統(tǒng)。該系統(tǒng)將學(xué)生作文與語料庫文本從192個(gè)子維度進(jìn)行對比測量，將其差距通過一定的權(quán)重進(jìn)行計(jì)算，在生成詞匯、句子、篇章和內(nèi)容四個(gè)維度的得分的同時(shí)給予最后總分、評語和點(diǎn)評。同時(shí)，對拼寫錯(cuò)誤、語法錯(cuò)誤、中式英語、高分句型和易混詞匯等信息提供反饋，提示學(xué)生進(jìn)行作文修改，從而達(dá)到提高學(xué)生寫作水平的目的。該系統(tǒng)與傳統(tǒng)作文批改方式相比優(yōu)勢明顯，能有效提高教師的工作效率，提升學(xué)生的英語寫作能力。

然而，在實(shí)際的寫作實(shí)踐過程中，筆者發(fā)現(xiàn)句酷批改網(wǎng)在信度和效度方面都存在一定的問題，有些問題甚至較為嚴(yán)重?；诖耍疚膶脑~意、結(jié)構(gòu)、邏輯性方面研究影響句酷批改網(wǎng)信度和效度失真的因素，以及以上三個(gè)方面在多大程度上會(huì)影響信度和效度的偏移。

二、研究現(xiàn)狀

隨著句酷批改網(wǎng)在全國各高校英語教學(xué)中的實(shí)踐應(yīng)用的興起，國內(nèi)眾多研究者對句酷批改網(wǎng)在寫作實(shí)際運(yùn)用中的作用、效果、運(yùn)用策略等方面做了實(shí)證調(diào)查研究，并得出了相應(yīng)結(jié)論。例如：這種方式為學(xué)生在詞匯和語法上提供了很多幫助，但是在思想內(nèi)容、篇章結(jié)構(gòu)和邏輯性方面還需要教師的輔導(dǎo)（馬衛(wèi)華，甄強(qiáng)，2017）；句酷批改網(wǎng)比較機(jī)械化，不夠智能化，不能判斷作文題目與文章內(nèi)容的相關(guān)性，不能判斷寫作者寫的作文是否跑題，作文題目根本不影響作文的得分（羅保山，2016）；批改網(wǎng)評分尚不能反映學(xué)生英語作文的真實(shí)水平。在詞匯和語法層面給予學(xué)生的反饋較多，但在寫作內(nèi)容、篇章結(jié)構(gòu)、語體修辭、內(nèi)容邏輯性及連貫性方面尚不能給學(xué)生足夠的反饋（何旭良，2013）；對常見拼寫錯(cuò)誤和搭配問題能做出正確的批改，但就批改效度而言，還需要在語篇結(jié)構(gòu)、修辭手法、語言的得體性等方面進(jìn)行改進(jìn)，提高句酷批改的靈活度（何小翠，2015）。眾多研究都明確指出了一個(gè)不可回避的尷尬現(xiàn)狀，即句酷批改系統(tǒng)在信度和效度方面存在失真現(xiàn)象。本研究將從詞意、結(jié)構(gòu)、邏輯性三個(gè)方面展開研究，力圖探究這三個(gè)方面在評分上如何影響最終結(jié)果。

三、關(guān)于信度與效度

（一）信度

信度（Reliability）即可靠性，指的是采取同樣的方法對同一對象重復(fù)進(jìn)行測量時(shí)，其所得結(jié)果相一致的程度。信度分析的常用具體方法有重測信度（test-retest reliability）、復(fù)本信度（parallel-forms reliability）、分半信度（split-half reliability）。對于句酷批改網(wǎng)打分評判的信度而言，其主要目的在于確定文本在什么程度上會(huì)導(dǎo)致其評分信度的失真。也就是說，當(dāng)寫作者提交一篇作品之后，句酷批改網(wǎng)給出的評分是否能有效測量作者的實(shí)際語言水平。

（二）效度

效度（Validity）即有效性，是指測量工具或手段能夠準(zhǔn)確測出所需測量的事物的程度。效度是指所測量的結(jié)果反映所想要考察內(nèi)容的程度，測量結(jié)果與要考察的內(nèi)容越吻合，效度越高；反之，則效度越低。效度分為三種類型：內(nèi)容效度（content-related validity）、準(zhǔn)則效度（criterion-related validity）和結(jié)構(gòu)效度（construct-related validity）。就句酷批改網(wǎng)效度而言，主要看是否檢測了應(yīng)該檢測的內(nèi)容或者說所檢測的內(nèi)容是否反映了檢測的要求，即測試的代表性和覆蓋面的程度。

四、研究方法

鑒于該研究只針對大學(xué)英語四級寫作文本的檢測信度和效度研究，因此本研究材料均取自大學(xué)英語四級標(biāo)準(zhǔn)寫作文本。筆者選取2013-2017年四級真題寫作標(biāo)準(zhǔn)范文10篇，通過對文本的分析和檢測來回答句酷批改網(wǎng)對文本如何在詞意、結(jié)構(gòu)、邏輯性方面的失真導(dǎo)致檢測的信度和效度失真。

（一）用詞對評分信度和效度的影響

對于英語寫作能力評判的要素之一就是文本用詞的準(zhǔn)確性和復(fù)雜性。對于寫作水平評判，必然需要考察的是這個(gè)層次應(yīng)該具備的用詞難度。因此，用詞的準(zhǔn)確性是影響文本質(zhì)量的重要因素。筆者先將10篇四級寫作標(biāo)準(zhǔn)范文用句酷批改網(wǎng)進(jìn)行評分，得出對照組分?jǐn)?shù)；然后將每一篇范文中涉及話題的名詞一律用X符號代替，再進(jìn)行評分，得出實(shí)驗(yàn)組分?jǐn)?shù)。其結(jié)果如表1。

從表1可以看出，雖然實(shí)驗(yàn)組成績都有所下降，但句酷網(wǎng)給出的關(guān)于詞匯部分的評分卻沒有降低，而是對篇章結(jié)構(gòu)的評分降低了，這一點(diǎn)反映了句酷批改網(wǎng)存在信度失真。實(shí)驗(yàn)組的作文雖然句型結(jié)構(gòu)未變，但實(shí)際表達(dá)意義消失，雖然評分有所下降，但整體分?jǐn)?shù)依然偏高，與實(shí)際應(yīng)該的得分相差較大，這說明句酷批改網(wǎng)在對作文的評分中對文章核心詞的關(guān)聯(lián)度極低。同時(shí)，對照組平均成績?yōu)?5分，在對名詞替換后，實(shí)驗(yàn)組平均成績?yōu)?7.05分，平均成績下降了7.95分。從效度角度來看，句酷批改網(wǎng)評測效度較為理想。

筆者隨后將10篇標(biāo)準(zhǔn)范文中的動(dòng)詞進(jìn)行語法錯(cuò)誤性替換，再進(jìn)行評分，得出10個(gè)實(shí)驗(yàn)分。其結(jié)果如表2。

從表2可以看出，實(shí)驗(yàn)組文章錯(cuò)誤數(shù)量劇增。雖然實(shí)驗(yàn)組文本的分值出現(xiàn)了下降（實(shí)驗(yàn)組平均成績?yōu)?8.5分，比對照組的平均成績下降了6.5分，說明評測具有一定效度），然而從整體上來看，分?jǐn)?shù)依然還是偏高，與實(shí)際應(yīng)該的得分相差較大，說明信度問題依然嚴(yán)峻。句酷批改網(wǎng)在詞匯和句子方面的分值都有所下降，這說明雖然句酷批改網(wǎng)在對作文的評分中對動(dòng)詞檢測敏感度較高，但與分值關(guān)聯(lián)度較低，這是導(dǎo)致評分信度和效度失真的重要因素之一。

（二）文章段落結(jié)構(gòu)對評分信度和效度的影響

對于英語寫作水平評判的另一個(gè)要素就是文本篇章結(jié)構(gòu)是否合理。對于四級層次的寫作，合理、必要的分段是評價(jià)寫作水平的重要因素。endprint

筆者將10篇標(biāo)準(zhǔn)范文原有段落結(jié)構(gòu)順序徹底打亂，再進(jìn)行評分，得出10個(gè)實(shí)驗(yàn)分。其結(jié)果如表3。

由表3可以看出，句酷批改網(wǎng)對打亂了段落結(jié)構(gòu)順序的文章評分與標(biāo)準(zhǔn)范文原文的評分一致。對于英語四級寫作來說，段落結(jié)構(gòu)就是作者論證話題的思路結(jié)構(gòu)，對段落結(jié)構(gòu)的改變在一定程度降低了思路邏輯的合理性。然而，從句酷批改網(wǎng)的評分來看，段落結(jié)構(gòu)的變換沒能帶來相應(yīng)的評分變換，這說明句酷批改網(wǎng)對段落結(jié)構(gòu)邏輯布局沒有納入評分范圍。這對評分信度和效度有著極大的影響。

（三）句子結(jié)構(gòu)對評分信度和效度的影響

對于四級層次的寫作而言，在要求做到語言表達(dá)準(zhǔn)確，段落邏輯結(jié)構(gòu)合理之外，句子結(jié)構(gòu)的難易程度也是衡量一篇文章是否優(yōu)秀的重要標(biāo)準(zhǔn)。長、短句的混合存在是優(yōu)秀文章的必要條件之一。

筆者將10篇范文中的長句進(jìn)行縮句替換，保持信息量不變，然后再進(jìn)行評分。其結(jié)果如表4。

從表4可以看出，在不改變表達(dá)意義的前提下，對句子進(jìn)行縮句替換后，評分都出現(xiàn)下降，且符合實(shí)際應(yīng)得分?jǐn)?shù)，這說明句酷批改網(wǎng)在對句子結(jié)構(gòu)給分判斷上信度和效度較高。以最后一篇范例來看，在進(jìn)行縮句處理后，文本句型變單一，句子復(fù)雜度降低，整體文章質(zhì)量下降，評分由87分下降為82.5分，實(shí)驗(yàn)組平均成績?yōu)?6.65分，比對照組平均成績下降了8.35分。且評分下降主要體現(xiàn)在句子層面的得分下降，這說明句酷批改網(wǎng)在對句型結(jié)構(gòu)的判斷上具有一定的信度和效度。

五、結(jié)論

通過以上實(shí)驗(yàn)性的檢測分析，我們可以看出，句酷批改網(wǎng)在對文章檢測過程中對句型復(fù)雜度的賦值大于對用詞準(zhǔn)確度的賦值，對文章的段落邏輯結(jié)構(gòu)的檢測信度和效度為零。其中在用詞方面，對名詞的檢測度賦值大于對動(dòng)詞的檢測賦值，動(dòng)詞使用錯(cuò)誤檢測準(zhǔn)確率高，但賦值度較低。

在學(xué)生使用句酷批改網(wǎng)進(jìn)行寫作訓(xùn)練應(yīng)時(shí)，首先，無論是想根據(jù)分?jǐn)?shù)來判斷文章存在問題，還是想盡量提升句酷批改網(wǎng)評分，在具體操作上，都應(yīng)將重點(diǎn)放在句子層面，增加句子長度，多用從句、并列句、復(fù)雜句等。句子結(jié)構(gòu)層面的提升既是提升文章質(zhì)量，也是提升句酷網(wǎng)評分的首要選擇。其次，應(yīng)該增強(qiáng)用詞方面的準(zhǔn)確性和正確性，雖然這在句酷批改網(wǎng)評分提示中較為容易發(fā)現(xiàn)錯(cuò)誤，賦值也較低，但對文章質(zhì)量影響較大。再次，句酷批改網(wǎng)只是人工智能在寫作方面的初步應(yīng)用，要實(shí)現(xiàn)人類大腦具有的邏輯性思維還有漫長的路要走。

【參考文獻(xiàn)】

[1]馬衛(wèi)華，甄強(qiáng).大學(xué)生對在線英語寫作自動(dòng)批改系統(tǒng)的評價(jià)——以句酷批改網(wǎng)為例[J].山東廣播電視大學(xué)學(xué)報(bào)，2016（01）：31-33.

[2]羅保山.基于句酷批改網(wǎng)的英語作文題目對作文總體評分的影響[J].軟件導(dǎo)刊（教育技術(shù)），2016，15（05）：91-93.

[3]何旭良.句酷批改網(wǎng)英語作文評分的信度和效度研究[J].現(xiàn)代教育技術(shù)，2013，23（05）：64-67.endprint

教育界·上旬2017年12期

教育界·上旬的其它文章: 翻轉(zhuǎn)課堂教學(xué)模式芻議; 例談多媒體在中職散文教學(xué)中的應(yīng)用; 利用微課提高高中數(shù)學(xué)習(xí)題課教學(xué)的有效性; 分級診療背景下應(yīng)用GIS技術(shù)于基層醫(yī)療機(jī)構(gòu)檢驗(yàn)設(shè)備布局研究; 翻轉(zhuǎn)課堂在中職病理學(xué)教學(xué)中的應(yīng)用體會(huì); 在家園共育中提升幼兒安全認(rèn)知水平