亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人、機(jī)英語作文評分比較研究

        2018-03-19 15:53:07任瑞娟高莉
        關(guān)鍵詞:作文評分英語

        任瑞娟 高莉

        摘 要:文章從評分員角度出發(fā),運(yùn)用實(shí)證法,從分布、均值、多元線性回歸三方面比較人、機(jī)對61份某大學(xué)期末考試英語作文的評分,發(fā)現(xiàn)機(jī)評結(jié)果分散,能更大程度地區(qū)分作文水平;人、機(jī)評分的總分無顯著差異;機(jī)評關(guān)注詞匯、句子,人評在注重內(nèi)容的同時(shí),也綜合考慮詞匯、句子、結(jié)構(gòu)。相較而言,人評總分更能全面反映學(xué)生的英語書面寫作能力。為了評分的經(jīng)濟(jì)、高效、公正,在類似的期末考試評分中,應(yīng)將兩種評分方式相結(jié)合。

        關(guān)鍵詞:英語;作文;評分

        中圖分類號:G640 文獻(xiàn)標(biāo)識碼:A 文章編號:1002-4107(2018)01-0028-04

        作文能測量學(xué)生綜合運(yùn)用語言的能力,是外語考試的必考題[1]。但作文評分有兩大難題:一方面評分要耗費(fèi)大量人力、物力等資源,另一方面評分主觀性強(qiáng)、信效度不高。隨著計(jì)算機(jī)軟件性能的提高,作文自動(dòng)評分系統(tǒng)(Automated Essay Scoring,以下簡稱為“系統(tǒng)”)應(yīng)運(yùn)而生。系統(tǒng)是使用計(jì)算機(jī)程序模擬人工評分,對作文進(jìn)行快速、自動(dòng)評分的計(jì)算機(jī)技術(shù)[2]。世界上第一個(gè)系統(tǒng)是Ellis Batten Page在1966年研制的PEG(Project Essay Grader)[3]。上世紀(jì)90年代后,國外出現(xiàn)了IEA(Intelligent Essay Assessor)、E-rater(Electronic Essay Rater)等主流系統(tǒng)。其中,美國教育考試服務(wù)中心研制的E-rater影響最廣泛,于1999年應(yīng)用于GMAT考試,隨后一直被用于TOEFL、GRE考試中。相對而言,中國的系統(tǒng)研究起步晚,北京郵電大學(xué)在2004年研制出第一個(gè)系統(tǒng)。此外,梁茂成[4]、葛詩利等[5]、楊永林等[6]為代表的學(xué)者們也致力于研發(fā)適合中國英語學(xué)習(xí)者的系統(tǒng)。有些系統(tǒng)已開發(fā)成功并投入使用,促進(jìn)了中國的英語寫作教學(xué)和研究。系統(tǒng)實(shí)現(xiàn)了機(jī)器為作文評分,但機(jī)器評分結(jié)果的可信度也引起了測試界的關(guān)注。

        一、文獻(xiàn)綜述

        作文評分人、機(jī)比較研究始于Page,他在1968年比較了PEG與人工的作文評分,認(rèn)為二者高度相關(guān)(r=0.78)[7]。沿用這個(gè)驗(yàn)證方法,不斷有研究比較人、機(jī)評分,驗(yàn)證系統(tǒng)的適用性。國內(nèi)的人、機(jī)評分比較研究開始較晚。第一個(gè)是萬鵬杰的研究,他發(fā)現(xiàn)人、機(jī)評分的皮爾遜相關(guān)系數(shù)為0.324,認(rèn)為二者的評分結(jié)果顯著相關(guān)[8]。但鑒于他將皮爾遜相關(guān)系數(shù)與0.01相比,所以結(jié)論有待考證。何旭良分析了某系統(tǒng)評分的信度,比較了人、機(jī)評分的克隆巴赫系數(shù),該值為0.694,他認(rèn)為兩組數(shù)據(jù)一致性高。但在后文中,他又通過T檢驗(yàn)發(fā)現(xiàn)兩組數(shù)據(jù)差異顯著,p=0.008,t=-2.8,因此認(rèn)為該系統(tǒng)評分有局限性[9]。吳儷旻以79份學(xué)生作文為樣本,比較了學(xué)生自評、同伴互評、教師與某系統(tǒng)的評分結(jié)果,通過斯皮爾曼的相關(guān)比較。認(rèn)為系統(tǒng)與學(xué)生自評、同伴互評、教師的評分結(jié)果有顯著差異,建議教師慎用系統(tǒng)的評分[10]。殷小娟等人以145份大學(xué)生的寫作訓(xùn)練文本為例,用斯皮爾曼相關(guān)和單因素方差分析,分別對比了兩個(gè)系統(tǒng)與人工評分的相關(guān)性、差異性,證明兩個(gè)系統(tǒng)與人工評分結(jié)果有顯著差異[11]。王建分析了某系統(tǒng)的評分效度,通過相鄰吻合一致性、皮爾遜相關(guān)系數(shù)、最大分?jǐn)?shù)差的比較,提出該系統(tǒng)的評分誤差較大[12]。

        鑒于上述研究的統(tǒng)計(jì)方法簡單、樣本選取的代表性不強(qiáng),對一線教師的實(shí)用意義及指導(dǎo)作用有限。為研究系統(tǒng)的評分效果,指導(dǎo)教師在評分實(shí)踐中恰當(dāng)使用系統(tǒng),正確引導(dǎo)學(xué)生進(jìn)行英語寫作,增強(qiáng)期末考試中作文評分的經(jīng)濟(jì)性、高效性、公平性。本文以評分員為研究對象,從分布、均值、多元線性回歸三個(gè)方面比較研究人、機(jī)作文評分。

        二、研究方法

        本文運(yùn)用定量研究法。在某大學(xué)的已評期末試卷中,隨機(jī)選取由同一教師評分的61份試卷,試卷的作文題目為Using Smart Phones in the Classroom,滿分16分,30分鐘內(nèi)完成,至少120個(gè)詞。

        首先記錄61份作文的得分,評分教師采用了分項(xiàng)評分法。標(biāo)出作文在詞匯、句子、結(jié)構(gòu)、內(nèi)容這四個(gè)維度的評分,四個(gè)分值相加即總分。其中,每個(gè)維度的滿分都是4分。然后輸入61份作文到某系統(tǒng),多次核對以確保原貌呈現(xiàn)。設(shè)置系統(tǒng)的滿分為16分,并將詞匯、句子、結(jié)構(gòu)、內(nèi)容四個(gè)維度的占比都改為25%,由其自動(dòng)評分。系統(tǒng)的結(jié)果中標(biāo)出了總分,并顯示詞匯、句子、結(jié)構(gòu)、內(nèi)容四個(gè)維度的評分比例。將四個(gè)比例都與4相乘,即為四個(gè)維度的評分。最后運(yùn)用SPSS 20.0對兩種評分結(jié)果進(jìn)行統(tǒng)計(jì)分析。

        三、研究結(jié)果

        本文從分布、均值、多元線性回歸三方面比較人、機(jī)作文評分。

        (一)分布差異

        教師評分中,總分有十三個(gè)值,介于8.0分—14.0分間;詞匯評分有七個(gè)值,介于0.5分—3.5分間;句子評分有七個(gè)值,介于1.0分—4.0分間;結(jié)構(gòu)評分有五個(gè)值,介于1.5分—4.0分間;內(nèi)容評分有九個(gè)值,介于0.0分—4.0分間。系統(tǒng)評分中,總分有十二個(gè)值,介于6.0分—13.0分間;詞匯評分有十六個(gè)值,介于1.3分—3.3分間;句子評分有十三個(gè)值,介于2.4分—3.6分間;結(jié)構(gòu)評分有十三個(gè)值,介于2.0分—3.2分間;內(nèi)容評分有十七個(gè)值,介于0.7分—3.5分間。限于篇幅,本文將比率排在前四的人、機(jī)在總分、詞匯、句子、結(jié)構(gòu)、內(nèi)容五部分的評分一一說明。

        表1顯示了教師評分的分布:總分中,10.0分的最多,其次是10.5分、11.0分、9.0分,一半多是這四個(gè)分?jǐn)?shù)。詞匯評分中,1.5分的最多,其次是1.0分、2.0分、2.5分,大多數(shù)是這四個(gè)分?jǐn)?shù)。句子評分中,3.0分的最多,其次是2.5分、4.0分、1.5分,大多數(shù)是這四個(gè)分?jǐn)?shù)。結(jié)構(gòu)評分中,3.0分的最多、其次是4.0分、2.5分、2.0分,絕大多數(shù)是這四個(gè)分?jǐn)?shù)。內(nèi)容評分中,4.0分的最多,其次是3.0分、2.0分、2.5分,大多數(shù)是這四個(gè)分?jǐn)?shù)。

        表2顯示了系統(tǒng)評分的分布:總分中,10.5分的最多,其次是11.5分、10.0分、12.0分,多數(shù)是這四個(gè)分?jǐn)?shù)。詞匯評分中,2.4分的最多,其次是2.6分、2.8分、3.0分,一半多是這四個(gè)分?jǐn)?shù)。句子評分中,3.2分和3.4分的最多,其次是3.1分、3.0分,一半多是這四個(gè)分?jǐn)?shù)。結(jié)構(gòu)評分中,2.8分的最多、其次是3.0分、2.9分、2.6分,一半多是這四個(gè)分?jǐn)?shù)。內(nèi)容評分中,2.6分的最多,其次是2.5分、2.4分、2.8分,多數(shù)是這四個(gè)分?jǐn)?shù)。

        表3顯示了人、機(jī)評分差值比率的分布。完全一致率指人、機(jī)評分相同;相鄰吻合率指人、機(jī)評分差值在0.0分—0.5分之間(詞匯、句子、結(jié)構(gòu)、內(nèi)容評分)、0.0分—1.0分之間(總分)[13]。由表可知,在總分、句子、結(jié)構(gòu)三部分,人、機(jī)評分的相鄰吻合一致率(包含完全一致率、相鄰吻合率)都超過一半;而在詞匯、內(nèi)容兩部分,人、機(jī)評分的相鄰吻合一致率都較低。人、機(jī)評分總分差值的最大值較小;而在詞匯、句子、結(jié)構(gòu)、內(nèi)容四部分,人、機(jī)評分差值的最大值都較大。在總分、句子、結(jié)構(gòu)、內(nèi)容四部分,人、機(jī)有相同評分;而在詞匯部分,人、機(jī)無相同評分。人、機(jī)評分總分差值的均值較小;而在詞匯、句子、結(jié)構(gòu)、內(nèi)容四部分,人、機(jī)評分差值的均值都較大。人、機(jī)評分總分差值的最頻值較?。欢谠~匯、句子、結(jié)構(gòu)、內(nèi)容四部分,人、機(jī)評分差值的最頻值都較大。

        (二)均值差異

        本文對人、機(jī)在總分、詞匯、句子、結(jié)構(gòu)、內(nèi)容五部分的評分做了配對樣本T檢驗(yàn)。檢驗(yàn)結(jié)果如表4所示,該表顯示:總分中,人、機(jī)評分無顯著差異(t=-0.283,df=60,p>0.05),但機(jī)評略低于人評(MD=-0.57);詞匯評分中,人、機(jī)評分有顯著差異(t=6.364,df=60,p<0.05),機(jī)評顯著高于人評(MD=0.73);句子評分中,人、機(jī)評分有顯著差異(t=2.871,df=60,p<0.05),機(jī)評顯著高于人評(MD=0.30);結(jié)構(gòu)評分中,人、機(jī)評分有顯著差異(t=-5.063,df=60,p<0.05),機(jī)評顯著低于人評(MD=-0.47);內(nèi)容評分中,人、機(jī)評分無顯著差異(t=-1.629,df=60,p>0.05),機(jī)評略低于人評(MD=-0.28)[14]。

        (三)回歸分析差異

        本文還分別對人、機(jī)在總分、詞匯、句子、結(jié)構(gòu)、內(nèi)容五部分的評分做了多元線性回歸分析,結(jié)果如下。對教師評分的多元線性回歸分析滿足誤差成正態(tài)分布以及誤差和預(yù)測變量不相關(guān)的前提假定;預(yù)測變量與因變量顯著相關(guān)(表5);強(qiáng)制回歸結(jié)果顯示,四個(gè)變量對總分具有良好的預(yù)測作用(表6),R2為1,即“詞匯評分”、“句子評分”、“結(jié)構(gòu)評分”和“內(nèi)容評分”構(gòu)成的組合能解釋總分所有的變異;四個(gè)預(yù)測變量中,“內(nèi)容評分”(Beta=0.815)、“詞匯評分”(Beta=0.567)的標(biāo)準(zhǔn)化回歸系數(shù)分列第一、第二,說明內(nèi)容、詞匯評分越高,總分越高;標(biāo)準(zhǔn)化回歸方程為:總分=0.567×詞匯評分+0.548×句子評

        分+0.473×結(jié)構(gòu)評分+0.815×內(nèi)容評分[15]。

        R指復(fù)相關(guān)系數(shù);R2指擬合度;F指方差檢驗(yàn)量;Beta指標(biāo)準(zhǔn)化回歸系數(shù);t指統(tǒng)計(jì)量;VIF指方差膨脹因子(下同)。

        對系統(tǒng)評分的多元線性回歸分析滿足誤差成正態(tài)分布以及誤差和預(yù)測變量不相關(guān)的前提假定;預(yù)測變量中除“內(nèi)容評分”這一變量外,其余三個(gè)變量與因變量顯著相關(guān)(表7);強(qiáng)制回歸結(jié)果顯示,四個(gè)變量對總分具有良好的預(yù)測作用(表8),R2為0.919,即“詞匯評分”、“句子評分”、“結(jié)構(gòu)評分”、“內(nèi)容評分”構(gòu)成的組合能解釋總評分91.9%的變異;四個(gè)預(yù)測變量中,“詞匯評分”(Beta=0.712)、“句子評分”(Beta=0.278)的標(biāo)準(zhǔn)化回歸系數(shù)分列第一、第二,說明詞匯、句子評分越高,總分越高;標(biāo)準(zhǔn)化回歸方程為:總分=0.712×詞匯評分+0.278×句子評分+0.155×結(jié)構(gòu)評分+0.073×內(nèi)容評分[16]。

        分布差異表明,人評比機(jī)評分布集中,說明機(jī)評能明確區(qū)分水平類似的作文,有利于提高考試的公正性。就集中分?jǐn)?shù)段而言,人、機(jī)評分高低不一,說明人、機(jī)評分的總體嚴(yán)厲度不一致,且二者的自身一致性不穩(wěn)定。在極值上,人評最高分高、最低分低,說明人評對水平高的作文較寬松,而對水平低的作文評分較嚴(yán)厲。人、機(jī)評分總分的較高相鄰吻合一致率則說明,機(jī)評在很大程度上能模擬人評,而且能彌補(bǔ)人評的集中、嚴(yán)厲度差異大的缺點(diǎn),因此機(jī)器可作為第二評分員參與類似期末考試的評分。

        均值分析表明,就總分、內(nèi)容兩部分而言,人、機(jī)評分無顯著差異。而就詞匯、句子、結(jié)構(gòu)三部分而言,人、機(jī)評分均存在顯著差異。回歸分析表明,人、機(jī)對各部分獨(dú)立評分,某部分的評分不受其余部分評分的影響。系統(tǒng)的不同評分大致由詞匯、句子兩部分的評分決定;而教師的不同評分由內(nèi)容決定。這說明對不同的作文,人、機(jī)評分的關(guān)注點(diǎn)不同。值得注意的是,系統(tǒng)的不同評分與內(nèi)容評分的變化無關(guān),這說明系統(tǒng)無法識別作文的內(nèi)容水平。而人、機(jī)對內(nèi)容的評分無顯著差異,這說明人評對內(nèi)容的評分存在隨意性,因而二者的內(nèi)容評分皆無法反映作文的內(nèi)容水平。但相較而言,人評更能全面反映學(xué)生全方位的能力。

        系統(tǒng)通過對大規(guī)模人工評分語料庫的學(xué)習(xí),利用自然語言處理技術(shù)和統(tǒng)計(jì)技術(shù)為詞匯、句子、結(jié)構(gòu)、內(nèi)容這四部分賦予很多特征項(xiàng),然后運(yùn)用信息檢索技術(shù),計(jì)算被評作文和這些特征項(xiàng)的距離,據(jù)此進(jìn)行評分[17]。它的評分受限于計(jì)算機(jī)技術(shù)和特征項(xiàng)的挖掘。教師對英語作文評分時(shí),在使用分項(xiàng)評分法的情況下,通常依照相應(yīng)的評分規(guī)則,依據(jù)自身對作文詞匯、句子、結(jié)構(gòu)、內(nèi)容的印象進(jìn)行評分,最后將各部分的評分相加得到總分。這個(gè)過程不可避免地會摻雜主觀因素。

        根據(jù)前人本文結(jié)果,總體來說,盡管人、機(jī)評分的總分無顯著差異,但機(jī)評注重作文的詞匯、句子兩部分,而對結(jié)構(gòu)部分有所忽視,無法識別內(nèi)容部分;人評注重作文的內(nèi)容,對其他三部分也都有所考量。因而,人評總分更能全面反映學(xué)生的英語書面寫作能力。但考慮到人評對時(shí)間、精力、經(jīng)驗(yàn)的要求,機(jī)評的效率,及期末作文只顯示總分的特點(diǎn),在類似的期末考試評分中,應(yīng)將這兩種評分方式相結(jié)合。這樣一來,可減小評分誤差,提高考試的公正性。在平時(shí)的英語寫作練習(xí)中,可讓學(xué)生通過機(jī)評了解自己的總體水平,幫助學(xué)生認(rèn)識差異、快速進(jìn)步。本文選取樣本容量有限,因此得出的結(jié)論適切性差強(qiáng)人意,后續(xù)研究可進(jìn)一步擴(kuò)大研究范圍,同時(shí)可將多款自動(dòng)評分軟件作為研究對象,以期對英語寫作測試的評分提供更大的幫助。

        參考文獻(xiàn):

        [1]武尊民.英語測試的理論與實(shí)踐[M].北京:外語教學(xué)與

        研究出版社,2002:180.

        [2]Dikli Shermis.An Overview of Automated Scoring of Essays

        [J].Journal of Technology,Learning,and Assessment,2006,(8).

        [3]梁茂成,文秋芳.國外作文自動(dòng)評分系統(tǒng)評述及啟示

        [J].外語電化教學(xué),2007,(10).

        [4]梁茂成.大規(guī)模考試英語作文自動(dòng)評分系統(tǒng)的研制[M].

        北京:高等教育出版社,2012:87.

        [5]葛詩利,陳瀟瀟.中國EFL學(xué)習(xí)者自動(dòng)作文評分探索

        [J].外語界,2007,(5).

        [6]楊永林,全冬.認(rèn)知的理念,實(shí)用的視角——信息技術(shù)在

        外語教學(xué)中的應(yīng)用[J].外語電化教學(xué),2011,(6).

        [7]Wang Jin Hao.Automated Essay Scoring Versus Human

        Scoring:A Comparative Study[J].Journal of Technology,

        Learning,and Assessment,2007,(6).

        [8]萬鵬杰.電子軟件評估系統(tǒng)測試大學(xué)英語寫作的研究報(bào)

        告[J].外語電化教學(xué),2005,(3).

        [9]何旭良.句酷批改網(wǎng)英語作文評分的信度和效度研究

        [J].現(xiàn)代教育技術(shù),2013,(5).

        [10]吳儷旻.英語寫作測試中多種評測效果對比研究[D].

        蘭州:蘭州大學(xué),2015.

        [11]殷小娟,賈永華,林慶英.“句酷網(wǎng)”和“冰果”自動(dòng)評分效

        度的對比實(shí)證研究[J].河北北方學(xué)院學(xué)報(bào):社會科學(xué)版,

        2017,(1).

        [12]王建.作文自動(dòng)評分系統(tǒng)效度研究——以批改網(wǎng)為例

        [D].??冢汉D洗髮W(xué),2015.

        [13]李萌濤,楊曉果,馮國棟等.大規(guī)模大學(xué)英語口語測試

        朗讀題型機(jī)器閱卷可行性研究與實(shí)踐[J].外語界,

        2008,(4).

        [14][15][16]許宏晨.第二語言研究中的統(tǒng)計(jì)案例分析

        [M].北京:外語教學(xué)與研究出版社,2013:29,86,86.

        [17]葛詩利,陳瀟瀟.大學(xué)英語作文自動(dòng)評分研究中的問題

        及對策[J].山東外語教學(xué),2009,(3).

        猜你喜歡
        作文評分英語
        Disorders of the brain-gut interaction and eating disorders
        我給爸爸評分
        A2DS2評分與AIS-APS評分在預(yù)測卒中相關(guān)肺炎中的表現(xiàn)
        Castleman disease in the hepatic-gastric space: A case report
        紅批有聲作文
        紅批有聲作文
        紅批作文
        紅批作文
        讀英語
        酷酷英語林
        麻豆国产原创视频在线播放| 国产福利不卡视频在线| 亚洲综合偷自成人网第页色 | 国产特级毛片aaaaaaa高清| 国产啪精品视频网给免丝袜| 国产一区二区三区观看视频| 美女脱掉内裤扒开下面让人插| 久久精品国产清自在天天线| 欧洲日本一线二线三线区本庄铃| 欧美精品一区二区精品久久| 日韩中文字幕一区在线| 国产精品一区二区日本| 亚洲av无码xxx麻豆艾秋| 亚洲成人777| 开心激情网,开心五月天| 老女老肥熟女一区二区| 国产一卡2卡3卡四卡国色天香 | 亚洲精品乱码久久久久99| 99蜜桃在线观看免费视频| 免费av一区二区三区无码| 国产手机在线αⅴ片无码观看| 在线观看亚洲你懂得| av在线一区二区三区不卡| 国产亚洲综合一区二区三区| 亲子乱aⅴ一区二区三区下载| 日本a在线天堂| 日本精品一级二区三级| 色婷婷亚洲一区二区三区| 馬与人黃色毛片一部| 综合激情中文字幕一区二区| 中文字幕女同系列在线看一| 手机看片福利一区二区三区| 亚洲av美女在线播放啊| 最新国产精品国产三级国产av| 国产欧美日韩一区二区加勒比| 中文字幕人妻丝袜乱一区三区| 亚洲aⅴ久久久噜噜噜噜| 国产毛片视频一区二区三区在线 | 国产精品一区二区三区在线蜜桃| 亚洲精品一区久久久久久| 久热香蕉av在线爽青青|