亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

PRETCO口試評(píng)分效度研究①

2018-04-09 02:00:08楊志強(qiáng)許吟雪

重慶三峽學(xué)院學(xué)報(bào) 2018年2期

關(guān)鍵詞：分?jǐn)?shù)段口試效度

楊志強(qiáng) 許吟雪全冬

楊志強(qiáng) 許吟雪全冬

（重慶科技學(xué)院外國語學(xué)院，重慶 401331）

采用多層面Rasch模型，通過分析PRETCO口試的評(píng)分結(jié)果以探究其評(píng)分效度。研究發(fā)現(xiàn)PRETCO口試評(píng)分效度較高，其評(píng)分結(jié)果能夠有效區(qū)分考生的口語水平，評(píng)分員評(píng)分的自身一致性總體較好。研究同時(shí)發(fā)現(xiàn)PRETCO口試評(píng)分存在以下問題：評(píng)分員的寬嚴(yán)度差別顯著，個(gè)別評(píng)分員的內(nèi)部一致性較差；少數(shù)評(píng)分員和考生的交互作用存在顯著差異；評(píng)分員和四項(xiàng)任務(wù)之間也出現(xiàn)了不同程度的偏差。

PRETCO；多層面Rasch模型；評(píng)分效度

高等學(xué)校英語應(yīng)用能力考試（Practical English Test for College，簡(jiǎn)稱PRETCO）是由PRETCO考試委員會(huì)設(shè)計(jì)的標(biāo)準(zhǔn)化考試，主要面向高職院校和成人高專院校的學(xué)生[1]。PRETCO口試（PRETCO-Oral）是PRETCO考試的組成部分，2005年開始試行。該考試為計(jì)算機(jī)輔助口語考試，報(bào)考對(duì)象不同于PRETCO考試，除了面向高等職業(yè)院校的學(xué)生外，還包括應(yīng)用型高等院校的在校學(xué)生。由于PRETCO口試是主觀性測(cè)試，其評(píng)分亦為主觀行為，其間必然產(chǎn)生評(píng)分誤差，影響測(cè)試的評(píng)分效度。為減少評(píng)分的主觀性對(duì)考試整體效度的影響，本研究采用多層面Rasch模型（Multi-facets Rasch Model，以下簡(jiǎn)稱MFRM），對(duì)PRETCO口語考試的評(píng)分進(jìn)行研究，以期為該考試的評(píng)分或評(píng)分員的培訓(xùn)提供一些啟示與建議。

一、研究背景

口語考試屬于語言運(yùn)用測(cè)試（Language Performance Assessment）[2]，鑒于該類測(cè)試的主觀題屬性，評(píng)分需要人工完成，評(píng)分的質(zhì)量對(duì)于語言運(yùn)用測(cè)試而言極其重要[3]。國外基于多層面Rasch模型的語言測(cè)試研究主要是語言運(yùn)用測(cè)試的評(píng)分研究（口語和寫作測(cè)試評(píng)分）[4]。國內(nèi)的相關(guān)研究處于起步階段，內(nèi)容涉及語用能力測(cè)試的評(píng)分[5]、CET和TEM-4作文/口語考試的評(píng)分信度[6]、評(píng)分員效應(yīng)/偏差研究[7]和PRETCO口試評(píng)分標(biāo)準(zhǔn)的效度驗(yàn)證[8]等。使用多層面Rasch模型對(duì)語言運(yùn)用測(cè)試的評(píng)分進(jìn)行研究已得到廣泛重視。但目前還沒發(fā)現(xiàn)有關(guān)PRETCO口試評(píng)分效度的研究成果。為此，本研究擬采用多層面Rasch模型對(duì)PRETCO口試的評(píng)分結(jié)果進(jìn)行分析，探討其評(píng)分效度。

二、研究方法

（一）數(shù)據(jù)來源

PRETCO口試為計(jì)算機(jī)輔助口語測(cè)試，主要包括四個(gè)部分：朗讀短文（Loud Reading）、提問—回答（Questions & Answers）、漢譯英（Chinese-English Interpretation）以及看圖講話（Presentation）。本研究分析的對(duì)象為重慶市某PRETCO口試閱卷點(diǎn)2015年12月的評(píng)分結(jié)果，共有1 455名考生參加這次考試。考試同時(shí)使用四套平行試題，即sheet1、sheet2、sheet3和sheet4，參考的考生人數(shù)分別為645名、466名、237名和107名。參加閱卷的評(píng)分員（R1-R20）共有20名，來自11所不同的高校，他們分別對(duì)考生進(jìn)行雙評(píng)。PRETCO口試的總分為16分，每項(xiàng)任務(wù)為4分，評(píng)分時(shí)采用七個(gè)分?jǐn)?shù)段，分別為0分，1分，2分，2.5分，3分，3.5分和4分。鑒于FACETS分析數(shù)據(jù)時(shí)需使用整數(shù)，因此本研究將七個(gè)分?jǐn)?shù)段轉(zhuǎn)換成七個(gè)等級(jí)（1，2，3，4，5，6，7）。

（二）MFRM模型中的主要概念

本研究采用的MFRM模型包括四個(gè)層面：考生能力、評(píng)分員、試題以及口語考試的四項(xiàng)任務(wù)。因?yàn)镻RETCO口試的四套題為平行試題，所以本研究對(duì)試題層面進(jìn)行錨定（anchoring），以消除估算過程中的歧義。此外，由于PRETCO各項(xiàng)任務(wù)的評(píng)分標(biāo)準(zhǔn)有其自身的特點(diǎn)，所以需采用多層面Rasch模型中分部記分模型（Partial Credit Model）[9]。

多層面Rasch模型的分析主要涉及以下概念：

1．度量值（Measure）：每個(gè)層面的個(gè)體在統(tǒng)一標(biāo)尺上的數(shù)值，以洛基單位（logit）呈現(xiàn)，從而便于比較各層面中個(gè)體能力的差異；

2．?dāng)M合統(tǒng)計(jì)量（Fit statistics）：表示個(gè)體的實(shí)際觀察值與Rasch模型預(yù)測(cè)值的擬合程度，包括加權(quán)均方擬合統(tǒng)計(jì)量（Infit Mean Square）和未加權(quán)均方擬合統(tǒng)計(jì)量（Out Mean Square）；

3．分隔系數(shù)（Separation）和分隔指數(shù)信度（Reliability）：衡量個(gè)體之間存在顯著性差異的程度；

4．偏差（Bias）分析：多層面Rasch模型可以用來預(yù)測(cè)實(shí)際分?jǐn)?shù)偏離模型的情況，顯著性偏差比例可接受的范圍在5%左右。

三、分析與討論

本研究基于FACETS（3.71.3）軟件，利用MFRM模型對(duì)PRETCO的口語評(píng)分進(jìn)行總體分析，并從考生、評(píng)分者、任務(wù)和評(píng)分偏差四個(gè)方面展開討論。

（一）總體分析

由圖1可以看出，第一列為度量值，其統(tǒng)一單位為logit，該圖顯示的最大值約為5logits，最小值為-6logits，總跨度約為11logits。第二列為考生能力值，依據(jù)考生的能力從大到小進(jìn)行排列，排位越靠上，考生能力越強(qiáng)，位于同一行的考生能力相同；其中，一個(gè)“*”代表16名考生，而“.”表示少于16名考生。根據(jù)圖1我們可以得出結(jié)論：考生的能力總體上呈正態(tài)分布，排位靠上的考生比排位靠下的考生具備更高的英語口語表達(dá)能力。

圖1 總體層面圖（囿于篇幅，本圖有所調(diào)整）

第三列為評(píng)分員評(píng)分的度量值，該值不受考生能力和試題難度的影響，能夠反映出評(píng)分員的寬嚴(yán)度。由于評(píng)分員的寬嚴(yán)度是負(fù)向的（圖中第一行“-Raters”），所以評(píng)分員的度量值越大，其評(píng)分越低，即越嚴(yán)厲。從圖1可以看出，評(píng)分員R4最嚴(yán)厲，R18最寬松。

第四列為錨定的四套題，難度值均為“0”logit。

第五列為任務(wù)的難度。同樣，由于任務(wù)的難度是負(fù)向的（-Tasks），所以每項(xiàng)任務(wù)的度量值越大，則表明該任務(wù)的得分越低，即越難。由圖1可知，第二部分任務(wù)Question & Answer的難度最大，第一部分任務(wù)Reading難度最小，兩項(xiàng)任務(wù)的度量值之差約為2Logits，遠(yuǎn)小于考生能力量度的跨度。

最后四列為四項(xiàng)任務(wù)評(píng)分標(biāo)準(zhǔn)各個(gè)分?jǐn)?shù)段的使用情況，圖中分?jǐn)?shù)段之間的短橫線“---”表示相鄰兩個(gè)等級(jí)的臨界能力值。

（二）各層面分析

第一，表1是考生層面的統(tǒng)計(jì)數(shù)據(jù)。能力最強(qiáng)的考生度量值為4.18logits，能力最弱的考生度量值為-6.82logits，兩者相差較大，達(dá)到11logits。多層面Rasch模型規(guī)定，如果實(shí)際觀察值與模型預(yù)測(cè)值完全擬合，其擬合統(tǒng)計(jì)量（InfitMnSq）的值為1。由表1可知，考生層面InfitMnSq的均值為1.02，這表明考生的能力基本與模型一致。表1同樣顯示，考生個(gè)體能力的分隔系數(shù)為2.71，分隔指數(shù)的信度為0.88，卡方值為9 641.6（d.f.=1 454, p=0.00＜0.01）從統(tǒng)計(jì)的角度分析被試能力的差異具有顯著意義。

表1 考生層面數(shù)據(jù)

多層面Rasch模型并沒有嚴(yán)格規(guī)定擬合度（fit）的取值范圍，這需要根據(jù)考試的性質(zhì)和目的來確定。一些研究認(rèn)為擬合度在0.5-1.5之間是可接受的范圍，0.7-1.3之間為高度擬合。但是，也有研究將考生層面InfitMnsq取值范圍定為0.5-3之間。本研究主要參考了FACETS說明書中擬合度的取值范圍（表2）。其中，fit＜0.5表示過度擬合（overfit），即評(píng)分員對(duì)考生的各項(xiàng)評(píng)分的差異小于模型的預(yù)期值；而fit>2則表示非擬合（Misfit），即評(píng)分員對(duì)考生的各項(xiàng)評(píng)分超出了模型的預(yù)期。本研究中非擬合的考生數(shù)量為114，這可能是由于不同的評(píng)分員對(duì)同一考生評(píng)分不一致而造成。但由于考生層面的非擬合不是主要問題，而且非擬合的考生總數(shù)僅占總數(shù)的7.8%，因此這并不影響此次評(píng)分的效度。

表2擬合度分布

擬合度取值考生數(shù)百分比 Overfit: fit＜0.531121.3% Less Acceptable1.5≦fit≦215710.8% Acceptable0.5≦fit＜1.587360.0% Misfit fit >2114 7.8%

第二，評(píng)分員層面的數(shù)據(jù)顯示（見表3），評(píng)分員評(píng)分寬嚴(yán)度的分隔指數(shù)為8.05，分隔指數(shù)的信度為0.98，卡方值為1 330.2（d.f.=19），顯著性p=.00<0.01，這表明評(píng)分員評(píng)分的寬嚴(yán)度存在統(tǒng)計(jì)學(xué)意義上的顯著性差異。其中，最嚴(yán)厲的評(píng)分員（R4）度量值為0.63logits，最寬松的評(píng)分員（R18）度量值為-.76logits，兩者相差1.39logits，只占考生能力跨度（11 logits）的1/8。這從一定程度上表明，總體上來說考官的嚴(yán)厲度差異對(duì)考生成績(jī)的影響不大。

PRETCO口試的考試規(guī)模較大，風(fēng)險(xiǎn)較高，因此本研究對(duì)于評(píng)分員層面擬合度（InfitMnSq）的取值較為謹(jǐn)慎，采用0.7–1.3高度擬合的取值范圍。如果InfitMnSq大于1.3logits，說明評(píng)分員自身評(píng)分的一致性較差；如果InfitMnSq小于0.7logits，則說明評(píng)分員的評(píng)分比較接近，差異較小，可能會(huì)導(dǎo)致集中趨勢(shì)。所謂集中趨勢(shì)是指評(píng)分員的評(píng)分比較趨中，評(píng)分員過多地使用中間分?jǐn)?shù)段，這樣無益于區(qū)分考生的能力。雖然過度擬合和非擬合都表明評(píng)分員對(duì)考生的評(píng)分出現(xiàn)一定程度的偏差，但通常情況下，非擬合的問題較過度擬合而言更加嚴(yán)重。由表3可知，評(píng)分員層面的擬合度總體較好，有一位評(píng)分員的擬合度大于1.3logits（R5，1.68logits），出現(xiàn)了非擬合現(xiàn)象，表明這位評(píng)分員未能很好地使用各個(gè)分?jǐn)?shù)段，評(píng)分的前后一致性較差。原因可能是評(píng)分員R5第一次參加PRETCO口試的評(píng)分，缺乏評(píng)分經(jīng)驗(yàn)。此外，該評(píng)分員還兼顧教學(xué)和行政工作，這也可能會(huì)影響其評(píng)分質(zhì)量。對(duì)于這位評(píng)分員，需要進(jìn)行針對(duì)性的培訓(xùn)，從而提高其評(píng)分的一致性。本次閱卷所有評(píng)分員的擬合度均大于0.7logits，總體不存在集中趨勢(shì)。

第三，表4是任務(wù)層面的分析數(shù)據(jù)。我們可以看出四項(xiàng)任務(wù)中，“提問—回答”最難，度量值為0.96logits，其次是“看圖講話”和“漢譯英”，度量值分別為0.28logits和–0.08logits，“朗讀短文”最簡(jiǎn)單（–1.15logits）。四項(xiàng)任務(wù)的難度分隔系數(shù)為36.36，分隔指數(shù)信度為1.00，卡方值5 221.8（d.f.=3），顯著性p=.00<0.01，這表明四部分任務(wù)的難度差異具有統(tǒng)計(jì)意義上的顯著性。雖然如此，由于四項(xiàng)任務(wù)的難度差異僅為2.11logits，所以總體上不影響考生的成績(jī)。由任務(wù)層面的擬合度可知（表4倒數(shù)第二列數(shù)據(jù)），“提問—回答”“看圖講話”“漢譯英”以及“朗讀短文”的擬合度總體較好，分別為1.22logits、0.86logits、0.88logits和1.06logits，均位于0.7–1.3之間，這說明評(píng)分員對(duì)PRETCO口試各項(xiàng)任務(wù)的評(píng)分一致性較好。

表4 任務(wù)層面

表5 四項(xiàng)任務(wù)各分?jǐn)?shù)段評(píng)分分布統(tǒng)計(jì)

注：由于本次閱卷的數(shù)量較多，分?jǐn)?shù)段使用不到10次的頻率顯示“0%”。

多層面Rasch模型對(duì)于評(píng)分標(biāo)準(zhǔn)各個(gè)分?jǐn)?shù)段的使用情況有具體的要求。如果分?jǐn)?shù)段的使用次數(shù)過低（低于10次），那么這個(gè)分?jǐn)?shù)段有可能存在問題，需要采取一定措施，比如：改寫其描述語，或者和相鄰的分?jǐn)?shù)段進(jìn)行合并，甚至可以直接將該分?jǐn)?shù)段刪除。由表5可知，評(píng)分員使用了四項(xiàng)任務(wù)評(píng)分標(biāo)準(zhǔn)的所有分?jǐn)?shù)段，但“陳述”任務(wù)分?jǐn)?shù)段7的使用頻次僅為8次，少于10次。該分?jǐn)?shù)段的描述語要求考生除了能夠用英語清楚、連貫地介紹題目中圖畫/圖表所包含的信息外，還要對(duì)其進(jìn)行評(píng)述，并做到英語表達(dá)符合規(guī)范。由于參加PRETCO口試的考生主要來自高職院?；驊?yīng)用技術(shù)型院校，“陳述”任務(wù)分?jǐn)?shù)段7的描述語對(duì)此類考生的要求可能較高，多數(shù)考生的表現(xiàn)難以達(dá)到這個(gè)標(biāo)準(zhǔn)。當(dāng)然，也有可能由于PRETCO口試評(píng)分培訓(xùn)時(shí)缺乏對(duì)該分?jǐn)?shù)段的闡述，評(píng)分員的理解可能存在偏差，從而導(dǎo)致該分?jǐn)?shù)段的使用次數(shù)過低。

（三）評(píng)分偏差

本研究對(duì)于評(píng)分誤差分析主要通過Rasch模型中的偏差交互作用分析（bias interaction analysis）進(jìn)行，如評(píng)分員與考生的偏差、評(píng)分員與各項(xiàng)任務(wù)的偏差等。本研究根據(jù)FACETS的分析結(jié)果，認(rèn)為p<0.05為顯著偏差。

一方面，本文通過MFRM對(duì)評(píng)分員和考生偏差分析。結(jié)果顯示評(píng)分員與考生之間的交互作用出現(xiàn)顯著偏差（詳見表6，p<0.05），偏差的總數(shù)為14次。其中，評(píng)分員R1、R3、R13和R16分別出現(xiàn)兩次偏差，評(píng)分員R4、R8、R9、R14、R15和R19分別出現(xiàn)一次偏差。以評(píng)分員R3為例，該評(píng)分員給考生s641的評(píng)分為24分（該分?jǐn)?shù)為轉(zhuǎn)化后的等級(jí)分?jǐn)?shù)，下同），而MFRM模型的期望分?jǐn)?shù)為17.06分，評(píng)分過于寬松；然而對(duì)考生s1350的評(píng)分卻較為嚴(yán)厲，實(shí)際評(píng)分為9分，MFRM模型的期望分?jǐn)?shù)為17.37分。

表6 評(píng)分員與考生偏差分析

由于本次閱卷的總量較大，而且實(shí)行雙評(píng)，所以14次的顯著性偏差對(duì)總體評(píng)分效度影響不大。此外，以考生s1350為例（同見表6），雖然評(píng)分員R3對(duì)其評(píng)分較嚴(yán)，實(shí)際評(píng)分為9分，但評(píng)分員R4對(duì)其評(píng)分則較為寬松，實(shí)際評(píng)分為24分，兩者相差懸殊。對(duì)于閱卷過程中的此類評(píng)分偏差，由第三方閱卷員重新進(jìn)行評(píng)閱（仲裁），以此消除偏差現(xiàn)象。

另一方面，本文分析評(píng)分員與任務(wù)的偏差。數(shù)據(jù)分析顯示20位評(píng)分員與任務(wù)的交互作用均產(chǎn)生了顯著性偏差（p<0.05），偏差的次數(shù)為59，占所有交互作用組合（21×4=84）的70.2%。這些偏差表明，在四項(xiàng)任務(wù)評(píng)分標(biāo)準(zhǔn)的認(rèn)識(shí)和把握上評(píng)分員的一致性較差。評(píng)分員在各項(xiàng)任務(wù)上的偏差或偏松的次數(shù)相當(dāng)，說明他們?cè)诟黜?xiàng)任務(wù)上的評(píng)分尺度不一致。

產(chǎn)生上述偏差的原因可能是評(píng)分員對(duì)各項(xiàng)任務(wù)的評(píng)分標(biāo)準(zhǔn)理解不一致，也有可能是評(píng)分標(biāo)準(zhǔn)或評(píng)分尺度存在問題，讓評(píng)分員難以把握，比如“陳述”任務(wù)的最后一個(gè)分?jǐn)?shù)段。這兩方面原因可能導(dǎo)致評(píng)分員出現(xiàn)了評(píng)分偏差。

四、結(jié)論與建議

本研究通過使用多層面Rasch模型（MFRM）對(duì)PRETCO口試的評(píng)分效度進(jìn)行研究，得出如下結(jié)論：PRETCO口試的評(píng)分結(jié)果能夠有效地區(qū)分考生的口語水平，評(píng)分效度較高，評(píng)分員評(píng)分的自身一致性總體較好。然而，評(píng)分員的寬嚴(yán)度有著顯著差別，個(gè)別評(píng)分員的內(nèi)部一致性較差；少數(shù)評(píng)分員和考生的交互作用差異顯著；評(píng)分員和四項(xiàng)任務(wù)之間也出現(xiàn)了不同程度的評(píng)分偏差。為了減少評(píng)分偏差，本研究擬對(duì)PRETCO口試的評(píng)分以及評(píng)分培訓(xùn)提出以下建議：

（一）進(jìn)一步加強(qiáng)對(duì)評(píng)分員的培訓(xùn)

雖然PRETCO口試閱卷前對(duì)所有的評(píng)分員都進(jìn)行了培訓(xùn)，而且多數(shù)評(píng)分員評(píng)分的內(nèi)部一致性把握較好，但評(píng)分員外部一致性差異顯著。這表明原有評(píng)分員的培訓(xùn)可能對(duì)提升評(píng)分員自身的一致性有一定的幫助，而對(duì)提高評(píng)分員外部一致性的作用不明顯[33]。因此，本研究建議進(jìn)一步加強(qiáng)對(duì)評(píng)分員的培訓(xùn)，除了評(píng)分前的培訓(xùn)外，評(píng)分過程中也可以進(jìn)行適當(dāng)?shù)臅和?，增加培?xùn)和評(píng)分員的討論等環(huán)節(jié)，從而減少實(shí)際評(píng)分中的誤差。

（二）盡量使用有經(jīng)驗(yàn)的老評(píng)分員

通常而言，老評(píng)分員閱卷經(jīng)驗(yàn)豐富，評(píng)分質(zhì)量較高，而且閱卷的效率也高于新評(píng)分員，因此，在實(shí)際條件允許的情況下，盡量使用老評(píng)分員。如果確有新評(píng)分員參與評(píng)分，則需要對(duì)新評(píng)分員進(jìn)行針對(duì)性的培訓(xùn)，比如對(duì)評(píng)分標(biāo)準(zhǔn)進(jìn)行詳盡的解釋，選用各個(gè)評(píng)分段所對(duì)應(yīng)的典型作文進(jìn)行多次試評(píng)等。同時(shí)，閱卷過程中也可以邀請(qǐng)優(yōu)秀的老評(píng)分員交流其評(píng)分經(jīng)驗(yàn)，以幫助新評(píng)分員提高閱卷質(zhì)量和效率。

（三）減少閱卷過程中的評(píng)分偏差

為了減少閱卷過程中的評(píng)分偏差，閱卷中心需要及時(shí)豐富和更新閱卷的數(shù)據(jù)，加強(qiáng)閱卷組長(zhǎng)的監(jiān)督力度。閱卷組長(zhǎng)在閱卷過程中應(yīng)不間斷查看評(píng)分員的閱卷數(shù)據(jù)，比如總體評(píng)分的均值、標(biāo)準(zhǔn)差以及評(píng)分員各自的均值、標(biāo)準(zhǔn)差等，及時(shí)告知閱卷員的評(píng)分情況。如果個(gè)別閱卷員出現(xiàn)明顯偏差，則應(yīng)及時(shí)提醒并督促糾正，如果情況仍然沒有改觀，則有必要對(duì)其進(jìn)行培訓(xùn)。

當(dāng)然，本研究只采用定量的方法對(duì)PRETCO口試的單次評(píng)分結(jié)果進(jìn)行了分析，還存在兩點(diǎn)不足：未采用定性的方法探究評(píng)分偏差深層次的原因；未對(duì)歷次的評(píng)分偏差進(jìn)行歷時(shí)分析，這兩方面需要在以后的研究中進(jìn)一步完善。

[1] 《高等學(xué)校英語應(yīng)用能力考試大綱》修訂組．高等學(xué)校英語應(yīng)用能力考試（口試）大綱和樣題[M]．2版．北京：高等教育出版社，2016．

[2] McNamara，Tim. F.Measuring Second Language Performance[M].London: Longman, 1996．

[3] 劉建達(dá)，楊滿珍．做事測(cè)試評(píng)卷中的質(zhì)量控制[J]．外語電化教學(xué)，2010（1）：26-32.

[4] Wind, Stefanie. A. & Peterson, Meghan. E. A systematic review of methods for evaluating rating quality in language assessment[J].Language Testing, 2017(1):1-32.doi: 10.1177/0265532216686999.

[5] 劉建達(dá)．話語填充測(cè)試方法的多層面Rasch模型分析[J]．現(xiàn)代外語，2005（2）：157-169

[6] 王躍武，朱正才、楊惠中．作文網(wǎng)上評(píng)分信度的多面Rasch測(cè)量分析[J]．外語界，2006（1）：69-76.

[7] 劉建達(dá)．評(píng)卷人效應(yīng)的多層面Rasch模型研究[J]．現(xiàn)代外語，2010（2）：185-193.

[8] 楊志強(qiáng)，全冬．PRETCO 口試評(píng)分標(biāo)準(zhǔn)效度驗(yàn)證[J]．外語測(cè)試與教學(xué)，2016（1）：13-21+31.

[9] 戴朝暉，尤其達(dá)．大學(xué)英語計(jì)算機(jī)口語考試評(píng)分者偏差分析[J]．外語界，2010（5）：87-95.

（責(zé)任編輯：鄭宗榮）

①傳統(tǒng)意義上，評(píng)分研究主要是“信度”研究，即評(píng)分的一致性和可靠性。由于“信度”只是整體效度中的一部分，因此使用“評(píng)分效度”更加貼切[4]。

A Study on the Scoring Validity of PRETCO-Oral

YANG Zhiqiang XU Yinxue QUAN Dong

This study explores the scoring validity of PRETCO-Oral through a many-facet Rasch analysis. Results show that the scoring of PRETCO-Oral is valid in that examinees’ oral English proficiency can be screened by the test, raters’ scorings are reliable and raters are self-consistent in general; However, results also demonstrate that there are significant differences in raters’ leniency/severity; few raters exhibit self-inconsistency; there exists bias between several raters and examinees and bias between raters and the four tasks.

PRETCO; many-facet Rasch model; scoring validity

G642.475

1009-8135（2018）02-0121-08

楊志強(qiáng)（1982—），男，河南安陽人，重慶科技學(xué)院外國語學(xué)院講師，碩士，主要研究語言測(cè)試。

許吟雪（1983—），女，重慶人，重慶科技學(xué)院外國語學(xué)院講師，碩士，主要研究應(yīng)用語言學(xué)。

全冬（1972—），男，四川金堂人，重慶科技學(xué)院外國語學(xué)院教授，主要研究現(xiàn)代教育技術(shù)。

重慶市教育委員會(huì)人文社會(huì)科學(xué)研究規(guī)劃項(xiàng)目“基于證據(jù)的PRETCO口試效度研究”（17SKG201）和重慶科技學(xué)院校內(nèi)科研基金項(xiàng)目“基于證據(jù)的PRETCO口試效度研究”（CK2016Z35）階段性研究成果。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

PRETCO口試評(píng)分效度研究①

一、研究背景

二、研究方法

（一）數(shù)據(jù)來源

（二）MFRM模型中的主要概念

三、分析與討論

（一）總體分析

（二）各層面分析

（三）評(píng)分偏差

四、結(jié)論與建議

（一）進(jìn)一步加強(qiáng)對(duì)評(píng)分員的培訓(xùn)

（二）盡量使用有經(jīng)驗(yàn)的老評(píng)分員

（三）減少閱卷過程中的評(píng)分偏差

一、研究背景

二、研究方法

三、分析與討論

四、結(jié)論與建議