楊志強(qiáng) 許吟雪 全 冬
?
PRETCO口試評(píng)分效度研究①
楊志強(qiáng) 許吟雪 全 冬
(重慶科技學(xué)院外國語學(xué)院,重慶 401331)
采用多層面Rasch模型,通過分析PRETCO口試的評(píng)分結(jié)果以探究其評(píng)分效度。研究發(fā)現(xiàn)PRETCO口試評(píng)分效度較高,其評(píng)分結(jié)果能夠有效區(qū)分考生的口語水平,評(píng)分員評(píng)分的自身一致性總體較好。研究同時(shí)發(fā)現(xiàn)PRETCO口試評(píng)分存在以下問題:評(píng)分員的寬嚴(yán)度差別顯著,個(gè)別評(píng)分員的內(nèi)部一致性較差;少數(shù)評(píng)分員和考生的交互作用存在顯著差異;評(píng)分員和四項(xiàng)任務(wù)之間也出現(xiàn)了不同程度的偏差。
PRETCO;多層面Rasch模型;評(píng)分效度
高等學(xué)校英語應(yīng)用能力考試(Practical English Test for College,簡(jiǎn)稱PRETCO)是由PRETCO考試委員會(huì)設(shè)計(jì)的標(biāo)準(zhǔn)化考試,主要面向高職院校和成人高專院校的學(xué)生[1]。PRETCO口試(PRETCO-Oral)是PRETCO考試的組成部分,2005年開始試行。該考試為計(jì)算機(jī)輔助口語考試,報(bào)考對(duì)象不同于PRETCO考試,除了面向高等職業(yè)院校的學(xué)生外,還包括應(yīng)用型高等院校的在校學(xué)生。由于PRETCO口試是主觀性測(cè)試,其評(píng)分亦為主觀行為,其間必然產(chǎn)生評(píng)分誤差,影響測(cè)試的評(píng)分效度。為減少評(píng)分的主觀性對(duì)考試整體效度的影響,本研究采用多層面Rasch模型(Multi-facets Rasch Model,以下簡(jiǎn)稱MFRM),對(duì)PRETCO口語考試的評(píng)分進(jìn)行研究,以期為該考試的評(píng)分或評(píng)分員的培訓(xùn)提供一些啟示與建議。
口語考試屬于語言運(yùn)用測(cè)試(Language Performance Assessment)[2],鑒于該類測(cè)試的主觀題屬性,評(píng)分需要人工完成,評(píng)分的質(zhì)量對(duì)于語言運(yùn)用測(cè)試而言極其重要[3]。國外基于多層面Rasch模型的語言測(cè)試研究主要是語言運(yùn)用測(cè)試的評(píng)分研究(口語和寫作測(cè)試評(píng)分)[4]。國內(nèi)的相關(guān)研究處于起步階段,內(nèi)容涉及語用能力測(cè)試的評(píng)分[5]、CET和TEM-4作文/口語考試的評(píng)分信度[6]、評(píng)分員效應(yīng)/偏差研究[7]和PRETCO口試評(píng)分標(biāo)準(zhǔn)的效度驗(yàn)證[8]等。使用多層面Rasch模型對(duì)語言運(yùn)用測(cè)試的評(píng)分進(jìn)行研究已得到廣泛重視。但目前還沒發(fā)現(xiàn)有關(guān)PRETCO口試評(píng)分效度的研究成果。為此,本研究擬采用多層面Rasch模型對(duì)PRETCO口試的評(píng)分結(jié)果進(jìn)行分析,探討其評(píng)分效度。
PRETCO口試為計(jì)算機(jī)輔助口語測(cè)試,主要包括四個(gè)部分:朗讀短文(Loud Reading)、提問—回答(Questions & Answers)、漢譯英(Chinese-English Interpretation)以及看圖講話(Presentation)。本研究分析的對(duì)象為重慶市某PRETCO口試閱卷點(diǎn)2015年12月的評(píng)分結(jié)果,共有1 455名考生參加這次考試。考試同時(shí)使用四套平行試題,即sheet1、sheet2、sheet3和sheet4,參考的考生人數(shù)分別為645名、466名、237名和107名。參加閱卷的評(píng)分員(R1-R20)共有20名,來自11所不同的高校,他們分別對(duì)考生進(jìn)行雙評(píng)。PRETCO口試的總分為16分,每項(xiàng)任務(wù)為4分,評(píng)分時(shí)采用七個(gè)分?jǐn)?shù)段,分別為0分,1分,2分,2.5分,3分,3.5分和4分。鑒于FACETS分析數(shù)據(jù)時(shí)需使用整數(shù),因此本研究將七個(gè)分?jǐn)?shù)段轉(zhuǎn)換成七個(gè)等級(jí)(1,2,3,4,5,6,7)。
本研究采用的MFRM模型包括四個(gè)層面:考生能力、評(píng)分員、試題以及口語考試的四項(xiàng)任務(wù)。因?yàn)镻RETCO口試的四套題為平行試題,所以本研究對(duì)試題層面進(jìn)行錨定(anchoring),以消除估算過程中的歧義。此外,由于PRETCO各項(xiàng)任務(wù)的評(píng)分標(biāo)準(zhǔn)有其自身的特點(diǎn),所以需采用多層面Rasch模型中分部記分模型(Partial Credit Model)[9]。
多層面Rasch模型的分析主要涉及以下概念:
1.度量值(Measure):每個(gè)層面的個(gè)體在統(tǒng)一標(biāo)尺上的數(shù)值,以洛基單位(logit)呈現(xiàn),從而便于比較各層面中個(gè)體能力的差異;
2.?dāng)M合統(tǒng)計(jì)量(Fit statistics):表示個(gè)體的實(shí)際觀察值與Rasch模型預(yù)測(cè)值的擬合程度,包括加權(quán)均方擬合統(tǒng)計(jì)量(Infit Mean Square)和未加權(quán)均方擬合統(tǒng)計(jì)量(Out Mean Square);
3.分隔系數(shù)(Separation)和分隔指數(shù)信度(Reliability):衡量個(gè)體之間存在顯著性差異的程度;
4.偏差(Bias)分析:多層面Rasch模型可以用來預(yù)測(cè)實(shí)際分?jǐn)?shù)偏離模型的情況,顯著性偏差比例可接受的范圍在5%左右。
本研究基于FACETS(3.71.3)軟件,利用MFRM模型對(duì)PRETCO的口語評(píng)分進(jìn)行總體分析,并從考生、評(píng)分者、任務(wù)和評(píng)分偏差四個(gè)方面展開討論。
由圖1可以看出,第一列為度量值,其統(tǒng)一單位為logit,該圖顯示的最大值約為5logits,最小值為-6logits,總跨度約為11logits。第二列為考生能力值,依據(jù)考生的能力從大到小進(jìn)行排列,排位越靠上,考生能力越強(qiáng),位于同一行的考生能力相同;其中,一個(gè)“*”代表16名考生,而“.”表示少于16名考生。根據(jù)圖1我們可以得出結(jié)論:考生的能力總體上呈正態(tài)分布,排位靠上的考生比排位靠下的考生具備更高的英語口語表達(dá)能力。
圖1 總體層面圖(囿于篇幅,本圖有所調(diào)整)
第三列為評(píng)分員評(píng)分的度量值,該值不受考生能力和試題難度的影響,能夠反映出評(píng)分員的寬嚴(yán)度。由于評(píng)分員的寬嚴(yán)度是負(fù)向的(圖中第一行“-Raters”),所以評(píng)分員的度量值越大,其評(píng)分越低,即越嚴(yán)厲。從圖1可以看出,評(píng)分員R4最嚴(yán)厲,R18最寬松。
第四列為錨定的四套題,難度值均為“0”logit。
第五列為任務(wù)的難度。同樣,由于任務(wù)的難度是負(fù)向的(-Tasks),所以每項(xiàng)任務(wù)的度量值越大,則表明該任務(wù)的得分越低,即越難。由圖1可知,第二部分任務(wù)Question & Answer的難度最大,第一部分任務(wù)Reading難度最小,兩項(xiàng)任務(wù)的度量值之差約為2Logits,遠(yuǎn)小于考生能力量度的跨度。
最后四列為四項(xiàng)任務(wù)評(píng)分標(biāo)準(zhǔn)各個(gè)分?jǐn)?shù)段的使用情況,圖中分?jǐn)?shù)段之間的短橫線“---”表示相鄰兩個(gè)等級(jí)的臨界能力值。
第一,表1是考生層面的統(tǒng)計(jì)數(shù)據(jù)。能力最強(qiáng)的考生度量值為4.18logits,能力最弱的考生度量值為-6.82logits,兩者相差較大,達(dá)到11logits。多層面Rasch模型規(guī)定,如果實(shí)際觀察值與模型預(yù)測(cè)值完全擬合,其擬合統(tǒng)計(jì)量(InfitMnSq)的值為1。由表1可知,考生層面InfitMnSq的均值為1.02,這表明考生的能力基本與模型一致。表1同樣顯示,考生個(gè)體能力的分隔系數(shù)為2.71,分隔指數(shù)的信度為0.88,卡方值為9 641.6(d.f.=1 454, p=0.00<0.01)從統(tǒng)計(jì)的角度分析被試能力的差異具有顯著意義。
表1 考生層面數(shù)據(jù)
多層面Rasch模型并沒有嚴(yán)格規(guī)定擬合度(fit)的取值范圍,這需要根據(jù)考試的性質(zhì)和目的來確定。一些研究認(rèn)為擬合度在0.5-1.5之間是可接受的范圍,0.7-1.3之間為高度擬合。但是,也有研究將考生層面InfitMnsq取值范圍定為0.5-3之間。本研究主要參考了FACETS說明書中擬合度的取值范圍(表2)。其中,fit<0.5表示過度擬合(overfit),即評(píng)分員對(duì)考生的各項(xiàng)評(píng)分的差異小于模型的預(yù)期值;而fit>2則表示非擬合(Misfit),即評(píng)分員對(duì)考生的各項(xiàng)評(píng)分超出了模型的預(yù)期。本研究中非擬合的考生數(shù)量為114,這可能是由于不同的評(píng)分員對(duì)同一考生評(píng)分不一致而造成。但由于考生層面的非擬合不是主要問題,而且非擬合的考生總數(shù)僅占總數(shù)的7.8%,因此這并不影響此次評(píng)分的效度。
表2擬合度分布
擬合度取值考生數(shù)百分比 Overfit: fit<0.531121.3% Less Acceptable1.5≦fit≦215710.8% Acceptable0.5≦fit<1.587360.0% Misfit fit >2114 7.8%
第二,評(píng)分員層面的數(shù)據(jù)顯示(見表3),評(píng)分員評(píng)分寬嚴(yán)度的分隔指數(shù)為8.05,分隔指數(shù)的信度為0.98,卡方值為1 330.2(d.f.=19),顯著性p=.00<0.01,這表明評(píng)分員評(píng)分的寬嚴(yán)度存在統(tǒng)計(jì)學(xué)意義上的顯著性差異。其中,最嚴(yán)厲的評(píng)分員(R4)度量值為0.63logits,最寬松的評(píng)分員(R18)度量值為-.76logits,兩者相差1.39logits,只占考生能力跨度(11 logits)的1/8。這從一定程度上表明,總體上來說考官的嚴(yán)厲度差異對(duì)考生成績(jī)的影響不大。
PRETCO口試的考試規(guī)模較大,風(fēng)險(xiǎn)較高,因此本研究對(duì)于評(píng)分員層面擬合度(InfitMnSq)的取值較為謹(jǐn)慎,采用0.7–1.3高度擬合的取值范圍。如果InfitMnSq大于1.3logits,說明評(píng)分員自身評(píng)分的一致性較差;如果InfitMnSq小于0.7logits,則說明評(píng)分員的評(píng)分比較接近,差異較小,可能會(huì)導(dǎo)致集中趨勢(shì)。所謂集中趨勢(shì)是指評(píng)分員的評(píng)分比較趨中,評(píng)分員過多地使用中間分?jǐn)?shù)段,這樣無益于區(qū)分考生的能力。雖然過度擬合和非擬合都表明評(píng)分員對(duì)考生的評(píng)分出現(xiàn)一定程度的偏差,但通常情況下,非擬合的問題較過度擬合而言更加嚴(yán)重。由表3可知,評(píng)分員層面的擬合度總體較好,有一位評(píng)分員的擬合度大于1.3logits(R5,1.68logits),出現(xiàn)了非擬合現(xiàn)象,表明這位評(píng)分員未能很好地使用各個(gè)分?jǐn)?shù)段,評(píng)分的前后一致性較差。原因可能是評(píng)分員R5第一次參加PRETCO口試的評(píng)分,缺乏評(píng)分經(jīng)驗(yàn)。此外,該評(píng)分員還兼顧教學(xué)和行政工作,這也可能會(huì)影響其評(píng)分質(zhì)量。對(duì)于這位評(píng)分員,需要進(jìn)行針對(duì)性的培訓(xùn),從而提高其評(píng)分的一致性。本次閱卷所有評(píng)分員的擬合度均大于0.7logits,總體不存在集中趨勢(shì)。
第三,表4是任務(wù)層面的分析數(shù)據(jù)。我們可以看出四項(xiàng)任務(wù)中,“提問—回答”最難,度量值為0.96logits,其次是“看圖講話”和“漢譯英”,度量值分別為0.28logits和–0.08logits,“朗讀短文”最簡(jiǎn)單(–1.15logits)。四項(xiàng)任務(wù)的難度分隔系數(shù)為36.36,分隔指數(shù)信度為1.00,卡方值5 221.8(d.f.=3),顯著性p=.00<0.01,這表明四部分任務(wù)的難度差異具有統(tǒng)計(jì)意義上的顯著性。雖然如此,由于四項(xiàng)任務(wù)的難度差異僅為2.11logits,所以總體上不影響考生的成績(jī)。由任務(wù)層面的擬合度可知(表4倒數(shù)第二列數(shù)據(jù)),“提問—回答”“看圖講話”“漢譯英”以及“朗讀短文”的擬合度總體較好,分別為1.22logits、0.86logits、0.88logits和1.06logits,均位于0.7–1.3之間,這說明評(píng)分員對(duì)PRETCO口試各項(xiàng)任務(wù)的評(píng)分一致性較好。
表4 任務(wù)層面
表5 四項(xiàng)任務(wù)各分?jǐn)?shù)段評(píng)分分布統(tǒng)計(jì)
注:由于本次閱卷的數(shù)量較多,分?jǐn)?shù)段使用不到10次的頻率顯示“0%”。
多層面Rasch模型對(duì)于評(píng)分標(biāo)準(zhǔn)各個(gè)分?jǐn)?shù)段的使用情況有具體的要求。如果分?jǐn)?shù)段的使用次數(shù)過低(低于10次),那么這個(gè)分?jǐn)?shù)段有可能存在問題,需要采取一定措施,比如:改寫其描述語,或者和相鄰的分?jǐn)?shù)段進(jìn)行合并,甚至可以直接將該分?jǐn)?shù)段刪除。由表5可知,評(píng)分員使用了四項(xiàng)任務(wù)評(píng)分標(biāo)準(zhǔn)的所有分?jǐn)?shù)段,但“陳述”任務(wù)分?jǐn)?shù)段7的使用頻次僅為8次,少于10次。該分?jǐn)?shù)段的描述語要求考生除了能夠用英語清楚、連貫地介紹題目中圖畫/圖表所包含的信息外,還要對(duì)其進(jìn)行評(píng)述,并做到英語表達(dá)符合規(guī)范。由于參加PRETCO口試的考生主要來自高職院?;驊?yīng)用技術(shù)型院校,“陳述”任務(wù)分?jǐn)?shù)段7的描述語對(duì)此類考生的要求可能較高,多數(shù)考生的表現(xiàn)難以達(dá)到這個(gè)標(biāo)準(zhǔn)。當(dāng)然,也有可能由于PRETCO口試評(píng)分培訓(xùn)時(shí)缺乏對(duì)該分?jǐn)?shù)段的闡述,評(píng)分員的理解可能存在偏差,從而導(dǎo)致該分?jǐn)?shù)段的使用次數(shù)過低。
本研究對(duì)于評(píng)分誤差分析主要通過Rasch模型中的偏差交互作用分析(bias interaction analysis)進(jìn)行,如評(píng)分員與考生的偏差、評(píng)分員與各項(xiàng)任務(wù)的偏差等。本研究根據(jù)FACETS的分析結(jié)果,認(rèn)為p<0.05為顯著偏差。
一方面,本文通過MFRM對(duì)評(píng)分員和考生偏差分析。結(jié)果顯示評(píng)分員與考生之間的交互作用出現(xiàn)顯著偏差(詳見表6,p<0.05),偏差的總數(shù)為14次。其中,評(píng)分員R1、R3、R13和R16分別出現(xiàn)兩次偏差,評(píng)分員R4、R8、R9、R14、R15和R19分別出現(xiàn)一次偏差。以評(píng)分員R3為例,該評(píng)分員給考生s641的評(píng)分為24分(該分?jǐn)?shù)為轉(zhuǎn)化后的等級(jí)分?jǐn)?shù),下同),而MFRM模型的期望分?jǐn)?shù)為17.06分,評(píng)分過于寬松;然而對(duì)考生s1350的評(píng)分卻較為嚴(yán)厲,實(shí)際評(píng)分為9分,MFRM模型的期望分?jǐn)?shù)為17.37分。
表6 評(píng)分員與考生偏差分析
由于本次閱卷的總量較大,而且實(shí)行雙評(píng),所以14次的顯著性偏差對(duì)總體評(píng)分效度影響不大。此外,以考生s1350為例(同見表6),雖然評(píng)分員R3對(duì)其評(píng)分較嚴(yán),實(shí)際評(píng)分為9分,但評(píng)分員R4對(duì)其評(píng)分則較為寬松,實(shí)際評(píng)分為24分,兩者相差懸殊。對(duì)于閱卷過程中的此類評(píng)分偏差,由第三方閱卷員重新進(jìn)行評(píng)閱(仲裁),以此消除偏差現(xiàn)象。
另一方面,本文分析評(píng)分員與任務(wù)的偏差。數(shù)據(jù)分析顯示20位評(píng)分員與任務(wù)的交互作用均產(chǎn)生了顯著性偏差(p<0.05),偏差的次數(shù)為59,占所有交互作用組合(21×4=84)的70.2%。這些偏差表明,在四項(xiàng)任務(wù)評(píng)分標(biāo)準(zhǔn)的認(rèn)識(shí)和把握上評(píng)分員的一致性較差。評(píng)分員在各項(xiàng)任務(wù)上的偏差或偏松的次數(shù)相當(dāng),說明他們?cè)诟黜?xiàng)任務(wù)上的評(píng)分尺度不一致。
產(chǎn)生上述偏差的原因可能是評(píng)分員對(duì)各項(xiàng)任務(wù)的評(píng)分標(biāo)準(zhǔn)理解不一致,也有可能是評(píng)分標(biāo)準(zhǔn)或評(píng)分尺度存在問題,讓評(píng)分員難以把握,比如“陳述”任務(wù)的最后一個(gè)分?jǐn)?shù)段。這兩方面原因可能導(dǎo)致評(píng)分員出現(xiàn)了評(píng)分偏差。
本研究通過使用多層面Rasch模型(MFRM)對(duì)PRETCO口試的評(píng)分效度進(jìn)行研究,得出如下結(jié)論:PRETCO口試的評(píng)分結(jié)果能夠有效地區(qū)分考生的口語水平,評(píng)分效度較高,評(píng)分員評(píng)分的自身一致性總體較好。然而,評(píng)分員的寬嚴(yán)度有著顯著差別,個(gè)別評(píng)分員的內(nèi)部一致性較差;少數(shù)評(píng)分員和考生的交互作用差異顯著;評(píng)分員和四項(xiàng)任務(wù)之間也出現(xiàn)了不同程度的評(píng)分偏差。為了減少評(píng)分偏差,本研究擬對(duì)PRETCO口試的評(píng)分以及評(píng)分培訓(xùn)提出以下建議:
雖然PRETCO口試閱卷前對(duì)所有的評(píng)分員都進(jìn)行了培訓(xùn),而且多數(shù)評(píng)分員評(píng)分的內(nèi)部一致性把握較好,但評(píng)分員外部一致性差異顯著。這表明原有評(píng)分員的培訓(xùn)可能對(duì)提升評(píng)分員自身的一致性有一定的幫助,而對(duì)提高評(píng)分員外部一致性的作用不明顯[33]。因此,本研究建議進(jìn)一步加強(qiáng)對(duì)評(píng)分員的培訓(xùn),除了評(píng)分前的培訓(xùn)外,評(píng)分過程中也可以進(jìn)行適當(dāng)?shù)臅和?,增加培?xùn)和評(píng)分員的討論等環(huán)節(jié),從而減少實(shí)際評(píng)分中的誤差。
通常而言,老評(píng)分員閱卷經(jīng)驗(yàn)豐富,評(píng)分質(zhì)量較高,而且閱卷的效率也高于新評(píng)分員,因此,在實(shí)際條件允許的情況下,盡量使用老評(píng)分員。如果確有新評(píng)分員參與評(píng)分,則需要對(duì)新評(píng)分員進(jìn)行針對(duì)性的培訓(xùn),比如對(duì)評(píng)分標(biāo)準(zhǔn)進(jìn)行詳盡的解釋,選用各個(gè)評(píng)分段所對(duì)應(yīng)的典型作文進(jìn)行多次試評(píng)等。同時(shí),閱卷過程中也可以邀請(qǐng)優(yōu)秀的老評(píng)分員交流其評(píng)分經(jīng)驗(yàn),以幫助新評(píng)分員提高閱卷質(zhì)量和效率。
為了減少閱卷過程中的評(píng)分偏差,閱卷中心需要及時(shí)豐富和更新閱卷的數(shù)據(jù),加強(qiáng)閱卷組長(zhǎng)的監(jiān)督力度。閱卷組長(zhǎng)在閱卷過程中應(yīng)不間斷查看評(píng)分員的閱卷數(shù)據(jù),比如總體評(píng)分的均值、標(biāo)準(zhǔn)差以及評(píng)分員各自的均值、標(biāo)準(zhǔn)差等,及時(shí)告知閱卷員的評(píng)分情況。如果個(gè)別閱卷員出現(xiàn)明顯偏差,則應(yīng)及時(shí)提醒并督促糾正,如果情況仍然沒有改觀,則有必要對(duì)其進(jìn)行培訓(xùn)。
當(dāng)然,本研究只采用定量的方法對(duì)PRETCO口試的單次評(píng)分結(jié)果進(jìn)行了分析,還存在兩點(diǎn)不足:未采用定性的方法探究評(píng)分偏差深層次的原因;未對(duì)歷次的評(píng)分偏差進(jìn)行歷時(shí)分析,這兩方面需要在以后的研究中進(jìn)一步完善。
[1] 《高等學(xué)校英語應(yīng)用能力考試大綱》修訂組.高等學(xué)校英語應(yīng)用能力考試(口試)大綱和樣題[M].2版.北京:高等教育出版社,2016.
[2] McNamara,Tim. F.Measuring Second Language Performance[M].London: Longman, 1996.
[3] 劉建達(dá),楊滿珍.做事測(cè)試評(píng)卷中的質(zhì)量控制[J].外語電化教學(xué),2010(1):26-32.
[4] Wind, Stefanie. A. & Peterson, Meghan. E. A systematic review of methods for evaluating rating quality in language assessment[J].Language Testing, 2017(1):1-32.doi: 10.1177/0265532216686999.
[5] 劉建達(dá).話語填充測(cè)試方法的多層面Rasch模型分析[J].現(xiàn)代外語,2005(2):157-169
[6] 王躍武,朱正才、楊惠中.作文網(wǎng)上評(píng)分信度的多面Rasch測(cè)量分析[J].外語界,2006(1):69-76.
[7] 劉建達(dá).評(píng)卷人效應(yīng)的多層面Rasch模型研究[J].現(xiàn)代外語,2010(2):185-193.
[8] 楊志強(qiáng),全冬.PRETCO 口試評(píng)分標(biāo)準(zhǔn)效度驗(yàn)證[J].外語測(cè)試與教學(xué),2016(1):13-21+31.
[9] 戴朝暉,尤其達(dá).大學(xué)英語計(jì)算機(jī)口語考試評(píng)分者偏差分析[J].外語界,2010(5):87-95.
(責(zé)任編輯:鄭宗榮)
①傳統(tǒng)意義上,評(píng)分研究主要是“信度”研究,即評(píng)分的一致性和可靠性。由于“信度”只是整體效度中的一部分,因此使用“評(píng)分效度”更加貼切[4]。
A Study on the Scoring Validity of PRETCO-Oral
YANG Zhiqiang XU Yinxue QUAN Dong
This study explores the scoring validity of PRETCO-Oral through a many-facet Rasch analysis. Results show that the scoring of PRETCO-Oral is valid in that examinees’ oral English proficiency can be screened by the test, raters’ scorings are reliable and raters are self-consistent in general; However, results also demonstrate that there are significant differences in raters’ leniency/severity; few raters exhibit self-inconsistency; there exists bias between several raters and examinees and bias between raters and the four tasks.
PRETCO; many-facet Rasch model; scoring validity
G642.475
A
1009-8135(2018)02-0121-08
楊志強(qiáng)(1982—),男,河南安陽人,重慶科技學(xué)院外國語學(xué)院講師,碩士,主要研究語言測(cè)試。
許吟雪(1983—),女,重慶人,重慶科技學(xué)院外國語學(xué)院講師,碩士,主要研究應(yīng)用語言學(xué)。
全 冬(1972—),男,四川金堂人,重慶科技學(xué)院外國語學(xué)院教授,主要研究現(xiàn)代教育技術(shù)。
重慶市教育委員會(huì)人文社會(huì)科學(xué)研究規(guī)劃項(xiàng)目“基于證據(jù)的PRETCO口試效度研究”(17SKG201)和重慶科技學(xué)院校內(nèi)科研基金項(xiàng)目“基于證據(jù)的PRETCO口試效度研究”(CK2016Z35)階段性研究成果。