考生作答數(shù)據(jù)反饋對(duì)Angoff標(biāo)準(zhǔn)設(shè)定結(jié)果的影響

2016-04-07 05:28:01張?jiān)伱?/span>

心理學(xué)探新 2016年1期

張?jiān)伱贰√铩∫?/p>

(北京教育科學(xué)研究院，北京 100191)

張?jiān)伱诽镆?/p>

(北京教育科學(xué)研究院，北京 100191)

摘要：以大規(guī)模學(xué)業(yè)成就水平測(cè)驗(yàn)為背景，采用組間設(shè)計(jì)，按類別將專家分為五組，在反饋數(shù)據(jù)環(huán)節(jié)隨機(jī)給予每個(gè)專家組未調(diào)整的考生真實(shí)作答數(shù)據(jù)和經(jīng)過(guò)上調(diào)、下調(diào)0.5或1個(gè)標(biāo)準(zhǔn)差的調(diào)整數(shù)據(jù)后，采用單因素方差分析與項(xiàng)目反應(yīng)理論兩參數(shù)模型考查專家組在標(biāo)準(zhǔn)設(shè)定Angoff方法中如何參考使用題目作答數(shù)據(jù)。結(jié)果表明，反饋考生題目作答數(shù)據(jù)對(duì)Angoff標(biāo)準(zhǔn)劃定結(jié)果有明顯影響：反饋未經(jīng)調(diào)整的真實(shí)考生題目作答數(shù)據(jù)影響較大；反饋調(diào)整后的高于真實(shí)考生題目作答數(shù)據(jù)影響相對(duì)較小，反饋低于真實(shí)考生題目作答數(shù)據(jù)影響相對(duì)較大。

關(guān)鍵詞：Angoff方法；標(biāo)準(zhǔn)設(shè)定；考生題目作答數(shù)據(jù)反饋

1問(wèn)題提出

標(biāo)準(zhǔn)設(shè)定是標(biāo)準(zhǔn)參照測(cè)驗(yàn)編制、實(shí)施和結(jié)果報(bào)告過(guò)程中最重要的環(huán)節(jié)之一，是為測(cè)驗(yàn)確立臨界分?jǐn)?shù)線(Cut Scores)的過(guò)程。標(biāo)準(zhǔn)設(shè)定體現(xiàn)了考試目的、內(nèi)容及測(cè)試者能力在廣泛的社會(huì)或教育環(huán)境中的專業(yè)價(jià)值。依據(jù)考試目的，在學(xué)業(yè)成就水平測(cè)試或證書資格考試中，通常需要建立“通過(guò)與否”一個(gè)或多個(gè)臨界分?jǐn)?shù)線，如合格線、良好線和優(yōu)秀線。

Angoff方法作為標(biāo)準(zhǔn)設(shè)定領(lǐng)域中應(yīng)用歷史悠久、范圍較廣的方法之一，由美國(guó)學(xué)者Angoff(1971)在《教育測(cè)量》第二版“評(píng)分、常模與等值分?jǐn)?shù)”一章中首次提出。起初，此法要求擔(dān)當(dāng)評(píng)委角色的專家判斷“某等級(jí)內(nèi)最低能力水平的人或人群”能夠正確作答每道多項(xiàng)選擇題概率或百分率，所有題目概率或百分率總和即為此等級(jí)內(nèi)最低分?jǐn)?shù)或臨界分?jǐn)?shù)線。在實(shí)施過(guò)程中，需要為評(píng)委設(shè)置數(shù)據(jù)反饋、小組討論、多輪評(píng)定等環(huán)節(jié)，增加了這些操作環(huán)節(jié)后的Angoff方法被稱為“調(diào)整后Angoff方法”。作為當(dāng)前國(guó)際上采用較多的標(biāo)準(zhǔn)設(shè)定形式，調(diào)整后Angoff方法在多輪重復(fù)評(píng)定中，反饋數(shù)據(jù)通常包括：①常規(guī)數(shù)據(jù)，如某類別考生組在每道題目的完成表現(xiàn)；②影響數(shù)據(jù)，如在專家評(píng)委暫時(shí)劃定的標(biāo)準(zhǔn)下，預(yù)計(jì)某參照組可能通過(guò)的百分率；③一致性數(shù)據(jù)，即評(píng)委在單個(gè)題目上的一致性情況(Hambleton & Pitoniak，2006)。

雖然在標(biāo)準(zhǔn)設(shè)定Angoff方法中提供反饋數(shù)據(jù)已成為重要一環(huán)，但在教育測(cè)量研究領(lǐng)域就是否反饋數(shù)據(jù)存在爭(zhēng)議。有學(xué)者則認(rèn)為其有利于經(jīng)驗(yàn)豐富的專家評(píng)委將反饋數(shù)據(jù)與題目?jī)?nèi)容結(jié)合進(jìn)行整合判斷(Clauser，Swanson，& Harik，2002)，也有學(xué)者提出專家評(píng)委可能會(huì)對(duì)數(shù)據(jù)產(chǎn)生過(guò)多依賴(Clauser，Harik，Margolis，McManus，Mollon，Chis，& Williams，2009a；Clauser，Mee，Baldwin，Margolis，& Dillon，2009b)，導(dǎo)致忽視題目?jī)?nèi)容而僅依據(jù)數(shù)據(jù)結(jié)果進(jìn)行判斷。

關(guān)于數(shù)據(jù)反饋環(huán)節(jié)在Angoff法中作用的研究集中于：①反饋數(shù)據(jù)與判斷結(jié)果之間是否存在關(guān)系？Clauser等(2002)檢驗(yàn)了內(nèi)科醫(yī)生對(duì)于醫(yī)學(xué)證書考試題目所做的判斷，發(fā)現(xiàn)在未提供考生實(shí)際表現(xiàn)數(shù)據(jù)時(shí)的專家判斷與以考生實(shí)際表現(xiàn)數(shù)據(jù)為基礎(chǔ)的經(jīng)驗(yàn)性條件概率間僅具有低到中等程度的相關(guān)。Clauser等(2009a，2009b)的后繼研究檢驗(yàn)了在專家判斷難度與條件概率間的關(guān)系，發(fā)現(xiàn)當(dāng)缺乏真實(shí)數(shù)據(jù)反饋時(shí)，兩者間相關(guān)較低；當(dāng)提供實(shí)際表現(xiàn)數(shù)據(jù)時(shí)，相關(guān)顯著上升。②如果反饋數(shù)據(jù)，判斷如何改變？Hambleton(2001)提出，提供表現(xiàn)數(shù)據(jù)對(duì)判斷的影響“可能更多是在心理方面而非教育測(cè)量方面”，并認(rèn)為這種影響體現(xiàn)在“專家評(píng)委估計(jì)分?jǐn)?shù)間的變異而非所最終估計(jì)的臨界分?jǐn)?shù)”；Brandon(2004)對(duì)六個(gè)為專家評(píng)委提供表現(xiàn)數(shù)據(jù)的研究進(jìn)行了綜述，其中四個(gè)研究表明了在臨界線上的顯著變化。③如何運(yùn)用反饋數(shù)據(jù)？Dillon和Walsh(2000)調(diào)查了專家評(píng)委在判定過(guò)程中如何運(yùn)用反饋數(shù)據(jù)，研究要求評(píng)委挑出那些實(shí)際表現(xiàn)數(shù)據(jù)所體現(xiàn)的情況與評(píng)委對(duì)考生期待不一致的題目，并報(bào)告如何將實(shí)際表現(xiàn)數(shù)據(jù)與以內(nèi)容為依據(jù)的判定相整合？評(píng)委們的回答集中在兩方面：一是盡管實(shí)際表現(xiàn)與預(yù)想不同，也應(yīng)堅(jiān)持最初以內(nèi)容為基礎(chǔ)的判斷；二是實(shí)際表現(xiàn)數(shù)據(jù)反映出之前沒(méi)有甄別出的題目?jī)?nèi)容問(wèn)題，應(yīng)對(duì)判斷進(jìn)行調(diào)整。

近十年來(lái)，隨著標(biāo)準(zhǔn)參照測(cè)驗(yàn)在我國(guó)教育質(zhì)量評(píng)價(jià)、學(xué)業(yè)成就水平測(cè)試、資格證書考試中越來(lái)越廣泛地應(yīng)用(常蕤，2008；汪存友，余嘉元，2010)，以Angoff為代表的多種標(biāo)準(zhǔn)設(shè)定方法開始在國(guó)內(nèi)引起關(guān)注，但就在標(biāo)準(zhǔn)設(shè)定過(guò)程中反饋數(shù)據(jù)對(duì)所制定分?jǐn)?shù)線影響問(wèn)題還鮮有涉及。文章采用實(shí)驗(yàn)研究的方式，以大規(guī)模學(xué)業(yè)成就水平測(cè)試中臨界分?jǐn)?shù)線的劃定為研究背景，探求Angoff方法中反饋考生作答數(shù)據(jù)是否會(huì)對(duì)專家評(píng)委分?jǐn)?shù)線制定結(jié)果產(chǎn)生影響，專家評(píng)委如何運(yùn)用所提供的反饋數(shù)據(jù)進(jìn)行研究，以期為當(dāng)前標(biāo)準(zhǔn)設(shè)定的科學(xué)應(yīng)用提供借鑒。

2研究方法

2.1研究工具和樣本

依托北京市2010年五年級(jí)語(yǔ)文學(xué)科大規(guī)模學(xué)業(yè)成就水平測(cè)驗(yàn)進(jìn)行，在此測(cè)驗(yàn)中的學(xué)生學(xué)業(yè)表現(xiàn)是體現(xiàn)區(qū)域教育教學(xué)質(zhì)量核心指標(biāo)。根據(jù)需要，將采用標(biāo)準(zhǔn)設(shè)定過(guò)程制定合格、優(yōu)秀兩條臨界學(xué)業(yè)水平分?jǐn)?shù)線。測(cè)驗(yàn)包括55道二級(jí)計(jì)分題目。有效測(cè)試人數(shù)為99162人，占本區(qū)域五年級(jí)學(xué)生總?cè)藬?shù)的94.4%。

2.2研究步驟

2.2.1建立專家評(píng)委組

專家評(píng)委組共25人(小學(xué)語(yǔ)文學(xué)科領(lǐng)域課程研究人員5人，教學(xué)研究人員10人，一線教師10人)。其中，評(píng)委在小學(xué)語(yǔ)文學(xué)科方面至少具有十年教齡，且一線教師在本年度教授五年級(jí)語(yǔ)文課程。

2.2.2實(shí)驗(yàn)設(shè)計(jì)

采用組間設(shè)計(jì)方式。將三類評(píng)委劃分為五組，每組5人(1名學(xué)科領(lǐng)域課程研究人員、2名教學(xué)研究人員和2名一線教師)。在正式評(píng)判時(shí)，每組評(píng)委均需按照一定步驟和要求，對(duì)處于“剛剛合格”、“剛剛優(yōu)秀”水平的學(xué)生群體正確作答55道題目的百分率進(jìn)行逐一判斷。

實(shí)驗(yàn)過(guò)程中，將向五個(gè)評(píng)委組反饋五種類別考生題目作答數(shù)據(jù)，即隨機(jī)向其中一組反饋考生未調(diào)整的真實(shí)作答通過(guò)率，而向另四組隨機(jī)反饋?zhàn)髡{(diào)整之后的作答通過(guò)率。依據(jù)Clauser等(2009b)的研究，作答通過(guò)率調(diào)整方式為：①將題目真實(shí)通過(guò)率(答對(duì)百分率)轉(zhuǎn)換成自然對(duì)數(shù)Ln(p/1-p)；②計(jì)算所有對(duì)數(shù)的標(biāo)準(zhǔn)差；③將題目真實(shí)通過(guò)率的對(duì)數(shù)進(jìn)行相應(yīng)的標(biāo)準(zhǔn)差調(diào)整，即分別增加或降低0.5、1個(gè)標(biāo)準(zhǔn)差；④將調(diào)整后的題目轉(zhuǎn)換回到真實(shí)通過(guò)率量表上去。因此，反饋的五類題目作答數(shù)據(jù)組分別為真實(shí)作答通過(guò)率組T組和調(diào)整后作答通過(guò)率組T+0.5SE、T-0.5SE、T+1SE、T-1SE組。

2.2.3實(shí)驗(yàn)步驟

準(zhǔn)備階段：向評(píng)委組介紹五年級(jí)語(yǔ)文學(xué)業(yè)成就測(cè)驗(yàn)背景目的及Angoff方法流程，熟悉操作環(huán)節(jié)。實(shí)驗(yàn)階段：分兩輪進(jìn)行。第一輪呈現(xiàn)55道題目評(píng)定表，要求評(píng)委組在認(rèn)真瀏覽試卷上每道題目后，閱讀相關(guān)資料，估計(jì)每等級(jí)內(nèi)最低能力水平學(xué)生群體答對(duì)百分率。第二輪向評(píng)委組反饋考生題目作答通過(guò)率。提醒如果數(shù)據(jù)顯著不同于自己預(yù)期，請(qǐng)專家再仔細(xì)地閱讀題目，進(jìn)行深入細(xì)致的小組討論。繼續(xù)鼓勵(lì)專家小組討論存在較大判斷差異題目，考慮產(chǎn)生組內(nèi)差異原因。開始第二輪評(píng)定。

2.3研究問(wèn)題及數(shù)據(jù)分析方法

2.3.1研究問(wèn)題

研究問(wèn)題包括反饋考生作答數(shù)據(jù)是否會(huì)對(duì)評(píng)委組的制定結(jié)果產(chǎn)生影響？向各評(píng)委組反饋未調(diào)整作答數(shù)據(jù)和調(diào)整作答數(shù)據(jù)后，其更改判斷的程度是否相同？同時(shí)假設(shè)如果評(píng)委認(rèn)為在反饋數(shù)據(jù)幫助下，能夠更清楚地甄別出題目存在的問(wèn)題從而更改初始判斷，那么推斷評(píng)委會(huì)更改那些具有真實(shí)作答數(shù)據(jù)反饋的題目，而對(duì)那些具有調(diào)整后作答數(shù)據(jù)反饋的題目或不做調(diào)整或做較小幅度調(diào)整。

2.3.2數(shù)據(jù)分析方法

單因素方差分析：在整卷水平，對(duì)各評(píng)委組制定的測(cè)驗(yàn)合格、優(yōu)秀分?jǐn)?shù)線進(jìn)行差異分析，檢驗(yàn)各評(píng)委組初始分?jǐn)?shù)線差異情況及反饋考生題目作答數(shù)據(jù)后最終分?jǐn)?shù)線差異情況。采用軟件SPSS18.0完成數(shù)據(jù)分析。

在每道題目上，評(píng)委均需估計(jì)(合格、優(yōu)秀水平)最低能力考生群體正確回答的概率。對(duì)與分?jǐn)?shù)線相對(duì)應(yīng)能力水平的考生群體而言，此概率與項(xiàng)目反應(yīng)理論下的經(jīng)驗(yàn)條件概率在邏輯上存在密切相關(guān)。而這種對(duì)應(yīng)關(guān)系被認(rèn)為是評(píng)價(jià)判斷劃定結(jié)果合理性的重要基礎(chǔ)，也是Angoff方法的重要組成部分(Clauser et al.，2002)。

依據(jù)已有研究的應(yīng)用情況(Clauser et al.，2002；Clauser et al.，2009b)，采用2PLM來(lái)估計(jì)臨界分?jǐn)?shù)相對(duì)應(yīng)能力水平學(xué)生通過(guò)某題目的經(jīng)驗(yàn)條件概率，其所期待的指定能力水平的考生正確反應(yīng)概率(經(jīng)驗(yàn)條件概率)被表示為：

a：表示題目區(qū)分度，b：表示題目難度，θ：表示能力水平，P：表示為經(jīng)驗(yàn)條件概率，即能力水平為θ的考生通過(guò)某題目的經(jīng)驗(yàn)條件概率，量表因子D為1.7。

以Hambleton等人(1991)相關(guān)方法為依據(jù)，確定臨界分?jǐn)?shù)對(duì)應(yīng)能力水平為θ的考生群體答對(duì)某題目的經(jīng)驗(yàn)條件概率p(θ)的步驟為：①通過(guò)兩參數(shù)模型獲得測(cè)驗(yàn)期望分?jǐn)?shù)(原始分?jǐn)?shù)量尺)和能力量尺的關(guān)系；②將每位專家對(duì)每道題目的判斷結(jié)果加和求平均，得到測(cè)驗(yàn)原始臨界分?jǐn)?shù)后，根據(jù)測(cè)驗(yàn)期望分?jǐn)?shù)和能力量尺的關(guān)系，找到相對(duì)應(yīng)學(xué)生能力值θ。 ③將每個(gè)臨界分?jǐn)?shù)所對(duì)應(yīng)的學(xué)生群體能力值θ代入各題的兩參數(shù)模型，即可得到該群體答對(duì)每題的經(jīng)驗(yàn)條件概率p(θ)。

采用軟件PARSCALE4.1完成數(shù)據(jù)分析，且55道題目與模型的擬合系數(shù)均在0.8~1.2之間，表明模型擬合良好。

2.3.3相關(guān)概率指標(biāo)說(shuō)明

PI(合格)，PI(優(yōu)秀)：第一輪未提供考生題目作答數(shù)據(jù)前，評(píng)委組基于領(lǐng)域內(nèi)容分別對(duì)剛剛達(dá)到合格、優(yōu)秀水平學(xué)生群體答對(duì)某題目的初始直接的概率判斷。

安和莊所屬乍舌，就是患得患失的鬼算盤也瞪大了眼睛，因?yàn)闇匚臓栄诺氖掞w羽竟然能夠以內(nèi)力與修為譽(yù)為宇內(nèi)第一的強(qiáng)者抗衡。紫陽(yáng)道長(zhǎng)對(duì)天問(wèn)大師傳音：“試招有三分對(duì)七分之嫌?！?/p>

PR(合格)，PR(優(yōu)秀)：第二輪提供考生題目作答數(shù)據(jù)后，評(píng)委組根據(jù)反饋?zhàn)鞔饠?shù)據(jù)對(duì)剛剛達(dá)到合格、優(yōu)秀水平學(xué)生群體答對(duì)某題目直接的概率判斷。

CI(合格)，CI(優(yōu)秀)：第一輪未提供考生題目作答數(shù)據(jù)前，根據(jù)兩參數(shù)模型，所得到的評(píng)委組基于領(lǐng)域內(nèi)容確定的合格、優(yōu)秀水平分?jǐn)?shù)線對(duì)應(yīng)能力水平的學(xué)生答對(duì)某題的初始經(jīng)驗(yàn)條件概率。

CR(合格)，CR(優(yōu)秀)：第二輪提供考生題目作答數(shù)據(jù)后，根據(jù)兩參數(shù)模型，所得到的評(píng)委組根據(jù)反饋?zhàn)鞔饠?shù)據(jù)確定的合格、優(yōu)秀水平分?jǐn)?shù)線對(duì)應(yīng)能力水平的學(xué)生答對(duì)某題的最終經(jīng)驗(yàn)條件概率。

3研究結(jié)果與分析

3.1作答數(shù)據(jù)反饋對(duì)分?jǐn)?shù)線制定的影響——基于對(duì)整卷制定結(jié)果的單因素方差分析

表1　作答數(shù)據(jù)反饋對(duì)于分?jǐn)?shù)線制定的影響

注：Ⅰ表示第一輪制定結(jié)果；Ⅱ表示第二輪制定結(jié)果。

單因素方差分析結(jié)果由表1所示：對(duì)于第一輪評(píng)委組判斷的結(jié)果分析表明，在僅基于領(lǐng)域內(nèi)容所制定的初始合格線Ⅰ、優(yōu)秀線Ⅰ方面，各評(píng)委組之間不存在顯著性差異F(4，20)=0.59，p>0.05；F(4，20)=0.96，p>0.05。對(duì)于第二輪評(píng)委組判斷的結(jié)果分析表明，在反饋考生作答數(shù)據(jù)后，各評(píng)委組所制定的合格線Ⅱ、優(yōu)秀線Ⅱ存在顯著性差異F(4，19)=5.73，p<0.01，η2=0.55；F(4，19)=22.55，p<0.01，η2=0.83，說(shuō)明各評(píng)委組接受的學(xué)生作答信息對(duì)其合格線、優(yōu)秀線的判定產(chǎn)生了顯著影響。具體而言，在接受學(xué)生作答信息后，各專家組均有所提高；在優(yōu)秀分?jǐn)?shù)線上，T組、T±0.5SE組、T+1SE組均有所提高，而T-1SE組有所降低。對(duì)于評(píng)委組兩輪所制定的合格線差值絕對(duì)值|Ⅰ-Ⅱ|、優(yōu)秀線差值絕對(duì)值|Ⅰ-Ⅱ|的結(jié)果分析表明，在合格線調(diào)整幅度方面存在邊緣顯著差異F(4，19)=2.63，p=0.07，η2=0.36。合格線調(diào)整幅度與反饋?zhàn)鞔饠?shù)據(jù)的調(diào)整幅度間具有中等程度的負(fù)相關(guān)(r=-0.28)，這意味著作答數(shù)據(jù)被調(diào)整的幅度越大，評(píng)委組對(duì)于合格線調(diào)整的幅度越小。而在優(yōu)秀線調(diào)整幅度方面則不存在顯著性差異F(4，19)=0.50，p>0.05，調(diào)整幅度與反饋?zhàn)鞔饠?shù)據(jù)的調(diào)整幅度無(wú)關(guān)(r=0.001)。

總的來(lái)說(shuō)，作答數(shù)據(jù)反饋對(duì)合格線和優(yōu)秀線的制定結(jié)果產(chǎn)生顯著影響。對(duì)合格線的影響體現(xiàn)在：在所有專家組均調(diào)高合格線的同時(shí)，并未貿(mào)然隨著反饋?zhàn)鞔饠?shù)據(jù)的調(diào)整幅度而相應(yīng)增加調(diào)整力度，而是在將數(shù)據(jù)與領(lǐng)域內(nèi)容進(jìn)行結(jié)合分析后相應(yīng)減少調(diào)整幅度；對(duì)優(yōu)秀線的影響則體現(xiàn)在：雖然在相應(yīng)調(diào)整幅度方面不存在顯著性差異，但是當(dāng)反饋的作答數(shù)據(jù)明顯低于真實(shí)作答數(shù)據(jù)(T-1SE)時(shí)，優(yōu)秀線隨之下降。優(yōu)秀線下調(diào)是否出于評(píng)委組保證相應(yīng)優(yōu)秀率的考慮，還有待于研究證實(shí)。

3.2作答數(shù)據(jù)反饋對(duì)分?jǐn)?shù)線制定的作用——基于題目的項(xiàng)目反應(yīng)理論兩參數(shù)模型的分析

表2　基于領(lǐng)域內(nèi)容的初始概率判斷(PI)與相應(yīng)經(jīng)驗(yàn)條件概率判斷(CI)的相關(guān)分析

注：*表示相關(guān)系數(shù)顯著(p<0.05)，**表示相關(guān)系數(shù)非常顯著(p<0.01)，下同。評(píng)委組基于領(lǐng)域內(nèi)容的題目初始直接概率判斷(PI)與基于兩參數(shù)模型的經(jīng)驗(yàn)條件概率判斷(CI)之間的相關(guān)表明了基于領(lǐng)域內(nèi)容的初始分?jǐn)?shù)線劃定的邏輯合理性程度。結(jié)果如表2和圖1所示：在未反饋題目作答數(shù)據(jù)前，①無(wú)論是制定合格線還是制定優(yōu)秀線，PI與CI之間存在低至中等程度的相關(guān)(0.21~0.51)。②制定合格線時(shí)PI與CI之間的相關(guān)程度大都高于優(yōu)秀線(0.38>0.32，0.48>0.35，0.51>0.27，0.34>0.21)。

表3　基于作答數(shù)據(jù)反饋的概率判斷(PR)與相應(yīng)條件概率判斷(CR)相關(guān)分析

評(píng)委組基于反饋?zhàn)鞔饠?shù)據(jù)調(diào)整后的題目直接概率判斷(PR)與基于兩參數(shù)模型的經(jīng)驗(yàn)條件概率判斷(CR)之間的相關(guān)表明了反饋?zhàn)鞔饠?shù)據(jù)調(diào)整后的分?jǐn)?shù)線劃定的邏輯合理性程度。結(jié)果如表3和圖1所示。在反饋題目作答數(shù)據(jù)后，①無(wú)論是制定合格線還是制定優(yōu)秀線，PR與CR之間存在中等至較高程度的相關(guān)(0.49~0.97)，且較本組表2中PI與CI之間的相關(guān)有了較大幅度提高(除T+0.5SE組外)；②對(duì)基于真實(shí)作答數(shù)據(jù)反饋的T組而言，PR與CR間的相關(guān)已達(dá)到很高的程度(0.84，0.96)。雖其與T-0.5SE組和T-1SE組無(wú)明顯差異，但卻明顯高于T+0.5SE組和T+1SE組；③在制定優(yōu)秀線時(shí)PR與CR之間的相關(guān)程度大都高于合格線(0.96>0.84，0.97>0.83，0.75>0.66，0.94>0.85)。

表2、表3和圖1綜合反映了在題目水平，反饋和不反饋題目作答數(shù)據(jù)條件下，評(píng)委組的直接概率判斷與基于兩參數(shù)模型的經(jīng)驗(yàn)條件概率判斷之間相關(guān)關(guān)系的變化情況：①在反饋考生題目作答數(shù)據(jù)后，專家直接判斷概率與基于模型的相應(yīng)經(jīng)驗(yàn)條件概率之間的相關(guān)均有顯著提高，這意味著無(wú)論反饋給專家的數(shù)據(jù)是否屬實(shí)，前者均受到數(shù)據(jù)反饋的顯著影響。②當(dāng)反饋的調(diào)整后題目作答通過(guò)率數(shù)據(jù)高于真實(shí)作答情況時(shí)(T+0.5SE、T+1SE組)，評(píng)委組受到數(shù)據(jù)反饋的影響相對(duì)較??；而當(dāng)反饋的調(diào)整后題目作答通過(guò)率數(shù)據(jù)低于真實(shí)作答情況(T-0.5SE、T-1SE組)，評(píng)委組受到數(shù)據(jù)反饋的影響與T組接近。③制定合格線時(shí)PI與CI間相關(guān)程度大都高于優(yōu)秀線，在制定優(yōu)秀線時(shí)PR與CR間相關(guān)程度大都高于合格線，可能由于在合格線的制定時(shí)相對(duì)較大程度地依據(jù)所考查的領(lǐng)域內(nèi)容，而在優(yōu)秀線制定時(shí)則相對(duì)較大程度依據(jù)所反饋的考生作答數(shù)據(jù)。

在上述研究結(jié)果基礎(chǔ)上，深入探求反饋不同條件作答數(shù)據(jù)即真實(shí)作答數(shù)據(jù)和調(diào)整后的作答數(shù)據(jù)，基于領(lǐng)域內(nèi)容的初始直接判斷對(duì)數(shù)據(jù)反饋調(diào)整后判斷的影響或者解釋程度。與Clauser(2009)研究相同，采用|PI-CI|與|PR-CR|間的相關(guān)系數(shù)(R)和決定系數(shù)(R2)來(lái)說(shuō)明這種影響程度或者解釋程度，決定系數(shù)越大解釋程度越高。

注：RI代表PI和CI的相關(guān)系數(shù)，RR代表PR和CR的相關(guān)系數(shù)。圖1　基于領(lǐng)域內(nèi)容概率判斷(PI，CI)與基于作答數(shù)據(jù)反饋概率判斷(PR，CR)散點(diǎn)系列圖

專家小組相關(guān)/決定系數(shù)TT+0.5SET+1SET-0.5SET-1SE合格優(yōu)秀合格優(yōu)秀合格優(yōu)秀合格優(yōu)秀合格優(yōu)秀TR0.69**0.59**R20.48**0.35**T+0.5SER0.54**0.62**R20.71**0.38**T+1SER0.91**0.69**R20.83**0.48**T-0.5SER0.50**0.59**R20.25**0.35**T-1SER0.82**0.22R20.67**0.05

4綜合討論

以大規(guī)模學(xué)業(yè)成就水平測(cè)試為背景，通過(guò)合格線與優(yōu)秀線的標(biāo)準(zhǔn)設(shè)定過(guò)程，考查了評(píng)委是否將反饋的考生作答數(shù)據(jù)結(jié)合進(jìn)Angoff方法且如何運(yùn)用這些數(shù)據(jù)的情況，得到兩個(gè)重要結(jié)論：①無(wú)論反饋的考生作答數(shù)據(jù)真實(shí)與否，均會(huì)對(duì)評(píng)委制定結(jié)果產(chǎn)生明顯影響。此與美國(guó)學(xué)者Clauser等(2002)、Clauser等(2009b)的研究結(jié)論相一致。②與反饋真實(shí)作答數(shù)據(jù)組相比，部分被反饋了調(diào)整后數(shù)據(jù)的評(píng)委組也對(duì)題目做了基于領(lǐng)域內(nèi)容的相應(yīng)調(diào)整。此結(jié)論與Clauser等(2009b)認(rèn)為所反饋真實(shí)數(shù)據(jù)和調(diào)整后數(shù)據(jù)對(duì)評(píng)委組產(chǎn)生了“相同程度影響”的結(jié)論存在差異。例如，評(píng)委組在整卷水平并未依賴作答數(shù)據(jù)調(diào)整幅度而相應(yīng)增加對(duì)合格線的調(diào)整力度，在題目水平當(dāng)反饋的調(diào)整后題目作答數(shù)據(jù)高于真實(shí)作答情況時(shí)(T+0.5SE組，T+1SE組)，其受到作答數(shù)據(jù)反饋的影響相對(duì)較小。這表明評(píng)委在一定條件下，面對(duì)調(diào)整后數(shù)據(jù)且沒(méi)有提供任何關(guān)于考生如何作答題目的更深層信息時(shí)，依然依賴其領(lǐng)域知識(shí)而非僅數(shù)據(jù)結(jié)果，故并未大幅度更改其初始判斷。與此同時(shí)，還需要關(guān)注的是，當(dāng)反饋的調(diào)整后題目作答數(shù)據(jù)低于真實(shí)作答情況時(shí)(T-0.5SE組，T-1SE組)，即數(shù)據(jù)是調(diào)整后的且未提供任何關(guān)于考生如何作答題目的更深層信息時(shí)，專家還是愿意改變其判斷。這充分表明評(píng)委在一定條件下，還會(huì)過(guò)重地依賴于反饋數(shù)據(jù)而非領(lǐng)域知識(shí)，且進(jìn)行了機(jī)械地追隨和運(yùn)用。

當(dāng)前研究還發(fā)現(xiàn)與上述結(jié)論相關(guān)的兩個(gè)現(xiàn)象：①制定合格線時(shí)相對(duì)較多地依據(jù)了所考查的領(lǐng)域內(nèi)容，而在制定優(yōu)秀線時(shí)則相對(duì)較多地依據(jù)了所反饋的考生題目作答數(shù)據(jù)，推斷可能與評(píng)委組對(duì)學(xué)科課程標(biāo)準(zhǔn)的熟悉程度有關(guān)。我國(guó)當(dāng)前義務(wù)教育階段的學(xué)科課程標(biāo)準(zhǔn)即為合格標(biāo)準(zhǔn)，而優(yōu)秀標(biāo)準(zhǔn)則未做清晰的說(shuō)明與界定。因此，評(píng)委對(duì)于合格水平學(xué)生群體所應(yīng)掌握的內(nèi)容及程度較為熟悉，而且合格率又是判斷教育教學(xué)質(zhì)量的核心基線指標(biāo)，這或許是對(duì)于合格線判斷較為慎重且更倚重于領(lǐng)域內(nèi)容的深層原因。②專家組對(duì)低于和高于真實(shí)反饋數(shù)據(jù)值的判斷模式不同，高于時(shí)更依賴于領(lǐng)域內(nèi)容。這可能是由于作為學(xué)業(yè)成就水平測(cè)試的標(biāo)準(zhǔn)參照測(cè)驗(yàn)，多年來(lái)其難度一直較低即考生群體的題目答對(duì)率相對(duì)較高。因此，在調(diào)整后更高的反饋數(shù)據(jù)可能會(huì)引起專家學(xué)者的警覺，在基于領(lǐng)域內(nèi)容找不到充分合理解釋的時(shí)候，其調(diào)整的可能性較小，即使調(diào)整其客觀可調(diào)整幅度也會(huì)較小。

圖2　基于領(lǐng)域內(nèi)容的|PI-CI|與基于作答數(shù)據(jù)反饋的|PR-CR|的散點(diǎn)系列圖

綜上所述，在應(yīng)用Angoff方法于標(biāo)準(zhǔn)參照測(cè)驗(yàn)分?jǐn)?shù)線制定過(guò)程中，是否反饋數(shù)據(jù)對(duì)劃定結(jié)果的影響極為復(fù)雜。在此情況下，簡(jiǎn)單判定支持或放棄Angoff方法均不可取且也很難保證其他方法就能完全提供基于內(nèi)容的判斷而同時(shí)避免實(shí)驗(yàn)中所體現(xiàn)的問(wèn)題。因此，在今后運(yùn)用Angoff方法制定分?jǐn)?shù)線的過(guò)程中，如何有效地設(shè)計(jì)與實(shí)施前期的熱身練習(xí)并在此過(guò)程中引導(dǎo)評(píng)委正確解讀、運(yùn)用所反饋的數(shù)據(jù)信息應(yīng)為關(guān)注重點(diǎn)。此外，由于受客觀環(huán)境所限，當(dāng)前實(shí)驗(yàn)研究?jī)H選取在真實(shí)作答通過(guò)率基礎(chǔ)上增加或降低0.5、1個(gè)標(biāo)準(zhǔn)差的條件下開展，建議在今后同類研究中可設(shè)定范圍更寬、間隔更細(xì)的實(shí)驗(yàn)條件進(jìn)行。

5研究結(jié)論

在Angoff標(biāo)準(zhǔn)設(shè)定方法中，無(wú)論反饋的考生題目作答數(shù)據(jù)真實(shí)與否，均會(huì)對(duì)合格線和優(yōu)秀線制定結(jié)果產(chǎn)生明顯影響；反饋未經(jīng)調(diào)整的真實(shí)考生題目作答數(shù)據(jù)對(duì)分?jǐn)?shù)線制定影響較大。與其相比，反饋調(diào)整后的高于真實(shí)考生題目作答數(shù)據(jù)對(duì)分?jǐn)?shù)線制定影響相對(duì)較小，反饋調(diào)整后的低于真實(shí)考生題目作答數(shù)據(jù)對(duì)分?jǐn)?shù)線制定影響相對(duì)較大；反饋考生題目作答數(shù)據(jù)對(duì)合格線制定影響相對(duì)較小，即制定合格線較多依賴領(lǐng)域內(nèi)容的判斷；而對(duì)優(yōu)秀線制定影響相對(duì)較大，即制定優(yōu)秀線較多依賴于考生題目作答數(shù)據(jù)的反饋。

參考文獻(xiàn)

常蕤.(2008).一種基于Rasch模型的Angoff方法及其應(yīng)用.心理學(xué)探新，28(4)，76-79.

汪存友，余嘉元.(2010).關(guān)于兩種Angoff法比較的模擬實(shí)驗(yàn)研究.心理科學(xué)，33(1)，159-161.

Angoff，W.H.(1971).Scales，norms，and equivalent scores.In R.L.Thorndike(Ed.)，Educationalmeasurement(2nd ed.，pp.508-600).Washington，DC：American Council on Education.

Brandon，P.R.(2004).Conclusions about frequently studied modified Angoff standard setting topics.AppliedMeasurementinEducation，17，59-88.

Clauser，B.E.，Swanson，D.B.，& Harik，P.(2002).A multivariate generalizability analysis of the impact of training and examinee performance information on judgments made in an Angoff-style standard-setting procedure.JournalofEducationalMeasurement，39，269-290.

Clauser，B.E.，Harik，P.，Margolis，M.J.，McManus，I.C.，Mollon，J.，Chis，L.，& Williams，S.(2009a).Empirical evidence for the evaluation of performance standards estimated using the Angoff procedure.AppliedMeasurementinEducation，22，1-21.

Clauser，B.E.，Mee，J.，Baldwin，S.G.，Margolis，M.G.，& Dillon，G.F.(2009b).Judges’ use of examinee performance data in an Angoff standard-setting exercise for a medical licensing examination：An experimental study.JournalofEducationalMeasuremen，46，390-407.

Dillon，G.F.，& Walsh，W.P.(2000).Using performance data to set standards：Practical impact and the perception of judges.CLEARExamReview，11(1)，15-18.

Hambleton，R.K.，Swaminathan，H.，& Rogers，H.J.(1991).Fundamentalsofitemresponsetheory.Newbury Park，CA：Sage.

Hambleton，R.K.，& Pitoniak，M.J.(2006).Setting performance standards.In R.L.Brennan(Ed.)，Educationalmeasurement(4th ed.，pp.433-470).Westport，CT：American Council on Education/Praeger.

Hambleton，R.K.(2001).Setting performance standards on educational assessments and criteria for evaluating the process.In G.Cizek(Ed.)，Standardsetting：Concepts，methodsandperspectives(pp.89-116).Mahwah，NJ：Erlbaum Associates.

Influence of the Feedback of Students’ Performance Data on Standard-setting Result in Angoff Method

Zhang YongmeiTian YiHao YiLi Meijuan

(Beijing Academy of Educational Sciences，Beijing 100191)

Abstract：Based on the large-scale academic test，the study used between group design，divided the experts into five groups，and provided them with the examinee true performance data，up or down 0.5 or 1 standard deviations of the true data.At the same time，the study used one-way ANOVA and two parameter model to test that how the experts read the performance data to set standard in the Angoff method.The results show that the feedback of the data had the significant influence on the setting of the qualified line and the excellent line；the feedback with unadjusted and true performance data had great influence on the standard setting.Compared with that，the feedback with adjusted and above the true performance data had smaller influence on the standard setting，and the feedback with adjusted and below the true performance data had greater influence on the standard setting.

Key words：Angoff method；standard setting；feedback of the students’ performance data

中圖分類號(hào)：B841.2

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1003-5184(2016)01-0084-08

通訊作者：田一，E-mail：tianyio-001@163.com。郝懿李美娟

心理學(xué)探新2016年1期

心理學(xué)探新的其它文章: 認(rèn)知診斷模型下整體和項(xiàng)目擬合指標(biāo)*; 定量數(shù)據(jù)分析效應(yīng)值：意義、計(jì)算與解釋*; 刻板印象信息溝通的默認(rèn)策略*; 權(quán)力感對(duì)為自己和為他人消費(fèi)行為的影響; 微笑影響面孔吸引力判斷的眼動(dòng)研究*; CAT中能力參數(shù)估計(jì)方法的改進(jìn)：R-MLE估計(jì)法*

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

考生作答數(shù)據(jù)反饋對(duì)Angoff標(biāo)準(zhǔn)設(shè)定結(jié)果的影響