亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

考試難度及其測量學(xué)調(diào)控手段

2022-08-11 04:05:58楊志明徐慶樹

教育測量與評價(jià) 2022年4期

楊志明徐慶樹

每年的大規(guī)模高利害考試如高考、中考結(jié)束后，試卷難度問題就會(huì)成為大眾關(guān)注的焦點(diǎn)。[1][2][3][4][5]考試是人才選拔和學(xué)業(yè)診斷的高效的、重要的手段，但考試太難會(huì)導(dǎo)致考生無從下手，考試太容易又會(huì)導(dǎo)致缺乏區(qū)分度。有人覺得專家們有能力預(yù)判考試難度，但到目前為止，專家們一直沒有找到精準(zhǔn)預(yù)判考試難度的辦法，相反，專家們“看走眼”的事情卻時(shí)有發(fā)生。那么，如何認(rèn)識考試難度？有沒有相對科學(xué)的考試難度調(diào)控方案？本文從教育測量學(xué)角度對考試難度及其測量學(xué)調(diào)控手段進(jìn)行梳理，以便為科學(xué)把控考試難度提供一些新的思路。

一、考試難度概述

在教育測量學(xué)領(lǐng)域，考試難度體現(xiàn)為題目難度，題目的難度目前有3種不同的定義方法?？荚囯y度的設(shè)定是否恰當(dāng)需要從考試的目的等方面進(jìn)行評價(jià)。用于選拔拔尖人才的考試與區(qū)分中上水平考生的考試，以及用于診斷學(xué)生學(xué)業(yè)發(fā)展的均衡性方面的考試，其試卷的難度要求是很不一樣的，我們不能簡單地用太難或太容易來評判某一項(xiàng)考試的好壞。

1.題目難度的3 種定義

依據(jù)經(jīng)典測驗(yàn)理論（classical testing theory，CTT）和國際考試行業(yè)的慣例，題目難度（item difficulty）可以選用每題平均得分（average item score，AIS）與對應(yīng)題目滿分值（Max）的比值（pvalue）作為指標(biāo)，其定義如式（1）所示。

p=AIS/Max ……………………………（1）

其中，當(dāng)題目為0/1 計(jì)分題目時(shí)，p為題目的通過率，即答對該題的考生比例。與此對應(yīng)的另一個(gè)指標(biāo)q=1-p則是答錯(cuò)此題的人數(shù)比例。

顯然，這種題目難度的定義非常直觀，計(jì)算也特別簡單，但它有兩個(gè)缺陷。其一，難度值p越大，題目越容易；難度值p越小，題目越難。這種“反著說話”的方式容易引發(fā)大眾的困惑。其二，難度值p不是一個(gè)度量單位等距的指標(biāo)。因此，在評價(jià)試卷平均難度時(shí)，直接計(jì)算所有試題難度值p的均值的方法存在著“底氣不足”的缺點(diǎn)。比如，一道通過率為0.80 的題目并不能解釋為它比一道通過率為0.40 的題目容易一倍。

為了克服難度p指數(shù)的這些缺點(diǎn)，美國教育考試服務(wù)中心（Educational Testing Service，ETS）的測量學(xué)專家們設(shè)計(jì)了一個(gè)基于所有題目難度值分布服從正態(tài)分布假定的難度指標(biāo)Δ，其定義如式（2）[6]所示。

其中，Δ 是基于考生總體（如全省考生）的題目難度指標(biāo)，Zp是正態(tài)分布條件下題目難度p值所對應(yīng)的Z值，其取值范圍為［-3，+3］。

由式（2）可知，Δ為等距度量系統(tǒng)上的值，其取值范圍為［1，25］。顯然，難度指標(biāo)Δ 值越小，題目越容易；難度指標(biāo)Δ 值越大，題目越難。這就是說，難度的第二種定義Δ克服了難度p值的主要缺點(diǎn)，不僅理順了難度Δ 值的大小與題目難易的一致性，而且具有等距特性的Δ 指標(biāo)方便試卷中所有題目難度的平均值和標(biāo)準(zhǔn)差的計(jì)算，給出了試卷難度的精準(zhǔn)表達(dá)方式。

與經(jīng)典測驗(yàn)理論不同，現(xiàn)代測量理論中的題目反應(yīng)理論（item response theory，IRT）通過logistic 曲線擬合每個(gè)題目在考生總體上的作答表現(xiàn)的方式，用IRT 模型中的位置參數(shù)b重新定義了基于等距量表的題目難度參數(shù)。由于IRT 模型眾多，下文以應(yīng)用最廣的雙參數(shù)logistic 模型（two-parameter logistic model，簡稱2pl，適用于0/1 計(jì)分題目）為例進(jìn)行解讀。非0/1 計(jì)分題目一般采用廣義分步計(jì)分模型（generalized partial credit model，簡稱GPCM），限于篇幅，本文不討論GPCM 的情況。

具體來說，對于0/1 計(jì)分的題目，其IRT 雙參數(shù)logistic 模型如式（3）所示。

其中，Pij表示考生j答對題目i的概率，D=1.7，ai為題目i的區(qū)分度，bi為題目i的難度，難度取值的理論范圍為［-4，+4］，但在實(shí)際工作中一般設(shè)定其取值范圍為［-3，+3］。

假若考生總體（比如全省考生）都作答了該題，則水平高的考生答對該題的概率必定會(huì)高，水平低的考生答對該題的概率必定會(huì)低。因此，在考生總體的能力分布范圍內(nèi)，考生答對該題的概率可以表現(xiàn)為關(guān)于考生能力參數(shù)θ的一個(gè)S 型題目特征曲線（item characteristic curve，ICC），其形式如圖1 所示。

其中，縱坐標(biāo)為考生答對題目的概率，橫坐標(biāo)為考生能力水平（θ），題目難度被定義為題目特征曲線拐點(diǎn)的橫坐標(biāo)值（b）。例如，圖1 中最右邊的曲線拐點(diǎn)位置為2，表示題目難度b=2，圖形中左邊兩條曲線的拐點(diǎn)位置為-1，表示它們的難度b都等于-1。

圖1 雙參數(shù)logistic 模型的題目特征曲線

需要說明的是，ICC 在拐點(diǎn)的切線斜率被定義為題目的區(qū)分度（a），它反映了在曲線拐點(diǎn)附近的難度變化所帶來的題目答對概率的變化情況。區(qū)分度（a）值越大，表示該題目在題目難度附近區(qū)分考生水平的能力越強(qiáng)，反之，則區(qū)分考生水平的能力越弱。例如，圖1 中左邊兩條曲線拐點(diǎn)相同（即題目難度相同），但過拐點(diǎn)位置曲線的切線斜率不同。ICC 越陡峭，說明題目在曲線拐點(diǎn)附近的區(qū)分度越大；反之，說明題目在曲線拐點(diǎn)附近的區(qū)分度越小。

顯然，基于IRT 的題目難度與基于CTT 的題目難度定義很不相同。首先，基于IRT 的模型參數(shù)b具有等距特點(diǎn)。其次，基于IRT 模型的題目難度與考生的能力水平參數(shù)θ被定義在一個(gè)共同的度量系統(tǒng)即量表（scale）之上。再次，同一道題目對于能力水平不同的考生具有不同的區(qū)分度。比如，圖1 中最右邊的題目難度為2，則表明該題只對能力水平θ值接近2 的考生最有區(qū)分能力，對于能力水平太低的考生（如θ值在-2 附近的考生），該題幾乎沒有區(qū)分能力（大家基本上都會(huì)答錯(cuò)該題）。最后，難度相同的題目也可能具有很不相同的區(qū)分度（比如圖1 中左邊兩條ICC 所代表的兩道題目具有很不相同的區(qū)分度）。因此，在討論試卷的區(qū)分度時(shí)，必須綜合考慮試卷內(nèi)所有題目的難度和區(qū)分度兩個(gè)參數(shù)。也就是說，不能簡單地因?yàn)轭}目太難就認(rèn)定某次考試的區(qū)分度不高，或題目太容易就判定考試的區(qū)分度會(huì)高等。此外，在我國的許多重大考試中，大眾和專家們都偏愛大題目（如每題滿分5 分或10 分或20 分等）。對于這種大題目，除了難度值，還可以挖掘關(guān)于題目質(zhì)量的其他信息。因此，很有必要對考試難度（含題目難度和分步計(jì)分難度）及其對社會(huì)影響的情況做深入討論。

2.考試難度的兩種評價(jià)

考試難度完全是圍繞著考試目的來設(shè)定的。比如，為了實(shí)現(xiàn)選拔拔尖人才的目的，考試可以設(shè)置得很難；為了使得提前學(xué)、反復(fù)練的邊際收益最小，考試可以設(shè)置得非常容易。換句話說，考試太難或太容易無所謂對錯(cuò)，只要能實(shí)現(xiàn)教育目的或選才目的就可以。通常，考試難度的評價(jià)方式有兩種：其一是相對評價(jià)，即重點(diǎn)評價(jià)考試項(xiàng)目是否較好地區(qū)分考試機(jī)構(gòu)所期待區(qū)分的考生群體；其二是絕對評價(jià)，即重點(diǎn)評價(jià)考試項(xiàng)目是否較好地幫助考生發(fā)現(xiàn)了各自的長處和短處。

（1）考試難度的相對評價(jià)

假若考試使用方的目的是選拔拔尖人才，如鑒別出考生總體中最優(yōu)秀的5‰的人以方便少數(shù)頂尖高校的招生錄取工作，則需要選擇大量（如超過1/3 或1/2 分量的）難題組成試卷，只有這樣才能有效區(qū)分優(yōu)秀生中的最優(yōu)學(xué)生。假若考試的目的是區(qū)分中上水平的考生以方便“雙一流”等高校招生，則需要多用中等偏難的題目組成試卷，如在試卷中設(shè)定容易題目、中等難度題目、難題的分量分別為1/5，2/5 和2/5，或者1/5，3/5和1/5 等。假若考試的目的是淘汰極少數(shù)不合格的考生，則需要多用中等偏易題目組成試卷，如在試卷中設(shè)定容易題目、中等難度題目、難題的分量分別為1/2，1/2 和0/2 等。

特別地，假若有證據(jù)表明“很多優(yōu)秀學(xué)生在初中畢業(yè)時(shí)還沒有開竅，他們在高難度的考試面前還未能有機(jī)會(huì)展現(xiàn)自己的發(fā)展?jié)摿Α?，則應(yīng)當(dāng)鼓勵(lì)設(shè)置較容易的中考試卷，以避免過早淘汰潛在優(yōu)秀人才。比如，在中考試卷中設(shè)定容易題目、中等難度題目、難題的分量分別為4/7，3/7 和0/7，或3/7，3/7 和1/7 等，即可達(dá)到這個(gè)目的。若能輔之以“普及12 年制義務(wù)教育”和“在普通高校增設(shè)職業(yè)技術(shù)教育專業(yè)或?qū)W院”等措施，則中考試卷完全可以變得十分容易。這種降低中考難度的辦法或許能弱化“不要輸在起跑線上”的錯(cuò)誤教育理念，強(qiáng)化終身學(xué)習(xí)的正確觀念。假若教育主管部門期待用中考來引導(dǎo)大眾重視學(xué)生的德智體美勞全面發(fā)展（比如，強(qiáng)化綜合素質(zhì)評價(jià)的選拔功能等），而不是局限在應(yīng)考科目上，則降低中考難度可以使得提前學(xué)、反復(fù)練和大量補(bǔ)課等措施的邊際收益幾乎為零，進(jìn)而倒逼“雙減”，使得每名學(xué)生都有時(shí)間和精力去學(xué)習(xí)不同的內(nèi)容，體驗(yàn)不同的發(fā)展方向。

（2）考試難度的絕對評價(jià)

假若考試目的是診斷學(xué)生的學(xué)業(yè)掌握情況，則題目難度可以根據(jù)某種標(biāo)準(zhǔn)（如國家課程標(biāo)準(zhǔn)等）所要求的知識內(nèi)容廣度和能力層次深度設(shè)置試卷難度，而不必在乎有多少考生會(huì)做還是不會(huì)做。這種考試通常會(huì)要求報(bào)告每名考生在各個(gè)知識模塊上的掌握水平，以及考生的能力發(fā)展層次，一般不要求報(bào)告考試總分，因?yàn)榭荚囍鬓k方的目的是了解學(xué)生在知識和能力發(fā)展方面的缺點(diǎn)和優(yōu)點(diǎn)，以便調(diào)整教學(xué)進(jìn)度和難度等。

此外，從經(jīng)典測驗(yàn)理論的視角看，考試難度p值是相對于考生群體來定義的?？忌后w水平高，則題目的得分均值與題目滿分值的比值p（如0/1 計(jì)分題目的通過率）就高，反之，p值就低。因此，在估算題目的難度參數(shù)值時(shí)，國際考試行業(yè)十分注意應(yīng)考群體的代表性?；诜谴硇詰?yīng)考群體所估算的題目難度往往是一個(gè)帶有偏差的估計(jì)值，或者高估題目難度（應(yīng)考群體水平普遍較低），或者低估題目難度（應(yīng)考群體水平普遍較低）。因此，在組卷或建設(shè)考試題庫時(shí)，所有題目的難度參數(shù)估計(jì)值需要通過測驗(yàn)等值（test equating）的方式調(diào)整在一個(gè)共同的度量系統(tǒng)之上。比較理想的做法是針對考生總體設(shè)定題目難度度量系統(tǒng)，隨后增加新題目時(shí)先做好題目參數(shù)鏈接的工作。題目難度等參數(shù)等值工作不僅在CTT 理論框架下必須完成，而且在IRT 理論框架下也必須完成，具體方法本文略過。

根據(jù)上述討論，大眾或考評機(jī)構(gòu)比較容易判斷每次考試的難度是否符合考試的目的。圖2 是某市中考英語科目中書面表達(dá)試題的考生成績分布情況。

由圖2 可知，假若去掉缺考者或完全放棄英語科目者（平均得分為0.5 分的22328 人），其他6 萬多名考生在該題目上的得分分布基本為正態(tài)分布。這說明本次中考英語科目中書面表達(dá)試題的難度把握較好，對于各種能力層次的考生具有較好的區(qū)分度。

圖2 某市中考英語科目中書面表達(dá)試題的考生成績分布

需要注意的是，在總計(jì)8 萬多名考生中出現(xiàn)了2 萬多名學(xué)生棄考該題的情況，值得從教學(xué)改進(jìn)的角度（絕對評價(jià)角度）做進(jìn)一步探究，但在估算該題難度時(shí)，所有棄考者不能包括在考生樣本之中，否則，該題的難度會(huì)被大大高估（其實(shí)并沒有那么難），因?yàn)檫@2 萬多名考生放棄作答該題不等于他們在這方面的知識和能力水平為0。換句話說，直接運(yùn)用CTT 或IRT 方法估算題目難度參數(shù)時(shí)，必須確?？忌鷺颖緦傮w的代表性，并非在任何條件下使用所有應(yīng)考者數(shù)據(jù)的題目難度估算結(jié)果都是準(zhǔn)確的。

二、調(diào)控考試難度的測量學(xué)方法

在國際考試行業(yè)，調(diào)控考試難度的測量學(xué)方法主要有3 種：其一，利用小規(guī)模試測方式估算題目的難度等參數(shù)，并實(shí)現(xiàn)題目參數(shù)等值，然后在正式考試組卷之前估算整個(gè)考試的難度；其二，采用計(jì)算機(jī)化自適應(yīng)測試（computerized adaptive testing，CAT）[7][8]模式或計(jì)算機(jī)化自適應(yīng)多階段測試（computerized adaptive multi-stage testing，ca-MST）[9][10][11][12]模式，測試系統(tǒng)能根據(jù)考生在前期的作答表現(xiàn)自動(dòng)調(diào)整隨后的題目難度，或更容易或更難，直到測量精度達(dá)到要求；其三，運(yùn)用標(biāo)準(zhǔn)設(shè)定（standard setting）方法，通過專家組預(yù)估考試的難度。

1.利用代表性小樣本試測新題的方法預(yù)控考試難度

在國外的許多大型考試中，所有新題都需要通過試測的方式獲得題目難度等參數(shù)的估計(jì)，并根據(jù)試測的結(jié)果重新調(diào)整試題內(nèi)容或表達(dá)方式等。這是因?yàn)?，至今為止，所有的專家預(yù)估方法都無法完全憑主觀判斷準(zhǔn)確預(yù)估題目難度，專家也是人，他們難免有“看走眼”的時(shí)候。

通常，試測工作的一個(gè)簡單方式是在命題工作基本完成的情況下（或在高考、中考正式開考前10～20 天），選擇一個(gè)與考生總體非常匹配的10～30 人樣本，在完全保密的狀態(tài)下完成新題目的試測工作。這些考生可以是已經(jīng)被有關(guān)高校提前錄取了的學(xué)生，或者是命題組中已經(jīng)完成了命題任務(wù)的專家，特別是來自中學(xué)的教師。

通過對考生進(jìn)行微小試測，題目中的大部分不妥之處一般能夠得到發(fā)現(xiàn)。這些可能的問題包括（但不限于）：（1）選題需要用到課外背景知識，有可能導(dǎo)致某個(gè)特定人群（比如農(nóng)村考生或女生）作答不利；（2）題目表述可能引發(fā)歧義；（3）主觀題所需要的作答演算過分復(fù)雜，可能導(dǎo)致作答該題會(huì)大大超時(shí)；（4）客觀題中的單項(xiàng)選擇題可能沒有正確答案或存在多個(gè)答案等。有條件的考評機(jī)構(gòu)往往會(huì)通過事先建設(shè)好題庫的方式預(yù)估考試難度。

國外也有考試項(xiàng)目通過把新題藏匿在部分考生的正式考試之中的方法預(yù)測題目的難度等參數(shù)，樣本量一般為600～1600 人，所選考場大多在“應(yīng)試”風(fēng)氣不太嚴(yán)重的地方，這些新題不會(huì)計(jì)入考生成績。顯然，我國的一些高利害考試不宜采用國外的這種問題解決辦法，只能通過高成本的方式實(shí)施完全保密狀態(tài)下的微小試測方式來預(yù)控考試難度。

2.采用計(jì)算機(jī)化自適應(yīng)測試方式控制考試難度

計(jì)算機(jī)化自適應(yīng)測試是根據(jù)考生前期作答的表現(xiàn)，測試系統(tǒng)自動(dòng)調(diào)整其隨后所要求作答的題目或題組，使得題目或題組的難度與考生水平逐漸接近。其理論基礎(chǔ)主要是題目反應(yīng)理論，其基本特征是考試的個(gè)性化和等值化，即不同考生所要求作答的題目可以在難度和區(qū)分度、數(shù)量、作答時(shí)長等方面不同，但其考試成績可以通過測驗(yàn)等值技術(shù)表達(dá)在一個(gè)共同的度量系統(tǒng)（量表）之上。

目前，計(jì)算機(jī)化自適應(yīng)測試的模式主要有兩種：基于題目層面的CAT 模式和基于題組層面的ca-MST 模式。國外使用CAT 模式的典型代表為工商研究生入學(xué)考試（GMAT）以及美國若干州的教育考試，使用ca-MST 模式的典型代表為研究生入學(xué)考試（GRE）以及基于美國共同核心課程標(biāo)準(zhǔn)的聯(lián)考（the smarter balanced assessment consortium’s tests，SBAC）等。顯然，計(jì)算機(jī)化自適應(yīng)測試或計(jì)算機(jī)化自適應(yīng)多階段測試徹底解決了考試難度不可控制的問題，因?yàn)樗礁叩目忌鷷?huì)被智能化的計(jì)算機(jī)測試系統(tǒng)不斷推送更難題目，直到考生作答錯(cuò)誤，并達(dá)到某種預(yù)設(shè)的測量精度才停止。水平低的考生也會(huì)被智能化的計(jì)算機(jī)測試系統(tǒng)不斷推送更容易的題目，直到考生作答正確并達(dá)到某種預(yù)設(shè)的測量精度才停止。換句話說，考試無所謂難或容易，因?yàn)槊總€(gè)人的考試都是量身定做的。

不過，要實(shí)施這種計(jì)算機(jī)化自適應(yīng)測試，需要具備一定的條件。首先，考試機(jī)構(gòu)需要有一支專業(yè)的考試技術(shù)團(tuán)隊(duì)，相關(guān)高校需要培養(yǎng)出一批具有博士水準(zhǔn)的掌握了IRT 和測驗(yàn)等值技術(shù)的人才。其次，考試機(jī)構(gòu)需要建設(shè)一系列動(dòng)態(tài)更新的考試題庫，題庫中所有試題的難度等參數(shù)都已經(jīng)被估計(jì)好，并被鏈接在一個(gè)共同的度量系統(tǒng)之上。此外，需要有一批能夠?yàn)榭荚噷?shí)施提供計(jì)算機(jī)化測試的IT 服務(wù)機(jī)構(gòu)，并具有考試安全方面的法律保障體系等。

3.采用標(biāo)準(zhǔn)設(shè)定的方法預(yù)估考試難度

在無法實(shí)施新題預(yù)測或計(jì)算機(jī)化自適應(yīng)測試的條件下，使用標(biāo)準(zhǔn)設(shè)定的方法可以粗略預(yù)估考試難度，進(jìn)而控制考試難度。

標(biāo)準(zhǔn)設(shè)定中的“標(biāo)準(zhǔn)”通常包括兩個(gè)方面：其一是內(nèi)容標(biāo)準(zhǔn)（content standard），其二是表現(xiàn)標(biāo)準(zhǔn)（performance standard）。[13][14][15][16]內(nèi)容標(biāo)準(zhǔn)指的是某個(gè)年齡或年級的考生需要掌握的知識范圍或技能領(lǐng)域，其關(guān)注的是“是什么”的問題，通常是以課程標(biāo)準(zhǔn)、考試說明（test specification）等形式進(jìn)行說明的。表現(xiàn)標(biāo)準(zhǔn)指的是某特定等級（如合格、良好、優(yōu)秀等）的考生對某個(gè)知識或技能應(yīng)該掌握的程度。

標(biāo)準(zhǔn)設(shè)定的方法有很多，但大體上可以歸納為兩類。其一是基于測驗(yàn)的方法（test-centered methods），如萊德爾斯基（Nedelsky）方法、艾貝爾（Ebel）方法、安戈夫（Angoff）方法、書簽標(biāo)記（bookmark）方法等。其二是基于考生的方法（examinee-centered methods），如臨界組（borderline group）和對照組（contrasting groups）方法等。[17][18][19]

標(biāo)準(zhǔn)設(shè)定的基本思想（以艾貝爾方法為例）如下：

首先，組建一個(gè)專家小組。

其次，專家小組從以下兩個(gè)角度對每道試題做出判定：在決定等級水平時(shí)，該道試題所考查的知識或能力內(nèi)容有多重要，即專家們需要確定該題是極端重要（essential）、重要（important）、一般（acceptable），還是無足輕重（questionable）的；一個(gè)具有某個(gè)等級（如優(yōu)秀）最低水平的考生，正確作答每道試題的可能性有多大。

最后，根據(jù)專家小組針對每道試題中的兩個(gè)問題做出的初始判斷，利用Excel 模板，綜合專家小組的其他結(jié)果，求得具有某個(gè)等級最低水平考生需要答對全部題目的百分?jǐn)?shù)。

依據(jù)以上思路，命題者可以大體預(yù)估題目難度和考試難度。限于篇幅，利用標(biāo)準(zhǔn)設(shè)定方法預(yù)估題目難度的具體方法另外專門討論。需要強(qiáng)調(diào)的是，專家們的主觀判斷僅僅是個(gè)參考，他們“看走眼”的情況是無法避免的。換句話說，標(biāo)準(zhǔn)設(shè)定方法只是沒有辦法的辦法。

總之，無論是用于選才、學(xué)業(yè)診斷，還是用于某種政策引導(dǎo)，大規(guī)模高利害考試的難度需要事先設(shè)定好，否則會(huì)帶來不必要的管理成本。在教育測量領(lǐng)域，調(diào)控考試難度的方法主要有3種，即在保密狀態(tài)下對新題目進(jìn)行微小規(guī)模的試測、采用計(jì)算機(jī)化自適應(yīng)測試模式，以及參照標(biāo)準(zhǔn)設(shè)定的方法預(yù)估題目難度，命題人員可以根據(jù)考試目的，參考實(shí)際情況選擇適當(dāng)?shù)姆椒ǎ茖W(xué)把控考試難度，節(jié)約管理成本。