亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

實(shí)時(shí)線性考試的設(shè)計(jì)理念及實(shí)施

2014-11-08 08:06:30孟匯涓

中國(guó)考試 2014年1期

關(guān)鍵詞：內(nèi)容

孟匯涓

近些年來(lái)，項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）逐漸為國(guó)內(nèi)的考試主辦方所了解，并被應(yīng)用于一些測(cè)試中。與經(jīng)典測(cè)試?yán)碚摚–lassical Test Theory，CTT）相比，IRT理論的核心優(yōu)勢(shì)是：（1）對(duì)題目參數(shù)的計(jì)算不依賴于參試的考生群體；（2）對(duì)考生分?jǐn)?shù)的計(jì)算不依賴于試卷中使用的題目。在這樣的理論構(gòu)架下，在IRT幾個(gè)假設(shè)（單維性、局部獨(dú)立性和單調(diào)性）可以基本保證的前提下，施以合理的數(shù)據(jù)采集方法，歷年考試題目的參數(shù)可以被放在同一個(gè)尺度上，而由這些題目所組成的不同試卷不再需要額外的等值步驟就可以保證試卷之間由題目參數(shù)算出的IRT分?jǐn)?shù)的可比性（Kolen&Brennan，2004，p.175）[1]。

IRT題目參數(shù)以及IRT分?jǐn)?shù)的這種特性，在計(jì)算機(jī)考試平臺(tái)的輔助下，使考試主辦方不再局限于以往的固定試卷模式，開始使用以題庫(kù)形式為發(fā)送基礎(chǔ)的各種靈活的設(shè)計(jì)，如計(jì)算機(jī)自適應(yīng)考試（Computerized Adaptive Test，CAT）或?qū)崟r(shí)線性考試（Linear On-the-Fly Test，LOFT）。這里的題庫(kù)是指考試主辦方擁有的所有試題中的一部分，可以用來(lái)組成幾套甚至十幾套的試卷。我國(guó)測(cè)量界的學(xué)者如張厚粲、漆書青、戴海崎、丁樹良等自20世紀(jì)80年代末90年代初就開始了對(duì)CAT的研究（張厚粲，1990；江西師大“題庫(kù)理論”組，1987）[2][3]；相比之下，實(shí)時(shí)線性考試是一個(gè)較為陌生的概念，也是這篇文章所要具體闡述的。

1 LOFT的設(shè)計(jì)理念

1.1 什么是LOFT?

從LOFT的名稱來(lái)看，首先這是一個(gè)線性考試（Linear）：計(jì)算機(jī)依次將試卷中的題目發(fā)送給考生，而不是根據(jù)考生對(duì)先前試題回答的結(jié)果從題庫(kù)中一一抽取題目。所以，LOFT不是“量體裁衣”、“因人選題”的計(jì)算機(jī)自適應(yīng)考試，也不是傳統(tǒng)的固定試卷，需要事先組好，通過命題組審核，并且收到相同固定試卷的考生回答同樣的試題。

其次，考試是實(shí)時(shí)的（On-the-Fly）：組卷工作是考生坐在計(jì)算機(jī)前的那一瞬間啟動(dòng)，由計(jì)算機(jī)驅(qū)動(dòng)程序按照事先制訂好的內(nèi)容和統(tǒng)計(jì)方面的組卷規(guī)則，從一個(gè)比較大的題庫(kù)里自動(dòng)抽題組卷，發(fā)送給考生。因?yàn)槌轭}過程中的隨機(jī)算法的調(diào)控，考生拿到的試題或多或少總有不同。

總之，LOFT綜合了CAT和固定試卷設(shè)計(jì)的一些特點(diǎn)，如前者的對(duì)題庫(kù)的使用以及由計(jì)算機(jī)抽選試題；后者的對(duì)試卷內(nèi)容統(tǒng)計(jì)方面高度一致的要求。

1.2 LOFT的優(yōu)點(diǎn)

首先，與固定試卷相比，LOFT考試安全性比較高。因?yàn)榭忌玫降脑嚲砩系念}目多有不同，它可以降低考試結(jié)束后考生互相對(duì)題而產(chǎn)生的潛在漏題風(fēng)險(xiǎn)。同時(shí)，LOFT設(shè)計(jì)性價(jià)比更好，因?yàn)榘l(fā)布①Peason VUE考試發(fā)布（Test Publishing）的工作內(nèi)容是：將客戶提供的試題、試卷結(jié)構(gòu)（包括考試大綱的要求、試題數(shù)量等）和考試設(shè)計(jì)（是使用固定試卷、CAT還是LOFT）輸入軟件，然后將考試用QTI（Question and Test Interoperability）的形式輸出，上傳到VUE的考試發(fā)送系統(tǒng)。一個(gè)LOFT題庫(kù)和發(fā)布一套固定試卷的費(fèi)用是一樣的。考試主辦方如果需要屏蔽幾個(gè)試題，可以直接在題庫(kù)上操作，不像固定試卷，必須要重新發(fā)布，從而減少了因?yàn)槠帘卧囶}而增加的相關(guān)費(fèi)用。

和CAT相比，LOFT題庫(kù)中試題的使用更加均衡。如果LOFT和CAT使用同一個(gè)題庫(kù)，LOFT不會(huì)像CAT一樣，出現(xiàn)難度適中、區(qū)分度大的試題被反復(fù)抽選，而過難的試題或簡(jiǎn)單題使用頻率過低的情況，從而降低了信息量大的試題因頻繁曝光而被泄露的潛在風(fēng)險(xiǎn)。

其次，LOFT對(duì)題庫(kù)的要求比CAT要低。在試題數(shù)量方面，如果是固定長(zhǎng)度（fixed-length）的CAT，題庫(kù)中需要有大約12份相同長(zhǎng)度、相同質(zhì)量且沒有重疊的的試題（Stocking，1994）[4]；而LOFT題庫(kù)中的試題數(shù)量要求沒有CAT那么高（Kingsbury，Bontempo，Zara，2009）[5]，在美國(guó)教育考試服務(wù)中心（ETS）的一篇研究報(bào)告中，LOFT的題庫(kù)試題數(shù)量是固定試卷長(zhǎng)度的5倍即可滿足要求（Stocking，Smith，&Swanson，2000）[6]。在試題難度分布方面，CAT因?yàn)橐鶕?jù)考生答題的情況和計(jì)算出的IRT分?jǐn)?shù)選題，它通常要求每一個(gè)考試內(nèi)容的試題難度都要和考生能力分布相吻合，才能發(fā)揮出CAT的優(yōu)勢(shì)，而LOFT只需要各部分內(nèi)容的試題數(shù)量比例均衡，對(duì)每個(gè)內(nèi)容的試題難度沒有更多要求，從而很大程度上減輕了考試主辦方發(fā)展題庫(kù)的負(fù)擔(dān)。

LOFT的第三個(gè)優(yōu)勢(shì)是它允許考生略過一些比較難的題目，回頭再做；而在CAT中，考生必須順序回答每一個(gè)試題，答完后不可以檢查更改。顯而易見，LOFT提供了考生比較熟悉的一種應(yīng)試狀態(tài)。

最后，選擇考試設(shè)計(jì)需要考慮考試的目的及效率。如果某項(xiàng)考試僅僅是決定考生通過與否，考試主辦方只需要在分?jǐn)?shù)線附近實(shí)現(xiàn)對(duì)成績(jī)的準(zhǔn)確測(cè)量即可。如果LOFT統(tǒng)計(jì)指標(biāo)設(shè)計(jì)好的話，可以和CAT一樣滿足這個(gè)目的（Becker，Bontempo，Dickison，Masters，2010）[7]，這樣的話就可以放棄對(duì)題庫(kù)有很高要求的CAT，使用LOFT來(lái)降低考試的成本。像資格認(rèn)證這一類的考試，LOFT比CAT可能更為合適。

綜上所述，使用LOFT題庫(kù)的考試設(shè)計(jì)一般來(lái)說(shuō)要比固定試卷在考試安全性上更有保障；在滿足考試目的的前提下，LOFT可以比CAT更好地平衡題庫(kù)中試題的使用頻率，降低漏題風(fēng)險(xiǎn)；同時(shí)，在LOFT的設(shè)計(jì)下，考生可以檢查做過的試題，更改答案，減輕考生在CAT中可能會(huì)產(chǎn)生的考試焦慮。最后，如果題庫(kù)還在建設(shè)之中，無(wú)法滿足CAT設(shè)計(jì)對(duì)試題難度分布的要求，采用LOFT不失為一個(gè)比固定試卷更加靈活有效、經(jīng)濟(jì)實(shí)惠的過渡方案。

2 LOFT的實(shí)施

LOFT由兩部分組成，一是題庫(kù)，包括實(shí)測(cè)題庫(kù)和預(yù)測(cè)題庫(kù)；二是組卷規(guī)則，包括內(nèi)容方面和統(tǒng)計(jì)方面的規(guī)則。在實(shí)測(cè)題庫(kù)中，所有算分的題目都需要有參數(shù)，如IRT下的題目參數(shù)，它們被用來(lái)計(jì)算并衡量計(jì)算機(jī)組出的試卷是否達(dá)到事先設(shè)定的統(tǒng)計(jì)目標(biāo)，所以這些試題都是以往考試中的題目。而預(yù)測(cè)題庫(kù)中的試題則是新題，考生對(duì)它們的回答只是用來(lái)評(píng)估試題質(zhì)量，獲取題目參數(shù)，并不計(jì)入成績(jī)。國(guó)外很多大規(guī)模考試項(xiàng)目都是通過預(yù)測(cè)題來(lái)發(fā)展題庫(kù)，保證考試良性運(yùn)行。

以下通過一個(gè)虛擬的考試案例（見表1）來(lái)介紹實(shí)施LOFT每個(gè)環(huán)節(jié)的操作步驟。這個(gè)案例中的考試試題在內(nèi)容上的分布并沒有達(dá)到應(yīng)用LOFT設(shè)計(jì)的理想狀態(tài)，卻也是很多考試主辦方在實(shí)際工作中可能需要面對(duì)的現(xiàn)實(shí)情況。

2.1 組建預(yù)測(cè)題庫(kù)

設(shè)計(jì)預(yù)測(cè)題庫(kù)的第一步是根據(jù)考生人數(shù)及使用的測(cè)量理論模型估計(jì)出預(yù)測(cè)題的數(shù)量。如表1中的考試，預(yù)測(cè)題目的數(shù)據(jù)點(diǎn)共有40 000個(gè)（4 000人×10道預(yù)測(cè)題），因?yàn)樾?zhǔn)題目參數(shù)的人數(shù)要求設(shè)在400人，可以算出這個(gè)考試預(yù)測(cè)題庫(kù)的題目數(shù)量應(yīng)為100道題（40 000/400）。

第二步，考試主辦方需要對(duì)已有試題進(jìn)行分析，找出題庫(kù)中最欠缺的內(nèi)容領(lǐng)域，以決定預(yù)測(cè)題庫(kù)中試題的分布。用表1中試題總量和考試大綱規(guī)定題數(shù)，可以算出目前每個(gè)內(nèi)容領(lǐng)域下可以不重疊地組幾套試卷。通過這個(gè)分析可以發(fā)現(xiàn)內(nèi)容1、2和5，試題數(shù)量明顯少于其他內(nèi)容，所以預(yù)測(cè)試題就分布在這3個(gè)內(nèi)容。表2是試題分析結(jié)果，由此決定試卷及題庫(kù)中預(yù)測(cè)題的分布，以及考試后各部分試題數(shù)量會(huì)有怎樣的增長(zhǎng)?？荚囍鬓k方需要通過這樣的分析和規(guī)劃，盡量均衡地將考試中各內(nèi)容領(lǐng)域下試題數(shù)量的比例逐漸拉齊，使題庫(kù)中實(shí)測(cè)題使用頻率趨于一致，從而最大程度地實(shí)現(xiàn)使用LOFT這種設(shè)計(jì)的優(yōu)勢(shì)。

表1 虛擬考試案例

表2 預(yù)測(cè)試題及題庫(kù)規(guī)劃

2.2 組建實(shí)測(cè)題庫(kù)

表3 實(shí)測(cè)題庫(kù)規(guī)劃

在LOFT設(shè)計(jì)下，通常不會(huì)把考試主辦方手中所有的有題目參數(shù)的實(shí)測(cè)題一次性全部用完，所以，就像組固定試卷一樣，也需要組建一個(gè)在考試時(shí)使用的題庫(kù)，盡可能地平衡試題的使用頻率，保證不同年度不同題庫(kù)下所組建的LOFT試卷質(zhì)量的一致性。

信息采集模塊界面主要包括機(jī)床列表對(duì)車間設(shè)備狀態(tài)進(jìn)行總覽，如圖5所示，可以實(shí)現(xiàn)對(duì)機(jī)床狀態(tài)監(jiān)控、數(shù)據(jù)庫(kù)連接管理、機(jī)床管理、各機(jī)床實(shí)時(shí)數(shù)據(jù)監(jiān)控等功能。機(jī)床列表界面對(duì)機(jī)床編號(hào)、IP地址、名稱、加工狀態(tài)、急停狀態(tài)、報(bào)警狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控顯示。

組建實(shí)測(cè)題庫(kù)有三個(gè)步驟：第一步，要確定每一個(gè)考試內(nèi)容應(yīng)該有多少道題，它基本上是由考試主辦方對(duì)試題平均曝光率的要求和目前可組試卷數(shù)量決定的。如在這個(gè)虛擬考試案例中，假設(shè)試題平均曝光率設(shè)為25%，那就意味著題庫(kù)中需要放4套試卷的題量，就是200道題。如果實(shí)際情況如表3所示，內(nèi)容1、2和5試題數(shù)量較少，所以關(guān)于這3個(gè)內(nèi)容的實(shí)測(cè)題大部分甚至是全部放在了第一個(gè)題庫(kù)中，從而使試題平均曝光率不至于過高。而試題充足的內(nèi)容3和4，因?yàn)樵O(shè)定了上限，就不會(huì)出現(xiàn)同一內(nèi)容下題目太多，試題曝光率過低的情況。需要注意的一點(diǎn)是，在這個(gè)例子中，內(nèi)容1、2、和5的試題可能需要重復(fù)使用，在下一次考試時(shí)放在題庫(kù)2里。當(dāng)然，如果像2.1中描述的，所有的預(yù)測(cè)題都集中在這些內(nèi)容上，本次考試結(jié)束后，通過審查的預(yù)測(cè)題會(huì)進(jìn)入題庫(kù)，改善題庫(kù)2的現(xiàn)狀。

第二步，拆分?jǐn)硨?duì)題。敵對(duì)題是指兩類題：一類是克隆題，如題干和選項(xiàng)文字不變，只是數(shù)字發(fā)生變化；第二類是暗示題，就是某道題中的內(nèi)容有助于考生回答其他試題。通常情況下，敵對(duì)題不允許出現(xiàn)在同一張?jiān)嚲砩?。因?yàn)椴还苁悄囊环N敵對(duì)題，考生如果幸運(yùn)，就會(huì)一下子做對(duì)兩三道題；反之，就會(huì)連著出錯(cuò)。這兩種情況都會(huì)影響考生成績(jī)的準(zhǔn)確性和有效性，降低考試的公平性。

一般來(lái)說(shuō)，考試發(fā)展一段時(shí)間后，題庫(kù)中就會(huì)存在敵對(duì)題，有的是一對(duì)，兩道題互相敵對(duì)；有的是一組，有幾道甚至十幾道互為敵對(duì)題。如果一組中的敵對(duì)題同時(shí)出現(xiàn)在題庫(kù)中，這些試題的曝光率就會(huì)高于那些沒有敵對(duì)題關(guān)系的試題。舉例來(lái)說(shuō)，5道題，沒有敵對(duì)題時(shí)，每道題被隨機(jī)抽中的概率是20%；如果其中兩道題是敵對(duì)題，實(shí)際抽選的時(shí)候就只有4道題可用，每道題被抽中的概率就是25%，兩道敵對(duì)題各有12.5%的抽中概率。顯然，敵對(duì)題的曝光率很低，非敵對(duì)題的曝光率升高，降低使用LOFT的好處。所以，拆分?jǐn)硨?duì)題是保證題庫(kù)中試題被均衡使用的重要步驟之一。

敵對(duì)題基本是按照題庫(kù)題數(shù)比例來(lái)拆分的，見表4。假如一組中兩道敵對(duì)題屬于內(nèi)容3，因?yàn)轭}庫(kù)1試題數(shù)量占總量的比例是50%，就可以把其中的一道放在題庫(kù)1里，另一道放在題庫(kù)2里。這樣這兩道敵對(duì)題就不會(huì)互相影響，也不會(huì)對(duì)這個(gè)內(nèi)容中其他試題的曝光率造成影響。

第三步，平衡題庫(kù)試題難度。這里的難度，是指題庫(kù)中所有試題IRT難度參數(shù)的平均值。考試主辦方不能把所有的難題，或者所有的簡(jiǎn)單題，或者所有難度適中的試題都放在一個(gè)題庫(kù)里，如果這樣做，使用第二個(gè)題庫(kù)時(shí)，就很難保證LOFT試卷質(zhì)量前后的一致性。表5顯示，通過這一步驟，題庫(kù)1和題庫(kù)2總體難度基本一致，而且每個(gè)考試內(nèi)容下的試題平均難度也非常相似。

表4 敵對(duì)題的拆分

表5 平衡題庫(kù)難度

2.3 計(jì)算組卷規(guī)則

LOFT設(shè)計(jì)下的另一個(gè)組成部分是組卷規(guī)則，主要目的是實(shí)現(xiàn)試卷在內(nèi)容和統(tǒng)計(jì)方面的等值。

首先是內(nèi)容方面的規(guī)則。如果考試大綱在每個(gè)內(nèi)容領(lǐng)域下又列舉了更具體的考查點(diǎn)，就需要考試主辦方進(jìn)一步設(shè)定各考查點(diǎn)的試題比例，以保證同一個(gè)考試中不同LOFT試卷在內(nèi)容方面上的一致性。舉例來(lái)說(shuō)明，如果這個(gè)虛擬考試案例第一部分的內(nèi)容是數(shù)學(xué)，下面有兩個(gè)考查點(diǎn)：解析幾何和矩陣計(jì)算。如果只規(guī)定數(shù)學(xué)考10道題，計(jì)算機(jī)有可能給考生甲抽8道幾何題、2道矩陣題，給考生乙8道矩陣題和2道幾何題。這種內(nèi)容方面的不均衡顯然會(huì)造成考試的不公平。當(dāng)然，也并不是每個(gè)考查點(diǎn)都一定需要有抽題的數(shù)量規(guī)則，它由幾個(gè)因素決定：（1）考試大綱要求的試題數(shù)量。如果一個(gè)考試內(nèi)容總共就考兩三道題，就沒有設(shè)定考查點(diǎn)的題目數(shù)量的必要性。（2）題庫(kù)中各考查點(diǎn)的試題數(shù)量占其考查內(nèi)容試題數(shù)量的比例。以虛擬考試的第2個(gè)內(nèi)容為例（見表6），根據(jù)考試大綱，這部分需要5道題。假設(shè)第2個(gè)考試內(nèi)容有5個(gè)考查點(diǎn)ABCDE，題庫(kù)中關(guān)于考查點(diǎn)A有6道題，BCDE各有一道題，共有10道題，A考查點(diǎn)的試題數(shù)量占第2個(gè)考查內(nèi)容試題總量的3/5（6/10）。如果題庫(kù)中第2個(gè)考試內(nèi)容沒有敵對(duì)題（表6中情境1），按照比例規(guī)則，應(yīng)該在關(guān)于2A考查點(diǎn)的試題里抽3道，在BCDE里共抽2道。在這種情況下，組卷規(guī)則中不需要指定除了2A以外的考查點(diǎn)的試題數(shù)量。（3）決定考查點(diǎn)組卷規(guī)則時(shí)還需要考慮敵對(duì)題的數(shù)量。如果2A考查點(diǎn)有兩組敵對(duì)題，每組兩道（表6中情境2），那么選題時(shí)，2A實(shí)際上只有4道題供選擇，這時(shí)抽題規(guī)則就不應(yīng)是上面所說(shuō)的“2A里抽3道”，而是在2A里抽2～3題，在BCDE里抽2～3題。這種考慮，在敵對(duì)題數(shù)量比較多時(shí)尤其重要。如果忽略這個(gè)因素，設(shè)定的規(guī)則就有可能無(wú)法運(yùn)行，或者影響試題曝光率的均衡性。

考查點(diǎn)的抽題規(guī)則可以是固定的題數(shù)，也可以是由最小值和最大值組成的題數(shù)范圍。設(shè)定范圍的好處是計(jì)算機(jī)組卷的靈活度比較大；而且，一旦考試主辦方因?yàn)閮?nèi)容方面的原因需要屏蔽一些試題，這些規(guī)則更容易保持其合理性，減少重新發(fā)布題庫(kù)的次數(shù)。

總之，只有把這些因素全部考慮進(jìn)去，才能保證LOFT內(nèi)容方面抽題規(guī)則的準(zhǔn)確性和可行性。而這些規(guī)則保證了LOFT試卷在內(nèi)容方面的均衡，使每個(gè)考生拿到的題目都能夠全面覆蓋考試大綱，確?？荚噧?nèi)容方面的有效性。

LOFT設(shè)計(jì)下的另一部分組卷規(guī)則是統(tǒng)計(jì)方面的。在IRT理論下，比較常見的試卷統(tǒng)計(jì)指標(biāo)有考試信息（Test Information）、考試特征（Test Characteristic）和單參數(shù)模型下的考試難度（試題難度參數(shù)的平均值）。在這個(gè)虛擬考試案例中使用的是考試信息，見表7。一條規(guī)則設(shè)在劃界分?jǐn)?shù)，theta=0。雖然在理論上來(lái)說(shuō)，如果是決定考生通過與否，只要保證劃界分?jǐn)?shù)附近的成績(jī)被準(zhǔn)確測(cè)量就已經(jīng)達(dá)到考試目的。在實(shí)際設(shè)計(jì)中，另有兩條規(guī)則分別設(shè)在theta分?jǐn)?shù)-1和+1，也就是劃界分?jǐn)?shù)加1、減1，來(lái)保證LOFT試卷的信息曲線在更大分?jǐn)?shù)范圍內(nèi)的一致性。在這里，劃界分?jǐn)?shù)那一點(diǎn)的信息量設(shè)得最大，從而使測(cè)量誤差盡可能減少，而兩邊的分?jǐn)?shù)-1和+1，要求的信息量相對(duì)要低。

考試信息目標(biāo)的設(shè)定要合理，不能一味地抬高數(shù)值區(qū)間。比如說(shuō)IRTRasch模型下的試題信息量最高值是0.25，50道題的試卷在某個(gè)theta點(diǎn)上可能達(dá)到的最多信息量是12.5（0.25×50）。如果將目標(biāo)定為12.5或略低一點(diǎn)，可能連一套符合統(tǒng)計(jì)規(guī)則的LOFT試卷也組不出來(lái)。較為可行的方法是參考在轉(zhuǎn)為L(zhǎng)OFT設(shè)計(jì)之前使用的固定試卷在不同theta分?jǐn)?shù)上的信息量，然后進(jìn)行適量調(diào)整。調(diào)整時(shí)可以根據(jù)題庫(kù)題目的具體情況，將劃界分?jǐn)?shù)這個(gè)點(diǎn)上的LOFT考試信息量設(shè)定的略高于固定試卷，這樣會(huì)減少考試誤差，從而提高考試在區(qū)分考生時(shí)的準(zhǔn)確度和穩(wěn)定度。設(shè)定比較高、比較嚴(yán)格的統(tǒng)計(jì)指標(biāo)，也是在LOFT中提升考試質(zhì)量的一個(gè)重要途徑。

表6 考查點(diǎn)的抽題規(guī)則

表7 虛擬考試案例的LOFT試卷統(tǒng)計(jì)規(guī)則

最后，對(duì)于這三個(gè)分?jǐn)?shù)點(diǎn)，沒有規(guī)定一個(gè)固定的信息值，而是限定了一個(gè)很窄的區(qū)間，因?yàn)槿绻O(shè)定的統(tǒng)計(jì)目標(biāo)為一個(gè)固定的信息值，計(jì)算機(jī)組卷靈活度較小，會(huì)延長(zhǎng)組卷時(shí)間；同時(shí)，有些題被選擇的頻率可能會(huì)高出其他試題，這也違背了使用LOFT設(shè)計(jì)的初衷。

3 LOFT的評(píng)估

在發(fā)送實(shí)時(shí)線性考試之前，考試主辦方需要對(duì)計(jì)算機(jī)根據(jù)題庫(kù)及組卷規(guī)則組出的幾百套甚至上千套LOFT試卷進(jìn)行方方面面的評(píng)估。

第一，試題曝光率，就是一道題目有多大比例被考生看到。例如1000套試卷，如果有1道題出現(xiàn)在200套試卷中，它的曝光率就是20%（200/1000）。題庫(kù)中試題曝光率是不同的，某些考試內(nèi)容試題數(shù)量多，每道題的曝光率就會(huì)比較小；反之，某些內(nèi)容試題數(shù)量很少，每道題的曝光率就會(huì)高。另外，如果一道題的敵對(duì)題很多，它的試題曝光率會(huì)明顯低于題庫(kù)中其他試題。如果試題曝光率的分布和預(yù)期的有很大差異，考試主辦方應(yīng)該查看具體試題及組卷規(guī)則，找出原因，做相應(yīng)調(diào)整。

第二，試卷重疊率，就是同一個(gè)考試的不同試卷，兩兩相比，試題相同的比例。與試題曝光率一樣，如果題庫(kù)或組卷規(guī)則有問題，試卷重疊率也會(huì)出現(xiàn)異常。同時(shí)，這個(gè)指標(biāo)可以幫助考試主辦方直接了解，在一個(gè)考場(chǎng)的兩個(gè)考生在考試結(jié)束后，如果互相討論試題，試題完全一樣的現(xiàn)象有多嚴(yán)重。當(dāng)然，因?yàn)槭菣C(jī)考，能把考試時(shí)間和地點(diǎn)都安排在一起的概率本身就要打折扣，再加上試題順序的變化，相識(shí)考生之間能對(duì)上的試題數(shù)量可能比計(jì)算出來(lái)的要低。

第三，試卷難度的差異，可以用每套試卷試題IRT難度參數(shù)的平均值作為指標(biāo)。雖然拿到不同試卷的考生最終成績(jī)會(huì)通過IRT等值全部拉齊，但試卷之間的難度差別越小，對(duì)考生的考試體驗(yàn)影響越小，考試公平就越容易得到保證。

第四，試卷的信息量，通過計(jì)算所有LOFT試卷在不同IRT分?jǐn)?shù)上信息量的最大值和最小值，可以畫出LOFT試卷考試信息曲線區(qū)間圖（見圖1）。圖1顯示的是，1000套LOFT試卷，不論考生收到哪一套，在每個(gè)IRT分?jǐn)?shù)點(diǎn)上的考試信息量都會(huì)在這個(gè)窄窄的區(qū)間范圍之內(nèi)。這樣的分析可以幫助我們直觀地了解不同LOFT試卷考試信息曲線之間的差異度，進(jìn)一步確定LOFT設(shè)計(jì)的合理性。

圖1 1000套LOFT試卷考試信息曲線區(qū)間

以上就是針對(duì)一個(gè)考試的虛擬案例，考試主辦方實(shí)施LOFT設(shè)計(jì)時(shí)需要操作的具體環(huán)節(jié)。顯而易見，比起固定試卷，它對(duì)題目數(shù)量以及考試驅(qū)動(dòng)程序的要求更高，設(shè)計(jì)起來(lái)更為復(fù)雜。同時(shí)，因?yàn)槭÷粤巳斯彶樵嚲淼牟襟E，命題人員對(duì)敵對(duì)題的判斷務(wù)必要準(zhǔn)確，設(shè)定組卷規(guī)則的工作也會(huì)變得比較繁瑣，評(píng)估LOFT試卷的工作相對(duì)費(fèi)時(shí)費(fèi)力，這些都是考試主辦方在決定使用LOFT設(shè)計(jì)之前需要考慮的問題。當(dāng)然，它特有的優(yōu)勢(shì)仍然可以使它成為最為適合的考試設(shè)計(jì)方案，滿足考試目的，保證考試公平。（感謝Pearson VUE 的Susan Steinkamp，Brad Wu和Xinrui Wang對(duì)本文內(nèi)容的討論和建議！）

[1]Kolen，M.J.，&Brennan，R.L..Test equating，scaling，and linking:Methods and practices（2nd ed.）[M].New York:Springer-Verlag，2004.

[2]張厚粲.心理測(cè)量學(xué)的新方向——計(jì)算機(jī)化適應(yīng)性測(cè)驗(yàn)[M]//自學(xué)考試研究論文集（第二集）.北京：經(jīng)濟(jì)科學(xué)出版社，1990.

[3]江西師大“題庫(kù)理論”組.考生智能水平的自適應(yīng)測(cè)驗(yàn)[J].江西師范大學(xué)學(xué)報(bào)，1987（2）.

[4]Stocking，M.L..Three practical issues for modern adaptive testing item pools[C]//ETSResearch Report No.94-5.Educational Testing Service，Princeton，NJ.1994.

[5]Kingsbury，G.G.，Bontempo，B.，&Zara R..A Comparison of CAT with LOFT Methods for Certification Examinations[C]//Paper presented at National Organization for Competency Assurance Annual Educational Conference.Phoenix，Arizona.2009.

[6]Stocking，M.L.，Smith，R.，&Swanson，L..An Investigation of Approaches to Computerizing the GRERSubject Tests[C]//ETS Research Report No.00-4.Educational Testing Service，Princeton，NJ.2000.

[7]Becker，K.A.，Bontempo，B.，Dickison，P.，&Masters，J.S..A comparison of CAT and LOFT for a growing item bank[C]//Paper presented at the annual meeting of the International Association for Computer Adaptive Testing.Arnhem，NL.2010.