摘 要:計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)(computerized adaptive testing,CAT)是基于項(xiàng)目反應(yīng)理論理論和計(jì)算機(jī)技術(shù)的一種測(cè)驗(yàn)?zāi)J?。它根?jù)考生的作答情況自適應(yīng)地選擇測(cè)驗(yàn)項(xiàng)目。計(jì)算機(jī)自適應(yīng)考試可以避免傳統(tǒng)考試的弊端,較之計(jì)算機(jī)在線測(cè)試也有優(yōu)勢(shì)。本文對(duì)計(jì)算機(jī)自適應(yīng)測(cè)試的現(xiàn)狀進(jìn)行反思。
關(guān)鍵詞:自適應(yīng)測(cè)試;項(xiàng)目反應(yīng)理論;能力水平;試題參數(shù)
中圖分類號(hào):TP391.6
1 計(jì)算機(jī)自適應(yīng)測(cè)試概述
1.1 計(jì)算機(jī)自適應(yīng)測(cè)試的含義
計(jì)算機(jī)自適應(yīng)就是指根據(jù)被試的能力水平自動(dòng)選擇試題,并最終對(duì)被試能力做出評(píng)價(jià)。其中,考試項(xiàng)目的選擇是根據(jù)被試的能力水平選擇而成的,因而被試所做的每一個(gè)題目的難度都是與其能力相匹配的。
1.2 計(jì)算機(jī)自適應(yīng)測(cè)試的優(yōu)勢(shì)
傳統(tǒng)考試中,若被試地理位置分散、時(shí)間不統(tǒng)一將無(wú)法進(jìn)行測(cè)試,考試周期長(zhǎng),閱卷工作量大,考務(wù)工作繁重,有效的形成性評(píng)價(jià)較少,容易出現(xiàn)泄題漏題現(xiàn)象,試卷保存不便,考試過(guò)程中的作弊行為屢禁不止,反饋不及時(shí),試卷復(fù)印所帶來(lái)的紙張浪費(fèi)等問(wèn)題無(wú)法解決。
相比傳統(tǒng)考試,計(jì)算機(jī)自適應(yīng)測(cè)試有以下優(yōu)勢(shì):方便被試進(jìn)行自我測(cè)試,自我測(cè)試結(jié)果的呈現(xiàn)及時(shí),幫助學(xué)習(xí)者了解自己的學(xué)習(xí)情況,也可以確定目前的學(xué)習(xí)方法適合有效,是否合適自己的學(xué)習(xí)風(fēng)格,以便及時(shí)查缺補(bǔ)漏,在今后的學(xué)習(xí)中更能明確學(xué)習(xí)目標(biāo);每一項(xiàng)目的選擇都是根據(jù)被試的能力水平“量身定做”的,隨著測(cè)試的進(jìn)行,越來(lái)越接近被試真實(shí)能力水平,被試在答題目時(shí)犯更少的無(wú)關(guān)的錯(cuò)誤,可激發(fā)其學(xué)習(xí)動(dòng)機(jī);同時(shí),使得大范圍地區(qū)的評(píng)價(jià)更為迅速,節(jié)省時(shí)間耗費(fèi);在試卷題目的難度、類型和試題數(shù)量等方面的靈活性,也節(jié)省了被試的時(shí)間;此外,在自適應(yīng)考試中,系統(tǒng)隨機(jī)抽取題目,可靈活變化試卷的題目和難度等,甚至每個(gè)被試的試卷題目數(shù)量都不同,傳統(tǒng)考試中漏題泄題、作弊的現(xiàn)象迎刃而解,也節(jié)省了教師監(jiān)考的時(shí)間。
2 自適應(yīng)測(cè)試的基本原理和流程
計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)是在項(xiàng)目反應(yīng)理論基礎(chǔ)上發(fā)展起來(lái)的一種測(cè)驗(yàn)、它是一種在項(xiàng)目水平上進(jìn)行分析的測(cè)驗(yàn)。在測(cè)驗(yàn)開(kāi)始時(shí),計(jì)算機(jī)一般給出一個(gè)難度中等的題目,如果被試正確作答,計(jì)算機(jī)就會(huì)估計(jì)他的能力高于中等水平,然后再給他一個(gè)難度高一點(diǎn)的題目;反之亦然。然后,計(jì)算機(jī)根據(jù)被試第二題的回答情況。在第二次估計(jì)基礎(chǔ)上,計(jì)算機(jī)在題庫(kù)中選擇最接近他能力估計(jì)值的題目,接著根據(jù)被試反應(yīng),對(duì)其能力再進(jìn)行估計(jì)。這樣,隨著被試做的題目增多,計(jì)算機(jī)對(duì)他能力的估計(jì)精度越來(lái)越高,最后其估計(jì)值將向被試的真實(shí)水平靠攏。
計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)實(shí)施程序大體可分為兩個(gè)階段:第一階段是考生能力水平的探索階段,以求取該考生的能力初值。第二階段是對(duì)考生能力的不斷修正。
3 對(duì)計(jì)算機(jī)自適應(yīng)測(cè)試的現(xiàn)狀反思
3.1 完善計(jì)算機(jī)自適應(yīng)測(cè)試的考核方式
目前,國(guó)內(nèi)的計(jì)算機(jī)自適應(yīng)測(cè)試題型主要以客觀題為主,題型單一,注重知識(shí)維度的考察,對(duì)學(xué)習(xí)者其他維度的考察有限。計(jì)算機(jī)自適應(yīng)測(cè)試應(yīng)借鑒CAA領(lǐng)域內(nèi)關(guān)于心智技能和操作技能的研究成果,豐富自適應(yīng)測(cè)試的題型和考察維度。
3.2 試題庫(kù)模塊及整個(gè)系統(tǒng)的自適應(yīng)
一個(gè)典型的計(jì)算機(jī)自適應(yīng)測(cè)試系統(tǒng)有三大模塊構(gòu)成,即適應(yīng)性測(cè)試模塊、成績(jī)統(tǒng)計(jì)與分析模塊、試題庫(kù)更新模塊。系統(tǒng)基于項(xiàng)目反應(yīng)理論實(shí)現(xiàn)了測(cè)試模塊的自適應(yīng),但并沒(méi)有實(shí)現(xiàn)整個(gè)系統(tǒng)的適應(yīng)。在試題庫(kù)更新模塊中,系統(tǒng)還需要教師或?qū)<覍?duì)試題庫(kù)定期維護(hù),由教師或?qū)<彝瓿刹迦朐囶}、修改試題和刪除試題的操作。在試題庫(kù)模塊中,此系統(tǒng)與非自適應(yīng)的考試系統(tǒng)并無(wú)區(qū)別,此類系統(tǒng)只能稱為準(zhǔn)自適應(yīng)測(cè)試系統(tǒng)。如何實(shí)現(xiàn)試題庫(kù)以及整個(gè)系統(tǒng)的自適應(yīng),試題庫(kù)根據(jù)某一個(gè)或某一群體被試能力水平的變化而自適應(yīng)調(diào)整,真正實(shí)現(xiàn)整個(gè)系統(tǒng)的自適應(yīng),必然成為自適應(yīng)測(cè)試的研究重點(diǎn)。
3.3 試題參數(shù)的動(dòng)態(tài)過(guò)程
在自適應(yīng)系統(tǒng)中,試題主要屬性參數(shù)包括試題的難度參數(shù)、區(qū)分度參數(shù)和猜測(cè)參數(shù)。確定試題的各個(gè)參數(shù)值一般有兩種途徑:一種途徑是選取一定數(shù)量的被試,經(jīng)過(guò)測(cè)試后進(jìn)行統(tǒng)計(jì)分析;另一種途徑是由專家進(jìn)行評(píng)估后,再采用統(tǒng)計(jì)方法確定參數(shù)。無(wú)論是哪種確定試題參數(shù)值的途徑,都有缺陷存在。
3.3.1 對(duì)選取被試進(jìn)行預(yù)測(cè)來(lái)確定試題參數(shù)的方法來(lái)說(shuō),參加預(yù)測(cè)被試的抽樣方法、參與預(yù)測(cè)的被試人數(shù)、預(yù)測(cè)被試的能力水平變化等因素都影響試題參數(shù)的確定。
參加預(yù)測(cè)被試的抽樣方法將直接決定了確定的試題參數(shù)的準(zhǔn)確程度;若預(yù)測(cè)被試的能力水平較高,可能導(dǎo)致試題的難度參數(shù)偏高;若預(yù)測(cè)被試的能力水平趨于集中,可能導(dǎo)致試題的區(qū)分度參數(shù)偏低;因此,參與預(yù)測(cè)的被試抽樣應(yīng)盡量滿足以下幾個(gè)條件:預(yù)測(cè)被試的能力水平應(yīng)較為全面的代表了該年齡階段的所有學(xué)習(xí)者;參加預(yù)測(cè)被試的地理范圍應(yīng)盡可能的廣;參加被試的男女比例大體滿足1:1。
參與預(yù)測(cè)的被試人數(shù)也是至關(guān)重要的影響因素。如果人數(shù)較少,得出參數(shù)是否客觀、準(zhǔn)確,是否適用于更廣的地域范圍、更多被試參與的自適應(yīng)測(cè)試,這些問(wèn)題都有待探討。
參與預(yù)測(cè)被試的能力水平變化對(duì)試題參數(shù)的影響也不容忽視。學(xué)習(xí)者的學(xué)習(xí)必然是過(guò)程性的。隨著學(xué)習(xí)者在學(xué)習(xí)時(shí)間的推移和自身對(duì)學(xué)習(xí)內(nèi)容理解的加深,其能力水平必會(huì)提高。試題庫(kù)維護(hù)更新的頻率和程度,能否滿足被試能力水平的變化。其次,知識(shí)的更新速度越來(lái)越快,更新周期越來(lái)越短,學(xué)習(xí)者獲取知識(shí)的渠道愈發(fā)多樣化。試題庫(kù)的更新和試題參數(shù)的動(dòng)態(tài)變化應(yīng)與知識(shí)更新、學(xué)習(xí)者能力水平的提高相契合。
3.3.2 由專家進(jìn)行評(píng)估后,再采用統(tǒng)計(jì)方法確定參數(shù)的方法,由教師或?qū)<覍?duì)試題進(jìn)行分析、整合、分配權(quán)重、最后確定試題參數(shù)。教師和專家都是專業(yè)領(lǐng)域內(nèi)的拔尖人才,很容易出現(xiàn)對(duì)試題的難度參數(shù)估計(jì)偏低的情況。
3.4 滿足不同基準(zhǔn)的評(píng)價(jià)需要
在實(shí)際的系統(tǒng)使用過(guò)程中,被試只能在主觀層面上對(duì)其所進(jìn)行的測(cè)試進(jìn)行意識(shí)上的分類,在系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)過(guò)程中,可在登陸頁(yè)面設(shè)計(jì)不同基準(zhǔn)的測(cè)試類型的測(cè)試模塊,被試根據(jù)測(cè)試的目的不同選擇不同的模塊進(jìn)入答題系統(tǒng),如自我測(cè)驗(yàn)、階段性測(cè)試和總結(jié)性測(cè)試。在不同類型的模塊中,試題參數(shù)的設(shè)置也應(yīng)不同。在自我測(cè)驗(yàn)和階段性測(cè)驗(yàn)中,由于其評(píng)價(jià)具有激發(fā)學(xué)習(xí)者學(xué)習(xí)興趣和動(dòng)機(jī)的作用和階段性學(xué)習(xí)的學(xué)習(xí)內(nèi)容的非不完整的特點(diǎn),其試題參數(shù)的難度值應(yīng)有一定的程度的降低。
3.5 對(duì)自適應(yīng)測(cè)試系統(tǒng)的評(píng)價(jià)
國(guó)內(nèi)大多數(shù)的自適應(yīng)考試系統(tǒng),并沒(méi)有提到對(duì)系統(tǒng)本身的評(píng)價(jià)。也就是說(shuō),缺乏對(duì)系統(tǒng)本身的價(jià)值判斷,測(cè)量出的數(shù)據(jù)并沒(méi)有可信度。對(duì)系統(tǒng)本身的評(píng)價(jià)是整個(gè)自適應(yīng)測(cè)試系統(tǒng)使用和發(fā)展的根基。
參考文獻(xiàn):
[1]蔡旻君.計(jì)算機(jī)輔助教育測(cè)量與評(píng)價(jià)[M].北京:中國(guó)水利水電出版社,2010.
[2]黃榮懷,劉黃玲子,李向榮.計(jì)算機(jī)輔助評(píng)價(jià)的發(fā)展趨勢(shì)[J].電化教育研究,2002.
[3]張忠華,謝小慶,鄭日昌.計(jì)算機(jī)自適應(yīng)性測(cè)驗(yàn)(CAT)選題策略的新進(jìn)展.心理發(fā)展與教育,2002:91-96.
[4]陳仕品,張劍平.《現(xiàn)代教育技術(shù)》精品課程自適應(yīng)測(cè)試系統(tǒng)的設(shè)計(jì)[J].中國(guó)電化教育,2008.
[5]Wim J.van der Linden,Cees A.W.Glas.Computerized Adaptive Testing:Theory and Practice[M].Boston:KluwerAcademicPublishers,2000.
作者簡(jiǎn)介:袁曉蕾(1989-),女,黑龍江人,碩士研究生,研究方向:計(jì)算機(jī)輔助教育評(píng)價(jià);李曉東(1963-),男,黑龍江人,教授,教育技術(shù)系主任,研究方向:教育信息處理和計(jì)算機(jī)輔助教育。
作者單位:哈爾濱師范大學(xué)教育科學(xué)學(xué)院,哈爾濱 150025
基金項(xiàng)目:本文系項(xiàng)目“國(guó)家大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃”的成果(項(xiàng)目編號(hào):201310231035)。