郭宇
◆摘? 要:為適應我國普通高中學業(yè)水平考試部分科目一年多考、考試規(guī)模大、考點分布廣的特點,我們基于項目反應理論開發(fā)了高中學業(yè)水平自適應測評系統(tǒng),可用于實行一年多考科目的客觀題部分的日常測試與練習。
◆關(guān)鍵詞:高中學業(yè)水平;自適應測試;在線考試
新高考制度下,為適應我國普通高中學業(yè)水平考試部分科目一年多考、考試規(guī)模大、考點分布廣的特點,我們基于項目反應理論開發(fā)了高中學業(yè)水平自適應測評系統(tǒng),可用于實行一年多考科目的客觀題部分的日常測試與練習。以高中信息技術(shù)課程為例,以項目反應理論為基礎建立題庫,根據(jù)受測者作答情況自動選擇試題,對高中學生信息技術(shù)科目的學習情況做出評估。
本系統(tǒng)是依據(jù)計算機自適應測驗(簡稱CAT)的相關(guān)理論,借助當前使用范圍最廣的開源軟件R語言作為基礎開發(fā)平臺,核心算法采用catR開發(fā)而成。系統(tǒng)主要由測試端、管理端和系統(tǒng)幫助三部分構(gòu)成,下面將就系統(tǒng)架構(gòu)和系統(tǒng)功能對本系統(tǒng)進行介紹。
一、系統(tǒng)功能
本系統(tǒng)主要包含測試端、管理端和系統(tǒng)幫助三部分。測試端包括測試界面、環(huán)境加載程序、能力估計程序、選題策略程序、終止規(guī)則程序。管理端包括數(shù)據(jù)導入程序、數(shù)據(jù)校驗程序、環(huán)境生成程序、進度監(jiān)控程序、結(jié)果導出程序。系統(tǒng)幫助包括系統(tǒng)簡介、測試部署說明、題庫導入說明、環(huán)境設置說明、結(jié)果導出說明。
上述模塊中,測試端主要負責完成CAT測試任務,選題策略程序可根據(jù)每一個測試者的能力水平選取“合適”的試題,將測試者的真實水平展現(xiàn)出來。管理端主要針對測驗管理人員:測驗管理人員將經(jīng)過嚴密測試檢驗的題庫導入測試系統(tǒng),通過指定各種參數(shù),智能化搭建測試端環(huán)境;測驗管理人員還可以通過管理端進行后臺監(jiān)控,查看當前測試進度,做到全程掌控。系統(tǒng)幫助模塊主要為測驗管理者使用該系統(tǒng)提供入門向?qū)Х眨鞠到y(tǒng)還有相應的操作視頻可供用戶參考。
(一)測試端功能
測試端方面,本系統(tǒng)支持多種IRT模型、選題策略和終止規(guī)則,基本包含了當前常規(guī)基于IRT的CAT測試理論的所有功能。在模型選擇方面,本系統(tǒng)支持二級計分和多級計分兩種形式的模型,其中,二級計分模型包括單參數(shù)、雙參數(shù)和三參數(shù)模型,多級計分模型為等級計分模型;選題策略方面,本系統(tǒng)支持隨機選題和基于信息量兩大類,其中基于信息量的選題策略主要包括Fisher信息量、KL信息量、極大似然加權(quán)信息量等;終止規(guī)則支持定長規(guī)則(默認20題)、不定長規(guī)則(估計誤差默認0.3)以及定長和不定長相結(jié)合的規(guī)則。
(二)管理端功能
管理端方面,本系統(tǒng)支持數(shù)據(jù)導入、測評部署、測評監(jiān)控和結(jié)果導出四大功能。數(shù)據(jù)導入包括題庫數(shù)據(jù)導入程序、測試用戶導入、數(shù)據(jù)校驗、測試賬號生成。測評部署包括生成測試題庫環(huán)境、生成測試參數(shù)環(huán)境。測評監(jiān)控包括測評進度匯總、單人進度查詢、題目曝光匯總、單題曝光查詢。結(jié)果導出包括數(shù)據(jù)預覽、數(shù)據(jù)下載、報告預覽、報告下載。
二、測試流程
按照測試進程,CAT測試通常包含初始階段、測試階段、終止階段和結(jié)果報告等四個階段。
(一)初始階段
初始階段需要回答:測試先考哪一道題?如何給被試抽取題目?本系統(tǒng)采取大多數(shù)計算機自適應測驗的起點辦法,在難度適中的試題中隨機抽取一道試題。
(二)測試階段
被試作答第一道題后,系統(tǒng)會根據(jù)被試的作答反應(得分)對被試的當前能力進行估計;之后,系統(tǒng)會根據(jù)當前能力估計值選出下一題給被試作答,然后再次進行能力估計,估計完成后系統(tǒng)會判斷該被試是否滿足測驗終止條件,如果滿足則退出測試,反之則繼續(xù)作答。
(三)終止階段
測驗終止的標準主要有兩種:固定測驗長度和不固定測驗長度。固定測驗長度:考生作答試題數(shù)量達到規(guī)定的上限,便中止測驗;不固定測驗長度:以項目最大項目信息量作為選題標準時,測驗終止標準是測驗信息總量達到指定的標準便終止測驗;以貝葉斯估計法作為選題標準時,測驗終止標準是估計能力之變異數(shù)小到某個預定的標準時終止施測。
本系統(tǒng)采取綜合方法,即固定測驗長度為30題,同時設置最大信息量為15。
(四)結(jié)果報告
考生作答完成規(guī)定題量,提交試卷后,測試系統(tǒng)會在幾秒鐘之內(nèi)呈現(xiàn)該考生的此次考試成績和基本分析報告。
三、有待進一步研究的問題
(一)較難考察考生較高層次的認知目標
系統(tǒng)中的主觀題也稱自由應答型試題,題型包括排列題、改錯題、填充題、簡答題、應用題、論文題、操作題、發(fā)散題、聯(lián)想題等,主要考察考生的組織材料能力、文字表達能力、綜合評價能力、思維創(chuàng)新能力等,但評分容易受到評卷人的主觀因素影響。本系統(tǒng)針對高中學業(yè)水平考試信息技術(shù)科目客觀題部分進行了驗證,可較好實現(xiàn)在線自適應測評,對于主觀題部分,有待進一步研究解決。
(二)較難基于項目反應理論構(gòu)建題庫
題庫的建設屬于世界性的難題,需要大量的人力、財力和時間保障。在有限的經(jīng)費和時間約束下,我們只能針對信息技術(shù)科目,收集了幾百道模擬試題,對知識模塊、知識點、區(qū)分度、難度、猜測系數(shù)、失誤系數(shù)進行簡單估計。自適應考試能否用于大規(guī)模考試,主要是看能否基于項目反應理論構(gòu)建相應科目的試題庫,目前條件下我們難以解決題庫建設問題,有待進一步深入研究。
參考文獻
[1]路鵬.計算機自適應測試若干關(guān)鍵技術(shù)研究[D].長春:東北師范大學博士學位論文,2012:5.
[2]楊帆.Web環(huán)境下基于IRT的自適應考試系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學碩士學位論文,2007:5.
[3]姜火文.基于Web的自適應考試系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學碩士學位論文,2006:5.
重慶市教育科學十三五規(guī)劃2017年度課題:《基于CTT的高中學業(yè)水平在線測評系統(tǒng)研究》,編號:2017-00-98。