摘 要:隨著計(jì)算機(jī)技術(shù)的發(fā)展,帶來的便利為現(xiàn)代社會(huì)所應(yīng)用,形成了良好的效果。計(jì)算機(jī)自適應(yīng)測驗(yàn)在現(xiàn)代社會(huì)的應(yīng)用過程中卻因?yàn)闇y驗(yàn)效果的問題受到了一些質(zhì)疑,本身存在著一些問題。本文主要對計(jì)算機(jī)自適應(yīng)測驗(yàn)技術(shù)的理論基礎(chǔ)進(jìn)行描述,通過現(xiàn)代計(jì)算機(jī)理論結(jié)合實(shí)踐的形式對測驗(yàn)技術(shù)的完善提供一定的建議,并對實(shí)踐的經(jīng)驗(yàn)進(jìn)行總結(jié)。
關(guān)鍵詞:計(jì)算機(jī);自適應(yīng);測驗(yàn)技術(shù);項(xiàng)目
中圖分類號:TP391.6
現(xiàn)代教育中,考試是一項(xiàng)繁重而又常見的工作,傳統(tǒng)上,學(xué)生通過書面考試可以反映出學(xué)習(xí)效果。隨著現(xiàn)代信息技術(shù)的進(jìn)步,教學(xué)過程中出現(xiàn)了基于計(jì)算機(jī)的考試與計(jì)算機(jī)自適應(yīng)測驗(yàn)的考試形式。隨著設(shè)施的完善與技術(shù)的進(jìn)步,越來越多的教學(xué)科目通過計(jì)算機(jī)來完成,如各類學(xué)歷考試、證書考試等。雖然與傳統(tǒng)的書面考試相比,有了明顯的進(jìn)步,但傳統(tǒng)的計(jì)算機(jī)考試中還是存在著一些不足。作為一種簡單的顯示、儲存試題與答案的設(shè)備,難以真正發(fā)揮信息管理的作用,另外每種試卷都會(huì)有相同的項(xiàng)目,只不過順序有所不同,對于不同的考生,真正測驗(yàn)效果會(huì)有所不同。這些測試程序都無法真正測試出學(xué)生的真實(shí)水平。
計(jì)算機(jī)自適應(yīng)測驗(yàn)是二十世紀(jì)八十年代開始發(fā)展起來的一種快速高效測試學(xué)生水平的考試形式。針對不同能力的學(xué)生,計(jì)算機(jī)考試系統(tǒng)可以根據(jù)能力自動(dòng)在題庫中調(diào)出與學(xué)生水平相適應(yīng)的題目來進(jìn)行測試,這種主動(dòng)適應(yīng)被試者水平的因人施測法能夠在短時(shí)間內(nèi)測出應(yīng)試者的能力水平,更為準(zhǔn)確,也更利于報(bào)告與分析。國外對于計(jì)算機(jī)自適應(yīng)測驗(yàn)的研究相對早一些,是從比奈的智力測驗(yàn)基礎(chǔ)發(fā)展而來。針對應(yīng)試者的能力不斷對試題進(jìn)行難度調(diào)整,隨著計(jì)算機(jī)運(yùn)算速度的加快,隨之建立了計(jì)算機(jī)自適應(yīng)測驗(yàn),目前在美國已經(jīng)取得了不錯(cuò)的發(fā)展[1]。
1 計(jì)算機(jī)自適應(yīng)測驗(yàn)理論基礎(chǔ)
計(jì)算機(jī)自適應(yīng)測驗(yàn)理論已經(jīng)不再以經(jīng)典的測驗(yàn)理論作為支撐,而是以現(xiàn)代的測量理論作為指導(dǎo),就是項(xiàng)目反應(yīng)理論(IRT),項(xiàng)目反應(yīng)理論相對優(yōu)勢明顯,能夠?yàn)橛?jì)算機(jī)自適應(yīng)測驗(yàn)未來發(fā)展提供更加廣闊的空間。
1.1 項(xiàng)目反應(yīng)理論模型
項(xiàng)目反應(yīng)理論認(rèn)為在被試的項(xiàng)目與潛在物質(zhì)間的數(shù)學(xué)形式反應(yīng)為一定的模型,這種概率模型可以用項(xiàng)目特性曲線的單增函數(shù)描述,反應(yīng)項(xiàng)目正確概率與被試的能力與各個(gè)項(xiàng)目間的關(guān)聯(lián)。數(shù)學(xué)研究者已經(jīng)提出了多種項(xiàng)目反應(yīng)理論模型,如邏輯斯締模型、正態(tài)卵形模型等。按照項(xiàng)目參數(shù)個(gè)數(shù)可以對邏輯斯締模型分為三種主要類型。分別是單參數(shù)邏輯斯締模型、雙參數(shù)邏輯斯締模型以及三參數(shù)邏輯斯締模型。
1.2 項(xiàng)目反應(yīng)理論特點(diǎn)
經(jīng)典測驗(yàn)理論存在著一定的局限性。由于它發(fā)展以來主要為心理與教育測量工作提供基礎(chǔ),在技術(shù)上還存在著許多問題。在其中,項(xiàng)目參數(shù)主要依賴于樣本,項(xiàng)目的難度主要是補(bǔ)試占所有被試的比例,不同組的項(xiàng)目難度肯定會(huì)有所不同。在被試測驗(yàn)分?jǐn)?shù)方面,也存在著一定的局限性,過多依賴于所施測的項(xiàng)目難度,分?jǐn)?shù)與回答的項(xiàng)目數(shù)有關(guān),項(xiàng)目難度大,得分就會(huì)低。另外由于測驗(yàn)信度方面的局限性原因,由此帶來的測驗(yàn)效果也就越差[2]。
項(xiàng)目反應(yīng)理論主要是基于潛在物質(zhì)理論,主要基理是假設(shè)被試面對測驗(yàn)時(shí)的反應(yīng)受到心理影響,反映成相對穩(wěn)定能夠?qū)y驗(yàn)作為支配動(dòng)作的反應(yīng),并造成同樣反應(yīng)的內(nèi)存特征。
2 計(jì)算機(jī)自適應(yīng)測驗(yàn)關(guān)鍵環(huán)節(jié)
每一個(gè)計(jì)算機(jī)自適應(yīng)測驗(yàn)都是通過一系列的環(huán)節(jié)組合而成,各個(gè)環(huán)節(jié)間關(guān)系密切,為了讓自適應(yīng)測驗(yàn)效果更好,首先需要對數(shù)據(jù)與模型進(jìn)行擬合檢驗(yàn),通過對正確的項(xiàng)目反應(yīng)模型進(jìn)行選擇,才能獲得準(zhǔn)確的被試測量數(shù)據(jù),另外是建立高質(zhì)量的題庫,進(jìn)行計(jì)算機(jī)自適應(yīng)測驗(yàn)的最重要核心部分,項(xiàng)目的選擇、能力估計(jì)與終止條件的確定,最后形成測驗(yàn)質(zhì)量評估報(bào)告[3]。
2.1 數(shù)據(jù)與模型擬合檢驗(yàn)
在項(xiàng)目反應(yīng)理論中,存在著多種模型,這些模型本身也有其優(yōu)點(diǎn)與缺點(diǎn)。拉稀模型的能力和難度參數(shù)都可以進(jìn)行統(tǒng)計(jì)分析,而未使用猜測度與區(qū)分度,多參數(shù)邏輯斯締模型使用的范圍要廣的多,但參數(shù)卻不存在充分的統(tǒng)計(jì)量。在邏輯斯締模型中,如果參數(shù)選擇太多,估計(jì)過程會(huì)更加復(fù)雜,估計(jì)出的結(jié)果也會(huì)存在著較大的偏差。在做數(shù)據(jù)與模型的擬合檢驗(yàn)時(shí),首先要作單維性假設(shè)的檢驗(yàn)。項(xiàng)目反應(yīng)理論本身就是建立在單維性假設(shè)基礎(chǔ)上的,主要是假定這些項(xiàng)目是為了測試某一種主要能力使用的,只有與單維性符合的項(xiàng)目,才能為被試的能力作出正確的估計(jì)。其次是準(zhǔn)備模型參數(shù)不變性的檢驗(yàn)。當(dāng)驗(yàn)證能力不變性時(shí),能夠?qū)Σ煌臏y驗(yàn)試題進(jìn)行檢測,這個(gè)時(shí)候最后的結(jié)果除去系統(tǒng)本身的誤差值,將會(huì)與實(shí)際水平?jīng)]有明顯差異。最后進(jìn)行模型預(yù)測能力的檢驗(yàn)。采用計(jì)算機(jī)模擬法與標(biāo)準(zhǔn)殘差進(jìn)行結(jié)合對比,對模型的能力進(jìn)行檢驗(yàn)。首先設(shè)定模型可以使用,利用這個(gè)模型測試出來的參數(shù),設(shè)定使用三參數(shù)邏輯斯締模型,計(jì)算出真實(shí)數(shù)據(jù)的殘差,之后對每一種能力的被試者的反饋情況進(jìn)行預(yù)測。最終檢驗(yàn)預(yù)測與實(shí)際是否相符,如果采用直方圖的形式進(jìn)行對比,效果將會(huì)更加明顯[4]。
2.2 題庫建立
題庫是現(xiàn)代計(jì)算機(jī)自適應(yīng)測驗(yàn)的基礎(chǔ)。在題庫的建立過程中,需要估計(jì)題目的參數(shù)與等值測驗(yàn)。IRT參數(shù)的估計(jì)主要是根據(jù)被試者的反應(yīng)矩陣,來判斷出被試者的能力參數(shù)與不同題目的參數(shù)。參數(shù)估計(jì)過程中多采用極大似然估計(jì),如果不能正確反映出能力與題目的特征,則可以使用貝葉斯參數(shù)估計(jì)法來進(jìn)行估計(jì)。這兩種主要的估計(jì)方法形成了統(tǒng)計(jì)學(xué)的兩大派別。貝葉斯學(xué)派中,主要認(rèn)為概率支持的信息總體與樣本信息要進(jìn)行使用外,還需要對信息進(jìn)行驗(yàn)證,稱為先驗(yàn)概率。
題目的建立過程中,以上參數(shù)的確定工作非常重要,否則題庫無法真正起到自適應(yīng)檢測的效果。在題目的參數(shù)確定后,就可以進(jìn)行題庫建立了。可以采用以下方法,把能力已知的被試者去做題目,對不同的參數(shù)進(jìn)行估計(jì),編入題目庫。對題目的參數(shù)確定后,可以進(jìn)行題目的質(zhì)量分析,對題目進(jìn)行篩選后入庫處理。這時(shí)對題目的區(qū)分度越高越好,如果題庫總體上區(qū)分度不高的話,也就無需此步驟了。對于不能夠正常收斂的題目,需要放棄,畢竟所占數(shù)量不多,質(zhì)量會(huì)差一些[5]。
2.3 施測估計(jì)被試者的能力參數(shù)
當(dāng)具備了高質(zhì)量的題庫時(shí),就可以進(jìn)行施測了,從而可以對被試者的能力進(jìn)行判定,是計(jì)算機(jī)自適應(yīng)測驗(yàn)的主要環(huán)節(jié),可以分為探查階段與精確估計(jì)階段。
在試探階段主要是為了對被試者的能力進(jìn)行初步了解,首先我們不知道被試者的真正水平,可以對任何難度的題目進(jìn)行作業(yè),但某項(xiàng)研究表明,如果第一道題恰恰與本身的能力相近時(shí),則可以使用最短的時(shí)間達(dá)到穩(wěn)定的能力值,所以需要提前進(jìn)行少量題目試答,從而對被試者的能力進(jìn)行初步了解。在精確估值階段,是為了真正體現(xiàn)出被試者的能力,是最為核心的部分,符合因人而測的原則。在自適應(yīng)測驗(yàn)中,為了適應(yīng)被試者的能力水平,需要提供最大信息量的題目,按照最大化原則進(jìn)行選擇題目,針對不同的能力的測試者,題目所提供的信息量會(huì)有所不同,最大的信息量值時(shí),能力值就與被測者的能力值相符。另外在終止規(guī)則方面,需要注意幾種方法。一種是固定的測驗(yàn)長度,另外是固定能力估計(jì)的標(biāo)準(zhǔn)差,最后是對連續(xù)兩次測驗(yàn)的能力值,結(jié)果小于特定值時(shí)就終止測驗(yàn)[6]。
3 計(jì)算機(jī)自適應(yīng)測驗(yàn)系統(tǒng)實(shí)現(xiàn)
3.1 計(jì)算機(jī)自適應(yīng)測驗(yàn)系統(tǒng)流程圖
通過相關(guān)的理論,結(jié)合某公共課作為數(shù)據(jù)來源,對自適應(yīng)測驗(yàn)系統(tǒng)進(jìn)行實(shí)施,系統(tǒng)功能主要為了實(shí)現(xiàn)考試的公平性,讓現(xiàn)代教師不再從事繁忙的考試工作,提高效率。計(jì)算機(jī)自適應(yīng)測驗(yàn)流程如下圖所示。
圖1 計(jì)算機(jī)自適應(yīng)測驗(yàn)系統(tǒng)流程圖
3.2 系統(tǒng)模塊的實(shí)現(xiàn)
3.2.1 題庫管理模塊
題庫對于計(jì)算機(jī)考試來講是十分重要的,對于自適應(yīng)測驗(yàn)中,也是相當(dāng)重要的一個(gè)環(huán)節(jié)。首先要對IRT選擇與題目參數(shù)的確定。從2009年在山東某大學(xué)獲得的某公共課的能力了解中,獲得了總共1300份答卷,可以為計(jì)算機(jī)自適應(yīng)測驗(yàn)提供數(shù)據(jù)支持。經(jīng)過對這些數(shù)據(jù)的分析,發(fā)現(xiàn)它們與三參數(shù)邏輯斯締模型擬合相對好一些,而且二十個(gè)題目參數(shù)都在允許范圍內(nèi),所以需要把二十個(gè)題目組織入庫,建立了小型題庫[7]。
3.2.2 考試管理模塊
計(jì)算機(jī)自適應(yīng)測驗(yàn)的呈現(xiàn)同樣也非常重要,如何去呈現(xiàn)、選題、終止都需要進(jìn)行考試管理模塊的開發(fā)與管理,利用微軟的.NET平臺,調(diào)用Oracle數(shù)據(jù)庫來對后臺操作進(jìn)行支持。首先要對用戶的登陸界面與注冊界面進(jìn)行設(shè)計(jì),主要是為了讓所有的被測者都能夠在下次登陸后看到自己曾經(jīng)做過哪些題目,從而對錯(cuò)題進(jìn)行關(guān)注。在探測階段,為被試者準(zhǔn)備了三個(gè)題目,從而可以初步獲得被試者的初始能力值,確保在精確測量階段可以獲得能力值與較短的測驗(yàn)長度。在對系統(tǒng)進(jìn)行考試終止時(shí),需要控制其結(jié)束,在進(jìn)行某公共課的計(jì)算機(jī)自適應(yīng)測驗(yàn)中,由于題庫數(shù)量有限,存在著一定的局限性,所以需要采取固定能力估計(jì)的標(biāo)準(zhǔn)差與固定測驗(yàn)長度結(jié)合法來對測驗(yàn)結(jié)束進(jìn)行控制。
4 結(jié)束語
本文對項(xiàng)目反應(yīng)理論的原理與方法進(jìn)行了描述,對計(jì)算機(jī)自適應(yīng)測驗(yàn)的重要環(huán)節(jié)進(jìn)行分析,并結(jié)合某公共課實(shí)例對系統(tǒng)的實(shí)用性進(jìn)行操作。在技術(shù)探究中探討了數(shù)據(jù)與模型的擬合檢驗(yàn),采用貝葉斯最大后驗(yàn)估計(jì)的方法對被試者的能力進(jìn)行估計(jì),并結(jié)合開發(fā)的系統(tǒng)對理論進(jìn)行實(shí)踐。在計(jì)算機(jī)自適應(yīng)測驗(yàn)技術(shù)應(yīng)用中,還需要通過不斷的分析與經(jīng)驗(yàn)總結(jié),對不完善之處進(jìn)行修訂,通過不斷嘗試與創(chuàng)新,設(shè)計(jì)出最貼近實(shí)際的測驗(yàn)方法,為現(xiàn)代教育的進(jìn)步提供更多的思路。
參考文獻(xiàn):
[1]姚敏華.基于項(xiàng)目反應(yīng)理論的計(jì)算機(jī)化自適應(yīng)測試a分層法的優(yōu)化[D].上海交通大學(xué),2011.
[2]劉偉.計(jì)算機(jī)自適應(yīng)測驗(yàn)技術(shù)的探索與實(shí)現(xiàn)[D].山東師范大學(xué),2011.
[3]李銘勇,張敏強(qiáng),簡小珠.計(jì)算機(jī)自適應(yīng)測驗(yàn)中測驗(yàn)安全控制方法評述[J].心理科學(xué)進(jìn)展,2010(08):1339-1348.
[4]路鵬.計(jì)算機(jī)自適應(yīng)測試若干關(guān)鍵技術(shù)研究[D].東北師范大學(xué),2012.
[5]簡小珠,張敏強(qiáng),彭春妹.計(jì)算機(jī)自適應(yīng)測驗(yàn)的測試流程與測試技術(shù)[J].教育測量與評價(jià)(理論版),2011(12):9-14.
[6]喻曉鋒,秦春影,唐淑萍.自適應(yīng)形式的計(jì)算機(jī)等級考試的應(yīng)用研究[J].齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(01):1-5.
[7]李華群.基于IRT計(jì)算機(jī)自適應(yīng)測試的研究[D].南昌大學(xué),2010.
作者簡介:劉昆揚(yáng)(1983-),男,山東人,天津港信息技術(shù)發(fā)展有限公司,技術(shù)服務(wù)主管,工程師,碩士,
作者單位:天津港信息技術(shù)發(fā)展有限公司,天津 300456