單美靜,劉琴
摘 要:傳統的網絡考試組卷算法由于僅僅考慮考試范圍,以及試卷整體難度系數,而從不考慮應試者的能力水平,從而造成生成的部分試卷無法有效地達到測試應試者能力水平的效果。項目反應理論作為一種現代心理測試理論,在評估應試者能力水平方面具有廣泛的應用。本文基于項目反應理論設計了一種能充分考慮應試者能力水平的組卷算法,從而使得組成的試卷能夠達到命題老師的預期效果。實際應用結果也表明,該算法是非常有效的。
關鍵詞:項目反應理論;組卷算法;試題庫建設
中圖分類號:TP391 文獻標識碼:A
Research on the Test Paper Generating Algorithm Based on the Item Response Theory
SHAN Meijing,LIU Qin
(Institute of Information Science and Technology,East China University of Political Science and Law,Shanghai 201620,China)
Abstract:With the traditional network test paper generating algorithm,the scope and the overall difficulty coefficient of the test paper are the major considerations,but the ability of the examinee is neglected.Consequently,some generated test papers fail in assessing the examinee's ability.The item response theory,as a modern psychological testing theory,has been widely applied in assessing the ability of examinees.Based on the item response theory,the paper designs a test paper generating algorithm with a full consideration to the ability of examinees,so that teachers can achieve the expected effect with the generated papers.The practical application results show that the algorithm is very effective.
Keywords:item response theory;test paper generating algorithm;item bank construction
1 引言(Introduction)
試題庫建設作為高校課程建設的一個必選項,具有非常重要的意義。首先,它是實現教改分離的重要前提,能夠客觀、公正地評價教師教學效果;其次,教師可以快捷地對試題進行管理和維護更新,更全面地考察學生學習的效果;最后,試題庫建設還能夠減輕教師的負擔。然而,在很多高校,普遍存在著試題庫“重建設輕維護”“重建設輕使用”的問題。究其原因,主要有以下幾點:(1)很多高校老師認為試題庫的組卷策略很難覆蓋到教學所需要考核的知識點,在進行自動組卷后還需要進行大量的人工干預;(2)試題庫一旦建設好,其題目的難度基本保持不變,但是在授課過程中可能會出現面對不同專業(yè)的學生的學習狀態(tài)的情況,從而造成使用同一試題庫可能出現較高不及格率的風險。這些問題的根本原因在于試題庫在建設過程中,組卷時未考慮到應試者的能力水平,沒有進行有效的私人定制。
項目反應理論(Item Response Theory:IRT)[1]作為一種現代心理測試理論,能夠指導我們測試出應試者的“潛在特質”,即能力,從而能夠指導我們進行測試試卷編制。項目反應理論包含有兩個特性,一個是項目參數估計不變性,另一個是能力參數估計不變性。這兩個特性保證了利用項目反應理論進行測試的結果,不受所選的測試樣本影響,同時還能保證應試者的能力估計與被測試的項目無關[2,3]。另外項目反應理論還能幫助命題者在試題庫建設過程中,幫助命題者選擇與應試者能力相匹配的題目組成試卷[4-6]。
2 項目反應理論簡介(Introduction of item response
theory)
項目反應理論,有時也稱作潛在特質理論或潛在特質模型,在現代心理測試領域運用非常廣泛,同時也廣泛應用于教育測試領域。項目反應理論的基本思想[7]是應試者的某種潛在特質與他們對項目的反應(正確作答的概率)之間存在著一定的關系,并且這種關系可以通過數學模型表示出來,從而可以通過構建數學模型表示應試者能力、項目參數以及正確作答的概率之間的關系。項目反應理論在計算機自適應測試中具有廣泛的應用。項目反應理論是建立在“能力單維性假設”“局部獨立性假設”和“項目特征曲線假設”三個基本假設基礎上。項目反應理論可以根據應試者回答問題的情況,通過對測試項目特征曲線的運算來推測應試者的能力水平。項目反應理論中所建立的測試項目一般包含三個參數:區(qū)分度(Discriminative index)—a、難度(Difficulty index)—b和猜測系數(Guessing index)—c。根據構建的數學模型所包含的參數不同,特征函數可分為僅包含難度參數的單參數模型、包含難度、區(qū)分度的雙參數模型,以及包含難度、區(qū)分度和猜測系數的三參數模型。endprint
Logistic模型作為項目反應理論中最常用的模型,是伯恩鮑姆于1957年提出的一種二級評分IRT模型,它能夠很好地匹配被測試者的測試結果。與特征函數的分類類似,它也包含單參數、雙參數和三參數三種模型,其表達式分別為:
(1)
(2)
(3)
其中,為能力為的被測試者正確作答測試項目的概率;
D=1.702;
為應試者能力估計值;
為測試項目的區(qū)分度,其值越大,則表明被選測試項目對被測試者的區(qū)分度越強;
表示測試項目的難度(難易程度);
為測試項目的猜測系數,其值越大,說明不論應試者能力高低,都容易猜對。
由于單參數、雙參數Logistic模型都是三參數Logistic模型的特例,所以我們下面以三參數Logistic模型的項目特征曲線(如圖1)為例,介紹計算機組卷過程中的項目特征曲線。
curve with different parameters
從圖1的曲線可以看出,當應試者的能力值時,應試者正確作答的概率為。若不考慮猜測系數,則正確作答和錯誤作答的概率皆為1/2。即對于能力值為的應試者來說,所測試項目的難度適中。當應試者的能力值時,將大于0.5,并且的值隨著應試者的能力值的增大而趨近于1,即正確作答的概率越大;反之,應試者的能力值越小,越接近于0,即正確作答的概率越小。項目特征曲線的陡峭程度會隨著的值而變化,的值越大則曲線越陡峭,隨應試者能力值的變化就越敏感,即該項目更能區(qū)分應試者的能力水平;當增大時,項目特征曲線右移,則說明對于同一能力值的應試者,難度越高的項目越難正確作答。
教育測量學研究表明,隨機選擇的大規(guī)模應試者群體的基本心理素質的分布服從正態(tài)分布,所以理論上講應試者的能力取值范圍為(-∞,+∞),但在實際應用中,為了計算方便,一般取值為(-3,3)。
3 組卷算法分析(Analysis on the test paper
generating algorithm)
有了三參數Logistic模型的理論基礎,一方面我們就可以利用階段性考試測試出所有應試者的能力水平,另一方面可以結合試題庫項目的難度、知識點分布、應試者能力水平進行組卷,從而使得考試結果滿足預期的正態(tài)分布以及預期目標。綜上可知,基于項目反應理論的組卷算法主要包括兩個部分:第一部分為應試者能力水平的測試,第二部分為基于應試者能力水平、知識點分布、預期結果的組卷算法。
算法3.1 應試者能力水平評估算法
輸入:某試題庫及應試者初始能力水平。
輸出:某應試者的能力水平。
Step1:根據某種策略選擇一個項目開始測試;
Step2:由應試者的作答情況評估應試者的能力水平;
Step3:根據新的能力水平選擇一個合適的測試項目供應試者作答;
Step4:根據作答情況重新估計能力水平。如果能力水平趨于穩(wěn)定(新的能力水平—舊能力水平<0.05),則結束;否則跳轉到Step3。
算法3.2 基于項目反應理論的組卷算法
輸入:試卷知識點分布、預期成績分布。
輸出:試卷測試項目。
Step1:將所有應試者按照能力水平由低到高排序;
Step2:根據考試成績將滿足正態(tài)分布的特點,按照Logistic模型選擇預計80%應試者正確作答概率在0.8以上的測試項目;
Step3:根據Logistic模型選擇對于10%較高能力應試者作答概率在0.8以上的測試項目。
為了實現上述的應試者能力水平測試以及組卷過程,有如下幾個問題需要解決好。(1)測試項目參數的確定;(2)初始測試項目的選擇;(3)測試過程中應試者能力水平的重新評估。
3.1 測試項目參數的確定
確定測試項目的三個參數是應用項目反應理論進行組卷的前提。在實現過程中,我們采用的是應用EM算法的邊緣極大似然估計法進行參數估計,以保證得出的測試項目參數具有參數不變性的特點。
3.2 初始測試項目的選擇
初始測試項目的選擇一般有如下幾種方法:
(1)假定應試者具有中等水平的能力值,從而選擇難度中等的測試項目。
(2)若系統中保存有應試者的能力水平,則根據此能力水平選擇合適的測試項目。
(3)由應試者自己填寫初始能力值,系統再根據此值選取合適的測試項目。
3.3 應試者能力水平的重新評估
在測試過程中,需要根據應試者作答情況對其能力水平進行評估。本文采取極大似然估計方法估計應試者能力水平。其基本過程如下:
假定某應試者對n個給定的客觀題的作答模式為:
其中取值1或0。若應試者正確作答了第道客觀題,則取1,否則取0。以表示能力值為的應試者正確作答第道客觀題的概率,即Logistic模型中的,由局部獨立性假設可計算其聯合概率為:
(4)
上式也稱為似然函數,使(4)式達到最大值的即為的極大似然估計值。為了計算,我們對式(4)兩邊取自然對數,得到對數型的似然函數:
(5)
為了計算(5)式達到最大值時的,只要求解方程
(6)
從式(6)可以看出其是非線性的,不能直接求解。此時,我們采用Newton-Raphson法進行求解。
4 結論(Conclusion)
項目反應理論在計算機自適應測試中得到了廣泛應用,但是在組卷算法方面的研究還不多。本文結合項目反應理論在評估應試者能力水平方面的優(yōu)勢,結合考試范圍以及考試成績預期期望,設計了一種基于項目反應理論的自動組卷算法,該算法的采用能夠有效地達到因材施教的目的,通過在《線性代數》《數據結構》等試題庫組卷中的應用,較好地達到了預期目的。但此項工作的缺陷是測試項目只能是客觀題,如何在主觀題考核方面加以應用還有待進一步的研究。
參考文獻(References)
[1] Baker F.B.The basics of item response theory.Port smouth[M].NH: Heinemann,1985:1-74.
[2] Choi,Y.J.,Alexeev,N.,Cohen,A.S.Different item functioning analysis using a mixture 3-parameter logistic model with a covariate on the TIMSS 2007 mathematics test[J].International Journal of Testing,2015,15(3):239-253.
[3] Frick,H,Strobl,C.,Zeileis,A.Rash mixture models for DIF detection: A comparison of old and new score specifications[J].Educational and Psychological Measurement,2015,75(2):208-234.
[4] 劉鋒,郭維威,等.基于項目反應理論的計算機自適應測試算法的研究與實現[J].軟件,2014(7):28-32.
[5] 羅永蓮,賈玉芳.項目反應理論在題庫建設中的應用研究[J].計算機應用與軟件,2015(1):86-88.
[6] 于海霞,劉競杰,王家騏.基于項目反應理論自適應考試系統的設計與應用[J].合肥學院學報(自然科學版),2010(3):44-48.
[7] 丘威,鐘治初,黃建妮,等.在線自適應測試系統的設計與實現[J].計算機應用研究,2008,25(1):184-186.
作者簡介:
單美靜(1979-),女,博士,副教授.研究領域:新型網絡犯罪和計算機取證.
劉 琴(1975-),女,副教授.研究領域:數據挖掘.endprint