劉 文 邊玉芳 陳玲麗 陽碧云
與經(jīng)典測量理論相比,項(xiàng)目反應(yīng)理論(IRT)采用非線性的模型建立被試在項(xiàng)目上的得分與潛在特質(zhì)之間的關(guān)系,具有題目參數(shù)的跨群體不變性、能力參數(shù)與項(xiàng)目難度參數(shù)定義在同一個(gè)量表上等優(yōu)良性質(zhì),這為項(xiàng)目反應(yīng)理論的推廣應(yīng)用奠定堅(jiān)實(shí)的基礎(chǔ)。但是由于項(xiàng)目反應(yīng)理論模型的復(fù)雜性,帶來相應(yīng)的參數(shù)(題目參數(shù)、能力參數(shù))估計(jì)相對(duì)困難,在進(jìn)行參數(shù)估計(jì)時(shí)通常要經(jīng)過多次復(fù)雜的迭代運(yùn)算,進(jìn)行運(yùn)算時(shí)通常要求較大的樣本容量,并且還有可能的情況是得到的結(jié)果不收斂。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)也稱為“神經(jīng)網(wǎng)絡(luò)”或類神經(jīng)網(wǎng)絡(luò),是一種應(yīng)用類似于人類大腦神經(jīng)突觸聯(lián)接的方式進(jìn)行信息處理的數(shù)學(xué)模型,它是以對(duì)大腦的勝利研究成果為基礎(chǔ),通過模擬大腦的某些機(jī)制,從而實(shí)現(xiàn)特定的功能,它是當(dāng)前國內(nèi)外研究的一個(gè)前沿領(lǐng)域。人工神經(jīng)元是人工神經(jīng)網(wǎng)絡(luò)基本的信息處理單元,人工神經(jīng)網(wǎng)絡(luò)通過對(duì)大量人工神經(jīng)元按照一定的拓?fù)浣Y(jié)構(gòu)組織起來,形成群體并行式處理的計(jì)算結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)已經(jīng)應(yīng)用于模式識(shí)別、圖像處理、控制和優(yōu)化、預(yù)報(bào)和智能信息管理、通信、空間科學(xué)等領(lǐng)域,顯示出無可比擬的優(yōu)勢和應(yīng)用前景。BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋型神經(jīng)網(wǎng)絡(luò),可以實(shí)現(xiàn)從輸入值到輸出值的任意非線性映射,其權(quán)值的調(diào)整采用反向轉(zhuǎn)播學(xué)習(xí)算法,目前在神經(jīng)網(wǎng)絡(luò)的實(shí)際應(yīng)用中,絕大部分的神經(jīng)網(wǎng)絡(luò)模型都采用BP網(wǎng)絡(luò)及其變化形式。在IRT參數(shù)估計(jì)時(shí),也有學(xué)者運(yùn)用神經(jīng)網(wǎng)絡(luò)進(jìn)行IRT的參數(shù)估計(jì)[1-4],神經(jīng)網(wǎng)絡(luò)對(duì)于小樣本的參數(shù)估計(jì)也能適用[5,6],這些方法在使用神經(jīng)網(wǎng)絡(luò)時(shí)通常以經(jīng)典測量理論中的通過率P作為難度的輸入值、點(diǎn)二列相關(guān)系數(shù)rpb作為區(qū)分度的輸入值、題目平均得分作為能力的輸入值,相應(yīng)的IRT參數(shù)b、a、θ作為神經(jīng)網(wǎng)絡(luò)的輸出值來訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行新項(xiàng)目的參數(shù)估計(jì),采用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行IRT的參數(shù)估計(jì)也能達(dá)到一定的誤差要求。
文中提出根據(jù)經(jīng)典測量理論計(jì)算的難度、區(qū)分度進(jìn)行相應(yīng)的轉(zhuǎn)換,在BP神經(jīng)網(wǎng)絡(luò)中運(yùn)用與前人研究不同的輸入值估計(jì)IRT的項(xiàng)目參數(shù)的新方法,試圖減少參數(shù)估計(jì)的誤差,提高參數(shù)估計(jì)的精度。
項(xiàng)目反應(yīng)理論通常使用一定的數(shù)學(xué)模型來刻畫被試的得分與潛在特質(zhì)的關(guān)系,項(xiàng)目反應(yīng)理論模型通常分為二值記分的模型和多值記分的模型,其中最常用的是二值記分(0-1)的模型,二值記分的模型又分為單參數(shù)、雙參數(shù)和三參數(shù)模型,二值記分的三參數(shù)的 logistic 模型為:pi(θ)=ci+(1-ci)/(1+exp[-Dai(θ-bi)]),這里D=1.702,θ為被試的能力值,ai表示項(xiàng)目 i的區(qū)分度、bi表示項(xiàng)目 i的難度、ci表示項(xiàng)目i的猜測參數(shù),pi(θ)表示能力為θ的被試答對(duì)區(qū)分度為a、難度為b、猜測參數(shù)為c的項(xiàng)目i的概率,當(dāng)被試答對(duì)該題時(shí),得分為1,否則為0。在該模型中,當(dāng)ci=0時(shí)為雙參數(shù)模型,當(dāng)ci=0、ai=1時(shí)為單參數(shù)模型。假設(shè)有N個(gè)考生參加由m個(gè)項(xiàng)目組成的測驗(yàn),所有考生對(duì)各個(gè)項(xiàng)目的反應(yīng)就組成一個(gè)Nm的得分矩陣U,參數(shù)估計(jì)就是尋找一組項(xiàng)目參數(shù)和被試的能力參數(shù),代入IRT模型后,能夠與項(xiàng)目反應(yīng)得分矩陣U擬合得很好,在該矩陣中有N+3m個(gè)參數(shù)需要估計(jì),這顯然是一件非常困難的事情。伯恩鮑姆(1968)建議先計(jì)算能力參數(shù)、項(xiàng)目參數(shù)的初值,然后分兩步進(jìn)行迭代計(jì)算[7]:第一步,先假定能力參數(shù)為已知,求出項(xiàng)目參數(shù)的估計(jì)值;第二步,將項(xiàng)目參數(shù)的估計(jì)值看做項(xiàng)目參數(shù)的“真值”,求能力參數(shù)的估計(jì)值,這樣前后兩步稱為一輪。如果滿足收斂準(zhǔn)則,則得到的項(xiàng)目參數(shù)和能力參數(shù)為所求的結(jié)果;否則,將這些值看做新一輪的初值,再進(jìn)行下一輪的兩步迭代,直到結(jié)果滿足收斂準(zhǔn)則為止。目前的參數(shù)估計(jì)方法例如MLE、EM、MCMC等都是根據(jù)伯恩鮑姆的這一思想進(jìn)行的。
文中設(shè)a、b、θ服從如下分布:能力參數(shù)θ~N(0,1),即生成被試的能力參數(shù)θ服從均值為0,方差為1的正態(tài)分布;ln a~N(0,1),b~N(0,1)。使用MATLABR2007b軟件模擬生成N個(gè)被試作答m個(gè)項(xiàng)目的數(shù)據(jù),a、b、θ滿足上述條件。研究中采用四層的神經(jīng)網(wǎng)絡(luò),節(jié)點(diǎn)數(shù)依次為10、7、3、1,前三層采用S型函數(shù)(tansig),最后一層采用線性函數(shù)(purelin)[2]。為了便于描述,以下只分兩種方法進(jìn)行介紹,方法一為分別以經(jīng)典測量理論的通過率、點(diǎn)二列相關(guān)系數(shù)和平均得分作為網(wǎng)絡(luò)輸入估計(jì)a、b、θ,方法二為分別以IRT模型參數(shù)估計(jì)的初值作為網(wǎng)絡(luò)輸入估計(jì)a、b、θ。
方法一:利用平均得分率作為網(wǎng)絡(luò)輸入,IRT的θ為輸出值,訓(xùn)練并測試網(wǎng)絡(luò)。
(1)模擬。根據(jù)模擬生成的N個(gè)被試能力參數(shù)和m個(gè)項(xiàng)目參數(shù)計(jì)算 pi(θ),使用蒙特卡羅方法生成被試得分矩陣U,當(dāng)rij≤pij時(shí),uij=1,否則uij=0。隨機(jī)生成30個(gè)得分矩陣。
(2)降維。根據(jù)得分矩陣U,計(jì)算每名被試對(duì)m個(gè)項(xiàng)目的平均得分(x/m)作為神經(jīng)網(wǎng)絡(luò)的輸入向量,以模擬被試的能力θ為神經(jīng)網(wǎng)絡(luò)的輸出值訓(xùn)練神經(jīng)網(wǎng)絡(luò)。將30個(gè)平均得分向量作為網(wǎng)絡(luò)輸入訓(xùn)練30個(gè)網(wǎng)絡(luò)。
(3)測試。模擬生成N1個(gè)被試能力參數(shù)和m1個(gè)項(xiàng)目參數(shù)計(jì)算,生成得分矩陣,計(jì)算每名被試對(duì)m1個(gè)項(xiàng)目反應(yīng)的平均得分(x1/m1)作為神經(jīng)網(wǎng)絡(luò)的輸入向量,測試訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行被試能力輸出。分別測試訓(xùn)練好的30個(gè)神經(jīng)網(wǎng)絡(luò)。計(jì)算每次測試網(wǎng)絡(luò)輸出值與模擬數(shù)據(jù)的能力值的誤差,即error=yy-θT,yy為神經(jīng)網(wǎng)絡(luò)的輸出值,θT為模擬生成的N1個(gè)被試的能力值。
方法二:利用N-R迭代求能力參數(shù)的極大似然估計(jì)的初值θ0作為網(wǎng)絡(luò)輸入,IRT的θ為輸出值,訓(xùn)練并測試網(wǎng)絡(luò)。
(1)模擬。與3.1.1方法一模擬相同。
(2)降維。與3.1.1方法一的區(qū)別是輸入向量不同,輸入向量為每名被試對(duì)m個(gè)項(xiàng)目的得分(x)與失分(m-x)之比的自然對(duì)數(shù)ln[ ]x/(m-x)作為神經(jīng)網(wǎng)絡(luò)的輸入向量(對(duì)總分為滿分和零分的被試進(jìn)行預(yù)處理,依據(jù)Conquest軟件的處理方法,滿分則減去0.3,0分則加上0.3)。
(3)測試。與3.1.1方法一的區(qū)別是輸入向量不同,ln[x1/(m1-x1)]作為神經(jīng)網(wǎng)絡(luò)的輸入向量進(jìn)行測試。
項(xiàng)目參數(shù)a、b的兩種估計(jì)方法與能力的兩種估計(jì)方法類似。
方法一:利用每個(gè)項(xiàng)目與總分的點(diǎn)二列相關(guān)系數(shù)作為網(wǎng)絡(luò)輸入,IRT的a為輸出值,訓(xùn)練并測試網(wǎng)絡(luò)。
(1)模擬。與3.1.1方法一模擬相同。
(2)降維。計(jì)算項(xiàng)目得分矩陣U中每個(gè)項(xiàng)目與總分的點(diǎn)二列相關(guān)系數(shù)
(3)測試。與3.1.1方法一的區(qū)別是輸入向量不同,點(diǎn)二列相關(guān)作為神經(jīng)網(wǎng)絡(luò)的輸入向量進(jìn)行測試。
方法二:利用IRT參數(shù)估計(jì)的初值aj作為網(wǎng)絡(luò)輸入,IRT的a為輸出值,訓(xùn)練并測試網(wǎng)絡(luò)。
(1)模擬。與3.1.1方法一模擬相同。
(2)降維。與3.2.1方法一的區(qū)別是網(wǎng)絡(luò)輸入的初值為aj,aj通過點(diǎn)二列相關(guān)轉(zhuǎn)化得到,具體為:根據(jù)得分矩陣U計(jì)算每個(gè)項(xiàng)目的通過率pj,并根據(jù)通過率pj轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分?jǐn)?shù)zj,即根據(jù)計(jì)算出zj。再把點(diǎn)二列相關(guān)rpb轉(zhuǎn)化為二列相關(guān)rb,其公式為最后,求得輸入向量aj,即利用aj作為網(wǎng)絡(luò)輸入向量訓(xùn)練網(wǎng)絡(luò)。
(3)測試。與3.2.1方法一的區(qū)別是輸入向量不同,aj作為神經(jīng)網(wǎng)絡(luò)的輸入向量進(jìn)行測試。
方法一:利用每個(gè)項(xiàng)目的通過率作為網(wǎng)絡(luò)輸入,IRT的b為輸出值,訓(xùn)練并測試網(wǎng)絡(luò)。
方法二:區(qū)別在于計(jì)算網(wǎng)絡(luò)輸入向量bj時(shí),公式為bj=zj/rbj,利用bj作為網(wǎng)絡(luò)輸入,IRT的b為輸出值,訓(xùn)練并測試網(wǎng)絡(luò)。
評(píng)價(jià)參數(shù)估計(jì)精確性的指標(biāo)通常采用均方根誤差(Root Mean Squared Error,RMSE)(有些文獻(xiàn)稱為RMSD)和平均絕對(duì)偏差(Mean Absolute Bias,MAB)(有些文獻(xiàn)稱為ABS)這兩個(gè)指標(biāo),表示估計(jì)值的個(gè)數(shù),r表示網(wǎng)絡(luò)數(shù)。MAB指標(biāo)反映了估計(jì)值與真值的絕對(duì)偏差的平均。MAB值越小,估計(jì)的準(zhǔn)確性越高;RMSE指標(biāo)反映的是估計(jì)值與真值偏差的離散程度。RMSE值也是越小越好。
實(shí)驗(yàn)中訓(xùn)練網(wǎng)絡(luò)時(shí),訓(xùn)練項(xiàng)目數(shù)分別取10、20、30、…、590、600(共60種實(shí)驗(yàn)條件),訓(xùn)練人數(shù)為100人;測試網(wǎng)絡(luò)時(shí),測試時(shí)項(xiàng)目數(shù)為20題,人數(shù)為100人。每種實(shí)驗(yàn)條件是循環(huán)30次后結(jié)果的平均值。
以MAB和RMSE作為不同方法估計(jì)精確度的指標(biāo),分別比較兩種方法在估計(jì)IRT兩參數(shù)模型中能力參數(shù)和項(xiàng)目參數(shù)的差異。
神經(jīng)網(wǎng)絡(luò)不同輸入向量對(duì)能力參數(shù)和項(xiàng)目參數(shù)估計(jì)的MAB指標(biāo)分析結(jié)果見表1。
表1 能力參數(shù)和項(xiàng)目參數(shù)估計(jì)的MAB指標(biāo)描述統(tǒng)計(jì)分析結(jié)果
從表1可以看出,對(duì)于難度的估計(jì)以通過率作為神經(jīng)網(wǎng)絡(luò)的輸入值比經(jīng)過轉(zhuǎn)換后的輸入值能得到更好的結(jié)果,而區(qū)分度和能力值的估計(jì)則是經(jīng)過轉(zhuǎn)換后的輸入值的結(jié)果更精確。
神經(jīng)網(wǎng)絡(luò)不同輸入向量對(duì)能力參數(shù)和項(xiàng)目參數(shù)估計(jì)的RMSE指標(biāo)分析結(jié)果見表2。
表2 能力參數(shù)和項(xiàng)目參數(shù)估計(jì)的RMSE指標(biāo)描述統(tǒng)計(jì)分析結(jié)果
從表2可以看出,對(duì)于難度的估計(jì)以通過率作為神經(jīng)網(wǎng)絡(luò)的輸入值比經(jīng)過轉(zhuǎn)換后的輸入值能得到更好的結(jié)果,而區(qū)分度和能力值的估計(jì)則是經(jīng)過轉(zhuǎn)換后的輸入值的結(jié)果更精確。
綜合表1、表2的結(jié)果,表明MAB和RMSE的結(jié)論具有一致性。
實(shí)驗(yàn)表明,基于經(jīng)典測量理論基礎(chǔ)上轉(zhuǎn)換后的輸入值的區(qū)分度和能力參數(shù)的估計(jì),神經(jīng)網(wǎng)絡(luò)參數(shù)估計(jì)的方法具有較高的精確度與穩(wěn)定性;而難度參數(shù)的估計(jì)則是通過率占優(yōu)。但對(duì)于神經(jīng)網(wǎng)絡(luò)模型來說,估計(jì)的精確性不僅與網(wǎng)絡(luò)的輸入值有關(guān)同時(shí)還與神經(jīng)網(wǎng)絡(luò)的類型也有關(guān)系,例如采用徑向基網(wǎng)絡(luò)進(jìn)行模擬訓(xùn)練可能會(huì)得到不同的實(shí)驗(yàn)結(jié)論,這些需要進(jìn)一步的研究證據(jù)支持。由于研究中主要探討兩參數(shù)的項(xiàng)目反應(yīng)模型,這個(gè)結(jié)論是否適用于三參數(shù)的項(xiàng)目反應(yīng)模型仍需相關(guān)證據(jù)。同時(shí),研究采用的是簡單的0-1評(píng)分的模型,對(duì)于多值評(píng)分的模型如何使用神經(jīng)網(wǎng)絡(luò)進(jìn)行估計(jì)也值得探討。
[1]譚云蘭,丁樹良,辛銳銘,等.基于IRT模型參數(shù)的BP神經(jīng)網(wǎng)絡(luò)估計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,2004(17):56-57,108.
[2]譚云蘭,丁樹良,辛銳銘.基于IRT模型的BP神經(jīng)網(wǎng)絡(luò)降維法參數(shù)估計(jì)及其應(yīng)用[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,28(6):485-488.
[3]汪存友,余嘉元.一種新的基于神經(jīng)網(wǎng)絡(luò)的IRT項(xiàng)目參數(shù)估計(jì)模型[J].計(jì)算機(jī)應(yīng)用,2006,26(4):992-994.
[4]余嘉元,陳淑燕.運(yùn)用徑向基網(wǎng)絡(luò)估計(jì)項(xiàng)目反應(yīng)模型參數(shù)的研究[J].中國考試(研究版),2005(4):24-26.
[5]余嘉元,汪存友.小樣本標(biāo)準(zhǔn)參照測驗(yàn)中項(xiàng)目參數(shù)估計(jì)的GRNN方法[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,24(4):107-110.
[6]朱隆尹,丁樹良,涂冬波,等.基于小樣本容量的IRT參數(shù)估計(jì)方法比較研究[J].心理學(xué)探新,2009,113(5):72-76.
[7]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社.2002.