亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

試卷結(jié)構(gòu)的多維度研究：基于Rasch 模型的視角

2020-04-29 11:45:02李付鵬宋吉祥杜海燕

考試研究 2020年2期

李付鵬宋吉祥杜海燕

一、測驗的多維度

在教育測驗中，一般認(rèn)為測驗結(jié)構(gòu)是單維的，目前大多數(shù)的教育考試也以單一的測驗分?jǐn)?shù)報告成績。但在實踐中測驗往往是多維度的，多維測驗一般包括兩種基本類型[1，2]，試題間（between-item）多維度和試題內(nèi)（within-item）多維度。試題間多維度的特征是在一個具有多個維度的測驗中，每個試題僅僅隸屬于某一個維度；試題內(nèi)多維度則是在一個測驗中存在一個或多個試題隸屬于不同的維度。

測驗維度分析的方法較多，包括傳統(tǒng)的主成分分析、探索性因素分析[3，4]和驗證性因素分析[5]等。在單維Rasch 模型基礎(chǔ)上發(fā)展起來的多維隨機系數(shù)多項式Logit 模型（Multidimensional Random Coefficients Multinomial Logit Model，MRCMLM）可進行驗證性因素分析。本研究運用MRCMLM 分析某高考數(shù)學(xué)試卷的能力維度，對三種可能存在的維度模型進行實驗研究，最終確定一種最佳的維度模型，并在該模型框架下進行多維試題分析。

二、MRCMLM 模型

MRCMLM 模型[6，7]是在單維Rasch 模型基礎(chǔ) 上發(fā)展起來的一個通用的項目反應(yīng)模型。該模型可自適應(yīng)Rasch 類型的多個試題反應(yīng)類型，包括常見的等級量表模型（RSM）、分部評分模型（PCM）和FACET 模型等。MRCMLM 模型既可以進行單維分析，也可以進行多維可補償分析；既可以進行二分計分分析，也可以進行多分計分分析。MRCMLM 的數(shù)學(xué)表達式如下：

其中概率P 是能力為θ 的被試在試題i（i=1，2，…，I）類別j（=1，2，…，Ki）的反應(yīng)概率，其中I 表示試題的數(shù)量，Ki表示試題i 上作答反應(yīng)的類別數(shù)量。被試在試題i 的類別j 正確反應(yīng)時Xij=1，否則為零，A和B 分別為設(shè)計矩陣和分?jǐn)?shù)矩陣，bij是試題i 上作答反應(yīng)為j 類別時對應(yīng)的分?jǐn)?shù)向量，aij是在試題i 上作答反應(yīng)為j 類別時對應(yīng)的設(shè)計向量，描述了其與試題參數(shù)向量ξ 之間的線性關(guān)系。

圖1 模型A

圖2 模型B

三、實驗設(shè)計

（一）建立模型

本研究對某省某年度普通高考數(shù)學(xué)試卷進行能力維度分析。試卷共有21 個試題，樣本數(shù)量1250。從命題藍圖可知，這套試卷考查了多方面的數(shù)學(xué)能力，由于涉及抽象概括能力、數(shù)據(jù)處理能力、創(chuàng)新能力、應(yīng)用能力、空間想象能力的試題較少，故刪除了這部分試題（共7 個），保留了考查運算求解能力和推理論證能力的共14 個試題，即試卷被確定為兩個主要能力維度，運算求解能力建模在第一個維度上，推理論證能力建模在第二個維度上，所有試題均按二分計分。根據(jù)專家建議，主要進行了三個模型的擬合，分別命名為模型A、模型B 和模型C，具體模型如圖1、圖2、圖3 所示。模型A 假定所有的試題均測量一種能力，即數(shù)學(xué)方面的能力；模型B 假定第12題主要考查運算求解能力；模型C 假定第12 題考查運算求解能力和推理論證能力，其他試題的模型結(jié)構(gòu)與模型B 相同。按照上述的模型分類，模型B 屬于項目間的多維模型，模型C 屬于既有項目間又有項目內(nèi)的多維模型。

圖3 模型C

圖4 模型B 多維懷特圖

（二）確定模型

對于同一套試卷中的試題而言，試題與不同潛在維度之間的隸屬劃分，可構(gòu)成不同的試卷維度模型。本研究以不同試卷維度模型與實測數(shù)據(jù)的擬合偏差大小為主要依據(jù)，同時結(jié)合方差和相關(guān)性，并以此為標(biāo)準(zhǔn)來篩選出最佳試卷維度模型[8，9]。上述兩個多維模型與單維模型是層次化的關(guān)系，即模型是嵌套的，模型的擬合偏差越小，擬合度越大，就越接近真實模型。

維度擬合偏差分析。表1 給出了三個模型擬合偏差的變化，三個模型的偏差基本相當(dāng)，模型A 的擬合偏差略大于模型C，模型C 的擬合偏差略大于模型B，從擬合偏差最小的角度來看，模型B 是最佳模型。Akaike 信息準(zhǔn)則（AIC）和貝葉斯信息準(zhǔn)則（BIC）表明，模型B 具有最小的AIC，模型A 具有最小的BIC，但從數(shù)值上來看，三個模型擬合情況基本相當(dāng)。

表1 模型的全局?jǐn)M合度統(tǒng)計和信息標(biāo)準(zhǔn)

表2 模型的維度方差、協(xié)方差和相關(guān)性

維度方差和相關(guān)性分析。表2 給出了模型B 和模型C 的方差、協(xié)方差和相關(guān)性數(shù)據(jù)，其中對角元素是兩個維度的方差，非對角下三角元素是兩個維度的協(xié)方差，非對角線上三角表示維度之間的相關(guān)性。從兩個模型維度間的相關(guān)性來看，由于MRCMLM 模型是一種補償多維模型，它利用子測驗之間的相關(guān)性來提高測量精度和可靠性，因此，應(yīng)盡可能選擇維度相關(guān)性較高的測量模型，由表2 可知，模型B 和模型C 各自兩個維度間的相關(guān)性都比較高，模型B 維度間的相關(guān)性略大于模型C。維度間的協(xié)方差可以看作是維度間相關(guān)系數(shù)和維度方差共同作用的結(jié)果，因為對于兩個給定變量X，Y，在數(shù)學(xué)上其相關(guān)性ρXY與協(xié)方差Cov（X，Y）具有如下的關(guān)系：ρXY=CovVar（X）與Var（X）表示兩個變量的方差，也就是說，對于一個給定的模型，協(xié)方差和相關(guān)性的變化方向是一致的。因此，對兩個模型維度間的相關(guān)性分析與協(xié)方差分析具有類似的解釋。

結(jié)合上述兩個方面的分析，同時考慮到模型簡單化的原則，最終確定模型B 為符合試卷實際結(jié)構(gòu)的最佳模型。

（三）多維分析

基于以上的分析結(jié)果，在模型B 框架下進行多維試題分析。

試題難度分布。試題難度是測驗的一個重要參數(shù)，本研究通過懷特圖來展示試題的難度分布.懷特圖不僅給出了試題難度的分布情況，而且在同一個量尺下，也同時給出了被試反應(yīng)的分布情況。B 模型下的多維懷特圖如圖4 所示，兩個維度下的試題都具有較大的分布范圍，維度一試題難度在總體上略大于維度二，但對于考生來說，兩個維度的試題都略微簡單。維度一第17 題和維度二第21 題分別屬于兩個維度中的最難試題，維度一第3 題和維度二的第8 題分別屬于兩個維度中的最簡單試題，被試在兩個維度上的分布也分別呈現(xiàn)對稱分布。

試題特征曲面。由于模型B 和模型C 的差異主要與試卷中第12 題的維度劃分有關(guān)。下面主要以第12 題的試題反應(yīng)為例進行分析。在單維情況下，一般分析試題的特征曲線；在多維情況下，一般分析試題的特征曲面。圖5 給出了第12 題在模型B 下考生作答概率如何隨第一特質(zhì)維度θ1和第二特質(zhì)維度θ2變化的情況。對于僅僅具有一個維度的試題而言，學(xué)生對試題反應(yīng)的概率僅僅在相關(guān)的一個潛在特質(zhì)維度方向上變化，而與另一個潛在特質(zhì)維度無關(guān)。圖5左側(cè)部分顯示無論θ2是高還是低，都無法觀測到該潛在特質(zhì)對θ1的補償情況，該試題正確回答的概率僅僅取決于θ1，相同的θ1具有相同的反應(yīng)概率值。圖5 右側(cè)部分的試題等高線同樣可以反映試題的差異，等高線同樣清晰地表明試題僅僅與θ1有關(guān)，與θ2無關(guān)。由于模型B 中沒有項目內(nèi)的多維性試題存在，圖5 所示的試題特征曲面和試題等高線沒有體現(xiàn)出MRCMLM 模型的補償性。圖6 給出模型C 下第12題的試題特征反應(yīng)曲面和等高線，目的是觀察MRCMLM 模型的補償性特性。圖6 左側(cè)部分顯示了一種潛在特質(zhì)維度可以通過其他潛在特質(zhì)維度的強度來補償，由圖可知，相同的θ1由于受到θ2的補償作用，可能具有不同的反應(yīng)概率值。圖6 右側(cè)部分的等高線也顯示出受到兩個維度的作用。

試題信息曲面。下面仍以第12 題的試題反應(yīng)為例進行試題信息曲面分析。圖7 給出了兩個模型下第12 題的試題信息曲面。試題信息是關(guān)于潛在特質(zhì)的函數(shù)，它為深入了解試題的測量精度提供了途徑。試題信息在測驗構(gòu)建中發(fā)揮著特別的作用。從項目反映理論的角度來看，試題提供的信息非常重要，這是試題有效性和可靠性的重要指示。圖7 左側(cè)部分顯示當(dāng)維度一潛在特質(zhì)θ1在零附近時，第12 題提供了最大的試題信息，當(dāng)維度一潛在特質(zhì)θ1非常低或非常高時，試題提供的信息最低。圖7 右側(cè)部分顯示當(dāng)兩個潛在特質(zhì)θ1和θ2都在零附近時，項目信息水平最高，而當(dāng)潛在特質(zhì)變得非常低或非常高時，項目信息最低。

圖5 模型B 試題特征曲面（左）和試題等高線（右）

圖6 模型C 試題特征曲面（左）和試題等高線（右）

圖7 模型B（左）和模型C（右）試題信息曲面

測驗層面分析。測試的精度可以通過對每個試題可用的信息求和來確定，測驗信息是試卷所有試題信息總的反映。通過信息函數(shù)，測驗人員可以精確評估每個試題對總測驗精度的貢獻，從而選擇與測驗構(gòu)建其它方面不沖突的試題。從項目反應(yīng)理論的角度來看，對于一份試卷，要尋求最大的測驗信息，同時獲得最小的測驗標(biāo)準(zhǔn)誤。圖8 給出了測驗試題的總信息（左圖）和測驗標(biāo)準(zhǔn)誤的圖形分布（右圖）。在試題信息曲面圖中，最陡坡的方向具有信息函數(shù)的最高脊。圖8（左圖）給出了脊線的大致位置，同時可以看出在兩個維度不同坐標(biāo)點的測驗信息量分布，盡管兩個維度上的試題數(shù)量相同，但對測驗信息的總貢獻不一樣；圖8（右圖）可以看出在兩個維度的不同坐標(biāo)點測驗標(biāo)準(zhǔn)誤的分布情況，兩個維度的不同特質(zhì)分布坐標(biāo)上的標(biāo)準(zhǔn)誤在大部分區(qū)域是一致的。

圖8 測驗試題信息曲面（左）和測驗標(biāo)準(zhǔn)誤曲面（右）

（三）結(jié)論

本文基于MRCMLM 模型，從擬合偏差、維度方差和相關(guān)性等幾個方面，確定了試卷結(jié)構(gòu)的多維模型，并對試卷試題進行了多維度的分析。結(jié)果表明，MRCMLM 模型是一種有效的分析試卷多維結(jié)構(gòu)的工具，多維分析能夠提供比單維分析更加豐富的測試信息，多維分析結(jié)果更加符合真實的試卷結(jié)構(gòu)，分析也驗證了MRCMLM 模型具有補償性質(zhì)。

（四）研究局限性

本次研究一個主要的局限性是所使用的考試數(shù)據(jù)沒有呈現(xiàn)出較為明顯的多維度特征，單維模型和兩個多維模型的擬合偏差差異較小。在擬合偏差差異較小的情況下，以單維模型A 進行分析更加簡單，但考慮到單維分析所提供的試題和試卷的信息較少，本文以模型B 為基礎(chǔ)進行了多維度的分析。另一個局限性在于目前能夠進行多維分析的三維或多維的圖形化工具較少，本文利用近年來發(fā)展迅速的R語言的圖形化工具實現(xiàn)數(shù)據(jù)的多維分析，但還不能完全滿足數(shù)據(jù)分析的需要。

四、結(jié)束語

與傳統(tǒng)因素分析方法類似，可以通過探索性因素分析或驗證性因素分析的方法確定多維模型。本文采取的是驗證性因素分析方法，基于近年來新發(fā)展的MRCMLM 模型，對某普通高考數(shù)學(xué)試卷可能存在的維度模型，從測驗的擬合偏差、相關(guān)性角度確定最佳的維度模型，并對確定的維度模型從試題信息層面和測驗信息層面作進一步分析，得到了一些有意義的結(jié)論，將該分析方法與傳統(tǒng)的多種因素分析進行比較是本研究下一步的工作。