亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Rasch模型的概率論與數(shù)理統(tǒng)計(jì)考試質(zhì)量分析

2019-12-19 10:48:58雷玉潔宋麗娟

衛(wèi)生職業(yè)教育 2019年24期

馬翠，雷玉潔，宋麗娟

（陸軍軍醫(yī)大學(xué)，重慶 400038）

概率論與數(shù)理統(tǒng)計(jì)作為醫(yī)學(xué)院校一門重要的公共基礎(chǔ)課程，其教學(xué)內(nèi)容包括概率論的基礎(chǔ)知識(shí)和數(shù)理統(tǒng)計(jì)的基本方法，主要研究隨機(jī)現(xiàn)象的統(tǒng)計(jì)規(guī)律。課程結(jié)束時(shí)，通常采用各專業(yè)統(tǒng)考的方式進(jìn)行測(cè)試。本文的目的是把現(xiàn)代測(cè)量理論Rasch模型引入概率論與數(shù)理統(tǒng)計(jì)期末考試客觀題的質(zhì)量分析中，通過科學(xué)的定量分析，驗(yàn)證試題結(jié)構(gòu)、試題的難易程度、知識(shí)點(diǎn)的分配以及覆蓋面是否符合課程標(biāo)準(zhǔn)的要求，力求為今后進(jìn)一步修改組卷策略、提高試題質(zhì)量提供客觀的理論依據(jù)。

Rasch模型（Rasch model）是由丹麥數(shù)學(xué)家、統(tǒng)計(jì)學(xué)家Georg Rasch（1901—1980年）基于項(xiàng)目反應(yīng)理論提出的一個(gè)潛在特質(zhì)模型。此模型旨在以自然科學(xué)領(lǐng)域內(nèi)的客觀測(cè)量為標(biāo)桿，為社會(huì)科學(xué)領(lǐng)域內(nèi)的測(cè)量建立起一套客觀標(biāo)準(zhǔn)[1]。Rasch模型以數(shù)據(jù)與模型的擬合為前提，將題目與個(gè)體的能力放在同一尺度上，從而克服傳統(tǒng)測(cè)量中的樣本依賴（sample-dependent）與測(cè)驗(yàn)依賴（test-dependent）[2]，并在測(cè)驗(yàn)題目的分析中對(duì)傳統(tǒng)測(cè)量方法所存在的不足做了相應(yīng)改進(jìn)，從而確保測(cè)量所提供的信息更為客觀和可靠。

1 資料與方法

1.1 資料收集

針對(duì)我校2015級(jí)醫(yī)學(xué)各專業(yè)3個(gè)班453名學(xué)生的概率論與數(shù)理統(tǒng)計(jì)期末考試成績(jī)，采用Excel 2010對(duì)收集到的原始分?jǐn)?shù)數(shù)據(jù)進(jìn)行清理和轉(zhuǎn)化。數(shù)據(jù)矩陣維度為453×28，每個(gè)樣本都包含5個(gè)判斷題、15個(gè)單選題、8個(gè)填空題共28道客觀題得分（錯(cuò)誤計(jì)為0，正確計(jì)為1）。

1.2 統(tǒng)計(jì)學(xué)方法

使用Winsteps軟件對(duì)所得數(shù)據(jù)進(jìn)行Rasch分析，主要包括單維度檢驗(yàn)、總體擬合情況、題目與個(gè)體分析、Wright圖、氣泡圖與DIF檢驗(yàn)，并分析了各因素對(duì)測(cè)試結(jié)果的影響。利用SPSS13.0軟件的獨(dú)立樣本t檢驗(yàn)以及單因素方差分析對(duì)Rasch模型所估個(gè)體能力進(jìn)行組間差異性比較。

2 結(jié)果

2.1 單維性檢驗(yàn)

本研究中的單維性檢驗(yàn)是指題目是否只測(cè)量學(xué)生掌握概率論與統(tǒng)計(jì)數(shù)理課程相關(guān)知識(shí)的能力。主成分分析結(jié)果顯示，第一對(duì)比殘差特征值為1.7（見表1），說明單維性較好[3]，但僅有26.4%的原始總方差被測(cè)試解釋。

表1 共同因素可解釋的總變異量

在單維性檢驗(yàn)圖（見圖1）中，橫坐標(biāo)表示題目難度，縱坐標(biāo)表示當(dāng)控制主要特質(zhì)后，題目分?jǐn)?shù)與另一潛在特質(zhì)之間的相關(guān)系數(shù)。通常認(rèn)為，當(dāng)相關(guān)系數(shù)落在-0.4～0.4之間時(shí)，表明它們測(cè)量同一特質(zhì)[4]。從圖中可以看出，該套試卷大體上測(cè)量的是同一種特質(zhì)，單維性較好。A（第28題）、B（第27題）兩題超出該范圍，說明它們可能還測(cè)量別的能力，而不僅僅是試題所要測(cè)量的能力，應(yīng)進(jìn)一步考查和修改。

圖1 單維性檢驗(yàn)圖

2.2 總體擬合情況（見表2）

總體擬合效果反映了實(shí)際測(cè)量數(shù)據(jù)是否符合Rasch模型的預(yù)期，主要依據(jù)是Infit和Outfit兩項(xiàng)指標(biāo)。Infit MNSQ和Outfit MNSQ值為1，表示數(shù)據(jù)與模型完全擬合，二者在0.5～1.5之間都是可接受的[5]。從表2可知，學(xué)生和題目的擬合度加權(quán)殘差均方（Infit MNSQ）均為1.00，Infit ZSTD分別為0.10和0.00，說明模型擬合效果很好。453名學(xué)生掌握概率論與數(shù)理統(tǒng)計(jì)課程的平均能力得分為1.71，標(biāo)準(zhǔn)差為1.01；28道題目的平均難度為0.00，標(biāo)準(zhǔn)差為1.24。學(xué)生的分離度為1.33，較試題的分離度（7.69）小，說明學(xué)生的能力水平差異不十分明顯，今后可適當(dāng)增加不同能力水平的學(xué)生，從而增大被試者的分離度。此外，表2顯示試題信度（0.98）很高，接近1，而學(xué)生信度為0.64，這表明可能學(xué)生的能力水平差異不明顯，分布較集中，也可能是有些題目與學(xué)生的能力水平不符，該試題對(duì)不同能力水平學(xué)生的區(qū)別能力有待加強(qiáng)。下一步可考慮增加不同能力水平的學(xué)生，也要對(duì)有些題目進(jìn)行修改，加強(qiáng)試題對(duì)不同能力水平學(xué)生的區(qū)分能力。

從題目來看，第20、25、26題難度相對(duì)較大，均在1.7個(gè)Logit以上，第20題達(dá)到了1.98個(gè)Logit，難度最大。第9、12題難度較低，均在-2.2個(gè)Logit以下，難度最低為第9題，為-2.4個(gè) Logit；從參加測(cè)試的學(xué)生來看，編號(hào)為 161、258、269、319 的學(xué)生能力最強(qiáng)，為 5.17 個(gè) Logit，編號(hào)為 27、40、82、188、428、86的學(xué)生能力較低，均在-0.3個(gè)Logit以下，能力最低為編號(hào)86的學(xué)生，為-0.98個(gè)Logit。

2.3 學(xué)生—題目關(guān)系分析

Rasch模型經(jīng)典的Wright圖可以更為直觀地在同一維度量尺上顯示比較個(gè)體能力和題目難度，它將題目、被試按其難度、能力高低放在同一個(gè)Logit量尺上。該圖最左端的數(shù)值是學(xué)生水平和題目難度的Logit值，中間豎線是Logit刻度尺，左側(cè)是學(xué)生分布，每個(gè)“#”代表5名學(xué)生、每個(gè)“﹒”代表1～4名學(xué)生，從下往上能力逐漸增大；右側(cè)是28道按順序編號(hào)的題目，由下往上題目難度逐漸增加。根據(jù)Wright圖的原理，構(gòu)建本次測(cè)試的學(xué)生和題目的對(duì)應(yīng)關(guān)系圖，見圖2。

從圖2可清晰地看出題目、學(xué)生在測(cè)量變量上的分布及其對(duì)應(yīng)情況。從題目整體分布上來看，28道題目難度范圍較廣，且基本呈現(xiàn)均勻分散，學(xué)生的能力分布也較為理想，具有一定的分散度，中間部分的學(xué)生人數(shù)較多，上、下兩端學(xué)生人數(shù)較少。但大部分考生水平在0個(gè)Logit以上，且較為集中，表明本次測(cè)試對(duì)于所有學(xué)生平均而言比較簡(jiǎn)單。難度較小的題目（如第1、2、6、8、9、12、14、24 題）幾乎沒有相應(yīng)能力水平的學(xué)生與之匹配，這就是所謂的“送分題”。在下一步工作中，適當(dāng)減少低難度題目的同時(shí)要增加部分難度較大的題目，以增強(qiáng)測(cè)試的意義。另外，可考慮適當(dāng)增加水平較低的被試，使學(xué)生的能力分布范圍更廣，能被難度較小的題目鑒別。

氣泡圖是Winsteps軟件提供的另一種更加直觀、科學(xué)分析題目擬合及誤差情況的圖形，圖中縱坐標(biāo)“Measures”是題目難度，橫坐標(biāo)是擬合指數(shù)Outfit的ZSTD值，“氣泡”的大小代表項(xiàng)目難度估計(jì)誤差的大小。通過Winsteps繪制本次測(cè)試的氣泡圖（見圖3），從圖中可以看出，大部分試題均落在可接受區(qū)間-2～2之間，但第7、10題略超出可接受范圍，第5題擬合效果最差。此外，氣泡圖顯示，第9、12題的誤差較大。針對(duì)上述幾道試題，在后續(xù)的出題工作中，應(yīng)考慮將其刪除或做進(jìn)一步修改。

圖3 氣泡圖

2.4 題目功能差異分析

利用DIF檢驗(yàn)本次測(cè)試對(duì)不同性別、不同班級(jí)的學(xué)生是否存在功能差異。結(jié)果發(fā)現(xiàn)，第3、7、10、18共4道題目對(duì)不同性別的學(xué)生存在功能差異（功能差異指數(shù)的絕對(duì)值大于1個(gè)Logit可認(rèn)為存在功能差異[6]），見表3；第7、9、10、15、17、18、21、23共8道題目對(duì)不同班級(jí)的學(xué)生存在功能差異，見表4。這提示我們?nèi)粢M(jìn)行不同性別、不同班級(jí)間學(xué)生能力的比較，需將上述具有顯著功能差異的題目剔除，以便排除其他干擾因素。

表3 性別DIF顯著的題目

表4 班級(jí)DIF顯著的題目

根據(jù)DIF檢驗(yàn)的結(jié)果，刪除對(duì)應(yīng)題目，重新估計(jì)學(xué)生的能力后，比較不同性別、不同班級(jí)學(xué)生能力的差異是否具有統(tǒng)計(jì)學(xué)意義，結(jié)果如表5、表6所示。

表5 性別因素對(duì)測(cè)試結(jié)果影響的獨(dú)立樣本t檢驗(yàn)

表6 班級(jí)因素對(duì)測(cè)試結(jié)果影響的單因素方差分析

由表5可知，性別的不同對(duì)測(cè)試結(jié)果有影響，即“女生平均能力較男生平均能力高”這一結(jié)論具有統(tǒng)計(jì)學(xué)意義（P＜0.05）。由表6可知，班級(jí)的不同對(duì)測(cè)試結(jié)果的影響具有統(tǒng)計(jì)學(xué)意義（P＜0.05）。進(jìn)一步做多重比較，發(fā)現(xiàn)1班和2班、3班學(xué)生平均能力的差異具有統(tǒng)計(jì)學(xué)意義（P值分別為0.002，0.017，均小于0.05），2班、3班的學(xué)生平均能力不具有顯著性差異（P=0.805）。

3 討論

本文利用Rasch模型對(duì)我校2015級(jí)醫(yī)學(xué)各專業(yè)學(xué)生的概率論與數(shù)理統(tǒng)計(jì)期末考試成績(jī)進(jìn)行了定量分析，主要包括單維度檢驗(yàn)、總體擬合情況、題目與個(gè)體分析、Wright圖、氣泡圖以及題目功能差異分析。根據(jù)研究結(jié)果我們發(fā)現(xiàn)，本次測(cè)試的總體擬合情況較好，但學(xué)生信度（0.64）不是非常高，其原因可能是低能力個(gè)體較少、題目總體難度不高。但出于考查學(xué)生掌握概率論與數(shù)理統(tǒng)計(jì)知識(shí)的情況、檢驗(yàn)教學(xué)效果的目的來講，說明參加測(cè)試的學(xué)生基本上已經(jīng)掌握了概率論與數(shù)理統(tǒng)計(jì)的大部分知識(shí)，這也達(dá)到了測(cè)試的目的，可見該套試題總體較為合理，但對(duì)于諸如單維性檢驗(yàn)差（第28題）、擬合效果不佳（第5題）以及DIF顯著的題目，可以考慮在以后的測(cè)試中進(jìn)一步加以改進(jìn)。從分析結(jié)果來看，學(xué)生總體掌握概率論與數(shù)理統(tǒng)計(jì)知識(shí)的情況較好，教學(xué)效果比較理想。但從性別和不同班級(jí)學(xué)生掌握情況來看，還存在顯著差異，說明在以后的教學(xué)中我們需要重點(diǎn)加強(qiáng)對(duì)男生和1班學(xué)生的督促力度。