亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Rasch模型在試題質(zhì)量分析中的應(yīng)用
——以五年級科學(xué)期末試題為例

2024-01-04 09:12:50江蘇省蘇州市滄浪新城第一實(shí)驗(yàn)小學(xué)校華艷秋

新課程教學(xué)(電子版) 2023年18期

江蘇省蘇州市滄浪新城第一實(shí)驗(yàn)小學(xué)校華艷秋

一、問題的提出

《教育部辦公廳關(guān)于加強(qiáng)義務(wù)教育學(xué)?？荚嚬芾淼耐ㄖ罚ㄒ韵潞喎Q《通知》）明確指出，“義務(wù)教育學(xué)校考試面對的是未成年學(xué)生，主要發(fā)揮診斷學(xué)情教情、改進(jìn)加強(qiáng)教學(xué)、評價(jià)教學(xué)質(zhì)量等方面功能”，同時(shí)要求“大幅壓減考試次數(shù)”，要求“小學(xué)一二年級不進(jìn)行紙筆考試，義務(wù)教育其他年級由學(xué)校每學(xué)期組織一次期末考試”。這意味著期末試題的質(zhì)量將成為有效實(shí)現(xiàn)考試功能的關(guān)鍵因素，客觀、科學(xué)地分析期末試題質(zhì)量在學(xué)情診斷的有效性和教學(xué)質(zhì)量評價(jià)的真實(shí)性等方面都具有重要意義。通過查閱已有文獻(xiàn)發(fā)現(xiàn)，一線教師對試題質(zhì)量研究的關(guān)注度較低。國內(nèi)已有的試題質(zhì)量研究大多聚焦于中學(xué)試題，小學(xué)段的試題質(zhì)量分析研究較少。因此，本文旨在探討運(yùn)用Rasch模型分析小學(xué)段試題質(zhì)量的可行性，以期給廣大一線小學(xué)教師的試題開發(fā)及質(zhì)量分析工作提供助力。

二、基于項(xiàng)目反應(yīng)理論的Rasch模型分析

當(dāng)前的試題質(zhì)量分析方法主要源于兩種理論：經(jīng)典測量理論（Classical Test Theory，CTT）和項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）。經(jīng)典測量理論的弱假設(shè)、相對簡單的數(shù)學(xué)模型、簡單明了的數(shù)據(jù)統(tǒng)計(jì)方法等優(yōu)勢，使其得到了迅速發(fā)展和廣泛應(yīng)用。與此同時(shí)，它測量結(jié)果的順序性（ordinal）、天花板效應(yīng)、樣本依賴性等缺陷也給測量帶來了更多誤差。項(xiàng)目反應(yīng)理論作為一種非線性概率模型成功填補(bǔ)了經(jīng)典測量理論的不足，利用強(qiáng)假設(shè)克服了測量結(jié)果對樣本的依賴，實(shí)現(xiàn)等距（interval）測量。

Rasch模型認(rèn)為被試在回答任一試題時(shí)，回答正確的概率（P）與被試的能力估計(jì)值和試題難度之間的差距（Bn-Di）存在著某種函數(shù)關(guān)系。這一關(guān)系的函數(shù)表達(dá)式如下：

式中Bn表示被試n的能力估計(jì)值，Di表示試題i的難度值。那么式（1）表示的就是能力估計(jì)值為Bn的被試n在回答難度為Di的試題i時(shí)正確作答（X＝1）的概率（P）。

三、研究方法

筆者于2021年1月對S市某小學(xué)五年級學(xué)生進(jìn)行了整體取樣，學(xué)生獨(dú)立完成測試題并當(dāng)堂回收，得有效樣本119份，其中男生59人，女生60人。運(yùn)用Excel 2010統(tǒng)計(jì)作答得分情況并采用Rasch模型分析軟件Winsteps3.72.0對數(shù)據(jù)統(tǒng)計(jì)結(jié)果進(jìn)行分析，分析質(zhì)量參數(shù)包括測量工具整體質(zhì)量分析、試題質(zhì)量分析和試題單維性分析。在此基礎(chǔ)上討論Rasch模型在小學(xué)段試題質(zhì)量分析中的應(yīng)用。

本次科學(xué)測試卷有五個(gè)大題共49個(gè)計(jì)分點(diǎn)，滿分50分。其中標(biāo)簽為“302”的試題為畫圖題，采用0，1，2多級計(jì)分，其余題目均為二級計(jì)分。

四、應(yīng)用Rasch模型對試卷質(zhì)量進(jìn)行分析

（一）檢驗(yàn)質(zhì)量參數(shù)及其指標(biāo)

整體質(zhì)量分析主要包括區(qū)分度與信度（Separation and reliability）和個(gè)人能力-試題匹配度分析（Person-Item Match）兩個(gè)參數(shù)。測評量表的區(qū)分度與信度值包括試題區(qū)分度信度和樣本區(qū)分度信度兩部分。當(dāng)二者的區(qū)分度大于2或信度值（Cronbach's alpha）大于0.8時(shí)可以認(rèn)為試題的區(qū)分度與信度良好。個(gè)人能力-試題匹配度分析（Person-Item Match）參數(shù)表示試題難度值與個(gè)人能力估計(jì)值之間的匹配度。其中題目的難度估計(jì)值通常在-5logit～＋5logit范圍之內(nèi)變化，需要將項(xiàng)目難度變化范圍與學(xué)生能力估計(jì)值的變化范圍進(jìn)行比較，力求題目難度能覆蓋不同能力估計(jì)值的學(xué)生，這一過程通常根據(jù)Wright圖（或“懷特圖”）分布來判斷。

試題標(biāo)準(zhǔn)誤差（S.E.）和試題擬合度（model-datafit）能較大程度地表現(xiàn)出單個(gè)試題的質(zhì)量。標(biāo)準(zhǔn)誤差表示對題目難度估計(jì)的準(zhǔn)確程度，誤差值越接近0，說明題目難度的logit分值精確度越高?？山邮艿恼`差范圍通常在0～0.5之間。試題擬合度表示數(shù)據(jù)真實(shí)值與模型期望值之間的擬合關(guān)系，主要關(guān)注四個(gè)指標(biāo)：加權(quán)后的平均殘差（Infit MNSQ），未加權(quán)的平均殘差（Outfit MNSQ），加權(quán)后的標(biāo)準(zhǔn)平均殘差（Infit ZSTD，加權(quán)t值），未加權(quán)的標(biāo)準(zhǔn)平均殘差（Outfit ZSTD，未加權(quán)t值）。其中對MNSQ的期待值為1，離1越遠(yuǎn)表明擬合度越不好?？山邮艿腗NSQ范圍是0.7-1.3。對ZSTD的期待范圍是-2～＋2之間。

質(zhì)量良好的測評工具應(yīng)當(dāng)是單維的。測評工具的單維性要求指所有試題所檢測的心理特質(zhì)只有一個(gè)，學(xué)生在測試中對試題做出響應(yīng)時(shí)不受其他潛在特質(zhì)（latent trait）的影響?；赗asch模型檢驗(yàn)測評工具的單維性一般通過對殘差（MNSQ）進(jìn)行因子分析來判斷。

（二）整體質(zhì)量分析

運(yùn)用Winsteps3.72.0對119名學(xué)生的測試結(jié)果進(jìn)行分析，得到結(jié)果如表1所示（N＝119）。

表1 整體質(zhì)量分析數(shù)據(jù)統(tǒng)計(jì)

Rasch模型中通常將試題難度估計(jì)值設(shè)為0，個(gè)人能力估計(jì)值隨著測試的不同而發(fā)生變化。檢驗(yàn)結(jié)果顯示，本測試卷的個(gè)人能力估計(jì)值為1.99，這意味著本次測試對大多數(shù)學(xué)生來說是比較簡單的，同時(shí)說明該測試卷可能存在著對高水平學(xué)生能力區(qū)分度不高的問題。標(biāo)準(zhǔn)誤差均在0～0.5之間（學(xué)生能力值標(biāo)準(zhǔn)誤.09，試題難度標(biāo)準(zhǔn)誤.21），說明本次測試對學(xué)生能力和試題難度的估計(jì)較為準(zhǔn)確。

數(shù)據(jù)顯示四個(gè)擬合參數(shù)（Infit MNSQ，Infit ZSTD，Outfit MNSQ，Outfit ZSTD）均在期待范圍內(nèi)，這表明本套試題整體擬合性良好，大部分試題具有較高的質(zhì)量。在區(qū)分度與信度方面，試題區(qū)分度表現(xiàn)良好（區(qū)分度3.73＞2，信度.93＞.8），個(gè)人區(qū)分度和信度略低于理想值（.79＜.8），說明部分學(xué)生的能力估計(jì)值無法得到有效區(qū)分，這可能和試題難度偏低有關(guān)。

基于Rasch模型的測量，可以將順序的觀測數(shù)據(jù)轉(zhuǎn)化為線性的測量結(jié)果，實(shí)現(xiàn)真正的等值測量，這一優(yōu)勢體現(xiàn)在Wright圖中。

本次測量的Wright圖顯示試題難度分布廣泛且分散，說明不同難度題目的數(shù)量安排是基本合理的；與此同時(shí)，大部分學(xué)生能力值位于0以上，其中能力值為2logit值及以上的學(xué)生接近半數(shù)，卻只有第11-2題用作區(qū)分；相應(yīng)的，能力值低于0的學(xué)生人數(shù)僅6人卻有大量試題與之對應(yīng)。說明本次測試中大部分試題難度較低，對一半以上的學(xué)生都不具備區(qū)分功能。這一分析結(jié)果與整體質(zhì)量分析數(shù)據(jù)中的信度值（.79＜.8）實(shí)現(xiàn)了相互驗(yàn)證。

（三）試題質(zhì)量分析

具體試題的質(zhì)量分析包括對標(biāo)準(zhǔn)誤差（S.E.）、模型-數(shù)據(jù)擬合指數(shù)（model-data-fit）的分析，它們可以通過氣泡圖（bubble chart）的表現(xiàn)來加以確定。本次測驗(yàn)結(jié)果的擬合度及誤差表現(xiàn)如圖1所示。圖中X軸表示未加權(quán)的平均殘差，期待范圍是-2～＋2。該值大于2時(shí)表示該試題擬合度不足（underfit），小于-2時(shí)表示該試題過度擬合（overfit），均難以對學(xué)生的真實(shí)能力水平加以有效測量或區(qū)分。氣泡半徑的大小表明測量誤差的大小，半徑越大則誤差越大。從圖中可以看出，大部分試題的outfit ZSTD值介于-2到2之間，說明這些試題擬合性良好。但第2-4、3-2、11-2三個(gè)小題擬合不足而第7-5和7-3兩個(gè)小題過度擬合。測量誤差方面，大部分題目的測量誤差在允許范圍內(nèi)，但仍有4個(gè)題目的測量誤差較大，分別是2-1、2-2、2-5、5-1，這意味著這些題目的測量結(jié)果的準(zhǔn)確性不足。造成不擬合或誤差大的原因很多，比如被試在考試過程中的偶然嘗試、作弊、創(chuàng)造性作答等，有待結(jié)合題目和作答情況進(jìn)一步進(jìn)行分析，此處不再展開敘述。

圖1 氣泡圖

（四）單維性

為檢驗(yàn)本次測量試題的單維性，采用因子分析的方法進(jìn)行檢驗(yàn)，結(jié)果呈現(xiàn)在因子載荷分布圖中，如圖2所示。從圖中可以看出，大部分試題的因子載荷分布在-0.4～＋0.4之間，符合單維性要求。但A、b、a三個(gè)小題的單維性表現(xiàn)不佳，查表得出分別對應(yīng)第7-2，5-2和第2-4小題。這表明這三個(gè)小題測試的心理特質(zhì)不止一個(gè)，有一個(gè)或多個(gè)因素影響了學(xué)生的作答情況。

圖2 因子載荷分布圖

綜上所述，本套測試卷基本滿足信效度和區(qū)分度要求，大部分試題與Rasch模型實(shí)現(xiàn)較好擬合，但試題整體難度較低，對中高能力水平的學(xué)生難以進(jìn)行區(qū)分。同時(shí)，部分試題的單維性和擬合性不佳，需要進(jìn)一步分析。ZSTD也接近-2。這意味著過多學(xué)生對這道題反應(yīng)一致，盡管有些學(xué)生的能力水平難以達(dá)到。因此，重復(fù)做第7題并沒有幫助學(xué)生改善他在測量中的表現(xiàn)，因此無論是在日常練習(xí)還是質(zhì)量測評中，都盡量不要讓學(xué)生重復(fù)做同一個(gè)題目。另一方面，筆者認(rèn)為，Rasch模型的應(yīng)用能有效幫助一線教師提高自身的命題能力?！锻ㄖ诽岢觯安粩嗵岣呓處熋}水平”。Rasch模型的擬合性分析和單維性分析能幫助教師篩選高質(zhì)量試題，為教師修改試題、提高試題質(zhì)量提供證據(jù)支撐；Wright圖分析則能幫助教師在命題時(shí)兼顧不同能力層次學(xué)生的需求，擴(kuò)大試題難度范圍，合理調(diào)整試題結(jié)構(gòu)，使試卷具有更高的質(zhì)量，從而不斷提升教師的命題水平。

五、分析結(jié)果與啟示

（一）分析結(jié)果

通過對S市某小學(xué)五年級科學(xué)期末試題進(jìn)行質(zhì)量分析可以發(fā)現(xiàn)，Rasch模型對小學(xué)階段的試題質(zhì)量分析也能進(jìn)行有效評價(jià)。因此，運(yùn)用Rasch模型進(jìn)行試題質(zhì)量分析能幫助教師分析測評結(jié)果的難度、信度、效度、區(qū)分度等。與此同時(shí)，Rasch模型能幫助教師篩選和鑒別高質(zhì)量的試題，為后續(xù)工作中測評工具的開發(fā)提供參考。

（二）啟示

本次分析結(jié)果還帶給筆者更多啟示。一方面，原題在測量中并不能起到診斷或鞏固作用。如第7大題（包括7-1至7-5共5小題）是做過的原題，在測量中發(fā)現(xiàn)，7-3和7-5題是過度擬合，而7-2和7-4的outfit