亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Rasch模型在試題質(zhì)量分析中的應(yīng)用
        ——以五年級科學(xué)期末試題為例

        2024-01-04 09:12:50江蘇省蘇州市滄浪新城第一實(shí)驗(yàn)小學(xué)校華艷秋
        新課程教學(xué)(電子版) 2023年18期
        關(guān)鍵詞:測量分析質(zhì)量

        江蘇省蘇州市滄浪新城第一實(shí)驗(yàn)小學(xué)校 華艷秋

        一、問題的提出

        《教育部辦公廳關(guān)于加強(qiáng)義務(wù)教育學(xué)??荚嚬芾淼耐ㄖ罚ㄒ韵潞喎Q《通知》)明確指出,“義務(wù)教育學(xué)校考試面對的是未成年學(xué)生,主要發(fā)揮診斷學(xué)情教情、改進(jìn)加強(qiáng)教學(xué)、評價(jià)教學(xué)質(zhì)量等方面功能”,同時(shí)要求“大幅壓減考試次數(shù)”,要求“小學(xué)一二年級不進(jìn)行紙筆考試,義務(wù)教育其他年級由學(xué)校每學(xué)期組織一次期末考試”。這意味著期末試題的質(zhì)量將成為有效實(shí)現(xiàn)考試功能的關(guān)鍵因素,客觀、科學(xué)地分析期末試題質(zhì)量在學(xué)情診斷的有效性和教學(xué)質(zhì)量評價(jià)的真實(shí)性等方面都具有重要意義。通過查閱已有文獻(xiàn)發(fā)現(xiàn),一線教師對試題質(zhì)量研究的關(guān)注度較低。國內(nèi)已有的試題質(zhì)量研究大多聚焦于中學(xué)試題,小學(xué)段的試題質(zhì)量分析研究較少。因此,本文旨在探討運(yùn)用Rasch模型分析小學(xué)段試題質(zhì)量的可行性,以期給廣大一線小學(xué)教師的試題開發(fā)及質(zhì)量分析工作提供助力。

        二、基于項(xiàng)目反應(yīng)理論的Rasch模型分析

        當(dāng)前的試題質(zhì)量分析方法主要源于兩種理論:經(jīng)典測量理論(Classical Test Theory,CTT)和項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)。經(jīng)典測量理論的弱假設(shè)、相對簡單的數(shù)學(xué)模型、簡單明了的數(shù)據(jù)統(tǒng)計(jì)方法等優(yōu)勢,使其得到了迅速發(fā)展和廣泛應(yīng)用。與此同時(shí),它測量結(jié)果的順序性(ordinal)、天花板效應(yīng)、樣本依賴性等缺陷也給測量帶來了更多誤差。項(xiàng)目反應(yīng)理論作為一種非線性概率模型成功填補(bǔ)了經(jīng)典測量理論的不足,利用強(qiáng)假設(shè)克服了測量結(jié)果對樣本的依賴,實(shí)現(xiàn)等距(interval)測量。

        Rasch模型認(rèn)為被試在回答任一試題時(shí),回答正確的概率(P)與被試的能力估計(jì)值和試題難度之間的差距(Bn-Di)存在著某種函數(shù)關(guān)系。這一關(guān)系的函數(shù)表達(dá)式如下:

        式中Bn表示被試n的能力估計(jì)值,Di表示試題i的難度值。那么式(1)表示的就是能力估計(jì)值為Bn的被試n在回答難度為Di的試題i時(shí)正確作答(X=1)的概率(P)。

        三、研究方法

        筆者于2021年1月對S市某小學(xué)五年級學(xué)生進(jìn)行了整體取樣,學(xué)生獨(dú)立完成測試題并當(dāng)堂回收,得有效樣本119份,其中男生59人,女生60人。運(yùn)用Excel 2010統(tǒng)計(jì)作答得分情況并采用Rasch模型分析軟件Winsteps3.72.0對數(shù)據(jù)統(tǒng)計(jì)結(jié)果進(jìn)行分析,分析質(zhì)量參數(shù)包括測量工具整體質(zhì)量分析、試題質(zhì)量分析和試題單維性分析。在此基礎(chǔ)上討論Rasch模型在小學(xué)段試題質(zhì)量分析中的應(yīng)用。

        本次科學(xué)測試卷有五個(gè)大題共49個(gè)計(jì)分點(diǎn),滿分50分。其中標(biāo)簽為“302”的試題為畫圖題,采用0,1,2多級計(jì)分,其余題目均為二級計(jì)分。

        四、應(yīng)用Rasch模型對試卷質(zhì)量進(jìn)行分析

        (一)檢驗(yàn)質(zhì)量參數(shù)及其指標(biāo)

        整體質(zhì)量分析主要包括區(qū)分度與信度(Separation and reliability)和個(gè)人能力-試題匹配度分析(Person-Item Match)兩個(gè)參數(shù)。測評量表的區(qū)分度與信度值包括試題區(qū)分度信度和樣本區(qū)分度信度兩部分。當(dāng)二者的區(qū)分度大于2或信度值(Cronbach's alpha)大于0.8時(shí)可以認(rèn)為試題的區(qū)分度與信度良好。個(gè)人能力-試題匹配度分析(Person-Item Match)參數(shù)表示試題難度值與個(gè)人能力估計(jì)值之間的匹配度。其中題目的難度估計(jì)值通常在-5logit~+5logit范圍之內(nèi)變化,需要將項(xiàng)目難度變化范圍與學(xué)生能力估計(jì)值的變化范圍進(jìn)行比較,力求題目難度能覆蓋不同能力估計(jì)值的學(xué)生,這一過程通常根據(jù)Wright圖(或“懷特圖”)分布來判斷。

        試題標(biāo)準(zhǔn)誤差(S.E.)和試題擬合度(model-datafit)能較大程度地表現(xiàn)出單個(gè)試題的質(zhì)量。標(biāo)準(zhǔn)誤差表示對題目難度估計(jì)的準(zhǔn)確程度,誤差值越接近0,說明題目難度的logit分值精確度越高??山邮艿恼`差范圍通常在0~0.5之間。試題擬合度表示數(shù)據(jù)真實(shí)值與模型期望值之間的擬合關(guān)系,主要關(guān)注四個(gè)指標(biāo):加權(quán)后的平均殘差(Infit MNSQ),未加權(quán)的平均殘差(Outfit MNSQ),加權(quán)后的標(biāo)準(zhǔn)平均殘差(Infit ZSTD,加權(quán)t值),未加權(quán)的標(biāo)準(zhǔn)平均殘差(Outfit ZSTD,未加權(quán)t值)。其中對MNSQ的期待值為1,離1越遠(yuǎn)表明擬合度越不好??山邮艿腗NSQ范圍是0.7-1.3。對ZSTD的期待范圍是-2~+2之間。

        質(zhì)量良好的測評工具應(yīng)當(dāng)是單維的。測評工具的單維性要求指所有試題所檢測的心理特質(zhì)只有一個(gè),學(xué)生在測試中對試題做出響應(yīng)時(shí)不受其他潛在特質(zhì)(latent trait)的影響?;赗asch模型檢驗(yàn)測評工具的單維性一般通過對殘差(MNSQ)進(jìn)行因子分析來判斷。

        (二)整體質(zhì)量分析

        運(yùn)用Winsteps3.72.0對119名學(xué)生的測試結(jié)果進(jìn)行分析,得到結(jié)果如表1所示(N=119)。

        表1 整體質(zhì)量分析數(shù)據(jù)統(tǒng)計(jì)

        Rasch模型中通常將試題難度估計(jì)值設(shè)為0,個(gè)人能力估計(jì)值隨著測試的不同而發(fā)生變化。檢驗(yàn)結(jié)果顯示,本測試卷的個(gè)人能力估計(jì)值為1.99,這意味著本次測試對大多數(shù)學(xué)生來說是比較簡單的,同時(shí)說明該測試卷可能存在著對高水平學(xué)生能力區(qū)分度不高的問題。標(biāo)準(zhǔn)誤差均在0~0.5之間(學(xué)生能力值標(biāo)準(zhǔn)誤.09,試題難度標(biāo)準(zhǔn)誤.21),說明本次測試對學(xué)生能力和試題難度的估計(jì)較為準(zhǔn)確。

        數(shù)據(jù)顯示四個(gè)擬合參數(shù)(Infit MNSQ,Infit ZSTD,Outfit MNSQ,Outfit ZSTD)均在期待范圍內(nèi),這表明本套試題整體擬合性良好,大部分試題具有較高的質(zhì)量。在區(qū)分度與信度方面,試題區(qū)分度表現(xiàn)良好(區(qū)分度3.73>2,信度.93>.8),個(gè)人區(qū)分度和信度略低于理想值(.79<.8),說明部分學(xué)生的能力估計(jì)值無法得到有效區(qū)分,這可能和試題難度偏低有關(guān)。

        基于Rasch模型的測量,可以將順序的觀測數(shù)據(jù)轉(zhuǎn)化為線性的測量結(jié)果,實(shí)現(xiàn)真正的等值測量,這一優(yōu)勢體現(xiàn)在Wright圖中。

        本次測量的Wright圖顯示試題難度分布廣泛且分散,說明不同難度題目的數(shù)量安排是基本合理的;與此同時(shí),大部分學(xué)生能力值位于0以上,其中能力值為2logit值及以上的學(xué)生接近半數(shù),卻只有第11-2題用作區(qū)分;相應(yīng)的,能力值低于0的學(xué)生人數(shù)僅6人卻有大量試題與之對應(yīng)。說明本次測試中大部分試題難度較低,對一半以上的學(xué)生都不具備區(qū)分功能。這一分析結(jié)果與整體質(zhì)量分析數(shù)據(jù)中的信度值(.79<.8)實(shí)現(xiàn)了相互驗(yàn)證。

        (三)試題質(zhì)量分析

        具體試題的質(zhì)量分析包括對標(biāo)準(zhǔn)誤差(S.E.)、模型-數(shù)據(jù)擬合指數(shù)(model-data-fit)的分析,它們可以通過氣泡圖(bubble chart)的表現(xiàn)來加以確定。本次測驗(yàn)結(jié)果的擬合度及誤差表現(xiàn)如圖1所示。圖中X軸表示未加權(quán)的平均殘差,期待范圍是-2~+2。該值大于2時(shí)表示該試題擬合度不足(underfit),小于-2時(shí)表示該試題過度擬合(overfit),均難以對學(xué)生的真實(shí)能力水平加以有效測量或區(qū)分。氣泡半徑的大小表明測量誤差的大小,半徑越大則誤差越大。從圖中可以看出,大部分試題的outfit ZSTD值介于-2到2之間,說明這些試題擬合性良好。但第2-4、3-2、11-2三個(gè)小題擬合不足而第7-5和7-3兩個(gè)小題過度擬合。測量誤差方面,大部分題目的測量誤差在允許范圍內(nèi),但仍有4個(gè)題目的測量誤差較大,分別是2-1、2-2、2-5、5-1,這意味著這些題目的測量結(jié)果的準(zhǔn)確性不足。造成不擬合或誤差大的原因很多,比如被試在考試過程中的偶然嘗試、作弊、創(chuàng)造性作答等,有待結(jié)合題目和作答情況進(jìn)一步進(jìn)行分析,此處不再展開敘述。

        圖1 氣泡圖

        (四)單維性

        為檢驗(yàn)本次測量試題的單維性,采用因子分析的方法進(jìn)行檢驗(yàn),結(jié)果呈現(xiàn)在因子載荷分布圖中,如圖2所示。從圖中可以看出,大部分試題的因子載荷分布在-0.4~+0.4之間,符合單維性要求。但A、b、a三個(gè)小題的單維性表現(xiàn)不佳,查表得出分別對應(yīng)第7-2,5-2和第2-4小題。這表明這三個(gè)小題測試的心理特質(zhì)不止一個(gè),有一個(gè)或多個(gè)因素影響了學(xué)生的作答情況。

        圖2 因子載荷分布圖

        綜上所述,本套測試卷基本滿足信效度和區(qū)分度要求,大部分試題與Rasch模型實(shí)現(xiàn)較好擬合,但試題整體難度較低,對中高能力水平的學(xué)生難以進(jìn)行區(qū)分。同時(shí),部分試題的單維性和擬合性不佳,需要進(jìn)一步分析。ZSTD也接近-2。這意味著過多學(xué)生對這道題反應(yīng)一致,盡管有些學(xué)生的能力水平難以達(dá)到。因此,重復(fù)做第7題并沒有幫助學(xué)生改善他在測量中的表現(xiàn),因此無論是在日常練習(xí)還是質(zhì)量測評中,都盡量不要讓學(xué)生重復(fù)做同一個(gè)題目。另一方面,筆者認(rèn)為,Rasch模型的應(yīng)用能有效幫助一線教師提高自身的命題能力?!锻ㄖ诽岢觯安粩嗵岣呓處熋}水平”。Rasch模型的擬合性分析和單維性分析能幫助教師篩選高質(zhì)量試題,為教師修改試題、提高試題質(zhì)量提供證據(jù)支撐;Wright圖分析則能幫助教師在命題時(shí)兼顧不同能力層次學(xué)生的需求,擴(kuò)大試題難度范圍,合理調(diào)整試題結(jié)構(gòu),使試卷具有更高的質(zhì)量,從而不斷提升教師的命題水平。

        五、分析結(jié)果與啟示

        (一)分析結(jié)果

        通過對S市某小學(xué)五年級科學(xué)期末試題進(jìn)行質(zhì)量分析可以發(fā)現(xiàn),Rasch模型對小學(xué)階段的試題質(zhì)量分析也能進(jìn)行有效評價(jià)。因此,運(yùn)用Rasch模型進(jìn)行試題質(zhì)量分析能幫助教師分析測評結(jié)果的難度、信度、效度、區(qū)分度等。與此同時(shí),Rasch模型能幫助教師篩選和鑒別高質(zhì)量的試題,為后續(xù)工作中測評工具的開發(fā)提供參考。

        (二)啟示

        本次分析結(jié)果還帶給筆者更多啟示。一方面,原題在測量中并不能起到診斷或鞏固作用。如第7大題(包括7-1至7-5共5小題)是做過的原題,在測量中發(fā)現(xiàn),7-3和7-5題是過度擬合,而7-2和7-4的outfit

        猜你喜歡
        測量分析質(zhì)量
        “質(zhì)量”知識鞏固
        隱蔽失效適航要求符合性驗(yàn)證分析
        質(zhì)量守恒定律考什么
        把握四個(gè)“三” 測量變簡單
        做夢導(dǎo)致睡眠質(zhì)量差嗎
        滑動(dòng)摩擦力的測量和計(jì)算
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        滑動(dòng)摩擦力的測量與計(jì)算
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
        測量
        国产精品一级av一区二区| 摸进她的内裤里疯狂揉她动视频 | 4hu四虎永久在线观看| 在线观看免费人成视频| 亚洲天堂免费av在线观看| 久久久精品人妻一区二区三区游戏| 日本少妇浓毛bbwbbwbbw| 在线观看国产精品日韩av| 久久夜色精品国产噜噜噜亚洲av| 熟女少妇精品一区二区三区| 无码人妻精品一区二区三区东京热| 少妇人妻200篇白洁| 久久久久久久尹人综合网亚洲| 人妻少妇中文字幕久久hd高清| 中文字幕日韩精品有码视频| 亚洲精品无码久久久久av麻豆| 一区二区三区放荡人妻| 日本成人中文字幕亚洲一区| 亚洲精品成人无限看| 欧美激情内射喷水高潮| 乱色视频中文字幕在线看| 韩国一区二区三区黄色录像| 蜜臀av无码人妻精品| 亚洲欧洲日产国码无码久久99| AV无码系列一区二区三区| 免费观看人妻av网站| 亚洲伊人一本大道中文字幕| 欧美极品第一页| av男人的天堂手机免费网站| 亚洲熟妇av一区二区三区| 国内揄拍国内精品人妻浪潮av| 欧美日本国产亚洲网站免费一区二区| 亚洲1区第2区第3区在线播放| 人妻av无码一区二区三区| a毛片全部免费播放| 青青草免费在线视频导航| 中文字幕无码乱人伦| 人妻丰满熟妇av无码区免| 热re99久久精品国产66热6| 视频一区二区三区黄色| 久久久久亚洲精品中文字幕|