亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        教育測驗中學(xué)生能力水平與測驗項目難度的Rasch模型分析*
        ——個體能力與題目難度之間的對應(yīng)關(guān)系

        2012-11-27 08:50:44張金勇何妃霞
        當(dāng)代教育科學(xué) 2012年12期
        關(guān)鍵詞:測驗個體測量

        ● 張金勇 何妃霞

        教育測驗中學(xué)生能力水平與測驗項目難度的Rasch模型分析*
        ——個體能力與題目難度之間的對應(yīng)關(guān)系

        ● 張金勇 何妃霞

        本文以2011年貴陽市第八中學(xué)第一次高三英語高考模擬考試為例,使用Rasch分析軟件WINSTEPS對其進行分析,可以得出學(xué)生與學(xué)生、測驗項目與項目以及學(xué)生與測驗項目之間的關(guān)系。研究結(jié)果表明,該試題的內(nèi)容覆蓋了所有能力水平的學(xué)生,且能夠較好地區(qū)分學(xué)生的能力水平。研究結(jié)果得出學(xué)生的能力水平略高于項目的難度水平,對樣本群體的測驗?zāi)繕?biāo)較明確;測驗中間的項目難度水平接近;測驗項目涵蓋的內(nèi)容不夠;缺乏難度較大的項目。

        Rasch模型;WINSTEPS;教育測驗;難度;能力水平

        科學(xué)測評學(xué)生學(xué)業(yè)成就對于改進學(xué)校教學(xué)質(zhì)量、公平評價學(xué)生、促進學(xué)生發(fā)展和教師專業(yè)發(fā)展具有重要意義。而科學(xué)測評學(xué)生學(xué)業(yè)成績,測驗項目與測評目標(biāo)、學(xué)生能力相吻合非常關(guān)鍵。測驗項目的難度是測驗項目質(zhì)量的重要指標(biāo),不僅直接關(guān)系到測驗的可靠性與準(zhǔn)確度,而且還直接或間接地影響到學(xué)生的學(xué)習(xí)態(tài)度和學(xué)習(xí)行為。盡管考生的得分受到評分者的標(biāo)準(zhǔn)把握程度、項目特定等級的難度等因素的影響,但主要決定于考生的能力和測驗項目的難度。因此,如何使測驗項目與被測對象的能力水平一致,是教育測量與考試研究的重要課題。這里我們借助Rasch模型,運用實例在一個連續(xù)尺度上呈現(xiàn)教育測驗的結(jié)果,分析教育測驗質(zhì)量,研究學(xué)生的能力水平和測驗項目難度、學(xué)生與學(xué)生、測驗項目與項目等之間的關(guān)系。本研究對試卷質(zhì)量及考生能力分析具有一定的啟示和借鑒。

        一、研究的理論基礎(chǔ):Rasch模型

        Rasch模型是丹麥數(shù)學(xué)家Georg Rasch(1960)提出的一種潛在特質(zhì)模型,通過個體在題目上的表現(xiàn)來測量不可直接觀察的、潛在的變量,分析測試分?jǐn)?shù)之間的差異。它可以同時估計項目難度和個體能力,是包含考生能力和項目難度層面的雙面模型。

        近年來,國內(nèi)外學(xué)者對Rasch模型的原理進行了較為深入的研究。這一模型以自然科學(xué)領(lǐng)域內(nèi)的客觀測量為標(biāo)桿,為社會科學(xué)領(lǐng)域內(nèi)的測量建立起一套客觀標(biāo)準(zhǔn),在教育和心理測量領(lǐng)域得到廣泛的應(yīng)用,多集中于在CET、教師評分等級、學(xué)生學(xué)業(yè)成就估計、學(xué)生學(xué)業(yè)成績的分析等。如田清源(2006)認(rèn)為Rasch模型對測驗中主觀評分的分析有重要影響,可以降低對學(xué)生成績估計的測量誤差[1];何蓮珍、張潔(2008)的研究結(jié)果顯示Rasch模型在CET口語考試、分?jǐn)?shù)等值等研究中有重要作用[2];Michela Battauz,Ruggero Bellio,Enrico Gori(2008)認(rèn)為通過結(jié)合 Rasch 模型和教師評分可以減少學(xué)生學(xué)業(yè)成就估計的誤差[3]。但大多數(shù)的研究不夠深入,在基礎(chǔ)教育中的應(yīng)用研究也比較缺乏,尤其是在項目難度與考生能力水平分析方面不足。

        Rasch模型有四個最基本的假設(shè):一是每個個體有其特定的能力;二是每個項目有一個難度;三是每個項目的難度可以呈現(xiàn)在同一標(biāo)度上;四是可以計算任何特定觀察分?jǐn)?shù)反應(yīng)概率數(shù)目之間的差異[4]。對于客觀測量,Rasch模型有兩個要求:一是對任何題目,能力高的個體應(yīng)該比能力低的個體有更大可能作出正確回答;二是任何個體在容易題目上的表現(xiàn)應(yīng)該始終好過在困難題目上的表現(xiàn)。[5]Rasch模型是一個理想化的數(shù)學(xué)模型,要求所收集的數(shù)據(jù)必須符合模型的先驗要求,才能實現(xiàn)客觀測量。如果數(shù)據(jù)與模型不擬合,就必須拒絕數(shù)據(jù),而不是模型[6]。

        依據(jù)上述觀點,運用Rasch模型,可以估計測驗項目之間、學(xué)生之間以及測驗項目與學(xué)生之間的關(guān)系,可以在同一個圖形中使用等距的單位來描述個體和項目的潛在特質(zhì)[7]。Rasch模型通過原始分?jǐn)?shù)來計算學(xué)生的能力和項目的難度,把學(xué)生能力和項目難度的測量單位轉(zhuǎn)換為等距的logit。該模型中的能力參數(shù)與難度參數(shù)可以真正相互獨立地估計出來,且學(xué)生總分和項目總分是能力參數(shù)與難度參數(shù)的充分估計值。因此,Rasch模型可以為學(xué)生和項目建立一個等距分?jǐn)?shù)。另外,Rasch模型對分布在中間的項目和學(xué)生的估計要比分布在邊緣的項目和學(xué)生更精確。Rasch模型通過學(xué)生對測驗項目的反應(yīng)來測量個體的能力水平和測驗的難度水平。根據(jù)Rasch模型原理,學(xué)生答對特定項目的反應(yīng)概率可以用個體能力與該題目難度的一個簡單函數(shù)來表示,即其中,Pni是考生正確作答項目i的概率,(1-Pni)是考生答錯項目i的概率,Bn是考生n的能力值,Di是項目i的難度。因此,個體能力和項目難度共同決定了個體對特定項目正確反應(yīng)的概率。學(xué)生能力越高,對項目正確回答的概率越大。如果個體的能力等于項目的難度,那么正確回答的概率為0.5;如果個體的能力顯著大于項目難度,那么正確回答的概率接近1;相反,如果個體的能力小于項目難度,那么正確回答的概率接近0[8]。

        二、研究數(shù)據(jù)的選取與處理

        本研究的樣本學(xué)校學(xué)生是貴州省貴陽市第八中學(xué)高三學(xué)生。研究數(shù)據(jù)來源于貴州省貴陽市第八中學(xué)高三學(xué)生第一次英語高考模擬考試。數(shù)據(jù)總數(shù)為643個,剔除無效數(shù)據(jù)12個,有效數(shù)據(jù)個數(shù)為631,數(shù)據(jù)有效率高達(dá)98%。用社會科學(xué)統(tǒng)計軟件包SPSS15.0對數(shù)據(jù)進行預(yù)處理,并用WINSTEPS3.38作Rasch分析。

        三、研究結(jié)果與分析

        (一)樣本學(xué)校學(xué)生測驗的經(jīng)典理論分析

        圖1呈現(xiàn)了樣本學(xué)校學(xué)生的分?jǐn)?shù)分布情況。其中橫坐標(biāo)表示學(xué)生的得分率。圖1表明,大部分學(xué)生處在高分端,對知識的掌握較好,學(xué)生成績呈負(fù)偏態(tài)分布。

        (二)樣本學(xué)校學(xué)生測驗的Rasch模型分析

        1.測驗項目的難度與學(xué)生能力水平整體近似正態(tài)分布,學(xué)生能力水平相對高于測驗項目的難度水平。

        圖2中,橫軸右邊是模擬測驗項目難度的分布,左邊是學(xué)生能力水平的分布。圖2清晰地呈現(xiàn)了測驗項目難度和學(xué)生能力的分布形態(tài),都近似于正態(tài)分布。同時,還可知,學(xué)生能力與測驗項目之間的關(guān)系——橫軸原點處表示個體正確回答題目的概率為50%,能力在原點以上的學(xué)生對原點以下的項目正確回答的概率大于50%。從圖中可以看出學(xué)生的能力分布寬度大約為6.4個logit,項目難度的分布寬度約為5個logit,由此可以看出學(xué)生的能力水平相對高于測驗項目的難度水平。也就是說,作為高考的模擬測驗,其項目難度設(shè)計與學(xué)生的實際水平之間不太吻合,難度偏低,這樣就會使測驗的區(qū)分度降低。

        2.測驗項目難度分布不均勻,試題便易,區(qū)分度較低

        橫軸上部分清晰地呈現(xiàn)了65個項目之間的關(guān)系,項目間的距離代表項目之間的難易程度差異,越靠近頂端的項目難度越大,越靠近下端難度越小。同時項目之間的距離越近,說明項目的難度水平越接近,對學(xué)生的能力水平進行估計時誤差也較大。圖的左邊呈現(xiàn)學(xué)生能力的分布情況,越靠近圖的頂端,學(xué)生能力越強,對項目的答對率越高。頂端的項目適合那些能力水平較高的學(xué)生,下端的項目適合能力水平較低的學(xué)生。從圖2可以看出,模擬測驗中較難的題目偏少,容易的試題偏多,試題之間的難度水平差距不大,難度相近的試題分布較為集中,這樣就不能對高低不同能力水平的學(xué)生做出很好的區(qū)分,高考模擬測驗的有效性就不太高。

        3.學(xué)生能力水平差別較大,能力水平與部分測驗項目呈負(fù)相關(guān),測驗項目與測驗?zāi)繕?biāo)基本一致

        表1 樣本學(xué)校高三學(xué)生RASCH模型項目信息表

        表1中難度項目和學(xué)生能力測量的Rasch標(biāo)準(zhǔn)誤(第三列Rasch S.E)代表估計的不確定性。表中第二列代表學(xué)生在65道題目上答對的學(xué)生人數(shù)。Outfit MNSQ表示標(biāo)準(zhǔn)殘差的均方。一個項目的Outfit MNSQ值越大,表明個體能力水平和項目難度水平差異顯著時,能力水平高的學(xué)生答錯了簡單項目,能力水平低的學(xué)生正確回答了較難的項目,學(xué)生能力水平差別也較大,能力水平與回答題目呈現(xiàn)負(fù)相關(guān)。例如項目23是較容易的項目,但Outfit MNSQ值為1.21,表明一些高能力水平的學(xué)生未能對該項目作出正確回答;項目8是較難的項目,Outfit MNSQ值為1.33,說明一些低能力水平的學(xué)生正確回答了該項目。這兩種情況的試題都是測驗設(shè)計時不想出現(xiàn)的結(jié)果,教師需要對這樣的試題進行修改。Infit MNSQ表示加權(quán)后的殘差均方。對于一個特定項目,如果Infit MNSQ值較大,說明與項目難度水平接近的學(xué)生作答的方式與模型不一致,如項目7和項目35,但總體基本符合樣本學(xué)校學(xué)生的能力水平。從表1第六列可以看出,所有測驗項目的相關(guān)系數(shù)都是正向的,表明測驗項目與測驗?zāi)繕?biāo)基本一致,測量相同的潛在結(jié)構(gòu)。

        根據(jù) Rasch模型原理,Infit MNSQ和 Outfit MNSQ的理想值為1,但在實際項目分析中,Infit MNSQ和Outfit MNSQ值在0.5-1.5之間即可認(rèn)為與模型擬合。此外,Rasch標(biāo)準(zhǔn)誤不超過±0.75也在可接受的范圍。從表1中的結(jié)果可以看出,測驗分?jǐn)?shù)的Rasch分析表明,Rasch標(biāo)準(zhǔn)誤、Infit MNSQ以及Outfit MNSQ值均在可接受的范圍內(nèi),即可以對測驗項目和學(xué)生能力做出較全面、客觀的評價。

        4.測驗項目難度接近,順序不清晰,對學(xué)生能力的估計不夠精確

        圖3中用氣泡代表每個項目,氣泡的大小代表Rasch標(biāo)準(zhǔn)誤的比例。氣泡的比例越小,說明該測驗對學(xué)生能力水平的估計越精確;比例越大,對學(xué)生能力水平估計的誤差就越大。理想狀態(tài)下,測驗項目應(yīng)靠近氣泡圖的中軸線。從圖中可以看出,許多氣泡重合了,表明項目的難度非常接近,從而導(dǎo)致項目順序不清晰。項目越簡單,學(xué)生的通過率越高,對學(xué)生能力的估計就不精確,代表項目的氣泡就越大,就不能對學(xué)生能力做出很好的估計和區(qū)分,如項目36、26、49等。位于氣泡圖左邊的項目,如25和51,兩個項目的Infit MNSQ和Outfit MNSQ值都小于1,說明與模型擬合比預(yù)期好,學(xué)生在測驗項目上的答對率高。位于氣泡圖右邊的項目,如 7、15、19、40 和 47,表明除了受到項目難度和學(xué)生能力水平的影響外,還受到較多外在因素的影響。圖中8、18、34和35都是很難的項目,它們的Outfit小于1.3,這可能是由于低能力的學(xué)生猜測正確造成的。

        四、研究結(jié)論與討論

        理想的測驗應(yīng)該是測驗項目集中在學(xué)生能力分布周圍。通過Rasch模型分析,本測驗的項目難度水平與學(xué)生能力水平基本相當(dāng),但個體的能力水平略高于項目的難度水平。從表1中可以看出大多數(shù)測驗項目與測驗的目標(biāo)接近,這說明大多數(shù)項目是有效的,該測驗?zāi)軌蜉^好的測出預(yù)測的知識和技能。同分布在兩端的項目和學(xué)生相比,該測驗對分布在測驗中部項目難度和中等能力水平的學(xué)生做出的估計更精確。例如項目26,根據(jù)表1中的數(shù)據(jù),它的Rasch分析誤差最大,項目26的參數(shù)結(jié)果不如其他項目的估計結(jié)果精確,對學(xué)生的測驗?zāi)繕?biāo)也不夠明確。因此,根據(jù)分析結(jié)果,在設(shè)計測驗或建立題庫時,像26這樣的項目需要進一步的修改和探討,以便使其更具有針對性和有效性。

        Maja Planinic,Lana Lvanjek,Ana Susac(2010)在一項研究中發(fā)現(xiàn),針對測驗的寬度不足以覆蓋樣本學(xué)生的能力范圍,測驗中部有許多項目的距離接近,測驗兩端沒有充足的項目,這時需要在測驗的兩端增加項目來提高測驗的效度。[9]依據(jù)這一研究結(jié)果,該測驗對于該樣本學(xué)生來說較簡單,需要在測驗的兩端增加一些項目,比如像8、18、35這樣的項目,刪除一些中間的項目,以便能夠更加精確的估計學(xué)生的能力。同時,也需要增加測驗的總體難度來提高測驗的上限。另外,該測驗中有些項目是重疊的,測量的內(nèi)容是相同的,這就需要對試卷結(jié)構(gòu)進行調(diào)整。調(diào)整時要根據(jù)學(xué)生能力分布的大致情況和測驗項目難度的分布情況,以及測驗?zāi)繕?biāo),刪減或合并相同內(nèi)容的題目,增加新內(nèi)容,使測驗充分體現(xiàn)測驗?zāi)繕?biāo),提高的內(nèi)容效度。另外,可以針對學(xué)生實際掌握和運用知識的情況,進行教育教學(xué)調(diào)整,使教學(xué)更能適應(yīng)學(xué)生的實際水平。因此,運用Rasch模型對測驗進行分析,不僅能夠?qū)y驗分?jǐn)?shù)做出比較全面的解釋,同時對測驗項目內(nèi)容和學(xué)生的能力水平都提供了一個合理的評價依據(jù)。

        客觀準(zhǔn)確地估計出考生的能力水平是測評活動追求的最終目標(biāo),而測驗要達(dá)到理想的信度和效度,測驗項目的難度必須與被試的能力水平相匹配??偟膩砜?,該測驗項目基本符合樣本學(xué)生的能力水平,但也存在幾個顯著的問題,如測驗中間的項目區(qū)分度不明顯、學(xué)生能力水平高于項目的難度水平、項目涵蓋的內(nèi)容不夠、缺乏難度較大的項目等。這就要求高中教師在模擬考試中,要進行考試研究,側(cè)重于分析測驗項目的問題以及考試的實際能力,而不是側(cè)重于多次測量;進一步研究如何使試題既反映考生的真實水平,又反映測量目標(biāo),保證測驗的科學(xué)性和有效性。同時,Rasch分析的結(jié)果,可以使教師對學(xué)生的知識掌握水平有一個清晰的了解,為老師的教學(xué)和學(xué)生的學(xué)習(xí)提供一個導(dǎo)向,使得學(xué)習(xí)、教學(xué)和測驗的編制更有針對性,促進基礎(chǔ)教育改革的深入發(fā)展。

        [1]田清源.主觀評分中多面Rasch模型的應(yīng)用[J].心理學(xué)探新,2006,26(1):70-73.

        [2]何蓮珍,張潔.多層面Rasch模型下大學(xué)英語四、六級口語考試(CET-SET)信度研究[J].現(xiàn)代外語,2008:31(4):388-437.

        [3]Michela Battauz,Reggero Bellio,Enrico Gori.Reducing Measurement Error in Student Achievement Estimation[J].PSYCHOMETRIKA,2008,(2):289-234.

        [4]Trevor G.Bond,ChristineM.Fox.Applying the Rasch Model:Fundamental Measurement in the Human Sciences[M].Lawrence Erlbaum Associates,2007.26.

        [5]Wright,B.D.,&Stone,M.H.(1979).Best test design Chicago:MESA Press.

        [6]晏子.心理科學(xué)領(lǐng)域內(nèi)的客觀測量——Rasch模型之特點及發(fā)展趨勢[J].心理科學(xué)進展,2010,(18):1298-1305.

        [7JDouglas H.Clements,Julie H.Sarama,Xiufeng H.Liu.Development of a measure of early mathematics achievement using the Rasch model:the Research-Based Early Maths Assessment[J].Educational Psychology,2008,(28):457-482.

        [8][9]Maja Planinic,Lana Ivanjek,Ana Susac.Rasch modelbased analysis of the Force Concept Inventory[J].Phisics Education Research.2010,(6).

        張金勇/貴州師范學(xué)院教育科學(xué)學(xué)院講師 何妃霞/貴州師范大學(xué)教育科學(xué)學(xué)院碩士研究生

        *本研究為貴州省高等學(xué)校教學(xué)質(zhì)量與教學(xué)改革工程重點項目“基于PBL理論改進心理教育測量教學(xué)改革研究”(項目批準(zhǔn)號:黔高教發(fā)[2011]28-1)、貴州師范大學(xué)精品課程“心理測量”建設(shè)項目階段性成果。

        (責(zé)任編輯:曾慶偉)

        猜你喜歡
        測驗個體測量
        把握四個“三” 測量變簡單
        關(guān)注個體防護裝備
        勞動保護(2019年7期)2019-08-27 00:41:02
        滑動摩擦力的測量和計算
        《新年大測驗》大揭榜
        趣味(語文)(2018年7期)2018-06-26 08:13:48
        滑動摩擦力的測量與計算
        兩個處理t測驗與F測驗的數(shù)學(xué)關(guān)系
        考試周刊(2016年88期)2016-11-24 13:30:50
        測量
        個體反思機制的缺失與救贖
        How Cats See the World
        你知道嗎?
        一本之道日本熟妇人妻| 精品一区二区av天堂色偷偷| 少妇被又大又粗又爽毛片久久黑人| 激情综合色综合啪啪五月丁香| 人妻精品动漫h无码网站| 国产精品入口牛牛影视| 亚洲AV秘 无码一区二区在线| 国产夫妻自偷自拍第一页| 狠狠躁天天躁无码中文字幕图| 久久人妻无码一区二区| 人人妻人人澡人人爽欧美精品| 欧美人与动人物牲交免费观看| 亚洲影院天堂中文av色| 久久精品—区二区三区无码伊人色| 在线a人片免费观看国产| 国产福利一区二区三区视频在线看| 久久国产精品免费久久久| 男女裸体做爰视频高清| 琪琪的色原网站| 欧美成人久久久| 国产美女高潮流的白浆久久| 一二三区无线乱码中文在线| 国产精品成人久久电影| 成人欧美一区二区三区白人| 亚洲青青草视频在线播放| 日本在线无乱码中文字幕| 国产精品亚洲精品国产| 亚洲av无码专区在线| 国产真实强被迫伦姧女在线观看| 亚洲国产成人久久一区www妖精| av成人资源在线播放| 国产精品国产三级第一集| 国产丝袜无码一区二区三区视频| 亚洲欧美日韩中文v在线| 男女男生精精品视频网站| 精品中文字幕在线不卡| 97日日碰曰曰摸日日澡| 精品免费在线| 国产精品三级1区2区3区| 久久婷婷综合激情五月| 女人张开腿让男桶喷水高潮|