亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        教育考試中短測驗的分析方法——基于兩種項目反應理論方法的比較研究

        2012-11-08 08:05:48袁淑莉趙守盈
        中國考試 2012年10期
        關鍵詞:同質性測驗試卷

        何 壯 袁淑莉 趙守盈

        1 前言

        采用專題的方式命題是現代考試中的一種常見的方式,如高考英語全國卷中聽力、閱讀、寫作等內容均可視為一個專題;文科綜合試卷中,政治、歷史、地理各成一個專題。這些專題的題目數量都很少,如英語試卷中聽力20題、閱讀20題、寫作2題;文科綜合選擇題中政治12題、歷史12題、地理11題。短測驗在教育測量中非常流行,測驗質量一直是命題者關注的問題。

        命題質量關系到評價結果的客觀公正,為確保測驗質量,教育測量學者提出了一系列的方法。近年來,以項目反應理論(Item Response Theory,IRT)為代表的現代測量理論逐漸成為教育測量的主流,幫助教育者通過難度、區(qū)分度、猜測度、一致性等了解試卷質量,對考試實踐產生了深遠的影響。

        2 兩種項目反應理論的關系

        按照項目分析時所用統(tǒng)計量的不同,項目反應理論可以分為參數項目反應理論(Parameter Item Response Theory,P-IRT)和非參數項目反應理論(Non-parameter Item Response Theory,NIRT)。P-IRT模型以區(qū)分度a、難度b、猜測度c、能力參數θ、信息量I等統(tǒng)計量為參數進行項目分析。常見的P-IRT模型有Rasch模型、Logistic模型、等級反應模型等。N-IRT使用正答概率的次序、哥特曼錯誤數、同質性系數H(coefficients of homogeneity)等指標進行項目分析。目前在教育測量中運用最為廣泛的N-IRT 模型是摩根模型(Mokken Model)[1]。

        P-IRT多應用于大試題量、大樣本的測驗中。在處理短測驗、小樣本數據時P-IRT存在很大的誤差,N-IRT理論可以彌補這一缺陷[2],幫助研究者全面了解測驗的質量。兩種理論都遵循IRT的基本假設:潛在特質單維、被試作答局部獨立、項目特征曲線(item characteristic curve,ICC)單調遞增。在摩根模型中,如果測驗數據滿足三個假設,就構成了單調同質模型(monotonely homogeneous model,MH)[3]。其ICC曲線類似于P-IRT中的Logistic模型:每個題目的ICC曲線都滿足單調遞增,但由于區(qū)分度不同,ICC曲線可能相交(圖1-1)。如果數據擬合MH模型,說明被試能力與試題得分之間單調相關。P-IRT中用擬合指數等進行維度檢驗,擬合差則說明測量結果中可能受到了目標特質之外的其它因素的影響。如Rasch模型中的Outfit MNSQ和Infit MNSQ,理想值為1,越接近理想值擬合越好,測驗過程沒有受到潛在特質之外的因素影響[4]。

        如果測驗數據滿足這三個假設且不同題目的ICC曲線不相交(N-IRT中稱之為題目間單調)這就構成了摩根模型中的雙重單調模型(doubly monotone model,DM)[3]。DM模型可以用來對試卷進行項目功能差異(differential item functioning ,DIF)檢驗。一份優(yōu)秀的試卷要求試題難度排序具有不變性的特點。即對于同一群體的不同子群體(如考試中的男、女兩個子群體),按照正答率對試題排序,排序結果應當一致。出現不一致的情況則表明不同子群體在同一題目上的正答率不同,這些題目可能存在DIF。P-IRT中也有許多方法進行DIF檢驗。體現在ICC曲線上,不同被試子群體的ICC曲線不重合(圖1-3),曲線越不重合,DIF越嚴重。

        圖1 ICC曲線

        3 分析實例

        3.1 研究樣本及數據來源

        本研究的樣本是貴州省貴陽市某高三文科班學生。研究數據為貴陽市2011年一模文綜考試的地理部分,共11個題目。樣本量為194人,其中,男生71人,女生123人。

        3.2.1 Rasch分析結果

        Rasch模型是一種單參數模型,本研究選擇該模型對數據進行P-IRT分析,并與N-IRT的分析結果進行比較。Rasch分析采用Winsteps軟件。利用Rasch模型對試卷進行分析可以得到難度b、信息量I、擬合指數等參數(表1)。

        表1 Rasch分析結果

        圖2 Rasch分析信息曲線

        Rasch分析結果顯示Infit MNSQ 均值為1.00、Outfit MNSQ均值為0.97。擬合指數等于或接近理想值1[5],說明數據與模型擬合良好,測量過程沒有受到目標特質之外的因素影響。整套試題測量的特質為地理知識能力。

        一般認為試題的難度應在[-2,2]之間,難度太大(>2)或太?。ǎ?2)的題目對潛在特質的測量效用不大[6]。這套試題中有兩個題目(題目2、10)的難度大于2,超出上述標準。對剩余9個題目難度作進一步分析,發(fā)現有6個題目難度為負,占總數的66%。這說明對樣本群體來說這套試題比較簡單。測驗信息函數表示能力估計的精確程度,它被定義為測量誤差平方[SE(θ)2]的倒數[7]。測驗信息曲線(圖2)的峰值對應的能力值為-0.35,表明這套試題在對于地理知識能力中等偏低的學生測量精度最高。峰值處的信息量為2.125。一般認為一個好的試卷,測驗誤差應當在0.25以下,信息量為16;一個更好的試卷,測驗誤差在0.2以下,信息量為25[8]。地理試卷的測驗信息未達到上述標準。測驗信息量是全部題目信息量加總后得到的,整套試卷信息量太低可能與每個題目信息量太低、題目數量太少有直接關系。此次分析只涉及了客觀題部分,但一套完整的試卷除此之外還有簡答、論述、綜合等主觀題,應當結合整套試卷判斷試題質量,而不是簡單按照參數標準刪除或修改題目。

        Rasch模型還可以比較題目難度與被試能力的分布,常見的Rasch分析軟件都以Wright Map的方式輸出結果。Wright Map中通過對數轉換,將被試能力和題目難度轉換成同一單位——Logit,這樣就可以在同一坐標系中比較被試和題目[9]。圖3中左側為被試分布,能力由上至下逐漸降低;右側為題目分布,難度由上至下遞減。

        Wright Map顯示被試能力分布區(qū)間約為[-2,3],題目難度分布在[-1.52,2.08];表明題目難度未能涵蓋所有被試(圖3)。理想的測驗應該是測驗項目集中在學生能力分布周圍[10]。這套試題的難度與被試能力分布存在一定差異,試題偏簡單。

        選擇Mantel-Haenszel法對試卷進行性別DIF分析。若題目p值小于0.05則表明該題目存在顯著的DIF。結果表明(表1)整套試卷不存在性別DIF。

        圖3 題目難度與被試能力

        3.2.2 Rasch測量的誤差

        Rasch分析結果表明(表2)參數估計的標準差(standard error,SE)在[0.17,0.21]之間,平均值0.18。隨機抽取3、5、7、9個題目進行參數估計,結果表明(表2):隨著題目數量的減少,測量的誤差逐漸增大。這說明測驗越短,P-IRT估計的結果越不穩(wěn)定,按照參數估計的結果判斷題目質量可能會將好的題目刪除或將差的題目保留。例如題目4,抽取7個題目進行參數估計時的SE=0.21,抽取11個題目時SE=0.19。

        P-IRT追求的是對題目和能力參數的準確估計,力求將誤差降低到最小。這就需要不斷增加題目和被試數量,如此次研究中將題目數量增加到9題以上時平均誤差降低到0.2以下。但在實際的教育測量情境中,題目數量在10題左右的短測驗經常出現。尤其是當題目與模型擬合較差時,參數估計的誤差更大,結果更不穩(wěn)定。

        針對P-IRT的這一局限,有研究者提出了N-IRT模型作為補充[11]。Mokken模型是最具代表性的非參模型之一,它以同質性系數、正答率、哥特曼錯誤數等統(tǒng)計量進行項目分析。這些統(tǒng)計量(如正答率次序)不受題目數量的影響[12]。

        3.3 Mokken分析結果

        利用Mokken模型對試卷進行分析,常用的統(tǒng)計量稱為同質性系數H。共有三種類型的同質性系數:題目i與題目j之間的同質性系數Hij、題目i與剩余題目的同質性系數Hi、全部題目的同質性系數H。H值越高,測驗總分對被試潛在特質的排序越準確,Mokken提出:Hij應大于0,Hi和H至少為0.3。0.3≤H<0.4表明試卷的測量準確程度較弱;0.4≤H<0.5表明試卷測量準確程度中等;0.5≤H≤1時,試卷測量準確程度強;H<0.3表明試卷不合格[13]。

        Mokken分析主要從兩個方面進行:對試卷的維度進行分析、篩選題目;DIF檢驗。本研究使用MSP5軟件對數據進行Mokken分析。

        Mokken模型利用同質性系數進行維度檢驗,當數據擬合MH模型,同時滿足以下兩個條件時,題目所測量的是同一特質。任意兩個項目之間同質性系數Hij>0;特定題目與剩余題目間同質性系數Hi>0.3[1]。分析結果顯示(表3):11個題目中有7個題目達到上述標準,這些題目測量的是同一潛在特質,另外4個題目(題目3、5、8、10)測量的可能不是地理能力,或測量過程受到了其它因素影響。這些題目應當刪除或改進。

        篩選后的整套試卷同質性系數H=0.37,表明利用試卷對學生的地理能力進行測量,準確程度接近中等。

        如果數據擬合DM模型,就可以通過比較不同子群體題目正答率次序進行DIF檢驗。性別DIF檢驗結果顯示(表4),男生組數據中有7個題目與DM模型擬合,女生組有5個題目擬合。以正答率為指標分別對這些題目進行排序,男女生兩組的排序結果相同,且正答率非常接近;題目不存在性別上的差異。

        表2 隨機篩選題目參數估計時的標準差

        表3 Mokken分析結果

        3.4 兩種分析方法的比較

        表4 項目功能差異結果

        將P-IRT中的題目按照難度值由高到低排列,并與N-IRT中按照正答率由低到高排列的結果比較。結果證明二者是等效的,即難度越高的題目,正答率越低。這一結果與其他研究者的結論一致[14]。

        在Rasch模型中依據難度篩選題目,結果有9個題目達到統(tǒng)計學要求,2個題目需要改進或刪除。在Mokken模型中,依據同質性系數篩選題目,結果有7個題目達到統(tǒng)計學要求,4個題目需要改進或刪除。對比兩個結果,在題目篩選上Mokken模型比Rasch模型更加嚴格。

        需要特別指出的是對題目2和題目10的分析結果。在Rasch模型下,兩個題目的難度相當,分別為2.08、2.04,均稍高于Rasch標準。在Mokken模型下,項目2的同質性系數Hi=0.54、P=0.54,是符合Mokken標準中難度最大的題目。這表明在P-IRT中參數不合格或處在合格與不合格分界處的題目對潛在特質的測量仍然有用。這有可能是Rasch在分析短測驗試卷時的不穩(wěn)定性造成的。另有研究者指出這類題目反映出被試的得分概率與潛在特質之間的關系可能不是Logistic類型,而是簡單的非遞減函數關系。這些題目對提高測驗的質量意義也很大,以往研究中,簡單的按照參數標準刪除或修改的做法有待商榷。對于超出Rasch標準很高的題目是否也會出現類似現象,由于此次研究中未出現這類題目,這一問題需要在之后的研究中做進一步的討論。

        從維度檢驗的結果來看,Rasch模型下單維的數據,在Mokken模型下不一定單維,這表明后者對數據的要求更為嚴格。在重要考試中,可以采用Mokken模型進行維度檢驗,保證試題質量。

        兩種理論的DIF檢驗結果一致。Mokken模型下進行DIF檢驗的過程要將各分組的數據分別進行處理,結果發(fā)現有些題目在整體處理中能與模型擬合,分組后卻并不一定能與模型擬合。這類信息是Rasch分析無法得到的,但卻對命題非常重要。

        P-IRT分析可以估計出準確的題目參數,依照相應的標準評價題目和試卷;N-IRT分析只能得出正答率及其次序、同質性系數、哥特曼錯誤數。項目分析時使用最多的方法是排序。排序方式沒有參數標準精確,但對P-IRT是個重要的補充。

        P-IRT更適用于大規(guī)模的測驗,題量越大、被試越多,參數估計結果越準確、穩(wěn)定。而在教育測量中常會遇到由少數題目組成的短測驗或被試數量很少的情況。尤其是高考等重要考試中,以專題、短測驗形式命題已經成為命題的主流。N-IRT為這類測驗的分析提供了思路,可以為測驗的準確性和公平性提供重要參考。它在題量小、被試少的測驗分析上所表現出的優(yōu)勢備受研究者青睞[15]。N-IRT對計算機自適應測驗的題庫建設也具有深遠的意義。在題庫建設階段施測的被試越少,越能有效地降低題目的曝光率。

        4 結語

        兩種理論比較體現出來的差異,其原因是多方面的。既有理論本身的原因,也有所運用軟件的原因。Rasch分析的結果比較豐富與其軟件更為成熟也有一定的關系。目前基于P-IRT計算機軟件不論是數量還是商業(yè)化程度都遠超基于N-IRT的軟件。相關軟件的開發(fā)也將會是N-IRT理論發(fā)展的一個突破口。

        近年來N-IRT的研究取得了長足的進步,但受其項目分析結果不夠精確等特點的限制,研究者在實際應用中將其多作為P-IRT的補充。隨著模型和算法的不斷完善,它將逐漸減少人們對P-IRT的依賴。兩種理論互補,共同提高教育測量的質量。

        [1]張軍.非參數項目反應理論在維度分析中的運用及評價[J].心理學探新,2010(3):80-83.

        [2]辛濤.項目反應理論研究的新進展[J].中國考試,2005(7):18-21.

        [3]Van Schuur W H.Mokken scale analysis:between the Guttman scale and parametric item response theory[J].Political Analysis.2003,11(2):139-163.

        [4]晏子.心理科學領域內的客觀測量——Rasch模型之特點及發(fā)展趨勢[J].心理科學進展,2010(8):1298-1305.

        [5]Smith Jr EV,Others.Detecting and evaluating theimpact of multidimensionality using item fit statistics and principal component analysis of residuals.[J].Journal of applied measurement.2002,3(2):205.

        [6]余嘉元.項目反應理論及其應用[M].南京:江蘇教育出版社.1992.

        [7]楊建原,柏檜,趙守盈.計算機自適應測驗開發(fā)的程序研究[J].中國考試,2012(3):3-7.

        [8]涂冬波,蔡艷.信息函數在標準參照測驗中的應用研究[J].江西師范大學學報(自然科學版),2005,29(2):167-172.

        [9]趙守盈,何妃霞,陳維,等.Rasch模型在研究生入學考試質量分析中的應用[J].教育研究,2012(6):61-65.

        [10]張金勇,何妃霞.教育測試中學生能力水平與測驗項目難度的Rasch模型分析——個體能力與題目難度之間的對應關系[J].當代教育科學,2012(12):11-14.

        [11]劉欣,徐海波.國外非參數項目反應理論的回顧與展望[J].統(tǒng)計教育,2002(1):43-44.

        [12]Engelhard Jr G.Historical perspectives on invariant measurement:Guttman,Rasch,and Mokken[J].Measurement.2008,6(3):155-189.

        [13]Mokken R J.A theory and procedure of scale analysis[M].Mouton The Hague,1971.

        [14]雷新勇.非參數項目反應理論模型及其在教育考試中的應用[J].考試研究,2006(3):53-71.

        [15]Junker BW,Sijtsma K.Nonparametric item response theory in action:An overview of the special issue[J].Applied Psychological Measurement.2001,25(3):211-220.

        猜你喜歡
        同質性測驗試卷
        《新年大測驗》大揭榜
        趣味(語文)(2018年7期)2018-06-26 08:13:48
        Module5 A Trip Along the Three Gorges
        Module5 Great People and Great Inventions of Ancient China
        Module 4 Sandstorms in Asia
        Module 1 Europe
        基于同質性審視的高職應用型本科工程教育研究
        職教論壇(2017年4期)2017-03-13 16:43:19
        兩個處理t測驗與F測驗的數學關系
        考試周刊(2016年88期)2016-11-24 13:30:50
        理性程度的異質性:基于理論與實踐的考察
        財經科學(2014年7期)2015-04-20 20:48:44
        你知道嗎?
        少年科學(2014年10期)2014-11-14 07:38:17
        高等工程教育與高等職業(yè)教育的同質性
        天躁夜夜躁狼狠躁| 中文字幕人妻少妇伦伦| 国产精品办公室沙发| 欧美熟妇色ⅹxxx欧美妇| 国产成人精品三上悠亚久久| 国产精品人成在线观看不卡| 亚洲成a∨人片在线观看无码| 丰满岳妇乱一区二区三区| 亚洲一区sm无码| 亚洲精品中文字幕乱码3| 少妇无码av无码专线区大牛影院| av潮喷大喷水系列无码| 男女视频在线一区二区| av天堂手机在线看片资源| 亚洲熟妇色自偷自拍另类 | 亚洲国际无码中文字幕| 午夜天堂精品一区二区| 亚洲成人av在线蜜桃| 日日碰狠狠添天天爽| 在线观看亚洲AV日韩A∨| 青青草视频在线观看视频免费| 久久人人爽人人爽人人片av高请| 中文字幕无码不卡一区二区三区 | 激情五月开心五月av| 精品国偷自产在线视频九色| 亚洲最大中文字幕无码网站| 亚洲精品中文字幕二区| 亚洲毛片一区二区在线| 亚洲人成网站18禁止久久影院| 久久久精品电影| 一个人午夜观看在线中文字幕| 在线看片免费人成视频电影| 久草视频国产| 日韩精品综合在线视频| 无码日韩精品一区二区免费暖暖| 国产自国产在线观看免费观看 | 中文字幕精品久久一区二区三区 | 国产短视频精品区第一页| 国产精品女同一区二区免| 无码孕妇孕交在线观看| 久久永久免费视频|