亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        考生能力分布與被試量對IRT 等值的影響

        2021-01-13 07:28:26韓曉杰
        考試研究 2021年1期
        關(guān)鍵詞:等值樣本量試卷

        韓曉杰 任 杰

        一、引言

        等值是將不同測驗版本的分數(shù)統(tǒng)一到一個量表上的過程[1]。 等值不僅有利于保證測驗的公平,為分數(shù)使用者提供來自不同測驗版本上具有同等意義的分數(shù),讓不同版本的測驗分數(shù)具有可比性;同時,等值也是題庫建設(shè)中的重要一環(huán), 通過等值可以將不同測驗版本的題目參數(shù)統(tǒng)一到一個量尺上, 讓題目參數(shù)具有可比性,等值誤差越小,越有利于科學(xué)化題庫的建設(shè)。

        為保證測驗的安全性, 某些全國性大型測驗經(jīng)常以平行試卷的形式對全國考生進行施測。 在題庫建設(shè)時,需對所有平行試卷進行等值處理。不同地區(qū)的考生在平行試卷上得分不同,究其原因,一方面是試卷難度不同, 另一方面是不同地區(qū)考生能力存在差異。涂冬波(2004)指出,我國教育存在地區(qū)間發(fā)展不平衡的問題, 且該問題直接造成了地區(qū)間人才培養(yǎng)上的差距[2],即地區(qū)教育水平差異很大程度上會影響考生能力。那么,不同地區(qū)考生能力分布不同是否會影響不同平行試卷等值到基準卷上的結(jié)果? 這一問題直接關(guān)系到題庫建設(shè)的科學(xué)化程度。

        一般認為, 基于項目反應(yīng)理論 (item response theory,IRT)的等值的一大優(yōu)點在于不依賴被試。 但是,Holland & Rubin(1982)提出,等值或多或少存在樣本依賴性[3]。 羅照盛等(2007)指出,當前關(guān)于等值誤差問題的研究, 基本上都是在固定被試參數(shù)總體的情況下,并未系統(tǒng)研究錨題設(shè)計情形下,使用不同分布形態(tài)的被試組估計項目特征曲線等值系數(shù)時可能帶來的等值誤差;其研究結(jié)果表明,在實際等值估計過程中,不應(yīng)只考慮樣本量的大小,必須重視被試樣本的分布形態(tài)[4]。 吳佳儒、陳柏熹(2008)針對等值過程中不同受試者人數(shù)與能力分布形態(tài)對試題參數(shù)與能力估計精準度的影響進行了研究, 研究結(jié)果表明: 能力以均等分布時, 等值的均方根誤差(Root Mean Square Error,RMSE)值最高[5]。 Sevilay&Nukhet(2012)基于IRT 理論,根據(jù)樣本量與被試分布形態(tài)對分別估計下的四種等值方法進行了比較研究;研究結(jié)果表明,Stocking-Lord 法的等值誤差最小,且被試樣組分布形態(tài)越接近,等值誤差越小[6]。 以往研究中,試卷題目參數(shù)與考生能力參數(shù)均采用模擬數(shù)據(jù)。本研究將采用實際題目參數(shù), 考生能力參數(shù)將根據(jù)實際考生能力參數(shù)進行模擬。 本文意在探討與基準卷能力分布一致的被試以及與基準卷能力分布差異較大的被試對等值誤差的影響, 并研究這種誤差是否可以通過增大被試量來解決。

        本研究基于IRT 理論中的LOGISTIC 雙參數(shù)模型,采用共同題非等組設(shè)計。共同題非等組設(shè)計是等值設(shè)計中最為靈活有效的設(shè)計[7]。其具體方案是將同一測驗的不同版本對兩組考生進行施測, 兩個測驗版本之間存在約20%的共同題目。 兩組考生的得分受到考生能力與題目難度兩方面的影響, 通過考生在共同題上的作答表現(xiàn)可以分離出考生能力的差別,從而得到試卷難度差異。

        在進行兩份試卷等值時, 本研究采用項目特征曲線法。 該方法的優(yōu)點在于充分利用了題目參數(shù)與考生能力參數(shù)的信息, 增加了等值結(jié)果的可靠性。1980 年,Haebara 率先提出基于項目特征曲線法來完成量表的轉(zhuǎn)換。 Raju & Arenson(2002)認為,對于具有一定能力水平的參與者, 項目特征曲線的差值為每個項目的項目特征曲線平方和[8]。 Haebara 提出了使這一差值最小的方程常數(shù)和方程曲線。 1983年,Stocking 和Lord 提出與之類似的方法[9]。 兩種方法均基于以下公式:

        其中,θ 為考生的能力參數(shù),a 為題目的區(qū)分度參數(shù),b 為題目的難度參數(shù),α為標桿卷,β 為待等值試卷,Pij為被試j 正確作答題目i 的概率。 A 為等值方程中的斜率,B 為截距。 將測驗樣本的項目參數(shù)估計值帶入,會存在誤差ε,誤差最小時的A、B 值即為理想的等值系數(shù)值。 下面將分別介紹Haebara 法與Stocking-Lord 法對A、B 值的估計原理。

        Haebara 法首先對誤差求平方,可得:

        若存在n 個被試,m 個題目, 則將上式對i 與j進行求和,得到:

        Stocking & Lord 法與Haeraba 的方法稍有差別。由于同一被試在同一批項目上的正確作答概率是相等的,Stocking-Lord 法首先將被試j 固定, 對題目i的正確作答概率進行累加,可得:

        此時,再帶入?yún)?shù)估計值,計算誤差方差,可得:

        若存在m 個題目, 則需要對上式中的j 進行求和,并記為F2,可得:

        當誤差方差最小時,即令F1與F2最小,求出A、B 值即為理想的等值系數(shù)。 一般方法為求導(dǎo)并采用牛頓迭代法迭代求出最佳A、B 值。

        等值方法不同會帶來不同的等值誤差。 誤差分為隨機誤差和系統(tǒng)誤差。 隨機誤差是由抽樣造成的,增大樣本量,隨機誤差會隨之降低。 因此,本研究旨在通過對考生能力分布與被試量以及等值方法的研究,為降低等值誤差提供參考。 同時,采用等值分數(shù)標準誤、等值系數(shù)標準誤、共同題參數(shù)穩(wěn)定性三種方法對等值結(jié)果進行評價。

        二、研究設(shè)計

        本研究涉及某漢語考試某兩個年份的試卷X 和Y。 這兩份試卷為平行試卷,其中X 試卷為基準卷,Y試卷為待等值試卷。X 與Y 包含20%的共同題。作答X 試卷的考生組記為P, 作答Y 試卷的考生組記為Q。 模擬不同被試量下P 考生分布以及Q 考生分布去作答Y 試卷,再將Y 試卷與X 試卷等值,以此研究不同等值方法下考生分布及被試量對等值結(jié)果的影響。

        (一)研究工具

        本研究采用WINGEN3 對考生作答數(shù)據(jù)進行模擬,采用R 語言自編程序進行參數(shù)估計和試卷等值。

        (二)研究設(shè)計

        首先利用R 語言自編程序根據(jù)Q 組考生在Y試卷上的作答反應(yīng)估計出Q 組考生的能力值, 并計算Q 組考生能力值的平均值與標準差。 經(jīng)計算,平均值θQ為-0.064,標準差θQ為0.85。再根據(jù)P 與Q 兩組考生在共同題上的作答反應(yīng)估計出兩組考生的能力差異,記為θε。 由此可得與Q 組考生在同一能力量尺上的P 組考生的能力為θP=θQ+θε。 經(jīng)計算θP為-2.7。

        利用WINGEN3 對考生作答進行模擬, 試卷參數(shù)使用Y 試卷的真實參數(shù), 考生能力參數(shù)為正態(tài)分布,平均值分別采用θP和θQ,標準差采用原始能力值的標準差, 被試量分別為500、1000、5000 三個批次, 每個批次分別模擬15 次, 共90 批考生作答數(shù)據(jù)。 將90 批考生數(shù)據(jù)分別與基準卷X 進行等值,采用等值分數(shù)標準誤、等值系數(shù)標準誤、共同題穩(wěn)定性三種方法對等值結(jié)果進行評價。

        因此, 根據(jù)考生能力分布與被試量共模擬了以下6 種情況:

        ①被試量為500,考生能力分布服從[N(-2.7,1)]

        ②被試量為1000,考生能力分布服從[N(-2.7,1)]

        ③被試量為5000,考生能力分布服從[N(-2.7,1)]

        ④被試量為500,考生能力分布服從[N(-0.064,0.85)]

        ⑤被試量為1000,考生能力分布服從[N(-0.064,0.85)]

        ⑥被試量為5000,考生能力分布服從[N(-0.064,0.85)]

        以下簡稱N(-2.7,1)為P 分布,N(-0.064,0.85)為Q 分布。

        三、研究結(jié)果

        學(xué)界對于等值結(jié)果的評價標準不一。張建、任杰(2018)提出,可以根據(jù)評價的對象不同,將等值結(jié)果評價標準劃分為評價等值分數(shù)的標準和評價等值參數(shù)的標準[10]。 本研究擬采用以上兩類評價標準中的等值分數(shù)標準誤、等值系數(shù)標準誤、共同題參數(shù)穩(wěn)定性三種評價方法對等值結(jié)果進行評價。

        (一)等值分數(shù)標準誤

        等值分數(shù)標準誤是在評價等值分數(shù)時采取的主要評價標準, 其實質(zhì)是考察樣本量對等值分數(shù)的影響。一般而言,樣本量越大,等值誤差越小,等值結(jié)果越穩(wěn)定。 Bootstrap 法和Delta 法均可計算等值誤差。戴海崎(1999)認為,Bootstrap 法對等值誤差的估計更接近于等值標準誤差的定義[11]。 Bootstrap 法的計算步驟如下:

        (1)分別在參加X 測驗與Y 測驗的考生中抽取樣本量為nX、ny的樣本;

        (2)采用適當?shù)牡戎捣椒▽蓚€樣本進行等值,可得:

        由于抽樣的復(fù)雜性, 一般采用特定的程序進行抽樣和等值。等值后不僅會產(chǎn)生等值分數(shù),也會產(chǎn)生等值分數(shù)標準誤。等值分數(shù)標準誤越小,等值結(jié)果越穩(wěn)定。

        表1 等值分數(shù)標準誤平均值

        綜合表1、圖1 及圖2 可知,Stocking-Lord 法與Haebara 法下等值分數(shù)標準誤的趨勢基本一致,Stocking-Lord 法等值結(jié)果更穩(wěn)定。 當考生能力服從P 分布時,等值分數(shù)標準誤較Q 分布低。 即考生能力分布越接近,等值分數(shù)的標準誤越低。 兩種分布下,等值分數(shù)標準誤均隨樣本量的增加呈現(xiàn)出降低趨勢。 P 分布中的等值分數(shù)標準誤在不同批次及不同樣本量中的變化均較為平穩(wěn);Q 分布中的等值分數(shù)標準誤則波動較大,當樣本量增至5000 時,變化趨于穩(wěn)定, 但是其值仍高于P 分布中樣本量為500 時的等值分數(shù)標準誤。 本研究結(jié)果與羅照盛(2007)的研究結(jié)果不謀而合。在實際等值中,不能僅依靠增加樣本量來降低等值誤差, 還需關(guān)注兩組考生的能力分布。當兩組被試分布差異較大時,僅靠增加樣本量并不能有效降低等值誤差。

        圖1 Stocking-Lord 法下等值分數(shù)標準誤

        圖2 Haebara 法下等值分數(shù)標準誤

        表2 等值系數(shù)標準誤平均值

        (二)等值系數(shù)標準誤

        等值系數(shù)是兩份試卷之間分數(shù)轉(zhuǎn)換與參數(shù)轉(zhuǎn)換的關(guān)鍵所在,也是等值的核心環(huán)節(jié)。等值系數(shù)一般用A、B 表示。 兩份試卷以及考生能力之間存在以下轉(zhuǎn)換關(guān)系[12]:

        采用不同的等值方法會得到不同的等值系數(shù),同時也會產(chǎn)生不同的等值系數(shù)標準誤。 等值系數(shù)標準誤是衡量等值系數(shù)穩(wěn)定性的標準,一般而言,等值系數(shù)標準誤越小,等值系數(shù)越穩(wěn)定,等值結(jié)果越好。

        從表2 及圖3-6 可知, 兩種等值方法下等值系數(shù)A、B 的標準誤變化趨勢一致,均隨樣本量的增加而降低。 不同分布下標準誤變化幅度不同,P 分布下的等值系數(shù)標準誤較為穩(wěn)定,Q 分布下的等值系數(shù)標準誤隨樣本量變化波動較大。Stocking-Lord 法下,Q 分布中樣本量為5000 時等值系數(shù)A 的標準誤與P 分布中樣本量為500 時的等值系數(shù)A 的標準誤較為接近。 此外,Q 分布下的等值系數(shù)標準誤均高于P分布下的等值系數(shù)標準誤。樣本量一定時,無論采用何種等值方法, 兩種分布下B 值的等值系數(shù)標準誤均高于A 值的等值系數(shù)標準誤。

        圖3 Stocking-Lord 法下等值系數(shù)A 的標準誤

        圖4 Stocking-Lord 法下等值系數(shù)B 的標準誤

        圖5 Haebara 法下等值系數(shù)A 的標準誤

        圖6 Haebara 法下等值系數(shù)B 的標準誤

        圖7 Stocking-Lord 法與Haebara 法的等值系數(shù)標準誤差異

        圖7 為Stocking-Lord 法下的等值系數(shù)標準誤與Haebara 法下的等值系數(shù)標準誤之間的差異。圖7 及表2 表明,Stocking-Lord 法下A 系數(shù)的標準誤明顯低于Haebara 法,但P 分布下B 系數(shù)的標準誤略高于Haebara 方法; 在Q 分布下,Haebara 法中A 值與B值的標準誤分別約為Stocking-Lord 法中A 值與B值標準誤的1.5-2 倍。

        (三)共同題穩(wěn)定性

        共同題參數(shù)穩(wěn)定性是項目反應(yīng)理論(IRT)分別估計方法下獨有的等值結(jié)果判斷標準。 不同組考生均作答共同題,會產(chǎn)生不同的作答反應(yīng),但是經(jīng)過分別估計等值后, 理論上等值后的題目參數(shù)應(yīng)該與基準卷上的題目參數(shù)是一致的。 但是受到等值誤差的影響, 等值后的題目參數(shù)與基準卷上的題目參數(shù)往往不一致,題目參數(shù)之間會存在一定的差異。題目參數(shù)之間的差異用均方根偏差(Root Mean Square Deviation,RMSD)來計算,計算公式如下:

        其中m 為共同題題目數(shù)量,xi為基準卷的共同題題目參數(shù),xi' 為等值后的題目參數(shù)。 Sevilay Kilmen & Nukhet Demirtasli (2012) 研 究 中 采 用RMSD 值評價等值結(jié)果[13],RMSD 值越小,等值結(jié)果越好。

        表3 為共同題參數(shù)穩(wěn)定性的RMSD 值。 由表3可知,當分布一定、被試量確定時,Stocking-Lord 法下的共同題難度參數(shù)的RMSD 值小于Haebara 法;區(qū)分度參數(shù)的RMSD 值則稍有不同:P 分布下區(qū)分度的RMSD 值波動較小,難度的RMSD 值變化稍大;Q 分布下難度的RMSD 值變化較大, 不同樣本量間RMSD 變 化 幅 度 在0.078 (1.598-1.520=0.078)到0.562(4.340-3.778=0.562)之間。當分布一定、等值方法確定時, 共同題參數(shù)的RMSD 值均隨被試量的增加而降低。P 分布中的RMSD 值較Q 分布更為平穩(wěn);Q 分布中的RMSD 值變化較大,Haebara 難度平均值最大降低了2.742(4.340-1.598=2.742)。 當被試量一定、 等值方法確定時,P 分布中共同題難度參數(shù)的RMSD 值遠低于Q 分布, 區(qū)分度參數(shù)的RMSD 值稍低于Q 分布。

        表3 共同題參數(shù)的RMSD 值

        四、結(jié)論

        首先,考生能力分布差異較大將顯著影響等值的準確性。 待等值試卷上的考生能力分布與基準卷上的考生能力分布越接近,等值分數(shù)的標準誤越小,等值系數(shù)的標準誤越小,共同題參數(shù)越穩(wěn)定。如果兩組考生能力差別過大,會嚴重影響等值結(jié)果的精度。

        另外,增加被試量可以降低等值誤差,但是如果兩組考生能力分布差異過大,此時,即使大量增加被試量也不能有效降低等值誤差。 如果兩組考生能力分布非常接近, 則只需較少的被試就可以得到較為準確的等值結(jié)果。

        此外,不同的等值方法帶來不同的等值誤差。當兩組考生能力分布一致時, 在等值系數(shù)B 的標準誤以及區(qū)分度參數(shù)的穩(wěn)定性方面,Haebara 方法表現(xiàn)略好。 但是,整體來看,Stocking-Lord 法較Haebara 方法更為穩(wěn)定,誤差更小。

        因此,在實際等值操作中,不能僅關(guān)注采用增加被試量來降低等值誤差的方法, 考生能力分布同樣值得重視。在題庫建設(shè)的等值過程中,如果發(fā)現(xiàn)兩組考生能力差異過大, 為獲得更加準確的入庫題目參數(shù), 建議在待等值試卷中抽取一個與基準卷被試分布相似的被試樣本,再與基準卷進行等值,以有效降低等值誤差。

        五、研究中的不足

        本研究僅基于正態(tài)能力分布下的兩種考生能力分布情況,針對考生能力分布對等值精度的影響進行探討,其他情況未加以討論。 此外,在Q 分布下,Haebara 法中A 值與B 值的標準誤分別約為Stocking-Lord 法中A 值與B 值標準誤的近1.5-2倍, 這一結(jié)果在本研究的不同被試量下均適用,但是在其他情況下是否適用這一結(jié)論仍需要進一步討論研究。

        猜你喜歡
        等值樣本量試卷
        醫(yī)學(xué)研究中樣本量的選擇
        異步電動機等值負載研究
        防爆電機(2020年5期)2020-12-14 07:03:50
        航空裝備測試性試驗樣本量確定方法
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        Module5 A Trip Along the Three Gorges
        Module5 Great People and Great Inventions of Ancient China
        Module 4 Sandstorms in Asia
        Module 1 Europe
        電網(wǎng)單點等值下等效諧波參數(shù)計算
        基于戴維南等值模型的靜穩(wěn)極限在線監(jiān)視
        亚洲免费精品一区二区| 日韩另类在线| 国产精品ⅴ无码大片在线看| 成人白浆超碰人人人人| 国产亚洲日韩一区二区三区| 动漫av纯肉无码av在线播放| 亚洲国产成人va在线观看天堂| 亚洲中文字幕在线一区| 精品少妇无码av无码专区| 亚洲精品久久国产高清情趣图文| 欧美在线综合| 亚洲精彩视频一区二区| 人妻少妇精品视频一区二区三区l| 蜜桃日本免费看mv免费版| 亚洲欲色欲香天天综合网| 加勒比熟女精品一区二区av| 手机av在线中文字幕| 伊人久久大香线蕉亚洲五月天| 国产96在线 | 亚洲| 久久久精品国产视频在线| 国产精品白浆一区二区免费看| 国产边摸边吃奶叫床视频| 日本免费不卡一区| 国内精品久久人妻互换| 寂寞人妻渴望被中出中文字幕| 天天躁狠狠躁狠狠躁夜夜躁| 亚洲中文字幕巨乳人妻 | 蜜桃色av一区二区三区麻豆 | 亚洲AV无码一区二区三区日日强| 成年女人18毛片毛片免费| 亚洲处破女av日韩精品中出| 亚洲av成人片色在线观看高潮| 久久国产色av| 元码人妻精品一区二区三区9| 国产一区二区三区仙踪林 | 草莓视频成人| 一区二区三区国产视频在线观看| 在线视频观看国产色网| 女性女同性aⅴ免费观女性恋| 精品三级久久久久久久| 美女扒开内裤让我捅的视频|