亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大樣本條件下概率閾限的改變對參數(shù)估計的影響

        2021-01-13 07:28:26王風(fēng)
        考試研究 2021年1期
        關(guān)鍵詞:閾限樣本量參數(shù)估計

        王風(fēng)

        Rasch 模型是丹麥數(shù)學(xué)家George Rasch 在1960年提出的單參數(shù)IRT 模型。 根據(jù)Rasch 模型原理,特定個體對特定題目作出特定反應(yīng)的概率可以用個體能力與題目難度的簡單函數(shù)來表示, 即考生能否答對某題取決于題目難度及考生能力[1]:

        其中,βn表示考生n 的能力參數(shù),δi表示題目i的難度參數(shù)。

        當(dāng)題目難度比考生能力高時, 考生傾向于采取猜答策略,尤其是水平較低的考生遇到較難題目時,往往會猜答[2]??忌芰εc題目難度的差異大于2 logits時,考生會采取猜答策略,此時正確回答的概率僅為12%[3-4]。 考生猜測作答不是題目參數(shù)而是有必要消除的干擾, 作答反應(yīng)中存在猜測作答會影響參數(shù)估計的準(zhǔn)確性[5]。 因此,消除Rasch 模型中因考生猜測作答導(dǎo)致的統(tǒng)計偏差,能夠提高參數(shù)估計的準(zhǔn)確性,從而對考生能力做出更有效的推斷。

        一、ARRG 法理論闡述

        根據(jù)Rasch 模型,在0-1 計分的題目中,若考生能力和題目難度相等,考生答對題目的概率等于0.5[6]。在4 選1 的題目中,若考生答對某題的概率小于隨機猜測率(0.25),則有理由懷疑考生采取了猜答策略。

        為降低Rasch 模型在估計題目難度時受考生猜測作答影響而產(chǎn)生的誤差,Waller 提出了ARRG 法(Estimates of Ability Removing Random Guessing),經(jīng)過Andrich 等人不斷深入的研究,形成了相對完善的研究步驟[7-11]。

        首先,ARRG 法采用Rasch 模型根據(jù)收集到的所有作答進行參數(shù)估計,稱為原始分析(Original Analysis)。 其次,基于考生答對題目的概率與設(shè)定的概率閾限間的比較,當(dāng)答對概率低于設(shè)定的概率閾限時,無論考生是否答對該題,均將此作答標(biāo)記為缺失值,重新進行參數(shù)估計, 此過程稱為裁剪分析(Tailored Analysis)。 為了使兩次分析的題目難度分布有相同的原點, 要設(shè)置參數(shù)估計的約束條件, 即錨分析(Anchored Analysis)。

        考生猜測作答影響題目難度和考生能力估計的準(zhǔn)確性。題目難度估計方面,大多數(shù)題目的參數(shù)估計均受考生猜測作答的影響,尤其是較難的題目。因為題目的平均難度為0, 較難題目的難度被低估使簡單題目的難度被高估[12,13]。 考生能力估計方面,較難題目的難度被低估使水平較高的考生能力被低估。Andrich 等人研究發(fā)現(xiàn),考生猜測作答的存在低估了學(xué)生在學(xué)校教育中的進步, 用ARRG 法消除考生猜測作答的影響后,各個年級的成長率都有所增加,這具有重要的教育意義[14]。

        Glenn 模擬了考生猜測作答在不同概率閾限(0、0.15、0.20、0.25、0.30、0.35)、 不同樣本量(250、500、1000、2000)、不同猜測度(0、0.1、0.2、0.3)和不同難度條件下對難度估計的影響。 結(jié)果發(fā)現(xiàn):(1)樣本量比其他因素更能解釋參數(shù)估計標(biāo)準(zhǔn)誤的變化,當(dāng)樣本量較大時,所有條件下的標(biāo)準(zhǔn)誤都要小得多;(2)較大的概率閾值通常與偏差減少和標(biāo)準(zhǔn)誤增加有關(guān)[15]。Glenn 研究的樣本量最大為2000, 隨著概率閾限的增大,被標(biāo)記為缺失值的作答也增加,用來估計參數(shù)的作答減少。 因此,假設(shè)當(dāng)樣本量較大時,標(biāo)準(zhǔn)誤較小;當(dāng)樣本量較小時,標(biāo)準(zhǔn)誤會變大。在這種思路下,嘗試更大的樣本量在不同概率閾限下對參數(shù)變化的影響是有意義的。

        本文在Glenn 研究的基礎(chǔ)上進一步拓寬思路,研究大樣本情況下概率閾限的改變對參數(shù)估計的影響。 研究目的是通過觀察不同條件下題目難度估計的變化及其標(biāo)準(zhǔn)誤(SE)和數(shù)據(jù)-模型的擬合優(yōu)度,探索不同樣本量在不同概率閾限條件下對難度估計的影響。

        ARRG 法是Rasch 模型框架下提高參數(shù)估計準(zhǔn)確性的有效手段, 對其結(jié)果的解釋又是其中重要的一環(huán)。 在小樣本(250、500、1000、2000)情況下,樣本量比其他因素更能解釋參數(shù)估計標(biāo)準(zhǔn)誤的變化,即參數(shù)估計標(biāo)準(zhǔn)誤的變化可能是由樣本量引起的。 若換做大樣本, 參數(shù)估計標(biāo)準(zhǔn)誤的變化程度如何? 同樣,在大樣本情況下,較大的概率閾限是否也伴隨著參數(shù)變化程度的減小和標(biāo)準(zhǔn)誤的增加? 本文試圖回答以上問題, 以便為使用ARRG 法時根據(jù)樣本量合理解釋參數(shù)變化的意義提供參考。

        二、研究方法

        數(shù)據(jù)來源為某考試的作答數(shù)據(jù), 共120 道選擇題,每題4 個選項,僅有1 個正確答案,均為0-1 計分題目。 選擇Winsteps 軟件作為分析工具。

        從總體中有放回地抽取6 個樣本, 樣本量分別為2000、5000、7000、10000、20000、30000。 表1 給出了6 個樣本的均值、標(biāo)準(zhǔn)差、偏度和峰度,每個樣本與總體的四項指標(biāo)非常接近, 說明樣本對總體具有一定的代表性。

        表1 總體和樣本的統(tǒng)計指標(biāo)

        設(shè)置5 個概率閾限,分別為:0.10、0.15、0.20、0.25、0.30, 答對概率低于概率閾限的作答會被標(biāo)記為缺失值。 裁剪分析中使用的答對概率來源于原始分析。 原始分析中,原始作答包含考生猜測作答,答對概率的估計受考生猜測作答的影響,使答對概率偏高。 因此,裁剪分析中,設(shè)置概率閾限高于隨機猜測率(0.25),可以更好地消除因考生猜測作答對參數(shù)估計的影響。

        為使原始分析和裁剪分析的題目難度分布具有相同的原點, 將錨分析中參數(shù)估計的約束條件設(shè)置為難度接近0 的5 道題目的難度為0。

        結(jié)果的檢驗標(biāo)準(zhǔn)有兩個。 一是數(shù)據(jù)-模型的擬合:根據(jù)Rasch 模型原理,考生答對題目的概率僅由題目難度和考生能力決定。 原始作答因包含考生猜測作答導(dǎo)致數(shù)據(jù)-模型擬合性差。 因此假設(shè),消除考生猜測作答對參數(shù)估計的影響后,數(shù)據(jù)-模型的擬合優(yōu)度將提高。 從三個方面檢驗數(shù)據(jù)-模型擬合優(yōu)度:個人擬合、題目擬合和χ2統(tǒng)計量。 二是題目難度估計的變化及其標(biāo)準(zhǔn)誤(SE)。

        三、結(jié)果

        (一)數(shù)據(jù)-模型擬合優(yōu)度

        從三個方面檢驗數(shù)據(jù)-模型擬合優(yōu)度:個人擬合、題目擬合和χ2統(tǒng)計量。個人擬合是指考生作答與模型預(yù)期的擬合程度;題目擬合是指題目與模型預(yù)期的擬合程度;χ2統(tǒng)計量則是檢驗Rasch 模型擬合優(yōu)度的傳統(tǒng)方法。 通過分析結(jié)果發(fā)現(xiàn),在樣本量相同的條件下,隨著概率閾限的增大,個人擬合的程度增加,不擬合(Misfit)的考生數(shù)目下降,同時各個樣本均在概率閾限為0.25 時, 不擬合的考生數(shù)目最小。 不同條件下,Winsteps 結(jié)果中均未發(fā)現(xiàn)不擬合的題目。 同時,題目的未加權(quán)均方擬合統(tǒng)計量(Outfit MNSQ)和加權(quán)均方擬合統(tǒng)計量(Infit MNSQ)值均在0.87~1.11 范圍內(nèi),擬合程度比較好。 當(dāng)樣本量增加時, 標(biāo)準(zhǔn)化殘差均方(Standardized as a Z-Score,ZSTD) 值隨之變大,但ZSTD 統(tǒng)計量受樣本容量影響較大,故不作為參考。

        χ2和自由度有關(guān),因此隨著樣本量的增加,χ2增大。但在樣本量相同的條件下,χ2隨著概率閾限的增大而減小。不同條件下χ2對應(yīng)的P 值均為0.0000。χ2統(tǒng)計量的變化和個人擬合指標(biāo)證明, 經(jīng)過ARRG 法處理的考生作答確實提高了數(shù)據(jù)-模型擬合優(yōu)度,消除了考生猜測作答對題目參數(shù)估計的影響。

        圖1 不同條件下χ2 的變化

        (二)難度變化

        比較不同樣本量、 不同概率閾限對難度估計的影響可以發(fā)現(xiàn), 難度的變化主要受概率閾限的影響,受樣本量的影響較小,下面以兩個樣本為例說明。 圖2、圖3 分別是樣本1、6 的題目難度估計偏差。 觀察圖2、圖3 可以看到,難度較低的題目經(jīng)過調(diào)整后難度更低,但變化程度較小,概率閾限較小條件下幾乎不發(fā)生變化;隨著難度的增加,較難題目調(diào)整后難度更大,且變化程度較大,概率閾限越大,變化越劇烈。

        圖2 樣本1 的題目難度估計偏差

        圖3 樣本6 的題目難度估計偏差

        (三)標(biāo)準(zhǔn)誤

        標(biāo)準(zhǔn)誤代表了參數(shù)估計的精度如何, 以下分別計算了不同條件下難度估計的標(biāo)準(zhǔn)誤的均值及難度不同題目在不同條件下標(biāo)準(zhǔn)誤的變化。

        觀察圖4 可知,無論概率閾限如何變化,隨著樣本量的增大,難度估計的標(biāo)準(zhǔn)誤逐漸減小,且標(biāo)準(zhǔn)誤變化的全距逐漸縮小。 當(dāng)樣本量為30000(S6)時,標(biāo)準(zhǔn)誤變化的全距僅為0.009。 在不同的樣本中,隨著概率閾限的增加,標(biāo)準(zhǔn)誤的變化趨勢有相似之處。概率閾限為0 時的標(biāo)準(zhǔn)誤最小,概率閾限越大,標(biāo)準(zhǔn)誤越大,概率閾限為0.3 時,標(biāo)準(zhǔn)誤最大。 值得注意的是,樣本量為2000(S1)時的標(biāo)準(zhǔn)誤整體比較大,在概率閾限為0.3 時,參數(shù)估計的標(biāo)準(zhǔn)誤最大,而當(dāng)樣本量增加到5000(S2)時,標(biāo)準(zhǔn)誤整體下降比較明顯。因此, 使用ARRG 法時, 若對參數(shù)估計的精度有要求,需要盡量提供較大的樣本量。

        均值代表了標(biāo)準(zhǔn)誤變化的整體趨勢。 難度不同的題目受考生猜測作答的影響不同, 經(jīng)過ARRG 法處理的結(jié)果也有所不同。 為了觀察不同難度題目標(biāo)準(zhǔn)誤的變化,以下抽取3 道題目分別說明。

        圖5 為3 道難度不同題目的標(biāo)準(zhǔn)誤變化, 代表了難度變化的2 種類型。 32、39、110 題的難度依次增大, 分別是-2.36、0.09 和1.94。 觀察圖5 可以看到,32 題和39 題的標(biāo)準(zhǔn)誤變化全距不大;110 題的標(biāo)準(zhǔn)誤隨著樣本量的增大而減小, 隨著概率閾限的增加而增加,與標(biāo)準(zhǔn)誤的均值變化趨勢相似,變化比較劇烈。在32 題和39 題標(biāo)準(zhǔn)誤的變化中,概率閾限為0.3 時,標(biāo)準(zhǔn)誤的變化出現(xiàn)了小的波動,說明概率閾限較大時被標(biāo)記為缺失值的作答增加, 用于估計參數(shù)的信息減少。因此,對高風(fēng)險測驗進行處理時要盡量采用大樣本及合適的概率閾限, 以獲得較高的參數(shù)估計精度。 難度較小的題目受考試猜測作答的影響較小,被標(biāo)記為缺失值的作答較少,因此標(biāo)準(zhǔn)誤的變化不明顯;同時隨著樣本量的增加,標(biāo)準(zhǔn)誤也隨之降低。難度較大的題目更容易引入猜測作答,概率閾限設(shè)置的越高,被標(biāo)記為缺失值的作答越多,標(biāo)準(zhǔn)誤越大,小樣本的變化尤為明顯。

        圖4 不同樣本量及概率閾限條件下難度估計標(biāo)準(zhǔn)誤均值的變化

        圖5 不同難度題目標(biāo)準(zhǔn)誤的變化

        四、結(jié)論

        考生猜測作答是一種偏離測驗構(gòu)念的行為,可以通過Rasch 模型參數(shù)變化來檢驗,并將與其相關(guān)的問題最小化。ARRG 法是Rasch 模型框架下消除考生猜測作答對參數(shù)估計的影響、提高參數(shù)估計準(zhǔn)確性的有效手段。本文的研究目的是觀察大樣本情況下概率閾限的改變對參數(shù)估計的影響。 從兩個角度驗證ARRG 法的有效性:不同樣本量、不同概率閾限下數(shù)據(jù)-模型的擬合優(yōu)度、難度估計的變化及其標(biāo)準(zhǔn)誤。

        個人擬合優(yōu)度主要受樣本量的影響, 樣本量的增加伴隨著異常作答的增多, 不擬合的考生數(shù)目增加; 但在樣本量相同的條件下, 隨著概率閾限的增大,個人擬合優(yōu)度增加,不擬合的考生數(shù)目下降,在概率閾限為0.25 時降到最小值。 χ2和個人擬合的變化趨勢相似,隨概率閾限的增加而降低。個人擬合優(yōu)度的提高和χ2的降低說明消除考生猜測作答能明顯提高數(shù)據(jù)-模型的擬合優(yōu)度。

        難度估計的變化主要受題目自身難度的影響,根據(jù)題目難度的不同, 難度估計的變化趨勢分為兩類:簡單題目的難度變小,但整體變化不大;較難題目的難度變大,且隨著概率閾限的增加,難度變化程度增加。 難度估計的變化受樣本量的影響較小,不同樣本量的題目難度變化趨勢相似。 標(biāo)準(zhǔn)誤的變化主要受樣本量的影響,樣本量較小時(2000),標(biāo)準(zhǔn)誤隨概率閾限的變化有較大波動;樣本量逐漸增加時,即使設(shè)置較大的概率閾限(0.3),標(biāo)準(zhǔn)誤的變化也很小。

        大樣本條件下, 概率閾限的改變主要引起題目難度估計的變化。概率閾限越大,題目難度估計的變化程度越大,但不會引起標(biāo)準(zhǔn)誤的劇烈波動,相反,標(biāo)準(zhǔn)誤處于比較平穩(wěn)的水平。因此,在高風(fēng)險測試中,若要消除考生猜測作答對參數(shù)估計的影響,應(yīng)該盡量使用大樣本,以保證調(diào)整過程中參數(shù)估計的精度。同時,在使用ARRG 法時,概率閾限的設(shè)置不是越大越好,個人擬合指標(biāo)顯示,不擬合的考生數(shù)目在概率閾限為0.25 時最低,但χ2統(tǒng)計量保持下降趨勢,這就需要根據(jù)實際情況選擇合適的概率閾限。通常會選擇略高于0-1 計分題目隨機猜測率的值作為概率閾限。

        猜你喜歡
        閾限樣本量參數(shù)估計
        基于新型DFrFT的LFM信號參數(shù)估計算法
        醫(yī)學(xué)研究中樣本量的選擇
        航空裝備測試性試驗樣本量確定方法
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        Logistic回歸模型的幾乎無偏兩參數(shù)估計
        過渡禮儀視闊下的少先隊入隊儀式分析
        基于向前方程的平穩(wěn)分布參數(shù)估計
        儀式過程理論“閾限”范疇中的身體展演研究
        基于競爭失效數(shù)據(jù)的Lindley分布參數(shù)估計
        象牙塔與生活世界的閾限呈現(xiàn)
        高教探索(2016年3期)2016-03-30 13:13:14
        欧美精品高清在线xxxx| 狠狠色综合7777久夜色撩人ⅰ| 丰满熟妇乱又伦| 日韩欧美在线播放视频| 麻豆成人久久精品二区三区91 | 激情五月婷婷久久综合| 成人性生交大片免费5| 日本真人做爰免费视频120秒| 国产精品区一区第一页| 麻豆久久久国内精品| 538任你爽精品视频国产| 亚洲天堂一区二区精品| 亚洲中文字幕人妻av在线| 久久久久人妻一区二区三区 | 五月天综合在线| 亚洲熟女国产熟女二区三区| 刚出嫁新婚少妇很紧很爽| 精品无码国产一区二区三区av | 无码av免费永久免费永久专区| 五月天婷婷一区二区三区久久| 中文字幕亚洲精品专区| 日本肥老妇色xxxxx日本老妇| 日本成本人三级在线观看| 亚洲AV无码精品色午夜超碰| 亚洲一区二区三区在线高清中文 | 国产免费人成视频在线观看| 亚洲精品久久久久中文字幕二区| 人妻系列无码专区久久五月天 | 亚洲一道一本快点视频| 国产亚洲成人精品久久| 日韩欧群交p片内射中文| 手机看片国产日韩| 国产视频在线观看一区二区三区 | 色拍自拍亚洲综合图区| 热久久网站| 国产精品久久一区性色a| 精品一区二区三区婷婷| 消息称老熟妇乱视频一区二区| 人人妻人人玩人人澡人人爽| 国产妇女乱一性一交| 性感熟妇被我玩弄到高潮|