國家義務(wù)教育質(zhì)量監(jiān)測小學(xué)科學(xué)測驗題目數(shù)量對測驗信度的影響

2024-01-01 00:00:00姜有祥曹郎溫紅博

考試研究 2024年6期

[摘要] 探討國家義務(wù)教育小學(xué)科學(xué)質(zhì)量監(jiān)測測驗題目數(shù)量對信度的影響。采用概化理論和完全交叉設(shè)計，通過概化研究和決策研究，對各題本和總測驗的信度狀況、題目數(shù)量對信度的影響進行分析。在題本層面，除題本五的測驗信度未達到0.80外，小學(xué)科學(xué)測驗各題本信度均較高。對于6個題本，題目數(shù)量的增加能夠提高測驗的信度，但信度增長速度逐漸減緩。在題目數(shù)量達到一定水平后，繼續(xù)增加題目數(shù)量對信度的影響較小。當(dāng)各題本題目數(shù)在45題左右時，能夠很好地保證各題本測驗信度較高?？傮w測驗層面，概化系數(shù)和可靠性系數(shù)分別為0.933和0.928，顯示出較好的測驗信度水平。在保證題目質(zhì)量的前提下，如需縮減題目數(shù)量，可將總測驗題目數(shù)由109題降至98題。

[關(guān)鍵詞] 義務(wù)教育質(zhì)量監(jiān)測；小學(xué)科學(xué)；題目數(shù)量；測驗信度

[中圖分類號] G424.74 [文獻標(biāo)識碼] A

[文章編號] 1673—1654（2024）06—020—011

義務(wù)教育在國家教育體系中處于基礎(chǔ)地位，是國民素質(zhì)的基本保障和核心工程。為促進義務(wù)教育質(zhì)量提升，教育部于2021年印發(fā)《國家義務(wù)教育質(zhì)量監(jiān)測方案（2021修訂版）》（以下簡稱“《監(jiān)測方案》”），進一步明確了義務(wù)教育質(zhì)量監(jiān)測的內(nèi)容和環(huán)節(jié)。

根據(jù)《監(jiān)測方案》，國家義務(wù)教育質(zhì)量監(jiān)測包括對學(xué)生德育、語文、數(shù)學(xué)、英語、科學(xué)、體育與健康、藝術(shù)、勞動和心理健康的監(jiān)測，同時包括對影響學(xué)生發(fā)展質(zhì)量的相關(guān)因素的監(jiān)測。

一、研究背景

國家義務(wù)教育質(zhì)量監(jiān)測涉及的學(xué)科眾多，學(xué)科內(nèi)知識較為龐雜。以小學(xué)科學(xué)為例，《監(jiān)測方案》指出，科學(xué)主要監(jiān)測學(xué)生掌握的科學(xué)基礎(chǔ)知識和思維方法情況、科學(xué)探究能力等。一般情況下，當(dāng)測驗涉及的知識范圍廣、內(nèi)容要求多時，必然需要增加測驗長度（test length），以保證測量信度（reliability）。然而，測驗長度并不能無限增加，考生的認知疲勞因素可能對長測驗的信度產(chǎn)生負面影響[1]。因此，如何平衡測驗長度與測驗信度是大規(guī)模教育評估（large-scale educational assessment）必須要考慮的問題。

（一）大規(guī)模教育評估中題目數(shù)量與信度的關(guān)系

美國考試服務(wù)中心（The Educational Testing Service，ETS）將大規(guī)模教育評估定義為在一段時間的教育學(xué)習(xí)之后，對大量的學(xué)生群體實施的內(nèi)容較為豐富的測驗，通過采集其成就水平方面的作答表現(xiàn)和其它證據(jù)，為決策者、社會、學(xué)校、學(xué)生及家長提供關(guān)于其教育成就表現(xiàn)的反饋信息，以便了解學(xué)生學(xué)業(yè)成就水平和學(xué)校、地區(qū)的教育質(zhì)量，以支持做出正確的決策[2]。

大規(guī)模教育評估要為決策者提供信息支持，必然涉及到信息的可靠性問題，這也就涉及教育與心理測驗的信度。信度表示測驗結(jié)果的可靠性和穩(wěn)定性，是一個測驗測量準(zhǔn)確性的評價指標(biāo)。大規(guī)模教育測量的信度兼具信度的一般性和大規(guī)模測量的特殊性。題目數(shù)量的增多通常能夠提高測驗的信度，如有研究表明，當(dāng)一份測驗中同質(zhì)性的題目數(shù)量增多之后，同一心理特質(zhì)被考查到的次數(shù)就會增多，被試的成績也就越能有效拉開，整個團體的測驗分數(shù)分布就會更廣，從而提高測量的信度[3]。但大規(guī)模測驗信度的特殊性體現(xiàn)在大規(guī)模測驗中的題目設(shè)置。大規(guī)模測驗在考查內(nèi)容上有測試范圍廣、內(nèi)容多的特點。既要考慮覆蓋范圍的廣度，又要考慮個體作答的時間成本和實施測驗的人力物力成本[4]。如果按照傳統(tǒng)方式增加題目數(shù)量，則個體作答時間增加導(dǎo)致的疲勞效應(yīng)將會對測試結(jié)果產(chǎn)生顯著的負效應(yīng)[5-7]，進而損壞量表質(zhì)量，降低信度。另外，增加測驗的題目數(shù)量還可能存在邊際效應(yīng)，即當(dāng)信度已經(jīng)達到一定水平時，增加題目數(shù)量對信度的影響變得微乎其微[8-9]。

可見，大規(guī)模測驗存在著廣泛的測驗內(nèi)容與有限的測驗成本之間的矛盾，即廣泛的測驗內(nèi)容需要足夠多的題目承載，但過長的測驗又會與有限的測驗時間、有限的被試注意力以及有限的人力、物力、財力相沖突，并且可能會影響測驗信度。

（二）矩陣取樣設(shè)計

針對大規(guī)模測驗的這一矛盾特征，國際上的大型測評項目大多采用矩陣取樣（matrix-sampling）設(shè)計[10]作為收集科學(xué)的、客觀的數(shù)據(jù)的方式[11-12]。矩陣取樣設(shè)計先根據(jù)課程設(shè)計開發(fā)一套完整的測試題目，然后將題目集劃分為若干套題目，再讓每個學(xué)生接受其中一套試題的測試。矩陣取樣設(shè)計通過限制學(xué)生的作答題目數(shù)來控制作答時間，但同時保證了測驗內(nèi)容的廣泛覆蓋。

采用矩陣取樣設(shè)計有兩方面的優(yōu)勢。首先，相較于傳統(tǒng)測驗以評估個體差異為測量目標(biāo)，大規(guī)模測驗以評估團體（性別、地區(qū)等）差異為目標(biāo)。而矩陣取樣設(shè)計得益于其隨機化技術(shù)實現(xiàn)了對每個測試團體所有測量內(nèi)容的測試，更適合于反映團體水平的差異[5-6]。其次，矩陣取樣設(shè)計保證了大規(guī)模測驗對考查范圍和題目數(shù)量的要求[7，13-14]，同時個體測驗壓力不會過大，可以平衡廣泛的測試內(nèi)容與有限的測試時間之間的矛盾。

隨著認識和實踐水平的不斷提升，矩陣取樣設(shè)計逐步發(fā)展出不同類型，包括完全矩陣取樣和不完全矩陣取樣。不完全矩陣抽樣技術(shù)與完全矩陣抽樣技術(shù)的區(qū)別在于題目之間是否有錨題（anchor item），不完全矩陣取樣設(shè)計在隨機產(chǎn)生題本之前先選取一部分對評價目標(biāo)總體更關(guān)鍵的題目作為錨題，然后對剩余的題目進行隨機抽樣組成若干題本[15]。其優(yōu)勢在于錨題的存在讓等值技術(shù)有了施展之地，實現(xiàn)了不同題本分數(shù)間的可比性。但相同知識內(nèi)容的問題可能在每個題本中出現(xiàn)在相同位置，題目位置效應(yīng)將導(dǎo)致學(xué)生在題本末尾的掌握水平被高估（練習(xí)效應(yīng)）或低估（疲勞效應(yīng)）[6]。

目前應(yīng)用最廣泛的是不完全矩陣取樣設(shè)計的一種變式——平衡不完全組塊設(shè)計（balanced incomplete block design，BIB）[12]。BIB設(shè)計可以避免產(chǎn)生上述位置效應(yīng)，其通過簡單隨機抽樣，從測試領(lǐng)域（題庫）中設(shè)計若干試題模塊組成題本，交由被試總體中隨機的一個樣本作答[5-6]。該方法保證了題目能夠產(chǎn)生相同的暴露度（題目出現(xiàn)頻次），并且同一學(xué)生能夠被分配足夠多的題目[16]。

目前國家義務(wù)教育質(zhì)量監(jiān)測采用的即為BIB設(shè)計。在具體操作上，先將題庫劃分為若干組塊，再將組塊組合成冊（題本）；在組合規(guī)則上，每兩個組塊僅組合一次，即只出現(xiàn)在一個題本中；每個組塊在所有題冊中出現(xiàn)的次數(shù)相同；每個題冊的長度相等，由相同個數(shù)的組塊組成；每一對組塊同時出現(xiàn)的頻率相同。表1所示即為國家義務(wù)教育質(zhì)量監(jiān)測四年級科學(xué)測驗的組塊組合模式，包括六個題本在三個測驗領(lǐng)域的組塊組合。

雖然矩陣取樣設(shè)計是當(dāng)前保證測驗內(nèi)容覆蓋面廣、考生測試時間短的主流手段，但客觀上矩陣取樣設(shè)計區(qū)別于傳統(tǒng)測驗，其并未在各個題本內(nèi)保證對需要測量的知識內(nèi)容測量足夠多次，以保證對各個知識內(nèi)容領(lǐng)域的測量信度。加之減少考生作答的題目與作答時間，又勢必會對測量信度產(chǎn)生影響。值得注意的是，這種通過取樣設(shè)計來平衡測驗內(nèi)容與測試時間的方法對測驗信度有多大影響，尚未被研究者深入研究，如何通過量化的方法研究大規(guī)模教育質(zhì)量監(jiān)測中題目數(shù)量變化對測驗信度的影響，是心理與教育測量研究者亟需解決的問題。

（三）小學(xué)科學(xué)教育質(zhì)量監(jiān)測

為了提升小學(xué)科學(xué)教育質(zhì)量，順應(yīng)科學(xué)學(xué)科核心素養(yǎng)和能力指向的要求，許多國家和國際組織展開了包含小學(xué)科學(xué)教育在內(nèi)的大規(guī)模教育質(zhì)量監(jiān)測[17]，主要包括國際數(shù)學(xué)與科學(xué)趨勢研究項目（Trends in International Mathematics and Science Study，TIMSS）、美國國家教育進步評價（National Assessment of Educational Progress，NAEP）、國際學(xué)生評估項目（Programme for International Student Assessment，PISA）和我國國家義務(wù)教育質(zhì)量監(jiān)測等。

如前所述，在大規(guī)模教育質(zhì)量監(jiān)測活動中，一般采用BIB技術(shù)設(shè)計測驗以平衡測驗內(nèi)容和測驗時間。然而，小學(xué)科學(xué)教育質(zhì)量檢測中題目數(shù)量與測驗信度的平衡卻尚未得到充分關(guān)注。因此，本研究將探究我國的國家義務(wù)教育質(zhì)量監(jiān)測中，小學(xué)科學(xué)測驗題目數(shù)量與測驗信度的關(guān)系，以期為小學(xué)科學(xué)及其他學(xué)科測驗編制和實施中的試卷設(shè)計提供參考。

（四）概化理論在教育測量中的應(yīng)用

概化理論（Generalization Theory，GT）是在經(jīng)典測量理論（Classic Test Theory，CTT）的基礎(chǔ)上，基于實驗設(shè)計思想和方差分析方法發(fā)展起來的一種心理測量理論。其主要用于分析測量過程中變異的各種來源及其對總測驗的影響程度，確定測量側(cè)面對測量目標(biāo)的影響程度，從而有效控制其可能產(chǎn)生的誤差[18]。

GT應(yīng)用廣泛，常用于教師教學(xué)評價、人事面試評測等標(biāo)準(zhǔn)參照性測驗、非標(biāo)準(zhǔn)化測驗、表現(xiàn)型評價中。相對于經(jīng)典測量理論，概化理論在誤差分析、信度評價和推論決策上更為優(yōu)越，并且能夠在誤差分解的基礎(chǔ)上深入、量化分析特定側(cè)面的影響。

面對復(fù)雜設(shè)計的大規(guī)模測驗，基于對誤差的分解理念和方差分析方法，GT具有能夠辨識和估計各種測量誤差變異來源的優(yōu)勢。同時，GT通過對測量的誤差側(cè)面下水平的調(diào)整，能夠找到最佳測驗條件，幫助研究者制定決策[19-21]。

許多研究者使用GT來研究某一側(cè)面對測驗信度的影響：如趙軒等人利用GT研究高考數(shù)學(xué)文理卷各題型下題目數(shù)量對信度的影響，發(fā)現(xiàn)當(dāng)前試卷依然可以通過增加題量來提高信度[22]；陳維等人利用GT研究高考語文模擬卷中主客觀題題量和分值對測量信度的影響[23]。

鑒于GT方法在研究測量誤差來源方面的優(yōu)勢，本研究將采用GT方法，研究矩陣取樣設(shè)計下的我國義務(wù)教育質(zhì)量監(jiān)測小學(xué)科學(xué)測驗中，題目數(shù)量對信度的影響。

二、研究方法

（一）研究設(shè)計

概化理論在分析不同側(cè)面對測量誤差的影響時，一般采用兩步走策略：概化研究和決策研究。概化研究用以確定測量目標(biāo)、不同測量側(cè)面、測量側(cè)面與測量目標(biāo)的交互作用的方差分量大小，比較不同側(cè)面對測量精度的影響。決策研究通過增加側(cè)面的水平數(shù)或?qū)?cè)面固定起來等策略，尋找減小誤差、提高精度的良好設(shè)計。

本研究將分別從題本層面和總測驗層面研究題目數(shù)量對測驗信度的影響。針對題本層面，首先在概化研究中使用p×i（考生×題目）的完全交叉設(shè)計，分析各變異分量估計值，考察各單題本的信度狀況。其次，在決策研究中分析單題本題目數(shù)量處于不同水平時的信度狀況，探究題目數(shù)量對單題本信度的影響。針對總測驗層面，在概化研究中依據(jù)BIB設(shè)計，采用分塊法對各題本進行方差分量合成，考察總測驗的信度狀況。在決策研究中研究題目數(shù)量處于不同水平時總測驗的信度狀況，探究題目數(shù)量對總測驗信度的影響。

（二）研究對象

研究數(shù)據(jù)來自國家義務(wù)教育質(zhì)量監(jiān)測小學(xué)四年級科學(xué)質(zhì)量監(jiān)測。監(jiān)測的樣本來自全國31個?。ㄗ灾螀^(qū)、直轄市）及新疆生產(chǎn)建設(shè)兵團中共325個樣本縣（市、區(qū)）的3900所小學(xué)。全樣本數(shù)據(jù)包括112314名四年級學(xué)生。本研究隨機抽取其中30000個樣本作為研究對象，其中有效樣本29983個。

（三）研究工具

本研究的研究工具為國家義務(wù)教育質(zhì)量監(jiān)測小學(xué)四年級科學(xué)測驗。其監(jiān)測內(nèi)容依據(jù)《義務(wù)教育小學(xué)科學(xué)（3-6年級）課程標(biāo)準(zhǔn)（實驗稿）》編制。題型包括選擇題、組合題和問答題（見表2）。測驗考查的科學(xué)素養(yǎng)包括科學(xué)理解、科學(xué)探究和科學(xué)思維。

國家義務(wù)教育小學(xué)科學(xué)測驗共有109道試題。根據(jù)BIB設(shè)計方法，將109道試題劃分為若干組塊，每6個組塊組合成一個題本（如表1）。表3為各題本題目數(shù)與參測考生數(shù)情況，各題本題目數(shù)從35到38不等，各題本參測考生數(shù)從4941到5064不等。

（四）數(shù)據(jù)分析

為研究義務(wù)教育質(zhì)量監(jiān)測小學(xué)科學(xué)測驗各題本的信度狀況，以及各題本和總測驗中題目數(shù)量對信度的影響，研究基于概化理論，以概化系數(shù)（[Eρ2]）和可靠性系數(shù)（?）作為信度指標(biāo)，采用p×i的完全交叉設(shè)計。先通過方差分析，對6個題本內(nèi)造成誤差的變異分量進行估計，然后分析各題本測驗的信度狀況。最后，在此基礎(chǔ)上進行決策研究，通過調(diào)整題目數(shù)量，分析各題本內(nèi)題目數(shù)量變化對信度造成的影響，找出兼顧測驗題目數(shù)量與測量信度的最優(yōu)方案。

在數(shù)據(jù)分析工具方面，本研究使用R4.1.2作為數(shù)據(jù)分析軟件，使用gtheory包[24]進行概化理論分析。

三、研究結(jié)果

（一）各題本信度與題目數(shù)量的關(guān)系

1. 概化研究

概化研究（G研究）的任務(wù)是盡可能多地估計測驗中涉及到的誤差來源的方差分量。對于各題本而言，測量變異來源包括考生的科學(xué)素養(yǎng)水平（記為p）、不同題目對作答的影響（記為i）、考生與題目間的交互作用（記為pi）。國家義務(wù)教育質(zhì)量監(jiān)測小學(xué)科學(xué)測驗各題本的方差分析結(jié)果如表4所示。

從三個變異來源的方差分量占比上來看，比例最高的成分是學(xué)生與題目的交互作用，約占比82%。而題目側(cè)面的方差分量均值約為6%，帶來了較小的系統(tǒng)誤差。本次測驗的測量對象，考生科學(xué)素養(yǎng)水平對總變異的影響約占11%，比重相對較小，說明測量的準(zhǔn)確性仍有提升空間。六個題本內(nèi)的三種變異來源方差分量的比值相近（均接近1：0.5：7），說明各題本內(nèi)分數(shù)的誤差來源結(jié)構(gòu)相似，總測驗劃分而成的題本間無明顯區(qū)別。

一般而言，當(dāng)概化系數(shù)和可靠性系數(shù)均超過0.8時，測驗可被視為信度水平較高[25]。小學(xué)科學(xué)測驗各題本的信度狀況如表5所示。從當(dāng)前信度指標(biāo)上可以看到，除了題本五的概化系數(shù)和可靠性系數(shù)略低于0.80，其余題本信度均較高，能夠比較準(zhǔn)確地反映參與測驗學(xué)生的科學(xué)素養(yǎng)水平。

2.決策研究

決策研究（D研究）的任務(wù)是基于G研究對測驗變異來源的認識，重新構(gòu)建概括全域，探究在各水平上測驗的信度狀況，從而尋找對準(zhǔn)確測量更有利的測量條件。

為了進一步探究各題本下題目數(shù)量對信度狀況的影響，本研究通過調(diào)整各題本的題目數(shù)量側(cè)面，研究測驗信度的變化趨勢。各題本題目數(shù)均在35至38題，因此研究以5為步長調(diào)整題目數(shù)，設(shè)置了20、25、30、35、40、45、50共7種水平，結(jié)果見表6和表7。

總體上看，提升各題本的題目數(shù)量都能夠有效提升測驗信度。在測驗題目數(shù)較多的情況下，題目數(shù)量繼續(xù)增加對測驗信度的影響較小，且各題本測驗信度變化趨勢一致。

如前所述，當(dāng)概化系數(shù)和可靠性指數(shù)均超過0.8時測驗可被視為信度水平較高。以題本一為例，繪制概化系數(shù)與可靠性系數(shù)隨題目數(shù)量增加的變化趨勢如圖1所示。題本一的兩個信度指標(biāo)（概化系數(shù)和可靠性系數(shù)）都隨著題本一題目數(shù)量的增加而增大。當(dāng)題目數(shù)量大于30時，概化系數(shù)和可靠性系數(shù)均超過0.80。隨著題目數(shù)量的不斷增加，信度指標(biāo)增長速度降低。如題目數(shù)量從20提升到25時，概化系數(shù)提升0.04，可靠性系數(shù)提升0.04；題目數(shù)量從45提升到50時，概化系數(shù)和可靠性系數(shù)均只提升0.01左右。

可見，增加題目數(shù)量對提升測驗信度來說存在邊際效應(yīng)，即題目數(shù)量達到一定數(shù)量之后，繼續(xù)增加題目數(shù)量對測驗信度的影響逐漸變小。綜合六個題本在概化系數(shù)和可靠性系數(shù)上的表現(xiàn)，本研究建議控制測驗題目數(shù)量在45左右，以保證各題本均具有較高的測驗信度。

（二）總測驗信度與題目數(shù)量的關(guān)系

1. 概化研究

對于小學(xué)科學(xué)質(zhì)量監(jiān)測總測驗層面的信度分析，研究依據(jù)BIB設(shè)計，采用分塊法對各題本進行方差分量合成，再進行概化系數(shù)和可靠性系數(shù)的計算，結(jié)果見表8和表9。

可以看出，合成的總測驗概化系數(shù)和可靠性系數(shù)都大于0.90，說明總測驗的信度狀況良好，可以較為準(zhǔn)確地反映學(xué)生團體的科學(xué)素養(yǎng)水平。

2. 決策研究

為進一步探究題目數(shù)量對總測驗信度的影響，通過決策研究調(diào)整總測驗題目數(shù)量，觀測總測驗信度的變化趨勢。

其中題目數(shù)指根據(jù)BIB 將六個題本合并后的題目，剔除在各題本重復(fù)出現(xiàn)的題目。推論的題目數(shù)同理也是根據(jù)BIB方法，組合各組塊并分配到題本后實際的題目數(shù)，而非各題本題目數(shù)相加。

為有效反映和便于觀測題目數(shù)量與測驗信度的關(guān)系，題目數(shù)量值選取了當(dāng)前測驗實際題目數(shù)（109題）。同時，研究采用可重復(fù)隨機抽樣選取了109題的0.25倍（27題）、0.5倍（54題）、0.75倍（81題）、1.5倍（163題）和2倍（218題）共6種題目數(shù)量水平，結(jié)果見表10和圖2。

由表10和圖2可以看出，總測驗信度隨題目數(shù)量增多而上升，但當(dāng)題目達到一定數(shù)量之后，總測驗信度的增速降低?？倻y驗題目數(shù)為34時，概化系數(shù)和可靠性系數(shù)可大于0.80，題目數(shù)為77時，概化系數(shù)和可靠性系數(shù)超過0.90。

四、結(jié)論與建議

本研究以國家義務(wù)教育質(zhì)量監(jiān)測小學(xué)科學(xué)測驗為研究對象，采用概化理論分析方法，以概化系數(shù)和可靠性系數(shù)為信度指標(biāo)，從題本和總測驗兩個層面，對測驗題目數(shù)量與測驗信度的關(guān)系進行了探究。

（一）小學(xué)科學(xué)測驗的信度狀況

在總測驗層面，研究發(fā)現(xiàn)總測驗的概化系數(shù)為0.933，可靠性系數(shù)為0.928，說明國家義務(wù)教育質(zhì)量監(jiān)測小學(xué)科學(xué)測驗的信度狀況良好，對學(xué)生科學(xué)素養(yǎng)水平的反映有較好的一致性、穩(wěn)定性和可靠性。

在題本層面，其中五個題本的概化系數(shù)和可靠性系數(shù)均較高，只有題本五的信度指標(biāo)低于0.80，研究結(jié)果與2017年國家義務(wù)教育質(zhì)量監(jiān)測科學(xué)學(xué)科的技術(shù)報告結(jié)果一致（該報告采用經(jīng)典測驗理論，以內(nèi)部一致性系數(shù)作為信度指標(biāo)）。

根據(jù)BIB設(shè)計，信度最低的題本五是由題本四和題本六的各一半題目組合而成，題本四和題本六信度同樣也較低。題本四、五、六與其他題本的題目數(shù)量相當(dāng)，但信度較低，說明這三個題本中個別題目質(zhì)量較差。題本五分別吸收了題本四和題本六質(zhì)量較差的模塊，因此信度指標(biāo)更低。綜上，測驗編制時應(yīng)加強對試題質(zhì)量的審核，對質(zhì)量較差的模塊和題目加以重點改良，從而提升信度。

（二）小學(xué)科學(xué)測驗的題目數(shù)量與測驗信度的關(guān)系

本研究利用概化理論，以題目數(shù)量為核心的編制條件進行決策研究，在大規(guī)模測驗背景下，尋找縮減測驗長度和提升測驗信度之間的平衡。研究參照對應(yīng)測驗部分的信度指標(biāo)變動趨勢和幅度，調(diào)整各題本和總測驗的題目數(shù)量，試圖尋找更優(yōu)的題目數(shù)量設(shè)計方案。

在國家義務(wù)教育質(zhì)量監(jiān)測中，同一科目涉及知識內(nèi)容眾多，一般采用BIB設(shè)計組合出若干包含較少題目的題本，每個考生只需完成其中一個題本即可。因此，單個題本的測驗信度是保證監(jiān)測活動中準(zhǔn)確評估考生總體水平的基礎(chǔ)要求。本研究關(guān)注2017年國家教育質(zhì)量檢測小學(xué)科學(xué)測驗，首先研究其所包含的6個題本的測驗信度水平，以及測驗信度隨著題目數(shù)量變化的增長趨勢，探討小學(xué)科學(xué)測驗中適合的題本題目數(shù)量。其次，在總測驗層面研究測驗信度水平，以及測驗信度隨著題目數(shù)量變化的增長趨勢，以檢驗總測驗層面小學(xué)科學(xué)測驗的可靠性。

在單個題本的研究中，以每一個題本為研究對象，調(diào)整各題本的題目數(shù)量，觀察對應(yīng)條件下題本測驗信度的水平和變化趨勢。研究發(fā)現(xiàn)，各題本信度會隨題本內(nèi)題目數(shù)的增多而增長。同時，信度的增長出現(xiàn)了邊際效應(yīng)，即隨著題目數(shù)的增多信度的增速不斷降低，題目增多帶來的收益不斷降低。最后，需重點關(guān)注信度不足的題本五，可以通過增加6道試題，即題本增加至42道試題，使概化系數(shù)和可靠性系數(shù)都超過0.80?？傮w來講，如果控制各題本題目數(shù)在45左右，且各題本內(nèi)試題質(zhì)量相當(dāng)，可以有效保障各題本的高測驗信度。

對于在實際編制條件下信度水平較高的題本，從大規(guī)模測驗對縮減測驗長度的需要出發(fā)，研究試圖對其進行縮減。而在縮減其題目數(shù)量的同時，需要控制其信度指標(biāo)不低于標(biāo)準(zhǔn)值。研究以題本一為例展示對高信度測驗的簡化。通過調(diào)整題目數(shù)，使其從實際編制條件的38題開始下降，題本一的信度值隨之下降，并隨著題目數(shù)的逐漸減少加速下降。當(dāng)題目數(shù)水平為32題時，題本一的概化系數(shù)和可靠性系數(shù)仍可超過0.80；當(dāng)題目數(shù)下降到31時，可靠性系數(shù)低于0.80，不應(yīng)再減少題目。因此，題本內(nèi)題目數(shù)最少應(yīng)控制在31題以上。

從現(xiàn)有的題目設(shè)計出發(fā)，存在兩個提升信度的方法。一是提高試題的質(zhì)量，尤其需要定位測驗內(nèi)信度較低的模塊和試題，加以改良，并加強測驗編制時對題目質(zhì)量的審核。二是增加題目數(shù)量，從現(xiàn)有題目質(zhì)量的水平看，每個題本內(nèi)有35題時基本能滿足信度要求，而每套試卷題目數(shù)設(shè)置到45題時更為穩(wěn)妥，能夠保證每個題本都能準(zhǔn)確反映個體科學(xué)素養(yǎng)水平。

另外，研究在總測驗信度狀況良好的結(jié)果基礎(chǔ)上，通過調(diào)整總測驗題目數(shù)量，探究總測驗層次題目數(shù)量對信度的影響。結(jié)果表明，總測驗信度會隨題目的增加而提升，且存在邊際效應(yīng)?？倻y驗題目數(shù)降低至77題時，概化系數(shù)和可靠性系數(shù)仍可超過0.9；題目數(shù)降至34題時兩個信度指標(biāo)仍超過0.8。但考慮到題目較少的總測驗下測驗內(nèi)容過少、知識點覆蓋面不足，且各題本信度會大大降低，因此，在總測驗層面直接精簡題目并不可行。

綜上，國家義務(wù)教育質(zhì)量監(jiān)測小學(xué)科學(xué)測驗的各題本信度狀況良好，大部分題本概化系數(shù)和可靠性系數(shù)超過0.80，接近0.83?？紤]到兼顧信度要求和對大規(guī)模測驗的時長、成本控制，各題本需要約31～35題。從總測驗層面看，測驗的概化系數(shù)為0.933，可靠性系數(shù)為0.928，測驗具有理想的信度，能夠準(zhǔn)確反映學(xué)生的科學(xué)素養(yǎng)水平。但若要縮減總測驗題目數(shù)還需考慮測驗中各個內(nèi)容維度的測量信度。本研究對測驗的三個維度進行額外的概化理論分析發(fā)現(xiàn)：科學(xué)理解維度題目數(shù)可由45降至36題；科學(xué)探究維度可由37降至29題；科學(xué)思維維度可由36降至33題（受限于篇幅，這里不再呈現(xiàn)具體圖表）。綜合考量總測驗以及總測驗內(nèi)各維度題目數(shù)量，在總測驗層面題目數(shù)量可由109題降至98題。

（三）研究結(jié)果對其他學(xué)科教育質(zhì)量監(jiān)測的啟示

面對復(fù)雜設(shè)計的大規(guī)模測驗，基于對誤差的分解理念和方差分析方法，GT具有能夠辨別和估計各種測量誤差變異來源的優(yōu)勢，有助于我國基礎(chǔ)教育質(zhì)量監(jiān)測中各學(xué)科測驗設(shè)計的分析和構(gòu)建。本研究以小學(xué)科學(xué)測驗為例，尋找測驗長度和測驗信度的最佳平衡。在其他如數(shù)學(xué)、閱讀、英語等學(xué)科的教育質(zhì)量監(jiān)測中，同樣可以采用本研究中的分析步驟對測驗設(shè)計的可靠性進行檢驗，同時尋找適合本學(xué)科測驗長度與測驗信度的最佳平衡點，為實踐中的測驗編制工作提供數(shù)據(jù)支撐。

參考文獻：

[1] 柴省三.標(biāo)準(zhǔn)參照測驗長度研究方法探析[J].教育測量與評價（理論版），2013，（08）：9-14+8.

[2] 王俊民.核心素養(yǎng)視域下國際大規(guī)模科學(xué)學(xué)業(yè)評估框架與試題研究[D].西南大學(xué)，2018.

[3] 楊志明，張雷.測評的概化理論及其應(yīng)用[M].北京：教育科學(xué)出版社，2003.

[4] 戴海崎，張鋒，陳雪楓.心理與教育測量[M].廣州：暨南大學(xué)出版社，2011.

[5] 黃慧靜，辛濤，李珍.矩陣取樣設(shè)計中的似真值能力估計方法[J].心理科學(xué)，2012，（05）：1233-1239.

[6] 何孟姐，楊濤，辛濤，等.大規(guī)模教育測評的多題本設(shè)計[J].中國考試，2017，（02）：33-39.

[7] 李凌艷，辛濤，董奇.矩陣取樣技術(shù)在大尺度教育測評中的運用[J].北京師范大學(xué)學(xué)報（社會科學(xué)版），2007，（06）：19-25.

[8] Black P，Wiliam D. Large-scale Assessment Systems Design Principles Drawn from International Comparisons [J]. Measurement，2007，5（1）：1-53.

[9] 戴海琦.基于項目反應(yīng)理論的測驗編制方法研究[J].考試研究，2006，（04）：31-44.

[10] Lord F M. Estimating Norms by Item-Sampling [J]. Educational and Psychological Measurement， 1962，22（2）：259-267.

[11] Gonzalez J M，Eltinge J L. Multiple Matrix Sampling：A Review. Proceedings of the Section on Survey Research Methods [J]，American Statistical Association，2007：3069-3075．

[12] Thomas N，Raghunathan T E，Schenker N，et al. An Evaluation of Matrix Sampling Methods Using Data from the National Health and Nutrition Examination Survey [J]. Survey Methodology，2006，32：217-231．

[13] Childs Ruth A，Jaciw Andrew P. Matrix Sampling of Items in Large Scale Assessments [J]. Practical Assessment，Research，and Evaluation，2003，8（8），Article 16.

[14] 李凌艷，謝敏，辛濤.小學(xué)生數(shù)學(xué)成就測驗的編制：矩陣取樣設(shè)計的途徑[J].基礎(chǔ)教育研究，2009，（18）：25-27.

[15] 李凌艷，張平平.大規(guī)模教育測評中實際運用矩陣取樣技術(shù)的基本問題[J].中國考試，2011，（01）：16-21.

[16] Rutkowski L，Gonzalez E，Joncas M，et al. International Large-Scale Assessment Data：Issues in Secondary Analysis And Reporting [J]. Educational Researcher，2010，39（2）：142-151.

[17] 辛濤，李峰，李凌艷.基礎(chǔ)教育質(zhì)量監(jiān)測的國際比較[J].北京師范大學(xué)學(xué)報（社會科學(xué)版），2007，（06）：5-10.

[18] Shavelson R J，Webb N M.Generalizability Theory：A Primer [J]. Newbury Sage，1991，38（14）：1486-1494.

[19] DeMars，Christine. Estimating Variance Components from Sparse Data Matrices in Large-Scale Educational Assessments [J]. Applied Measurement in Education，2015，28（1）：1-13.

[20] Brennan R L. Generalizability Theory [M]. NewYork：Springer-Verlag，2001.

[21] Briesch A M，Swaminathan H，Welsh M，et al. Generalizability Theory：A Practical Guide to Study Design，Implementation，and Interpretation [J]. Journal of School Psychology，2014，52（1）：13-35.

[22] 趙軒，任子朝，陳昂.基于多元概化理論的高考數(shù)學(xué)文理科試卷質(zhì)量分析與對比研究[J].數(shù)學(xué)通報，2018，057（001）：25-30.

[23] 陳維，何壯，趙守盈.高考語文?？荚嚲眍}型結(jié)構(gòu)的多元概化分析[J].教學(xué)與管理，2016，（18）：116-118.

[24] Christopher T. Moore. gTheory：Apply Generalizability Theory with R. R package version 0.1，2016.

[25] 黎光明，張敏強.基于學(xué)生評教的多元概化理論分析[J].教育測量與評價（理論版），2013，（07）：4-6+17.

The Influence of the Quantity of Primary School Science Test Questions on the Reliability of the National Compulsory Education Quality Monitoring

Jiang Youxiang1" Cao Lang2" Wen Hongbo1

1 China Basic Education Quality Monitoring Collaborative Innovation Center，Beijing Normal University，Beijing，100088

2 RDFZ Sanya School，Sanya，Hainan，572014

Abstract：This study aims to investigate the impact of the number of test items in the National Compulsory Education Primary School Science Quality Monitoring Test on reliability. Using the Generalizability Theory and a complete crossover design，an analysis was conducted to examine the reliability of each test form and the effect of the number of test items on reliability through generalizability study and decision study. At the test form level，except for test form 5，the reliability of the 2017 primary school science test forms was generally high，with reliability values above 0.80. For the six test forms，increasing the number of test items improved the test's reliability，although the rate of reliability improvement gradually diminished. Once the number of test items reached a certain level，the impact of further increasing the number of items on reliability became minimal. When the number of items in each test form was around 45，the test form's reliability was maintained at a high level. At the overall test level，the generalizability coefficient and reliability coefficient were 0.933 and 0.928，respectively，indicating good test reliability. On the condition that the quality of test items is ensured，if a reduction in the number of items is necessary，the total number of test items could be reduced from 109 to 98.

Key words：Monitoring the Quality of Compulsory Education，Elementary Science，Number of Questions，Test Reliability

（責(zé)任編輯：吳茳）

作者簡介姜有祥，博士研究生，北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心。北京，100088。曹朗，教師，海南省三亞市中國人民大學(xué)附屬中學(xué)三亞學(xué)校。海南三亞，572014。溫紅博，博士，副主任，博士研究生導(dǎo)師，北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心。北京，100088。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

國家義務(wù)教育質(zhì)量監(jiān)測小學(xué)科學(xué)測驗題目數(shù)量對測驗信度的影響