深度解讀學(xué)前教育質(zhì)量評價的信度、效度和公平性

2024-02-19 11:38:38陳德枝

幼兒教育·教育科學(xué)版 2024年2期

【摘要】信度、效度和公平性是學(xué)前教育質(zhì)量評價的三個基本測量學(xué)屬性。本文基于《教育與心理測量標(biāo)準(zhǔn)》中信度、效度和公平性的基本內(nèi)涵，結(jié)合學(xué)前教育質(zhì)量評價的基本特點，闡述學(xué)前教育質(zhì)量評價的信度、效度和公平性以及三者間的相互關(guān)系，并針對當(dāng)前學(xué)前教育質(zhì)量評價測量學(xué)屬性研究進(jìn)展，進(jìn)一步指出未來信度、效度和公平性探索的主要方向和方法。

【關(guān)鍵詞】學(xué)前教育質(zhì)量評價;信度;效度;公平性

【中圖分類號】G610 【文獻(xiàn)標(biāo)識碼】A? ?【文章編號】1004-4604（2024）1/2-0063-06

學(xué)前教育質(zhì)量評價是學(xué)前教育事業(yè)改革和發(fā)展的重要議題。信度（Reliability）、效度（Valiability）和公平性（Fairness）作為學(xué)前教育質(zhì)量評價的基本測量學(xué)屬性，是評價科學(xué)性和權(quán)威性的重要基礎(chǔ)和基本保障。本文基于2014年美國教育研究學(xué)會、美國心理學(xué)會和美國國家教育測量委員會頒布的《教育與心理測量標(biāo)準(zhǔn)》中對信度、效度和公平性的界定，探索學(xué)前教育質(zhì)量評價的基本測量學(xué)屬性，旨在為幼兒園保育教育質(zhì)量細(xì)則的構(gòu)建、學(xué)前教育質(zhì)量評價方法和過程的規(guī)范以及幼兒園保育教育質(zhì)量的提升提供方向指引。

一、學(xué)前教育質(zhì)量評價的信度及研究進(jìn)展

1.學(xué)前教育質(zhì)量評價的信度

信度指重復(fù)測試結(jié)果的一致性。〔1〕學(xué)前教育質(zhì)量評價的信度指評價者采用相同的標(biāo)準(zhǔn)對幼兒園進(jìn)行重復(fù)評價，以使結(jié)果趨于一致或穩(wěn)定?；趯W(xué)前教育質(zhì)量評價目前采用的評價方法，信度的影響因素主要來自評價內(nèi)容和評價者。學(xué)前教育質(zhì)量評價通常圍繞評價量表或標(biāo)準(zhǔn)展開，因此評價量表或標(biāo)準(zhǔn)的可信性也是質(zhì)量評價信度的影響因素之一。另外，學(xué)前教育質(zhì)量評價多采用評價者現(xiàn)場測評的方式。雖然對評價者進(jìn)行了統(tǒng)一、嚴(yán)格的測評培訓(xùn)，但由評價者主觀評價引起的誤差依然是影響測評結(jié)果準(zhǔn)確性的重要因素。〔2-5〕

2.學(xué)前教育質(zhì)量評價信度的研究進(jìn)展

短時間內(nèi)有規(guī)模地組織評價者對幼兒園進(jìn)行重復(fù)測評具有一定難度。當(dāng)前有關(guān)保教質(zhì)量評價的信度估計主要采用經(jīng)典測量理論信度系數(shù)估計的常見方法，如內(nèi)部一致性α系數(shù)、概化系數(shù)、評分者一致性百分比等。幾種常見的國內(nèi)外保教質(zhì)量評價工具，如中國托幼機(jī)構(gòu)教育質(zhì)量評價量表（C?ECERS）、〔6〕中國幼兒園教育質(zhì)量評價量表、〔7〕幼兒園教育質(zhì)量評價手冊、〔8〕走向優(yōu)質(zhì)——中國幼兒園教育質(zhì)量評價標(biāo)準(zhǔn)、〔9〕幼兒學(xué)習(xí)環(huán)境評量表（Early Childhood Environmental Rating Scale）系列、〔10，11〕課堂評估評分系統(tǒng)（CLassroom Assessment Scoring System）、〔12，13〕照料者參與性評量表（Caregiver Involvement Scale）、〔14〕幼兒園教育質(zhì)量評估（Presc?

hool Program Quality Assessment）〔15〕以及持續(xù)共享思維和情緒情感健康評量表（Sustained Shared Thinking and Emotional Wellbeing scale）〔16〕等均采用α系數(shù)表征量表評價內(nèi)容的一致性。中國托幼機(jī)構(gòu)教育質(zhì)量評價量表還采用概化系數(shù)分析量表內(nèi)容的信度。〔17〕評分者一致性百分比或評分者相關(guān)系數(shù)是學(xué)前教育質(zhì)量評價報告中評價者一致性的常用統(tǒng)計量，如中國托幼機(jī)構(gòu)教育質(zhì)量評價量表、幼兒學(xué)習(xí)環(huán)境評量表系列和課堂評估評分系統(tǒng)等均采用該方法估計評分者一致性等?！?8-21〕另外，近年來項目反應(yīng)理論（IRT）也逐步被用于質(zhì)量評價信度分析，如多側(cè)面拉希模型（MFRM）方法多被用于中國托幼機(jī)構(gòu)教育質(zhì)量評價量表的評價者信度等?！?2〕

二、學(xué)前教育質(zhì)量評價的效度及研究進(jìn)展

1.學(xué)前教育質(zhì)量評價的效度

效度指測評結(jié)果被實證和理論支持所解釋的程度?！?3〕學(xué)前教育質(zhì)量評價的效度是指評價結(jié)果被來自幼兒園保教質(zhì)量的實證和理論支持所解釋的程度。具體而言，學(xué)前教育質(zhì)量評價的效度通常圍繞學(xué)前教育質(zhì)量評價內(nèi)容及內(nèi)在結(jié)構(gòu)、評價過程、評價結(jié)果與其他變量的關(guān)系、評價結(jié)果的解釋和應(yīng)用五個方面展開。而在實踐中則圍繞內(nèi)容效度、反應(yīng)過程效度、結(jié)構(gòu)效度和校標(biāo)關(guān)聯(lián)效度四個方面展開。

內(nèi)容效度以評價項目或指標(biāo)的表述、呈現(xiàn)形式、管理和評分規(guī)則等為取證來源，并以專家判斷為依據(jù)。反應(yīng)過程效度的取證主要來自評價者的評分過程與測評結(jié)果預(yù)期解釋的一致性程度。結(jié)構(gòu)效度指評價內(nèi)容的內(nèi)在結(jié)構(gòu)與預(yù)先假設(shè)的結(jié)構(gòu)是否一致，通常采用實證研究來探索和驗證結(jié)構(gòu)效度。校標(biāo)關(guān)聯(lián)效度常把兒童發(fā)展水平作為與其他變量的關(guān)系取證。已有研究一般采用兒童語言、數(shù)學(xué)和情感社會性發(fā)展水平為其他變量，探討質(zhì)量與這些發(fā)展變量的關(guān)系來佐證質(zhì)量評價的有效性?！?4-29〕

2.學(xué)前教育質(zhì)量評價效度的研究進(jìn)展

一直以來作為學(xué)前教育質(zhì)量評價效度研究的關(guān)注點，結(jié)構(gòu)效度通常采用探索性因素（EFA）和驗證性因素（CFA）分析學(xué)前教育質(zhì)量評價工具的潛在內(nèi)部結(jié)構(gòu)。如探索性因素和驗證性因素的分析結(jié)果表明，幼兒學(xué)習(xí)環(huán)境評量表主要評價兩個潛在因子：結(jié)構(gòu)性質(zhì)量和過程性質(zhì)量?！?0〕由于評價量表和樣本量的不同以及探索性因素方法本身的限制，研究所得結(jié)論可能有所不同。有研究結(jié)果顯示幼兒園保教質(zhì)量由兒童課程和活動的結(jié)構(gòu)與支持、教職人員與幼兒間的互動及對教師專業(yè)成長和家長需求的支持三個潛在結(jié)構(gòu)組成?！?1〕

來自與其他變量關(guān)系的效度取證研究也是學(xué)前教育質(zhì)量評價效度研究的熱點。受兒童情感社會性測量等所限，當(dāng)前效度取證的其他變量更多采用的是兒童語言和數(shù)學(xué)認(rèn)知發(fā)展，并通過求取這些變量與質(zhì)量評價結(jié)果的關(guān)系來探討效度。采用的分析方法由簡單的二元相關(guān)到復(fù)雜的回歸分析，如多水平回歸模型等?！?2，33〕近年來，幼兒園保教質(zhì)量的縱向追蹤和增值評價已成為學(xué)前教育質(zhì)量評價效度研究的一大趨勢?！?4-36〕

內(nèi)容效度主要用于統(tǒng)計和分析專家評判結(jié)果的一致性。另外，已有文獻(xiàn)中僅有少量研究對過程效度進(jìn)行了初步探討。這些研究主要采用項目反應(yīng)理論的等級反應(yīng)模型（Grade Response Model）、一般分步評分模型（Generalized Partial Rating Model）等多級計分方法探討照料者參與性評量表和幼兒學(xué)習(xí)環(huán)境評量表的過程效度?！?7-39〕過程效度之所以被忽略，一方面可能是因為過程效度的分析方法還不夠簡便和大眾化;另一方面則是因為過程效度概念本身還未引起足夠的重視。

在評價結(jié)果解釋和應(yīng)用的有效性方面，美國的質(zhì)量評價和提升系統(tǒng)（Quality Rating and Imp?

roving System）不僅涉及不同的評價工具，同時還對來自不同地區(qū)和不同文化背景的幼兒園進(jìn)行評價和比較，為學(xué)前教育政策制定和質(zhì)量提升提供參考?！?0〕國內(nèi)也有對來自全國各地區(qū)各類不同樣態(tài)的幼兒園進(jìn)行學(xué)前教育質(zhì)量和幼兒園課程質(zhì)量的比較工作?！?1-43〕以上都是對測評結(jié)果解釋和應(yīng)用的宏觀關(guān)注，具體針對某所幼兒園或某個班級質(zhì)量評價結(jié)果的診斷性解釋以及用于改進(jìn)和提升保育教育質(zhì)量的應(yīng)用，還有待實踐的深入探索。

三、學(xué)前教育質(zhì)量評價的公平性及研究進(jìn)展

1.學(xué)前教育質(zhì)量評價的公平性

公平性指測試對所有預(yù)測個體具有相同的結(jié)構(gòu)和意義?！?4〕學(xué)前教育質(zhì)量評價的公平性是指評價的結(jié)構(gòu)和意義不會隨著參評幼兒園的類型或所在地等的不同而發(fā)生變化。即無論是具有不同的類型特征還是來自不同的群組，最終都有相同的質(zhì)量評價結(jié)構(gòu)和意義?；跍y量標(biāo)準(zhǔn)對公平性的界定，學(xué)前教育質(zhì)量評價的公平性主要包含以下四個方面：評價過程的公平性;沒有評價偏差;評價結(jié)構(gòu)的公平性;評價結(jié)果解釋的有效性。

具體而言，評價過程的公平性指在評價內(nèi)容的設(shè)計、開發(fā)和管理，乃至評價流程和賦分規(guī)則等方面，都要最大限度地減少對測評結(jié)果解釋有效性的影響。因此，在學(xué)前教育質(zhì)量評價標(biāo)準(zhǔn)的開發(fā)和應(yīng)用中，要明確說明評價結(jié)果的有效性解釋，并界定參評幼兒園的個體和群體特征，如幼兒園規(guī)模、幼兒園辦園性質(zhì)和幼兒園所在地（城鎮(zhèn)和鄉(xiāng)村）等，以減少這些特征和群組變量對評價公平性的影響。公平性意味著沒有測評偏差，是學(xué)前教育質(zhì)量評價結(jié)果有效性解釋的基本保障。然而，實踐中無法完全消除測評偏差，通常是將偏差大小界定在可接受的范圍內(nèi)。學(xué)前教育質(zhì)量評價測評內(nèi)容的潛在結(jié)構(gòu)主要包含結(jié)構(gòu)性和過程性質(zhì)量。〔45〕評價結(jié)構(gòu)的公平性指確保該結(jié)構(gòu)對所有參評幼兒園是相同的。公平性還包含測評結(jié)果解釋的有效性。為保障學(xué)前教育質(zhì)量評價的公平性，評價開發(fā)人員和研究者還需收集和提供支持評價公平性的相關(guān)依據(jù)，并根據(jù)評價本身的局限性明確表達(dá)評價結(jié)果的預(yù)期解釋和用途。由于評價項目或指標(biāo)編制的有限性以及評價方法和流程本身的局限性等，評價的公平性會因此受到影響。如學(xué)前教育質(zhì)量評價通常采用觀察法，評價結(jié)果中往往都存在評價者的主觀性，因而對評價結(jié)果的解釋和應(yīng)用都需綜合且慎重考慮這些因素?？梢?，測評結(jié)果解釋的有效性主要強(qiáng)調(diào)對測評工具、人員和過程等進(jìn)行基本的公平性支持，以保障效度探討中提及的測評結(jié)果解釋和應(yīng)用的有效性。

2.學(xué)前教育質(zhì)量評價公平性的研究進(jìn)展

學(xué)前教育質(zhì)量評價的公平性目前還未引起廣泛關(guān)注，相應(yīng)的研究探索也未真正起步。盡管如此，研究者在編制和開發(fā)評價內(nèi)容時，對測評內(nèi)容的界定和應(yīng)用范疇的考量以及說明均關(guān)注了評價過程的公平性。如各量表手冊的操作說明等都附有詳細(xì)的指標(biāo)解讀或賦分說明，有些還標(biāo)注了不適用的指標(biāo)或項目等?！?6，47〕另外，在有關(guān)測評結(jié)構(gòu)的公平性方面，有研究針對不同類型幼兒園（如城市和鄉(xiāng)村幼兒園）的測評潛在結(jié)構(gòu)進(jìn)行了討論。與已有研究結(jié)果一致，不同類型的學(xué)前教育質(zhì)量評價具有相同的潛在結(jié)構(gòu)。〔48〕在測評結(jié)果解釋的有效性方面，如美國的質(zhì)量評價和提升系統(tǒng)在兩個不同的州展開質(zhì)量測評，在測評標(biāo)準(zhǔn)和流程、參與者和政策決策者等方面提出測評建議，即提供測評公平性的信息依據(jù)和支持，以最終保障測評結(jié)果解釋的有效性。〔49〕而在有關(guān)測評偏差的公平性上，已有文獻(xiàn)還鮮有報告。這不僅表明學(xué)前教育質(zhì)量評價的公平性還有大量空白有待探索，也從另一角度說明學(xué)前教育質(zhì)量評價的科學(xué)性還需公平性方面的補(bǔ)充和鞏固。

四、學(xué)前教育質(zhì)量評價三個測量學(xué)屬性間的相互關(guān)系

信度、效度和公平性三個測量學(xué)屬性間存在相互制約、相輔相成的關(guān)系。首先，良好的信度是評價有效性的前提。學(xué)前教育質(zhì)量評價的信度包含評價內(nèi)容的可信性和評價過程的可信性。評價過程的可信性主要指由評價者的主觀評價造成的評價誤差。因而，減少評價誤差和提高評價者信度是提高學(xué)前教育質(zhì)量評價信度和效度的重要舉措。反過來，學(xué)前教育質(zhì)量評價的效度也會影響其信度，評價效度高意味著評價結(jié)果信度越高。

其次，學(xué)前教育質(zhì)量評價的效度是公平性的重要前提，同時公平性又是評價效度的重要體現(xiàn)。學(xué)前教育質(zhì)量評價的效度不僅指評價內(nèi)容、評價過程和其他變量關(guān)系的有效性，還包含評價結(jié)構(gòu)和評價結(jié)果解釋的有效性等。而測評同結(jié)構(gòu)性和評價結(jié)果解釋的有效性也是評價公平性的重要內(nèi)涵。因此，學(xué)前教育質(zhì)量評價的效度與公平性相輔相成，相互影響。

最后，信度和公平性之間也會互相影響。一方面，學(xué)前教育質(zhì)量評價的信度是測評同結(jié)構(gòu)性和評價結(jié)果解釋有效性的重要前提。評價的信度低將直接影響評價結(jié)構(gòu)和評價結(jié)果解釋的有效性。與此同時，信度也是減少測評偏差的重要基礎(chǔ)。隨著評價內(nèi)容和評價者信度的提高或評價誤差的減少，質(zhì)量評價的公平性會有所增強(qiáng)。另一方面，學(xué)前教育質(zhì)量評價的公平性也會影響其信度。公平性高意味著評價內(nèi)容、評價過程和評價技術(shù)等的可信性和有效性高，測評偏差比較小，間接表明測評信度高（見圖1）。

只有同時提高信度、效度和公平性才能真正保障保教質(zhì)量評價的科學(xué)性和權(quán)威性，才能為學(xué)前教育質(zhì)量提升提供堅實的測量學(xué)依據(jù)。

五、學(xué)前教育質(zhì)量評價測量學(xué)屬性的研究展望

1.學(xué)前教育質(zhì)量評價信度的研究展望

信度的估計通常采用內(nèi)部一致性系數(shù)或概化系數(shù)，由于這兩種分析和估計信度的方法都基于經(jīng)典測量理論（CTT），所以存在著信度估計值隨著樣本量而發(fā)生變化的問題。而這會給評價工具或標(biāo)準(zhǔn)的使用帶來不小的挑戰(zhàn)。首先，每次使用都要估計信度大小，尤其是當(dāng)樣本量不夠大或針對單所幼兒園評價時，基于經(jīng)典測量理論的方法就顯得十分有限。其次，內(nèi)部一致性系數(shù)或概化系數(shù)都基于總量表或其中的子量表，無法估計某個具體的評價項目或指標(biāo)的可信性，難以為評價項目或標(biāo)準(zhǔn)的修訂和規(guī)范提供詳細(xì)的信度信息。學(xué)前教育質(zhì)量評價中評價者信度受到越來越多的關(guān)注，如評價者一致性百分比或評價結(jié)果的相關(guān)系數(shù)常常用于報告評價者間的一致性。嚴(yán)格來說，這些方法都無法準(zhǔn)確評估評價者信度，只能統(tǒng)計評價者間的一致性，而評價者間的一致性和評價者信度是兩個完全不同的概念。

近年來，項目反應(yīng)理論在學(xué)前教育質(zhì)量評價屬性分析中的應(yīng)用逐漸增多。這不僅為某個具體項目或指標(biāo)的信度估計提供了可實現(xiàn)的方法和技術(shù)，也為估計評價者信度提供了相應(yīng)的方法和技術(shù)。但是，已有研究主要是用參數(shù)方法進(jìn)行分析，并且都需要建立在很強(qiáng)的數(shù)學(xué)假設(shè)前提下。不同于參數(shù)方法需要建立于強(qiáng)假設(shè)，非參數(shù)方法假設(shè)弱，且適合于小樣本等情況，用于分析學(xué)前教育質(zhì)量評價的信度或是將來更合適的選擇。

2.學(xué)前教育質(zhì)量評價效度的研究展望

內(nèi)容效度、結(jié)構(gòu)效度和實證效度以及與其他變量的關(guān)系等是目前學(xué)前教育質(zhì)量評價效度研究的主要內(nèi)容。未來可以考慮不同領(lǐng)域或方向的研究者對內(nèi)容效度的理解與思考，為內(nèi)容效度的取證提供更充實的測量學(xué)依據(jù)。

在討論學(xué)前教育質(zhì)量評價的內(nèi)在結(jié)構(gòu)效度時，已有研究常常采用探索性因素法（EFA）和驗證性因素法（CFA）。與信度估計方法相同，這些方法都是基于經(jīng)典測量理論。因而，同樣存在著依賴隨機(jī)抽樣和無法適應(yīng)樣本量小的實際應(yīng)用情景問題。另外，探索性因素法方法在公因子抽取個數(shù)和命名中存在一定的主觀色彩，也是學(xué)前教育質(zhì)量評價的內(nèi)在結(jié)構(gòu)目前還存在其他觀點的主要原因。未來在探索內(nèi)在結(jié)構(gòu)方面可以嘗試其他方法，如探索性因素法和項目反應(yīng)理論相結(jié)合的全息項目因素分析（FIFA）。更重要的是未來需結(jié)合中國文化背景和中國幼兒園保育教育特點，構(gòu)建具有中國文化特色的學(xué)前教育質(zhì)量內(nèi)在結(jié)構(gòu)。

與其他變量的關(guān)系是學(xué)前教育質(zhì)量評價效度研究的重點。如前文所述，已有的大量討論均集中在保育教育質(zhì)量與兒童發(fā)展，如語言、數(shù)學(xué)和情感社會性等方面的關(guān)系。依據(jù)兒童發(fā)展的生態(tài)觀，未來在討論時可適當(dāng)兼顧其他變量，如家庭結(jié)構(gòu)、家庭經(jīng)濟(jì)收入以及社區(qū)環(huán)境等對兒童發(fā)展的影響。與此同時，還需關(guān)注到學(xué)前教育質(zhì)量對兒童發(fā)展的長期影響和效應(yīng)，即追蹤探索。另外，在方法上基于項目反應(yīng)理論展開學(xué)前教育質(zhì)量和兒童發(fā)展的長期追蹤與監(jiān)測或是未來的一大趨勢。

學(xué)前教育質(zhì)量評價的效度研究雖然有大量的實證支持，但這些取證主要來自內(nèi)容效度和結(jié)構(gòu)效度，而在評價過程和結(jié)果解釋的有效性上仍存在大量空白。未來，評價過程的有效性，尤其是評價者的有效性或許是學(xué)前教育質(zhì)量評價測量學(xué)屬性研究的重點之一。這將為學(xué)前教育質(zhì)量評價評委庫的建立和培訓(xùn)等提供測量學(xué)屬性參考。對評價結(jié)果的有效解釋和應(yīng)用通常是學(xué)前教育質(zhì)量評價容易被忽略的環(huán)節(jié)。因此，如何通過解釋評價結(jié)果促進(jìn)學(xué)前教育質(zhì)量不斷改進(jìn)和提升，是效度研究即將面臨的一大挑戰(zhàn)。

3.學(xué)前教育質(zhì)量評價公平性的研究展望

縱觀已有文獻(xiàn)，學(xué)前教育質(zhì)量評價的公平性探索剛剛起步。未來一段時間內(nèi)，基于測量學(xué)視角探討公平性將是學(xué)前教育質(zhì)量評價測量學(xué)屬性研究的重要內(nèi)容。這些研究將會聚焦于以下幾個方面。首先是基于測量學(xué)的學(xué)前教育質(zhì)量評價公平性的界定，包括對評價內(nèi)容、評價方法、評價過程和結(jié)果等的公平性界定。其次是衡量公平性大小的分析方法。目前，已有分析方法主要圍繞評價項目或指標(biāo)、評價量表和評價者三個不同方面對測評偏差進(jìn)行分析。例如，項目功能差異（Different Item Function）檢驗方法針對測評項目的功能性差異進(jìn)行檢驗，而測驗功能性差異（Different Testing Function）和評價者功能性差異（Different Rater Function）則針對量表和評價者的公平性進(jìn)行檢驗。未來，這些不同角度的分析方法將是探討學(xué)前教育質(zhì)量評價公平性的基本思路和技術(shù)。再次，測評內(nèi)在結(jié)構(gòu)對所有測評對象的同一性不僅是學(xué)前教育質(zhì)量評價效度研究的主要內(nèi)容，也是公平性的主要表征。消除測評對象如幼兒園的特征變量和組群變量的影響，提高測評的公平性也是未來公平性屬性研究的主要方向。最后，相同評價結(jié)果解釋的有效性是公平性的重要保障，如何有效、公平地解釋和應(yīng)用評價結(jié)果將是學(xué)前教育質(zhì)量評價未來不可或缺的內(nèi)容。

參考文獻(xiàn)：

〔1〕〔23〕〔44〕ASSOCIATION，A. E.Standards for educational and psychological testing〔M〕.Washing，DC：American Educational Research Association，2018：11-50.

〔2〕〔17〕CHEN D，HU B Y，F(xiàn)AN X，et al.Measurement quality of the Chinese Early Childhood Program Rating Scale：An investigation using multivariate generalizability theory〔J〕.Journal of Psychoeducational Assessment，2014，32（3）：236-248.

〔3〕〔22〕陳德枝，秦金亮，李克建.托幼機(jī)構(gòu)教育質(zhì)量評價中評委偏差的多側(cè)面 Rasch 分析〔J〕.心理科學(xué)，2016，39（3）：628-636.

〔4〕ENGELHARD JR G，WIND S A.Introduction to the special issue on rater?mediated assessments〔J〕. Journal of Educational Measurement，2019，56（3）：475-477.

〔5〕WIND S A.Examining the impacts of rater effects in performance assessments 〔J〕.Applied Psychological Measurement，2019，43（2）：159-171.

〔6〕〔18〕〔24〕〔33〕LI K，ZHANG P，HU B Y，et al.Testing the ‘thresholds’ of preschool education quality on child outcomes in China〔J〕.Early Childhood Research Quarterly，2019（47）：445-456.

〔7〕劉焱，潘月娟.《幼兒園教育環(huán)境質(zhì)量評價量表》的特點、結(jié)構(gòu)和信效度檢驗〔J〕.學(xué)前教育研究，2008（6）：60-64.

〔8〕中央教育科學(xué)研究所學(xué)前教育研究室.幼兒園教育質(zhì)量評價手冊〔M〕.北京：教育科學(xué)出版社，2009.

〔9〕〔19〕陳德枝，李克建，周兢.《走向優(yōu)質(zhì)——中國幼兒園教育質(zhì)量評價標(biāo)準(zhǔn)》的測量學(xué)屬性分析：基于我國100所幼兒園與1670名兒童的測評數(shù)據(jù) 〔J〕.學(xué)前教育研究，2021（1）：3-16.

〔10〕〔20〕SAKAI L M，WHITEBOOK M，WISHARD A，et al.Evaluating the Early Childhood Environment Rating Scale （ECERS）：Assessing differences between the first and revised edition〔J〕.Early Childhood Research Quarterly，2003，18（4）：427-445.

〔11〕〔21〕〔31〕PERLMAN M，ZELLMAN G L，LE V?N.Examining the psychometric properties of the early childhood environment rating scale?revised （ECERS?R）〔J〕.Early Childhood Research Quarterly，2004，19（3）：398-412.

〔12〕PIANTA R C P K，HAMRE B K.Classroom assessment scoring system：Manual K?3〔M〕.Baltimore：Paul H Brookes Publishing，2008.

〔13〕〔34〕〔37〕VERNON?FEAGANS L，MOKROVA I L，CARR R C，et al.Cumulative years of classroom quality from kindergarten to third grade：Prediction to children’s third grade literacy skills〔J〕.Early Childhood Research Quarterly，2019（47）：531-540.

〔14〕〔25〕COLWELL N，GORDON R A，F(xiàn)UJIMOTO K，et al.New evidence on the validity of the Arnett Caregiver Interaction Scale：Results from the early childhood longitudinal study?birth cohort 〔J〕.Early Childhood Research Quarterly，2013，28（2）：218-233.

〔15〕〔26〕FORM A.Infant?toddler program quality assessment〔M〕.Michigan：HighScope Press，2011.

〔16〕〔27〕HOWARD S J，SIRAJ I，MELHUISH E C，et al.Measuring interactional quality in pre?school settings：Introduction and validation of the Sustained Shared Thinking and Emotional Wellbeing （SSTEW） scale〔J〕.Early Child Development and Care，2020，190（7）：1017-1030.

〔28〕〔38〕GORDON R A，HOFER K G，F(xiàn)UJIMOTO K A，et al.Identifying high?quality preschool programs：New evidence on the validity of the Early Childhood Environment Rating Scale?Revised （ECERS?R） in relation to school readiness goals〔J〕.Early Education and Development，2015，26（8）：1086-1110.

〔29〕〔32〕HUANG R，SIRAJ I.Profiles of Chinese pres?

choolers’ academic and social?emotional development in relation to classroom quality：A multilevel latent profile approach 〔J〕.Child Development，2023，94（4）：1002-1016.

〔30〕〔45〕CASSIDY D J，HESTENES L L，HANSEN J K，et al.Revisiting the two faces of child care quality：Structure and process〔J〕.Early Education and Development，2005，16（4）：505-520.

〔35〕李琳，范潔瓊，任麗欣.幼兒園班級質(zhì)量追蹤評估與改進(jìn)探索：以上海市12所幼兒園20個班級3年追蹤評估為例〔J〕.幼兒教育（教育科學(xué)），2022，915/916（7/8）：20-26.

〔36〕李琳，李孜佳，范潔瓊，等.幼兒園教育質(zhì)量對兒童發(fā)展增值的影響〔J〕.學(xué)前教育研究，2021（4）：31-47.

〔39〕KIRBY G，CARONONGAN P，MALONE L M，et al.What do quality rating levels mean：Examining the implementation of QRIS ratings to inform validation〔J〕.Early Childhood Research Quarterly，2015（30）：291-305.

〔40〕CONNORS M C，MORRIS P A.Comparing state policy approaches to early care and education quality：A multidimensional assessment of quality rating and improvement systems and child care licensing regulations〔J〕.Early Childhood Research Quarterly，2015（30）：266-279.

〔41〕劉穎，虞永平.我國幼兒園管理質(zhì)量的現(xiàn)狀，類別及其影響因素：基于潛在剖面分析的結(jié)果〔J〕.學(xué)前教育研究，2021（1）：12.

〔42〕原晉霞.我國幼兒園課程質(zhì)量現(xiàn)狀探索與提升建議〔J〕.學(xué)前教育研究，2021（1）：43-56.

〔43〕吳瓊.我國幼兒園師資保障質(zhì)量評估與提升策略〔J〕.學(xué)前教育研究，2021（1）：57-66.

〔46〕SYLVA K，TAGGART B.ECERS?E：The four curricular subscales extension to the early childhood environment rating scale （ECERS?R）〔M〕.New York：Teachers College Press，2010.

〔47〕LI K，HU B Y，PAN Y，et al.Chinese Early Childhood Environment Rating Scale （trial）（CECERS）：A validity study〔J〕.Early Childhood Research Quarterly，2014，29（3）：268-282.

〔48〕WOLF S，RAZA M，KIM S，et al.Measuring and predicting process quality in Ghanaian pre-primary classrooms using the Teacher Instructional Practices and Processes System （TIPPS）〔J〕.Early Childhood Research Quarterly，2018（45）：18-30.

〔49〕LAHTI M，ELICKER J，ZELLMAN G，et al.Approaches to validating child care quality rating and improvement systems（QRIS）：Results from two states with similar QRIS type designs 〔J〕.Early Childhood Research Quarterly，2015（30）：280-290.

Deeply Interpreting the Reliability， Validity， and Fairness of Preschool Education Quality Assessment： Based on the Education and Psychological Measurement Standards

Chen Dezhi

（College of Children Development and Education， Zhejiang Normal University， Hangzhou， Zhejiang， 311231）

【Abstract】Reliability， validity， and fairness are the three fundamental attributes of quality assessment in preschool education. This article explores the basic connotations of these attributes， as outlined in the Education and Psychological Measurement Standards， and combines them with the unique characteristics of preschool education quality assessment. We provide an in?depth discussion of the reliability， validity， and fairness of preschool education quality assessment， as well as the interrelationships among them. Additionally， we highlight the main directions and methods for exploring reliability， validity， and fairness in future research， based on the current progress in the measurement attributes of preschool education quality assessment.

【Keywords】preschool education quality assessment; reliability; validity; fairness

*本文為浙江省教育考試院“十四五”規(guī)劃課題“基于評分者介導(dǎo)式評價IRT模型的學(xué)前教育質(zhì)量評價的測量學(xué)研究”（課題編號：ZJEEA14529）和浙江省哲學(xué)社會科學(xué)規(guī)劃重點課題“基于認(rèn)知診斷的幼兒教師隱性知識的情景判斷性測驗研究”（課題編號：20NDJC07Z）的研究成果之一。

**通信作者：陳德枝，浙江師范大學(xué)兒童發(fā)展與教育學(xué)院副教授，電子郵箱：cdezhi@zjnu.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度解讀學(xué)前教育質(zhì)量評價的信度、效度和公平性

深度解讀學(xué)前教育質(zhì)量評價的信度、效度和公平性