王欣怡 陳德枝
【摘要】學(xué)前教育質(zhì)量評價工具的公平性是保證評價科學(xué)化的前提,項目功能差異檢驗是驗證工具公平性的重要方法,但其在學(xué)前教育質(zhì)量評價領(lǐng)域的應(yīng)用存在諸多問題有待探究。本文梳理了項目功能差異檢驗的基本概念、應(yīng)用和方法,闡明其是學(xué)前教育質(zhì)量評價公平性和誤差分析的主要表征和內(nèi)容,同時從檢驗方法、檢驗變量和成因分析等方面,對學(xué)前教育質(zhì)量評價的項目功能差異研究提出展望。
【關(guān)鍵詞】學(xué)前教育質(zhì)量評價;項目功能差異;公平性
【中圖分類號】G610 【文獻標(biāo)識碼】A? ?【文章編號】1004-4604(2023)09-0024-06
學(xué)前教育質(zhì)量評價是指在系統(tǒng)、科學(xué)和全面地收集、整理、研究分析學(xué)前教育信息的基礎(chǔ)上,對學(xué)前教育價值做出判斷的過程。中共中央 國務(wù)院出臺《深化新時代教育評價改革總體方案》后,教育評價研究進入了新時期。學(xué)前教育質(zhì)量評價通常需要質(zhì)量評價工具為其提供支持,公平的評價工具是保障評價結(jié)果科學(xué)性的前提。我國目前缺少關(guān)于學(xué)前教育質(zhì)量評價公平性的相關(guān)研究,但其重要性不容忽視。當(dāng)前,項目功能差異(Differential Item Functioning,DIF)檢驗作為一種驗證測量公平性的重要統(tǒng)計方法,可以避免因評價項目本身存在的偏差影響評價的公平性。因此,本文從項目功能差異檢驗的基本內(nèi)涵、應(yīng)用和方法來探討其對學(xué)前教育質(zhì)量評價的價值,為保障學(xué)前教育質(zhì)量評價的公平性提供測量學(xué)方法,推動學(xué)前教育高質(zhì)量發(fā)展。
一、項目功能差異檢驗的基本內(nèi)涵與應(yīng)用
(一)項目功能差異檢驗簡介
項目功能差異是指在控制群體水平后,同一個項目在不同群體中顯示的不同統(tǒng)計特性。〔1〕具體而言,項目功能差異檢驗首先依據(jù)評價對象特征(如性別、地域、種族等)將評價群體分成目標(biāo)組和參照組。一般把可能受到不公平對待的群體叫作目標(biāo)組(Focus Group),而與之相對的群體叫作參照組(Reference Group)。然后,判斷目標(biāo)組和參照組中被評價對象的水平是否相同。評價對象的水平(匹配變量)可以是觀察分?jǐn)?shù),即評價總得分或總等級,也可以是項目反應(yīng)理論的潛在水平值θ(由項目反應(yīng)模型所得)。最后,在控制評價群體水平的情況下,采用合適的項目功能差異檢驗方法檢驗不同被評價群體在同一項目上的評價分?jǐn)?shù)或等級是否存在差異。若存在,則說明該項目在不同群體中顯示不同統(tǒng)計特性,即存在項目功能差異。
項目功能差異的種類主要有一致性項目功能差異(Uniform DIF)和非一致性項目功能差異(Nonuniform DIF)。一致性項目功能差異指評價對象的水平和組別沒有交互作用。例如不管在任何班級質(zhì)量得分水平上,城市幼兒園在項目A上的評價等級永遠(yuǎn)高于農(nóng)村幼兒園,則代表存在一致性項目功能差異。非一致性項目功能差異是指二者存在交互作用,如在班級質(zhì)量得分較高水平上,城市幼兒園在項目B上的評價等級高于農(nóng)村幼兒園,在班級質(zhì)量得分較低水平上,農(nóng)村幼兒園在項目B上的評價等級卻高于城市幼兒園,這說明項目B存在非一致性項目功能差異。
(二)項目功能差異檢驗的應(yīng)用
項目功能差異檢驗在國內(nèi)被應(yīng)用于醫(yī)學(xué)、心理學(xué)、教育學(xué)等領(lǐng)域,主要是對這些領(lǐng)域的自陳式測驗或量表的題目或項目進行公平性檢驗。如在醫(yī)學(xué)和心理學(xué)領(lǐng)域,檢驗量表項目在性別、受教育程度、跨文化上是否存在項目功能差異?!?-4〕在教育學(xué)領(lǐng)域,相關(guān)研究多集中在數(shù)學(xué)和英語學(xué)科中,如檢驗高考數(shù)學(xué)、高考英語題目在性別、城鄉(xiāng)上的項目功能差異?!?,6〕除了以上常見的檢驗變量外,一些研究者還從試卷語言角度對測驗公平性進行研究,結(jié)果發(fā)現(xiàn)語言也會導(dǎo)致項目功能差異?!?,8〕綜合來看,相較于二級計分的項目,目前國內(nèi)多級計分項目的研究數(shù)量較少。但是,主觀性評價的項目通常是多級計分。這類項目容易受到文化、環(huán)境等因素影響,更容易出現(xiàn)項目功能差異?!?〕
在國外,項目功能差異檢驗被廣泛用于大型的國際化教育評估,如國際學(xué)生評估項目(PISA)和課程評估等。〔10-12〕在學(xué)前教育領(lǐng)域,項目功能差異檢驗常用于兒童發(fā)展評估,如對兒童數(shù)學(xué)和語言等認(rèn)知發(fā)展量表進行檢驗?!?3,14〕此外,還有研究探究在主觀性評價中如何選擇匹配變量的問題,如韋爾奇(Welch)等人的研究結(jié)果建議在主觀性評價中使用內(nèi)部匹配變量(當(dāng)前測評分?jǐn)?shù)),〔15〕但也有研究建議在主觀性評價中使用外部匹配變量(其他相關(guān)測試上的分?jǐn)?shù))。〔16〕
綜上,相較于自陳式量表,主觀性評價中有關(guān)項目功能差異的研究數(shù)量仍顯單薄,尤其是在學(xué)前教育質(zhì)量評價領(lǐng)域。目前還存在許多有待探討的問題,如匹配變量的選擇等。
二、項目功能差異檢驗方法
(一)項目功能差異檢驗方法概述
項目功能差異檢驗依據(jù)不同的分類角度,常用的方法如表1所示?!?7〕其中,多級計分方法大多是在二級計分方法的基礎(chǔ)上衍生出來的。需要特別注意的是,以觀察分?jǐn)?shù)為匹配變量的方法既有參數(shù)形式,也有非參數(shù)形式,以潛在水平值θ為匹配變量的方法亦然。
(二)項目功能差異檢驗方法的應(yīng)用步驟
目前,項目功能差異檢驗在學(xué)前教育領(lǐng)域的應(yīng)用多集中在兒童發(fā)展評估,尤其是兒童發(fā)展量表的項目功能差異分析,已有研究在性別〔18〕、母親受教育水平、跨文化、語言〔19〕、殘疾和非殘疾〔20〕等方面對兒童發(fā)展量表的公平性進行檢驗。通常檢驗總過程如圖1所示。其中最典型的應(yīng)用是雷斯特雷波(Restrepo)等人的研究。該研究的目的是檢驗皮博迪圖片詞匯測試第三版(PPVTⅢ)是否存在跨文化項目功能差異。〔21〕第一步,研究確定以不同文化背景為分組變量;第二步,以非裔美國兒童為目標(biāo)組,歐裔美國兒童為參照組;第三步,將基于項目反應(yīng)理論模型估計的項目難度值作為匹配變量;第四步,通過t檢驗比較項目難度值,檢驗項目功能差異;第五步,當(dāng)檢驗結(jié)果小于顯著性水平0.05時,代表存在顯著的項目功能差異。結(jié)果顯示,共有10個項目存在項目功能差異,其中有3個項目偏向歐裔美國兒童,7個項目偏向非裔美國兒童。通過這種科學(xué)、有效的方法,可以檢驗出評估量表中每一個可能對不同群體的兒童存在不公平的項目,盡可能確保所有項目都是公平的。
三、項目功能差異檢驗對學(xué)前教育質(zhì)量評價的價值和展望
(一) 對學(xué)前教育質(zhì)量評價的價值
1.項目功能差異是學(xué)前教育質(zhì)量評價公平性的主要表征
學(xué)前教育質(zhì)量評價工具的公平性是學(xué)前教育質(zhì)量評價領(lǐng)域中受到廣泛關(guān)注的重要問題之一,直接關(guān)乎評價的公平與科學(xué)。如果評價項目存在公平性問題,那么評價結(jié)果的解釋、使用及其應(yīng)用都將是不合理的,從而限制研究結(jié)論的科學(xué)性和可推廣性。《教育和心理測試標(biāo)準(zhǔn)》中提到,最重要、最基本的問題就是要求評價對所有被試應(yīng)是公平的,盡可能地讓被試不受阻礙地有機會展示其在所評價內(nèi)容上的實際水平。〔22〕然而,在評價工具編制和評價實施的過程中,難免會遇到一些與被評價目的無關(guān)的因素,這些因素可能會使某些群體處于不適當(dāng)?shù)膬?yōu)勢或劣勢。如有研究發(fā)現(xiàn),公辦園和民辦園所能獲得同等資源的機會是不一樣的。這兩類幼兒園在每個評價指標(biāo)上是否有同等機會表現(xiàn)出自身真實的教育質(zhì)量水平是一個值得關(guān)注的問題,可以對學(xué)前教育質(zhì)量評價項目或指標(biāo)進行項目功能差異檢驗,從評價工具的測量公平性屬性方面來表征其公平性。
2.項目功能差異是學(xué)前教育質(zhì)量評價誤差分析的重要內(nèi)容
減少或控制偏差是保證評價效度的必要條件,在評價工具開發(fā)和使用的各個階段都需注意這一問題。有時我們并不清楚組間差異是否存在及其存在的原因,如不同幼兒園群體的評價結(jié)果存在顯著差異,到底是幼兒園群體間教育質(zhì)量水平的真實差異,還是某些偏倚來源(如與評價目的無關(guān)的偏見或評價內(nèi)容代表性不足)造成的。在大多數(shù)情況下,通??赡苁钦鎸嵅町惡推姷慕M合。另外,學(xué)前教育質(zhì)量評價是一種主觀性評價行為,在實踐中容易受評價者因素影響,對評價者的專業(yè)能力以及時間投入等方面都提出了較高的要求。有時評價者與評價對象的互動可能會造成與評價目的無關(guān)的評價誤差。例如,幼兒園或班級的特點和評價者的評分寬嚴(yán)度間的交互作用可能會影響評價結(jié)果。項目功能差異檢驗可以對存在偏差的評價項目、指標(biāo)等進行篩選,為后續(xù)修訂提供佐證,盡可能減少評價的系統(tǒng)誤差。
總的來說,項目功能差異檢驗可以為學(xué)前教育質(zhì)量評價工具的開發(fā)和修訂提供一種新視角和新方法,同時為學(xué)前教育質(zhì)量評價的可信性、有效性和權(quán)威性等提供現(xiàn)代測量學(xué)依據(jù),是提高學(xué)前教育質(zhì)量評價科學(xué)性的重要手段。
(二)展望
1.展望一:學(xué)前教育質(zhì)量評價項目功能差異概念的拓展
從概念上來看,目前傳統(tǒng)自陳式量表中的項目功能差異概念研究趨于成熟,但是在學(xué)前教育質(zhì)量評價領(lǐng)域尚未形成具體明確的項目功能差異概念,因而導(dǎo)致項目功能差異檢驗在學(xué)前教育質(zhì)量評價中未產(chǎn)生實際廣泛的應(yīng)用。在學(xué)前教育質(zhì)量評價中,項目功能差異可以指兩組質(zhì)量水平相同的幼兒園或班級,在某一評價項目上的評價等級或得分存在顯著差異。需要注意的是,學(xué)前教育質(zhì)量評價是一種較典型的主觀性評價,由評價者進入評價現(xiàn)場,依據(jù)被評價對象的現(xiàn)場表現(xiàn)或現(xiàn)場狀態(tài)進行評價。在主觀性評價中,傳統(tǒng)意義上的項目功能差異還擴展到評價者功能差異(Differential Rater Functioning)。評價者功能差異是指在控制了潛在變量上的被試和評價者位置后,評價者在與評價目的無關(guān)的被試群組之間表現(xiàn)出系統(tǒng)性嚴(yán)重差異的傾向?!?3〕目前,主觀性評價中的項目功能差異、評價者功能差異概念的相關(guān)研究遠(yuǎn)不及傳統(tǒng)的項目功能差異概念研究。未來研究可結(jié)合學(xué)前教育質(zhì)量評價的特點,進一步厘清學(xué)前教育質(zhì)量評價中的項目功能差異、評價者功能差異的概念,為后續(xù)檢驗奠定基礎(chǔ)。
2.展望二:學(xué)前教育質(zhì)量評價項目功能差異檢驗方法的拓展
在學(xué)前教育質(zhì)量評價這種主觀性評價中,選擇一個可靠的內(nèi)部匹配變量是項目功能差異檢驗的一個關(guān)鍵問題。傳統(tǒng)自陳式量表的項目功能差異檢驗通常直接采用測驗原始總分或是基于項目反應(yīng)理論模型的潛在水平值θ作為匹配變量。而學(xué)前教育質(zhì)量評價結(jié)果還包含評價者誤差,直接采用以上方法顯然是不合適的。其次,學(xué)前教育質(zhì)量評價工具通常采用多級評分,如《走向優(yōu)質(zhì)——中國幼兒園教育質(zhì)量評價標(biāo)準(zhǔn)》中的子項目采用七級計分。但目前能同時解決內(nèi)部可靠的匹配變量和應(yīng)對多級連續(xù)性數(shù)據(jù)的項目功能差異方法少之又少。未來研究可結(jié)合學(xué)前教育質(zhì)量評價工具的評分特點,探究適宜學(xué)前教育質(zhì)量評價的項目功能差異檢驗方法。針對評價者功能差異,目前最常用的就是基于評價者寬嚴(yán)度和被試群組之間交互檢驗的方法,如多面拉希(Rasch)建模方法;〔24,25〕或者通過雙樣本假設(shè)檢驗,如萊特(Wright)和斯通(Stone)t檢驗?!?6〕在最新研究中,溫德(Wind)等人提出用子組間擬合指數(shù)的方法來檢測評價者功能差異?!?7〕未來研究可基于真實的學(xué)前教育質(zhì)量評價數(shù)據(jù)或模擬數(shù)據(jù),對已有的評價者功能差異方法研究結(jié)論進行驗證。
3.展望三:學(xué)前教育質(zhì)量評價項目功能差異檢驗變量的拓展
我國幅員遼闊,學(xué)前教育質(zhì)量在地域上發(fā)展不均衡?!?8〕即使在同一地域,學(xué)前教育質(zhì)量在城鄉(xiāng)、辦園體制上也存在顯著差異?!?9,30〕如果實行統(tǒng)一的評價,很可能存在一些因素影響評價的公平性和有效性。例如,農(nóng)村幼兒園的教育質(zhì)量評價等級總體上是略低于城市的,那么除了教育質(zhì)量存在的真實差異之外,還需考慮是否有些評價項目利于城市幼兒園而不利于農(nóng)村幼兒園,即在統(tǒng)計學(xué)意義上是否存在城鄉(xiāng)項目功能差異。因此,未來研究可考慮從影響學(xué)前教育質(zhì)量的變量(如地域、城鄉(xiāng)、園所性質(zhì)、師幼比、教師學(xué)歷、教師教齡等)上檢驗是否存在項目功能差異。另外,學(xué)前教育質(zhì)量評價中評價者的性別、個性特征、專業(yè)態(tài)度、專業(yè)背景等因素可能導(dǎo)致評價者功能差異。從這些變量入手檢驗項目功能差異和評價者功能差異,對提高學(xué)前教育的公平性和促進學(xué)前教育高質(zhì)量發(fā)展都有重要意義。
4.展望四:學(xué)前教育質(zhì)量評價項目功能差異成因分析的拓展
當(dāng)學(xué)前教育質(zhì)量評價工具中存在含有項目功能差異的項目或指標(biāo)時,有必要展開項目功能差異成因分析,為質(zhì)量評價工具的編制和修訂提供有用的建議。導(dǎo)致項目功能差異的因素較多,如可能與樣本、被試以及項目描述等有關(guān)。項目功能差異成因的復(fù)雜性為其分析帶來不小的挑戰(zhàn),目前有僅憑對項目的主觀理解或個體的測試結(jié)果得出項目功能差異成因;〔31,32〕也有基于統(tǒng)計分析結(jié)果,再組織專家進一步分析測評內(nèi)容,探討項目功能差異成因?!?3〕未來要更科學(xué)、嚴(yán)謹(jǐn)?shù)靥剿鲗W(xué)前教育質(zhì)量評價的項目功能差異成因,可嘗試從以下方面努力。一方面,多角度、全方位地分析可能造成評價項目存在項目功能差異的原因,對不同類型的幼兒園或班級在各方面的狀況和特點有更詳細(xì)的認(rèn)識。另一方面,結(jié)合專家討論提出最重要、最有可能的項目功能差異原因假設(shè)進行檢驗,并加以邏輯論證,發(fā)現(xiàn)質(zhì)量評價存在的問題,這是未來討論學(xué)前教育質(zhì)量評價項目功能差異成因分析的主要方向。
參考文獻:
〔1〕曾秀芹,孟慶茂.項目功能差異及其檢測方法 〔J〕.心理科學(xué)進展,1999(2):41-47.
〔2〕黃潔銘,劉步平,鄺潔宜,等.維克森林醫(yī)師信任量表中文版項目功能差異分析〔J〕.現(xiàn)代醫(yī)院,2022(2):193-195.
〔3〕陳維,楊濤,高榮芬,等.Connor-Davidson心理韌性量表簡版在大學(xué)生中的信效度檢驗和跨性別等值性 〔J〕.西南師范大學(xué)學(xué)報(自然科學(xué)版),2021,46(11):38-45.
〔4〕劉文,邊玉芳,陳玲麗,等.馬洛-克羅恩社會贊許性量表在跨文化研究中的項目功能差異檢驗 〔J〕.心理科學(xué),2010,33(6):1473-1476.
〔5〕李付鵬,宋吉祥,杜海燕,等.基于Rasch模型的高考數(shù)學(xué)性別DIF檢驗 〔J〕.中國考試,2019(3):43-47.
〔6〕關(guān)丹丹,喬輝,陳康,等.全國高考英語試題的城鄉(xiāng)項目功能差異分析 〔J〕.心理學(xué)探新,2019,39(1):64-69.
〔7〕任玉丹.雙語教育背景下的少數(shù)民族學(xué)生數(shù)學(xué)學(xué)業(yè)測驗公平性分析 〔J〕.數(shù)學(xué)教育學(xué)報,2019,28(5):92-97.
〔8〕劉舒暢,黃曉婷.PISA2015合作問題解決能力測試的跨語言公平性分析 〔J〕.中國考試,2019(2):41-47.
〔9〕張龍,涂冬波.多級計分題項目功能差異常用檢測方法及比較 〔J〕.江西師范大學(xué)學(xué)報(自然科學(xué)版),2015,39(5):441-448.
〔10〕CHEEMA J R.Cross-country gender DIF in PISA science literacy items 〔J〕.European Journal of Developmental Psychology,2019,16(2):152-166.
〔11〕ARIKAN S,VIJVER F,YAGMUR K.Propensity score matching helps to understand sources of DIF and mathematics performance differences of Indonesian,Turkish,Australian,and Dutch students in PISA〔J〕.International Journal of Research in Education and Science,2018(4):69-81.
〔12〕GERSHON K,RUIPEREZ-VALIENTE J A,ALEXANDRON G.Defining and measuring completion and assessment biases with respect to English language and development status:Not all MOOCs are equal 〔J〕.International Journal of Educational Technology in Higher Education,2021,
18(1):1-21.
〔13〕〔18〕MALASPINA M,ARIAS B.Calibrating the measurement of informal mathematics in Peruvian preschool children〔C〕//LLINARS F S,GUTI?魪RREZ A,PLANAS N.Proceedings of the 45th Conference of the International Group for the Psychology of Mathematics Education.Alicante:PME,2022:257
〔14〕〔21〕RESTREPO M A,SCHWANENFLUGEL P J,BLAKE J,et al.Performance on the PPVT-III and the EVT:Applicability of the measures with African American and European American preschool children 〔J〕.The Quarterly language,Speech,and Hearing Services in Schools,2006,37(1):17-27.
〔15〕WELCH C J,MILLER T R.Assessing differential item functioning in direct writing assessments:Problems and an example 〔J〕.Journal of Educational Measurement,1995,32(2):163-178.
〔16〕CHEN M Y, LAM W, ZUMBO B D.Testing for differential item functioning with no internal matching variable and continuous item ratings〔C〕// International Language Testing Association.Langueage,constructs,contexts,and context in classroom and large-scale assessments.Palermo:Cambridge University Press,2016:127-128.
〔17〕朱乙藝,韋小滿.我國成就測驗的項目功能差異研究述評 〔J〕.教育與考試,2012(1):78-81.
〔19〕GOODRICH J M,LONIGAN C J,ALFONSO S V.Measurement of early literacy skills among monolingual English-speaking and Spanish-speaking language-minority children:A differential item functioning analysis 〔J〕.Early Childhood Research Quarterly,2019(47):99-110.
〔20〕CHIEN C W,BROWN T,MCDONALD R.Rasch analysis of the assessment of children’s hand skills in children with and without disabilities 〔J〕.Research in Developmental Disabilities,2011,32(1):253-261.
〔22〕ASSOCIATION A E R.Standards for educational and psychological testing〔M〕.Santiago:American Educational Research Association,2014:49-51.
〔23〕ENGELHARD G.Differential rater functioning 〔J〕.Rasch Measurement Transactions,2008(3):1124.
〔24〕ECKES T.Introduction to many-facet Rasch measurement 〔M〕.Frankfurt am Main:Peter Lang,2011:1-4.
〔25〕WINKE P,GASS S,MYFORD C.Raters’ L2 background as a potential source of bias in rating oral performance 〔J〕.Language Testing,2013(2):231-252.
〔26〕WRIGHT B D,STONE M H.Best test design〔M〕.Chicago,IL:MESA Press,1979:28-205.
〔27〕WIND S A,SEBOK-SYER S S.Examining differential rater functioning using a between-subgroup outfit approach〔J〕.Journal of Educational Measurement,2019,56(2):217-250.
〔28〕崔方方,洪秀敏.我國學(xué)前教育發(fā)展區(qū)域不均衡:現(xiàn)狀、原因與建議〔J〕.教育發(fā)展研究,2010,30(24):20-24.
〔29〕劉占蘭,高丙成.中國學(xué)前教育綜合發(fā)展水平研究 〔J〕.教育研究,2013,34(4):30-37.
〔30〕羅妹,李克建.基于全國428個班級樣本的學(xué)前教育質(zhì)量城鄉(xiāng)差距透視〔J〕.學(xué)前教育研究,2017(6):13-20.
〔31〕黃春霞.第二語言學(xué)習(xí)者專業(yè)背景對HSK閱讀成績影響的項目功能差異檢驗〔J〕.考試研究,2011,7(5):59-66.
〔32〕曹亦薇,張厚粲.漢語詞匯測驗中的項目功能差異初探〔J〕.心理學(xué)報,1999(4):460-467.
〔33〕張穎,趙世明.醫(yī)師資格考試中的項目功能差異研究〔J〕.中國考試,2004(10):23-26.
Differential Item Functioning
and Its Value in Evaluating the Quality of Preschool Education
Wang Xinyi, Chen Dezhi
(College of Child Development and Education, Zhejiang Normal University, Hangzhou, Zhejiang, 311231)
【Abstract】The fairness of evaluation tools for preschool education quality is essential for conducting scientific evaluation, and differential item functioning is an important method for verifying tool fairness. However, there are many issues to be addressed in the application of preschool education quality evaluation. This article summarizes the fundamental concepts, applications, and methods of differential item functioning, and emphasizes that it is the primary representation and content of fairness and error analysis in preschool education quality evaluation. Additionally, this article proposes prospects for the study of differential item functioning in the evaluation of preschool education quality from the perspectives of testing methods, testing variables, and factor analysis.
【Keywords】preschool education quality evaluation; differential item functioning; fairness
*本文為浙江省哲學(xué)社會科學(xué)規(guī)劃重點課題“基于認(rèn)知診斷的幼兒教師隱性知識的情景判斷性測驗研究”的研究成果之一,課題編號:20NDJC07Z。
**通信作者:陳德枝,浙江師范大學(xué)兒童發(fā)展與教育學(xué)院副教授,電子郵箱:cdezhi@zjun.cn