●張麗
?
科學(xué)取樣以小窺大
●張麗
2013年底,成都市被確定為全國中小學(xué)教育質(zhì)量綜合評價改革實驗區(qū)。2014年,成都市在一、二、三圈層分別選取一個區(qū)(市、縣)試點教育質(zhì)量綜合評價改革,并率先在全國(30個實驗區(qū))形成評價報告。2015年,成都市教育質(zhì)量綜合評價改革覆蓋全市所有區(qū)(市、縣)和直屬學(xué)校,采用抽樣概率與規(guī)模大小成比例的抽樣方法(簡稱PPS法),抽取了20007名五年級學(xué)生和11998名八年級學(xué)生進(jìn)行測評,涉及全市175所小學(xué)和148所初級中學(xué)。
由于本次測評涵蓋全市21個區(qū)(市、縣)和直屬學(xué)校,同時存在沒有可直接利用的學(xué)校信息數(shù)據(jù)庫、部分學(xué)校一校多區(qū)、學(xué)生流動等實際問題,為了保證收集到的數(shù)據(jù)能代表各個區(qū)(市、縣)的真實情況,保證測評結(jié)果的科學(xué)性和準(zhǔn)確性,抽樣成為本次測評的一項重大基礎(chǔ)性工作。由于實際問題較為復(fù)雜,抽樣過程經(jīng)歷了多次修改和調(diào)整,力圖保證抽樣學(xué)生的代表性。在經(jīng)歷了本次測評的完整抽樣工作后,現(xiàn)對抽樣的認(rèn)識以及實踐后的思考作一梳理,供全國各實驗區(qū)學(xué)習(xí)交流。
抽樣原因。教育質(zhì)量綜合評價采取抽樣方式選定參與評價的對象,主要有兩方面的原因,一是抽樣的目的及其自身的特點,二是評價改革的政策要求。就抽樣的目的及自身特點而言,抽樣是為了通過對有限對象的測查推論總體情況,而不用對全體個體進(jìn)行逐一考查,相較于普查、典型調(diào)查(包括重點調(diào)查等)、個案研究,具有節(jié)約調(diào)查成本(人力、費用及時間)、隨機(jī)性、推論準(zhǔn)確性高的特點。抽樣在教育測評中實用性較強(qiáng),由于教育測評涉及學(xué)生人數(shù)眾多,測試的組織和實施需要較多的人力和物力,目前大型教育測評項目(如PISA、TIMSS、NAEP、我國基礎(chǔ)教育質(zhì)量監(jiān)測等)均采用抽樣的方式搜集數(shù)據(jù)資料,通過對抽樣學(xué)生的測評推論全體學(xué)生的整體情況。
《教育部關(guān)于推進(jìn)中小學(xué)教育質(zhì)量綜合評價改革的意見》(教基二[2013]2號)中就評價方法明確指出:“測試和調(diào)查都要面向?qū)W生群體采取科學(xué)抽樣的辦法實施,不針對學(xué)生個體,不得組織面向全體學(xué)生的縣級及以上統(tǒng)考統(tǒng)測,避免加重學(xué)校和學(xué)生負(fù)擔(dān)。”因此,無論是從節(jié)約成本角度,還是從減輕學(xué)校和學(xué)生負(fù)擔(dān)角度,抽樣都是現(xiàn)階段教育質(zhì)量綜合評價優(yōu)先采用的方式。
常用抽樣方法及其特點。常見的抽樣方法包括簡單隨機(jī)抽樣、等距抽樣、分層抽樣、整群抽樣、多階段抽樣。簡單隨機(jī)抽樣是按隨機(jī)性原則直接從總體中不放回的抽取樣本,其特點是簡單直觀,推論總體準(zhǔn)確,是其他抽樣方法的基礎(chǔ)。等距抽樣是按某一順序?qū)⒖傮w中所有單位排序,再以固定間距直接隨機(jī)抽取調(diào)查單位,其特點是代表性好,但樣本分散,調(diào)查成本高。分層抽樣是把總體單位按一定標(biāo)志分成若干類型,在各類型中隨機(jī)抽取調(diào)查單位,其特點是代表性好,調(diào)查成本比較節(jié)約。整群抽樣是將總體分成若干群,以群為單位,從總體中隨機(jī)抽取群,對抽中的群內(nèi)單位全部進(jìn)行調(diào)查,其特點是代表性相對差一些,但調(diào)查成本較低。多階段抽樣是按不同層級,逐層抽樣,最低層級上隨機(jī)抽取調(diào)查單位,是簡單隨機(jī)、等距、分層、整群等方法的綜合運用。目前大型教育測評項目中一般均采用多階段抽樣,本次中小學(xué)教育質(zhì)量綜合評價也采用了這種抽樣方法。
大型教育測評的抽樣一般包括抽取樣本區(qū)(市、縣)、抽取樣本校、抽取樣本學(xué)生三個環(huán)節(jié)。2015年成都市根據(jù)全市五年級和八年級學(xué)生總數(shù)確定各抽取12000個樣本,且全市21個區(qū)(市、縣)和直屬學(xué)校全部參加本次測評。因此,本次測評只需抽取樣本校和樣本學(xué)生。
首先是抽取樣本學(xué)校。根據(jù)上報的學(xué)校學(xué)生數(shù)量信息,分別計算成都市每個區(qū)(市、縣)的五年級和八年級學(xué)生總量,以此作為從各區(qū)(市、縣)抽樣的基數(shù);根據(jù)各區(qū)(市、縣)五年級和八年級的學(xué)生總數(shù),確定24000個樣本應(yīng)分?jǐn)偟礁鱾€區(qū)(市、縣)的比例和實際樣本數(shù)量;以各個區(qū)(市、縣)應(yīng)被抽取的學(xué)生樣本數(shù)量為基礎(chǔ),根據(jù)PPS法在各個區(qū)(市、縣)中抽取樣本學(xué)校,并確定樣本學(xué)校中應(yīng)抽取的學(xué)生樣本數(shù)量。
關(guān)于樣本學(xué)校數(shù)量的確定。PISA規(guī)定每個經(jīng)濟(jì)體不得少于150個學(xué)校樣本,參照這個標(biāo)準(zhǔn),本次八年級抽樣抽取150所學(xué)校,再按各個區(qū)(市、縣)內(nèi)學(xué)校數(shù)的比例分配。而五年級學(xué)校數(shù)明顯多于八年級,且五年級每所學(xué)校的平均人數(shù)要比八年級少,如果5年級也抽取150所學(xué)校,會造成大量學(xué)校人數(shù)小于應(yīng)抽樣的人數(shù)。基于上述考慮,五年級按150所學(xué)校進(jìn)行分配后,再在每個區(qū)(市、縣)增加1所學(xué)校,從而減少和避免學(xué)???cè)藬?shù)小于應(yīng)抽取樣本數(shù)的情況。本次抽樣設(shè)定學(xué)校樣本數(shù)的目的,是為了估計一個區(qū)(市、縣)內(nèi)每所學(xué)校應(yīng)抽取的人數(shù)以及計算抽樣間距(學(xué)生總數(shù)/抽樣學(xué)校數(shù))。只要每所學(xué)校抽取人數(shù)和步長比較合理,各個區(qū)(市、縣)應(yīng)抽取的學(xué)校數(shù)可以按照各個區(qū)(市、縣)學(xué)校的特點進(jìn)行設(shè)定。
其次是抽取樣本學(xué)生。每個區(qū)(市、縣)抽取學(xué)校數(shù)設(shè)定后,再根據(jù)每個區(qū)(市、縣)抽取的總?cè)藬?shù)計算出每個學(xué)校應(yīng)抽取的人數(shù),依據(jù)應(yīng)抽取的學(xué)生數(shù)量,隨機(jī)抽取學(xué)生樣本。
建立和維護(hù)學(xué)校基本信息數(shù)據(jù)庫。本次測評抽樣的基礎(chǔ)性工作是收集各個區(qū)(市、縣)學(xué)校的基本信息,包括學(xué)校城鄉(xiāng)分布、學(xué)校類型、學(xué)校榮譽、辦學(xué)質(zhì)量、學(xué)生數(shù)量、對應(yīng)年級教師數(shù)量等信息。由于缺乏可使用的完整學(xué)校基本數(shù)據(jù)信息,本次基礎(chǔ)信息的采集使用教育局近期相關(guān)數(shù)據(jù)和學(xué)校填報相結(jié)合的方式,但結(jié)果并不理想。一是教育局提供的相關(guān)數(shù)據(jù)盡管是近期的,但也存在不完全準(zhǔn)確的情況;二是一校多區(qū)的校區(qū)信息沒有明確,可能導(dǎo)致測評實施的難度增大,因此在抽樣過程中需要特別注意;三是在間隔期間個別學(xué)校發(fā)生變動的情況未知;四是部分學(xué)校對于城鄉(xiāng)分布的界定存在疑惑,導(dǎo)致上報的數(shù)據(jù)存在偏差,不利于后期的數(shù)據(jù)分析。這些因素都可能導(dǎo)致抽樣的誤差增大,因此,建立區(qū)域?qū)W?;拘畔?shù)據(jù)庫以及針對學(xué)校、學(xué)生變動等情況對數(shù)據(jù)庫的維護(hù)和更新顯得尤為重要,這是提高測評工作效率的重要保證。
注意抽樣的細(xì)節(jié)問題。本次測評學(xué)校抽樣結(jié)果中存在不同教學(xué)質(zhì)量學(xué)校的比例在各區(qū)(市、縣)之間存在一定差異。其原因在于,我們在區(qū)(市、縣)內(nèi)部抽取學(xué)校時,沒有進(jìn)一步考慮分層變量。分層變量是可能與學(xué)業(yè)質(zhì)量密切相關(guān)的影響因素,一般有兩類,顯性分層變量和隱性分層變量。顯性分層變量一般為學(xué)校所屬地(分為城區(qū)、鎮(zhèn)區(qū)、鄉(xiāng)村)等;隱性分層變量包括學(xué)生入學(xué)成績等級、學(xué)校質(zhì)量、學(xué)校性質(zhì)(公辦、民辦)等。應(yīng)該將區(qū)(市、縣)內(nèi)所有學(xué)校劃分到不同的顯性層級中,在各層次里再按照隱性變量為學(xué)校排序,最后根據(jù)計算出的抽樣間距在每個外顯層面抽取樣本學(xué)校。這個過程可以保證各個顯性分層中均勻包含各類學(xué)校,避免出現(xiàn)區(qū)(市、縣)之間學(xué)校質(zhì)量分布不均的問題。對于顯性分層變量和隱性分層變量,顯性分層變量一般為地域變量,較易確定,如本次測評中以區(qū)(市、縣)作為顯性分層變量。而隱性分層變量需要收集相應(yīng)信息,這里又存在一些問題,如學(xué)校質(zhì)量涉及如何界定不同質(zhì)量水平的問題,不同區(qū)(市、縣)之間學(xué)生初始成績需要等值的問題等。這些問題,還有待于我們在實際工作中進(jìn)一步研究解決。
基于追蹤研究的需要。成都市作為全國中小學(xué)教育質(zhì)量綜合評價改革實驗區(qū),評價工作已經(jīng)成為年度連續(xù)性工作,涉及到評價后對學(xué)校教育質(zhì)量變化的評估。將連續(xù)測評結(jié)果反饋給學(xué)校,對學(xué)校制定未來發(fā)展計劃非常必要。因此,在保證抽樣能代表各區(qū)(市、縣)總體情況的前提下,如何針對學(xué)校進(jìn)行跟蹤研究,這個問題在抽樣時需要考慮。一個思路是,事先確定有代表性的跟蹤研究學(xué)校,在抽樣完成后,如果沒有抽到該學(xué)校,根據(jù)顯性和隱性變量,取代被抽到的類似學(xué)校。另一個思路是,不事先確定跟蹤研究對象,在兩次抽樣中找尋兩次都被抽中的學(xué)校進(jìn)行跟蹤研究。
抽樣測評的未來走向。在“互聯(lián)網(wǎng)+”時代的云計算、大數(shù)據(jù)、人工智能技術(shù)不斷成熟的背景下,抽樣測評的未來走向可能有兩個,一是新技術(shù)促使抽樣過程更加便捷和自動化,根據(jù)完善的、豐富的基礎(chǔ)信息,結(jié)合測評需求設(shè)計抽樣步驟,通過高效的程序化過程就能迅速準(zhǔn)確地完成抽樣;二是來自大數(shù)據(jù)的挑戰(zhàn),大數(shù)據(jù)的一個特點就是全樣本數(shù)據(jù)的收集和分析,目前大數(shù)據(jù)在商業(yè)領(lǐng)域運用較多,但在教育領(lǐng)域的應(yīng)用還比較少,如果將來大數(shù)據(jù)在教育領(lǐng)域的運用日益廣泛,未來在考慮成本、可操作性、教育教學(xué)實際情況等多種因素后,可以選擇抽樣測評或全樣本測評。
張麗
成都市教育科學(xué)研究院督導(dǎo)監(jiān)測評估研究所教研員。
(責(zé)任編輯曾憲波)