穆明
淄博市基礎(chǔ)教育研究院 山東淄博 255030
“改進(jìn)結(jié)果評(píng)價(jià)、強(qiáng)化過(guò)程評(píng)價(jià)、探索增值評(píng)價(jià)、健全綜合評(píng)價(jià)”是《深化新時(shí)代教育評(píng)價(jià)改革總體方案》提出的一項(xiàng)重要的任務(wù),在落實(shí)這項(xiàng)任務(wù)時(shí),一線教育評(píng)價(jià)工作者遇到不少挑戰(zhàn),其中的難題之一就是如何實(shí)施增值評(píng)價(jià)測(cè)量。筆者在工作實(shí)踐中,通過(guò)對(duì)眾多教育增值評(píng)價(jià)案例的對(duì)比分析,在掌握統(tǒng)計(jì)學(xué)理論的基礎(chǔ)上,對(duì)教育增值分析模型進(jìn)行了研究,并借助HLM 軟件對(duì)教育增值進(jìn)行了精準(zhǔn)測(cè)量。故此,本文對(duì)基于縱向數(shù)據(jù)的教育增值測(cè)量常用模型進(jìn)行分析,拋磚引玉,以期為一線從事教育測(cè)量與評(píng)價(jià)的同仁深入理解應(yīng)用增值評(píng)價(jià)模型提供參考。
教育增值的概念是建構(gòu)于學(xué)校為其學(xué)生成績(jī)?cè)黾印皟r(jià)值”的假設(shè)之上的,其基本思想是測(cè)量學(xué)生經(jīng)過(guò)一段時(shí)間后的進(jìn)步,需要在一段特定時(shí)間的開(kāi)始和結(jié)束時(shí)刻測(cè)量基線和結(jié)果,測(cè)量學(xué)生學(xué)業(yè)進(jìn)步的最關(guān)鍵證據(jù)是一段特定時(shí)間內(nèi)的基線和最終成績(jī)數(shù)據(jù),當(dāng)然也可以需要學(xué)生個(gè)人和學(xué)校的其他背景和環(huán)境信息。由于學(xué)生的自身成長(zhǎng),按正常預(yù)期學(xué)生都會(huì)有進(jìn)步或改進(jìn),平均成績(jī)隨之會(huì)提高,鑒于此,學(xué)校增值界定為在學(xué)生可預(yù)期的正常成長(zhǎng)之外,由教育所帶來(lái)的額外價(jià)值,由此增值評(píng)價(jià)要考查學(xué)校的學(xué)生在一段特定時(shí)間內(nèi)是否比其他學(xué)校的學(xué)生取得相對(duì)更大或更小的進(jìn)步,即為超過(guò)預(yù)期的學(xué)校效能?;趯?duì)增值概念的正確理解,學(xué)校效能增值并非為學(xué)生個(gè)體增值,非起始時(shí)刻的基線成績(jī)也不必作為協(xié)變量引入增值分析模型中。
遵循統(tǒng)計(jì)學(xué)理論能夠分離學(xué)校經(jīng)歷和學(xué)生原有特征作用于學(xué)生個(gè)體成績(jī)的統(tǒng)計(jì)方法,根據(jù)基于的統(tǒng)計(jì)技術(shù)不同帶來(lái)的分析靈敏度和復(fù)雜度的不同,對(duì)教育增值的測(cè)量主要?dú)w納為三種主要的方法。
概要統(tǒng)計(jì)用來(lái)從學(xué)生水平數(shù)據(jù)中計(jì)算學(xué)??傮w水平,通過(guò)估計(jì)樣本中每所學(xué)校學(xué)生成績(jī)的原始水平,提供學(xué)校表現(xiàn)的簡(jiǎn)單情況。此方法的缺點(diǎn)是不能估算學(xué)生的進(jìn)步,因?yàn)槭且詫W(xué)校為分析單元,在分析中會(huì)損失學(xué)生個(gè)體的詳細(xì)信息。
多元回歸分析是計(jì)算觀察分?jǐn)?shù)與預(yù)期分?jǐn)?shù)殘差的標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù),在測(cè)量學(xué)生進(jìn)步時(shí),觀察分?jǐn)?shù)是一個(gè)學(xué)生的實(shí)際成績(jī)水平,預(yù)期分?jǐn)?shù)是其先前基線成績(jī)基礎(chǔ)上預(yù)測(cè)的水平,殘差分?jǐn)?shù)用來(lái)解釋一個(gè)學(xué)生的表現(xiàn)是高于還是低于預(yù)期。這種方法的缺點(diǎn)是分析單元只能是學(xué)生水平(即計(jì)算學(xué)生殘差分?jǐn)?shù)的位置)或?qū)W校水平(即計(jì)算學(xué)校殘差分?jǐn)?shù)的位置)之一,前一種情況損失了特定學(xué)校中學(xué)生群體的重要信息(忽視了學(xué)校的匯聚作用),后一種情況損失了學(xué)生個(gè)體的詳細(xì)信息。
分層線性模型是線性回歸的拓展和延伸,其計(jì)算殘差增值分?jǐn)?shù)的原理與多元回歸相同,但是,此技術(shù)兼顧了嵌套在學(xué)校中的學(xué)生群體,允許分析單元同時(shí)包括學(xué)生和學(xué)校水平,充分考慮了上層組織的匯聚作用,在分離學(xué)校效能時(shí),多水平模型是一種比概要統(tǒng)計(jì)和標(biāo)準(zhǔn)多元回歸更成熟的方法,應(yīng)用此方法可以無(wú)偏估算學(xué)生群體的學(xué)校殘差,更重要的是檢驗(yàn)單個(gè)學(xué)校結(jié)果的統(tǒng)計(jì)顯著性。
在學(xué)業(yè)評(píng)價(jià)增值分析中常用到組織模型和發(fā)展模型,兩種模型均能體現(xiàn)上層單位如學(xué)校的匯聚作用,以此進(jìn)行上層單位的增值效能分離。針對(duì)單一學(xué)生年齡群體在收集、記錄基線和結(jié)果評(píng)估的數(shù)據(jù)時(shí),需要保證個(gè)體學(xué)生的記錄能在以后都能準(zhǔn)確匹配,以此為樣本建立的模型為組織模型;針對(duì)考查跨時(shí)間的趨勢(shì)或在增值表現(xiàn)中的改進(jìn),需要收集至少三個(gè)連續(xù)時(shí)間點(diǎn)學(xué)生群體的相同結(jié)果和基線數(shù)據(jù),以此為樣本建立的模型為發(fā)展模型。在計(jì)算學(xué)校表現(xiàn)的增值測(cè)量時(shí),一般不需考慮教育和學(xué)校的過(guò)程信息,因此,在進(jìn)行教育增值測(cè)量時(shí),不必引入教育和學(xué)校發(fā)展過(guò)程中的變量因素來(lái)實(shí)現(xiàn)擬合學(xué)校增值的主效應(yīng)。
分層線性模型的建模基本思想為:一是將分層結(jié)構(gòu)數(shù)據(jù)在因變量上的變異分為組內(nèi)變異與組間變異兩個(gè)層次(隨機(jī)誤差方差與參數(shù)方差);二是分別在不同層次上引入自變量對(duì)二者進(jìn)行解釋(也可只在其中一層引入?yún)f(xié)變量)。
如以區(qū)域內(nèi)學(xué)校學(xué)生的學(xué)業(yè)成績(jī)建立的二層線性模型為例:組內(nèi)(層1)模型對(duì)同一所學(xué)校學(xué)生的學(xué)習(xí)成績(jī)進(jìn)行線性回歸,取得不同學(xué)校線性回歸方程的模型參數(shù)(截距與斜率)估計(jì)值;組間(層2)模型分別以層1 模型的線性回歸模型參數(shù)(截距與斜率)作為因變量進(jìn)行回歸。
分層線性模型可理解為對(duì)組內(nèi)(層1)模型的回歸截距與斜率系數(shù)的再回歸,根據(jù)模型方程的表達(dá)形式(矩陣或標(biāo)量)通常應(yīng)用迭代廣義最小二乘法或迭代加權(quán)最小二乘法進(jìn)行模型參數(shù)優(yōu)化,采用HLM 分層線性模型統(tǒng)計(jì)軟件進(jìn)行參數(shù)估算及顯著性檢驗(yàn)[1]。
分層線性模型不是一個(gè)單一模型,其包括了從最簡(jiǎn)單到最復(fù)雜的多個(gè)子模型。與教育增值分析研究相關(guān)的基礎(chǔ)模型有:零模型、隨機(jī)截距模型(協(xié)方差分析模型)、隨機(jī)系數(shù)回歸模型。其中隨機(jī)截距模型可視為隨機(jī)系數(shù)回歸模型的特例。零模型和隨機(jī)系數(shù)回歸模型的建模原理闡釋如下。
零模型也稱為空模型,是最簡(jiǎn)化的分層線性模型,雖然不能直接用來(lái)進(jìn)行分層數(shù)據(jù)分析,但它是構(gòu)建分層線性模型分析的起始點(diǎn)。零模型的層1(組內(nèi))模型與層2(組間)模型都不包含解釋變量。其數(shù)學(xué)模型為:
層1 模型:yij=β0j+εij
層2 模型:β0j=γ00+μ0j
其中,γ00是樣本總體中因變量的平均值,μ0j是與第j個(gè)層2 單位相關(guān)聯(lián)的隨機(jī)效應(yīng)。
將層2 模型代入層1 模型可得組合模型:
yij=γ00+μ0j+εij
在零模型中結(jié)果變量的方差由組間方差與組內(nèi)方差兩個(gè)部分組成,根據(jù)零模型估算的隨機(jī)系數(shù)方差和隨機(jī)誤差方差,可進(jìn)行組內(nèi)相關(guān)系數(shù)的計(jì)算:
ρ=τ00/(τ00+σ2)
其中,σ2為組內(nèi)隨機(jī)方差,τ00為組間參數(shù)方差。
ρ值表示層2 單位之間的差異在層1 結(jié)果變量的總方差中所占的比例。如果ρ值很?。ㄍǔP∮?.059),說(shuō)明層2 單位之間的差異不大,不需要采用分層線性模型,采用常規(guī)的一元或多元線性回歸方程進(jìn)行統(tǒng)計(jì)建模就可以進(jìn)行統(tǒng)計(jì)分析,如硬性采用分層線性模型可導(dǎo)致統(tǒng)計(jì)數(shù)據(jù)的不精確;反之,則需要采用分層線性模型。通常在應(yīng)用帶有協(xié)變量的分層線性模型進(jìn)行統(tǒng)計(jì)分析之前,一般都需要建立零模型來(lái)進(jìn)行判斷是否需要采用分層線性模型。
隨機(jī)系數(shù)回歸模型是完整分層線性模型的最簡(jiǎn)形式,它在零模型的基礎(chǔ)上,將層1 模型的截距和斜率系數(shù)設(shè)定為在層2 單位之間是隨機(jī)變化的,但層2 模型不引入?yún)f(xié)變量對(duì)層1 模型的截距與斜率系數(shù)中存在的變異進(jìn)行解釋。與隨機(jī)系數(shù)模型密切相關(guān)的一項(xiàng)統(tǒng)計(jì)技術(shù)是協(xié)變量的測(cè)量定位,一般采用對(duì)中方式,對(duì)中在分層線性模型中具有非常重要的作用。在經(jīng)典的協(xié)方差模型中通常選擇基于總均值對(duì)中,即采用標(biāo)準(zhǔn)測(cè)量方法。其數(shù)學(xué)模型為:
層1 模型:yij=β0j+β1j(xij-)+εij
層2 模型:
β0j=γ00+μ0j
β1j=γ10+μ1j
其中,γ00是層2 模型所有層2 單位的回歸截距的均值,γ10是層2 模型所有層2 單位的回歸斜率的均值。μ0j、μ1j分別是層2 模型在回歸截距和回歸斜率上與第j個(gè)層2 單位有關(guān)的特性增量。
將層2 模型代入層1 模型,可得組合模型:
τ00表示層1 所有截距假定服從先驗(yàn)正態(tài)分布的無(wú)條件方差,τ11表示層1 所有斜率假定服從先驗(yàn)正態(tài)分布的無(wú)條件方差,τ01表示層1 所有截距與斜率的無(wú)條件協(xié)方差。在對(duì)回歸截距均值γ00和回歸斜率均值γ10的估計(jì)值進(jìn)行統(tǒng)計(jì)檢驗(yàn)(t檢驗(yàn))為顯著時(shí),說(shuō)明研究總體中的固定效應(yīng)不為0;同樣對(duì)隨機(jī)效應(yīng)參數(shù)μ0j與μ1j進(jìn)行統(tǒng)計(jì)檢驗(yàn)(卡方檢驗(yàn)),如果無(wú)法拒絕二者都等于0 的原假設(shè),就意味著研究總體中的各單位的層1 系數(shù)大致相等,即為固定值不存在隨機(jī)變化,可取消層2 單位中的隨機(jī)項(xiàng)μ0j與μ1j。
隨機(jī)系數(shù)回歸模型的誤差項(xiàng)包括三部分:
εij為層1 誤差;
μ0j為層2 截距模型的誤差;
μ1j(xij-)為層2 斜率模型的誤差μ1j與層1 協(xié)變量的乘積。
層2 單位的平均效能(用μj表示)為組合模型的總殘差減去層1 的平均隨機(jī)誤差的剩余部分,因?qū)? 隨機(jī)誤差的不可測(cè)性,根據(jù)經(jīng)典測(cè)量真分?jǐn)?shù)理論的數(shù)學(xué)模型,故定義層2 效能方差(層1 真值方差)與總殘差方差(樣本均值總方差)的比率為可靠性系數(shù)(λj)即信度,用可靠性系數(shù)(信度)與總殘差的乘積作為層2 單位的效能,從而分離提取層2 單位的增值量。
分層線性模型的一項(xiàng)重要的應(yīng)用就是檢測(cè)單個(gè)組織效應(yīng),其常見(jiàn)的應(yīng)用大致分為在組織研究中的應(yīng)用和個(gè)體變化研究中的應(yīng)用,有關(guān)組織如何影響個(gè)人的問(wèn)題可采用組織模型實(shí)現(xiàn),有關(guān)多個(gè)時(shí)點(diǎn)上個(gè)體變化現(xiàn)象的問(wèn)題可采用發(fā)展模型實(shí)現(xiàn)。
對(duì)學(xué)校增值的測(cè)量是以該校學(xué)生的背景和基線能力而預(yù)測(cè)的平均成績(jī)?yōu)榛貧w數(shù)據(jù)值,如果實(shí)測(cè)學(xué)校平均成績(jī)分值高于此預(yù)測(cè)值,這樣的學(xué)校被認(rèn)為是好學(xué)校。每個(gè)學(xué)校的效能增值指標(biāo)可以從其實(shí)測(cè)平均成績(jī)與其預(yù)測(cè)的平均成績(jī)的差中分離提取。考慮到殘差效應(yīng)估計(jì)值的穩(wěn)定性,出于追求統(tǒng)計(jì)有效和計(jì)算穩(wěn)定性的目的,通常采用經(jīng)驗(yàn)貝葉斯估計(jì)方法,能夠提供判定測(cè)量學(xué)校增值的穩(wěn)定指標(biāo),借鑒國(guó)內(nèi)外增值評(píng)價(jià)成功案例的增值效能算法,優(yōu)選采用隨機(jī)截距模型進(jìn)行學(xué)校增值分析。另外,在計(jì)算學(xué)校表現(xiàn)的增值量時(shí),一般不用教育和過(guò)程信息,常用的學(xué)校業(yè)績(jī)?cè)鲋捣治瞿P蜑殡S機(jī)截距模型,它是完全模型的一個(gè)特例。其數(shù)學(xué)模型為:
層1 模型:yij=β0j+β1j(xij-)+εij
層2 模型:β0j=γ00+μ0j
將層2 模型代入層1 模型,可得組合模型:
yij=γ00+β1j(xij-x)+μ0j+εij
類似“水漲船高”的原理,因?qū)W校j的所有學(xué)生都在該學(xué)校上學(xué),所以都有一個(gè)增值效應(yīng)μ0j疊加到他們的預(yù)期回歸分值上,j個(gè)學(xué)校在單因素隨機(jī)效應(yīng)協(xié)方差分析中構(gòu)成為獨(dú)立的組,模型的實(shí)現(xiàn)目的是提取每個(gè)層2 單位效應(yīng)的估計(jì)值。每個(gè)學(xué)校的OLS(最小二乘法)估計(jì)效應(yīng)為:μ_j是協(xié)方差分析中的校平均殘差,對(duì)于樣本少的學(xué)校產(chǎn)生的μ_j估計(jì)值不穩(wěn)定。為此,采用分層線性模型的經(jīng)驗(yàn)貝葉斯殘差作為學(xué)校效應(yīng)估計(jì)值(用μj表示),用前文提到的可靠性系數(shù)(λj)作為提取因子,計(jì)算公式為:
μj=λjμ-j
其中:
λj=τ00/[τ00+σ2/nj]
根據(jù)貝葉斯推斷理論,在給定學(xué)校的平均成績(jī)后每個(gè)學(xué)校的隨機(jī)效能μ0j的后驗(yàn)分布都服從均值為μj,方差為Vj的正態(tài)分布[2]。
其中:
Vj=1/[1/τ00+nj/σ2]
據(jù)此可以估計(jì)μ0j的95%置信區(qū)間(可能值域):
μj±1.96Vj1/2
通常只有置信區(qū)間的最大值在0 值以下的,表明學(xué)校效能低于平均水平,通常只有置信區(qū)間的最小值在0 值以上的,表明學(xué)校效能高于平均水平,置信區(qū)間包含0 值的表明學(xué)校效能并無(wú)統(tǒng)計(jì)學(xué)意義上的差異。因此,可以借助置信區(qū)間來(lái)實(shí)現(xiàn)增值結(jié)果的呈現(xiàn),根據(jù)置信區(qū)間的端點(diǎn)值進(jìn)行學(xué)校效能分類,達(dá)到學(xué)校對(duì)數(shù)據(jù)的所有權(quán)和保證結(jié)果的保密性要求。
作為組織模型應(yīng)用研究實(shí)證案例,以淄博市2022年高三數(shù)學(xué)??迹ㄈ肟诔煽?jī))和一模(出口成績(jī))成績(jī)進(jìn)行分析建模,將兩次成績(jī)進(jìn)行線性等值處理后,以學(xué)生為層1、學(xué)校為層2 建立兩層線性模型,先建立空模型進(jìn)行可行性分析??漳P蜋z驗(yàn)結(jié)果如表1所示。
表1 空模型檢驗(yàn)結(jié)果
由零模型估算的跨級(jí)相關(guān)系數(shù)(ICC)達(dá)到47.59%,說(shuō)明47.59%以上的總變異是由層2 學(xué)校之間的差異引起,也即學(xué)校的差異是影響成績(jī)的主要原因,因此,必須建立分層線性模型進(jìn)行統(tǒng)計(jì)分析,所建立的隨機(jī)截距模型檢驗(yàn)結(jié)果如表2所示。
表2 隨機(jī)截距模型檢驗(yàn)結(jié)果
為了考查跨時(shí)間的趨勢(shì)(效能)或在增值表現(xiàn)中的改進(jìn),需要建立把多次觀察結(jié)果作為時(shí)間的某種數(shù)學(xué)函數(shù)的模型,即發(fā)展模型。本模型的輸入為學(xué)校的平均成績(jī),過(guò)程是時(shí)間變量,結(jié)果輸出學(xué)校的平均成績(jī)?cè)鲋敌?yīng)。通過(guò)對(duì)連續(xù)幾個(gè)年度(至少3 個(gè)年度)的學(xué)校平均成績(jī)建模,實(shí)現(xiàn)測(cè)量每個(gè)學(xué)校在年度變化中的進(jìn)步程度?;谒杉降臄?shù)據(jù),建立包含時(shí)間和學(xué)校變量的分層線性模型。作為發(fā)展模型應(yīng)用研究實(shí)證案例,以淄博市連續(xù)3年中考平均總分建立隨機(jī)系數(shù)回歸為例,兩層數(shù)據(jù)分別是第一層的時(shí)間水平和第二層的學(xué)校水平。模型為:
層1 模型:Yti=π0i+π1i*yearti+εti
層2 模型:π0i=β00+γ0i
π1i=β10+γ1i
組合模型:
Yti=β00+β10*yearti+γ0i+γ1i*yearti+εti
其中,Yti代表學(xué)校i的第t 時(shí)刻考試平均分,對(duì)時(shí)間變量2019年、2020年、2021年的編碼可以為0,1,2。εti為學(xué)校i的第t 時(shí)刻與線性回歸的離差(隨機(jī)誤差)。
t 時(shí)刻殘差、方差為:
eti=γ0i+γ1i*yearti+εti
Var(eti)=τ00+2yearti*τ01+yearti2*τ11+σ2
由學(xué)校引起的差異效能計(jì)算:鑒于要比較學(xué)校不同年度之間的增值這一目的要求,基于發(fā)展變量的線性模型,學(xué)校的某年度總殘差由學(xué)校給定年度線性回歸當(dāng)年度(層1)的隨機(jī)誤差εti與學(xué)校(層2)之間因教育發(fā)展引起的差異γ0i+γti*yearti兩部分組成。由學(xué)校發(fā)展引起的殘差即學(xué)校效能可靠性系數(shù)(信度)為:
λ t i=τ00+ 2 y e a rti τ01+ y e a rti2*τ11/τ00+2yearti*τ01+yearti2*τ11+σ2
i學(xué)校某年度的凈效能提取公式為:μti=λtieti
i學(xué)校t 時(shí)刻相對(duì)零時(shí)刻的效能增值=μti-μ0i
作為發(fā)展模型應(yīng)用研究實(shí)證案例,以淄博市連續(xù)3年(2019—2021年)中考平均成績(jī)進(jìn)行分析建模,將3 個(gè)年度的中考平均成績(jī)進(jìn)行線性等值處理,如表3所示。
表3 淄博市中考成績(jī)等值分
先建立空模型進(jìn)行可行性分析??漳P蜋z驗(yàn)結(jié)果如表4所示。
表4 空模型檢驗(yàn)結(jié)果
由零模型估算的跨級(jí)相關(guān)系數(shù)(ICC)達(dá)到86.99%,說(shuō)明86.99%以上的總變異是由層2 學(xué)校之間的差異引起,也即學(xué)校的差異是影響中考成績(jī)的主要原因。因此,必須建立分層線性模型進(jìn)行統(tǒng)計(jì)分析,所建立的隨機(jī)系數(shù)回歸模型檢驗(yàn)結(jié)果如表5所示。
表5 隨機(jī)系數(shù)回歸模型檢驗(yàn)結(jié)果
從固定效應(yīng)看出,初始時(shí)刻(2019年)的學(xué)校平均分(截距)回歸值為489.812,斜率系數(shù)為-2.753 834,檢驗(yàn)結(jié)果達(dá)到顯著性水平(P<0.05),層1 的誤差變異為143.590,說(shuō)明學(xué)校在每年中考成績(jī)之間的變異程度較大。
從隨機(jī)效應(yīng)看出,截距和斜率在不同學(xué)校之間的變異非常顯著(χ2值分別為1 424.171 和203.299),說(shuō)明學(xué)校之間在初始年度平均分和不同考試年度間變異比較明顯,并且從方差成分的大小可以看出,變異主要發(fā)生在截距上,即學(xué)校在初始年度平均分的變異遠(yuǎn)大于不同考次之間的變異。從層1 系數(shù)的信度估計(jì)結(jié)果來(lái)看,截距項(xiàng)估計(jì)的信度比較高(0.910)。一般來(lái)講,如層1 方程某系數(shù)的信度較小,在進(jìn)一步的分析中可以把它設(shè)為沒(méi)有隨機(jī)成分的固定參數(shù)。最后進(jìn)行歷年中考學(xué)校增值比較分析:隨機(jī)抽取某區(qū)縣的3 所學(xué)校作為分析樣本對(duì)2019—2021年學(xué)校中考平均成績(jī)的增值情況進(jìn)行評(píng)估,增值評(píng)估數(shù)據(jù)結(jié)構(gòu)如表6所示。
表6 區(qū)縣學(xué)校的增值評(píng)估數(shù)據(jù)表
總之,分層線性模型是當(dāng)前教育測(cè)量處理增值評(píng)價(jià)問(wèn)題的最新技術(shù),隨著教育評(píng)價(jià)和教育督導(dǎo)關(guān)于學(xué)校增值評(píng)價(jià)政策措施的進(jìn)一步出臺(tái)及落地實(shí)施,學(xué)校增值指標(biāo)必將作為學(xué)校評(píng)價(jià)與自我評(píng)價(jià)的有效工具,參照本文提供的增值分析測(cè)量模型,可以為教育增值評(píng)價(jià)的有效實(shí)施提供可借鑒的思路。