● 北京語言大學(xué) 謝小慶
進(jìn)行成長評估,可以有兩種思路:一是高起點(diǎn)、高水平,一步到位;二是低起點(diǎn)、低水平,第一步先“做起來”,第二步再力爭逐步“做得好”。如有條件,當(dāng)然可以選擇第一種思路。本文介紹的“等值”和“殘差”兩種方法,屬于第二種思路。
2020年6月30日,由習(xí)近平總書記主持召開的中央全面深化改革委員會(huì)第十四次會(huì)議審議通過了《深化新時(shí)代教育評價(jià)改革總體方案》。10月13日,中共中央和國務(wù)院印發(fā)了這一總體方案?!渡罨聲r(shí)代教育評價(jià)改革總體方案》的“總體要求”中提出:“改進(jìn)結(jié)果評價(jià),強(qiáng)化過程評價(jià),探索增值評價(jià),健全綜合評價(jià)”?!渡罨聲r(shí)代教育評價(jià)改革總體方案》已經(jīng)為未來教育評價(jià)改革指明了方向,理清了思路。這就是:以“倡四評(結(jié)果、過程、增值、綜合)”實(shí)現(xiàn)“破五唯(分?jǐn)?shù)、升學(xué)、文憑、論文、帽子)”。未來,教育評價(jià)改革的一個(gè)重要思路就是,以成長(增值)評估來完善和補(bǔ)充原有的達(dá)標(biāo)(結(jié)果)評估。
所謂成長評估模型是指一組定義、計(jì)算方法和規(guī)則,可以根據(jù)學(xué)生兩個(gè)或多個(gè)時(shí)間點(diǎn)的表現(xiàn),做出與學(xué)生、班級(jí)、教師和學(xué)校有關(guān)的解釋。(王曉平,齊森,謝小慶《美國學(xué)?!俺砷L測量”的7種主要方法》,2018年刊于《中國考試》第6期)進(jìn)行成長評估,不僅可以更準(zhǔn)確地了解學(xué)生實(shí)際的學(xué)習(xí)成效(outcome),同時(shí)還可以更準(zhǔn)確、更清晰地了解教師、學(xué)校對學(xué)生成績提高所產(chǎn)生的實(shí)際影響。
新的“達(dá)標(biāo)+成長”的教育評估模型體現(xiàn)了一種新的教育理念。學(xué)習(xí),不僅要追求“達(dá)標(biāo)”,更要追求“成長”。對于一些基礎(chǔ)好的學(xué)生,實(shí)現(xiàn)“達(dá)標(biāo)”并不一定能夠?qū)崿F(xiàn)“成長”;對于一些基礎(chǔ)薄弱的學(xué)生,即使暫時(shí)“達(dá)標(biāo)”有困難,但仍然可以通過學(xué)習(xí)獲得“成長”。
今天,在美國各州應(yīng)用的成長測量模型主要有:基于縱向量表的增分模型(gain score)、軌道模型(trajectory)和分類模型(categorical);基于回歸方法的殘差模型(the residual gain)、投射模型(projection)和學(xué)生成長百分等級(jí)模型(student growth percentile,簡稱SGP模型);基于多變量分析的增值模型(value added)。
基于縱向量表的增分、軌道和分類等三種模型,目前在我國暫時(shí)不具有可行性,可以暫不考慮。今天,在美國應(yīng)用最廣泛的兩個(gè)縱向量表是《智者平衡評估聯(lián)盟測試系統(tǒng)(The Smarter Balanced Assessment Consortium, 簡稱SBAC)》(SBAC官網(wǎng):http://www.smarterbalanced.org/)(維 基 百 科SBAC詞 條:https://en.wikipedia.org/wiki/Smarter_Balanced_Assessment_Consortium)和《大學(xué)學(xué)習(xí)和就業(yè)準(zhǔn)備聯(lián)合測試》(Partnership for the Assessment of Readiness for College and Career,簡 稱PARCC)(PARCC官 網(wǎng):https://parcc-assessment.org/)(維基百科PARCC詞條:https://en.wikipedia.org/wiki/PARCC)。從2010年到2014年,SBAC和PARCC測試系統(tǒng)的開發(fā)分別獲得了聯(lián)邦政府1.78億和1.86億美元的資助。這僅僅是研發(fā)投入的一部分,此外,還有40多個(gè)州政府的投入,還有承擔(dān)研發(fā)任務(wù)的培生等大公司的研發(fā)投入。目前,在我國尚難以進(jìn)行這樣規(guī)模的投入。
進(jìn)行成長評估,可以有兩種思路:
1.高起點(diǎn)、高水平,一步到位;
2.低起點(diǎn)、低水平,第一步先“做起來”,第二步再力爭逐步“做得好”。
有條件的時(shí)候,當(dāng)然可以選擇第一種思路。我這里介紹的“等值”和“殘差”兩種方法,屬于第二種思路。
為了對學(xué)生的成長進(jìn)行評估,需要在特定時(shí)段(如一學(xué)期或一學(xué)年)的開始時(shí)和結(jié)束時(shí),進(jìn)行兩次測試,即“入口”和“出口”的兩次測試。由于練習(xí)效應(yīng),兩次測試不能用同一張?jiān)嚲怼?/p>
盡管測試的編制者在命題過程中總是盡量保持難度的穩(wěn)定性,但不同試卷之間在難度、分?jǐn)?shù)分布方面的差別很難完全避免。兩次測試的難度不同,分?jǐn)?shù)的增長可能歸因于學(xué)生的成長,也可能歸因于試卷偏容易。如果第二次測試的分?jǐn)?shù)提高明顯,我們無法知道分?jǐn)?shù)的提高是由于學(xué)生獲得了“成長”,還是因?yàn)榈诙螠y試的試卷比較容易。只有兩次測試的成績可以進(jìn)行合理的轉(zhuǎn)換,可以排除掉試卷難易度變化的影響,兩次測試才具有可比性。
這樣,就需要在不同難度的兩份試卷之間建立可比性。這一建立可比性的過程,就是等值(equating)。
等值的具體做法是:首先編制試卷1和試卷2兩份試卷。如果計(jì)劃將試卷應(yīng)用于對A校(或A學(xué)區(qū)、A地區(qū))的學(xué)生進(jìn)行成長評估,則將兩份試卷在B校(或B學(xué)區(qū)、B地區(qū))的一組學(xué)生中施測。根據(jù)施測結(jié)果,對兩份試卷進(jìn)行等值連接。之后,將試卷1作為A校的“入口”試卷,將試卷2作為A校的“出口”試卷。(見圖一)
圖一
在B校施測的方式可以有兩種:第一種,上午測試一份試卷,下午測試一份試卷。這時(shí),我們假設(shè)同一組學(xué)生在一天之內(nèi)水平不會(huì)出現(xiàn)變化。第二種,將兩份試卷合并為一份試卷,施測于B校的一組學(xué)生。(見圖二)
圖二
在試卷1與試卷2之間建立分?jǐn)?shù)等值的方法是:
例如:
試卷1施測于B校的平均分=21.75。
試卷2施測于B校的平均分=19.25(試卷2比試卷1難一些)。
李萍的試卷2得分為27分。
李萍的試卷2相對于試卷1的等值分?jǐn)?shù)=27+(21.75-19.25)
=27+2.5
=29.5
又如:
試卷1施測于B校的平均分=20.25。
試卷2施測于B校的平均分=22.55(試卷2比試卷1容易一些)。
李萍的試卷2得分為27分。
李萍的試卷2相對于試卷1的等值分?jǐn)?shù)=27+(20.25-22.55)
=27-2.3
=25.7
成長分?jǐn)?shù)的計(jì)算方法是:
例如:
李萍的試卷1(入口)得分26分。
李萍的試卷2(出口)卷面得分27分。
李萍的試卷2相對于試卷1的等值分?jǐn)?shù)29.5分。
李萍的成長分?jǐn)?shù)=29.5-26=3.5分(獲得了成長)。
又如:
李萍的試卷1(入口)得分26分。
李萍的試卷2(出口)卷面得分27分。
李萍的試卷2相對于試卷1的等值分?jǐn)?shù)25.7分。
李萍的成長分?jǐn)?shù)=25.7-26=-0.3分(沒有成長)。
以上介紹的是最簡單、最粗糙的“平均數(shù)等值”方法。在有條件的學(xué)校(學(xué)區(qū)、地區(qū)),可以采用更精致的等值方法。在等值數(shù)據(jù)資料的收集方面,既可以采用以“人”為媒介的共同被試組設(shè)計(jì),也可以采用以“題”為媒介的“錨測驗(yàn)”設(shè)計(jì)。在等值數(shù)據(jù)資料處理的數(shù)學(xué)模型方面,可以依據(jù)基于真分?jǐn)?shù)假設(shè)之上的經(jīng)典測驗(yàn)理論(classical testing theory,簡稱CTT),也可以依據(jù)基于潛在特質(zhì)假設(shè)之上的題目反應(yīng)理論(item response theory,簡稱IRT)。在兩種理論模型的框架內(nèi),區(qū)別于數(shù)據(jù)收集的方式不同、所采用的計(jì)算方法不同等,又存在著多種不同的等值方法。(謝小慶《對15種測驗(yàn)等值方法的比較研究》 《HSK和MHK的等值》 《考試分?jǐn)?shù)等值的新框架》分別于2000年、2005年、2008年刊于《心理學(xué)報(bào)》第2期 《考試研究》 第1期、 《考試研究》 第2期) (見圖三)。
圖三
殘差(the residual gain)方法也需要編制兩套試卷,一套用于入口,一套用于出口。殘差方法不需要對兩套試卷進(jìn)行等值連接。
殘差方法所要回答的問題是:與根據(jù)入口成績估計(jì)的預(yù)期出口成績相比,某一學(xué)生的實(shí)際出口成績?nèi)绾??是高于預(yù)期成績還是低于預(yù)期成績,或者基本與期望成績相一致。如果實(shí)際成績明顯高于預(yù)期成績,我們就可以認(rèn)為學(xué)生獲得了成長。
殘差方法所采用的是一種很容易理解的回歸方法,基本計(jì)算方法是:在入口和出口成績之間建立線性回歸方程,根據(jù)回歸方程和某同學(xué)的入口成績,計(jì)算出該同學(xué)預(yù)期的出口成績。之后,計(jì)算該同學(xué)預(yù)期出口成績與實(shí)際出口成績之間的“殘差”。如果實(shí)際成績高于預(yù)期成績,該同學(xué)就取得了比較滿意的“成長”;相反,則成長的情況不理想。
獲得了一組學(xué)生(如一個(gè)年級(jí)的全體同學(xué))的入口成績(X)和出口成績(Y)之后,很容易利用統(tǒng)計(jì)軟件(如SPSS等)計(jì)算出回歸系數(shù),建立起回歸方程。
例如:
Y=1.02X+1.2
圖四
根據(jù)一位同學(xué)的入口成績和回歸方程,很容易計(jì)算出其預(yù)期的出口成績。
例如,李萍的入口成績?yōu)?0分,根據(jù)回歸方程
Y=1.02X+1.2。
可以計(jì)算出:
李萍的預(yù)期出口成績=1.02×20+1.2=21.6。
如果李萍的實(shí)際出口成績是25分,那么李萍的成長分?jǐn)?shù)
=殘差
=實(shí)際出口成績 – 預(yù)期出口成績
=25-21.6
=3.4
圖五
在殘差方法中,包含著兩個(gè)較強(qiáng)的假設(shè):1.線性假設(shè);
2.方差齊性假設(shè)。
在學(xué)生成長百分等級(jí)(SGP)方法中,不包含這兩個(gè)假設(shè),更為精致,是今天美國使用最廣泛的一種成長評估模型,有20多個(gè)州使用,占所有使用成長模型的州一半以上。
SGP方法的計(jì)算較殘差方法復(fù)雜一些,在有條件的時(shí)候,可以進(jìn)一步采用更精致的SGP方法。(謝小慶《用于成長評估的學(xué)生成長百分等級(jí)模型:來自美國的經(jīng)驗(yàn)》,2019年刊于《教育測量與評價(jià)》第6期;符華均等《基于學(xué)生成長百分等級(jí)模型的學(xué)業(yè)進(jìn)步評價(jià)》。2019年刊于《中國考試》第2期;王帥鳴等《基于成長百分等級(jí)模型開展增值評價(jià)的實(shí)證研究》,2020年刊于《中國考試》第9期)
成長分?jǐn)?shù)可以應(yīng)用于學(xué)生、教師、學(xué)校(學(xué)區(qū)、地區(qū))、學(xué)材、教法的評估。
學(xué)生:在向?qū)W生、家長報(bào)告“結(jié)果評估分?jǐn)?shù)(達(dá)標(biāo)成績或期末成績)”的時(shí)候,可以同時(shí)報(bào)告“成長分?jǐn)?shù)”,可以使結(jié)果評估成績處于高端、中斷和低端的學(xué)生都能夠受到激勵(lì)、提醒和鼓勵(lì)。
教師:計(jì)算和報(bào)告不同教師所教學(xué)生的平均成長分?jǐn)?shù),使任教于不同基礎(chǔ)班級(jí)的教師,都可以看到自己在幫助學(xué)生獲得成長方面所取得的實(shí)際效果。
學(xué)校(學(xué)區(qū)、地區(qū)):計(jì)算和報(bào)告不同學(xué)校學(xué)生的平均成長分?jǐn)?shù),使學(xué)生基礎(chǔ)不同的學(xué)校,都可以看到自己在幫助學(xué)生獲得成長方面所取得的實(shí)際效果。
學(xué)材:計(jì)算和報(bào)告使用不同學(xué)材學(xué)生的平均成長分?jǐn)?shù),為不同學(xué)材的優(yōu)劣比較,提供實(shí)證的參考依據(jù)。
教法:計(jì)算和報(bào)告采用不同教法學(xué)生的平均成長分?jǐn)?shù),為不同教法的優(yōu)劣比較,提供實(shí)證的參考依據(jù)。