張青華
2018 年9 月,習(xí)近平總書記指出,要深化教育體制改革,健全立德樹人落實(shí)機(jī)制,扭轉(zhuǎn)不科學(xué)的教育評(píng)價(jià)導(dǎo)向,堅(jiān)決克服唯分?jǐn)?shù)、唯升學(xué)、唯文憑、唯論文、唯帽子的頑瘴痼疾,從根本上解決教育評(píng)價(jià)指揮棒問題。2020 年10 月13 日,中共中央、國(guó)務(wù)院引發(fā)《深化新時(shí)代教育評(píng)價(jià)改革總體方案》(以下簡(jiǎn)稱《教育評(píng)價(jià)方案》),明確要求堅(jiān)持科學(xué)有效,改進(jìn)結(jié)果評(píng)價(jià),強(qiáng)化過程評(píng)價(jià),探索增值評(píng)價(jià),健全綜合評(píng)價(jià),充分利用信息技術(shù),提高教育評(píng)價(jià)的科學(xué)性、專業(yè)性、客觀性。到2035 年,基本形成富有時(shí)代特征、彰顯中國(guó)特色、體現(xiàn)世界水平的教育評(píng)價(jià)體系??梢姡鲋翟u(píng)價(jià)的理論與實(shí)踐研究已經(jīng)成為當(dāng)前教育評(píng)價(jià)改革的重要任務(wù)。
增值評(píng)價(jià)起源于20 世紀(jì)六十年代美國(guó)的學(xué)校效能研究,其研究的目的是更客觀、更科學(xué)地評(píng)估學(xué)校、教師在學(xué)生成長(zhǎng)進(jìn)步過程中的作用。近三十年來,增值評(píng)價(jià)在美國(guó)、英國(guó)、中國(guó)香港等地得到較為廣泛的應(yīng)用。1992 年美國(guó)田納西州開發(fā)了田納西增值評(píng)價(jià)系統(tǒng)(Tennessee Value Added Assessment System,簡(jiǎn)稱TVAAS),對(duì)測(cè)試型課程進(jìn)行增值評(píng)價(jià),2012 年又開發(fā)了學(xué)生成長(zhǎng)檔案袋模式(Student Growth Portfolio Models,簡(jiǎn)稱Portfolios)對(duì)非測(cè)試型課程進(jìn)行評(píng)價(jià),TVAAS 和Portfolios 兩者互為補(bǔ)充[1]。英國(guó)從1992 年開始探索增值評(píng)價(jià),到2002 年在英格蘭和威爾士推廣,2006 年在全國(guó)實(shí)施。英國(guó)增值評(píng)價(jià)的技術(shù)由最初的控制背景因素的多水平模型,到目前在中學(xué)和大學(xué)過渡學(xué)段(16-18 歲)增值評(píng)價(jià)中保留多水平模型,在英格蘭地區(qū)基礎(chǔ)教育增值評(píng)價(jià)則采用簡(jiǎn)單的均值計(jì)算方法[2]。我國(guó)的香港特區(qū)政府2000 年建立香港學(xué)校增值資料系統(tǒng)(Schools Value Added Information System,簡(jiǎn)稱SVAIS),采用多層模型為學(xué)校提供年度增值評(píng)價(jià)研究報(bào)告[3-4]。
國(guó)內(nèi)近二十多年來對(duì)增值評(píng)價(jià)進(jìn)行了多方面的研究與實(shí)踐應(yīng)用。增值評(píng)價(jià)的研究主要有兩方面:一方面應(yīng)用增值評(píng)價(jià)方法進(jìn)行實(shí)證研究,如馬曉強(qiáng)(2006)對(duì)河北省保定市普通高中學(xué)校的增值實(shí)證研究[5],王家美(2009)對(duì)江西省上饒市30 所高級(jí)中學(xué)語文學(xué)科進(jìn)行的教育增值評(píng)估實(shí)證研究[6],杜屏(2011)對(duì)基于我國(guó)西部五省調(diào)研數(shù)據(jù)的農(nóng)村初級(jí)中學(xué)學(xué)校效能的增值性評(píng)價(jià)實(shí)證分析[7],王帥鳴(2020)基于成長(zhǎng)百分等級(jí)模型開展增值評(píng)價(jià)的實(shí)證研究[8]等;另一方面對(duì)增值評(píng)價(jià)模型方法進(jìn)行探索研究,如萬兵濤(2019)教學(xué)質(zhì)量增值評(píng)價(jià)中數(shù)學(xué)模型的選擇與應(yīng)用[9],周園(2020)教育增值評(píng)價(jià)中嵌套數(shù)據(jù)增長(zhǎng)百分位估計(jì)方法探析:多水平線性分位數(shù)回歸模型的應(yīng)用[10]等。國(guó)內(nèi)增值評(píng)價(jià)在研究探索的過程中也進(jìn)行了實(shí)踐應(yīng)用,如天津趙彤璐(2014)利用大規(guī)??荚嚁?shù)據(jù)開展學(xué)業(yè)增值評(píng)價(jià)[11],蘇州羅強(qiáng)(2020)利用義務(wù)教育階段監(jiān)測(cè)數(shù)據(jù)進(jìn)行增值評(píng)價(jià)[12],還有溫州、北京等地也都開展了增值評(píng)價(jià)的一些探索性實(shí)踐應(yīng)用。
學(xué)業(yè)增值評(píng)價(jià)是以學(xué)生的學(xué)業(yè)進(jìn)步程度作為尺度依據(jù),間接地對(duì)學(xué)校、教師幫助學(xué)生學(xué)業(yè)提升的程度進(jìn)行評(píng)價(jià)。它是對(duì)學(xué)校效能、教師績(jī)效進(jìn)行評(píng)價(jià)的方式之一。由于它是對(duì)學(xué)生的學(xué)業(yè)水平進(jìn)步程度的評(píng)價(jià),充分考慮了學(xué)生學(xué)業(yè)水平變化過程中的前因與后果的關(guān)系,因此與結(jié)果評(píng)價(jià)相比(對(duì)學(xué)生最終的學(xué)業(yè)水平的絕對(duì)高與低進(jìn)行評(píng)價(jià)),能夠更為客觀、更科學(xué)地反映學(xué)生的學(xué)業(yè)發(fā)展變化,能夠更公正地評(píng)價(jià)學(xué)校、教師在學(xué)生學(xué)業(yè)變化過程中的作用。
就目前國(guó)內(nèi)增值評(píng)價(jià)的研究與發(fā)展的現(xiàn)狀而言,對(duì)于增值評(píng)價(jià)的探索應(yīng)該是多方面的。一方面應(yīng)加強(qiáng)對(duì)德、體、美、勞增值評(píng)價(jià)的探索。學(xué)校對(duì)于學(xué)生的效能不僅限于學(xué)業(yè)的傳授,還有在德、體、美、勞等方面對(duì)學(xué)生的全面塑造。由于德、體、美、勞很難通過可操作性、可量化的工具——測(cè)試來進(jìn)行評(píng)價(jià),因此國(guó)內(nèi)在這些方面的增值評(píng)價(jià)研究相對(duì)較少。針對(duì)德、體、美、勞增值評(píng)價(jià)的現(xiàn)狀,除借鑒國(guó)外在這方面有關(guān)經(jīng)驗(yàn)之外,還需要結(jié)合國(guó)內(nèi)實(shí)際教育情況進(jìn)行方法與實(shí)踐的探索研究。另一方面加強(qiáng)對(duì)學(xué)業(yè)的增值評(píng)價(jià)探索。雖然近二十多年來國(guó)內(nèi)對(duì)學(xué)業(yè)的增值評(píng)價(jià)進(jìn)行了諸多的研究與實(shí)踐應(yīng)用,但并沒有得到大規(guī)模廣泛的開展。在學(xué)業(yè)增值評(píng)價(jià)由理念、研究、走向?qū)嵺`應(yīng)用的探索過程中,需要探尋實(shí)現(xiàn)理念的方法和有效途徑,需要思考諸如學(xué)生學(xué)業(yè)用什么工具來測(cè)量,測(cè)量后用什么方法來計(jì)算學(xué)業(yè)的增長(zhǎng),如何對(duì)學(xué)業(yè)增長(zhǎng)的情況進(jìn)行判斷(評(píng)價(jià)指標(biāo)體系的設(shè)計(jì)),以及在實(shí)踐中對(duì)評(píng)價(jià)的結(jié)果如何解釋、科學(xué)恰當(dāng)?shù)厥褂玫?。以下就學(xué)業(yè)增值評(píng)價(jià)探索過程中需要關(guān)注的五個(gè)主要方面的問題進(jìn)行探討。
學(xué)業(yè)測(cè)驗(yàn)工具是進(jìn)行增值評(píng)價(jià)的基石。用于增值評(píng)價(jià)的測(cè)驗(yàn)質(zhì)量,即測(cè)驗(yàn)?zāi)芊駥?duì)學(xué)生的學(xué)業(yè)發(fā)展變化進(jìn)行科學(xué)、準(zhǔn)確的測(cè)量,是影響學(xué)業(yè)增值評(píng)價(jià)結(jié)果的科學(xué)性、可靠性和準(zhǔn)確性程度的重要影響因素之一。從教育測(cè)量學(xué)的角度而言,學(xué)業(yè)測(cè)驗(yàn)質(zhì)量至少包含了四個(gè)層面的內(nèi)涵:第一測(cè)驗(yàn)工具的信度,即測(cè)驗(yàn)的測(cè)量結(jié)果具有一致性、穩(wěn)定性及可靠性。第二測(cè)驗(yàn)工具的效度,即測(cè)驗(yàn)是否能夠測(cè)出所要測(cè)的目標(biāo),如學(xué)生的學(xué)科知識(shí)、能力、核心素養(yǎng)等。第三測(cè)驗(yàn)工具應(yīng)具有合理的總體難度,以及合理的難度結(jié)構(gòu),能夠?qū)⒉煌瑢哟嗡綄W(xué)生的真實(shí)水平測(cè)量出來。對(duì)于學(xué)業(yè)增值評(píng)價(jià)而言,測(cè)驗(yàn)的對(duì)象是廣大的學(xué)生群體,在學(xué)生的學(xué)業(yè)水平差異程度較大的情況下,如果測(cè)驗(yàn)難度結(jié)構(gòu)不合理,試卷難度過于容易,高水平學(xué)生都會(huì)作答,會(huì)導(dǎo)致無法測(cè)量出他們的真實(shí)水平。而試卷難度太大,會(huì)導(dǎo)致低水平學(xué)生作答不出來,也無法測(cè)量出其真實(shí)水平,從而使增值評(píng)價(jià)的結(jié)果不可靠。第四測(cè)驗(yàn)的試題具有較好的區(qū)分度。依據(jù)測(cè)驗(yàn)的測(cè)試目標(biāo),每道試題能有效區(qū)分相應(yīng)層次水平的學(xué)生,從而使測(cè)驗(yàn)對(duì)不同學(xué)生水平達(dá)到預(yù)定的區(qū)分效果。因此用于增值評(píng)價(jià)的學(xué)業(yè)測(cè)驗(yàn)應(yīng)該具有高質(zhì)量,從而保證學(xué)業(yè)增值評(píng)價(jià)結(jié)果的可信、可靠。
增值模型是進(jìn)行增值評(píng)價(jià)研究與應(yīng)用的核心技術(shù)。目前國(guó)內(nèi)外增值評(píng)價(jià)采用的主要模型有多層線性模型、學(xué)生成長(zhǎng)百分等級(jí)模型(Student Growth Percentile)等。無論哪一種增值模型都不可能解決所有的問題,或多或少會(huì)有一定的局限性。如多層線性模型的優(yōu)點(diǎn)是通過排除影響學(xué)生學(xué)業(yè)變化的學(xué)校以外的背景因素(個(gè)人背景、家庭社會(huì)經(jīng)濟(jì)等),純粹獲取學(xué)校教育對(duì)學(xué)生進(jìn)步的影響。它強(qiáng)調(diào)的是學(xué)校的“凈效應(yīng)”。然而影響學(xué)生學(xué)業(yè)變化的學(xué)校之外的因素一方面不可能窮盡地找到,另一方面也存在能否收集到這些因素的數(shù)據(jù)。而且,模型本身的兩個(gè)假設(shè)——線性和方差齊性,實(shí)際數(shù)據(jù)未必一定都能夠滿足。學(xué)生成長(zhǎng)百分等級(jí)模型的優(yōu)點(diǎn)在于考慮了不同水平學(xué)生群體在其相同起點(diǎn)水平群體中各自的學(xué)業(yè)增長(zhǎng)幅度。它是通過計(jì)算一名學(xué)生在水平相似的一組學(xué)生中相對(duì)位置的變化來對(duì)“成長(zhǎng)”進(jìn)行評(píng)估的。模型假設(shè)與考生起始水平相同的群體在第二次所得的分?jǐn)?shù)呈正態(tài)分布,當(dāng)參與評(píng)價(jià)的學(xué)生群體數(shù)量并不大時(shí),實(shí)際數(shù)據(jù)并不一定能滿足該假設(shè)。因此在進(jìn)行增值評(píng)價(jià)研究或?qū)嵺`應(yīng)用時(shí),選擇或開發(fā)模型要充分考慮實(shí)際可操作性(模型考慮的有關(guān)變量是否可收集到)、評(píng)價(jià)結(jié)果的準(zhǔn)確性(模型可能帶來的誤差量)、評(píng)價(jià)結(jié)果的可理解性(模型得出的評(píng)價(jià)結(jié)果是否通俗易懂)、評(píng)價(jià)結(jié)果的運(yùn)用目的(用于高風(fēng)險(xiǎn)問責(zé)或用于改進(jìn))等諸多方面的因素。
學(xué)業(yè)增值評(píng)價(jià)通過其模型能夠計(jì)算出每名學(xué)生的增值量,進(jìn)而獲得學(xué)校、班級(jí)的增值量。如何通過模型計(jì)算的增值結(jié)果對(duì)區(qū)域、學(xué)校、班級(jí)、學(xué)生進(jìn)行評(píng)價(jià),需要設(shè)計(jì)評(píng)價(jià)的指標(biāo)體系。指標(biāo)體系設(shè)計(jì)的合理與否關(guān)系到學(xué)業(yè)增值評(píng)價(jià)的目的是否能夠?qū)崿F(xiàn),能否保證評(píng)價(jià)的結(jié)果對(duì)不同評(píng)價(jià)對(duì)象公平公正。
在設(shè)計(jì)學(xué)業(yè)增值評(píng)價(jià)指標(biāo)體系時(shí)一方面要考慮評(píng)價(jià)結(jié)果的使用者是誰,不同的使用者(全市、區(qū)域、學(xué)校的行政領(lǐng)導(dǎo)),他們的需求、關(guān)注點(diǎn)是什么,有什么不同。例如,對(duì)于全市教育行政領(lǐng)導(dǎo)而言,可能更關(guān)注整體的學(xué)業(yè)增值情況,以及各區(qū)域整體增值情況。對(duì)于學(xué)校而言,可能更關(guān)注各學(xué)科的增值、不同教師的增值、不同起始水平的學(xué)生增值有何不同,以及如何通過增值評(píng)價(jià)提供的有價(jià)值信息,發(fā)現(xiàn)教育教學(xué)中存在的問題,從而改進(jìn)教育教學(xué)。因此針對(duì)不同的使用者,增值評(píng)價(jià)指標(biāo)體系的設(shè)計(jì)側(cè)重點(diǎn)應(yīng)該有所區(qū)別,同時(shí)在設(shè)計(jì)指標(biāo)體系時(shí)要考慮對(duì)使用者而言指標(biāo)體系是否科學(xué)、能否提供有價(jià)值的信息、是否簡(jiǎn)單易懂便于使用。另一方面要考慮設(shè)計(jì)的指標(biāo)體系對(duì)于被評(píng)價(jià)者而言,是否科學(xué)、公平,如不同層次水平的被評(píng)價(jià)者,他們?cè)鲋祵?duì)應(yīng)的參照群體設(shè)置是否合理等。
目前,國(guó)內(nèi)外對(duì)于學(xué)業(yè)增值評(píng)價(jià)結(jié)果的使用主要有兩方面:一方面用于學(xué)校效能、教師績(jī)效的問責(zé);另一方面根據(jù)增值評(píng)價(jià)的結(jié)果,研究影響學(xué)校效能、教師績(jī)效的因素,對(duì)學(xué)校、教師的教育教學(xué)進(jìn)行改進(jìn)。無論增值評(píng)價(jià)的結(jié)果是用于問責(zé),還是用于改進(jìn),應(yīng)該充分認(rèn)識(shí)到學(xué)業(yè)增值評(píng)價(jià)是利用學(xué)生學(xué)業(yè)進(jìn)步程度的結(jié)果,間接地對(duì)學(xué)校效能、教師績(jī)效進(jìn)行評(píng)價(jià)。測(cè)驗(yàn)工具的信度、效度無論有多高,對(duì)學(xué)生學(xué)業(yè)真實(shí)水平的測(cè)量仍會(huì)存在測(cè)量誤差;無論采用什么最優(yōu)的模型,都不可能把與學(xué)校無法控制的因素窮盡地納入模型,從而達(dá)到無偏估計(jì)。由于數(shù)據(jù)收集、模型等因素存在隨機(jī)誤差、系統(tǒng)性誤差,因此對(duì)于學(xué)業(yè)增值評(píng)價(jià)的結(jié)果需要客觀、謹(jǐn)慎地使用,尤其是用于學(xué)校、教師高利害的問責(zé),學(xué)業(yè)增值評(píng)價(jià)的結(jié)果應(yīng)該作為問責(zé)的依據(jù)之一,而不是唯一依據(jù)。
學(xué)業(yè)增值評(píng)價(jià)從研究到實(shí)踐應(yīng)用,首先都會(huì)面臨有關(guān)數(shù)據(jù)的收集,諸如學(xué)生個(gè)人的縱向成績(jī)和有關(guān)的背景信息、學(xué)校、班級(jí)等信息;其次信息收集后需要進(jìn)行儲(chǔ)存、管理、運(yùn)用;再次根據(jù)研究或應(yīng)用的需要,進(jìn)行相應(yīng)的數(shù)據(jù)統(tǒng)計(jì)分析,最后得到增值評(píng)價(jià)的分析結(jié)果或報(bào)告。在整個(gè)學(xué)業(yè)增值評(píng)價(jià)研究的探索和實(shí)踐應(yīng)用過程中每一步都離不開信息系統(tǒng)的支撐,需要全面考慮實(shí)際情況,系統(tǒng)地進(jìn)行設(shè)計(jì)和構(gòu)建增值評(píng)價(jià)所需要的信息收集、管理、分析系統(tǒng),為學(xué)業(yè)增值評(píng)價(jià)的開展提供有力的信息技術(shù)保障。
國(guó)內(nèi)二十多年對(duì)增值評(píng)價(jià)的研究一方面?zhèn)鞑チ嗽鲋翟u(píng)價(jià)的先進(jìn)理念,另一方面基于理念在實(shí)踐中進(jìn)行了積極有益的嘗試和探索。然而增值評(píng)價(jià)在國(guó)內(nèi)并沒有形成大規(guī)模的應(yīng)用,其原因是多方面的:第一,用于增值評(píng)價(jià)的數(shù)據(jù)資料獲取不易。目前國(guó)內(nèi)用于增值評(píng)價(jià)的主要是中考、高考、國(guó)家義務(wù)教育監(jiān)測(cè)、區(qū)域階段性監(jiān)測(cè)等考生測(cè)驗(yàn)數(shù)據(jù)。這些高質(zhì)量的測(cè)驗(yàn)數(shù)據(jù)主要由國(guó)家、不同省市的教育考試機(jī)構(gòu)掌握,對(duì)這些數(shù)據(jù)的使用需要具有一定的權(quán)限。獨(dú)自開發(fā)用于增值評(píng)價(jià)的測(cè)驗(yàn),一方面人力、物力、財(cái)力成本很高,另一方面會(huì)加重學(xué)生的測(cè)試負(fù)擔(dān)。第二,增值評(píng)價(jià)的模型有關(guān)問題。首先國(guó)內(nèi)外常用模型都具有較嚴(yán)的模型假設(shè),而現(xiàn)實(shí)收集的數(shù)據(jù)資料并不一定能很好滿足模型的這些假設(shè);其次模型的計(jì)算較為復(fù)雜,需要專業(yè)人員;再次模型計(jì)算的結(jié)果對(duì)于許多增值評(píng)價(jià)結(jié)果的使用者而言較難理解。第三,用于增值評(píng)價(jià)的指標(biāo)體系過于籠統(tǒng),從而導(dǎo)致增值評(píng)價(jià)結(jié)果無法滿足用于改進(jìn)教育教學(xué)的需要。目前國(guó)內(nèi)的眾多研究還處于使用不同的增值評(píng)價(jià)模型對(duì)同一批學(xué)生兩次測(cè)試數(shù)據(jù)計(jì)算出學(xué)校的增值量,進(jìn)而與按最終測(cè)試成績(jī)進(jìn)行的結(jié)果評(píng)價(jià)的排名進(jìn)行對(duì)比。這樣的研究結(jié)果雖然比結(jié)果評(píng)價(jià)更為客觀、合理,但與改進(jìn)教育教學(xué)的目標(biāo)還有差距。
實(shí)現(xiàn)增值評(píng)價(jià)由理念到廣泛應(yīng)用,在目前國(guó)情條件下可以考慮:一方面加強(qiáng)高校與省、市教育考試機(jī)構(gòu)的合作,充分發(fā)揮高校專業(yè)人員的科研優(yōu)勢(shì)、教育考試機(jī)構(gòu)的數(shù)據(jù)資源優(yōu)勢(shì),共同協(xié)作。另一方面完善增值評(píng)價(jià)指標(biāo)體系,細(xì)化區(qū)域、學(xué)校、班級(jí)及其不同層次水平學(xué)生的增值結(jié)果,為實(shí)現(xiàn)增值評(píng)價(jià)的教育教學(xué)改進(jìn)功能提供科學(xué)、客觀、有價(jià)值的依據(jù)。同時(shí),還要加強(qiáng)對(duì)使用者的增值指標(biāo)專業(yè)知識(shí)的培訓(xùn),只有使用者能夠理解,增值評(píng)價(jià)才能得以推廣使用。此外,為實(shí)現(xiàn)增值評(píng)價(jià)應(yīng)用目標(biāo),還應(yīng)加強(qiáng)信息化系統(tǒng)團(tuán)隊(duì)的構(gòu)建。增值評(píng)價(jià)從最初的數(shù)據(jù)收集到最后評(píng)價(jià)結(jié)果報(bào)告輸出,每一步都離不開信息化系統(tǒng),信息化系統(tǒng)既需要財(cái)力支持,也需要專業(yè)的測(cè)量、統(tǒng)計(jì)、計(jì)算機(jī)等專業(yè)人員通力合作,這是一般的研究者無法單獨(dú)完成的。