姜 華 王 淼
(大連理工大學(xué) 高等教育研究院,遼寧 大連 116024)
2020年,中共中央國務(wù)院印發(fā)《深化新時代教育評價改革總體方案》,方案指出,要扭轉(zhuǎn)不科學(xué)的教育評價導(dǎo)向,堅持科學(xué)有效,改進結(jié)果評價,強化過程評價,探索增值評價,健全綜合評價,提高教育評價的科學(xué)性、專業(yè)性、客觀性。其中,增值評價成為對學(xué)生進行學(xué)業(yè)評估的重要手段和內(nèi)容。當(dāng)前高等教育評價忽視了對作為教育主體的學(xué)生學(xué)習(xí)與發(fā)展成效的評估,不能體現(xiàn)“以學(xué)生發(fā)展為本”的教育理念,不利于促進學(xué)生發(fā)展。增值評價通過對學(xué)生學(xué)業(yè)成就進步程度的測量與分析,進而對高校教師教學(xué)質(zhì)量、高校人才培養(yǎng)質(zhì)量進行評估,更好地發(fā)揮教育評價的作用,促進高等教育評價朝著全面又公平的方向發(fā)展[1-2]。
“增值”本身是經(jīng)濟學(xué)中的一個術(shù)語,也被稱作“附加值”。對增值進行測量與評價即增值評價的內(nèi)涵。研究者們對高等教育領(lǐng)域的增值評價有著不同的看法。美國高等教育評估家阿斯汀提出:學(xué)生從入學(xué)到畢業(yè)期間各方面發(fā)生的變化都是增值評價關(guān)注的焦點,這些變化包括思維方式、認知水平、人際交往等[3]。他認為,學(xué)生的培養(yǎng)質(zhì)量是大學(xué)辦學(xué)水平高低的根本指標。學(xué)校教育質(zhì)量的高低取決于學(xué)生在校期間各方面產(chǎn)生“增量”的大小。高等教育所帶給學(xué)生的“增值”體現(xiàn)在學(xué)生在經(jīng)過大學(xué)教育之后,對其走出校園后的生活及工作所帶來的積極影響,對這種影響程度的評估即增值評價的內(nèi)涵所在[4]。上述對于增值評價的理解在整體上基本一致,所謂的“增值”從學(xué)生角度來講,指學(xué)生在接受一段時間教育后在知識、技能、能力和其他方面所取得的進步[5];從學(xué)校層面來講,增值也可以定義為學(xué)校對學(xué)生在一段時間內(nèi)朝著既定的教育目標前進所作出的貢獻。增值評價則是對這種變化程度進行測量與評價,以此來評估學(xué)校的教學(xué)質(zhì)量。
增值評價主要有以下特點。
首先,增值評價是一種縱向評價,也是一種過程性評價,這是增值評價最顯著的特征。傳統(tǒng)教育評價方式往往將某一個時間節(jié)點學(xué)生的平均成績或升學(xué)率作為評價指標,來衡量教師工作或?qū)W校辦學(xué)的效率。這種橫向比較不僅缺少一定的說服力且會造成“唯分數(shù)”的弊端。增值評價關(guān)注的則是一段時間以來學(xué)生的成長進步以及學(xué)校的發(fā)展變化,其評價結(jié)果對學(xué)生、教育工作者、學(xué)校都更具指導(dǎo)性[6]。
其次,增值評價是一種更為公平的評價?,F(xiàn)有的評價傾向于對學(xué)生在某一時間點所取得的成績進行評價,并以此作為學(xué)校對學(xué)生學(xué)習(xí)成就的貢獻。由于學(xué)生入學(xué)時的知識和技能水平有所差異,僅以達到某一標準的學(xué)生的百分比來評價每個學(xué)校對學(xué)生成就的貢獻是不公平的。增值評價不用同一把尺來度量不同的學(xué)生以及辦學(xué)差異較大的學(xué)校,而是基于學(xué)生自身的進步程度以及學(xué)校教育質(zhì)量的增值來作出價值判斷,體現(xiàn)了教育評價的公平性[7]。
再次,增值評價是一種多元評價。學(xué)生的學(xué)業(yè)成績往往受到多重因素的影響,每一次成績都是各種因素共同作用的結(jié)果[8]。這些因素包括學(xué)生自身的基礎(chǔ)水平、教師的教學(xué)水平、家庭經(jīng)濟狀況、學(xué)校辦學(xué)條件等。增值評價則將多種因素納入進來,并利用統(tǒng)計分析技術(shù),挖掘?qū)W校對學(xué)生學(xué)業(yè)成績的相關(guān)影響因素,得到學(xué)校在學(xué)生成長發(fā)展中的“凈效應(yīng)”,以此衡量學(xué)校、教師對學(xué)生發(fā)展產(chǎn)生的具體作用[9]。
最后,增值評價是一種促進發(fā)展的評價。增值評價本身是針對一段時間的縱向評價,其具有跟蹤觀察的特征,是一種過程性評價。它關(guān)注學(xué)生、教師、學(xué)校的發(fā)展,其評價結(jié)果對于學(xué)生、教師、學(xué)校發(fā)現(xiàn)問題極為重要,起到一定的引導(dǎo)作用。學(xué)生可以從評價結(jié)果中看到自身進步狀況,及時做出調(diào)整,取得更大進步。教師與學(xué)校可以利用評價結(jié)果更好地掌握學(xué)生狀況,及時采取措施,改善辦學(xué)質(zhì)量。
在20世紀60年代的美國,當(dāng)時人們普遍認為學(xué)校缺乏效率,因此一些學(xué)者開始對學(xué)校效率問題展開調(diào)查,其中以詹姆斯·科爾曼為代表的學(xué)者們提出了著名的《關(guān)于教育機會平等性的報告》,即“科爾曼報告”。這一報告表明學(xué)校對學(xué)生學(xué)業(yè)成就的影響程度不大,也印證了人們的擔(dān)心。除此之外,原有的評價方式關(guān)注橫向比較,使得具有較好生源的學(xué)校始終具有顯著優(yōu)勢,而生源較差的學(xué)校,其在學(xué)生成長過程中的效應(yīng)無法體現(xiàn)出來,不利于學(xué)校的發(fā)展;原有評價方式更加關(guān)注結(jié)果性評價,以某次考試成績作為評判學(xué)生的標準,這種評價方式造成學(xué)生無法得知自己的真實進步情況,也無法計算學(xué)校層面對學(xué)生學(xué)業(yè)成就增長的凈效應(yīng),不利于學(xué)生的成長。由于公眾對于學(xué)校效率問題的關(guān)注以及原有評價方式的不足,人們迫切需要一種關(guān)注縱向評價的評價方式,從而催生了增值評價在教育領(lǐng)域中的應(yīng)用[10]。
1983年,美國出臺了《國家處于危機之中:教育改革勢在必行》報告,這一報告主要針對美國中小學(xué)教學(xué)質(zhì)量滑坡、學(xué)生學(xué)業(yè)成就下降的現(xiàn)狀,強調(diào)各州要開始大力推行教育改革,核心目標就是提升教學(xué)質(zhì)量。為評估教育改革的效果,增值評價開始被使用。1992年,美國田納西州簽署了《教育改進法案》,法案中指出:增值性評價將成為教育問責(zé)制的重要一部分。這部法案的頒布使得增值評價從理念層面真正落到實處,標志著增值評價在具體運用上邁出了重要一步[11]。在此之后,增值評價受到了教育研究者及教育工作者的廣泛關(guān)注,逐漸成為教育評價的一種主要方式。2001年,美國出臺《不讓一個孩子掉隊》法案,明確規(guī)定學(xué)校評價要使用“年度進步值”這一關(guān)鍵指標,要求通過高標準和效益核定來實現(xiàn)教育平等。到2010年,田納西州頒布“捷足先登”計劃,該計劃旨在對中小學(xué)教師評價進行新一輪改革,計劃明確指出要形成增值性評價與其他評價方式相結(jié)合的綜合評價模式。增值評價一步步地發(fā)展起來。由于增值評價對統(tǒng)計技術(shù)的要求較高,其最初在英美等國家發(fā)展起來,且增值評價最初應(yīng)用于美國K-12教育中(基礎(chǔ)教育階段)[1 2 -1 3]。增值評價提出的初衷旨在通過更加精準的統(tǒng)計分析方法解決教師評價中的一些難題。之后教育研究者發(fā)現(xiàn)增值評價不僅僅是一種評價方式,更是一種教育理念,增值評價可以解決傳統(tǒng)教育中的不足,彌補以往對學(xué)生的結(jié)果性評價及橫向評價的缺陷。此外,還有研究者提出站在學(xué)校效能的角度看,增值評價可以從影響學(xué)生成長發(fā)展的眾多因素中剝離非學(xué)??煽匾蛩兀M一步測量學(xué)生在一段時間內(nèi)的進步程度,從而得出學(xué)校對學(xué)生成就影響的凈效應(yīng),促進學(xué)校評價更加公平[14]。
大學(xué)生在高等教育背景中呈現(xiàn)出與基礎(chǔ)教育階段不同的特點,其學(xué)習(xí)過程與身心發(fā)展更加多元化。皮特·尤厄爾認為:“大學(xué)生的學(xué)習(xí)成果是指學(xué)生在經(jīng)過一段時間的學(xué)習(xí)后,其在知識、能力、思維等方面所取得的進步,包括認知與非認知的收獲、心理與行為上的收獲。”[15]目前獲取大學(xué)生學(xué)習(xí)成果數(shù)據(jù)可以通過標準化測試與自陳式量表來收集[16]。
標準化測試主要針對大學(xué)生的核心認知能力,具有直接、客觀等特點。一般來講,大學(xué)生核心認知能力包括批判思維能力、書面交流能力、邏輯推理能力等。目前美國具有代表性的標準化測試有以下幾種:《大學(xué)學(xué)習(xí)評估》(The Collegiate Learning Assessment,簡稱CLA)[17]、《大學(xué)生學(xué)術(shù)熟練程度評估》(Collegiate Assessment of Academic Proficiency,簡稱CAAP)[18]、《大學(xué)生學(xué)術(shù)熟練度與進步測量》(Measure of Academic Proficiency and Progress,簡稱MAPP)[19]、《基礎(chǔ)學(xué)科測試》(Basic Academic Subjects Examination,簡稱BASE)[20]等。其中,美國的《大學(xué)學(xué)習(xí)評估》(簡稱CLA)測試對學(xué)生的評價主要包括三方面:閱讀寫作能力、分辨推理能力和問題解決能力,可以在測試中通過模擬真實性情景來考察學(xué)生的三種能力,測試中可以為學(xué)生提供必要的數(shù)據(jù)、新聞報刊、研究成果的摘要等內(nèi)容,學(xué)生根據(jù)自身需要對材料進行處理后解決測試中給出的現(xiàn)實問題。在學(xué)生完成測試后,根據(jù)其回答判斷學(xué)生綜合能力掌握的級別標準,通過縱向測試,即入學(xué)時和畢業(yè)時,或者每一年度進行一次測試,從而完成對學(xué)生核心認知能力的增值評價[17]。國際組織也開發(fā)出相關(guān)的標準化測試,稱為《高等教育學(xué)習(xí)成果評估》(Assessment of Higher Education Learning Outcomes,簡稱AHELO)[21],該標準化測試不僅可以用來測試通用技能,還可以用來測試不同專業(yè)的專業(yè)知識與技能。
自陳式量表是根據(jù)學(xué)生的自我報告來實現(xiàn)的,學(xué)生通過問卷等形式對自己在課內(nèi)外活動中的感受與收獲、個體發(fā)展情況以及進步情況進行自我陳述和自我評價。當(dāng)前美國高等教育評估中,使用較多的自陳式量表有:美國大學(xué)生學(xué)習(xí)經(jīng)歷調(diào)查(the National Survey for Student Engagement,NSSE)[22]、全美大學(xué)生滿意度調(diào)查(National Student Satisfaction Study,NSSS)[23]、大學(xué)生就讀經(jīng)驗調(diào)查(The College Student Experiences Questionnaire,簡稱CSEQ)[24]、《加州大學(xué)本科生就讀經(jīng)驗調(diào)查》(University of California Undergraduate Experience Survey,簡稱UCUES)[25]等。
有研究者認為標準化測試不能全面反映學(xué)校對學(xué)生發(fā)展變化所產(chǎn)生的作用,其忽略了學(xué)生的家庭背景、經(jīng)濟狀況、自身經(jīng)歷與學(xué)校特征對學(xué)生學(xué)習(xí)成果的影響;自陳式量表則彌補了標準化測試的缺陷,將影響學(xué)生發(fā)展變化的諸多因素納入考慮。由于自陳式量表基于學(xué)生的自我匯報,一些研究者認為其準確性可能會受到影響,并且可能存在低回收率的問題。因此,在增值評價數(shù)據(jù)收集時,應(yīng)充分考慮以上兩種方式的結(jié)合,盡可能保證數(shù)據(jù)的準確性與完整性[26]。
高校在對學(xué)生的相關(guān)數(shù)據(jù)進行采集之后,則會面臨技術(shù)問題。這一問題就是如何對所獲取的數(shù)據(jù)進行分析。增值評價中分析數(shù)據(jù)的主要工具為增值模型,其是在統(tǒng)計分析技術(shù)基礎(chǔ)上設(shè)計的。教育中使用的增值模型與基礎(chǔ)教育階段使用的增值模型在許多方面有所不同,這是因為學(xué)生的發(fā)展情況與數(shù)據(jù)的可用性不同?;A(chǔ)教育階段所使用的絕大多數(shù)增值模型都是基于多年來對同一學(xué)生和同一科目相關(guān)的縱向數(shù)據(jù)開發(fā)的。這種帶有重復(fù)測量設(shè)計的縱向方法在高等教育中很少見,目前在高等教育增值評價計算中主要采用橫截面設(shè)計,即接受測試的大一新生和大四畢業(yè)生并非同一組學(xué)生。以下是高等教育中使用的四種不同的增值模型,四種模型對增值分數(shù)的詳細計算各不相同,但它們均為橫截面設(shè)計[27]。
如上所述,所謂“增值”是指大學(xué)教育對學(xué)生學(xué)業(yè)成就所帶來的積極影響。從實證研究角度來講,“增值”主要體現(xiàn)為橫向研究中不同年級學(xué)生群體間的差異,殘差模型則是通過學(xué)生學(xué)習(xí)成果的平均變化值與方差來表示增值的幅度大小及其變異程度[28]。
普通最小二乘(OLS)回歸方法首次用于2004~2005年的美國大學(xué)生學(xué)習(xí)評估(CLA)中。
OLS線性回歸模型是將大一學(xué)生和大四學(xué)生的平均學(xué)業(yè)增長與具有類似入學(xué)學(xué)習(xí)能力的學(xué)生群體作比較,即是否接近或高于“預(yù)期”考試分數(shù)或總體平均測試。
為了衡量“預(yù)期”考試成績,該模型將大一和大四學(xué)生當(dāng)前的平均考試成績(在美國一般采用CLA標準化測試成績)分別對他們的平均入學(xué)能力成績(如SAT平均分)進行回歸。OLS線性回歸模型的典型公式為:
(1)
變式為:
(2)
該模型的優(yōu)點是依賴于OLS線性回歸模型和簡單的減法,易于實現(xiàn),結(jié)果也相當(dāng)直觀。此外,與縱向設(shè)計相比,采用橫斷面設(shè)計進行增值測量的成本更低,可行性更高[2 8,3 1,3 3]。
但是,該模型在使用中存在一些問題:第一,由于該方法的計算是在學(xué)校層面上,這樣會忽略學(xué)生層面的相關(guān)信息,可能會造成結(jié)果的不準確性。第二,該模型使用時是將不同類型的學(xué)校集中在一起進行增值分析,而忽略了學(xué)校本身的特征。不同學(xué)校對于學(xué)生的學(xué)業(yè)成就產(chǎn)生的影響也不盡相同,該模型未將學(xué)校特征作為影響因素納入分析中。
多元線性回歸法是分析一個因變量與多個自變量之間線性關(guān)系最常用的統(tǒng)計方法,也是估計觀測值與期望值之間殘差值的標準統(tǒng)計技術(shù)。與上述基于OLS線性回歸的模型一樣,該模型同樣根據(jù)殘差的差值計算各學(xué)校的增值分數(shù)。然而,該模型不同于OLS線性回歸模型,該模型采用了多層方法[33],采用二級HLM(層次線性模型)來計算大一學(xué)生成績和大四學(xué)生成績的殘差??紤]到學(xué)生是嵌套在學(xué)校內(nèi)的,學(xué)生的成績會受到不同學(xué)校特點的影響,因此增值模型需要反映分層的數(shù)據(jù)結(jié)構(gòu),并在評估每個學(xué)校對學(xué)生學(xué)術(shù)成就的貢獻時考慮學(xué)校特征的影響。
HLM模型分兩級:第一級的分析單元是學(xué)生,每個學(xué)生的考試成績都是以一組個體特征的函數(shù)來表示的。第二級的分析單元是學(xué)校,每個學(xué)校的1級回歸系數(shù)被認為是因變量,假設(shè)這些因變量取決于不同的學(xué)校特征[34]。
該模型的簡單版本如下。
第一級(學(xué)生):
(3)
第二級(學(xué)校):
β0j=γ00+γ0sWsj+u0j,
(4)
β1j=γ10,
(5)
其中,γij表示學(xué)生i在學(xué)校j中的考試成績;SATij表示學(xué)生i在學(xué)校j中的入學(xué)成績;SATj表示j學(xué)校SAT成績的平均分;β0j表示學(xué)校j目前的平均成績(第一級的截距);β1j學(xué)生入學(xué)學(xué)業(yè)能力得分的第一級回歸斜率;εij表示假設(shè)殘差是正態(tài)分布且獨立于第一級協(xié)變量;Wsj表示學(xué)校j的制度特征;γ00表示第二級截距;γ0s表示學(xué)校特征的二級回歸斜率;u0j表示假設(shè)殘差是正態(tài)分布且獨立于二級協(xié)變量??倸埐钣蓛刹糠謽?gòu)成:即總殘差=εij+u0j。該模型采用多層模型來反映高等教育中嵌套的數(shù)據(jù)結(jié)構(gòu),從而更精確地測量學(xué)校效應(yīng)[30]。
該模型彌補了基于OLS線性回歸的差值模型的不足,將學(xué)生層面與學(xué)校層面同時納入分析,一方面HLM考慮到群體水平的差異,可以更好地估計個體效應(yīng)。另一方面,其充分考慮學(xué)校因素對于學(xué)生成績的影響,可以獲得更加準確的增值成績。
上述兩個增值模型,都是通過計算新生和大四學(xué)生成績殘差的差值來衡量學(xué)校的增值分數(shù),即通過“觀察到的”平均測試分數(shù)減去“預(yù)期”測試分數(shù)得到的。換句話說,這兩個模型關(guān)注的是各學(xué)校入學(xué)新生和大四學(xué)生的學(xué)業(yè)增長量,并將學(xué)校的學(xué)業(yè)增長量與所有學(xué)校錄取的入學(xué)能力相似的學(xué)生的總體增長量進行比較。
剩余分析模型比較的是每所大學(xué)大四學(xué)生的平均考試成績(如CLA測試),而不是新生和大四學(xué)生之間的分數(shù)差。該模型通過控制入學(xué)學(xué)生的學(xué)術(shù)能力(如大四學(xué)生的入學(xué)能力、大四學(xué)生的SAT平均成績等),根據(jù)大四學(xué)生的平均考試成績超出或低于預(yù)期成績的程度來測量增值分數(shù)[31]。例如,如果某學(xué)校的大四學(xué)生在成績測試中比其他學(xué)校有類似學(xué)術(shù)能力的大四學(xué)生成績更好,那么就可以說該校學(xué)生的學(xué)術(shù)能力增長超過預(yù)期,該校教育增值程度更高。
為了探究制度對學(xué)生學(xué)術(shù)成就的影響,該方法結(jié)合了兩個層次的分析。在第一級,分析單元是學(xué)生,大四學(xué)生當(dāng)前的考試成績是關(guān)于學(xué)生入學(xué)學(xué)術(shù)能力分數(shù)(如SAT分數(shù))的函數(shù)。在第二級,分析單元是機構(gòu),每個學(xué)校的第一級回歸系數(shù)是因變量。
第一級(學(xué)生):
(6)
第二級(學(xué)校):
(7)
β1j=γ10,
(8)
該模型提高了分析學(xué)校特征對于學(xué)生學(xué)業(yè)成就影響的可靠性與準確性,但使用該模型時需要較大的樣本量,若樣本量不足,測量出的增值結(jié)果會產(chǎn)生偏差[35]。
以上三個模型在使用時都需要對學(xué)生進行標準化測試來控制學(xué)生的初始學(xué)業(yè)成就水平,這就要求標準化測試具有普遍性以及全面又合適的考量指標,否則模型將無法使用。此外,若要大范圍開展增值評價,則需要對標準化測試進行統(tǒng)一設(shè)計與認定,標準化測試的內(nèi)容與考核方式需有嚴格的標準與規(guī)定,確??荚嚨臏蚀_性與公平性,避免對增值分析產(chǎn)生影響。不同的學(xué)校應(yīng)采用相同的標準化測試對學(xué)生進行考核,這樣對學(xué)校進行評估時才具有可比性。
該模型旨在對學(xué)生多方面成績進行聯(lián)合增值分析,并探究它們之間的內(nèi)在相關(guān)性。馬丁等人使用哥倫比亞大學(xué)數(shù)據(jù)庫,對多維增值模型進行了探究[36]。其中學(xué)生成績包含以下幾個方面:定量推理、批判性閱讀、英語語言、公民能力和書面交流。該模型的開發(fā)是基于矩量法的。所收集的數(shù)據(jù)包括兩類:一類是學(xué)生入學(xué)時參加的入學(xué)考試成績;另一類是大學(xué)畢業(yè)時參加的國家考試成績。每一門考試都包含幾個方面(例如,定量推理、批判性閱讀、英語等),將它們稱之為模塊。
該模型的一個基本結(jié)構(gòu)公式為:
假設(shè)用Ymj=(Y1mj,Y2mj,…,Ynjmj)T表示j學(xué)校中m模塊最終成績的nj個向量,則對于每所學(xué)校來講,多維模型表示為:
E(Ymj|Zmj,γmj)=Zmjβm+γmjιnj,
(9)
其中,Ymj表示學(xué)生j在模塊m中的考試成績;用Zmj表示大小為K的列向量,它包含了入學(xué)考試的分數(shù)和所有其他協(xié)變量,包括可能的截距;γmj表示隨機變量,用來解釋M測試分數(shù)中存在的異質(zhì)性,它不能用觀察到的學(xué)生和大學(xué)的特征來解釋;lnj=(1,1,…,1)T,表示1的n維列向量。
該模型相比于其他模型的優(yōu)點在于:之前的增值模型只對一維分數(shù)進行計算,但不同的學(xué)校在培養(yǎng)學(xué)生時,會根據(jù)他們對理論訓(xùn)練和實踐訓(xùn)練的重視程度而有所不同。因此,為了對評估學(xué)校的增值指標做出公正的判斷,該模型可以基于所有可衡量技能的分數(shù)進行增值測量,使得評估更加細化、更加全面公平。
在使用增值模型對學(xué)生的學(xué)業(yè)成績增值進行評價時,往往有很多無法排除的干擾因素可能會造成結(jié)果的不準確。因此,如何盡可能控制這些因素的干擾成為目前需要解決的問題。以下是幾種可能的干擾因素。
(1) 學(xué)生的動機:當(dāng)考試結(jié)果對學(xué)生的學(xué)術(shù)地位或畢業(yè)沒有什么影響時,學(xué)生缺乏在考試中表現(xiàn)良好的動機,可能會對考試分數(shù)的有效性和考試結(jié)果解釋的準確性產(chǎn)生一定影響[3 7-3 8]。如果一所學(xué)校中學(xué)生的動機普遍較低,那該校在學(xué)生學(xué)業(yè)成果增值性評估中產(chǎn)生的增值分數(shù)就更低[3 9-4 1]。為了避免這樣的問題,學(xué)校必須制定適當(dāng)?shù)臋C制,利用各種激勵手段鼓勵學(xué)生,提高參與率,讓學(xué)生以積極的態(tài)度對待考試[42]。
(2) 學(xué)生的流動性:高等教育的學(xué)生往往會改變課程,如休假甚至中途輟學(xué)等,這導(dǎo)致很難跟蹤學(xué)生數(shù)年。不同學(xué)校的學(xué)生流動率各不相同。當(dāng)一所學(xué)校的學(xué)生流動性大于其他學(xué)校時,增值模型所產(chǎn)生的學(xué)校效應(yīng)可能存在偏差。例如,一些學(xué)生可能在考試之前離開學(xué)校,或者在學(xué)校的時間不足以納入分析,那么學(xué)校對這類學(xué)生學(xué)業(yè)成績的增值效應(yīng)無法體現(xiàn)出來。因此,有必要考察增值模型中學(xué)生流動率如何影響學(xué)校對學(xué)生成績影響的測量,并尋找合適的方式來反映模型中各學(xué)校的學(xué)生流動率水平[43]。
(3) 增值分數(shù)的波動:在增值模型中最重要的問題之一是學(xué)校效應(yīng)的穩(wěn)定性[30]。當(dāng)然,學(xué)校對學(xué)生成績的影響每年都會有所不同,但如果學(xué)校效應(yīng)發(fā)生了根本性變化則會導(dǎo)致一些問題。如果學(xué)校效應(yīng)每年波動很大,那么學(xué)校對學(xué)生成績的影響程度就很難具備說服力。因此,在選擇增值模式后,應(yīng)檢查每個學(xué)校每年的增值分數(shù)之間的一致性。如果增值分數(shù)在各年之間發(fā)生了根本性變化,則應(yīng)考慮哪些因素造成了這些變化,并將這些因素納入到增值模型中。此外,樣本量會影響增值模型的準確性,要保證一定的樣本量才可以得出較為準確的數(shù)據(jù)[44]。
《深化新時代教育評價改革總體方案》明確提出了探索增值評價。然而我國教育領(lǐng)域引入增值評價的時間并不長,對高等教育領(lǐng)域增值評價的研究目前大多停留在理論層面,相關(guān)的實證研究較少,且所用的增值評價模型引自國外,本土對增值模型的開發(fā)處于起步階段。面對這些現(xiàn)狀,應(yīng)從以下方面著手。
(1) 以增值評價促教育公平。2020年國務(wù)院政府工作報告中提出要推動教育公平發(fā)展和質(zhì)量提升。教育公平包括起點公平、過程公平及結(jié)果公平。在推進教育公平的舉措中,除強調(diào)教育資源配置公平外,評價方式不同也會對教育的公平性產(chǎn)生影響。評價方式更關(guān)注過程公平與結(jié)果公平,關(guān)注教育本身所帶給學(xué)生的收獲和影響。以往教育評價方式與指標側(cè)重于學(xué)校辦學(xué)條件、教師教學(xué)能力、學(xué)生考試成績和升學(xué)率,而忽略了學(xué)生個體的獲得與進步程度,造成教育評價的不公平。增值評價提供了一種新的教育評價理念,以教學(xué)效果作為衡量學(xué)校教育效率以及教師教學(xué)能力的指標,這對于現(xiàn)有評價中的“弱勢學(xué)校”更加公平。教育的本質(zhì)是促進學(xué)生發(fā)展,增值評價以學(xué)生的學(xué)業(yè)成績進步程度為指標,能使學(xué)校更加關(guān)注學(xué)生發(fā)展,從而提高教育質(zhì)量,更好地促進教育公平。
(2) 構(gòu)建完善的增值評價體系。首先,評價理念落實到實踐需要有完善的體系支撐。增值評價可以從影響學(xué)生學(xué)業(yè)成就的諸多因素中剝離出學(xué)校效應(yīng)的影響,得到學(xué)校對學(xué)生影響的“凈效應(yīng)”,因此指標的合理性至關(guān)重要。評價前需要對影響學(xué)生學(xué)業(yè)成就的因素進行全面分析,選擇出合理的指標。其次,增值評價對數(shù)據(jù)的依賴性強,需要對樣本數(shù)據(jù)進行縱向長時間追蹤,這就要求有強大的數(shù)據(jù)采集工具支撐,開發(fā)增值評價適用的教育大數(shù)據(jù)中心。此外,增值評價對于數(shù)據(jù)的處理分析大多通過統(tǒng)計分析模型來實現(xiàn),要開發(fā)更加準確的增值評價模型,并且在實施時選擇最適合學(xué)校特點的模型,以促進評價結(jié)果的準確性與公平性。
(3) 調(diào)動多元協(xié)同評價。目前增值評價在我國還沒有大規(guī)模推廣,應(yīng)調(diào)動各方積極性、整合多方力量開展和參與增值評價。高??梢詮膬蓚€方面來入手:一方面,學(xué)校內(nèi)部應(yīng)充分調(diào)動學(xué)生參與評價的積極性,學(xué)生的積極性會直接影響數(shù)據(jù)的準確度,并且在選擇指標時應(yīng)充分聽取學(xué)生意見,確保評價指標的全面性。另一方面,學(xué)校應(yīng)聯(lián)合校外技術(shù)部門以及教育相關(guān)部門共同實施評價,在獲得技術(shù)支持之外,相關(guān)教育部門應(yīng)對評價過程起到一定監(jiān)督作用,以確保評價過程的公正進行。
(4) 科學(xué)把握評價結(jié)果,合理利用評價結(jié)果。評價的最終目的是給出反饋,引導(dǎo)發(fā)展。評價結(jié)果需要具備一定的科學(xué)性與準確性。應(yīng)當(dāng)建立問責(zé)監(jiān)督機構(gòu),對評價結(jié)果進行監(jiān)督與反饋,從而規(guī)范學(xué)校行為,引導(dǎo)學(xué)生發(fā)展。對于高校來講,教師應(yīng)對評價結(jié)果進行充分分析,發(fā)現(xiàn)問題與優(yōu)點,從而改進教學(xué)過程,及時引導(dǎo)學(xué)生。學(xué)校可以鼓勵學(xué)生根據(jù)評價結(jié)果撰寫分析報告,使學(xué)生對自身學(xué)業(yè)成績有更加清晰的了解,并且培養(yǎng)學(xué)生的自我反思能力。學(xué)生的反饋結(jié)果也可作為調(diào)整評價指標的重要依據(jù)。對于相關(guān)教育部門來講,應(yīng)充分對評價結(jié)果進行剖析,將評價結(jié)果作為制定相關(guān)教育政策的來源與依據(jù),促進教育公平公正發(fā)展。