周世科
美國俄亥俄州學業(yè)成就評價指標體系述評
周世科
美國俄亥俄州從監(jiān)測項目的達標率、學業(yè)水平綜合指數、適當的年進步率和增值評價四大模塊對學區(qū)內中小學生學業(yè)成就進行評價。其評價指標全面,不僅關注核心學科課程的評價,還關注學生的出勤率、畢業(yè)率以及學生在所有學科上的表現(xiàn);評價模式靈活,通過對四大模塊的不同組合,形成具有一定冗余度的評價標準;注重對學校進行以自身為參照的發(fā)展性評價,關注每一位學生的成長。對比俄亥俄州的經驗,我國基礎教育質量監(jiān)測還有很多需要改進的地方,比如要進一步加大政府對質量監(jiān)測的政策支持、財政投入,評價指標要更加多元、全面,要弱化學校、地區(qū)之間的橫向比較,評價標準需更具彈性化,等等。
質量監(jiān)測;學業(yè)成就;增值評價
《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》指出,“改革質量評價”、“建立國家教育質量基本標準和監(jiān)測制度”是今后教育的主要任務。[1]江蘇作為一個教育強省,早在2006年便參加了教育部基礎教育課程教材發(fā)展中心組織的“建立中小學生學業(yè)質量分析、反饋與指導系統(tǒng)”項目,并在隨后的2008年、2010年和2012年連續(xù)四次參加該項目,目的就是希望超越個人經驗,結合數據進行有針對性的研究與指導,為教學診斷提供依據,從而改進教學過程,提高學生學業(yè)質量。
在四次測試過程中,我們發(fā)現(xiàn)了一些問題,取得了一定的成績,但由于目前的測試僅是對學生學業(yè)成績的簡單描述,尚未形成完整的學生學業(yè)成就評價指標體系,因此,在測試之后,不能對區(qū)域的教育質量進行明確的判斷,在這種情況下,各地方各學校雖然得到了測試分析的結果,但改進教育教學的動力仍然不足??梢?,目前我們亟需建立一套完整的學業(yè)成就評價指標體系來加強對區(qū)域學生學業(yè)質量的監(jiān)控,從而對區(qū)域教育質量能有明確的判斷,為區(qū)域改進教育教學提供動力和方向。
在國內,上海市于2011年建立了“中小學生學業(yè)質量綠色指標”評價體系,而在國外,尤其是美國,學生學業(yè)成就評價已經有幾十年的歷史,無論是國家層面還是州層面都形成了一套完整的評價指標體系。美國俄亥俄州從1987年便以法律的形式規(guī)定特定年級的所有學生都必須參加特定學科的州范圍學生學業(yè)考試。經過20多年的發(fā)展,俄亥俄州學業(yè)成就評價指標體系得到不斷的完善。該評價體系不僅關注核心學科課程的評價,還關注學校學生的出勤率、畢業(yè)率以及學生在所有學科上的表現(xiàn)。評價模式靈活,評價標準具有一定的冗余度。它注重對學校進行以自身為參照的發(fā)展性評價,關注每一位學生的成長。俄亥俄州學生學業(yè)成就評價體系的全面性、靈活性、發(fā)展性等特點恰恰是我國學生學業(yè)成就評價體系所欠缺的,值得借鑒。
(一)四大模塊
一方面,為了配合聯(lián)邦政府的教育改革行動,滿足問責的要求;另一方面,為了檢測州范圍內的學區(qū)、學校和學生是否實現(xiàn)了設定的內容標準,從而改善學生的學習,美國俄亥俄州以法律的形式,規(guī)定了州層面的學生學業(yè)成就考試。[2]該學業(yè)成就評價指標的形式,規(guī)定了州層面的學生學業(yè)成就考試。該學業(yè)成就評價指標體系由四個模塊組成,分別是“州監(jiān)測項目的達標率”(State Indicators)、“學業(yè)表現(xiàn)綜合指數”(Performance Index)、“適當的年進步率”(Adequate Yearly Progress,AYP)和“增值評價”(Value-AddedMeasure),將四個模塊的結果按照一定的規(guī)則組合,便可以給學區(qū)評定學業(yè)成就等級(詳見下圖)。學業(yè)成就等級共分成6等,由高到低分別是“卓越”(Excellent with Distinction)、“優(yōu)秀”(Excellent)、“優(yōu)良”(Effective)、“繼續(xù)努力”(Continuous Improvement)、“觀察”(Academic Watch)和“危險”(Academic E-mergency)。下面以2011~2012學年學區(qū)A的表現(xiàn)為例,分別就學業(yè)成就評價指標體系的四個模塊進行解讀。
2011~2012學年A學區(qū)學生學業(yè)成就表現(xiàn)圖
1.州監(jiān)測項目的達標率
本模塊監(jiān)測項目共26項,分別為3~8年級的閱讀和數學(12項)、5年級和8年級的科學(2項)、10年級和11年級的畢業(yè)考試(考試的內容是閱讀、數學、寫作、科學和社會,10項),本學年的出勤率(1項)以及上學年的畢業(yè)率(1項)。如果某項目學生“熟練”水平以上的比例達到了州設定值(75%),表示該項目達標,反之就不達標,其中,學生的能力水平被劃分成5等,由低到高分別是“受限制”(Limited)、“基本”(Basic)、“熟練”(Proficient)、“優(yōu)良”(Accelerated)和“優(yōu)秀”(Advanced)。[3]通過計算達標項目的總數,我們便可以計算出達標率。從上圖可以看出,學區(qū)A共有22個項目達標,達標率為84.6%。
學區(qū)要取得高達標率,必須要求每個年級的每一門考試學科都要有好的表現(xiàn);單個年級或某門學科成績優(yōu)異并不能保證該學區(qū)取得高達標率,相反,如果某門學科成績未達標,則會直接降低學區(qū)的達標率。因此,對項目達標率進行檢測,可以避免教育行政部門主抓畢業(yè)年級或核心課程、忽視非畢業(yè)年級和輔助課程,從而促使他們對所在學區(qū)教學質量進行全面監(jiān)控,實現(xiàn)教育的均衡發(fā)展。
2.學業(yè)表現(xiàn)綜合指數
學業(yè)表現(xiàn)綜合指數可以反映學區(qū)所有登記在冊的3~8年級和10年級學生全年學業(yè)成就的綜合表現(xiàn),即,將3~8年級和10年級測試學科的表現(xiàn)匯總,計算出一個分值,在此稱之為“學業(yè)表現(xiàn)綜合指數”。在計算學業(yè)表現(xiàn)綜合指數時,不分年級和學科,但對不同能力水平的學生賦予不同的權重。以能力水平“熟練”為基準,設定權重為1,能力水平為“受限制”、“基本”、“優(yōu)良”和“優(yōu)秀”的權重則分別為0.3、0.6、1.1和1.2。[4]將每種能力水平的比例與其相對應的權重相乘,計算出該能力水平的得分,最后將5個能力水平的得分匯總,便是學區(qū)的學生學業(yè)表現(xiàn)綜合指數。從上圖可以看出,學區(qū)A的學生學業(yè)表現(xiàn)綜合指數為97.9。
“學生學業(yè)表現(xiàn)綜合指數”是對“州監(jiān)測項目的達標率”的進一步補充,因為要想在本模塊取得高分,除了要求學區(qū)在“受限制”和“基本”能力水平上有較低的比例,還應該在“優(yōu)良”,特別是“優(yōu)秀”能力水平上有高的比例。通過學業(yè)表現(xiàn)綜合指數,教育行政部門能明確判斷本區(qū)域的學業(yè)質量,同時,通過對學業(yè)表現(xiàn)綜合指數進行跨年度比較,可以直接看到本區(qū)域學業(yè)質量的發(fā)展趨勢,為教育行政決策提供依據。
3.適當的年進步率
2001年,小布什就任總統(tǒng)后,將教育改革作為任內的主要議題之一,推出“美國中小學教育法案”,即《不讓一個孩子掉隊》(No Child Left Behind)法案,得到了國會兩黨議員的高度認可。該法案規(guī)定各州在數學和閱讀科目上制定并實施有挑戰(zhàn)性的學術標準,保證所有的學生在12年內達到“熟練”水平,即到2013年各州學生在數學和閱讀科目上“熟練”水平的比例要達到100%。盡管這是一個幾乎不可能完成的任務,但俄亥俄州教育部門還是根據聯(lián)邦政府的要求,為各個年級制訂了近4年的AYP目標(詳見表1)。AYP的檢測分成考試指標和非考試指標兩類,其中,考試指標主要包括學業(yè)成就考試(3~8年級)和畢業(yè)考試(10年級)語文和數學學科學生“熟練”水平以上的比例,以及參加測試學生的比例是否滿足州設定的標準。為了配合聯(lián)邦政府的《不讓一個孩子掉隊》法案,除了對學區(qū)學生總群體是否滿足AYP進行考察,還必須對其他9類學生群體①的AYP進行檢測。非考試項目包括畢業(yè)率和出勤率的檢測,檢測的群體只針對學生總群體,不分類檢測。
表1 美國俄亥俄州近四年的AYP目標(以三年級閱讀為例)
AYP的檢測非常嚴格,針對考試指標和非考試指標,只要任何一個群體有一項不滿足,那么該學區(qū)AYP檢測的結果便為“不達標”。一旦AYP未達標,則直接影響學區(qū)最后的等級評定。如果學區(qū)連續(xù)多年AYP未達標,將會受到來自聯(lián)邦政府和州政府的問責。聯(lián)邦政府會將連續(xù)多年未達標的學區(qū)記錄下來,然后要求學區(qū)制訂提高目標,而州政府的做法則是直接降低學區(qū)的評定等級。[5]從“2011~2012學年A學區(qū)學生學業(yè)成就表現(xiàn)圖”可以看出,學區(qū)A的AYP結果為“不達標”。
4.增值評價
增值評價以學校教育活動對學生預期成績的增值為教育評價標準,用來判斷教師、學校對學生學業(yè)成長的積極影響,是一種發(fā)展性的評價。[6]以增值指標作為評價學區(qū)表現(xiàn)的方法在先進的國家和地區(qū)已經實施了多年,其最大優(yōu)點是能考慮學生能力及學區(qū)特質等多種因素,反映學區(qū)對提升學生學業(yè)表現(xiàn)的相對效能。增值的測量是美國俄亥俄州評價學區(qū)學生學業(yè)成就的重要指標之一。[7]
俄亥俄州的增值評價目前只針對學業(yè)成就考試。由于全州的3~8年級學生每年都必須參加學業(yè)成就考試,因此給增值評價提供了基礎。每個學區(qū)與自己上一年的學業(yè)成就表現(xiàn)對比,經過統(tǒng)計分析得到本學區(qū)在這一時期內學業(yè)成就的變化情況,并與預期結果進行比較,得到本學區(qū)在這一時期內的“增值”,高于預期的結果稱之為正增值,達到預期的結果為零增值,沒有達到預期的結果則為負增值。[8]從“2011~2012學年A學區(qū)學生學業(yè)成就表現(xiàn)圖”中可以看出,學區(qū)A的增值評價結果為“負增值”。
(二)等級評定
將以上四個模塊的結果按照一定的規(guī)則組合,便可以給學區(qū)評定學業(yè)成就等級。學區(qū)學業(yè)成就等級的評定分成兩步,第一步是初評,第二步是將初評的結果與增值評價結果組合,得到最終等級。初評的組合模式如表2所示。
表2 初評的組合模式[9]
第二步組合的原則有三點:(1)如果你所在學區(qū)連續(xù)兩年或兩年以上的增值評價結果為正增值,最終等級便會在初評的結果上上升一個等級,“優(yōu)秀”的上一等級是“卓越”;(2)如果你所在學區(qū)連續(xù)兩年或兩年以上增值評價結果為負增值,學區(qū)的最終等級便會在初評的結果上下降一個等級,“危險”的下一等級仍然是“危險”;(3)其他情況,增值評價將不起作用,初評結果便是最終結果。
仍以學區(qū)A為例,州監(jiān)測項目的達標率為84.6%,學業(yè)表現(xiàn)綜合指數為97.9,AYP為“不達標”,根據表2的組合模式,初評結果為“繼續(xù)努力”。由于學區(qū)A本學年的增值評價結果為負增值,上一年的增值評價結果為零增值,因此,增值評價不起作用,初評結果“繼續(xù)努力”便是學區(qū)A最終等級評定結果。通過等級評定結果,學區(qū)領導以及教師對本學區(qū)的學業(yè)質量能有一個明確的判斷,從而為改進教育教學提供動力和方向,同樣,教育行政部門可以依據等級評定結果對學區(qū)進行獎勵或問責。
我國基礎教育質量評價起步較晚,2007年才成立了國家層面的基礎教育質量監(jiān)測機構,經過7年的發(fā)展,全國已有15個省份已經成立或明確了省級監(jiān)測機構,開始了省域基礎教育質量監(jiān)測的探索,市級、區(qū)縣級層面的基礎教育質量監(jiān)測機構也在全國各地不斷地建立。盡管我國與美國俄亥俄州在教育制度和教育實踐上存在著明顯的差異,但俄亥俄州的教育評估政策是為了提升學生學習成就和提高教育質量而實施的,其出發(fā)點與我國的教育總體目標和教育改革訴求相符。因此,我國基礎教育質量監(jiān)測工作可以從俄亥俄州學業(yè)成就評價指標體系中得到一些啟示。
1.建立健全基礎教育質量監(jiān)測保障機制
美國俄亥俄州學業(yè)成就考試能每年定期開展,離不開來自聯(lián)邦和州政府的官方支持。為了使考試能夠常態(tài)化進行,1987年,俄亥俄州政府以法律的形式規(guī)定特定年級的所有學生都必須參加特定學科的州范圍學生學業(yè)考試,并且聯(lián)邦政府和州政府每年下?lián)艽箢~的專項經費保障監(jiān)測的正常實施。因此,要將我國各級層面的基礎教育質量監(jiān)測工作更好地開展下去,各級行政部門應該提供必要的政策和財政的保障。政策的強制性可以使質量監(jiān)測工作有據可依而不流于空談,使評價活動程序化、常態(tài)化。而大規(guī)模監(jiān)測所需的資源投入也只有依靠各級財政的支持才可能得以實現(xiàn)。[10]以江蘇省為例,為做好全省范圍內的質量監(jiān)測工作,2008年省教育廳在省教科院下成立了基礎教育質量監(jiān)測中心,省財政廳把基礎教育質量監(jiān)測工作列為專項,每年撥付定額的專項經費保障質量監(jiān)測工作的正常開展。
2.引入中介機構的專業(yè)支持
基礎教育質量監(jiān)測是一項具有高度專業(yè)性的工作。通過閱讀美國俄亥俄州的學生學業(yè)成就報告,很多先進的測量技術都已應用其中,如題庫的建設、試卷的設計、組卷、測驗等值、增值評價,等等,這些測量技術雖在我國的報告中已有實踐,但尚不成熟,因此我們迫切需要專業(yè)機構給予專業(yè)的支持。在當前強調政府機構精簡的背景下,這樣一種機構不應成為政府機構的一部分,而應以中介機構的形式存在。[11]由于以往我國政府管理過于強勢,公共領域中的專業(yè)教育中介機構先天不足,“發(fā)育”也并不成熟,集中表現(xiàn)在專業(yè)性不強的問題上,并不能滿足高投入、高技術的要求,這一點也非常突出地反映在江蘇省的基礎教育質量監(jiān)測領域。因此,教育行政部門應投入精力與經費培育并扶持國內專業(yè)化的評價機構或與歐美國家具有認證資質的中介機構簽訂合同,讓他們承擔教育質量監(jiān)測的技術性工作,包括實施監(jiān)測、提供分析報告、為政府提供評估服務,等等。以江蘇省為例,由于專業(yè)人員和技術的缺乏,2006~2012年,基礎教育質量監(jiān)測工作主要采取外包的形式,通過引入專業(yè)機構來完成。但是,在引入專業(yè)機構的過程中,江蘇省非常注重自身專業(yè)力量的發(fā)展,通過高頻次邀請專家做講座、派遣專業(yè)技術和命題人員實地學習、直接參與專業(yè)機構各子項目研究等形式,在監(jiān)測工具的研制、教育測量與統(tǒng)計、計算機軟件編程等方面都積累了大量的經驗。2014年,江蘇省將獨立開展覆蓋全省所有區(qū)縣的基礎教育質量監(jiān)測工作。
3.構建多元的評價指標體系
縱觀我國全國范圍內的各級教育質量監(jiān)測,評價指標主要表現(xiàn)在兩個方面:(1)基礎性指標:描述學生知識與技能的基本狀況;(2)背景性指標:描述學生日常生活和學習行為的基本情況。而對于美國俄亥俄州學業(yè)成就評價指標體系中的“發(fā)展性指標”(增值評價模塊)和“趨向性指標”(AYP模塊),我國卻很少涉獵。其中,增值評價能控制學生原有學業(yè)水平、家庭背景和學校投入等影響因素,評價教學進步,對教師工作績效和學校、學區(qū)效能的凈貢獻評價得更客觀、更科學,更適用于績效激勵;趨向性指標能從數據收集的動態(tài)性中展示學生和學校的發(fā)展變化趨勢,為區(qū)域、學校確定預期目標與預期范圍,讓教育和學校的發(fā)展“有的放矢”。[12]因此,在我國的質量監(jiān)測工作不斷發(fā)展和完善的過程中,我們可以考慮將發(fā)展性指標和趨向性指標加入到評價指標體系中,這樣一來,就可以關注到每一個孩子的個性發(fā)展和需要,為學生提供多樣化的評價手段和評價機會。
4.實施問責與干預
問責制度是對基礎教育質量監(jiān)測、結果報告的后續(xù)活動的規(guī)范,其后續(xù)的干預是保障監(jiān)測體系目標實現(xiàn)的不可或缺的一個組成部分。美國俄亥俄州教育行政部門每年定期將學生學業(yè)成就的評定結果向社會公布,并依據評定結果對學區(qū)進行獎勵或問責。對于連續(xù)多年被問責的學區(qū),教育行政部門會將學區(qū)領導全部更換。當前,由于評價指標體系的不完善,各級層面開展的質量監(jiān)測的結果尚未對社會公布,后續(xù)的問責亦嚴重缺失。以江蘇省為例,由于問責制度的缺失,省級監(jiān)測部門監(jiān)控的力度大大削弱,直接導致的結果就是:各市、縣(市、區(qū))對報告內容不重視,省級教育行政部門要求的整改也未能做到位,質量監(jiān)測的結果未能很好地予以利用。因此,各級質量監(jiān)測部門應嘗試以俄亥俄州學業(yè)成就評價指標體系為藍本,研究和制定適合自身的學業(yè)成就評價指標體系,定期向社會公開測試結果,實行問責。實行問責不僅僅是對各級政府責任的追究,其更重要的目的在于督促各級政府對本轄區(qū)內教育質量負起責任,促進教育的發(fā)展和質量的提高。
注釋:
① 9類 群 體 分 別 是 貧 窮 學 生(Economically Disadvantaged Students)、亞裔或太平洋島民學生(Asian/ Pacific Islander Students)、非西班牙語系的黑人學生(Black,non-HispanicStudents)、美國印第安或阿拉斯加本地學生(American Indian/Alaska Native Students)、西班牙語系學生(Hispanic Students)、多元種族學生(Multi-Racial Students)、非西班牙語系的白人學生(White,non-Hispanic Students)、殘疾人學生(StudentwithDisabilities)、英語受限學生(StudentswithLimitedEnglishProficient)。
[1][12]吳志華,王紅艷,王曉丹.大規(guī)模教育評估的興起、問題與發(fā)展——加拿大教育評估的啟示[J].外國中小學教育,2011(8):1~5.
[2][11]崔允漷,王少非,夏雪梅.基于標準的學生學業(yè)成就評價[M].上海:華東師范大學出版社,2008.51~65.
[3][4][5][9]Ohio Department of Education,Center for Curriculum.Assessment and Instruction[EB/OL].http://www. ode.state.oh.us,2013-12-23.
[6]邊玉芳,林志紅.增值評價:一種綠色升學率理念下的學校評價模式[J].北京師范大學學報,2007(6):11~18.
[7]羅冠中,蕭偉樂.香港中學增值指標的發(fā)展與應用[J].考試研究,2010(3):61~75.
[8]許志勇.運用增值評價,促進教育均衡發(fā)展——以某省教育招生考試院的實踐為例[J].教育測量與評價,2011(4):8~12.
[10]劉學智.區(qū)域性義務教育學業(yè)質量監(jiān)測制度建立過程中應注意的若干理論問題[J].考試研究,2010(4):21~28.
責任編輯/林 潔
G40-058.1
A
1674-1536(2014)09-0013-05
周世科/江蘇省基礎教育質量監(jiān)測中心辦公室助理研究員,主要研究方向為教育測量與評價的研究。(南京 210013)