李 丹 孫婷婷 楊 濤 溫紅博 柯 李
(北京師范大學,北京 100875)
為落實《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》的要求,進一步全面推進區(qū)域素質教育實施,評估區(qū)域所在政府近年加大了教育經費的投入力度,對區(qū)域教育發(fā)展采取了一系列的改革與保障措施。區(qū)域所在教育部門為科學評價教育改革和保障措施的有效性,準確把握改革實施與預期目標的達成情況,切實了解中小學辦學質量與水平的變化,2013年啟動中小學辦學質量評估項目,連續(xù)3年對中小學辦學質量進行獨立第三方的追蹤評估。本研究借鑒國內外學業(yè)質量測評工具的研發(fā)經驗,結合區(qū)域測評目標與需求,設計了區(qū)域學業(yè)質量測評工具,以期為提高區(qū)域教育質量提供參考。
自20世紀60年代以來,一些國際組織和國家相繼啟動了對大規(guī)?;A教育質量的監(jiān)測探索。其中,最具影響和代表性、參與國家最多的是國際學生評估項目(Program for International Student As?sessment,PISA)、國際數(shù)學和科學成就趨勢研究(Trends in International Mathematics and Science Study,TIMSS),其他具有較大影響的國家監(jiān)測項目是美國國家教育進步評價(National Assessment of Educational Progress,NAEP)、泛加拿大計劃(Pan-Canadian Assessment Program,PCAP)、新西蘭國家教育監(jiān)測項目(National Education Monitoring Proj?ect,NEMP)、英國KS1~KS3國家課程評價、法國基礎教育質量測評體系、中國基礎教育質量監(jiān)測項目(Collaborative Innovation Center of Assessment toward Basic Education Quality,CICA-BEQ)、日本全國學力調查(National Assessment of Academic Ability)等。
隨著測評理論和技術的完善,國際大規(guī)模教育質量測評也在不斷發(fā)展,雖然不同國際組織和國家的測評理念、測評目標各不相同,但在學業(yè)測評工具的設計上呈現(xiàn)出一些共性和發(fā)展趨勢。
國際測評項目基于學生終身發(fā)展的需要,評估主要集中在數(shù)學、科學、閱讀3個核心領域,不同評估項目略有差異。如PISA從2000年開始,每次測試都涵蓋這3個領域,只是側重點不同:2009年以閱讀素養(yǎng)為重點測試領域[1],2012年以數(shù)學素養(yǎng)為重點測試領域,2015年則以科學素養(yǎng)為重點測試領域。TIMSS每次都以數(shù)學、科學作為重點測試領域[2]。國際教育成就評價協(xié)會(International Associa?tion for the Evaluation of Educational Achievement,IEA)2011年開展國際閱讀素養(yǎng)進步研究(Progress in International Reading Literacy Study,PIRLS)測評,以全面了解學生閱讀水平及發(fā)展趨勢。
各國為了對學生整體學業(yè)水平的發(fā)展狀況有比較全面的了解,均結合本國課程設置體系。雖測評領域各不相同,但大多數(shù)國家的測評領域均覆蓋學生學習的所有或若干個學科,基本都包含閱讀、數(shù)學和科學。如美國NAEP涵蓋了閱讀、數(shù)學、科學、寫作、美國歷史、公民、地理和藝術,其中閱讀和數(shù)學是各州必測的領域;法國國家測評包括科學、數(shù)學、口語和寫作、外語、社會態(tài)度、社會學習6個領域;新西蘭NEMP包括科學、視覺藝術、信息能力(圖像、表格、圖表與簡圖處理能力等)、語言(閱讀與口語)、語言(聽力、理解與寫作)、技術、音樂、數(shù)學、社會學習、健康與體質教育10個領域[3]。
教育質量的內涵是多方位、全過程、多角度的,其核心直接指向學生的學習結果,即學生所獲得的知識和認知能力,并認為能在學生的實際生活中體現(xiàn)這種學習結果才是基礎教育質量的關鍵。因此,基礎教育質量測評的核心目的是對學生在學校學習中發(fā)展的核心素養(yǎng)進行測評,以幫助解決“教育應培養(yǎng)什么樣的人”的問題[4]。
PISA以“素養(yǎng)”為測試核心,其中對數(shù)學素養(yǎng)的定義為個人在不同情境下用公式表述、使用和解釋的能力,包括數(shù)學推理能力和使用數(shù)學概念、過程、事實與工具來描述、解釋以及預測現(xiàn)象的能力;科學素養(yǎng)是指作為公民參與科學技術相關事務的能力,包括解決生活中與科學技術相關的問題以及具有科學探究的意識、進行科學反思等;閱讀素養(yǎng)是指學生具有為了實現(xiàn)個人的目標、發(fā)展個人的知識和潛能以及參與社會活動,對文本的理解、使用、反思和參與的能力[5]。
PISA以素養(yǎng)為核心的理念對各國基礎教育質量測評產生了重要影響。各國都試圖在教育領域建立核心素養(yǎng)結構,以指導本國的教育實踐。例如,根據(jù)經濟合作與發(fā)展組織(OECD)的經驗,核心素養(yǎng)被概括為人與工具、人與自己、人與社會3個方面。新西蘭構建的核心素養(yǎng)在人與工具方面是指運用語言、文字符號的能力,在人與自己方面是指交流能力、自主管理能力、思維能力,在人與社會方面是指參與和貢獻的能力,并據(jù)此教育目的開展NEMP國家基礎教育監(jiān)測[6]。
國際組織和國家在開展基礎教育質量測評時,學業(yè)測評大多包含內容維度和認知過程2個基本維度以及與學生學習相關背景的問卷調查,以全面了解學生的學業(yè)和發(fā)展水平。
PISA對素養(yǎng)的測評包含了情景、內容(或知識)、過程(或能力)3個基本維度。例如,2012年的數(shù)學測評框架為:數(shù)學內容考查了變換和關系、數(shù)與代數(shù)、空間與幾何、概率與統(tǒng)計4個方面;數(shù)學情景是指題目的情境材料,涉及職業(yè)、個人、公共、社會4個方面;數(shù)學過程是指學生作答該題目所需要運用的加工過程,涉及問題數(shù)學化、應用和解釋3個方面[7]。
TIMSS數(shù)學包含內容、認知過程2個維度,科學包含內容、認知和科學實踐方法3個維度。例如,2015年針對4年級的數(shù)學測評框架,數(shù)學內容包含數(shù)量、幾何圖形與測量、數(shù)據(jù)呈現(xiàn);認知過程主要考查學生的理解、應用和推理。針對8年級的測評框架,數(shù)學內容包含數(shù)、代數(shù)、幾何、數(shù)據(jù)與概率;認知過程也考查理解、應用和推理[8]。
學生學業(yè)成就測評試卷主要由客觀題和主觀建構題構成。客觀題是指題目答案不依賴評卷人員和考生的意志而客觀存在的,且具有唯一答案的測試形式,題型有選擇題、判斷題、連線題等形式[9]。主觀建構題是指考生必須組織文字、數(shù)字、圖形等材料回答問題,包括填空題、簡答題、作文題、數(shù)學計算與證明題、科學實驗題等形式[10]。
PISA以選擇題、封閉型試題、開放型試題為主,3種題型使用的比例相當。選擇題有標準答案,屬于客觀題;開放型試題采用雙位編碼評分標準對學生的可能回答進行水平劃分,與封閉型試題同屬主觀題。TIMSS試題主要為多重選擇題和主觀建構題。多重選擇題是從多個選項中選擇一個正確答案,主觀建構題則要求學生分析解釋、提供證據(jù)。NAEP的試題類型包括多項選擇題、問答題和新題型。
隨著信息技術的廣泛應用和測評技術的發(fā)展,大規(guī)模教育測評項目已由紙筆測試為主逐漸轉向計算機化測試。PISA在2009年首次采用計算機進行閱讀測試,經過2012年和2015年的不斷完善,已由以紙筆測試為主向以計算機化測試為主轉變。2015年參與計算機化測試國家的比例高達79.17%[11]。計算機化測試便于模擬真實情境,能夠開發(fā)更豐富的測試題型,同時能夠記錄和收集過程數(shù)據(jù),了解學生認知過程,完善評估結果。
TIMSS于2015年開始使用IEA Online Survey System軟件,為參與國提供在線調查以及管理學校、教師和家長問卷,不僅節(jié)約了印刷成本和時間,而且提高了問卷發(fā)放、數(shù)據(jù)錄入和整理的效率。從2019年起TIMSS將在正式測試中引入計算機化測試[12]。
NAEP在2009年引入人與計算機交互任務的科學測評新題型,2011年引入基于計算機的寫作測試??茖W測評要求學生在計算機創(chuàng)設的虛擬情境下,根據(jù)計算機的提示逐步完成包括信息搜索和分析、實驗探究、模擬實驗和概念圖4種類型的任務,通過記錄人與計算機交互過程的信息,達到良好的評估效果[13]。
隨著測評的開展,分析學生學業(yè)質量發(fā)展變化的趨勢成為大規(guī)模測評的重點。為此,國際大規(guī)模測評在測評工具設計和數(shù)據(jù)處理方法上進行了大量的探索。
為了滿足學業(yè)測評內容的覆蓋范圍,實現(xiàn)不同年度間測試結果的可比性,國際學業(yè)測評工具主要采用多題本設計和共同題設計。例如,TIMSS 2011年數(shù)學與科學有14個題本,共28個組塊,其中16個組塊的題目作為不同年度間錨題,在2015年的測試中繼續(xù)保留,與新命制的12個組塊,組成2015年的數(shù)學和科學共14個題本。PISA 2012共有13個題本,其中271道試題作為年度間的錨題,在2015年的測試中保留,與新命制的99道題目構成了2015年測試的50個題本,共計370道題[14]。
國際經驗表明,閱讀、數(shù)學、科學是基礎教育學業(yè)質量監(jiān)測的主要領域,這些領域的素養(yǎng)是學生未來發(fā)展的必備基礎。具體來說,閱讀素養(yǎng)涉及理解書面文章的含義,根據(jù)文章類型、目的與情景,恰當使用語言。良好的閱讀素養(yǎng)為學習其他課程奠定基礎,是吸收古今中外優(yōu)秀文化,提高思想文化修養(yǎng),促進自身精神成長的基石[15]。數(shù)學素養(yǎng)是指順利完成數(shù)學活動所具備的、直接影響其活動效率的素質。數(shù)學是人類文化的重要組成部分,數(shù)學素養(yǎng)是現(xiàn)代社會每一個公民應該具備的基本素養(yǎng),對培養(yǎng)人的思維能力和創(chuàng)新能力具有不可替代的作用[16]。
在我國義務教育階段,語文和數(shù)學是重要的學科,9年的課時數(shù)占全部課時數(shù)的33%~37%[17]。本研究選取我國北方某市下轄的市轄區(qū),該區(qū)地處山區(qū),區(qū)域所在教育部門以“加強基礎教育工作,以農村教育為重點推進義務教育均衡發(fā)展”為職責,對區(qū)域教育發(fā)展采取了一系列改革與保障措施,但相比城區(qū)仍較為薄弱。選擇從語文、數(shù)學入手,可以切實了解區(qū)域中小學辦學質量與水平及其變化的真實狀況。因此,學業(yè)測評選取了語文和數(shù)學2個領域。
借鑒國內外學業(yè)質量測評經驗,結合我國《義務教育語文課程標準(2011年版)》、《義務教育數(shù)學課程標準(2011年版)》、區(qū)域使用教材及教學現(xiàn)狀、遵循學科知識體系及特點、教育與心理測量學的要求以及區(qū)域測評的具體需要,確定測試框架包括內容、認知過程2個維度。其中,內容維度主要依據(jù)課程標準、教材分析,認知過程主要基于布魯姆的教育目標分類法,并加以修改。
語文測試分為語言要素和閱讀素養(yǎng)2部分。其中,語言要素主要包括學生的識字量和詞匯理解,閱讀素養(yǎng)分為文學性文本和信息性文本;認知過程包括獲取與檢索、整合與解釋、鑒賞與評價3個方面(見表1)。數(shù)學測試內容包括數(shù)與代數(shù)、空間與圖形、統(tǒng)計與概率3個部分,認知過程包括知道事實、應用規(guī)則、數(shù)學推理和非常規(guī)問題解決(見表2)。
測評試題主要依據(jù)測試框架和課程標準的要求編制,不僅考查學生對基本知識和技能的掌握程度,而且考查學生的認知能力。此外,試題基本以實際生活情境為背景。
以2015年監(jiān)測為例,四年級、五年級、七年級和八年級的數(shù)學測試每年級2個題本,語文測試每年級1個題本,涉及所有的內容維度和認知過程,試題分布如表3和表4所示。
表1 語文測試框架
表2 數(shù)學測試框架
表3 語文測試題目分布
表4 數(shù)學測試題目分布
學業(yè)測評題型包括客觀題和主觀題,客觀題具有客觀、高效、覆蓋面廣等優(yōu)點;主觀題便于考查學生的理解分析能力,了解學生作答思路和認知過程。從國內外教育質量測評的發(fā)展過程來看,客觀題無法代替主觀題,主觀題也無法代替客觀題。
在區(qū)域學業(yè)質量測評試題中,客觀題與主觀題并重,語文測試題型包括填空題、選擇題2種題型,分別約占52%和48%;數(shù)學測試題型包括選擇題、填空題、解答題和作圖題4種題型,分別約占74%、13%、9%和4%。
區(qū)域學業(yè)質量測評共進行了3年,測試分4次進行。2013年測試四年級和七年級學生,作為前測,建立評價基準。2014年測試四年級和七年級學生,2015年測試四年級、五年級、七年級和八年級學生,2016年測試四年級、五年級、六年級、七年級、八年級和九年級學生。學業(yè)測評不僅報告每年參加測試學生的基本情況,還對2013—2016年學生能力發(fā)展變化進行分析比較。
借鑒國際大規(guī)模測評中跨年度比較的技術方法,區(qū)域學業(yè)測評工具采用了多題本設計和共同題設計的方法,以適應區(qū)域的特點。例如,數(shù)學測試每個年級每年有2個題本,不同年度之間設置一定比例的共同題,并根據(jù)測試框架的要求,對共同題的題型、內容分布等進行合理設置。
縱觀國外基礎教育質量測評實踐,其主要目的是提供有關教育質量、尤其是學生學習結果的信息,以促進國家基礎教育質量整體水平的提升。區(qū)域所在教育部門啟動與實施中小學辦學質量評估項目,目的在于了解區(qū)域中小學辦學質量水平及其變化的真實狀況,包括學生學習結果的狀況,不同區(qū)域、不同群體之間的差異狀況,學生能力的發(fā)展變化情況等。
在借鑒國外經驗的基礎上,學業(yè)測評工具充分考慮評估區(qū)域的實際需要和發(fā)展狀況,如在確定測試領域時,通過選取義務教育課程中的重要科目反映區(qū)域學生發(fā)展的基本狀況;測評框架制定時除了考慮課程標準的要求、區(qū)域使用的教材版本以外,還強調對學生能力的考查,通過制定清晰、明確的能力指標,指導試題的命制。語文測試在兼顧識字量的基礎上,注重考查閱讀能力;數(shù)學測試在兼顧基礎知識和基本技能的基礎上,注重考查解決問題的能力。這些做法使學業(yè)質量測評能夠比較準確地反映學生的能力發(fā)展變化,為區(qū)域提供更加豐富的學生發(fā)展信息。
試題命制是學業(yè)測評的重要環(huán)節(jié),為此,聘請了具有豐富命題經驗的學科特級教師、優(yōu)秀教研員和大學教師。他們不僅參與了試題命制,而且通過多輪測試對題目進行了篩選和修訂,使試題既符合測試框架的要求,又具有良好的測量指標,符合區(qū)域學生的實際情況。如以2015年語文測試為例,試題難度分布趨于正態(tài),區(qū)分度良好,各年級試卷的內部一致性系數(shù)均在0.90以上,結構效度指標(RM?SEA)均小于0.05,比較擬合指數(shù)(CFI)和非規(guī)范擬合指數(shù)(TLI)在0.90附近,滿足了測試對信度和效度的要求,保證了測試結果的準確性和可靠性。
區(qū)域教育質量測評項目歷經3年,不僅能提供每年的測試結果,而且還能反映出3年的發(fā)展變化情況。具體來說,以2013年為基準,利用項目反應理論模型估計學生能力與項目參數(shù),將2014年、2015年和2016年的量尺分數(shù)等值到統(tǒng)一的量尺上,使分數(shù)具有可比性。測試結果報告不僅給出區(qū)域各個學校在語文和數(shù)學領域每年的測試結果,而且展現(xiàn)出3年的變化趨勢,對各個學校的基本情況形成了相對全面、綜合的呈現(xiàn)。
隨著測評理論的完善、信息技術的廣泛應用,區(qū)域學業(yè)質量測評還有許多需要改進和探索的方面。從現(xiàn)有大規(guī)模教育測評的開展情況來看,國內外測評主要是從宏觀層面對學生的學習和發(fā)展有了比較全面的了解,測評結果多為教育政策和方向提供借鑒。未來學業(yè)質量測評可進一步發(fā)揮工具的診斷性作用,從微觀層面上對學生的知識和技能以及情感進行診斷和預測,為實現(xiàn)因材施教提供依據(jù)。此外,學業(yè)質量測評應逐步采用計算機化測試,計算機不僅在測試問卷發(fā)布、數(shù)據(jù)采集等方面便于收集和管理,而且能夠在題目呈現(xiàn)方式上引入視頻、色彩、圖畫等多媒體技術,實現(xiàn)題目形式的多樣性、互動性。