美國基礎(chǔ)教育項目效果評估經(jīng)驗何在？＊
——基于25 項高質(zhì)量評估研究的主題文本分析

2022-12-23 06:14:12時晨晨

華東師范大學(xué)學(xué)報(教育科學(xué)版) 2022年1期

時晨晨

（中國人民大學(xué)教育學(xué)院，北京 100872）

自1978 年改革開放以來，我國教育改革已持續(xù)了40 余年，并將繼續(xù)進行下去（吳康寧，2012），“建設(shè)高質(zhì)量教育體系”便是國家持續(xù)深化教育改革這一意志的集中體現(xiàn)。在當下教育改革全面推進與持續(xù)深入階段，隨著我國教育事業(yè)發(fā)展主要矛盾的變化—從“有學(xué)上”到“上好學(xué)”再到“公平而有質(zhì)量的教育”以及“更加公平更高質(zhì)量的教育”，教育改革的理念與重心也開始發(fā)生轉(zhuǎn)向，逐漸由此前對合法性、正當性和價值性的追求轉(zhuǎn)向?qū)茖W(xué)性、有效性和可行性的追求。為了有效響應(yīng)和推進這一改革重心的轉(zhuǎn)向，近年來教育政策、項目或?qū)嵺`評估研究開始不斷成長與發(fā)展，以期為科學(xué)、有效和可行的教育改革政策、項目或?qū)嵺`的制定或?qū)嵤┨峁﹣碜越逃茖W(xué)研究的證據(jù)?；诖耍疚膶γ绹A(chǔ)教育項目效果評估較為成熟的實踐經(jīng)驗進行研究，希望能為我國教育政策、項目或?qū)嵺`評估研究的實踐發(fā)展提供有效的經(jīng)驗參考。

一、問題提出：美國基礎(chǔ)教育項目效果評估的實踐經(jīng)驗

為了有效推進教育領(lǐng)域的知識生產(chǎn)，美國教育科學(xué)研究院（Institute of Education Sciences，IES）與國家科學(xué)基金會（National Science Foundation，NSF）于2013 年合作編制出《教育研究與開發(fā)指南》（Common Guidelines for Education Research and Development），將教育領(lǐng)域的科學(xué)研究分為三大類—基礎(chǔ)性和探索性研究（foundational and exploratory research）、設(shè)計和開發(fā)研究（design and development research）以及效果評估（impact evaluation），三者依序筑就了一條完整的教育知識生產(chǎn)“管道”。其中，位于“管道”最后一環(huán)的效果評估，是指對那些以基礎(chǔ)性和探索性研究為知識基礎(chǔ)而被科學(xué)設(shè)計與開發(fā)的政策、項目、產(chǎn)品或服務(wù)達成其預(yù)期結(jié)果和最終目標的能力進行可靠估計，以生產(chǎn)效果證據(jù)（Earle et al.，2013，p.49）。就基礎(chǔ)教育項目而言，效果評估最為主要的目的是判斷項目的績效或價值，利益攸關(guān)者可將這一判斷結(jié)果用于多種用途，包括項目采納決策、項目研發(fā)或項目管理的改進與完善，等等（Fitzpatrick，Sanders，&Worthen，2011，p.16）。

而這種對項目在現(xiàn)實世界情境（real-world settings）中的實施效果進行評估的特殊研究目前也已發(fā)展成為美國新近興起的循證教育改革（evidence-based reform in education）的證據(jù)來源（時晨晨，2020，第55 頁）。所謂循證教育改革，是指教育政策制定者和教育實踐者基于教育研究者循證教育研究的證據(jù)結(jié)果，尤其是利用嚴格實驗研究方法開展的高質(zhì)量效果評估研究的證據(jù)整合結(jié)果，來決策和實施“被證據(jù)證實”（evidence-proven）的教育項目、產(chǎn)品或服務(wù)的教育改革政策與實踐。與美國以往的教育市場化與標準化等制度性改革不同，這場新近興起的循證教育改革運動將變革的著眼點聚焦在學(xué)校與課堂層面上，變革的核心要素有四—項目研發(fā)、效果評估、證據(jù)整合和學(xué)校改進，它們分別構(gòu)成了循證教育改革的首要前提、證據(jù)來源、直接依據(jù)和實踐落地（時晨晨，2020，第1 頁）。由此也不難看出，項目效果評估在整個循證教育改革中具有承前啟后的重要意義。

盡管項目效果評估的教育研究價值與教育改革意義重大，但實施一項高質(zhì)量的評估研究并非易事。從項目方這一角度而言，需要周全考慮評估研究的資源前提、人力輸入、開展過程以及成果輸出等諸多環(huán)節(jié)。那么，實踐發(fā)展根基相對堅實的美國基礎(chǔ)教育項目效果評估目前在這些環(huán)節(jié)上到底積累了哪些較為成熟的實踐經(jīng)驗？

二、文獻綜述：美國基礎(chǔ)教育項目效果評估的實踐發(fā)展

相較于包括中國在內(nèi)的世界許多國家，美國基礎(chǔ)教育項目效果評估的實踐起步較早。諸多文獻均指出，其實踐源頭可以追溯至19 世紀以前。不過，其現(xiàn)代意義上的效果評估則是伴隨著1965 年《初等和中等教育法》（Elementary and Secondary Education Act，ESEA）的頒布而出現(xiàn)的。該法案推動美國聯(lián)邦政府為基礎(chǔ)教育事業(yè)的發(fā)展投入了大量的經(jīng)費（例如學(xué)前教育的“開端計劃”項目），但隨之而來的擔憂是，這些經(jīng)費投入的效果到底如何？所以，提議經(jīng)費接受者需提交效果評估報告的聲音開始不斷涌現(xiàn)（Fitzpatrick et al.，2011，pp.44-45）。

在此后的20 世紀70—90 年代，效果評估開始茁壯成長與發(fā)展。它的實踐表現(xiàn)主要有：首先，在評估的專業(yè)人員上，高校爭相開設(shè)相關(guān)學(xué)科、專業(yè)、學(xué)位項目和課程，培養(yǎng)與訓(xùn)練評估研究人才。第二，在評估的專業(yè)社群上，美國教育研究協(xié)會（American Educational Research Association，AERA）評估分部（Evaluation Division）、教育評估標準聯(lián)合委員會（Joint Committee on Standards for Educational Evaluation，JCSEE）、美國評估協(xié)會（American Evaluation Association，AEA）等組織先后成立。第三，在評估的專業(yè)期刊上，《教育評估研究》（Studies in Educational Evaluation）、《評估季刊》（Evaluation Quarterly）、《評估新動向》（New Directions for Evaluation）、《教育評估與政策分析》（Educational Evaluation and Policy Analysis）、《美國評估期刊》（American Journal of Evaluation）等先后被創(chuàng)辦。第四，在評估的專業(yè)規(guī)范上，教育評估標準聯(lián)合委員會于1981 年發(fā)布首版《項目評估標準》（Program Evaluation Standards），1995 年美國評估協(xié)會發(fā)布首版《評估人員指導(dǎo)準則》（Guiding Principles for Evaluators）。

“21 世紀是評估的時代。進入新世紀后，項目效果評估迎來了激動人心的發(fā)展階段（Fitzpatrick et al.，2011，p.V）。”在2002 年《不讓一個孩子掉隊法》（No Child Left Behind，NCLB）時期，一方面由于教育問責體制的建立與需求，美國基礎(chǔ)教育項目效果評估開始更為關(guān)注研制效果測量指標，并評估項目在這些指標上的具體效果表現(xiàn)（Fitzpatrick et al.，2011，pp.53-54）。另一方面由于對教育研究事業(yè)強有力的經(jīng)費支持，美國基礎(chǔ)教育項目效果評估逐漸采用嚴格揭示因果關(guān)系的實驗與準實驗研究方法（Borman，2002），為此，不少學(xué)者認為美國教育研究的軌道開始發(fā)生轉(zhuǎn)向（Angrist，2004）。

在2015 年《每個學(xué)生都成功法》（Every Student Succeeds Act，ESSA）這部新修訂的聯(lián)邦教育法頒布后，美國基礎(chǔ)教育項目效果評估也開始獲得了新的實踐發(fā)展：第一，證據(jù)等級界定。該法之于效果評估的重要意義之一就在于其對“證據(jù)”的明文定義與等級劃分。第一等級的“強有力”（strong）證據(jù)和第二等級的“中等的”（moderate）證據(jù)分別是指來自精心設(shè)計且被良好實施的實驗研究和準實驗研究的統(tǒng)計顯著積極效果，這為高質(zhì)量效果評估的研究設(shè)計指明了明確方向。第二，經(jīng)費資助提升。其典型表現(xiàn)是美國教育科學(xué)研究院對效果評估的研究資助不斷提升，2021 財年的單項立項資助上限已上調(diào)至380 萬美元（U.S.Institute of Education Sciences，2020，p.5）。第三，管理系統(tǒng)建立。2018 年10 月31 日，美國教育科學(xué)研究院與美國教育效能研究學(xué)會（Society for Research on Educational Effectiveness，SREE）聯(lián)合推出“效力和效能評估研究注冊系統(tǒng)”（Registry of Efficacy and Effectiveness Studies，REES）。它鼓勵評估人員在該系統(tǒng)中提前登記即將開展的因果推斷性效果評估，具體包括隨機對照實驗（randomized controlled trial，RCT）、準實驗設(shè)計（quasi-experimental design，QED）、斷點回歸設(shè)計（regression discontinuity design，RDD）和單個案實驗設(shè)計（single-case experimental design，SCED）等四種研究方法，目的是為了增加效果評估開展過程的透明度以及成果使用的開放度。不少評估人員將其視為效果評估發(fā)展歷程上一項具有里程碑意義的政策支持（Slavin，2018）。

三、研究設(shè)計：25 項高質(zhì)量評估研究的主題文本分析

在2015 年《每個學(xué)生都成功法》對學(xué)生出勤這一教育問題的重視與問責背景之下，美國約翰·霍普金斯大學(xué)教育研究與改革中心（Center for Research and Reform in Education，CRRE）①的“《每個學(xué)生都成功法》證據(jù)庫”（Evidence for ESSA）②目前已經(jīng)完成了對全美境內(nèi)基礎(chǔ)教育階段學(xué)生出勤改進項目效果評估的證據(jù)整合（evidence synthesis）③。

具體而言，該庫基于如下十條嚴格的篩選標準④，篩選出如表1 所示的18 個學(xué)生出勤改進項目的25 項高質(zhì)量效果評估研究（Shi et al.，2019，pp.8-11）。第一，研究應(yīng)對美國基礎(chǔ)教育階段的學(xué)生出勤改進項目進行效果評估，且所評估的項目需是校本的、能夠被傳統(tǒng)公立學(xué)校自主采納和實施的。第二，研究的撰寫語言須為英語，發(fā)表時間在1990 年之后。第三，研究必須使用隨機對照實驗或準實驗設(shè)計的研究方法。如果是匹對分配，分配需在項目干預(yù)實施前完成，事后匹配（post-hoc）或回顧性（retrospective）研究不予考慮。第四，研究中項目干預(yù)的實施時長不能低于12 周。第五，研究必須設(shè)置有同實驗組相似的對照組，以接收替代性項目干預(yù)或正常教育教學(xué)。第六，研究中的實驗組和對照組必須包含30 名以上的學(xué)生。如果分配水平是在班級水平或?qū)W校水平上，實驗組和對照組必須均包含2 個及以上的班級或?qū)W校。實驗組和對照組的流失率不能超過50%，兩組之間的流失率差距不能大于15%。第七，研究需展示實驗組和對照組初始樣本的基線等值（baseline equivalence），即不超過0.25 個標準差。此外，兩組流失后的最終樣本的基線等值也不能超過0.25 個標準差。如果研究中沒有呈現(xiàn)兩組學(xué)生的出勤率基線數(shù)據(jù)，那么必須要提供兩組樣本在人口統(tǒng)計學(xué)和學(xué)業(yè)成績上的基線等值，亦即，兩組樣本的人口統(tǒng)計學(xué)基線等值不能超過0.50 個標準差，學(xué)業(yè)成績的基線等值不能超過0.25 個標準差。第八，研究必須定量測量學(xué)生的學(xué)校出勤（school attendance）效果，比如出勤率或缺勤天數(shù)，而不是學(xué)生的項目出勤（program attendance）結(jié)果。研究中出勤數(shù)據(jù)的收集必須來自學(xué)校記錄或教師報告，不能來自家長或?qū)W生自己的匯報。第九，研究對出勤效果的分析必須要使用意向處理分析（intent-to-treat，ITT），而不是處理中的處理分析（treatment-on-the-treated，TOT）。第十，研究必須要提供充分的數(shù)據(jù)分析結(jié)果以計算出項目出勤效果的效應(yīng)值（effect size）和統(tǒng)計顯著性（statistical significance）。

表1 25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究

為了有效解答上述研究問題并得出可信的研究發(fā)現(xiàn)，本文不僅以表1 中的25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究個案作為文本分析對象，而且還對它們進行了深入的主題文本分析（thematic text analysis）。作為質(zhì)性文本分析（qualitative text analysis）的基本方法之一⑤，主題文本分析是指對文本中的相關(guān)內(nèi)容（如話題、論斷、經(jīng)驗等）進行主題式探究，例如探究文本中“人們關(guān)于氣候變化的看法”，具體分析過程則通常包含有初步閱讀文本、建構(gòu)主要主題、初始編碼過程、整理主要主題編碼、確定次要主題、二次編碼過程、分析主題與呈現(xiàn)結(jié)果等七個典型階段（Kuckartz，2014，pp.41+70）。

就本文而言，25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究的主題文本分析過程主要表現(xiàn)為：第一階段，通讀紙質(zhì)文本。將25 項評估打印出來之后，帶著研究問題、有目的地閱讀紙質(zhì)文本，并在文本中的相應(yīng)地方進行標記、注釋、評論以及備忘記錄。第二階段，演繹一級主題。在對25 項評估文本有了整體了解之后，立足研究問題，并以“評估研究的實踐邏輯（包括資源前提、人力輸入、開展過程和成果輸出等）”為依據(jù)，自上而下演繹式建構(gòu)⑥出“評估經(jīng)費”“評估人員”“評估開展”與“評估成果”這四個互斥的一級主題，作為“美國基礎(chǔ)教育項目效果評估實踐經(jīng)驗”的核心分析框架。第三階段，初始人工編碼。由于25 項評估文本的撰寫語言為英語，且數(shù)量也并不算多，為了有效地進行中文編碼，筆者在經(jīng)過反復(fù)深入地閱讀、理解與挖掘后，采用人工編碼的方式，從文本中提取同四個一級主題相關(guān)的描述或信息，手動記錄在編碼單中。第四階段，分析一級主題。在初始編碼工作完成后，開始對四個一級主題的編碼單進行粗略的系統(tǒng)分析。具體的分析路徑主要有三：一是事實統(tǒng)計，如評估經(jīng)費項數(shù)；二是實體識別，如評估人員來源組織；三是語義分析，如評估問題表述。第五階段，歸納二級主題?；谝患壷黝}的初步聚類分析結(jié)果，在各個一級主題之下自下而上地歸納式凝煉出三個互斥的二級主題，亦即，進一步細分出“評估經(jīng)費來源”“評估經(jīng)費籌措”“評估經(jīng)費使用”“評估人員來源”“評估人員選擇確定”“評估人員角色定位”“評估規(guī)劃”“評估設(shè)計”“評估實施”“評估發(fā)現(xiàn)”“評估結(jié)果”和“評估產(chǎn)品”等十二個二級主題。第六階段，二次人工編碼。重新梳理此前一級主題編碼單上的已有編碼，并合理歸類與放置在各個二級主題之下。第七階段，分析二級主題并呈現(xiàn)研究發(fā)現(xiàn)。不同于一級主題，該階段對二級主題編碼單的聚類分析更加細致、全面，并且還是在一定理論指導(dǎo)之下進行的。最后，按照一二級主題分析框架這一最為常見的主題文本分析呈現(xiàn)方式⑦，有序撰寫并清晰勾勒出如下美國基礎(chǔ)教育項目效果評估實踐經(jīng)驗的研究發(fā)現(xiàn)。

四、充足的評估經(jīng)費—美國基礎(chǔ)教育項目效果評估的首要前提

項目效果評估的財力、人力、物力和時間成本巨大，其成功開展離不開充足的經(jīng)費支持這一首要資源前提與條件保障。目前美國基礎(chǔ)教育項目效果評估的經(jīng)費支持具體在經(jīng)費來源、經(jīng)費籌措以及經(jīng)費使用上積累出以下實踐經(jīng)驗。

（一）評估經(jīng)費來源：政府為首的各界支持

美國基礎(chǔ)教育項目效果評估的經(jīng)費支持一般來源于四大渠道：聯(lián)邦政府、州政府和地方政府，社會上的基金會、公司和企業(yè)、研究機構(gòu)等組織，高校和研究人員個人，以及項目研發(fā)或管理組織。

第一，聯(lián)邦政府通常是項目效果評估的首要政府經(jīng)費來源。25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究尤其得到了來自聯(lián)邦教育部（Department of Education）、聯(lián)邦衛(wèi)生與公眾服務(wù)部（Department of Health and Human Services）、聯(lián)邦司法部（Department of Justice）和聯(lián)邦農(nóng)業(yè)部（Department of Agriculture）這四個聯(lián)邦行政部門（Executive Department），以及國家藝術(shù)基金會（National Endowment for the Arts，NEA）和國家與社區(qū)服務(wù)公司（Corporation for National and Community Service，CNCS）這兩個聯(lián)邦獨立機構(gòu)（Independent Agency）的經(jīng)費支持。州政府和地方政府的公共經(jīng)費也通常是項目效果評估的次要政府經(jīng)費來源。第二，社會上一些對教育事業(yè)投資感興趣的基金會、公司和企業(yè)、研究機構(gòu)等組織也會為項目效果評估提供捐贈，是項目效果評估的重要社會經(jīng)費來源。第三，如果項目效果評估的研究人員來自高校，那么其所在高校的相關(guān)部門及其個人的研究經(jīng)費也是評估的潛在經(jīng)費來源。第四，項目研發(fā)或管理組織有時也會對自己項目的效果評估提供一定經(jīng)費支持。盡管這一情況在25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究中并不多見。

（二）評估經(jīng)費籌措：集體同心的智慧行動

美國基礎(chǔ)教育項目效果評估的經(jīng)費支持不僅來源豐富，具體的籌措工作也別具特色。25 項高質(zhì)量學(xué)生出勤項目效果評估研究的經(jīng)費籌措尤其展現(xiàn)出如下經(jīng)驗做法。

首先，就籌措的主體而言，項目效果評估的經(jīng)費籌措通常是多位作者的集體行動。所謂“集體行動”（collective action），是指評估研究的多位作者為了研究的集體利益，充分利用自己的資源與優(yōu)勢，共同承擔經(jīng)費籌措任務(wù)（Savage，2000，pp.13-16）。其次，就籌措的路徑而言，項目效果評估的經(jīng)費籌措往往會呈現(xiàn)出一定的針對性、競爭性與就近性特征?！搬槍π浴保侵父鶕?jù)項目干預(yù)類型、發(fā)展成熟度以及效果評估目的等有目標有針對地籌措評估經(jīng)費?！案偁幮浴保侵疙椖啃Чu估的經(jīng)費申請往往會經(jīng)歷一個同行評審的、差額的、競爭性的評選過程，尤其是在申請政府這一渠道的評估經(jīng)費時，更是如此?！熬徒浴保侵疙椖啃Чu估就近尋求評估開展地的經(jīng)費資助，尤其表現(xiàn)在尋求社會這一渠道的評估經(jīng)費上。最后，就經(jīng)費籌措的結(jié)果而言，匯聚與整合來自各個渠道的各項評估經(jīng)費，以全力支持評估開展，是項目效果評估經(jīng)費籌措的最終結(jié)果。

（三）評估經(jīng)費使用：貫穿評估全程

美國基礎(chǔ)教育項目效果評估所獲的經(jīng)費支持，每一項少則數(shù)十萬美元，多則數(shù)百萬美元。那么，這些金額巨大的研究經(jīng)費到底用在了哪些方面？事實上，美國基礎(chǔ)教育項目效果評估的時間戰(zhàn)線通常較長，25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究中最長的歷時六年，經(jīng)費使用基本上貫穿整個項目效果評估的研究全程，尤其使用在如下四個方面上：

第一，評估啟動。項目效果評估的啟動具體是指評估開展過程中啟動階段的評估規(guī)劃與設(shè)計工作。第二，評估實施。項目效果評估的實施主要包括評估開展過程中實施階段的樣本招募與分配、干預(yù)培訓(xùn)與實施、效果數(shù)據(jù)收集等。第三，評估結(jié)果撰寫。項目效果評估的開展過程固然重要，但之后的效果數(shù)據(jù)分析、評估發(fā)現(xiàn)解釋、評估結(jié)果撰寫等工作也不容忽視。第四，評估產(chǎn)品傳播。如前所述，項目效果評估的目的是為了判斷與使用。所以，將評估產(chǎn)品分享給教育政策制定者、教育實踐者等利益攸關(guān)者以充分發(fā)揮評估的價值與意義，是整個項目效果評估的最后一站。

五、專業(yè)的評估人員—美國基礎(chǔ)教育項目效果評估的核心輸入

項目效果評估的人力成本極高，尤其需要兩大類核心群體的人力輸入—評估人員和利益攸關(guān)者。而作為評估研究的領(lǐng)導(dǎo)者與開展者，前者因其專業(yè)的知識與技能更是會對評估研究產(chǎn)生重要影響。目前美國基礎(chǔ)教育項目效果評估的評估人員輸入具體在人員來源、選擇確定以及角色定位上表現(xiàn)出如下實踐經(jīng)驗。

（一）評估人員來源：高校為主的專業(yè)組織

美國基礎(chǔ)教育項目效果評估的評估人員主要來自高校、社會研究機構(gòu)、政府機構(gòu)中的相關(guān)評估部門等三類專業(yè)組織。

第一，高校。25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究中有14 項是由高校研究人員領(lǐng)頭開展的。具體來看，有的是由來自同一家高校的研究人員共同開展，有的是由來自多家高校的研究人員合作開展，也有的是由高校研究人員一人獨立開展。這些來自高校的評估人員大多為熟練掌握項目效果評估研究方法與技術(shù)的教授、副教授、助理教授、博士后研究員和博士生。第二，社會研究機構(gòu)。余下11 項則是由一些提供項目效果評估服務(wù)的社會研究機構(gòu)領(lǐng)頭開展，其中較為知名的有蘭德公司（RAND Corporation）和美國研究所（American Institutes for Research，AIR）等。這些社會研究機構(gòu)中評估人員的技術(shù)職稱多為研究員和研究助理。第三，政府機構(gòu)中的相關(guān)評估部門。盡管25 項評估中沒有一項是由政府評估部門領(lǐng)頭開展的，但“第二步”項目高質(zhì)量效果評估研究（Neace &Mu?oz，2012）的第二作者是來自杰斐遜公立學(xué)校系統(tǒng)（Jefferson County Public Schools）問責、研究與規(guī)劃部（Department of Accountability，Research and Planning）的評估專員（evaluation specialist）。

（二）評估人員選擇確定：多方因素的全面衡量

盡管能夠領(lǐng)導(dǎo)和開展項目效果評估的評估人員來源廣泛，但具體到某一特定項目上，如何選擇與確定合適的評估人員仍是一門值得深思的學(xué)問。

對25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究的評估人員的選擇與確定進行分析后發(fā)現(xiàn)：第一，對于那些由評估人員自行發(fā)起的項目效果評估（11 項），評估人員就是他們自己，不會經(jīng)歷項目研發(fā)或管理組織或者學(xué)區(qū)對其的選擇與確定。他們自籌經(jīng)費、組建團隊開展對某一特定項目的效果評估，主要是出于專業(yè)發(fā)展的需求或興趣。第二，對于那些由項目研發(fā)或管理組織或者學(xué)區(qū)基于項目研發(fā)或管理改進或者學(xué)區(qū)教育改進等目的而發(fā)起的項目效果評估（14 項），評估人員的選擇與確定往往會經(jīng)歷一個全面考量的過程，并且會重點思考以下因素：項目類型與特征，項目研發(fā)或管理組織所在地、內(nèi)部自我評估能力、外部評估資源與合作基礎(chǔ)，學(xué)區(qū)所在地，效果評估開展地，外部評估人員所在地、專業(yè)知識與技能，經(jīng)費支持方的要求與限制尤其是其推薦合作的外部評估資源，等等。

（三）評估人員角色定位：三種類型并存

評估人員確定后，從項目方角度來看，他們可以被劃分為三類—內(nèi)部評估人員、外部評估人員和內(nèi)外合作評估人員。這些不同類型的評估人員角色定位會對整個項目效果評估產(chǎn)生不同的潛在影響。

1.在地的內(nèi)部評估人員

內(nèi)部評估人員（internal evaluator），也被稱為在地評估人員（on-site evaluator），是指項目效果評估的開展者來自項目研發(fā)或管理組織內(nèi)部，是組織雇員（Giancola，2014，p.3）。25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究中有5 項是由項目研發(fā)或管理組織的內(nèi)部評估人員領(lǐng)導(dǎo)與開展的。例如，“早期預(yù)警干預(yù)和監(jiān)督系統(tǒng)”項目高質(zhì)量效果評估研究（Faria et al.，2017）的七位評估人員均是項目研發(fā)組織美國研究所的雇員，其中，該評估的首席研究員還是項目的研發(fā)人員之一。

內(nèi)部評估人員的“在地性”角色屬性，會對項目效果評估產(chǎn)生一些潛在的積極影響：第一，熟悉和了解項目以及項目研發(fā)或管理組織，有利于評估工作的迅速啟動；第二，熟悉和了解評估的利益攸關(guān)者以及他們在這項評估中的利益、關(guān)切點和影響力，有助于促進最終評估結(jié)果的最大化使用；第三，即便評估工作結(jié)束，內(nèi)部評估人員本身在項目研發(fā)或管理組織中的存在也能夠時刻提醒他人這項評估結(jié)果，有益于增強評估結(jié)果的長遠影響力。此外，內(nèi)部評估人員也會產(chǎn)生一些潛在的消極影響：第一，由于內(nèi)部評估人員距離項目太近，很可能會導(dǎo)致他們不能夠客觀地認清項目；第二，盡管一些成功的內(nèi)部評估人員能夠克服來自視角上的障礙，但難以克服職位上的障礙（Fitzpatrick et al.，2011，pp.28+274）。

2.第三方的外部評估人員

外部評估人員（external evaluator），也被稱為第三方評估人員（third-party evaluator）、獨立評估人員（independent evaluator）、評估顧問（evaluation consultant）或評估承包商（evaluation contractor），是指項目效果評估的開展者來自項目研發(fā)或管理組織外部而非內(nèi)部雇員。由外部評估人員開展的評估研究，通常也被稱為“第三方獨立評估”（independent third-party evaluation）（Fitzpatrick et al.，2011，p.271）。25 項評估中有18 項是由非項目研發(fā)或管理組織雇員的外部評估人員領(lǐng)導(dǎo)與開展的。

外部評估人員由于他們遠離項目研發(fā)或管理組織的角色屬性以及過硬的專業(yè)技能（如果選擇正確的話），會給項目效果評估帶來一些潛在的積極影響。第一，外部評估人員通常具有更大的行政和財政獨立性，因而社會公眾會普遍認為其開展的評估是公正的、客觀的和可信的。第二，外部評估人員能夠為某一特定項目的效果評估帶來新鮮的外部視角，以及更廣和更深的專業(yè)知識與技能。第三，利益攸關(guān)者有時更愿意將一些敏感信息暴露給外部評估人員。第四，外部評估人員能更無負擔地全面呈現(xiàn)評估結(jié)果、揭露不受歡迎的消息、倡議項目改革（Fitzpatrick et al.，2011，pp.28+273）。但是同樣也由于外部評估人員的非“在地性”，不僅使其不能具備上述內(nèi)部評估人員對評估研究的潛在積極影響，甚至還會因此增加評估研究的時間成本和差旅成本（Hatry，Winnie，&Fisk，1973，p.119）。

3.取長補短的內(nèi)外合作評估人員

項目的內(nèi)部評估人員與外部評估人員并非互斥，可以共同合作，組建成內(nèi)外合作評估人員團隊，這被認為是確保評估質(zhì)量以及結(jié)果使用的最佳安排（Giancola，2014，p.5）。25 項評估中有2 項是由項目研發(fā)或管理組織的內(nèi)外部評估人員合作開展的。

內(nèi)外合作評估人員不僅可以取長補短，對共同合作的評估產(chǎn)生潛在積極影響。例如，內(nèi)部評估人員可為外部評估人員補充項目的背景性信息；由內(nèi)部評估人員負責收集數(shù)據(jù)可以有效節(jié)約外部評估人員在此的時間成本和差旅成本；敏感的評估結(jié)果由外部評估人員負責向利益攸關(guān)者解釋更容易被接受與認可；即便外部評估人員撤離后，內(nèi)部評估人員也能繼續(xù)引導(dǎo)對評估結(jié)果的使用。而且從長遠來看，外部評估人員與內(nèi)部評估人員的合作也有助于增進項目研發(fā)或管理組織內(nèi)部的自我評估能力（Fitzpatrick et al.，2011，p.275）。

六、科學(xué)的評估開展—美國基礎(chǔ)教育項目效果評估的關(guān)鍵過程

項目效果評估的經(jīng)費支持與評估人員到位后，關(guān)鍵的評估過程便提上日程。盡管評估研究的開展過程非常復(fù)雜，但目前美國基礎(chǔ)教育項目效果評估的科學(xué)開展在評估規(guī)劃、評估設(shè)計和評估實施這三個核心環(huán)節(jié)上均積累了豐富的實踐經(jīng)驗。

（一）評估規(guī)劃：確定評估類型與問題

項目效果評估的評估規(guī)劃通常會明確和定位評估研究的類型與問題。

1.不同評估目的之下的評估類型

效果評估的研究類型可被細分為三種—效力（efficacy）評估、效能（effectiveness）評估和推廣（scale-up）評估。三者的主要區(qū)別在于評估目的、評估中的項目實施情境、項目研發(fā)或管理組織工作人員對項目實施的支持程度以及評估所面向的學(xué)生群體（Earle et al.，2013，p.9）。

第一，效力評估。效力評估允許項目的效果評估發(fā)生在“理想”的“溫室”情境中，此時項目研發(fā)或管理組織工作人員參與和支持項目實施的程度高于通常情況，他們也會選擇將研究限制在所感興趣的某類學(xué)生群體上。為此，效力評估通常適用于新近研發(fā)的項目以初步測試項目效力（Flay et al.，2005），也常被用來將項目此前的評估研究復(fù)制到不同的實施情境中或?qū)W生群體里。25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究中的絕大多數(shù)是效力評估。第二，效能評估。效能評估是對“典型”學(xué)校教育教學(xué)情境中項目的實施效果進行評估，這主要考慮到學(xué)校里的教育教學(xué)實踐并非發(fā)生在嚴格控制的實驗室里，而是在現(xiàn)實世界情境中（Giancola，2014，p.25）。此外，項目研發(fā)或管理組織工作人員參與和支持項目實施的程度與通常情況并無二致。一般而言，被效力評估證實有效的項目會進一步開展效能評估，以證實其在現(xiàn)實世界情境中的真實效果。25 項評估中僅有3 項為效能評估。第三，推廣評估。同效能評估一樣，推廣評估是在項目研發(fā)或管理組織工作人員沒有過多參與和支持的“典型”情境中開展的，主要評估項目在更廣地域范圍上和更加多樣化學(xué)生群體里的效果。它的存在，主要是因為被效能評估證實在現(xiàn)實世界情境中有效的項目并不一定做好了大規(guī)模推廣的準備（Gottfredson et al.，2015）。所以，評估那些已經(jīng)被效能評估證實有效的項目在大規(guī)模推廣時的效果，能夠為推廣決策提供重要參考依據(jù)。25 項評估中尚未有任何一項屬于推廣評估。

2.有益效果證據(jù)獲取的評估問題

項目類型的多樣性以及評估類型的多樣性也在一定程度上決定了評估問題的多樣性。盡管評估問題可以多種多樣，但高質(zhì)量的項目效果評估研究一般會提出盡可能開放的評估問題，避免“是或否”的封閉式問題，例如“某項目有效嗎”，因為這類問題會限制評估研究的信息獲?。℅iancola，2014，p.24）。

就25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究的評估問題而言，它們均含有一個核心或根本要素，即“項目效果或項目影響”。有些評估問題會在這一核心要素基礎(chǔ)之上繼續(xù)突出評估的研究方法，有些會強調(diào)評估中的項目實施情境與時長，還有些會指出評估的研究樣本或者效果指標。

（二）評估設(shè)計：厘清理論基礎(chǔ)、評估方法與效果指標

項目效果評估的評估設(shè)計會思考和厘清評估研究的理論基礎(chǔ)、評估方法與效果指標。

1.以項目理論為首選的理論基礎(chǔ)

項目效果評估的研究設(shè)計通常會首先考慮用項目理論（program theory）作為評估研究的理論基礎(chǔ)。而這種在項目理論驅(qū)動下的評估，也會被稱為基于理論的評估（theory-based evaluation）或者理論驅(qū)動式評估（theory-driven evaluation）（Fitzpatrick et al.，2011，p.160）。所謂項目理論，其實質(zhì)是對項目研發(fā)之初所建構(gòu)的邏輯模型（logic model）的深入，是在要素式的邏輯模型基礎(chǔ)之上進一步揭示出項目發(fā)生作用的因果機制或變化過程。因此，項目理論能夠為整個評估研究提供一個結(jié)構(gòu)性的理論框架，指導(dǎo)評估人員更好地確定后續(xù)評估方法與效果指標，以及解釋最終評估發(fā)現(xiàn)（Fitzpatrick et al.，2011，pp.161-162）。

例如，“閱讀、寫作、尊重和解決”項目的高質(zhì)量效果評估研究（Jones，Brown，&Lawrence，2011）明確指出其所依賴的理論基礎(chǔ)是該項目的“多水平項目理論”（multilevel program theory）。它揭示了：第一，該項目的作用變化過程發(fā)生在多種水平上，如學(xué)生個體、課堂以及學(xué)校等；第二，該項目的核心作用領(lǐng)域（即社會—情感）會對項目的次要領(lǐng)域（即學(xué)業(yè)學(xué)習(xí)）產(chǎn)生影響；第三，該項目是在動態(tài)系統(tǒng)中、在多種水平上、多個領(lǐng)域里隨著時間的推進而不斷發(fā)生作用效果的變化。在這一項目理論的指導(dǎo)下，評估人員對評估研究的設(shè)計是：第一，分別測試該項目在學(xué)生水平、課堂水平和學(xué)校水平上的效果；第二，同時測試該項目在社會—情感作用領(lǐng)域的效果、學(xué)業(yè)學(xué)習(xí)作用領(lǐng)域的效果以及兩個作用領(lǐng)域的交互效果；第三，連續(xù)測試該項目在實施第一年、第二年和第三年的效果。

2.以實驗為黃金標準的評估方法

項目效果評估的研究方法多種多樣，包含質(zhì)性研究方法、定量研究方法和混合研究方法等。它們各有各自的突出優(yōu)勢：質(zhì)性研究和定量研究中的相關(guān)性研究對于項目效果的定性描述或各關(guān)聯(lián)因素之間的理論建構(gòu)十分有益；而實驗研究更能理想地揭示項目干預(yù)實施與項目效果產(chǎn)生之間的因果關(guān)系，是項目效果評估的黃金標準（Slavin &Cheung，2017）。

具體而言，在實驗研究中，自變量即為在一定情境中實施的項目，因變量為期待產(chǎn)生的項目效果（Mertens &Wilson，2019，p.63）。高質(zhì)量的實驗研究通常會設(shè)置實驗組和對照組兩組樣本，實驗組樣本接受項目干預(yù)，而對照組樣本則接受其他替代性項目干預(yù)或正常教育教學(xué)。根據(jù)實驗組和對照組的分配策略，高質(zhì)量的實驗研究還可被進一步細分為隨機對照實驗與準實驗設(shè)計。隨機對照實驗的分配策略是隨機分配，即樣本以同等的機會被隨機分配到實驗組和對照組，這有利于將兩組的分配偏差控制到最低程度。而準實驗設(shè)計的分配策略則是匹對分配，即首先確定實驗組，然后再根據(jù)一些關(guān)鍵變量（如人口統(tǒng)計學(xué)變量、學(xué)業(yè)成績等）為實驗組樣本匹配相似的對照組樣本。因此，相較于隨機對照實驗，準實驗設(shè)計在實驗組和對照組的分配上存在一定的分配偏差，通常被視為前者的替代性方案，適用于無法隨機分配樣本的情況。除此之外，在高質(zhì)量的實驗研究中，實驗組和對照組樣本的分配水平也有兩類，一是學(xué)生、教師等個體水平上的分配，二是班級、學(xué)?；?qū)W區(qū)等群組水平上的分配?！啊睹總€學(xué)生都成功法》證據(jù)庫”對高質(zhì)量項目效果評估的篩選條件之一即是利用隨機對照實驗或準實驗設(shè)計的研究方法，在最終篩選出的25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究中有24 項是隨機對照實驗，其中有14 項是學(xué)生水平上的，余下10 項是學(xué)校水平上的；而僅有的1 項準實驗設(shè)計的分配是在學(xué)校水平上。

3.客觀、可測量、非自制的效果指標

項目效果到底如何測量？這尤其是利用了隨機對照實驗和準實驗設(shè)計方法的項目效果評估在設(shè)計階段需要重點思考的一個問題，它直接關(guān)系到后續(xù)實施階段的效果數(shù)據(jù)收集以及評估問題最終能否被有效解答。為此，評估人員通常會在此階段明確制定項目預(yù)期作用結(jié)果（outcome）的測量指標（measure），即能夠指示出項目在一定情境中對實施群體產(chǎn)生預(yù)期作用的程度的變量（variable）?？偟膩碚f，高質(zhì)量的效果測量指標應(yīng)該是客觀的、可觀察的、可測量的、非項目研發(fā)人員或項目評估人員自制的，許多既有研究表明自制指標會對實驗組有利進而夸大項目效果（Slavin，2019）。

25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究中的效果測量指標也是緊緊圍繞如何有效解答評估問題來確定，均是客觀的、可測量的、非自制的。它們中既有同項目類型⑧相關(guān)的效果測量指標，如學(xué)業(yè)成績、社會—情感、輟學(xué)、犯罪逮捕等，也有出勤效果測量指標。就其中的出勤效果測量指標而言，25 項評估又確定了多種形式的子指標，如學(xué)年度的出勤率、缺勤率、出勤天數(shù)、缺勤天數(shù)、無故缺勤天數(shù)、出勤率在95%以上的學(xué)生比例或者慢性缺勤的學(xué)生比例等。

（三）評估實施：做好樣本招募、干預(yù)實施與數(shù)據(jù)收集

項目效果評估的評估實施也會重視并做好樣本招募、干預(yù)實施以及數(shù)據(jù)收集。

1.首先進行的樣本招募與分配

在利用了隨機對照實驗和準實驗設(shè)計研究方法的項目效果評估中，樣本招募與分配是評估正式實施階段的首項重要工作。

第一，就學(xué)校水平上的實驗組和對照組樣本招募而言，“積極行為”項目的一項高質(zhì)量效果評估研究（Bavarian et al.，2013）首先根據(jù)評估開展地點和項目干預(yù)對象，將樣本學(xué)校鎖定為芝加哥公立學(xué)校系統(tǒng)（Chicago Public Schools）中的483 所K-6/8 年級學(xué)校。然后，依據(jù)六條標準篩選出68 所待招募學(xué)校。經(jīng)過溝通，18 所學(xué)校同意參與評估。最后，基于諸多人口統(tǒng)計學(xué)變量確定了7 對人口統(tǒng)計學(xué)特征相似的、最優(yōu)匹配的實驗組與對照組學(xué)校。第二，至于學(xué)校水平上的實驗組和對照組的隨機分配程序，“積極行為”項目的這項評估研究在確定了7 對最優(yōu)匹配的實驗組與對照組學(xué)校后，利用電腦的隨機數(shù)字生成器（computer-based random number generator）賦予每對學(xué)校中第一所學(xué)?！?”或“1”的數(shù)字編號。被賦予“0”的學(xué)校自動歸入實驗組、“1”為對照組，它們所配對學(xué)校則相應(yīng)被歸列為對照組或?qū)嶒灲M。至此，該評估研究的隨機分配工作全部完成。最后，再來看學(xué)校水平上的實驗組和對照組的匹對分配程序?！暗诙健表椖康母哔|(zhì)量效果評估研究（Neace &Mu?oz，2012）以杰斐遜縣公立學(xué)校系統(tǒng)中已實施該項目的學(xué)校為實驗組，從學(xué)區(qū)余下未實施該項目的學(xué)校中挑選出同實驗組學(xué)校人口統(tǒng)計學(xué)特征較為相似的對照組學(xué)校。為了進一步縮小因匹對分配而導(dǎo)致的實驗組學(xué)校和對照組學(xué)校的基線差異，評估人員還進一步基于學(xué)生的五大人口統(tǒng)計學(xué)變量對實驗組學(xué)校和對照組學(xué)校里的學(xué)生進行個體層面的匹配。

2.培訓(xùn)之后的干預(yù)保真實施

在利用了隨機對照實驗和準實驗設(shè)計研究方法的項目效果評估中，項目干預(yù)在實驗組中的實施也非常重要，它直接關(guān)乎到項目效果目標的實現(xiàn)以及后續(xù)效果數(shù)據(jù)的收集。

首先，就項目干預(yù)的實施時長而言，高質(zhì)量的項目干預(yù)實施至少持續(xù)12 周。已有大量研究表明，較短的干預(yù)時長會夸大干預(yù)效果。其次，項目干預(yù)實施的主體會因干預(yù)路徑不同而不同。有的是學(xué)校任課教師，有的是學(xué)區(qū)或?qū)W校管理人員，有的是家長和社區(qū)伙伴，有的是項目研發(fā)或管理組織工作人員，還有的是由多種不同身份的人員組成的干預(yù)實施團隊。再次，項目研發(fā)或管理組織或者學(xué)區(qū)一般會對實驗組的項目干預(yù)實施提供一定的培訓(xùn)與支持。例如，在“追求公平和恢復(fù)性社區(qū)”項目的高質(zhì)量效果評估研究（Augustine et al.，2018）中，項目研發(fā)組織恢復(fù)性實踐國際研究所（International Institute for Restorative Practice，IIRP）在項目實施前組織了一個為期四天的專業(yè)發(fā)展培訓(xùn)，實驗組學(xué)校的全體教職員工被要求必須完整參加前兩天培訓(xùn)，余下兩天可自主選擇；在實驗組學(xué)校兩年的項目干預(yù)實施期間里，項目研發(fā)組織一方面為教職員工發(fā)放教材、影像、海報以及其他支持性材料，組織兩周一次的專業(yè)發(fā)展活動；另一方面還為每位校長配備了一名來自項目研發(fā)組織的教練，每月定期與校長領(lǐng)導(dǎo)的項目實施團隊進行會議溝通，以監(jiān)督項目干預(yù)的實施進展并幫助解決實施過程中所遇到的難題與挑戰(zhàn)。除此之外，匹茲堡公立學(xué)校系統(tǒng)（Pittsburgh Public Schools）也為實驗組學(xué)校的項目干預(yù)實施提供了相應(yīng)的學(xué)區(qū)資源。最后，項目干預(yù)實施的保真度（fidelity）評估也通常包含在項目效果評估中。例如，“出勤和曠課干預(yù)及普遍程序”項目的高質(zhì)量效果評估研究（Berg，2018）還專門開發(fā)了針對該項目干預(yù)實施保真度的評估工具。

3.反復(fù)充分的效果數(shù)據(jù)收集

在利用了隨機對照實驗和準實驗設(shè)計研究方法的項目效果評估中，項目效果的數(shù)據(jù)收集是評估實施的最后一個關(guān)鍵方面，其核心依據(jù)是先前設(shè)計的效果測量指標，它決定了收集哪些數(shù)據(jù)、從誰那里收集以及借助什么工具收集等問題。

25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究中的項目效果數(shù)據(jù)收集對象主要有學(xué)生、家長、教師和其他教職員工、學(xué)校和學(xué)區(qū)管理人員以及其他項目干預(yù)實施人員等。項目效果數(shù)據(jù)收集工具則包括州、學(xué)區(qū)和學(xué)校官方記錄、問卷、量表、觀察、訪談、測試等。值得注意的是，項目效果數(shù)據(jù)收集并非一次完成的，需要在多項效果測量指標、多類數(shù)據(jù)收集對象、多種數(shù)據(jù)收集工具、前測與后測以及各學(xué)年度等多個時間節(jié)點上進行反復(fù)收集，以確保收集到充分的數(shù)據(jù)信息并計算出項目效果。

七、實用的評估成果—美國基礎(chǔ)教育項目效果評估的重要輸出

項目效果評估最后的重要終端就是輸出評估成果，這同樣不容忽視。目前美國項目效果評估在評估發(fā)現(xiàn)、評估結(jié)果和評估產(chǎn)品這三個層次評估成果的輸出上，也有豐富的經(jīng)驗。

（一）評估發(fā)現(xiàn)：恰當分析與合理解釋

在利用了隨機對照實驗和準實驗設(shè)計研究方法的項目效果評估中，效果數(shù)據(jù)收集后的效果數(shù)據(jù)分析與評估發(fā)現(xiàn)解釋更是至關(guān)重要。

1.恰當?shù)男Ч麛?shù)據(jù)分析

通常而言，效果數(shù)據(jù)分析的方法選擇標準能夠有效回答評估問題。25 項高質(zhì)量學(xué)生出勤項目效果評估研究中絕大多數(shù)采用的是多層線性模型（hierarchical linear modeling，HLM）這一統(tǒng)計分析技術(shù)。除此之外，25 項評估也均采用了專門針對樣本流失問題的意向處理分析路徑。所謂意向處理分析，是指評估人員獲取和使用所有參與了前測的樣本的后測數(shù)據(jù)，即便部分樣本在實驗過程中已經(jīng)流失。它被認為是隨機對照實驗的嚴格數(shù)據(jù)分析，能夠避免因樣本流失而造成的對實驗組或?qū)φ战M任何一方有失公平的有利或不利影響（Slavin &Cheung，2017）。在進行了意向處理分析之后，25 項評估中也有部分評估對流失后的最終樣本進行處理中的處理分析⑨。

效果數(shù)據(jù)分析的最終結(jié)果是計算出項目效果的效應(yīng)值和統(tǒng)計顯著性。前者也被稱為實踐顯著性（practical significance）或教育顯著性（educational significance），揭示的是項目實施在效果測量指標上的真實結(jié)果，效應(yīng)值越大，項目效果越好。后者則揭示的是項目實施與項目效果之間因果關(guān)系成立的可能性，P 值越小，因果關(guān)系成立的可能性就越大。二者共同決定了項目效果的最終判定。25 項評估的效果數(shù)據(jù)分析結(jié)果顯示，“星火”項目在改進學(xué)生出勤上的效應(yīng)值最高且統(tǒng)計顯著（ES=0.25*），達到了《每個學(xué)生都成功法》的“強有力”證據(jù)等級。

2.合理的評估發(fā)現(xiàn)解釋

如果效果數(shù)據(jù)分析是對收集到的數(shù)據(jù)進行信息組織與總結(jié)的話，那么評估發(fā)現(xiàn)解釋則是在一定理論視角或概念的指導(dǎo)下，對效果數(shù)據(jù)分析結(jié)果的進一步探究、判斷與意義賦予，以便得出評估結(jié)論、回答評估問題（Fitzpatrick et al.，2011，p.446）。在評估發(fā)現(xiàn)解釋中，錯誤解釋（misinterpretation）和過度解釋（overinterpretation）是兩種需要避免的常見錯誤，而有利益攸關(guān)者參與的聯(lián)合解釋（co-interpretation）備受鼓勵。

25 項高質(zhì)量學(xué)生出勤項目效果評估研究也基本上都做到了合理解釋評估發(fā)現(xiàn)，而且大多數(shù)是從項目自身的理論基礎(chǔ)以及項目干預(yù)的保真實施等角度對項目效果數(shù)據(jù)分析結(jié)果進行了更加深入的解釋與討論。

（二）評估結(jié)果：規(guī)范撰寫與多樣呈現(xiàn)

盡管“文本寫作同評估研究中的其他技術(shù)性任務(wù)一樣，也是一項艱難的挑戰(zhàn)”（Weiss，1998，p.295），但通過正式的書面文本輸出項目效果評估結(jié)果十分必要，而且一般會進行規(guī)范撰寫與多樣呈現(xiàn)。

1.規(guī)范的文本撰寫結(jié)構(gòu)

項目效果評估結(jié)果文本的撰寫結(jié)構(gòu)沒有一個統(tǒng)一的固定格式，需要評估人員根據(jù)多方面因素來確定。不過，令受眾信服的規(guī)范文本基本上均包含以下七個核心部分：

第一，導(dǎo)言。25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究在導(dǎo)言部分主要回顧了項目干預(yù)所針對的教育問題以及解決或改進這一問題的其他同類項目，重點介紹了該評估的目標項目（包括其邏輯模型、干預(yù)路徑等）、評估開展地的教育情境以及對這一項目進行效果評估的背景、目的、類型與問題等。第二，設(shè)計。25 項評估在設(shè)計部分主要描述了評估的方法設(shè)計（包括具體的數(shù)據(jù)收集與分析方法以及效果測量指標等），評估的倫理審查，評估的樣本招募、選擇與分配，項目干預(yù)的培訓(xùn)與實施。第三，發(fā)現(xiàn)。25 項評估在發(fā)現(xiàn)部分主要以圖表的形式客觀揭示項目效果數(shù)據(jù)分析的發(fā)現(xiàn)。第四，討論。25 項評估在討論部分主要是進一步解釋評估發(fā)現(xiàn)。有些評估還會在這一部分討論項目干預(yù)實施存在的問題。還有些評估會討論項目干預(yù)實施與項目效果之間的因果機制。第五，總結(jié)。25 項評估在總結(jié)部分主要概述了評估的結(jié)論，評估的創(chuàng)新與局限，相關(guān)啟示與建議，如對未來相關(guān)評估研究與項目實踐發(fā)展方向的建議以及對教育政策制定者和教育實踐者的建議等。第六，致謝與聲明。25 項評估在致謝部分主要對評估所獲的經(jīng)費支持以及給予評估幫助和奉獻的所有相關(guān)人士表示感謝。此外，還通常會聲明評估研究的發(fā)現(xiàn)與總結(jié)僅是作者的研究結(jié)果，不代表評估研究利益攸關(guān)者中任何一方的官方立場。第七，附錄。25 項評估在附錄部分主要補充了樣本知情同意書，樣本分配工具，項目干預(yù)實施的培訓(xùn)材料和保真度評估工具，問卷、量表、訪談、觀察等數(shù)據(jù)收集工具，數(shù)據(jù)分析的統(tǒng)計模型，以及其他補充性數(shù)據(jù)分析等。

2.多樣的文本呈現(xiàn)形式

項目效果評估結(jié)果的文本撰寫完成之后，以何種形式呈現(xiàn)給評估受眾也需要評估人員深思。就25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究而言，其文本呈現(xiàn)形式主要有以下四種：

第一，技術(shù)報告。25 項評估中有15 項以技術(shù)報告（technical report）的形式呈現(xiàn)。技術(shù)報告也被稱為工作論文（working papers），通常被視為同行評審期刊論文的底稿。因此，相較于期刊論文，技術(shù)報告一般會詳細地呈現(xiàn)整個項目效果評估的各個方面，篇幅較長。此外，技術(shù)報告也特別重視內(nèi)容與視覺上的雙重吸引力，通常會有一個精心設(shè)計的封面，便于廣告和營銷、吸引受眾（尤其是非專業(yè)受眾）閱讀其內(nèi)容。值得注意的是，雖然評估研究的技術(shù)報告大都由評估人員所在組織發(fā)布，但有時也會交由項目研發(fā)或管理組織或者評估經(jīng)費支持組織來發(fā)布。第二，期刊論文。25 項評估中有8 項以期刊論文的形式呈現(xiàn)。相較于技術(shù)報告，正式發(fā)表的期刊論文因期刊載體的限制，篇幅大都比較精簡。但考慮到細致呈現(xiàn)評估研究的必要性，許多期刊也在官方網(wǎng)站上開設(shè)了網(wǎng)絡(luò)附錄，即將評估的支持性信息、補充性材料或附錄的電子版添置在期刊的網(wǎng)站上，受眾可自行查閱并下載。第三，學(xué)位論文。25 項評估中有1 項以俄勒岡大學(xué)（University of Oregon）博士學(xué)位論文的形式呈現(xiàn)。第四，會議論文。25 項評估中也有1 項以美國教育效能研究學(xué)會2016 年年會論文的形式呈現(xiàn)。

（三）評估產(chǎn)品：大力傳播與有效使用

以各種形式呈現(xiàn)出的評估研究結(jié)果即為評估研究的最終產(chǎn)品。但這個產(chǎn)品的完成并不意味著評估的結(jié)束，它會被進一步大力傳播與有效使用。

1.媒介助力的產(chǎn)品傳播

評估產(chǎn)品面向社會公眾的宣傳與傳播一般會借助新聞發(fā)布、網(wǎng)站公告、博客和社交軟件、郵件訂閱、研究簡報、宣傳手冊、網(wǎng)絡(luò)研討會、項目研發(fā)或管理組織的年度會議、其他專業(yè)社群年會等多種媒介與途徑。

例如，在25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究中，“學(xué)校中的社區(qū)”組織對《“學(xué)校中的社區(qū)”芝加哥伙伴項目對學(xué)生學(xué)業(yè)成就影響的實驗證據(jù)》（Figlio，2015）這一評估產(chǎn)品的宣傳與傳播主要借助的是該組織的季度簡報這一媒介。而“星火”項目的研發(fā)組織“男孩女孩俱樂部”（Boys &Girls Club）主要通過組織的領(lǐng)導(dǎo)人會議、年度會議和網(wǎng)絡(luò)信息系統(tǒng)對《“星火”早期讀寫項目的隨機對照實驗評估結(jié)果》（Jones，Christian，&Rice，2016）這一評估產(chǎn)品在全美范圍內(nèi)進行宣傳與傳播。

2.實用本位的產(chǎn)品使用

美國教育評估標準聯(lián)合委員會發(fā)布的《項目評估標準》首先將“實用”（utility）列為判斷評估研究質(zhì)量的第一大類標準。因此，通過報告會等多種途徑與形式，同項目研發(fā)或管理組織方、評估經(jīng)費支持方等利益攸關(guān)者反復(fù)溝通與交流評估產(chǎn)品以充分發(fā)揮產(chǎn)品的功能與作用，十分必要且重要。具體來看，評估產(chǎn)品的使用主要包括五種核心類型：第一，工具性使用（instrumental use），指評估產(chǎn)品被直接用來決策或解決問題；第二，概念性使用（conceptual use），指評估產(chǎn)品用來影響受眾的思維觀念；第三，象征性使用（symbolic use），指評估產(chǎn)品無意被真正使用，其意義僅是象征性的存在；第四，勸服性使用（persuasive use），即對評估產(chǎn)品進行選擇性使用，以支持某種既存的立場。第五，辯護性使用（legitimate utilization），指評估產(chǎn)品被決策者用來為某種已定決策辯護（Mertens &Wilson，2019，pp.485-486）。

僅就其中的工具性使用而言，評估產(chǎn)品可被直接用來應(yīng)對利益攸關(guān)者的問責，指導(dǎo)教育政策者與實踐者對項目的采納決策，敦促項目的改進與完善，助力市場營銷與經(jīng)費申請，等等（Giancola，2014，pp.68-73）。例如，在25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究中，《通過干預(yù)家長觀念來減少低年級學(xué)生的缺勤》（Robinson et al.，2018）和《通過干預(yù)家長錯誤觀念來大規(guī)模減少學(xué)生缺勤》（Rogers &Feller，2018）這兩個“每日在校實驗室”項目評估產(chǎn)品就被項目評估人員（同時也是項目研發(fā)人員）用來推進與項目同名的管理組織的建立。

八、結(jié)語：美國基礎(chǔ)教育項目效果評估的實踐趨勢

盡管目前美國基礎(chǔ)教育項目效果評估積累了豐富的實踐經(jīng)驗，但毋庸諱言，美國基礎(chǔ)教育項目效果評估尤其是利用隨機對照實驗和準實驗設(shè)計方法開展的效果評估還存在諸多問題：首先，實驗研究方法本身并非完美無缺；其次，在開展過程中，實驗研究還存在耗費大量財力、人力、物力、時間成本的問題，這從25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究的經(jīng)費、人員、項目干預(yù)培訓(xùn)和開展時長中可以看出；最后，也還存在研究質(zhì)量不高的問題，這從25 項高質(zhì)量學(xué)生出勤改進項目效果評估研究篩選自2000 余項同類研究中也能夠看出來。⑩

不過值得注意的是，目前美國基礎(chǔ)教育項目效果評估在正視問題、努力提升質(zhì)量的同時，也開始不斷迸發(fā)出新的發(fā)展趨勢：第一，激勵學(xué)校參與實驗評估。針對“隨機分配是不公平的，剝奪了對照組學(xué)校實施項目干預(yù)的機會”的批評，以及學(xué)校不愿意參與實驗研究尤其是作為對照組的現(xiàn)實問題，項目效果評估項目開始采取一些激勵舉措，譬如，待實驗研究結(jié)束后，在對照組學(xué)校中補償實施項目干預(yù)，或者直接給予對照組學(xué)校一定的經(jīng)費補貼（Slavin &Cheung，2017）。第二，開展復(fù)制性效果評估。效仿物理、生物、化學(xué)等硬科學(xué)領(lǐng)域的科學(xué)研究，教育領(lǐng)域同樣也需要對早期階段的效果評估，尤其是顯示出項目積極效果的效果評估，進行復(fù)制、驗證與延伸。目前，復(fù)制性效果評估在美國也得到了許多引導(dǎo)與資助，例如，2018 年美國教育科學(xué)研究院和國家科學(xué)基金會又合作推出《教育研究的復(fù)制與再現(xiàn)指南》（Companion Guidelines on Replication &Reproducibility in Education Research），以作為2013 年《教育研究與開發(fā)指南》的補充。與此同時，美國教育科學(xué)研究院在年度教育研究立項資助中還專門設(shè)置了針對效力評估復(fù)制性研究和效能評估復(fù)制性研究的立項資助。第三，開展推廣性效果評估。許多循證教育改革的批判者都表達過“在一些學(xué)校里開展的項目效果評估無法推廣到其他不同類型學(xué)?！保⊿lavin，2020）的擔憂，所以，相比于在“理想”和“典型”學(xué)校教育教學(xué)情境中的效力評估和效能評估，開展在更廣地域范圍內(nèi)和更加多樣化的學(xué)生群體里的推廣性效果評估，更有利于確保被其證實有效的項目在日后的大規(guī)模推廣。第四，在效果評估之后繼續(xù)進行經(jīng)濟評估（economic evaluation）。在對項目進行效果評估、判斷項目的實施是否帶來了更好的結(jié)果之后，繼續(xù)進行成本分析（cost analysis）、成本—效益（cost-benefit）分析、成本—效能（cost-effectiveness）分析等經(jīng)濟評估，更有利于項目成效的全面評估以及大規(guī)模推廣的明智決策。

綜上所述，雖然美國基礎(chǔ)教育項目效果評估的實踐經(jīng)驗無法完全移植到我國，但為我國教育政策、項目或?qū)嵺`評估研究的實踐發(fā)展提供了如下有益啟發(fā)：第一，政府等社會各界需要重視并加大對評估研究的經(jīng)費支持力度。評估研究并非一日之功，充足的經(jīng)費會帶來一定的激勵與保障。第二，高校等專業(yè)組織需要不斷加強對專門評估人才的培養(yǎng)與訓(xùn)練。譬如，開設(shè)相關(guān)學(xué)科、專業(yè)、學(xué)位項目和課程，成立專業(yè)社群，創(chuàng)辦專業(yè)期刊，發(fā)布專業(yè)規(guī)范。第三，各類評估研究人員需要努力建設(shè)科學(xué)規(guī)范地開展評估研究的能力，尤其是設(shè)計和實施高質(zhì)量實驗研究的能力。第四，相關(guān)利益攸關(guān)者不僅需要有效使用評估研究成果、充分發(fā)揮評估研究價值，也需要盡可能參與到評估研究過程中去。最后，也可嘗試進一步整合教育政策、項目或?qū)嵺`評估研究的證據(jù)發(fā)現(xiàn)，建立證據(jù)庫，推進科學(xué)、有效、可行的循證教育改革。

（致謝：感謝匿名評審專家給本文提出的修改建議。時晨晨工作郵箱：cshi92@ruc.edu.cn。）

注釋：

①美國約翰·霍普金斯大學(xué)教育研究與改革中心（https://education.jhu.edu/crre/）的核心業(yè)務(wù)正是項目效果評估與循證教育改革。

②在2015 年《每個學(xué)生都成功法》頒布之后，美國約翰·霍普金斯大學(xué)教育研究與改革中心在其原有的“最佳證據(jù)百科全書”（Best Evidence Encyclopedia,http://www.bestevidence.org/）基礎(chǔ)之上，于2017 年新建“《每個學(xué)生都成功法》證據(jù)庫”（https://www.evidenceforessa.org/）。截至目前，該庫已經(jīng)完成了對全美境內(nèi)PK-12 年級閱讀、數(shù)學(xué)、社會-情感學(xué)習(xí)、學(xué)生出勤等領(lǐng)域項目效果評估的證據(jù)整合，此外也正在進行科學(xué)、寫作、放學(xué)后教育、暑期教育等其他PK-12 教育領(lǐng)域項目效果評估的證據(jù)整合。

③本質(zhì)而言，項目效果評估是由評估人員在現(xiàn)實世界情境中開展的一場與多方利益攸關(guān)者不斷磋商、妥協(xié)與共識的“政治性”（politics）研究。也正是由于其復(fù)雜的“政治性”內(nèi)核屬性，不同評估人員在不同時間與地點開展的對同一項目的效果評估，會存在研究質(zhì)量不一、效果證據(jù)不一等問題。因此，基于嚴格標準篩選出高質(zhì)量的評估研究，并對它們的證據(jù)發(fā)現(xiàn)進行系統(tǒng)性綜述（systematic review）和元分析（meta-analysis）十分必要。而整合后的證據(jù)結(jié)果才是美國這場新近興起的循證教育改革的直接依據(jù)。

④這十條嚴格的篩選標準是美國約翰·霍普金斯大學(xué)教育研究與改革中心Robert Slavin 教授及其團隊自20 世紀80 年代以來開展的諸多項目效果評估與證據(jù)整合研究的經(jīng)驗產(chǎn)物，能夠有效確保最終篩選出的評估研究是高質(zhì)量的。而本文以這些高質(zhì)量評估研究為文本分析對象，是有助于達成研究目的的，因此也是合理的。

⑤除了主題文本分析以外，質(zhì)性文本分析的基本方法還包括評估文本分析（evaluative text analysis）和類型建構(gòu)文本分析（type-building text analysis）兩種。評估文本分析是指對文本中的相關(guān)信息（如現(xiàn)狀、程度、情感等）進行等級性評估，例如，評估文本中“教師的失業(yè)表現(xiàn)”是“高度自信”“一般自信”還是“不自信”等。類型建構(gòu)文本分析則是指對文本中的相關(guān)概念（如模式、屬性、行為等）進行類型學(xué)總結(jié)，例如，將文本中“失業(yè)社群應(yīng)付失業(yè)的心態(tài)”總結(jié)為“不屈服型”“放棄型”“失望型”和“漠然型”等四種類型。由此可見，本文選擇主題文本分析這一質(zhì)性文本分析方法是適切的，是有益于解答研究問題并得出研究發(fā)現(xiàn)的。

⑥在主題文本分析中，主題建構(gòu)的方式主要有兩種。一種是基于研究問題、相關(guān)理論或者先驗知識以及已有經(jīng)驗，自上而下的演繹式建構(gòu)，通常用于主要主題的建構(gòu)；一種是基于實證數(shù)據(jù)或資料自下而上的歸納式建構(gòu)，通常用于次要主題的建構(gòu)。

⑦主題文本分析的分析與呈現(xiàn)方式主要有七種。除了最為常見的主要、次要主題分析與呈現(xiàn)以外，其余六種分別是：主要主題之間的關(guān)系分析與呈現(xiàn)，主要主題之下各次要主題之間的關(guān)系分析與呈現(xiàn)，資料呈現(xiàn)、圖示與可視化展示，質(zhì)性與量化交叉表，案例綜述，對所選案例進行深度詮釋。

⑧盡管18 個學(xué)生出勤改進項目均包含有學(xué)生出勤干預(yù)，但有些項目的核心干預(yù)并不在此。所以，如果從核心干預(yù)角度來看，這些項目中有些還可以被視為早期讀寫項目、放學(xué)后教育項目、社會—情感學(xué)習(xí)項目、輟學(xué)預(yù)防項目、暴力預(yù)防項目，等等。

⑨所謂處理中的處理分析，是指評估人員僅獲取和使用流失后的最終樣本的后測數(shù)據(jù)。它能夠解決意向處理分析中使用已經(jīng)流失樣本的后測數(shù)據(jù)所存在的問題，但在隨機對照實驗中則會威脅到其原本的隨機分配。

⑩那些被篩選掉的學(xué)生出勤改進項目效果評估研究的低質(zhì)量問題突出表現(xiàn)在：第一，在評估研究設(shè)計上，缺少對照組，沒有為實驗組樣本匹配相似的對照組樣本；或者在實驗組實施干預(yù)之后為其事后匹配相似的對照組并加以分析；采用項目研發(fā)人員或者項目評估人員自制的效果測量指標。第二，在評估研究實施上，樣本量低于30 人每組；項目干預(yù)實施時間低于12 周；項目由評估人員實施，或者評估人員對項目實施給予過多支持；缺少對項目干預(yù)實施保真度的數(shù)據(jù)收集。第三，在評估研究結(jié)果上，要么沒有使用正確的數(shù)據(jù)分析方法，例如，沒有根據(jù)樣本的分配水平使用正確的統(tǒng)計分析技術(shù)，沒有使用針對樣本流失問題的意向處理分析路徑；要么沒有提供充分的數(shù)據(jù)分析結(jié)果以計算出項目出勤效果的效應(yīng)值和統(tǒng)計顯著性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

美國基礎(chǔ)教育項目效果評估經(jīng)驗何在？＊——基于25 項高質(zhì)量評估研究的主題文本分析