楊佳樂
(中國社會科學(xué)評價研究院,北京 100732)
如何評價高等教育機(jī)構(gòu)科研績效是一個全球性難題。不同國家結(jié)合各自科研體系特征開展科研評價,如英國的科研卓越框架(Research Excellence Framework,REF)、澳大利亞的卓越科研(Excellence in Research for Australia,ERA)和參與和影響評價(Engagement and Impact Assessment,EI)等。英國對高等教育機(jī)構(gòu)進(jìn)行科研評價可追溯至20 世紀(jì)80年代,經(jīng)過不斷調(diào)試完善,2014 年啟動首輪REF,2021 年最新一輪REF 落下帷幕。21 世紀(jì)初澳大利亞也宣布面向本國高等教育機(jī)構(gòu)實(shí)行科研評價。2009 年試行ERA,目前已完成2010、2012、2015、2018 和2021 五輪評估工作,下一輪預(yù)計(jì)將于2023年進(jìn)行。2018 年EI 和ERA 共同推出,旨在評價科研人員與行業(yè)、政府、社區(qū)等科研最終用戶的互動,以及大學(xué)如何將研究成果轉(zhuǎn)化為經(jīng)濟(jì)、社會、環(huán)境、文化或其他影響。EI 要求參評大學(xué)提供影響案例,由評估組專家對影響力(即科研成果帶來的各種影響)和影響方式(即大學(xué)將科研成果轉(zhuǎn)化為影響力的方式)作出高中低三檔評級。每輪評估結(jié)束后兩國都會對科研評價本身進(jìn)行再評價(即科研元評價),以保證新一輪科研評價能夠不斷適應(yīng)科研新發(fā)展環(huán)境與新組織模式,及時回應(yīng)高等教育部門、政府和社會公眾等利益相關(guān)者訴求,可以說科研元評價是英澳科研評價體系保持與時俱進(jìn)的重要治理機(jī)制。
在中國,高等教育機(jī)構(gòu)科研評價也日益成為政府關(guān)注、學(xué)界關(guān)心和社會關(guān)切的焦點(diǎn)問題,“雙一流”建設(shè)成效評價、學(xué)科評估、學(xué)位點(diǎn)評估等均涉及科研評價,并嘗試構(gòu)建具有中國特色、世界水平的科研評價體系。圍繞他國歷次科研評價的組織實(shí)施[1]、指標(biāo)體系[2-3]、評價流程[4]、評價方法[5-6]、演變邏輯等[7],國內(nèi)已有諸多文獻(xiàn)予以介紹,為優(yōu)化我國科研評價實(shí)踐提供了寶貴經(jīng)驗(yàn)參考,但對于科研元評價卻鮮有涉及。科研元評價作為一種治理手段,發(fā)揮著監(jiān)測科研評價目標(biāo)達(dá)成、完善科研評價方案制定、發(fā)現(xiàn)科研評價執(zhí)行偏差、優(yōu)化科研評價實(shí)施方式、改進(jìn)科研評價結(jié)果使用等重要功能,是構(gòu)建高質(zhì)量評價體系,實(shí)現(xiàn)以評促建的必要一環(huán),不過目前我國尚未建立完善的科研元評價制度。而英澳兩國開展的科研元評價對我國具有借鑒意義:從時間上看,英國和澳大利亞于2020 年正式啟動最新一輪科研元評價,能夠體現(xiàn)兩國科研元評價的最新動向;從內(nèi)容上看,英澳兩國已在跨學(xué)科評價、非學(xué)術(shù)影響評價等熱點(diǎn)難點(diǎn)問題上作出先期探索,其科研元評價中總結(jié)的經(jīng)驗(yàn)以及風(fēng)險點(diǎn)可以為他國建立健全科研元評價制度貢獻(xiàn)行動指南和風(fēng)險前瞻。因此本研究將采取平視視角,在總結(jié)英國和澳大利亞科研元評價成功經(jīng)驗(yàn)的同時也客觀呈現(xiàn)其不足之處,繼而提出我國開展科研元評價的可行之策。
元評價最早是由Scriven[8]在20 世紀(jì)60 年代末評估教育產(chǎn)出時創(chuàng)造的術(shù)語,意指評價的評價。Stufflebeam[9]將元評價定義為描述一項(xiàng)評價活動,并對其是否為一項(xiàng)好評價進(jìn)行價值判斷的過程。他提出元評價的8 個假設(shè):(1)評價是對價值的判斷,因此元評價就是對評價活動的價值判斷;(2)評價服務(wù)于決策和問責(zé),因此元評價既要提供服務(wù)于評價活動的前瞻性決策信息,也要提供服務(wù)于評價活動問責(zé)的回溯性信息;(3)評價應(yīng)對目標(biāo)、設(shè)計(jì)、執(zhí)行和結(jié)果做出判斷,因此元評價應(yīng)該對評價目標(biāo)的重要性、評價設(shè)計(jì)的適當(dāng)性、評價執(zhí)行的充分性和評價結(jié)果的質(zhì)量作出判斷;(4)評價應(yīng)提供描述信息、評判信息和適當(dāng)建議,因此元評價應(yīng)描述和評判評價活動,并就如何改進(jìn)評價與合理利用評價結(jié)果提出建議;(5)評價應(yīng)服務(wù)于全部評價對象,因此元評價應(yīng)服務(wù)于全部評價者及對評價活動感興趣者;(6)評價通常(但不總是)由局內(nèi)人進(jìn)行形成性評價,由局外人進(jìn)行總結(jié)性評價,因此元評價應(yīng)由評價者進(jìn)行形成性元評價,同時接受來自外部的總結(jié)性元評價;(7)評價過程包括描述問題、收集和分析數(shù)據(jù)、使用數(shù)據(jù)來決策和問責(zé),元評價過程也應(yīng)遵循上述步驟;(8)評價必須滿足技術(shù)可行性、有用性和有效性,元評價必須滿足相同標(biāo)準(zhǔn)。從類型看,元評價分為總結(jié)性元評價(summative meta evaluation)和形成性元評價(formative meta evaluation),前者關(guān)注評價績效對評價標(biāo)準(zhǔn)的完成度;后者則側(cè)重考察評價方案設(shè)計(jì)以及評價實(shí)施流程情況,并通過提供持續(xù)反饋不斷優(yōu)化評價實(shí)踐[10],已成為保障評價質(zhì)量的重要手段[11]。
元評價濫觴于美國教育評價領(lǐng)域,后逐步擴(kuò)散至其他領(lǐng)域。我國在20 世紀(jì)90 年代即有學(xué)者探討教育元評價的原則與應(yīng)用[12],學(xué)術(shù)元評價[13]、學(xué)科元評價和科研元評價也紛至沓來[14-16]。開展元評價需要明確誰來評價、評價什么、如何評價以及怎樣使用評價結(jié)果4 個關(guān)鍵問題,因而本研究圍繞主體維、內(nèi)容維、方法維和結(jié)果維4 個維度構(gòu)建科研元評價分析框架。其中,內(nèi)容維參考弗蘭克·費(fèi)希爾[17]提出的公共政策評估綜合框架,根據(jù)實(shí)證評估與規(guī)范評估相統(tǒng)一原則,不僅從操作層面評估科研評價制度的執(zhí)行情況,而且注重對科研評價制度進(jìn)行價值判斷。該框架涵蓋兩個層面,第一個層面評價政策結(jié)果和出現(xiàn)這些結(jié)果的情景,弗蘭克·費(fèi)希爾[17]將之概括為專業(yè)驗(yàn)證和情景確認(rèn)兩部分內(nèi)容。專業(yè)驗(yàn)證多通過實(shí)證量化手段重點(diǎn)評價政策是否完成既定目標(biāo),以及還帶來哪些未曾預(yù)料的后果;情境確認(rèn)則通過訪談、現(xiàn)場觀察和案例研究等方法確認(rèn)政策目標(biāo)之外的情況。第二個層面轉(zhuǎn)換到更大的社會系統(tǒng)之中,評價政策對社會系統(tǒng)的影響,以及社會秩序背后的價值判斷,可概括為社會論證和社會選擇。社會論證借助社會系統(tǒng)分析或結(jié)構(gòu)功能分析考察政策目標(biāo)對社會整體的貢獻(xiàn)和價值,以及所導(dǎo)致的意想不到的社會后果;社會選擇則使用構(gòu)建理想型、哲學(xué)思辨、邏輯推理等方法評價維持社會秩序的意識形態(tài)是否為公平合理地解決價值沖突奠定基礎(chǔ)(見圖1)。
圖1 科研元評價分析框架
本研究基于英澳兩國發(fā)布的《理解英國科研人員對REF 的看法:REF 實(shí)時評估》(Understanding Perceptions of the Research Excellence Framework Among UK Researchers: The Real-Time REF Review)、《對澳大利亞研究理事會2018 年EI 中影響力部分的評估:發(fā)現(xiàn)和觀察》(An Evaluation of the Impact component of the Australian Research Council's 2018 Engagement and Impact Assessment:Findings and Observations)、《2020 年ERA 和EI 評估咨詢報告》(ERA EI Review Consultation Paper 2020)等科研元評價報告,遵循“主體—內(nèi)容—方法—結(jié)果”四維框架剖析英國和澳大利亞科研元評價經(jīng)驗(yàn)啟示,同時也對他國經(jīng)驗(yàn)的適用性予以必要反思。
英國REF 元評價分為預(yù)評價和正式評價兩個階段。預(yù)評價在謝菲爾德大學(xué)、卡迪夫大學(xué)、蘇塞克斯大學(xué)和林肯大學(xué)4所大學(xué)中進(jìn)行評價可行性試點(diǎn),正式評價委托第三方蘭德公司以及卡迪夫大學(xué)和謝菲爾德大學(xué)共同實(shí)施,蘭德公司屬于第三方評估機(jī)構(gòu),卡迪夫大學(xué)和謝菲爾德大學(xué)因其參與過預(yù)評估,已經(jīng)積累了一定經(jīng)驗(yàn),所以可以一定程度保證科研元評價的順利進(jìn)行。
澳大利亞委托第三方專家咨詢委員會對ERA 和EI 實(shí)施元評價。該咨詢委員會成員由四方面專家組成。一是政府部門專家,包括:澳大利亞聯(lián)邦科學(xué)與工業(yè)研究組織戰(zhàn)略主管,教育、技能和就業(yè)部高等教育處一等助理秘書,國家衛(wèi)生和醫(yī)學(xué)研究理事會首席執(zhí)行官,澳大利亞國際農(nóng)業(yè)研究中心專員,工業(yè)、科學(xué)、能源和資源部科學(xué)和商業(yè)化政策司司長等;二是大學(xué)及其他組織專家,大學(xué)中人文與社會科學(xué)、自然科學(xué)領(lǐng)域?qū)<揖猩婕?,并且特別邀請高等教育領(lǐng)域以及本土研究領(lǐng)域(針對澳大利亞原住民和托雷斯海峽島民的系列研究)專家參與評價,其他組織專家包括澳大利亞國家博物館主管以及工業(yè)集團(tuán)首席執(zhí)行官;三是澳大利亞首席科學(xué)家;四是科研評價專家,如高等教育標(biāo)準(zhǔn)專家組主席等。
除組建專家咨詢委員會外,ERA 和EI 元評價還設(shè)有公開咨詢、專家工作組咨詢和利益相關(guān)者咨詢環(huán)節(jié),就具體問題向?qū)<易稍兾瘑T會提供意見建議。公開咨詢的反饋意見來自大學(xué)、科研人員個人、學(xué)會和引文數(shù)據(jù)供應(yīng)商。3 個專家工作組分別就ERA評估方法、參與敘述和本土研究提供專業(yè)意見。ERA 評估方法工作組由2018 年ERA 8 個科研評估委員會主席組成,職責(zé)是回應(yīng)各界對于科研評估學(xué)科差異的顧慮,確保新一輪科研評估能夠符合人文和社會科學(xué),以及STEM 學(xué)科各自特點(diǎn)。參與敘述工作組成員來自2018 年EI 評估專家組,職責(zé)是就如何評價科研參與、EI 定義等核心問題提供建議。本土研究工作組由從事原住民研究或具有相關(guān)文化背景的人員構(gòu)成,職責(zé)是保證科研評價能夠兼顧本土研究。其他利益相關(guān)者咨詢針對的問題更加聚焦,集中解決如何評價科研影響力、如何提高科研評價結(jié)果的使用價值、其他科研體系評價參與和影響的經(jīng)驗(yàn)借鑒,以及數(shù)據(jù)收集方式、評價基準(zhǔn)和等級設(shè)定等技術(shù)細(xì)節(jié)。
借鑒弗蘭克·費(fèi)希爾的公共政策評估綜合框架,REF、ERA 和EI 元評價可歸納為項(xiàng)目驗(yàn)證、情景確認(rèn)、社會論證和社會選擇四部分內(nèi)容,各項(xiàng)評價的內(nèi)容分布見表1。
表1 英澳科研元評價內(nèi)容分布情況
(1)項(xiàng)目驗(yàn)證。英國REF 元評價通過問卷調(diào)查評估科研人員視角下REF2021 的目標(biāo)達(dá)成情況,以及REF 對所屬科研共同體、英國科研人員群體和科研人員個人的積極或消極影響。題項(xiàng)設(shè)置為-3 至3 的7 級量表,-3 代表極大降低,0 代表沒有影響,3 代表極大提高。鑒于本輪REF 受到新冠肺炎疫情沖擊,問卷同時還考察新冠肺炎疫情對科研人員個人及所在機(jī)構(gòu)的影響。為了解處于不同職業(yè)發(fā)展階段科研人員對REF 的體驗(yàn)有何異同,REF 元評價問卷也調(diào)查了科研人員的職業(yè)發(fā)展情況,問題涵蓋:獲得最高學(xué)位的年份;是否正式參與REF;全職還是兼職;固定合同還是臨時合同;所在機(jī)構(gòu)名稱;分配在科研活動上的時間占比;研究領(lǐng)域在REF 中的歸屬;是否處于職業(yè)生涯早期。
澳大利亞ERA 元評價調(diào)查問卷關(guān)注ERA 的目標(biāo)達(dá)成情況、評價過程、評價指標(biāo)、評價方法和評價影響。在評價過程方面,聚焦數(shù)據(jù)收集周期和收集方式的合理性,數(shù)據(jù)公開范圍,評價等級設(shè)置,以及科研產(chǎn)出統(tǒng)計(jì)口徑。在評價指標(biāo)方面,考察科研產(chǎn)出數(shù)量、科研經(jīng)費(fèi)收入、科研成果轉(zhuǎn)化等指標(biāo)是否納入下一輪評估。在評價方法方面,比較引文分析法和同行評議法各自的優(yōu)劣勢,評價不同方法的適用性、評價結(jié)果的穩(wěn)健性和可比性,重點(diǎn)調(diào)查目前的評價方法是否能夠滿足ERA 的評價目標(biāo),以及如何改進(jìn)評價方法,特別是如何用好先進(jìn)技術(shù)和現(xiàn)有數(shù)據(jù)簡化評價流程。EI 元評價共設(shè)計(jì)兩套調(diào)查問卷:大學(xué)代表問卷和評估組成員問卷。前者面向大學(xué)高級主管、大學(xué)行政管理人員、青年科研人員和資深科研人員等群體,主要調(diào)查EI 的評價過程、評價方法與評價影響。評價過程模塊詢問影響力定義及范疇,案例提交要求、評價指南、案例模板、評價單元的合理性。評價方法模塊詢問以敘述方式呈現(xiàn)案例、影響評價時間范圍設(shè)定的合理性。評價影響模塊則涵蓋對科研人員行為的影響與對組織文化的影響兩個層面。后者圍繞EI 評價目標(biāo)達(dá)成情況,影響力和影響途徑分級評價的合理性,案例提交要求的合理性,EI 評價的積極和消極影響,以及改進(jìn)建議設(shè)計(jì)相應(yīng)題項(xiàng)。
(2)情景確認(rèn)。作為問卷調(diào)查的補(bǔ)充,英國REF 元評價還通過訪談形式深度了解科研人員的個性化情況,如對REF 的態(tài)度、REF2021 的準(zhǔn)備情況、對REF2021 新變化的看法、REF 未來的改進(jìn)方向等主觀性、開放性題目,并且詳細(xì)詢問問卷調(diào)查中暴露出的典型問題,如REF 是否損害科研質(zhì)量、參評機(jī)構(gòu)是否采取策略性包裝、填報評估數(shù)據(jù)是否帶來負(fù)擔(dān)、是否影響科研人員的心理健康等。
澳大利亞EI 元評價分別對評估組專家、大學(xué)代表、國際專家和澳大利亞科研理事會代表組織訪談,訪談內(nèi)容均涉及對EI 的總結(jié)性評價,但在分項(xiàng)評價上各有側(cè)重。面向評估組專家的訪談在評價方法上側(cè)重詢問目前方法的優(yōu)缺點(diǎn),對評估組角色、構(gòu)成、規(guī)模、工作量、專業(yè)技能、學(xué)術(shù)視角和非學(xué)術(shù)視角各自價值等的看法;在評價過程上側(cè)重詢問對評級標(biāo)準(zhǔn)、影響案例模板、案例提交要求、案例指南、影響敘述方式、未來潛在可用于評價影響的技術(shù)與定量指標(biāo)等的看法。面向大學(xué)代表的訪談側(cè)重下述內(nèi)容:機(jī)構(gòu)識別和案例遴選、評估過程的合理性;對之后科研工作和與科研最終用戶溝通的影響,以及這種影響是否存在學(xué)科差異;準(zhǔn)備影響案例的時間、精力和經(jīng)濟(jì)成本;在此過程中科研人員、科研輔助人員、管理人員和校外人員各自的角色;在何種程度以及通過何種方式改變所在大學(xué)的行為;對科研人員個體乃至研究生的影響;未來改進(jìn)建議。面向國際專家和澳大利亞科研理事會代表的訪談側(cè)重詢問分別評價參與和影響的合理性;影響力評價在方法和理論方面有何新進(jìn)展。
(3)社會論證。EI 的目標(biāo)之一即通過評估促進(jìn)澳大利亞高等教育系統(tǒng)與更廣泛的科研最終用戶加強(qiáng)聯(lián)系,并不斷產(chǎn)出發(fā)揮積極社會、經(jīng)濟(jì)、環(huán)境和文化影響的科研成果。因此,考察EI 目標(biāo)達(dá)成情況相當(dāng)于觀測科研評價對高等教育外部系統(tǒng)的影響。
(4)社會選擇。REF 元評價通過設(shè)置調(diào)查問卷題項(xiàng)采集調(diào)研樣本人口統(tǒng)計(jì)學(xué)信息,據(jù)此分析科研評價過程中是否存在年齡、性別、種族、婚姻、健康和家庭社會經(jīng)濟(jì)地位的歧視現(xiàn)象,從而實(shí)現(xiàn)科研元評價的價值判斷。
REF 元評價采用混合方法,一方面面向科研人員開展線上問卷調(diào)查,預(yù)調(diào)查(146 份回復(fù))與正式調(diào)查(2 934 份回復(fù))共回收問卷3 080 份;另一方面面向機(jī)構(gòu)領(lǐng)導(dǎo)、科研主管及科研人員組織一對一訪談和焦點(diǎn)小組訪談,共計(jì)訪談126 人。
EI 元評價于2017 開展預(yù)評估并向有關(guān)專家征求意見,正式評估也采用混合方法,合計(jì)訪談大學(xué)代表12 人,評估組成員15 人,來自英國、澳大利亞、歐盟和北美的國際專家8 人,澳大利亞科研理事會工作人員5 人。EI 共分為5 個評估組:社會科學(xué)組、創(chuàng)意藝術(shù)和人文組、科學(xué)與技術(shù)組、健康和生命科學(xué)組、原住民和托雷斯海峽島民研究組。同時通過郵件向參與EI2018 的12 所大學(xué)代表、評估組成員發(fā)放調(diào)查問卷131 份,回收97 份。大學(xué)抽樣綜合考慮地理位置、院校定位和院校規(guī)模,從院校定位看,樣本包括4 所G8 聯(lián)盟高校 (Group of Eight)、澳大利亞技術(shù)聯(lián)盟高校(Australian Technology Network)、創(chuàng)新研究高校(Innovative Research Universities)、區(qū)域大學(xué)聯(lián)盟高校(Regional Universities Network)和其他高校各2 所。院校規(guī)模根據(jù)累積全時當(dāng)量和向ERA 提交的科研產(chǎn)出比例判斷,占比前50%屬于大規(guī)模高校,占比51%~80%屬于中等規(guī)模高校;占比后20%屬于小規(guī)模高校。
由此可見,英國和澳大利亞的科研元評價方法仍以傳統(tǒng)的問卷調(diào)查與利益相關(guān)者訪談為主,元評價方法的規(guī)范性、豐富性不足也形成若干潛在風(fēng)險。首先,問卷設(shè)計(jì)上的缺陷致使調(diào)查數(shù)據(jù)質(zhì)量并不高,只能滿足簡單的描述性統(tǒng)計(jì)需求,并不能支撐深入的數(shù)據(jù)挖掘需要,所得到的評價結(jié)論中因果關(guān)系是否真實(shí)可信,會不會存在樣本選擇偏誤、反向因果、遺漏變量等內(nèi)生性問題,凡此種種其實(shí)都要打上問號。其次,元評價方法的單一也嚴(yán)重制約了發(fā)現(xiàn)新穎評價結(jié)論的可能性。盡管已有學(xué)者嘗試在元評價中使用文獻(xiàn)計(jì)量[18]、模糊邏輯(fuzzy logic)等方法[19],但英澳目前開展的科研元評價中并未涉及。
(1)評價目標(biāo)達(dá)成度。元評價的首要目的是考察科研評價對既定目標(biāo)的達(dá)成度。REF、ERA 和EI元評價結(jié)果顯示,兩國科研評價較好達(dá)成促進(jìn)卓越、輔助決策、展示質(zhì)量和方便比較4 項(xiàng)目標(biāo)。其一,由于嚴(yán)格評價科研質(zhì)量,引導(dǎo)兩國高等教育系統(tǒng)更加注重科研質(zhì)量而非數(shù)量。其二,評價結(jié)果提供了關(guān)于高等教育系統(tǒng)科研活動的豐富信息,能夠有力支撐大學(xué)、行業(yè)、政府和社區(qū)利益相關(guān)者決策。其三,特別是向政府和公眾呈現(xiàn)本國高等教育系統(tǒng)科研質(zhì)量的證據(jù),為政府選擇性分配科研經(jīng)費(fèi)以及公眾投資科研提供問責(zé)依據(jù)。其四,樹立科研績效標(biāo)桿,使得國際國內(nèi)比較成為可能。
(2)評價影響。除既定目標(biāo)外,元評價結(jié)果還表明科研評價會帶來意料之外的影響。如大多數(shù)科研人員認(rèn)為REF 雖然促進(jìn)了科研繁榮,加強(qiáng)了科研活動的公共聯(lián)系,并且增加了研究開放性,使得科研成果,研究方法或研究數(shù)據(jù)更廣泛可得,但在跨學(xué)科研究方面,REF 的影響并不顯著。同時被評價機(jī)構(gòu)為最大化科研評價績效會采取操縱教師招聘或包裝科研影響力等策略,而這些策略行為還可能給科研誠信及科研傾向造成負(fù)面影響,特別是反映科研人員知識興趣的自主性研究以及原創(chuàng)性研究比例有所降低,REF 損害科研自主權(quán)已然引起學(xué)界反思[20]。此外,大部分受訪者認(rèn)為REF 對其個人幾乎沒有影響[21](見表2)。不過科研評價影響也存在院校與學(xué)科差異,研究型大學(xué)感受到的負(fù)面影響高于非研究型大學(xué),藝術(shù)和人文學(xué)者感受到的負(fù)面影響高于自然科學(xué)學(xué)者。
表2 REF 對科研共同體及科研人員個體的影響
(3)評價不足及改進(jìn)。透過元評價,英澳科研評價至少在3 個方面存在不足,亟待改進(jìn)。第一,評價數(shù)據(jù)填報負(fù)擔(dān)壓力大。REF 等科研評價普遍要求參評機(jī)構(gòu)填報數(shù)據(jù),繁瑣的填報流程可能干擾正常的學(xué)術(shù)工作[22],尤其是在新冠肺炎疫情背景下,英澳大學(xué)普遍面臨財政預(yù)算收緊以及國際學(xué)生減少的雙重挑戰(zhàn),在此背景下特別需要減輕大學(xué)填報評估數(shù)據(jù)的負(fù)擔(dān)。元評價中提出4 點(diǎn)改進(jìn)建議。一是和已有填報數(shù)據(jù)合并。如使用Researchfish、教育、技能和就業(yè)部收集的高等教育科研數(shù)據(jù)合集(Higher Education Research Data Collection)和高等教育師資數(shù)據(jù)合集(Higher Education Staff Data Collection)以及其他既有科研數(shù)據(jù)。二是借助技術(shù)手段。有研究發(fā)現(xiàn)機(jī)器學(xué)習(xí)預(yù)測結(jié)果與REF 以同行評議為主的實(shí)際評價結(jié)果具有較高一致度,因而可以考慮引入機(jī)器學(xué)習(xí)等技術(shù)手段輔助評價[23]。三是管理高峰工作量。2018 年首輪EI 和ERA 同時進(jìn)行導(dǎo)致科研評價高峰工作驟增,因而元評價建議ERA 和EI 繼續(xù)作為單獨(dú)項(xiàng)目以每3 年評估一次的頻率運(yùn)行,二者安排在連續(xù)的歷年。四是刪除不必要的評估指標(biāo)。例如元評價發(fā)現(xiàn)在絕大多數(shù)情況下,ERA 中的科研應(yīng)用指標(biāo)并不影響評價單元的評價結(jié)果,因而這類指標(biāo)可能由于不再具有評估價值而被取消,這類指標(biāo)具體包括科研商業(yè)化收入、專利和注冊設(shè)計(jì)等。對REF 的元評價也顯示,產(chǎn)出、影響和環(huán)境3 個評價指標(biāo)高度正相關(guān),即使刪除其中一個指標(biāo)高等教育機(jī)構(gòu)的排名也不會發(fā)生太大變化[24]。
科研評價等級設(shè)置不合理。目前ERA 采取五級評分,最高分5 分表示被評價對象的科研績效突出,遠(yuǎn)高于世界標(biāo)準(zhǔn);3 分表示符合世界標(biāo)準(zhǔn),1 分表示遠(yuǎn)低于世界標(biāo)準(zhǔn)。但隨著澳大利亞大學(xué)科研質(zhì)量近年來的快速提高,2018 年ERA 評價結(jié)果顯示,90%的大學(xué)科研績效達(dá)到3 分及以上,致使ERA 無法有效區(qū)分高績效組,這一現(xiàn)象被形象地稱為“不斷膨脹的舒芙蕾”(souffle keeps on rising)[25]。EI 三級評分的等級設(shè)置則存在無法精確區(qū)分兩端大學(xué)科研表現(xiàn)的問題,因而元評價結(jié)果建議采用更細(xì)粒度的評級,同時提升評價基準(zhǔn)。這就需要召集專家工作組與利益相關(guān)方合作,共同修訂科研評價量表、引文和同行評議基準(zhǔn)、世界標(biāo)準(zhǔn)的定義和適用性,以及相關(guān)評價指南。
參評資料收集方式易操縱。2018 年ERA 使用人口普查日期(census date)的方法確定科研人員及其產(chǎn)出的參評資格。在這種方法下,如果一所大學(xué)于ERA 評價支撐資料收集截止日期前聘用一名高水平科研人員,那么該科研人員即使在另一所大學(xué)取得科研產(chǎn)出也有資格參評,這就留有操縱ERA 的風(fēng)險。因此,元評價認(rèn)為根據(jù)附在科研成果上的大學(xué)來確定參評資格是一種更公平的評價方式。
生產(chǎn)原創(chuàng)知識是科研活動的核心旨?xì)w,科研評價通常圍繞科研成果及其學(xué)術(shù)影響展開。伴隨知識生產(chǎn)方式從模式1 向模式2 轉(zhuǎn)型,科研評價除捕捉學(xué)術(shù)影響外還需考量更廣泛的經(jīng)濟(jì)、社會、文化、環(huán)境等非學(xué)術(shù)影響,英國REF 已將科研影響作為3個評價指標(biāo)之一(其余兩個分別為科研成果和科研環(huán)境),澳大利亞則在ERA 之外單設(shè)EI 專門評價科研影響力。在EI 中,澳大利亞引入科研最終用戶的概念,意指學(xué)術(shù)界外直接使用或直接受益于科研成果的個人、團(tuán)體或組織。典型的科研最終用戶包括政府、企業(yè)、非政府組織、社區(qū)和社區(qū)組織[26]。作為對科研評價的評價,科研元評價一方面依賴學(xué)術(shù)同行從專業(yè)視角判斷科研成果及學(xué)術(shù)影響力的評價過程是否合理以及評價結(jié)果可靠與否,另一方面也需要最終用戶從體驗(yàn)視角審視非學(xué)術(shù)影響力是否得到有效評價以及科研評價活動本身的成本收益。因此學(xué)術(shù)同行與最終用戶相結(jié)合的多主體模式無疑成為我國開展科研元評價的占優(yōu)策略。考慮到跨界合作可能面臨思維方式與行動風(fēng)格的大相徑庭,由學(xué)術(shù)同行與最終用戶組成專家組協(xié)同開展科研元評價必須建立順暢的溝通機(jī)制。在科研元評價開始前,由委托方組織專家組成員協(xié)商評價標(biāo)準(zhǔn)、熟悉評價流程、確定評價分工。在科研元評價過程中,設(shè)立溝通聯(lián)絡(luò)專員負(fù)責(zé)協(xié)調(diào)專家意見,促進(jìn)共識達(dá)成。
理論是實(shí)踐的燈塔,相比數(shù)據(jù)驅(qū)動,理論驅(qū)動下制定的科研元評價內(nèi)容邏輯性、系統(tǒng)性更強(qiáng)。英澳兩國科研元評價以弗蘭克·費(fèi)希爾的公共政策評估綜合框架為理論基礎(chǔ),覆蓋項(xiàng)目驗(yàn)證、情景確認(rèn)、社會論證和社會選擇四部分內(nèi)容,既從操作層面對REF、ERA 和EI 的執(zhí)行情況展開實(shí)證評價,又從價值層面判斷REF、ERA 和EI 與更龐大社會系統(tǒng)的互動,以及科研評價環(huán)節(jié)潛在的公平風(fēng)險。中國在設(shè)計(jì)科研元評價內(nèi)容時,弗蘭克·費(fèi)希爾的公共政策評估綜合框架同樣值得借鑒。從該理論框架的視域觀之,科研元評價的維度選取可分為兩類4 種:實(shí)證評價類指標(biāo)具體包括驗(yàn)證科研評價執(zhí)行情況的客觀指標(biāo),以及確認(rèn)科研評價情境差異的主觀指標(biāo);價值評價類指標(biāo)具體包括反映與社會系統(tǒng)耦合關(guān)系,以及社會倫理道德規(guī)范的相關(guān)指標(biāo)。其中,驗(yàn)證科研評價執(zhí)行情況的客觀指標(biāo)可對照評價目標(biāo)逐級設(shè)定,確認(rèn)科研評價情境差異的主觀指標(biāo)可在評價目標(biāo)基礎(chǔ)上適當(dāng)延伸,深度了解評價目標(biāo)實(shí)現(xiàn)的前因后果,以及目標(biāo)之外的衍生影響。價值評價類指標(biāo)可考察科研評價活動的社會輿情、價值導(dǎo)向、公平與效率等。
評價方法的科學(xué)性決定評價結(jié)果的可靠性,方法不恰當(dāng)不但難以實(shí)現(xiàn)預(yù)計(jì)評價目標(biāo),甚至得到錯誤結(jié)論,將科研評價引入歧途。從國際經(jīng)驗(yàn)看,科研元評價采取定量與定性相結(jié)合的混合評價方法已成大勢所趨。問卷調(diào)查、利益相關(guān)者訪談是常用的元評價數(shù)據(jù)收集手段,目前評價設(shè)計(jì)與后續(xù)數(shù)據(jù)分析技術(shù)均較為成熟。但仍需注意的是,混合評價法絕不是定量評價與定性評價的簡單組合,而在于根據(jù)不同的評價內(nèi)容選擇適合的評價方法,元評價內(nèi)容的豐富性決定了評價方法的混合性。通常而言,實(shí)證類評價內(nèi)容中客觀部分采用定量評價更合適,主觀部分和價值類評價內(nèi)容則更適合使用定性評價,且無論是定量評價還是定性評價都必須遵循規(guī)范步驟以保證數(shù)據(jù)質(zhì)量。此外,中國在科學(xué)規(guī)范使用傳統(tǒng)評價方法的基礎(chǔ)上還需不斷創(chuàng)新評價方法工具箱,可嘗試引入大數(shù)據(jù)、模糊邏輯、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等數(shù)智手段全方位、全要素、全流程開展科研元評價,提升元評價專業(yè)化程度。
從評價階段看,元評價主體、內(nèi)容和方法主要對應(yīng)評價前端,順利實(shí)現(xiàn)元評價根本目標(biāo)還有賴評價后端元評價結(jié)果的合理使用。按照性質(zhì)不同,科研元評價結(jié)果可大致歸為兩類:一類是圍繞科研評價目標(biāo)達(dá)成度的總結(jié)性結(jié)果;另一類是圍繞科研評價外溢影響、不足之處與改進(jìn)建議的形成性結(jié)果。不同類型的評價結(jié)果所承載的功能各異、缺一不可。英澳科研元評價中無一例外囊括兩類結(jié)果,總結(jié)性評價結(jié)果肯定了REF、ERA 和EI 基本達(dá)成質(zhì)量導(dǎo)向、支撐決策、問責(zé)循證和標(biāo)桿比較的既定目標(biāo),相當(dāng)于為各項(xiàng)科研評價繼續(xù)存在的合理性背書;形成性評價結(jié)果則提醒委托方科研評價在發(fā)揮正面作用的同時也可能引致逆向激勵策略包裝參評材料、損害科研誠信、科研原創(chuàng)性和自主性等負(fù)面影響,REF、ERA 和EI 在實(shí)施過程中暴露的評價數(shù)據(jù)填報負(fù)擔(dān)重、評價等級設(shè)置不合理和參評資料收集易操縱問題為下一輪科研評價改革指明了方向。全面覆蓋兩類評價結(jié)果,以及充分發(fā)揮不同性質(zhì)評價結(jié)果的比較優(yōu)勢也是中國開展科研元評價必須突破的重點(diǎn)問題??蒲性u價首先需對照科研評價活動的既定目標(biāo),總體判斷其實(shí)現(xiàn)程度,這是開展科研元評價的核心任務(wù),總結(jié)性評價結(jié)果將作為科研評價問責(zé)依據(jù)。但目標(biāo)導(dǎo)向的評價屬于封閉式評價,難以揭示目標(biāo)之外的非預(yù)期影響,因而必須結(jié)合開放式的影響評價,盡可能全面呈現(xiàn)科研評價活動對個人、組織、系統(tǒng)等不同層面評價對象的異質(zhì)性影響。同時,科研元評價的根本目的仍在于發(fā)現(xiàn)科研評價活動存在的典型問題,所以還需要通過形成性評價結(jié)果明確科研評價的改進(jìn)方向。
最后,英澳兩國與中國國情存在較大差異,評價情境的不同決定了中國不能照搬英澳經(jīng)驗(yàn),必須在參考借鑒基礎(chǔ)上探索適合中國國情的科研元評價制度。英國和澳大利亞的高等教育規(guī)模遠(yuǎn)小于中國,2020 年英國高等教育在學(xué)總規(guī)模275.19 萬人[27];澳大利亞高等教育在學(xué)總規(guī)模162.29 萬人[28],而根據(jù)中國教育部公布的數(shù)據(jù),同年全國(未包括香港特別行政區(qū)、澳門特別行政區(qū)和臺灣省。)在學(xué)總規(guī)模達(dá)到4 002 萬人[29]。科研評價活動本身已然占用不少的人力物力財力,鑒于中國超大規(guī)模的科研系統(tǒng)體量,科研元評價可能進(jìn)一步加劇評價成本,干擾科研工作正常運(yùn)行,造成資源效率雙重浪費(fèi),評價異質(zhì)性和復(fù)雜性也隨評價規(guī)模擴(kuò)大成指數(shù)級增長,簡單移植他國實(shí)踐具有南橘北枳風(fēng)險。另外,英澳科研元評價也并非無可挑剔的金科玉律,其局限性同樣值得反思。除元評價方法有待進(jìn)一步豐富完善外,元評價結(jié)果中指出的不足之處與改進(jìn)建議也更多停留在操作層面,未能觸及更深層次的評價理念、評價文化問題。事實(shí)上英澳兩國科研元評價興起背后有其特定的社會思潮根源,深受新自由主義、新公共管理主義催化,這也從另一角度表明必須批判借鑒兩國科研元評價經(jīng)驗(yàn)。