俞立平,張礦偉,蔣長兵
(1.浙江工商大學(xué)統(tǒng)計與數(shù)學(xué)學(xué)院,杭州310018;2.浙江工商大學(xué)管理工程與電子商務(wù)學(xué)院,杭州310018)
在科技評價中,代表作制度越來越受到重視。在創(chuàng)新型國家建設(shè)背景下,提高科研成果質(zhì)量已經(jīng)成為首要任務(wù)。2018年7月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)了《關(guān)于深化項目評審、人才評價、機構(gòu)評估改革的意見》①http://www.gov.cn/zhengce/2018-07/03/content_5303251.htm,明確突出品德、能力、業(yè)績導(dǎo)向,克服“四唯”傾向,推行代表作評價制度,注重標(biāo)志性成果的質(zhì)量、貢獻和影響。2018年10月,科技部、教育部、人力資源社會保障部、中科院和工程院聯(lián)合發(fā)布《關(guān)于開展清理“唯論文、唯職稱、唯學(xué)歷、唯獎項”專項行動的通知》②http://www.most.gov.cn/tztg/201810/t20181023_142389.htm,要求開展清理“四唯”專項行動。2019年6月,中共中央辦公廳、國務(wù)院辦公廳發(fā)布了《關(guān)于進一步弘揚科學(xué)家精神加強作風(fēng)和學(xué)風(fēng)建設(shè)的意見》③http://www.gov.cn/zhengce/2019-06/11/content_5399239.htm,提出大力弘揚科學(xué)家精神,營造風(fēng)清氣正的科研環(huán)境。2020年2月,科技部印發(fā)《關(guān)于破除科技評價中“唯論文”不良導(dǎo)向的若干措施(試行)》的通知④http://www.most.gov.cn/xxgk/xinxifenlei/fdzdgknr/fgzc/gfxwj/gfxwj2020/202002/t20200223_151781.html,提出在科技項目、科研基地、基礎(chǔ)研究機構(gòu)、國家獎勵和人才評估等方面全面推行代表作制度。對各種科技評價中實行代表作制度提出了具體的要求。
代表作制度的推廣與實施已經(jīng)成為一種必然趨勢,對其存在的問題進行深度分析具有重要意義。首先,對代表作制度存在問題的分析有利于推進科技評價理論;其次,有利于發(fā)現(xiàn)其中存在的問題,從而有利于采取必要的政策措施,進一步優(yōu)化代表作制度;最后,從長遠的角度,有利于保證學(xué)術(shù)公平,調(diào)動廣大科技人員的積極性,為建設(shè)創(chuàng)新型國家服務(wù)。
代表作制度日漸成為世界上學(xué)術(shù)界一種重要的學(xué)術(shù)評價制度。葉繼元[1]認(rèn)為,代表作是指能夠體現(xiàn)和衡量科研人員學(xué)術(shù)水平的代表性成果,作品的數(shù)量不再做硬性要求,數(shù)量再多也不加分。英國的科研評價體系逐漸從RAE(Research Assessment Ex‐ercise)過渡到RAF(Research Assessment Framework)的過程中,對高校教師進行業(yè)績考評和晉升審查時要求提交高質(zhì)量出版物[2]。荷蘭大學(xué)協(xié)會的科研評價則要求科研人員提供5份有代表性的出版物及其質(zhì)量和聲譽的其他材料[3]。
關(guān)于代表作制度的應(yīng)用,學(xué)術(shù)界存在一些爭議。有些學(xué)者總體上肯定代表作制度,俞吾金[4]指出,代表作制度主要是在文科教師職稱晉升中,對只重視論文數(shù)量這一做法的糾正。宋敏等[5]研究發(fā)現(xiàn),高等學(xué)校自然科學(xué)獎評選的同行評議結(jié)果與科學(xué)計量學(xué)指標(biāo)呈正相關(guān),可作為高校代表作評價制度開展的模式參考。臧峰宇[6]認(rèn)為,實施代表作評價有助于從源頭上遏制學(xué)術(shù)浮躁之風(fēng),擠破粗制濫造的學(xué)術(shù)泡沫,打破核心期刊的神話和迷信。
也有些學(xué)者指出代表作制度存在的一些問題。姜春林等[7]認(rèn)為,由于人文社會科學(xué)研究自身的復(fù)雜性、評審專家的認(rèn)知偏差、學(xué)科劃分、同行選擇和人情關(guān)系等因素的共同影響,導(dǎo)致代表作制度評價目前水平一般。田賢鵬[8]指出,由于評價過程中的程序公平難以保障,代表作的質(zhì)量評判標(biāo)準(zhǔn)無法統(tǒng)一,學(xué)術(shù)共同體的評價機制尚未健全,量化評價形成的制度利益破除困難等,導(dǎo)致代表作制評價的實踐探索陷入重重困境。符征[9]指出,實行代表作制度時,評審人也存在著能否讀懂論文問題。李濤[10]認(rèn)為,代表作制會導(dǎo)致職稱晉升的不可預(yù)期性,可能破壞高校學(xué)術(shù)梯隊的穩(wěn)定性,并加劇學(xué)術(shù)腐敗,誘發(fā)諸多新的學(xué)術(shù)危機。
代表作的評審主要依靠同行評議,但同行評議本身也存在一些問題。Wenner?s等[11]在Nature上撰文指出,同行評議容易造成裙帶關(guān)系和性別歧視。Marsh等[12]認(rèn)為,作為學(xué)術(shù)成果評價的守門員和仲裁者的同行評審專家,在對論文的評審過程中,存在著夸大事實和容易偏見等問題。Bornmann等[13]通過分析兩本期刊在不同季節(jié)來稿數(shù)量和評審標(biāo)準(zhǔn),發(fā)現(xiàn)同行專家的評審存在不公平現(xiàn)象。Bohannon[14]曾以一篇存在明顯科學(xué)問題的研究論文進行了大型投稿調(diào)查,發(fā)現(xiàn)304種開放存取期刊中退稿量僅占32.2%,即同行評議存在嚴(yán)重的有效性問題。姜春林等[15]認(rèn)為,在中國特定文化背景下,強大的關(guān)系社會帶來了非學(xué)術(shù)性干擾,很難使同行專家保持學(xué)術(shù)中立。
有學(xué)者針對代表作制度提出了改進建議。姜春林等[16]在探討代表作制在實施過程中可能存在的潛在問題的同時,提出科學(xué)合理的學(xué)術(shù)評價制度應(yīng)當(dāng)是基于同行評議的代表作制度與科學(xué)計量評價方法二者的有效結(jié)合。張積玉[17]提出,實行以量化為基礎(chǔ)代表作為主的綜合化評價制度,不失為保證學(xué)術(shù)評價科學(xué)合理、公平、公正且具可操作性的正確選擇。楊興林[18]認(rèn)為,有效減少學(xué)術(shù)代表作評價誤差,不僅需要評審專家確實學(xué)有專長和具有較好的學(xué)術(shù)良知,而且需要有相應(yīng)的制約機制為保障。杜學(xué)亮[19]認(rèn)為,代表作制度的關(guān)鍵在于兩個方面:一是建立公開透明的公示制度;二是建立配套的申訴復(fù)議制度。
從現(xiàn)有的研究來看,關(guān)于代表作制度的優(yōu)劣學(xué)術(shù)界還存在爭議,有研究者肯定代表作制度,也有研究者認(rèn)為代表作制度存在不少問題,包括代表作制度自身存在的問題以及引申出來的同行評議的相關(guān)問題。對于代表作制度的改進,學(xué)術(shù)界提出了眾多改進建議??傮w上在以下三方面有待進一步深入研究。
第一,對代表作制度存在的問題分析,缺乏一個系統(tǒng)的分析框架,這樣導(dǎo)致分析問題不夠全面和系統(tǒng)。
第二,從分析問題的方法來看,主要采用純理論邏輯分析,缺乏必要的數(shù)學(xué)分析和證明,國內(nèi)的實證研究也較少。
第三,由于上述兩個問題,導(dǎo)致政策建議也不夠全面,而且一些政策建議缺乏操作性。
本文首先建立代表作制度的分析框架,然后逐一對問題進行深度分析,并對代表作的可靠性和通過率進行證明,最后提出相關(guān)解決路徑與政策建議。
代表作評價對象如圖1所示。采用代表作評價主要有宏觀評價和微觀評價兩個層面,宏觀評價主要包括機構(gòu)評價、學(xué)科團隊評價、研究基地和實驗室評價,等等,其特點是評價對象是團隊總體為主,成果不是以單個學(xué)者為主,代表作數(shù)量一般也較多。微觀評價包括獎勵評價、項目評價、職稱評審和人才評價等,其特點是評價對象以單個學(xué)者為主,代表作數(shù)量一般也較少。關(guān)于代表作數(shù)量,科技部在《關(guān)于破除科技評價中“唯論文”不良導(dǎo)向的若干措施(試行)》指出,對于宏觀評價,代表作數(shù)量為10篇、20篇和40篇;對于微觀評價,代表作一般是5篇。
圖1 代表作評價對象
與同行論文評議一樣,代表作評價實質(zhì)是在進行內(nèi)容評價,而文獻計量評價實質(zhì)是在進行形式評價,雖然文獻計量評價在意內(nèi)容質(zhì)量,但其產(chǎn)生發(fā)展的動因只是在于能夠在某種程度上通過形式評價來幫助解決外行進行內(nèi)容質(zhì)量評價時所面臨的認(rèn)知困惑。因此,基于科研管理關(guān)切,兩種評價關(guān)注的終極目標(biāo)是一致的,但是在操作要求上有所不同,執(zhí)行效果亦各有千秋。對于微觀學(xué)者評價而言,基于代表作的評價方法是有意義的;而對于宏觀評價,由于評價工作量巨大往往采用形式評價。無論是代表作評價、同行評議評價,還是文獻計量評價,必須考慮評價方法的可執(zhí)行性、可操作性和評價結(jié)果的可接受性。
代表作制度的分析框架如圖2所示。從評價目的、評價對象、同行評議和評價技術(shù)四個方面展開。關(guān)于評價目的,主要從數(shù)量質(zhì)量與學(xué)科比較視角展開分析;關(guān)于評價對象,主要從論文選擇和學(xué)科異質(zhì)性兩個角度進行分析;關(guān)于同行評議,主要從環(huán)境背景、評審專家和操作程序三個方面開展分析;關(guān)于評價技術(shù),主要從可靠性與通過率角度開展分析。
圖2 分析框架
1)代表作制度缺乏規(guī)模評價視角
代表作評價本質(zhì)上是一種質(zhì)量評價,并非數(shù)量評價,在進行微觀評價包括獎勵評價、項目相關(guān)評價、職稱評審、人才評價等時,這是沒有問題的,本著質(zhì)量至上的原則。但是在進行一些宏觀評價如學(xué)科團隊、大學(xué)、實驗室、研究基地等評價時,一方面需要關(guān)注這些機構(gòu)的一流科研成果即科研質(zhì)量,另一方面也需要兼顧一定的數(shù)量,否則的話,一些上百人甚至更大機構(gòu)的科研質(zhì)量或許5~10位高水平科研人員的高質(zhì)量成果就能代表,存在“一美遮百丑”現(xiàn)象。不兼顧數(shù)量評價難以評價機構(gòu)的貢獻,進而可能也會帶來科技資源分配的不公。我國目前的宏觀評價需求較多,評價工作量巨大,這個問題必須引起足夠的重視。
2)代表作無法進行跨學(xué)科比較
跨學(xué)科比較雖然是一個難題,但是采用文獻計量學(xué)進行跨學(xué)科比較已經(jīng)取得了較大的進展,并且有些方法已經(jīng)運用到具體的應(yīng)用。然而,采用代表作制度根本無法進行跨學(xué)科比較,代表作的評審主要采用同行評議,而同行評議專家往往是學(xué)科內(nèi)部的。目前,關(guān)于跨學(xué)科比較的評價需求又是比較旺盛的,例如,自然科學(xué)獎勵評審時不同學(xué)科的指標(biāo)分配,不同學(xué)科團隊的資源分配,等等。
1)作者選擇代表作面臨諸多困惑
第一,作者難以選擇代表作。采用代表作評價無疑是評價論文質(zhì)量,假設(shè)共選擇5篇代表作,如果作者有5篇中科院SCI一區(qū)論文、5篇SCI二區(qū)論文,一共10篇論文。一區(qū)論文中有2篇相對弱一些,而二區(qū)論文中有2篇質(zhì)量不錯。代表作的選取假設(shè)有兩種方案,第一種是用5篇一區(qū)論文,第二種是用3篇一區(qū)論文和2篇二區(qū)論文。論質(zhì)量的話能否采用第二種方案?由于歷史原因,以刊評文影響很大,如果評審專家更加關(guān)注發(fā)表的期刊,那么代表作制度也會受到影響。在代表作評審中,是難以實現(xiàn)真正盲審的,即使是匿名,通過搜索論文標(biāo)題也很容易查到作者是誰。
需要說明的是,嚴(yán)格意義上的代表作評價與學(xué)術(shù)期刊等級無關(guān),只要公開發(fā)表即可。但實際操作過程中,這一點難以做到,如在職稱評審、學(xué)科評價中,往往強調(diào)在“重要期刊”“核心期刊”“有影響力期刊”等期刊上發(fā)表若干篇論文,因此在一定程度上,作者或機構(gòu)在選取代表作的時候,一般會比較重視期刊級別。
2)代表作選取中的中國期刊論文問題
科技部明確規(guī)定了代表作中中國期刊論文的數(shù)量原則上不少于1/3,這需要一段過渡時間。由于歷史原因,最好的自然科學(xué)論文往往以英文形式發(fā)表在國外期刊上,中國主辦的英文期刊數(shù)量較少、載文量有限、質(zhì)量有待提高,許多作者沒有中國期刊論文,即使有中國期刊論文,質(zhì)量也達不到“代表作”的水平。故在報送代表作的時候,對于中國期刊論文的選擇也是一個難以抉擇的問題。
3)同一學(xué)科不同研究類型學(xué)者代表作難以比較問題
即使在同一學(xué)科,如果一位學(xué)者側(cè)重基礎(chǔ)理論研究,而另一位學(xué)者還兼顧應(yīng)用研究,在評職稱報送代表作時,前者報送5篇論文,后者報送2篇論文外加3份研究報告或是專利轉(zhuǎn)讓成果。由于這兩位學(xué)者無法或不能采取分類評價,代表作類型又不一樣,此時,對兩位作者進行代表作比較是非常困難的。解決辦法是進一步細分進行分類評價,但是評價往往和廣義的資源分配有關(guān),過細的分類評價不利于資源的合理分配,如職稱指標(biāo)、學(xué)科點的申報,等等。不同類型之間的資源分配是一個新的問題。
4)學(xué)科異質(zhì)性影響代表作的評價效果
第一,不同學(xué)科代表作的代表性不同。自然科學(xué)代表作更具有代表性,哲學(xué)社科的代表性相對較弱。由于人文社會科學(xué)研究具有研究周期長、社會影響見效慢、學(xué)術(shù)觀點無完全的對錯之分、評價中評審者的主觀性多于客觀性、社會科學(xué)研究具有時代性等特點,因此,對人文科學(xué)研究采用“代表作制度”仍需辯證地加以認(rèn)識[20]。此外,人文社科還可能存在研究學(xué)派問題,不同的研究學(xué)派觀點有所差異。
第二,學(xué)科發(fā)展速度影響代表作的代表性。有些學(xué)科發(fā)展較快,知識增長快,優(yōu)秀的科研成果會引領(lǐng)學(xué)科發(fā)展,代表作就擁有較好的代表性,而另外一些學(xué)科相對成熟,知識增長慢,代表作就難以起到代表作用。例如,互聯(lián)網(wǎng)高速發(fā)展時,計算機網(wǎng)絡(luò)領(lǐng)域的論文代表作就擁有較好的代表性,而目前相對成熟的數(shù)學(xué)學(xué)科,代表作代表性就相對較弱,畢竟重大成果很少,小成果較多,不同代表作水平之間的區(qū)分度相對不大。
5)代表作對不同水平學(xué)者的適用問題
對于水平較高的學(xué)者,代表作制度可以反映其水平,但是對于水平相對較低的學(xué)者,盡管代表作可以反映其水平,但有些大材小用。畢竟采用代表作制度涉及大量人力物力和財力的投入,對于明顯低水平的研究采用代表作進行評審,會浪費許多公共財政資源。尤其在科技獎勵評選時,對于低水平研究,完全沒有必要全部送審,可以先初選一批。
1)我國同行評議制度還有待完善
學(xué)術(shù)代表作制評價的核心問題在于按照學(xué)科的內(nèi)在邏輯,建立學(xué)術(shù)共同體內(nèi)在的價值標(biāo)準(zhǔn)[21]。中國還沒有形成真正意義上的學(xué)派,還不完全具備形成學(xué)術(shù)共同體的條件和群體意識[22]。由于缺乏深厚的評價文化底蘊,我國學(xué)術(shù)共同體學(xué)術(shù)評價的制度規(guī)范還不夠完善,并且東方文化比較重視人際關(guān)系,導(dǎo)致在學(xué)術(shù)評價中人情關(guān)系對代表作評價的干擾較大。當(dāng)然,這個問題也并非我國所獨有,西方發(fā)達國家也或多或少存在類似的現(xiàn)象,只不過我國的問題比較嚴(yán)重而已。
2)評審專家的學(xué)識局限
受評審專家主觀局限性和思維慣性的影響,加上評價情境的復(fù)雜性,可能會使同行評議失效。每位專家都有自己的思維定勢,這將導(dǎo)致評價產(chǎn)生認(rèn)知偏差,從而影響評價的客觀性和穩(wěn)定性。雖然可以通過延長評審時間,以及盡可能進行匿名評審的方法降低認(rèn)知偏差,但這種影響是難以消除的。
3)評審工作量加大專家難以滿足需求
一旦代表作制度全面鋪開,評審工作量將呈幾何級數(shù)上升,評審專家將難以滿足需求。畢竟大量的評審專家均是學(xué)科領(lǐng)域內(nèi)杰出學(xué)者,是最權(quán)威、最稱職的同行評議專家,然而,這些學(xué)者的工作和科研任務(wù)繁重,根本無暇進行大量的評審。代表作評價需要大規(guī)模擴大評審專家的數(shù)量,其結(jié)果必然導(dǎo)致評審專家的平均水平下降,難以對代表作進行客觀公正的評價,同時增加了尋租風(fēng)險。
4)全面型評審專家無法滿足要求
在進行宏觀評價時,代表作就是團隊或機構(gòu)的代表作,如進行學(xué)科評價時,一個單位就有20篇代表作,可能涉及學(xué)科中3~5個研究方向,而評審專家同時評審的學(xué)科可能會有10多個,那么涉及的研究方向可能會有20~30個。很少有專家擁有如此寬闊的知識廣度和知識深度,如何找到合適的評審專家首先是個難題,在宏觀評價中,這個問題是非常普遍的。即使是微觀評價,如果一位專家同時評審10個學(xué)者的50篇代表作,那么依舊存在評審專家的知識面不夠問題。
5)同行評議不同分組難以比較問題
對于有些宏觀機構(gòu)評價,每家機構(gòu)代表作數(shù)量會達到40篇,一篇論文短的可能是七八頁,長的有幾十頁。而參評機構(gòu)可能有50家,這對評審專家絕對是巨大的工作量。如果不認(rèn)真閱讀論文,那么評價效果會很差;如果認(rèn)真閱讀論文,一位評審專家也難以評審50家機構(gòu)的2000篇論文??尚械慕鉀Q方法是分組評價,即將2000篇論文進行分組,每組請若干位專家進行同行評議,雖然是定性評價,也打分,但不同組別的評審結(jié)果是難以進行比較的。
6)評審專家以刊評文問題
由于代表作評審專家在評審時面臨巨大的挑戰(zhàn),如知識面不夠、評審工作量大、時間不足等問題,最直接的方式是看代表作發(fā)表的期刊,根據(jù)發(fā)表期刊的級別來大致對作者的研究質(zhì)量進行判斷,即“以刊評文”,而教育部、科技部在相關(guān)文件中明確提出擯棄“以刊評文”。本文暫不討論以刊評文的利弊,但是在代表作評審過程中,以刊評文其實是一種常見現(xiàn)象,如果評審專家由于思維定勢的影響繼續(xù)以刊評文,那么代表作制度就會大打折扣。
7)同行評議的規(guī)范性有待提高
代表作的同行評議是個系統(tǒng)工程,涉及方方面面。一類是程序性問題,如專家數(shù)量、專家是否異地、抽簽方式、通訊還是會議、打分區(qū)分度、表決方式,是否允許申訴、程序是否公開、保障機制;另一類是具體操作問題,如代表作的判斷標(biāo)準(zhǔn),打分?jǐn)?shù)據(jù)分布,評審意見要求,等等。這方面許多工作需要細化,目前的同行評議的規(guī)范性亟須提高。
8)代表作無法實現(xiàn)真正的匿名評審
學(xué)者的科學(xué)研究從論文投稿到代表作評審過程如圖3所示。作者在進行論文投稿時,需要采用同行評議進行首輪評審,目前國際上通行的做法是嚴(yán)格進行雙盲評審,即作者不知道評審專家,評審專家不知道作者。首輪評審時,期刊一般至少請2個評審專家進行同行評議,如果論文被接受,那么投稿完成;如果論文被退稿,那么作者還要改投其他期刊。在論文接受之前,意味著投稿會有多次評審,1篇論文在發(fā)表前可能有10個不同期刊的專家匿名評審。
圖3 從論文投稿到代表作評審
在采用代表作進行評價時,本質(zhì)上是第二輪評審,評審方法同樣采用同行評議,但是需要注意的是,代表作同行評議一般只有1次,并且無法做到雙盲,實際上只能做到單盲,這是因為即使采取雙盲措施,根據(jù)論文題目和其中的相關(guān)語句還是可以查到作者是誰。
對比以上兩輪評審,可以非常明顯看出第一輪評審的公平性遠超過代表作第二輪評審。論文的發(fā)表過程就是一個經(jīng)受同行評議專家質(zhì)詢的過程,作者論文數(shù)量越多,這種質(zhì)詢次數(shù)也越多,因此,論文數(shù)量一定程度上反映了這種考驗的次數(shù),進一步地,傳統(tǒng)根據(jù)論文數(shù)量的評價有一定的合理性。
9)代表作評價的成本問題
采用代表作進行評價是需要成本的,包括組織成本、同行評議成本、會議成本、爭端解決成本等經(jīng)濟成本,此外還有時間成本等。隨著代表作制度的全線鋪開,評價工作量增加較大,評價成本會增加更多,根據(jù)我國科研體制的現(xiàn)狀,這些成本往往采用公共財政資源支出,這也增加了納稅人的負(fù)擔(dān)。
10)代表作評價無法防止科研投機
科研投機者往往并不是真正的學(xué)者,其會發(fā)表一定數(shù)量的核心期刊論文,然后謀求個人利益。在傳統(tǒng)的科技評價體系下,盡管也存在一些學(xué)術(shù)不端以及科研投機現(xiàn)象,但總體上是可控的。然而,如果廣泛采用代表作,這些投機現(xiàn)象防范可能比較困難。畢竟科研投機者造出5篇代表作還是相對容易的,這些人一旦到達比較重要的崗位又沒有真才實學(xué),造成的損失和負(fù)面效應(yīng)會更大。
1)代表作評審專家較少時誤差較大問題
根據(jù)前文分析,論文發(fā)表時的評審專家總體會比代表作二次評審時的同行評議專家數(shù)量要多,這可能會導(dǎo)致代表作評審時的打分誤差較大,設(shè)不同專家對某篇論文評分的分值為
其中,xi為專家給出的評分值;μ為該論文真實水平所對應(yīng)的真實值;εi為單次評分與真實水平的隨機誤差。則n位專家給出的評分為
采用算術(shù)平均法來綜合n位專家評分,得到專家評分平均值:
單次評分與真實水平存在隨機誤差ε,當(dāng)單次評分高于真實水平時,隨機誤差ε為正值;當(dāng)單次評分低于真實水平時,隨機誤差ε為負(fù)值。由于隨機誤差ε服從正態(tài)分布,因此當(dāng)n越大,即評審專家人數(shù)越多時,隨機誤差和逐漸趨向于0,即多人評分的均值逐漸接近真實值的近似值。
在微觀評價時,代表作的數(shù)量可能就是5篇或10篇,如果評審專家的數(shù)量也就是5~10人,在這種情況下,不能稱為大樣本,此時ε就不會服從正態(tài)分布,從而會產(chǎn)生較大的評價誤差。
在代表作評價時,如果評審專家達到30,此時從概率與數(shù)理統(tǒng)計的角度可以稱為大樣本,隨機誤差會服從正態(tài)分布,隨機誤差項會趨近于0,此時誤差較小,打分會比較精確,但這也意味著評價成本成倍增加。
由于在代表作評審過程中無法實現(xiàn)雙盲,那么在評價中除了隨機誤差,還會存在系統(tǒng)誤差,系統(tǒng)誤差是無法消除的。
綜上所述,造成代表作評審誤差有兩個方面:一是評審專家較少時的偶然誤差;二是不管評審專家人數(shù)多少時,由于無法絕對進行雙盲評審而造成的系統(tǒng)誤差。
2)二輪評審?fù)ㄟ^概率大于論文錄用首輪評審
代表作評審的可靠性還可以從另一個視角進行分析比較。在一些選拔型的評審中,如職稱評審、獎勵評審中,假設(shè)用代表作或論文的通過概率作為其難度的一種指標(biāo),通過概率大說明難度不高。不妨做如下假設(shè):
第一,論文審稿人、代表作同行評議專家能力和水平一樣;
第二,論文審稿人、代表作同行評議專家打分服從正態(tài)分布N(μ,σ2);
第三,論文審稿人、代表作同行評議專家打分獨立且同分布;
第四,論文審稿人數(shù)量是代表作同行評議專家的2倍(根據(jù)前文分析,這容易滿足);
第五,論文審稿人、代表作同行評議專家打分采用雙盲評審。
在論文審稿時,多人審稿制度下,假設(shè)被評人有已錄用的稿件n篇,在期刊的投稿過程中,每一篇稿件需經(jīng)兩個審稿人同意后才能錄用,n篇稿件審稿人總數(shù)至少為2n。設(shè)xi、yi分別為第一審稿人、第二審稿人打分,則該被評人的i篇稿件概率密度函數(shù)為
對其標(biāo)準(zhǔn)化后進一步處理得
由于xi+yi=Ti~N(2μ,2σ2),可得
則作者稿件通過的概率密度函數(shù)為
最后得稿件的通過概率為
在代表作同行評議時,假設(shè)同行評議專家人數(shù)為n,zi為第i個專家的打分結(jié)果,代表作打分同樣服從正態(tài)分布N(μ,σ2),則代表作通過的概率密度函數(shù)為
同樣地,對其標(biāo)準(zhǔn)化得
最后,得其稿件通過概率為
對比式(6)和式(10)得
也就是說,PA<PB。由此可知,代表作同行評議的通過率高于論文投稿的通過率,作者期刊論文錄用的難度要大于代表作同行評議。這也說明另外一個問題,在代表作進行同行評議時,評審專家較少篩選效率不高。
在科技評價中會面臨各種評價需求:在微觀評價以及科研質(zhì)量評價中,代表作制度可以嘗試并逐步進行改進;但是在進行宏觀評價時,一定要反復(fù)思考這個問題,真的對機構(gòu)評價就沒有規(guī)模和數(shù)量的要求嗎?現(xiàn)在國家對一些科研機構(gòu)的投入,多的每年高達數(shù)億元,如果這個機構(gòu)恰恰是從事基礎(chǔ)研究的,如果評價時只看10篇代表作,那么有沒有問題?
對于不同學(xué)科之間的比較也超越了代表作評價的能力,凡是涉及資源在不同學(xué)科之間分配,以及不同學(xué)科之間的比較問題,此時已經(jīng)超越了代表作可以評價的范圍,要采用新的規(guī)則。
對于一些重要的微觀評價,要反思一下評價目的。例如,提拔科研管理工作重要崗位上的學(xué)者,這些學(xué)者即將擁有更大的權(quán)力,對單位的科研影響會很大,建議應(yīng)該適當(dāng)兼顧論文數(shù)量,防止科研投機現(xiàn)象。
對于作者代表作的選取一定要明確質(zhì)量,并且評價機構(gòu)要承諾嚴(yán)格執(zhí)行。嚴(yán)格意義上,即使是非核心期刊論文也應(yīng)該可以選為代表作,但是在《關(guān)于破除科技評價中“唯論文”不良導(dǎo)向的若干措施(試行)》中提出鼓勵發(fā)表高質(zhì)量論文,包括發(fā)表在具有國際影響力的國內(nèi)科技期刊、業(yè)界公認(rèn)的國際頂級或重要科技期刊的論文,以及在國內(nèi)外頂級學(xué)術(shù)會議上進行報告的論文,某種程度上這是一種新的“以刊評文”現(xiàn)象。除非下決心不采用任何核心期刊目錄,否則代表作選取時還是要兼顧發(fā)表的期刊級別。
“以刊評文”的評價方式并不能被完全否定,其存在一定合理的評價邏輯。在沒有特別有效的方式的前提下,以刊評文仍將是現(xiàn)在科研評價制度中非常重要的一種方式?!按碜鳌痹u價的核心是讓研究者樹立質(zhì)量意識,同時在一定程度上可以降低評價成本?!按碜鳌痹u價與“以刊評文”不是對立的,不能強調(diào)代表作評價,就要把文獻領(lǐng)域的一些方法和成果完全放棄掉。
學(xué)者的分類評價,國家已經(jīng)提出了許多明確要求,但仍需要進一步細化。如教學(xué)型、教學(xué)科研并重、科研型的分類,基礎(chǔ)研究、應(yīng)用基礎(chǔ)研究、應(yīng)用研究的分類,等等。對于不同類型的代表作評審要求是不一樣的,相互之間不可比較,進一步細化有利于代表作制度的推進。但又帶來一個新的問題,即不同類型評價之間如何分配資源,如職稱指標(biāo)、科研經(jīng)費等。
由于代表作評審全面推開會大幅度加大評價工作量,提高評價成本,代表作評審的公平程度也有可改進空間。因此,對于一些初中級評審,可以適當(dāng)采取以刊評文的做法,如講師評審、一般高校的副教授評審等,以刊評文仍然是一種成本較低相對公平的有效手段。
建立量化考核與代表作制度兼顧的評審制度,能夠淘汰掉一批質(zhì)量相對較低評審對象,提高評審門檻,從而節(jié)省評價成本,另外也有利于保證評價公平。具體的量化考核基本要求各高校和科研機構(gòu)可以根據(jù)自身情況制定具體的細則。實際上,目前國內(nèi)許多高校在職稱評審中都提出了一定的量化考核要求,這是代表作制度推廣的良好基礎(chǔ)。
即使在這種情況下,對于量化考核成果相差較大的,也不需要采用代表作評價;對于量化考核成果相近的,代表作制度可作為一種必要的補充。
第一,要規(guī)范同行評審程序,細化同行評審細節(jié),提高同行評審的規(guī)范性,盡量做到公開透明。第二,適當(dāng)保證評審專家的規(guī)模。當(dāng)評審專家規(guī)模較小時,會增加評價的隨機誤差,從而影響評審結(jié)果,當(dāng)評審專家人數(shù)較多時,又容易增加成本,必須在兩者之間保持一個合理的平衡,建議對于一些重大評審,評審專家數(shù)量為25~30人,或者略多。
關(guān)于代表作的推廣,教育部重點考核的是各“雙一流”建設(shè)高校以及教育部直屬高校。建議區(qū)分不同評價目的、不同高校、不同學(xué)科推廣代表作制度,賦予高校一定的自主權(quán)。對于一流大學(xué)、一流學(xué)科大學(xué)的一流學(xué)科、教育部直屬高校的優(yōu)勢學(xué)科,在微觀評價時采用代表作制度是沒有問題的。對于其他情況,建議賦予高校一定的自主權(quán),兼顧量化考核與代表作制度進行評價。
傳統(tǒng)的以SCI論文數(shù)量為主的科技評價方法存在不少弊端,從而催生了代表作制度產(chǎn)生,但是代表作制度也并非十全十美,其完善適用還有很長的路要走。造成這種現(xiàn)象的根源是長期以來文獻計量學(xué)與科學(xué)計量學(xué)得不到應(yīng)有的重視,有許多不錯的文獻計量指標(biāo),如h指數(shù)家族、特征因子、z指數(shù)等,如果早一點采用這些指標(biāo)進行評價,而不是簡單地統(tǒng)計論文數(shù)量和影響因子,科技評價質(zhì)量會提高很多。
我國的科技評價機制還有待改善。第一,科技評價體制取決于科研管理體系,要全面系統(tǒng)地進行頂層設(shè)計,包括科研管理體系;第二,要全面系統(tǒng)地設(shè)計我國的科技評價機制,確定評價戰(zhàn)略、目標(biāo)、原則、機制等宏觀框架;第三,加強管理的科學(xué)性與制度化,及時吸收最新評價方法和手段,充分發(fā)揮評價專家在科技評價中的作用;第四,發(fā)揮高校與科研院所的自主權(quán),國家層面只做宏觀引導(dǎo)。