田林琳 孫維東 張弛 郭明 韋納都
作為引領(lǐng)科技發(fā)展的主要抓手之一,高技術(shù)研究發(fā)展計劃(863計劃)為提升中國整體科技實力和創(chuàng)新能力發(fā)揮了重要作用.“十二五”期間,863計劃重點支持了先進制造、現(xiàn)代農(nóng)業(yè)、海洋、地球觀測與導航、生物和醫(yī)藥等技術(shù)領(lǐng)域中的前沿、關(guān)鍵、共性技術(shù)突破與核心技術(shù)產(chǎn)品及系統(tǒng)研發(fā).眾所周知的北斗羲和系統(tǒng)[1]、國際大科學工程——平方公里陣列射電望遠鏡(SKA)[2]等均受到其資助.該計劃兼顧高科技發(fā)展和產(chǎn)業(yè)化應用,因而其不同技術(shù)領(lǐng)域均在一定程度上表現(xiàn)出研究范疇跨度大、技術(shù)縱深鏈路長、項目課題類別多的特色.
從科技計劃管理角度出發(fā),如何評估數(shù)以億計的經(jīng)費投入帶來的產(chǎn)出價值是一個關(guān)鍵問題.對此,技術(shù)驗收專家組的整體評價往往在實踐中起著主導作用.而具備類似上述特色的科技計劃涉及范疇廣度、深度俱足,對驗收專家的綜合能力提出了嚴格要求.特別是在部分課題屬基礎(chǔ)研究、前沿探索類的情況下,其不確定性使課題成果和潛在價值難以客觀衡量,既增加了專家評分難度,又令不同類型課題間的評分難以橫向比較.因此,利用評分數(shù)據(jù)分析專家偏差,幫助科研管理人員評估專家評審能力,可以為了解領(lǐng)域創(chuàng)新成果和課題實施成效的評審信度與效度,以及更好地把握技術(shù)領(lǐng)域發(fā)展現(xiàn)狀提供重要參考.
評審活動受到專業(yè)因素(如評分人是否充分了解參評對象屬性)、心理因素(如評分人是否對參評對象心懷同情)、外部因素(如評分人是否與參評對象有利害關(guān)系)等多方面影響,因而評分偏差分析既是科研管理人員的關(guān)注焦點,也是心理學、應用數(shù)學和信息科學等學科的研究對象.20世紀末已有學者關(guān)注到地域科研實力評價中的偏差問題[3].隨后,一些科研管理人員對國家重點實驗室評估偏差進行了分析,如謝煥瑛等從來源和成因上歸納了6種影響專家評分的效應[4]和4類偏差[5],張健等給出了應對潛在不公平評估的策略[6],楊曉秋梳理了實驗室評估中的若干偏差問題[7],重點指出應增加專家培訓力度使其更好地內(nèi)化評估規(guī)則.這些研究主要是定性總結(jié)偏差成因和表現(xiàn),但少有給出具體的定量分析方法.由于評委評分易受評分人經(jīng)驗知識、思考方式、人格特征等影響[8],心理測量學領(lǐng)域?qū)υu分偏差定量分析有很大興趣,所用理論呈現(xiàn)出從經(jīng)典測量理論[9]、概化理論[10]到現(xiàn)代測量學中的項目反應理論[8]的過渡.如著名的多面Rasch模型可用于評估項目難度、評委寬嚴程度、考生能力等參數(shù)及其交互關(guān)系,在結(jié)構(gòu)化面試[11]、教育教學能力測試[10]、英語聽說考試[12]等方面均有應用.但上述理論過于復雜,模型需較好的先驗初始值進行迭代求解,且還可能出現(xiàn)不收斂現(xiàn)象[13].忽略專業(yè)背景差異,專家評分與網(wǎng)購評分、書評影評評級等在形式上并無區(qū)別.隨著互聯(lián)網(wǎng)4.0時代到來,應用數(shù)學與信息科學學者聚焦于網(wǎng)絡社區(qū)用戶評分偏差和異常分檢測,從數(shù)學和算法層面建立了評分評估模型與指標,同樣可用于專家評分偏差分析.如Lauw等基于強化模型給出了衡量評分人偏差和參評對象爭議性的兩個指標[14],Dai等利用評分人和參評對象間的正面、負面效應建立二部圖以檢測行為異常的評分人[15],文獻[16-17]則致力于面向眾包系統(tǒng)構(gòu)建評價體系和搜索高爭議性參評對象.但需注意此方面研究更多是側(cè)重于甄別異常用戶以識別惡意或虛假評價.當然,也有少數(shù)專門面向評委評分偏差的研究,如呂書龍等利用假設(shè)檢驗等數(shù)學思想建立評分控制和偏差吻合模型[18],而文獻[19]則基于投影尋蹤構(gòu)建評委綜合評價模型.
考慮到心理學中相關(guān)理論限制較大,本文僅以數(shù)學和信息科學中的互逆強化模型和數(shù)理統(tǒng)計方法為技術(shù)手段,以863計劃某技術(shù)領(lǐng)域課題驗收為典型案例,對“十二五”期間863計劃的評審專家評分偏差進行初步的定量探索.此項研究是對現(xiàn)階段科研管理中專家偏差分析研究的完善與延伸,可助力精細化規(guī)范評審行為和后續(xù)專家遴選.據(jù)筆者所知,這是首次面向863計劃等國家科技計劃的專家分析工作.
863計劃旨在面向經(jīng)濟社會發(fā)展需求加強技術(shù)研發(fā)和應用,同時也面向國際前沿和國家未來重大需求開展一定的前沿理論與技術(shù)探索,具有多學科交叉和兼顧研發(fā)與探索的特點.因此,其下設(shè)項目、課題的驗收評審往往既要求專家組研發(fā)與集成經(jīng)驗豐富,又要求在領(lǐng)域前沿發(fā)展態(tài)勢上具有敏銳的嗅覺.本文將“十二五”863計劃某技術(shù)領(lǐng)域的課題驗收評分作為偏差分析數(shù)據(jù),一來便于科研管理人員將本文方法遷移用至其他技術(shù)領(lǐng)域;二來在科技體制改革后863計劃被延伸融入到國家重點研發(fā)計劃,兩個計劃間專家遴選范圍重疊度較高,所得經(jīng)驗和結(jié)論可直接用在重點研發(fā)計劃相應領(lǐng)域的重點專項中,幫助遴選合適的評審專家開展綜合績效評價工作.所用數(shù)據(jù)包含該領(lǐng)域全部專家評分,但由于項目數(shù)量較少且評價采用等級制,課題數(shù)量較多且評價采用百分制,后文對項目評級情況不做討論.數(shù)據(jù)具體由252位專家對157個課題的1 135次評分組成,課題平均收到7.2個評分,專家人均評分4.5次,統(tǒng)計信息如圖1所示.
課題接收評分頻數(shù)圖中可見各課題得分數(shù)量基本能保證分數(shù)均值、方差等統(tǒng)計信息的有效性.但對于專家給出評分的頻數(shù)有兩點說明:
1)863計劃各技術(shù)領(lǐng)域均設(shè)有領(lǐng)域?qū)<医M,負責全周期跟蹤項目及課題進展,從而能夠較為完善地評價項目、課題完成水平,所以驗收專家組一般由1~2位熟悉相應執(zhí)行情況的領(lǐng)域?qū)<医M成員和同行專家共同組成.從專家給出評分頻數(shù)圖可知,隨著評分次數(shù)增加,人數(shù)快速下降,自左到右從同行專家居多轉(zhuǎn)為領(lǐng)域?qū)<医M專家居多.
2)對于評分次數(shù)較少的專家難以確保其評分信息有效性,下文研究僅聚焦于至少有5次評分的74位專家.雖然無法分析剩余專家評分,但這些專家給出的分數(shù)仍然有助于課題評價,在對課題情況開展分析時仍將使用全部專家評分數(shù)據(jù).
近十幾年來,不同科研管理人員根據(jù)各自經(jīng)驗總結(jié)了科研活動中的評分偏差成因與類型.表1列出了其中比較有代表性的看法,從中不難發(fā)現(xiàn):
表1 科研評分偏差典型成因與類型Table 1 Typical causes and types of scientific research score bias
1)系統(tǒng)內(nèi)、外因素來自專家和課題之外,超出了本文范疇;偶然偏差較小且屬于量化評分中必然出現(xiàn)的正常偏差[5];同行偏好偏差、非共識偏差源自同行偏好效應和非共識效應,可以一并討論.故下文不再展開這些內(nèi)容.
2)慣性思維、學術(shù)權(quán)威和個人偏好效應難以僅憑評分數(shù)據(jù)進行分析.不過遴選同行專家的回避原則顯著降低了專家與課題間的關(guān)聯(lián)性,一定程度上避免了其影響.此外,前兩者在驗收評審中未必會增加偏差:由于長期跟蹤課題,慣性思維使領(lǐng)域?qū)<医M成員評分更可靠;專家的權(quán)威性反映了其卓越的專業(yè)素養(yǎng)和眼光,權(quán)威效應也可能縮小偏差.
3)同行偏好屬于普遍性偏好,對絕大部分專家的作用是均衡的[5],對于課題間評分的相對影響不大.
4)各課題驗收專家均為相關(guān)方向資深同行且符合回避原則,不能了解參評課題及同課題間存在好惡關(guān)系的可能較低,但部分課題的前沿性和探索性增加了量化評價難度,可見驗收評審中的非共識效應由課題不確定性主導.為明確這一點,以下將因不確定性引起的非共識偏差歸于課題而非專家,并稱之為爭議性偏差[14,17].
5)因個人習慣導致評分尺度不同,從而產(chǎn)生或偏高或偏低的系統(tǒng)性差異,所以系統(tǒng)偏差和嚴厲度偏差非常相似.另外,同情心理是形成個人評分習慣的潛在心理因素,該效應令專家傾向于高估課題分數(shù).因此,本文將同情心理效應引起的偏差歸于上述偏差,并將其統(tǒng)稱為專家固有偏差.
6)評審活動中無法知悉體現(xiàn)課題完成情況的真實分數(shù),但合理的假設(shè)是多數(shù)課題評分或其均值是較為客觀和接近真實值的,所以在評價專家評分能力時實質(zhì)上往往是綜合參考對同一課題的其他專家評分進行判斷,也即暗含了對一致性偏差的考察.
綜合以上分析可知:課題爭議性干擾了專家評分準確性,需在評估專家偏差時降低其影響;與其他專家評分的一致性體現(xiàn)在評估專家總體偏差的過程中;固有偏差代表了專家間評分松緊尺度的不同標準;除系統(tǒng)內(nèi)、外因素和偶然偏差等不在本文范疇或可忽略的因素之外,個人偏好等因素既難以通過評分數(shù)據(jù)辨別,在課題評分中又僅對個別專家產(chǎn)生較大影響,本文將它們引發(fā)的極端評分不加區(qū)別,統(tǒng)一歸于異常評分.綜上,下文將結(jié)合評分一致性和課題爭議性兩方面建立專家總體偏差評估模型,并利用兩個假設(shè)檢驗方法實現(xiàn)對異常評分和固有偏差的檢測,以此開展專家評分偏差分析工作.
設(shè)有n個專家參與m個課題的評分工作,目標是評估各專家的總體評分偏差.若已知全部評分的真實偏差,經(jīng)簡單聚合操作就可以得到專家總體偏差,如用均值作為第i個專家的總體偏差:
(1)
(2)
此時問題轉(zhuǎn)為如何衡量課題爭議程度.爭議度是引發(fā)專家間出現(xiàn)非共識和意見發(fā)散的能力,最直觀的衡量方法就是對此課題接收的全部評分求偏差均值.但同樣要考慮參評專家的評分能力,因此令課題爭議度為
(3)
式(2)和(3)說明了專家偏差和課題爭議度的相互依賴,爭議度影響著專家偏差,專家偏差又反過來影響爭議度,二者聯(lián)合構(gòu)成了互逆強化模型[14].如果把專家和課題視作頂點,把評分視為頂點間連邊的權(quán)重,上述問題將轉(zhuǎn)為常用于社區(qū)網(wǎng)絡信息挖掘的特殊二部圖[20].本文定義i對j的評分偏差為i的評分與其他專家對j的評分之差的絕對值平均,有
(4)
式(4)中eij為i給j的分數(shù),nj為給課題j評分的專家數(shù),在驗收評審中nj必然大于1,故式中分母必為正整數(shù).
B=K(1m-C),
(5)
C=LT(1n-B),
(6)
式(5)、(6)中的1分別表示長度為m和n的全1列向量,K和L為n×m大小的矩陣且i行j列元素分別為Kij=dij/mi和Lij=dij/nj.mi類似nj的定義,代表專家i評審的課題數(shù).上標T表示矩陣轉(zhuǎn)置.
互逆強化是全局性的動態(tài)過程,因為變動任何課題的爭議度估計值會影響給其評分的專家的偏差估計,偏差估計值變化又會影響這些專家給予分數(shù)的課題的爭議度估計,形式上相似于概率圖模型[21]中的信念傳播機制[22].借鑒谷歌的PageRank排序算法[23],Berkhin等得到了B和C各自的自嵌套表達式,經(jīng)自迭代求解出B和C.然而,這一求解方式需滿足一定前提且在自迭代過程中要周期性規(guī)范化B和C.此外,筆者發(fā)現(xiàn)將自迭代得到的B代入式(6)計算出的C,與自迭代得到的C并不一致,反之將自迭代結(jié)果C代入式(5)也有相似的現(xiàn)象,這是與總體偏差和爭議度的相互依存關(guān)系相違背的.因此,本文采用互迭代方式進行求解,即先在(0,1]區(qū)間隨機初始化B為B0并代入式(6)得到C為C1,再將C1代入式(5)更新B為B1,如此往復直至收斂.當然,從初始化C開始互迭代可得到相同結(jié)果.以上方法雖然簡單但非常有效,可以證明互迭代過程同樣能收斂.證明如下:
不妨設(shè)任意第k至k+2輪迭代中得到Bk,Bk+1和Bk+2,則有
Bk+2-Bk+1=K(1m-Ck+1)-K(1m-Ck)=
KLT(1n-Bk)-KLT(1n-Bk+1)=
KLT(Bk+1-Bk)
(7)
收斂即要令Bk+2和Bk+1中對應元素變化不大于Bk+1和Bk間變化,利用向量l2范數(shù)‖·‖2可等價轉(zhuǎn)換為滿足‖Bk+2-Bk+1‖2≤‖Bk+1-Bk‖2.引入變量Uk+1=(Bk+1-Bk)(Bk+1-Bk)T,有:
tr(Uk+2)-tr(Uk+1)=
tr(KLTUk+1LKT)-tr(Uk+1)=
-tr((I-LKTKLT)Uk+1)=
-tr(RUk+1),
(8)
其中tr(·)為矩陣的跡,I為單位矩陣,R=I-LKTKLT.
1)Bk+1-Bk不為零向量:Uk+1相應為對稱正定矩陣.存在可逆矩陣P和Q,使R=PTP和Uk+1=QTQ,則Q(RUk+1)Q-1=(PQT)TPQT,即RUk+1與(PQT)TPQT相似,二者的跡相等.顯然PQT可逆,從而知(PQT)TPQT是正定矩陣,其跡大于0.因此有tr(RUk+1)>0,故從式(8)易知‖Bk+2-Bk+1‖2≤‖Bk+1-Bk‖2成立.
2)Bk+1-Bk為零向量:此時‖Bk+2-Bk+1‖2≤‖Bk+1-Bk‖2成立.
綜上得證互迭代使B穩(wěn)定收斂,同理可證C的收斂性.實際上,只要B沒有恰好初始化為收斂解,B1-B0不會是零向量,隨后B將不斷更新直至收斂;而若恰好初始化為收斂解,則無需迭代已得到了想要的結(jié)果.本文在評分數(shù)據(jù)上基于不同初始值多次求解,均經(jīng)3~4次互迭代即可得到穩(wěn)定且一致的結(jié)果.
異常評分反映了專家評分因某些主客觀因素引起的明顯偏離真實分數(shù)的現(xiàn)象,了解異常評分情況有助于識別問題專家.同一課題的評分數(shù)據(jù)是以真實分數(shù)為中心的隨機變量,如能保證專家評分客觀性,該變量將近似服從高斯分布.參照文獻[18],本文以課題均分作為真實分數(shù)的近似,視均值上下2倍標準差范圍為評分正常區(qū)間,以此判斷專家評分是否異常并統(tǒng)計各專家的異常評分次數(shù).如對于專家i給出的課題j評分,
Ni←Ni+1, ifeij?[μj-2σj,μj+2σj],
(9)
其中,Ni為專家i異常評分次數(shù),初始為0;eij同前為專家評分;μj和σj分別是課題j平均分和標準差,根據(jù)該課題收到的所有評分計算.依驗收規(guī)范應先剔除最高分和最低分后再計算平均分,但考慮到部分課題參評專家僅6人,剔除后無法保證統(tǒng)計穩(wěn)定性,所以本文沒有剔除最值.此外,文獻[18]與本文不同,其不合理地對各課題采用統(tǒng)一標準差,會導致低爭議度課題的異常評分漏檢和高爭議度課題的異常評分虛警.
(10)
近似服從t分布t(mi-1),式中μfi和σfi分別為加權(quán)偏差向量的均值和標準差.同時,得到了兩個對立假設(shè):零假設(shè)(專家i評分無固有偏差)和備擇假設(shè)(專家i評分有固有偏差).給定顯著性水平αt后,從t分布表確定雙側(cè)閾值t1-α/2(mi-1)和tα/2(mi-1).超出閾值即可判定該專家明顯存在固有偏差:ti
至此,本部分已給出評估專家評分偏差的3個指標及衡量課題爭議度的指標.其中:總體偏差是對專家偏差的整體性估計;異常評分檢測極端值,是對偏差的突變性估計;固有偏差判斷專家內(nèi)在的評分尺度習慣,是對偏差的傾向性估計.三者間有著一定聯(lián)系:
1)異常評分次數(shù)和固有偏差信息既相互影響又相互補充:固有偏差在極端情況下會引發(fā)異常評分,且異常分數(shù)將一致性地極高或極低;反過來,異常分數(shù)過多同樣可能增加固有偏差.當然,因為異常評分受多種因素影響,更常見的是異常分數(shù)中同時包含高分、低分,不會引起固有偏差.這些可能的情況無法單獨從異常評分或固有偏差來判斷.因此,這兩個指標既從不同側(cè)面反映專家的特定偏差問題,又在特定情況下表現(xiàn)出一定耦合性.
2)總體偏差與異常評分、固有偏差粒度互補:總體偏差是從整體層面評估專家偏差的核心指標,涵蓋了突變性、傾向性等考量.這對于從粗粒度快速鎖定問題專家非常關(guān)鍵,但無法判斷問題具體信息,如專家偏差主要受外部條件干擾,抑或評審規(guī)范不夠內(nèi)化,還是評分尺度異于他人?這些細粒度信息對于采用何種處理措施很有指導性,可通過異常評分和固有偏差來判斷,必要時還可繼續(xù)搜索其他相關(guān)信息進一步定位問題.
綜上所述,3個指標相結(jié)合才能較完善地分析專家偏差,下文將據(jù)此完成對863計劃某領(lǐng)域課題驗收專家的偏差分析.
本文所用數(shù)據(jù)涉及157位專家對252個課題的評分,課題平均分和標準差如圖2所示.課題82得分最高(95.17分),課題96得分最低(73.18分),標準差在0.7~7.55間波動,表明這些課題無論在完成水平還是在爭議性上均有很大差異,尤其后者會干擾評審評分,在評分偏差分析中將其納入考量很有必要.因本文聚焦于專家偏差,下文對爭議度不做詳細討論.
使用2.2和2.3中方法面向評分不少于5次的74位專家進行偏差評估,得到各項指標及閾值如表2所示(顯著性水平0.01).表2中序號對應總體偏差排名,序號越小意味著總體偏差越大.由于我們僅展示了3位小數(shù),導致少量序號不同的專家總體偏差值看上去相同,如專家19~21.為使估計值均勻分布在[0,1]以方便相對比較,所列總體偏差經(jīng)過了最大值規(guī)范化處理.因空間有限,表2中只給出了t檢驗的右側(cè)閾值,左側(cè)閾值為其相反數(shù).
表2中斜體加粗的部分為異常評分次數(shù)大于或等于閾值以及t檢驗值超限的數(shù)字.7位專家異常評分過多,僅占專家總數(shù)9.46%,且其中6位次數(shù)剛好等于閾值,可認為專家整體低異常;14位專家出現(xiàn)固有偏差,占比略高,約為18.92%.但其中多數(shù)專家檢測值超限不多,造成的實際高估或低估偏差分值不大(具體見3.3中專家實例),說明專家整體固有偏差程度是可以接受的.另一方面,異常評分過多的專家序號均靠前,并且總體偏差最大的正是唯一超過異常次數(shù)閾值的專家,側(cè)面證明了總體偏差指標的有效性.然而固有偏差較大的專家呈不規(guī)律分布,原因在于固有偏差表示評分會習慣性的偏高或偏低,意味著評價課題完成情況的專家給分尺度不同,大多數(shù)情況下并不會引起極端評分和高總體偏差.但大部分專家評分僅有5~7次,過多的異常評分引起總體偏差顯著增加是很正常的.當然,過大的固有偏差仍然會對總體偏差產(chǎn)生不可忽略的影響,如排名第8位的專家.以上現(xiàn)象均印證了2.3結(jié)尾部分的推測.
表2 專家評分偏差指標值及相應閾值Table 2 Index values and corresponding thresholds for expert score bias
原始互逆強化模型需將偏差向量B和爭議度向量C表示為遞歸形式后,分別自迭代求解.自迭代過程中對B和C的規(guī)范化會導致求得的結(jié)果丟失式(5)和(6)中體現(xiàn)的交互關(guān)系,但模型的構(gòu)建依賴于B和C的耦合性.這種矛盾并不合理,所以本文提出了互迭代策略作為替代.為驗證互迭代的求解效果,本部分分別采用這兩種方式得到專家總體偏差和課題爭議度,結(jié)果如圖3—5所示.
利用自迭代分別得到總體偏差B和爭議度C,同時基于相互依賴關(guān)系,也可將自迭代結(jié)果B代入式(6)得到相應的C,同理式(5)又可用自迭代結(jié)果C得到相應的B.理論上,這兩個B和兩個C之間應該是一致的,但從圖3易知實際情況并非如此.周期性規(guī)范化處理導致無法定量比較,故圖3中對比的是自迭代結(jié)果排序情況.圖中橫軸表示直接求解結(jié)果的排序,縱軸為將自迭代結(jié)果代入式(6)和(5)的計算結(jié)果排序,排序越一致則散點越接近對角線.可以看出偏差排序差別巨大,爭議度排序略好但仍呈現(xiàn)出明顯發(fā)散狀.
利用本文的互迭代方式得到B和C,同樣可按照上述過程再次利用兩式反算出C和B.圖4給出了這些結(jié)果的對比結(jié)果,互迭代結(jié)果間表現(xiàn)出了高度一致性.最后,圖5展示了不同求解方式的結(jié)果排序?qū)Ρ?橫軸為自迭代直接得到的B和C排序,縱軸為互迭代結(jié)果排序.可知,基于兩種求解方式的排序基本相同,尤其是排名靠前的部分,而排序不同之處均為小幅差異,對于專家偏差分析影響非常小.但考慮到互迭代方式始終維持著總體偏差和爭議度間的關(guān)聯(lián)性,本文提出的求解思路明顯更加合理.此外,互迭代的另一個優(yōu)點是無需引入規(guī)范化處理,從而結(jié)果可定量比較,因此只有圖4中直接展示了總體偏差值和爭議度值而非其排序,更利于科研管理人員后續(xù)開展更精細的分析工作.
如前文所述,3個偏差指標各有側(cè)重,相互結(jié)合才能較好地分析專家偏差情況.本部分以幾個專家實例分析一些有代表性的偏差表現(xiàn),同時也驗證本文所用指標的有效性.首先是表2中的第1位專家,其總體偏差最大且是唯一異常評分次數(shù)超過閾值的專家.此外,通過t檢測認定該專家有給低分的習慣.圖6給出了其評分數(shù)據(jù)和相應課題平均分,其中柱狀分數(shù)為專家1參評的課題平均分,折線為專家1的評分.注意圖中誤差棒以±2倍標準差為上下限,以便快速確定異常評分位置(后續(xù)圖7—9采用相同設(shè)置).圖中折線一直處于平均分以下,在課題107、108、110處出現(xiàn)評分異常,其余3個課題中評分也逼近了下限.特別是對于評分波動性較大的課題108,專家1評分仍能超出正常范圍.過多的異常評分和明顯的固有偏差集中體現(xiàn)為極大的總體偏差,這表明該專家問題嚴重,在后續(xù)評審活動中不建議將其繼續(xù)作為技術(shù)專家.
總體偏差同樣較大是專家8,從固有偏差檢測結(jié)果知其具有很強的給高分習慣,但未有異常評分.
在圖7中專家8表現(xiàn)與分析一致,評分全部高于平均分且處于正常區(qū)間的較高位置.但對于分數(shù)波動較大的課題108,該專家給出了較為合理的評分,這是一個比較好的現(xiàn)象.評分尺度過于寬松是專家8總體偏差較大的主導因素,證明了固有偏差過大時也會對總體偏差產(chǎn)生嚴重影響,但這種“尺子”方面的問題僅從總體偏差無法發(fā)現(xiàn),說明了結(jié)合固有偏差和總體偏差的必要性.與專家8相反,從表2和圖7中均能確定專家58也有給高分的傾向,但程度更低,從而總體偏差較小,僅排在第58位.僅以t檢驗結(jié)果而言,有明顯固有偏差的專家分布在表2排序的各部分,表明固有偏差在整體上對專家總體偏差的影響還是可以接受的.
與固有偏差不同,異常次數(shù)的多少和總體偏差的大小顯著相關(guān),表2中異常次數(shù)達到閾值的專家均在排序前列.原因在于專家評分次數(shù)普遍較少,集中在5~7次,所以每個異常值的出現(xiàn)均會對總體偏差有不小貢獻.例如專家6總體偏差較大而t檢測值低,從圖8中也可看出僅有輕微的給高分傾向,但5次評分中就有1個異常值.當然,也并非異常評分少且無明顯固有偏差就意味著總體偏差小,原因有二:一是即便沒有或較少出現(xiàn)異常評分,還可能存在較多接近但未超出正常范圍的評分;二是固有偏差不明顯也可能是因為評分忽高忽低,如圖8中顯示的專家10評分情況.該專家參與了10次驗收評審,僅1次評分異常(相應閾值為2次),t檢驗值0.286接近于0,表明其無過寬或過嚴的評分慣性.但從圖8中可知其評分在平均分上下波動,并且過半評分接近正常范圍上下限,故偏差排序靠前.對于類似表現(xiàn)的專家,僅憑異常評分和固有偏差檢測是不夠的,加入總體偏差才能正確分析其偏差情況.
在分析了5個存在問題及表現(xiàn)各不相同的實例后,圖9給出專家72的評分及相關(guān)課題分數(shù)信息,作為較理想的專家示例,其總體偏差極小、無異常評分,僅評分尺度略顯嚴格,圖中也可看出該專家評分與平均分非常一致.
以上結(jié)合典型實例分析了3個偏差指標的關(guān)聯(lián)性:異常評分體現(xiàn)突變性信息,對總體偏差影響明顯;固有偏差體現(xiàn)一致性的評分傾向,對總體偏差有一定影響;總體偏差是綜合性評價,既包含了突變性和傾向性信息,又體現(xiàn)了兩者之外的一些因素,但不能細致區(qū)分偏差表現(xiàn).分析工作應先根據(jù)總體偏差大體鎖定問題專家群體,再聯(lián)合異常評分、固有偏差判斷專家具體問題并確定處理措施.因此,表3列出了以這3個指標劃分的8種專家偏差類型及建議的應對措施.
異常評分次數(shù)和固有偏差均有檢測閾值.為了使總體偏差保持一致,本部分簡單采用大津法[24](又稱最大類間差方法)尋找可將總體偏差分為差距最大的兩類的閾值,這樣即可利用3個指標的閾值將任一專家歸類到特定偏差類型.根據(jù)大津法得到高總體偏差專家(排序1~21)和低總體偏差專家(排序22~74).各類型專家人數(shù)和占比也列于表3.這些偏差類型不限于本文數(shù)據(jù),在其他科技計劃管理活動中同樣可以應用.
表3 專家評分偏差類型及應對措施Table 3 Types of experts according to their score biases and countermeasures
對于部分專家需進一步培訓和溝通,有針對性地矯正評分行為.對建議措施解釋如下:
1)Ⅰ類專家嚴重影響評分可靠性,不建議繼續(xù)參與驗收評審.
2)Ⅱ類專家總體偏差大、異常多、評分忽上忽下,可以推斷頻繁受外在因素干擾且影響程度較大(如與課題團隊間的好惡關(guān)系、不正確的刻板印象等).主要問題在于評分獨立性、客觀性不足,應加強此方面意識培訓.此外還應觀察其t檢驗值是否已接近閾值,預防Ⅱ類專家轉(zhuǎn)為Ⅰ類.
3)Ⅲ類專家評分尺度問題明顯,或偏高(如受同情心理效應影響)或偏低(如有高標準、嚴要求的評審習慣).較大的總體偏差表明該問題已明顯影響到評分合理性.應多與此類專家溝通,令其加強尺度把握.
4)Ⅳ類專家偏差大但其他指標正常,說明其評分上下波動卻沒有過于極端.推測此類專家的主要問題在于對評分標準理解不足而非受外在因素的嚴重干擾,應加強培訓提高驗收規(guī)范內(nèi)化程度.此外,也存在評分次數(shù)不多使異常評分和固有偏差檢測不準確的可能,仍需跟蹤觀察確定其是否為潛在的Ⅰ/Ⅱ/Ⅲ類專家.
5)Ⅴ類專家僅為保證完整性而提出,基本不可能出現(xiàn).原因在于異常評分多、固有偏差強均會增加總體偏差,極難同時出現(xiàn)低總體偏差.本文數(shù)據(jù)一定程度上證明了這一點.
6)Ⅵ類專家與Ⅱ類成因相似但程度較輕,是在評分次數(shù)較少的專家中存在的小概率情況.因其偏差較小,不建議采用強化培訓,應先進一步搜集相關(guān)信息確定外部因素來源后,提醒專家注意該因素影響.
7)Ⅶ類專家僅固有偏差偏高,提醒其稍微注意控制評分尺度即可.
8)Ⅷ類專家各項指標正常,無需任何處理措施.
需要注意的是,以硬閾值劃分總體偏差只是一種粗略的分組方式.閾值附近的高、低偏差專家客觀上并無太大區(qū)別,不能粗暴地認定前者一定有嚴重問題而后者沒有.表3僅是給出了一些參考措施建議,對于接近總體偏差閾值的專家應根據(jù)情況具體討論.雷達圖因其形狀的規(guī)律性和對比的便利性在分析偏差效應中非常適用[5].本文給出了部分偏差類型的理想雷達示意圖和相應實例,可以看出雷達圖非常形象地表達了類型間的不同特點.
雷達圖根據(jù)專家評分與課題平均分之差繪制,越外層的多邊形表示高估越嚴重,越內(nèi)層則越低估.角點上的數(shù)字代表課題序號,同一多邊形的邊構(gòu)成了特定差值的等值線,差值列于多邊形左上位置,紅色點代表異常評分.對于專家實例,雷達圖中顯示范圍統(tǒng)一為-16~16,便于公平比較.突變性的異常評分會造成雷達圖中形狀的不規(guī)律變化.對于涉及異常評分較多的類型,尤其是可能既有高異常分又有低異常分的情況(Ⅱ和Ⅵ型),并沒有理想的雷達示意圖可代表其多樣性表現(xiàn).即便異常評分少,但若總體偏差高且無明顯固有偏差(Ⅳ型),評分仍然是圍繞課題平均分在較大范圍內(nèi)上下波動,同樣難以找到理想示意圖.排除掉以上三類和近乎不可能的類型(Ⅴ型),圖11—13展示了Ⅲ、Ⅶ、Ⅷ三種類型.另外,同時滿足異常評分多和固有偏差強的條件下,異常評分或者多為極高分、或者多為極低分,不規(guī)律性顯著降低,所以Ⅰ型也可找到理想雷達示意圖(圖10).從圖10—13可知,專家1(偏差大、異常多、偏低估)、專家8(偏差大、異常少、偏高估)、專家58(偏差低、異常少、偏高估)、專家72(偏差低、異常少、固有偏差弱)與相應類型的理想雷達圖非常相似,說明這4種偏差類型確有穩(wěn)定的雷達圖形狀.即便不采用本文的3個指標,科研管理人員也可利用雷達圖直接完成簡單的偏差分析工作,至少能夠快速找到理想專家群體(Ⅷ型)以提高評審結(jié)果可靠性,或者找到Ⅰ型專家群體減少其參評次數(shù)甚至不再作為專家人選.
在科技管理工作中,驗收評審有著評估課題完成水平、衡量科研產(chǎn)出價值的重要作用.開展評審專家可靠性研究對于科技評審活動是十分有指導意義的.因此,本文結(jié)合數(shù)據(jù)挖掘算法和數(shù)理統(tǒng)計方法給出了衡量專家評分偏差的3個定量指標,以對“十二五”863計劃某技術(shù)領(lǐng)域課題驗收專家的評審行為進行初步探索.分析發(fā)現(xiàn),該領(lǐng)域驗收專家評分整體合理,僅1人次評分異常明顯;固有偏差處于可接受范圍.本文還根據(jù)偏差指標進一步歸納了8種偏差類型并給出應對措施建議,此項研究是對現(xiàn)階段科研管理相關(guān)工作的完善與延伸.科技部近期正在開展“十三五”國家重點研發(fā)計劃各重點專項首批到期項目的綜合績效評價,分析結(jié)果可用于績效評價專家遴選和評前培訓,幫助特定專家群體內(nèi)化評審規(guī)范并降低評分習慣、個人偏好、外部因素等影響.此外,文中采用的評價體系和專家偏差類型同樣可在其他科研管理活動中發(fā)揮評價評審過程、規(guī)范評審行為的作用.為響應“三評”(項目評審、人才評價、機構(gòu)評估)改革意見[25],下一步工作將聚焦推進本文評價體系在多項國家科技計劃乃至各類“三評”活動中的推廣應用.一來從專家偏差性和評審對象爭議性兩方面綜合評價評審過程、完善評審機制,同時廣泛采樣檢驗本文分析方法的泛化能力;二來基于總體偏差、固有偏差和異常評分并結(jié)合大量評分數(shù)據(jù),既可以從不同粒度歸納總結(jié)專家潛在的共性問題和分析差異化的評審行為,又能根據(jù)所得經(jīng)驗和專家歷史偏差評價結(jié)果輔助“三評”專家遴選工作,提升科技評審效度.正值教育部、科技部聯(lián)合印發(fā)《關(guān)于規(guī)范高等院校SCI論文相關(guān)指標使用 樹立正確評價導向的若干意見》[26]之際,希望本文能夠?qū)ζ渲械摹巴晟茖W術(shù)同行評價”、“規(guī)范各類評價活動”等內(nèi)容提供方法論支撐.