亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

開放同行評議視角下學(xué)術(shù)論文同行評議得分與被引頻次的關(guān)系

2022-02-18 01:59:24謝維熙張光耀王賢文

中國科技期刊研究 2022年1期

■謝維熙張光耀王賢文

大連理工大學(xué)科學(xué)學(xué)與科技管理研究所暨WISE實驗室，遼寧省大連市甘井子區(qū)凌工路2號 116024

同行評議(本研究只討論學(xué)術(shù)論文發(fā)表同行評議，不涉及科研項目和獎項評審情況)和引文分析是科研評價中常用的兩種方法。同行評議是科技期刊對論文進行評價和遴選以保證發(fā)表論文質(zhì)量的過程，由期刊邀請同行專家對投稿論文提出修改意見和作出評判，并將其評價作為判斷文章是否能發(fā)表的主要依據(jù)[1]。引文是作者選擇支撐其學(xué)術(shù)研究的理論、觀點、數(shù)據(jù)和方法等研究資料，引文分析則是利用引文與學(xué)術(shù)成果的互依性進行學(xué)術(shù)評價[2]。同行評議與引文分析在學(xué)術(shù)評價中各有優(yōu)缺點，隨著同行評議數(shù)據(jù)的不斷開放，科學(xué)工作者們可以從實證角度對同行評議和文獻計量間的關(guān)系展開研究，但其研究仍受同行評議數(shù)據(jù)開放程度的限制。

本研究旨在開放同行評議的背景下，對三類論文在評審得分和被引頻次方面的差異以及論文同行評議得分與被引頻次的相關(guān)性進行分析，探討論文同行評議結(jié)果與傳統(tǒng)文獻計量指標(biāo)的關(guān)系，從而驗證同行評議的有效性以及分析同行評議結(jié)果與傳統(tǒng)文獻計量指標(biāo)在科研評價中的關(guān)系，為提高學(xué)術(shù)評價的科學(xué)性以及完善學(xué)術(shù)評價體系提供一定的參考。

同行評議最早可追溯到17世紀，一直以來在學(xué)術(shù)期刊質(zhì)量控制和科研評價方面發(fā)揮著不可替代的作用[3]。傳統(tǒng)的同行評議在實施過程中存在諸多問題[4-5]，如審稿人和作者之間信任缺失、由個人利益和喜好導(dǎo)致不公正評價等問題[6]。

隨著開放科學(xué)運動的不斷推進[7]，開放同行評議(Open Peer Review，OPR)以其公正、透明的優(yōu)勢日益受到關(guān)注并在全球多種學(xué)術(shù)期刊上得到實踐，比如PLoSONE、PeerJ、BMJ等[8]，與國外相比，國內(nèi)關(guān)于開放同行評議的研究和實踐仍處于初級階段。開放同行評議向大眾開放審稿信息，包括審稿人和作者身份信息、審稿人的建議、作者的回復(fù)以及評審結(jié)果等信息[9]，評審過程的開放性使得審稿人在評審時會更加謹慎公正，這對提高審稿意見的質(zhì)量和客觀公正性、縮短審稿時間、完善評議過程的監(jiān)督機制以及促進知識交流等都有一定的促進作用[10]。關(guān)于同行評議的開放性是否會對稿件的被引頻次產(chǎn)生影響，Zong等[10]和Ni等[11]分別對PeerJ和NatureCommunications的同行評議數(shù)據(jù)進行分析，得出了不一致的結(jié)論：前者認為開放同行評議提高了論文被引頻次，而后者則并沒有發(fā)現(xiàn)這一效果。

Bornmann等[12]以AtmosphericChemistryandPhysics上的1111篇接收論文為研究對象，并提取論文發(fā)表3年后的被引頻次，結(jié)果發(fā)現(xiàn)論文在各個數(shù)據(jù)庫中的被引頻次隨著同行評議評分級別的降低而減少。Ragone等[13]調(diào)研了10本計算機領(lǐng)域的會議論文集，發(fā)現(xiàn)同行評議評分等級與被引頻次呈正向弱相關(guān)。王一華[14]將IF(JCR)、CiteScore(Scopus)、h指數(shù)、SJR值、SNIP值與同行評議結(jié)果進行Spearman非參數(shù)相關(guān)分析，發(fā)現(xiàn)同行評議結(jié)果與這5個文獻計量指標(biāo)的測量結(jié)果之間呈顯著正相關(guān)。Bornmann[15]研究了PLoS或F1000專家推薦評審等級與傳統(tǒng)文獻計量指標(biāo)的相關(guān)性，結(jié)果發(fā)現(xiàn)FFa(F1000論文因子)與被引頻次之間的正相關(guān)性顯著。

檀旦[16]以醫(yī)學(xué)信息學(xué)和糖尿病為主題，分析F1000與傳統(tǒng)文獻計量學(xué)指標(biāo)的相關(guān)性后發(fā)現(xiàn)兩者具有一定的正相關(guān)性。萬昊等[17]通過對120多篇實證研究進行元分析，比較同行評議與文獻計量在科研評價中的作用，結(jié)果發(fā)現(xiàn)兩者僅存在適度的正相關(guān)性，從而提出建構(gòu)在定量輔助基礎(chǔ)上的知情同行評議模式。黃明睿[18]基于《2014年版中國科技期刊引證報告(核心版)》，采用多種計量統(tǒng)計方法研究期刊評價指標(biāo)載文量、總被引頻次、影響因子和綜合評價總分之間的相互關(guān)系，結(jié)果表明總被引頻次、影響因子、綜合評價總分三者之間相互影響，在學(xué)術(shù)評價中起主要作用?，F(xiàn)有的大部分實證研究表明：同行評議結(jié)果與以被引頻次為基礎(chǔ)的傳統(tǒng)文獻計量指標(biāo)存在正相關(guān)關(guān)系，而且大部分研究結(jié)果顯示兩者的相關(guān)系數(shù)并不高。

傳統(tǒng)同行評議背景下，審稿過程數(shù)據(jù)的封閉狀態(tài)限制了同行評議實證研究的開展。隨著開放同行評議的推進，大量的關(guān)于審稿數(shù)據(jù)供科研人員進行研究。本研究基于ICLR會議論文的開放同行評議數(shù)據(jù)，使用同行評議的評分來定量測度同行評議的結(jié)果，相較于以往的定性研究具有一定的優(yōu)勢，而且ICLR數(shù)據(jù)集除了錄用論文外，還包括拒稿，這使得研究更加充實和全面。

1 數(shù)據(jù)與方法

OpenReview是一個會議論文公開評審網(wǎng)站，其中ICLR(International Conference on Learning Representations)的全稱為“國際學(xué)習(xí)表征會議”，是深度學(xué)習(xí)領(lǐng)域影響力最大的頂級會議之一，雖然成立較晚(2013年成立)，但是其作為深度學(xué)習(xí)的頂級會議已經(jīng)得到了學(xué)術(shù)界的廣泛認可。ICLR備受關(guān)注的原因不僅是其在學(xué)術(shù)上具有較高的影響力，還在于它采取了開放同行評議制度，其公開的同行評議數(shù)據(jù)有原文題目、作者、摘要、下載鏈接、評審意見、作者與審稿專家以及參會人的討論過程、審稿結(jié)果即評審得分(Rating)。在ICLR論文審稿中，會議主席對其負責(zé)的投稿作出錄用與否的決策。會議主席考慮的信息包括審稿專家的評分、審稿過程中提供的證據(jù)、作者和審稿專家之間的討論以及自己對論文的評估等等(1)①來源于作者與ICLR項目主席的郵件通信，ICLR項目主席的郵件原文為：“Within the ICLR review process, Area Chairs make an accept recommendation for each submission in their respective batch. Area Chairs are asked to take into account several sources of information, including the reviewer scores and certainty, the evidence provided in the reviews, discussion between authors and reviewers, and the Area Chair′s own assessment of the paper. As such, there is no hard and fast rule on whether a paper will be accepted given a specific score. In addition, the Program Committee work with Area Chairs to calibrate acceptance decisions across Area Chairs, to account for factors such as the fact that some Area Chairs may be more conservative than others in their acceptance decisions. All calibration happens online and asynchronously, i.e., there is no single meeting where decisions are made.”。一些實證研究已經(jīng)探索了這一數(shù)據(jù)集在研究中的可靠性，如基于ICLR的評審意見文本數(shù)據(jù)，對審稿意見情感以及評審中存在的制度偏見進行分析，還有學(xué)者提出將融合定性評價的論文質(zhì)量評價模型用于定性評價文本的定量化研究[19-21]。在本研究中，將ICLR系列會議在OpenReview平臺中的同行評議數(shù)據(jù)和文獻計量指標(biāo)數(shù)據(jù)作為研究數(shù)據(jù)，ICLR的公開審稿意見(示例)如圖1所示。

圖1 ICLR公開的審稿意見示例

本研究選取OpenReview平臺上ICLR會議論文集在2018—2019年公布的2220篇論文(排除審稿意見缺失的1篇論文和谷歌學(xué)術(shù)上查詢不到的8篇論文，以及14篇數(shù)據(jù)出現(xiàn)異常的論文)作為研究對象，包括42篇口頭報告論文(Oral Presentation Papers，以下簡稱“OP論文”；難度最大，錄用率約為1.35%)和780篇海報展示論文(Poster Presentation Papers，以下簡稱“PP論文”；錄用率約為22.65%)以及1398篇被拒收論文(Rejected Papers，以下簡稱“RP論文”)。其中，用于數(shù)據(jù)分析的變量主要包括同行評議過程中審稿專家對每篇論文給出的評分，用來判斷單篇論文的非共識程度的得分方差，以及每篇論文發(fā)表至今(2021年6—7月查詢)在谷歌學(xué)術(shù)上的總被引頻次?？紤]到會議論文數(shù)據(jù)集在單個數(shù)據(jù)庫中無法保證檢全，因此選擇谷歌學(xué)術(shù)上的被引頻次作為研究要素。需要說明的是，考慮到同行評議數(shù)據(jù)的完整性以及統(tǒng)計被引頻次時保證兩年的被引時間窗口，本研究只選取2018年和2019年的數(shù)據(jù)作為研究對象。

2 結(jié)果

2.1 OP、PP與RP論文的被引頻次差異

為了比較OP論文與PP論文以及RP論文在同行評議結(jié)果和引文指標(biāo)方面的差異，選取同行評議得分與論文發(fā)表至今的被引頻次這兩個指標(biāo)進行比較分析，結(jié)果如表1和圖2所示。由表1可知：OP論文的評審得分和被引頻次均明顯高于PP論文，而PP論文的評審得分和被引頻次又明顯高于RP論文；單因素方差分析結(jié)果顯示，不同類型論文之間的平均得分與平均被引頻次差異有統(tǒng)計學(xué)意義。由于數(shù)據(jù)分布不符合正態(tài)分布，使用K-S檢驗進一步對三類論文的評審得分和被引頻次進行檢驗，P值均<0.001，說明OP論文、PP論文和RP論文三者之間的評審得分和被引頻次均存在顯著差異。

表1 OP論文、PP論文與RP論文的評價指標(biāo)對比

圖2 OP、PP與RP論文評審得分和被引頻次分布(a)評審得分；(b)被引頻次

2.2 論文評審得分與被引頻次的相關(guān)性分析

經(jīng)過K-S檢驗，論文的評審得分與被引頻次不符合正態(tài)分布，因此采用Spearman秩相關(guān)分析方法對各類論文的評審得分與被引頻次進行相關(guān)性分析。由表2可知，對于全部論文(OP、PP和RP論文)，相關(guān)系數(shù)為0.625，表現(xiàn)出較高的相關(guān)性；對于OP論文，相關(guān)系數(shù)為0.134，即評審得分與被引頻次呈顯著正相關(guān)(P<0.01)；對于PP論文，相關(guān)系數(shù)為0.160，即評審得分與被引頻次呈顯著正相關(guān)；對于全部錄用論文(OP、PP論文)，相關(guān)系數(shù)為0.209，全部錄用論文的評審得分與被引頻次呈顯著正相關(guān)。

表2 論文評審得分與被引頻次的相關(guān)性分析結(jié)果

對評審得分與被引頻次之間的關(guān)系進行進一步分析，首先探究全部錄用論文(OP 和 PP 論文)中不同得分水平論文的被引頻次差異是否有統(tǒng)計學(xué)意義。由于被接收論文中只有一篇低于4分，其余均分布在4～10分范圍內(nèi)，因此剔除一篇最低分論文，將821篇論文按得分分到3個區(qū)間里([4,6)、[6,8)、[8,10])，對這三組論文進行非參數(shù)檢驗，發(fā)現(xiàn)不同得分水平論文之間的被引頻次差異具有統(tǒng)計學(xué)意義(P=0.002)。其次，探究對于不同被引頻次水平的論文評審得分對被引頻次的影響規(guī)律。本研究分析了高被引論文和極高被引論文的得分情況，將所有論文按被引頻次降序排列，取前5%為高被引論文，前1%為極高被引論文，結(jié)果如表3所示?？梢钥吹剑瑯O高被引論文的評審得分均值(6.91)>高被引論文的評審得分均值(6.57)>非高被引論文的評審得分均值(5.37)。

表3 高被引論文和極高被引論文的平均評審得分與平均被引頻次的比較

為了更清晰地展示評審得分與被引頻次的關(guān)系，繪制了全部2220篇論文的評審得分與被引頻次的散點圖。從圖3(a)可以看出，總體上評審得分與被引頻次的相關(guān)性并不顯著。本研究同時考慮了評審存在分歧的論文即非共識論文的被引頻次分布情況。國家自然科學(xué)基金委員會管理科學(xué)部副主任楊列勛指出，評審專家在某一項研究項目的評審上兩種意見幾乎各占一半，且雙方均有一定的論據(jù)，那么這項研究就是非共識研究[22]；劉文波和鈕曉鳴[23]認為，非共識研究是指具有不確定性和創(chuàng)新性且在初期評審專家難以對研究成果達成一致意見的研究行為或活動。雖然目前學(xué)術(shù)界尚未對非共識研究形成統(tǒng)一的界定，但是關(guān)于非共識研究同樣存在研究價值和創(chuàng)新價值這一觀點已經(jīng)得到學(xué)術(shù)界的廣泛認可。本研究使用一篇論文評審得分的方差來表示該論文的整體非共識度，方差越大，表示論文非共識的離散或者說審稿人意見相左的程度越大，即非共識度越大，或者說對論文評審結(jié)果的分歧越大[24]。圖3(b)展現(xiàn)了論文非共識度與被引頻次的關(guān)系，統(tǒng)計結(jié)果顯示論文非共識度與被引頻次呈正相關(guān)，但兩者的相關(guān)性并不顯著。

圖3 論文評審得分與非共識度散點圖(a)所有論文評審得分與被引頻次散點圖；(b)論文非共識度與被引頻次散點圖

2.3 回歸分析

上述內(nèi)容中的統(tǒng)計檢驗結(jié)果顯示了論文錄用狀態(tài)、評審得分以及論文非共識程度和被引頻次之間的關(guān)系?；谏鲜龇治?，本研究擬通過回歸分析(OLS和mlogit)來進一步檢驗論文評審得分和被引頻次之間的關(guān)系。模型設(shè)定為

Yi=Xiβ+εi

(1)

式中：Yi為論文的被引頻次；Xi為解釋變量；β為回歸系數(shù)；εi為誤差項。

Uij=Xiβj+εij

(2)

式中：Uij表示第i篇論文在第j種評審狀態(tài)下的隨機效用；βj為不同評審狀態(tài)下對應(yīng)的回歸系數(shù)；εij為誤差項。變量的描述統(tǒng)計結(jié)果和相關(guān)系數(shù)矩陣如表4和表5所示，論文評審得分與被引頻次的回歸結(jié)果如表6所示。

表4 變量的描述統(tǒng)計結(jié)果

表5 變量的相關(guān)系數(shù)矩陣

表6 論文評審得分與被引頻次的回歸結(jié)果

為避免極端值的影響，在回歸前將Citations、Rating、Variance在99分位作截尾處理。方差膨脹系數(shù)(Variance Inflation Factor，VIF)最大值為2.24，平均值為1.51，表明不存在嚴重的共線性。在模型1中加入了所有變量，評審得分的回歸系數(shù)為正且在0.001水平上顯著相關(guān)，錄用論文的系數(shù)在0.001水平上顯著正相關(guān)，意味著錄用論文的被引頻次相比于RP論文更高。進一步將樣本拆分成兩部分，在模型2中納入RP論文樣本，在模型3中納入全部錄用論文樣本，這兩個模型的評審得分系數(shù)仍然為正，且在0.001水平上顯著相關(guān)。從模型3可以看出，PP論文的系數(shù)為負，且在0.05水平上顯著相關(guān)，意味著相比于PP論文，OP論文有著更高的被引頻次。模型4～6為使用mlogit估計的結(jié)果，表6中呈現(xiàn)的是評審得分的邊際效應(yīng)，其中對于OP和PP論文，評審得分的邊際效應(yīng)為正，對于RP論文，評審得分的邊際效應(yīng)為負。

2.4 低得分-高被引論文和高得分-低被引論文

上述分析結(jié)果得出被ICLR接收的論文，其Spearman秩相關(guān)系數(shù)r=0.209，因此對這種弱相關(guān)背后的一些例外情況進行分析。運用案例分析方法，選取6篇評審得分低-被引頻次高的論文和6篇評審得分高-被引頻次低的論文作為案例，對這兩組案例的評審得分、被引頻次、得分方差、預(yù)印本(arXiv)存檔以及文獻內(nèi)容進行分析，以發(fā)現(xiàn)同行評議結(jié)果與被引頻次相悖的文獻特征，對評審得分低-被引頻次高以及評審得分高-被引頻次低的論文進行統(tǒng)計，結(jié)果如表7所示。

表7 案例論文統(tǒng)計結(jié)果

在會議集對論文做出接收或拒絕的決定之前，有部分論文已經(jīng)發(fā)布到arXiv平臺上，表7統(tǒng)計的低得分-高被引論文都在被接收之前發(fā)布在arXiv平臺上，這就使得這些論文較其他未發(fā)布到arXiv的論文有更長的被引窗口。以往的研究表明，arXiv論文在許多數(shù)據(jù)庫中都具有顯著的引用優(yōu)勢[25]。

由表7可知，這些低得分-高被引論文具有一些共同的特征：評審專家給分均不高、存在較低分導(dǎo)致平均得分較低、大部分論文都發(fā)布在arXiv平臺。高得分-低被引論文也具有一些共同的特征：大部分論文并未發(fā)布到arXiv平臺，并且這些論文的評審得分方差普遍較低，說明評審專家對這些論文的評價分歧較小。分析上述論文的原文和審稿意見后發(fā)現(xiàn)：低得分-高被引論文的創(chuàng)新性通常較低，或者屬于綜述性研究；而高得分-低被引論文通常具有較高的創(chuàng)新性，因而得到審稿人的高度認可。

3 結(jié)論與討論

3.1 研究結(jié)論

論文的評審得分反映的是審稿人對研究的主觀評價，而且大多數(shù)都是定性評價，被引頻次反映的是學(xué)術(shù)同行對科研勞動成果的認可程度，在一定程度上反映了科研產(chǎn)出的質(zhì)量，是一種定量評價。上述研究結(jié)果表明用這兩種方法對科研成果進行評價得到的結(jié)果并不總是一致的。

ICLR通過同行評議決定論文是否錄用以及錄用為口頭匯報還是海報展示，通過對OP論文、PP論文和RP論文進行描述統(tǒng)計和方差分析，發(fā)現(xiàn)這三類論文的評審得分和被引頻次是有差異的，進行兩兩比較后發(fā)現(xiàn)差異均有統(tǒng)計學(xué)意義(P<0.05)，這個結(jié)果從一定程度上反映了同行評議的有效性和同行評議結(jié)果與傳統(tǒng)計量指標(biāo)的一致性。

通過對論文評審得分和被引頻次進行相關(guān)性分析和回歸分析，發(fā)現(xiàn)PP論文、錄用論文、全部論文的評審得分與被引頻次存在顯著的正相關(guān)關(guān)系，這一結(jié)果與以往關(guān)于同行評議結(jié)果和被引頻次的研究結(jié)果類似。本研究結(jié)果表明：雖然同行評議和被引頻次從不同角度反映科學(xué)研究的學(xué)術(shù)影響力，但是兩者在一定程度上呈正相關(guān)，證明了同行評議和被引頻次在科研評價中的有效性和一致性；同行評議能夠選出具有價值的論文，并在發(fā)表之后具有更高的影響力，證實了同行評議的有效性。

錄用論文的評審得分與被引頻次的相關(guān)性不高，可能是因為同行評議與傳統(tǒng)計量指標(biāo)是從不同維度對文章進行評價，同行評議具有主觀性和封閉性等特點，引用具有偏性和引用動機復(fù)雜性等特點。對這種弱相關(guān)性背后的一些個例進行統(tǒng)計，對低得分-高被引和高得分-低被引論文進行分析發(fā)現(xiàn)，前者是事先發(fā)布到arXiv平臺的微創(chuàng)新性研究論文或綜述性文章，后者則大多是非共識度低、但創(chuàng)新程度高的研究論文或?qū)W術(shù)爭議文章。這一結(jié)果從一定程度上反映了以引用為代表的定量指標(biāo)和同行評議定性評價指標(biāo)是相輔相成的，可將定量和定性兩種評價工具結(jié)合起來進行相對有效、全面的科研評價。

3.2 討論與啟示

同行評議的結(jié)果是從評審專家的角度來評估論文的質(zhì)量，而以被引頻次為基礎(chǔ)的傳統(tǒng)計量指標(biāo)是從作者的角度來判斷論文的質(zhì)量及影響力。同行評議作為科學(xué)研究的“守門人”，雖然存在主觀偏見可能導(dǎo)致結(jié)果有失公允，但是其作為控制科研質(zhì)量的首要機制，對科研評價體系的建設(shè)起到至關(guān)重要的作用。被引頻次作為傳統(tǒng)文獻計量評價的基礎(chǔ)，雖然存在引用的不完備性和有偏性，但是被引頻次可以作為一種定量化工具，在一定程度上反映同行對研究質(zhì)量及影響力的評價。本研究結(jié)果發(fā)現(xiàn)雖然同行評議結(jié)果與引文度量指標(biāo)之間呈正相關(guān)，但是同行評議和文獻計量指標(biāo)之間是不可相互替代的：同行評議仍然是目前科研評價體系最重要的一環(huán)；相比于同行評議的精英評價，文獻計量指標(biāo)能夠提供更大范圍內(nèi)公開的同行評價參考。

從期刊評價實踐的角度來看，文獻計量指標(biāo)是對同行評議的重要補充。期刊評價體系應(yīng)該是建立在定性同行評議的質(zhì)量評價基礎(chǔ)上，融合定量文獻計量指標(biāo)，形成一種主客觀相結(jié)合的評價模式。

4 局限

本研究存在一些局限：首先，本研究使用的開放同行評議數(shù)據(jù)，其開放透明的特點給研究帶來了極大的便利，但是由于目前采取開放同行評議模式的期刊和會議集較少，而且開放程度也不盡相同，本研究僅選取了公布全部投稿論文的評審得分數(shù)據(jù)的ICLR數(shù)據(jù)集進行分析，論文樣本量較小，可能會限制研究的開展；其次，本研究的對象是計算機領(lǐng)域的會議論文，可能存在學(xué)科差異，結(jié)論外推時需謹慎；最后，本研究對同行評議結(jié)果和文獻計量指標(biāo)的相關(guān)性進行分析，提出應(yīng)將定性、定量兩種評價工具結(jié)合起來才能進行有效的科研評價，但如何實現(xiàn)二者的融合評價是亟需解決的問題，需要后續(xù)進一步研究。