郭進(jìn)京 黃 奇 盛 姝 秦新國(guó),2
(1.南京大學(xué)信息管理學(xué)院 南京 210023;2.南京審計(jì)大學(xué)信息化辦公室 南京 211815)
開(kāi)放獲取(Open Access, OA)是指讀者通過(guò)網(wǎng)絡(luò)免費(fèi)、自由地獲取和利用各種類(lèi)型的科研成果[1]。OA運(yùn)動(dòng)最初旨在解決“學(xué)術(shù)期刊危機(jī)”,以消除所有科學(xué)家、學(xué)者、教師、學(xué)生和其他對(duì)知識(shí)探索感興趣的人群對(duì)文獻(xiàn)獲取的障礙,推動(dòng)研究和教育開(kāi)展,促進(jìn)知識(shí)分享和文獻(xiàn)利用,后逐漸擴(kuò)展至開(kāi)放圖書(shū)、開(kāi)放軟件、開(kāi)放數(shù)據(jù)、開(kāi)放基礎(chǔ)設(shè)施等各類(lèi)領(lǐng)域,并最終形成開(kāi)放科學(xué)理念。截至2021年9月28日,在世界范圍內(nèi)已有6 141個(gè)人和976個(gè)組織簽署了布達(dá)佩斯開(kāi)放獲取倡議(Budapest Open Access Initiative,BOAI)[2]。2018年9月,歐洲研究理事會(huì)(European Research Council, ERC)和來(lái)自12個(gè)歐洲國(guó)家的主要國(guó)家研究機(jī)構(gòu)和資助機(jī)構(gòu)啟動(dòng)S計(jì)劃,該計(jì)劃要求從2020年起,由公共資助的研究所產(chǎn)出的科學(xué)出版物必須在合規(guī)的OA期刊或平臺(tái)上發(fā)表[3]。開(kāi)放獲取運(yùn)動(dòng)的興起,不僅推動(dòng)了知識(shí)開(kāi)放和共享,而且促進(jìn)了全球?qū)W術(shù)信息交流和傳播方式的改變,并為科研模式由計(jì)算型科研模式向數(shù)據(jù)密集型科研模式轉(zhuǎn)變提供支撐。
根據(jù)BOAI內(nèi)容,開(kāi)放獲取的實(shí)現(xiàn)形式主要有開(kāi)放獲取期刊(Open Access Journals)和自存儲(chǔ)(Self-Archiving)兩種。根據(jù)期刊類(lèi)型,開(kāi)放獲取期刊可大致分為完全開(kāi)放獲取期刊(Full OA Journal)、混合開(kāi)放獲取期刊(Hybrid OA Journal)和延時(shí)開(kāi)放獲取期刊(Delayed OA Journal)。根據(jù)開(kāi)放獲取期刊目錄(Directory of Open Access Journals, DOAJ)網(wǎng)站數(shù)據(jù),截至2021年9月28日,世界范圍內(nèi)已有16 919種完全開(kāi)放獲取期刊被其收錄[4]。2001年,Steve Lawrence在Science雜志上發(fā)表題為《免費(fèi)在線獲取大大增加了論文的影響力——基于計(jì)算機(jī)科學(xué)領(lǐng)域會(huì)議論文的分析》[5],開(kāi)啟了有關(guān)開(kāi)放獲取對(duì)科學(xué)出版物的可見(jiàn)性或影響力的爭(zhēng)論。目前有關(guān)開(kāi)放獲取影響力的研究主要是基于引用情況的分析,但卻存在截然相反的兩種結(jié)論:有的學(xué)者認(rèn)為OA論文相較于非OA論文確實(shí)存在引用優(yōu)勢(shì)[6-7],但對(duì)各學(xué)科的影響程度存在差異[8-9];也有學(xué)者認(rèn)為OA論文相較于非OA論文并不存在引用優(yōu)勢(shì)或優(yōu)勢(shì)不顯著[10-11],甚至某些學(xué)科的OA論文的影響力不如非OA論文[12],論文的引用量與其內(nèi)在特征、論文所在期刊質(zhì)量[13]、先見(jiàn)效應(yīng)[14]等因素有關(guān)。從方法論的角度來(lái)看,目前爭(zhēng)論的重點(diǎn)集中在偏差、對(duì)照組、抽樣以及案例研究結(jié)論的普適性等方面。
具體到圖情領(lǐng)域,部分學(xué)者圍繞圖情領(lǐng)域的OA期刊發(fā)展現(xiàn)狀開(kāi)展文獻(xiàn)計(jì)量分析[15-16],研究OA對(duì)期刊質(zhì)量的影響[17],分析圖情期刊的OA轉(zhuǎn)化策略[18],也有學(xué)者圍繞圖情領(lǐng)域OA論文的影響力開(kāi)展對(duì)比研究,指出OA論文在平均被引次數(shù)、點(diǎn)擊量和首次被引優(yōu)勢(shì)方面優(yōu)于非OA文章[19-20]。目前的研究多是將多種來(lái)源期刊的OA論文與傳統(tǒng)訂閱型的論文進(jìn)行被引頻次的對(duì)比,分析粒度較粗,而且現(xiàn)有的關(guān)于OA論文比非OA論文擁有引文優(yōu)勢(shì)的研究,多是基于觀察數(shù)據(jù)的簡(jiǎn)單比較,不能得到穩(wěn)定的因果關(guān)聯(lián)。OA論文的主題、自身質(zhì)量存在差異,在論文內(nèi)在特征無(wú)法得到控制的前提下簡(jiǎn)單比較OA論文和非OA論文的引用頻次差異,是存在偏差的,無(wú)法揭示OA對(duì)論文被引頻次的真實(shí)影響。
證據(jù)根據(jù)可信度可以分為多個(gè)層次,可信度高的證據(jù)是由能正確判斷因果關(guān)系的方法推導(dǎo)出來(lái)的,可信度低的證據(jù)是通過(guò)可能混淆因果關(guān)系和相關(guān)關(guān)系的方法推導(dǎo)出來(lái)。根據(jù)“證據(jù)金字塔”,證據(jù)等級(jí)最高的是元分析,其次是隨機(jī)對(duì)照實(shí)驗(yàn)、自然實(shí)驗(yàn)與準(zhǔn)實(shí)驗(yàn)、回歸分析[21]。隨機(jī)對(duì)照試驗(yàn)(Randomized Controlled Trial,RCT)能提供高等級(jí)的證據(jù),通過(guò)隨機(jī)化的方法來(lái)克服選擇性誤差,但并不是所有的問(wèn)題都能通過(guò)RCT來(lái)解決。有的研究問(wèn)題不得不使用觀察性研究方法,但觀察性研究不可避免地會(huì)存在選擇偏倚,基于觀察/調(diào)查資料去探究任何兩個(gè)變量關(guān)系時(shí)不可避免地會(huì)遇到其他混淆變量的影響。1983年,羅森鮑姆和魯賓提出傾向值(propensity score)的概念,傾向值指被研究的個(gè)體i(i=1,…,N)在控制可觀測(cè)到的混淆變量(confounding variables)xi的情況下劃分到干預(yù)組(Zi=1)或?qū)φ战M(Zi=0)的條件概率。用公式表示如下:
E(xi) =Pr(Zi=1∣Xi=xi)
(1)
當(dāng)兩個(gè)體的傾向值分?jǐn)?shù)接近的時(shí)候(即Pra≈Prb) , 兩個(gè)體的特征變量也趨于一致 (即Xa≈Xb)。如論文的引用頻次可能受到論文語(yǔ)種、主題、篇幅等混淆變量的影響,這些混淆變量的影響通常被稱為選擇性誤差,傾向值匹配就是用來(lái)控制和消除選擇性誤差,將全部的混淆變量整合為一個(gè)降維后的分?jǐn)?shù),通過(guò)比較匹配傾向值,可有效均衡處理干預(yù)組和對(duì)照組中的樣本,使兩組樣本在特征變量上均衡一致,進(jìn)而討論處理變量(又稱自變量)和結(jié)果變量(又稱因變量)之間的關(guān)系。該方法有助于遏制選擇性誤差對(duì)研究結(jié)論的影響,保證因果結(jié)論的可靠性。在各種控制傾向值的方法中,匹配比較簡(jiǎn)便易行,其基本邏輯是將受到處理變量影響的個(gè)體與沒(méi)有受到影響的個(gè)體進(jìn)行配對(duì),而傾向值匹配就是保證匹配起來(lái)的個(gè)體的傾向值相等或者近似,將對(duì)多個(gè)混淆變量的控制轉(zhuǎn)為對(duì)傾向值的單一控制,從而幫助得出因果性結(jié)論。以文章是否即時(shí)OA對(duì)引用頻次的影響為例,傾向值匹配就是在考慮多個(gè)混淆變量之后,將即時(shí)OA論文與非即時(shí)OA論文配對(duì),并保證他們的傾向值(即時(shí)OA的概率)相同或近似,這樣就得到了即時(shí)OA論文和非即時(shí)OA論文兩組個(gè)體。因已有的混淆變量已經(jīng)在基于傾向值的配對(duì)過(guò)程中得到了控制,兩組個(gè)體引用頻次的差異就只能歸因于是否即時(shí)OA,而不是其他混淆變量,由此遏制了選擇性誤差。
為避免因OA論文的主題、自身質(zhì)量存在差異及論文內(nèi)在特征無(wú)法得到控制所帶來(lái)的偏差和混淆因素的影響,本文擬采用傾向值匹配(Propensity Score Matching,PSM)的方法,在控制混淆因素的前提下,分析文章是否即時(shí)OA對(duì)文章被引頻次和下載量的影響。本研究采用的分析工具為Stata 14。以論文被引頻次為例,具體的分析思路如下:
1.1.1對(duì)樣本論文進(jìn)行分組
(2)
(3)
1.1.2對(duì)樣本論文進(jìn)行匹配
為滿足傾向值匹配所要求的干預(yù)組和對(duì)照組論文應(yīng)滿足“條件獨(dú)立性”假設(shè)的要求:即控制了混淆變量后,論文是否即時(shí)OA和其被引頻次相互獨(dú)立。為此,本研究在已有研究文獻(xiàn)的基礎(chǔ)上,設(shè)置了影響論文被引頻次的非隨機(jī)因素為混淆變量,使論文的被引頻次和是否即時(shí)OA滿足“條件獨(dú)立性”假設(shè)。
傾向值匹配估計(jì)結(jié)果是否有效取決于混淆變量是否滿足“共同支持條件”和“平衡性條件”[22]?!肮餐С謼l件”保證了干預(yù)組論文能夠通過(guò)傾向值找到與其相匹配的對(duì)照組論文,需要剔除傾向值高于對(duì)照組論文傾向值最大值或小于其最小值的干預(yù)組論文樣本?!捌胶庑詶l件”保證了匹配后的干預(yù)組論文和匹配成功的對(duì)照組論文在混淆變量上沒(méi)有顯著差異,可以通過(guò)計(jì)算匹配后兩組論文在各個(gè)混淆變量上的標(biāo)準(zhǔn)差來(lái)進(jìn)行匹配平衡性檢驗(yàn),考察他們之間是否存在顯著差異,如果沒(méi)有顯著差異,則說(shuō)明匹配平衡性較好。
1.1.3影響效應(yīng)估計(jì)
根據(jù)估計(jì)出的傾向值得分,利用不同的匹配規(guī)則考察即時(shí)OA對(duì)論文被引頻次的影響。
本研究采用《圖書(shū)情報(bào)工作》2013—2019年發(fā)表的論文作為數(shù)據(jù)來(lái)源。選擇該期刊主要基于以下原因:a.從期刊自身特點(diǎn)來(lái)看,在2020版CSSCI收錄的20種圖書(shū)館、情報(bào)與文獻(xiàn)學(xué)類(lèi)期刊中,《圖書(shū)情報(bào)工作》是唯一一本混合開(kāi)放獲取期刊,其所發(fā)表的文章既有即時(shí)OA論文,也有非即時(shí)OA論文。根據(jù)劉洢穎等人[23]的研究,混合OA期刊在相同時(shí)間刊出的OA論文和非OA論文在質(zhì)量上是大體相同的,而且選擇同一本期刊中的OA 與非OA 論文的數(shù)據(jù)可以排除學(xué)科、期刊類(lèi)別、出版模式等許多外界影響因素,便于進(jìn)行對(duì)比研究。b.從發(fā)文數(shù)量來(lái)看,《圖書(shū)情報(bào)工作》為半月刊,年發(fā)文量穩(wěn)定在400~700篇左右,年發(fā)文量較大。該期刊從2013年起開(kāi)始混合發(fā)表即時(shí)OA與非即時(shí)OA 論文,可以提供足夠多的分析樣本。c.從期刊內(nèi)容來(lái)看,《圖書(shū)情報(bào)工作》所刊出的論文選題范圍較廣,主要報(bào)道以圖書(shū)館學(xué)、情報(bào)學(xué)為核心的相關(guān)領(lǐng)域理論和實(shí)踐的最新進(jìn)展,論文主題覆蓋面較廣,一定程度上避免了因論文主題的差異而造成的影響。
將文獻(xiàn)來(lái)源限定為《圖書(shū)情報(bào)工作》,發(fā)表時(shí)間限定為2013年1月1日至2019年12月31日,檢索日期為2021年6月13日,從CNKI 的全文數(shù)據(jù)庫(kù)中獲取題名、作者、單位、關(guān)鍵詞、發(fā)表時(shí)間、卷期等信息,并補(bǔ)充了論文的被引次數(shù)和下載次數(shù)等信息,共計(jì)得到4 423條數(shù)據(jù)。在刪除序、期刊卷首語(yǔ)、邀請(qǐng)函、本刊訊息、發(fā)文評(píng)述、評(píng)論、專題說(shuō)明、序言、會(huì)議通知、書(shū)評(píng)等信息后,最終得到3 890條論文數(shù)據(jù)。論文的OA 狀況通過(guò)期刊官網(wǎng)的文獻(xiàn)標(biāo)題旁是否標(biāo)有OA標(biāo)識(shí)來(lái)確定,標(biāo)有OA則為即時(shí)開(kāi)放獲取論文;反之,則不是。經(jīng)過(guò)統(tǒng)計(jì),共有251篇即時(shí)OA論文,占比6.45%。從《圖書(shū)情報(bào)工作》2013—2019年的發(fā)文分布情況來(lái)看(見(jiàn)圖1),該期刊學(xué)術(shù)文章整體發(fā)文量呈逐年下降趨勢(shì),即時(shí)OA論文的年發(fā)文量略有波動(dòng)。
圖1 2013—2019年《圖書(shū)情報(bào)工作》發(fā)文分布
1.3變量設(shè)置及描述
1.3.1結(jié)果變量
本研究設(shè)置了兩個(gè)結(jié)果變量,分別為論文被引頻次和論文下載量。論文被引頻次是指科學(xué)論文對(duì)文獻(xiàn)的引用次數(shù),代表該文獻(xiàn)被科研人員認(rèn)可的程度。論文下載量是指論文自正式公開(kāi)發(fā)布后,被其他科研人員下載的次數(shù)。
1.3.2處理變量
本研究的處理變量為“論文即時(shí)開(kāi)放獲取(OA)”。“論文即時(shí)開(kāi)放獲取(OA)”是一個(gè)二分變量(論文未即時(shí)開(kāi)放獲取時(shí)值為0,論文即時(shí)開(kāi)放獲取時(shí)值為1)。在傾向值匹配分析中,即時(shí)開(kāi)放獲取論文為干預(yù)組,非即時(shí)開(kāi)放獲取論文為對(duì)照組。
1.3.3混淆變量
為提高估計(jì)的精確度,傾向值匹配模型要求盡可能窮盡所有的干擾因素,這既包括在接受處理前就確定的混淆變量,也包括影響結(jié)果變量的混雜因素[24]。基于該原則,本研究中的混淆變量是指影響論文是否選擇即時(shí)開(kāi)放獲取以及影響論文被引頻次和下載量的變量,并且這些變量都是個(gè)體在接受干預(yù)之前就確定的變量。
現(xiàn)有研究表明,論文的被引頻次與文章主題(如標(biāo)題長(zhǎng)度、論文篇幅等)、作者合作規(guī)模(文章作者數(shù)、作者權(quán)威性等)、研究基礎(chǔ)(參考文獻(xiàn)數(shù)、文章是否有資金資助)、論文使用導(dǎo)向(文章使用次數(shù)等)、傳播渠道等因素有著正向或反向的影響[25-26]。在借鑒現(xiàn)有相關(guān)研究和經(jīng)驗(yàn)的基礎(chǔ)上,本研究根據(jù)以下幾個(gè)因素來(lái)設(shè)置混淆變量(見(jiàn)表1):
表1 主要變量說(shuō)明
a.科研合作規(guī)模。部分研究表明,科研合作能夠增加科研產(chǎn)出的數(shù)量和質(zhì)量,有助于提高科研影響力,作者或機(jī)構(gòu)合作與被引頻次呈現(xiàn)正相關(guān)關(guān)系。由多個(gè)作者或多所機(jī)構(gòu)合作發(fā)表的論文,比作者獨(dú)立發(fā)表的論文的平均被引頻次要高[27-28]。基于此,本研究在“基于被引頻次”的背景下,設(shè)置了合著者規(guī)模、合著機(jī)構(gòu)規(guī)模兩個(gè)連續(xù)變量,考察合作規(guī)模與被引頻次的關(guān)系。
表2 論文主題分類(lèi)
b.科學(xué)權(quán)威性。文章的科學(xué)權(quán)威性是影響一項(xiàng)研究被引用的重要因素,通常情況下,發(fā)表在權(quán)威期刊上的論文,或者是由領(lǐng)域內(nèi)的著名專家學(xué)者及權(quán)威機(jī)構(gòu)所發(fā)表的論文更易于獲得同行們的認(rèn)可和接受,更可能得到較多的引用。本研究已經(jīng)限定所有文章來(lái)自于同一本期刊,因此選擇其余兩個(gè)重要因素,即作者著名度和機(jī)構(gòu)權(quán)威性作為混淆變量。其中,作者權(quán)威性采用兩個(gè)指標(biāo)進(jìn)行衡量,一個(gè)是度中心性,表示該作者擁有的與之合作的作者的數(shù)量,度中心性越高,影響力越大。另一個(gè)指標(biāo)是特征向量中心性,表示該作者在合作網(wǎng)絡(luò)中的重要性,取值范圍為[0~1],值越高,表明該作者越重要,以上兩個(gè)計(jì)算作者權(quán)威性的指標(biāo)僅計(jì)算第一作者。機(jī)構(gòu)權(quán)威性采用機(jī)構(gòu)類(lèi)別進(jìn)行衡量,僅看第一作者所在機(jī)構(gòu),共計(jì)分為5類(lèi),分別為高等院校、高校圖書(shū)館/檔案館、科研院所、公共圖書(shū)館、其他,從5到1賦值,值越高說(shuō)明權(quán)威性越高。
c.基金資助。得到基金資助的文章通常是本領(lǐng)域研究較為熱門(mén)、亟需的項(xiàng)目所產(chǎn)出的文章,更易于受到同行關(guān)注和認(rèn)可。此外,基金資助機(jī)構(gòu)會(huì)制定相關(guān)政策對(duì)論文開(kāi)放獲取進(jìn)行規(guī)定,將直接影響論文是否即時(shí)OA。該變量為分類(lèi)變量,0=未資助,1=資助。
d.論文主題。一項(xiàng)研究被引用的關(guān)鍵因素是它應(yīng)該對(duì)科學(xué)進(jìn)步作出的重大貢獻(xiàn),也就是說(shuō)研究本身的主題內(nèi)容是否具有價(jià)值??蒲腥藛T對(duì)文章的關(guān)注度會(huì)因文章主題的不同而有所差異,進(jìn)而影響到文章的被引頻次。本研究利用Citespace工具對(duì)所有文章進(jìn)行主題聚類(lèi),經(jīng)過(guò)調(diào)整篩選后共計(jì)得到30個(gè)主題(見(jiàn)表2),該變量為分類(lèi)變量,分別從1~30進(jìn)行賦值。
e.關(guān)鍵詞數(shù)。關(guān)鍵詞是表征論文主題的重要標(biāo)志,是作者獲取文獻(xiàn)的重要檢索入口之一。關(guān)鍵詞數(shù)量較多的文章,更有可能被科研人員檢索到,該文章的可見(jiàn)性也就越高,文章被引用的可能性越大。該變量為連續(xù)變量。
f.其余混淆變量為篇幅(連續(xù)變量)、出版年(取值范圍為2013—2019)。
圖2和圖3分別展示了即時(shí)OA論文、非即時(shí)OA論文、全部論文的篇均被引頻次和下載量隨著時(shí)間變化的情況。整體而言,因較早發(fā)表的論文更容易被科研人員下載和引用,新近發(fā)表的文章在被引頻次和下載量層面整體上低于較早發(fā)表的論文。同一年(2016年除外)發(fā)表的即時(shí)OA論文與非即時(shí)OA論文在被引頻次和下載量上均存在較大差異。2016年發(fā)表的OA論文數(shù)量最少(27篇),發(fā)文主題主要集中在文獻(xiàn)計(jì)量與評(píng)價(jià)分析、高校圖書(shū)館、社會(huì)網(wǎng)絡(luò)分析和文本挖掘,以實(shí)證類(lèi)文章居多,整體受關(guān)注度較低,即時(shí)OA論文篇均被引量和下載量較低。2015年發(fā)表的OA文章,主題主要集中在圖書(shū)館服務(wù)和文本挖掘,以綜述類(lèi)、方法類(lèi)文章居多,整體受關(guān)注度較高,容易產(chǎn)生一些極端值。以《大數(shù)據(jù)時(shí)代信息分析的關(guān)鍵問(wèn)題、挑戰(zhàn)與對(duì)策》為例,其下載量和引用量分別達(dá)到了6 606次和60次,極大地拉高了該年度篇均被引量和下載量。2015年的數(shù)據(jù)表明,基于觀察數(shù)據(jù)的簡(jiǎn)單均值分析,會(huì)因極端值的影響而帶來(lái)偏差,而基于傾向值匹配的方法在樣本匹配時(shí)則會(huì)尋找到與其特征相似的樣本并把這些極端值舍去,更能反映真實(shí)情況。圖2和圖3是采用傳統(tǒng)的基于年均數(shù)據(jù)的平均值比較,沒(méi)有考慮到文章主題等混淆因素帶來(lái)的影響。而在PSM中,通過(guò)對(duì)主題進(jìn)行分類(lèi),匹配更可能是在同類(lèi)主題間進(jìn)行,能盡可能避免主題差異所帶來(lái)的偏差。
圖2 2013—2019年《圖書(shū)情報(bào)工作》各類(lèi)論文篇均被引量分布
圖3 2013—2019年《圖書(shū)情報(bào)工作》各類(lèi)論文篇均下載量分布
2.2.1篩選混淆變量
將1.3.3中的混淆變量作為處理變量,將論文是否即時(shí)OA作為結(jié)果變量,進(jìn)行Probit回歸,得到表3的結(jié)果。從表3中可以發(fā)現(xiàn),作者重要性、基金資助、論文篇幅都與論文即時(shí)OA的概率顯著相關(guān)。需要特別指出的是,有基金資助的論文即時(shí)OA的概率更高,一方面與期刊本身的要求有關(guān):《圖書(shū)情報(bào)工作》2012年發(fā)布的開(kāi)放獲取出版政策聲明指出,得到國(guó)家級(jí)科研經(jīng)費(fèi)支持的研究論文須通過(guò)該刊網(wǎng)站在發(fā)表后的3個(gè)月內(nèi)實(shí)施開(kāi)放獲取(一般當(dāng)月即可獲取);另一方面與項(xiàng)目資助方的政策要求有密切關(guān)聯(lián)。
表3 預(yù)測(cè)傾向值的Probit回歸結(jié)果
從虛擬R2(Pseudo R2)的數(shù)值可以看出,這些混淆變量加在一起對(duì)于論文是否即時(shí)OA的解釋力稍有欠缺。為保證模型實(shí)現(xiàn)最佳的擬合效果,本研究利用Stata中的“psestimate”命令,通過(guò)比較不同模型的極大似然值,幫助選擇能實(shí)現(xiàn)最佳擬合效果的協(xié)變量的一階和二階形式,得出應(yīng)納入模型的一階變量為:fund、ec、page和year;二階變量為c.ec#c.fund、c.page#c.ec、c.ece#c.ec、c.year#c.fund和c.page#c.page。以上一階和二階變量將與其他混淆變量一起納入模型進(jìn)行傾向值匹配,最終納入匹配的混淆變量如表4所示。
表4 納入傾向值匹配的混淆變量
2.2.2傾向值匹配
基于上述分析,本研究嘗試采用多種匹配規(guī)則進(jìn)行傾向值匹配,統(tǒng)計(jì)平均干預(yù)效應(yīng)果(Average Treatment Effect,ATE)、干預(yù)組平均干預(yù)效應(yīng)(ATT)和對(duì)照組平均干預(yù)效(Average Treatment Effect for Untreated,ATU),并與匹配前直接回歸得出的數(shù)值進(jìn)行對(duì)比,詳情見(jiàn)表5。為了克服極端值所帶來(lái)的傾向值匹配偏差,本研究所嘗試的所有匹配方法都基于共同取值范圍。從表5中可以看出,與匹配前直接采用線性回歸的結(jié)果相比,采用PSM后的結(jié)果與其存在一定差異。PSM方法在匹配時(shí),是基于共同取值范圍進(jìn)行匹配,減小了因論文主題、論文類(lèi)型等因素造成的極端值的影響,更接近實(shí)際情況。
表5 采用多種匹配方法的傾向值匹配結(jié)果匯總
2.2.3平衡性檢驗(yàn)
在嘗試采用多種匹配方法進(jìn)行傾向值匹配時(shí),本研究均做了平衡性檢驗(yàn),各類(lèi)匹配方法的平衡性檢驗(yàn)效果圖如圖4所示(從左至右、從上到下依次為1對(duì)1近鄰匹配、1對(duì)5近鄰匹配、帶卡尺的1對(duì)1近鄰匹配、帶卡尺的1對(duì)5近鄰匹配、帶卡尺的半徑匹配、核匹配、局部線性回歸匹配和樣條匹配),從中可以看出,匹配前的樣本在15個(gè)混淆變量方面存在著巨大的差異,也就是說(shuō),即時(shí)OA論文與非即時(shí)OA論文存在著巨大的差異。匹配之后,除核匹配的平衡性效果稍差之外,其余匹配方法得出的匹配效果皆較好,匹配后的樣本之間在15個(gè)混淆變量方面的差異得到極大縮減,也意味著,經(jīng)過(guò)匹配后的即時(shí)OA論文和非即時(shí)OA論文間的差異縮小。
圖4 不同匹配方法下的平衡性檢驗(yàn)效果組圖
經(jīng)過(guò)對(duì)比,本研究最終決定采用帶卡尺的半徑匹配方法進(jìn)行匹配(匹配結(jié)果如表6所示),并作平衡性檢驗(yàn)(見(jiàn)圖5和表7)和共同取值范圍驗(yàn)證(見(jiàn)圖6)。從表6中可以看出,匹配后干預(yù)組和對(duì)照組的標(biāo)準(zhǔn)差減少幅度都在74%以上。根據(jù)T檢驗(yàn)結(jié)果,匹配后的兩組樣本在全部匹配變量上均不存在顯著差異,即匹配后的即時(shí)OA論文和非即時(shí)OA論文在合著者規(guī)模、作者影響力、論文主題等15個(gè)變量方面的特征基本相似。從圖6可以看出,干預(yù)組和對(duì)照組的傾向值得分分布大致均衡,匹配過(guò)程中消除了極端值的影響。
表6 傾向值匹配結(jié)果
表7 平衡性檢驗(yàn)結(jié)果
根據(jù)Rosenbaum和Rubin的觀點(diǎn),標(biāo)準(zhǔn)偏差越小,說(shuō)明匹配結(jié)果越好,如果匹配變量標(biāo)準(zhǔn)偏差的絕對(duì)值大于20,則認(rèn)為匹配效果不好[29]。從表7的標(biāo)準(zhǔn)偏差值來(lái)看,匹配后全部匹配變量標(biāo)準(zhǔn)偏差的絕對(duì)值為11.6,說(shuō)明選擇的匹配變量是合適的,帶卡尺的半徑匹配結(jié)果是有效的。
論文即時(shí)OA與論文被引頻次和下載量的因果效應(yīng)估計(jì)結(jié)果如表8所示。從全樣本估計(jì)結(jié)果可知,論文即時(shí)OA對(duì)其被引頻次和下載量均產(chǎn)生了顯著的促進(jìn)作用。具體而言,經(jīng)過(guò)傾向值匹配后即時(shí)OA對(duì)干預(yù)組的論文被引頻次平均影響效應(yīng)為289%,且T檢驗(yàn)值在5%的顯著性水平上顯著,這說(shuō)明在解決內(nèi)生性問(wèn)題后,即時(shí)OA將論文的被引頻次平均提高了2.89次。同理,即時(shí)OA對(duì)于干預(yù)組論文下載量的平均影響效應(yīng)為12493%,且T檢驗(yàn)值在5%的顯著性水平上顯著,說(shuō)明即時(shí)OA將論文的下載量平均提高了124.93次。
表8 即時(shí)OA與論文被引頻次和下載量因果效應(yīng)的估計(jì)結(jié)果
本研究基于混合OA期刊《圖書(shū)情報(bào)工作》2013—2019年發(fā)表的3 890篇論文數(shù)據(jù),運(yùn)用傾向值匹配方法檢驗(yàn)了即時(shí)OA對(duì)論文被引頻次和論文下載量的影響。結(jié)果表明,和非即時(shí)OA論文相比,選擇即時(shí)OA平均能將論文的被引頻次和下載量分別提高2.89次和124.93次。為驗(yàn)證這一結(jié)論的可靠性,本研究將匹配范圍限定在共同取值范圍,排除了異常值,檢驗(yàn)結(jié)果均證實(shí)即時(shí)OA對(duì)論文被引頻次和下載量的正向促進(jìn)作用是顯著存在的。該研究在2.1部分采用傳統(tǒng)方法對(duì)被引量和下載量作了基于年度均值的統(tǒng)計(jì)分析,分析結(jié)果存在著較大的偏差,不能真實(shí)反映即時(shí)OA對(duì)論文被引頻次和下載量的真實(shí)影響。PSM方法可以幫助縮小因論文主題、論文篇幅、作者影響力等混淆變量造成的內(nèi)生性差異,易于衡量即時(shí)OA對(duì)論文被引頻次和下載量的平均干預(yù)效應(yīng)。
《圖書(shū)情報(bào)工作》作為混合OA期刊,符合該刊開(kāi)放獲取政策要求的即時(shí)OA文章會(huì)第一時(shí)間在官網(wǎng)公開(kāi),其余文章則在一年后全部開(kāi)放。對(duì)于訂購(gòu)CNKI數(shù)據(jù)庫(kù)的用戶來(lái)說(shuō),除網(wǎng)絡(luò)首發(fā)論文外,最新一期的期刊論文(除期刊官網(wǎng)上的即時(shí)OA論文外)要在3個(gè)月之后才能下載使用,這表明即時(shí)OA論文相比非即時(shí)OA論文有著至少3個(gè)月的開(kāi)放領(lǐng)先,在被引頻次和下載量方面取得了優(yōu)勢(shì)?;谏鲜鼋Y(jié)論,本研究建議鼓勵(lì)學(xué)術(shù)論文以即時(shí)OA的方式出版,以推動(dòng)科研成果的廣泛傳播和及時(shí)利用。需要特別指出的是,在眾多混淆變量中,基金資助是推動(dòng)論文即時(shí)OA的較為重要的因素,雖然國(guó)家自然科學(xué)基金委和中國(guó)科學(xué)院已經(jīng)制定相關(guān)的開(kāi)放獲取政策,要求受其全部或部分資助的科研項(xiàng)目所產(chǎn)出的論文在發(fā)表時(shí),將同行評(píng)議后錄用的最終審定稿存儲(chǔ)到相關(guān)機(jī)構(gòu)知識(shí)庫(kù)中并在不晚于12個(gè)月后開(kāi)放獲取,如果采取開(kāi)放出版形式,應(yīng)立即開(kāi)放獲取,但仍有較多的其他受到資助的研究論文未能得到開(kāi)放。以本研究所采用的《圖書(shū)情報(bào)工作》數(shù)據(jù)為例,3 890篇文章中有2 380篇論文受到項(xiàng)目或資金資助(占比61.18%),但僅有230篇論文是OA的(占比9.66%),比例是比較低的。根據(jù)本研究的結(jié)論,在論文被引頻次和下載量方面,即時(shí)OA論文相比非即時(shí)OA論文有著較大的優(yōu)勢(shì),建議更多的資助機(jī)構(gòu)通過(guò)制定開(kāi)放獲取政策來(lái)推動(dòng)科研人員接納開(kāi)放獲取,鼓勵(lì)或強(qiáng)制要求研究人員將其成果以開(kāi)放出版的形式即時(shí)OA;出版機(jī)構(gòu)應(yīng)積極向開(kāi)放出版轉(zhuǎn)變,可通過(guò)創(chuàng)辦完全OA期刊或由訂閱期刊轉(zhuǎn)向完全OA期刊,鼓勵(lì)更多的科研人員以即時(shí)OA的形式發(fā)表自己的研究成果。同時(shí),出版機(jī)構(gòu)也應(yīng)變“被動(dòng)”為“主動(dòng)”,通過(guò)設(shè)置明顯的OA出版選項(xiàng),鼓勵(lì)作者主動(dòng)選擇以即時(shí)OA出版形式來(lái)發(fā)表自己的研究成果。
本研究采用“隨機(jī)對(duì)照實(shí)驗(yàn)”的思路開(kāi)展了基于傾向值匹配的即時(shí)OA對(duì)論文被引頻次和下載量的分析,是因果推斷在文獻(xiàn)計(jì)量領(lǐng)域的一次試驗(yàn)。但該研究也存在一些不足,如在設(shè)置變量的過(guò)程中,過(guò)多地關(guān)注影響結(jié)果變量的混淆變量,而對(duì)影響處理變量的混淆變量關(guān)注較少,這導(dǎo)致計(jì)算出來(lái)的傾向值較小,匹配得來(lái)的樣本間的區(qū)分度有所欠缺,后續(xù)可加入更多的顯著影響即時(shí)OA選擇的其他混淆變量,以提高模型的擬合度。此外,論文主題對(duì)被引頻次和下載量的影響巨大,本研究雖對(duì)論文主題進(jìn)行了分類(lèi),但各主題間的區(qū)分度依然不夠明顯,后續(xù)可考慮采取增大數(shù)值間差異、分層匹配等方式擴(kuò)大主題間的區(qū)分度。