李悅 馬亞雪 張宇 孫建軍
摘 要: [目的/ 意義] 基于早期施引文獻與科學(xué)論文的知識關(guān)聯(lián)對科學(xué)論文擴散效果進行預(yù)測, 有助于從價值反饋角度前瞻性識別高影響力學(xué)術(shù)論文, 為科研人員建立科學(xué)研究成果早期學(xué)術(shù)影響力評估體系提供參考。[方法/ 過程] 測度早期施引文獻與目標(biāo)科學(xué)論文在主題、期刊和作者3 個層面的關(guān)聯(lián)程度, 采用線性回歸與負(fù)二項回歸模型, 挖掘3 種類型的知識關(guān)聯(lián)度與目標(biāo)科學(xué)論文擴散效果(即擴散速度、廣度和強度) 的內(nèi)在關(guān)聯(lián)機制; 在此基礎(chǔ)上引入機器學(xué)習(xí)算法對科學(xué)論文的擴散效果進行預(yù)測, 剖析3 類知識關(guān)聯(lián)特征在預(yù)測任務(wù)中的重要性排序。[結(jié)果/ 結(jié)論] 神經(jīng)科學(xué)領(lǐng)域的實證分析顯示, 主題關(guān)聯(lián)與目標(biāo)科學(xué)論文的擴散速度呈正相關(guān)關(guān)系, 與擴散廣度和擴散強度呈倒U 型關(guān)系; 期刊關(guān)聯(lián)會抑制目標(biāo)科學(xué)論文的擴散速度, 但能夠正向影響其擴散強度與擴散廣度; 作者關(guān)聯(lián)僅對擴散強度有穩(wěn)定的正向影響; 基于主題關(guān)聯(lián)與期刊關(guān)聯(lián)可以實現(xiàn)對科學(xué)論文擴散速度的有效預(yù)測, 但難以預(yù)測擴散廣度和擴散強度。隨機森林模型在擴散速度預(yù)測中性能最佳, 主題關(guān)聯(lián)特征的重要性高于期刊關(guān)聯(lián)。
關(guān)鍵詞: 擴散效果預(yù)測; 引文擴散; 知識關(guān)聯(lián)度; 早期施引文獻
DOI:10.3969 / j.issn.1008-0821.2023.11.006
〔中圖分類號〕G250 252 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821 (2023) 11-0073-12
基于引證關(guān)系的科學(xué)文獻擴散是洞察科學(xué)發(fā)展脈絡(luò)、揭示知識擴散機制的重要途徑[1] 。文獻間的引用作為知識擴散的外在表現(xiàn), 展現(xiàn)了原有知識的積累與傳遞特征。對科學(xué)論文擴散效果進行早期預(yù)測有助于快速識別領(lǐng)域內(nèi)的高質(zhì)量文獻, 為科學(xué)研究成果早期學(xué)術(shù)影響評估體系的構(gòu)建提供依據(jù), 是知識管理領(lǐng)域長期關(guān)注的重要問題。
當(dāng)前研究大多利用文獻計量特征與替代計量特征對擴散效果進行預(yù)測。例如, Wang F 等[2] 證實基于作者因素與論文內(nèi)容因素可以部分預(yù)測學(xué)界廣泛擴散的論文, 期刊影響、引用參考文獻數(shù)量等文獻計量特征也被認(rèn)為是有效的預(yù)測指標(biāo)[3] 。替代計量特征(如Altmetric 得分)則通過文獻在社交媒體上的表現(xiàn)對高影響力的學(xué)術(shù)論文進行識別[4] 。隨著研究的深入, 同行評審文本[5] 、論文元數(shù)據(jù)[6] 等文本信息也被用于提升模型預(yù)測效果。早期施引文獻作為新知識的采納者, 能夠給出對目標(biāo)科學(xué)論文知識價值的快速反饋并吸引更多的采納行為[7] , 被用于科學(xué)論文擴散效果的早期預(yù)測。研究發(fā)現(xiàn), 早期引用數(shù)量、首次引用時間對科學(xué)論文擴散效果存在積極影響[8] , 即早期存在的積累優(yōu)勢會使科學(xué)論文在擴散后期更容易受到引用。然而, 僅基于引用數(shù)量進行測度難以揭示施被引文獻間的深層次語義關(guān)聯(lián)和知識復(fù)雜性, 也無法避免自引和虛假引用現(xiàn)象可能帶來的負(fù)面影響[9] , 這導(dǎo)致計數(shù)類指標(biāo)難以準(zhǔn)確反映學(xué)界對目標(biāo)科學(xué)論文的價值反饋。因此, 構(gòu)建多維評估方法剖析早期施引文獻特征與科學(xué)論文擴散效果的內(nèi)在聯(lián)系, 并據(jù)此預(yù)測論文擴散效果顯得至關(guān)重要。
知識關(guān)聯(lián)展現(xiàn)了關(guān)聯(lián)對象在語義信息上多角度多層次的聯(lián)系, 是測度科學(xué)文獻間內(nèi)在關(guān)聯(lián)的重要指標(biāo)[10] 。從知識關(guān)聯(lián)層面解析早期施被引文獻的內(nèi)在聯(lián)系, 能夠多維度揭示早期施引文獻對目標(biāo)科學(xué)論文知識價值判定情況。當(dāng)前研究主要從內(nèi)容特征(如研究主題等)與外部特征(如期刊、作者等)兩個方面對文獻間的知識關(guān)聯(lián)進行測度[11] , 前者反映了文獻間的底層知識聯(lián)系, 后者展現(xiàn)了文獻的顯性知識關(guān)聯(lián)。整合科學(xué)文獻間的內(nèi)容特征與外部特征以測度早期施引文獻與科學(xué)論文間的知識關(guān)聯(lián),有助于全面揭示施被引文獻的內(nèi)在聯(lián)系, 從學(xué)界價值反饋的角度實現(xiàn)對廣泛擴散科學(xué)論文的早期預(yù)測。
鑒于此, 本研究聚焦早期施引文獻與科學(xué)論文的知識關(guān)聯(lián)度, 探究知識關(guān)聯(lián)度對科學(xué)論文擴散效果的預(yù)測能力。首先, 構(gòu)建施被引文獻間主題關(guān)聯(lián)、期刊關(guān)聯(lián)與作者關(guān)聯(lián)的測度指標(biāo), 剖析早期施引文獻與目標(biāo)科學(xué)論文的知識關(guān)聯(lián)特征; 然后, 采用最小二乘法(OLS)與負(fù)二項回歸模型, 探究早期施引文獻與目標(biāo)科學(xué)論文擴散效果(即擴散速度、強度和廣度)的關(guān)聯(lián)機制; 最后, 把科學(xué)論文擴散效果預(yù)測問題轉(zhuǎn)化為二分類任務(wù), 將前序?qū)嶒炛信c科學(xué)論文擴散效果具有顯著關(guān)聯(lián)的因素作為輸入特征,訓(xùn)練機器學(xué)習(xí)模型對科學(xué)論文擴散效果進行預(yù)測。
本研究基于神經(jīng)科學(xué)領(lǐng)域(Neuroscience)的科學(xué)論文開展實證分析, 主要考慮到該領(lǐng)域涉及生物醫(yī)學(xué)、基礎(chǔ)生物學(xué)、化學(xué)等多個子領(lǐng)域[12] , 相關(guān)文獻可能在不同類型的學(xué)科中進行擴散, 因而提高早期施引文獻與目標(biāo)科學(xué)論文知識關(guān)聯(lián)特征的區(qū)分度, 有助于發(fā)掘不同特征對目標(biāo)科學(xué)論文擴散效果的影響。
1 相關(guān)研究
1.1 科學(xué)論文擴散效果預(yù)測研究
科學(xué)論文是知識的重要載體, 基于引證關(guān)系預(yù)測科學(xué)論文的擴散效果是知識管理領(lǐng)域的熱點問題[13] 。已有研究主要將預(yù)測任務(wù)定義為回歸問題和分類問題, 其中, 回歸問題主要通過論文相關(guān)特征預(yù)測特定時間點的被引情況, 涵蓋傳統(tǒng)回歸、機器學(xué)習(xí)、深度學(xué)習(xí)等方法; 分類問題則依據(jù)引文分布規(guī)律提升模型泛化性[14] , 多利用機器學(xué)習(xí)方法探究。早期研究者在回歸預(yù)測方面廣泛采用線性回歸, 例如, Yu T 等[15] 通過多元回歸構(gòu)建了論文、作者、期刊等特征與論文被引情況間的關(guān)系, 并預(yù)測論文發(fā)表5 年后的被引頻次。程子軒等[16] 使用逐步回歸預(yù)測圖書情報領(lǐng)域期刊被引頻次, 識別了10 個顯著影響因素。隨著技術(shù)的發(fā)展, 機器學(xué)習(xí)方法逐漸被應(yīng)用于論文擴散預(yù)測研究。Yan R 等[17] 引入了機器學(xué)習(xí)方法并比較梯度提升決策樹、隨機森林等模型的預(yù)測性能, 發(fā)現(xiàn)CART 分類回歸樹具有最佳預(yù)測表現(xiàn), 其中作者的專業(yè)性和期刊影響力是顯著影響因素。此外, 深度學(xué)習(xí)作為機器學(xué)習(xí)的一個特殊分支, 也被引入到預(yù)測模型中。Ruan X 等[18]采用了四層反向傳播(BP)神經(jīng)網(wǎng)絡(luò)模型預(yù)測論文未來某個時間段的總被引頻次, 發(fā)現(xiàn)BP 神經(jīng)網(wǎng)絡(luò)的性能明顯優(yōu)于其他6 個基線模型; 在預(yù)測效果方面, 低被引論文的準(zhǔn)確率高于高被引論文。Ma A等[6] 進一步引入Bi-LSTM 深度學(xué)習(xí)模型, 設(shè)置兩層共32 個神經(jīng)元提升科學(xué)論文擴散效果的預(yù)測能力。然而, 一些研究指出被引頻次預(yù)測具有長尾效應(yīng), 不適合采用回歸方式進行預(yù)測[19] 。由于絕大多數(shù)文獻積累的被引頻次較少, 導(dǎo)致傳統(tǒng)的回歸分析難以準(zhǔn)確度量論文的被引頻次。因此, 部分學(xué)者將預(yù)測任務(wù)轉(zhuǎn)化為分類問題, 常用方法包含支持向量機(SVM)、貝葉斯網(wǎng)絡(luò)(NB)、K 近鄰(KNN)、邏輯回歸(LR)、決策樹(DT)、袋裝法(BAG)、隨機森林(RF)、自適應(yīng)增強(AdaBoost)算法等。例如, Wang M 等[20] 對天文學(xué)和天體物理學(xué)領(lǐng)域的219 篇論文進行了分類, 并使用由5 個決策樹分類器組成的多分類器系統(tǒng)來進行預(yù)測。其研究表明,論文作者和期刊的聲譽有助于提高論文的被引頻次預(yù)測效果。
特征選擇是科學(xué)論文擴散效果預(yù)測的關(guān)鍵步驟。目前相關(guān)研究集中于探索論文、期刊和作者相關(guān)特征對科學(xué)論文擴散效果的預(yù)測能力。在論文特征方面, 論文的主題直接體現(xiàn)其研究內(nèi)容, 具有預(yù)測未來擴散效果的潛力[21] , 已有研究從主題的關(guān)注度[22] 、新穎性[17] 和多樣性[23] 3 個維度進行評估。此外, 參考文獻的數(shù)量[24] 、權(quán)威度[25] 與多樣性[26] 以及論文類型[27] 都是影響論文擴散的重要因素。在期刊特征方面, 一些研究表明高影響力的期刊上發(fā)表的論文具有更高的可見性[28] , 然而, 也有研究發(fā)現(xiàn)期刊并非是影響預(yù)測論文擴散效果的因素[29] 。此外, 出版物被引量、刊載論文數(shù)、期刊語言類型也對論文擴散具有一定影響[30] 。在作者特征方面, 著名作者因其在研究領(lǐng)域的高聲譽往往享有較好的擴散效果[31] , 馬太效應(yīng)進一步加強了這一現(xiàn)象, 使高被引作者的論文更容易獲得其他論文的引用[25] 。有趣的是, 雖然有研究表明國際合著能增加論文的被引率[24] , 卻也有研究并不支持這一觀點[28] 。此外, 自引率、h 指數(shù)、作者所屬機構(gòu)等特征也被證實對擴散效果造成影響[17] 。隨著科技和互聯(lián)網(wǎng)的發(fā)展, 基于學(xué)術(shù)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征[32] 與基于社交網(wǎng)絡(luò)的替代計量特征[4] 也逐漸被用于預(yù)測研究。
1.2 早期施引文獻與文獻擴散效果
早期施引文獻體現(xiàn)了采納者對新知識的快速反饋情況, 對該群體的特征進行研究, 能夠體現(xiàn)學(xué)界對目標(biāo)科學(xué)論文的早期認(rèn)可度, 有助于預(yù)測論文擴散效果。相關(guān)工作大致分為兩類, 其一側(cè)重于分析早期被引量對科學(xué)論文擴散效果的影響。其中, 學(xué)者普遍認(rèn)為論文早期被引量、下載量等動態(tài)指標(biāo)是預(yù)測文獻擴散的重要因素[33] , 被引量的早期分布狀態(tài)還可以用來識別科學(xué)睡美人文獻[34] ; 也有學(xué)者從社交媒體的角度考察擴散效果, 發(fā)現(xiàn)早期引文數(shù)與Twitter 提及數(shù)顯著相關(guān)[35] 。例如, Bai X 等[36]利用梯度增強決策樹模型確定了早期的被引頻次是論文擴散的最重要因素, Wang M 等[37] 通過決策樹算法對天文與天文物理學(xué)領(lǐng)域的20 年論文擴散情況進行預(yù)測, 發(fā)現(xiàn)前5 年被引是關(guān)鍵的預(yù)測特征。
另一類研究集中于分析早期施引速度對擴散效果的影響。相關(guān)工作發(fā)現(xiàn), 早期被引速度可以預(yù)測未來被引情況[23] , 首次被引時間越短的文章知識擴散速度越快[38] , 在相關(guān)科學(xué)領(lǐng)域影響越大[39] 。例如, Hilmer C E 等[40] 研究了應(yīng)用經(jīng)濟學(xué)與農(nóng)業(yè)期刊論文被引頻次的影響因素, 發(fā)現(xiàn)如果論文在發(fā)表后的第一年被引用, 其后續(xù)被引次數(shù)會顯著增加,平均多出2 6 次, 并從3 個方面對此進行了解釋:首先, 存在著“富者愈富” 的馬太效應(yīng); 其次,快速被引可能表示該論文質(zhì)量較高, 從而吸引更多讀者引用; 最后, 快速引用也可能觸發(fā)廣告和信號傳遞效應(yīng), 讓論文迅速受到學(xué)界注意。
然而, 上述研究大多關(guān)注早期施引者的“量”對擴散效果的提升作用, 較少研究該群體的“質(zhì)”在其中的作用機制, 為此, 本文從知識關(guān)聯(lián)視角出發(fā), 構(gòu)建三維指標(biāo)量化早期施引者的知識特征, 探究其與科學(xué)論文擴散效果間的關(guān)聯(lián)機制, 最終實現(xiàn)對科學(xué)論文擴散效果的預(yù)測。
1.3 科學(xué)論文的知識關(guān)聯(lián)研究
知識關(guān)聯(lián)反映了關(guān)聯(lián)對象在語義信息上多角度多層次的相似性特征[10] 。當(dāng)前研究主要從概念界定、結(jié)構(gòu)分析以及指標(biāo)應(yīng)用3 個方面對科學(xué)文獻間的知識關(guān)聯(lián)展開研究。早期學(xué)者著重探討知識關(guān)聯(lián)的概念與特征, 并從小世界現(xiàn)象等視角出發(fā)探討知識關(guān)聯(lián)的理論基礎(chǔ)[41] , 揭示其相互性、傳遞性、隱含性等特征[10] 。隨著其內(nèi)涵進一步明確, 學(xué)者逐漸針對知識關(guān)聯(lián)的分類展開討論。趙蓉英[42] 從網(wǎng)絡(luò)的角度將知識關(guān)聯(lián)分為隸屬性關(guān)聯(lián)、同一性關(guān)聯(lián)、相關(guān)性關(guān)聯(lián)3 類; 高繼平等[43] 從知識元的內(nèi)在聯(lián)系, 將其分為引用關(guān)聯(lián)、共被引關(guān)聯(lián)、耦合關(guān)聯(lián)等。隨后, 知識關(guān)聯(lián)被廣泛應(yīng)用于信息管理、金融科技、疫情應(yīng)急等領(lǐng)域, 其中信息管理領(lǐng)域的學(xué)者大多從知識關(guān)聯(lián)的角度發(fā)掘文獻或?qū)W科背后的知識結(jié)構(gòu)關(guān)系。Park H W 等[44] 結(jié)合引文分析法與社會網(wǎng)絡(luò)分析法, 借助有向圖揭示通信領(lǐng)域高被引期刊間的關(guān)聯(lián)程度, 進而探究學(xué)科背后的知識結(jié)構(gòu)關(guān)系; 阮光冊等[45] 則結(jié)合主題模型、共詞分析與關(guān)聯(lián)規(guī)則, 揭示文本挖掘領(lǐng)域論文的知識關(guān)聯(lián)結(jié)構(gòu)。
然而, 上述研究著重關(guān)注應(yīng)用知識關(guān)聯(lián)揭示特定期刊或?qū)W科領(lǐng)域的整體知識結(jié)構(gòu), 如何通過科學(xué)文獻間知識關(guān)聯(lián)實現(xiàn)對擴散效果的預(yù)測仍待探索。為此, 本研究從主題關(guān)聯(lián)、期刊關(guān)聯(lián)與作者關(guān)聯(lián)3個維度剖析施被引文獻間的知識關(guān)聯(lián)特征, 探究該特征與目標(biāo)科學(xué)論文擴散效果的關(guān)聯(lián)機制, 并基于此實現(xiàn)對科學(xué)論文擴散效果的早期預(yù)測。
2 研究設(shè)計
2.1 問題定義與任務(wù)設(shè)計
為預(yù)測目標(biāo)科學(xué)論文擴散效果, 本文將擴散效果位于前10%的論文視為廣泛擴散的論文, 并將該問題轉(zhuǎn)化為有監(jiān)督的二分類任務(wù): 首先構(gòu)建傳統(tǒng)的多元線性回歸模型, 并采用逐步回歸法篩選出對科學(xué)論文擴散效果具有潛在預(yù)測價值的知識關(guān)聯(lián)特征; 然后, 根據(jù)回歸模型的分析結(jié)果, 選取對擴散效果產(chǎn)生顯著影響的知識關(guān)聯(lián)特征作為輸入變量,借助決策樹、支持向量機等預(yù)測模型對目標(biāo)論文的擴散效果進行預(yù)測; 最后, 將不同的機器學(xué)習(xí)預(yù)測算法進行綜合比較與評估, 以尋找預(yù)測性能最優(yōu)的模型, 并在此基礎(chǔ)上探討預(yù)測特征的重要性及其影響機理。
2.2 數(shù)據(jù)收集與處理
本研究以PubMed Central(PMC)作為數(shù)據(jù)源獲取生物醫(yī)學(xué)領(lǐng)域相關(guān)文獻, 并關(guān)聯(lián)微軟學(xué)術(shù)圖譜(Microsoft Academic Graph, MAG) 數(shù)據(jù)[46] 分析文獻擴散效果。數(shù)據(jù)的收集與處理流程如圖1 所示。
首先, 從PMC 數(shù)據(jù)庫中提取文獻的PMCID、DOI等基本信息(共計3 524 897條), 借助MAG 數(shù)據(jù)庫利用文獻DOI 建立文獻的引證關(guān)系; 其次, 篩選早期施引文獻均在PMC 數(shù)據(jù)庫中的候選目標(biāo)科學(xué)論文(共計110 998篇); 第三, 根據(jù)目標(biāo)科學(xué)論文的ISSN 關(guān)聯(lián)Web of Science(WoS)中期刊引用報告的(Journal Citation Reports)學(xué)科類別, 剔除學(xué)科分類缺失的文獻后, 獲取神經(jīng)科學(xué)領(lǐng)域目標(biāo)科學(xué)論文(共計2 635篇)及其施引文獻; 最后, 提取目標(biāo)科學(xué)論文及其早期施引文獻(共計6 907篇, 去重)的元數(shù)據(jù)計算知識關(guān)聯(lián)度和跨機構(gòu)合作數(shù)量等控制變量, 并提取目標(biāo)科學(xué)論文的完整施引文獻(共計23 293篇)的發(fā)表年份、引用數(shù)量、ISSN 字段計算目標(biāo)科學(xué)論文的擴散速度、強度與廣度。
早期施引文獻的定義參考前人的研究, 以目標(biāo)科學(xué)論文發(fā)表兩年內(nèi)的引證作為早期施引文獻[47] 。此外, 在計算指標(biāo)時有兩個問題需要說明: ①在WoS 學(xué)科分類時采取“全計數(shù)” 的統(tǒng)計方法, 即若文獻a 發(fā)表于期刊B, 其在WoS 中同時被歸屬于學(xué)科m 與學(xué)科n, 認(rèn)為文獻a 同時對兩個學(xué)科產(chǎn)生影響[12] ; ②本文采用Sinatra R 等[48] 提出的方法對作者姓名進行消歧后, 為每個作者賦予唯一ID并進行作者關(guān)聯(lián)性計算。