科研人員職業(yè)生涯學(xué)術(shù)論文相似度及其對被引頻次的影響分析

2022-08-31 15:35:26張麗華張康寧趙迎光張志強

情報學(xué)報 2022年8期

關(guān)鍵詞：計算機(jī)科學(xué)學(xué)術(shù)論文職業(yè)生涯

張麗華，張康寧，趙迎光，張志強

（1. 山西財經(jīng)大學(xué)信息學(xué)院，太原 030006；2. 北京交通大學(xué)圖書館，北京 100044；3. 中國科學(xué)院成都文獻(xiàn)情報中心，成都 610041；4. 中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報與檔案管理系，北京 100190）

1 引言

在科研人員的職業(yè)生涯中，如何不斷調(diào)整、選擇乃至轉(zhuǎn)移最佳研究主題是每個科研人員都非常關(guān)注的問題。針對這一問題，學(xué)界主要存在兩種主張。一種主張認(rèn)為，科學(xué)家的研究興趣并非一成不變，而是可能發(fā)生學(xué)科間或跨學(xué)科的主題轉(zhuǎn)移。經(jīng)觀察和調(diào)研發(fā)現(xiàn)，美國的科研人員7~8 年更換一次研究主題[1]。另一種主張認(rèn)為，研究主題不能隨意轉(zhuǎn)移?？蒲泄ぷ鞑皇呛唵沃貜?fù)勞動，需要高度專注、深度思考與長期積淀[2]。一支青蒿素，諾貝爾獎得主屠呦呦試過380 多種提取方法，又做了191次試驗才發(fā)現(xiàn)有效成分。

那么，科研人員在職業(yè)生涯中是否要轉(zhuǎn)移研究主題？適時轉(zhuǎn)移研究主題還是專注于同一個研究主題更有利于創(chuàng)新？兩種主張都有成功的案例。我們關(guān)心的研究問題是，在同一個學(xué)科內(nèi)部，科研人員更傾向于堅守還是適時轉(zhuǎn)移研究主題？這兩種不同選擇對科研人員論文被引頻次會有什么樣的影響？

針對該問題學(xué)界進(jìn)行了一些有益探索。部分研究表明，研究主題轉(zhuǎn)移有利于提高科研人員論文的被引頻次：研究主題變化較大的科研人員與以往相比更可能產(chǎn)生有影響力的成果[3]，且研究主題發(fā)生轉(zhuǎn)移之后，其發(fā)表的論文數(shù)量和質(zhì)量都更高[4]；不斷探索新的研究主題、有較高研究自由度的科研人員與從事既定任務(wù)、審查周期短、可交付成果不可變的研究人員相比，更容易產(chǎn)生高影響力成果[5]。同時，高風(fēng)險的研究更有可能產(chǎn)生高影響力，獲得更大的認(rèn)可[6]。當(dāng)然，還有一些研究持有不同觀點：Amjad 等[7]發(fā)現(xiàn)，持續(xù)研究同一主題的科研人員會產(chǎn)生更高的影響力，獲得更多的關(guān)注；Zeng等[8]的研究表明，科學(xué)家的研究主題分布很窄，在科研人員的整個職業(yè)生涯中，篇均被引頻次指標(biāo)均與研究主題的轉(zhuǎn)移概率呈負(fù)相關(guān)，研究主題的轉(zhuǎn)移概率越高，篇均被引頻次越低。

已有研究多是從群體層面，選擇某一科研人員群體為研究對象，通過設(shè)置對照組來對比科研人員研究主題轉(zhuǎn)移與論文被引頻次的關(guān)系。較少有研究從科研人員個人層面，通過比較其職業(yè)生涯初期與末期研究主題的相似程度，探討研究主題轉(zhuǎn)移對其論文被引頻次的影響。因此，本文主要關(guān)注以下兩個問題：

（1）科研人員職業(yè)生涯初期和末期學(xué)術(shù)論文研究主題是否相似？

（2）科研人員職業(yè)生涯中學(xué)術(shù)論文相似度是否會對其論文被引頻次產(chǎn)生影響？

為了回答上述問題，本文以兩個學(xué)科的科研人員為研究對象，測度不同人員的學(xué)術(shù)論文相似度、論文被引頻次等指標(biāo)，設(shè)置控制變量排除可能的干擾因素，在此基礎(chǔ)上通過相關(guān)性、負(fù)二項回歸分析學(xué)術(shù)論文相似度與論文被引頻次的關(guān)系，為更深入地了解科研人員個人成長規(guī)律并輔助制定科研人員管理與評價政策提供參考。

2 研究設(shè)計

2.1 數(shù)據(jù)集

本文選擇Web of Science （WoS）數(shù)據(jù)庫中的“計算機(jī)科學(xué)與人工智能”和“商業(yè)與經(jīng)濟(jì)”作為分析學(xué)科，以WC=“Computer Science, Artificial In‐telligence”和WC=“Business & Economics”為檢索式，檢索兩個學(xué)科發(fā)表時間為1975—2017 年（因涉及3 年引文時間窗問題，故將數(shù)據(jù)截止日期設(shè)為2017 年）、文獻(xiàn)類型為Article 的所有論文，檢索時間為2021 年1 月5 日，獲得計算機(jī)科學(xué)與人工智能學(xué)科的222449 篇論文，以及商業(yè)與經(jīng)濟(jì)學(xué)科的235375 篇論文。

接下來，從兩個學(xué)科中抽取滿足條件的科研人員。抽取標(biāo)準(zhǔn)為：

第一，科研人員擁有ResearcherID。 Re‐searcherID 是WoS 數(shù)據(jù)庫為科研人員提供的專屬身份識別號碼，能夠有效解決科研人員姓名歧義問題。

第二，科研人員在職業(yè)生涯中至少以第一作者身份發(fā)表4 篇論文。非第一作者論文將使科研人員在研究團(tuán)隊中處于支持者的角色[9]，其研究主題可能更多受論文主要貢獻(xiàn)者（如第一作者）的影響，而第一作者論文能夠較準(zhǔn)確地反映科研人員的研究主題。同時，為了計算不同時期研究主題的相似度，選擇科研人員職業(yè)生涯最開始和結(jié)束時各2 篇論文進(jìn)行對比，因此，至少以第一作者身份發(fā)表4篇論文的科研人員才能納入本文的數(shù)據(jù)集。

第三，科研人員職業(yè)生涯長度大于2 年且小于等于20 年。職業(yè)生涯的長短，對科研人員學(xué)術(shù)論文相似度有非常重要的影響。職業(yè)生涯越短，其論文相似度可能越高；反之，職業(yè)生涯越長，科研人員的論文相似度可能越低。為了盡可能消除職業(yè)生涯長短對論文相似度的影響，在選擇科研人員時，需要去掉職業(yè)生涯太長與太短的科研人員。首先，我們剔除職業(yè)生涯長度為1 年和2 年的科研人員。胡志剛等[10]在研究期刊作者群的新陳代謝規(guī)律時，提出“如果想走科研之路，請先堅持到第二年”[11]的觀點。據(jù)此我們認(rèn)為，職業(yè)生涯超過2 年的科研人員留在學(xué)術(shù)界的概率更高，因此，剔除職業(yè)生涯長度僅為1 年和2 年的科研人員。其次，我們剔除職業(yè)生涯超過20 年的科研人員。Milojevi? 等[12]將科研人員職業(yè)生涯分為5 種典型形態(tài)，其中長期活躍者（從事所在領(lǐng)域研究超過20 年）的比例在不斷下降。我們認(rèn)為，長期活躍者的研究主題在職業(yè)生涯中更可能發(fā)生變化，為了盡可能消除職業(yè)生涯太長對成果相似度的影響，本文將職業(yè)生涯超過20年的科研人員剔除掉。

經(jīng)過篩選，計算機(jī)科學(xué)與人工智能領(lǐng)域共1788名科研人員、商業(yè)與經(jīng)濟(jì)領(lǐng)域共958 名科研人員滿足上述要求，這些科研人員及其發(fā)表的論文信息構(gòu)成本文的最終數(shù)據(jù)集。

2.2 指標(biāo)與方法

2.2.1 學(xué)術(shù)論文相似度

本文主要關(guān)注科研人員個人層面的學(xué)術(shù)論文相似度，即數(shù)據(jù)集中每個作者在其職業(yè)生涯中研究主題的轉(zhuǎn)移程度，可以使用科研人員在職業(yè)生涯初期與末期研究主題的相似程度來衡量。研究主題通常使用以下3 種方式來測度：①使用文獻(xiàn)關(guān)鍵詞、題名、摘要或者全文進(jìn)行自然語言分析；②使用主題建模方法；③使用數(shù)據(jù)庫提供的分類號[11]。本文使用第①種方式，并借鑒Jia 等[13]的做法，選取1975—2017 年兩個學(xué)科滿足要求的科研人員職業(yè)生涯最開始的兩篇和最末的兩篇論文，計算這兩組論文標(biāo)題的語義相似度，以此反映科研人員職業(yè)生涯中的學(xué)術(shù)論文相似度。

選擇論文標(biāo)題而非關(guān)鍵詞、文摘等常用字段進(jìn)行相似度分析主要基于以下考慮：①標(biāo)題是一篇科學(xué)論文最重要的組成要素，能夠直觀揭示論文研究主題。Jamali 等[14]的研究表明，標(biāo)題與論文的下載次數(shù)和被引次數(shù)呈正相關(guān)關(guān)系。②在部分論文關(guān)鍵詞缺失、文摘具有較多干擾詞的情況下，論文標(biāo)題是一個不錯的選擇。

語義相似度計算選擇2019 年提出的sentence-BERT（bidirectional encoder representations from trans‐formers）模型（簡稱SBERT）[15]。SBERT 采用雙重或三重BERT 網(wǎng)絡(luò)結(jié)構(gòu)來獲取的句子嵌入，可以更充分地從語義上表征一個句子，使語義越相似的句子在向量空間中的嵌入向量距離越近。在文本的語義相似性任務(wù)上，SBERT 已全面超越流行的BERT模型，達(dá)到了更高水平。本文選擇了all-MiniLML6-v2 的SBERT 預(yù)訓(xùn)練模型來進(jìn)行語義相似度計算，該模型使用超過10 億對句子進(jìn)行訓(xùn)練，在英文相似度任務(wù)方面表現(xiàn)優(yōu)異。

2.2.2 論文被引頻次

科研人員的研究主題轉(zhuǎn)移服從“海邊漫步”（seashore walk）模型[13]，可能發(fā)生在職業(yè)生涯中的任何一個階段；與此同時，科研人員做出重大創(chuàng)新性成果的巔峰期在其職業(yè)生涯中呈隨機(jī)分布[16]。在計算科研人員論文被引頻次指標(biāo)時，如果僅選擇職業(yè)生涯最初期與最末期的兩篇論文的被引頻次代表該名科研人員職業(yè)生涯中所有論文被引頻次，可能具有很大偶然性。因此，為了更全面地反映科研人員的學(xué)術(shù)影響力，我們使用其職業(yè)生涯中所有論文的平均影響力指標(biāo)來代表其論文被引頻次。

本文選擇6 個指標(biāo)測度科研人員職業(yè)生涯的平均影響力，分別是不固定時間窗與固定3 年引文時間窗的總被引次數(shù)、篇均被引次數(shù)以及領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)（表1）。

表1 論文被引頻次指標(biāo)

下文將以一個虛擬的例子說明論文被引頻次指標(biāo)的計算過程。假設(shè)一個學(xué)科共有2 名作者au_1 和au_2，共發(fā)表了5 篇論文（表2），各指標(biāo)的計算方法如下。

總被引次數(shù)與篇均被引次數(shù)指標(biāo)計算較簡單。作者au_1 發(fā)表2 篇論文，其總被引次數(shù)為10+8=18次。篇均被引次數(shù)為18/2=9 次。作者au_2 發(fā)表3 篇論文，總被引次數(shù)為7+6+4=17 篇，篇均被引次數(shù)為

表2 論文被引頻次指標(biāo)計算方法示例

領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)需要同時考慮論文層面與作者層面。從論文層面來看，一篇論文的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)等于該篇論文的被引用次數(shù)除以論文發(fā)表當(dāng)年，同學(xué)科、同文獻(xiàn)類型的論文被引用次數(shù)的平均值e。首先，分別計算每年學(xué)科內(nèi)所有論文被引用次數(shù)的平均值。2005 年發(fā)表了3 篇論文，e2005=(10+7+4)/3=7；2006 年發(fā)表了2 篇論文，e2006=(8+6)/2=7。其次，用每篇論文的被引用次數(shù)除以發(fā)表當(dāng)年的e值，5 篇論文的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)分別等于

從作者層面來看，一名作者的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)等于他/她發(fā)表所有論文的標(biāo)準(zhǔn)化引用分?jǐn)?shù)的平均值。作者au_1 發(fā)表2 篇論文，其領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)為同理，作者au_2 發(fā)表3 篇論文，領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)為

與此同時，為了消除論文發(fā)表時間對被引用次數(shù)的影響，本文還計算了每名科研人員3 年引文時間窗的總被引次數(shù)（3_YEAR_TCC）、3 年引文時間窗的篇均被引次數(shù)（3_YEAR_ACCP）以及3 年引文時間窗的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)（3_YEAR_FNCC）。以作者au_1 為例，其總被引次數(shù)為6+4=10 次，篇均被引用次數(shù)為10/2=5 次。e2005=(6+5+2)/3=作者au_1 的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)等于

2.2.3 學(xué)術(shù)論文相似度與論文被引頻次關(guān)系1）分析方法

在考察學(xué)術(shù)論文相似度與論文被引頻次關(guān)系時，本文主要采用兩種方式。第一，相關(guān)性分析：分別計算學(xué)術(shù)論文相似度指標(biāo)與論文被引頻次不同指標(biāo)之間的相關(guān)系數(shù)，并進(jìn)行顯著性檢驗，以分析兩個變量之間的關(guān)系；第二，多元回歸分析：除了論文相似度，可能存在其他影響論文被引頻次的干擾因素，本文通過控制變量排除干擾因素的影響，使用多元回歸模型分析多個變量之間的關(guān)系。

2）控制變量

謝娟等[17]證實了影響論文被引頻次的因素有作者數(shù)、論文篇幅、期刊影響因子、參考文獻(xiàn)數(shù)、文獻(xiàn)類型和作者年齡。本文使用的文獻(xiàn)類型均為Arti‐cle，不需要對文獻(xiàn)類型進(jìn)行控制。因此，借鑒謝娟等[17]的研究，我們選擇了5 個控制變量：①作者數(shù)（Num_of_author）。每篇論文包含的作者數(shù)量。②論文篇幅（Pages）。用論文頁數(shù)表示。③期刊影響因子（IF）。使用一本期刊2010—2020 年期刊影響因子的均值表示。因計算機(jī)科學(xué)與人工智能領(lǐng)域期刊影響因子缺失值較多，在后續(xù)回歸分析時刪除期刊影響因子這一控制變量。④參考文獻(xiàn)數(shù)（NR）。⑤作者學(xué)術(shù)年齡（Age）。作者學(xué)術(shù)年齡等于其在職業(yè)生涯中發(fā)表第一篇論文的年份與發(fā)表最后一篇論文年份的差值加1。

除作者學(xué)術(shù)年齡指標(biāo)外，其余4 個指標(biāo)作者數(shù)、論文篇幅、期刊影響因子、參考文獻(xiàn)數(shù)的分析對象均為論文而非作者。后續(xù)指標(biāo)需要以作者為單位進(jìn)行分析，因此，在計算某一位科研人員的某個指標(biāo)（如作者數(shù)）時，等于其發(fā)表所有論文某個指標(biāo)值（如作者數(shù)）的平均值。例如，作者A 以第一作者身份發(fā)表了4 篇論文，每篇論文的作者數(shù)依次為4、3、4、5 人，則作者A 的作者數(shù)為(4+3+4+5)/4=4 人。

同時，考慮到5 個控制變量彼此間的極值差距較大，擬對這些變量的指標(biāo)值進(jìn)行歸一化處理。歸一化方法選擇最常見的最大最小標(biāo)準(zhǔn)化（min-max normalization）方法。這種方法簡單易理解，不改變數(shù)據(jù)分布，采用的公式為

其中，Y是指標(biāo)的標(biāo)準(zhǔn)化值；X為指標(biāo)的原始值；X_max 與X_min 分別對應(yīng)于指標(biāo)的最大值和最小值。

3）回歸模型

論文被引頻次服從偏態(tài)分布，負(fù)二項回歸模型被認(rèn)為是偏態(tài)分布數(shù)據(jù)的標(biāo)準(zhǔn)回歸模型[18]。因此，我們選擇負(fù)二項回歸模型探討自變量（學(xué)術(shù)論文相似度）及控制變量（作者數(shù)、論文篇幅、期刊影響因子、作者學(xué)術(shù)年齡、參考文獻(xiàn)數(shù)）對因變量（論文被引頻次）的影響。

為TCC、ACCP 等6 個因變量指標(biāo)分別構(gòu)建兩個模型。首先，利用5 個控制變量指標(biāo)構(gòu)建模型1，對模型1 進(jìn)行檢驗，并計算對數(shù)似然值log-likeli‐hood1；然后，增加學(xué)術(shù)論文相似度指標(biāo)構(gòu)建模型2，對模型2 進(jìn)行檢驗并計算新的對數(shù)似然值loglikelihood2。對兩個模型進(jìn)行似然比檢驗，χ2統(tǒng)計量等于模型1 和模型2 對數(shù)似然值差值的2 倍。若χ2≥則拒絕原假設(shè)，說明科研人員的學(xué)術(shù)論文相似度對論文被引頻次有影響；反之，則說明沒有影響。

進(jìn)行負(fù)二項回歸模型時使用python 的statsmod‐els 模塊，操作步驟借鑒馬薩諸塞大學(xué)阿默斯特分校（University of Massachusetts, Amherst） Sachin Date 的研究：https://timeseriesreasoning.com/contents/negative-binomial-regression-model/。

3 研究結(jié)果

3.1 學(xué)術(shù)論文相似度分析

（1）商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員的學(xué)術(shù)論文相似度分析。

商業(yè)與經(jīng)濟(jì)領(lǐng)域958 名科研人員的學(xué)術(shù)論文相似度如圖1 所示。從圖1 可以看出，商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員的學(xué)術(shù)論文相似度呈現(xiàn)出“中間高、兩邊低”的分布形態(tài)。相似度介于[0.4,0.5)的科研人員數(shù)量最多，為255 名，占商業(yè)與經(jīng)濟(jì)領(lǐng)域所有科研人員的26.6%。相似度小于0.4 或大于等于0.5 的科研人員數(shù)量依次減少。如果我們將學(xué)術(shù)論文相似度小于0.4 定義為科研人員研究主題發(fā)生轉(zhuǎn)移，那么商業(yè)與經(jīng)濟(jì)領(lǐng)域有39.5%的科研人員研究主題發(fā)生轉(zhuǎn)移。

圖1 商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員群體學(xué)術(shù)論文相似度

（2）計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員的學(xué)術(shù)論文相似度分析。

計算機(jī)科學(xué)與人工智能領(lǐng)域1788 名科研人員群體的學(xué)術(shù)論文相似度如圖2 所示。從圖2 可以看出，計算機(jī)與人工智能領(lǐng)域科研人員的學(xué)術(shù)論文相似度同樣呈現(xiàn)出“中間高、兩邊低”的分布形態(tài)。相似度介于[0.4,0.5)的科研人員數(shù)量最多，為376 名，占計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員的21.0%。相似度小于0.4 或大于等于0.5 的科研人員數(shù)量依次減少。如果我們將學(xué)術(shù)論文相似度小于0.4 定義為科研人員研究主題發(fā)生轉(zhuǎn)移，那么計算機(jī)科學(xué)與人工智能領(lǐng)域有45.6%的科研人員研究主題發(fā)生轉(zhuǎn)移。

圖2 計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員群體學(xué)術(shù)論文相似度

3.2 學(xué)術(shù)論文相似度與論文被引頻次關(guān)系

3.2.1 相關(guān)性分析

（1）商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次相關(guān)性分析。

商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度指標(biāo)（Similarity）與不同的論文被引頻次指標(biāo)相關(guān)性分析結(jié)果如表3 所示。從表3 可以看出，F(xiàn)NCC 與Sim‐ilarity 相關(guān)系數(shù)的P值小于0.05，通過了顯著性檢驗，但Pearson 相關(guān)系數(shù)較小，只有不到0.1，可以認(rèn)為不相關(guān)。其余5 個被引頻次指標(biāo)與Similarity 相關(guān)系數(shù)的P值均大于0.05，未通過顯著性檢驗。因此，從相關(guān)性分析結(jié)果來看，商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員群體的學(xué)術(shù)論文相似度與論文被引頻次不存在線性相關(guān)關(guān)系。

表3 商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次的相關(guān)性分析

（2）計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次相關(guān)性分析。

計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員6 個論文被引頻次指標(biāo)與學(xué)術(shù)論文相似度指標(biāo)的相關(guān)性分析結(jié)果如表4 所示。從表4 可以看出，TCC 指標(biāo)未通過顯著性檢驗，而其余5 個指標(biāo)雖通過了顯著性檢驗，但Pearson 相關(guān)系數(shù)值均小于0.2，可以認(rèn)為不相關(guān)，因此，計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員群體的學(xué)術(shù)論文相似度與論文被引頻次同樣不存在線性相關(guān)關(guān)系。

表4 計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次的相關(guān)性分析

3.2.2 回歸分析

（1）商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項回歸分析。

商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項回歸分析結(jié)果如表5 所示。

從表5 可以發(fā)現(xiàn)：

表5 商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員群體學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項回歸分析

第一，商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度未對論文被引頻次產(chǎn)生影響。在模型2 中，以

TCC、 ACCP、 FNCC、 3_YEAR_TCC、 3_YEAR_ACCP 和3_YEAR_FNCC 為因變量的回歸模型中，自變量Similarity 均未通過顯著性檢驗，即在商業(yè)與經(jīng)濟(jì)領(lǐng)域，科研人員的學(xué)術(shù)論文相似度未對其被引用頻次產(chǎn)生影響。

第二，不同控制變量對論文被引頻次的影響不同。若控制變量能夠通過顯著性檢驗，則說明其會對論文被引頻次產(chǎn)生影響。①以TCC 和ACCP 為因變量時，IF、NR、Age 通過顯著性檢驗；②以FNCC 為因變量時，IF、NR 通過顯著性檢驗；③以3_YEAR_TCC 和3_YEAR_ACCP 為因變量時，5 個控制變量均通過顯著性檢驗；④以3_YEAR_FNCC為因變量時，Pages、IF 通過顯著性檢驗。

第三，當(dāng)因變量為不固定時間窗的論文被引頻次指標(biāo)時，模型2 的擬合度優(yōu)于模型1。對模型1 和模型2 進(jìn)行對數(shù)似然比檢驗發(fā)現(xiàn)，當(dāng)論文被引頻次用TCC、ACCP 和FNCC 指標(biāo)衡量時，說明學(xué)術(shù)論文相似度對論文被引頻次產(chǎn)生了影響；當(dāng)論文被引頻次用3_YEAR_TCC 和3_YEAR_ACCP 指標(biāo)衡量時，相似度未對論文被引頻次產(chǎn)生影響；當(dāng)論文被引頻次使用3_YEAR_FNCC 指標(biāo)衡量時，未得出卡方檢驗結(jié)果，因此，學(xué)術(shù)論文相似度是否對論文被引頻次產(chǎn)生影響未知。

（2）計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項回歸分析。

計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項回歸分析結(jié)果如表6所示。

從表6 可以發(fā)現(xiàn)：

表6 計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員群體學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項回歸分析

第一，計算機(jī)科學(xué)與人工智能領(lǐng)域?qū)W術(shù)論文相似度會對論文被引頻次產(chǎn)生影響。這表現(xiàn)在以6 個被引頻次指標(biāo)為因變量的回歸模型中，Similarity 指標(biāo)均通過顯著性檢驗。而在商業(yè)與經(jīng)濟(jì)領(lǐng)域中，Similarity 指標(biāo)均未通過顯著性檢驗，這說明學(xué)術(shù)論文相似度是否會其對被引頻次產(chǎn)生影響可能具有學(xué)科特異性。

第二，不同控制變量對論文被引頻次的影響不同。通過顯著性檢驗可證明該控制變量會對論文被引頻次產(chǎn)生影響。①以TCC 為因變量時，NR、Age通過顯著性檢驗。②以ACCP 為因變量時，NR 通過顯著性檢驗。③以FNCC 和3_YEAR_FNCC 為因變量時，Num_of_author、NR 通過顯著性檢驗。④以3_YEAR_TCC 為因變量時，Pages、NR、Age 通過了顯著性檢驗。⑤以3_YEAR_ACCP 為因變量時，4 個控制變量均通過了顯著性檢驗。

第三，模型2 擬合度均優(yōu)于模型1。對模型1 和模型2 進(jìn)行對數(shù)似然比檢驗發(fā)現(xiàn)，當(dāng)論文被引頻次用6 個指標(biāo)衡量時，χ2≥21.4；自由度為1 時，臨界卡方值說明學(xué)術(shù)論文相似度對論文被引頻次產(chǎn)生了影響。

4 總結(jié)與討論

4.1 總結(jié)

本文旨在探討科研人員職業(yè)生涯學(xué)術(shù)論文相似度及其對被引頻次的影響。選擇商業(yè)與經(jīng)濟(jì)領(lǐng)域958 名科研人員、計算機(jī)科學(xué)與人工智能領(lǐng)域1788名科研人員為研究對象，使用相關(guān)系數(shù)和負(fù)二項回歸模型進(jìn)行分析，主要結(jié)論如下。

（1）在學(xué)術(shù)論文相似度方面，兩個學(xué)科科研人員的學(xué)術(shù)論文相似度呈現(xiàn)出“中間高、兩邊低”的分布形態(tài)，相似度介于[0.4,0.5)的科研人員數(shù)量最多。商業(yè)與經(jīng)濟(jì)領(lǐng)域有39.5%的科研人員研究主題發(fā)生轉(zhuǎn)移，而計算機(jī)科學(xué)與人工智能領(lǐng)域這一比例為45.6%。

（2）在學(xué)術(shù)論文相似度與論文被引頻次的相關(guān)性分析方面，商業(yè)與經(jīng)濟(jì)領(lǐng)域中Similarity 與FNCC相關(guān)，計算機(jī)科學(xué)與人工智能領(lǐng)域中Similarity 與ACCP、FNCC、3_YEAR_TCC、3_YEAR_ACCP 和3_YEAR_FNCC 相關(guān)，但相關(guān)系數(shù)均小于0.2，可以認(rèn)為兩個學(xué)科科研人員職業(yè)生涯中學(xué)術(shù)論文相似度與論文被引頻次之間不存在線性相關(guān)關(guān)系。

（3）在學(xué)術(shù)論文相似度與論文被引頻次的回歸模型方面，商業(yè)與經(jīng)濟(jì)領(lǐng)域以TCC、ACCP、FNCC、3_YEAR_TCC、 3_YEAR_ACCP 和3_YEAR_FNCC為因變量的回歸模型中，自變量Similarity 均未通過顯著性檢驗，即在商業(yè)與經(jīng)濟(jì)領(lǐng)域，科研人員的學(xué)術(shù)論文相似度未對其被引用頻次產(chǎn)生影響。計算機(jī)科學(xué)與人工智能領(lǐng)域以上述6 個被引頻次指標(biāo)為因變量的回歸模型中，Similarity 指標(biāo)均通過顯著性檢驗。說明學(xué)術(shù)論文相似度是否會對其被引頻次產(chǎn)生影響可能具有學(xué)科特異性。

（4）在控制變量方面，商業(yè)與經(jīng)濟(jì)領(lǐng)域影響論文被引頻次的控制變量主要是IF。以6 個被引頻次指標(biāo)為因變量構(gòu)建的回歸模型中，IF 均通過顯著性檢驗，且回歸系數(shù)與其他控制變量相比較大，說明期刊影響因子對論文被引頻次的影響較大。計算機(jī)科學(xué)與人工智能領(lǐng)域影響論文被引頻次的控制變量主要是NR。無論論文被引頻次使用何種指標(biāo)測度，NR 均通過顯著性檢驗，且回歸系數(shù)較大，說明當(dāng)論文被引頻次提高時，論文參考文獻(xiàn)數(shù)能夠較大程度地解釋這種提升效應(yīng)。

4.2 討論

（1）科研人員職業(yè)生涯中研究主題是否發(fā)生了轉(zhuǎn)移？

本文發(fā)現(xiàn)，在2~20 年的職業(yè)生涯中，研究主題非常相似或非常不相似的科研人員數(shù)量都較少，大部分科研人員的研究主題會發(fā)生一定程度的轉(zhuǎn)移。那么，科研人員研究主題轉(zhuǎn)移是否有規(guī)律可循？Jia等[13]使用“海邊漫步”模型來解釋科學(xué)家的研究興趣的演化。在這一模型中，“海灘”上有著某一數(shù)量的點，某些點上存在一定數(shù)量的、多種類型的貝殼，每種類型代表一種研究話題，貝殼數(shù)量在各點上的概率分布為P(q)，有可能某些點上不存在任何種類的貝殼?？茖W(xué)家隨機(jī)從“海灘”上選擇一個點，然后向左或者向右隨機(jī)行走，向左和向右的概率均為0.5；他有可能在某些點上經(jīng)過兩次或兩次以上；若走到的點上有貝殼，則代表他發(fā)表了一篇某種研究話題的論文?？茖W(xué)家每走一步代表過去了一個單位的時間，他所走的總步數(shù)等于其科學(xué)職業(yè)生涯的總時間[11]。

（2）科研人員職業(yè)生涯中學(xué)術(shù)論文相似度是否會影響論文被引頻次？

學(xué)術(shù)論文相似度是否會影響論文被引頻次的問題在學(xué)界一直存有爭議。部分研究證明兩者存在正相關(guān)關(guān)系，研究主題變化較大的科學(xué)家更可能產(chǎn)生高影響力的成果[3]。另外一種觀點則認(rèn)為“頻繁轉(zhuǎn)移話題在整個職業(yè)生涯對科學(xué)家的影響力都有損害”[8]。

從本文結(jié)論來看，學(xué)術(shù)論文相似度與論文被引頻次之間不存在線性相關(guān)關(guān)系；根據(jù)負(fù)二項回歸結(jié)果，兩者關(guān)系可能具有學(xué)科特異性。計算機(jī)科學(xué)與人工智能領(lǐng)域科研人員的學(xué)術(shù)論文相似度會對被引頻次產(chǎn)生影響，而商業(yè)與經(jīng)濟(jì)領(lǐng)域則恰好相反?；貧w系數(shù)可以用來解釋論文相似度如何影響論文被引頻次，以計算機(jī)科學(xué)與人工智能領(lǐng)域3_YEAR_AC‐CP 指標(biāo)為例，學(xué)術(shù)論文相似度的回歸系數(shù)為0.7789，即論文相似度每變動1 個單位，平均而言，3_YEAR_ACCP 將變動0.7789 個單位。

學(xué)術(shù)論文相似度與論文被引頻次之間呈現(xiàn)的復(fù)雜關(guān)系可能是馬太效應(yīng)與論文適應(yīng)度（fitness）[19]共同作用的結(jié)果。職業(yè)生涯中從事相似的研究課題有助于提升作者聲望，累積起來的作者聲望不僅使資深作者的論文被引用可能性是年輕作者的4 倍，而且能使其早期的研究成果產(chǎn)生溢出效應(yīng)。比如，針對124 名諾貝爾獎獲得者的分析表明，一項重要科學(xué)發(fā)現(xiàn)的公布連帶增加了作者以前發(fā)表的論文的引用量，即使早期論文與新發(fā)現(xiàn)的課題并不一定相關(guān)[20]。

與此同時，論文被引頻次又受到論文適應(yīng)度的影響。適應(yīng)度是指論文獲得引用的內(nèi)在能力的差異，用一組論文的內(nèi)在屬性來表示，如發(fā)表渠道、讀者規(guī)模以及貢獻(xiàn)性質(zhì)（如綜述論文和方法論文往往比常規(guī)研究論文更易被引用）。如果考慮論文適應(yīng)度，那么當(dāng)前引用量相同的兩篇論文，適應(yīng)度高的那篇未來會有更高的概率獲得更多的引用。不同的學(xué)科領(lǐng)域論文具有不同的適應(yīng)度。馬太效應(yīng)和論文適應(yīng)度的協(xié)同作用最終導(dǎo)致了論文被引頻次呈現(xiàn)不同的形態(tài)。

對于論文相似度與論文被引頻次背后的作用機(jī)理，未來還需進(jìn)一步探索以得出更具參考價值的結(jié)論。

（3）控制變量是否會影響論文被引頻次？

不可否認(rèn)，論文被引頻次受多種因素共同作用。其中就包括本文涉及的控制變量：期刊影響因子、作者數(shù)、參考文獻(xiàn)數(shù)、論文篇幅以及作者學(xué)術(shù)年齡。在商業(yè)與經(jīng)濟(jì)領(lǐng)域，期刊影響因子對論文被引頻次的作用較大，而在計算機(jī)科學(xué)與人工智能領(lǐng)域，參考文獻(xiàn)數(shù)對論文被引頻次的作用較大。

期刊影響因子在商業(yè)與經(jīng)濟(jì)領(lǐng)域確實對科研人員職業(yè)生涯的論文被引頻次起到非常重要的作用。研究表明，聲望較高的期刊能夠吸引高質(zhì)量論文，這就意味著高質(zhì)量論文提交到核心期刊，而較低質(zhì)量論文提交到二流期刊，核心期刊論文與二流期刊論文相比被引用次數(shù)更高[21]。期刊影響因子與論文被引頻次之間的天然聯(lián)系，使得在科研人員評價中，雖然期刊影響因子不適用于評價科研人員個人或單篇論文，卻可以用作論文被引頻次評價的重要參考。

參考文獻(xiàn)數(shù)在計算機(jī)科學(xué)與人工智能領(lǐng)域?qū)蒲腥藛T職業(yè)生涯的論文被引頻次起到較大作用。參考文獻(xiàn)數(shù)量以及參考文獻(xiàn)的其他特征是論文被引頻次強有力的預(yù)測因子[22]。研究發(fā)現(xiàn)，論文的參考文獻(xiàn)數(shù)量越多，其被引的可能性越大[18]。計算機(jī)科學(xué)與人工智能領(lǐng)域222449 篇論文的平均參考文獻(xiàn)數(shù)量為28.8 篇。

科研人員職業(yè)生涯中學(xué)術(shù)論文相似度與論文被引頻次關(guān)系的研究，可以為科研人員研究主題轉(zhuǎn)移提供一定的參考。當(dāng)然，本文還存在一些不足：①學(xué)術(shù)論文相似度局限于學(xué)科內(nèi)，不涉及跨學(xué)科性問題。本文采用“先確定學(xué)科再確定科研人員”的策略，計算科研人員在學(xué)科內(nèi)部論文的相似度，并未考慮科研人員在其他學(xué)科領(lǐng)域發(fā)表的論文。②學(xué)術(shù)論文相似度使用論文標(biāo)題的語義相似性來度量，這種方法一方面容易受作者選詞傾向的影響，比如，選擇新詞匯以突出論文新穎性，吸引讀者、審稿人的關(guān)注；另一方面容易受學(xué)科詞匯演化的影響，學(xué)科在發(fā)展中會不斷出現(xiàn)新術(shù)語、新概念。我們會在后續(xù)研究中通過關(guān)注跨學(xué)科科研人員群體、使用更完善的相似度計算方法以彌補以上不足。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放