關鍵詞: 引用動機; 學術生命周期; 成長期學者; 主題識別; 主題演化
DOI:10.3969 / j.issn.1008-0821.2024.08.011
〔中圖分類號〕G250.2 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 08-0110-14
隨著知識社會的發(fā)展, 學者作為知識生產(chǎn)和學術研究的微觀主體, 受到了越來越多的關注。通過對學者特征的研究, 可以有效揭示科學知識的生產(chǎn)規(guī)律。Merton R K[1] 通過對學者個體的學術活動行為進行研究, 首次提出科學界存在“馬太效應” 現(xiàn)象; Cole J 等[2] 基于學者的科研成果產(chǎn)出, 剖析了科研產(chǎn)出性別分層化的“學術產(chǎn)出之謎”; Cao C[3]應用科學社會學的方法系統(tǒng)地分析了中國科學院院士的成長規(guī)律, 為后續(xù)研究做出了標準示范。這些研究都從不同角度探討了學者在不同階段所呈現(xiàn)出的不同特征。根據(jù)學術生命周期理論, 學者的學術生涯可以劃分為萌芽期、成長期、成熟期和衰退期4 個階段。其中, 成長期是學者學術生命周期中的關鍵期。在這一階段, 學者經(jīng)過萌芽期的積累, 在學術界站穩(wěn)腳跟并開始陸續(xù)產(chǎn)出科研成果, 其發(fā)文數(shù)量迅速增長, 發(fā)文質(zhì)量也隨之提升。這一時期學者的學術關注點、研究方向和引用行為可能對其未來產(chǎn)出產(chǎn)生深遠影響。
在科研創(chuàng)作時, 學者往往需要在對前人的成果進行系統(tǒng)地梳理、學習和繼承的基礎上, 才能有所突破從而得出新的科研成果。為了達到這一目標,學者不僅要關注自己的科研產(chǎn)出, 還要關注自己的科研引用??蒲幸檬菍W者與前人和同行進行學術對話和交流的重要方式, 它反映了學者對已有知識的認識、評價和利用。廣泛參考國內(nèi)外相關高質(zhì)量的研究論文, 對科學問題的提出、研究方案的制定和學術論文的寫作至關重要。而引用動機承載了學者引用該文獻的目的和情感偏向, 通過對學者引用動機的演化分析, 可以追蹤學者在成長期內(nèi)對不同主題的關注程度和變化趨勢, 深入了解成長期學者在學術發(fā)展中的思考、選擇和轉(zhuǎn)變, 為更精準的學術導向提供依據(jù)。
選取成長期學者作為研究對象有利于深入了解這一關鍵階段的學術發(fā)展特點, 為揭示學術生產(chǎn)的主題特征提供有力支持。本文探討學者在學術成長期的引用動機特征, 提出將主題模型與引用動機結合的思想, 對成長期學者發(fā)文進行不同引用動機下的主題演化分析, 探測其主題分布與變化, 了解成長期學者在不同引用動機下的主題選擇和變化趨勢,從而更深入地揭示科研人才的成長軌跡, 有助于科研管理者制定有針對性的引導和支持策略, 促進學者更好地發(fā)展和取得成就, 對于培養(yǎng)更具潛力和創(chuàng)新力的科研人才具有指導意義。
1 相關研究
1.1 學術生命周期理論研究
生命周期這一概念源于生物學, 該理念一經(jīng)提出便受到廣泛關注, 隨即應用到各行各業(yè)。學術生命周期理論是將生命周期概念引入學術領域的一種創(chuàng)新性應用。該理論將個體學者的職業(yè)發(fā)展過程視為一個動態(tài)的、經(jīng)歷多個階段的生命周期, 類似于生物學中生物個體從誕生、成長、成熟到衰老的過程?,F(xiàn)有研究表明, 學者的學術生涯同樣也具有生命周期, 隨時間經(jīng)歷著萌芽、成長、成熟、衰退等過程[4-6] 。萌芽期的科研人員處于知識學習和積累的階段, 科研產(chǎn)出方面剛剛起步, 學術影響力上升幅度較?。?步入成長期后, 科研人員逐步產(chǎn)生成績,有穩(wěn)定的科研產(chǎn)出表現(xiàn), 并致力于創(chuàng)造更多的科研成果, 科研事業(yè)處于蒸蒸日上的階段; 成熟期的學者已經(jīng)逐步建立和獲得學術地位, 達到學術產(chǎn)出的高峰期, 學術影響力呈現(xiàn)出先上升后下降的趨勢;進入衰退期的科研人員更多地將科研精力轉(zhuǎn)移到人才培養(yǎng)指導上, 而知識相對逐漸老化, 同時創(chuàng)造力衰減, 因而學術影響力呈現(xiàn)出明顯下降的趨勢。
學術生命周期的相關研究主要針對不同階段的學者特征展開。Sabharwal M[7] 通過實證發(fā)現(xiàn), 在計算機、信息科學等學科中, 由于知識的快速更新,處于職業(yè)生涯早期和中期的科研人員比職業(yè)生涯晚期的學者更富有成效; Abramo G 等[8] 使用考慮論文數(shù)量和影響的生產(chǎn)率指標來考察意大利全職教授的科研表現(xiàn), 發(fā)現(xiàn)科研表現(xiàn)和年齡呈單調(diào)負相關;倪蓉等[9] 計算學者在各學術年齡點的發(fā)文數(shù)量均值,發(fā)現(xiàn)學術年齡小于20 年時, 學術產(chǎn)出先平穩(wěn)上升,后呈現(xiàn)快速增長的特征, 這兩個階段分別稱為學術孕育期和發(fā)展期, 自第21 年起至第35 年, 學術產(chǎn)出量趨于穩(wěn)定且保持在一個較高水平, 隨后則進入衰退期; 方勇等[10] 通過對國家杰出青年科學基金負責人的回溯性分析發(fā)現(xiàn), 杰青基金項目負責人在不同的成長階段呈現(xiàn)出不同的學術價值和科研特征;王曰芬等[11] 基于復雜網(wǎng)絡分析方法, 探究不同生命周期階段中科學合作網(wǎng)絡整體結構特征與分布,以及個體高影響力學者的成長與演化特征。
1.2引用動機研究
引用動機指的是施引作者對被引文獻的引用目的或意圖, 反映的是施引文獻與被引文獻之間的關聯(lián)。與之相似的表述還有引用目的、引用功能等[12] ,以下統(tǒng)稱為引用動機。目前, 國內(nèi)外學術界針對引用動機的研究大致可總結為引用動機的分類研究與基于引用動機的引用行為分析。
在引用動機的分類研究中, Garfield E[13] 根據(jù)被引文獻在施引文獻中的位置、文字內(nèi)容和引用方式等, 推斷歸納出15 種引用動機, 為后續(xù)的相關研究奠定基礎; Moravcsik M J 等[14] 利用二分法,從概念性或操作性引用、陳述性或敷衍性引用、擴展或繼承性引用、質(zhì)疑或否定性引用4 個維度對引用動機進行分類; 崔紅[15] 將我國科技人員的引文動機分類為主題性引用、背景性引用、尊重性引用和方法性引用; 邱均平等[16] 將引用行為看作科研人員的一種信息行為, 并在總結前人研究的基礎上, 將引用動機的類別劃分為內(nèi)在引用動機和外在引用動機兩類。而引用動機的識別方法主要依靠利用訪談法、問卷調(diào)查法等, 直接調(diào)研作者引用動機[17-18] 、利用引文內(nèi)容語義信息進行引用動機的人工標注[19] 或計算機自動標注[20-21] 等方法。目前, 關于引用動機的分類體系眾多, 學界對此尚未形成一致共識。基于引用動機的引用行為分析層面, 舒安琴等[22] 通過解析施引作者的引用動機, 提出不正當引用行為的識別方法; 劉運梅等[23] 基于對功能性引用動機和情感類引用動機兩大類引用動機的標注,深入挖掘三角引用現(xiàn)象中隱含的引用規(guī)律。
1.3 主題演化研究
按照主題的識別方法, 主題演化相關研究可以劃分為基于共詞分析的主題演化與基于概率模型的主題演化。共詞分析通過統(tǒng)計語料中詞語間的共現(xiàn)關系表征詞語間的親疏關系, 進而揭示信息的內(nèi)容關聯(lián)。孟璇等[24] 從共詞網(wǎng)絡視角出發(fā), 通過對關鍵詞語義類型的劃分探究主題維度下研究方法的演化情況; 俞立平等[25] 通過詞頻分析與共詞網(wǎng)絡分析深入挖掘科研誠信政策文本, 總結了我國科研誠信政策的變化過程與演化特征。主題模型能有效地提取文本中隱含的主題信息和語義信息, 因而被廣泛應用于主題提取研究中, 熊文靚等[26] 以跨學科研究為研究對象, 借助融合Coherence Score、LDA與CSR 的主題模型探索跨學科研究的宏觀與微觀層次演化特征; 馬建紅等[27] 提出的MW-LDA 通過多角度改進詞匯權重并構造復合權值, 以優(yōu)化LDA模型生成特征詞的構成; 沈思等[28] 引入詞嵌入技術, 將LDA 與Skip-gram 結合, 以腫瘤學領域科技報告為數(shù)據(jù)源, 對主題之間的潛在語義關聯(lián)信息進行計算并用于主題演化分析。
綜上可以發(fā)現(xiàn), 首先, 不少研究已經(jīng)關注到學者的科研績效與學術影響力在不同學術階段具有不同特征, 但少有研究結合學術生命周期理論對成長期學者的引用動機特征進行深入探索; 其次, 針對引用動機的研究已由早期引用動機類型劃分探討逐漸轉(zhuǎn)移到引用動機應用階段, 然而目前對引用動機的應用研究尚未形成一定規(guī)模; 第三, 當前關于主題識別及其演化的研究一般都是從施引文獻文本內(nèi)容分析角度進行主題識別及其演化分析, 從被引文獻內(nèi)容分析角度進行主題識別及其演化的研究相對較少。然而, 從被引文獻角度展開主題分析可以有效地揭示施引文獻和被引文獻之間在語義內(nèi)容上的關聯(lián), 形成引用動機的外在表現(xiàn)形式, 方便引用動機的解釋和說明。因此, 本文從引用動機視角出發(fā),面向處于科研高速發(fā)展階段的成長期學者, 利用主題演化分析挖掘被引文獻主題間的聯(lián)系和差異, 以此識別引用動機變化所對應的主題發(fā)展變化, 了解成長期學者在不同引用動機下的主題演化軌跡。
2研究思路
本文研究框架如圖1 所示, 主要包括數(shù)據(jù)獲取與預處理、成長期學者識別、引用動機劃分與主題演化4 個模塊。首先, 從文獻數(shù)據(jù)庫中采集圖情檔領域一定時間范圍內(nèi)公開發(fā)表的論文數(shù)據(jù), 通過每位學者的發(fā)文量統(tǒng)計初步篩選學者集合; 其次, 利用Zpc 指數(shù)評價學者逐年學術影響力, 根據(jù)學術影響力的變化速率識別成長期學者; 第三, 基于文本篇章結構對成長期學者的引用動機進行劃分, 包括背景、述評、方法、實驗、分析、總結6 個類別;最后, 融合Word2vec 詞向量模型[29] 和BTM(Bite?rm Topic Model) 主題模型[30] 對被引文獻的篇名、關鍵詞、摘要進行主題提取, 并挖掘相鄰時間主題間的關聯(lián)關系。
2.1成長期學者識別
本研究以學者的學術影響力變化趨勢作為學術生命周期的劃分依據(jù), 由于成長期學者的學術影響力呈現(xiàn)出快速增長的特點, 因此將學者集合中學術影響力發(fā)展最快的學者定義為成長期學者。學者的學術影響力主要指某一時期科研人員對其所在學科領域內(nèi)其他科研人員及其學術研究活動的影響范圍和深度, 其根本來源是學者研究成果的價值, 主要體現(xiàn)在研究成果的質(zhì)量和數(shù)量兩方面。由于成長期學者經(jīng)歷萌芽期的磨練, 已有一定的成果積累, 首先, 根據(jù)普賴斯定律對核心學者進行初步識別, 計算方法如式(1) 所示:
Zpc 指標淡化了發(fā)文量的影響, 綜合考慮了作者對成果的貢獻率大小及成果本身的質(zhì)量, 更有利于對科研生涯較短的優(yōu)秀年輕學者的學術影響力評估。因此, 本文利用Zpc 指標對學者年度學術影響力進行統(tǒng)計, 并根據(jù)Zpc 指標年平均增長率識別成長期學者。
2.2引用動機劃分
與其他類型文本不同, 學術文本一般具有較強的規(guī)范性, 并且內(nèi)部邏輯結構嚴密。大多數(shù)相關研究將論文結構劃分為引言、相關研究、方法、實驗和結論5 個部分[34-35] , 這種劃分依據(jù)在理工科論文中具有較高的適用性, 但卻未充分考慮到學術論文中對研究內(nèi)容進行理論性探討和分析的章節(jié)部分。因此, 為了提升其在非實證類論文中的適用性, 本文在上述基礎上, 將論文的結構細分為引言、述評、方法、實驗、分析及總結6 個部分, 并以此為基礎進行后續(xù)研究。
雖然目前對引用動機的分類尚未形成統(tǒng)一標準,但大致可以歸納為科學性引用動機和戰(zhàn)略性引用動機兩類[36] 。前者是指科研人員為了學術規(guī)范等研究科學性原因而進行引用, 后者是指出于一些非學術性的主觀考慮, 如更傾向于引用發(fā)表在核心期刊上的學術論文等情況進行引用。由于論文作者的引文目的是為自身文章服務的, 不同章節(jié)對于論文的內(nèi)容表達具有不同的功能和作用, 如“引言” 部分側重于介紹研究的背景與目的, “方法” 部分主要介紹研究所采用的方法及理論依據(jù)。作者基于不同的使用目的而選擇所要引用的文獻, 因此不同章節(jié)位置的引文往往表征出不同的引用動機。在此基礎上, 本文將科學性引用動機與論文的篇章結構相互映射[37] , 分別得到背景、述評、方法、實驗、分析及總結6 個二級結構, 引用動機也相應劃分為背景引用、述評引用、方法引用、實驗引用、分析引用、總結引用6 個類別, 如表1 所示??紤]到在現(xiàn)有的引文動機分類研究中, 戰(zhàn)略性動機因占比小往往被忽略[19] , 且不易被第三方研究者識別, 因此本文只對科學性動機展開研究。
2.3引用動機主題演化
2.3.1主題提取
本研究使用BTM 短文本主題模型對被引文獻的篇名、關鍵詞、摘要等文本內(nèi)容進行主題提取。該模型的基本思想是一個詞對中的兩個詞擁有相同的主題, 這些主題來自整個語料庫的混合主題。它利用整個語料庫的豐富信息抽樣主題, 通過詞對共現(xiàn)模式來加強主題模型的學習, 推斷整個語料庫全局的主題分布, 克服了短文本稀疏問題, 較傳統(tǒng)主題模型能夠挖掘出可解釋性更強的主題。
針對獲取到的相關數(shù)據(jù)進行預處理操作, 包括去除特殊字符、中文分詞和去停用詞。在數(shù)據(jù)預處理的基礎上, 根據(jù)BTM 主題模型對引文數(shù)據(jù)進行處理。首先, 將引文數(shù)據(jù)作為引用動機文檔集合W,并按照年份將每個時間段的引文數(shù)據(jù)作為一個子文檔集Wi(0<i≤6), 其中每一個子文檔集都是對應時間段內(nèi)不同引用動機下被引文獻的篇名、關鍵詞和摘要文本數(shù)據(jù), 對各個子文檔集Wi 進行數(shù)據(jù)預處理, 得到對應的分詞結果文檔; 其次, 對分詞結果文檔進行BTM 模型訓練, 構建引用動機主題模型, 并分別將每一子文檔集作為新文檔進行主題提取。該模型的詞概率計算方式如式(4) 所示:
2.3.2 主題演化分析
基于全局詞共現(xiàn)的方法, 利用詞與詞之間的共現(xiàn)關系來解決短文本特征稀疏問題, 但詞語統(tǒng)計層面的信息無法捕捉語義關系, 在深層語義信息表達方面未能有較多的考慮。而Word2vec 詞向量模型可以在捕捉文本中詞語的上下文語境信息的同時發(fā)現(xiàn)隱含的語義關系, 從語義方面為主題提取帶來了全新的視角。將BTM 模型與Word2vec詞向量模型結合起來, 既解決了傳統(tǒng)主題模型(如LDA)無法處理短文本的數(shù)據(jù)稀疏性問題, 又彌補了詞共現(xiàn)模型在上下文語義問題上的欠缺, 能夠挖掘到更加連貫以及更有意義的主題。因此, 本研究采用離散化的方式生成各個時間窗口不同引用動機分類下的主題抽取語料數(shù)據(jù), 綜合運用BTM 主題模型與Word2vec 詞向量模型進行主題的抽取與向量化。具體來說, 首先, 利用Word2vec 詞向量對經(jīng)過預處理后的被引文獻的篇名、關鍵詞、摘要等文本內(nèi)容進行訓練, 對所有詞語進行向量化表示, 輸出與各特征詞最為相似的若干詞, 對原始語料進行擴充,構成新的語料庫; 其次, 利用BTM 主題模型對新的語料庫進行訓練, 提取主題。
得到各個時間段內(nèi)的不同引用動機下的被引文獻主題之后, 需要建立相鄰時間段各主題之間的關聯(lián)關系, 不同時間段的各個主題之間的相關性可以通過計算前后時間段各主題之間的主題相似度對相鄰時間段主題之間的關聯(lián)關系進行挖掘。本研究基于每個主題中主題詞的概率作為貢獻權重, 通過對主題下所有主題詞的向量加權取平均得到主題向量, 主題向量計算公式如式(6) 所示, 并計算相鄰時間段主題向量的余弦相似度測度不同時間段主題間的相關性。
假設每個動機下一共有n 個主題, 每個主題下有k 個主題詞, i表示該主題下的第i 個主題詞,即i∈[0,k], Veci 代表第i 個主題詞經(jīng)過Word2vec計算后得到的特征向量, Wi 代表第i 個主題詞經(jīng)過BTM 模型計算后在當前主題下的概率值, Vectopic_n代表當前主題的加權向量值。
3 實證研究
3.1 數(shù)據(jù)獲取與預處理
本文以圖書情報與檔案管理學科領域?qū)W者為研究對象, 獲取20 本圖情領域CSSCI 核心來源期刊,分別為《中國圖書館學報》《情報學報》《圖書情報工作》《數(shù)據(jù)分析與知識發(fā)現(xiàn)》《情報資料工作》《情報理論與實踐》《情報科學》《圖書情報知識》《大學圖書館學報》《檔案學研究》《檔案學通訊》《圖書館雜志》《圖書館論壇》《圖書與情報》《圖書館學研究》《圖書館建設》《情報雜志》《國家圖書館學刊》《現(xiàn)代情報》《信息資源管理學報》,其2016—2020年刊載的成果共21505篇, 刪除序論、專題、會議通知等不符合要求的文獻, 去除重復和無效數(shù)據(jù)后, 獲得20269條論文數(shù)據(jù), 共計發(fā)文學者17 826位, 如表2 所示。由于成長期學者經(jīng)歷萌芽期的磨練, 已有一定的成果積累, 根據(jù)普賴斯定律對核心學者進行初步識別, 其中學者朱慶華發(fā)文量最多, 5 年間發(fā)文113篇, 即ηmax =113, 根據(jù)式(1) 計算得到核心作者發(fā)表論文數(shù)量的閾值N=7.962, 并利用學者單位信息對學者做同名消歧處理, 刪除發(fā)文量小于8篇的學者, 最終得到學者925 位, 發(fā)文共計10555篇。
3.2成長期學者識別
對經(jīng)過初步識別得到的925位學者集合, 利用Zpc指數(shù)進行學者篩選。首先, 針對學者集合中每一位學者統(tǒng)計2016—2020年的逐年發(fā)文量, 獲取每篇論文的作者署名位次與作者總數(shù), 利用上文式(2) 計算學者在每篇論文中的貢獻率; 其次, 從社會科學版2021年中國學術期刊影響因子年報獲取每篇論文所屬期刊的5 年綜合影響因子, 將該年度單篇論文的期刊影響因子乘以作者貢獻率并累加求和得到該學者該年度的Zpc 指數(shù); 最后, 計算所有學者的Zpc指數(shù)5 年平均增長率并排序, 以排名前40 的學者作為本文實證研究對象, 計算結果如表3所示。
在此基礎上, 獲取成長期學者的五年間全部發(fā)文共746 篇作為初始文獻集合, 并從表2 中獲取初始文獻集合共7960篇中文被引文獻的篇名、關鍵詞及摘要, 如表4 所示。
3.3引用動機劃分
為了保證引用動機劃分的準確性, 本研究采用人工標注的方式對中文被引文獻集合進行引用動機的標注。由3 名本領域?qū)<覅⒄找脛訖C分類標準對被引文獻集合引用動機進行獨立標注, 針對有分歧的被引文獻部分進行集中討論, 以保證標注結果的一致性與準確性。在標注過程中, 根據(jù)被引文獻序號索引到原文中對應的引用位置, 根據(jù)該位置所屬的篇章結構功能標注引用動機, 劃分結果及可視化展示分別如表5 和圖2 所示。
從圖2 中的總體情況來看, 首先, 述評引用在所有引用動機中占比最大。這是因為述評引用部分主要用于陳述他人工作, 闡明當前研究現(xiàn)狀和存在問題, 通過新舊研究的對比說明該研究的創(chuàng)新點,因此需要大量引用他人的研究成果。其次, 實驗引用占比較大且自2018年后占比急速下降。學術論文作為圖書情報與檔案管理學科主要研究對象之一,經(jīng)常作為實驗數(shù)據(jù)在實驗部分被引用, 導致實驗引用部分占比較大; 而占比急劇下降其中之一的原因在于圖書情報與檔案管理學科的跨學科屬性使得該學科研究對象的不斷擴充與新生, 如健康信息學、政策文本量化研究等都為圖情學科注入新的活力,且成長期學者正處于學術研究的上升期, 更傾向于關注新興研究對象。方法引用主要用于說明施引文獻所采用的研究方法的來源與理論依據(jù), 分析引用主要作為論據(jù)以支撐研究發(fā)現(xiàn)與結果, 這兩類引用動機在施引文章中具有重要意義, 可以推動本學科理論研究的不斷深入??偨Y引用主要是為了輔助研究作進一步展望, 或?qū)φ掌渌芯糠治瞿壳把芯康木窒扌裕?而此類引用在總體引用情況中相對較少。
3.4 引用動機主題演化
3.4.1主題提取
對不同引用動機下的被引文獻數(shù)據(jù)集合進行訓練, 在Word2vec 模型中采用Skip-gram 算法, 設置詞向量維度為50 維對經(jīng)過分詞后的語料進行訓練, 選擇詞間相似度大于0.7的詞語對原始語料進行擴充, 將構造的新的語料庫輸入BTM 主題模型進行訓練處理。首先, 將模型的主要參數(shù)設置為α =50/K, β =0.01,迭代次數(shù)為5 次, 每個主題所包含的主題詞數(shù)為10 個, 對2016—2020 年不同時間區(qū)間不同引用動機下的語料進行訓練, 得到主題提取結果; 其次, 根據(jù)PMI-Score 確定最優(yōu)主題數(shù)目, 本文以中文百度百科文章為外部語料庫, 利用式(5) 計算PMI-Score。考慮到被引文獻語料大小, 研究設置主題數(shù)目K 的取值范圍為[3,20],取步長為1 進行主題提取, PMI-Score 和主題數(shù)目的關系分別如圖3~圖7 所示。
PMI-Score 值最大, 其對應的主題數(shù)目最優(yōu)。由圖3~圖7 可知, 在2016 年, 背景引用、述評引用、方法引用、實驗引用、分析引用和總結引用的最優(yōu)主題數(shù)目分別為4、4、3、6、3、6 個; 在2017年, 背景引用、述評引用、方法引用、實驗引用、分析引用和總結引用的最優(yōu)主題數(shù)目分別為3、3、6、3、3、3 個; 在2018 年, 背景引用、述評引用、方法引用、實驗引用、分析引用和總結引用的最優(yōu)主題數(shù)目分別為4、6、4、3、4、3 個; 在2019 年,背景引用、述評引用、方法引用、實驗引用、分析引用和總結引用的最優(yōu)主題數(shù)目分別為3、6、3、3、3、8 個; 在2020 年, 背景引用、述評引用、方法引用、實驗引用、分析引用和總結引用的最優(yōu)主題數(shù)目分別為4、4、5、3、4、5 個。最終共提取主題122 個, 基于最優(yōu)主題數(shù)目確定的主題提取結果如表6 所示。
3.4.2主題關聯(lián)挖掘
利用式(6) 計算各主題的主題向量, 并構建相鄰時間段主題關聯(lián)強度矩陣, 其中2016 年和2017年不同動機下的主題關聯(lián)強度分布如表7 所示。通過挖掘主題關聯(lián)強度可以得到主題演化情況, 如圖8 所示。圖8 展示了2016—2020年不同引用動機下的主題演化鏈, 其中節(jié)點代表主題, 連線表示主題關聯(lián), 并以不同的顏色體現(xiàn)不同的引用動機。
3.4.3主題演化路徑分析
為研究主題演化過程的完整路徑, 本文將演化子路徑定義為相鄰時間切片的主題間路徑, 將演化強度定義為演化子路徑前后主題的相似程度。通過計算得到各時間段演化強度較高的演化子路徑, 如表8 所示。由于演化路徑過多且有些并不完整, 因此, 本文在構成完整演化路徑的基礎上, 對比相鄰時間演化主題間的演化強度, 確定演化閾值為0 44,得到主題演化子路徑共170 條。
通過計算子路徑上的相鄰主題間演化強度的總和, 選擇得分較高的演化路徑作為成長期學者引用動機主題演化的主路徑, 如圖9 所示。將路徑上的相鄰主題間演化強度相加, 計算總分最高為2 091301779,該路徑為“2016 總結—圖書館殘疾讀者服務, 2017總結—協(xié)同過濾推薦算法,2018總結—沖動行為與應急管理, 2019總結—時間戳技術, 2020總結—外部知識搜索”?,F(xiàn)以此路徑為例進行分析。2016年,“圖書館殘疾讀者服務” 主題聚焦于提升殘疾人群在圖書館中獲取信息的便利程度與質(zhì)量。成長期學者認為我國尚未形成相對完善的圖書館服務體系, 提出借鑒加拿大在殘疾人方面相對成熟的服務經(jīng)驗。通過對加拿大大學圖書館的殘疾讀者服務資源、服務人員、注冊制度、服務項目等方面的分析, 為我國大學圖書館提供了有益的啟示, 包括提升服務意識、加強服務資源建設、實施專門服務項目等方面的建議。2017年, 在“協(xié)同過濾推薦算法” 主題下, 隨著社交網(wǎng)絡在日常生活中的普及, 成長期學者們認識到利用社交網(wǎng)絡中的好友信任關系可以有助于解決用戶評分數(shù)據(jù)稀疏性問題, 從而提升推薦系統(tǒng)的性能。這一改進為推薦系統(tǒng)研究領域帶來了新的思路與方法。未來的研究將進一步結合用戶之間的社交關系, 以實現(xiàn)更為精準的個性化推薦。隨著社交大數(shù)據(jù)的崛起, 將有更多的信息可供挖掘, 從而為推薦系統(tǒng)提供更為豐富、準確的輸入。這一方向的研究將會為推薦系統(tǒng)的發(fā)展帶來新的動力與機遇, 也將為個性化服務的實現(xiàn)提供有力支持。2018年, 在“沖動行為與應急管理” 主題下, 成長期學者們著重關注了用戶在信息行為中的情感因素。通過引入認知情緒理論和沖動行為的視角, 學者們探究了用戶原創(chuàng)信息分享行為中情感的影響機制。這一研究不僅為了解用戶原創(chuàng)信息分享的影響因素提供了實證依據(jù), 也為政府在應急管理決策方面以及網(wǎng)站運營商的策略制定方面提供了有價值的參考。2019年, “時間戳技術”主題聚焦于時間戳技術在電子檔案管理中的應用。通過分析電子檔案管理的業(yè)務技術需求以及時間戳技術的原理和應用現(xiàn)狀, 學者們探討了時間戳技術在電子檔案管理中的適用性和可行性, 并提出了在該領域應用時間戳的一些建議。時間戳技術作為一種保證信息真實性的關鍵技術, 在電子檔案管理中扮演著重要的角色。通過合理地運用時間戳技術,可以有效地保證電子檔案的真實性和完整性, 為電子檔案的有效管理提供了有力的技術支持。2020年,在“外部知識搜索” 主題下, 成長期學者們關注在開放式創(chuàng)新背景下, 如何進行高效的外部知識搜索以促進創(chuàng)新。學者們深入分析了外部知識搜索過程, 并在此基礎上構建了基于創(chuàng)新網(wǎng)絡的外部知識搜索模型。研究結果表明, 外部知識搜索過程包括外部知識搜尋、知識吸收、知識整合和知識創(chuàng)造4個關鍵階段。此外, 核心企業(yè)和邊緣企業(yè)在外部知識搜索模型上存在一定的差異性。該研究構建的基于創(chuàng)新網(wǎng)絡的外部知識搜索模型為企業(yè)明確外部知識搜索過程、建立和維系網(wǎng)絡關系、開展高效的外部知識搜索活動提供了重要參考和借鑒。這對于開放式創(chuàng)新的研究和實踐具有積極的推動作用。
4結語
為了探究成長期學者的引用動機特點, 本文首先利用Zpc 指標識別成長期學者, 再基于文本篇章結構實現(xiàn)引用動機的分類, 最后結合BTM 主題模型與Word2vec詞向量模型進行主題挖掘, 從主題維度上探索成長期學者引用動機的演化軌跡。通過分析主路徑上圖書館殘疾讀者服務、協(xié)同過濾推薦算法、沖動行為與應急管理、時間戳技術以及外部知識搜索5 個主題的發(fā)展軌跡, 揭示了成長期學者們在2016—2020年的學術關注與研究方向的演變。成長期學者的研究興趣廣泛多樣, 涉及圖書館服務、推薦算法、應急管理、時間戳技術以及外部知識搜索等多個方面。這表明在學術生涯的成長階段, 學者們逐漸形成了自己獨特的學術關注點, 并通過對不同主題的深入研究, 為學科領域的發(fā)展貢獻了多樣化的視角和研究方法。然而, 本文仍存在一定的局限性。由于研究獲取實驗數(shù)據(jù)的局限, 實證過程僅面向中文被引文獻, 且人工標注引用動機的方法的時間成本較高, 這也是后續(xù)研究和改善的方向。此外, 本文通過被引文獻篇關摘信息的主題提取以表征被引主題, 后續(xù)將會考慮基于引用內(nèi)容更深層次地揭示不同引用動機中的主題演化狀態(tài)。