陶文倩 潘云濤 王海燕
關(guān)鍵詞:高被引論文;主題演化;動(dòng)態(tài)情境;模式探索;影響力
科技論文是科學(xué)知識(shí)、科學(xué)問(wèn)題的重要載體之一,是科研人員活動(dòng)的一種重要產(chǎn)出成果。高被引論文對(duì)科學(xué)知識(shí)發(fā)展、科研活動(dòng)有顯著影響作用,被學(xué)術(shù)界和同行高度關(guān)注、重視以及認(rèn)可,是科技創(chuàng)新活動(dòng)向前更迭和發(fā)展的源泉與基石。
國(guó)家的科技政策以及科研環(huán)境的變化對(duì)學(xué)術(shù)論文影響力的提升提出了更高的要求。我國(guó)《國(guó)家“十三五”時(shí)期文化發(fā)展改革規(guī)劃綱要》指出“增強(qiáng)中國(guó)國(guó)際話語(yǔ)權(quán)”。學(xué)術(shù)話語(yǔ)權(quán)是國(guó)家話語(yǔ)權(quán)的重要組成部分,是國(guó)家軟實(shí)力和國(guó)家綜合實(shí)力的重要標(biāo)志。2020年12月15日,教育部等三部委聯(lián)合印發(fā)《“雙一流”建設(shè)成效評(píng)價(jià)辦法(試行)》,強(qiáng)調(diào)“要突出原始創(chuàng)新與重大突破,不唯數(shù)量、不唯論文、不唯獎(jiǎng)項(xiàng),實(shí)行代表作評(píng)價(jià),強(qiáng)調(diào)成果的創(chuàng)新質(zhì)量與貢獻(xiàn)”,以及“提高科技創(chuàng)新水平、解決國(guó)家關(guān)鍵技術(shù)‘卡脖子問(wèn)題、推進(jìn)科技評(píng)價(jià)改革的主要舉措”。由此可見(jiàn),提升我國(guó)學(xué)術(shù)論文影響力與學(xué)術(shù)話語(yǔ)權(quán)仍是我國(guó)科技評(píng)價(jià)研究的重要命題之一。
程剛從高被引論文的內(nèi)容方面闡述高被引論文的內(nèi)涵,認(rèn)為高被引論文一般具有一定的理論深度與理論突破,抓住了本學(xué)科研究的關(guān)鍵性及本領(lǐng)域普遍關(guān)心的問(wèn)題,對(duì)工作實(shí)踐有較大的指導(dǎo)意義在理論上有相對(duì)的認(rèn)識(shí)超前性。Tahamtan I等將高被引論文影響因素總結(jié)為三大類:第一,論文層面因素:質(zhì)量、主題新穎性和關(guān)注度、領(lǐng)域和研究主題特征、方法論、文獻(xiàn)類型、研究設(shè)計(jì)、結(jié)果和討論、論文中的數(shù)據(jù)和附錄、標(biāo)題摘要特征、參考文獻(xiàn)特征、文獻(xiàn)長(zhǎng)度、文獻(xiàn)年齡、早期引用情況、文獻(xiàn)的可訪問(wèn)性;第二,期刊層面因素:期刊影響因子、語(yǔ)言、范圍和出版形式;第三,作者層面因素:作者數(shù)量、作者聲譽(yù)、作者學(xué)術(shù)排名、自引、作者國(guó)家(地區(qū))、作者的國(guó)際和國(guó)內(nèi)合作情況、作者生產(chǎn)力、作者性別年齡種族、組織特征和資金等。針對(duì)主題相關(guān)的特征研究中,Zhang X等在4個(gè)不同學(xué)科中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,對(duì)論文被引量使用各種因素建模,發(fā)現(xiàn)各種因素對(duì)于論文被引的影響在不同主題下分布差異顯著。Yan R等則使用主題流行排名、主題多樣性表征主題特征,并使用其預(yù)測(cè)高被引論文得到了較好的效果。
高被引論文的模式與規(guī)律研究一種是從引文現(xiàn)象或者科學(xué)界現(xiàn)象出發(fā),發(fā)現(xiàn)重要的模式。RaanA首次命名了一種現(xiàn)象——睡美人模式,即高被引論文中的延遲承認(rèn)現(xiàn)象。Ye F等將立即承認(rèn)的高被引論文稱為“時(shí)髦女”或者“曇花一現(xiàn)”,并為“時(shí)髦女”和“睡美人”建立了統(tǒng)一的測(cè)度方式。Zeng C等認(rèn)為,“睡美人”和“時(shí)髦女”都是純粹的統(tǒng)計(jì)模式,并沒(méi)有揭示科學(xué)內(nèi)容。因此,他將科學(xué)發(fā)現(xiàn)與科學(xué)計(jì)量學(xué)結(jié)合,發(fā)現(xiàn)了一種新模式,即科學(xué)突破中的“黑天鵝”與“白天鵝”,分別比喻突破性發(fā)現(xiàn)的出版物和高被引論文,當(dāng)“白天鵝”遇到“黑天鵝”會(huì)發(fā)生重要的科學(xué)進(jìn)步。另一種是根據(jù)引文曲線、引文擴(kuò)散、跨學(xué)科特征等對(duì)高被引論文進(jìn)行模式總結(jié)與分類。Avramescu A總結(jié)大量數(shù)據(jù)提出了高、中、低峰值3種經(jīng)典引文曲線、持續(xù)增長(zhǎng)的“天才型”曲線以及“曇花一現(xiàn)”型曲線。韓旭等歸納總結(jié)出9種引文擴(kuò)散演變模式。Chen S等則研究了高被引論文的跨學(xué)科模式,將其分為跨專業(yè)和跨學(xué)科兩類,并研究了此模式在不同學(xué)科的分布規(guī)律。
在對(duì)高被引論文影響力的形成規(guī)律的探索中,已有一部分學(xué)者認(rèn)識(shí)到高被引論文的影響力的形成過(guò)程是一個(gè)動(dòng)態(tài)的、復(fù)雜的、系統(tǒng)的過(guò)程,而不僅僅是某些靜態(tài)的影響因素的作用或者組合作用。Cronin B提出引文的發(fā)生是一種科學(xué)社會(huì)化下的一種動(dòng)態(tài)進(jìn)程。閔超等從引文擴(kuò)散角度強(qiáng)調(diào)了高被引論文是科學(xué)知識(shí)在科學(xué)系統(tǒng)內(nèi)的傳遞與演化。Bu Y等則通過(guò)靜態(tài)合作特征的時(shí)序變化,獲得一個(gè)動(dòng)態(tài)合作特征——論文合作關(guān)系的持續(xù)性與穩(wěn)定性,研究其對(duì)論文影響力的影響,從而幫助研究人員決定在一段時(shí)間內(nèi)合作關(guān)系投入的策略。
綜上所述,在當(dāng)前的背景下,我國(guó)科技論文仍需要進(jìn)一步提升學(xué)術(shù)影響力與學(xué)術(shù)話語(yǔ)權(quán),科技論文評(píng)價(jià)也需要更加科學(xué)合理,同時(shí)要有能力面向不同學(xué)術(shù)評(píng)價(jià)目的、不同學(xué)術(shù)評(píng)價(jià)任務(wù)實(shí)現(xiàn)更精準(zhǔn)的評(píng)價(jià)。這些都需要建立在對(duì)動(dòng)態(tài)、復(fù)雜的高被引論文影響力形成機(jī)制進(jìn)行探索與認(rèn)識(shí)的基礎(chǔ)上,而以往對(duì)高被引論文的特征和影響因素的相關(guān)研究,只是統(tǒng)計(jì)兩個(gè)時(shí)間端點(diǎn)的靜態(tài)數(shù)據(jù)之間的相關(guān)關(guān)系:出版時(shí)的靜態(tài)特征(比如合作者數(shù)量等)與最終影響力結(jié)果,顯然已無(wú)法滿足進(jìn)一步提升學(xué)術(shù)論文影響力和更科學(xué)合理的科技論文評(píng)價(jià)的要求。并且以往的模式研究較分散,往往只是針對(duì)某個(gè)現(xiàn)象或僅從被引頻次本身進(jìn)行研究。
因此,本文選取高被引論文作為研究對(duì)象,選取過(guò)程中“動(dòng)態(tài)情境”的研究視角,基于主題演化維度對(duì)高被引論文影響力的形成模式進(jìn)行探索,促進(jìn)對(duì)單篇高被引論文影響力形成模式與規(guī)律的科學(xué)認(rèn)識(shí),有助于找到以及提前預(yù)判有潛力的高影響力科學(xué)成果,促進(jìn)學(xué)術(shù)論文影響力評(píng)價(jià)理論體系的完善。此外,為我國(guó)科技論文、科技期刊進(jìn)一步提升影響力以及提高學(xué)術(shù)話語(yǔ)權(quán)提供一定的借鑒。
1概念界定
1.1高被引論文影響力的形成
學(xué)術(shù)論文影響力是指論文在傳播過(guò)程中因自身學(xué)術(shù)價(jià)值獲得的關(guān)注度。本文主要通過(guò)引文來(lái)體現(xiàn)論文的影響力。與高被引論文影響力的形成相關(guān)的表述有:高被引論文的產(chǎn)出、高被引論文的生產(chǎn)、高被引論文(影響力)的產(chǎn)生、高被引論文(影響力)的形成、高被引論文影響力的擴(kuò)散。其中,“產(chǎn)出”“生產(chǎn)”的分析對(duì)象側(cè)重于個(gè)人、機(jī)構(gòu)等知識(shí)生產(chǎn)主體,分析環(huán)節(jié)側(cè)重于與該論文有關(guān)的科學(xué)研究活動(dòng)的開始到結(jié)束:從創(chuàng)意、啟動(dòng),到研究、結(jié)束、發(fā)布和評(píng)價(jià)。其中,“產(chǎn)生”“形成”的分析對(duì)象側(cè)重于高被引論文,分析環(huán)節(jié)則相對(duì)寬泛,涉及高被引論文的生產(chǎn)、出版、影響力的累積。“擴(kuò)散”的分析對(duì)象則可能是高被引論文也可能是科學(xué)知識(shí),分析環(huán)節(jié)針對(duì)論文發(fā)表后的引文在科學(xué)系統(tǒng)中的分布與演進(jìn)情況。
本文中“高被引論文影響力的形成”的過(guò)程指的是高被引論文所處的動(dòng)態(tài)情境,涵蓋的是一篇高被引論文發(fā)表前、發(fā)表時(shí)、發(fā)表后影響力累積的全過(guò)程動(dòng)態(tài)情境。比如從主題演化維度分析一篇高被引論文影響力形成過(guò)程時(shí),使用的數(shù)據(jù)信息囊括主題演化在該篇高被引論文發(fā)表前的歷史狀態(tài)、發(fā)表時(shí)的狀態(tài)、發(fā)表后影響力演化階段的狀態(tài)的整個(gè)過(guò)程。
1.2動(dòng)態(tài)情境
1994年,Schilit B等首次提出了“情境”概念,最早指“位置、人和物體周圍的標(biāo)識(shí)與這些物體的變化”。Schmidt A等認(rèn)為,情境描述主體所處的態(tài)勢(shì)和環(huán)境。之后情境的概念被廣泛運(yùn)用于心理學(xué)、計(jì)算機(jī)與信息技術(shù)領(lǐng)域。在計(jì)算機(jī)與信息技術(shù)領(lǐng)域,基于描述性視角,情境是一種信息,是一種可以觀測(cè)和采集的“適當(dāng)”屬性的集合:基于交互性視角,情境則是一種關(guān)聯(lián),情境具有動(dòng)態(tài)性,情境和活動(dòng)的關(guān)聯(lián)會(huì)循環(huán)產(chǎn)生,活動(dòng)引發(fā)了情境的產(chǎn)生,而情境反過(guò)來(lái)能影響活動(dòng)。在心理學(xué)領(lǐng)域,情境是指影響事物發(fā)生或?qū)C(jī)體產(chǎn)生影響的環(huán)境條件。情境可分為靜態(tài)情境和動(dòng)態(tài)情境,動(dòng)態(tài)情境由一系列連續(xù)的靜態(tài)情境構(gòu)成。
高被引論文的影響力的形成過(guò)程是一個(gè)處于動(dòng)態(tài)背景中的復(fù)雜、系統(tǒng)的過(guò)程,不是孤立縹緲的,也不處于靜態(tài)“環(huán)境”之中,而是處于一種動(dòng)態(tài)的“環(huán)境”之中,比如領(lǐng)域內(nèi)主題演化的態(tài)勢(shì)與環(huán)境、團(tuán)隊(duì)合作演化的態(tài)勢(shì)與環(huán)境等。而這種過(guò)程在以往的相關(guān)研究中沒(méi)有明確的概念予以描述、對(duì)應(yīng),并且在以往對(duì)高被引論文的特征和影響因素的相關(guān)研究中是被忽略的。而本文發(fā)現(xiàn)該過(guò)程與“動(dòng)態(tài)情境”概念有許多共通之處:第一,該過(guò)程體現(xiàn)了影響高被引論文影響力形成的環(huán)境條件。第二,高被引論文影響力形成過(guò)程的“動(dòng)態(tài)環(huán)境”也是一種信息的集合,可以通過(guò)觀測(cè)和采集適當(dāng)?shù)募闲畔?lái)描述??茖W(xué)計(jì)量學(xué)領(lǐng)域在這方面有深厚積累,比如描述、刻畫、計(jì)量主題、合作等層面的信息。第三,高被引論文影響力形成過(guò)程的“動(dòng)態(tài)環(huán)境”也是一種關(guān)聯(lián)的集合,比如不同維度的影響因素在時(shí)序上存在關(guān)聯(lián)性。
因此,本研究將“動(dòng)態(tài)情境”的概念引入,在本研究中定義為對(duì)高被引論文影響力形成有關(guān)的一系列各維度影響因素在時(shí)序上的動(dòng)態(tài)集合體。
2數(shù)據(jù)來(lái)源與動(dòng)態(tài)情境構(gòu)建方法
2.1數(shù)據(jù)來(lái)源
本文以基因編輯領(lǐng)域?yàn)槔剿鞲弑灰撐挠绊懥π纬傻哪J郊耙?guī)律。選擇該領(lǐng)域是考慮到該領(lǐng)域是近年來(lái)最受關(guān)注、最活躍的研究領(lǐng)域之一,領(lǐng)域的科學(xué)家屢次上榜Nature年度影響力十大科學(xué)家,產(chǎn)生了許多具有影響力的高被引論文。此外,這是一個(gè)新興學(xué)科領(lǐng)域,知識(shí)更迭快,具有較顯著和復(fù)雜的主題演化的動(dòng)態(tài)情境。本文以Web of Science核心合集作為數(shù)據(jù)來(lái)源,檢索基因編輯領(lǐng)域所有出版物記錄,不限制出版年份。使用的檢索式如下:該檢索式是圍繞核心關(guān)鍵詞“基因編輯”以及主要的核心技術(shù)(Meganuclease、ZFN、TALEN、CRISPR)進(jìn)行編寫的。檢索日期為2022年6月8日,最終得到檢索記錄34992條。采集到論文數(shù)據(jù)后,遴選了基因編輯領(lǐng)域在總被引前1%的高被引論文,得到349篇。
2.2基于主題演化維度的動(dòng)態(tài)情境構(gòu)建方法
科學(xué)知識(shí)圖譜方向的研究已經(jīng)積累了許多如何挖掘主題、如何展示主題分布情況與關(guān)聯(lián)情況等相關(guān)的技術(shù)方法,這類方法適合對(duì)特定領(lǐng)域的主題發(fā)展趨勢(shì)進(jìn)行詳細(xì)解讀,但注重詳細(xì)過(guò)程所展示的信息過(guò)于龐雜、分散,不便于之后對(duì)高被引論文影響力形成進(jìn)行模式的提取。因此,本文認(rèn)為可以將主題演化維度的動(dòng)態(tài)情境根據(jù)粒度由細(xì)到粗分為3個(gè)層次進(jìn)行構(gòu)建。從第一層次到第二層次再到第三層次,是將主題演化情況的特點(diǎn)進(jìn)行更高層次的概括。
第一層次即為主題演化詳細(xì)過(guò)程。在動(dòng)態(tài)情境的第一層次的構(gòu)建中,本文使用基于時(shí)間切片和靜態(tài)主題模型方法相結(jié)合的主題演化可視化方法。第二層次為主題局部演化關(guān)系。在動(dòng)態(tài)情境的第二層次的構(gòu)建中,本文結(jié)合Palla G等定義的復(fù)雜網(wǎng)絡(luò)演化類型以及關(guān)鵬等、金心怡、朱光等、熊文靚等根據(jù)知識(shí)進(jìn)化理論和生命周期理論所概括出的主題演化關(guān)系,確定新生、消亡、繼承、交叉、分裂5種主題局部演化關(guān)系類型及相應(yīng)的判定方法,對(duì)第一層次的主題演化過(guò)程進(jìn)行進(jìn)一步概括。第三層次為主題演化路徑。在動(dòng)態(tài)情境的第三層次的構(gòu)建中,本文提出基于主題局部演化關(guān)系類型分布的主題演化路徑概括方法,對(duì)第二層次的主題演化過(guò)程再進(jìn)行進(jìn)一步概括。
2.2.1主題演化動(dòng)態(tài)情境的第一層次構(gòu)建
本文使用基于時(shí)間切片和靜態(tài)主題模型方法相結(jié)合的主題演化可視化方法,即分時(shí)間窗口進(jìn)行LDA主題挖掘,然后基于主題間的余弦相似度將相鄰日寸間片的主題進(jìn)行關(guān)聯(lián),最后得到可視化結(jié)果。詳細(xì)步驟如下:
1)主題挖掘。結(jié)合領(lǐng)域每年發(fā)文量的變化,適當(dāng)劃分時(shí)間窗口。然后對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行詞向量化,利用Coherence指標(biāo)確定最優(yōu)主題數(shù)目,在每個(gè)時(shí)間窗口下建立LDA主題模型,并輸出主題一詞匯概率分布和文檔一主題概率分布。
2)主題關(guān)聯(lián)。通過(guò)計(jì)算主題間的余弦相似度來(lái)表征相鄰時(shí)間窗的主題相似度,并與設(shè)定的閾值比較,從而關(guān)聯(lián)主題。余弦相似度(Cosin Similari-ty,CosSim)計(jì)算公式如式(1)所示:
在得到相鄰時(shí)間窗下的主題兩兩間的余弦相似度后,將余弦相似度大于所設(shè)定閾值的記為一對(duì)存在前向和后向關(guān)系的主題對(duì),進(jìn)行主題關(guān)聯(lián)。
3)主題演化可視化。使用?;鶊D來(lái)可視化主題的演化過(guò)程。在?;鶊D中,矩形代表主題,兩個(gè)時(shí)間窗口的矩形之間的曲線塊表示演化過(guò)程。
2.2.2主題演化動(dòng)態(tài)情境的第二層次構(gòu)建
主題演化動(dòng)態(tài)情境的第二層次構(gòu)建是將主題局部演化關(guān)系概括為5種類型:新生、消亡、繼承、交叉、分裂,如圖1所示,判定條件如表1所示。在主題關(guān)聯(lián)時(shí),相鄰時(shí)間片下余弦相似度大于所設(shè)定閾值的記為一對(duì)存在前向和后向關(guān)系的主題對(duì)。因此,表1中前向主題是指一對(duì)關(guān)聯(lián)主題對(duì)中前時(shí)間片的主題,后向主題是指一對(duì)關(guān)聯(lián)主題對(duì)中后時(shí)間片的主題。
2.2.3主題演化動(dòng)態(tài)情境的第三層次構(gòu)建
第三層次為主題演化路徑類型,根據(jù)主題演化路徑的跨越時(shí)長(zhǎng)、5種主題演化局部關(guān)系類型的占比,為主題演化路徑打上特征標(biāo)簽,從而實(shí)現(xiàn)分類主題演化路徑類型,如表2所示。具體判別標(biāo)準(zhǔn)可能需要根據(jù)學(xué)科領(lǐng)域的具體情況設(shè)定、調(diào)整。
最終得到3個(gè)層次的動(dòng)態(tài)情境,在后續(xù)的高被引論文影響力形成模式的分析中,第三層次可以幫助模式提取,第一層次、第二層次可以輔助進(jìn)行深入分析。
3研究結(jié)果
3.1動(dòng)態(tài)情境構(gòu)建結(jié)果
1)第一、第二層次動(dòng)態(tài)情境。本文基于文獻(xiàn)增長(zhǎng)理論,結(jié)合文獻(xiàn)數(shù)量分布,將文獻(xiàn)時(shí)間跨度劃分為初步探索期1991-2003年,穩(wěn)定發(fā)展期2004-2013年,快速發(fā)展期2014-2022年,如圖2所示。劃分依據(jù)為每個(gè)階段文獻(xiàn)數(shù)量:1991-2003年文獻(xiàn)數(shù)量較少,表明該階段仍處于探索期;2004-2013年文獻(xiàn)數(shù)量呈現(xiàn)一定的增長(zhǎng)趨勢(shì),表明基因編輯領(lǐng)域處于穩(wěn)定發(fā)展階段;2014-2022年增長(zhǎng)率很大,表明處于快速增長(zhǎng)階段(2022年數(shù)據(jù)只到6月)。在此基礎(chǔ)上,考慮文獻(xiàn)數(shù)量分布的均衡性和主題識(shí)別的語(yǔ)料需求,將以上3個(gè)區(qū)間劃分為8個(gè)時(shí)間窗口:1992-2003年、2004-2007年.2008-2011年、2012-2013年、2014-2015年、2016-2017年、2018-2019年、2020-2022年。
以文獻(xiàn)標(biāo)題和摘要為分析語(yǔ)料,使用NaturalLanguage Toolkit(NLTK工具包)進(jìn)行去除停用詞、詞干化處理、英文分詞等操作。對(duì)每個(gè)時(shí)間窗口進(jìn)行LDA主題提取,并使用Coherence指標(biāo)選取主題數(shù)量。最終得到主題提取結(jié)果,如表3所示。
表3中主題標(biāo)簽是根據(jù)詞向量情況,取高頻詞進(jìn)行組合,結(jié)合領(lǐng)域內(nèi)權(quán)威期刊綜述文獻(xiàn)以及書籍進(jìn)行人工篩選判斷得到。根據(jù)基因編輯領(lǐng)域綜述文獻(xiàn)顯示,基因編輯領(lǐng)域公認(rèn)有三代基因編輯技術(shù),第一代為ZFN(鋅指核酸酶技術(shù)),第二代為TALEN,第三代為CRISPR。其中,2013年CRISPR首次被證明可以高效實(shí)現(xiàn)基因編輯,之后被廣泛應(yīng)用于醫(yī)學(xué)、植物學(xué)等學(xué)科,極大促進(jìn)了基因治療、藥物研究等相關(guān)領(lǐng)域的發(fā)展??梢园l(fā)現(xiàn),提取的主題結(jié)果與上述情況比較符合。
接下來(lái)通過(guò)計(jì)算主題間的余弦相似度來(lái)表征相鄰時(shí)間窗的主題相似度,并與設(shè)定的閾值0.5比較,從而關(guān)聯(lián)主題,并判定領(lǐng)域主題演化類型。最后使用?;鶊D進(jìn)行可視化,得到結(jié)果如圖3所示。
圖3是基因編輯領(lǐng)域主題演化的動(dòng)態(tài)情境構(gòu)建結(jié)果?;蚓庉嬵I(lǐng)域的研究?jī)?nèi)容主要分為三大塊:①號(hào)區(qū)域:各種基礎(chǔ)性理論性的研究問(wèn)題,比如內(nèi)切酶、蛋白質(zhì)、基因組學(xué)等;②號(hào)區(qū)域:基因編輯領(lǐng)域的核心的技術(shù)方法問(wèn)題,比如基因編輯的靶向、定位、斷裂等;③號(hào)區(qū)域:基因編輯研究較為成熟后的對(duì)基因表達(dá)的控制和基因編輯技術(shù)的應(yīng)用(人類疾病的基因治療與藥物)相關(guān)的研究。
然后對(duì)每個(gè)主題局部演化關(guān)系進(jìn)行判定,獲得第二層次動(dòng)態(tài)情境,比如T1-0到T2-0與T2-3即為分裂。
2)第三層次動(dòng)態(tài)情境。在第二層次的主題局部演化關(guān)系判定上,歸納出三大顯著的主題演化路徑類型以及無(wú)主題演化關(guān)系的孤立路徑。主題狀態(tài)分為穩(wěn)定狀態(tài)和非穩(wěn)定狀態(tài),穩(wěn)定狀態(tài)是指不改變領(lǐng)域內(nèi)研究主題格局的演化關(guān)系,表現(xiàn)為繼承關(guān)系。非穩(wěn)定狀態(tài)是指改變領(lǐng)域內(nèi)研究主題格局的演化關(guān)系,包括新生、消亡、分裂、交叉。鑒于所選的時(shí)間窗口比較短,且對(duì)于一般的學(xué)科發(fā)展來(lái)說(shuō)穩(wěn)定發(fā)展才是常態(tài),因此認(rèn)為“繼承”關(guān)系占比50%以上為繼承發(fā)展型,若非穩(wěn)定關(guān)系占比50%以上則不認(rèn)為是繼承發(fā)展型。之后觀察非穩(wěn)定狀態(tài)中哪種占比更大來(lái)描述主題演化路徑特征。根據(jù)以上原則,對(duì)基因編輯領(lǐng)域內(nèi)的主題演化路徑進(jìn)行分類,分類說(shuō)明如表4所示,分類可視化如圖4所示。
3.2模式提取
通過(guò)觀察高被引論文及其引文在第三層次動(dòng)態(tài)情境的分布情況,發(fā)現(xiàn)其呈現(xiàn)出較明顯的集中性。一是高被引論文主題與第三層次動(dòng)態(tài)情境的關(guān)系。經(jīng)統(tǒng)計(jì)發(fā)現(xiàn)可以劃分為以下幾類:高被引論文選題位于長(zhǎng)期繼承發(fā)展型主題演化路徑(較大比例,59.74%)、選題位于長(zhǎng)期交叉分裂混合型主題演化路徑(較小比例,29.94%)、選題位于新生分裂主導(dǎo)型主題演化路徑(較小比例8.60%)、選題位于孤立型主題演化路徑(極低比例,1.72%)。二是高被引論文影響力演化與第三層次動(dòng)態(tài)情境的關(guān)系。觀察的方式是以主題演化的動(dòng)態(tài)情境為底圖,畫出高被引論文后續(xù)引文的動(dòng)態(tài)分布。經(jīng)過(guò)觀察總結(jié),發(fā)現(xiàn)引文的演化主要可以包括兩種表現(xiàn)形式,一種是于本身主題演化路徑內(nèi)繼續(xù)演化,另一種是能夠演化到另外的主題演化路徑,論文演化到另外的主題演化路徑會(huì)需要一定時(shí)間,略滯后于在本身主題演化路徑的影響力擴(kuò)散。
在以上觀察的基礎(chǔ)上,本文結(jié)合高被引論文選題所切合的路徑類型與高被引論文引文分布最多的路徑類型兩個(gè)維度,計(jì)算高被引論文選題所屬主題演化路徑類型與引文所屬主題演化路徑類型共現(xiàn)概率,從而提取模式。共現(xiàn)熱力圖如圖5所示。
根據(jù)共現(xiàn)結(jié)果,總結(jié)出主要模式(模式1)、次要模式(模式2和模式3)和特殊模式(模式4、模式5、模式6),如表5所示。
模式1在高被引論文中分布最為顯著(59%),模式1的特征是選題切合長(zhǎng)期繼承發(fā)展型主題路徑,影響力以繼續(xù)在本長(zhǎng)期繼承發(fā)展型主題路徑演化為主,以下簡(jiǎn)稱為繼承一繼承模式。其次是模式2和模式3。模式2的特征是選題切合長(zhǎng)期交叉一分裂混合型主題路徑,以跨徑影響長(zhǎng)期繼承發(fā)展型主題路徑為主,以下簡(jiǎn)稱混合一繼承模式。模式3的特征是選題切合長(zhǎng)期交叉一分裂混合型主題路徑,影響力以繼續(xù)在本長(zhǎng)期交叉一分裂混合型主題路徑演化為主,以下簡(jiǎn)稱混合一混合模式。
3.3模式分析
1)繼承一繼承模式。繼承一繼承模式代表的是高被引論文的影響力形成的全過(guò)程都處于一個(gè)長(zhǎng)期繼承發(fā)展的動(dòng)態(tài)情境之中,這種模式是高被引論文最為顯著的模式。長(zhǎng)期繼承發(fā)展型的主題路徑在第二層次上表現(xiàn)為跨越時(shí)間段長(zhǎng)且主題局部演化關(guān)系以穩(wěn)定的繼承關(guān)系為主,這說(shuō)明該路徑的研究主題始終保持一個(gè)較穩(wěn)定的核心,延續(xù)性極強(qiáng),研究趨勢(shì)也穩(wěn)定發(fā)展,不斷迭新遞進(jìn)。結(jié)合第一層次的主題情況,發(fā)現(xiàn)基因編輯領(lǐng)域的長(zhǎng)期繼承發(fā)展主題路徑始終圍繞著基因編輯領(lǐng)域的核心技術(shù)方法問(wèn)題,即基因編輯技術(shù)中的靶向、定位、斷裂等問(wèn)題,符合第二層次情況。因此,繼承一繼承模式的內(nèi)涵是高被引論文影響力的形成需要選題圍繞領(lǐng)域的核心問(wèn)題,并且在該問(wèn)題上實(shí)現(xiàn)迭新與遞進(jìn)性突破從而在本路徑內(nèi)可累積大量影響力。
以張鋒的高被引論文為例。張鋒是基因編輯領(lǐng)域頂尖科學(xué)家之一,是美國(guó)麻省理工和哈佛的伯德研究所的生物化學(xué)家、神經(jīng)科學(xué)家,曾獲有諾獎(jiǎng)風(fēng)向標(biāo)之稱的蓋爾德納獎(jiǎng)、阿爾伯尼獎(jiǎng)。張鋒有21篇高被引論文符合繼承一繼承模式,其主題分布如圖6所示。
從圖6中可以看出,張鋒在長(zhǎng)期繼承發(fā)展型主題路徑上連續(xù)、較穩(wěn)定產(chǎn)出了許多高被引論文。從T4-1到T7-2,論文的主題依次為“細(xì)胞內(nèi)基因靶向、位點(diǎn)與TALEN”“基因靶向、定位與CRISPR系統(tǒng)”“CRISPR編輯系統(tǒng)、工具與使用”“使用CRISPR的基因編輯及基因工程”??梢钥闯鏊难芯?jī)?nèi)容都是圍繞基因編輯中的靶向、定位的方法和工具,但又有研究進(jìn)展的遞進(jìn)——從TALEN系統(tǒng)到CRISPR系統(tǒng),再逐漸完善工具方法形成可用于基因工程的工具體系。因此,隨著學(xué)者在該主題路徑的研究的不斷投入,積累專業(yè)知識(shí)與深度,能夠?qū)υ撝黝}做出獨(dú)特的貢獻(xiàn)或者實(shí)現(xiàn)突破,高被引論文產(chǎn)出的連續(xù)性和繼承性就比較明顯,也容易在本路徑內(nèi)獲得高影響力。
2)混合一繼承模式?;旌弦焕^承模式代表的是高被引論文的選題處于一個(gè)長(zhǎng)期交叉一分裂混合狀態(tài)的主題情境,但后續(xù)影響力則主要通過(guò)“變道”,在長(zhǎng)期繼承發(fā)展的主題動(dòng)態(tài)情境之中演化。這種模式是高被引論文的次要模式之一。長(zhǎng)期交叉一分裂混合型主題路徑在第二層次上表現(xiàn)為跨越時(shí)間段長(zhǎng)且主題局部演化關(guān)系持續(xù)以不穩(wěn)定的交叉、分裂關(guān)系為主。這說(shuō)明該路徑的研究主題不斷調(diào)整和變化,不斷吸納新知識(shí)、新方法、新技術(shù)等,并發(fā)掘、衍生新問(wèn)題。結(jié)合第一層次的主題情況,發(fā)現(xiàn)基因編輯領(lǐng)域的長(zhǎng)期交叉一分裂混合型主題路徑的研究主題比較多樣,但主要都是基因編輯領(lǐng)域與病毒學(xué)、分子生物學(xué)、基因組學(xué)等領(lǐng)域交叉的基礎(chǔ)性研究,比如蛋白質(zhì)研究、內(nèi)切酶研究等,符合第二層次情況。此外,該模式還包括影響力演化的“變道”,跨徑影響長(zhǎng)期繼承發(fā)展型研究路徑。說(shuō)明該模式下的高被引論文顯著影響了領(lǐng)域中核心問(wèn)題的迭新與遞進(jìn)性突破,獲得了比本路徑內(nèi)更大的影響力。因此,混合一繼承模式的內(nèi)涵是高被引論文影響力的形成可以通過(guò)“變道”模式實(shí)現(xiàn),選題誕生于長(zhǎng)期吸納新知識(shí)、衍生新問(wèn)題、不斷調(diào)整變化的主題演化情境,具有促進(jìn)領(lǐng)域內(nèi)核心問(wèn)題突破的潛力,從而實(shí)現(xiàn)影響力“變道”,在領(lǐng)域長(zhǎng)期繼承發(fā)展的研究路徑中累積大量影響力。
以Jennifer Doudna的高被引論文為例。JenniferDoudna是基因編輯領(lǐng)域的頂尖科學(xué)家之一,是美國(guó)加州大學(xué)伯克利分校的生物化學(xué)家,她在CRISPR基因編輯領(lǐng)域進(jìn)行了開拓性的工作并做出基礎(chǔ)性貢獻(xiàn),獲得了2020年諾貝爾化學(xué)獎(jiǎng)。Jennifer Doudna有6篇高被引論文符合混合一繼承模式。
如圖7所示.Jennifer Doudna的研究涉獵相對(duì)廣泛,研究主題不斷調(diào)整變化,包括CRISPR機(jī)制作用、蛋白質(zhì)剪接、CRISPR系統(tǒng)菌株與噬菌體、植物基因遺傳新技術(shù)開發(fā)等。同時(shí)可以觀察到,雖然她的研究主題并不固定,但是對(duì)于核心問(wèn)題突破有一定的影響。因此,其高被引論文能夠“變道”,在領(lǐng)域核心研究路徑中積累影響力。本文以JenniferDoudna的一篇諾獎(jiǎng)里程碑論文為例展示“變道”過(guò)程,如圖8所示,圖中顏色代表引文的分布數(shù)量。該論文2012年發(fā)表于混合路徑的T4-3主題,2013年第一次被繼承路徑的83篇施引文獻(xiàn)引用,其中40%施引文獻(xiàn)也是高被引論文,并在下一個(gè)時(shí)間窗口就看到了兩類主題演化路徑的交叉(T6-9),持續(xù)對(duì)長(zhǎng)期繼承發(fā)展主題路徑產(chǎn)生很高的影響,對(duì)于新生分裂主導(dǎo)型主題演化路徑后續(xù)也產(chǎn)生了很高的影響。對(duì)于該論文來(lái)說(shuō),影響力的形成關(guān)鍵在于“變道”的過(guò)程。影響力變道的原動(dòng)力來(lái)自學(xué)者在長(zhǎng)期吸納新知識(shí)、衍生新問(wèn)題、不斷調(diào)整變化的主題演化情境下的研究積淀的“勢(shì)能”,當(dāng)勢(shì)能積累到一定程度,即具備了促進(jìn)領(lǐng)域內(nèi)核心問(wèn)題突破的潛力后,可能再加上一些誘變因素的作用,實(shí)現(xiàn)了影響力的變道,在變道后獲得比本路徑更大的影響力。
3)混合一混合模式?;旌弦换旌夏J酱淼氖歉弑灰撐挠绊懥Φ男纬商幱谝粋€(gè)長(zhǎng)期交叉一分裂混合狀態(tài)的主題演化動(dòng)態(tài)情境。這種模式是高被引論文的次要模式之一?;旌弦换旌夏J降膬?nèi)涵是高被引論文影響力的形成可以處于領(lǐng)域內(nèi)長(zhǎng)期吸納新知識(shí)、衍生新問(wèn)題、不斷調(diào)整變化的主題動(dòng)態(tài)情境中,通過(guò)吸納、分化與升華,在后續(xù)衍生的路徑內(nèi)累積影響力。
以Rodolphe Barrangou為例。Rodolphe Barrangou是北卡羅來(lái)納州立大學(xué)的食品科學(xué)教授,他在細(xì)菌的研究中發(fā)現(xiàn)了CRISPR系統(tǒng)的基本機(jī)制。RodolpheBarrangou有9篇高被引論文屬于混合一混合模式。
如圖9所示,Rodolphe Barrangou高被引論文選題所集中的區(qū)域,是混合路徑上研究主題的調(diào)整變化的關(guān)鍵時(shí)期。首先在T2時(shí)間片,Rodolphe Bar-rangou的1篇高被引論文參與了挖掘新問(wèn)題“T2-1基因組的重復(fù)序列與CRISPR”,之后6篇高被引論文參與了T2-1與“T2-3歸巢核酸內(nèi)切酶、內(nèi)含子與真菌及噬菌體”的交叉融合,再之后在分化出的菌株與基因組學(xué)的主題方向上產(chǎn)生了相關(guān)的高被引論文。因此,其高被引論文選題契合吸納新知識(shí)、衍生新問(wèn)題、不斷調(diào)整變化的主題演化動(dòng)態(tài)情境,之后繼續(xù)在后續(xù)衍生的路徑內(nèi)累積影響力。
4結(jié)語(yǔ)
本文選取高被引論文作為研究對(duì)象,選取過(guò)程中“動(dòng)態(tài)情境”的研究視角,基于主題演化維度對(duì)高被引論文影響力的形成模式進(jìn)行探索。
首先,提出一個(gè)全新的研究視角——?jiǎng)討B(tài)情境,發(fā)現(xiàn)高被引論文的影響力形成過(guò)程與“動(dòng)態(tài)情境”概念有許多共通之處,因此將“動(dòng)態(tài)情境”的概念引入,在本文中定義為對(duì)高被引論文影響力形成有關(guān)的一系列各維度影響因素在時(shí)序上的動(dòng)態(tài)集合體。
其次,本文提出將主題演化維度的動(dòng)態(tài)情境根據(jù)粒度由細(xì)到粗分為3個(gè)層次進(jìn)行構(gòu)建,并詳細(xì)設(shè)計(jì)了各個(gè)層次構(gòu)建的方法。第一層次為主題演化詳細(xì)過(guò)程,使用基于時(shí)間切片和靜態(tài)主題模型方法相結(jié)合的主題演化可視化方法。第二層次為主題局部演化關(guān)系,使用5種主題局部演化關(guān)系類型進(jìn)行概括。第三層次為主題演化路徑,提出基于主題局部演化關(guān)系類型分布的主題演化路徑概括方法。
然后以基因編輯領(lǐng)域?yàn)槔M(jìn)行模式探索。構(gòu)建了該領(lǐng)域3個(gè)層次的動(dòng)態(tài)情境,使用第三層次進(jìn)行模式提取,第一層次、第二層次輔助進(jìn)行模式分析。通過(guò)實(shí)證,提取出一個(gè)主要模式和兩個(gè)次要模式。
1)主要模式:繼承一繼承模式。指論文選題切合長(zhǎng)期繼承發(fā)展型主題路徑,影響力以繼續(xù)在本長(zhǎng)期繼承發(fā)展型主題路徑演化為主。繼承一繼承模式代表的是高被引論文的影響力形成的全過(guò)程都處于一個(gè)長(zhǎng)期繼承發(fā)展的動(dòng)態(tài)情境之中,內(nèi)涵是高被引論文影響力的形成需要選題圍繞領(lǐng)域的核心問(wèn)題,并且在該問(wèn)題上實(shí)現(xiàn)迭新與遞進(jìn)性突破從而在本路徑內(nèi)可累積大量影響力。
2)次要模式:混合一繼承模式。指論文選題切合長(zhǎng)期交叉一分裂混合型主題演化路徑影響力以跨徑影響長(zhǎng)期繼承發(fā)展型主題路徑為主?;旌弦焕^承模式代表的是高被引論文的選題處于一個(gè)長(zhǎng)期交叉一分裂混合狀態(tài)的主題情境,但后續(xù)影響力則主要通過(guò)“變道”,在長(zhǎng)期繼承發(fā)展的主題動(dòng)態(tài)情境之中演化。模式的內(nèi)涵是高被引論文影響力的形成可以通過(guò)“變道”實(shí)現(xiàn),選題誕生于長(zhǎng)期吸納新知識(shí)、衍生新問(wèn)題、不斷調(diào)整變化的主題演化情境,具有促進(jìn)領(lǐng)域內(nèi)核心問(wèn)題突破的潛力,從而實(shí)現(xiàn)影響力“變道”,在領(lǐng)域長(zhǎng)期繼承發(fā)展的主題路徑中累積大量影響力。
3)次要模式:混合一混合模式。指論文選題切合長(zhǎng)期交叉一分裂混合型主題發(fā)展路徑,影響力以繼續(xù)在本長(zhǎng)期交叉一分裂混合型主題路徑演化為主?;旌弦换旌夏J酱淼氖歉弑灰撐挠绊懥Φ男纬商幱谝粋€(gè)長(zhǎng)期交叉一分裂混合狀態(tài)的主題演化動(dòng)態(tài)情境。模式的內(nèi)涵是高被引論文影響力的形成可以處于領(lǐng)域內(nèi)長(zhǎng)期吸納新知識(shí)、衍生新問(wèn)題、不斷調(diào)整變化的主題動(dòng)態(tài)情境中,通過(guò)吸納、分化與升華,從而在后續(xù)衍生的路徑內(nèi)累積影響力。
綜上所述,本文的研究方法與模式探索結(jié)果對(duì)于探索、認(rèn)識(shí)動(dòng)態(tài)的高被引論文影響力形成機(jī)制具有一定的理論價(jià)值與研究意義。同時(shí),本文探索了一種構(gòu)建主題演化動(dòng)態(tài)情境的方法,從第一層次到第二層次再到第三層次,將主題演化情況的特點(diǎn)逐步進(jìn)行更高層次的概括,提供了關(guān)于高被引論文影響力形成過(guò)程的更豐富的信息,為我國(guó)進(jìn)一步提升學(xué)術(shù)論文影響力和改善科技論文評(píng)價(jià)工作提供一定的啟發(fā)。
本研究選擇基因編輯領(lǐng)域開展實(shí)證研究,考慮到它是近年來(lái)最受關(guān)注、最活躍的研究領(lǐng)域之一,且知識(shí)更迭快,具有較顯著和復(fù)雜的主題演化的動(dòng)態(tài)情境。但還應(yīng)考慮到不同學(xué)科的特性,本文所探索的模式不可簡(jiǎn)單地泛化,還需要進(jìn)一步從具有不同特點(diǎn)的學(xué)科領(lǐng)域進(jìn)行對(duì)比觀察。本文僅從主題演化維度探索了高被引論文影響力形成的幾種模式,后續(xù)還可以考慮從團(tuán)隊(duì)合作、學(xué)者個(gè)人成長(zhǎng)等多個(gè)維度進(jìn)行探索,并且考慮結(jié)合引文網(wǎng)絡(luò)進(jìn)行更深入的分析。