王菲菲,王筱涵,徐 碩,蘆婉昭,宋艷輝
(1. 北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,北京 100124;2. 杭州電子科技大學(xué)管理學(xué)院,杭州 310018)
隨著知識(shí)經(jīng)濟(jì)時(shí)代的到來,知識(shí)的價(jià)值被逐漸挖掘出來。同時(shí),知識(shí)流動(dòng)的活力凸顯,在知識(shí)創(chuàng)新和科學(xué)發(fā)展方面發(fā)揮著不可替代的作用[1]。作為技術(shù)創(chuàng)新的基礎(chǔ),知識(shí)創(chuàng)新是經(jīng)濟(jì)增長(zhǎng)與科技進(jìn)步的動(dòng)力源泉。知識(shí)流動(dòng)是知識(shí)創(chuàng)新的必要條件,當(dāng)創(chuàng)新主體中的知識(shí)轉(zhuǎn)移(流動(dòng))到其他創(chuàng)新主體時(shí),通過融合、內(nèi)化、創(chuàng)新等形式又轉(zhuǎn)化為新的知識(shí),從而激發(fā)知識(shí)創(chuàng)新的產(chǎn)生[2]。
潛在知識(shí)流動(dòng),又稱未來知識(shí)流動(dòng),是指目前尚未產(chǎn)生,但在未來很有可能發(fā)生的知識(shí)流動(dòng),可用于揭示學(xué)術(shù)領(lǐng)域內(nèi)未來的知識(shí)創(chuàng)新。通過對(duì)已有的知識(shí)流動(dòng)進(jìn)行分析,推測(cè)出可能發(fā)生的創(chuàng)新方向,即探測(cè)潛在知識(shí)流動(dòng)。潛在知識(shí)流動(dòng)探測(cè)有助于科研工作人員追蹤研究前沿與新興研究趨勢(shì),為研究人員選擇研究方向提供參考。
科學(xué)文獻(xiàn)作為學(xué)術(shù)界最為普遍的知識(shí)載體,在學(xué)術(shù)生態(tài)圈中充當(dāng)著學(xué)術(shù)媒介的角色。文獻(xiàn)間的引證關(guān)系,本質(zhì)上揭示的是知識(shí)流動(dòng)與知識(shí)轉(zhuǎn)移的過程[3]。被引方通過科技文獻(xiàn),將自身的知識(shí)進(jìn)行傳播,同時(shí)所傳播的知識(shí)被引用方接受與吸收。施引方和被引方構(gòu)成知識(shí)流動(dòng)的線段,此線段的載體為科技文獻(xiàn)。這種領(lǐng)域內(nèi)知識(shí)的交叉融合有利于激發(fā)和啟迪開拓思維,促使重大科學(xué)創(chuàng)新的產(chǎn)生[4]。目前,關(guān)于知識(shí)流動(dòng)的研究大多數(shù)是以引文網(wǎng)絡(luò)為基礎(chǔ)展開的,且多集中于直引網(wǎng)絡(luò),在此基礎(chǔ)上抽取到知識(shí)(主題)層面,構(gòu)建知識(shí)流動(dòng)網(wǎng)絡(luò)。實(shí)際上,除了直引這種最為基本的引文關(guān)聯(lián)外,共被引和耦合也是非常具有分析價(jià)值的兩種典型引證關(guān)系。兩者均是通過第三方文獻(xiàn)的直引關(guān)系所建立的間接關(guān)聯(lián),而這種間接關(guān)聯(lián)的存在會(huì)進(jìn)一步強(qiáng)化原有的直引關(guān)聯(lián)強(qiáng)度,這也成為三種引文關(guān)聯(lián)融合的一項(xiàng)充分條件。此外,Morris 等[5]曾用一張盲人摸象圖比喻從單一特征或關(guān)系來揭示領(lǐng)域內(nèi)科學(xué)知識(shí)結(jié)構(gòu)的片面性與局限性,形象地反映出單一分析維度對(duì)科學(xué)知識(shí)領(lǐng)域體系解釋不夠全面的問題,這也成為多重引文關(guān)聯(lián)融合應(yīng)用的一項(xiàng)必要條件。在這種背景下,本文的研究議題應(yīng)運(yùn)而生,旨在對(duì)直引-共被引-耦合三維引文關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行融合的基礎(chǔ)上,映射到主題層面構(gòu)建知識(shí)流動(dòng)網(wǎng)絡(luò),進(jìn)行預(yù)測(cè)分析,挖掘領(lǐng)域內(nèi)潛在知識(shí)流動(dòng),進(jìn)而探測(cè)領(lǐng)域內(nèi)的研究前沿或新興趨勢(shì)。
在文獻(xiàn)中,主題是知識(shí)的直接表征。文獻(xiàn)之間的引證關(guān)系本質(zhì)上揭示的是知識(shí)之間的流動(dòng)與轉(zhuǎn)移,因而在刻畫知識(shí)流動(dòng)網(wǎng)絡(luò)方面具有較為廣泛的應(yīng)用。文獻(xiàn)間傳統(tǒng)的引證關(guān)系主要包括:直引關(guān)系、共被引關(guān)系以及耦合關(guān)系。其中,直引關(guān)系作為最直接的一種引文關(guān)聯(lián)方式,最能刻畫領(lǐng)域內(nèi)的知識(shí)流動(dòng)現(xiàn)狀。Shibata 等[6]研究表明,相比共被引與文獻(xiàn)耦合網(wǎng)絡(luò)而言,對(duì)直引網(wǎng)絡(luò)分析作為引文分析中最為直接的關(guān)聯(lián)挖掘方式,其在探測(cè)領(lǐng)域內(nèi)的研究現(xiàn)狀、挖掘知識(shí)交流情況等諸多方面的應(yīng)用中具有最佳的表現(xiàn)。目前,已有的關(guān)于知識(shí)流動(dòng)的研究多是以引文網(wǎng)絡(luò)為基礎(chǔ),且多集中于直引網(wǎng)絡(luò)[7-8]。直引分析固然重要,但是另兩種引文關(guān)聯(lián)方式同樣也不可忽視,它們亦可作為直引網(wǎng)絡(luò)在領(lǐng)域內(nèi)實(shí)現(xiàn)更全面的關(guān)聯(lián)發(fā)現(xiàn)中的有益補(bǔ)充[9]。三種引文關(guān)聯(lián)在刻畫領(lǐng)域研究現(xiàn)狀各有側(cè)重,單一引文關(guān)聯(lián)不足以涵蓋科學(xué)研究領(lǐng)域的全貌,不能反映真實(shí)的知識(shí)交流情況。相關(guān)研究表明[10],不同學(xué)術(shù)網(wǎng)絡(luò)所揭示的學(xué)科知識(shí)結(jié)構(gòu)及未來演化情況側(cè)重于不同的方面,多重引文關(guān)聯(lián)的融合將更全面地揭示領(lǐng)域內(nèi)科學(xué)知識(shí)結(jié)構(gòu)與研究現(xiàn)狀。
鑒于上述現(xiàn)狀,本研究嘗試對(duì)三種不同的引文方式進(jìn)行適度融合,進(jìn)而實(shí)現(xiàn)更加全面的、真實(shí)的知識(shí)流動(dòng)探測(cè)分析。迄今為止,有些學(xué)者提出了具體的思路來實(shí)現(xiàn)不同的引用關(guān)系的融合,最具代表性的是由Persson[11]提出的研究思路,其研究是基于一種被普遍認(rèn)同的假設(shè):如果兩篇論文引用了相同的文獻(xiàn)或者被相同的文獻(xiàn)所引用,那么兩者原本存在的直引關(guān)聯(lián)將會(huì)被進(jìn)一步增強(qiáng)[12]。Persson[11]的研究表明,在文獻(xiàn)層面將共被引與耦合兩種關(guān)聯(lián)強(qiáng)度進(jìn)行加權(quán)處理,進(jìn)一步作為直引強(qiáng)度的附加,能夠更好地實(shí)現(xiàn)領(lǐng)域內(nèi)知識(shí)關(guān)聯(lián)的探測(cè)。除此之外,在研究對(duì)象的價(jià)值計(jì)量研究中,引文網(wǎng)絡(luò)融合的趨勢(shì)較為明顯,且已經(jīng)在科學(xué)文獻(xiàn)或?qū)@夹g(shù)的價(jià)值測(cè)度中均有一定的應(yīng)用[13]。鑒于此,本文旨在從三維引文關(guān)聯(lián)的文獻(xiàn)層面,進(jìn)一步抽取到主題層面,即構(gòu)建三維引文關(guān)聯(lián)下知識(shí)流動(dòng)網(wǎng)絡(luò)(主題關(guān)聯(lián)網(wǎng)絡(luò)),實(shí)現(xiàn)主題間更加全面的知識(shí)流動(dòng)(引文關(guān)聯(lián))的識(shí)別。
潛在知識(shí)流動(dòng)通過對(duì)現(xiàn)有知識(shí)流動(dòng)網(wǎng)絡(luò)進(jìn)行分析推導(dǎo),預(yù)測(cè)將來有可能發(fā)生的創(chuàng)新知識(shí)。多數(shù)研究通過對(duì)引文網(wǎng)絡(luò)進(jìn)行分析,知識(shí)流動(dòng)方向與引用方向相反。潛在知識(shí)流動(dòng),即運(yùn)用此種分析方式進(jìn)行推測(cè),將現(xiàn)有知識(shí)流動(dòng)網(wǎng)絡(luò)整合,預(yù)測(cè)出新的知識(shí)節(jié)點(diǎn)關(guān)聯(lián)。
引文分析中的引證關(guān)系本質(zhì)上揭示的是知識(shí)之間的流動(dòng)與轉(zhuǎn)移,當(dāng)一個(gè)主題中的知識(shí)轉(zhuǎn)移到其他主題,通過融合、內(nèi)化、創(chuàng)新等形式又轉(zhuǎn)化為新的知識(shí)。從知識(shí)論關(guān)于知識(shí)的發(fā)展模式來看,梁永霞等[14]認(rèn)為文獻(xiàn)引用的過程是在前人知識(shí)的基礎(chǔ)上知識(shí)進(jìn)化的過程,是知識(shí)的選擇、遺傳和變異的過程,也是知識(shí)的生產(chǎn)、傳播和應(yīng)用的過程,其認(rèn)為引文分析的過程就是對(duì)知識(shí)流動(dòng)過程和知識(shí)活動(dòng)系統(tǒng)的分析。Yan[15]根據(jù)JCR(Journal Citation Reports)的主題分類,構(gòu)建了主題間的知識(shí)交流網(wǎng)絡(luò),分析結(jié)果發(fā)現(xiàn),相對(duì)于自然科學(xué),社會(huì)科學(xué)與其他學(xué)科交流較少,具有獨(dú)立性特征;Jo 等[16]通過期刊引文網(wǎng)絡(luò)分析了納米學(xué)與技術(shù)領(lǐng)域的學(xué)科結(jié)構(gòu)及其跨學(xué)科特征,利用中介中心性確定了重要期刊,并分析了重要期刊在學(xué)科間知識(shí)流動(dòng)中的作用;Ma 等[17]利用作者引證網(wǎng)絡(luò)研究不同學(xué)科間的知識(shí)交流模式,并提出兩個(gè)定量指標(biāo)對(duì)知識(shí)交流進(jìn)行測(cè)度。張藝蔓等[18]提出將引文內(nèi)容分析與全文本引文分析相結(jié)合的方法,分析知識(shí)流動(dòng)情況,從而探測(cè)出學(xué)科內(nèi)部與學(xué)科間的知識(shí)流動(dòng)趨勢(shì);宋凱等[19]從文獻(xiàn)引證角度,將知識(shí)轉(zhuǎn)移與知識(shí)轉(zhuǎn)化結(jié)合,利用LDA(latent Dirichlet allocation,LDA) 模型進(jìn)行主題提取,進(jìn)而探討一國(guó)與其他國(guó)家間的知識(shí)流動(dòng)情況;李盈等[20]構(gòu)建醫(yī)學(xué)領(lǐng)域內(nèi)期刊論文間的引文網(wǎng)絡(luò),通過可視化的引文網(wǎng)絡(luò)表征知識(shí)的創(chuàng)造和傳遞過,利用社會(huì)網(wǎng)絡(luò)分析方法揭示醫(yī)學(xué)領(lǐng)域內(nèi)各個(gè)學(xué)科間的知識(shí)流動(dòng)特點(diǎn)和規(guī)律,為醫(yī)學(xué)信息服務(wù)提供參考。
上述文獻(xiàn)均以引文網(wǎng)絡(luò)為基礎(chǔ),來探究知識(shí)流動(dòng)的現(xiàn)狀,或是挖掘知識(shí)流動(dòng)的特點(diǎn)與規(guī)律,少有研究基于知識(shí)流動(dòng)視角來實(shí)現(xiàn)未來知識(shí)流動(dòng)的探究。本文在前期研究中,利用三種引文關(guān)系來預(yù)測(cè)學(xué)者間未來可能的顯性交流,可視為從知識(shí)流動(dòng)視角下探究未來交流情況的一種嘗試[21]。但該研究?jī)H停留在作者層面,并未延展到具體的知識(shí)細(xì)粒度層面。
究其根本,基于引文關(guān)聯(lián)的知識(shí)流動(dòng)發(fā)現(xiàn)是一種知識(shí)關(guān)聯(lián)的發(fā)現(xiàn),鑒于這種知識(shí)關(guān)聯(lián)的有向性,可將其視為一種知識(shí)流動(dòng)的發(fā)現(xiàn)。翟東升等[22]利用專利間的引用關(guān)系,構(gòu)建IPC 引用網(wǎng)絡(luò)表征知識(shí)間的流動(dòng),以此網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行鏈路預(yù)測(cè),進(jìn)而實(shí)現(xiàn)技術(shù)關(guān)聯(lián)發(fā)現(xiàn)。李睿[23]從專利對(duì)論文的引用視角出發(fā),探討了有向知識(shí)關(guān)聯(lián)下的知識(shí)流動(dòng),揭示了基礎(chǔ)研究學(xué)科與技術(shù)發(fā)明領(lǐng)域之間存在的知識(shí)關(guān)聯(lián)。
在上述文獻(xiàn)中,大多數(shù)文獻(xiàn)是以直引網(wǎng)絡(luò)為基礎(chǔ),通過知識(shí)流動(dòng)層面來探究知識(shí)關(guān)聯(lián),預(yù)測(cè)將來可能發(fā)生的知識(shí)流動(dòng),即潛在知識(shí)流動(dòng)探測(cè)。三維引文關(guān)聯(lián)融合主體間的多重引文關(guān)系,可以更全面真實(shí)地揭示領(lǐng)域內(nèi)的知識(shí)交流與知識(shí)轉(zhuǎn)移現(xiàn)狀,有助于更真實(shí)、準(zhǔn)確地對(duì)潛在知識(shí)流動(dòng)進(jìn)行識(shí)別。因此,本文嘗試基于一種新的研究視角,通過三維引文關(guān)聯(lián)融合下的知識(shí)流動(dòng)網(wǎng)絡(luò)鏈路預(yù)測(cè),實(shí)現(xiàn)潛在知識(shí)流動(dòng)的發(fā)現(xiàn)與探究。
傳統(tǒng)的引文關(guān)聯(lián)有三種,包括直引關(guān)聯(lián)、共被引關(guān)聯(lián)和耦合關(guān)聯(lián)。顯而易見,直引關(guān)聯(lián)是通過施引與被引關(guān)系而建立,表現(xiàn)為文獻(xiàn)之間一種更為直接的引用關(guān)聯(lián);而共被引關(guān)聯(lián)與耦合關(guān)聯(lián)是通過第三方文獻(xiàn)所建立的較為間接的引用關(guān)聯(lián)。針對(duì)三維引文關(guān)聯(lián)融合,本文參考Persson[11]提出的加權(quán)直接引用理論(weighted direct citations,WDC),將共被引與耦合兩種間接關(guān)聯(lián)通過加權(quán)變換附加到直引關(guān)聯(lián)上,形成一種新型的融合后的引用強(qiáng)度;同時(shí),進(jìn)一步將共被引和耦合兩種關(guān)聯(lián)結(jié)果進(jìn)行標(biāo)準(zhǔn)化處理再重新加權(quán),得到標(biāo)準(zhǔn)加權(quán)直接引用結(jié)果(normalized weighted direct citation,NWDC)。加權(quán)直接引用理論具體算法原理如圖1 所示。
圖1 加權(quán)直接引用理論算法原理圖
圖1 中的箭頭方向代表文獻(xiàn)施引的方向,即文獻(xiàn)A 施引于文獻(xiàn)B;m表示文獻(xiàn)C 的被引頻次;n表示文獻(xiàn)D 的施引頻次(即總參考文獻(xiàn)數(shù))。在圖1所示的引用關(guān)系中,文獻(xiàn)A 引用文獻(xiàn)B 的WDC 值為3,文獻(xiàn)A 引用文獻(xiàn)B 的NWDC 值為(1+1/m+1/n)。
鑒于主題是文獻(xiàn)中知識(shí)的直接表征,本文用LDA 主題模型提取文獻(xiàn)中的主題以代表知識(shí)。本文在三維引文關(guān)聯(lián)融合的基礎(chǔ)上,從文獻(xiàn)層面進(jìn)一步提取主題層面,進(jìn)而構(gòu)建三維引文關(guān)聯(lián)視角下的知識(shí)流動(dòng)網(wǎng)絡(luò)。
首先,利用LDA 模型對(duì)文獻(xiàn)集合進(jìn)行主題提取。LDA 模型是“詞-主題-文檔”為層次結(jié)構(gòu)的三層貝葉斯概率模型,該模型具有較好的主題識(shí)別能力,能夠從文本語(yǔ)料庫(kù)中抽取潛在的主題,因此,被廣泛應(yīng)用于科學(xué)文獻(xiàn)的主題發(fā)現(xiàn)。為了確定所抽取的主題的數(shù)量,本文利用困惑度(perplexity)來評(píng)估主題模型對(duì)于待處理數(shù)據(jù)的預(yù)估能力,困惑度值越小,其模型預(yù)估能力越強(qiáng),代表LDA 對(duì)于主題聚類能力越強(qiáng)[24],計(jì)算公式為
其中,Dtest是測(cè)試集;wd是文檔d中單詞序列;Nd是文檔d中的單詞數(shù)目。
其次,以三維引文關(guān)聯(lián)網(wǎng)絡(luò)為基礎(chǔ),根據(jù)LDA模型所提取各文獻(xiàn)所對(duì)應(yīng)的主題,將文獻(xiàn)層面的三維引文關(guān)聯(lián)網(wǎng)絡(luò)映射到主題層面,構(gòu)建領(lǐng)域內(nèi)的知識(shí)流動(dòng)網(wǎng)絡(luò)。知識(shí)流動(dòng)網(wǎng)絡(luò)表征領(lǐng)域內(nèi)各研究主題之間流動(dòng)與轉(zhuǎn)移過程,其作為多知識(shí)融合創(chuàng)新的表征,可從中挖掘特定領(lǐng)域內(nèi)的研究前沿或新興趨勢(shì)。知識(shí)流動(dòng)網(wǎng)絡(luò)原理如圖2 所示。
圖2 中,文獻(xiàn)A 與文獻(xiàn)B 存在三維引文關(guān)聯(lián),通過LDA 模型抽取到文獻(xiàn)A 的主題數(shù)量為2,抽取到文獻(xiàn)B 的主題數(shù)量為3。從文獻(xiàn)A 到文獻(xiàn)B 的三維引文關(guān)聯(lián),可映射為6 項(xiàng)知識(shí)流動(dòng)事件,即文獻(xiàn)B 所研究的主題Topic_B1、Topic_B2、Topic_B3 向文獻(xiàn)A所研究的主題Topic_A1、Topic_A2 產(chǎn)生了知識(shí)流動(dòng)。
各文獻(xiàn)內(nèi)主題貢獻(xiàn)度存在差異性,根據(jù)LDA 抽取后所獲得的文檔-主題分布文檔,獲得各文檔下不同主題的概率分布,進(jìn)而實(shí)現(xiàn)文獻(xiàn)中各主題權(quán)重的分配與賦值。值得注意的是,本文中知識(shí)流動(dòng)方向與文獻(xiàn)間的引用方向恰好相反。根據(jù)上述原理,通過文獻(xiàn)間的引用關(guān)系、文獻(xiàn)-主題貢獻(xiàn)分布,將主題對(duì)之間的信息轉(zhuǎn)換為知識(shí)流動(dòng)矩陣,最終轉(zhuǎn)化為具有加權(quán)有向特性的知識(shí)流動(dòng)網(wǎng)絡(luò)。
鏈路預(yù)測(cè)方法是通過分析社會(huì)網(wǎng)絡(luò)的拓?fù)涮卣鳎瑏碓u(píng)估網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)之間產(chǎn)生鏈接的可能性,是目前應(yīng)用最為廣泛的一種預(yù)測(cè)節(jié)點(diǎn)間是未來否存在鏈接的方法[25]。在某種程度上來說,潛在知識(shí)流動(dòng)的預(yù)測(cè)就是主題之間的未來鏈接預(yù)測(cè),本文利用鏈路預(yù)測(cè)方法分析網(wǎng)絡(luò)中的知識(shí)流動(dòng),即未來可能發(fā)生的知識(shí)流動(dòng)以及知識(shí)流動(dòng)的變化,將基于三維引文關(guān)聯(lián)網(wǎng)絡(luò)所映射出的主題知識(shí)流動(dòng)網(wǎng)絡(luò)進(jìn)行特征分析,預(yù)測(cè)將來節(jié)點(diǎn)間產(chǎn)生鏈接的可能性,挖掘未來可能發(fā)生的新的知識(shí)融合趨勢(shì)與未來演化趨勢(shì),進(jìn)而預(yù)測(cè)未來的研究熱點(diǎn)或者研究前沿問題。
潛在知識(shí)流動(dòng)存在于滿足以下兩個(gè)假設(shè)的有向主題對(duì)中[22]:①有向主題對(duì)之間目前不存在知識(shí)流動(dòng);②兩個(gè)主題之間存在產(chǎn)生知識(shí)流動(dòng)(存在鏈接)的可能性。本文采用鏈接預(yù)測(cè)指標(biāo)來衡量有向主題對(duì)之間的發(fā)生鏈接的可能性。
鑒于知識(shí)流動(dòng)網(wǎng)絡(luò)的加權(quán)有向的特性,本文選取了適用于加權(quán)有向網(wǎng)絡(luò)的鏈路預(yù)測(cè)指標(biāo)特征。具體選取指標(biāo)包括加權(quán)有向的共同鄰居(common neighbor,CN)指標(biāo)、加權(quán)有向的admic-adar(AA)指標(biāo)、加權(quán)有向的資源分配(resource allocation,RA)指標(biāo)以及加權(quán)有向的優(yōu)先連接(preferential at‐tachment,PA)指標(biāo)。
(1)加權(quán)有向網(wǎng)絡(luò)的CN 指標(biāo)。無權(quán)無向的共同鄰居指標(biāo)是通過兩個(gè)節(jié)點(diǎn)的共同鄰居數(shù)量來定義兩個(gè)主題的相似性。針對(duì)加權(quán)有向網(wǎng)絡(luò),計(jì)算公式為
其中,Γ(x)表示與主題x相關(guān)聯(lián)的主題集合;wx→z表示為主題x向主題z流動(dòng)的知識(shí)量(鏈接權(quán)重值)。該指標(biāo)越大,說明主題x未來向主題y產(chǎn)生知識(shí)轉(zhuǎn)移的可能性越大。
(2)加權(quán)有向網(wǎng)絡(luò)的AA 指標(biāo)。該指標(biāo)對(duì)共同鄰居節(jié)點(diǎn)賦予權(quán)重,并且共同鄰居節(jié)點(diǎn)的度越小其貢獻(xiàn)越大,
其中,表示鄰居主題節(jié)點(diǎn)z除去自身強(qiáng)度的度,該指標(biāo)越大,說明主題x未來向主題y產(chǎn)生知識(shí)轉(zhuǎn)移的可能性越大。
(3)加權(quán)有向網(wǎng)絡(luò)的RA 指標(biāo)。受資源分配的啟發(fā),知識(shí)流動(dòng)網(wǎng)絡(luò)中不存在知識(shí)流動(dòng)的兩個(gè)主題x與y,因此主題x能夠利用其共同鄰居主題z向主題y傳遞知識(shí)資源,主題z在該過程中承擔(dān)傳輸媒介角色。假設(shè)每個(gè)媒介都有一單位的資源平均分配給其鄰居,那么主題y接受的資源數(shù)就是可定義為兩主題的相似度,即
(4)加權(quán)有向網(wǎng)絡(luò)的PA 指標(biāo)。新鏈接連接到主題x與主題y的概率與兩節(jié)點(diǎn)的度乘積成正比,推廣到加權(quán)有向網(wǎng)路,定義為
其中,表示主題x除去自身強(qiáng)度外的點(diǎn)出度;表示主題y除去自身強(qiáng)度外的點(diǎn)入度。
根據(jù)上述鏈路預(yù)測(cè)指標(biāo)特征進(jìn)行機(jī)器學(xué)習(xí)建模,采用機(jī)器學(xué)習(xí)中的集成學(xué)習(xí)方法隨機(jī)森林(random forest,RF)算法構(gòu)造分類器,融合不同的特征。以某時(shí)間切片下網(wǎng)絡(luò)中的各鏈路預(yù)測(cè)為特征,將其下一時(shí)間切片網(wǎng)絡(luò)中是否存在鏈接(0、1表示)作為分類結(jié)果訓(xùn)練模型,挑選出當(dāng)前尚未產(chǎn)生鏈接的有向節(jié)點(diǎn)對(duì),與訓(xùn)練好的模型相匹配,從而探究出未來可能發(fā)生鏈接的有向知識(shí)節(jié)點(diǎn)對(duì)。
鏈接權(quán)重的預(yù)測(cè)在網(wǎng)絡(luò)預(yù)測(cè)中也占據(jù)十分重要的地位,但是鮮有學(xué)者研究鏈接權(quán)重的預(yù)測(cè)。當(dāng)一對(duì)存在鏈接的有向知識(shí)節(jié)點(diǎn)對(duì),目前鏈接權(quán)重較低,尚未引起學(xué)者廣泛關(guān)注,未來若鏈接權(quán)重增長(zhǎng)較大,則該有向知識(shí)節(jié)點(diǎn)對(duì)可能在未來成為研究熱點(diǎn)或者研究前沿,并得到廣泛地學(xué)術(shù)認(rèn)可。同樣地,以上述4 個(gè)鏈接預(yù)測(cè)指標(biāo)為特征值,采用隨機(jī)森林構(gòu)造回歸器,以某時(shí)間切片下網(wǎng)絡(luò)中的各鏈路預(yù)測(cè)為特征,并將其下一時(shí)間切片網(wǎng)絡(luò)中鏈接的權(quán)重作為目標(biāo)變量y進(jìn)行回歸模型的訓(xùn)練。將網(wǎng)絡(luò)中所有節(jié)點(diǎn)對(duì)的數(shù)據(jù)與訓(xùn)練好的模型相匹配,研究知識(shí)節(jié)點(diǎn)對(duì)之間的鏈接權(quán)重的變化,實(shí)現(xiàn)鏈接邊權(quán)的預(yù)測(cè)。
基因編輯領(lǐng)域誕生于20 世紀(jì)80 年代初,初期研究人員多見于歐美等地,在近十年,特別是CRISPR/Cas9 技術(shù)問世以來,成為世界性熱點(diǎn)學(xué)科領(lǐng)域。CRISPR/Cas9(clustered regulatory interspaced short palindromic repeats/CRISPR-associated protein 9)是最近發(fā)現(xiàn)的一種新型的基因組定點(diǎn)編輯技術(shù)[26],這項(xiàng)劃時(shí)代的靶向基因操作技術(shù),在生物醫(yī)學(xué)、遺傳學(xué)、細(xì)胞學(xué)領(lǐng)域都得到了廣泛關(guān)注。
為了更加全面地獲得整個(gè)基因編輯領(lǐng)域內(nèi)的論文數(shù)據(jù),本研究選定Web of Science 數(shù)據(jù)庫(kù),并將檢索年限定于1980—2017 年,以“gene edit* or crispr”為主題在數(shù)據(jù)庫(kù)中檢索共獲得18717 篇文獻(xiàn),截取article、proceedings paper、review、book review 四類文獻(xiàn)共14943 篇作為本研究的基本數(shù)據(jù)源。數(shù)據(jù)檢索與獲取時(shí)間是2018 年1 月5 日。最終選定被引頻次≥10 的7072 篇文獻(xiàn)為本研究的論文集合。按論文的發(fā)表時(shí)間,對(duì)論文集合時(shí)間切片,分別構(gòu)建發(fā)表年 限 介 于T1 時(shí) 期(1980—2013 年) 與T2 時(shí) 期(2014—2017 年) 的標(biāo)準(zhǔn)加權(quán)直接引用(NWDC)網(wǎng)絡(luò),形成兩個(gè)時(shí)期持續(xù)變化的引文關(guān)聯(lián)融合網(wǎng)絡(luò)。
為了科學(xué)、規(guī)范地提取基因編輯領(lǐng)域內(nèi)的主題,本研究提取上述7072 篇文獻(xiàn)的標(biāo)題、摘要以及關(guān)鍵詞作為實(shí)驗(yàn)數(shù)據(jù)集,并對(duì)該數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理。利用Python 中提供的分詞工具,實(shí)現(xiàn)分詞、去除停用詞、詞干化等自然語(yǔ)言處理規(guī)范化過程,獲得最終的文本語(yǔ)料庫(kù)。利用LDA 主題模型對(duì)提取的語(yǔ)料庫(kù)進(jìn)行主題提取,主題數(shù)-困惑度的曲線如圖3 所示,當(dāng)主題數(shù)為200 時(shí),困惑度指標(biāo)達(dá)到最低值;后續(xù)隨著主題數(shù)的增加,困惑度指標(biāo)逐漸升高。因此,本文選取的主題數(shù)目為200。
圖3 主題數(shù)-困惑度折線圖
在三維引文關(guān)聯(lián)融合分析中,本文采用標(biāo)準(zhǔn)加權(quán)直接引用(NWDC)網(wǎng)絡(luò)來表示文獻(xiàn)層面的多重引文關(guān)聯(lián);根據(jù)第3.2 節(jié)中構(gòu)建知識(shí)流動(dòng)網(wǎng)絡(luò)的方法,通過文獻(xiàn)到主題的映射,將文獻(xiàn)層面的NWDC網(wǎng)絡(luò)映射到主題層面,最終構(gòu)建出三維引文關(guān)聯(lián)融合視角下的知識(shí)流動(dòng)網(wǎng)絡(luò)(圖4)。本文采用Gephi進(jìn)行可視化分析,為了使得可視化效果更佳清晰,設(shè)置閾值為0.5。在圖4 中,節(jié)點(diǎn)的大小與度中心性成正比,在T1 時(shí)期中,topic60、topic7、topic41 等主題具有較高的度中心性;T2 時(shí)期中,topic47、topic60、topic5 主題具有高的度中心性。這些主題在整個(gè)基因編輯領(lǐng)域內(nèi)的知識(shí)流動(dòng)與傳播過程中占據(jù)著核心地位,是重要的研究關(guān)注點(diǎn)。
圖4 三維引文關(guān)聯(lián)融合視角下的知識(shí)流動(dòng)網(wǎng)絡(luò)
由于知識(shí)流動(dòng)網(wǎng)絡(luò)屬于加權(quán)有向網(wǎng)絡(luò),因而選取了點(diǎn)入度與點(diǎn)出度作為衡量主題重要程度的兩個(gè)網(wǎng)絡(luò)指標(biāo)。由表1 可知,T1 時(shí)期,topic60(原核生物基因編輯)、topic7(RNA 編輯)和topic41(人類細(xì)胞基因編輯)是較為重要的研究主題;T2 時(shí)期時(shí),topic47(真核生物基因編輯)、topic5(基因編輯技術(shù)的開發(fā))和topic76(人類疾病治療技術(shù))得到了更多學(xué)者的關(guān)注,成為該領(lǐng)域內(nèi)關(guān)注度最高的研究主題。
T1 時(shí)期,最強(qiáng)的知識(shí)流動(dòng)為:topic60(原核生物基因編輯)→topic7(RNA 編輯)、topic7(RNA編輯)→topic195(植物基因編輯)、topic195(植物基因編輯)→topic8(植物物種研究);T2 時(shí)期,最強(qiáng)的知識(shí)流動(dòng)為:topic60(原核生物基因編輯)→topic5(基因編輯技術(shù)的開發(fā))、topic5(基因編輯技術(shù)的開發(fā)) →topic47(真核生物基因編輯)、topic47(真核生物基因編輯)→topic5(基因編輯技術(shù)的開發(fā))、topic47(真核生物基因編輯)→top‐ic76(人類疾病治療技術(shù))、topic60(原核生物基因編輯)→topic76(人類疾病治療技術(shù))。
表1 知識(shí)流動(dòng)網(wǎng)絡(luò)的點(diǎn)入度與點(diǎn)出度
5.2.1 潛在知識(shí)流動(dòng)發(fā)現(xiàn)預(yù)測(cè)模型訓(xùn)練
對(duì)T1 時(shí)期的知識(shí)流動(dòng)網(wǎng)絡(luò),針對(duì)每一組有向主題對(duì),計(jì)算相對(duì)應(yīng)的鏈路預(yù)測(cè)指標(biāo)作為特征值x;并以T2 時(shí)期所對(duì)應(yīng)的分類數(shù)據(jù)(有連接為1、無連接為0)作為目標(biāo)變量y值。將上述數(shù)據(jù)輸入到多個(gè)分類器中進(jìn)行訓(xùn)練,以期找到最合適的分類器模型。
為了檢驗(yàn)?zāi)P偷臏?zhǔn)確度,本研究采用“留出法”劃分?jǐn)?shù)據(jù)集,隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練集,其余20%數(shù)據(jù)作為測(cè)試集。針對(duì)各分類器模型,本研究經(jīng)過參數(shù)調(diào)整得到了該模型下的最優(yōu)結(jié)果。表2 為訓(xùn)練好的各分類器算法基于測(cè)試數(shù)據(jù)集的評(píng)價(jià)指標(biāo):準(zhǔn)確率(accuracy)、精確率(preci‐sion)、召回率(recall)與F1 分?jǐn)?shù)(F1-score)。
表2 各分類器評(píng)價(jià)結(jié)果
隨機(jī)森林屬于機(jī)器學(xué)習(xí)中的集成學(xué)習(xí)方法,通過集成學(xué)習(xí)的思想把多棵決策樹集成一種算法,并且其輸出的類別是由個(gè)別決策樹輸出的類別的眾數(shù)而定。由表2 可知,隨機(jī)森林算法在各分類器算法中表現(xiàn)最優(yōu),識(shí)別準(zhǔn)確率高達(dá)85%,這也證明了隨機(jī)森林算法的優(yōu)越性。因此,本文采用隨機(jī)森林算法進(jìn)行基因編輯領(lǐng)域中的潛在知識(shí)流動(dòng)發(fā)現(xiàn)。
5.2.2 潛在知識(shí)流動(dòng)權(quán)重預(yù)測(cè)模型訓(xùn)練
針對(duì)知識(shí)流動(dòng)權(quán)重的預(yù)測(cè),本研究利用T1 時(shí)期的知識(shí)流動(dòng)網(wǎng)絡(luò),計(jì)算各組有向主題對(duì)的鏈路預(yù)測(cè)指標(biāo);并且以T2 時(shí)期所對(duì)應(yīng)的鏈接邊的權(quán)重作為目標(biāo)變量y值。同樣地,采取“留出法”,隨機(jī)抽取80%樣本數(shù)據(jù)作為訓(xùn)練集,其余20%為測(cè)試集數(shù)據(jù)。如表3 所示,針對(duì)各個(gè)回歸模型的性能評(píng)估,分別選取了均方誤差(MSE)、平均絕對(duì)誤差(MAE) 以及決定系數(shù)(R2) 評(píng)價(jià)各模型的好壞。通過對(duì)各個(gè)模型評(píng)價(jià)指標(biāo)對(duì)比分析,本研究發(fā)現(xiàn)基于隨機(jī)森林算法構(gòu)建的回歸模型效果最佳,MSE 與MAE 指標(biāo)均為最小值,且R2值最大值,為0.784。因此,本文采用基于隨機(jī)森林算法的回歸模型,對(duì)基因編輯領(lǐng)域內(nèi)的知識(shí)流動(dòng)權(quán)重進(jìn)行預(yù)測(cè)。
表3 各回歸器評(píng)價(jià)結(jié)果
本研究基于上述訓(xùn)練好的模型,以T2 時(shí)期中未存在知識(shí)流動(dòng)的主題對(duì)鏈路預(yù)測(cè)指標(biāo)為輸入特征,進(jìn)行結(jié)果預(yù)測(cè)分析,采用Scikit-learn[27]進(jìn)行分類器學(xué)習(xí)訓(xùn)練,參數(shù)feature_importances_表征了各特征值的重要程度,作為各特征值的參考權(quán)重。本研究將各特征值與對(duì)應(yīng)權(quán)重加權(quán)求和得到綜合指標(biāo),即表征知識(shí)流動(dòng)出現(xiàn)可能性。按照綜合指標(biāo)值的大小倒序排序,最有可能在未來發(fā)生鏈接的Top 10 主題對(duì),如表4 所示。
表4 潛在知識(shí)流動(dòng)發(fā)現(xiàn)
從表4 可知,“免疫細(xì)胞治療→原核生物基因編輯”這項(xiàng)主題對(duì)之間的知識(shí)流動(dòng)在未來最可能發(fā)生;“原核生物基因編輯→癌細(xì)胞基因編輯”“真核生物基因編輯→癌細(xì)胞基因編輯”“基因編輯技術(shù)的開發(fā)→癌細(xì)胞基因編輯”和“原核生物基因編輯→人類蛋白質(zhì)組計(jì)劃”等主題對(duì)之間在未來同樣存在知識(shí)流動(dòng)的可能性。目前,有學(xué)者表示,CAR T 細(xì)胞免疫療法與基因編輯技術(shù)的組合仍是個(gè)前景絕佳的研究領(lǐng)域[28],兩者的結(jié)合可看作精準(zhǔn)醫(yī)療和干細(xì)胞治療行業(yè)的完美結(jié)合[29]。免疫細(xì)胞治療向基因編輯技術(shù)的引入,推動(dòng)基因編輯技術(shù)真正從研發(fā)走向臨床。同時(shí),隨著基因編輯技術(shù)研究熱度的迅速提升與拓展,基因編輯技術(shù)在疾病基因治療中探索發(fā)展,為腫瘤等多種重大疾病的治療提供了新的治療路徑。
針對(duì)潛在知識(shí)流動(dòng)權(quán)重的預(yù)測(cè),本文關(guān)注于目前網(wǎng)絡(luò)中已存在鏈接權(quán)重的預(yù)測(cè)?;谏鲜鲇?xùn)練好的權(quán)重預(yù)測(cè)模型,以T2 時(shí)期中存在知識(shí)流動(dòng)主題對(duì)的鏈路預(yù)測(cè)指標(biāo)為輸入特征,進(jìn)行結(jié)果預(yù)測(cè)分析,并計(jì)算預(yù)測(cè)權(quán)重與T2 時(shí)期實(shí)際權(quán)重的差值,即權(quán)重差值=預(yù)測(cè)權(quán)重-T2 時(shí)期權(quán)重。根據(jù)權(quán)重差值進(jìn)行倒序排列,取權(quán)重差值最大的Top 10 主題對(duì)為未來具有發(fā)展?jié)摿Φ闹黝}組合(表5),取權(quán)重差值最小的Top 10 主題對(duì)作為未來知識(shí)流動(dòng)將會(huì)消失的主題組合(表6)。
表5 未來熱點(diǎn)研究主題(未來研究前沿)
表6 未來消失的知識(shí)流動(dòng)
由表5 可知,第一,“基因編輯技術(shù)的開發(fā)→人類細(xì)胞基因編輯”“真核生物基因編輯→人類細(xì)胞基因編輯”與“原核生物基因編輯→人類細(xì)胞基因編輯”三組涉及“人類細(xì)胞基因編輯”的主題對(duì)融合事件將在未來成為領(lǐng)域內(nèi)的研究熱點(diǎn),傳統(tǒng)的基因編輯技術(shù)將有效助力人類細(xì)胞基因編輯的發(fā)展,尤其是關(guān)于基因編輯技術(shù)在人類疾病方面中的探索發(fā)展[30];第二,“真核生物基因編輯→病原菌研究”與“原核生物基因編輯→HIV 病毒研究”主要涉及基因編輯技術(shù)在病原菌、病毒等生命科學(xué)基礎(chǔ)研究領(lǐng)域的拓展應(yīng)用;第三,“原核生物基因編輯→植物基因編輯”“真核生物基因編輯→RNA 編輯”主要針對(duì)基因編輯技術(shù)本身的發(fā)展,持續(xù)衍生并產(chǎn)品化開發(fā)了更為精準(zhǔn)、高效、低成本的基因編輯技術(shù)。總體而言,未來研究熱點(diǎn)主要集中于基因編輯理論研究本身到其他方面的拓展。
在表6 中,“人類細(xì)胞基因編輯?RNA 和小RNA”“RNA 編輯?植物基因編輯”兩組主題組合之間在T2 時(shí)期具有較強(qiáng)的知識(shí)流動(dòng)鏈接,視為未來最可能消失的主題節(jié)點(diǎn)對(duì)。“基因編輯應(yīng)用醫(yī)學(xué)治療→干細(xì)胞相關(guān)研究”“病毒相關(guān)研究→基因編輯應(yīng)用醫(yī)學(xué)治療”等主題對(duì)之間的知識(shí)流動(dòng)在未來同樣可能會(huì)消失。
由表5 和表6 可知,未來研究者針對(duì)RNA 基因編輯與植物基因編輯的關(guān)注度將會(huì)較少,而更關(guān)注于基因編輯在人類疾病治療與防護(hù)方面的應(yīng)用。
直引-共被引-耦合三維引文關(guān)聯(lián)網(wǎng)絡(luò)所映射出的知識(shí)流動(dòng)網(wǎng)絡(luò),全面揭示目前領(lǐng)域內(nèi)的知識(shí)交流與知識(shí)轉(zhuǎn)移的現(xiàn)狀,但科研工作者與科研管理機(jī)構(gòu)人員對(duì)未來可能出現(xiàn)的知識(shí)流動(dòng)更感興趣。當(dāng)一個(gè)主題內(nèi)的知識(shí)轉(zhuǎn)移到其他主題時(shí),會(huì)內(nèi)化為新的知識(shí),加以創(chuàng)新模式的轉(zhuǎn)換,形成領(lǐng)域內(nèi)的研究熱點(diǎn)或研究前沿。因此,本文提出了一種三維引文關(guān)聯(lián)融合視角下未來潛在知識(shí)流動(dòng)預(yù)測(cè)的框架,主要包括三個(gè)步驟:第一,根據(jù)文獻(xiàn)之間的引用關(guān)系,基于標(biāo)準(zhǔn)加權(quán)直接引用(NWDC)理論并通過LDA 主題模型提取主題,構(gòu)建三維引文關(guān)聯(lián)融合視角下的知識(shí)流動(dòng)網(wǎng)絡(luò);第二,計(jì)算網(wǎng)絡(luò)中主題對(duì)的鏈路預(yù)測(cè)指標(biāo)作為特征值,分別使用隨機(jī)森林分類器與回歸器對(duì)特征值進(jìn)行訓(xùn)練,獲得未來鏈接預(yù)測(cè)模型與未來邊權(quán)預(yù)測(cè)模型;第三,基于基因編輯領(lǐng)域的實(shí)證研究,預(yù)測(cè)該領(lǐng)域內(nèi)未來可能出現(xiàn)的研究熱點(diǎn)或者研究前沿問題,以及未來具有發(fā)展?jié)摿Φ难芯恐黝}。
采用預(yù)測(cè)潛在知識(shí)流動(dòng)的思路,本研究發(fā)現(xiàn)了一些未來可能出現(xiàn)的知識(shí)流動(dòng)。通過專家評(píng)審的定性分析方法,確認(rèn)預(yù)測(cè)結(jié)果中潛在知識(shí)流動(dòng)的發(fā)現(xiàn)與實(shí)際領(lǐng)域情況相吻合[31],可視為基因編輯領(lǐng)域內(nèi)的研究前沿與熱點(diǎn)問題,主要集中在三個(gè)方面:①基因編輯技術(shù)在免疫細(xì)胞、病毒細(xì)胞等生命科學(xué)基礎(chǔ)研究領(lǐng)域的拓展應(yīng)用;②基因編輯技術(shù)本身的發(fā)展,為持續(xù)衍生并開發(fā)出更精準(zhǔn)、高效的基因編輯技術(shù);③基因編輯技術(shù)在疾病基因治療中探索發(fā)展,為腫瘤等多種重大疾病提供新的治療途徑。因此,基因編輯領(lǐng)域內(nèi)的研究方向展現(xiàn)出了“宏觀基礎(chǔ)研究→細(xì)粒度基礎(chǔ)研究→臨床治療”的發(fā)展態(tài)勢(shì),未來一系列知識(shí)流動(dòng)的產(chǎn)生將會(huì)真正推動(dòng)CRISPR 技術(shù)從研發(fā)邁向臨床。
基因編輯領(lǐng)域內(nèi)的實(shí)證研究,進(jìn)一步印證了本文中三維引文關(guān)聯(lián)融合視角下探究潛在知識(shí)流動(dòng)的可行性與有效性。知識(shí)流動(dòng)預(yù)測(cè)中的隨機(jī)森林算法,無論是分類器還是回歸器,兩種預(yù)測(cè)層面都表現(xiàn)出了最優(yōu)的評(píng)價(jià)結(jié)果。分類器用于預(yù)測(cè)目前尚未存在、在未來極有可能出現(xiàn)的知識(shí)流動(dòng);而回歸器主要用于預(yù)測(cè)目前鏈接權(quán)重較低的,尚未引起廣泛關(guān)注、但在未來具有較高鏈接權(quán)重的知識(shí)流動(dòng)。這兩種預(yù)測(cè)層面綜合互補(bǔ),從不同角度探究學(xué)術(shù)領(lǐng)域內(nèi)的潛在知識(shí)流動(dòng)與未來研究的熱點(diǎn)。同時(shí),本研究中也存在遺憾之處,例如,在為L(zhǎng)DA 主題模型中所提取的各主題確認(rèn)主題名稱時(shí),借鑒了專家的評(píng)審意見,這種定性分析方法,無法避免主觀判斷所造成的可操縱性與不確定性。在未來研究中,將努力探索是否存在定量分析方法確認(rèn)各主題名稱,以期采用定性與定量分析相結(jié)合的方法,更精準(zhǔn)有效地實(shí)現(xiàn)主題名稱的定位。