黃 菡,王曉光,2,何 靜,王宏宇
(1.武漢大學(xué)信息管理學(xué)院,武漢 430072;2.武漢大學(xué)大數(shù)據(jù)研究院,武漢 430072;3.武漢理工大學(xué)管理學(xué)院,武漢 430070)
研究主題演化旨在對(duì)時(shí)間維度上研究主題發(fā)展和主題間的交互作用的動(dòng)態(tài)變化進(jìn)行分析,以揭示學(xué)科領(lǐng)域的研究發(fā)展脈絡(luò)和演變規(guī)律等知識(shí)演化特征[1-2],能有效輔助研究人員和相關(guān)從業(yè)人員科進(jìn)行科研決策[3-5]。因此,探究主題演化過(guò)程一直是圖書情報(bào)學(xué)科的研究熱點(diǎn)[6-7]。在當(dāng)前的研究主題演化分析中[3,6],研究人員通常認(rèn)為相鄰時(shí)段主題間相似度大于一定閾值的主題間存在前驅(qū)或后繼關(guān)聯(lián),據(jù)此分析出研究主題存在的產(chǎn)生、消亡、分裂、合并、擴(kuò)張和收縮6 種演化類型[8]。此前,本研究團(tuán)隊(duì)在這種分析思路的指導(dǎo)下,基于共詞網(wǎng)絡(luò)構(gòu)建了包括主題表示、主題識(shí)別、演化路徑探測(cè)以及可視化4個(gè)步驟的研究主題演化分析框架,并開發(fā)了一套主題演化分析工具NEViewer(network evolution viewer)[9]。CiteSpace[10]、VOSviewer[11]、Bibliometrix[12]、SciMAT(science mapping anaylsis software tool)[13]
等科學(xué)制圖工具中涉及研究主題的縱向分析中也采用了類似方法。
在這種分析思路和方法中,如何測(cè)度主題間的相似性是其核心問題?,F(xiàn)有研究主要借助余弦相似度、Jaccard 系數(shù)等算法及其相關(guān)變形算法計(jì)算前后時(shí)段主題間的相似性[8]。雖然已有研究從主題或關(guān)鍵詞間的位態(tài)差異[14]、語(yǔ)義關(guān)聯(lián)[15-16]等方面提出了一些改進(jìn)的研究主題演化分析框架,包括基于機(jī)器學(xué)習(xí)甚至深度學(xué)習(xí)的方法,但在判斷前后主題間的演化關(guān)系時(shí),余弦相似度等傳統(tǒng)相似度方法仍在普遍被使用[3,17-18]。這類計(jì)算方法簡(jiǎn)單、高效,但其僅考慮了前后時(shí)段研究主題包含的相同關(guān)鍵詞或相同的詞間關(guān)系,沒有對(duì)關(guān)鍵詞及其相關(guān)關(guān)系進(jìn)行綜合考量,可能忽視研究主題演化過(guò)程中研究焦點(diǎn)的出現(xiàn)與轉(zhuǎn)移、新的研究對(duì)象或方法范式的涌現(xiàn)與轉(zhuǎn)變等[19-20],進(jìn)而難以反映研究主題演化的真實(shí)全貌,特別是在以社區(qū)結(jié)構(gòu)作為主題表征的共詞網(wǎng)絡(luò)中。
為解決這一局限,本文提出了一種新穎的研究主題演化路徑判別方法——矩陣相似度,并在此基礎(chǔ)上構(gòu)建了一套基于矩陣相似度的研究主題演化分析框架。該框架引入分段線性表示法對(duì)數(shù)據(jù)進(jìn)行時(shí)段劃分以構(gòu)建時(shí)序共詞網(wǎng)絡(luò),在利用社區(qū)發(fā)現(xiàn)算法識(shí)別各時(shí)段共詞網(wǎng)絡(luò)中的主題社區(qū)后,通過(guò)計(jì)算主題新穎度、流行度、核心度、成熟度等多維度特征指標(biāo)來(lái)來(lái)表征研究主題類型,進(jìn)一步通過(guò)矩陣相似度算法識(shí)別主題演化路徑,最終通過(guò)?;鶊D和多維戰(zhàn)略坐標(biāo)圖等形式對(duì)主題演化過(guò)程進(jìn)行可視化。本文以圖書情報(bào)(library and information science,LIS)領(lǐng)域?yàn)槔_展實(shí)證分析,以期為具體學(xué)科領(lǐng)域的科學(xué)發(fā)展過(guò)程梳理和預(yù)測(cè)提供參考。
在本研究團(tuán)隊(duì)此前研究的基礎(chǔ)上[9],本文構(gòu)建了圖1 所示的研究主題演化分析框架。具體而言,先在采集特定領(lǐng)域的科學(xué)文獻(xiàn)數(shù)據(jù)進(jìn)行預(yù)處理后,根據(jù)不同時(shí)段的關(guān)鍵詞數(shù)量分布,利用分段線性表示法對(duì)數(shù)據(jù)進(jìn)行時(shí)段劃分并構(gòu)建時(shí)序共詞網(wǎng)絡(luò);接著,基于社區(qū)發(fā)現(xiàn)算法對(duì)各個(gè)時(shí)段的共詞網(wǎng)絡(luò)進(jìn)行主題識(shí)別;然后,對(duì)各時(shí)段研究主題的新穎度、流行度、核心度、成熟度等多維度特征指標(biāo)進(jìn)行計(jì)算,并基于矩陣相似度完成對(duì)研究主題演化路徑的判別;最后,采用?;鶊D和多維戰(zhàn)略坐標(biāo)圖等手段實(shí)現(xiàn)研究主題演化可視化。相較于前期研究,本文側(cè)重于數(shù)據(jù)時(shí)段劃分、主題演化路徑判別和研究主題多維特征指標(biāo)與可視化3 個(gè)方面。
圖1 基于矩陣相似度的研究主題演化分析框架
圖2 相鄰時(shí)段兩個(gè)主題社區(qū)網(wǎng)絡(luò)實(shí)例
數(shù)據(jù)時(shí)段劃分是對(duì)數(shù)據(jù)進(jìn)行時(shí)序演化分析的基礎(chǔ),依據(jù)專家經(jīng)驗(yàn)進(jìn)行固定時(shí)間劃分是目前使用的主要方法,但該方法具有較大的主觀性,缺少科學(xué)依據(jù)[16]。為此,本文框架在數(shù)據(jù)時(shí)段劃分階段引入了在股票交易點(diǎn)預(yù)測(cè)[21]、音頻時(shí)間序列解析[22]等領(lǐng)域廣泛應(yīng)用的分段線性表示法。
分段線性表示法是指將時(shí)間序列表示成相對(duì)近似的線性銜接。假設(shè)數(shù)量序列P可以表示為P={p1,p2,…,pi,…,pn},分段線性表示法可以將其劃分為包含k條線段的分段線性結(jié)構(gòu)PPLR,其表達(dá)式為
其中,Li(pti-1+1,pti-1+2,…,pti)表 示PPLR的 第i(1 ≤i≤s)個(gè)片段,即將數(shù)據(jù)點(diǎn)pti-1+1,pti-1+2,…,pti近似表示為一條與原趨勢(shì)最為接近的線段,這條線段的起始時(shí)間為ti-1+1,終止時(shí)間為ti。起始時(shí)間即需要識(shí)別的趨勢(shì)轉(zhuǎn)折點(diǎn)。
在已有研究中,分段線性表示運(yùn)算方式可以總結(jié)為自頂向下算法、自底向上算法以及滑動(dòng)窗口算法3 種[23]。在對(duì)關(guān)鍵詞進(jìn)行預(yù)處理后,本文分別使用了這3 種方法對(duì)關(guān)鍵詞數(shù)量時(shí)間序列進(jìn)行擬合,并根據(jù)均值根誤差(root mean square error,RMSE)確定分段方式和分段數(shù)量s。RMSE 的計(jì)算方式為
其中,kt表示原曲線t時(shí)刻的點(diǎn);PLRt表示擬合后曲線上時(shí)刻的點(diǎn);N表示數(shù)據(jù)點(diǎn)的總個(gè)數(shù)。
類似于向量?jī)?nèi)積,F(xiàn)robenius 內(nèi)積也是代數(shù)運(yùn)算中的重要概念,Chehab 等[24]指出Frobenius 內(nèi)積允許定義兩個(gè)給定對(duì)稱矩陣之間的夾角余弦。目前,有些研究者基于Frobenius 內(nèi)積提出了測(cè)度兩個(gè)矩陣間相似度的方法,并將其應(yīng)用到了文本聚類[25-26]、音頻處理[27-28]、圖像分析[29]等領(lǐng)域??紤]到基于共詞網(wǎng)絡(luò)的研究主題演化分析中可以用鄰接矩陣表征主題社區(qū)的網(wǎng)絡(luò)結(jié)構(gòu),本文嘗試將Frobenius 內(nèi)積應(yīng)用到研究主題的相似性測(cè)度中,提出了矩陣相似度算法。
設(shè)Cm×n表示m×n矩陣全體,若A,B∈Cm×n,則其矩陣內(nèi)積,?>定義為
其中,tr(?)表示矩陣主對(duì)角線元素之和。類似于向量的內(nèi)積,矩陣內(nèi)積表示兩個(gè)矩陣對(duì)應(yīng)位置元素的乘積的累加之和。由矩陣內(nèi)積可導(dǎo)出其范數(shù)||?||為
則矩陣相似度r定義為
其中,θ表示兩個(gè)矩陣之間的夾角;r的值域?yàn)閇-1,1]。當(dāng)θ=90°時(shí),r=0,表示兩個(gè)矩陣不相似;當(dāng)θ=0°時(shí),r=1,表示兩個(gè)矩陣相似性最好。
為識(shí)別研究主題演化路徑,本文將相鄰時(shí)段的主題社區(qū)轉(zhuǎn)化為鄰接矩陣后,進(jìn)行矩陣相似度計(jì)算。為構(gòu)建相同維度的矩陣,首先,根據(jù)兩個(gè)相鄰時(shí)段的主題社區(qū)節(jié)點(diǎn)集合構(gòu)建節(jié)點(diǎn)并集。設(shè)兩個(gè)相鄰時(shí)段的主題社區(qū)分別為P={Vp,Ep,Wp},Q={Vq,Eq,Wq},其中,V和E分別為主題社區(qū)的節(jié)點(diǎn)和邊集合,W為邊權(quán)重,在主題社區(qū)中即為關(guān)鍵詞間的共現(xiàn)次數(shù),則節(jié)點(diǎn)并集Vs=Vp∪Vq,其中包含N個(gè)元素,即主題P和Q共包含N個(gè)不同的關(guān)鍵詞。其次,根據(jù)主題社區(qū)的網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)補(bǔ)零的形式將主題P和Q表示為N階鄰接矩陣。設(shè)主題社區(qū)P的鄰接矩陣為Ap,其對(duì)應(yīng)鄰接矩陣第i行j列的元素的值為
鄰接矩陣自身的特性決定了其可以最大限度地保留社區(qū)的網(wǎng)絡(luò)結(jié)構(gòu)。鄰接矩陣不僅直接反映了節(jié)點(diǎn)間的關(guān)聯(lián)(共現(xiàn))情況,還充分考慮到了節(jié)點(diǎn)本身的權(quán)重。在鄰接矩陣中,將第i行或i列的所有的元素相加即可得到節(jié)點(diǎn)vi的度值。
由此,可將主題社區(qū)P和主題社區(qū)Q的鄰接矩陣AP和AQ分別表示為
最后,計(jì)算兩個(gè)相鄰時(shí)段研究主題之間的矩陣相似度r為
由于關(guān)鍵詞的共現(xiàn)次數(shù)不可能為負(fù)數(shù),故r的值域?yàn)閇0,1]。當(dāng)r=1 時(shí),相似度最大;當(dāng)r=0時(shí),相似度最小,其計(jì)算示例如下。
已有研究表明,在主題演化過(guò)程中,不同主題存在著核心、邊緣、成熟、新興等不同類型區(qū)分,明確不同類型主題及其之間的動(dòng)態(tài)交互過(guò)程對(duì)于厘清領(lǐng)域發(fā)展脈絡(luò)及探測(cè)前沿趨勢(shì)具有重要意義[30]。針對(duì)具體研究領(lǐng)域而言,同一時(shí)期的不同研究主題或同一研究主題在不同時(shí)期的發(fā)展程度是不同的,其在學(xué)科領(lǐng)域知識(shí)體系中的所處地位也有所差異。為對(duì)研究主題演化過(guò)程進(jìn)行多位態(tài)細(xì)粒度分析,本文從新穎度、流行度、核心度和成熟度4 個(gè)維度對(duì)主題特征進(jìn)行了分析。
(1)新穎度(NI):該指標(biāo)反映了研究主題發(fā)展的及時(shí)性,即新興程度[31]。隨著研究主題的發(fā)展,其新穎度越來(lái)越低。在本文中,前期主題與后期主題的時(shí)間差代表了研究主題新穎度的變化。當(dāng)時(shí)間差變大時(shí),新穎度變低。NI 計(jì)算公式為
其中,N表示觀測(cè)時(shí)間;F表示研究主題i首次出現(xiàn)的時(shí)間。
(2)流行度(SI):該指標(biāo)測(cè)度了研究主題內(nèi)關(guān)鍵詞的數(shù)量強(qiáng)度,用于衡量該研究主題在當(dāng)前演化階段的熱度,該研究主題的關(guān)鍵詞數(shù)量占當(dāng)前演化階段所有關(guān)鍵詞的比例越大,則強(qiáng)度越大,說(shuō)明研究人員在這個(gè)階段對(duì)該研究主題的研究興趣越大。SI 計(jì)算公式為
其中,表示t時(shí)期屬于主題i的關(guān)鍵詞數(shù)量;PN表示當(dāng)前演化階段總關(guān)鍵詞數(shù)量。
(3)核心度(CI):該指標(biāo)反映了研究主題聚類之間聯(lián)系的強(qiáng)弱,用研究主題的向心度表征[30]。CI 值越大,則研究主題聚類之間的聯(lián)系越緊密,表明該研究主題當(dāng)前階段處于核心地位,受到廣泛關(guān)注,可能是該領(lǐng)域當(dāng)前時(shí)期的研究重點(diǎn)或熱點(diǎn)。CI計(jì)算公式為
其中,Eij表示關(guān)鍵詞wi、wj的共現(xiàn)頻次;φ表示全部研究主題;φ-i表示主題i外的其他研究主題;PN與分別表示當(dāng)前時(shí)段總關(guān)鍵詞數(shù)量和主題i的關(guān)鍵詞數(shù)量。
(4)成熟度(MI):該指標(biāo)測(cè)度研究主題密度,反映了研究主題聚類內(nèi)部聯(lián)系的強(qiáng)弱[30]。MI 值越大,則研究主題聚類內(nèi)部的聯(lián)系越緊密,表明該研究主題越成熟。MI 計(jì)算公式為
其中,Eij表示關(guān)鍵詞的共現(xiàn)頻次;表示當(dāng)前時(shí)段主題i的關(guān)鍵詞數(shù)量。
為直觀地呈現(xiàn)研究主題的多維特征及其演化動(dòng)態(tài),本文在Law 等[32]提出的戰(zhàn)略坐標(biāo)圖的基礎(chǔ)上構(gòu)建了一個(gè)四維戰(zhàn)略坐標(biāo)圖,如圖3 所示,以實(shí)現(xiàn)對(duì)新穎-普通、熱門-潛在、核心-邊緣、成熟-非成熟等不同類型的研究主題的區(qū)分。在圖3 中,橫坐標(biāo)代表主題的核心度,縱坐標(biāo)代表主題的成熟度,圓圈越大表示主題流行度越大,圓圈顏色越深表示主題越為新穎。根據(jù)研究主題在四維戰(zhàn)略坐標(biāo)圖中的位置、強(qiáng)度大小和顏色深淺,可以表征16 種類型的研究主題,如表1 所示。
表1 主題類型劃分標(biāo)準(zhǔn)
圖3 四維戰(zhàn)略坐標(biāo)圖
為了驗(yàn)證本文提出的框架在學(xué)科領(lǐng)域主題演化分析中的可行性和有效性,本文選取了LIS 領(lǐng)域進(jìn)行案例研究。選擇Web of Science(WoS)核心合集收錄的相關(guān)科學(xué)論文作為數(shù)據(jù)源,時(shí)間跨度為2000—2020 年。過(guò)濾其中的重復(fù)數(shù)據(jù)以及未標(biāo)注作者關(guān)鍵詞的數(shù)據(jù)后,共計(jì)獲得論文41036 篇。對(duì)其中的作者關(guān)鍵詞進(jìn)行大小寫轉(zhuǎn)換、單復(fù)數(shù)還原、噪聲過(guò)濾及縮略詞還原等數(shù)據(jù)預(yù)處理后,共獲得有效關(guān)鍵詞224220 個(gè),不重復(fù)的關(guān)鍵詞共計(jì)70800 個(gè)。
為確定數(shù)據(jù)時(shí)段劃分的時(shí)間節(jié)點(diǎn),本文分別使用滑動(dòng)窗口法、自上而下法和自下而上法對(duì)關(guān)鍵詞數(shù)量時(shí)間序列進(jìn)行擬合,將參數(shù)s即分段數(shù)目的取值范圍設(shè)為2~20,分別計(jì)算不同情況下的RMSE值。最終選擇應(yīng)用加權(quán)平均值最小的滑動(dòng)窗口法將數(shù)據(jù)劃分為9 個(gè)時(shí)段數(shù)據(jù),各時(shí)段的時(shí)間跨度及數(shù)據(jù)分布情況如表2 所示。
表2 時(shí)序數(shù)據(jù)分布基本信息
根據(jù)劃分好的時(shí)間段構(gòu)建時(shí)序共詞網(wǎng)絡(luò)并完成了主題識(shí)別,對(duì)前后時(shí)段主題間的矩陣相似度進(jìn)行計(jì)算,將相似度閾值δ設(shè)為0.3,得到LIS 領(lǐng)域的研究主題演化桑基圖,如圖4 所示。
圖4 LIS領(lǐng)域研究主題演化路徑圖(2000—2020年)
可以看出,本文框架能有效呈現(xiàn)學(xué)科領(lǐng)域的研究主題演化現(xiàn)象。一方面,主題數(shù)量增長(zhǎng)和主題標(biāo)簽愈加豐富體現(xiàn)了LIS 領(lǐng)域研究規(guī)模和研究外延的擴(kuò)張;另一方面,LIS 領(lǐng)域研究主題存在的合并、分裂、擴(kuò)張、收縮、產(chǎn)生以及消亡演化現(xiàn)象均在圖4 中有所體現(xiàn),各時(shí)期的核心主題分布也與前期研究較為相符[33]。
為對(duì)LIS 領(lǐng)域中不同研究主題進(jìn)行定位和識(shí)別,本文在完成對(duì)研究主題的新穎度、流行度、核心度和成熟度計(jì)算后,繪制了不同時(shí)段的戰(zhàn)略坐標(biāo)圖。圖5 展示了T3 時(shí)段研究主題聚類的四維戰(zhàn)略坐標(biāo),對(duì)其中的研究主題類型進(jìn)行統(tǒng)計(jì)如表3 所示。
表3 T3時(shí)段(2006—2007年)LIS領(lǐng)域研究主題的類型
圖5 T3時(shí)段(2006—2007年)LIS領(lǐng)域研究主題的四維戰(zhàn)略坐標(biāo)
可以看出,T3 時(shí)段包括9 種類型的研究主題。ethics、information retrieval、information systems 3 個(gè)研究主題位于第I 象限,且圓圈的大小較大顏色相對(duì)較深,即具有較高的新穎度、流行度、核心度和成熟度,表明這些研究主題在T3 時(shí)段最為新穎,發(fā)展良好且廣泛聯(lián)系,容易引起研究人員的興趣,被識(shí)別為L(zhǎng)IS 領(lǐng)域在2006—2007 年的新穎熱門核心成熟主題。第I 象限的decision making 主題圓圈較小但顏色較深,表明其新穎度較高但尚未引起學(xué)者們的廣泛關(guān)注,其與其他主題的聯(lián)系也很緊密,具有較大的發(fā)展?jié)摿?,被識(shí)別為新穎潛在核心成熟主題。第II 象限的研究主題成熟度較高、核心度較弱,即自身可能已經(jīng)形成相對(duì)完整獨(dú)立的子研究領(lǐng)域,但與其他主題間的聯(lián)系較弱。結(jié)合這一象限研究主題的圓圈大小和顏色,進(jìn)一步可將其劃分為包含computer self-efficacy、it business value 等主題的新穎潛在邊緣成熟主題和普通潛在邊緣成熟主題gis。在這一時(shí)段,第III 象限的研究主題均為新穎潛在邊緣非成熟主題。這些主題內(nèi)部結(jié)構(gòu)不緊密,同時(shí)與其他主題間也沒有較為密切的關(guān)聯(lián),可能因?yàn)檫@些主題較為新穎,所以處于研究的初步階段。隨著研究者的不斷關(guān)注及內(nèi)部知識(shí)結(jié)構(gòu)的不斷完善,這些主題可能逐步發(fā)展成熱門核心成熟主題;但也可能因?yàn)轭I(lǐng)域較小或較冷門,無(wú)法吸引更多研究人員和知識(shí)的加入而一直處于邊緣位置甚至消失。第IV 象限的研究主題與其他主題間的聯(lián)系較為緊密,處于研究主題網(wǎng)絡(luò)中的核心位置,但其成熟度較低,內(nèi)部結(jié)構(gòu)較為松散。T3 時(shí)段的第IV 象限的6 個(gè)研究主題可分為3 類,這些研究主題在新穎度和流行度上有所差異。被廣泛關(guān)注但不新穎的研究主題可能在后續(xù)發(fā)展中分化出新的研究子主題,如knowledge management。而新穎的研究主題由于其在研究領(lǐng)域中的核心地位后續(xù)也存在較大的發(fā)展?jié)摿Α?/p>
研究主題的類型即其在該領(lǐng)域知識(shí)體系中的位置可能會(huì)隨著時(shí)間推移發(fā)生變化。以information technology 研究主題為例,其演化路徑顯示,該研究主題僅在T2 和T4 時(shí)段出現(xiàn)(圖6)。圖7 展示了該研究主題在T2 和T4 時(shí)段的戰(zhàn)略坐標(biāo),在T2 時(shí)段,information technology 是新穎熱門核心成熟主題;而在T4 時(shí)段則變?yōu)槠胀撛谶吘壋墒熘黝},除了新穎性的改變,這似乎更揭示了科研人員研究興趣的轉(zhuǎn)移,也從側(cè)面論證了將演化分析圖和戰(zhàn)略坐標(biāo)圖聯(lián)合分析能更為清晰地揭示研究主題的發(fā)展過(guò)程,是對(duì)現(xiàn)有研究主題演化分析和可視化的良好補(bǔ)充。
圖6 研究主題information technology的演化路徑
圖7 研究主題information technology的類型與演化路徑(T2→T4)
為了進(jìn)一步驗(yàn)證本文框架的有效性,將本文方法與傳統(tǒng)基于余弦相似度的方法進(jìn)行比較。在主題表示、主題識(shí)別及可視化方法不變的情況下,通過(guò)傳統(tǒng)節(jié)點(diǎn)間的余弦相似度方法[8]識(shí)別了LIS 領(lǐng)域的演化路徑,不同方法識(shí)別出的演化關(guān)系數(shù)量如表4所示。
表4 矩陣相似度與余弦相似度識(shí)別出的演化關(guān)系數(shù)量對(duì)比
可以看出,矩陣相似度與余弦相似度分別識(shí)別出了LIS 領(lǐng)域20 年中的345 條和365 條演化關(guān)系,其中相同的演化關(guān)系有151 條。計(jì)算相同關(guān)系數(shù)量序列與矩陣相似度識(shí)別出的關(guān)系數(shù)量序列間的皮爾遜相關(guān)系數(shù),為0.559,高于余弦相似度識(shí)別出的關(guān)系數(shù)量序列間的相關(guān)系數(shù)(0.475)。假定多種方法識(shí)別出的演化關(guān)系更為可信,則這一結(jié)果表明,矩陣相似度識(shí)別出的演化關(guān)系可能更為可靠。
同時(shí),余弦相似度識(shí)別出的演化路徑似乎僅包含少量的合并演化現(xiàn)象,即后繼主題對(duì)于前驅(qū)主題的繼承與發(fā)展關(guān)系揭示較少。以“e-government”研究主題為例(圖8 和圖9),在矩陣相似度的識(shí)別結(jié)果中,T3 時(shí)段的“e-government”由T2 時(shí)段的“internet”和“information technology”合并而來(lái),T3 時(shí)段的“information retrieval”“trust”“e-government”3 個(gè)研究主題的部分內(nèi)容又在T4 時(shí)段合并成了“e-government”,反映了電子政務(wù)研究主題在演化發(fā)展過(guò)程中與信息技術(shù)、信息檢索以及信任問題的動(dòng)態(tài)關(guān)聯(lián)。而其在余弦相似度的識(shí)別結(jié)果中,T2~T4 時(shí)段間只有從“internet”到“e-government”再到“e-government”一條演化路徑。這在一定程度上表明了矩陣相似度算法比此前方法更易發(fā)現(xiàn)前后時(shí)段研究主題間的演化關(guān)聯(lián),為新的主題演化路徑識(shí)別,即新的知識(shí)演化和傳播路徑的發(fā)現(xiàn)提供了可能。
圖8 單個(gè)研究主題e-government的演化路徑(矩陣相似度)
圖9 單個(gè)研究主題e-government的演化路徑(余弦相似度)
本文提出了一種新穎的研究主題演化路徑判別方法——矩陣相似度。相較于傳統(tǒng)的相似度算法,矩陣相似度算法借助鄰接矩陣最大限度地保留了主題社區(qū)的網(wǎng)絡(luò)結(jié)構(gòu),綜合考慮了節(jié)點(diǎn)相似和關(guān)系相似兩個(gè)方面的因素,為新的主題演化路徑識(shí)別,即新的知識(shí)演化和傳播路徑的發(fā)現(xiàn)提供了可能,成為基于共詞網(wǎng)絡(luò)的主題演化分析的新視角和新基石。同時(shí),在全文計(jì)量逐漸成為文獻(xiàn)計(jì)量前沿趨勢(shì)的環(huán)境下,矩陣相似度作為一種衡量矩陣間相似程度的基礎(chǔ)性算法,仍有較大的應(yīng)用空間,在測(cè)度以矩陣或網(wǎng)絡(luò)結(jié)構(gòu)為表征的實(shí)體間的相似性時(shí)可能都具有適用性。
此外,在矩陣相似度基礎(chǔ)上,本文構(gòu)建了一套基于矩陣相似度的研究主題演化分析框架。通過(guò)使用分段線性表示法優(yōu)化了現(xiàn)有主題演化分析中的時(shí)段劃分邏輯;進(jìn)一步構(gòu)建了包括新穎度、流行度、核心度和成熟度的研究主題多維特征指標(biāo),并設(shè)計(jì)四維戰(zhàn)略坐標(biāo)圖對(duì)其進(jìn)行可視化,豐富了研究主題演化的分析維度和可視化手段。以LIS 領(lǐng)域?yàn)槔膶?shí)證研究結(jié)果表明,本文方法能揭示學(xué)科領(lǐng)域中的研究主題演化現(xiàn)象與特征,能有效支撐學(xué)科領(lǐng)域內(nèi)的研究主題演化分析。同時(shí),使用矩陣相似度這一新的主題演化路徑判別方法使得本文框架可能更易發(fā)現(xiàn)前后時(shí)段研究主題間的演化關(guān)聯(lián),而將演化分析圖和戰(zhàn)略坐標(biāo)圖聯(lián)合分析能更為清晰地揭示研究主題的發(fā)展過(guò)程,是對(duì)現(xiàn)有研究主題演化分析方法的良好補(bǔ)充,有助于促進(jìn)科學(xué)知識(shí)生成與進(jìn)化內(nèi)在機(jī)制的深入發(fā)掘,為預(yù)測(cè)科學(xué)知識(shí)發(fā)現(xiàn)提供方法論支撐。
本文尚存在一定的局限性。首先,本文算法仍存在優(yōu)化空間,如分段線性表示法還可以朝著分段更少、逼近性更好的方向繼續(xù)優(yōu)化;其次,僅針對(duì)LIS 領(lǐng)域進(jìn)行了實(shí)證研究,該框架在其他領(lǐng)域的適用性有待進(jìn)一步驗(yàn)證;最后,對(duì)于框架的有效性有待進(jìn)一步量化評(píng)判。未來(lái),除進(jìn)一步優(yōu)化算法框架外,本文還將在不同學(xué)科領(lǐng)域開展框架的實(shí)踐應(yīng)用。此外,探索矩陣相似度的適用性,將其應(yīng)用于引文網(wǎng)絡(luò)、合著網(wǎng)絡(luò)等科學(xué)知識(shí)網(wǎng)絡(luò)的分析,或?qū)⑵?與word2vec、BERT(bidirectional encoder representations from transformers)等詞嵌入技術(shù)結(jié)合,進(jìn)一步應(yīng)用于科技情報(bào)領(lǐng)域詞向量網(wǎng)絡(luò)的構(gòu)建和分析也是后續(xù)的探索方向。