陳 翔,黃 璐,倪興興,劉家潤(rùn),曹曉麗,王長(zhǎng)天
(北京理工大學(xué)管理與經(jīng)濟(jì)學(xué)院,北京 100081)
主題演化路徑識(shí)別是指通過(guò)對(duì)以詞語(yǔ)為表征的研究主題在時(shí)間序列上的發(fā)展、變化趨勢(shì)以及不同主題之間的交互作用進(jìn)行跟蹤分析,揭示技術(shù)領(lǐng)域發(fā)展脈絡(luò)和演化規(guī)律的研究[1]。它可以幫助科研人員追溯具體學(xué)科領(lǐng)域的發(fā)展趨勢(shì),識(shí)別研究熱點(diǎn)和可能的新知識(shí)增長(zhǎng)點(diǎn)[2];也可以為政府和企業(yè)制定學(xué)科和領(lǐng)域發(fā)展規(guī)劃提供重要的情報(bào)支持[3]。通常,主題的演化路徑由“主題的前驅(qū)者—主題—主題的后繼者”構(gòu)成[4],主題間的演化關(guān)系可以用主題間的相似度來(lái)度量,當(dāng)相似度大于一定的閾值則被認(rèn)為存在演化關(guān)系,即不同主題在相鄰時(shí)間段交界處存在新生、成長(zhǎng)、衰減、合并、分裂以及衰亡六種演化方式[5]。
大量學(xué)者從網(wǎng)絡(luò)分析和詞頻分析兩方面入手開(kāi)展主題演化路徑識(shí)別研究,主要包括信息熵、引文分析、突發(fā)詞分析和共詞分析等方法[6]。近年來(lái),基于關(guān)鍵詞網(wǎng)絡(luò)的主題演化路徑識(shí)別方法被學(xué)者廣泛使用[7]。例如,Katsurai等[8]構(gòu)建了動(dòng)態(tài)共詞網(wǎng)絡(luò),對(duì)心理學(xué)領(lǐng)域的主題演化過(guò)程進(jìn)行分析;侯劍華等[9]利用共詞網(wǎng)絡(luò)和聚類分析識(shí)別了我國(guó)哲學(xué)領(lǐng)域研究主題的演化過(guò)程。其中,如何準(zhǔn)確識(shí)別關(guān)鍵主題是該類研究的核心[10],大量學(xué)者已開(kāi)展相關(guān)研究。例如,Song等[11]學(xué)者使用馬爾可夫隨機(jī)場(chǎng)對(duì)關(guān)鍵詞進(jìn)行聚類進(jìn)而識(shí)別主題;王曰芬等[12]使用LDA(Latent Dirichlet Allocation)模型識(shí)別出知識(shí)流領(lǐng)域的主題;張嶷等[13]采用主題詞簇法通過(guò)詞表清洗與合并、模糊語(yǔ)義處理等步驟對(duì)主題詞表進(jìn)行深度處理,解決了主題詞表存在噪音和冗余的問(wèn)題,實(shí)現(xiàn)了清洗、鞏固主題詞表的目的;有助于生成更有意義的核心聚類[14]。此外,社區(qū)發(fā)現(xiàn)算法逐漸興起,展現(xiàn)出比傳統(tǒng)聚類方法更大的優(yōu)勢(shì)[15],例如,Blondel等[16]提出的Fast Unfolding算法可在不事先確定主題數(shù)的情況下更準(zhǔn)確地進(jìn)行主題識(shí)別。
然而,當(dāng)前研究還存在一些不足。首先,這些方法均假定關(guān)鍵詞之間相互獨(dú)立,未充分考慮關(guān)鍵詞之間的語(yǔ)義關(guān)聯(lián)關(guān)系[17],影響了關(guān)鍵詞相似度分析的準(zhǔn)確性。例如,關(guān)系密切的關(guān)鍵詞對(duì)因沒(méi)有共同出現(xiàn)在同一篇文獻(xiàn)而被忽略。其次,傳統(tǒng)主題演化路徑識(shí)別研究往往憑經(jīng)驗(yàn)或按照簡(jiǎn)單平均的方法對(duì)時(shí)間段進(jìn)行劃分,缺少科學(xué)依據(jù)。例如,時(shí)間段劃分過(guò)長(zhǎng),大量主題在設(shè)定時(shí)間段內(nèi)已完成演化;時(shí)間段劃分過(guò)短,一個(gè)主題會(huì)被重復(fù)劃分在多個(gè)時(shí)間段,導(dǎo)致主題割裂[9],均無(wú)法科學(xué)呈現(xiàn)主題間的演化關(guān)系。
為有效挖掘關(guān)鍵詞之間的語(yǔ)義關(guān)系,準(zhǔn)確識(shí)別領(lǐng)域中的熱點(diǎn)主題及發(fā)展趨勢(shì),本文提出了基于動(dòng)態(tài)網(wǎng)絡(luò)分析的主題演化路徑識(shí)別方法。首先,引入分段線性表示法(piecewiselinear representation,PLR)對(duì)時(shí)間段進(jìn)行劃分,并利用Word2Vec模型[18]構(gòu)建動(dòng)態(tài)關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)來(lái)體現(xiàn)關(guān)鍵詞之間的語(yǔ)義聯(lián)系;其次,利用Fast Unfolding社區(qū)發(fā)現(xiàn)算法識(shí)別動(dòng)態(tài)網(wǎng)絡(luò)中的社區(qū),并基于Z-Score方法識(shí)別所有社區(qū)的主題標(biāo)簽以代表某領(lǐng)域的研究主題;最后,通過(guò)度量相鄰時(shí)間段間的主題相似性來(lái)表現(xiàn)主題間的演化關(guān)系,進(jìn)而識(shí)別主題的演化路徑。本文以信息科學(xué)領(lǐng)域?yàn)槔_(kāi)展實(shí)證分析,并對(duì)方法的有效性進(jìn)行了驗(yàn)證。
本文的方法框架如圖1所示,包括動(dòng)態(tài)關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)構(gòu)建、基于社區(qū)發(fā)現(xiàn)的主題識(shí)別、主題演化路徑識(shí)別及可視化三大部分。
2.1.1 數(shù)據(jù)收集與預(yù)處理
本方法首先從WoS(Web of Science)中下載特定領(lǐng)域的文獻(xiàn)數(shù)據(jù),并利用文本挖掘軟件Vantage‐Point①VantagePoint是面向文獻(xiàn)計(jì)量數(shù)據(jù)(如科技論文、專利以及學(xué)術(shù)項(xiàng)目申請(qǐng)書(shū)等)的文本挖掘與可視化軟件。更多詳情請(qǐng)?jiān)L問(wèn)官網(wǎng):https://www.thevantagepoint.com/抽取關(guān)鍵信息,包括關(guān)鍵詞、標(biāo)題、摘要以及年份;之后,對(duì)抽取的數(shù)據(jù)進(jìn)行預(yù)處理,主要包括:去除標(biāo)題及摘要中的亂碼、去除帶有亂碼的關(guān)鍵詞以及關(guān)鍵詞中的XML標(biāo)簽等[5]。
2.1.2 基于分段線性表示法的時(shí)間段劃分
本部分的目的是基于分段線性表示法對(duì)關(guān)鍵詞序列進(jìn)行時(shí)間段劃分。首先,對(duì)關(guān)鍵詞在等時(shí)間區(qū)間(月、季、年等)內(nèi)的數(shù)量變化進(jìn)行統(tǒng)計(jì),得到一條有效的關(guān)鍵詞數(shù)量序列,記為K={k1,k2,…,kt,…,kl},如圖2a所示,其中,kt表示某研究領(lǐng)域在第t(1≤t≤l)時(shí)間區(qū)間內(nèi)的關(guān)鍵詞數(shù)量。在統(tǒng)計(jì)單位時(shí)間內(nèi)的關(guān)鍵詞數(shù)量時(shí),為了清除噪聲并使語(yǔ)義相同的關(guān)鍵詞不被重復(fù)統(tǒng)計(jì),本文利用主題詞簇法[4]對(duì)關(guān)鍵詞進(jìn)行清洗(包括基于專家知識(shí)整合同義詞、合并詞干相同的詞匯等)。
圖1 基于動(dòng)態(tài)網(wǎng)絡(luò)分析的主題演化識(shí)別方法框架
其次,利用分段線性表示法將得到的關(guān)鍵詞數(shù)量序列K擬合為首尾銜接的分段線性結(jié)構(gòu)KPLR,如圖2b中的折線所示。
這里,KPLR表示關(guān)鍵詞數(shù)量統(tǒng)計(jì)序列K的分段線性結(jié)構(gòu),其表達(dá)式為
其中,Li(kti-1+1,kti-1+2,…,kti)表示KPLR中的第i(1≤i≤s)個(gè)線段,也是根據(jù)數(shù)據(jù)點(diǎn)kti-1+1,kti-1+2,…,kti擬合的線段(即趨勢(shì)段),這條線段的起始時(shí)間為ti-1+1,終止時(shí)間為ti。
圖2b中,折線的轉(zhuǎn)折點(diǎn)便是本文要識(shí)別的趨勢(shì)轉(zhuǎn)折點(diǎn),用TTP(trend turning points)表示,表達(dá)式為
圖2 分段線性表示法示意圖
其中,t1表示第一個(gè)線段結(jié)束時(shí)的時(shí)間節(jié)點(diǎn);t2表示第二個(gè)線段結(jié)束時(shí)的時(shí)間節(jié)點(diǎn)。這些時(shí)間節(jié)點(diǎn)標(biāo)志著主題演化趨勢(shì)開(kāi)始發(fā)生轉(zhuǎn)折,依據(jù)這些趨勢(shì)轉(zhuǎn)折點(diǎn)可以劃分時(shí)間段,
其中,T1表示起始時(shí)間點(diǎn)為1、終止時(shí)間點(diǎn)為t1的時(shí)間段;T2表示起始時(shí)間點(diǎn)為t1+1、終止時(shí)間點(diǎn)為t2的時(shí)間段;以此類推直到最后一個(gè)趨勢(shì)轉(zhuǎn)折點(diǎn)被劃入時(shí)間段內(nèi)。
在分段線性表示法中,表示分段數(shù)量的參數(shù)s的設(shè)置非常關(guān)鍵,s越小會(huì)忽略越多的局部波動(dòng)數(shù)據(jù),導(dǎo)致較大的整體擬合誤差;而s越大保留的局部波動(dòng)數(shù)據(jù)越多,引入的噪聲也越多。本文參考了陳虹樞[19]的參數(shù)設(shè)置方法來(lái)平衡擬合的可靠性與趨勢(shì)的可捕捉性。
首先,確定s的取值范圍,求出每個(gè)s對(duì)應(yīng)的均值根誤差(root mean square error,RMSE)并存入均值根誤差序列。在該序列中,隨著s值的增大,均值根誤差值不斷減小。RMSE是用來(lái)衡量觀測(cè)值與真值之間偏差的指標(biāo),可以更加直觀地表現(xiàn)觀測(cè)值對(duì)于真實(shí)值的擬合效果,本文用該指標(biāo)來(lái)衡量分段線性擬合后的曲線與原曲線之間的誤差,其計(jì)算公式為
其中,kt表示原曲線上t時(shí)刻的點(diǎn);PLRt表示擬合后曲線上t時(shí)刻的點(diǎn);N表示數(shù)據(jù)點(diǎn)的總個(gè)數(shù)。
其次,利用求導(dǎo)的方式,選取在RMSE不斷減小過(guò)程中顯著放緩的那一點(diǎn),以其對(duì)應(yīng)的s作為最優(yōu)結(jié)果,即求出RMSE序列近似導(dǎo)數(shù)最大值所對(duì)應(yīng)的s值。本文用sAD表示最優(yōu)分段數(shù),其計(jì)算公式為
2.1.3 基于Word2Vec的詞向量獲取
劃分好時(shí)間段后,本文先對(duì)各時(shí)間段內(nèi)的摘要和標(biāo)題文本進(jìn)行分句和分詞處理,然后將分詞后的語(yǔ)句序列作為語(yǔ)料庫(kù)輸入到待訓(xùn)練的Word2Vec模型中,并選用skip-gram模型對(duì)語(yǔ)料進(jìn)行訓(xùn)練,最后,將得到的關(guān)鍵詞通過(guò)訓(xùn)練好的Word2Vec模型映射為詞向量。由于該詞向量是基于關(guān)鍵詞與上下文之間的關(guān)系得出的,既包含每個(gè)詞從上位詞繼承來(lái)的公有屬性,也包含自身的私有屬性,可以體現(xiàn)關(guān)鍵詞的多重語(yǔ)義信息[20]。Word2Vec模型訓(xùn)練過(guò)程如圖3所示。
圖3 Word2Vec模型訓(xùn)練示意圖
2.1.4 構(gòu)建動(dòng)態(tài)關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)
本部分主要是構(gòu)建動(dòng)態(tài)關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)。首先,基于關(guān)鍵詞的時(shí)間信息將抽取得到的關(guān)鍵詞分到劃分好的時(shí)間段內(nèi),并利用主題詞簇法對(duì)每個(gè)時(shí)間段內(nèi)的關(guān)鍵詞進(jìn)行清洗。
接下來(lái),依次在各時(shí)間段內(nèi),利用清洗后的關(guān)鍵詞與其對(duì)應(yīng)的詞向量構(gòu)建關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò),構(gòu)建過(guò)程闡述如下:
(1)定義某領(lǐng)域在時(shí)間段Ti內(nèi)清洗后的關(guān)鍵詞集為表示屬于關(guān)鍵詞集WTi的第i個(gè)關(guān)鍵詞。
最后,所有時(shí)間段內(nèi)的關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)組成了本文的動(dòng)態(tài)語(yǔ)義網(wǎng)絡(luò)G,計(jì)算公式為
其中,GTi為時(shí)間段Ti內(nèi)的關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)。
本部分將識(shí)別動(dòng)態(tài)關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)中的主題。首先,利用Fast Unfolding算法識(shí)別語(yǔ)義網(wǎng)絡(luò)中的社區(qū)。Fast Unfolding是基于模塊度最大化的社區(qū)發(fā)現(xiàn)算法,模塊度是衡量社區(qū)劃分效果的指標(biāo),可以度量社區(qū)內(nèi)部連接的緊密度以及社區(qū)之間連接的稀疏度,模塊度越大,社區(qū)劃分的效果越好[21]。本文用R表示模塊度,計(jì)算公式為
其中,A表示網(wǎng)絡(luò)中所有連邊的權(quán)重之和;Aij表示節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的連邊權(quán)重;Ni為節(jié)點(diǎn)i所有連邊的權(quán)重之和,Nj為節(jié)點(diǎn)j所有連邊的權(quán)重之和;δ(Mi,Mj)用來(lái)表示節(jié)點(diǎn)i和節(jié)點(diǎn)j是否在同一社區(qū),如果在同一社區(qū),取值為1,否則,取值為0。
為了避免弱關(guān)聯(lián)和負(fù)關(guān)聯(lián)(向量余弦值為負(fù)數(shù))的關(guān)鍵詞對(duì)在識(shí)別社區(qū)時(shí)引入噪聲,本文參考曾慶田等[17]的研究對(duì)構(gòu)建的關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)進(jìn)行適當(dāng)剪枝,去掉部分關(guān)系較弱關(guān)鍵詞對(duì)之間的連邊。本文將δ依次從0增至0.5(步長(zhǎng)為0.05),利用Fast Unfolding算法識(shí)別δ對(duì)應(yīng)剪枝后網(wǎng)絡(luò)中的社區(qū),并計(jì)算最后的模塊度。這里,本文將模塊度最大值對(duì)應(yīng)的δ作為剪枝的閾值。識(shí)別出動(dòng)態(tài)網(wǎng)絡(luò)中的社區(qū)后,參考Wang等[4]的方法,利用Z-Score指標(biāo)為每個(gè)社區(qū)的內(nèi)部節(jié)點(diǎn)排序,選出Z-Score值最高的節(jié)點(diǎn)作為該社區(qū)的主題標(biāo)簽,計(jì)算公式為
其中,zi表示社區(qū)M中第i個(gè)節(jié)點(diǎn)的Z-Score值;N iM表示社區(qū)M的第i個(gè)節(jié)點(diǎn)與社區(qū)M其他節(jié)點(diǎn)連邊的權(quán)重之和;M o表示社區(qū)M的節(jié)點(diǎn)數(shù)量;B表示社區(qū)M內(nèi)所有節(jié)點(diǎn)與其他節(jié)點(diǎn)連邊的權(quán)重和的總和;Q表示社區(qū)M中所有節(jié)點(diǎn)與其他節(jié)點(diǎn)連邊的權(quán)重和的平方的總和。節(jié)點(diǎn)的Z-Score值越高,說(shuō)明該節(jié)點(diǎn)與社區(qū)內(nèi)其他節(jié)點(diǎn)的關(guān)系越緊密,越能代表整個(gè)社區(qū)。參考Guimerà等[22]的研究,Z-Score值大于等于2.5的節(jié)點(diǎn)可以作為社區(qū)的核心節(jié)點(diǎn)。
本部分將識(shí)別主題的演化路徑并進(jìn)行可視化。首先,基于對(duì)應(yīng)社區(qū)之間的相似度識(shí)別主題之間的演化關(guān)系。核心節(jié)點(diǎn)是社區(qū)內(nèi)最具代表性的節(jié)點(diǎn),也是社區(qū)發(fā)展變化的關(guān)鍵[4]。因此,本文利用核心節(jié)點(diǎn)度量社區(qū)之間的相似性,定義t+1時(shí)間段內(nèi)的某個(gè)社區(qū)為Mt+1,t時(shí)間段內(nèi)的某個(gè)社區(qū)為Mt,則Mt+1與Mt的相似度為HS(Mt,Mt+1),計(jì)算公式為
其中,H(Mt)表示Mt中核心關(guān)鍵詞節(jié)點(diǎn)集,H(Mt+1)表示Mt+1中核心關(guān)鍵詞節(jié)點(diǎn)集;Sim(H(Mt),H(Mt+1))表示H(Mt)與H(Mt+1)之間的相似度。
考慮到主題之間的相似度很大程度上依賴于主題之間的語(yǔ)義相似性,本文基于核心關(guān)鍵詞節(jié)點(diǎn)的詞向量,并利用關(guān)鍵詞節(jié)點(diǎn)對(duì)應(yīng)的Z-Score值賦予權(quán)重,采用向量余弦值加權(quán)平均的方法度量Sim(H(Mt),H(Mt+1))。為了統(tǒng)一量綱,本文對(duì)每個(gè)社區(qū)的Z-Score值進(jìn)行標(biāo)準(zhǔn)化處理。以社區(qū)Mt為例,設(shè)該社區(qū)的核心關(guān)鍵詞節(jié)點(diǎn)集H(Mt)中的某個(gè)關(guān)鍵詞為Wt,則Wt對(duì)應(yīng)的Z-Score值的標(biāo)準(zhǔn)化過(guò)程為
其中,Z'Wt表示關(guān)鍵詞Wt對(duì)應(yīng)的Z-Score標(biāo)準(zhǔn)化后的值,ZWt表示W(wǎng)t對(duì)應(yīng)的Z-Score值;Zmax表示標(biāo)準(zhǔn)化前H(M t)對(duì)應(yīng)的Z-Score值中最大值,Zmin表示標(biāo)準(zhǔn)化前H(M t)對(duì)應(yīng)的Z-Score值中最小值。
對(duì)Z-Score值標(biāo)準(zhǔn)化處理后,Sim(H(Mt),H(M t+1))的計(jì)算公式可以表示為
其中,Z't表示核心關(guān)鍵詞節(jié)點(diǎn)集H(Mt)對(duì)應(yīng)的Z-Score值標(biāo)準(zhǔn)化后的集合;表示H(Mt)對(duì)應(yīng)標(biāo)準(zhǔn)化后的所有Z-Score值與H(Mt+1)對(duì)應(yīng)標(biāo)準(zhǔn)化后的所有Z-Score值之間的兩兩乘積的總和;vWt表示W(wǎng)t由Word2Vec模型映射后的詞向量;cos(vWt,vWt+1)則表示向量v Wt與向量vWt+1之間的余弦值。
計(jì)算得到主題間的相似度后,可以剖析相鄰時(shí)間段中兩個(gè)主題之間的演化關(guān)系,即確定每個(gè)主題的前驅(qū)者與后繼者,以及由“前驅(qū)者—主題—后繼者”構(gòu)成主題的演化路徑。定義t+1時(shí)間段內(nèi)的某個(gè)社區(qū)為Mt+1,它的前驅(qū)者為Pre(Mt+1),則Mt+1為Pre(Mt+1)的后繼者,Pre(Mt+1)的表達(dá)式定義為
其中,Gt表示t時(shí)間段內(nèi)的關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò);Mt表示Gt中的某個(gè)社區(qū);δ為人工設(shè)定的閾值。
最后,對(duì)整個(gè)領(lǐng)域的主題演化路徑進(jìn)行可視化。本文以矩形代表主題,矩形上的文字代表主題標(biāo)簽,矩形的高度與主題對(duì)應(yīng)社區(qū)的節(jié)點(diǎn)數(shù)量成正比,且同一時(shí)間段內(nèi)的主題按照矩形的高度從大到小排成一列。再利用一條從前驅(qū)者指向主題的弧線表示主題間的演化關(guān)系,弧線上標(biāo)出兩個(gè)主題之間的相似度,不存在演化關(guān)系的主題將被描繪成淺灰色,演化路徑示意圖如圖4所示。
具體來(lái)看,t-1時(shí)間段內(nèi)的主題A與C是t時(shí)間段內(nèi)主題D的前驅(qū)者,弧線上標(biāo)了主題間的相似度,t+1時(shí)間段的主題F是t時(shí)間段內(nèi)主題D的后繼者。t+1時(shí)間段內(nèi)的主題H與其他主題不存在演化關(guān)系。
根據(jù)學(xué)者Palla[23]的研究,社區(qū)的發(fā)展過(guò)程可以分為六種模式:新生、成長(zhǎng)、合并、衰減、分裂以及衰亡。
(1)新生:在t時(shí)間段內(nèi)不存在的社區(qū),在t+1時(shí)間段內(nèi)出現(xiàn)。
(2)成長(zhǎng):在t時(shí)間段內(nèi)存在的社區(qū),繼續(xù)在t+1時(shí)間段內(nèi)存在且社區(qū)節(jié)點(diǎn)增多。
(3)合并:兩個(gè)或者多個(gè)存在于t時(shí)間段內(nèi)的社區(qū)在t+1時(shí)間段內(nèi)合并為一個(gè)社區(qū)。
(4)衰減:在t時(shí)間段內(nèi)存在的社區(qū),繼續(xù)在t+1時(shí)間段內(nèi)存在且社區(qū)節(jié)點(diǎn)減少。
(5)分裂:存在于t時(shí)間段內(nèi)的社區(qū)在t+1時(shí)間段內(nèi)分裂成兩個(gè)或者多個(gè)社區(qū)。
(6)衰亡:存在于t時(shí)間段內(nèi)的社區(qū)在t+1時(shí)間段內(nèi)消失。
圖4 主題演化路徑示意圖
本文設(shè)計(jì)了定性與定量相結(jié)合的驗(yàn)證方法。在定性驗(yàn)證部分,我們將本文的分析結(jié)果與權(quán)威期刊文獻(xiàn)的結(jié)果進(jìn)行了對(duì)比;在定量驗(yàn)證部分,本文既對(duì)比了分段線性表示法與平均時(shí)間劃分法的分析結(jié)果,又將本方法與K-means和LDA兩大方法在主題識(shí)別中的效果進(jìn)行了比較,并將準(zhǔn)確率、召回率和F1值作為評(píng)價(jià)指標(biāo)[24],用來(lái)驗(yàn)證本方法的有效性。相關(guān)指標(biāo)計(jì)算公式為
信息科學(xué)是一門(mén)典型的交叉學(xué)科,近年來(lái)該領(lǐng)域文獻(xiàn)增長(zhǎng)迅速,新的科學(xué)概念大量涌現(xiàn)[25],這使得該學(xué)科的主題演化過(guò)程更加復(fù)雜,其主題演化路徑識(shí)別研究更有意義。本文選擇信息科學(xué)領(lǐng)域作為實(shí)證分析對(duì)象,參考Hou等[25]學(xué)者的最新研究確定了信息科學(xué)領(lǐng)域的9種期刊,從WoS下載了2010—2019年10108條文獻(xiàn)數(shù)據(jù),如表1所示。
表1 信息科學(xué)領(lǐng)域期刊文獻(xiàn)統(tǒng)計(jì)
通過(guò)Vantage Point軟件提取得到31523個(gè)作者關(guān)鍵詞,去除帶有亂碼的關(guān)鍵詞和XML標(biāo)簽后,獲得31276個(gè)有效關(guān)鍵詞;之后,將有效關(guān)鍵詞按月份劃分為120個(gè)關(guān)鍵詞子集,利用主題詞簇法進(jìn)行清洗,得到一個(gè)隨時(shí)間變化的關(guān)鍵詞數(shù)量序列。這里,本文以2018年11月的關(guān)鍵詞子集為例來(lái)演示清洗過(guò)程,如表2所示。
表2 2018年11月的關(guān)鍵詞清洗步驟(主題詞簇法)
接下來(lái),本文利用分段線性表示法中常用的三種方法(滑動(dòng)窗口法、自上而下法以及自下而上法),對(duì)關(guān)鍵詞數(shù)量序列進(jìn)行分段線性擬合,并將參數(shù)s的取值范圍設(shè)置為2到20[19]。遵循第2.1.2節(jié)的分析步驟,可以得到三種方法對(duì)應(yīng)的最優(yōu)分段數(shù)目s及其對(duì)應(yīng)的均值根誤差RMSE。最后,利用綜合加權(quán)平均法對(duì)三種方法的擬合結(jié)果進(jìn)行評(píng)估。為統(tǒng)一量綱,本文對(duì)s及RMSE兩個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,使其均處于0到1之間,標(biāo)準(zhǔn)化的過(guò)程為
其中,as表示某指標(biāo)標(biāo)準(zhǔn)化后的值;ai表示該指標(biāo)標(biāo)準(zhǔn)化前的值;amin表示所有指標(biāo)的最小值;amax表示所有指標(biāo)的最大值。然后,對(duì)標(biāo)準(zhǔn)化后的s和RMSE指標(biāo)加權(quán)求和(本文認(rèn)為這兩個(gè)指標(biāo)同等重要,權(quán)值均為0.5),并用作評(píng)估指標(biāo)。三種方法的擬合結(jié)果如表3所示。
表3 三種分段線性表示法的分段擬合結(jié)果
為了平衡趨勢(shì)可捕捉性和擬合可靠性,本文傾向于分段較少以及均值根誤差較小的擬合方法[19],故選擇了加權(quán)平均值最小的滑動(dòng)窗口法(取值0.2301),該方法的擬合結(jié)果如圖5所示。
這里,信息科學(xué)領(lǐng)域被劃分為6個(gè)時(shí)間段,各個(gè)時(shí)間段的起始點(diǎn)與終止點(diǎn)如表4所示。
本案例中的關(guān)鍵詞集中有大量短語(yǔ),如“Infor‐mation Retrieval”“Citation Analysis”等,而Word2Vec模型不能直接得出這些短語(yǔ)的向量,因此,我們將短語(yǔ)形式的關(guān)鍵詞轉(zhuǎn)換為相應(yīng)的駝峰形式進(jìn)行模型訓(xùn)練,如將短語(yǔ)“network analysis”轉(zhuǎn)換為“Net‐workAnalysis”,并將關(guān)鍵詞通過(guò)訓(xùn)練好的Word2Vec模型映射為相應(yīng)的詞向量。這里,我們參考Wang等[26]的工作,將向量設(shè)置為300維,窗口大小設(shè)置為7,最小詞頻設(shè)置為3。之后,在每個(gè)時(shí)間段內(nèi)構(gòu)建關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)。首先,將關(guān)鍵詞集進(jìn)一步劃分為6個(gè)時(shí)間段內(nèi)的關(guān)鍵詞子集,刪除詞頻小于3的關(guān)鍵詞(去除噪聲關(guān)鍵詞)并使用主題詞簇法進(jìn)行清洗,清洗后的各時(shí)間段的關(guān)鍵詞數(shù)量如表5所示。
圖5 關(guān)鍵詞數(shù)量序列的分段線性擬合結(jié)果
表4 關(guān)鍵詞數(shù)量序列的時(shí)間段
表5 各時(shí)間段內(nèi)的關(guān)鍵詞數(shù)量
其次,依次在每個(gè)時(shí)間段內(nèi)計(jì)算關(guān)鍵詞對(duì)應(yīng)詞向量之間的余弦值,并以余弦值作為元素構(gòu)建關(guān)鍵詞關(guān)系矩陣?;诖丝傻玫?個(gè)關(guān)鍵詞關(guān)系矩陣,作為關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)。由于篇幅原因,這里只展示2010/01-2012/04時(shí)間段部分關(guān)鍵詞關(guān)系矩陣,如表6所示。
表6 2010/01-2012/04關(guān)鍵詞關(guān)系矩陣(部分)
得到動(dòng)態(tài)關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)后,利用Fast Unfold‐ing進(jìn)行剪枝并識(shí)別網(wǎng)絡(luò)中的社區(qū),最終輸出代表社區(qū)的關(guān)鍵詞列表。整個(gè)動(dòng)態(tài)網(wǎng)絡(luò)共識(shí)別出154個(gè)社區(qū),各時(shí)間段網(wǎng)絡(luò)的剪枝閾值、社區(qū)數(shù)量以及對(duì)應(yīng)的模塊度如表7所示。
表7 各時(shí)間段內(nèi)關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)的社區(qū)劃分結(jié)果
這里需要為每個(gè)社區(qū)賦予主題標(biāo)簽。首先,利用Python語(yǔ)言為154個(gè)社區(qū)中的每個(gè)節(jié)點(diǎn)計(jì)算其相應(yīng)的Z-Score值,選擇社區(qū)中Z-Score值最大的節(jié)點(diǎn)作為該社區(qū)的主題標(biāo)簽,并以Z-Score值超過(guò)2.5的節(jié)點(diǎn)為該社區(qū)的核心節(jié)點(diǎn)。之后,基于社區(qū)的核心節(jié)點(diǎn)度量相鄰時(shí)間段間的社區(qū)相似度,參考Schwartz等[27]的研究,將主題相似度閾值δ設(shè)為0.7,即相似度大于0.7的主題存在演化關(guān)系。圖6顯示了信息科學(xué)領(lǐng)域2010—2019年的主題演化路徑圖。
我們可以發(fā)現(xiàn),近十年間信息科學(xué)領(lǐng)域存在明顯的主題演化現(xiàn)象。例如,2013/10-2014/07時(shí)間段內(nèi)的“Collaboration Analysis”(合作分析)、“Col‐laboration Network”(合作網(wǎng)絡(luò))、“Social Network Analysis”(社交網(wǎng)絡(luò)分析)、“Co-authorship Net‐work”(合著網(wǎng)絡(luò))以及“Network Analysis”(網(wǎng)絡(luò)分析)五個(gè)研究主題融合為2014/08-2015/06中的“Network Analysis”(網(wǎng)絡(luò)分析),體現(xiàn)了主題合并;2013/10-2014/07時(shí)間段內(nèi)的“Text Mining”(文本挖掘)主題分裂成2014/08-2015/06中的“Text Mining”與“Social Media Analysis”主題,體現(xiàn)了主題的分裂;又如,2016/11-2019/12時(shí)間段內(nèi)產(chǎn)生了新的研究主題“Big Data”(大數(shù)據(jù)),2015/07-2016/10時(shí)間段內(nèi)的“Epistemology”主題在2016/11-2019/12中消失,這體現(xiàn)了主題的新生與衰亡;同時(shí),“Cita‐tion Analysis”(引文分析)貫穿了整個(gè)過(guò)程,其對(duì)應(yīng)社區(qū)的大小也在不斷發(fā)生改變,體現(xiàn)了主題的成長(zhǎng)和衰減。
圖6 信息科學(xué)領(lǐng)域主題演化路徑圖(2010—2019年)
基于圖6所示結(jié)果,我們可將近十年信息科學(xué)領(lǐng)域的研究主題劃分為計(jì)量、管理和技術(shù)三部分。①計(jì)量維度包括文獻(xiàn)計(jì)量、信息計(jì)量、科學(xué)計(jì)量以及網(wǎng)絡(luò)計(jì)量等定量化研究,如一直貫穿信息科學(xué)領(lǐng)域的“Citation Analysis”,以及演化過(guò)程中與其合并的“Academic Ranking”(學(xué)術(shù)排名)、“Author Ranking”(作者排名)等,它們是文獻(xiàn)計(jì)量學(xué)中的常用方法,致力于對(duì)期刊、學(xué)者以及科學(xué)研究的影響性進(jìn)行定量化評(píng)估??梢钥闯?,定量化研究是信息科學(xué)領(lǐng)域的重要研究方向與必然趨勢(shì);②管理維度是管理學(xué)在信息科學(xué)領(lǐng)域進(jìn)一步深化和拓展,如圖中的“Knowledge Management”(知識(shí)管理)、“Document Management”(文檔管理)及其演化出來(lái)的“Information Retrieval”(信息檢索)等;③技術(shù)維度是指信息科學(xué)領(lǐng)域不斷引入數(shù)學(xué)模型、計(jì)算機(jī)算法等工具展開(kāi)新的研究,包括數(shù)學(xué)模型、深度學(xué)習(xí)等主題,如圖中的“Text Mining”(文本挖掘)、“Text Clustering”(文本聚類)、“Machine Learning”(深度學(xué)習(xí))以及“Scientific Model”(科學(xué)模型)等。該維度的主題是信息科學(xué)領(lǐng)域重要的新興趨勢(shì),應(yīng)當(dāng)予以重視。
下面,我們以“Citation Analysis”研究主題相關(guān)演化路徑(圖7)為例進(jìn)行重點(diǎn)探討,并與權(quán)威期刊文獻(xiàn)的分析結(jié)果進(jìn)行對(duì)比驗(yàn)證。
從圖7可以看出,2010/01-2012/04時(shí)間段中有“Citation Analysis”“Academic Ranking”“Journal Im‐pact Factor”(期刊影響因子)以及“Webometrics”(網(wǎng)絡(luò)計(jì)量學(xué))四個(gè)研究主題,在2012/05-2013/09時(shí)間段內(nèi)融合為“Citation Analysis”,這說(shuō)明越來(lái)越多的學(xué)術(shù)、期刊影響性以及網(wǎng)絡(luò)計(jì)量學(xué)研究用到引文分析方法,使四個(gè)主題之間的關(guān)系越來(lái)越緊密,進(jìn)而融合。我們的結(jié)論也與很多學(xué)者的研究相一致,例如,學(xué)者Vaio等[28]明確指出,引文分析是評(píng)估期刊和學(xué)術(shù)研究的重要工具,并用引文分析研究經(jīng)濟(jì)學(xué)相關(guān)期刊的排名;同時(shí),2014/08-2015/06中的“Text Mining”主題融入2015/07-2016/10中的“Citation Analysis”,例如,學(xué)者Kralj等[29]明確提出通過(guò)結(jié)合文本挖掘技術(shù)與引文網(wǎng)絡(luò)分析為研究問(wèn)題帶來(lái)了新視角,利用“Text Mining”構(gòu)建新型的引文網(wǎng)絡(luò);此外,2014/08-2015/06時(shí)間段內(nèi)的“Alt‐metrics”(替代計(jì)量學(xué))和2015/07-2016/10的“So‐cial Media Analysis”(社交媒體分析)均融入了“Citation Analysis”,這表明基于網(wǎng)絡(luò)媒體文本的新式計(jì)量學(xué)為“Citation Analysis”帶來(lái)了“新鮮血液”,例如,學(xué)者Sud等[30]指出通過(guò)挖掘轉(zhuǎn)發(fā)、評(píng)論等社交媒體關(guān)系可以準(zhǔn)確地識(shí)別意見(jiàn)領(lǐng)袖。
接下來(lái),本文采用傳統(tǒng)的平均時(shí)間段劃分法對(duì)主題演變的時(shí)間段進(jìn)行劃分,并對(duì)2010—2019年信息科學(xué)領(lǐng)域的主題演化路徑進(jìn)行描繪,結(jié)果如圖8所示??梢悦黠@看出,圖8與圖6相比丟失了很多主題,如圖6中2012/05-2013/09時(shí)間段內(nèi)的“Tech‐nological Transition”(技 術(shù) 轉(zhuǎn) 型)、“Information Gain”(信息增益),2013/10-2014/07時(shí)間段內(nèi)的“Citing Behavior”(引用行為)、“Concept Map”(概念圖)以及2014/08-2015/06時(shí)間段內(nèi)的“Technolo‐gy Policy”(技術(shù)政策)、“Knowledge Organization System”(知識(shí)組織系統(tǒng))等主題均沒(méi)有在圖8中出現(xiàn),這也進(jìn)一步體現(xiàn)出本文提出的分段線性法的優(yōu)越性。
我們還將本方法與K-means和LDA兩類方法同時(shí)進(jìn)行對(duì)比,以驗(yàn)證本文在主題識(shí)別上的有效性。參照林江豪等[24]的研究,我們首先依據(jù)信息科學(xué)領(lǐng)域?qū)<乙庖?jiàn)建立一個(gè)標(biāo)準(zhǔn)“主題-關(guān)鍵詞”集(標(biāo)準(zhǔn)集),作為各類方法分析結(jié)果的對(duì)照標(biāo)準(zhǔn);其次,分別基于本文方法、K-means和LDA得出相應(yīng)的關(guān)鍵詞集,并把分析結(jié)果與標(biāo)準(zhǔn)集進(jìn)行對(duì)比。由于篇幅原因,這里只展示部分結(jié)果,如表8所示。首先,我們邀請(qǐng)了5名信息科學(xué)領(lǐng)域?qū)<覐?個(gè)時(shí)間段內(nèi)分別隨機(jī)挑選2個(gè)主題,共得到12個(gè)研究主題(表8第2列);然后,由專家確定與主題對(duì)應(yīng)的關(guān)鍵詞集(表8的第3列);接下來(lái),我們分別使用本文方法、K-means和LDA三種方法進(jìn)行主題識(shí)別,結(jié)果如表8的第4~6列所示。
之后,我們以準(zhǔn)確率、召回率和F1值作為評(píng)價(jià)指標(biāo)將三種方法的分析結(jié)果與人工建立的標(biāo)準(zhǔn)集進(jìn)行比較,對(duì)比結(jié)果如圖9所示。
從圖9可以看出,本文方法分析結(jié)果所在的值基本都在圖的上部,這表明對(duì)于6個(gè)時(shí)間段內(nèi)的12個(gè)主題,本文方法的3個(gè)驗(yàn)證指標(biāo)值大多優(yōu)于Kmeans和LDA方法,顯示了本文提出的動(dòng)態(tài)語(yǔ)義網(wǎng)絡(luò)分析方法具有更好的主題識(shí)別效果。
圖7 以“Citation Analysis”主題為主的演化路徑圖
圖8 信息科學(xué)領(lǐng)域主題演化路徑圖(平均時(shí)間段劃分法)
表8 主題詞分析結(jié)果示例
本文提出了一種基于動(dòng)態(tài)網(wǎng)路的主題演化路徑識(shí)別方法,一方面,引入分段線性表示法對(duì)主題演變的時(shí)間段進(jìn)行劃分,解決了傳統(tǒng)主題演化路徑識(shí)別研究劃分時(shí)間段不合理的問(wèn)題;另一方面,基于Word2Vec模型構(gòu)建動(dòng)態(tài)網(wǎng)絡(luò),并利用社區(qū)發(fā)現(xiàn)算法在動(dòng)態(tài)網(wǎng)絡(luò)中識(shí)別主題,充分考慮了關(guān)鍵詞之間的語(yǔ)義關(guān)系以使分析結(jié)果更加準(zhǔn)確。
本研究也存在一些不足。首先,分段線性表示法仍可以繼續(xù)改進(jìn),例如,最新的基于時(shí)序趨勢(shì)的分段線性化算法,在數(shù)據(jù)集上展現(xiàn)了分段少、逼近性好等優(yōu)點(diǎn);其次,本文通過(guò)將短語(yǔ)形式的關(guān)鍵詞轉(zhuǎn)換為駝峰形式,對(duì)語(yǔ)料庫(kù)中相應(yīng)的關(guān)鍵詞進(jìn)行了替換處理,這樣可能會(huì)因?yàn)楦淖冋Z(yǔ)料庫(kù)的文本結(jié)構(gòu)而降低關(guān)鍵詞向量識(shí)別的準(zhǔn)確度,在未來(lái)的研究中可以考慮利用Phrase2Vec模型對(duì)關(guān)鍵詞向量進(jìn)行訓(xùn)練。
圖9 主題識(shí)別的結(jié)果對(duì)比