翟君偉 瞿英 郭菲 劉濱
摘 要:文獻(xiàn)計(jì)量學(xué)是運(yùn)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)方法對(duì)文獻(xiàn)知識(shí)單元進(jìn)行定量分析、揭示文獻(xiàn)內(nèi)部知識(shí)內(nèi)容的一門科學(xué)。共現(xiàn)網(wǎng)絡(luò)分析是文獻(xiàn)計(jì)量研究中分析文獻(xiàn)特征項(xiàng)數(shù)據(jù)關(guān)系的一種可視化方法,根據(jù)被分析特征項(xiàng)的數(shù)量分為單重共現(xiàn)網(wǎng)絡(luò)分析和多重共現(xiàn)網(wǎng)絡(luò)分析。與單重共現(xiàn)網(wǎng)絡(luò)分析相比,多重共現(xiàn)網(wǎng)絡(luò)分析增加了特征項(xiàng)的維度,對(duì)文獻(xiàn)知識(shí)的呈現(xiàn)更加深入。但是,由于被分析特征項(xiàng)維度的增加,導(dǎo)致共現(xiàn)網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量增多,節(jié)點(diǎn)間連線重合度和交叉頻率過(guò)大,降低了文獻(xiàn)計(jì)量可視化的效果。因此,目前文獻(xiàn)計(jì)量共現(xiàn)網(wǎng)絡(luò)分析主要以單重共現(xiàn)為主,多重共現(xiàn)網(wǎng)絡(luò)分析可視化效果尚有待提升。
為解決多重共現(xiàn)網(wǎng)絡(luò)中節(jié)點(diǎn)過(guò)多、連線密度過(guò)大、不利于發(fā)現(xiàn)數(shù)據(jù)價(jià)值以及可視化效果較低等問題,引入LDA主題模型,采用空間劃分的方法,將特征項(xiàng)全域可視化的問題轉(zhuǎn)化為子空間可視化問題。首先,使用SATI文獻(xiàn)題錄信息分析軟件抽取文獻(xiàn)關(guān)鍵詞,進(jìn)行TF-IDF計(jì)算,以計(jì)算結(jié)果作為實(shí)驗(yàn)數(shù)據(jù);其次,使用Python構(gòu)建主題模型,對(duì)目標(biāo)文獻(xiàn)集合進(jìn)行主題聚類分析;最后,使用Ucinet軟件對(duì)不同主題子空間文獻(xiàn)進(jìn)行多重共現(xiàn)分析,并將子空間分析結(jié)果疊加和重構(gòu),完成多重共現(xiàn)可視化系統(tǒng)的結(jié)構(gòu)化表達(dá)。結(jié)果表明:與原多重共現(xiàn)可視化方法相比,在內(nèi)容呈現(xiàn)等價(jià)的前提下,基于LDA主題模型的多重共現(xiàn)可視化改進(jìn)方法由于縮小了多重共現(xiàn)網(wǎng)絡(luò)分析系統(tǒng)的規(guī)模,即子空間文獻(xiàn)數(shù)量與特征詞數(shù)目,因而降低了共現(xiàn)網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量和節(jié)點(diǎn)間連線密度,使得多重共現(xiàn)可視化系統(tǒng)的結(jié)構(gòu)更為清晰,增加了數(shù)據(jù)的可讀性,突出了數(shù)據(jù)價(jià)值,有效提升了多重共現(xiàn)可視化效果。因此,多重共現(xiàn)可視化改進(jìn)方法在一定程度上可以推進(jìn)文獻(xiàn)構(gòu)成元素在多重組合知識(shí)挖掘方面的深入研究,提高不同領(lǐng)域文獻(xiàn)計(jì)量的實(shí)證研究質(zhì)量。
關(guān)鍵詞:管理計(jì)量學(xué);LDA主題模型;多重共現(xiàn)分析;Ucinet;可視化
中圖分類號(hào):G353.1 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:Bibliometrics is a science to quantitatively analyze literature knowledge units by using mathematical and statistical methods and reveal the internal knowledge content of literature.Co-occurrence network analysis is a visual method to analyze the data relationship of document characteristic items in bibliometric research.According to the number of analyzed characteristic items,it can be divided into single co-occurrence network analysis and multiple co-occurrence network analysis.Compared with single co-occurrence network analysis,multi co-occurrence network analysis increases the dimension of feature items and presents literature knowledge more deeply.However,due to the increase of the dimension of the analyzed feature items,the number of nodes in the co-occurrence network increases,and the connection coincidence degree and crossover frequency between nodes are too large,which reduces the visualization effect of literature measurement.Therefore,at present,the bibliometric co-occurrence network analysis mainly focuses on single co-occurrence,and the visualization effect of multiple co-occurrence network analysis needs to be improved.In order to solve the problems of too many nodes,too large connection density,disadvantage of discovering the value of data and low visualization effect in multi co-occurrence network,LDA topic model was introduced and the method of spatial division was adopted to transform the global visualization problem of feature items into subspace visualization problem.Firstly,the key words were extracted by using sati document title information analysis software,and the TF-IDF calculation was carried out.The calculation results were taken as the experimental data.Secondly,Python is used to construct a topic model for topic cluster analysis of the target literature set.Finally,Ucinet software was used to analyze the multiple co-occurrence of subspace documents with different topics,and the subspace analysis results are superimposed and reconstructed,so as to complete the structural expression of the multiple co-occurrence visualization system.The results show that compared with the original multi co-occurrence visualization method,the improved multi co-occurrence visualization method based on LDA topic model reduces the number of nodes in the co-occurrence network and the connection density between nodes due to the reduction of the scale of the multi co-occurrence network analysis system,that is,the number of documents and feature words in the subspace.It makes the structure of the multi co-occurrence visualization system clearer,increases the readability of the data,highlights the data value,and effectively improves the multi co-occurrence visualization effect.To a certain extent,this study can promote the in-depth research on knowledge mining of multiple combinations of literature constituent elements,and then improve the quality of empirical research on literature metrology in different fields.
Keywords:management metrology;LDA topic model;multiple co-occurrence analysis;Ucinet;visualization
文獻(xiàn)計(jì)量學(xué)是指運(yùn)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)的方法,定量分析一切知識(shí)載體的交叉科學(xué)[1],其分析對(duì)象包括文獻(xiàn)量(各種出版物,尤以期刊論文和引文居多)、作者數(shù)(個(gè)人、集體或者團(tuán)體)、詞匯數(shù)(各種文獻(xiàn)標(biāo)識(shí),其中以敘詞居多)。近年來(lái),文獻(xiàn)計(jì)量方法逐漸受到學(xué)者們的廣泛關(guān)注,發(fā)文量不斷增多。登錄中國(guó)知網(wǎng),對(duì)主題為“文獻(xiàn)計(jì)量可視化”的文獻(xiàn)進(jìn)行檢索,共得到692篇核心期刊文獻(xiàn),其中563篇文獻(xiàn)使用共現(xiàn)網(wǎng)絡(luò)分析方法對(duì)文獻(xiàn)特征項(xiàng)關(guān)聯(lián)關(guān)系進(jìn)行了計(jì)量分析??梢姡铂F(xiàn)網(wǎng)絡(luò)分析是文獻(xiàn)計(jì)量學(xué)中的常用方法。
根據(jù)被分析特征項(xiàng)數(shù)量,共現(xiàn)網(wǎng)絡(luò)分析可分為單重共現(xiàn)(同一特征項(xiàng)共現(xiàn))和多重共現(xiàn)(不同特征項(xiàng)共現(xiàn))[2]。盡管共現(xiàn)網(wǎng)絡(luò)分析研究得到學(xué)術(shù)界的普遍認(rèn)同,但是多重共現(xiàn)網(wǎng)絡(luò)分析仍然是共現(xiàn)網(wǎng)絡(luò)分析領(lǐng)域中年輕的子集。對(duì)中國(guó)知網(wǎng)收錄文獻(xiàn)進(jìn)行主題為“多重共現(xiàn)分析”、“多重共現(xiàn)”、“共現(xiàn)分析”的文獻(xiàn)檢索,共篩選得到56篇對(duì)文獻(xiàn)特征項(xiàng)進(jìn)行多重共現(xiàn)網(wǎng)絡(luò)分析的文獻(xiàn),其中有48篇文獻(xiàn)研究了2種文獻(xiàn)特征項(xiàng)共現(xiàn),8篇文獻(xiàn)研究了3種文獻(xiàn)特征項(xiàng)共現(xiàn)。在這些研究中,從共現(xiàn)網(wǎng)絡(luò)分析形式來(lái)看,主要包括“作者-機(jī)構(gòu)”[3-4]、“國(guó)家(地區(qū))-機(jī)構(gòu)”[5-6]、“作者-關(guān)鍵詞”[7]、“中圖分類號(hào)-關(guān)鍵詞”[8]、“關(guān)鍵詞-年份”[9]、“機(jī)構(gòu)-年份”[10]、“內(nèi)容-方法”[11]等雙重共現(xiàn)分析,以及“作者-主題-引文”[12]、“作者-關(guān)鍵詞-引文”[13]、“作者-關(guān)鍵詞-期刊”[14]、“作者-內(nèi)容-方法”[15]、“作者-關(guān)鍵詞-機(jī)構(gòu)”[16]、“機(jī)構(gòu)-期刊-關(guān)鍵詞”[17]等三重共現(xiàn)分析。從可視化方法來(lái)看,主要借助CiteSpace[3-7],Ucinet[8-15]及交叉圖[17]等可視化工具進(jìn)行特征項(xiàng)的全要素展現(xiàn)。
從現(xiàn)有研究來(lái)看,與單重共現(xiàn)相比,關(guān)于多重共現(xiàn)的研究量較少,特別是關(guān)于三重以上的共現(xiàn)網(wǎng)絡(luò)分析更是少之又少。從可視化的視角來(lái)看,隨著被分析特征項(xiàng)維度的增加,共現(xiàn)網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量過(guò)多,線條成幾何級(jí)數(shù)增加,交叉量較大,從而影響了關(guān)鍵特征項(xiàng)統(tǒng)計(jì)特征的檢出與分析,導(dǎo)致數(shù)據(jù)可讀性較弱,可視化效果過(guò)低。目前,多重共現(xiàn)可視化主要依賴于分析軟件內(nèi)置的可視化模塊,這些工具的可視化分析對(duì)象一般是研究文獻(xiàn)的全域,因此樣本量大,可視化空間規(guī)模巨大。此外,這些模塊可視化呈現(xiàn)方式相對(duì)固定,支持用戶交互的能力較弱,很難針對(duì)可視化內(nèi)容進(jìn)行調(diào)整。目前,對(duì)文獻(xiàn)共現(xiàn)網(wǎng)絡(luò)分析可視化效果改進(jìn)研究的重視程度仍不夠。本文針對(duì)共現(xiàn)網(wǎng)絡(luò)分析可視化效果較差的問題,提出在不減少可視化內(nèi)容的前提下,選擇文本主題聚類方式(LDA主題模型)進(jìn)行空間劃分,建立可視化子空間,分別對(duì)各子領(lǐng)域的文獻(xiàn)進(jìn)行多重共現(xiàn)分析,減少單次分析特征詞的數(shù)量,通過(guò)共現(xiàn)矩陣的降維處理,提高可視化效果,進(jìn)而實(shí)現(xiàn)研究領(lǐng)域整體文獻(xiàn)的多重共現(xiàn)分析。
1 共現(xiàn)分析原理
文獻(xiàn)是具有歷史意義或研究?jī)r(jià)值的圖書、期刊、典章等。共現(xiàn)網(wǎng)絡(luò)分析是統(tǒng)計(jì)文獻(xiàn)主題詞兩兩之間在同一篇文獻(xiàn)中出現(xiàn)的頻次,使用網(wǎng)絡(luò)圖對(duì)共現(xiàn)關(guān)系進(jìn)行表示[18]。
2 多重共現(xiàn)可視化改進(jìn)方法
通過(guò)對(duì)單重共現(xiàn)和雙重共現(xiàn)的過(guò)程對(duì)比分析可知,多重共現(xiàn)增加了特征項(xiàng)維度,可以呈現(xiàn)不同類型特征項(xiàng)之間的關(guān)系,但是特征項(xiàng)的增加會(huì)導(dǎo)致共現(xiàn)網(wǎng)絡(luò)中的節(jié)點(diǎn)過(guò)多,節(jié)點(diǎn)間連線密度增加,并且線間交叉增多,降低了共現(xiàn)可視化效果。因此,可使用LDA主題模型對(duì)多重共現(xiàn)進(jìn)行改進(jìn),提高多重共現(xiàn)的可視化效果。
2.1 可視化效果改進(jìn)思路
由共現(xiàn)網(wǎng)絡(luò)圖產(chǎn)生過(guò)程可知,特征詞的共現(xiàn)矩陣決定了共現(xiàn)網(wǎng)絡(luò)圖的復(fù)雜性。如果能夠縮減特征詞的共現(xiàn)矩陣規(guī)模,就可以減少節(jié)點(diǎn)數(shù)量,而隨著節(jié)點(diǎn)的減少,節(jié)點(diǎn)間的連線也會(huì)有一定程度的減少。特征詞數(shù)量決定特征詞的共現(xiàn)矩陣大小。特征詞析出主要取決于文獻(xiàn),因此一個(gè)基本想法就是采取劃分方法對(duì)文獻(xiàn)進(jìn)行預(yù)處理,形成多個(gè)研究單元,分別對(duì)每個(gè)研究單元進(jìn)行多重共現(xiàn)分析,再將各子空間的共現(xiàn)網(wǎng)絡(luò)圖進(jìn)行疊加,實(shí)現(xiàn)整體文獻(xiàn)的多重共現(xiàn)分析。子空間疊加是將各子空間的多重共現(xiàn)網(wǎng)絡(luò)分析結(jié)果進(jìn)行匯總,實(shí)現(xiàn)對(duì)整體研究文獻(xiàn)的多重共現(xiàn)分析。將各子空間共現(xiàn)網(wǎng)絡(luò)圖中的相同節(jié)點(diǎn)進(jìn)行合并,保證匯總結(jié)果中被分析特征項(xiàng)所對(duì)應(yīng)的特征詞數(shù)量與將整體文獻(xiàn)進(jìn)行多重共現(xiàn)網(wǎng)絡(luò)分析中被分析特征項(xiàng)所對(duì)應(yīng)的特征詞數(shù)量相同。將節(jié)點(diǎn)間連線保持不變,相同節(jié)點(diǎn)合并過(guò)程中不破壞節(jié)點(diǎn)間的共現(xiàn)關(guān)系,保證各子空間中共現(xiàn)關(guān)系的匯總結(jié)果與將整體文獻(xiàn)進(jìn)行多重共現(xiàn)網(wǎng)絡(luò)分析中共現(xiàn)關(guān)系一致,從而不丟失信息量。文獻(xiàn)主題是文獻(xiàn)的重要特征之一,本文通過(guò)主題聚類方式進(jìn)行文獻(xiàn)劃分,即采用LDA主題模型對(duì)目標(biāo)文獻(xiàn)進(jìn)行聚類,實(shí)現(xiàn)特征詞降維處理。實(shí)施過(guò)程如圖3所示。
2.2 LDA主題聚類
2.2.1 LDA模型
主題模型可以對(duì)文本信息進(jìn)行分析,提取文本信息的有效特征,發(fā)現(xiàn)和檢測(cè)文本主題。LDA是一種概率生成模型,包括文檔、主題和詞語(yǔ)3層結(jié)構(gòu)[20],可以對(duì)大規(guī)模文檔集合進(jìn)行建模[21]。該模型認(rèn)為,每篇文檔都是由若干不同主題的詞語(yǔ)不斷累積生成的。
在文檔生成之前首先需要明確已知的主題數(shù)量(K)和每個(gè)主題所包含的單詞,其次需要確定所要生成的文檔集合中的文檔數(shù)量(N),及每篇文檔中所包含的詞語(yǔ)數(shù)量(M)。文檔集合生成過(guò)程如下:1)根據(jù)文檔將要表達(dá)的內(nèi)容以一定概率選擇某一主題;2)從選擇主題中以一定概率選擇某一詞語(yǔ),放在文檔所在位置;3)將上述2個(gè)步驟重復(fù)循環(huán)M次,生成目標(biāo)文檔;4)將上述生成過(guò)程不斷重復(fù)循環(huán)N次,生成N篇文檔集合。生成過(guò)程如圖4所示[22]。
文檔生成過(guò)程中,由于每篇文檔所要呈現(xiàn)的內(nèi)容和主題不同,因此各個(gè)主題及其內(nèi)部單詞在每篇文檔中被選擇的概率是不一致的,LDA主題模型可以通過(guò)使用貝葉斯模型來(lái)表示這種不確定。模型將α和β作為確定主題分布和詞語(yǔ)分布的超參數(shù),生成文檔-主題和主題-詞分布的先驗(yàn)概率[23],然后根據(jù)先驗(yàn)概率生成每篇文檔中單詞概率,其中α和β需要人為確定。
圖4生成過(guò)程分為4部分:1)基于狄利克雷分布和超參數(shù)α計(jì)算出文檔的主題多項(xiàng)分布θ;2)基于狄利克雷分布和超參數(shù)β計(jì)算出主題所對(duì)應(yīng)的詞多項(xiàng)分布ψ;3)從文檔-主題多項(xiàng)分布中提取文檔單詞的主題分布Z,基于主題分布和詞的多項(xiàng)分布,采樣生成最終的詞W,重復(fù)M次上述計(jì)算過(guò)程,生成長(zhǎng)度為M的目標(biāo)文檔;4)將上述過(guò)程重復(fù)循環(huán)N次,最終獲得N篇文檔。
2.2.2 困惑度
困惑度(Perplexity)是由BLEI等提出的一種反映模型泛化能力的指標(biāo)[24]。困惑度可以對(duì)概率語(yǔ)言模型的優(yōu)劣程度進(jìn)行判斷,度量預(yù)測(cè)結(jié)果與樣本的契合程度,困惑度越小對(duì)新文本的預(yù)測(cè)作用越高[25]。在LDA主題模型中通過(guò)計(jì)算不同主題數(shù)K所對(duì)應(yīng)的困惑度,可以確定LDA模型最優(yōu)的主題數(shù),當(dāng)困惑度圖像曲線下降趨勢(shì)不再明顯或者拐點(diǎn)處對(duì)應(yīng)的K值可以作為L(zhǎng)DA模型最優(yōu)主題數(shù),困惑度如式(2)所示:
2.2.3 主題聚類分析
LDA主題聚類是文檔生成過(guò)程的逆運(yùn)用,即根據(jù)一篇完整文檔找出其所對(duì)應(yīng)的文檔-主題(θ)、主題-詞分布(ψ),然后根據(jù)文檔-主題分布將文檔集合劃分為不同的主題,從而實(shí)現(xiàn)文檔集合的聚類[26]。LDA主題聚類過(guò)程如下。1)文檔預(yù)處理。對(duì)需要聚類分析的文檔集合進(jìn)行預(yù)處理,主要包括分詞、去除停用詞和文本向量化等,使用TF-IDF函數(shù)對(duì)文本信息進(jìn)行向量化處理,計(jì)算出每篇文檔中單詞的概率,作為實(shí)驗(yàn)語(yǔ)料庫(kù);2)計(jì)算聚類主題數(shù)候選集。LDA主題聚類前需要指定文檔劃分的主題數(shù)量,主題數(shù)過(guò)多,會(huì)導(dǎo)致聚類類別過(guò)于細(xì)分,類別間相似度較高;主題數(shù)過(guò)小,會(huì)導(dǎo)致聚類類別內(nèi)部存在嵌套關(guān)系,大類別中包含小類別。為了得到最為合適的主題數(shù),本文采用困惑度計(jì)算主題數(shù)量,獲得主題數(shù)量候選集。3)明確最優(yōu)主題數(shù)。將困惑度計(jì)算得到的主題數(shù)量候選集和實(shí)驗(yàn)語(yǔ)料庫(kù)輸入LDA模型中,將聚類結(jié)果可視化展示,通過(guò)困惑度計(jì)算結(jié)果和聚類結(jié)果可視化分析,確定最優(yōu)的主題數(shù)量,保證不同類別間的交叉性和相似性較低。4)文檔主題聚類。再次將最優(yōu)主題數(shù)量和實(shí)驗(yàn)語(yǔ)料庫(kù)輸入構(gòu)建的LDA模型,計(jì)算出各個(gè)主題在文檔中的概率分布,將概率最大的主題作為文檔所屬主題,實(shí)現(xiàn)文檔主題聚類。
2.3 多重共現(xiàn)可視化的實(shí)現(xiàn)
關(guān)鍵詞是從文獻(xiàn)中提取出的代表文獻(xiàn)主旨內(nèi)容和關(guān)鍵內(nèi)容的詞匯,其作為文獻(xiàn)的代表詞語(yǔ),反映了文獻(xiàn)研究的重點(diǎn)領(lǐng)域[27]。本文以目標(biāo)文獻(xiàn)關(guān)鍵詞作為實(shí)驗(yàn)語(yǔ)料庫(kù)進(jìn)行LDA主題聚類分析,將目標(biāo)文獻(xiàn)集進(jìn)行主題聚類,然后對(duì)不同類別中的文獻(xiàn)進(jìn)行多重共現(xiàn)分析,實(shí)現(xiàn)領(lǐng)域整體文獻(xiàn)的多重共現(xiàn)分析。通過(guò)LDA主題模型將目標(biāo)文獻(xiàn)劃分為不同類別,可以減少單次分析的文獻(xiàn)數(shù)量和共現(xiàn)網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量,提高共現(xiàn)網(wǎng)絡(luò)可視化效果。
基于主題聚類改進(jìn)的多重共現(xiàn)網(wǎng)絡(luò)分析過(guò)程如下:1)基于研究主題確定目標(biāo)文獻(xiàn)集合;2)提取目標(biāo)文獻(xiàn)關(guān)鍵詞,建立文獻(xiàn)-關(guān)鍵詞數(shù)據(jù)表;3)將關(guān)鍵詞作為實(shí)驗(yàn)語(yǔ)料庫(kù),使用困惑度算法計(jì)算LDA主題數(shù)候選集;4)將關(guān)鍵詞語(yǔ)料庫(kù)和主題數(shù)候選集作為參數(shù)輸入LDA模型中,將聚類結(jié)果進(jìn)行可視化,保證聚類間具有較好的獨(dú)立性,從而確定最優(yōu)主題數(shù);5)將最優(yōu)主題數(shù)和關(guān)鍵詞實(shí)驗(yàn)語(yǔ)料庫(kù)再次輸入LDA模型,計(jì)算每篇文獻(xiàn)的文檔-主題分布,選擇概率最大的主題作為文獻(xiàn)所屬主題;6)分別對(duì)不同主題類別內(nèi)的文獻(xiàn)進(jìn)行匯總,建立各主題的文獻(xiàn)特征詞隸屬矩陣;7)基于文獻(xiàn)特征詞隸屬矩陣,建立特征詞間共現(xiàn)矩陣;8)使用多重共現(xiàn)網(wǎng)絡(luò)方法對(duì)特征詞共現(xiàn)矩陣進(jìn)行處理,建立多重共現(xiàn)網(wǎng)絡(luò)圖??梢暬倪M(jìn)流程如圖5所示。
3 實(shí)證分析
3.1 數(shù)據(jù)來(lái)源與預(yù)處理
為了提高文獻(xiàn)數(shù)據(jù)的可靠性,以中國(guó)知網(wǎng)為數(shù)據(jù)源,對(duì)主題為“高校應(yīng)急管理”的文獻(xiàn)進(jìn)行檢索,共得到574篇文獻(xiàn),通過(guò)人工二次閱讀方式,刪除述評(píng)、新聞報(bào)告、報(bào)紙等非學(xué)術(shù)文獻(xiàn),得到565篇有效文獻(xiàn)。將565篇有效文獻(xiàn)信息以SATI可以處理的Endnote格式導(dǎo)出。文獻(xiàn)關(guān)鍵詞是對(duì)文獻(xiàn)研究?jī)?nèi)容的概括,代表文獻(xiàn)的研究主題。因此,本次分析將關(guān)鍵詞作為L(zhǎng)DA主題聚類語(yǔ)料庫(kù),SATI作為文獻(xiàn)題錄信息分析軟件,完成對(duì)文獻(xiàn)關(guān)鍵詞、作者、發(fā)表期刊、年份等信息字段的抽取、詞頻統(tǒng)計(jì)、共現(xiàn)矩陣生成[28]。由于文獻(xiàn)關(guān)鍵詞比較簡(jiǎn)短并且充分代表了文獻(xiàn)內(nèi)容,因而不再進(jìn)行分詞處理,使用SATI對(duì)關(guān)鍵詞進(jìn)行字段抽取,形成如表1所示的實(shí)驗(yàn)語(yǔ)料庫(kù)。
3.2 困惑度計(jì)算
首先,對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行提取,形成實(shí)驗(yàn)語(yǔ)料庫(kù);其次,基于Python中Gensim庫(kù),使用計(jì)數(shù)方式對(duì)實(shí)驗(yàn)語(yǔ)料庫(kù)進(jìn)行向量化,并依據(jù)式(2)計(jì)算出各個(gè)主題數(shù)所對(duì)應(yīng)的困惑度值;最后,將主題數(shù)和困惑度值作為橫縱坐標(biāo),繪制成二維坐標(biāo)圖,假設(shè)主題數(shù)區(qū)間為[1,10],步長(zhǎng)為1。計(jì)算結(jié)果如圖6所示。困惑度越小,說(shuō)明模型預(yù)測(cè)精準(zhǔn)度越高,困惑度最低或拐點(diǎn)處對(duì)應(yīng)的K值為最佳主題數(shù)。
通過(guò)對(duì)圖6進(jìn)行分析可知,隨著主題數(shù)的增加,困惑度不斷降低,當(dāng)主題數(shù)為4和8時(shí),困惑度的計(jì)算結(jié)果出現(xiàn)拐點(diǎn),表明在2個(gè)主題數(shù)局部范圍內(nèi)模型的聚類效果較好。因此,將4和8作為最優(yōu)主題數(shù)的候選集。
3.3 LDA主題聚類
借助Python軟件中Gensim庫(kù)進(jìn)行LDA建模,對(duì)“高校應(yīng)急管理”研究文獻(xiàn)進(jìn)行主題聚類,將文獻(xiàn)關(guān)鍵詞實(shí)驗(yàn)語(yǔ)料庫(kù)和主題數(shù)候選集作為參數(shù)輸入LDA模型,并將聚類結(jié)果進(jìn)行可視化,結(jié)果如圖7所示。
圖7中每個(gè)圓圈代表一個(gè)主題,圓圈大小表示主題的聚合程度,圓圈越小表示主題的聚合效果越好,圓圈間重合度表示主題間的相似性。對(duì)比圖7 a)和圖7 b)可知,主題數(shù)為8時(shí),主題圓圈半徑小于主題數(shù)為4時(shí)的圓圈半徑,表明主題數(shù)為8時(shí),LDA模型預(yù)測(cè)能力的精確度高于主題數(shù)為4時(shí),但是主題數(shù)為8時(shí),主題1、主題2、主題3、主題5相互重合,表明這些主題之間具有相似內(nèi)容。通過(guò)分析圖6和圖7可知,隨著主題數(shù)的增加,LDA模型的預(yù)測(cè)精度和主題間的相似性不斷增加。本研究通過(guò)LDA主題模型預(yù)測(cè)文獻(xiàn)所屬主題,根據(jù)所屬主題將文獻(xiàn)進(jìn)行聚類,將數(shù)據(jù)源分成多個(gè)類別,保證聚類間差距較大、聚類內(nèi)部差距較小。結(jié)合困惑度和聚類結(jié)果可視化分析,將LDA主題模型的主題數(shù)預(yù)設(shè)為4。將文獻(xiàn)關(guān)鍵詞實(shí)驗(yàn)語(yǔ)料庫(kù)與主題數(shù)4作為參數(shù)輸入LDA模型中,對(duì)“高校應(yīng)急管理”文獻(xiàn)進(jìn)行主題聚類,結(jié)果如表2所示。
3.4 多重共現(xiàn)對(duì)比分析
核心作者作為高發(fā)文量和高影響力的作者群體,其所關(guān)注的研究方向代表著研究領(lǐng)域中主要的研究?jī)?nèi)容?;谄召囁构?,研究領(lǐng)域核心作者發(fā)文量為N=0.749×Nmax,Nmax為高發(fā)文作者的發(fā)文量[29]。因此,高校應(yīng)急管理核心作者發(fā)文量為0.749×4=1.498,將發(fā)文在2篇以上的作者作為核心作者。基于Ucinet社會(huì)網(wǎng)絡(luò)分析工具,分別對(duì)各個(gè)主題類別中的文獻(xiàn)以及高校應(yīng)急管理整體研究文獻(xiàn)進(jìn)行核心作者和關(guān)鍵詞雙重共現(xiàn)分析,并刪除“高?!薄案叩仍盒!薄皯?yīng)急管理”“高校應(yīng)急管理”等基礎(chǔ)性詞匯,結(jié)果如圖8、圖9所示。
圖8的各個(gè)子圖和圖9分別對(duì)“高校應(yīng)急管理”領(lǐng)域進(jìn)行作者-關(guān)鍵詞雙重共現(xiàn)分析,其中分別使用不同形狀和顏色節(jié)點(diǎn)表示作者與關(guān)鍵詞,黃色節(jié)點(diǎn)代表研究學(xué)者,紅色節(jié)點(diǎn)代表關(guān)鍵詞,節(jié)點(diǎn)大小表示節(jié)點(diǎn)出現(xiàn)的頻次,節(jié)點(diǎn)間連線表示節(jié)點(diǎn)間具有共現(xiàn)關(guān)系。圖8的各個(gè)子圖基于LDA主題模型,將研究文獻(xiàn)劃分為4個(gè)不同的研究主題,分別對(duì)各個(gè)主題內(nèi)的文獻(xiàn)進(jìn)行作者關(guān)鍵詞雙重共現(xiàn)分析。圖9是將整體領(lǐng)域文獻(xiàn)作為分析對(duì)象,進(jìn)行雙重共現(xiàn)分析。在圖8和圖9中,黃色節(jié)點(diǎn)均為“高校應(yīng)急管理”研究領(lǐng)域的核心作者。通過(guò)困惑度計(jì)算結(jié)果和聚類結(jié)果可視化可知,將高校應(yīng)急管理領(lǐng)域文獻(xiàn)細(xì)分為4個(gè)主題,可以保證主題間差距較大。圖8的各個(gè)子圖中,黃色節(jié)點(diǎn)表示領(lǐng)域核心作者在各個(gè)主題文獻(xiàn)中出現(xiàn)的情況,節(jié)點(diǎn)間連線分別表示核心作者間的合作關(guān)系、核心作者的研究?jī)?nèi)容。通過(guò)對(duì)圖8各個(gè)子圖的疊加,可以實(shí)現(xiàn)對(duì)文獻(xiàn)全域的共現(xiàn)分析。將圖8各個(gè)子圖中相同節(jié)點(diǎn)進(jìn)行合并,可以保證圖8各個(gè)子圖中作者、關(guān)鍵詞節(jié)點(diǎn)的總數(shù)量與圖9中的作者、關(guān)鍵詞節(jié)點(diǎn)的數(shù)量相同。在相同節(jié)點(diǎn)合并過(guò)程中保持節(jié)點(diǎn)間連線不變,可以使圖8中各個(gè)子圖展示的作者與關(guān)鍵詞間的全部關(guān)系與圖9展示的作者與關(guān)鍵詞間的關(guān)系相同。因此,圖8各個(gè)子圖的全部信息與圖9所展示的內(nèi)容信息相同,不會(huì)丟失知識(shí)內(nèi)容。
多重共現(xiàn)網(wǎng)絡(luò)分析增加了被分析特征項(xiàng)的維度,可以對(duì)研究領(lǐng)域的文獻(xiàn)知識(shí)進(jìn)行深入挖掘。但是節(jié)點(diǎn)數(shù)量的增多會(huì)導(dǎo)致共現(xiàn)網(wǎng)絡(luò)中節(jié)點(diǎn)間連線的交叉性增加,降低可視化分析的效果。通過(guò)圖8和圖9對(duì)比分析可知,主題模型在不減少所呈現(xiàn)知識(shí)內(nèi)容的前提下,可以將特征項(xiàng)全域劃分為不同的子空間,減少單次分析的文獻(xiàn)數(shù)量和共現(xiàn)網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量,以及節(jié)點(diǎn)間連線的交叉度,清晰地展示出作者與研究熱點(diǎn)之間的關(guān)系。
文獻(xiàn)計(jì)量可視化分析軟件的發(fā)展,為文獻(xiàn)計(jì)量分析提供了技術(shù)支持。數(shù)據(jù)可視化分析通過(guò)使用感知度高的可視化元素對(duì)復(fù)雜龐大的數(shù)據(jù)集進(jìn)行處理,有效表達(dá)數(shù)據(jù)所包含的信息[30]。通過(guò)圖8和圖9可視化效果對(duì)比分析可知,改進(jìn)方法將研究文獻(xiàn)劃分為不同的研究主題,分別對(duì)不同主題內(nèi)的文獻(xiàn)進(jìn)行多重共現(xiàn)分析,可以減少單次分析中文獻(xiàn)數(shù)量和共現(xiàn)網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量,簡(jiǎn)化共現(xiàn)網(wǎng)絡(luò),提升可視化分析效果。
4 結(jié) 論
1)共現(xiàn)網(wǎng)絡(luò)分析方法可以對(duì)數(shù)據(jù)間的關(guān)系進(jìn)行分析,并以網(wǎng)絡(luò)方式進(jìn)行展示,廣泛應(yīng)用于文獻(xiàn)計(jì)量學(xué)中。相較于單重共現(xiàn),多重共現(xiàn)增加了被分析特征項(xiàng)的維度,但是會(huì)導(dǎo)致共現(xiàn)網(wǎng)絡(luò)圖中的節(jié)點(diǎn)過(guò)多,連線交叉度過(guò)大,可視化效果過(guò)低。
2)本文提出的基于LDA主題模型的文獻(xiàn)特征項(xiàng)多重共現(xiàn)可視化方法,采用空間劃分-融合思路,對(duì)文獻(xiàn)特征項(xiàng)進(jìn)行多重共現(xiàn)分析,將整體領(lǐng)域文獻(xiàn)劃分為不同子領(lǐng)域,分別對(duì)各子領(lǐng)域文獻(xiàn)進(jìn)行多重共現(xiàn)分析,達(dá)到領(lǐng)域文獻(xiàn)全域分析的目的。通過(guò)對(duì)比分析結(jié)果可知,對(duì)文獻(xiàn)空間進(jìn)行劃分可以有效減少單次分析文獻(xiàn)的數(shù)量和共現(xiàn)網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量,實(shí)現(xiàn)共現(xiàn)網(wǎng)絡(luò)的降維處理,降低分析的復(fù)雜度,子空間的可視化呈現(xiàn)更加清晰,提升了可讀性,最終提高了多重共現(xiàn)網(wǎng)絡(luò)分析的可視化效果。
本研究?jī)H選取關(guān)鍵詞作為實(shí)驗(yàn)語(yǔ)料庫(kù)對(duì)研究文獻(xiàn)進(jìn)行主題聚類分析,而文獻(xiàn)關(guān)鍵詞作為文獻(xiàn)內(nèi)容的概括,在選取過(guò)程中具有一定的主觀性,僅以關(guān)鍵詞作為分析對(duì)象會(huì)對(duì)聚類結(jié)果的精確度產(chǎn)生一定的影響。后續(xù)研究會(huì)將文獻(xiàn)摘要、標(biāo)題、正文等信息作為實(shí)驗(yàn)語(yǔ)料庫(kù)內(nèi)容,進(jìn)一步提高文獻(xiàn)的聚類效果。
參考文獻(xiàn)/References:
[1] 劉佳英,蔣宏斌,張翔,等.中外漁業(yè)領(lǐng)域研究現(xiàn)狀和熱點(diǎn)比較分析[J].中國(guó)水產(chǎn),2021(3):62-66.
LIU Jiaying,JIANG Hongbin,ZHANG Xiang,et al.Comparative analysis of the current situation and hot spots in the field of fishery research in China and foreign countries[J].China Fisheries,2021(3):62-66.
[2] 周娜,李秀霞,高丹.基于LDA主題模型的“作者—內(nèi)容—方法”多重共現(xiàn)分析——以圖書情報(bào)學(xué)為例[J].情報(bào)理論與實(shí)踐,2019,42(6):144-148.
ZHOU Na,LI Xiuxia,GAO Dan.Author-subject-method multiple co-occurrence analysis based on LDA topic model:Taking the library information science as an example[J].Information Studies:Theory & Application,2019,42(6):144-148.
[3] 陳浩天,李玲睿.近十年來(lái)中國(guó)農(nóng)村養(yǎng)老服務(wù)的研究趨向與價(jià)值前瞻——基于Cite Space知識(shí)圖譜的可視化分析[J].西北人口,2021,42(5):80-90.
CHEN Haotian,LI Lingrui.Research trend and value prospect of China′s rural elderly care service in recent ten years:visualization analysis of knowledge map based on CiteSpace[J].Northwest Population Journal,2021,42(5):80-90.
[4] 劉翠萍,李奕華.基于CiteSpace科學(xué)知識(shí)圖譜的國(guó)內(nèi)外宣翻譯研究[J].哈爾濱學(xué)院學(xué)報(bào),2021,42(7):110-114.
LIU Cuiping,LI Yihua.A scientific CiteSpace analysis of the research on international publicity translation study in China[J].Journal of Harbin University,2021,42(7):110-114.
[5] 陳曉娜,袁敏.中醫(yī)針灸研究的知識(shí)圖譜、聚類分析和拓展空間——基于WOS文獻(xiàn)的可視化分析[J].中醫(yī)藥管理雜志,2020,28(20):9-14.
CHEN Xiaona,YUAN Min.Knowledge map,cluster analysis and expansion space of traditional Chinese acupuncture-visual analysis based on WOS documents[J].Journal of Traditional Chinese Medicine Management,2020,28(20):9-14.
[6] 石晶晶,石樹青,胡元會(huì),等.心血管疾病能量代謝研究的可視化分析[J].中國(guó)循證心血管醫(yī)學(xué)雜志,2020,12(4):428-432.
SHI Jingjing,SHI Shuqing,HU Yuanhui,et al.Visual analysis on energy metabolism of cardiovascular diseases[J].Chinese Journal of Evidence-Bases Cardiovascular Medicine,2020,12(4):428-432.
[7] 王晴.我國(guó)MOOCs研究的網(wǎng)絡(luò)結(jié)構(gòu)與主題聚類——基于CiteSpaceⅢ的知識(shí)圖譜分析[J].中國(guó)遠(yuǎn)程教育,2015(5):18-23.
WANG Qing.Network structure and topic clustering of MOOCs research in China:a knowledge mapping analysis based on CiteSpaceⅢ[J].Distance Education in China,2015(5):18-23.
[8] 溫芳芳.基于共現(xiàn)分析的中圖分類號(hào)與關(guān)鍵詞對(duì)應(yīng)關(guān)系研究[J].情報(bào)科學(xué),2017,35(11):121-125.
WEN Fangfang.Study on the correspondence relationship between Chinese library classification codes and keywords based on co-occurrence analysis[J].Information Science,2017,35(11):121-125.
[9] 王宇燦,李一飛,袁勤儉.國(guó)際大數(shù)據(jù)研究熱點(diǎn)及前沿演化可視化分析[J].工程研究-跨學(xué)科視野中的工程,2014,6(3):282-293.
WANG Yucan,LI Yifei,YUAN Qinjian.Visualization analysis on the hotspots and frontier evolution of international big data research[J].Journal of Engineering Studies,2014,6(3):282-293.
[10]康冬冬.2000—2014年我國(guó)教育管理研究的可視化分析[D].蘭州:西北師范大學(xué),2017.
KANG Dongdong.Visual Analysis of Educational Management Research in China during 2000—2014[D].Lanzhou:Northwest Normal University,2017.
[11]馬秀峰,郭順利,宋凱.基于LDA主題模型的“內(nèi)容-方法”共現(xiàn)分析研究——以情報(bào)學(xué)領(lǐng)域?yàn)槔齕J].情報(bào)科學(xué),2018,36(4):69-74.
MA Xiufeng,GUO Shunli,SONG Kai.Suject-method co-occurrence analysis based on LDA topic model-taking the information science field as an example[J].Information Science,2018,36(4):69-74.
[12]劉愛琴,吳瑞瑞.基于引證關(guān)系的作者與主題多重共現(xiàn)網(wǎng)絡(luò)構(gòu)建[J].數(shù)字圖書館論壇,2019(10):23-29.
LIU Aiqin,WU Ruirui.Construction of multiple co-occurrence network of author and subject based on citation relationship[J].Digital Library Forum,2019(10):23-29.
[13]劉愛琴,吳瑞瑞.基于引證關(guān)系的“作者群體—關(guān)鍵字—引文”多重網(wǎng)絡(luò)構(gòu)建[J].新世紀(jì)圖書館,2020(5):54-58.
LIU Aiqin,WU Ruirui.Multiple network construction of "auther group-keyword-citation" based on citation relationship[J].New Century Library,2020(5):54-58.
[14]魏緒秋,李長(zhǎng)玲,劉非凡.3-模數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建及其可視化探討[J].情報(bào)理論與實(shí)踐,2014,37(8):74-78.
WEI Xuqiu,LI Changling,LIU Feifan.Probe into the construction and visualization of 3-mode data network[J].Information Studies:Theory & Application,2014,37(8):74-78.
[15]周娜.基于潛在主題挖掘的知識(shí)共現(xiàn)研究——以圖書情報(bào)學(xué)學(xué)科領(lǐng)域?yàn)槔齕D].曲阜:曲阜師范大學(xué),2019.
[16]姜思萃,徐俠.關(guān)于“五運(yùn)六氣”相關(guān)研究文獻(xiàn)的知識(shí)圖譜分析[J].光明中醫(yī),2020,35(3):317-321.
JIANG Sicui,XU Xia.Knowledge map analysis of related documents of "five evolutive phases and six climatic factors"[J].Guangming Journal of Chinese Medicine,2020,35(3):317-321.
[17]龐弘燊.基于科技文獻(xiàn)多重共現(xiàn)的數(shù)據(jù)模型理論與知識(shí)發(fā)現(xiàn)應(yīng)用范例研究[J].圖書情報(bào)工作,2019,63(9):61-72.
PANG Hongshen.Research on data model theory and knowledge discovery application based on multiple occurrence of scientific literature[J].Library and Information Service,2019,63(9):61-72.
[18]陳曉東,趙丹妮.新時(shí)代中國(guó)經(jīng)濟(jì)學(xué)發(fā)展軌跡及研究特征[J].區(qū)域經(jīng)濟(jì)評(píng)論,2020(4):146-156.
CHEN Xiaodong,ZHAO Danni.Analysis on the development track and research characteristics of Chinese economics in the new era[J].Regional Economic Review,2020(4):146-156.
[19]王宗水,趙紅,劉宇,等.社會(huì)網(wǎng)絡(luò)研究范式的演化、發(fā)展與應(yīng)用[J].情報(bào)學(xué)報(bào),2015,34(12):1235-1245.
WANG Zongshui,ZHAO Hong,LIU Yu,et al.Evolution,development and application of social network paradigm[J].Journal of the China Society for Scientific and Technical Information,2015,34(12):1235-1245.
[20]BLEI D M.Probabilistic topic models[J].Communications of the ACM,2012,55(4):77-84.
[21]熊回香,竇燕.基于LDA主題模型的標(biāo)簽混合推薦研究[J].圖書情報(bào)工作,2018,62(3):104-113.
XIONG Huixiang,DOU Yan.Research on tag hybrid recommendation based on LDA topic model[J].Library and Information Service,2018,62(3):104-113.
[22]蔡永明,長(zhǎng)青.共詞網(wǎng)絡(luò)LDA模型的中文短文本主題分析[J].情報(bào)學(xué)報(bào),2018,37(3):305-317.
CAI Yongming,CHANG Qing.Chinese short text topic analysis by latent dirichlet allocation model with co-word network analysis[J].Journal of the China Society for Scientific and Technical Information,2018,37(3):305-317.
[23]唐曉波,向坤.基于LDA模型和微博熱度的熱點(diǎn)挖掘[J].圖書情報(bào)工作,2014,58(5):58-63.
TANG Xiaobo,XIANG Kun.Hotspot mining based on LDA model and microblog heat[J].Library and Information Service,2014,58(5):58-63.
[24]王婷婷,韓滿,王宇.LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻(xiàn)為例[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(1):29-40.
WANG Tingting,HAN Man,WANG Yu.Optimizing LDA model with various topic numbers:Case study of scientific literature[J].Data Analysis and Knowledge Discovery,2018,2(1):29-40.
[25]關(guān)鵬,王曰芬.科技情報(bào)分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2016(9):42-50.
GUAN Peng,WANG Yuefen.Identifying optimal topic numbers from sci-tech information with LDA model[J].New Technology of Library and Information Service,2016(9):42-50.
[26]王夢(mèng)宇.基于LDA主題模型的在線評(píng)論聚類研究[D].蘭州:蘭州大學(xué),2021.
WANG Mengyu.Research on Online Reviews Clustering Based on LDA Topic Model[D].Lanzhou:Lanzhou University,2021.
[27]吳軍.新媒體時(shí)代期刊關(guān)鍵詞的應(yīng)用探析[J].出版廣角,2021(11):49-51.
[28]尹懷瓊,劉曉英,周良文,等.我國(guó)圖書館聯(lián)盟研究的文獻(xiàn)計(jì)量和可視化分析[J].圖書館,2018(2):43-49.
YIN Huaiqiong,LIU Xiaoying,ZHOU Liangwen,et al.Bibliometric and visual analysis of library alliance research in China[J].Library,2018(2):43-49.
[29]李繼紅,王洪江,江珊,等.綜合指數(shù)和h系列指數(shù)測(cè)評(píng)期刊核心作者的比較研究[J].中國(guó)科技期刊研究,2017,28(3):266-270.
LI Jihong,WANG Hongjiang,JIANG Shan,et al.Comparison of the evaluation of core authors by comprehensive index and h series index[J].Chinese Journal of Scientific and Technical Periodicals,2017,28(3):266-270.
[30]陸菁,劉淵,張曉婷,等.基于用戶體驗(yàn)的數(shù)據(jù)可視化模型研究[J].包裝工程,2016,37(2):52-56.
LU Jing,LIU Yuan,ZHANG Xiaoting,et al.Data visualization model based on the user experience[J].Packaging Engineering,2016,37(2):52-56.