牛奉高,邰志琴,許超
(山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)
隨著現(xiàn)代科學(xué)的發(fā)展,跨學(xué)科研究逐漸增多,學(xué)科交叉情況日益突出,科學(xué)體系日益復(fù)雜,預(yù)測和評估新的學(xué)科生長點越來越困難[1]。為了正確制定科學(xué)發(fā)展政策,規(guī)避科研投資風(fēng)險,準確把握科學(xué)發(fā)展方向,挖掘潛在知識,分析科學(xué)知識網(wǎng)絡(luò)的結(jié)構(gòu)特征及其演化過程,我們還需要將目光關(guān)注在由文章關(guān)鍵詞及其共現(xiàn)關(guān)系形成的共詞網(wǎng)絡(luò)上[2]。
共詞分析主要是利用關(guān)鍵詞和文獻的共現(xiàn)關(guān)系,通過相似度度量反映關(guān)鍵詞間的親疏關(guān)系,以此為基礎(chǔ)進行聚類分析,解讀研究領(lǐng)域內(nèi)的主題熱點,分析學(xué)科的發(fā)展趨勢。在關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中,關(guān)鍵詞相互關(guān)聯(lián),具有普遍意義的網(wǎng)絡(luò)拓撲結(jié)構(gòu),隨著復(fù)雜網(wǎng)絡(luò)的逐漸成熟,越來越多的人借用復(fù)雜網(wǎng)絡(luò)的方法來分析共詞網(wǎng)絡(luò)[3]。本文主要針對基于共詞分析的聚類過程中沒有統(tǒng)一的標準確定分類數(shù)目,關(guān)鍵詞只能劃分為一類的不足,基于復(fù)雜網(wǎng)絡(luò)中的UEOC社區(qū)檢測算法(unfold and extract overlapping communities)上進行改進,提出了應(yīng)用于共詞分析的CW_UEOC社區(qū)檢測算法,通過實證,驗證了算法的合理性,其結(jié)果也從側(cè)面反映了該學(xué)科近年來的研究熱點和動向,為今后該學(xué)科的研究提供了一定的參考價值。
本文第1部分對國內(nèi)外關(guān)于共詞分析和社區(qū)檢測的相關(guān)研究進行介紹;第2部分綜述共詞網(wǎng)絡(luò)的產(chǎn)生和UEOC社區(qū)檢測算法;第3部分介紹本文提出的CW_UEOC社區(qū)檢測算法;第4部分進行實證分析并結(jié)合戰(zhàn)略坐標方法進行討論;第5部分進行總結(jié)并給出下一步的研究工作。
共詞分析的研究已經(jīng)有很多相關(guān)研究工作,其最早由Callon和Courtial等人提出,其目的是深入文獻內(nèi)部[4]。在實際應(yīng)用中,共詞分析的流程可以概括為以下4個步驟:確定研究領(lǐng)域,提取關(guān)鍵詞;構(gòu)建共詞矩陣,進行相似度測量;使用聚類算法,進行聚類分析;對聚類結(jié)果進行人工解讀。作為一種研究方法,共詞分析存在很多不足,雖然共詞分析每個環(huán)節(jié)都需要改進,但是國內(nèi)外研究人員對共詞分析的研究主要集中在兩個方面:一是基于關(guān)鍵詞的選擇和優(yōu)化,一是共詞聚類方法的改進。Persson對關(guān)鍵詞的數(shù)量進行了劃定,認為進行共詞分析的關(guān)鍵詞數(shù)量最好是40個~50個左右[5];楊愛青等提出將g指數(shù)作為關(guān)鍵詞的選取指標[6];胡昌平等引入詞語貢獻度作為新的特征詞選擇方法[7];朱夢嫻等引進Blondel社區(qū)檢測算法進行關(guān)鍵詞聚類,引入Z-value確定核心關(guān)鍵詞[8];孫海生引入連邊社區(qū)檢測算法作為新的共詞聚類方法[3];李綱等基于低頻詞、高頻詞、突發(fā)詞提出三種關(guān)鍵詞混合選擇策略作為新的主題詞的選擇方法[9];虞秋雨等基于詞頻g指數(shù)構(gòu)建了一種確定高頻關(guān)鍵詞閾值的方法[10]。
與本文相關(guān)的研究還包括復(fù)雜網(wǎng)絡(luò)中社區(qū)檢測算法的研究,社區(qū)檢測是利用復(fù)雜網(wǎng)絡(luò)拓撲結(jié)構(gòu)中所蘊藏的信息從復(fù)雜網(wǎng)絡(luò)中解析出其模塊化的社區(qū)結(jié)構(gòu),挖掘復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)研究的基礎(chǔ)性問題。在非重疊社區(qū)檢測算法中,學(xué)者們依據(jù)對節(jié)點集采用的劃分標準不同將目前流行的社區(qū)檢測算法大致劃分為以下四類:模塊度優(yōu)化算法、譜分析法、信息論方法、標簽傳播方法[11]?;谀K度Q值優(yōu)化問題提出的算法是目前研究最多的一種算法[12]。2002 年,Newman 等[13]基于模塊度的優(yōu)化提出了自頂向下的分裂算法GN算法,2005年,Duch等[14]利用模塊度提出直接尋優(yōu)法——EO算法,2008年,Blondel等[15]基于模塊度提出了自底向上的圖凝聚算法Louvain算法,2017年,Pramanik等[16]提出了一種多層模塊度指標QM,通過最大化該指標來衡量多層網(wǎng)絡(luò)中社區(qū)的質(zhì)量,該方法無須輸入?yún)?shù)就能獲得較好的社團結(jié)構(gòu)。基于模塊度優(yōu)化的算法能夠較為準確的識別網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),但是計算復(fù)雜度偏高,當網(wǎng)絡(luò)的規(guī)模變大時,搜索空間將會變得非常大。譜分析法主要基于特定圖矩陣的特征向量導(dǎo)出節(jié)點的特征,將節(jié)點對應(yīng)的矩陣特征分量看作空間坐標,將網(wǎng)絡(luò)節(jié)點映射到多維特征向量空間中,運用傳統(tǒng)聚類方法將節(jié)點聚成社區(qū)。2004年,Donetti等[17]基于節(jié)點間的距離度量,在多維特征空間中建立聚類樹圖,選擇全局模塊度最大的聚類作為社區(qū)檢測結(jié)果。從信息論方法考慮,Rosvall等[18]提出將網(wǎng)絡(luò)的模塊化看作對網(wǎng)絡(luò)拓撲結(jié)構(gòu)的一種有損壓縮,從而將社區(qū)檢測問題轉(zhuǎn)換為尋找信息損失最小的問題。復(fù)雜網(wǎng)絡(luò)的邊是個體之間的信息傳播的途徑,基于節(jié)點標簽按照相似度傳播給相鄰節(jié)點的思想,Raghavan等[19]提出一種快速標簽傳播算法(LPA算法)。2019年,Alimadadi等[20]提出了多層網(wǎng)絡(luò)上的節(jié)點相似性度量,將單層網(wǎng)絡(luò)標簽傳播算法擴展到多層網(wǎng)絡(luò)中,該方法可以快速地挖掘出多層網(wǎng)絡(luò)中的社團結(jié)構(gòu)。然而,在現(xiàn)實世界中的網(wǎng)路模塊并不總是分明的,因而許多研究者們提出了重疊社區(qū)檢測算法。Xie等[21]提煉出14種重疊社區(qū)檢測算法,并將算法分成5類,分別為團滲透算法(Clique Perco?lation Method)[22-23],邊分割(line Partitioning),基于代理和動態(tài)算法(Agent based and Dynamic Al?gorithms)[24],局部擴展與優(yōu)化(Local Expansion and Optimization)。以及模糊檢測(Fuzzy Detec?tion)[25]。本文使用的重疊社區(qū)檢測算法屬于代理和動態(tài)算法,本文第2、3部分將詳細介紹相關(guān)算法。
共詞網(wǎng)絡(luò)是由文章關(guān)鍵詞與關(guān)鍵詞之間的共現(xiàn)關(guān)系共同構(gòu)成的一類表達科學(xué)知識領(lǐng)域結(jié)構(gòu)的客觀知識網(wǎng)絡(luò)[1]。然而我們獲得的初始數(shù)據(jù)通常是文章-關(guān)鍵詞的二模網(wǎng)絡(luò)。從文章-關(guān)鍵詞的二模網(wǎng)絡(luò)到我們所需的關(guān)鍵詞-關(guān)鍵詞一模共現(xiàn)網(wǎng)絡(luò)的基本構(gòu)建過程如圖1所示。圖1中存在 I、II、III、IV 四篇文章,分別擁有 3、4、4、3個關(guān)鍵詞。我們將每一個關(guān)鍵詞視為節(jié)點,利用在同一篇文獻中產(chǎn)生的共現(xiàn)關(guān)系形成連線,這樣我們就構(gòu)成了共詞網(wǎng)絡(luò)。
圖1 共詞網(wǎng)絡(luò)的基本構(gòu)建過程模型Fig.1 Basic construction process model of the coword network
社區(qū)是網(wǎng)絡(luò)科學(xué)中的重要概念,社區(qū)是這樣一些節(jié)點的集合:社區(qū)內(nèi)部節(jié)點聯(lián)系緊密,而社區(qū)間的聯(lián)系遠少于社區(qū)內(nèi)部。2011年,Jin等人[24]在馬爾科夫隨機游走的基礎(chǔ)上提出了在復(fù)雜網(wǎng)絡(luò)上發(fā)現(xiàn)重疊社區(qū)的UEOC算法,社區(qū)檢測基于最小化AC值(average conductance)上[26],實驗結(jié)果表明,UEOC可以有效地發(fā)現(xiàn)重疊社區(qū)。
UEOC社區(qū)檢測算法思想是:S1:選取度最大且未歸屬社區(qū)的節(jié)點s;S2:利用結(jié)合了退火網(wǎng)絡(luò)約束策略的馬爾科夫隨機游走思想展開節(jié)點S的自然群落;S3:基于最小化連通度(con?ductance函數(shù))的截斷準則,提取出截斷點之前的節(jié)點,將這些節(jié)點視為一個社區(qū);S4:若仍有未歸屬給任何社區(qū)的節(jié)點,從S1重復(fù),直到每個節(jié)點都有歸屬的社區(qū)。
UEOC社區(qū)檢測算法的核心是展開(Unfold?ing a community)和提?。‥xtracting the emerged community)社區(qū),S2和S3分別是用來展開和提取社區(qū)的方法。
2.2.1 展開社區(qū)的思想
a)計算轉(zhuǎn)移概率,其計算方式由式(1)所示:
b)考慮同分布的退火網(wǎng)絡(luò)R,計算退火網(wǎng)絡(luò)的轉(zhuǎn)移概率,其計算方式由式(2)所示:
2.2.2 提取社區(qū)的思想
a.將關(guān)聯(lián)概率為0的節(jié)點從排序后的節(jié)點表L中刪除;
b.計算節(jié)點表L中每個節(jié)點的連通度(conduc?tance函數(shù)值)φ(S)。φ(S)由式(5)可得:
連通度表示社區(qū)外連接邊的個數(shù)與社區(qū)內(nèi)節(jié)點度總和的比值。而截斷準則要求在最小連通度處(社區(qū)之間的連接比社區(qū)內(nèi)的連接的值最小)進行截斷,將切割點前的節(jié)點序列構(gòu)成一個社區(qū)。再從社區(qū)外的點選取度最大的節(jié)點重復(fù)實驗,直至所有節(jié)點都被劃分到特定社區(qū)中。
我們將改進的共現(xiàn)加權(quán)UEOC社區(qū)檢測算法(Co-occurrence weighting unfold and extract overlap?ping communities)命名為CW_UEOC社區(qū)檢測算法。CW_UEOC社區(qū)檢測算法的核心仍然是展開和提取社區(qū)。CW_UEOC社區(qū)檢測算法在展開社區(qū)部分b~e部分pij替換成我們的共現(xiàn)加權(quán)權(quán)重cwij。再按照以下步驟進行社區(qū)檢測:S1:選取度最大且未歸屬社區(qū)的節(jié)點s;S2:使用替換后的共現(xiàn)加權(quán)權(quán)重cwij結(jié)合約束策略的馬爾科夫隨機游走展開節(jié)點S的自然群落;S3:基于最小化連通度的截斷準則,提取出截斷點之前的節(jié)點,將這些節(jié)點視為一個社區(qū);S4:若仍有未歸屬給任何社區(qū)的節(jié)點,從S1重復(fù),直到每個節(jié)點都有歸屬的社區(qū)。
我們使用AC值評估社區(qū)檢測算法性能,其計算由式(8)可得:
其中K:社區(qū)數(shù)量,Ci:第i個社區(qū),φ(S):社區(qū)S的連通度。由于AC值表示社區(qū)間連接與社區(qū)內(nèi)節(jié)點連接的比值,故AC值越小社區(qū)檢測算法性能越好。我們選擇使AC值最小的轉(zhuǎn)移步數(shù)l。
本文選取了web of science核心合集上2016-2020年五年間的Information Science&Library Sci?ence領(lǐng)域上JCR(期刊影響因子)排名前5的期刊的文獻題錄數(shù)據(jù)作為研究對象,其檢索式如表1所示,研究過程中使用R語言的bibliometrix包[28],共計發(fā)文總數(shù)1 492 篇。設(shè) D={D1,D2,…,Dn},其中 Di代表每篇文章,Di={AU,DE,ID,…,JI,…,PY},每個字段分別表示作者、關(guān)鍵詞、補充關(guān)鍵詞、期刊、出版年等。
表1 文獻數(shù)據(jù)檢索式Table 1 Formula for retrieving literature data
4.1.1 核心關(guān)鍵詞選取
我們對獲得的1 492篇文獻數(shù)據(jù)作為研究對象,統(tǒng)計顯示,這1 492篇文章共包含5 785個唯一關(guān)鍵詞,共出現(xiàn)了9 147次,這意味著平均每篇文章的關(guān)鍵詞為6.13個。
在統(tǒng)計了所有詞匯的詞頻后,我們分析了他們的分布情況,如圖2所示(圖2中的橫縱坐標均為對數(shù)坐標),由于關(guān)鍵詞詞頻對數(shù)分布符合線性分布,表明所有關(guān)鍵詞的詞頻分布符合冪律分布(p<2e-16)。這意味著詞匯中存在少量且核心的關(guān)鍵詞,這些關(guān)鍵詞是科學(xué)知識發(fā)展的關(guān)鍵概念,具有重要的研究價值。我們使用詞頻大于10的關(guān)鍵詞,其累計頻次為14.58%,如表2所示。
圖2 關(guān)鍵詞詞頻對數(shù)分布Fig.2 Logarithmic distribution of keyword frequency
4.1.2 核心關(guān)鍵詞共詞網(wǎng)絡(luò)
在復(fù)雜網(wǎng)絡(luò)中常用的三個分析指標:密度、聚集系數(shù)和平均距離。而由表2關(guān)鍵詞所構(gòu)建的共詞網(wǎng)絡(luò)其密度、聚集系數(shù)和平均距離等統(tǒng)計結(jié)果由表3所示。統(tǒng)計顯示核心關(guān)鍵詞共詞網(wǎng)絡(luò)其聚集系數(shù)為0.277 5,大于其對應(yīng)的隨機網(wǎng)絡(luò),而網(wǎng)絡(luò)的平均距離為1.997 3,與對應(yīng)的隨機網(wǎng)絡(luò)的平均距離差別不大,這一結(jié)果表明共詞網(wǎng)絡(luò)具有小世界現(xiàn)象[29]。統(tǒng)計還顯示該網(wǎng)絡(luò)的密度是0.159 6,這表明該網(wǎng)絡(luò)是十分稠密的網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)的連接比較豐富,這意味著情報學(xué)與圖書館學(xué)研究已經(jīng)趨于成熟。
表2 詞頻大于10的核心關(guān)鍵詞Table 2 Core keywords with word frequency greater than 10
表3 共詞網(wǎng)絡(luò)的特征指標Table 3 Characteristic indexes of co-word networks
4.2.1 基于CW_UEOC社區(qū)檢測算法的共詞分析結(jié)果
為了可視化分析核心關(guān)鍵詞共詞網(wǎng)絡(luò)的結(jié)構(gòu)特征,由表4可得,當l=16時,算法收斂,且可得l=3時,其AC值最小,故令CW_UEOC算法的轉(zhuǎn)移步數(shù)l=3,利用R語言繪制基于CW_UEOC社區(qū)檢測算法得到的節(jié)點聚類可視化圖(關(guān)鍵詞序號與對應(yīng)關(guān)鍵詞如表2所示),如圖3所示,共6個社區(qū)。圖中歸屬于同一社區(qū)的節(jié)點使用同一顏色,重疊節(jié)點則屬于多個顏色,可以看出近年來學(xué)科交叉,學(xué)科融合是情報和圖書館學(xué)科領(lǐng)域的發(fā)展趨勢。根據(jù)社區(qū)檢測結(jié)果,情報學(xué)與圖書館學(xué)的熱點問題歸納為:①社會媒體與情感分析;②大數(shù)據(jù)與計算機技術(shù);③計算機技術(shù)與物聯(lián)網(wǎng);④社交網(wǎng)絡(luò)與物聯(lián)網(wǎng);⑤社交媒體與信息技術(shù);⑥人工智能與電子商務(wù)。
表4 轉(zhuǎn)移步數(shù)l與社區(qū)Table 4 Transfer steps l and community
在復(fù)雜網(wǎng)絡(luò)中,重疊節(jié)點往往具備多種功能,在社團間往往起著樞紐作用,共詞網(wǎng)絡(luò)節(jié)點的重疊性,恰能反映主題歸屬的多樣性,算法的結(jié)果表明有55個節(jié)點屬于重疊節(jié)點,有6個重疊社區(qū)。其中節(jié)點歸屬最多的節(jié)點同時屬于4個社區(qū),同時歸屬于4個社區(qū)的節(jié)點有節(jié)點20、31、34、35、42、61(即MANAGEMENT、TECHNOLOGY、PRIVACY、INTERNETOFTHINGS、AFFORDANCES、CROWDFUNDING)。顯然,圖3顯示CW_UEOC社區(qū)檢測算法可以發(fā)現(xiàn)共詞網(wǎng)絡(luò)中節(jié)點的重疊。
圖3 關(guān)鍵詞節(jié)點聚類Fig.3 Keyword node clustering
4.2.2 實驗結(jié)果對比
我們使用基于walktrap社區(qū)檢測算法的戰(zhàn)略坐標分析來擴展我們對情報學(xué)與圖書館學(xué)主題的分析,戰(zhàn)略坐標系方法是Law等人最先提出,用來描述某一研究領(lǐng)域內(nèi)部聯(lián)系情況和領(lǐng)域間相互影響情況[30]。在戰(zhàn)略坐標圖中,關(guān)鍵詞與其他類別關(guān)鍵詞共現(xiàn)強度的總和為向心度值(centrality);關(guān)鍵詞與同類其他關(guān)鍵詞共現(xiàn)強度的總和為密度值(densi?ty),以向心度和密度分別為X軸和Y軸,以密度和向心度的平均值為原點繪制戰(zhàn)略坐標圖,分析情報學(xué)和圖書館學(xué)的熱點方向,圖4是基于walktrap社區(qū)檢測算法的戰(zhàn)略坐標分析。戰(zhàn)略坐標將關(guān)鍵詞劃分為四個象限,用來描述各主題的研究發(fā)展狀況。處于第一象限的關(guān)鍵詞,其密度和向心度都較高,主題內(nèi)部連接緊密,且與其他類別的聯(lián)系也更大,研究趨向成熟,并且處于研究網(wǎng)絡(luò)的中心位置。處于第二象限的關(guān)鍵詞,主題領(lǐng)域內(nèi)部連接緊密,其研究已經(jīng)形成了一定的規(guī)模,有很多外圍的社會組織加入研究,屬于前沿研究領(lǐng)域。處于第三象限的關(guān)鍵詞其密度和向心度都較低,是整個領(lǐng)域的邊緣主題,研究尚不成熟。處于第四象限的關(guān)鍵詞結(jié)構(gòu)不緊密,研究尚不成熟,但研究人員都有興趣,具有潛在的發(fā)展趨勢[31-32]。
如圖4所示,關(guān)鍵詞17、20、31、34、35、37、42、45、46、47、48、49、54、55、59、61、66、67、72、75、77處于第一象限,其研究趨向成熟,而且由于在第一象限的關(guān)鍵詞其向心度也高于其他關(guān)鍵詞,更容易與其他類別產(chǎn)生交叉,而基于CW_UEOC社區(qū)檢測算法共詞分析聚類結(jié)果中同時歸屬于4個社區(qū)的節(jié)點也同樣處于戰(zhàn)略坐標圖的第一象限,此外,圖4第一象限中也存在一部分有CW_UEOC社區(qū)檢測算法中識別的重疊數(shù)目為3的節(jié)點。對比可得,基于CW_UEOC的共詞聚類算法識別的重疊節(jié)點同樣是walktrap算法中向心度高的節(jié)點,即基于CW_UEOC的社區(qū)檢測共詞聚類算法可以識別出學(xué)科交叉節(jié)點。
圖4 戰(zhàn)略坐標圖Fig.4 Strategic coordinate diagram
本文利用web of science數(shù)據(jù)庫中Information Science&Library Science領(lǐng)域上JCR排名前5的期刊的文獻題錄數(shù)據(jù)進行數(shù)據(jù)提取以后,得到了情報學(xué)與圖書館學(xué)領(lǐng)域的核心關(guān)鍵詞,在對核心關(guān)鍵詞進行社區(qū)檢測后,得到情報學(xué)與圖書館學(xué)領(lǐng)域研究主題。實證表明,CW_UEOC算法能夠檢測出共詞網(wǎng)絡(luò)中的熱點問題,并且可以識別出社區(qū)之間的重疊節(jié)點,可以解決共詞分析聚類中關(guān)鍵詞歸屬單一化問題,揭示重要關(guān)鍵詞與各個主題之間的聯(lián)系。
本文在研究過程中存在一些不足,雖然文章關(guān)鍵詞都是研究者們認真選擇可以代表其研究內(nèi)容的技術(shù)術(shù)語,然而也有很多潛藏在文章中未被標引出的關(guān)鍵詞。另外,本文使用的共詞網(wǎng)絡(luò)是靜態(tài)網(wǎng)絡(luò),但是科學(xué)知識的增長是動態(tài)過程。下一步,我們將改進選取文章主題詞和提取關(guān)鍵詞間共現(xiàn)關(guān)系的增長規(guī)律以此構(gòu)成更加豐富的共詞網(wǎng)絡(luò)。這些改進對研究者們進行學(xué)科熱點挖掘、文本聚類精確化和科學(xué)發(fā)展具有重要意義。