向卓元 利朝香
(中南財(cái)經(jīng)政法大學(xué)信息與安全工程學(xué)院 湖北武漢 430073)
社區(qū)發(fā)現(xiàn)研究是發(fā)現(xiàn)潛在的社區(qū)對于信息傳播規(guī)律的研究,其應(yīng)用領(lǐng)域已涉及社會網(wǎng)絡(luò)、移動網(wǎng)絡(luò)、簽名網(wǎng)絡(luò)、交通網(wǎng)絡(luò),是當(dāng)前復(fù)雜網(wǎng)絡(luò)領(lǐng)域的研究熱點(diǎn)和重要研究方向,也是數(shù)據(jù)挖掘在復(fù)雜網(wǎng)絡(luò)中應(yīng)用的熱門研究主題[1]。在社區(qū)發(fā)現(xiàn)研究中,將研究的個體看作點(diǎn),個體間的關(guān)系看作邊,群組看作社區(qū)。發(fā)現(xiàn)這些潛在的社區(qū)及其結(jié)構(gòu)對于研究信息傳播規(guī)律、智能監(jiān)測、為客戶提供個性化的精準(zhǔn)營銷推薦、對網(wǎng)絡(luò)進(jìn)行輿情監(jiān)測等應(yīng)用領(lǐng)域具有重大的研究意義[2-3]。因此,如何在大規(guī)模網(wǎng)絡(luò)中挖掘出社區(qū)結(jié)構(gòu)及檢測有意義的社區(qū)就成為目前一個熱門的研究熱點(diǎn),引起了世界各國眾多學(xué)者對該領(lǐng)域研究的關(guān)注。
知識圖譜(Mapping knowledge domain),同時又被稱為科學(xué)知識圖譜、知識圖或知識可視化[4],是一個集圖論學(xué)、文獻(xiàn)計(jì)量學(xué)、統(tǒng)計(jì)學(xué)等眾多理論于一體的發(fā)展迅速的新生研究領(lǐng)域。知識圖譜CiteSpace作
為一種能夠?qū)⒁粋€領(lǐng)域內(nèi)研究歷史脈絡(luò)集中展現(xiàn)到一幅引文網(wǎng)絡(luò)圖上的文獻(xiàn)分析方法,通過繪制以“被引文獻(xiàn)”為節(jié)點(diǎn)的文獻(xiàn)共被引網(wǎng)絡(luò)圖譜,能標(biāo)識出該領(lǐng)域的演進(jìn)軌跡[5],并且近年來應(yīng)用于探尋學(xué)科的研究熱點(diǎn)領(lǐng)域與研究前沿,自2003年誕生以來在我國勃然興起并在多個學(xué)科領(lǐng)域中得到應(yīng)用。為了解近年來社區(qū)發(fā)現(xiàn)的最新研究進(jìn)展,本文利用信息可視化軟件CiteSpaceV對2004—2017年期間Web of Science數(shù)據(jù)庫收錄的相關(guān)文獻(xiàn)進(jìn)行系統(tǒng)性的量化分析,繪制知識圖譜,探尋社區(qū)發(fā)現(xiàn)研究的分布現(xiàn)狀、演進(jìn)軌跡、研究熱點(diǎn)領(lǐng)域及前沿分析,以科學(xué)知識圖譜視角來反映社區(qū)發(fā)現(xiàn)的演化趨勢。
本文以Web of Science核心合集為文獻(xiàn)檢索數(shù)據(jù)庫,檢索2004—2017年14年間社區(qū)發(fā)現(xiàn)相關(guān)文獻(xiàn),采用基本檢索的方式,主題為“community detection”or“community discovery”or“community mining”,時間跨度為2004年1月1日—2017年12月31日,選取Web of Science中的4個子庫(SCIEXPANDED、SSCI、A&HCI、ESCI)作為引文索引,文獻(xiàn)類型為Article、Proceeding papers和Review,檢索日期為2018年3月31日,共檢索出1 594條文獻(xiàn)記錄。
知識圖譜能夠呈現(xiàn)某個研究領(lǐng)域知識的分布狀況、發(fā)展歷程、結(jié)構(gòu)及其規(guī)律[6],挖掘知識群之間相互關(guān)聯(lián)及演化進(jìn)程等內(nèi)部關(guān)系,可以直觀形象地發(fā)現(xiàn)該領(lǐng)域的分布狀況、演化路徑、研究熱點(diǎn)等。本文采用由美國德雷克賽爾大學(xué)信息科學(xué)與技術(shù)學(xué)院陳超美教授利用Java語言開發(fā)的CiteSpaceV軟件進(jìn)行科學(xué)知識圖譜可視化分析[7]?;谏鐣W(wǎng)絡(luò)理論、共被引分析理論和尋徑網(wǎng)絡(luò)算法,探尋社區(qū)發(fā)現(xiàn)研究的關(guān)鍵軌跡及重要轉(zhuǎn)折點(diǎn),并通過繪制一系列的科學(xué)知識圖譜來探索社區(qū)發(fā)現(xiàn)研究的分布狀況、演進(jìn)軌跡、熱點(diǎn)領(lǐng)域和前沿分析。此方法已在建模與仿真、神經(jīng)醫(yī)學(xué)、信息科學(xué)與管理科學(xué)等眾多領(lǐng)域得到應(yīng)用。
論文發(fā)表數(shù)量與年度關(guān)系在一定程度上反映了該領(lǐng)域的發(fā)展趨勢、研究狀況及研究進(jìn)展[8],通過發(fā)文量的時間分布能夠反映出某一時間段內(nèi)社區(qū)發(fā)現(xiàn)的研究狀況。如圖1所示,有關(guān)社區(qū)發(fā)現(xiàn)的第一篇文獻(xiàn)發(fā)表于2004年,且在其后的4年間,發(fā)文量的增長速度較慢。在2008—2017年的10年間,總體增長速度較快,且2015—2016年論文數(shù)量迅速增長,增加值為104篇,說明國內(nèi)外眾多研究學(xué)者致力于社區(qū)發(fā)現(xiàn)的研究,對社區(qū)發(fā)現(xiàn)領(lǐng)域的關(guān)注逐步提高。但2016—2017年論文數(shù)量增長速度有所下降。從折線圖的趨勢可以看出,社區(qū)發(fā)現(xiàn)研究在未來仍是研究的熱點(diǎn)領(lǐng)域。我國論文發(fā)文量的增長趨勢與世界基本同步,2017年發(fā)文量最多,為144篇,占14年間發(fā)文量的23.6%??傮w上我國發(fā)文數(shù)量發(fā)展速度較快,說明我國這14年來對于社區(qū)發(fā)現(xiàn)的研究重視程度逐年增加。
圖1 2004—2017年我國及世界社區(qū)發(fā)現(xiàn)發(fā)文量分布
將數(shù)據(jù)導(dǎo)入到CiteSpaceV中,網(wǎng)絡(luò)節(jié)點(diǎn)選取國家(Country)和機(jī)構(gòu)(Institution),運(yùn)行軟件,得到社區(qū)發(fā)現(xiàn)研究的國家及機(jī)構(gòu)科學(xué)知識圖譜(見圖2),用以分析各個國家和機(jī)構(gòu)在該領(lǐng)域的實(shí)力分布以及國家、機(jī)構(gòu)之間的關(guān)聯(lián)。圖2網(wǎng)絡(luò)由142個節(jié)點(diǎn)和258條邊構(gòu)成。節(jié)點(diǎn)的大小表示發(fā)文頻次的高低,節(jié)點(diǎn)越大表示發(fā)文頻次越高。表1列出了該知識圖譜中發(fā)文頻次較高的國家及機(jī)構(gòu)。
圖2 2004—2017年社區(qū)發(fā)現(xiàn)研究的國家及機(jī)構(gòu)科學(xué)知識圖譜
表1 2004—2017年社區(qū)發(fā)現(xiàn)研究的高中心性國家及機(jī)構(gòu)分布(中心性≥0.1)
綜合圖2和表1可知,節(jié)點(diǎn)中心性≥0.1的國家有美國、中國、英國、意大利、荷蘭、法國、新加坡、日本、比利時、西班牙,并且中心性依次降低,說明美中兩國是該領(lǐng)域研究成果最具影響力的國家。從各個節(jié)點(diǎn)的發(fā)文頻數(shù)上看,我國在該領(lǐng)域的文獻(xiàn)產(chǎn)出貢獻(xiàn)最大,為609篇,占全球總數(shù)量的38.2%,遠(yuǎn)高于其他國家。但是在整個網(wǎng)絡(luò)中,美國的中心性最大,表明美國與網(wǎng)絡(luò)圖譜中的許多國家都有直接或間接的合作關(guān)系,如法國、比利時等。與發(fā)達(dá)國家相比,我國社區(qū)發(fā)現(xiàn)研究雖然起步較晚(首次發(fā)文時間為2006年),但是近年來發(fā)文數(shù)量呈現(xiàn)逐年增長的趨勢。中國作為社區(qū)發(fā)現(xiàn)研究文獻(xiàn)產(chǎn)量最大的國家,其研究機(jī)構(gòu)主要分布在高校,具有代表性的有中國科學(xué)院、清華大學(xué)、西安電子科技大學(xué)、天津大學(xué)和吉林大學(xué)等。
通過對所刊載文獻(xiàn)的來源出版物進(jìn)行統(tǒng)計(jì)分析,可以確定主要期刊來源,將為研究人員把握研究領(lǐng)域的核心期刊提供幫助[9]。將檢索到的社區(qū)發(fā)現(xiàn)文獻(xiàn)按所刊發(fā)的期刊進(jìn)行統(tǒng)計(jì),1 594篇文獻(xiàn)分布于489種刊物,其中發(fā)文量排名前10的期刊及其所刊載的文獻(xiàn)情況、近5年平均影響因子和被引頻次如表2所示。
表2 2004—2017年社區(qū)發(fā)現(xiàn)發(fā)文量排名前10的期刊
從發(fā)文數(shù)量和被引頻次上看,PHYSICAL REVIEW E作為物理類頂尖期刊,是刊載社區(qū)發(fā)現(xiàn)文獻(xiàn)的主要期刊,被引頻次最高,所刊載的相關(guān)文獻(xiàn)代表了該領(lǐng)域的研究軌跡、研究熱點(diǎn)和前沿。除此之外,PHYSICA A STATISTICAL MECHANICS AND ITS APPLICATIONS、PLOS ONE、SCIENTIFIC REPORTS以及JOURNAL OF STATISTICAL MECHANICS THEORY AND EXPERIMENT都是刊載社區(qū)發(fā)現(xiàn)文獻(xiàn)的主要期刊,刊載了眾多該領(lǐng)域的研究成果。
在共被引文獻(xiàn)網(wǎng)絡(luò)中,關(guān)鍵節(jié)點(diǎn)連接兩個以上聚類簇并起到關(guān)鍵作用[3],同時具有較高中心性。通過對共被引文獻(xiàn)進(jìn)行科學(xué)知識圖譜分析,可以探尋某研究領(lǐng)域中起到關(guān)鍵作用的文獻(xiàn)及其演進(jìn)軌跡[10]。
將數(shù)據(jù)導(dǎo)入到CiteSpaceV軟件中,時間區(qū)間設(shè)定為2004—2017年,將時間區(qū)設(shè)定為“1年”,網(wǎng)絡(luò)節(jié)點(diǎn)選擇引用參考文獻(xiàn)(Cited Reference),運(yùn)行軟件,得到社區(qū)發(fā)現(xiàn)研究演化路徑知識圖譜(時區(qū)視圖)(見圖3)。該圖譜由546個節(jié)點(diǎn)和2 268條邊構(gòu)成。節(jié)點(diǎn)大小表示文獻(xiàn)共被引頻次多少,節(jié)點(diǎn)的大小與網(wǎng)絡(luò)的中心性(Betweenness Centrality)成正比,節(jié)點(diǎn)越大表示文獻(xiàn)共被引次數(shù)越多。表3列出了節(jié)點(diǎn)中心性≥0.11的5篇關(guān)鍵節(jié)點(diǎn)文獻(xiàn)。
圖3 2004—2017年社區(qū)發(fā)現(xiàn)領(lǐng)域演化路徑知識圖譜(時區(qū)視圖)
表3 2004—2017年社區(qū)發(fā)現(xiàn)研究關(guān)鍵節(jié)點(diǎn)文獻(xiàn)(中心性≥0.11)
通過圖3和表3發(fā)現(xiàn),關(guān)鍵節(jié)點(diǎn)均是對社區(qū)發(fā)現(xiàn)的發(fā)展起到關(guān)鍵作用的研究成果,按照文獻(xiàn)發(fā)表時間順序進(jìn)行分析,即可梳理出社區(qū)發(fā)現(xiàn)研究的演進(jìn)軌跡。
2004年,Clauset A、Newman M.E.J和Moore C提出了一種用于檢測社區(qū)結(jié)構(gòu)的層次聚類算法,并用它來分析大型在線零售商網(wǎng)站上銷售的商品網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果表明,層次聚類算法可以從這個網(wǎng)絡(luò)中提取有意義的社區(qū),并且揭示出客戶購買習(xí)慣中存在的大規(guī)模模式[11]。2008年,Clauset A、Moore Cristopher和Newman M.E.J提出了一種從網(wǎng)絡(luò)數(shù)據(jù)中推斷層次結(jié)構(gòu)的一般技術(shù),并證明了層次結(jié)構(gòu)的存在可以一起解釋和定量地再現(xiàn)許多網(wǎng)絡(luò)的共同拓?fù)湫再|(zhì);進(jìn)一步表明,可以用層次結(jié)構(gòu)的知識來預(yù)測部分已知網(wǎng)絡(luò)中缺失連接的高準(zhǔn)確性,以及比競爭技術(shù)更普遍的網(wǎng)絡(luò)結(jié)構(gòu);實(shí)驗(yàn)結(jié)果表明層次結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)的中心組織原則,該技術(shù)能夠提供對許多網(wǎng)絡(luò)現(xiàn)象的洞察[12]。
2007年,Rosvall M和Bergstrom C T為網(wǎng)絡(luò)中的模塊化概念開發(fā)了信息論基礎(chǔ),通過尋找其拓?fù)浣Y(jié)構(gòu)的最佳壓縮來識別網(wǎng)絡(luò)組成的模塊,并利用其結(jié)構(gòu)中的規(guī)則解釋了這種方法的優(yōu)點(diǎn),并通過劃分一些真實(shí)世界和模型網(wǎng)絡(luò)來說明它們[13]。
2008年,Lancichinetti A、Fortunato S和Radicchi F介紹一類基準(zhǔn)圖,它說明節(jié)點(diǎn)度和社區(qū)大小分布的異質(zhì)性,使用這個基準(zhǔn)測試兩種常用的社區(qū)檢測方法,模塊化優(yōu)化和Potts模型聚類,結(jié)果顯示,基準(zhǔn)對算法的測試比標(biāo)準(zhǔn)基準(zhǔn)測試更嚴(yán)格,揭示了在首次分析時可能不明顯的限制[14]。因此,該文獻(xiàn)也成為社區(qū)發(fā)現(xiàn)研究領(lǐng)域被引頻次最高的文獻(xiàn)。2009年,Lancichinetti A、Fortunato S和Kertesz J提出了第一個找到重疊社區(qū)和分層結(jié)構(gòu)的算法,該方法基于適應(yīng)度函數(shù)的局部優(yōu)化,社區(qū)結(jié)構(gòu)適應(yīng)性直方圖中的峰值顯示,該決議可以通過一個參數(shù)來調(diào)整,使得不同層次的組織可以被調(diào)查,該算法在真實(shí)網(wǎng)絡(luò)和人工網(wǎng)絡(luò)中都取得較好的測試結(jié)果[15]。
通過對關(guān)鍵節(jié)點(diǎn)文獻(xiàn)的深入剖析,社區(qū)發(fā)現(xiàn)研究的演進(jìn)軌跡可以概括為:改進(jìn)的算法、模塊度函數(shù)不斷被提出,并結(jié)合網(wǎng)絡(luò)的拓?fù)湫再|(zhì),用來發(fā)現(xiàn)、檢測潛在的、有意義的社區(qū),社區(qū)重疊現(xiàn)象及分層結(jié)構(gòu)被發(fā)現(xiàn),并在真實(shí)網(wǎng)絡(luò)進(jìn)行實(shí)證。
在Web of Science檢索數(shù)據(jù)時,分析研究方向的檢索結(jié)果,基于發(fā)文量(>20篇)的統(tǒng)計(jì),列出社區(qū)發(fā)現(xiàn)研究所涉及的主要學(xué)科領(lǐng)域蔓延分布情況(見表4)。
表4 2004—2017年社區(qū)發(fā)現(xiàn)研究的學(xué)科領(lǐng)域蔓延分布(發(fā)文量>20)
從表4的數(shù)據(jù)可以看出,計(jì)算機(jī)科學(xué)發(fā)文量最高,是社區(qū)發(fā)現(xiàn)的主要學(xué)科,物理學(xué)的發(fā)文量僅次之;同時,社區(qū)發(fā)現(xiàn)的主要學(xué)科還有工程學(xué)、數(shù)學(xué)、科學(xué)技術(shù)及研究主題、運(yùn)籌學(xué)與管理科學(xué)、信息科學(xué)與圖書館學(xué)、數(shù)學(xué)與計(jì)算生物學(xué)、生物化學(xué)與分子生物學(xué)。從上述分析可以看出,社區(qū)發(fā)現(xiàn)以計(jì)算機(jī)科學(xué)為中心,顯著的特性是跨學(xué)科、多領(lǐng)域相關(guān)綜合研究。社區(qū)發(fā)現(xiàn)于2004年刊發(fā)第一篇文獻(xiàn),在14年里,其研究已經(jīng)涉及多學(xué)科、多領(lǐng)域,發(fā)文量也逐年增長,吸引了眾多研究學(xué)者的關(guān)注并從事該領(lǐng)域的研究。
關(guān)鍵詞凝練了作者研究的核心,高度概括了一篇文獻(xiàn)的研究主題[16],因此通過對關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜進(jìn)行分析,可以發(fā)現(xiàn)社區(qū)發(fā)現(xiàn)科學(xué)領(lǐng)域的研究熱點(diǎn)和主要方向。在CiteSpaceV中節(jié)點(diǎn)類型選取關(guān)鍵詞(Keyword),運(yùn)行軟件,經(jīng)合并同義詞和刪除重復(fù)關(guān)鍵詞等數(shù)據(jù)處理,得到社區(qū)發(fā)現(xiàn)研究熱點(diǎn)網(wǎng)絡(luò)圖譜(見圖4)。該網(wǎng)絡(luò)圖譜由126個節(jié)點(diǎn)和448條連線構(gòu)成。通過對其進(jìn)行梳理,可以清晰地發(fā)現(xiàn)目前社區(qū)發(fā)現(xiàn)研究主要有兩個熱點(diǎn)領(lǐng)域:一是在復(fù)雜網(wǎng)絡(luò)、社會網(wǎng)絡(luò)環(huán)境下的社區(qū)發(fā)現(xiàn);二是基于模塊度、算法、模型、聚類等方法,并結(jié)合圖的拓?fù)浣Y(jié)構(gòu),來研究社區(qū)結(jié)構(gòu),發(fā)現(xiàn)潛在的、有意義的社區(qū)。
圖4 2004—2017年社區(qū)發(fā)現(xiàn)研究熱點(diǎn)共現(xiàn)網(wǎng)絡(luò)圖譜
通過對樣本文獻(xiàn)數(shù)據(jù)進(jìn)行整理分析,得到社區(qū)發(fā)現(xiàn)領(lǐng)域的高頻關(guān)鍵詞(見表5)。從圖4和表5可以看出,排除“社區(qū)發(fā)現(xiàn)”關(guān)鍵詞外,目前國際社區(qū)發(fā)現(xiàn)研究領(lǐng)域,出現(xiàn)頻次最高的關(guān)鍵詞是復(fù)雜網(wǎng)絡(luò)(complex network),出現(xiàn)頻次高達(dá)553次。此外,主要熱點(diǎn)詞匯還有社會網(wǎng)絡(luò)(social network)、算法(algorithm)、模度塊(modularity)、聚類(clustering)、社區(qū)結(jié)構(gòu)(community structure)等。
表5 2004—2017年國際社區(qū)發(fā)現(xiàn)領(lǐng)域高頻關(guān)鍵詞
為了了解國內(nèi)社區(qū)發(fā)現(xiàn)研究領(lǐng)域的研究現(xiàn)狀,以“社區(qū)發(fā)現(xiàn)”或“社區(qū)挖掘”作為主題詞,文獻(xiàn)類型選取期刊論文、博士論文和碩士論文,在中文期刊全文數(shù)據(jù)庫CNKI進(jìn)行檢索,檢索時間范圍為2004—2017年,共檢索到1 445條數(shù)據(jù)。然后應(yīng)用CiteSpaceV對樣本數(shù)據(jù)的關(guān)鍵詞進(jìn)行可視化分析,整理出頻次較高的關(guān)鍵詞(見表6)。通過比較可以發(fā)現(xiàn),國內(nèi)社區(qū)發(fā)現(xiàn)研究的熱點(diǎn)與國際大部分是相同或相似的,這表明我國的社區(qū)發(fā)現(xiàn)研究緊跟國際研究前沿。
表6 2003—2017年我國社區(qū)發(fā)現(xiàn)領(lǐng)域高頻關(guān)鍵詞
CiteSpace的研究前沿是基于主題、摘要、關(guān)鍵詞和文獻(xiàn)記錄的標(biāo)識語中提取的突現(xiàn)詞來確定的[17],能反映在某一時間段內(nèi)該研究領(lǐng)域所探討的科學(xué)問題或?qū)n}。因此,通過對文獻(xiàn)關(guān)鍵詞的突現(xiàn)情況來探尋社區(qū)發(fā)現(xiàn)的研究前沿。社區(qū)發(fā)現(xiàn)14年間14個高突變熱點(diǎn)關(guān)鍵詞變化趨勢如表7所示。
表7 2004—2017年14個高突變關(guān)鍵詞變化趨勢
結(jié)合圖4和表7,可以得到目前社區(qū)發(fā)現(xiàn)研究的前沿關(guān)鍵詞為:復(fù)雜網(wǎng)絡(luò)(complex network)、代謝網(wǎng)絡(luò)(metabolic network)、解析度(resolution)、模塊度(modularity)、網(wǎng)狀(web)等。通過突現(xiàn)詞Burst值大小、起止時間、增長時間長度并結(jié)合演化路徑知識圖譜中節(jié)點(diǎn)文獻(xiàn)進(jìn)行分析,社區(qū)發(fā)現(xiàn)的研究前沿可以概括為:①在復(fù)雜網(wǎng)絡(luò)(complex network)、代謝網(wǎng)絡(luò)(metabolic network)、生物網(wǎng)絡(luò)(biological network)和社會網(wǎng)絡(luò)(social network)情境下的社區(qū)發(fā)現(xiàn);②應(yīng)用模塊度(modularity)、功能模塊(functional module)、動力學(xué)(dynamics)、聚類技術(shù)(clustering technique)等方法識別個體所屬的社區(qū),進(jìn)一步發(fā)現(xiàn)信息傳播的規(guī)律,為信息傳播提供參考依據(jù);③社區(qū)發(fā)現(xiàn)是發(fā)現(xiàn)信息傳播等的有效信息,用于解決實(shí)際問題和預(yù)測未來的發(fā)展?fàn)顩r。