摘 要 通過使用共詞分析法對文獻計量學研究領域作者的合作關系進行分析,可以揭示該學科領域合作團隊的內(nèi)部和相互之間的聯(lián)系。文章在對文獻計量學進行一般文獻計量分析的基礎上,通過使用復雜網(wǎng)絡分析軟件GEPHI對文獻計量學對作者合作關系網(wǎng)絡進行定量分析和繪制可視化圖譜,為研究該學科領域的作者合作群體狀況以及跟蹤學科研究進展提供直觀的分析參考。
關鍵詞 可視化分析;共詞;GEPHI;文獻計量學
中圖分類號:G202 文獻標識碼:A 文章編號:1671-7597(2014)07-0104-02
共詞分析法已經(jīng)被深入應用于對各個學科領域的文獻分析研究中,通過共詞分析方法對文獻信息中共同出現(xiàn)的內(nèi)容進行聚類分析,應用可視化分析軟件繪制關鍵詞共現(xiàn)關系網(wǎng)絡圖譜,能夠揭示出學科的研究現(xiàn)狀和發(fā)展趨勢。近年來隨著統(tǒng)計學和社會網(wǎng)絡可視化分析方法的進展,各種方便直觀的社會網(wǎng)絡分析(Social Network Analysis,SNA)軟件不斷出現(xiàn),應用于科學文獻的分析中,使文獻定量分析的結果以圖形的形式呈現(xiàn)出來,把定量分析向定性結果轉化,成為學科領域現(xiàn)狀和前沿熱點預測的有力分析工具。[1]
1 GEPHI軟件簡介
GEPHI是一款基于JVM(JAVA虛擬機)免費開源的復雜網(wǎng)絡可視化分析軟件,可用于探索性數(shù)據(jù)分析,鏈接分析,社交網(wǎng)絡分析,生物網(wǎng)絡分析等[2]。本文通過對文獻計量學研究領域期刊文獻的題錄數(shù)據(jù)處理,得到作者共現(xiàn)矩陣,用EXCEL的數(shù)據(jù)透視表功能進行數(shù)據(jù)轉換后導入GEPHI軟件進行運算,繪制出該研究領域的作者合作關系圖譜,對文獻計量學研究領域的合作關系進行研究。
2 文獻計量學發(fā)展狀況的數(shù)據(jù)統(tǒng)計
2.1 數(shù)據(jù)來源及預處理
本文使用的數(shù)據(jù)來源于中國知網(wǎng)提供的中國學術期刊網(wǎng)絡出版總庫,包含從1980年開始到2013年8月的有關文獻計量學的學術期刊文獻信息,題錄下載時間為2013年8月19日,去除了無效文獻和重復文獻以后,得到文獻計量學研究領域的國內(nèi)期刊文獻共6254篇。對題錄中作者、關鍵詞、刊發(fā)時間、來源機構等字段進行統(tǒng)計,抽取高頻詞進行排序,進行初步的數(shù)據(jù)分析[2]。
2.2 初步數(shù)據(jù)統(tǒng)計
2.2.1 各年發(fā)表數(shù)據(jù)統(tǒng)計
對發(fā)表時間統(tǒng)計和排序處理,得到從20世紀80年代以來國內(nèi)文獻計量學理論和應用研究的學術論文數(shù)量統(tǒng)計結果。結果顯示對文獻計量學的研究開始以來學術文獻數(shù)量在不斷地增加,特別是進入本世紀以后的十幾年中,這一領域研究的學術論文數(shù)量增速更快。
2.2.2 期刊統(tǒng)計
通過統(tǒng)計,歷年來我國文獻計量學研究的學術論文發(fā)表期刊共有1874種,發(fā)表該研究領域?qū)W術論文數(shù)量在10篇以上的共有75種,發(fā)表數(shù)量為3021篇,占總數(shù)的48.32%,其中以《農(nóng)業(yè)圖書情報學刊》、《情報科學》、《現(xiàn)代情報》、《情報雜志》等刊物發(fā)表數(shù)量最多。
圖1 各年發(fā)表數(shù)量統(tǒng)計
表2.2.3 作者統(tǒng)計
國內(nèi)在各學術期刊發(fā)表文獻計量學研究領域論文的第一作者人數(shù)為4276人,其中發(fā)表數(shù)量超過2篇的有971人,發(fā)表文章總數(shù)為2699篇。根據(jù)普賴斯文獻分布定律,將發(fā)文量超過6篇的作者定為核心作者,符合條件的作者共有60人,發(fā)表數(shù)為632篇,發(fā)表論文20篇以上的共有6人,其中邱均平教授以52篇居首位。
2.2.4 關鍵詞統(tǒng)計
本文所統(tǒng)計文獻共有5356個關鍵詞,其中只出現(xiàn)一次的有3931個,占總數(shù)的73.3%,詞頻在10次以上的有163個,占總數(shù)的3%,詞頻在40次以上的有32個,占總數(shù)的0.5%(表2)。其中“引文分析”、“核心期刊”、“統(tǒng)計分析”、“文獻計量”等關鍵詞的使用頻率遠遠高于其他關鍵詞。
2.3 統(tǒng)計結果分析
根據(jù)統(tǒng)計結果,文獻計量學研究的學術論文在逐年不斷增加,特別是在進入本世紀以后文獻數(shù)據(jù)量增速明顯,這說明文獻計量學在各個學科的研究工作中逐步受到重視和應用,形成了以《農(nóng)業(yè)圖書情報學刊》、《情報科學》、《現(xiàn)代情報》、《情報雜志》等學術期刊為代表的專業(yè)學術交流平臺,逐步形成了核心研究隊伍,以武漢大學邱均平教授為首的60名核心作者撰寫的論文數(shù)量占總論文數(shù)量的15%,他們的研究成果基本上代表了國內(nèi)文獻計量學研究的方向。對關鍵詞詞頻的統(tǒng)計結果顯示,文獻計量學領域的研究熱點集中于“引文分析”、“期刊”、“科學計量”、“影響因子”、“定量分析”等主題上。
3 GEPHI可視化分析
3.1 數(shù)據(jù)類型
對文獻信息數(shù)據(jù)處理后,用Excel生成包含數(shù)據(jù)節(jié)點和連接關系的.CSV文件,導入GEPHI,軟件將會自動合并相同節(jié)點,并對數(shù)據(jù)節(jié)點連接的次數(shù)進行計算。
3.2 數(shù)據(jù)分析
將文獻計量學研究領域有文獻創(chuàng)作合作關系的前60位作者的合作關系共詞矩陣用EXCEL進行處理后導入GEPHI,然后對作者合作關系網(wǎng)絡進行網(wǎng)絡密度、直徑和模塊化分析,并繪制出合作關系圖譜,將本研究領域的研究合作關系直觀地呈現(xiàn)出來。
3.2.1 網(wǎng)絡密度分析
網(wǎng)絡密度反映網(wǎng)絡的完整性,如果一個復雜關系網(wǎng)絡中任意的節(jié)點之間都有邊連接,那么這個網(wǎng)絡的密度為1,這種網(wǎng)絡的可到達性是最好的,反之如果網(wǎng)絡密度越小,那么網(wǎng)絡的完整性越差。文獻計量學研究領域的合作網(wǎng)絡的密度計算結果為0.002,與完整網(wǎng)絡的差距較大,這說明文獻計量學研究領域作者合作較少。
3.2.2 網(wǎng)絡直徑分析
網(wǎng)絡直徑是指網(wǎng)絡內(nèi)最長的兩個節(jié)點之間的連接數(shù)(直接連接的兩個節(jié)點之間的距離為1),文獻計量學領域作者合作網(wǎng)絡的直徑和平均連接長度,結果顯示網(wǎng)絡直徑為4,平均連接長度約為1.57,最短長度連接個數(shù)為886,從這個結果來看,該合作網(wǎng)絡的網(wǎng)絡群體內(nèi)的連接較為緊密,但是對一個擁有60個節(jié)點的關系網(wǎng)絡來說,連接數(shù)目還是比較小的。endprint
3.2.3 網(wǎng)絡模塊化分析
文獻計量研究領域的合作關系網(wǎng)絡的模塊化分析結果顯示模塊度系統(tǒng)為0.917,接近于最大值1,社區(qū)數(shù)量為45。模塊度系數(shù)越高說明合作群體的組內(nèi)連接越緊密,但是合作群體之間的連接越少,表明文獻計量學研究領域的45個合作群體在學科領域跨單位或者跨機構的合作比較少。[4]
3.3 繪制圖譜
使用“ForceAtlas 2”算法插件生成文獻定量分析研究領域的作者合作關系圖譜(圖2),可以看到研究領域的的合作群體邊界清晰,核心人物地位顯著,在這些群體中規(guī)模比較大的群體核心人物有李成建、邱均平、柯銀花、文庭孝、楊華等,但是在這45個合作群體中與其他群體發(fā)生合作關系連接的只有8個,合作關系連接數(shù)量只有李成建組與柯銀花組較多,達到7個連接,而其余組與其他群體的合作關系連接數(shù)目都是1到2個。
圖2 作者合作網(wǎng)絡圖譜
4 結論
GEPHI對關系網(wǎng)絡的分析功能使它完全能夠滿足文獻計量分析工作的基本需求,特別是其強大的可視化計算功能使它能夠?qū)⑽墨I定量分析的結果直觀地以圖譜的形式呈現(xiàn)出來,是繪制文獻作者合作網(wǎng)絡和文獻共現(xiàn)關系網(wǎng)絡的得力工作。本文通過對文獻計量學方法對文獻的發(fā)表數(shù)量、來源刊物、作者、關鍵詞等進行了基本的頻次統(tǒng)計,揭示出該學科研究領域的研究現(xiàn)狀和發(fā)展規(guī)律。對文獻計量學研究領域的作者合作關系網(wǎng)絡進行了網(wǎng)絡點度中心度、網(wǎng)絡密度和網(wǎng)絡直徑測量,并基于網(wǎng)絡模塊化分析結果繪制出了作者合作關系網(wǎng)絡圖譜,直觀地反映出本學科合作群體內(nèi)部與之間的合作關系特點,揭示出了文獻計量學研究速度加快、規(guī)模擴大以前沿熱點不斷出現(xiàn)等特點,也提出了研究領域內(nèi)的合作群體內(nèi)部關系緊密、但是之間的合作很少,影響了學科交叉融合與發(fā)展,是目前需要解決的問題。
基金項目
南陽市科技發(fā)展規(guī)劃項目,編號:2013RK008。
參考文獻
[1]裴雷,馬費成.社會網(wǎng)絡分析在情報學中的應用和發(fā)展[J].圖書館論壇,2006,26(6):40-45.DOI:10.3969/j.issn.1002-1167.2006.06.010.
[2]Mathieu Bastian,Sebastien Heymann,Mathieu Jacomy et al.Gephi: An Open Source Software for Exploring and Manipulating Networks[C].//Proceedigns of the Third International AAAI Conference on Weblogs and Social Media.2009:361-362.
[3]劉啟元,葉鷹.文獻題錄信息挖掘技術方法及其軟件SATI的實現(xiàn)—以中外圖書情報學為例[J].信息資源管理學報,2012(01):50-58.
[4]張聰,沈惠璋.基于譜方法的復雜網(wǎng)絡中社團結構的模塊度[J].系統(tǒng)工程理論與實踐,2013,33(5):1231-1239.
作者簡介
李國棟(1972-),男,河南南陽人,館員,碩士,主要研究文獻為文獻情報信息服務創(chuàng)新以及數(shù)字資源開發(fā)建設。endprint