楊秀璋,武帥,夏換,趙紫如,朱滌塵,張亞成,竇悅琪
(1.貴州財經大學信息學院,貴陽550025;2.貴州財經大學,貴州省經濟系統(tǒng)仿真重點實驗室,貴陽550025;3.貴州財經大學,貴州省電子商務大數據營銷工程研究中心,貴陽550025)
清水江是貴州省第二大江,是長江支流沅江上游的主要河段,流經都勻市、麻江縣、凱里市、臺江縣、劍河縣、錦屏縣,最終從天柱縣流出貴州省。清水江流域受其千百年來滋養(yǎng)和沉淀,孕育出清水江流域文化。清水江流域既是以苗族為主、侗族為輔的少數民族地區(qū),又是民族文化聚集地,還是考古挖掘與發(fā)現(xiàn)地區(qū)。加強清水江流域文化的研究,不僅具有重要的研究價值,還具備民族文化傳承與弘揚的現(xiàn)實價值。
清水江流域文化作為中國少數民族文化的重要組成部分,其相關學術文獻是清水江流域文化的交流與傳播的重要載體。大數據環(huán)境下,文學和民族學研究成果層出不窮,學者各抒己見,通過文獻分析識別核心作者、學科主題已成為研究熱點[1],決定著學科方向以及學術成果的質量。傳統(tǒng)的分析方法是通過發(fā)文量來認定,而忽略了論文的質量,缺乏利用社交網絡或知識圖譜技術構建核心作者間的關系,識別結果往往存在片面性[2]。同時,傳統(tǒng)的文獻分析方法缺乏數字化、智能化分析,較難系統(tǒng)全面地挖掘研究領域知識以及精確識別文獻作者合作關系。針對這些不足,本文提出一種基于文獻計量和社交網絡的清水江流域文化的相關期刊文獻研究方法。
文獻計量是指運用數學以及統(tǒng)計學方法,定量分析學術文獻的一種方法。近年來,隨著數據挖掘和文獻分析的發(fā)展,越來越多的學者致力于學術文獻研究。楊秀璋[3]運用文獻計量分析以及知識圖譜對水族文獻進行了計量研究,為水族文化的研究和發(fā)展提供了相關啟示。鄒鼎杰[4]結合文獻計量對民國文獻進行分析,提出民國文獻的整理研究應從核心作者、期刊以及出版社開始,從而提升整理研究的整體效率。王耕等人[5]就Web of Science 數據庫中自然資本相關文獻進行文獻計量分析。楊建春等人[6]就民族地區(qū)扶貧期刊文獻進行文獻計量分析研究,得出研究總體呈現(xiàn)波動性增長趨勢。任俊霖等人[7]將河長制相關研究的期刊文獻進行文獻計量分析,得出隨著河長制在全國范圍推廣。
社交網絡算法(Social Network Algorithm)是一種可以識別強弱關系網絡的聚類算法,它可以運用知識圖譜的方式將彼此之間的關系進行形象化表示。節(jié)點代表對應的關系點,邊代表節(jié)點之間的關系,有向圖運用箭頭表示節(jié)點之間的關系,無向圖運用線段表示節(jié)點之間的關系[8]。社交網絡算法可將關系較為密切的節(jié)點聚集到類似區(qū)域,將關系稀疏的節(jié)點擴散到外圍,直觀地發(fā)現(xiàn)核心關系點。
社交網絡算法作為發(fā)現(xiàn)核心關系的主要方法,被廣泛運用于各類領域。楊秀璋等人[8]結合社交網絡分析得出中國電影市場的演員關系圖譜。Kanamori Mariano J.等人[9]結合社交網絡分析算法挖掘健康社會場所內部之間的結構特征和協(xié)助過程。黃煒等人[10]將廣度學習在異度社交網絡分析中進行運用,為其在情報領域應用奠定了理論基礎和技術支持。
本文依托社交網絡算法對清水江流域文化在中國知網(CNKI)公開收錄的期刊論文進行核心作者群體分析。
清水江流域文化作為苗族以及侗族等少數民族聚居區(qū),一直深受內外眾多學者關注。目前,清水江流域文化研究主要集中于日常習俗、經濟開發(fā)、環(huán)境保護以及清水江文書等領域。龍昭寶等人[11]對清水江流域的環(huán)境問題進行分析研究,并提出對應的可持續(xù)發(fā)展建議。楊軍昌等人[12]建議在建設旅游的同時,要與多種教育天然課堂相結合,從而達到文化傳承保護與鄉(xiāng)村旅游共贏的局面。陸躍升[13]詳細分析清水江流域的婚姻習俗演變歷程。
本文將結合文獻計量學和社交網絡分析方法,系統(tǒng)地對清水江流域文化相關期刊文獻進行分析;同時依據普賴斯定律確認出清水江流域文化相關期刊文獻的核心作者候選人,并結合發(fā)文量以及被引用量的綜合指數算法計算出清水江流域文化的核心作者;最后對期刊文獻的所有作者進行社交網絡算法分析,從而明確清水江流域文化的核心研究團隊。
本文旨在對清水江流域文化相關的期刊文獻進行文獻計量分析與研究,深度挖掘中國知網1958 年至2019 年所收錄的1013 篇清水江流域文化相關的文獻,并從高被引論文、年度發(fā)文量、核心期刊、主要研究機構、核心作者以及核心研究團隊等反向進行研究。
本文對清水江流域文化相關的期刊文獻具體分析框架如圖1 所示。主要包括清水江流域文化相關期刊文獻爬取、數據預處理、文獻計量分析研究、核心作者發(fā)現(xiàn)、社交網絡分析研究五個部分。
圖1 清水江流域文化研究框架圖
具體步驟如下:
(1)采用Python 環(huán)境下的Selenium 自定義網絡爬蟲,抓取中國知網清水江流域文化相關的文獻。過濾掉不相關及數據缺失的文獻之后,共抓取了1958 年至2019 年的期刊文獻1013 篇。
(2)對所爬取的期刊文獻數據進行預處理操作,包括數據清洗、異常值處理、殘缺值填補以及中分分詞,將處理好的數據集存于本地數據庫。
(3)對處理好的清水江流域文化相關的期刊文獻數據進行文獻計量分析,包括時間分布分析、核心論文發(fā)現(xiàn)、期刊機構挖掘以及發(fā)文機構分析。
(4)通過普賴斯定律篩選出清水江流域文化相關期刊文獻的核心作者候選人,結合綜合指數算法,從候選人中遴選出最終的清水江流域文化的核心作者,并進行排序對比。
(5)對所有清水江流域文化相關的期刊文獻作者進行社交網絡分析,運用Gephi 構建作者社交網絡,挖掘出清水江流域文化的核心研究團隊。
本文旨在挖掘中國知網數據庫中有關清水江流域文化的期刊文獻作品的核心作者以及核心研究團隊。首先,通過Chrome 驅動器進行Chrome Driver 環(huán)境配置;其次,設置清水江流域文化關鍵詞(Keyword)并檢索相關的期刊論文,調用Python 環(huán)境下的Selenium 自動化測試工具進行數據爬取;再次,借助Xpath 和正則表達式精準提取論文信息,包括文章標題、作者、來源、出版日期、文章摘要、關鍵詞、下載量以及被引用量等字段;最后,將所有爬取的文獻數據存儲至本地CSV 文件及數據庫中。
中國知網收錄的期刊論文不僅僅只包含論文,還包含部分期刊宣傳信息以及專欄回憶內容,甚至部分所抓取的論文缺失作者、摘要等信息。本文對抓取的期刊文獻數據進行預處理操作,從而獲取更好的半結構化數據,便于后續(xù)對清水江流域文化相關期刊文獻的數據分析和研究。本文所采用的數據預處理辦法主要包括數據清洗、異常值處理、中文分詞以及相關數值的抽取。
本文對清水江流域文化相關期刊文獻進行文獻計量分析,其分析結果采用Echarts 技術可視化呈現(xiàn)。清水江流域文化的文獻計量分析主要包括文獻綜合分析、高被引文獻分析、期刊機構分析以及核心發(fā)文單位分析。
本文借助Python 環(huán)境中的PyEcharts 模塊對清水江文獻進行可視化分析,生成圖2 所示的時間對比分析圖。圖2 的橫坐標表示1958 年至2019 年的時間流,縱坐標表示不同時間段的發(fā)文總量、最高下載量以及最高被引用量。
圖2 清水江文獻近年發(fā)文趨勢對比圖
由圖2 可知,清水江流域文化相關的期刊論文發(fā)文量呈遞增趨勢增長。其中,最高下載量為2008 至2009 年度胡小明等人[14]發(fā)表的《黔東南獨木龍舟的田野調查——體育人類學的實證研究(一)》論文,共計下載2534 次。最高被引用量為2004 至2005 年度韓貴琳等人[15]發(fā)表的《貴州喀斯特地區(qū)河流的研究——碳酸鹽巖溶解控制的水文地球化學特征》的論文,共計被引用117 次。最高發(fā)文量為2014 至2015 年度,共發(fā)表207 篇有關清水江流域文化有關的期刊文獻。如表1所示。
表1 清水江流域文化文獻發(fā)展情況表
一篇文章的影響力通常由該篇論文被引用次數所決定,被引用次數越高,該篇文章的價值就越高。本文清水江流域文化相關的1013 篇期刊論文共被引用3565 次,平均單篇文獻被引用3.52 次。表2 為清水江流域文化排名前十的高被引文獻,該十篇期刊論文被引用次數均在33 次以上,共被引用495 次,占清水江流域文化所有文獻共被引的14%。該十篇期刊論文中,有六篇被中文社會科學引文索引(CSSCI)所收錄,其核心研究主題分別為區(qū)域公共事務、獨木龍舟、清水江流域木材貿易、清水江文書、林業(yè)開發(fā)以及錦屏文書;有三篇被中國科學引文數據庫(CSCD)所收錄,其核心研究主題分別為水文地球化學特征、清水江流域豐水期水化學特征和離子來源以及稀有物種白甲魚;還有一篇被貴州大學學報(社會科學版)所收錄,其核心主題為清水江文書。其中被引用次數最多的為韓貴琳等人[15]于2005 年在《地球科學進展》(CSCD)所發(fā)表的《貴州喀斯特地區(qū)河流的研究——碳酸鹽巖溶解控制的水文地球化學特征》,共被引用117 次;緊跟其后的是劉亞平等人[16]于2006 年在《中山大學學報(社會科學版)》(CSSCI)所發(fā)表的《區(qū)域公共事務的治理邏輯:以清水江治理為例》,共被引用61 次;接著是胡小明等人[14]2009 年在《體育學刊》(CSSCI)所發(fā)表的《黔東南獨木龍舟的田野調查——體育人類學的實證研究(一)》,共被引用54 次。
對清水江流域文化有關期刊進行文獻計量分析,可作為研究清水江流域文化的重要參考文獻依據,高影響力期刊對清水江流域文化的傳承與弘揚起到至關重要的作用,是清水江流域文化研究的重要支柱。表3列舉了刊載清水江流域文化相關的期刊論文前十的期刊。其中發(fā)表有關清水江流域文化相關文獻最多的期刊為《原生態(tài)民族文化學刊》,共計發(fā)文181 篇,共被引用756 次,篇均被引用4.18 次,總下載量為36569 次,篇均下載202.04 次,最具代表的為徐曉光[23]等于2009年發(fā)表的《貴州“錦屏文書”的整理與研究》。篇均被引用最高的為《貴州文史叢刊》,共計發(fā)文15 篇,共被引用89 次,篇均被引用5.93 次,總下載量為2198 次,篇均下載146.53 次,最具代表的為楊有賡[24]于1990 年發(fā)表的《清代清水江林區(qū)林業(yè)租佃關系概述》。篇均下載最高的為《貴州民族研究》,共發(fā)文36 篇,總引用量為210 次,篇均被引用5.83 次,總下載量為8518 次,篇均下載236.61 次,最具代表的為張新民[20]于2010 年發(fā)表的《清水江文書的整理利用與清水江學科的建立——從<清水江文書集成考釋>的編纂整理談起》。
國內發(fā)文主要以機構為主,主要以各大高校、研究院、圖書館、事業(yè)單位以及部分公司為主。本文對抓取的1013 篇清水江流域相關期刊論文對第一作者所屬單位進行計量分析,表4 列舉出清水江流域文化核心發(fā)文機構前十名,其中貴州省貴陽市為主要研究城市,共計6 個研究機構。發(fā)表清水江流域文化相關的期刊論文最多的機構是貴州大學,共計發(fā)文180 篇,共被引用754 次,篇均被引4.19 次,總下載量達36092 次,篇均下載200.51 次,最具代表的為張新民[20]于2010 年發(fā)表于《貴州民族研究》的《清水江文書的整理利用與清水江學科的建立——從<清水江文書集成考釋>的編纂整理談起》。篇均被引用以及篇均下載最高的發(fā)文機構均為中山大學,共計發(fā)文40 篇,共被引用266 次,篇均引用6.65 次,總下載量達14462 次,篇均下載361.55 次。
表2 清水江流域文化高被引期刊文獻前10 名
表3 清水江流域文化重點發(fā)文期刊前10 名
表4 清水江流域文化核心發(fā)文機構前10 名
本文采用普賴斯定律[25]計算清水江流域文化相關期刊文獻的核心作者候選人,再根據綜合指數算法結合核心作者候選人的文獻發(fā)文量以及文獻被引用量來遴選出研究清水江流域文化的期刊論文核心作者。
普賴斯定律是研究科技情報學的主要方法之一,用來衡量各個學科領域文獻作者分布規(guī)律和,作為確認核心作者的重要指標之一。普賴斯定律確認核心作者候選人主要分為如下步驟:
(1)最低發(fā)文量Mp
通過普賴斯定律統(tǒng)計核心作者最低發(fā)文量Mp 來初選清水江流域文化相關期刊文獻的核心作者候選人,其計算公式如(1)所示:
公式(1)中Npmax表示普賴斯定律統(tǒng)計的清水江流域文化相關的期刊論文作者的最高發(fā)文量,其作者是林芊,共計發(fā)文23 篇。結合普賴斯定律初步計算,清水江流域文化相關期刊論文的核心作者最低發(fā)文量為4 篇。
(2)最低被引用量Mc
通過普賴斯定律統(tǒng)計核心作者最低被引用量Mc來初選清水江流域文化相關期刊文獻的核心作者候選人,其計算公式如(2)所示:
公式(2)中Ncmax表示普賴斯定律統(tǒng)計的清水江流域文化相關的期刊論文的單篇最高被引用量,清水江流域文化相關的期刊論文單篇被引用次數最高的是韓貴琳等人[15]于2005 年在《地球科學進展》所發(fā)表的《貴州喀斯特地區(qū)河流的研究——碳酸鹽巖溶解控制的水文地球化學特征》,被引用117 次。結合普賴斯定律計算,清水江流域文化相關期刊論文的核心作者最低被引用量需達到9 次以上。
(3)篩選核心作者候選人
結合步驟1 統(tǒng)計的最低發(fā)文量Mp 以及步驟2 統(tǒng)計的最低被引用量Mc,再次利用普賴斯定律進行統(tǒng)計,最終確認清水江流域文化有關期刊論文核心作者候選人共計96 位,共發(fā)表459 篇期刊論文,占清水江流域文化相關論文總數的45.31%,發(fā)表的相關論文共被引用2859 次。
本文結合綜合指數算法從普賴斯定律確認的96位清水江流域文化的核心作者候選人中遴選出影響力較高的前15 位核心作者,具體步驟如下:
(1)平均發(fā)文量xˉ確認
平均發(fā)文量xˉ的計算過程如公式(3)所示。其中,普賴斯定律預選確認的96 位核心作者候選人的總發(fā)文量記為X總,核心作者候選人總人數記為n。最終計算出清水江流域文化的核心作者平均發(fā)文量為4.78 篇。
(2)平均被引用量yˉ確認
平均被引用量yˉ的計算過程如公式(4)所示。其中,普賴斯定律預選確認的96 位核心作者候選人所發(fā)論文的總被引用量記為Y總,核心作者候選人總人數記為n。最終計算出清水江流域文化的核心作者所發(fā)論文的平均被引用總次數達29.78 次。
(3)綜合指數socrei遴選核心作者
結合平均發(fā)文量xˉ以及平均被引用量yˉ,運用綜合指數socrei公式(5)計算出第i 位核心作者候選人的綜合指數得分。其中,第i 位核心作者候選人的發(fā)文量記作xi,第i 位核心作者候選人所發(fā)期刊論文的被引用量記作yi。
通過對清水江流域文化的相關期刊論文的核心作者候選人進行綜合指數計算,最終遴選出前15 位核心作者,如表5 所示。由表可知,綜合指數排第一的是貴州師范大學的徐曉光[23],共計發(fā)文20 篇,其發(fā)表的期刊文獻共計被引用125 次,綜合指數為4.19,最具代表性的作品為2009 年發(fā)表于《原生態(tài)民族文化學刊》的《貴州“錦屏文書”的整理與研究》,該論文共被引用33 次;排名第二的是貴州大學的張新民[17],共計發(fā)文15 篇,其發(fā)表的期刊文獻共計被引用150 次,綜合指數為4.09,最具代表性的作品為2012 年發(fā)表于《貴州大學學報(社會科學版)》的《走進清水江文書與清水江文明的世界——再論建構清水江學的題域旨趣與研究發(fā)展方向》,該論文共被引用52 次;排名第三的是中山大學的張應強[19],共計發(fā)文18 篇,其發(fā)表的期刊文獻共計被引用127 次,綜合指數為4.01,最具代表性的作品為2002 年發(fā)表于《中國社會經濟史研究》的《從卦治<奕世永遵>石刻看清代中后期的清水江木材貿易》,該論文共被引用37 次。
社交網絡算法是一種可以識別強弱關系網絡的聚類算法,運用知識圖譜的方式將原本彼此之間的關系進行形象化表示。本文依托社交網絡算法挖掘清水江流域文化相關的期刊文獻的作者之間的合作關系及核心研究團隊。
本文采用Gephi 軟件分析中國知網所抓取的1013篇關于清水江流域文化期刊論文的作者關系,并繪制研究團隊的關系知識圖譜,過濾掉單一的關系之后生成如圖3 所示的社交網絡關系圖譜。其中節(jié)點表示每位作者,連線表示作者之間的合作研究關系。圖中可清晰看出清水江流域核心作者研究團隊主要有七個團隊,分別是以胡世然、李建光以及楊興為研究團隊的清水江水生物研究;楊世如、王廣進等人為研究團隊的獨木龍舟研究;張明、楊軍昌等人為研究團隊的清水江文書研究;龍澤江、李斌等人為研究團隊的清水江文書研究;盧定彪、王安華等人為研究團隊的新元古代下江群研究;徐曉光、羅康隆等人為研究團隊的清水江流域生態(tài)研究;安艷玲、吳起鑫等人為研究團隊的清水江流域生態(tài)研究等。
表5 清水江流域文化期刊文獻的核心作
圖3 清水江流域文化作者社交網絡關系圖譜
結合社交網絡分析,可看出清水江流域文化研究研究團隊主要以研究清水江文書以及清水江流域生態(tài)為主。張明等人研究團隊可與龍澤江等研究團隊互相交流,有利于更好地研究清水江文書。徐曉光等人研究團隊在研究清水江流域生態(tài)時,參考了清水江文書,已于龍澤江等人研究團隊進行了一定程度上的學術交流,對清水江流域文化的發(fā)展與弘揚都起著積極的作用。后期可加強與安艷玲等研究團隊,將清水江流域生態(tài)研究做的更加透徹,有利于清水江流域生態(tài)文明建設。
清水江流域受其千百年來滋養(yǎng)和沉淀,孕育出清水江流域文化。清水江流域文化作為中國少數民族文化的重要組成部分,是研究少數民族文化的重要依據,具有一定的研究意義與實用價值。隨著互聯(lián)網和計算機的發(fā)展,近年對清水江流域文化研究和清水江文書挖掘越來越多。相關學者從不同角度進行了探索與研究,但仍然缺乏數字化、智能化分析,較難系統(tǒng)全面地挖掘清水江流域文化特點以及精確識別文獻作者的合作關系。
針對這些不足,本文提出了一種基于文獻計量和社交網絡的清水江流域文化研究的分析方法,系統(tǒng)全面地挖掘了清水江流域文化相關的期刊文獻。本文通過Python 技術抓取了中國知網與清水江流域文化相關的1013 篇期刊文獻,采用文獻計量方法挖掘高影響力期刊、機構和單位,采用綜合指數法確定清水江流域文化的高引論文和核心作者,揭示清水江流域文化的演變歷程和研究主題,并通過社交網絡算法挖掘出相關作者的合作關系,識別核心科研團隊及其研究方向。本文梳理了清水江流域文化的期刊文獻,明確了核心作者、核心研究團隊及作者間的合作關系網絡。本文為清水江流域文化研究提供一定的理論依據和研究價值,有效促進了清水江流域文化的弘揚與發(fā)展,具有一定的研究意義以及實用價值。