楊秀璋 夏換 于小民 項(xiàng)美玉
摘? 要: 大數(shù)據(jù)時(shí)代,科研成果層出不窮,為了讓科研工作者在海量文獻(xiàn)中精準(zhǔn)識別出文獻(xiàn)的核心作者和科研群體,挖掘出作者間的合作關(guān)系,文章提出了一種基于綜合指數(shù)和知識圖譜的水族文獻(xiàn)核心作者群識別方法。該方法采用Python抓取中國知網(wǎng)1953至2018年間990篇水族文獻(xiàn),結(jié)合發(fā)文量和被引用量構(gòu)建綜合指數(shù)遴選水族文獻(xiàn)核心作者前20位,基于知識圖譜和共現(xiàn)矩陣構(gòu)建水族文獻(xiàn)作者間的合作關(guān)系。據(jù)此梳理出我國水族文獻(xiàn)的核心科研群體,明晰了水族研究的核心人物和團(tuán)隊(duì)現(xiàn)狀,為水族文化研究提供了科學(xué)指引和參考依據(jù),對傳承與弘揚(yáng)民族傳統(tǒng)文化具有重要意義。
關(guān)鍵詞: 水族文獻(xiàn); 知識圖譜; 綜合指數(shù); 核心作者群; 普賴斯定律
中圖分類號:TP391? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號:1006-8228(2019)04-13-05
Abstract: In the era of big data, scientific research results have emerged in an endless stream. To accurately identify the core authors and research groups in the vast literature, and to explore the cooperation between authors, this paper proposes a method for identifying the core authors of Shui literature based on comprehensive index and knowledge map. This method uses Python to capture 990 Shui documents from 1953 to 2018 in China, and combines the volume of publications and the cited quantity to construct a comprehensive index to select the top 20 core authors of Shui literature. Based on the knowledge map and co-occurrence matrix, the authors of Shui literature are constructed. On this basis, the core scientific research groups of China's Shui Nationality literature are sorted out, and the core figures and team status in studying Shui Nationality are clarified, which provides scientific guidance and reference basis for the study of Shui culture, and is of great significance for inheriting and carrying forward the national traditional culture.
Key words: Shui literature; knowledge map; comprehensive index; core author group; Price's law
0 引言
核心作者是學(xué)科研究的堅(jiān)實(shí)基礎(chǔ)[1],決定著學(xué)術(shù)成果的質(zhì)量。隨著學(xué)術(shù)成果呈爆炸式增長,如何精準(zhǔn)地識別出文獻(xiàn)的核心作者和科研群體變得越來越困難。傳統(tǒng)的核心作者識別方法是看發(fā)文量而忽視了論文的質(zhì)量,缺乏利用知識圖譜或社交網(wǎng)絡(luò)技術(shù)構(gòu)建核心作者間的關(guān)系,識別結(jié)果也往往比較片面[2]。
近年來,國內(nèi)外學(xué)者致力于學(xué)術(shù)文獻(xiàn)研究。姜春林通過文獻(xiàn)計(jì)量歷時(shí)法對《科學(xué)學(xué)研究》做出全面的計(jì)量分析[3]。梁永霞等基于CSSCI中國引文數(shù)據(jù)進(jìn)行了分析和可視化研究[4]。黃曉斌等統(tǒng)計(jì)、分析我國情報(bào)學(xué)高被引論文,展示情報(bào)學(xué)的發(fā)展歷程和學(xué)科主題[5]。蔡文伯等通過計(jì)量分析方法研究我國民族教育文獻(xiàn)態(tài)勢[6]。王宗水等基于1998-2014年中國社會科學(xué)引文數(shù)據(jù)分析社會網(wǎng)絡(luò)范式的演化與發(fā)展[7]。徐庶睿等利用引文內(nèi)容進(jìn)行主題學(xué)科交叉類型分析[8]。同時(shí),隨著機(jī)器學(xué)習(xí)和人工智能技術(shù)迅速發(fā)展,知識圖譜和社交網(wǎng)絡(luò)技術(shù)也被運(yùn)用來挖掘?qū)W科核心作者,分析學(xué)科發(fā)展脈絡(luò)。羅雙玲等提出了基于半積累引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的學(xué)科領(lǐng)域主題演化分析方法,并應(yīng)用于“合作演化”領(lǐng)域[9]。馬文博等通過文獻(xiàn)計(jì)量方法和知識圖譜分析《經(jīng)濟(jì)研究》近十年載文[10]。任曉松等歸納研究中國碳排放熱點(diǎn)演化并構(gòu)建知識圖譜[11]。
水族是一個(gè)歷史悠久和文化古樸的民族,具有重要的歷史和文化價(jià)值[12]。1953年至2018年7月,中國知網(wǎng)共收錄水族相關(guān)文獻(xiàn)990篇,涉及水族文化、水族醫(yī)學(xué)、水書文字、水族體育等主題。水族文獻(xiàn)作為水族文化交流的重要載體,有效地推動水族文化的發(fā)展。當(dāng)前水族領(lǐng)域的研究更多的是采用傳統(tǒng)的查閱資料、現(xiàn)場考察及問卷調(diào)查的方法,核心作者識別僅考慮了發(fā)文量,沒有采用綜合指數(shù)和知識圖譜來研究水族文獻(xiàn),缺乏對水族核心作者和科研團(tuán)隊(duì)深層次地挖掘。針對這些不足,本文依據(jù)普賴斯定律來確定水族文獻(xiàn)核心作者候選人,提出了一種結(jié)合發(fā)文量和被引用量的綜合指數(shù)方法遴選水族文獻(xiàn)核心作者;基于知識圖譜和共現(xiàn)矩陣構(gòu)建水族核心科研群體及作者間合作關(guān)系。
1 研究方法
1.1 算法總體流程
本文旨在分析中國水族文獻(xiàn)的核心作者及科研群體,具體流程如圖1所示。
1.2 數(shù)據(jù)采集及預(yù)處理
本文旨在挖掘中國知網(wǎng)水族文獻(xiàn)的核心作者,分析水族科研群體及研究主題。抓取了中國知網(wǎng)1953年至2018年7月間990篇水族學(xué)術(shù)成果,詳細(xì)信息如表1所示。對所抓取的文獻(xiàn)進(jìn)行數(shù)據(jù)預(yù)處理,這是為了得到質(zhì)量更高和更完整的信息數(shù)據(jù),從而為后續(xù)的實(shí)驗(yàn)提供有效支撐。本文的數(shù)據(jù)預(yù)處理操作包括中文分詞、缺失值處理、停用詞過濾。
2 基于綜合指數(shù)的水族文獻(xiàn)核心作者分析
結(jié)合文獻(xiàn)的發(fā)文量和被引用量來綜合確定核心作者候選人,再通過普賴斯定律計(jì)算核心作者候選人的最低發(fā)文量和最低被引用量,只要符合兩者之一則可以作為核心作者候選人進(jìn)入測評樣本[13],再進(jìn)一步計(jì)算水族文獻(xiàn)的核心作者。步驟如下:
3 基于知識圖譜的水族核心作者群分析
針對水族文獻(xiàn)核心作者群分析,本文提出了一種基于知識圖譜和共現(xiàn)矩陣的識別方法,構(gòu)建中國知網(wǎng)水族文獻(xiàn)作者間的關(guān)系,從而挖掘出對水族文化做出重要貢獻(xiàn)的科研群體。其分析流程如下:
首先計(jì)算出1953-2018年收錄于中國知網(wǎng)的990篇水族學(xué)術(shù)成果的所有作者名單。
構(gòu)建水族學(xué)術(shù)成果作者間的共現(xiàn)矩陣。當(dāng)兩名作者合作完成一篇學(xué)術(shù)文章時(shí),則認(rèn)為共現(xiàn)并構(gòu)建一條相關(guān)聯(lián)的邊,其邊所對應(yīng)的權(quán)重加1;否則當(dāng)兩名作者沒有合作關(guān)系時(shí),其權(quán)重為0。
采用Gephi構(gòu)建水族作者間合作關(guān)系的知識圖譜,并得出如圖2所示的實(shí)驗(yàn)結(jié)果。圖2中圓圈代表發(fā)文作者,圓圈越大發(fā)文量越多,反之越少;連線代表作者間的合作關(guān)系,連線越粗合作次數(shù)越多,反之越少。該知識圖譜共構(gòu)建了497個(gè)核心作者和1095條關(guān)系,并將經(jīng)常合作的科研群體聚集在一起,形成了以余躍生、顧曉艷、何燕、吳昌學(xué)、劉世彬、單可人、戎聚全、潘朝霖等學(xué)者為核心的學(xué)術(shù)研究團(tuán)體。
為了更好地挖掘出水族文獻(xiàn)的核心科研團(tuán)隊(duì),本文通過計(jì)算每個(gè)節(jié)點(diǎn)的度和每條邊的權(quán)重,過濾掉合作較為單一的節(jié)點(diǎn)及關(guān)系,將水族領(lǐng)域的核心科研群體聚集在一起,得到如表3所示的五個(gè)水族文獻(xiàn)核心科研團(tuán)隊(duì),他們對水族領(lǐng)域的研究有著突出的貢獻(xiàn)。其中以余躍生、戎聚全、楊勝文等為首的科研團(tuán)隊(duì)來自黔南民族醫(yī)學(xué)高等??茖W(xué)校,主要研究方向?yàn)樗遽t(yī)學(xué)和水族基因,代表著作有《貴州水族人群線粒體DNA序列多態(tài)分析》、《貴州南部6個(gè)民族5對遺傳性狀的基因頻率》;以何燕、單可人、任錫麟等為首的科研團(tuán)隊(duì)來自貴陽醫(yī)學(xué)院,主要研究水族醫(yī)學(xué)及心血管疾病,代表著作有《貴州三都水族Y染色體單倍型頻率分析》、《貴州三都水族β-地中海貧血篩查及基因分析》;以顧曉艷、張東秀、王亞瓊等為首的團(tuán)隊(duì)研究方向?yàn)樗弩w育和水族傳承,來自黔南民族師范學(xué)院,代表著作有《水族傳統(tǒng)體育舞蹈的保護(hù)與傳承》、《對水族山寨原生態(tài)傳統(tǒng)體育文化的調(diào)查研究》;以趙凌、謝傳紅、石維武為首的科研團(tuán)隊(duì)主要研究水族音樂和水族樂器,來自黔南民族師范學(xué)院,代表著作有《貴州三都水族端節(jié)銅鼓音樂文化考察與分析》、《馬聯(lián)村水族端節(jié)銅鼓音樂文化初探》;以魏萍、韋艷萍、趙蘇萍等為首的科研團(tuán)隊(duì)主要研究水族兒童體格發(fā)育,來自黔南州中醫(yī)醫(yī)院,代表著作有《貴州省黔南州農(nóng)村布依、苗、水族兒童體格發(fā)育狀況調(diào)查及其影響因素分析》、《黔南州農(nóng)村水族和布依族7~12歲女性兒童骨骼發(fā)育差異性比較》。
4 結(jié)束語
本文采用基于綜合指數(shù)和知識圖譜的方法研究中國知網(wǎng)的水族文獻(xiàn),涉及1953-2018年共990篇水族領(lǐng)域的學(xué)術(shù)成果。實(shí)驗(yàn)結(jié)果表明,本文提出的基于普賴斯定律和綜合指數(shù)的文獻(xiàn)核心作者識別方法有效可行,從發(fā)文量和被引用量兩方面評估核心作者,并挖掘出水族文獻(xiàn)前20位核心作者,包括余躍生、顧曉艷、王亞瓊等。本文基于知識圖譜和共現(xiàn)矩陣的水族核心作者群識別方法,有效構(gòu)建了水族作者間的合作圖譜,挖掘出以余躍生、顧曉艷、何燕、吳昌學(xué)、劉世彬、單可人、戎聚全、潘朝霖等學(xué)者為核心的水族科研團(tuán)體,這些團(tuán)隊(duì)主要來自于黔南民族醫(yī)學(xué)高等專科學(xué)校、貴陽醫(yī)學(xué)院、黔南民族師范學(xué)院、黔南州中醫(yī)醫(yī)院等機(jī)構(gòu)。
本文提出的方法精準(zhǔn)地識別出水族研究的核心作者及科研團(tuán)隊(duì),展示了研究我國水族文化、水族醫(yī)學(xué)、水族體育、水族文字領(lǐng)域的專家人群及研究方向,有效地把握水族學(xué)科脈絡(luò),減輕了人力篩選和分析的負(fù)擔(dān),提高了研究效率和準(zhǔn)確度,為大數(shù)據(jù)時(shí)代提高論文索引效率、分析研究群體、識別核心作者提供有效支持。同時(shí),本文為下一步的水族文獻(xiàn)挖掘、追蹤水族源流、研究水族群體變遷、保護(hù)和傳承水族文化提供有效支撐,對傳承與弘揚(yáng)民族傳統(tǒng)文化具有重要意義,該研究成果具有一定的應(yīng)用前景和實(shí)用價(jià)值。
參考文獻(xiàn)(References):
[1] 廉清.《圖書情報(bào)工作》核心作者群分析研究[J].現(xiàn)代情報(bào),2004.11:55-59
[2] 鐘文娟.基于普賴斯定律與綜合指數(shù)法的核心作者測評——以《圖書館建設(shè)》為例[J].科技管理研究,2012.2:57-60
[3] 姜春林.基于文獻(xiàn)計(jì)量學(xué)歷時(shí)法引文的案例分析[J].現(xiàn)代情報(bào),2005.10:140-145
[4] 梁永霞,楊中楷,劉則淵.基于CSSCI的中國引文分析的可視化研究[J].情報(bào)研究,2008:34-38
[5] 黃曉斌,張歡慶.我國情報(bào)學(xué)高被引論文分析[J].情報(bào)科學(xué),2018.36(1):54-60
[6] 蔡文伯,馬杰.我國民族教育研究文獻(xiàn)態(tài)勢的計(jì)量分析[J].民族教育研究,2014.25(2):138-144
[7] 王宗水,趙紅,劉宇,秦續(xù)忠.社會網(wǎng)絡(luò)研究范式的演化、發(fā)展與應(yīng)用——基于1998~2014年中國社會科學(xué)引文數(shù)據(jù)分析[J].情報(bào)學(xué)報(bào),2015.34(12):1235-1245
[8] 徐庶睿,章成志,盧超.利用引文內(nèi)容進(jìn)行主題級學(xué)科交叉類x型分析[J].圖書情報(bào)工作,2017.61(23):15-24
[9] 羅雙玲,張文琪,夏昊翔.基于半積累引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的學(xué)科領(lǐng)域主題演化分析——以“合作演化”領(lǐng)域?yàn)槔齕J].情報(bào)學(xué)報(bào),2017.36(1):100-110
[10] 馬文博,陳占明.《經(jīng)濟(jì)研究》近十年載文的文獻(xiàn)計(jì)量與知識圖譜分析[J].現(xiàn)代情報(bào),2018.38(2):148-156
[11] 任曉松,孫天美,趙國浩.中國碳排放研究熱點(diǎn)演化知識圖譜分析[J].科技管理研究,2018.10:235-243
[12] 饒文誼,梁光華.關(guān)于水族水字水書起源時(shí)代的學(xué)術(shù)思考[J].原生態(tài)民族文化學(xué)刊,2009.4:90-93
[13] 丁學(xué)東.文獻(xiàn)計(jì)量學(xué)基礎(chǔ)[M].北京大學(xué)出版社,1992:204-209,220-232