關(guān)鍵詞: 科學(xué)數(shù)據(jù); 數(shù)據(jù)引用; 網(wǎng)絡(luò)建模; 結(jié)構(gòu)特征
DOI:10.3969 / j.issn.1008-0821.2024.05.004
〔中圖分類(lèi)號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 05-0001-02
科學(xué)數(shù)據(jù)主要指在科研活動(dòng)過(guò)程中加工產(chǎn)生或再利用的數(shù)據(jù)產(chǎn)品或數(shù)據(jù)資料, 通??梢园凑諄?lái)源劃分為實(shí)驗(yàn)數(shù)據(jù)、觀測(cè)數(shù)據(jù)和計(jì)算數(shù)據(jù), 或者按照產(chǎn)生方式劃分為原始數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和衍生數(shù)據(jù)[1] 。隨著開(kāi)放科學(xué)實(shí)踐受到越來(lái)越多的關(guān)注, 科學(xué)數(shù)據(jù)從共享、發(fā)布、重用到引用的各個(gè)環(huán)節(jié)都得到了大量研究, 尤其是科學(xué)數(shù)據(jù)引用作為數(shù)據(jù)評(píng)價(jià)和數(shù)據(jù)溯源的重要手段, 在科學(xué)數(shù)據(jù)相關(guān)研究中扮演著至關(guān)重要的角色。
數(shù)據(jù)引用通常指研究人員在文獻(xiàn)中以引用標(biāo)注的方式, 表明其所使用數(shù)據(jù)來(lái)源出處的行為[2] 。近年來(lái), 雖然科研人員已經(jīng)逐步意識(shí)到數(shù)據(jù)引用的重要性, 一些國(guó)際組織如OECD、ESIP、DCC 等也紛紛制定了科學(xué)數(shù)據(jù)引用規(guī)范[3] , 但由于數(shù)據(jù)隱私及版權(quán)保護(hù)機(jī)制不健全、不同學(xué)科領(lǐng)域數(shù)據(jù)形式差異較大等原因, 學(xué)術(shù)界和出版界在數(shù)據(jù)引用標(biāo)準(zhǔn)上尚未達(dá)成共識(shí), 數(shù)據(jù)引用仍然缺乏廣泛適用的統(tǒng)一標(biāo)準(zhǔn), 研究人員在數(shù)據(jù)引用方面依舊較為隨意, 這給依賴(lài)于數(shù)據(jù)引用的后續(xù)研究帶來(lái)了極大挑戰(zhàn)。此外,隨著科學(xué)數(shù)據(jù)數(shù)量的不斷增長(zhǎng), 數(shù)據(jù)之間的關(guān)系也變得錯(cuò)綜復(fù)雜, 對(duì)于數(shù)據(jù)的挖掘和利用變得愈發(fā)困難。國(guó)際數(shù)據(jù)公司(IDC)在其白皮書(shū)“Data Age 2025”中指出, 截至2020 年, 全球信息化數(shù)據(jù)總量已經(jīng)超過(guò)47ZB, 并有望在2025 年達(dá)到175ZB, 但僅有3%左右的數(shù)據(jù)得到開(kāi)發(fā)和利用[4] 。
隨著科學(xué)數(shù)據(jù)開(kāi)放共享與重復(fù)利用的需求日益顯著, 科學(xué)數(shù)據(jù)之間形成了一個(gè)龐大的復(fù)雜網(wǎng)絡(luò),利用數(shù)學(xué)和統(tǒng)計(jì)學(xué)的理論方法進(jìn)行科學(xué)數(shù)據(jù)的研究已無(wú)法全面反映科學(xué)數(shù)據(jù)的發(fā)展脈絡(luò)和全局特征。如何利用數(shù)據(jù)引用關(guān)系建立引用網(wǎng)絡(luò), 分析挖掘科學(xué)數(shù)據(jù)網(wǎng)絡(luò)的結(jié)構(gòu)特征和演化規(guī)律, 成為一個(gè)亟需研究的現(xiàn)實(shí)問(wèn)題。因此, 本研究的開(kāi)展一方面有利于細(xì)粒度挖掘科學(xué)數(shù)據(jù)之間的隱含聯(lián)系, 發(fā)現(xiàn)網(wǎng)絡(luò)中具有較高影響力的數(shù)據(jù)節(jié)點(diǎn), 了解科研方向的發(fā)展史與知識(shí)鏈, 快速獲取研究課題所需的數(shù)據(jù)集合;另一方面對(duì)于加速數(shù)據(jù)資源的獲取和重用, 提升自身所共享數(shù)據(jù)的影響力和傳播效果, 加強(qiáng)科學(xué)數(shù)據(jù)的管理與評(píng)價(jià)等工作都具有十分重要的研究?jī)r(jià)值和現(xiàn)實(shí)意義。
1 相關(guān)研究
科學(xué)數(shù)據(jù)引用的研究最早可以追溯到20 世紀(jì)70 年代。1979 年, Dodd S A[5] 就提出了引用數(shù)值數(shù)據(jù)文件的指導(dǎo)性建議, 從而可以更容易確定數(shù)據(jù)文件的可用性。隨后, 著名學(xué)者White H[6] 也指出,社會(huì)科學(xué)學(xué)者們應(yīng)該在著作中引用所使用的數(shù)據(jù)文件, 并以區(qū)別于正文的規(guī)范化參考格式列出。然而科學(xué)數(shù)據(jù)引用實(shí)踐的開(kāi)展并不順利, 相關(guān)研究也大多處于起步階段, 當(dāng)前圍繞科學(xué)數(shù)據(jù)引用的研究主要包括4 個(gè)方面的問(wèn)題, 即科學(xué)數(shù)據(jù)引用的參與主體、標(biāo)準(zhǔn)規(guī)范、技術(shù)方法和行為特征[7] 。
1.1 科學(xué)數(shù)據(jù)引用的參與主體
科學(xué)數(shù)據(jù)的生命周期包括數(shù)據(jù)產(chǎn)生、共享到重用的多個(gè)階段, 這也注定了科學(xué)數(shù)據(jù)引用是一個(gè)由多主體共同參與的活動(dòng)。當(dāng)前, 國(guó)內(nèi)外眾多學(xué)者從各種角度探討了科學(xué)數(shù)據(jù)引用的參與主體, 概括起來(lái)主要包括政府協(xié)會(huì)、研究(資助)機(jī)構(gòu)、數(shù)據(jù)機(jī)構(gòu)、出版機(jī)構(gòu)、圖書(shū)情報(bào)機(jī)構(gòu)和科學(xué)家等。具體來(lái)說(shuō), 政府協(xié)會(huì)是科學(xué)數(shù)據(jù)引用標(biāo)準(zhǔn)和政策的制定者,是科學(xué)數(shù)據(jù)引用發(fā)展規(guī)劃的頂層機(jī)構(gòu)[8] ; 研究(資助)機(jī)構(gòu)是科學(xué)數(shù)據(jù)引用發(fā)展的重要推動(dòng)者, 王思明等[9] 從科學(xué)數(shù)據(jù)引用流程出發(fā), 指出并肯定了研究(資助)機(jī)構(gòu)在科學(xué)數(shù)據(jù)提交、引用評(píng)價(jià)等階段發(fā)揮的重要作用; 數(shù)據(jù)機(jī)構(gòu)主要包括數(shù)據(jù)中心和數(shù)據(jù)倉(cāng)儲(chǔ), 由于科學(xué)數(shù)據(jù)學(xué)科差異大的特點(diǎn), 學(xué)科數(shù)據(jù)中心和特色數(shù)據(jù)倉(cāng)儲(chǔ)成為了科學(xué)數(shù)據(jù)引用原則與規(guī)范制定的重要參與者[10] ; 出版機(jī)構(gòu)包括數(shù)據(jù)庫(kù)商和學(xué)術(shù)期刊, 隨著科學(xué)數(shù)據(jù)的重要程度越來(lái)越高,出版機(jī)構(gòu)成為科學(xué)數(shù)據(jù)引用實(shí)踐的開(kāi)拓者; 圖書(shū)情報(bào)機(jī)構(gòu)作為文獻(xiàn)資料的核心管理者, 在科學(xué)數(shù)據(jù)管理和引用中也發(fā)揮著重要作用, 劉曉慧等[11] 提出,學(xué)術(shù)圖書(shū)館推動(dòng)數(shù)據(jù)引用的4 種角色, 即數(shù)據(jù)引用規(guī)范的制定者、數(shù)據(jù)引用服務(wù)的提供者、數(shù)據(jù)引用意識(shí)的宣傳者和數(shù)據(jù)引用平臺(tái)的建設(shè)者; 最后, 科學(xué)家是科學(xué)數(shù)據(jù)引用的執(zhí)行者, 是科學(xué)數(shù)據(jù)生產(chǎn)與引用的關(guān)鍵主體。
1.2 科學(xué)數(shù)據(jù)引用的標(biāo)準(zhǔn)規(guī)范
科學(xué)數(shù)據(jù)引用的標(biāo)準(zhǔn)規(guī)范對(duì)于科學(xué)數(shù)據(jù)管理和評(píng)價(jià)極其重要。因此, 國(guó)外早在2007 年就開(kāi)始了相關(guān)研究, Altman M 等[12] 發(fā)表研究論文, 對(duì)數(shù)據(jù)引用所需包含的最小元素集、可選元素等進(jìn)行了詳細(xì)分析, 并提出了數(shù)據(jù)引用標(biāo)準(zhǔn)規(guī)范的早期建議。此后, 眾多致力于數(shù)據(jù)引用的國(guó)際標(biāo)準(zhǔn)化組織和主要數(shù)據(jù)中心等紛紛提出了自己的科學(xué)數(shù)據(jù)引用規(guī)范指南文件, 如DataCite、OECD、PANGAEA、DCC 等。2013 年, 數(shù)據(jù)引用綜合工作組成立, 并于2014 年1 月正式發(fā)布《科學(xué)數(shù)據(jù)引用原則聯(lián)合聲明》, 聲明中提出的8 項(xiàng)原則, 包括重要性、信用與屬性、證據(jù)性、唯一標(biāo)識(shí)、訪問(wèn)獲取、持續(xù)性、明確性與可驗(yàn)證性、互操作性與靈活性, 該聲明得到眾多科學(xué)數(shù)據(jù)相關(guān)主體的支持, 成為當(dāng)前科學(xué)數(shù)據(jù)引用的基本原則。Starr J 等[13] 回顧了《科學(xué)數(shù)據(jù)引用原則聯(lián)合聲明》的主要內(nèi)容, 提出了具體可實(shí)施的數(shù)據(jù)引用框架和標(biāo)識(shí)符方案。我國(guó)國(guó)家標(biāo)準(zhǔn)自2018 年7 月起正式實(shí)施, 與《科技資源標(biāo)識(shí)》國(guó)家標(biāo)準(zhǔn)一起, 構(gòu)建了具備我國(guó)自主特色的科學(xué)數(shù)據(jù)引用標(biāo)準(zhǔn)和標(biāo)識(shí)系統(tǒng)。朱艷華等[14] 對(duì)我國(guó)《科學(xué)數(shù)據(jù)引用》國(guó)家標(biāo)準(zhǔn)的內(nèi)容進(jìn)行了解讀, 指出該國(guó)家標(biāo)準(zhǔn)的發(fā)布將為我國(guó)的科學(xué)數(shù)據(jù)共享和數(shù)據(jù)知識(shí)產(chǎn)權(quán)保護(hù)提供政策保障。
1.3 科學(xué)數(shù)據(jù)引用的技術(shù)方法
科學(xué)數(shù)據(jù)引用的技術(shù)研究主要集中在元數(shù)據(jù)和永久標(biāo)識(shí)符兩個(gè)方面, 元數(shù)據(jù)主要包括數(shù)據(jù)引用的必備元素、推薦元素和可選元素, 黃如花等[15] 以DataCite 為例, 對(duì)其元數(shù)據(jù)內(nèi)容及引用規(guī)范中的元數(shù)據(jù)元素進(jìn)行了詳細(xì)介紹與分析; 在引用標(biāo)識(shí)符研究方面, 目前國(guó)際上較為通用的科學(xué)數(shù)據(jù)資源引用標(biāo)識(shí)符包括基于數(shù)字化對(duì)象的標(biāo)識(shí)符DOI、基于對(duì)象的標(biāo)識(shí)符OID、基于科技資源的標(biāo)識(shí)STRI、我國(guó)科技資源標(biāo)識(shí)CSTR 等, 國(guó)際目前使用最廣泛的標(biāo)識(shí)系統(tǒng)是DOI[16] 。而科學(xué)數(shù)據(jù)引用的方法研究主要集中在對(duì)科學(xué)數(shù)據(jù)引用的識(shí)別方面, 科學(xué)數(shù)據(jù)的引用方式一般可以分為通過(guò)參考文獻(xiàn)列出的正式引用和通過(guò)正文提及等方式列出的非正式引用。由于當(dāng)前科學(xué)數(shù)據(jù)引用規(guī)范問(wèn)題還未得到很好地解決,科學(xué)數(shù)據(jù)還依賴(lài)于在文獻(xiàn)全文中進(jìn)行數(shù)據(jù)引用的識(shí)別和抽取。因此, 當(dāng)前科學(xué)數(shù)據(jù)引用識(shí)別主要集中在數(shù)據(jù)引用識(shí)別和抽取技術(shù)方法的研究, 主要方法可以歸納為基于人工標(biāo)注、術(shù)語(yǔ)搜索、特定規(guī)則和監(jiān)督學(xué)習(xí)4 類(lèi)[17] 。周佳茵等[18] 對(duì)現(xiàn)有數(shù)據(jù)引用實(shí)踐中的引用特征和數(shù)據(jù)引用識(shí)別方法, 進(jìn)行了總結(jié)分析, 并對(duì)存在的問(wèn)題和未來(lái)發(fā)展方向進(jìn)行了展望。
1.4 科學(xué)數(shù)據(jù)引用的行為特征
科學(xué)數(shù)據(jù)引用的行為特征研究涵蓋范圍較廣,既包括對(duì)于科學(xué)數(shù)據(jù)引用和重用行為特征規(guī)律的研究, 也包括科學(xué)數(shù)據(jù)引用和計(jì)量方面的研究。ParkH 等[19] 通過(guò)調(diào)研生物醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)引用現(xiàn)狀后發(fā)現(xiàn), 數(shù)據(jù)非正式引用比參考文獻(xiàn)中的數(shù)據(jù)正式引用更為常見(jiàn), 這給數(shù)據(jù)引用計(jì)量和評(píng)價(jià)造成了極大誤差和困難。王雪等[20] 對(duì)生物信息學(xué)領(lǐng)域的數(shù)據(jù)引用行為特征進(jìn)行分析, 構(gòu)建了基于文獻(xiàn)計(jì)量和網(wǎng)絡(luò)計(jì)量的數(shù)據(jù)引用行為評(píng)價(jià)模型。Henderson T等[21] 通過(guò)數(shù)據(jù)集名稱(chēng)、下載地址、作者等信息,識(shí)別并分析了達(dá)特茅斯大學(xué)CRAWDAD 無(wú)線數(shù)據(jù)集的被引情況, 發(fā)現(xiàn)論文中的數(shù)據(jù)引用仍然存在諸多不規(guī)范的問(wèn)題。焦紅等[22] 通過(guò)模式識(shí)別方法對(duì)生物醫(yī)學(xué)論文中提及的科學(xué)數(shù)據(jù)集, 進(jìn)行識(shí)別和抽取, 并分析了該領(lǐng)域科學(xué)數(shù)據(jù)集的復(fù)用特征, 研究發(fā)現(xiàn)科學(xué)數(shù)據(jù)能夠在一定程度上擴(kuò)大研究成果的影響力。沈婷婷[23] 通過(guò)內(nèi)容分析法分析了社會(huì)學(xué)領(lǐng)域數(shù)據(jù)重用及評(píng)估的實(shí)踐特點(diǎn)和發(fā)展趨勢(shì), 并對(duì)圖書(shū)館科學(xué)數(shù)據(jù)情報(bào)服務(wù)提出參考建議。張瑩等[24]以管理學(xué)權(quán)威期刊論文為分析樣本, 揭示了國(guó)內(nèi)管理學(xué)領(lǐng)域科研人員的數(shù)據(jù)重用行為特征。
從當(dāng)前研究可以看出, 圍繞科學(xué)數(shù)據(jù)引用的各層面研究都還處于起步階段, 尤其是科學(xué)數(shù)據(jù)引用網(wǎng)絡(luò)的研究還鮮有開(kāi)展。這是因?yàn)閿?shù)據(jù)引用網(wǎng)絡(luò)的建立非常依賴(lài)于出版商或科學(xué)數(shù)據(jù)庫(kù)提供的數(shù)據(jù)引用信息, 而由于相關(guān)信息的缺失和難以獲取等問(wèn)題,導(dǎo)致此類(lèi)研究的數(shù)據(jù)規(guī)模和范圍都難以滿足研究需求。因此, 本研究將以生物醫(yī)學(xué)領(lǐng)域?yàn)檠芯繉?duì)象,通過(guò)模式識(shí)別方法在大規(guī)模論文全文中抽取數(shù)據(jù)集的提及信息, 構(gòu)建論文與數(shù)據(jù)集間的引用關(guān)系, 并基于該引用關(guān)系構(gòu)建全領(lǐng)域科學(xué)數(shù)據(jù)引用網(wǎng)絡(luò), 再利用社會(huì)網(wǎng)絡(luò)分析方法, 從網(wǎng)絡(luò)結(jié)構(gòu)的角度分析生物醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)的引用特征和演化趨勢(shì)。
2 數(shù)據(jù)和方法
2.1 網(wǎng)絡(luò)建模
基于科學(xué)數(shù)據(jù)的元數(shù)據(jù)信息和論文與數(shù)據(jù)的引用信息可以分別構(gòu)建1-模網(wǎng)絡(luò)和2-模網(wǎng)絡(luò)。其中,利用科學(xué)數(shù)據(jù)的作者、機(jī)構(gòu)等元數(shù)據(jù)信息可以構(gòu)建作者合作網(wǎng)絡(luò)、機(jī)構(gòu)合作網(wǎng)絡(luò)等網(wǎng)絡(luò)模型, 進(jìn)而分析個(gè)人、機(jī)構(gòu)、國(guó)家的合作網(wǎng)絡(luò)特征, 理解不同層面的科學(xué)數(shù)據(jù)共享合作模式, 反映出科學(xué)合作對(duì)科學(xué)數(shù)據(jù)共享與重用的加強(qiáng)效果。該網(wǎng)絡(luò)為1-模網(wǎng)絡(luò), 節(jié)點(diǎn)為科學(xué)數(shù)據(jù)的作者、機(jī)構(gòu)等實(shí)體, 邊為實(shí)體間的合作關(guān)系; 利用論文與數(shù)據(jù)的引用信息可以構(gòu)建數(shù)據(jù)引用網(wǎng)絡(luò), 進(jìn)而從宏觀角度揭示科學(xué)數(shù)據(jù)在不同學(xué)科論文中的引用行為特征, 發(fā)現(xiàn)數(shù)據(jù)引用網(wǎng)絡(luò)的演化機(jī)制。該網(wǎng)絡(luò)不同于傳統(tǒng)引文網(wǎng)絡(luò), 是一個(gè)由論文和數(shù)據(jù)組成的2-模網(wǎng)絡(luò), 該網(wǎng)絡(luò)的節(jié)點(diǎn)為論文和數(shù)據(jù), 邊為論文與論文、論文與數(shù)據(jù)之間的引用關(guān)系; 利用數(shù)據(jù)與數(shù)據(jù)之間的共被引關(guān)系可以構(gòu)建數(shù)據(jù)共被引網(wǎng)絡(luò), 該網(wǎng)絡(luò)模型既能從宏觀角度揭示數(shù)據(jù)共被引網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和演化特征,也可以從微觀視角觀察網(wǎng)絡(luò)中的核心與邊緣節(jié)點(diǎn),發(fā)現(xiàn)并挖掘出有價(jià)值的科學(xué)數(shù)據(jù)。該網(wǎng)絡(luò)為1-模網(wǎng)絡(luò), 節(jié)點(diǎn)為科學(xué)數(shù)據(jù), 邊為數(shù)據(jù)與數(shù)據(jù)之間的共被引關(guān)系。3 種網(wǎng)絡(luò)模型如圖1 所示。
2.2 數(shù)據(jù)獲取
由于科學(xué)數(shù)據(jù)在論文中常以提及等非規(guī)范引用形式出現(xiàn), 為使本研究具備更強(qiáng)的普適性和魯棒性,避免現(xiàn)有數(shù)據(jù)引用庫(kù)信息滯后或不夠全面等問(wèn)題,科學(xué)數(shù)據(jù)引用關(guān)系的識(shí)別和抽取將采用基于規(guī)則的識(shí)別方法, 從生物醫(yī)學(xué)領(lǐng)域科學(xué)文獻(xiàn)全文中進(jìn)行獲取并構(gòu)建引用網(wǎng)絡(luò)。其中, 文獻(xiàn)數(shù)據(jù)來(lái)自NCBI 提供的免費(fèi)生物醫(yī)學(xué)期刊文獻(xiàn)全文數(shù)據(jù)庫(kù)PubMedCentral(PMC), 通過(guò)其提供的FTP 服務(wù)共獲得3 219 908篇文獻(xiàn)??茖W(xué)數(shù)據(jù)集數(shù)據(jù)來(lái)自于全球性基因表達(dá)綜合數(shù)據(jù)庫(kù)( Gene Expression Omnibus,GEO), 該數(shù)據(jù)庫(kù)是由NCBI 創(chuàng)建并維護(hù)的全球性高通量分子豐度數(shù)據(jù)庫(kù)[25] , 同時(shí)也是當(dāng)前全球存儲(chǔ)規(guī)模最大、數(shù)據(jù)最全面的基因表達(dá)數(shù)據(jù)庫(kù), 收錄了世界各國(guó)(地區(qū))研究者提交并共享的基因芯片數(shù)據(jù)和高通量測(cè)序數(shù)據(jù)。GEO 數(shù)據(jù)庫(kù)將用戶或科研人員遞呈和共享的數(shù)據(jù)進(jìn)行分類(lèi)存儲(chǔ)并為其分配一個(gè)唯一且永恒不變的登錄號(hào)(Accession Number), 并要求共享數(shù)據(jù)的研究文獻(xiàn)在公開(kāi)發(fā)表后, 將數(shù)據(jù)進(jìn)行公開(kāi)便于其他科研人員利用該數(shù)據(jù)進(jìn)行后續(xù)研究。
GEO 的原始數(shù)據(jù)分為平臺(tái)(Platform)、樣本(Sample)和系列(Series)。其中, 平臺(tái)包含用戶測(cè)定表達(dá)量所使用的芯片或測(cè)序平臺(tái)的描述信息和注釋信息, 通常包含多個(gè)樣本, 數(shù)據(jù)集名以“GPL”為前綴; 樣本用于記錄單樣本的基因表達(dá)測(cè)序信息,是原始實(shí)驗(yàn)結(jié)果的基本單位, 數(shù)據(jù)集名以“GSM”為前綴; 系列是由多個(gè)樣本組成的一項(xiàng)完整研究的數(shù)據(jù), 還包括整個(gè)研究的描述和總結(jié)分析, 數(shù)據(jù)集名以“GSE” 為前綴。本研究采用正則表達(dá)式, 對(duì)文獻(xiàn)中的登錄號(hào)信息進(jìn)行抽取, 規(guī)則為“G(?:PL|SM|SE) \d+”, 最終經(jīng)過(guò)抽取并清洗得到57 841個(gè)GEO 數(shù)據(jù)集被39 189篇文獻(xiàn)所引用, 引用次數(shù)合計(jì)294 517次, 存在GEO 數(shù)據(jù)集引用行為的文獻(xiàn)數(shù)量占全部文獻(xiàn)數(shù)量的1.22%。GEO 數(shù)據(jù)集的平均被引次數(shù)為5 次, 篇均引用數(shù)據(jù)集數(shù)量約為1.5 個(gè)。
因?yàn)楸疚年P(guān)注和研究的重點(diǎn)在于科學(xué)數(shù)據(jù)本身, 所以采用只包含數(shù)據(jù)節(jié)點(diǎn)和關(guān)系的數(shù)據(jù)共被引網(wǎng)絡(luò)模型進(jìn)行建模, 該網(wǎng)絡(luò)模型中節(jié)點(diǎn)為數(shù)據(jù)集,邊為數(shù)據(jù)共被引關(guān)系, 并從整體、個(gè)體和網(wǎng)絡(luò)社區(qū)3 個(gè)角度了解分析科學(xué)數(shù)據(jù)引用網(wǎng)絡(luò)的結(jié)構(gòu)和演化情況。網(wǎng)絡(luò)構(gòu)建過(guò)程如圖2 所示。
2.3 測(cè)度指標(biāo)
社會(huì)網(wǎng)絡(luò)分析是研究社會(huì)復(fù)雜系統(tǒng)的有效定量分析方法, 可以了解網(wǎng)絡(luò)整體關(guān)系結(jié)構(gòu)以及網(wǎng)絡(luò)結(jié)構(gòu)對(duì)群體內(nèi)部個(gè)體的影響, 常用的分析指標(biāo)包括節(jié)點(diǎn)和連邊數(shù)量、度和度分布、網(wǎng)絡(luò)密度、平均聚集系數(shù)、中心度、網(wǎng)絡(luò)社區(qū)等。
針對(duì)整體網(wǎng)絡(luò)結(jié)構(gòu)及演化情況, 本文分別從節(jié)點(diǎn)數(shù)、連邊數(shù)、度分布、網(wǎng)絡(luò)密度、平均聚集系數(shù)、平均路徑長(zhǎng)度等維度進(jìn)行分析。網(wǎng)絡(luò)密度表示整個(gè)網(wǎng)絡(luò)各個(gè)節(jié)點(diǎn)之間連接的緊密程度, 反映了各節(jié)點(diǎn)之間的合作緊密度以及網(wǎng)絡(luò)整體是向著“互鎖式網(wǎng)絡(luò)” 還是“輻射式網(wǎng)絡(luò)” 發(fā)展; 平均聚集系數(shù)表示局部節(jié)點(diǎn)之間的相互連接程度, 反映了相鄰節(jié)點(diǎn)間的緊密程度; 平均路徑長(zhǎng)度與網(wǎng)絡(luò)的整體流動(dòng)性相關(guān), 反映了網(wǎng)絡(luò)中信息傳播的效率。
針對(duì)網(wǎng)絡(luò)核心個(gè)體, 本文主要從節(jié)點(diǎn)中心性角度進(jìn)行分析, 主要包括度數(shù)中心度、中介中心度和接近中心度3 個(gè)指標(biāo)。其中, 度數(shù)中心度表示一個(gè)節(jié)點(diǎn)的直接影響力, 可以反映出與之直接相連節(jié)點(diǎn)數(shù)量的多少以及節(jié)點(diǎn)的中心性程度; 中介中心度表示網(wǎng)絡(luò)中一個(gè)節(jié)點(diǎn)對(duì)其他節(jié)點(diǎn)間交流起到的中轉(zhuǎn)功能, 反映了節(jié)點(diǎn)對(duì)資源的控制能力; 接近中心度表示網(wǎng)絡(luò)中一個(gè)節(jié)點(diǎn)到其他節(jié)點(diǎn)的效率高低, 反映了在傳遞信息方面對(duì)其他節(jié)點(diǎn)的依賴(lài)程度。
針對(duì)網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu), 本文采用Leiden 社區(qū)發(fā)現(xiàn)算法進(jìn)行網(wǎng)絡(luò)社區(qū)劃分, 并針對(duì)模塊度最大的社區(qū)劃分結(jié)果, 從社區(qū)整體結(jié)構(gòu)、社區(qū)內(nèi)部結(jié)構(gòu)、社區(qū)機(jī)構(gòu)合作、社區(qū)研究主題等角度進(jìn)行分析解讀。本文所使用的主要社會(huì)網(wǎng)絡(luò)分析指標(biāo)及參數(shù)說(shuō)明, 如表1 所示。
3 結(jié)果分析
3.1 整體網(wǎng)絡(luò)結(jié)構(gòu)及演化分析
在全部被引用的57 841個(gè)數(shù)據(jù)集中, 有50 005個(gè)數(shù)據(jù)集存在共被引情況, 占總數(shù)的86. 5%, 共被引次數(shù)2 739 214次。其中, 最早被共被引的數(shù)據(jù)集出現(xiàn)在2004 年, 研究人員使用了3 個(gè)數(shù)據(jù)集GPL205、GPL218、GPL356 進(jìn)行微陣列數(shù)據(jù)分析工具校正問(wèn)題的測(cè)試和研究。在此之后, 數(shù)據(jù)共被引網(wǎng)絡(luò)中節(jié)點(diǎn)和連邊數(shù)量呈顯著增加趨勢(shì), 尤其在2014 年有了一次跨越式的增長(zhǎng), 節(jié)點(diǎn)和連邊數(shù)量分別由2013 年的8 319個(gè)和121 041條猛增至2014年的12 996個(gè)和1 319 215條, 數(shù)據(jù)集被共同引用的規(guī)模急劇增加。
度和度分布能夠體現(xiàn)網(wǎng)絡(luò)中數(shù)據(jù)節(jié)點(diǎn)之間的連接規(guī)模和特點(diǎn)。經(jīng)計(jì)算, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中最大度為4 847, 該節(jié)點(diǎn)為昂飛(Affymetrix)公司提供的商業(yè)數(shù)據(jù)集GPL570。平均度由2004 年的2 增長(zhǎng)至2014 年的203, 其后一直穩(wěn)定在100 以上, 即平均每個(gè)數(shù)據(jù)集與100 個(gè)以上的數(shù)據(jù)集被共同引用,網(wǎng)絡(luò)整體連接規(guī)模較好, 節(jié)點(diǎn)平均度的年度分布如圖4(a)所示。對(duì)數(shù)據(jù)共被引網(wǎng)絡(luò)節(jié)點(diǎn)度分布進(jìn)行雙對(duì)數(shù)坐標(biāo)表示, 如圖4(b)所示, 可以發(fā)現(xiàn)絕大部分節(jié)點(diǎn)度很小, 只有少數(shù)節(jié)點(diǎn)度很大, 即大多數(shù)節(jié)點(diǎn)和其他節(jié)點(diǎn)具有很少的聯(lián)系, 只有為數(shù)不多的一些節(jié)點(diǎn)和其他節(jié)點(diǎn)有較多的聯(lián)系。GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的度分布近似于冪律分布, 表明該網(wǎng)絡(luò)具備“無(wú)標(biāo)度網(wǎng)絡(luò)” 特性。但與傳統(tǒng)BA 模型的冪律分布存在一定區(qū)別, 網(wǎng)絡(luò)中有一部分特殊節(jié)點(diǎn)的數(shù)量和度都較大, 這也導(dǎo)致網(wǎng)絡(luò)節(jié)點(diǎn)的平均度較大。
平均路徑長(zhǎng)度可以衡量網(wǎng)絡(luò)的整體連通性和全局效率, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的平均路徑長(zhǎng)度為4.7, 任意兩個(gè)數(shù)據(jù)集平均只需要經(jīng)過(guò)4 次連接就可以相互影響, 網(wǎng)絡(luò)的傳播效率較高, 具備“小世界” 特征。網(wǎng)絡(luò)密度反映的是共被引網(wǎng)絡(luò)整體節(jié)點(diǎn)間關(guān)聯(lián)的緊密程度, 網(wǎng)絡(luò)密度越大說(shuō)明數(shù)據(jù)的某些維度越相似, 容易被共同使用來(lái)進(jìn)行一項(xiàng)研究。由圖5 可以發(fā)現(xiàn), GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的整體密度隨時(shí)間逐步遞減, 隨著測(cè)序技術(shù)的更新?lián)Q代及研究物種的不斷豐富, GEO 的數(shù)據(jù)共被引網(wǎng)絡(luò)的節(jié)點(diǎn)不斷增加, 結(jié)構(gòu)呈現(xiàn)出輻射式網(wǎng)絡(luò)結(jié)構(gòu)發(fā)展態(tài)勢(shì), 加之?dāng)?shù)據(jù)的類(lèi)型不斷增多, 節(jié)點(diǎn)間的相似度不斷降低。聚集系數(shù)反映了網(wǎng)絡(luò)局部的聚集程度, 即如果某兩個(gè)數(shù)據(jù)集同時(shí)與第3 個(gè)數(shù)據(jù)集之間存在共被引關(guān)系, 則這兩個(gè)數(shù)據(jù)集之間存在共被引關(guān)系的概率。圖中可以發(fā)現(xiàn), GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的平均聚集系數(shù)一直穩(wěn)定在0.8 以上, 說(shuō)明局部相同領(lǐng)域內(nèi)的數(shù)據(jù)集被共同引用的概率極大。
3.2 網(wǎng)絡(luò)核心個(gè)體分析
網(wǎng)絡(luò)的整體結(jié)構(gòu)特征無(wú)法觀察節(jié)點(diǎn)在網(wǎng)絡(luò)中位置的完整信息, 而利用中心度指標(biāo)則可以進(jìn)一步研究各節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要程度, 具體包括度數(shù)中心度、中介中心度和接近中心度3 個(gè)指標(biāo)。
度數(shù)中心度的概念來(lái)自于社會(huì)計(jì)量學(xué)中的“明星” 概念, 即該點(diǎn)與網(wǎng)絡(luò)中的其他點(diǎn)有較多的直接聯(lián)系, 擁有較多的連邊。在GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中, 數(shù)據(jù)集的度數(shù)中心度就是與該數(shù)據(jù)集直接相連的其他數(shù)據(jù)集的個(gè)數(shù), 度數(shù)中心度高的數(shù)據(jù)集居于局部網(wǎng)絡(luò)的中心, 是其所在某個(gè)局部領(lǐng)域的核心數(shù)據(jù)集。GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的度數(shù)中心度前10 位的數(shù)據(jù)集信息, 如表2 所示。
由表2 可以看出, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的度數(shù)中心度前10 位的數(shù)據(jù)集公開(kāi)時(shí)間分布于2002—2013 年。其中, 前4 位的數(shù)據(jù)集類(lèi)型為平臺(tái)數(shù)據(jù),其余為系列數(shù)據(jù)。除美國(guó)生物芯片公司昂飛(Affy?metrix)、因美納(Illumina) 提供的商業(yè)數(shù)據(jù)集外,美國(guó)華盛頓大學(xué)共享的SARS 研究方面的數(shù)據(jù)集也得到了大量共被引, 體現(xiàn)出其在微生物及病毒研究方面的極強(qiáng)實(shí)力。
接近中心度是一種測(cè)度節(jié)點(diǎn)是否處于網(wǎng)絡(luò)核心位置的指標(biāo), 與度數(shù)中心度不同的是, 節(jié)點(diǎn)的連接數(shù)多少并不代表其是否處于整體網(wǎng)絡(luò)的核心位置。在GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中, 數(shù)據(jù)集的接近中心度即數(shù)據(jù)集到網(wǎng)絡(luò)中所有其他數(shù)據(jù)集路徑長(zhǎng)度之和的倒數(shù), 數(shù)據(jù)集的接近中心度越大, 該節(jié)點(diǎn)越接近網(wǎng)絡(luò)幾何結(jié)構(gòu)的中心位置。GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的接近中心度前10 位的數(shù)據(jù)集信息, 如表3 所示。
由表3 可以看出, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的接近中心度前10 位的數(shù)據(jù)集中, 公開(kāi)時(shí)間分布于2002—2011 年, 共有4 個(gè)數(shù)據(jù)集也出現(xiàn)在度數(shù)中心度前10 位中, 包括GPL570、GPL96、GPL6244和GPL10558。其中, 平臺(tái)數(shù)據(jù)與系列數(shù)據(jù)各占5位, 除前文提到的兩個(gè)美國(guó)公司以外, 還出現(xiàn)了美國(guó)安捷倫(Agilent)、杰羅科(Gene Logic)等公司提供的商業(yè)數(shù)據(jù)集。其余發(fā)布機(jī)構(gòu)為科研機(jī)構(gòu)和大學(xué),包括荷蘭伊拉斯姆斯醫(yī)學(xué)中心、西奈山醫(yī)學(xué)院和臺(tái)灣大學(xué), 這些機(jī)構(gòu)和大學(xué)提供的肝癌、肺癌和腫瘤基因組數(shù)據(jù)集在各自的研究領(lǐng)域中都處于較為核心的位置, 對(duì)相關(guān)研究起到非常重要的關(guān)鍵作用。
中介中心度用于測(cè)量網(wǎng)絡(luò)個(gè)體對(duì)資源的控制程度, 即測(cè)量一個(gè)點(diǎn)在多大程度上位于圖中其他點(diǎn)對(duì)最短路徑的中間位置。在GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中,如果一個(gè)數(shù)據(jù)集處于其他許多數(shù)據(jù)共被引對(duì)的捷徑上, 該數(shù)據(jù)集就具有較高的中介中心度。中介中心度與度數(shù)中心度沒(méi)有絕對(duì)的關(guān)聯(lián), 一個(gè)點(diǎn)度中心度相對(duì)較低的數(shù)據(jù)集也可能起到重要的“中介” 作用, 具有信息獲取優(yōu)勢(shì)和資源控制的重要地位。GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的中介中心度前10 位的數(shù)據(jù)集信息, 如表4 所示。
由表4 可以看出, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的中介中心度前10 位的數(shù)據(jù)集中, 公開(kāi)時(shí)間分布于2002—2013 年, 這些數(shù)據(jù)集在GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中的活躍度較高, 數(shù)據(jù)集之間的中轉(zhuǎn)較依賴(lài)于這些數(shù)據(jù)集。有39 486個(gè)數(shù)據(jù)集的中介中心度為0,表明近78 9%的數(shù)據(jù)集在網(wǎng)絡(luò)中極不活躍, 不承擔(dān)任何中介功能且對(duì)應(yīng)的度值也較低。除商業(yè)公司提供的平臺(tái)數(shù)據(jù)外, 由唐納德植物科學(xué)中心(Don?ald Danforth Plant Science Center)、北京大學(xué)、華盛頓大學(xué)、神經(jīng)分泌生物科學(xué)公司(Neurocrine Biosci?ences)共享的各類(lèi)物種和病毒的基因組測(cè)序數(shù)據(jù)集在網(wǎng)絡(luò)中都具備較強(qiáng)的控制能力, 在跨物種的交叉研究中起到重要的中介作用。
3.3 網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)特征及演化分析
GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的最大連通子圖包含34 404個(gè)節(jié)點(diǎn)和2 135 286條邊, 對(duì)其進(jìn)行社區(qū)劃分后共得到113 個(gè)社區(qū), 最優(yōu)模塊度Q = 0.683, 表明網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)顯著且劃分結(jié)果準(zhǔn)確度高。113個(gè)社區(qū)中, 規(guī)模最大的社區(qū)包含7 970個(gè)數(shù)據(jù)集,規(guī)模最小的社區(qū)僅包含3 個(gè)數(shù)據(jù)集, 社區(qū)規(guī)模存在顯著異質(zhì)性, 社區(qū)的整體結(jié)構(gòu)分布如圖6 所示。
圖中節(jié)點(diǎn)大小與社區(qū)節(jié)點(diǎn)數(shù)量成正比, 由圖6可以發(fā)現(xiàn), 網(wǎng)絡(luò)中存在3 個(gè)大型社區(qū), 社區(qū)的節(jié)點(diǎn)數(shù)量均超過(guò)4000, 而排名前10 位的社區(qū)節(jié)點(diǎn)總數(shù)達(dá)到26 551, 約占網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)的77. 2%。以社區(qū)內(nèi)部節(jié)點(diǎn)間的共被引關(guān)系構(gòu)建獨(dú)立的社區(qū)共被引網(wǎng)絡(luò), 計(jì)算節(jié)點(diǎn)數(shù)量前10 位的社區(qū)網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo),結(jié)果如表5 所示。
由表5 可知, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的社區(qū)內(nèi)部連通性和密度都好于整體網(wǎng)絡(luò), 規(guī)模較大的社區(qū)1和社區(qū)3 的平均聚集系數(shù)和網(wǎng)絡(luò)密度接近整體網(wǎng)絡(luò),但其他社區(qū)的網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo)均優(yōu)于整體網(wǎng)絡(luò)。尤其是社區(qū)4、社區(qū)8 和社區(qū)10 的平均度、網(wǎng)絡(luò)密度和平均聚集系數(shù)都較高, 表明這3 個(gè)社區(qū)內(nèi)部連接頻繁、聚集程度極高。10 個(gè)社區(qū)的平均路徑長(zhǎng)度均值為3.077, 說(shuō)明同一社區(qū)內(nèi)的兩個(gè)數(shù)據(jù)集只需經(jīng)過(guò)3 次連接就可以相互影響, 少于整體網(wǎng)絡(luò)的4次連接。網(wǎng)絡(luò)指標(biāo)充分表明, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)穩(wěn)定, 內(nèi)部節(jié)點(diǎn)相互影響較深, 已經(jīng)形成多個(gè)數(shù)據(jù)共被引群體。
按照社區(qū)進(jìn)行研究方向分析, 分別計(jì)算各個(gè)社區(qū)中數(shù)據(jù)集的樣本來(lái)源分布概率, 可得到GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的樣本來(lái)源分布, 如表6 所示。
由表6 可知, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的樣本來(lái)源呈現(xiàn)明顯的團(tuán)體結(jié)構(gòu), 根據(jù)樣本來(lái)源可以較為清晰地分辨出各個(gè)社區(qū)的主要研究方向和研究?jī)?nèi)容, 如社區(qū)3 的數(shù)據(jù)集主要用于淋巴細(xì)胞生物學(xué)相關(guān)的研究, 社區(qū)4 的數(shù)據(jù)集主要用于肺組織相關(guān)的癌癥及傳染疾病的研究, 社區(qū)5 的數(shù)據(jù)集主要用于植物方面的研究等, 社區(qū)分布具有較為明顯的研究領(lǐng)域集群特征。
按照社區(qū)進(jìn)行研究機(jī)構(gòu)和科研合作分析, 分別計(jì)算各個(gè)社區(qū)中數(shù)據(jù)集貢獻(xiàn)機(jī)構(gòu)的分布概率, 可得到GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的科研機(jī)構(gòu)分布, 如表7 所示。
由表7 可知, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的科研機(jī)構(gòu)和科研合作呈現(xiàn)明顯的團(tuán)體結(jié)構(gòu), 社區(qū)邊界清晰。除ENCODE 和布羅德研究所同屬于社區(qū)3和社區(qū)8 外, 各社區(qū)的科研機(jī)構(gòu)基本不存在重疊現(xiàn)象。如果某一個(gè)或幾個(gè)科研機(jī)構(gòu)在社區(qū)內(nèi)處于絕對(duì)的領(lǐng)先地位, 則代表該社區(qū)中的數(shù)據(jù)集基本來(lái)自于這些科研機(jī)構(gòu), 研究領(lǐng)域和科研方向具備高度集中性, 這也導(dǎo)致此類(lèi)社區(qū)內(nèi)部的網(wǎng)絡(luò)密度和連通性極高, 數(shù)據(jù)集被共同引用情況頻繁, 如社區(qū)4 的華盛頓大學(xué)、社區(qū)8 的ENCODE 等。
按照社區(qū)進(jìn)行測(cè)序平臺(tái)分析, 分別計(jì)算各個(gè)社區(qū)中數(shù)據(jù)集測(cè)序平臺(tái)的分布概率, 可得到GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的測(cè)序平臺(tái)分布, 如表8 所示。
由表8 可知, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的測(cè)序平臺(tái)也呈現(xiàn)較為明顯的團(tuán)體結(jié)構(gòu), 除社區(qū)1 和社區(qū)2 使用GPL570 和GPL96 平臺(tái)較多外, 其他社區(qū)的數(shù)據(jù)集基本都來(lái)自于不同的測(cè)序平臺(tái)。對(duì)平臺(tái)數(shù)據(jù)進(jìn)行進(jìn)一步研究發(fā)現(xiàn), 同一社區(qū)內(nèi)部的平臺(tái)數(shù)據(jù)基本都來(lái)自于同一測(cè)序設(shè)備或設(shè)備制造公司。如社區(qū)3 的GPL11154、GPL13112、GPL9250 等平臺(tái)數(shù)據(jù)均出自因美納公司的Genome Analyzer、HiSeq 2000等基因測(cè)序設(shè)備, 社區(qū)4 的GPL6480、GPL7202、GPL4134 等平臺(tái)數(shù)據(jù)均出自安捷倫公司的測(cè)序產(chǎn)品。這種現(xiàn)象說(shuō)明, 出自同一平臺(tái)或同一公司的數(shù)據(jù)進(jìn)行處理與合并分析得到的效果更好, 可以避免前期數(shù)據(jù)處理的復(fù)雜問(wèn)題, 因此常被用于同一項(xiàng)研究。
最后, 分別?。玻埃埃?年、2010 年、2015 年、2020年為時(shí)間節(jié)點(diǎn)生成網(wǎng)絡(luò)的整體結(jié)構(gòu), 可以更加直觀看到網(wǎng)絡(luò)整體結(jié)構(gòu)的演化情況, 如圖7 所示。
根據(jù)圖7 可以看出, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)在2005 年初期發(fā)展階段, 由于數(shù)據(jù)的數(shù)量較少, 這些數(shù)據(jù)被共同引用的次數(shù)較多, 但總體結(jié)構(gòu)比較清晰, 甚至開(kāi)始形成了兩個(gè)較大網(wǎng)絡(luò)社區(qū), 社區(qū)之間的界限也較為明顯。隨著數(shù)據(jù)的逐漸增多, 到2010年整個(gè)網(wǎng)絡(luò)的規(guī)模開(kāi)始增大, 社區(qū)結(jié)構(gòu)仍然較為明顯, 各社區(qū)節(jié)點(diǎn)數(shù)量趨向均勻, 但社區(qū)之間的連接增多, 說(shuō)明GEO 的數(shù)據(jù)的學(xué)科領(lǐng)域、物種、研究方向開(kāi)始細(xì)分, 但不同領(lǐng)域的數(shù)據(jù)還存在關(guān)聯(lián), 因此常被共同使用和引用。到了2015 年, 網(wǎng)絡(luò)規(guī)模呈指數(shù)級(jí)增長(zhǎng), 但從整體來(lái)看, 網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)依然較為清晰, 社區(qū)與社區(qū)之間存在一定聯(lián)系, 但研究邊界依然存在。到2020 年, 網(wǎng)絡(luò)核心區(qū)域的社區(qū)已經(jīng)開(kāi)始逐漸模糊, 各社區(qū)之間聯(lián)系明顯增強(qiáng),網(wǎng)絡(luò)中也形成了幾個(gè)超大規(guī)模社區(qū), 占據(jù)了網(wǎng)絡(luò)的主要位置。
4結(jié)論
本研究以生物醫(yī)學(xué)領(lǐng)域著名基因表達(dá)數(shù)據(jù)庫(kù)GEO 中的科學(xué)數(shù)據(jù)集為研究對(duì)象, 以數(shù)據(jù)集為節(jié)點(diǎn), 數(shù)據(jù)集之間的共被引關(guān)系為邊, 構(gòu)建了GEO數(shù)據(jù)共被引網(wǎng)絡(luò)。同時(shí), 運(yùn)用社會(huì)網(wǎng)絡(luò)分析方法對(duì)網(wǎng)絡(luò)的整體結(jié)構(gòu)演化和核心個(gè)體進(jìn)行分析, 并在此基礎(chǔ)上運(yùn)用Leiden 算法進(jìn)行社區(qū)劃分, 進(jìn)而分析其群體分布和結(jié)構(gòu)特征, 得到以下結(jié)論:
1) GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的規(guī)模隨著時(shí)間增長(zhǎng)迅速, 尤其是2014 年后隨著科學(xué)范式的發(fā)展轉(zhuǎn)變,網(wǎng)絡(luò)規(guī)模形成了指數(shù)級(jí)增長(zhǎng)態(tài)勢(shì)。數(shù)據(jù)集的度和度分布差異明顯, 分布趨勢(shì)近似于冪律分布, 呈現(xiàn)出“無(wú)標(biāo)度網(wǎng)絡(luò)” 特征。此外, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)具有較短的平均路徑長(zhǎng)度和較大的平均聚集系數(shù),網(wǎng)絡(luò)平均路徑長(zhǎng)度僅為4.7, 意味著該網(wǎng)絡(luò)雖然規(guī)模龐大, 但大部分?jǐn)?shù)據(jù)集之間都可以通過(guò)4 次中轉(zhuǎn)取得聯(lián)系, “小世界網(wǎng)絡(luò)” 特征明顯。
2) 知名生物技術(shù)公司提供的商業(yè)數(shù)據(jù)集在網(wǎng)絡(luò)中占據(jù)絕對(duì)的核心地位, GPL570、GPL96、GPL6244等平臺(tái)數(shù)據(jù)集均具備較大的接近中心度和中介中心度, 在網(wǎng)絡(luò)中處于幾何位置中心的同時(shí)也承擔(dān)了主要中介功能。另外, 78.9%的數(shù)據(jù)集在網(wǎng)絡(luò)中極不活躍, 不承擔(dān)任何中介功能且對(duì)應(yīng)的度值也較低,在網(wǎng)絡(luò)中處于邊緣的端點(diǎn)位置。
3) GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中的數(shù)據(jù)集可劃分為113 個(gè)社區(qū), 超過(guò)1 000個(gè)節(jié)點(diǎn)的社區(qū)有5 個(gè), 100~1 000個(gè)節(jié)點(diǎn)的社區(qū)有29 個(gè), 其余79 個(gè)社區(qū)包含的數(shù)據(jù)集節(jié)點(diǎn)在100 以?xún)?nèi), 社區(qū)規(guī)模差異較大。社區(qū)內(nèi)部的網(wǎng)絡(luò)密度、平均聚集系數(shù)、平均路徑長(zhǎng)度均優(yōu)于整體網(wǎng)絡(luò), 社區(qū)的結(jié)構(gòu)穩(wěn)定, 內(nèi)部節(jié)點(diǎn)相互影響程度深, 目前已經(jīng)形成了多個(gè)數(shù)據(jù)共被引群體。
4) 通過(guò)樣本來(lái)源、科研機(jī)構(gòu)和測(cè)序平臺(tái)的分布, 可以較為明顯地分析出社區(qū)形成的原因。首先,不同社區(qū)包含的樣本來(lái)源可以較為明顯地凸顯出社區(qū)所屬的研究領(lǐng)域; 其次, 不同社區(qū)的科研機(jī)構(gòu)也體現(xiàn)出了社區(qū)的研究領(lǐng)域和科研方向具備高度集中性, 與科研機(jī)構(gòu)的研究領(lǐng)域和合作方向有著緊密關(guān)聯(lián); 最后, 通過(guò)社區(qū)內(nèi)測(cè)序平臺(tái)的分布可以發(fā)現(xiàn),出自同一平臺(tái)或同一公司的數(shù)據(jù)進(jìn)行處理與合并分析得到的效果更好, 因此常被科研人員用于同一項(xiàng)研究中。
5) 從網(wǎng)絡(luò)整體結(jié)構(gòu)演化趨勢(shì)看, GEO 數(shù)據(jù)知識(shí)擴(kuò)散網(wǎng)絡(luò)的規(guī)模日益增大, 網(wǎng)絡(luò)中形成幾個(gè)超大規(guī)模社區(qū), 占據(jù)了主要的資源位置。網(wǎng)絡(luò)結(jié)構(gòu)變得日趨復(fù)雜, 社區(qū)與社區(qū)間的界限變得模糊, 信息交換變得更加頻繁, 不同領(lǐng)域、物種、平臺(tái)的數(shù)據(jù)被共同使用和引用的現(xiàn)象變得越來(lái)越多。
本文研究只針對(duì)GEO 數(shù)據(jù)庫(kù)中的科學(xué)數(shù)據(jù)集進(jìn)行研究和建模, 研究范圍存在一定局限性。此外,對(duì)于數(shù)據(jù)引用網(wǎng)絡(luò)的研究目前還處于起步階段, 對(duì)于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征以及網(wǎng)絡(luò)的演化過(guò)程關(guān)注較多。希望本文能夠?yàn)橄嚓P(guān)研究提供思路, 便于后續(xù)研究利用更深入的理論和技術(shù), 挖掘出科學(xué)數(shù)據(jù)引用更深層次的特征和規(guī)律。
(責(zé)任編輯: 郭沫含)