孟佳琪 支鳳穩(wěn), 鄭彥寧
1.河北大學管理學院 保定 071002;
2.中國科學技術信息研究所 北京 100038
科學數(shù)據(jù)主要包括在自然科學、工程技術科學等領域,通過基礎研究、應用研究、試驗開發(fā)等產生的數(shù)據(jù),以及通過觀測監(jiān)測、考察調查、檢驗檢測等方式取得并用于科學研究活動的原始數(shù)據(jù)及其衍生數(shù)據(jù)[1]。在當今大數(shù)據(jù)時代,科學數(shù)據(jù)已經成為各國重要的戰(zhàn)略性科技資源[2],對其有效的管理與開放共享也直接關系著各國的資源利用率和國際競爭地位,作為推進各國科技創(chuàng)新、提高國家核心競爭力、促進社會經濟發(fā)展的重要舉措,科學數(shù)據(jù)共享的重要地位日益凸顯。科研數(shù)據(jù)共享的價值和意義最早可追溯到1985 年,美國科學院(National Academy of Sciences)指出科研數(shù)據(jù)共享能夠強化開放科學需求,并對原始的結論加以驗證和改進,進而幫助研究者們克服狹隘的觀點和主觀的態(tài)度[1]。
經過學者們的接續(xù)探索,有關科學數(shù)據(jù)共享的研究成果不斷涌現(xiàn)。目前,國內主要聚焦于共享行為的影響因素[3]、共享模型與運行機制[4]、共享政策[5-6]、共享對策及建議[7-8]等方面。伴隨著研究成果的積累,其研究視角和內容也變得更加豐富與新穎。如將雙路徑模型(ELM)與技術接受模型(TAM)相結合,探索數(shù)據(jù)使用者視角下的共享行為的影響因素[9];打破醫(yī)學數(shù)據(jù)共享的常規(guī)思想,提出構建醫(yī)學數(shù)據(jù)區(qū)塊鏈共享的管理體系[10];為推動農業(yè)科學數(shù)據(jù)共享進程,構建基于聯(lián)盟鏈的農業(yè)科學數(shù)據(jù)管理模型AgriDSM[11]。
國外相關研究得益于更加豐富的信息資源和更加先進的科學技術,研究前沿和熱點與國內不盡相同。如基于認知文化和集體行動理論,采用混合方法設計將調查數(shù)據(jù)與定性數(shù)據(jù)相結合來克服數(shù)據(jù)共享帶來的障礙[12];提出構建一種數(shù)據(jù)共享平臺,為制定更加科學合理的政策提供信息,同時監(jiān)控數(shù)據(jù)共享實踐,并引導隊列和數(shù)據(jù)基礎設施本身的資金優(yōu)先級[13];通過科學家們互相共享交換未經審查的數(shù)據(jù),同時采用問卷調查的方法去了解數(shù)據(jù)共享的優(yōu)劣性,以此來揭示數(shù)據(jù)共享的問題與前景[14]。國內外研究一直在不斷完善和發(fā)展演化中,從不同維度對比分析二者的研究現(xiàn)狀及演化過程,可以更好地了解我國在科學數(shù)據(jù)共享領域中的優(yōu)勢與不足,有助于為我國把握研究前沿、開展創(chuàng)新性的研究提供新思路。盡管已有學者對科學數(shù)據(jù)共享相關研究進行了梳理,采用的方法與工具也多種多樣,如文獻計量學方法[15]、Citespace軟件[16]、聯(lián)機分析處理(OLAP)方法[17]、理論分析[18]等,但鮮有學者從多個維度對國內外相關研究進行可視化對比。此外,已有研究表明,ITGInsight 在分析數(shù)據(jù)量、清洗功能、安全性、兼容等方面更具特色和優(yōu)勢,已得到學者們的青睞[19]。本研究旨在探索國內外科學數(shù)據(jù)共享領域的作者合著情況、機構耦合情況、研究熱點與主題分布情況,同時識別出核心作者群、核心機構群,以及各時期的研究演化情況。而ITGInsight 在功能上擁有更加突出的優(yōu)勢,更能清晰直觀展示各方面的現(xiàn)狀及態(tài)勢,如作者合著方面以不同顏色來區(qū)分各個作者合著群,且還可以顯示不同作者作為一作、二作、三作等不同的發(fā)文量。因此,本研究利用ITGInsight 可視化分析軟件,探索國內外在科學數(shù)據(jù)共享領域的研究熱點、關聯(lián)網絡,以厘清其研究現(xiàn)狀和演化發(fā)展態(tài)勢,作者及其機構、關聯(lián)詞和主題詞的演化分布。借鑒國外相關研究的優(yōu)勢和經驗,為促進國內科學數(shù)據(jù)共享理論研究與實踐發(fā)展提供有益的幫助。
本文以萬方數(shù)據(jù)庫、CNKI 為主要中文文獻來源,以Web of Science 數(shù)據(jù)庫為主要外文文獻來源,利用檢索式“主題:(科學數(shù)據(jù)共享)and 關鍵詞:(科學數(shù)據(jù)or 科研數(shù)據(jù)or 數(shù)據(jù)共享)”和“(TS=(scientific data sharing)) OR TS=(Scientific research data sharing)) AND AB=(data sharing)”分別進行檢索,時間截止到 2022 年12 月9 日。對于中文文獻,先進行去重,再剔除無作者的、以“序”“前言”“簡介”“卷首語”為題的和專業(yè)相關度不高的文獻。而對于外文文獻,先按照相關度從高到低排序,再從Web of Science 核心合集中剔除重復、關聯(lián)度低的文獻,且語種設為“English”。經過篩選,初步確定中文文獻共3095 篇、外文文獻共4642 篇,作為本文的研究對象。
對第一輪數(shù)據(jù)清洗后得到的詞表進行二次清洗,得到最終用于可視化分析的有效文獻,其中中文3065 篇,外文4562 篇。文章對2001—2022 年期間,國內外有關科學數(shù)據(jù)共享的發(fā)文量做了統(tǒng)計,以此對國內外在該領域下的研究趨勢進行分析與預測,見圖1。
圖1 2001-2022 國內外科學數(shù)據(jù)共享年度發(fā)文量
從圖1 可以看出,無論是國內還是國外,有關科學數(shù)據(jù)共享的發(fā)文量總體呈上升趨勢,尤其是國外在近幾年呈現(xiàn)出較為明顯的“指數(shù)式增長”特征。
國外在此期間的發(fā)文量總體可分為兩個階段,即緩慢增長階段和快速增長階段。在緩慢增長的這十年(2001—2011 年)中,OECD(Organization for Economic Cooperation and Development,經濟合作與發(fā)展組織)成員國以及中國等30 多個國家于2004 年1 月簽署了《開放獲取公共資助的科學數(shù)據(jù)宣言》[20],成為開啟科學數(shù)據(jù)共享時代的導火索。隨后以英美、澳大利亞為代表的各政府部門、科研機構和高校等制訂的一系列科學數(shù)據(jù)共享政策,如《開放獲取公共資助科學數(shù)據(jù)的原則和指南》(2007)[21]等,進一步推動了科學數(shù)據(jù)研究的進程。自2012 年開始進入快速增長階段,隨著各國的政策法規(guī)逐步趨于成熟,以2015年發(fā)布的《科學出版物與研究數(shù)據(jù)開放存取指南》(第二版)為代表,開啟了開放科學數(shù)據(jù)試點的實施工程,科學數(shù)據(jù)研究進入快速發(fā)展階段。
我國的發(fā)文量分別在2012 年和2018 年出現(xiàn)兩個拐點,共經歷三個階段。2001—2012 年是緩慢上升期,我國于2000 年開始主導推進科學數(shù)據(jù)的管理工作;隨著“實施科學數(shù)據(jù)共享工程”的建議被提出,“科學數(shù)據(jù)共享工程”于2002 年正式啟動,在此期間,我國科學數(shù)據(jù)共享工作一直處于初步發(fā)展的穩(wěn)定期。到2012年以后,進入快速上升期,國家科學技術部于2014 年召開第一屆“中國科學數(shù)據(jù)大會”,國務院辦公廳于2018 年出臺首個國家層面的《科學數(shù)據(jù)管理辦法》,有效促進了研究成果的產出。2018 年至今屬于起伏發(fā)展期,以國家層面的政策為依據(jù),各地方也相繼制定與完善適合本地實際的數(shù)據(jù)共享政策,相關研究成果整體呈上升趨勢,但在2022 年有所下降,這可能與成果發(fā)表的滯后性有關。
文章基于文獻計量、類比分析、定量定性分析等研究方法,利用ITGInsight 軟件,對國內外科學數(shù)據(jù)共享領域的作者、機構、關鍵詞及主題詞進行預處理和數(shù)據(jù)分析,并以可視化的方式輸出網絡圖、聚類圖和演化圖,從而對該領域的發(fā)展現(xiàn)狀、不同特征以及未來發(fā)展的趨勢做出綜合性評述和總結。
ITGInsight 是一款高級的科技文本挖掘與可視化分析工具,主要針對專利、論文、報告、報刊等科技文本進行數(shù)據(jù)挖掘和圖譜建立[22]。在本文中,作者合著、機構耦合、關鍵詞同現(xiàn)以及主題演化部分均以ITGInsight 分析工具作為技術支持,并輔以Excel 對數(shù)據(jù)集進行初步數(shù)據(jù)統(tǒng)計。首先,分別對國內外所得的數(shù)據(jù)集進行清洗,將時間設為2001—2022 年期間,從清洗后的數(shù)據(jù)中提取作者、機構等研究子對象(提取條件為n ≥2,n 代表研究子對象的頻數(shù)),形成詞表;其次,利用得到的詞表對原數(shù)據(jù)集進行數(shù)據(jù)分析;最后,分別對排名前50 的作者、機構、關鍵詞、主題詞構建圖譜,并對圖譜進行解讀。
對不同格式、不同寫法但屬于同一作者的姓名進行合并,利用ITGInsight 軟件分別提取國內外在科學數(shù)據(jù)共享領域發(fā)文量中排名前50的作者,構建作者合著網絡圖,并形成聚類關系圖。圖中節(jié)點數(shù)字代表該作者的發(fā)文總量,節(jié)點大小與之成正比,各節(jié)點之間的連線代表相連兩作者有合著關系,連線的粗細代表與該作者合著次數(shù)的多少,相同顏色的節(jié)點集合代表一個作者合著群。
2.1.1 中文文獻作者
從圖2 可以看出,發(fā)表中文文獻的大部分都是國內作者,在科學數(shù)據(jù)共享領域研究中的前50位作者中共有6個合著群,1個作者合著對,其余沒有合作關系的8 位作者分別作為獨立個體存在。比較直觀的是,中文文獻作者之間的合著關系是比較緊密的,且在合著群內部的聯(lián)系更加緊密。在這6 個作者合著群中,較核心的合著群體是以王卷樂、諸云強為代表的7 人作者團體和以王健、趙華為代表的8 人作者團體;其中,除分別以錢慶和王松為代表的4 人組成的合著群是獨立存在之外,其余4 個合著群之間也有合著關系。從作者個人來說,比較高產的核心作者有王卷樂、諸云強、王健、錢慶,所代表機構是中國科學院地理科學與資源研究所、江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心、中國農業(yè)科學院農業(yè)信息研究所、中國醫(yī)學科學院醫(yī)學信息研究所。值得注意的是,在單人作者中關健的發(fā)文量就已達到了26 篇,是該領域中較為優(yōu)秀的研究者。
圖2 國內作者合著網絡
2.1.2 外文文獻作者
相比中文文獻,外文文獻作者之間的合著關系就略顯稀疏,相對的單人作者數(shù)量較多。從圖3 可以看出,發(fā)表外文文獻的作者既有國內學者也有國外學者,且數(shù)量不一,在前50 位作者中共有4 個作者合著群,2 個作者合著對,其余沒有合作關系的9 位作者作為獨立個體存在。4 個作者合著群的發(fā)文量不相上下,其中以Chen, X、Wang, G 為代表的10 人作者團體、以Zhao, Y、Chen, Y 為代表的11 人作者團體和以Zhang, Z、Foster, I 為代表的10 人團體之間也有合著關系;而以Alfonso, F 為代表的6 人作者團體與其他3 個合著群沒有合著關系。以作者個人來說,每位作者的發(fā)文量趨于一個平均水平,不存在真正意義上的高產作者。此外,考慮到發(fā)表外文文獻的國內作者及機構可能會影響國外總體的合著程度,嘗試將這些作者排除在外,發(fā)現(xiàn)4 個合著群中有一半以上的人都是國內作者。因此,若排除相關數(shù)據(jù),則更加凸顯出國外作者之間合作關系的稀疏,并不會影響最終的結論。
圖3 國外作者合著網絡
利用ITGInsight 軟件分別提取國內外在科學數(shù)據(jù)共享領域發(fā)表文獻數(shù)量排名前50 的代表機構,構建機構耦合網絡,并形成聚類關系圖。其中,每個節(jié)點代表一個機構,節(jié)點數(shù)字代表機構發(fā)文量,節(jié)點大小與之成正比,節(jié)點之間若有連線則代表機構之間有合著關系,不同顏色的節(jié)點代表不同的機構個體。
2.2.1 國內機構
從圖4 可以看出,在排名前50 的國內代表機構中,大多以獨立的個體存在,基本不存在合著關系。據(jù)統(tǒng)計,國內在科學數(shù)據(jù)共享領域擁有研究成果的機構共有1996 所,發(fā)表文獻數(shù)量在2 篇以上(包含2 篇)的機構就有440 所。其中發(fā)表文獻最多的機構是中國科學院地理科學與資源研究所,進一步分析發(fā)現(xiàn),該機構傾向于其他機構少有涉足的地球科學方面的研究,也說明科學數(shù)據(jù)共享在地理科學、資源科學領域更具有可研究的價值和前景。其次,武漢大學、中信所、中科院等機構也在科學數(shù)據(jù)共享領域取得了不錯成就??偟膩砜?,這些代表機構的發(fā)文量從8 到86 篇不等,上下幅度大且多都集中于30 篇以下,平均水平在16.8(840/50),總體偏下。
圖4 國內機構耦合網絡
2.2.2 國外機構
如圖5 所示,國外機構的耦合程度較國內來說并沒有明顯差別。據(jù)統(tǒng)計,國外在科學數(shù)據(jù)共享領域擁有研究成果的機構有7533 所,發(fā)表文獻數(shù)量在2 篇以上(包含2 篇)的機構就有1785 所。其中發(fā)文量較多的代表機構有Stanford Univ、Univ Oxford、Harvard Univ、Univ Calif San Diego,這四個機構的文獻量均在65 篇以上。進一步分析發(fā)現(xiàn),這4 個機構的研究主題集中于Data Sharing、Computer Science、Medical Informatics、Bioinformatics 等,這說明數(shù)據(jù)共享、計算科學、醫(yī)學情報和生物信息學等領域的學者更青睞科學數(shù)據(jù)共享的研究。總的來看,各機構的發(fā)文量從29 到100 篇不等,上下幅度中等且多都集中于30 篇以上,平均水平在42.36(2118/50),高于國內。
圖5 國外機構耦合網絡
關鍵詞同現(xiàn)分析可以幫助我們更加明確繪制概念、想法和問題之間關系[23],確定該文獻集合所代表的學科主題之間的關系,從而揭示該學科的研究水平及學科結構,概述該學科的研究熱點,分析其發(fā)展過程及趨勢[24]。為此,本文利用ITGInsight 軟件分別提取出現(xiàn)頻次排名前50 的關鍵詞,構建關鍵詞同現(xiàn)網絡,形成聚類關系圖。其中,節(jié)點數(shù)字代表該關鍵詞的詞頻,節(jié)點大小與之成正比,各節(jié)點之間的連線代表關鍵詞之間的同現(xiàn)關系,連線的粗細代表同現(xiàn)次數(shù)的多少,相同顏色的節(jié)點集合代表一個關鍵詞網絡。
2.3.1 中文關鍵詞
以中文文獻的關鍵詞代表國內的關鍵詞數(shù)據(jù),圖6 所示的是國內出現(xiàn)頻次排名前50 的關鍵詞,各節(jié)點之間的關聯(lián)程度較為緊密,經過聚類后,這些關鍵詞被分為了三大類。
圖6 國內關鍵詞同現(xiàn)網絡
第一類是以“數(shù)據(jù)共享”“科學數(shù)據(jù)”為中心詞,其關聯(lián)詞或衍生詞以“開放數(shù)據(jù)”“科研數(shù)據(jù)”“農業(yè)科學數(shù)據(jù)”“科技資源”“元數(shù)據(jù)”“數(shù)據(jù)管理”“開放科學”“開放共享”等為代表。這類關鍵詞大多研究的是各類科研、科技數(shù)據(jù)的共享以及如何被共享的問題,如早期浙江省為推動科技資源開放共享而實施的創(chuàng)新券政策[25];基于我國現(xiàn)有的科學數(shù)據(jù)共享協(xié)議提出的魏公村科學數(shù)據(jù)雙許可證(草案)[26],同樣促進了農業(yè)科學數(shù)據(jù)的開放共享。
第二類是以“科學數(shù)據(jù)共享”“大數(shù)據(jù)”“數(shù)據(jù)庫”為中心詞,其關聯(lián)詞或衍生詞以“信息化”“云計算”“共享服務”“信息技術”“信息系統(tǒng)”等技術支持類詞為代表。這類關鍵詞主要研究科學數(shù)據(jù)共享的技術、平臺、系統(tǒng)、機制等,一般是解決其如何構建、如何應用、如何開發(fā)等問題。如國家微生物科學數(shù)據(jù)中心的建設[27],極大程度上使海量的微生物數(shù)據(jù)資源得到了有效的規(guī)范整合和開放共享;基于云計算技術面向服務的體系架構(SOA)思想的提出,有助于實現(xiàn)科學數(shù)據(jù)的資源聚合[28]。
第三類是以“項目信息門戶”“工程施工信息管理”“施工管理信息系統(tǒng)”“地理信息系統(tǒng)”為主的信息管理類關鍵詞,顧名思義,這類關鍵詞與信息管理有關,主要面向信息資源管理和共享服務,旨在解決數(shù)據(jù)管理、數(shù)據(jù)應用、數(shù)據(jù)治理等問題。如盛小平等[29]曾從數(shù)據(jù)管理和數(shù)據(jù)治理兩個層次出發(fā)去探索二者之間的差異與聯(lián)系,從而為制定科學數(shù)據(jù)開放共享政策提供幫助。
2.3.2 外文關鍵詞
以英文文獻的關鍵詞代表國外的關鍵詞數(shù)據(jù),圖7 所示的是國外出現(xiàn)頻次排名前50 的關鍵詞,各節(jié)點之間的關聯(lián)程度緊密,經過聚類后,這些關鍵詞被分為了四大類,類別與國內相比略有差異。
圖7 國外關鍵詞同現(xiàn)網絡
第 一 類 是 以“Data Sharing”“Open Science”“Reproducibility” 為 中 心 詞 的 數(shù) 據(jù)類關鍵詞,其下還有一些子類,如以“Data Management”“Open Access”“Collaboration”“Metadata”為代表的數(shù)據(jù)管理子類、以“Ontology”“Transparency”“Interoperability”為代表的數(shù)據(jù)特性子類、以“Bioinformatics”“Climate Change”為代表的生物科學子類等。與國內涉足的地球科學領域相比,國外所涉足較多的是生物科學領域,主要研究生物科學、醫(yī)學界等如何實現(xiàn)科學數(shù)據(jù)共享的問題,如在臨床試驗數(shù)據(jù)共享領域,Gudi, Nachiket 團隊[30]基于現(xiàn)有數(shù)據(jù)共享政策,提出建立一個中立的體制來監(jiān)督數(shù)據(jù)信息的共享的建議。
第 二 類 是 以“COVID-19”“SARS-Cov-2”“Public Health”為中心詞的時事類關鍵詞,尤其是新冠疫情爆發(fā)之后,這類關鍵詞的數(shù)量呈爆發(fā)式增長,此外還包含了以“Social Media”“Twitter”為代表的社交媒介子類等。這類關鍵詞主要出現(xiàn)在如何實現(xiàn)新冠疫情有關數(shù)據(jù)共享的研究中,如San Torcuato, Maider 團隊[31]持續(xù)跟蹤2020 年1 月至2021 年3 月有關COVID-19 的出版物和主題演變,目的就是為了調查探究與COVID-19 相關的研究交流、論文等數(shù)據(jù)共享的程度。
第 三 類 是 以“Machine Learning”“Big Data”“Cloud Computing”為中心詞,其關聯(lián)詞或衍生詞主要是以“Artificial Intelligence”“-Data Mining”“Blockchain”為代表的技術支持類關鍵詞,此外,還包括以“Privacy”為主的信息隱私安全子類和以“Cancer”為主的醫(yī)療健康子類。其中,信息隱私安全是近年來科學數(shù)據(jù)共享領域下比較火熱的研究議題,主要是用于解決數(shù)據(jù)共享過程中涉及到的信息泄露、信息隱私等問題,基于區(qū)塊鏈的協(xié)作科學實驗信任架構[32],有助于在保證互操作性、隱私性、可追溯性和信任度的基礎上實現(xiàn)科學數(shù)據(jù)共享。
第 四 類 是 以“Citizen Science”“Crowdsourcing”“Biodiversity”為主的生物科學類關鍵詞。新冠疫情爆發(fā)之后,各國學者呼吁相關科學數(shù)據(jù)公開與共享,并針對數(shù)據(jù)管理、數(shù)據(jù)共享、數(shù)據(jù)利用與數(shù)據(jù)治理方法與技術進行了系列的探索,產出了豐富的研究成果??梢?,科學數(shù)據(jù)共享也是新冠疫情背景之下促進各國學術交流與科研產出的重要橋梁。
作為學科新興趨勢探測方法之一,高頻主題的演化分析有助于了解領域主題產生、消亡、增強、減弱、聚合和裂變的過程[33]。對高頻主題詞匯總分析,不僅可以識別研究熱點,還能為后續(xù)的相關研究提供方向和依據(jù)。本文利用ITGInsight 軟件分別提取國內外在科學數(shù)據(jù)共享領域中出現(xiàn)頻次排名前50 的主題詞,構建主題詞演化網絡圖,同時列出排名前20 的主題詞,便于直觀了解。其中,節(jié)點數(shù)字代表該主題詞的詞頻,節(jié)點大小與之成正比,各節(jié)點之間的連線代表主題詞之間的演化關系,相同顏色節(jié)點的連線代表同一主題詞的演化路徑。
2.4.1 中文主題詞
以中文文獻的主題詞代表國內的主題詞數(shù)據(jù),從圖8 可以看出,2001—2012 年,國內學者主要對圖書館、信息化、數(shù)據(jù)庫等進行研究,以數(shù)據(jù)統(tǒng)一發(fā)布和數(shù)據(jù)共享為目的構建較為理想的服務體系框架[34],使在技術層面實現(xiàn)數(shù)據(jù)共享成為了可能。從2013 年開始,科學數(shù)據(jù)共享經歷了為期五年的高產研究階段,研究主題多樣化,但始終離不開資源共享和圖書館建設兩大主題。相比前一階段,演化出來的新主題有工程施工、數(shù)據(jù)管理、信息系統(tǒng)、地理信息、科研人員等;進一步分析得出,2014 年開始出現(xiàn)的工程施工,很大程度上與當年發(fā)布的試點共享工程的政策有關。下一階段自2018 年開始,由于《科學數(shù)據(jù)管理辦法》出臺,使得科學數(shù)據(jù)共享領域研究有了新的進展,研究主題開始涉及數(shù)據(jù)安全、標準規(guī)范、數(shù)據(jù)保護等。隨著大數(shù)據(jù)時代的到來以及新一代信息技術的飛速發(fā)展,數(shù)據(jù)共享已不再是一種奢求,數(shù)據(jù)安全與隱私保護問題成為國內學者研究的重點,而該領域下新主題的出現(xiàn)也許與此有關。此外,有關地球科學的研究也在此階段興起,近幾年全球氣候變暖、生態(tài)環(huán)境惡化等,使得國內學者更重視地球科學研究,特別是進入21 世紀以來,更加強調用先進技術去認識、理解和保護人類賴以生存的地球[35]。
圖8 國內主題詞演化網絡
為了更加清晰地了解國內有關科學數(shù)據(jù)共享的高頻主題詞,進一步分析出該領域下的研究前沿及熱點,進而推測未來研究發(fā)展趨勢,將排名前20 的高頻主題詞列舉如下,見表1。
表1 國內排名前20 的高頻主題詞及詞頻
可見,在科學數(shù)據(jù)共享領域,國內研究最常見的熱門主題主要集中在數(shù)據(jù)庫、信息化、數(shù)據(jù)管理、資源共享、圖書館、科學技術等。顯而易見,構建資源整合的數(shù)據(jù)庫是實現(xiàn)科學數(shù)據(jù)共享的重要前提,是提供共享數(shù)據(jù)來源的平臺保障,在逐漸信息化的同時,還要對數(shù)據(jù)進行管理,以保證數(shù)據(jù)資源能夠順利共享與利用。而地球科學、數(shù)據(jù)安全、數(shù)據(jù)保護等是目前比較前沿的熱門主題,上述分析也可以證實這一點。
2.4.2 外文主題詞
以英文文獻的主題詞代表國外的主題詞數(shù)據(jù),從圖9 可以看出,國外相關研究主題在整體上呈現(xiàn)出逐年延伸與擴展的演化趨勢,可以將其分為三個階段:緩慢起步階段、穩(wěn)定增長階段和快速發(fā)展階段。2001—2010 年,研究主題詞由前期單一且比較分散的“scientific discipline”“l(fā)ife science”“data set”到后期轉變?yōu)椤皊cientific datum”“raw datum”“information retrieval”等,研究重點傾向于共享數(shù)據(jù)的獲取,如聯(lián)邦政府通過強制公開科研數(shù)據(jù)[36]、鼓勵科學發(fā)現(xiàn)和教育[37]來實現(xiàn)科學數(shù)據(jù)共享。自2011年開始,主題詞的演化開始呈快速增長趨勢,2012 年的“scientific inquiry”、2013 年的“data share website”、2016 年 的“na tech event”以及2017 年的“data collection”等都是新興代表,在這一階段,學者嘗試利用先進的理論、科學技術、工具與政策等去實現(xiàn)生物醫(yī)學領域的科學數(shù)據(jù)共享,如提出共享生物醫(yī)學大數(shù)據(jù)的政策框架[38]、突破科技實現(xiàn)共享人類樣本和患者數(shù)據(jù)[39]等。直到2019 年新冠疫情之后,隨之而起的熱門主題是“covid-19 pandemic”“-scientific research”“social medium”“public health”“biologica research”“surveillance system”“data management”等。該階段的研究一方面是為了處理隨疫情而來的大量新鮮數(shù)據(jù),另一方面是為了解決受疫情影響帶來的數(shù)據(jù)共享滯緩及其恢復的問題。如提倡及時共享試驗數(shù)據(jù)[40],獲得一手的醫(yī)療臨床數(shù)據(jù),以期滿足應對COVID-19 挑戰(zhàn)的需求,更快地實現(xiàn)對COVID-19 乃至所有疾病的科學理解;有團隊研究發(fā)現(xiàn)抗擊新冠肺炎疫情最有效的方法之一就是國際信息共享,但這種國際共享需要在一定條件的基礎上[41];科學界在抗擊COVID-19 方面也取得了幾項重要進展,并在全球注冊了2500 多項臨床試驗,這些數(shù)據(jù)有期待被共享[42]。這一階段整體上處于快速發(fā)展之中,盡管2022 年的主題詞有所減少(或許與研究成果發(fā)表的時滯性有關)。隨著公眾逐漸認識到數(shù)據(jù)共享的重要性及共享實踐在多領域的推進,科學數(shù)據(jù)共享的研究必將迎來更大的突破。
圖9 國外主題詞演化網絡
同樣將國外有關科學數(shù)據(jù)共享排名前20 的高頻主題詞列舉如下,以便進一步分析出該領域下的研究前沿及熱點,進而推測未來研究發(fā)展趨勢,見表2。
表3 國內外多維對比結果
在科學數(shù)據(jù)共享領域,國外熱門主題主要集中于研究問題、數(shù)據(jù)共享、社交媒體、corixa公司(醫(yī)藥研發(fā)公司)、科學共同體、基礎醫(yī)療全科醫(yī)生、氣候變化、開放數(shù)據(jù)、數(shù)據(jù)重用等。相比國內,國外在醫(yī)學領域、生物科學領域的科學數(shù)據(jù)共享研究成果更為突出,更加傾向于人類的生命健康科學研究。事實上,相比人文社會科學,自然科學尤其是醫(yī)學、生物學領域的數(shù)據(jù)共享實踐也更為廣泛與深入。
通過對國內外科學數(shù)據(jù)共享研究的可視化分析發(fā)現(xiàn),國內外相關研究在作者合著、機構耦合、關鍵詞同現(xiàn)和主題詞演化方面的表現(xiàn)不盡相同。接下來,本文將從這四個維度進行進一步的對比分析,深入挖掘國內外在各維度下的異同,進而為我國未來相關研究提供新思考。
受領域范圍、教育水平等因素的影響,外文文獻的獨立作者居多,各作者之間的合作關系也較為松散。而國內作者則更傾向于合作發(fā)文,故多人作者團體居多。從科研人員在科學數(shù)據(jù)共享中扮演的角色及其作用這一角度來看,作為科學數(shù)據(jù)開放共享的核心力量,科研人員擁有著作為生產者、傳播者、管理者和利用者的不同角色定位[43],這些角色也可能是影響他們合作關系的因素之一。其次從領域分布來看,同一個機構或組織內部的人更有可能擁有這種合作關系,而那些不同組織的人可能會因為平時交集不深而失去這種合作的機會。
雖然國內和國外的機構耦合度并沒有太大差別,但各機構的研究基礎與研究方向也會影響其發(fā)文量和發(fā)文的水平。如國外機構立足社會需求,選擇能夠適應當前發(fā)展的研究話題,并進行實證與仿真,可能會在某一時間段產出大量的研究成果。而國內則更傾向于針對近幾年的熱點研究理論分析與總結歸納,研究方向與方法有待于豐富。此外,可能因為國內文獻機構主要來自于中國,而國外來自于國際范圍內的多個國家,所以國內發(fā)文量相對偏低。
關鍵詞同現(xiàn)極大程度上反映了研究重點和研究方向,國內的關鍵詞有較高的同現(xiàn)率且詞之間聚類明顯,說明國內相關研究的重點清晰、方向明確。進一步分析發(fā)現(xiàn),其在總體上更偏向于數(shù)據(jù)管理。相比國內,國外的關鍵詞同現(xiàn)率偏低,且各詞之間的聚類較為模糊,說明國外在科學數(shù)據(jù)共享領域的研究范圍跨度廣、方向多,進一步分析發(fā)現(xiàn),其在總體上更偏向于數(shù)據(jù)利用一類。
由圖8、圖9 可以看出,國內外的主題詞演化均有明顯的路徑特點,國內研究呈現(xiàn)跨領域、跨學科的特征,且主要圍繞如何高效實現(xiàn)數(shù)據(jù)共享這一目的開展,總體呈“S”型演化趨勢,近階段主題詞多集中于地球科學、數(shù)據(jù)管理、數(shù)據(jù)安全等。國外研究的跨領域、跨學科性更明顯,且學科之間具有較強的交叉性,研究主要圍繞如何實現(xiàn)共享數(shù)據(jù)的利用這一目的進行,總體呈“J”型演化趨勢,近階段主題詞多集中于生物、醫(yī)學等。
文章基于ITGInsight 可視化分析軟件,利用文獻計量和對比分析相結合的方法,從作者合著、機構耦合、關鍵詞同現(xiàn)和研究主題四個維度對國內外科學數(shù)據(jù)共享的相關研究進行深度挖掘,揭示了國內外研究現(xiàn)狀,并總結了國內外研究的不同特征,對了解和預測國內該領域的研究重點及未來發(fā)展方向具有一定的參考意義。主要研究發(fā)現(xiàn)如下:
(1)國外研究發(fā)展迅速,作者合作關系松散,機構耦合程度低,關鍵詞聚類模糊,主題分布廣泛且學科交叉性強,偏向共享數(shù)據(jù)利用。
(2)國內研究發(fā)展平緩,作者之間合作密切,機構耦合程度低,關鍵詞聚類明顯,主題詞具有跨學科、跨領域的特點,偏向數(shù)據(jù)管理。我國仍面臨諸如對科學數(shù)據(jù)共享的重視度不夠、科學數(shù)據(jù)主權流失、科學數(shù)據(jù)共享技術不成熟、科學數(shù)據(jù)共享范圍不廣等問題[44],這可能與國內外政策、經濟、技術等差異有關。
為促進我國科學數(shù)據(jù)共享研究更好地發(fā)展,以更快地走向國際,引出新的議題思考與探索,本文嘗試就未來研究發(fā)展和方向提出以下幾點建議:
(1)政策保障??茖W數(shù)據(jù)共享工作的開展離不開政策法律的引導和推動[45],有關部門應該進一步制定與完善相關政策,如共享策略、共享原則以及相關的數(shù)據(jù)安全與保護等政策,這也是科學數(shù)據(jù)共享中所面臨的主要障礙之一。
(2)資金支持。資本可得性障礙對科學數(shù)據(jù)共享效果具有反向的影響[37],建立合理的數(shù)據(jù)共享激勵機制,肯定數(shù)據(jù)生產的貢獻,為其提供必要的經費支持,提升其數(shù)據(jù)共享行為。
(3)加強多方合作關系,促進學科之間的交流與協(xié)作。首先,對外要將科學數(shù)據(jù)主權牢牢掌握在自己手中[17],加強國際合作交流,了解國外研究話題和研究熱點,拓寬科學數(shù)據(jù)共享范圍;其次,對內注重跨學科、跨機構、跨地域之間的交流與合作,主動汲取其他學科的理論優(yōu)勢和方法技術,不斷拓展自身領域的新天地;最后,在保證科學數(shù)據(jù)主權的基礎上,注重在跨國數(shù)據(jù)流動方面和各機構之間的合作,同時也要充分調動科學數(shù)據(jù)多方利益相關者的共享積極性,尤其是我國研究者的積極性。
(4)促進新興技術應用,強化數(shù)據(jù)管理。加強對科學數(shù)據(jù)的管理,為科學數(shù)據(jù)的廣泛獲取與開發(fā)利用提供支持[47],要利用好現(xiàn)代信息技術,尤其是新興的區(qū)塊鏈、數(shù)據(jù)安全加密等技術,解決科學數(shù)據(jù)共享過程中涉及到的數(shù)據(jù)安全性、數(shù)據(jù)嚴密性等問題,這也是目前國內研究比較熱門的一個話題。此外,科學數(shù)據(jù)共享正面臨著向人文社會科學領域、向微觀數(shù)據(jù)管理、向多學科交叉融合的趨勢發(fā)展[48],數(shù)據(jù)的利用和價值正逐漸受到重視。隨著AI、元宇宙以及Chat-GPT 等新興概念和技術的涌入,未來將持續(xù)出現(xiàn)一些新特征、新模式、新方法,值得研究人員繼續(xù)探索和挖掘。
本研究還存在一些不足之處,有待進一步關注與完善:
(1)文章所選用的文獻數(shù)據(jù)是經過人工篩選、去重,可能會存在誤刪、漏刪和數(shù)據(jù)交叉或重疊等情況,盡管作者已盡量保證數(shù)據(jù)的準確性。
(2)文章利用ITGInsight 軟件對文獻數(shù)據(jù)進行可視化分析,研究結果很大程度上依賴于軟件本身,具有一定局限性,后續(xù)可嘗試借助其他方法和工具進行綜合對比分析,從而使研究結果更加全面可信。
(3)文章關注作者、機構、關鍵詞和主題詞四個維度,未曾涉及其他維度和各維度之間的關聯(lián),未來可以考慮對不同維度進行交叉分析。