王衛(wèi)軍,李成贊,鄭曉歡,褚大偉,姜璐璐,陳昕,杜一,周園春*
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190
2.中國(guó)科學(xué)院大學(xué),北京 100049
3.中國(guó)科學(xué)院辦公廳,北京 100864
數(shù)據(jù)密集型知識(shí)作為科學(xué)研究的第四范式,科學(xué)數(shù)據(jù)出版逐漸成為數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的重要學(xué)術(shù)傳播方式[1]。2010 年國(guó)際科技數(shù)據(jù)委員會(huì)在年會(huì)上對(duì)數(shù)據(jù)出版的概念進(jìn)行討論[2]。歐盟在2014 年開始啟動(dòng)的地平線2020 計(jì)劃中,提出在歐洲的公共資助研究中,要確??茖W(xué)出版物的開放獲取,并促進(jìn)科學(xué)數(shù)據(jù)的開放獲取[3,4]。在我國(guó),2017 年12 月,中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心主持編制的《信息技術(shù)科學(xué)數(shù)據(jù)引用》GB/T 35294-2017 準(zhǔn),規(guī)定了科學(xué)數(shù)據(jù)引用元素描述方法、引用元素詳細(xì)說明、引用格式等方面的內(nèi)容[5]。2018 年3 月,國(guó)務(wù)院辦公廳印發(fā)《科學(xué)數(shù)據(jù)管理辦法》,明確主管部門和法人單位應(yīng)積極推動(dòng)科學(xué)數(shù)據(jù)出版和傳播工作,支持科研人員整理發(fā)表產(chǎn)權(quán)清晰、準(zhǔn)確完整、共享價(jià)值高的科學(xué)數(shù)據(jù)[6]。2019 年2 月,中國(guó)科學(xué)院印發(fā)了《中國(guó)科學(xué)院科學(xué)數(shù)據(jù)管理與開放共享辦法(試行)》[7],該辦法以中科院數(shù)據(jù)工作問題和需求為導(dǎo)向,聚焦科學(xué)數(shù)據(jù)管理與開放共享的突破點(diǎn)與保障機(jī)制。2019 年11 月,國(guó)際科學(xué)理事會(huì)數(shù)據(jù)委員會(huì)(CODATA)發(fā)布《科研數(shù)據(jù)北京宣言》[8],肯定了世界各地已發(fā)布的數(shù)據(jù)政策和實(shí)施進(jìn)展,并在此基礎(chǔ)上闡明了推進(jìn)相關(guān)領(lǐng)域多邊合作的核心原則。隨著政府、組織或機(jī)構(gòu)在政策、制度等層面對(duì)科學(xué)數(shù)據(jù)管理工作的引導(dǎo)與扶持,科學(xué)數(shù)據(jù)出版工作蓬勃發(fā)展,同時(shí)科學(xué)數(shù)據(jù)出版的相關(guān)學(xué)術(shù)理論及實(shí)踐研究不斷豐富。
科學(xué)數(shù)據(jù)是科研成果的重要組成部分,科學(xué)數(shù)據(jù)出版作為一種新的科學(xué)數(shù)據(jù)共享模式,是推動(dòng)科學(xué)數(shù)據(jù)共享,實(shí)現(xiàn)科學(xué)數(shù)據(jù)價(jià)值最大化,加速科技創(chuàng)新與經(jīng)濟(jì)發(fā)展的重要方式。在學(xué)術(shù)研究領(lǐng)域,相關(guān)學(xué)者對(duì)科學(xué)數(shù)據(jù)出版的定義[9-11]、科學(xué)數(shù)據(jù)的出版模式[12-14]、科學(xué)數(shù)據(jù)的出版平臺(tái)[3,15]、科學(xué)數(shù)據(jù)的質(zhì)量控制[1,5,9,11,12,16-21]、科學(xué)數(shù)據(jù)的影響力評(píng)價(jià)[22,23]、科學(xué)數(shù)據(jù)的共享問題[24-26]等理論及實(shí)踐問題進(jìn)行研究。其中,文獻(xiàn)[12]在關(guān)于科學(xué)數(shù)據(jù)出版模式的研究中將其歸納為3 種:獨(dú)立的數(shù)據(jù)出版、論文附件形式數(shù)據(jù)出版、數(shù)據(jù)論文出版。在上述出版模式中,獨(dú)立的數(shù)據(jù)出版是指將數(shù)據(jù)作為獨(dú)立的對(duì)象存儲(chǔ)在數(shù)據(jù)倉(cāng)儲(chǔ)中[24];論文附件形式出版指的是一些學(xué)術(shù)期刊與數(shù)據(jù)倉(cāng)儲(chǔ)合作,期刊負(fù)責(zé)論文出版,數(shù)據(jù)倉(cāng)儲(chǔ)平臺(tái)負(fù)責(zé)數(shù)據(jù)存儲(chǔ)的形式;數(shù)據(jù)論文的出版指數(shù)據(jù)生產(chǎn)者按照一定科學(xué)規(guī)范形成的觀察、實(shí)驗(yàn)、計(jì)算分析等原始數(shù)據(jù)或集成數(shù)據(jù)庫(kù)(集)通過專門的數(shù)據(jù)論文進(jìn)行描述,以促進(jìn)數(shù)據(jù)的可發(fā)現(xiàn)、可獲取、可理解和再利用[1]。目前,已有越來越多的期刊專注于科學(xué)數(shù)據(jù)出版,如《Data in Brief》、《Scientific Data》、《Earth System Science Data》以及國(guó)內(nèi)的《中國(guó)科學(xué)數(shù)據(jù)》、《全球變化數(shù)據(jù)學(xué)報(bào)》等。同時(shí)用于存儲(chǔ)科學(xué)數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)平臺(tái)也不斷涌現(xiàn),如Gene Expression Omnibus、Figshare、Zenodo 以及國(guó)內(nèi)的ScienceDB 存儲(chǔ)庫(kù)等??茖W(xué)數(shù)據(jù)出版的蓬勃發(fā)展也吸引了越來越多的商業(yè)性數(shù)據(jù)庫(kù)和搜索引擎的關(guān)注,如2012 年科睿唯安(Clarivate)發(fā)布的數(shù)據(jù)引文索引(Data Citation Index,DCI)服務(wù)平臺(tái),以及2018 年Google 推出的專用數(shù)據(jù)集搜索引擎Dataset Search。
目前,科學(xué)數(shù)據(jù)出版主要包括數(shù)據(jù)集的獨(dú)立出版、數(shù)據(jù)集作為論文附件形式出版、數(shù)據(jù)論文的出版等模式,因此科學(xué)數(shù)據(jù)出版在數(shù)據(jù)庫(kù)中涉及的文獻(xiàn)類型主要為數(shù)據(jù)集和數(shù)據(jù)論文。在本文的研究中,為更好地獲取全球范圍內(nèi)的科學(xué)數(shù)據(jù)出版數(shù)據(jù),論文選擇Web of Science 數(shù)據(jù)庫(kù)產(chǎn)品,通過檢索數(shù)據(jù)論文(Data Paper)、數(shù)據(jù)集(Data Set、Data Study)記錄,從多個(gè)維度進(jìn)行科學(xué)數(shù)據(jù)發(fā)展態(tài)勢(shì)分析。
為從全球視角對(duì)科學(xué)數(shù)據(jù)出版態(tài)勢(shì)進(jìn)行分析,促進(jìn)科學(xué)數(shù)據(jù)出版事業(yè)的發(fā)展。文中選擇Web of Science 數(shù)據(jù)庫(kù),設(shè)定出版年為1900–2020 年(年限以數(shù)據(jù)庫(kù)所收錄數(shù)據(jù)的出版時(shí)間確定),文獻(xiàn)類型為Data Paper,共檢出數(shù)據(jù)論文9,453 條記錄(檢出記錄出版年份分布在2006–2020 年間),統(tǒng)計(jì)時(shí)間為2021 年5 月12 日。其中Web of Science 核心合集檢出9,280 條記錄,MEDLINE 數(shù)據(jù)庫(kù)檢出8,460 條記錄,BIOSIS Previews 數(shù)據(jù)庫(kù)檢出7,771 條記錄,INSPEC 數(shù)據(jù)庫(kù)檢出937 條記錄,中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)檢出44 條記錄。上述數(shù)據(jù)中,國(guó)內(nèi)的《中國(guó)科學(xué)數(shù)據(jù)》和《全球變化數(shù)據(jù)學(xué)報(bào)》期刊雖被中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)收錄,但文獻(xiàn)類型被標(biāo)注為Article,故未被包含到上述檢索結(jié)果中。針對(duì)此種情況,本文對(duì)《中國(guó)科學(xué)數(shù)據(jù)》和《全球變化數(shù)據(jù)學(xué)報(bào)》進(jìn)行單獨(dú)檢索及處理,共獲取297 條數(shù)據(jù)論文記錄,其中,2017 年39 篇,2018 年45 篇,2019 年121 篇,2020 年92 篇。
選擇Web of Science 數(shù)據(jù)庫(kù)下的Data Citation Index 數(shù)據(jù)庫(kù),設(shè)定出版年為1700–2020 年(年限以數(shù)據(jù)庫(kù)所收錄數(shù)據(jù)的出版時(shí)間確定),共檢出12,401,617 條記錄(檢出記錄出版年份分布在1800–2020 年),統(tǒng)計(jì)時(shí)間為2021 年5 月8 日。Data Citation Index 數(shù)據(jù)庫(kù)包括Repository(知識(shí)庫(kù))、Data Study(數(shù)據(jù)研究)、Data Set(數(shù)據(jù)集)、Software(軟件)4 種記錄[27]。其中Repository 是數(shù)據(jù)庫(kù)或者數(shù)據(jù)記錄的集合,用于存儲(chǔ)并提供對(duì)Data Study、Data Set 數(shù)據(jù)的訪問;Data Study 是存儲(chǔ)在知識(shí)庫(kù)中的關(guān)于研究或?qū)嶒?yàn)的描述信息,以及與該Data Study 相關(guān)的數(shù)據(jù);Data Set 是知識(shí)庫(kù)收集的與數(shù)據(jù)研究或?qū)嶒?yàn)等相關(guān)的數(shù)據(jù)文件,文件格式包括電子表格、音頻、視頻等;Software 是知識(shí)庫(kù)存儲(chǔ)的軟件,可以是一段源代碼、一個(gè)模型或一個(gè)完整的程序。由于Data Study 包含一些實(shí)驗(yàn)或調(diào)查相關(guān)的數(shù)據(jù),研究中將Data Study、Data Set 統(tǒng)稱為“數(shù)據(jù)集”進(jìn)行相關(guān)分析研究。數(shù)據(jù)檢索中,通過將數(shù)據(jù)類型限定為Data Study、Data Set,共獲取12,218,549 條記錄。
為從不同角度解析全球科學(xué)數(shù)據(jù)的出版情況及發(fā)展態(tài)勢(shì),研究中設(shè)定時(shí)間、國(guó)家/地區(qū)、研究方向、出版來源、影響力等5 個(gè)維度?;诟鱾€(gè)維度分別對(duì)數(shù)據(jù)論文及數(shù)據(jù)集的出版數(shù)據(jù)進(jìn)行檢索,探析全球科學(xué)數(shù)據(jù)出版發(fā)展態(tài)勢(shì),特別是我國(guó)科學(xué)數(shù)據(jù)的發(fā)展態(tài)勢(shì),以期為我國(guó)科學(xué)數(shù)據(jù)出版政策制定及開展相關(guān)研究提供參考。
數(shù)據(jù)論文全球及TOP 5 國(guó)家從時(shí)間維度(年份)呈現(xiàn)的數(shù)量分布情況中,數(shù)據(jù)庫(kù)中檢索出Data Paper 類型文獻(xiàn)9453 條記錄。另外,檢索《中國(guó)科學(xué)數(shù)據(jù)》和《全球變化數(shù)據(jù)學(xué)報(bào)》期刊獲取記錄297 條,其中66 條記錄缺少國(guó)家字段信息。鑒于兩份期刊數(shù)據(jù)絕大部分為中國(guó)科研人員發(fā)表的數(shù)據(jù)論文,因此對(duì)其數(shù)據(jù)通過人工方式進(jìn)行簡(jiǎn)單處理。將297 條記錄按照年份合并到全球的出版數(shù)據(jù)中,其中的295 條記錄按照年份合并到中國(guó)的出版數(shù)據(jù)中。數(shù)據(jù)論文的全球出版數(shù)據(jù)中,2006 年為1 篇,2007–2010 年均為0 篇,圖1 選取2011–2020 年數(shù)據(jù)論文出版數(shù)據(jù)進(jìn)行呈現(xiàn)出版趨勢(shì)。從全球數(shù)據(jù)論文出版數(shù)量以及趨勢(shì)線可知,數(shù)據(jù)論文出版從2011–2020 年整體呈現(xiàn)快速上漲態(tài)勢(shì)。另外,從出版數(shù)量排名前5 的國(guó)家看,其數(shù)量也基本保持逐年增長(zhǎng)的態(tài)勢(shì)。全球數(shù)據(jù)集及TOP5 國(guó)家從時(shí)間維度(年份)呈現(xiàn)的出版數(shù)量分布情況,如圖2 所示。從全球數(shù)據(jù)集的發(fā)布數(shù)量及趨勢(shì)線可知,2001年以來,全球數(shù)據(jù)集從年發(fā)布數(shù)量4 萬左右,到2019 年達(dá)到年發(fā)布量137 萬之多的峰值。2001–2019年數(shù)據(jù)集的數(shù)量雖然出現(xiàn)波動(dòng)(數(shù)據(jù)庫(kù)中2020 年數(shù)據(jù)集的數(shù)量處于不斷更新狀態(tài)),但整體上呈現(xiàn)上漲趨勢(shì)。在時(shí)間維度上融入國(guó)家維度信息時(shí),Data Citation Index 數(shù)據(jù)庫(kù)中的數(shù)據(jù)集(Data Set、Data Study 類型數(shù)據(jù))記錄中有9,582,355 條記錄(約占78%)不包含國(guó)家字段。但通過對(duì)部分國(guó)家最早出現(xiàn)數(shù)據(jù)集的時(shí)間進(jìn)行檢索,可知美國(guó)為1837 年,中國(guó)(不含臺(tái)灣)為1989 年,加拿大為1974年,德國(guó)為1971 年,日本為1972 年,英國(guó)為1837 年,挪威為1974 年,荷蘭為1960 年,法國(guó)為1922 年。雖然各個(gè)國(guó)家數(shù)據(jù)集的發(fā)布起始時(shí)間會(huì)受到數(shù)據(jù)庫(kù)收錄數(shù)據(jù)全面性、完整性等因素的影響,而存在一定誤差,但是結(jié)合歷史等因素,基本可以認(rèn)為我國(guó)發(fā)布數(shù)據(jù)集的最早時(shí)間均要晚于上述幾個(gè)國(guó)家。
圖1 數(shù)據(jù)論文年度分布情況
圖2 數(shù)據(jù)集年度分布情況
綜合上述時(shí)間維度數(shù)據(jù),從數(shù)據(jù)庫(kù)中收錄的自1800 年以來出版的數(shù)據(jù)集,到21 世紀(jì)初期開始出版的數(shù)據(jù)論文,都可以看作是科學(xué)數(shù)據(jù)出版的不同形式或延續(xù)。從時(shí)間及數(shù)量規(guī)模上看,數(shù)據(jù)集出版歷史悠久,已經(jīng)形成龐大的出版規(guī)模。數(shù)據(jù)論文出版的出現(xiàn)時(shí)間較短,在年度出版數(shù)量上雖然增加迅速,但是從規(guī)模上可以認(rèn)為其尚處于初期發(fā)展階段。同時(shí)上述數(shù)據(jù)也可以在一定程度上反映出,歐美國(guó)家特別是美國(guó),在科學(xué)數(shù)據(jù)共享工作中從數(shù)據(jù)集出版到數(shù)據(jù)論文出版,均在數(shù)量上占據(jù)優(yōu)勢(shì)。在我國(guó),中國(guó)科學(xué)院為實(shí)現(xiàn)科學(xué)數(shù)據(jù)的管理與共享,于1983 年提出了“科學(xué)數(shù)據(jù)庫(kù)及其信息系統(tǒng)”項(xiàng)目,先后經(jīng)歷了信息化建設(shè)、科學(xué)數(shù)據(jù)資源整合、科學(xué)大數(shù)據(jù)工程等發(fā)展歷程,該項(xiàng)目涵蓋化學(xué)、生物等多個(gè)學(xué)科數(shù)據(jù),并取得了顯著的社會(huì)效益及一定的經(jīng)濟(jì)效益[28]。結(jié)合上述檢索數(shù)據(jù),對(duì)于數(shù)據(jù)論文的出版,我國(guó)無論是從數(shù)量還是起始時(shí)間,基本能與歐美等發(fā)達(dá)國(guó)家基本保持同步。對(duì)于數(shù)據(jù)集的出版,在數(shù)據(jù)庫(kù)中收錄的最早時(shí)間為1989 年,到2020 年,在有國(guó)家字段的記錄中我國(guó)共有16 萬多條。結(jié)合中國(guó)科學(xué)院的科學(xué)數(shù)據(jù)庫(kù)建設(shè)時(shí)間,基本可以認(rèn)為我國(guó)在上世紀(jì)80 年代初開始科學(xué)數(shù)據(jù)相關(guān)管理與共享建設(shè)工作,因此,從數(shù)量上我國(guó)科學(xué)數(shù)據(jù)出版事業(yè)在較短時(shí)期內(nèi)已經(jīng)取得了很大發(fā)展與成就。
在對(duì)文獻(xiàn)類型為Data Paper 的數(shù)據(jù)論文進(jìn)行國(guó)家維度的統(tǒng)計(jì)時(shí),由于數(shù)據(jù)論文出版中存在不同國(guó)家間研究人員合作的情況,同一論文會(huì)被多次統(tǒng)計(jì),劃分到多個(gè)國(guó)家,所以基于國(guó)家維度的記錄總數(shù)要遠(yuǎn)遠(yuǎn)多于9,453 條。數(shù)據(jù)論文最終進(jìn)行國(guó)家維度信息統(tǒng)計(jì)時(shí),將中國(guó)數(shù)據(jù)增加295 條記錄(增加《中國(guó)科學(xué)數(shù)據(jù)》、《全球變化數(shù)據(jù)學(xué)報(bào)》出版的數(shù)據(jù)論文)。在對(duì)數(shù)據(jù)集進(jìn)行國(guó)家維度的統(tǒng)計(jì)時(shí),78%的記錄缺少國(guó)家字段信息,但從特定國(guó)家的數(shù)據(jù)集最早出版時(shí)間、已有的特定國(guó)家的數(shù)據(jù)記錄出版來源分布等角度,也能獲取一些有效信息。表1 是排名前20 的數(shù)據(jù)論文國(guó)家分布情況,其中,美國(guó)數(shù)據(jù)論文出版數(shù)量為2,165 篇,緊跟其后的國(guó)家是中國(guó)(不含臺(tái)灣)1284 篇,德國(guó)897 篇,英國(guó)895 篇,意大利710 篇,法國(guó)553 篇,日本545 篇,印度474 篇,西班牙469 篇,加拿大466 篇等??茖W(xué)數(shù)據(jù)論文的數(shù)量上,美國(guó)作者參與的論文占據(jù)絕對(duì)優(yōu)勢(shì),排名前10 的國(guó)家也基本上為發(fā)達(dá)國(guó)家,作為發(fā)展中國(guó)家的中國(guó)、印度分別排名第2 和第8,可以反映出中印兩國(guó)在數(shù)據(jù)論文出版方面取得的成就。表2 是排名前20 的數(shù)據(jù)集國(guó)家分布情況,雖然受限于大部分記錄缺少國(guó)家信息,但是依舊能從數(shù)據(jù)中看出,美國(guó)以132 萬之多的數(shù)據(jù)集記錄數(shù)量在1221 萬多總記錄數(shù)量中占據(jù)重要地位,也在一定程度上反映了美國(guó)科學(xué)研究工作中的數(shù)據(jù)開放共享理念及成就。
表1 數(shù)據(jù)論文國(guó)家/地區(qū)分布數(shù)量TOP 20
表2 數(shù)據(jù)集國(guó)家/地區(qū)分布數(shù)量TOP 20
綜合上述國(guó)家維度數(shù)據(jù),科學(xué)數(shù)據(jù)出版作為科學(xué)數(shù)據(jù)價(jià)值最大化,推動(dòng)科技創(chuàng)新的重要途徑,均受到發(fā)達(dá)國(guó)家和發(fā)展中國(guó)家及科研群體的關(guān)注與推動(dòng)。從全球?qū)用?,在?shù)據(jù)論文和數(shù)據(jù)集的出版數(shù)量上,發(fā)達(dá)國(guó)家整體呈現(xiàn)出了較大優(yōu)勢(shì),基本可以反映出國(guó)家的經(jīng)濟(jì)和科技實(shí)力與科學(xué)數(shù)據(jù)出版規(guī)模間的影響關(guān)系。作為新興經(jīng)濟(jì)體的中國(guó)、印度等在科學(xué)數(shù)據(jù)出版數(shù)量上的表現(xiàn),反映出國(guó)家經(jīng)濟(jì)發(fā)展的過程中,科學(xué)數(shù)據(jù)共享作為國(guó)家科技實(shí)力提升的重要組成部分而受到關(guān)注與推動(dòng)。結(jié)合上述科學(xué)數(shù)據(jù)出版數(shù)量數(shù)據(jù),目前我國(guó)科學(xué)數(shù)據(jù)出版數(shù)量與美國(guó)雖存在差距,但我國(guó)是在相對(duì)較短的時(shí)期內(nèi)取得的成績(jī),這也反映出我國(guó)科學(xué)數(shù)據(jù)開放共享事業(yè)的快速發(fā)展趨勢(shì),以及未來的巨大發(fā)展?jié)摿Α?/p>
從研究方向維度分析,論文采用數(shù)據(jù)庫(kù)中提供的基于研究方向的數(shù)據(jù)記錄分類,其中表3 為數(shù)據(jù)論文的研究方向分布情況(不包括《中國(guó)科學(xué)數(shù)據(jù)》、《全球變化數(shù)據(jù)學(xué)報(bào)》數(shù)據(jù)),表4 為數(shù)據(jù)集的研究方向分布情況。對(duì)數(shù)據(jù)論文和數(shù)據(jù)集的各個(gè)研究方向的總量進(jìn)行統(tǒng)計(jì),最終數(shù)據(jù)記錄總量均大于實(shí)際記錄總量,可見存在同一數(shù)據(jù)論文或數(shù)據(jù)集劃分到多個(gè)研究方向的現(xiàn)象,可視為存在學(xué)科交叉。
表3 數(shù)據(jù)論文研究方向TOP 20
表4 數(shù)據(jù)集研究方向TOP 20
在數(shù)據(jù)論文的研究方向中,數(shù)量居于第1 位的科學(xué)技術(shù)及其他主題占記錄總數(shù)量的84.42%。如果在統(tǒng)計(jì)時(shí)剔除科學(xué)技術(shù)及其他主題研究方向,可檢索出8895 條記錄,約占記錄總量的94%。因此可以認(rèn)為直接使用數(shù)據(jù)庫(kù)中的研究方向劃分體系能夠合理體現(xiàn)數(shù)據(jù)論文的分類,同時(shí)也反映出科學(xué)技術(shù)及其他主題研究方向過于宏觀。數(shù)據(jù)論文其他研究方向的數(shù)據(jù)分布中,數(shù)學(xué)計(jì)算生物學(xué)記錄數(shù)量為2,153 篇,占據(jù)總量的22.78%;基因遺傳記錄數(shù)量為2,006,占據(jù)總量的21.22%;生物化學(xué)分子生物學(xué)記錄數(shù)量為1,975,占據(jù)總量的20.89%;生態(tài)環(huán)境科學(xué)記錄數(shù)量為1,517,占據(jù)總量的16.05%;農(nóng)業(yè)記錄數(shù)量為1,156,占據(jù)總量的12.23%;生物多樣性保護(hù)記錄數(shù)量為857,占據(jù)總量的9.07%;氣象大氣科學(xué)記錄數(shù)量為837,占據(jù)總量的8.85%;公共環(huán)境職業(yè)衛(wèi)生記錄數(shù)量為721,占據(jù)總量的7.63%;情報(bào)學(xué)圖書館學(xué)記錄數(shù)量為674,占據(jù)總量的7.13%。對(duì)《中國(guó)科學(xué)數(shù)據(jù)》和《全球變化數(shù)據(jù)學(xué)報(bào)》的數(shù)據(jù)論文研究方向單獨(dú)進(jìn)行統(tǒng)計(jì),其研究方向主要分布于科學(xué)技術(shù)及其他主題208 條、地質(zhì)學(xué)16 條、生態(tài)環(huán)境科學(xué)11 條、植物科學(xué)10 條、農(nóng)業(yè)9 條、林業(yè)7 條、礦物學(xué)7 條、情報(bào)學(xué)圖書館學(xué)6 條等。
數(shù)據(jù)集的研究方向中,基因遺傳記錄數(shù)量為4,427,272,占據(jù)總量的36.23%;科學(xué)技術(shù)及其他主題記錄數(shù)量為3,088,854,占據(jù)總量的25.28%;生物化學(xué)分子生物學(xué)記錄數(shù)量為2,770,278,占據(jù)總量的22.67%;晶體學(xué)記錄數(shù)量為1,391,384,占據(jù)總量的11.39%;地質(zhì)學(xué)記錄數(shù)量為917,989,占據(jù)總量的7.51%;生態(tài)環(huán)境科學(xué)記錄數(shù)量為885,952,占據(jù)總量的7.25%;地理學(xué)記錄數(shù)量為602,949,占據(jù)總量的4.94%;社會(huì)科學(xué)及其他主題記錄數(shù)量為483,845,占據(jù)總量的3.96%;微生物學(xué)記錄數(shù)量為413,275,占據(jù)總量的3.38%;藝術(shù)人文及其他主題記錄數(shù)量為364,489,占據(jù)總量的2.98%。
從研究方向上看,數(shù)據(jù)論文和數(shù)據(jù)集的研究方向分布具有一定的相似性,主要分布于自然科學(xué)等側(cè)重于實(shí)驗(yàn)數(shù)據(jù)支撐的研究方向。但在社會(huì)科學(xué)領(lǐng)域也有分布,如數(shù)據(jù)論文的情報(bào)學(xué)圖書館學(xué)研究方向,數(shù)據(jù)集的社科科學(xué)、藝術(shù)人文等研究方向。綜上所述,科學(xué)數(shù)據(jù)作為相應(yīng)研究方向的數(shù)據(jù)支撐,無論是對(duì)自然科學(xué)的實(shí)驗(yàn)分析,還是對(duì)社會(huì)科學(xué)的實(shí)證研究都具有重要的價(jià)值。
從出版物來源維度分析,數(shù)據(jù)論文(不包括《中國(guó)科學(xué)數(shù)據(jù)》和《全球變化數(shù)據(jù)學(xué)報(bào)》數(shù)據(jù))絕大部分來源于《Data in Brief》、《Scientific Data》,數(shù)量約占到79%左右,如圖3 所示。其中,《Data in Brief》是Elsevier 公司以數(shù)據(jù)存儲(chǔ)、共享為導(dǎo)向的學(xué)術(shù)期刊,接受所有學(xué)科的開放投稿,由于Elsevier收錄論文后,通常會(huì)給論文作者發(fā)送郵件建議作者將科學(xué)數(shù)據(jù)進(jìn)行出版,可以認(rèn)為是《Data in Brief》出版數(shù)據(jù)論文數(shù)量占據(jù)重要地位的原因之一?!禨cientific Data》是Nature 出版集團(tuán)的開放獲取在線期刊,接收自然科學(xué)和社會(huì)科學(xué)領(lǐng)域論文,旨在幫助科研人員發(fā)布、發(fā)現(xiàn)和重用研究數(shù)據(jù),該期刊對(duì)研究數(shù)據(jù)的開放起到了里程碑性質(zhì)的推動(dòng)作用[4]。論文通過對(duì)來自中國(guó)的數(shù)據(jù)論文出版來源進(jìn)行檢索,可以發(fā)現(xiàn)中國(guó)的數(shù)據(jù)論文在國(guó)外刊物上出版排名前4 的出版物中,《Data in Brief》(國(guó)外出版物)涉及509 篇,《Scientific Data》(國(guó)外出版物)涉及214 篇,《Gigascience》(國(guó)外出版物)涉及77 篇,《Earth System Science Data》(國(guó)外出版物)涉及44 篇等。通過檢索《中國(guó)科學(xué)數(shù)據(jù)》、《全球變化數(shù)據(jù)學(xué)報(bào)》的出版數(shù)據(jù)可知,《中國(guó)科學(xué)數(shù)據(jù)》和《全球變化數(shù)據(jù)學(xué)報(bào)》出版中國(guó)數(shù)據(jù)論文記錄共有295 條,由此基本可以推斷中國(guó)學(xué)者比較傾向于通過國(guó)外出版物發(fā)表數(shù)據(jù)論文。
圖3 數(shù)據(jù)論文出版來源分布情況
數(shù)據(jù)集在存儲(chǔ)平臺(tái)的分布情況如圖4 所示,數(shù)據(jù)集相對(duì)于數(shù)據(jù)論文在各出版途徑的數(shù)量分布上相對(duì)比較分散,可以看出數(shù)據(jù)集存儲(chǔ)平臺(tái)在全球的多樣化發(fā)展態(tài)勢(shì)。其中,F(xiàn)igshare(https://figshare.com/)是一個(gè)在線數(shù)據(jù)知識(shí)庫(kù),用于存儲(chǔ)、分享和發(fā)現(xiàn)科研數(shù)據(jù);Gene Expression Omnibus[29]是一個(gè)基因表達(dá)數(shù)據(jù)倉(cāng)庫(kù),用于從任何物種或人造的來源檢索基因表達(dá)數(shù)據(jù);Cambridge Structural Database(https://www.ccdc.cam.ac.uk/solutions/csd-core/components/csd/)是世界上小分子有機(jī)和金屬有機(jī)晶體結(jié)構(gòu)的儲(chǔ)存庫(kù),收錄了全世界范圍內(nèi)所有已認(rèn)可的有機(jī)及金屬有機(jī)化合物的晶體結(jié)構(gòu);Zenodo(https://www.zenodo.org/)與Figshare 一樣,都是知名的多學(xué)科數(shù)據(jù)分享平臺(tái),用于存儲(chǔ)、分享和發(fā)現(xiàn)科研數(shù)據(jù);US Census Bureau TIGER/Line Shapefiles(https://www.census.gov/geographies/mapping-files/time-series/geo/tiger-line-file.2018.html)提供了人口普查的地理和制圖信息;Pangaea(https://www.pangaea.de/about/)作為開放訪問庫(kù)運(yùn)行,旨在歸檔、發(fā)布和分發(fā)來自地球系統(tǒng)研究的地理參考數(shù)據(jù);UniProt Knowledgebase(https://www.uniprot.org/)包括蛋白質(zhì)序列數(shù)據(jù)以及大量注釋信息;ArrayExpress Archive(https://www.ebi.ac.uk/arrayexpress/about.html)是主要科學(xué)期刊推薦的存儲(chǔ)庫(kù)之一,用于存儲(chǔ)來自微陣列和測(cè)序平臺(tái)的功能基因組學(xué)數(shù)據(jù),以支持可重復(fù)的研究。同樣,通過對(duì)來自中國(guó)的數(shù)據(jù)集的出版途徑進(jìn)行檢索后可知,Plant Transcription Factor Database 存儲(chǔ)庫(kù)(中國(guó))涉及65,535 個(gè),Gene Expression Omnibus 存儲(chǔ)庫(kù)(美國(guó))涉及52,981 個(gè),Animal QTL Database 存儲(chǔ)庫(kù)(美國(guó))涉及12,398個(gè),European Nucleotide Archive 存儲(chǔ)庫(kù)(英國(guó))涉及11,592 個(gè),Genbank 存儲(chǔ)庫(kù)(美國(guó))涉及7,182個(gè),Zenodo 存儲(chǔ)庫(kù)(瑞士)涉及6,328 個(gè),Compendium Of Protein Lysine Acetylation 存儲(chǔ)庫(kù)(中國(guó))涉及3,311 個(gè),Harvard Dataverse 存儲(chǔ)庫(kù)(美國(guó))涉及444 個(gè),IEEE Dataport 存儲(chǔ)庫(kù)(美國(guó))涉及269 個(gè),Mass Spectrometry Interactive Virtual Environment 存儲(chǔ)庫(kù)(美國(guó))涉及263 個(gè),World Data Centre For Climate 存儲(chǔ)庫(kù)(德國(guó))涉及225 個(gè),Peking University Open Research Data Platform 存儲(chǔ)庫(kù)(中國(guó))涉及113 個(gè)。雖然數(shù)據(jù)集缺少國(guó)家字段的記錄較多,但是上述信息也基本可以反映出:在數(shù)據(jù)集的出版上,中國(guó)的數(shù)據(jù)集雖同樣存在傾向于國(guó)外數(shù)據(jù)集平臺(tái)出版的問題。但相對(duì)于數(shù)據(jù)論文的出版,國(guó)內(nèi)的數(shù)據(jù)集出版平臺(tái)也為其提供了重要的出版途徑。
圖4 數(shù)據(jù)集存儲(chǔ)平臺(tái)分布情況
綜上所述,全球范圍內(nèi),數(shù)據(jù)集相對(duì)于數(shù)據(jù)論文的出現(xiàn)時(shí)間要早很多,其出版途徑也相對(duì)更加多樣化。研究中對(duì)Data Citation Index 數(shù)據(jù)庫(kù)中出版年為2020 年之前的Repository(知識(shí)庫(kù))數(shù)據(jù)記錄進(jìn)行檢索,共獲取9 個(gè)來自中國(guó)(不包括臺(tái)灣)的知識(shí)庫(kù),如表5 所示。Data Citation Index 數(shù)據(jù)庫(kù)收錄的我國(guó)建設(shè)的知識(shí)庫(kù)主要為2000 年以后,其囊括的數(shù)據(jù)集的數(shù)量約7 萬余條(在數(shù)據(jù)庫(kù)中檢出國(guó)家信息為中國(guó)的數(shù)據(jù)集的總數(shù)量約16 萬余條),可知通過國(guó)外出版途徑發(fā)布數(shù)據(jù)集的現(xiàn)象要弱于數(shù)據(jù)論文。在相關(guān)研究中,將出版途徑卻側(cè)重于國(guó)外出版平臺(tái)的現(xiàn)象稱為“科學(xué)數(shù)據(jù)外流”[30],其原因歸納為:國(guó)外科學(xué)數(shù)據(jù)出版平臺(tái)的影響力及吸引力顯著優(yōu)于國(guó)內(nèi);國(guó)內(nèi)科技評(píng)價(jià)體系推動(dòng)數(shù)據(jù)出版偏重國(guó)外途徑;國(guó)外學(xué)術(shù)出版機(jī)構(gòu)要求提交科學(xué)數(shù)據(jù)等。其中,科研人員出版傾向可以認(rèn)為是數(shù)據(jù)主動(dòng)外流,科技評(píng)價(jià)體系的影響及國(guó)外期刊數(shù)據(jù)存儲(chǔ)政策要求可以認(rèn)為是數(shù)據(jù)的被動(dòng)外流。針對(duì)上述現(xiàn)象,除了制定相應(yīng)政策法規(guī)引導(dǎo)相關(guān)出版機(jī)構(gòu)組織投入更多資金推動(dòng)科學(xué)數(shù)據(jù)出版平臺(tái)的發(fā)展,提升對(duì)科研人員的吸引力外,還需改變?nèi)瞬旁u(píng)價(jià)機(jī)制,鼓勵(lì)科研人員通過國(guó)內(nèi)科學(xué)數(shù)據(jù)平臺(tái)發(fā)布數(shù)據(jù),推動(dòng)我國(guó)科學(xué)數(shù)據(jù)出版事業(yè)的發(fā)展。
表5 Data Citation Index 數(shù)據(jù)庫(kù)中收錄的中國(guó)科學(xué)數(shù)據(jù)存儲(chǔ)平臺(tái)
在Web of Science 數(shù)據(jù)庫(kù)中,科學(xué)數(shù)據(jù)出版的影響力評(píng)價(jià)方法主要采用數(shù)據(jù)論文或數(shù)據(jù)集被引用頻次作為衡量指標(biāo)。目前也有研究[23]將數(shù)據(jù)論文的被引次數(shù)與出版物的影響因子結(jié)合進(jìn)行數(shù)據(jù)論文影響力的評(píng)價(jià)。通過將檢索出的Data Paper 文獻(xiàn)類型的影響力數(shù)據(jù)與《中國(guó)科學(xué)數(shù)據(jù)》和《全球變化數(shù)據(jù)學(xué)報(bào)》的影響力數(shù)據(jù)進(jìn)行整合,繪制圖5 所示的全球范圍每年數(shù)據(jù)論文出版數(shù)量與每年度數(shù)據(jù)論文被引頻次繪制圖表,可發(fā)現(xiàn)數(shù)據(jù)論文的年度被引用頻次整體上呈現(xiàn)上升趨勢(shì),這在一定程度上代表數(shù)據(jù)論文的出版模式引起越來越多的科研人員的關(guān)注。表6 對(duì)全球范圍年均被引用頻次最大的前30 篇數(shù)據(jù)論文進(jìn)行統(tǒng)計(jì),可知?dú)W美國(guó)家的數(shù)據(jù)論文占據(jù)很大部分,其出版途徑中《Scientific Data》期刊占據(jù)一半左右,這在一定程度上反映《Scientific Data》期刊在科學(xué)數(shù)據(jù)出版中的重要影響力。同時(shí),在前30 的數(shù)據(jù)論文中,中國(guó)科學(xué)家作為第一作者在2020 年的《Scientific Data》期刊上發(fā)表的2 篇數(shù)據(jù)論文也快速獲得了很高的影響力,這也反映出我國(guó)科學(xué)家參與的科學(xué)數(shù)據(jù)論文在影響力上取得的成績(jī)。由于Data Citation Index 數(shù)據(jù)庫(kù)中收錄數(shù)據(jù)量大,且未提供年均被引頻次指標(biāo),論文對(duì)數(shù)據(jù)集中被引頻次排名前25 的數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)(表7),可以發(fā)現(xiàn)美國(guó)在數(shù)據(jù)集的共享工作中獲得了很大的影響力。同時(shí)從數(shù)據(jù)集最早出現(xiàn)的時(shí)間看,全球最早為19 世紀(jì)初,主要開始于歐美國(guó)家,文獻(xiàn)[31]認(rèn)為學(xué)術(shù)文獻(xiàn)之間的引用存在馬太效應(yīng),即文獻(xiàn)的被引用概率與其已有的引用數(shù)據(jù)成正比,可以在一定程度上將馬太效應(yīng)理論用于解釋歐美國(guó)家數(shù)據(jù)集影響力高的原因之一。但在表7中1984 年、2017 年出版的數(shù)據(jù)集均獲得了較高的引用次數(shù),可以在一定程度上反映出數(shù)據(jù)集的質(zhì)量和價(jià)值也是吸引相關(guān)科研人員進(jìn)行引用的重要因素。
表7 數(shù)據(jù)集影響力TOP 25
圖5 全球數(shù)據(jù)論文年度數(shù)量與被引頻次
表6 數(shù)據(jù)論文影響力TOP 30
備注:數(shù)據(jù)論文的被引數(shù)為2021 年5 月12 日檢索時(shí)被引數(shù)據(jù),數(shù)據(jù)論文年均被引數(shù)=總被引數(shù)/(2021 年?數(shù)據(jù)論文出版年+1)。
綜上所述,具有高影響力的數(shù)據(jù)論文和數(shù)據(jù)集主要來源于歐美國(guó)家。上述數(shù)據(jù)的形成因素,如果不考慮科研人員引用行為、數(shù)據(jù)庫(kù)數(shù)據(jù)收錄全面性等的影響,則在某種程度上可以認(rèn)為歐美發(fā)達(dá)國(guó)家科學(xué)數(shù)據(jù)共享工作的開展情況要優(yōu)于國(guó)內(nèi)。同時(shí)從數(shù)據(jù)論文的被引情況可知,近年來國(guó)內(nèi)科學(xué)數(shù)據(jù)出版也取得了一定的影響力。
科學(xué)數(shù)據(jù)出版是實(shí)現(xiàn)科研數(shù)據(jù)價(jià)值最大化的有效途徑,也是推動(dòng)國(guó)家科技創(chuàng)新的重要方式。文中對(duì)Web of Science 數(shù)據(jù)庫(kù)中全球范圍內(nèi)的數(shù)據(jù)論文及數(shù)據(jù)集出版數(shù)據(jù)進(jìn)行分析,并與國(guó)內(nèi)出版數(shù)據(jù)進(jìn)行對(duì)比,可以獲取以下認(rèn)知:
(1)從時(shí)間及國(guó)家/地區(qū)維度。全球科學(xué)數(shù)據(jù)出版整體呈現(xiàn)出蓬勃發(fā)展的態(tài)勢(shì),數(shù)據(jù)集和數(shù)據(jù)論文的出版數(shù)量都呈現(xiàn)出快速增長(zhǎng)的趨勢(shì)??梢灶A(yù)知隨著人類探索未知世界的不斷深入,科研人員對(duì)科學(xué)數(shù)據(jù)出版價(jià)值的認(rèn)知提升,科學(xué)數(shù)據(jù)出版在數(shù)量及規(guī)模都將保持繼續(xù)上升態(tài)勢(shì)。從數(shù)據(jù)論文出版時(shí)間及國(guó)家的角度,中美兩國(guó)發(fā)布數(shù)據(jù)論文的起始時(shí)間基本一致,但中國(guó)每年數(shù)據(jù)論文的出版數(shù)量基本上是美國(guó)的一半左右。從數(shù)據(jù)集時(shí)間及國(guó)家的角度看,由于數(shù)據(jù)集78%的記錄缺少國(guó)家信息的描述,數(shù)據(jù)雖然不能準(zhǔn)確反映國(guó)家維度出版數(shù)據(jù)集的增長(zhǎng)趨勢(shì),但根據(jù)從數(shù)據(jù)庫(kù)中獲知的國(guó)家最早出版數(shù)據(jù)集的時(shí)間可知,美國(guó)始于1837 年,中國(guó)始于1989 年。結(jié)合我國(guó)中國(guó)科學(xué)院于1983 年開始建設(shè)的“科學(xué)數(shù)據(jù)庫(kù)及其信息系統(tǒng)”項(xiàng)目,可以認(rèn)為,我國(guó)科學(xué)數(shù)據(jù)集出版雖起步晚,但在數(shù)量上不斷增加(基于已有包含國(guó)家字段的記錄統(tǒng)計(jì))。上述數(shù)據(jù)基本反映出了我國(guó)科學(xué)數(shù)據(jù)出版整體起步較晚,目前與美國(guó)之間依舊存在差距,但數(shù)量數(shù)據(jù)也反映出我國(guó)科學(xué)數(shù)據(jù)出版工作在很短時(shí)期內(nèi)取得了很大的成績(jī)。
(2)從研究方向維度。全球科學(xué)數(shù)據(jù)出版的研究方向主要集中于自然科學(xué)領(lǐng)域,也有研究方向?qū)儆谏鐣?huì)科學(xué)領(lǐng)域,如圖書情報(bào)、藝術(shù)等,但社會(huì)科學(xué)領(lǐng)域的數(shù)據(jù)論文、數(shù)據(jù)集在總體數(shù)量中并不占據(jù)主導(dǎo)地位。上述情況與自然科學(xué)和社會(huì)科學(xué)的研究方法密切相關(guān),前者注重實(shí)驗(yàn)研究,后者注重理論研究??茖W(xué)數(shù)據(jù)作為科學(xué)研究的重要組成部分,其出版共享工作不僅要關(guān)注于自然科學(xué)領(lǐng)域,還應(yīng)在社會(huì)科學(xué)領(lǐng)域開展相關(guān)數(shù)據(jù)共享實(shí)踐工作。
(3)從出版來源維度。從數(shù)據(jù)的分布看,數(shù)據(jù)論文的數(shù)量主要集中分布于個(gè)別期刊,而數(shù)據(jù)集的出版途徑則相對(duì)分散。從更深層次看,可以認(rèn)為數(shù)據(jù)集出版開始時(shí)間早,出版途徑相對(duì)成熟并且多樣化,而數(shù)據(jù)論文的出版還處于初步發(fā)展階段,其出版途徑主要集中于少數(shù)期刊,因此數(shù)據(jù)論文的出版還需探索更多的出版模式,豐富出版途徑。同時(shí),我國(guó)雖然在科學(xué)數(shù)據(jù)出版中占據(jù)重要地位,但是出版途徑存在偏重于國(guó)外出版物和存儲(chǔ)平臺(tái)的問題。
(4)從影響力維度。全球范圍具有高被引頻次的數(shù)據(jù)論文和數(shù)據(jù)集,均主要分布在歐美國(guó)家。從整體上看,作為發(fā)展中國(guó)家的中國(guó)在數(shù)據(jù)論文和數(shù)據(jù)集的“量”上得到了巨大發(fā)展,在“質(zhì)”上雖然取得了一定成就,但依舊與歐美國(guó)家存在差距。我國(guó)數(shù)據(jù)集的發(fā)布起始時(shí)間較晚,以及科研人員對(duì)數(shù)據(jù)共享認(rèn)識(shí)的差異,高影響力數(shù)據(jù)集的出版相對(duì)不足。數(shù)據(jù)論文作為科學(xué)數(shù)據(jù)出版的新形式,其本質(zhì)上也是數(shù)據(jù)集的另外一種體現(xiàn)形式,雖然中美近乎同時(shí)起步,也取得了一定進(jìn)步,但還需要在“質(zhì)”上引導(dǎo)與鼓勵(lì)更多機(jī)構(gòu)和科研人員的參與。
綜合全球科學(xué)數(shù)據(jù)出版的多個(gè)維度發(fā)展態(tài)勢(shì),以及結(jié)合我國(guó)科學(xué)數(shù)據(jù)出版的發(fā)展現(xiàn)狀,論文認(rèn)為我國(guó)科學(xué)數(shù)據(jù)出版應(yīng)側(cè)重于從以下幾個(gè)方面進(jìn)行完善并推動(dòng)我國(guó)科學(xué)數(shù)據(jù)價(jià)值最大化,服務(wù)我國(guó)科學(xué)研究工作。
(1)制定規(guī)范的科學(xué)數(shù)據(jù)出版質(zhì)量控制體系。從上述檢索出來的數(shù)據(jù)論文、數(shù)據(jù)集數(shù)據(jù)可以發(fā)現(xiàn),78%的數(shù)據(jù)集記錄的國(guó)家信息存在缺失、部分國(guó)家信息直接標(biāo)注為國(guó)家下的州(?。?shù)據(jù)論文出版途徑存在全稱和簡(jiǎn)稱共現(xiàn)等問題,數(shù)據(jù)的不完整、數(shù)據(jù)歧義等問題會(huì)直接影響對(duì)科學(xué)數(shù)據(jù)出版進(jìn)行深層次分析的準(zhǔn)確性。目前,科學(xué)數(shù)據(jù)出版尚處于探索的階段[15],我國(guó)的《科學(xué)數(shù)據(jù)管理辦法》、《信息技術(shù)科學(xué)數(shù)據(jù)引用》等都為科學(xué)數(shù)據(jù)知識(shí)產(chǎn)權(quán)保護(hù)和共享提供了方向,但這些工作還遠(yuǎn)遠(yuǎn)不能滿足科學(xué)數(shù)據(jù)出版發(fā)展的需要,未來的工作需要從質(zhì)量控制的角度,以科學(xué)數(shù)據(jù)共享為目的,從更高的層面對(duì)科學(xué)數(shù)據(jù)出版的各個(gè)流程制定規(guī)范化的科學(xué)數(shù)據(jù)分類、科學(xué)數(shù)據(jù)描述、科學(xué)數(shù)據(jù)存儲(chǔ)與發(fā)布等相關(guān)標(biāo)準(zhǔn)、體系與框架,并形成具有約束效力的文件。
(2)打造優(yōu)秀科學(xué)數(shù)據(jù)出版途徑。我國(guó)的科學(xué)數(shù)據(jù)出版基本上開始于上世紀(jì)80 年代,雖然隨著我國(guó)科技實(shí)力的不斷上升,科學(xué)數(shù)據(jù)出版事業(yè)不斷發(fā)展,但科學(xué)數(shù)據(jù)出版與國(guó)外相比依舊存在差距,在國(guó)內(nèi)具有高國(guó)際影響力的優(yōu)秀期刊和存儲(chǔ)平臺(tái)相對(duì)較少是這種差距的表現(xiàn)之一。針對(duì)此種問題,一是需要政府管理機(jī)構(gòu)充分認(rèn)識(shí)到科學(xué)數(shù)據(jù)出版對(duì)我國(guó)科研水平提升的重要價(jià)值。二是要從管理層面制定政策、投入資金,引導(dǎo)、鼓勵(lì)國(guó)內(nèi)相關(guān)研究機(jī)構(gòu)、出版機(jī)構(gòu)參與到科學(xué)數(shù)據(jù)出版工作中,并制定相應(yīng)科學(xué)數(shù)據(jù)出版工作的考核評(píng)價(jià)體系,激勵(lì)優(yōu)秀科學(xué)數(shù)據(jù)出版物或出版平臺(tái)的發(fā)展。三是制定法律規(guī)范要求國(guó)內(nèi)出版機(jī)構(gòu)和科研人員出版科學(xué)數(shù)據(jù)時(shí),需在國(guó)內(nèi)出版平臺(tái)提交相關(guān)科學(xué)數(shù)據(jù)。四是將科學(xué)數(shù)據(jù)成果納入到人才評(píng)價(jià)體系中,激勵(lì)更多科研人員出版優(yōu)秀科學(xué)數(shù)據(jù)??傊?,需要政府、機(jī)構(gòu)、科研人員等多方共同努力為國(guó)內(nèi)科學(xué)數(shù)據(jù)出版提供更為優(yōu)秀的科學(xué)數(shù)據(jù)來源,進(jìn)而打造優(yōu)秀科學(xué)數(shù)據(jù)出版途徑。
(3)在全科學(xué)研究領(lǐng)域鼓勵(lì)并引導(dǎo)科學(xué)數(shù)據(jù)共享發(fā)布。從文中數(shù)據(jù)可以獲知,科學(xué)數(shù)據(jù)論文和數(shù)據(jù)集的出版涉及自然科學(xué)、社會(huì)科學(xué)等各個(gè)學(xué)科領(lǐng)域,科學(xué)數(shù)據(jù)無論是在自然科學(xué)領(lǐng)域,還是在社會(huì)科學(xué)領(lǐng)域都具有重要的價(jià)值。從此角度,無論是哪個(gè)學(xué)科領(lǐng)域,只要涉及到科學(xué)數(shù)據(jù)支撐的研究工作,都應(yīng)該鼓勵(lì)科研人員進(jìn)行其研究數(shù)據(jù)的共享。在科學(xué)數(shù)據(jù)出版中,政府層面應(yīng)該制定相應(yīng)的激勵(lì)政策鼓勵(lì)各個(gè)學(xué)科領(lǐng)域的出版機(jī)構(gòu),積極參與到科學(xué)數(shù)據(jù)出版的工作中。各研究領(lǐng)域的出版機(jī)構(gòu)要主動(dòng)要求投稿人將論文數(shù)據(jù)進(jìn)行公開共享。人才管理機(jī)構(gòu)要將科研人員的科學(xué)數(shù)據(jù)成果納入科研人員學(xué)術(shù)成果中??傊?,需要從制度上、利益上吸引我國(guó)各個(gè)學(xué)科領(lǐng)域科研人員進(jìn)行科學(xué)數(shù)據(jù)共享。
(4)引導(dǎo)科學(xué)數(shù)據(jù)出版從“量”到“質(zhì)”的轉(zhuǎn)變。在將我國(guó)與國(guó)外數(shù)據(jù)出版進(jìn)行對(duì)比的過程中,可以發(fā)現(xiàn)我國(guó)科學(xué)數(shù)據(jù)出版在“量”上蓬勃發(fā)展,在“質(zhì)”上與歐美發(fā)達(dá)國(guó)家存在差距。從表面上看是科研實(shí)力的差距,我國(guó)需要從政府管理層面制定政策、投入更多資金,提升整體科研水平,扶持激勵(lì)高質(zhì)量科學(xué)數(shù)據(jù)的出版。從內(nèi)在深層原因看,是我國(guó)需要改革和完善科學(xué)評(píng)價(jià)體制,將科學(xué)數(shù)據(jù)出版納入人才評(píng)價(jià)及激勵(lì)機(jī)制,同時(shí)在對(duì)人才評(píng)價(jià)時(shí)還要注重科學(xué)數(shù)據(jù)產(chǎn)生的影響力及對(duì)相應(yīng)學(xué)科領(lǐng)域的貢獻(xiàn)、研究?jī)r(jià)值和意義。同時(shí),還應(yīng)意識(shí)到我國(guó)科學(xué)數(shù)據(jù)在量上雖已得到一定程度的發(fā)展,但還遠(yuǎn)遠(yuǎn)不夠,還需要繼續(xù)采取各種措施吸引更多科研人員貢獻(xiàn)自己的科學(xué)數(shù)據(jù)。量變是質(zhì)變的準(zhǔn)備,我國(guó)的科學(xué)數(shù)據(jù)出版目前依舊有許多工作需要完善,如規(guī)范科學(xué)數(shù)據(jù)出版質(zhì)量、培育高影響力科學(xué)數(shù)據(jù)出版平臺(tái)、鼓勵(lì)各學(xué)科科學(xué)數(shù)據(jù)出版等,為我國(guó)科學(xué)數(shù)據(jù)出版的質(zhì)變提供前提和準(zhǔn)備。
致 謝
本文得到中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)(B 類)課題(XDB38030300);國(guó)家自然科學(xué)基金專項(xiàng)(L1924075);科技部創(chuàng)新方法工作專項(xiàng)(2019IM020100);中科院十三五信息化專項(xiàng)(XXH13505、XXH13514)項(xiàng)目資助。
中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2021年3期