王 雪 楊 波
(1.南京工業(yè)大學圖書館 南京 210009;2.南京農(nóng)業(yè)大學信息管理學院 南京 210095)
科學數(shù)據(jù)是指科研活動中產(chǎn)生的數(shù)據(jù),包括實驗數(shù)據(jù)、監(jiān)測數(shù)據(jù)、調(diào)查數(shù)據(jù)等[1]。大數(shù)據(jù)時代,科學數(shù)據(jù)是科研活動的基礎性資源,大部分的科研活動都是以數(shù)據(jù)的搜集和分析開始的。同時,科學數(shù)據(jù)也是一種重要的社會資源,以歐美為首的眾多國家甚至將科學數(shù)據(jù)的管理與應用上升至國家戰(zhàn)略層面。我國國務院辦公廳印發(fā)實施的《科學數(shù)據(jù)管理辦法》[2],為我國科學數(shù)據(jù)重用提供了重要的政策保障。
數(shù)據(jù)的價值在于使用。通過重用科學數(shù)據(jù),可以節(jié)省科研人員的時間、精力和財力,也是對數(shù)據(jù)擁有者的權(quán)益保護,增強科研人員的數(shù)據(jù)共享信心[3]。了解科學數(shù)據(jù)重用過程中的障礙與難點、規(guī)范數(shù)據(jù)重用行為,是促進科研縱向發(fā)展的必由之路。
大數(shù)據(jù)時代的科學技術,為數(shù)據(jù)重用的實現(xiàn)奠定了基礎。數(shù)據(jù)重用可以規(guī)避科研人員在數(shù)據(jù)收集過程中遇到的數(shù)據(jù)動態(tài)更新、數(shù)據(jù)格式不統(tǒng)一等客觀性問題,同時也是個人數(shù)據(jù)收集能力的重要體現(xiàn)。不同學科領域,由于研究范式的差異,對于數(shù)據(jù)重用存在不同的認知。本研究以科研人員的角度出發(fā),以多個學科為研究對象,采用定量的研究方法,多角度對比分析不同學科之間的數(shù)據(jù)重用行為差異,全方位揭示我國不同學科領域的數(shù)據(jù)重用行為特征,以期為我國科學數(shù)據(jù)重用規(guī)范的制定提供參考。
數(shù)據(jù)重用最早開始于20世紀90年代,關于科學數(shù)據(jù)重用的內(nèi)涵研究,仍處于初級階段,國內(nèi)外學者至今并沒有明確的定義。一般而言,數(shù)據(jù)重用,也被稱為數(shù)據(jù)復用、數(shù)據(jù)二次分析[4-6],指的是為了新的研究目的而將歷史數(shù)據(jù)再分析的過程,或者是利用新的研究方法去解決原始的問題而組合成不同的數(shù)據(jù)集,或者是基于以往的數(shù)據(jù)而不僅限于原始數(shù)據(jù)以解決新的問題[7]。目前,關于科學數(shù)據(jù)重用的相關研究主要集中在數(shù)據(jù)可重用性、數(shù)據(jù)重用行為特征、數(shù)據(jù)重用意愿與影響因素等方面。
對重用數(shù)據(jù)質(zhì)量進行評估,是保證數(shù)據(jù)重用具有價值的重要前提。國內(nèi)外學者分別從重用數(shù)據(jù)的獲取途徑[8]、重用數(shù)據(jù)的質(zhì)量評價指標[9-10]等方面進行理論與實證的研究。另外,Yoon從失敗的數(shù)據(jù)重用經(jīng)驗的角度出發(fā),研究發(fā)現(xiàn)可重用數(shù)據(jù)的易用性是數(shù)據(jù)能否重用成功的重要條件,往往數(shù)據(jù)重用失敗是因為缺少一個開放的數(shù)據(jù)共享系統(tǒng)[11]。關于科研人員的數(shù)據(jù)重用行為特征,相關研究主要集中在基因與遺傳學[12]、生態(tài)學[13]、管理學[14]、經(jīng)濟學[15]、生物醫(yī)學[16]等多個學科領域,但是由于學科之間的差異性,關于數(shù)據(jù)重用行為特征也有所不同。科學數(shù)據(jù)的重用受到眾多因素的影響,除了數(shù)據(jù)的質(zhì)量[17],數(shù)據(jù)貢獻者或數(shù)據(jù)重用者的意愿也會影響數(shù)據(jù)的重用效果。國內(nèi)外學者發(fā)現(xiàn),影響科研人員數(shù)據(jù)重用意愿有多重因素中,主要是數(shù)據(jù)重用者的學科背景[18]、數(shù)據(jù)素養(yǎng)[19-20]、數(shù)據(jù)感知力[21-22]等。
科學數(shù)據(jù)的重用是一個復雜的過程。國外學者相關研究成果較為豐富,從理論到實踐都進行了全面探索,國內(nèi)相關研究更側(cè)重于探索數(shù)據(jù)重用的實踐,應用范圍廣泛涉及到自然領域和社會領域。我國科研人員多數(shù)聚焦于數(shù)據(jù)重用的意愿與影響因素,對于數(shù)據(jù)重用行為的本質(zhì)特征研究較少,而且多是基于特定的某個學科領域,不能準確、全面地了解各學科領域之間的數(shù)據(jù)重用差異。本研究通過對不同學科科研人員的數(shù)據(jù)重用行為進行量化分析,有助于了解科研人員的數(shù)據(jù)重用需求與習慣,發(fā)現(xiàn)不同學科的數(shù)據(jù)重用表現(xiàn)特點,以便于針對性的制定規(guī)范化的數(shù)據(jù)重用標準,提高我國科研數(shù)據(jù)的重用率,推動數(shù)據(jù)的開放與共享,實現(xiàn)數(shù)據(jù)價值的增值。
2.1數(shù)據(jù)來源為了全面了解我國科學數(shù)據(jù)重用情況,本研究以收錄在CNKI 10個學科門類的期刊文獻為數(shù)據(jù)采集對象。CNKI將所有學科分為10個門類,每個門類下細分出多個學科,每個學科包含多個期刊。本研究的樣本獲取方式如下:首先,選擇CNKI每個學科門類下的綜合學科專題。然后,依據(jù)復合影響因子將核心期刊進行排序,選擇排名前3的期刊。最后,獲取這些期刊2017-2019年3年間每年第1期的所有研究型論文,共1 544篇。其中,《計算機研究與發(fā)展》期刊2019年第1期為慶祝創(chuàng)刊六十周年的特別活動,均為綜述性論文,因而選擇第二期。因整體文獻量過大,最后從每種期刊的第一期中各隨機選擇10篇作為研究樣本。其中,《世界經(jīng)濟》《中國農(nóng)村觀察》《中華內(nèi)科雜志》等期刊的每期發(fā)表研究型論文數(shù)少于10篇,因而最終獲得有效論文891篇。
2.2數(shù)據(jù)采集目前,基于內(nèi)容的數(shù)據(jù)使用標引并沒有可靠的自動識別方法,因而本研究采用人工標注的方式采集數(shù)據(jù)。人工標注數(shù)據(jù)重用的基本情況,詳細編碼內(nèi)容主要包括是否使用數(shù)據(jù)、數(shù)據(jù)獲取方式、數(shù)據(jù)是否重用、數(shù)據(jù)提及方式、獨立的數(shù)據(jù)使用說明模塊、數(shù)據(jù)來源類型等方面,每個編碼項具體描述如表1。標注過程中,對于數(shù)據(jù)集的相關信息通過搜索引擎、數(shù)據(jù)平臺等各種信息渠道獲取,確保標注數(shù)據(jù)的準確性。
編碼說明:
①是否使用數(shù)據(jù):文中是否使用數(shù)據(jù)進行分析研究,如果有,編碼“是”,如果沒有,編碼“否”。
②數(shù)據(jù)獲取方式:如果文中的數(shù)據(jù)是作者自己收集,則編碼“自己采集”;如果數(shù)據(jù)是從公共科學數(shù)據(jù)倉儲平臺獲取,則編碼“公共數(shù)據(jù)集合”;如果未指出數(shù)據(jù)獲取方式,則編碼“不明來源”。如果是同一篇文章采用多種形式獲取數(shù)據(jù),則標注每一種類別。
③數(shù)據(jù)是否重用:數(shù)據(jù)重用是指根據(jù)已有數(shù)據(jù)進行新的分析與研究,即科研人員使用的數(shù)據(jù)不是自己采集或者實驗所得。根據(jù)上述定義,判定文獻是否數(shù)據(jù)重用,如果重用已有數(shù)據(jù),編碼“是”,否則為“否”。
④數(shù)據(jù)提及方式:重用數(shù)據(jù)在文獻中的提及方式,如名稱、參考文獻、URL、DOI、注釋、其他等。
⑤數(shù)據(jù)使用聲明模塊位置:文獻中關于重用數(shù)據(jù)的使用聲明的模塊,共分為研究設計、數(shù)據(jù)與方法、實驗與實證、其他四種類型。
⑥數(shù)據(jù)來源類型:數(shù)據(jù)的類型可能是商業(yè)、政府及組織、一般性門戶網(wǎng)站、高校及科研機構(gòu)、期刊論文、其他。如果同一篇文章的數(shù)據(jù)類型是多樣的,則標注每一種類型;如果同一篇文獻多次使用同類型的數(shù)據(jù),則只標注一次。其他類型如檔案文件、媒體報道、企業(yè)內(nèi)刊、紙質(zhì)出版物等。
表1 編碼表
3.1描述性統(tǒng)計通過對編碼后的文獻進行統(tǒng)計分析發(fā)現(xiàn),使用數(shù)據(jù)的文獻共525篇,占總文獻量的59%,這也反映出了科學數(shù)據(jù)已經(jīng)成為當今科研活動的重要組成其中,僅自己采集獲取數(shù)據(jù)的文獻量341篇,占比高達65%。本研究中的數(shù)據(jù)重用文獻共177篇,占總文獻量的20%,每年的數(shù)據(jù)重用文獻數(shù)分別為47篇(占比16%)、69篇(占比23%)、61篇(占比21%),說明我國科研人員整體的數(shù)據(jù)重用行為普及率較低。
統(tǒng)計數(shù)據(jù)顯示,科研人員關于重用數(shù)據(jù)的提及方式比較多樣。圖2所示,在重用數(shù)據(jù)的177篇文獻中,科研人員主要是提供數(shù)據(jù)獲取平臺的“名稱”,共有文獻171篇(占比97%)。引用是科研人員最為普遍的文獻參考形式,但通過引用形式聲明數(shù)據(jù)重用的文獻僅有31篇(占比18%),這也說明我國科研人員尚未形成普遍的數(shù)據(jù)標引習慣。以注釋或者URL形式提及數(shù)據(jù)獲取平臺的文獻分別僅有14篇和8篇,而DOI作為數(shù)據(jù)唯一識別符號,僅有1篇文獻提及。我國科研人員在數(shù)據(jù)重用過程中缺乏數(shù)據(jù)引用意識,且引用形式不規(guī)范。
在重用數(shù)據(jù)過程中對數(shù)據(jù)進行詳細的說明是必要的。由于不同的科研人員對于數(shù)據(jù)使用聲明方式不同,因而數(shù)據(jù)重用聲明在文中的位置也有所差異。本研究將數(shù)據(jù)使用聲明模塊的標題進行了規(guī)范化,主要有研究設計、數(shù)據(jù)與方法、實驗與實證、其他四種類型。其中,數(shù)據(jù)與方法(占比56%)主要包括數(shù)據(jù)說明、數(shù)據(jù)來源、研究方法等模塊,在這個部分聲明數(shù)據(jù)使用的文獻量最大;其次是實驗與實證(占比22%)模塊;其他(占比19%)類型主要包括背景概況,或者是全文沒有提供數(shù)據(jù)使用聲明,或者是分布在一些描述或統(tǒng)計模塊,可見部分科研人員的數(shù)據(jù)使用聲明意識需要提升。
在重用數(shù)據(jù)來源類型方面,同一篇文獻的數(shù)據(jù)可能來自不同類型的數(shù)據(jù)平臺。其中,來自政府及研究組織(占比50%)類型的數(shù)據(jù)最多主要是這些數(shù)據(jù)具有高度的規(guī)范性與連續(xù)性,能夠反映出研究對象在不同的時間段或地區(qū)的變化情況,是科學研究的重要數(shù)據(jù)來源。其次是商業(yè)數(shù)據(jù)(占比33%),商業(yè)數(shù)據(jù)庫由于數(shù)據(jù)量大、結(jié)構(gòu)規(guī)范、指標詳細等特點,成為科學研究數(shù)據(jù)的重要來源之一。
3.2學科特點分析雖然科學界對于科學數(shù)據(jù)的重要性已經(jīng)達成普遍共識,但不同學科的科研人員對數(shù)據(jù)重用的認知是不同的,數(shù)據(jù)重用的行為特征也有所差異。
3.2.1 數(shù)據(jù)重用情況分析 本研究涉及的10個門類中,7個門類使用數(shù)據(jù)的文獻量超過一半,醫(yī)藥衛(wèi)生技術和社會科學Ⅱ兩個門類的數(shù)據(jù)使用率甚至高達100%。圖1所示,僅有經(jīng)濟與管理(占比62%)一個門類的重用數(shù)據(jù)文獻量超過一半,該領域的研究主要依賴國家或地方機構(gòu)的官方數(shù)據(jù)、金融機構(gòu)公布數(shù)據(jù)、經(jīng)濟學數(shù)據(jù)庫(CSMAR數(shù)據(jù)庫、Wind數(shù)據(jù)庫等)等平臺;基礎科學綜合(占比43 %)和信息科技(32%)的數(shù)據(jù)重用情況也相當普遍;農(nóng)業(yè)科技等其它七個門類的數(shù)據(jù)重用率較低。其中,醫(yī)藥衛(wèi)生科技、社會科學Ⅱ這兩個門類的數(shù)據(jù)使用率高、數(shù)據(jù)重用率低,可能是由于科研人員數(shù)據(jù)重用的感知力受到學科差異的影響,并且缺乏規(guī)范的數(shù)據(jù)重用規(guī)則、缺少便捷的數(shù)據(jù)獲取渠道等多種因素造成我國該領域的數(shù)據(jù)重用實踐發(fā)展較為緩慢。
圖1 各門類的數(shù)據(jù)使用與重用情況分布
3.2.2 重用數(shù)據(jù)提及方式分析 各門類的重用數(shù)據(jù)提及方式中,數(shù)據(jù)來源平臺的“名稱”是重用數(shù)據(jù)最主要的提及方式,其中的經(jīng)濟與管理科學、社會科學Ⅰ、社會科學Ⅱ、信息科技、醫(yī)藥衛(wèi)生科技、哲學與人文科學六個門類的“名稱”提及率均為100%;引用是目前公認的較為規(guī)范的參考形式,但是,只有社會科學Ⅰ和信息科技兩個門類的引用率高于50%;注釋是社會科學論文寫作中的常見方式,社會科學Ⅱ?qū)茖W數(shù)據(jù)的重用也體現(xiàn)了這種特點;URL在國際論文中較為普遍,而我國科研人員使用較少,且使用頻率較低;DOI作為國際范圍推廣的數(shù)據(jù)參考形式,僅有基礎科學綜合一個門類使用(3%)。整體來看,我國各學科領域的科研人員在數(shù)據(jù)參考形式方面存在差異,且形式多樣,沒有統(tǒng)一的規(guī)范。一方面反映出我國科研人員的數(shù)據(jù)共享意識不強,另一方面也說明制定數(shù)據(jù)參考標準、提升科研人員數(shù)據(jù)共享意識的緊迫性。
圖2 各門類重用數(shù)據(jù)的提及方式分布
3.2.3 重用數(shù)據(jù)使用說明模塊位置分析 在數(shù)據(jù)重用的文獻中,不同學科的數(shù)據(jù)使用聲明模塊的位置分布也有所差異。如圖3和圖4所示,工程科技Ⅰ和哲學與人文科學在數(shù)據(jù)重用過程中,所有文獻都提供數(shù)據(jù)使用聲明模塊(占比100%),模塊位置主要分布在數(shù)據(jù)與方法類型中,兩個門類的模塊類型占比分別是67%和86%。信息科技、經(jīng)濟與管理科學、基礎
圖3 各門類提供重用數(shù)據(jù)使用聲明模塊位置的文獻占比分布
圖4 各門類重用數(shù)據(jù)的使用聲明模塊位置分布
科學綜合、農(nóng)業(yè)科技、醫(yī)藥衛(wèi)生科技、社會科學Ⅱ的重用數(shù)據(jù)文獻中,大部分都提供數(shù)據(jù)使用聲明模塊(占比大于50%),其中,信息科技(96%)主要在實驗與實證類型的模塊中提及;經(jīng)濟與管理科學(85%)、基礎科學綜合(73%)、農(nóng)業(yè)科技(93%)、醫(yī)藥衛(wèi)生科技(100%)、社會科學Ⅱ(83%)主要在數(shù)據(jù)與方法類型的模塊中提及。工程科技Ⅱ中提供數(shù)據(jù)使用聲明模塊的文獻較少(占比36%),主要分布在數(shù)據(jù)與方法(100%)類型的模塊。社會科學Ⅰ未有文獻提供數(shù)據(jù)使用聲明模塊(占比0%)。綜合來看,我國科研人員在數(shù)據(jù)重用過程中,對于如何描述重用數(shù)據(jù)的使用聲明,還沒有統(tǒng)一的標準。
3.2.4 重用數(shù)據(jù)來源類型分析 重用數(shù)據(jù)的可獲得性,是影響數(shù)據(jù)重用的重要因素。圖5顯示,政府及組織是多數(shù)門類的數(shù)據(jù)獲取途徑。農(nóng)業(yè)科技和社會科學Ⅱ,數(shù)據(jù)來自政府及組織文獻占比高達89%;醫(yī)藥衛(wèi)生科技和哲學與人文科學的數(shù)據(jù)主要來自于商業(yè)途徑;信息技術的數(shù)據(jù)主要來自一般性門戶網(wǎng)站;經(jīng)濟與管理科學、基礎科學研究兩個門類的數(shù)據(jù)主要來源于政府及組織、商業(yè)兩種途徑,這與張瑩、戚景琳等學者關于經(jīng)濟學和管理學的結(jié)論一致。以上這些較為方便的幾種數(shù)據(jù)獲取途徑為其他人員重用科學數(shù)據(jù)提供了便利,然而,醫(yī)藥衛(wèi)生科技、基礎科學綜合領域有相
圖5 各門類重用數(shù)據(jù)的來源類型分布
當一部分數(shù)據(jù)來自于除此之外的其他途徑的。由于時間、環(huán)境等其他因素的干擾,這種類型的數(shù)據(jù)對其他人員的數(shù)據(jù)重用會有所影響。
數(shù)據(jù)重用是數(shù)據(jù)共享的目標之一,也是數(shù)據(jù)增值的過程。當前關于數(shù)據(jù)重用的研究主要是基于某個特定學科,針對不同學科的數(shù)據(jù)重用行為特征的對比研究較少。本研究采用內(nèi)容分析法,以CNKI 10個門類的891篇研究型論文為研究樣本,探究不同學科科研人員的數(shù)據(jù)重用行為特征。雖然Mengnan Zhao和Erjia Yan[23]等學者對12個學科的600篇外文文獻的統(tǒng)計中并沒有提供和本研究對等的統(tǒng)計數(shù)據(jù),但從他們的研究中仍然可以發(fā)現(xiàn),不同學科的科研人員在數(shù)據(jù)收集、引用和整理等方面的情況差異很大。而且,很高比例的科研人員更愿意自己收集數(shù)據(jù),而不是重用先前的研究數(shù)據(jù)。
本研究從重用數(shù)據(jù)的提及方式、數(shù)據(jù)使用聲明模塊位置、數(shù)據(jù)來源類型等方面,全面揭示不同學科領域下,我國科研人員的數(shù)據(jù)重用行為特征。研究發(fā)現(xiàn),a.各學科的科研人員整體數(shù)據(jù)重用率低,亟需強化科研人員的數(shù)據(jù)重用意識;b.各學科的數(shù)據(jù)引用方式不一,且數(shù)據(jù)引用率低,通常只提供數(shù)據(jù)獲取平臺的名稱;c.各學科的重用數(shù)據(jù)主要來自政府及組織、商業(yè)數(shù)據(jù)庫等途徑,還有部分數(shù)據(jù)來自檔案文件、媒體報道等其他途徑。d.各學科在數(shù)據(jù)重用時,大部分都提供數(shù)據(jù)使用聲明。
從之前的研究結(jié)論可以得知,目前國內(nèi)外的科研人員對于數(shù)據(jù)重用的態(tài)度,整體呈現(xiàn)出認可度高但是實踐水平低的現(xiàn)狀[24-25],本研究對所有學科的分析數(shù)據(jù)進一步印證了上述結(jié)論。另外,不同學科領域的數(shù)據(jù)重用強度是不同的,這也是由學科本質(zhì)特點、科研環(huán)境決定的。其中,經(jīng)濟領域的數(shù)據(jù)重用程度最高,這與戚景琳、林奇秀等學者的研究結(jié)論一致。經(jīng)濟學作為重要的實證性社會科學,該領域的重用數(shù)據(jù)來源最主要是政府及組織,并有少部分數(shù)據(jù)來源于個人或研究團隊的期刊論文、著作等。而Piwowar、Vision、Fear等學者發(fā)現(xiàn),國外的科學研究大多使用個人或研究團體的數(shù)據(jù),這可能與各國的科研環(huán)境以及科學意識有關。
通過對不同學科的數(shù)據(jù)重用行為特征的研究,可以全面了解我國數(shù)據(jù)重用現(xiàn)狀,同時為后續(xù)的數(shù)據(jù)重用行為特征探索提供借鑒,本研究也存在一些不足,比如選擇期刊較少,不能夠全面覆蓋所有細分學科、只關注文本內(nèi)容,未能精確對文本以外的情感、動機等因素進行分析研究。在今后的深入研究中,需要擴大研究樣本、結(jié)合多種分析方法,更加全面、準確地分析科研人員的數(shù)據(jù)重用行為特征。