黃國彬 王 舒
(1.北京師范大學政府管理學院 北京 100875;2.山西財經(jīng)大學圖書館 太原 030006)
科學數(shù)據(jù),又稱“科研數(shù)據(jù)”或“研究數(shù)據(jù)”,是指在科技活動(實驗、觀測、探測、調查等)中或通過其他方式所獲取的反映客觀世界的本質、特征、變化規(guī)律等的原始基本數(shù)據(jù),以及根據(jù)不同科技活動需要,進行系統(tǒng)加工整理的各類數(shù)據(jù)集[1]。在數(shù)據(jù)驅動發(fā)展的環(huán)境下,科學數(shù)據(jù)不僅是開展科學研究的基石,也是政府部門制定政策、進行科學決策的重要依據(jù)。在實際開展研究過程中,由于資金、設備、場地、時間等因素限制,部分研究人員難以通過自身努力產(chǎn)生科學數(shù)據(jù)。基于此,研究者通過科學數(shù)據(jù)共享渠道,利用已經(jīng)產(chǎn)生的科學數(shù)據(jù)來開展研究工作顯得尤為重要,而科學數(shù)據(jù)倉儲則是科學數(shù)據(jù)共享的主要渠道之一。此外,由于科學數(shù)據(jù)本身具有類型多樣、格式異構等特點,科學數(shù)據(jù)的存儲、監(jiān)護、獲取和再利用已經(jīng)成為當前信息管理界面臨的重大難題之一。而科學數(shù)據(jù)倉儲則能為科學數(shù)據(jù)的管理帶來新的機遇。鑒于此,本文對國外科學數(shù)據(jù)倉儲的服務實踐進行調研與分析,總結當前國外的科學數(shù)據(jù)倉儲服務體系具有重要意義。
目前,國內學者們從多個角度對科學數(shù)據(jù)倉儲服務開展了相關研究,主要集中在科學數(shù)據(jù)倉儲的服務功能、用戶需求、評價體系和建設機制等方面,以國內科學數(shù)據(jù)倉儲、國外科學數(shù)據(jù)倉儲為對象展開研究。
(1)國內科學數(shù)據(jù)倉儲的研究
用戶需求研究。學者梅相月用問卷調查法,從注冊與使用、檢索與瀏覽、數(shù)據(jù)資源、數(shù)據(jù)服務、互動交流、平臺服務六個角度調研分析科學數(shù)據(jù)共享平臺的用戶需求,并調研了國家林業(yè)和草原科學數(shù)據(jù)中心、國家地球系統(tǒng)科學數(shù)據(jù)共享平臺、國家人口健康科學數(shù)據(jù)中心、國家氣象科學數(shù)據(jù)中心等6個國家科學數(shù)據(jù)共享平臺的用戶需求滿足情況,認為在用戶的檢索與瀏覽、數(shù)據(jù)資源、數(shù)據(jù)服務需求等方面用戶需求沒有得到很好的滿足[2]。
評價體系研究。學者李贊梅構建了針對人口健康平臺資源的綜合評價指標體系,從資源主題、資源質量、數(shù)據(jù)規(guī)模、服務能力、服務成效和來源版權等維度對資源進行綜合評價,有助于推動平臺新增資源遴選和優(yōu)質資源識別[3]。
(2)國外科學數(shù)據(jù)倉儲的研究
服務功能研究。學者王丹丹調研了德國社會科學領域的科學數(shù)據(jù)倉儲Sowi Data Net|Datorium的服務現(xiàn)狀,從數(shù)據(jù)存儲者、數(shù)據(jù)用戶和科研機構的角度分析了倉儲的數(shù)據(jù)服務流程,認為我國社科領域的科學數(shù)據(jù)層倉儲應該拓展服務對象,注重機構用戶,支持機構將平臺嵌入到自己的工作流程;開展收費服務,用吸引商業(yè)機構和個人資助等方式,拓寬資金來源渠道[4]。
(3)國內外科學數(shù)據(jù)倉儲的比較研究
平臺建設研究。學者袁夢雪從建設基礎(政策、經(jīng)費、技術、團隊)及管理過程(數(shù)據(jù)管理計劃、采集標準與流程、描述與元數(shù)據(jù)、存儲與保存、共享與保護、應用與服務)兩個維度對比國內外11個健康醫(yī)學科學數(shù)據(jù)管理平臺的建設實踐?;趪獬墒旖?jīng)驗,本文從完善激勵機制與數(shù)據(jù)政策、擴大經(jīng)費來源、增強技術創(chuàng)新、保護數(shù)據(jù)安全和促進數(shù)據(jù)共享、深化服務內容5個方面對國內健康醫(yī)學科學數(shù)據(jù)管理平臺提出建議[5]。
綜上,當前國內的研究多以某學科領域的科學數(shù)據(jù)倉儲為研究對象展開分析,研究內容涉及服務功能、用戶需求、評價體系和建設機制等方面??傮w來說,國外的科學數(shù)據(jù)倉儲服務實踐成熟,經(jīng)驗豐富,而國內則略顯落后,即使是國家級學科科學數(shù)據(jù)倉儲在檢索與瀏覽、數(shù)據(jù)資源種類、數(shù)據(jù)服務項目等方面也不能充分滿足用戶的需求。此外,目前國內的研究多集中在學科領域內,缺少對各個領域的科學數(shù)據(jù)倉儲的橫向研究。本研究以國外各學科領域的科學數(shù)據(jù)倉儲為對象,從服務定位和服務體系兩個角度展開調研與分析,總結出當前科學數(shù)據(jù)倉儲的基本服務框架和先進服務實踐,在理論研究方面具有一定的新穎性,同時對服務實踐有一定的指導意義。
在完整的科學研究活動中,涉及多個相關利益主體,根據(jù)其在科研活動中所承擔的作用,將其概括為科研資助機構、科研承擔機構、科研管理機構和科研出版機構。本研究以英、美、澳三國上述四類的網(wǎng)站為檢索起點,搜集其政策文件中推薦(或指定)使用的科學數(shù)據(jù)倉儲。由于科學數(shù)據(jù)倉儲的學科屬性,按照學科領域對科學數(shù)據(jù)倉儲的推薦頻次進行分類統(tǒng)計,包括生命科學、化學、地球科學、人文社科以及通用學科。此外,考慮到科學數(shù)據(jù)倉儲的國別、細分學科等因素,最終選取如下的科學數(shù)據(jù)倉儲為研究樣本進行分析,如表1。
表1 國外20個科學數(shù)據(jù)倉儲研究樣本概況
在通用學科領域選取4個科學數(shù)據(jù)倉儲,Dryad的用戶側重期刊和傳統(tǒng)學術出版物的作者;Figshare的用戶側重科研機構及其科研人員;Harvard Dataverse面向科研機構提供科學數(shù)據(jù)倉儲的系統(tǒng)平臺,例如北京大學開放研究數(shù)據(jù)平臺和復旦大學社會科學數(shù)據(jù)平臺將Dataverse平臺漢化,在此基礎上建設科學數(shù)據(jù)倉儲;Edinburgh DataShare是英國愛丁堡大學自建的科學數(shù)據(jù)倉儲,代表通用學科機構科學數(shù)據(jù)倉儲。人文社科領域分別選取了英、美、澳三國國家級的科學數(shù)據(jù)倉儲,UK Data Archive、Inter-university Consortium for Political and Social Research、The Australian Data Archive,此外由于考古學數(shù)據(jù)是一類重要的社科數(shù)據(jù),因此選取Archaeology Data Service作為研究樣本。在自然科學領域內,地理科學、生物醫(yī)學和化學領域的科學數(shù)據(jù)倉儲數(shù)量多,建設較為完善,因此在這3個領域內選擇具有代表性的科學數(shù)據(jù)倉儲為研究樣本。此外,這3個領域內的科學數(shù)據(jù)涉及多種類型的科學數(shù)據(jù)。根據(jù)科學數(shù)據(jù)的類型,選取表1中的20個科學數(shù)據(jù)倉儲作為本文研究對象。
本研究通過網(wǎng)絡調研法,從服務定位和服務體系兩個方面,對表1中的20個研究樣本展開調研。服務定位是科學數(shù)據(jù)倉儲的發(fā)展方向,通過調研科學數(shù)據(jù)的服務目標(宗旨、遠景)和服務對象來總結當前科學數(shù)據(jù)倉儲的服務定位。而服務體系是科學數(shù)據(jù)倉儲開展服務的底層邏輯,通過調研科學數(shù)據(jù)倉儲的服務項目總結出當前的服務體系。
服務定位包括服務對象和服務目標,即向何人提供服務,以達到何種目標。因此,科學數(shù)據(jù)倉儲的服務定位包括科學數(shù)據(jù)倉儲的服務對象和服務目標。
科學數(shù)據(jù)倉儲的服務對象是指接受科學數(shù)據(jù)倉儲服務與利用科學數(shù)據(jù)倉儲資源的個人、群體和單位等。根據(jù)所選樣本的情況,目前科學數(shù)據(jù)倉儲的服務對象主要包括科研人員、科研承擔機構、科研出版機構、師生、公眾等。需注意的是,并不是每個科學數(shù)據(jù)倉儲的服務對象都完全包括上述三類,僅科研人員一項是所有科學數(shù)據(jù)倉儲的共性服務對象,由此可知科研人員為核心服務對象。
3.1.1 科研人員
科研人員是科學數(shù)據(jù)倉儲的核心服務對象。根據(jù)不同的服務需求,可以將科研人員分為數(shù)據(jù)貢獻者和數(shù)據(jù)使用者。數(shù)據(jù)貢獻者的需求是存儲、共享和出版其在科研活動中產(chǎn)生的科學數(shù)據(jù);而數(shù)據(jù)使用者的需求是檢索和獲取到滿足其科研需求的科學數(shù)據(jù)。通常,科學數(shù)據(jù)倉儲對數(shù)據(jù)使用者的身份沒有特別規(guī)定;而不同的科學數(shù)據(jù)倉儲對數(shù)據(jù)貢獻者的身份有不同規(guī)定。
(1)傳統(tǒng)學術成果的作者
傳統(tǒng)學術成果指的是學術論文、圖書、研究報告等。與一般期刊或出版機構合作的科學數(shù)據(jù)倉儲,其數(shù)據(jù)提交者的身份通常為傳統(tǒng)學術成果的作者。例如 Dryad其數(shù)據(jù)提交者通常為期刊論文的作者,這是由于Dryad與107家期刊合作,這些合作期刊要求其作者在提交論文的同時,將支撐論文的科學數(shù)據(jù)提交至Dryad[6]。同樣的還有生物領域的科學數(shù)據(jù)倉儲ArrayExpress,是大多數(shù)科學期刊推薦存儲功能基因組數(shù)據(jù)的科學數(shù)據(jù)倉儲[7],因此其數(shù)據(jù)提交者中,期刊論文的作者占很大比例。
(2)受資助的研究者
科研資助機構通常會要求其資助的科研項目產(chǎn)生的科學數(shù)據(jù)存入特定科學數(shù)據(jù)倉儲,而不同科研資助機構通常會有不同的數(shù)據(jù)監(jiān)護要求。因此,相應的,科學數(shù)據(jù)倉儲會為了滿足不同的資助機構對數(shù)據(jù)監(jiān)護的要求,把數(shù)據(jù)提交者按不同資助機構劃分。例如NSIDC將其數(shù)據(jù)提交者分為受NASA資助的研究者、受NOAA資助的研究者和受其他資助機構資助的研究者,不同類別的數(shù)據(jù)提交者提交要求與流程各不相同[8]。另外,有些科學數(shù)據(jù)倉儲是由資助機構出資建立而成,這種情況下,一般分為受本機構資助的數(shù)據(jù)提交者和其他數(shù)據(jù)提交者,二者在服務項目和服務費用方面均存在差異。例如EIDC僅對受NERC資助的研究人員提供數(shù)據(jù)管理計劃服務并且不收取服務費用,而對非資助項目產(chǎn)生的科學數(shù)據(jù)收取的服務費用取決于保存和出版數(shù)據(jù)所花費的時間、精力和財力[9]。
(3)特定機構的人員
許多科研承擔機構,尤其是高校,已經(jīng)建立本校的機構倉儲,其中有些已將科學數(shù)據(jù)納入其保存的資源范圍內。而機構倉儲的服務目標除了幫助科研人員保存和發(fā)布研究成果外,還要幫助機構本身保存和統(tǒng)計數(shù)據(jù)資產(chǎn),以提高機構的學術影響力。在這樣的目標下,機構倉儲的數(shù)據(jù)提交者勢必為本機構的科研人員。例如DataShare為愛丁堡大學的科學數(shù)據(jù)倉儲,數(shù)據(jù)的貢獻者必須為該校內部科研人員。但機構科學數(shù)據(jù)倉儲也有例外的情況,如哈佛大學的科學數(shù)據(jù)知識庫Harvard Dataverse,只要科研人員通過郵件在Dataverse系統(tǒng)進行注冊,就可提交數(shù)據(jù)。
3.1.2 科研機構
除了科研人員,一些科學數(shù)據(jù)倉儲也將科研承擔機構、科研出版機構等科研相關機構納為其服務對象,具有代表性的案例為Figshare。Figshare為科研承擔機構和出版機構提供科學數(shù)據(jù)保存與發(fā)布的解決方案,無需機構進行本地開發(fā)與服務器的維護,為機構節(jié)省構建科學數(shù)據(jù)倉儲所需的時間成本、人力成本和費用等;同時為所有合作的機構提供統(tǒng)一的檢索界面。就科研承擔機構而言,F(xiàn)igshare為其提供簡便友好的用戶界面,可以為其展示機構的所有研究成果,衡量機構研究成果的學術影響力,可以集成到已構建成功的機構倉儲中等。目前,接受Figshare服務的科研承擔機構包括奧克蘭大學、墨爾本大學、謝菲爾德大學、巴斯斯巴大學、倫敦布魯奈爾大學、莫納什大學、索爾福德大學等等[10]。就科研出版機構而言,F(xiàn)igshare可以為論文的每個補充數(shù)據(jù)(如表格數(shù)據(jù)、圖片等)添加描述信息和分配唯一標識符,使其可單獨檢索和引用;同時Figshare數(shù)據(jù)提交系統(tǒng)可以集成到期刊現(xiàn)有的論文提交系統(tǒng)和同行評議系統(tǒng)中,雖然這需要一定的額外開發(fā)工作,但可以極大地方便補充數(shù)據(jù)集的提交。目前,接受Figshare的出版機構包括Springer Nature、PLOS、WILEY、F1000research等等[11]。
3.1.3 其他人員
除了一線科研人員外,有些科學數(shù)據(jù)倉儲還面向其他人員提供服務,主要包括師生、社會公眾以及一些商業(yè)人員。例如DryadLab項目的目標用戶就是高中、本科和研究生低年級的教師和學生,該項目為這些師生提供了一套免費使用的、高質量的基于科學數(shù)據(jù)的教學課件;ICPSR基于其在社科數(shù)據(jù)管理與監(jiān)護領域的豐富經(jīng)驗,專門為本科教師與學生設計出可直接用于課堂的教學資源;此外,UKDA、NISDC、CCDC也為師生提供了相關的教學資源。
社會公眾也是某些科學數(shù)據(jù)倉儲的目標用戶,例如UKDA基于存儲于其中的數(shù)據(jù)設計出一款可供12歲以上社會大眾使用APP——Quiz App,利用該APP公眾可獲取有趣的社會健康領域的事實性知識。
此外,商業(yè)人員也是某些科學數(shù)據(jù)倉儲的目標用戶,例如CEDA和CCDC。雖然CEDA的建立主要是為了促進和監(jiān)護科研活動中產(chǎn)生的數(shù)據(jù)集,但由于其是一個國家級的服務中心,因此也為商業(yè)領域的人員提供服務,例如其專門設計了可用于商業(yè)用途的數(shù)據(jù)集列表[12]。只要數(shù)據(jù)集與CEDA歸檔的數(shù)據(jù)集范圍一致,企業(yè)也可以將數(shù)據(jù)集存入其中,但通常會收取一定的費用[13]。
科學數(shù)據(jù)倉儲的服務目標是指通過向目標用戶提供服務以達成的目標??茖W數(shù)據(jù)倉儲的服務目標決定了科學數(shù)據(jù)倉儲開展的服務內容與發(fā)展方向,體現(xiàn)了科學數(shù)據(jù)倉儲開展服務的核心價值與意義。目前科學數(shù)據(jù)倉儲的服務目標可以分為基本目標和擴展目標?;灸繕耸侵赋^一半的樣本倉儲所實現(xiàn)的服務目標,擴展目標是個別倉儲所實現(xiàn)的服務目標。
3.2.1 基本目標
基本目標大致可以概括為實現(xiàn)科學數(shù)據(jù)的有效保存、促進科學數(shù)據(jù)的合理使用和參與科學數(shù)據(jù)的發(fā)布與出版。
(1)實現(xiàn)科學數(shù)據(jù)的有效保存
科學數(shù)據(jù)是寶貴的過程性科研成果,如觀測數(shù)據(jù)、臨床數(shù)據(jù)等具有不可復制性,大型調查數(shù)據(jù)的產(chǎn)生具有耗時、費力、成本高等特性。因此如何對科學數(shù)據(jù)進行有效保存,是當前學術界關注的話題之一。作為科學數(shù)據(jù)的管理機構,科學數(shù)據(jù)倉儲把實現(xiàn)對科學數(shù)據(jù)的有效保存作為其開展服務的目標之一。在科研活動中,對科學數(shù)據(jù)的保存分為兩種,分別是長期保存和過渡性保存?;趯ι鲜鰳颖镜恼{研與分析,目前科學數(shù)據(jù)倉儲多以實現(xiàn)對科學數(shù)據(jù)的長期有效保存為目標;僅有極少數(shù)科學數(shù)據(jù)倉儲以實現(xiàn)過渡性保存為目標,例如NSIDC在資助機構的要求下,對某些項目的科學數(shù)據(jù)進行臨時保存。通常在這種情況下,科學數(shù)據(jù)倉儲角色由保存者轉變?yōu)楣芾碚?,更注重對?shù)據(jù)的維護而不是保存[14]。
(2)促進科學數(shù)據(jù)的重復使用
保存科學數(shù)據(jù)是為了方便再次使用科學數(shù)據(jù),因此促進科學數(shù)據(jù)的重復使用是科學數(shù)據(jù)倉儲的又一個基本目標,與實現(xiàn)科學數(shù)據(jù)保存的目標相輔相成??茖W數(shù)據(jù)作為寶貴的科研資源,其重復使用能幫助科研人員節(jié)約本該為獲取數(shù)據(jù)而付出的時間、成本、精力,從而提高科研人員的科研效率。例如通用科學數(shù)據(jù)倉儲Dryad促進學術文獻的支撐數(shù)據(jù)的重復使用,機構科學數(shù)據(jù)倉儲Edinburgh DataShare促進本機構科研人員產(chǎn)生的數(shù)據(jù)集的重復使用以提高學術影響力,社科科學數(shù)據(jù)倉儲UK Data Archive 以提高高質量的社會經(jīng)濟數(shù)據(jù)集的使用率為服務目標,生物領域的ArrayExpress促進高通量功能基因組學實驗產(chǎn)生的數(shù)據(jù)的重復使用。
(3)營造科學數(shù)據(jù)的共享氛圍
科學數(shù)據(jù)倉儲通過提倡科學數(shù)據(jù)公開發(fā)布、規(guī)范科學數(shù)據(jù)引用格式來營造科學數(shù)據(jù)共享氛圍,是科學數(shù)據(jù)倉儲的服務目標之一,這也是科學數(shù)據(jù)義不容辭的責任。如通用科學數(shù)據(jù)倉儲Figshare致力于科學數(shù)據(jù)的保存、出版與發(fā)現(xiàn);Harvard Dataverse旨在幫助科研機構及其科研人員共享數(shù)據(jù);地理領域科學數(shù)據(jù)倉儲AODN Portal鼓勵和發(fā)展澳大利亞海洋科學領域的數(shù)據(jù)共享文化;化學領域科學數(shù)據(jù)倉儲PubChem旨在為化學界提供一個發(fā)布與共享科學數(shù)據(jù)的平臺。
3.2.2 擴展目標
除了上述三個基本服務目標外,還包括推動科學研究、豐富教學課堂等擴展目標。例如ICPSR以推動社會行為學的研究,為該領域提供豐富的教學資源為服務目標;National Snow & Ice Data Center把推動冰雪領域研究視為其服務目標之一;Cambridge Crystallographic Data Centre旨在為藥物發(fā)現(xiàn)、材料研發(fā)等方面的科研與教學活動提供數(shù)據(jù)支持,以促進這些活動的發(fā)展。從上述三個案例可以看出,擴展目標通常出現(xiàn)在學科科學數(shù)據(jù)倉儲中。這種情況的出現(xiàn),與學科科學數(shù)據(jù)倉儲具有豐富的領域專業(yè)知識緊密相關。
科學數(shù)據(jù)倉儲是基于科學數(shù)據(jù)的信息服務機構,開展數(shù)據(jù)生命周期全流程的基礎服務,包括數(shù)據(jù)存儲服務、數(shù)據(jù)出版服務、數(shù)據(jù)發(fā)現(xiàn)服務、數(shù)據(jù)獲取服務、數(shù)據(jù)引用指導服務。此外,國外部分科學數(shù)據(jù)倉儲基于龐大的數(shù)據(jù)資源、穩(wěn)定的資金來源開展本倉儲的特色服務,包括開發(fā)課堂教學使用資源、開設短期培訓班、提供技術支持等。
科學數(shù)據(jù)倉儲的存儲服務是面向數(shù)據(jù)提交者開展的服務,服務方式包括數(shù)據(jù)生產(chǎn)者自助存儲與科學數(shù)據(jù)倉儲工作人員協(xié)助存儲兩種。
4.1.1 數(shù)據(jù)生產(chǎn)者自助存儲
數(shù)據(jù)生產(chǎn)者自助存儲方式的存儲流程為:①用戶注冊并登錄在線存儲平臺;②根據(jù)數(shù)據(jù)倉儲的要求填寫數(shù)據(jù)基本詳情,包括數(shù)據(jù)集名稱、數(shù)據(jù)集摘要、數(shù)據(jù)提交者信息、數(shù)據(jù)獲取與使用條款等元數(shù)據(jù);③上傳全部實體數(shù)據(jù)。經(jīng)過統(tǒng)計,樣本中共有14個科學數(shù)據(jù)倉儲開展自助存儲服務,包括通用學科倉儲Dryad、Figshare、Harvard Dataverse、Edinburgh DataShare,人文社科領域的UKDA、ADS、ICPSR,地理學科倉儲PANGAEA、AODN Portal、NSIDC,生物醫(yī)學倉儲GenBank、ArrayExpress,化學領域倉儲PubChem、CCDC;共有10個科學數(shù)據(jù)倉儲開展協(xié)助存儲服務,包括地理領域的CEDA、EIDC,生物醫(yī)學領域的BioGRID、TCIA、GenBank、dbGaP,人文社科領域的UKDA、ADA、ADS、ICPSR。其中,人文社科數(shù)據(jù)倉儲UKDA、ADS、ICPSR和生物醫(yī)學數(shù)據(jù)倉儲GenBank同時提供上述兩種存儲方式,通常根據(jù)數(shù)據(jù)集的大小和類型為數(shù)據(jù)生產(chǎn)者提供不同的存儲方式。
4.1.2 工作人員協(xié)助存儲
除自助存儲以外,數(shù)據(jù)提交者還可以在科學數(shù)據(jù)倉儲工作人員的協(xié)助下存儲科學數(shù)據(jù)。協(xié)助存儲的流程為:數(shù)據(jù)提交者將數(shù)據(jù)實體發(fā)送給數(shù)據(jù)倉儲工作人員。數(shù)據(jù)提交者通常通過線上郵件、線下郵遞的方式將科學數(shù)據(jù)傳遞給倉儲工作人員。例如UKDA要求數(shù)據(jù)作者將數(shù)據(jù)通過埃塞克斯大學ZendTo服務(內部郵件系統(tǒng))或者郵寄的方式傳遞數(shù)據(jù)。除了通過郵件傳遞,還有些倉儲要求通過特定的上傳鏈接上傳數(shù)據(jù)集,例如dbGaP要求數(shù)據(jù)存儲者通過郵件與倉儲工作人員聯(lián)系,工作人員將提交鏈接發(fā)送給數(shù)據(jù)存儲者,由數(shù)據(jù)存儲者上傳數(shù)據(jù)集[15]。線下郵寄,通常需要將科學數(shù)據(jù)集存儲在優(yōu)盤、硬盤等載體上,ADS要求通過CD-ROM、便攜式硬盤傳遞數(shù)據(jù)集。通常根據(jù)數(shù)據(jù)集的大小和保密性來確定傳遞方式。與線上郵件的方式相比,線下郵寄具有安全性高、數(shù)據(jù)集傳遞量大的優(yōu)點,但同時耗費時間、人力和物力。此外,還有些科學數(shù)據(jù)倉儲要求數(shù)據(jù)提交者攜帶包含數(shù)據(jù)集的移動介質到固定場所,在倉儲工作人員的幫助下將數(shù)據(jù)集復制到安全位置,例如ICPSR通過可移動介質(CDROM或DVD)將數(shù)據(jù)傳遞至物理提交場所,在工作人員幫助下將數(shù)據(jù)集復制到安全位置[16]。
此外,還有一些科學數(shù)據(jù)倉儲根據(jù)數(shù)據(jù)集大小、類型等因素提供不同的存儲服務。例如UKDA,根據(jù)數(shù)據(jù)集大小來確定存儲方式。來自于科研人員的科學數(shù)據(jù)集,通常數(shù)據(jù)集較小,需采用自助存儲方式,通過在線提交平臺為ReShare存儲數(shù)據(jù);而來自于大型調查項目或系列調查項目產(chǎn)生的數(shù)據(jù)集,通常數(shù)據(jù)集較大,因此需要倉儲工作人員協(xié)助存儲,倉儲工作人員會依據(jù)數(shù)據(jù)集合發(fā)展政策來對數(shù)據(jù)集進行評估,評估通過后,將其存入倉儲中并納入核心集[17]。
出版或稱發(fā)表,是指將作品通過任何方式公之于眾并使其可被引用的一種行為。學術出版,比普通的出版更為嚴格,不僅要將科研成果公之于眾,更重要的是,在公之于眾之前,需要由專家對學術成果的質量進行評價與審核。而科學數(shù)據(jù)作為科研成果的一種,其出版內涵與學術出版一致,是指將在科學研究活動中產(chǎn)生的科學數(shù)據(jù)通過一定的方式公之于眾,并在公布前需對科學數(shù)據(jù)的質量進行審核。目前,將科學數(shù)據(jù)公之于眾的方式有如下三種:第一種,科學數(shù)據(jù)作為學術論文的補充資料或附加資料進行出版;第二種,將數(shù)據(jù)提交至科學數(shù)據(jù)倉儲,由科學數(shù)據(jù)倉儲單獨出版或與期刊合作完成出版過程;第三種,以數(shù)據(jù)論文的形式出版,由數(shù)據(jù)期刊與科學數(shù)據(jù)倉儲合作,數(shù)據(jù)論文發(fā)表在數(shù)據(jù)期刊上,數(shù)據(jù)集存儲在科學數(shù)據(jù)倉儲中。由上述三種方式可知,科學數(shù)據(jù)倉儲作為科學數(shù)據(jù)的存儲地與管理者,是數(shù)據(jù)出版服務的主要提供者與參與者。
科學數(shù)據(jù)倉儲的數(shù)據(jù)出版服務是其面對數(shù)據(jù)生產(chǎn)者提供的服務,具體做法是:對科學數(shù)據(jù)進行質量審核,將科學數(shù)據(jù)通過特定渠道發(fā)布,規(guī)定發(fā)布時間。
4.2.1 質量審核
不同科學數(shù)據(jù)倉儲的質量審核主體、對象和內容各不相同。質量審核主體是指對科學數(shù)據(jù)進行審核的人員,包括科學數(shù)據(jù)倉儲內部工作人員和科學數(shù)據(jù)倉儲邀請的外部人員。科學數(shù)據(jù)倉儲成立專門的質量審核工作組對數(shù)據(jù)質量進行審核,例如ADS成立數(shù)據(jù)評估工作組(Collections Evaluation Working Group)對數(shù)據(jù)質量進行審核;而PANGAEA會安排數(shù)據(jù)編輯(Data Editorial)來開展審核工作[18]??茖W數(shù)據(jù)倉儲邀請的外部人員,往往具有該領域的專業(yè)知識,例如期刊論文的評審專家、數(shù)據(jù)提交者和使用者。例如Dryad,其合作期刊的同行評議人員在論文質量核審過程中對數(shù)據(jù)集的科學數(shù)據(jù)質量審核[19]。Harvard Dataverse規(guī)定,數(shù)據(jù)集的科學質量數(shù)據(jù)空間創(chuàng)建者或管理員對數(shù)據(jù)集進行審核[20]而BioGRID允許數(shù)據(jù)使用者指出數(shù)據(jù)集的錯誤,包括科學性方面的錯誤,并為用戶提供專門的渠道來上報錯誤信息[21]。
審核對象包括科學數(shù)據(jù)實體及元數(shù)據(jù)。由于科學數(shù)據(jù)與學術論文、科技報告、科技圖書等傳統(tǒng)的科學文獻不同,從形式來看可能是一組觀測數(shù)值、實驗數(shù)據(jù)記錄、問卷數(shù)據(jù)或者一段計算機代碼。如果不對其變量含義、產(chǎn)生背景、獲取方法等進行描述,則無法掌握科學數(shù)據(jù)的具體含義。因此除了對數(shù)據(jù)集本身進行審核外,還需對元數(shù)據(jù)進行審核。審核的內容包括科學數(shù)據(jù)的形式質量和科學質量,形式質量是指數(shù)據(jù)集的可理解性、可訪問性、一致性、完整性、脫敏性;科學質量是指數(shù)據(jù)集收集方法的評價、科學數(shù)據(jù)的合理性和再使用的價值。經(jīng)過調查,樣本中僅有NSIDC沒有提及對數(shù)據(jù)集的技術質量進行審核,其余各倉儲均對數(shù)據(jù)集的技術質量進行審核,其中Figshare、Edinburgh DataShare、EIDC、PANGAEA、GenBank、TCIA、dbGaP、ArrayExpress、CCDC等科學數(shù)據(jù)數(shù)據(jù)倉儲僅對數(shù)據(jù)集的技術質量進行審核,而Dryad、Harvard Dataverse、UKDA、ICPSR、ADS、CEDA、BioGRID等不僅對科學數(shù)據(jù)的技術質量進行審核,還對科學數(shù)據(jù)集的科學質量進行審核?;谡{查的結果,可知當前科學數(shù)據(jù)倉儲對數(shù)據(jù)集本身的質量審核側重于技術質量。此外,ICPSR、ADS、CEDA、EIDC、PANGAEA、ArrayExpress質量審核的對象包括數(shù)據(jù)集的元數(shù)據(jù)。例如,EIDC提出了元數(shù)據(jù)的審核標準,包括準確性、可用性、明確性和可檢索性[22]。
4.2.2 發(fā)布渠道
科學數(shù)據(jù)倉儲通過各種發(fā)布渠道,實現(xiàn)科學數(shù)據(jù)的最終出版。最基礎的發(fā)布渠道是通過本倉儲的數(shù)據(jù)目錄,用戶可以通過訪問倉儲的網(wǎng)站來發(fā)現(xiàn)和獲取數(shù)據(jù),所有科學數(shù)據(jù)倉儲都使用此渠道發(fā)布數(shù)據(jù)。發(fā)布的信息包括數(shù)據(jù)集的描述信息、獲取渠道、使用許可。但不同的數(shù)據(jù)倉儲提供的數(shù)據(jù)描述信息詳略不同,一般來說,學科科學數(shù)據(jù)倉儲比通用科學數(shù)據(jù)倉儲更為詳細。對于學術論文、報告等傳統(tǒng)文獻的支撐數(shù)據(jù),科學數(shù)據(jù)倉儲通常將學術文獻作為發(fā)布科學數(shù)據(jù)的補充渠道,在文獻的引文和致謝中提到科學數(shù)據(jù)的存儲倉儲和訪問方式。例如PANGAEA,其Web服務允許在論文頁面上動態(tài)地嵌入數(shù)據(jù)信息。這是科學數(shù)據(jù)的補充發(fā)布渠道,相較于基礎發(fā)布渠道而言,在這種方式下發(fā)布科學數(shù)據(jù),科研人員可通過文獻更好地理解數(shù)據(jù)集。而數(shù)據(jù)搜索引擎的集成目錄是科學數(shù)據(jù)倉儲發(fā)布數(shù)據(jù)集的擴展渠道,數(shù)據(jù)倉儲允許數(shù)據(jù)搜索引擎收割數(shù)據(jù)集的元數(shù)據(jù)并發(fā)布在數(shù)據(jù)引擎的集成目錄中,以增加數(shù)據(jù)集被發(fā)現(xiàn)的可能性。例如,CEDA允許科學數(shù)據(jù)的元數(shù)據(jù)被NERC的數(shù)據(jù)目錄(NERC Data Catalogue)收割;EIDC允許科學數(shù)據(jù)的元數(shù)據(jù)被英國政府數(shù)據(jù)門戶(data.gov.uk)和歐洲INSPIRE門戶(EU INSPIRE portal)收割。
數(shù)據(jù)發(fā)現(xiàn)是科學數(shù)據(jù)重新利用的開始,只有準確地發(fā)現(xiàn)并定位科學數(shù)據(jù),才能順利獲取數(shù)據(jù),從而利用數(shù)據(jù)。數(shù)據(jù)發(fā)現(xiàn)服務是科學數(shù)據(jù)倉儲基于存儲與保存的大量科學數(shù)據(jù),面向數(shù)據(jù)需求者提供的服務,包數(shù)據(jù)檢索服務和數(shù)據(jù)推薦服務。
4.3.1 數(shù)據(jù)檢索
數(shù)據(jù)檢索是數(shù)據(jù)發(fā)現(xiàn)的方式之一??茖W數(shù)據(jù)倉儲擁有龐大的數(shù)據(jù)集,通過提供檢索入口來幫助數(shù)據(jù)需求者快速、便捷、高效地檢索數(shù)據(jù)。不同科學數(shù)據(jù)倉儲提供的檢索方式和檢索結果顯示不同。
(1)檢索方式
科學數(shù)據(jù)倉儲的檢索方式有兩種:簡單檢索和復合檢索。簡單檢索即提供單一檢索入口,配合數(shù)據(jù)過濾器(filters)使用。數(shù)據(jù)過濾器的作用是通過添加條件以縮小和精簡檢索范圍。而具體添加的條件通常因數(shù)據(jù)倉儲的學科屬性決定。通用科學數(shù)據(jù)倉儲數(shù)據(jù)過濾器設置的條件通常包括數(shù)據(jù)集名稱、作者、學科類別、發(fā)布日期等通用條件。如Dryad添加的條件包括題名、作者、學科類別、發(fā)布日期、相關出版物名稱等。機構科學數(shù)據(jù)倉儲除了設置通用的條件外,還設置了本單位的二級單位,如西澳大利亞大學的科學數(shù)據(jù)倉儲UWA Research Repository,將其院系設為縮小檢索范圍的條件。學科科學數(shù)據(jù)倉儲的數(shù)據(jù)過濾器條件,與上述兩種倉儲相比,學科性更強,粒度更細致。例如社科領域的數(shù)據(jù)倉儲ADA的數(shù)據(jù)過濾器條件包括采樣程序、數(shù)據(jù)收集模式等;生物領域的數(shù)據(jù)倉儲ArrayExpress將生物體、陣列設計、分析、技術等設為精簡檢索結果的條件;地球科學領域的數(shù)據(jù)倉儲通常將地理覆蓋范圍設為過濾條件,用戶通過提供地圖的方式進行數(shù)據(jù)集過濾,如EIDC可通過在地圖上選定地點來查看相關數(shù)據(jù)集。
復合檢索也是科學數(shù)據(jù)倉儲提供的檢索方式之一,即提供復合檢索入口,為每個字段設定特有的輸入框,可以在其中填入字段值,以實現(xiàn)從多角度預先限定檢索結果,從而找到更符合檢索需求的結果。通常字段的設置與過濾器條件的規(guī)律一致。
(2)檢索結果顯示
從數(shù)量來看,檢索結果通常有三種可能:有且僅有一項,這種通常是以DOI或者本倉儲的數(shù)據(jù)集編號這種唯一標識符為檢索項進行檢索所得結果;兩個及兩個以上的結果,通常是以關鍵詞、數(shù)據(jù)集作者等為檢索項進行檢索所得結果;無結果,通常是使用錯誤的檢索技巧或者數(shù)據(jù)倉儲中確實沒有相關的數(shù)據(jù)集。在第一種情況和第三種情況下,數(shù)據(jù)需求者無需從檢索結果中挑選出符合需求的數(shù)據(jù)集。但對于第二種情況,從眾多檢索結果中挑選出符合需求的數(shù)據(jù)集,對檢索結果進行排序和分面是十分必要的。
從調研的結果來看,大多數(shù)科學數(shù)據(jù)倉儲支持用戶對檢索結果進行排序和選擇分面。最常用的排序項為相關度、標題名稱首字母、發(fā)布日期、下載熱度。此外,學科科學數(shù)據(jù)倉儲的排序標準包含本學科的數(shù)據(jù)特征,例如地理學科的倉儲NSIDC根據(jù)覆蓋范圍的大小排序,分子量是生物科學數(shù)據(jù)倉儲dbGaP、Pubchem的排序項,生物體是ArrayExpress的排序項。對檢索結果進行分面與數(shù)據(jù)過濾器情況一致,在此不再進行贅述。
此外,有些科學數(shù)據(jù)倉儲支持對檢索結果進行保存,如愛丁堡大學的Edinburgh DataShare支持檢索結果的網(wǎng)址可以被復制或者添加書簽;社科數(shù)據(jù)倉儲ADA、生物醫(yī)學數(shù)據(jù)倉儲TCIA支持對檢索結果進行保存。
4.3.2 數(shù)據(jù)推薦
數(shù)據(jù)推薦與數(shù)據(jù)檢索是科學數(shù)據(jù)倉儲面向數(shù)據(jù)需求者提供的發(fā)現(xiàn)服務的兩個方面,二者的最終目標一致,都是幫助數(shù)據(jù)需求者發(fā)現(xiàn)數(shù)據(jù)。但對數(shù)據(jù)需求者而言,二者略有不同,具體表現(xiàn)在發(fā)現(xiàn)方式上,數(shù)據(jù)檢索是數(shù)據(jù)需求者主動發(fā)現(xiàn)數(shù)據(jù)的過程;而數(shù)據(jù)推薦是數(shù)據(jù)需求者被動發(fā)現(xiàn)數(shù)據(jù)的過程,由科學數(shù)據(jù)倉儲將數(shù)據(jù)集以一定的規(guī)則進行整合后,推薦給潛在數(shù)據(jù)需求者。數(shù)據(jù)推薦服務通常有兩種方式:無差別推薦和個性推薦,推薦途徑有網(wǎng)站推薦、社交媒體推薦和郵件推薦。
無差別推薦,即對數(shù)據(jù)集的潛在需求者不進行差別對待,以統(tǒng)一的維度對數(shù)據(jù)集進行整合推薦,通常推薦的數(shù)據(jù)集會出現(xiàn)在科學數(shù)據(jù)倉儲的首頁,或者科學數(shù)據(jù)倉儲在社交軟件上注冊帳號所發(fā)布的內容中。推薦的維度包括但不限于此:發(fā)布時間、下載次數(shù)、重要程度等。發(fā)布時間維度具體表現(xiàn)在,科學數(shù)據(jù)倉儲通常將最近更新的數(shù)據(jù)集通過倉儲網(wǎng)頁推薦給用戶,使用戶了解到該倉儲最新收錄的數(shù)據(jù)集。例如Dryad、Figshare、ICPSR、Edinburgh DataShare、TCIA、dbGap、ADA向用戶推薦最新發(fā)布數(shù)據(jù)集;Dryad、Figshare、ICPSR等數(shù)據(jù)倉儲均根據(jù)數(shù)據(jù)集下載次數(shù)向數(shù)據(jù)需求者推薦數(shù)據(jù)集。此外,科學數(shù)據(jù)倉儲會對數(shù)據(jù)集的重要程度和特色性進行判斷,對數(shù)據(jù)需求者推薦具有特色或重要的數(shù)據(jù)集,具有代表性的是地理領域的科學數(shù)據(jù)倉儲PANGAEA和通用數(shù)據(jù)倉儲Dryad。但二者不同的是,前者通過倉儲網(wǎng)站推薦數(shù)據(jù)集,用戶訪問網(wǎng)站即可看到特色數(shù)據(jù)欄目;而后者是通過社交軟件對重要的和有特色的數(shù)據(jù)集進行推送,只要用戶關注了該倉儲的社交網(wǎng)站(如Titter、Facebook)帳號,即可看到推薦和介紹的數(shù)據(jù)集。個性推薦,即指倉儲通過收集數(shù)據(jù)需求的研究領域和研究需求等信息,通過僅個人可見的渠道向用戶推送相關的數(shù)據(jù)集。依據(jù)筆者對樣本的調研,發(fā)現(xiàn)該推薦方式在科學數(shù)據(jù)倉儲中尚未普及,僅Dryad根據(jù)用戶填寫的關注點與需求點向用戶推送相關數(shù)據(jù)。
科學數(shù)據(jù)倉儲向數(shù)據(jù)需求者提供獲取數(shù)據(jù)的途徑,包括在線獲取和現(xiàn)場獲取?,F(xiàn)場獲取是指數(shù)據(jù)需求者需到特定的現(xiàn)場、在規(guī)定的時間內才能獲取數(shù)據(jù),這通常是由被獲取的數(shù)據(jù)安全級別決定的。筆者將對上述兩種方式展開分析。
4.4.1 在線獲取
在線獲取是指數(shù)據(jù)需求者利用個人計算機,通過網(wǎng)絡,可以實現(xiàn)在線瀏覽數(shù)據(jù)集內容或者將需要的數(shù)據(jù)集下載到本地,在線獲取數(shù)據(jù)通常需要注冊或者登錄,是最常提供的獲取途徑。在線獲取包括以下幾種情形:點擊下載按鈕直接下載、通過使用下載工具下載以及填寫表單申請后下載。
①通過點擊按鈕直接下載的獲取方式,對數(shù)據(jù)需求者而言是最簡潔的獲取方式,通常在檢索或瀏覽數(shù)據(jù)過程中,確定目標數(shù)據(jù)集后,直接點擊即可下載,適用于單個數(shù)據(jù)集的下載。通過該方式獲取數(shù)據(jù),對數(shù)據(jù)需求者而言,獲取數(shù)據(jù)所花費的成本最低,對科學數(shù)據(jù)倉儲而言,對數(shù)據(jù)集進行保護的級別也最低。但從數(shù)據(jù)共享和再利用的角度來說,這是最有效的方式。因此,該方式適用于以促進數(shù)據(jù)公開共享為目的的科學數(shù)據(jù)倉儲,如Dryad、Figshare、Edinburgh DataShare、ADS、PANGAEA、AODN Portal、PubChem等。對于數(shù)據(jù)集按照訪問級別進行劃分的科學數(shù)據(jù)倉儲,該方式適用于訪問限制最低級別的數(shù)據(jù)集,例如適用于UKDA、CEDA的開放數(shù)據(jù)。此外,有些倉儲的數(shù)據(jù)集是否可通過該方式獲取,取決與數(shù)據(jù)提交者的決定,例如Harvard Dataverse,在提交過程中,數(shù)據(jù)提交者可對數(shù)據(jù)集的獲取權限做出選擇,但該方式是默認選項。
②通過使用工具下載,通常出現(xiàn)在學科科學數(shù)據(jù)倉儲中,適用于大型數(shù)據(jù)集批量下載。常用批量下載工具是FTP、Rsync,如生物領域的數(shù)據(jù)倉儲PubChem、UniProt、ArrayExpress都支持使用FTP站點進行批量下載,Harvard Dataverse支持使用Rsync下載大文件。此外,有些科學數(shù)據(jù)倉儲支持程序化獲取數(shù)據(jù),例如ArrayExpress支持使用Web服務或JSON查詢和下載數(shù)據(jù)。與點擊按鈕直接下載相比,該方式雖然一次下載的數(shù)據(jù)集量大,但在便捷程度上略遜色于前者。
③與上述兩種獲取方式相比,填寫表單后下載,對科學數(shù)據(jù)倉儲及數(shù)據(jù)提供者而言,具有上述兩種方式不可比擬的優(yōu)勢。具體來說,通過該方式獲取數(shù)據(jù),數(shù)據(jù)提供者能獲得其提交的數(shù)據(jù)的使用信息,如何人使用、為何使用、如何使用等;對科學數(shù)據(jù)倉儲而言,能夠保證數(shù)據(jù)集的合理使用,從而增加科學數(shù)據(jù)倉儲在數(shù)據(jù)提交者心中的信任度,使更多的數(shù)據(jù)擁有者愿意將數(shù)據(jù)提交至該倉儲。以英國社科數(shù)據(jù)倉儲UKDA為例,訪問UKDA的受保護數(shù)據(jù)時,不僅需要注冊(注冊時必須提供個人信息),還要簽署最終用戶協(xié)議(End User Licence),該協(xié)議中涉及用戶使用目的、使用要求等方面內容,如需要用戶保證數(shù)據(jù)非商用、保護數(shù)據(jù)中涉及的個人隱私、按要求銷毀副本等。
4.4.2 現(xiàn)場獲取
與在線獲取方式相比,科學數(shù)據(jù)倉儲提供的現(xiàn)場獲取方式所花費的人力、物力、時間、精力都遠遠高于前者,因此普及度也低于前者。當然,該方式僅適用于安全要求級別高的數(shù)據(jù),而并不是所有的科學數(shù)據(jù)倉儲中都收錄了如此高安全級別的數(shù)據(jù)集(如通用學科科學數(shù)據(jù)倉儲和機構科學數(shù)據(jù)倉儲不會收錄此類數(shù)據(jù)集),這也是造成該方式普及度低的原因。樣本中,提供在線獲取方式的科學數(shù)據(jù)倉儲集中在社科領域,包括英國的UKDA和美國的ICPSR。以ICPSR為例,其為部分受限制的數(shù)據(jù)集(大約20個數(shù)據(jù)集合)提供現(xiàn)場獲取方式,這些數(shù)據(jù)中包含監(jiān)獄囚犯、暴力受害者或嚴重罪犯的高度敏感的個人信息。ICPSR為上述數(shù)據(jù)建立了位于安娜堡密歇根大學的物理數(shù)據(jù)飛地(Physical Data Enclave)以保證數(shù)據(jù)的安全性。調查員與調查員機構負責人簽署使用協(xié)議和保密協(xié)議是進入物理飛地的必要條件。調查人員使用物理飛地的要求:①調查員不能將個人筆記本或其他電子設備帶入飛地,僅能使用飛地內配備的計算機設備。該設備中安裝了Microsoft Office、SPSS、SAS和Stata統(tǒng)計軟件包,若要使用其他軟件,需要提前與工作人員聯(lián)系;飛地中的計算機無法發(fā)送電子郵件和訪問Internet。②在調查員使用飛地時,必須有ICPSR的工作人員同在現(xiàn)場,檢查帶入飛地中的材料設備和監(jiān)督使用過程,如監(jiān)督打印機的使用情況。③所有的輸出材料,必須是電子版,并在離開飛地前提交給ICPSR工作人員以供審查。
數(shù)據(jù)集的引用,不僅能對數(shù)據(jù)生產(chǎn)者的貢獻進行認可,幫助其衡量數(shù)據(jù)集的學術影響力,還能方便后續(xù)研究者識別和定位參考數(shù)據(jù),增加數(shù)據(jù)集的再使用率,促進研究成果的再現(xiàn)??茖W數(shù)據(jù)倉儲作為數(shù)據(jù)集的管理機構,對數(shù)據(jù)獲取者提供引用服務十分必要。對獲取數(shù)據(jù)的用戶提供的引用服務包括兩個方面:提供引用指導,幫助用戶以規(guī)范的格式對科學數(shù)據(jù)進行引用;提供引用工具,幫助用戶快速生成相應的引用格式。
4.5.1 提供引用指導
科學數(shù)據(jù)倉儲提供引用指導,幫助獲取和使用數(shù)據(jù)的科研人員以規(guī)范的格式對數(shù)據(jù)集進行引用。引用指導內容包括引用對象和引用要素。不同的科學數(shù)據(jù)倉儲對引用對象的規(guī)定各不相同。就引用對象而言,主要包括三個層次:引用科學數(shù)據(jù)、引用科學數(shù)據(jù)和來源文獻、引用整個數(shù)據(jù)倉儲。其中,僅以科學數(shù)據(jù)為引用對象的情況,在科學數(shù)據(jù)倉儲引用服務中最為常見,且出現(xiàn)在各個領域的科學數(shù)據(jù)倉儲,如通用科學數(shù)據(jù)倉儲Figshare;機構科學數(shù)據(jù)倉儲Harvard Dataverse 、Edinburgh DataShare和UWA Research Repository;社科科學數(shù)據(jù)倉儲UKDA、ICPSR、ADS、ADA;地理科學數(shù)據(jù)倉儲CEDA、EIDC、AODN Portal、NSIDC;生物領域的ArrayExpress 、TCIA、dbGaP;化學領域的PubChem、CCDC。建議同時以科學數(shù)據(jù)與其來源文獻為引用對象的情況,常出現(xiàn)于與期刊合作密切的科學數(shù)據(jù)倉儲中,如Dryad和PANGAEA。前者要求提交于本倉儲中的數(shù)據(jù)集必須有相關的來源文獻,數(shù)據(jù)集相當于來源文獻的補充資料,同時閱讀來源文獻也有助于獲取和使用數(shù)據(jù)的科研人員更好地理解數(shù)據(jù)集。因此Dryad建議在引用數(shù)據(jù)集的同時引用其來源文獻。以整個科學數(shù)據(jù)倉儲為引用對象的情況,較為少見,出現(xiàn)于生物領域的科學數(shù)據(jù)倉儲BioGRID和UniProt。這是由于這兩個倉儲并沒有為每個數(shù)據(jù)集分配唯一標識符或倉儲編號的機制,即使僅使用了其部分數(shù)據(jù)集,在引用時也應該以整個倉儲為引用對象。例如UniProt規(guī)定,如果發(fā)現(xiàn)UniProt有用,請考慮引用關于UniProt的最新出版物:The UniProt Consortium.UniProt: the universal protein knowledgebase.Nucleic Acids Res.45: D158-D169 (2017)。就引用要素而言,總體上比較一致,包括數(shù)據(jù)集的作者、數(shù)據(jù)集名稱、數(shù)據(jù)發(fā)布時間、數(shù)據(jù)倉儲名稱和資源唯一標識符5項。
4.5.2 提供數(shù)據(jù)引用工具
提供引用工具,幫助獲取和使用科學數(shù)據(jù)的科研人員快速生成相應的引用格式,科研人員只用復制粘貼即可。通常,科學數(shù)據(jù)倉儲會在數(shù)據(jù)集內容頁面上,添加生成引用格式的按鈕,例如PANGAEA支持的可導出的引用格式包括RIS、BiB TeX和文本格式。Dryad也支持引用工具,數(shù)據(jù)引用可以使用數(shù)據(jù)包頁面引用框底部的鏈接輕松下載,目前可以以兩種通用格式下載引文:RIS(與EndNote,Reference Manager,ProCite和RefWorks等軟件兼容)和BibTex(與LaTeX和BibDesk等軟件兼容)。Figeshare支持將引用信息以RefWorks、BibTeX、Endnote、DataCite、NLM、DC and RefMan格式輸出。
除了基于數(shù)據(jù)生命周期開展的基礎服務外,部分科學數(shù)據(jù)倉儲還憑借其豐富的數(shù)據(jù)資源、專業(yè)的人力資源、先進的技術力量和雄厚的資助支持,開展了一系列特色服務,包括開發(fā)課堂教學使用資源、開設短期培訓班、提供技術支持、舉辦論文競賽等。這些特色服務的提供,主要作用是提高數(shù)據(jù)資源的利用率和科學數(shù)據(jù)倉儲的影響力。
4.6.1 開發(fā)課堂教學使用資源
科研在大學教學中具有很重的作用。在課堂中,不僅需要學習前人總結出的理論知識,還要學習科學研究方法,尤其針對研究生和高年級本科生,教師對科學方法的講授比已有理論知識的講授更為重要。而將科學數(shù)據(jù)引入課堂,可為學生提供原始的未經(jīng)分析的科研材料,幫助學生更好地理解和應用課堂中學到的學科研究方法??茖W數(shù)據(jù)倉儲擁有大量的科研資料——科學數(shù)據(jù),擁有具有嫻熟數(shù)據(jù)處理能力的工作人員,尤其是國家數(shù)據(jù)中心式的科學數(shù)據(jù)倉儲還有雄厚的資金支持,其可以借助這些優(yōu)勢,面向高校師生開展服務,以提高數(shù)據(jù)資源的利用價值。開展該服務的科學數(shù)據(jù)倉儲有通用科學數(shù)據(jù)倉儲Dryad、社科科學數(shù)據(jù)倉儲UKDA和ICPSR。
Dryad和UKDA基于數(shù)據(jù)集,開發(fā)出直接用于課堂的教學資源。DryadLab是Dryad與研究人員和教育工作者合作開發(fā)的,是一套免費、公開授權的高質量實踐教育模塊,供學生使用真實數(shù)據(jù)進行科學探索。這些模塊可以輕松集成到現(xiàn)有的高級中學、本科和研究生早期課程中。每個模塊都包含每一節(jié)課所需要的一切,包括模塊概述、教師講義、PPT及其使用方法、原始數(shù)據(jù)集、學生講義。這些模塊中的資料通過Google Spreadsheet呈現(xiàn),可實現(xiàn)在線協(xié)助使用,在課前,可以要求學生訪問該模塊進行預習。同時,教師也可以根據(jù)課堂需求,對資料進行個性化處理。Dryad之所以能開展此項服務,是由于其出版的數(shù)據(jù)集的使用許可協(xié)議均為CC0。這意味著,在法律規(guī)定的范圍內,Dryad一直致力于實現(xiàn)科學數(shù)據(jù)最大程度的公開共享,同時最大限度地減少法律障礙,并最大限度地發(fā)揮科學數(shù)據(jù)對研究和教育的影響。該服務的開展具有以下好處:對教師而言,能夠輕松地將科學數(shù)據(jù)帶入課堂,使學生接觸到除書本理論知識之外的未經(jīng)加工的資料,激發(fā)學生的研究興趣,同時增強課堂的趣味性;對科學數(shù)據(jù)倉儲而言,該項服務是數(shù)據(jù)從非科研的角度得到了充分利用,增加了數(shù)據(jù)的使用價值,同時也能擴大科學數(shù)據(jù)倉儲的影響力。
UKDA向老師提供了在教學中使用數(shù)據(jù)集的使用信息,包括定量數(shù)據(jù)集教學使用案例和定性數(shù)據(jù)集教學使用案例。定量數(shù)據(jù)集教學使用案例,通過一個excel表格匯總[23],通過超鏈接的形式可訪問具體教學案例,每個案例中包含教學目的、應用數(shù)據(jù)集及對應的練習題。定性數(shù)據(jù)集教學使用案例,通過網(wǎng)頁展示,共列出8個教學案例。與定量案例不同的是,定性案例中沒有固定的模塊,本文以“Last Refuge”案例為例進行介紹。Last Refuge教學資源包含了數(shù)據(jù)集(Peter Townsend 20世紀50年代末期避難研究期間收集的一系列定性材料)、原始的研究方法以及對教師使用的一些指導[24]。
ICPSR雖然沒有提供教學案例,但是向教師提供怎樣將數(shù)據(jù)集帶入到課堂的指南如ICPSR向教師提供一系列指南,幫助教師更輕松地將“數(shù)據(jù)驅動”學習體驗帶入課堂。指南的形式有文本和視頻兩種。
4.6.2 提供短期培訓
提供短期培訓也是科學數(shù)據(jù)倉儲開展的特色服務之一。其中,ICPSR的暑期培訓歷史最為悠久、國際影響最為廣泛。筆者以ICPSR的暑期培訓為例,對科學數(shù)據(jù)倉儲開展短期培訓服務進行分析。
ICPSR的暑期培訓項目始于1963年,每年的參與者通常來自全球350多個學院、大學和科研組織,參與者的研究領域覆蓋30多個學科,該項目是國際公認的社會、行為和醫(yī)學科學研究方法和技術培訓的領導者。該短期培訓項目,對科學數(shù)據(jù)倉儲而言,是其開展數(shù)據(jù)服務的補充。課程主要提供統(tǒng)計技術、研究方法和數(shù)據(jù)分析能力等方面的培訓。ICPSR為暑期項目配備專門的講師,來自各個大學,每位講師有其專門服務的課程。暑期項目是ICPSR提供的收費服務項目,但同時為參與者提供多項獎學金,每項獎學金對應的學科領域不同,在申請時需注意學科領域限制。此外,獎學金的申請有時間限制,如2018年暑期項目獎學金申請截止至3月31日。所有的申請材料必須在線提交。審核通過后,即可免除部分或全部學費。
4.6.3 提供技術支持
科學數(shù)據(jù)之于科學數(shù)據(jù)倉儲,好比數(shù)字資源之于數(shù)字圖書館。不論是科學數(shù)據(jù)倉儲還是數(shù)字圖書館,其服務的開展均離不開基于計算機的技術平臺。因此,有些科學數(shù)據(jù)倉儲除了上述圍繞科學數(shù)據(jù)的存儲、出版、發(fā)現(xiàn)、獲取、引用而開展服務外,還提供技術支持服務。提供技術支持服務主要存在于通用科學數(shù)據(jù)倉儲中,樣本中Dryad和Harvard Dataverse均提供技術支持服務。Dryad的技術支持是面向傳統(tǒng)的學術期刊而提供的,向學術期刊提供提交整合服務,即將Dryad的數(shù)據(jù)提交系統(tǒng)的代碼開放,允許期刊出版商將該系統(tǒng)嵌入到論文提交系統(tǒng)中,并且每個期刊可以根據(jù)自身需求進行定制[25]。該服務具有以下好處:簡化作者提交數(shù)據(jù)的過程、向編輯或同行評審專家提供安全訪問數(shù)據(jù)的機制、確保論文和數(shù)據(jù)集之間的雙向鏈接以增加兩者之間的可見性等。Harvard Datavers也向科研機構提供技術支持。Dataverse軟件可供任何人在Dataverse GitHub存儲庫中下載,并提供深入的安裝指南,以幫助科研機構啟動并運行Dataverse。通過安裝Dataverse軟件,科研機構將擁有自己的數(shù)據(jù)倉儲,并將數(shù)據(jù)存儲在本機構倉儲中,并成為Dataverse倉儲社區(qū)的成員。目前全世界有超過26家機構使用Dataverse作為數(shù)據(jù)共享,存檔和發(fā)布需求的解決方案,Dataverse倉儲社區(qū)將致力于成為向所有人提供研究數(shù)據(jù)的社區(qū)[26]。
本文對國外科研相關機構(科研資助機構、科研承擔機構、科研出版機構)推薦使用頻率較高的20個科學數(shù)據(jù)倉儲的服務實踐展開調研,研究結論具有廣泛性和代表性。目前,英美澳各個學科領域的科學數(shù)據(jù)倉儲服務已有較為清晰的定位,形成一套相對穩(wěn)定的體系。具體來說,在服務對象方面,國外科學數(shù)據(jù)倉儲面向科研人員、科研承擔機構、科研出版機構、師生、公眾等人群和機構。在今后的發(fā)展過程中,科學數(shù)據(jù)倉儲應更多注重機構用戶的維護與開發(fā),而機構用戶是個人用戶的集合,有利于整合資源,減輕機構獨立開展數(shù)據(jù)服務的壓力。在服務目標方面,科學數(shù)據(jù)倉儲應通過開展各項服務,實現(xiàn)科學數(shù)據(jù)的有效保存,促進科學數(shù)據(jù)的重復使用,在學術圈內營造科學數(shù)據(jù)的共享氛圍。在服務體系方面,應提供基于數(shù)據(jù)生命周期全流程的基礎服務,包括數(shù)據(jù)存儲服務、數(shù)據(jù)出版服務、數(shù)據(jù)發(fā)現(xiàn)服務、數(shù)據(jù)獲取服務、數(shù)據(jù)引用指導服務,和基于倉儲特色資源的擴展服務,包括開發(fā)課堂教學使用資源、開設短期培訓班、提供技術支持等,形成完整的服務鏈,以實現(xiàn)服務目標。
未來研究可結合國內科學數(shù)據(jù)倉儲的建設情況和服務現(xiàn)狀,進行對比分析,為我國科學數(shù)據(jù)倉儲服務提供參考意見和發(fā)展方向。