姚嘯華
(上海圖書館上??茖W技術情報研究所,上海 200031)
數(shù)據(jù)密集型科研環(huán)境下二次文獻服務發(fā)展與思考
姚嘯華
(上海圖書館上??茖W技術情報研究所,上海 200031)
概述分析了數(shù)據(jù)密集型科研環(huán)境的主要特征以及在該環(huán)境下二次文獻服務所面臨的新挑戰(zhàn)。根據(jù)科學數(shù)據(jù)全生命周期的數(shù)據(jù)管護理論,認為二次文獻服務應聚焦公開域和再利用環(huán)節(jié)的科學數(shù)據(jù),制定相應的元數(shù)據(jù)標準,建立有力的技術和人員支撐體系,積極推進與外部的協(xié)同發(fā)展,來提升自身服務水平。
科學數(shù)據(jù);數(shù)據(jù)密集型科研;數(shù)據(jù)管護;二次文獻
自2007年基于數(shù)據(jù)密集型計算的科學研究第四范式提出后[1],隨著數(shù)字化科研(e-Science)[2]理念和計算機網(wǎng)絡技術的不斷發(fā)展,人們對科學數(shù)據(jù)的認識日益深入,形成了數(shù)據(jù)密集型的科研環(huán)境,科學數(shù)據(jù)的組織、揭示和再利用等問題成為人們關注的焦點。二次文獻作為傳統(tǒng)的知識組織和文獻檢索工具,如何在新環(huán)境下應對新的挑戰(zhàn),提升其服務水平,值得業(yè)界研究探討。筆者通過概述分析數(shù)據(jù)密集型科研環(huán)境的特征,結合二次文獻自身特點,根據(jù)全生命周期的數(shù)據(jù)管護(Data Curation)理論,深入探討了以科學數(shù)據(jù)為核心的二次文獻服務定位、支撐體系構建和協(xié)同發(fā)展等問題,以期為二次文獻服務的進一步發(fā)展提供有益參考。
從數(shù)據(jù)類型來看,科學數(shù)據(jù)大體上可分為數(shù)值型和事實型兩大類,一般是指在科學研究過程中,通過實驗、觀測、調查等各種方式所獲取到的反映客觀世界的本質、特征、變化規(guī)律等的基本數(shù)據(jù),以及根據(jù)不同科研需要,用于支撐科研活動,進行系統(tǒng)加工整理的各類數(shù)據(jù)集合[3-5]??茖W數(shù)據(jù)貫穿科學研究始終,它包括基本的原始數(shù)據(jù),也包括中間的過程數(shù)據(jù)、失敗數(shù)據(jù)[6]或是最終的有效數(shù)據(jù);也包括公開出版的數(shù)據(jù)和非公開的灰色數(shù)據(jù)[7]。
隨著科學研究的深入,科學數(shù)據(jù)呈指數(shù)級增長,計算機網(wǎng)絡技術的成熟,數(shù)字化科研環(huán)境的形成,科學數(shù)據(jù)的重要性日益凸顯,已成為科學研究的核心資源,促使人們對科學數(shù)據(jù)的認識產生深刻的變革。2007年,計算機學家吉姆·格雷(Jim Gray)提出了科學研究的第四范式??茖W研究第四范式是將科學數(shù)據(jù)作為科學研究的起點,通過內容分析和數(shù)據(jù)挖掘探索發(fā)現(xiàn)新規(guī)律、新觀點和新知識,是理論、實驗和模擬一體化的數(shù)據(jù)密集計算的科研范式[8-9],是對前三個科研范式(實驗科學、理論科學和模擬科學)的繼承和發(fā)展。
數(shù)據(jù)密集型科研最為主要的特征體現(xiàn)在:(1)數(shù)據(jù)驅動科研。科學研究將越來越依賴科學數(shù)據(jù),特別當數(shù)據(jù)量達到“大數(shù)據(jù)”級別時,原有的科研流程將被顛覆,不再局限于傳統(tǒng)的先依據(jù)前人文獻或理論提出新假設,再通過實驗觀察、理論推導或仿真模擬等方法來對假設加以驗證,而是從海量科學數(shù)據(jù)入手,直接從中發(fā)現(xiàn)新規(guī)律、新觀點和新知識,科學數(shù)據(jù)成為科研活動的起點和驅動力。(2)重視相關關系。針對海量數(shù)據(jù)的分析挖掘,更加注重發(fā)現(xiàn)數(shù)據(jù)之間的相關關系,特別是能夠發(fā)現(xiàn)現(xiàn)實中原本不相關領域數(shù)據(jù)之間的相關關系。如著名的沃爾瑪集團發(fā)現(xiàn)了關于超市尿布與啤酒銷售量的正相關關系。這樣的規(guī)律在原有的科研范式下得到是很難想象的,因為原有的科研范式更注重嚴密邏輯檢驗下的因果關系。數(shù)據(jù)密集型科研為我們分析解釋客觀世界提供了一個全新的視角。(3)強調數(shù)據(jù)再利用。科學數(shù)據(jù)的復用或再利用,一方面可以保證科研結果的可靠性和真實性,可以更快地檢驗和識別出錯誤或弄虛作假的科研結果[10];另一方面也可以促進新知識的發(fā)現(xiàn)。不同科研工作者即使面對同樣的科學數(shù)據(jù)時,由于關注點和方法的不同,很有可能會有不同的發(fā)現(xiàn),特別是在學科交叉的領域。
綜上所述,科學數(shù)據(jù)對科研活動愈發(fā)重要,然而科學數(shù)據(jù)也呈現(xiàn)海量無序的特點,對科學數(shù)據(jù)進行有效的組織管理將成為數(shù)據(jù)密集型科研環(huán)境下的重要課題。二次文獻作為傳統(tǒng)的知識組織管理的重要工具,如何圍繞科學數(shù)據(jù)開展服務,將是在數(shù)據(jù)密集型科研環(huán)境中面臨的新課題。
二次文獻是對一次文獻進行加工、提煉和壓縮之后所形成的一種工具性文獻形式[11]。通常是根據(jù)一次文獻的作者姓名、學科分類、內容主題等內容特征或外部特征進行標引,并按照一定順序組織起來的,由于它能比較全面、集中、系統(tǒng)地報道或揭示在一定時空范圍內,某一學科、專業(yè)或領域的文獻情況,并提供查詢檢索和利用一次文獻的有效手段,一直以來是科研工作者常用的檢索和數(shù)據(jù)查詢工具。根據(jù)原始文獻的內容和對原始文獻揭示程度的不同,二次文獻可分為題錄、文摘、索引等,如美國的《化學文摘》《工程索引》,我國的《全國報刊索引》《新華文摘》都是著名的二次文獻。隨著文獻資源數(shù)字化,計算機網(wǎng)絡技術的發(fā)展,二次文獻也在不斷轉型,目前大部分二次文獻服務提供者都構建了相應的服務平臺,以數(shù)據(jù)庫的形式提供網(wǎng)絡版或光盤版的服務。然而,在目前的數(shù)據(jù)密集型科研環(huán)境下,新的變化又將會對二次文獻服務形成新的挑戰(zhàn),主要表現(xiàn)在:(1)服務內容的挑戰(zhàn)。目前二次文獻對一次文獻的內容和外部特征進行揭示組織工作還是主要以期刊的每一篇文章為核心,而沒有深入一次文獻,基本忽略對嵌入文獻中的科學數(shù)據(jù)進行描述和組織。這就很難滿足用戶對科學數(shù)據(jù)查詢、檢索、再利用的需求。所以如何順應科學數(shù)據(jù)日益重要的地位,滿足用戶的新需求,對科學數(shù)據(jù)加以有效組織、揭示、挖掘,并將原始一次文獻同科研數(shù)據(jù)關聯(lián)起來,使現(xiàn)有的服務內容得以擴充與創(chuàng)新,成為當下二次文獻服務發(fā)展的重要挑戰(zhàn)。(2)數(shù)據(jù)處理的挑戰(zhàn)。數(shù)據(jù)處理的質量是決定后期服務內容是否能夠實現(xiàn)的重要保障。隨著科學數(shù)據(jù)快速的增長,充斥著異型異構的數(shù)據(jù)。數(shù)據(jù)處理的關鍵就是如何對這些海量的、無序的、非結構化的科學數(shù)據(jù)加以組織整序,二次文獻傳統(tǒng)的針對期刊文獻的數(shù)據(jù)處理方式將受到考驗和挑戰(zhàn),涉及諸如相關元數(shù)據(jù)標準的制定、數(shù)據(jù)處理相關技術的應用、整個數(shù)據(jù)加工制作的流程再造以及相關人力資源的培養(yǎng)等問題。(3)外部競爭與合作的挑戰(zhàn)。在全文數(shù)據(jù)庫誕生之后,二次文獻就面臨著外部巨大的競爭壓力,在數(shù)據(jù)密集型科研環(huán)境下競爭必將日趨激烈。同時在數(shù)據(jù)密集型科研環(huán)境下,公開出版的科學數(shù)據(jù)數(shù)量畢竟有限,如何擺脫僅依賴公開出版的一次文獻和數(shù)據(jù),如何與相關機構及各類用戶建立協(xié)同發(fā)展關系以彌補自身不足也是二次文獻服務面臨的新挑戰(zhàn)。
在數(shù)據(jù)密集型科研環(huán)境下,二次文獻服務面臨新的嚴峻挑戰(zhàn)。筆者從二次文獻服務的定位、支撐體系和協(xié)同發(fā)展三個方面提出建設性的思考。
4.1二次文獻服務的定位
在數(shù)據(jù)密集型科研環(huán)境下,二次文獻服務首先必須將核心從期刊文獻轉向科學數(shù)據(jù),并明確自身定位。目前人們對科學數(shù)據(jù)管理的認識已經深入到數(shù)據(jù)管護的層面,它強調的是對科學數(shù)據(jù)整個生命周期的、可增值的、主動的管理過程[12]。關于數(shù)據(jù)管護的思想,近年來在各國得到積極推進,如英國數(shù)字管護中心 (Digital Curation Centre,DCC)[13]的成立、澳大利亞國家數(shù)據(jù)服務 (Australian National Data Service,ANDS)[14]和美國的DataOne[15-16]等項目的開展,這些數(shù)據(jù)管護實踐為二次文獻在整個科學數(shù)據(jù)管護流程中尋找定位提供了借鑒。一般認為科學數(shù)據(jù)在科研活動中的全生命周期主要是一個由產生、共享、加工、發(fā)布、再利用等環(huán)節(jié)構成的循環(huán)過程(如圖1)。在空間上,ANDS項目基于學術交流生命提出了數(shù)據(jù)管理統(tǒng)一連續(xù)體[17-18]的概念,認為科學數(shù)據(jù)有一個在私有域、共享域和公開域之間遷移的過程(如圖2)。
圖1科研活動中科學數(shù)據(jù)的生命周期
圖2科研活動中科學數(shù)據(jù)空間遷移過程
從科學數(shù)據(jù)和二次文獻自身特點來看,二次文獻服務切入點和定位應該瞄準公開域科學數(shù)據(jù)的再利用環(huán)節(jié)。一方面,公開域中的科學數(shù)據(jù)依然呈現(xiàn)海量、非結構化、無序等特征,無法直接再利用,有必要通過二次文獻這樣的工具對其進行組織、揭示和挖掘。另一方面,部分科學數(shù)據(jù)在公開域是嵌入到公開出版的期刊文章等一次文獻中,期刊文章等一次文獻長期以來是二次文獻服務的主要數(shù)據(jù)來源和數(shù)據(jù)加工對象,相關技術相對成熟。從期刊文章等一次文獻中收集科學數(shù)據(jù),再進行加工組織相對便捷,同時也為進一步深度挖掘科學數(shù)據(jù)與期刊文章等一次文獻之間的關聯(lián)打下一定基礎。綜上所述,將二次文獻服務嵌入科學數(shù)據(jù)生命周期與遷移過程(如圖3),有助于二次文獻更好地參與到科學數(shù)據(jù)的管護,也有助于科學數(shù)據(jù)被科研工作者更好地利用。
圖3 二次文獻服務嵌入的科學數(shù)據(jù)生命周期與遷移過程
4.2二次文獻服務的支撐體系
為了適應數(shù)據(jù)密集型科研環(huán)境,實現(xiàn)二次文獻的服務定位和功能,有必要建立相應的支撐體系,筆者主要探討元數(shù)據(jù)標準、相關技術和人力資源等三個方面。
4.2.1元數(shù)據(jù)標準支撐
元數(shù)據(jù)被稱為“關于數(shù)據(jù)的數(shù)據(jù)”,是二次文獻組織、揭示、挖掘科學數(shù)據(jù)的重要基礎。國內外關于元數(shù)據(jù)標準有很多成果可以供二次文獻工具借鑒,如在各類型數(shù)據(jù)組織中有廣泛應用的都柏林核心元數(shù)據(jù)標準(Dublin Core)、針對綜合類科學數(shù)據(jù)的DataCite[19]元數(shù)據(jù)標準、還有專門針對某領域科學數(shù)據(jù)的生態(tài)元數(shù)據(jù)語言(Ecological Metadata Language,EML)等。國內近年也制定了相關的元數(shù)據(jù)標準,如中科院核心元數(shù)據(jù)標準、地球系統(tǒng)科學元數(shù)據(jù)、氣象數(shù)據(jù)集核心元數(shù)據(jù)等。筆者認為,在借鑒這些元數(shù)據(jù)標準經驗時,不應盲目生搬硬套,應在突出科學數(shù)據(jù)特征屬性的基礎上,結合用戶需求和自身服務特色,注意與原先二次文獻所針對的期刊文章等一次文獻的元數(shù)據(jù)結構相關聯(lián),并充分考慮不同標準的元數(shù)據(jù)之間的互操作問題,這有利于今后進一步開展科學數(shù)據(jù)的深度挖掘和共享共建等工作。
4.2.2相關技術支撐
在數(shù)據(jù)密集型科研環(huán)境下,為了使二次文獻平臺能夠實現(xiàn)科學數(shù)據(jù)的有效組織揭示,提升服務質量,有必要應用前沿的相關技術作為支撐。
(1)關聯(lián)數(shù)據(jù)技術。關聯(lián)數(shù)據(jù)技術一般是指以URI作為數(shù)據(jù)標識,以資源描述框架(RDF)的三元組結構作為數(shù)據(jù)模型,并基于HTTP發(fā)布到互聯(lián)網(wǎng)上的數(shù)據(jù)應用形式和技術,是語義網(wǎng)的一種簡化實現(xiàn)形式[20]。它有助于將科學數(shù)據(jù)相互關聯(lián)起來,以及進一步將科學數(shù)據(jù)與期刊文章等一次文獻關聯(lián)起來,使科學數(shù)據(jù)實現(xiàn)更大的價值增值。
(2)數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘技術一般是指通過機器學習、關聯(lián)分析、聚類分析等方法,從海量數(shù)據(jù)中發(fā)現(xiàn)隱含規(guī)律和知識的技術。數(shù)據(jù)挖掘技術的應用體現(xiàn)了對科學數(shù)據(jù)的主動管理理念,也是幫助二次文獻有效組織揭示科學數(shù)據(jù),使其增值再利用的重要技術支撐。
除上述的前沿技術外,可視化技術、自動標引技術、云計算技術等的應用也有助于二次文獻工具提升服務質量,優(yōu)化數(shù)據(jù)加工流程,提高加工效率。
4.2.3人力資源支撐
人力資源尤其是人員的數(shù)據(jù)素養(yǎng)是二次文獻服務發(fā)展的重要保障。國內外的科學數(shù)據(jù)管護實踐中都十分強調人員數(shù)據(jù)素養(yǎng)的培養(yǎng),如美國就有專門的科學數(shù)據(jù)素養(yǎng)計劃(Science Data Literacy Project)等培養(yǎng)項目[21]。在數(shù)據(jù)密集型科研環(huán)境下,應著力培養(yǎng)二次文獻工作人員的科學數(shù)據(jù)意識,轉變固有思維,將科學數(shù)據(jù)作為核心的服務資源,還應培養(yǎng)人員掌握數(shù)據(jù)處理的基本知識和技能,以及相關的數(shù)據(jù)政策、標準等專業(yè)知識,使相關人員不斷提升自身的科學數(shù)據(jù)素養(yǎng),提高發(fā)現(xiàn)數(shù)據(jù)、理解數(shù)據(jù)和處理數(shù)據(jù)的能力。
4.3二次文獻服務的協(xié)同發(fā)展
筆者認為為了彌補二次文獻的自身短板,應積極與外部謀求合作。
(1)與全文數(shù)據(jù)庫的合作。當下全文數(shù)據(jù)庫提供的全文服務受到用戶廣泛歡迎,但目前全文數(shù)據(jù)庫之間的競爭導致單個庫全文服務仍有收錄不全等問題。二次文獻平臺應在突出自身收錄特色的同時,與相關全文數(shù)據(jù)庫,以相互鏈接等形式積極合作,形成優(yōu)勢互補、合作雙贏的局面。
(2)與機構知識庫的合作。二次文獻主要以揭示公開出版的科學數(shù)據(jù)為主,但是有大量高價值的科學數(shù)據(jù)存在于以各類機構知識庫為代表的共享域中,二次文獻服務提供者應積極與這些機構知識庫合作,使關于科學數(shù)據(jù)的二次文獻服務可以向數(shù)據(jù)流的上游延伸,實現(xiàn)更大范圍的科學數(shù)據(jù)共享。
(3)與用戶的合作。用戶既是科學數(shù)據(jù)的使用者也是生產者之一,二次文獻服務提供者一方面應積極了解用戶對科學數(shù)據(jù)的需求,另一方面可以利用眾包等創(chuàng)新方式,讓用戶參與到科學數(shù)據(jù)的組織維護的工作中,提升二次文獻工具的數(shù)據(jù)質量和服務體驗。
二次文獻工具有著輝煌的歷史,在我國可以追溯到漢代的《七略》和《別錄》[22],而在現(xiàn)代《全國報刊索引》也有60年的服務歷史。二次文獻服務能夠長期保持生命力是由于它能提供優(yōu)質的文獻服務,很好地輔助用戶開展科學研究工作。面對數(shù)據(jù)密集型科研環(huán)境下的全新挑戰(zhàn),二次文獻服務提供者必須充分認識新環(huán)境、新技術,調整自我定位,提高自身數(shù)據(jù)組織加工的能力,加強多方合作共建共享,使二次文獻服務的水平不斷提升,滿足用戶新的需求,為科學文獻和數(shù)據(jù)的有效利用做出更多貢獻。本文主要從宏觀的視角進行了較為全面的分析論述,然而其中還有很多細致具體的問題有待進一步探討,需要同行在以后的實踐過程中不斷總結,持續(xù)關注和深入研究。
[1]HEY T,TANSLEY S,TOLLE K.第四范式:數(shù)據(jù)密集型科學發(fā)現(xiàn)[M].潘教峰,張曉林,譯.北京:科學出版社,2012.
[2]孫坦.數(shù)字化科研——e-Science研究[M].北京:電子工業(yè)出版社,2009.
[3]張曉林.顛覆數(shù)字圖書館的大趨勢[J].中國圖書館學報,2011(5):4-12.
[4]肖瀟,呂俊生.E-science環(huán)境下國外圖書館科學數(shù)據(jù)服務研究進展[J].圖書情報工作,2012(17):53-58,114.
[5]趙華,王健.國內外科學數(shù)據(jù)元數(shù)據(jù)標準及內容分析[J].情報探索,2015(2):21-24,30.
[6]袁曦臨.E-science環(huán)境下學術規(guī)范的新領域:科學數(shù)據(jù)[J].甘肅社會科學,2014(3):85-88.
[7]王學勤,STOUT A,SILVER H.建立數(shù)據(jù)驅動的e-Science圖書館服務:機遇和挑戰(zhàn)[J].圖書情報工作,2011(13):80-83.
[8]陳明.數(shù)據(jù)密集型科研第四范式[J].計算機教育,2013(9):103-106.
[9]王翠萍,李柏煬.面向數(shù)據(jù)密集型科學的數(shù)據(jù)引證分析研究[J].情報資料工作,2015(3):10-14.
[10]鄧仲華,王鵬,李立睿.面向數(shù)據(jù)密集型科學研究的數(shù)據(jù)資源云平臺構建[J].圖書館學研究,2015(10):42-47.
[11]梁占平.中國情報學百科全書[M].北京:中國大百科全書出版社,2010.
[12]王芳,慎金花.國外數(shù)據(jù)管護(Data Curation)研究與實踐進展[J].中國圖書館學報,2014(4):116-128.
[13]History of the DCC[EB/OL].[2016-01-24].http://www.dcc.ac.uk/about-us/history-dcc/history-dcc.
[14]About ANDS[EB/OL].[2016-01-24].http://www.ands.org.au/about-ands.html.
[15]What is DataONE[EB/OL].[2016-01-24].https://www.dataone.org/what-dataone.
[16]許鑫,劉甜,于霜.Data One項目及其對我國數(shù)據(jù)監(jiān)管工作的啟示[J].圖書與情報,2014(6):109-116.
[17]崔宇紅.E-Science環(huán)境中研究圖書館的新角色:科學數(shù)據(jù)管理[J].圖書館雜志,2012(10):20-23.
[18]Curation Continuum[EB/OL].[2016-01-24].http://ands.org.au/guides/curation.continuum.html.
[19]Metadata Store[EB/OL].[2016-01-24].https://www.datacite.org/services/metadata-store.html.
[20]劉煒,夏翠娟,張春景.大數(shù)據(jù)與關聯(lián)數(shù)據(jù):正在到來的數(shù)據(jù)技術革命[J].現(xiàn)代圖書情報技術,2013(4):2-9.
[21]QIN J,D’LGNAZIO J.Lessons Learned from a Two-Year Experience in Science Data Literacy Education[C/OL].[2016-01-24].http://docs.lib.purdue.edu/cgi/viewcontent.cgiarticle=1009&context=iatul2010.
[22]肖大成.二次文獻在數(shù)字化進程中的生存危機與對策研究[J].圖書館理論與實踐,2005(3):47-49.
(編發(fā):章忠平)
Thinking about Secondary Document Service in Data-Intensive Scientific Research Context
YAO Xiao-hua
(Institute of Scientific&Technical Information of Shanghai,Shanghai Library,Shanghai 200031,China)
This paper analyzes and summarizes the main characteristic of data-intensive scientific research context,and new challenges which the secondary document service is faced in this environment.According to the whole life cycle of scientific data curation theory,it puts forward the suggestion that the secondary document service should focus on the public domain and reuse period scientific data,establishes the support system about relevant metadata standard,technology and personnel,and actively promotes the external collaboration to improve its service level.
scientific data;data-intensive scientific research;data curation;secondary document
G250
G250
A
2095-5197(2016)03-0106-05
姚嘯華(1986-),男,助理館員,碩士,研究方向:信息資源管理、知識組織。
2016-01-24