彭鑫,鄧仲華
(武漢大學信息管理學院,武漢 430072)
數(shù)據(jù)密集型科研環(huán)境下的科研數(shù)據(jù)管理框架研究*
彭鑫,鄧仲華
(武漢大學信息管理學院,武漢 430072)
隨著科學研究第四范式概念的不斷深入,科學研究越來越依賴于從大量科研數(shù)據(jù)中發(fā)現(xiàn)新的知識和科學規(guī)律,科研數(shù)據(jù)的管理成為科學研究第四范式發(fā)展面臨的首要問題。通過文獻調研,梳理數(shù)據(jù)密集型科研環(huán)境下科研數(shù)據(jù)的特征,分析科研用戶對科研數(shù)據(jù)管理的具體需求,并梳理科研數(shù)據(jù)管理各階段的具體任務,基于此提出科研數(shù)據(jù)管理框架。結合國內外實踐現(xiàn)狀,對科研數(shù)據(jù)管理框架的發(fā)展提出建議,為科研數(shù)據(jù)管理平臺或工具的開發(fā)提供借鑒和參考,對解決數(shù)據(jù)密集型科研環(huán)境下缺乏數(shù)據(jù)管理工具的困境具有一定意義。
數(shù)據(jù)密集型科研環(huán)境;第四范式;科研數(shù)據(jù)管理
隨著大數(shù)據(jù)時代的來臨,數(shù)字化程度加深,科學研究進入數(shù)據(jù)密集型科研環(huán)境??蒲袛?shù)據(jù)不僅是科研活動的產物,還是科研活動開展的基礎??茖W研究越來越依賴于對大量科研數(shù)據(jù)實時、動態(tài)地監(jiān)測和分析來解決各種科學問題,第四范式應運而生[1]。第四范式又稱作數(shù)據(jù)密集型的知識發(fā)現(xiàn),借助數(shù)據(jù)工具和計算機技術進行建模、分析以發(fā)現(xiàn)新的知識或科研規(guī)律。吉姆?格雷提出E-Science環(huán)境和科學研究第四范式的概念,指出數(shù)據(jù)密集型環(huán)境下科學研究缺乏數(shù)據(jù)管理和分析工具的現(xiàn)狀[2]。隨著科研數(shù)據(jù)大量積累,面對大量、分散、結構多樣的科研數(shù)據(jù),科學研究第四范式的發(fā)展面臨多方面挑戰(zhàn)??蒲袛?shù)據(jù)的價值日益凸顯,科研范式的轉變以及對科研數(shù)據(jù)開放獲取的需求增加,使得有效的科研數(shù)據(jù)管理成為亟待解決的問題。
1.1 科研數(shù)據(jù)及特征分析
科研數(shù)據(jù)指人類從事科研活動所產生的原始觀測數(shù)據(jù)(如遙感學、地理學、社會經濟學等領域的觀測數(shù)據(jù))、實驗室儀器設備產生的實驗數(shù)據(jù)(如光譜圖像、基因序列等數(shù)據(jù))、仿真數(shù)據(jù)以及Web數(shù)據(jù)。科研數(shù)據(jù)迅速增長并大量積累,來自不同學科領域不同類型的科研數(shù)據(jù),共同構成數(shù)據(jù)密集型科研環(huán)境??蒲袛?shù)據(jù)具有大數(shù)據(jù)的一般特征:(1)數(shù)據(jù)來源廣泛、分布分散,包括高校實驗室、機構庫、學科庫、政府數(shù)據(jù)庫及互聯(lián)網(wǎng)等;(2)數(shù)據(jù)體量巨大,海量歷史數(shù)據(jù)不斷積累,且呈PB級別動態(tài)增長;(3)數(shù)據(jù)結構多樣,結構化與非結構化數(shù)據(jù)混合;(4)數(shù)據(jù)價值性,科研數(shù)據(jù)具有研究價值和使用價值。相較一般的大數(shù)據(jù),科研數(shù)據(jù)對時效性要求較低,更強調從大量、積累的科研數(shù)據(jù)中演化和發(fā)現(xiàn)新的科研規(guī)律或知識[3]。因此,科研數(shù)據(jù)又呈現(xiàn)一定的特殊性:(1)學科差異性,不同學科領域數(shù)據(jù)體量、數(shù)據(jù)結構、數(shù)據(jù)形式等方面具有較大差異;(2)學科交叉性和關聯(lián)性,數(shù)據(jù)通常涉及多個學科領域,對跨領域、跨機構、跨數(shù)據(jù)庫的數(shù)據(jù)融合提出新要求;(3)歷史積累性,大數(shù)據(jù)環(huán)境下強調數(shù)據(jù)的動態(tài)實時性,而數(shù)據(jù)密集型科研環(huán)境下更注重數(shù)據(jù)的歷史積累和數(shù)據(jù)體系的完整;(4)準確性和完整性,科研數(shù)據(jù)需要長期存儲,存儲成本高,要盡可能保證數(shù)據(jù)的真實性、準確性,并對數(shù)據(jù)質量和研究價值進行評估。
1.2 科研數(shù)據(jù)管理的內涵及生命周期理論
李曉輝認為有效的科研數(shù)據(jù)管理能避免科研數(shù)據(jù)流失,促進數(shù)據(jù)成果出版,提高數(shù)據(jù)曝光度,以此實現(xiàn)數(shù)據(jù)的有效共享,對質疑提供科學驗證,鼓勵科研觀點多樣性,能極大節(jié)省科研成本,充分發(fā)揮資助機構的研究價值[4];Cox等將科研數(shù)據(jù)管理定義為科研生命周期中圍繞數(shù)據(jù)收集、存儲、安全、共享和重用展開的系列管理活動[5];崔宇紅認為科研數(shù)據(jù)管理是對科研數(shù)據(jù)進行統(tǒng)籌協(xié)調和配置,最終形成科研數(shù)據(jù)管理的相關理念、政策、規(guī)范和體系[6]??蒲袛?shù)據(jù)管理的對象是科研活動所產生的過程數(shù)據(jù)和成果數(shù)據(jù),主要管理活動包括數(shù)據(jù)采集、篩選、存儲、維護、發(fā)布與共享等;科研數(shù)據(jù)管理的目的即支持科研人員在科研過程中對數(shù)據(jù)反復利用,充分挖掘科研數(shù)據(jù)的研究價值。
科研數(shù)據(jù)管理過程具有明顯的周期性和階段性特征,基于科研活動不同階段的數(shù)據(jù)形態(tài)和數(shù)據(jù)處理活動,形成關于科研數(shù)據(jù)管理的相關生命周期理論。新墨西哥大學圖書館DataONE項目從數(shù)據(jù)服務和信息框架實施的角度,提出科研數(shù)據(jù)生命周期的八個階段,即計劃、收集、質量保證、描述、保存、發(fā)現(xiàn)、集成、分析[7];英國數(shù)據(jù)監(jiān)護中心提出經典的數(shù)據(jù)監(jiān)護框架,內容包括數(shù)據(jù)概念化、數(shù)據(jù)產生、獲取和使用、數(shù)據(jù)評估和選擇、數(shù)據(jù)存儲、歸檔、長期保存、數(shù)據(jù)重新評估、標準化存儲、數(shù)據(jù)公開和再利用、知識轉化[8];美國政治與社會校際聯(lián)盟從數(shù)據(jù)管理過程提出科研數(shù)據(jù)管理生命周期框架,包括提出數(shù)據(jù)管理和發(fā)展計劃、項目啟動、數(shù)據(jù)收集和文件創(chuàng)建、數(shù)據(jù)分析、數(shù)據(jù)共享準備和數(shù)據(jù)存儲六個階段[9]。生命周期理論的提出,有助于對科研數(shù)據(jù)管理各階段任務進行梳理,對進一步規(guī)范科研數(shù)據(jù)管理的細節(jié)提供引導思路,為科研數(shù)據(jù)管理工具的開發(fā)提供依據(jù)[10]。
本文從支撐科研數(shù)據(jù)管理工具開發(fā)的角度,將科研數(shù)據(jù)管理過程劃分為五個階段:數(shù)據(jù)采集、數(shù)據(jù)組織與整合、數(shù)據(jù)驗證及評估、數(shù)據(jù)存儲和數(shù)據(jù)共享利用。
數(shù)據(jù)密集型科研環(huán)境下,科研數(shù)據(jù)管理工具的缺乏成為制約科研數(shù)據(jù)價值發(fā)揮的重要因素。結合當前科研數(shù)據(jù)管理實踐現(xiàn)狀,明確用戶對科研數(shù)據(jù)管理各階段的需求,對進一步解決科研數(shù)據(jù)管理面臨的挑戰(zhàn)具有重要意義。
2.1 國內外科研數(shù)據(jù)管理實踐現(xiàn)狀
國外高校和基金機構已不同程度地開展科研數(shù)據(jù)管理相關實踐。英國數(shù)據(jù)監(jiān)護中心開發(fā)數(shù)據(jù)管理計劃工具DMPOnline,通過基金機構獲得資助的科研項目從制定數(shù)據(jù)管理計劃開始,按照指導框架完成數(shù)據(jù)采集、元數(shù)據(jù)描述、數(shù)據(jù)長期存儲、數(shù)據(jù)共享、數(shù)據(jù)安全等數(shù)據(jù)管理相關工作的描述[11];美國國家自然科學基金委員會通過強制要求項目申請者提交數(shù)據(jù)管理計劃書,要求申請者在項目申報階段便對科研數(shù)據(jù)的管理細節(jié)制訂詳細計劃,并借助加利福尼亞大學開發(fā)的DMPTools完成在線數(shù)據(jù)管理計劃制訂;康奈爾大學在科研數(shù)據(jù)管理實踐中采取嵌入式服務方式,并構建數(shù)據(jù)階段性存儲平臺DataStaR協(xié)助研究者長期發(fā)布和使用數(shù)據(jù)成果[12];劍橋大學通過一系列管理工具協(xié)助科研數(shù)據(jù)管理(如利用DMPOnline創(chuàng)建數(shù)據(jù)管理計劃,利用ISA Tools完成元數(shù)據(jù)創(chuàng)建等)。國內科研數(shù)據(jù)管理實踐尚處于探索階段,我國有9個學科中心于1988年正式加入世界數(shù)據(jù)中心[13],針對學科領域數(shù)據(jù)建設共享平臺提供科研數(shù)據(jù)管理與共享服務。中國科學院正在建設科學數(shù)據(jù)云平臺,擬利用云計算和大數(shù)據(jù)技術,為科研數(shù)據(jù)的管理、存儲、分析提供相關服務[14];此外,武漢大學、廈門大學圖書館不同程度地開展對科研數(shù)據(jù)管理平臺建設的探討,武漢大學基于Dspace開源系統(tǒng)為全校師生提供可實現(xiàn)數(shù)據(jù)保存、數(shù)據(jù)管理與數(shù)據(jù)共享的服務平臺[15]。
2.2 科研數(shù)據(jù)管理面臨的挑戰(zhàn)
盡管科研數(shù)據(jù)管理的重要性被學者不斷強調,但在實踐過程中仍面臨多方面的挑戰(zhàn):(1)數(shù)據(jù)來源廣泛,數(shù)據(jù)管理缺乏統(tǒng)一標準,為數(shù)據(jù)的采集和整合帶來挑戰(zhàn);(2)通用型科研數(shù)據(jù)管理平臺或工具的缺乏,小規(guī)模科研團隊、個人科研用戶因缺乏足夠的科研經費或開放的科研數(shù)據(jù)管理渠道,致使大量科研數(shù)據(jù)流失;(3)科研數(shù)據(jù)管理意識不足,科研用戶的數(shù)據(jù)管理習慣未養(yǎng)成,對科研數(shù)據(jù)主動收集和共享意識不足,使科研數(shù)據(jù)管理在實踐中存在一定阻礙;(4)科研數(shù)據(jù)具有跨學科特點,數(shù)據(jù)管理相關標準的缺失使數(shù)據(jù)孤島現(xiàn)象嚴重,數(shù)據(jù)的組織和融合存在一定難度,數(shù)據(jù)價值難以發(fā)揮;(5)大規(guī)模數(shù)據(jù)的長期存儲,對存儲空間、存儲技術以及數(shù)據(jù)組織提出更高要求。
2.3 科研數(shù)據(jù)管理需求分析
結合當前國內科研環(huán)境、科研數(shù)據(jù)特征以及科研數(shù)據(jù)管理不同階段面臨的挑戰(zhàn),科研數(shù)據(jù)管理需契合多方面需求[16]。(1)數(shù)據(jù)采集方案多樣化。為保證數(shù)據(jù)資源體系的完整性,既需要為用戶提供靈活便捷的科研數(shù)據(jù)存儲、管理和共享一體化平臺,還需要完成科研數(shù)據(jù)的融合,整合機構庫、知識庫及互聯(lián)網(wǎng)多渠道的科研數(shù)據(jù)。(2)數(shù)據(jù)標準統(tǒng)一化。制定統(tǒng)一的數(shù)據(jù)格式標準、元數(shù)據(jù)標準、數(shù)據(jù)組織標準,以實現(xiàn)對不同結構科研數(shù)據(jù)的統(tǒng)一管理。標準的制定,對科研數(shù)據(jù)規(guī)范化管理十分關鍵。(3)數(shù)據(jù)多維度組織??蒲袛?shù)據(jù)的學科交叉性和關聯(lián)性,使數(shù)據(jù)可從多個維度進行組織和分類,科研數(shù)據(jù)在管理過程中需要通過元數(shù)據(jù)、數(shù)據(jù)標識、數(shù)據(jù)標簽等方式,對數(shù)據(jù)進行多維度描述和組織,實現(xiàn)對數(shù)據(jù)的有效組織和關聯(lián)。(4)數(shù)據(jù)質量管理??蒲袛?shù)據(jù)管理目的是協(xié)助科研用戶更好地挖掘數(shù)據(jù)價值,支撐科研活動??蒲袛?shù)據(jù)的準確性、完整性一定程度上決定數(shù)據(jù)的研究和使用價值,應加強數(shù)據(jù)質量管理與控制。(5)數(shù)據(jù)的長期存儲。科研數(shù)據(jù)存儲既要滿足數(shù)據(jù)的歷史積累,又要滿足數(shù)據(jù)的動態(tài)增長,對存儲空間、存儲能力、安全性提出更高要求。(6)數(shù)據(jù)管理平臺的通用性[17]??蒲袛?shù)據(jù)管理既要滿足學科化特征,又要滿足用戶個性化和針對性的數(shù)據(jù)管理需求,對構建通用型數(shù)據(jù)管理平臺提出要求。
3.1 科研數(shù)據(jù)管理框架
科研數(shù)據(jù)管理是一項復雜、時間跨度長的項目,科學研究的不同階段科研數(shù)據(jù)管理面臨不同的任務和要求,用戶提出的科研數(shù)據(jù)管理需求也不同。本文從科研數(shù)據(jù)組織和融合的角度,對科研數(shù)據(jù)管理各階段的具體任務和處理流程進行梳理,提出科研數(shù)據(jù)管理框架(見圖1)。
(1)科研數(shù)據(jù)采集。科研數(shù)據(jù)的不同來源決定科研數(shù)據(jù)采集主要包括共享聯(lián)盟、主動上傳和直接獲取三種方式[18]。①共享聯(lián)盟。一般來源于大型實驗室、科研單位機構庫、政府數(shù)據(jù)庫等科研數(shù)據(jù),根據(jù)不同機構的標準存儲于各數(shù)據(jù)庫。通過獲取其數(shù)據(jù)接口權限,制定相應學科標準和技術標準,以下載或轉錄的方式實現(xiàn)科研數(shù)據(jù)的融合[19]。②主動上傳。許多中小型實驗室、研究機構以及科研人員,因缺乏經費難以獲得科研數(shù)據(jù)管理與共享的資源,由用戶主動上傳和共享科研數(shù)據(jù)構建的科研數(shù)據(jù)共享平臺,是分散科研數(shù)據(jù)的采集渠道之一。③直接獲取。爬蟲技術日趨成熟,使來源于互聯(lián)網(wǎng)的分散科研數(shù)據(jù)得到有效地采集和整合。結合不同的學科特點、數(shù)據(jù)來源,有針對性地提出數(shù)據(jù)采集方案,以盡可能從數(shù)據(jù)采集層面確保數(shù)據(jù)資源體系的完整性。
(2)科研數(shù)據(jù)組織與整合??蒲袛?shù)據(jù)具有學科交叉性,對數(shù)據(jù)的分析是多維度的,因而需對科研數(shù)據(jù)進行有序地組織。①標準制定??蒲袛?shù)據(jù)來源分散、結構多樣,可能涉及多個學科領域,科研數(shù)據(jù)標準的制定對統(tǒng)一數(shù)據(jù)管理具有重要作用。標準的制定既要綜合考慮學科層面的數(shù)據(jù)標準,又要從數(shù)據(jù)組織層面對數(shù)據(jù)設立標準(包括數(shù)據(jù)格式標準、元數(shù)據(jù)標準以及數(shù)據(jù)組織相關標準)。②數(shù)據(jù)管理計劃制定。借鑒國外經驗,在項目開展前,對科研數(shù)據(jù)采集、組織、存儲等管理過程進行有效規(guī)劃,以提升數(shù)據(jù)管理的效率和質量。預先制定規(guī)劃,對數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)體量進行預估,并制定數(shù)據(jù)組織和存儲方案,結合相關科研數(shù)據(jù)政策,確保數(shù)據(jù)管理的可行性。③數(shù)據(jù)組織。首先,根據(jù)制定的數(shù)據(jù)標準對數(shù)據(jù)格式進行轉化,使數(shù)據(jù)以系統(tǒng)可處理的標準格式暫存于系統(tǒng);其次,對數(shù)據(jù)進行清洗,剔除冗余、錯誤、不完整的數(shù)據(jù);再次,對數(shù)據(jù)集進行多維度描述,完善元數(shù)據(jù)相關內容;最后,通過對數(shù)據(jù)進行標識建立數(shù)據(jù)間聯(lián)系,為后續(xù)數(shù)據(jù)交叉應用建立基礎。
(3)科研數(shù)據(jù)驗證及評估。科學研究是一項精密、嚴謹?shù)幕顒?,科研?shù)據(jù)作為科學研究的基礎,使數(shù)據(jù)質量和數(shù)據(jù)的嚴謹性決定數(shù)據(jù)的研究價值,因此對數(shù)據(jù)進行驗證和評估十分必要。從科研數(shù)據(jù)監(jiān)護看,科研數(shù)據(jù)的驗證和評估主要包括對數(shù)據(jù)進行識別、度量和監(jiān)控等[20]。從數(shù)據(jù)質量管理看,科研數(shù)據(jù)驗證主要包括以下方面:①通過核實數(shù)據(jù)格式,確保與數(shù)據(jù)集的一致性;②通過統(tǒng)計分析(如最大值、最小值、平均值等)或圖表的方式,核實可疑值、不可能值,識別異常值;③通過在能反映質量的數(shù)據(jù)集內編碼,以驗證數(shù)據(jù)通信的質量;④識別缺失值,通過核實相似數(shù)據(jù)集發(fā)現(xiàn)潛在問題。除對數(shù)據(jù)進行評估和審查外,還包括對數(shù)據(jù)采集過程、數(shù)據(jù)處理過程等進行基本評估,避免因處理不當影響數(shù)據(jù)質量[7]。
圖1 科研數(shù)據(jù)管理框架
(4)科研數(shù)據(jù)存儲。數(shù)據(jù)存儲指將科研數(shù)據(jù)按照一定方式,進行有序組織,并長期存儲在數(shù)據(jù)庫中,為后續(xù)數(shù)據(jù)共享和分析利用提供基礎。數(shù)據(jù)存儲主要涉及兩個層面問題。第一個層面是針對數(shù)據(jù)資源的組織與存儲。從數(shù)據(jù)歸屬劃分,主要包括基于學科、基于機構、基于項目以及綜合性四種分類組織方式;從數(shù)據(jù)本身劃分,包括主體領域、機密性、內容類型以及數(shù)據(jù)規(guī)模四種方式[19]。因此,需要對數(shù)據(jù)進行有序的分類和組織,并通過建立索引和訪問機制對數(shù)據(jù)進行標引,使得物理上存儲于不同的數(shù)據(jù)庫、機構庫或知識庫的數(shù)據(jù),在邏輯上形成完整的資源體系。第二個層面考慮到科研數(shù)據(jù)的歷史積累性,從數(shù)據(jù)的存儲空間以及空間擴展性、存儲安全性出發(fā),在技術上提出更高要求。如部分機構在數(shù)據(jù)存儲實踐中引入云計算技術,使數(shù)據(jù)在物理存儲上分布合理,在邏輯上具有整體性和關聯(lián)性,在空間上具有較強的擴展性。
(5)科研數(shù)據(jù)共享及利用??蒲袛?shù)據(jù)的有效整合和管理,為數(shù)據(jù)的共享和利用建立了基礎,但科研數(shù)據(jù)的共享還涉及數(shù)據(jù)安全、知識產權以及學術道德等問題,需充分考慮政策環(huán)境、權限管理等多方面的因素,為用戶提供便捷、快速、安全的數(shù)據(jù)公開共享渠道。科研數(shù)據(jù)利用是實現(xiàn)數(shù)據(jù)價值的重要過程,包括:其他科研人員能快速檢索和便捷地獲取所需原始科研數(shù)據(jù),對數(shù)據(jù)進行再驗證;通過對原始科研數(shù)據(jù)進行分析,挖掘新知識;從積累的大量原始科研數(shù)據(jù)中,通過演化或大數(shù)據(jù)技術發(fā)現(xiàn)新研究規(guī)律等[21]。數(shù)據(jù)利用具有靈活性,需充分結合研究人員的科研需求,從不同的角度和層面對數(shù)據(jù)加以分析,不可一概而論。
3.2 科研數(shù)據(jù)管理框架的重要環(huán)節(jié)
面向科學研究第四范式的科研數(shù)據(jù)管理相較一般的數(shù)據(jù)管理,對數(shù)據(jù)的真實性、準確性、關聯(lián)性、研究價值,以及數(shù)據(jù)資源的完整性提出更高要求,因此框架的構建需充分考慮數(shù)據(jù)來源多渠道、數(shù)據(jù)結構多樣化以及數(shù)據(jù)交叉性等多種因素。識別科研數(shù)據(jù)管理的關鍵環(huán)節(jié),并結合科研數(shù)據(jù)特征和不同的學科領域進行分析,能提升框架的適用性和可行性。
(1)數(shù)據(jù)標準的統(tǒng)一。標準的制定為科研數(shù)據(jù)管理奠定基礎,制定統(tǒng)一的數(shù)據(jù)標準和技術標準,是科研數(shù)據(jù)管理的前提和重要環(huán)節(jié)。針對不同學科領域和不同類型的數(shù)據(jù),統(tǒng)一數(shù)據(jù)的存儲格式、組織結構,對構建和整合數(shù)據(jù)資源具有重要意義。數(shù)據(jù)標準的制定為數(shù)據(jù)關聯(lián)、構建語義聯(lián)系提供基礎。如元數(shù)據(jù)標準的制定,為進一步的數(shù)據(jù)標識和數(shù)據(jù)識別奠定基礎。此外,從數(shù)據(jù)采集和組織的角度制定規(guī)范,包括針對分散的子系統(tǒng)制定統(tǒng)一的接口標準;對不同形式的數(shù)據(jù)格式進行轉換,制定數(shù)據(jù)轉化標準;在數(shù)據(jù)進行存儲時,按照數(shù)據(jù)存儲的格式標準、分類標準和組織標準進行操作。
(2)數(shù)據(jù)關聯(lián)的重要性。數(shù)據(jù)密集型環(huán)境下科學研究的對象為科研大數(shù)據(jù)集合,數(shù)據(jù)的研究價值很大程度上取決于數(shù)據(jù)完整性。因此,在大量積累的科研數(shù)據(jù)中構建數(shù)據(jù)間的關聯(lián),對發(fā)揮數(shù)據(jù)跨領域、跨學科的研究價值具有重要意義。從數(shù)據(jù)資源組織和整合看,通過制定數(shù)據(jù)標簽、建立數(shù)據(jù)標引以及構建語義網(wǎng)等,能從技術上解決科研數(shù)據(jù)集關聯(lián)的問題。在數(shù)據(jù)資源盡可能豐富的情況下,數(shù)據(jù)關聯(lián)能使物理上分布的數(shù)據(jù),在邏輯上呈現(xiàn)網(wǎng)絡化和整體性,解決數(shù)據(jù)孤島問題,促進對數(shù)據(jù)潛在價值的挖掘。
(3)元數(shù)據(jù)制定的必要性。制定元數(shù)據(jù)能完善對數(shù)據(jù)的描述,提升數(shù)據(jù)資源的識別率,便于對數(shù)據(jù)資源的評價和追蹤,還能有效地實現(xiàn)對數(shù)據(jù)資源的發(fā)現(xiàn)、組織和管理[22]。元數(shù)據(jù)管理具有明顯的學科特性,不同學科領域的元數(shù)據(jù)在構成要素、標準格式、組織上存在一定差異。盡管有學者從必選項、推薦項和參考項提出通用元數(shù)據(jù)標準,仍需為用戶提供充分的咨詢和引導服務,協(xié)助用戶完善元數(shù)據(jù)的相關內容,建立元數(shù)據(jù)記錄。
(4)數(shù)據(jù)質量是數(shù)據(jù)價值的前提??茖W研究具有嚴謹性,基于科研數(shù)據(jù)的科學發(fā)現(xiàn)對數(shù)據(jù)的準確性、真實性、可追溯性等影響數(shù)據(jù)質量的因素提出更高要求。目前,國外通過數(shù)據(jù)管理計劃、元數(shù)據(jù)描述,對數(shù)據(jù)收集和處理過程進行記錄,對數(shù)據(jù)集進行詳細描述,為數(shù)據(jù)質量評估提供依據(jù)。隨著數(shù)據(jù)監(jiān)護的發(fā)展,在科研數(shù)據(jù)管理過程中有意識地避免因數(shù)據(jù)采集和處理過程不當而影響數(shù)據(jù)質量,確保數(shù)據(jù)可追溯、數(shù)據(jù)質量可驗證。由于不同學科領域科研數(shù)據(jù)的特殊性,構建數(shù)據(jù)質量評估體系具有必要性。
科研數(shù)據(jù)管理框架的提出對進一步促進科研數(shù)據(jù)管理工具的開發(fā)具有重要意義,但框架的實施還需在實踐探索中不斷完善。武漢大學在對不同學科的科研數(shù)據(jù)量和科研數(shù)據(jù)管理需求進行調研的基礎上,結合國內外科研數(shù)據(jù)管理與共享平臺的建設經驗,開展科研數(shù)據(jù)管理平臺試點項目,并在部分學院開展項目試點。項目實踐經驗表明,對科研數(shù)據(jù)管理進行明確的定位,對科研數(shù)據(jù)管理活動的具體流程進行梳理,對各階段的具體任務進行規(guī)劃具有必要性。對科研數(shù)據(jù)管理框架與實踐進行融合,可從三個方面展開。
(1)從頂層設計著手,配合團隊建設展開??蒲袛?shù)據(jù)管理過程復雜,涉及的利益相關方眾多,在科研數(shù)據(jù)管理項目開展前期,應從項目的整體規(guī)劃著手。由于國內科研數(shù)據(jù)管理實踐經驗不足,對科研數(shù)據(jù)管理過程進行梳理和規(guī)范,總結并提煉出科研數(shù)據(jù)管理的框架,為通用型科研數(shù)據(jù)管理工具或平臺的開發(fā)提供指導具有必要性。另外,科研數(shù)據(jù)管理的實踐需要多方參與者共同配合,團隊建設在一定程度上決定實踐是否具有可行性?!拔錆h大學科研數(shù)據(jù)管理”項目在實踐過程中聯(lián)合國內外科研數(shù)據(jù)管理專家、學??蒲泄芾聿块T、學校圖書館以及試點學院的多方合作,為項目的實施提供專業(yè)建議,并給予多方面支持。
(2)明確目標與定位,逐步推行項目實施。科研數(shù)據(jù)管理項目實踐需充分考慮科研用戶需求、資金、技術、人力等多方面因素,以便進行科學定位。明確科研數(shù)據(jù)管理的具體目標,對項目進行準確定位,并逐步開展和完善項目建設,確保科研數(shù)據(jù)管理項目的建設不偏離初衷。中國科學院早期基于研究所建立了多個機構數(shù)據(jù)庫,積累大量科研數(shù)據(jù),并圍繞科研數(shù)據(jù)管理開展相關服務。隨著技術的發(fā)展,數(shù)據(jù)管理趨勢的變化,中國科學院進行重新定位并構建科研數(shù)據(jù)云平臺,充分利用云計算、大數(shù)據(jù)技術以及開源工具,提供科研數(shù)據(jù)的存儲、管理和分析利用等服務。武漢大學在進行科研數(shù)據(jù)管理項目時,以部分學院作為試點,通過不斷地實踐和嘗試,逐步完善平臺功能和服務。因此,以科研數(shù)據(jù)管理框架為指導,結合用戶需求,明確科研數(shù)據(jù)管理的目標和定位,逐步完善和推行項目的實施,提升項目的實踐可行性。
(3)支撐科研數(shù)據(jù)管理的相關服務??蒲袛?shù)據(jù)管理具有學科性和專業(yè)性,因此,需要配合相關服務,滿足用戶個性化需求??的螤柎髮W采用典型的嵌入式科研數(shù)據(jù)服務,由數(shù)據(jù)服務人員參與科研團隊指導科研人員完成科研數(shù)據(jù)管理的相關工作,并為科研人員提供咨詢、培訓等服務。嵌入式服務一方面能幫助科研數(shù)據(jù)管理服務提供者更充分地了解用戶需求和當前科研數(shù)據(jù)管理存在的不足;另一方面,能充分考慮科研人員的學科背景和需求差異,極大地推動科研數(shù)據(jù)管理項目的開展與實施。因此,為用戶提供科研數(shù)據(jù)采集、存儲、元數(shù)據(jù)、咨詢和培訓等服務,能在一定程度上彌補管理工具的不足,共同推進科研數(shù)據(jù)管理框架的實施。
在科學研究第四范式的發(fā)展歷程中,科研數(shù)據(jù)管理和共享的需求不斷增長,使科研數(shù)據(jù)管理工具的開發(fā)及建設成為當前首要任務。隨著開源技術的發(fā)展,科研數(shù)據(jù)管理工具的開發(fā)成本將更低,開發(fā)效率將極大提升,通用型平臺和管理工具將在科研領域普及。標準化的科研數(shù)據(jù)管理流程和管理框架將從頂層設計的角度,為科研數(shù)據(jù)管理通用平臺或工具的開發(fā)提供指導,在一定程度上避免跨部門數(shù)據(jù)融合存在的數(shù)據(jù)標準不一致等問題,對跨平臺、跨機構的數(shù)據(jù)管理與融合具有重要意義。隨著科研環(huán)境和數(shù)據(jù)政策的進一步完善,科研人員的數(shù)據(jù)管理意識不斷提升,機構間的合作將更加緊密,科研數(shù)據(jù)管理的應用空間將得到更大拓展。
[1]HEY T,TANSLEY S,TOLLE K.第四范式:數(shù)據(jù)密集型科學發(fā)現(xiàn)[M].張曉林,潘教峰,譯.北京:科學出版社,2012.
[2]朗揚琴,孔麗華.科學研究的第四范式吉姆?格雷的報告“E-Science:一種科研模式的變革”簡介[J].科研信息化技術與應用,2010(2):92-94.
[3]白如江,冷伏海.“大數(shù)據(jù)”時代科研數(shù)據(jù)整合研究[J].情報理論與實踐,2014,37(1):94-99.
[4]李曉輝.圖書館科研數(shù)據(jù)管理與服務模式探討[J].中國圖書館學報,2011(5):46-52.
[5]COX A M,PINFIELD S.Research data management and libraries:current activities and future priorities[J].Journal of Librarianship and Information Science,2014,46(4):299-316.
[6]崔宇紅.E-Science環(huán)境中研究圖書館的新角色:科學數(shù)據(jù)管理[J].圖書館雜志,2012(10):20-23.
[7]STRASSER C,COOK R,MICHENER W,et al.Primer on Data Management: What you always wanted to know[EB/OL].[2017-05-09].https://www.dataone.org/sites/all/documents/DataONE_BP_Primer_020212.pdf.
[8]What is digital curation?[EB/OL].[2017-02-28].http://www.dcc.ac.uk/digital-curation/what-digital-curation.
[9]Guide to Social Science Data Preparation and Archiving:Introduction[EB/OL].[2017-06-01].http://www.icpsr.umich.edu/icpsrweb/content/deposit/guide/index.
[10]徐芳.高校圖書館科研數(shù)據(jù)協(xié)同監(jiān)管模式構建研究[J].情報理論與實踐,2017,40(3):14-19.
[11]劉峰,張曉林.數(shù)據(jù)管理計劃構成規(guī)范及其可操作數(shù)據(jù)監(jiān)護模型研究[J].現(xiàn)代圖書情報技術,2016(1):11-16.
[12]楊鶴林.從數(shù)據(jù)監(jiān)護看美國高校圖書館的機構庫建設新思路——來自DataStaR的啟示[J].大學圖書館學報,2012(2):23-28.
[13]王卷樂,孫九林.世界數(shù)據(jù)中心(WDC)中國學科數(shù)據(jù)共享進展[J].中國基礎科學,2007(2):36-40.
[14]中國科學院數(shù)據(jù)云[EB/OL].[2017-06-11].http://www.csdb.cn/.
[15]高??茖W數(shù)據(jù)共享平臺.武漢大學科研數(shù)據(jù)管理[EB/OL]. [2017-06-11].http://sdm.lib.whu.edu.cn/jspui/.
[16]胡永生,劉穎.基于用戶調查的高??茖W數(shù)據(jù)管理需求分析[J].圖書情報工作,2013,57(6):28-32,78.
[17]劉霞,饒艷.高校圖書館科學數(shù)據(jù)管理與服務初探——武漢大學圖書館案例分析[J].圖書情報工作,2013,57(6):33-38.
[18]熊文龍,李瑞婻.基于科學數(shù)據(jù)管理的圖書館數(shù)據(jù)服務研究[J].圖書情報工作,2014,58(22):48-53.
[19]唐燕花.高??蒲袛?shù)據(jù)管理服務實踐研究及建議[J].圖書情報工作,2016,60(24):130-138.
[20]吳金紅,陳勇躍.面向科研第四范式的科學數(shù)據(jù)監(jiān)管體系研究[J].圖書情報工作,2015,59(16):11-17.
[21]BORGMAN C L.科研數(shù)據(jù)共享的挑戰(zhàn)[J].青秀玲,譯.現(xiàn)代圖書情報技術,2013(5):1-20.
[22]劉峰,張曉林.科學數(shù)據(jù)元數(shù)據(jù)標準評述及其通用化設計研究[J].現(xiàn)代圖書情報技術,2015(12):3-12.
作者簡介
彭鑫,女,1993年生,碩士研究生,研究方向:科學研究第四范式和科研數(shù)據(jù)管理,E-mail:px001@foxmail.com。
鄧仲華,男,1957年生,教授,博士生導師,研究方向:管理信息系統(tǒng)、大數(shù)據(jù)、云計算。
Study of Research Data Management Model Under the Data-Intensive Scientific Environment
PENG Xin, DENG ZhongHua(School of Information Management, Wuhan University, Wuhan 430072, China)
With the concept of the fourth paradigm of science deepen, discovery of new knowledge and science laws rely more and more on data-intensive scienti fi c discovery, and research data management becomes the primary issue. Through literature research, we concluded the features of research data under the data-intensive environment, analyzed the requirements of research data management, and concluded the tasks of data management during different period. Based on those we came up with a data management model and gave some suggestions on its development based on the practices experiences at home and abroad, which will help with the lacking of data management tools, and have reference meanings for the development of data management tools.
Data-Intensive Scienti fi c Environment; Fourth Paradigm; Research Data Management
G250
10.3772/j.issn.1673-2286.2017.07.011
2017-05-24)
* 本研究得到國家自然科學基金項目“大數(shù)據(jù)環(huán)境下面向科學研究第四范式的信息資源云研究”(編號:71373191)資助。