, ,
科學(xué)數(shù)據(jù)是通過對自然和社會的觀察、感知、計算、實驗、仿真、模擬等產(chǎn)生的數(shù)據(jù)[1],包括觀測型數(shù)據(jù)(Observational data)、計算型數(shù)據(jù)(Computational data)、實驗型數(shù)據(jù)(Experimental data)、記錄型數(shù)據(jù)(Records)4種類型[2]。有效地管理好這些數(shù)據(jù)不僅是科研管理的要求,更是科學(xué)再發(fā)現(xiàn)、社會價值再創(chuàng)造的需求。為了幫助科研組織科研人員做好科學(xué)數(shù)據(jù)管理工作,不同組織機構(gòu)提出了若干數(shù)據(jù)生命周期模型,從不同角度描述了數(shù)據(jù)從產(chǎn)生、收集、描述、存儲、發(fā)現(xiàn)、分析到再利用的整個生命周期。地球觀測衛(wèi)星委員會(Committee on Earth Observation Satellites,CEOS)信息系統(tǒng)與服務(wù)工作小組(Working Group on Information Systems and Services)2012年4月發(fā)布的調(diào)研報告顯示,已經(jīng)有55個不同的科學(xué)數(shù)據(jù)管理生命周期模型[3],它們會隨著研究、實踐的發(fā)展,不斷發(fā)生新增、版本更新等變化。了解、分析這些數(shù)據(jù)管理模型的內(nèi)涵和特點,不僅有利于數(shù)據(jù)管理研究人員把握相關(guān)研究與實踐現(xiàn)狀,推動數(shù)據(jù)管理研究的發(fā)展,而且也有利于數(shù)據(jù)管理需求人員找準切合實際應(yīng)用的模型,落實好本地的數(shù)據(jù)管理活動。
鑒于此,本文對7個科學(xué)數(shù)據(jù)管理生命周期模型的提出機構(gòu)、適用范圍、結(jié)構(gòu)特點、構(gòu)成要素、應(yīng)用實踐等方面進行了分析與比較,為我國數(shù)據(jù)管理相關(guān)研究、應(yīng)用人員提供參考和借鑒信息,從而促進我國科學(xué)數(shù)據(jù)管理的發(fā)展。
本文以代表性、典型性等為原則,選取了7個科學(xué)數(shù)據(jù)管理生命周期模型作為研究對象,分別是:英國DCC(Digital Curation Centre,數(shù)字審編中心)提出的DCC審編生命周期模型(DCC Curation Lifecycle Model)[4],英國數(shù)據(jù)倉儲(UK Data Archive,UKDA)提出的UKDA數(shù)據(jù)生命周期(UK Data Archive Data Lifecycle)模型[5],DataONE領(lǐng)導(dǎo)團隊(DataONE Leadership Team)和DataONE社群合作構(gòu)建的DataONE數(shù)據(jù)生命周期(DataONE Data Lifecycle)模型[6],數(shù)據(jù)文檔倡議聯(lián)盟(Data Documentation Initiative Alliance,DDI Alliance)提出的DDI 組合生命周期模型(DDI Combined Life Cycle Model)[7],美國地質(zhì)調(diào)查局(U.S. Geological Survey,USGS)提出的USGS 科學(xué)數(shù)據(jù)生命周期模型(The USGS Science Data Lifecycle Model,SDLM)[8],ICPSR(Inter-University Consortium for Political and Social Research,美國校際社會科學(xué)數(shù)據(jù)共享聯(lián)盟)提出的數(shù)據(jù)生命周期(Data Life Cycle)模型[9],加州大學(xué)圣地亞哥分校提出的研究數(shù)據(jù)生命周期(Research Data Life Cycle)模型[10]。
從已有研究看,CEOS雖然梳理了55個數(shù)據(jù)管理模型,但主要是對模型內(nèi)容的羅列,并沒有進行橫向分析與比較。李偉綿等[11]雖然總結(jié)和梳理了DCC審編生命周期模型等8個研究數(shù)據(jù)管理生命周期模型,但主要是從模型結(jié)構(gòu)和組成要素兩個角度進行分析。丁寧等[12]從研究主體、數(shù)據(jù)規(guī)模、模型結(jié)構(gòu)等維度對國外科學(xué)數(shù)據(jù)生命周期模型進行了劃分,分析了高校科學(xué)數(shù)據(jù)管理模型與其他主體模型的差異,但對國外高校數(shù)據(jù)管理模型的重點梳理也是停留在模型類型、提出機構(gòu)和基本內(nèi)容等方面。劉楊[13]對比分析了中外基于生命周期的Data Curation研究,主要是從文獻入手,圍繞時間、作者、主題、研究項目進展等方面開展分析,未將模型對比作為研究重點。因此,本文對科學(xué)數(shù)據(jù)管理生命周期模型的分析與比較將基于已有研究進行一定程度的深化,主要從模型的基本情況、構(gòu)成要素及應(yīng)用3個方面著手。其中,模型概況分析是從模型的提出機構(gòu)、提出的基本思想、適用對象、模型結(jié)構(gòu)、核心要素、更新與否等維度進行比較;模型要素分析主要是基于已有模型的構(gòu)成要素,總結(jié)提取出數(shù)據(jù)管理的核心環(huán)節(jié),在與各模型要素映射的基礎(chǔ)上,分析模型要素間的異同及影響因素;模型應(yīng)用分析是從面向模型應(yīng)用的輔助資源進行分類與梳理,并結(jié)合應(yīng)用案例分析模型的應(yīng)用特點。
本文在梳理7個科學(xué)數(shù)據(jù)管理生命周期模型的基礎(chǔ)上,從提出機構(gòu)類型、模型特點、適用對象、模型結(jié)構(gòu)、核心要素、模型是否存在更新等方面進行比較,以形成模型的概覽(表1)。
表1 科學(xué)數(shù)據(jù)管理生命周期模型概況
注:Y表示是,N表示否。
科學(xué)數(shù)據(jù)管理生命周期模型的提出機構(gòu)包括數(shù)據(jù)管理研究機構(gòu)、數(shù)據(jù)管理機構(gòu)、政府機構(gòu)以及高校,不同類型主體在提出模型的出發(fā)點上有所差異。數(shù)據(jù)管理研究機構(gòu)是為有數(shù)據(jù)管理需求的組織與機構(gòu)、科研人員提供數(shù)據(jù)管理指導(dǎo)、標準規(guī)范、培訓(xùn)等,如DCC模型就是為了幫助機構(gòu)或組織制定數(shù)據(jù)管理活動方案、界定角色與職責、構(gòu)建標準與技術(shù)框架等;數(shù)據(jù)管理機構(gòu)是出于有效管理科學(xué)數(shù)據(jù),為科研人員提供數(shù)據(jù)管理服務(wù),如ICPSR。參與科學(xué)數(shù)據(jù)管理研究的政府機構(gòu),通常是科學(xué)數(shù)據(jù)的主要產(chǎn)生方,如美國地質(zhì)調(diào)查局的一項核心任務(wù)是向政府、公眾提供各類寶貴的地質(zhì)數(shù)據(jù)。因此模型更關(guān)注數(shù)據(jù)本身,確保產(chǎn)出數(shù)據(jù)的可靠、有效、可用等。而高校則以圖書館為研究主體,旨在幫助本校的科研人員做好科研過程中的數(shù)據(jù)管理工作,以滿足科研管理方的數(shù)據(jù)要求,便于科研驗證、促進科學(xué)再發(fā)現(xiàn)等。
從模型提出的基本思想看,有密切圍繞科學(xué)研究的全生命周期過程,如USGS 科學(xué)數(shù)據(jù)生命周期模型、ICPSR數(shù)據(jù)生命周期模型;有面向研究數(shù)據(jù)的全生命周期過程,如UKDA研究數(shù)據(jù)管理團隊(Research Data Management team)認為數(shù)據(jù)的生命周期比產(chǎn)生他們的研究課題長,即科研人員可能在課題結(jié)束后繼續(xù)研究、分析這些數(shù)據(jù),后續(xù)課題可能會更新數(shù)據(jù),也會有其他科研人員再利用等,并基于這一思想構(gòu)建了UKDA數(shù)據(jù)生命周期模型。
科學(xué)數(shù)據(jù)管理生命周期模型的適用對象主要以科學(xué)研究數(shù)據(jù)為主,但存在領(lǐng)域上的差異。如ICPSR數(shù)據(jù)生命周期模型適用于各類社會科學(xué)研究數(shù)據(jù),涵蓋定量數(shù)據(jù)、定性數(shù)據(jù)(如訪談視頻、案例研究筆記)、GIS等多種數(shù)據(jù)類型;而DCC審編生命周期模型不具有領(lǐng)域特征,適用于各類數(shù)字對象(Digital Objects)和數(shù)據(jù)庫,其中數(shù)字對象包括文本文件、圖片等(包括標識符、元數(shù)據(jù)等)簡單數(shù)字對象,以及由簡單數(shù)字對象構(gòu)成的復(fù)雜數(shù)字對象(如網(wǎng)頁)。
從模型結(jié)構(gòu)看,這7種模型均采用了圖形化表示,并以收尾相接的環(huán)形結(jié)構(gòu)為主。如DCC模型以數(shù)字對象為圓心,以數(shù)據(jù)管理活動為閉環(huán)的組成部分,最終形成5層的層級結(jié)構(gòu)。即使是DDI組合生命周期模型在“研究概念化”到“數(shù)據(jù)分析”部分是線性結(jié)構(gòu),但從“數(shù)據(jù)處理”到“數(shù)據(jù)分發(fā)”“數(shù)據(jù)再利用”分別添加了閉環(huán),形成了兩個迭代子結(jié)構(gòu)??梢?,數(shù)據(jù)管理活動之間的閉合循環(huán)是生命周期模型的重要組成部分。
從模型的核心構(gòu)成要素看,主要集中在6-8個關(guān)鍵步驟上,具體分析見模型要素分析。
數(shù)據(jù)管理模型可能會隨數(shù)據(jù)管理活動的發(fā)展而有所變化。從目前發(fā)展現(xiàn)狀看,各模型處于較為穩(wěn)定的階段,只有DDI模型存在更新。該模型的更新主要源于它是將數(shù)據(jù)生命周期概念模型(Conceptual Model)、XML Schema、DTD(Document Type Definition,文檔類型定義)相結(jié)合的技術(shù)解決方案,自2008年4月發(fā)布第一版至今共發(fā)布了3.0版本、3.1版本和3.2版本。其中,3.1版本修復(fù)了3.0版本中的若干問題,解決了統(tǒng)一資源名稱(Uniform Resource Name,URN)問題;3.2版本主要在3.1版本基礎(chǔ)上進行了修復(fù)與精煉[14]。
值得注意的是,一些模型的提出是有其構(gòu)建基礎(chǔ)的。如DataONE模型是建立在美國國家科學(xué)基金會(National Science Foundation,NSF)在DataNet solicitation提出的生命周期模型基礎(chǔ)上,DDI組合生命周期模型則是綜合了I-lin Kuo模型和Green/Kent生命周期模型構(gòu)建而成。
各機構(gòu)提出的科學(xué)數(shù)據(jù)管理生命周期模型由于出發(fā)點各異,模型要素及其內(nèi)涵方面既有相似性又有差異性。本文結(jié)合各模型對構(gòu)成要素內(nèi)涵的闡述,從“數(shù)據(jù)管理計劃”“數(shù)據(jù)收集”“數(shù)據(jù)處理”“數(shù)據(jù)分析”“數(shù)據(jù)保存”“數(shù)據(jù)共享”“數(shù)據(jù)再利用”等7方面實現(xiàn)模型要素的逐一映射匹配,形成科學(xué)數(shù)據(jù)管理生命周期模型核心要素映射關(guān)系表(表2)。
表2 科學(xué)數(shù)據(jù)管理生命周期模型核心要素映射關(guān)系
從表2可以看出,不管是何種模型、其要素表述有何差異,“數(shù)據(jù)管理計劃”“數(shù)據(jù)收集”“數(shù)據(jù)處理”“數(shù)據(jù)保存”是必備環(huán)節(jié)。如DCC模型的“概念化”內(nèi)涵是計劃數(shù)據(jù)創(chuàng)建工作,其本質(zhì)仍是數(shù)據(jù)管理計劃的制定。對應(yīng)到各模型,各要素之間存在交叉與融合現(xiàn)象。如UKDA模型的“數(shù)據(jù)創(chuàng)建”環(huán)節(jié)包含研究設(shè)計、數(shù)據(jù)管理計劃、數(shù)據(jù)共享協(xié)議、已有數(shù)據(jù)定位、收集數(shù)據(jù)、捕獲和創(chuàng)建元數(shù)據(jù)等內(nèi)容,橫跨了“數(shù)據(jù)管理計劃”和“數(shù)據(jù)收集”兩個環(huán)節(jié);ICPSR模型的“數(shù)據(jù)收集和文件創(chuàng)建”環(huán)節(jié)包含了數(shù)據(jù)整合、缺失值處理、數(shù)據(jù)分組等“數(shù)據(jù)處理”的內(nèi)容。而DataONE模型的“數(shù)據(jù)發(fā)現(xiàn)”環(huán)節(jié)指定位、獲取潛在有用數(shù)據(jù)及其相關(guān)描述數(shù)據(jù)(元數(shù)據(jù)),本質(zhì)上也是“數(shù)據(jù)收集”活動,因此在該環(huán)節(jié)包含了“數(shù)據(jù)收集”“質(zhì)量控制”“數(shù)據(jù)發(fā)現(xiàn)”3個要素。此外,有些模型要素,如加州大學(xué)圣地亞哥分校研究數(shù)據(jù)生命周期模型中的“結(jié)果出版”、ICPSR模型中的“項目啟動”因無合適的管理環(huán)節(jié)與之對應(yīng),在表中未標識。
從模型類型對要素的影響看,側(cè)重保存數(shù)據(jù)管理的模型,如DCC模型,會忽略“數(shù)據(jù)分析”等挖掘數(shù)據(jù)內(nèi)容的環(huán)節(jié)。而面向科研數(shù)據(jù)管理的模型,雖然在具體流程上會有差異,但均包含了“數(shù)據(jù)管理計劃”“數(shù)據(jù)收集”“數(shù)據(jù)處理”“數(shù)據(jù)分析”“數(shù)據(jù)保存”等管理環(huán)節(jié),說明在科研數(shù)據(jù)管理方面基本達成了共識。在其中細分,基于數(shù)據(jù)生命周期設(shè)計的模型,考慮到數(shù)據(jù)在科研過程結(jié)束后對后續(xù)研究的再利用價值,會納入“數(shù)據(jù)共享”“數(shù)據(jù)再利用”等環(huán)節(jié),較于側(cè)重科研過程的模型會有一定的擴展。
從模型要素內(nèi)涵看,會受適用對象的影響。如DataONE模型是針對環(huán)境科學(xué)數(shù)據(jù)設(shè)計的,因此在“數(shù)據(jù)收集”部分強調(diào)通過手工、傳感器或其他設(shè)備收集數(shù)據(jù),并轉(zhuǎn)存為數(shù)字形式。針對社會科學(xué)數(shù)據(jù)的DDI模型則強調(diào)數(shù)據(jù)收集方法(抽樣、時間等)、設(shè)備特征、問卷調(diào)查等內(nèi)容。而面向數(shù)字對象和數(shù)據(jù)庫的DCC模型,則囊括了數(shù)據(jù)收集的所有情況,包括管理性、描述性、結(jié)構(gòu)性、技術(shù)性元數(shù)據(jù)的創(chuàng)建,以及從數(shù)據(jù)提供者處接收數(shù)據(jù)等。同時,要素內(nèi)涵還會受到應(yīng)用場景的影響。如ICPSR作為與社會科學(xué)研究人員密切合作的數(shù)據(jù)管理機構(gòu),本身也提供數(shù)據(jù)管理服務(wù),其提出的模型就會強調(diào)科研人員與數(shù)據(jù)倉儲在數(shù)據(jù)管理方面的溝通與聯(lián)系,數(shù)據(jù)準備是否符合數(shù)據(jù)倉儲的要求等。USGS模型則強調(diào)數(shù)據(jù)獲取是否遵循USGS的相關(guān)政策法規(guī),是否能正確、有效地利用等。
值得注意的是,表2中列出的是各模型的核心要素,DCC審編生命周期模型和USGS科學(xué)數(shù)據(jù)生命周期模型還存在擴展要素。如DCC模型將數(shù)據(jù)管理活動劃分為3類,即全生命周期行為(Full Lifecycle Actions)、順序行為(Sequential Actions)以及偶然行為(Occasional Actions)。其中,全生命周期行為包括描述和表示信息、保存計劃、群體監(jiān)督與參與、審編與保存4種,偶然行為包括數(shù)據(jù)處理(Dispose)、數(shù)據(jù)再評估、數(shù)據(jù)遷移3種??梢?,這兩類數(shù)據(jù)管理活動是在順序行為,即其核心構(gòu)成要素基礎(chǔ)上的補充和完善,是更為高階的管理活動。而USGS 科學(xué)數(shù)據(jù)生命周期模型的擴展要素包括數(shù)據(jù)描述(元數(shù)據(jù)和數(shù)據(jù)文件)、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)備份和安全等,是貫穿于模型的所有核心要素,強調(diào)數(shù)據(jù)管理與科研過程的關(guān)系。
科學(xué)數(shù)據(jù)管理生命周期模型是針對數(shù)據(jù)管理活動的參照性指導(dǎo)方略,其應(yīng)用人群主要涉及圖書館員、管理人員、數(shù)據(jù)倉儲、科研人員、開發(fā)人員等。不同類型人群的應(yīng)用需求不同,應(yīng)用方式也會有所差異。為了滿足各級各類人員的應(yīng)用需求,各數(shù)據(jù)管理模型的提出機構(gòu)會提供一系列相關(guān)資源來輔助做好數(shù)據(jù)管理工作。本文從“指導(dǎo)手冊”“標準規(guī)范”“技術(shù)規(guī)范”“系統(tǒng)工具”“管理服務(wù)”5個方面進行梳理,形成表3。
表3 科學(xué)數(shù)據(jù)管理生命周期模型應(yīng)用對比
注:Y表示提供此內(nèi)容,N表示不提供此內(nèi)容。
從表3可以看出,“指導(dǎo)手冊”“系統(tǒng)工具”是所有科學(xué)數(shù)據(jù)管理生命周期模型在應(yīng)用時均會提供的。其中,“指導(dǎo)手冊”主要是闡述什么是數(shù)據(jù)管理、為什么要管理數(shù)據(jù),以及如何有效地管理數(shù)據(jù)等內(nèi)容。如ICPSR發(fā)布的“社會科學(xué)數(shù)據(jù)準備與歸檔指南(Guide to Social Science Data Preparation and Archiving)”[15]就從數(shù)據(jù)管理模型的6個核心環(huán)節(jié)分別闡述了相關(guān)概念、標準、注意事項、最佳實踐以及示例等;DCC則為模型中的8個關(guān)鍵環(huán)節(jié)明確了檢查清單(checklist),便于機構(gòu)制定、規(guī)劃組織內(nèi)的數(shù)據(jù)管理活動。在系統(tǒng)工具方面,存在自主研發(fā)工具和收集已有工具兩種方式。如同樣是幫助科研人員撰寫數(shù)據(jù)管理計劃,DCC是自行研發(fā)了DMPonline工具,而加州大學(xué)圣地亞哥分校則是通過提供給科研人員已有工具DMPTool。
從提供的標準規(guī)范看,主要存在兩種類型。一種是數(shù)據(jù)標準規(guī)范,如DCC按照學(xué)科分類收集整理了相關(guān)元數(shù)據(jù)規(guī)范、工具以及用例(use case),以幫助數(shù)據(jù)管理者、研究人員更好地了解并使用數(shù)據(jù)標準[16];USGS主管的聯(lián)邦地理數(shù)據(jù)委員會(Federal Geographic Data Committee,F(xiàn)GDC)則制定、出臺了數(shù)字地理空間數(shù)據(jù)元數(shù)據(jù)的內(nèi)容標準。另一種是諸如數(shù)據(jù)管理計劃等的數(shù)據(jù)文件標準,如ICPSR面向社會科學(xué)研究數(shù)據(jù),明確了數(shù)據(jù)管理計劃的建議元素和可選元素。
從標準規(guī)范制定方式看,有聯(lián)合開發(fā)的,如UKDA作為DDI技術(shù)應(yīng)用組、受控詞表組、定性元數(shù)據(jù)工作組的成員,參與制定了經(jīng)濟與社會數(shù)據(jù)的元數(shù)據(jù)標準;有獨自開發(fā)的,如USGS。
從技術(shù)規(guī)范看,只有DDI和USGS提供技術(shù)規(guī)范,但二者又有不同。DDI聯(lián)盟旨在面向社會科學(xué)數(shù)據(jù)、覆蓋人類活動數(shù)據(jù)、基于觀測獲取的數(shù)據(jù)建立數(shù)據(jù)標準,并且這些標準是結(jié)構(gòu)化的,便于機器處理,有利于互操作。因此,DDI將XML Schema與數(shù)據(jù)生命周期相結(jié)合,明確了各要素的內(nèi)涵,形成了技術(shù)規(guī)范“Data Documentation Initiative (DDI) Technical Specification”,并且這些技術(shù)規(guī)范是會隨著應(yīng)用的深化而變化更新。為了解決技術(shù)規(guī)范版本不兼容問題,DDI還提供了版本遷移的解決方案。而USGS的技術(shù)文檔是針對數(shù)字地理空間數(shù)據(jù)元數(shù)據(jù)標準的,明確了標準的XML Schema、DTD等[17]。
在數(shù)據(jù)管理服務(wù)方面,數(shù)據(jù)管理機構(gòu)和高校出于科研人員的應(yīng)用需求均提供了數(shù)據(jù)管理服務(wù)。如加州大學(xué)圣地亞哥分校為本??蒲腥藛T提供了數(shù)據(jù)的長期保存服務(wù)[18],服務(wù)采用Chronopolis系統(tǒng)以確保有效的管理過程和持續(xù)的監(jiān)測。同時,圖書館的研究數(shù)據(jù)管理計劃(Research Data Curation Program,RDCP)團隊還面向科研人員提供數(shù)據(jù)管理咨詢服務(wù)。而在數(shù)據(jù)管理機構(gòu)中,如英國經(jīng)濟與社會委員會(Economic and Social Research Council,ESRC)資助的UK數(shù)據(jù)服務(wù)(UK Data Service)是為英國和國際社會、經(jīng)濟和人口數(shù)據(jù)提供數(shù)據(jù)管理服務(wù)[19]。為了幫助科研人員有效地管理數(shù)據(jù),還提供了大量的指南、教程和工具。數(shù)據(jù)管理研究機構(gòu)主要是提供數(shù)字研究數(shù)據(jù)存儲、管理、保護和共享等方面的專業(yè)指導(dǎo)和建議,數(shù)據(jù)管理服務(wù)不是重點,因此DCC、DataONE、DDI均未提供。
由于模型提出的出發(fā)點不同,因此在落實到具體應(yīng)用時也會有所不同。例如,DataONE提出的數(shù)據(jù)生命模型主要是作為DataONE工具、服務(wù)、教學(xué)材料研發(fā)的底層框架,所以它本身不承載DataONE成員單位的數(shù)據(jù)管理工作,但會為相關(guān)科研人員、公眾提供一個環(huán)境科學(xué)數(shù)據(jù)、系統(tǒng)工具、學(xué)習材料等的資源發(fā)現(xiàn)平臺。而DCC模型提供了一種操作框架,在應(yīng)用的時候需要根據(jù)應(yīng)用場景、實際條件等情況進行適應(yīng)性調(diào)整(如操作入口環(huán)節(jié)等),才能確保數(shù)據(jù)審編活動順利、有序地進行。因此,明尼蘇達州大學(xué)圖書館在2013年5月啟動了數(shù)據(jù)管理試點工程(Data Curation Pilot project)后,結(jié)合本地已采用的技術(shù)工具,在DCC模型順序行為(Sequential Actions)基礎(chǔ)上初步制定了本地數(shù)據(jù)管理工作流,圖書館員通過管理試點數(shù)據(jù)集獲得的經(jīng)驗,最終明確整體科學(xué)數(shù)據(jù)管理工作流程,確定各階段所應(yīng)采取的具體步驟,各步驟應(yīng)考慮的關(guān)鍵問題等[20]。DDI模型作為XML Schema與數(shù)據(jù)生命周期結(jié)合的技術(shù)解決方案,美國加州大學(xué)洛杉磯分校在應(yīng)用時,是將DDI模型作為底層數(shù)據(jù)全生命周期管理的基礎(chǔ),結(jié)合數(shù)據(jù)倉儲工具Colectica實現(xiàn)了社會科學(xué)數(shù)據(jù)的構(gòu)建[21]。
通過對國外典型科學(xué)數(shù)據(jù)管理生命周期模型的對比分析,發(fā)現(xiàn)存在以下3方面的特點。
各數(shù)據(jù)管理生命周期模型雖然由不同類型機構(gòu)組織提出,但在模型的圖形化表達、適用對象、核心構(gòu)成要素等方面存在諸多共通之處,呈現(xiàn)出趨同性的特點。在此基礎(chǔ)上,結(jié)合提出的出發(fā)點、應(yīng)用場景、數(shù)據(jù)對象特點等,在模型結(jié)構(gòu)、具體管理環(huán)節(jié)、要素表述與內(nèi)涵等方面呈現(xiàn)多樣化特點。這說明科學(xué)數(shù)據(jù)管理生命周期模型在不斷的探索和實踐中,已經(jīng)在某些方面達成了一定程度上的共識,并成為各組織機構(gòu)深化、細化、變化或具象化模型的基礎(chǔ)。
科學(xué)數(shù)據(jù)管理生命周期模型提出的最終目的是指導(dǎo)、幫助科研人員做好數(shù)據(jù)管理工作。模型的抽象性及科研人員在數(shù)據(jù)管理方面的非專業(yè)性,決定了相關(guān)輔助資源的重要性。而輔助資源的質(zhì)量直接影響著模型有效利用的程度。因此,根據(jù)模型的應(yīng)用人群,有針對性地、盡可能全面地提供各種資源,并以方便的、可理解的方式組織起來,是模型提出機構(gòu)的重要工作。
通過對比分析可見,有些模型具有領(lǐng)域特性,其內(nèi)涵和應(yīng)用有專指性;有些模型是指導(dǎo)性框架,應(yīng)用時需進行本地化的適應(yīng)性改造;有些模型是面向科研過程的,科研活動結(jié)束數(shù)據(jù)管理活動就截止了;有些模型是面向數(shù)據(jù)生命周期的,數(shù)據(jù)管理活動還包含了對數(shù)據(jù)再利用的管理等。此外,不同模型在輔助資源的提供上,包括資源類型、質(zhì)量、組織方式等方面也存在差異。這些因素均是數(shù)據(jù)管理人員在選擇、應(yīng)用模型時需要考量和權(quán)衡的。只有結(jié)合需求選擇合適的模型,利用好各類輔助資源,保證模型得到合理的應(yīng)用,才能達到有效管理數(shù)據(jù)的目的。