●王艷翠,李書寧,李愛(ài)紅編譯(.聊城大學(xué)圖書館,山東 聊城 5059;.北京師范大學(xué)圖書館,北京 00875)
研究數(shù)據(jù)聯(lián)盟
——建立全球數(shù)據(jù)共享和數(shù)據(jù)交換的基礎(chǔ)架構(gòu)
●王艷翠1,李書寧2,李愛(ài)紅1編譯
(1.聊城大學(xué)圖書館,山東聊城252059;2.北京師范大學(xué)圖書館,北京100875)
[關(guān)鍵詞]數(shù)據(jù)共享和交流;研究數(shù)據(jù)聯(lián)盟;焦點(diǎn)區(qū)域
[摘要]為了滿足全球日益增長(zhǎng)的對(duì)于數(shù)據(jù)基礎(chǔ)設(shè)施的需求,研究數(shù)據(jù)聯(lián)盟作為一個(gè)全球性的、團(tuán)體驅(qū)動(dòng)的組織于2013年計(jì)劃并推出(簡(jiǎn)稱RDA)。本文對(duì)RDA的著眼點(diǎn)和使命、出現(xiàn)及快速發(fā)展、運(yùn)轉(zhuǎn)機(jī)制、焦點(diǎn)區(qū)域、建立數(shù)據(jù)共享和交流的技術(shù)基礎(chǔ)設(shè)施和社會(huì)基礎(chǔ)設(shè)施以及開展的一系列工作進(jìn)行了介紹。
今天的技術(shù)能夠?qū)σ郧盁o(wú)法想象的大量數(shù)據(jù)進(jìn)行收集和分析。通過(guò)新方法、新應(yīng)用以及新服務(wù)的開發(fā),這類數(shù)據(jù)正在改變著私人的、公共的、學(xué)術(shù)的等方方面面。無(wú)處不在的數(shù)據(jù)不僅僅改變“是什么”,它正在改變“將是什么”——致力于基礎(chǔ)工作從而推動(dòng)新的創(chuàng)新的出現(xiàn)。從這個(gè)意義上說(shuō),研究領(lǐng)域?qū)Υ偈箶?shù)字化數(shù)據(jù)改變的需求最迫切。目前,越來(lái)越多的問(wèn)題需要使用復(fù)雜的模型和新方法對(duì)來(lái)自各個(gè)不同科學(xué)領(lǐng)域的數(shù)據(jù)進(jìn)行綜合分析,而研究人員具備共享和綜合關(guān)鍵數(shù)據(jù)集的能力是基礎(chǔ)。只有具備了這樣的基礎(chǔ),才能開發(fā)出解決問(wèn)題的新方法。
數(shù)據(jù)共享和數(shù)據(jù)交流使我們能夠揭示那些以前未連接過(guò)的事物之間的連通性。例如,為了研究大都市地區(qū)的哮喘病風(fēng)險(xiǎn),就要結(jié)合健康學(xué)、環(huán)境、人口和其他數(shù)據(jù)等進(jìn)行研究;這就需要有支持獲取、使用、重復(fù)使用、管理、協(xié)調(diào)以及相關(guān)數(shù)據(jù)集管理的基礎(chǔ)框架。對(duì)于這類數(shù)據(jù)的相關(guān)共享和闡述來(lái)說(shuō),僅僅提供可用數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的。為了使研究更具挑戰(zhàn)性,不同的研究團(tuán)體都有各自不同的數(shù)據(jù)標(biāo)準(zhǔn)、政策和實(shí)踐。因此,正如同今天的互聯(lián)網(wǎng)需要新的技術(shù)基礎(chǔ)設(shè)施和共同的協(xié)議來(lái)實(shí)現(xiàn)計(jì)算機(jī)網(wǎng)絡(luò)的連接一樣,需要有足以能夠支持技術(shù)和社會(huì)基礎(chǔ)設(shè)施整合來(lái)自不同群體的數(shù)據(jù)集并能在這些群體中實(shí)現(xiàn)合作的組織。
為了滿足全球日益增長(zhǎng)的對(duì)于數(shù)據(jù)基礎(chǔ)設(shè)施的需求,研究數(shù)據(jù)聯(lián)盟(以下簡(jiǎn)稱RDA)作為一個(gè)全球性的、團(tuán)體驅(qū)動(dòng)的組織于2013年計(jì)劃并推出。它的著眼點(diǎn)是研究者和創(chuàng)新者們跨技術(shù)、學(xué)科以及國(guó)界公開共享數(shù)據(jù),從而解決全社會(huì)面臨的巨大挑戰(zhàn)。它的使命是建立能夠使數(shù)據(jù)實(shí)現(xiàn)共享的社會(huì)橋梁和技術(shù)橋梁。這些都是通過(guò)創(chuàng)造、采納并應(yīng)用社會(huì)、組織以及必要的技術(shù)基礎(chǔ)設(shè)施來(lái)降低數(shù)據(jù)共享和數(shù)據(jù)交流的壁壘而完成的。在實(shí)踐中,RDA成員不僅致力于數(shù)據(jù)共享和數(shù)據(jù)交流的技術(shù)基礎(chǔ)設(shè)施(包括其基本的)結(jié)構(gòu)和組成要素(持續(xù)的數(shù)字標(biāo)識(shí)符,共享的元數(shù)據(jù)框架等)方面的研究,還致力于團(tuán)體合作所需要的社會(huì)基礎(chǔ)設(shè)施(公共政策和組織實(shí)踐、統(tǒng)一的標(biāo)準(zhǔn)、數(shù)據(jù)獲取和保存的通用方法等)方面的研究。
對(duì)于研究人員、數(shù)據(jù)科學(xué)家和各種團(tuán)體組織來(lái)說(shuō),RDA是一個(gè)新興的、快速發(fā)展的國(guó)際化組織。這是一個(gè)成員驅(qū)動(dòng)的組織,任何個(gè)人只要愿意接受RDA的開放、協(xié)商決策、技術(shù)中立、均衡代表各方利益等基本原則,就可以免費(fèi)加入聯(lián)盟。其他組織也可以以機(jī)構(gòu)成員(具有投票權(quán))或合作組織成員加入RDA。各類組織也可以作為組織成員(在組織內(nèi)有投票權(quán)的)或合作組織成員加入RDA。
RDA是由選舉產(chǎn)生的九名資深人員組成的委員會(huì)領(lǐng)導(dǎo)的。RDA委員會(huì)與RDA成員——選舉產(chǎn)生的技術(shù)咨詢委員會(huì)和組織成員與分支機(jī)構(gòu)密切合作,用以
鼓勵(lì)和支持重點(diǎn)工作組和更廣泛的興趣組。RDA由工作組、興趣組和合作組組成。工作組和興趣組是RDA的核心。工作組致力于在12~18個(gè)月的短期時(shí)間內(nèi)在多個(gè)機(jī)構(gòu)內(nèi)實(shí)現(xiàn)特定的工具、代碼、最好的實(shí)踐、標(biāo)準(zhǔn)等的實(shí)施;興趣組則具備更寬廣的范圍和更長(zhǎng)的時(shí)間,他們工作的目的是確定常見(jiàn)問(wèn)題及興趣,而這些工作最終導(dǎo)致更多的焦點(diǎn)工作組的創(chuàng)立。截止到2013年秋天,RDA形成了36個(gè)研討課題范圍更廣泛的興趣組和工作組。目前,工作組和興趣組的數(shù)量繼續(xù)高速增長(zhǎng)。合作組包括RDA的主要管理和行政機(jī)構(gòu),負(fù)責(zé)聯(lián)盟日常管理,并為工作組和興趣組提供支持和鼓勵(lì)。
RDA的組織和運(yùn)作一直以來(lái)都是由美國(guó)、歐盟和澳大利亞的政府機(jī)構(gòu)組成的國(guó)際指導(dǎo)委員會(huì)指導(dǎo)。美國(guó)的參與是由美國(guó)國(guó)家科學(xué)基金會(huì)的RDA學(xué)術(shù)報(bào)告會(huì)發(fā)起的;歐盟的參與是通過(guò)歐洲委員會(huì)的資助;澳大利亞的參與是由于獲得澳大利亞政府通過(guò)澳大利亞國(guó)家數(shù)據(jù)服務(wù)中心的資助;其他還包括查爾姆斯理工大學(xué)、美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)與研究所;微軟研究院對(duì)RDA的全體會(huì)議提供了額外的支持。
圖 RDA的組織機(jī)構(gòu)
數(shù)據(jù)團(tuán)體和國(guó)際機(jī)構(gòu)尋求加速研究創(chuàng)新以及數(shù)字化研究數(shù)據(jù)前所未有的增長(zhǎng)使得數(shù)據(jù)基礎(chǔ)設(shè)施的開發(fā)成為可能是RDA出現(xiàn)最根本的原因。2011年和2012年,美國(guó)國(guó)家科學(xué)基金會(huì)、美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)委員會(huì)、歐洲委員會(huì)、澳大利亞政府以及許多其他機(jī)構(gòu)就加快世界范圍的研究數(shù)據(jù)共享和交流而建設(shè)更加有效的基礎(chǔ)設(shè)施進(jìn)行了多次磋商討論。這些討論以及日益增長(zhǎng)的開發(fā)和協(xié)調(diào)全球研究數(shù)據(jù)基礎(chǔ)設(shè)施的需求,通過(guò)數(shù)據(jù)訪問(wèn)及互操作性任務(wù)小組(DAITF)的探索和“數(shù)據(jù)網(wǎng)絡(luò)論壇”白皮書的總結(jié)加以揭示。許多機(jī)構(gòu)認(rèn)識(shí)到需要更寬泛的努力加快高?;A(chǔ)設(shè)施的開發(fā)和應(yīng)用,從而促使美、歐、澳的組織者們提出國(guó)際化開發(fā)研究數(shù)據(jù)聯(lián)盟的設(shè)想。研究數(shù)據(jù)聯(lián)盟可以實(shí)現(xiàn)和擴(kuò)展DAITF的設(shè)想和“數(shù)據(jù)網(wǎng)絡(luò)論壇”的概念;推動(dòng)基礎(chǔ)設(shè)施的開發(fā)、應(yīng)用及使用,從而加快開放存取研究數(shù)據(jù)的全球共享和交流。2012年8月,RDA最初的組委會(huì)聚集到一起對(duì)這個(gè)新生的組織進(jìn)行了規(guī)劃和組織。
2012年至2013年,RDA巨大的群體興趣和增長(zhǎng)遠(yuǎn)遠(yuǎn)超過(guò)了預(yù)期。2013年3月RDA在瑞典哥德堡舉行了第一次全體會(huì)議,有來(lái)自31個(gè)國(guó)家的240多人參加。2013年9月在華盛頓舉行第二次全體會(huì)議,有來(lái)自53個(gè)國(guó)家和地區(qū)的大約1300多人參加了RDA論壇。2014年3月在都柏林舉行第三次全體會(huì)議。
RDA的工作是由他的工作組和興趣組來(lái)執(zhí)行的。當(dāng)一個(gè)相關(guān)的團(tuán)體圍繞一個(gè)主題發(fā)展的時(shí)候就會(huì)形成一個(gè)群,而且這個(gè)主題具備良好定義的問(wèn)題、共同的目標(biāo)、并有機(jī)會(huì)創(chuàng)造一個(gè)及時(shí)行動(dòng)的框架。工作組和興趣組圍繞同一個(gè)主題及該主題的快速發(fā)展而協(xié)同開發(fā)。工作組根據(jù)書面的案例陳述提出一個(gè)新的問(wèn)題范圍,然后研究數(shù)據(jù)聯(lián)盟與工作群密切合作,確保其成果可在12~18個(gè)月內(nèi)提交至框架,并確保該成果是可以操作實(shí)施的。興趣組則經(jīng)常召開會(huì)議,讓各個(gè)團(tuán)體圍繞工作群的短期目標(biāo)進(jìn)行時(shí)間分配。一年的時(shí)間里,工作組和興趣組的活動(dòng)主要集中在:克服研究數(shù)據(jù)共享障礙、克服出版障礙、克服引用障礙和歸檔障礙以及開發(fā)必要的基礎(chǔ)設(shè)施來(lái)支持這些任務(wù)上面。為了促進(jìn)工作組和興趣組的成功運(yùn)轉(zhuǎn),技術(shù)咨詢委員會(huì)代表RDA團(tuán)體進(jìn)行工作。技術(shù)咨詢委員會(huì)是RDA的技術(shù)路線圖,負(fù)責(zé)發(fā)現(xiàn)和解決差距。短期(12~18個(gè)月)工作組聚集到一起解決下列問(wèn)題:①為一個(gè)特定的但又真實(shí)存在的目標(biāo)社區(qū)創(chuàng)建能夠促進(jìn)數(shù)據(jù)共享和交流的基礎(chǔ)設(shè)施的具體部分;②在目標(biāo)社區(qū)內(nèi)應(yīng)用該基礎(chǔ)設(shè)施;③使用該基礎(chǔ)設(shè)施加快數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新。工作組的焦點(diǎn)在于其可交付成果的影響和可實(shí)施性。興趣組在主體范疇方面提供了論壇,使得工作組作為基礎(chǔ)設(shè)施的必需部分而獲得支持。
目前,RDA工作組和興趣組的活動(dòng)可以分為以下五個(gè)方面,這五個(gè)方面僅僅是一直以來(lái)新的團(tuán)體不斷涌現(xiàn)、新的組織快速發(fā)展的快照。
(1)科學(xué)領(lǐng)域。參與RDA團(tuán)體的成員往往是圍繞
著某一科學(xué)領(lǐng)域,在相對(duì)狹窄的學(xué)科領(lǐng)域內(nèi),通過(guò)RDA克服技術(shù)障礙和社會(huì)障礙而實(shí)現(xiàn)數(shù)據(jù)共享。通過(guò)共享數(shù)據(jù)模型來(lái)實(shí)現(xiàn)這種共享。以生物學(xué)為例,共享詞匯或分類系統(tǒng),或就材料數(shù)據(jù)管理來(lái)說(shuō),實(shí)現(xiàn)跨境協(xié)議連接。目前,RDA科學(xué)領(lǐng)域的工作主要集中在四個(gè)方面:生物學(xué)、農(nóng)業(yè)、社會(huì)科學(xué)(尤其是數(shù)字化歷史和人種學(xué))、工程(尤其是材料科學(xué))。
(2)數(shù)據(jù)歸檔和出版。該領(lǐng)域目前有五個(gè)工作組處理面臨著把倉(cāng)儲(chǔ)/檔案集作為擴(kuò)展數(shù)據(jù)集的關(guān)鍵性問(wèn)題。這些小組普遍追求方法共享、工具共享,并著眼于降低運(yùn)營(yíng)成本。具體活動(dòng)包括最常見(jiàn)的通過(guò)數(shù)據(jù)生命周期表示數(shù)據(jù)源;對(duì)于正在認(rèn)證中的倉(cāng)儲(chǔ)數(shù)據(jù)實(shí)現(xiàn)開放的、低成本高效益運(yùn)轉(zhuǎn)并且共享標(biāo)準(zhǔn);文獻(xiàn)計(jì)量;為長(zhǎng)尾理論研究需求提供服務(wù);更好地管理數(shù)據(jù)出版費(fèi)用等。
(3)在科學(xué)研究和教育實(shí)踐活動(dòng)中數(shù)據(jù)的共享和重復(fù)利用的需求。RDA中有部分固定的小組使用有針對(duì)性的方法來(lái)更好地捕捉研究數(shù)據(jù)用戶群體的需求,這些是通過(guò)配置文件以及通過(guò)有針對(duì)性的努力(如專注于發(fā)展中國(guó)家在云計(jì)算中的教育材料)來(lái)實(shí)現(xiàn)的。
(4)數(shù)據(jù)引用參考。當(dāng)目標(biāo)是研究數(shù)據(jù)的重復(fù)利用時(shí),全球數(shù)據(jù)共享就遇到了諸多壁壘。該領(lǐng)域的三個(gè)小組對(duì)不同的壁壘進(jìn)行了調(diào)查研究。研究發(fā)現(xiàn),在某一出版物中引用的數(shù)據(jù),整體作為時(shí)間序列數(shù)據(jù)來(lái)說(shuō),可能是更大的一部分而且時(shí)間是模糊的,引用這類數(shù)據(jù)的子集部分應(yīng)當(dāng)對(duì)引用方式作出約定,RDA的一個(gè)小組正試圖對(duì)約定引用方式達(dá)成協(xié)議。目前,數(shù)字化數(shù)據(jù)客體被描述成多種語(yǔ)言,而RDA正在力圖用單一語(yǔ)言編碼來(lái)對(duì)數(shù)字化數(shù)據(jù)客體進(jìn)行闡述。最后,跨國(guó)界的數(shù)據(jù)共享遇到了諸多的法律壁壘,這也是RDA小組共同面臨的一個(gè)難題。
(5)基礎(chǔ)設(shè)施。RDA中有八個(gè)工作組和興趣組致力于基礎(chǔ)設(shè)施的研究方面?;A(chǔ)設(shè)施被劃分成具體范疇和詳細(xì)范疇兩大類。前者的成果是通過(guò)服務(wù)水平驅(qū)動(dòng)代碼予以演示,后者實(shí)際上是建設(shè)框架。目前,具體范疇的分類活動(dòng)包括:①對(duì)于建立可互操作性的工具來(lái)說(shuō),參考數(shù)據(jù)模型和隨之而來(lái)的詞匯都是最基本的需求;②對(duì)倉(cāng)儲(chǔ)管理共享可控政策,一旦通過(guò)了確認(rèn),可以簡(jiǎn)化認(rèn)證并提高倉(cāng)儲(chǔ)及檔案文件的透明度;③元數(shù)據(jù)標(biāo)準(zhǔn)目標(biāo)和數(shù)據(jù)類型注冊(cè)表合并在一起,有助于一旦發(fā)掘出數(shù)據(jù)目標(biāo),能夠迅速對(duì)其作出解釋說(shuō)明。而大數(shù)據(jù)分析的精細(xì)組則建立了美國(guó)國(guó)家標(biāo)準(zhǔn)及技術(shù)研究所大數(shù)據(jù)工作組。聯(lián)合識(shí)別認(rèn)證管理正在尋求推進(jìn)國(guó)際聯(lián)合識(shí)別認(rèn)證。
(6)RDA的相關(guān)活動(dòng)。下表列出了RDA成立一年來(lái)的五大類活動(dòng)。
表3 RDA一年的活動(dòng)
受到快速增長(zhǎng)的激發(fā)后,RDA目前正致力于開發(fā)一個(gè)高效組織,這個(gè)組織能滿足并適應(yīng)RDA的任務(wù),并且作為一個(gè)支持模型至少可以覆蓋五年的時(shí)間,而這五年的時(shí)間對(duì)于組織來(lái)說(shuō)是證明其影響力是否成功的關(guān)鍵時(shí)期。這一時(shí)期衡量組織是否成功的重點(diǎn)在于:①一個(gè)持續(xù)的、不斷擴(kuò)大的
數(shù)據(jù)基礎(chǔ)設(shè)施通道的開發(fā),通過(guò)社區(qū)的應(yīng)用和利用加速數(shù)據(jù)共享和交流;②隨著數(shù)據(jù)團(tuán)體對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施的潛在影響越來(lái)越大,在整個(gè)數(shù)據(jù)團(tuán)體中,提高RDA作為“獨(dú)立空間”用于協(xié)調(diào)組織間、個(gè)人間及組織和個(gè)人間的合作的效能;③開發(fā)一種靈活的、精干的、高效的組織用以支持?jǐn)?shù)據(jù)團(tuán)體在全球及區(qū)域間的擴(kuò)展以及越來(lái)越多的合作。基于研究數(shù)據(jù)在科研中發(fā)揮的作用越來(lái)越大,而且不同機(jī)構(gòu)對(duì)于研究數(shù)據(jù)共享的需求也越來(lái)越強(qiáng)烈,國(guó)內(nèi)相關(guān)機(jī)構(gòu)和研究人員也應(yīng)該密切關(guān)注RDA組織的發(fā)展態(tài)勢(shì),并爭(zhēng)取機(jī)會(huì)參與其中,以加強(qiáng)合作,實(shí)現(xiàn)國(guó)內(nèi)相關(guān)研究數(shù)據(jù)的共享。
[編譯文獻(xiàn)來(lái)源]
[1]http://dlib.org/dlib/january14/parsons/01parsons.html.
[2]http://dlib.org/dlib/january14/01guest_editorial.html.
[3]http://dlib.org/dlib/january14/plale/01plale.html.
[4]https://rd-alliance.org/.
[收稿日期]2014-04-29 責(zé)任編輯]邵晉蓉
[作者簡(jiǎn)介]王艷翠(1973-),女,碩士,聊城大學(xué)圖書館副研究館員,已發(fā)文數(shù)篇;李書寧(1976-),男,博士,北京師范大學(xué)圖書館副研究館員;李愛(ài)紅(1970-),女,本科,聊城大學(xué)圖書館館員。
[文章編號(hào)]1005-8214(2015)01-0052-03
[文獻(xiàn)標(biāo)志碼]A
[中圖分類號(hào)]G250.73