□ 劉靜波 / 河北省圖書館采編部 石家莊 050011
李穎 / 中國科學技術信息研究所 北京 100038
科學數(shù)據(jù)整合與管理開放平臺P-CUBE
□ 劉靜波 / 河北省圖書館采編部 石家莊 050011
李穎 / 中國科學技術信息研究所 北京 100038
科學數(shù)據(jù)的整合與管理是國家信息資源戰(zhàn)略方針之一,目前還沒有長期有效的方法與手段。韓國科學技術信息研究院在此領域走在了亞洲前列。其最新研制開發(fā)的“Big”科學數(shù)據(jù)整合與管理開放平臺P-CUBE就是很好的解決方案。文章介紹P-CUBE的定位、架構、技術體系和應用。最后,給出結論。
KISTI,P-CUBE,科學數(shù)據(jù),管理平臺
科學數(shù)據(jù)是科研活動的重要產出之一。在科研活動的支撐技術手段高度發(fā)達的當今社會,研究人員在其研究過程中產出的科學數(shù)據(jù)的量堪稱“big”。然而,大部分科學數(shù)據(jù)分散在研究者手中,這些有價值的數(shù)據(jù),要么得不到重用,要么隨著時間的流逝而丟失。為此,收集、整合、管理科學數(shù)據(jù),重用和共享這些數(shù)據(jù)的平臺被認為是有效的解決方案。
◆ 設計目標:P-CUBE是一個便于存儲和重用研究人員在科研過程中產出的科學數(shù)據(jù)的安全平臺,是云環(huán)境下的科學數(shù)據(jù)的高效管理和應用系統(tǒng)。
◆ 由于IT硬件的發(fā)展、超高速網絡的擴展及高端信息技術的出現(xiàn),科研活動產生了大量的科學數(shù)據(jù)。遴選和管理有價值的科學數(shù)據(jù)非常重要。由于數(shù)據(jù)大部分存儲在科學家的PC、CD或USB中,沒有得到有效的利用,為此,需要管理科學數(shù)據(jù)、并重用這些數(shù)據(jù)的平臺。P-CUBE由此誕生。
本文重點介紹這一剛剛問世的開源軟件的架構體系,從P-CUBE的數(shù)據(jù)生命周期與主要角色、不同角色的作用、P-CUBE主要模塊與OSS、數(shù)據(jù)模型架構、系統(tǒng)架構、接口,以及P-CUBE的模型Ⅰ和Ⅱ等多個方面,對P-CUBE進行描繪。
通過對P-CUBE的描述,讓研究者理解P-CUBE,輕松地使用P-CUBE,從而實現(xiàn)全球、特別是中日韓亞洲大國之間的科學數(shù)據(jù)共享。
負責P-CUBE研究開發(fā)的KISTI資深研究員SunTae Kim博士在描述“What is P-CUBE ?”時,給出了其定義:“大電子資源”整合研究與統(tǒng)一的平臺。P-CUBE取自于“Platform for Convergence research and Unification of Big E-resources”中的幾個英文詞匯的首字母。其關鍵詞是:
圖1 P-CUBE與數(shù)據(jù)生命周期
◆ 平臺
◆ 安全存儲、方便的獲取
◆ 科學數(shù)據(jù)的重用
圖1從數(shù)據(jù)的視角,給出了P-CUBE在數(shù)據(jù)生命周期的定位、數(shù)據(jù)生命周期中涉及的角色及其作用??梢哉f,P-CUBE融合和統(tǒng)一了數(shù)據(jù)的全流程管理,必不可少。
從圖2 P-CUBE主要模塊與開源軟件可以看出,P-CUBE平臺完全基于國際標準化體系和通用的開源系統(tǒng)。其數(shù)據(jù)攝取模塊采用元數(shù)據(jù)收割標準OAI-PMH,數(shù)據(jù)存儲管理采用開源軟件FEDORA,數(shù)據(jù)發(fā)布基于DOI,而數(shù)據(jù)服務利用SOAP協(xié)議。所以說,P-CUBE是全球化的開放平臺,任何科研人員、機構、本地或數(shù)據(jù)中心都可應用P-CUBE進行數(shù)據(jù)管理、數(shù)據(jù)共享和重用。
參見圖3,P-CUBE數(shù)據(jù)架構。P-CUBE提供數(shù)據(jù)的存儲、鏈接、管理和服務功能。具體如下:
P-CUBE 主要功能:
(1)收集科學數(shù)據(jù)
◆ 通過研究者數(shù)據(jù)上載來收集數(shù)據(jù)
◆ 通過標準協(xié)議自動收集數(shù)據(jù)
(2)管理和存儲科學數(shù)據(jù)
◆ 利用OAIS標準系統(tǒng)地管理數(shù)據(jù)
◆ 基于數(shù)據(jù)生命周期存儲管理
(3)科學數(shù)據(jù)發(fā)布功能
◆ 對研究人員的數(shù)據(jù)分配全球標識符
圖2 P-CUBE主要模塊與開源軟件
圖3 P-CUBE數(shù)據(jù)架構
采用DOI Handle機制
(4)科學數(shù)據(jù)服務功能
◆ 依據(jù)組織、集合和研究者創(chuàng)建的標簽檢索數(shù)據(jù)
◆ 科學數(shù)據(jù)與學術期刊的鏈接服務
P-CUBE功能特點:
◆ 科學數(shù)據(jù)的系統(tǒng)管理(組織、收集)
◆ 研究人員可公開構建自身的科學數(shù)據(jù)(默認為非共享)
◆ 可構建科學數(shù)據(jù)的各種管理項目
◆ 科學數(shù)據(jù)全球發(fā)布和永久獲取
◆ 基于OAI- PMH標準自動收集和發(fā)布科學數(shù)據(jù)
P-CUBE的基礎:
◆ 基于世界公認的開源系統(tǒng)開發(fā),采用Fedora及MySQL數(shù)據(jù)庫。
P-CUBE 技術標準:
◆ P-CUBE 遵循ISO 14721:2003中規(guī)定的 OAIS參考模式
◆ P-CUBE的系統(tǒng)架構包含數(shù)據(jù)收集、數(shù)據(jù)管理、歸檔和檢索
如圖4所示,P-CUBE在技術體系上,采用了本體描述,基于Fedora Commons Ontology、DataCite Ontology、以及DC Onlogogy等主要的對象類型屬性[4-6]。
P-CUBE數(shù)據(jù)模型(參見圖5):
◆ 組織organization
◆ 集合collection
◆ 項目item
◆ 文檔file
P-CUBE的模式設計為圖6和7兩種:論文+DOI模式和論文+數(shù)據(jù)。
P-CUBE的應用模式設想如圖8所示。
目前,KISTI的P-CUBE研發(fā)隊伍正基于如上的架構體系、標準規(guī)范及應用設想,對P-CUBE進行開放前的全面測試,并完善技術文檔,以利于其全球化應用。預計秋季完成。
圖4 P-CUBE應用的本體
圖5 P-CUBE對象關系
P-CUBE全部模塊采用國際標準技術規(guī)范,是通用的科學數(shù)據(jù)管理平臺,可在任何國家和任何領域應用。通過在不同領域、不同國家的安裝試用,可以實現(xiàn)全球化的科學數(shù)據(jù)管理與共享服務,作為人類福祉,被寄予厚望。
圖6 論文+DOI模式
圖7 論文+數(shù)據(jù)模式
圖8 P-CUBE的應用模式
[1] KIM S. What is P-CUBE? [OL]. [2013-06-16]. http://or2013.net/sites/or2013.net/files/What%20is%20P-CUBE.pdf.
[2] KIM S. Research Data Platform and Development of DOI System [OL]. [2013-05-30].
[3] KIM S. P-CUBE: Research Data Platform [C]//中日韓合作會議(2013.5.30)資料.
[4] Fedora Commons官網[OL]. [2013-06-16]. http://www.fedora-commons.org/.
[5] DataCite官網[OL]. [2013-06-16]. http://www.datacite.org/.
[6] Dublin Core官網[OL]. [2013-06-16]. http://dublincore.org/.
P-CUBE:Open Platform for Convergence and Management Scientific Data
Liu Jingbo / Hebei Library, Shijiazhuang, 050011
Li Ying / Institute of Scientific and Technical Information of China, Beijing, 100038
Integration and management of scientific data is national strategy of information resources. Now, there are no long-term and effective means to handle it.Korea Institute of Science and Technology Information (KISTI) is in the top in Asia. P-CUBE, a platform for convergence research and unification of Big E-resources developed newly by KISTI, is a good solution. This article describes its concept definition, architecture, and technical systems and applications. At last, the conclusion is given.
KISTI, P-CUBE, Scientific data, Management platform
2013-06-22)
10.3772/j.issn.1673—2286.2013.08.008
劉靜波,碩士,體育方法學專業(yè)。研究方向:教育學,圖書信息管理,數(shù)字資源的構建等。E-mail: ryuseiha@sina.com李穎,信息系統(tǒng)專業(yè)博士。研究方向:語義知識組織,基于主題的知識組織技術的應用等。E-mail: liying@istic.ac.cn