楊 京 王效岳 白如江(山東理工大學科技信息研究所 山東淄博 255049)
大數(shù)據(jù)背景下科學數(shù)據(jù)互操作實踐進展研究
楊京王效岳白如江
(山東理工大學科技信息研究所山東淄博255049)
摘要:
文章在梳理科學數(shù)據(jù)互操作的基本概念和最新研究進展的基礎上,重點介紹了歐盟科學數(shù)據(jù)基礎設施建設項目GRDI2020、美國安全數(shù)據(jù)研究組織IJIS以及醫(yī)學數(shù)據(jù)研究所West Health三個不同性質的國際機構對科學數(shù)據(jù)互操作的實踐研究狀況,進而指出目前科學數(shù)據(jù)互操作實踐研究中面臨的政策落實困難、難以制定共同的標準協(xié)議、缺乏定義互操作的共同框架、數(shù)據(jù)質量低等問題。關鍵詞:
大數(shù)據(jù);科學數(shù)據(jù);互操作;GRDI2020;IJIS;West Health大數(shù)據(jù)時代的計算機和數(shù)字設備產生并積累了海量的科學數(shù)據(jù),科學研究從獨立、小型的學術行會形態(tài)轉移到大規(guī)模、更加互聯(lián)和開明的科學家群體中??茖W研究范式相應發(fā)生了根本性轉變,進入到基于數(shù)據(jù)密集型計算的“第四范式”。這一范式的特點是科學研究建立在掌握盡可能多的科學數(shù)據(jù)基礎之上。因此,迫切需要將科學數(shù)據(jù)納入正式的學術交流過程,使之成為一種跟文獻一樣可以公開獲取的資源。正如吉姆格雷描述的科學研究第四范式愿景:“能夠實現(xiàn)所有的科學數(shù)據(jù)和文獻的統(tǒng)一,創(chuàng)建數(shù)據(jù)文獻交互操作的世界,更好的實現(xiàn)學術交流?!?/p>
科學數(shù)據(jù)的互操作正是實現(xiàn)上述愿景的一個先決性條件,它幫助實現(xiàn)跨學科、跨社區(qū)的學術信息交流。CODATA中國委員會將科學數(shù)據(jù)的互操作列為大數(shù)據(jù)時代支撐科學研究的共性技術之一。因此,實現(xiàn)科學數(shù)據(jù)的互操作,構建基于科學數(shù)據(jù)的第四范式對學術信息交流和創(chuàng)新具有深遠的意義。
2.1科學數(shù)據(jù)互操作概念
大數(shù)據(jù)時代越來越需要跨學科進行科學研究,比如地理觀測領域依賴于多學科的科學數(shù)據(jù)分析,包括水文學、地質學、農學、地理學、生物學、GIS等。但是由于不同學科的系統(tǒng)和軟件平臺不同,產生的科學數(shù)據(jù)在格式、結構、語義關聯(lián)、準確度等方面都存在差異。比如水文學計量長度的單位是米,數(shù)據(jù)格式是MIF,而地質學用的是千米,數(shù)據(jù)格式是GML。因此需要對科學數(shù)據(jù)實行必要的轉換,實現(xiàn)就這一過程是科學數(shù)據(jù)互操作。
科學數(shù)據(jù)互操作作為整個互操作問題的一方面,目前還沒有一個統(tǒng)一的定義,許多學者立足各自的視角對其提出了不同的觀點。例如Scott A.Renner教授將科學數(shù)據(jù)互操作定義為跨越不同組織機構和系統(tǒng)的界限以一種統(tǒng)一、有效的方式正確闡釋和理解科學數(shù)據(jù)的能力;Maurice教授認為科學數(shù)據(jù)互操作是為有效的信息交流而進行的數(shù)據(jù)管理活動,包括科學數(shù)據(jù)的清洗、耦合、融合、遷移以及信息提取等;Marijn Janssen教授認為科學數(shù)據(jù)互操作是兩個或更多的數(shù)據(jù)集相互連接、結合、處理的能力;Nancy Ide教授等人把科學數(shù)據(jù)互操作分為語法互操作和語義互操作兩方面。其中,語法互操作是指系統(tǒng)依賴于特定的協(xié)議進行相同格式的結構化數(shù)據(jù)交換,通常是通過XML格式和Web服務技術;語義互操作確保信息以相同的方式進行解釋,這要求對不同本體的共同理解。
根據(jù)以上學者對科學數(shù)據(jù)互操作的不同定義,本文認為科學數(shù)據(jù)互操作強調把不同格式和結構的數(shù)據(jù)集成在一起操作,可以理解為兩個或更多的學科系統(tǒng)之間交換彼此的數(shù)據(jù)集信息并且使用所交換信息的能力。
2.2科學數(shù)據(jù)互操作最新研究進展
大數(shù)據(jù)時代科學研究范式的變革要求科學數(shù)據(jù)是開放和互操作的,它的實現(xiàn)會極大推動科學研究的步伐。因此,學者們對其研究表現(xiàn)出極大的熱情。會議方面,“種質資源數(shù)據(jù)互操作國際電子商務大會”(2013年12月)與“第八屆加拿大公共安全科學數(shù)據(jù)互操作研討會”(2014年11日)相繼召開,科學家們共同探討了各自領域不同數(shù)據(jù)源和資源的當前互操作狀態(tài)以及面對的問題;2014年4月“語義互操作大會”在雅典召開,旨在促進語義互操作技術的發(fā)展。
理論研究方面,美國SAFECOM國土安全項目以及R.Rezaei教授分別提出了用來定義和衡量科學數(shù)據(jù)互操作體系成熟的五個階段。實踐探索方面,張曉林教授、JF Ethier教授以及MA Dhuieb教授等針對不同的應用場景構建了相應的科學數(shù)據(jù)互操作規(guī)范框架;何克清教授、王芳教授等對科學數(shù)據(jù)互操作標準協(xié)議的應用進行了深入研究。社會應用層面,愛爾蘭Edward Curry教授以美國Marijn Janssen教授等試圖通過關聯(lián)數(shù)據(jù)和數(shù)據(jù)組合的方法促進科學數(shù)據(jù)的互操作;日本Majkic Z教授、SB Datta教授等通過構建新型的內涵數(shù)據(jù)庫(Intensional RDB)來實現(xiàn)大數(shù)據(jù)的互操作。
大量國際組織、科研機構和政府部門等同樣對科學數(shù)據(jù)互操作的研究表現(xiàn)出極大的熱情。因此像歐盟GRDI2020科學數(shù)據(jù)基礎設施建設項目、全球空間數(shù)據(jù)基礎建設GSDI協(xié)會、美國安全數(shù)據(jù)研究組織IJIS、科學和教育組織OGCII、醫(yī)學數(shù)據(jù)研究機構West Health、Kahua公司等各行各業(yè)均投入巨額經費致力于科學數(shù)據(jù)互操作的實踐研究。歐盟GRDI2020項目、美國IJIS組織和醫(yī)學研究所West Health是國際上三個比較知名的科學數(shù)據(jù)設施建設機構,面對海量且格式多樣的科學數(shù)據(jù),其投入大量資金與人力致力于實現(xiàn)日益增長的科學數(shù)據(jù)洪流之間的互操作,并提出了許多卓有成效的科學數(shù)據(jù)互操作實踐方案,對于國際機構科學數(shù)據(jù)互操作的實踐研究具有較高的代表性。
3.1歐盟GRDI2020項目
3.1.1項目簡介
歐盟GRDI2020(Global Research Data Infrastructures)項目是由歐盟第七框架資助的構建科學數(shù)據(jù)基礎設施項目,該項目旨在2020年實現(xiàn)全球科學數(shù)據(jù)基礎設施建設的戰(zhàn)略愿景。2011年1月,GRDI2020項目發(fā)布了《全球科學數(shù)據(jù)基礎設施:重大數(shù)據(jù)挑戰(zhàn)》報告。該報告提出了構建全球科學數(shù)據(jù)基礎設施面臨的主要挑戰(zhàn)和必須解決的問題,并指出為了探索利用海量數(shù)據(jù),必須開發(fā)新型信息化基礎設施,構建管理數(shù)字化、聯(lián)網的科學數(shù)據(jù)環(huán)境。
3.1.2研究進展和戰(zhàn)略目標
針對科學數(shù)據(jù)互操作,歐盟GRDI2020項目指出科學數(shù)據(jù)互操作是影響科研合作和科學數(shù)據(jù)共享的根本性問題,也是科學數(shù)據(jù)基礎設施建設中面臨的主要挑戰(zhàn)之一。該項目旨在通過 “共享和共同參與”的戰(zhàn)略來實現(xiàn)科學數(shù)據(jù)的互操作,主要包含:
(1)構建共享和綜合的科學數(shù)據(jù)互操作框架。此框架是一個綜合的模型,它對科學數(shù)據(jù)互操作的所有方面給出統(tǒng)一的定義,涵蓋從技術層面到組織層面,以及現(xiàn)存的和即將產生的科學數(shù)據(jù)互操作方法。這樣科研機構就能通過這個共享的模型形象具體地對數(shù)據(jù)互操作問題和解決方案進行比較,找到最適合自己的方法技術。該框架應該由現(xiàn)存的方案擴展而來,比如EIF(European Interoperability Framework)。
(2)制定科學數(shù)據(jù)互操作的共同標準。歐盟GRDI2020項目指出為機構制定互操作共同標準是實現(xiàn)科學數(shù)據(jù)互操作最有效和最理想的方案。針對不同機構的利益、文化及設備等方面的差異性,科研機構可以自發(fā)地構建小規(guī)模的“事實上的標準”(De facto standards)。小規(guī)模群體發(fā)展成熟的技術方案是針對特定問題的、及時、合理的,并且是在群體的共同實踐中達成一致的。這比在大規(guī)模群體中尋找適合自己的技術方案要更加高效。
(3)科學數(shù)據(jù)附有詳細的溯源信息。這些信息包括科學數(shù)據(jù)開放的標準、數(shù)據(jù)格式、語義、數(shù)據(jù)進行互操作方式等。它為科研人員提供關于科學數(shù)據(jù)不同的見解和意見,方便科研人員發(fā)現(xiàn)和再利用科學數(shù)據(jù)。但溯源信息不是一成不變的,隨著科學數(shù)據(jù)應用學科和機構的增加,要始終保證科學數(shù)據(jù)的來源、隱私、質量等隨需要而不斷改變。
(4)創(chuàng)建關于科學數(shù)據(jù)互操作的基礎設施。此基礎設施作為全球科學數(shù)據(jù)基礎設施建設的一部分為各機構提供數(shù)據(jù)互操作服務。此基礎設施包含數(shù)據(jù)互操作的各種技術工具和其對應的優(yōu)缺點?;A設施包含的數(shù)據(jù)互操作工具和技術越多,對數(shù)據(jù)共享和再利用的促進作用就越大。但是預想的基礎設施只包含綜合的工具和技術,要針對特定場景的互操作及特定數(shù)據(jù)源的需求創(chuàng)建起來非常困難。
3.2美國IJIS組織
3.2.1組織簡介
IJIS組織是于2001年成立的一個聯(lián)合政府部門和各私營企業(yè)的非盈利性組織,它致力于加強國家信息安全,提升各級司法、公共安全和國土安全部門的信息共享和保護機制。IJIS指出,公共安全數(shù)據(jù)的共享和互操作至關重要,只有及時、準確地理解海量和實時的安全數(shù)據(jù)才能有效預防犯罪的發(fā)生。因此,IJIS組織將公共安全科學數(shù)據(jù)互操作作為其重點項目之一,并專門設立PSDI(Public Safety Data Interoperability)委員會負責公共安全科學數(shù)據(jù)互操作的研究工作。
3.2.2研究進展和戰(zhàn)略目標
PSDI各安全部門已經充分認識到科學數(shù)據(jù)互操作的重要性,認為未來幾年科學數(shù)據(jù)互操作將徹底改變公共安全通信中心的作用。PSDI指出公共安全科學數(shù)據(jù)互操作是指安全部門能夠使用定義明確的并且被高度重復使用的操作流程來交換不同格式的數(shù)字信息。實現(xiàn)科學數(shù)據(jù)互操作的關鍵在于為各安全部門制定一個共同的標準協(xié)議,具體如下:
(1)PSDI將公共安全科學數(shù)據(jù)互操作形式分為結構化科學數(shù)據(jù)互操作和非結構化科學數(shù)據(jù)互操作兩種。結構化科學數(shù)據(jù)互操作是指通信中心與其它相關部門如警察、消防、醫(yī)院等之間的數(shù)據(jù)交換;非結構化的科學數(shù)據(jù)互操作是指通信中心與廣大市民、私營部門、政治領導等之間的數(shù)據(jù)交換,它涉及各種普遍的數(shù)據(jù)格式如圖像、視頻、音頻、文字等之間的交換。
(2)PSDI要求科學數(shù)據(jù)互操作必須為原生數(shù)據(jù)生產方制定一個共同的標準協(xié)議,協(xié)議規(guī)定以下幾點關鍵問題:對于結構化科學數(shù)據(jù)的互操作,應該有一本“數(shù)據(jù)字典”來制定統(tǒng)一的詞匯和語法,這樣就能統(tǒng)一規(guī)定進行互操作的數(shù)據(jù)格式;對于非結構化科學數(shù)據(jù)互操作,生產方應該為圖片、音頻、視頻等格式的數(shù)據(jù)設定一個常用的文件格式;對于所有類型的科學數(shù)據(jù)互操作,必須規(guī)定明確的操作流程,使其按照同樣的操作流程完成。
(3)IJIS組織使用了NIME作為政府和企業(yè)的科學數(shù)據(jù)互操作標準協(xié)議。NIME目前已發(fā)展到3.0版本,它為所有安全部門提供共享數(shù)據(jù)的互操作標準。這些標準在這些部門的具體實踐中發(fā)展而來,貫穿科學數(shù)據(jù)互操作的整個生命周期。首先,它作為“數(shù)據(jù)字典”,里面規(guī)定了關于科學數(shù)據(jù)已經在各部門間達成一致的術語、定義、關系、格式等,比如在數(shù)據(jù)格式上全部使用XSD和EXCEL格式。其次,NIME提供關于科學數(shù)據(jù)互操作結構化的方法、技術工具以及操作流程等。NIME保證了安全部門人員能夠準確、及時、完全的獲取關鍵信息,加速了信息決策。
3.3West Health醫(yī)學研究所
3.3.1研究所簡介
West Health是位于美國華盛頓的一個獨立的非盈利性醫(yī)學研究機構。West Health與其它研究機構共同合作,探討和研究如何讓獨立系統(tǒng)的重要醫(yī)學科學數(shù)據(jù)實現(xiàn)互操作,以開拓更前沿、精湛的醫(yī)療技術、政策和設施,使人們能夠以低廉的價格享受到高品質的醫(yī)療服務。
3.3.2研究進展和戰(zhàn)略目標
2013年3月,West Health經過調查指出實現(xiàn)醫(yī)療科學數(shù)據(jù)的互操作能夠在醫(yī)療系統(tǒng)方面每年至少節(jié)省300億美元。但是現(xiàn)在由于缺乏科學數(shù)據(jù)互操作,科學數(shù)據(jù)存在于獨立的系統(tǒng)中無法互通,醫(yī)療設備不能共同操作,醫(yī)療人員在技術上花費的精力比在病人身上多,嚴重束縛了治療決策。為了解決上述問題,West Health專門成立了 “醫(yī)療互操作中心”加大對醫(yī)學科學數(shù)據(jù)互操作的研究。
West Health指出實現(xiàn)科學數(shù)據(jù)互操作需要所有相關利益者參與進來、共同合作。所有醫(yī)療機構以及協(xié)議的制定機構應該遵循以下六個關鍵步驟來實現(xiàn):
(1)認識到缺乏科學數(shù)據(jù)互操作是一個危機,盡快做出改變。所有相關利益者必須充分認識到科學數(shù)據(jù)互操作在醫(yī)療安全、效率和資金花費等方面的重要性,集體參與進來并迅速做出以下改變:協(xié)議制定機構召集所有相關利益者為科學數(shù)據(jù)互操作制定共同標準協(xié)議。所有醫(yī)療機構停止繼續(xù)使用專有系統(tǒng);不再購買不能連接的系統(tǒng)和一次性訪問接口;開始基于開放標準的互操作協(xié)議進行采購。
(2)正確認識科學數(shù)據(jù)互操作問題。醫(yī)療設備每天都在產生可以用來提高醫(yī)療服務的海量科學數(shù)據(jù),但是設備之間相互獨立,不能連接和共享數(shù)據(jù)。我們需要一種可靠的方式實現(xiàn)跨設備、跨醫(yī)療系統(tǒng)、跨地區(qū)的科學數(shù)據(jù)共享和互操作。因此,要為設備供應商設置一個可預見的技術路線圖,強調科學數(shù)據(jù)共享和互操作的中心作用;各機構開始共享科學數(shù)據(jù)來確??茖W數(shù)據(jù)互操作協(xié)議的有效執(zhí)行。
(3)加快對明確的可持續(xù)數(shù)據(jù)互操作標準協(xié)議的采用。協(xié)議制定機構要發(fā)展明確的、能夠解決互操作問題的標準,同時保持標準和技術方法的現(xiàn)代化,不要停留在舊技術階段以免阻礙了標準的創(chuàng)新。各相關利益者參與到標準的制定中去,確保標準能夠滿足自己的需求。
(4)確??茖W數(shù)據(jù)的有效性、隱私性和安全性。各醫(yī)療機構用一種系統(tǒng)工程方法來保證自身醫(yī)療系統(tǒng)數(shù)據(jù)的有效性、隱私性和安全性。協(xié)議制定機構在制定標準協(xié)議時同樣要充分保證機構數(shù)據(jù)的有效性、隱私性和安全性。
(5)為醫(yī)院、衛(wèi)生系統(tǒng)和醫(yī)務人員減少技術復雜性。目前醫(yī)院在設備集成上面對太多的障礙和復雜性,導致醫(yī)療人員不得不在技術上花費比病人身上更多的時間和精力。因此,醫(yī)療機構要杜絕使用為醫(yī)護人員增加負擔或復雜流程的技術。協(xié)議制定機構創(chuàng)建的標準要保證機構以統(tǒng)一的方式來鏈接和訪問數(shù)據(jù)。開發(fā)更簡單、更容易實現(xiàn)、更方便使用和更現(xiàn)代化的標準。
(6)根據(jù)互操作標準協(xié)議開發(fā)新的技術方法使用數(shù)據(jù)流。醫(yī)療設備時刻在產生大量數(shù)據(jù)流,需要把原始科學數(shù)據(jù)轉化為有用的信息。先進的數(shù)據(jù)分析工具能對數(shù)據(jù)流進行更好的挖掘。
通過以上三大國際機構針對各自狀況給出了具體的科學數(shù)據(jù)互操作實踐方案(見表1)。
可以看出,科學數(shù)據(jù)互操作包含多方面的任務,需要多方的共同努力。
首先,各相關利益方應該采取更加開放的心態(tài)與政策,其系統(tǒng)要足夠開放以實現(xiàn)與不同利益方的不同系統(tǒng)在不同層次上的互聯(lián);各方對于其產生的科學數(shù)據(jù)應該附有詳細的溯源信息,以幫助數(shù)據(jù)利用者對科學數(shù)據(jù)質量和語義的評估。
其次,制定標準協(xié)議仍是大數(shù)據(jù)時代解決科學數(shù)據(jù)互操作問題的重點和關鍵。對于標準協(xié)議的制定機構而言,應充分調查和比較相關利益方選用的元數(shù)據(jù)方案、技術平臺、協(xié)議規(guī)范等異同點,并根據(jù)多方主體對科學數(shù)據(jù)互操作的需求設計針對不同應用場景的、簡單易實現(xiàn)的互操作方案,避免反復定義標準協(xié)議導致互操作更加復雜和混亂。
表1 國際機構科學數(shù)據(jù)互操作實踐方案
再次,開發(fā)與使用先進的數(shù)據(jù)處理技術與工具將有效促進科學數(shù)據(jù)互操作的實現(xiàn)。大數(shù)據(jù)時代,僅靠過去單一的技術與工具已不能勝任海量數(shù)據(jù)的處理,我們需要更加善于開發(fā)相關的技術和工具,以支持從數(shù)據(jù)采集、清洗、管理、分析等整個數(shù)據(jù)處理周期。而這些工具與技術的使用,必定為科學數(shù)據(jù)互操作的實現(xiàn)提供強大的幫助和支持。
4.1科學數(shù)據(jù)開放政策落實困難
科學數(shù)據(jù)的開放與互操作是相輔相成的,科學數(shù)據(jù)開放是數(shù)據(jù)進行互操作的前提,數(shù)據(jù)互操作對科學研究的巨大促進作用促使各機構將科學數(shù)據(jù)開放。盡管有很多關于數(shù)據(jù)開放和數(shù)據(jù)共享的政策,但落實情況并不盡如人意。據(jù)調查,目前僅有25%的科學數(shù)據(jù)實現(xiàn)了共享,并且科研機構對待科學數(shù)據(jù)跨學科開放的態(tài)度一直在變化。
中國科學院計算機網絡信息中心侯艷飛工程師指出,科研激勵機制,知識產權問題,國家安全、機密和隱私保護問題,成本問題,個體心理和組織文化問題以及有關技術和基礎設施問題是數(shù)據(jù)科學時代制約科學數(shù)據(jù)開放政策落實的主要因素。
4.2難以制定科學數(shù)據(jù)互操作共同標準協(xié)議
科學實驗過程中,對科學數(shù)據(jù)的收集、處理、管理和歸檔等往往由不同的人按照各自的目的使用多種系統(tǒng)完成。系統(tǒng)和方法的多樣性使得科學數(shù)據(jù)的格式、結構、語義關聯(lián)、規(guī)模等方面千差萬別。因此,必須制定標準協(xié)議對數(shù)據(jù)格式、通信協(xié)議、軟件接口以及互操作的方法和技術工具等一系列要素進行結構化的統(tǒng)一。
但是由于不同機構的利益、文化、設備等眾多方面的差異以及資金等問題,共同標準協(xié)議很難達成一致,并且其服務的范圍越廣,制定起來就越復雜和困難。各研究機構一致認為缺乏基于開放標準的共同協(xié)議是制約科學數(shù)據(jù)互操作實現(xiàn)的最大障礙。
4.3缺乏定義科學數(shù)據(jù)互操作的共同框架
目前各學科和機構之間沒有對科學數(shù)據(jù)互操作的各方面形成明確的定義和統(tǒng)一的結構體系。歐盟GRDI項目指出,缺乏定義科學數(shù)據(jù)互操作的共同框架看似微不足道,其實是阻礙科學數(shù)據(jù)互操作發(fā)展的一個根本問題,它導致了科學數(shù)據(jù)互操作體系不能協(xié)同地朝著共同的戰(zhàn)略和方法發(fā)展。
科學研究中會不可避免地進行科學數(shù)據(jù)互操作,如果有定義科學數(shù)據(jù)互操作方法和技術的框架,科研機構就能尋找到其它機構已經發(fā)展成熟的技術方法來解決自己的問題,避免了這些發(fā)展成熟的技術方法只局限在某一學科或機構。
4.4科學數(shù)據(jù)質量低影響互操作的有效性
大數(shù)據(jù)時代的科學數(shù)據(jù)產生速度、規(guī)模和復雜度的增加更容易產生各種類型的誤差和錯誤??茖W數(shù)據(jù)質量的多樣性,包括不正確、不完整、不精確、不相關、不及時等對數(shù)據(jù)的有效性和實驗結果會產生很大的影響。當數(shù)據(jù)質量低時,即使是相同結構的數(shù)據(jù)庫進行科學數(shù)據(jù)互操作時也會出現(xiàn)問題。
中國科學院計算機網絡信息中心黎建輝主任指出,目前數(shù)據(jù)質量理論和技術的研究在識別數(shù)據(jù)錯誤的理論和模型、定位和自動發(fā)現(xiàn)數(shù)據(jù)錯誤的技術和方法以及高修復錯誤數(shù)據(jù)的技術等各方面都面臨著挑戰(zhàn)。半結構化和非結構化數(shù)據(jù)的質量、統(tǒng)一的數(shù)據(jù)質量邏輯框架、分布式數(shù)據(jù)清洗等更是其中突出的挑戰(zhàn)性問題。
大數(shù)據(jù)時代的科學研究范式發(fā)生根本性變革,實現(xiàn)科學數(shù)據(jù)的共享和互操作,構建基于科學數(shù)據(jù)的、開放協(xié)同的科學研究新范式能夠極大推動學術信息交流,加速科學研究發(fā)現(xiàn)與創(chuàng)新的步伐。
本文詳細介紹了歐盟科學數(shù)據(jù)基礎設施建設項目GRDI2020、美國安全數(shù)據(jù)研究組織IJIS以及醫(yī)學數(shù)據(jù)研究所West Health三個具有代表性的國際機構對科學數(shù)據(jù)互操作的實踐研究狀況,發(fā)現(xiàn)科學數(shù)據(jù)互操作的實現(xiàn)需要多方的共同努力,制定基于開放標準的共同協(xié)議仍是大數(shù)據(jù)時代實現(xiàn)科學數(shù)據(jù)互操作的關鍵,開發(fā)與使用先進的數(shù)據(jù)處理技術與工具將有效促進科學數(shù)據(jù)互操作的實現(xiàn)。最后指出了目前科學數(shù)據(jù)互操作實踐研究面臨的主要問題,包括科學數(shù)據(jù)開放政策落實困難、難以制定科學數(shù)據(jù)互操作的共同標準協(xié)議、缺乏定義科學數(shù)據(jù)互操作的共同框架、科學數(shù)據(jù)質量低影響互操作的有效性等。
參考文獻:
[1]GRAY J.Jim Gray on e-Science:a transformed scientific method[R].Microsoft Research,2007:1-16.
[2]CODATA中國全國委員會.大數(shù)據(jù)時代的科研活動[M].北京:科學出版社,2014:149,207.
[3]Renner S.A community of interest approach to data interoperability[J].Federal Database Colloquium,2001:1-2.
[4]van Keulen M.Managing uncertainty:The road towards better data interoperability[J].it-Information Technology Methoden und innovative Anwendungen der Informatik und Informationstechnik,2012,54(3):138-146.
[5]Janssen M,Estevez E,Janowski T.Interoperability in Big,Open,and Linked Data--Organizational Maturity,Capabilities,and Data Portfolios[J].Computer,2014,47(10):44-49.
[6]Ide N,Pustejovsky J.What does interoperability mean,anyway?Toward an operational definition of interoperability for language technology[C].Proceedings of the Second International Conference on Global Interoperability for Language Re sources.Hong Kong,China.2010.
[7]種質資源數(shù)據(jù)互操作國際電子商務大會 [EB/OL].[2014-11-20].https://rd-alliance.org/group/agriculture-data-interest-group-igad/post/international-e-conference-germplasm-data.
[8]第八屆加拿大公共安全數(shù)據(jù)互操作研討會[EB/OL].[2014-12-01].http://www.citig.ca/the-eighth-canadian-public-safe ty-interoperability-workshop-2014-11-30.aspx.
[9]語義互操作大會[EB/OL].[2014-12-01].https://rd-alliance.org/semic-2014-semantic-interoperability-conference.html.
[10]Interoperability Continuum[EB/OL].[2014-11-15].http://www.safecomprogram.gov/oec/interoperability_continuum_broch ure_2.pdf.
[11]R.Rezaei et al.Interoperability Evaluation Models:A Systematic Review[J].Computers in Industry,2014,65(1):1-23.
[12]梁娜,張曉林.機構知識庫的互操作需求和互操作規(guī)范框架[J].現(xiàn)代圖書情報技術,2013(9):1-7.
[13]Ethier J F,Dameron O,Curcin V,et al.A unified structural/terminological interoperability framework based on LexEVS: application to TRANSFoRm[J].Journal of the American Medical Informatics Association,2013:amiajnl-2012-001312.
[14]Dhuieb M A,Belkadi F,Laroche F,et al.Interoperability framework for supporting information-based assistance in the factory[C].The IFIP Working Group WG 5.1 11th International Conference on Product Lifecycle Managment,2014.
[15]何克清,王翀.大數(shù)據(jù)表示與服務的語義互操作方法及其標準[J].信息技術與標準化,2013(10):10-13.
[16]王芳,王小麗.基于OAI協(xié)議的數(shù)字檔案館元數(shù)據(jù)互操作問題研究[J].現(xiàn)代圖書情報技術,2007(3):18-24.
[17]Curry E.System of systems information interoperability using a linked dataspace[C].SoSE,2012:101-106.
[18]Majkic Z.Intensional RDB for Big Data Interoperability[J].arXiv preprint arXiv:1403.6089,2014.
[19]Datta S B,Gupta V K.Performance Interoperability between RDBs and OODBs[J].Research Journal of Recent Sciences,2012(1):2502.
[20]歐盟-GRDI2020[DB/OL].[2014-11-20].http://www.grdi2020.eu/.
[21]Pasquale Pagano,Leonardo Candela,Donatella Castelli.Data Interoperability[J].Data Science Journal,2013(6/7):22-22.
[22]De facto standards-Wikipedia[EB/OL].[2014-11-20].https://en.wikipedia.org/wiki/De_facto_standard.
[23]美國IJIS組織[DB/OL].[2014-11-20].http://www.ijis.org/.
[24]Scott Parker,Steve Wisely.Guide to information sharing and data interoperability[R].PSDI,2009:2-3.
[25]NIME[DB/OL].[2014-10-20].http://www.niem.gov.
[26]West Health醫(yī)學研究所[DB/OL].[2014-11-25].http://www.westhealth.org/institute/who-we-are.
[27]Dr.Joseph Smith,Dr.Doug Fridsma.Igniting an interoperable healthcare system[R].West Health,2014:6-7.
[28]Data Policy-歐盟[EB/OL].[2014-11-25].https://www.jstage.jst.go.jp/article/dsj/12/0/12_GRDI-008/_pdf.
中圖分類號:
G203文獻標識碼:
ADOI:
10.11968/tsygb.1003-6938.2015069作者簡介:
楊京(1990-),男,山東理工大學科技信息研究所碩士研究生;王效岳(1961-),男,山東理工大學科技信息研究所教授;白如江(1979-),男,山東理工大學科技信息研究所副研究館員。收稿日期:
2015-03-26;責任編輯:劉全根A Review on Data Interoperability in Big Data Time
Abstract
Based on the basic concepts and latest research progress of scientific data interoperability,three different international organizations of scientific data interoperability's practice conditions are introduced,that is the research data infrastructure project GRDI2020、American safety data research organization IJIS and the medical research institution West Health.The main problems of scientific data interoperability are pointed out.Key words
big data;scientific;data interoperability;GRDI2020;IJIS;West Health