樂 鵬,郭 霞,張 晨 曉,張 明 達
(武漢大學(xué)測繪遙感信息工程國家重點實驗室,湖北 武漢 430079)
隨著傳感器平臺的發(fā)展,人們及時快速獲取大量地理空間數(shù)據(jù)的能力不斷提高。地球上空現(xiàn)在有150多個地球觀測衛(wèi)星,這些衛(wèi)星和無數(shù)的空基、陸基、?;鶄鞲衅饔^測系統(tǒng)每天產(chǎn)生海量的地理空間數(shù)據(jù)[1]。數(shù)據(jù)系統(tǒng)也在不斷發(fā)展用以支撐科學(xué)數(shù)據(jù)處理。
傳統(tǒng)的地學(xué)數(shù)據(jù)產(chǎn)品通常由數(shù)據(jù)中心按照預(yù)定義的處理流程或工作流生成,在數(shù)據(jù)產(chǎn)品提供給用戶使用之前,處理算法、工作流、數(shù)據(jù)產(chǎn)品等一般在內(nèi)部通過嚴格的有效性檢測,數(shù)據(jù)的可信度較高。隨著新一代信息基礎(chǔ)設(shè)施技術(shù)的發(fā)展,地球科學(xué)數(shù)據(jù)和數(shù)據(jù)處理資源在分布式環(huán)境下得以充分共享,地理信息網(wǎng)絡(luò)服務(wù)在地理空間領(lǐng)域得到了廣泛應(yīng)用,地學(xué)數(shù)據(jù)和服務(wù)從網(wǎng)絡(luò)中發(fā)現(xiàn)和動態(tài)聚合,由于空間數(shù)據(jù)分發(fā)和處理的廣泛性、頻繁性和不可預(yù)知性,空間數(shù)據(jù)溯源信息在空間數(shù)據(jù)產(chǎn)品追蹤溯源、更新、可靠性評估中凸現(xiàn)其重要性,在國際上已經(jīng)成為地球空間信息科學(xué)網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)的基礎(chǔ)問題。
數(shù)據(jù)溯源信息記錄了數(shù)據(jù)產(chǎn)品的起源信息,為用戶進行數(shù)據(jù)產(chǎn)品可用性和可靠性評估提供了重要參考信息。在科學(xué)研究領(lǐng)域數(shù)據(jù)溯源顯得尤為重要,科學(xué)家需要根據(jù)溯源信息來判斷數(shù)據(jù)的可靠性進而決定數(shù)據(jù)可否用于進一步的科學(xué)分析,數(shù)據(jù)溯源也可輔助用于解決信息基礎(chǔ)設(shè)施中的相關(guān)問題,包括提高數(shù)據(jù)共享和數(shù)據(jù)處理過程的透明度,保證數(shù)據(jù)產(chǎn)品的可信度,記錄數(shù)據(jù)處理服務(wù)提供者的信譽度,提高科學(xué)數(shù)據(jù)產(chǎn)品的可再現(xiàn)性等。本文主要討論地理空間領(lǐng)域的數(shù)據(jù)溯源,闡述空間數(shù)據(jù)溯源的基本概念,對空間數(shù)據(jù)溯源的研究內(nèi)容、研究領(lǐng)域和地學(xué)領(lǐng)域數(shù)據(jù)溯源研究類別進行了詳細描述,從模型、層次、粒度和服務(wù)等方面探討了空間數(shù)據(jù)溯源的關(guān)鍵研究問題。
目前,數(shù)據(jù)溯源(data provenance)因應(yīng)用領(lǐng)域不同而具有不同的定義。在數(shù)據(jù)庫領(lǐng)域,數(shù)據(jù)溯源是指追溯數(shù)據(jù)及其在數(shù)據(jù)庫間運動的起源[2];在科學(xué)工作流領(lǐng)域,數(shù)據(jù)溯源是追溯工作流中過程步驟、輸入輸出數(shù)據(jù)等信息的過程[3];在網(wǎng)絡(luò)環(huán)境下,數(shù)據(jù)溯源是追溯產(chǎn)生網(wǎng)絡(luò)資源的實體、活動及機構(gòu)信息[4,5]。
與空間數(shù)據(jù)溯源相關(guān)的研究早期可以理解為數(shù)據(jù)志(data lineage)。20世紀80年代末90年代初,Lanter在GIS中針對數(shù)據(jù)志圍繞地圖圖層的衍生過程開展了相關(guān)研究[6]。在《地理信息元數(shù)據(jù)》中國國家標準中,數(shù)據(jù)志記錄了數(shù)據(jù)的歷史沿革信息,包括獲取或生產(chǎn)數(shù)據(jù)使用的原始資料說明、數(shù)據(jù)處理中的參數(shù)、步驟及負責(zé)單位的相關(guān)信息等。萬維網(wǎng)聯(lián)盟將數(shù)據(jù)溯源定義為記錄數(shù)據(jù)生產(chǎn)、數(shù)據(jù)變化和數(shù)據(jù)傳遞過程中所涉及的個人、責(zé)任機構(gòu)、數(shù)據(jù)實體以及相關(guān)活動等信息,是保證數(shù)據(jù)獲得可靠性、建立信任和實現(xiàn)責(zé)任制的重要基礎(chǔ)。維基百科中將數(shù)據(jù)溯源定義為科學(xué)工作流過程記錄的發(fā)生在數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析及數(shù)據(jù)解釋等過程中的歷史數(shù)據(jù)。國內(nèi)早期工作也將空間數(shù)據(jù)溯源稱為空間數(shù)據(jù)起源[7]。
本文將空間數(shù)據(jù)溯源定義為空間數(shù)據(jù)產(chǎn)品的歷史衍生信息。衍生信息包含的范圍較廣,包括工作流或網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)生產(chǎn)過程中使用的方法步驟、工作環(huán)境、數(shù)據(jù)來源、數(shù)據(jù)生產(chǎn)者等信息,甚至可包含數(shù)據(jù)生產(chǎn)者的制圖行為、包含位置信息的傳感器資源和用戶自發(fā)地理信息等信息。在這些溯源信息的幫助下數(shù)據(jù)使用者可更為方便地了解數(shù)據(jù)產(chǎn)品具體的生產(chǎn)過程,有效評估數(shù)據(jù)產(chǎn)品的可信度與質(zhì)量。
傳統(tǒng)的數(shù)據(jù)溯源研究多集中在數(shù)據(jù)庫系統(tǒng)領(lǐng)域[2,8,9],隨著近幾年信息基礎(chǔ)設(shè)施的發(fā)展,科學(xué)工作流領(lǐng)域的數(shù)據(jù)溯源研究正在逐漸得到科學(xué)家的關(guān)注[10-13]。在服務(wù)科學(xué)中,《科學(xué)》雜志指出數(shù)據(jù)溯源是服務(wù)產(chǎn)品質(zhì)量控制的重要元素[14];美國國家科學(xué)基金會工作組認為一個健壯穩(wěn)定的數(shù)據(jù)基礎(chǔ)設(shè)施應(yīng)該具備支持數(shù)據(jù)溯源的能力[15]。多個國際會議都以此為主題展開研究討論:數(shù)據(jù)溯源與標注研討會(IPAW)(2002年至今)、數(shù)據(jù)溯源理論和實踐研討會(TaPP)(2009年至今)、數(shù)據(jù)溯源挑戰(zhàn)研討會(2006-2010),語義網(wǎng)與數(shù)據(jù)溯源管理專題討論會(SWPM)(2009年至今)。W3C數(shù)據(jù)溯源工作組于2013年正式發(fā)布了數(shù)據(jù)溯源模型推薦標準[16]。
在地理信息科學(xué)領(lǐng)域,科學(xué)家也開始關(guān)注數(shù)據(jù)溯源技術(shù)與地理科學(xué)數(shù)據(jù)系統(tǒng)的結(jié)合應(yīng)用。美國國家科學(xué)基金會地學(xué)部聯(lián)合信息基礎(chǔ)設(shè)施辦公室啟動大規(guī)模的“地球立方”計劃籌備工作,地學(xué)數(shù)據(jù)溯源是其優(yōu)先考慮的研究方向之一[17]。在地理信息科學(xué)網(wǎng)絡(luò)信息基礎(chǔ)設(shè)施建設(shè)中,空間數(shù)據(jù)溯源是一個關(guān)鍵研究挑戰(zhàn)[18]。國際開放地理信息聯(lián)盟OGC在第九、十階段的網(wǎng)絡(luò)服務(wù)互操作試驗中先后開展數(shù)據(jù)溯源的相關(guān)研究。
(1)溯源建模。在不同應(yīng)用領(lǐng)域,針對不同應(yīng)用需求的數(shù)據(jù)溯源有著不同的建模和表達方法。數(shù)據(jù)溯源表達包括溯源模型建立和實現(xiàn)方法。溯源模型能夠支持在數(shù)據(jù)產(chǎn)品之間的溯源關(guān)系查詢和數(shù)據(jù)處理過程中的溯源信息查詢,代表性的數(shù)據(jù)溯源模型有:W3C PROV Data Model (PROV-DM)[4]、ISO 19115 Lineage Model。
(2)溯源信息捕獲。在數(shù)據(jù)量較小的情況下,使用人工或者自動化方式記錄溯源信息都是可行的。然而在開放網(wǎng)絡(luò)環(huán)境下由于數(shù)據(jù)量較大及數(shù)據(jù)處理操作頻繁且復(fù)雜,使得人工捕獲和記錄溯源信息非常困難,因此如何高效自動地捕獲數(shù)據(jù)溯源信息是數(shù)據(jù)溯源的一個重要研究內(nèi)容。為實現(xiàn)自動捕獲溯源信息,需要在科學(xué)工作流引擎中以及數(shù)據(jù)處理服務(wù)中添加相應(yīng)的溯源信息捕獲功能。
(3)溯源信息存儲。溯源信息通常被看做是元數(shù)據(jù)的一種,并與其他的元數(shù)據(jù)緊密相關(guān)。溯源信息既可以存儲在已有的元數(shù)據(jù)目錄數(shù)據(jù)庫中,也可以存儲在獨立的存儲系統(tǒng)中,專門用于存儲管理溯源信息的系統(tǒng)稱作數(shù)據(jù)溯源倉庫。這兩種存儲方式都應(yīng)該支持溯源信息的分布式存儲,由于溯源信息量很大,所以溯源信息存儲系統(tǒng)的數(shù)據(jù)處理能力以及請求響應(yīng)能力要足夠強大才能滿足開放網(wǎng)絡(luò)環(huán)境下溯源查詢的要求。
(4)溯源信息查詢。溯源信息查詢的設(shè)計應(yīng)該考慮到查詢接口、查詢語言、可查詢和可返回的溯源信息內(nèi)容。查詢接口定義了溯源查詢的協(xié)議和操作方法;查詢語言,比如結(jié)構(gòu)化查詢語言SQL,定義了數(shù)據(jù)類型;溯源信息內(nèi)容取決于溯源模型和溯源信息的表達要求。
(5)溯源信息可視化。溯源信息可視化有助于用戶更加清晰直觀地了解數(shù)據(jù)產(chǎn)品的溯源信息??梢暬缑娴脑O(shè)計應(yīng)該簡潔易懂,用戶通過簡單的操作就可以查找到數(shù)據(jù)產(chǎn)品的溯源信息,溯源信息可視化還有助于用戶更好地了解和評估數(shù)據(jù)產(chǎn)品。例如,孫子恒等開發(fā)了一個用于數(shù)據(jù)溯源查詢可視化的原型系統(tǒng)GeoPWProv,可以實現(xiàn)不同級別的溯源信息導(dǎo)航和溯源信息可視化[19]。
(6)數(shù)據(jù)溯源應(yīng)用。數(shù)據(jù)溯源應(yīng)用包括數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)查詢索引、數(shù)據(jù)產(chǎn)品拷貝和知識產(chǎn)權(quán)保護等[11]。在科學(xué)研究領(lǐng)域,數(shù)據(jù)質(zhì)量評估是數(shù)據(jù)溯源的主要應(yīng)用方向。數(shù)據(jù)溯源信息中的原始數(shù)據(jù)信息和歷史衍生信息有助于用戶評價最終數(shù)據(jù)產(chǎn)品的質(zhì)量;在追溯數(shù)據(jù)產(chǎn)品生產(chǎn)的過程中查找發(fā)現(xiàn)錯誤異常;記錄了數(shù)據(jù)生產(chǎn)過程中詳細生產(chǎn)信息的工作流可以用來拷貝制作新的數(shù)據(jù)產(chǎn)品;包含了數(shù)據(jù)生產(chǎn)者信息的溯源信息可以用來保護數(shù)據(jù)生產(chǎn)者的知識產(chǎn)權(quán)。
(1)數(shù)據(jù)庫。數(shù)據(jù)庫領(lǐng)域的數(shù)據(jù)溯源記錄了數(shù)據(jù)庫中一個視圖或者表的生成過程,包括使用的查詢語句和查詢參數(shù)。通過逆向視圖的生成過程可以查詢到視圖中數(shù)據(jù)的源數(shù)據(jù),進而可以選擇更新視圖或者刪除視圖。逆向視圖或者表的生成過程是數(shù)據(jù)庫領(lǐng)域中數(shù)據(jù)溯源的典型用法[8,9,11]。
(2)命令腳本??茖W(xué)工作中腳本被廣泛用于數(shù)據(jù)處理??茖W(xué)工作流腳本本身可以進行一些簡單的數(shù)據(jù)處理,將多個可執(zhí)行命令和腳本結(jié)合起來可執(zhí)行復(fù)雜的數(shù)據(jù)分析操作。在同一環(huán)境下,擁有數(shù)據(jù)處理功能的腳本的動作可以被腳本自動捕獲。在基于腳本處理的環(huán)境中,F(xiàn)oster提出了Chimera系統(tǒng)結(jié)合分布式數(shù)據(jù)網(wǎng)格技術(shù)進行數(shù)據(jù)溯源應(yīng)用[20];Bowers提出了科學(xué)工作流領(lǐng)域的Kepler系統(tǒng)[21]。
(3)服務(wù)。面向服務(wù)的架構(gòu)允許資源和應(yīng)用的分布式協(xié)同工作來進行數(shù)據(jù)處理和科學(xué)發(fā)現(xiàn)??茖W(xué)工作流引擎能夠?qū)为毜姆?wù)串聯(lián)起來形成服務(wù)鏈執(zhí)行某一處理任務(wù),工作流引擎在執(zhí)行數(shù)據(jù)處理的同時也在捕獲溯源信息,包括服務(wù)鏈上每一個服務(wù)使用的參數(shù)和服務(wù)的提供者等信息。Miles提出了跨領(lǐng)域應(yīng)用的面向服務(wù)架構(gòu)的數(shù)據(jù)溯源方法[22]。
(4)語義網(wǎng)。語義網(wǎng)技術(shù)包括資源描述框架RDF、網(wǎng)絡(luò)本體語言O(shè)WL、SPARQL查詢語言等。語義網(wǎng)技術(shù)的發(fā)展為數(shù)據(jù)共享提供了更加便捷有效的途徑,同時也為數(shù)據(jù)溯源的發(fā)展提供了支撐[23]。語義網(wǎng)環(huán)境下的數(shù)據(jù)關(guān)聯(lián)技術(shù)有助于更有效的信息查詢整合[24],Zhao等提出用本體概念注釋溯源日志[25]。Golbeck提出了溯源本體論,結(jié)合語義網(wǎng)絡(luò)服務(wù)描述實現(xiàn)溯源信息表達查詢[26]。
(1)地理信息系統(tǒng)。數(shù)據(jù)溯源在地學(xué)領(lǐng)域中的應(yīng)用要追溯到20世紀90年代,Lanter最早提出在GIS中引入數(shù)據(jù)溯源的應(yīng)用[6],Veregin等在GIS軟件中進行空間分析的同時記錄溯源信息,用以進行誤差傳播分析[27];樂鵬等提出在地理處理工作流中進行元數(shù)據(jù)追蹤[28],使用元數(shù)據(jù)進行地理數(shù)據(jù)產(chǎn)品的可用性和可靠性評估[29],并開發(fā)了基于數(shù)據(jù)溯源信息的空間信息服務(wù)質(zhì)量評價模型系統(tǒng)[30]。
(2)地球科學(xué)數(shù)據(jù)系統(tǒng)。地球科學(xué)數(shù)據(jù)系統(tǒng)需要長期保存管理大量的科學(xué)數(shù)據(jù),數(shù)據(jù)溯源技術(shù)為更加有效存儲管理這些數(shù)據(jù)提供支持[31],同時提高了數(shù)據(jù)集的可信度和可復(fù)演性[32]。Frew等在基于腳本的遙感數(shù)據(jù)處理工作流中添加溯源模塊,實現(xiàn)遙感數(shù)據(jù)的溯源信息追蹤[33];Tilmes等討論了地球科學(xué)數(shù)據(jù)處理系統(tǒng)中的關(guān)鍵問題[34];Plale探討了地球科學(xué)領(lǐng)域數(shù)據(jù)溯源功能設(shè)計的架構(gòu)問題[35]。
(3)空間信息網(wǎng)絡(luò)服務(wù)。地球科學(xué)領(lǐng)域的傳統(tǒng)數(shù)據(jù)溯源研究多關(guān)注單機環(huán)境下的溯源信息捕獲、表達和應(yīng)用,然而單機環(huán)境下的數(shù)據(jù)溯源應(yīng)用不支持分布式溯源信息查詢共享。分布式環(huán)境下的面向服務(wù)架構(gòu)為數(shù)據(jù)溯源發(fā)展提供了廣闊前景[36]。在面向服務(wù)的分布式環(huán)境,數(shù)據(jù)資源和數(shù)據(jù)處理資源發(fā)展為以服務(wù)的形式提供給用戶進行調(diào)用,由于數(shù)據(jù)和處理資源存儲在分布式數(shù)據(jù)系統(tǒng)中,用戶在分布式環(huán)境下進行科學(xué)數(shù)據(jù)分析處理時不必下載到本機,只需遠程調(diào)用和處理這些數(shù)據(jù)資源即可[37]。狄黎平提出在網(wǎng)絡(luò)服務(wù)工作流環(huán)境中將ISO19115和ISO19115-2溯源信息模型結(jié)合起來進行數(shù)據(jù)溯源建模[38];樂鵬提出使用基于CSW標準的OGC目錄服務(wù)實現(xiàn)溯源信息共享[39],并通過擴展已有的空間目錄服務(wù)注冊模型實現(xiàn)溯源信息注冊與發(fā)現(xiàn)[40]。
(4)對地觀測傳感網(wǎng)。數(shù)據(jù)溯源是傳感網(wǎng)環(huán)境下的重要研究問題[41]。Panti用關(guān)聯(lián)數(shù)據(jù)方法進行傳感網(wǎng)數(shù)據(jù)的溯源建模和查詢[42];Ledile利用溯源信息解決傳感網(wǎng)數(shù)據(jù)存儲中的數(shù)據(jù)命名和數(shù)據(jù)索引問題[43];Park等提出了一種跟蹤傳感網(wǎng)發(fā)布環(huán)境下傳感網(wǎng)數(shù)據(jù)的變化過程的方法[44]。
在地理科學(xué)領(lǐng)域中采用基于標準的溯源信息模型對溯源信息的處理及共享有重要意義。國際標準組織科技委員會為地理信息領(lǐng)域制定了一系列元數(shù)據(jù)標準。ISO 19115:2003定義了地理信息元數(shù)據(jù)標準。ISO 19115-2:2009擴充了ISO 19115:2003,在新標準中添加了圖像和柵格數(shù)據(jù)元數(shù)據(jù)標準,為科學(xué)工作流數(shù)據(jù)溯源制定了專門的元數(shù)據(jù)類別。目前19115-1版本正在討論中,其中Lineage已被從數(shù)據(jù)質(zhì)量元數(shù)據(jù)包中移出,作為MD_Metadata直屬的一個元數(shù)據(jù)包。ISO 19130:2010定義了地理定位圖像傳感器模型標準。ISO19130-2:2012補充添加了合成孔徑雷達、干涉測量合成孔徑雷達、光探測與測量、聲吶等傳感器的元數(shù)據(jù)標準,據(jù)此標準可得到記錄某觀測現(xiàn)象的傳感器信息。ISO的溯源模型(圖2)提供了一些簡單的元素,用于描述地理數(shù)據(jù)生產(chǎn)過程中所涉及的過程步驟、輸入輸出數(shù)據(jù)及控制者等信息。
然而要全面記錄地理科學(xué)數(shù)據(jù)生產(chǎn)以及處理過程中的溯源信息以實現(xiàn)地球科學(xué)數(shù)據(jù)的長久利用,僅有這些標準是不夠的。其他組織通過擴展通用信息領(lǐng)域的溯源模型,實現(xiàn)了以互操作的方式進行地理科學(xué)數(shù)據(jù)產(chǎn)品溯源信息的存儲、表達和共享。IPAW定義了主要用于科學(xué)工作流領(lǐng)域的開放溯源信息模型OPM。W3C組織在總結(jié)了OPM等數(shù)據(jù)溯源模型的基礎(chǔ)上提出PROV-DM溯源模型[4],具有較好的通用性。為了實現(xiàn)在分布式環(huán)境下的溯源信息交換共享,通過建立模型間的映射(圖3),將PROV-DM模型和ISO19115模型相結(jié)合進行數(shù)據(jù)溯源建模,兩種模型的結(jié)合既滿足了地理科學(xué)領(lǐng)域特殊的溯源信息表達需求,又實現(xiàn)了在分布式環(huán)境下的溯源信息共享要求[36]。
在面向服務(wù)的分布式環(huán)境中,地理空間數(shù)據(jù)產(chǎn)品經(jīng)過空間處理服務(wù)生成,此環(huán)境下的數(shù)據(jù)溯源信息層次可以分為3層(圖4):第一層是知識層數(shù)據(jù)溯源信息,由過程模型通過各處理節(jié)點間的控制流和數(shù)據(jù)流及空間信息服務(wù)類型和空間信息數(shù)據(jù)類型等信息抽象描述了數(shù)據(jù)產(chǎn)品的衍生過程;第二層是服務(wù)層數(shù)據(jù)溯源信息,其描述了數(shù)據(jù)產(chǎn)品經(jīng)過哪些服務(wù)處理生成,既包括單個服務(wù)也包括由多個服務(wù)組成的服務(wù)鏈溯源信息;第三層是數(shù)據(jù)層數(shù)據(jù)溯源信息,包含了處理過程中的數(shù)據(jù)溯源信息,這些信息包括地學(xué)數(shù)據(jù)溯源數(shù)據(jù)類型、溯源數(shù)據(jù)類型及處理過程中應(yīng)用的參數(shù)以及綁定值等信息。
知識層數(shù)據(jù)溯源信息記錄了生成地理空間數(shù)據(jù)產(chǎn)品的處理模型信息,利用該層的信息,用戶可查看處理模型的選擇是否合適,如不合適可選擇更換處理模型生成新的數(shù)據(jù)產(chǎn)品。服務(wù)層數(shù)據(jù)溯源信息具體描述了生成數(shù)據(jù)產(chǎn)品的服務(wù)鏈信息,得到服務(wù)類型信息,用戶可結(jié)合服務(wù)性能和處理精度選擇其他替代服務(wù)生成新的數(shù)據(jù)產(chǎn)品。數(shù)據(jù)層數(shù)據(jù)溯源信息有助于用戶分析誤差來源及誤差傳播等。
圖4 空間數(shù)據(jù)溯源的3個層次Fig.4 A three-level view of geospatial data provenance
捕獲數(shù)據(jù)溯源信息時可以根據(jù)粒度的大小分別記錄數(shù)據(jù)溯源信息。空間數(shù)據(jù)溯源的內(nèi)容涉及不同空間數(shù)據(jù)類型、數(shù)據(jù)處理流程、空間處理算法、算法執(zhí)行參數(shù)等,針對不同的空間數(shù)據(jù)類型,需要區(qū)分不同粒度的空間數(shù)據(jù)溯源。針對矢量數(shù)據(jù),涉及地理要素集和要素層次的溯源信息。針對柵格數(shù)據(jù),涉及文件和像素層次的溯源信息。具體而言:1)要素級別溯源,記錄矢量圖像上某一矢量要素的溯源信息。以矢量數(shù)據(jù)融合為例,對于融合產(chǎn)生的新數(shù)據(jù),除了記錄輸入的源地理要素集和目標地理要素集外,往往需要記錄細粒度溯源信息。包括幾何和屬性溯源信息,以查詢?nèi)诤辖Y(jié)果中的地理要素是由哪兩個地理要素通過何種融合處理生成,例如地理要素的幾何數(shù)據(jù)來自哪個地理要素,幾何融合算法參數(shù)(如最大距離)、屬性數(shù)據(jù)來自源數(shù)據(jù)或目標數(shù)據(jù)中的哪個屬性、屬性融合方法參數(shù)(如編碼轉(zhuǎn)換)等。地理要素集可以理解為一個數(shù)據(jù)集,其溯源信息屬于粗粒度,適用于地理要素集內(nèi)的所有地理要素,而要素層次的溯源信息為單個地理要素所特有,屬于細粒度的溯源信息。2)像素級別溯源,記錄柵格影像上一個像元的溯源信息。針對柵格數(shù)據(jù),以影像覆蓋數(shù)據(jù)為例,一個全球的數(shù)字地形高程覆蓋數(shù)據(jù)往往是由多個數(shù)字高程模型(DEM)傳感器數(shù)據(jù)源聯(lián)合生成,這些DEM數(shù)據(jù)源在空間范圍、分辨率上存在不同,因此,在評價全球DEM數(shù)據(jù)某像素點上高程的精度時,用戶需要追溯該點高程數(shù)據(jù)來自哪個數(shù)據(jù)源。在該應(yīng)用中,需要記錄像素級溯源信息。3)柵格影像AOI級別溯源,記錄柵格影像上用戶感興趣區(qū)域的溯源信息。當部分區(qū)域來源一致時,可以建立基于區(qū)域(Area of Interest,AOI)的溯源記錄(圖5)。如果考慮更粗粒度,可以僅記錄基于文件層次的溯源信息。
這些不同粒度的空間數(shù)據(jù)溯源信息,對傳統(tǒng)的空間數(shù)據(jù)模型和GIS軟件提出了挑戰(zhàn),在建立一個支持溯源的GIS時,需要考慮不同的表達策略、捕捉策略、存儲策略和服務(wù)策略?,F(xiàn)有的大多數(shù)數(shù)據(jù)系統(tǒng)并不支持數(shù)據(jù)溯源應(yīng)用,隨著信息基礎(chǔ)設(shè)施在地理空間信息領(lǐng)域的發(fā)展,面向服務(wù)架構(gòu)的數(shù)據(jù)溯源應(yīng)用為空間數(shù)據(jù)溯源在信息基礎(chǔ)設(shè)施中的發(fā)展提供了新的前景。
本文結(jié)合不同粒度的空間數(shù)據(jù)溯源信息,以開放式空間信息服務(wù)為實現(xiàn)環(huán)境,提出適應(yīng)空間信息服務(wù)架構(gòu)的空間數(shù)據(jù)溯源服務(wù)參考框架。一方面同時考慮地理要素集和要素層次的溯源信息共享,另一方面考慮在設(shè)計上實現(xiàn)與已有系統(tǒng)兼容,即與空間信息服務(wù)架構(gòu)的融合。空間數(shù)據(jù)溯源的管理遵循面向服務(wù)思想(圖6),溯源信息在空間數(shù)據(jù)處理服務(wù)以及服務(wù)鏈執(zhí)行過程中被捕獲,用戶可以通過服務(wù)請求數(shù)據(jù)處理結(jié)果,服務(wù)鏈執(zhí)行過程中的溯源信息被發(fā)布到網(wǎng)絡(luò)目錄服務(wù)中,傳統(tǒng)的目錄服務(wù)并不支持溯源信息相關(guān)的服務(wù)。通過擴展網(wǎng)絡(luò)目錄服務(wù)信息注冊模型以兼容標準元數(shù)據(jù)目錄服務(wù)接口為用戶提供空間數(shù)據(jù)溯源服務(wù)。遵循一定標準的客戶端通過元數(shù)據(jù)目錄服務(wù)接口與目錄服務(wù)進行通訊,發(fā)送溯源請求并得到返回結(jié)果。用戶可以發(fā)送不同粒度的數(shù)據(jù)溯源請求來訪問相應(yīng)溯源信息:網(wǎng)絡(luò)目錄服務(wù)提供數(shù)據(jù)集級別的溯源信息服務(wù),網(wǎng)絡(luò)要素服務(wù)則提供要素級別的溯源信息服務(wù)。
本實驗中,網(wǎng)絡(luò)目錄服務(wù)和網(wǎng)絡(luò)要素服務(wù)分別由開 源 軟 件 Omar[45]和 GeoServer[46]實 現(xiàn)。Omar提供了網(wǎng)絡(luò)目錄服務(wù)的接口,它采用PostgreSQL進行數(shù)據(jù)存儲。GeoServer是一個開源GIS服務(wù)器,支持Shapefile格式或PostGIS表格形式的地理要素數(shù)據(jù)的發(fā)布。網(wǎng)絡(luò)處理服務(wù)由空間信息處理服務(wù)平臺GeoPW[47]提供。GeoPW提供了不同空間數(shù)據(jù)類型和格式的空間數(shù)據(jù)在線分析處理服務(wù)??臻g信息處理服務(wù)執(zhí)行的一般流程為:服務(wù)接收輸入數(shù)據(jù)和運行參數(shù),解析之后傳給處理算法,并將算法執(zhí)行結(jié)果重新發(fā)布為網(wǎng)絡(luò)數(shù)據(jù)。不同層次的溯源信息在不同階段進行捕獲。數(shù)據(jù)集的溯源在算法外部捕獲,記錄處理服務(wù)的輸入、輸出、處理過程等信息;要素級別的溯源信息在算法內(nèi)部捕獲,記錄單個要素的溯源信息??臻g數(shù)據(jù)溯源服務(wù)原型系統(tǒng)的實現(xiàn)主要是對GeoPW的空間信息處理引擎進行擴展,對其執(zhí)行日志進行語義標注,或通過服務(wù)代理收集各個空間信息服務(wù)提供的溯源信息。其中數(shù)據(jù)集級別的溯源信息遵循擴展的網(wǎng)絡(luò)目錄服務(wù)信息注冊模型,可將其送往Omar后臺數(shù)據(jù)庫中,用戶向該目錄服務(wù)發(fā)送查詢請求,即可從數(shù)據(jù)庫中查找相應(yīng)信息,將結(jié)果返回給用戶界面。如圖7顯示了數(shù)據(jù)集層次的溯源信息??臻g信息處理服務(wù)的輸入數(shù)據(jù)可來自GeoServer提供的網(wǎng)絡(luò)要素服務(wù),在空間信息處理服務(wù)執(zhí)行過程中,要素級別的溯源信息存放在地理要素數(shù)據(jù)的屬性表中,通過對GeoServer的網(wǎng)絡(luò)要素服務(wù)請求即可獲得要素級別的溯源信息。本實驗利用開源GIS工具集Geo Tools實現(xiàn)了要素級別溯源信息查詢客戶端。如圖8演示了在客戶端對要素溯源進行可視化的界面,用戶可以點擊查詢相應(yīng)要素的溯源信息,如圖上彈出對話框所示。
圖7 祖輩數(shù)據(jù)溯源Fig.7 Ancestor tracing of feature types
本文的空間數(shù)據(jù)溯源服務(wù)原型系統(tǒng)可與已有的空間信息服務(wù)架構(gòu)兼容。在使用目錄服務(wù)存儲和管理地理要素集溯源信息時,對網(wǎng)絡(luò)目錄服務(wù)信息注冊模型進行了針對地理數(shù)據(jù)溯源模型的擴展,從而能夠基于互操作接口訪問空間數(shù)據(jù)溯源信息。要素層次的溯源信息與現(xiàn)有地理要素數(shù)據(jù)結(jié)構(gòu)耦合,在縮減溯源信息存儲空間的同時,從溯源層面豐富了現(xiàn)有的地理要素模型,能利用現(xiàn)有的空間數(shù)據(jù)管理軟件進行溯源查詢。通過重用現(xiàn)有的數(shù)據(jù)模型及服務(wù)架構(gòu),該溯源服務(wù)原型系統(tǒng)既能實現(xiàn)地理要素集和要素層次溯源信息的自動捕獲和共享,也為其他溯源系統(tǒng)的構(gòu)建提供了可借鑒的方式。
空間數(shù)據(jù)溯源是地理科學(xué)數(shù)據(jù)管理和處理的重要研究內(nèi)容。本文詳述了空間數(shù)據(jù)溯源的研究現(xiàn)狀,包括空間數(shù)據(jù)溯源的概念、研究內(nèi)容、研究領(lǐng)域、已有的成果以及關(guān)鍵研究問題。其中在關(guān)鍵研究問題中指出一個基于標準的數(shù)據(jù)溯源模型是實現(xiàn)科學(xué)數(shù)據(jù)產(chǎn)品間溯源信息共享的基礎(chǔ)。不僅如此,文中提到了分布式環(huán)境下空間數(shù)據(jù)溯源的分層思想和溯源信息粒度理論,為數(shù)據(jù)溯源系統(tǒng)的設(shè)計提供了科學(xué)依據(jù)。地理空間領(lǐng)域信息基礎(chǔ)設(shè)施的發(fā)展為數(shù)據(jù)溯源應(yīng)用帶來了新的挑戰(zhàn),文中提到的關(guān)鍵問題為空間數(shù)據(jù)溯源未來的發(fā)展提供了新的方向和指導(dǎo)方案。
[1] TATEM A J,GOETZ S J,HAY S I.Fifty years of earth-observation satellites views from space have led to countless advances on the ground in both scientific knowledge and daily life[J].A-merican Scientist,2008,96(5):390-398.
[2] BUNEMAN P,KHANNA S,WANG-CHIEW T.Why and Where:A Characterization of Data Provenance[M].Database Theory-ICDT 2001.Springer Berlin Heidelberg,2001.316-330.
[3] CHEBOTKO A,SIMMHAN Y,MISSIER P.Guest editorial:Scientific workflows,provenance and their applications[J].IJ Comput.Appl.,2011,18(3):130-132.
[4] MOREAU L,MISSIER P.“PROV-DM:The PROV Data Model”[EB/OL].http://www.w3.org/TR/prov-dm/,2012-12-31.
[5] GIL Y,GROTH P.Using provenance in the Semantic Web[J].Web Semantics:Science,Services and Agents on the World Wide Web,2011,9(2):147-148.
[6] LANTER D P.Design of a lineage-based meta-data base for GIS[J].Cartography and Geographic Information Systems,1991,18(4):255-261.
[7] 樂鵬,彭飛飛,龔健雅.基于SOA的空間數(shù)據(jù)起源研究[J].地理與地理信息科學(xué),2010,26(3):6-10.
[8] WOODRUFF A,STONEBRAKER M.Supporting fine-grained data lineage in a database visualization environment[A].Data Engineering,1997.Proceedings 13th International Conference on IEEE,1997[C].91-102.
[9] CUI Y,WIDOM J,WIENER J L.Tracing the lineage of view data in a warehousing environment[J].ACM Transactions on Database Systems(TODS),2000,25(2):179-227.
[10] YUE P,BAUMANN P,BUGBEE K,et al.Towards intelligent GIServices[J].Earth Science Informatics,2015.DOI:10.1007/s12145-015-0229-z.
[11] SIMMHAN Y L,PLALE B,GANNON D.A survey of data provenance in e-science[J].ACM Sigmod Record,2005,34(3):31-36.
[12] YUE PENG,HE L L.Geospatial data provenance in cyberinfrastructure[A].Geoinformatics[C].17th International Conference on.IEEE,2009.1-4.
[13] DI L P,YUE P,RAMAPRIYAN H K,et al.Geoscience data provenance:An overview[J].Geoscience and Remote Sensing,IEEE Transactions on,2013,51(11):5065-5072.
[14] FOSTER I.Service-oriented science[J].Science,2005,308(5723):814-817.
[15] Task Force on Grand Challenges,NSF Advisory Committee for Cyberinfrastructure[R].Arlington,VA,USA,2011.116.
[16] W3C.W3C Provenance Working Group[EB/OL].www.w3.org/2011/prov/,2011-12-31.
[17] EarthCube[EB/OL].http://earthcube.ning.com,2011-12-18.
[18] ANSELIN L,REY S J.Spatial econometrics in an age of Cyber GIScience[J].International Journal of Geographical Information Science,2012,26(12):2211-2226.
[19] SUN Z H,YUE P,HU L,et al.GeoPWProv:Interleaving map and faceted metadata for provenance visualization and navigation[J].Geoscience and Remote Sensing,IEEE Transactions on,2013,51(11):5131-5136.
[20] FOSTER I,VOCKLER J,WILDE M,et al.Chimera:A virtual data system for representing,querying,and automating data derivation[A].Scientific and Statistical Database Management,2002[C].Proceedings.14th International Conference on.IEEE,2002.37-46.
[21] BOWERS S,MCPHILLIPS T,RIDDLE S,et al.Kepler/p POD:Scientific workflow and provenance support for assembling the tree of life[A].Provenance and Annotation of Data and Processes[C].Springer Berlin Heidelberg,2008.70-77.
[22] MILES S,GROTH P,BRANCO M,et al.The requirements of using provenance in e-science experiments[J].Journal of Grid Computing,2007,5(1):1-25.
[23] SAHOO S S,SHETH A,HENSON C.Semantic provenance for escience:Managing the deluge of scientific data[J].Internet Computing,IEEE,2008,12(4):46-54.
[24] YUAN J,YUE P,GONG J Y,et al.A linked data approach for geospatial data provenance[J].Geoscience and Remote Sensing,IEEE Transactions on,2013,51(11):5105-5112.
[25] ZHAO J,GOBLE C,GREENWOOD M,et al.Annotating,linking and browsing provenance logs for e-Science[A].Proc.of the Workshop on Semantic Web Technologies for Searching and Retrieving Scientific Data[C].2003.158-176.
[26] GOLBECK J,HENDLER J.A semantic web approach to the provenance challenge[J].Concurrency and Computation:Practice and Experience,2008,20(5):431-439.
[27] VEREGIN H,LANTER D P.Data-quality enhancement techniques in layer-based geographic information systems[J].Computers,Environment and Urban Systems,1995,19(1):23-36.
[28] YUE P,GONG J Y,DI L,et al.Automatic geospatial metadata generation for earth science virtual data products[J].Geoinformatica,2012,16(1):1-29.
[29] YUE P,GONG J Y,DI L.Augmenting geospatial data provenance through metadata tracking in geospatial service chaining[J].Computers & Geosciences,2010,36(3):270-281.
[30] YUE P,ZHANG M,TAN Z.A geoprocessing workflow system for environmental monitoring and integrated modelling[J].Environmental Modelling &Software,2015,69:128-140.
[31] BOSE R,REITSMA F.Advancing geospatial data curation[A].Proc.of PV Conf.Ensuring Long-term Preserv.Adding Value Sci.Tech.Data[C].Edinburgh,U.K.,2005.1-12.
[32] TILMES C,YESHA Y,HALEM M.Tracking provenance of earth science data[J].Earth Science Informatics,2010,3(1-2):59-65.
[33] FREW J,BOSE R.Earth system science workbench:A data management infrastructure for earth science products[A].Scientific and Statistical Database Management,2001[C].Proceedings.Thirteenth International Conference on.IEEE,2001.180-189.
[34] TILMES C,F(xiàn)LEIG A J.Provenance tracking in an earth science data processing system[A].Provenance and Annotation of Data and Processes[C].Springer Berlin Heidelberg,2008.221-228.
[35] PLALE B,CAO B,HERATH C,et al.Data provenance for preservation of digital geoscience data[J].Geological Society of America Special Papers,2011,482:125-137.
[36] HE L L,YUE P,DI L P,et al.Adding geospatial data provenance into SDI-a service-oriented approach[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2015,8(2):926-936.
[37] DI L,MCDONALD K.Next generation data and information systems for Earth sciences research[A].Proceedings of the First International Symposium on Digital Earth[C].Beijing,China:Science Press,1999,1:92-101.
[38] DI L,SHAO Y.Use of ISO 19115 and ISO 19115-2 lineage models for geospatial Web service provenance[A].Proc.of the IEEE IGARSS[C].Vancouver,Canada,2011.1-4.
[39] YUE P,WEI Y,DI L,et al.Sharing geospatial provenance in a service-oriented environment[J].Computers,Environment and Urban Systems,2011,35(4):333-343.
[40] YUE P,GONG J,DI L,et al.Semantic provenance registration and discovery using geospatial catalogue service[A].Proceedings 2nd International Workshop on the Role of Semantic Web in Provenance Management[C].Shanghai,China,2010.23-28.
[41] YUE P,GUO X,ZHANG M,et al.Extending PROV data model for provenance-aware sensor Web[A].Provenance and Annotation of Data and Processes[C].Springer International Publishing,2014.281-284.
[42] PATNI H K,SAHOO S S,HENSON C A,et al.Provenance aware linked sensor data[A].Proc.2nd Workshop Trust Privacy Social Semantic Web[C].2010.1-12.
[43] LEDLIE J,NG C,HOLLAND D A.Provenance-aware sensor data storage[A].Data Engineering Workshops,2005[C].21st International Conference on.IEEE,2005.1189.
[44] PARK U,HEIDEMANN J.Provenance in sensornet republishing[A].Provenance and Annotation of Data and Processes[C].Springer Berlin Heidelberg,2008.280-292.
[45] FREEBXML.The freebXML Registry 3.0(OMAR)-Documentation[EB/OL].http://sourceforge.net/projects/ebxmlrr/,2006-12-31.
[46] GeoServer.[EB/OL].http://geoserver.org/,2013-12-31.
[47] YUE P,GONG J,DI L,et al.GeoPW:Laying blocks for the geospatial processing web[J].Transactions in GIS,2010,14(6):755-772.