丁寶
[摘要]部分具有保存價值的時態(tài)數(shù)據(jù)正面臨丟失的風(fēng)險,檔案部門應(yīng)及時采取措施。論文以地理信息系統(tǒng)數(shù)據(jù)為例,提出了切片歸檔時態(tài)數(shù)據(jù)的技術(shù)策略,分析了其核心內(nèi)容——快照技術(shù)的原理、歸檔數(shù)據(jù)的特點及對不同類型數(shù)據(jù)的適用性,并討論了在切片歸檔過程中需要注意的切片時間、歸檔時間和格式管理等問題。
[關(guān)鍵詞]時態(tài)數(shù)據(jù)歸檔數(shù)據(jù)切片地理信息系統(tǒng)
[分類號]G275.9
Research on the Technology of Temporal Data Snapshot Archive—Taking Geographic Information System Data as an Example
Ding Bao
(College of Society of Soochow University, Suzhou, Jiangsu,215123)
Abstract: Temporal data with some preservation value is facing the risk of being lost, and the archives department should take timely measures. This paper takes geographic information system data as an example, puts forward the technical strategy of snapshot archiving temporal data, analyzes its core content - the principle of snapshot technology, the characteristics of archived data and the applicability to different types of data, and discusses the issues such as snapshot time, archive time and format management in the process of snapshot archiving.
Keywords: Temporal Data; Archive; Data Snapshot; Geographic Information System
1引言
數(shù)據(jù)具有時間屬性。對于文本、圖像、音頻和視頻等一般類型的數(shù)據(jù),人們只關(guān)注最終版本的內(nèi)容,但在電信信息系統(tǒng)、地理信息系統(tǒng)、電子政務(wù)等復(fù)雜的信息系統(tǒng)中,用戶往往需要處理與時間相關(guān)的數(shù)據(jù),比如在地理信息系統(tǒng)中調(diào)用1990年到2000年間北京土地利用情況的數(shù)據(jù)。這種需要顯式表示和管理與時間相關(guān)的數(shù)據(jù)就是時態(tài)數(shù)據(jù)。[1]信息系統(tǒng)中的時態(tài)數(shù)據(jù)在每一時間點的狀態(tài)都反映了某一社會實踐的具體情況,除了對于業(yè)務(wù)機關(guān)的現(xiàn)行價值,成為歷史數(shù)據(jù)后也蘊含重要的情報價值和科研價值。在上述例子中,調(diào)用的歷史數(shù)據(jù)不僅能夠還原十年間北京的發(fā)展變化,而且可用于研究北京的城市發(fā)展模式。但是,檔案部門在滿足這一信息需求時面臨嚴重阻礙。時態(tài)數(shù)據(jù)的內(nèi)容和狀態(tài)會隨著時間的推移而改變,業(yè)務(wù)部門在資源、預(yù)算有限的情況下不會優(yōu)先考慮保存過去形成的數(shù)據(jù),決策者或從業(yè)者未能正確認知保存歷史數(shù)據(jù)的益處,更新數(shù)據(jù)時往往會覆蓋掉原有的數(shù)據(jù)。當前采用技術(shù)手段歸檔具有長遠保存價值的時態(tài)數(shù)據(jù)是一項重要且迫切的工作。本文將以地理信息系統(tǒng)數(shù)據(jù)為例對時態(tài)數(shù)據(jù)的切片歸檔技術(shù)進行研究和討論。
地理信息系統(tǒng)(Geographic Information System,簡稱GIS)是在計算機軟、硬件系統(tǒng)支持下,對整個或部分地球表層的有關(guān)地理分布數(shù)據(jù)進行采集、儲存、管理、運算、分析、顯示和描述的技術(shù)系統(tǒng)。[2]其產(chǎn)生的GIS數(shù)據(jù)專業(yè)性強、獲取成本高,具有極高的重復(fù)利用價值,但隨著技術(shù)的發(fā)展和時間的推移正面臨丟失的風(fēng)險。因此,以GIS數(shù)據(jù)為例介紹切片歸檔技術(shù),能夠為檔案部門歸檔保存GIS數(shù)據(jù)提出參考性方案,更利于為歸檔其它時態(tài)數(shù)據(jù)提供經(jīng)驗和借鑒,兼具理論和實踐價值。
2地理信息系統(tǒng)數(shù)據(jù)切片歸檔的技術(shù)策略
GIS以數(shù)字數(shù)據(jù)的形式表現(xiàn)空間實體的空間位置特征、屬性特征和時態(tài)特征,數(shù)據(jù)的幾何特性、非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)和動態(tài)變化的時間特征給長期保存帶來了三個方面的難題。首先,不同的數(shù)據(jù)組織方式。GIS中最基本的空間數(shù)據(jù)組織方式是矢量數(shù)據(jù)和柵格數(shù)據(jù),矢量數(shù)據(jù)用點、線和多邊形刻畫所關(guān)注的空間對象,柵格數(shù)據(jù)用二維矩陣的形式表示空間地物或現(xiàn)象分布,二者導(dǎo)致不同的數(shù)據(jù)格式與應(yīng)用系統(tǒng),不利于采用統(tǒng)一的歸檔方式。其次,復(fù)雜的數(shù)據(jù)存儲模式。目前常見的GIS數(shù)據(jù)存儲方式有通用文件系統(tǒng)、文件系統(tǒng)結(jié)合關(guān)系數(shù)據(jù)庫以及全關(guān)系數(shù)據(jù)庫三種,不同的存儲系統(tǒng)通常意味著不同的歸檔策略。最后,動態(tài)變化的數(shù)據(jù)內(nèi)容。GIS數(shù)據(jù)會隨時間不斷更新變化,新數(shù)據(jù)覆蓋舊數(shù)據(jù)是歸檔保存面臨的最大問題。為了解決以上難題,本文引入切片歸檔技術(shù),即運用快照技術(shù),在特定的時間節(jié)點對具備歸檔價值的GIS數(shù)據(jù)做切片處理,經(jīng)過整理后形成地理信息圖層數(shù)據(jù)包,進而按照電子文件歸檔的流程標準歸檔。[3]核心內(nèi)容是快照技術(shù)的應(yīng)用。
2.1快照技術(shù)及其歸檔地理信息系統(tǒng)數(shù)據(jù)的特點
快照技術(shù),即通過建立指針列表指示讀取數(shù)據(jù)的地址,當數(shù)據(jù)改變時在極短時間內(nèi)提供一個實時數(shù)據(jù)并復(fù)制,[4]獲得數(shù)據(jù)在特定時間點的完全狀態(tài)。它不涉及所表示數(shù)據(jù)的格式,通過快速“拍照”記錄的是數(shù)據(jù)的完整可用拷貝;適用于各種類型的存儲系統(tǒng),包括基于文件系統(tǒng)的快照、基于邏輯卷管理器的快照以及基于數(shù)據(jù)庫的快照等;能夠根據(jù)需要靈活設(shè)置多個快照點,定期和不定期地捕捉數(shù)據(jù)的變化情況。它有效地解決了上述GIS數(shù)據(jù)歸檔保存的難題,并具有瞬時保存、對系統(tǒng)影響小的優(yōu)點。此外,不同原理的快照技術(shù)各具特色,適用于不同特點的GIS數(shù)據(jù)。
2.2快照技術(shù)的分類及對不同地理信息系統(tǒng)數(shù)據(jù)的適用性
以實現(xiàn)的工作原理為依據(jù),快照技術(shù)劃分為不同種類。其中,適用于GIS數(shù)據(jù)切片保存的主要有增量快照、全拷貝快照兩種。
增量快照即快照創(chuàng)建后,源 LUN(Logical Unit Number,邏輯單元號)和快照LUN通過數(shù)據(jù)指針表共用一份數(shù)據(jù)拷貝,直至數(shù)據(jù)改動,改動前的數(shù)據(jù)將被記錄。主要有寫時復(fù)制快照和寫時重定向快照兩種實現(xiàn)方式。寫時復(fù)制在創(chuàng)建快照時僅復(fù)制指示數(shù)據(jù)實際所處位置的指針,不進行實質(zhì)拷貝。此時,快照LUN和源LUN保存相同的數(shù)據(jù)指針表??煺丈珊?,如有請求修改源LUN中的原始數(shù)據(jù),快照LUN首先拷貝改變前的原始數(shù)據(jù),然后源LUN再進行改寫。當后續(xù)再有數(shù)據(jù)寫入源LUN的同一位置時,將不再拷貝原始數(shù)據(jù)至快照LUN,而是直接覆蓋。這樣對同一位置的更新僅進行一次寫時拷貝,有效地保證了快照時刻點的數(shù)據(jù)一致性。最終,僅獲得源LUN的邏輯存儲副本,利用時通過查詢數(shù)據(jù)指針表訪問數(shù)據(jù)的物理存儲位置,若快照LUN中對應(yīng)的數(shù)據(jù)項不存在,則讀取源LUN中相應(yīng)位置的數(shù)據(jù);反之,讀取快照LUN相應(yīng)位置的數(shù)據(jù)。因此,在歸檔時需要配合保存原始的數(shù)據(jù)副本。寫時重定向的技術(shù)原理類似,不同之處在于對源LUN的首次寫操作重新定向至快照LUN中。創(chuàng)建快照時,同樣僅復(fù)制數(shù)據(jù)指針表;但是生成快照后,如果產(chǎn)生對源LUN改寫的請求,新數(shù)據(jù)會直接寫入快照LUN,之后更新源LUN中的指針表,使其指向新數(shù)據(jù)所在的快照LUN地址。這樣只需要一次寫操作,此時源LUN中保存快照副本,而快照卷保存的則是新數(shù)據(jù)。
全拷貝快照創(chuàng)建的是數(shù)據(jù)的完整副本,分為鏡像分離快照或克隆快照。鏡像分離需預(yù)留與源LUN容量相同的存儲空間,在快照時間點前創(chuàng)建源LUN鏡像,快照點到來時鏡像分離轉(zhuǎn)換成快照卷,完成數(shù)據(jù)備份等操作后快照LUN與源LUN重新同步。由于鏡像操作在快照點前完成,這種方式無法隨時為任意源LUN創(chuàng)建快照。相比之下,克隆快照增強了靈活性,在快照時間點采用寫時復(fù)制的方式快速生成指針式副本,之后在后臺運行拷貝進程執(zhí)行實質(zhì)性的數(shù)據(jù)拷貝任務(wù),結(jié)束后采用鏡像分離技術(shù)獲得克隆快照。
表1[5]從不同角度比較了以上四種快照技術(shù)。分析可得它們的優(yōu)缺點及對不同種類GIS數(shù)據(jù)的適用情況。寫時復(fù)制和寫時重定向技術(shù)采用增量快照的方法,優(yōu)點是快照創(chuàng)建前只需分配少量的存儲空間用于保存源LUN中被更新的原始數(shù)據(jù);在創(chuàng)建快照前對系統(tǒng)無任何依賴性,可隨時生成應(yīng)用系統(tǒng)快照;快照副本通過額外的拷貝操作獲得,可以選擇業(yè)務(wù)空閑時間進行,減少對應(yīng)用系統(tǒng)的影響。缺點是快照生成后對源LUN具有依賴性,一旦源LUN發(fā)生不可恢復(fù)性的損壞,且未及時拷貝快照副本,快照數(shù)據(jù)也隨之失效;在生成快照時會對源LUN產(chǎn)生讀和寫操作,降低系統(tǒng)的性能。因此,增量快照技術(shù)適用于兩種類型的GIS數(shù)據(jù)。一種是變化幅度小的GIS數(shù)據(jù),如地形地貌數(shù)據(jù)。其在以年為單位的時間周期中很難發(fā)生大量的變化,充分發(fā)揮了增量快照只記錄變化數(shù)據(jù)、存儲空間利用率高的特點。另一種是變化可預(yù)見的GIS數(shù)據(jù),如基礎(chǔ)設(shè)施建設(shè)、管網(wǎng)規(guī)劃、城市建設(shè)以及行政區(qū)劃等數(shù)據(jù)。這些數(shù)據(jù)的改變具有規(guī)劃性,數(shù)據(jù)變化能夠提前掌握,如有必要可以設(shè)置專門的快照時間點保存這一變化。這樣,充分發(fā)揮了增量快照靈活性高以及空間占用小、快照點設(shè)置密集的優(yōu)勢,更加細致地記錄GIS數(shù)據(jù)的變化情況。
全拷貝快照在快照點結(jié)束即可獲得源LUN的完整副本,能夠脫離源LUN單獨存在,數(shù)據(jù)可靠性更高,歸檔保存的流程和后期的管理也更加簡單。但是,其缺點也十分明顯。一方面,每次生成快照都需要源LUN同樣大小的鏡像卷,對存儲空間要求很高,在長期保存中會形成大量的數(shù)據(jù)冗余;另一方面,無論是鏡像分離技術(shù)在快照時間點前生成鏡像,還是克隆技術(shù)在生成快照后拷貝原始數(shù)據(jù),物理拷貝過程都會對系統(tǒng)產(chǎn)生較大的影響。因此,全拷貝適用于變化極頻繁的GIS數(shù)據(jù),如人口流動、交通出行數(shù)據(jù)等。這些數(shù)據(jù)無時無刻不處于變化的狀態(tài)中,運用增量快照不但無法發(fā)揮空間利用率高的優(yōu)勢,反而在多次生成快照后會加重應(yīng)用系統(tǒng)的負擔(dān)。而采用全拷貝快照在較長的時間段中周期性地記錄它們的變化是更好的選擇。此外,由于增量快照對源LUN的依賴性,全拷貝快照也經(jīng)常和增量快照技術(shù)一起使用,用來增強快照的可靠性和穩(wěn)定性。
3地理信息系統(tǒng)數(shù)據(jù)切片歸檔時需注意的問題
切片歸檔GIS數(shù)據(jù),檔案部門除了掌握快照技術(shù)的原理,根據(jù)不同特點的GIS數(shù)據(jù)選擇合適的快照類型,還應(yīng)該注意選擇合理的切片時間與歸檔時間,同時管理GIS數(shù)據(jù)格式。前者影響歸檔數(shù)據(jù)的完整性和真實性,后者有助于保證數(shù)據(jù)長期可讀。
3.1制定合理的切片時間和歸檔時間策略
切片時間和歸檔時間是GIS數(shù)據(jù)切片歸檔過程中涉及的兩個不同的時間概念。切片時間指在存儲系統(tǒng)中設(shè)置創(chuàng)建源LUN快照的時間,歸檔時間指將獲得的快照副本整理為地理信息圖層數(shù)據(jù)包移交檔案部門的時間。運用全拷貝快照技術(shù),在快照時間即獲得完整的數(shù)據(jù)副本,切片時間和歸檔時間往往是一致的;運用增量快照技術(shù),在快照時間僅生成虛擬快照,需要通過快照副本技術(shù)拷貝獲得完整的數(shù)據(jù)副本,切片時間和歸檔時間會出現(xiàn)不一致的情況。因此,應(yīng)該分別討論兩種時間的設(shè)置情況。
從切片時間選擇的角度,GIS快照的創(chuàng)建策略分為定時快照和手動快照。定時快照即在每年12月31日對當年需要歸檔的GIS數(shù)據(jù)創(chuàng)建快照,根據(jù)不同數(shù)據(jù)的運動特性、流轉(zhuǎn)規(guī)律,也可以設(shè)置不同的切片周期。手動快照則是在事件點創(chuàng)建當前時間點的快照。事件點是指在切片周期內(nèi)可能引起相關(guān)數(shù)據(jù)巨大變化的重要事件的發(fā)生時間節(jié)點,如市政大樓搬遷等。在定期快照的基礎(chǔ)上運用手動快照,能夠清晰地反映重要事件的變化過程,保存和記錄更加完整的社會記憶。
歸檔時間是從歸檔流程的角度考慮,分為實時歸檔和定期歸檔兩種形式。GIS數(shù)據(jù)具有連續(xù)性、動態(tài)性的特點,因此完全意義上的實時歸檔難以實現(xiàn)。就切片歸檔技術(shù)而言,實時歸檔是指快照副本生成后立即歸檔,定期歸檔是參照紙質(zhì)文件歸檔時間的規(guī)定,在第二年上半年處理本年度的快照,拷貝獲取副本后整理成地理信息圖層數(shù)據(jù)包歸檔。相比定期歸檔,實時歸檔有利于檔案部門控制快照的質(zhì)量與安全,避免因GIS存儲故障導(dǎo)致快照失效,確保歸檔數(shù)據(jù)的真實性。此外,由于創(chuàng)建快照花費的時間會隨快照數(shù)量的增加而增加,也會對應(yīng)用系統(tǒng)性能造成影響,歸檔后即可刪除存儲在應(yīng)用系統(tǒng)中的快照。因此,實時歸檔是GIS數(shù)據(jù)切片歸檔中最宜采用的時間策略。
3.2實施地理信息系統(tǒng)數(shù)據(jù)格式管理
隨著地理信息科學(xué)的發(fā)展,出現(xiàn)了ArcGIS、Mapinfo、GvSIG等優(yōu)秀的GIS應(yīng)用軟件,相應(yīng)地產(chǎn)生了紛繁的GIS數(shù)據(jù)格式,使其歸檔保存面臨很大的難題。盡管運用快照技術(shù)從存儲系統(tǒng)的角度實現(xiàn)了對不同GIS數(shù)據(jù)的切片,克服了數(shù)據(jù)格式的差異性,但是為了確保數(shù)據(jù)長期有效讀取,便于歸檔后數(shù)據(jù)的管理與利用,檔案部門仍應(yīng)加強對GIS數(shù)據(jù)格式的管理。
首先,檔案部門應(yīng)發(fā)布GIS數(shù)據(jù)長期保存推薦格式指南,限制接收數(shù)據(jù)格式。我國的《電子文件歸檔與管理規(guī)范》GB/T18894-2002中要求歸檔電子文件格式應(yīng)符合開放性、標準性、長期可讀性等要求。表2從開放性的角度統(tǒng)計、分析了目前流行的GIS數(shù)據(jù)格式,并參考美國國家與文件署制定的《NARA公告2014-04:永久保存文件移交的格式指南修訂版》[6],為檔案部門選擇格式提供參考。其次,應(yīng)基于電子文件生命周期視角,實行前端控制。在政府機關(guān)各業(yè)務(wù)部門與檔案部門采用相同的GIS軟件和存儲系統(tǒng),實現(xiàn)GIS數(shù)據(jù)從生成、利用到歸檔、再利用的一致性,避免不同業(yè)務(wù)部門、業(yè)務(wù)部門與檔案部門之間格式不統(tǒng)一造成的管理混亂、重復(fù)勞動、數(shù)據(jù)失真的情況。最后,對于已形成的不一致數(shù)據(jù)應(yīng)統(tǒng)一轉(zhuǎn)換數(shù)據(jù)格式。國際上已經(jīng)制定了一系列空間數(shù)據(jù)轉(zhuǎn)換的標準,通過這種中間橋梁,實現(xiàn)不同系統(tǒng)數(shù)據(jù)的相互轉(zhuǎn)換和共享,具有代表性的有SDTS空間數(shù)據(jù)轉(zhuǎn)換標準、ISO/TC211地理信息標準、DIGEST數(shù)字圖形信息交換標準以及OpenGIS及其規(guī)范等。[7]
參考文獻
[1]維基百科.時間數(shù)據(jù)庫[EB/OL].[2016-10-2].https://zh.wikipedia.org/w/index. php?title=%E6%97%B6%E9%97%B4%E6%95%B0%E6%8D%AE%E5%BA%93&oldid=46658931.
[2]劉南,劉仁義.地理信息系統(tǒng)[M].北京:高等教育出版社,2002:5-6.
[3]金波.地理信息庫數(shù)據(jù)切片歸檔實現(xiàn)方式研究[J].檔案與建設(shè),2017(2):34-38.
[4]吳晨濤.信息存儲與IT管理[M].北京:人民郵電出版社,2015:242-243.
[5]Neeta Garimella. Snapshot technology overview.[EB/OL].[2006-4-26].https:// www.ibm.com/developerworks/tivoli/library/t-snaptsm1/index.html.
[6]National Archives and Records Administration. Transfer Guidance Format Tables[EB/OL].[2014-3-3].https://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html.
[7]Sailor. GIS空間數(shù)據(jù)共享標準[EB/OL].[2014-3-6].http://malagis.com/gis-spatial-data-sharing-standards.html.