摘 要:云計(jì)算”、“大數(shù)據(jù)”的出現(xiàn),改變了檔案界對(duì)數(shù)據(jù)僅僅停留在存儲(chǔ)和保護(hù)階段的想法,對(duì)其利用和價(jià)值的挖掘使得檔案數(shù)據(jù)保全模式正逐漸成為極具發(fā)展前景的數(shù)字檔案管理模式。本文主要圍繞檔案數(shù)據(jù)管理中存在的問題,探討檔案數(shù)據(jù)保全模式的技術(shù)思路,分析檔案數(shù)據(jù)保全模式的管理模式優(yōu)勢(shì)。
關(guān)鍵詞:檔案數(shù)據(jù);數(shù)據(jù)保全;數(shù)據(jù)管理模式
1 檔案數(shù)據(jù)現(xiàn)狀
1.1 檔案數(shù)據(jù)
21世紀(jì)初,數(shù)字技術(shù)的廣泛應(yīng)用逐漸深入到各個(gè)領(lǐng)域,我國的檔案管理也隨之朝著數(shù)字化、網(wǎng)絡(luò)化的方向發(fā)展。隨著近幾年檔案數(shù)字化浪潮的推進(jìn),各單位的電子檔案數(shù)據(jù)量劇增。在2016年《檔案事業(yè)發(fā)展“十三五”規(guī)劃》中顯示,我國省級(jí)、地市級(jí)和縣級(jí)國家綜合檔案館館藏永久檔案數(shù)字化的比例于2020年將達(dá)到60-70%。檔案數(shù)字化浪潮的推進(jìn)促使大量檔案機(jī)構(gòu)及部門產(chǎn)生龐大的電子檔案數(shù)據(jù),截止到2018年底,全國各級(jí)國家綜合檔案館館藏電子檔案127.7萬GB,館藏檔案數(shù)字化副本達(dá)1554.6萬GB。這些電子檔案數(shù)據(jù)與傳統(tǒng)檔案不同,海量化、虛擬化的特性決定了大數(shù)據(jù)背景下檔案數(shù)據(jù)的管理較傳統(tǒng)檔案難度更大。國家檔案局局長李明華指出,“檔案工作正在經(jīng)歷一個(gè)從接收保管紙質(zhì)檔案到接受保管電子檔案,從管檔案實(shí)體到管檔案數(shù)據(jù),從手工操作到信息化智能操作,從檔案資源分散利用到聯(lián)網(wǎng)共享的變革過程”。[1]檔案數(shù)據(jù)同時(shí)面臨著從收集到保管利用等管理環(huán)節(jié)的挑戰(zhàn),如何保證其真實(shí)性、完整性、可用性和安全性也是檔案界所關(guān)注研究的重要問題。
1.2 檔案數(shù)據(jù)面臨的問題
1.2.1 歷史數(shù)據(jù)的質(zhì)量問題
隨著檔案數(shù)字化及電子文件單套制的推行,各單位存在大量的電子檔案數(shù)據(jù),這些數(shù)據(jù)不僅僅包括在系統(tǒng)中運(yùn)行的各類實(shí)時(shí)數(shù)據(jù),同時(shí)還包含著在硬盤、光盤等備份介質(zhì)上的備份數(shù)據(jù)。由于數(shù)據(jù)量逐年遞增,其有效性、完整性、可用性無法得到有效的管理,管理人員也無法實(shí)時(shí)掌握檔案數(shù)據(jù)的存儲(chǔ)狀態(tài)。這就導(dǎo)致了系統(tǒng)中的數(shù)據(jù)可能已經(jīng)出現(xiàn)部分?jǐn)?shù)據(jù)無法正常使用的情況,備份的電子檔案數(shù)據(jù)也有可能局部或者全部損壞,給各檔案部門數(shù)據(jù)生成部門帶來巨大的損失。檔案數(shù)據(jù)的非人工識(shí)讀性和系統(tǒng)依賴性使得對(duì)檔案數(shù)據(jù)的全部管理活動(dòng)都必須借助于計(jì)算機(jī)系統(tǒng)才能實(shí)現(xiàn),離開計(jì)算機(jī)系統(tǒng),人既無法識(shí)讀,更無法對(duì)其質(zhì)量進(jìn)行監(jiān)控。各數(shù)據(jù)產(chǎn)生單位都是一個(gè)高安全,同樣也是一個(gè)高風(fēng)險(xiǎn)的數(shù)據(jù)機(jī)構(gòu),單單依靠檔案數(shù)字化流程并不能保證檔案數(shù)據(jù)的完整有效,無法保障今后檔案資源的利用整合。
1.2.2 現(xiàn)有數(shù)據(jù)的備份問題
現(xiàn)階段各單位在檔案數(shù)據(jù)管理模式上較多是依靠以單個(gè)副本的形式進(jìn)行存放和保存,主要是通過自建系統(tǒng)及異地備份進(jìn)行檔案數(shù)據(jù)保管,備份方式較為單一。2010年以來,許多檔案局館通過簽訂《重要檔案異地備份工作協(xié)議》,以建立異地備份庫的形式,對(duì)重要檔案和電子文件實(shí)行異地異質(zhì)備份,以確保檔案數(shù)據(jù)的安全。[2]但由于時(shí)間及空間距離的限制,這些數(shù)據(jù)的安全性、可用性、一致性缺乏可靠的監(jiān)管與防范,管理人員對(duì)于數(shù)據(jù)本身的安全狀態(tài)缺乏及時(shí)的判斷和保護(hù)。這種“冷備份”并不是檔案數(shù)據(jù)長期保存及利用的最好辦法,一旦檔案數(shù)據(jù)出現(xiàn)問題,管理人員無法收到任何的預(yù)警與提示,往往就錯(cuò)過了最好的數(shù)據(jù)恢復(fù)時(shí)機(jī)。
1.2.3 檔案數(shù)據(jù)證據(jù)價(jià)值問題
對(duì)于傳統(tǒng)紙質(zhì)檔案而言,主要借助形式的原始性來證實(shí)和確認(rèn)內(nèi)容的原始性,原件的基本條件包括特定的內(nèi)容、載體、字跡材料、體例、格式以及具有法定效力的簽署、印章等,其中任何一項(xiàng)發(fā)生變化,人們就有理由對(duì)其原始性產(chǎn)生懷疑,這也是保證其具有法律憑證的關(guān)鍵。而對(duì)于電子檔案數(shù)據(jù)而言,其內(nèi)容和形式的相對(duì)獨(dú)立使人們無法依靠原始的記錄載體和記錄方式來確認(rèn)其信息的原始性。檔案數(shù)據(jù)因其脆弱性,數(shù)據(jù)可以被隨意篡改,若有人利用信息漏洞或技術(shù)能力導(dǎo)致檔案數(shù)據(jù)的原始性無法保障,那么檔案數(shù)據(jù)其價(jià)值就會(huì)大大降低。
2 檔案數(shù)據(jù)保全技術(shù)思路
2.1 檔案數(shù)據(jù)內(nèi)容固化
目前傳統(tǒng)的信息安全技術(shù)主要包括常用數(shù)據(jù)加密技術(shù)以及數(shù)字摘要技術(shù)等,其中數(shù)據(jù)加密技術(shù)主要是依靠電子簽名對(duì)數(shù)據(jù)進(jìn)行加密。電子簽名是利用密碼運(yùn)算實(shí)現(xiàn)電子數(shù)據(jù)的“手寫簽名”效果,它的簡化流程大致為:當(dāng)數(shù)據(jù)的生成方需發(fā)送數(shù)據(jù)電文時(shí),發(fā)送方用一個(gè)哈希函數(shù)從數(shù)據(jù)的內(nèi)容文本中生成數(shù)據(jù)電文摘要,然后用自己的私鑰對(duì)這個(gè)摘要進(jìn)行加密,這個(gè)加密后的摘要將作為數(shù)據(jù)的“蓋章”同數(shù)據(jù)內(nèi)容一起發(fā)送給接收方,接收方首先用與發(fā)送方一樣的哈希函數(shù)從接收到原始數(shù)據(jù)電文中計(jì)算出數(shù)據(jù)電文摘要,接著在用發(fā)送方的公鑰來對(duì)數(shù)據(jù)電文附加的數(shù)字簽名進(jìn)行解密,如果這兩個(gè)摘要相同,那么接收方就能確認(rèn)該數(shù)字簽名是屬于發(fā)送方的。而數(shù)字摘要技術(shù)主要依靠哈希運(yùn)算對(duì)數(shù)據(jù)完整性校驗(yàn),哈希算法(HASH)又稱離散算法,是一種特殊的數(shù)據(jù)處理方法,其實(shí)現(xiàn)方式不唯一,典型的實(shí)現(xiàn)方法主要分MD5和SHA兩種。是一種從任意文件中創(chuàng)造小的數(shù)字「指紋」的方法。與指紋一樣,哈希算法就是一種以較短的信息來保證文件唯一性的標(biāo)志,這種標(biāo)志與文件的每一個(gè)字節(jié)都相關(guān),而且難以找到逆向規(guī)律。因此,當(dāng)原有文件發(fā)生改變時(shí),其標(biāo)志值也會(huì)發(fā)生改變,從而告訴文件使用者當(dāng)前的文件已經(jīng)不是所需求的文件。
而各檔案機(jī)構(gòu)部門可在數(shù)據(jù)生成階段對(duì)檔案數(shù)據(jù)進(jìn)行內(nèi)容固化,在檔案數(shù)據(jù)生成階段對(duì)其內(nèi)容進(jìn)行哈希運(yùn)算,以哈希值作為其內(nèi)容的完整原始性摘要進(jìn)行存儲(chǔ)。系統(tǒng)通過定時(shí)對(duì)其定時(shí)哈希值比對(duì)來確保檔案數(shù)據(jù)的內(nèi)容未被篡改和破壞,從而保證檔案數(shù)據(jù)的內(nèi)容原始性完整性固化。哈希運(yùn)算的不可逆性意味著不可能根據(jù)一段通過哈希運(yùn)算得到的哈希值來獲得原來的檔案數(shù)據(jù),也不可能簡單地創(chuàng)造一個(gè)文件并讓他的哈希值與原哈希值相一致,這使得檔案機(jī)構(gòu)部門在檔案數(shù)據(jù)內(nèi)容固化上持有一定的保全能力。
2.2 檔案數(shù)據(jù)證據(jù)價(jià)值固化
檔案數(shù)據(jù)保全過程中對(duì)檔案數(shù)據(jù)的證據(jù)價(jià)值保全主要依靠時(shí)間戳以及數(shù)字簽名技術(shù)。由于傳統(tǒng)的檔案保存立足于檔案內(nèi)容與形式上的統(tǒng)一,原件就成為集兩種原始性于一身的統(tǒng)一體。而檔案數(shù)據(jù)由于其真實(shí)性、可讀性、長期可用性及安全性等問題制約著其成為有效的法律證據(jù)的主要障礙。傳統(tǒng)紙質(zhì)檔案作為法律文件形成時(shí)間一般是通過當(dāng)事人在文件中寫明簽訂時(shí)間來實(shí)現(xiàn)的,由于簽訂的紙質(zhì)文件難以完整修改,因此法律上也以檔案中所列明的歸檔時(shí)間為檔案生成時(shí)間。而對(duì)檔案數(shù)據(jù)而言,在從個(gè)人計(jì)算機(jī)產(chǎn)生的時(shí)候便以該臺(tái)計(jì)算機(jī)的時(shí)鐘作為其數(shù)據(jù)的生成時(shí)間,由于此類時(shí)鐘可以任意修改,因此在普通個(gè)人計(jì)算機(jī)設(shè)備上形成的電子文件的時(shí)間戳難以證明不其可篡改性。但一個(gè)國家的標(biāo)準(zhǔn)時(shí)間是具有權(quán)威性的,檔案機(jī)構(gòu)可以依靠由可信的第三方時(shí)間戳服務(wù)中心(TSA)頒發(fā)的可信時(shí)間戳來證明檔案數(shù)據(jù)產(chǎn)生時(shí)間的電子憑證,結(jié)合數(shù)字簽名技術(shù)來確保檔案數(shù)據(jù)的原始性,將檔案數(shù)據(jù)的法律證據(jù)價(jià)值進(jìn)行保全。
3 大數(shù)據(jù)背景下檔案數(shù)據(jù)保全的價(jià)值與意義
3.1 利于電子文件的長期保存
電子文件的全程管理原則要求建立一個(gè)完整的管理體系,對(duì)電子文件從產(chǎn)生到永久保存或銷毀的整個(gè)生命周期進(jìn)行全程管理與監(jiān)控。而檔案數(shù)據(jù)保全則是從檔案數(shù)據(jù)的產(chǎn)生階段便對(duì)其真實(shí)性、完整性、可用性和安全性進(jìn)行保全,為電子文件的全流程管理提供了較為可靠基礎(chǔ)。
3.2 充分發(fā)揮檔案數(shù)據(jù)價(jià)值
2016年5月,國家檔案局頒布的《中華人民共和國檔案法》修訂草案確認(rèn)了各類電子文件、電子數(shù)據(jù)和電子記錄的法律效力及其作為檔案的憑證作用。而檔案數(shù)據(jù)保全的管理模式順應(yīng)了將檔案數(shù)據(jù)作為法律證據(jù)的趨勢(shì),也使得檔案數(shù)據(jù)其管理保存價(jià)值得到了進(jìn)一步提高。
3.3 以傳統(tǒng)檔案管理為基礎(chǔ),更新檔案數(shù)據(jù)保全觀念
傳統(tǒng)檔案管理強(qiáng)調(diào)在各種檔案在物理保管環(huán)境和載體約束下進(jìn)行檔案實(shí)體管理,而大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)的激增促使檔案機(jī)構(gòu)需要利用信息技術(shù)的發(fā)展,為檔案數(shù)據(jù)的整個(gè)生命周期進(jìn)行真實(shí)可靠性保全。而隨著電子文件“單套制”的呼聲越來越高,檔案機(jī)構(gòu)更加需要更新傳統(tǒng)檔案管理理念,從單純的檔案載體的管理深入到檔案價(jià)值的管理,更新檔案數(shù)保全意識(shí)也是新時(shí)代檔案工作適應(yīng)信息高速發(fā)展步伐的必經(jīng)之路。
4 結(jié)語
根據(jù)IDC報(bào)顯示,在過去的幾年內(nèi),全球的數(shù)據(jù)量以每年58%的速度增長,而信息技術(shù)的發(fā)展使得數(shù)據(jù)在未來會(huì)增長的更快,2016年全球數(shù)據(jù)總量約為8.6ZB,預(yù)計(jì)到2020年將超過40ZB,這相當(dāng)于全球平均每人擁有超過5000GB的數(shù)據(jù)量。數(shù)據(jù)已日益成為重要的生產(chǎn)要素和社會(huì)財(cái)富,尤其各個(gè)行業(yè)作為龐大的數(shù)據(jù)生產(chǎn)、流轉(zhuǎn)、存儲(chǔ)中心,數(shù)據(jù)管理任重而道遠(yuǎn)。大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)保全成為新時(shí)代檔案學(xué)者重要且緊迫的問題,唯有將信息技術(shù)與檔案數(shù)據(jù)進(jìn)行更加深層次的關(guān)聯(lián)研究,利用完善的技術(shù)手段對(duì)檔案數(shù)據(jù)進(jìn)行保全,才能使得檔案數(shù)據(jù)真正發(fā)揮其應(yīng)有的價(jià)值。
參考文獻(xiàn)
[1]李明華.奮力開創(chuàng)全國檔案事業(yè)發(fā)展新局面[EB/OL].[2018-6-08].http://admin.rmlt.com.cn/?app=article&controller=article&action=edit.
[2]梁磊,王建文,王順.國家綜合檔案館電子文件備份中心建設(shè)研究[J].北京檔案,2016(07):31-32.
作者簡介
周爍奇(1994-),男,漢族,江蘇無錫,圖書情報(bào)與檔案管理研究生在讀,蘇州大學(xué),研究方向:檔案數(shù)據(jù)及數(shù)據(jù)保全方向。