覃海利 楊征 尹海波 陳孝經(jīng)
(湖南天河國云科技有限公司 湖南長沙 410000)
大數(shù)據(jù)時代,電子文件的增加使得數(shù)字檔案和全文數(shù)據(jù)庫成為數(shù)字檔案館館藏資源的重要增長點。2018年6月,國務(wù)院辦公廳印發(fā)《進一步深化“互聯(lián)網(wǎng)+政務(wù)服務(wù)”推進政務(wù)服務(wù)“一網(wǎng)、一門、一次”改革實施方案》,強調(diào)要加快構(gòu)建全國一體化網(wǎng)上政務(wù)服務(wù)體系,推進跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的協(xié)同管理和服務(wù)[1]。與傳統(tǒng)檔案館相比,數(shù)字檔案館具有接入形式多、存量數(shù)據(jù)大、管理難度高、授權(quán)程序復(fù)雜等問題,讓數(shù)字檔案高效流通,是當(dāng)下發(fā)展新型智慧數(shù)字檔案館的必經(jīng)之路。
2020年,國家明確將區(qū)塊鏈列為新型基礎(chǔ)設(shè)施中的信息基礎(chǔ)設(shè)施,其與社會生活融合程度日益緊密。我國目前已擁有近100家數(shù)字檔案館、檔案室,通過全國示范測評,數(shù)字檔案館、檔案室建設(shè)初具規(guī)模。利用區(qū)塊鏈技術(shù),促進數(shù)字檔案館數(shù)據(jù)匯聚及共享,提供方便、高效的檔案利用功能,使檔案以數(shù)字化形式充分融入現(xiàn)代化網(wǎng)絡(luò)世界,對于培育新型智慧數(shù)字檔案館生態(tài)體系、推動數(shù)字檔案館轉(zhuǎn)型升級具有重要的實踐意義。
數(shù)字檔案館是政府信息資源的數(shù)據(jù)中心和數(shù)據(jù)交換站,它是在現(xiàn)代信息技術(shù)普遍應(yīng)用的基礎(chǔ)上,利用數(shù)字手段,以高度有序的綜合檔案信息資源為處理核心,以高速寬帶通信網(wǎng)絡(luò)為技術(shù)設(shè)施的超大規(guī)模、分布式數(shù)字信息系統(tǒng)。在現(xiàn)代技術(shù)迅速發(fā)展的今天,打造數(shù)字檔案館是政府信息化建設(shè)工作的必要發(fā)展趨勢。
數(shù)字檔案館擁有豐富的信息資源庫,其內(nèi)容不僅涵蓋了原本采集的文字檔案資源,隨著現(xiàn)代信息技術(shù)的發(fā)展,如今檔案館的采集范圍也進一步擴大到各行業(yè)的專業(yè)數(shù)據(jù)庫、社會服務(wù)信息等,磁盤、光盤等電子存儲文件大量出現(xiàn),檔案被以語音、視頻、圖形、圖像等更為豐富的形式記錄,形成具有社會綜合性質(zhì)的信息資源庫,滿足政府、圖書館等組織機構(gòu)對檔案信息資源的需求。
數(shù)字檔案館保存的各類信息主要是計算機生成的電子文件和經(jīng)過計算機進行數(shù)字化處理的各類檔案信息及其他社會信息,電子文件的存儲介質(zhì)密度遠大于以往各種人工可識讀信息介質(zhì)[2]。隨著信息技術(shù)的進步,電子文件介質(zhì)的存儲密度還將繼續(xù)增加和擴大,可以滿足海量存儲數(shù)據(jù)的需求。
數(shù)字檔案館通過信息網(wǎng)絡(luò)技術(shù),將分散的檔案信息數(shù)據(jù)庫以互聯(lián)網(wǎng)的形式連接起來,對電子文件資源進行遠程查閱和調(diào)用,擺脫時間和空間的限制,滿足跨館查詢的需求。數(shù)字檔案館強大的檢索機制及完善的借閱管理和調(diào)用控制功能可以根據(jù)檢索項對關(guān)鍵詞、標(biāo)題、日期等條件進行篩選、組合,并對查詢結(jié)果進行顯示、排序、轉(zhuǎn)存、打印輸出等技術(shù)處理,實現(xiàn)精準(zhǔn)查詢與使用。
數(shù)字檔案館具有公信力及權(quán)威性的原因之一來自于其對檔案信息的真實性維護?;谄涔獗P發(fā)布和網(wǎng)絡(luò)發(fā)布這兩種傳播方式,受傳播載體的局限性,前者的受眾只需將檔案信息復(fù)制到光盤,執(zhí)行光盤閱讀程序,即可對檔案進行瀏覽與查閱;后者的傳播范圍更廣,有局域網(wǎng)跟公眾網(wǎng)之別,一些不能公開發(fā)布的檔案信息就必須在局域網(wǎng)上發(fā)布傳遞,對時效和保密程度進行嚴(yán)格限制。
數(shù)字檔案館的安全包括網(wǎng)絡(luò)、系統(tǒng)、信息、物理等方面。從系統(tǒng)安全層面上看,數(shù)字檔案館分為信息認證和訪問控制,信息認證更多是基于利用者身份進行認證核實;訪問控制更多是基于計算機及檔案信息進行認證,通過授權(quán)相關(guān)權(quán)限,控制用戶可訪問的范圍。從信息安全層面上看,數(shù)字檔案館是管理和技術(shù)等多個體系的整合,在邊界防衛(wèi)、入侵監(jiān)測和安全反應(yīng)等環(huán)節(jié),需要建立多重信息安全保障體系來維護系統(tǒng)安全。
根據(jù)檔案性質(zhì)的不同,一般的數(shù)字檔案館以完全公開的檔案信息、需要授權(quán)訪問才可查閱的檔案信息及從外界采集的其他數(shù)字化信息為主,通過專用的系統(tǒng)軟件,對入館的各類信息按照年份、品類等進行分類排序,鑒定檔案價值,對所記錄的數(shù)據(jù)進行校驗,生成信息目錄并標(biāo)記,確保檔案信息能被完整引用和查閱,形成有序的信息數(shù)據(jù)庫。
區(qū)塊鏈?zhǔn)侨ブ行幕姆植际劫~本技術(shù),利用塊鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)來驗證與存儲數(shù)據(jù)、利用分布式節(jié)點共識算法來生成和更新數(shù)據(jù)、利用密碼學(xué)的方式來保證數(shù)據(jù)傳輸和訪問的安全、利用自動化腳本代碼組成的智能合約來編程和操作數(shù)據(jù)的一種全新的分布式基礎(chǔ)架構(gòu)與計算范式。
利用鏈?zhǔn)浇Y(jié)構(gòu)保障數(shù)據(jù)安全,采取分布式核算和存儲的方式,不存在第三方管理機構(gòu)或中心化管制,任意節(jié)點之間的權(quán)利和義務(wù)都是均等的,且任一節(jié)點的損壞或者失去都不會影響整個系統(tǒng)的運作,塑造穩(wěn)定的區(qū)塊鏈運行系統(tǒng)[3]。
區(qū)塊鏈利用帶有時間戳的鏈?zhǔn)絽^(qū)塊結(jié)構(gòu)存儲數(shù)據(jù),從而為數(shù)據(jù)增加了時間維度,具有可驗證性和可追溯性。同時,由于區(qū)塊是由整個系統(tǒng)中所有具有維護功能的節(jié)點來共同維護的,因此,當(dāng)數(shù)據(jù)出現(xiàn)錯誤或者擾動時,系統(tǒng)能通過時間戳對數(shù)據(jù)進行溯源,提升數(shù)據(jù)的可驗證性。
鑒于區(qū)塊鏈?zhǔn)且粋€分布式平等部署的網(wǎng)絡(luò)[4],且由各節(jié)點共同維護、共同參與,因此,任何數(shù)據(jù)變化都能通過共識機制在區(qū)塊鏈網(wǎng)絡(luò)中實現(xiàn)同步共享,解決數(shù)據(jù)共享難、管理難問題。
區(qū)塊鏈利用非對稱密碼學(xué)原理對數(shù)據(jù)進行加密,可以在驗證數(shù)據(jù)真實性的同時,防止數(shù)據(jù)泄露,防止他人倒推數(shù)據(jù)源,為區(qū)塊鏈數(shù)據(jù)不可偽造、不可篡改、可公開驗證和隱私保護提供了基礎(chǔ)保障,各區(qū)塊節(jié)點的身份信息在無需公開或驗證的前提下實現(xiàn)數(shù)據(jù)匿名傳遞。
與傳統(tǒng)檔案館相比,數(shù)字檔案館的信息資源庫種類豐富、形式復(fù)雜、規(guī)模浩瀚,對電子檔案的真實性和安全性提出了新要求。結(jié)合區(qū)塊鏈特點,將區(qū)塊鏈技術(shù)應(yīng)用于數(shù)字檔案館具有一定可行性。
安全、可靠、可控地實現(xiàn)數(shù)字檔案共享是數(shù)字檔案館核心功能需求。數(shù)據(jù)共享分為涉密檔案、隱私檔案、政務(wù)檔案、公開檔案等多個級別,不同級別具有不同的共享安全需求。利用區(qū)塊鏈非對稱加密技術(shù),可對數(shù)字身份、用戶體系、權(quán)限控制、授權(quán)機制,以及對全部檔案管理及利用流程日志進行記錄,對涉密文件進行加密及對部分可使用身份授權(quán),確保涉密文件數(shù)據(jù)安全。同時,對數(shù)字檔案采用分級、分類的加密存儲設(shè)計和多重備份模式,加強數(shù)據(jù)存儲安全。通過對數(shù)據(jù)安全的多方位保護及保障,確保檔案在安全可控環(huán)境下運行,為數(shù)字檔案互聯(lián)互通營造一個可信的操作環(huán)境。
通過人工智能及算法模型等技術(shù),以區(qū)塊鏈多中心治理機制,采用實時采集工作檔案及簡便易操作的授權(quán)及查詢模式,降低數(shù)據(jù)檢索及查詢難度。政府單位、企業(yè)、個人可通過局域網(wǎng)(檔案館)、政務(wù)網(wǎng)絡(luò)、互聯(lián)網(wǎng)專用平臺、數(shù)據(jù)接口及開放平臺的方式進行數(shù)據(jù)查詢,減少對實物資料的歸檔查閱,實現(xiàn)數(shù)據(jù)可信、可控,降低數(shù)據(jù)互通壁壘,簡化檔案管理流程及查閱流程,提高數(shù)字檔案館運行效率。
基于大數(shù)據(jù)及區(qū)塊鏈技術(shù)組件開放式系統(tǒng)架構(gòu),建立基于數(shù)據(jù)確權(quán)及授權(quán)基礎(chǔ)的大數(shù)據(jù)共享服務(wù)平臺,將數(shù)字檔案館系統(tǒng)融入具體的業(yè)務(wù)系統(tǒng),降低數(shù)據(jù)匯聚難度,提高匯聚效率,實現(xiàn)與各單位業(yè)務(wù)系統(tǒng)的實時對接。另外,接通政府單位、企業(yè)、政務(wù)網(wǎng)絡(luò)、互聯(lián)網(wǎng)專用平臺、數(shù)據(jù)接口等,逐步建立完整、完善的數(shù)字檔案共享生態(tài)體系,提升公共檔案服務(wù)能力,實現(xiàn)檔案信息資源的社會共享,形成融合式發(fā)展。
2017年6月30日,英國薩里大學(xué)(University of Surrey)聯(lián)合英國國家檔案館(The National Archives)、開放數(shù)據(jù)研究所(Open Data Institute)等機構(gòu),開展名為ARCHANGEL的研究[5],利用區(qū)塊鏈技術(shù),解決當(dāng)時數(shù)字檔案長期性與完整性管理問題。
4.1.1 多方“參與記賬”管理提效
鑒于ARCHANGEL數(shù)字檔案館的檔案管理者及參與機構(gòu)大多都跨學(xué)科、跨國家、跨地區(qū),因此,ARCHANGEL 項目在實踐之初采用區(qū)塊鏈去中心化和智能合約技術(shù)來實現(xiàn)“許可記賬”,只有被許可的參與者才能在賬本上存儲新內(nèi)容,更新數(shù)據(jù)庫,每個參與者地位平等,實現(xiàn)數(shù)字檔案館的共同管理。被許可的參與者通過數(shù)字指紋、時間戳、數(shù)字簽名等來驗證身份,追溯數(shù)字檔案的管理流程及經(jīng)手人員,實現(xiàn)信任體系的相互制約和協(xié)同。
4.1.2 靈活架構(gòu)驗證檔案完整性
ARCHANGEL項目基于區(qū)塊鏈的哈希算法構(gòu)建了一種可驗證檔案完整性的架構(gòu),從數(shù)字檔案初始移入檔案館開始,在區(qū)塊鏈上保存電子檔案文件的哈希值及檢索必要的檔案屬性元數(shù)據(jù),一旦需要對電子檔案進行驗證時,僅需對現(xiàn)有文件計算哈希值并與區(qū)塊鏈中對應(yīng)值進行對比,如有差異,則表示保存文件被篡改。
值得一提的是,ARCHANGEL項目還開發(fā)了一種針對視頻檔案的專用哈希算法,即使視頻的檔案格式發(fā)生改變,但只要內(nèi)容不變,則運算后的哈希值也保持不變。
長沙縣智慧數(shù)字檔案館是在數(shù)字檔案館的基礎(chǔ)上,利用區(qū)塊鏈技術(shù),加強權(quán)限控制及身份驗證,升級數(shù)字檔案安全防護,發(fā)揮數(shù)字檔案更大價值。
4.2.1 實現(xiàn)檔案資源智能化管理
長沙縣智慧數(shù)字檔案館通過打造數(shù)字檔案資源管理平臺,對所接收的各類數(shù)字檔案信息進行整理、比對、分類、著錄、掛接、鑒定、檢索、統(tǒng)計等操作,對重復(fù)數(shù)據(jù)進行識別及過濾,對館藏數(shù)字檔案及實體檔案進行數(shù)據(jù)分析、匯總等智慧化管理,使無序信息有序化,對數(shù)字檔案數(shù)據(jù)、元數(shù)據(jù)及索引數(shù)據(jù)(目錄)建立自動生成及關(guān)聯(lián)功能,實現(xiàn)一定程度的智能化自動或檔案管理功能,滿足基于身份驗證、權(quán)限控制的數(shù)字檔案管理需求。
在實現(xiàn)對檔案信息資源有效管理的同時,長沙縣智慧數(shù)字檔案館面向不同用戶群體提供檔案信息的共享利用,建立全市檔案信息資源總庫,庫中數(shù)據(jù)通過鑒定后,可根據(jù)不同的性質(zhì)面向不同群體的用戶提供檔案利用服務(wù)。例如,發(fā)布到電子閱覽室系統(tǒng)中,面向到館查檔的用戶提供查詢利用;發(fā)布到黨政機關(guān)利用服務(wù)平臺中,面向市直立檔單位用戶提供檔案查詢服務(wù);發(fā)布到互聯(lián)網(wǎng)信息門戶,面向社會公眾提供檔案信息服務(wù)等。
4.2.2 多重加密保障數(shù)據(jù)安全
利用區(qū)塊鏈技術(shù)的可追溯、不可篡改和分布式存儲特征,長沙縣數(shù)字檔案館將系統(tǒng)操作日志保存在區(qū)塊鏈上,在工作時間之外,如有系統(tǒng)啟動辦理查詢業(yè)務(wù),則會將操作人員、操作時間、操作結(jié)果等業(yè)務(wù)信息上鏈存證,同時通知相關(guān)管理人員,能有效避免數(shù)字檔案查詢權(quán)限的濫用,防止檔案文件泄密。
針對數(shù)字檔案海量數(shù)據(jù)所帶來的隱私保護及數(shù)據(jù)安全問題,長沙縣數(shù)字檔案館打造大數(shù)據(jù)安全保障服務(wù)系統(tǒng),在區(qū)塊鏈分布式節(jié)點網(wǎng)絡(luò)的基礎(chǔ)上,通過數(shù)據(jù)分級分類加密存儲[6]、數(shù)字身份關(guān)聯(lián)綁定、分級數(shù)據(jù)授權(quán)訪問、隱私數(shù)據(jù)分離等技術(shù),結(jié)合常規(guī)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全、數(shù)據(jù)安全及控制安全的技術(shù)所形成的綜合安全保障服務(wù)體系,實現(xiàn)大數(shù)據(jù)匯聚、確權(quán)、授權(quán)、應(yīng)用、分析、監(jiān)管等全生命周期的監(jiān)管及預(yù)警,確保數(shù)據(jù)隱私及數(shù)據(jù)安全,能夠在統(tǒng)一安全策略下防護系統(tǒng)免受來自國家級別的、敵對組織的惡意攻擊,避免受嚴(yán)重的自然災(zāi)難及其他相當(dāng)危害程度的威脅所造成的資源損害,及時發(fā)現(xiàn)安全漏洞和安全事件,并在系統(tǒng)遭到損害后迅速恢復(fù)所有功能。
4.2.3 水印追溯便于定責(zé)維權(quán)
在長沙縣數(shù)字檔案館的自助和人工查詢界面中,所查詢的數(shù)字檔案將會添加區(qū)塊鏈認證編碼,并以數(shù)字水印的形式顯示在查詢界面或者打印出來的紙質(zhì)文件中。Web 端顯示檔案時,統(tǒng)一調(diào)用帶有保護功能的檔案顯示引擎,它具有不可復(fù)制、數(shù)字水印、不可下載等保護功能,防止大部分情況下用戶未經(jīng)授權(quán)的數(shù)據(jù)下載及泄露情況,可確保數(shù)據(jù)未經(jīng)授權(quán)的下載及外泄。如果出現(xiàn)檔案的非法泄露,如被旁觀的人非法拍攝和傳播等,可通過區(qū)塊鏈認證編碼對非法傳播的源頭進行追溯,為檔案泄露的追責(zé)和維權(quán)提供有力的證據(jù)。
目前,長沙縣智慧數(shù)字檔案館已完成20多萬卷館藏和37萬件檔案的區(qū)塊鏈上鏈認證[7-8],并成功被中國工程院《中國區(qū)塊鏈發(fā)展戰(zhàn)略研究》項目的“發(fā)現(xiàn)100個中國區(qū)塊鏈創(chuàng)新應(yīng)用”欄目收錄,為區(qū)塊鏈賦能其他檔案館應(yīng)用和其他行業(yè)區(qū)塊鏈落地有非常好的借鑒意義。
隨著國家和社會信息化進程的加快,檔案信息化建設(shè)是檔案事業(yè)適應(yīng)社會信息化發(fā)展的必然趨勢,是創(chuàng)新檔案服務(wù)機制、全面提高檔案工作為社會服務(wù)能力的必要手段。利用區(qū)塊鏈技術(shù),打造新型數(shù)字檔案館,將為檔案館海量數(shù)據(jù)管理與服務(wù)帶來深刻改變,進一步發(fā)揮其知識管理、知識開發(fā)和知識服務(wù)的核心載體功能,為國家信息化建設(shè)提供重要知識支撐。