李高峰 胡國強
(1.西北農林科技大學檔案館 陜西楊凌 712100;2.西北農林科技大學網絡與教育技術中心 陜西楊凌 712100)
大數據作為數據驅動新技術,廣泛應用于檔案歸檔、查閱及檔案信息開發(fā)利用等檔案管理工作中,同時檔案數據的大量涌現也給檔案管理帶來了極大的挑戰(zhàn)。眾多學者就大數據在檔案館的業(yè)務應用、服務模式、信息安全和管理創(chuàng)新展開了研究。陶水龍首先分析了大數據背景下數字檔案館的建設,最后論述了大數據技術在數字檔案云平臺上應用[1];楊智勇和史曉杰描述了數字檔案館的大數據特征,然后探討了微服務的基本范疇和實現途徑[2];宋美霞論述了大數據背景下數字檔案館存在的問題,并探討了大數據數字檔案館發(fā)展前景[3];周楓和楊智勇從檔案館業(yè)務及用戶兩個維度,對基于大數據的數字檔案館信息服務模型進行了需求分析,最終設計了一種基于大數據的數字檔案館信息服務體系架構[4];秦巧云等論述了大數據環(huán)境下數字檔案館信息威脅,認為可從法律制度、道德規(guī)范、安全設施、技術防護四個角度建立數字檔案館信息安全防范體系[5];李富成和黃丹若通過研究大數據對數字檔案館信息服務的影響,從不同角度研究了大數據數字檔案館[6]。分析以上研究,大數據時代檔案管理工作取得了一定的成效,但也存在諸多問題。基于此,文章引入了區(qū)塊鏈(Blockchain)來解決大數據環(huán)境下檔案管理面臨的問題,有助于提升檔案管理水平,提升檔案服務質量。
“大數據”(Big data)已廣為人知,美國政府認為大數據是“未來的新石油”, 這主要基于兩點共識[7]:一是大數據應用案例越來越多,應用領域越來越廣泛;二是大數據中隱藏著巨大的機會和價值,將給許多領域帶來變革性的發(fā)展。與傳統(tǒng)數據相比,大數據具有海量性(Volume),支持PB級甚至ZB級文件的處理、數據類型多(Variety),支持日志文件、音視頻文件、圖片文件等、時效性(Velocity),處理效率高、價值稀疏性(Value),價值大但價值密度低、準確(Veracity)和復雜性(Complexity)等特征?;诖髷祿膽孟到y(tǒng)可高效存儲大量結構化、半結構化以及非結構化數據,可處理瞬間爆發(fā)的大量數據以及對現有的數據進行有效分析。典型的大數據系統(tǒng)可分解為數據生成、數據獲取、數據存儲和數據分析4個連續(xù)的階段,可提供數據生命周期的不同階段數據處理功能的復雜系統(tǒng)。從數字檔案館角度來看,大數據技術可理解為利用現有的檔案數據轉化為知識、幫助檔案館做出決策的工具,主要目標是借助于科學的分析手段和挖掘算法從大量、雜亂、繁復的數據中,整理和分析數據[8],以提高數字檔案利用率,提高數字檔案館決策能力、決策效率、決策準確性。
區(qū)塊鏈(Blockchain)是源自于比特幣(bitcoin)數據層、網絡層、共識層的底層技術。區(qū)塊鏈是基于互聯(lián)網的分布式賬本技術,同時也是一個去中心化的數據庫,不依賴中心機構的管理,不存在中心服務器,每個運行區(qū)塊鏈軟件的計算設備都可以當作區(qū)塊鏈網絡的一個對等節(jié)點,節(jié)點之間無需考慮信任問題,改區(qū)塊鏈網絡中的任意節(jié)點通過密碼學算法加密數據并記錄到一個數據區(qū)塊,同時生成該數據區(qū)塊的指紋(哈希)用于鏈接下個數據塊和校驗,并通過集體驗證和維護的方式來建立一個可靠數據庫[9]。區(qū)塊鏈依靠密碼學,使得區(qū)塊鏈網絡中的任意兩個節(jié)點可以直接交易,解決了中介信用問題,其核心技術有分布式賬本技術、非對稱加密算法以及智能合約。區(qū)塊鏈特殊的工作原理賦予了其四大特征,即去中心化(Decentralized)、共識機制、可追溯性、高度信任。這些特征能夠有效解決實際交易中的用戶隱私安全、中介信用、交易成本高等問題。
大數據時代,隨著信息技術的不斷深入發(fā)展,檔案管理也更倚重基于各類信息技術衍生的管理平臺。為解決檔案管理現實中遇到的各類問題,尤其是電子檔案數據存儲、流轉、利用、安全等方面短板,投入了大量資金來建設管理平臺,現有管理平臺在一定程度提升了檔案管理水平,但隨著檔案數據自身發(fā)展和積累,也存在如下問題:
現階段,隨著信息系統(tǒng)在檔案館的廣泛使用,檔案館館藏信息資源增長迅速,信息量越來越大。以北京市檔案館為例,經數字掃描形式轉換的紙質檔案(含圖紙、地圖)、照片檔案、音像檔案(含電影、幻燈片)和用數碼相機拍照形成的實物圖片文件將要超過10PB,面對如此大的數據,存儲和查詢成為了問題,更談不上利用。此外,由于多媒體涌現和檔案單軌趨勢,更多的檔案數據以電子格式存在,以后檔案數據的格式、類型將更加繁多。這和早期數字檔案館數據單一,以結構化數據為主產生明顯區(qū)別。隨著檔案數字化深入和數字檔案的進一步發(fā)展,檔案館產生了大量結構化、半結構化、非結構化的檔案數據,且這些半結構化、非結構化的數據所占比例越來越大。這些格式、類型復雜多樣的數據對數據的存儲方式和處理能力提出了更高的要求。
檔案資源的最終價值體現在查閱利用,現階段檔案資源整體利用率不高,難以挖掘出檔案最大的價值。從檔案資源應用的角度出發(fā),檔案館資源數據量大且格式、類型復雜多樣,這是導致檔案數據難以有效利用的直接原因。從技術角度出發(fā),影響檔案館館藏資源利用的主要問題,就是如何不失真、不泄密地進行檔案信息傳遞。館藏資源只有有效傳遞,才能提高其利用率。利用率提高了,才能更好地體現檔案資源自身價值。如果不在檔案館館藏資源流通利用上下功夫,而是沿用過去傳統(tǒng)檔案的管理方式,則無法有效挖掘檔案資源的全部價值,喪失了檔案資源的生命意義。
隨著檔案信息化進程的加快,許多檔案館建設了各自的管理平臺。這些管理平臺存放的數據無法流通、共享,形成了一個個檔案信息孤島,不利于檔案數據的共享和檔案管理工作的開展,難以滿足用戶多樣化需求。所謂的檔案“信息孤島”廣義上指檔案部門與其他部門無法互通信息和交流而形成的孤島,狹義上指檔案館內部各個信息系統(tǒng)之間沒有關聯(lián),比如,檔案館內部著錄、檢索、利用等環(huán)節(jié)數據不流通,信息工作不銜接。分析檔案信息孤島產生的條件,本文認為是各個檔案信息系統(tǒng)之間沒有信息交流和有效整合,缺乏滿足新的信息共享需求能力所致。分析檔案信息孤島產生的原因,本文認為跟傳統(tǒng)“重藏輕用”的思想和“檔案都是秘密”的認識分不開,并缺乏保障共享數據安全的有效技術手段。
檔案信息安全對檔案館來說至關重要。在信息化環(huán)境下,電子檔案信息資源的開發(fā)和利用過程中產生的數據可能會面臨被泄露、丟失和篡改的風險,這些數據包括數字檔案數據、知識產權、個人信息等數據;紙質檔案數字化過程中存在檔案保密安全、失真、失竊等風險。數字檔案信息安全風險的主要表現有三個方面:信息失真、信息泄密、信息缺失。信息失真即數字檔案數據在傳輸和遷移的過程中被人篡改或數字檔案信息無法識別;信息泄密即因數字檔案館計算機和網絡受到病毒或木馬攻擊,導致數字檔案數據泄露或破壞;信息缺失主要因存儲介質發(fā)生故障而起,目前大多數字檔案館的電子檔案數據都存儲在磁盤上,一旦磁盤出現損壞,就會發(fā)生數字檔案信息缺失的情況。
區(qū)塊鏈技術能以其獨有的優(yōu)勢保證數據質量、數據安全、數據透明性,當然也可以改善大數據背景下檔案管理工作存在的問題。由于檔案管理更倚重數據安全、數據質量、和數據流轉,在大數據背景下區(qū)塊鏈技術應用于檔案管理的前景更加廣泛切合。下文重點論述了大數據背景下區(qū)塊鏈技術在檔案館的應用(以下討論都是基于大數據背景下,區(qū)塊鏈技術在檔案管理上的應用)。
要解決檔案數據規(guī)模急劇增長以及數據格式、類型的復雜多樣的問題,就必須借助于大數據應用系統(tǒng)。現有的大數據應用系統(tǒng)以分布式的方式存儲數據,完美解決了數據分布問題、分布式系統(tǒng)中的容錯問題,處理大數據時的冗余問題。成熟的大數據應用系統(tǒng)有基于存儲的分布式文件系統(tǒng)GFS(Google file system)、Hadoop,以及李浩源等研發(fā)的基于分布式內存的文件系統(tǒng)Tachyon。分布式文件系統(tǒng)利用RCFiIe、Parquet等存儲格式優(yōu)化存儲,節(jié)約了存儲空間。以Hadoop平臺為例,首先,數字檔案館通過ETL(數據倉庫技術)方法對分散、異構的檔案信息資源進行抽取、清洗,然后利用MapReduce編程模型對清洗后的數據進行深層次挖掘分析,最后利用Hadoop或NoSQL等大數據集成技術將處理后的數據存在到各自的數據倉庫。大數據應用系統(tǒng)可存儲、分析、挖掘不同類型的檔案數據,分析前需要在數據的海洋中甄別出那些真正有價值并且真實的東西。眾所周知,做數據挖掘和數據分析時,大量時間成本或精力成本花費在了有效數據的收集和數據清洗上。區(qū)塊鏈技術為用戶解決了大數據分析中的數據質量、數據存儲和管理的問題,減少了收集和清洗數據的時間,降低了數據分析和挖掘成本。
運用大數據系統(tǒng)可管理海量檔案數據,用戶只需簡單的操作就可以對海量的檔案數據進行查詢和分析,建立數據與數據之間的關系模式,提升了整個檔案數據的價值[10]。運用大數據技術可以對數據檔案館的資源數據進行深度挖掘,找出資源數據的內在聯(lián)系,可提高數字檔案資源的利用率,提升數字檔案資源價值。大數據技術進行挖掘時對服務器等硬件要求很高,容易造成MDB(message driven bean)損壞,在吞吐量非常大的環(huán)境下還很容易發(fā)生數據丟失。針對數據挖掘中可能出現的數據安全問題,可采用區(qū)塊鏈技術解決。區(qū)塊鏈的數據大多都采取了云存儲技術,這種技術在不需要經過數據中心的情況下自動處理結構數據和非結構數據,解決了MDB損壞的問題。同時現有的區(qū)塊鏈協(xié)議可以使用全新的共識模型在幾秒內完成極為龐大的信息之間的互相傳送與交換,并且利用可伸縮的數據模型來降低運行負荷。同時區(qū)塊鏈自身的特性決定了一個節(jié)點數據的丟失并不會影響整個數據的完整性,因為還有其他節(jié)點可用來恢復。這種技術解決了吞吐量非常大的環(huán)境下的數據丟失問題,保障了數據傳輸安全,保證了檔案館館藏資源數據挖掘的準確性,解決了檔案最為關鍵的安全問題。
為了消除檔案信息孤島,制度上可制定統(tǒng)一、可行的行業(yè)規(guī)范,加強館際合作;技術上可建立檔案大數據共享平臺,對現有的檔案信息系統(tǒng)進行整合,實行檔案信息資源共建,切實奉行檔案數據共享。提到檔案數據共享,很多學者認為這很有必要,的確能消除檔案信息孤島,有利于檔案大數據分析和挖掘。但現實中,很多數字檔案館對于檔案數據共享總是顧慮重重,擔心泄露個人隱私,擔心泄露國家機密?;诖耍蠹乙恢痹趯ふ夜蚕頂祿踩鉀Q方案。本文發(fā)現區(qū)塊鏈技術憑借不可篡改、可追溯等特性,通過“加戳”和“加密”兩種方式解決了數據共享中的關鍵問題。所謂的“加戳”是在數據流通過程中對其打上烙印,可以實現對是否使用、使用過幾次的登記,這樣就可以讓檔案數據資產化,保障原作者的利益?!凹用堋眲t通過多種加密技術保障檔案數據不被泄露。兩種技術的結合可以有效保障檔案數據共享的安全性。
眾所周知,傳統(tǒng)的檔案保存依賴于紙質材料,所需成本較高,管理人員工作量大。國家檔案局印發(fā)《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》強化了檔案電子化管理的,要求加快檔案管理信息化進程。檔案管理目前趨于單軌制雛形,更倚重電子數據管理和電子數據流通。基于大數據的檔案管理系統(tǒng)依靠分布式數據庫和并行處理算法,不僅可以有效管理海量檔案數據,而且能快速處理海量檔案數據,提升了檔案管理效率,降低了檔案管理成本。針對數字檔案管理中出現的信息安全,可利用區(qū)塊鏈技術解決。數字檔案管理的核心目標就是保障其安全,而區(qū)塊鏈技術的安全、便捷特性就是保障流通數據安全。本文認為,區(qū)塊鏈技術的開放性、去中心化、公開透明、雙方匿名、不可篡改、可追溯的特點在提升數字檔案管理便捷性的同時,也提高了數字檔案的安全性,保障了數字檔案的真實性,解決了操作數據、原數據與數字檔案本身的信息數據相分離的問題,維護了數字檔案的完整性。
針對大數據背景下檔案管理工作存在的問題,本文引入區(qū)塊鏈技術進行解決,且區(qū)塊鏈技術應用于檔案管理工作是可行的。大數據背景下區(qū)塊鏈技術可以打破數據孤島現象,提升大數據流通的安全性,保護數據安全。基于以上觀點,文章認為大數據背景下區(qū)塊鏈技術能解決目前檔案館存在的數據存儲和數據管理問題,有助于檔案數據的共享和流通,有助于保護檔案數據的安全,提升檔案管理工作水平。