王益平
(哈爾濱市水利機(jī)械工程公司)
摘 要:隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的不斷發(fā)展和普及,大數(shù)據(jù)時(shí)代正在到來(lái)。檔案資源作為記錄重大事件的有效數(shù)據(jù)信息,對(duì)人類社會(huì)發(fā)展有著重要作用。在這樣的時(shí)代背景下,檔案資源的相關(guān)管理工作也就更加復(fù)雜。目前,我國(guó)的檔案管理工作中,存在著一定的數(shù)據(jù)安全問(wèn)題,可用的管理人員也相對(duì)較少。檔案的數(shù)字化資源的有效管理工作非常具有難度。本文將主要針對(duì)大數(shù)據(jù)時(shí)代檔案數(shù)字資源的整合問(wèn)題作出分析,希望能夠通過(guò)討論得出有效的解決措施。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;檔案數(shù)字資源;整合;難點(diǎn);對(duì)策
現(xiàn)代化社會(huì)中,管理工作者普遍認(rèn)為數(shù)據(jù)才是管理工作中最重要的元素。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)字化資源已經(jīng)逐漸成為主導(dǎo)人類生活的基礎(chǔ)性資源。檔案資源作為記錄人類社會(huì)發(fā)展的重要資料,對(duì)人類社會(huì)有著重要的意義。在大數(shù)據(jù)時(shí)代發(fā)展背景下,檔案工作的難度也相應(yīng)增大。為了使檔案管理工作更加高效、有序的進(jìn)行,檔案管理相關(guān)部門應(yīng)改進(jìn)和完善原有的數(shù)據(jù)資源處理方式,這樣才能是檔案管理工作的進(jìn)行更加科學(xué),從而促進(jìn)我國(guó)檔案事業(yè)的發(fā)展。
1 大數(shù)據(jù)時(shí)代背景下檔案資源的特征
大數(shù)據(jù)的構(gòu)成相對(duì)較為復(fù)雜,所呈現(xiàn)出的狀態(tài)也相對(duì)多樣,但其作用本質(zhì)是為了使人類社會(huì)向著簡(jiǎn)單化發(fā)展。大數(shù)據(jù)的主要思想,就是其“預(yù)測(cè)”思想。在這種思想的指導(dǎo)下,人類可以找到解決某一問(wèn)題的新視角與新方法。因此,大數(shù)據(jù)也在社會(huì)發(fā)展中得到了廣泛的應(yīng)用和普及。這樣的發(fā)展趨勢(shì),也會(huì)幫助大數(shù)據(jù)在無(wú)意間逐漸的改變?nèi)藗兊纳鐣?huì)生活的方方面面。在這之中,人類社會(huì)的各種資源也整隨著時(shí)代特征出現(xiàn)變化,檔案就是其中的一個(gè)具體表現(xiàn)。
1.1 數(shù)據(jù)量大,增長(zhǎng)迅速
在大數(shù)據(jù)時(shí)代,我國(guó)檔案數(shù)字資源建設(shè)可分為“增量檔案電子化,存量檔案數(shù)字化”兩大部分二據(jù)國(guó)家檔案局的統(tǒng)計(jì)資料顯示,我國(guó)檔案館館藏檔案資源豐富,僅國(guó)家檔案館在}l}ll年的館藏已達(dá)3.3億卷,預(yù)計(jì)到2020年將達(dá)到6億多卷州引隨著館藏檔案數(shù)字化工作的推進(jìn),它們將匯聚成巨大的檔案數(shù)字資源庫(kù)二另一方面,在大數(shù)據(jù)時(shí)代,電子檔案的數(shù)量成倍增長(zhǎng)二它不僅包含電子文件、圖表、聲像、數(shù)據(jù)庫(kù)等,更會(huì)包括那些在紙質(zhì)保管時(shí)代,因單位信息價(jià)值低經(jīng)鑒定沒(méi)有歸檔價(jià)值的原始記錄,如訪間日志、瀏覽軌跡等二因?yàn)榇髷?shù)據(jù)技術(shù)能挖掘出以前無(wú)法為人們所發(fā)現(xiàn)的數(shù)據(jù)的潛在價(jià)值,因此有必要對(duì)數(shù)據(jù)的檔案屬性進(jìn)行重新鑒定,自然會(huì)有海量數(shù)據(jù)新增到檔案領(lǐng)域。
1.2 檔案資源分布廣泛
在大數(shù)據(jù)時(shí)代,信息資源的分布更加廣泛。隨著人類對(duì)數(shù)字資源逐漸增加的使用與探索,數(shù)字資源的發(fā)展速度整逐漸加快。加之移動(dòng)終端的飛速發(fā)展更導(dǎo)致了數(shù)據(jù)產(chǎn)生方式呈現(xiàn)出多樣性的特征二可見(jiàn),大數(shù)據(jù)時(shí)代的檔案數(shù)字資源將廣泛存在于不同的信息系統(tǒng)中,會(huì)帶有明顯的時(shí)空特性,呈現(xiàn)出結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息相融合的態(tài)勢(shì),形成分布廣泛的大量異構(gòu)數(shù)據(jù)。
1.3 數(shù)據(jù)資源的高度可靠性
在資源的利用過(guò)程中,人們最為注重的是資源是否真實(shí)、可靠。大數(shù)據(jù)時(shí)代背景下,資源本身數(shù)量十分巨大,這就導(dǎo)致了人們獲取信息的價(jià)值密度正在相應(yīng)的減小?,F(xiàn)實(shí)生活中,對(duì)于不了解的事實(shí),人們更加傾向于通過(guò)查閱資料來(lái)增進(jìn)自己對(duì)其的認(rèn)識(shí),進(jìn)而在根據(jù)所了解到的事實(shí)作出判斷。作為記錄人類社會(huì)的事件的重要信息,檔案具有其他資料所不具備的真實(shí)性。它是人們普遍相信的最可靠的信息來(lái)源。在大數(shù)據(jù)的背景中,工作人員應(yīng)利用大數(shù)據(jù)的基本知識(shí),完成對(duì)檔案資源的進(jìn)一步開(kāi)發(fā)和管理,以實(shí)現(xiàn)檔案資源的存在價(jià)值。
2 數(shù)字化檔案資源的整合
隨著大數(shù)據(jù)運(yùn)用的逐漸深入,繁多的檔案資源在整合的過(guò)程中存在著很多重要的問(wèn)題。其中,檔案數(shù)據(jù)的存儲(chǔ)安全問(wèn)題和隱私保護(hù)問(wèn)題,是必須得到高效保障的。另外,隨著檔案數(shù)據(jù)的增多,管理人員的數(shù)量問(wèn)題也是一個(gè)必須要解決的難點(diǎn)問(wèn)題。
2.1 數(shù)據(jù)存儲(chǔ)間題
在大數(shù)據(jù)時(shí)代,檔案數(shù)字資源整合的首要挑戰(zhàn)來(lái)自數(shù)據(jù)存儲(chǔ)。一是檔案管理系統(tǒng)在面對(duì)海量數(shù)據(jù)時(shí)需要高可擴(kuò)展性的支撐二而目前集中式的數(shù)據(jù)存儲(chǔ)和管理模式非但資金投入較大,更無(wú)法適應(yīng)檔案數(shù)字資源體量激增的新情況,在檔案數(shù)字資源的高效存儲(chǔ)和快捷訪間方面面臨嚴(yán)峻挑戰(zhàn)。二是目前基于關(guān)系型數(shù)據(jù)庫(kù)研發(fā)的檔案管理系統(tǒng)無(wú)法適應(yīng)大數(shù)據(jù)時(shí)代占數(shù)據(jù)總量80%以下的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和處理的需要。
2.2 數(shù)據(jù)分析間題
大數(shù)據(jù)時(shí)代是一個(gè)泛在信息、泛在知識(shí)的時(shí)代,隨著信息化程度的加深,檔案數(shù)字資源的來(lái)源結(jié)構(gòu)將發(fā)生巨大變化,傳統(tǒng)的基于封閉的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行的數(shù)據(jù)挖掘算法在分析處理非結(jié)構(gòu)化數(shù)據(jù)時(shí)存在局限。而且,要獲得大數(shù)據(jù)分析的價(jià)值,就應(yīng)關(guān)注檔案數(shù)字資源中的數(shù)據(jù)關(guān)系和語(yǔ)義表征,實(shí)現(xiàn)信息整合與知識(shí)整合。但目前檔案數(shù)字資源整合還處于數(shù)據(jù)整合階段,偏重于實(shí)現(xiàn)異質(zhì)異構(gòu)數(shù)據(jù)在物理或邏輯上的集中和互聯(lián)互通,僅能為用戶提供信息檢索服務(wù),這與大數(shù)據(jù)時(shí)代的要求相去甚遠(yuǎn)。
2.3 安全隱私間題
檔案數(shù)字資源不同于其它信息資源,它是國(guó)家和社會(huì)精心挑選并保存下來(lái)的真實(shí)的歷史記錄,其中包含著大量國(guó)家秘密、工作秘密、個(gè)人隱私等重要信啟、,事關(guān)國(guó)計(jì)民生。在大數(shù)據(jù)時(shí)代,如何對(duì)檔案數(shù)字資源中敏感數(shù)據(jù)的所有權(quán)和使用權(quán)做出明確界定?如何選擇合適的安全防護(hù)策略以適應(yīng)數(shù)據(jù)非線性增長(zhǎng)的需求,杜絕安全隱患?如何應(yīng)對(duì)大數(shù)據(jù)分布式處理帶來(lái)的數(shù)據(jù)、隱私等的泄露風(fēng)險(xiǎn)?這些都是擺在我們面前不可回避的重要課題。
3 解決問(wèn)題的對(duì)策
想要解決資源整合問(wèn)題,就需要對(duì)檔案數(shù)字資源的管理工作進(jìn)行相關(guān)改進(jìn)。工作人員需要靈活應(yīng)用云技術(shù)和數(shù)字處理技術(shù),來(lái)提高檔案部門的工作效率。
大數(shù)據(jù)時(shí)代賦予了檔案數(shù)字資源新的特征,因此要實(shí)現(xiàn)其整合在很大程度上考驗(yàn)著檔案基礎(chǔ)數(shù)據(jù)的質(zhì)與量。這就要求檔案工作者突破固有狹義的檔案資源觀的局限,在大數(shù)據(jù)技術(shù)和理念的指引下,積極構(gòu)建適應(yīng)大數(shù)據(jù)時(shí)代的“大檔案觀”。即要從“社會(huì)記憶”的高度重新審視檔案數(shù)字資源的構(gòu)成范圍和收集視角,改變過(guò)去以黨政機(jī)關(guān)文書檔案為主體的收集模式,加大對(duì)社會(huì)民生、對(duì)個(gè)人等復(fù)雜化、碎片化信息的關(guān)注,使檔案能真正反映政治、經(jīng)濟(jì)、科技、文化、社會(huì)生活等的全貌,反映國(guó)家和社會(huì)的實(shí)時(shí)變遷。
從技術(shù)上來(lái)說(shuō),實(shí)現(xiàn)大數(shù)據(jù)時(shí)代檔案數(shù)字資源整合的關(guān)鍵是要建立適應(yīng)大數(shù)據(jù)要求的檔案數(shù)字資源分析生態(tài)系統(tǒng),這就需要云計(jì)算技術(shù)與大數(shù)據(jù)處理工具的協(xié)調(diào)配合。云計(jì)算(Cloud Computing)技術(shù)具有虛擬資源池化、高可擴(kuò)展性、高可靠性、按需付費(fèi)、泛在接入等顯著的特征。它適應(yīng)了大數(shù)據(jù)時(shí)代分布式存儲(chǔ)與海量數(shù)據(jù)并行處理的需要,實(shí)現(xiàn)了計(jì)算機(jī)資源的服務(wù)化,是大數(shù)據(jù)時(shí)代擋案數(shù)字資源整合的基礎(chǔ)平臺(tái)和支撐技術(shù)。
結(jié)束語(yǔ)
為適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展趨勢(shì),檔案數(shù)字資源整合工作必須得到有效的保障。相關(guān)工作人員應(yīng)該對(duì)目前工作中存在的難點(diǎn)問(wèn)題進(jìn)行深入的研究和解決,以推動(dòng)我國(guó)檔案數(shù)字資源的發(fā)展,進(jìn)而使整個(gè)檔案管理工作能夠適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展趨勢(shì)。
參考文獻(xiàn)
[1]周峰林大數(shù)據(jù)時(shí)代的數(shù)字檔案館(室)建設(shè)——專訪國(guó)家檔案局檔案館(室)業(yè)務(wù)指導(dǎo)司司長(zhǎng)孫鋼[J]浙江檔案,2013.(8).
[2]楊冬權(quán)關(guān)于隨館藏?cái)?shù)量增加而相應(yīng)增加各級(jí)國(guó)家檔案館人員編制的提案[N].中國(guó)檔案報(bào),2013-03-07.
[3]馮惠玲,張輯哲檔案學(xué)概論隊(duì)[N].北京:中國(guó)人民大學(xué)出版社,2006.endprint