張金安
[摘? ? 要] 本文從當(dāng)代環(huán)境下大數(shù)據(jù)這一概念出發(fā),對(duì)未來(lái)檔案館的特征與構(gòu)建進(jìn)行了探究,與此同時(shí)對(duì)未來(lái)檔案館的智能化、多功能化進(jìn)行展望。
[關(guān)鍵詞] 大數(shù)據(jù);未來(lái)檔案館;信息檔案;數(shù)據(jù)檔案
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 21. 066
[中圖分類號(hào)] G270.7? ? [文獻(xiàn)標(biāo)識(shí)碼]? A? ? ? [文章編號(hào)]? 1673 - 0194(2018)21- 0156- 03
0? ? ? 引? ? 言
現(xiàn)在的社會(huì)是一個(gè)高速發(fā)展的社會(huì),科技發(fā)達(dá),信息流通,人們之間的交流越來(lái)越密切,生活也越來(lái)越方便,大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。大數(shù)據(jù)技術(shù)代表著數(shù)據(jù)科學(xué)時(shí)代的來(lái)臨,是促進(jìn)信息技術(shù)的進(jìn)一步發(fā)展和廣泛使用的標(biāo)志性技術(shù),人們已經(jīng)意識(shí)到大數(shù)據(jù)技術(shù)將帶來(lái)無(wú)限的生機(jī)與活力,它隱含巨大的深度價(jià)值,大數(shù)據(jù)技術(shù)對(duì)科技發(fā)展、未來(lái)經(jīng)濟(jì)發(fā)展甚至上層建筑將帶來(lái)深遠(yuǎn)的影響。檔案館作為國(guó)家機(jī)器的重要組成部分, 發(fā)揮著不可替代的作用,各級(jí)檔案信息化建設(shè)水平直接反映了國(guó)家機(jī)器的運(yùn)轉(zhuǎn)水平,重視和加強(qiáng)檔案信息化建設(shè),檔案工作者和科技工作者都責(zé)無(wú)旁貸。
1? ? ? 大數(shù)據(jù)概念的解析與未來(lái)檔案館的特征
1.1? ?什么是大數(shù)據(jù)
早在1980年,著名未來(lái)學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂(lè)章”。不過(guò),大約從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞。所謂“大數(shù)據(jù)”是指以多元形式,自許多來(lái)源搜集而來(lái)的龐大數(shù)據(jù)組,往往具有實(shí)時(shí)性;需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。百度百科中解釋“大數(shù)據(jù)”一詞為Big Data(大數(shù)據(jù)),或稱為巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取管理處理,并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)的大數(shù)據(jù)科學(xué)家John Rauser提到一個(gè)簡(jiǎn)單定義:大數(shù)據(jù)就是任何超過(guò)一臺(tái)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。維基百科中的大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取和處理的數(shù)據(jù)集合。可見,大數(shù)據(jù)是真實(shí)性極強(qiáng),數(shù)據(jù)量巨大,并且建立在所有主數(shù)據(jù)的基礎(chǔ)上,采用數(shù)據(jù)挖掘技術(shù),對(duì)數(shù)據(jù)集之間的關(guān)系進(jìn)行測(cè)試的數(shù)據(jù)類型。
1.2? ?未來(lái)檔案館的特征
IT 界普遍認(rèn)為,大數(shù)據(jù)具備Velocity、Volume、Variety、Value(4V)特征,應(yīng)用于未來(lái)檔案信息化建設(shè),未來(lái)檔案館應(yīng)具備以下五個(gè)特征。
1.2.1? ?高速度
Velocity (高速度)是指數(shù)據(jù)的挖掘技術(shù)方面、數(shù)據(jù)處理方面所產(chǎn)生的高速度,傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)最本質(zhì)的區(qū)別就是數(shù)據(jù)處理速度差異。“1秒定律”是最著名的在數(shù)據(jù)處理方面的定律,就是要在一秒內(nèi)得出數(shù)據(jù)處理的結(jié)果,如果超出時(shí)間,數(shù)據(jù)就沒(méi)有任何價(jià)值可言。對(duì)于未來(lái)檔案管,面對(duì)著大量文件的信息和數(shù)據(jù),快速檢索查詢處理,提升檔案發(fā)揮作用的是必不可少的檔案利用率的重要特性。
1.2.2? ?容量大、資源化
隨著互聯(lián)網(wǎng)云存儲(chǔ)、移動(dòng)云計(jì)算等技術(shù)被廣泛使用,將給未來(lái)檔案和檔案數(shù)據(jù)、檔案信息帶來(lái)一個(gè)巨大的數(shù)據(jù)集。大數(shù)據(jù)技術(shù)的出現(xiàn),有效解決Volume (大容量的數(shù)據(jù)),并對(duì)未來(lái)檔案館提供了無(wú)限的數(shù)據(jù)容量空間,使檔案資源文件化變成現(xiàn)實(shí)。
1.2.3? ?數(shù)據(jù)類型格式來(lái)源多樣性(Variety)
大數(shù)據(jù)不僅是最有效來(lái)處理大量的數(shù)據(jù)的工具,更應(yīng)對(duì)不同的數(shù)據(jù)來(lái)源、數(shù)據(jù)格式的多樣性提供了潛在的可能。數(shù)據(jù)類型是復(fù)雜多樣的,包括兩個(gè)關(guān)系和非關(guān)系數(shù)據(jù),非關(guān)系數(shù)據(jù)指的是社交網(wǎng)絡(luò)、電子郵件、網(wǎng)絡(luò)搜索引擎、日志、文件等非結(jié)構(gòu)化數(shù)據(jù)格式和半結(jié)構(gòu)化數(shù)據(jù)來(lái)源的多樣性,而其他的視頻圖像、音頻文本等多種數(shù)據(jù)格式從一個(gè)組織的內(nèi)部和外部操作相鏈接。未來(lái)的檔案存儲(chǔ)文件,與現(xiàn)有的檔案文件相比,也將擴(kuò)展到源文件類型格式的多樣性,這是未來(lái)檔案文件的基本特征之一 。
1.2.4? ?檔案歷史記憶真實(shí)可靠連續(xù)智能
就大數(shù)據(jù)技術(shù)本身而言,它包括諸多先進(jìn)技術(shù)和手段,如大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)分布式文件系統(tǒng)數(shù)據(jù)挖掘電網(wǎng)分布式數(shù)據(jù)庫(kù)可擴(kuò)展的存儲(chǔ)系統(tǒng)云計(jì)算平臺(tái)互聯(lián)網(wǎng)等,構(gòu)成一個(gè)超大的數(shù)據(jù)生態(tài)系統(tǒng),在這個(gè)系統(tǒng)中,檔案工作者在獲取和存儲(chǔ)更多真實(shí)連續(xù)可靠的檔案信息的同時(shí),通過(guò)建立相應(yīng)的專家決策支持系統(tǒng),可以實(shí)現(xiàn)為人類社會(huì)發(fā)展提供準(zhǔn)確預(yù)測(cè)和正確決策,使未來(lái)檔案館具有智能化特征。
1.2.5? ?具備數(shù)據(jù)挖掘特征
從未來(lái)發(fā)展趨勢(shì)來(lái)看,檔案來(lái)源渠道必將呈現(xiàn)多樣性,在檔案產(chǎn)生過(guò)程中,必將面臨龐大規(guī)模的信息。將大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)運(yùn)用于未來(lái)檔案信息化平臺(tái),使未來(lái)檔案館同樣具備了數(shù)據(jù)挖掘特征,為未來(lái)檔案存儲(chǔ)帶來(lái)無(wú)限的想象空間。
2? ? ?大數(shù)據(jù)環(huán)境下未來(lái)檔案館的模式
2.1? ?未來(lái)檔案館應(yīng)互聯(lián)互通資源共享
檔案館發(fā)揮作用的重要條件是現(xiàn)有的檔案互聯(lián)互通和資源共享。針對(duì)技術(shù)水平而言,現(xiàn)有的技術(shù)實(shí)現(xiàn)完全可以滿足需求?;ヂ?lián)網(wǎng)平臺(tái)的建設(shè)使檔案館(室)的相互關(guān)聯(lián)成為現(xiàn)實(shí)狀態(tài)。國(guó)家批準(zhǔn)、建設(shè)和設(shè)置各種檔案館(室), 利用這個(gè)平臺(tái),形成了一個(gè)大文件傳輸通過(guò)互聯(lián)網(wǎng), 這個(gè)平臺(tái)的形成,深化了檔案信息化建設(shè),為實(shí)現(xiàn)資源共享提供了有利條件,也是未來(lái)檔案信息化建設(shè)的重要依據(jù)和前提。
2.2? ?未來(lái)檔案館應(yīng)做到資源分級(jí)有效管理
對(duì)未來(lái)檔案館而言,在各級(jí)檔案館內(nèi)部,應(yīng)做到資源分級(jí)有效管理,這是大數(shù)據(jù)技術(shù)運(yùn)用的必備條件,所以,對(duì)現(xiàn)有檔案館(室),應(yīng)做到統(tǒng)一布置統(tǒng)一要求,對(duì)現(xiàn)有檔案要按著規(guī)范,合理分類分級(jí)管理,并按著要求形成規(guī)范的電子文檔,以備傳輸查詢和利用。
2.3? ?未來(lái)檔案館應(yīng)設(shè)置權(quán)限使使用者合理合法使用檔案資源
對(duì)于構(gòu)建未來(lái)檔案館而言,檔案信息平臺(tái)上的所有檔案館(室),均處在同一層面上,所有檔案資源被視為同一個(gè)數(shù)據(jù)集,只是分布在不同的存儲(chǔ)器(即檔案館)。
對(duì)不同檔案館,檔案級(jí)別的數(shù)量也有所不同。
在檔案信息平臺(tái)使用上,不同級(jí)別的檔案館(室)的訪問(wèn)權(quán)限是不同的、權(quán)限低的,只能訪問(wèn)同級(jí)檔案館的檔案庫(kù)和高級(jí)別檔案館中部分同級(jí)別的檔案分庫(kù);權(quán)限高的訪問(wèn)權(quán)限低的檔案館也應(yīng)遵循訪問(wèn)權(quán)限,進(jìn)行合理合法訪問(wèn),并非全部。
3? ? ? 未來(lái)檔案館的智能化功能
3.1? ?未來(lái)檔案館具備為用戶提供預(yù)決策的智能服務(wù)功能
人工智能的運(yùn)用和專家決策支持系統(tǒng)的建立,使擁有龐大檔案資源的未來(lái)檔案館,根據(jù)國(guó)家和社會(huì)的需要,依據(jù)檔案資源,實(shí)現(xiàn)分析預(yù)測(cè)和決策,為客戶提供幫助和支持。首先,進(jìn)行預(yù)測(cè)、決策和目標(biāo)設(shè)定;其次,采集所需檔案的信息;接著歸檔存儲(chǔ);最后,對(duì)數(shù)據(jù)進(jìn)行查詢輸出或者咨詢專家系統(tǒng)再輸出。
3.2? ?未來(lái)檔案館具備檔案自動(dòng)生成的功能
大數(shù)據(jù)技術(shù)的應(yīng)用,使我們得以解放思想、暢想未來(lái),從檔案資源獲取渠道上來(lái)看,未來(lái)檔案館的高智能,必將打破以往被動(dòng)獲取等傳統(tǒng)固定的檔案來(lái)源渠道,擴(kuò)展到一部分檔案是通過(guò)社會(huì)信息渠道自動(dòng)篩選生成的,這部分檔案必將成為未來(lái)檔案館的重要組成部分,并使檔案真正實(shí)現(xiàn)資源化,為檔案館預(yù)決策智能化服務(wù)提供支持。
對(duì)于檔案通過(guò)社會(huì)信息渠道自動(dòng)篩選生成的問(wèn)題,我們探究式地引入信息檔案和數(shù)據(jù)檔案兩個(gè)概念
3.2.1? ?信息檔案和數(shù)據(jù)檔案概念的界定
信息檔案,筆者認(rèn)為它是指在那些經(jīng)過(guò)國(guó)家認(rèn)定的信息范疇中,通過(guò)互聯(lián)網(wǎng)等現(xiàn)代技術(shù)手段和渠道,進(jìn)行篩選提取并加以存儲(chǔ)的對(duì)國(guó)家和社會(huì)具有保存價(jià)值的重要信息。
數(shù)據(jù)檔案,是指對(duì)所存信息檔案的各時(shí)期各重要節(jié)點(diǎn)通過(guò)現(xiàn)代技術(shù)手段跟蹤分析并加以存儲(chǔ)的對(duì)國(guó)家和社會(huì)具有保存價(jià)值的重要數(shù)據(jù)結(jié)果,數(shù)據(jù)檔案應(yīng)具有為國(guó)家和社會(huì)提供可靠可信的預(yù)測(cè)和決策服務(wù)功能。
3.2.2? ?信息檔案庫(kù)(館)和數(shù)據(jù)檔案庫(kù)(館)的建立
就檔案存儲(chǔ)而言,信息技術(shù)的革命,必將使以往的不可能即將變?yōu)楝F(xiàn)實(shí),傳統(tǒng)的檔案存儲(chǔ)模式也必將發(fā)生跨越式變化,由此我們?cè)谔骄渴降匾胄畔n案和數(shù)據(jù)檔案概念的前提下,提出信息檔案庫(kù)和數(shù)據(jù)檔案庫(kù)的概念,未來(lái)的檔案庫(kù)(館),在堅(jiān)持保留傳統(tǒng)檔案存儲(chǔ)模式的同時(shí),應(yīng)存在信息檔案庫(kù)(館)和數(shù)字檔案庫(kù)(館)兩類現(xiàn)代化庫(kù)(館)。
所謂信息檔案庫(kù)(館),應(yīng)是存儲(chǔ)那些經(jīng)過(guò)國(guó)家認(rèn)定的信息范疇中,通過(guò)互聯(lián)網(wǎng)等現(xiàn)代技術(shù)手段和渠道,進(jìn)行篩選提取并加以有序存儲(chǔ)的一切重要信息,其功能是準(zhǔn)確有序保存歷史記憶,有效提供重要?dú)v史信息,為社會(huì)發(fā)展服務(wù)。
數(shù)據(jù)檔案庫(kù)(館),應(yīng)是存儲(chǔ)那些對(duì)信息檔案庫(kù)所存的信息檔案,通過(guò)現(xiàn)代先進(jìn)技術(shù),進(jìn)行各時(shí)期各重要節(jié)點(diǎn)跟蹤分析預(yù)判和決策,并加以存儲(chǔ)的數(shù)據(jù)結(jié)果,在功能上應(yīng)具有有序保存歷史數(shù)據(jù),為國(guó)家和社會(huì)提供真實(shí)可靠可信的預(yù)測(cè)和決策服務(wù)功能。
信息檔案庫(kù)和數(shù)據(jù)檔案庫(kù)的建立,一方面,使檔案存儲(chǔ)突破了以往單一的被動(dòng)存儲(chǔ)模式,向主動(dòng)收集重要信息和數(shù)據(jù)并作為檔案長(zhǎng)期保存的主動(dòng)存儲(chǔ)模式邁進(jìn),這種被動(dòng)與主動(dòng)并存的存儲(chǔ)方式轉(zhuǎn)變,使檔案存儲(chǔ)得以有序地?zé)o限放大;另一方面,從檔案歷史記憶特質(zhì)上看,未來(lái)資源化的信息檔案以資源化的數(shù)據(jù)檔案為據(jù),這種證據(jù),與以往相對(duì)比,將使檔案歷史記憶變得更加真實(shí)可靠,特別是大數(shù)據(jù)技術(shù)使檔案實(shí)現(xiàn)主動(dòng)為人類社會(huì)發(fā)展提供可靠預(yù)測(cè)和分析決策服務(wù),使未來(lái)檔案工作前景無(wú)限。
4? ? ? 結(jié)? ? 語(yǔ)
大數(shù)據(jù)在檔案信息化建設(shè)中的具體應(yīng)用,使未來(lái)檔案館實(shí)現(xiàn)質(zhì)的飛躍成為可能,它不僅使檔案存儲(chǔ)資源化,同時(shí)使檔案從被動(dòng)存儲(chǔ)向主動(dòng)存儲(chǔ)邁進(jìn),達(dá)到了互聯(lián)互通、資源共享,加快檔案館智能化建設(shè)的步伐等這一切必將對(duì)檔案歷史文化傳承、國(guó)家政務(wù)公開、深化社會(huì)服務(wù)乃至智慧城市建設(shè),發(fā)揮其重要作用?,F(xiàn)在中國(guó)正處于大發(fā)展、大變革的時(shí)期,數(shù)據(jù)的產(chǎn)生、流通、分析及應(yīng)用越來(lái)越廣泛,在現(xiàn)如今大數(shù)據(jù)的環(huán)境下,我們應(yīng)當(dāng)積極促進(jìn)檔案館的數(shù)據(jù)化、高效化,為發(fā)展提供更充足的動(dòng)力。
主要參考文獻(xiàn)
[1]吳健鵬.大數(shù)據(jù)環(huán)境下檔案館建設(shè)發(fā)展研究[J]. 蘭臺(tái)世界, 2017(20).
[2]劉俊蘭. 大數(shù)據(jù)環(huán)境下高校數(shù)字檔案館建設(shè)研究[J]. 蘭臺(tái)世界, 2017(19).
[3]李偉. 大數(shù)據(jù)時(shí)代我國(guó)數(shù)字檔案館的建設(shè)與發(fā)展[J]. 赤子, 2017(7).
[4]桂定君. 基于大數(shù)據(jù)的圖書館信息服務(wù)體系研究[J]. 河南圖書館學(xué)刊, 2014(1):111-113.