摘 ?要:在大數(shù)據(jù)時(shí)代來臨及“數(shù)字中國(guó)”的背景下,檔案管理工作受到了新的挑戰(zhàn),如何能夠順應(yīng)時(shí)代,讓傳統(tǒng)檔案管理工作與大數(shù)據(jù)、云計(jì)算等互聯(lián)網(wǎng)技術(shù)相結(jié)合,從而實(shí)現(xiàn)大數(shù)據(jù)在檔案管理工作中的應(yīng)用變得更為迫切。就此,本文對(duì)“數(shù)字中國(guó)”背景下的檔案大數(shù)據(jù)進(jìn)行了討論。
關(guān)鍵詞:數(shù)字中國(guó);電子檔案;大數(shù)據(jù)
中圖分類號(hào):G270.7 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)18-0081-03
Abstract:With the advent of the era of big data and the background of “digital China”,archives management is facing new challenges. How to adapt to the era and integrate traditional archives management with internet technologies such as big data and cloud computing,so as to realize big data of archives management becomes more urgent. In this regard,this paper discusses the big data of archives under the background of “digital China”.
Keywords:digital China;electronic archives;big data
0 ?引 ?言
麥肯錫公司(McKinsey & Company)作為全球知名的咨詢公司,最早提出了大數(shù)據(jù)時(shí)代的到來,并認(rèn)為數(shù)據(jù)已經(jīng)滲透到全球各行各業(yè)的業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素[1]。2012年召開黨的十八大以后,“數(shù)字中國(guó)”被提上新高度,作為新時(shí)代國(guó)家信息化發(fā)展的新戰(zhàn)略,其覆蓋面涉及經(jīng)濟(jì)、政治等多個(gè)領(lǐng)域,包括了大數(shù)據(jù)在內(nèi)的多個(gè)內(nèi)容。為促進(jìn)“數(shù)字中國(guó)”的建設(shè),國(guó)家互聯(lián)網(wǎng)信息辦公室、國(guó)家發(fā)展和改革委員會(huì)等部門主辦的“數(shù)字中國(guó)建設(shè)峰會(huì)”已舉辦了第二屆,為“數(shù)字中國(guó)”建設(shè)提供了良好的技術(shù)交流平臺(tái)。由此可見,大數(shù)據(jù)在國(guó)家戰(zhàn)略中的地位越來越高?!皵?shù)字中國(guó)”這一背景也對(duì)檔案管理工作提出了新要求,如何能夠讓檔案管理工作順應(yīng)時(shí)代潮流、建設(shè)整合數(shù)字資源、提高數(shù)字檔案建設(shè)水平、加強(qiáng)數(shù)字檔案管理水平及挖掘數(shù)字檔案潛在資源被提上議程。為此,本文將對(duì)“數(shù)字中國(guó)”背景下的檔案大數(shù)據(jù)進(jìn)行討論。
1 ?檔案大數(shù)據(jù)的概念及數(shù)據(jù)來源
1.1 ?檔案大數(shù)據(jù)的概念
維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶在2008年首先提出了“大數(shù)據(jù)(big data、mega data)”一詞。一般認(rèn)為,大數(shù)據(jù)指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)?!吨腥A人民共和國(guó)檔案法》對(duì)檔案的概念下了定義,是指過去和現(xiàn)在的國(guó)家機(jī)構(gòu)、社會(huì)組織以及個(gè)人從事政治、軍事、經(jīng)濟(jì)、科學(xué)、技術(shù)、文化、宗教等活動(dòng)直接形成的對(duì)國(guó)家和社會(huì)有保存價(jià)值的各種文字、圖表、聲像等不同形式的歷史記錄。
2012年后,大數(shù)據(jù)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新,檔案大數(shù)據(jù)這一概念也就應(yīng)運(yùn)而生。所謂的檔案大數(shù)據(jù),一般認(rèn)為是一個(gè)數(shù)據(jù)集,是在檔案業(yè)務(wù)活動(dòng)開展中形成和采集的,具有價(jià)值屬性、難以在短時(shí)間內(nèi)分析處理等特點(diǎn),并與檔案及檔案活動(dòng)密切相關(guān)。
1.2 ?檔案大數(shù)據(jù)的來源
根據(jù)檔案大數(shù)據(jù)的概念,其是在檔案業(yè)務(wù)活動(dòng)開展中形成和產(chǎn)生的,這也就確定了其數(shù)據(jù)的來源主要有以下幾個(gè)方面[2]。
(1)檔案自身。檔案自身數(shù)據(jù)主要是指檔案管理部門所收集的各種文字、圖表、聲像等多種形式的記錄,諸如檔案管理系統(tǒng)產(chǎn)生的數(shù)據(jù)、載體材料及規(guī)格等數(shù)據(jù),同時(shí)也包括根據(jù)檔案內(nèi)容進(jìn)行分類等所形成的目錄、摘要及查詢指南等。這部分?jǐn)?shù)據(jù)是檔案大數(shù)據(jù)中最主要的組成部分,也最具檔案特色。
(2)在檔案部門開展檔案業(yè)務(wù)活動(dòng)中形成的。這部分?jǐn)?shù)據(jù)主要有兩個(gè)源頭,一個(gè)是檔案部門自身產(chǎn)生的,另外一個(gè)是檔案部門通過其他途徑收集而來的,諸如檔案部門自身的檔案結(jié)構(gòu)數(shù)據(jù)、部門概括及相關(guān)的檔案管理政策、法律和檔案管理行業(yè)數(shù)據(jù)等。
(3)檔案用戶后續(xù)產(chǎn)生的數(shù)據(jù)。諸如檔案用戶的個(gè)人情況更新、查詢檔案記錄、個(gè)人需求偏好等用戶個(gè)人相關(guān)數(shù)據(jù)的再次產(chǎn)生。
上述三個(gè)部分是檔案大數(shù)據(jù)的主要來源,也就是說檔案大數(shù)據(jù)的來源除此之外還有其他來源,但這些數(shù)據(jù)的產(chǎn)生并不代表其就會(huì)被納入檔案大數(shù)據(jù)范疇,只有經(jīng)過篩選、整理后,具有價(jià)值的內(nèi)容才會(huì)被納入檔案大數(shù)據(jù)。
2 ?檔案大數(shù)據(jù)的特點(diǎn)
2.1 ?大數(shù)據(jù)
學(xué)術(shù)界一般認(rèn)為大數(shù)據(jù)應(yīng)該具有“4V+1O”的特點(diǎn)[3]:
(1)數(shù)據(jù)量大(Volume),即數(shù)據(jù)在采集、存儲(chǔ)及計(jì)算過程中的量非常大,一般都至少以P(1000T)作為起始計(jì)量單位。
(2)類型繁多(Variety),即數(shù)據(jù)的種類及其來源繁多。包括可以使用關(guān)系型數(shù)據(jù)庫(kù)表示和存儲(chǔ),表現(xiàn)為二維形式的結(jié)構(gòu)化數(shù)據(jù);不符合關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層的半結(jié)構(gòu)化數(shù)據(jù);及文檔、圖片、視頻/音頻等非結(jié)構(gòu)化數(shù)據(jù)。
(3)價(jià)值密度低(Value),即數(shù)據(jù)的價(jià)值密度不高。隨著網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步,信息無處不在,但其中不乏許多無價(jià)值信息,造成信息價(jià)值密度低的問題。在這種情況下,如何通過邏輯算法等方式挖掘有價(jià)值的數(shù)據(jù)信息,是當(dāng)前大數(shù)據(jù)時(shí)代最為迫切的問題。
(4)速度快時(shí)效高(Velocity),即數(shù)據(jù)增長(zhǎng)和處理的速度快,同時(shí)也有著較高的時(shí)效性,這也是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。
(5)數(shù)據(jù)是在線的(Online),即數(shù)據(jù)永不掉線,可以隨時(shí)被調(diào)取和使用,這一特點(diǎn)被認(rèn)為是區(qū)別于傳統(tǒng)數(shù)據(jù)最顯著的特征?;ヂ?lián)網(wǎng)技術(shù)的高速發(fā)展,為數(shù)據(jù)永不掉線提供了可能,并且更加充分地發(fā)揮了數(shù)據(jù)的價(jià)值。
2.2 ?檔案大數(shù)據(jù)
檔案大數(shù)據(jù)是在大數(shù)據(jù)基礎(chǔ)上發(fā)展而來,因此,它既具有大數(shù)據(jù)的一些特征,也有著自己的特性[4、5]。
(1)數(shù)據(jù)量大。數(shù)十年的傳統(tǒng)檔案累計(jì),形成了較大的待數(shù)字化存量,且伴隨著互聯(lián)網(wǎng)發(fā)展,業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)量也在劇增。2017年國(guó)家檔案局局長(zhǎng)李明華就曾在全國(guó)檔案局長(zhǎng)館長(zhǎng)會(huì)議上提及,我國(guó)館藏檔案在“十一五”末已達(dá)3.92億余卷(件),形成了海量的檔案數(shù)據(jù)。
(2)數(shù)據(jù)類型復(fù)雜。檔案大數(shù)據(jù)也同樣包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),且伴隨著各行各業(yè)業(yè)務(wù)工作同互聯(lián)網(wǎng)的交叉,越來越多的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生并占據(jù)了主流位置。
(3)價(jià)值密度高。相對(duì)于其他大數(shù)據(jù),由于檔案大數(shù)據(jù)普遍具有較高完整性、真實(shí)性和準(zhǔn)確性,即便數(shù)據(jù)大規(guī)模發(fā)展后,價(jià)值密度也不會(huì)降低太多,這也是檔案大數(shù)據(jù)特別之處。
(4)動(dòng)態(tài)性和穩(wěn)定性。檔案數(shù)據(jù)需要通過動(dòng)態(tài)生成并且收集,其后進(jìn)行分析、整理、存儲(chǔ)及調(diào)用,這樣就賦予了檔案大數(shù)據(jù)動(dòng)態(tài)性。而檔案的證據(jù)及憑證功能,則要求數(shù)據(jù)具有一定穩(wěn)定性,在經(jīng)過處理,轉(zhuǎn)換成有效檔案數(shù)據(jù)后,就應(yīng)當(dāng)鎖定為不可更改數(shù)據(jù),因此具有數(shù)據(jù)的穩(wěn)定性。
(5)技術(shù)依賴性強(qiáng)。各行各業(yè)在電腦技術(shù)發(fā)展和普及前,使用的都是傳統(tǒng)檔案,這樣就造成檔案的存量數(shù)據(jù)很大。為實(shí)現(xiàn)存量檔案的大數(shù)據(jù)化,就要求具有強(qiáng)大的信息技術(shù),以最快的速度存儲(chǔ)、甄別和調(diào)用存量檔案數(shù)據(jù)。
(6)處理速度快。傳統(tǒng)的檔案管理,需要利用紙質(zhì)材料,造成人工查閱、調(diào)取速度緩慢。大數(shù)據(jù)技術(shù)則要求數(shù)據(jù)的生成、分析、整理、存儲(chǔ)和調(diào)取等各個(gè)環(huán)節(jié)都要在較短時(shí)間內(nèi)完成,發(fā)展檔案大數(shù)據(jù)化,也是為了實(shí)現(xiàn)這一目標(biāo)。
3 ?實(shí)行檔案大數(shù)據(jù)的必要性
3.1 ?大數(shù)據(jù)時(shí)代發(fā)展的需要
正如哈佛大學(xué)社會(huì)學(xué)教授加里·金說:“這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程?!泵绹?guó)政府于2012年發(fā)布《大數(shù)據(jù)的研究和發(fā)展計(jì)劃》,將大數(shù)據(jù)處理上升到國(guó)家安全層次;日本也于2013年發(fā)布“創(chuàng)建最尖端IT國(guó)家宣言”,提出通過將大數(shù)據(jù)提升為國(guó)家戰(zhàn)略,以此提高日本競(jìng)爭(zhēng)力;我國(guó)也于2014年首次將大數(shù)據(jù)寫入政府工作報(bào)告,并于2015年發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》[6]。我國(guó)檔案管理工作正在經(jīng)歷著從紙質(zhì)到電子、手工到智能化、分散管理到信息共享的轉(zhuǎn)變,檔案管理部門只有緊隨時(shí)代發(fā)展潮流,推動(dòng)檔案大數(shù)據(jù)發(fā)展,才能確保我國(guó)檔案管理事業(yè)不會(huì)落后。
3.2 ?“數(shù)字中國(guó)”建設(shè)的需要
在國(guó)家提出“互聯(lián)網(wǎng)+”“寬帶中國(guó)”等戰(zhàn)略并深度參與國(guó)際數(shù)字經(jīng)濟(jì)合作后,“數(shù)字中國(guó)”于2017年黨的十九大報(bào)告中首次被提出,進(jìn)一步提升了國(guó)家信息化戰(zhàn)略?!皵?shù)字中國(guó)”的核心是數(shù)據(jù),是數(shù)據(jù)與各行各業(yè)的深度融合,這就要求信息資源具有數(shù)據(jù)化、智能性和共享性等特點(diǎn)。
以我國(guó)絕大多數(shù)檔案館為例,雖都已在推進(jìn)檔案電子化,但還是有相當(dāng)部分的檔案為紙質(zhì)檔案,且電子化檔案存在格式不一、分散保存及數(shù)據(jù)庫(kù)建設(shè)標(biāo)準(zhǔn)不一等問題,很難形成聯(lián)動(dòng)、檔案數(shù)據(jù)共享,容易造成信息孤島現(xiàn)象。對(duì)于推進(jìn)檔案電子化,也僅僅是將紙質(zhì)檔案的圖片化保存,缺乏數(shù)據(jù)化處理。檔案管理部門作為服務(wù)經(jīng)濟(jì)社會(huì)發(fā)展的重要部門之一,只有實(shí)行檔案大數(shù)據(jù)化,促進(jìn)檔案資源的整合和共享,深度挖掘大數(shù)據(jù)的經(jīng)濟(jì)價(jià)值,創(chuàng)造數(shù)字經(jīng)濟(jì),服務(wù)民生,才能更好地服務(wù)“數(shù)字中國(guó)”建設(shè)。
3.3 ?檔案管理部門自身發(fā)展的需要
(1)避免檔案脹庫(kù)的需要。如果沒有實(shí)現(xiàn)檔案數(shù)據(jù)化,各行各業(yè)的檔案管理都會(huì)不可避免地產(chǎn)生一個(gè)問題,那就是檔案數(shù)量急劇增加,最后造成檔案脹庫(kù)現(xiàn)象。傳統(tǒng)的檔案脹庫(kù)指的是因紙質(zhì)檔案庫(kù)房容量有限而檔案數(shù)量劇增造成存放地不足的現(xiàn)象。新時(shí)代的脹庫(kù)現(xiàn)象,可認(rèn)為是各行各業(yè)檔案管理部門雖然進(jìn)行檔案數(shù)字化,將紙質(zhì)檔案圖片化,卻只是實(shí)現(xiàn)單純意義上的檔案數(shù)字化,且未能構(gòu)建全國(guó)性的檔案信息化數(shù)據(jù),形成信息孤島,數(shù)據(jù)存在重疊,雖然相對(duì)于傳統(tǒng)的紙質(zhì)檔案可以減緩脹庫(kù)現(xiàn)象,但是最終也會(huì)不可避免地發(fā)生脹庫(kù)。只有在數(shù)字化的基礎(chǔ)上進(jìn)一步數(shù)據(jù)化,在大數(shù)據(jù)基礎(chǔ)上對(duì)檔案進(jìn)行有效的獲取、存儲(chǔ)、加工和利用,才能進(jìn)一步緩解脹庫(kù)現(xiàn)象[7]。
(2)促進(jìn)檔案管理部門工作轉(zhuǎn)型的需要。隨著互聯(lián)網(wǎng)發(fā)展,尤其是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,給傳統(tǒng)的檔案工作帶來了巨大挑戰(zhàn)。人民日益增長(zhǎng)的信息需求、各行各業(yè)通過檔案大數(shù)據(jù)挖掘信息價(jià)值的需求以及提供個(gè)性化服務(wù)的需求在不斷提升,對(duì)檔案信息的服務(wù)質(zhì)量、服務(wù)效率和服務(wù)廣度都提出了更高的要求。這樣也就要求檔案管理部門必須從大數(shù)據(jù)管理和云計(jì)算技術(shù)角度構(gòu)建管理架構(gòu),建章立制,將管理的檔案資料進(jìn)行整合,加強(qiáng)檔案信息資源建設(shè),解決檔案數(shù)據(jù)孤島問題。
4 ?結(jié) ?論
總之,通過變革和創(chuàng)新實(shí)現(xiàn)檔案大數(shù)據(jù)才是檔案管理部門在“大數(shù)據(jù)”時(shí)代的生存之道。檔案管理部門如何在大數(shù)據(jù)快速發(fā)展中抓住契機(jī),如何利用新技術(shù)和創(chuàng)新服務(wù)管理模式,給檔案管理部門帶來挑戰(zhàn)和機(jī)遇,是當(dāng)前檔案管理部門需要面對(duì)和解決的問題。還應(yīng)注意的是,檔案管理部門在發(fā)展檔案大數(shù)據(jù)時(shí),應(yīng)當(dāng)根據(jù)檔案大數(shù)據(jù)的特點(diǎn)和自身工作職能,在傳統(tǒng)工作的基礎(chǔ)上,尋找適合自身發(fā)展的大數(shù)據(jù)道路。
參考文獻(xiàn):
[1] 陳慧.大數(shù)據(jù)時(shí)代檔案信息安全價(jià)值實(shí)現(xiàn)策略研究 [J].檔案天地,2018(6):35-37.
[2] 康蠡,金慧.檔案大數(shù)據(jù)定義與內(nèi)涵解析 [J].檔案管理,2017(1):24-26.
[3] 王平,安亞翔.大數(shù)據(jù)時(shí)代的檔案信息平臺(tái)建設(shè) [J].檔案與建設(shè),2015(10):8-13.
[4] 陶水龍.大數(shù)據(jù)時(shí)代下數(shù)字檔案館面臨的機(jī)遇與挑戰(zhàn) [J].中國(guó)檔案,2013(10):66-68.
[5] 魯?shù)挛?試述檔案大數(shù)據(jù)的定義、特征及核心內(nèi)容 [J].檔案,2014(4):13-15.
[6] 向立文,李培杰.檔案部門實(shí)施檔案大數(shù)據(jù)戰(zhàn)略的必要性與可行性研究 [J].浙江檔案 2018(10):10-12.
[7] 李明娟.從“數(shù)字化”走向“數(shù)據(jù)化”——大數(shù)據(jù)下檔案管理工作發(fā)展道路 [J].辦公室業(yè)務(wù),2016(12):171+145.
作者簡(jiǎn)介:林蔚(1978-),女,漢族,福建寧德人,小學(xué)高級(jí)教師,本科,研究方向:檔案信息化、檔案資源開發(fā)與利用。