文·樊樹娟
隨著社會信息化程度的加深,檔案信息資源數(shù)量正以前所未有的速度增長,并廣泛存在于政府部門、企事業(yè)單位以及個人等不同類型的社會主體中。信息技術(shù)的發(fā)展使檔案信息更多的以非結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)的形式產(chǎn)生和保存,檔案數(shù)字化進程的加快也使檔案資源的形態(tài)快速向數(shù)據(jù)化轉(zhuǎn)變,我們正在走向檔案大數(shù)據(jù)時代。在這一時代背景下,檔案逐漸被視為一種數(shù)據(jù)資產(chǎn),其意義并不在于檔案數(shù)據(jù)資源的龐大占有量,而在于對其所蘊含的信息和知識進行充分開發(fā)和利用,像一座“數(shù)據(jù)礦山”,需要通過各種手段提煉出有價值的信息和知識產(chǎn)品,才能更好地服務(wù)于經(jīng)濟發(fā)展和社會進步。
目前,學界對“檔案大數(shù)據(jù)”的定義仍沒有定論,大多數(shù)學者在大數(shù)據(jù)定義與特征的基礎(chǔ)上進行探討闡釋。有人強調(diào)檔案大數(shù)據(jù)的體量巨大,用目前主流軟件工具在合理時間內(nèi)無法從中獲取信息[1];有人認為檔案大數(shù)據(jù)特指檔案中的大數(shù)據(jù),是檔案數(shù)據(jù)的集合[2];有人指出檔案大數(shù)據(jù)是在檔案業(yè)務(wù)活動中形成的與檔案相關(guān)的數(shù)據(jù)集[3];也有人從大檔案觀、知識挖掘、思維方法與管理模式等方面來強調(diào)檔案大數(shù)據(jù)與大數(shù)據(jù)聯(lián)系之密切[4]。從不同角度理解,幾位學者的觀點都有其合理性。
從理論探討和實踐嘗試兩方面來看,檔案大數(shù)據(jù)在生成、管理、開發(fā)和利用等方面已經(jīng)具有大數(shù)據(jù)的一些基本特性,但其本質(zhì)仍然是具有原始記錄性的檔案。檔案大數(shù)據(jù)更像是檔案信息化過程中自然產(chǎn)生的一種現(xiàn)象或檔案工作發(fā)展的新樣態(tài),在這一現(xiàn)象發(fā)展成熟之前,各界尚無法對其定義進行明確界定。但可以看出,檔案大數(shù)據(jù)的核心內(nèi)容是檔案資源,以大規(guī)模數(shù)據(jù)集形式存在,必須借助先進的信息技術(shù)手段進行科學管理、智能開發(fā)與開放共享式服務(wù),才能充分挖掘數(shù)據(jù)資源的內(nèi)涵,發(fā)揮潛在的無限價值。
檔案大數(shù)據(jù)的來源主要有三個方面:一是各類業(yè)務(wù)系統(tǒng)在運轉(zhuǎn)過程中直接產(chǎn)生的業(yè)務(wù)數(shù)據(jù)流轉(zhuǎn)成檔案數(shù)據(jù),包括電子文件、音視頻文件、系統(tǒng)數(shù)據(jù)、用戶數(shù)據(jù)等;二是立卷單位和檔案部門將紙質(zhì)文件或?qū)嵨锏韧ㄟ^掃描、拍照等方式轉(zhuǎn)換成電子形式而生成的檔案數(shù)據(jù);三是基于網(wǎng)絡(luò)平臺而產(chǎn)生的具有保存價值的檔案數(shù)據(jù),如電子郵件、社交媒體、各類網(wǎng)站產(chǎn)生的檔案數(shù)據(jù)。隨著信息化發(fā)展的深入,由業(yè)務(wù)系統(tǒng)生成而流轉(zhuǎn)到檔案系統(tǒng)的檔案數(shù)據(jù)與基于網(wǎng)絡(luò)平臺產(chǎn)生的檔案數(shù)據(jù)將成為檔案資源的主流,而且具有歸檔及時、數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜等特點。目前,傳統(tǒng)紙質(zhì)檔案資源經(jīng)過數(shù)據(jù)化處理轉(zhuǎn)化而成的檔案數(shù)據(jù)也仍將占據(jù)一定的比重。
檔案大數(shù)據(jù)既具有大數(shù)據(jù)的一些基本特征,也有其獨特性:
1. 數(shù)據(jù)體量巨大。社會各領(lǐng)域存量檔案數(shù)字化工作持續(xù)推進,各類業(yè)務(wù)系統(tǒng)產(chǎn)生的檔案數(shù)據(jù)快速累積,加之產(chǎn)生于官方網(wǎng)站、社交媒體等網(wǎng)絡(luò)平臺的檔案數(shù)據(jù)資源也陸續(xù)被納入歸檔范圍,檔案部門積累的檔案數(shù)據(jù)規(guī)模越來越大,數(shù)據(jù)集總量甚至能夠達到PB甚至EB級別。
2. 數(shù)據(jù)類型復(fù)雜。在網(wǎng)絡(luò)化環(huán)境中,基于各類業(yè)務(wù)系統(tǒng)與網(wǎng)絡(luò)平臺產(chǎn)生的半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)逐漸占據(jù)主流,特別是社交媒體在生活中的廣泛應(yīng)用使得照片、音視頻等數(shù)據(jù)占據(jù)了較大比重,檔案大數(shù)據(jù)類型必然呈現(xiàn)出更加多樣化和復(fù)雜性的特點。
3. 數(shù)據(jù)價值密度高。檔案數(shù)據(jù)是具有較高完整性、真實性與準確性的數(shù)據(jù),其價值不會隨著數(shù)據(jù)規(guī)模的擴張而降低,這是檔案大數(shù)據(jù)的獨特之處。在檔案內(nèi)容開發(fā)中重視檔案數(shù)據(jù)的全面性、復(fù)雜性與相關(guān)性等特征,并在數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)上進行全數(shù)據(jù)分析反而會更大程度地提升數(shù)據(jù)價值,進而開發(fā)出更高價值密度的信息和知識產(chǎn)品。
4. 數(shù)據(jù)兼具動態(tài)性與穩(wěn)定性。檔案大數(shù)據(jù)在數(shù)據(jù)處理流程上可以實現(xiàn)動態(tài)生成與捕獲、實時鑒定與存儲、自動著錄與標引以及智能分析與開放共享,但數(shù)據(jù)本身的穩(wěn)定性才能保證其作為檔案的證據(jù)與憑證功能。實時的數(shù)據(jù)流需要經(jīng)過規(guī)范處理才能轉(zhuǎn)換成有效的檔案數(shù)據(jù),如將數(shù)據(jù)鎖定為不可更改的穩(wěn)定狀態(tài)。
5. 技術(shù)依賴性強。檔案大數(shù)據(jù)的存儲、處理與服務(wù)等每一個環(huán)節(jié)都對信息技術(shù)具有強烈的依賴性。以數(shù)據(jù)驅(qū)動技術(shù)創(chuàng)新是大數(shù)據(jù)時代發(fā)展的必然趨勢。因數(shù)據(jù)體量大、結(jié)構(gòu)復(fù)雜等特點,目前主流軟件工具已不能完全滿足檔案大數(shù)據(jù)開發(fā)與信息服務(wù)方面的需求。盤活檔案數(shù)據(jù)資產(chǎn),創(chuàng)新檔案信息服務(wù)必將依賴于信息技術(shù)的創(chuàng)新與完善。
6. 處理速度快。在信息技術(shù)的幫助下,檔案數(shù)據(jù)在生成、流轉(zhuǎn)、檢索、分析、查閱、獲取等各個處理環(huán)節(jié)都能在較短的時間內(nèi)快速完成。在“數(shù)據(jù)為王”的時代,數(shù)據(jù)占有量與數(shù)據(jù)分析處理速度是決定檔案大數(shù)據(jù)開發(fā)與信息服務(wù)效果的關(guān)鍵因素。
在大數(shù)據(jù)時代,從大量檔案數(shù)據(jù)中分析潛在的價值,決定著檔案館的發(fā)展水平及方向。檔案館的傳統(tǒng)業(yè)務(wù)將向檔案資源的數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉(zhuǎn)移,對大量數(shù)據(jù)的分析與處理將成為檔案館進行資源開發(fā)與服務(wù)的主要方式[5]?;跈n案大數(shù)據(jù)的信息開發(fā)質(zhì)量與服務(wù)水平將成為衡量未來檔案館核心競爭力的重要因素。
面對大數(shù)據(jù)時代帶來的機遇與挑戰(zhàn),檔案部門必須積極應(yīng)對,突破傳統(tǒng)的思維方式,要樹立互聯(lián)網(wǎng)思維、數(shù)字化思維、數(shù)據(jù)化思維、客戶化思維[6],用大數(shù)據(jù)理念重構(gòu)檔案數(shù)據(jù)開發(fā)與服務(wù)思維模式、組織架構(gòu)與運行方式。
培養(yǎng)大數(shù)據(jù)思維方式不僅要正確認識檔案大數(shù)據(jù)規(guī)模之大、類型之繁多、結(jié)構(gòu)之復(fù)雜,更要認識到檔案大數(shù)據(jù)管理與開發(fā)過程中的一系列原理,比如接受數(shù)據(jù)的混雜性、重視數(shù)據(jù)之間的關(guān)聯(lián)性等。這種思維方式所對應(yīng)的檔案工作方式與傳統(tǒng)的檔案收集、整理、鑒定、統(tǒng)計、利用等規(guī)范化工作流程截然不同,檔案數(shù)據(jù)收集、鑒定等工作過程將更加動態(tài)化與實時性,數(shù)據(jù)內(nèi)涵挖掘、信息與知識呈現(xiàn)將成為檔案大數(shù)據(jù)狀態(tài)下檔案工作的重心。
信息社會的發(fā)展使公眾的信息權(quán)利與需求意識進一步覺醒,以用戶為中心、優(yōu)化用戶體驗是檔案部門轉(zhuǎn)變姿態(tài)與創(chuàng)新服務(wù)模式過程中應(yīng)遵循的首要理念。在檔案大數(shù)據(jù)開發(fā)過程中要秉承以用戶為中心的原則,利用大數(shù)據(jù)分析技術(shù)分析用戶需求與信息利用偏好,進而根據(jù)用戶需求開發(fā)有用的知識產(chǎn)品和面向問題解決的信息服務(wù)方案,實現(xiàn)檔案利用個性化。
在檔案信息服務(wù)過程中要優(yōu)化用戶體驗,優(yōu)化檔案資源的可用性、有用性、可找到性、可獲得性、滿意度、可靠性和價值性體驗[7],不斷提高檔案數(shù)據(jù)資源質(zhì)量,準確把握檔案信息用戶的動態(tài)需求,主動開放共享公眾利用頻次高的檔案信息,或針對檔案利用平臺注冊用戶以及其他老用戶開展檔案信息推送服務(wù),使信息服務(wù)更加便捷化、人性化。
大數(shù)據(jù)時代是讓數(shù)據(jù)說話的時代。檔案大數(shù)據(jù)信息服務(wù)的核心是以數(shù)據(jù)為驅(qū)動、以技術(shù)為支撐,通過數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)可視化等工具為用戶提供更有價值的信息與知識,進而提高效益、推動科學管理與決策。檔案數(shù)據(jù)資源建設(shè)是檔案大數(shù)據(jù)信息服務(wù)的基礎(chǔ)。大數(shù)據(jù)不僅僅是數(shù)據(jù)量巨大、數(shù)據(jù)種類繁多,在數(shù)據(jù)挖掘中更要關(guān)注數(shù)據(jù)之間的關(guān)聯(lián)性,即數(shù)據(jù)的整合度與共享度。因此,在檔案數(shù)據(jù)資源建設(shè)方面不僅要重視自身檔案數(shù)據(jù)積累狀況,更要積極參與推動行業(yè)內(nèi)部甚至全社會范圍內(nèi)檔案資源的關(guān)聯(lián)與共享。
檔案部門要進一步深化檔案數(shù)字化工作,在此基礎(chǔ)上加快檔案數(shù)據(jù)化進程,將數(shù)字檔案資源轉(zhuǎn)化成適用于大數(shù)據(jù)挖掘和分析技術(shù)的數(shù)據(jù)形式。更要加強館際合作,可以通過建立檔案資源庫連接池的方式實現(xiàn)各行業(yè)、各系統(tǒng)檔案資源庫的連接,強化數(shù)據(jù)關(guān)聯(lián),實現(xiàn)數(shù)字檔案信息資源的整合共享[8]。此外,要重視收集分散產(chǎn)生于各類網(wǎng)絡(luò)平臺的網(wǎng)絡(luò)數(shù)據(jù),網(wǎng)絡(luò)數(shù)據(jù)具有數(shù)量龐大、類型多樣和內(nèi)容繁雜的特點,檔案部門在抓取網(wǎng)絡(luò)數(shù)據(jù)歸檔時需要進行鑒定與審核,保障檔案數(shù)據(jù)的真實性與準確性。
隨著各行各業(yè)積累的檔案數(shù)據(jù)資源越來越多,加上檔案資源整合與共享程度的提高,未來將形成多個具有海量數(shù)據(jù)資源的檔案資源庫。如國家檔案局開發(fā)的國家開放檔案信息資源共享利用系統(tǒng)自上線以來,全國各省市公共檔案館已經(jīng)陸續(xù)在共享平臺上公開了大量特色檔案資源,全國范圍內(nèi)的檔案資源整合共享已初見成效。
隨著檔案數(shù)據(jù)資源的不斷豐富以及公眾查檔需求的不斷增加,利用網(wǎng)絡(luò)技術(shù)構(gòu)建多樣化、網(wǎng)絡(luò)化的檔案信息服務(wù)平臺成為必然需求。如基于大數(shù)據(jù)技術(shù)應(yīng)用的檔案大數(shù)據(jù)分析平臺、基于檔案網(wǎng)站的信息公開與智能檢索平臺以及基于移動互聯(lián)網(wǎng)終端的檔案服務(wù)微平臺等。通過構(gòu)建多樣化的服務(wù)平臺并實現(xiàn)平臺之間的連接互通來整合檔案數(shù)據(jù)資源,打通檔案數(shù)據(jù)資源之間的物理隔閡,增強共享融合,將有助于實現(xiàn)檔案數(shù)據(jù)資源的一站式檢索與智能分析。
網(wǎng)絡(luò)化的檔案信息服務(wù)方式開啟了互聯(lián)網(wǎng)時代檔案遠程服務(wù)的新篇章。特別是移動互聯(lián)網(wǎng)終端的開發(fā)使用,為檔案信息服務(wù)的開展提供了更加便捷的工具。移動終端以其存儲量大、攜帶方便、操作簡單、服務(wù)快捷、性能更高等優(yōu)點,拓寬了檔案信息接收途徑和信息服務(wù)路徑,并以絕對優(yōu)勢占據(jù)市場有利地位[9]。手機APP、微信公眾號、微信小程序、微博等基于移動終端的工具在公共檔案館和高校檔案館的檔案信息服務(wù)工作中已經(jīng)有較多成功應(yīng)用的典型。推進互聯(lián)網(wǎng)與檔案工作深度融合是檔案信息服務(wù)創(chuàng)新發(fā)展的未來方向,移動網(wǎng)絡(luò)服務(wù)方式憑借其便捷性優(yōu)勢在未來的檔案信息服務(wù)中將有更廣泛的應(yīng)用。
海量檔案數(shù)據(jù)資源的開發(fā)與服務(wù)是一項非常復(fù)雜的工作,檔案部門雖積累了大量的檔案資源,但其在大數(shù)據(jù)技術(shù)等創(chuàng)新技術(shù)應(yīng)用方面并不具有優(yōu)勢,數(shù)據(jù)的開發(fā)與信息服務(wù)需要引入其他領(lǐng)域?qū)I(yè)人員的參與??珙I(lǐng)域、跨機構(gòu)、跨部門等多種跨界合作對于新時期檔案工作的開展非常必要。通過跨界合作的方式為檔案數(shù)據(jù)挖掘和數(shù)據(jù)分析任務(wù)靈活匹配高水平的技術(shù)人才,既能夠保障數(shù)據(jù)開發(fā)與信息服務(wù)的質(zhì)量,也能夠有效彌補檔案部門各領(lǐng)域?qū)I(yè)人才不足的問題。
檔案部門在檔案管理系統(tǒng)開發(fā)、檔案數(shù)字化、檔案資源開發(fā)等方面大多采用與其他單位合作的方式,積累了較多的項目合作經(jīng)驗。隨著檔案數(shù)據(jù)資源積累的增多,檔案工作在數(shù)據(jù)收集、歸檔、大數(shù)據(jù)技術(shù)應(yīng)用以及信息服務(wù)等方方面面的跨界合作將更加普遍。例如在網(wǎng)絡(luò)數(shù)據(jù)采集方面,跨界融合為實現(xiàn)檔案部門、用戶和新媒體等網(wǎng)絡(luò)運營商三方協(xié)同優(yōu)化數(shù)據(jù)歸檔提供了一個前所未有的契機[10]。一方面檔案部門可以與網(wǎng)絡(luò)運營商合作研發(fā)網(wǎng)絡(luò)數(shù)據(jù)抓取和數(shù)據(jù)分析技術(shù),實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的及時歸檔;另一方面可以發(fā)揮社會公眾的力量,調(diào)動公眾在檔案數(shù)據(jù)收集、資源開發(fā)和信息服務(wù)中的自主性與參與性,讓用戶爭做“市民檔案員”,提高網(wǎng)絡(luò)數(shù)據(jù)采集的全面性。
檔案安全保障體系建設(shè)是我國檔案工作“三個體系”建設(shè)中的重要一環(huán),檔案實體安全、檔案數(shù)據(jù)安全、用戶隱私安全、訪問渠道安全等都是檔案部門非常重視的問題。大數(shù)據(jù)時代環(huán)境下的檔案數(shù)據(jù)安全保障工作必須制定嚴密的風險防范機制,包括檔案數(shù)據(jù)生成時的前端風險控制、數(shù)據(jù)流轉(zhuǎn)過程中的訪問通道安全控制、數(shù)據(jù)管理過程中的容災(zāi)備份措施等。檔案數(shù)據(jù)載體的穩(wěn)定性、訪問通道的安全性以及網(wǎng)絡(luò)系統(tǒng)平臺的開放性等都對檔案數(shù)據(jù)資源安全管理具有很大的影響。
基于檔案大數(shù)據(jù)的信息服務(wù)在實現(xiàn)檔案信息開放共享和服務(wù)便捷化的同時也帶來了信息泄露和侵犯用戶個人隱私等種種安全問題。在檔案工作中,無論是采用跨界合作還是吸引公眾參與的方式,都必須以維護國家機密和個人隱私為前提。涉密信息不上網(wǎng)是基本準則,在此基礎(chǔ)上開展檔案數(shù)據(jù)分析與檔案信息開放等工作要對檔案數(shù)據(jù)資源內(nèi)容進行必要的鑒定與審核。在對大量檔案用戶訪問數(shù)據(jù)進行挖掘分析過程中,需要注意預(yù)防用戶隱私信息的泄露。
大數(shù)據(jù)技術(shù)雖然為檔案數(shù)據(jù)開發(fā)與服務(wù)帶來了便利,但其應(yīng)用要因地制宜,不是所有單位或所有類型的檔案大數(shù)據(jù)都適合引進大數(shù)據(jù)技術(shù)。檔案部門要根據(jù)自身積累的檔案數(shù)據(jù)體量和內(nèi)容制定適用的數(shù)據(jù)開發(fā)方案,避免數(shù)據(jù)開發(fā)過程中帶來檔案信息安全問題。
人才是推動檔案工作創(chuàng)新發(fā)展的關(guān)鍵。檔案工作正處于一個新的業(yè)態(tài)環(huán)境中,工作內(nèi)容比以往更加豐富也更加復(fù)雜,對檔案人員的素質(zhì)要求更加趨于專業(yè)化與精細化。在新的發(fā)展時期,檔案工作人員要不斷加強學習,了解信息化背景下的檔案工作新樣態(tài),緊跟時代要求,在自己所熟悉的領(lǐng)域之外涉獵一些其他領(lǐng)域的知識,拓寬眼界,培養(yǎng)大數(shù)據(jù)思維方式,盡快掌握數(shù)據(jù)管理、開發(fā)與服務(wù)方面的理念與方法,適應(yīng)檔案大數(shù)據(jù)發(fā)展帶來的新的工作流程與方式。
檔案部門在引進人才方面要注重豐富人才的層次與結(jié)構(gòu),在引進檔案專業(yè)人才的同時,著重引進一些大數(shù)據(jù)管理與應(yīng)用相關(guān)方面的技術(shù)型人才。促進不同學科背景與工作技能的人員相互學習與交流,使其不斷強化自身綜合素質(zhì),在檔案工作中進一步加強檔案數(shù)據(jù)資源建設(shè)與大數(shù)據(jù)技術(shù)應(yīng)用,深化數(shù)據(jù)內(nèi)涵挖掘力度,更大程度地盤活檔案資源的潛在價值。
檔案大數(shù)據(jù)的發(fā)展代表著檔案領(lǐng)域一種新的數(shù)據(jù)生成、存儲和處理樣態(tài)。如果說檔案數(shù)字化是檔案信息化發(fā)展的初始階段,檔案數(shù)據(jù)化則是檔案信息化發(fā)展的深化階段,是檔案數(shù)字化建設(shè)的發(fā)展方向。信息技術(shù)的發(fā)展已經(jīng)將社會推進到了大數(shù)據(jù)環(huán)境中,檔案數(shù)據(jù)資源以前所未有的速度不斷形成和累積,是各行各業(yè)的檔案部門在信息服務(wù)工作中所共同面臨的新局面?;谶@樣的局面與發(fā)展趨勢,檔案部門必須抓住機遇,多方面做好準備迎接挑戰(zhàn),在改革與創(chuàng)新中轉(zhuǎn)變檔案部門一直以來所處的邊緣化的尷尬境地,也讓沉睡已久的檔案在新的社會環(huán)境中煥發(fā)活力。
★本文為山東省檔案局2016年科技項目“檔案大數(shù)據(jù)開發(fā)和服務(wù)機制研究”成果之一。
●
[1] 高茂科.對檔案大數(shù)據(jù)關(guān)鍵環(huán)節(jié)的認識[J].中國檔案,2013(10):72-73
[2] 魯?shù)挛洌囀鰴n案大數(shù)據(jù)的定義、特征及核心內(nèi)容[J].檔案,2014(4):13-15
[3] 康蠡,金慧.檔案大數(shù)據(jù)定義與內(nèi)涵解析[J].檔案管理,2017(1):24-26
[4] 葉大鳳,黃思棉,劉龍君.當前檔案大數(shù)據(jù)研究的誤區(qū)與重點研究領(lǐng)域思考[J].北京檔案,2015(7):14-17
[5] 周楓.大數(shù)據(jù)時代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):6-9
[6] 周玉鵬.“互聯(lián)網(wǎng)+”助推檔案服務(wù)業(yè)發(fā)展——全國首屆“‘互聯(lián)網(wǎng)+’時代檔案服務(wù)業(yè)發(fā)展高峰論壇”召開[J].中國檔案,2016(3):25
[7] 王毅,魏扣.優(yōu)化用戶體驗的數(shù)字檔案資源服務(wù)策略研究[J].檔案學通訊,2017(1):64-69
[8] 米永寧,耿志杰.應(yīng)用大數(shù)據(jù)技術(shù)開發(fā)數(shù)字檔案信息資源的現(xiàn)實困境與策略研究[J].北京檔案,2016(11):16-19
[9] 周耀林,賈聰聰.“互聯(lián)網(wǎng)+”戰(zhàn)略下數(shù)字檔案信息服務(wù)發(fā)展策略研究——基于SWOT框架的分析選擇[J].檔案學通訊,2016(4):56-61
[10] 王協(xié)舟,王露露.“互聯(lián)網(wǎng)+”時代檔案工作改革的幾點思考[J].檔案學通訊,2016(5):94-100