張丹
隨著全球信息化進程加快,大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)之后到來的社會信息化的又一產(chǎn)物,是社會信息化的必經(jīng)階段,與同是信息領(lǐng)域的檔案工作有著必然聯(lián)系,我們應(yīng)該利用大數(shù)據(jù)完善發(fā)展檔案工作。但同時卻有一些檔案界學(xué)者認(rèn)為大數(shù)據(jù)與檔案毫無關(guān)系可言,兩個是屬于不同性質(zhì)的事物。本文認(rèn)為,大數(shù)據(jù)與檔案,同屬于信息領(lǐng)域的兩個名詞,必然有著不可切斷的聯(lián)系。本文將從三個方面來論證檔案與大數(shù)據(jù)有著緊密關(guān)系。
1??檔案與大數(shù)據(jù)同屬信息領(lǐng)域
中國人民大學(xué)馮慧玲教授給予檔案的定義是:檔案是社會組織或個人在以往的社會實踐活動中直接形成的具有清晰、確定的原始記錄作用的固化信息。?這也就意味著檔案是信息的一部分,與大數(shù)據(jù)有著密不可分的關(guān)系。反過來講,對于大數(shù)據(jù)的定義,企業(yè)和學(xué)術(shù)界目前尚未形成公認(rèn)的準(zhǔn)確認(rèn)識,維基百科將其定義為“無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合”。從概念上講,大數(shù)據(jù)與檔案一樣產(chǎn)生主體皆為人,也都是在具體實踐活動行為中產(chǎn)生,而且兩者類型多樣,同樣包含著文字、圖像、視頻、音頻等多種形式。兩者也同樣具有極高的價值,傳統(tǒng)檔案的價值在于它的憑證性和參考性,而大數(shù)據(jù)存在的最終價值是能夠預(yù)測。如:?google流感趨勢利用搜索關(guān)鍵詞預(yù)測禽流感的散布等。檔案遇上大數(shù)據(jù)后,檔案價值將延伸到能夠社會化利用,不僅僅是作為憑證與參考存在。
2??檔案與大數(shù)據(jù)同是社會記憶
有些學(xué)者認(rèn)為檔案是清晰明確的,具有原始記錄性的,它從產(chǎn)生之初就被各種標(biāo)準(zhǔn)框架相約束,是一個規(guī)范的、完整的信息集合,而大數(shù)據(jù)的產(chǎn)生是零散的、碎片化的信息,毫無規(guī)范可言。從這個角度講,確實毫無關(guān)系。但本文認(rèn)為檔案之所以規(guī)范,是因為有標(biāo)準(zhǔn)規(guī)范的檔案工作對其進行收、管、用等管理,有管理的意識存在。而大數(shù)據(jù)之所以雜亂,是因為它自從產(chǎn)生就無人管理。再加上大數(shù)據(jù)中大部分信息屬于原生數(shù)字信息資源,其存在的載體為數(shù)字平臺,此載體上的信息容易形成、復(fù)制、傳播與銷毀,易于受到外來攻擊等導(dǎo)致大數(shù)據(jù)的雜亂、不規(guī)范、不標(biāo)準(zhǔn),無管理的意識存在,這才造成了兩者存在狀態(tài)完全對立的狀態(tài)。就如上文所說,大數(shù)據(jù)產(chǎn)生的主體是人,這些數(shù)據(jù)是對人類生活和客觀世界的測量和記錄,涵蓋了人們生活的各個方面,它不僅是人們發(fā)表的隨身小記錄,更是整個大社會的記憶庫。然而近些年來,檔案工作也將社會記憶、集體記憶觀念納入理論框架和實踐范疇,越來越自覺地參與集體記憶的構(gòu)建、維護與傳承,認(rèn)為檔案也是社會記憶的一部分。毋庸置疑,社會記憶是零散的,它是每個個體產(chǎn)生的零碎信息,但其又體現(xiàn)社會記憶的具有重要價值,是珍貴檔案的一部分。
3??檔案與大數(shù)據(jù)互相包含
有些學(xué)者認(rèn)為大數(shù)據(jù)屬于在線數(shù)據(jù),而不包含離線數(shù)據(jù),因為在線數(shù)據(jù)是開放的,能夠分析利用且創(chuàng)造更多財富價值的數(shù)據(jù)。而離線數(shù)據(jù)是不公開的,其價值也具有出入性和針對性的,且基本無財富可挖掘的數(shù)據(jù),比如銀行內(nèi)的客戶數(shù)據(jù)。因此,他們認(rèn)為,大數(shù)據(jù)是有價值可以創(chuàng)造財富的在線數(shù)據(jù)。但本文認(rèn)為這是相關(guān)IT企業(yè)對大數(shù)據(jù)的片面認(rèn)知,此認(rèn)知只是有利于相關(guān)企業(yè)能夠更好地利用大數(shù)據(jù)創(chuàng)造更多價值,而并沒有參透大數(shù)據(jù)真正的意義。大數(shù)據(jù)之所以稱“大”,是因為它容量之大,種類之多;之所以稱為“數(shù)據(jù)”,是因為每天所產(chǎn)生的一條數(shù)據(jù)相對于該天產(chǎn)生的總量來說就如同傳統(tǒng)意義上的數(shù)據(jù)一樣渺小,它應(yīng)該同時包括在線數(shù)據(jù)和離線數(shù)據(jù)。另一方面,檔案中有公開可利用的檔案,也有絕密不可公開的檔案,若依照上文所說,檔案的利用人群確實有針對性和出入性,看起來并無關(guān)聯(lián)。但檔案無論公開與否,它們都具有極高的價值存在,況且有些機密性檔案的價值并不是可公開檔案的價值所能比擬的,如國家機密檔案,從斯諾登的“棱鏡事件”就可看出國家機密的重要性。如此說來,前后具有矛盾。因此,本文認(rèn)為,大數(shù)據(jù)應(yīng)包括在線數(shù)據(jù)和離線數(shù)據(jù),當(dāng)然檔案也包含于大數(shù)據(jù)之中。檔案中也應(yīng)保存有大數(shù)據(jù)中有長久保存價值的數(shù)據(jù),二者相互包含,有密切的聯(lián)系。
檔案工作從古至今就一直存在著,它不斷地發(fā)展、不斷地更新,如今大數(shù)據(jù)的出現(xiàn)又可以為檔案工作注入新鮮的血液,使它煥發(fā)生機,更好地為檔案事業(yè)服務(wù)。
(作者單位:上海師范大學(xué)人文與傳播學(xué)院信息管理系??來稿日期:2015-04-18)