摘要:云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)已成為時(shí)代話題,我國(guó)有關(guān)大數(shù)據(jù)的報(bào)道和討論已蜂擁而至,各行各業(yè)都在努力迎接這一重大挑戰(zhàn),大數(shù)據(jù)已然成為學(xué)界的熱點(diǎn)話題。相比之下作為信息范疇的檔案學(xué)界反而談?wù)摬欢?。文章擬從大數(shù)據(jù)的概念特征、檔案實(shí)踐、檔案科研出發(fā)提出檔案學(xué)領(lǐng)域探討大數(shù)據(jù)的必要性,通過發(fā)現(xiàn)新環(huán)境下檔案現(xiàn)象和檔案理論面臨的新問題,闡述了大數(shù)據(jù)時(shí)代檔案學(xué)的挑戰(zhàn),進(jìn)而從檔案學(xué)的研究對(duì)象與內(nèi)容、檔案學(xué)研究方法論、檔案工作模式、檔案學(xué)理論體系分析大數(shù)據(jù)時(shí)代檔案學(xué)的發(fā)展趨勢(shì)。
關(guān)鍵詞:大數(shù)據(jù)檔案學(xué)云計(jì)算
Consideration about the Development Trend of Archival Science Influenced by Big Data
Abstract: Cloud Computing, Big Data and EPC System Network have become era topics, and re? search on Big Data becomes a development program of American government, and is paid much attention by types of organization. As is focused on, Big Data is now a scholastic hotspot. As paid far less attention from archives circles than form academic circles in ar? chives field which is a part of information field, Big Data discussion is pointed out to be necessary in this article, which is summarized based on concepts and features of Big Data, archives practices and archival science researches. Problems of archives phenome? na and archival theories in new environment are found out, and challenges of archival science in Big Data Times are discussed. Finally, trends of research object and contents, the methodology and the theo? retical system of archival science and the model of ar? chives cause are predicted.
Keywords: Big Data; Archives Science; Cloud Computing
2011年5月EMC[1]和McKinsey[2]幾乎同時(shí)將“Big Data”的概念拋向世人,大數(shù)據(jù)開始成為幾乎整個(gè)世界的焦點(diǎn)。2013年3月奧巴馬政府頒布《大數(shù)據(jù)研究和發(fā)展倡議》,繼“信息高速公路計(jì)劃”之后,注資2億美元以上,正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”。[3]我國(guó)有關(guān)大數(shù)據(jù)的研究和報(bào)道蜂擁而至,2011年12月工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上也提出了4項(xiàng)關(guān)鍵技術(shù),都與大數(shù)據(jù)密切相關(guān),[4]云計(jì)算、物聯(lián)網(wǎng)和大數(shù)據(jù)已經(jīng)成為時(shí)代話題。筆者在百度搜索“大數(shù)據(jù)”獲得約58,200, 000個(gè)結(jié)果,在谷歌搜索“Big Data”獲得約600,000,000個(gè)結(jié)果;在CNKI學(xué)術(shù)文獻(xiàn)總庫(kù)中按照題名中包含“大數(shù)據(jù)”進(jìn)行精確檢索共得到2923條記錄,只選擇“圖書情報(bào)與數(shù)字圖書館”“檔案及博物館”學(xué)科領(lǐng)域時(shí)得到55條記錄,并有兩篇文獻(xiàn)計(jì)量相關(guān)文獻(xiàn)[5][6],而只選擇“檔案學(xué)、檔案事業(yè)”學(xué)科領(lǐng)域時(shí)只得到6篇文獻(xiàn)(2013年10月30日)。檔案界對(duì)大數(shù)據(jù)的研究和關(guān)注相對(duì)較弱,目前對(duì)大數(shù)據(jù)的探討主要局限在概念和觀念的引入[7][8],有些學(xué)者也談到大數(shù)據(jù)引入檔案的必要性,甚至提到大數(shù)據(jù)時(shí)代檔案工作和服務(wù)方面的挑戰(zhàn)[9][10][11]。雖然這些研究已部分觸及檔案領(lǐng)域大數(shù)據(jù)的核心問題,但研究顯然不夠深入。同時(shí),這些探討往往僅針對(duì)檔案工作的某些環(huán)節(jié),還未關(guān)照到對(duì)檔案整個(gè)學(xué)科的影響以及可能涉及的檔案學(xué)理論的突破。本文試圖結(jié)合檔案學(xué)以往的發(fā)展規(guī)律,探討大數(shù)據(jù)影響下檔案學(xué)的發(fā)展趨勢(shì),進(jìn)而引發(fā)大數(shù)據(jù)時(shí)代檔案學(xué)理論可能性突破的思考。
一、檔案學(xué)領(lǐng)域有必要探討大數(shù)據(jù)
(一)大數(shù)據(jù)及其特征
業(yè)界對(duì)大數(shù)據(jù)的概念眾說紛紜,學(xué)界也無定論。總體而言,大數(shù)據(jù)可以用“一種資源(Source)、一種理念(Idea)、一種應(yīng)用(Application)”來概括。一種“資源”是指大數(shù)據(jù)本身的物性,即以二進(jìn)制形式記錄于磁性載體的可以被識(shí)別和處理的有用代碼,海量數(shù)據(jù)是對(duì)大數(shù)據(jù)最基本的認(rèn)識(shí),但數(shù)據(jù)資源的價(jià)值和利用形式具有更深遠(yuǎn)的意義。一種“理念”是指大數(shù)據(jù)活動(dòng)中的一種觀念或邏輯思維,是對(duì)數(shù)據(jù)資源價(jià)值實(shí)現(xiàn)形式的價(jià)值觀和方法論的革新,最典型的就是“啤酒+尿不濕”的營(yíng)銷案例。這種理念催生了人類經(jīng)歷了實(shí)驗(yàn)、理論和計(jì)算后的第四種科學(xué)研究范式,這種范式暫且被稱為“科學(xué)發(fā)現(xiàn)”,具有鮮明的革命性,在其影響下,社會(huì)科學(xué)有可能實(shí)現(xiàn)定量化研究,從而成為真正的自然科學(xué)[12]。一種“應(yīng)用”是指由于大數(shù)據(jù)處理需求而產(chǎn)生的各種技術(shù)、基礎(chǔ)設(shè)施平臺(tái),以及以大數(shù)據(jù)為基礎(chǔ)的人類活動(dòng)和產(chǎn)品,直接體現(xiàn)了大數(shù)據(jù)的社會(huì)價(jià)值。任何人在談及大數(shù)據(jù)時(shí),其范疇無外乎這三者中的一種,或兼而有之。
業(yè)界對(duì)大數(shù)據(jù)的基本特征用4V來概括,其中包括規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity),在第四個(gè)V上有不同的理解,IDC認(rèn)為大數(shù)據(jù)應(yīng)該具有價(jià)值性(Value),而IBM認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(Ve? racity)。這主要從大數(shù)據(jù)的物性角度考慮,實(shí)際上并非一定要有巨大的數(shù)據(jù)量才能稱為大數(shù)據(jù),它更多的是強(qiáng)調(diào)從各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中獲取有價(jià)值信息的能力,這種能力以其速度和準(zhǔn)度來衡量[13]。從ScholarSpace[14]的目標(biāo)與體系來看,我們可以發(fā)現(xiàn)其實(shí)大數(shù)據(jù)更多的是關(guān)注人,而非數(shù)據(jù)本身,正如研究機(jī)構(gòu)Gartner所指出,“大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用”[15]。從目前大數(shù)據(jù)的應(yīng)用案例[16]來看,大數(shù)據(jù)試圖實(shí)現(xiàn)“信息關(guān)聯(lián)->行為預(yù)測(cè)->精準(zhǔn)推送”,它將通過移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)逐漸改變?nèi)祟惖男袨榉绞健?/p>
(二)檔案領(lǐng)域的大數(shù)據(jù)趨勢(shì)
檔案實(shí)踐領(lǐng)域,以檔案館館藏資源為主體,包括數(shù)字化檔案、歸檔電子文件等檔案數(shù)字資源總量達(dá)到了PB級(jí),檔案館具有了大數(shù)據(jù)特征[17],同樣具有檔案價(jià)值的其他零散數(shù)字記錄、日志文件等非結(jié)構(gòu)化數(shù)據(jù)也在以井噴式的速度爆發(fā),大數(shù)據(jù)處理能力必然成為檔案工作中的基本需求。而隨著整個(gè)社會(huì)和生產(chǎn)環(huán)境中大數(shù)據(jù)的運(yùn)用,公共服務(wù)、輔助決策等檔案活動(dòng)中也要求更快更準(zhǔn)確的智力支持。大數(shù)據(jù)無孔不入,將逐漸滲透到各個(gè)行業(yè),這將與檔案實(shí)踐需求最終耦合。
檔案科研領(lǐng)域,大數(shù)據(jù)不可避免要成為檔案研究的一個(gè)方面。丁華東在其論著中從檔案屬性的角度構(gòu)建出五種檔案學(xué)理論范式,并認(rèn)為檔案信息資源管理范式是主流范式,知識(shí)管理范式是前沿范式。[18]它們的基本問題之一就是“電子文件”。利用CNKI學(xué)術(shù)研究熱點(diǎn)工具對(duì)“檔案學(xué)、檔案事業(yè)”學(xué)科領(lǐng)域進(jìn)行檢索,“電子文件,電子檔案,電子文件管理”的熱度、文獻(xiàn)量、作者、機(jī)構(gòu)都牢牢占據(jù)第一位。以學(xué)術(shù)趨勢(shì)搜索工具搜索“電子文件”,其學(xué)術(shù)關(guān)注度仍然呈上升趨勢(shì)??梢婋娮游募嚓P(guān)研究是目前檔案學(xué)科研的最核心領(lǐng)域。從電子文件的分類來看,按來源和形成方式可分為數(shù)據(jù)庫(kù)文件、電子數(shù)據(jù)表、字處理文檔、電子郵件等八類,按信息組織的方式可以分為結(jié)構(gòu)化文件、非結(jié)構(gòu)化文件。[19]這種對(duì)數(shù)字資源的分類其實(shí)就是大數(shù)據(jù)的構(gòu)成形式,而實(shí)際上電子文件研究試圖構(gòu)建數(shù)據(jù)的檔案意義(資源),檔案知識(shí)管理研究試圖從海量數(shù)據(jù)中挖掘高價(jià)值信息提煉知識(shí)以輔助決策(理念),數(shù)字檔案館研究則試圖提供相應(yīng)的技術(shù)和平臺(tái)(應(yīng)用),可見某種意義上檔案學(xué)領(lǐng)域探討大數(shù)據(jù)已經(jīng)在進(jìn)行。而另一方面,2011年后檔案學(xué)領(lǐng)域?qū)υ朴?jì)算的關(guān)注也非常高,經(jīng)過檢索,檔案學(xué)領(lǐng)域僅2011年和2012年題名中包含“云計(jì)算”的文獻(xiàn)就有38篇。大數(shù)據(jù)和云計(jì)算有著極其密切的聯(lián)系,實(shí)際上是先有大數(shù)據(jù)的事實(shí),而后有云計(jì)算的概念,兩者之間是靜與動(dòng)的關(guān)系[20],“云計(jì)算與大數(shù)據(jù)是一個(gè)硬幣的兩面,云計(jì)算是大數(shù)據(jù)的基礎(chǔ),而大數(shù)據(jù)是云計(jì)算的一個(gè)殺手級(jí)應(yīng)用”,云計(jì)算最初就是為了解決大數(shù)據(jù)問題,同時(shí)也是大數(shù)據(jù)實(shí)現(xiàn)的基礎(chǔ)[21]。因此,檔案學(xué)領(lǐng)域不可能只關(guān)注云計(jì)算而忽視大數(shù)據(jù)。
二、大數(shù)據(jù)帶給檔案學(xué)的挑戰(zhàn)
(一)檔案現(xiàn)象的新變化
從上古結(jié)繩記事到如今以秒來計(jì)算的ZB級(jí)海量數(shù)據(jù),每一次人類文明的進(jìn)步、信息革命的開始,都給檔案工作增添了新鮮的色彩[22]。以電子文件為例,從最早引進(jìn)國(guó)外相關(guān)思想開始[23],圍繞電子文件是否屬于檔案學(xué)探討范疇的爭(zhēng)論從未淡退,然而信息革命帶來的新興檔案現(xiàn)象是檔案學(xué)無法回避的歷史課題,不到20年的時(shí)間,檔案學(xué)領(lǐng)域已經(jīng)將電子文件管理上升到國(guó)家戰(zhàn)略的高度[24]。21世紀(jì)初注定是一個(gè)互聯(lián)網(wǎng)爆發(fā)的時(shí)期,近十年來我國(guó)互聯(lián)網(wǎng)迅猛發(fā)展,據(jù)一份報(bào)道[25],2011年我國(guó)互聯(lián)網(wǎng)年產(chǎn)值2660億元。中國(guó)互聯(lián)網(wǎng)快速進(jìn)入了移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)時(shí)代,隨之而來的互聯(lián)網(wǎng)技術(shù)革命也在劇烈的展開中,云計(jì)算和大數(shù)據(jù)帶來的時(shí)代革命一方面被廣泛運(yùn)用于商業(yè)活動(dòng)中,另一方面也在輿情監(jiān)測(cè)[26]、醫(yī)療健康[27]、防止犯罪[28]等社會(huì)領(lǐng)域發(fā)揮作用,以數(shù)據(jù)為核心概念的檔案現(xiàn)象悄然發(fā)生著。一方面,檔案的范疇正在變化。檔案概念經(jīng)歷了(史料)文件論、記錄論、信息論和記憶論,但無論在什么概念范疇中探討,其實(shí)都將檔案定義在某一特定的意義區(qū)間。經(jīng)過20多年的探討,電子文件的檔案意義已經(jīng)無人質(zhì)疑,然而作為記錄這個(gè)社會(huì)真實(shí)一面,與公民身份、財(cái)產(chǎn)、健康、安全等切身利益密切相關(guān)的各種網(wǎng)絡(luò)信息、電子郵件、碎片化文本、簡(jiǎn)訊、電子書、活動(dòng)記錄等等非官方的零散性非結(jié)構(gòu)化數(shù)據(jù),恰恰被這個(gè)時(shí)代的檔案學(xué)者和工作者拋諸腦后。實(shí)踐領(lǐng)域已經(jīng)有企業(yè)試圖利用大數(shù)據(jù)為客戶建立檔案以提高利潤(rùn)[29],也有企業(yè)順勢(shì)推出了服務(wù)于政務(wù)、行業(yè)和企業(yè)的大數(shù)據(jù)檔案信息系統(tǒng)[30]。而另一方面,檔案意義的數(shù)據(jù)正在社會(huì)領(lǐng)域發(fā)揮價(jià)值。如前所述,檔案意義的數(shù)據(jù)在輿情、醫(yī)療、治安、商業(yè)、政務(wù)等領(lǐng)域中開始發(fā)揮巨大作用,還有博友呼吁依靠大數(shù)據(jù)來分析個(gè)人的誠(chéng)信和道德[31]。隨著整個(gè)社會(huì)認(rèn)知水平的提升,公民檔案意識(shí)越來越強(qiáng),人民群眾成為檔案利用主體,不少檔案館過去每天接待幾個(gè)人,現(xiàn)在每天接待幾十人甚至幾百人[32]。在大數(shù)據(jù)影響下,檔案服務(wù)的方式也正在從被動(dòng)服務(wù)向主動(dòng)服務(wù)轉(zhuǎn)變。雖然檔案法規(guī)定“檔案國(guó)有”,然而檔案的實(shí)際控制權(quán)也在發(fā)生變化:雖然以網(wǎng)絡(luò)信息為主的檔案數(shù)據(jù)在某種程度上更能反映這個(gè)時(shí)代的真實(shí)全貌,但它們正在逐漸被商業(yè)機(jī)構(gòu)所壟斷,而這些商業(yè)化機(jī)構(gòu)為了自己的經(jīng)濟(jì)利益,按照自己的衡量標(biāo)準(zhǔn)管理和銷毀這些數(shù)據(jù)。檔案學(xué)人必須提高對(duì)這些現(xiàn)象的關(guān)注,研究其本質(zhì)與規(guī)律,提出科學(xué)的管理模式,以盡自己的歷史責(zé)任。
(二)檔案學(xué)理論的逆境
大數(shù)據(jù)中所蘊(yùn)含的檔案學(xué)意義不言自明,但如何將理論與現(xiàn)實(shí)接軌,或?qū)⒊蔀榇髷?shù)據(jù)視野下檔案學(xué)研究的基本突破點(diǎn)。20世紀(jì)中葉以來,機(jī)讀檔案大量產(chǎn)生,檔案信息化步伐加快,檔案信息開發(fā)和利用成為“檔案人員的首要任務(wù)”,北美檔案界率先對(duì)來源原則發(fā)出質(zhì)疑。直到20世紀(jì)80年代電子文件時(shí)代到來,對(duì)來源原則的質(zhì)疑發(fā)生了變化,特里·庫(kù)克等提倡“新來源觀”,戴維·比爾曼在90年代將“元數(shù)據(jù)”引入電子文件管理領(lǐng)域,最終完成了來源原則的“重新發(fā)現(xiàn)”。來源原則仍然被認(rèn)為是檔案學(xué)核心理論,并能適用于電子文件管理活動(dòng)中。[33]進(jìn)入信息時(shí)代以來,檔案學(xué)理論不斷經(jīng)歷著各種挑戰(zhàn),發(fā)展步伐愈加急湊,“文件生命周期理論”“檔案鑒定理論”等檔案學(xué)核心理論都遭受了巨大的挑戰(zhàn),并實(shí)現(xiàn)了飛躍??梢园l(fā)現(xiàn),每一次檔案資源范疇和檔案信息形式的變化,都會(huì)對(duì)現(xiàn)有的檔案學(xué)理論帶來挑戰(zhàn),當(dāng)現(xiàn)有檔案學(xué)理論相遇大數(shù)據(jù)時(shí),很多理論也表現(xiàn)出短板與無奈。實(shí)際上20多年來,檔案學(xué)理論的發(fā)展似乎陷入了瓶頸,在時(shí)代推力下其外延在不斷擴(kuò)展,但核心理論體系仍然沒有大的突破,真正意義的范式革命并沒有發(fā)生。H·托馬斯·??松赋觯?1世紀(jì)檔案管理的一項(xiàng)挑戰(zhàn)即將更多的資源用于非文字館藏的管理[34],大數(shù)據(jù)資源中充斥著碎片化的離散型檔案數(shù)據(jù),這些數(shù)據(jù)時(shí)而表現(xiàn)出極強(qiáng)的關(guān)聯(lián)性,例如同一信息中的文字、圖片、視頻和鏈接因同一主題而聚合在一起;時(shí)而又表現(xiàn)出極弱的聚合價(jià)值,又如同一用戶常常關(guān)注非常多的領(lǐng)域,其產(chǎn)生的信息聚合意義相對(duì)降低。面對(duì)互聯(lián)網(wǎng)、局域網(wǎng)、PC、移動(dòng)終端產(chǎn)生的檔案數(shù)據(jù),不能陳守來源原則,也不能以傳統(tǒng)的整理鑒定理論一而概之,否則很難為挖掘高價(jià)值信息并提煉知識(shí)提供幫助。更值得一提的是,大數(shù)據(jù)表現(xiàn)出來的活力似乎還不能用現(xiàn)有的理論將其概括,或許將會(huì)有新的理論來為將要發(fā)生的檔案理論變革奠定基礎(chǔ)。
三、大數(shù)據(jù)影響下檔案學(xué)的發(fā)展趨勢(shì)
(一)檔案學(xué)研究對(duì)象或內(nèi)容的擴(kuò)充
前文多次提及,非正式非官方非結(jié)構(gòu)化的信息在構(gòu)建社會(huì)記憶中有著舉足輕重的作用,很多以往沒有被關(guān)注的信息形式正在被不斷發(fā)現(xiàn),成為檔案信息資源體系中的重要組成部分。檔案學(xué)的研究對(duì)象是檔案現(xiàn)象及其本質(zhì)與規(guī)律,檔案范疇的變化,檔案意義的數(shù)據(jù)在社會(huì)各個(gè)領(lǐng)域發(fā)揮價(jià)值,都促使檔案學(xué)者開始思考大數(shù)據(jù)時(shí)代檔案管理與服務(wù)的新模式[35][36][37][38][39]。首先,作為資源的大數(shù)據(jù)中包含了電子文件在內(nèi)的檔案意義的數(shù)字資源,其中很多超出了我們目前檔案信息資源管理領(lǐng)域探討的資源形式。其次,在這種資源形式基礎(chǔ)上進(jìn)行的檔案活動(dòng)很多是我們以往未曾預(yù)料的新現(xiàn)象。最后,就像電子文件時(shí)代檔案學(xué)研究?jī)?nèi)容的擴(kuò)展一樣,大數(shù)據(jù)特性帶來的技術(shù)、設(shè)備、平臺(tái)、制度等,都要求檔案學(xué)者進(jìn)一步研究,這些研究將極大程度地豐富檔案學(xué)。本質(zhì)上,在檔案學(xué)領(lǐng)域探討大數(shù)據(jù),首先是對(duì)電子文件管理和檔案信息化研究領(lǐng)域的擴(kuò)展;但由于其理念的革命性,大數(shù)據(jù)很有可能會(huì)對(duì)檔案學(xué)核心理論體系帶來巨大的撼動(dòng)。
(二)檔案學(xué)研究方法論的創(chuàng)新
方法論研究是科學(xué)研究的重要基礎(chǔ),檔案學(xué)研究方法論是檔案學(xué)研究的重要方面。前文已經(jīng)提及,Watts指出借助社交網(wǎng)絡(luò)和計(jì)算機(jī)技術(shù),社會(huì)科學(xué)可能成為一門真正的自然科學(xué)[40];計(jì)算機(jī)圖靈獎(jiǎng)得主Jim Gray提出科學(xué)研究的第四范式[41]——數(shù)據(jù)密集型科學(xué)研究(Data-in? tensive Science)——引起了學(xué)界的強(qiáng)烈反應(yīng)。以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)密集型科學(xué)研究,無需模型就可以通過數(shù)據(jù)挖掘出可靠的新模式、新知識(shí)、新規(guī)律,微軟發(fā)布了《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》論文集對(duì)此進(jìn)行解釋[42]。計(jì)算社會(huì)科學(xué)(Computational Social Science)[43]是基于特定社會(huì)需求在特定的社會(huì)理論指導(dǎo)下,收集、整理和分析數(shù)據(jù)足跡(data print)以便進(jìn)行社會(huì)解釋、監(jiān)控、預(yù)測(cè)與規(guī)劃的過程和活動(dòng)。數(shù)字人文(Digital Humanities)也被稱為人文計(jì)算[44],則是將現(xiàn)代先進(jìn)的信息技術(shù)運(yùn)用到人文社會(huì)科研中以獲得基于非傳統(tǒng)理論與模式的結(jié)論,其本質(zhì)是方法論,倫敦大學(xué)學(xué)院數(shù)字人文中心主任Melissa M. Terras認(rèn)為“未來,數(shù)字人文必將成為人文學(xué)科研究的主流之一”[45]。檔案學(xué)的研究尚以理性思辨或?qū)嵶C考查為主,而隨著數(shù)字人文等上述以數(shù)據(jù)聯(lián)系為基礎(chǔ)的研究方法論的出現(xiàn),也將彌補(bǔ)檔案學(xué)研究中存在的遺憾,甚至推翻原有的一些曾被認(rèn)為是真理的理論。例如在檔案推廣評(píng)價(jià)研究中,目前主要基于“是否開展”“展示量”“人次”等被動(dòng)數(shù)據(jù)作為支撐,而如果擁有大數(shù)據(jù),研究者則可以充分挖掘參與檔案推廣活動(dòng)的受眾用戶相關(guān)數(shù)據(jù),獲得用戶對(duì)活動(dòng)的評(píng)價(jià)及傳播力等,建立更為科學(xué)的體系來評(píng)價(jià)活動(dòng)價(jià)值和尋找問題的解決辦法。我國(guó)檔案學(xué)研究正在從定性走向定量[46],大數(shù)據(jù)時(shí)代的到來,為檔案學(xué)研究方法提供了更多的選擇,甚至可能實(shí)現(xiàn)“以嚴(yán)格的學(xué)術(shù)研究取代目前常用的經(jīng)驗(yàn)總結(jié)和定性判斷”[47]。
(三)檔案工作模式的發(fā)展
檔案工作主要為“八項(xiàng)內(nèi)容”和“兩大方面”[48],“管”和“用”這兩方面一直是檔案管理理論研究的重要課題。由于物質(zhì)技術(shù)條件、社會(huì)條件的限制,“卷”被作為早期檔案管理的基本單位,但隨著檔案數(shù)量的急劇增加、檔案類型的繁多、檔案工作重心轉(zhuǎn)向利用為主,在技術(shù)條件允許的情況下,立卷改革后檔案管理逐漸以“件”作為基本單位,這一改革使得檔案管理更加科學(xué)[49]。而隨著大數(shù)據(jù)時(shí)代到來,以“件”為單位的方法可能仍然無法適應(yīng)實(shí)際中的某些特殊情況,大數(shù)據(jù)有即時(shí)性、碎片化、非結(jié)構(gòu)化等特征,很多數(shù)據(jù)的出現(xiàn)不能以“件”論之,它們有的還可以分拆,有的甚至難以用某一個(gè)量詞來形容。而大數(shù)據(jù)對(duì)檔案資源本身的組織形式的依賴性也將進(jìn)一步弱化,依靠智能化的檢索和挖掘技術(shù),從大數(shù)據(jù)中挖掘出有用信息不再需要較為嚴(yán)格的組織形式,例如,在文本挖掘中,常常以句段,甚至是字、詞或詞組作為知識(shí)來源,傳統(tǒng)以全宗為檔案組織形式的管理模式甚至可能束縛新技術(shù)的挖掘能力。因此,未來以“條”或其他更小的單位作為檔案管理的基本單位將成為可能。同時(shí),檔案利用工作也可能發(fā)生變化。傳統(tǒng)模式下,檔案利用以“檢索”作為一切利用和服務(wù)的基礎(chǔ),無論從最初的人工服務(wù)方式,還是發(fā)展后的檔案信息系統(tǒng)服務(wù)方式,要對(duì)檔案信息進(jìn)行利用和開發(fā),都無法繞過檢索活動(dòng)。而進(jìn)入大數(shù)據(jù)時(shí)代,以符合用戶需求的即時(shí)性快速精準(zhǔn)的信息推送模式,或?qū)⒊蔀槲磥硇畔⒎?wù)的主要方式,檔案信息服務(wù)的底層基礎(chǔ)可能不再是檢索,而是智能化的數(shù)據(jù)挖掘。檔案信息資源的價(jià)值將在大數(shù)據(jù)技術(shù)的支持下得到最大程度的釋放。這些新的變化,將促進(jìn)檔案學(xué)者對(duì)檔案工作模式的進(jìn)一步探索。
(四)檔案學(xué)理論體系的新增長(zhǎng)
檔案學(xué)理論的擴(kuò)展受到實(shí)踐環(huán)境的影響,雖然從實(shí)踐出發(fā),可以將檔案學(xué)的發(fā)展軌跡歸納為“簡(jiǎn)單總結(jié)過去經(jīng)驗(yàn)->科學(xué)抽象指導(dǎo)實(shí)踐->超越現(xiàn)實(shí)預(yù)測(cè)未來->深刻反思理論自身”[50],但線性的發(fā)展模式過于簡(jiǎn)單,理論與實(shí)踐之間常常具有時(shí)而牽制又時(shí)而促進(jìn)的關(guān)系,30多年來我國(guó)檔案學(xué)經(jīng)歷了一個(gè)波浪式前進(jìn)、螺旋式上升的曲折發(fā)展過程[51]。為了適應(yīng)檔案工作實(shí)踐環(huán)境的變化,適應(yīng)社會(huì)、政治、經(jīng)濟(jì)、文化等各個(gè)方面的發(fā)展,檔案學(xué)理論被不斷擴(kuò)展,或是揚(yáng)棄,或是發(fā)展,或是創(chuàng)新,構(gòu)成了創(chuàng)新性檔案學(xué)理論集合概念[52]。前文提到,檔案學(xué)理論的發(fā)展似乎陷入了瓶頸,檔案學(xué)者作為主導(dǎo)檔案學(xué)變革的主體應(yīng)與時(shí)俱進(jìn),檔案與生俱來同信息的一致性和自身的特殊性決定了檔案學(xué)能積極適應(yīng)和主動(dòng)調(diào)整變革[53]。在面對(duì)21世紀(jì)新的信息科技環(huán)境,檔案實(shí)踐本身不可避免地在信息環(huán)境中跟隨科技大潮的推進(jìn)而不斷跟進(jìn),通過上文的闡述可知,大數(shù)據(jù)時(shí)代的到來也將使得檔案實(shí)踐發(fā)生巨大的變化,這一變化又將深刻影響檔案理論體系的發(fā)展。這種發(fā)展不僅僅是單方面的進(jìn)步,就像數(shù)字檔案館的研究一樣,大數(shù)據(jù)和云計(jì)算給檔案學(xué)理論體系帶來的增長(zhǎng)也可能是系統(tǒng)的:檔案意義的大數(shù)據(jù)資源、理念模式、技術(shù)平臺(tái)都將擴(kuò)展檔案學(xué)理論體系。面對(duì)大數(shù)據(jù)帶來的理論與實(shí)踐挑戰(zhàn),同時(shí)借助逐漸成熟的大數(shù)據(jù)技術(shù)與理念,檔案學(xué)理論體系本身很有可能實(shí)現(xiàn)新的突破,甚至對(duì)來源原則、鑒定理論等核心理論提出革命性觀點(diǎn)。
四、結(jié)語
據(jù)DCCI互聯(lián)網(wǎng)數(shù)據(jù)中心2012年給出的數(shù)據(jù)顯示:2010年全球數(shù)據(jù)量已達(dá)1.2 ZB,到2020年將達(dá)到35ZB[54];2011年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1.8ZB,到2013年產(chǎn)生這樣規(guī)模的數(shù)據(jù)只需要10分鐘[55],大數(shù)據(jù)時(shí)代已經(jīng)到來。有人詼諧地打了一個(gè)比方,“如果一名大學(xué)教授因生病而取消上午的課程,其學(xué)生的鬧鐘和咖啡機(jī)就會(huì)自動(dòng)修改程序,讓他們可以多睡一個(gè)小時(shí)?!笨梢娙藗儗?duì)大數(shù)據(jù)的依賴越來越強(qiáng),人類生活方式也在悄然變化,這種變化集中反映為數(shù)據(jù)作為核心資源地位的提升。雖然大數(shù)據(jù)還未被檔案學(xué)領(lǐng)域深入探討,具有什么特征的數(shù)據(jù)才屬于檔案學(xué)研究范疇還尚無定論,但無疑這些記錄人類記憶數(shù)據(jù)的研究、保護(hù)和開發(fā)利用工作,將是歷史賦予檔案學(xué)的責(zé)任。檔案學(xué)的發(fā)展歷程告訴我們,每一次重大的技術(shù)革新都必然影響著檔案學(xué)的發(fā)展,計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的引入,出現(xiàn)了電子文件、檔案信息化和數(shù)字檔案館等管理理念與實(shí)踐,它改變了文件與檔案的處理流程,也為檔案大數(shù)據(jù)奠定了基礎(chǔ)。學(xué)科發(fā)展的前瞻性,使我們不得不思考,新的更大的技術(shù)和觀念的變化,必將為檔案學(xué)帶來新的增長(zhǎng),它注定會(huì)打破當(dāng)前檔案學(xué)研究的瓶頸。在很近的未來,或許我們應(yīng)該探討大數(shù)據(jù)對(duì)檔案領(lǐng)域更為具體和深入的影響。這既是挑戰(zhàn),也是契機(jī),檔案學(xué)人是否準(zhǔn)備好迎接大數(shù)據(jù)時(shí)代?
參考文獻(xiàn):
[1] EMC World 2011云計(jì)算相遇大數(shù)據(jù)[EB/OL].http://news.watchstor.com/spec/emcworld2011/
[2] McKinsey Global Institute. Big data: The nextfron? tier forinnovation, competitionand productivity[EB/OL]. http://www.mckinsey.com/insights/business_technology/ big_data_the_next_frontier_for_innovation
[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(1):146-169
[4]大數(shù)據(jù).百度百科[EB/OL].http://baike.baidu.com/ view/6954399.htm
[5]楊繹.基于文獻(xiàn)計(jì)量的“大數(shù)據(jù)”研究[J].圖書館雜志, 2012(9):29-32+37;
[6]韓芳芳,范群,韓青青.我國(guó)大數(shù)據(jù)領(lǐng)域研究論文的計(jì)量分析[J].圖書館學(xué)研究,2013(8):2-7
[7]吳緒成.淺談大數(shù)據(jù)背景下的第四代檔案館建設(shè)[J].湖北檔案,2013(3):9-12
[8]周楓.大數(shù)據(jù)時(shí)代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):6-9
[9]李小晨.大數(shù)據(jù)時(shí)代背景下的檔案管理探討[J].云南檔案,2013(6):48-50
[10]施永利.大數(shù)據(jù)時(shí)代背景下的檔案利用服務(wù)探討[J].商,2012(11):145+129
[11]庫(kù)俊平.大數(shù)據(jù)環(huán)境中企業(yè)文書檔案的信息化管理及利用[J].創(chuàng)新科技,2013(9):50-51
[12] Watts D J.A twenty- first century science[J].Na? ture.2007.445(7127):489
[13]郭自寬,張興旺,麥范金.大數(shù)據(jù)生態(tài)系統(tǒng)在圖書館中的應(yīng)用[J].情報(bào)資料工作,2013(2):23-28
[14]ScholarSpace[EB/OL].http://www.cdblp.cn/
[15]大數(shù)據(jù)的概念、技術(shù)應(yīng)用與分析及數(shù)據(jù)的處理[EB/ OL].http://bbs.pinggu.org/bigdata/
[16]大數(shù)據(jù)的概念、技術(shù)應(yīng)用與分析及數(shù)據(jù)的處理[EB/ OL].http://bbs.pinggu.org/bigdata/
[17]周楓.大數(shù)據(jù)時(shí)代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):6-9
[18]丁華東.檔案學(xué)理論范式研究[M].上海:世界圖書出版公司,2011
[19]劉家真.電子文件管理——電子文件與證據(jù)保留[M].北京:科學(xué)出版社,2009
[20]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報(bào),2012(5):37-40
[21]蘇金樹,李東升.大數(shù)據(jù)的技術(shù)挑戰(zhàn)與機(jī)遇[J].國(guó)防科技,2013(2):18-23
[22]時(shí)云.信息革命與檔案沿革——淺議科技研究與檔案承載媒介變更的關(guān)系[J].蘭臺(tái)世界,2006(5):4-5
[23]羅伯特·F·威廉斯,許士平.電子文件管理——即將來臨的文件管理革命[J].檔案學(xué)訊,1988(1):102-105+34
[24]馮惠玲,趙國(guó)俊,等.電子文件管理國(guó)家戰(zhàn)略芻議[J].檔案學(xué)通訊,2006(3):4-8
[25]互聯(lián)網(wǎng)一年產(chǎn)值2660億行業(yè)掘金正當(dāng)時(shí)[EB/OL]. http://tactic.asiafinance.cn/news/2012-01-12/ asia0000032807.shtml
[26]李彪.大數(shù)據(jù)視域下社會(huì)輿情研究的新境界[J].編輯之友,2013(6):13-15+19
[27]健康云上的大數(shù)據(jù)分析[EB/OL].http://tech.ccid? net.com/art/40955/20120516/3861093_1.html
[28] BBC.地平線.大數(shù)據(jù)時(shí)代[EB/OL].http://video.si? na.com.cn/v/b/107900125-2192582404.html
[29]大數(shù)據(jù)實(shí)際運(yùn)用,如何給企業(yè)創(chuàng)利?[EB/OL].http://www.36dsj.com/archives/3398
[30]東方飛揚(yáng)大數(shù)據(jù)平臺(tái)掀起檔案大數(shù)據(jù)浪潮[EB/ OL].http://esoft.ctocio.com.cn/399/12691899.shtml
[31]新浪微博[EB/OL].http://weibo.com/ 1907073627/A67l8oLYX
[32]楊冬權(quán)關(guān)于增加各級(jí)國(guó)家檔案館人員編制的提案全文[EB/OL].http://www.saac.gov.cn/news/2013- 03/07/ content_23540.htm
[33]馮惠玲,張輯哲.檔案學(xué)概論[M].北京:中國(guó)人民大學(xué)出版社,2006:250-258
[34] H·托馬斯·??松?,肖永英.檔案行業(yè)面臨的十項(xiàng)挑戰(zhàn)[J].山西檔案,2004,01:13-17
[35]吳緒成.淺談大數(shù)據(jù)背景下的第四代檔案館建設(shè)[J].湖北檔案,2013(3):9-12
[36]周楓.大數(shù)據(jù)時(shí)代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):6-9
[37]李小晨.大數(shù)據(jù)時(shí)代背景下的檔案管理探討[J].云南檔案,2013(6):48-50
[38]施永利.大數(shù)據(jù)時(shí)代背景下的檔案利用服務(wù)探討[J].商,2012(11):145+129
[39]庫(kù)俊平.大數(shù)據(jù)環(huán)境中企業(yè)文書檔案的信息化管理及利用[J].創(chuàng)新科技,2013(9):50-51
[40] Watts D J.A twenty- first century science[J].Na? ture.2007.445(7127):489
[41] Jim G. On eScience—A transformed scientific method[C]//Tony H, Stewart T, Kirstin T.The fourth para? digm:Data- intensive scientific discovery.Redmond, WA: MicrosoftResearch,2009:19-33
[42]微軟《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》中文版發(fā)布[EB/OL].http://www.msra.cn/Articles/ArticleItem.aspx? Guid=62d4765a-635e-4558-80a2-77c5c329f1f2
[43] Kumar R. Two computaional paradigm for big da? ta.KDD summer school 2012[EB/OL].http://kdd2012.sig? kdd.org/sites/images/summerschool/Ravi-Kumar.pdf
[44]數(shù)字人文.百度百科[EB/OL].http://baike.baidu. com/view/4754105.htm
[45]楊敏.數(shù)字人文:人文學(xué)科范式轉(zhuǎn)變新思路[N/OL].中國(guó)社會(huì)科學(xué)報(bào).2013-6-24
[46]熊志云.檔案學(xué)研究的定性與定量方法淺析[J].檔案學(xué)研究,2002,06:24-27
[47]高大偉.檔案學(xué)的元問題及可能的形而上[J].檔案學(xué)通訊,2012(4):45-48
[48]馮惠玲,張輯哲.檔案學(xué)概論[M].北京:中國(guó)人民大學(xué)出版社,2006:237
[49]陳智為,鄧紹興,劉越男.檔案管理學(xué)[M].北京:中國(guó)人民大學(xué)出版社,2008:171-176
[50]劉燕華.從理論覺醒到理論自覺——論檔案學(xué)理論發(fā)展中的層次性[J].檔案管理,2000(5):11-12
[51]汝信,易克信等.當(dāng)代中國(guó)社會(huì)科學(xué)手冊(cè)[Z].社會(huì)科學(xué)文獻(xiàn)出版社
[52]王佳.網(wǎng)絡(luò)時(shí)代創(chuàng)新性檔案學(xué)理論發(fā)展[J].信息系統(tǒng)工程,2011(2):34-35
[53]李健.信息理論與技術(shù)對(duì)檔案學(xué)的影響研究[D].天津:天津師范大學(xué),2012
[54] Adworld2012互動(dòng)營(yíng)銷世界[EB/OL].http://www. adworld.org.cn/index2012.html
[55]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報(bào),2012(5):37-40
作者單位:南昌大學(xué)人文學(xué)院