楊加勇
【摘要】:大數(shù)據(jù)是繼云計算之后近年來信息技術領域最熱門的話題之一。檔案部門在大數(shù)據(jù)的背景下,將是未來的發(fā)展趨勢,是值得思考和重視的新問題。這里結合工作實際,粗淺談談大數(shù)據(jù)背景下的檔案館建設。
【關鍵詞】:大數(shù)據(jù);檔案館;建設
一、大數(shù)據(jù)是價值觀、方法論和通往未來的鑰匙
社會已經處于互聯(lián)網、移動互聯(lián)網時代,數(shù)以百億計的機器、機關、團體、企業(yè)、個人都會隨時隨地通過網絡獲取信息,并成為信息的制造者和傳播者。在這個時代,不僅數(shù)據(jù)量呈現(xiàn)爆炸式增長,同時種類繁多。對于這些數(shù)據(jù)的收集、存儲、挖掘,既是時代難題,也是時代機遇。
二、大數(shù)據(jù)時代來臨對于檔案館的沖擊
“檔案館”顧名思義是管檔案、用檔案的地方。檔案館的核心是檔案載體所承載的信息。如果把檔案所承載的信息換算成數(shù)據(jù),在大數(shù)據(jù)時代來臨的背景下,值得關注的問題很多,沖擊將是不可避免的,也是巨大而全面的。
首先是思想觀和思維方式。傳統(tǒng)檔案館習慣于大門緊閉、坐等上門、被動服務、檔案要少而精,在大數(shù)據(jù)時代顯然不合時宜。大數(shù)據(jù)時代對于以“守”為主的傳統(tǒng)檔案思想觀和思維方式的敲打將是多角度、深層次的。
其次是目標定位。在大數(shù)據(jù)時代來臨的背景下,原有的目標定位不能停止不動,而應該水漲船高。區(qū)別的分水嶺是坐守外部推動,還是主動內部發(fā)力。宏觀的謀劃、微觀的切入與主觀的態(tài)度,都需要有一個精確的算計和考量。力量應該來源于思辨的透徹、實踐的提煉與技術的整合應用。
其三是發(fā)展路徑。建設適應大數(shù)據(jù)背景下的第四代檔案館,路要一步步走,基礎很重要。進入21世紀以后的頭十幾年,面對社會信息化的浪潮,中國檔案部門的思維焦點主要是檔案信息化、檔案數(shù)字化、電子檔案管理和數(shù)字檔案室、數(shù)字檔案館建設。其發(fā)展的速度快,成績大,效果顯著。檔案館也不能僅僅滿足于現(xiàn)有技術條件下的檔案信息化、檔案數(shù)字化和數(shù)字檔案館,而應該在新技術的基礎上尋找新的出路與航程??傮w上,大數(shù)據(jù)時代的來臨已經和正在對社會方方面面產生深刻而持久的影響,檔案部門對此應該保持高度的清醒和警覺,并學習應用大數(shù)據(jù)的預測工具和方法,及早提出應對的思路和策略,部署新的規(guī)劃和措施,最大限度地爭取主動,避免陷入“猝不及防”的邊緣化風險。
三、智慧檔案館是適應大數(shù)據(jù)時代要求的檔案館
檔案館建設的實踐脈路大體可以分為4個不同的階段。一是實體檔案館。檔案館作為一種社會實體,存在的歷史由來已久。實體檔案館以檔案館建筑實體為標志,側重于傳統(tǒng)檔案的實體管理。二是智能檔案館。20世紀80年代,建筑界提出了智能建筑的新概念。它是現(xiàn)代計算機技術、通信技術、控制技術發(fā)展和相互滲透的結晶。所謂智能建筑,是指將計算機、通信、辦公自動化、保安監(jiān)控、防火等技術有機整合在一起的高新技術建筑綜合體。只要是按現(xiàn)代管理方式運作的行業(yè),它的建筑都有智能建筑的要求。智能檔案館是現(xiàn)代智能建筑的伴生產物。由此可見,所謂智能檔案館,側重于建筑硬件的智能化、自動化、集成化,是對傳統(tǒng)實體檔案館的一種現(xiàn)代化升級。智能檔案館比傳統(tǒng)實體檔案館的高明之處在于融入了現(xiàn)代建筑思想,突出了技術進步對于檔案館建筑設計的巨大貢獻。但并沒有脫離傳統(tǒng)實體檔案館的窠臼。三是數(shù)字檔案館。數(shù)字檔案館,也可以稱為虛擬檔案館,是與實體檔案館的一種對稱,所謂數(shù)字檔案館,是指以實體檔案館為基本依托,以智能檔案館為基本支撐,以電子檔案為基本對象的一種新型檔案館形式,是基于電子檔案產生而帶來的檔案管理與服務的大變革,是檔案館事業(yè)發(fā)展一個新時代的跨越與標識。四是智慧檔案館。智慧檔案館是適應大數(shù)據(jù)背景下的第四代檔案館,是繼數(shù)字檔案館之后檔案信息化發(fā)展的高級形態(tài)。智慧檔案館借鑒了智慧地球、智慧城市的理念。智慧檔案館的目標則是應用新一代信息技術及相關工具和方法,最大限度地提高檔案資源的整合建設能力和開發(fā)服務能力。
四、智慧檔案館的最好解釋與關鍵節(jié)點
智慧檔案館的最好解釋是“聰明”。“聰明”的標識是不僅能讓機器“說話”,而且能夠通過機器的深度學習聽懂人的語言,看清人的手勢,理解人的意圖,并恰如其分地提供令人滿意的服務。
智慧檔案館的關鍵節(jié)點主要包括以下幾個方面:一是大數(shù)據(jù)的來源。二是大數(shù)據(jù)特征的認知。首先是數(shù)據(jù)量要大,同時要注重數(shù)據(jù)的完整性。三是大數(shù)據(jù)技術的運用。大數(shù)據(jù)應用的領域非常廣闊,前景也十分光明。但目前大數(shù)據(jù)技術的運用仍存在一些困難與挑戰(zhàn),主要體現(xiàn)在大數(shù)據(jù)挖掘的四個環(huán)節(jié)中。首先是大數(shù)據(jù)的收集。要對來自網絡包括物聯(lián)網和機構信息系統(tǒng)的數(shù)據(jù)附上時空標志,去偽存真,盡可能收集異源甚至是異構的數(shù)據(jù),必要時還可與歷史數(shù)據(jù)對照,多角度驗證數(shù)據(jù)的全面性和可信性。其次是數(shù)據(jù)存儲。要達到低成本、低能耗、高可靠性目標,通常要用到冗余配置、分布化和云計算技術,在存儲時要按照一定規(guī)則對數(shù)據(jù)進行分類,通過過濾和去重,減少存儲量,同時加入日后檢索的標簽。第三是數(shù)據(jù)處理。有些行業(yè)的數(shù)據(jù)涉及上百個參數(shù),其復雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構、多實體和多空間之間的交互動態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復雜度很大,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關聯(lián)進行語義分析,從大量動態(tài)而且可能是模棱兩可的數(shù)據(jù)中綜合信息,并導出可理解的內容。第四是結果的可視化呈現(xiàn),使結果更直觀以便于洞察。現(xiàn)有的數(shù)據(jù)挖掘算法在不同行業(yè)中難以通用。這些困難與挑戰(zhàn)在智慧檔案館的建設進程中將會顯得更加突出和集中。
參考文獻:
[1]鄭燃,唐義,戴艷清.基于關聯(lián)數(shù)據(jù)的圖書館、檔案館和博物館數(shù)字資源整合研究[J].《圖書與情報》.2012年1期.
[2]周楓.資源·技術·思維——大數(shù)據(jù)時代檔案館的三維詮釋[J].《檔案學研究》.2013年6期.