李艷
摘要:檔案館(局)是集中管理檔案的文化事業(yè)機構,負責接收、收集、整理、保管和提供利用檔案。圖書館、博物館和檔案館(局)三者各司其職,都是保存社會記憶和文化遺產(chǎn)的文化事業(yè)機構。隨著新時期檔案資源的擴展和管理,檔案資源的有效利用也必將得到大幅度提升。在這種情況下,建構檔案大數(shù)據(jù)系統(tǒng)成為必然要求,如何搭建高智能的基礎設施框架和采取科學、合理的方法,對價值密度低、分散、無序、海量的數(shù)據(jù)資源進行有效采集、清洗、轉(zhuǎn)換和整合,使其結構合理、價值密度高、易于管理和應用,是檔案界需要該認真思考的重要課題。
關鍵詞:新形勢;檔案大數(shù)據(jù);檔案資源;檔案管理
當前,隨著計算機技術、網(wǎng)絡技術的飛速發(fā)展以及社會對檔案的種類、數(shù)量和質(zhì)量需求大幅提升影響著檔案數(shù)字化、信息化進程,檔案大數(shù)據(jù)成為當今檔案界普遍關注的熱點問題。目前,檔案信息化管理中檔案數(shù)據(jù)基本基于單機管理,無論是結構化數(shù)據(jù)還是非結構化數(shù)據(jù)基本上比較零亂、不便管理、不能實現(xiàn)數(shù)據(jù)共享。加上檔案數(shù)據(jù)量呈幾何級增長,原有的檔案數(shù)據(jù)系統(tǒng)已經(jīng)很難適應時代發(fā)展的要求。為了解決上述問題,筆者嘗試依托互聯(lián)網(wǎng)、基于數(shù)據(jù)庫、以Hadoop為框架建構檔案大數(shù)據(jù)系統(tǒng)。檔案大數(shù)據(jù)系統(tǒng)強調(diào)智能化理念、決策理念、管理理念及服務理念的先進性,具備前瞻性和創(chuàng)新性特質(zhì)。它通過系統(tǒng)的人工智能特征及決策支持系統(tǒng)的應用功能,實現(xiàn)檔案大數(shù)據(jù)的有效利用,從而實現(xiàn)檔案服務功能的最大化,達到業(yè)務價值增值的目的。根據(jù)我國檔案信息化建設多年積累的經(jīng)驗,針對系統(tǒng)建設的自動化、智能化目標,依據(jù)計算機數(shù)據(jù)管理規(guī)則要求,筆者主要采用了垂直+水平的分布式檔案數(shù)據(jù)庫模型,從檔案數(shù)據(jù)的采集、整合、過濾、管理四個層面對檔案大數(shù)據(jù)系統(tǒng)進行建構。
一、檔案數(shù)據(jù)的采集
傳統(tǒng)的紙質(zhì)檔案管理所采集的信息不準確、圖像的清晰度及可識別性不高。而檔案大數(shù)據(jù)系統(tǒng)平臺的數(shù)據(jù)表現(xiàn)形式多樣化,如網(wǎng)頁、圖像、音頻視頻、文檔等。為了獲得高質(zhì)量的檔案數(shù)據(jù)信息,不僅可以通過內(nèi)網(wǎng)獲取現(xiàn)有局域網(wǎng)中的元數(shù)據(jù)、中心數(shù)據(jù)、引用數(shù)據(jù)、運行數(shù)據(jù)、用戶數(shù)據(jù)、服務數(shù)據(jù)等結構化數(shù)據(jù),而且也可以通過外網(wǎng)、RFID射頻、B/S移動輸入等多種方式實現(xiàn)用戶反饋、監(jiān)視器采集、遠程應用系統(tǒng)數(shù)據(jù)等非結構化數(shù)據(jù)的獲取,并對這些數(shù)據(jù)進行采集、變更和處理。其中,通過影像識別技術獲取的動態(tài)數(shù)據(jù)以及通過掃描、攝影等方式收入電腦的紙質(zhì)文檔,都是由非結構化數(shù)據(jù)轉(zhuǎn)換為結構化數(shù)據(jù)的事例。采取這種方式的優(yōu)勢在于便于管理者查詢原始數(shù)據(jù)和利于數(shù)據(jù)分享、數(shù)據(jù)檢索、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)。
二、檔案數(shù)據(jù)的整合
檔案大數(shù)據(jù)系統(tǒng)平臺的檔案數(shù)據(jù)整合是對上傳檔案數(shù)據(jù)進行質(zhì)量分析和治理,并對信息的生命周期進行管理。也就是說,在進行數(shù)據(jù)整合的過程中,主要采用了數(shù)據(jù)接入技術(包括廣域網(wǎng)、局域網(wǎng)、個人網(wǎng)等),將數(shù)據(jù)采集層(下層)已處理過的數(shù)據(jù)安全、穩(wěn)定、快速地輸送到上層(即數(shù)據(jù)過濾層),并通過數(shù)據(jù)交互功能模塊形成檔案大數(shù)據(jù)源共享系統(tǒng),并使其具備“智能交互”功能。
一般而言,檔案數(shù)據(jù)整合包括控制系統(tǒng)、運行引擎、基礎平臺管理三個方面。主要通過聚類和相似性分析等手段,對檔案數(shù)據(jù)間的有機聯(lián)系進行分析和整合。其中,整合控制系統(tǒng)指的是通過調(diào)度、轉(zhuǎn)換、功能等手段,對檔案數(shù)據(jù)進行索引和協(xié)同搜索,在前期信息整合前提下進一步實現(xiàn)上下協(xié)同洞察。整合運行引擎指的是對數(shù)據(jù)對象、數(shù)據(jù)訪問、工作流的引擎和任務引擎的整合,它是一個分布式的基礎架構。一個分布式文件系統(tǒng)的實現(xiàn),能夠做到經(jīng)濟高效地分析PB級的結構化數(shù)據(jù)、非結構化數(shù)據(jù)、信息?;A平臺管理整合包括日志管理、數(shù)據(jù)訪問及訪問策略、信息通知、異常處理、緩存管理,它主要是按照預定規(guī)則對檔案數(shù)據(jù)進行存儲,并隨之進行數(shù)據(jù)庫內(nèi)的科學分析。
三、檔案數(shù)據(jù)的過濾
為避免海量數(shù)據(jù)傳輸中出現(xiàn)擁擠、堵塞及不必要占用空間等現(xiàn)象的發(fā)生,檔案數(shù)據(jù)過濾主要是按照規(guī)定的數(shù)據(jù)清洗與過濾規(guī)則,對已采集的大數(shù)據(jù)源(先期采集和整合過的數(shù)據(jù))進行可用性檢查及質(zhì)量分析、對數(shù)據(jù)進行過濾與清洗,以保證數(shù)據(jù)整合時的價值密度和可操作性。
檔案大數(shù)據(jù)過濾服務是一種快速、完全托管的TB/PB級數(shù)據(jù)倉庫解決方案,由方法庫、知識庫和模型庫共同組成。它向用戶提供完善的數(shù)據(jù)導入以及多種經(jīng)典的分布式計算模型,能夠更快速地解決用戶海量數(shù)據(jù)過濾問題?;谠朴嬎愕姆植际较到y(tǒng)具有足夠的數(shù)據(jù)存儲和傳輸能力,它的數(shù)據(jù)清洗、數(shù)據(jù)過濾和外部數(shù)據(jù)存儲功能,能夠?qū)崿F(xiàn)檔案大數(shù)據(jù)的智能交互,搭建檔案大數(shù)據(jù)的過濾層,并保障數(shù)據(jù)的安全。
四、檔案數(shù)據(jù)的管理
管理層面指的是使用和維護系統(tǒng)的接口。管理員通過該層面實現(xiàn)系統(tǒng)的管理、控制、應用和維護,是數(shù)據(jù)服務的指揮中心。管理層有兩個核心功能,一是將加工和過濾后的數(shù)據(jù)進行可視化處理;二是建立多種應用模塊,提供智能服務。也就是說,利用可視化和圖像處理技術輸出需要分析和預測的數(shù)據(jù)結果,并通過大數(shù)據(jù)技術的匹配機制為用戶提供智能化應用。該系統(tǒng)中檔案數(shù)據(jù)的管理層面,是通過多維分析、數(shù)據(jù)挖掘和各種查詢?nèi)齻€工具實現(xiàn)人機交互界面的。通過對人機交互、操作邏輯、界面美觀的整體設計,實現(xiàn)登錄與認證、數(shù)據(jù)存儲、數(shù)據(jù)操作、數(shù)據(jù)查詢、基本參數(shù)設計等功能。需要注意的是,不管采用何種技術,關鍵是應用。應用需要的數(shù)據(jù)才是有價值的數(shù)據(jù),只有生成多模式、多樣性的應用數(shù)據(jù),檔案大數(shù)據(jù)的價值才能得以充分體現(xiàn)。
總之,基于新時期大數(shù)據(jù)背景下,檔案管理工作需要實現(xiàn)科學化管理,我們要在實際工作中與時俱時,充分的運用互聯(lián)網(wǎng)思維,依托于大數(shù)據(jù)時代的良好的契機,加快推動檔案管理方式的創(chuàng)新,更好的凸顯出檔案管理工作的價值,全面提升檔案管理工作的重要作用。
參考文獻:
[1]周姝莉.大數(shù)據(jù)時代下檔案管理的應對策略分析[J].才智,2015(24)
[2]陳媛華.大數(shù)據(jù)時代 高校人事檔案管理面臨的挑戰(zhàn)與應對策略[J].人力資源管理,2015(6)