文|蘇一君
隨著社會生產(chǎn)生活和科技的發(fā)展進(jìn)步,數(shù)據(jù)量開啟井噴增長模式,如何在海量數(shù)據(jù)中查詢到所需要的檔案信息,抽取和挖掘有用的信息和知識,為企業(yè)領(lǐng)導(dǎo)層提供決策依據(jù)、為業(yè)務(wù)部門提供信息支撐、為用戶提供針對性服務(wù),才是企業(yè)所關(guān)注的,才是有大意義的,而應(yīng)用大數(shù)據(jù)技術(shù)開展編研工作正是實現(xiàn)檔案價值實體化的有效途徑。
運用大數(shù)據(jù)時代為我們提供的先進(jìn)工具和各種技術(shù)手段,對原始檔案信息價值進(jìn)一步挖掘,使得檔案工作者可以在面對海量的檔案數(shù)據(jù)時,根據(jù)其類別、類型的不同,具體事物進(jìn)行具體分析,發(fā)現(xiàn)數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,發(fā)掘檔案存在的潛在利用價值,再將其按照相關(guān)專題進(jìn)行分類、加工、整理和有序化重組,使一些結(jié)構(gòu)復(fù)雜、關(guān)聯(lián)性差的檔案更加系統(tǒng)化、條理化,建設(shè)各類專題檔案編研信息庫,開發(fā)多種多樣的服務(wù)方式,盡可能地去滿足用戶的各類利用需求,從而擴大檔案在各個層面上的影響力。
在利用數(shù)據(jù)時,或多或少曾遇到過“發(fā)現(xiàn)有的數(shù)據(jù)不夠用,有些數(shù)據(jù)做得不好不好用”的尷尬時刻。這樣的情況,當(dāng)我們開始去運營這些數(shù)據(jù)后會發(fā)現(xiàn),實際上是因為數(shù)據(jù)有無數(shù)的孤島,從而導(dǎo)致了數(shù)據(jù)多元化、冗余、重點不清晰、難統(tǒng)一等一系列影響利用的源頭。檔案信息資源作為一種原生態(tài)的數(shù)據(jù)資源,具有真實性、權(quán)威性等特點,使其比其他數(shù)據(jù)資源具有更高的利用價值。不過我們要想懂得利用數(shù)據(jù),首先要開始懂得“養(yǎng)數(shù)據(jù)”。養(yǎng)數(shù)據(jù)是一項最底端、最基礎(chǔ)、最辛苦的工作,特別是在前期開展數(shù)據(jù)清洗、整理的階段,但是以投資的眼光長期做下去,必將收獲滿滿。養(yǎng)數(shù)據(jù)具體可分為三個操作:
1.完善檔案數(shù)據(jù)結(jié)構(gòu)
根據(jù)企業(yè)數(shù)據(jù)資產(chǎn)目錄,將檔案數(shù)據(jù)字段信息補齊,確保數(shù)據(jù)的準(zhǔn)確性、完整性和一致性,特別是已認(rèn)定對企業(yè)有用的檔案數(shù)據(jù),盡可能的不要留白。
2.設(shè)立標(biāo)準(zhǔn)提高質(zhì)量
有數(shù)據(jù)沒質(zhì)量是企業(yè)數(shù)據(jù)的通病,原因不外乎主/元數(shù)據(jù)定義工作以及業(yè)務(wù)數(shù)據(jù)清洗轉(zhuǎn)換和分析工作未開展,現(xiàn)場業(yè)務(wù)數(shù)據(jù)記錄不及時、不準(zhǔn)確,這樣的危害是巨大的。想要提高檔案數(shù)據(jù)質(zhì)量這種事情說起來也不難,就一點:重視!從端口入手嚴(yán)防死守。
3.加強數(shù)據(jù)入庫意識
企業(yè)很多數(shù)據(jù)其實是在紙張上或者各管理系統(tǒng)中的,別讓這些基礎(chǔ)數(shù)據(jù)躺在外邊,一定要將其歸檔,納入企業(yè)數(shù)據(jù)庫中。做好這件事,必須基于5年一個周期的數(shù)據(jù)需求來規(guī)劃布局,并結(jié)合企業(yè)業(yè)務(wù)方向來進(jìn)行思考;同時注重日常的積累,比如每天花半個小時處理關(guān)鍵字段,做日報表,定期出一份數(shù)據(jù)周報,看趨勢,給業(yè)務(wù)同事反應(yīng)現(xiàn)象,每月思考一下本階段的數(shù)據(jù),和相關(guān)檔案基礎(chǔ)數(shù)據(jù)進(jìn)行對比和思考,往往能看到一些平時注意不到的問題。并且當(dāng)確認(rèn)好編研專題的數(shù)據(jù)范圍后,一定要親自采集所需要的檔案信息,親自進(jìn)行數(shù)據(jù)加工處理,這樣收集到的數(shù)據(jù)信息才真正能夠轉(zhuǎn)化為供編研者所使用的數(shù)據(jù)。
開展檔案編研工作是為了揭開數(shù)據(jù)面紗,為用戶提供價值參考,為用戶工作的開展提供技術(shù)基礎(chǔ)保障。所以在檔案數(shù)據(jù)的收集環(huán)節(jié),就要做好前期調(diào)研,有一個明確目的或者目標(biāo),這樣最后到了數(shù)據(jù)分析階段,才能對收集的檔案信息“去噪”、“清洗”,顯露出本質(zhì),呈現(xiàn)我們最終所需要的,然后進(jìn)行判斷,得出高質(zhì)量和可靠的結(jié)果供用戶使用、決策。一個企業(yè)在養(yǎng)數(shù)據(jù)的層面上謀劃越深越前瞻性,才可能在數(shù)據(jù)驅(qū)動營運,驅(qū)動決策的路上越走越順。
大數(shù)據(jù)時代,數(shù)據(jù)開放、決策咨詢、推送服務(wù)、個性化服務(wù)將成為檔案館服務(wù)的主要內(nèi)容,這對檔案工作者的個人能力提出了較高的要求。要具備高度的洞察力、創(chuàng)新力,有一定的計算機知識儲備、學(xué)術(shù)寫作能力和文獻(xiàn)編研能力,應(yīng)對海量檔案信息能夠加以分析、判斷、匯總、歸納,建立相應(yīng)的數(shù)據(jù)分析模型,將最終成果以建議、方案、報告、成果等形式呈現(xiàn)出來,將“死檔案”變成“活數(shù)據(jù)”,體現(xiàn)檔案信息的價值。
大數(shù)據(jù)技術(shù)的應(yīng)用對檔案工作模式帶來的沖擊是巨大的,傳統(tǒng)“你來我查,你需我找”的工作模式,已經(jīng)無法滿足數(shù)據(jù)信息爆炸下用戶的需求。在大數(shù)據(jù)時代,檔案信息資源利用服務(wù)工作已經(jīng)趨向社會化,企業(yè)檔案工作者必須順應(yīng)時代更新服務(wù)觀念,從傳統(tǒng)的“被動等待用戶上門,為其提供所要求的檔案利用服務(wù)”變?yōu)椤袄砬迤髽I(yè)數(shù)據(jù)資產(chǎn),捕捉用戶習(xí)慣,定制檔案利用服務(wù)為其主動提供”的工作模式。
想要做好檔案編研選題,不僅要對用戶利用檔案的數(shù)據(jù)情況進(jìn)行挖掘,而且還需要對檔案用戶的關(guān)注點和業(yè)務(wù)開展相關(guān)情況進(jìn)行深度挖掘,得出分析結(jié)果,建立特定用戶類型的數(shù)據(jù)模型,根據(jù)模型整合檔案資源,為其定制個性化檔案利用服務(wù)。可以按照政工部門關(guān)注黨建類實物檔案的特點,質(zhì)量部門較為關(guān)注試驗檢驗數(shù)據(jù)檔案的特點,針對性的確定編研選題,為其提供個性化服務(wù);也可以結(jié)合企業(yè)發(fā)布的戰(zhàn)略規(guī)劃、年度工作計劃、市場開拓某一階段所關(guān)注的重點,選定檔案編研題目,從而制作出用戶當(dāng)前所想所需的編研成果,再利用大數(shù)據(jù)技術(shù),主動及時推送給用戶。
大數(shù)據(jù)時代想要做好檔案編研選題工作,首先要摸清楚用戶需要檔案來干什么,檔案如何能幫助提升用戶自身的業(yè)務(wù)工作。檔案館應(yīng)把握企業(yè)最新發(fā)展趨勢,有針對性地對檔案數(shù)據(jù)進(jìn)行深度挖掘和編研,創(chuàng)造符合本企業(yè)特色和重點業(yè)務(wù)方向的研究內(nèi)容,增強編研成果的內(nèi)容價值,擴大企業(yè)檔案數(shù)據(jù)收集面,增強檔案數(shù)據(jù)庫資源的多樣化,通過運用大數(shù)據(jù)技術(shù)將檔案數(shù)據(jù)進(jìn)行提煉、優(yōu)化,選擇在用戶恰好需要的節(jié)點推出,從而增強用戶對企業(yè)檔案工作的粘度,從初期的主動推送給用戶查詢利用,到后期受到用戶認(rèn)可,主動要求定期定向提供,充分實現(xiàn)檔案價值實體化。
數(shù)據(jù)信息的深度挖掘是大數(shù)據(jù)時代的主要特點,數(shù)據(jù)分析是大數(shù)據(jù)整個處理流程中最核心的部分。對檔案用戶來說,最關(guān)心的不是數(shù)據(jù)挖掘的深淺,不是數(shù)據(jù)分析處理過程的難易,而是對大數(shù)據(jù)分析結(jié)果的說明和呈現(xiàn)。對檔案工作者來說,若選定建立的數(shù)據(jù)分析模型不具有代表性和利用價值,若數(shù)據(jù)分析的結(jié)果不能得到精準(zhǔn)的展示,那么最終成果將會對檔案用戶產(chǎn)生困擾,甚至?xí)`導(dǎo)用戶。
在對用戶需求進(jìn)行測評后,首先根據(jù)需求對企業(yè)數(shù)據(jù)庫進(jìn)行深度資料挖掘,選定緊扣企業(yè)主營業(yè)務(wù)的檔案信息建立分析模型,建立個性化數(shù)據(jù)庫,把用戶想要的東西、挖掘分析結(jié)果放入;然后本著“確保檔案數(shù)字資源格式統(tǒng)一、規(guī)范、長期可讀、便于共享”的原則制定收集標(biāo)準(zhǔn),統(tǒng)一的錄入規(guī)范,設(shè)定關(guān)鍵字段,避免了入庫信息的雜亂無章,同時對利用率高的檔案全文數(shù)字化;最后利用大數(shù)據(jù)手段實現(xiàn)數(shù)據(jù)分類、相關(guān)性分析、數(shù)據(jù)融合,明確不同檔案數(shù)據(jù)之間的關(guān)系,得出不同檔案利用形式的變化趨勢,使用戶可以在海量數(shù)據(jù)中快速定位到所需信息,幫助其對自身工作把控、了解,分析和預(yù)測未來趨向,進(jìn)而有針對性地做出規(guī)劃,從而提高檔案服務(wù)質(zhì)量,提升檔案的使用效率與利用價值。
結(jié)合企業(yè)實際,配合用戶中心工作收集各類型檔案,建立檔案數(shù)據(jù)分析模型,加強信息歸集共享,用信息化手段推送給用戶查詢利用,輔助科學(xué)決策。
大數(shù)據(jù)是把雙刃劍,讓我們正確應(yīng)用大數(shù)據(jù)技術(shù)手段,編研出更多高質(zhì)量的檔案成果,為管理層提供決策信息、為技術(shù)層提供科研支撐,進(jìn)而擴大檔案工作影響力,為檔案事業(yè)的進(jìn)一步發(fā)展做出貢獻(xiàn)。