摘要:大數(shù)據(jù)為社會各界帶來了深遠影響,檔案館也不例外。來自多種渠道的大數(shù)據(jù)為檔案館服務(wù)帶來了數(shù)據(jù)安全、數(shù)據(jù)挖掘處理以及數(shù)據(jù)表示等挑戰(zhàn);同時大數(shù)據(jù)也為檔案館的服務(wù)帶來了機遇。檔案館應(yīng)抓住這一機遇推動服務(wù)創(chuàng)新。
關(guān)鍵詞:大數(shù)據(jù)檔案館信息服務(wù)
一、大數(shù)據(jù)與檔案館
(一)大數(shù)據(jù)背景
2011年5月,知名咨詢公司麥肯錫發(fā)布了報告《Big data: The next frontier for innovation, competition, and productivity》,用長達一百多頁的篇幅,圖文并茂地論述了大數(shù)據(jù)對全球各個領(lǐng)域帶來的影響?!禢ature》、《Science》、《紐約時報》、《華爾街日報》等在世界范圍內(nèi)具有重大影響的期刊及媒體對大數(shù)據(jù)進行了專欄介紹,大數(shù)據(jù)已成為繼Web2.0、云計算之后最受關(guān)注的詞匯。2012年3月,美國政府宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃(Big Data Research and Develop? ment Initiative)”,這不僅將大數(shù)據(jù)應(yīng)用于實踐當(dāng)中,還上升到了國家層面。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。美國政府認(rèn)為,大數(shù)據(jù)是“未來的新石油”,并將對大數(shù)據(jù)的研究上升為國家意志,這對未來的科技與經(jīng)濟發(fā)展必將帶來深遠影響[1]。
“大數(shù)據(jù)”這一概念比較抽象,至今仍未有一個公認(rèn)的定義,麥肯錫將其定義為“大小超出了典型數(shù)據(jù)庫工具收集、存儲、管理和分析能力的數(shù)據(jù)集?!比藗兞肀脔鑿綇乃奶卣魅胧衷噲D對其進行深入地理解。目前就它的特征已經(jīng)基本達成了共識,概括為“3V”。“3V”指的是Vol? ume、Variety、Velocity。Volume是指數(shù)據(jù)量大而且增長迅速;Variety指數(shù)據(jù)來源廣泛、格式繁多,且其中以非結(jié)構(gòu)性數(shù)據(jù)居多;Velocity指為了應(yīng)對不斷變化的環(huán)境對大數(shù)據(jù)快速地處理。除去“3V”,通常還有“4V”的說法,然而關(guān)于第“4V”的含義眾說紛紜,有Value、Veraci? ty、Vitality等,其中以Value較為流行,綜合起來的“4V”含義基本指向價值大但密度低這一方向。這些爭議不僅可以加深對大數(shù)據(jù)的輔助理解,還可以促進對大數(shù)據(jù)進一步的研究。
(二)檔案館大數(shù)據(jù)的構(gòu)成
1.檔案館數(shù)據(jù)庫資源
在全球數(shù)據(jù)量突飛猛漲的背景下,檔案館作為大多數(shù)信息資源的最終歸宿,其存儲量也是與日俱增。據(jù)統(tǒng)計,2011年,各級國家檔案館館藏已達3.3億卷,到2020年,各級國家檔案館館藏將達到6億多卷[2]。在檔案館數(shù)字化的浪潮中,大量的紙質(zhì)檔案已經(jīng)被數(shù)字化為電子資源,以文本、圖片、音頻、視頻等多種格式存儲于檔案館中,這些數(shù)據(jù)中所蘊含的價值只有被盡快挖掘出來并加以應(yīng)用才能充分實現(xiàn)它們的價值。因此,這也正好符合大數(shù)據(jù)的三個基本特征:Volume、Variety、Velocity。
2.檔案館業(yè)務(wù)流程中產(chǎn)生的數(shù)據(jù)
隨著經(jīng)濟社會發(fā)展需要以及人們檔案意識的提高,檔案館查檔的人次也在不斷增長,涉及到的領(lǐng)域也越來越廣泛。用戶的查詢、瀏覽數(shù)據(jù)也是檔案館大數(shù)據(jù)來源的重要方面,充分挖掘利用這些數(shù)據(jù)中潛在的價值,可以提高檔案館的服務(wù)能力和服務(wù)水平。
3.來源于互聯(lián)網(wǎng)的數(shù)據(jù)
大數(shù)據(jù)研究最初主要出現(xiàn)在營銷等商業(yè)領(lǐng)域,研究者從大量非結(jié)構(gòu)性數(shù)據(jù)中挖掘出有價值的信息用以取得經(jīng)濟效益。據(jù)DCCI互聯(lián)網(wǎng)數(shù)據(jù)中心在2012年7月26日舉辦的“Adworld2012互動營銷世界”上給出的數(shù)據(jù)顯示:2010年,全球數(shù)據(jù)量已達1.2ZB(1ZB=1024EB,1EB相當(dāng)于10億GB),到2020年將暴增30倍達35ZB;2011年,全球被創(chuàng)建和復(fù)制數(shù)據(jù)總量為1.8ZB;2013年,我們生成這樣規(guī)模的信息量卻只需10分鐘。而在如此龐大的數(shù)據(jù)中,只有10%的數(shù)據(jù)是存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),其余的則是由郵件、視頻、微博、帖子、頁面點擊等產(chǎn)生的大量的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)[3]。這些來源于社會網(wǎng)絡(luò)中的數(shù)據(jù)記錄了大量用戶信息,檔案館可與相關(guān)的部門合作,通過對這些數(shù)據(jù)的獲取和挖掘,可以分析社會的熱點、用戶的偏好,從而有針對性地提供一些推送服務(wù)。
二、大數(shù)據(jù)給檔案館服務(wù)帶來問題與挑戰(zhàn)
(一)檔案館大數(shù)據(jù)安全問題
安全問題是大數(shù)據(jù)給檔案館帶來的首要挑戰(zhàn)。大數(shù)據(jù)雖然以非結(jié)構(gòu)性數(shù)據(jù)居多,但是由于其數(shù)據(jù)量大、信息量多、涉及面廣,一旦管理出現(xiàn)問題造成數(shù)據(jù)泄露,便會引發(fā)嚴(yán)重后果。其次,檔案館的大數(shù)據(jù)中包含著公民隱私以及一些涉密信息,這些數(shù)據(jù)的使用權(quán)限、開放程度如果未能明確化,同樣將會給檔案館帶來大數(shù)據(jù)的安全問題。第三,由于這些大數(shù)據(jù)承載的內(nèi)容豐富而且價值巨大,難免成為網(wǎng)絡(luò)攻擊的目標(biāo)。在網(wǎng)絡(luò)空間中,大數(shù)據(jù)成為更容易被“發(fā)現(xiàn)”的大目標(biāo),承載著越來越多的關(guān)注度[4]。同時由于數(shù)據(jù)的大量聚集,一旦受到攻擊造成的損失更加嚴(yán)重。
(二)檔案館大數(shù)據(jù)挖掘處理問題
在傳統(tǒng)的檔案館服務(wù)工作當(dāng)中,檔案館所需要做的只是從館藏檔案中找出用戶需要的信息,提供最大限度的利用。但在大數(shù)據(jù)時代,檔案館的數(shù)據(jù)處理方式、范圍、目的都發(fā)生了巨大變化,對大量數(shù)據(jù)的挖掘與處理將成為檔案館的一項重要工作[5]。傳統(tǒng)的數(shù)據(jù)分析方法如聚類分析、因子分析、社會化網(wǎng)絡(luò)分析等只針對于結(jié)構(gòu)性數(shù)據(jù)進行處理,對于大量的非結(jié)構(gòu)性數(shù)據(jù)卻難以挖掘其中的有用信息。因此,綜合數(shù)學(xué)、統(tǒng)計學(xué)、計算機智能等多個學(xué)科的知識,探索出有效的方法對海量的非結(jié)構(gòu)性數(shù)據(jù)進行挖掘處理,是大數(shù)據(jù)時代對檔案館提出的又一項挑戰(zhàn)。
(三)檔案館大數(shù)據(jù)表示問題
當(dāng)前物聯(lián)網(wǎng)、傳感網(wǎng)及互聯(lián)網(wǎng)中的數(shù)據(jù)正在向著異質(zhì)、異構(gòu)、半結(jié)構(gòu)化、非結(jié)構(gòu)化及不可信等方向發(fā)展,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了非常大的比例[6]?,F(xiàn)有的數(shù)據(jù)表示方法已經(jīng)不能或者不能完整、準(zhǔn)確的表示這些數(shù)據(jù)的含義。因此探索出有效的數(shù)據(jù)表示方式迫在眉睫。另外,作為用戶最關(guān)心的數(shù)據(jù)分析結(jié)果,如果不能直觀明了地表示出來,用戶可能難以充分理解其中的含義甚至可能會受到誤導(dǎo)。在對數(shù)據(jù)處理之后如何將結(jié)果更精準(zhǔn)、直觀地表示出來,也是需要關(guān)注的一個方面。
三、大數(shù)據(jù)給檔案館服務(wù)帶來機遇
(一)大數(shù)據(jù)有助于檔案館服務(wù)內(nèi)容的豐富
大數(shù)據(jù)為檔案館提供了豐富的數(shù)據(jù)資源,使得檔案館的服務(wù)能力與范圍打破了館藏量限制的瓶頸。上文已經(jīng)提到,檔案館的大數(shù)據(jù)除了儲藏于檔案館中的信息資源之外,還具有廣泛的外延,包括用戶在查詢利用檔案信息資源中產(chǎn)生的數(shù)據(jù)以及產(chǎn)生于整個互聯(lián)網(wǎng)當(dāng)中的數(shù)據(jù)。這些海量信息為檔案館的服務(wù)提供了內(nèi)在的支持,使其提供的服務(wù)內(nèi)容更加豐富多樣。
(二)大數(shù)據(jù)有助于檔案館服務(wù)方式的轉(zhuǎn)變
檔案館傳統(tǒng)的服務(wù)都傾向于被動服務(wù),而且服務(wù)方式比較簡單。最常見的模式就是用戶提出查檔要求,檔案館查詢并提供相關(guān)的檔案。然而在大數(shù)據(jù)時代,這已經(jīng)遠遠不能滿足社會發(fā)展的需要,檔案館在保持原有的服務(wù)方式之外,還要不斷拓展服務(wù)。檔案館應(yīng)立足于大數(shù)據(jù),在提高原來服務(wù)水平和服務(wù)質(zhì)量的同時,積極主動地向社會發(fā)布一些知識成果,提供參考咨詢等服務(wù)。這就要求檔案館的服務(wù)模式和流程發(fā)生相應(yīng)的轉(zhuǎn)變,檔案館基于大數(shù)據(jù)的服務(wù)流程應(yīng)為:用戶提出要求—數(shù)據(jù)收集—數(shù)據(jù)分析—提供方案。
(三)大數(shù)據(jù)為檔案館服務(wù)目的的轉(zhuǎn)變提供了新契機
檔案館的服務(wù)產(chǎn)生于其業(yè)務(wù)基礎(chǔ)之上,即服務(wù)作為一項業(yè)務(wù)進行。在這種情況下,服務(wù)的目的僅限于本職工作的完成。大數(shù)據(jù)時代,對檔案館的服務(wù)提出了更高的要求,檔案館可以以此為契機轉(zhuǎn)變服務(wù)目的,使其落腳于以用戶為中心、為用戶提供更加優(yōu)質(zhì)的服務(wù)之上。同時,大數(shù)據(jù)也為檔案館轉(zhuǎn)變服務(wù)目的提供了現(xiàn)實基礎(chǔ),其豐富的數(shù)據(jù)資源使檔案館為用戶提供精準(zhǔn)的解答、優(yōu)質(zhì)的服務(wù)成為可能。
四、大數(shù)據(jù)機遇下檔案館服務(wù)創(chuàng)新思考
(一)檔案館可以更加精準(zhǔn)地定位用戶的需求
檔案館的服務(wù)面向整個社會,用戶的需求千差萬別,而且存在著“碎片化”現(xiàn)象,這對檔案館提出了新的要求。而檔案館要提高自身的服務(wù),僅僅對原有的查檔工作抱殘守缺是遠遠不夠的。在積極拓展服務(wù)、主動向社會提供額外服務(wù)的過程中,對用戶需求的定位必不可少。只有準(zhǔn)確掌握了用戶的需求,知道他們需要什么,才能具有針對性的提供相應(yīng)的服務(wù),滿足他們的需要。在這方面,檔案館可以借鑒市場營銷中的做法,通過獲取豐富的數(shù)據(jù),如用戶的查詢歷史記錄、社交數(shù)據(jù)等,對這些數(shù)據(jù)進一步挖掘和分析,準(zhǔn)確地描繪出用戶的需求行為。
(二)檔案館可以通過數(shù)據(jù)分析提供更優(yōu)質(zhì)的服務(wù)
面對大數(shù)據(jù),檔案館傳統(tǒng)的工作環(huán)節(jié)及其側(cè)重點也需要發(fā)生相應(yīng)的改變。在大數(shù)據(jù)時代,收集管理等環(huán)節(jié)必不可少,但還要加入數(shù)據(jù)分析環(huán)節(jié)。也就是說檔案館提供給用戶的信息并不限于原始的、粗糙的記錄,還包括經(jīng)過深入處理分析之后精細(xì)化、準(zhǔn)確化的二次信息。隨著大數(shù)據(jù)時代相關(guān)業(yè)界對大數(shù)據(jù)的重視及應(yīng)用,大數(shù)據(jù)的特性與優(yōu)勢將在日常的生活中凸顯出來。通過對這些大量非結(jié)構(gòu)性數(shù)據(jù)的分析,使得檔案館的服務(wù)定量化、精確化,民眾的需求也將隨著這些個性化、人性化、高滿意度的服務(wù)出現(xiàn)而對檔案館的服務(wù)呈現(xiàn)出明確和迫切的需求。為了適應(yīng)社會的發(fā)展、滿足用戶的需求,復(fù)雜數(shù)據(jù)的處理也將成為大數(shù)據(jù)時代檔案館工作的一個重要方面[7]。
(三)檔案館可以主動推送服務(wù)
隨著社會的發(fā)展,檔案館的服務(wù)意識和服務(wù)理念也發(fā)生了改變,它在經(jīng)濟社會發(fā)展中扮演的角色也在逐漸地轉(zhuǎn)變。檔案館慢慢地由幕后走向臺前,由被索取信息轉(zhuǎn)向主動推送信息,也就是由被動地提供服務(wù)轉(zhuǎn)向主動地推送服務(wù)。首先,大數(shù)據(jù)為檔案館主動推送服務(wù)提供了內(nèi)在的動力。在大數(shù)據(jù)的背景下,檔案館掌握著數(shù)量巨大、內(nèi)容全面的數(shù)據(jù),以檔案館為核心形成一個信息高壓中心,源源不斷地向四周推送信息服務(wù)。而以往檔案館僅僅基于數(shù)量和內(nèi)容有限的館藏量,在快速發(fā)展的社會中產(chǎn)生的影響有限,只能被動地接受社會的汲取。其次,與被動地提供服務(wù)不同的是,主動推送服務(wù)面臨著“向誰”、“推送什么樣的服務(wù)”這一難題。如果推送的信息與服務(wù)不符合公眾的需要,這些信息不但沒有實現(xiàn)自身價值,而且還花費了相應(yīng)的成本。數(shù)據(jù)挖掘技術(shù)對用戶的檢索行為進行分析,抽取用戶的數(shù)據(jù)信息,形成用戶數(shù)據(jù)庫,再根據(jù)用戶的興趣和訪問規(guī)律利用推送技術(shù)實現(xiàn)信息的主動推送。信息推送服務(wù)變用戶定制為主動有目的地推薦,提高了信息服務(wù)的主動性,可擴大信息的利用率[8]。
(四)檔案館可以提供個性化的服務(wù)
個性化服務(wù)的內(nèi)涵是指以用戶的知識結(jié)構(gòu)以及信息需求、心理傾向和行為方式等為依據(jù),向用戶提供符合其個性的服務(wù)環(huán)境,向用戶提供信息預(yù)訂服務(wù),并建立用戶個人的信息系統(tǒng)[9]。大數(shù)據(jù)時代信息受眾分類更加明確,很多數(shù)據(jù)信息服務(wù)是根據(jù)個人需求量身定做的,目的性更強、定位更準(zhǔn)確、效果也更好[10]。大數(shù)據(jù)給檔案館傳統(tǒng)的服務(wù)方式帶來了新機遇,通過對大數(shù)據(jù)的收集、挖掘和分析,可以把握社會熱點、不同人群的關(guān)注點以及學(xué)術(shù)研究的重點等,借助檔案網(wǎng)站、移動終端等多種手段針對不同人群的不同需求推送相應(yīng)的信息服務(wù)。只有立足于其掌握的大數(shù)據(jù),面向整個社會,提供經(jīng)濟社會以及科學(xué)技術(shù)發(fā)展所需要的信息服務(wù),檔案館才能拓展自己的服務(wù)空間,實現(xiàn)自己的社會價值。
(五)檔案館可以提高服務(wù)的智能化程度
大數(shù)據(jù)背景下的檔案館服務(wù),對技術(shù)將提出更高的要求,服務(wù)的智能化程度也將達到一個新的水準(zhǔn)[11]。首先,大數(shù)據(jù)的收集、挖掘、分析本身就是一項智能型的活動。面對海量的、復(fù)雜的非結(jié)構(gòu)性數(shù)據(jù),單靠人工力量以及單一學(xué)科領(lǐng)域的知識是無法對其進行處理的。與之相反,更需要結(jié)合數(shù)學(xué)、統(tǒng)計學(xué)、計算機等多學(xué)科的知識,采用物聯(lián)網(wǎng)、傳感網(wǎng)、云計算、可信計算和信息物理融合系統(tǒng)等新興信息技術(shù),對這些高價值而低密度數(shù)據(jù)進行分析。其次,在大數(shù)據(jù)的背景下,檔案館需要吸納高素質(zhì)、復(fù)合型的人才,還要對已有的工作人員進行培訓(xùn),建設(shè)知識型、智慧型檔案館,提高檔案館的服務(wù)能力。
*本文系安徽大學(xué)研究生學(xué)術(shù)創(chuàng)新研究項目“檔案館轉(zhuǎn)型及服務(wù)評估方式創(chuàng)新研究”(項目編號:01001770-10117700406)的研究成果之一。
注釋:
[1]李國杰,程學(xué)旗.大數(shù)據(jù)研究未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012.27(6):647-657.
[2]楊冬權(quán).關(guān)于隨館藏數(shù)量增加而相應(yīng)增加各級國家檔案館人員編制的提案[N].中國檔案報,2013-3-7.(1).
[3]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012(5):37-40.
[4]馮偉.大數(shù)據(jù)時代面臨的信息安全機遇和挑戰(zhàn)[J].中國科技投資,2012(34):49-53.
[5]楊海燕.大數(shù)據(jù)時代的圖書館服務(wù)淺析[J].圖書與情報,2012(4):120-122.
[6]秦曉珠,李晨暉,麥范金.大數(shù)據(jù)知識服務(wù)的內(nèi)涵典型特征及概念模型[J].情報資料工作,2013(2):18-22.
[7]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012(5):37-40.
[8]馬仁杰,謝詩藝,李小剛.美國NARA網(wǎng)站的小眾化服務(wù)特色解析及其啟示[J].檔案,2012(5):40-43.
[9]杜成軍.大數(shù)據(jù)時代圖書信息服務(wù)的創(chuàng)新探討[J]電子測試,2013(10):157-158.
[10]劉葉婷,王春曉.“大數(shù)據(jù)”,新作為大數(shù)據(jù)時代背景下政府作為模式轉(zhuǎn)變的分析[J].領(lǐng)導(dǎo)科學(xué),2012(3):4-6.
[11]韓翠峰.大數(shù)據(jù)時代圖書館的服務(wù)創(chuàng)新與發(fā)展[J].圖書館,2013(1):121-122.
作者單位:安徽大學(xué)合肥市圖書館