張文彥 武瑞原 于潔
摘要:大數(shù)據(jù)時代的來臨,正在給包括圖書館在內(nèi)的各行各業(yè)及整個社會文化帶來了根本性的變革。圖書館界已針對大數(shù)據(jù)開展了一定的學術(shù)研究與實踐應用,但大數(shù)據(jù)在圖書館事業(yè)中的應用可能產(chǎn)生諸多問題,即技術(shù)的成熟與完善尚需時日、認識大數(shù)據(jù)技術(shù)時需辯證客觀的態(tài)度、圖書館職業(yè)對私隱信息能否繼續(xù)有效施行保密、欠缺大量專業(yè)人才和信息鴻溝是否會因此被進一步加深。
關(guān)鍵詞:圖書館大數(shù)據(jù)數(shù)據(jù)存儲數(shù)據(jù)挖掘數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)監(jiān)護
中圖分類號:G250.7 文獻標識碼:A 文章編號:1003-6938(2012)06-0015-07
在云計算、物聯(lián)網(wǎng)等技術(shù)的推動下,全球已步入了“大數(shù)據(jù)”時代。大數(shù)據(jù)時代中,數(shù)據(jù)作為一種資源如何加以高效利用并開發(fā)出其中的價值,這也成為政府公共管理部門和企業(yè)界、投資者普遍關(guān)注的問題[1]。
1大數(shù)據(jù)的概念
“‘大數(shù)據(jù)這個名詞并不新鮮,早在1980年代,美國就有人提出了‘大數(shù)據(jù)的概念。20多年來,各個領(lǐng)域的數(shù)據(jù)量都在迅猛增長,美國的企業(yè)界、學術(shù)界也不斷地對這個現(xiàn)象及其意義進行探討,‘大數(shù)據(jù)這個名詞變得越來越流行、越來越重要,最后成為了國家和政府層面的發(fā)展戰(zhàn)略?!保郏玻?/p>
大數(shù)據(jù)之“大”跟數(shù)量這一維度密不可分。有學者指出“大數(shù)據(jù)是指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉、存儲、管理和分析的數(shù)據(jù)?!保郏玻菽敲矗髷?shù)據(jù)的“大”究竟大到了怎樣的尺度呢?“一般認為,大數(shù)據(jù)的數(shù)量級應該是‘太字節(jié)的。我們也并不需要給‘什么是大定出一個具體的‘尺寸,因為隨著技術(shù)的進步,這個尺寸本身還在不斷地增大。此外,對于各個不同的領(lǐng)域,‘大的定義也是不同的,無需統(tǒng)一。”[2]
但定義大數(shù)據(jù)需指明“4V+1C”共計五項顯著特點,而數(shù)量只是其中一項?!?V”就是Variety、Volame、Velocity及Vitality,即多樣性、大容量、高速度及時交性。業(yè)界由于對以上特點特別是前3“V”的認識,達成了一致,也有較多的研究成果,本文不再贅述?!?C”就是Complexity,即通過數(shù)據(jù)庫處理持久存儲的數(shù)據(jù)不再適用于大數(shù)據(jù)處理,需要有新的方法來滿足異構(gòu)數(shù)據(jù)統(tǒng)一接入和實時數(shù)據(jù)處理的需求[3]?!?/p>
2大數(shù)據(jù)的由來及其應用領(lǐng)域
大數(shù)據(jù)來自于數(shù)據(jù)量的自然累積和增長,是存儲器價格、CPU處理能力、互聯(lián)網(wǎng)帶寬發(fā)展和網(wǎng)絡(luò)接入設(shè)施數(shù)量等因素綜合作用的結(jié)果,是海量存儲、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘、數(shù)字圖書館、云計算、物聯(lián)網(wǎng)和社會性網(wǎng)絡(luò)等技術(shù)發(fā)展的自然延伸??梢哉f,沒有海量數(shù)據(jù)的不斷泛濫就不可能出現(xiàn)大數(shù)據(jù)技術(shù)?!案鶕?jù)IDC監(jiān)測,全球數(shù)據(jù)量大約每兩年翻一番,意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量,預計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍……大數(shù)據(jù)時代的超大數(shù)據(jù)體量和超過80%比例非結(jié)構(gòu)化數(shù)據(jù)的存在,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)庫的管理能力,大數(shù)據(jù)技術(shù)將是IT領(lǐng)域新一代的技術(shù)與架構(gòu),它將幫助人們從大體量、高復雜的數(shù)據(jù)中提取價值?!保郏矗輰τ诔嬎銠C行業(yè)之外的諸多行業(yè)而言,大數(shù)據(jù)技術(shù)的價值在于應用[5]。
2.1商業(yè)智能
大多數(shù)傳統(tǒng)BI(BusinessIntelligence)工具都受到以下兩個方面的局限:首先,它們都是‘預設(shè)——抓取工具,由分析師預先確定收集什么數(shù)據(jù)用于分析。其次,它們都專注于‘已知的未知(Knownunknows),也就是我們知道問題是什么,然后去找答案。而大數(shù)據(jù)會給出一些未知的未知,也就是你沒有想到的一些問題的結(jié)果,隨著計算和存儲硬件變得非常便宜,配合大量的開源大數(shù)據(jù)工具,人們可以非?!莩薜叵茸ト〈罅繑?shù)據(jù)再考慮分析命題??梢哉f,低廉的計算資源正在改變我們使用數(shù)據(jù)的方式。此外,處理性能的大幅提高(例如內(nèi)存計算)使得實時互動分析更加容易實現(xiàn),而‘實時和‘預測將BI帶到了一個新的境界—未知的未知?!保郏叮?/p>
2.2公共服務(wù)
“今天,城市正面臨預算超支、基礎(chǔ)設(shè)施難題以及從農(nóng)村和郊區(qū)涌入的大量入口。這些都是非常緊迫的問題,而城市,也正是大數(shù)據(jù)計劃的絕佳實驗室……客觀的市政數(shù)據(jù),是消除爭端,維系公民社會的最佳紐帶。當然,前提是讓公民能夠訪問這些數(shù)據(jù)……伴隨著各國政務(wù)的數(shù)字化進程,以及政務(wù)數(shù)據(jù)的透明化,公民將能準確了解政府的運作效率。這是不可逆轉(zhuǎn)的歷史潮流,同時也是大數(shù)據(jù)最具潛力的應用領(lǐng)域之一[6]。
圖書館作為現(xiàn)代社會中公共信息服務(wù)體系必要的組成部分,不可避免地會受到社會技術(shù)應用潮流的影響,而為了更好地實現(xiàn)大數(shù)據(jù)技術(shù)的優(yōu)化應用,信息管理業(yè)內(nèi)人員必須亟早了解大數(shù)據(jù)技術(shù)及其將會給圖書館事業(yè)帶來的影響,以防變革臨近之時整個行業(yè)都處于被動地位。隨著國內(nèi)公共文化服務(wù)體系建設(shè)的不斷深入和完善,圖書館事業(yè)的民眾基礎(chǔ)也在不斷壯大,相應的讀者和資源類數(shù)據(jù)也在膨脹之中,整個行業(yè)在客觀上也需要新技術(shù)工具的強力支持。
2.3市場營銷
“具體來說,是提升消費者與企業(yè)之間的關(guān)系……如今,企業(yè)與客戶之間的接觸點也發(fā)生了變化,從過去的電話和郵件地址,發(fā)展到網(wǎng)頁、社交媒體賬戶、博客等等。在這些五花八門的渠道里跟蹤客戶,將他們的每一次點擊、收藏、‘頂、分享、加好友、轉(zhuǎn)發(fā)等行為納入企業(yè)的銷售漏斗中并轉(zhuǎn)化成收入是一個巨大的挑戰(zhàn)。也就是所謂的‘360度客戶視角?!保郏叮荽髷?shù)據(jù)技術(shù)在此方面的應用也能很大程度上給圖書館讀者服務(wù)工作帶來極大的啟迪。
3關(guān)于圖書館職業(yè)已有的大數(shù)據(jù)研究與實踐
圖書館職業(yè)是以最大程度地促進人類知識的交流與利用為己任的職業(yè),而專業(yè)化的圖書館職業(yè)包括三個活動領(lǐng)域:實踐活動、研究和教育。圖書館職業(yè)的實踐活動旨在運用圖書館學的專業(yè)知識對文獻進行加工、處理、保管、傳遞,對人類知識和信息進行組織、整理,促進其交流和利用[7];”從圖書館職業(yè)的定義和構(gòu)成來看,其是與知識和信息有著天然和緊密聯(lián)系的職業(yè),圖書館職業(yè)如果離開了知識和信息就根本無法產(chǎn)生,更遑論在人類社會中的長期存在和持久發(fā)展了。而數(shù)據(jù)概念的外延與信息和知識的外延本身就交錯重疊,不可分割,數(shù)據(jù)是圖書館館藏資源的重要組成部分,而且學術(shù)界也普遍認同:數(shù)據(jù)作為原始類的產(chǎn)品可經(jīng)過加工、整理和分析提煉轉(zhuǎn)化為信息和知識,以便在人類生產(chǎn)生活當中發(fā)揮更大的作用。因此對大數(shù)據(jù)主題的適當研究本是圖書館職業(yè)的份內(nèi)之事,同時也是其認清時代發(fā)展方向,主動把脈并參與到社會發(fā)展脈動之中的體現(xiàn),顯示出圖書館職業(yè)在信息社會中謀求生存和發(fā)展能力的迅速提升。
3.1圖書館學研究教育與大數(shù)據(jù)
3.1.1國外圖書館事業(yè)對大數(shù)據(jù)已有的研究與教育活動
圖書館學已有的研究中與大數(shù)據(jù)產(chǎn)生關(guān)聯(lián)的包括網(wǎng)絡(luò)計量學和文獻計量學,網(wǎng)絡(luò)計量的研究目的在于促進信息科學和其他社會科學的進步,其是通過收集和分析網(wǎng)絡(luò)而來的大規(guī)模數(shù)據(jù)來實現(xiàn)的。而傳統(tǒng)的文獻計量學研究由于大數(shù)據(jù)技術(shù)的應用而極大地拓展了其研究范圍,從以往只能進行簡單的描述性研究擴展到評價和預測型的研究。
圖書館學研究者也參與了諸多的研究項目當中,包括為促進標準化運動而開展的“語義網(wǎng)社區(qū)與關(guān)聯(lián)開放數(shù)據(jù)運動”(SematicWebcommunityandLinkedOpenDatainitiative)等[8]。新西蘭的奧塔哥大學圖書館則承擔了奧塔哥生物多樣性數(shù)據(jù)管理項目的研究,部分機構(gòu)如美國維吉尼亞州立大學開始組建科學數(shù)據(jù)咨詢小組,而圖書館員和數(shù)據(jù)管理者則為學者們充當了咨詢顧問的角色[9]。
麻省理工學院的一個研究項目表明,圖書館員在數(shù)據(jù)監(jiān)護(DataCuration)工作當中所應承擔的職責包括分析數(shù)據(jù)集合之存儲需求、數(shù)據(jù)管理規(guī)劃、最佳實踐經(jīng)驗的傳播、收集與傳播數(shù)據(jù)集合以及完成數(shù)據(jù)保存標準的制定[9]。Uribe和Macdonald在2008年提出:數(shù)據(jù)監(jiān)管工作將會得益于圖書館員傳統(tǒng)的索引、編目和其他的信息組織技術(shù)。而Lyon在2007年所提出的大學圖書館員或者學科館員是承擔數(shù)據(jù)監(jiān)護任務(wù)的理想人選的觀點,目前已經(jīng)受到業(yè)內(nèi)的廣泛認同。Huwe在2009年提出要采取政治手段推進圖書館與數(shù)據(jù)中心的合并。能否實現(xiàn)的關(guān)鍵因素是看高等教育機構(gòu)能否認同圖書館對學術(shù)研究的貢獻與支撐作用,而目前許多圖書館已經(jīng)參與到高校機構(gòu)庫的管理運作當中,如果能夠很好地完成這項使命,圖書館的職責才可能會被進一步加以拓展[10]。由Higgins于2008年提出的目前非常流行的“數(shù)字監(jiān)護中心生命周期模型”,Heidorn經(jīng)過分析認為,對于圖書館而言,這一生命周期中的“數(shù)據(jù)保存的規(guī)劃”步驟可以并入數(shù)字機構(gòu)庫的文件實體管理當中。而“群體環(huán)境的觀察與參與”步驟中,不同的數(shù)據(jù)實體適用于差異性的社會群體,而社會群體不斷創(chuàng)造出嶄新的標準和實踐模式,這些都是圖書館需要密切關(guān)注的[9]。
另外,美國學者對圖書館員在大數(shù)據(jù)環(huán)境下的角色和所需專業(yè)技能做了調(diào)查與設(shè)想。他們認同圖書館可以在大數(shù)據(jù)時代中承擔起數(shù)據(jù)管理的職責這一觀點,同時也通過實證型研究認識到目前絕大多數(shù)圖書館員并不具備數(shù)據(jù)科學家必備的素質(zhì)結(jié)構(gòu),細分了這些技能并分析了差距所在[11-12]。
密歇根州立大學、伊利諾伊州立大學、北卡羅來納州立大學和亞利桑那州立大學都已經(jīng)開設(shè)了大數(shù)據(jù)相關(guān)的課程和研究方向。例如亞利桑那州立大學已經(jīng)圍繞元數(shù)據(jù)、數(shù)字格式和數(shù)據(jù)遷移等主題開設(shè)了數(shù)字館藏課;諸如調(diào)試和管理服務(wù)器和數(shù)據(jù)庫的應用型技術(shù);包括采購、政策發(fā)展和組織結(jié)構(gòu)等內(nèi)容的數(shù)字館藏管理;帶有存儲標準、軟硬件和格式廢棄等內(nèi)容的存儲課程;以及將不同技能整合好以完成數(shù)字管理方案的案例研究課程。亞利桑那州立大學目前也已經(jīng)可以提供數(shù)字信息管理方向的碩士學歷證書[13]。而伊利諾伊州立大學香檳分校則開設(shè)了一個數(shù)據(jù)監(jiān)護方向的碩士學歷教育項目[14]。而英國的謝菲爾德大學也在安排基于專業(yè)的信息學課程和一個新的信息學專業(yè)的理學學士學位。2011年6月間倫敦的國際監(jiān)護教育論壇投入使用,這也給數(shù)字監(jiān)護領(lǐng)域的培訓課程體系的討論和開發(fā)提供了一個機會[15]。
3.1.2國內(nèi)圖書館事業(yè)對大數(shù)據(jù)已有的研究與教育活動
目前中國大陸相關(guān)主題的研究還處于剛剛起步的狀態(tài),在CNKI中以“圖書館”和“大數(shù)據(jù)”檢索期刊論文的篇名和摘要,檢索出的目標文章只有一篇,即楊海燕發(fā)表在2012年第四期《圖書與情報》上的文章《大數(shù)據(jù)時代的圖書館服務(wù)淺析》。相比之下,國內(nèi)對“數(shù)據(jù)監(jiān)護”這一主題的關(guān)注度稍高,其主要是針對高校圖書館這一較為專門的領(lǐng)域展開研究的。在CNKI中就篇名檢索“圖書館”和“數(shù)據(jù)監(jiān)護”同時出現(xiàn)的學術(shù)論文,以及“圖書館”與“datacuration”在篇名上同時出現(xiàn)的論文共計7篇,分別是:楊鶴林發(fā)表于《大學圖書館學報》2011年第2期上的《數(shù)據(jù)監(jiān)護:美國高校圖書館的新探索》和發(fā)表于《大學圖書館學報》2012年第2期上的《從數(shù)據(jù)監(jiān)護看美國高校圖書館的機構(gòu)庫建設(shè)新思路——來自Data,StaR的啟示》;程蓮娟發(fā)表于《圖書館雜志》2012年第1期上的《美國高校圖書館數(shù)據(jù)監(jiān)護的實踐及其啟示》;沈婷婷等發(fā)表于《圖書情報工作》2012年第2期上的《數(shù)據(jù)監(jiān)管在我國高校圖書館的應用展望》;時婉璐等發(fā)表于《圖書館雜志》2012年第10期上的《數(shù)據(jù)策管:圖書館服務(wù)的新創(chuàng)舉》;崔宇紅發(fā)表于《圖書館雜志》2012年第10期上的《E-Science環(huán)境中研究圖書館的新角色:科學數(shù)據(jù)管理》和劉雄洲等發(fā)表于《圖書館》2012年第5期上的《國外數(shù)據(jù)存管實施現(xiàn)狀及其對國內(nèi)高校圖書館的啟示》。從有關(guān)“數(shù)據(jù)監(jiān)護”的專業(yè)文章來看,進入2012年發(fā)表這方面論文的情況有一個井噴式的增長,另外從論文標題就可看到不同研究者對datacuration的用詞不盡相同,初涉該領(lǐng)域的研究者很容易因為檢索詞使用的疏漏而出現(xiàn)大量漏檢現(xiàn)象。這也說明對datacuration與高校圖書館結(jié)合的這一專門領(lǐng)域的研究屬于國內(nèi)前沿性課題,亟需統(tǒng)一概念和用法,否則會給之后的研究和業(yè)界的理解與應用造成混亂。
而在國內(nèi)信息管理學領(lǐng)域,也已經(jīng)出現(xiàn)了少量有關(guān)“大數(shù)據(jù)”應用的文章。用“信息管理”和“大數(shù)據(jù)”兩個主題詞在CNKI數(shù)據(jù)庫群期刊文章的篇名角度查找,找到了四篇目標主題的文章分別是:⑴馮華中的《大數(shù)據(jù)時代的信息管理》,發(fā)表在《電腦商報》2011年9月26日第26版上;⑵李奕編譯的《建立信息管理框架應對大數(shù)據(jù)挑戰(zhàn)》,發(fā)表在《中國計算機報》2012年3月26日第26版;⑶程士安的文章《以搜索引擎為導向的大數(shù)據(jù)時代網(wǎng)絡(luò)信息管理》發(fā)表在《廣告大觀(綜合版)》2012年第8期的第15頁;⑷發(fā)表在《網(wǎng)絡(luò)與信息》2012年第4期第7頁上的文章《大數(shù)據(jù)時代下企業(yè)信息管理新革命》則是以liusd這樣的匿名發(fā)表的。通過閱讀,發(fā)現(xiàn)目前信息管理及其相關(guān)領(lǐng)域中對大數(shù)據(jù)的研究,主要是從技術(shù)角度所做的考察,而且專注于對大數(shù)據(jù)技術(shù)在盈利性企業(yè)中的應用,而并未涉及包括圖書館在內(nèi)公益性機構(gòu)的技術(shù)應用問題。
3.2國外圖書館工作實踐與大數(shù)據(jù)
2012年4月26日,有消息[16]稱哈佛大學圖書館將要把圖書大數(shù)據(jù)公之于眾。這些數(shù)據(jù)共計由73家圖書館分館提供,共涵蓋了1200多萬種資料,內(nèi)容包括書目數(shù)據(jù)、收稿、地圖、視頻和音頻等。這些數(shù)據(jù)將會在美國數(shù)字公共圖書館(DigitalPublicLibraryofAmerica)中提供下載,哈佛大學圖書館實驗室的副主任稱,每種館藏均提供了多達100個不同屬性的值,以此來促進世界范圍圖書目錄的開放以及對新型應用性產(chǎn)品的研發(fā)。
美國俄亥俄州OverDrive公司是一家電子書、有聲書等信息產(chǎn)品的多渠道經(jīng)銷商。其2012年4月所發(fā)布的第一輯《大數(shù)據(jù)報告》中稱,該公司長期以來與大量各類型的圖書館合作,從圖書館中收集數(shù)據(jù)提供給出版商和其他有合作關(guān)系的圖書館,供其開放存取,這些數(shù)據(jù)主要包括電子書和數(shù)字有聲書的流通狀況、讀者的圖書需求狀況、圖書館網(wǎng)站訪問的擁堵狀況和人口統(tǒng)計學等信息。該公司由分析數(shù)據(jù)也發(fā)現(xiàn),圖書館的電子書借閱也會促進出版與經(jīng)銷商圖書的零售額,特別是圖書館網(wǎng)站上的讀者推薦閱讀書目和出版商的營銷活動,都會培養(yǎng)消費者對出版商的忠誠度,而同時,OverDrive公司也會通過BuyItNow網(wǎng)上商店等渠道為圖書館提供其所不具備的書目記錄,因而也給讀者預備了發(fā)現(xiàn)圖書的嶄新途徑[17]。
部分高校圖書館就“數(shù)據(jù)監(jiān)護”展開探索性的實踐和研究,也獲得了不少有益的啟示。而巴斯大學在2012年初成功獲得英國聯(lián)合信息系統(tǒng)委員會(JISC)的資助,以幫助其完成Research360(R360)項目,從而達到在機構(gòu)內(nèi)嵌入優(yōu)質(zhì)的數(shù)據(jù)管理實踐過程的目的。R360項目開發(fā)出一個終端對終端的360度機構(gòu)科研生命周期的概念并勾畫出了包括六道程序的示意圖。其同時還列出了在科研數(shù)據(jù)管理過程的不同操作中大學圖書館可以提供哪些支持性的信息服務(wù)并歸納出四點工作原則,分析得出了圖書館當中與科研數(shù)據(jù)管理相關(guān)的職位及其職責、要求和需維護的社會關(guān)系。在專門職位設(shè)置方面,巴斯大學則指定了一位機構(gòu)的數(shù)據(jù)科學家參與到R360項目中,其職責在于推動跨機構(gòu)研究數(shù)據(jù)的管理實踐[17]。其他的數(shù)據(jù)管理崗位的設(shè)置請參閱(見表1)。
可以看出,在西方國家特別是美國,各高校對datacuration實踐活動的開展已經(jīng)較為普遍,都設(shè)置了專門的崗位將datacuration作為一項特色性和前沿性的服務(wù)加以推廣,并在實踐當中不斷總結(jié)經(jīng)驗教訓。而支持專門科研項目的數(shù)據(jù)服務(wù)也已經(jīng)開展,對于普渡大學和伊利諾伊州立大學聯(lián)合申請的“數(shù)據(jù)簡介”項目、新西蘭奧塔哥大學圖書館承擔的奧塔哥生物多樣性數(shù)據(jù)管理項目、以及維吉尼亞州立大學所組建的科研數(shù)據(jù)咨詢團隊,圖書館員和數(shù)據(jù)管理員在這些項目當中都承擔了為科研人員提供咨詢指導的任務(wù),諸如幫助其確定項目數(shù)據(jù)管理需求,并將所有資源需求用已有的數(shù)據(jù)監(jiān)護工具加以可視化[17]。相比之下國內(nèi)不僅研究方面鳳毛麟角,另外也還尚未發(fā)現(xiàn)針對大數(shù)據(jù)概念和技術(shù)的資源采集和特色服務(wù)活動,因而可以看出國內(nèi)業(yè)界對大數(shù)據(jù)的應用遠遠落后于國外相關(guān)領(lǐng)域的實踐進度,因此需要在理論界加以深入研究和廣為宣傳的同時,加快引進國外先進的技術(shù)引進與應用。
4大數(shù)據(jù)應用于圖書館可能產(chǎn)生的問題暨研究導向
4.1新興的大數(shù)據(jù)技術(shù)的開發(fā)和完善尚需時日
微軟的一位杰出工程師ChristianHuitema提出,人類要做到從大數(shù)據(jù)集中熟練提取真正的知識,還需再經(jīng)歷十年以上的時間。MetaFacts的首席分析師DanNess則認為,直到2020年大數(shù)據(jù)技術(shù)的應用前景才能基本清晰,人類也才能夠利用大數(shù)據(jù)最終做出明智的、有遠見的決策[36]。主要的問題就出在其可靠性、易用性和隱性成本方面[37]。信息技術(shù)可謂是大數(shù)據(jù)的催化劑,沒有信息技術(shù)的長足進步和充分應用,大數(shù)據(jù)便無法在任何一個行業(yè)內(nèi)發(fā)揮積極作用。
4.2在怎樣的尺度內(nèi)去認識和推廣大數(shù)據(jù)的概念、技術(shù)和工具
圖書館行業(yè)作為政府主導的公益型行業(yè),在大數(shù)據(jù)應用時可能會遇到推進動力不足等問題,而且有研究顯示,國際化程度越高的行業(yè)從大數(shù)據(jù)應用中獲得的績效增長越明顯。而單個圖書館本身(國家圖書館除外)主要服務(wù)于本地社區(qū)的民眾,因此我們在應用這一技術(shù)的同時需對其效果有一個客觀性的預估。相比之下,民營性質(zhì)的機構(gòu)則可能會為了賺取高額回報或提升自己知名度和社會認同度等而盲目地利用這一技術(shù),在高額成本之下卻未收到相應的回報。過猶不及,兩者都非智選,因此辯證地認識這一前沿領(lǐng)域,并結(jié)合自身的情況開展研發(fā)、選擇、引進和調(diào)試等工作是極端重要的。
4.3大數(shù)據(jù)技術(shù)和工具的開發(fā)與應用是否會進一步加深信息鴻溝
目前已經(jīng)有不少專業(yè)人士認識到大數(shù)據(jù)技術(shù)和工具的開發(fā)與應用是否會進一步加深信息鴻溝這一問題[36]??梢灶A見,在國內(nèi),一線城市的科研高校類圖書館率先開展了數(shù)據(jù)管理服務(wù)之后,會一定程度上提高其工作效率和用戶滿意度,因而客觀上也會拉大其服務(wù)水平與其他地區(qū)、類型圖書館之間的差距,但相對來說也會縮小與西方發(fā)達國家圖書館事業(yè)的差距。發(fā)展是硬道理,當務(wù)之急是大館在自己發(fā)展的同時努力做好宣傳和普及工作,同時也與國外同行增進交流,共同認識、分析和解決前進中遇到的這一問題。
4.4大數(shù)據(jù)時代圖書館還能否有效地保護個人隱私、商業(yè)秘密乃至國家機密
從圖書館這一社會機構(gòu)的傳統(tǒng)來看,其一直注意保護用戶個人的隱私權(quán),甚至國家權(quán)力也不能凌駕于隱私權(quán)之上。但在大數(shù)據(jù)時代,為了給讀者提供更優(yōu)質(zhì)的個性化服務(wù),從各類渠道、不同領(lǐng)域內(nèi)攝取用戶信息并分析其閱讀行為成為不可避免的諸多數(shù)據(jù)工作之一。知曉讀者的詳細背景而又嚴控其傳播范圍,堅定地維護用戶的個人隱私權(quán),這就需要新時代的圖書館員具備更高層次的職業(yè)道德和專業(yè)素養(yǎng)。
4.5大數(shù)據(jù)時代的人才瓶頸問題
由于大數(shù)據(jù)是一項革命性的前沿技術(shù),并且其需要跨學科的學習經(jīng)歷,操作難度極大,因而大數(shù)據(jù)人才的培養(yǎng)是目前亟需關(guān)注的領(lǐng)域。有學者指出,到2018年,美國將面臨1500000個掌握大數(shù)據(jù)應用分析方法的技術(shù)經(jīng)理和分析師的缺口,另外欠缺19000個能深入分析數(shù)據(jù)的數(shù)據(jù)科學家[38]。我國圖書館界應該開放心態(tài),向美國同行和其他領(lǐng)先行業(yè)學習先進經(jīng)驗,采取措施積極培訓本土的數(shù)據(jù)監(jiān)護人才,并加大宣傳力度,使國內(nèi)同仁密切關(guān)注國外進展,爭取盡快展開探索性實踐;推薦優(yōu)秀圖書館員加入現(xiàn)有的科研團隊中并承擔“數(shù)據(jù)監(jiān)護員”的角色,通過實踐為團隊提供數(shù)據(jù)監(jiān)護操作技能及策略。圖書館界也應針對可獲得的數(shù)據(jù)集開始收集工作,以此開始探索數(shù)據(jù)監(jiān)護活動,分析并總結(jié)用戶需求及使用規(guī)律,為數(shù)據(jù)監(jiān)護提供基礎(chǔ)資料。
5結(jié)語
2012年3月,美國奧巴馬政府正式宣布推出了“大數(shù)據(jù)的研究和發(fā)展計劃”,并聯(lián)合六個聯(lián)邦政府部門承諾投資兩億多美元,用于推動全美大數(shù)據(jù)相關(guān)技術(shù)的開發(fā),以便提升從大量、復雜的數(shù)據(jù)集合中獲取知識和洞見的能力。這一國家資助項目是大數(shù)據(jù)從機構(gòu)和行業(yè)行為上升到國家戰(zhàn)略的分水嶺,表明大數(shù)據(jù)已經(jīng)被正式提升到戰(zhàn)略層面,在經(jīng)濟社會個層面開始受到普遍重視[39]。
從本質(zhì)上講,信息技術(shù)的進步給當前軟硬件數(shù)據(jù)處理模式帶來了極大挑戰(zhàn),因而必然催生出大數(shù)據(jù)這樣嶄新的數(shù)據(jù)管理和處理模式。一方面大數(shù)據(jù)本身的性能優(yōu)越適用,另一方面有政府和社會組織對其的認同和大力支持,這使我們有理由相信,對大數(shù)據(jù)的研發(fā)與應用將會如火如荼進一步深入開展,進而滲透到包括圖書館事業(yè)在內(nèi)的社會的各個行業(yè)。圖書館作為技術(shù)敏感度極高的一類機構(gòu),其從業(yè)者應持續(xù)關(guān)注大數(shù)據(jù),積極思考并嘗試解決圖書館信息服務(wù)和資源發(fā)現(xiàn)中的大數(shù)據(jù)問題,這也是圖書館克服目前資源發(fā)現(xiàn)領(lǐng)域技術(shù)上和模式上的局限性,獲得創(chuàng)新突破的關(guān)鍵。另外,作為異構(gòu)形式存在的大數(shù)據(jù),數(shù)據(jù)發(fā)現(xiàn)效率與數(shù)據(jù)的規(guī)范程度是呈正比的,而圖書館行業(yè)對知識規(guī)范性控制的思想和技術(shù)方法恰巧在大數(shù)據(jù)領(lǐng)域有了用武之地?;蛟S,諸如如何構(gòu)建一個通用的規(guī)范控制機制以確保異構(gòu)數(shù)據(jù)的互操作這樣的問題,會成為圖書館從業(yè)者將行業(yè)傳統(tǒng)的技術(shù)和方法發(fā)揚光大,進而帶領(lǐng)整個行業(yè)在飛速變化的知識社會中謀得一席之地的嶄新契機。
參考文獻:
[1]熊金超等.全球迎來大數(shù)據(jù)時代數(shù)據(jù)成為越來越有用資源[EB/OL].[2012-11-14].http://www.hb.xinhuanet.com/2012-11/07/c_113623396.htm.
[2]徐子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活[M].桂林:廣西師范大學出版社,2012:40-57.
[3]5聯(lián)網(wǎng).大數(shù)據(jù)時代的特點[EB/OL].[2012-11-14].http://www.5lian.cn/html/2012/xueshu_0417/32237.html.
[4]光大證券.大數(shù)據(jù)或成重要投資主線[EB/OL].[2012-11-19].http://www.cs.com.cn/gppd/hyyj/201201/t201201
06_3197683.html.
[5]李奕.計算革命與數(shù)據(jù)價值—2012第二屆中國計算機技術(shù)大會專題報道[N].中國計算機報,2012-10-15(016).
[6]關(guān)志剛編譯.大數(shù)據(jù)最具潛力的三大應用領(lǐng)域[EB/OL].[2012-11-16].http://www.ctocio.com/bigdata/8293.html.
[7]于良芝.圖書館學導論[M].北京:科學出版社,2003:17.
[8]CassidyR.Sugimoto,YingDing,MikeThewall.LibraryandInformationScienceintheBigDataEra:Funding,Projects,andFuture[apanelproposal][EB/OL].[2012-11-24].http://www.ischool.drexel.edu/faculty/mkhoo/docs
/12_asist_panel_description.pdf.
[9]P.BryanHeidorn.TheEmergingRoleofLibrariesinCurationandE-science[J].JournalofLibraryAdministration,2011,(7-8):662-672.
[10]Walton,Graham.DataCurationandTheAcademicLibrary[J].NewReviewofAcademicLibrarianship,2010,(1):1-3.
[11]MaryAuckland.Reskillingforresearch:aninvestigationintotheroleandskillsofsubjectandliasionlibrariansrequiredtoeffectivelysupporttheevolvinginformationneedsofresearchers[M].London:ResearchLibrariesUK,2012.
[12]Corral,S.Rolesandresponsibilities:Libraries,librariansanddata[A].GrahamPryor.ManagingResearchData[C].London:FacetPublishing,2012.
[13]DigIn[EB/OL].[2012-11-20].http://oligin.ariaona.edu.
[14]LenterforInfornaticsReseorcherinScienceandScholarslup(CIRSS).DCEP[EB.OL].[2012-11-24].http://cirss./is.il/inois.edlulCollMeta/dcep.html.
[15]LizLyon.IncrementalChangeorRevolution?LibrariesandtheInformaticsTransform[EB/OL].[2012-11-25].http://ozk.unizd.hr/proceedings/index.php/lida2012
/article/view/67.
[16]AndreyWatters.StrataWeek:HarvardLibraryreleasesbigdataforitsbooks[EB/OL].[2012-11-24].http://strata.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html.
[17]Spolanka.OverDriveannouncesaseriesof“BigData”reports[EB/OL].[2012-11-24].http://www.libraries.wright.edu/noshelfrequired/2012/04/11/overdrive-announces-a-series-of-big-data-reports/.
[18]LizLyon.TheInformaticsTransform:Re-EngineeringLibrariesfortheDataDecade[J].TheInternationalJournalofDigitalCuration,2012,(1):126-138.
[19]LinkedInCorpration.DaureenNesdill[EB/OL].[2012-11-25].http://www.linkedin.com/pub/daureen-nesdill/1
0/6aa/384.
[20]insideHPC.JOBBOARD[EB/OL].[2012-11-25].http://insidehpc.jobamatic.com/a/jbb/job-details/761910.
[21]ZoomInformationIncorprated.ChrisKollen[EB/OL].[2012-11-25].http://www.zoominfo.com/#!search/prof
ile/person?personId=46360201&targetid=profile.
[22]ViginiaJobs.PostingDetails[EB/OL].[2012-11-25].https://jobs.agencies.virginia.gov/applicants/jsp/shared/position/JobDetails_css.jsp?postingId=705575.
[23]JennaFreedman.Hiring:DataLibrarian[EB/OL].[2012
-11-25].http://library.barnard.edu/2011/data-librarian.
[24]CharlesW.Bailey.DigitalKoans—WhatIstheSoundofOneE-PringDownloading?[EB/OL].[2012-11-25].http://digital-scholarship.org/digitalkoans/2011/10/31/d
ata-curation-librarian-at-university-of-new-mexico-libraries/.
[25]MichiganStateUniversityBoardofTrustees.ResearchDataManagementGuidance[EB/OL].[2012-11-25].http://www.lib.msu.edu/rdmg/index.jsp.
[26]TerryM.Owen.ResearchDataLibrarian—UniversityofMaryland[EB/OL].[2012-11-25].http://acrl.ala.org/residency/?p=3523.
[27]UniversityofRochesterLibrary.DataLibrarian[EB/OL].[2012-11-25].http://www.library.rochester.edu/datalibrarian.
[28]JulieSweetkind-Singer.JobOpening—ScienceDataLibrarian[EB/OL].[2012-11-26].http://www.iamslic.org/blog/?p=312.
[29]RegentsoftheUniversityofMinnesota.ManagingYourData[EB/OL].[2012-11-26].https://www.lib.umn.edu/datamanagement.
[30]OreganHealth&ScienceUniversity.StaffDirectory[EB/OL].[2012-11-25].http://www.ohsu.edu/xd/education/library/about/staff-directory/index.cfm.
[31]YorkUniversityLibraries.LibraryDataServices[EB/OL].[2012-11-25].http://www.library.yorku.ca/cms/librarydataservices/.
[32]UBCLibrary.Location,andhoursofoperation[EB/OL].[2012-11-26].http://data.library.ubc.ca/gen/address.html.
[33]UniversityofRegina.MarilynAndrews[EB/OL].[2012
-11-26].https://www.lib.umn.edu/datamanagement.
[34]UniversityofSaskatchewan.MurrayLibrary[EB/OL].[2012-11-26].http://library.usask.ca/murray/data-and
-gis/.
[35]TheCentralforAdvancedStudyintheSocialSciences.CEACSDataLibrary[EB/OL].[2012-11-26].http://www.march.es/ceacs/biblioteca/datalib/.
[36]JannaQuitneyAnderson,LeeRainie.BigData:Expertssaynewformsofinformationanalysiswillhelppeoplebemorenimbleandadaptive,butworryoverhumanscapacitytounderstandandusethesenewtoolswell[EB/OL].[2012-11-26].http://www.a51.nl/storage/pdf/PIP_Future_of_Internet_2012_Big_Data_7_20_12.pdf.
[37]李智編譯.大數(shù)據(jù)帶來高成本Hadoop需繼續(xù)完善[EB/OL].[2012-11-26].http://www.csdn.net/article/2012-04-23/2804943.
[38]JamesManyikaet.al.Bigdata:Thenextfrontierforinnovation,competition,andproductivity[EB/OL].[2012-11-27].http://www.mckinsey.com/insights/Mgi/research
/technology_and_innovationbig_data_the_next_frontier_
for_innovation.
[39]賽迪智庫軟件與信息服務(wù)研究所.美國將發(fā)展大數(shù)據(jù)提升到戰(zhàn)略層面[N].中國電子報,2012-07-17(003).
作者簡介:張文彥(1982-),女,南開大學信息資源管理系博士研究生;武瑞原(1980-),男,河北機電職業(yè)技術(shù)學院圖書館館員;于潔(1974-),女,邢臺鋼鐵股份有限公司檔案館館員。