(商丘醫(yī)學高等專科學校,河南 商丘 476000)
淺析“大數(shù)據”對圖書館管理的影響
楊春玲
(商丘醫(yī)學高等??茖W校,河南商丘476000)
隨著大數(shù)據時代的來臨,社會中的各類數(shù)據正以極快的速度增長,圖書館也不可避免地面臨著大數(shù)據信息浪潮的沖擊。大數(shù)據對圖書管理的影響主要包括:復雜數(shù)據計算能力、數(shù)據分析由傳統(tǒng)向深度挖掘帶來的挑戰(zhàn)及大數(shù)據時代對圖書館基礎設施的要求。未來圖書管理需從探索數(shù)據分析技術與工具、重視基礎設施建設和數(shù)據收集、提高圖書管理的智能化程度等幾個方面發(fā)展。
大數(shù)據;結構化;非結構化;圖書館
“大數(shù)據(big data)”是非?!皶r髦”的概念,在維克托·邁爾·舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據時代》中大數(shù)據是指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數(shù)據的方法[1]39。我們通常所講的大數(shù)據指的是所涉及的數(shù)據規(guī)模巨大到無法通過目前日常所用的數(shù)據分析工具,在短時間形成可利用的有價值的信息數(shù)據。
“大數(shù)據”源于全球知名咨詢公司麥肯錫,之后逐步出現(xiàn)在各類媒體。真正風靡全球,成為時代“寵兒”是在近幾年。隨著智能手機、互聯(lián)網的普及和wifi等無線技術廣泛應用,社會中的數(shù)據量程幾何級增長,而伴隨著“云時代”的來臨,海量數(shù)據的計算和分析成為可能。所以,諸如IBM、oracle、惠普、騰訊、百度等一大批國內外企業(yè)加入了大數(shù)據研究應用的行列,通過收購與大數(shù)據相關的軟硬技術實現(xiàn)大數(shù)據的技術整合,力求在以云計算為基礎的大數(shù)據時代取得更加有利的競爭地位和競爭優(yōu)勢。
圖書館所在的知識服務領域也被迅速卷入大數(shù)據的浪潮中。由于知識傳播與利用形式的不斷變化,各種新技術機制在知識創(chuàng)造、組織、傳播、和應用中扮演著愈加重要的角色[2]。本文主要探討在大數(shù)據背景下大數(shù)據的基本特征、給圖書館管理帶來的影響及解決的主要方式等。
IT界通常用4V(即Volume、Variety、Value、Velocity)來概括大數(shù)據的特征,擁有這四種基本特征的數(shù)據可稱之為大數(shù)據。
(一)數(shù)量巨大(Volume)
截至2012年,數(shù)據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數(shù)據公司(IDC)的研究結果表明,2008年全球產生的數(shù)據量為0.49ZB,2009年的數(shù)據量為0.8ZB,2010年增長為1.2ZB,2011年的數(shù)量更是高達1.82ZB,相當于全球每人產生200GB以上的數(shù)據。而到2012年為止,人類生產的所有印刷材料的數(shù)據量是200PB,全人類歷史上說過的所有話的數(shù)據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數(shù)據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數(shù)據規(guī)模將達到今天的44倍[3]。
(二)類型繁多(Variety)
數(shù)據通常被分為結構化數(shù)據、半結構化數(shù)據和非結構化數(shù)據。相對于傳統(tǒng)的以文本為主的結構化數(shù)據,網絡日志、音頻、視頻、圖片、地理位置信息等半結構化、非結構化數(shù)據越來越多。同時,近幾年出現(xiàn)的微博、微信等可通過移動互聯(lián)設備使用的電子交往形式使數(shù)據量和數(shù)據種類更加復雜化。
(三)價值不高(Value)
價值密度的高低與數(shù)據總量的大小成反比。以社會中常見的監(jiān)控錄像為例,一天的監(jiān)控記錄,有用數(shù)據可能僅有一二秒。如何將已有的結構化數(shù)據、半結構化數(shù)據及非結構化數(shù)據進行整合、分析,挖掘出更多有價值的信息,并通過強大的計算能力迅速地完成數(shù)據的價值“提純”成為目前大數(shù)據背景下亟待解決的難題。
(四)要求高速處理(Velocity)
這是大數(shù)據區(qū)分于傳統(tǒng)數(shù)據挖掘的最顯著特征。根據IDC的“數(shù)字宇宙”的報告,預計到2020年,全球數(shù)據使用量將達到35.2ZB。在如此海量的數(shù)據面前,處理數(shù)據的效率就是生命。
根據大數(shù)據的基本特征,經筆者分析,圖書館知識服務領域的未來大數(shù)據的來源主要有RFID射頻數(shù)據、傳感器數(shù)據、社交網絡和移動互聯(lián)數(shù)據等幾個方面。隨著圖書館數(shù)字技術的不斷提高,RFID將不斷推廣,這將是未來圖書館大數(shù)據的主要來源之一;由圖書館中的傳感器感知生成的數(shù)據,長時間積累后也將產生巨大的數(shù)據量;社交網絡已廣泛應用于社會各個方面,逐步成為人們交往的主要形式,其所產生的數(shù)據量遠超以往任何一個信息傳播媒介,由其生成的數(shù)據量是不可估量的;移動互聯(lián)網及移動互聯(lián)技術的不斷完善,使得圖書館可以靈活獲取移動電子設備、人員、資源、用戶行為和需求等信息,并對這些信息進行實時分析,從而幫助我們開展有效的智能輔助決策[4]32-45。
(一)海量數(shù)據處理考驗圖書館計算能力
大數(shù)據時代背景下,各類數(shù)據量迅速增長,數(shù)據產生的方式、范圍發(fā)生前所未有的變化,人們在社會中的各類行為都產生了大量的信息數(shù)據,信息數(shù)據的組成結構、格式類型、存在形態(tài)等都更加復雜。圖書館要對上述復雜的數(shù)據進行應用、存儲,將具有很強的挑戰(zhàn)性,不僅僅涉及云計算、大數(shù)量級數(shù)據存儲等技術問題,還可能促發(fā)圖書館服務模式、資源建設模式、管理模式與發(fā)展模式的轉變。
(二)數(shù)據分析方式轉變帶來的挑戰(zhàn)
隨著圖書館信息化程度的提高,以互聯(lián)網信息搜索、查詢?yōu)榛A的知識服務逐漸被更多的圖書館所采用。但不管是簡單的信息服務,還是結合了信息檢索、組織、分析等高級業(yè)務服務,都可歸納為就數(shù)據而進行的服務。大數(shù)據時代背景下要求圖書館不僅需要通過結構化數(shù)據了解客戶需求,也需要大量的非結構化數(shù)據、半結構化數(shù)據去挖掘、預測和分析當前和未來的用戶需求,社會大眾的需求也將隨著不斷變化的個性化的高滿意度服務出現(xiàn)而對圖書館的服務呈現(xiàn)出明確和迫切的需求。滿足用戶的需求,提供復雜數(shù)據的處理也將成為大數(shù)據時代圖書館的發(fā)展方向,如何處理好數(shù)據分析,將直接影響圖書館的生存與發(fā)展。
(三)大數(shù)據對圖書館基礎設施提出更高的要求
半結構化及非結構化數(shù)據的迅速增加,導致數(shù)據存儲、計算規(guī)模越來越大,其成本急劇上升。很多知識服務機構出于成本的考慮將應用由高端服務器轉向中低端硬件構成的大規(guī)模計算機集群[5]166-171,從而對支持非結構化數(shù)據存儲及分析的基礎設施提出了很高的要求。
(一)探索利用數(shù)據分析技術與工具
對圖書館來說,在大數(shù)據時代要想在激烈的市場份額競爭中爭得一席之地,避免邊緣化,開展必要的大數(shù)據分析服務顯得必不可少。圖書館開展的大數(shù)據分析服務業(yè)務,主要可以有以下幾種:首先是圖書館自身建設所需的大數(shù)據分析。這類分析一般以圖書館的現(xiàn)有數(shù)據為對象進行分析,如讀者的借閱方式、行為愛好等,是一種對現(xiàn)有資源的分析與挖掘;其次是客戶即讀者所需的大數(shù)據分析。這類分析業(yè)務類似于當今圖書館為企業(yè)等客戶群體所做的信息情報參考、競爭情報分析,但也有著很大的區(qū)別,如對于分析對象數(shù)據的不同、分析手段的不同、分析目的不同等,這類分析業(yè)務所依靠的大量數(shù)據可能并非圖書館所擁有,從而成為限制該項業(yè)務發(fā)展的瓶頸,如何解決此類服務的數(shù)據問題是突破該瓶頸的關鍵。麥肯錫發(fā)布的《大數(shù)據:創(chuàng)新、競爭和生產力的下一個前沿領域》報告中首次提出了“大數(shù)據”的概念,對大數(shù)據的分析技術與工具進行了列舉,如目前已為廣大圖書情報研究者所熟知的聚類分析、數(shù)據挖掘、網絡分析、可視化分析、數(shù)據融合與數(shù)據集成等,特別是聚類分析、可視化分析與數(shù)據挖掘技術。但這些現(xiàn)有的研究目前僅僅只是針對結構化數(shù)據和有限數(shù)量的關鍵詞進行聚類分析、共現(xiàn)分析等,并不能真正挖掘大量負責數(shù)據的存在與表現(xiàn)形態(tài),更不能通過這些分析去預測未來的可能發(fā)展趨勢。當然,大量網絡社交等信息行為產生的大量非結構化數(shù)據、半結構化數(shù)據也讓許多學者開始思考去采集和利用這些信息,如蘇玉照等人[6]66-70就認為如果能夠采集到Web日志的數(shù)據,就能很好地滿足發(fā)現(xiàn)關聯(lián)規(guī)則、內容分類和用戶聚類的需求,從而能提高個性化推薦的精度,進而對定制Web日志的數(shù)據模型、過程及方法進行探索。
(二)重視基礎設施建設
大數(shù)據時代,圖書館的核心競爭力不再僅是文獻數(shù)據信息的競爭,各類形式的海量數(shù)據以及對海量數(shù)據的分析、挖掘才是今后圖書館之間競爭的核心因素。因此,要跟上大數(shù)據的腳步,必須完善信息收集的基礎設施建設,加強各類信息資源的收集將成為圖書館資源建設的大方向。圖書館首先要明白“數(shù)據即生命”,解決數(shù)據存儲問題。大數(shù)據時代對于圖書館的數(shù)據存儲量要求極高。早在2007年,沃爾瑪就通過對消費者的購物行為等非結構化數(shù)據進行分析,創(chuàng)造了“啤酒與尿布”的經典商業(yè)案例[7]127。這樣的經典案例是通過對海量的多類型數(shù)據收集和分析得到的。因此,圖書館要掌握讀者用戶、館員乃至社會服務群體等的信息,既要有當前通用的數(shù)據記錄中的個人身份、借閱記錄等結構化數(shù)據,還要有存儲信息行為、搜索方式、行為痕跡等非傳統(tǒng)數(shù)據,這些都需要通過基礎設施的建設來支持。除此之外,圖書館還必須解決數(shù)據計算和數(shù)據分析問題。要積極利用“云計算”技術,搭建圖書館的云計算平臺,解決圖書館自身海量數(shù)據的存儲及運算能力與大數(shù)據對存儲能力的高要求之間的矛盾。
(三)提高圖書館服務的智能化程度
大數(shù)據背景下的圖書館服務的智能化程度也將達到一個新的高度。圖書館應用智能化技術進行自動的高級、復雜的數(shù)據收集及處理工作,既能在一定程度上節(jié)省大量的人力物力,也能解決人工可能無法實現(xiàn)的工作需求,如對海量信息數(shù)據的智能抓取、關鍵詞抽取等,使得節(jié)省下來的大量人力去研究圖書館建設的策略與更進一步的智能化投入。其次,從讀者來看,服務內容、手段的智能化程度提高與智能化技術、工具、平臺的服務實踐,所需的圖片、視頻、文本等信息將能輕易獲取,個體的信息如社交信息、生活數(shù)據等大量的非結構、半結構化數(shù)據也都能為圖書館的智能化決策提供分析參考。再次,從智能化服務中的知識流通來看,圖書館服務智能化程度的提高不但有利于知識從單個主體擁有向多個主體擁有的流通與傳播,更利于隱性知識向顯性知識的轉變,也有利于知識的發(fā)現(xiàn)、挖掘與組織[8]81。
[1] 維克托·邁爾·舍爾維恩,肯尼斯·庫克耶 .大數(shù)據時代[M].杭州:浙江人民出版社,2013.
[2] College of Nursing:Curriculum Support.http://www.ahsl.arizona.edu/curriculum/nursing/.2011-10-17(04).
[3] 百度百科http://baike.baidu.com/view/9424571.htm.
[4] 覃雄派,王會舉,杜小勇,等.大數(shù)據分析——RDBMS與MapReduce的競爭與共生[J].軟件學報,2012,23(1).
[5] 張興旺,李晨暉,秦曉珠.構建于廉價計算機集群上的云存儲的研究與初步實現(xiàn)[J].情報雜志,2011,30(11).
[6] 蘇玉照,牛曉太,趙 妍.提高個性化推薦精度的定制Web日志方法[J].圖書與情報,2011(5).
[7] 高 勇.啤酒與尿布:神奇的購物籃分析[M].北京:清華大學出版社,2008.
[8] 韓翠峰.大數(shù)據時代圖書館的服務創(chuàng)新與發(fā)展[J].圖書館,2013(1).
[責任編輯袁培堯]
2014-05-08
楊春玲(1969- ),女,河南商丘人,商丘醫(yī)學??茖W校圖書館館員, 主要從事數(shù)據管理研究。
G251.4
:A
:1671-8127(2014)06-0119-02