(蘭州商學(xué)院圖書館 甘肅蘭州 730020)
信息技術(shù)的發(fā)展與信息設(shè)備的普及使用,使得人們?nèi)粘P袨樗a(chǎn)生的大量復(fù)雜數(shù)據(jù)都有可能被記錄與分析,進(jìn)而根據(jù)深度的智能挖掘分析產(chǎn)生對未來的預(yù)測與分析,沃爾瑪?shù)摹捌【?尿布”經(jīng)典案例〔1〕就是從大量的顧客非結(jié)構(gòu)化數(shù)據(jù)中分析得到的。這類復(fù)雜的數(shù)據(jù)就是大數(shù)據(jù),隨著其所隱藏的世界越來越被人們所認(rèn)識和感興趣,大數(shù)據(jù)引起了世界的重視,被譽(yù)為是未來的石油與黃金,美國政府也于2012年3月29日撥款2億美元推行“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”〔2〕,如同喬治·布什將網(wǎng)絡(luò)信息化上升到國家戰(zhàn)略高度一樣,奧巴馬政府也將大數(shù)據(jù)上升到了國家戰(zhàn)略高度,并將世界帶入到大數(shù)據(jù)時(shí)代。在這一時(shí)代,復(fù)雜數(shù)據(jù)的產(chǎn)生與保存、分析等將對以信息保存、開發(fā)、利用為己任的圖書館服務(wù)提出挑戰(zhàn),如何利用大數(shù)據(jù)技術(shù)去挖掘、識別、組織與分析如隱含在用戶行為中的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)信息,尋找他們的隱性訴求進(jìn)而改進(jìn)、拓寬圖書館服務(wù),并對圖書館的服務(wù)趨勢需求進(jìn)行預(yù)測,達(dá)到圖書館資源、服務(wù)與讀者需求的雙向理想控制已成為大數(shù)據(jù)時(shí)代圖書館的研究選題。本文在對大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)分析基礎(chǔ)上,重點(diǎn)對大數(shù)據(jù)時(shí)代圖書館的服務(wù)創(chuàng)新進(jìn)行了分析。
2011年5月,麥肯錫在《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域》〔3〕報(bào)告中指出“數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來”,首次提出了大數(shù)據(jù)概念。之后,業(yè)界對大數(shù)據(jù)進(jìn)行了多個定義,但截至目前還未形成統(tǒng)一,只是對大數(shù)據(jù)的認(rèn)識達(dá)成了一個共識,即:大數(shù)據(jù)的“大”不是只代表海量,復(fù)雜化、多樣化且極具價(jià)值也是其屬性。為此,IDC總結(jié)了大數(shù)據(jù)具有的“4V”特性,即種類多(Variety)、流量大(Velocity)、容量大(Volume)和價(jià)值高(Value)〔4〕。大數(shù)據(jù)的這些特性也決定了其隱藏的深刻理念,具體如:①數(shù)據(jù)的深層分析與價(jià)值挖掘是大數(shù)據(jù)時(shí)代信息界的主要業(yè)務(wù)。②數(shù)據(jù)的形態(tài)多樣且富有價(jià)值。③數(shù)據(jù)的處理將形成新的產(chǎn)業(yè)。
大數(shù)據(jù)的這些特點(diǎn)與隱含理念,都說明了大數(shù)據(jù)將改變目前的IT架構(gòu),與大數(shù)據(jù)分析在數(shù)據(jù)對象、運(yùn)用技術(shù)、價(jià)值去向等方面都有許多共同之處的圖書館必將在這一大時(shí)代產(chǎn)生巨大的變化。首先,圖書館的服務(wù)質(zhì)量提升需大數(shù)據(jù)的支持。大數(shù)據(jù)時(shí)代,圖書館間的競爭不僅僅是館藏資源、建筑空間、服務(wù)水平的競爭,大數(shù)據(jù)的擁有量及對龐大的各類數(shù)據(jù)的挖掘與分析能力將成為大數(shù)據(jù)時(shí)代的圖書館競爭的一大關(guān)鍵指標(biāo),圖書館的發(fā)展策略制定將依賴于對大數(shù)據(jù)的分析與預(yù)測。其次,大數(shù)據(jù)將成為圖書館的核心資產(chǎn)。隨著人們對大數(shù)據(jù)價(jià)值認(rèn)識的日漸首肯與業(yè)界對大數(shù)據(jù)分析技術(shù)的日漸成熟,大數(shù)據(jù)將變得越來越有價(jià)值,大量的如讀者借閱習(xí)慣、服務(wù)消費(fèi)痕跡等能為圖書館的未來發(fā)展、服務(wù)模式進(jìn)行趨勢分析、發(fā)展預(yù)測提供支撐的大數(shù)據(jù)都將成為圖書館的核心資產(chǎn)。再次,大數(shù)據(jù)處理為圖書館帶來機(jī)會與挑戰(zhàn)。大數(shù)據(jù)要求圖書館不僅需要通過結(jié)構(gòu)化數(shù)據(jù)了解現(xiàn)在客戶享受了哪些圖書館服務(wù),也更需要利用大量的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)在圖書館-用戶的服務(wù)關(guān)系中去挖掘正在發(fā)生什么、預(yù)測和分析將來會發(fā)生什么,以便圖書館找到更好的服務(wù)營銷模式應(yīng)對未知的危機(jī)及挑戰(zhàn)〔5〕。
大數(shù)據(jù)時(shí)代,圖書館的核心競爭力不僅僅是文獻(xiàn)數(shù)據(jù)信息的競爭,多類數(shù)據(jù)的擁有、融合、挖掘與利用水平才是圖書館行業(yè)間競爭的關(guān)鍵因素,加強(qiáng)對多類信息資源的采集與擁有也因此將成為大數(shù)據(jù)時(shí)代圖書館資源建設(shè)的一大內(nèi)容。同時(shí),大數(shù)據(jù)時(shí)代的圖書館服務(wù)所需的數(shù)據(jù)量也是目前擁有的所想象的,這些所需的數(shù)據(jù)中既有當(dāng)前圖書館正在建設(shè)的文獻(xiàn)資源、數(shù)字資源、網(wǎng)絡(luò)資源,也有目前圖書館還無法進(jìn)行或暫時(shí)沒有建設(shè)的非結(jié)構(gòu)化數(shù)據(jù),如用戶信息行為數(shù)據(jù),這類目前還未完整收集的用戶行為等非結(jié)構(gòu)化數(shù)據(jù)將極具價(jià)值,很多的圖書館服務(wù)只有對大量的用戶數(shù)據(jù)挖掘、分析才能得出圖書館所需的決策參考。
信息時(shí)代,人們的日常信息行為日益頻繁,不管是生活還是工作、娛樂、社交,都無法避免地在多種多樣的信息系統(tǒng)中留下各種信息行為數(shù)據(jù),將這些散落在多個系統(tǒng)間的數(shù)據(jù)進(jìn)行整合與分析,會再現(xiàn)一個社會個體的運(yùn)行軌跡和發(fā)展全景,這也就是大數(shù)據(jù)分析。目前,在素有“印度硅谷”之稱的印度班加羅爾已有超過100家以數(shù)據(jù)分析為主要業(yè)務(wù)的新型數(shù)據(jù)公司,如Analytic Edge、Zinnov以及自稱是全球最大的專業(yè)性數(shù)據(jù)分析公司的Mu Sigma〔6〕。據(jù)印度全國軟件與服務(wù)企業(yè)協(xié)會(Nasscom)〔7〕2012年的最新預(yù)計(jì),印度大數(shù)據(jù)行業(yè)規(guī)模在三年內(nèi)將達(dá)到12億美元,是當(dāng)前規(guī)模的6倍,同時(shí)還是全球大數(shù)據(jù)行業(yè)平均增長速度的2倍。全球大數(shù)據(jù)行業(yè)的規(guī)模預(yù)計(jì)將在3年內(nèi)從82.5億美元增至250億美元。大數(shù)據(jù)分析的發(fā)展前景可謂巨大誘人。
對圖書館來說,在大數(shù)據(jù)時(shí)代要想在激烈的市場份額競爭中爭得一席之地,避免邊緣化,開展必要的大數(shù)據(jù)分析服務(wù)顯得必不可少。圖書館開展的大數(shù)據(jù)分析服務(wù)業(yè)務(wù),主要可以有以下幾種:首先是圖書館自身建設(shè)所需的大數(shù)據(jù)分析。這類分析一般以圖書館的現(xiàn)有數(shù)據(jù)位對象進(jìn)行分析,如讀者的借閱方式、行為愛好等,是一種對現(xiàn)有資源的分析與挖掘;其次是客戶即讀者所需的大數(shù)據(jù)分析。這類分析業(yè)務(wù)類似于當(dāng)今圖書館為企業(yè)等客戶群體所做的信息情報(bào)參考、競爭情報(bào)分析,但也有著很大的區(qū)別,如對于分析對象數(shù)據(jù)的不同、分析手段的不同、分析目的的不同等,這類分析業(yè)務(wù)所依靠的大量數(shù)據(jù)可能并非圖書館所擁有,從而成為限制該項(xiàng)業(yè)務(wù)發(fā)展的瓶頸,如何解決此類服務(wù)的數(shù)據(jù)問題是突破該瓶頸的關(guān)鍵。
挖掘大數(shù)據(jù)的價(jià)值與隱藏在其背后的世界,簡單的定性、定量分析都不能發(fā)揮作用,技術(shù)工具的作用將得到進(jìn)一步放大。因此,圖書館對技術(shù)、工具的應(yīng)用需求也將更為迫切,這也對圖書館的技術(shù)應(yīng)用水平提出了新的要求?!洞髷?shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域》報(bào)告中不但首次提出了“大數(shù)據(jù)”的概念,還對大數(shù)據(jù)的分析技術(shù)與工具進(jìn)行了列舉,如目前已為廣大圖書情報(bào)研究者所熟知的聚類分析、數(shù)據(jù)挖掘、網(wǎng)絡(luò)分析、可視化分析、數(shù)據(jù)融合與數(shù)據(jù)集成等。特別是聚類分析、可視化分析與數(shù)據(jù)挖掘技術(shù)。但這些現(xiàn)有的研究目前僅僅只是針對結(jié)構(gòu)化數(shù)據(jù)和有限數(shù)量的關(guān)鍵詞進(jìn)行聚類分析、共現(xiàn)分析等,并不能真正挖掘大量負(fù)責(zé)數(shù)據(jù)的存在與表現(xiàn)形態(tài),更不能通過這些分析去預(yù)測未來的可能發(fā)展趨勢。當(dāng)然,大量網(wǎng)絡(luò)社交等信息行為產(chǎn)生的大量非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)也讓許多學(xué)者開始思考去采集和利用這些信息,如蘇玉照等人〔8〕就認(rèn)為如果能夠采集到Web日志的數(shù)據(jù),就能很好地滿足發(fā)現(xiàn)關(guān)聯(lián)規(guī)則、內(nèi)容分類和用戶聚類的需求,從而能提高個性化推薦的精度,進(jìn)而對定制Web日志的數(shù)據(jù)模型、過程及方法進(jìn)行探索。
大數(shù)據(jù)背景下的圖書館服務(wù),對技術(shù)將提出更高的要求,服務(wù)的智能化程度也將達(dá)到一個新的水準(zhǔn)。首先,從圖書館主體本身來看,圖書館應(yīng)用智能化技術(shù)進(jìn)行自動的高級、復(fù)雜的數(shù)據(jù)收集及處理工作,既能在一定程度上節(jié)省大量的人力物力,也能解決人工可能無法實(shí)現(xiàn)的工作需求,如對海量信息數(shù)據(jù)的智能抓取、關(guān)鍵詞抽取等,使得節(jié)省下來的大量人力去研究圖書館建設(shè)的策略與更進(jìn)一步的智能化投入。其次,從圖書館的服務(wù)對象——讀者來看,服務(wù)內(nèi)容、手段的智能化程度提高與智能化技術(shù)、工具、平臺的服務(wù)實(shí)踐,所需的圖片、視頻、文本等信息將能輕易獲取,個體的信息如社交信息、生活數(shù)據(jù)等大量的非結(jié)構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)也都能為圖書館的智能化決策提供分析參考。再次,從智能化服務(wù)中的知識流通來看,圖書館服務(wù)智能化程度的提高不但有利于知識從單個主體擁有向多個主體擁有的流通與傳播,有利于隱性知識向顯性知識的轉(zhuǎn)變,也有利于知識的發(fā)現(xiàn)、挖掘與組織。
圖書館服務(wù)是其價(jià)值體現(xiàn)的核心,也是其存在的價(jià)值與意義所在,技術(shù)的發(fā)展與社會的進(jìn)步都為圖書館服務(wù)的發(fā)展注入了新的活力與動力,圖書館多年來的服務(wù)證明圖書館總是能抓住發(fā)展機(jī)會,滿足用戶日益增長的文化需求。但大數(shù)據(jù)時(shí)代的來臨,帶給圖書館的不僅是機(jī)會,更是挑戰(zhàn),技術(shù)的開發(fā)與運(yùn)用、數(shù)據(jù)的集成與處理、人才的培養(yǎng)與管理等都是大數(shù)據(jù)時(shí)代圖書館無法回避的問題。今天,圖書館不但面臨著極高的大數(shù)據(jù)跨入門檻,在市場份額競爭日趨激烈的環(huán)境中,還面臨著極高的管理風(fēng)險(xiǎn),基礎(chǔ)設(shè)施、管理體制、發(fā)展戰(zhàn)略等都是其成功邁入大數(shù)據(jù)時(shí)代的關(guān)鍵因素。因此,圖書館想在大數(shù)據(jù)時(shí)代有所作為,需在對形勢有清醒的認(rèn)識基礎(chǔ)上,利用大數(shù)據(jù)創(chuàng)新圖書館服務(wù),提升圖書館的核心競爭力。
1.高勇.啤酒與尿布:神奇的購物籃分析.北京:清華大學(xué)出版社,2008
2.Big Data is a Big Deal.http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.〔2012-06-06〕
3.Big data:The next frontier for innovation,competition,and productivity.http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation.〔2012-08-01〕
4.IBM 公司在大數(shù)據(jù)領(lǐng)域占有先機(jī).http://it.hilizi.com/server/275232/372589013274b.shtml.〔2012-08-01〕
5.韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn).圖書與情報(bào),2012(5):37-38
6.印度IT業(yè)迎來新生:大數(shù)據(jù)催生大批分析公司.http://www.chinadaily.com.cn/micro-reading/dzh/2012-10-08/content_7178432.html.〔2012-08-01〕
7.NASSCOM.http://www.nasscom.in/.〔2012-08-01〕
8.蘇玉照,牛曉太,趙妍.提高個性化推薦精度的定制Web日志方法.圖書與情報(bào),2011(5):66-70