楊亮+雷智雁
基金項(xiàng)目:廣東省教育科學(xué)“十二五”規(guī)劃項(xiàng)目(項(xiàng)目編號(hào):2012JK290)研究成果之一。
作者簡(jiǎn)介:楊亮(1984-),男,館員,碩士,研究方向:數(shù)字圖書館?!ば畔⒆稍兣c服務(wù)·
〔摘要〕文章在描述大數(shù)據(jù)研究背景及其特點(diǎn)的基礎(chǔ)上,分析大數(shù)據(jù)對(duì)圖書館信息推送、參考咨詢、學(xué)科服務(wù),好書推薦等個(gè)性化服務(wù)的影響,總結(jié)大數(shù)據(jù)在圖書館個(gè)性化服務(wù)及圖書館管理中的應(yīng)用,針對(duì)數(shù)據(jù)分析的平臺(tái)、成本問題、用戶隱私等關(guān)鍵問題展開討論。
〔關(guān)鍵詞〕圖書館;大數(shù)據(jù);用戶服務(wù);個(gè)性化服務(wù)
DOI:10.3969/j.issn.1008-0821.2014.04.016
〔中圖分類號(hào)〕G25076〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2014)04-0074-04
The Research of Personalized Library Services in the Age of Big DataYang LiangLei Zhiyan
(Library,Shenzhen University,Shenzhen 518060,China)
〔Abstract〕On the basis of description of the background and characteristics of big data,this article analyzed the impact on personalized library services,like information push,reference services,discipline services and recommended books.This article summarized the big data applications in the personalized library services and library management,discussed the key issues like data analysis platform,cost and privacy.
〔Keywords〕library;big data;user service;personalized service
現(xiàn)代科技的發(fā)展,尤其是計(jì)算機(jī)和互聯(lián)網(wǎng)的出現(xiàn),促成了全球信息總量以幾何級(jí)數(shù)增長(zhǎng),據(jù)IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)研究報(bào)告,2020年全球數(shù)據(jù)量將達(dá)到35ZB,為2009年的44倍[1]。毫無疑問,人類正在邁入大數(shù)據(jù)(Big data)時(shí)代。大數(shù)據(jù)正逐漸影響著行業(yè)的發(fā)展和個(gè)人的思維習(xí)慣。圖書館作為實(shí)現(xiàn)個(gè)人和信息資源交互的主要機(jī)構(gòu),如何應(yīng)對(duì)大數(shù)據(jù)帶來的沖擊和挑戰(zhàn),并在大數(shù)據(jù)浪潮中提升服務(wù)水平和管理能力,是一個(gè)值得研究的問題。
1研究背景
11大數(shù)據(jù)研究起源
大數(shù)據(jù)概念的提出最早可以追溯到2008年9月《自然》雜志發(fā)表的文章《Big Data:Science in the Petabyte Era》,而大數(shù)據(jù)引起人們廣泛關(guān)注,則是源于全球知名的咨詢公司麥肯錫在2011年5月發(fā)布的《Big data:The next frontier for innovation,competition,and productivity》報(bào)告,報(bào)告指出,數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,而人們對(duì)于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來[2]。2012年,聯(lián)合國一個(gè)名為Global Pulse的倡議項(xiàng)目發(fā)布了名為《Big Data for Development:challenges & opportunities》的報(bào)告,該報(bào)告主要闡述了大數(shù)據(jù)時(shí)代各國特別是發(fā)展中國家在面臨數(shù)據(jù)洪流的情況下所遇到的機(jī)遇與挑戰(zhàn)[3]。同年,美國政府宣布推出了“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”,將大數(shù)據(jù)的研究和開發(fā)提升到國家戰(zhàn)略的高度,這是繼1993年美國宣布“信息高速公路”計(jì)劃后的又一次重大科技發(fā)展部署[4]。與此同時(shí),IT行業(yè)巨頭,如Microsoft、IBM、Oracle等相繼投入大數(shù)據(jù)信息處理技術(shù)的研究,并針對(duì)企業(yè)的決策支持、風(fēng)險(xiǎn)分析、自動(dòng)化流程等方面推出相關(guān)服務(wù)[5]。
12大數(shù)據(jù)特點(diǎn)
目前,學(xué)術(shù)界對(duì)大數(shù)據(jù)尚未有一個(gè)公認(rèn)的定義,學(xué)者們也習(xí)慣于按照特征來描述大數(shù)據(jù)。大數(shù)據(jù)的常見特征是3V:(1)大量化(Volume),數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB級(jí),甚至開始以EB和ZB來計(jì)數(shù);(2)多樣化(Variety),在大數(shù)據(jù)時(shí)代,個(gè)人作為制造數(shù)據(jù)主體的特征越來越明顯,而個(gè)體所產(chǎn)生的絕大部分?jǐn)?shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等;(3)快速化(Velocity),大數(shù)據(jù)的快速化特征一方面指大數(shù)據(jù)的增長(zhǎng)速度快,另一方面指大數(shù)據(jù)所包含的眾多非結(jié)構(gòu)化數(shù)據(jù)具有很強(qiáng)的時(shí)效性,如新聞、金融及社交等數(shù)據(jù),隨著時(shí)間的流逝其利用價(jià)值會(huì)越來越低。此外,也有組織和個(gè)人將大數(shù)據(jù)的特征歸納為4V,但第4個(gè)“V”所代表的含義眾說紛紜,IBM認(rèn)為大數(shù)據(jù)的4V應(yīng)包含準(zhǔn)確性(Veracity),而IDC則認(rèn)為大數(shù)據(jù)應(yīng)該具有價(jià)值性(value)。雖然大數(shù)據(jù)的概念目前還存在一些爭(zhēng)議,但這并不影響人們對(duì)其研究,正是因?yàn)檫@些爭(zhēng)議的存在,證明大數(shù)據(jù)對(duì)人們工作和生活的方方面面產(chǎn)生影響,也將逐漸影響到各個(gè)學(xué)科的發(fā)展。
13大數(shù)據(jù)的應(yīng)用
大數(shù)據(jù)的應(yīng)用價(jià)值在于從不確定數(shù)據(jù)中提取有價(jià)值數(shù)據(jù),借助于Hadoop等處理和分析平臺(tái),大數(shù)據(jù)在諸多方面都體現(xiàn)了其價(jià)值。在能源領(lǐng)域,丹麥能源公司Vestas利用IBM大數(shù)據(jù)分析軟件和系統(tǒng)對(duì)氣象報(bào)告、潮汐相位、地理空間等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,改進(jìn)了風(fēng)力機(jī)組的位置,獲得最佳的能量輸出[6]。在政治領(lǐng)域,奧巴馬在2012年美國大選中獲勝得力于其背后的大數(shù)據(jù)分析團(tuán)隊(duì),如分析師們根據(jù)每個(gè)選民的住址、家庭狀況、家庭背景等數(shù)據(jù)分析得出其性格特征,從而針對(duì)他們進(jìn)行不同的競(jìng)選游說,用最低的成本,更高的效率獲得了大選的成功[7]。在零售領(lǐng)域,淘寶數(shù)據(jù)魔方是一個(gè)基于淘寶海量數(shù)據(jù)分析的商業(yè)數(shù)據(jù)產(chǎn)品,可以分析淘寶全行業(yè)的瀏覽、交易、收藏、搜索等數(shù)據(jù)以及消費(fèi)者的用戶特征,從而得出消費(fèi)者的去向以及消費(fèi)者的消費(fèi)偏好,方便賣家分析競(jìng)爭(zhēng)對(duì)手,探究消費(fèi)行為,提高銷售的針對(duì)性。
2大數(shù)據(jù)對(duì)圖書館用戶個(gè)性化服務(wù)影響
21大數(shù)據(jù)研究深化了圖書館個(gè)性化服務(wù)內(nèi)涵
用戶是圖書館資源的利用者,是圖書館服務(wù)的對(duì)象。有學(xué)者認(rèn)為,圖書館用戶個(gè)性化服務(wù)是根據(jù)每個(gè)用戶的需求而特別定制的服務(wù),有3個(gè)方面的含義:①時(shí)空服務(wù)的個(gè)性化,在用戶指定的時(shí)間和指定的地點(diǎn)得到服務(wù);②服務(wù)的方式的個(gè)性化,根據(jù)用戶的個(gè)人愛好或特點(diǎn)的要求來開展服務(wù);③服務(wù)內(nèi)容的個(gè)性化,所提供的服務(wù)不再是千篇一律,而是各取所需,各得其所[8]。自數(shù)字圖書館興起以來,圖書館在時(shí)空服務(wù)的個(gè)性化方面已經(jīng)取得了長(zhǎng)足進(jìn)步,用戶使用圖書館不再受時(shí)間和地點(diǎn)的約束,可獲取的信息量近乎無限的增加,這是圖書館發(fā)展史上的一次重要的變革。相對(duì)于時(shí)空服務(wù)的個(gè)性化,數(shù)字圖書館在服務(wù)方式個(gè)性化和服務(wù)內(nèi)容個(gè)性化方面還有較大的提升空間,而這正是大數(shù)據(jù)在圖書館能夠發(fā)揮作用的地方。
endprint
22大數(shù)據(jù)在用戶個(gè)性化服務(wù)方式中的應(yīng)用
在服務(wù)的方式的個(gè)性化方面,傳統(tǒng)的圖書館個(gè)性化服務(wù)包括圖書借閱、參考咨詢、館際互借、文獻(xiàn)查收查引、館際互借等。大數(shù)據(jù)的平臺(tái)能對(duì)圖書館用戶的個(gè)人信息、借閱歷史、瀏覽記錄等數(shù)據(jù)進(jìn)行分析,從而得出用戶的偏好和研究興趣,為不同的用戶提供不同的服務(wù)。大數(shù)據(jù)可從以下幾個(gè)領(lǐng)域?yàn)橛脩籼峁﹤€(gè)性化服務(wù):
221個(gè)性化信息推送服務(wù)
數(shù)字圖書館對(duì)傳統(tǒng)圖書館的資源進(jìn)行了數(shù)字化,使其更加易于獲取,并采用個(gè)人圖書館(My Library)平臺(tái)對(duì)圖書館可提供的服務(wù)類型進(jìn)行整合,提供簡(jiǎn)單的信息推送服務(wù),不過,這種信息推送服務(wù)大程度都是圖書館發(fā)布的統(tǒng)一的通知類信息,并不能針對(duì)每一個(gè)個(gè)體用戶而推送個(gè)性化的信息。大數(shù)據(jù)分析平臺(tái)可以改善信息推送的針對(duì)性,通過分析用戶使用記錄就能夠推測(cè)出其信息需求,當(dāng)用戶登錄個(gè)人圖書館時(shí),系統(tǒng)就會(huì)自動(dòng)為其推送其可能感興趣的信息,如采購新書、數(shù)據(jù)庫、甚至期刊論文全文。
222參考咨詢服務(wù)
目前的數(shù)字圖書館參考咨詢服務(wù)已能做到記錄用戶的咨詢記錄,當(dāng)用戶再次使用參考咨詢服務(wù)時(shí)館員能夠?yàn)g覽其以往的咨詢記錄,做到心中有數(shù)。大數(shù)據(jù)分析平臺(tái)能夠根據(jù)用戶以往的咨詢記錄以及用戶的個(gè)人信息、瀏覽記錄,預(yù)判用戶的需求,從用戶啟動(dòng)咨詢的那一刻,大數(shù)據(jù)分析平臺(tái)隨機(jī)啟動(dòng),并隨著用戶提問的不斷深入,在后臺(tái)為咨詢館員提供精確的參考答案。
223學(xué)科服務(wù)
大數(shù)據(jù)分析平臺(tái)能夠利用圖書館擁有的數(shù)字資源及用戶的訪問記錄,分析相關(guān)學(xué)科領(lǐng)域的科研熱點(diǎn),形成報(bào)告,為不同學(xué)科的科研人員服務(wù),使他們及時(shí)了解本學(xué)科的最新的科研動(dòng)向,以及本學(xué)科其他科研人員的研究進(jìn)展。
224好書薦讀
好書薦讀是圖書館提供的特色服務(wù)之一,深受用戶的喜愛,目前,好書的甄選主要由人工完成,書籍的來源有用戶推薦、借閱排名以及各類暢銷書排行榜等。大數(shù)據(jù)分析平臺(tái)能夠采集用戶在使用圖書館服務(wù)時(shí)提及的各種圖書書名,對(duì)這些圖書進(jìn)行綜合排名,能夠分析出用戶最感興趣的圖書名單。此外,大數(shù)據(jù)分析平臺(tái)也能通過分析圖書館數(shù)據(jù)庫中文獻(xiàn)的引用率,為用戶推薦圖書。
23大數(shù)據(jù)在用戶個(gè)性化服務(wù)內(nèi)容中的應(yīng)用
在服務(wù)內(nèi)容的個(gè)性化方面,目前大多數(shù)圖書館憑借本館內(nèi)的資源或圖書館聯(lián)盟的圖書、期刊、數(shù)據(jù)庫等資源提供服務(wù),對(duì)網(wǎng)絡(luò)上大量的非結(jié)構(gòu)化信息資源較少涉及。隨著大數(shù)據(jù)在日常的生活和科學(xué)研究中發(fā)揮的作用越來越明顯,用戶也渴望通過圖書館統(tǒng)一檢索的平臺(tái)獲取對(duì)他們有用的各類結(jié)構(gòu)化、非結(jié)構(gòu)化信息。為滿足用戶需求,圖書館界有必要對(duì)大數(shù)據(jù)展開研究,提供復(fù)雜信息資源分析處理的服務(wù)。在大數(shù)據(jù)時(shí)代,圖書館的傳統(tǒng)業(yè)務(wù)將向數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉(zhuǎn)移,對(duì)大量數(shù)據(jù)的分析與處理,為用戶提供知識(shí)信息服務(wù)將成為圖書館的主要業(yè)務(wù)。圖書館信息資源數(shù)據(jù)量的擴(kuò)展、服務(wù)質(zhì)量的提升、服務(wù)策略的轉(zhuǎn)變不僅僅是依靠簡(jiǎn)單的數(shù)據(jù)共享、豐富資源、創(chuàng)新方式、增加時(shí)間等,從大量數(shù)據(jù)中發(fā)現(xiàn)的規(guī)律越多,找出潛在的價(jià)值越大,圖書館的服務(wù)水平也將提升得越快[9]。事實(shí)上,數(shù)據(jù)分析所依賴的大量數(shù)據(jù)資源中,圖書館具有所有權(quán)的數(shù)據(jù)資源數(shù)量比較少,從而成為限制這種服務(wù)發(fā)展的瓶頸。圖書館如何與數(shù)據(jù)庫供應(yīng)商以及其他與用戶相關(guān)聯(lián)的數(shù)據(jù)擁有者合作,共同開發(fā)和維護(hù)數(shù)據(jù)資源,將成為圖書館為用戶提供個(gè)性化服務(wù)的關(guān)鍵。
24大數(shù)據(jù)在圖書館管理中的應(yīng)用
圖書館作為一個(gè)生長(zhǎng)著的有機(jī)體,用戶的個(gè)性化需求會(huì)經(jīng)常會(huì)發(fā)生變化,這些變化可以通過用戶的建議來獲得,也可以通過分析用戶使用圖書館服務(wù)的記錄,預(yù)判用戶需求,為圖書館發(fā)展提供決策支持。首先,借助大數(shù)據(jù)分析平臺(tái),圖書館可通過對(duì)用戶訪問、瀏覽、使用圖書館服務(wù)、來館時(shí)間、頻次以及活動(dòng)范圍、使用圖書館設(shè)備等非結(jié)構(gòu)化數(shù)據(jù),生成報(bào)告和圖表,圖書館管理人員就能夠直觀地了解圖書館各類服務(wù)和設(shè)備被使用的情況,從而為優(yōu)化人員和設(shè)備配置提供決策支持。其次,借助大數(shù)據(jù)分析平臺(tái),圖書館還可以分析圖書借閱的情況和數(shù)據(jù)庫使用情況,為圖書采訪的副本量和主要采訪對(duì)象提供參考依據(jù),通過數(shù)據(jù)量使用數(shù)據(jù)的分析,可以得出哪些數(shù)據(jù)庫需要增加,哪些可以取消,增加與數(shù)據(jù)庫商進(jìn)行談判的籌碼。再次,借助大數(shù)據(jù)分析平臺(tái),大數(shù)據(jù)能節(jié)省大量的人力物力,在資源有限的情況下提高圖書館的工作效率,為用戶提供比如競(jìng)爭(zhēng)情報(bào)等高水平的知識(shí)信息服務(wù)。此外,通過大數(shù)據(jù)平臺(tái)對(duì)用戶群體特征進(jìn)行分析,建立圖書館業(yè)務(wù)建設(shè)的模型,可以為調(diào)整館藏資源、設(shè)備布局,評(píng)估風(fēng)險(xiǎn)等提供決策支持。
3大數(shù)據(jù)在圖書館用戶服務(wù)應(yīng)用中的關(guān)鍵問題
31數(shù)據(jù)分析的平臺(tái)
處理結(jié)構(gòu)化大數(shù)據(jù)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)目前已經(jīng)比較成熟,三大主流關(guān)系數(shù)據(jù)庫Oracle、DB2和SQL Server在性能上各有千秋,均提供了強(qiáng)大的結(jié)構(gòu)化數(shù)據(jù)管理及處理、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)決策等功能[10]。在處理復(fù)雜的結(jié)構(gòu)化及非結(jié)構(gòu)化大數(shù)據(jù)方面,圖書館面臨復(fù)雜數(shù)據(jù)處理和迅速增長(zhǎng)的海量數(shù)據(jù)的挑戰(zhàn),選擇一個(gè)合適的大數(shù)據(jù)分析平臺(tái)至關(guān)重要。Hadoop是目前最為流行的平臺(tái),具有高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性的特點(diǎn),在電子商務(wù)、基礎(chǔ)設(shè)施管理、醫(yī)療保健、在線旅游等領(lǐng)域都有豐富的應(yīng)用實(shí)踐。在Hadoop平臺(tái)上,圖書館大數(shù)據(jù)處理可分為4個(gè)層面,即客戶端層、中間層、應(yīng)用服務(wù)層和存儲(chǔ)層[11]??蛻舳藢邮怯脩粲脕頌g覽和操作數(shù)字圖書館的各種應(yīng)用服務(wù)的界面,一般是WEB瀏覽器和應(yīng)用軟件。中間層主要是Web服務(wù)器,響應(yīng)來自客戶端的HTTP請(qǐng)求,調(diào)用各種應(yīng)用服務(wù),并將處理的數(shù)據(jù)通過中間層返回給客戶端。應(yīng)用服務(wù)層主要是一些應(yīng)用服務(wù)器,負(fù)責(zé)提供各種數(shù)字圖書館的應(yīng)用服務(wù),主要是用戶管理、索引管理、資源管理、資源搜索、安全管理等。存儲(chǔ)層負(fù)責(zé)將數(shù)字資源實(shí)體虛擬成一個(gè)文件系統(tǒng),提供數(shù)據(jù)的分布式存儲(chǔ)。
32成本問題
大數(shù)據(jù)有利于圖書館降低運(yùn)營的成本,圖書館可以根據(jù)大數(shù)據(jù)分析結(jié)果,提高資源的利用率,增加能為用戶帶來更好使用體驗(yàn)的服務(wù)項(xiàng)目,減免不必要的支出。在大數(shù)據(jù)的運(yùn)行成本方面,儲(chǔ)存持續(xù)增加數(shù)據(jù)量在總成本中占據(jù)相當(dāng)大的的比例,如淘寶目前每天的活躍數(shù)據(jù)量已經(jīng)超過50TB,然而,就圖書館而言,目前可分析的數(shù)據(jù)量并不算很突出,清華大學(xué)圖書館2012年建立的集中存儲(chǔ)系統(tǒng)也僅有500TB,這為經(jīng)費(fèi)并不充沛的圖書館減輕了壓力。此外,大數(shù)據(jù)時(shí)代到來的原因是成本的降低和能力的提高,根據(jù)摩爾定律,當(dāng)價(jià)格不變時(shí),計(jì)算機(jī)的性能約每隔18個(gè)月將提升一倍。隨著技術(shù)的進(jìn)步,圖書館利用大數(shù)據(jù)的成本也將會(huì)越來越低。
33用戶隱私
用戶數(shù)據(jù)的妥善保存對(duì)圖書館的信譽(yù)度有較大的影響。在大數(shù)據(jù)時(shí)代,圖書館用戶的個(gè)人信息和通過人機(jī)交互產(chǎn)生行為信息都屬于用戶隱私的范疇,這些信息如果得到了合理的利用,可為用戶提供更優(yōu)質(zhì)的個(gè)性化服務(wù),反之,如果圖書館用戶數(shù)據(jù)遭到泄露,則極易遭到商業(yè)化或非法利用,給用戶帶來損失,從而使用戶對(duì)圖書館的信任度降低,導(dǎo)致用戶流失。
參考文獻(xiàn)
[1]Big Data:What It Is and Why You Should Care[EB/OL].http:∥sites.amd.com/es/Documents/Big-Data-WP-06-2011.pdf,2013-11-12.
[2]Big Data:The Next Frontier for Innovation,Competition,and Productivity[EB/OL].http:∥www.mckinsey.com/insights/businesstechnology/bigdatathenextfrontierforinnovation,2013-11-12.
[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,(1):146-169.
[4]Big Data Across the Federal Government[EB/OL].http:∥www.whitehouse.gov/sites/default/files/microsites/ostp/bigdatafactsheet.pdf,2013-11-22.
[5]IBM智慧的分析洞察[EB/OL].http:∥www-31.ibm.com/ibm/cn/bao/bigdata/smarteranalytics/index.shtml,2013-12-18.
[6]IBM大數(shù)據(jù)助Vestas將氣候轉(zhuǎn)化為資本[EB/OL].http:∥www-03.ibm.com/software/products/zh/category/SWP10,2013-12-18.
[7]姜山,王剛.大數(shù)據(jù)對(duì)圖書館的啟示[J].圖書館工作與研究,2013,(4):52-79.
[8]周青.試論圖書館個(gè)性化服務(wù)與未來展望[J].圖書館,2004,(1):73-75.
[9]楊海燕.大數(shù)據(jù)時(shí)代的圖書館服務(wù)淺析[J].圖書與情報(bào),2012,(4):120-122.
[10]郭自寬,張興旺,麥范金.大數(shù)據(jù)生態(tài)系統(tǒng)在圖書館中的應(yīng)用[J].情報(bào)資料工作,2013,(2):23-28.
[11]王亞民,劉學(xué)勝.基于Hadoop平臺(tái)的數(shù)字圖書館研究[J].情報(bào)科學(xué),2012,(11):1685-1690.
(本文責(zé)任編輯:馬卓)
endprint