【摘 要】本文通過梳理大數(shù)據(jù)的內(nèi)涵與理念,分析了大數(shù)據(jù)環(huán)境下圖書館服務(wù)面臨的挑戰(zhàn)、大數(shù)據(jù)環(huán)境下圖書館應(yīng)用大數(shù)據(jù)技術(shù)促進服務(wù)的新發(fā)展。
【關(guān)鍵詞】大數(shù)據(jù);圖書館服務(wù);新發(fā)展
【中圖分類號】G252 【文獻標識碼】A
【文章編號】2095-3089(2018)22-0005-02
《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域》報告中首次提出了“大數(shù)據(jù)”的概念,還對大數(shù)據(jù)的分析技術(shù)與工具進行了列舉,如目前已為廣大圖書情報研究者所熟知的聚類分析、數(shù)據(jù)挖掘、網(wǎng)絡(luò)分析、可視化分析、數(shù)據(jù)融合與數(shù)據(jù)集成等。
一、大數(shù)據(jù)內(nèi)涵及理念
1.大數(shù)據(jù)內(nèi)涵。
關(guān)于大數(shù)據(jù),目前學界尚未形成統(tǒng)一的定義,但是存在一些共識: 大數(shù)據(jù)是一個動態(tài)概念,是一個用來描述海量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的流行短語,大數(shù)據(jù)的容量非常巨大以至于很難用傳統(tǒng)的數(shù)據(jù)庫和軟件技術(shù)進行存儲、管理和處理。但是,人們沒有明確提出數(shù)據(jù)量必須達到TB級或PB級才算是大數(shù)據(jù),數(shù)據(jù)量隨著信息技術(shù)的發(fā)展而改變,過去或目前的大數(shù)據(jù),在未來可能不再是大數(shù)據(jù)。
大數(shù)據(jù)具有 4V 特征,即種類( Variety) 多、速度( Velocity) 快、容量(Volume) 大、價值(Value) 大,其中價值大是其首要特征。建立數(shù)據(jù)驅(qū)動的關(guān)于大數(shù)據(jù)相關(guān)關(guān)系的分析以及建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預測是大數(shù)據(jù)的價值所在。
2.大數(shù)據(jù)理念。
大數(shù)據(jù)基本理念是通過包括互聯(lián)網(wǎng)在內(nèi)的多種渠道收集研究對象的多維度數(shù)據(jù),通過對海量數(shù)據(jù)的關(guān)聯(lián)分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)被研究對象的潛在行為模式或規(guī)律。
(1)大數(shù)據(jù)的價值提純。
大數(shù)據(jù)時代,重要的不是數(shù)據(jù),而是如何使用數(shù)據(jù)。企業(yè)要想創(chuàng)新發(fā)展立于不敗之地,必須改變它們的經(jīng)營方式,學會從數(shù)據(jù)中洞察事實并做出反應(yīng),否則數(shù)據(jù)整理得再有條理,也沒有什么價值。美國麻省理工學院管理評論在一個研究報告中指出: “頂尖績效的公司使用正確分析挖掘方法和工具的使用率,與績效低的公司相比,高出5倍?!笨梢?,挖掘數(shù)據(jù)價值在企業(yè)中非常重要,是人們利用大數(shù)據(jù)進行決策、發(fā)現(xiàn)事物規(guī)律的前提。
(2)大數(shù)據(jù)的分析與未來預知。
美國學者艾伯特拉斯洛·巴拉巴西認為,93% 的人類行為均可以通過數(shù)據(jù)分析予以預測。因此,圖書館要把用戶訪問圖書館網(wǎng)站、利用資源習慣、用戶網(wǎng)絡(luò)行為等數(shù)據(jù)搜集起來,進行分析挖掘,去發(fā)現(xiàn)用戶利用資源的規(guī)律及信息需求特點。
(3)大數(shù)據(jù)的服務(wù)精準與個性化。
大數(shù)據(jù)能夠收集來自電子商務(wù)、企業(yè)網(wǎng)站、博客、微信、移動應(yīng)用等不同渠道的用戶訪問、交易和反饋數(shù)據(jù),通過這些數(shù)據(jù)能夠了解用戶的全方面信息,通過分析數(shù)據(jù)可以針對不同的用戶提供更加精確、更加貼心的服務(wù); 對信息服務(wù)機構(gòu)來說,通過收集、分析用戶信息,可以提供個性化服務(wù)或一對一服務(wù)。
二、大數(shù)據(jù)環(huán)境下圖書館服務(wù)面臨的挑戰(zhàn)
大數(shù)據(jù)對圖書館服務(wù)造成的挑戰(zhàn)主要有: 一是數(shù)據(jù)量龐大。過去圖書館沒有關(guān)心或沒有能力關(guān)心的數(shù)據(jù),如: 社交媒體、智能設(shè)備、傳感器計量、消費痕跡等復雜業(yè)務(wù)數(shù)據(jù),也成為收藏對象。另外,隨著資源共享、圖書館聯(lián)盟建立,有的數(shù)字館藏量已達TB級,甚至PB級。二是隨著圖書館越來越重視服務(wù)層次的提高特別是個性化服務(wù),圖書館系統(tǒng)與網(wǎng)絡(luò)日志、監(jiān)控與服務(wù)視頻、音頻、圖片、網(wǎng)絡(luò)行為及增值服務(wù)信息等非結(jié)構(gòu)化數(shù)據(jù)將大大超越了以數(shù)字文本為主的結(jié)構(gòu)化信息資源的數(shù)據(jù)量。三是圖書館龐大數(shù)據(jù)量與非結(jié)構(gòu)化數(shù)據(jù)使數(shù)據(jù)的價值密度極大降低,而圖書館收藏及提供的信息資源是要經(jīng)過篩選的高質(zhì)量知識信息。因此,圖書館需要利用大數(shù)據(jù)技術(shù)處理海量數(shù)據(jù)來提高數(shù)據(jù)的價值可用性。
大數(shù)據(jù)環(huán)境下,圖書館除圖書、期刊、報紙、全文數(shù)據(jù)庫、媒體數(shù)據(jù)庫和自建數(shù)據(jù)庫等資源大數(shù)據(jù)及采訪、編目、借閱、文獻傳遞、參考咨詢等業(yè)務(wù)大數(shù)據(jù)和用戶大數(shù)據(jù)外,還包括行業(yè)數(shù)據(jù)、相關(guān) Web 站點數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)及其他外部數(shù)據(jù)來源,這些數(shù)據(jù)每天都在呈爆炸式增長,總量大,類型復雜多樣,以半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化異構(gòu)數(shù)據(jù)為主。如何收集有價值的數(shù)據(jù)成為一大難題,云計算為這些數(shù)據(jù)的有效整合提供了基礎(chǔ)和便利。圖書館可將數(shù)據(jù)資源存儲到云服務(wù)器上,形成多個地區(qū)多個類型圖書館資源的聚合中心,圖書館員只需通過網(wǎng)絡(luò)獲取和管理云中資源,在使用過程中不斷豐富和完善,解決圖書館大數(shù)據(jù)帶來的數(shù)據(jù)雜、垃圾數(shù)據(jù)多、資源分散分布及存儲成本高等問題。
大數(shù)據(jù)時代,圖書館服務(wù)質(zhì)量的提升需要大數(shù)據(jù)的支持,圖書館對讀者數(shù)據(jù)進行分析、處理和預測,能夠給讀者提供更好的服務(wù)模式。讀者信息需求更加個性化與多樣化,為滿足其需求圖書館需要分析圖書館與讀者之間、不同服務(wù)數(shù)據(jù)之間、讀者與服務(wù)數(shù)據(jù)之間的關(guān)系數(shù)據(jù),預測讀者需求、提供個性化定制服務(wù)與針對性服務(wù)。因此,從海量數(shù)據(jù)中提煉價值、分析讀者行為和需求,并通過個性化服務(wù)來滿足讀者獲取信息的效率、準確性和便捷性,成為影響圖書館服務(wù)發(fā)展及質(zhì)量提升的關(guān)鍵。
三、大數(shù)據(jù)在數(shù)字圖書館中的運用
隨著數(shù)字圖書館的迅速發(fā)展, 大數(shù)據(jù)工作也有了較大的應(yīng)用價值。 將圖書館數(shù)據(jù)進行挖掘的主要工作包括:
1.在數(shù)據(jù)處理方面的應(yīng)用。
由于圖書館對于數(shù)據(jù)有自身處理方式, 例如:高借閱類的書籍,今后可以多采購一些, 以便應(yīng)付更多的讀者進行瀏覽。 但是由于大數(shù)據(jù)工作在這些細微的方面需要進行大量的工作, 因此圖書管理中實現(xiàn)大數(shù)據(jù)應(yīng)當進行更多地數(shù)據(jù)處理和分析。
2.在用戶管理挖掘上的應(yīng)用。
用戶資源管理是現(xiàn)代圖書館實現(xiàn)個性化服務(wù)的重要基礎(chǔ)。 大數(shù)據(jù)可以從大量的用戶數(shù)據(jù)中挖掘出反映用戶屬性特征和信息行為特征的信息和規(guī)律, 從而為圖書館用戶資源管理提供幫助。從數(shù)字圖書館的大量訪問信息中挖掘用戶的訪問模式,也可從用戶訪問文檔的超鏈接來預測用戶的興趣,采用關(guān)聯(lián)性法則和聚類方法發(fā)現(xiàn)不同的用戶群體,然后對這些不同的群體提供信息定制服務(wù),幫助群體成員搜索、處理知識。
3.在用戶和圖書推薦上的應(yīng)用。
為了實現(xiàn)推薦系統(tǒng)的功能, 考慮到讀者、 圖書以及出版社的特點, 需要應(yīng)用不同的推薦方法, 大致分為以下幾類:
(1)非個性化推薦 (Non-Personalized Recommen-dation):所有的讀者得到的推薦都是相同的, 是非個性化的推薦。 例如在高校數(shù)字圖書館中,可以向所有訪問系統(tǒng)的讀者推薦月度最暢銷的書,借閱的雜志等。
(2)基于圖書的推薦:推薦系統(tǒng)根據(jù)讀者興趣推薦相關(guān)的圖書, 這種方式需要了解讀者當前選擇的圖書。 例如某位讀者選擇借閱了有關(guān)復雜網(wǎng)絡(luò)的書籍,推薦系統(tǒng)就可以向其推薦其它關(guān)于復雜網(wǎng)絡(luò)的圖書、雜志、論文等。
(3)相關(guān)性讀者推薦:推薦系統(tǒng)根據(jù)目前讀者與閱讀了該圖書的其它讀者之間的相關(guān)性進行推薦。例如高校數(shù)字圖書館可以對某讀者推薦其它與其相類似(相同愛好、 研究方向等) 的讀者共同研究。
(4)基于知識的推薦:通過推斷讀者的需要進行推測,系統(tǒng)要具有 “特定圖書能夠滿足特定讀者需要”的知識,來推導出讀者需要與某一圖書的相互關(guān)系。推薦系統(tǒng)可以根據(jù)某讀者的歷史借閱數(shù)據(jù)和文獻數(shù)據(jù)之間的分析, 獲得讀者的潛在知識需求, 對讀者進行建議。事實上,在推薦系統(tǒng)中綜合運用以上技術(shù)和方法,以達到更好的推薦效果。
四、大數(shù)據(jù)環(huán)境下圖書館服務(wù)的新發(fā)展
1.數(shù)據(jù)分析與數(shù)據(jù)挖掘是圖書館服務(wù)基礎(chǔ)。
大數(shù)據(jù)時代,圖書館間的競爭不僅是對文獻信息的擁有與組織的競爭,更多的是對多類型數(shù)據(jù)的擁有、融合、挖掘與利用能力的競爭,即大數(shù)據(jù)推動圖書館服務(wù)體系從以資源為中心向以數(shù)據(jù)為中心的方向發(fā)展,并且數(shù)據(jù)分析與數(shù)據(jù)挖掘成為圖書館提供服務(wù)與開展工作的基礎(chǔ)。圖書館要想提升服務(wù)水平,需要對用戶數(shù)據(jù)進行分析、處理和預測,以便提供更好的服務(wù)和更多的服務(wù)方式。圖書館通過對用戶借閱記錄、數(shù)字資源使用下載行為、網(wǎng)站瀏覽等記錄進行分析,建立用戶數(shù)據(jù)庫,再進行用戶行為模式相似性比對,提供準確的信息資源推薦及推送服務(wù); 通過對圖書借閱率、借閱排行、借閱次數(shù)、訪問數(shù)字資源類型及時間、學習行為、利用資源模式等記錄進行分析,圖書館能有針對性地采購用戶需要的信息資源; 通過對讀者閱讀習慣、學習方式、獲取資源方式等數(shù)據(jù)進行分析,圖書館能科學合理地完善圖書館工作流程與服務(wù)模式。
2.大數(shù)據(jù)環(huán)境下圖書館服務(wù)走向個性化。
大數(shù)據(jù)環(huán)境下,圖書館的服務(wù)策略建立在對大規(guī)模復雜數(shù)據(jù)搜集、組織、整理、分析和挖掘的基礎(chǔ)之上,因而大數(shù)據(jù)時代的圖書館服務(wù)項目更具有針對性和操作性。所以圖書館在解決用戶問題時,可以完全拋棄傳統(tǒng)的解決流程,而采用大數(shù)據(jù)策略的解決方案,即搜集解決用戶問題的相關(guān)數(shù)據(jù),量化分析,再找出相互關(guān)系,給出最優(yōu)解決方案。圖書館對數(shù)據(jù)的挖掘、分析,不僅要分析 MARC、電子論文、電子圖書等結(jié)構(gòu)化數(shù)據(jù),還要分析用戶的借閱行為、閱讀習慣等非結(jié)構(gòu)化數(shù)據(jù)以及用戶的網(wǎng)絡(luò)交流等網(wǎng)絡(luò)行為數(shù)據(jù),這樣圖書館才能實現(xiàn)“一對一”的個性化服務(wù)。如: 美國國會圖書館通過分析館內(nèi)布局與藏書流通率的關(guān)系,來量化并預測用戶的借閱行為,進而提供針對性服務(wù)。目前支持圖書館網(wǎng)上個性化信息服務(wù)所需的web數(shù)據(jù)庫技術(shù)、網(wǎng)頁動態(tài)生成技術(shù)、數(shù)據(jù)跟蹤技術(shù)、數(shù)據(jù)加密技術(shù)等都在不斷發(fā)展并應(yīng)用,大數(shù)據(jù)的發(fā)展,可以促使服務(wù)時空的個性化、服務(wù)對象的個性化、服務(wù)內(nèi)容與方式的個性化,甚至服務(wù)支撐技術(shù)的個性化。
3.大數(shù)據(jù)環(huán)境下圖書館服務(wù)趨向智慧性。
大數(shù)據(jù)是數(shù)據(jù)世界的智慧基因,分析和應(yīng)用大數(shù)據(jù)是獲得智慧的關(guān)鍵。傳統(tǒng)分析數(shù)據(jù)的思路基本上都是抽取樣本,事先確定收集什么樣的數(shù)據(jù),然后尋找“已知的未知( Known unknows) ”,即證實某一結(jié)論正確。而大數(shù)據(jù)分析則是以全部數(shù)據(jù)為對象,發(fā)現(xiàn)未知的未知,即找到一些未曾想到的結(jié)果。大數(shù)據(jù)這種發(fā)現(xiàn)未知的未知功能為圖書館服務(wù)創(chuàng)新、實現(xiàn)智能化開辟了途徑,圖書館服務(wù)開始趨向智慧化發(fā)展: 第一,大數(shù)據(jù)技術(shù)不僅能夠利用數(shù)據(jù)了解用戶、信息行為、意愿、業(yè)務(wù)需求、知識應(yīng)用能力及服務(wù)需求等,還能夠利用數(shù)據(jù)分析和預測用戶科研創(chuàng)新將要發(fā)生什么,從而提供智慧服務(wù)。第二,對圖書館已有信息資源進行挖掘,抓取有價值的知識、關(guān)系、模式等,對網(wǎng)絡(luò)免費信息資源利用蜘蛛爬行器、自動跟蹤等技術(shù)完成對其搜集、處理和保存等,以便構(gòu)建智慧型知識服務(wù)引擎。第三,大數(shù)據(jù)時代,智慧服務(wù)的三個基本要素是智慧館員、數(shù)據(jù)( 知識) 和用戶,其中智慧館員是核心和主體。智慧館員不僅要具備掌握分析和預測大數(shù)據(jù)的范疇、價值、狀態(tài)和周期的能力,還要具備靈活運用信息技術(shù)、人工智能、自然語言理解、數(shù)學算法等多學科先進成果的能力。
4.大數(shù)據(jù)使圖書館提供更深層次的知識創(chuàng)新服務(wù)。
大數(shù)據(jù)環(huán)境下,圖書館提供面向創(chuàng)新的知識服務(wù),該服務(wù)以解決用戶問題為核心,深入解決問題的各個環(huán)節(jié),擁有解決問題的探索、構(gòu)建和測試等服務(wù)機制。此服務(wù)建立用戶數(shù)據(jù)庫,及應(yīng)用前景。為適應(yīng)用戶學習研究模式的變化,促進知識的創(chuàng)新發(fā)展,圖書館應(yīng)主動參與創(chuàng)客教育,正確認識圖書館在學習與創(chuàng)新過程中扮演的服務(wù)和支持角色,根據(jù)用戶實際需求提供更為深層次的服務(wù)。
參考文獻
[1]閻迪.圖書館大數(shù)據(jù)服務(wù)的發(fā)展對策.圖書館學刊,2017,2.
[2]程結(jié)晶.大數(shù)據(jù)時代圖書館服務(wù)創(chuàng)新的內(nèi)容及其策略研究.情報理論與實 踐,2016,3.
[3]楊海燕.大數(shù)據(jù)時代圖書館服務(wù)淺析.圖書與情報,2012,4.
[4]晉照麗.大數(shù)據(jù)技術(shù)在高校圖書館服務(wù)中的應(yīng)用.農(nóng)業(yè)圖書情報學刊,2014,11.
作者簡介:方梅青(1979-),女,碩士, 館員,研究方向:圖書館學。