劉斌 黃婧 李峰 李書寧
(北京師范大學圖書館,北京 100875)
隨著數(shù)字圖書館、智能圖書館的持續(xù)發(fā)展,高校圖書館各類服務與管理業(yè)務日益增多,逐漸積累了大量數(shù)據(jù),其中包括圖書館的各類館藏資源數(shù)據(jù)、讀者圖書借閱數(shù)據(jù)、電子資源利用數(shù)據(jù)、網站訪問數(shù)據(jù)、自助設備使用數(shù)據(jù)、咨詢數(shù)據(jù)、管理數(shù)據(jù)、日志數(shù)據(jù)等。這些數(shù)據(jù)對于圖書館全面、深入地了解自身館藏資源、讀者借閱及信息利用行為、讀者的信息需求變化、各類服務系統(tǒng)的運行效率等具有重要意義,可以說這些數(shù)據(jù)也是高校圖書館的重要核心資產。圖書館通過分析這些數(shù)據(jù),能夠獲取大量有深度和有價值的信息,并利用這些數(shù)據(jù)的支持保證圖書館的資源配置、讀者服務、系統(tǒng)運行的高效和滿意。
通過對各類型數(shù)據(jù)有效地采集、存儲和管理,并予以科學分析和評價,不僅能夠為圖書館開展更加精準的信息服務和精細的資源管理提供科學決策依據(jù),也能夠為圖書館進行未來規(guī)劃、服務模式調整、服務創(chuàng)新的趨勢分析與發(fā)展預估提供數(shù)據(jù)支撐。在大數(shù)據(jù)關鍵技術不斷發(fā)展的環(huán)境下,技術應用與解決方案的日趨成熟為圖書館更加科學地管理分析數(shù)據(jù)提供有效的方法和工具。因此,高校圖書館需要把握大數(shù)據(jù)環(huán)境帶來的良好機遇,充分利用相關技術工具,構建數(shù)據(jù)管理與分析平臺,采用科學的分析與管理策略,對積累的各類型數(shù)據(jù)進行管理與分析利用,從而實現(xiàn)深入、系統(tǒng)地了解讀者需求,提升圖書館服務的智能化程度,提高圖書館資源配置的合理性,推動圖書館科學管理,并將管理與服務決策方式由傳統(tǒng)、主觀、經驗式決策,向依靠大數(shù)據(jù)的科學、定量化決策方式轉變。
本文在調研國內外高校圖書館數(shù)據(jù)管理與分析實踐的基礎上,介紹北京師范大學圖書館依托大數(shù)據(jù)管理技術架構和商業(yè)通用數(shù)據(jù)分析平臺開展多源數(shù)據(jù)管理和分析應用實踐,期望能夠為大數(shù)據(jù)環(huán)境下的高校圖書館實施“數(shù)據(jù)驅動”資源建設優(yōu)化、服務價值提升和管理決策科學化提供有益參考。
高校圖書館數(shù)據(jù)包括業(yè)務數(shù)據(jù)、館藏資源數(shù)據(jù)、讀者數(shù)據(jù)、管理數(shù)據(jù)。其中,業(yè)務數(shù)據(jù)包括圖書館在館藏資源管理的業(yè)務流程中產生的采、編、流、檢數(shù)據(jù)。館藏資源是圖書館根據(jù)本機構學科專業(yè)設置規(guī)劃和配置館藏,并經過專業(yè)規(guī)范的揭示與組織后所形成的信息(文獻)資源集合,包括紙質資源、訂購的電子資源和自建數(shù)字資源等。從數(shù)據(jù)內容上講,館藏資源數(shù)據(jù)包括圖書館描述和揭示資源本身的結構化數(shù)據(jù)(即元數(shù)據(jù))、資源的全文數(shù)據(jù)、資源的訪問數(shù)據(jù)等。讀者數(shù)據(jù)是讀者在利用圖書館資源、服務的過程中產生的各種行為數(shù)據(jù),包括紙質資源的借閱、電子資源及數(shù)字資源的檢索與全文訪問、圖書館網站的訪問、自助服務的利用、信息服務的咨詢等。管理數(shù)據(jù)是圖書館在運轉與服務中產生的各類數(shù)據(jù),包括館舍數(shù)據(jù)、人事數(shù)據(jù)、財務數(shù)據(jù)、項目數(shù)據(jù)、合同數(shù)據(jù)等。這些數(shù)據(jù)“是高校圖書館最為寶貴的核心數(shù)據(jù)資產,是圖書館業(yè)務運轉和開展各類信息服務的基礎”[1]。
以北京師范大學圖書館數(shù)據(jù)為例,按照數(shù)據(jù)產生源頭劃分,可大致將數(shù)據(jù)分為:①資源數(shù)據(jù),包括紙質、電子、數(shù)字資源等資源的元數(shù)據(jù)、全文數(shù)據(jù)、訪問數(shù)據(jù)等;②業(yè)務數(shù)據(jù),包括圖書館員業(yè)務流程中產生的采訪、編目、調撥等工作數(shù)據(jù);③讀者數(shù)據(jù),包括讀者個人信息,讀者使用圖書館紙質資源產生的圖書瀏覽、借閱數(shù)據(jù),使用圖書館電子或數(shù)字資源產生的在線訪問、檢索、瀏覽、下載等信息行為數(shù)據(jù),使用圖書館網站產生的訪問、瀏覽數(shù)據(jù),使用圖書館空間產生的入館、選座、研究間利用數(shù)據(jù)等;④管理數(shù)據(jù),包括圖書館內部的人事數(shù)據(jù)、財務數(shù)據(jù)、固定資產數(shù)據(jù)等。
從上述數(shù)據(jù)看,高校圖書館數(shù)據(jù)具有3個特點。
(1)數(shù)據(jù)類型復雜多樣。首先,高校圖書館資源類型豐富,包括多種文獻類型、載體形式和呈現(xiàn)格式;其次,高校圖書館業(yè)務系統(tǒng)煩雜,數(shù)據(jù)來源于各類不同系統(tǒng),數(shù)據(jù)結構各不相同,既有來源于關系型數(shù)據(jù)庫的結構化數(shù)據(jù),也有來源于日志文件、XML文件等半結構化數(shù)據(jù),還有大量沒有固定結構的文本、多媒體等資源對象的非結構化數(shù)據(jù)。
(2)數(shù)據(jù)量大。高校圖書館經過多年的建設、服務積累,已經擁有大量的文獻信息資源數(shù)據(jù)、讀者信息行為數(shù)據(jù)、系統(tǒng)運行日志數(shù)據(jù)、業(yè)務運行數(shù)據(jù)、管理數(shù)據(jù)等。
(3)數(shù)據(jù)增長速度快。通過利用物聯(lián)網技術支持的實體資源管理,利用互聯(lián)網、移動技術實現(xiàn)的各類資源訪問,以及引入社交網絡技術的讀者服務,促進了圖書館業(yè)務及讀者數(shù)據(jù)流動的加速,為圖書館貢獻了大量在線、實時數(shù)據(jù),加速了圖書館各類數(shù)據(jù)的生成。
高校圖書館的數(shù)據(jù)具有類型復雜、數(shù)據(jù)量大、增長速度快的特點,呈現(xiàn)出大數(shù)據(jù)的部分特征,給數(shù)據(jù)管理帶來較大挑戰(zhàn)。同時,為高校圖書館積極利用大數(shù)據(jù)相關技術與服務,對各類型數(shù)據(jù)進行管理與分析帶來良好機遇。
2001年Laney首次提出“Big data”之后[2],大數(shù)據(jù)逐漸成為全球諸多國家的重要戰(zhàn)略資源。在這樣的時代背景下,國外圖書館界學者開始關注圖書館大數(shù)據(jù)應用和服務需求并討論技術問題,其中美國圖書館界在大數(shù)據(jù)應用于圖書館服務方面做了較多實踐嘗試。
早在2005年,耶魯醫(yī)學圖書館從所有可能的數(shù)據(jù)源分析紙本刊和電子刊的利用率,揭示讀者對于紙本刊和電子刊的喜好程度,圖書館以此為依據(jù)調整期刊訂購策略[3]。華盛頓大學圖書館自2006年至今,先后采用Tableau、平衡記分卡等多種工具和方法分析并展示圖書館統(tǒng)計數(shù)據(jù),支持館內的戰(zhàn)略決策,目前該館將圖書館數(shù)據(jù)分為館藏、服務和空間3種類型進行數(shù)據(jù)共享[4]。2014年,Niu等[5]通過分析普渡大學圖書館的2種資源發(fā)現(xiàn)系統(tǒng)VuFind和Primo的讀者日志數(shù)據(jù),理解讀者檢索行為和使用偏好,據(jù)此提出一套檢索行為評估方法,為發(fā)現(xiàn)系統(tǒng)中檢索點、分面的設置及檢索結果的展示提供了依據(jù)。美國哈佛大學圖書館將“大數(shù)據(jù)”的服務引入圖書館中并付諸實踐,將圖書館大數(shù)據(jù)向讀者公布。“這些數(shù)據(jù)包含1 200多萬種資料,有書目數(shù)據(jù)、地圖、手稿、音視頻等,并在美國數(shù)字公共圖書館中提供下載服務”[6]。
近年來國內學者也開始關注高校圖書館大數(shù)據(jù)服務和技術問題,并在實踐領域有所進展。在理論研究方面,馬曉亭[7]提出一種采用多層次的系統(tǒng)結構的圖書館大數(shù)據(jù)資源整合平臺的框架。在應用技術方面,Chen等[8]探討了圖書館大數(shù)據(jù)的存儲、數(shù)據(jù)挖掘及個性化服務等具體技術,提出以“Hadoop+MapReduce”并行架構的大數(shù)據(jù)應用方案。在實踐領域,上海交通大學圖書館在2012年自主開發(fā)完成覆蓋圖書館主要業(yè)務的一站式統(tǒng)計平臺,數(shù)據(jù)涉及館藏資源、流通活動、學科服務、應用系統(tǒng)、科研數(shù)據(jù)、基礎信息等,實現(xiàn)所有數(shù)據(jù)的集成管理,為圖書館各項工作提供指導[9]。2013年,清華大學圖書館嘗試從海量權威的元數(shù)據(jù)倉儲中提取關鍵詞等信息,一方面分析關鍵詞走向,以時間軸展示某學科的發(fā)展趨勢;另一方面分析作者與合作者的關系,建立以學者為中心的知識關聯(lián)網絡[10]。2016年,國家圖書館初步建成基于讀者與資源核心業(yè)務系統(tǒng)的圖書館大數(shù)據(jù)平臺,應用該平臺通過一系列分析方法,對國家圖書館服務情況、主要服務對象和整體資源利用情況進行深入分析[11]。
國內外實踐表明,對于高校圖書館來說,優(yōu)化資源建設、提升服務價值的“數(shù)據(jù)驅動”特征已經非常明顯,通過有效管理和分析來實現(xiàn)數(shù)據(jù)潛在價值的挖掘成為提高高校圖書館服務水平的發(fā)展要求。
2015年,北京師范大學圖書館嘗試利用圖書館大數(shù)據(jù)開展數(shù)據(jù)管理,并為讀者提供數(shù)據(jù)服務。為此,該館自主開發(fā)了面向院系的高校畢業(yè)生圖書館記憶系統(tǒng),整合來自圖書館集成管理系統(tǒng)、門禁系統(tǒng)、座位管理系統(tǒng)、研究間預約系統(tǒng)的數(shù)據(jù),通過數(shù)據(jù)清洗與關聯(lián)分析,形成可為畢業(yè)生提供的圖書館資源與服務利用數(shù)據(jù),并提供個人數(shù)據(jù)的查詢與展示。畢業(yè)生可通過系統(tǒng)瀏覽個人的到館記錄、借閱歷史清單、圖書館座位使用信息、研究間預約情況等[12]。該系統(tǒng)通過將多來源的數(shù)據(jù)整合到同一數(shù)據(jù)庫,分析和挖掘圖書館基礎數(shù)據(jù)的價值,并通過為讀者提供的數(shù)據(jù)服務,吸引眾多畢業(yè)生的參與和互動,較好地提升圖書館的影響力。
但是該系統(tǒng)開發(fā)的主要目的是為特定的讀者服務需求提供系統(tǒng)支持,重點在于數(shù)據(jù)服務的實現(xiàn),因此在系統(tǒng)架構與實現(xiàn)方案上存在一定局限。系統(tǒng)不具備前期數(shù)據(jù)的采集、清洗等功能,同時無法對后期數(shù)據(jù)進行系統(tǒng)性分析。為了能夠滿足對圖書館整體的數(shù)據(jù)管理和常規(guī)的數(shù)據(jù)分析需求,需要應用更合理的系統(tǒng)架構和豐富的功能,實現(xiàn)圖書館數(shù)據(jù)管理與分析平臺的開發(fā)與應用。
北京師范大學圖書館于2017年9月成功實施并上線了下一代圖書館服務平臺ALMA,與早先已實施上線的PRIMO檢索和發(fā)現(xiàn)系統(tǒng)一起,為該館統(tǒng)一資源管理與服務提供平臺。目前該館通過ALMA及PRIMO系統(tǒng),實現(xiàn)了對紙質資源、電子資源、部分數(shù)字資源的統(tǒng)一管理與服務,同時為圖書館資源、業(yè)務及讀者數(shù)據(jù)的統(tǒng)一管理與整合提供良好的系統(tǒng)條件。通過ALMA系統(tǒng),圖書館可獲取整合的資源數(shù)據(jù)、采編流業(yè)務數(shù)據(jù)、讀者個人信息數(shù)據(jù)及資源利用數(shù)據(jù),基本覆蓋圖書館的核心數(shù)據(jù)。同時,ALMA為第三方系統(tǒng)提供良好的API接口支持,通過ALMA分析模塊的API接口,可為第三方數(shù)據(jù)管理與分析系統(tǒng)提供數(shù)據(jù)調用。
此外,圖書館的主頁系統(tǒng)、門禁系統(tǒng)、座位管理系統(tǒng)及研究間管理系統(tǒng)等為圖書館提供了網站訪問、入館及空間利用的統(tǒng)計數(shù)據(jù),這些數(shù)據(jù)均來源于各系統(tǒng)的關系數(shù)據(jù)庫。ALMA、PRIMO、主頁系統(tǒng)、門禁系統(tǒng)、座位管理系統(tǒng)及研究間管理系統(tǒng)等提供的數(shù)據(jù),主要為結構化數(shù)據(jù),日積月累,數(shù)據(jù)量逐漸龐大,數(shù)據(jù)可分析和挖掘的價值逐漸增多,為圖書館管理決策與服務提供了很好的數(shù)據(jù)基礎(見表1)。
為解決圖書館整體的數(shù)據(jù)管理與分析需求,北京師范大學圖書館通過與商業(yè)公司開展技術合作,嘗試利用通用的數(shù)據(jù)管理與分析系統(tǒng),解決圖書館數(shù)據(jù)的統(tǒng)一管理與分析問題。為此,圖書館以讀者對圖書館資源、空間的利用數(shù)據(jù)為實驗數(shù)據(jù),對系統(tǒng)進行初步應用。利用該系統(tǒng),采集讀者紙質資源借閱數(shù)據(jù)、門禁數(shù)據(jù)、座位及研究間利用數(shù)據(jù),并通過數(shù)據(jù)處理,生成的結果應用于分析讀者群體的資源與空間利用狀況。該數(shù)據(jù)管理與分析平臺的架構主要包括數(shù)據(jù)層、分析層和展示層。其中數(shù)據(jù)層主要包括數(shù)據(jù)采集、數(shù)據(jù)整合、數(shù)據(jù)ETL(Extract-Transform-Load)處理、數(shù)據(jù)集市;分析層主要實現(xiàn)對數(shù)據(jù)查詢結果的分析,同時系統(tǒng)支持通過R語言實現(xiàn)的深度分析操作;展示層主要實現(xiàn)對數(shù)據(jù)分析結果的圖表化展示,并支持移動端的展示功能。具體架構見圖1。
表1 北京師范大學圖書館數(shù)據(jù)的主要來源
3.4.1 梳理數(shù)據(jù)源,進行數(shù)據(jù)采集
首先,針對讀者對圖書館資源、空間的利用問題,詳細梳理涉及的數(shù)據(jù)來源及數(shù)據(jù)內容(見表2)。
其次,針對涉及的數(shù)據(jù)來源及各系統(tǒng)數(shù)據(jù)庫情況和開放程度,分別對接各來源系統(tǒng)的數(shù)據(jù)源。根據(jù)數(shù)據(jù)來源系統(tǒng)的技術開放程度,主要采取3種數(shù)據(jù)源連接方式。①通過建立ODBC接口直接利用SQL查詢語句從對應系統(tǒng)的數(shù)據(jù)庫中實時獲取感興趣的數(shù)據(jù)(包括My SQL、SQL Server、Oracle等關系數(shù)據(jù)庫的數(shù)據(jù)),通過此種方式,實現(xiàn)對門禁系統(tǒng)、座位管理系統(tǒng)及研究間管理系統(tǒng)的數(shù)據(jù)采集。②通過ALMA系統(tǒng)的統(tǒng)計分析模塊API接口,實現(xiàn)對ALMA中讀者個人信息數(shù)據(jù)及紙質資源借閱數(shù)據(jù)的采集。③系統(tǒng)支持數(shù)據(jù)導入方式,即將工作人員人工錄入并保存在Excel、CSV等表單中的數(shù)據(jù)導入系統(tǒng)。
圖1 系統(tǒng)整體架構
表2 各數(shù)據(jù)源的采集內容
各數(shù)據(jù)源連接完成后,基于具體的數(shù)據(jù)需求,通過創(chuàng)建同步查詢,對核心數(shù)據(jù)進行同步提取,將數(shù)據(jù)庫的數(shù)據(jù)保存到本地,它的主要功能是使數(shù)據(jù)展示和數(shù)據(jù)操作與其他查詢模塊產生的結果一致。同步查詢可以通過定時任務進行定時同步。
3.4.2 數(shù)據(jù)處理與分析
各數(shù)據(jù)源數(shù)據(jù)采集完成后,基于具體的數(shù)據(jù)分析指標,進行數(shù)據(jù)分析。本文圍繞讀者對圖書館資源及空間的利用這一核心需求,主要提取和分析讀者ID關聯(lián)的個人信息、紙質資源數(shù)據(jù)、入館數(shù)據(jù)、座位數(shù)據(jù)和研究間預約數(shù)據(jù),進而對讀者的圖書借閱、空間利用行為進行具體分析,核心指標與統(tǒng)計緯度見表3。基于核心指標與統(tǒng)計緯度的設定,將相關字段設置在系統(tǒng)的數(shù)據(jù)查詢模塊中。數(shù)據(jù)查詢模塊通過系統(tǒng)的查詢編輯器定義。此查詢編輯器可以將多種數(shù)據(jù)源的數(shù)據(jù)混合,構建返回業(yè)務邏輯的查詢。
表3 核心指標與統(tǒng)計緯度
3.4.3 數(shù)據(jù)分析與報告展示
在系統(tǒng)中將數(shù)據(jù)分析指標設置完成,就可以通過儀表盤(dashboard)方式對編輯好的查詢表數(shù)據(jù)進行分析圖表的創(chuàng)建和展示。系統(tǒng)通過儀表盤編輯器對數(shù)據(jù)圖表進行定制。通過系統(tǒng)提供的各種組件來展現(xiàn)數(shù)據(jù)。系統(tǒng)支持多種圖表類型,選擇合適的圖表類型后,將上一步中提取的數(shù)據(jù)查詢結果與圖表進行綁定,然后選擇計量指標與統(tǒng)計緯度,就可生成數(shù)據(jù)分析的圖表展示結果。同時系統(tǒng)支持通過過濾器組件實現(xiàn)對展示圖表的數(shù)據(jù)過濾,圖書館可通過數(shù)據(jù)過濾器選擇特定過濾條件對展示的圖表數(shù)據(jù)進行聯(lián)動查詢。
高校圖書館利用大數(shù)據(jù)技術與服務對各類數(shù)據(jù)采集、存儲、管理與分析,能夠為其提升管理與服務水平、分析和預估發(fā)展趨勢提供數(shù)據(jù)支撐。國內外實踐表明,挖掘數(shù)據(jù)潛在價值已成為提高高校圖書館服務水平的發(fā)展要求。通過北京師范大學圖書館依托大數(shù)據(jù)管理技術架構和商業(yè)通用數(shù)據(jù)分析平臺開展的多源數(shù)據(jù)管理和分析應用實踐,可以發(fā)現(xiàn)高校圖書館利用數(shù)據(jù)管理與分析系統(tǒng)能夠對來自不同數(shù)據(jù)源的各類數(shù)據(jù)進行采集、處理與分析,并通過系統(tǒng)生成的可視化分析結果,直觀地為圖書館資源、服務及管理決策提供數(shù)據(jù)支撐。圖書館需要全面地梳理自身數(shù)據(jù)情況及分析需求,明確圖書館各方面業(yè)務及服務的數(shù)據(jù)統(tǒng)計指標,充分利用數(shù)據(jù)管理與分析系統(tǒng)完成數(shù)據(jù)的管理與分析。同時圖書館也可以利用專業(yè)的統(tǒng)計分析模型,對采集的數(shù)據(jù)進行建模分析,完成數(shù)據(jù)的深度解析,實現(xiàn)對圖書館各方面發(fā)展的科學預測,從而進一步提高圖書館數(shù)據(jù)管理與統(tǒng)計分析能力,提升圖書館的科學管理與服務水平。