摘要:隨著大數(shù)據(jù)技術(shù)在各個(gè)領(lǐng)域的成熟應(yīng)用,圖書館的建設(shè)也越來越需要大數(shù)據(jù)及其相關(guān)技術(shù)的支持來滿足其實(shí)現(xiàn)智能化圖書館的必要條件。本文在基于大數(shù)據(jù)的環(huán)境下分析了當(dāng)前圖書館可利用的潛在大數(shù)據(jù)資源以及這些資源對(duì)于圖書館的重要性,提出了建設(shè)智能化圖書館所需要的新的業(yè)務(wù)服務(wù)體系以及圖書館大數(shù)據(jù)平臺(tái)的建設(shè)方向,設(shè)計(jì)出圖書館服務(wù)系統(tǒng)的體系結(jié)構(gòu),以期為高校圖書館向未來的智能化圖書館的建設(shè)與發(fā)展提供一些新的視角。
關(guān)鍵詞:大數(shù)據(jù);智能化圖書館;推薦系統(tǒng)
在21世紀(jì),隨著社會(huì)的高速變革與發(fā)展,各領(lǐng)域產(chǎn)生的數(shù)據(jù)量日益龐大的現(xiàn)狀,大數(shù)據(jù)的概念隨即被提出,經(jīng)過一系列發(fā)展,其相關(guān)技術(shù)已經(jīng)被廣泛應(yīng)用。近年來,隨著技術(shù)革新,高校圖書館也已經(jīng)從原來的普通圖書館逐漸向數(shù)字化、智能化圖書館發(fā)展,其內(nèi)部產(chǎn)生的數(shù)據(jù)已具備大數(shù)據(jù)的特點(diǎn),比如高校圖書館內(nèi)電子書,電子光盤等館藏資源的電子數(shù)據(jù),還有讀者在訪問高校圖書館網(wǎng)站進(jìn)行書目檢索或者使用手機(jī)等多種設(shè)備訪問圖書館所形成的流量,以及在高校圖書館內(nèi)使用圖書館服務(wù)時(shí)候留下的一些不規(guī)則數(shù)據(jù),這些流量與數(shù)據(jù)隨著時(shí)間流逝形成了含有挖掘價(jià)值的海量數(shù)據(jù),通過現(xiàn)在成熟的大數(shù)據(jù)分析工具以及數(shù)據(jù)挖掘技術(shù)進(jìn)行處理加工,就可以得到能夠?qū)Ω咝D書館發(fā)展與建設(shè)起一定指導(dǎo)作用的有效信息。但是由于圖書館的特性,這些數(shù)據(jù)當(dāng)中有很多冗余信息,如果不利用有效的手段處理,則難以將他們的作用全部發(fā)揮。
高校圖書館的建設(shè)與發(fā)展愈加需要大數(shù)據(jù)相關(guān)技術(shù)做支持,通過數(shù)據(jù)挖掘,數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)使高校圖書館能夠提供更加優(yōu)質(zhì)的服務(wù),包括人工服務(wù)和科學(xué)知識(shí)服務(wù),還可以通過大數(shù)據(jù)來為用戶提供針對(duì)自身的個(gè)性服務(wù),如書籍推薦服務(wù)等。本文通過圍繞大數(shù)據(jù)來對(duì)高校圖書館系統(tǒng)平臺(tái)的建設(shè)進(jìn)行研究。
一、高校圖書館大數(shù)據(jù)研究現(xiàn)狀
(一)國(guó)外高校圖書館大數(shù)據(jù)研究發(fā)展現(xiàn)狀
國(guó)外高校圖書館對(duì)與大數(shù)據(jù)領(lǐng)域關(guān)注的比較早,其中美國(guó)對(duì)于高校圖書館與大數(shù)據(jù)的結(jié)合做了很多嘗試,比如美國(guó)哈佛大學(xué)公布了其圖書館的1200多萬種資料,包括視頻音頻,數(shù)目數(shù)據(jù)等,目的是為了促進(jìn)新型應(yīng)用產(chǎn)品的研發(fā)。約翰霍普金斯大學(xué)圖書館主持DataCon-servancy項(xiàng)目、開發(fā)數(shù)據(jù)監(jiān)護(hù)系統(tǒng)等。關(guān)于技術(shù)問題的討論,Ana Kovacevic與Vladan Devedzic等人討論了使用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)高校數(shù)字圖書館的推薦服務(wù)系統(tǒng),斯坦福Michelle Baldonado, Chen-Chuan K. Chang等人提出了一種可擴(kuò)展的元數(shù)據(jù)體系來滿足斯坦福大學(xué)數(shù)字圖書館的用戶的檢索,遠(yuǎn)程連接等需求。
(二)國(guó)內(nèi)高校圖書館大數(shù)據(jù)研究發(fā)展現(xiàn)狀
國(guó)內(nèi)近來也對(duì)高校圖書館大數(shù)據(jù)領(lǐng)域產(chǎn)生重視,對(duì)于技術(shù)探討方面,程結(jié)晶提出了大數(shù)據(jù)時(shí)代圖書館服務(wù)創(chuàng)新面臨的障礙與對(duì)策。陳近,文庭孝提出了在云環(huán)境下的圖書館大數(shù)據(jù)服務(wù)系統(tǒng)架構(gòu)與數(shù)據(jù)存儲(chǔ)模式,主張將大數(shù)據(jù)與云計(jì)算結(jié)合來為圖書館服務(wù)創(chuàng)新做基礎(chǔ)。李艷,呂鵬,李瓏提出了高校圖書館大數(shù)據(jù)挖掘及決策分析體系的架構(gòu)和流程及其在高校圖書館中的應(yīng)用,主張構(gòu)建基于高校圖書館特點(diǎn)的大數(shù)據(jù)挖掘與分析決策體系,利用對(duì)各類數(shù)據(jù)的采集、抽取、清洗、關(guān)聯(lián)、分析,發(fā)掘出數(shù)據(jù)的潛在價(jià)值。
關(guān)于應(yīng)用平臺(tái)方面,武漢大學(xué)圖書館開始嘗試基于DSpace建立學(xué)科數(shù)據(jù)管理平臺(tái),北京大學(xué)圖書館與國(guó)家自然科學(xué)基金-北京大學(xué)管理科學(xué)數(shù)據(jù)中心等多方共同建設(shè)開放研究數(shù)據(jù)平臺(tái)。
二、高校圖書館存在的大數(shù)據(jù)組成
對(duì)于高校圖書館,隨著圖書館的智能化程度逐漸提高,在圖書館中的固有電子數(shù)據(jù)與圖書館服務(wù)使用者產(chǎn)生的數(shù)據(jù)等結(jié)合在一起成為了高校圖書館的大數(shù)據(jù)。在高校圖書館中,涉及到數(shù)據(jù)產(chǎn)生來源有幾個(gè)方面,圖書館的館藏資源數(shù)據(jù),用戶的行為數(shù)據(jù)等等,在這幾個(gè)來源之中,產(chǎn)生的數(shù)據(jù)既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù),種類多,數(shù)據(jù)量大,具有比較高的挖掘價(jià)值。
館藏?cái)?shù)據(jù)主要是一些靜態(tài)數(shù)據(jù)如書籍記錄,光盤與電子書等,這些數(shù)據(jù)可以作為高校圖書館大數(shù)據(jù)平臺(tái)的基礎(chǔ)數(shù)據(jù)。
用戶的行為數(shù)據(jù)主要包括幾個(gè)方面,首先是用戶在圖書館中產(chǎn)生的數(shù)據(jù),這種數(shù)據(jù)通常包括圖書館每天的到館人數(shù),圖書館用戶的借閱記錄,檢索記錄,包括對(duì)提供電子書服務(wù)以及論文下載服務(wù)的下載記錄,電子打印掃描復(fù)印等記錄,還有用戶對(duì)圖書館的反饋記錄,例如對(duì)圖書館的建議,對(duì)圖書館服務(wù)評(píng)價(jià)向圖書館建議采購(gòu)書籍的記錄,參加圖書館活動(dòng)的記錄。
其次是用戶不在圖書館的時(shí)候通過訪問微信公眾號(hào)或者圖書館主頁,或是其他有關(guān)圖書館的網(wǎng)絡(luò)資源時(shí)所產(chǎn)生的頁面瀏覽記錄,檢索記錄等等。
以上是高校圖書館所包含的數(shù)據(jù),若想充分利用這些數(shù)據(jù),就需要圖書館的整體網(wǎng)絡(luò)系統(tǒng)作保障,有完整的大數(shù)據(jù)處理平臺(tái),有專業(yè)的圖書館數(shù)據(jù)處理人員,有數(shù)據(jù)庫(kù)供應(yīng)商,采購(gòu)商,出版商等一系列相關(guān)機(jī)構(gòu)的通力合作,還要有圖書館內(nèi)部門之間的協(xié)同工作,通過這樣才能把握?qǐng)D書館讀者用戶的行為,興趣,閱讀慣性及變化,才能針對(duì)用戶來實(shí)時(shí)改變圖書館服務(wù)策略,使圖書館整個(gè)系統(tǒng)處于動(dòng)態(tài)演變而不是靜態(tài)服務(wù)中心。
三、大數(shù)據(jù)對(duì)于高校圖書館的意義
從上面的對(duì)圖書館中產(chǎn)生的大數(shù)據(jù)分析,可以知道大數(shù)據(jù)對(duì)于圖書館的意義主要在于兩個(gè)大方面,第一個(gè)方面是對(duì)于圖書館對(duì)外服務(wù)的意義。第二方面主要是對(duì)于圖書館書籍采購(gòu)策略的意義。
(一)大數(shù)據(jù)對(duì)于高校圖書館對(duì)外服務(wù)的意義
對(duì)于高校圖書館來說,分析讀者數(shù)據(jù)的意義就是可以為圖書館用戶提供極具個(gè)性化的服務(wù),這種服務(wù)的特性主要表現(xiàn)在以下幾個(gè)方面:
(1)大數(shù)據(jù)在用戶檢索方面上的意義
用戶檢索服務(wù)是高校圖書館提供的最基礎(chǔ)的服務(wù)之一,讀者可以通過檢索服務(wù)來借閱或者下載館藏資源。普通檢索服務(wù)主要針對(duì)關(guān)鍵詞的檢索,這種檢索方式無法在關(guān)鍵詞不匹配的情況下給予讀者其他建議,很多情況下無法解決讀者的問題。將大數(shù)據(jù)技術(shù)應(yīng)用于檢索服務(wù)后,檢索服務(wù)可以變成針對(duì)用戶的個(gè)性化檢索服務(wù),在用戶輸入關(guān)鍵詞之后,后臺(tái)查詢系統(tǒng)將會(huì)結(jié)合讀者信息、歷史搜索記錄、讀者專業(yè)領(lǐng)域與借閱或者下載資源的興趣偏好等信息得出檢索結(jié)果,這樣可以使檢索結(jié)果個(gè)性化,盡可能滿足用戶的實(shí)際需求。
(2)在對(duì)用戶推送信息以及推薦方面的意義
對(duì)于高校圖書館,我們可以將推薦系統(tǒng)引入到圖書館系統(tǒng)。推薦系統(tǒng)的核心就是算法的支持,成熟的推薦系統(tǒng)都是同時(shí)用多種算法來保證推薦系統(tǒng)的準(zhǔn)確性比如聚類算法或者分類算法,預(yù)測(cè)算法等。通過這種系統(tǒng)對(duì)讀者借閱書籍或者是其他一些館藏?cái)?shù)據(jù)的評(píng)價(jià)來建立用戶模型,為用戶推薦書籍或者推送其他信息如推薦新書與熱門圖書,減少讀者在書目選擇上所花費(fèi)的時(shí)間。
(二)大數(shù)據(jù)對(duì)于高校圖書館采購(gòu)工作的意義
傳統(tǒng)圖書館中的資源采購(gòu)主要的依據(jù)有以下幾方面,首先有很多選擇基本上是依靠圖書館工作人員,尤其是采編人員的多年采編經(jīng)驗(yàn)和對(duì)所在圖書館館藏資源的了解來所處采購(gòu)策略,但是這種方式有很大一個(gè)弊病是采編人員的主觀意志帶入太多,有可能會(huì)導(dǎo)致采購(gòu)的一部分資源鮮有問津,長(zhǎng)時(shí)間積累的話就會(huì)造成資源浪費(fèi)。
為了使采購(gòu)計(jì)劃更完善,主要還是通過對(duì)用書相關(guān)數(shù)據(jù)使用數(shù)據(jù)挖掘等技術(shù),能夠得到對(duì)于館藏資源潛在的大量信息,比如已存資源與缺藏資源的統(tǒng)計(jì),用戶對(duì)于館藏資源的利用率,各類館藏資源的熱度,館藏資源潛在的相關(guān)性等等,有了這些統(tǒng)計(jì)信息可以使系統(tǒng)對(duì)利用率高的館藏資源加以記錄,搜索出與高熱度圖書資源相近的并未列入館藏的資源,更有效率的做出采購(gòu)計(jì)劃。
綜上所述,無論是提高圖書館對(duì)外服務(wù),還是完善圖書館采購(gòu)工作,大數(shù)據(jù)對(duì)于高校圖書館都有著重要意義。
四、對(duì)構(gòu)建高校圖書館服務(wù)系統(tǒng)平臺(tái)的研究
如何用包含大數(shù)據(jù)的思維來建設(shè)圖書館,實(shí)現(xiàn)圖書館轉(zhuǎn)型還是比較陌生的,所以將大數(shù)據(jù)相關(guān)內(nèi)容整合到高校圖書館中,應(yīng)該有一個(gè)總體的建設(shè)規(guī)劃。
高校圖書館的整體業(yè)務(wù)體系主要包含館藏資源的建設(shè),文獻(xiàn)資源的流通,提供對(duì)用戶的信息化服務(wù),內(nèi)部工作的管理這幾個(gè)方面,當(dāng)前的業(yè)務(wù)體系要以數(shù)據(jù)為中心來加強(qiáng)這幾方面的建設(shè),結(jié)合大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)分析等工作,以數(shù)據(jù)為指導(dǎo)推進(jìn)業(yè)務(wù)體系的創(chuàng)新。與高校圖書館以館藏資源為主的業(yè)務(wù)體系不同,新的業(yè)務(wù)體系全部圍繞數(shù)據(jù)展開。想要實(shí)現(xiàn)這種體系,在圖書館內(nèi)就需要有相應(yīng)的大數(shù)據(jù)平臺(tái)。對(duì)于高校圖書館的大數(shù)據(jù)平臺(tái),主要由以下幾個(gè)組成部分,大數(shù)據(jù)存儲(chǔ),大數(shù)據(jù)預(yù)處理,大數(shù)據(jù)分析,信息存儲(chǔ)。簡(jiǎn)單闡述這些組成部分:
(1)大數(shù)據(jù)存儲(chǔ)
在圖書館產(chǎn)生的數(shù)據(jù),數(shù)據(jù)量大,種類繁多,這些數(shù)據(jù)分散在圖書館的各個(gè)服務(wù)器之中,所以應(yīng)該建立大數(shù)據(jù)存儲(chǔ)平臺(tái)將這些零散的數(shù)據(jù)匯總在一起存儲(chǔ),并且應(yīng)該盡量搜集與用戶相關(guān)的其他部門的用戶數(shù)據(jù),比如網(wǎng)絡(luò)中心的數(shù)據(jù),教務(wù)管理部門的數(shù)據(jù)等等,統(tǒng)合數(shù)據(jù)便于為數(shù)據(jù)處理提供條件。
(2)大數(shù)據(jù)預(yù)處理
有了大數(shù)據(jù)存儲(chǔ)平臺(tái)之后,我們就可以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,這需要我們建立大數(shù)據(jù)預(yù)處理平臺(tái)。通過對(duì)數(shù)據(jù)的預(yù)處理將原始數(shù)據(jù)轉(zhuǎn)變?yōu)榭捎脭?shù)據(jù)。
(3)大數(shù)據(jù)分析
在企業(yè)內(nèi)成熟的大數(shù)據(jù)分析平臺(tái)通常由Hadoop,Spark或者其他的分布式計(jì)算平臺(tái)與數(shù)據(jù)挖掘,數(shù)據(jù)分析等技術(shù)結(jié)合完成的,通過搭建這種平臺(tái),來分析圖書館中的大數(shù)據(jù),進(jìn)而得出與用戶關(guān)聯(lián)的有關(guān)信息,建立與圖書館服務(wù)與內(nèi)部工作有關(guān)的數(shù)據(jù)模型,需求模型,建立針對(duì)用戶的用戶模型,完成個(gè)性化推薦系統(tǒng)以及支持圖書館采購(gòu),管理等相關(guān)業(yè)務(wù)。
(4)信息存儲(chǔ)平臺(tái)
通過大數(shù)據(jù)分析得到的數(shù)據(jù)模型,用戶模型,需求模型,需要有平臺(tái)來專門存儲(chǔ),在圖書館數(shù)據(jù)更迭頻繁的情況下,建立信息存儲(chǔ)平臺(tái)有利于及時(shí)更新數(shù)據(jù),用戶與需求模型,保證信息推薦的準(zhǔn)確率,同時(shí)也能對(duì)系統(tǒng)錯(cuò)誤檢測(cè)提供一定的支持。
通過以上的闡述,我們可以對(duì)整體圖書館服務(wù)系統(tǒng)有一個(gè)基本認(rèn)識(shí),這個(gè)體系主要分三層,第一層是數(shù)據(jù)層,包括了上文介紹的完整的大數(shù)據(jù)平臺(tái),第二層是業(yè)務(wù)邏輯層,這一層主要是對(duì)通過數(shù)據(jù)分析挖掘得到的信息的使用情況進(jìn)行存儲(chǔ),保證信息于用戶之間的同步,保證結(jié)果的即時(shí)更新,維持個(gè)性推薦的準(zhǔn)確率,保證采購(gòu)策略支持的準(zhǔn)確性。第三層是應(yīng)用服務(wù)層,包含對(duì)管內(nèi)工作的服務(wù)與對(duì)外用戶的服務(wù),通過建立需求模型,用戶模型實(shí)現(xiàn)個(gè)性推薦系統(tǒng)和采購(gòu)管理支持系統(tǒng)。結(jié)構(gòu)圖如下:
5 結(jié)語
綜上所述,大數(shù)據(jù)技術(shù)對(duì)圖書館的對(duì)外服務(wù),工作管理等方面有著重要意義,高校圖書館應(yīng)該用先進(jìn)有效的方法來搜集數(shù)據(jù),存儲(chǔ)數(shù)據(jù),處理數(shù)據(jù),合理利用這些以前未被挖掘過的資源,精煉出對(duì)圖書館有意義的信息。本文闡述了大數(shù)據(jù)對(duì)圖書館的意義、對(duì)高校圖書館大數(shù)據(jù)系統(tǒng)平臺(tái)建設(shè)做了一定的研究。但是在實(shí)現(xiàn)平臺(tái)建設(shè)的過程中也會(huì)遇到阻礙如經(jīng)費(fèi)資金問題,技術(shù)壁壘問題等等。解決這些問題,積極建設(shè)大數(shù)據(jù)平臺(tái),提高高校圖書館服務(wù)質(zhì)量,推動(dòng)新一代高校圖書館的發(fā)展是我們接下來的重要課題。
參考文獻(xiàn)
[1]程蓮娟,ChengLianjuan.美國(guó)推進(jìn)大數(shù)據(jù)的應(yīng)用實(shí)踐及其有益借鑒——基于圖書館視角的分析[J].情報(bào)資料工作,2013,34(5):110-112.
[2]陳亞平,吳淑芬.數(shù)據(jù)監(jiān)管環(huán)境下高校圖書館的角色定位[J].寧波教育學(xué)院學(xué)報(bào),2015,17(05):110-112.
[3]Ana Kovacevic, Vladan Devedzic, Viktor Pocajt, (2010) "Using data mining to improve digital library services", The Electronic Library, Vol. 28 Issue: 6, pp.829-843.
[4]Kapidakis S , Terzis S , Sairamesh J . The Stanford Digital Library metadata architecture[J]. International Journal on Digital Libraries, 1997, 1(2):108-121.
[5]程結(jié)晶.大數(shù)據(jù)時(shí)代圖書館服務(wù)創(chuàng)新的內(nèi)容及其策略研究[J].情報(bào)理論與實(shí)踐,2016,39(03):57-62.
[6]陳近,文庭孝.基于云計(jì)算的圖書館大數(shù)據(jù)服務(wù)研究[J].圖書館,2016(01):52-56+68.
[7]李艷,呂鵬,李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個(gè)性化服務(wù)研究[J].圖書情報(bào)知識(shí),2016(02):60-68.
[8]袁芳.大數(shù)據(jù)環(huán)境下圖書館文獻(xiàn)資源建設(shè)模式的變革[J].圖書情報(bào)工作,2015,59(18):91-94.
[9]何波,章宏遠(yuǎn),裴劍輝.基于大數(shù)據(jù)的高校圖書館個(gè)性化服務(wù)研究[J].新世紀(jì)圖書館,2017(10):59-61+80.
基金項(xiàng)目
本文系嶺南師范學(xué)院2019年度校級(jí)一般項(xiàng)目“大數(shù)據(jù)背景下高校圖書館服務(wù)轉(zhuǎn)型研究”(WY1913)的研究成果。
作者簡(jiǎn)介
郝博麟,(1990—),男,漢,吉林,軟件工程碩士,助理館員,研究方向:圖書館系統(tǒng)與大數(shù)據(jù)。