李繼萍 晉中學院 山西 晉中 030600
在互聯(lián)網(wǎng)高速發(fā)展的今天,大數(shù)據(jù)已在日常生產(chǎn)生活的各個方面廣泛應(yīng)用。在高校圖書管理中,同樣會產(chǎn)生大量的數(shù)據(jù),包括書籍的名稱、位置、數(shù)量、狀態(tài)、讀者、借閱等數(shù)據(jù)。如何利用大量現(xiàn)成的數(shù)據(jù),實現(xiàn)對各種信息的高效管理,提升高校圖書管理的工作效率,就成為管理者必須思考的問題。大數(shù)據(jù)收集多樣、全面、海量的數(shù)據(jù),能夠快捷、多元化的呈現(xiàn)出來,具有很高的利用價值。
大數(shù)據(jù)的具體概念,現(xiàn)在還沒有統(tǒng)一的認定。在《大數(shù)據(jù)時代》一書中,作者提出:大數(shù)據(jù)是不采用抽樣調(diào)查這樣的捷徑來獲得數(shù)據(jù),而是采用全體數(shù)據(jù)的方法。常見的定義認為,大數(shù)據(jù)不僅包含海量的數(shù)據(jù),在數(shù)據(jù)的時間、度等內(nèi)容維度上也是超越了海量數(shù)據(jù),即包括結(jié)構(gòu)化的數(shù)據(jù),也包括非結(jié)構(gòu)化的數(shù)據(jù),如聲音,圖像等。
大數(shù)據(jù)的特點是數(shù)據(jù)體量大、種類繁多、處理速度快、以及價值密度低的4V特點。
第一,數(shù)據(jù)體量大。現(xiàn)在大數(shù)據(jù)、在各類設(shè)備不間斷的采集下、數(shù)據(jù)非常龐大。
第二,數(shù)據(jù)種類繁多。圖書館大數(shù)據(jù)平臺連接了人、機、物。數(shù)據(jù)包括了靜態(tài)數(shù)據(jù)如各類圖書數(shù)據(jù)的屬性,讀者的個人資料等。動態(tài)實時數(shù)據(jù)如讀書的借閱情況,讀者的行為數(shù)據(jù)等,文本數(shù)據(jù),時間序列數(shù)據(jù)等結(jié)構(gòu)化、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)。同時讀書館數(shù)據(jù)有人與系統(tǒng)交互查詢,咨詢產(chǎn)生的交互數(shù)據(jù)。
第三,價值密度低。比如對讀者入館閱覽情況的視頻監(jiān)控,有用的數(shù)據(jù)可能只有一兩秒。
第四,處理速度快。大數(shù)據(jù)的處理,通常在幾分之一秒內(nèi)進行分析,以支持決策制定。在性能要求方面,對實時在線數(shù)據(jù)的處理要遠高于離線數(shù)據(jù)。
只有經(jīng)過專業(yè)處理的大數(shù)據(jù),才能發(fā)揮它在預(yù)測、決策、洞察和流程優(yōu)化等方面的價值。
第一,云計算技術(shù)。大數(shù)據(jù)常常與云計算和大數(shù)據(jù)分析技術(shù)聯(lián)系在一起。目前來說,云計算技術(shù)是大數(shù)據(jù)存儲和處理的重要組成部分,這是傳統(tǒng)的數(shù)據(jù)管理技術(shù)無法實現(xiàn)的。大數(shù)據(jù)以分布式處理等手段存儲在平臺上,云計算的核心是計算能力,兩者的結(jié)合實現(xiàn)了對數(shù)據(jù)的存儲和處理,讓海量的數(shù)據(jù)的價值得以實現(xiàn)。
第二,數(shù)據(jù)傳輸及存儲技術(shù)。產(chǎn)生的海量數(shù)據(jù)傳輸及存貯,會給圖書館系統(tǒng)平臺帶來極大的負擔,因此可以通過數(shù)據(jù)的壓縮可以減少數(shù)據(jù)量,提升存儲效率。常用的數(shù)據(jù)壓縮技術(shù)有Lempel—Ziv,是最流行的無損存儲算法。在數(shù)據(jù)存儲方面,通常采用分布式文件系統(tǒng),如Hadhoop的HDFS等。對于實時性數(shù)據(jù)要求高的場所,可以搭建多級存儲系統(tǒng),以滿足對數(shù)據(jù)的分析和計算。
第三,數(shù)據(jù)挖掘技術(shù)。圖書館管理中常用的挖掘技術(shù)有統(tǒng)計技術(shù)。即根據(jù)給定的數(shù)據(jù)集合,假設(shè)一個概率或分布模型,在采用相應(yīng)的方法挖掘需求的數(shù)據(jù)。統(tǒng)計技術(shù)可以用來統(tǒng)計圖書的借閱情況、讀者的閱讀偏好、場館的使用情況等。概念描述也是一個適合圖書館使用的挖掘技術(shù),用于描述某類對象的內(nèi)涵與概括特征,適用于圖書館對讀者進行畫像。
首先,圖書館的數(shù)據(jù)種類非常多。圖書館既有大量的結(jié)構(gòu)化信息,如館藏文獻中的紙質(zhì)圖書、光盤資源、電子資源,也有非結(jié)構(gòu)化信息,如讀者信息,采購信息、場館信息、人員信息等。這些數(shù)據(jù)的特征如編碼方式、格式、應(yīng)用特征等都可能存在不同,形成大量的異構(gòu)數(shù)據(jù)。
第二,持續(xù)產(chǎn)生大量數(shù)據(jù),包括圖書的借閱信息,讀者的借閱行為,場所的使用情況等。
第三,信息技術(shù)的使用,個性化、學科化越來越專業(yè),更多數(shù)字化圖書的編輯出版發(fā)行,閱覽途徑的多樣化,讀者對服務(wù)的要求也越來越高。圖書館必須轉(zhuǎn)變服務(wù)的策略,要對大量數(shù)據(jù)進行分析和挖掘。
第四,圖書館開始提供更多個性化的服務(wù),如24小時服務(wù),網(wǎng)絡(luò)服務(wù)等。
第五,對大量的圖書信息、讀者信息、讀者行為等進行統(tǒng)計和挖掘,發(fā)現(xiàn)新的服務(wù)方向。
數(shù)據(jù)來源主要有以下幾個方面。
第一,將過去已經(jīng)存在的、以非數(shù)字化形式存貯的數(shù)據(jù)進行數(shù)據(jù)化處理,如館藏圖書、期刊、報紙、會議資料、借閱記錄等。
第二,采購的電子版圖書。
第三,讀者個人信息、圖書借閱情況、查詢情況等。
第四,傳感器、監(jiān)控系統(tǒng)、人臉識別系統(tǒng)收集到的信息。
第五,與讀者的交互信息。
大數(shù)據(jù)的特性決定了必須對大數(shù)據(jù)進行有效的挖掘、整理、統(tǒng)計、分析,才能把數(shù)據(jù)用于優(yōu)化業(yè)務(wù)、精準服務(wù)、文獻建設(shè)和決策支持。
第一,對讀者行為數(shù)據(jù)的挖掘。分析讀者數(shù)據(jù)是為了給廣大師生提供更精準化的服務(wù)。來源于讀者的電子資源使用數(shù)據(jù)、管理系統(tǒng)的運行數(shù)據(jù)、科研數(shù)據(jù)、讀者的借閱信息、借閱頻次、借閱偏好等網(wǎng)絡(luò)交互行為等,都與讀者的行為有關(guān)。通過深入挖掘和整理這些數(shù)據(jù),形成統(tǒng)計或分析結(jié)果,來優(yōu)化業(yè)務(wù)流程,預(yù)測讀者的行為并推行精準化的服務(wù)。
比如在圖書館人數(shù)比較多的高峰時段,可以安排培訓資源課程,宣傳圖書館數(shù)字資源。根據(jù)閱覽室的讀者類型,開展定向資源的推送。挖掘讀書的個人畫像,引導讀者的閱讀行為,采取科學的文獻保障政策。定期利用大數(shù)據(jù)生成讀者個人數(shù)據(jù)報告,展示讀者在圖書館的借閱、自習、書單等記錄,讓讀者能夠清晰的了解到自己使用圖書資源的情況。對讀者的入館行為進行分析,了解讀者的行為規(guī)律,遇到人流高的時間段,提前做好預(yù)警。
第二,對圖書館館藏資源的使用情況和采購決策進行評估和優(yōu)化。圖書館有大量的館藏資源文獻,在專業(yè)性和信息收集方面做得很好,同時對圖書、期刊、數(shù)字資源的需求也很高。通過讀者對資源的利用情況、不同文獻的借閱比率,對館藏圖書進行評價,可以了解館藏的結(jié)構(gòu),文獻的保障水平等。這樣為未來圖書館的圖書采購、圖書結(jié)構(gòu)的調(diào)整、文獻資源的剔舊等進行優(yōu)化,使圖書館的各類館藏資源布局合理,提高文獻的利用率,提高各部門的決策效率和響應(yīng)速度。
大數(shù)據(jù)的應(yīng)用越來越廣泛,隨著物聯(lián)網(wǎng)的普及,圖書館的每一本書、每一個讀者、每一個行動都被賦予了不同的編碼,需要大量的設(shè)備去識別、記錄、上傳這些數(shù)據(jù)到平臺。這就需要對現(xiàn)有的圖書館進行改造或新建,增加必要的設(shè)備。
數(shù)據(jù)安全也是在大數(shù)據(jù)的使用中必須重點關(guān)注的。可以建立防火墻,定期對管理系統(tǒng)進行升級,要做到實時監(jiān)控,及時修補系統(tǒng)漏洞,防止機密數(shù)據(jù)被竊取或遭受惡意攻擊。同時為了保護讀者的個人敏感信息,必須考慮讀者數(shù)據(jù)的保護、開放和共享的問題,謹慎的采集和使用數(shù)據(jù)。
大數(shù)據(jù)已經(jīng)覆蓋到生活的方方面面,高校圖書館也逐步在信息化和網(wǎng)絡(luò)化,在高校圖書館的管理和服務(wù)中,有效使用大數(shù)據(jù)顯得尤為重要。在文章中,討論了大數(shù)據(jù)的特點、處理技術(shù)、采集和挖掘使用。高校圖書館應(yīng)該積極使用大數(shù)據(jù),對數(shù)據(jù)進行挖掘和分析;為讀者提供精準化和個性化的服務(wù),把工作的重點從以“資源”為中心向以“服務(wù)”為中心轉(zhuǎn)變,提升服務(wù)水平,提高管理水平。