焦文銳
【摘 要】大數(shù)據(jù)是一種海量數(shù)據(jù)集合,也是一種思維方式,大數(shù)據(jù)技術(shù)在圖書管理與服務(wù)中呈現(xiàn)突出價(jià)值。因此,簡(jiǎn)單介紹了大數(shù)據(jù)技術(shù),論述了大數(shù)據(jù)技術(shù)在圖書管理與服務(wù)中的價(jià)值,探究了圖書管理與服務(wù)現(xiàn)狀,并從升級(jí)存量圖書差錯(cuò)管理體系、聯(lián)通線上線下服務(wù)平臺(tái)、更新圖書存儲(chǔ)方式幾個(gè)方面,提出了幾點(diǎn)大數(shù)據(jù)技術(shù)的應(yīng)用措施,希望為圖書管理與服務(wù)中大數(shù)據(jù)技術(shù)優(yōu)勢(shì)的充分發(fā)揮提供一些參考。
【關(guān)鍵詞】大數(shù)據(jù)技術(shù);圖書管理與服務(wù);MySQL
【中圖分類號(hào)】G250.7 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1007—4198(2023)22—247—03
引言
大數(shù)據(jù)時(shí)代,圖書管理行業(yè)發(fā)展形勢(shì)愈發(fā)嚴(yán)峻,越來越多圖書管理者參與到圖書管理服務(wù)方法變革中,初步構(gòu)成了互聯(lián)網(wǎng)+圖書管理體系。在互聯(lián)網(wǎng)+圖書管理體系中,大數(shù)據(jù)技術(shù)呈現(xiàn)出突出優(yōu)勢(shì),利用大數(shù)據(jù)技術(shù)分析圖書管理全流程,可以有效提高圖書管理效率,滿足圖書管理服務(wù)質(zhì)量升級(jí)要求。因此,探究大數(shù)據(jù)技術(shù)在圖書管理與服務(wù)中的應(yīng)用具有非常突出的現(xiàn)實(shí)意義。
一、大數(shù)據(jù)技術(shù)
大數(shù)據(jù)是指在一定時(shí)間范圍內(nèi)借助常見計(jì)算機(jī)軟件工具捕捉、處理、管控的數(shù)據(jù)集合,以及整體數(shù)據(jù)科學(xué)分析、處理的結(jié)果[1]。大數(shù)據(jù)總體呈現(xiàn)出有價(jià)值、高速、海量、多樣的特點(diǎn),大數(shù)據(jù)技術(shù)則是瞬間完成海量多樣大數(shù)據(jù)處理的技術(shù)。在數(shù)據(jù)處理的不同階段,適用的大數(shù)據(jù)技術(shù)也具有一定差異。在大數(shù)據(jù)基礎(chǔ)階段,適用的大數(shù)據(jù)技術(shù)為L(zhǎng)inux、MySQL、Oracle、Docker等;在大數(shù)據(jù)處理階段,適用的大數(shù)據(jù)技術(shù)為zookeeper、Flume分布式、Kafka等;在大數(shù)據(jù)存儲(chǔ)階段,常用的大數(shù)據(jù)技術(shù)為hive、hbase、sqoop等。
二、大數(shù)據(jù)技術(shù)在圖書管理與服務(wù)中的價(jià)值
(一)提高圖書收集效率
大數(shù)據(jù)技術(shù)支持下,圖書管理從業(yè)者可以聚焦紙質(zhì)文獻(xiàn)、數(shù)字資料庫(kù)處理,全面利用現(xiàn)有技術(shù)整合圖書信息,實(shí)現(xiàn)在短時(shí)間內(nèi)收集海量圖書信息。較之傳統(tǒng)圖書收集方式,大數(shù)據(jù)技術(shù)支持下的圖書信息收集覆蓋范圍更廣,包括移動(dòng)終端、手機(jī)、電腦、線下圖書館、手提電腦、其他設(shè)備等,且可有效壓縮源自家庭端、公司端、學(xué)校端及其他用戶的信息處理時(shí)長(zhǎng)。
(二)提高圖書存儲(chǔ)能力
大數(shù)據(jù)時(shí)代,非結(jié)構(gòu)數(shù)據(jù)繼續(xù)增長(zhǎng),成為圖書存儲(chǔ)至關(guān)重要的部分,對(duì)圖書管理提出了較大的挑戰(zhàn)。應(yīng)用大數(shù)據(jù)技術(shù),可以“事務(wù)”為中心,在關(guān)系型數(shù)據(jù)庫(kù)的基礎(chǔ)上重構(gòu)關(guān)系數(shù)據(jù),滿足帶有異質(zhì)構(gòu)造性質(zhì)的非結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)要求,提高圖書存儲(chǔ)能力。以kafka為例,kafka集群每日可承載10億+請(qǐng)求數(shù)據(jù),高峰期可支撐超160T存儲(chǔ)需求。
(二)優(yōu)化圖書服務(wù)質(zhì)量
大數(shù)據(jù)支持下,圖書服務(wù)者可以搭建圖書資料檢索平臺(tái),并引入數(shù)據(jù)庫(kù)統(tǒng)一建設(shè)標(biāo)準(zhǔn),分類別界定圖書信息資源范圍,滿足讀者一鍵檢索圖書信息需求。同時(shí)借助大數(shù)據(jù)技術(shù),圖書服務(wù)者可以挖掘近期讀者閱讀傾向,有針對(duì)性地調(diào)整圖書服務(wù)方案,為讀者提供精準(zhǔn)度更高的圖書推薦,優(yōu)化圖書服務(wù)質(zhì)量。
三、圖書管理與服務(wù)現(xiàn)狀
(一)存量圖書差錯(cuò)管理不當(dāng)
當(dāng)前多數(shù)存量圖書差錯(cuò)管理仍然為手動(dòng)操作模式,管理效率仍然具有較大的提升空間。加之圖書動(dòng)態(tài)調(diào)整速度較慢,圖書數(shù)據(jù)遺漏、錯(cuò)誤上報(bào)等現(xiàn)象不時(shí)出現(xiàn),無法滿足讀者對(duì)圖書借閱需求。而在存量圖書差錯(cuò)出現(xiàn)后,存在差錯(cuò)多頭處理、多環(huán)節(jié)各自為戰(zhàn)問題,不僅加劇工作者負(fù)擔(dān),而且無法保證圖書差錯(cuò)管理效率。
(二)圖書管理服務(wù)平臺(tái)狹窄
當(dāng)前圖書管理者對(duì)讀者閱讀需求了解不夠充分,無法明確讀者多維需求,也無法根據(jù)讀者個(gè)性化需求提供針對(duì)性服務(wù)[2]。具體到現(xiàn)實(shí)服務(wù)中,雖然部分圖書管理機(jī)構(gòu)出于提高管理和借閱效率需要引入計(jì)算機(jī)管理模式,為讀者提供預(yù)約、掛失、綜合查詢等服務(wù),但是讀者仍然需要先辦理借閱證方可借閱圖書資料,不利于圖書管理與服務(wù)全流程的改進(jìn)。
(三)圖書存儲(chǔ)管理方式待提升
計(jì)算能力強(qiáng)弱是圖書存儲(chǔ)管理效率的關(guān)鍵因素,直接影響著圖書資源存儲(chǔ)管理領(lǐng)域的變化,也在一定程度上影響著圖書管理質(zhì)量。當(dāng)前圖書存儲(chǔ)端無法滿足讀者及時(shí)查看多類別圖書存儲(chǔ)情況的要求,存儲(chǔ)服務(wù)引擎亟待更新。具體到圖書存儲(chǔ)端運(yùn)行環(huán)節(jié),存儲(chǔ)方式較為傳統(tǒng),未充分利用云端數(shù)據(jù),無法滿足用戶關(guān)于圖書非結(jié)構(gòu)性數(shù)據(jù)的瀏覽利用要求。
四、大數(shù)據(jù)技術(shù)在圖書管理與服務(wù)中的應(yīng)用措施
(一)升級(jí)存量圖書差錯(cuò)管理體系
排除存量圖書差錯(cuò)是圖書管理者無法推卸的責(zé)任。常見的存量圖書差錯(cuò)排查方式主要為隨書附帶勘誤表、退換貨、發(fā)表勘誤聲明等,無法有效解決巨量質(zhì)量合格圖書差錯(cuò)?;诖耍梢越柚髷?shù)據(jù)技術(shù),沿著自動(dòng)化控制流程有機(jī)結(jié)合讀者、圖書管理者、行業(yè)專家等力量,打造以讀者發(fā)現(xiàn)差錯(cuò)為先導(dǎo)、以專家鑒定并處理差錯(cuò)為主體,圖書管理者糾正差錯(cuò)的體系,促進(jìn)圖書管理服務(wù)的健康發(fā)展[3]。
根據(jù)圖書存量差錯(cuò)處理工作量繁重的特點(diǎn),結(jié)合區(qū)域情況,協(xié)調(diào)創(chuàng)建圖書存量差錯(cuò)勘誤聯(lián)盟,將全部圖書管理主體資源聯(lián)合,共同排查圖書存量差錯(cuò),分享排查成果,提高排查效率。同時(shí)根據(jù)圖書種類繁多特點(diǎn),邀請(qǐng)相關(guān)領(lǐng)域?qū)<覍W(xué)者成立存量圖書差錯(cuò)鑒定委員會(huì),規(guī)避類似差錯(cuò)問題的重復(fù)出現(xiàn)。在這個(gè)基礎(chǔ)上,根據(jù)圖書存量差錯(cuò)排查耗時(shí)長(zhǎng)的特點(diǎn),建立健全圖書存量差錯(cuò)勘誤大數(shù)據(jù)平臺(tái),依據(jù)自動(dòng)化管理思路,壓縮圖書存量差錯(cuò)排查、鑒定、上報(bào)、糾正、入庫(kù)、通知等環(huán)節(jié),提高管理工作效率。具體到大數(shù)據(jù)平臺(tái)運(yùn)行中,先依托平臺(tái)實(shí)時(shí)收集不同地區(qū)讀者或圖書管理者上報(bào)圖書存量差錯(cuò)信息,再根據(jù)專業(yè)類別劃分情況將差錯(cuò)轉(zhuǎn)發(fā)給對(duì)應(yīng)行業(yè)專業(yè)鑒定成員,由行業(yè)專業(yè)人士認(rèn)定、處理差錯(cuò),處理完畢后將結(jié)果添加到圖書存量差錯(cuò)處理大數(shù)據(jù)平臺(tái),并提醒上報(bào)者。在這個(gè)基礎(chǔ)上,開放圖書存量差錯(cuò)勘誤大數(shù)據(jù)平臺(tái)、圖書管理端,實(shí)現(xiàn)圖書存量差錯(cuò)勘查信息的自動(dòng)化推送,便于圖書管理者隨時(shí)掌握館藏圖書存量差錯(cuò)信息,及時(shí)更新圖書存量差錯(cuò)勘查表格,為讀者提供更加良好的閱讀體驗(yàn)。
(二)聯(lián)通線上線下服務(wù)平臺(tái)
在大數(shù)據(jù)支持下的圖書服務(wù)工作中,線上線下服務(wù)平臺(tái)的整合迎來契機(jī)。服務(wù)者可以根據(jù)讀者在生活各方面高度依賴互聯(lián)網(wǎng)的特點(diǎn),借助大數(shù)據(jù)技術(shù),打造大規(guī)模全民知識(shí)交流平臺(tái)。依托知識(shí)交流平臺(tái),以書籍知識(shí)為交流主題,建設(shè)維護(hù)線上平臺(tái),并引導(dǎo)讀者積極開展線下信息交互,穩(wěn)步提升讀者體驗(yàn)感[4]。如根據(jù)京東大數(shù)據(jù)研究院提供的數(shù)據(jù)顯示,2020年一季度銷售同比增幅最大的圖書是《華夏萬卷硬筆法練習(xí)字帖五本套裝》,“書法類”圖書交易額大增,反映讀者在特定時(shí)期的閱讀傾向?;诖?,圖書管理者就可以為讀者提供書法類圖書推薦服務(wù),提高讀者體驗(yàn)感。
以基于Kafka、Hbase的圖書服務(wù)為例,首先,評(píng)估afka集群,評(píng)估數(shù)據(jù)源于用戶信息利用行為,包括用戶圖書借閱行為(文獻(xiàn)借閱歷史記錄、文獻(xiàn)傳遞平臺(tái)記錄)、用戶信息獲取行為(OPAC聯(lián)機(jī)公共檢索歷史記錄、Lib圖書館平臺(tái)交互記錄)、用戶電子資源利用行為(發(fā)明專利、科技成果)等。其次,轉(zhuǎn)換數(shù)據(jù)并導(dǎo)入ETL清洗,結(jié)合抽取需求信息,評(píng)估kafka Mysql hadoop集群對(duì)應(yīng)圖書資料存儲(chǔ)硬件數(shù)量、圖書資料存儲(chǔ)載體以及館藏。再次,打造用戶需求數(shù)據(jù)集市或成果信息庫(kù),結(jié)合提取摘錄以及標(biāo)引著錄,評(píng)估館藏圖書資料管理壓力以及網(wǎng)絡(luò)需求。同時(shí)以“依據(jù)Rowkey查詢最快”為核心,面對(duì)Rowkey開展范圍查詢r(jià)ange,完成多個(gè)字段組成的前綴匹配。最后,依據(jù)圖書線上線下服務(wù)需求進(jìn)行HBase的表設(shè)計(jì)。根據(jù)圖書服務(wù)對(duì)象實(shí)時(shí)查詢圖書信息的要求,從HBase內(nèi)提取的信息是用戶利用頻率較高且可展示用戶圖書使用智慧的數(shù)據(jù),并進(jìn)行固定類型對(duì)象服務(wù)需求的查詢。在固定類型對(duì)象服務(wù)需求查詢時(shí),需要以“books+time”為查詢依據(jù),使用filter columnfilter索引表/輔助表功能,即:圖書編號(hào)_時(shí)間,列簇為info,列為rowkey,獲得最快用戶服務(wù)數(shù)據(jù)。比如,以學(xué)科用戶為對(duì)象,借助社會(huì)網(wǎng)絡(luò)分析+引文分析+知識(shí)圖譜可視化挖掘方式,立體式全景分析學(xué)科成果。同時(shí)為實(shí)現(xiàn)主服務(wù)表和用戶服務(wù)需求索引表的同步,以“程序,事物”為核心,基于Hbase設(shè)置標(biāo)準(zhǔn)SQL格式的JDBC(Java DataBase Connectivity,java數(shù)據(jù)庫(kù)連接)查詢,此時(shí),用戶服務(wù)需求索引表為“solr lilY cloudera search”。進(jìn)而借助關(guān)聯(lián)規(guī)則+聚類+WEB挖掘方式,探明學(xué)科用戶需求熱點(diǎn)以及學(xué)科用戶之間內(nèi)在需求(含現(xiàn)實(shí)需求、潛在需求、趨勢(shì)需求)關(guān)聯(lián),了解學(xué)科發(fā)展脈絡(luò)。
(三)更新圖書存儲(chǔ)方式
大數(shù)據(jù)技術(shù)支持下,圖書管理者應(yīng)進(jìn)行圖書資料存儲(chǔ)方式的更新,兼顧文字性圖書資料與視頻影音資源,便于讀者查找、應(yīng)用[5]。非結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)是大數(shù)據(jù)時(shí)代圖書存儲(chǔ)的首要難題,為破解這一難題,可依托信息工程技術(shù)領(lǐng)域,構(gòu)建與非結(jié)構(gòu)數(shù)據(jù)性質(zhì)相近且兼容的非關(guān)系型數(shù)據(jù)庫(kù),但因現(xiàn)有數(shù)據(jù)存儲(chǔ)技術(shù)不夠成熟,建構(gòu)的非關(guān)系型數(shù)據(jù)庫(kù)無法解決全部數(shù)據(jù)存儲(chǔ)問題。加之非結(jié)構(gòu)性數(shù)據(jù)并非真正意義上的知識(shí),不可直接應(yīng)用,若不加以整理直接存儲(chǔ)非結(jié)構(gòu)數(shù)據(jù),背離了圖書管理基本職責(zé)——提供知識(shí)服務(wù)。此時(shí),可以借助大數(shù)據(jù)技術(shù)開展專業(yè)化數(shù)據(jù)處理,經(jīng)勾連、轉(zhuǎn)換等操作,實(shí)現(xiàn)半結(jié)構(gòu)數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)向結(jié)構(gòu)型數(shù)據(jù)的轉(zhuǎn)換,最終實(shí)現(xiàn)與關(guān)系型數(shù)據(jù)庫(kù)的同質(zhì)化。
根據(jù)圖書存儲(chǔ)資源對(duì)利用率的要求,需要有針對(duì)性地采集、提取、挖掘契合讀者需求的數(shù)據(jù),有選擇地存儲(chǔ)圖書非結(jié)構(gòu)性數(shù)據(jù),如書籍類別(種類編號(hào)、種類名稱)、讀者(讀者性別、讀者借書證編號(hào)、登記時(shí)期)、借閱(借書證編號(hào)、讀者借書時(shí)間、書籍編號(hào))、書籍(書籍類別、書籍名稱、書籍作者、出版日期、書籍編號(hào)、出借日期、是否被借出)等。進(jìn)而將圖書中特定非結(jié)構(gòu)性數(shù)據(jù)進(jìn)行知識(shí)形態(tài)化處理,便于讀者快捷運(yùn)用。以書籍類別信息為例,可以在數(shù)據(jù)字典中進(jìn)行形態(tài)化處理,具體見表1。
表1中,書籍類別關(guān)系中種類編號(hào)為主鍵,因書籍類別關(guān)系內(nèi)部存在非主流性對(duì)碼的局部函數(shù)依賴、傳遞函數(shù)依賴,所以函數(shù)依賴表現(xiàn)為:書籍種類編號(hào)→書籍種類名稱。以hbase的圖書存儲(chǔ)為例,hbase適合簡(jiǎn)單的圖書存儲(chǔ)操作。對(duì)于大型圖書文件,為避免HBase發(fā)生compact或split引發(fā)頻繁耗時(shí),圖書管理者可以將大文件分片存儲(chǔ)到HBase,或者將大文件存儲(chǔ)到HDFS內(nèi),后者更為簡(jiǎn)單有效、廉價(jià),支持海量用戶遠(yuǎn)程訪問無層次結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ)端,包括圖片、視頻、文件等非結(jié)構(gòu)化圖書數(shù)據(jù)。此時(shí),圖書數(shù)據(jù)作為獨(dú)立目標(biāo)存儲(chǔ)到大容器Bucket內(nèi),需要通過唯一地址進(jìn)行獨(dú)立圖書數(shù)據(jù)對(duì)象的識(shí)別,滿足大數(shù)據(jù)時(shí)代海量圖書數(shù)據(jù)的高性能存儲(chǔ),可用性較高,且可擴(kuò)展。
在具體操作中,圖書管理者可以依據(jù)“Cloud Computing”的分布式共享思維,向數(shù)據(jù)庫(kù)端輸入數(shù)據(jù)并執(zhí)行訪問、修改、提取、反饋、存儲(chǔ)服務(wù),無限擴(kuò)展圖書存儲(chǔ)容量。在這個(gè)基礎(chǔ)上,科學(xué)劃分圖書數(shù)據(jù)、知識(shí)資源、信息類別,根據(jù)知識(shí)產(chǎn)權(quán)、信息安全程度與技術(shù)標(biāo)準(zhǔn)進(jìn)行全部非結(jié)構(gòu)信息類別劃分,分類存儲(chǔ),比如,基于MySQL數(shù)據(jù)庫(kù)的書籍類別存儲(chǔ)為“create table book_style (bookstyleno varchar(30)primary key,bookstyle varchar(30))”。隨后初始化數(shù)據(jù),將已有圖書加入system_books表內(nèi),進(jìn)行非關(guān)鍵圖書數(shù)據(jù)的外掛存儲(chǔ),破解海量圖書存儲(chǔ)難題。
五、結(jié)語
綜上所述,書籍是人類學(xué)習(xí)知識(shí)的重要載體,圖書管理是書籍資源應(yīng)用的重要方式。在大數(shù)據(jù)時(shí)代,人們獲取書籍的方式發(fā)生著巨大變化,對(duì)圖書管理與服務(wù)提出了更高的要求。因此,面對(duì)海量圖書資源,圖書管理者應(yīng)在現(xiàn)代化圖書管理技術(shù)應(yīng)用的基礎(chǔ)上,引入大數(shù)據(jù)技術(shù),借助大數(shù)據(jù)技術(shù)管理存量圖書、處理新舊圖書,提高圖書資源管理效率。同時(shí)借助大數(shù)據(jù)技術(shù)挖掘讀者需求,有針對(duì)性地改善圖書服務(wù)方案,獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。
參考文獻(xiàn):
[1]李會(huì)敏.大數(shù)據(jù)背景下圖書出版面臨的機(jī)遇與挑戰(zhàn)[J].才智,2022(17).
[2]李瑞君.大數(shù)據(jù)時(shí)代高校圖書管理工作的思考與探索[J].教育信息化論壇,2022(11).
[3]呂雪峰.借助大數(shù)據(jù)技術(shù)處理圖書存量差錯(cuò)[J].北京印刷學(xué)院學(xué)報(bào),2021(8).
[4]胡海波.學(xué)校圖書管理信息化建設(shè)探討[J].黑龍江檔案,2023(1).
[5]李繼萍.用大數(shù)據(jù)提高高校圖書管理水平[J].文化產(chǎn)業(yè),2021(15).