劉方榮,童星玉,何斌穎
(云南經(jīng)濟(jì)管理學(xué)院,云南·昆明 650106)
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,給人們的閱讀方式帶來了巨大改變,主動(dòng)推送的閱讀書籍不僅與讀者的閱讀興趣吻合,而且極大的使圖書館的圖書資源得到有效利用?;诖髷?shù)據(jù)的精準(zhǔn)推送服務(wù)一方面可以方便讀者的生活,使讀者可以不受地域和時(shí)間的限制便能獲取到符合自己心儀的閱讀書籍;另一方面,可以使讀者節(jié)約大量的時(shí)間和精力以便獲取到更多的知識(shí)和智慧。
高校圖書館是一個(gè)龐大的“信息數(shù)據(jù)源”。數(shù)以百萬計(jì)的館藏能否為讀者充分利用是目前高校較為關(guān)注的問題之一,隨著大數(shù)據(jù)技術(shù)的快速發(fā)展和成熟,對海量數(shù)據(jù)的存儲(chǔ)和分析已不再是難題,但是大數(shù)據(jù)技術(shù)在商業(yè)、交通以及旅游行業(yè)應(yīng)用較多,對高校高校圖書館綜合應(yīng)用方面卻不多,為此,將這一技術(shù)與圖書館閱讀推送服務(wù)服務(wù)進(jìn)行融合發(fā)展,不經(jīng)能夠發(fā)揮大數(shù)據(jù)在教育行業(yè)的價(jià)值,同時(shí)也能夠讓靜態(tài)放置的書籍知識(shí)活躍起來。
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,人們的閱讀方式和閱讀習(xí)慣發(fā)生著巨大改變,從傳統(tǒng)的主動(dòng)尋找自己喜好的書籍閱讀到大數(shù)據(jù)主動(dòng)推送服務(wù)模式的轉(zhuǎn)變,由此可見,大數(shù)據(jù)閱讀推送服務(wù)可以基節(jié)約讀者尋找書籍的時(shí)間,更多的把時(shí)間運(yùn)用在知識(shí)閱讀上,同時(shí),能夠更高效的匹配到讀者感興趣的書籍,提高讀者的閱讀興趣,從而能夠更好的協(xié)助高校圖書館的發(fā)展,促進(jìn)教育的發(fā)展,提高讀者的社會(huì)認(rèn)知和理論水平。
基于大數(shù)據(jù)技術(shù)的高校圖書館閱讀推送服務(wù)主要利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)實(shí)現(xiàn)熱門書籍的實(shí)時(shí)推送、圖書館藏及圖書借閱情況等進(jìn)行可視化展示,在圖書閱讀推廣過程中,使用大數(shù)據(jù)技術(shù)快速地獲取和分析讀者的信息,進(jìn)而準(zhǔn)確了解讀者的需求和閱讀規(guī)律,然后對讀者進(jìn)行分類,并對不同的讀者推送不同的內(nèi)容,例如低年級(jí)學(xué)生推送英語四六級(jí)書籍,而高年級(jí)學(xué)生則可推薦就業(yè)相關(guān)或者考研考公等書籍。
HADOOP 集群:Hadoop 是一個(gè)分布式計(jì)算平臺(tái)。主要解決海量數(shù)據(jù)的存儲(chǔ)和分析計(jì)算的問題。Hadoop由分布式文件系統(tǒng)HDFS、MapReduce和Yarn 組成,為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。
Hive:基于Hadoop 的一個(gè)數(shù)據(jù)倉庫工具,能夠?qū)⒔Y(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表,并提供類SQL 查詢功能。
Hbase:Hbase是一種分布式、可擴(kuò)展和支持海量數(shù)據(jù)存儲(chǔ)的NoSQL數(shù)據(jù)庫。
spark:大數(shù)據(jù)處理集群計(jì)算框架,與hadoop緊密集成,能夠運(yùn)行在Yarn 上,Spark 項(xiàng)目包括用于處理的MLIib、GraphX、Spark Streamimg 和Spark SQL等模塊。
大數(shù)據(jù)可視化:借助圖形化手段,清晰有效的將數(shù)據(jù)中所蘊(yùn)含的有價(jià)值信息展示出來,為決策者提供依據(jù)和幫助。
數(shù)據(jù)獲?。菏紫全@取圖書館的書籍?dāng)?shù)據(jù)、圖書借閱與歸還數(shù)據(jù)、各二級(jí)學(xué)院圖書借閱情況等數(shù)據(jù);
數(shù)據(jù)清洗:與讀者個(gè)性化智慧服務(wù)決策相關(guān)性較大的諸如讀者個(gè)體特征、閱讀歷史行為、閱讀實(shí)時(shí)興趣、個(gè)體移動(dòng)路徑、閱讀終端模式、讀者服務(wù)評(píng)價(jià)與滿意度反饋、系統(tǒng)未來服務(wù)資源總量與服務(wù)負(fù)載等數(shù)據(jù),才能在較小大數(shù)據(jù)清洗成本投入和降低清洗復(fù)雜度的前提下,大幅度提升圖書館大數(shù)據(jù)的價(jià)值密度與數(shù)據(jù)可用性。
數(shù)據(jù)存儲(chǔ):將清洗后的數(shù)據(jù)存儲(chǔ)在HDFS 上,待數(shù)據(jù)分析時(shí)使用。
數(shù)據(jù)分析:使用Spaek SQL 或者Hive 分析函數(shù)等對數(shù)據(jù)進(jìn)行分析處理。
數(shù)據(jù)可視化:有針對性的對目標(biāo)數(shù)據(jù)進(jìn)行可視化展示,可視化工具選擇Echarts、FineBI等。
推送內(nèi)容:基于高校發(fā)展需要,集合大數(shù)據(jù)分析結(jié)果,將熱門書籍,借閱量排名靠前、專業(yè)書籍、新書等有針對性的推送給校園讀者,任課教師主要推送所任課程書籍,高年級(jí)學(xué)生推送考研、考公等考試數(shù)書籍,低年級(jí)學(xué)生推送專業(yè)課、英語四六級(jí)、計(jì)算機(jī)等書籍。
可視化的內(nèi)容:立足于云南經(jīng)過管理學(xué)院圖書館,根據(jù)圖書館的館藏資源,借閱數(shù)據(jù)等數(shù)據(jù),采用開源軟件FineBI 進(jìn)行設(shè)計(jì)和制作,可視化內(nèi)容由:log、標(biāo)題、時(shí)間、4 個(gè)標(biāo)簽卡(圖書總量/借閱量、今日借書/今日還書、本月借書/本月還書、本學(xué)期借書/本學(xué)期還書)、圖書借還統(tǒng)計(jì)、學(xué)院借閱排行、圖書大類借閱排行、專業(yè)借閱排行、圖書館藏可視化、借還率、新書推薦、圖書借閱排行和讀者借閱排行組成,充分利用高校圖書館的數(shù)據(jù)資源,借助圖形可視化的手段,有效地分析圖書館各方面數(shù)據(jù)變化情況進(jìn)行可視化的呈現(xiàn)以達(dá)到更好的進(jìn)行圖書館的管理和優(yōu)化師生的用戶體驗(yàn),從而促進(jìn)大數(shù)據(jù)技術(shù)與圖書館綜合事宜的融合發(fā)展。
可視化效果
高校圖書館閱讀推送服務(wù)是在現(xiàn)有基礎(chǔ)上融合了大數(shù)據(jù)等先進(jìn)技術(shù),是高校圖書館新的發(fā)展方向和趨勢,在讀者閱讀服務(wù)及體驗(yàn)方面能夠帶來全新的滿足感和體驗(yàn)感?;诖髷?shù)據(jù)技術(shù)的高校圖書館閱讀推送服務(wù)需要滿足讀者的個(gè)性化和主動(dòng)性服務(wù)需求,但同時(shí)要解決大數(shù)據(jù)環(huán)境下圖書館數(shù)字資源海量豐富特性帶來的挑戰(zhàn)。