張曉梅
摘? ? 要: 信息通信技術(shù)(ICT)正向著ICDT轉(zhuǎn)變,這說明了大數(shù)據(jù)技術(shù)的重要性。高職圖書館正在進(jìn)行數(shù)字化轉(zhuǎn)型,探尋其與大數(shù)據(jù)技術(shù)的結(jié)合具有現(xiàn)實(shí)價(jià)值。本文論述了二者內(nèi)在屬性間的關(guān)聯(lián)性,分析了Hadoop平臺(tái)的各功能模塊,探討了大數(shù)據(jù)技術(shù)支撐下的數(shù)字化圖書館服務(wù)模式,推動(dòng)高職數(shù)字化圖書館建設(shè)。
關(guān)鍵詞: 大數(shù)據(jù)? ? 高職院校? ? 數(shù)字圖書館
移動(dòng)互聯(lián)網(wǎng)絡(luò)拓展了互聯(lián)網(wǎng)的覆蓋空間,信息數(shù)據(jù)的增長速度超過以往任何時(shí)代,新的數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)和存儲(chǔ)方式出現(xiàn),大數(shù)據(jù)(Big-Data)技術(shù)隨著數(shù)據(jù)分析需求而出現(xiàn)。圖書館是高等院校信息服務(wù)體系的主體,同時(shí)是社會(huì)公共信息服務(wù)的有機(jī)組成部分,數(shù)字通信技術(shù)的出現(xiàn)改變了現(xiàn)代圖書館的存在形態(tài),實(shí)時(shí)在線服務(wù)成為數(shù)字化圖書館的服務(wù)模式,涉及標(biāo)準(zhǔn)、技術(shù)、管理、法律等方面,在共同學(xué)習(xí)中探索新的建設(shè)模式。大數(shù)據(jù)技術(shù)的高速數(shù)據(jù)處理能力為數(shù)字圖書館建設(shè)提供了技術(shù)保障,二者的數(shù)字化本質(zhì)是一致的,為其融合提供了基礎(chǔ)。同時(shí),大數(shù)據(jù)技術(shù)在不斷實(shí)現(xiàn)自我完善和變革,在支撐數(shù)字化圖書館發(fā)展的同時(shí),為自身尋找合適的數(shù)據(jù)反饋源和試驗(yàn)樣本。
1.大數(shù)據(jù)與數(shù)字圖書館的內(nèi)在屬性
1.1大數(shù)據(jù)的內(nèi)在屬性
麥肯錫在2011年5月的一份報(bào)告中最早提出“大數(shù)據(jù)”的概念[1],《華爾街日?qǐng)?bào)》開辟專欄對(duì)大數(shù)據(jù)技術(shù)進(jìn)行全面分析,美國政府于2012年3正式宣布開展“大數(shù)據(jù)”技術(shù)和應(yīng)用研究,前期投資2億美元,“大數(shù)據(jù)”首次獲得國家層面的官方身份認(rèn)可。
對(duì)大數(shù)據(jù)的本質(zhì),不同國家、科研機(jī)構(gòu)和組織間的認(rèn)識(shí)略有差異,公認(rèn)的是IBM公司提出的“3V”模型,即量大(volume)、實(shí)時(shí)(velocity)、多樣(variety)[2]。量大,是指數(shù)據(jù)總量,其計(jì)量單位由TB向PB發(fā)展,現(xiàn)在已達(dá)到EB級(jí);實(shí)時(shí),是指數(shù)據(jù)的處理與交互式訪問,用戶所需的二次數(shù)據(jù)結(jié)果處理實(shí)時(shí)完成,提供支撐決策的參考信息;多樣,是對(duì)數(shù)據(jù)類型,包含完全結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)流包括視頻、音頻、圖像和圖片,數(shù)據(jù)處理速度和能力提升到下一個(gè)量級(jí)。綜合不同概念的表述和理解,大數(shù)據(jù)即從多樣的數(shù)據(jù)中實(shí)時(shí)提取有價(jià)值的二次數(shù)據(jù)信息。作為現(xiàn)實(shí)需求技術(shù)和未來發(fā)展方向,大數(shù)據(jù)是一種自我發(fā)展的技術(shù)。
1.2數(shù)字圖書館的內(nèi)在屬性
二十世紀(jì)九十年代最早提出數(shù)字化圖書館概念,通過信息互聯(lián)網(wǎng)絡(luò)、多媒體技術(shù)、先進(jìn)計(jì)算機(jī)的組合,完成圖書館館藏?cái)?shù)據(jù)的二進(jìn)制轉(zhuǎn)換,以數(shù)字化存儲(chǔ)形式構(gòu)建新型圖書館。數(shù)字化改變了高校圖書館的服務(wù)方式,信息化、數(shù)字化服務(wù)與紙質(zhì)資料服務(wù)并存,數(shù)據(jù)傳遞速度倍增,電子圖書、期刊成為圖書館制式的數(shù)據(jù)存儲(chǔ)形式。目前,數(shù)字化圖書館已經(jīng)完成數(shù)據(jù)網(wǎng)絡(luò)傳遞、數(shù)據(jù)的二進(jìn)制轉(zhuǎn)換階段,集成化的信息技術(shù)和實(shí)時(shí)訪問優(yōu)勢將服務(wù)變得更加便捷[3]。
高校的數(shù)據(jù)信息體系以圖書館為主體,從各高校的圖書館建設(shè)中可以得到印證,作為學(xué)術(shù)性服務(wù)機(jī)構(gòu),推動(dòng)教學(xué)與科研工作進(jìn)步。隨著5G時(shí)代的來臨,信息技術(shù)即將實(shí)現(xiàn)萬物互聯(lián),信息數(shù)據(jù)量呈級(jí)數(shù)級(jí)增加、非結(jié)構(gòu)化數(shù)據(jù)訪問量增加、用戶數(shù)據(jù)檢索質(zhì)量提升,數(shù)字圖書館現(xiàn)有的數(shù)據(jù)存儲(chǔ)和訪問能力難以應(yīng)付,數(shù)字化圖書館是高校圖書館實(shí)現(xiàn)可持續(xù)發(fā)展的必由之路。
2.基于圖書館Hadoop平臺(tái)的大數(shù)據(jù)分析系統(tǒng)
選用Hadoop平臺(tái)作為數(shù)字化圖書館的大數(shù)據(jù)支撐平臺(tái)。Hadoop平臺(tái)底層支撐架構(gòu)牢固,具有強(qiáng)悍的數(shù)據(jù)處理性能和易擴(kuò)展性,尤其適用于海量數(shù)據(jù)處理,性價(jià)比優(yōu)勢明顯。
典型的Hadoop平臺(tái)架構(gòu)包含四個(gè)功能模塊:數(shù)據(jù)采集、數(shù)據(jù)冗余、維度定義和并行分析。各個(gè)模塊的功能定位詳述如下:
2.1數(shù)據(jù)采集模塊,完成海量圖書信息碎片的收集、傳輸與合并,確保傳輸速率、數(shù)據(jù)完成性與傳輸安全。
2.2數(shù)據(jù)冗余模塊,這是Hadoop平臺(tái)架構(gòu)的關(guān)鍵環(huán)節(jié)。該模塊首先定義冗余維度定義器,然后定義需要冗余的維度信息及數(shù)據(jù)來源,將信息以指定的擴(kuò)展方式寫入。在圖書信息數(shù)據(jù)處理過程中,隨著維度的增加,定義數(shù)據(jù)冗余模塊是必要的。
2.3維度定義模塊,屬于前端模塊,使用者為圖書信息管理員,對(duì)海量圖書數(shù)據(jù)以可視化的定義器定義維度和度量,可視化的分析器執(zhí)行定義好的多維分析命令,最終生成一種多維分析語言。
2.4并行分析模塊,接收來自管理員的多維分析指令,核心模塊負(fù)責(zé)對(duì)命令的Map-Reduce解析,最后上交Hadoop分析集群,生成分析報(bào)表,展現(xiàn)在圖書分析報(bào)表中心[4]。
3.大數(shù)據(jù)技術(shù)支撐的數(shù)字化圖書館建設(shè)方案
數(shù)字圖書館建設(shè)應(yīng)該以資源建設(shè)為中心,建立更加完備的資源庫、優(yōu)化資源結(jié)構(gòu),以大數(shù)據(jù)分析和挖掘技術(shù)為依托,維護(hù)原生資源、突出特色資源、營造資源生態(tài)領(lǐng)域,整合不同資源類型,形成互通、共享的大數(shù)據(jù)資源池。
3.1對(duì)圖書館信息資源進(jìn)行整合利用
圖書館職能的關(guān)鍵在于組織信息資源,在數(shù)據(jù)采集的基礎(chǔ)上對(duì)信息進(jìn)行分析、描述、揭示,大數(shù)據(jù)技術(shù)使這種職能的面貌發(fā)生改變。依據(jù)麥肯錫全球研究所的調(diào)研報(bào)告數(shù)據(jù),全球范圍內(nèi)的有效數(shù)據(jù)利用率只有不到12.5%。在現(xiàn)代社會(huì)中,來自各種終端設(shè)備的數(shù)據(jù)資源超過50%,數(shù)據(jù)的簡單匯聚并不能產(chǎn)生有價(jià)值的信息和知識(shí)。一方面是已經(jīng)生產(chǎn)的海量情報(bào)信息,另一方面是對(duì)有價(jià)值數(shù)據(jù)資源的需求,二者間的矛盾需要一種技術(shù)方案協(xié)調(diào)。要將固定的數(shù)據(jù)實(shí)時(shí)傳遞給不確定的個(gè)體,提供具備吸引力的服務(wù)內(nèi)容和形式,實(shí)現(xiàn)數(shù)字圖書館的科學(xué)性和高可靠性。整合圖書館資源的目的在于提供用戶所需數(shù)據(jù),對(duì)圖書、期刊、學(xué)位論文、多媒體資源、數(shù)據(jù)庫等依據(jù)固定的格式進(jìn)行資源重組,便于讀者獲取所需資源信息?,F(xiàn)有的大數(shù)據(jù)技術(shù)資源密度較低,資源整合操作可以有效彌補(bǔ)這種不足。
3.2提升數(shù)據(jù)推送的關(guān)聯(lián)度和準(zhǔn)確性
數(shù)據(jù)推送服務(wù)是圖書館主動(dòng)推送讀者所需的關(guān)聯(lián)信息,讀者客戶端可以是多種形式,包括個(gè)人電腦、手機(jī)APP、網(wǎng)頁賬戶等?,F(xiàn)有的圖書館的推送服務(wù)屬于廣播式推送,不能滿足讀者的全部需求,不同領(lǐng)域間的差別顯著。預(yù)測性缺失,對(duì)于資料查閱和網(wǎng)頁瀏覽歷史數(shù)據(jù),大數(shù)據(jù)可以對(duì)其全部行為數(shù)據(jù)予以記錄,細(xì)化到每一篇文章,甚至是具體詞組,匯集讀者的各類微小行為;推送服務(wù)分層次進(jìn)行,層次劃分依據(jù)可以是興趣愛好、性別、年齡段、受教育程度等?;谟脩舻臄?shù)據(jù)瀏覽頻次,大數(shù)據(jù)提供個(gè)人的興趣偏好分析,涉及興趣度排序和變化趨勢,以對(duì)其需求變化進(jìn)行預(yù)測,匯集不同讀者的需求信息,產(chǎn)生的數(shù)據(jù)可以為圖書館數(shù)據(jù)更新和采集提供參考,對(duì)讀者需求做到超前解讀和引領(lǐng),提高數(shù)字化圖書館的社會(huì)效率。
3.3支撐個(gè)性化的細(xì)粒度知識(shí)服務(wù)
圖書館個(gè)性化服務(wù)增強(qiáng)了對(duì)讀者個(gè)體的針對(duì)性,現(xiàn)有的個(gè)性定制服務(wù)策略依據(jù)讀者的基本信息、研究領(lǐng)域、檢索集及調(diào)查問卷統(tǒng)計(jì)數(shù)據(jù),依據(jù)單一、僵化,難以提供更加細(xì)粒度的個(gè)性化服務(wù)。棗莊科技職業(yè)學(xué)院的數(shù)字化圖書館建設(shè)引入“猿題庫”模式,細(xì)化捕捉讀者的每一次動(dòng)態(tài)操作行為,建立靈活、定制化的讀者檔案,結(jié)合行業(yè)分析和學(xué)科分析數(shù)據(jù),支撐數(shù)字化圖書館的個(gè)性化細(xì)粒度知識(shí)服務(wù)。大數(shù)據(jù)技術(shù)的靈活性體現(xiàn)在對(duì)讀者行為變化情況的自動(dòng)監(jiān)控;對(duì)不同層次、類別數(shù)據(jù)的自動(dòng)調(diào)用與智能推送。
3.4更具象的數(shù)據(jù)咨詢參考服務(wù)
現(xiàn)有的參考咨詢服務(wù)依據(jù)圖書館藏檢索工具書、參考工具書、自建與外購數(shù)據(jù)庫或二者的結(jié)合,負(fù)責(zé)實(shí)施的館員可以是兼職也可以是全職,均具備良好的專業(yè)知識(shí)背景,熟悉檢索業(yè)務(wù)。大數(shù)據(jù)時(shí)代的課題咨詢服務(wù),由系統(tǒng)依據(jù)特征值將查詢結(jié)果進(jìn)行實(shí)時(shí)圖形展示,數(shù)據(jù)分析技術(shù)縮短資源獲取時(shí)間,延展咨詢館員的情報(bào)信息獲取邊界,更好地滿足讀者需求。尤其對(duì)企業(yè)用戶而言,深度參考咨詢服務(wù)提高圖書館數(shù)據(jù)利用率和價(jià)值水平。
4.結(jié)語
大數(shù)據(jù)技術(shù)的出現(xiàn),給圖書情報(bào)領(lǐng)域帶來了前所未有的信息技術(shù)革命,是機(jī)遇也是挑戰(zhàn)。高職圖書館應(yīng)及時(shí)更新理念,尋求與先進(jìn)技術(shù)的深入融合,拓展用戶服務(wù)模式。大數(shù)據(jù)技術(shù)研究處于快速發(fā)展階段,其價(jià)值和應(yīng)用前景正成為未來科技革命的核心。大數(shù)據(jù)技術(shù)與數(shù)字化圖書館的深度協(xié)作,成為圖書情報(bào)領(lǐng)域的信息化轉(zhuǎn)型方向,將實(shí)現(xiàn)數(shù)據(jù)價(jià)值的深度挖掘與新型服務(wù)方式的探索。
參考文獻(xiàn):
[1]韓翠峰.“互聯(lián)網(wǎng)+”環(huán)境下的圖書館服務(wù)轉(zhuǎn)型與發(fā)展[J].圖書與情報(bào),2017,159(05):29-32.
[2]李岱洲.“互聯(lián)網(wǎng)+”時(shí)代下高校圖書館應(yīng)對(duì)策略[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2016,28(5):101-103.
[3]何勝,熊太純,周冰.高校圖書館大數(shù)據(jù)服務(wù)現(xiàn)實(shí)困境與應(yīng)用模式分析[J].圖書情報(bào)工作,2018,59(22):50-55.