馬曉亭
據(jù)美國麥肯錫全球研究院2011年6月發(fā)布的《大數(shù)據(jù):下一個(gè)創(chuàng)新、競爭和生產(chǎn)力的前沿》研究報(bào)告分析,“大數(shù)據(jù)已成為與物質(zhì)資產(chǎn)和人力資本相提并論的重要生產(chǎn)要素,大數(shù)據(jù)的使用將成為未來提高競爭力的關(guān)鍵要素”。隨著大數(shù)據(jù)時(shí)代的到來,圖書館用戶服務(wù)保障能力建設(shè)重點(diǎn)已從以提高數(shù)據(jù)中心基礎(chǔ)設(shè)施結(jié)構(gòu)科學(xué)性和運(yùn)營效率為中心,向以滿足讀者需求為核心的用戶個(gè)性化服務(wù)轉(zhuǎn)變。圖書館有效采集、存儲和管理數(shù)據(jù)中心的系統(tǒng)運(yùn)營與監(jiān)控?cái)?shù)據(jù),用戶服務(wù)與業(yè)務(wù)管理數(shù)據(jù),圖書館與客戶關(guān)系數(shù)據(jù),以及讀者的個(gè)性化服務(wù)需求、閱讀模式、閱讀活動(dòng)和情感、閱讀社會關(guān)系等數(shù)據(jù),并對海量數(shù)據(jù)進(jìn)行科學(xué)的分析、評價(jià)和決策,是關(guān)系圖書館全面、系統(tǒng)和深入了解用戶需求,并將運(yùn)營與服務(wù)決策方式由傳統(tǒng)的管理層主觀經(jīng)驗(yàn)式?jīng)Q策,向依靠大數(shù)據(jù)的科學(xué)、定量化決策方式轉(zhuǎn)變的重要保證。圖書館只有堅(jiān)持以用戶需求為中心構(gòu)建大數(shù)據(jù)分析平臺,并采用科學(xué)的分析與管理策略,才能保證圖書館管理與用戶服務(wù)決策內(nèi)容全面、準(zhǔn)確、連續(xù)和可評估[1]。
大數(shù)據(jù)時(shí)代,圖書館數(shù)據(jù)主要由結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)組成。結(jié)構(gòu)化數(shù)據(jù)主要是指關(guān)系模型數(shù)據(jù),即以關(guān)系型數(shù)據(jù)庫表形式管理的數(shù)據(jù),主要由圖書館數(shù)據(jù)中心系統(tǒng)管理數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)和部分符合關(guān)系模型數(shù)據(jù)特征的服務(wù)數(shù)據(jù)組成。半結(jié)構(gòu)化數(shù)據(jù)主要指那些非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù),包括圖書館應(yīng)用日志文件、XML文檔、JSON文檔和電子郵件等。非結(jié)構(gòu)化數(shù)據(jù)主要指除去結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)以外的數(shù)據(jù)。此類數(shù)據(jù)沒有固定的結(jié)構(gòu)模式,主要由WORD、PDF、PPT、EXL文檔及各種格式的圖片和視頻等服務(wù)、監(jiān)控?cái)?shù)據(jù)組成。在圖書館的大數(shù)據(jù)資源中,非結(jié)構(gòu)化數(shù)據(jù)約占據(jù)數(shù)據(jù)總量的80%以上,并以成倍的速度快速增長,大幅度增加了大數(shù)據(jù)系統(tǒng)的結(jié)構(gòu)復(fù)雜度,以及數(shù)據(jù)采集、存儲、處理、分析過程的難度與成本,嚴(yán)重影響了圖書館對用戶個(gè)性化服務(wù)進(jìn)行大數(shù)據(jù)分析與決策的科學(xué)性、準(zhǔn)確性、可用性和可控性[2]。
大數(shù)據(jù)時(shí)代,圖書館通過數(shù)據(jù)中心系統(tǒng)監(jiān)測設(shè)備、閱讀傳感器信息接收、射頻ID數(shù)據(jù)采集、移動(dòng)閱讀終端識別、用戶閱讀行為和數(shù)據(jù)流監(jiān)控等方式,獲取關(guān)于用戶服務(wù)過程和讀者閱讀行為的數(shù)據(jù)。
首先,圖書館數(shù)據(jù)中心的運(yùn)營數(shù)據(jù)和龐大讀者群閱讀行為數(shù)據(jù),具有海量、復(fù)雜、隨機(jī)、低價(jià)值密度和不可預(yù)測的特性,大幅度增加了數(shù)據(jù)的采集、存儲和標(biāo)準(zhǔn)化難度。其次,圖書館的大數(shù)據(jù)資源通常從多個(gè)用戶對象和數(shù)據(jù)源采集,數(shù)據(jù)類型包括圖像、文本、聲音、視頻等多種格式。同時(shí),數(shù)據(jù)內(nèi)容涉及讀者的閱讀模式、閱讀關(guān)系、閱讀愛好、地理位置和時(shí)間等信息,具有多源異構(gòu)的特性。第三,圖書館所采集的數(shù)據(jù)中心系統(tǒng)和讀者行為數(shù)據(jù),具有即時(shí)、海量的特點(diǎn)。要求大數(shù)據(jù)分析系統(tǒng)可通過在線實(shí)時(shí)分析過程,為用戶個(gè)性化服務(wù)提供快速的決策支持,滿足用戶個(gè)性化閱讀活動(dòng)的實(shí)時(shí)性需求。第四,對雜亂無章的大數(shù)據(jù)資源進(jìn)行深度挖掘和價(jià)值提取,并準(zhǔn)確發(fā)現(xiàn)關(guān)系,是提高圖書館服務(wù)有效性和用戶滿意度的深層次知識,是建設(shè)智慧圖書館和為讀者提供智慧服務(wù)的關(guān)鍵。
圖書館通過對系統(tǒng)管理與運(yùn)營、用戶服務(wù)和讀者行為數(shù)據(jù)的分析,才能獲取大量有深度和有價(jià)值的信息。此外,利用大數(shù)據(jù)的支持可提高圖書館服務(wù)系統(tǒng)的管理和運(yùn)營效率,保證讀者個(gè)性化閱讀服務(wù)過程安全、高效、滿意。
首先,圖書館在管理、運(yùn)營和服務(wù)過程中,不同的應(yīng)用項(xiàng)目對大數(shù)據(jù)分析過程的數(shù)據(jù)處理性能、數(shù)據(jù)量、運(yùn)算速度、精確性、實(shí)時(shí)性和多樣性要求不同。因此,在大數(shù)據(jù)分析過程中應(yīng)結(jié)合不同分析對象、過程的特點(diǎn),采用恰當(dāng)?shù)拇髷?shù)據(jù)分析方法與系統(tǒng)資源分配策略。其次,大數(shù)據(jù)分析過程應(yīng)緊密結(jié)合讀者個(gè)性化服務(wù)需求,在對讀者個(gè)性化閱讀需求和閱讀行為分析深度價(jià)值挖掘的前提下,根據(jù)服務(wù)場景特點(diǎn)實(shí)現(xiàn)精確、即時(shí)的個(gè)性化服務(wù)推薦。第三,大數(shù)據(jù)分析結(jié)果應(yīng)根據(jù)分析對象特點(diǎn)實(shí)現(xiàn)可視化的表現(xiàn)。圖書館可以交互的方式管理和分析數(shù)據(jù),分析結(jié)果須反映用戶個(gè)性化閱讀活動(dòng)和服務(wù)的多個(gè)屬性與變量,并以多種方式直觀、可視化地表現(xiàn)。
圖書館大數(shù)據(jù)環(huán)境具有數(shù)據(jù)海量、類型復(fù)雜、處理速度高和價(jià)值密度低的特點(diǎn),因此,在大數(shù)據(jù)采集、存儲、處理和分析過程中,如果不根據(jù)分析需求采取有效的質(zhì)量控制策略,則可能導(dǎo)致數(shù)據(jù)分析過程成本投入過高和分析效率下降現(xiàn)象發(fā)生。
首先,圖書館應(yīng)制定科學(xué)、可控的大數(shù)據(jù)分析管理策略,提高數(shù)據(jù)采集、處理與分析過程的效率與管理有效性,實(shí)現(xiàn)數(shù)據(jù)對象、分析技術(shù)與決策結(jié)果應(yīng)用三者的統(tǒng)一。其次,大數(shù)據(jù)主要由海量數(shù)據(jù)采集、存儲、管理、分析與挖掘、可視化表示和決策等技術(shù)組成,應(yīng)根據(jù)圖書館數(shù)據(jù)分析對象和質(zhì)量要求,選擇正確的大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)和大數(shù)據(jù)處理平臺,實(shí)現(xiàn)大數(shù)據(jù)分析資源、策略和平臺的最優(yōu)化結(jié)合。第三,大數(shù)據(jù)分析過程應(yīng)重點(diǎn)加強(qiáng)對數(shù)據(jù)可視化分析、數(shù)據(jù)挖掘與分析算法、預(yù)測性分析能力、數(shù)據(jù)采集質(zhì)量和分析過程科學(xué)性的管理,最終實(shí)現(xiàn)大數(shù)據(jù)分析過程的質(zhì)量可控[3]。
傳統(tǒng)IT環(huán)境下,圖書館在對讀者閱讀需求分析和服務(wù)模式定位時(shí),通常會以自身工作經(jīng)驗(yàn)、感性認(rèn)識和知識積累為依據(jù),而不是依靠大數(shù)據(jù)分析結(jié)果為基礎(chǔ)獲得科學(xué)、理性的實(shí)證分析,因此分析過程和知識獲取具有較強(qiáng)的盲目性和局限性。隨著大數(shù)據(jù)技術(shù)在圖書館應(yīng)用的不斷深入,圖書館應(yīng)通過科學(xué)采集和分析大數(shù)據(jù)資源提升自身的運(yùn)營效率、服務(wù)質(zhì)量和競爭優(yōu)勢。
圖書館大數(shù)據(jù)分析的目標(biāo)首先應(yīng)是對讀者閱讀需求、大數(shù)據(jù)服務(wù)環(huán)境、讀者閱讀行為和閱讀模式變革、個(gè)性化服務(wù)風(fēng)險(xiǎn)的精確定位和預(yù)測,為讀者個(gè)性化閱讀服務(wù)內(nèi)容、方法與模式的變革提供可靠的數(shù)據(jù)支持。其次,可通過大數(shù)據(jù)挖掘來發(fā)現(xiàn)、優(yōu)化圖書館服務(wù)資源的配置,不斷提高服務(wù)管理質(zhì)量、決策水平、系統(tǒng)運(yùn)營效率和用戶滿意度。第三,大數(shù)據(jù)分析應(yīng)準(zhǔn)確定位用戶服務(wù)的風(fēng)險(xiǎn)和市場競爭環(huán)境,及時(shí)分析、發(fā)現(xiàn)和預(yù)測用戶個(gè)性化服務(wù)過程中存在的安全威脅與不穩(wěn)定因素,提高讀者個(gè)性化服務(wù)的安全性和可靠性。
大數(shù)據(jù)時(shí)代,圖書館大數(shù)據(jù)資源主要由傳感器設(shè)備采集數(shù)據(jù)、網(wǎng)絡(luò)監(jiān)控和讀者服務(wù)調(diào)查數(shù)據(jù)、移動(dòng)服務(wù)商共享數(shù)據(jù)、閱讀終端反饋數(shù)據(jù)、射頻ID數(shù)據(jù)等組成。首先,圖書館大數(shù)據(jù)資源呈現(xiàn)數(shù)據(jù)總量快速激增、分散存儲和異構(gòu)數(shù)據(jù)協(xié)同整合的趨勢,導(dǎo)致數(shù)據(jù)管理、存儲、傳輸與分析難度增大。其次,隨著數(shù)據(jù)源的不斷擴(kuò)展和結(jié)構(gòu)復(fù)雜性增強(qiáng),大數(shù)據(jù)資源呈現(xiàn)多樣性、低價(jià)值密度、價(jià)值挖掘難度大、錯(cuò)誤或無用數(shù)據(jù)占數(shù)據(jù)總量比例上升現(xiàn)象。第三,數(shù)據(jù)分析師的專業(yè)素質(zhì)、大數(shù)據(jù)平臺結(jié)構(gòu)科學(xué)性、預(yù)測與分析軟件的可用性、分析結(jié)果對圖書館服務(wù)與讀者滿意度提升有效性等因素,也是關(guān)系圖書館大數(shù)據(jù)分析效率和風(fēng)險(xiǎn)可控的重要因素[4]。
圖書館大數(shù)據(jù)平臺信息分析流程圖主要由數(shù)據(jù)源、數(shù)據(jù)采集與存儲、數(shù)據(jù)過濾與價(jià)值提取、知識發(fā)現(xiàn)、預(yù)測分析與決策五部分組成,如圖1所示:
圖1 圖書館大數(shù)據(jù)平臺信息分析流程圖
圖書館大數(shù)據(jù)資源主要由系統(tǒng)監(jiān)控器、視頻監(jiān)控、射頻信號識別、閱讀終端設(shè)備、網(wǎng)絡(luò)監(jiān)控器和閱讀傳感器等數(shù)據(jù)源組成。數(shù)據(jù)采集與存儲平臺利用云計(jì)算、數(shù)據(jù)集成等技術(shù),對數(shù)據(jù)源進(jìn)行數(shù)據(jù)的采集與存儲,為上層提供高效的數(shù)據(jù)存儲與管理服務(wù)。數(shù)據(jù)過濾與價(jià)值提取層,可對底層采集的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)過濾和價(jià)值提取,并在減少所采集大數(shù)據(jù)資源總量和提高價(jià)值密度的前提下,降低大數(shù)據(jù)挖掘與分析系統(tǒng)的負(fù)荷。知識發(fā)現(xiàn)層可對下層傳輸?shù)男畔⑦M(jìn)行深度挖掘,并從信息中發(fā)現(xiàn)知識,實(shí)現(xiàn)讀者需求、閱讀行為、系統(tǒng)管理和讀者群關(guān)系的精確發(fā)現(xiàn)。預(yù)測分析與決策層是分析流程的最高層,可對用戶需求、未來閱讀模式發(fā)展趨勢、服務(wù)系統(tǒng)運(yùn)行、安全隱患和市場環(huán)境變化進(jìn)行智慧分析和預(yù)測,并對圖書館個(gè)性化智慧服務(wù)的模式、策略、內(nèi)容和安全防范措施進(jìn)行決策與評估[5]。
2.2.1 增強(qiáng)圖書館對大數(shù)據(jù)資源的智慧分析能力
增強(qiáng)對大數(shù)據(jù)資源的智慧分析能力,是圖書館樹立以“智慧分析和決策”為核心的大數(shù)據(jù)戰(zhàn)略思想,以及高效整合大數(shù)據(jù)平臺價(jià)值體系和科學(xué)分配、調(diào)度系統(tǒng)資源,利用大數(shù)據(jù)支持提高圖書館讀者個(gè)性化服務(wù)風(fēng)險(xiǎn)預(yù)測、分析與決策、讀者閱讀體驗(yàn)、系統(tǒng)運(yùn)營整體效率和市場競爭力的重要內(nèi)容。
首先,圖書館應(yīng)依靠大數(shù)據(jù)資源的支持,提高對讀者閱讀需求、內(nèi)容、方法和模式的預(yù)測和判斷能力,明確讀者未來個(gè)性化閱讀活動(dòng)的時(shí)間、地點(diǎn)、對象、方法和內(nèi)容,并在提高個(gè)性化服務(wù)針對性和質(zhì)量的前提下,降低用戶服務(wù)的成本投入。其次,增強(qiáng)圖書館大數(shù)據(jù)的智慧分析能力,就是要將以大數(shù)據(jù)資源為核心的圖書館服務(wù)能力建設(shè),轉(zhuǎn)變?yōu)橐源髷?shù)據(jù)資源采集、處理、建模、分析和系統(tǒng)反饋、優(yōu)化全過程為核心的綜合保障,確保大數(shù)據(jù)智慧分析過程安全、高效、可用和可控。第三,圖書館應(yīng)根據(jù)大數(shù)據(jù)分析的對象、內(nèi)容和質(zhì)量要求,選擇科學(xué)、高效、快速和經(jīng)濟(jì)的分析算法,確保對大數(shù)據(jù)資源有較高的質(zhì)量和知識提取效率,并且分析平臺可自動(dòng)、智能地從數(shù)據(jù)中提取高價(jià)值密度的信息。第四,圖書館大數(shù)據(jù)的智慧分析平臺應(yīng)具備實(shí)時(shí)分析和可視化分析能力,可將分析結(jié)果準(zhǔn)確、快速、友好和多模式地表示,確保讀者個(gè)性化閱讀服務(wù)過程具有較強(qiáng)的前瞻性、即時(shí)性和可控性[6]。
2.2.2 大數(shù)據(jù)分析應(yīng)以讀者個(gè)性化服務(wù)需求為中心
大數(shù)據(jù)時(shí)代,圖書館應(yīng)以讀者個(gè)性化需求與服務(wù)為中心,逐步建立依據(jù)用戶需求、業(yè)務(wù)優(yōu)先等級和服務(wù)收益為標(biāo)準(zhǔn)的大數(shù)據(jù)戰(zhàn)略目標(biāo),才能有效提高大數(shù)據(jù)采集、處理、整合、分析和決策的效率。
首先,圖書館應(yīng)通過對用戶閱讀反饋與服務(wù)系統(tǒng)運(yùn)營大數(shù)據(jù)信息的監(jiān)測、分析,提高大數(shù)據(jù)平臺對用戶個(gè)性化服務(wù)安全隱患、突發(fā)事件、服務(wù)質(zhì)量潛在風(fēng)險(xiǎn)的預(yù)測、判斷和評估能力,為安全防范策略的制定與實(shí)施提供科學(xué)的數(shù)據(jù)支持。同時(shí),還應(yīng)通過對用戶閱讀需求、閱讀內(nèi)容和閱讀環(huán)境的準(zhǔn)確預(yù)測,提高讀者個(gè)性化閱讀滿意度并降低客戶流失率。其次,大數(shù)據(jù)分析過程應(yīng)以絕大多數(shù)讀者的海量閱讀行為數(shù)據(jù)為基礎(chǔ),不能為了降低數(shù)據(jù)采集、存儲、處理和分析成本而采取用戶抽樣的方法,避免因所采集的個(gè)別讀者最小量行為樣本數(shù)據(jù)的片面、局限性,而影響分析結(jié)果的全面性和準(zhǔn)確性。第三,大數(shù)據(jù)分析應(yīng)以讀者閱讀時(shí)限需求為依據(jù),對于用戶多媒體閱讀需求預(yù)測、用戶行為即時(shí)分析、安全風(fēng)險(xiǎn)監(jiān)控與評估等大數(shù)據(jù)應(yīng)用,應(yīng)采用海量數(shù)據(jù)實(shí)時(shí)分析的方法,確保大數(shù)據(jù)服務(wù)過程具有較高的安全性、質(zhì)量保證和可靠性。而對于離線統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、服務(wù)策略評估與優(yōu)化等實(shí)時(shí)性要求不高的大數(shù)據(jù)分析,則可采用離線數(shù)據(jù)分析的方法,在保證滿足系統(tǒng)管理和服務(wù)需求的前提下大幅度降低大數(shù)據(jù)分析成本[7]。
2.2.3 構(gòu)建科學(xué)、高效和經(jīng)濟(jì)的大數(shù)據(jù)分析中心
圖書館構(gòu)建科學(xué)、高效和經(jīng)濟(jì)的大數(shù)據(jù)分析中心,重點(diǎn)應(yīng)加強(qiáng)大數(shù)據(jù)分析中心架構(gòu)科學(xué)性、數(shù)據(jù)存儲效率和數(shù)據(jù)分析能力建設(shè)三部分內(nèi)容。
首先,圖書館大數(shù)據(jù)信息具有數(shù)據(jù)源多樣性、數(shù)據(jù)海量、數(shù)據(jù)傳輸時(shí)效性要求高和處理速度快的特點(diǎn)。因此,大數(shù)據(jù)分析中心架構(gòu)必須科學(xué)、開放、異構(gòu)、透明、跨平臺和具備智能化管理的功能,并擁有較高的IT架構(gòu)智慧管理、智能計(jì)算和低碳運(yùn)營能力,可通過智慧管理實(shí)現(xiàn)數(shù)據(jù)采集存儲、計(jì)算、分析、決策的精細(xì)化管理與資源最優(yōu)化配置。其次,隨著圖書館大數(shù)據(jù)資源總量和存儲標(biāo)準(zhǔn)的增長,圖書館應(yīng)依據(jù)大數(shù)據(jù)源位置、數(shù)據(jù)分析流程和數(shù)據(jù)流傳輸時(shí)延,構(gòu)建高性能的光纖通道存儲區(qū)域網(wǎng)絡(luò),滿足大數(shù)據(jù)平臺實(shí)時(shí)分析過程對數(shù)據(jù)高速即時(shí)傳輸?shù)男枨蟆M瑫r(shí),數(shù)據(jù)存儲應(yīng)采用虛擬化和分布式多節(jié)點(diǎn)存儲方法,將大數(shù)據(jù)資源存儲在位于不同地理位置的圖書館子數(shù)據(jù)中心里,在保證大數(shù)據(jù)資源準(zhǔn)確、可控和可快速更新的前提下,確保大數(shù)據(jù)資源存儲管理安全、高效、快捷和經(jīng)濟(jì)。第三,圖書館大數(shù)據(jù)分析能力的提升,是一個(gè)關(guān)系數(shù)據(jù)中心IT基礎(chǔ)設(shè)施架構(gòu)科學(xué)性、數(shù)據(jù)分析算法有效性、數(shù)據(jù)中心系統(tǒng)整體優(yōu)化、數(shù)據(jù)分析過程可視的綜合問題。因此,圖書館應(yīng)重點(diǎn)解決好大數(shù)據(jù)平臺計(jì)算資源管理與分配、分析算法科學(xué)性與可擴(kuò)展性、分析系統(tǒng)安全性與穩(wěn)定性、數(shù)據(jù)傳輸網(wǎng)絡(luò)效率、數(shù)據(jù)分析平臺的能耗與低碳等問題。此外,還應(yīng)加強(qiáng)大數(shù)據(jù)分析平臺的智能化與機(jī)器自我學(xué)習(xí)能力,保證分析系統(tǒng)可根據(jù)分析對象和內(nèi)容的變化,對分析算法和過程進(jìn)行智能的調(diào)整與優(yōu)化[8]。
2.2.4 確保大數(shù)據(jù)資源具有較高的安全、可用性
大數(shù)據(jù)環(huán)境下,只有保證大數(shù)據(jù)資源具有較高的安全、可用性,才能保證圖書館大數(shù)據(jù)分析過程安全、高效、可控和經(jīng)濟(jì),才能保證分析結(jié)果全面、準(zhǔn)確、可用和可對系統(tǒng)管理與用戶服務(wù)進(jìn)行實(shí)踐指導(dǎo)。
首先,圖書館在用戶行為與閱讀社會關(guān)系數(shù)據(jù)采集過程中,應(yīng)將讀者的個(gè)人隱私保護(hù)放在首要位置。讀者必須擁有對自身數(shù)據(jù)采集、存儲、分析和共享的知情權(quán)與決定權(quán),圖書館不能隨意監(jiān)測、采集、使用和泄露用戶隱私數(shù)據(jù)。其次,圖書館應(yīng)建立科學(xué)的大數(shù)據(jù)資源采集、存儲和分析流程,不斷提高存儲架構(gòu)科學(xué)性和分析過程可行性。同時(shí),應(yīng)通過對大數(shù)據(jù)資源的過濾和價(jià)值挖掘,不斷降低大數(shù)據(jù)資源總量并提高數(shù)據(jù)的價(jià)值密度,最終建立與讀者個(gè)性化服務(wù)相匹配的數(shù)據(jù)分析流程。此外,還應(yīng)防止大數(shù)據(jù)分析過程出現(xiàn)經(jīng)驗(yàn)主義和長官意志現(xiàn)象。第三,大數(shù)據(jù)資源的安全與可用性保障內(nèi)容,應(yīng)重點(diǎn)放在提高數(shù)據(jù)準(zhǔn)確性、存儲適用性、可搜索與查詢性、數(shù)據(jù)集可擴(kuò)展性與穩(wěn)定性四個(gè)方面,這樣才能確保數(shù)據(jù)采集、抽取、清理、分類管理、轉(zhuǎn)換和加載過程規(guī)范、標(biāo)準(zhǔn)化[9]。
大數(shù)據(jù)時(shí)代,讀者對圖書館個(gè)性化服務(wù)的內(nèi)容、模式和服務(wù)質(zhì)量有了更高的要求。同時(shí),大數(shù)據(jù)環(huán)境數(shù)據(jù)量與數(shù)據(jù)結(jié)構(gòu)復(fù)雜度的快速增長,也給圖書館大數(shù)據(jù)的準(zhǔn)確、高效、快速和深度分析帶來了挑戰(zhàn)。圖書館在大數(shù)據(jù)平臺數(shù)據(jù)分析能力建設(shè)中,應(yīng)堅(jiān)持以用戶需求和服務(wù)質(zhì)量保障為中心,重點(diǎn)加強(qiáng)在大數(shù)據(jù)資源采集、存儲、處理、分析和決策過程中的數(shù)據(jù)管理科學(xué)性與效率。同時(shí),在大幅度降低大數(shù)據(jù)資源總量和數(shù)據(jù)分析平臺系統(tǒng)負(fù)荷的前提下,不斷提高大數(shù)據(jù)分析平臺的系統(tǒng)結(jié)構(gòu)科學(xué)性、分析系統(tǒng)運(yùn)行效率、分析算法可用性和大數(shù)據(jù)資源的價(jià)值密度,確保大數(shù)據(jù)分析過程安全、高效、快速和經(jīng)濟(jì),為讀者個(gè)性化服務(wù)和圖書館智慧管理提供科學(xué)、全面、即時(shí)和可靠的大數(shù)據(jù)分析與決策支持[10]。
[1][英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:1-15.
[2]李晨暉,崔建明,陳超泉.大數(shù)據(jù)知識服務(wù)平臺構(gòu)建關(guān)鍵技術(shù)研究[J].情報(bào)資料工作,2013(2):29-34.
[3]張延松,焦敏,王占偉,等.海量數(shù)據(jù)分析的One-sizefits-all OLAP 技術(shù)[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1936-1946.
[4]覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析:RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報(bào),2012,23(1):32-45.
[5]漆晨曦.電信企業(yè)大數(shù)據(jù)分析、應(yīng)用及管理發(fā)展策略[J].電信科學(xué),2013(3):12-16.
[6]沈來信,王偉.基于Tree-Lib的大數(shù)據(jù)實(shí)時(shí)分析研究[J].計(jì)算機(jī)科學(xué),2013,40(6):192-196.
[7]Russom P.Big Data Analytics[R].Tdwi Best Practices Report.Fourth Quarter,2011:15-21.
[8]王柯柯,崔貫勛,倪偉,等.基于單元的快速的大數(shù)據(jù)集離群數(shù)據(jù)挖掘算法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2010,22(5):673-677.
[9]唐杰,楊洋.移動(dòng)社交網(wǎng)絡(luò)中的用戶行為預(yù)測模型[J].中國計(jì)算機(jī)學(xué)會通訊,2012,8(5):21-25.
[10]王珊,王會舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.