馬曉亭
〔摘要〕數(shù)據(jù)整合對提高圖書館的數(shù)據(jù)處理與共享能力,進而提升數(shù)據(jù)有效性、可用性和優(yōu)化決策等能力有重要意義。本文提出了一種基于大數(shù)據(jù)的圖書館異構數(shù)據(jù)整合機制,該機制可提高圖書館大數(shù)據(jù)的利用效率,并有助于實現(xiàn)圖書館的信息資源整合。
〔關鍵詞〕大數(shù)據(jù);圖書館;異構數(shù)據(jù);整合機制
DOI:10.3969/j.issn.1008-0821.2015.08.010
〔中圖分類號〕G25076〔文獻標識碼〕A〔文章編號〕1008-0821(2015)08-0047-04
大數(shù)據(jù)時代已經(jīng)到來。圖書館通過對所采集的海量數(shù)據(jù)進行存儲和分析,實現(xiàn)了對讀者閱讀行為、情緒、習慣和服務需求的精確測量,制定出符合讀者服務需求、興趣和閱讀習慣的服務策略、產(chǎn)品,能夠為讀者提供基于大數(shù)據(jù)的個性化閱讀服務。目前,圖書館數(shù)據(jù)環(huán)境已具備海量(Volume)、多樣(Variety)、快速處理(Velocity)、高價值(Value)的大數(shù)據(jù)4V特征。隨著數(shù)據(jù)總量和數(shù)據(jù)結構復雜度的快速增長,如何通過數(shù)據(jù)整合來消除圖書館大數(shù)據(jù)資源不同來源、不同結構和不同定義格式等異構性,提高數(shù)據(jù)的價值密度、可用性、可控性、共享性和使用經(jīng)濟性,已經(jīng)成為圖書館應重點關注的問題。
1圖書館大數(shù)據(jù)整合的需求與挑戰(zhàn)
11大數(shù)據(jù)整合可有效弱化圖書館IT系統(tǒng)的多樣性
首先,隨著物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、傳感器和多媒體閱讀終端等技術的發(fā)展,圖書館數(shù)據(jù)中心的管理系統(tǒng)、服務系統(tǒng)和用戶閱讀終端設備,呈現(xiàn)出多平臺架構、多接口類型、多數(shù)據(jù)模式和多標準規(guī)范的特點,導致信息系統(tǒng)之間相互獨立和信息孤島呈現(xiàn)多維度特性。同時,大數(shù)據(jù)資源存在過度冗余存儲和數(shù)據(jù)不一致現(xiàn)象,使數(shù)據(jù)難以訪問、查詢、處理和分析,不能滿足圖書館大數(shù)據(jù)閱讀服務的分析和決策需求。其次,眾多的圖書館用戶服務系統(tǒng)分別構建于不同的時期,系統(tǒng)的結構模式、技術標準和管理方法差異性大。且不同系統(tǒng)之間存在集成度低、互聯(lián)性差、運行平臺不統(tǒng)一和信息管理分散的特點,嚴重影響了大數(shù)據(jù)的完整性、精確性、可用性和實時性。第三,圖書館復雜、多樣的管理與服務系統(tǒng),大幅增加了大數(shù)據(jù)資源的采集、存儲、挖掘、整合、分析和決策應用難度。
12大數(shù)據(jù)整合是圖書館提高云服務效率的保證
通過自建私有云或租賃云服務商服務的方式,為讀者提供安全、高效、經(jīng)濟、快捷的云閱讀服務,已成為圖書館云服務平臺構建的主要模式。
云計算環(huán)境下,圖書館通過和云服務商簽署云服務租賃協(xié)議的方式,由云服務商借助網(wǎng)絡以按需、易擴展的模式,為圖書館提供所需的云計算服務,圖書館根據(jù)服務的內(nèi)容、質(zhì)量和云資源使用量支付相應的費用。隨著云計算技術在圖書館管理與服務應用中的深入,云服務成本在圖書館運營總成本占據(jù)的比例將不斷上升。因此,如何通過數(shù)據(jù)整合有效降低大數(shù)據(jù)資源的數(shù)據(jù)總量和提高大數(shù)據(jù)價值密度,已成為關系如何降低圖書館云計算服務總成本和提升云服務收益率的關鍵。其次,在減少大數(shù)據(jù)存儲冗余度和數(shù)據(jù)總量的前提下,圖書館還可通過數(shù)據(jù)整合來增強大數(shù)據(jù)的關聯(lián)性和因果性,以此降低大數(shù)據(jù)分析過程對云計算平臺性能、云資源和應用實時性的需求。第三,大數(shù)據(jù)整合也是將云計算技術與讀者需求相整合,將圖書館大數(shù)據(jù)資源變成大服務資源的重要途徑。
13數(shù)據(jù)整合是圖書館大數(shù)據(jù)分析與決策可靠的保證伴隨大數(shù)據(jù)技術的發(fā)展,圖書館對讀者閱讀行為、閱讀模式、社會關系和閱讀活動反饋信息的采集將更加廣泛與深入,將導致大數(shù)據(jù)的來源和類型復雜化,數(shù)據(jù)總量也呈現(xiàn)級數(shù)激增和價值密度大幅下降的趨勢。同時,大數(shù)據(jù)的分析過程也會對圖書館技術人員的水平和數(shù)據(jù)處理平臺性能提出更高要求。因此,如何通過對大數(shù)據(jù)資源的清洗、集成和整合,不斷增強圖書館大數(shù)據(jù)資源的價值密度、可用性、可控性和應用經(jīng)濟性,已成為提升圖書館大數(shù)據(jù)平臺運營效率和降低平臺運行成本的關鍵。其次,對大數(shù)據(jù)資源的有效整合,也是關系圖書館完全挖掘、開發(fā)大數(shù)據(jù)價值,精確識別讀者服務需求、個性化特征、閱讀習慣,準確定位讀者大數(shù)據(jù)服務場景,以及優(yōu)化配置圖書館大數(shù)據(jù)服務系統(tǒng)資源的重要因素。第三,圖書館大數(shù)據(jù)資源具有海量、多源、異構和多類型的特點,而大數(shù)據(jù)整合過程是降低數(shù)據(jù)復雜度、消除數(shù)據(jù)異構性、提取數(shù)據(jù)價值和發(fā)現(xiàn)數(shù)據(jù)關聯(lián)的有效途徑。
14數(shù)據(jù)整合可消除大數(shù)據(jù)的分布異構性
為了分擔用戶服務負載和保證讀者閱讀活動的效率、質(zhì)量、時效性,圖書館通常會根據(jù)讀者群分布狀況,在世界不同地域建設若干個子數(shù)據(jù)中心,依據(jù)地理位置就近的原則為讀者提供大數(shù)據(jù)閱讀服務。在讀者大數(shù)據(jù)資源的采集中,位于不同地理位置的子數(shù)據(jù)中心在對大數(shù)據(jù)的采集、處理、分析和決策中,會由于數(shù)據(jù)具有較強的地域性面導致大數(shù)據(jù)的價值、應用效率下降。因此,如何實現(xiàn)位于世界不同地理位置的子數(shù)據(jù)中心數(shù)據(jù)資源的整合,是圖書館增強大數(shù)據(jù)應用整體效率和提升服務總體質(zhì)量的關鍵。此外,圖書館大數(shù)據(jù)資源的分布異構性,也是導致數(shù)據(jù)多樣性、非結構化、數(shù)據(jù)孤島和數(shù)據(jù)采集質(zhì)量等問題突出的根源,而數(shù)據(jù)整合正是有效解決這些問題的可靠方法和途徑。第三,在長期的圖書館建設與用戶服務過程中,圖書館自身積累、存儲了海量的元數(shù)據(jù)資源。由于歷史和現(xiàn)實等原因,不同的圖書館子數(shù)據(jù)中心在元數(shù)據(jù)的采集、處理、存儲和應用過程中,通常會采用各自不同的元數(shù)據(jù)標準和軟硬件平臺,會導致元數(shù)據(jù)在大數(shù)據(jù)應用過程中存在語義上的異構和互操作性差等問題。
15數(shù)據(jù)整合是提高大數(shù)據(jù)閱讀服務質(zhì)量的保證
大數(shù)據(jù)時代,圖書館通過監(jiān)控服務器、網(wǎng)關、嵌入式傳感器、RFID(Radio Frequency Identification,射頻識別)芯片、視頻采集設備和閱讀終端等設備,采集與讀者閱讀活動相關的信息和數(shù)據(jù)。這些大數(shù)據(jù)資源主要由文本、圖片、視頻等結構化和非結構化數(shù)據(jù)組成,并以每年40%的速度增長,是圖書館大數(shù)據(jù)決策和讀者個性化服務的主要依據(jù)[3]。endprint
大數(shù)據(jù)時代,隨著科技的發(fā)展和讀者閱讀需求的提高,圖書館之間的服務競爭已由傳統(tǒng)IT環(huán)境下依賴數(shù)據(jù)中心基礎設施性能、人力資源、數(shù)字與紙質(zhì)圖書資源消耗,轉變?yōu)橐揽看髷?shù)據(jù)制定圖書館差異化服務戰(zhàn)略,為讀者提供個性化服務的綜合能力競爭。因此,對大數(shù)據(jù)資源的有效整合,是圖書館減少服務業(yè)務質(zhì)量波動、提升讀者滿意度和增強市場競爭力的保障。此外,服務即時性也是關系讀者閱讀愉悅感的一個重要因素。圖書館可通過對大數(shù)據(jù)的高效整合,提升大數(shù)據(jù)分析的實時性和決策即時性,為讀者提供安全、實時、經(jīng)濟和交互的個性化推送服務。
2圖書館大數(shù)據(jù)資源整合方案與策略
21圖書館大數(shù)據(jù)資源整合方案
本文設計的圖書館大數(shù)據(jù)整合方案如圖1所示。該方案主要由大數(shù)據(jù)資源層、數(shù)據(jù)過濾與解析層、數(shù)據(jù)整合層和數(shù)據(jù)整合系統(tǒng)反饋控制層等4個功能層組成。大數(shù)據(jù)資源層主要由圖書館在讀者服務過程中采集的CRM(客戶關系管理)數(shù)據(jù)、服務系統(tǒng)運營與配置數(shù)據(jù)、讀者服務過程采集數(shù)據(jù)和主數(shù)據(jù)庫組成。這些大數(shù)據(jù)資源依據(jù)數(shù)據(jù)的采集來源、數(shù)據(jù)的類型、數(shù)據(jù)使用途徑和方法、數(shù)據(jù)訪問頻率等特點,分別存儲在大數(shù)據(jù)存儲平臺的客戶關系管理數(shù)據(jù)庫、系統(tǒng)管理數(shù)據(jù)庫、服務監(jiān)控數(shù)據(jù)庫和主數(shù)據(jù)庫等邏輯數(shù)據(jù)庫中,為圖書館大數(shù)據(jù)應用提供數(shù)據(jù)存儲與管理服務。數(shù)據(jù)過濾與解析層位于大數(shù)據(jù)資源層的上層,負責完成對圖書館大數(shù)據(jù)庫資源的提取、數(shù)據(jù)類型與正規(guī)性檢查、數(shù)據(jù)的清洗、數(shù)據(jù)的解析和準備等工作,主要目的為過濾大數(shù)據(jù)資源層數(shù)據(jù)的噪音和規(guī)范數(shù)據(jù)類型,不斷提高大數(shù)據(jù)資源的價值密度和可用性[4]。數(shù)據(jù)整合層是將臨時數(shù)據(jù)庫中已進行預清洗與過濾的數(shù)據(jù),通過數(shù)據(jù)源的讀取、數(shù)據(jù)轉換規(guī)則的解析和系統(tǒng)加載,將已轉換的數(shù)據(jù)寫入主數(shù)據(jù)庫的3個步驟,才能最終完成圖書館大數(shù)據(jù)資源的整合。大數(shù)據(jù)整合系統(tǒng)反饋控制層,通過對大數(shù)據(jù)分析與決策過程大數(shù)據(jù)應用有效性的評估,并借助數(shù)據(jù)整合系統(tǒng)的反饋控制,完成對數(shù)據(jù)整合層的反饋控制、資源調(diào)度和系統(tǒng)優(yōu)圖1圖書館大數(shù)據(jù)整合方案設計圖
化,不斷增強數(shù)據(jù)整合層的運行效率、數(shù)據(jù)整合可用性和整合過程的可控性。此外,圖書館還應對大數(shù)據(jù)整合全程實施監(jiān)控和管理,及時發(fā)現(xiàn)、調(diào)整、修改和完善數(shù)據(jù)整合過程中存在的問題與突發(fā)事件,保證大數(shù)據(jù)整合過程安全、高效、經(jīng)濟、便捷。
22圖書館大數(shù)據(jù)資源的整合管理策略
221實現(xiàn)數(shù)據(jù)在采集終端的過濾與整合
圖書館對用戶服務過程和讀者閱讀活動數(shù)據(jù)的采集,主要是由傳感器、視頻監(jiān)控器、服務器監(jiān)控系統(tǒng)、服務器日志采集系統(tǒng)和閱讀終端設備數(shù)據(jù)采集器等完成,該類設備具有設備類型復雜、數(shù)量龐大、數(shù)據(jù)采集即時和海量、數(shù)據(jù)傳輸網(wǎng)絡負載壓力大的特點。因此,如何在大數(shù)據(jù)采集終端完成對所采集數(shù)據(jù)資源的過濾與整合,是圖書館減少終端采集數(shù)據(jù)傳輸數(shù)量,降低數(shù)據(jù)沖突和減輕網(wǎng)絡擁塞,提高大數(shù)據(jù)分析與決策效率、可用性的關鍵。因此,圖書館可對所采集的海量原始數(shù)據(jù)進行終端過濾、處理和數(shù)據(jù)整合,去除其中的冗余信息并過濾數(shù)據(jù)噪音,僅將價值高、可控性強的數(shù)據(jù)傳輸至大數(shù)據(jù)庫存儲,實現(xiàn)降低數(shù)據(jù)源數(shù)據(jù)采集總量、提升數(shù)據(jù)價值密度、增強數(shù)據(jù)可用性和提高數(shù)據(jù)決策實時性的目標。
222實現(xiàn)圖書館不同業(yè)務平臺數(shù)據(jù)的整合
圖書館管理與用戶服務系統(tǒng)是由讀者管理、用戶服務與應用管理、服務系統(tǒng)配置與運營管理、CRM管理等多個具備獨立功能的子系統(tǒng)組成,系統(tǒng)之間相互獨立且關聯(lián)性不強,易導致數(shù)據(jù)在系統(tǒng)之間流動性差和產(chǎn)生數(shù)據(jù)孤島現(xiàn)象。因此,圖書館應加強對不同業(yè)務平臺系統(tǒng)數(shù)據(jù)的整合和價值提取。
首先,圖書館在對不同業(yè)務平臺數(shù)據(jù)的整合中,應堅持整合系統(tǒng)支持Oracle、DB2、SQLServer、MySQL、Informix等多數(shù)據(jù)源類型數(shù)據(jù),并且整合系統(tǒng)的程序接口也應支持javaApi、Hibernate數(shù)據(jù)源和WebService、 SOA等標準的數(shù)據(jù),不斷提高數(shù)據(jù)整合系統(tǒng)對不同業(yè)務平臺數(shù)據(jù)的兼容性[5]。其次,應提升數(shù)據(jù)整合系統(tǒng)對不同數(shù)據(jù)平臺數(shù)據(jù)之間的關聯(lián)性挖掘、發(fā)現(xiàn)能力,可通過異構系統(tǒng)之間數(shù)據(jù)的關聯(lián)而發(fā)現(xiàn)、創(chuàng)造新的數(shù)據(jù)價值。第三,圖書館不同業(yè)務平臺數(shù)據(jù)具有海量、多結構類型、數(shù)據(jù)庫存儲結構固定、不易于直接分析和決策的特點。因此,應將數(shù)據(jù)的ETL(Extract-Transform-Load,數(shù)據(jù)從來源端經(jīng)過萃取、轉置和加載至目的端的過程)過程融入不同業(yè)務平臺數(shù)據(jù)的整合中去。應將從不同數(shù)據(jù)平臺抽取出的數(shù)據(jù)經(jīng)過ETL過程,最終按照預先定義好的數(shù)據(jù)倉庫模型將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去,最終提高多平臺數(shù)據(jù)整合后的可分析、使用和決策特性。
223重點關注與第三方大數(shù)據(jù)平臺數(shù)據(jù)的整合
大數(shù)據(jù)時代,讀者個性化服務由圖書館、云服務提供商、移動通信運營商和相關政府機構等多部門協(xié)作提供。圖書館只有實現(xiàn)對多部門數(shù)據(jù)的全面、高效整合,才能二次發(fā)現(xiàn)、提升圖書館大數(shù)據(jù)資源的價值,才能更加精準地發(fā)現(xiàn)讀者需求,才能有效提高圖書館讀者服務綜合收益率。例如,圖書館通過對移動運營商數(shù)據(jù)的整合與分析,可準確預測出讀者在未來時間的移動路徑和閱讀需求、模式,精確評估出圖書館在未來時段的服務負載和數(shù)據(jù)網(wǎng)絡傳輸負荷,可有針對性地制定出服務資源調(diào)度和數(shù)據(jù)傳輸網(wǎng)絡管理策略,確保在未來時段不會因為讀者需求的快速增長,而導致系統(tǒng)服務資源、網(wǎng)絡傳輸效率、用戶QOS(服務質(zhì)量)和讀者閱讀活動滿意度等指標大幅下降[6]。其次,圖書館應在保證政府數(shù)據(jù)安全、可用的前提下,加強與政府公共大數(shù)據(jù)資源的開放、共享和整合力度,進一步提高圖書館大數(shù)據(jù)庫資源的完整性、可用性和價值量,為圖書館建設和用戶服務提供宏觀層面上的大數(shù)據(jù)服務支持。第三,在圖書館大數(shù)據(jù)資源與第三方數(shù)據(jù)整合中,存在著各部門業(yè)務結構相對獨立、數(shù)據(jù)所有權歸屬、數(shù)據(jù)接口復雜和數(shù)據(jù)交換頻繁的問題。因此,圖書館與第三方的數(shù)據(jù)整合,不僅要滿足當前各方數(shù)據(jù)庫特性、數(shù)據(jù)端口標準、大數(shù)據(jù)應用與決策的需求,還應從長遠發(fā)展考慮,重點加強多方大數(shù)據(jù)集成的系統(tǒng)架構、數(shù)據(jù)整合能力和所采用整合技術等方面的建設。endprint
224實現(xiàn)大數(shù)據(jù)的安全、高效整合
圖書館大數(shù)據(jù)整合過程的安全管理,是關系讀者個人隱私保護、圖書館管理與服務數(shù)據(jù)安全、第三方共享大數(shù)據(jù)資源可用和政府公共數(shù)據(jù)可控的重要保證。首先,圖書館應依據(jù)國家相關法律制定安全的大數(shù)據(jù)存儲與整合策略,在堅持數(shù)據(jù)完全整合和數(shù)據(jù)價值二次挖掘、發(fā)現(xiàn)的前提下,保護好讀者隱私和讀者大數(shù)據(jù)閱讀服務安全。此外,不能因為多方大數(shù)據(jù)資源的完全整合,而影響第三方服務商、政府等部門大數(shù)據(jù)資源的開放性、可用性和可控性。其次,圖書館應加強對大數(shù)據(jù)整合IT基礎架構系統(tǒng)的安全建設與管理。同時,應依據(jù)大數(shù)據(jù)整合生命周期發(fā)展規(guī)律,做好大數(shù)據(jù)平臺設備的安全管理和數(shù)據(jù)存儲工作,嚴格控制大數(shù)據(jù)整合風險,確保不會因數(shù)據(jù)整合而影響圖書館業(yè)務的連續(xù)性和可持續(xù)發(fā)展性[7]。第三,圖書館大數(shù)據(jù)整合應重點做好數(shù)據(jù)整合與數(shù)據(jù)集中存儲、整合系統(tǒng)的可擴展與易維護、整合過程的安全與可靠性、整合過程的經(jīng)濟性與成本可控性管理等4個方面的工作,保證大數(shù)據(jù)整合過程安全、高效、經(jīng)濟和便捷。
3結語
對大數(shù)據(jù)資源的過濾和整合,是圖書館對大數(shù)據(jù)資源價值進行二次挖掘、發(fā)現(xiàn)和創(chuàng)造的重要方式,也是圖書館增強大數(shù)據(jù)資源價值密度、提高決策科學性和提升讀者閱讀滿意度的重要途徑。在大數(shù)據(jù)資源的整合中,圖書館應采取數(shù)據(jù)層面的整合、信息層面的整合、知識層面的整合三步走原則,堅持統(tǒng)一數(shù)據(jù)庫、統(tǒng)一整合程序、統(tǒng)一IT基礎設施資源、統(tǒng)一數(shù)據(jù)傳輸網(wǎng)絡平臺、統(tǒng)一技術管理人員的做法,努力降低大數(shù)據(jù)的整合成本、IT基礎設施硬件管理與使用成本、數(shù)據(jù)整合過程復雜度,才能保證圖書館大數(shù)據(jù)整合過程安全、高效、實時和經(jīng)濟,才能提高大數(shù)據(jù)資源的價值總量、密度、可用性和可控性,才能為讀者大數(shù)據(jù)閱讀服務提供可靠的大數(shù)據(jù)決策支持。
參考文獻
王元卓,靳小龍,程學旗.網(wǎng)絡大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學報,2013,36(6):1125-1138.
姜山,王剛.大數(shù)據(jù)對圖書館的啟示[J].圖書館工作與研究,2013,(4):52-54,79.
[3]康健,左憲章,唐力偉,等.無線傳感器網(wǎng)絡數(shù)據(jù)融合技術.計算機科學,2010,37(4):31-35.
[4]史久根,張加廣.基于壓縮感知的無線傳感器網(wǎng)絡數(shù)據(jù)融合算法[J].計算機系統(tǒng)應用,2014,23(10):178-182.
[5]張杰,胡一兵,李亮,等.多傳感器數(shù)據(jù)融合技術應用研究[J].測試技術學報,2013,27(6):490-495.
[6]歐石燕,胡珊,張帥.本體與關聯(lián)數(shù)據(jù)驅動的圖書館信息資源語義整合方法及其測評[J].圖書情報工作,2014,58(2):5-13.
[7]吳,謝樹泉,王春枝.基于語義的隧聯(lián)網(wǎng)數(shù)據(jù)整合方法[J].智能系統(tǒng)學報,2014,9(6):209-213.
(本文責任編輯:馬卓)endprint