馬曉亭
(蘭州財經大學a.信息工程學院,b.電子商務綜合實驗室)
隨著高速移動互聯(lián)網、物聯(lián)網和云計算等技術的快速發(fā)展,以及這些技術在智慧圖書館中的廣泛應用,圖書館建設重心已轉變?yōu)榇髷祿h(huán)境下以滿足讀者需求為中心的智慧圖書館構建與讀者個性化智慧QoS(Quality of Service,服務質量)保障。
大數據環(huán)境下,圖書館數據中心的IT基礎設施設備、讀者閱讀終端設備、傳感器網絡、視頻監(jiān)控器、網絡傳輸設備、服務管理與監(jiān)控器等不間斷地產生海量數據,并具有海量(Volume)、多樣(Variety)、快速 (Velocity)、真實 (Veracity) 和低價值密度(Value)的5V特征。[1]在復雜、多變的數據環(huán)境中,圖書館如何通過科學的大數據可視化分析方法,將海量、多類型、枯燥和潛邏輯的數據映射為圖書館員可感知的圖形、顏色、符號等,是實現圖書館員人腦智能與計算機智能深度耦合,科學高效地構建智慧圖書館和提升圖書館個性化智慧服務能力,以及館員智慧、個體實踐經驗和大數據價值有效融合的關鍵。
目前,圖書館服務保障的重點已從傳統(tǒng)的以業(yè)務能力建設為中心,轉移到以滿足讀者閱讀需求為核心的QoS保證中。因此,如何從海量的大數據中挖掘數據價值,并將數據價值與圖書館員經驗相結合,有效提升讀者閱讀服務的智慧性、實時性和個性化水平,關系著圖書館智慧服務質量與讀者閱讀活動的滿意度。
首先,隨著計算機存儲與數據處理技術的快速發(fā)展,大數據的海量存儲與實時高速計算已不再是影響圖書館大數據應用的關鍵問題,如何通過對圖書館海量、多維度、多類型和多來源的大數據進行可視化展示與分析,實現計算機高速計算性能和圖書館員知識感知能力的融合,實時、全面地洞悉隱匿在大數據中的信息、知識與智慧,是提升智慧圖書館構建與智慧服務能力的關鍵。[2]其次,讀者的閱讀需求、數據中心IT服務系統(tǒng)運行環(huán)境和QoS評估標準等是隨著時間的推移而動態(tài)變化的,利用大數據可視化表現與分析展示,圖書館可構建出讀者需求與IT服務系統(tǒng)運行仿真環(huán)境,能夠支持圖書館決策層通過對可視化分析系統(tǒng)的動態(tài)瀏覽、交互與分析,有效提升大數據決策的科學性、可靠性和可執(zhí)行性。
如何在海量、多類型的復雜大數據環(huán)境中發(fā)現非結構化數據之間的相關性,并將數據之間的相關性、交互性和數據關系發(fā)展過程以可視化的方式自動呈現出來,是圖書館動態(tài)挖掘大數據中蘊藏的數據價值,并將數據價值轉化為知識運用到圖書館的管理、服務中,有效提升圖書館的管理科學性、效率和運營經濟性的關鍵。
在讀者個性化閱讀活動中,讀者的閱讀需求和滿意度評估標準是隨著圖書館服務環(huán)境、服務技術水平的變化而動態(tài)變化的,如果圖書館在大數據價值發(fā)現和服務決策中有較大的時間延遲,將會導致大數據決策結果的科學性、適用性和個性化服務水平下降。因此,只有提升大數據可視化分析的自動化水平,才能使圖書館決策科學性隨著服務環(huán)境和讀者閱讀需求的變化而動態(tài)調整,才能確保決策過程智慧化、自動化和個性化。此外,在保證大數據可視化分析科學性、效率、準確性和實時性的前提下,通過和云服務商簽署云服務租賃協(xié)議的方式將大數據可視化分析遷移到云端,可進一步提升圖書館可視化分析和決策活動的投資收益率,是關系圖書館可視化分析結果科學和廣泛實踐應用的重要因素。[3]同時,圖書館可視化分析具有涉及圖書館各業(yè)務部門、數據中心IT基礎設施不同設備和敏感大數據廣泛的特點,因此,在可視化分析過程中如何保證圖書館各項管理業(yè)務、IT設備和敏感數據安全,是保證圖書館IT系統(tǒng)安全性和服務可信度應重點關注的問題。
圖書館大數據環(huán)境具有5V特征,且在采集、傳輸、存儲、處理和分析大數據的過程中會融入一定數量的噪聲信號。因此,如何構建高效、實時、經濟和可控的大數據可視化分析系統(tǒng),是確保圖書館在海量、復雜、高維度和動態(tài)變化的大數據信號中發(fā)現數據價值和知識的必要前提。而且,圖書館大數據的采集對象廣泛,采集的數據總量呈指數級遞增且主要以流式數據形式存在,傳統(tǒng)的靜態(tài)、平面圖片展示方式不能表現出蘊藏在海量流式數據中的數據關系與價值,如何通過并行可視化算法將復雜的流式數據分解為多個簡單問題,并將數據分析結果以動態(tài)和可視化方式展示出來,是保證圖書館海量流式大數據動態(tài)發(fā)現、可讀和實時決策的關鍵。[4]此外,在多噪聲環(huán)境中,人類大腦對數據的處理和分析能力不能完全應對大數據海量、復雜和快速增長的挑戰(zhàn)。因此,如何通過可視化分析大幅提升圖書館員對復雜數據關系的可讀性,是將圖書館員人腦智能分析能力與超級計算機數據處理性能關聯(lián)起來的重要舉措。
人類獲取外界信息的方式有視覺、聽覺、觸覺、嗅覺、味覺等多種方法,但從信息獲取的效率和數量上看,大約有80%以上來自于視覺系統(tǒng)。因此,可視化分析依然是圖書館員從大數據中發(fā)現價值和獲取知識的最主要途徑。[5]圖書館大數據采集具有數據來源廣泛、結構復雜多樣和總量以指數級增長的特點,多樣化的數據采集方式必然導致海量數據物理信息空間構造的極度復雜性,這些數據除具有5V特征外,還具有數據動態(tài)產生、關系異構、多噪聲和可用性易變等特點,增加了圖書館大數據可視化分析的復雜度和難度。[6]此外,隨著圖書館業(yè)務類型和服務對象多樣化的發(fā)展,大數據可視化分析需求呈現出從決策層向管理層、用戶服務層快速延伸的趨勢,如何實現圖書館各業(yè)務部門、服務系統(tǒng)和用戶終端大數據的整合和共享,以及大數據在PC機、移動終端、物聯(lián)網設備上的可視化分析與顯示,是圖書館將大數據復雜關系和蘊藏價值以可視化方式展示,以及將數據可視化分析與決策結果運用于圖書館實時管理與讀者個性化服務的重要途徑。
圖書館大數據具有多類型和非結構化的特點,非結構化數據占據大數據總量的85%以上,且隨著大數據總量的高速增長,非結構化數據在大數據總量中的占比將進一步提升。[7]圖書館非結構化數據由視頻、音頻、圖像、表格、文本等組成,經大數據可視化分析系統(tǒng)的即時處理與分析,為圖書館決策提供動態(tài)的科學數據決策支持。因此,圖書館大數據可視化分析算法應具備將一個復雜難點問題分解為若干個可同時運行的獨立簡單問題的能力,支持將復雜分析結果以多維度方式顯示,并完全表現出大數據隱匿的價值和相關性。[8]
圖書館的不同部門、系統(tǒng)和用戶產生的大數據具有強相關特性,可視化分析系統(tǒng)必須尋找出這些數據間的關系并以可視化方式呈現,數據分析師在數據關系發(fā)現過程中難以剝離數據之間的關系而單獨顯示單一數據。此外,如果通過降低數據維度和相關性的方式來降低大數據可視化分析的復雜度,則會導致大數據中隱匿的部分信息、知識和數據價值丟失,最終影響圖書館大數據決策的科學性和可信度。
鑒于圖書館大數據的復雜特性和數據決策的實際需求,圖書館大數據可視化分析系統(tǒng)應堅持科學、實時、易用、可控、多種數據集成方式和多類型顯示模式的原則,完成對大數據的處理、融合、分析和顯示,并最終將數據特征轉換為圖形圖像,實現人機的智慧交互。[9]
首先,在圖書館大數據可視化分析系統(tǒng)的功能設計中,應確??梢暬治鱿到y(tǒng)能夠實現對圖書館IT系統(tǒng)運行現狀、系統(tǒng)資源使用效率和讀者服務需求宏觀實際的動態(tài)顯示,支持以三維動畫、圖像、圖表和語音等多媒體方式,實時展示圖書館的管理、運營與服務現狀,有效地提升圖書館決策層和普通館員決策、管理的科學性。[10]其次,大數據可視化分析系統(tǒng)運行應堅持科學、高效和全面的原則,對大數據進行融合分析,準確發(fā)現圖書館管理與服務的特點、規(guī)律和趨勢,提升圖書館員的洞察力和系統(tǒng)資源管控能力,并能夠依據讀者閱讀需求和IT服務系統(tǒng)資源使用現狀完成系統(tǒng)資源的部署、調度。再次,可視化分析系統(tǒng)應支持圖書館決策層、管理層和業(yè)務層的科學決策與應用服務需求,滿足圖書館不同部門的大數據查閱、分析、共享和人機交互操作需要,并將大數據分析結果以大屏、多屏等多模式操控方式顯示。
大數據時代,圖書館數據環(huán)境除具有數據總量以指數級快速遞增和數據相關性低的特點,傳統(tǒng)的數據可視化工具已不能滿足圖書館可視化決策對大數據庫快速抽取、準確篩選、科學分析、系統(tǒng)歸納和清晰展示的需求。大數據商業(yè)應用第一人維克托·邁爾·舍恩伯格在其名著《大數據時代》中描述“隨著大數據技術成為我們生活的一部分,我們應該開始從一個比以前更大、更全面的角度來理解事物”。[11]因此,圖書館在數據決策中應改變傳統(tǒng)的從有限數據中攫取小量精準數據的做法,而采用從海量大數據中全面獲取巨量相關數據的方式,全方面、多維度地解釋和表現圖書館大數據關系,并以可視化的方式動態(tài)顯示出來,不斷提升圖書館大數據決策的科學性、準確性和可用性。
數據可視化是指圖書館有效發(fā)現大數據之間的關系和挖掘數據價值,并將其以圖書館員可理解、識別的圖形、圖像等形式顯示,將其轉換成知識來支持圖書館不同業(yè)務部門、人員進行科學決策、管理和服務的過程。在圖書館大數據可視化分析系統(tǒng)的構建中,應堅持以大數據價值發(fā)現完全性和圖書館決策科學性保證為目的,分析主題的數據相關性,實現多個相關視圖的整合和多模式交互聯(lián)動的顯示,有效揭示海量多維度大數據之間蘊藏的復雜相關性,并以高分辨率的主從屏聯(lián)動、多屏聯(lián)動、自動翻屏等大屏模式顯示出來。本文設計的圖書館大數據可視化分析系統(tǒng)的組織結構與運行管理流程見下圖。
圖 圖書館大數據可視化分析系統(tǒng)
依據系統(tǒng)功能劃分,大數據可視化分析系統(tǒng)組織主要由源數據層、數據處理與質量管理、大數據計算、數據建模與挖掘、數據可視化分析、圖像可視化顯示、人類視覺與思維系統(tǒng)7部分組成。① 源數據層是初始大數據的采集層,主要實現對視頻監(jiān)控數據、傳感器網絡數據、圖書館運營數據、閱讀終端數據、讀者行為數據、服務器日志數據、監(jiān)控服務器數據的采集、臨時存儲、一級過濾和遠程傳輸等操作。② 數據處理與質量管理層通過大數據抽取、數據噪聲過濾與清洗、數據標準化處理、大數據融合等操作,提升圖書館大數據的相關性、價值密度和決策可用性,為大數據計算提供高質量與標準化的數據質量支持。③ 大數據計算主要依據大數據類型和決策目的的差別,劃分為流計算、批量計算、內存計算和查詢計算等幾部分,圖書館可依據大數據流的特點、數據決策對象和決策實時性需求等選擇正確的計算方式,在保證大數據決策科學性、高效性、實時性和經濟性的前提下,完成系統(tǒng)計算資源和效率的最優(yōu)化配置。[12]④ 數據建模與挖掘層通過定義、分析數據的要求和信息系統(tǒng),確定大數據庫需要管轄的范圍和數據的組織形式等,并對數據庫里的有關數據項進行定義,在將數據庫中的數據定義為明確的圖書館業(yè)務含義名稱后,進行大數據的價值挖掘和深度知識發(fā)現。⑤ 大數據可視化分析層基于數據建模與挖掘層支持,依次開展數據分析對象的主題與內容選擇、數據搜索與選擇、可視化分析控件管理、可視化數據分析模型構建、大數據多維度分析、分析結果的輸出與管理等操作,并將結果傳輸至可視化顯示系統(tǒng)。⑥ 圖像可視化顯示系統(tǒng)對上一層的分析結果進行視頻展示,展示過程必須具備直觀、實時和與決策者交互的特點。⑦ 人類視覺與思維系統(tǒng)通過對可視化顯示系統(tǒng)結果的識別、分析、判斷與決策,將從大數據中挖掘的數據價值、館員經驗與知識、館員智慧決策能力相融合,為圖書館的宏觀戰(zhàn)略決策、管理與運營、讀者服務提供科學的大數據決策服務。此外,圖書館管理員還可依據可視化分析對象的變化、可視化分析流程與模式構造特點、可視化顯示模式需求、可視化分析有效性等,對數據建模、數據價值挖掘、可視化分析流程、可視化顯示方式等進行反饋控制,不斷提升大數據可視化分析流程的科學性、知識發(fā)現效率和決策可用性。
3.3.1 提升大數據的價值密度與可視化決策可用性
如何在大數據中發(fā)現價值,并將其中隱匿的數據關系和價值以可視化方式呈現出來,是圖書館員將大數據價值轉換為知識,并與自身的經驗和智慧思維科學結合的關鍵步驟。[13]因此,在大數據可視化分析中,針對圖書館大數據多源和非結構化特點,如何實現大數據的交互、融合和動態(tài)展示是可視化分析應重點關注的問題。
在大數據可視化分析中,圖書館應與云服務商簽署云服務租賃協(xié)議,將大數據的存儲和計算遷移到云端,既可確保圖書館可視化分析系統(tǒng)具有較強的系統(tǒng)資源使用率和功能擴展性,又能依據圖書館數據決策需要實時顯示分析結果。此外,應由圖書館業(yè)務人員和大數據分析人員共同管理數據,根據圖書館可視化分析對大數據質量的要求而選擇、過濾和整合數據,不斷增強大數據的價值密度、可用性和可視化分析相關性,并降低大數據的維度,剔除數據離群值,提升數據可視化分析的精確性和決策實踐相關性。
3.3.2 可視化分析顯示系統(tǒng)應具備實時、動態(tài)和多屏顯示的功能
如何從大數據中挖掘數據價值,并以實時、動態(tài)和多屏的方式顯示出來,是有效提升圖書館員對數據知識的認知能力,并將數據知識與自身經驗和智慧決策能力相結合,實現圖書館管理和運營實時可視化科學決策的關鍵。
實時性決策是圖書館即時發(fā)現讀者閱讀需求變化趨勢,并通過制定動態(tài)的用戶服務策略來提升讀者閱讀收益和滿意度的有效措施,然而大數據環(huán)境大幅度增加了圖書館實時可視化分析的復雜度。因此,必須通過數據噪聲過濾、非相關性數據刪除、排序、壓縮和融合等方法,在減少大數據總體量的前提下提升數據相關性和價值密度,實時、快捷地揭示出大數據之間的關聯(lián)性和價值屬性,以此增強圖書館員對大數據可視化分析視圖知識獲取的直觀性和有效性。此外,大數據除具有空間和時間上的多維度特性外,還存在多變量、多模態(tài)、多類型和多模型的特點。因此,在大數據可視化分析中,圖書館除通過主屏顯示數據全體價值和關系分布外,還必須利用多屏聯(lián)動和自動翻屏等方式顯示數據關系的具體細節(jié),并支持用戶對分析內容的自助查詢、關聯(lián)分析、切換和縮放,有效提升圖書館員數據知識的獲取能力。
3.3.3 分析系統(tǒng)應具備強相關性數據選擇和多視覺數據交互的能力
確??梢暬瘺Q策結果與決策對象有較高的相關性,是增強圖書館大數據決策科學、可用的一個關鍵問題。首先,圖書館在可視化分析模型的構建中,應在海量、復雜和低相關性的數據中搜索和決策對象強相關性的數據。諸如在讀者閱讀需求預測和個性化服務內容的定制中,讀者的閱讀時間、內容、閱讀評價反饋、行為路徑、閱讀社會關系等高相關數據,大數據分析師既要在讀者的閱讀總體時序中刻畫出它們的數據關系網絡結構,又要分析出單一類型數據在讀者閱讀需求趨勢發(fā)展中的相關性,并為不同類型數據在可視化分析模型計算中動態(tài)分配影響因子,確保計算結果依據讀者閱讀興趣的發(fā)展而實時動態(tài)變化,不斷增強可視化分析結果的決策科學性和實踐實時相關性。其次,將復雜的可視化多維視圖降低維度和實現多視圖整合,是有效降低可視化視圖復雜度和增強知識發(fā)現效率的關鍵。大數據分析師應依據圖書館可視化分析目的和應用對象,將高維度海量數據劃分為若干個可視化決策相關數據群,以及將可視化分析需求在多個角度下形成若干個可視化分析結果,依據可視化決策高相關性的原則,通過大數據決策需求與視圖相關性完成若干個單一視圖的整合,最終實現高維度復雜視圖向多個低維度視圖的轉換,有效降低圖書館員在可視化視圖中知識發(fā)現的復雜度。再次,高效的可視化分析視圖的融合與關聯(lián)分析,是圖書館員完全挖掘數據知識和實現1+1>2的重要途徑。因此,圖書館應以大數據科學決策為中心,支持高相關數據在不同維度視圖和維度指標體系下的交流互動,從不同角度、層面清晰地發(fā)現大數據關系和蘊藏的知識,為圖書館決策提供可靠的可視化數據支持。
3.3.4 應依據大數據結構選擇正確的可視化分析方法
圖書館大數據的采集來源、方式具有復雜多樣性的特點,導致其數據在結構上具有異構和非結構化的特點,當前,非結構化數據占據圖書館大數據總量的85%以上,且隨著圖書館數據結構類型和數據環(huán)境復雜性的增長,非結構化數據占據圖書館大數據總量將快速遞增。[14]圖書館的非結構化數據主要由傳感器采集數據、IT設備運行數據、監(jiān)控服務器采集數據、視頻監(jiān)控數據、讀者閱讀行為數據、讀者社會關系數據、閱讀終端采集設備等組成,對非結構化數據噪聲過濾和標準化處理后,可依據非結構化數據與可視化分析的相關性,在數據總體時間序列軸上對高相關性數據進行選擇和抽取,并在可視化分析中重點關注大數據之間的時序行為趨勢、關系網絡結構、決策對象的相關性等關聯(lián)信息。
對于強時效性流數據的可視化分析,應將重點放在對流數據空間、時間維度的變化趨勢和相關性分析上,完全挖掘出流數據中隱匿的數據價值以及知識隨著時間變化的趨勢,實現流數據的實時處理和可視化分析結果的動態(tài)決策運用,防止流數據的價值總量隨著時間的推移而減少或者消亡。此外,流數據產生的數量和順序會隨著圖書館服務在時間軸上的推移而動態(tài)變化,隨機產生的流數據分析結果會導致圖書館服務決策對IT系統(tǒng)資源需求和使用量具有極強的不可預見性。因此,圖書館必須將大部分流數據存儲于大數據庫中,而將與圖書館實時決策相關性較強的流數據傳輸至可視化分析系統(tǒng)中,在確保可視化分析系統(tǒng)具有較低的IT系統(tǒng)資源使用量的前提下,大幅提升流數據決策的效率、速度、準確性和實時可用性。