崔 迪,郭小燕,陳 為
(1.寧波工程學(xué)院 電子與信息工程學(xué)院,浙江 寧波 315211; 2.計算機輔助設(shè)計與圖形學(xué)國家重點實驗室(浙江大學(xué)),杭州 310058;3.甘肅農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,蘭州 730070) (*通信作者電子郵箱guoxy@gsau.edu.cn)
大數(shù)據(jù)可視化的挑戰(zhàn)與最新進展
崔 迪1,2,郭小燕3*,陳 為2
(1.寧波工程學(xué)院 電子與信息工程學(xué)院,浙江 寧波 315211; 2.計算機輔助設(shè)計與圖形學(xué)國家重點實驗室(浙江大學(xué)),杭州 310058;3.甘肅農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,蘭州 730070) (*通信作者電子郵箱guoxy@gsau.edu.cn)
大數(shù)據(jù)的來臨增強了可視化的重要性??梢暬治鐾诰蛉祟悓τ谛畔⒌恼J知能力與優(yōu)勢,將人、機有機融合,借助人機交互高效洞悉大數(shù)據(jù)背后的信息與規(guī)律,是大數(shù)據(jù)分析的重要方法。針對大數(shù)據(jù)數(shù)據(jù)量大、維度高、多來源、多形態(tài)等特點論述了大規(guī)模數(shù)據(jù)、流數(shù)據(jù)、非結(jié)構(gòu)和異構(gòu)數(shù)據(jù)的可視化方法。首先討論了大規(guī)模數(shù)據(jù)的可視化技術(shù):1)采用分而治之的原則將大問題分解成較小的任務(wù)并采用并行處理的方式解決以提高處理的速度;2)通過聚合、采樣、多分辨表示的方法進行數(shù)據(jù)約簡;3)針對高維數(shù)據(jù)選擇若干個視圖,在多個角度下生成不同的可視化結(jié)果。然后針對監(jiān)控型、疊加型兩類流數(shù)據(jù)探討了流數(shù)據(jù)的可視化過程。最后闡述了非結(jié)構(gòu)化數(shù)據(jù)以及異構(gòu)性數(shù)據(jù)的可視化技術(shù)??傊梢暬軌蚩朔嬎銠C自動化分析方法的劣勢與不足,整合計算機的分析能力和人們對信息的感知能力,有效地洞悉大數(shù)據(jù)背后的信息與智慧,但其理論研究成果也非常有限,同時面臨著數(shù)據(jù)規(guī)模大、動態(tài)變化、維度高、多源異構(gòu)等方面的挑戰(zhàn),這些也逐漸成為今后的大數(shù)據(jù)可視化研究的熱點與方向。
大數(shù)據(jù);可視化;挑戰(zhàn);可視分析;進展
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)及云計算的興起,人類社會朝著數(shù)字化、信息化的方面發(fā)展,導(dǎo)致各種智能移動設(shè)備、傳感器、電子商務(wù)網(wǎng)站、社交網(wǎng)絡(luò)每時每刻都產(chǎn)生類型結(jié)構(gòu)各異的巨量數(shù)據(jù)[1]。區(qū)別于傳統(tǒng)的數(shù)據(jù),“容量大”“結(jié)構(gòu)復(fù)雜”的“大數(shù)據(jù)”背后隱藏著知識與智慧,并為人類理解世界和社會提供了新的契機[2]。由于移動互聯(lián)網(wǎng)技術(shù)與信息獲取的不斷發(fā)展和逐漸成熟,真實世界和虛擬世界密不可分,信息的產(chǎn)生和流動瞬息萬變,不斷累積形成了大規(guī)模的物理信息空間(Cyber-Physical System, CPS),其中包含海量的信息數(shù)據(jù),如視頻影像、三維時空、傳感器網(wǎng)絡(luò)、地理信息[3]、網(wǎng)絡(luò)日志、社交網(wǎng)絡(luò)[4]等。這些數(shù)據(jù)真實反映了現(xiàn)實世界和社會空間的運行演化過程,但往往淹沒在冗余龐雜的數(shù)據(jù)海洋之中。有效處理它們的挑戰(zhàn)不僅體現(xiàn)在數(shù)據(jù)容量大、維度高、多態(tài)、多源,更重要的是數(shù)據(jù)的動態(tài)獲取、數(shù)據(jù)關(guān)系異構(gòu)和異質(zhì)性、數(shù)據(jù)內(nèi)容噪聲和矛盾等。只有通過深入分析才能發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,通常數(shù)據(jù)分析的過程離不開機器與人的相互協(xié)作與互補。人類從外界獲得的信息約有80%以上來自于視覺系統(tǒng)[5-6],一圖勝千言,當(dāng)大數(shù)據(jù)以直觀的可視化圖形方式展現(xiàn)時,利用人眼的感知能力可洞悉數(shù)據(jù)背后隱藏的信息,并可將其轉(zhuǎn)化為知識。
可視化是利用人眼感知能力和人腦智能,對數(shù)據(jù)進行交互的可視表達,以增強認知的一門學(xué)科[7],將難以直接顯示或不可見的數(shù)據(jù)映射為可感知的圖形、顏色、紋理、符號等,以提高數(shù)據(jù)識別效率并高效傳遞有用信息[8]。它的起源、發(fā)展、演變與人類文明的進展密切相關(guān)。在計算機發(fā)明之前,科學(xué)家采用繪畫的方式記錄觀測到的物理現(xiàn)象[9],統(tǒng)計學(xué)家采用圖表方式統(tǒng)計采樣數(shù)據(jù)[10],測繪學(xué)家采用地圖標記空間方位與屬性。進入計算機時代后,信息技術(shù)與人類政治、經(jīng)濟、軍事、科研、生活進行不斷交叉整合催生了大數(shù)據(jù)的誕生,對于復(fù)雜的數(shù)據(jù),人類利用高性能的計算機往往不能理解其含義,但借助圖形常?!耙谎邸本湍茏R別。數(shù)據(jù)可視分析是大數(shù)據(jù)分析不可或缺的重要手段與工具,將人腦智能與機器智能相結(jié)合,將“只可意會,不可言傳”的人類知識和個性化經(jīng)驗可視地融入到整個數(shù)據(jù)分析和推理決策過程中,使得數(shù)據(jù)的復(fù)雜度逐步降低到人腦和機器智能可處理的范圍。近年來國內(nèi)外一些學(xué)者致力于不同領(lǐng)域的大數(shù)據(jù)可視化研究,并取得了相應(yīng)的研究成果,Itoh等[11]對交通數(shù)據(jù)進行可視分析,Murthy等[12]對社交媒體數(shù)據(jù)進行可視分析,李偉等[13]對交通網(wǎng)絡(luò)客流大數(shù)據(jù)進行可視化研究,可視化逐漸成為大數(shù)據(jù)分析重要途徑,然而,這些研究并未深入地結(jié)合人機交互理論和技術(shù),因此很難全面地支持可視分析的人機交互過程。大數(shù)據(jù)本身的新特點也對可視分析提出了更為迫切的需求與更加嚴峻的挑戰(zhàn)。
總體而言,當(dāng)前對大數(shù)據(jù)可視分析在技術(shù)上得到了一些發(fā)展,但理論上尚未成熟。本文從大數(shù)據(jù)的3個重要特點:大規(guī)模[14]、快速變化[15]、非結(jié)構(gòu)性和異構(gòu)性三個方面,解析大數(shù)據(jù)可視化的特點和挑戰(zhàn)。
大數(shù)據(jù)可視化的研究將在整個大數(shù)據(jù)框架下展開,且呈現(xiàn)3個主要趨勢:
1)對象正從傳統(tǒng)的單一數(shù)據(jù)來源擴展到多來源、多尺度、多維度等廣泛數(shù)據(jù)。
大數(shù)據(jù)面臨數(shù)據(jù)規(guī)模大、數(shù)據(jù)變化快、數(shù)據(jù)類型多、價值密度低4個挑戰(zhàn)[16]。工業(yè)界和相關(guān)研究領(lǐng)域開始利用海量數(shù)據(jù)存儲和數(shù)據(jù)并行計算等技術(shù),解決數(shù)據(jù)規(guī)模大、維度高等技術(shù)難題[17],促進了大數(shù)據(jù)可視化應(yīng)用于更多研究領(lǐng)域。
2)用戶正從少數(shù)專家用戶擴展到廣泛的不特定群體。
在大數(shù)據(jù)時代和新媒體時代,分析理解數(shù)據(jù)的需求從傳統(tǒng)的科研人員和商業(yè)用戶延伸到社會化媒體和每位信息消費者。可視化的廣譜性和易用性使得在Web、移動端、互聯(lián)網(wǎng)及物聯(lián)網(wǎng)等新型環(huán)境下開發(fā)便于普通用戶使用操作、可擴展的可視化系統(tǒng)是大數(shù)據(jù)可視化的發(fā)展趨勢之一。
3)可視化和可視分析在大數(shù)據(jù)與數(shù)據(jù)科學(xué)的框架下進行。
可視化包含數(shù)據(jù)變換、數(shù)據(jù)呈現(xiàn)和數(shù)據(jù)交互[18]三個重要部分。從數(shù)據(jù)處理流程來看,可視化是數(shù)據(jù)中暴露給用戶并與數(shù)據(jù)打交道的接口,利用數(shù)據(jù)整合、數(shù)據(jù)挖掘[19]、數(shù)據(jù)搜索、多用戶協(xié)作[20]、知識管理、網(wǎng)絡(luò)傳輸[21]、Web化、移動化等面向大數(shù)據(jù)的可視化方法實現(xiàn)符合大數(shù)據(jù)特性的可視化和可視分析,并貫穿整個數(shù)據(jù)處理的生命周期。
大規(guī)模數(shù)據(jù)主要體現(xiàn)在多維度(multi-dimensional)、多變量(multi-variable)、多模態(tài)(multi-modal)、多趟(multi-run)、多模型(multi-model)。全方位顯示規(guī)模數(shù)據(jù)的細節(jié)是一個數(shù)據(jù)和計算密集型的問題。大規(guī)模計算集群(如分布式多核計算集群、GPU+CPU混合架構(gòu)集群等)是處理大規(guī)模數(shù)據(jù)的基本技術(shù)。大規(guī)模數(shù)據(jù)的高清可視化需要高分辨率的顯示設(shè)備、大屏幕拼接系統(tǒng),或者高精度的大屏幕投影拼接技術(shù)的支持,大規(guī)模數(shù)據(jù)的可視化方法主要有分而治之的并行計算、數(shù)據(jù)約簡、多視角數(shù)據(jù)交互三種方案。
2.1 分而治之的并行計算
對于大規(guī)模、流數(shù)據(jù)采用分而治之的原則采用并行計算的方式進行可視化是一種可行有效的方法[22-23]。對于一個大的問題,將其分成多個更小的問題,針對每個較小的問題采用并行處理的方式分別解決以提高處理的速度,再把小問題的處理結(jié)果組合起來,即得到原問題的解決方案,如圖1[24]所示,采用分而治之的原則解決大規(guī)??臻g數(shù)據(jù)的可視化問題。
圖1 分而治之的并行可視化方法
2.2 數(shù)據(jù)的約簡
正文內(nèi)容為提升大規(guī)模數(shù)據(jù)可視化效果,在保留數(shù)據(jù)信息、準確性的基礎(chǔ)上對數(shù)據(jù)進行必要的約簡是可視化的一項重要內(nèi)容,數(shù)據(jù)約簡主要有3種方式[25]:
1)聚合。對于多維度數(shù)據(jù),采用數(shù)據(jù)立方上鉆下取的方式,將部分維度轉(zhuǎn)換為統(tǒng)計數(shù)據(jù)(如均值、最大最小值等)以降低原始數(shù)據(jù)的維度。如圖2所示,利用NanoCubes等基于數(shù)據(jù)維度聚合和統(tǒng)計的大數(shù)據(jù)可視化查詢工具[26]在對46 GB的Twitter數(shù)據(jù)進行維度約簡,實現(xiàn)在筆記本電腦上進行流暢統(tǒng)計與可視化查詢。
圖2 基于預(yù)處理多維層次結(jié)構(gòu)的NanoCubes方法
2)采樣。為在給定分辨率的視圖中實現(xiàn)預(yù)覽式可視化,需將高精度數(shù)據(jù)采樣為低分辨率,其難點在于如何從大規(guī)模數(shù)據(jù)中獲得符合原始數(shù)據(jù)的分布和特性,以保持原有數(shù)據(jù)的知識與信息。如圖3采用多類藍噪聲[27]方法對散點圖進行簡化采樣,保持點分布和多類之間的對比,可視展現(xiàn)了NBA球隊投籃信息。
3)多分辨率表示。采用層次結(jié)構(gòu)重新組織規(guī)模數(shù)據(jù),并結(jié)合多種用戶交互方法(如層次細節(jié)、聚焦+上下文)實現(xiàn)單一視角下的自適應(yīng)分辨率選擇或多個視角的光滑切換,例如圖4展示了地圖可視化[28]。
2.3 多視角數(shù)據(jù)交互
針對高維規(guī)模數(shù)據(jù),可選擇若干個視圖,在多個角度下生成不同的可視化結(jié)果[29],并對其管理、配準、分析等,如同對一個三維空間物體進行多視角攝影,生成一系列圖像,對該物體進行視覺理解、建模與分析。多視角數(shù)據(jù)交互的優(yōu)點是將高維規(guī)模數(shù)據(jù)的維度約簡到低維(二維或三維)空間,降低用戶交互及分析可視化的復(fù)雜度,如圖5。
圖3 基于多類藍噪聲采樣的散點圖簡化法
圖4 美國沃爾瑪全國分布圖
圖5 采樣數(shù)值數(shù)據(jù)的多個視圖
時間是一個非常重要的維度和屬性。帶有時間屬性、隨著時間發(fā)生變化的數(shù)據(jù)稱為時變數(shù)據(jù)。在科學(xué)、工程、社會和經(jīng)濟領(lǐng)域,每時每刻都在產(chǎn)生大量有序數(shù)據(jù),在時間序列中,每個數(shù)據(jù)實例都可以看作某個事件,事件的時間可當(dāng)成一個變量[30]。
流數(shù)據(jù)是一類典型的時變數(shù)據(jù),數(shù)據(jù)以“連續(xù)數(shù)據(jù)流”的形式動態(tài)地出現(xiàn)。常見的流數(shù)據(jù)有:網(wǎng)絡(luò)數(shù)據(jù)(傳輸包、日志、警報等)、移動通信日志、金融數(shù)據(jù)(如股票交易)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、高性能集群系統(tǒng)日志、社交數(shù)據(jù)等。近年來研究和使用流數(shù)據(jù)的可視化和分析成為研究熱點[31]。在電子商務(wù)(如阿里巴巴集團的安全風(fēng)控業(yè)務(wù))、實時監(jiān)控、反恐安全、互聯(lián)網(wǎng)金融等領(lǐng)域?qū)α鲾?shù)據(jù)研究與分析顯得尤為重要[32]。與傳統(tǒng)的數(shù)據(jù)處理方法相比,流數(shù)據(jù)的處理有以下特點[33]:
1)數(shù)據(jù)流的潛在尺寸無限;
2)需對在線到達的數(shù)據(jù)元素進行實時處理,否則數(shù)據(jù)價值可能隨時間而降低;
3)難以掌控數(shù)據(jù)元素的流入順序和到達數(shù)量,每次進入的數(shù)據(jù)順序不一定相同,且數(shù)量時多時少;
4)某個元素被處理后,或被丟棄,或被歸檔存儲;
5)對流數(shù)據(jù)的查詢異?,F(xiàn)象以及相似類型較為耗時,人工檢測日志乏味且易出現(xiàn)錯誤。
流數(shù)據(jù)可視化并沒有固定的模型,通常按處理目的和方法的不同有不同的模型,參照Rajaraman等[31]對流數(shù)據(jù)處理方法,將流數(shù)據(jù)可視化分為兩個步驟:
1)數(shù)據(jù)流進入流處理器后,將大部分原始數(shù)據(jù)保存在歸檔數(shù)據(jù)庫中,將其他關(guān)鍵數(shù)據(jù)保存可視化來源數(shù)據(jù)庫中。
2)關(guān)鍵數(shù)據(jù)進入可視化處理器后經(jīng)過可視映射和布局等可視化過程轉(zhuǎn)化為可視化輸出,最后呈現(xiàn)給用戶,并設(shè)計用戶模塊以實現(xiàn)可視布局的基本交互功能[34-35]、輸出內(nèi)容的可視檢索功能[36]、自定義數(shù)據(jù)的定制功能[37-38]。
流數(shù)據(jù)可視化按功能可以分為兩種可視化類型:監(jiān)控型與疊加型。監(jiān)控型使用滑動窗口固定某個時間區(qū)間,轉(zhuǎn)化流數(shù)據(jù)為靜態(tài)數(shù)據(jù),并以刷新方式更新數(shù)據(jù),屬于局部分析。疊加型將新生數(shù)據(jù)可視映射到原歷史數(shù)據(jù)的可視化結(jié)果上,并以漸進方式更新。
1)監(jiān)控型。
系統(tǒng)日志監(jiān)控流數(shù)據(jù)反映一臺機器或一個計算集群的系統(tǒng)性能。分析大規(guī)模計算集群日志數(shù)據(jù)能夠監(jiān)控和理解多維度數(shù)據(jù)的變化趨勢以及模式復(fù)雜等問題[39-40]。在工業(yè)界有Splunk、Loggly、Flume等多種系統(tǒng)日志監(jiān)控工具;學(xué)術(shù)界則有類似的從實時的社交媒體數(shù)據(jù)等流數(shù)據(jù)中提取事件并可視化出來的CityBeat[41]、LeadLine[42]、Eventweet[43]。這些工具在系統(tǒng)底層插入腳本,獲得性能數(shù)據(jù),再利用信息檢索工具或折線圖、條形圖等基本統(tǒng)計圖表得到系統(tǒng)性能的概要分析。如圖6[31]所示,針對云計算集群監(jiān)控流數(shù)據(jù)分析的可視化系統(tǒng)對多源信息收集清理并建模。對這些數(shù)據(jù)采用多種方式(如時序圖、樹圖、平行坐標等)可視化,提供狀態(tài)監(jiān)控、趨勢監(jiān)測、異常報警定位等分析手段。
圖6 面向計算集群監(jiān)控日志流數(shù)據(jù)的可視化系統(tǒng)
2)疊加型。
StreamIt[44]是在線新聞流的可視化工具,它結(jié)合動態(tài)力引導(dǎo)布局、自動話題建模技術(shù)展現(xiàn)了新聞的發(fā)展和演變。用戶可以對新聞事件進行動態(tài)聚類,細節(jié)探索以及新聞動態(tài)演變探索等交互操作,并按用戶感興趣的關(guān)鍵詞和話題對事件進行檢索,從而觀察熱門事件的爆發(fā)和演變。在StreamIt系統(tǒng)用戶通過自定義關(guān)鍵詞的權(quán)重對新聞進行重聚類和重布局,通過分配顏色對感興趣的關(guān)鍵詞所對應(yīng)的事件進行追蹤。圖7中將2010年2月到8月的新聞事件進行了可視化,并聚為若干類。
數(shù)據(jù)量的持續(xù)增長和數(shù)據(jù)流中自帶的噪聲給疊加型數(shù)據(jù)可視化帶來了挑戰(zhàn)。如何幫助分析人員迅速定位并理解關(guān)鍵信息,是當(dāng)下熱門的時序事件可視化研究的焦點。關(guān)于這個問題,EventFlow 給出了一種通過聚類、過濾、變換等方式簡化信息的方法,相關(guān)實驗證明該方法可以將大型數(shù)據(jù)集的視覺復(fù)雜度降低到80%以上[45]。
圖7 StreamIT系統(tǒng)概覽
除數(shù)據(jù)的容量、維度特性外,非結(jié)構(gòu)性和數(shù)據(jù)源的異構(gòu)性也影響數(shù)據(jù)的規(guī)模與復(fù)雜性。
4.1 非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù),如社交網(wǎng)站和自媒體數(shù)據(jù)、傳感器記錄、電子商務(wù)數(shù)據(jù)等,通常采用數(shù)據(jù)挖掘方法分析內(nèi)在模式,并抽取結(jié)構(gòu)化信息。典型的非結(jié)構(gòu)化數(shù)據(jù)有文本數(shù)據(jù)、日志數(shù)據(jù)、時間戳等。文本數(shù)據(jù)可采用文本信息挖掘方法抽取特征,進而對抽取的文本特征進行設(shè)計和可視化。日志由網(wǎng)絡(luò)多用戶交互產(chǎn)生,如微博中的消息轉(zhuǎn)發(fā)回復(fù)日志、電子商務(wù)中的買賣家交易日志等。每筆交易日志包含的維度有賣家賬戶、買家賬號、賣家所在地、買家所在地、交易類目、交易數(shù)量、付款方式等。對日志數(shù)據(jù)進行可視分析的目的在于找出交易中的頻繁出現(xiàn)的商業(yè)模式,如促銷與虛假交易。分析交易日志數(shù)據(jù)常采用決策樹,需要關(guān)注用戶的總體時序行為趨勢、關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)、單個用戶的交互特征以及大量交互間的時序關(guān)聯(lián)和上下文關(guān)聯(lián)信息。VAET系統(tǒng)[46]提出了一個結(jié)合數(shù)據(jù)挖掘和非結(jié)構(gòu)化數(shù)據(jù)可視化的可視分析方法。首先基于決策樹方法顯著度表征對特定用戶交易所感興趣的概率,再將計算得到的顯著度投影到時間顯著度圖中。分析師可對時間顯著度圖中所選的數(shù)據(jù)使用多層結(jié)構(gòu)進行組織,進一步使用音符式可視化(如圖8)。
4.2 異構(gòu)數(shù)據(jù)
同一個數(shù)據(jù)集中結(jié)構(gòu)或?qū)傩圆煌臄?shù)據(jù)稱為異構(gòu)數(shù)據(jù)。存在多種不同類別的節(jié)點和連接的網(wǎng)絡(luò)為異構(gòu)網(wǎng)絡(luò),異構(gòu)數(shù)據(jù)可視化的關(guān)鍵在于合理呈現(xiàn)不同屬性的數(shù)據(jù)。通用的異構(gòu)數(shù)據(jù)可視化方法[47]將數(shù)據(jù)屬性自動地對應(yīng)到相應(yīng)的可視化屬性中,自動根據(jù)數(shù)據(jù)所具備的屬性找到最優(yōu)的可視化方法和屬性與之間的匹配,用戶不需解決可視化與數(shù)據(jù)之間的對應(yīng)關(guān)系問題。
異構(gòu)數(shù)據(jù)通??刹捎镁W(wǎng)絡(luò)結(jié)構(gòu)進行表達。文獻[48]介紹了基本異構(gòu)社交網(wǎng)絡(luò)的本體拓撲結(jié)構(gòu),表達了恐怖組織網(wǎng)絡(luò)中的九種不同類別的節(jié)點:恐怖組織、恐怖分子、國家和地區(qū)、組織分類、法律案件、恐怖攻擊、攻擊目標、手段和武器,但由于數(shù)據(jù)量大和復(fù)雜度高,將所有數(shù)據(jù)直接用網(wǎng)絡(luò)點線圖的方法可視化并不是非常有效(如圖9(a)),解決方法是從異構(gòu)網(wǎng)絡(luò)提煉出本體拓撲結(jié)構(gòu)(如圖9(b)),其中的節(jié)點為原網(wǎng)絡(luò)中的節(jié)點類別,而連接則為各個類別的節(jié)點之間可能存在的聯(lián)系。以這個拓撲結(jié)構(gòu)作為可視分析的輔助導(dǎo)航,分析師可以選擇特定類別的節(jié)點和連接加入到可視化視圖中,達到過濾的效果。
圖8 海量在線電子商務(wù)交易日志的可視分析系統(tǒng)VAET
圖9 異構(gòu)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)提取
數(shù)據(jù)的異構(gòu)性大部分來自于不同的數(shù)據(jù)源獲取方式[49]。例如,手機用戶數(shù)據(jù)集中不僅包括了來自手機跟蹤軟件的點對點通話記錄、GPS位置數(shù)據(jù)和手機使用數(shù)據(jù),也包括來自用戶問卷調(diào)查的手機用戶的個人信息。這些來自不同數(shù)據(jù)源的數(shù)據(jù)通常具有不同的數(shù)據(jù)模型、數(shù)據(jù)類型和命名方法等。除了在可視化視圖中將異構(gòu)數(shù)據(jù)有效結(jié)合外,在數(shù)據(jù)可視化和分析之前對異構(gòu)數(shù)據(jù)進行整合至關(guān)重要。數(shù)據(jù)整合為可視化模塊從眾多獨立和異構(gòu)的數(shù)據(jù)源獲取數(shù)據(jù)提供了統(tǒng)一和透明的訪問接口,使得用戶可以不關(guān)心數(shù)據(jù)來源和結(jié)構(gòu)進行自由的可視。例如谷歌公司的知識圖譜[50]、臉譜公司的OpenGraph[51]等項目的目的是整合與挖掘在線知識或人脈資源,為用戶提供快捷易用的查詢和分析功能。異構(gòu)數(shù)據(jù)整合和可視化的代表性軟件有Palantir的Gotham模塊和IBM i2軟件。Palantir的核心要素是采用本體論建立萬事萬物的關(guān)聯(lián),對應(yīng)用領(lǐng)域相關(guān)的事務(wù)進行基于本體的建模、操作、管理、關(guān)聯(lián)、分析、推理和可視化。Palantir系統(tǒng)包括5大功能模塊:
1)算法引擎。支持各類數(shù)據(jù)變換算法,支持PB級數(shù)據(jù)的并行處理。
2)數(shù)據(jù)集成。支持異構(gòu)、多源、非結(jié)構(gòu)化數(shù)據(jù)的集成。
3)查詢、發(fā)現(xiàn)和分析。支持關(guān)聯(lián)、時序、地理空間、統(tǒng)計、行為、預(yù)測和網(wǎng)絡(luò)分析。
4)知識管理。支持對用戶獲得的知識的管理。
5)協(xié)同分析。支持異地、無網(wǎng)絡(luò)用戶、Web用戶的協(xié)同分析任務(wù),共享消息、主體對象和分析結(jié)果。
可視化是大數(shù)據(jù)分析的重要方法,能夠有效地克服計算機自動化分析方法的劣勢與不足,整合計算機的分析能力和人們對信息的感知能力,利用認識理論、人機交互技術(shù)輔助人們直觀有效地洞悉大數(shù)據(jù)背后的信息、知識與智慧,強調(diào)人類感知與計算機系統(tǒng)的深度耦合。本文針對大數(shù)據(jù)數(shù)據(jù)量大、維度高、多來源、多形態(tài)等特點論述了大規(guī)模數(shù)據(jù)、流數(shù)據(jù)、非結(jié)構(gòu)和異構(gòu)數(shù)據(jù)的可視化方法。
當(dāng)前,大數(shù)據(jù)可視化與可分析不斷受到國內(nèi)外研究學(xué)得的重視,也出現(xiàn)了許多大數(shù)據(jù)可視化研究工作者與優(yōu)秀的研究團隊,但理論研究成果也非常有限,同時面臨著如下挑戰(zhàn):
1)數(shù)據(jù)尺度大,已超越單機、外存模型甚至小型計算集群處理能力的極限,而當(dāng)前軟件和工具運行效率不高,需探索全新思路解決該問題;
2)在數(shù)據(jù)獲取與分析處理過程中,易產(chǎn)生數(shù)據(jù)質(zhì)量問題,需特別關(guān)注數(shù)據(jù)的不確定性;
3)數(shù)據(jù)快速動態(tài)變化,常以流式數(shù)據(jù)形式存在,需尋找流數(shù)據(jù)的實時分析與可視化方法;
4)面臨復(fù)雜高維數(shù)據(jù),當(dāng)前的軟件系統(tǒng)以統(tǒng)計和基本分析為主,分析能力不足;
5)多源數(shù)據(jù)的類型和結(jié)構(gòu)各異,已有方法在非結(jié)構(gòu)化、異構(gòu)數(shù)據(jù)方面支持不足,網(wǎng)絡(luò)數(shù)據(jù)可視化分析是推理求解異構(gòu)數(shù)據(jù)內(nèi)在關(guān)系的最重要方法。
以上5個方面是大數(shù)據(jù)可視化面臨的挑戰(zhàn),同時也逐漸成為今后的大數(shù)據(jù)可視化研究的熱點與方向,相關(guān)科研人員將進一步開展深入細致的研究,有望在可視化分析與高效數(shù)據(jù)處理等問題上獲得更大突破。
References)
[1] 作磊,杜一,馬帥.大數(shù)據(jù)分析綜述[J].軟件學(xué)報,2014,25(9):1909-1930.(ZUO L, DU Y, MA S. Review on big data analysis [J]. Journal of Software, 2014,25(9): 1909-1930.)
[2] TONY H.第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)[M].潘教峰,張曉林,譯.北京:科學(xué)出版社,2012:58-62.(TONY H. The Forth Paradigm: Data-Intensive Scientific Discovery [M]. PAN J F, ZHANG X L, translated. Beijing: Science Press, 2012: 58-62.)
[3] CORRELL M, HEER J. Surprise! Bayesian weighting for de-biasing thematic maps [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 651-660.
[4] KUSUMA P Y C, SUMPENO S, WIBAWA A D. Social media analysis of BPS data availability in economics using decision tree method [C]// ICITISEE 2016: Proceedings of the 1st International Conference on Information Technology, Information Systems and Electrical Engineering. Piscataway, NJ: IEEE, 2016: 148-153.
[5] 任磊.信息可視化中的交互技術(shù)研究[D].北京:中國科學(xué)院,2009:38-40.(REN L. Research on interaction techniques in information visualization [D]. Beijing: Chinese Academy of Sciences, 2009: 38-40.)
[6] CARD S K, MACKINLAY J D, SHNEIDERMAN B. Readings in Information Visualization: Using Vision to Think [M]. San Francisco: Morgan-Kaufmann Publishers, 1999: 1-712.
[7] MUNZNER T. Visualization analysis and design [J]. Wiley Interdisciplinary Reviews Computational Statistics, 2015, 2(4): 387-403.
[8] CHARLES D H, CHRIS J. The Visualization Handbook [M]. New York: Academic Press, 2004: 76-85.
[9] EDWARD R T. The Visual Display of Quantitative Information [M]. New York: Graphics Press, 1992: 98-100.
[10] LELAND W. The Grammar of Graphics[M]. Berlin: Springer, 2005: 25-28.
[11] ITOH M, YOKOYAMA D, TOYODA M, et al. Visual fusion of mega-city big data: an application to traffic and tweets data analysis of metro passengers [C]// Proceedings of the 2014 IEEE International Conference on Big Data. Piscataway, NJ: IEEE, 2014: 431-440.
[12] MURTHY D, GROSS A, MCGARRY M. Visual social media and big data, interpreting instagram images posted on Twitter [J]. Digital Culture & Society, 2016, 2: 12-15.
[13] 李偉,周峰,朱煒,等.軌道交通網(wǎng)絡(luò)客流大數(shù)據(jù)可視化研究[J].中國鐵路,2015(2):94-98.(LI W, ZHOU F, ZHU W, et al. Visualization of large passenger flow data in rail transit network [J]. China Railways, 2015(2): 94-98.
[14] 陳為,張嵩,魯愛東.數(shù)據(jù)可視化的基本原理與方法[M].北京:科學(xué)出版社,2013:77-82.(CHEN W, ZHANG S, LU A D. The Basic Principle and Method of Data Visualization [M]. Beijing: Science Press, 2013: 77-82.
[15] KIM M, KANG K, PARK D, et al. TopicLens: efficient multi-level visual topic exploration of large-scale document collections [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 151-160.
[16] MANYIKA J, CHUI M. Big Data: The Next Frontier for Innovation, Competition, and Productivity [M]. San Francisco: McKinsey Global Institute, 2011: 92-95.
[17] IBM. What is big data? -Bringing big data to the enterprise [EB/OL]. [2016- 12- 10]. http://www- 01.ibm.com/software/data/bigdata.
[18] FENG M, DENG C, PECK E M, et al. HindSight: encouraging exploration through direct encoding of personal interaction history [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 351-360.
[19] HUANG T H, CHEN L B. Decision support for the QoS-aware 4G mobile networks through data mining [C]// Proceedings of the IEEE 5th Global Conference on Consumer Electronics. Piscataway, NJ: IEEE, 2016: 1-2.
[20] LAW P M, WU W, ZHENG Y, et al. VisMatchmaker: cooperation of the user and the computer in centralized matching adjustment [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 231-240.
[21] TIAN J, ZHANG H, WU D, et al. Interference-aware cross-layer design for distributed video transmission in wireless networks [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(5): 978-991.
[22] GUHA S, HAFEN R, ROUNDS J, et al. Large complex data: divide and recombine (D&R) with RHIPE [J]. Stat, 2012, 1(1): 53-67.
[23] GUHA, S, KIDWELL P, HAFEN R P, et al. Visualization databases for the analysis of large complex datasets [J]. Journal of Machine Learning Research, 2009, 5: 193-200.
[24] VO H T, BRONSON J, SUMMA B, et al. Parallel visualization on large clusters using MapReduce [C]// Proceedings of the 2011 IEEE Symposium on Large Data Analysis and Visualization. Piscataway, NJ: IEEE, 2011: 81-88.
[25] LIU Z C, JIANG B Y, HEER J. Real-time visual querying of big data [J]. Computer Graphics Forum, 2013, 32(3): 421-430.
[26] LINS L, KLOSOWSKI J T, SCHEIDEGGER C. Nanocubes for real-time exploration of spatiotemporal datasets [J]. IEEE Transactions on Visualization & Computer Graphics, 2013, 19(12): 2456-2465.
[27] CHEN H D, CHEN W, MEI H H, et al. Visual abstraction and exploration of multi-class scatterplots [J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 1683-1692.
[28] Github Group. Walmart locations all hexed up [EB/OL]. [2016- 06- 12]. http://indiemaps.github.io/hexbin-js/tests/walmart.html.
[29] AL-DOHUKI S, WU Y, KAMW F, et al. SemanticTraj: a new approach to interacting with massive taxi trajectories [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 11-19.
[30] 陳為,沈則潛,陶煜波.數(shù)據(jù)可視化[M].北京:電子工業(yè)出版社,2013:302-305.(CHEN W, SHEN Z Q, TAO Y B. Data Visualization [M]. Beijing: Publishing House of Electronics Industry, 2013: 302-305.)
[31] RAJARAMAN A, LESKOVEC J. Mining of Massive Datasets [M]. London: Cambridge Uiversity Press, 2012: 109-112.
[32] ZIKOPOULOS P, EATON C. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data [M]. London: McGraw-Hill Osborne Media, 2011: 126-135.
[33] KRSTAJIC M, KEIM D A. Visualization of streaming data: Observing change and context in information visualization techniques [C]// Proceedings of the 2013 IEEE International Conference on Big Data. Piscataway, NJ: IEEE, 2013: 41-47.
[34] ALSAKRAN J, CHEN Y, ZHAO Y, et al. STREAMIT: dynamic visualization and interactive exploration of text streams [C]// Proceedings of the 2011 IEEE Pacific Visualization Symposium. Piscataway, NJ: IEEE, 2011: 131-138.
[35] VONG K, RASMEQUAN S, CHINNASARN K, et al. Empirical modelling for dynamic visualization of ICU patient data streams [C]// Proceedings of the 2015 IEEE Biomedical Engineering International Conference. Piscataway, NJ: IEEE, 2015: 1-5.
[36] WANG F, CHEN W, WU F, et al. A visual reasoning approach for data-driven transport assessment on urban roads [C]// Proceedings of the 2014 IEEE Conference on Visual Analytics Science and Technology. Piscataway, NJ: IEEE, 2014: 103-112.
[37] DANG T N, ANAND A, WILKINSON L. TimeSeer: scagnostics for high-dimensional time series [J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(3): 470-483.
[38] PALOMO C, GUO Z, SILVA C T, et al. Visually exploring transportation schedules [J]. IEEE Transactions on Visualization and Computer Graphics, 2016, 22(1): 170-179.
[39] TAN J, PAN X, KAVULYA S, et al. Mochi: visual log-analysis based tools for debugging Hadoop [C]// Proceedings of the 2009 ACM HotCloud Conference. New York: ACM, 2009: 99-103.
[40] KAVULYA S, TAN J, GANDHI R, et al. An analysis of traces from a production MapReduce cluster [C]// Proceedings of the 2010 IEEE/ACM International Conference on Cluster, Cloud and Grid Computing. Washington, DC: IEEE Computer Society, 2010: 94-103.
[41] XIA C, SCHWARTZ R, XIE K, et al. CityBeat: real-time social media visualization of hyper-local city data [C]// Proceedings of the 23rd International Conference on World Wide Web. New York: ACM, 2014: 167-170.
[42] DOU W, WANG X, SKAU D, et al. Leadline: interactive visual analysis of text data through event identification and exploration [C]// Proceedings of the 2012 IEEE Conference on Visual Analytics Science and Technology. Piscataway, NJ: IEEE, 2012: 93-102.
[43] ABDELHAQ H, SENGSTOCK C, GERTZ M. Eventweet: online localized event detection from Twitter [J]. Proceedings of the VLDB Endowment, 2013, 6(12): 1326-1329.
[44] ALSAKRAN J, CHEN Y, LUO D, et al. Real-time visualization of streaming text with a force-based dynamic system [J]. IEEE Computer Graphics & Applications, 2012, 32(1): 34-45
[45] MONROE M, LAN R, LEE H, et al. Temporal event sequence simplification [J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2227-2236.
[46] XIE C, CHEN W, HUANG X X, et al. VAET: a visual analytics approach for E-transactions time-series [J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 1743-1751.
[47] CAMMARANO M, DONG X L, CHAN B, et al. Visualization of heterogeneous data [J]. IEEE Transactions on Visualization & Computer Graphics, 2007, 13(6): 1200-1207.
[48] SHEN Z, MA K L, ELIASSI-RAD T. Visual analysis of large heterogeneous social networks by semantic and structural abstraction [J]. IEEE Transactions on Visualization & Computer Graphics, 2006, 12(6): 1427-1439.
[49] 阮彤,王昊奮,陳為.大數(shù)據(jù)技術(shù)前沿[M].北京:電子工業(yè)出版社,2016:87-92.(RUAN T, WANG H F, CHEN W. Big Data Technology Frontier [M]. Beijing: Publishing House of Electronics Industry, 2016: 87-92.)
[50] NICHOLAS M. Google’s knowledge graph [EB/OL]. [2016- 04- 24]. http://wenku.baidu.com/link?url=4oUGek3uxnlt0ismi0AXMuH8rl9xY1tva7n7p_rLiCYC_vSFixqE2UfoFI7CpS1QwSPOEUZcDt2XXXx4pP1lyeqlfzhugYmKGjll5f82kie.
[51] ABHISHEK G. Object meta tags for facebook open graph protocol [EB/OL]. [2016- 06- 24]. https://thecustomizewindows.com/2013/06/object-meta-tags-for-facebook-open-graph-protocol.
This work is partially supported by the National Natural Science Foundation of China (61422211).
CUIDi, born in 1985, Ph. D. candidate, lecturer. Her research interests include big data analysis, intelligent information processing.
GUOXiaoyan, born in 1976, Ph. D., associate professor. Her research interest includes intelligent optimization algorithm.
CHENWei, born in 1976, Ph. D., professor. His research interest includes visualization.
Challengesandrecentprogressinbigdatavisualization
CUI Di1,2, GUO Xiaoyan3*, CHEN Wei2
(1.CollegeofElectronicandInformationEngineering,NingboUniversityofTechnology,NingboZhejiang315211,China;2.StateKeyLaboratoryofComputerAidedDesignandComputerGraphics(ZhejiangUniversity),HangzhouZhejiang310058,China;3.CollegeofInformationScienceandTechnology,GansuAgriculturalUniversity,LanzhouGansu730070,China)
The advent of big data era elicits the importance of visualization. As an import data analysis method, visual analytics explores the cognitive ability and advantages of human beings, integrates the abilities of human and computer, and gains insights into big data with human-computer interaction. In view of the characteristics of large amount of data, high dimension, multi-source and multi-form, the visualization method of large scale data was discussed firstly: 1) divide and rule principle was used to divide big problem into a number of smaller tasks, and parallel processing was used to improve the processing speed; 2) the means of aggregation, sampling and multi-resolution express were used to reduce data; 3) multi-view was used to present high dimensional data. Then, the visualization process of flow data was discussed for the two types of flow data, which were monitoring and superposition. Finally, the visualization of unstructured data and heterogeneous data was described. In a word, the visualization could make up for the disadvantages and shortcomings of computer automatic analysis, integrate computer analysis ability and human perception of information, and find the information and wisdom behind big data effectively. However, the research results of this theory are very limited, and it is faced with the challenge of large scale, dynamic change, high dimension and multi-source heterogeneity, which are becoming the hot spot and direction of large data visualization research in the future.
big data; visualization; challenge; visual analysis; progress
TP391.1
:A
2017- 01- 13;
:2017- 03- 10。
國家自然科學(xué)基金資助項目(61422211)。
崔迪(1985—),女,浙江寧波人,講師,博士研究生,CCF會員,主要研究方向:大數(shù)據(jù)分析、智能信息處理; 郭小燕(1976—),女,甘肅天水人,副教授,博士,CCF會員,主要研究方向:智能優(yōu)化算法; 陳為(1976—),男,浙江杭州人,副教授,博士,CCF會員,主要研究方向:可視化。
1001- 9081(2017)07- 2044- 06
10.11772/j.issn.1001- 9081.2017.07.2044