崔 迪,郭小燕,陳 為
(1.寧波工程學(xué)院 電子與信息工程學(xué)院,浙江 寧波 315211; 2.計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室(浙江大學(xué)),杭州 310058;3.甘肅農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,蘭州 730070) (*通信作者電子郵箱guoxy@gsau.edu.cn)
大數(shù)據(jù)可視化的挑戰(zhàn)與最新進(jìn)展
崔 迪1,2,郭小燕3*,陳 為2
(1.寧波工程學(xué)院 電子與信息工程學(xué)院,浙江 寧波 315211; 2.計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室(浙江大學(xué)),杭州 310058;3.甘肅農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,蘭州 730070) (*通信作者電子郵箱guoxy@gsau.edu.cn)
大數(shù)據(jù)的來臨增強(qiáng)了可視化的重要性??梢暬治鐾诰蛉祟悓?duì)于信息的認(rèn)知能力與優(yōu)勢(shì),將人、機(jī)有機(jī)融合,借助人機(jī)交互高效洞悉大數(shù)據(jù)背后的信息與規(guī)律,是大數(shù)據(jù)分析的重要方法。針對(duì)大數(shù)據(jù)數(shù)據(jù)量大、維度高、多來源、多形態(tài)等特點(diǎn)論述了大規(guī)模數(shù)據(jù)、流數(shù)據(jù)、非結(jié)構(gòu)和異構(gòu)數(shù)據(jù)的可視化方法。首先討論了大規(guī)模數(shù)據(jù)的可視化技術(shù):1)采用分而治之的原則將大問題分解成較小的任務(wù)并采用并行處理的方式解決以提高處理的速度;2)通過聚合、采樣、多分辨表示的方法進(jìn)行數(shù)據(jù)約簡(jiǎn);3)針對(duì)高維數(shù)據(jù)選擇若干個(gè)視圖,在多個(gè)角度下生成不同的可視化結(jié)果。然后針對(duì)監(jiān)控型、疊加型兩類流數(shù)據(jù)探討了流數(shù)據(jù)的可視化過程。最后闡述了非結(jié)構(gòu)化數(shù)據(jù)以及異構(gòu)性數(shù)據(jù)的可視化技術(shù)??傊?,可視化能夠克服計(jì)算機(jī)自動(dòng)化分析方法的劣勢(shì)與不足,整合計(jì)算機(jī)的分析能力和人們對(duì)信息的感知能力,有效地洞悉大數(shù)據(jù)背后的信息與智慧,但其理論研究成果也非常有限,同時(shí)面臨著數(shù)據(jù)規(guī)模大、動(dòng)態(tài)變化、維度高、多源異構(gòu)等方面的挑戰(zhàn),這些也逐漸成為今后的大數(shù)據(jù)可視化研究的熱點(diǎn)與方向。
大數(shù)據(jù);可視化;挑戰(zhàn);可視分析;進(jìn)展
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)及云計(jì)算的興起,人類社會(huì)朝著數(shù)字化、信息化的方面發(fā)展,導(dǎo)致各種智能移動(dòng)設(shè)備、傳感器、電子商務(wù)網(wǎng)站、社交網(wǎng)絡(luò)每時(shí)每刻都產(chǎn)生類型結(jié)構(gòu)各異的巨量數(shù)據(jù)[1]。區(qū)別于傳統(tǒng)的數(shù)據(jù),“容量大”“結(jié)構(gòu)復(fù)雜”的“大數(shù)據(jù)”背后隱藏著知識(shí)與智慧,并為人類理解世界和社會(huì)提供了新的契機(jī)[2]。由于移動(dòng)互聯(lián)網(wǎng)技術(shù)與信息獲取的不斷發(fā)展和逐漸成熟,真實(shí)世界和虛擬世界密不可分,信息的產(chǎn)生和流動(dòng)瞬息萬變,不斷累積形成了大規(guī)模的物理信息空間(Cyber-Physical System, CPS),其中包含海量的信息數(shù)據(jù),如視頻影像、三維時(shí)空、傳感器網(wǎng)絡(luò)、地理信息[3]、網(wǎng)絡(luò)日志、社交網(wǎng)絡(luò)[4]等。這些數(shù)據(jù)真實(shí)反映了現(xiàn)實(shí)世界和社會(huì)空間的運(yùn)行演化過程,但往往淹沒在冗余龐雜的數(shù)據(jù)海洋之中。有效處理它們的挑戰(zhàn)不僅體現(xiàn)在數(shù)據(jù)容量大、維度高、多態(tài)、多源,更重要的是數(shù)據(jù)的動(dòng)態(tài)獲取、數(shù)據(jù)關(guān)系異構(gòu)和異質(zhì)性、數(shù)據(jù)內(nèi)容噪聲和矛盾等。只有通過深入分析才能發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值,通常數(shù)據(jù)分析的過程離不開機(jī)器與人的相互協(xié)作與互補(bǔ)。人類從外界獲得的信息約有80%以上來自于視覺系統(tǒng)[5-6],一圖勝千言,當(dāng)大數(shù)據(jù)以直觀的可視化圖形方式展現(xiàn)時(shí),利用人眼的感知能力可洞悉數(shù)據(jù)背后隱藏的信息,并可將其轉(zhuǎn)化為知識(shí)。
可視化是利用人眼感知能力和人腦智能,對(duì)數(shù)據(jù)進(jìn)行交互的可視表達(dá),以增強(qiáng)認(rèn)知的一門學(xué)科[7],將難以直接顯示或不可見的數(shù)據(jù)映射為可感知的圖形、顏色、紋理、符號(hào)等,以提高數(shù)據(jù)識(shí)別效率并高效傳遞有用信息[8]。它的起源、發(fā)展、演變與人類文明的進(jìn)展密切相關(guān)。在計(jì)算機(jī)發(fā)明之前,科學(xué)家采用繪畫的方式記錄觀測(cè)到的物理現(xiàn)象[9],統(tǒng)計(jì)學(xué)家采用圖表方式統(tǒng)計(jì)采樣數(shù)據(jù)[10],測(cè)繪學(xué)家采用地圖標(biāo)記空間方位與屬性。進(jìn)入計(jì)算機(jī)時(shí)代后,信息技術(shù)與人類政治、經(jīng)濟(jì)、軍事、科研、生活進(jìn)行不斷交叉整合催生了大數(shù)據(jù)的誕生,對(duì)于復(fù)雜的數(shù)據(jù),人類利用高性能的計(jì)算機(jī)往往不能理解其含義,但借助圖形常?!耙谎邸本湍茏R(shí)別。數(shù)據(jù)可視分析是大數(shù)據(jù)分析不可或缺的重要手段與工具,將人腦智能與機(jī)器智能相結(jié)合,將“只可意會(huì),不可言傳”的人類知識(shí)和個(gè)性化經(jīng)驗(yàn)可視地融入到整個(gè)數(shù)據(jù)分析和推理決策過程中,使得數(shù)據(jù)的復(fù)雜度逐步降低到人腦和機(jī)器智能可處理的范圍。近年來國(guó)內(nèi)外一些學(xué)者致力于不同領(lǐng)域的大數(shù)據(jù)可視化研究,并取得了相應(yīng)的研究成果,Itoh等[11]對(duì)交通數(shù)據(jù)進(jìn)行可視分析,Murthy等[12]對(duì)社交媒體數(shù)據(jù)進(jìn)行可視分析,李偉等[13]對(duì)交通網(wǎng)絡(luò)客流大數(shù)據(jù)進(jìn)行可視化研究,可視化逐漸成為大數(shù)據(jù)分析重要途徑,然而,這些研究并未深入地結(jié)合人機(jī)交互理論和技術(shù),因此很難全面地支持可視分析的人機(jī)交互過程。大數(shù)據(jù)本身的新特點(diǎn)也對(duì)可視分析提出了更為迫切的需求與更加嚴(yán)峻的挑戰(zhàn)。
總體而言,當(dāng)前對(duì)大數(shù)據(jù)可視分析在技術(shù)上得到了一些發(fā)展,但理論上尚未成熟。本文從大數(shù)據(jù)的3個(gè)重要特點(diǎn):大規(guī)模[14]、快速變化[15]、非結(jié)構(gòu)性和異構(gòu)性三個(gè)方面,解析大數(shù)據(jù)可視化的特點(diǎn)和挑戰(zhàn)。
大數(shù)據(jù)可視化的研究將在整個(gè)大數(shù)據(jù)框架下展開,且呈現(xiàn)3個(gè)主要趨勢(shì):
1)對(duì)象正從傳統(tǒng)的單一數(shù)據(jù)來源擴(kuò)展到多來源、多尺度、多維度等廣泛數(shù)據(jù)。
大數(shù)據(jù)面臨數(shù)據(jù)規(guī)模大、數(shù)據(jù)變化快、數(shù)據(jù)類型多、價(jià)值密度低4個(gè)挑戰(zhàn)[16]。工業(yè)界和相關(guān)研究領(lǐng)域開始利用海量數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)并行計(jì)算等技術(shù),解決數(shù)據(jù)規(guī)模大、維度高等技術(shù)難題[17],促進(jìn)了大數(shù)據(jù)可視化應(yīng)用于更多研究領(lǐng)域。
2)用戶正從少數(shù)專家用戶擴(kuò)展到廣泛的不特定群體。
在大數(shù)據(jù)時(shí)代和新媒體時(shí)代,分析理解數(shù)據(jù)的需求從傳統(tǒng)的科研人員和商業(yè)用戶延伸到社會(huì)化媒體和每位信息消費(fèi)者??梢暬膹V譜性和易用性使得在Web、移動(dòng)端、互聯(lián)網(wǎng)及物聯(lián)網(wǎng)等新型環(huán)境下開發(fā)便于普通用戶使用操作、可擴(kuò)展的可視化系統(tǒng)是大數(shù)據(jù)可視化的發(fā)展趨勢(shì)之一。
3)可視化和可視分析在大數(shù)據(jù)與數(shù)據(jù)科學(xué)的框架下進(jìn)行。
可視化包含數(shù)據(jù)變換、數(shù)據(jù)呈現(xiàn)和數(shù)據(jù)交互[18]三個(gè)重要部分。從數(shù)據(jù)處理流程來看,可視化是數(shù)據(jù)中暴露給用戶并與數(shù)據(jù)打交道的接口,利用數(shù)據(jù)整合、數(shù)據(jù)挖掘[19]、數(shù)據(jù)搜索、多用戶協(xié)作[20]、知識(shí)管理、網(wǎng)絡(luò)傳輸[21]、Web化、移動(dòng)化等面向大數(shù)據(jù)的可視化方法實(shí)現(xiàn)符合大數(shù)據(jù)特性的可視化和可視分析,并貫穿整個(gè)數(shù)據(jù)處理的生命周期。
大規(guī)模數(shù)據(jù)主要體現(xiàn)在多維度(multi-dimensional)、多變量(multi-variable)、多模態(tài)(multi-modal)、多趟(multi-run)、多模型(multi-model)。全方位顯示規(guī)模數(shù)據(jù)的細(xì)節(jié)是一個(gè)數(shù)據(jù)和計(jì)算密集型的問題。大規(guī)模計(jì)算集群(如分布式多核計(jì)算集群、GPU+CPU混合架構(gòu)集群等)是處理大規(guī)模數(shù)據(jù)的基本技術(shù)。大規(guī)模數(shù)據(jù)的高清可視化需要高分辨率的顯示設(shè)備、大屏幕拼接系統(tǒng),或者高精度的大屏幕投影拼接技術(shù)的支持,大規(guī)模數(shù)據(jù)的可視化方法主要有分而治之的并行計(jì)算、數(shù)據(jù)約簡(jiǎn)、多視角數(shù)據(jù)交互三種方案。
2.1 分而治之的并行計(jì)算
對(duì)于大規(guī)模、流數(shù)據(jù)采用分而治之的原則采用并行計(jì)算的方式進(jìn)行可視化是一種可行有效的方法[22-23]。對(duì)于一個(gè)大的問題,將其分成多個(gè)更小的問題,針對(duì)每個(gè)較小的問題采用并行處理的方式分別解決以提高處理的速度,再把小問題的處理結(jié)果組合起來,即得到原問題的解決方案,如圖1[24]所示,采用分而治之的原則解決大規(guī)??臻g數(shù)據(jù)的可視化問題。
圖1 分而治之的并行可視化方法
2.2 數(shù)據(jù)的約簡(jiǎn)
正文內(nèi)容為提升大規(guī)模數(shù)據(jù)可視化效果,在保留數(shù)據(jù)信息、準(zhǔn)確性的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行必要的約簡(jiǎn)是可視化的一項(xiàng)重要內(nèi)容,數(shù)據(jù)約簡(jiǎn)主要有3種方式[25]:
1)聚合。對(duì)于多維度數(shù)據(jù),采用數(shù)據(jù)立方上鉆下取的方式,將部分維度轉(zhuǎn)換為統(tǒng)計(jì)數(shù)據(jù)(如均值、最大最小值等)以降低原始數(shù)據(jù)的維度。如圖2所示,利用NanoCubes等基于數(shù)據(jù)維度聚合和統(tǒng)計(jì)的大數(shù)據(jù)可視化查詢工具[26]在對(duì)46 GB的Twitter數(shù)據(jù)進(jìn)行維度約簡(jiǎn),實(shí)現(xiàn)在筆記本電腦上進(jìn)行流暢統(tǒng)計(jì)與可視化查詢。
圖2 基于預(yù)處理多維層次結(jié)構(gòu)的NanoCubes方法
2)采樣。為在給定分辨率的視圖中實(shí)現(xiàn)預(yù)覽式可視化,需將高精度數(shù)據(jù)采樣為低分辨率,其難點(diǎn)在于如何從大規(guī)模數(shù)據(jù)中獲得符合原始數(shù)據(jù)的分布和特性,以保持原有數(shù)據(jù)的知識(shí)與信息。如圖3采用多類藍(lán)噪聲[27]方法對(duì)散點(diǎn)圖進(jìn)行簡(jiǎn)化采樣,保持點(diǎn)分布和多類之間的對(duì)比,可視展現(xiàn)了NBA球隊(duì)投籃信息。
3)多分辨率表示。采用層次結(jié)構(gòu)重新組織規(guī)模數(shù)據(jù),并結(jié)合多種用戶交互方法(如層次細(xì)節(jié)、聚焦+上下文)實(shí)現(xiàn)單一視角下的自適應(yīng)分辨率選擇或多個(gè)視角的光滑切換,例如圖4展示了地圖可視化[28]。
2.3 多視角數(shù)據(jù)交互
針對(duì)高維規(guī)模數(shù)據(jù),可選擇若干個(gè)視圖,在多個(gè)角度下生成不同的可視化結(jié)果[29],并對(duì)其管理、配準(zhǔn)、分析等,如同對(duì)一個(gè)三維空間物體進(jìn)行多視角攝影,生成一系列圖像,對(duì)該物體進(jìn)行視覺理解、建模與分析。多視角數(shù)據(jù)交互的優(yōu)點(diǎn)是將高維規(guī)模數(shù)據(jù)的維度約簡(jiǎn)到低維(二維或三維)空間,降低用戶交互及分析可視化的復(fù)雜度,如圖5。
圖3 基于多類藍(lán)噪聲采樣的散點(diǎn)圖簡(jiǎn)化法
圖4 美國(guó)沃爾瑪全國(guó)分布圖
圖5 采樣數(shù)值數(shù)據(jù)的多個(gè)視圖
時(shí)間是一個(gè)非常重要的維度和屬性。帶有時(shí)間屬性、隨著時(shí)間發(fā)生變化的數(shù)據(jù)稱為時(shí)變數(shù)據(jù)。在科學(xué)、工程、社會(huì)和經(jīng)濟(jì)領(lǐng)域,每時(shí)每刻都在產(chǎn)生大量有序數(shù)據(jù),在時(shí)間序列中,每個(gè)數(shù)據(jù)實(shí)例都可以看作某個(gè)事件,事件的時(shí)間可當(dāng)成一個(gè)變量[30]。
流數(shù)據(jù)是一類典型的時(shí)變數(shù)據(jù),數(shù)據(jù)以“連續(xù)數(shù)據(jù)流”的形式動(dòng)態(tài)地出現(xiàn)。常見的流數(shù)據(jù)有:網(wǎng)絡(luò)數(shù)據(jù)(傳輸包、日志、警報(bào)等)、移動(dòng)通信日志、金融數(shù)據(jù)(如股票交易)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、高性能集群系統(tǒng)日志、社交數(shù)據(jù)等。近年來研究和使用流數(shù)據(jù)的可視化和分析成為研究熱點(diǎn)[31]。在電子商務(wù)(如阿里巴巴集團(tuán)的安全風(fēng)控業(yè)務(wù))、實(shí)時(shí)監(jiān)控、反恐安全、互聯(lián)網(wǎng)金融等領(lǐng)域?qū)α鲾?shù)據(jù)研究與分析顯得尤為重要[32]。與傳統(tǒng)的數(shù)據(jù)處理方法相比,流數(shù)據(jù)的處理有以下特點(diǎn)[33]:
1)數(shù)據(jù)流的潛在尺寸無限;
2)需對(duì)在線到達(dá)的數(shù)據(jù)元素進(jìn)行實(shí)時(shí)處理,否則數(shù)據(jù)價(jià)值可能隨時(shí)間而降低;
3)難以掌控?cái)?shù)據(jù)元素的流入順序和到達(dá)數(shù)量,每次進(jìn)入的數(shù)據(jù)順序不一定相同,且數(shù)量時(shí)多時(shí)少;
4)某個(gè)元素被處理后,或被丟棄,或被歸檔存儲(chǔ);
5)對(duì)流數(shù)據(jù)的查詢異常現(xiàn)象以及相似類型較為耗時(shí),人工檢測(cè)日志乏味且易出現(xiàn)錯(cuò)誤。
流數(shù)據(jù)可視化并沒有固定的模型,通常按處理目的和方法的不同有不同的模型,參照Rajaraman等[31]對(duì)流數(shù)據(jù)處理方法,將流數(shù)據(jù)可視化分為兩個(gè)步驟:
1)數(shù)據(jù)流進(jìn)入流處理器后,將大部分原始數(shù)據(jù)保存在歸檔數(shù)據(jù)庫中,將其他關(guān)鍵數(shù)據(jù)保存可視化來源數(shù)據(jù)庫中。
2)關(guān)鍵數(shù)據(jù)進(jìn)入可視化處理器后經(jīng)過可視映射和布局等可視化過程轉(zhuǎn)化為可視化輸出,最后呈現(xiàn)給用戶,并設(shè)計(jì)用戶模塊以實(shí)現(xiàn)可視布局的基本交互功能[34-35]、輸出內(nèi)容的可視檢索功能[36]、自定義數(shù)據(jù)的定制功能[37-38]。
流數(shù)據(jù)可視化按功能可以分為兩種可視化類型:監(jiān)控型與疊加型。監(jiān)控型使用滑動(dòng)窗口固定某個(gè)時(shí)間區(qū)間,轉(zhuǎn)化流數(shù)據(jù)為靜態(tài)數(shù)據(jù),并以刷新方式更新數(shù)據(jù),屬于局部分析。疊加型將新生數(shù)據(jù)可視映射到原歷史數(shù)據(jù)的可視化結(jié)果上,并以漸進(jìn)方式更新。
1)監(jiān)控型。
系統(tǒng)日志監(jiān)控流數(shù)據(jù)反映一臺(tái)機(jī)器或一個(gè)計(jì)算集群的系統(tǒng)性能。分析大規(guī)模計(jì)算集群日志數(shù)據(jù)能夠監(jiān)控和理解多維度數(shù)據(jù)的變化趨勢(shì)以及模式復(fù)雜等問題[39-40]。在工業(yè)界有Splunk、Loggly、Flume等多種系統(tǒng)日志監(jiān)控工具;學(xué)術(shù)界則有類似的從實(shí)時(shí)的社交媒體數(shù)據(jù)等流數(shù)據(jù)中提取事件并可視化出來的CityBeat[41]、LeadLine[42]、Eventweet[43]。這些工具在系統(tǒng)底層插入腳本,獲得性能數(shù)據(jù),再利用信息檢索工具或折線圖、條形圖等基本統(tǒng)計(jì)圖表得到系統(tǒng)性能的概要分析。如圖6[31]所示,針對(duì)云計(jì)算集群監(jiān)控流數(shù)據(jù)分析的可視化系統(tǒng)對(duì)多源信息收集清理并建模。對(duì)這些數(shù)據(jù)采用多種方式(如時(shí)序圖、樹圖、平行坐標(biāo)等)可視化,提供狀態(tài)監(jiān)控、趨勢(shì)監(jiān)測(cè)、異常報(bào)警定位等分析手段。
圖6 面向計(jì)算集群監(jiān)控日志流數(shù)據(jù)的可視化系統(tǒng)
2)疊加型。
StreamIt[44]是在線新聞流的可視化工具,它結(jié)合動(dòng)態(tài)力引導(dǎo)布局、自動(dòng)話題建模技術(shù)展現(xiàn)了新聞的發(fā)展和演變。用戶可以對(duì)新聞事件進(jìn)行動(dòng)態(tài)聚類,細(xì)節(jié)探索以及新聞動(dòng)態(tài)演變探索等交互操作,并按用戶感興趣的關(guān)鍵詞和話題對(duì)事件進(jìn)行檢索,從而觀察熱門事件的爆發(fā)和演變。在StreamIt系統(tǒng)用戶通過自定義關(guān)鍵詞的權(quán)重對(duì)新聞進(jìn)行重聚類和重布局,通過分配顏色對(duì)感興趣的關(guān)鍵詞所對(duì)應(yīng)的事件進(jìn)行追蹤。圖7中將2010年2月到8月的新聞事件進(jìn)行了可視化,并聚為若干類。
數(shù)據(jù)量的持續(xù)增長(zhǎng)和數(shù)據(jù)流中自帶的噪聲給疊加型數(shù)據(jù)可視化帶來了挑戰(zhàn)。如何幫助分析人員迅速定位并理解關(guān)鍵信息,是當(dāng)下熱門的時(shí)序事件可視化研究的焦點(diǎn)。關(guān)于這個(gè)問題,EventFlow 給出了一種通過聚類、過濾、變換等方式簡(jiǎn)化信息的方法,相關(guān)實(shí)驗(yàn)證明該方法可以將大型數(shù)據(jù)集的視覺復(fù)雜度降低到80%以上[45]。
圖7 StreamIT系統(tǒng)概覽
除數(shù)據(jù)的容量、維度特性外,非結(jié)構(gòu)性和數(shù)據(jù)源的異構(gòu)性也影響數(shù)據(jù)的規(guī)模與復(fù)雜性。
4.1 非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù),如社交網(wǎng)站和自媒體數(shù)據(jù)、傳感器記錄、電子商務(wù)數(shù)據(jù)等,通常采用數(shù)據(jù)挖掘方法分析內(nèi)在模式,并抽取結(jié)構(gòu)化信息。典型的非結(jié)構(gòu)化數(shù)據(jù)有文本數(shù)據(jù)、日志數(shù)據(jù)、時(shí)間戳等。文本數(shù)據(jù)可采用文本信息挖掘方法抽取特征,進(jìn)而對(duì)抽取的文本特征進(jìn)行設(shè)計(jì)和可視化。日志由網(wǎng)絡(luò)多用戶交互產(chǎn)生,如微博中的消息轉(zhuǎn)發(fā)回復(fù)日志、電子商務(wù)中的買賣家交易日志等。每筆交易日志包含的維度有賣家賬戶、買家賬號(hào)、賣家所在地、買家所在地、交易類目、交易數(shù)量、付款方式等。對(duì)日志數(shù)據(jù)進(jìn)行可視分析的目的在于找出交易中的頻繁出現(xiàn)的商業(yè)模式,如促銷與虛假交易。分析交易日志數(shù)據(jù)常采用決策樹,需要關(guān)注用戶的總體時(shí)序行為趨勢(shì)、關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)、單個(gè)用戶的交互特征以及大量交互間的時(shí)序關(guān)聯(lián)和上下文關(guān)聯(lián)信息。VAET系統(tǒng)[46]提出了一個(gè)結(jié)合數(shù)據(jù)挖掘和非結(jié)構(gòu)化數(shù)據(jù)可視化的可視分析方法。首先基于決策樹方法顯著度表征對(duì)特定用戶交易所感興趣的概率,再將計(jì)算得到的顯著度投影到時(shí)間顯著度圖中。分析師可對(duì)時(shí)間顯著度圖中所選的數(shù)據(jù)使用多層結(jié)構(gòu)進(jìn)行組織,進(jìn)一步使用音符式可視化(如圖8)。
4.2 異構(gòu)數(shù)據(jù)
同一個(gè)數(shù)據(jù)集中結(jié)構(gòu)或?qū)傩圆煌臄?shù)據(jù)稱為異構(gòu)數(shù)據(jù)。存在多種不同類別的節(jié)點(diǎn)和連接的網(wǎng)絡(luò)為異構(gòu)網(wǎng)絡(luò),異構(gòu)數(shù)據(jù)可視化的關(guān)鍵在于合理呈現(xiàn)不同屬性的數(shù)據(jù)。通用的異構(gòu)數(shù)據(jù)可視化方法[47]將數(shù)據(jù)屬性自動(dòng)地對(duì)應(yīng)到相應(yīng)的可視化屬性中,自動(dòng)根據(jù)數(shù)據(jù)所具備的屬性找到最優(yōu)的可視化方法和屬性與之間的匹配,用戶不需解決可視化與數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系問題。
異構(gòu)數(shù)據(jù)通??刹捎镁W(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行表達(dá)。文獻(xiàn)[48]介紹了基本異構(gòu)社交網(wǎng)絡(luò)的本體拓?fù)浣Y(jié)構(gòu),表達(dá)了恐怖組織網(wǎng)絡(luò)中的九種不同類別的節(jié)點(diǎn):恐怖組織、恐怖分子、國(guó)家和地區(qū)、組織分類、法律案件、恐怖攻擊、攻擊目標(biāo)、手段和武器,但由于數(shù)據(jù)量大和復(fù)雜度高,將所有數(shù)據(jù)直接用網(wǎng)絡(luò)點(diǎn)線圖的方法可視化并不是非常有效(如圖9(a)),解決方法是從異構(gòu)網(wǎng)絡(luò)提煉出本體拓?fù)浣Y(jié)構(gòu)(如圖9(b)),其中的節(jié)點(diǎn)為原網(wǎng)絡(luò)中的節(jié)點(diǎn)類別,而連接則為各個(gè)類別的節(jié)點(diǎn)之間可能存在的聯(lián)系。以這個(gè)拓?fù)浣Y(jié)構(gòu)作為可視分析的輔助導(dǎo)航,分析師可以選擇特定類別的節(jié)點(diǎn)和連接加入到可視化視圖中,達(dá)到過濾的效果。
圖8 海量在線電子商務(wù)交易日志的可視分析系統(tǒng)VAET
圖9 異構(gòu)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)提取
數(shù)據(jù)的異構(gòu)性大部分來自于不同的數(shù)據(jù)源獲取方式[49]。例如,手機(jī)用戶數(shù)據(jù)集中不僅包括了來自手機(jī)跟蹤軟件的點(diǎn)對(duì)點(diǎn)通話記錄、GPS位置數(shù)據(jù)和手機(jī)使用數(shù)據(jù),也包括來自用戶問卷調(diào)查的手機(jī)用戶的個(gè)人信息。這些來自不同數(shù)據(jù)源的數(shù)據(jù)通常具有不同的數(shù)據(jù)模型、數(shù)據(jù)類型和命名方法等。除了在可視化視圖中將異構(gòu)數(shù)據(jù)有效結(jié)合外,在數(shù)據(jù)可視化和分析之前對(duì)異構(gòu)數(shù)據(jù)進(jìn)行整合至關(guān)重要。數(shù)據(jù)整合為可視化模塊從眾多獨(dú)立和異構(gòu)的數(shù)據(jù)源獲取數(shù)據(jù)提供了統(tǒng)一和透明的訪問接口,使得用戶可以不關(guān)心數(shù)據(jù)來源和結(jié)構(gòu)進(jìn)行自由的可視。例如谷歌公司的知識(shí)圖譜[50]、臉譜公司的OpenGraph[51]等項(xiàng)目的目的是整合與挖掘在線知識(shí)或人脈資源,為用戶提供快捷易用的查詢和分析功能。異構(gòu)數(shù)據(jù)整合和可視化的代表性軟件有Palantir的Gotham模塊和IBM i2軟件。Palantir的核心要素是采用本體論建立萬事萬物的關(guān)聯(lián),對(duì)應(yīng)用領(lǐng)域相關(guān)的事務(wù)進(jìn)行基于本體的建模、操作、管理、關(guān)聯(lián)、分析、推理和可視化。Palantir系統(tǒng)包括5大功能模塊:
1)算法引擎。支持各類數(shù)據(jù)變換算法,支持PB級(jí)數(shù)據(jù)的并行處理。
2)數(shù)據(jù)集成。支持異構(gòu)、多源、非結(jié)構(gòu)化數(shù)據(jù)的集成。
3)查詢、發(fā)現(xiàn)和分析。支持關(guān)聯(lián)、時(shí)序、地理空間、統(tǒng)計(jì)、行為、預(yù)測(cè)和網(wǎng)絡(luò)分析。
4)知識(shí)管理。支持對(duì)用戶獲得的知識(shí)的管理。
5)協(xié)同分析。支持異地、無網(wǎng)絡(luò)用戶、Web用戶的協(xié)同分析任務(wù),共享消息、主體對(duì)象和分析結(jié)果。
可視化是大數(shù)據(jù)分析的重要方法,能夠有效地克服計(jì)算機(jī)自動(dòng)化分析方法的劣勢(shì)與不足,整合計(jì)算機(jī)的分析能力和人們對(duì)信息的感知能力,利用認(rèn)識(shí)理論、人機(jī)交互技術(shù)輔助人們直觀有效地洞悉大數(shù)據(jù)背后的信息、知識(shí)與智慧,強(qiáng)調(diào)人類感知與計(jì)算機(jī)系統(tǒng)的深度耦合。本文針對(duì)大數(shù)據(jù)數(shù)據(jù)量大、維度高、多來源、多形態(tài)等特點(diǎn)論述了大規(guī)模數(shù)據(jù)、流數(shù)據(jù)、非結(jié)構(gòu)和異構(gòu)數(shù)據(jù)的可視化方法。
當(dāng)前,大數(shù)據(jù)可視化與可分析不斷受到國(guó)內(nèi)外研究學(xué)得的重視,也出現(xiàn)了許多大數(shù)據(jù)可視化研究工作者與優(yōu)秀的研究團(tuán)隊(duì),但理論研究成果也非常有限,同時(shí)面臨著如下挑戰(zhàn):
1)數(shù)據(jù)尺度大,已超越單機(jī)、外存模型甚至小型計(jì)算集群處理能力的極限,而當(dāng)前軟件和工具運(yùn)行效率不高,需探索全新思路解決該問題;
2)在數(shù)據(jù)獲取與分析處理過程中,易產(chǎn)生數(shù)據(jù)質(zhì)量問題,需特別關(guān)注數(shù)據(jù)的不確定性;
3)數(shù)據(jù)快速動(dòng)態(tài)變化,常以流式數(shù)據(jù)形式存在,需尋找流數(shù)據(jù)的實(shí)時(shí)分析與可視化方法;
4)面臨復(fù)雜高維數(shù)據(jù),當(dāng)前的軟件系統(tǒng)以統(tǒng)計(jì)和基本分析為主,分析能力不足;
5)多源數(shù)據(jù)的類型和結(jié)構(gòu)各異,已有方法在非結(jié)構(gòu)化、異構(gòu)數(shù)據(jù)方面支持不足,網(wǎng)絡(luò)數(shù)據(jù)可視化分析是推理求解異構(gòu)數(shù)據(jù)內(nèi)在關(guān)系的最重要方法。
以上5個(gè)方面是大數(shù)據(jù)可視化面臨的挑戰(zhàn),同時(shí)也逐漸成為今后的大數(shù)據(jù)可視化研究的熱點(diǎn)與方向,相關(guān)科研人員將進(jìn)一步開展深入細(xì)致的研究,有望在可視化分析與高效數(shù)據(jù)處理等問題上獲得更大突破。
References)
[1] 作磊,杜一,馬帥.大數(shù)據(jù)分析綜述[J].軟件學(xué)報(bào),2014,25(9):1909-1930.(ZUO L, DU Y, MA S. Review on big data analysis [J]. Journal of Software, 2014,25(9): 1909-1930.)
[2] TONY H.第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)[M].潘教峰,張曉林,譯.北京:科學(xué)出版社,2012:58-62.(TONY H. The Forth Paradigm: Data-Intensive Scientific Discovery [M]. PAN J F, ZHANG X L, translated. Beijing: Science Press, 2012: 58-62.)
[3] CORRELL M, HEER J. Surprise! Bayesian weighting for de-biasing thematic maps [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 651-660.
[4] KUSUMA P Y C, SUMPENO S, WIBAWA A D. Social media analysis of BPS data availability in economics using decision tree method [C]// ICITISEE 2016: Proceedings of the 1st International Conference on Information Technology, Information Systems and Electrical Engineering. Piscataway, NJ: IEEE, 2016: 148-153.
[5] 任磊.信息可視化中的交互技術(shù)研究[D].北京:中國(guó)科學(xué)院,2009:38-40.(REN L. Research on interaction techniques in information visualization [D]. Beijing: Chinese Academy of Sciences, 2009: 38-40.)
[6] CARD S K, MACKINLAY J D, SHNEIDERMAN B. Readings in Information Visualization: Using Vision to Think [M]. San Francisco: Morgan-Kaufmann Publishers, 1999: 1-712.
[7] MUNZNER T. Visualization analysis and design [J]. Wiley Interdisciplinary Reviews Computational Statistics, 2015, 2(4): 387-403.
[8] CHARLES D H, CHRIS J. The Visualization Handbook [M]. New York: Academic Press, 2004: 76-85.
[9] EDWARD R T. The Visual Display of Quantitative Information [M]. New York: Graphics Press, 1992: 98-100.
[10] LELAND W. The Grammar of Graphics[M]. Berlin: Springer, 2005: 25-28.
[11] ITOH M, YOKOYAMA D, TOYODA M, et al. Visual fusion of mega-city big data: an application to traffic and tweets data analysis of metro passengers [C]// Proceedings of the 2014 IEEE International Conference on Big Data. Piscataway, NJ: IEEE, 2014: 431-440.
[12] MURTHY D, GROSS A, MCGARRY M. Visual social media and big data, interpreting instagram images posted on Twitter [J]. Digital Culture & Society, 2016, 2: 12-15.
[13] 李偉,周峰,朱煒,等.軌道交通網(wǎng)絡(luò)客流大數(shù)據(jù)可視化研究[J].中國(guó)鐵路,2015(2):94-98.(LI W, ZHOU F, ZHU W, et al. Visualization of large passenger flow data in rail transit network [J]. China Railways, 2015(2): 94-98.
[14] 陳為,張嵩,魯愛東.數(shù)據(jù)可視化的基本原理與方法[M].北京:科學(xué)出版社,2013:77-82.(CHEN W, ZHANG S, LU A D. The Basic Principle and Method of Data Visualization [M]. Beijing: Science Press, 2013: 77-82.
[15] KIM M, KANG K, PARK D, et al. TopicLens: efficient multi-level visual topic exploration of large-scale document collections [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 151-160.
[16] MANYIKA J, CHUI M. Big Data: The Next Frontier for Innovation, Competition, and Productivity [M]. San Francisco: McKinsey Global Institute, 2011: 92-95.
[17] IBM. What is big data? -Bringing big data to the enterprise [EB/OL]. [2016- 12- 10]. http://www- 01.ibm.com/software/data/bigdata.
[18] FENG M, DENG C, PECK E M, et al. HindSight: encouraging exploration through direct encoding of personal interaction history [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 351-360.
[19] HUANG T H, CHEN L B. Decision support for the QoS-aware 4G mobile networks through data mining [C]// Proceedings of the IEEE 5th Global Conference on Consumer Electronics. Piscataway, NJ: IEEE, 2016: 1-2.
[20] LAW P M, WU W, ZHENG Y, et al. VisMatchmaker: cooperation of the user and the computer in centralized matching adjustment [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 231-240.
[21] TIAN J, ZHANG H, WU D, et al. Interference-aware cross-layer design for distributed video transmission in wireless networks [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(5): 978-991.
[22] GUHA S, HAFEN R, ROUNDS J, et al. Large complex data: divide and recombine (D&R) with RHIPE [J]. Stat, 2012, 1(1): 53-67.
[23] GUHA, S, KIDWELL P, HAFEN R P, et al. Visualization databases for the analysis of large complex datasets [J]. Journal of Machine Learning Research, 2009, 5: 193-200.
[24] VO H T, BRONSON J, SUMMA B, et al. Parallel visualization on large clusters using MapReduce [C]// Proceedings of the 2011 IEEE Symposium on Large Data Analysis and Visualization. Piscataway, NJ: IEEE, 2011: 81-88.
[25] LIU Z C, JIANG B Y, HEER J. Real-time visual querying of big data [J]. Computer Graphics Forum, 2013, 32(3): 421-430.
[26] LINS L, KLOSOWSKI J T, SCHEIDEGGER C. Nanocubes for real-time exploration of spatiotemporal datasets [J]. IEEE Transactions on Visualization & Computer Graphics, 2013, 19(12): 2456-2465.
[27] CHEN H D, CHEN W, MEI H H, et al. Visual abstraction and exploration of multi-class scatterplots [J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 1683-1692.
[28] Github Group. Walmart locations all hexed up [EB/OL]. [2016- 06- 12]. http://indiemaps.github.io/hexbin-js/tests/walmart.html.
[29] AL-DOHUKI S, WU Y, KAMW F, et al. SemanticTraj: a new approach to interacting with massive taxi trajectories [J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 11-19.
[30] 陳為,沈則潛,陶煜波.數(shù)據(jù)可視化[M].北京:電子工業(yè)出版社,2013:302-305.(CHEN W, SHEN Z Q, TAO Y B. Data Visualization [M]. Beijing: Publishing House of Electronics Industry, 2013: 302-305.)
[31] RAJARAMAN A, LESKOVEC J. Mining of Massive Datasets [M]. London: Cambridge Uiversity Press, 2012: 109-112.
[32] ZIKOPOULOS P, EATON C. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data [M]. London: McGraw-Hill Osborne Media, 2011: 126-135.
[33] KRSTAJIC M, KEIM D A. Visualization of streaming data: Observing change and context in information visualization techniques [C]// Proceedings of the 2013 IEEE International Conference on Big Data. Piscataway, NJ: IEEE, 2013: 41-47.
[34] ALSAKRAN J, CHEN Y, ZHAO Y, et al. STREAMIT: dynamic visualization and interactive exploration of text streams [C]// Proceedings of the 2011 IEEE Pacific Visualization Symposium. Piscataway, NJ: IEEE, 2011: 131-138.
[35] VONG K, RASMEQUAN S, CHINNASARN K, et al. Empirical modelling for dynamic visualization of ICU patient data streams [C]// Proceedings of the 2015 IEEE Biomedical Engineering International Conference. Piscataway, NJ: IEEE, 2015: 1-5.
[36] WANG F, CHEN W, WU F, et al. A visual reasoning approach for data-driven transport assessment on urban roads [C]// Proceedings of the 2014 IEEE Conference on Visual Analytics Science and Technology. Piscataway, NJ: IEEE, 2014: 103-112.
[37] DANG T N, ANAND A, WILKINSON L. TimeSeer: scagnostics for high-dimensional time series [J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(3): 470-483.
[38] PALOMO C, GUO Z, SILVA C T, et al. Visually exploring transportation schedules [J]. IEEE Transactions on Visualization and Computer Graphics, 2016, 22(1): 170-179.
[39] TAN J, PAN X, KAVULYA S, et al. Mochi: visual log-analysis based tools for debugging Hadoop [C]// Proceedings of the 2009 ACM HotCloud Conference. New York: ACM, 2009: 99-103.
[40] KAVULYA S, TAN J, GANDHI R, et al. An analysis of traces from a production MapReduce cluster [C]// Proceedings of the 2010 IEEE/ACM International Conference on Cluster, Cloud and Grid Computing. Washington, DC: IEEE Computer Society, 2010: 94-103.
[41] XIA C, SCHWARTZ R, XIE K, et al. CityBeat: real-time social media visualization of hyper-local city data [C]// Proceedings of the 23rd International Conference on World Wide Web. New York: ACM, 2014: 167-170.
[42] DOU W, WANG X, SKAU D, et al. Leadline: interactive visual analysis of text data through event identification and exploration [C]// Proceedings of the 2012 IEEE Conference on Visual Analytics Science and Technology. Piscataway, NJ: IEEE, 2012: 93-102.
[43] ABDELHAQ H, SENGSTOCK C, GERTZ M. Eventweet: online localized event detection from Twitter [J]. Proceedings of the VLDB Endowment, 2013, 6(12): 1326-1329.
[44] ALSAKRAN J, CHEN Y, LUO D, et al. Real-time visualization of streaming text with a force-based dynamic system [J]. IEEE Computer Graphics & Applications, 2012, 32(1): 34-45
[45] MONROE M, LAN R, LEE H, et al. Temporal event sequence simplification [J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2227-2236.
[46] XIE C, CHEN W, HUANG X X, et al. VAET: a visual analytics approach for E-transactions time-series [J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 1743-1751.
[47] CAMMARANO M, DONG X L, CHAN B, et al. Visualization of heterogeneous data [J]. IEEE Transactions on Visualization & Computer Graphics, 2007, 13(6): 1200-1207.
[48] SHEN Z, MA K L, ELIASSI-RAD T. Visual analysis of large heterogeneous social networks by semantic and structural abstraction [J]. IEEE Transactions on Visualization & Computer Graphics, 2006, 12(6): 1427-1439.
[49] 阮彤,王昊奮,陳為.大數(shù)據(jù)技術(shù)前沿[M].北京:電子工業(yè)出版社,2016:87-92.(RUAN T, WANG H F, CHEN W. Big Data Technology Frontier [M]. Beijing: Publishing House of Electronics Industry, 2016: 87-92.)
[50] NICHOLAS M. Google’s knowledge graph [EB/OL]. [2016- 04- 24]. http://wenku.baidu.com/link?url=4oUGek3uxnlt0ismi0AXMuH8rl9xY1tva7n7p_rLiCYC_vSFixqE2UfoFI7CpS1QwSPOEUZcDt2XXXx4pP1lyeqlfzhugYmKGjll5f82kie.
[51] ABHISHEK G. Object meta tags for facebook open graph protocol [EB/OL]. [2016- 06- 24]. https://thecustomizewindows.com/2013/06/object-meta-tags-for-facebook-open-graph-protocol.
This work is partially supported by the National Natural Science Foundation of China (61422211).
CUIDi, born in 1985, Ph. D. candidate, lecturer. Her research interests include big data analysis, intelligent information processing.
GUOXiaoyan, born in 1976, Ph. D., associate professor. Her research interest includes intelligent optimization algorithm.
CHENWei, born in 1976, Ph. D., professor. His research interest includes visualization.
Challengesandrecentprogressinbigdatavisualization
CUI Di1,2, GUO Xiaoyan3*, CHEN Wei2
(1.CollegeofElectronicandInformationEngineering,NingboUniversityofTechnology,NingboZhejiang315211,China;2.StateKeyLaboratoryofComputerAidedDesignandComputerGraphics(ZhejiangUniversity),HangzhouZhejiang310058,China;3.CollegeofInformationScienceandTechnology,GansuAgriculturalUniversity,LanzhouGansu730070,China)
The advent of big data era elicits the importance of visualization. As an import data analysis method, visual analytics explores the cognitive ability and advantages of human beings, integrates the abilities of human and computer, and gains insights into big data with human-computer interaction. In view of the characteristics of large amount of data, high dimension, multi-source and multi-form, the visualization method of large scale data was discussed firstly: 1) divide and rule principle was used to divide big problem into a number of smaller tasks, and parallel processing was used to improve the processing speed; 2) the means of aggregation, sampling and multi-resolution express were used to reduce data; 3) multi-view was used to present high dimensional data. Then, the visualization process of flow data was discussed for the two types of flow data, which were monitoring and superposition. Finally, the visualization of unstructured data and heterogeneous data was described. In a word, the visualization could make up for the disadvantages and shortcomings of computer automatic analysis, integrate computer analysis ability and human perception of information, and find the information and wisdom behind big data effectively. However, the research results of this theory are very limited, and it is faced with the challenge of large scale, dynamic change, high dimension and multi-source heterogeneity, which are becoming the hot spot and direction of large data visualization research in the future.
big data; visualization; challenge; visual analysis; progress
TP391.1
:A
2017- 01- 13;
:2017- 03- 10。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61422211)。
崔迪(1985—),女,浙江寧波人,講師,博士研究生,CCF會(huì)員,主要研究方向:大數(shù)據(jù)分析、智能信息處理; 郭小燕(1976—),女,甘肅天水人,副教授,博士,CCF會(huì)員,主要研究方向:智能優(yōu)化算法; 陳為(1976—),男,浙江杭州人,副教授,博士,CCF會(huì)員,主要研究方向:可視化。
1001- 9081(2017)07- 2044- 06
10.11772/j.issn.1001- 9081.2017.07.2044