戚森昱 杜京霖 錢沈申 殷復(fù)蓮
摘 要:隨著大數(shù)據(jù)技術(shù)、信息可視化技術(shù)的飛速發(fā)展,數(shù)據(jù)可視化的概念正在不斷的演變發(fā)展。在對現(xiàn)有研究資料進(jìn)行分析的基礎(chǔ)上,梳理了國內(nèi)外多維數(shù)據(jù)可視化領(lǐng)域的成熟技術(shù),并從應(yīng)用角度對其進(jìn)行了評價。同時評價了近幾年來國內(nèi)外學(xué)者在多維可視化技術(shù)方面的研究與應(yīng)用成果,并展望了多維可視化技術(shù)的未來研究方向和挑戰(zhàn)。
關(guān)鍵詞:數(shù)據(jù)可視化;多維數(shù)據(jù);可視化技術(shù)
DOIDOI:10.11907/rjdk.151339
中圖分類號:TP301 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2015)007-0015-03
0 引言
近年來,人類產(chǎn)生與獲取數(shù)據(jù)的能力越來越強,儲存的信息總量也日益龐大。為了讓這些數(shù)據(jù)得以直觀呈現(xiàn),人類對數(shù)據(jù)可視化技術(shù)的需求日益增加。數(shù)據(jù)可視化技術(shù)是跨領(lǐng)域的技術(shù),被廣泛應(yīng)用于商業(yè)智能分析、數(shù)據(jù)分析、數(shù)據(jù)挖掘、統(tǒng)計等領(lǐng)域。它也是一門橫跨計算機圖形學(xué)、人機交互、統(tǒng)計學(xué)、心理學(xué)的綜合學(xué)科,主要研究如何利用人的感知能力以貼近人類自然感知的圖形化展現(xiàn)方式,對數(shù)據(jù)交互進(jìn)行可視化表達(dá),以增強人的認(rèn)知,呈現(xiàn)數(shù)據(jù)中隱含的信息,發(fā)掘數(shù)據(jù)中所包含的規(guī)律[1]。數(shù)據(jù)可視化目前有3個分支:①科學(xué)可視化,主要面向自然科學(xué),如物理、化學(xué)、氣象、航空航天等,對其數(shù)據(jù)和模型進(jìn)行解釋、操作與處理,尋找其中的科學(xué)規(guī)律和異常等;②信息可視化,主要處理非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),如金融交易、社交網(wǎng)絡(luò)和文本日志數(shù)據(jù)等,主要關(guān)注如何在有限的展現(xiàn)空間中,以直觀有效的方式傳達(dá)大量的抽象信息;③可視化分析,它是以可視交互界面為研究對象的分析推理科學(xué),綜合了圖形學(xué)、數(shù)據(jù)挖掘分析和人機交互等技術(shù)[2]。
多維數(shù)據(jù)可視化是信息可視化下的子研究領(lǐng)域,是將多維的原始數(shù)據(jù)或處理后的數(shù)據(jù)進(jìn)行直觀呈現(xiàn)的技術(shù)。目前,多維數(shù)據(jù)可視化技術(shù)被廣泛應(yīng)用于各領(lǐng)域的商業(yè)智能分析與輔助決策中。本文將整理比較幾種主流的多維數(shù)據(jù)可視化技術(shù),分析一些基于這些可視化技術(shù)的技術(shù)迭代與應(yīng)用實例,并從應(yīng)用角度評價這些多維數(shù)據(jù)可視化技術(shù)。人類的直觀感知能力受限于真實世界,難以直接理解超過三維的多維抽象事物,多維數(shù)據(jù)可視化技術(shù)就是研究如何將多維數(shù)據(jù)通過各種方法呈現(xiàn)使之成為人類易于理解的二維或三維圖形圖像。到目前為止,國內(nèi)外學(xué)者在這方面已經(jīng)提出了很多基礎(chǔ)性與迭代的多維可視化技術(shù),根據(jù)其可視化原理不同,可將其大致分成基于幾何的技術(shù)、基于降維映射的技術(shù)、基于層次的技術(shù)、基于像素的技術(shù)、基于圖標(biāo)的技術(shù)和基于圖形的技術(shù)等[3]。
1 基于幾何的技術(shù)
平行坐標(biāo)系技術(shù)[4]是基于幾何的多維數(shù)據(jù)可視化技術(shù)中最具代表性的一個。其基本思想是將多維數(shù)據(jù)的N個維度屬性以等距豎直的N條平行坐標(biāo)軸的形式來表現(xiàn),每條平行軸線對應(yīng)于一個屬性維。多維數(shù)據(jù)的各維屬性值在N條坐標(biāo)軸上都能找到對應(yīng)的點,將這N個點連接成一條折線,就代表了一個多維數(shù)據(jù)點。這種方法適用于數(shù)據(jù)量較小但維數(shù)較多的數(shù)據(jù)集,在離群點的挖掘上有相當(dāng)好的表現(xiàn),一旦數(shù)據(jù)量大到一定程度,折線交疊問題就相當(dāng)嚴(yán)重,同時在維數(shù)較大時,難以分辨各維屬性間的相關(guān)關(guān)系。并且由于人眼的可視范圍與最小分辨能力,平行坐標(biāo)系技術(shù)實際上具有維數(shù)上限。平行坐標(biāo)系可視化技術(shù)還演化發(fā)展出了圓形平行坐標(biāo)系技術(shù)[5]、Radvi[6]以及星型坐標(biāo)系技術(shù)[7]等,彌補了平行坐標(biāo)系法存在的不足,進(jìn)一步提升了可視化質(zhì)量。但是受限于以多條軸線表現(xiàn)多維度空間的基本原理,其在大數(shù)據(jù)可視化應(yīng)用中表現(xiàn)一般。
Chambers提出的散點圖思想適用于二維或三維數(shù)據(jù)的可視化,能發(fā)掘出兩個變量之間的關(guān)系與聯(lián)系。而在多維數(shù)據(jù)可視化領(lǐng)域,散點圖思想衍生出了散點圖矩陣。其基本思想是將多維數(shù)據(jù)的各維變量兩兩組合作為矩陣中的一個元素,在每一個元素中繪制相應(yīng)變量的散點圖,以此對各維度變量進(jìn)行兩兩比較,進(jìn)而得到隱含的信息。這種方法的一大優(yōu)點在于不易受到數(shù)據(jù)集大小的限制,而且由于是從兩兩比較中獲得信息,因而并不一定要求同時將所有元素呈現(xiàn)在視區(qū)內(nèi),大大降低了因維數(shù)增加而導(dǎo)致的可視化難度。但是由于其元素總是在兩個維度之間展開,所以在更多維度關(guān)系、聯(lián)系上的挖掘略顯疲軟。由此衍生出的技術(shù)包括Hyperslice方法[8]與Hyperbox[9],前者運用投影的思想,用N-2維的切片來替代散點圖矩陣元素,在顯示效果上表現(xiàn)突出;后者則用平行四邊形代替正方形作為圖形元素,雖然有利于調(diào)節(jié)元素的方向與大小,突出重要變量,但因人為選擇各元素的大小與方向,在隱含關(guān)系挖掘上表現(xiàn)不佳。除了上述兩大類技術(shù)外,基于幾何的多維可視化技術(shù)還包括Andrews曲線法、Star Coordinate法等?;趲缀蔚亩嗑S可視化技術(shù)在小數(shù)量的多維數(shù)據(jù)集可視化中應(yīng)用較廣且最終圖像較為直觀易于理解,但即使是對大數(shù)據(jù)接受程度最好的散點圖矩陣技術(shù)也難以避免數(shù)據(jù)點交疊的問題。
2 基于層次的技術(shù)和面向像素的技術(shù)
基于層次的多維數(shù)據(jù)可視化技術(shù)的基本思想是將多維空間劃分為多個子空間,并對這些子空間以層次結(jié)構(gòu)進(jìn)行組織,并整合呈現(xiàn)在一個圖形上。例如嵌套坐標(biāo)系法[10],其核心思想是把一個坐標(biāo)系嵌套在另一個坐標(biāo)系中,在內(nèi)層坐標(biāo)系中可視化數(shù)據(jù)集。數(shù)據(jù)集點根據(jù)其在內(nèi)層坐標(biāo)系中的位置,有一組唯一確定的外層坐標(biāo)系坐標(biāo),此坐標(biāo)即表現(xiàn)更高維數(shù)的值。這種方法適用于連續(xù)的數(shù)據(jù)集,但是一旦維數(shù)超過一定程度,極容易引起視覺混亂且難以理解各層坐標(biāo)間的相互關(guān)系。從易讀性的角度來講,這是一種門檻較高的多維數(shù)據(jù)可視化技術(shù)。
與基于層次的技術(shù)類似,面向像素的多維可視化技術(shù)的基本思想是根據(jù)多維數(shù)據(jù)的維數(shù),將高維空間劃分成多個子窗格。不同的是它用每一個窗格對應(yīng)該多維數(shù)據(jù)集的一個維度,并把每個像素點作為一個多維數(shù)據(jù)點,在不同的窗格中根據(jù)不同的屬性值賦予不同的顏色。像素點的位置排布根據(jù)需求的不同,可以按照某一屬性順序從左到右逐行排列或從上到下逐列排列,也可以根據(jù)數(shù)據(jù)項與某一屬性的關(guān)聯(lián)度從中心發(fā)散排列,例如圓形分段技術(shù),將多維數(shù)據(jù)各屬性數(shù)據(jù)以像素為單位在不同扇形區(qū)域內(nèi)按照順序從圓心向圓周排列。這些扇形拼合成的一個圓,表示整個高維空間。圓形分段技術(shù)兼顧了像素點與屬性之間的相關(guān)關(guān)系順序和各個維度之間的關(guān)系,對一定維數(shù)的大數(shù)據(jù)集的可視化效果極佳,在分類與多維屬性相關(guān)關(guān)系的挖掘上有較好應(yīng)用。
3 基于圖標(biāo)的技術(shù)和基于圖形的技術(shù)
基于圖標(biāo)的多維數(shù)據(jù)可視化技術(shù)的基本思想是用具有多個易于識別的特征的圖標(biāo)來表達(dá)多維度信息,一組圖標(biāo)的每一個特征都可以用來表示多維信息的一維。常用的此類技術(shù)有Chernoff面法[11]和星繪法[12]。此類技術(shù)適用于維數(shù)不多的多維數(shù)據(jù)集,結(jié)果直觀,在具有特別維度屬性時有特別好的表現(xiàn)。其缺點在于適應(yīng)度不夠高。
在基于圖標(biāo)的可視化技術(shù)中,每一個圖標(biāo)(臉譜、星狀圖)都是一個多維數(shù)據(jù)點,而基于圖形的技術(shù)往往可視化呈現(xiàn)得到一張完整的圖形,圖形中的點與線的類型、大小、顏色等都可以用來表示數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。此類技術(shù)有多線圖法和SurveyPlot等。這類技術(shù)適用面較廣,可視化結(jié)果往往色彩豐富,易于理解。例如有學(xué)者通過基于圖形的可視化技術(shù),將汽車行駛的多維數(shù)據(jù)(包括時間、地理坐標(biāo)、行駛速度、行駛方向等)可視化呈現(xiàn)在一個平面坐標(biāo)系中[13]。如圖1是汽車行駛數(shù)據(jù)可視化的初步結(jié)果,圖2是運用彩色映射后得到的前4圈汽車行駛數(shù)據(jù)的可視化結(jié)果。
圖1 使用DSAE建立的行車駕駛多維數(shù)據(jù)集
圖2 使用DSAE為訓(xùn)練集建立的駕駛彩色地圖(前4圈)
4 基于降維映射的技術(shù)
上述方法都是將多維數(shù)據(jù)集的全部數(shù)據(jù)進(jìn)行完整的可視化呈現(xiàn),基于降維映射的技術(shù)與上述不同,其基本思想是將多維數(shù)據(jù)看作是同一維度空間中的點,其坐標(biāo)根據(jù)相應(yīng)的維度屬性值來確定,再將該維度空間中的點映射到低維可視空間中,同時盡可能保持?jǐn)?shù)據(jù)點間的某種關(guān)系不變[14]。這種技術(shù)包括主成分分析、多維尺度變換、自組織映射、等距映射、局部線性嵌套等。
這種技術(shù)通過降維映射,有選擇地省略部分維度數(shù)據(jù),最終在二、三維空間中盡可能不損失太多信息地可視化呈現(xiàn)數(shù)據(jù)集。而降維映射可以分成線性(如主成分分析)與非線性降維技術(shù)(如自組織映射、等距映射)兩大類,基本實現(xiàn)途徑有特征選擇與特征提取[15]。目前,該技術(shù)可分為線性(如主成分分析)與非線性降維技術(shù)(如自組織映射、等距映射)兩大類。其中特征選擇是通過選擇現(xiàn)有維度屬性中有能力代表其它維度屬性的1~3個維度屬性(稱為優(yōu)勢維),來實現(xiàn)降維映射。而特征提取則適用于沒有明顯優(yōu)勢維的數(shù)據(jù)集,對數(shù)據(jù)集的眾多維度屬性進(jìn)行重組來構(gòu)建優(yōu)勢維,并在此基礎(chǔ)上實現(xiàn)降維映射。
該技術(shù)因其能在低維空間出色地呈現(xiàn)多維數(shù)據(jù)集的整體結(jié)構(gòu)與分布,并且支持進(jìn)一步的數(shù)據(jù)挖掘,因而得到了廣泛應(yīng)用。近年來,有很多學(xué)者對這些技術(shù)進(jìn)行了改進(jìn)與應(yīng)用,例如用遺傳算法對自組織映射網(wǎng)絡(luò)進(jìn)行改進(jìn)[16],運用自組織映射與聚類算法結(jié)合對高維電網(wǎng)數(shù)據(jù)進(jìn)行降維[17],改進(jìn)了主成分分析法并用于多因子地質(zhì)風(fēng)險評估中[18],提出了基于等距映射非線性流形學(xué)習(xí)與加權(quán)KNN分類器相結(jié)合的旋轉(zhuǎn)機械故障診斷方法[19],等等。圖3為學(xué)者在文獻(xiàn)[19]中,嘗試用ISOMAP降維方法得到流形結(jié)構(gòu)并比較選擇出最合適的降維方法。
圖3 ISOMAP降維方法得到的初始流形結(jié)構(gòu)
5 結(jié)語
多維數(shù)據(jù)可視化從20世紀(jì)60年代發(fā)展至今,已經(jīng)積累了大量的研究成果與技術(shù)思路,從基于幾何的多維數(shù)據(jù)可視化技術(shù)到基于降維映射的可視化技術(shù),人類一直在為突破受限于真實世界的認(rèn)知能力而努力,但是大部分學(xué)者的可視化技術(shù)研究仍然習(xí)慣于將多維數(shù)據(jù)放在二維空間進(jìn)行呈現(xiàn)。相信隨著虛擬現(xiàn)實技術(shù)的迅猛發(fā)展,該問題將得到解決。同時,隨著數(shù)據(jù)挖掘門檻的不斷降低,加上商業(yè)智能、數(shù)據(jù)決策支持理念的不斷推廣,越來越多的非研究人員開始接觸到數(shù)據(jù)可視化技術(shù)。如何讓可視化結(jié)果易讀又具有良好的交互性,是亟待解決的問題。相比數(shù)據(jù)挖掘等相關(guān)領(lǐng)域的飛速發(fā)展,多維數(shù)據(jù)可視化的發(fā)展水平還亟待提高。伴隨著物聯(lián)網(wǎng)時代的到來,數(shù)據(jù)可視化領(lǐng)域還將面臨更大挑戰(zhàn)。有人認(rèn)為,該領(lǐng)域未來的挑戰(zhàn)主要是大數(shù)據(jù)可視化和以人為中心的探索式可視分析[2];也有人認(rèn)為,新的可視化技術(shù)應(yīng)用標(biāo)準(zhǔn)應(yīng)該繼續(xù)向直觀化、關(guān)聯(lián)化、藝術(shù)化、交互性等4個方面努力[20]。相信隨著各領(lǐng)域?qū)?shù)據(jù)可視化新需求的不斷增加,數(shù)據(jù)可視化技術(shù)發(fā)展將會日新月異。
參考文獻(xiàn):
[1] 張鋒軍.大數(shù)據(jù)技術(shù)研究綜述[J].通信技術(shù),2014(11):1240-1248.
[2] 陳為,沈則潛,陶煜波,等.大數(shù)據(jù)叢書: 數(shù)據(jù)可視化[M].北京: 電子工業(yè)出版社,2013:29-37.
[3] KEIM DA,ANKERST M.Visual data mining and exploration of largedatabases[Z].Freiburg:PKDD,2001.
[4] INSELBERG A.The plane with parallel coordinates[J].The Visual Computer,1985,1(2):69-91.
[5] HOFFMAN P E.Table visualizations:a formal model and its applications[D].Massachusetts:University of Massachusetts,1999.
[6] HOFFMAN P E,GRINSTEIN G G,MARX K,et al.DNA visual and analytic data minin[C].IEEE Visualization'97,1997.
[7] KANDOGAN E.Visualizingmulti-dimensionalclusters,trends and outliers using star coordinates[Z].San Francisco:KDD 01.CA,2001.
[8] VAN WIJK J J,VAN LIERE R.Hyperslice-visualization of scalarfunction of many variables[C].San Jose:IEEE Visualization'93,1993.
[9] ALPERN B,CARTER L.Hyperbox[C].California:IEEE Visualization'91.1991.
[10] SHAIK J S,YEASIN M.Visualization of high dimensional data u-sing an automated 3d star coordinate system[C].Vancouver:2006 International Joint Conference on Neural Networks Sheraton Vancou-ver Wall Centre Hotel,2006.
[11] CHERNOFF H.The use of faces to represent points in n-dimen-sional space graphically[D].Stanford: Stanford University,1971.
[12] CHAMBERS J M,CLEVELAND W S,KLEINER B,et al.Graphical methods for data analysis[Z].Belmont,CA,1983.
[13] HAILONG LIU,TADAHIRO TANIGUCHI,TOSIAKI TAKANO,et al.Visualization of driving behavior using deep sparse autoencoder[C].Michigan:2014 IEEE Intelligent Vehicles Symposium (IV),2014.
[14] 孫揚,封孝生,唐九陽,等.多維可視化技術(shù)綜述[J].計算機科學(xué),2008(11):1-7,59.
[15] 宋楓溪,高秀梅,劉樹海,等.統(tǒng)計模式識別中的維數(shù)削減與低損降維[J].計算機學(xué)報,2005(11):159-166.
[16] 任軍號,吉沛琦,耿躍.SOM神經(jīng)網(wǎng)絡(luò)改進(jìn)及在遙感圖像分類中的應(yīng)用[J].計算機應(yīng)用研究,2011(3):1170-1172,1182.
[17] GUO XIAO-LI,F(xiàn)ENG LI,GUO PING.Research and application n visual data mining based on SOM clustering[J].Journal of Convergence Information Technology,2013,8(2):695-703.
[18] 盛秀杰,金之鈞,王義剛.一種新的面向多元統(tǒng)計分析的信息可視化技術(shù)[J].石油地球物理勘探,2013(3):488-496,506.
[19] 陳法法,湯寶平,蘇祖強.基于等距映射與加權(quán)KNN的旋轉(zhuǎn)機械故障診斷[J].儀器儀表學(xué)報,2013(1):215-220.
[20] 張浩,郭燦.數(shù)據(jù)可視化技術(shù)應(yīng)用趨勢與分類研究[J].軟件導(dǎo)刊,2012(5):169-172.
責(zé)任編輯(責(zé)任編輯:孫 娟)