亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多維數(shù)據(jù)可視化技術(shù)研究綜述

2015-08-06 12:44:02戚森昱杜京霖錢沈申殷復(fù)蓮

軟件導(dǎo)刊 2015年7期

戚森昱　杜京霖　錢沈申　殷復(fù)蓮

摘要：隨著大數(shù)據(jù)技術(shù)、信息可視化技術(shù)的飛速發(fā)展，數(shù)據(jù)可視化的概念正在不斷的演變發(fā)展。在對現(xiàn)有研究資料進(jìn)行分析的基礎(chǔ)上，梳理了國內(nèi)外多維數(shù)據(jù)可視化領(lǐng)域的成熟技術(shù)，并從應(yīng)用角度對其進(jìn)行了評價。同時評價了近幾年來國內(nèi)外學(xué)者在多維可視化技術(shù)方面的研究與應(yīng)用成果，并展望了多維可視化技術(shù)的未來研究方向和挑戰(zhàn)。

關(guān)鍵詞：數(shù)據(jù)可視化；多維數(shù)據(jù)；可視化技術(shù)

DOIDOI：10.11907/rjdk.151339

中圖分類號：TP301 文獻(xiàn)標(biāo)識碼：A 文章編號：1672-7800（2015）007-0015-03

0 引言

近年來，人類產(chǎn)生與獲取數(shù)據(jù)的能力越來越強，儲存的信息總量也日益龐大。為了讓這些數(shù)據(jù)得以直觀呈現(xiàn)，人類對數(shù)據(jù)可視化技術(shù)的需求日益增加。數(shù)據(jù)可視化技術(shù)是跨領(lǐng)域的技術(shù)，被廣泛應(yīng)用于商業(yè)智能分析、數(shù)據(jù)分析、數(shù)據(jù)挖掘、統(tǒng)計等領(lǐng)域。它也是一門橫跨計算機圖形學(xué)、人機交互、統(tǒng)計學(xué)、心理學(xué)的綜合學(xué)科，主要研究如何利用人的感知能力以貼近人類自然感知的圖形化展現(xiàn)方式，對數(shù)據(jù)交互進(jìn)行可視化表達(dá)，以增強人的認(rèn)知，呈現(xiàn)數(shù)據(jù)中隱含的信息，發(fā)掘數(shù)據(jù)中所包含的規(guī)律[1]。數(shù)據(jù)可視化目前有3個分支：①科學(xué)可視化，主要面向自然科學(xué)，如物理、化學(xué)、氣象、航空航天等，對其數(shù)據(jù)和模型進(jìn)行解釋、操作與處理，尋找其中的科學(xué)規(guī)律和異常等；②信息可視化，主要處理非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù)，如金融交易、社交網(wǎng)絡(luò)和文本日志數(shù)據(jù)等，主要關(guān)注如何在有限的展現(xiàn)空間中，以直觀有效的方式傳達(dá)大量的抽象信息；③可視化分析，它是以可視交互界面為研究對象的分析推理科學(xué)，綜合了圖形學(xué)、數(shù)據(jù)挖掘分析和人機交互等技術(shù)[2]。

多維數(shù)據(jù)可視化是信息可視化下的子研究領(lǐng)域，是將多維的原始數(shù)據(jù)或處理后的數(shù)據(jù)進(jìn)行直觀呈現(xiàn)的技術(shù)。目前，多維數(shù)據(jù)可視化技術(shù)被廣泛應(yīng)用于各領(lǐng)域的商業(yè)智能分析與輔助決策中。本文將整理比較幾種主流的多維數(shù)據(jù)可視化技術(shù)，分析一些基于這些可視化技術(shù)的技術(shù)迭代與應(yīng)用實例，并從應(yīng)用角度評價這些多維數(shù)據(jù)可視化技術(shù)。人類的直觀感知能力受限于真實世界，難以直接理解超過三維的多維抽象事物，多維數(shù)據(jù)可視化技術(shù)就是研究如何將多維數(shù)據(jù)通過各種方法呈現(xiàn)使之成為人類易于理解的二維或三維圖形圖像。到目前為止，國內(nèi)外學(xué)者在這方面已經(jīng)提出了很多基礎(chǔ)性與迭代的多維可視化技術(shù)，根據(jù)其可視化原理不同，可將其大致分成基于幾何的技術(shù)、基于降維映射的技術(shù)、基于層次的技術(shù)、基于像素的技術(shù)、基于圖標(biāo)的技術(shù)和基于圖形的技術(shù)等[3]。

1 基于幾何的技術(shù)

平行坐標(biāo)系技術(shù)[4]是基于幾何的多維數(shù)據(jù)可視化技術(shù)中最具代表性的一個。其基本思想是將多維數(shù)據(jù)的N個維度屬性以等距豎直的N條平行坐標(biāo)軸的形式來表現(xiàn)，每條平行軸線對應(yīng)于一個屬性維。多維數(shù)據(jù)的各維屬性值在N條坐標(biāo)軸上都能找到對應(yīng)的點，將這N個點連接成一條折線，就代表了一個多維數(shù)據(jù)點。這種方法適用于數(shù)據(jù)量較小但維數(shù)較多的數(shù)據(jù)集，在離群點的挖掘上有相當(dāng)好的表現(xiàn)，一旦數(shù)據(jù)量大到一定程度，折線交疊問題就相當(dāng)嚴(yán)重，同時在維數(shù)較大時，難以分辨各維屬性間的相關(guān)關(guān)系。并且由于人眼的可視范圍與最小分辨能力，平行坐標(biāo)系技術(shù)實際上具有維數(shù)上限。平行坐標(biāo)系可視化技術(shù)還演化發(fā)展出了圓形平行坐標(biāo)系技術(shù)[5]、Radvi[6]以及星型坐標(biāo)系技術(shù)[7]等，彌補了平行坐標(biāo)系法存在的不足，進(jìn)一步提升了可視化質(zhì)量。但是受限于以多條軸線表現(xiàn)多維度空間的基本原理，其在大數(shù)據(jù)可視化應(yīng)用中表現(xiàn)一般。

Chambers提出的散點圖思想適用于二維或三維數(shù)據(jù)的可視化，能發(fā)掘出兩個變量之間的關(guān)系與聯(lián)系。而在多維數(shù)據(jù)可視化領(lǐng)域，散點圖思想衍生出了散點圖矩陣。其基本思想是將多維數(shù)據(jù)的各維變量兩兩組合作為矩陣中的一個元素，在每一個元素中繪制相應(yīng)變量的散點圖，以此對各維度變量進(jìn)行兩兩比較，進(jìn)而得到隱含的信息。這種方法的一大優(yōu)點在于不易受到數(shù)據(jù)集大小的限制，而且由于是從兩兩比較中獲得信息，因而并不一定要求同時將所有元素呈現(xiàn)在視區(qū)內(nèi)，大大降低了因維數(shù)增加而導(dǎo)致的可視化難度。但是由于其元素總是在兩個維度之間展開，所以在更多維度關(guān)系、聯(lián)系上的挖掘略顯疲軟。由此衍生出的技術(shù)包括Hyperslice方法[8]與Hyperbox[9]，前者運用投影的思想，用N-2維的切片來替代散點圖矩陣元素，在顯示效果上表現(xiàn)突出；后者則用平行四邊形代替正方形作為圖形元素，雖然有利于調(diào)節(jié)元素的方向與大小，突出重要變量，但因人為選擇各元素的大小與方向，在隱含關(guān)系挖掘上表現(xiàn)不佳。除了上述兩大類技術(shù)外，基于幾何的多維可視化技術(shù)還包括Andrews曲線法、Star Coordinate法等?；趲缀蔚亩嗑S可視化技術(shù)在小數(shù)量的多維數(shù)據(jù)集可視化中應(yīng)用較廣且最終圖像較為直觀易于理解，但即使是對大數(shù)據(jù)接受程度最好的散點圖矩陣技術(shù)也難以避免數(shù)據(jù)點交疊的問題。

2 基于層次的技術(shù)和面向像素的技術(shù)

基于層次的多維數(shù)據(jù)可視化技術(shù)的基本思想是將多維空間劃分為多個子空間，并對這些子空間以層次結(jié)構(gòu)進(jìn)行組織，并整合呈現(xiàn)在一個圖形上。例如嵌套坐標(biāo)系法[10]，其核心思想是把一個坐標(biāo)系嵌套在另一個坐標(biāo)系中，在內(nèi)層坐標(biāo)系中可視化數(shù)據(jù)集。數(shù)據(jù)集點根據(jù)其在內(nèi)層坐標(biāo)系中的位置，有一組唯一確定的外層坐標(biāo)系坐標(biāo)，此坐標(biāo)即表現(xiàn)更高維數(shù)的值。這種方法適用于連續(xù)的數(shù)據(jù)集，但是一旦維數(shù)超過一定程度，極容易引起視覺混亂且難以理解各層坐標(biāo)間的相互關(guān)系。從易讀性的角度來講，這是一種門檻較高的多維數(shù)據(jù)可視化技術(shù)。

與基于層次的技術(shù)類似，面向像素的多維可視化技術(shù)的基本思想是根據(jù)多維數(shù)據(jù)的維數(shù)，將高維空間劃分成多個子窗格。不同的是它用每一個窗格對應(yīng)該多維數(shù)據(jù)集的一個維度，并把每個像素點作為一個多維數(shù)據(jù)點，在不同的窗格中根據(jù)不同的屬性值賦予不同的顏色。像素點的位置排布根據(jù)需求的不同，可以按照某一屬性順序從左到右逐行排列或從上到下逐列排列，也可以根據(jù)數(shù)據(jù)項與某一屬性的關(guān)聯(lián)度從中心發(fā)散排列，例如圓形分段技術(shù)，將多維數(shù)據(jù)各屬性數(shù)據(jù)以像素為單位在不同扇形區(qū)域內(nèi)按照順序從圓心向圓周排列。這些扇形拼合成的一個圓，表示整個高維空間。圓形分段技術(shù)兼顧了像素點與屬性之間的相關(guān)關(guān)系順序和各個維度之間的關(guān)系，對一定維數(shù)的大數(shù)據(jù)集的可視化效果極佳，在分類與多維屬性相關(guān)關(guān)系的挖掘上有較好應(yīng)用。

3 基于圖標(biāo)的技術(shù)和基于圖形的技術(shù)

基于圖標(biāo)的多維數(shù)據(jù)可視化技術(shù)的基本思想是用具有多個易于識別的特征的圖標(biāo)來表達(dá)多維度信息，一組圖標(biāo)的每一個特征都可以用來表示多維信息的一維。常用的此類技術(shù)有Chernoff面法[11]和星繪法[12]。此類技術(shù)適用于維數(shù)不多的多維數(shù)據(jù)集，結(jié)果直觀，在具有特別維度屬性時有特別好的表現(xiàn)。其缺點在于適應(yīng)度不夠高。

在基于圖標(biāo)的可視化技術(shù)中，每一個圖標(biāo)（臉譜、星狀圖）都是一個多維數(shù)據(jù)點，而基于圖形的技術(shù)往往可視化呈現(xiàn)得到一張完整的圖形，圖形中的點與線的類型、大小、顏色等都可以用來表示數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。此類技術(shù)有多線圖法和SurveyPlot等。這類技術(shù)適用面較廣，可視化結(jié)果往往色彩豐富，易于理解。例如有學(xué)者通過基于圖形的可視化技術(shù)，將汽車行駛的多維數(shù)據(jù)（包括時間、地理坐標(biāo)、行駛速度、行駛方向等）可視化呈現(xiàn)在一個平面坐標(biāo)系中[13]。如圖1是汽車行駛數(shù)據(jù)可視化的初步結(jié)果，圖2是運用彩色映射后得到的前4圈汽車行駛數(shù)據(jù)的可視化結(jié)果。

圖1 使用DSAE建立的行車駕駛多維數(shù)據(jù)集

圖2 使用DSAE為訓(xùn)練集建立的駕駛彩色地圖（前4圈）

4 基于降維映射的技術(shù)

上述方法都是將多維數(shù)據(jù)集的全部數(shù)據(jù)進(jìn)行完整的可視化呈現(xiàn)，基于降維映射的技術(shù)與上述不同，其基本思想是將多維數(shù)據(jù)看作是同一維度空間中的點，其坐標(biāo)根據(jù)相應(yīng)的維度屬性值來確定，再將該維度空間中的點映射到低維可視空間中，同時盡可能保持?jǐn)?shù)據(jù)點間的某種關(guān)系不變[14]。這種技術(shù)包括主成分分析、多維尺度變換、自組織映射、等距映射、局部線性嵌套等。

這種技術(shù)通過降維映射，有選擇地省略部分維度數(shù)據(jù)，最終在二、三維空間中盡可能不損失太多信息地可視化呈現(xiàn)數(shù)據(jù)集。而降維映射可以分成線性（如主成分分析）與非線性降維技術(shù)（如自組織映射、等距映射）兩大類，基本實現(xiàn)途徑有特征選擇與特征提取[15]。目前，該技術(shù)可分為線性（如主成分分析）與非線性降維技術(shù)（如自組織映射、等距映射）兩大類。其中特征選擇是通過選擇現(xiàn)有維度屬性中有能力代表其它維度屬性的1～3個維度屬性（稱為優(yōu)勢維），來實現(xiàn)降維映射。而特征提取則適用于沒有明顯優(yōu)勢維的數(shù)據(jù)集，對數(shù)據(jù)集的眾多維度屬性進(jìn)行重組來構(gòu)建優(yōu)勢維，并在此基礎(chǔ)上實現(xiàn)降維映射。

該技術(shù)因其能在低維空間出色地呈現(xiàn)多維數(shù)據(jù)集的整體結(jié)構(gòu)與分布，并且支持進(jìn)一步的數(shù)據(jù)挖掘，因而得到了廣泛應(yīng)用。近年來，有很多學(xué)者對這些技術(shù)進(jìn)行了改進(jìn)與應(yīng)用，例如用遺傳算法對自組織映射網(wǎng)絡(luò)進(jìn)行改進(jìn)[16]，運用自組織映射與聚類算法結(jié)合對高維電網(wǎng)數(shù)據(jù)進(jìn)行降維[17]，改進(jìn)了主成分分析法并用于多因子地質(zhì)風(fēng)險評估中[18]，提出了基于等距映射非線性流形學(xué)習(xí)與加權(quán)KNN分類器相結(jié)合的旋轉(zhuǎn)機械故障診斷方法[19]，等等。圖3為學(xué)者在文獻(xiàn)[19]中，嘗試用ISOMAP降維方法得到流形結(jié)構(gòu)并比較選擇出最合適的降維方法。

圖3 ISOMAP降維方法得到的初始流形結(jié)構(gòu)

5 結(jié)語

多維數(shù)據(jù)可視化從20世紀(jì)60年代發(fā)展至今，已經(jīng)積累了大量的研究成果與技術(shù)思路，從基于幾何的多維數(shù)據(jù)可視化技術(shù)到基于降維映射的可視化技術(shù)，人類一直在為突破受限于真實世界的認(rèn)知能力而努力，但是大部分學(xué)者的可視化技術(shù)研究仍然習(xí)慣于將多維數(shù)據(jù)放在二維空間進(jìn)行呈現(xiàn)。相信隨著虛擬現(xiàn)實技術(shù)的迅猛發(fā)展，該問題將得到解決。同時，隨著數(shù)據(jù)挖掘門檻的不斷降低，加上商業(yè)智能、數(shù)據(jù)決策支持理念的不斷推廣，越來越多的非研究人員開始接觸到數(shù)據(jù)可視化技術(shù)。如何讓可視化結(jié)果易讀又具有良好的交互性，是亟待解決的問題。相比數(shù)據(jù)挖掘等相關(guān)領(lǐng)域的飛速發(fā)展，多維數(shù)據(jù)可視化的發(fā)展水平還亟待提高。伴隨著物聯(lián)網(wǎng)時代的到來，數(shù)據(jù)可視化領(lǐng)域還將面臨更大挑戰(zhàn)。有人認(rèn)為，該領(lǐng)域未來的挑戰(zhàn)主要是大數(shù)據(jù)可視化和以人為中心的探索式可視分析[2]；也有人認(rèn)為，新的可視化技術(shù)應(yīng)用標(biāo)準(zhǔn)應(yīng)該繼續(xù)向直觀化、關(guān)聯(lián)化、藝術(shù)化、交互性等4個方面努力[20]。相信隨著各領(lǐng)域?qū)?shù)據(jù)可視化新需求的不斷增加，數(shù)據(jù)可視化技術(shù)發(fā)展將會日新月異。

參考文獻(xiàn)：

[1] 張鋒軍.大數(shù)據(jù)技術(shù)研究綜述[J].通信技術(shù)，2014（11）：1240-1248.

[2] 陳為，沈則潛，陶煜波，等.大數(shù)據(jù)叢書：數(shù)據(jù)可視化[M].北京：電子工業(yè)出版社，2013：29-37.

[3] KEIM DA，ANKERST M.Visual data mining and exploration of largedatabases[Z].Freiburg：PKDD，2001.

[4] INSELBERG A.The plane with parallel coordinates[J].The Visual Computer，1985，1（2）：69-91.

[5] HOFFMAN P E.Table visualizations：a formal model and its applications[D].Massachusetts：University of Massachusetts，1999.

[6] HOFFMAN P E，GRINSTEIN G G，MARX K，et al.DNA visual and analytic data minin[C].IEEE Visualization'97，1997.

[7] KANDOGAN E.Visualizingmulti-dimensionalclusters，trends and outliers using star coordinates[Z].San Francisco：KDD 01.CA，2001.

[8] VAN WIJK J J，VAN LIERE R.Hyperslice-visualization of scalarfunction of many variables[C].San Jose：IEEE Visualization'93，1993.

[9] ALPERN B，CARTER L.Hyperbox[C].California：IEEE Visualization'91.1991.

[10] SHAIK J S，YEASIN M.Visualization of high dimensional data u-sing an automated 3d star coordinate system[C].Vancouver：2006 International Joint Conference on Neural Networks Sheraton Vancou-ver Wall Centre Hotel，2006.

[11] CHERNOFF H.The use of faces to represent points in n-dimen-sional space graphically[D].Stanford： Stanford University，1971.

[12] CHAMBERS J M，CLEVELAND W S，KLEINER B，et al.Graphical methods for data analysis[Z].Belmont，CA，1983.

[13] HAILONG LIU，TADAHIRO TANIGUCHI，TOSIAKI TAKANO，et al.Visualization of driving behavior using deep sparse autoencoder[C].Michigan：2014 IEEE Intelligent Vehicles Symposium （IV），2014.

[14] 孫揚，封孝生，唐九陽，等.多維可視化技術(shù)綜述[J].計算機科學(xué)，2008（11）：1-7，59.

[15] 宋楓溪，高秀梅，劉樹海，等.統(tǒng)計模式識別中的維數(shù)削減與低損降維[J].計算機學(xué)報，2005（11）：159-166.

[16] 任軍號，吉沛琦，耿躍.SOM神經(jīng)網(wǎng)絡(luò)改進(jìn)及在遙感圖像分類中的應(yīng)用[J].計算機應(yīng)用研究，2011（3）：1170-1172，1182.

[17] GUO XIAO-LI，F(xiàn)ENG LI，GUO PING.Research and application n visual data mining based on SOM clustering[J].Journal of Convergence Information Technology，2013，8（2）：695-703.

[18] 盛秀杰，金之鈞，王義剛.一種新的面向多元統(tǒng)計分析的信息可視化技術(shù)[J].石油地球物理勘探，2013（3）：488-496，506.

[19] 陳法法，湯寶平，蘇祖強.基于等距映射與加權(quán)KNN的旋轉(zhuǎn)機械故障診斷[J].儀器儀表學(xué)報，2013（1）：215-220.

[20] 張浩，郭燦.數(shù)據(jù)可視化技術(shù)應(yīng)用趨勢與分類研究[J].軟件導(dǎo)刊，2012（5）：169-172.

責(zé)任編輯（責(zé)任編輯：孫娟）