孫海
(遼寧省科學技術情報研究所)
【摘要】人類對大量的數(shù)據(jù),甚至海量信息的理解能力有限,這就需要計算機從各種角度對人腦的思維能力進行輸出,其中數(shù)據(jù)可視化技術可以幫助人們理解大量的數(shù)據(jù)信息,發(fā)現(xiàn)數(shù)據(jù)中隱含的規(guī)律,從而提高數(shù)據(jù)的使用效率。面對大數(shù)據(jù)深奧的面貌,如何才能讓大型數(shù)據(jù)集變得親切和易于理解,可視化無疑是最有效的途徑。對大數(shù)據(jù)背景下的數(shù)據(jù)可視化應用展開研究,將有助于我們發(fā)展和創(chuàng)新數(shù)據(jù)可視化技術。
【關鍵詞】大數(shù)據(jù) Web 可視化
一、大數(shù)據(jù)時代的機遇
物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、手機、平板電腦、PC 以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。隨著社交網(wǎng)絡的普及,使得人們的行為和情緒的細節(jié)化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數(shù)據(jù)背后找到更符合用戶興趣和習慣的產(chǎn)品和服務,并對產(chǎn)品和服務進行針對性地調整和優(yōu)化,這就是大數(shù)據(jù)的價值。大數(shù)據(jù)也日益顯現(xiàn)出對各個行業(yè)的推進力。大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
二、數(shù)據(jù)可視化技術及主要特點
數(shù)據(jù)可視化(Data Visual)技術是指運用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。它能夠提供多種同時進行數(shù)據(jù)分析的圖形方法,反映信息模式、數(shù)據(jù)關聯(lián)或趨勢,幫助決策者直觀地觀察和分析數(shù)據(jù),實現(xiàn)人與數(shù)據(jù)之間直接的信息傳遞,從而發(fā)現(xiàn)隱含在數(shù)據(jù)中的規(guī)律。數(shù)據(jù)可視化技術的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元元素來表示,大量的數(shù)據(jù)集構成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析。
三、基于Web的數(shù)據(jù)可視化的參考模型
(1)在服務器端生成描述數(shù)據(jù)的圖形,然后在客戶端實現(xiàn)圖形的顯示,客戶端用瀏覽器來顯示;(2)服務器端經(jīng)過可視化映射后,輸出VRML(Virtual Reality Modeling Language,簡稱VRML)成Java 3D格式的3D模型,返回給客戶,客戶端利用支持VRML或Java 3D的瀏覽器來繪制和操縱3D模型,這種方式的交互局限于繪制階段;(3)客戶下載數(shù)據(jù),在客戶端執(zhí)行可視化流水線,利用Java Applet實現(xiàn)可視化計算,客戶還可以下載可視化軟件。雖然客戶端可以完全控制可視化過程,但對客戶端的硬件、軟件資源要求高,并且對大規(guī)模過程的控制。
模型2和模型3需要針對具體的應用編制Java繪圖程序,模型4采用了復雜的可視化計算在服務器端處理,避免了客戶端較高的資源要求,同時客戶端又能完成可視化結果的交互繪制,具有較好的交互性以及計算負荷分攤的優(yōu)點,但同樣編制程序復雜。而模型1使用TeeChart Pro AetiveX控件,可以直接安裝在服務器端,在服務器端動態(tài)生成圖形文件(JPEG格式),然后將圖形傳回客戶端,在瀏覽器中顯示出來,方法可以適用于任何流行的客戶端瀏覽器。
四、大數(shù)據(jù)的Web數(shù)據(jù)可視化方法流程
1、發(fā)現(xiàn)問題
數(shù)據(jù)可視化都是為了解決某個問題的。所以,面對海量的數(shù)據(jù),首先要思考如何針對領域問題合理抽取對應的數(shù)據(jù)。為創(chuàng)建信息可視化而提出問題時,我們應該盡可能地關注以數(shù)據(jù)為中心的問題。那些以“在哪里”、“什么時間”“有多少”或者“有多頻繁”開頭的問題通常是不錯的開始,這些問題使我們專注于在特定的參數(shù)集合內查找數(shù)據(jù),因此更有可能找到適用于可視化的數(shù)據(jù)。
2、收集數(shù)據(jù)
數(shù)據(jù)的收集和整理則是數(shù)據(jù)可視化的重中之重。然而準確地找到所需要的數(shù)據(jù)是一個非常困難的任務。通常,最好從已經(jīng)可用的數(shù)據(jù)著手并盡量找到一種方式來描繪它,而不是嘗試自己去收集數(shù)據(jù)。得到原始數(shù)據(jù)之后.則要著手于數(shù)據(jù)的解析、組織、分組或者修改,對數(shù)據(jù)進行再加工。
3、選擇一種可視化方式展現(xiàn)數(shù)據(jù)
在明確想要展現(xiàn)的內容后,就要綜合運用視覺元素的造型,色彩的選取,動態(tài)等賦予圖表更好的視覺體驗。數(shù)據(jù)可視化的過程要始終圍繞著數(shù)據(jù)可視化的核心目標:幫助讀者更好更準確的理解數(shù)據(jù)。web常見的的可視化有:地圖、時間軸、網(wǎng)絡圖、樹狀圖、矩陣圖、散點圖、氣泡圖、流程圖、折線圖、標簽云、數(shù)據(jù)表、雷達圖、熱力圖、平行坐標軸等等。
五、大數(shù)據(jù)的Web數(shù)據(jù)可視化展現(xiàn)方式
1、尺寸:這是最常用的可視化展現(xiàn)方式。當辨別兩個對象時,我們可以通過尺寸對比快速地區(qū)分它們。此外,使用尺寸可以加快理解兩組不熟悉的數(shù)字之間的區(qū)別。如百度統(tǒng)計,這個應用指在通過對網(wǎng)站流量的專業(yè)分析,幫助用戶不斷從網(wǎng)站流量數(shù)據(jù)中挖掘有價值的信息,指導網(wǎng)站運營。如這個網(wǎng)頁目錄的訪客數(shù)統(tǒng)計圖,采用了氣泡面積的可視化展現(xiàn)方式,通過氣泡尺寸面積對比,直觀的展現(xiàn)出各網(wǎng)頁目錄的訪客數(shù)多少。
2、色彩:色彩是展現(xiàn)大數(shù)據(jù)集的一種優(yōu)秀方式,我們可以通過色彩識別出很多層次和色調。這一點使得色彩成為展現(xiàn)宏觀趨勢的必然選擇。運用色彩進行可視化創(chuàng)作時要特別注意的是要確保讀者能夠區(qū)分出在45%和55%的數(shù)據(jù)點。
3、位置:基于位置的展現(xiàn)方式就是把數(shù)據(jù)和某些類型的地圖關聯(lián)起來,或者把它和一個真實或虛擬地方相關的可視化元素進行關聯(lián)。
六、結論
數(shù)據(jù)可視化通過圖像、圖形技術對數(shù)據(jù)進行形象化處理,通過信息技術對數(shù)據(jù)進行準確、實時、自動化的高度透明的處理。在實際項目中,將大量的數(shù)據(jù)以圖形人的方式在Web頁面上展現(xiàn)出來,有助于分析數(shù)據(jù),揭示數(shù)據(jù)內部規(guī)律。隨著計算機圖形學、多媒體技術、人機交互技術及各應用領域的需要,數(shù)據(jù)可視化將會有更加廣闊的發(fā)展空間。
參考文獻:
[1]Nathan Yau、向怡寧譯. 鮮活的數(shù)據(jù)—數(shù)據(jù)可視化指南 [M].人民郵電出版社,2012
[2]楊彥波、劉濱、祁明月. 信息可視化研究綜述 [J].河北科技大學學報,2014