王欣玉
摘要:Tableau是一款定位于數據可視化的智能展現工具,可以用來實現交互的、可視化的分析和儀表板應用,從而幫助企業(yè)快速地認識和理解數據,以應對不斷變化的市場環(huán)境與挑戰(zhàn)。簡便、快速地創(chuàng)建視圖和儀表板是Tableau最大的優(yōu)點之一,本文主要內容為介紹Tableau的數據基礎,學習實現利用Tableau快速創(chuàng)建基本的視圖,通過一個案例展示Tableau創(chuàng)建、設計、保存視圖和儀表板的基本方法,以此來供相關人士參考與交流。
關鍵詞:Tableau;商業(yè)數據;可視化
引言
數據可視化于上個世紀五十年代左右出現,最出名的代表是計算機創(chuàng)造出了圖形圖表,1987年,布魯斯·麥考梅克等撰寫的《科學計算可視化》加快了可視化技術的發(fā)展,第一次將科學計算中的可視化稱之為科學可視化。20世紀90年代初期,出現了信息可視化。目前將科學可視化與信息可視化都歸為數據可視化。數據可視化是信息時代人們對于邏輯思維形象化需求的產物,在數據呈現爆炸增長,社會快速發(fā)展的潮流中,數據的處理是很重要的一個研究方向,其中數據可視化的研究是數據處理重要的一個方面,本文借助Tableau軟件,利用某商場的全球商業(yè)數據進行可視化研究,為數據可視化的進程增添了部分理論依據。
一、數據可視化的好處與優(yōu)點
數據可視化是數據領域一個重要的分支,目的是“讓數據說話”,展現數據之美。好的圖表會說話,好的圖表可以抓住用戶的心。信息時代讓人們的生活節(jié)奏加快,人們每一天都變得匆忙,時間被碎片化,甚至沒有多少時間完整看完一段文字。文字的力量是有限的。只有借助可視化,信息才能高效地傳播。數據可視化是數據領域一個重要的分支,目的是“讓數據說話”,展現數據之美。好的圖表會說話,好的圖表可以抓住用戶的心。在當今信息時代,信息出現了“泛濫”與“過載”,人們每天都受到各種信息的“轟炸”。當我們打開網頁或手機APP時,首先進入我們視野的就是各種彈出的廣告信息。這些信息從內容到形式,都經過了精心設計。我們走在大街上,映入我們眼球的則是滿大街的廣告海報,還時常有人站在街邊向路人派發(fā)傳單。我們不僅僅只從書上看到了可視化的圖表,還從海報、信息圖、PPT、數據產品、大屏等獲取到了大量的可視化信息。能夠讓人們快速的得到所需要的數據信息[1]。
二、數據可視化的發(fā)展
數據圖表是最常用的可視化元素,除柱形圖、條形圖、餅圖、環(huán)形圖、線圖、散點圖、面積圖、雷達圖、K線圖、地圖等基本圖表外,現在也出現了更多新式的圖表,如山峰圖、雷達圖、氣泡圖、熱力圖、漏斗圖、樹圖、箱形圖、瀑布圖、河流圖、詞云圖、儀表盤、南丁格爾玫瑰圖、旭日圖、和弦圖、?;鶊D、3D圖,等等。另外,智慧的人們也常常創(chuàng)意性地將各種圖表混搭,例如地圖和餅圖、散點圖、柱形圖等搭配使用。由于技術的發(fā)展,實時數據采集、實時數據傳輸以及實時數據計算得以實現,人們終于得以欣賞到數據的靈動之美。以前人們只能看到事后數據形成的分析結果,看到的是數據的過去式,領略的是數據的靜態(tài)之美。而現在,通過實時計算及數據可視化,人們可以知道“當前時刻發(fā)生了什么”,看到了數據的變化,看到了數據的動態(tài)之美。數據可視化在設計上更注重用戶體驗了由“信息泛濫”引起“信息過載”,從而導致“信息焦慮”。無論是風格、元素、配色、文字、交互上還是細節(jié)上,人們的可視化作品都越來越注重用戶的視覺體驗,希望能讓用戶一目了然,不多花一點兒時間去理解。在設計風格上,從3D擬物化到簡潔扁平化再到擬物扁平化的發(fā)展變化,也在不斷地為用戶“做減法”[2]。
三、數據可視化的數據分析與來源
(一)數據來源
數據的來源是利用某商場的全球銷售的數據,這部分數據包含的字段多,數據量大,符合數據可視化研究的基本條件,因此選擇商業(yè)數據作為數據可視化研究的基礎數據[3]。
(二)數據處理與分析
Tableau軟件對數據的處理之前需要對數據進行簡單的處理,綜合商業(yè)數據的數據特點,主要采用三種數據處理的方法,分別是數據插值、數據擬合和SOM算法。在進行可視化分析的過程中,要注意數據擬合數據擬合是用連續(xù)曲線近似地刻畫或比擬平面上離散點組所表示的坐標之間的函數關系的一種數據處理方法[5]。用連續(xù)的函數來分析離散的數據的一種常規(guī)的數據處理的方法,在科學研究或者實際生產過程中,可以把觀測或者實驗得到的數據對(xi,yi)(i=1,2,...,m),其中xi各不相同,對應的yi也各不相同,人們希望有這樣一個函數能夠經過實驗所得的這些點數據,至少無限逼近這些點數據,從而達到一種擬合的效果,我們把這個通過這些點或者無限逼近這些點的這個函數成為擬合函數。得到擬合函數以后,可以對數據中的異常值或者缺失值進行剔除或者填充,這個數據處理的方法,在數據可視化的過程中顯得尤為重要。實現多維數據可視化的方法是把一個高維空間的數據信息通過降低維度的方法達到能夠可視化的目的,SOM算法主要是實現降低維度的運算,低維數據的空間可以分為若干個規(guī)格網格部分,規(guī)格網格要表示高維數據的信息,為了實現著這個目標,可以假設低維空間的網格由大約M個單元構成,單元j都有一個與高維信息維數相同的原型矢量,該單元在網格中的位置rj是固定的。SOM的訓練過程實際是調整原型矢量數據的過程,可以通過訓練得到原型矢量對應到低維空間,從而低維空間表示高維的信息。SOM算法是自組織神經網絡的相關知識,在訓練權值和閾值的過程中實現降維的對應法則,為數據可視化的維度變化提供算法支持[4]。
四、結束語
數據可視化的研究在利用了Tableau作為軟件平臺,同時借助于數據插值算法,數據擬合算法,和SOM神經網絡算法的基礎上對數據進行可視化,可以從圖片的形象化視角來理解抽象的邏輯化視角數據,用戶可以通過圖片、表格等直觀明了的角度看待數據,及時為正確的決策提供有力的建議和指導,在一定程度上促進了經濟的發(fā)展和社會的和諧穩(wěn)定。
參考文獻:
[1] 陳明. 大數據可視化分析[J]. 計算機教育, 2015(5):94-97.
[2] 曾悠. 大數據時代背景下的數據可視化概念研究[D]. 浙江大學, 2014.
[3] 任永功, 于戈. 數據可視化技術的研究與進展[J]. 計算機科學, 2004, 31(12):92-96.
[4] 吳健生, 王仰麟, 曾新平,等. 三維可視化環(huán)境下礦體空間數據插值[J]. 北京大學學報(自然科學版), 2004, 40(4):635-641.
(作者單位:天津理工大學信息安全)