黃亮 戴小鵬 王奕
摘要:人類利用形象思維獲取視覺符號中所蘊含的信息并發(fā)現(xiàn)規(guī)律,進而獲得科學發(fā)現(xiàn)。本文在Tableau軟件作為可視化平臺的基礎上,借助于數(shù)據(jù)插值、數(shù)據(jù)擬合、SOM神經(jīng)網(wǎng)絡算法對可視化數(shù)據(jù)進行分析,利用某商場的全球銷售數(shù)據(jù)對數(shù)據(jù)進行可視化研究,并根據(jù)可視化的結果得到相應的決策結論。
關鍵詞:Tableau;SOM算法;數(shù)據(jù)可視化
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)29-0014-02
1 引言
數(shù)據(jù)可視化[1]于上個世紀五十年代左右出現(xiàn),最出名的代表是計算機創(chuàng)造出了圖形圖表,1987年,布魯斯·麥考梅克等撰寫的《科學計算可視化》加快了可視化技術的發(fā)展,第一次將科學計算中的可視化稱之為科學可視化。20世紀90年代初期,出現(xiàn)了信息可視化。目前將科學可視化與信息可視化都歸為數(shù)據(jù)可視化。數(shù)據(jù)可視化是信息時代人們對于邏輯思維形象化需求的產物,在數(shù)據(jù)呈現(xiàn)爆炸增長,社會快速發(fā)展的潮流中,數(shù)據(jù)的處理是很重要的一個研究方向,其中數(shù)據(jù)可視化的研究是數(shù)據(jù)處理重要的一個方面,本文借助Tableau軟件,利用某商場的全球商業(yè)數(shù)據(jù)進行可視化研究,為數(shù)據(jù)可視化的進程增添了部分理論依據(jù)。
2 數(shù)據(jù)可視化平臺的選取
可視化工具產品從使用方法的角度來說,可以分為工具開箱即用與代碼開發(fā)使用方式兩種[2],下面舉例說明幾個常見的可視化工具[3]。
從上表的比較中,結合每一種數(shù)據(jù)可視化開發(fā)工具的優(yōu)缺點,本文考慮到數(shù)據(jù)可視化研究的另外一個重點還有數(shù)據(jù)處理的部分,因此選擇了簡單易操作的Tableau軟件來進行數(shù)據(jù)可視化,因為Tableau做數(shù)據(jù)可視化研究不需要太多的編程經(jīng)驗,編程人員可以集中到數(shù)據(jù)操作的模塊。
3 數(shù)據(jù)可視化數(shù)據(jù)來源與分析
3.1 數(shù)據(jù)來源
數(shù)據(jù)的來源是利用某商場的全球銷售的數(shù)據(jù),這部分數(shù)據(jù)包含的字段多,數(shù)據(jù)量大,符合數(shù)據(jù)可視化研究的基本條件,因此選擇商業(yè)數(shù)據(jù)作為數(shù)據(jù)可視化研究的基礎數(shù)據(jù)。
3.2 數(shù)據(jù)處理與分析
Tableau軟件對數(shù)據(jù)的處理之前需要對數(shù)據(jù)進行簡單的處理,綜合商業(yè)數(shù)據(jù)的數(shù)據(jù)特點,主要采用三種數(shù)據(jù)處理的方法,分別是數(shù)據(jù)插值、數(shù)據(jù)擬合和SOM算法。
3.2.1 數(shù)據(jù)插值
3.2.2 數(shù)據(jù)擬合
數(shù)據(jù)擬合是用連續(xù)曲線近似地刻畫或比擬平面上離散點組所表示的坐標之間的函數(shù)關系的一種數(shù)據(jù)處理方法[5]。用連續(xù)的函數(shù)來分析離散的數(shù)據(jù)的一種常規(guī)的數(shù)據(jù)處理的方法,在科學研究或者實際生產過程中,可以把觀測或者實驗得到的數(shù)據(jù)對(xi,yi)(i=1,2,...,m),其中xi各不相同,對應的yi也各不相同,人們希望有這樣一個函數(shù)能夠經(jīng)過實驗所得的這些點數(shù)據(jù),至少無限逼近這些點數(shù)據(jù),從而達到一種擬合的效果,我們把這個通過這些點或者無限逼近這些點的這個函數(shù)成為擬合函數(shù)。得到擬合函數(shù)以后,可以對數(shù)據(jù)中的異常值或者缺失值進行剔除或者填充,這個數(shù)據(jù)處理的方法,在數(shù)據(jù)可視化的過程中顯得尤為重要。
3.2.3 SOM算法
SOM[6-7]實現(xiàn)多維數(shù)據(jù)可視化的方法是把一個高維空間的數(shù)據(jù)信息通過降低維度的方法達到能夠可視化的目的,SOM算法主要是實現(xiàn)降低維度的運算,低維數(shù)據(jù)的空間可以分為若干個規(guī)格網(wǎng)格部分,規(guī)格網(wǎng)格要表示高維數(shù)據(jù)的信息,為了實現(xiàn)著這個目標,可以假設低維空間的網(wǎng)格由大約M個單元構成,單元j都有一個與高維信息維數(shù)相同的原型矢量(protrdype vector)mj=[mj1,...,mjd],該單元在網(wǎng)格中的位置rj是固定的。SOM的訓練過程實際是調整原型矢量數(shù)據(jù)的過程,可以通過訓練得到原型矢量對應到低維空間,從而低維空間表示高維的信息。SOM算法是自組織神經(jīng)網(wǎng)絡的相關知識,在訓練權值和閾值的過程中實現(xiàn)降維的對應法則,為數(shù)據(jù)可視化的維度變化提供算法支持。
4 數(shù)據(jù)可視化數(shù)據(jù)顯示
本文利用某商場的全球商業(yè)數(shù)據(jù)進行數(shù)據(jù)可視化處理,圖1是商品類別銷售情況隨地域分布情況的可視化研究,由圖可以看出,非洲市場的銷售量較低,因此可以得出非洲市場是該商場的潛在市場;圖2是銷售商品在一年中的銷售變化趨勢情況分析,從圖中可以得出銷售情況在四年中每一年的銷售情況的基本分布為一到五月增長平緩,六月銷售量有上升趨勢,七月銷售額有下降趨勢,八月到十二月基本保持較高的銷售額,因此該公司可以根據(jù)此變化趨勢采取相應的措施,在五月開始增加儲貨量,為后續(xù)的銷售提供充足的貨源。
圖3中以坐標圖的形式展現(xiàn)了辦公用品,技術和家具的利潤隨裝運成本的變化趨勢情況,其中從圖中易得出無論是家具、技術還是辦公用品,都有利潤和裝運成本較低的情況出現(xiàn),且辦公用品的分布相對集中,而技術的分布相對分散。圖4是以地圖的形式展現(xiàn)銷售額和利潤的地域分布情況,從圖中明顯可以得出無論是銷售額還是利潤,在西歐地區(qū)都有較大的數(shù)據(jù)量。
5 結束語
數(shù)據(jù)可視化[8]的研究在利用了Tableau作為軟件平臺,同時借助于數(shù)據(jù)插值算法,數(shù)據(jù)擬合算法,和SOM神經(jīng)網(wǎng)絡算法的基礎上對數(shù)據(jù)進行可視化,可以從圖片的形象化視角來理解抽象的邏輯化視角數(shù)據(jù),用戶可以通過圖片、表格等直觀明了的角度看待數(shù)據(jù),及時為正確的決策提供有力的建議和指導,在一定程度上促進了經(jīng)濟的發(fā)展和社會的和諧穩(wěn)定。
參考文獻:
[1] 陳明. 大數(shù)據(jù)可視化分析[J]. 計算機教育, 2015(5):94-97.
[2] 曾悠. 大數(shù)據(jù)時代背景下的數(shù)據(jù)可視化概念研究[D]. 浙江大學, 2014.
[3] 任永功, 于戈. 數(shù)據(jù)可視化技術的研究與進展[J]. 計算機科學, 2004, 31(12):92-96.
[4] 吳健生, 王仰麟, 曾新平,等. 三維可視化環(huán)境下礦體空間數(shù)據(jù)插值[J]. 北京大學學報(自然科學版), 2004, 40(4):635-641.
[5] 伊曉東, 孫鵬. 基于小波分析的神經(jīng)網(wǎng)絡在遙感測溫數(shù)據(jù)擬合中的應用[J]. 測繪與空間地理信息, 2017, 40(5):8-10.
[6] 芮小平, 張立強. 基于SOM的多維信息可視化研究[J]. 應用基礎與工程科學學報, 2011,19(3):379-388.
[7] 陳萬振, 張予瑤, 蘇一丹,等. 貝葉斯正則化的SOM聚類算法[J]. 計算機工程與設計, 2017, 38(1):127-131.
[8] 姜玉哲. 農業(yè)傳感數(shù)據(jù)可視化研究與實現(xiàn)[D]. 黑龍江大學, 2016.
【通聯(lián)編輯:唐一東】