左圓圓 王媛媛 蔣珊珊 徐榕薈
摘要:目前,人類社會正處于大數(shù)據(jù)爆發(fā)的時代,多元化數(shù)據(jù)涌現(xiàn)和信息激流使人、企業(yè)和社會對大數(shù)據(jù)的依賴在不斷深化,與此同時,數(shù)據(jù)可視化研究已成為一個新的時代命題。就數(shù)據(jù)可視化展開綜述,介紹了數(shù)據(jù)可視化的概念、發(fā)展歷史,然后對數(shù)據(jù)可視化中的數(shù)據(jù)進行了詳細闡述,列舉了可視化的常用工具及數(shù)據(jù)可視化圖表。
關(guān)鍵詞:數(shù)據(jù)可視化;數(shù)據(jù)分析;可視化工具;可視化圖表
中圖分類號:P208
文獻標識碼:A
DOI: 10.15913/j.cnki.kjycx.2019.11.030
如今,數(shù)據(jù)可視化不是一個新主題,但它的價值日益增加,其不僅能將凌亂的數(shù)字轉(zhuǎn)變?yōu)槊利惖木吧?,也能實現(xiàn)凌亂、難以“看穿”數(shù)據(jù)信息到直觀且易于理解的企業(yè)決策信息的變化。在提升企業(yè)形象的同時,它提高了公司的收入,被稱為企業(yè)問題的“美麗殺手”,它是技術(shù)與藝術(shù)的完美結(jié)合。
1 數(shù)據(jù)可視化簡介
1.1 數(shù)據(jù)可視化
數(shù)據(jù)可視化是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)和技術(shù)研究。數(shù)據(jù)可視化技術(shù)充分使用圖形、圖像處理、計算機視覺和用戶界面來表達、建模和顯示立體、表面、屬性和動畫,對數(shù)據(jù)加以可視化解釋。
1.2 數(shù)據(jù)可視化歷史
1.2.1 18世紀——數(shù)據(jù)可視化的起源
數(shù)據(jù)可視化起源于18世紀,William Playfair在出版的書籍《The Commercial and Political Atlas》中第一次使用了柱形圖和折線圖。世界上第一個餅圖顯示了1789年土耳其帝國在亞洲、歐洲和非洲的疆土比例。
1.2.2 19世紀——數(shù)據(jù)可視化的第一個黃金時期
在19世紀上半葉,數(shù)據(jù)開始受到關(guān)注,統(tǒng)計數(shù)據(jù)和概念圖爆炸式增長,包括直方圖、餅圖、直方圖、折線圖、時間軸、輪廓等;在19世紀中期,數(shù)據(jù)可視化主要用于軍事目的;19世紀下半葉,進入了數(shù)據(jù)可視化的黃金時代。
1.2.3 20世紀前期——現(xiàn)代啟蒙
20世紀上半葉,人們第一次意識到圖形的顯示方式為航空航天、物理學(xué)、天文學(xué)和生物學(xué)領(lǐng)域的科學(xué)和工程提供了新的見解和發(fā)現(xiàn)機會。
1.2.4 20世紀中后期——新的生命力
從20世紀60年代到70年代,數(shù)據(jù)可視化依賴于計算機科學(xué)和技術(shù),具有新的活力;從20世紀70年代到80年代,人們主要嘗試使用多維定量數(shù)據(jù)的靜態(tài)圖來表示靜態(tài)數(shù)據(jù);在20世紀80年代中期,動態(tài)統(tǒng)計圖表開始出現(xiàn),最后兩種方式在20世紀末開始合并,試圖實現(xiàn)動態(tài)的交互式數(shù)據(jù)可視化。因此,動態(tài)交互式數(shù)據(jù)可視化已成為一個新的發(fā)展主題。
1.2.5 21世紀——大數(shù)據(jù)時代
當世界在2003年創(chuàng)建5個EB數(shù)據(jù)時,人們開始關(guān)注大數(shù)據(jù)的處理;2011年,世界上每天新增數(shù)據(jù)量開始呈指數(shù)級增長,用戶使用數(shù)據(jù)的效率也在不斷提高;2012年,我們進入數(shù)據(jù)驅(qū)動的時代。掌握數(shù)據(jù)意味著掌握發(fā)展方向,因此人們對數(shù)據(jù)可視化技術(shù)的依賴也在不斷深化。大數(shù)據(jù)可視化研究已成為一個新的時代命題。
2 數(shù)據(jù)與可視化
2.1 數(shù)據(jù)釋義
關(guān)于數(shù)據(jù)的定義,大多數(shù)人含糊不清地回答說數(shù)據(jù)類似電子表格或很多數(shù)字,而具有一些技術(shù)背景的人會提到數(shù)據(jù)庫或數(shù)據(jù)倉庫。但這些答案僅描述了數(shù)據(jù)的格式和數(shù)據(jù)的存儲方式。要想可視化數(shù)據(jù),則必須知道它所表達的內(nèi)容。
2.2 可視化工具
2.2.1
Microsoft Excel
Excel是常用的入門級數(shù)據(jù)可視化工具。輸入某些數(shù)據(jù)后,單擊菜單欄中的“圖表”選項以生成所需的圖表。Excel提供了多種標準圖表類型供用戶選擇,包括柱形圖、折線圖、餅圖和散點圖。
Excel雖然不適合用來做深度分析,生成的圖表也不會用于出版,但它方便快捷,隨手點擊幾下鼠標就可以用它生成一個圖形。正是Excel的方便易用讓它獲得了大眾的青睞,但如果想要高質(zhì)量的數(shù)據(jù)圖就不要止步于此,其他工具會更適合。
2.2.2 Tableau
Tableau是一種用于數(shù)據(jù)可視化敏捷開發(fā)和實現(xiàn)的商業(yè)智能演示工具,可用于實現(xiàn)交互式、可視化分析和儀表板應(yīng)用程序。數(shù)據(jù)可視化允許將枯燥的數(shù)據(jù)呈現(xiàn)在簡單、友好的圖表中,這是最直觀、最有效的分析方法,沒有過多的技術(shù)基礎(chǔ),任何人可以輕松學(xué)習(xí)Tableau,并使用其可視化功能來處理和顯示數(shù)據(jù),以便更好地分析表面數(shù)據(jù)。
作為輕量級可視化BI工具的良好代表,Gartner的商業(yè)智能和分析平臺魔力象限于2015-02發(fā)布,已連續(xù)第三次蟬聯(lián)領(lǐng)先者。德國電子商務(wù)網(wǎng)絡(luò)的數(shù)據(jù)科學(xué)家也認為,擁有像Tableau這樣的工具就足夠了,無論是報告還是挖掘數(shù)據(jù)并進行分析。
2.2.3 Python
Python是一種解釋型、面向?qū)ο?、動態(tài)數(shù)據(jù)類型的高級程序設(shè)計語言,在重視開發(fā)功率和科技不斷開展的背景下,Python得到越來越多人的青睞。根據(jù)IEEE Spectrum發(fā)布的一項研究,2016年排名第三的Python已成為2017年全球最受歡迎的語言,C語言和Java分別位居第二和第三。
Python具有以下特性:①易于學(xué)習(xí)。Python的關(guān)鍵字相對較少,結(jié)構(gòu)簡單,語法定義明確,而且學(xué)習(xí)起來相對簡單。②易于閱讀。Python代碼的定義比較清晰,易于閱讀。③易于維護。Python的成功在于它的源代碼是相當容易維護的。④具有一個廣泛的標準庫。Python的最大優(yōu)勢之一是具有豐富的庫,它是跨平臺的,具有良好的兼容性。⑤可移植?;谄溟_放源代碼的特性,Python已被移植到許多平臺。2.2.4 R
R是一款免費的開源統(tǒng)計計算軟件,具有強大的圖形功能。它也是統(tǒng)計學(xué)最流行的分析軟件之一。R專為數(shù)據(jù)分析而設(shè)計,還有很多支持R的工具包。只需要將數(shù)據(jù)加載到R中并編寫一行或兩行代碼來創(chuàng)建數(shù)據(jù)圖。
用R能做很多事情:它能夠生成較高打印質(zhì)量的圖像,并且非常靈活;也可以編寫人格的功能或包,以人希望的方式創(chuàng)建圖形,或可以借用R庫中其他人開發(fā)的成品。R提供了基本的繪圖功能,可以根據(jù)需要繪制所需的圖形,比如線條、形狀和坐標軸。實際上,任何類型的圖表都可以使用R或R工具包實現(xiàn)。
2.3 數(shù)據(jù)可視化的圖表
實現(xiàn)可視化是為了證實我們對數(shù)據(jù)的認識,創(chuàng)建可視化的一個挑戰(zhàn)是學(xué)習(xí)正確的繪圖方法。數(shù)據(jù)可視化有很多類型的圖表,比如條形圖、餅圖、折線圖、散點圖、氣泡圖、甘特圖、核密度估計圖、箱線圖和打包圖等,這里列舉一些常用的圖表。
2.3.1 條形圖
條形圖(也稱為條形圖、條形圖和柱形圖)是最常用的圖表類型之一,通過垂直或水平條顯示維度字段的分布。水平條形圖是一般意義上的條形圖,垂直條形圖通常稱為柱形圖。條形圖最適合比較不同類別的大小。
2.3.2 餅圖
餅圖在數(shù)據(jù)分析中無處不在。餅狀圖可以用于比較數(shù)值的大小,但是有一個缺點:如果數(shù)值之間差距不大,肉眼很難分。因此,最好用于表示某一個值占全體值的百分比。餅圖的每個部分都標有標簽,或者可以用一條線連接到外部表示。另外,餅狀圖還有一些變種,比如各扇形的半徑不同,該半徑可表示另一個數(shù)據(jù)量。
2.3.3 折線圖
折線圖是一種經(jīng)常使用的圖表。與條形圖相比,折線圖不僅可以指示數(shù)量,還可以直觀地反映隨時間序列變化的相同事物的趨勢。折線圖比較適合連續(xù)、大量的數(shù)據(jù),而且折線圖用于表示多個數(shù)據(jù)集之間的比較時,效果較好。
2.3.4 散點圖
散點圖使用三維數(shù)據(jù)集,將二維數(shù)據(jù)分別映射到x軸和y軸,然后第三維用點表示。散點圖的數(shù)據(jù)通常是點的集合,通常用于繪制各種依賴關(guān)系。比如正相關(guān)表示隨著一組數(shù)據(jù)遞增,其他數(shù)據(jù)也遞增。一些著名的案例為男性和女性人群中不同年齡患皮膚病可能性、智商測試分數(shù)與GPA之間的關(guān)聯(lián)。
參考文獻:
[1]科斯·拉曼.Python數(shù)據(jù)可視化[M].程豪,譯.北京:機械出版社,2017.
[2] YAUN.鮮活的數(shù)據(jù):數(shù)據(jù)可視化指南[M].向怡寧,譯.北京:人民郵電出版社,2012.
[3]呂之華.精通D3js:交互式數(shù)據(jù)可視化高級編程[M].北京:電子工業(yè)出版社,2015.
[4]陳為,沈則潛,陶煜波.數(shù)據(jù)可視化[M].北京:電子工業(yè)出版社.2013.
[5]周蘇,張麗娜,王文.大數(shù)據(jù)可視化技術(shù)[M].北京:清華大學(xué)出版社,2016.
[6] KRUMR,唐沁,周優(yōu)游.可視化溝通[M].張璐露,譯.北京:電子工業(yè)出版社,2014.
[7] EDWARD R T.Visual Explanations: Images andQuantities, Evidence and Narrative[M].Nuneaton:Graphics Press,1997
[8] MAARTEN H E, BEKKER H, ISENBERH T, et al.Depth-dependent halos: illustrative rendering of denseLine data[J].IEEE Transactions on Visualization andComputer Graphics, 15(6),2009: 1299-1306.