史國舉
(畢節(jié)廣播電視大學(xué),貴州 畢節(jié) 551700)
在大數(shù)據(jù)時代,結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)無處不在并呈幾何級數(shù)增長,潛在價值巨大,被譽為未來新石油。各行各業(yè)發(fā)揮各自領(lǐng)域的專業(yè)優(yōu)勢,不斷增加對大數(shù)據(jù)應(yīng)用的投入。數(shù)字化轉(zhuǎn)型已成為行業(yè)發(fā)展的迫切需要,數(shù)據(jù)可視化的需求呈現(xiàn)爆發(fā)式增長,將數(shù)據(jù)轉(zhuǎn)化為圖形。其出乎意料的洞察力讓用戶能更直觀快速地看到相應(yīng)的信息,能夠?qū)?shù)據(jù)有更全面的了解,數(shù)據(jù)可視化成為一種必然趨勢。
數(shù)據(jù)可視化的發(fā)展歷史久遠,最早可追溯至遠古時代。1800年前,為了繪制海上主要風向的箭頭圖和天氣圖,人們開始嘗試用含有等高線的地磁圖來繪制海上風向和天氣圖。柱形圖和折線圖于18世紀首次被William Playfair用來表示一個國家的進出口量?!翱梢暬币辉~來源于美國,可以追溯到20世紀50年代計算機圖形學(xué)的早期。那時,人們用電腦制作出第一批圖形圖表。1987年,NSF(美國國家科學(xué)基金會)的《科學(xué)計算中的視覺化》把可視化首次作為一種組織性的次領(lǐng)域提出來,認為可視化是一種能夠處理大量科學(xué)數(shù)據(jù)集的工具,能夠提高科學(xué)家們從數(shù)據(jù)中發(fā)現(xiàn)現(xiàn)象的能力。20世紀90年代初,一個被稱為“信息可視化”的新研究領(lǐng)域誕生,旨在為許多應(yīng)用領(lǐng)域?qū)τ诔橄蟮漠愘|(zhì)性數(shù)據(jù)集的分析工作提供支持。同時,我國科研人員已經(jīng)在可視化領(lǐng)域付出了極大的努力,為各個領(lǐng)域應(yīng)用數(shù)據(jù)可視化奠定了堅實的基礎(chǔ)[1]。
周寧[2]在《信息資源可視化模型方法》中指出:我們在觀察世界的時候,往往會運用許多不同的視覺線索。研究表明,大多數(shù)視覺信號處理過程都發(fā)生在大腦的潛意識階段??梢暬侨说乃季S認知的強化過程,即人的大腦通過人眼觀察某個特定圖形和圖像,從而感知到某個抽象的事物,這一過程是一個強化認知的過程。幫助人們理解事物的規(guī)律是數(shù)據(jù)可視化的最終目的,而繪制的可視化結(jié)果只是直觀的過程表現(xiàn)。因此,在計算機領(lǐng)域,可視化(Visualization)技術(shù)是一種利用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù),旨在借助圖形化的手段,以更明確地、有效地傳遞信息,從而達到“百聞不如一見”“一圖勝千言”的效果。
數(shù)據(jù)分析是把隱藏在一大批看似雜亂無章的數(shù)據(jù)背后的信息集中和提煉出來,總結(jié)出研究對象的內(nèi)在規(guī)律,經(jīng)歷明確目的和思路、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化、報告撰寫的過程。如果把數(shù)據(jù)分析看作一個數(shù)學(xué)問題,數(shù)據(jù)可視化就是數(shù)據(jù)分析的子集,數(shù)據(jù)分析包括了數(shù)據(jù)可視化。
在大數(shù)據(jù)時代,一款好的工具能讓你事半功倍,讓用戶快速掌握信息的關(guān)鍵點,幫助他們做出更好、更明智的決策。常言道:“工欲善其事,必先利其器”。
由Excel衍生而來的Power BI,整合了Excel Power Query,Power Pivot,Power View和Power Map等一系列工具,堪稱微軟第二次偉大的發(fā)明,采用(Data Analysis Expression)數(shù)據(jù)分析表達式,它使得不懂編程但具備數(shù)據(jù)分析能力和商業(yè)直覺的分析人員能夠便捷而快速地提取、清理和整合各種數(shù)據(jù)源(mysql,Salesforce等),并創(chuàng)建復(fù)雜動態(tài)圖形和儀表,堪稱自助式BI 商務(wù)智能,是IT傻瓜化和數(shù)據(jù)分析的完美結(jié)合。
Tableau是一款完全的數(shù)據(jù)可視化軟件,專注于結(jié)構(gòu)化數(shù)據(jù)的快速可視化,使用者可以快速地實現(xiàn)數(shù)據(jù)可視化并構(gòu)建交互界面,只需將數(shù)據(jù)直接拖放到工具簿中,通過一些簡單的設(shè)置就可以獲得想要的可視化圖形,其核心是數(shù)據(jù)可視化技術(shù),具有獨創(chuàng)的VizQL數(shù)據(jù)庫和用戶體驗良好且易用的表現(xiàn)形式,是一個人人都能學(xué)會的敏捷商務(wù)智能工具。
作為一種商業(yè)級別的數(shù)據(jù)圖表,ECharts是一個開放源代碼的數(shù)據(jù)可視化工具,可用于PC端和移動端的大多數(shù)瀏覽器,它由JavaScript實現(xiàn),底層依靠輕量級矢量圖形庫 ZRender,具有豐富的可視化類型,支持多種數(shù)據(jù)格式,具有流暢性強的數(shù)據(jù)前端顯示、動態(tài)數(shù)據(jù)的動畫顯示、更強大的三維可視化,支持跨平臺應(yīng)用,有數(shù)據(jù)深度探索和無障礙訪問功能,并提供了多種可視化圖表,支持定制,易于使用,輕松滿足數(shù)據(jù)大屏、智慧城市、VR、AR等高品質(zhì)展示需求[3]。
Python語言強大而靈活,并有很強的擴展性,而且其語法相對簡單易懂,即使沒有編程基礎(chǔ)的普通辦公人員也能通過適當?shù)膶W(xué)習輕松掌握,被稱為“膠水語言”。Pyecharts和Plotly模塊是Python數(shù)據(jù)可視化中的兩個重要工具。Pyecharts在Python和ECharts之間架起了一座橋梁,讓 Python用戶也可以使用 ECharts的強大功能。Plotly是新一代Python繪圖模塊的王者之選,也是各種Web平臺的優(yōu)先選擇繪圖模塊。
早期的大多數(shù)與醫(yī)療相關(guān)的數(shù)據(jù)都是紙面形式,而非電子數(shù)據(jù)存儲,例如官方醫(yī)藥記錄、收費記錄、護士的手寫病例記錄、處方藥記錄、X光片記錄、磁共振成像(MRI)記錄、CT影像記錄等。醫(yī)學(xué)大數(shù)據(jù)主要有兩個方面:一是發(fā)現(xiàn)新知識,認識新規(guī)律;二是促進適度醫(yī)療,提升醫(yī)療的價值。從Google預(yù)測流感到如今的循證醫(yī)學(xué)、基因組分析、預(yù)判欺詐分析、設(shè)備/遠程監(jiān)控、病人資料分析等都是醫(yī)療大數(shù)據(jù)的應(yīng)用,能幫助病人實現(xiàn)疾病的智能化管理,實現(xiàn)數(shù)據(jù)智能的綠色醫(yī)療新生態(tài)。
交通擁堵成為人們十分關(guān)注的問題。有不同的解決方法解決交通擁擠的問題。大數(shù)據(jù)為解決交通擁堵問題提供了全新的思路。積極運用大數(shù)據(jù)技術(shù)治理交通擁堵,以交通物聯(lián)網(wǎng)、 GIS等技術(shù)為支撐,積極構(gòu)建完善的交通運輸體系,采集各類交通設(shè)施基礎(chǔ)數(shù)據(jù)。深圳利用大數(shù)據(jù)技術(shù)治理交通擁堵的舉措給其他城市提供了借鑒意義[4]。
當人們網(wǎng)購的時候,就產(chǎn)生了電商大數(shù)據(jù);而隨著商業(yè)信息和數(shù)據(jù)的激增,電商企業(yè)必須依賴于大數(shù)據(jù)技術(shù)來幫助管理者做出科學(xué)、合理的決策,以提高其競爭優(yōu)勢。電商行業(yè)大數(shù)據(jù)的應(yīng)用包括精準營銷、個性化服務(wù)、商品個性化推薦等方面。
大數(shù)據(jù)時代對可視化技術(shù)的需求越來越高。數(shù)據(jù)信息更新及發(fā)展速度之快,要求可視化技術(shù)能即時產(chǎn)生數(shù)據(jù)關(guān)聯(lián)。面對日益繁雜的數(shù)據(jù),常規(guī)的可視化方法已經(jīng)顯得力不從心,甚至無法對數(shù)據(jù)進行及時有效的處理。因此,大數(shù)據(jù)時代的到來對數(shù)據(jù)可視化的發(fā)展既是機遇也是挑戰(zhàn),研究人員需要不斷創(chuàng)新,才能滿足日益擴大的需求。具體包括以下方面。
(1)數(shù)據(jù)量龐大,超出了單機、外存模型甚至小型計算集群的處理能力極限,而目前的軟件和工具運行效率不高,需要探索全新的思路來解決這個問題。(2)在數(shù)據(jù)獲取和分析過程中,容易產(chǎn)生數(shù)據(jù)質(zhì)量問題,需要對數(shù)據(jù)的不確定性給予特別關(guān)注。(3)數(shù)據(jù)變化很快,常常是流式數(shù)據(jù),務(wù)必尋找流數(shù)據(jù)的實時分析和可視化方法。(4)面對復(fù)雜的高維數(shù)據(jù),目前的軟件系統(tǒng)的功能主要是統(tǒng)計和基本分析,缺乏分析能力。(5)多源數(shù)據(jù)的類型和結(jié)構(gòu)各不相同,現(xiàn)有方法很難滿足非結(jié)構(gòu)化、異構(gòu)數(shù)據(jù)的處理需求[5]。
數(shù)據(jù)可視化技術(shù)是在大數(shù)據(jù)時代的背景下出現(xiàn)的,目的是讓人們可以更方便地享受數(shù)據(jù)帶來的成果。在以計算機圖形繪制為基礎(chǔ)的傳統(tǒng)可視化技術(shù)上,隨著計算機技術(shù)、數(shù)據(jù)圖像處理技術(shù)和其他主流智能技術(shù)的發(fā)展,數(shù)據(jù)可視化技術(shù)已取得了一定的發(fā)展成果。但隨著數(shù)據(jù)規(guī)模的不斷擴大,數(shù)據(jù)種類的不斷增加,以及用戶對數(shù)據(jù)讀取的需求日益增加,現(xiàn)有的可視化技術(shù)已經(jīng)變得力不從心,人們需要繼續(xù)研究新的可視化技術(shù),以適應(yīng)社會發(fā)展的步伐。