盧弘杰
摘要:以當前我們對人腦思維和認知的了解,抽象思維與形象思維是我們聯(lián)系一切事物的根本。在計算機技術(shù)日益成熟的今天,大數(shù)據(jù)可視化是當代最為熱門的話題之一,隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)可視化技術(shù)與可視分析已逐漸成為科學(xué)發(fā)現(xiàn)與創(chuàng)新的重要方式。如何滿足用戶的應(yīng)用需求,如何通過探索、研究和設(shè)計新的技術(shù)去引領(lǐng)人們的應(yīng)用意識,是每一位從事相關(guān)內(nèi)容研究工作人員需要深刻思考的問題。本文將對大數(shù)據(jù)可視化與可視分析進行論述。
關(guān)鍵詞:計算機技術(shù);大數(shù)據(jù);可視化
中圖分類號:TP311? ? 文獻標識碼:A
文章編號:1009-3044(2021)08-0027-03
1 數(shù)據(jù)可視化簡述
關(guān)于數(shù)據(jù)可視化的定義有很多,通常我們在大數(shù)據(jù)分析應(yīng)用中所提到的可視化是指,利用包括圖像和人機交互等在內(nèi)的計算機技術(shù),將已被采集的和需要被模擬的數(shù)據(jù)映射為更加直觀的、滿足人們需要的圖形和圖像。所以我們認為,“可視化”就是將人們感興趣的信息數(shù)據(jù)轉(zhuǎn)化為更加便于人們欣賞的圖式化過程。顯然更加側(cè)重人對數(shù)據(jù)、信息和知識自上而下的加工處理過程。相對于繁雜的數(shù)據(jù),圖表不僅能更加簡潔地表述信息,還適用于大量信息的描繪,即對大量數(shù)據(jù)的承載。這也是數(shù)據(jù)可視化成為大數(shù)據(jù)分析工具不可或缺的功能模塊的主要原因。
數(shù)據(jù)可視化包含三個分支,科學(xué)可視化、信息可視化和可視分析,其中可視分析是本文主要所討論的一個分支??梢暦治鍪请S著人工智能的興起而出現(xiàn)的一個新學(xué)科,它被定義為由可視交互界面為基礎(chǔ)的分析推理科學(xué),將圖形學(xué)、數(shù)據(jù)挖掘、人機交互等技術(shù)融合在一起,形成人腦智能和機器智能優(yōu)勢互補和相互提升。
2 大數(shù)據(jù)可視化分析方法
2.1原位交互分析技術(shù)
所謂原位交互分析是指,對那些存在于內(nèi)存的大量數(shù)據(jù)進行可視化分析。運用此項技術(shù)對數(shù)據(jù)進行分析的主要原因在于,當面對體量非常龐大的數(shù)據(jù)時,特別是PB量級以上的數(shù)據(jù),將數(shù)據(jù)存入磁盤后再進行分析是極為不合適的,這會大幅度增加I/O的開銷,而在數(shù)據(jù)還在內(nèi)存時就進行可視化分析,則有助于我們實現(xiàn)數(shù)據(jù)使用與磁盤讀取比例的最大化。但在應(yīng)用此項技術(shù)進行數(shù)據(jù)可視化分析時也容易出現(xiàn)一些問題,比如由人機交互減少而引起流程中斷和因硬件執(zhí)行單元不能高效共享處理器而導(dǎo)致的流程中斷。
2.2大數(shù)據(jù)存儲技術(shù)
大數(shù)據(jù)存儲技術(shù)是在云服務(wù)的之后出現(xiàn)的,它主要是為解決云服務(wù)無法解決的問題而存在的,比如對EB量級的超大規(guī)模數(shù)據(jù)應(yīng)用。大型企業(yè)之所以會癡迷于新技術(shù)的研發(fā)與應(yīng)用,主要與數(shù)據(jù)的存儲成本有關(guān),起碼到目前為止,私有集群中的硬盤存儲成本還明顯低于每千兆字節(jié)的云存儲成本。而另一方面,基于云端數(shù)據(jù)庫的數(shù)據(jù)傳輸始終會受到網(wǎng)絡(luò)帶寬的制約,這也就進一步堅定了人們應(yīng)用大數(shù)據(jù)技術(shù)實現(xiàn)數(shù)據(jù)可視化的信念。
2.3可視化分析算法
在大數(shù)據(jù)可視化算法方面,我們不僅要考慮可視化數(shù)據(jù)的規(guī)模,還需要注意到視覺感知的高效算法,比如增加和創(chuàng)新視覺表現(xiàn)方式和與用戶交互的方法。同時,為了滿足使用者的喜好與需求,可視化還必須需要高度的輸出適應(yīng)性,以實現(xiàn)自動學(xué)習(xí)算法與需要的有機結(jié)合,這會在一定程度上增加控制參數(shù)搜索空間,在降低探索難度和減少數(shù)據(jù)分析成本的同時,也減少了搜索的時間。
2.4不確定性的量化
一般情況下,為滿足數(shù)據(jù)分析的實時性要求,我們會在數(shù)據(jù)分析任務(wù)中引入數(shù)據(jù)亞采樣,但這也增加更多不確定性,并且隨著數(shù)據(jù)規(guī)模的不斷擴大,直接處理整個數(shù)據(jù)集的能力也將受到很大限制。所以,對不確定性因素和元素的量化已成為科學(xué)工程領(lǐng)域里所要研究的重要問題之一。可視化技術(shù)可以為用戶提供更加直觀的不確定性因素視圖,使用戶能夠更加直觀地去了解已存在的這些“不確定性”,增加了用戶選擇正確參數(shù)的概率,降低了誤導(dǎo)性結(jié)果產(chǎn)生的概率。
2.5并行計算
并行計算針對可視計算需要占用大量時間所提出的一種概念,它有助于我們實現(xiàn)數(shù)據(jù)分析的實時交互。并行計算的實現(xiàn),有效減少了整個體系結(jié)構(gòu)中單個核心所占有的內(nèi)存量,提升了系統(tǒng)內(nèi)的數(shù)據(jù)移動效率。但需要指出的是,若想充分發(fā)揮并行計算的優(yōu)勢,最大限度實現(xiàn)它所具有的功能,需要我們重新去設(shè)計可視化分析算法,重設(shè)計數(shù)據(jù)模型,必要時,還需要引入具有很強創(chuàng)新性的視覺表現(xiàn)手法和用戶交互手段。
2.6用戶界面與交互設(shè)計
隨著大數(shù)據(jù)可視化技術(shù)的不斷發(fā)展和應(yīng)用,那些缺少最后可擴展性的可視化分析算法設(shè)計理念逐漸被淘汰掉了,與之相對應(yīng)的,那些復(fù)雜算法和不易輸出簡明結(jié)果的算法也不再被用戶使用,取而代之的是高度人性化的人際交互設(shè)計理念。因此在大數(shù)據(jù)的可視化分析中,用戶界面與交互設(shè)計成為當前人們所研究的重點,新的理念設(shè)計需要考慮的問題有:用戶驅(qū)動的數(shù)據(jù)簡化、可擴展性與多級層次、異構(gòu)數(shù)據(jù)融合、交互查詢中的數(shù)據(jù)概要與分流、表示證據(jù)和不確定性、時變特征分析、設(shè)計與工程開發(fā)等。
3大數(shù)據(jù)可視化分析案例
大數(shù)據(jù)網(wǎng)絡(luò)安全的可視化設(shè)計:
在白環(huán)境蟲圖可視化分析設(shè)計中,雖然數(shù)據(jù)量大大增加了,但用戶的理解程度卻提高了。用蟲圖對數(shù)據(jù)進行可視化分析的主要目的是監(jiān)測訪問內(nèi)網(wǎng)核心服務(wù)器的異常流量,整體的圖形結(jié)構(gòu)將圍繞內(nèi)網(wǎng)資產(chǎn)和訪問關(guān)系這兩個核心點來展開布局(如圖1)。
根據(jù)以往的經(jīng)驗,帶有關(guān)系的數(shù)據(jù)一般使用和弦圖和力導(dǎo)向布局圖。最初我們采用的是和弦圖,圓點內(nèi)部是主機,用戶要通過3個維度去尋找事件的關(guān)聯(lián)。通過測試發(fā)現(xiàn),用戶很難理解,因此選擇了力導(dǎo)向布局圖(蟲圖)。圖1中的第一個層級所展示的是全局關(guān)系,第二個層級是通過對IP或端口的鉆取進一步展現(xiàn)相關(guān)性。
在優(yōu)化圖形環(huán)節(jié),我們對去多地方都做了進一步調(diào)整,比如考慮用戶對圖形元素疏密程度的適應(yīng)性,只將TOP N展示出來;元素風格與界面風格保持一致;IP名稱超長時所省略處理;在交互方面,通過單擊鉆取到單個端口和IP的信息;鼠標滑過時相關(guān)信息高亮展示,這樣既能讓畫面更加炫酷,又能讓人方便地識別。
在檢測環(huán)節(jié),通過調(diào)研,用戶對企業(yè)內(nèi)部的流向非常清楚,視覺導(dǎo)向清晰,鉆取信息方便,色彩、動效等細節(jié)的優(yōu)化幫助用戶快速定位問題,提升了安全運維效率。
4 大數(shù)據(jù)可視化所面臨的挑戰(zhàn)
隨著大數(shù)據(jù)可視化技術(shù)的不斷成熟,人們對它的使用也越來越廣泛,過程中自然也就會產(chǎn)生一系列問題。
1) 視覺噪聲
相關(guān)性極強的數(shù)據(jù)無法被分離成獨立的對象來顯示。
2) 信息丟失
在減少可視數(shù)據(jù)集的過程中,經(jīng)常會丟失很多信息。
3) 大型圖像感知
數(shù)據(jù)可視化不僅受限于設(shè)備的長度比及分辨率,也受限于現(xiàn)實世界的感受。
4) 高速圖像變換
大數(shù)據(jù)可視化帶給用戶的感受是直觀的,但過于快速的圖像變換則會導(dǎo)致用戶無法對數(shù)據(jù)強度的變化做出反應(yīng)。
5) 高性能要求
在靜態(tài)可視化中,設(shè)備性能優(yōu)勢體現(xiàn)的不算明顯,因此我們常常會忽略掉它們對可視化效果的影響,但在動態(tài)可視化中,對性能的要求就會比較高,一旦滿足不了動態(tài)可視化的要求,或者無法呈現(xiàn)出較高質(zhì)量的效果,那么設(shè)備缺陷就會暴露無遺。
除上述內(nèi)容外,可感知交互的擴展性也是大數(shù)據(jù)可視化面臨的重要挑戰(zhàn),在大規(guī)模數(shù)據(jù)庫中查詢數(shù)據(jù),會有很大概率產(chǎn)生高延遲,從而降低交互率。在多方面因素的限制下,人機互動下的大數(shù)據(jù)可視化將是未來可預(yù)見的重要挑戰(zhàn)之一。
5大數(shù)據(jù)可視化技術(shù)的發(fā)展方向
5.1 可視化技術(shù)聯(lián)系數(shù)據(jù)挖掘
表面上看,大數(shù)據(jù)可視化與數(shù)據(jù)挖掘相類似,甚至?xí)屓水a(chǎn)生一種錯覺,即可視化技術(shù)就是數(shù)據(jù)挖掘,理由是,數(shù)學(xué)可視分析和數(shù)據(jù)挖掘的目標都是從數(shù)據(jù)中獲取信息。但事實上,它們所應(yīng)用的手段是完全不一樣的。數(shù)據(jù)挖掘是利用計算機將那些隱藏的數(shù)據(jù)知識挖掘出來給予用戶,而數(shù)據(jù)可視化分析則是將復(fù)雜、不易觀察的數(shù)據(jù)轉(zhuǎn)換成易于理解的圖形符號,更傾向于探索性地分析數(shù)據(jù)。兩者的相似點是我們推進可視化技術(shù)聯(lián)系數(shù)據(jù)挖掘的基礎(chǔ),不同點則是我們進行整合研究的主要動力。
5.2 可視化技術(shù)聯(lián)系人機交互
我們在研究計算機技術(shù)時,主要實現(xiàn)的內(nèi)容之一就是用戶與數(shù)據(jù)的交互,其目的是要使用戶更好地掌控數(shù)據(jù)。從當前各個科技分支發(fā)展的方向和應(yīng)用情況看,我們還無法真正做到完全掌控數(shù)據(jù),所以,當我們在發(fā)展可視化技術(shù)時,在人機交互層面上取得重要突破,自然也就成為可視化研究的一個重要方向。
5.3 可視化技術(shù)聯(lián)系大規(guī)模、高緯度、非結(jié)構(gòu)化數(shù)據(jù)
大數(shù)據(jù)時代下,大規(guī)模和高緯度數(shù)據(jù)層出不窮,而且它們又多是非結(jié)構(gòu)化的,將這樣的數(shù)據(jù)用可視化形式完美地展現(xiàn)出來,其難度可想而知。所以,當我們在這樣一個較為復(fù)雜的時代環(huán)境下發(fā)展可視化技術(shù)時,就必須想辦法建立與大規(guī)模、高緯度、非結(jié)構(gòu)化數(shù)據(jù)的聯(lián)系,這也就成為我們進行可視化技術(shù)研究的一個重要方向。
6 結(jié)束語
大數(shù)據(jù)可視化與可視分析是一項較為復(fù)雜的研究課題,雖然它所表現(xiàn)出的直接效果看上去很簡單,但在技術(shù)的研究設(shè)計上既需要工作人員站在用戶的視角,盡可能滿足人們的視覺需求,又要時刻注意技術(shù)之間的相互作用與聯(lián)系。隨著計算機技術(shù)的不斷發(fā)展與人們需求的日益提高,我們大數(shù)據(jù)可視化技術(shù)還需要進行更進一步的探究,要做到用新的創(chuàng)意和技術(shù)去引領(lǐng)用戶,而不是僅僅滿足于迎合用戶的實際需求。
參考文獻:
[1] 陳鐳,劉玉,楊琴.高校實驗室大數(shù)據(jù)可視化平臺研究[J].計算機時代,2020(11):43-46.
[2] 羅浩,汪鵬,趙浩宇.基于醫(yī)療大數(shù)據(jù)的可視化分析與應(yīng)用[J].中國醫(yī)療設(shè)備,2020,35(11):122-124,128.
[3] 陽建中,陳慧蓉,姜愉,等.基于大數(shù)據(jù)的坭興陶產(chǎn)品可視化方案選擇[J].信息技術(shù)與信息化,2020(10):250-252.
[4] 李躍勇.大數(shù)據(jù)分析方法與關(guān)鍵技術(shù)研究[J].產(chǎn)業(yè)創(chuàng)新研究,2020(20):36-37.
[5] 沈雅.常用的大數(shù)據(jù)可視化分析工具[J].計算機與網(wǎng)絡(luò),2020,46(20):39.
[6] 李鴻奎,程昭龍,周蕾,等.智能變電站設(shè)備管控大數(shù)據(jù)分析系統(tǒng)研究[J].機械與電子,2020,38(10):72-76,80.
[7] 楊春波,凌松.基于大數(shù)據(jù)框架的智能電網(wǎng)分析和可視化應(yīng)用[J].電子器件,2020,43(5):1004-1009.
[8] 李天輝.基于python的數(shù)據(jù)分析可視化研究與實現(xiàn)[J].電子測試,2020(20):78-79.
【通聯(lián)編輯:聞翔軍】