[編者按]數(shù)據(jù)是與自然資源一樣重要的戰(zhàn)略資源,大數(shù)據(jù)技術(shù)就是從數(shù)量巨大、結(jié)構(gòu)復雜、類型眾多的數(shù)據(jù)中,快速獲得有價值信息的能力,它已成為學術(shù)界、企業(yè)界甚至各國政府關(guān)注的熱點。本講座將分3期對大數(shù)據(jù)進行討論:第1期介紹了大數(shù)據(jù)的提出、含義、特點,大數(shù)據(jù)和云計算的關(guān)系以及大數(shù)據(jù)典型應(yīng)用;第2期介紹大數(shù)據(jù)獲取、存貯、搜索、分享、分析、可視化等方面的關(guān)鍵技術(shù),并對當前熱點技術(shù)—可視化進行重點分析;第3期將探討數(shù)據(jù)流挖掘等實時數(shù)據(jù)分析技術(shù),介紹大數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)處理和挖掘技術(shù),并給出大數(shù)據(jù)發(fā)展面臨的挑戰(zhàn)與應(yīng)用前景。
5 大數(shù)據(jù)生態(tài)系統(tǒng)
5.1 大數(shù)據(jù)生態(tài)系統(tǒng)
2011年6月,IBM架構(gòu)師Stephen Watt在《Deriving new business insights with Big Data》文中對大數(shù)據(jù)生態(tài)系統(tǒng)進行了簡單描述,提出大數(shù)據(jù)生態(tài)系統(tǒng)實際上就是數(shù)據(jù)的生命周期,即數(shù)據(jù)采集、存儲、查找、分析和可視化的過程[1],見圖1。
在這樣的生態(tài)系統(tǒng)中,每個環(huán)節(jié)都存在著不同的商業(yè)需求,而需求的出現(xiàn)必然會導致創(chuàng)新的產(chǎn)生。所以,在每一個環(huán)節(jié)都有不少企業(yè)在深耕自己所在的領(lǐng)域,試圖通過新技術(shù)和新方法來實現(xiàn)新的商業(yè)模式。
5.2 大數(shù)據(jù)生態(tài)圖譜
隨著大數(shù)據(jù)生態(tài)系統(tǒng)的逐步形成,很多人在嘗試繪制和更新大數(shù)據(jù)生態(tài)系統(tǒng)圖譜,希望通過對大數(shù)據(jù)領(lǐng)域的公司、技術(shù)、產(chǎn)品進行細分,及時了解到大數(shù)據(jù)生態(tài)系統(tǒng)全貌。在眾多圖譜當中,比較有代表性的是美國On Grid Ventures公司Matt Turck等人于2012年10月繪制更新的大數(shù)據(jù)生態(tài)圖譜V2.0[2],如圖2所示。
盡管各個圖譜的分類方法、全面性、時效性、權(quán)威性各不相同,但我們?nèi)钥梢杂^察到:
(1)大數(shù)據(jù)領(lǐng)域的企業(yè)主要集中在數(shù)據(jù)集市、數(shù)據(jù)存儲(基礎(chǔ)設(shè)施)、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用4個層面,其中數(shù)據(jù)應(yīng)用層面又包含數(shù)據(jù)服務(wù)、數(shù)據(jù)檢索、商務(wù)智能,可視分析等。這正符合數(shù)據(jù)科學中對數(shù)據(jù)全生命周期管理的描述。此外,很多企業(yè)業(yè)務(wù)覆蓋大數(shù)據(jù)多個層面,有的企業(yè)甚至已經(jīng)建立了完整的大數(shù)據(jù)棧,成為“大數(shù)據(jù)應(yīng)用服務(wù)提供商”。
(2)在大數(shù)據(jù)領(lǐng)域,活躍著的除了IBM、ORACLE等眾多知名公司外,像Splunk、Tableau等專業(yè)大數(shù)據(jù)公司也及時跟上了大數(shù)據(jù)的浪潮,成功地獲得了投資者和業(yè)界的關(guān)注。
(3)開源軟件與大數(shù)據(jù)的結(jié)合迸發(fā)出驚人的顛覆性力量,更多廠商開始使用開源大數(shù)據(jù)工具,以支持其大數(shù)據(jù)業(yè)務(wù)。
大數(shù)據(jù)生態(tài)系統(tǒng)中覆蓋大量的技術(shù)和產(chǎn)品,其中一些在大數(shù)據(jù)技術(shù)發(fā)展道路中起到了巨大的推動作用。
(1)Hadoop
在大數(shù)據(jù)時代,Hadoop可以說是最耀眼的明星。憑借其開源和易用的特性,Hadoop不僅是大數(shù)據(jù)時代數(shù)據(jù)處理的首選,也是擁有海量數(shù)據(jù)處理需求的公司的標準配置。此外,許多商業(yè)創(chuàng)新也都圍繞Hadoop展開的,并在大數(shù)據(jù)時代占據(jù)一席之地,如Cloudera推出的軟件發(fā)布包可以幫助企業(yè)更方便地搭建以Hadoop為中心的數(shù)據(jù)管理平臺;MapR則將Hadoop的速度改造為原來的3倍;海量數(shù)據(jù)管理軟件商Platfora旨在提供一個更為友好且更具操作性的用戶界面,它可以兼容包括Cloudera和MapR等多種Hadoop版本,能夠大大降低使用Hadoop的門檻;而AsterData(已被TeraData收購)的核心技術(shù)SQL-to-MapReduce可將海量非結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)和結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)倉庫技術(shù)結(jié)合,以彌補傳統(tǒng)數(shù)據(jù)倉庫的公司所欠缺的高速處理海量非結(jié)構(gòu)化數(shù)據(jù)的能力。
(2)NoSQL
與Hadoop密切相關(guān)的NoSQL也一直是大數(shù)據(jù)領(lǐng)域的熱點。NoSQL憑借其高性能和可擴展性等優(yōu)勢,成為關(guān)系數(shù)據(jù)庫的強勁對手,在大數(shù)據(jù)時代占據(jù)一席之地。根據(jù)存儲模型和特征,NoSQL大致可分為列存儲、文檔存儲、key-value存儲、圖存儲、對象存儲、XML數(shù)據(jù)庫等類型,雖然也存在個別數(shù)據(jù)庫可被歸為多種類別的現(xiàn)象,其中,HBase、MongoDB、Cassandra、CouchDB、Neo4j、HyperTable等NoSQL已被相當多的企業(yè)和開發(fā)人員所熟知。
(3)NewSQL
無論NoSQL是被解釋為NoSQL,還是后來的Not Only SQL,其不支持結(jié)構(gòu)化查詢語言 (SQL)語言的特性為開發(fā)人員帶來諸多不便。因此,為了同時滿足高性能和支持SQL兩個方面,NewSQL被設(shè)計出來。NewSQL作為全新的關(guān)系數(shù)據(jù)庫產(chǎn)品,或?qū)㈥P(guān)系模型的優(yōu)勢發(fā)揮到分布式體系結(jié)構(gòu)中,或?qū)㈥P(guān)系數(shù)據(jù)庫的性能提升到不必進行橫向擴展的程度,這使得NoSQL面臨前所未有的挑戰(zhàn)。典型的NewSQL有VoltDB、Marklogic、Xeround、NuoDB等。
(4)Data Marketplace
除了解決大數(shù)據(jù)處理、存儲問題之外,開放數(shù)據(jù)資源也在相當大程度上加速了大數(shù)據(jù)技術(shù)的發(fā)展。目前大部分的企業(yè)所面對的數(shù)據(jù)都是由內(nèi)部系統(tǒng)或者交易記錄日志之類的東西所產(chǎn)生的,然而如果能夠獲得企業(yè)自己無法獲得,或者已經(jīng)被處理過的外部數(shù)據(jù),那么內(nèi)外數(shù)據(jù)融合分析后產(chǎn)生的價值將不可估量。因此,能夠下載或者訪問數(shù)據(jù)集,自然而然也就成為了商業(yè)需求,甚至美國政府都推出了官方的數(shù)據(jù)集網(wǎng)站。
2009年5月,美國聯(lián)邦政府正式啟用了官方公共數(shù)據(jù)資源分享網(wǎng)站Data.gov,其數(shù)據(jù)內(nèi)容涵蓋了所有美國聯(lián)邦政府行政部門在運營管理過程中采集、生產(chǎn)或轉(zhuǎn)換而來的、有潛在價值的、可供再次開發(fā)利用的數(shù)據(jù)集。Data.gov鼓勵個人開發(fā)者使用政府發(fā)布的數(shù)據(jù)集,開發(fā)出新穎的應(yīng)用。值得一提的,該網(wǎng)站于近期正式對外發(fā)布了全新的“開源政府平臺”(OGPL),該平臺的代碼將會對全球的開發(fā)者開放。
在中國,數(shù)據(jù)堂(datatang.com)是目前最為專業(yè)的科研數(shù)據(jù)共享服務(wù)平臺,該平臺致力于為全球科研機構(gòu)、企業(yè)及個人提供科研數(shù)據(jù)支持,其數(shù)據(jù)內(nèi)容主要是科研數(shù)據(jù)集,同時也提供浮動車歷史數(shù)據(jù)、路況歷史數(shù)據(jù)和車牌數(shù)據(jù)等,用戶也可以上傳發(fā)布自己的數(shù)據(jù)。通過該平臺不僅使得中國的科研機構(gòu)、企業(yè)、高校和個人之間可以充分共享數(shù)據(jù),也促進各類科研數(shù)據(jù)價值的最大化。
在全球范圍的大數(shù)據(jù)熱潮中,對于大多數(shù)企業(yè)來說,大數(shù)據(jù)與自己有什么關(guān)系?如何快速直觀地理解和發(fā)現(xiàn)大數(shù)據(jù)中的價值?沒有足夠“大”數(shù)據(jù)的情況下如何才能在大數(shù)據(jù)時代獲益?雖然這些問題還沒有完美的答案,但許多企業(yè)已經(jīng)進行了積極的嘗試,通過數(shù)據(jù)可視化嘗到了大數(shù)據(jù)的甜頭。
6 可視化和可視分析
在眾多描述大數(shù)據(jù)的詞語中,“金礦”、“油田”等的描述最為常見,這意味著人們開始意識到大數(shù)據(jù)中蘊含著豐富的價值。然而,巨大的數(shù)量、數(shù)據(jù)的固有復雜性及未知的分析目標都放大了任務(wù)的難度。如果能夠有一種簡單的方式對數(shù)據(jù)規(guī)律進行直觀展現(xiàn),必將使大數(shù)據(jù)中的價值得到快速理解和發(fā)現(xiàn),可視化就是這樣的方式。
6.1 數(shù)據(jù)可視化、信息可視化和可視
分析概述
可視化由來已久,1861年法國工程師Charles Joseph Minard繪制了《拿破侖征俄戰(zhàn)役圖》可以看作可視化領(lǐng)域的經(jīng)典案例。到了18世紀后期數(shù)據(jù)圖形學誕生,抽象信息的視覺表達手段一直被人們用來揭示數(shù)據(jù)及其他隱匿模式的奧秘。隨著20世紀50年代計算機圖形學的出現(xiàn),信息技術(shù)加速了可視化的演變。時至今日,可視化已經(jīng)發(fā)展為數(shù)據(jù)可視化、科學可視化、信息可視化、可視分析這幾大方向。
數(shù)據(jù)可視化起源于20世紀50年代,其基本思想是將數(shù)據(jù)庫中每個數(shù)據(jù)項作為可視化圖形中單個元素,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,通過從不同維度觀察數(shù)據(jù)而達到對數(shù)據(jù)深入洞察和分析的目的。
科學可視化是一個典型的交叉學科,源于1987年布魯斯·麥考梅克等人編寫的網(wǎng)絡(luò)文件系統(tǒng)(NFS)報告《Visualization in Scientific Computing》(意為“科學計算之中的可視化”)??茖W可視化主要是將具有幾何結(jié)構(gòu)的三維數(shù)據(jù)轉(zhuǎn)換為圖像,應(yīng)用領(lǐng)域涵蓋科學和工程的多個方面。
信息可視化也是一個跨學科領(lǐng)域,出現(xiàn)于20世紀90年代,旨在為許多應(yīng)用領(lǐng)域之中大規(guī)模非數(shù)值型信息資源的視覺呈現(xiàn)提供支持,這些信息資源可能是軟件系統(tǒng)之中眾多的文件、大規(guī)模并行程序的日志蹤跡信息、網(wǎng)站內(nèi)容等。與科學可視化相比,信息可視化側(cè)重于異質(zhì)數(shù)據(jù)集,如非結(jié)構(gòu)化文本當中的點。
可視分析則起源于2005年,它是一門通過交互可視界面來分析、推理和決策的科學,通過將可視化和數(shù)據(jù)處理分析方法結(jié)合,提高可視化質(zhì)量的同時也為用戶提供更完整的大規(guī)模數(shù)據(jù)解決方案[3]。如今,針對可視分析的研究和應(yīng)用逐步發(fā)展,已經(jīng)覆蓋科學數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、電力等多個行業(yè)。
雖然在這幾大方向之間的邊界還未完全清晰,不過,其相互關(guān)系和區(qū)別可以總結(jié)如下:數(shù)據(jù)可視化外延不斷擴大,可以認為數(shù)據(jù)可視化包含科學可視化、信息可視化和可視分析;科學可視化處理的是那些具有天然幾何結(jié)構(gòu)的數(shù)據(jù);信息可視化處理的是異質(zhì)的抽象的數(shù)據(jù)結(jié)構(gòu);可視分析則主要通過意會、推理、互動融合的方式來挖掘數(shù)據(jù)中的問題和原因。
可視化融合了問題的求解和藝術(shù)表現(xiàn)方式兩個方面,允許我們同時通過理性和感官方式來感受數(shù)據(jù),那么怎樣才是成功的可視化?Noah lliinsky在《數(shù)據(jù)可視化之美》一書中提到[4],一個稱得上“美”的可視化,必須具備新穎、充實、高效和美觀4個關(guān)鍵要素。新穎性體現(xiàn)在必須從嶄新的視角觀察數(shù)據(jù),傳統(tǒng)可視化展現(xiàn)方式(如柱形圖)雖易理解,但不夠新奇有趣,是不足以激發(fā)讀者新的理解的;充實性體現(xiàn)在可視化一定要為讀者提供獲取信息的途徑,從而向讀者傳遞信息甚至知識;高效性指成功的可視化須盡可能直截了當,而不允許展示太多與目標和主題無關(guān)的信息;美觀是指合理的圖形構(gòu)建(坐標軸、布局、色彩、線條等)是實現(xiàn)可視化之美的必要因素。這四要素必須同時具備,否則不能對數(shù)據(jù)進行有意義地呈現(xiàn)。
6.2 可視化之美
美麗的可視化作品不同于傳統(tǒng)的可視化,它們能夠通過創(chuàng)造不同于慣例的圖形構(gòu)建方式,揭示數(shù)據(jù)顯性和隱性的特征,使讀者在對可視化效果感到驚喜的同時收獲啟示。通過以下的一些案例我們可以充分體會到這一點。
(1)電信數(shù)據(jù)可視化——《都市移動族》
當今城市被通訊數(shù)據(jù)所充斥,每個打電話發(fā)短信的人都生成特定時間地點的數(shù)據(jù)包,然而這些數(shù)據(jù)中有何規(guī)律?2008年,法國faberNovel公司對巴黎國際音樂節(jié)和新年夜產(chǎn)生的手機數(shù)據(jù)進行監(jiān)測和可視化,幫助法國電信運營商Orange建立《都市移動族Urban Mobs》(圖3)[5]。它不僅讓我們發(fā)現(xiàn)城市活動中豐富的一面,同時也使電信運營商在流量分析、業(yè)務(wù)推薦等方面獲得啟示。
(2)電信數(shù)據(jù)可視化——《活力日內(nèi)瓦》
手機可以看作是實時記錄并上傳用戶地理位置信息的移動傳感器,2011年,瑞士日內(nèi)瓦市政府與Interactive Things公司合作,將市民每天在日內(nèi)瓦市的行動軌跡的手機GPS數(shù)據(jù)進行記錄,并制作城市生活(Ville Vivante) [6] 動態(tài)顯示瑞士電信每時每刻的數(shù)據(jù)流向。圖4展示的是晚上六點到午夜之間人們移動的軌跡。這種融合基于位置的服務(wù)(LBS)和電信數(shù)據(jù)的可視化方式不僅使政府和公眾對城市生活有了重新認識,同時也產(chǎn)生不可估量的經(jīng)濟政治效益。
(3)智慧城市——《實時新加坡》
現(xiàn)代城市中每天都在產(chǎn)生海量的數(shù)據(jù),如何才能讓政府和市民更快了解城市每時每刻的變化,幫助政府提高管理效能,為市民提供生活便利?2011年,美國麻省理工大學可感知實驗室為新加坡建立了“LIVESingapore”實時新加坡平臺[7](圖5),該平臺能夠為公眾提供實時的城市活動及環(huán)境信息。其中,“實時通訊”顯示新加坡語音通訊、短信及網(wǎng)絡(luò)使用情況,“等時地圖”實時呈現(xiàn)新加坡居民交通耗時情況;“雨天打車”結(jié)合降雨監(jiān)測和出租車數(shù)據(jù)進行可視化,從而在雨天智能調(diào)配出租車;“城市熱島”將新加坡區(qū)域溫度與能源消耗的關(guān)系進行可視化。通過對城市生活、環(huán)境數(shù)據(jù)的可視化,可助力提高城市公共服務(wù)質(zhì)量,改善市民生活,真正意義上實現(xiàn)智慧城市。
(4)北京大學PKUVIS微博可視分析工具
結(jié)合社會網(wǎng)絡(luò)分析中的概念和可視化的呈現(xiàn)方法,佐以統(tǒng)計和智能數(shù)據(jù)挖掘的方法,可以為海量復雜社會網(wǎng)絡(luò)提供快速、直觀和智能的分析和呈現(xiàn)方法[8]。2012年北京大學可視化與可視分析小組開發(fā)了支持可視化瀏覽和分析微博熱點事件的“PKUVIS微博可視分析工具”(圖6)[9]。該工具將一條條獨立的微博連接起來,通過直觀的視圖清晰地呈現(xiàn)出一個事件中微博轉(zhuǎn)發(fā)的過程,從而讓用戶能夠迅速地發(fā)現(xiàn)事件中的關(guān)鍵人物、關(guān)鍵微博、重要觀點,同時通過可視化的方式可以更好地分析新浪微博傳播脈絡(luò)以及事件的發(fā)生與發(fā)展的過程。
(5)電力大數(shù)據(jù)可視化
美國Space-Time是一家提供新一代地理空間和可視化解決方案的創(chuàng)業(yè)公司,2011年,Space-Time為美國加州獨立系統(tǒng)運營商設(shè)計了一套可以實時監(jiān)控電力傳輸系統(tǒng)能源基礎(chǔ)設(shè)施的可視化軟件Space-Time Insight(圖7)[10],該可視化系統(tǒng)通過控制室中的一個80英寸的顯示屏,在地圖上實時展示長達25 000 km的輸電線路狀況,工作人員一旦發(fā)現(xiàn)一個地區(qū)出現(xiàn)了問題,就可以根據(jù)該地區(qū)問題的嚴重性和臨近地區(qū)的反應(yīng)來做出決策。不僅簡化了日常運營復雜度,還在盡可能降低影響的情況下解決問題。這種大數(shù)據(jù)可視化實踐對中國的電力大數(shù)據(jù)分析展示乃至整個能源相關(guān)行業(yè)都具有巨大的參考價值。
6.3 開源可視化工具
如果讀者已經(jīng)被以上可視化案例所吸引,并且愿意嘗試將企業(yè)數(shù)據(jù)進行可視化,那么開源的數(shù)據(jù)可視化編程語言和環(huán)境將會是不錯的選擇。可視化領(lǐng)域中重要而常用的可視化編程語言和環(huán)境有Processing、Processing.js、R、D3、Impure、ParaView、Circos等,它們具備的一個共同特點就是為用戶提供了常見的專業(yè)可視化模版或圖形庫,用戶可以通過簡單調(diào)用即可很快實現(xiàn)可視化效果,此外,由于軟件的開源優(yōu)勢,專業(yè)用戶可以根據(jù)其需求,對圖形源代碼進行定制修改。
在可見的未來,大數(shù)據(jù)可視化機遇挑戰(zhàn)并存[11],大數(shù)據(jù)可視化將越來越廣泛地為各領(lǐng)域所使用,也將引發(fā)新一輪的投資熱潮,而構(gòu)建面向電子政務(wù)、電信、電力等特定行業(yè)大數(shù)據(jù)的可視分析工具是一個可以深入探索的重要發(fā)展方向。 (待續(xù))
參考文獻
[1] Deriving new business insights with big data[EB/OL].
http://www.ibm.com/developerworks/library/os-bigdata
[2] Big data landscape v2.0[EB/OL].
http://www.ongridventures.com/2012/10/23/the-big-data-landscape/
[3] 俞宏峰. 大規(guī)??茖W可視化[J].中國計算機學會通訊,2012, 8(9): 29-37.
[4] STEELE J, ILIINSKY N. Beautiful visualization[M]. Sebastopol, CA,USA : O'Reilly Media, 2010.
[5] Urban Mobs[EB/OL]. http://www.urbanmobs.fr/en/
[6] Ville Vivante[EB/OL].http://www.villevivante.ch/
[7] LIVE Singapore[EB/OL].http://www.live-singapore.com.sg/
[8] 袁曉如,張昕,肖何等.可視化研究前沿及展望[J].科研信息化技術(shù)與應(yīng)用,2011, 2(4):3-13.
[9] PKUVIS微博可視分析工具[EB/OL].http://vis.pku.edu.cn/weibova/weiboevents/
[10] Space-time insight[EB/OL]. http://www.spacetimeinsight.com/
[11] 黃伯仲,沈漢威,克里斯托弗·約翰遜等.超大規(guī)模數(shù)據(jù)可視分析十大挑戰(zhàn)[J].中國計算機學會通訊,2012, 8(9): 38-43.