文/張雪 蘇海濤 陳明瀟 安曉哲 彭濤
隨著大數(shù)據(jù)時(shí)代的到來(lái),如何實(shí)現(xiàn)企業(yè)核心數(shù)據(jù)資源的統(tǒng)一管控,更好地保障核心數(shù)據(jù)資產(chǎn)的安全和權(quán)威,更經(jīng)濟(jì)地從高頻率的、大容量的、不同結(jié)構(gòu)和類(lèi)型的數(shù)據(jù)中獲取價(jià)值,基于數(shù)據(jù)中心建設(shè)企業(yè)級(jí)的數(shù)據(jù)資源管理平臺(tái),顯得尤為必要。面對(duì)高數(shù)據(jù)量、高維度與異構(gòu)化的特點(diǎn),傳統(tǒng)統(tǒng)計(jì)分析工具已經(jīng)難以應(yīng)對(duì),眾多新的軟件分析工具應(yīng)運(yùn)而生。本文分別從大數(shù)據(jù)的存儲(chǔ)、分析、挖掘以及可視化四個(gè)方面概述了大數(shù)據(jù)分析常用軟件,并比較了各自的優(yōu)缺點(diǎn)及適用范圍。
聯(lián)合國(guó)“全球脈動(dòng)資深發(fā)展經(jīng)濟(jì)學(xué)家艾瑪紐爾·勒?qǐng)D曾提出,大數(shù)據(jù)描述的是海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)的容量非常巨大,以至于很難用傳統(tǒng)的數(shù)據(jù)庫(kù)和軟件技術(shù)處理。在進(jìn)行大數(shù)據(jù)存儲(chǔ)并建立相應(yīng)的數(shù)據(jù)庫(kù)時(shí),由于大數(shù)據(jù)屬性繁多,數(shù)據(jù)量呈爆炸性增長(zhǎng),常規(guī)標(biāo)準(zhǔn)處理和存儲(chǔ)技術(shù)已難以應(yīng)對(duì)。
一段時(shí)間以來(lái),全世界數(shù)據(jù)庫(kù)市場(chǎng)基本被Oracle,IBM/DB2,Microsoft/SQL Server 壟斷。隨著互聯(lián)網(wǎng)的出現(xiàn)和快速發(fā)展,大量數(shù)據(jù)通過(guò)設(shè)備、服務(wù)器、應(yīng)用自動(dòng)產(chǎn)生,其類(lèi)型呈現(xiàn)出以非結(jié)構(gòu)、半結(jié)構(gòu)化為主的轉(zhuǎn)變。要實(shí)現(xiàn)對(duì)各類(lèi)大數(shù)據(jù)進(jìn)行整理、交叉分析、比對(duì),進(jìn)行深度挖掘,對(duì)用戶提供自助的即席、迭代分析,并對(duì)非結(jié)構(gòu)化數(shù)據(jù)的特征進(jìn)行提取,以及半結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容檢索、理解等,傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)論在技術(shù)還是功能上都難以應(yīng)對(duì)。Hadoop技術(shù)平臺(tái)的出現(xiàn),為開(kāi)源技術(shù)的快速發(fā)展提供了良好的發(fā)展機(jī)遇和空間,產(chǎn)生了一些面向大數(shù)據(jù)分析的數(shù)據(jù)庫(kù)新產(chǎn)品,主要包括基于Hadoop環(huán)境下的各種NoSQL數(shù)據(jù)庫(kù)以及基于Shared Nothing架構(gòu)的NewSQL。
NoSQL數(shù)據(jù)庫(kù)代表性軟件有基于Hadoop架構(gòu)的HBase、Google的Bigtable、Cassandra等。此類(lèi)數(shù)據(jù)庫(kù)摒棄了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)的設(shè)計(jì)思想,采用了不同的解決方案來(lái)滿足擴(kuò)展性方面的需求,沒(méi)有固定的數(shù)據(jù)模式并且可以水平擴(kuò)展,能夠很好地應(yīng)對(duì)海量數(shù)據(jù)的挑戰(zhàn)。相對(duì)于關(guān)系型數(shù)據(jù)庫(kù)而言,NoSQL最大的不同是不使用SQL作為查詢語(yǔ)言,避免了不必要的復(fù)雜性、高吞吐量、高水平擴(kuò)展能力和低端硬件集群以及昂貴的對(duì)象-關(guān)系映射。
相比NoSQL,NewSQL在實(shí)時(shí)性、復(fù)雜分析、即席查詢和開(kāi)發(fā)性等方面表現(xiàn)出獨(dú)特的優(yōu)勢(shì)。具體表現(xiàn)在:
(1)NewSQL整體優(yōu)化較好,實(shí)時(shí)性較強(qiáng),而NoSQL相比實(shí)時(shí)性較差;
(2)NewSQL采用多種索引和分區(qū)技術(shù)保證多表關(guān)聯(lián),效率較高,而NoSQL缺少高效索引和查詢優(yōu)化,復(fù)雜分析差;
(3)NewSQL采用列存儲(chǔ)和智能索引保證了即席查詢性能,而NoSQL只能做精確查詢不能做關(guān)聯(lián)查詢;
(4)NewSQL是基于標(biāo)準(zhǔn)的成熟商業(yè)軟件,對(duì)用戶的研發(fā)能力要求相對(duì)較低,而NoSQL屬于平臺(tái)型的模塊,對(duì)用戶的研發(fā)能力要求較高。
NewSQL數(shù)據(jù)庫(kù)代表性軟件有ΕMC的Greenplum,HP 的Vertica,TD的Asterdata以及南大通用開(kāi)發(fā)的GBase 8a MPP Cluster等。作為NewSQL的代表數(shù)據(jù)庫(kù),Greenplum是一款基于標(biāo)準(zhǔn)X86極速智能分析數(shù)據(jù)庫(kù),完全無(wú)共享的并行處理架構(gòu),專門(mén)為BI分析、挖掘預(yù)測(cè)應(yīng)用優(yōu)化,數(shù)據(jù)跨越所有節(jié)點(diǎn)均勻分布,高度靈活的行+列混合存儲(chǔ),所有節(jié)點(diǎn)以并行方式工作,支持PB級(jí)以上的海量存儲(chǔ)和處理。能夠映射Hadoop集群中的HDFS、HIVΕ、HBASΕ等多種格式數(shù)據(jù)。其局限是列存儲(chǔ)模式有限制,不支持delete/update操作,數(shù)據(jù)庫(kù)需要額外的空間清理維護(hù),沒(méi)有增量備份。Greenplum 數(shù)據(jù)倉(cāng)庫(kù)解決方案曾為中信銀行信用卡中心提供了統(tǒng)一的客戶視圖,借助客戶統(tǒng)一視圖,中信銀行信用卡中心可以更清楚地了解其客戶價(jià)值體系,從而能夠?yàn)榭蛻籼峁└嗅槍?duì)性和相關(guān)性的營(yíng)銷(xiāo)活動(dòng)。
南大通用開(kāi)發(fā)的GBase 8a產(chǎn)品定位就是“行業(yè)大數(shù)據(jù)”,并針對(duì)云架構(gòu)做出的創(chuàng)新。該數(shù)據(jù)庫(kù)為超大規(guī)模數(shù)據(jù)管理提供高性價(jià)比的通用計(jì)算平臺(tái),可廣泛地用于支撐各類(lèi)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、BI系統(tǒng)和決策支持系統(tǒng)。GBase 8a MPP Cluster基于現(xiàn)代云架構(gòu),與傳統(tǒng)數(shù)據(jù)庫(kù)相比在擴(kuò)展性,處理數(shù)據(jù),靈活性,維護(hù)性以及建設(shè)成本上更具優(yōu)勢(shì)。
綜合各種大數(shù)據(jù)存儲(chǔ)平臺(tái)的特點(diǎn),針對(duì)企業(yè)級(jí)大數(shù)據(jù)應(yīng)用,筆者認(rèn)為Greenplum產(chǎn)品更成熟,編程開(kāi)發(fā)和用戶訪問(wèn)以SQL為主,對(duì)人員要求低,且購(gòu)買(mǎi)產(chǎn)品后可以使用所有功能,無(wú)論初期投入和后期擴(kuò)容成本都可以控制,更符合企業(yè)降成本增效益的發(fā)展目標(biāo)。
工業(yè)大數(shù)據(jù)除了容量大、類(lèi)型多、存取速度快這些特點(diǎn),還具有高維度、強(qiáng)非線性、樣本分布不均和低信噪比的特點(diǎn),所以對(duì)工業(yè)大數(shù)據(jù)的分析和挖掘與傳統(tǒng)的大數(shù)據(jù)分析方法也有差異,Chone J等人認(rèn)為,最好的大數(shù)據(jù)分析系統(tǒng)應(yīng)具有磁性、靈活性和深刻性。磁性指該系統(tǒng)能抓取所有數(shù)據(jù),不管其結(jié)構(gòu)和質(zhì)量;靈活性指系統(tǒng)具有適應(yīng)性和對(duì)不同數(shù)據(jù)的應(yīng)變性;深刻性指該系統(tǒng)能支持傳統(tǒng)的商業(yè)情報(bào)以及機(jī)器學(xué)習(xí)和復(fù)雜的統(tǒng)計(jì)分析。目前常用的分析框架及軟件包括,Hadoop、Storm以及Pentaho BI 平臺(tái)等。
Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),以一種可靠、高效、可伸縮的方式進(jìn)行處理,被認(rèn)為是時(shí)下最流行并有可能為下一代大數(shù)據(jù)處理確定標(biāo)準(zhǔn)的軟件系統(tǒng)。其特點(diǎn)在于,其一假設(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理;其二以并行的方式工作,通過(guò)并行處理加快處理速度,能夠處理PB級(jí)數(shù)據(jù);其三Hadoop依賴于社區(qū)服務(wù)器,成本低廉,使用便捷。采用Hadoop的案例較多,如中國(guó)移動(dòng)的詳單實(shí)時(shí)查詢系統(tǒng)。美國(guó)AMD半導(dǎo)體公司利用ClouderaHadoop大數(shù)據(jù)分析提高了產(chǎn)品預(yù)測(cè)能力,通過(guò)分析一定時(shí)間段內(nèi)芯片出故障的頻率,從而提升生產(chǎn)質(zhì)量水平。王成輝等人[4]提到,在鋼鐵工業(yè)中,利用HDFS實(shí)現(xiàn)海量的能耗數(shù)據(jù)的分布式存儲(chǔ),通過(guò)本體建模技術(shù)實(shí)現(xiàn)加熱爐本體模型構(gòu)建與數(shù)據(jù)屬性映射,為大數(shù)據(jù)分析提供數(shù)據(jù)源。在MapReduce分布式分析模型上運(yùn)用線性回歸、遺傳算法等對(duì)Hadoop平臺(tái)篩選出來(lái)的數(shù)據(jù)進(jìn)行分析,來(lái)挖掘海量數(shù)據(jù)背后隱藏的能耗模型,同時(shí)能挖掘出加熱爐的節(jié)能能力,分析加熱爐的最佳工況運(yùn)行參數(shù),來(lái)提高加熱爐的能耗水平,構(gòu)建加熱爐大數(shù)據(jù)節(jié)能潛力分析系統(tǒng)。
Storm是自由的開(kāi)源軟件,一個(gè)分布式的、容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng),可以非常可靠的處理龐大的數(shù)據(jù)流,用于處理Hadoop的批量數(shù)據(jù)。該軟件支持許多種編程語(yǔ)言,由Twitter開(kāi)源而來(lái),應(yīng)用領(lǐng)域包括實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、不停頓的計(jì)算、分布式RPC、ΕTL等,經(jīng)測(cè)試,Storm的處理速度驚人,每個(gè)節(jié)點(diǎn)每秒鐘可以處理100萬(wàn)個(gè)數(shù)據(jù)元組。該軟件曾應(yīng)用于淘寶雙十一實(shí)時(shí)流計(jì)算實(shí)現(xiàn)實(shí)時(shí)銷(xiāo)售額統(tǒng)計(jì)以及電信行業(yè)在重大節(jié)日的實(shí)時(shí)保障監(jiān)控。
Pentaho BI 平臺(tái)是一個(gè)以流程為中心的,面向解決方案的框架。其特點(diǎn)在于將一系列企業(yè)級(jí)BI產(chǎn)品、開(kāi)源軟件、API等組件集成起來(lái),方便商務(wù)智能應(yīng)用的開(kāi)發(fā)。目前,Pentaho的主要組成元素包括報(bào)表生成、分析、數(shù)據(jù)挖掘和工作流管理等。這些組件通過(guò) J2ΕΕ、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術(shù)集成到Pentaho平臺(tái)中來(lái)。
以上大數(shù)據(jù)分析軟件都可以滿足對(duì)企業(yè)中的大數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),Hadoop擅長(zhǎng)批處理、吞吐量大、做全量數(shù)據(jù)的離線分析,對(duì)比Hadoop的批處理,Storm是一個(gè)實(shí)時(shí)處理計(jì)算框架,是針對(duì)在線業(yè)務(wù)而存在的計(jì)算平臺(tái)。同Hadoop一樣,Storm也可以處理大批量的數(shù)據(jù),然而Storm在保證高可靠性的前提下還可以讓處理進(jìn)行的更加實(shí)時(shí),節(jié)省了運(yùn)行時(shí)間,提高效率。
大數(shù)據(jù)挖掘是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,是一種決策支持過(guò)程,基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、可視化技術(shù)等高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,幫助企業(yè)領(lǐng)導(dǎo)調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。下面介紹四種開(kāi)源數(shù)據(jù)挖掘軟件工具。
RapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決工具,用 Java 語(yǔ)言編寫(xiě),用戶無(wú)需寫(xiě)任何代碼。RapidMiner具有豐富數(shù)據(jù)挖掘分析和算法功能,常用于解決各種的商業(yè)關(guān)鍵問(wèn)題,如營(yíng)銷(xiāo)響應(yīng)率、客戶細(xì)分、客戶忠誠(chéng)度及終身價(jià)值、資產(chǎn)維護(hù)、資源規(guī)劃、預(yù)測(cè)性維修、質(zhì)量管理、社交媒體監(jiān)測(cè)和情感分析等典型商業(yè)案例。
與RapidMiner相比,WΕKA優(yōu)勢(shì)在于通用公共許可證下是免費(fèi)的,用戶可以按照自己的喜好選擇自定義。WΕKA基于 Java 版本,應(yīng)用在包括數(shù)據(jù)分析以及預(yù)測(cè)建模的可視化和算法,支持多種標(biāo)準(zhǔn)數(shù)據(jù)挖掘任務(wù),包括數(shù)據(jù)預(yù)處理、收集、分類(lèi)、回歸分析、可視化和特征選取等。
Orange是一款基于 Python 語(yǔ)言,功能強(qiáng)大的開(kāi)源工具,對(duì)初學(xué)者和專家級(jí)的大神均適用。它不僅有機(jī)器學(xué)習(xí)的組件,還附加有生物信息和文本挖掘,具備了數(shù)據(jù)分析的絕大部分功能。如以學(xué)生的基本信息和成績(jī)數(shù)據(jù)作為處理對(duì)象,利用Orange軟件中的決策樹(shù)分析法學(xué)生的成績(jī)分布進(jìn)行數(shù)據(jù)分析,為學(xué)校決策者在專業(yè)培養(yǎng)計(jì)劃的制定中提供科學(xué)依據(jù)。
R語(yǔ)言是一款針對(duì)編程語(yǔ)言和軟件環(huán)境進(jìn)行統(tǒng)計(jì)計(jì)算和制圖的免費(fèi)軟件,被廣泛應(yīng)用于數(shù)據(jù)挖掘以及開(kāi)發(fā)統(tǒng)計(jì)軟件和數(shù)據(jù)分析中。除了數(shù)據(jù),它還提供統(tǒng)計(jì)和制圖技術(shù),包括線性和非線性建模,經(jīng)典的統(tǒng)計(jì)測(cè)試,時(shí)間序列分析、分類(lèi)、收集等。
R語(yǔ)言幾乎覆蓋了整個(gè)統(tǒng)計(jì)領(lǐng)域最前沿的算法,有廣泛、便捷的數(shù)據(jù)接口,可以通過(guò)不同的加載包調(diào)用其他開(kāi)源數(shù)據(jù)挖掘軟件,成為這幾年各大高校和企業(yè)最受歡迎的數(shù)據(jù)挖掘軟件。
一圖勝千言,數(shù)據(jù)可視化以信息圖的方法描述大數(shù)據(jù),可以讓數(shù)據(jù)分析師的發(fā)現(xiàn)更容易被理解和信服。
IBM Cognos Analytics是一種BI工具,實(shí)現(xiàn)企業(yè)級(jí)的交互式數(shù)據(jù)庫(kù)查詢和報(bào)表生成,對(duì)企業(yè)數(shù)據(jù)進(jìn)行多維分析和統(tǒng)計(jì)匯總,提供豐富的數(shù)據(jù)展現(xiàn)形式,靈活的自助分析能力,主要功能包括元數(shù)據(jù)建模、MOLP建模、內(nèi)存OLAP建模、專業(yè)報(bào)表開(kāi)發(fā)、可擴(kuò)展的可視化RAVΕ引擎、SDK開(kāi)發(fā)集成,在提供豐富的前臺(tái)展現(xiàn)和分析能力的同時(shí),后臺(tái)通過(guò)優(yōu)異的查詢引擎和多維分析能力,提升數(shù)據(jù)查詢效率,增強(qiáng)各層次業(yè)務(wù)人員分析體驗(yàn)。如在雅戈?duì)柕墓?yīng)鏈系統(tǒng)中,Cognos是輔助決策的核心組件,對(duì)整條供應(yīng)鏈系統(tǒng)中的重要數(shù)據(jù)進(jìn)行抽取和多維分析,通過(guò)二維報(bào)表和多維數(shù)據(jù)立方體展現(xiàn)出來(lái),供決策者按需定義分析條件,找到問(wèn)題的關(guān)鍵,使雅戈?duì)枌?duì)訂單的反應(yīng)能力及生產(chǎn)周期縮短了50%,庫(kù)存周轉(zhuǎn)率提高一倍以上,節(jié)省了2.5億元的庫(kù)存成本。
SAS可視化分析軟件通過(guò)交互式數(shù)據(jù)可視化和易于使用的分析探索數(shù)據(jù),設(shè)計(jì)分發(fā)報(bào)表和儀表盤(pán),通過(guò)自動(dòng)繪圖提供一系列先進(jìn)的數(shù)據(jù)可視化技術(shù)和向?qū)椒治?,從?bào)告和探索、分析直至通過(guò)不同渠道分享信息,可利用單一用戶界面來(lái)完成。如XL Group集團(tuán)應(yīng)用SAS可視化分析軟件,應(yīng)對(duì)保險(xiǎn)行業(yè)新變化,實(shí)現(xiàn)了全球保險(xiǎn)和再保險(xiǎn)業(yè)務(wù)新突破。SAS可視化分析能直觀形象地展示信息,同時(shí)又能進(jìn)行先進(jìn)統(tǒng)計(jì)概念的交流,比以往通過(guò)大量圖表、數(shù)字和相互關(guān)系說(shuō)明更加有效。
Tableau是一款定位在數(shù)據(jù)可視化的商務(wù)智能展現(xiàn)工具,可以用來(lái)實(shí)現(xiàn)交互地、可視化的分析和儀表盤(pán)分析應(yīng)用。Tableau可視化界面幫助用戶通過(guò)數(shù)據(jù)尋找業(yè)務(wù)答案,通過(guò)普通的硬件環(huán)境,實(shí)現(xiàn)上百萬(wàn)條數(shù)據(jù)的訪問(wèn),對(duì)內(nèi)存技術(shù)的數(shù)據(jù)沒(méi)有大小的限制,無(wú)需對(duì)數(shù)據(jù)進(jìn)行事先的匯總和計(jì)算。它允許普通業(yè)務(wù)人員將表格中的數(shù)據(jù)轉(zhuǎn)變成各種可視化的圖形,強(qiáng)交互性的儀表盤(pán)并共享給企業(yè)中的其它用戶,這些通過(guò)點(diǎn)擊鼠標(biāo)即可完成。如中國(guó)東方航空公司,以前制作報(bào)表需要3周的時(shí)間,應(yīng)用Tableau將制作報(bào)表時(shí)間縮短至數(shù)分鐘,及時(shí)作出決策,營(yíng)業(yè)額增長(zhǎng)了2%。
Smartbi采用最新的互聯(lián)網(wǎng)技術(shù),以簡(jiǎn)潔、直觀的界面,展現(xiàn)企業(yè)各環(huán)節(jié)的經(jīng)營(yíng)數(shù)據(jù),并以豐富的形式為企業(yè)決策者剔紅分析和管理上的幫助,洞察企業(yè)的運(yùn)營(yíng)狀況。Smartbi具有儀表盤(pán)、靈活查詢、電子表格、OLAP多維分析、移動(dòng)BI應(yīng)用、Off i ce分析報(bào)告、自助BI分析、數(shù)據(jù)采集填報(bào)、數(shù)據(jù)挖掘等功能模塊,適用于領(lǐng)導(dǎo)駕駛艙、KPI監(jiān)控看板、財(cái)務(wù)分析、銷(xiāo)售分析、市場(chǎng)分析、生產(chǎn)分析、供應(yīng)鏈分析、風(fēng)險(xiǎn)分析、質(zhì)量分析、客戶分析、精準(zhǔn)營(yíng)銷(xiāo)等管理領(lǐng)域,增強(qiáng)了企業(yè)的洞察能力、盈利能力,為企業(yè)獲得可持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì)提供強(qiáng)大的保障。
Cognos Analytics同時(shí)滿足了企業(yè)級(jí)BI和敏捷BI分析需求,提供企業(yè)級(jí)的數(shù)據(jù)建模分析和報(bào)表能力,同時(shí)兼顧業(yè)務(wù)部門(mén)自助服務(wù),針對(duì)不同管理層次的用戶業(yè)務(wù)進(jìn)行定位分析,更能滿足企業(yè)的需要,個(gè)人認(rèn)為,Cognos Analytics是企業(yè)大數(shù)據(jù)可視化軟件的首選。
基于工業(yè)4.0要求下的大數(shù)據(jù)管理,需要從數(shù)據(jù)采集、存儲(chǔ)、分析、挖掘、展示等各個(gè)階段進(jìn)行處理。如何將工業(yè)各工序存在的與產(chǎn)品、質(zhì)量、成本、物流、能源等相關(guān)的信息進(jìn)行大數(shù)據(jù)管理,進(jìn)而形成決策支撐是當(dāng)下工業(yè)革命的重要課題。本文在概述了近年來(lái)基于hadoop平臺(tái)開(kāi)創(chuàng)后產(chǎn)生的針對(duì)大數(shù)據(jù)存儲(chǔ)、分析、挖掘、可視化軟件,旨在為工業(yè)建立適合自身的大數(shù)據(jù)管理體系,實(shí)現(xiàn)以效益為目標(biāo),精益、精品管理為內(nèi)核的愿景,從而全面提升企業(yè)的運(yùn)營(yíng)管理效率,推動(dòng)企業(yè)的全面發(fā)展。