■王珩
從Solix大數(shù)據(jù)套件看大數(shù)據(jù)技術(shù)的趨勢
■王珩
大數(shù)據(jù)時代下,全球應(yīng)用數(shù)量從十幾年前以十萬為計算單位進入以百萬為計算單位。有效利用大數(shù)據(jù),不僅可以實時監(jiān)控產(chǎn)各種潛在風(fēng)險,提高生產(chǎn)效率,更重要的是為企業(yè)提供諸多洞見,提升投資回報和競爭優(yōu)勢,而且有助于企業(yè)從多維度判斷全球市場潛在商機,實現(xiàn)快速發(fā)展。
據(jù)中橋調(diào)研顯示,中國用戶已經(jīng)越來越多地意識到大數(shù)據(jù)的業(yè)務(wù)價值和商業(yè)價值,因為IT創(chuàng)造價值的效率低下會直接影響中國在全球化經(jīng)濟環(huán)境下的競爭實力。從圖1可知,在中國市場上,14.2%的企業(yè)已經(jīng)部署了商業(yè)智能或大數(shù)據(jù)分析。在未來24個月內(nèi),企業(yè)對于大數(shù)據(jù)分析或商業(yè)智能的應(yīng)用比例會增長至45.4%。中國企業(yè)會加大對于大數(shù)據(jù)分析或商業(yè)智能的利用。
然而大數(shù)據(jù)是一把雙刃劍,它既可以為企業(yè)創(chuàng)造價值,實現(xiàn)通過IT突破創(chuàng)新來提升企業(yè)競爭力的作用給企業(yè);也可以造成巨大的IT開支,IT效率的低下可以引起利潤和市場份額的快速下降。相對于歐美市場對于大數(shù)據(jù)利用的程度而言,中國用戶在大數(shù)據(jù)應(yīng)用,不論是大數(shù)據(jù)分析頻率還是大數(shù)據(jù)的結(jié)構(gòu)來源,上明顯滯后。此外,中國用戶現(xiàn)在還是對收集后的數(shù)據(jù)進行分析處理,那么如何有效地對這些數(shù)據(jù)進行整理、抽取和分析就是企業(yè)IT管理和業(yè)務(wù)管理人員需要解決的問題。要發(fā)揮大數(shù)據(jù)的價值,一個合適的大數(shù)據(jù)分析方案必不可少。在選擇商業(yè)智能和大數(shù)據(jù)分析方案的過程中,企業(yè)最關(guān)心的是如何提高大數(shù)據(jù)分析速度、數(shù)據(jù)加載速度、保證性能穩(wěn)定、降低分析成本等幾大因素。
而Solix近期推出的Solix Big Data Suite(大數(shù)據(jù)套件),則恰好印證了上述中橋調(diào)研數(shù)據(jù)的結(jié)果。Solix Big Data Suite(大數(shù)據(jù)套件)可用于Apache Hadoop的Enterprise Archiving和Enterprise Data Lake應(yīng)用平臺。該套件基于信息生命周期管理(ILM)框架來管理企業(yè)數(shù)據(jù)和分析應(yīng)用,并且將Apache Hadoop作為近線存儲庫來存儲不經(jīng)常訪問的數(shù)據(jù)。以此提高生產(chǎn)應(yīng)用的性能,降低基礎(chǔ)設(shè)施成本,以及實現(xiàn)更強大的大數(shù)據(jù)分析機會。
Solix Enterprise Data Lake對生產(chǎn)數(shù)據(jù)進行拷貝,并將它們“按原樣”存儲在高擴展,低成本、大容量的HDFS中。在抽取數(shù)據(jù)的過程中,這個簡單的復(fù)制過程省去了繁雜的提取轉(zhuǎn)換加載(ETL)處理。一旦存入Hadoop文件系統(tǒng)(HDFS),對于日后的業(yè)務(wù)分析應(yīng)用來講,使用或描述企業(yè)數(shù)據(jù)可將會更加方便輕松;Solix Enterprise Archiving從依據(jù)保留策略和業(yè)務(wù)規(guī)則抽取企業(yè)數(shù)據(jù)并存儲的開始,就對數(shù)據(jù)進行恰當(dāng)?shù)墓芾?。歸檔數(shù)據(jù)因安全和合規(guī)要求進行分類,并且通過結(jié)構(gòu)化查詢、報表和業(yè)務(wù)對象的全文搜索來對所有數(shù)據(jù)進行訪問。
Solix大數(shù)據(jù)套件給Apache Hadoop帶來的優(yōu)勢:
企業(yè)分析——數(shù)據(jù)存儲庫“按原樣”保存,減少ETL工作負載,并確保凈化后的最終用戶數(shù)據(jù)能夠按需呈現(xiàn)更多具體的數(shù)據(jù)視圖。
安全、低成本、大容量數(shù)據(jù)存儲——Hadoop分布文件系統(tǒng)(HDFS)為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提供一個統(tǒng)一的近線存儲平臺,將不同用戶和應(yīng)用工作負載加載到一個數(shù)據(jù)池中,實現(xiàn)持續(xù)訪問和后續(xù)企業(yè)數(shù)據(jù)倉庫應(yīng)用對這些數(shù)據(jù)的利用。
合規(guī)——為數(shù)據(jù)安全、分類、保留管理和合法保存而建的信息生命周期管理框架。
擴展性——Hadoop基于MapReduce來處理跨分布式計算節(jié)點的大數(shù)據(jù)集,提供先進的數(shù)據(jù)存儲,并具有高可擴展性、高可靠性、容錯、自動備份和災(zāi)難恢復(fù)。
開源Apache Hadoop—Apache Hadoop框架是一個行業(yè)標準的開源產(chǎn)品,保證您的企業(yè)數(shù)據(jù)管理系統(tǒng)在代碼層面上的安全和可訪問性。
中橋分析師認為,任何業(yè)務(wù)的核心都是數(shù)據(jù)。透過數(shù)據(jù),企業(yè)才能更快的分析和挖掘出用戶潛在需求,從而能夠找到最重要業(yè)務(wù)問題的答案。Solix大數(shù)據(jù)套件的發(fā)布,使得企業(yè)能夠在Hadoop上擴展其業(yè)務(wù)數(shù)據(jù)池,存儲所有的信息,分析任何數(shù)據(jù),而不會有許可證和支持費用迅速增加的問題。這很有可能徹底改變大數(shù)據(jù)經(jīng)濟模式。