郭濤
廠商說(shuō)
大數(shù)據(jù)不是一個(gè)分析工具,而是新的基礎(chǔ)架構(gòu)。
大數(shù)據(jù)的核心價(jià)值是如何把數(shù)據(jù)變成商業(yè)價(jià)值。
大數(shù)據(jù)存儲(chǔ),可以認(rèn)為是存儲(chǔ)廠商基于現(xiàn)有大數(shù)據(jù)應(yīng)用的特點(diǎn)進(jìn)行優(yōu)化的解決方案。
記者不久前去香港出差,剛下飛機(jī)就收到招商銀行發(fā)來(lái)的一條短信,內(nèi)容是告之香港有哪些商場(chǎng)在舉辦促銷活動(dòng)。不知道這是巧合,還是招商銀行利用大數(shù)據(jù)的新成果,但是可以肯定,利用大數(shù)據(jù)分析可以為客戶提供定制化的服務(wù),實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。大數(shù)據(jù)正在改變企業(yè)業(yè)務(wù)模式,也讓人們的生活變得更加便利和豐富多彩。
存儲(chǔ)必須整合
大數(shù)據(jù)存儲(chǔ)是一類單獨(dú)的產(chǎn)品嗎?賽迪顧問(wèn)高級(jí)分析師陳靚并不這么認(rèn)為:“把大數(shù)據(jù)軟件與存儲(chǔ)進(jìn)行整合,就稱為大數(shù)據(jù)存儲(chǔ),未免有些牽強(qiáng)。如果非要說(shuō)出大數(shù)據(jù)存儲(chǔ)的特征,那么我認(rèn)為它至少應(yīng)該能讓大數(shù)據(jù)的‘4V發(fā)揮出應(yīng)有的效果,滿足大數(shù)據(jù)對(duì)性能和擴(kuò)展性的要求?!?/p>
“與其說(shuō)大數(shù)據(jù)存儲(chǔ)是一類產(chǎn)品,不如說(shuō)它是下一代的存儲(chǔ)架構(gòu)。這種架構(gòu)可以將傳統(tǒng)的DAS、SAN和NAS有效地整合起來(lái),以滿足上層計(jì)算平臺(tái)的要求?!盕orrester Research首席咨詢分析師戴昆表示,“大數(shù)據(jù)存儲(chǔ)本身的性能與傳統(tǒng)企業(yè)級(jí)存儲(chǔ)并沒有顯著差異,它主要依賴于上層計(jì)算平臺(tái)的分布式并行處理能力,但其擴(kuò)展性一定要強(qiáng)?!?/p>
“在中國(guó)市場(chǎng)上,大數(shù)據(jù)應(yīng)用還沒有真正落地,許多用戶談的還是BI(商業(yè)智能)。而從國(guó)外的實(shí)踐看,BI只是大數(shù)據(jù)的一部分,屬于大數(shù)據(jù)的起步階段,真正的大數(shù)據(jù)應(yīng)用是近實(shí)時(shí)或?qū)崟r(shí)的數(shù)據(jù)分析?!敝袠蛘{(diào)研咨詢首席分析師王叢告訴記者,“計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等都與大數(shù)據(jù)的價(jià)值有關(guān)。大數(shù)據(jù)存儲(chǔ)并不是一類單獨(dú)的產(chǎn)品,它也可以通過(guò)類似公有云或私有云的方式提供給用戶。應(yīng)用和數(shù)據(jù)量的增加,對(duì)數(shù)據(jù)的存取提出了更高要求。因此,并行存儲(chǔ)能力的增強(qiáng)對(duì)大數(shù)據(jù)存儲(chǔ)來(lái)說(shuō)非常重要?!?/p>
EMC Isilon存儲(chǔ)事業(yè)部總經(jīng)理?xiàng)钐m江表示,大數(shù)據(jù)存儲(chǔ)有很多實(shí)現(xiàn)方式,不過(guò)它應(yīng)具備以下特性:海量數(shù)據(jù)存儲(chǔ)能力、全局命名空間、支持標(biāo)準(zhǔn)接口、讀寫性能優(yōu)異、易于管理維護(hù)、基于開放架構(gòu)、多級(jí)數(shù)據(jù)冗余、多級(jí)存儲(chǔ)備份等。
“存儲(chǔ)產(chǎn)品并不像網(wǎng)絡(luò)產(chǎn)品那樣有嚴(yán)格的界線,因此很難將大數(shù)據(jù)存儲(chǔ)單獨(dú)劃分出來(lái)。其實(shí),大數(shù)據(jù)存儲(chǔ)并不是只有分布式存儲(chǔ)這一種方式,傳統(tǒng)的存儲(chǔ)也可以成為大數(shù)據(jù)存儲(chǔ)解決方案的一部分?!比A為存儲(chǔ)產(chǎn)品線市場(chǎng)總監(jiān)經(jīng)寧解釋說(shuō),“華為將大數(shù)據(jù)存儲(chǔ)當(dāng)成相對(duì)獨(dú)立的一類產(chǎn)品,主要是從產(chǎn)品的主定位角度考慮的。華為有針對(duì)企業(yè)級(jí)應(yīng)用的高端存儲(chǔ),也有針對(duì)中小型用戶的通用存儲(chǔ),當(dāng)然還有專門為大數(shù)據(jù)優(yōu)化的分布式、可橫向擴(kuò)展的大數(shù)據(jù)存儲(chǔ)?!?/p>
目前,業(yè)內(nèi)并沒有關(guān)于大數(shù)據(jù)存儲(chǔ)產(chǎn)品的通用定義,但是綜合考慮廠商的產(chǎn)品以及用戶的需求,可以簡(jiǎn)單概括出大數(shù)據(jù)存儲(chǔ)的特征:首先,大數(shù)據(jù)存儲(chǔ)必須能夠支持全類型數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)支持;其次,在保證可靠性的基礎(chǔ)之上,大數(shù)據(jù)存儲(chǔ)必須具備線性擴(kuò)展能力,同時(shí)還要具有很強(qiáng)的批處理和實(shí)時(shí)處理能力;最后,在系統(tǒng)達(dá)到一定規(guī)模后,大數(shù)據(jù)存儲(chǔ)平臺(tái)的易用性和可管理性也是不可或缺的。
在大數(shù)據(jù)處理過(guò)程中,用戶發(fā)現(xiàn)性能的瓶頸并不在計(jì)算層面,而在于海量數(shù)據(jù)的上傳和下載。因此,極高的數(shù)據(jù)加載速率是大數(shù)據(jù)存儲(chǔ)必須具備的特性。大數(shù)據(jù)解決方案通常包含數(shù)據(jù)存儲(chǔ)、計(jì)算及分析,存儲(chǔ)是大數(shù)據(jù)基礎(chǔ)架構(gòu)中的一部分。
凸顯高性能、可擴(kuò)展
對(duì)中國(guó)用戶來(lái)說(shuō),大數(shù)據(jù)應(yīng)用落地的關(guān)鍵是如何更好地讓企業(yè)的IT決策者和架構(gòu)師理解業(yè)務(wù)需求,建立適合企業(yè)業(yè)務(wù)特點(diǎn)的數(shù)據(jù)應(yīng)用場(chǎng)景和數(shù)據(jù)管理架構(gòu),更好地利用企業(yè)現(xiàn)有的數(shù)據(jù)資產(chǎn),而非盲目地進(jìn)行所謂的大數(shù)據(jù)投資?!坝脩羰紫纫紤]的是什么樣的大數(shù)據(jù)應(yīng)用才能為企業(yè)帶來(lái)合理產(chǎn)出,其次再考慮大數(shù)據(jù)平臺(tái)和存儲(chǔ),切勿本末倒置?!贝骼ケ硎?。
賽迪顧問(wèn)的研究發(fā)現(xiàn),中國(guó)使用大數(shù)據(jù)存儲(chǔ)比較多的行業(yè)是電信、互聯(lián)網(wǎng)、金融等,其他行業(yè)大多還在觀望及測(cè)試中。中國(guó)用戶對(duì)于大數(shù)據(jù)存儲(chǔ)的需求首先是可靠和穩(wěn)定,金融行業(yè)的用戶非常重視這一點(diǎn);互聯(lián)網(wǎng)用戶則要求大數(shù)據(jù)存儲(chǔ)具有很高的I/O吞吐能力;電信行業(yè)的客戶更青睞高性價(jià)比的大數(shù)據(jù)存儲(chǔ)設(shè)備。
中國(guó)惠普有限公司企業(yè)集團(tuán)存儲(chǔ)產(chǎn)品部存儲(chǔ)架構(gòu)師張楠表示,很多中國(guó)用戶會(huì)追求大容量和高性能,忽略了大數(shù)據(jù)存儲(chǔ)本身應(yīng)該具有的其他屬性,這讓用戶在實(shí)際應(yīng)用中很容易遇到一些障礙,比如無(wú)法將存儲(chǔ)與大數(shù)據(jù)平臺(tái)進(jìn)行對(duì)接,無(wú)法在業(yè)務(wù)中充分發(fā)揮大數(shù)據(jù)存儲(chǔ)的價(jià)值等。究其原因,主要障礙在于有些大數(shù)據(jù)存儲(chǔ)產(chǎn)品沒有開放的接口協(xié)議, 沒有針對(duì)用戶的大數(shù)據(jù)應(yīng)用場(chǎng)景進(jìn)行特別優(yōu)化, 沒有提供用戶容易接受的易用管理方式等。
存儲(chǔ)的高可擴(kuò)展性、高可用性和并行處理能力是企業(yè)評(píng)估大數(shù)據(jù)存儲(chǔ)最重要的三個(gè)因素。高可擴(kuò)展性可以確保企業(yè)的IT能夠隨著數(shù)據(jù)量的增長(zhǎng)和性能需求的提高進(jìn)行擴(kuò)展;高可用性能夠保證大數(shù)據(jù)分析過(guò)程的平穩(wěn)和無(wú)間斷運(yùn)行;高并行處理能力則能夠確保在大數(shù)據(jù)處理過(guò)程中同時(shí)進(jìn)行更多數(shù)據(jù)的處理,高效地完成數(shù)據(jù)分析,同時(shí)縮短產(chǎn)品或技術(shù)的上市周期。低延遲、自動(dòng)分層存儲(chǔ)以及對(duì)10GbE網(wǎng)絡(luò)的支持等也是用戶評(píng)估大數(shù)據(jù)存儲(chǔ)的重要考核因素。
“如何管理好大數(shù)據(jù)真的是一個(gè)大問(wèn)題。從IT的角度看,我們還缺乏能夠展現(xiàn)數(shù)據(jù)價(jià)值的行之有效的手段。數(shù)據(jù)作為一種資產(chǎn),如何被長(zhǎng)期、高效、經(jīng)濟(jì)地保存也是一個(gè)問(wèn)題?!比A為海量存儲(chǔ)產(chǎn)品線總經(jīng)理袁遠(yuǎn)表示,“大數(shù)據(jù)提出了一個(gè)新的方法論——以數(shù)據(jù)為中心,而不是以應(yīng)用為中心。以數(shù)據(jù)為中心,就要考慮數(shù)據(jù)的來(lái)源,如何以更低的成本存儲(chǔ)和管理數(shù)據(jù),誰(shuí)有權(quán)利獲得哪些數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行分析前必須進(jìn)行模型化的抽象等。大數(shù)據(jù)需要新的工具、新的管理思路和方法,同時(shí)還要對(duì)技術(shù)架構(gòu)進(jìn)行創(chuàng)新。”
歐洲核子研究中心(CERN)創(chuàng)建的OpenLAB旨在通過(guò)部署全球領(lǐng)先的IT系統(tǒng)和解決方案,將全球大型強(qiáng)子對(duì)撞機(jī)(LHC)行業(yè)的資源、研究成果匯集在一起。持續(xù)快速增長(zhǎng)的海量科研數(shù)據(jù)對(duì)CERN的存儲(chǔ)系統(tǒng)在可擴(kuò)展性、可靠性等方面提出了嚴(yán)峻挑戰(zhàn),這也促使CERN開始評(píng)估新的存儲(chǔ)技術(shù)。最終,CERN選擇了華為UDS云存儲(chǔ)系統(tǒng),并在三個(gè)月內(nèi)完成了安裝調(diào)測(cè)和基準(zhǔn)性能的評(píng)估。測(cè)試結(jié)果顯示,UDS創(chuàng)新的軟硬件和系統(tǒng)非常適合海量數(shù)據(jù)存儲(chǔ)的業(yè)務(wù)要求,這讓CERN可以在未來(lái)輕松應(yīng)對(duì)EB級(jí)數(shù)據(jù)量的挑戰(zhàn)。endprint
談到華為大數(shù)據(jù)存儲(chǔ)解決方案的特色,經(jīng)寧概括說(shuō):“我們能更好地把握大數(shù)據(jù)的本質(zhì)需求,并依靠自主研發(fā)能力,在IT架構(gòu)上實(shí)現(xiàn)創(chuàng)新,將計(jì)算與存儲(chǔ)進(jìn)行有機(jī)結(jié)合。我們還基于自己的大數(shù)據(jù)存儲(chǔ)平臺(tái),提供了多種類型的接口,便于與應(yīng)用銜接。”從產(chǎn)品研發(fā)的角度看,華為將重點(diǎn)放在了軟件方面,硬件則采用了開放的標(biāo)準(zhǔn)化的存儲(chǔ)服務(wù)器架構(gòu)。在2013年華為云計(jì)算大會(huì)上,華為與中央電視臺(tái)正式簽署合作協(xié)議,在大數(shù)據(jù)存儲(chǔ)領(lǐng)域建立戰(zhàn)略合作關(guān)系,為媒資行業(yè)提供領(lǐng)先的技術(shù)和應(yīng)用模式。雙方計(jì)劃聯(lián)合開發(fā)自適應(yīng)、深度節(jié)能的高密度、大容量的媒資存儲(chǔ)系統(tǒng)。
面對(duì)大數(shù)據(jù)的需求,存儲(chǔ)永遠(yuǎn)不變的是對(duì)數(shù)據(jù)可靠性、性能、可擴(kuò)展性和效率的追求,而有可能發(fā)生改變的是為了提高效率、節(jié)省消耗,存儲(chǔ)可以變得更加靈活,也可以考慮與計(jì)算進(jìn)行融合等。不管存儲(chǔ)如何變化,用戶對(duì)高性價(jià)比的需求始終不變。
數(shù)據(jù)收集和存儲(chǔ)是大數(shù)據(jù)分析的第一個(gè)環(huán)節(jié)。在大數(shù)據(jù)時(shí)代,應(yīng)用數(shù)量、數(shù)據(jù)量和使用者數(shù)量的增長(zhǎng),對(duì)存儲(chǔ)IOPS以及OLTP和OLAP的要求越來(lái)越高,具體表現(xiàn)在現(xiàn)有的存儲(chǔ)已不能滿足業(yè)務(wù)關(guān)鍵型應(yīng)用的需求。中橋調(diào)研咨詢針對(duì)中國(guó)用戶的調(diào)研數(shù)據(jù)顯示,F(xiàn)C SAN仍是企業(yè)級(jí)用戶(42.1%)和中型企業(yè)(34.0%)的首選,遠(yuǎn)高于其他存儲(chǔ)類型的占比。這是因?yàn)镕C SAN對(duì)OLTP和OLAP的性能穩(wěn)定性優(yōu)于其他存儲(chǔ)技術(shù)。這一調(diào)查結(jié)果也顯示,目前中國(guó)用戶大多處于大數(shù)據(jù)分析的第一階段,其工作以存儲(chǔ)和IT架構(gòu)的整合和優(yōu)化為主。王叢分析說(shuō),隨著Hadoop和MapReduce的不斷普及,中國(guó)用戶將逐步進(jìn)入近實(shí)時(shí)和實(shí)時(shí)分析階段,節(jié)點(diǎn)式存儲(chǔ)的占比會(huì)隨之增加。
打通行業(yè)價(jià)值鏈
華為的金字塔型“4V”理論具體來(lái)說(shuō),第一步,要建立一個(gè)高效的存儲(chǔ)架構(gòu)平臺(tái),它既能處理大量的小文件,也能處理單體較大的文件。第二步,這個(gè)存儲(chǔ)平臺(tái)要具備極高的處理性能。第三步,這個(gè)存儲(chǔ)平臺(tái)要能處理多樣化的數(shù)據(jù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。只有通過(guò)前面三步打下的基礎(chǔ),企業(yè)用戶才能進(jìn)入最后一步,在一個(gè)高效的專門為大數(shù)據(jù)構(gòu)建和優(yōu)化的平臺(tái)上進(jìn)行數(shù)據(jù)分析和挖掘,并最終獲得所需的價(jià)值。
經(jīng)寧表示:“如果仔細(xì)甄別,大數(shù)據(jù)與海量數(shù)據(jù)還是有差別的,畢竟大數(shù)據(jù)不僅僅是指數(shù)據(jù)量大,還包括處理、分析和挖掘等過(guò)程。從表面上看,大數(shù)據(jù)的‘4V特征是并列的關(guān)系,但實(shí)際上這些因素之間還是有層次性的。我們提出的大數(shù)據(jù)金字塔模型,可以更好展現(xiàn)大數(shù)據(jù)價(jià)值的實(shí)現(xiàn)過(guò)程?!?/p>
華為倡導(dǎo)構(gòu)建高效的大數(shù)據(jù)存儲(chǔ)平臺(tái),而其中的高效又是如何來(lái)衡量的呢?高效的第一個(gè)衡量指標(biāo)就是性能。性能是大數(shù)據(jù)存儲(chǔ)平臺(tái)的基石之一,沒有性能的保證,大數(shù)據(jù)系統(tǒng)無(wú)異于空中樓閣。其次,大數(shù)據(jù)強(qiáng)調(diào)的是簡(jiǎn)化使用,提高效率。最后,高效的大數(shù)據(jù)存儲(chǔ)平臺(tái)應(yīng)該采用融合的技術(shù)架構(gòu)。以華為OceanStor 9000大數(shù)據(jù)存儲(chǔ)系統(tǒng)為例,它采用華為首創(chuàng)的全融合創(chuàng)新架構(gòu),可以實(shí)現(xiàn)存儲(chǔ)、分析和歸檔的融合,同時(shí)具有很強(qiáng)的橫向擴(kuò)展能力,最大可擴(kuò)展至288節(jié)點(diǎn),單一文件系統(tǒng)可支持40PB容量。分析功能是指OceanStor 9000中內(nèi)置了分布式數(shù)據(jù)庫(kù),能完成數(shù)據(jù)的快速檢索和查詢,以支持上層應(yīng)用。
華為一直堅(jiān)持“被集成”的策略,這在大數(shù)據(jù)領(lǐng)域同樣適用。華為的大數(shù)據(jù)存儲(chǔ)平臺(tái)可以提供開放的接口,方便與BI軟件和應(yīng)用軟件連接,進(jìn)一步提高查詢效率。在OceanStor 9000這樣的融合平臺(tái)之上,用戶還可以根據(jù)業(yè)務(wù)的情況靈活添加相關(guān)的功能模塊?!霸诖髷?shù)據(jù)方面,我們主要從垂直行業(yè)切入,與行業(yè)ISV緊密合作,為金融、電信運(yùn)營(yíng)商、媒體、智慧城市、石油勘探等領(lǐng)域的用戶提供端到端的大數(shù)據(jù)存儲(chǔ)解決方案?!苯?jīng)寧說(shuō),“雖然我們已在大數(shù)據(jù)存儲(chǔ)市場(chǎng)上取得了豐碩的成果,但是我們更看好大數(shù)據(jù)存儲(chǔ)市場(chǎng)未來(lái)的潛力,因?yàn)槠湓鲩L(zhǎng)速度遠(yuǎn)高于傳統(tǒng)存儲(chǔ)市場(chǎng)?!?/p>
更好的兼容 更經(jīng)濟(jì)的交付
中橋調(diào)研咨詢的調(diào)查結(jié)果顯示,未來(lái)24個(gè)月內(nèi),64.8%的用戶將部署新存儲(chǔ)來(lái)滿足大數(shù)據(jù)時(shí)代業(yè)務(wù)關(guān)鍵型應(yīng)用對(duì)存儲(chǔ)性能越來(lái)越高的需求。王叢表示:“針對(duì)大數(shù)據(jù)應(yīng)用,存儲(chǔ)可以選擇的余地較大,基于一些開源架構(gòu)的基礎(chǔ)平臺(tái)也能滿足大數(shù)據(jù)的需求。未來(lái),大數(shù)據(jù)主要處理的是非結(jié)構(gòu)化數(shù)據(jù),如何將數(shù)據(jù)快速轉(zhuǎn)變?yōu)閮r(jià)值是關(guān)鍵。大數(shù)據(jù)不是一個(gè)產(chǎn)品,而是解決方案,只有將解決方案與應(yīng)用相結(jié)合才可能更好地挖掘數(shù)據(jù)的商業(yè)價(jià)值?!?/p>
綜合多位分析師的觀點(diǎn),在大數(shù)據(jù)存儲(chǔ)領(lǐng)域,國(guó)外廠商仍處于領(lǐng)跑地位,國(guó)內(nèi)廠商如華為也在大數(shù)據(jù)存儲(chǔ)領(lǐng)域保持了高速增長(zhǎng)。各廠商在大數(shù)據(jù)存儲(chǔ)方面各具所長(zhǎng),誰(shuí)能建立更好的客戶關(guān)系和生態(tài)系統(tǒng),使大數(shù)據(jù)存儲(chǔ)解決方案與企業(yè)現(xiàn)有的技術(shù)架構(gòu)兼容,并能實(shí)現(xiàn)更經(jīng)濟(jì)的交付,誰(shuí)就能在大數(shù)據(jù)存儲(chǔ)市場(chǎng)上脫穎而出。endprint