云計算就是大數(shù)據(jù)這匹駿馬所要的好鞍,只有通過彈性、可靠、自助服務(wù)的云計算平臺,才能充分發(fā)揮大數(shù)據(jù)的威力,讓它縱橫馳騁業(yè)務(wù)的各個疆場。
自從V Mwa re在2013年的全球用戶大會上推出vSphere Big Data Extention(B D E)以來,大數(shù)據(jù)這匹駿馬越來越受到大家的追捧。當(dāng)然B D E主要針對是Hadoop的大數(shù)據(jù)應(yīng)用,其實大數(shù)據(jù)不僅僅是Hadoop,即使只算Hadoop也還有不同的發(fā)布版本。但是無論Hadoop的哪個版本或者哪個大數(shù)據(jù)平臺,都蜂擁開始追隨云計算,就像好馬配好鞍一樣重要,那怎樣的云計算平臺才是大數(shù)據(jù)的好鞍呢?運行環(huán)境平臺:多租戶、資源供應(yīng)和管理。
在過去幾個月的客戶溝通中,我學(xué)習(xí)了運行大數(shù)據(jù)的多種不同平臺,包括Twitter使用的Mesos、Fedex使用的虛擬化和Yahoo使用的Yarn。而不同的云計算平臺特性能解決大數(shù)據(jù)應(yīng)用的不同問題。比如:Yarn的目標(biāo)是支持Hadoop上的非M-R應(yīng)用。而Twitter使用的Mesos則可以支持混合的負載,并且會利用操作系統(tǒng)的虛擬化。由于企業(yè)的大數(shù)據(jù)應(yīng)用場景往往是多樣的,所以需要選擇一種平臺適合不同的應(yīng)用場景,這包括:
●部署新的大數(shù)據(jù)應(yīng)用極其簡單:可以通過自動化和自助服務(wù)來完成;
●可以支持多種不同的負載:也就是能運行多種大數(shù)據(jù)應(yīng)用,不僅僅限于Map-Reduce,還可支持一些Hadoop生態(tài)圈應(yīng)用、SQL服務(wù)和其他通用應(yīng)用;
●可靠的安全隔離:如果需要將某些敏感信息隔離,該平臺有能力確保數(shù)據(jù)集和環(huán)境安全;
●安全的資源隔離:為了能夠提供足夠的資源來滿足整體SLA要求,可以將吵鬧的鄰居隔離來確保性能;
●多版本支持能力:能運行多個不同版本的運行環(huán)境,滿足不同用戶、開發(fā)者要求;
●企業(yè)級的可用性:確保整個系統(tǒng)的強壯性,提供企業(yè)等級的可用性。
對網(wǎng)絡(luò)而言,挑戰(zhàn)和機遇并存。今天兩層核心聚合交換網(wǎng)絡(luò)不能跨機架提供足夠的帶寬。機架內(nèi)的帶寬應(yīng)該沒有問題,經(jīng)??梢赃_到每秒幾百Gbit,但機架間的帶寬往往十分有限,為此往往需要優(yōu)化流量到本地,也就是數(shù)據(jù)和計算完全整合的模式。幸運的是,新的網(wǎng)絡(luò)拓撲,包括CLOS和主干加分支設(shè)計都提供了很好的解決方案。使用這些新型的網(wǎng)絡(luò)拓撲,可以在整個集群延時基本恒定的情況下確保足夠的帶寬,無論是機架內(nèi)還是機架間都不會有帶寬問題。
隨著存儲技術(shù)的不斷發(fā)展,大數(shù)據(jù)的存儲選擇越來越豐富。當(dāng)然Hadoop的HDFS處于最核心圈,但其他的存儲平臺也可以提供跟Hadoop類似、即插即用的兼容能力,并且提供了某些獨特的價值。幾個主要的存儲選項如下:
●傳統(tǒng)的SAN或者NAS:這應(yīng)該算是支撐大數(shù)據(jù)應(yīng)用的最佳存儲選項,因為目前大量的數(shù)據(jù)中心都可以提供這樣的存儲選項,并且也包括了各種存儲服務(wù),例如:快照、歸檔、復(fù)制等;
●服務(wù)器內(nèi)置磁盤構(gòu)建的軟件定義存儲:這方面HDFS是主要的代表,其他的選項包括CEPH、Gluster和MAPR,他們都可以建立文件系統(tǒng),滿足大數(shù)據(jù)的應(yīng)用;
●橫向擴展存儲方案:很多獨具特色的新興公司提供了可以替代H D F S橫向擴展存儲,很好解決了成本和帶寬問題。比如I s i l o n的橫向擴展存儲方案,提供了3到144個節(jié)點的解決方案,可以擴展到15PB、每秒85GB吞吐能力,成為橫向擴展存儲的典型代表。
VMwa re推出的BDE方案也在不斷進步中,為各種不同版本的Hadoop運行提供了強大的支撐。目前BDE已經(jīng)可以和vCloud Automation Center結(jié)合來提供Hadoop集群的自助創(chuàng)建,借助vSphere平臺讓最終用戶可以快速自助創(chuàng)建應(yīng)用,大數(shù)據(jù)的部署難題迎刃而解。大數(shù)據(jù)平臺具有了自動化、自助服務(wù)能力,讓大數(shù)據(jù)再也不是極客的專利,任何大數(shù)據(jù)應(yīng)用的開發(fā)者、管理員都只需要專注自己的大數(shù)據(jù)應(yīng)用本身,而無需關(guān)心底層的架構(gòu)。