李昊原
當(dāng)行業(yè)排名前兩位的企業(yè)選擇合并,往往意味著壟斷巨頭的出現(xiàn)和某種模式下市場競爭的告一段落。
不久前,Cloudera和Hortonworks的宣布合并,讓大數(shù)據(jù)領(lǐng)域的競爭也變得撲朔迷離。兩家上市公司為什么要合并?對Hadoop這又意味著什么?都是值得思考的問題。
Hadoop幾乎可以算作大數(shù)據(jù)的代名詞,隨著開源技術(shù)的被廣泛使用,Hadoop已經(jīng)成為事實(shí)上的大數(shù)據(jù)標(biāo)準(zhǔn)。十幾年前,企業(yè)數(shù)據(jù)還普遍是在數(shù)據(jù)倉庫中處理,使用Oracle、SAP、IBM等數(shù)據(jù)相關(guān)軟件,但隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)類型的多樣化,對海量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)以及流式數(shù)據(jù)的處理需求,都成為了舊式商業(yè)軟件的瓶頸。
2003年,Google Lab開發(fā)了Map/Reduce 和 Google File System(GFS),在兩年后的秋天,Hadoop由 Apache Software Foundation 公司作為Lucene的子項目Nutch的一部分正式引入。這一能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架正式出現(xiàn) ,給大數(shù)據(jù)軟件市場帶來了新的機(jī)會。2006 年 3 月,Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被納入Hadoop 的項目中。
對于數(shù)量巨大但單條數(shù)據(jù)價值較低的數(shù)據(jù)類型,比如輿情數(shù)據(jù),在傳統(tǒng)的數(shù)據(jù)倉庫中進(jìn)行分析的性價比較低,遠(yuǎn)不如在基于Hadoop的平臺上更能體現(xiàn)價值。因此在互聯(lián)網(wǎng)領(lǐng)域,Hadoop得到了普遍的應(yīng)用,比如Facebook、百度、雅虎,都使用Hadoop技術(shù)進(jìn)行數(shù)據(jù)處理等工作。作為一項開源技術(shù),雖然可以免費(fèi)下載,但Hadoop本身卻很復(fù)雜,對許多有大數(shù)據(jù)處理需求的公司來說,讓IT部門基于Hadoop進(jìn)行開發(fā)的成本太高,難度也太大。因此,如Cloudera和Hortonworks這樣的創(chuàng)業(yè)公司出現(xiàn)了。
Cloudera成立于2008年,在2009年,Cloudera發(fā)行了第一個Hadoop集成版本——CDH。CDH產(chǎn)品包括企業(yè)版和開源版,在企業(yè)版中,包含管理組件Cloudera Manager,這個組件是閉源的,可以對計算機(jī)集群進(jìn)行管理、部署、升級,監(jiān)控,提供包括數(shù)據(jù)管理、數(shù)據(jù)追溯、安全性保障和多云架構(gòu)管理等功能,在3個月的試用期后,需按照部署節(jié)點(diǎn)的數(shù)目按月交費(fèi),這也是Cloudera的主要盈利模式。
而Hortonworks是從雅虎Hadoop團(tuán)隊剝離成立的創(chuàng)業(yè)公司,不同于Cloudera,Hortonworks的軟件是完全開源的,通過技術(shù)支持來盈利。另外還有一家MapR,這三家公司也常被稱作是Hadoop的三大發(fā)行商。
將開源軟件商業(yè)化的價值在哪里?Cloudera大中華區(qū)的技術(shù)總監(jiān)劉隸放曾對此解釋:“開源并不意味著免費(fèi)”。對一些技術(shù)實(shí)力相對較弱的企業(yè),如金融、電信、制造業(yè)等行業(yè),將帶來大量的IT開發(fā)成本。在這個過程中,由于軟件被不斷發(fā)現(xiàn)BUG,以及需要針對企業(yè)情況去修改和打補(bǔ)丁,每當(dāng)開源項目向下一個版本躍進(jìn)時,所有的補(bǔ)丁都要在新版本上進(jìn)行驗(yàn)證,會帶來非常大的工程化難題,造成積重難返甚至無法更新只能停在舊版本上的窘迫——而有的開發(fā)誤判了開源項目的生命周期,甚至?xí)霈F(xiàn)開源項目中止的尷尬。
而除了促進(jìn)Hadoop的易用化之外,Cloudera和Hortonworks的價值還體現(xiàn)在版本演進(jìn)中,尤其是Cloudera,CDH版本中26個項目有18個是由Cloudera發(fā)起或研發(fā)的,占據(jù)了商業(yè)版平臺的50%,在下載平臺上,甚至超過了60%,是主流的開源版本。這意味著Cloudera在開源社區(qū)里有足夠的話語權(quán),讓產(chǎn)品受益于開源社區(qū)的創(chuàng)新力而又不會失去控制。
也因?yàn)槿绱耍袌鰧loudera以及緊隨其后的Hortonworks都報以期待,2014年Hortonworks成功上市,而同年Cloudera則獲得了來自英特爾7.4億美元的投資,估值高達(dá)41億美元,成為大數(shù)據(jù)公司中最耀眼的獨(dú)角獸。
對于這一輪技術(shù)革命帶來的商業(yè)演進(jìn),我們習(xí)慣稱之為“ABC”時代,然后相對于A(人工智能)和C(云計算),前者涌現(xiàn)了大量的獨(dú)角獸企業(yè),并在應(yīng)用上呈現(xiàn)了遍地開花的景象,后者已經(jīng)實(shí)際上出現(xiàn)了諸如亞馬遜等的云計算巨頭。而以Cloudera等為代表的大數(shù)據(jù)公司,卻顯得有些乏力。
無論是Cloudera還是Hortonworks,,都處于持續(xù)的虧損之中,盈利水平的不足體現(xiàn)在其財報和股價上。Hortonworks上市之初股價曾一度接近30美元,但之后一直在15美元下的地點(diǎn)徘徊;而Cloudera提交IPO申請時的估值和3年前接受英特爾投資時的估值一樣都是41億美元,今年上半年時,由于對2019年收入的預(yù)測低于市場預(yù)期,其股價一度下跌超過28%,目前市值18.62億美元。
造成這一現(xiàn)象的原因很多,首先是Cloudera與Hortonworks等公司的競爭,但競爭并不局限于Hadoop領(lǐng)域。比起Hortonworks和MapR,處于領(lǐng)頭位置的Cloudera更希望與Oracle、SAP等軟件公司對比。但開源軟件的商用化,意味著需要在研發(fā)上投入大量的成本,以滿足大型企業(yè)的需要,而在實(shí)際銷售中,由于大企業(yè)對穩(wěn)定性、業(yè)務(wù)連續(xù)性等的考慮,對比傳統(tǒng)企業(yè)軟件并不一定會占到優(yōu)勢。
另一方面,是來自云計算公司的跨界挑戰(zhàn)。云計算的發(fā)展將越來越多的企業(yè)囊括其中,并催生了亞馬遜AWS等巨頭,而他們本身也會提供托管的Hadoop/Spark服務(wù),如AWS的Elastic Map Reduce(EMR),不僅集成在云平臺內(nèi)部而且成本也更低。而對象存儲服務(wù),如AWS S3,Azure Blob存儲和Google云端存儲,從成本上來說,也低于Hadoop的存儲成本。
在2017年的一次采訪中,Cloudera零售、制造及物聯(lián)網(wǎng)行業(yè)的行業(yè)專家Dave Shuman曾表示,Cloudera與云計算公司并非競爭關(guān)系,而是合作伙伴關(guān)系,重視數(shù)據(jù)資產(chǎn)的大型企業(yè)依舊需要Cloudera的產(chǎn)品。
與此同時,Cloudera也一直致力于向云計算轉(zhuǎn)型,目前在公有云領(lǐng)域,Cloudera已經(jīng)可以在AWS等云平臺上做到存儲對象分離;在私有云領(lǐng)域,也可以支持基于OpenStack和VMvare的私有云平臺,以及混合云的部署。
然而來自云計算公司的競爭壓力依舊客觀存在,實(shí)際上,今年8月份數(shù)據(jù)庫制造商 Redis Labs 將開發(fā)的Redis 模塊的開源協(xié)議的授權(quán)方式變更,矛頭便指向了借助開源獲利的云計算公司。
在今年的10月初,Cloudera和Hortoworks宣布全股票對等合并,其中Cloudera的股東擁有60%股權(quán),Hortonworks的股東擁有40%的股權(quán)。在Hadoop的領(lǐng)域,這意味著“強(qiáng)強(qiáng)聯(lián)手”,而在大數(shù)據(jù)領(lǐng)域,則更像是“抱團(tuán)取暖”。但毫無疑問,這至少可以幫助兩家企業(yè)結(jié)束近十年的競爭,并且依靠壟斷地位早日擺脫長期虧損的窘狀。受此消息影響,兩家公司都隨后大漲,據(jù)2018年10月2日收盤價計算,兩家公司的總股價達(dá)為52億美元。
合并后的兩家公司擁有超過2500名客戶,年收入將達(dá)到7.2億美元,降低1.25億美元成本,并有超過5億美元的現(xiàn)金。在技術(shù)上,兩家公司也可以進(jìn)行互補(bǔ),不過由于雙方存在很多重合的業(yè)務(wù),意味著將在組織架構(gòu)和產(chǎn)品結(jié)構(gòu)上進(jìn)行整合(主要是Cloudera的CDH和Hortonworks的HDP兩條產(chǎn)品線的合并問題),不過他們也承諾,在3年內(nèi)會繼續(xù)提供兩家公司的服務(wù),考慮到Cloudera的產(chǎn)品訂期為1年和3年,這基本可以保證用戶的權(quán)益。而新的公司也會在發(fā)布新的統(tǒng)一版本的產(chǎn)品。
目前有關(guān)合并的細(xì)節(jié)還有許多在挑戰(zhàn)中,不過原Cloudera的CEO Thomas Reilly,也是新公司的CEO對此十分看好,表示新的公司將成為行業(yè)領(lǐng)導(dǎo)者,為客戶提供更好的平臺,創(chuàng)建世界首個企業(yè)數(shù)據(jù)云,并將在云計算、物聯(lián)網(wǎng)和容器技術(shù)等領(lǐng)域繼續(xù)發(fā)力。
而從第三方的角度來看,這無疑會影響整個Hadoop的生態(tài),開源大數(shù)據(jù)目前已經(jīng)成為互聯(lián)網(wǎng)企業(yè)的基礎(chǔ)設(shè)施,兩家公司合并后,意味著Hadoop的標(biāo)準(zhǔn)將更加統(tǒng)一,長期來看新公司的盈利能力也將大幅提升,并將更多的資源用于新技術(shù)的投入。
對此,“三駕馬車”中的MapR曾表示“兩個錯誤也不會導(dǎo)致一個正確”,但從體量和級別上來看,新公司將基本代表Hadoop社區(qū),其他同類型企業(yè)將很難與之競爭。而新公司未來也可能會面對和云計算公司更直接的競爭,或者如Redhat一樣被巨頭收購,這些猜測都要等待新公司重組的進(jìn)一步塵埃落定了。