李昊原
數(shù)據(jù)應(yīng)用四階段論。
電商企業(yè)有兩個鮮明的特點,第一是,有許多促銷運營的活動,比如“雙十一”、“雙十二”;第二是,對大數(shù)據(jù)的依賴性很強,借助對數(shù)據(jù)的分析進行精準(zhǔn)推送。
一家企業(yè)一天可以產(chǎn)生多少數(shù)據(jù)呢?幾個例子可以說明問題:一家中大型的游戲公司,每天玩家可以產(chǎn)生600GB的行為數(shù)據(jù);一家互聯(lián)網(wǎng)企業(yè),用戶每天的點擊流和行為數(shù)據(jù)可以達到500GB;而一家醫(yī)療行業(yè),或是生物分析行業(yè)的企業(yè),假如想對幾十萬甚至上百萬人做基因的數(shù)據(jù)分析,人類的DNA是30億個堿基對,那每個人DNA的數(shù)據(jù)大概就是3GB,分析的數(shù)據(jù)量將逼近甚至達到PB級。對一些企業(yè)來說,大數(shù)據(jù)能力不僅是一種追求,而是企業(yè)運營的必需品。
在這樣的數(shù)據(jù)量面前,一個顯而易見的問題是如果電商企業(yè)自建機房,只為應(yīng)對促銷活動時的IT壓力,這意味著購進大量設(shè)備,而在平時,這些資源是被閑置的,這是成本上的浪費。另外,大數(shù)據(jù)平臺的運營和維護成本也比較高。
隨著云計算的興起,企業(yè)紛紛將數(shù)據(jù)遷移到云上,以金山云為例,其存儲企業(yè)的總數(shù)據(jù)量已超過400PB,并以每天500TB的速度在不斷增加,在云上提供大數(shù)據(jù)服務(wù)成了一種必然。
在電商企業(yè)使用云平臺之后,實時數(shù)據(jù)則會通過萬兆網(wǎng)的專線,傳輸?shù)浇鹕皆芀MR(Kingsoft MapReduce,金山云托管Hadoop服務(wù))集群進行處理與分析,然后將處理結(jié)果傳回電商的數(shù)據(jù)中心。在促銷活動時,可以按需購買資源,只需幾分鐘就能靈活擴容與收縮,成本下降效率卻大大提升了。同時,也不必在運營維護上投入過多資源,能更專注于本身的業(yè)務(wù)。對大多數(shù)技術(shù)不夠強的企業(yè)來說,面對突發(fā)情況,KMR的安全性也比自己搭建的大數(shù)據(jù)平臺要更高。
金山云大數(shù)據(jù)和AI技術(shù)總監(jiān)張東進將企業(yè)對云上數(shù)據(jù)的應(yīng)用分為四個階段:最基礎(chǔ)的是將數(shù)據(jù)放到云上,包括對數(shù)據(jù)的存儲和分發(fā);第二個階段,是使用數(shù)據(jù)驅(qū)動決策和運營,包括商務(wù)智能和統(tǒng)計分析;第三個階段,不僅僅用數(shù)據(jù)來驅(qū)動決策和運營,還會利用數(shù)據(jù)來支撐一些關(guān)鍵業(yè)務(wù),比如電商的商品推薦功能,一些傳統(tǒng)制造業(yè)企業(yè),也會用數(shù)據(jù)配合人工智能,去優(yōu)化生產(chǎn)制造流程;第四個階段,完全以數(shù)據(jù)為核心去構(gòu)建業(yè)務(wù)模式,比如今日頭條。
“要是簡單地把企業(yè)分為互聯(lián)網(wǎng)企業(yè)和傳統(tǒng)企業(yè),前者的數(shù)據(jù)意識比較高,又擁有較強的技術(shù)實力,業(yè)務(wù)模式通常也跟數(shù)據(jù)深度綁定,在數(shù)據(jù)應(yīng)用上會走得比較深入。而傳統(tǒng)企業(yè),早期主要是在商業(yè)智能(BI)上應(yīng)用數(shù)據(jù),現(xiàn)在也開始思考如何來應(yīng)用大數(shù)據(jù)。我們發(fā)現(xiàn)一個趨勢,兩年前,傳統(tǒng)企業(yè)認為大數(shù)據(jù)重要,是因為國家和媒體的宣傳,并沒有真正的體會;而現(xiàn)在,他們的競爭對手在用大數(shù)據(jù),他們能感受到差別,也真的認為大數(shù)據(jù)很重要了。不管哪種企業(yè),都可以在這四個階段中滿足自己的需求?!?/p>
硬件革命推動大數(shù)據(jù)“上云”
大數(shù)據(jù)的關(guān)鍵是建立一個穩(wěn)定高效的大數(shù)據(jù)分析平臺。2011年Hadoop開始流行時,大數(shù)據(jù)在實際部署中有一系列難以解決的問題:多租戶模式導(dǎo)致對數(shù)據(jù)安全性的詬??;搭建大數(shù)據(jù)平臺時,需要采購大量設(shè)備,對人員的技術(shù)要求高,時間長達數(shù)月,難以快速部署;對計算能力進行擴容,從采購機器到完成會耗時長,系統(tǒng)缺乏靈活性和可靠性。
與之對應(yīng)的是,當(dāng)時網(wǎng)絡(luò)還在千兆網(wǎng)時代,硬盤是每秒寫次50的SATA,計算方面是Westmere處理器,硬件的不足導(dǎo)致移動海量數(shù)據(jù)的成本高,計算需要在數(shù)據(jù)所在的地方進行,限制了大數(shù)據(jù)技術(shù)的落地。而現(xiàn)在,100G網(wǎng)絡(luò)已經(jīng)出現(xiàn),CPU的計算能力提升了10~20倍,最近發(fā)布的英特爾閃騰P4800X固態(tài)硬盤,每秒寫次達到50萬。硬件的革命性進步,讓計算和存儲可以分開到兩個獨立的集群中,通過高速互聯(lián)網(wǎng)來連接,云上大數(shù)據(jù)平臺的實現(xiàn)成為可能。
KMR就是金山云依托英特爾在硬件方面的實力,推出的云上大數(shù)據(jù)服務(wù),通過數(shù)據(jù)打通,企業(yè)客戶在金山云上以及在自己的數(shù)據(jù)中心產(chǎn)生的數(shù)據(jù),可以在平臺上一站式地做計算、做分析。
起家于IaaS的金山云,過去兩年深耕PaaS領(lǐng)域,更擅長于偏基礎(chǔ)性的平臺服務(wù)。“我們發(fā)現(xiàn),SaaS更像是點上的需求,而PaaS則是廣泛的需求。比如說在一個大型集團中,都會用同一個PaaS來做大數(shù)據(jù)服務(wù)?!贬槍ζ髽I(yè)對SaaS方面的需求,尤其是傳統(tǒng)企業(yè)所需要的能夠直接面對運營和分析人員的數(shù)據(jù)服務(wù),金山云除了自己開發(fā),還通過與合作伙伴合作的方式在KMR上達成。云上大數(shù)據(jù)平臺可以滿足企業(yè)在數(shù)據(jù)處理第一和第二階段的需求,更高階段的數(shù)據(jù)應(yīng)用,需要云上大數(shù)據(jù)和人工智能進行深度融合,這也是金山云接下來的重點方向?!拔覀兛梢酝ㄟ^人工智能技術(shù)改進大數(shù)據(jù)平臺,在數(shù)據(jù)的接入、轉(zhuǎn)換、挖掘,和支撐、賦能企業(yè)業(yè)務(wù)做到更好。”